楊林根,鄒景永
(1.廣東水利電力職業(yè)技術(shù)學(xué)院計算機系,廣州510635;2.廣東白云學(xué)院計算機系,廣州510450)
隨著4G網(wǎng)絡(luò)的普及,為了網(wǎng)絡(luò)的穩(wěn)定,使網(wǎng)民在優(yōu)越的網(wǎng)絡(luò)環(huán)境中娛樂或辦公,確保LTE的基站性能穩(wěn)定是一個重要的基礎(chǔ)。因此實時監(jiān)控LTE性能計數(shù)器是一個必要的環(huán)節(jié),判斷性能計數(shù)器是否正常工作,是否出現(xiàn)故障,或預(yù)測性能計數(shù)器是否即將出現(xiàn)故障,從而及時作出處理。確保網(wǎng)民的良好的網(wǎng)絡(luò)體驗。
LTE基站的建設(shè)越多,傳統(tǒng)的維護檢測方式大大增大成本。因此采用有效的檢測方式是維護LTE基站的基礎(chǔ)。在大數(shù)據(jù)的驅(qū)動下,本方將使用LTE基站中的性能數(shù)據(jù),分析出基站的運行情況,做到及時反饋及預(yù)測,從而使用戶有更好的上網(wǎng)體驗。
為了能夠較準確地從數(shù)據(jù)中分析LTE基站的性能,經(jīng)分析,得出以下指標能夠?qū)Ψ治鯨TE基站性能有較大的關(guān)聯(lián)(以下計算公式為通用公式,與基站直接提供的計算方式區(qū)別)。
(1)RRC連接建立成功率
干擾或者弱覆蓋,會導(dǎo)致無線鏈路質(zhì)量差,導(dǎo)致信令不能正常收發(fā),系統(tǒng)資源緊張也可能導(dǎo)致無線資源可分配導(dǎo)致無法建立RRC連接。
RRC連接建立成功率=RRC連接建立成功次數(shù)/RRC連接建立請求次數(shù)*%。
(2)E-RAB建立成功率
無線環(huán)境的優(yōu)劣、智能天線的性能、相關(guān)參數(shù)的設(shè)置合理性都會影響E-RAB建立成功率。
E-RAB建立成功率=(Attach過程E-RAB建立成功數(shù)目+Service Request過程E-RAB建立成功數(shù)目+承載建立過程E-RAB建立成功數(shù)目)/(Attach過程ERAB請求建立數(shù)目+Service Request過程E-RAB請求建立數(shù)目+承載建立過程E-RAB請求建立數(shù)目)×100%。
(3)E-RAB掉線率=(eNodeB觸發(fā)的釋放原因為異常的E-RAB釋放總次數(shù)+小區(qū)切換出E-RAB異常釋放總次數(shù))/E-RAB建立成功總次數(shù)×100%。
(4)負荷(基站主控板、信道板平均負荷值)
該數(shù)據(jù)只能反映計算器的運行情況。
(5)CQI高階占比
SINR低導(dǎo)致CQI占比差,進而MCS階數(shù)低,最終影響網(wǎng)絡(luò)下行速率。CQI高階占比對基站優(yōu)化起重要作用。
(6)上行PRB平均利用率
(7)下行PRB平均利用率
(8)PDCP層上行用戶面流量
(9)PDCP層下行用戶面流量
在詳細調(diào)查各項業(yè)務(wù)流程的基礎(chǔ)上,確立該分析系統(tǒng)由FTP文件掃描下載模塊、XML文件解析模塊、文件數(shù)據(jù)抽取模塊、Hive統(tǒng)計調(diào)度模塊、Sqoop加載入庫模塊、性能預(yù)測模塊組成。
本系統(tǒng)除了實現(xiàn)相應(yīng)的功能模塊之外,還需要結(jié)合使用的實際情況,確保系統(tǒng)的穩(wěn)定性、可擴展性、可維護性、高效性。系統(tǒng)要求從采集到數(shù)據(jù)加載入庫在15分鐘內(nèi)完成30G的數(shù)據(jù)分析,不能出現(xiàn)任務(wù)滯留。
在機器學(xué)習(xí)中,數(shù)據(jù)是輸入,也是起點。數(shù)據(jù)質(zhì)量的高低或優(yōu)劣將直接影響最終的算法效果[1]。因此,需對上述原始數(shù)據(jù)進行必要的數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)歸約和數(shù)據(jù)離散化等數(shù)據(jù)預(yù)處理步驟。
數(shù)據(jù)預(yù)處理后進行主成分分析,有利于消除邏輯回歸模型分析中各特征指標存在的多重共線性,即每個指標都在不同程度上反映了所研究問題的某些信息,并且指標之間彼此有一定的相關(guān)性,因而所得的統(tǒng)計數(shù)據(jù)反映的信息在一定程度上有重疊;另一方面,主成分分析能夠?qū)崿F(xiàn)降維從而減少不必要的計算開銷[2]。
因此,本文采取主成分分析法對原始指標進行主成分分析(即尋找能夠反映原始數(shù)據(jù)的關(guān)鍵因子),并計算出各主成分的貢獻度,一般選取累計貢獻度超過80%的主成分因子形成新指標空間。但本系統(tǒng)中不剔除維度。
將新特征指標進行線性映射目的是將主成分分析的輸出結(jié)果進行變換滿足邏輯回歸模型的輸入要求。
經(jīng)過上述主成分分析后,提取出的新指標空間(即主成分)zi將其進行線性映射到新的空間分量θi為:
其中,βi是各新指標zi的貢獻度,即主成分分析中計算出來的貢獻度。
在計數(shù)器性能分析問題的建模中,采用了邏輯回歸(Logistic Regression)模型。
其中,θi為新指標空間的線性映射結(jié)果。
系統(tǒng)架構(gòu)是系統(tǒng)設(shè)計的基本所在,本系統(tǒng)可簡單的分為三層結(jié)構(gòu),源數(shù)據(jù)層、數(shù)據(jù)分析層、數(shù)據(jù)運用層。源數(shù)據(jù)層是通過Java采集程序采集LTE計數(shù)器數(shù)據(jù)進行預(yù)處理并存儲在HDFS中,主要存儲清單級文件。數(shù)據(jù)分析層是以Hive為主的數(shù)據(jù)分析,主要是對清單數(shù)據(jù)進行統(tǒng)計,加載等操作。數(shù)據(jù)運用層是面向用戶的,主要是數(shù)據(jù)的可視化及功能展示[3]。
圖1 系統(tǒng)架構(gòu)圖
在繪制系統(tǒng)結(jié)構(gòu)圖的過程,實際上就是對系統(tǒng)功能模塊進行分解設(shè)計的過程,即合理地將數(shù)據(jù)流程圖轉(zhuǎn)變?yōu)樗枰南到y(tǒng)結(jié)構(gòu)圖。
系統(tǒng)結(jié)構(gòu)圖能直觀地了解系統(tǒng)的結(jié)構(gòu)模式,理解系統(tǒng)的各個功能的結(jié)構(gòu),能更方便使用和理解整個系統(tǒng)。
本系統(tǒng)主要分為六大模塊,每個模塊都是一個運行的程序,通過任務(wù)表的關(guān)系將六個模塊串聯(lián)起來,從數(shù)據(jù)的流向程序的基本結(jié)構(gòu)圖如圖2所示。
數(shù)據(jù)庫是各個業(yè)務(wù)工作流程的末端,系統(tǒng)所有業(yè)務(wù)都需要依賴數(shù)據(jù)庫,由此可知數(shù)據(jù)庫在系統(tǒng)中所起的作用。構(gòu)建一個高效的數(shù)據(jù)庫模型,有助于提升數(shù)據(jù)的存取效率,進而會影響到系統(tǒng)的性能。因此在進行系統(tǒng)設(shè)計時,數(shù)據(jù)庫設(shè)計是極其重要的一環(huán),需給予重視。
圖2 系統(tǒng)功能結(jié)構(gòu)圖
在設(shè)計數(shù)據(jù)庫模型時,需遵循設(shè)計的基本準則,具體如下:
(1)實體表不能既無主鍵也無外鍵,若數(shù)據(jù)庫中存在上述實體表,則會加大后續(xù)的數(shù)據(jù)分析難度,影響系統(tǒng)性能。
(2)在使用面向數(shù)據(jù)的SQL語言進行程序設(shè)計時,盡量采取優(yōu)化算法。
圖3 數(shù)據(jù)關(guān)系模型設(shè)計
本系統(tǒng)主要是通過對LTE基站主要性能指標數(shù)據(jù)進行統(tǒng)計分析處理,實時預(yù)測監(jiān)控基站性能,面對故障及時采取應(yīng)對措施,或提前做好預(yù)防工作。解決數(shù)據(jù)量的變化對LTE基站帶來的影響。