劉曉琴
(安徽農(nóng)業(yè)大學(xué) 經(jīng)濟(jì)技術(shù)學(xué)院,安徽 合肥 230000)
無線網(wǎng)絡(luò)優(yōu)化是隨著互聯(lián)網(wǎng)的普及和移動(dòng)終端設(shè)備的快速發(fā)展而被逐漸提及的概念,常指通過硬件檢查、話務(wù)報(bào)表統(tǒng)計(jì)、現(xiàn)場數(shù)據(jù)測試、參數(shù)分析的方式,從掉線率、網(wǎng)絡(luò)接通率、切換成功率等關(guān)鍵指標(biāo)入手,分析網(wǎng)絡(luò)不穩(wěn)定等問題的因素,然后通過參數(shù)調(diào)整、硬件改進(jìn)等技術(shù)手段改善無線網(wǎng)絡(luò)質(zhì)量,為用戶提供更優(yōu)質(zhì)的用戶體驗(yàn)[1,2]。實(shí)現(xiàn)網(wǎng)絡(luò)資源優(yōu)化和提供優(yōu)質(zhì)的無線網(wǎng)絡(luò)服務(wù),才能夠獲得客戶滿意,才能夠進(jìn)一步拓展市場。
無線網(wǎng)絡(luò)的優(yōu)化受到多種因素的影響,網(wǎng)絡(luò)優(yōu)化的過程也是非常復(fù)雜而艱難的。隨著技術(shù)的發(fā)展,用戶對無線網(wǎng)絡(luò)質(zhì)量的要求越來越高,傳統(tǒng)的無線網(wǎng)絡(luò)優(yōu)化就是通過DT/CQT測試模式和KPI處理模式來進(jìn)行技術(shù)的革新,從整體上來看,這種技術(shù)手段能取得比較好的優(yōu)化效果[3]。但是,在一些 KPI技術(shù)良好、DT/CQT測試模式比較一般的區(qū)域,個(gè)體用戶體驗(yàn)會(huì)受到影響,個(gè)體用戶投訴率也會(huì)比較高。采用傳統(tǒng)的手段進(jìn)行網(wǎng)絡(luò)優(yōu)化,對于網(wǎng)絡(luò)覆蓋優(yōu)化的結(jié)果精準(zhǔn)性帶來影響,基礎(chǔ)數(shù)據(jù)質(zhì)量不高:一是由局部向整體衍射的評估方式會(huì)導(dǎo)致CQT、路測分析不準(zhǔn)確;二是MR技術(shù)和KPI技術(shù)無法對用戶的問題進(jìn)行精準(zhǔn)分析,一些關(guān)鍵數(shù)據(jù)信息被忽略;三是一般會(huì)獨(dú)立推進(jìn)2G/3G/4G無線網(wǎng)絡(luò)的優(yōu)化,彼此之間的兼容性不佳,跨系統(tǒng)問題容易影響用戶評價(jià)[4]。
在數(shù)據(jù)爆炸的信息時(shí)代,人們隨時(shí)隨地都會(huì)產(chǎn)生大量數(shù)據(jù),大數(shù)據(jù)分析已經(jīng)被應(yīng)用在生活的方方面面,這也對無線網(wǎng)絡(luò)的優(yōu)化提出了新的要求。通信大數(shù)據(jù)可以分為運(yùn)營商產(chǎn)生的數(shù)據(jù)和用戶產(chǎn)生的數(shù)據(jù),用戶數(shù)據(jù)分為富媒體數(shù)據(jù)和自媒體數(shù)據(jù),運(yùn)營商數(shù)據(jù)包括基礎(chǔ)網(wǎng)路數(shù)據(jù)和日志數(shù)據(jù),運(yùn)營商的數(shù)據(jù)采集方式包括測試報(bào)告(MR)、采集路測(DT)/最小化路測(MDT)、使用習(xí)慣、傳輸分組、終端類型等等?;径四軌颢@取的數(shù)據(jù)包括用戶通話記錄(CDR)、用戶位置、接收信號(hào)強(qiáng)度(RSSI)等。后臺(tái)運(yùn)維可以采取的數(shù)據(jù)包括話務(wù)統(tǒng)計(jì)、測量、信令等[5]?;ヂ?lián)網(wǎng)端能夠獲取視頻、圖片、新聞、應(yīng)用數(shù)據(jù)等。運(yùn)營商能夠采集到的數(shù)據(jù)不僅包括業(yè)務(wù)的類型、流量、網(wǎng)站訪問信息,同時(shí)能掌握整體通信信道的狀況[6]。在大數(shù)據(jù)背景下開展無線網(wǎng)絡(luò)的優(yōu)化,有以下幾個(gè)特征:
一是網(wǎng)絡(luò)覆蓋規(guī)模越來越巨大,無線網(wǎng)絡(luò)的承載量面臨更高的要求。移動(dòng)網(wǎng)絡(luò)的覆蓋會(huì)產(chǎn)生規(guī)模巨大的海量數(shù)據(jù),信息量巨大,增加了數(shù)據(jù)分析的難度,無法做到無線網(wǎng)絡(luò)的全覆蓋和精準(zhǔn)移動(dòng)定位分析。除此之外,移動(dòng)通信網(wǎng)絡(luò)具有非常多的網(wǎng)元,不同制式采用不同模式,網(wǎng)絡(luò)承載力必須不斷提升。
二是數(shù)據(jù)在時(shí)間域和空間域之間存在明顯差異,這也增加了無線網(wǎng)絡(luò)優(yōu)化的難度。無線網(wǎng)絡(luò)在不同區(qū)域的布置方式不同,數(shù)據(jù)結(jié)構(gòu)也有差異,很難將其整合到統(tǒng)一的平臺(tái)中。這種差異性導(dǎo)致無線網(wǎng)絡(luò)部署和優(yōu)化無法全面統(tǒng)一,增加了工作量和工作難度。
三是數(shù)據(jù)都是碎片化、零星化產(chǎn)生的,無線網(wǎng)絡(luò)資源的管控策略也需要逐漸提升。用戶使用的移動(dòng)終端設(shè)備的品牌、型號(hào)不同,設(shè)備的性能有一定差異,用戶行為復(fù)雜,數(shù)據(jù)量大,業(yè)務(wù)體驗(yàn)不同。用戶業(yè)務(wù)模型也具備自身特征,網(wǎng)絡(luò)數(shù)據(jù)繁雜,要想在大量數(shù)據(jù)中分辨出影響網(wǎng)絡(luò)質(zhì)量的關(guān)鍵信息,就必須優(yōu)化數(shù)據(jù)分析模型,降低數(shù)據(jù)分析所需的精力和成本,為用戶提供更好的服務(wù)。
大數(shù)據(jù)分析是基于海量樣本數(shù)據(jù)展開的,對數(shù)據(jù)的豐富性、數(shù)據(jù)量、數(shù)據(jù)準(zhǔn)確性和數(shù)據(jù)的內(nèi)在關(guān)聯(lián)性都提出了要求。下面將著重介紹聚類分析、關(guān)聯(lián)分析兩種大數(shù)據(jù)分析策略,并基于此介紹大數(shù)據(jù)預(yù)測分析理論。
聚類分析是在海量數(shù)據(jù)基礎(chǔ)上,從數(shù)據(jù)多樣性、速度、數(shù)量等幾個(gè)屬性定義復(fù)雜數(shù)據(jù),然后根據(jù)數(shù)據(jù)的屬性進(jìn)行聚類,或者用相似類別的模式來劃分大量基礎(chǔ)數(shù)據(jù)。聚類分析能夠簡化數(shù)據(jù)的處理,提取數(shù)據(jù)的特征信息點(diǎn),將同類型的數(shù)據(jù)歸納起來,然后對其進(jìn)行預(yù)測分析。結(jié)合跨類別的數(shù)據(jù)關(guān)聯(lián)分析,提煉數(shù)據(jù)價(jià)值,能夠?qū)⒃緹o序、離散、紛雜的基礎(chǔ)信息組織起來,挖掘數(shù)據(jù)價(jià)值。
采集大量無線網(wǎng)絡(luò)運(yùn)行基礎(chǔ)數(shù)據(jù),并對其進(jìn)行分析歸納,通過聚類分析可以獲得比較穩(wěn)定的群體性活動(dòng)的聚類資源。關(guān)聯(lián)分析能夠幫助找尋出聚類后數(shù)據(jù)的內(nèi)在聯(lián)系,從不同緯度綜合分析數(shù)據(jù)的利用價(jià)值,這是利用大數(shù)據(jù)分析解決問題的關(guān)鍵步驟。
預(yù)測分析就是幫助數(shù)據(jù)分析師在數(shù)據(jù)基礎(chǔ)上對未來可能的事件進(jìn)行預(yù)測判斷,數(shù)據(jù)挖掘和數(shù)據(jù)的可視化展示分析能夠幫助人們更加深入的理解數(shù)據(jù)。
借助大數(shù)據(jù)的聚類分析和分類算法,完成無線網(wǎng)絡(luò)異常小區(qū)的識(shí)別,采用數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)技術(shù)分析電信網(wǎng)絡(luò)基站,識(shí)別距離群點(diǎn),進(jìn)而判斷網(wǎng)絡(luò)基站小區(qū)的網(wǎng)絡(luò)存在的潛在問題,然后建立小區(qū)分類模型,對每個(gè)基站小區(qū)的特征數(shù)據(jù)點(diǎn)進(jìn)行判斷,識(shí)別存在網(wǎng)絡(luò)異常的小區(qū)。
采用Spark提供的機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)庫MLlib,它支持回歸、分類、聚類、關(guān)聯(lián)規(guī)則、降維和優(yōu)化等問題處理。在解決無線網(wǎng)絡(luò)異常小區(qū)識(shí)別問題時(shí),主要采用聚類和分類的算法,本文采用基于劃分方法的KMeans算法完成聚類分類,然后將基站小區(qū)按照性能特征進(jìn)行分類。
KMeans算法流程:
第一步:確定聚類中心總數(shù),用K表示,然后隨機(jī)的選擇K個(gè)特征向量;
第二步:確定算法的迭代次數(shù),用N表示,將第三步和第四步循環(huán)運(yùn)行N次;
第三步:計(jì)算聚類中心和特征向量之間的距離,并將特征向量分配到和它距離最近的分組中;
第四步:重新計(jì)算各個(gè)小組的聚類中心;
第五步:算法輸出K個(gè)聚類中心。
評估算法的結(jié)果,可以用組內(nèi)平方和WCSS公式來完成:
上式中,xi表示的是其中一個(gè)特征向量,ck表示的是這個(gè)特征向量分屬的類別的聚類中心向量。如果WCSS值越小,則說明分類的內(nèi)部越密集,聚類的效果越好。
基站小區(qū)的分類是一個(gè)多元分類的問題,考慮到基站小區(qū)的特征屬性表示方式,主要用邏輯回歸分類算法和決策樹分類算法。邏輯回歸算法的結(jié)果輸出是一個(gè)二項(xiàng)邏輯回歸的模型,針對特征向量,類別判斷借助下述公式完成:
無線網(wǎng)絡(luò)異常小區(qū)識(shí)別的算法,首先是要構(gòu)造描述基站小區(qū)的特征向量,然后對所有的基站小區(qū)進(jìn)行聚類分類。根據(jù)聚類的結(jié)果,如果類中基站小區(qū)的個(gè)數(shù)在基站小區(qū)總數(shù)中所占比例比較小,則表明該基站小區(qū)的特征向量是一個(gè)離群的點(diǎn),然后分析離群點(diǎn)的聚類中心的向量特點(diǎn),判斷其關(guān)鍵指標(biāo)是否確實(shí)存在異常。在此基礎(chǔ)上,構(gòu)建基站小區(qū)的分類模型,最終形成網(wǎng)絡(luò)異常小區(qū)的識(shí)別模型,只要輸入基站小區(qū)的關(guān)鍵性能指標(biāo),就能夠判斷基站小區(qū)是否有網(wǎng)絡(luò)異常,實(shí)現(xiàn)小區(qū)網(wǎng)絡(luò)異常的智能識(shí)別功能。
此次以CDMA網(wǎng)絡(luò)基站小區(qū)為案例進(jìn)行分析,基站小區(qū)的特征屬性包括天線的角度、天線覆蓋范圍、用戶數(shù)量、異常掉線次數(shù)、網(wǎng)絡(luò)下切用戶數(shù)量、EVDO和CMA1X在網(wǎng)時(shí)間、EVDO上行和下行流量,CDMA1X上行和下行流量等,在此基礎(chǔ)上構(gòu)建基站小區(qū)特征向量。
對基站小區(qū)的特征向量進(jìn)行聚類分析,按照上述算法進(jìn)行計(jì)算,得出聚類中心個(gè)數(shù)和分析誤差關(guān)系,隨著聚類中心的增加,聚類分析的誤差會(huì)逐漸降低。如果聚類中心的數(shù)量超過了20,那么誤差變化趨勢就會(huì)趨于平緩,繼續(xù)增加聚類中心個(gè)數(shù)對聚類準(zhǔn)確性影響不大,所以聚類基站小區(qū)的最佳個(gè)數(shù)為20個(gè)。
圖1 聚類中心個(gè)數(shù)與WCSS關(guān)系
聚類分析運(yùn)算結(jié)果如表1所示。
表1基站小區(qū)網(wǎng)絡(luò)數(shù)據(jù)聚類分析結(jié)果
對上述數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)類別1、2和4的基站個(gè)數(shù)比較少,分析聚類中心的特征,發(fā)現(xiàn)CDMA1X在網(wǎng)時(shí)間長并且網(wǎng)絡(luò)流量高,所以需要對基站的EVDO網(wǎng)絡(luò)進(jìn)行優(yōu)化。類別3的基站數(shù)也少,基站用戶少但是流量高,所以應(yīng)該更加合理的分配基站系統(tǒng)資源,確保為用戶提供更優(yōu)質(zhì)的服務(wù)。類別10和類別18的基站,掉線次數(shù)比較高,所以需要對基站的無線信號(hào)覆蓋情況進(jìn)行專業(yè)檢查。類別12和16的基站參數(shù)中無線制式回落次數(shù)高,說明基站的EVDO網(wǎng)絡(luò)信號(hào)比較差,需要對基站進(jìn)行故障排查。
通過對大數(shù)據(jù)應(yīng)用背景下的無線網(wǎng)絡(luò)優(yōu)化的介紹,分析了大數(shù)據(jù)分析在無線網(wǎng)絡(luò)優(yōu)化中的應(yīng)用,并以基站小區(qū)網(wǎng)絡(luò)異常評估為例分析基于大數(shù)據(jù)應(yīng)用的無線網(wǎng)絡(luò)優(yōu)化方案,驗(yàn)證大數(shù)據(jù)分析技術(shù)在網(wǎng)絡(luò)優(yōu)化決策分析和工作部署中的重要作用。