陳 鋒,李張錚,連 慧(中國聯(lián)通福州分公司,福建福州 350000)
在目前5G 網(wǎng)絡(luò)大規(guī)模部署背景下,要拉動(dòng)5G 業(yè)務(wù)收入增長,運(yùn)營商面臨的首要關(guān)鍵問題是5G用戶的常駐區(qū)域的網(wǎng)絡(luò)質(zhì)量。保障最容易出問題的覆蓋地點(diǎn),是5G網(wǎng)絡(luò)端網(wǎng)協(xié)同優(yōu)化的重中之重。傳統(tǒng)網(wǎng)絡(luò)保障通過路測數(shù)據(jù)(DT)或者測量數(shù)據(jù)(MR)分析發(fā)現(xiàn)網(wǎng)絡(luò)缺陷,其中DT 數(shù)據(jù)只能反映點(diǎn)線上的問題,無法做到全網(wǎng)精細(xì)化評估,而MR 數(shù)據(jù)雖然全面但是5G R15版本終端暫不支持帶位置信息的測量數(shù)據(jù),即使后續(xù)版本支持也存在部分終端不上報(bào)MR 位置的問題,對5G網(wǎng)絡(luò)質(zhì)量的評估造成影響。
機(jī)器學(xué)習(xí)技術(shù)作為人工智能的重要組成部分,是國家發(fā)展戰(zhàn)略重點(diǎn)扶持的目標(biāo)[1]和當(dāng)下各行業(yè)關(guān)注應(yīng)用的焦點(diǎn)。本文通過使用用戶終端APP 上產(chǎn)生的用戶無線網(wǎng)絡(luò)數(shù)據(jù)(OTT)來補(bǔ)償5G MR 的缺陷,利用神經(jīng)網(wǎng)絡(luò)算法[2]和DBSCAN 聚類算法[3]構(gòu)建5G用戶位置模型和弱覆蓋小區(qū)分布,為5G用戶網(wǎng)絡(luò)感知精細(xì)化保障奠定良好基礎(chǔ)。
在當(dāng)下5G 端網(wǎng)協(xié)同優(yōu)化中,5G 用戶感知精細(xì)化保障始終是一個(gè)難點(diǎn)。由于5G MR 不攜帶用戶經(jīng)緯度信息,網(wǎng)絡(luò)分析嚴(yán)重依賴于人的優(yōu)化經(jīng)驗(yàn)等方面的特點(diǎn),急需引入大數(shù)據(jù)和機(jī)器學(xué)習(xí)的優(yōu)化方式,實(shí)現(xiàn)5G端網(wǎng)協(xié)同優(yōu)化的智能化。
MR 是UE 在網(wǎng)絡(luò)中上報(bào)的無線網(wǎng)絡(luò)測量數(shù)據(jù),包含小區(qū)電平、小區(qū)質(zhì)量和小區(qū)覆蓋范圍等無線環(huán)境指標(biāo)。在4G 中MR 還包含了測量報(bào)告發(fā)生地點(diǎn)的經(jīng)緯度信息,網(wǎng)優(yōu)人員可以利用經(jīng)緯度信息來評估特定地點(diǎn)的網(wǎng)絡(luò)覆蓋情況,對網(wǎng)絡(luò)感知進(jìn)行精細(xì)化保障。目前5G 用戶級(jí)MR 文件不攜帶經(jīng)緯度數(shù)據(jù),MR 平臺(tái)僅有天級(jí)的小區(qū)MR 指標(biāo),對感知差的特定時(shí)間、特定位置和特定用戶無法進(jìn)行精細(xì)化網(wǎng)絡(luò)指標(biāo)分析,造成網(wǎng)絡(luò)優(yōu)化的瓶頸。
傳統(tǒng)端網(wǎng)協(xié)同優(yōu)化主要通過路測或者用戶投訴發(fā)現(xiàn)無線網(wǎng)絡(luò)覆蓋問題,是目前主流的網(wǎng)絡(luò)優(yōu)化方法,其能在一定程度上解決無線覆蓋問題,但對于覆蓋問題不能第一時(shí)間解決,往往在問題發(fā)生后才能進(jìn)行排查;解決問題階段,目前主流分析方法為人工分析、排查收集到的質(zhì)差數(shù)據(jù),判斷弱覆蓋類型、弱覆蓋原因并預(yù)估解決方案,分析人員的主觀判斷在這個(gè)過程中起主要作用,容易出現(xiàn)誤判且消耗大量人力[4]。
5G 終端MR 經(jīng)緯度位置信息的缺失直接影響到5G端網(wǎng)協(xié)同精細(xì)化分析,只能實(shí)現(xiàn)小區(qū)級(jí)的網(wǎng)絡(luò)質(zhì)量分析,另外傳統(tǒng)根據(jù)MR 采樣點(diǎn)人工搜尋弱覆蓋區(qū)域的優(yōu)化方法費(fèi)時(shí)費(fèi)力。面對5G網(wǎng)絡(luò)不斷壯大的規(guī)模,亟待MR精細(xì)化智能化應(yīng)用的出現(xiàn)。
本文通過研究OTT 數(shù)據(jù)和MR 數(shù)據(jù)的關(guān)聯(lián)性,利用機(jī)器學(xué)習(xí)算法基于OTT 數(shù)據(jù)建立5G 用戶位置預(yù)測模型,再遷移到MR 數(shù)據(jù)上進(jìn)行應(yīng)用,預(yù)測出5G 用戶MR 發(fā)生位置。計(jì)算出MR 的位置后,對MR 的主小區(qū)電平值進(jìn)行聚類分析,得到弱覆蓋小區(qū)分布。該算法可在網(wǎng)絡(luò)指標(biāo)優(yōu)化、RF 優(yōu)化、用戶投訴分析等網(wǎng)優(yōu)日常5G優(yōu)化工作中起到積極作用。
3.1.1 OTT數(shù)據(jù)
OTT數(shù)據(jù)來自于真實(shí)的用戶在真實(shí)的應(yīng)用場景下產(chǎn)生的真實(shí)網(wǎng)絡(luò)狀況,而且覆蓋范圍廣,包含異網(wǎng)運(yùn)營商甚至Wi-Fi運(yùn)營商的信息。
OTT數(shù)據(jù)采集的主要內(nèi)容如下。
a)數(shù)據(jù)覆蓋數(shù)百個(gè)手機(jī)APP,包括視頻、直播、新聞、支付等。
b)數(shù)據(jù)覆蓋中國的安卓用戶,包含三大運(yùn)營商及2G/3G/4G/5G網(wǎng)絡(luò)用戶。
c)數(shù)據(jù)包含無線網(wǎng)質(zhì)量、Wi-Fi、定位、時(shí)間、基站、終端及APP等信息。
具體地,OTT 大數(shù)據(jù)采集信息包括用戶一些特定的APP 上報(bào)的終端型號(hào)、運(yùn)營商標(biāo)識(shí)、網(wǎng)絡(luò)制式、網(wǎng)絡(luò)設(shè)備標(biāo)識(shí)、網(wǎng)絡(luò)指標(biāo)(如RSRP、RSRQ 及SINR)、鄰區(qū)PCI、鄰區(qū)電平、經(jīng)緯度、室內(nèi)外標(biāo)識(shí)、檢測最強(qiáng)Wi-Fi信息、Wi-Fi信號(hào)強(qiáng)度等(見表1)。
表1 OTT數(shù)據(jù)采集字段信息
3.1.2 MR數(shù)據(jù)
MR 數(shù)據(jù)主要來自終端對周邊無線網(wǎng)絡(luò)環(huán)境進(jìn)行測量時(shí)產(chǎn)生的報(bào)告。MR 數(shù)據(jù)包含終端當(dāng)前位置服務(wù)小區(qū)/鄰區(qū)ID、頻點(diǎn)、PCI、RSRP、RSRQ 和SINR 等無線測量信息,目前R15 版本不支持經(jīng)緯度位置信息的上報(bào)。5G MR數(shù)據(jù)和OTT數(shù)據(jù)的對應(yīng)關(guān)系如表2所示。
表2 OTT字段和MR數(shù)據(jù)對應(yīng)關(guān)系
受限于R15 5G 終端MR 不包含經(jīng)緯度,如何利用AI 手段學(xué)習(xí)已有的帶位置信息的數(shù)據(jù)來預(yù)測不帶位置信息的5G MR 樣本成為網(wǎng)優(yōu)智能化的重要方向。本文對獲取到的5G用戶OTT數(shù)據(jù),嘗試使用神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)樣本進(jìn)行訓(xùn)練生成用戶位置預(yù)測模型,鑒于全網(wǎng)統(tǒng)一建模的效果不理想,將數(shù)據(jù)分地域進(jìn)行差異化建模,取得了較好的預(yù)測效果(見圖1)。
圖1 基于OTT數(shù)據(jù)的5G用戶位置預(yù)測流程
3.2.1 數(shù)據(jù)集準(zhǔn)備
根據(jù)獲取到的某市聯(lián)通5G用戶OTT數(shù)據(jù),結(jié)合小區(qū)工參中經(jīng)緯度、區(qū)縣、方位角、下傾角和覆蓋類型,共生成39 個(gè)特征維度和2 個(gè)標(biāo)簽維度的數(shù)據(jù),將數(shù)據(jù)按7∶3的比例切分為訓(xùn)練集和測試集,如表3所示。
表3 訓(xùn)練集/測試集特征標(biāo)簽
3.2.2 數(shù)據(jù)預(yù)處理
3.2.2.1 高基數(shù)特征處理
基數(shù)(cardinality)指的是類別特征所有可能的不同值的數(shù)量,對于高基數(shù)的類別特征,直接使用Label Encoding 和One-Hot Encoding 的數(shù)據(jù)預(yù)處理的方法往往得不到令人滿意的結(jié)果[5]。分析此處enbid、pci類別特征可以發(fā)現(xiàn)存在高基數(shù)問題,如果直接進(jìn)行One-Hot 編碼會(huì)形成上百列的稀疏矩陣,易消耗大量內(nèi)存和訓(xùn)練時(shí)間;同時(shí)映射之間完全獨(dú)立,并不能表示出不同類別之間的關(guān)系。本文基于神經(jīng)網(wǎng)絡(luò)算法使用Embedding 層來處理高基數(shù)特征,Embedding 技術(shù)的一個(gè)非常普遍的應(yīng)用就是實(shí)現(xiàn)高維稀疏特征向量向低維稠密特征向量的轉(zhuǎn)換,也就是把離散特征經(jīng)過獨(dú)熱編碼后的稀疏向量表達(dá)轉(zhuǎn)化成稠密的特征向量表達(dá)。訓(xùn)練中可以通過優(yōu)化網(wǎng)絡(luò)的參數(shù)和權(quán)重來減少損失以改善embedding表示。
3.2.2.2 室分小區(qū)方位角的表示
通常工參里覆蓋類型為室分的小區(qū)方位角都是0,這與實(shí)際室分小區(qū)為全向覆蓋不符,故室分小區(qū)的方位角需修正。修正方法如下:若室分小區(qū)與宏站鄰小區(qū)同經(jīng)緯度,則室分小區(qū)取宏站鄰小區(qū)的方位角;若室分小區(qū)與室分鄰小區(qū)同經(jīng)緯度,則室分小區(qū)方位角取值-1;若室分小區(qū)與鄰小區(qū)不同經(jīng)緯度,則室分小區(qū)方位角取室分小區(qū)與鄰小區(qū)連線與正北方向的順時(shí)針夾角(r見圖2)。
圖2 室分小區(qū)方位角定義
設(shè)室分小區(qū)經(jīng)緯度(X1,Y1),鄰小區(qū)經(jīng)緯度(X2,Y2),具體小區(qū)連線夾角r計(jì)算公式如下:
圖3給出了室分小區(qū)方位角特征校正代碼。
圖3 室分小區(qū)方位角特征校正代碼
3.2.3 神經(jīng)網(wǎng)絡(luò)模型構(gòu)建及訓(xùn)練
本文神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)采用Embedding 層+全連接層的構(gòu)建方式,模型結(jié)構(gòu)如圖4所示。模型共包括4個(gè)隱藏層,第一隱藏層包含3×2 個(gè)Embedding 層輸入s_enbid/n1_ enbid/n2_ enbid 和s_pci/n1_pci/n2_pci 高基數(shù)特征和1個(gè)Dense層輸入其他數(shù)值特征;后面連續(xù)接3 個(gè)Dense 層,最后輸出層有2 個(gè)神經(jīng)元分別對應(yīng)經(jīng)緯度。建模框架使用tensorflow2.0 的keras 庫,主要使用的網(wǎng)絡(luò)層有Embedding、Dense,另外還涉及優(yōu)化器、損失函數(shù)等訓(xùn)練參數(shù)的配置。訓(xùn)練中的訓(xùn)練集和驗(yàn)證集損失函數(shù)變化如圖5 所示,驗(yàn)證集loss 從0.017 9降低到0.007 2,達(dá)到較好的訓(xùn)練效果。
圖4 基于OTT數(shù)據(jù)的5G用戶位置預(yù)測神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
圖5 神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練集損失值和驗(yàn)證集損失值變化曲線
訓(xùn)練參數(shù)配置如下。
a)激活函數(shù):ReLU函數(shù)的變種ELU。
b)優(yōu)化器:Adma。
c)損失函數(shù):MeanAbsoluteError。
d)超參數(shù):訓(xùn)練輪數(shù)為356,批大小為200,使用tf.keras.callbacks.ReduceLROnPlateau()自動(dòng)動(dòng)態(tài)調(diào)整學(xué)習(xí)率。
3.2.4 用戶位置預(yù)測結(jié)果及分析
使用獲取到的某市全網(wǎng)13 個(gè)區(qū)縣所有OTT 5G 用戶數(shù)據(jù)進(jìn)行訓(xùn)練,測試集上預(yù)測全網(wǎng)用戶位置平均誤差為210 m,各誤差段(以100 m 為標(biāo)準(zhǔn))的分布如圖6所示。
圖6 神經(jīng)網(wǎng)絡(luò)模型預(yù)測用戶位置誤差距離分布
觀察預(yù)測結(jié)果誤差分布,可以發(fā)現(xiàn)誤差在不同區(qū)縣間存在明顯的差異(見圖7),原因可能是地域間網(wǎng)絡(luò)結(jié)構(gòu)的不同或者用戶行為不同。其中該市全網(wǎng)平均預(yù)測誤差為210 m,有4 個(gè)區(qū)優(yōu)于平均水平;普通郊區(qū)誤差大于200 m,特別偏遠(yuǎn)地區(qū)誤差最大,在1 km左右。
圖7 基于神經(jīng)網(wǎng)絡(luò)模型的OTT平均預(yù)測誤差
受實(shí)際環(huán)境中不同區(qū)縣間的網(wǎng)絡(luò)發(fā)展不平衡和用戶行為習(xí)慣不同等因素的影響,采用全網(wǎng)全量數(shù)據(jù)建立統(tǒng)一的模型存在如下缺陷:數(shù)據(jù)分布差異大,導(dǎo)致模型性能不佳;數(shù)據(jù)量巨大,模型訓(xùn)練時(shí)間長。因此后續(xù)考慮對每個(gè)區(qū)縣分開建模,建立差異化模型,提升模型精確度。
3.2.5 差異化分地域神經(jīng)網(wǎng)絡(luò)建模結(jié)果分析
分別選取某市五城區(qū)OTT 5G 用戶數(shù)據(jù)樣本作為訓(xùn)練集進(jìn)行神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練,并在測試集進(jìn)行測試,平均誤差距離為74 m,相對全網(wǎng)統(tǒng)一建模神經(jīng)網(wǎng)絡(luò)算法精度有較大提升。改進(jìn)后該市五城區(qū)的差異化建模測試效果如表4所示。
表4 某市五城區(qū)差異化模型用戶位置預(yù)測效果
建立差異化用戶位置預(yù)測模型后,根據(jù)表2 中OTT 字段和5G 用戶MR 數(shù)據(jù)對應(yīng)關(guān)系,將預(yù)測模型輸入的OTT 特征替換為MR 樣本特征,預(yù)測出5G MR 的經(jīng)緯度。后續(xù)就可利用帶經(jīng)緯度的5G 用戶MR 開展5G網(wǎng)絡(luò)優(yōu)化工作。
對于龐大復(fù)雜的5G無線網(wǎng)絡(luò),網(wǎng)絡(luò)覆蓋問題層出不窮,現(xiàn)有無線覆蓋分析的局限性日趨明顯,如何盡可能減少人工路測成本和分析成本、提高分析判斷準(zhǔn)確性成為重中之重[6]。本文實(shí)現(xiàn)基于DBSCAN 算法的5G智能覆蓋優(yōu)化,在5G用戶MR位置可以預(yù)測的基礎(chǔ)上,利用密度聚類算法定位問題,高效挖掘MR 弱覆蓋區(qū)域。
5G MR 數(shù)據(jù)攜帶終端接收電平值等反映無線網(wǎng)絡(luò)覆蓋的信息,再加上前面建立的5G MR 位置預(yù)測模型得到5G MR 所在經(jīng)緯度信息,在空間上可以通過密度聚類算法對存在弱覆蓋問題的樣本點(diǎn)進(jìn)行聚類分析,挖掘得到弱覆蓋區(qū)域。對某產(chǎn)業(yè)園用戶5G MR 采樣點(diǎn)進(jìn)行篩選,定義服務(wù)小區(qū)RSRP<-110 dBm 的采樣點(diǎn)為弱覆蓋點(diǎn),共篩選出弱覆蓋采樣點(diǎn)1 923 個(gè),如圖8所示。
圖8 某產(chǎn)業(yè)園5G弱覆蓋點(diǎn)分布
對這些弱覆蓋點(diǎn)開展模型參數(shù)搜索,設(shè)定DBSCAN 參數(shù)最少樣本個(gè)數(shù)以10 為步長,從10 變化到50,半徑取0.5。從計(jì)算結(jié)果可以發(fā)現(xiàn),當(dāng)最少樣本個(gè)數(shù)為10 時(shí)輪廓系數(shù)值最高。此時(shí)聚類數(shù)量為23 個(gè),即發(fā)現(xiàn)該區(qū)域有23 個(gè)弱覆蓋場景需要RF 優(yōu)化(見圖9)。對比原始弱覆蓋采樣點(diǎn)的位置,可以發(fā)現(xiàn)DBSCAN 算法精準(zhǔn)地定位到了弱覆蓋的位置,避免了人工搜索。
圖9 基于OTT+MR數(shù)據(jù)的5G覆蓋智能優(yōu)化
傳統(tǒng)5G端網(wǎng)協(xié)同優(yōu)化是網(wǎng)優(yōu)工作的重點(diǎn)和難點(diǎn),人工優(yōu)化方法費(fèi)時(shí)費(fèi)力。由于當(dāng)前5G 用戶級(jí)MR 不支持?jǐn)y帶經(jīng)緯度信息,優(yōu)化中無法使用MR 數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)精細(xì)化分析。本文通過引入OTT 數(shù)據(jù)建立5G 用戶位置預(yù)測模型,利用OTT 與MR 數(shù)據(jù)的關(guān)聯(lián)性獲得5G 用戶級(jí)MR 的經(jīng)緯度信息。在此基礎(chǔ)上,開展基于DBSCAN 算法的5G MR 覆蓋智能分析,提升了優(yōu)化效率,實(shí)現(xiàn)5G端網(wǎng)協(xié)同優(yōu)化的智能化。