許鴻奎李鑫邵星姜彤彤宮淑蘭
(1.山東建筑大學(xué) 信息與電氣工程學(xué)院,山東 濟南250101;2.山東省智能建筑技術(shù)重點實驗室,山東 濟南250101)
隨著移動通信網(wǎng)絡(luò)的發(fā)展,第2、3、4代移動通信技術(shù)網(wǎng)絡(luò)并存,第5代移動通信技術(shù)也在逐漸擴大商用的規(guī)模,網(wǎng)絡(luò)形態(tài)變得更加復(fù)雜。這種情況下,多網(wǎng)并存導(dǎo)致的無線網(wǎng)絡(luò)頻段分配緊張以及系統(tǒng)互干擾增強等問題日益嚴重,上行干擾成為了亟待解決的焦點問題。長期演進LTE(Long Term Evolution)網(wǎng)絡(luò)中的上行干擾會造成切換成功率低、業(yè)務(wù)速率下降,嚴重影響了用戶的體驗?,F(xiàn)有的干擾排查方法是依靠網(wǎng)絡(luò)優(yōu)化工作人員根據(jù)路測結(jié)果或者網(wǎng)管中的指標等發(fā)現(xiàn)干擾,結(jié)合話務(wù)報告干擾分析的嚴重級別和干擾存在的時間,到現(xiàn)場利用掃頻設(shè)備觀察底噪曲線的變化情況,從而確定干擾類型。雖然這種方法能夠?qū)π^(qū)的受干擾情況進行精準定位,但是其主要依賴優(yōu)秀工作人員的經(jīng)驗判斷,效率較低,不適合大面積推廣。
科研工作者們在移動通信網(wǎng)絡(luò)的上行干擾自動化識別方面進行了深入的研究。翁文迪[1]根據(jù)分時長期演進TD-LTE(Time Division-Long Term Evolution)F頻段上行干擾的產(chǎn)生機理分析了相應(yīng)的波形特征,并結(jié)合共站址信息,提出了使用異系統(tǒng)干擾識別算法對小區(qū)進行干擾檢測,為后續(xù)的排查工作提供了理論基礎(chǔ)。孫黎明[2]利用同類波形特征提出了基于逆向傳播BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)的自動干擾排查算法。但是,研究人員忽略了實際上行干擾數(shù)據(jù)中存在不平衡的問題,其會導(dǎo)致機器學(xué)習(xí)算法的錯分率上升[3]。針對此問題,詹皓粵[4]通過主成分分析PCA(Principal Component Analysis)與偏度特性相結(jié)合,降維提取了物理資源模塊PRB(Physical Resource Block)數(shù)據(jù),實現(xiàn)了對分類模型的性能優(yōu)化。通過改變特征提取方法,雖然能夠在一定程度上改善模型性能,但是特征失去了可解釋性,并且丟失部分的信息。
目前,上行干擾自動化識別的研究主要針對TD-LTE 1800 MHz頻段,而對頻分雙工—長期演進FDD-LTE(Frequency Division Duplexing-Long Term Evolution)系統(tǒng)的上行干擾分析較少。經(jīng)過分析發(fā)現(xiàn),F(xiàn)DD-LTE 900 MHz頻段的上行干擾問題較為嚴重,極大地影響了用戶的業(yè)務(wù)體驗,因此,對其研究已經(jīng)刻不容緩[5]。文章提出了基于加權(quán)隨機森林的上行干擾分類方法,可以有效地解決FDD-LTE網(wǎng)絡(luò)中上行干擾數(shù)據(jù)存在不平衡的問題,是提高上行干擾分類準確率的有效方法,在實現(xiàn)智能化網(wǎng)絡(luò)優(yōu)化中具有重要的研究意義。
在移動通信網(wǎng)絡(luò)中,系統(tǒng)間的上行干擾可以分為雜散干擾、阻塞干擾、互調(diào)干擾和外部干擾[6]。文章主要針對中國移動900 MHz FDD-LTE(889~909 MHz/934~954 MHz頻段)進行上行干擾分析。
雜散干擾是指其他通信系統(tǒng)存在非線性工作器件,其在工作頻段外產(chǎn)生無用的信號輻射導(dǎo)致FDDLTE系統(tǒng)接收到無用信號,形成對有用信號的同頻干擾。受干擾小區(qū)在受到雜散干擾時,干擾波形呈現(xiàn)滾降特性,頻點前端的干擾功率值隨著PRB頻點的增加而降低。根據(jù)我國網(wǎng)絡(luò)頻譜劃分情況可知,電信850 MHz FDD-LTE在系統(tǒng)間隔離度非常小的情況下,會存在雜散干擾。
互調(diào)干擾是由于天饋系統(tǒng)相關(guān)器件存在非線性問題導(dǎo)致設(shè)備在發(fā)射信號時形成了互調(diào)產(chǎn)物,其頻率在FDD-LTE系統(tǒng)信號接收器的接收范圍內(nèi)會使信號接收器的信噪比下降,造成服務(wù)質(zhì)量的下降。受干擾小區(qū)在受到互調(diào)干擾時,主要體現(xiàn)在干擾波形有多個突起,且突起處連續(xù)的PRB頻點數(shù)不超過4個,如圖1(a)所示。根據(jù)頻譜劃分可知,聯(lián)通GSM 900 MHz的上行頻段為909~915MHz,2f1-f2的互調(diào)產(chǎn)物恰好落于移動900 MHz FDD-LTE的頻段范圍內(nèi),產(chǎn)生互調(diào)干擾。
阻塞干擾是由于FDD-LTE系統(tǒng)的接收設(shè)備接收到帶外強的干擾信號,使接收設(shè)備鏈路的有源器件達到飽和狀態(tài)并產(chǎn)生失真,受干擾系統(tǒng)接收設(shè)備靈敏度下降,無法接收到有用信號。阻塞干擾的波形圖主要表現(xiàn)在每個頻點的干擾功率均有一定程度的提升,一般>5 dBm即為阻塞干擾,如圖1(b)所示。電信850 MHz FDD-LTE基站設(shè)備系統(tǒng)隔離度不足是造成移動900 MHz FDD-LTE阻塞干擾的最大原因,而私裝直放站也是導(dǎo)致阻塞干擾的重要因素。
所有移動通信系統(tǒng)之外的干擾源引起的干擾統(tǒng)稱為外部干擾。主要的外部干擾源有信號屏蔽器和信號干擾裝置等。建網(wǎng)初期,對GSM 900 MHz頻段干擾排查不徹底也會造成嚴重的外部干擾。此類干擾在波形圖上主要表現(xiàn)為受干擾處會呈現(xiàn)一個尖峰 突起,如圖1(c)所示。
圖1 上行干擾波形圖
決策樹是一種樹形結(jié)構(gòu)的機器學(xué)習(xí)算法[7],由根節(jié)點、非葉子節(jié)點和葉子節(jié)點組成,其結(jié)構(gòu)如圖2所示。
圖2 決策樹結(jié)構(gòu)圖
決策樹為遞歸結(jié)構(gòu),由根節(jié)點自上而下進行數(shù)據(jù)訓(xùn)練和預(yù)測,根據(jù)不同的相似度計算標準,將數(shù)據(jù)中具有一定相似度的子集劃分出來,產(chǎn)生多個分支,到達決策樹的葉子節(jié)點則停止劃分。葉子節(jié)點根據(jù)最大樹深度或者最小葉子數(shù)進行設(shè)置,1個葉子節(jié)點代表數(shù)據(jù)的1個分類結(jié)果。決策樹根據(jù)特征劃分依據(jù)的不同,可以分為基于信息熵、信息增益、信息增益率和基尼不純度的決策樹。假設(shè)數(shù)據(jù)量為N的訓(xùn)練樣本集合D可以分為K個類別,則其建立不同決策樹的信息熵H(D)、信息增益g(D,a)、信息增益率gR(D,a)和基尼不純度Gini(D)由式(1)~(4)表示為
式中nk為第k個類別的數(shù)量;v為樣本集根據(jù)特征a劃分的子集數(shù)量,取值范圍為[1,V]。
隨機森林是以決策樹為基礎(chǔ)的一種集成學(xué)習(xí)算法[8]。其隨機生成多個不相關(guān)的決策樹,每個決策樹各自獨立地進行學(xué)習(xí)和預(yù)測,通過投票的方式將這些預(yù)測合成單預(yù)測,得票最多的類別即模型預(yù)測結(jié)果,其結(jié)果優(yōu)于決策樹。
假設(shè)輸入為訓(xùn)練樣本集合D,決策樹的迭代次數(shù)為M次,隨機森林的生成步驟為
(1)對樣本訓(xùn)練集進行第m次采樣,其中m為整數(shù),取值范圍為[1,M]。隨機采集n次,得到含有n個樣本的訓(xùn)練集Dm;
(2)在決策樹進行節(jié)點劃分時,全部n個輸入變量不完全參與節(jié)點分裂,而是隨機抽取k(k≤n)個隨機特征變量,k的取值一般為2 log2n+1,將k個特征中最佳的特征作為節(jié)點進行分裂,訓(xùn)練得到第m個使用分類與回歸樹CART(Classification and Regression Trees)算法生成的決策樹Gm;
(3)CART決策樹基于基尼不純度進行特征劃分,當(dāng)基尼不純度越小時,代表不純度越小,其特征越好,最終生成M棵CART決策樹形成隨機森林;
(4)通過計算投票數(shù)決定數(shù)據(jù)屬于哪一類,隨機森林算法流程如圖3所示。
決策樹算法計算速度快便于理解,但是容易過擬合,并且在處理不平衡數(shù)據(jù)時,特征劃分會傾向選擇數(shù)值更多的特征。隨機森林與決策樹算法相比,準確率高且不容易過擬合,但是在不平衡數(shù)據(jù)集中,少數(shù)類的分類準確率依然不高。針對不平衡數(shù)據(jù)集的分類問題,文章提出了采用加權(quán)隨機森林[9]提升較少類分類準確率的方法。
圖3 隨機森林算法流程圖
機器學(xué)習(xí)算法為了最小化整體錯誤率會忽略數(shù)量較少類的分類情況,在訓(xùn)練時容易形成有利于多數(shù)類分類的模型。為了改善此情況,加權(quán)隨機森林遵循了代價敏感學(xué)習(xí)的思想,通過賦予較少類更大的權(quán)重來增大較少類的影響,平衡樣本之間的關(guān)系可以使生成的模型更加適合不平衡數(shù)據(jù),提高少數(shù)類分類結(jié)果的正確率[10]。
類權(quán)重主要體現(xiàn)在:(1)在決策樹的生長過程中,采用加權(quán)基尼不純度GI的減少量Δgi尋找最優(yōu)的劃分特征,其值越大,代表不純度越小,分離效果越好,計算式由式(5)和(6)表示為
式中K為總類別數(shù);J為未分離的節(jié)點處的樣本集,其中JL為分離的左側(cè)節(jié)點樣本集,JR為分離的右側(cè)節(jié)點樣本集;ni為節(jié)點內(nèi)的各類樣本數(shù);Wi為分配給每類的類權(quán)重值。
(2)在葉子節(jié)點處確定類別時,通過結(jié)合每棵決策樹的加權(quán)投票來確定最終分類結(jié)果c,由式(7)[11]表示為
進行二分類權(quán)重設(shè)置時,可以設(shè)定多數(shù)類的類權(quán)重值為1,對較少類的類權(quán)重值從小到大設(shè)置并依次進行實驗,直到錯分率急劇增加,確定錯分率最小時的值為較少類的類權(quán)重。分類時,若遍歷所有的類權(quán)重,工作量將過于龐大,一般選擇具有代表性的權(quán)值進行實驗。研究表明:以樣本值的比例或者錯分值的比例為依據(jù)設(shè)置類權(quán)重比較合適,但是較少類過大的類權(quán)重會使整體或者其他類的錯分率升高,導(dǎo)致性能下降,所以通常選擇2或3作為錯分數(shù)多或樣本數(shù)少的類的權(quán)重,不需設(shè)置過大的權(quán)重[11]。
傳統(tǒng)的網(wǎng)絡(luò)優(yōu)化只能通過路測[12]、定點測試來獲得用戶的感知信息,而路測和定點測試只能對交通主干道和重點場所進行測試,所獲得的采樣點數(shù)據(jù)相對較少。測量報告MR(Measurement Report)是手機上報的數(shù)據(jù),其地點、時間的限制很少,可以獲得豐富的數(shù)據(jù)點信息,而MR數(shù)據(jù)應(yīng)用在網(wǎng)絡(luò)優(yōu)化方面則可以更加全面、準確地得到分析結(jié)果。
MR數(shù)據(jù)分為統(tǒng)計數(shù)據(jù)MRS(Measurement Report Statistics)和樣本數(shù)據(jù)MRO(Measurement Report Original)。MRO數(shù)據(jù)是海量原始數(shù)據(jù)經(jīng)過數(shù)據(jù)的分發(fā)、整合、處理、匯總為報表,用于開發(fā)上層應(yīng)用[13]。FDD-LTE系統(tǒng)將MRO數(shù)據(jù)中25個PRB上的信號干擾電平作為網(wǎng)絡(luò)管理的上行干擾指標。文章采用某地區(qū)MRO數(shù)據(jù)中PRB0~PRB24的15 min上行平均干擾電平作為樣本,共1 268條數(shù)據(jù),部分原始數(shù)據(jù)見表1。
表1 部分原始數(shù)據(jù)表 單位:dBm
根據(jù)定點測試中干擾門限不應(yīng)>-110 dBm,設(shè)定干擾閾值為-110 dBm;由于平均每PRB抬高>5 dBm為阻塞干擾,設(shè)定阻塞閾值為-105 dBm。根據(jù)上述規(guī)則,并結(jié)合上行干擾波形圖,對數(shù)據(jù)進行特征提取,見表2。
表2 干擾特征說明表
為了探究加權(quán)隨機森林在FDD-LTE上行干擾分類的表現(xiàn)情況,文章設(shè)計了對比實驗,整體實驗流程如圖4所示。
圖4 整體流程圖
實驗步驟如下:
(1)根據(jù)上行干擾波形圖,對FDD-LTE上行干擾數(shù)據(jù)進行標注,并提取統(tǒng)計干擾特征,得到標注后的干擾特征數(shù)據(jù)集;
(2)采用分層抽樣將干擾特征數(shù)據(jù)集分為訓(xùn)練集和測試集,根據(jù)訓(xùn)練集建立決策樹分類器、隨機森林分類器和加權(quán)隨機森林分類器;
(3)利用測試集測試分類器的穩(wěn)定性和準確性,并根據(jù)測試結(jié)果得到每類分類器最合適的參數(shù),對比分析分類結(jié)果。
樣本集根據(jù)上行干擾電平波形圖進行判斷和標記,得到互調(diào)干擾、阻塞干擾、外部干擾和無干擾依次為62、106、216、884個。對樣本集進行隨機分層抽樣,分別在多數(shù)類和少數(shù)類中抽取大約2/3的樣本組合作為訓(xùn)練集用于構(gòu)建分類器模型,剩余樣本作為測試集測試分類器性能。樣本集數(shù)據(jù)情況見表3。
表3 樣本集數(shù)據(jù)表 單位:個
當(dāng)隨機森林中決策樹的棵數(shù)較少時,其性能較差、分類誤差大。當(dāng)決策樹的棵數(shù)盡量大時,能夠確保決策樹的多樣性,從而提高分類的準確率,但是棵數(shù)過多會降低隨機森林運行速度、加長運行時間[14]。為了確定隨機森林中決策樹的棵數(shù)與干擾分類正確率之間的關(guān)系,根據(jù)不同的決策樹棵數(shù)分別建立隨機森林模型,決策樹棵數(shù)與分類正確率之間的關(guān)系曲線如圖5所示。
圖5 決策樹棵數(shù)與分類正確率關(guān)系圖
由圖5可知,隨著決策樹棵數(shù)的增加,正確率整體呈上升趨勢,當(dāng)決策樹的棵數(shù)為900時,分類的正確率最高。因此,隨機森林中決策樹的棵數(shù)設(shè)定為900。
加權(quán)隨機森林雖然能夠在一定程度上提高不平衡數(shù)據(jù)中較少類的分類準確率,但是設(shè)置合適的類權(quán)重非常重要,權(quán)值設(shè)置不當(dāng)會降低整體分類正確率。為了設(shè)置最合適的權(quán)值,設(shè)定最小葉子數(shù)為3,決策樹棵數(shù)為900,選擇不同的權(quán)值進行實驗,選擇袋外錯誤率最小的一組權(quán)值作為加權(quán)隨機森林的參數(shù)最為合理。每次實驗的袋外錯誤率見表4。
表4 不同權(quán)值下加權(quán)隨機森林的袋外錯誤率表 單位:%
由表4可知,第1組設(shè)置為原始權(quán)值,第2組設(shè)置為每類樣本數(shù)量的反比,其余權(quán)值根據(jù)錯分率的大小排序,對其設(shè)置2~4的權(quán)值進行實驗,當(dāng)權(quán)值設(shè)置為2∶1∶1∶1時,較少類的分類錯誤率最小,因此設(shè)定其為加權(quán)隨機森林的權(quán)值。
實驗使用相同的訓(xùn)練集構(gòu)建不同的分類器,并在相同測試集中進行樣本預(yù)測,分別對決策樹、隨機森林和加權(quán)隨機森林3種分類器進行測試,得到的分類結(jié)果見表5。
表5 不同分類器的正確率表
由表5可知,隨機森林較決策樹分類正確率提高了1.66%,運行時間是決策樹運行時間的1/2,但是由于較少類總數(shù)量少,錯分代價大,隨機森林分類情況并不理想,互調(diào)干擾分類正確率僅有65.22%。加權(quán)隨機森林與隨機森林相比,互調(diào)干擾分類正確率提高了8.69%,外部干擾分類正確率提高了1.74%,證明了加權(quán)隨機森林可以提高較少類的分類正確率。
為了全面直觀地反映每一類分類器的分類效果,每個分類器分類結(jié)果的混淆矩陣[15]如圖6所示,其中互調(diào)干擾、阻塞干擾、外部干擾和無干擾分別標記為1、2、3和4。
圖6 不同分類器的混淆矩陣圖
混淆矩陣的每1行之和表示該類別的真實樣本數(shù)量,每1列之和表示被預(yù)測為該類別的樣本數(shù)量,其清晰地顯示出每一類的錯分情況。由圖6(a)可知,第1行數(shù)據(jù)中,正確預(yù)測為互調(diào)干擾的樣本有14個,錯誤預(yù)測為阻塞干擾和外部干擾的樣本分別有2、7個。通過對每個分類器的分類結(jié)果比較發(fā)現(xiàn),加權(quán)隨機森林與決策樹相比,互調(diào)干擾、阻塞干擾和外部干擾正確分類的個數(shù)均增多了3個,無干擾正確分類的個數(shù)增多了1個;加權(quán)隨機森林與隨機森林相比,互調(diào)干擾正確分類的個數(shù)增多了2個,外部干擾正確分類的個數(shù)增多了1個。
綜上所述,在不平衡的FDD-LTE上行干擾數(shù)據(jù)的分類中,加權(quán)隨機森林較少類的分類正確個數(shù)有所增加,分類性能優(yōu)于決策樹和隨機森林,說明加權(quán)隨機森林能夠有效地解決FDD-LTE上行干擾數(shù)據(jù)不平衡的問題,改善較少類分類準確度較低的現(xiàn)象,而且運行速度快,分類準確率高,能夠較好地實現(xiàn)FDD-LTE上行干擾的智能化分類。
文章針對FDD-LTE上行干擾分類問題建立了一種基于加權(quán)隨機森林的上行干擾分類模型,對比分析了決策樹、隨機森林和加權(quán)隨機森林3種分類器的分類結(jié)果,得到以下結(jié)論:
(1)加權(quán)隨機森林根據(jù)數(shù)據(jù)較少類的數(shù)量或者錯分率,設(shè)置合適的權(quán)值能夠提高較少類分類的準確率。當(dāng)權(quán)值設(shè)置為2∶1∶1∶1時,較少類的分類錯誤率最小,其互調(diào)干擾和阻塞干擾的分類正確率分別達到73.91%和96.67%。
(2)與決策樹和隨機森林相比,加權(quán)隨機森林在不平衡的FDD-LTE上行干擾數(shù)據(jù)處理中具有最好的分類效果。決策樹和隨機森林的分類正確率分別為93.85%和95.51%,加權(quán)隨機森林的分類正確率達到了96.22%,而運行時間僅有0.98 s。