肖振鋒,伍曉平,徐志強,劉浩田,馬潔明,伍仁勇
(1.國網(wǎng)湖南省電力有限公司經(jīng)濟技術研究院,湖南長沙,410004;2.國網(wǎng)湖南省電力有限公司,湖南長沙,410004;3.湖南大學信息科學與工程學院,湖南長沙,410082)
在智能電網(wǎng)中,電力無線網(wǎng)絡可以基本滿足輸變電和配用電網(wǎng)智能全覆蓋、信息全采集的通信需求[1],但具有投資大、建設周期長、技術實現(xiàn)復雜等缺點。網(wǎng)絡覆蓋面、傳輸容量都會制約通信網(wǎng)絡的整體性能和投資收益,木桶效應明顯。為實現(xiàn)網(wǎng)絡覆蓋、傳輸容量和投資三者之間的平衡,必須根據(jù)地區(qū)社會經(jīng)濟發(fā)展規(guī)劃對無線網(wǎng)絡進行準確規(guī)劃[2],而網(wǎng)絡覆蓋是網(wǎng)絡規(guī)劃工作的關鍵。基站分布和通信參數(shù)規(guī)劃直接決定了網(wǎng)絡覆蓋性能[3]。對無線網(wǎng)絡規(guī)劃方案的覆蓋性能進行評估,可以提前發(fā)現(xiàn)網(wǎng)絡規(guī)劃方案不合理之處,進而指導網(wǎng)絡規(guī)劃方案不斷改進與完善[3],提高最后工程投入-產(chǎn)出比?,F(xiàn)有覆蓋性能評價一般只是根據(jù)無線傳播模型進行正向仿真,已有部分商業(yè)工具軟件可以實現(xiàn)此類的性能仿真和評估,但這些技術路線往往還需要結合大量實地參數(shù)測量和覆蓋模型理論分析,成本很高,且對從業(yè)人員專業(yè)技能有一定要求,難以推廣使用,目前通常憑借技術人員的經(jīng)驗對網(wǎng)絡規(guī)劃方案優(yōu)劣進行定性判斷,而這常導致建成后的網(wǎng)絡有效覆蓋面出現(xiàn)較大偏差,技術指標與業(yè)務需求不匹配。近年來,各種機器學習新算法不斷涌現(xiàn)[4-5],隨著電力業(yè)務量和通信網(wǎng)絡技術的不斷積累,人們嘗試找到與之匹配的網(wǎng)絡規(guī)劃覆蓋性能評價方法,提高投入-產(chǎn)出比。通過構造符合當?shù)貙嶋H的無線環(huán)境數(shù)據(jù)模型以及網(wǎng)絡規(guī)劃方案對應的無線特征,預測網(wǎng)絡建成后的覆蓋性能,最終得到網(wǎng)絡規(guī)劃區(qū)域內覆蓋性能的優(yōu)劣評估(0-1 標簽標定)的準確數(shù)據(jù),相對于傳統(tǒng)技術路線,可以減少大量參數(shù)實測和理論分析工作。網(wǎng)絡規(guī)劃方案的覆蓋性能評價是一個典型的分類問題,與機器學習中的分類思想相符。在解決分類問題方面,有KNN(K 最近鄰算法)[6]、RF(隨機森林算法)[7-8]、DT(決策樹算法)[9-10]、GBDT(梯度提升決策樹算法)[11]等多種機器學習算法[12-13]。本文應用隨機森林算法,采用集成學習[14]的思想集成多棵獨立的決策樹,通過建立多個分類器的組合來解決單一預測問題。
機器學習是一個復雜迭代的過程。沒有任何集成工具可用于整個機器學習處理流程,需要將工具和處理流程結合在一起才能解決實際工程問題。
機器學習是一種數(shù)據(jù)分析技術,算法直接從大量歷史數(shù)據(jù)中“學習”信息,而不依賴于預定程序模型。當可用于學習的樣本數(shù)量增加時,這些算法可自適應地提高性能。機器學習總是從一個明確的問題和目標開始,圖1所示為機器學習的一般過程。
圖1 機器學習的一般過程Fig.1 General processes of machine learning
1)收集數(shù)據(jù)。數(shù)據(jù)可以來自電子表格、文本文件和數(shù)據(jù)庫等。適合的數(shù)據(jù)數(shù)量和種類越多,機器學習模型就越精確。
2)準備數(shù)據(jù)。包括數(shù)據(jù)清理和解析、刪除或糾正異常值(失控的錯誤值),然后,將數(shù)據(jù)分成訓練數(shù)據(jù)和測試數(shù)據(jù)兩部分。
3)訓練模型。針對一組訓練數(shù)據(jù)(用于識別數(shù)據(jù)中的模式或相關性)和測試數(shù)據(jù)(用于預測或分類),使用重復測試和誤差改進方法來逐步提高模型精度。
4)評估模型。通過比較結果與測試數(shù)據(jù)集的準確度來評估模型。為了確保測試是無偏的和獨立的,不能對用于訓練模型的數(shù)據(jù)集進行模型評估。
5)部署和改進??梢試L試不同算法或者收集更多種類或更多數(shù)據(jù),以提高模型預測或分類的準確度。
無線網(wǎng)絡規(guī)劃方案的覆蓋性能評價是對網(wǎng)絡覆蓋區(qū)域內的無線信號范圍和質量優(yōu)劣進行判定,屬于分類問題,圖2所示為該分類問題的示例。從圖2可知網(wǎng)絡覆蓋性能以無線信號質量(廣播控制信道接收功率)是否達標作為主要評判標準,接收功率大于-80 dB·mW 表示無線信號質量優(yōu),標記為1,反之標記為0。最后,根據(jù)各地網(wǎng)絡覆蓋情況,得到網(wǎng)絡規(guī)劃方案的整體網(wǎng)絡覆蓋性能。顯然,這個過程與機器學習過程高度契合。本文基于機器學習中的隨機森林算法構建網(wǎng)絡規(guī)劃方案覆蓋性能評估模型。
圖2 無線信號質量分類示例Fig.2 A classification example of wireless signal quality
覆蓋性能評估模型的訓練實際上就是通過對大量歷史數(shù)據(jù)蘊含的統(tǒng)計知識進行學習和固化,不斷優(yōu)化評估模型的參數(shù)。
影響無線網(wǎng)絡覆蓋的因素有很多,上行包括基站接收靈敏度、天線分集增益、終端發(fā)射功率、傳播損耗等,下行包括有效全向輻射功率、總發(fā)射功率、路徑損耗、信號頻段、終端距離基站的距離、天線增益、天線掛高、下傾角、方位角、點播傳播場景(市區(qū)和郊區(qū))和地形環(huán)境(平原、山區(qū)和丘陵)等[3]。在設計和構造無線網(wǎng)絡數(shù)據(jù)模型時,特征越多、越準確,則最終模型的預測結果越準確。
另一方面,這些影響因素之間往往存在著某些相關性,如發(fā)射功率直接影響傳輸距離,天線掛高則可以影響路徑損耗。若對數(shù)據(jù)不進行任何處理直接應用于隨機森林算法訓練,則可能使森林中不同樹之間具有較強的相關性,導致分類準確率下降。本文采用ZCA(zero-phase component analysis,零相位分量分析方法)[15]白化方法,首先將原始數(shù)據(jù)映射到新的特征空間,使數(shù)據(jù)各維度特征間獨立不相關,再將數(shù)據(jù)映射回初始空間,使處理后的數(shù)據(jù)更加接近原始數(shù)據(jù),并保證數(shù)據(jù)各維度的方差相同。
例如,給定含有m個樣本、維度為n的數(shù)據(jù)集X,即X∈Rn×m,對其進行ZCA 白化的算法步驟如下。
1)計算數(shù)據(jù)集的協(xié)方差矩陣Σ:
2)對協(xié)方差矩陣進行奇異值分解得到特征向量u1,u2,…,un,可以得到特征向量矩陣U,利用UTX得到數(shù)據(jù)集經(jīng)過旋轉后的結果Xrot,即
3)對數(shù)據(jù)集進行PCA(principal components analysis)[15]白化,將Xrot中的每一維都除以λi(其中,λi為協(xié)方差矩陣對角線元素),使輸入特征具有單位方差。PCA白化定義為
4)將XPCAwhite,i與特征向量矩陣U相乘,得到需要的ZCA白化:
上述過程保留了數(shù)據(jù)的全部n個維度,得到的數(shù)據(jù)更加接近原始數(shù)據(jù)。
網(wǎng)絡規(guī)劃方案覆蓋性能評估本質上可以歸為1個二分類問題。
2.2.1 構建數(shù)據(jù)集
根據(jù)目標區(qū)域歷史數(shù)據(jù)中的標志(ID)字段查詢獲得的基站信息,然后根據(jù)對應地點經(jīng)緯度、基站經(jīng)緯度、方位角等計算距離和方位角差角。結合以往經(jīng)驗并考慮數(shù)據(jù)獲取難易程度,本文選擇8個特征,共同構成輸入向量為
式中:d為終端距離基站的距離;p為基站發(fā)射功率;z為基站天線方位角差值;n為基站天線下傾角;h為基站高度;f為基站頻率;c為覆蓋類型對應的類別號;b為基站類型對應的類別號。定義無線信號質量閾值T,輸出以該閾值T為分割點,廣播控制信道接收大于T的數(shù)據(jù)設置標簽為1,小于T的數(shù)據(jù)設置標簽為0。
對大小為m的原始數(shù)據(jù)集Sn,采取自助法(bootstrap)重采樣技術,隨機且有放回地從原始數(shù)據(jù)集中抽取m0個樣本(其中m0<m),重復w次,構建出w個不同的訓練子集Sn1,Sn2,…,Snw。
2.2.2 生成決策樹
應用CART[16]算法構造決策樹。決策樹每個內部節(jié)點表示一個屬性上的測試,每個分支代表1個測試輸出,每個葉節(jié)點代表一種類別。每個樣本的特征維度記為n,隨機地從n個特征中選取c個特征(其中c<<n),利用這些特征對選出的訓練樣本建立決策樹。在決策樹構造過程中,每次分裂時都從特征中選擇最優(yōu)的一個特征,每棵樹都最大程度地生長,沒有剪枝過程,這樣降低了樹之間的相似性,使得隨機森林不容易陷入過擬合,具有較強的抗噪能力。
2.2.3 構建組合分類模型
重復上述過程,對w個不同的訓練集進行訓練生成w棵決策樹,從而形成隨機森林。顯然,w棵決策樹對應w個不同的分類模型,然后集成所有分類模型的投票結果,將投票次數(shù)最多的類別指定為最終的分類結果,構成如下多模型分類系統(tǒng):
其中:H(x)為組合分類模型;h(xi)為第i棵決策樹的分類模型;Vmajority_vote表示多數(shù)投票決策機制(算法)函數(shù);w為決策樹數(shù)量。該組合分類模型的構建利用了當?shù)氐臍v史數(shù)據(jù),是對當?shù)責o線網(wǎng)絡覆蓋模型的重構,與當?shù)氐臒o線使用環(huán)境保持一致。
2.2.4 模型參數(shù)優(yōu)化
構建隨機森林分類模型的關鍵是確定特征數(shù)量c和決策樹數(shù)量w的最優(yōu)參數(shù),這可以通過計算袋外錯誤率(out-of-bag error)[17]來判決。一般約有1/3 的訓練樣本沒有參與第k棵樹的生成,這些樣本即為第k棵樹的袋外(out-of-bag)樣本。袋外錯誤估計可以分為3步。
1)假設共有w棵決策樹,則對數(shù)據(jù)集中的1個樣本xi而言,它作為袋外樣本的樹約為w/3棵,這也意味著該樣本可以作為這w/3 棵樹的測試樣本,然后計算這w/3棵樹對該樣本的分類情況。
2)對w/3棵樹的分類結果進行簡單投票,并以多數(shù)投票結果作為該袋外樣本的分類結果,其預測誤差就是xi在這個隨機森林上的袋外錯誤率,以Ei表示。
3)將每個袋外樣本的預測結果與真實值進行比較,用分類錯誤個數(shù)占數(shù)據(jù)集中樣本總數(shù)的比率作為整個隨機森林的袋外錯誤率,以E表示。即整個隨機森林的袋外錯誤率就是所有訓練樣本的平均袋外錯誤率,袋外錯誤率越低,表示模型的分類性能越好。
2.2.5 模型性能評價
由于存在袋外樣本,隨機森林算法無需進行交叉驗證或用獨立的測試集來獲得誤差的一個無偏估計。但與其他機器學習分類算法進行橫向比較時,仍然需要采用交叉驗證來評估模型的分類性能,而混淆矩陣[18]是所有評價指標的基礎。表1所示為混淆矩陣,其中Tp表示將正類(真實值為1)預測為正類(預測值為1)的次數(shù),F(xiàn)n表示將負類(真實值為0)預測為負類(預測值為0)的次數(shù),Tn表示將正類(真實值為1)預測為負類(預測值為0)的漏報次數(shù),F(xiàn)p表示將負類(真實值為0)預測為正類(預測值為1)的誤報次數(shù)。
表1 混淆矩陣Table 1 Confusion matrix
模型的具體評價指標通用的有精度P、召回率R與綜合評價指標F1。其中,精度P表示被分為正類的樣本中實際為正類的比例,其計算公式為
召回率R是對模型預測覆蓋面的度量,用于度量正類樣本被正確分類的數(shù)量,其計算公式為
指標P和R有時候會存在矛盾,此時,引入F1評價不同算法分類性能。F1綜合考慮P和R,對P和R進行加權調和平均,F(xiàn)1較高,表明模型預測效果比較好,其計算公式為
仿真程序使用Python 語言開發(fā),數(shù)據(jù)處理和模型構建分別利用Python 的pandas 和scikit-learn[19]這2 個模塊編碼完成。原始數(shù)據(jù)集有30 萬行,為某地歷史路測數(shù)據(jù)。在數(shù)據(jù)準備階段,進行一系列清洗和轉換,包括刪除其中信息缺失或重復的數(shù)據(jù)、采用ZCA 方法去除相關性以及對數(shù)據(jù)進行標記處理等。數(shù)據(jù)標記時,取無線信號質量閾值T為-80 dB·m,廣播控制信道接收功率大于T表示信號質量優(yōu)并設置標簽1,小于T表示信號質量差并設置標簽0。由于信號強度有一定波動性,在同經(jīng)緯度、同小區(qū)識別碼情況下,可能會出現(xiàn)各項無線網(wǎng)絡特征相同但標簽不同(0 和1 共2 種)的情況,干擾分類模型訓練。此時,對廣播控制信道接收功率計算并取平均值,確保同一無線網(wǎng)絡特征對應的標簽只有1個。
特征數(shù)量c和決策樹數(shù)量w這2 個參數(shù)是構造決策樹的關鍵。在通常情況下,隨著決策樹數(shù)量w增加,隨機森林通常會收斂到更低的誤差。圖3所示為隨機森林的袋外錯誤率E隨決策樹數(shù)量w的變化情況,其中袋外錯誤率取10 次實驗結果的平均值。從圖3可見:隨著決策樹數(shù)量增加,預測模型的袋外錯誤率快速下降,模型預測能力快速提高;但當決策樹數(shù)量增加到400時,袋外錯誤率基本收斂,不再變化,繼續(xù)增加決策樹數(shù)量,模型性能不僅不會得到明顯提升,而且會由于運算量增加使得程序運行變慢,因此,本文選擇w為400。
圖3 袋外錯誤率E與決策樹數(shù)量w的關系Fig.3 Relationship between out-of-bag error and number of decision trees(w)
圖4所示為隨機森林的袋外錯誤率E隨特征數(shù)量c的變化情況,取10 次實驗結果的平均值。從圖4可見:當特征數(shù)量較小時,袋外錯誤率較高,表明模型的預測能力較弱;隨著特征數(shù)量逐漸增加,袋外錯誤率逐步下降,模型的預測能力逐步增強;但當特征數(shù)量大于4時,袋外錯誤率反而上下波動,模型的分類能力表現(xiàn)出不穩(wěn)定現(xiàn)象。這是由于當特征數(shù)量增加到一定程度時,決策樹之間的相關性越來越高,反而影響模型的性能,因此,特征數(shù)量并非越大越好,本文根據(jù)實驗結果,取特征數(shù)量c的最優(yōu)值為4。
圖4 袋外錯誤率E與特征選取數(shù)量c的關系Fig.4 Relationship between out-of-bag error and number of features(c)
以某地電力無線網(wǎng)絡規(guī)劃為例。為解決網(wǎng)絡弱覆蓋問題,現(xiàn)對2個依據(jù)不同設想提出的無線網(wǎng)絡規(guī)劃方案進行評估,其中基站類型全向天線用1表示,扇形天線用2 表示;覆蓋類型1 表示山區(qū),2表示平原。表2所示為2個方案的相關信息,
表2 2個不同的無線網(wǎng)絡規(guī)劃方案Table 2 Two different wireless network planning schemes
首先根據(jù)上述每個無線網(wǎng)絡規(guī)劃方案提供的信息構造1個數(shù)據(jù)格式與訓練數(shù)據(jù)一致的預測數(shù)據(jù)集。如根據(jù)基站信息構造訓練數(shù)據(jù)的各種特征字段,使用網(wǎng)絡規(guī)劃方案提供的信息構造預測數(shù)據(jù),構造距離、基站功率、方位角、下傾角、基站高度、基站頻段、覆蓋類型等無線網(wǎng)絡特征。在預測數(shù)據(jù)集中,每一個數(shù)據(jù)都對應1個測試點的網(wǎng)絡特征。然后,將根據(jù)無線網(wǎng)絡規(guī)劃方案構造的預測數(shù)據(jù)集導入評估模型進行預測,預測數(shù)據(jù)集中的每一組輸入數(shù)據(jù)均對應1個預測結果。最后,將預測結果中廣播控制信道接收功率大于無線信號質量閾值T的測試點數(shù)除以總的測試點數(shù),得出該方案下廣播控制信道接收功率大于無線信號質量閾值T的占比。該量化數(shù)據(jù)即為該網(wǎng)絡規(guī)劃方案的覆蓋性能(覆蓋合理度)的評估指標。
將-80 dB·m 作為無線信號質量閾值時的網(wǎng)絡覆蓋度評估結果見表3。由表3可知:當無線信號閾值取-80 dB·m時,方案1和方案2的網(wǎng)絡覆蓋度約為97%,非常接近。
表3 -80 dB·m作為無線信號質量閾值時網(wǎng)絡覆蓋度評估結果Table 3 Evaluation results of network coverage when-80 dB·m is used as wireless signal quality threshold
當上述網(wǎng)絡覆蓋合理度評估結果非常接近而無法分辨時,設置更高、更嚴格的無線信號質量閾值T(取值為-70 dB·m),重新訓練模型,對網(wǎng)絡規(guī)劃方案進行進一步評估、對比和區(qū)分。表4所示為-70 dB·m 作為無線信號質量閾值時的網(wǎng)絡覆蓋度評價結果。從表4可見:2 種網(wǎng)絡規(guī)劃方案覆蓋性能的評估結果中,方案2比方案1的網(wǎng)絡覆蓋度高,方案2位更優(yōu)方案。這說明隨著無線信號質量閾值T進一步提高,模型對無線信號質量優(yōu)的判斷標準提高,模型的分辨能力增強。
表4 -70 dB·m作為無線信號質量閾值時網(wǎng)絡覆蓋度評估結果Table 4 Evaluation result of network coverage when-70 dB·m is used as wireless signal quality threshold
為進一步比較隨機森林算法相比其他分類算法的優(yōu)勢,將隨機森林算法與KNN(K 最近鄰算法)、GBDT(梯度提升決策樹算法)進行對比,采用交叉驗證方法評估不同模型的預測性能。將數(shù)據(jù)集進行處理后按照9∶1的比例拆分為訓練集和測試集,其中訓練集用于訓練模型,測試集用于評估模型的泛化能力。表5所示為3種模型的參數(shù)選擇及預測能力評估指標。從表5可見:隨機森林算法模型的預測精度P、召回率R與綜合評價指標F1等更高,表明該模型具有更強的泛化能力和更高的預測準確率,驗證了隨機森林算法采用集成學習思想構建的組合分類模型比單一模型的預測能力更強。
表5 3種模型性能比較Table 5 Performance comparison of three models
1)提出一種新的基于機器學習的無線網(wǎng)絡規(guī)劃覆蓋性能定量評價方法。該方法首先通過各地歷史數(shù)據(jù)重構無線網(wǎng)絡覆蓋模型,較好地適應當?shù)氐臒o線使用環(huán)境。根據(jù)模型數(shù)據(jù)對網(wǎng)絡規(guī)劃方案進行評估,為網(wǎng)絡規(guī)劃方案的選擇或判斷提供了快速、準確的量化判斷依據(jù)。
2)所提出的評價方法雖然基于傳統(tǒng)算法,但能夠快速、準確地進行量化評估并能區(qū)分各規(guī)劃方案的覆蓋性能優(yōu)劣。
3)當決策樹較多時,本文采用的隨機森林算法的訓練時-空開銷較大,特別是當訓練樣本數(shù)據(jù)集中的噪聲較大、決策樹層級過多時,存在陷入過擬合的問題,影響模型預測的準確性和穩(wěn)定性,這有待進一步研究。