徐晶,孫艷民,付旭輪,沈驁
(1 中國移動通信集團(tuán)設(shè)計(jì)院有限公司,北京 100080;2 中國移動通信集團(tuán)河北有限公司,石家莊 050021)
移動通信網(wǎng)絡(luò)是一個(gè)動態(tài)的網(wǎng)絡(luò),話務(wù)密度分布不均、頻率資源緊張,網(wǎng)絡(luò)配置未達(dá)最佳且長期處于不斷變化之中。近年來,無線通信網(wǎng)絡(luò)的規(guī)模又不斷擴(kuò)大,如何能夠在有限資源和超大網(wǎng)絡(luò)規(guī)模的情況下有力的保障網(wǎng)絡(luò)的服務(wù)質(zhì)量,這對無線網(wǎng)絡(luò)的維護(hù)和優(yōu)化工作提出了巨大挑戰(zhàn)。
通用的無線網(wǎng)絡(luò)優(yōu)化方法是對正式投入運(yùn)行的網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)采集、數(shù)據(jù)分析,找出影響網(wǎng)絡(luò)運(yùn)行質(zhì)量的原因并且通過參數(shù)調(diào)整和其他技術(shù)手段,使網(wǎng)絡(luò)達(dá)到最佳運(yùn)行狀態(tài)。目前對無線參數(shù)設(shè)置的調(diào)整主要依賴優(yōu)化人員的經(jīng)驗(yàn)來實(shí)施,要靠人工對繁雜的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行及時(shí)的分析和對比得出優(yōu)化方案是不可能的。通常是借助于單一類型的數(shù)據(jù)進(jìn)行分析,例如首先統(tǒng)計(jì)某一類話務(wù)量,然后根據(jù)統(tǒng)計(jì)的話務(wù)量進(jìn)行網(wǎng)絡(luò)優(yōu)化;例如根據(jù)路測數(shù)據(jù)統(tǒng)計(jì)網(wǎng)絡(luò)覆蓋情況,然后進(jìn)行相應(yīng)分析和調(diào)整。而對于大規(guī)模的數(shù)據(jù)的分析能力相對較弱,尤其是無線通信設(shè)備的無線參數(shù)配置數(shù)據(jù)規(guī)模很大,結(jié)合無線參數(shù)配置數(shù)據(jù)進(jìn)行模型分析的手段較少。無線通信設(shè)備上無線參數(shù)的數(shù)據(jù)量較大,通常在網(wǎng)絡(luò)質(zhì)量出現(xiàn)問題或收到投訴后才進(jìn)行參數(shù)設(shè)置的排查。對于大規(guī)模數(shù)據(jù)的分析,數(shù)據(jù)挖掘可以從海量歷史數(shù)據(jù)中提取隱含的、未知的、具有潛在用處的信息,應(yīng)用于現(xiàn)網(wǎng)數(shù)據(jù)的分析。著眼于現(xiàn)狀,本文主要研究了如何將數(shù)據(jù)挖掘中的決策樹算法應(yīng)用于無線網(wǎng)絡(luò)的智能管理和無線網(wǎng)絡(luò)優(yōu)化。
本文提出一種基于決策樹的網(wǎng)絡(luò)性能檢測方法,通過訓(xùn)練無線參數(shù)配置數(shù)據(jù),建立決策樹分析模型,實(shí)現(xiàn)相對獨(dú)立的無線參數(shù)數(shù)據(jù)分析系統(tǒng)。使用一種主動預(yù)測的模式利用數(shù)據(jù)挖掘中決策樹的方法通過對無線參數(shù)組的數(shù)據(jù)定時(shí)記錄分析,確定哪個(gè)參數(shù)屬性域作為目前最好的分類指標(biāo),即該參數(shù)的算法是關(guān)系網(wǎng)絡(luò)質(zhì)量的重要配置。本文的做法是窮盡所有的參數(shù)屬性域,對每個(gè)屬性域分裂的好壞形成量化,計(jì)算出最好的一個(gè)分裂,量化的標(biāo)準(zhǔn)是計(jì)算每個(gè)分裂的多樣性。
總體思路參數(shù)描述是:數(shù)據(jù)由集成商從OMC上采集得到,并將大量已有歷史數(shù)據(jù)提供給數(shù)據(jù)挖掘服務(wù)器,獲取參數(shù)數(shù)據(jù)的信息,并建立決策樹模型,并對模型進(jìn)行評估。在建立模型之后,通過不斷采集新數(shù)據(jù),定時(shí)預(yù)測無線網(wǎng)絡(luò)的性能。
實(shí)施的具體流程由圖1表示,包括以下步驟:
步驟1:從OMC上采集無線參數(shù)數(shù)據(jù),提取無冗余的特征屬性數(shù)據(jù)集合,并將該特征屬性數(shù)據(jù)集合分為特征屬性訓(xùn)練數(shù)據(jù)和特征屬性測試數(shù)據(jù);
步驟2:利用步驟1得到的訓(xùn)練數(shù)據(jù)集生成決策樹;
步驟3:利用步驟1得到的測試數(shù)據(jù)對決策樹進(jìn)行裁剪生成目標(biāo)決策樹模型,即網(wǎng)絡(luò)性能檢測模型;
步驟4:利用新采集的參數(shù)數(shù)據(jù)對目標(biāo)決策樹模型進(jìn)行評估,選擇最優(yōu)決策樹模型;
步驟5:定時(shí)采集無線通信設(shè)備的參數(shù)數(shù)據(jù),建立聯(lián)機(jī)分析數(shù)據(jù)倉庫;
步驟6:利用已構(gòu)建的決策樹分析模型,聯(lián)機(jī)分析處理無線參數(shù)的配置數(shù)據(jù),主動查出無線網(wǎng)絡(luò)性能的檢測結(jié)果。
在建立決策樹檢測模型的過程中,各個(gè)步驟具有不同的關(guān)鍵點(diǎn)。其中決策樹各節(jié)點(diǎn)的生成算法是建立準(zhǔn)確模型的關(guān)鍵。通過不同節(jié)點(diǎn)的判斷,不僅可以預(yù)測網(wǎng)絡(luò)性能是否符合期望,同時(shí)可以根據(jù)節(jié)點(diǎn)的屬性及閾值,得出參數(shù)配置的合理值。
根據(jù)2.1章節(jié)的敘述,詳細(xì)描述具體步驟如下:所述步驟1具體為:
(1)定時(shí)對從OMC采集到的數(shù)據(jù)進(jìn)行記錄的數(shù)據(jù)清洗,將冗余的或無關(guān)的數(shù)據(jù)從數(shù)據(jù)集中刪除;
(2)提取剔除冗余的數(shù)據(jù),組成特征屬性數(shù)據(jù)集合,并根據(jù)對應(yīng)的性能指標(biāo)參數(shù)的取值確定分類屬性的類別。
圖1 算法流程圖
所述步驟2是生成決策樹模型。采用C5的算法,對特征屬性訓(xùn)練數(shù)據(jù)進(jìn)行不斷的切分,每一次對應(yīng)一個(gè)無線參數(shù)特征屬性的判斷并同時(shí)對應(yīng)一個(gè)節(jié)點(diǎn),直到切分的層數(shù)到達(dá)了預(yù)定的層數(shù)為止。
設(shè)訓(xùn)練數(shù)據(jù)集合D。一組數(shù)據(jù)作為一個(gè)數(shù)據(jù)項(xiàng)記為Di,對應(yīng)特征屬性記為Ai,對應(yīng)的分類屬性記為Ci,用Ci,D表示D中屬于類別Ci的數(shù)據(jù)項(xiàng)構(gòu)成的子集。選取的無線參數(shù)作為特征屬性,選取的無線參數(shù)對應(yīng)的網(wǎng)絡(luò)性能優(yōu)劣作為分類屬性。
|D|和|Ci,D|分別表示集合中的數(shù)據(jù)項(xiàng)的數(shù)目;用公式(1)來計(jì)算信息:
式中Pi表示集合D中任一數(shù)據(jù)項(xiàng)屬于類別Ci的概率,用|Ci,D|/|D|估計(jì),Info(D)稱為集合D的信息熵;
假設(shè)集合D中的參數(shù)數(shù)據(jù)使用某個(gè)參數(shù)屬性A作為分類節(jié)點(diǎn),則將集合D劃分成v個(gè)子集{D1,D2,…,Dv},屬性A達(dá)到純凈所需的信息量表示如公式(2):
Gain(A)表示屬性A的信息增益,如公式(3):
用劃分信息量來控制在節(jié)點(diǎn)上分支過多對算法的影響,如公式(4):
信息增益率(Gain Ratio)定義如公式(5):
選取增益率最大的特征屬性作為根節(jié)點(diǎn)屬性,然后針對根節(jié)點(diǎn)劃分得到的若干子樹求取子樹的根節(jié)點(diǎn),依次由上至下生成每一個(gè)節(jié)點(diǎn)。
所述步驟3具體為:
(1)將特征屬性訓(xùn)練數(shù)據(jù)進(jìn)行切分處理得到預(yù)定的數(shù)據(jù)決策層,并選擇裁剪節(jié)點(diǎn)生成決策樹;
(2)使用特征屬性測試數(shù)據(jù)對決策樹進(jìn)行裁剪處理,生成目標(biāo)決策樹模型。
當(dāng)測試無線參數(shù)組數(shù)據(jù)進(jìn)入決策樹并達(dá)到葉節(jié)點(diǎn)時(shí),用測試無線參數(shù)組數(shù)據(jù)的分類類別與葉節(jié)點(diǎn)的分類類別比較,得到每個(gè)分支的出錯(cuò)率,通過對每個(gè)分支的出錯(cuò)率進(jìn)行加權(quán)平均,計(jì)算出不剪枝該節(jié)點(diǎn)的錯(cuò)誤率,并判斷剪枝是否能夠降低錯(cuò)誤率,如果是,則減掉該節(jié)點(diǎn)的所有子節(jié)點(diǎn)后,通過測試數(shù)據(jù)校驗(yàn)出錯(cuò)率,生成錯(cuò)誤率相對最小的目標(biāo)決策樹模型。
所述步驟4具體為:使用特征屬性測試數(shù)據(jù)集及新采集的數(shù)據(jù)集,分別對生成的目標(biāo)決策樹模型和正在使用的決策樹模型進(jìn)行評估,如果評估結(jié)果大于預(yù)先設(shè)定的誤差閾值,則返回步驟3;否則判斷生成的目標(biāo)決策樹模型的誤差值是否大于正在使用的目標(biāo)決策樹模型,如果判斷結(jié)果為是,則使用該正在使用的目標(biāo)決策樹模型;如果判斷結(jié)果為否,則使用該生成的目標(biāo)決策樹模型。
所述步驟5具體為:
(1)對目標(biāo)決策樹進(jìn)行分析,生成分類規(guī)則集;
(2)使用該分類規(guī)則集,生成分類參數(shù)數(shù)據(jù)庫;
(3)對網(wǎng)絡(luò)性能進(jìn)行分析處理,檢測出性能低于期望的參數(shù)配置。
所述步驟6是對現(xiàn)網(wǎng)無線參數(shù)數(shù)據(jù)進(jìn)行OLAP分析,檢測出使網(wǎng)絡(luò)性能下降的無線參數(shù)配置情況,圖2為系統(tǒng)網(wǎng)絡(luò)拓?fù)洹?/p>
圖2 系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱D
分析SDCCH信道是否有擁塞,在采集到的無線參數(shù)歷史數(shù)據(jù)和性能指標(biāo)歷史數(shù)據(jù)中提取特征屬性數(shù)據(jù)集D。取參數(shù)T3101、MAXretrans(最大重發(fā)次數(shù) )、T3107、T3103、T3122、CELL RESELECT OFFSET、T3212等作為特征屬性向量,每一個(gè)參數(shù)作為一個(gè)特征屬性。分類屬性的類別設(shè)置為SDCCH擁塞率大于1%和SDCCH擁塞率小于1%。當(dāng)SDCCH擁塞率小于1%時(shí),默認(rèn)為此組參數(shù)的配置符合期望的網(wǎng)絡(luò)性能。當(dāng)擁塞率大于1%時(shí),檢測出該組參數(shù)的配置值使得網(wǎng)絡(luò)質(zhì)量不高。在檢測結(jié)果預(yù)告網(wǎng)絡(luò)性能受影響時(shí),通過分析從根節(jié)點(diǎn)到預(yù)測類別的路徑,能夠得到需要調(diào)整的參數(shù)集,以及建議調(diào)整的取值。
在本案例中選取部分歷史數(shù)據(jù)提取為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集,數(shù)據(jù)集表示如表1所示。
計(jì)算各參數(shù)特征屬性的增益率,從根節(jié)點(diǎn)開始選擇各個(gè)節(jié)點(diǎn)以哪個(gè)屬性作為分裂屬性。建立決策樹模型之后,對決策樹進(jìn)行剪枝、評估,得到最終的決策樹模型,從而進(jìn)行評估網(wǎng)絡(luò)性能。由以上示例數(shù)據(jù)建立的簡單決策樹模型如圖3所示。
表1 案例數(shù)據(jù)集
圖3 案例建立的決策樹模型
利用獲得的模型分析聯(lián)網(wǎng)采集到的參數(shù)配置數(shù)據(jù),預(yù)測出網(wǎng)絡(luò)性能的優(yōu)劣。若對某組參數(shù)配置檢測得到的結(jié)果為影響網(wǎng)絡(luò)性能,則根據(jù)使用的分支規(guī)則列出存在問題的參數(shù)子集。如果預(yù)測分支的規(guī)則為T3101≥3且MAXretrans<3.56且T3122>10,則該組參數(shù)配置的分析結(jié)果是SDCCH擁塞率大于1%。同時(shí)可以得到T3101、MAXretrans和T3122的修改方案。
目前的絕大多數(shù)網(wǎng)絡(luò)優(yōu)化手段沒有深入挖掘無線通信設(shè)備無線參數(shù)配置數(shù)據(jù)的歷史信息。本文提出的方法利用數(shù)據(jù)挖掘的決策樹分類算法分析無線通信設(shè)備上無線參數(shù)的配置數(shù)據(jù),以檢測或者預(yù)測網(wǎng)絡(luò)性能。這一方法能夠充分分析無線設(shè)備參數(shù)的配置,并利用歷史數(shù)據(jù)及現(xiàn)網(wǎng)數(shù)據(jù)自動構(gòu)建分析模型實(shí)現(xiàn)智能的優(yōu)化手段。
[1] 姚家奕,姜海,王秦. 決策樹算法的系統(tǒng)實(shí)現(xiàn)與修剪優(yōu)化[J].計(jì)算機(jī)工程與設(shè)計(jì),2002,23(8):75-77.
[2] Jiawei Han. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 北京:機(jī)械工業(yè)出版社,2007.
[3] 韓斌杰, 杜新顏, 張建斌. GSM原理及其網(wǎng)絡(luò)優(yōu)化[M]. 北京:機(jī)械工業(yè)出版社,2010.
[4] 李仲令, 李少謙, 唐友喜, 武剛. 現(xiàn)代無線與移動通信技術(shù)[M].北京:科學(xué)出版社,2006.