■ 中國移動通信集團(tuán)河北有限公司 曹雷雷 李云
編者按:本文提出一種基于決策樹的4G網(wǎng)絡(luò)客戶感知預(yù)測模型,從而實(shí)現(xiàn)了4G網(wǎng)絡(luò)客戶滿意度指標(biāo)體系的構(gòu)建。
圖1 整體設(shè)計思路
對于電信運(yùn)營商及移動互聯(lián)網(wǎng)來說,以客戶為中心,關(guān)注客戶體驗,提高客戶網(wǎng)絡(luò)感知,提升客戶滿意度是重點(diǎn)工作內(nèi)容。傳統(tǒng)獲取客戶滿意度的方式包括市場調(diào)研、客戶服務(wù),響應(yīng)周期長、服務(wù)客戶范圍局限,傳統(tǒng)的優(yōu)化方法,僅依靠網(wǎng)絡(luò)接通、掉線指標(biāo)定位質(zhì)差小區(qū),此類的網(wǎng)絡(luò)優(yōu)化確實(shí)有效果,但方法滯后,已很難滿足當(dāng)前激烈的市場競爭需求和較高的業(yè)務(wù)時效性要求。因此,建立一套集網(wǎng)絡(luò)客戶感知預(yù)測、網(wǎng)絡(luò)問題定位、分析及應(yīng)用的基于機(jī)器學(xué)習(xí)的4G網(wǎng)絡(luò)客戶感知分析及應(yīng)用,能夠在用戶投訴之前發(fā)現(xiàn)網(wǎng)絡(luò)問題,成為4G時代提高4G網(wǎng)絡(luò)客戶感知的重要舉措。
基于以上思考,本文提出了一種 “4G網(wǎng)絡(luò)感知預(yù)測模型”預(yù)測網(wǎng)絡(luò)問題的方法,“4G網(wǎng)絡(luò)客戶感知預(yù)測模型”是一種基于C5.0決策樹的客戶網(wǎng)絡(luò)感知預(yù)測模型。該方法核心思想是根據(jù)4G投訴客戶的投訴特征,構(gòu)建4G網(wǎng)絡(luò)指標(biāo)體系,使用決策樹算法,借用樣本數(shù)據(jù)開展建模。如圖1所示,通過投訴客戶特征和無線網(wǎng)指標(biāo)的采集和整理,構(gòu)建客戶影響力指標(biāo)體系;C5.0決策樹算法借用樣本和反樣本數(shù)據(jù)不斷機(jī)械訓(xùn)練構(gòu)建模型,輸出客戶網(wǎng)絡(luò)感知差小區(qū),其后對感知差小區(qū)進(jìn)行分析和優(yōu)化處理;模型構(gòu)建是一個長期不斷訓(xùn)練樣本數(shù)據(jù)、提高準(zhǔn)確率的過程,因此每月將客戶投訴數(shù)據(jù)進(jìn)行不斷更新,以便完善模型。
1.決策樹
決 策 樹(Decision Tree),它是用樹的結(jié)構(gòu)來構(gòu)建分類模型,每個節(jié)點(diǎn)代表著一個屬性,根據(jù)這個屬性的劃分,進(jìn)入這個節(jié)點(diǎn)的兒子節(jié)點(diǎn),直至葉子節(jié)點(diǎn),每個葉子節(jié)點(diǎn)都表征著一定的類別,從而達(dá)到分類的目的。其重要的能力是將看似無序、離散、雜亂的已知的實(shí)例(例如已知的客戶感知差小區(qū)),通過某種技術(shù)手段將它們轉(zhuǎn)化成可以預(yù)測未知實(shí)例的樹形模型。
常用的決策樹有C4.5,C5.0,CART等。在生成樹的過程中,需要選擇用那個特征進(jìn)行剖分,選取的原則是,分開后能盡可能地提升純度,可以用信息增益,增益率,以及基尼系數(shù)等指標(biāo)來衡量。如果是一棵樹的話,為了避免過擬合,還要進(jìn)行剪枝,取消那些可能會導(dǎo)致驗證集誤差上升的節(jié)點(diǎn)。
圖2 客戶網(wǎng)絡(luò)感知指標(biāo)體系
圖3 模型構(gòu)建流程
在此處,使用了C5.0決策樹算法,在面對數(shù)據(jù)遺漏和輸入字段很多的問題時非常穩(wěn)健;比一些其他類型的模型易于理解,模型退出的規(guī)則有非常直觀的解釋;同時也提供強(qiáng)大技術(shù)以提高分類的精度。針對預(yù)測未知的客戶網(wǎng)絡(luò)感知差的小區(qū),使用C5.0進(jìn)行分析,通過投訴用戶感知差的小區(qū)做樣本數(shù)據(jù),提取全網(wǎng)小區(qū)做反樣本數(shù)據(jù)(樣本/反樣本指標(biāo)是由投訴客戶特征整理與無線網(wǎng)指標(biāo)的結(jié)合構(gòu)建的指標(biāo)體系)通過以“樹”的形式盡最大化進(jìn)行指標(biāo)分叉,構(gòu)建決策樹模型,為了避免過擬合,可進(jìn)行剪枝,取消那些可能會導(dǎo)致驗證集誤差上升的節(jié)點(diǎn)。
2.4G網(wǎng)絡(luò)感知預(yù)測模型構(gòu)建
(1)構(gòu)建客戶感知指標(biāo)體系
構(gòu)建客戶網(wǎng)絡(luò)感知指標(biāo)體系,要使用聚類算法,對投訴客戶特征進(jìn)行聚類分析(此處提取了兩個月投訴用戶的投訴特征進(jìn)行聚類),并結(jié)合投訴小區(qū)的網(wǎng)絡(luò)指標(biāo),初步構(gòu)建有覆蓋類、上網(wǎng)類、通話類三類20個網(wǎng)絡(luò)感知指標(biāo)體系,如圖2所示。隨著模型算法的不斷完善以及投訴用戶樣本的不斷增加和更新,影響力指標(biāo)體系也會不斷修改、增加和調(diào)整。
(2)樣本采集
從兩個月的投訴數(shù)據(jù)中選取了樣本數(shù)據(jù)和反樣本數(shù)據(jù)(投訴樣本1000、反 樣 本5000個),并將樣本數(shù)據(jù)進(jìn)行指標(biāo)化處理。為了使模型訓(xùn)練更加準(zhǔn)確,在模型訓(xùn)練前對樣本數(shù)據(jù)進(jìn)行預(yù)處理,包括數(shù)據(jù)清洗、數(shù)據(jù)降噪,減少“噪音”數(shù)據(jù)的污染。
(3)模型構(gòu)建及訓(xùn)練
使用SPSS模型構(gòu)建工具進(jìn)行模型構(gòu)建,并進(jìn)行不斷迭代完善。在SPSS工具中使用C5.0決策樹進(jìn)行算法機(jī)械學(xué)習(xí),將樣本及反樣本訓(xùn)練集導(dǎo)入到工具中,然后通過數(shù)據(jù)探索、理解,使用決策樹不斷進(jìn)行機(jī)械學(xué)習(xí),最終構(gòu)建模型,在SPSS環(huán)境下,使用了CHAID、C5.0決策樹算法進(jìn)行算法比對,C5.0算法不需要花費(fèi)很多的訓(xùn)練次數(shù)進(jìn)行模型構(gòu)建,在訓(xùn)練7次后,模型初步形成;用此算法形成模型比一些其他類型的模型易于理解,模型推出的規(guī)則有非常直觀的解釋。通過不斷更新樣本數(shù)據(jù),模型不斷迭代完善,從而保障數(shù)據(jù)模型的準(zhǔn)確性。如圖3模型構(gòu)建過程所示。
3.模型檢驗
依據(jù)反向驗證方法,選取樣本小區(qū)10個,將網(wǎng)絡(luò)指標(biāo)輸入到模型中進(jìn)行模型準(zhǔn)確性驗證。已訓(xùn)練出的模型算法會根據(jù)樣本指標(biāo)進(jìn)行分類判斷,定位是否感知差小區(qū)。如表1所示,樣本數(shù)據(jù)展示出的結(jié)果,包括10個樣本指標(biāo)體系和模型判斷的結(jié)果。例如樣本1,模型定性為感知差小區(qū),其MR指標(biāo)較弱,出現(xiàn)網(wǎng)絡(luò)覆蓋問題,故投訴用戶較多,造成網(wǎng)絡(luò)感知差。
根據(jù)模型驗證結(jié)果,可了解到驗證的準(zhǔn)確率是60%,此結(jié)果只是針對于選擇的樣本,并不能代表全市以及全省。目前已經(jīng)開展此項模型的全網(wǎng)應(yīng)用。根據(jù)大數(shù)據(jù)模型機(jī)械學(xué)習(xí)的優(yōu)點(diǎn),隨著投訴樣本的不斷增加和更新,用戶感知因素不斷完善,指標(biāo)評估體系進(jìn)一步擴(kuò)展,模型將不斷完善,準(zhǔn)確率也不斷提高。
表1 模型驗證表
表2 4G投訴情況觀察觀測
在模型訓(xùn)練好后,提取每個月最后一周網(wǎng)絡(luò)指標(biāo)數(shù)據(jù)導(dǎo)入模型進(jìn)行運(yùn)算,輸出全網(wǎng)各個小區(qū)的網(wǎng)絡(luò)感知情況(是否是感知差小區(qū)),篩選出100個感知差小區(qū)不采取整治措施留作觀察測試,剩余其他感知差小區(qū)進(jìn)行整治,即進(jìn)行網(wǎng)絡(luò)規(guī)劃和優(yōu)化,優(yōu)化措施等。
從三個周期的指標(biāo)來看,100個觀察測試小區(qū)中均有60多產(chǎn)生了投訴見表2,說明該模型在4G投訴預(yù)處理過程中的有效性,即通過模型輸出感知差小區(qū)并采取優(yōu)化策略可以在投訴發(fā)生前避免投訴的發(fā)生。另外經(jīng)過實(shí)際分析發(fā)現(xiàn)100個感知差的小區(qū)中有80多個小區(qū)需要進(jìn)行優(yōu)化處理見表2。
通過觀察采取整治措施小區(qū)的投訴情況來看,發(fā)現(xiàn)投訴小區(qū)量有效遞減,且投訴值明顯低于優(yōu)化前(模型使用前)的投訴量。說明該模型在4G投訴預(yù)處理提高客戶感知中的有效性。
另外,發(fā)現(xiàn)模型實(shí)施后4G質(zhì)差小區(qū)量和4G高負(fù)荷小區(qū)量都明顯下降,說明該模型在網(wǎng)絡(luò)規(guī)劃與網(wǎng)絡(luò)優(yōu)化建設(shè)中能起到很有效的作用。