摘要:及時識別具有離網(wǎng)傾向的客戶對于寬帶運營商具有十分重要的意義。本文以某市移動公司為例,針對不平衡移動數(shù)據(jù),采用人工合成少數(shù)類過采樣算法(SMOTE)進行重抽樣,而后采用決策樹、Adaboost兩種分類算法構(gòu)建離網(wǎng)預警模型,最終選取分類精度最高的SMOTE樣本與Adaboost算法組合模型作為移動寬帶客戶離網(wǎng)預警模型,并據(jù)此為運營商提出相應建議。
關(guān)鍵字:不平衡樣本;重抽樣;Adaboost;離網(wǎng)預警模型
一、引言
隨著“寬帶中國”戰(zhàn)略的實施,寬帶建設已上升為國家戰(zhàn)略性公共基礎(chǔ)設施建設工程。寬帶業(yè)務市場蒸蒸日上的同時,想要保持并擴大市場占有率和利潤,寬帶運營商必須在爭取新客戶的同時,也致力于保留既有用戶。因此,建立寬帶離網(wǎng)預警模型來準確有效地識別出“預離網(wǎng)”用戶,根據(jù)特定用戶的需求制定出個性化的營銷方案,有效挽回客戶顯得尤為重要。然而,移動寬帶客戶行為數(shù)據(jù)存在在網(wǎng)客戶和離網(wǎng)客戶比例嚴重失衡,對不平衡的寬帶離網(wǎng)用戶數(shù)據(jù)進行重抽樣則尤為必要。本文將運用人工合成少數(shù)類過抽樣方法進行重抽樣,以平衡移動寬帶離網(wǎng)用戶和在網(wǎng)用戶數(shù),在此基礎(chǔ)上,通過決策樹、Adaboost兩種分類算法,構(gòu)建移動寬帶用戶離網(wǎng)預警模型,發(fā)掘引致用戶離網(wǎng)的重要因素。
二、移動寬帶用戶離網(wǎng)數(shù)據(jù)預處理
1、指標選取及數(shù)據(jù)預處理
移動寬帶離網(wǎng)數(shù)據(jù)量較大,數(shù)據(jù)復雜程度較高,因此對移動寬帶離網(wǎng)數(shù)據(jù)進行數(shù)據(jù)預處理是極為必要的。本文所用數(shù)據(jù)來自2017年1-3月某省移動公司寬帶用戶數(shù)據(jù)庫,包括1-3月內(nèi)某市的部分寬帶在網(wǎng)及離網(wǎng)用戶信息,共計306100條,提取的變量主要涵蓋客戶基本信息、寬帶消費情況、與寬帶關(guān)聯(lián)的手機號碼消費特征,涉及的變量有42個,主要為三大類:客戶基本信息、寬帶消費情況、手機消費特征。經(jīng)過指標變換、異常值處理及缺失值處理后,共保留22個變量,305905條用戶數(shù)據(jù),其中在網(wǎng)客戶30萬條,離網(wǎng)客戶5905條,
2、不平衡樣本抽樣
由于移動寬帶離網(wǎng)離網(wǎng)用戶中,在網(wǎng)用戶數(shù)據(jù)約30萬,而離網(wǎng)用戶數(shù)據(jù)僅有5000左右,存在比例的嚴重失衡,為了提高模型估計精度,需對不平衡樣本進行重抽樣使離網(wǎng)與在網(wǎng)客戶數(shù)達到平衡。本文采用SMOTE合成少數(shù)類過采樣算法,最終抽得154711條。
三、移動寬帶用戶離網(wǎng)預警模型構(gòu)建
在構(gòu)建分類預測模型之前,本文對重抽樣樣本與初始樣本進行了測試集與訓練集的劃分,將各樣本按照3:1的比例隨機劃分成訓練樣本和測試樣本,其中訓練樣本用于模型的建立,測試樣本用于測試所建立模型的性能。
1、決策樹模型
使用原始樣本與重抽樣樣本的訓練樣本構(gòu)造決策樹模型,通過計算,最終得到原始數(shù)據(jù)+決策樹模型的誤判率為0.118,,AUC值為0.789,可知,對于決策樹模型來說,SMOTE人工合成少數(shù)類過采樣算法提高了決策樹模型對少數(shù)類的分類性能,人工合成樣本(SMOTE)的決策樹模型估計效果優(yōu)于原始數(shù)據(jù)。
根據(jù)所建的決策樹模型,可得到變量的重要性排序,從各變量重要性對比來看,原始數(shù)據(jù)與人工合成樣本(SMOTE)所構(gòu)建決策樹模型篩選出的重要變量大致相似,在變量重要性位次上有稍許不同,可總結(jié)為影響客戶離網(wǎng)行為的重要變量分別有:包年/包月、寬帶主資費、輔資費、寬帶是否辦理融合業(yè)務、寬帶月均ARPU、寬帶ARPU波動率、寬帶網(wǎng)齡、停機次數(shù)等與寬帶消費息息相關(guān)的變量。
2、Adaboost分類算法
運用Adaboost算法對兩類樣本進行建模,得到了模型評估結(jié)果,SMOTE樣本的Adaboost模型誤判率為0.0510,低于原始數(shù)據(jù)0.1454,AUC值為0.935,高于原始數(shù)據(jù)0.855??梢?,重抽樣樣本均顯著提高了模型的分類性能。將Adaboost算法所得的前十位變量重要性排序?qū)Ρ劝l(fā)現(xiàn),兩種樣本所構(gòu)建的Adaboost模型選取的重要變量大致相似,只是在變量位次上有所不同。
3、移動離網(wǎng)寬帶預警模型的選擇
本文將誤判率與AUC值作為模型分類性能的評判標準?;谏瞎?jié)對各類模型誤判率和AUC值的比較發(fā)現(xiàn),人工合成樣本的Adaboost算法的組合模型估計效果最佳,因此最終選定SMOTE抽樣所構(gòu)建的Adaboost模型為移動寬帶離網(wǎng)預警模型。利用當月客戶行為信息,通過該模型即可判斷客戶是否將有離網(wǎng)行為,將有預離網(wǎng)行為客戶名單提取出來,通過電話回訪等措施,制定相應的挽回措施。
四、結(jié)論與建議
構(gòu)建效果最優(yōu)的預警模型對于移動寬帶運營商做好維系挽留工作具有重要的意義。通過對比分析兩類樣本與兩種分類算法的組合預警模型,最終發(fā)現(xiàn)分類效果最優(yōu)的是使用SMOTE抽樣方法結(jié)合Adaboost算法的預警模型。分析得到離網(wǎng)客戶的重要變量特征表現(xiàn):寬帶主輔資費較高、寬帶月均消費較低、 近三月消費波動較小、手機主叫時長較短、未辦理寬帶融合業(yè)務、寬帶網(wǎng)齡較長、停機次數(shù)較多的城市用戶。據(jù)此為移動運營商制定相應的營銷策略提供建議如下,首先,大力推廣包年套餐,逐步延長包月時長。其次,制定多種優(yōu)惠措施,吸引用戶辦理寬帶融合業(yè)務。同時,關(guān)注經(jīng)常停機用戶和低消費客戶,通過客戶回訪等方式,詢問客戶停機原因,切實了解客戶需求,幫助客戶選擇合適的套餐組合。最后,針對寬帶網(wǎng)齡較長,即將到期的寬帶用戶,通過電話回訪和續(xù)費催繳等方式,并配合優(yōu)惠活動,鼓勵寬帶用戶續(xù)繳。
參考文獻
[1]謝邦昌,朱世武,崔嵬.移動電話客戶流失數(shù)據(jù)挖掘[J].數(shù)理統(tǒng)計與管理,2005,24(1):62-68.
[2]張維國.移動用戶流失預警及挽留對策研究[D].電子科技大學,2013.
[3]隆曼.基于數(shù)據(jù)挖掘的電信行業(yè)客戶流失管理研究[D].西南財經(jīng)大學,2013.
[4]李毅,姜天英,劉亞茹.基于不平衡樣本的互聯(lián)網(wǎng)個人信用評估研究[J].統(tǒng)計與信息論壇,2017,(02):84-90.
作者簡介:王志楠(1993—),女,山西朔州人,山西財經(jīng)大學2015(統(tǒng)計學)學術(shù)碩士研究生,研究方向:數(shù)據(jù)挖掘.