于明鑫 鄭雅勻
摘? 要:電信客戶流失預測能夠有效地幫助運營商制定有用的挽留策略。文章收錄了來自某開源數(shù)據(jù)平臺的電信公司數(shù)據(jù)集,該數(shù)據(jù)集包含了22個字段,20個特征變量。文章通過SPSSModeler對數(shù)據(jù)集進行分析,通過比較貝葉斯網絡、神經網絡算法和C5.0算法的預測準確率、ROC值以及ROC曲線下面積,最終發(fā)現(xiàn)神經網絡算法通過訓練2次后的效果較好。
關鍵詞:C5.0;貝葉斯網絡;電信客戶流失預測;神經網絡
中圖分類號:TP18? ? 文獻標識碼:A? 文章編號:2096-4706(2023)02-0030-04
Telecom Customer Churn Prediction Based on Neural Network Algorithm
YU Mingxin, ZHENG Yayun
(Chengdu College of University of Electronic Science And Technology of China, Chengdu? 611731, China)
Abstract: Telecom customer churn prediction can effectively help operators develop useful retention strategies. This paper includes a data set of telecom companies from an open source data platform, which contains 22 fields and 20 characteristic variables. This paper analyzes the data set through SPSSModeler, and compares the prediction accuracy, ROC value, and area under the ROC curve of Bayesian network, neural network algorithm, and C5.0 algorithm. Finally, it is found that the neural network algorithm has a better effect after twice training.
Keywords: C5.0; Bayesian network; telecom customer churn prediction; neural network
0? 引? 言
近年來,電信業(yè)務呈現(xiàn)飛躍式增長,這離不開工作人員的努力。但是在這一行中,始終存在著流失與潛在客戶,或者更換運營商。用戶手機欠費、停機等都可以認為是用戶流失,這種損失是對業(yè)務業(yè)績有著較大影響的,因為我們并不清楚用戶的意圖,無論是相關業(yè)務人員的任期、是否已經開通相關服務,客戶端的網絡服務供應商還是否開通與之相關的服務,都在一定程度上反映了客戶是否流失,但不同的影響因素對電信客戶的影響程度是不同的。
對于電信客戶流失的分析,主要是為了分析流失客戶的行為特征,選擇22個字段中的特征變量進行分析,能提高預測的準確性和真實性,能有效預測電信客戶流失,以此為基礎已達到有效挽留客戶的目的。
本文通過使用神經網絡算法、貝葉斯網絡、C5.0算法對電信客戶流失進行了預測,比較三種算法的結果,再對神經網絡算法所建立的模型進行訓練,通過進行兩次訓練,直到無法進一步降低誤差,再對最優(yōu)化模型通過bagging算法和boosting算法進行優(yōu)化,通過再次比較這幾種算法,從而更清晰的判斷算法的準確性。
1? 文獻綜述
對于電信客戶流失的研究,近年來都有很大的進展,利用決策樹研究電信客戶流失是一個很常見的方法,喬健[1]等利用隨機森林CART特征改進算法對電信客戶流失進行了預測,對不均衡數(shù)據(jù)的二分類問題作出了解決。曹寧[2]等通過改進局部神經網絡算法對電信客戶流失進行了預測,將elman算法與灰色系統(tǒng)結合,將該模型與遺傳算法優(yōu)化神經網絡模型和支持向量機(SVM)、以及卷積神經網絡(CNN)模型進行比較,改進后的模型效果較好。楊成義、林瑞瓊[3]通過使用Python,利用算法庫實現(xiàn)了邏輯回歸,支持向量機,K-means等算法,最終通過比較,制定了合理方案。張蕓[4]等通過對數(shù)據(jù)集缺失值的加工,對數(shù)據(jù)集使用了隨機森林算法進行了預測。李兵、陳俊才[5]利用TMRF算法與C4.5和傳統(tǒng)隨機森林進行比較,再對隨機森林進行訓練,結果顯示TMRF算法的效果較為優(yōu)異。蔣溢[6]等通過使用lasso提取流失用戶特征輸入,通過構造性算法建立神經網絡,用邏輯回歸、支持向量機算法對該方法進行驗證,解決了類別偏斜分布對分類的影響。本文通過使用貝葉斯網絡、C5.0算法與神經網絡算法所建立的模型做比較,再對缺失值和極值進行替換或者舍棄,對缺失值進行處理,再通過比較幾種算法的模型預測準確性和AUC值,再比較ROC曲線下面積的大小,通過比較,C5.0算法的預測準確率較高,AUC值和ROC曲線下面積卻小于兩次訓練后的神經網絡算法所建立的電信客戶流失預測模型。
2? 數(shù)據(jù)與方法
2.1? 數(shù)據(jù)選擇和數(shù)據(jù)描述
本數(shù)據(jù)集來自某開源數(shù)據(jù)平臺,以電信公司5 986個數(shù)據(jù)為基礎構成,該數(shù)據(jù)集包含了客戶性別(gender)、客戶是否退休(seniorcitizen)、客戶是否已婚(partner)、客戶ID(customerID)、家屬(dependents)、任期(tenure)、是否已連接電話服務(PhoneService)、是否已連接多條電話線(MutipleLines)、客戶端的internet供應商(DSL、光纖、否)(InternetService)、是否已連接在線安全服務(onlinesecurity)、是否激活在線備份服務(onlineebackup)、客戶是否有設備保險(deviceprotection)、是否已連接技術支持服務(techsupport)、是否已連接流媒體電視服務(streamingtv)、客戶合同類型(contract)、客戶是否使用無紙化計費(paperlessbilling)、付款方式(paymentmethod)、當前每月付款(mothlycharges)、客戶在整個時間內為服務支付的總金額(totalchargers)等字段,目標變量為是否有流失(churm)。
2.2? 數(shù)據(jù)處理
本文利用SPSSModeler進行數(shù)據(jù)分析,如圖1所示,導入電信用戶數(shù)據(jù)集,并對數(shù)據(jù)集接入類型節(jié)點,在節(jié)點中輸入數(shù)據(jù),變更數(shù)據(jù)類型,并設定churm為目標變量,對類型節(jié)點進行數(shù)據(jù)審核,排除極值和離群值影響,再對輸出結果進行數(shù)據(jù)審核。
確認無離群值和極值影響后,接入特征選擇節(jié)點,對22個字段的重要性進行評估,設定值>0.95為重要,其中multiplelines、gender、field1三個字段不重要,輸入結果如圖2所示。
3? 模型設定及算法研究
3.1? 算法概述
3.1.1? C5.0算法
C5.0算法是決策樹算法中的一種。其核心與C4.5相同,執(zhí)行效率和內存使用優(yōu)于C4.5。決策樹模型也被稱為推理模型,通過對訓練樣本的學習,建立分類規(guī)則,通過分類規(guī)則再對新樣本進行分類,決策樹分類是基于邏輯的。
決策樹C5.0的優(yōu)點:能夠處理數(shù)據(jù)遺漏等主觀問題,模型簡單易于理解,能夠有較高的精度,有較高的確定性。
決策樹C5.0算法的缺點:C5.0算法只能解決分類問題。
3.1.2? 貝葉斯網絡
貝葉斯網絡是一種概率圖模型,是模擬人類推理過程中處理因果關系的不確定處理模型,期網絡拓撲結構是一個有向無環(huán)圖
貝葉斯網絡不支持環(huán)形網絡,對數(shù)據(jù)量較高,計算速度較慢。但具有強大的處理不確定數(shù)據(jù)的能力,能夠表達各個影響因素間的關系,能有效地將多元數(shù)據(jù)進行融合,再將故障診斷和維修決策納入網絡結構。
3.1.3? 神經網絡算法
神經網絡模型是一種模擬動物神經網絡行為特征,進行分布式并行信息處理的算法數(shù)學模型。該算法能大規(guī)模并行處理,有極高的運算速度。
神經網絡模型具有很強的非線性擬合能力,可以分析復雜的非線性關系,通過模仿動物神經元的工作系統(tǒng),因此具有很強大的學習能力。但是沒能力解釋自己的推理過程和推理依據(jù),將特征變量轉換成數(shù)據(jù),容易造成數(shù)據(jù)丟失。
3.2? 模型建立
選擇進行特征選擇后的變量為輸出變量,選擇分區(qū)節(jié)點,設置訓練集、測試集分別為70%和30%,并分別連接貝葉斯網絡節(jié)點、C5.0節(jié)點、神經網絡節(jié)點,建立神經網絡模型后,對模型進行兩次訓練得到最優(yōu)模型,再分別用bagging算法和boosting算法對模型進行優(yōu)化,再判斷模型的優(yōu)劣性,并對模型進行評估、繪制ROC曲線。模型如圖3所示。
4? 模型評價指標
4.1? 召回率
召回率衡量了在所有模型中正確的概率,即召回率越高,漏報率越小。
(1)
4.2? 精確率
精度也稱正確率,精確度衡量了所有模型中鎖預測為正確的概率,精確率與誤報率相對。
(2)
4.3? 混淆矩陣
混淆矩陣是機器學習中總結分類模型預測結果得到的分類表。
TP:將正類預測為正類數(shù),真實為真,預測也為真。
FN:將正類預測為負類數(shù),真實為真,預測為假。
FP:將負類預測為正類數(shù),真實為假,預測為真。
TN:將負類預測為負類數(shù),真實為假,預測也為假。如表1所示。
4.4? ROC曲線
縱坐標為真正率(TPR),橫坐標為假正率
(3)
(4)
ROC曲線反映了排序知量的好壞,即結果的好壞,ROC曲線的量化指標:AUC(曲線下面積),AUC越大越好。
5? 各特征變量對電信客戶流失的預測模型
比較三個模型的AUC值,$N2-Churn模型訓練集的AUC值為0.845,$N2-Churn是$N-Churn訓練兩次得到的結果,$N3-Churn、$N4-Churn模型是分別用bagging和boosting算法改進后得到的結果,AUC值均小于$N2-Churn模型。對比模型如表2所示。
比較訓練后的神經網絡算法與C5.0算法的準確率,如表3、表4所示。C5.0算法的爭取率均高于神經網絡算法。神經網絡算法的AUC值和GINI系數(shù)均高于C5.0算法。
ROC曲線下的面積在一定程度上反映了模型預測的準確率,神經網絡算法的ROC曲線下面積最大,模型效果好,如圖4所示。
即神經網絡算法預測效果最好,神經網絡算法經過兩次訓練,直到無法進一步降低誤差的,其準確性為81.1%。如圖5所示。
比較神經網絡算法中各個預測變量的重要性,可以發(fā)現(xiàn)用戶任期(tenure)對目標變量用戶流失(churm)非常重要,為0.21,用戶合同類型(contract)對目標變量用戶流失(churm)較為重要,為0.16。是否有伴侶(partner)和家屬(dependents)對目標變量用戶流失的重要性較小,為0.02,是否已連接技術支持服務(techsupport)及其他因素重要性多集中在0.03到0.09之間,對電信客戶流失的預測影響較為一般。結合圖6的ROC曲線所示,經過兩次訓練后的神經網絡算法對電信客戶流失預測的有效性和可行性,可以根據(jù)神經網絡算法對用戶流失制定相關方案。
6? 結? 論
通過分析5 986個樣本數(shù)據(jù),通過研究22個變量客戶性別(gender)、客戶是否退休(seniorcitizen)、客戶是否已婚(partner)、客戶ID(customerID)、家屬(dependents)、任期(tenure)、是否已連接電話服務(PhoneService)、是否已連接多條電話線(MutipleLines)、客戶端的internet供應商(DSL、光纖、否)(InternetService)、是否已連接在線安全服務(onlinesecurity)、是否激活在線備份服務(onlineebackup)、客戶是否有設備保險(deviceprotection)、是否已連接技術支持服務(techsupport)、是否已連接流媒體電視服務(streamingtv)、客戶合同類型(contract)、客戶是否使用無紙化計費(paperlessbilling)、付款方式(paymentmethod)、當前每月付款(mothlycharges)、客戶在整個時間內為服務支付的總金額(totalchargers)等對電信客戶流失(churm)的預測,使用了貝葉斯網絡、C5.0算法和神經網絡算法對預測結果進行了輸出,分別對比其模型預測準確率、AUC值和ROC曲線,通過對神經網絡建立的模型進行兩次訓練與利用boosting算法和bagging算法進行模型優(yōu)化,直到無法進一步降低誤差,通過使用特征選擇節(jié)點,增大了預測的準確性和精確性,通過比較優(yōu)化后的模型和訓練后的模型,最終得到經過兩次訓練后的神經網絡模型預測效果最好,具有一定的實用價值。
參考文獻:
[1] 喬健,諸佳慧,嚴康桓.基于隨機森林CART特征選擇改進算法的電信客戶流失預測模型 [J].電信工程技術與標準化,2022,35(3):78-82.
[2] 曹寧,王雨薇,高瑩,等.基于改進Elman模型的電信公司客戶流失分析 [J].西安文理學院學報:自然科學版,2022,25(1):50-55.
[3] 楊成義,林瑞瓊.數(shù)據(jù)挖掘在電信客戶流失預警模型中的應用 [J].現(xiàn)代信息科技,2021,5(17):32-34.
[4] 張蕓,宋雙.非完備數(shù)據(jù)的寬帶客戶流失預測 [J].中國新通信,2021,23(14):125-126.
[5] 李兵,陳俊才.基于TMRF算法的電信客戶流失預測方案研究 [J].數(shù)字技術與應用,2021,39(4):116-121.
[6] 蔣溢,伍書平,胡昆,等.基于Lasso和構造性覆蓋算法的不均衡數(shù)據(jù)分類方法 [J/OL].計算機應用,2022[2022-08-12].http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2022040490.
作者簡介:于明鑫(2001—),男,漢族,四川遂寧人,本科在讀,研究方向:數(shù)據(jù)挖掘;通訊作者:鄭雅勻(1994—),女,漢族,遼寧大連人,講師,碩士,研究方向:機器學習。
收稿日期:2022-08-21