余路
(1. 西南大學(xué) 計(jì)算機(jī)與信息科技學(xué)院, 重慶 北碚 400715;2. 重慶涪陵廣播電視大學(xué) 教務(wù)處, 重慶 涪陵 408000)
?
電信客戶流失的組合預(yù)測(cè)模型
余路1,2
(1. 西南大學(xué) 計(jì)算機(jī)與信息科技學(xué)院, 重慶 北碚 400715;2. 重慶涪陵廣播電視大學(xué) 教務(wù)處, 重慶 涪陵 408000)
針對(duì)電信行業(yè)客戶流失的問題,設(shè)計(jì)基于決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)及 Logistic 回歸算法的組合預(yù)測(cè)模型,并對(duì)某電信企業(yè)進(jìn)行客戶流失預(yù)測(cè).預(yù)測(cè)結(jié)果表明:與單一客戶流失預(yù)測(cè)模型相比,組合預(yù)測(cè)模型命中準(zhǔn)確率高,預(yù)測(cè)效果好,更能直觀地顯示出流失客戶的基本特征.
客戶流失; 預(yù)測(cè)模型; 電信企業(yè); 決策樹C5.0; BP神經(jīng)網(wǎng)絡(luò); Logistic回歸算法
電信市場(chǎng)的競(jìng)爭(zhēng)愈來(lái)愈激烈,為使企業(yè)的利潤(rùn)最大化,各通信運(yùn)營(yíng)商都把爭(zhēng)取更多的客戶作為營(yíng)銷的最終目標(biāo).但是隨著競(jìng)爭(zhēng)的不斷加劇,客戶流失成為各企業(yè)運(yùn)營(yíng)過程中面臨的主要問題,不僅使市場(chǎng)份額減少,還會(huì)出現(xiàn)客戶惡意離網(wǎng)產(chǎn)生欠費(fèi)行為,增加了企業(yè)的運(yùn)營(yíng)成本,造成嚴(yán)重的經(jīng)濟(jì)損失[1].有分析稱,開發(fā)一個(gè)新的客戶比挽留一個(gè)老的客戶所產(chǎn)生的成本高很多倍[2].因此,做好客戶關(guān)系管理,防止客戶流失是通信行業(yè)提升企業(yè)核心競(jìng)爭(zhēng)力的有效手段.針對(duì)以往客戶關(guān)系管理過程中無(wú)法監(jiān)控客戶流失的問題,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到通信客戶流失預(yù)警分析中,利用其強(qiáng)大的數(shù)據(jù)分析手段,建立客戶消費(fèi)特征等屬性與客戶流失可能性之間的關(guān)聯(lián)模型,可實(shí)現(xiàn)對(duì)客戶狀態(tài)的實(shí)時(shí)監(jiān)控.因此,尋求一種有效的建模與評(píng)估方案是研究人員關(guān)注的重點(diǎn)[3-5].針對(duì)決策樹、神經(jīng)網(wǎng)絡(luò)及邏輯回歸3種單一算法的模型特點(diǎn)和預(yù)測(cè)效果,本文嘗試建立一種基于3種算法的組合預(yù)測(cè)模型,并應(yīng)用所建模型對(duì)某電信企業(yè)進(jìn)行客戶流失預(yù)測(cè),以驗(yàn)證模型的有效性.
1.1數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是利用數(shù)據(jù)分類算法在海量的、隨機(jī)分布的數(shù)據(jù)中提取隱含在數(shù)據(jù)當(dāng)中的,能為人們提供決策作用的信息的過程[6].數(shù)據(jù)挖掘包含兩方面含義:一是能夠處理海量數(shù)據(jù);二是具有挖掘探索的能力.因強(qiáng)調(diào)從海量數(shù)據(jù)中獲取信息的過程,所以數(shù)據(jù)挖掘技術(shù)更側(cè)重于后者.
1.2數(shù)據(jù)挖掘算法
1.2.1決策樹分類方法決策樹基于信息增益理論,通過分析樣本中的數(shù)據(jù)挖掘其中的知識(shí)和規(guī)律,是目前應(yīng)用最廣泛的數(shù)據(jù)分類算法之一.決策樹結(jié)構(gòu)包含了若干個(gè)節(jié)點(diǎn)和分支,其中,節(jié)點(diǎn)表示某個(gè)屬性上的測(cè)試,分支則表示測(cè)試的結(jié)果.常見的決策樹算法有ID3,C4.5/C5.0等[7-9],主要用于事件的預(yù)測(cè)分析.決策樹預(yù)測(cè)過程分兩步進(jìn)行:一是利用訓(xùn)練集建立并進(jìn)化一棵決策樹;二是測(cè)試各節(jié)點(diǎn)的屬性值,對(duì)輸入數(shù)據(jù)進(jìn)行分類,用該類的屬性值完成預(yù)測(cè)對(duì)象的估計(jì).
圖1 神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 Model structure of neural network
1.2.2神經(jīng)網(wǎng)絡(luò)分類方法作為一種人腦思想仿真的數(shù)據(jù)分析模式,神經(jīng)網(wǎng)絡(luò)以海量數(shù)據(jù)并行處理和計(jì)算為基礎(chǔ),用于描述認(rèn)知,決策等智能控制行為.典型的神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)包括輸入層、隱含層和輸出層,由若干神經(jīng)元連接而成,如圖1所示.BP神經(jīng)網(wǎng)絡(luò)是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)算法,其輸出表達(dá)式[10-11]為
(1)
式(1)中:wi,j為連接權(quán)系數(shù);fj為激勵(lì)函數(shù);θj為神經(jīng)元的閾值;xi為神經(jīng)元的輸入.
BP神經(jīng)網(wǎng)絡(luò)采用有師學(xué)習(xí)方的式進(jìn)行訓(xùn)練,能夠?qū)崿F(xiàn)任何復(fù)雜非線性映射的功能,其訓(xùn)練過程以輸出誤差最小為原則,逐層修正各連接權(quán)系數(shù)和閾值,其訓(xùn)練過程如圖2所示.
圖2 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程Fig.2 Training process of neural network
1.2.3邏輯回歸分類方法邏輯回歸的思想來(lái)源于多元線性回歸,與多元回歸連續(xù)性變量不同,邏輯回歸的因變量是非連續(xù)性的變量.邏輯回歸主要用來(lái)預(yù)測(cè)某種情況下事件發(fā)生的概率,一般用于處理二值型因變量,一般用“1”或“0”代表預(yù)測(cè)結(jié)果[12-13].
設(shè)事件發(fā)生的影響因素為m個(gè)變量,用向量X′=(X1,X2,X3,…,Xm)表示;根據(jù)觀測(cè)量相對(duì)于某事件發(fā)生的概率為條件概率,用P(Y=1|x)=p表示,則邏輯回歸的模型可表示為
(2)
2.1組合預(yù)測(cè)模型的建立
針對(duì)典型分類算法的特點(diǎn),在開放式數(shù)據(jù)挖掘工具Clementine 中建立基于決策樹、神經(jīng)網(wǎng)絡(luò)及邏輯回歸算法的組合客戶流失模型,構(gòu)造Lagrange函數(shù)[14]為
(3)
式(3)中:xi,yi,zi分別為C5.0,BP和Logistic 回歸算法單一模型的預(yù)測(cè)值;λ為L(zhǎng)agrange 算子;αk為組合預(yù)測(cè)的權(quán)重系數(shù),且k=1,2,3.
步驟1將預(yù)處理后得到的數(shù)據(jù)集進(jìn)行劃分:文中的劃分比例為訓(xùn)練集占60%,測(cè)試集占40%.
步驟2 選用決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)及邏輯回歸3個(gè)基本分類模型分別對(duì)訓(xùn)練集進(jìn)行建模.
步驟3 將測(cè)試集中的樣本數(shù)據(jù)帶入前面建好的模型中進(jìn)行預(yù)測(cè),得到預(yù)測(cè)分析結(jié)果.
步驟4分別將3種單一模型的預(yù)測(cè)結(jié)果帶入構(gòu)造好的Lagrange函數(shù),得到多算法組合預(yù)測(cè)模型的權(quán)重系數(shù),從而建立組合預(yù)測(cè)模型.
步驟5計(jì)算預(yù)測(cè)結(jié)果.
基于Lagrange 函數(shù)的多算法組合模型的預(yù)測(cè)流程,如圖3所示.
圖3 組合模型預(yù)測(cè)流程Fig.3 Forecasting process of combination model
2.2模型評(píng)價(jià)
分別采用單一算法模型與多算法組合模型進(jìn)行預(yù)測(cè)分析,預(yù)測(cè)結(jié)果如表1所示.由于論文篇幅的限制,這里僅列出其中的10個(gè)預(yù)測(cè)結(jié)果.為進(jìn)一步分析不同模型算法的預(yù)測(cè)準(zhǔn)確程度,對(duì)表1中各預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì),結(jié)果表明:C5.0模型的命中率為88.95%;LR模型的命中率為87.38%;BP模型的命中率為87.11%;組合模型的命中率為92.07%.
基于Lagrange的多算法組合預(yù)測(cè)模型集合了各單一模型的預(yù)測(cè)優(yōu)勢(shì),大大提高了客戶流失的預(yù)測(cè)命中率,達(dá)到92.07%,比單一模型的預(yù)測(cè)命中率提升了近5%.
假設(shè)某電信運(yùn)營(yíng)企業(yè)的流失客戶數(shù)為300 000個(gè),根據(jù)各模型算法的預(yù)測(cè)命中率進(jìn)行計(jì)算,分別得到單一模型和組合模型預(yù)測(cè)客戶流失的數(shù)量及誤判率,如表2所示.表2中:m為流失數(shù)量;n為誤判人數(shù);η為誤差率;w為誤判損失.
表1 不同模型算法的客戶流失預(yù)測(cè)結(jié)果
表2 組流失量預(yù)測(cè)及誤判率對(duì)比結(jié)果
由表2可知:在客戶流失數(shù)量的預(yù)測(cè)中,多算法組合模型的誤判人數(shù)明顯減小,預(yù)測(cè)誤差率僅為實(shí)際數(shù)量的5.5%;設(shè)每個(gè)人的月均消費(fèi)為30元,那么由組合模型所造成的誤判損失也將大大降低,僅是單一模型預(yù)測(cè)損失的一半左右.由此可見,與單一客戶流失預(yù)測(cè)模型相比,基于Lagrange的多算法組合模型預(yù)測(cè)效果好,可有效預(yù)測(cè)客戶流失和流失傾向,達(dá)到預(yù)測(cè)期望,企業(yè)可針對(duì)預(yù)測(cè)結(jié)果制定相應(yīng)的避免客戶流失的對(duì)策.
客戶流失是通信行業(yè)運(yùn)行過程中常見的問題,直接影響到運(yùn)營(yíng)商的企業(yè)效益.數(shù)據(jù)挖掘可以根據(jù)客戶信息、消費(fèi)行為等歷史數(shù)據(jù)判斷客戶流失的可能性,避免因營(yíng)銷手段的盲目性造成的成本浪費(fèi).對(duì)決策樹C5.0、BP神經(jīng)網(wǎng)絡(luò)和Lagrange回歸算法3種典型數(shù)據(jù)分類方法進(jìn)行分析,針對(duì)單一模型客戶流失預(yù)測(cè)建模的特點(diǎn),建立了基于Lagrange 函數(shù)的組合預(yù)測(cè)模型.預(yù)測(cè)結(jié)果表明:所建立的組合模型對(duì)電信客戶流失預(yù)測(cè)命中率大幅提高,預(yù)測(cè)效果好,能有效獲取客戶的流失傾向,使電信企業(yè)營(yíng)銷方案的制定更具針對(duì)性.
[1]夏國(guó)恩.客戶流失預(yù)測(cè)的現(xiàn)狀與發(fā)展研究[J].計(jì)算機(jī)應(yīng)用研究,2010,27(2):151-153.
[2]張線媚.數(shù)據(jù)挖掘在電信行業(yè)客戶流失預(yù)測(cè)中的應(yīng)用[J].微型機(jī)與應(yīng)用,2015,34(15):99-102.
[3]劉光遠(yuǎn),苑森淼,董立巖.數(shù)據(jù)挖掘方法在用戶流失預(yù)測(cè)分析中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(9):154-156.
[4]郭俊芳,周生寶.基于聯(lián)合決策樹的客戶流失預(yù)測(cè)模型設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2010(5):5-7.
[5]尹婷,覃錫忠,賈振紅,等.基于WEKA 的客戶流失預(yù)測(cè)研究[J].激光雜志,2013,34(5):44-46.
[6]仲繼.電信企業(yè)客戶流失預(yù)測(cè)模型研究[D].西安:西安科技大學(xué),2011:21-22.
[7]張曉濱,高峰,黃慧.基于客戶細(xì)分的客戶流失預(yù)測(cè)研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2009,30(24):5755-5758.
[8]王曉華.電信數(shù)據(jù)挖掘的數(shù)據(jù)質(zhì)量評(píng)估技術(shù)研究[D].杭州:浙江大學(xué),2010:7-10.
[9]潘大勝,屈遲文.一種改進(jìn)ID3型決策樹挖掘算法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37(1):71-73.
[10]CONG H E, REN Lihong, DING Yongsheng. Performance prediction of carbon fiber protofilament based on SAGA-SVR [J].Journal of Donghua University,2014,31(2):92-97.
[11]李愛群,喬晗,王汝傳,等.基于分布式混合數(shù)據(jù)挖掘的電信客戶流失分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2010,20(10):43-46.
[12]朱龍.利潤(rùn)約束的關(guān)聯(lián)規(guī)則挖掘算法[J].華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,36(9):522-526.
[13]THANGAPARVATHI B,ANANDHAVALLI D,SHALINIE S M.A high speed decision tree classifier algorithm for huge dataste[C]∥IEEE-International Conference on Recent Trends in Information Technology.[S.l.]:IEEE Press,2011,10(6):695-700.
[14]遲準(zhǔn).電信運(yùn)營(yíng)企業(yè)客戶流失預(yù)測(cè)與評(píng)價(jià)研究[D].哈爾濱:哈爾濱工程大學(xué),2013:73-74.
(責(zé)任編輯: 陳志賢英文審校: 吳逢鐵)
Combination Forecasting Model of Customer Churns in Telecom Industry
YU Lu1,2
(1. School of Computer and Information Science, Southwestern University, Chongqing 400715, China;2. Teaching Affair Office, Chongqing Fuling Radio and television University, Chongqing 408000, China)
According to telecommunication customer churn problem, the forecasting model based on decision tree C5.0, BP (back-propagation) neural network and logistic regression algorithm combination is designed, and according to orecasting of the customer churns in some telecom companies, the accuracy is higher and prediction effect is good in combination forecasting model compared to a single customer churn prediction model. It shows the basic features of the customer churn more directly.
customer churn; forecasting model; telecom industry;decision tree C5.0; back-propagation neural network; logistic regression algorithm
10.11830/ISSN.1000-5013.201605022
2016-06-20
余路(1972-),男,講師,博士,主要從事計(jì)算機(jī)數(shù)據(jù)庫(kù)技術(shù)的研究.E-mail:flddyl@126.com.
重慶市自然科學(xué)技術(shù)研究項(xiàng)目(KJ131302)
TP 311.5
A
1000-5013(2016)05-0637-04