徐子偉,王傳啟,王 鵬,黃 海
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230027)
?
基于分步特征提取和組合分類器的電信客戶流失預(yù)測模型
徐子偉,王傳啟,王鵬,黃海
(中國科學(xué)技術(shù)大學(xué) 信息科學(xué)技術(shù)學(xué)院,安徽 合肥 230027)
摘要:針對電信客戶流失數(shù)據(jù)集存在的數(shù)據(jù)維度過高及單一分類器預(yù)測效果較弱的問題,結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點(diǎn)及組合分類器的較高預(yù)測能力,提出了一種基于Fisher比率與預(yù)測風(fēng)險(xiǎn)準(zhǔn)則的分步特征選擇方法結(jié)合組合分類器的電信客戶流失預(yù)測模型。首先,基于Fisher比率從原始特征集合中提取具有較高判別能力的特征;其次,采用預(yù)測風(fēng)險(xiǎn)準(zhǔn)則進(jìn)一步選取對分類模型預(yù)測效果影響較大的特征;最后,構(gòu)建基于平均概率輸出和加權(quán)概率輸出的組合分類器,以進(jìn)一步提高客戶流失預(yù)測效果。實(shí)驗(yàn)結(jié)果表明,相對于單步特征提取和單分類器模型,該方法能夠提高對客戶流失預(yù)測的效果。
關(guān)鍵詞:電信客戶流失預(yù)測;分步特征提?。唤M合分類器
引用格式:徐子偉,王傳啟,王鵬,等. 基于分步特征提取和組合分類器的電信客戶流失預(yù)測模型[J].微型機(jī)與應(yīng)用,2016,35(13):51-54.
0引言
隨著科學(xué)技術(shù)的快速革新,國內(nèi)電信市場日趨飽和,競爭日益加劇。吸引新的客戶和挽留已有客戶成為電信行業(yè)客戶關(guān)系管理的兩個(gè)重要主題。據(jù)統(tǒng)計(jì),吸引一個(gè)新客戶的成本是挽留一個(gè)已有客戶的5~6倍[1]。進(jìn)行潛在流失客戶的預(yù)測分析并制定有針對性的挽留策略,能夠減少企業(yè)客戶流失率和利潤損失。因此,構(gòu)建一個(gè)高效、準(zhǔn)確的電信客戶流失預(yù)測模型具有重大意義。
針對電信客戶流失預(yù)測問題,國內(nèi)外學(xué)者進(jìn)行了廣泛的研究,取得了豐富的研究成果。本文根據(jù)流失預(yù)測模型的構(gòu)建策略,將這些文獻(xiàn)粗略地分為基于單分類器和組合分類器的流失預(yù)測模型。例如,國內(nèi)外學(xué)者分別構(gòu)建了基于支持向量機(jī)(Support Vector Machine, SVM)[2]、決策樹(Decision Tree, DT)[3-4]、邏輯斯蒂回歸(Logistic Regression, LR)[3-4]、神經(jīng)網(wǎng)絡(luò)[5]、隨機(jī)森林(Random Forest, RF)[6]、提升樹[7]和樸素貝葉斯(Naive Bayes, NB)[8]分類算法的流失預(yù)測模型。相對于單分類器,組合分類器具有更好的預(yù)測性能。參考文獻(xiàn)[9]針對移動(dòng)和無線服務(wù)提供商中的流失預(yù)測問題,提出了一個(gè)基于RF、LR和DT的組合分類器。參考文獻(xiàn)[10]提出了一個(gè)基于RF、旋轉(zhuǎn)森林(Rotation Forest)和K-近鄰的組合分類器進(jìn)行潛在客戶的流失預(yù)測分析,驗(yàn)證了組合分類器比單一分類器具有較好的預(yù)測性能。
然而,針對客戶流失預(yù)測分析問題,很多學(xué)者重點(diǎn)關(guān)注于分類器的選擇與調(diào)整,往往忽視了流失數(shù)據(jù)集中的維度過高問題。特征選擇方法是一個(gè)解決高維度問題的有效方法,它能夠從原始特征集合中選取重要特征,減少無用和噪聲特征,提高分類器的預(yù)測準(zhǔn)確性,減少計(jì)算資源的開銷。在客戶流失預(yù)測領(lǐng)域,基于專家經(jīng)驗(yàn)知識和基本統(tǒng)計(jì)信息的特征選擇是兩種典型的特征選擇方法。參考文獻(xiàn)[6]采用最大相關(guān)和最小冗余算法選取與目標(biāo)列具有較強(qiáng)相關(guān)性的特征集合,同時(shí)減少特征之間的冗余性。參考文獻(xiàn)[11]提出一個(gè)基于專家經(jīng)驗(yàn)知識和馬爾科夫覆蓋發(fā)現(xiàn)技術(shù)(Markov Blanket Discovery technique, MBD)的兩步特征提取方法。
基于專家經(jīng)驗(yàn)知識的特征選擇方法往往具有主觀性和片面性的缺點(diǎn)。基于統(tǒng)計(jì)信息的特征選擇方法,即過濾式特征選擇方法,采用特征列與目標(biāo)列之間的統(tǒng)計(jì)信息構(gòu)造相應(yīng)指標(biāo)以選取與目標(biāo)列具有較強(qiáng)相關(guān)性的特征。該方法復(fù)雜度低,通用性強(qiáng),可以快速去除不相關(guān)或相關(guān)度低的特征。然而,該方法的特征評估指標(biāo)獨(dú)立于分類算法,忽視了不同特征對分類器預(yù)測效果具有不同影響的問題。封裝式特征選擇方法根據(jù)分類器的評估指標(biāo)對特征進(jìn)行排序,如準(zhǔn)確率、召回率或AUC等,能夠詳細(xì)評估每個(gè)特征對分類器預(yù)測效果的影響程度。
針對電信客戶流失領(lǐng)域特征選擇方法存在的上述問題和單分類器預(yù)測能力較弱的問題,本文結(jié)合過濾式和封裝式特征選擇方法的優(yōu)點(diǎn)以及組合分類器較強(qiáng)的預(yù)測性能,提出了一種基于Fisher比率和預(yù)測風(fēng)險(xiǎn)(Prediction Risk, PR)準(zhǔn)則的兩步特征提取方法(本文命名為FP-PR算法),并結(jié)合組合分類器的電信客戶流失預(yù)測模型。該模型首先采用Fisher比率從原始特征集合中選取具有較強(qiáng)判別能力的特征;在此基礎(chǔ)上,結(jié)合預(yù)測風(fēng)險(xiǎn)準(zhǔn)則,進(jìn)一步提取對分類器預(yù)測效果影響較大的特征。然后,結(jié)合Spark大數(shù)據(jù)處理框架,采用NB、線性支持向量機(jī)(Linear Support Vector Machine, LSVM)、LR、DT和RF構(gòu)建單分類器預(yù)測模型。最后,按照“優(yōu)勝劣汰”原則,選取預(yù)測性能較好的3個(gè)分類器構(gòu)建組合分類器,以提高流失預(yù)測準(zhǔn)確率。
1前述方法描述
參考數(shù)據(jù)挖掘的一般流程,本文提出的電信客戶流失預(yù)測模型的構(gòu)建過程如圖1所示。
圖1 客戶流失預(yù)測模型構(gòu)建流程
該過程包括基本數(shù)據(jù)預(yù)處理、兩步特征提取和組合分類器構(gòu)建3個(gè)關(guān)鍵環(huán)節(jié)。其中,基本數(shù)據(jù)預(yù)處理包括缺失值填充、標(biāo)準(zhǔn)化、離散化和類別不均衡問題處理。
1.1基本數(shù)據(jù)預(yù)處理
本文采用KDD競賽Orange電信數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)分析與方法驗(yàn)證。該份數(shù)據(jù)集數(shù)據(jù)質(zhì)量非常差,需要進(jìn)行大量的數(shù)據(jù)預(yù)處理工作。數(shù)據(jù)預(yù)處理的目的是對原始數(shù)據(jù)集進(jìn)行轉(zhuǎn)換處理,以滿足數(shù)據(jù)挖掘工具與算法的要求。本實(shí)驗(yàn)基本數(shù)據(jù)預(yù)處理包含缺失值填充、標(biāo)準(zhǔn)化、離散化和均衡化處理。此外,傳統(tǒng)的分類算法包含類別樣本近似均衡的假設(shè)條件。然而,電信客戶流失數(shù)據(jù)集是一個(gè)典型的不均衡數(shù)據(jù)集,正負(fù)樣本比例為1 ∶12.62。傳統(tǒng)的數(shù)據(jù)不均衡問題處理方法主要有采樣和調(diào)整分類算法參數(shù)估計(jì)方法。本實(shí)驗(yàn)為了避免隨機(jī)抽樣過程中隨機(jī)因素導(dǎo)致的結(jié)果不穩(wěn)定問題,采用過采樣策略構(gòu)建均衡樣本數(shù)據(jù)集。
1.2兩步特征提取方法
本文針對流失數(shù)據(jù)集中的維度較高以及該領(lǐng)域特征選擇方法存在的上述問題,結(jié)合過濾式和嵌入式特征選擇方法的優(yōu)點(diǎn),提出了基于Fisher比率和預(yù)測風(fēng)險(xiǎn)準(zhǔn)則的兩步特征提取方法,算法描述如下:
算法1:FR-PR算法
輸入:訓(xùn)練數(shù)據(jù)集T={(x,y)},F(xiàn)isher比率所選特征數(shù)為f1,預(yù)測風(fēng)險(xiǎn)所選特征數(shù)為f2,分類器C
輸出:優(yōu)化特征子集F_Optimal
(1)開始;
(2)根據(jù)Fisher比率公式計(jì)算特征i對應(yīng)的Fisher比率Fi;
(3)根據(jù)Fi值降序排列所有特征,并選取前f1個(gè)特征作為一步特征提取的優(yōu)化特征子集;
(4)根據(jù)步驟(3)選擇的f1個(gè)特征,重新構(gòu)建數(shù)據(jù)集T-temp;
(5)基于T-temp數(shù)據(jù)集和所有f1個(gè)特征,計(jì)算分類器C對應(yīng)的AUC指標(biāo);
(6)將特征j對應(yīng)的所有樣本以特征j的樣本均值替代,根據(jù)預(yù)測風(fēng)險(xiǎn)公式計(jì)算AUC(j)和R(j);
(7)根據(jù)R(j)值重新降序排列Fisher比率得到的f1個(gè)特征,并選擇前f2個(gè)特征作為優(yōu)化特征子集F_Optimal
(8)結(jié)束。
基于Fisher比率的特征選擇是一種過濾式特征選擇方法。結(jié)合每個(gè)類別對應(yīng)樣本的均值和方差,F(xiàn)isher比例能夠篩選出具有較強(qiáng)判別能力的特征。Fisher比率的公式如下:
(1)
其中,ui、σi是每個(gè)類別對應(yīng)特征i樣本的均值與方差。Fisher′s Ratio(i)代表特征i對應(yīng)的Fisher比率,該值越大,說明特征i對目標(biāo)列的判別能力越強(qiáng)。
預(yù)測風(fēng)險(xiǎn)準(zhǔn)則是一種嵌入式特征選擇方法,該方法通過將特征i的所有樣本以該特征的均值代替,結(jié)合分類模型評估指標(biāo)(本文取AUC)來判別特征i對分類器的影響程度。特征i對應(yīng)的預(yù)測風(fēng)險(xiǎn)如下:
Ri=AUC-AUC(i)
(2)
其中,AUC指Fisher比率所選特征對應(yīng)分類模型的評估指標(biāo),AUC(i)指將特征i所有樣本以均值替代后的特征集合對應(yīng)的分類模型評估指標(biāo)。Ri為兩者之差,代表特征i的預(yù)測風(fēng)險(xiǎn)。Ri大于0的程度越大,說明特征i對分類模型預(yù)測效果的影響越大。
1.3組合分類器構(gòu)建
本實(shí)驗(yàn)結(jié)合大數(shù)據(jù)處理框架Spark,分別構(gòu)建了基于NB、LSVM、LR、DT和RF分類算法的流失預(yù)測模型,并采用AUC評估指標(biāo)來判別分類器預(yù)測性能的好壞。在此基礎(chǔ)上,從5種分類模型中選取3個(gè)預(yù)測性能較好的分類器構(gòu)建組合分類器。本文的組合分類器構(gòu)建方法如下:
算法2:組合分類器構(gòu)建方法
輸入:分類器Ci,i=1,2,…,n
輸出:組合分類器C及其預(yù)測概率輸出
(1)開始;
(2)根據(jù)兩步特征提取的優(yōu)化特征子集訓(xùn)練n個(gè)分類器C1,C2,…,Cn,計(jì)算相應(yīng)的分類評估指標(biāo)AUC(i);
(3)根據(jù)各個(gè)分類器對應(yīng)的AUC值,選取前m個(gè)預(yù)測性能較好的分類器Cj,j=1,2,…,m,對應(yīng)預(yù)測概率輸出為pj;
(4)依據(jù)如下策略構(gòu)建組合分類器C,并計(jì)算組合分類器對應(yīng)的預(yù)測概率輸出p:
①組合分類器C的概率輸出p取值為m個(gè)分類器的平均概率輸出:
②組合分類器C的概率輸出p取值為m個(gè)分類器的加權(quán)平均概率輸出:
p=∑wj·pj,其中wj=AUC(j)/∑AUC(k),k=1,2,…,m
(5)結(jié)束。
組合分類器構(gòu)建的兩種主要方法是多數(shù)投票和組合概率輸出。本文采用組合概率輸出的方式構(gòu)建組合分類器模型,并結(jié)合平均概率輸出和加權(quán)平均概率輸出的方式確定組合分類器的概率輸出。平均概率輸出組合分類器模型對各個(gè)分類器模型的概率輸出進(jìn)行平均化處理,而加權(quán)平均概率輸出組合分類器模型對各個(gè)分類器模型的概率輸出進(jìn)行加權(quán)求和。其中,加權(quán)概率輸出模型的權(quán)重由各個(gè)分類器的AUC指標(biāo)進(jìn)行單位化處理求得。
2實(shí)驗(yàn)結(jié)果及其分析
2.1數(shù)據(jù)集描述
Orange數(shù)據(jù)集包含230個(gè)特征(190個(gè)數(shù)值特征和40個(gè)類別特征)和50 000個(gè)樣本(3 672個(gè)正類樣本和4 6328個(gè)負(fù)類樣本)。本實(shí)驗(yàn)將該數(shù)據(jù)集以7 ∶3的比例分割為訓(xùn)練集和測試集。訓(xùn)練集由前2 570個(gè)正類樣本和前32 430個(gè)負(fù)類樣本構(gòu)成,測試集由其余樣本構(gòu)成。
2.2實(shí)驗(yàn)結(jié)果與分析
如前所述,本文客戶流失預(yù)測模型構(gòu)建過程包括基本數(shù)據(jù)預(yù)處理、兩步特征提取(以O(shè)ne和Two表示)和組合分類器構(gòu)建3個(gè)主要步驟。其中,基本數(shù)據(jù)預(yù)處理包含空值填充、離散化、標(biāo)準(zhǔn)化和均衡化(以Fill、Disc、Stan和Bal表示)。組合分類器的構(gòu)建采用平均概率輸出和加權(quán)概率輸出兩種策略(以Ens1和Ens2表示)。本文對每一步數(shù)據(jù)處理產(chǎn)生的實(shí)驗(yàn)結(jié)果進(jìn)行展示和分析,如表1所示。
表1 基本數(shù)據(jù)預(yù)處理實(shí)驗(yàn)結(jié)果
如表1所示,離散化和標(biāo)準(zhǔn)化處理能夠明顯提升NB和LSVM的預(yù)測效果。然而,不合理的離散化方式降低了LR、DT和RF的預(yù)測效果。此外,均衡化數(shù)據(jù)處理能夠提高各分類器的預(yù)測效果,這是由于傳統(tǒng)的分類算法往往包含類別樣本近似均衡的假設(shè)條件。分步特征提取對預(yù)測結(jié)果的影響如表2所示。
表2 一步和兩步特征提取實(shí)驗(yàn)結(jié)果
如表2所示,特征提取能夠提高分類器的預(yù)測效果。相比一步特征提取,本文提出的兩步特征提取方法能夠進(jìn)一步提高分類器的預(yù)測性能。然而,由于基于基尼指數(shù)的特征選擇方法所選的特征類似于兩步特征選擇方法提取的特征,決策樹的預(yù)測效果變化不大,這也間接說明了決策樹算法較強(qiáng)的魯棒性。由表2得知,LR、DT和RF具有較強(qiáng)的預(yù)測性能,本文選取這三種分類算法構(gòu)建組合分類器。其中,LR采用均值填充、均衡化處理和兩步特征提取到的60個(gè)特征進(jìn)行模型的構(gòu)建;DT采用離散化、均衡化處理和兩步特征提取到的90個(gè)特征進(jìn)行模型的訓(xùn)練;而RF采用均值填充、均衡化處理和兩步特征提取的70個(gè)特征進(jìn)行模型的訓(xùn)練。如前所述,本文采用平均概率輸出和加權(quán)概率輸出的方式構(gòu)建組合分類器。實(shí)驗(yàn)結(jié)果如表3所示。
如表3所示,基于組合分類器的客戶流失預(yù)測模型預(yù)測效果優(yōu)于單個(gè)分類器?;诩訖?quán)平均概率輸出的組合分類器預(yù)測效果優(yōu)于基于平均概率輸出的組合分類器,因?yàn)榧訖?quán)概率輸出的策略提升了預(yù)測效果較好的單一分類器在組合分類器中的權(quán)重。本文提出的基于兩步特征提取和加權(quán)組合分類器的電信客戶流失預(yù)測模型取得了最優(yōu)預(yù)測效果0.7201AUC。
表3 3個(gè)最優(yōu)分類器和
3結(jié)論
本文針對電信客戶流失數(shù)據(jù)集中的維度較高和單一分類器預(yù)測效果較弱的問題,提出了基于兩步特征提取和組合分類器的客戶流失預(yù)測模型構(gòu)建方法。結(jié)合過濾式特征選擇和封裝式特征選擇方法的優(yōu)點(diǎn),構(gòu)建了基于Fisher比例和預(yù)測風(fēng)險(xiǎn)的兩步特征提取方法。該方法提取的優(yōu)化特征子集具有較強(qiáng)的判別能力,同時(shí)對分類器的預(yù)測效果影響較大。此外,為了進(jìn)一步提高分類器的預(yù)測效果,本文基于“優(yōu)勝劣汰”的思想構(gòu)建了組合分類器。實(shí)驗(yàn)結(jié)果表明,本文提出的兩步特征提取和組合分類器的電信客戶流失預(yù)測模型取得了較好的預(yù)測效果。然而,本文構(gòu)建的兩步特征選擇方法僅采用了一種過濾式特征選擇方法和一種嵌入式特征選擇方法。在下一步研究中,將嘗試更多的特征提取方法以尋求最優(yōu)方法組合,同時(shí)探索更優(yōu)的類別不均衡問題處理方法,以優(yōu)化客戶流失預(yù)測模型預(yù)測效果。
參考文獻(xiàn)
[1] KOTLER P. Marketing management: analysis, planning, implementation, and control[J]. The Prentice-Hall Series in Marketing, 1988, 67(11):297-320.
[2] COUSSEMENT K, VAN DEN POEL D. Churn prediction in subscription services: an application of support vector machines while comparing two parameter-selection techniques[J]. Expert Systems with Applications, 2008, 34(1): 313-327.
[3] HUANG B Q, KECHADI M-T, BUCKLEY B. Customer churn prediction for broadband Internet services[C]. Data Warehousing and Knowledge Discovery, 11th International Conference, DaWaK 2009, Linz, Austria, 2009: 229-243.
[4] NIE G, ROWE W, ZHANG L, et al. Credit card churn forecasting by logistic regression and decision tree[J]. Expert Systems with Applications, 2011, 38(12): 15273-15285.
[5] TSAUI C F, LU Y H. Customer churn prediction by hybrid neural networks[J]. Expert Systems with Applications, 2009, 36(10): 12547-12553.
[6] IDRIS A, RIZWAN M, KHAN A. Churn prediction in telecom using Random Forest and PSO based data balancing in combination with various feature selection strategies[J]. Computers & Electrical Engineering, 2012, 38(6): 1808-1819.
[7] IDRIS A, KHAN A, LEE Y S. Genetic programming and adaboosting based churn prediction for telecom[C]. Systems Man and Cybernetics (SMC), 2012 IEEE International Conference on. IEEE, 2012: 1328-1332.
[8] HADDEN J, TIWARI A, ROY R, et al. Computer assisted customer churn management: State-of-the-art and future trends[J]. Computers & Operations Research, 2007, 34(10): 2902-2917.
[9] YABAS U, CANKAYA H C. Churn prediction in subscriber management for mobile and wireless communications servi-ces[C]. Globecom Workshops (GC Wkshps), 2013 IEEE. IEEE, 2013: 991-995.
[10] IDRIS A, KHAN A. Ensemble based efficient churn prediction model for telecom[C]. Frontiers of Information Technology (FIT), 2014 12th International Conference on. IEEE, 2014: 238-244.
[11] HONG, X, ZHANG Z G, ZHANG Y S. Churn prediction in telecom using a hybrid two-phase feature selection me-thod[C].Intelligent Information Technology Application, 2009. IITA 2009. Third International Symposium on. IEEE, 2009, 3: 576-579.
中圖分類號:TP181
文獻(xiàn)標(biāo)識碼:A
DOI:10.19358/j.issn.1674- 7720.2016.13.017
(收稿日期:2016-04-01)
作者簡介:
徐子偉(1989-),男,碩士,主要研究方向:數(shù)據(jù)挖掘。
王傳啟(1993-),男,碩士,主要研究方向:數(shù)據(jù)挖掘。
王鵬(1988-),男,博士,博士后,主要研究方向:移動(dòng)機(jī)器人導(dǎo)航與定位,數(shù)據(jù)挖掘。
A telecom customer churn prediction model based on two-stage feature selection method and ensemble classifier
Xu Ziwei,Wang Chuanqi,Wang Peng,Huang Hai
( School of Information Science and Technology, University of Science and Technology of China, Hefei 230027, China )
Abstract:To solve the high dimensionality problem in telecom dataset and the weak forecasting ability of single classifiers, this paper proposes a telecom churn prediction model based on two-stage feature selection method and ensemble classifier, taking advantages of filter and wrapper selection method and ensemble classifiers with better forecasting performance. The two-stage feature selection method is based on Fisher′s ratio and prediction risk. Firstly, features with high discriminative ability are selected by Fisher′s ratio. Then we use prediction risk to further select features that have great impacts on classifiers. Lastly, two ensemble classifiers based on the average probability and weighted average probability are constructed to further improve the forecasting performance. Experimental results verify that the proposed method can improve the forecasting performance compared to the model based on one-step feature selection method or single classifier.
Key words:telecom churn prediction; two-stage feature selection; ensemble classifier