王 銳,王 虎,熊亞洲,李 荻
(武漢理工大學(xué)管理學(xué)院,湖北武漢430070)
電信客戶的流失是一個受經(jīng)濟(jì)、客戶等諸多因素影響的復(fù)雜系統(tǒng),如何在數(shù)據(jù)來源眾多、數(shù)據(jù)屬性各異的情形下選取對電信客戶的流失有顯著影響的數(shù)據(jù)屬性成為了客戶流失預(yù)測的一個難題。有關(guān)特征屬性選取的方法主要有相關(guān)性分析法[1]、核主成分分析法[2]及神經(jīng)網(wǎng)絡(luò)分析法[3]。其中相關(guān)性分析法原理較為簡單,只能消除線性相關(guān)性較高的屬性,不能完全消除掉冗余屬性。神經(jīng)網(wǎng)絡(luò)分析法能解析變量之間的非線性關(guān)系,但計算復(fù)雜度對屬性的個數(shù)較為敏感。在電信客戶行為預(yù)測方法研究方面,較多采用回歸決策樹[4-6]、Logistic 回歸[7]和支持向量機(jī)[8-10]等方法。這些方法雖然預(yù)測效果較好,但存在計算過程復(fù)雜、普適性差等問題,同時這些預(yù)測方法中對客戶狀態(tài)只有流失與非流失兩種狀態(tài)的預(yù)測。對處于潛在流失狀態(tài)客戶的預(yù)測不太理想。因此,針對電信客戶消費行為數(shù)據(jù)項較多的特點,采用相關(guān)性分析剔除相關(guān)性較高的屬性,用粗糙集從剩下的屬性中提取對用戶狀態(tài)有顯著影響的屬性為特征屬性,并以此為證據(jù),利用DS證據(jù)理論結(jié)合具體用戶的行為數(shù)據(jù)對該用戶所處的狀態(tài)進(jìn)行知識推理,從而對該用戶流失的可能性進(jìn)行判定。
客戶的狀態(tài)d可分為:正??蛻簟撛诹魇Э蛻艉土魇Э蛻?。客戶的消費行為屬性C主要有:c1為在客戶通話記錄中重復(fù)出現(xiàn)3次以上的電話號碼數(shù);c2為客戶所選套餐的類型;c3為套餐的最低消費額;c4為用戶月平均消費額;c5為日平均主叫次數(shù);c6為日平均被叫次數(shù);c7為月平均成功通話率;c8為月平均漫游費用比;c9為月平均長途費用比。
定義1 知識P的信息熵為:
其中,P(xi)=|xi|/|U|,i=1,2,…,n。
定義2 知識Q相對知識P的條件信息熵為:
其中,P(yj|xi)=|yj∩xi|/|xi|,i=1,2,…,n;j=1,2,…,m。
定義3 知識P與Q的互信息為:
設(shè)決策表 T={U,C∪D,V,f},U 為論域,C為U的條件屬性集,D為決策屬性集,令a∈C,若互信息I(C,D)>I(C-{a},D),則屬性a為核屬性。由所有的核屬性構(gòu)成的集合C0稱為核屬性集。算法的主要思路如下:
(1)計算出不相容決策表T中條件屬性集C與決策屬性集D的互信息I(C,D)。
(2)計算出所有的核屬性a,得到核屬性集C0,令 B=C0。
(3) 計算 I(B,D),若 I(B,D)=I(C,D),則算法結(jié)束,B為相對約簡。否則繼續(xù)步驟(4)。
(4)從條件屬性集C中依次選取屬性p,p?B,計算I(B∪{p},D),從中選取I(B∪{p},D)最大時的屬性,若有多個屬性使互信息同時達(dá)到最大,則從中選取與B的屬性值最少組合的屬性,同時B=B∪{p}。最后轉(zhuǎn)至步驟(3)。
定義4 (規(guī)則強(qiáng)度)決策表DS={U,C∪D,V,f},C和D分別為條件屬性集和決策屬性集,?x∈U,x關(guān)于C的上近似集為關(guān)于D的上,則規(guī)則 f (x,C)→f(x,D)的強(qiáng)度為:
定義5 (擴(kuò)充規(guī)則強(qiáng)度)決策表DS={U,C∪D,V,f},a∈C,x,y∈U,?f(x,a)→f(x,D),f(y,a)→f(y,D),若 f(x,a)=f(y,a)且 f(x,D)≠f(y,D),則擴(kuò)充規(guī)則為:f(x,a)→{f(x,D),f(y,D)}。擴(kuò)充規(guī)則 f(x,a)→{f(x,D),f(y,D)}的強(qiáng)度為:
由式(4)和式(5)可計算出任一對象的規(guī)則強(qiáng)度ui,此時設(shè)P為識別框架Θ上的一個命題,P∈2Θ,則命題P的基本概率賦值為:
設(shè)有m1,m2兩個基于相同辨識框架Θ上的基本概率賦值,如果 Bel1的焦元為 A1,A2,…,Ak;Bel2的焦元為B1,B2,…,Bn,按如下合成規(guī)則進(jìn)行合成。
設(shè)定一個閾值 ε,假設(shè)存在 P1,P2?Θ,其中 m(P1)=max{m(Pi),Pi?Θ},m(P2)=max{m(Pi),Pi? Θ,Pi≠ P1},若 m(P1) -m(P2)>ε,則P1為推斷結(jié)果。
筆者選取湖北省武漢市某電信運營商681名電信客戶在2013年3—6月的行為數(shù)據(jù),選取上述消費行為屬性指標(biāo)作為條件屬性,將客戶所處的狀態(tài)作為決策屬性。先采用Person相關(guān)系數(shù)來檢驗屬性之間的相關(guān)性。檢驗結(jié)果如表1所示。
表1 Person相關(guān)系數(shù)表
由表1可知,C2與C3之間的相關(guān)系數(shù)、C2與C4之間的相關(guān)系數(shù)、C3與C4之間的相關(guān)系數(shù),以及C8與C9之間的相關(guān)系數(shù)都遠(yuǎn)高于0.400,這意味著這些行為屬性之間存在著較高的線性相關(guān)性。因此,筆者在C2、C3和C4這3個行為屬性之間保留C4,剔除C2與C3。在屬性C8與C9之間保留C8,剔除C9。此時,剩下的行為屬性之間的相關(guān)系數(shù)均小于0.400,這也就意味著這些行為屬性之間是弱相關(guān)。由于粗糙集理論無法直接處理連續(xù)性數(shù)據(jù),因此將 C1、C4、C5、C6、C7和 C8這些屬性的取值按表2進(jìn)行離散化處理可得到表3。
表2 離散等級表
表3 決策信息表
依據(jù)式(1)可得:
依據(jù)式(2)可得:
依據(jù)式(3)可得:
I(C,D)=H(D) - H(D|C)=1.371
同理可得:I(C -{c1},D)=1.171,I(C -{c4},D)=1.371,I(C - {c5},D)=1.371,I(C -{c6},D)=1.371,I(C - {c7},D)=1.171,I(C -{c8},D)=1.171
因I(C,D) >I(C -{c1},D),I(C,D) >I(C -{c7},D),I(C,D) > I(C - {c8},D),故 c1,c7,c8為核屬性。核屬性集 C0={c1,c7,c8},令 B=C0,計算可得 I(B,D)=1.371。由于 I(B,D)=I(C,D),因而根據(jù)上述約簡算法,相對約簡B={c1,c7,c8}為電信客戶的特征行為屬性。將表3中不屬于B的行為屬性剔除,此時表3中的行為屬性集C剩下c1、c7和c8這3列。
現(xiàn)有客戶A的c1、c7及c8行為屬性取值分別為c1=3,c7=2,c8=2,需要對用戶的狀態(tài)進(jìn)行推斷。以c1、c7及c8為證據(jù)按上述規(guī)則強(qiáng)度的方法分別計算c1、c7及c8所對應(yīng)的BPA,具體過程為:U/{c1,D}={U1,(U2,U4),U3,(U5,U9),(U6,U10),(U7,U8)}。
結(jié)合A的c1=3的基本情形,可得B1={U1,U3}={d1,d2},雖然對象集U1和U3的c1的取值均為3,但是它們所對應(yīng)的d值卻不同,對象集U1對應(yīng)的d的取值為1,而對象集U3對應(yīng)的d的取值則為2。按定義4可計算出對象集U1所對應(yīng)的規(guī)則強(qiáng)度為v1=|d1∩B1|/|B1|=83/(83+67)=0.55。
同理可計算出對象集U3所對應(yīng)的規(guī)則強(qiáng)度v2=0.45,依據(jù)定義5可計算出擴(kuò)充規(guī)則強(qiáng)度v3=v1·v2=0.247 5。依據(jù)式(7)可得到下面的證據(jù)BPA。
mc1(1)=v1/(1+v1v2)=0.441
同理可得:mc1(2)=0.361,mc1(1,2)=0.198。
對于證據(jù)c7而言,結(jié)合B的c7=2的情形,同理可得:mc7(1)=0.295,mc7(2)=0.516,mc7(1,2)=0.188。
對于證據(jù)c8而言,結(jié)合B的c8=2的基本情形,經(jīng)計算得到:mc8(1)=0.190,mc8(2)=0.545,mc8(3)=0.238,mc8(1,2,3)=0.026。
按照證據(jù)合成的思想首先將c1與c7進(jìn)行合成可得到證據(jù)c',然后再將c'與證據(jù)c8進(jìn)行合成。過程如下:首先將c1與c7進(jìn)行合成,依據(jù)式(7)計算:
同理可得:m'(2)=0.560,m'(1,2)=0.055。
然后,將c'與證據(jù)c8進(jìn)行合成可得:m(1)=0.231,m(2)=0.748,m(1,2)=0.003。
由此可知,客戶A處于正常狀態(tài)的信任度為0.231,B類客戶處于潛在流失狀態(tài)的信任度為0.748,處于不確定是正常還是潛在流失狀態(tài)的信任度為0.003。依據(jù)推斷方法設(shè)置ε=0.3,由m(P1)=max{m(Pi),Pi?Θ}可知:m(P1)=m(2)=0.748,根據(jù) m(P2)=max{m(Pi),Pi?Θ,Pi≠P1}可知:m(P2)=m(1)=0.231,因為 m(P1) -m(P2)=m(2) -m(1)=0.517 遠(yuǎn)大于 0.3,因此推斷客戶所處的狀態(tài)應(yīng)為潛在流失狀態(tài)。
筆者針對電信客戶消費行為數(shù)據(jù)項較多且較為復(fù)雜的特點,首先運用相關(guān)分析剔除客戶消費行為數(shù)據(jù)中相關(guān)性較高的數(shù)據(jù)項,然后運用粗糙集理論在剩下的屬性中提取出對客戶狀態(tài)有顯著影響的特征行為屬性,以此形成基本推理證據(jù),并應(yīng)用決策規(guī)則強(qiáng)度確定證據(jù)所對應(yīng)的BPA,然后結(jié)合客戶的實際情形,使用DS證據(jù)合成方法對客戶的狀態(tài)進(jìn)行知識推理,最后通過實證分析證明了該方法的有效性。
[1]T SAIC F,CHEN MY.Variable selection by association rules for customer churn prediction ofmultimedia on demand[J].Expert Systems with Applications,2010,37(3):2006 -2015.
[2]夏 國恩.基于核主成分分析特征提取的客戶流失預(yù)測[J].計算機(jī)應(yīng)用,2008,28(1):149-151.
[3]王雷,陳松林,顧學(xué)道.客戶流失預(yù)警模型及其在電信企業(yè)的應(yīng)用[J].電信科學(xué),2006,(11):47 -51.
[4]HUNG SY,YEN D C,WANG H Y.Applying data mining to telecom churn management[J].Expert Systemswith Applications,2006,31(3):515 -524.
[5]AHN JH,HAN SP,LEE Y S.Customer churn analysis:churn determinants andmediation effects of partial defection in the Korean mobile telecommunications service industry[J]. Telecommunications Policy,2006,30(10):552 -568.
[6]JOHN,ASHUTOSH T,RAJKUMAR R.Churn prediction using complaints data[J].Trans on Engineering Computing and Technology,2006(13):158 -163.
[7]顧光同,王力賓,費宇.電信客戶流失預(yù)警規(guī)則及其信度測定實證研究[J].云南財經(jīng)大學(xué)學(xué)報,2010(6):94-98.
[8]夏國恩,金煒東.基于支持向量機(jī)的客戶流失預(yù)測模型[J].系統(tǒng)工程理論與實踐,2008,28(1):71 -77.
[9]夏國恩,陳云,金煒東.電信企業(yè)客戶流失預(yù)測模型[J].統(tǒng)計與決策,2006(20):163 -165.
[10]王月敏.電信客戶流失量估計組合模型的仿真研究[J].計算機(jī)仿真,2013,30(3):209 -212.