李國(guó)祥,蔣怡琳,馬文斌,夏國(guó)恩
1(廣西財(cái)經(jīng)學(xué)院 教務(wù)處,南寧 530003)
2(廣西師范大學(xué) 廣西多源信息挖掘與安全重點(diǎn)實(shí)驗(yàn)室,桂林 541004)
流失客戶通常是指在一定時(shí)期內(nèi)終止使用企業(yè)的服務(wù)或產(chǎn)品的客戶,其預(yù)測(cè)水平是衡量客戶保持策略有效性和客戶關(guān)系管理智能化程度的重要標(biāo)志.目前對(duì)于客戶流失的研究對(duì)象主要集中在傳統(tǒng)的電信客戶流失預(yù)測(cè)和網(wǎng)絡(luò)客戶流失預(yù)測(cè)兩個(gè)方面,研究方法上主要是從特征向量選擇和分類(lèi)器優(yōu)化兩個(gè)角度構(gòu)建客戶流失預(yù)測(cè)模型.
在特征選擇方面,文獻(xiàn)[1]針對(duì)于高維度的樣本特征屬性,定義了屬性滿意度和屬性集滿意度,通過(guò)滿意度函數(shù)來(lái)開(kāi)展高維特征屬性的選擇.文獻(xiàn)[2]基于原始特征引入網(wǎng)絡(luò)客戶價(jià)值特征和情感特征,增加了客戶流失預(yù)測(cè)的新的客戶特征屬性.文獻(xiàn)[3]以網(wǎng)絡(luò)客戶的在線評(píng)論信息為依據(jù),通過(guò)技術(shù)性的情感分析將其表示為積極與消極情感并作為客戶流失預(yù)測(cè)新屬性.文獻(xiàn)[4]針對(duì)電信數(shù)據(jù)集中存在的特征維度過(guò)高問(wèn)題,結(jié)合過(guò)濾式特征選擇和嵌入式特征選擇方法的優(yōu)點(diǎn),提出了一種基于Fisher 比率和預(yù)測(cè)風(fēng)險(xiǎn)準(zhǔn)則的分步特征提取方法.
在分類(lèi)器優(yōu)化方面,文獻(xiàn)[5]利用分類(lèi)回歸樹(shù)算法和自適應(yīng)Boosting 算法作為分類(lèi)算法,生成通信企業(yè)的離網(wǎng)客戶的預(yù)測(cè)模型.文獻(xiàn)[6]改進(jìn)隨機(jī)森林中生成每棵樹(shù)時(shí)節(jié)點(diǎn)劃分的方法,形成新的隨機(jī)森林分類(lèi)模型.文獻(xiàn)[7]將深度學(xué)習(xí)引入到客戶流失預(yù)測(cè)中,構(gòu)造了基于深度神經(jīng)網(wǎng)絡(luò)的流失預(yù)測(cè)模型.文獻(xiàn)[8]通過(guò)改進(jìn)粒子群算法優(yōu)化支持向量機(jī)分類(lèi)器.文獻(xiàn)[9]區(qū)分邊界樣本和非邊界樣本,分別采用K 近鄰分類(lèi)法與支持向量機(jī)作為分類(lèi)器.
上述兩類(lèi)方法在不同數(shù)據(jù)集上都取得了較好的預(yù)測(cè)效果,但隨著信息管理技術(shù)在客戶關(guān)系管理中的廣泛應(yīng)用,客戶的屬性維度和記錄數(shù)大規(guī)模增長(zhǎng),原始實(shí)驗(yàn)中數(shù)據(jù)樣本體量偏小,對(duì)于預(yù)測(cè)結(jié)果科學(xué)性的解釋問(wèn)題日益凸顯,文獻(xiàn)[3]使用京東運(yùn)營(yíng)商手機(jī)卡用戶的在線評(píng)論作為數(shù)據(jù)源,將評(píng)論星級(jí)、會(huì)員等級(jí)、點(diǎn)贊數(shù)作為特征屬性,采集樣本共10 000 余條;文獻(xiàn)[1]使用兩個(gè)數(shù)據(jù)集,第1 個(gè)數(shù)據(jù)集通過(guò)在UCI 中隨機(jī)抽樣,獲得3333 個(gè)訓(xùn)練樣本和1667 個(gè)測(cè)試樣本,第2 個(gè)數(shù)據(jù)以國(guó)內(nèi)某電信公司對(duì)小靈通客戶拆機(jī)停號(hào)來(lái)定義客戶流失,建立1474 個(gè)訓(xùn)練樣本,966 個(gè)測(cè)試樣本;文獻(xiàn)[8] 選取UCI 最常用的8 個(gè)數(shù)據(jù)集,每個(gè)樣本集150~1500不等;文獻(xiàn)[6]以某電信公司2013年9月至2014年2月在網(wǎng)和離網(wǎng)的客戶樣本作為研究對(duì)象,樣本數(shù)量共計(jì)7913 個(gè);文獻(xiàn)[5]選取了15 個(gè)可能影響客戶流失的屬性,在18 萬(wàn)條數(shù)據(jù)中,在網(wǎng)數(shù)據(jù)和離網(wǎng)數(shù)據(jù)分別隨機(jī)抽取3000 條數(shù)據(jù),形成研究樣本.由此可見(jiàn),當(dāng)前客戶流失預(yù)測(cè)研究的數(shù)據(jù)源大部分為小數(shù)據(jù)集或者大樣本集的抽樣,且特征維度較低.隨著大數(shù)據(jù)技術(shù)的發(fā)展,小樣本的抽樣數(shù)據(jù)集已經(jīng)不能滿足對(duì)于預(yù)測(cè)的需要,大樣本的高維度數(shù)據(jù)計(jì)算將成為必然.
大樣本的高維度數(shù)據(jù)計(jì)算核心算法包括早期的主成分分析(Principal Component Analysis,PCA)[10],線性判別分析(Linear Discriminant Analysis,LDA)等,這類(lèi)算法理論基礎(chǔ)堅(jiān)實(shí),且易于執(zhí)行,很多學(xué)者通過(guò)使用核技巧,將這些線性特征提取算法擴(kuò)展到核領(lǐng)域,如核獨(dú)立主成分分析[11].另一類(lèi)非線性特征提取技術(shù)是流行學(xué)習(xí)方法,例如,局部保持投影(Locality Preserving Projection,LPP)[12]、局部線性嵌入(Locally Linear Embedding,LLE)[13]等,文獻(xiàn)[14] 中Zhai 等人在LPP的基礎(chǔ)上提出了一種改進(jìn)的局部保持投影.局部保持投影(LPP)不但具有簡(jiǎn)單、快捷等優(yōu)點(diǎn),同時(shí)可以考慮到整體數(shù)據(jù)空間;此外,LPP 算法最大程度保持了數(shù)據(jù)的局部結(jié)構(gòu),因此在低維空間中表示的最近鄰搜索極大可能與高維空間中產(chǎn)生的結(jié)果類(lèi)似.所以,LPP 算法在數(shù)據(jù)降維領(lǐng)域有相當(dāng)高的實(shí)用性.雖然LPP 算法實(shí)用性較強(qiáng),但是卻有一個(gè)不可避免的缺點(diǎn):在算法的優(yōu)化過(guò)程中包含一個(gè)稠密矩陣分解計(jì)算.這是一個(gè)非常消耗時(shí)間和計(jì)算資源的計(jì)算過(guò)程,而譜回歸(Spectral Regression,SR)[12]將學(xué)習(xí)嵌入函數(shù)的方式轉(zhuǎn)化為一個(gè)回歸框架,避免了稠密矩陣分解這一計(jì)算過(guò)程,同時(shí)提高了優(yōu)化的效果.因此本文提出基于譜回歸的特征降維更適合大樣本高維度數(shù)據(jù)的計(jì)算.
針對(duì)以上問(wèn)題,本文以網(wǎng)絡(luò)客戶數(shù)據(jù)集和傳統(tǒng)電信客戶數(shù)據(jù)集為研究對(duì)象,從特征向量提取的角度,提出基于譜回歸局部保留投影的客戶屬性降維算法,并從特征選擇和分類(lèi)器優(yōu)化方面與不同的方法做了對(duì)比,實(shí)驗(yàn)證明了算法的有效性.
基于譜回歸的特征降維算法是針對(duì)流行結(jié)構(gòu)圖嵌入式的典型降維算法,通過(guò)特征提取來(lái)構(gòu)造一個(gè)能揭示數(shù)據(jù)流行的結(jié)構(gòu)圖,其結(jié)構(gòu)圖的表示方式為一個(gè)投影矩陣,實(shí)現(xiàn)將高維數(shù)據(jù)特征投影到低維子空間中,以保持高維空間中數(shù)據(jù)間的鄰近結(jié)構(gòu),達(dá)到降維的目的.在該算法模型中,每個(gè)頂點(diǎn)都是一個(gè)樣本點(diǎn),兩個(gè)樣本點(diǎn)之間的邊權(quán)重采用K 近鄰法計(jì)算兩個(gè)樣本點(diǎn)之間的鄰接程度,因此對(duì)數(shù)據(jù)的完整性保持較好.
局部保形投影算法(LPP)應(yīng)該被視為PCA的替代方法.PCA是一種經(jīng)典的線性技術(shù),他沿著最大方差的方向投影數(shù)據(jù).當(dāng)高維數(shù)據(jù)位于嵌入外圍空間的低維流形上時(shí),通過(guò)求流行上 Laplace Beltrami 算子特征函數(shù)的最優(yōu)特征逼近,得到局部保持投影.因此,LPP具有許多非線性技術(shù)的數(shù)據(jù)表示特征.
局部保形投影算法,屬于將圖嵌入子空間的學(xué)習(xí)算法,其目的是用低維向量表示高維空間中圖的節(jié)點(diǎn).通過(guò)求解一個(gè)投影矩陣A將空間樣本節(jié)點(diǎn)投影到低維空間從而實(shí)現(xiàn)降維.圖中任意兩節(jié)點(diǎn)之間的關(guān)聯(lián)性用最近鄰圖模型表示,因此較好的保留了子空間中節(jié)點(diǎn)局部的結(jié)構(gòu),實(shí)現(xiàn)了局部降維.
假設(shè)構(gòu)建一個(gè)無(wú)向加權(quán)圖Graph 有m個(gè)節(jié)點(diǎn),第i個(gè)節(jié)點(diǎn)用xi表示,任意兩個(gè)節(jié)點(diǎn)之間采用K 近鄰法定義是否關(guān)聯(lián).選擇與xi鄰近的k個(gè)節(jié)點(diǎn)作為xi的鄰近點(diǎn),若xj在xi的k個(gè)鄰近點(diǎn)中或者xi在xj的k個(gè)鄰近點(diǎn)中,則xi與xj相連;反之,則不相連.
根據(jù)上述鄰接圖計(jì)算權(quán)值.矩陣W表示權(quán)值矩陣,則兩節(jié)點(diǎn)xi與xj之間的權(quán)值為Wij,若xi與xj在相互的鄰近域中,則Wij為非0 值,反之,Wij為0.用徑向基函數(shù)計(jì)算任意兩節(jié)點(diǎn)的權(quán)值,則權(quán)值矩陣Wij可定義為:
最后,對(duì)其做特征分解.假設(shè)總節(jié)點(diǎn)數(shù)即樣本集為m,樣本集矩陣X=[x1,x2,···,xm],矩陣X通過(guò)投影到低維空間的矩陣Y=[y1,y2,···,ym],定義線性函數(shù)yi=f(xi)=aTxi,表示高維空間向量xi通過(guò)投影向量a投影到低維空間向量yi.為保持圖中節(jié)點(diǎn)的局部結(jié)構(gòu),鄰近點(diǎn)xi與xj投影后得到的yi與yj仍需保持鄰近,則需滿足下列準(zhǔn)則函數(shù)值最小:
因線性函數(shù)yi=f(xi)=aTxi,則式(2)可變換為:
其中,D為n×n的對(duì)角陣,即權(quán)重矩陣Wij每列的和為對(duì)角矩陣D對(duì)角線上的元素.L=D-W,L稱為拉普拉斯矩陣.為了在投影后數(shù)據(jù)最密集的地方建立坐標(biāo)軸,需對(duì)Y進(jìn)行一定的約束:YTDY=1即aTXLXTa=1;則式(3)可變換為:
用拉格朗日乘數(shù)法將式(4)轉(zhuǎn)化為求解下列方程的最大特征向量a:
其中,λ為拉格朗日乘數(shù).
LPP 算法實(shí)現(xiàn)降維的同時(shí)保留了數(shù)據(jù)節(jié)點(diǎn)間的局部空間結(jié)構(gòu),具有較好的局部判別能力;與傳統(tǒng)的線性降維方法相比,該算法能保持?jǐn)?shù)據(jù)的流行結(jié)構(gòu),克服了非線性方法難以獲得新樣本低維投影的缺點(diǎn).但是LPP 算法也存在自身的缺陷,在求解大規(guī)模特征值問(wèn)題時(shí)會(huì)導(dǎo)致計(jì)算量較大,計(jì)算時(shí)間較長(zhǎng).算法只注重?cái)?shù)據(jù)的局部結(jié)構(gòu),而未考慮到數(shù)據(jù)樣本的類(lèi)別,另外在噪聲影響下算法不能獲得較理想的結(jié)果,因此算法的魯棒性較差.
為了克服局部保形投影算法計(jì)算稠密矩陣的特征值問(wèn)題,引入譜回歸(Spectral Regression,SR)方法用回歸模型處理特征函數(shù),先將特征函數(shù)根據(jù)圖譜理論進(jìn)行圖的譜分析,再將數(shù)據(jù)放入回歸模型中處理.其特征降維的優(yōu)良特性使得在眾多領(lǐng)域中得到了廣泛應(yīng)用[15].
在定義線性函數(shù)yi=f(xi)=aTxi求解投影向量a時(shí),投影向量a可能會(huì)無(wú)解,譜回歸算法通過(guò)最小二乘算法尋找與投影向量a的最佳函數(shù)匹配,使求得的數(shù)據(jù)與實(shí)際向量a之間的誤差的平方和為最小,最大程度逼近投影向量a.
通過(guò)對(duì)式(6)求偏導(dǎo)可得:
當(dāng)正則化參數(shù) α無(wú)限趨向于0 時(shí),式(8)的正則解即為特征問(wèn)題(式(5))的最大特征向量解.
本文在網(wǎng)絡(luò)客戶和電信客戶兩個(gè)大樣本數(shù)據(jù)集上進(jìn)行實(shí)證研究,預(yù)測(cè)流程如圖1所示,采用F1 值、精確率、召回率、準(zhǔn)確率等指標(biāo)評(píng)價(jià)模型預(yù)測(cè)結(jié)果,具體參見(jiàn)表1.實(shí)驗(yàn)所用電腦的內(nèi)存是16 GB,處理器是Intel(R) Xeon(R) CPU E5-1603 v3,操作系統(tǒng)為Win7 64 位,實(shí)驗(yàn)環(huán)境為Matlab 2018a.
表1 混淆矩陣
圖1 運(yùn)動(dòng)目標(biāo)誤判效果
該數(shù)據(jù)集來(lái)源于某電子商務(wù)網(wǎng)站.采用過(guò)抽樣和隨機(jī)抽樣形成訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集,以自然年度為周期共得到訓(xùn)練樣本20 006 個(gè),測(cè)試樣本8574 個(gè).其中訓(xùn)練集中流失客戶10 002 個(gè),非流失客戶10 004個(gè).測(cè)試集中非流失客戶856 個(gè),流失客戶7718 個(gè).非流失客戶與流失客戶的比例基本為1:9,主要包括客戶首次購(gòu)買(mǎi)時(shí)間、客戶關(guān)系長(zhǎng)度、客戶消費(fèi)新鮮度、客戶消費(fèi)頻度、客戶消費(fèi)金額、客戶對(duì)商品的評(píng)分、客戶評(píng)論情感共7 個(gè)屬性特征[2].這里我們從不同特征約簡(jiǎn)算法和分類(lèi)器兩個(gè)層面進(jìn)行對(duì)比.特征約簡(jiǎn)算法則包括KPCA、PCA,分類(lèi)器包括原始線性核SVM、優(yōu)化SVM 算法(網(wǎng)格算法,遺傳算法,種群優(yōu)化算法)和DBN (深度置信網(wǎng)絡(luò)),其中KPCA,PCA,SR-LPP的約簡(jiǎn)維度統(tǒng)一設(shè)置為3,DBN 設(shè)置為3 層隱藏層,每層30 節(jié)點(diǎn).鑒于企業(yè)獲取新客戶的成本是保留老客戶成本的數(shù)倍,將流失客戶判別為非流失客戶稱為導(dǎo)致嚴(yán)重后果的第一類(lèi)錯(cuò)誤(FN)[1],將非流失客戶判別為流失客戶稱為第二類(lèi)錯(cuò)誤(FP).對(duì)于企業(yè)而言,模型導(dǎo)致的第二類(lèi)錯(cuò)誤會(huì)增加客戶保持成本,而犯第一類(lèi)錯(cuò)誤則將面臨著客戶流失的巨大風(fēng)險(xiǎn),因此在該實(shí)驗(yàn)中添加導(dǎo)致嚴(yán)重后果的第一類(lèi)錯(cuò)誤發(fā)生率作為輔助評(píng)價(jià)指標(biāo).
實(shí)驗(yàn)結(jié)果混淆矩陣如圖2所示(其中0 代表了非流失類(lèi),1 代表了流失類(lèi)).基于譜回歸的預(yù)測(cè)方法在精確率、召回率、準(zhǔn)確率等方面都優(yōu)于其他方法.且第一類(lèi)錯(cuò)誤的發(fā)生概率僅為1.7%.在分類(lèi)器優(yōu)化的方法中,基于遺傳算法(GA)和種群算法(PSO)優(yōu)化的SVM,并不能顯著提高客戶流失預(yù)測(cè)效果,相比與非優(yōu)化SVM各項(xiàng)指標(biāo)基本持平,但第一類(lèi)錯(cuò)誤發(fā)生率在35%左右,略高于非尋優(yōu)SVM的32%,SVM+Grid 預(yù)測(cè)效果則更不理想.而DBN 分類(lèi)器在非流失客戶與流失客戶明顯不平衡的測(cè)試集中,全部將測(cè)試集判斷為非流失客戶.在特征約簡(jiǎn)方法中,除了KPCA 外,PCA和本文的SRLPP 都在不同程度上提高了客戶流失預(yù)測(cè)效果,其中SVM+SR-LPP 綜合Precision、Recall、Accuracy和第一類(lèi)錯(cuò)誤率4 個(gè)指標(biāo)較其他方法最優(yōu),也在一定程度上說(shuō)明特征層面的選擇優(yōu)化更為重要.
圖2 不同算法的結(jié)果混淆矩陣對(duì)比
電信客戶數(shù)據(jù)采用高維度、大樣本的美國(guó)DUKE大學(xué)電信客戶行為數(shù)據(jù).數(shù)據(jù)樣本共計(jì)151 306 個(gè),其中訓(xùn)練集共100 000 個(gè)樣本,包含流失客戶49 562 個(gè),非流失客戶50 438 個(gè),兩類(lèi)客戶的比例基本為1:1;測(cè)試集共51 306 個(gè)樣本,包含流失客戶924 個(gè),非流失客戶49 514 個(gè),客戶流失率為1.8%,數(shù)據(jù)類(lèi)別嚴(yán)重不平衡.其屬性值包含產(chǎn)品特征、客戶方案、客戶信息3 大類(lèi),共計(jì)87 個(gè)初始屬性指標(biāo).鑒于數(shù)據(jù)樣本大、維度高,SVM 分類(lèi)器的參數(shù)尋優(yōu)已無(wú)法在實(shí)驗(yàn)計(jì)算機(jī)有效時(shí)間內(nèi)的求出結(jié)果,這里重點(diǎn)進(jìn)行特征選擇和約簡(jiǎn)算法的對(duì)比,采用PCA、KPCA、MCFS[16]、SRLPP算法分別在1-87 維度之間做了比對(duì),分類(lèi)器統(tǒng)一使用線性SVM.
通過(guò)圖3-圖5可見(jiàn),降維或選擇后的特征在一定程度上優(yōu)于全部特征作為SVM 輸入的預(yù)測(cè)方法,全部特征雖然包含的信息量大,但不同屬性數(shù)據(jù)間交叉、重合所產(chǎn)生的信息冗余也容易引起不同類(lèi)別的誤判,這種特征本質(zhì)的混淆在上述不同分類(lèi)器并沒(méi)有得到良好的解決.在特征降維和選擇的算法中,KPCA對(duì)于不同維度穩(wěn)定性較差,在不平衡數(shù)據(jù)中容易將測(cè)試集全部預(yù)測(cè)為流失或非流失,從而造成大部分實(shí)驗(yàn)召回率非0 即1,使得F1和精確度指標(biāo)失去意義.同時(shí)核函數(shù)方法需要對(duì)核矩陣計(jì)算和特征分解來(lái)完成高維空間的映射,對(duì)于大樣本數(shù)據(jù)時(shí)間復(fù)雜度高.傳統(tǒng)PCA 降維,雖然沒(méi)有優(yōu)異的預(yù)測(cè)效果,但計(jì)算簡(jiǎn)單,結(jié)果穩(wěn)定,不失為一種有效的特征降維方法.作為特征選擇方法代表的MCFS 三項(xiàng)指標(biāo)都略低于其他方法,說(shuō)明每一維度的特征都具有一定隱含的語(yǔ)義,對(duì)于單純維度的剔除難以滿足分類(lèi)的需要.SRLPP 方法則3 項(xiàng)指標(biāo)較為穩(wěn)定,能夠?qū)Σ煌S度特征進(jìn)行有效的融合,在87 個(gè)維度的約簡(jiǎn)中,大概率的高于其他方法.
圖3 F1 指標(biāo)值
圖4 Precision 指標(biāo)值
圖5 Recall 指標(biāo)值
我們求取不同維度下的各方法的均值和標(biāo)準(zhǔn)差,如表2所示,其中KPCA 平均精度最高,但是其各指標(biāo)值偏離程度較大,尤其是召回率標(biāo)準(zhǔn)差達(dá)0.44是PCA方法的4 倍,因此表現(xiàn)出圖4中連續(xù)的大波峰和波谷.MCFS 則綜合表現(xiàn)一般,不如全部特征輸入SVM的預(yù)測(cè)效果.SRLPP 平均精度僅次于KPCA,其他指標(biāo)在4 種特征降維方法中相對(duì)最優(yōu),整體表現(xiàn)穩(wěn)定.
表2 不同維度下各方法指標(biāo)均值與標(biāo)準(zhǔn)差
隨著互聯(lián)網(wǎng)+的廣泛應(yīng)用,無(wú)論是客戶數(shù)量還是屬性的數(shù)據(jù)體量都在指數(shù)式增長(zhǎng),且呈現(xiàn)出數(shù)據(jù)類(lèi)型嚴(yán)重不平衡的特點(diǎn),傳統(tǒng)抽樣已經(jīng)不能滿足預(yù)測(cè)結(jié)果的解釋性要求,本文針對(duì)于高維度多屬性的大規(guī)??蛻袅魇ьA(yù)測(cè),利用基于譜回歸的流形降維建立可區(qū)分性的低維特征空間,使用線性支持向量機(jī)分類(lèi),相比于參數(shù)優(yōu)化的分類(lèi)器和不同的特征降維方法,預(yù)測(cè)效果有了不同程度的提高.