閆 賀 新
(吉林工程職業(yè)學(xué)院, 吉林 四平 136000)
客戶流失是通信行業(yè)面臨的重要問(wèn)題,不僅會(huì)使企業(yè)市場(chǎng)占有份額縮小,還會(huì)出現(xiàn)客戶惡意離網(wǎng)產(chǎn)生欠費(fèi)行為,從而增加了經(jīng)銷商的運(yùn)營(yíng)成本。為使企業(yè)利潤(rùn)最大化,以獲得更大的生存空間,各運(yùn)營(yíng)商都把爭(zhēng)取更多的客戶作為經(jīng)營(yíng)理念和目標(biāo)。數(shù)據(jù)顯示:發(fā)展一位新客戶的成本是挽留一個(gè)老客戶的4~6倍,而客戶忠誠(chéng)度下降比例則是企業(yè)利潤(rùn)下降比例的4倍[1],可見(jiàn)做好客戶關(guān)系管理,防止客戶流失是通信行業(yè)提升企業(yè)核心競(jìng)爭(zhēng)力的重要途徑。
針對(duì)上述問(wèn)題,出現(xiàn)了很多有效的數(shù)據(jù)挖掘算法[2]。為了提高電信客戶流失預(yù)測(cè)精度, 提出一種基于主成份分析支持向量機(jī)的電信客戶流失預(yù)測(cè)方法,獲得較為理想的預(yù)測(cè)效果[3]。針對(duì)決策樹(shù)算法測(cè)試屬性選取上存在的缺點(diǎn), 建立基于Weka的知識(shí)自動(dòng)獲取的客戶流失預(yù)測(cè)模型,克服了決策樹(shù)算法取值偏置的問(wèn)題[4]。為了避免現(xiàn)實(shí)中流失客戶與未流失客戶比例偏斜問(wèn)題,采用多基決策樹(shù)聯(lián)合決策的方法進(jìn)行建模,與單個(gè)分類器相比, 提高了預(yù)測(cè)模型的查準(zhǔn)率和泛化能力[5]。提出了一種基于慢啟動(dòng)的頻繁模式挖掘算法,用于電信企業(yè)客戶流失預(yù)警模型[6]。縱觀以上文獻(xiàn),都采用了單一的預(yù)測(cè)方法,但每種算法都存在一定的不足,從而使結(jié)果不能達(dá)到最佳?;诖?,本研究以提高客戶流失預(yù)測(cè)命中精度為目標(biāo),結(jié)合決策樹(shù)、遺傳算法以及單神經(jīng)元3種模型特點(diǎn),嘗試建立一種多算法組合預(yù)測(cè)模型,并對(duì)某電信企業(yè)進(jìn)行客戶流失預(yù)測(cè)與評(píng)價(jià)。
數(shù)據(jù)挖掘是指在海量的、雜亂的數(shù)據(jù)中提取隱含在數(shù)據(jù)當(dāng)中具有潛在利用價(jià)值的信息,通過(guò)分析能夠?yàn)槿藗兲峁Q策作用的過(guò)程[7],廣泛應(yīng)用于地理、電信、銀行等領(lǐng)域?;贑RISP-DM標(biāo)準(zhǔn)的數(shù)據(jù)挖掘過(guò)程包括業(yè)務(wù)與數(shù)據(jù)理解、準(zhǔn)備、建模、評(píng)估和部署等環(huán)節(jié),是一個(gè)不斷往復(fù)優(yōu)化過(guò)程,其中數(shù)據(jù)準(zhǔn)備、建立模型、模型評(píng)估是數(shù)據(jù)挖掘重要的組成部分,見(jiàn)圖1。
圖1 CRISP-DM數(shù)據(jù)挖掘流程
(1) 數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)準(zhǔn)備是數(shù)據(jù)挖掘結(jié)果準(zhǔn)確與否的前提條件,是利用計(jì)算機(jī)技術(shù)對(duì)數(shù)據(jù)信息的預(yù)先處理,主要功能是將雜亂的、不符合規(guī)則的無(wú)效數(shù)據(jù)進(jìn)行清洗和篩選,再根據(jù)業(yè)務(wù)分析的結(jié)果對(duì)數(shù)據(jù)進(jìn)行整合與轉(zhuǎn)化,為建立模型奠定良好的數(shù)據(jù)基礎(chǔ)。
(2) 建立模型。模型的建立是數(shù)據(jù)挖掘的核心部分,不同的挖掘算法對(duì)數(shù)據(jù)的抽取和處理方式不盡相同,產(chǎn)生的結(jié)果也各有差異,可以根據(jù)不同的數(shù)據(jù)特點(diǎn)及業(yè)務(wù)需求選擇最合適、最有效的挖掘算法。
(3) 模型評(píng)估。為檢測(cè)經(jīng)過(guò)數(shù)據(jù)挖掘得到的結(jié)果是否達(dá)到預(yù)期要求,需要對(duì)模型進(jìn)行評(píng)估。如果發(fā)現(xiàn)挖掘結(jié)果不符合業(yè)務(wù)需求,則需要重新選擇數(shù)據(jù)或采用其他挖掘算法。
隨著研究的不斷深入,各種挖掘算法不斷被完善和優(yōu)化。根據(jù)研究?jī)?nèi)容,現(xiàn)只對(duì)決策樹(shù)、遺傳算法以及單神經(jīng)元3種典型的分類方法進(jìn)行分析對(duì)比。
決策樹(shù)(DT)是一種類似流程圖的樹(shù)形結(jié)構(gòu),由若干分支和結(jié)點(diǎn)組成,節(jié)點(diǎn)表示某個(gè)屬性的測(cè)試,分支代表每個(gè)測(cè)試的結(jié)果,根節(jié)點(diǎn)與葉結(jié)點(diǎn)之間的路徑就是一條分類規(guī)則[8]。決策樹(shù)算法的預(yù)測(cè)過(guò)程一般分兩個(gè)階段:① 利用訓(xùn)練集建立并進(jìn)化一棵決策樹(shù);② 測(cè)試各節(jié)點(diǎn)的屬性值,對(duì)決策樹(shù)進(jìn)行檢驗(yàn)、校正,例如圖2是預(yù)測(cè)客戶信用風(fēng)險(xiǎn)的流程框圖。
圖2 決策樹(shù)算法舉例
遺傳算法(GA)是根據(jù)達(dá)爾文優(yōu)勝劣汰法則產(chǎn)生的用于模擬生物進(jìn)化過(guò)程的計(jì)算模型。遺傳算法具有很強(qiáng)的全局搜尋能力,不受函數(shù)本身連續(xù)性的影響,包括初始化種群、個(gè)體評(píng)估、執(zhí)行選擇運(yùn)算、執(zhí)行交叉運(yùn)算、變異運(yùn)算等過(guò)程[9-10],其流程如圖3所示。
圖3 遺傳算法流程
人工神經(jīng)元(ANN)是通過(guò)模擬人腦功能而提出來(lái)的一種算法,具有很強(qiáng)的逼近功能,用于表示從多輸入到單輸出的映射關(guān)系,如圖4所示。
若把wji作為輸入量所對(duì)應(yīng)的權(quán)重值,神經(jīng)元的閾值為θj,則輸出Rj的表達(dá)式為:
(1)
神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)指按一定的規(guī)則自動(dòng)調(diào)整神經(jīng)元之間的連接闕值,尋找最佳的目標(biāo)函數(shù),并可根據(jù)外部條件變化自動(dòng)調(diào)整的過(guò)程[11-13],如圖5所示。
圖4 人工神經(jīng)元模型
圖5 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程
電信企業(yè)運(yùn)營(yíng)過(guò)程中的流失客戶可以分成兩種類型:一種是因?yàn)槠髽I(yè)之間的競(jìng)爭(zhēng)、套餐變更以及服務(wù)質(zhì)量等因素引起的主動(dòng)客戶流失。另一種是由于話費(fèi)欺詐、惡意停機(jī)等因素引起的被動(dòng)客戶流失,前者的一般形式為主動(dòng)解除或變更合同,后者的一般形式為欠費(fèi)停機(jī)等形式的賬戶休眠[14]??蛻袅魇шP(guān)系到通信運(yùn)營(yíng)企業(yè)的利潤(rùn)收入以及生活空間,如何建立有效客戶流失預(yù)測(cè)模型是判斷客戶是否有流失傾向的關(guān)鍵。
在數(shù)據(jù)挖掘軟件平臺(tái)Clementine 中建立基于決策樹(shù)、遺傳算法、人工神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)模型。構(gòu)造Lagrange函數(shù)[15]:
α3zn-zn)2+ξ(α1xn+α2yn+α3zn-1)
(2)
式中:xn,yn,zn表示3種單一模型的的預(yù)測(cè)值(i=1,2,3);α1,α2,α3表示組合模型的權(quán)重系數(shù);λ為L(zhǎng)agrange 算子。
利用多組合模型進(jìn)行數(shù)據(jù)挖掘的步驟:
(1) 預(yù)處理。將原始數(shù)據(jù)集進(jìn)行分區(qū),數(shù)據(jù)樣本和測(cè)試樣本的劃分比例為6∶4;
(2) 構(gòu)建單一預(yù)測(cè)模型。分別用決策樹(shù)C5.0、遺傳算法和人工神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練集進(jìn)行建模;
(3) 預(yù)測(cè)。將測(cè)試集中的樣本數(shù)據(jù)帶入單一模型中進(jìn)行預(yù)測(cè),得到預(yù)測(cè)分析結(jié)果;
(4) 構(gòu)建組合預(yù)測(cè)模型。將單一模型的預(yù)測(cè)結(jié)果帶入Lagrange函數(shù),得到組合預(yù)測(cè)模型的權(quán)重系數(shù),并建立組合預(yù)測(cè)模型;
(5) 計(jì)算預(yù)測(cè)結(jié)果。對(duì)Lagrange函數(shù)求解,得到組合模型預(yù)測(cè)結(jié)果。
基于Lagrange 函數(shù)的組合模型預(yù)測(cè)流程見(jiàn)圖6。
分別采用單一算法模型與多算法組合模型對(duì)10 000個(gè)客戶信息進(jìn)行預(yù)測(cè)分析,如表1所示,其中“0”代表客戶沒(méi)有流失,“1”代表客戶已流失或有流失傾向。
為進(jìn)一步分析不同模型的預(yù)測(cè)結(jié)果,對(duì)表1結(jié)果進(jìn)行統(tǒng)計(jì)分析,得到各模型算法的預(yù)測(cè)命中率。設(shè)每個(gè)客戶月均消費(fèi)為人民幣35元,分別得到不同模型預(yù)測(cè)客戶流失的數(shù)量及誤判損失,結(jié)果如表2所示。
評(píng)價(jià)結(jié)果表明,本研究所設(shè)計(jì)的基于Lagrange的多算法組合預(yù)測(cè)模型集合了各單一模型的預(yù)測(cè)優(yōu)勢(shì),大大提高了客戶流失的預(yù)測(cè)命中率,達(dá)到91%左右,比單一模型的預(yù)測(cè)命中率有了大幅提升,由組合模型所造成的誤判損失也將大大降低。由此可見(jiàn),本研究所設(shè)計(jì)的多算法組合模型預(yù)測(cè)效果好,可有效預(yù)測(cè)客戶流失和流失傾向,滿足企業(yè)需求,達(dá)到預(yù)期目的。
表1 不同模型算法的客戶流失預(yù)測(cè)結(jié)果
表2 流失量預(yù)測(cè)及誤判率對(duì)比結(jié)果
針對(duì)電信行業(yè)無(wú)法準(zhǔn)確預(yù)測(cè)客戶流失的問(wèn)題,把數(shù)據(jù)挖掘技術(shù)應(yīng)用于客戶關(guān)系管理過(guò)程,根據(jù)單一預(yù)測(cè)模型的特點(diǎn)和缺陷,將決策樹(shù)、遺傳算法以及人工神經(jīng)網(wǎng)絡(luò)算法融于一體,建立基于Lagrange 函數(shù)的多算法組合預(yù)測(cè)模型。同時(shí),用所建模型對(duì)某電信企業(yè)客戶流失情況進(jìn)行預(yù)測(cè),根據(jù)客戶信息、消費(fèi)行為等歷史數(shù)據(jù)判斷客戶流失的可能性。結(jié)果表明,與單一預(yù)測(cè)模型相比,多算法組合預(yù)測(cè)模型對(duì)電信客戶流失預(yù)測(cè)命中率大幅提高,能有效獲取客戶流失傾向,為運(yùn)營(yíng)商采取相應(yīng)措施提供理論依據(jù),從而使電信企業(yè)營(yíng)銷方案的制定更具針對(duì)性,避免因營(yíng)銷手段的盲目性造成成本浪費(fèi)。
[1] 張曉濱,高 峰,黃 慧.基于客戶細(xì)分的客戶流失預(yù)測(cè)研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì),2009,30 (24):5755-5758.
[2] 王夢(mèng)雪. 數(shù)據(jù)挖掘綜述[J]. 軟件導(dǎo)刊,2013, 12 (10):135-137.
[3] 王觀玉, 郭 勇.支持向量機(jī)在電信客戶流失預(yù)測(cè)中的應(yīng)用研究[J]. 計(jì)算機(jī)仿真,2011, 28 (4):115-118.
[4] 尹 婷, 覃錫忠, 賈振紅,等. 基于WEKA 的客戶流失預(yù)測(cè)研究[J]. 激光雜志,2013,34(5):44-46.
[5] 郭俊芳, 周生寶. 基于聯(lián)合決策樹(shù)的客戶流失預(yù)測(cè)模型設(shè)計(jì)[J].計(jì)算機(jī)與現(xiàn)代化,2010 (5): 5-7.
[6] 劉志超,王 雷,谷 壘,等.基于數(shù)據(jù)挖掘技術(shù)的客戶流失預(yù)警模型[J]. 微計(jì)算機(jī)信息,2011, 27 (2):176-177.
[7] 潘大勝,屈遲文. 一種改進(jìn)ID3型決策樹(shù)挖掘算法[J]. 華僑大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,37 (1):71-73.
[8] 蔡中民.PSO 遺傳算法進(jìn)行數(shù)據(jù)挖掘的策略構(gòu)建和分析[J].科技通報(bào),2013, 29 (3):176-177.
[9] 余小雙.遺傳算法及其在數(shù)據(jù)挖掘中的應(yīng)用研究[D]. 武漢:武漢紡織大學(xué), 2010.
[10] 童翔威.RBF神經(jīng)網(wǎng)絡(luò)在數(shù)據(jù)挖掘中的應(yīng)用研究研究[D].長(zhǎng)沙:中南林業(yè)科技大學(xué),2009.
[11] 儲(chǔ) 兵,吳 陳,楊習(xí)貝. 基于RBF 神經(jīng)網(wǎng)絡(luò)與粗糙集的數(shù)據(jù)挖掘算法[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2013, 23( 7):87-91.
[12] 常 凱. 基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)挖掘分類算法比較和分析研究[D]. 合肥:安徽大學(xué),2014.
[13] HE Cong, REN Li-hong, DING Yong-sheng. Performance prediction of carbon fiber protofilament based on SAGA-SVR [J]. Journal of Donghua University, 2014,31(2):92-97.
[14] 王振環(huán).基于數(shù)據(jù)挖掘技術(shù)的電信領(lǐng)域客戶流失預(yù)測(cè)系統(tǒng)的研究與實(shí)現(xiàn)[D].長(zhǎng)春:吉林大學(xué),2006.
[15] 劉光遠(yuǎn), 苑森淼, 董立巖. 數(shù)據(jù)挖掘方法在用戶流失預(yù)測(cè)分析中的應(yīng)用[J]. 計(jì)算機(jī)工程與應(yīng)用,2007, 43( 9):154-156.