包志強(qiáng), 崔 妍
(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
電信客戶(hù)欠費(fèi)模型評(píng)估
包志強(qiáng), 崔 妍
(西安郵電大學(xué) 通信與信息工程學(xué)院,陜西 西安 710121)
針對(duì)客戶(hù)惡意欠費(fèi)對(duì)電信運(yùn)營(yíng)商造成的經(jīng)濟(jì)損失問(wèn)題,提出一種基于BP人工神經(jīng)網(wǎng)絡(luò)的客戶(hù)欠費(fèi)模型,為新客戶(hù)的欠費(fèi)情況做出預(yù)測(cè)。以某電信運(yùn)營(yíng)商客戶(hù)服務(wù)部數(shù)據(jù)為研究對(duì)象,CRISP-DM(跨行業(yè)數(shù)據(jù)挖掘過(guò)程標(biāo)準(zhǔn))方法論為建模流程,采集2 500個(gè)樣本進(jìn)行網(wǎng)絡(luò)訓(xùn)練測(cè)試,在允許誤差為0.001時(shí),預(yù)測(cè)率達(dá)到92.33%。實(shí)驗(yàn)結(jié)果表明,該模型能夠較準(zhǔn)確的預(yù)測(cè)客戶(hù)欠費(fèi)情況,提高了預(yù)測(cè)的有效性和實(shí)用性。
BP人工神經(jīng)網(wǎng)絡(luò);客戶(hù)欠費(fèi)預(yù)測(cè);大數(shù)據(jù)
隨著中國(guó)4G牌照的發(fā)放,電信行業(yè)規(guī)模不斷擴(kuò)大、業(yè)務(wù)種類(lèi)不斷增多,與此同時(shí)如何為企業(yè)贏得利益,避免客戶(hù)惡意欠費(fèi)所帶來(lái)的經(jīng)濟(jì)損失問(wèn)題也日益突出。盡管預(yù)付費(fèi)業(yè)務(wù)的推出在一定程度上改善了用戶(hù)欠費(fèi)問(wèn)題,但傳統(tǒng)的“先消費(fèi),后繳費(fèi)”仍然是電信企業(yè)與用戶(hù)采用的主要結(jié)算方式,話(huà)費(fèi)拖欠造成的企業(yè)資金周轉(zhuǎn)問(wèn)題嚴(yán)重影響到電信行業(yè)的穩(wěn)步發(fā)展[1]。運(yùn)營(yíng)商是互聯(lián)網(wǎng)產(chǎn)業(yè)鏈的核心以及最主要的驅(qū)動(dòng)力量,為用戶(hù)提供網(wǎng)絡(luò)服務(wù)的本職業(yè)務(wù)使其擁有天然的大數(shù)據(jù)資源,這為開(kāi)展基于用戶(hù)行為分析的商業(yè)創(chuàng)新模式打下堅(jiān)實(shí)基礎(chǔ)[2]。一些國(guó)外電信運(yùn)營(yíng)商已經(jīng)在大數(shù)據(jù)領(lǐng)域有所突破,西班牙電信2012年成立了名為“動(dòng)態(tài)洞察”的大數(shù)據(jù)業(yè)務(wù)部門(mén),推出首款產(chǎn)品Smart Steps,已成功為零售商新店選址提供決策支持;美國(guó)Verizon成立了精準(zhǔn)營(yíng)銷(xiāo)部門(mén),基于運(yùn)營(yíng)商收集公開(kāi)場(chǎng)合手機(jī)用戶(hù)下載數(shù)據(jù)、APP數(shù)據(jù),提供精準(zhǔn)營(yíng)銷(xiāo)、移動(dòng)商務(wù)等業(yè)務(wù)[3-4]。合理利用大數(shù)據(jù)資源,建立一套客戶(hù)欠費(fèi)評(píng)估體系,完善企業(yè)CRM,準(zhǔn)確地分析客戶(hù)行為成為預(yù)防欠費(fèi)的有效方法[5]。
目前,關(guān)于電信客戶(hù)行為分析問(wèn)題,常用的預(yù)測(cè)及評(píng)價(jià)方法有K-均值聚類(lèi)、貝葉斯和決策樹(shù)等方法。K-均值算法用于沒(méi)有先驗(yàn)知識(shí)的多變量分類(lèi),但其處理大規(guī)模高維數(shù)據(jù)的能力還需提高;貝葉斯算法適用于處理大型數(shù)據(jù)庫(kù),但數(shù)據(jù)集必須滿(mǎn)足各屬性之間互相獨(dú)立的前提條件,實(shí)際中分類(lèi)準(zhǔn)確率較低;決策樹(shù)算法通過(guò)直觀的樹(shù)型分支形式表示挖掘模型,便于人們理解[6]。文獻(xiàn)[7]以客戶(hù)價(jià)值為依據(jù),研究了移動(dòng)數(shù)據(jù)業(yè)務(wù)發(fā)展背景下基于聚類(lèi)的電信客戶(hù)細(xì)分;文獻(xiàn)[8]采用貝葉斯算法與已有的客戶(hù)心理、服務(wù)質(zhì)量等先驗(yàn)知識(shí)相結(jié)合建立客戶(hù)流失預(yù)測(cè)模型;文獻(xiàn)[9]將貝葉斯分類(lèi)的先驗(yàn)信息方法與決策樹(shù)分類(lèi)的信息熵增益方法相結(jié)合應(yīng)用到電信客戶(hù)流失分析中。然而,客戶(hù)欠費(fèi)問(wèn)題中大量高維的客戶(hù)基本屬性、行為屬性、價(jià)值屬性等數(shù)據(jù)之間呈現(xiàn)非線性關(guān)系,上述方法在處理高維、復(fù)雜、非線性問(wèn)題時(shí)有一定的局限性,不能高效、準(zhǔn)確預(yù)測(cè)出客戶(hù)欠費(fèi)情況。人工神經(jīng)網(wǎng)絡(luò)是一種有效非線性問(wèn)題處理工具,其無(wú)需先驗(yàn)知識(shí),在數(shù)據(jù)規(guī)模大的情況下也可以很好的擬合數(shù)據(jù)進(jìn)行建模。
本文基于某電信公司數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng),采用BP人工神經(jīng)網(wǎng)絡(luò)方法,以MATLAB 2010b神經(jīng)網(wǎng)絡(luò)工具箱為建模工具,按照CRISP-DM[10]流程逐步以商業(yè)理解、數(shù)據(jù)收集與數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)建模、模型評(píng)估與應(yīng)用的步驟來(lái)建立欠費(fèi)模型。
BP人工神經(jīng)網(wǎng)絡(luò)(Back Propagation Neural Networks,簡(jiǎn)稱(chēng)BP),20世紀(jì)80年代由Rumelhart、McCelland等科學(xué)家提出, BP神經(jīng)網(wǎng)絡(luò)具有自適應(yīng)、自組織的高速并行運(yùn)算能力,被廣泛應(yīng)用于科學(xué)與工程領(lǐng)域[11]。BP網(wǎng)絡(luò)又稱(chēng)為誤差反向傳播網(wǎng)絡(luò),是一種多層前饋神經(jīng)網(wǎng)絡(luò),通常其拓?fù)浣Y(jié)構(gòu)包含輸入層、輸出層以及一個(gè)或多個(gè)隱層,如圖1所示。
圖1中,X1,Xi…Xn表示BP網(wǎng)絡(luò)輸入層有n個(gè)節(jié)點(diǎn);Z1,Zk…Zp表示隱層有q個(gè)節(jié)點(diǎn);y1,yj…ym表示輸出層有m個(gè)節(jié)點(diǎn);V表示輸入層與隱層之間的權(quán)值;W表示隱層與輸出層之間的權(quán)值。
圖1 三層BP人工神經(jīng)網(wǎng)絡(luò)模型
在BP網(wǎng)絡(luò)中,數(shù)據(jù)流是正向傳播的,而誤差信號(hào)是反向傳播的。數(shù)據(jù)由輸入層經(jīng)過(guò)隱層、輸出層各處神經(jīng)元的激活函數(shù),計(jì)算后向外界輸出信息處理結(jié)果,完成一次信息的正向傳播過(guò)程。當(dāng)輸出層的實(shí)際輸出與樣本數(shù)據(jù)中的目標(biāo)輸出不一致時(shí),則由輸出層開(kāi)始向前計(jì)算各層神經(jīng)元處的誤差并修正連接權(quán)值和閾值。
(1)
對(duì)于p個(gè)樣本,全局誤差函數(shù)
(2)
各層權(quán)值調(diào)整量為
(3)
采用誤差函數(shù)梯度下降法反復(fù)交替執(zhí)行正向傳播和反向傳播兩個(gè)過(guò)程,直到全局誤差趨于最小完成學(xué)習(xí)過(guò)程。
2.1 建模流程
電信運(yùn)營(yíng)商客戶(hù)服務(wù)部后臺(tái)監(jiān)測(cè)系統(tǒng)記錄了大量的客戶(hù)消費(fèi)行為數(shù)據(jù),可以通過(guò)分析樣本客戶(hù)的基本屬性、行為屬性、價(jià)值屬性及欠費(fèi)金額之間的關(guān)聯(lián)關(guān)系建立客戶(hù)欠費(fèi)預(yù)測(cè)模型。BP神經(jīng)網(wǎng)絡(luò)具有良好的非線性處理能力,通過(guò)對(duì)客戶(hù)消費(fèi)歷史行為數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)訓(xùn)練,不斷擬合欠費(fèi)金額屬性的期望值,從而建立一種能夠準(zhǔn)確描述客戶(hù)欠費(fèi)主要屬性非線性變化規(guī)律的預(yù)測(cè)模型。其建模流程如下。
(1) 收集客戶(hù)基本屬性、行為屬性、價(jià)值屬性等歷史數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行整理。
(2) 將數(shù)據(jù)分成訓(xùn)練樣本和測(cè)試樣本兩部分。抽取一定的樣本中,共一定的正例(未欠費(fèi)),負(fù)例(欠費(fèi))。劃分時(shí)取一定的正例和前100個(gè)負(fù)例作為訓(xùn)練集,其余樣本平均分配作為5組測(cè)試集。
(3) 運(yùn)用公式對(duì)數(shù)據(jù)進(jìn)行歸一化處理,減小數(shù)據(jù)量綱之間的差別。
(4) 采用BP人工神經(jīng)網(wǎng)絡(luò)對(duì)訓(xùn)練樣本進(jìn)行訓(xùn)練。
(5) 根據(jù)訓(xùn)練結(jié)果,調(diào)整參數(shù)直到訓(xùn)練結(jié)束。當(dāng)樣本誤差達(dá)到設(shè)置的目標(biāo)誤差時(shí)網(wǎng)絡(luò)收斂,否則根據(jù)誤差調(diào)整權(quán)值直到訓(xùn)練結(jié)束,建立電信客戶(hù)欠費(fèi)預(yù)測(cè)模型。
(6) 將測(cè)試樣本輸入模型,預(yù)測(cè)客戶(hù)是否欠費(fèi)。
具體流程,如圖2所示。
圖2 基于BP網(wǎng)絡(luò)的電信客戶(hù)欠費(fèi)預(yù)測(cè)流程
圖2中首先將歷史數(shù)據(jù)導(dǎo)入,經(jīng)過(guò)歸一化處理后進(jìn)行BP網(wǎng)絡(luò)訓(xùn)練,當(dāng)網(wǎng)絡(luò)實(shí)際輸出與樣本數(shù)據(jù)中的目標(biāo)輸出一致時(shí)建立客戶(hù)欠費(fèi)預(yù)測(cè)模型,否則調(diào)整參數(shù)直到模型訓(xùn)練結(jié)束。建模后將具有基本屬性、行為屬性、價(jià)值屬性的測(cè)試樣本輸入模型,預(yù)測(cè)客戶(hù)是否欠費(fèi)。
2.2 數(shù)據(jù)收集與準(zhǔn)備
2.2.1 數(shù)據(jù)選取
結(jié)合業(yè)務(wù)經(jīng)驗(yàn),以某電信運(yùn)營(yíng)商客戶(hù)服務(wù)部2014年8月客戶(hù)消費(fèi)和信用數(shù)據(jù)為對(duì)象對(duì)模型進(jìn)行應(yīng)用評(píng)估,從數(shù)據(jù)倉(cāng)庫(kù)中抽取2 500個(gè)樣本,其中正例(未欠費(fèi))有2 250個(gè), 負(fù)例(欠費(fèi))250個(gè)。將樣本劃分為訓(xùn)練集和測(cè)試集兩部分,取900個(gè)正例,100個(gè)負(fù)例共1 000個(gè)作為訓(xùn)練集進(jìn)行BP網(wǎng)絡(luò)訓(xùn)練,剩余1 500個(gè)樣本平均分配作為5組測(cè)試集對(duì)得到的模型進(jìn)行測(cè)試驗(yàn)證網(wǎng)絡(luò)的準(zhǔn)確率。
抽取的2 500個(gè)訓(xùn)練和測(cè)試樣本,取22個(gè)屬性作為輸入屬性,其中數(shù)值屬性可以直接使用,二值屬性、類(lèi)別屬性經(jīng)過(guò)整數(shù)編碼后可以使用。二值屬性:用戶(hù)屬性取值為公眾(0)、集團(tuán)(1);付費(fèi)方式取值為后付費(fèi)(0)、預(yù)付費(fèi)(1);是否離網(wǎng)、是否主動(dòng)離網(wǎng)、是否被動(dòng)離網(wǎng)、是否主動(dòng)停機(jī)、是否被動(dòng)停機(jī)取值為是(1)、否(0)。類(lèi)別屬性:套餐月費(fèi)取值為46元(0)、66元(1)、96元(2)、126元(3)、156元(4)、186元(5)、226元(6)、286元(7)、386元(8)、586元(9)。取欠費(fèi)金額作為目標(biāo)屬性,整數(shù)編碼取值為欠費(fèi)(1)、未欠費(fèi)(0)。部分處理后的樣本數(shù)據(jù)格式,如表1所示。
表1 客戶(hù)消費(fèi)行為樣本數(shù)據(jù)
2.2.2 數(shù)據(jù)標(biāo)準(zhǔn)化
由于原始輸入數(shù)據(jù)數(shù)量級(jí)相差較大,例如通話(huà)時(shí)長(zhǎng)為47 431秒,對(duì)應(yīng)的彩信費(fèi)用為0.6元,這樣會(huì)影響B(tài)P神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)過(guò)程中的收斂速度和預(yù)測(cè)精度,因此需要對(duì)原始數(shù)據(jù)預(yù)處理以提高學(xué)習(xí)速率和預(yù)測(cè)準(zhǔn)確率。處理方法為
(4)
式中x′為歸一化后的數(shù)據(jù),x為屬性的實(shí)際值,xmax、xmin分別為樣本屬性的最大值和最小值。參數(shù)ymin和ymax默認(rèn)為-1,1,原始數(shù)據(jù)預(yù)處理后均處于[-1,1]之間。
2.3 數(shù)據(jù)建模
2.3.1 創(chuàng)建BP神經(jīng)網(wǎng)絡(luò)
在MATLAB 2010b平臺(tái)環(huán)境下,采用神經(jīng)網(wǎng)絡(luò)工具箱創(chuàng)建BP網(wǎng)絡(luò)。
1998年Robert Hecht-Nielson理論證明了單個(gè)隱含層的BP網(wǎng)絡(luò)可以通過(guò)適當(dāng)增加神經(jīng)元節(jié)點(diǎn)的個(gè)數(shù)實(shí)現(xiàn)任意n維到m維的非線性映射[12]。根據(jù)客戶(hù)欠費(fèi)問(wèn)題涉及的特點(diǎn),本文選用含有一個(gè)隱層的網(wǎng)絡(luò),也就是三層BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。
BP網(wǎng)絡(luò)隱層的傳遞函數(shù)通常采用log-sigmoid和tan-sigmoid型激活函數(shù),樣本訓(xùn)練BP網(wǎng)絡(luò)時(shí)發(fā)現(xiàn),只改變傳遞函數(shù)而其余參數(shù)均固定的情況下,使用tansig函數(shù)時(shí)要比logsig函數(shù)的誤差小,因此選用tansig函數(shù);輸出層選用purelin線性函數(shù)輸出任意值完成值域擴(kuò)展。
隱層節(jié)點(diǎn)個(gè)數(shù)的合理選擇對(duì)于多層前饋網(wǎng)絡(luò)的預(yù)測(cè)率至關(guān)重要,具體可采用網(wǎng)絡(luò)結(jié)構(gòu)增長(zhǎng)型方法,即先設(shè)定少量的節(jié)點(diǎn)個(gè)數(shù),查看網(wǎng)絡(luò)訓(xùn)練誤差,然后逐漸增加節(jié)點(diǎn)個(gè)數(shù),選取學(xué)習(xí)誤差最小狀態(tài)所對(duì)應(yīng)的節(jié)點(diǎn)數(shù)。模型中輸入層節(jié)點(diǎn)數(shù)為n=22維的客戶(hù)行為屬性,輸出層節(jié)點(diǎn)數(shù)為m=1維的欠費(fèi)類(lèi)別屬性,根據(jù)公式
(5)
式中a是 [1,10]之間的常數(shù)。
網(wǎng)絡(luò)所用學(xué)習(xí)算法為trainlm。
2.3.2 BP網(wǎng)絡(luò)的訓(xùn)練與測(cè)試
將1 000個(gè)訓(xùn)練樣本導(dǎo)入MATLAB,為了較好的預(yù)測(cè)結(jié)果,防止過(guò)擬合現(xiàn)象的出現(xiàn),設(shè)置最大訓(xùn)練次數(shù)為1 000,目標(biāo)誤差為0.001,其它參數(shù)均為默認(rèn),運(yùn)行程序得到訓(xùn)練好的BP網(wǎng)絡(luò),再將5組測(cè)試樣本導(dǎo)入MATLAB,測(cè)試模型的準(zhǔn)確率。
經(jīng)多次實(shí)驗(yàn)驗(yàn)證,隱層節(jié)點(diǎn)數(shù)為12時(shí),訓(xùn)練誤差和測(cè)試誤差最小,因此確立BP網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)為22-12-1型。取5組測(cè)試樣本運(yùn)算中的一次誤差下降圖,如圖3所示。
圖3 誤差下降曲線
圖3誤差下降曲線圖中,訓(xùn)練樣本、測(cè)試樣本的誤差曲線呈現(xiàn)良好的相關(guān)性,即網(wǎng)絡(luò)的輸出誤差隨著樣本的訓(xùn)練呈下降趨勢(shì)。
由橫坐標(biāo)可以看出,網(wǎng)絡(luò)進(jìn)行14次迭代后收斂了,即系統(tǒng)驗(yàn)證樣本判斷到誤差在連續(xù)14次檢驗(yàn)后不再下降甚至上升,說(shuō)明訓(xùn)練樣本誤差已經(jīng)不再減小達(dá)到最優(yōu)。當(dāng)?shù)螖?shù)為8時(shí),模型誤差達(dá)到最小值0.028 616。
2.4 模型評(píng)估與應(yīng)用
對(duì)客戶(hù)是否欠費(fèi)做出預(yù)測(cè)后,還要根據(jù)一些能量化的指標(biāo)對(duì)該模型進(jìn)行精確性分析以確保其是否符合實(shí)際情況。
評(píng)價(jià)指標(biāo)為模型預(yù)測(cè)出客戶(hù)是否欠費(fèi)的正確率,即“正確率=正確預(yù)測(cè)樣本/測(cè)試樣本”。統(tǒng)計(jì)5組測(cè)試樣本的網(wǎng)絡(luò)擬合準(zhǔn)確率,如表2所示,平均正確率92.33%,最低正確率90.67%。
表2 BP網(wǎng)絡(luò)擬合準(zhǔn)確率
使用BP神經(jīng)網(wǎng)絡(luò)對(duì)實(shí)際客戶(hù)消費(fèi)信用數(shù)據(jù)實(shí)現(xiàn)了較好的預(yù)測(cè),將此模型可以運(yùn)用到電信企業(yè)的CRM、營(yíng)銷(xiāo)支撐系統(tǒng),通過(guò)預(yù)測(cè)客戶(hù)次月欠費(fèi)狀況來(lái)調(diào)整思路制定相應(yīng)政策避免不必要的經(jīng)濟(jì)損失,具體有系統(tǒng)短信提醒、人工接入一對(duì)一詢(xún)問(wèn)提示繳費(fèi)、“預(yù)存100送50”等措施。
運(yùn)用MATLAB 2010b神經(jīng)網(wǎng)絡(luò)工具箱,采用BP神經(jīng)網(wǎng)絡(luò)方法對(duì)電信企業(yè)中的客戶(hù)基本屬性、價(jià)值屬性、行為屬性之間的關(guān)系進(jìn)行分析建立客戶(hù)欠費(fèi)預(yù)測(cè)模型。實(shí)驗(yàn)結(jié)果表明,BP網(wǎng)絡(luò)對(duì)實(shí)際數(shù)據(jù)擬合得出平均正確率為92.33%的客戶(hù)欠費(fèi)預(yù)測(cè)模型,該模型將預(yù)測(cè)出客戶(hù)次月的行為變化趨勢(shì)。
相對(duì)于傳統(tǒng)的人為分析統(tǒng)計(jì)建模,神經(jīng)網(wǎng)絡(luò)減少了預(yù)測(cè)中主觀隨意性及思維不定性因素的影響,以簡(jiǎn)單、高效的優(yōu)點(diǎn)實(shí)現(xiàn)了電信客戶(hù)欠費(fèi)預(yù)測(cè)。但同時(shí)需注意到,對(duì)于隱層中如何選取參數(shù)減小誤差仍然是目前BP神經(jīng)網(wǎng)絡(luò)領(lǐng)域的重要課題,值得進(jìn)一步的研究。
[1] 夏國(guó)恩,陳云,金煒東.基于支持向量機(jī)的電信客戶(hù)欠費(fèi)評(píng)估[J].科技管理研究,2006 (2):76-78.
[2] Emeka Obiodu.Readying for Big Data: Telefonica and Verizon show the way[R]. America: OVUM, 2012.
[3] 李政,李繼兵,丁偉.基于大數(shù)據(jù)的電信運(yùn)營(yíng)商業(yè)務(wù)模式研究[J].移動(dòng)通信,2013 (5):64-67.
[4] 左超,耿慶鵬,劉旭峰.基于大數(shù)據(jù)的電信業(yè)務(wù)發(fā)展策略研究[J].郵電設(shè)計(jì)技術(shù),2013 (10):1-4.
[5] 劉潔,王哲.基于大數(shù)據(jù)的電信運(yùn)營(yíng)商業(yè)務(wù)精確運(yùn)營(yíng)平臺(tái)的構(gòu)建[J].電信科學(xué),2013 (3):22-26.
[6] 鄧權(quán).決策樹(shù)算法與客戶(hù)流失分析[J].西安郵電大學(xué)學(xué)報(bào),2013,18(3):49-51.
[7] 褚格林.基于聚類(lèi)模型的電信客戶(hù)細(xì)分研究[J].統(tǒng)計(jì)與決策,2014(8):176-179.
[8] 葉進(jìn),程澤凱,林士敏.基于貝葉斯網(wǎng)絡(luò)的電信客戶(hù)流失預(yù)測(cè)分析[J].計(jì)算機(jī)工程與應(yīng)用,2005(14):212-214.
[9] 尹婷,馬軍,覃錫忠,等.貝葉斯決策樹(shù)在客戶(hù)流失預(yù)測(cè)中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(7):125-128.
[10] 薛薇,陳歡歌.基于Clementine的數(shù)據(jù)挖掘[M].北京:中國(guó)人民大學(xué)出版社,2012:401-412.
[11] 陳明.MATLAB神經(jīng)網(wǎng)絡(luò)原理與實(shí)例精解[M].北京:清華大學(xué)出版社,2014:156-166.
[12] 王志君.基于神經(jīng)網(wǎng)絡(luò)的客戶(hù)流失預(yù)警研究[D].長(zhǎng)春:吉林大學(xué),2013:27-30.
[責(zé)任編輯:汪湘]
Telecom customer arrearages model evaluation
BAO Zhiqiang, CUI Yan
(School of Communication and Information Engineering, Xi’an University of Posts and Telecommunications, Xi’an 710121,China)
A customers’ arrearages model based on BP artificial neural network is proposed in the paper to target at the problem of customers’ malicious arrearages resulting in economic losses for telecom operators. It provides prediction of the arrearage situation for the new customers. By using the data from a telecom operator customer service department and by CRISP-DM (Cross-Industry Standard Process for Data Mining) methodology for modeling process, a BP network model is set up. In this model, 2 500 samples are collected for network training and test, and with the allowing error 0.001, the model’s prediction rate can reach 92.33%. Experimental results show that the model can accurately predict the new customers’ arrearages situation and improve the validity and practicability of the prediction.
BP artificial neural network, customers’ arrearages prediction, big data
10.13682/j.issn.2095-6533.2015.04.020
2015-05-12
國(guó)家自然科學(xué)基金資助項(xiàng)目(61271276);陜西省自然科學(xué)基金資助項(xiàng)目(2012JQ8011)
包志強(qiáng)(1978-),男,博士,副教授,從事數(shù)據(jù)挖掘,陣列信號(hào)處理研究。E-mail:baozhiqiang@xupt.edu.cn 崔妍(1991-),女,碩士研究生,研究方向?yàn)槿斯ぶ悄芘c數(shù)據(jù)挖掘。E-mail:876342650@qq.com
TP183
A
2095-6533(2015)04-0097-05