摘 要:目前大多數(shù)客戶流失預(yù)測研究常采用單一預(yù)測模型。因此,本文將動態(tài)分類器組合與自組織數(shù)據(jù)挖掘理論(SODM)相結(jié)合,提出了基于SODM的動態(tài)分類器集成方法。以國內(nèi)、國外電信公司客戶流失預(yù)測數(shù)據(jù)為例,并與單一的預(yù)測模型以及已有的動態(tài)分類器組合方法進行了詳細(xì)對比,發(fā)現(xiàn)該方法能在很大程度上提高客戶流失預(yù)測的準(zhǔn)確率、命中率以及提升系數(shù),是進行客戶流失預(yù)測的有效工具。
關(guān)鍵詞:客戶流失預(yù)測;動態(tài)分類器集成;自組織數(shù)據(jù)挖掘;多分類器組合;電信行業(yè)
中圖分類號:TP18;F270 文獻標(biāo)識碼:A 文章編號:1003-5192(2010)05-0057-06
Model of Customer Churn Prediction Based on Dynamic Classifier Ensemble
XIAO Jin, HE Chang-zheng
(Business School, Sichuan University, Chengdu 610064, China)
Abstract:At present, single model is adopted usually for customer churn prediction. Thereby, the dynamic classifier combination is combined with self-organize data mining(SODM), and a dynamic classifier ensemble method based on SODM is presented. This method was compared with some single forecasting models and the existing dynamic classifier combination method regarding customer churn prediction for home and foreign telecommunication carriers. The results show that this method can improve the accuracy rate, hit rate and lift coefficient to a large extent, and is an effective tool for customer churn prediction.
Key words:customer churn prediction; dynamic classifier ensemble; self-organize data mining; multiple classifiers combination; telecommunication industry
1 引言
客戶流失和客戶挽留是許多行業(yè)關(guān)注的一個重要問題。據(jù)統(tǒng)計,電信行業(yè)每年的平均流失率在25%~30%。而對美國9個行業(yè)的調(diào)查數(shù)據(jù)顯示,客戶流失率每降低5%,行業(yè)平均利潤將增加25%~85%[1]。同時,獲取一個新客戶的成本往往是保持現(xiàn)有客戶4~6倍[2]。因此,預(yù)測客戶流失傾向,及時進行客戶挽留已經(jīng)成為客戶關(guān)系管理的重中之重。
為了有效地預(yù)測未來潛在的流失客戶,國內(nèi)外學(xué)者提出了多種方法,如決策樹[3]、人工神經(jīng)網(wǎng)絡(luò)[4]、Logistic回歸[5]、貝葉斯分類器[6]和支持向量機[7,8]等,取得了一定的應(yīng)用效果。上述方法各有優(yōu)劣,均是通過構(gòu)建單一的分類模型來進行客戶流失預(yù)測。然而,現(xiàn)實的客戶流失預(yù)測往往是薄靶的、類別不平衡的預(yù)測問題[9],同時由于數(shù)據(jù)缺失等原因使得其數(shù)據(jù)中常包含較多噪聲,從而大大增加了分類的難度。因此,單一的分類器(分類模型)很難實現(xiàn)在整個樣本空間上的準(zhǔn)確分類,而如果能夠?qū)⒍鄠€分類器組合起來[10],讓每一個分類模型都在其優(yōu)勢空間區(qū)域發(fā)揮作用,將有望提高客戶流失預(yù)測的準(zhǔn)確性。
過去10年中,多分類器組合廣泛地應(yīng)用于手寫字符識別、文本分類、語音識別和股市預(yù)測等[11,12]。在多分類器組合中,通常有兩種組合策略:靜態(tài)分類器組合和動態(tài)分類器組合[13]。與靜態(tài)分類器組合相比,動態(tài)分類器組合是一個更加靈活的方法,它是一種基于各分類器的訓(xùn)練性能以及實際待分類樣本的相關(guān)參數(shù)而進行的一種實時的選擇。在文獻[14]中,Woods等人提出了基于局部分類精度分析的動態(tài)分類器選擇方法DCS_LA (Dynamic Classifier Selection with Local Accuracy)。然而,DCS_LA仍有其不足之處。對于每一個待分類樣本x*,DCS_LA總是從分類器集合中找到一個具有最大“局部分類能力”的單一分類器來對x*進行分類。事實上,若能夠從分類器集合中選擇一個合適的子集進行集成,往往能夠得到比最好的單一分類器更好的分類性能[11]。因此,如何為每一個待分類樣本選擇一個最恰當(dāng)?shù)姆诸惼髯蛹M行動態(tài)集成,成為能否進一步提高分類性能的關(guān)鍵。而要解決這一問題,自組織數(shù)據(jù)挖掘理論(Self-Organize Data Mining, SODM)無疑是一種很好的工具。
SODM是由烏克蘭科學(xué)院院士Ivakhnenko提出的多變量分析的復(fù)雜系統(tǒng)建模與識別方法[15]。SODM包括了一系列建模方法,其中,最具代表性的是多層網(wǎng)絡(luò)算法。該算法的基本思想是構(gòu)造一個多層前饋神經(jīng)元網(wǎng)絡(luò)結(jié)構(gòu),從參考函數(shù)出發(fā),通過遺傳,進化,變異,選擇和拒絕等一系列操作,來決定系統(tǒng)模型的輸入變量,結(jié)構(gòu)以及參數(shù),最后通過終止法則來選擇最優(yōu)復(fù)雜度模型[16]。近年來,SODM方法在經(jīng)濟、工程等廣泛領(lǐng)域得到了成功的應(yīng)用[17~19]。
本文將SODM多層神經(jīng)元網(wǎng)絡(luò)與動態(tài)分類器組合的思想相結(jié)合,提出了基于SODM的動態(tài)分類器集成方法SDCE(Dynamic Classifier Ensemble based on SODM),并將其應(yīng)用于客戶流失預(yù)測。實證分析表明,與常用的單一客戶流失預(yù)測模型以及動態(tài)分類器選擇方法DCS_LA相比,SDCE具有更好的預(yù)測性能。
2 理論介紹
2.1 動態(tài)分類器組合的原理及算法
動態(tài)分類器組合的基本思想是采用不同的分類器組合方案來為不同的待分類樣本進行分類[20]。其中,DCS_LA是動態(tài)分類器組合的典型代表[14]。該算法數(shù)學(xué)描述如下:
設(shè)有N個基分類器C1,…,CN,每一個基分類器都事先為同一個M-類分類問題進行了分類。對于每一個測試樣本x*,定義R(x*)是由x*的K個近鄰組成的局部區(qū)域,而LAj,K(x*)是分類器Cj在該局部區(qū)域的精度估計。則DCS_LA算法定義如下[14]:
(1)如果所有的基分類器將x*歸為同一類,那么就將其分為該類;否則,
(2)計算LAj,K(x*), j=1,2,…,N;
(3)找到具有最大局部分類能力的分類器Ci|LAj,K(x*)=maxj(LAj,K(x*)),并利用它為x*分類。
DCS_LA算法的關(guān)鍵在于步驟2中的LAj,K(x*)的計算,Woods等人提出了兩種計算方法[14]:“先驗”局部精度(Overall Local Accuracy, OLA)和“后驗”局部精度(Local Class Accuracy, LCA),并指出在大多數(shù)情況下,LCA比OLA具有更好的分類性能。
2.2 自組織數(shù)據(jù)挖掘理論
自組織數(shù)據(jù)挖掘(Self-Organize Data Mining, SODM)的核心技術(shù)是數(shù)據(jù)分組處理方法(Group Method of Data Handing, GMDH),它是一種進化計算技術(shù)。在SODM中,組合算法和多層神經(jīng)元網(wǎng)絡(luò)算法是兩種最重要的算法,而后者的應(yīng)用最為廣泛。
SODM多層神經(jīng)元網(wǎng)絡(luò)以參考函數(shù)的形式建立輸入輸出變量之間的一般關(guān)系。一般取Volterra函數(shù)級數(shù)或Kolmogorov-Gabor多項式的離散形式作為參考函數(shù)[16]
(1)式也叫K-G多項式,其中y為模型輸出,(x1,x2,…,xn)為輸入向量,a是權(quán)值向量。特別地,包含n個變量(神經(jīng)元)的一階(線性)K-G多項式如下
f(x1,x2,…,xn)=a0+a1x1+a2x2+…+anxn(2)
如果參考函數(shù)選擇如(2)式所示的線性參考函數(shù),則在使用SODM多層神經(jīng)元網(wǎng)絡(luò)建模時,首先取(2)式中所有的子項作為網(wǎng)絡(luò)的n+1個初始輸入模型:v1=a0,v2=a1x1,…,vn+1=anxn。其具體的建模過程如下:
根據(jù)傳遞函數(shù)y=f(vi,vj)= a1+a2vi+a3vj將這些初始模型兩兩組成一個單元,則在第一層共有
n1=C2n0(n0=n+1)個局部函數(shù)產(chǎn)生
上述過程不斷進行下去,直到通過終止法則找到最優(yōu)復(fù)雜度模型yopt。
SODM將訓(xùn)練樣本集W等分為兩部分:模型訓(xùn)練集A和模型選擇集B。 在A上利用LS進行參數(shù)的估計,而在B上利用外準(zhǔn)則進行中間候選模型的評價和選擇。算法的終止法則是由最優(yōu)復(fù)雜度原理給出的[16]:當(dāng)模型的復(fù)雜度逐漸增加時,具有外補充性質(zhì)的稱之為外準(zhǔn)則的準(zhǔn)則值會呈現(xiàn)先減小后增大的變化趨勢,外準(zhǔn)則全局極小值對應(yīng)了最優(yōu)復(fù)雜度模型。
3 基于SODM的動態(tài)分類器集成
3.1 外準(zhǔn)則的選擇
在實際建模中,往往會根據(jù)建模的目的或者對系統(tǒng)先驗知識的認(rèn)識而提出不同的要求。在SODM方法中,外準(zhǔn)則就是這些特定要求的數(shù)學(xué)描述,它們組成了一個外準(zhǔn)則體系。根據(jù)所選的外準(zhǔn)則,我們能夠從候選模型中選出“最優(yōu)的”模型[16]。在動態(tài)分類器集成中,集成的優(yōu)劣最直接的測度指標(biāo)就是其集成后的分類誤差。因此,本文從SODM外準(zhǔn)則中選取與之相適應(yīng)的對稱的正則化準(zhǔn)則(Symmetric Regularity Criterion, SRC)作為SDCE算法的外準(zhǔn)則,其形式如下[17]
3.2 SDCE 算法描述
算法的基本思想是:對于每一個待分類樣本x*,首先從訓(xùn)練集中選擇x*的K個近鄰構(gòu)成一個局部區(qū)域,然后在這個區(qū)域中利用SODM多層神經(jīng)元網(wǎng)絡(luò)進行分類器集成的選擇,從而對樣本x*進行分類。設(shè)分類問題的訓(xùn)練集
D1包含m個樣本,測試集D2包含n個樣本。同時,基分類器池中共有N個基本分類器C1,…,CN,則SDCE算法的偽代碼可表示如下:
SDCE(K)
For待分類樣本x*i∈D2, i=1,2,…,n
(1)從D1中找到x*i的K個近鄰構(gòu)成x*i的一個局部區(qū)域,設(shè)為DK={x1,x2,…,xK};
(2)利用N個基分類器對DK及x*i分類,設(shè)結(jié)果分別為R=(R1,R2,…,RN)和r=(r1,r2,…,rN);
(3)將R沿水平方向等分為模型訓(xùn)練集A和模型選擇集B兩部分;
(4)取一階K-G多項式建立DK的類別向量Y和R1,R2,…,RN之間的一般關(guān)系作為參考函數(shù)f(R1,R2,…,RN)=a1R1+a2R2+…+aNRN , 并以它的所有子項作為SODM多層神經(jīng)元網(wǎng)絡(luò)的N個初始模型:v1=a1R1,v2=a2R2,…,vN=aNRN;
(5)將初始模型兩兩組合,產(chǎn)生C2N個第一層中間候選模型wt=vi+vj=aiRi+ajRj, i,j=1,2,…,N,i≠j;t=1,2,…,C2N,在數(shù)據(jù)集A上利用LS估計各中間模型的參數(shù);
(6)根據(jù)(5)式計算全部候選模型的SRC值,將最小的準(zhǔn)則值作為該層的外準(zhǔn)則值,同時選出準(zhǔn)則值最小的若干中間模型作為下一層的輸入;
(7)重復(fù)5、6兩步,可依次產(chǎn)生第二、第三…層中間候選模型,直到根據(jù)最優(yōu)復(fù)雜度原理,找到具有最優(yōu)復(fù)雜度的分類器集成模型;
(8)將基分類器C1,…,CN對x*i的分類結(jié)果r=(r1,r2,…,rN)代入最優(yōu)復(fù)雜度的集成模型中得到x*i的最終分類結(jié)果。
圖1是使用SDCE算法進行動態(tài)分類器集成選擇的一個簡單實例。圖1(a)表示了尋找最優(yōu)分類器集成方案的過程。對于某一個待分類樣本x*i∈D2,i=1,2,…,n,首先利用所有的基分類器(假設(shè)有4個)對其進行分類,得到各自的分類結(jié)果(R1,R2,…,R4),它們對應(yīng)了圖1(a)中的4個初始模型v1=a1R1,v2=a2R2,…,v4=a4R4。在第一層,通過將輸入層的變量兩兩組合,得到更加復(fù)雜的模型,wt=vi+vj=aiRi+ajRj,i,j=1,2,…,4,i≠j;t=1,2,…,6。在模型訓(xùn)練集A上估計各個模型的參數(shù),同時在模型選擇集B上按照(5)式計算每一個模型的SRC值。將最小的SRC值作為該層的外準(zhǔn)則,同時選擇4個較優(yōu)的中間模型w1,w2,w4,w6進入網(wǎng)絡(luò)的第二層。重復(fù)這樣一個進化、評價、選擇的過程,直到第3層,根據(jù)最優(yōu)復(fù)雜度原理找到具有最優(yōu)復(fù)雜度的分類器集成方案yopt=y1。圖1(b)則說明了在找到y(tǒng)opt以后,如何確定模型中的組成。我們只需要從SODM多層神經(jīng)元網(wǎng)絡(luò)的最后一層逐層向前遞推,直到初始輸入層。由圖1(b)可知,在最優(yōu)的集成方案中,選擇了初始輸入模型v1,v2,v3,也即基分類器C1,C2,C3,而基分類器C4在SDCE算法自適應(yīng)選擇過程中被淘汰掉了。
4 基于動態(tài)分類器集成的客戶流失預(yù)測實證研究
在這一節(jié)中,我們在兩個客戶流失預(yù)測數(shù)據(jù)集上比較SDCE和一些單一預(yù)測模型K-近鄰(K-Nearest Neighbours, K-NN)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、C4.5算法、樸素貝葉斯(Nave Bayes, NB)、支持向量機(SVM)以及DCS_LA的預(yù)測性能。
4.1 數(shù)據(jù)預(yù)處理
(1) 數(shù)據(jù)集1
Churn數(shù)據(jù)集來源于UCI數(shù)據(jù)庫[22]。該數(shù)據(jù)以無線手機客戶不享受某電信公司的所有服務(wù)為對其客戶流失的定義,共有18個屬性,3333個客戶樣本,其中2850個非流失客戶,483個流失客戶,兩類樣本之比約為6。首先隨機地將整個數(shù)據(jù)集分成3等份,1/3的樣本用于測試(其中非流失客戶965個,流失客戶146個),余下2/3的樣本構(gòu)成初始訓(xùn)練集。同時,為了提高預(yù)測精度,本研究采用重抽樣技術(shù)來平衡類別分布,從初始訓(xùn)練集中隨機無放回地抽取1294個非流失客戶,隨機有放回地抽取928個流失客戶,它們一起構(gòu)成最終的訓(xùn)練集。
(2) 數(shù)據(jù)集2
此數(shù)據(jù)來源于四川省某電信分公司2005年1~6月的客戶數(shù)據(jù)??紤]到指標(biāo)的可得性,我們選取了下列流失變量:客戶級別、區(qū)內(nèi)費、區(qū)間費、月租費、國內(nèi)傳統(tǒng)長途費、國際傳統(tǒng)長途費、月總費用、3個月內(nèi)平均停機次數(shù)、3個月內(nèi)平均消費額、欠費情況等10個屬性。對于客戶類別變量,定義離網(wǎng)用戶為本月有話費記錄,下個月沒有話費記錄的用戶。
經(jīng)過簡單的數(shù)據(jù)清理,最后獲得3350個樣本,其中非流失樣本2926個,流失樣本424個,兩類樣本之比高達6.9。首先隨機地選取其中的2550個樣本構(gòu)成測試集(2220個為非流失樣本,330個為流失樣本),其余的800個樣本構(gòu)成初始訓(xùn)練集。最后,仍然采用重抽樣技術(shù)來平衡類別分布,從初始訓(xùn)練集中隨機無放回地抽取473個非流失客戶,隨機有放回地抽取327個流失客戶,它們一起構(gòu)成最終的訓(xùn)練集。
4.2 試驗設(shè)置
最常用的構(gòu)建基本分類器的方法有Bagging和Boosting。Opitz[11]研究指出,雖然Boosting的分類精度有時比Bagging要高,但是它可能會過度擬合噪聲數(shù)據(jù)集。因此,本文采用Bagging方法來構(gòu)建基本分類器。首先采用隨機重復(fù)抽樣的方法從訓(xùn)練集中選擇20個子集,每個訓(xùn)練子集的樣本數(shù)都為原訓(xùn)練集的7/10,然后利用基本分類方法如ANN在每個訓(xùn)練子集上訓(xùn)練得到一個基本分類器,從而構(gòu)建一個容量為20的基分類器池。同時,由3.2節(jié)可知,SDCE方法也有一個重要參數(shù)K,這里取K=5。全部實驗都是反復(fù)運行10次,最后取10次實驗的平均值。
4.3 實證結(jié)果分析
評價客戶流失預(yù)測模型性能的常用指標(biāo)有總的準(zhǔn)確率、在網(wǎng)類準(zhǔn)確率、離網(wǎng)類準(zhǔn)確率、命中率、提升系數(shù)等。根據(jù)表1定義的客戶流失評價矩陣,上述評價指標(biāo)可以表示為:總的準(zhǔn)確率=(A+D)/(A+B+C+D)×100%;在網(wǎng)類準(zhǔn)確率=A/(A+B)×100%;離網(wǎng)類準(zhǔn)確率=D/(C+D)×100%;預(yù)測命中率=D/(B+D)×100%;提升系數(shù)=命中率/測試數(shù)據(jù)中的客戶流失率。
首先利用K-NN、ANN、C4.5、NB和SVM 這5種基本分類算法在兩個數(shù)據(jù)集上進行流失預(yù)測。結(jié)果表明,在兩個數(shù)據(jù)集上,5種方法的總的準(zhǔn)確率都在80%到90%之間。同時,在網(wǎng)類準(zhǔn)確率和離網(wǎng)類準(zhǔn)確率相差較大,如在數(shù)據(jù)集1上,5種方法的在網(wǎng)類準(zhǔn)確率分別為93.26%,93.89%,92.54%,93.99%,88.08%,離網(wǎng)類準(zhǔn)確率分別為39.04%,45.21%,46.58%,53.42%,52.74%。這主要是由于數(shù)據(jù)集的類別不平衡引起的。SVM和NB具有較高的離網(wǎng)類準(zhǔn)確率,表明二者具有較強的處理類別不平衡數(shù)據(jù)的能力。最后,5種基本分類算法在兩個數(shù)據(jù)集上的提升系數(shù)均在3.0到4.5之間,如在數(shù)據(jù)集1上的提升系數(shù)分別為3.56,4.02,3.70,4.36,3.05。模型具有較高的離網(wǎng)類準(zhǔn)確率、命中率和提升系數(shù),說明在不同的客戶流失率的市場環(huán)境下,利用該模型能以較小的成本來挽留較多的潛在流失客戶。
判斷一個流失預(yù)測模型是否可接受,通??梢愿鶕?jù)其主要的性能指標(biāo)如命中率、離網(wǎng)類準(zhǔn)確率來衡量。當(dāng)然,不同的行業(yè)可能有不同的評價標(biāo)準(zhǔn),以電信業(yè)為例,通常要求離網(wǎng)類準(zhǔn)確率達到75%以上,預(yù)測命中率在65%以上
[23]。然而,上述5種算法在數(shù)據(jù)集1上的命中率分別為46.72%,52.80%,48.57%,57.35%,40.10%,都還遠(yuǎn)遠(yuǎn)低于這一水平,在數(shù)據(jù)集2上的命中率也都還低于65%,它們的預(yù)測性能并不是十分的理想。
為了彌補單一方法的不足,分別以上述5種算法為基礎(chǔ)構(gòu)建基分類器池,利用DCS_LA進行動態(tài)分類器組合。結(jié)果顯示,與單一分類器相比,DCS_LA的預(yù)測性能有了顯著提高。在兩個數(shù)據(jù)集上的總的準(zhǔn)確率、命中率、離網(wǎng)類準(zhǔn)確率以及提升系數(shù)都有了大幅提高。如在數(shù)據(jù)集2上,在5種方法中,以SVM以及K-NN為基礎(chǔ)的DCS_LA算法的離網(wǎng)類準(zhǔn)確率分別為86.67%和82.73%,命中率分別為68.26%和69.86%,它們都是可以接受的。然而在數(shù)據(jù)集1上,以5種基本分類算法為基礎(chǔ)的DCS_LA方法的離網(wǎng)類準(zhǔn)確率分別為62.33%,66.44%,63.01%,73.29%,69.86%,各個模型的性能仍然沒有達到能被接受的水平。
進一步地,利用SDCE算法進行客戶流失預(yù)測。結(jié)果表明,與單一預(yù)測模型以及DCS_LA相比,SDCE方法具有更好的客戶流失預(yù)測性能。在兩個數(shù)據(jù)集中,以5種基本分類算法為基礎(chǔ)的SDCE方法的命中率都在70%以上,離網(wǎng)類準(zhǔn)確率都在85%以上,如在數(shù)據(jù)集1上的離網(wǎng)類準(zhǔn)確率分別為91.10%,90.41%,85.62%,93.84%,90.41%,其預(yù)測結(jié)果都是可以接受的。同時,SDCE方法的提升系數(shù)也較單一預(yù)測模型以及DCS_LA有了大幅提升,在數(shù)據(jù)集1上以5種基本算法為基礎(chǔ)的SDES方法的提升系數(shù)分別為6.10,5.84,5.63,6.06,5.61,在數(shù)據(jù)集2上的提升系數(shù)分別為7.21,6.93,6.64,7.55,6.82. 此外,SDCE方法的離網(wǎng)類準(zhǔn)確率已非常接近在網(wǎng)類準(zhǔn)確率,如在數(shù)據(jù)集1上它們的在網(wǎng)類準(zhǔn)確率為96.58%,95.85%,95.44%,96.37%,95.13%,這也表明,SDCE方法能夠更好地處理客戶流失預(yù)測中的類別不平衡問題。
5 結(jié)論
本文將動態(tài)分類器組合與SODM相結(jié)合,提出了基于SODM的動態(tài)分類器集成方法SDCE。將該方法應(yīng)用于客戶流失預(yù)測的實證分析表明,與常用的單一客戶流失預(yù)測模型以及DCS_LA方法相比,SDCE能夠在很大程度上提高客戶流失預(yù)測的準(zhǔn)確率、命中率以及提升系數(shù)等。
在市場不斷變化的今天,分類技術(shù)在CRM的客戶分析中得到了廣泛應(yīng)用,如客戶細(xì)分、客戶忠誠度分析、客戶流失預(yù)測和客戶信用欺詐檢測等。因此,將本文提出的SDCE動態(tài)分類器集成方法應(yīng)用于客戶分析的各個領(lǐng)域,將有望提高企業(yè)客戶關(guān)系管理的水平。同時,多分類器組合方法應(yīng)用于客戶關(guān)系管理的研究才剛剛起步,下一步將研究SDCE方法應(yīng)用于不同客戶分類問題時的參數(shù)優(yōu)化選擇問題,期待進一步提高預(yù)測的準(zhǔn)確性。
參 考 文 獻:
[1]Reichheld F F. The loyalty effect: the hidden force behind growth, profits and lasting value[M]. Harvard Business School Press, 1996.
[2]Bhattacharya C B. When customers are members: customer retention in paid membership contexts[J]. Journal of the Academy of Marketing Science, 1998, 26(1): 31-44.
[3]盛昭瀚,柳炳祥.客戶流失危機分析的決策樹方法[J].管理科學(xué)學(xué)報,2005,8(4):20-25.
[4]姚敏,沈斌,李明芳.基于多準(zhǔn)則神經(jīng)網(wǎng)絡(luò)與分類回歸樹的電信行業(yè)異動客戶識別系統(tǒng)[J].系統(tǒng)工程理論與實踐,2004,24(5):78-83.
[5]Kim H S, Yoon C H. Determinants of subscriber churn and customer loyalty in the Korean mobile telephony market[J]. Telecommunications Policy, 2004, 28(9): 751-765.
[6]Nath S V. Data warehousing and mining: customer churn analysis in the wireless industry[D]. Boca Raton, Florida: Florida Atlantic University, 2003.
[7]Au W, Chen K C C, Yao X. A novel evolutionary data mining algorithm with applications to churn prediction [J]. IEEE Transactions on Evolutionary Computation, 2003, 7(6): 532-545.
[8]夏國恩,金煒東.基于支持向量機的客戶流失預(yù)測模型[J].系統(tǒng)工程理論與實踐,2008,28(1):71-77.
[9]Neslin S, Gupta S, Kamakura W, et al.. Detection defection: measuring and understanding the predictive accuracy of customer churn models[J]. Journal of Marketing Research, 2006, 43(2): 204-211.
[10]Kim E, Kim W, Lee Y. Combination of multiple classifiers for the customer’s purchase behavior prediction [J]. Decision Support Systems, 2000, 34: 167-175.
[11]Opitz D, Maclin R. Popular ensemble methods: an empirical study[J]. Journal of Artificial Intelligence Research, 1999, 11: 169-198.
[12]Kim M J, Min S H, Han I. An evolutionary approach to the combination of multiple classifiers to predict a stock price index[J]. Expert Systems with Applications, 2006, 31: 241-247.
[13]Kuncheva L I. Switching between selection and fusion in combining classifiers: an experiment[J]. IEEE Transactions on Systems, Man and Cybernetics-Part B: Cybernetics, 2002, 32(2): 146-156.
[14]Woods K, Kegelmeyer W P, Bowyer K. Combination of multiple classifiers using local accuracy estimates[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1997, 19: 405-410.
[15]Ivakhnenko A G. Heuristic self-organization in problems of engineering cybernetics[J]. Automatica, 1970, 6(2): 207-219.
[16]Muller J A, Lemke F. Self-organizing data mining: an intelligent approach to extract knowledge from data[M]. Hamburg: Libri, 2000.
[17]賀昌政.自組織數(shù)據(jù)挖掘與經(jīng)濟預(yù)測[M].北京:科學(xué)出版社,2005.
[18]Mehrara M, Moeini A, Ahrari M, et al.. Investigating the efficiency in oil futures market based on GMDH approach[J]. Expert Systems with Applications, 2009, 36(4): 7479-7483.
[19]Xiao J, He C Z, Jiang X Y. Structure identification of Bayesian classifiers based on GMDH[J]. Knowledge-Based Systems, 2009, 22(6): 461-470.
[20]Didaci L, Giacinto G, Roli F, et al.. A study on the performances of dynamic classifier selection based on local accuracy estimation[J]. Pattern Recognition, 2005, 38(11): 2188-2191.
[21]Sarychev A P. An averaged regularity criterion for the group method of data handling in the problem of searching for the best regression[J]. Soviet Journal of Automation and Information Sciences c/c of Avtomatika, 1990, 23(5): 24-29.
[22]Merz C, Murphy P. UCI repository of machine learning databases[DB/OL].http://www.ics.uci.edu/~mlearn/MLRepository.html, 1995-12-04.
[23]田玲,邱會中,鄭莉華.基于神經(jīng)網(wǎng)絡(luò)的電信客戶流失預(yù)測主題建模及實現(xiàn)[J].計算機應(yīng)用,2007,27(9):
2294-2297.