肖 進(jìn),劉瀟瀟,謝 玲,劉敦虎,黃 靜
(1.四川大學(xué)商學(xué)院,四川 成都 610064;2.成都信息工程學(xué)院管理學(xué)院,四川 成都 610225; 3.四川大學(xué)公共管理學(xué)院,四川 成都 610064)
隨著大數(shù)據(jù)時(shí)代的來臨,企業(yè)掌握的客戶數(shù)據(jù)越來越多,一些企業(yè)開始利用數(shù)據(jù)庫營銷(Database Marketing)來避免傳統(tǒng)營銷中存在的低效率,高成本等弊端,用以從海量客戶數(shù)據(jù)中快速挖掘出客戶多樣化和個(gè)性化的需求。作為數(shù)據(jù)庫營銷中最重要的問題之一,目標(biāo)客戶選擇建模用于從潛在客戶中識(shí)別出企業(yè)的目標(biāo)客戶,即對(duì)企業(yè)營銷手段最可能做出響應(yīng)的客戶,從而幫助企業(yè)制定營銷戰(zhàn)略。
目標(biāo)客戶選擇建模實(shí)質(zhì)上是屬于客戶分類的范疇[1],即將客戶分為兩類:對(duì)企業(yè)產(chǎn)品的營銷宣傳活動(dòng)(如發(fā)送郵件或者短信等)做出響應(yīng),進(jìn)而購買產(chǎn)品的客戶和不響應(yīng)的客戶。目前,常用的目標(biāo)客戶選擇模型主要包括人工神經(jīng)網(wǎng)絡(luò)[2](Artificial Neural Networks, ANN)、遺傳算法[3](Genetic Algorithm,GA)、數(shù)據(jù)分組處理(Group Method of Data Handling,GMDH)神經(jīng)元網(wǎng)絡(luò)[4]和支持向量機(jī)[5-6](Support Vector Machine, SVM)等。許多現(xiàn)實(shí)的客戶數(shù)據(jù)的類別分布往往是高度不平衡的,即會(huì)對(duì)企業(yè)的營銷活動(dòng)做出響應(yīng)的客戶比不響應(yīng)的客戶少很多[7]。在這種情況下,上述傳統(tǒng)的分類模型可能會(huì)將所有的客戶預(yù)測(cè)為不響應(yīng)的客戶,難以取得令人滿意的目標(biāo)客戶選擇性能。為了解決這一問題,目前常用的方法是重抽樣技術(shù)(如隨機(jī)向上抽樣和隨機(jī)向下抽樣)來平衡訓(xùn)練集的類別分布,再訓(xùn)練分類模型。
上述研究對(duì)目標(biāo)客戶選擇建模都做出了重要貢獻(xiàn),但通過仔細(xì)分析,還存在以下不足:1)重抽樣技術(shù)存在缺陷。隨機(jī)向上抽樣將導(dǎo)致少數(shù)類中重復(fù)樣本太多,而隨機(jī)向下抽樣得到的結(jié)果就是最終的訓(xùn)練集樣本數(shù)量往往很少,它們均可能會(huì)影響目標(biāo)客戶選擇建模的性能。2)目前,國內(nèi)外關(guān)于目標(biāo)客戶選擇的研究大都采用監(jiān)督式分類建模的研究范式[8],即僅使用原始含類別標(biāo)簽的訓(xùn)練集來訓(xùn)練分類模型,進(jìn)而預(yù)測(cè)新的客戶樣本的類別。而實(shí)際上,企業(yè)往往只針對(duì)少量客戶進(jìn)行營銷宣傳活動(dòng),并賦予響應(yīng)或不響應(yīng)的類別標(biāo)簽。而剩下大量未進(jìn)行營銷宣傳的客戶,則無法標(biāo)記它們的類別[9]。此時(shí),如果仍然采用監(jiān)督式客戶分類建模研究范式,通常都會(huì)由于訓(xùn)練樣本個(gè)數(shù)太少而造成過擬合,反而導(dǎo)致模型性能的下降[10]。實(shí)際上,無類別標(biāo)簽的客戶數(shù)據(jù)也可為構(gòu)建模型提供有用信息[9]。因此,如何有效地使用大量沒有類別標(biāo)簽的數(shù)據(jù)提高模型的學(xué)習(xí)性能,是目標(biāo)客戶選擇建模中亟待解決的問題。
事實(shí)上,在目標(biāo)客戶選擇領(lǐng)域,不同類別客戶的錯(cuò)分代價(jià)相差很大,如果把一個(gè)不響應(yīng)的客戶誤分成響應(yīng)的客戶給企業(yè)造成的損失僅僅是很少的郵寄相關(guān)宣傳資料的營銷費(fèi)用,而如果把一個(gè)響應(yīng)的客戶誤分成不響應(yīng)的客戶,那么企業(yè)就不會(huì)對(duì)該客戶郵寄宣傳資料,從而失去該客戶因購買了產(chǎn)品或服務(wù)而給企業(yè)帶來的利潤。代價(jià)敏感學(xué)習(xí)(Cost Sensitive Learning,CSL)恰好能夠很好地處理這種分類問題[11],它在訓(xùn)練模型時(shí)為少數(shù)類樣本賦予比多數(shù)類樣本更高的錯(cuò)分代價(jià),從而讓模型更多地關(guān)注少數(shù)類樣本。如Xiao Jin等[12]利用代價(jià)敏感學(xué)習(xí)機(jī)制,提出了動(dòng)態(tài)集成客戶分類模型,實(shí)驗(yàn)分析表明該模型分類的正確率更高。
為了解決第二個(gè)問題,近年來在機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展起來的半監(jiān)督學(xué)習(xí)(Semi-supervised Learning,SSL)為我們提供了一種很好的思路[13],其主要思想是研究如何綜合使用有、無類別標(biāo)簽的樣本來提高模型的學(xué)習(xí)性能。目前已有將半監(jiān)督學(xué)習(xí)用于目標(biāo)客戶選擇的研究[14],但已有的研究都只是構(gòu)建了單一的半監(jiān)督分類模型來進(jìn)行目標(biāo)客戶選擇。由于在現(xiàn)實(shí)中用于目標(biāo)客戶選擇建模的數(shù)據(jù)往往包含了大量噪聲,大大增加了分類難度。因此,單一分類模型難以實(shí)現(xiàn)在整個(gè)樣本空間上的準(zhǔn)確分類。若能夠?qū)⒍鄠€(gè)單一模型進(jìn)行組合,即引入多分類器集成技術(shù)(Multiple Classifiers Ensemble, MCE)[15],讓每個(gè)分類器都能在各自的優(yōu)勢(shì)空間中發(fā)揮作用,進(jìn)而提高模型的目標(biāo)客戶選擇性能。
本文將CSL,SSL以及MCE中的隨機(jī)子空間方法(Random Subspace,RSS)相結(jié)合,構(gòu)建了代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL,SSL和MCE的優(yōu)勢(shì),既能夠較好地處理類別不平衡的數(shù)據(jù),也能夠?qū)o類別標(biāo)簽樣本中包含的大量信息加以利用,同時(shí)還能利用集成方法RSS進(jìn)一步提高模型的目標(biāo)客戶選擇性能。在CoIL預(yù)測(cè)競(jìng)賽的目標(biāo)客戶選擇數(shù)據(jù)集上進(jìn)行實(shí)證分析,結(jié)果表明,與兩種監(jiān)督式集成模型、兩種單一的半監(jiān)督式模型以及兩種半監(jiān)督式集成模型相比,本文提出的CSSE模型具有更好的目標(biāo)客戶選擇性能。
對(duì)于CSL的研究最早可以追溯到1984年Breiman等[16]提出的代價(jià)敏感學(xué)習(xí)研究框架。針對(duì)二分類問題,代價(jià)敏感學(xué)習(xí)技術(shù)的研究集中在以下兩個(gè)方面[17]:(1)根據(jù)樣本的不同錯(cuò)分代價(jià)來改變正類和負(fù)類占總樣本數(shù)的比例來構(gòu)建類別平衡的樣本集,然后應(yīng)用分類模型進(jìn)行建模;(2)在不改變訓(xùn)練集的基礎(chǔ)上,改造分類模型的內(nèi)部結(jié)構(gòu),即改造分類模型的目標(biāo)函數(shù)使其成為代價(jià)敏感的分類模型。由于該方法考慮了不同類型錯(cuò)分代價(jià)不同的情況,并基于最小化總體誤分代價(jià)的原理來設(shè)計(jì)分類模型,進(jìn)而能更好的適應(yīng)目標(biāo)客戶選擇問題。這其中代表性的方法就是代價(jià)敏感的SVM。
SVM是Cortes和Vapnik于1995年首先提出的,目前是機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點(diǎn)之一[18-19]。SVM的核心思想是通過某種事先選擇的非線性映射(核函數(shù))將輸入向量映射到一個(gè)高維特征空間,該算法的目標(biāo)是在這個(gè)空間里構(gòu)建最優(yōu)分類超平面,使正負(fù)兩類樣本之間有最大的間隔。
圖1 支持向量機(jī)原理圖
s.t.yi(wxi+b)-1+ξi≥0,ξi≥0i=1,2,…,n
(1)
s.t.yi(k(w,xi)+b)≥1-ξiξi≥0,i=1,2,…,n
(2)
分類問題是數(shù)據(jù)挖掘領(lǐng)域的基本研究問題,傳統(tǒng)的分類學(xué)習(xí)常常使用單一分類模型來預(yù)測(cè)類別標(biāo)簽。由于現(xiàn)實(shí)中用于分類建模的數(shù)據(jù)往往包含大量噪聲,單一的分類模型很難將全部樣本正確分類。而MCE則是將多個(gè)分類器的分類結(jié)果通過某種方式集成起來,得到最終的分類結(jié)果。作為MCE中常用的模型之一,RSS[20]的基本思想是隨機(jī)抽取特征子集形成不同的特征子空間,經(jīng)過映射得到若干個(gè)訓(xùn)練子集,從而構(gòu)造出不同的基本分類器。RSS一方面能夠降低原始數(shù)據(jù)集特征空間的維數(shù),另一方面由于每次抽取的特征子集不同因而映射形成的訓(xùn)練子集也不同,很大程度上增加了用于集成的基本分類器之間的多樣性,有利于提高集成的效果。葉云龍等[21]提出了一種基于RSS的多分類器集成算法,實(shí)證分析發(fā)現(xiàn)該算法不僅優(yōu)于單一分類器的分類性能,而且一定程度上優(yōu)于Bagging算法。
半監(jiān)督學(xué)習(xí)最早由Shahshahani和Landgrebe[22]在1994年提出,目前已經(jīng)成為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn),并逐步形成自身的理論體系。半監(jiān)督分類的基本思想就是綜合利用少量有類別標(biāo)簽的樣本和無類別標(biāo)簽的樣本所提供的信息來建立分類模型,并利用該模型來預(yù)測(cè)新的樣本的類別。它與監(jiān)督式分類方法最大的區(qū)別在于,構(gòu)建分類模型時(shí)加入了無類別標(biāo)簽的樣本,而無類別標(biāo)簽樣本中也包含了很多有用信息,因此半監(jiān)督分類可望構(gòu)建出更加準(zhǔn)確的分類模型。目前,國內(nèi)外學(xué)者提出了很多半監(jiān)督分類模型,如王嬌等[23]將RSS與半監(jiān)督學(xué)習(xí)相結(jié)合,構(gòu)造了基于RSS的半監(jiān)督協(xié)同訓(xùn)練模型(RASCO),Hady和Schwenker[24]在模型中引入了協(xié)同訓(xùn)練的思想,構(gòu)建了基于Bagging的半監(jiān)督協(xié)同訓(xùn)練模型(CoBag),隨后蘇艷等[25]又提出了基于動(dòng)態(tài)RSS的半監(jiān)督協(xié)同訓(xùn)練模型(DRSCO),Li Yiyang等[26]在建模過程中利用K-近鄰分類方法來提高對(duì)無類別標(biāo)簽數(shù)據(jù)集選擇性標(biāo)記的準(zhǔn)確度,構(gòu)建了基于Bagging的半監(jiān)督集成模型(Semi-Bagging)。
已有的目標(biāo)客戶選擇模型多采用重抽樣方法來解決數(shù)據(jù)集類別分布不平衡的問題,但是忽略了正負(fù)類樣本錯(cuò)分代價(jià)相差很大的情況。同時(shí),已有的研究大都采用監(jiān)督式學(xué)習(xí)的研究范式,無法綜合使用有、無類別標(biāo)簽的樣本來提高模型的學(xué)習(xí)性能。此外,從少量幾篇基于SSL的目標(biāo)客戶選擇建模的研究來看,他們都構(gòu)建的單一半監(jiān)督分類模型。為了彌補(bǔ)這些不足,本文將CSL,SSL以及MCE中的RSS相結(jié)合,構(gòu)建了代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型(Cost-sensitive Semi-supervised Ensemble Model, CSSE)。該模型融合了CSL,SSL和MCE的優(yōu)勢(shì),既能夠較好地處理類別不平衡的數(shù)據(jù),也能夠?qū)o類別標(biāo)簽樣本中包含的大量信息加以利用,同時(shí)還能利用集成方法RSS進(jìn)一步提高模型的目標(biāo)客戶選擇性能。
由于L一般包含的樣本比較少,導(dǎo)致難以訓(xùn)練出分類性能很高的分類模型,使得CSSE模型在訓(xùn)練過程中可能會(huì)錯(cuò)誤標(biāo)記U中的一部分樣本,如果將其加入到L中,無疑是人為地引入了更多的噪聲,反而會(huì)降低模型的分類性能。因此,對(duì)U中樣本的選擇性標(biāo)記是非常重要的,有利于取得更好的分類性能。為了達(dá)到這一目的,本文使用概率輸出值Probi1作為衡量是否將樣本加入L的指標(biāo),并針對(duì)正負(fù)類樣本設(shè)置不同的閾值。
在現(xiàn)實(shí)的目標(biāo)客戶選擇問題中,用于建模的客戶數(shù)據(jù)往往存在類別高度不平衡的問題,若采用傳統(tǒng)方法建模會(huì)造成大量正類樣本不能被識(shí)別。常用的解決方法是對(duì)原始不平衡數(shù)據(jù)集采用重抽樣的方法,如隨機(jī)向上抽樣和隨機(jī)向下抽樣。區(qū)別于以上針對(duì)數(shù)據(jù)樣本的方法,本文使用Davenport[11]提出的代價(jià)敏感的SVM作為CSSE的基本分類模型。我們可以在訓(xùn)練模型階段調(diào)整SVM中的參數(shù)設(shè)置,增加損失函數(shù)C的值,賦予正類樣本和負(fù)類樣本不同的權(quán)重(W1,W2),同時(shí)選擇合適的核函數(shù)t在克服數(shù)據(jù)類別不平衡的同時(shí),提高正類樣本識(shí)別的準(zhǔn)確度。
輸入:初始有類別標(biāo)簽訓(xùn)練集L,其樣本個(gè)數(shù)為n,無類別標(biāo)簽數(shù)據(jù)集U,其樣本個(gè)數(shù)為m,測(cè)試集Test,其樣本個(gè)數(shù)為p,訓(xùn)練得到的基本分類模型的個(gè)數(shù)N,每次迭代中選擇性標(biāo)記正類和負(fù)類樣本時(shí)選取的標(biāo)記閾值θ1和θ2,U中選擇性標(biāo)記的樣本的百分比k。
輸出:測(cè)試集Test上的N個(gè)基本分類模型的集成分類結(jié)果。
初始化:L′=L,Q=Φ,s=1。
步驟1. 計(jì)算選擇性標(biāo)記樣本集Q與U的樣本百分比b=size(Q)/m,size是用來計(jì)算Q中樣本個(gè)數(shù)的函數(shù),若b>k,轉(zhuǎn)到步驟4;
步驟3. 分別使用三個(gè)分類模型來預(yù)測(cè)U中全部樣本的類別標(biāo)簽,并將預(yù)測(cè)一致的樣本放置在候選集Uj中。若Uj為空,轉(zhuǎn)到步驟2,否則從Uj中根據(jù)正負(fù)樣本比例選取Probi1大于θ1的正類樣本和Probi1小于θ2的負(fù)類樣本添加到L’中,同時(shí)也將它們添加到Q中并從U中剔除;
步驟4. 使用隨機(jī)子空間法(RSS)在L′上抽取一個(gè)特征子集,并映射得到訓(xùn)練子集,使用代價(jià)敏感的SVM訓(xùn)練得到一個(gè)基本分類模型Cs;
步驟5. 若s 步驟6. 使用N個(gè)基本分類模型分別對(duì)測(cè)試集Test中的樣本進(jìn)行分類得到分類結(jié)果R1,R2,…,RN; 步驟 7. 使用多數(shù)投票法集成N個(gè)基本分類模型的分類結(jié)果R1,R2,…,RN得到最終的分類結(jié)果。 圖2 CSSE模型的流程圖 為了分析本文提出的CSSE模型的目標(biāo)客戶選擇性能,我們運(yùn)用2000年的CoIL預(yù)測(cè)競(jìng)賽[27](CoIL2000數(shù)據(jù)集)中Benchmark保險(xiǎn)公司推銷大篷車保險(xiǎn)的真實(shí)數(shù)據(jù)來進(jìn)行實(shí)證分析。該數(shù)據(jù)集包含9822個(gè)樣本,每個(gè)客戶樣本包含86個(gè)變量,其中1~85個(gè)變量是描述客戶信息的特征變量,第86個(gè)變量是響應(yīng)變量,表示客戶所屬的類別標(biāo)簽,該數(shù)據(jù)集將全部客戶劃分為會(huì)對(duì)企業(yè)營銷活動(dòng)做出響應(yīng)的少數(shù)類客戶(正類)和不會(huì)做出響應(yīng)的多數(shù)類客戶(負(fù)類),且正負(fù)類樣本比例為1∶7.55,由此可知該數(shù)據(jù)集屬于類別分布不平衡數(shù)據(jù)集。 為了進(jìn)行實(shí)驗(yàn)分析,我們從數(shù)據(jù)集中隨機(jī)抽取30%的樣本作為測(cè)試集Test,然后將剩余70%的樣本按照從1∶1、1∶2、1∶3、1∶4到1∶5的比例分為初始有類別標(biāo)簽訓(xùn)練集L和無類別標(biāo)簽數(shù)據(jù)集U,并且要保證L,Test,U中正負(fù)類樣本的比例與原始數(shù)據(jù)集相同。 由于本文所使用的數(shù)據(jù)集的維度較高(包含85個(gè)屬性),可能存在特征冗余的問題,而特征選擇一方面有助于建立更易解釋、具有更好泛化能力的目標(biāo)客戶選擇模型,另一方面使用降維后的數(shù)據(jù)也可減少計(jì)算時(shí)間,從而降低時(shí)間成本。Kim等[28]首先將GA與ANN相結(jié)合對(duì)數(shù)據(jù)進(jìn)行降維處理,然后訓(xùn)練ANN模型選擇目標(biāo)客戶,并在與本文相同的數(shù)據(jù)集上進(jìn)行實(shí)證分析。本文首先采取Fisher Score算法[29]在訓(xùn)練集L上進(jìn)行特征選擇。首先分別計(jì)算每個(gè)特征的得分,然后根據(jù)特征的得分從高到低進(jìn)行排序,最后選取排在前面30%的特征來構(gòu)建目標(biāo)客戶選擇模型。 本文提出的模型運(yùn)用了林智仁教授開發(fā)設(shè)計(jì)的libsvm工具箱,同時(shí)為了訓(xùn)練代價(jià)敏感的SVM,需要在建模階段調(diào)整模型的參數(shù)使得模型在運(yùn)行時(shí)發(fā)揮出最優(yōu)分類性能。經(jīng)過反復(fù)實(shí)驗(yàn),對(duì)于初始標(biāo)記訓(xùn)練集L的最優(yōu)參數(shù)設(shè)置為:懲罰系數(shù)C=100,正類樣本懲罰系數(shù)的加權(quán)值W1=100,負(fù)類樣本懲罰系數(shù)加權(quán)值W2=10,t=2(核函數(shù)類型選擇RBF核函數(shù))。在CSSE模型中,θ1,θ2,N和k是四個(gè)重要參數(shù),經(jīng)過反復(fù)實(shí)驗(yàn),當(dāng)我們?nèi)ˇ?=1,θ2=-1,N=40,k=60%,此時(shí)模型能夠取得較好的目標(biāo)客戶選擇性能。 為了分析本文提出的CSSE模型的目標(biāo)客戶選擇性能,將CSSE模型的性能與下面六種目標(biāo)客戶選擇模型進(jìn)行了比較:1)Ho[20]提出的監(jiān)督式集成模型(Random Subspace, RSS);2)Breiman[30]提出的監(jiān)督式集成模型Bagging;3)王嬌等[23]提出的基于RSS的單一半監(jiān)督協(xié)同訓(xùn)練模型RASCO;4)蘇艷等[25]提出的基于動(dòng)態(tài)RSS的單一半監(jiān)督協(xié)同訓(xùn)練模型DRSCO;5)Hady和Schwenker[24]提出的基于Bagging的半監(jiān)督集成協(xié)同訓(xùn)練模型CoBag;6)Li Yiyang等[26]提出的半監(jiān)督式集成模型Semi-Bagging。對(duì)于這六種對(duì)比模型,我們選擇傳統(tǒng)的SVM作為基本分類算法,且基本分類器個(gè)數(shù)與CSSE模型中設(shè)置一樣,N=40。值得一提的是,這六種模型都沒有考慮類別分布不平衡對(duì)模型性能的影響,因此考慮到比較的公平性,本研究采用隨機(jī)向上抽樣來平衡數(shù)據(jù)集的類別分布,再構(gòu)建相應(yīng)的模型。此外,在RASCO模型中,有一個(gè)重要參數(shù)q,表示模型在每次循環(huán)中標(biāo)記的樣本個(gè)數(shù),而在CoBag模型中也有一個(gè)重要參數(shù)θ,表示該模型在每次循環(huán)中標(biāo)記的樣本個(gè)數(shù)。通過反復(fù)實(shí)驗(yàn),并以AUC值作為評(píng)價(jià)標(biāo)準(zhǔn),我們發(fā)現(xiàn)當(dāng)q=100,θ=200時(shí),兩個(gè)對(duì)比模型均可取得最優(yōu)性能。 最后,每一種方法的分類結(jié)果均是取10次實(shí)驗(yàn)結(jié)果的平均值,所有實(shí)驗(yàn)均是在MATLABR2010b軟件平臺(tái)上編程實(shí)現(xiàn)。 為了對(duì)目標(biāo)客戶選擇模型的性能進(jìn)行評(píng)估,本文采用四個(gè)評(píng)價(jià)指標(biāo): (1)AUC準(zhǔn)則 由于現(xiàn)實(shí)的目標(biāo)客戶選擇數(shù)據(jù)集的類別分布都是高度不平衡的,正負(fù)類樣本比例差距較大,此時(shí)若選擇總體分類精度作為評(píng)價(jià)指標(biāo)并不太實(shí)用,而ROC(Receiver Operating Characteristic)曲線恰好能夠很好地評(píng)價(jià)面向類別不平衡的分類模型的性能。為了更好的說明ROC曲線,我們首先引入目標(biāo)客戶選擇混淆矩陣,如表1所示。其中,TP表示正確分類的正類樣本個(gè)數(shù),F(xiàn)N代表實(shí)際為正類預(yù)測(cè)為負(fù)類的樣本個(gè)數(shù),F(xiàn)P指實(shí)際為負(fù)類預(yù)測(cè)為正類的樣本個(gè)數(shù),TN表示正確分類的負(fù)類樣本個(gè)數(shù)。針對(duì)兩類問題的ROC曲線是一個(gè)真正率——偽正率圖,其中橫坐標(biāo)表示偽正率=FP/(FP+TN)×100%,縱坐標(biāo)表示真正率=TP/(TP+FN)×100%。由于直接比較不同模型的ROC曲線比較困難,因此使用AUC(Area Under the ROC Curve)值來評(píng)價(jià)模型性能。 表1 目標(biāo)客戶選擇混淆矩陣 (2)命中率 在現(xiàn)實(shí)的目標(biāo)客戶選擇中,企業(yè)最關(guān)注的是會(huì)對(duì)企業(yè)營銷行為做出響應(yīng)的客戶,因此命中率[4]是一個(gè)常用的評(píng)價(jià)指標(biāo)。首先使用模型預(yù)測(cè)得到測(cè)試集中所有客戶做出響應(yīng)的概率,然后依據(jù)概率將其從大到小進(jìn)行排序,最后選擇前面r%的客戶作為目標(biāo)客戶。命中率的計(jì)算公式如下: (3) 其中,N表示所有潛在的目標(biāo)客戶數(shù),即測(cè)試集中樣本個(gè)數(shù),Nr表示根據(jù)模型選擇的目標(biāo)客戶數(shù),Nr(y=1)表示選擇的目標(biāo)客戶中真正會(huì)響應(yīng)的客戶數(shù)。 (3)提升圖(Lift Chart) 提升指數(shù)衡量的是與不利用模型相比,當(dāng)我們使用目標(biāo)客戶選擇模型時(shí),對(duì)潛在客戶的正確預(yù)測(cè)能力“提升”了多少。本文所使用的數(shù)據(jù)集的客戶響應(yīng)率是6%,即在不使用模型時(shí)目標(biāo)客戶的命中率是6%,那么當(dāng)我們選取r%的客戶作為目標(biāo)客戶時(shí),提升指數(shù)lift=Hit rate/6%。提升圖[9]的橫軸表示將客戶依據(jù)預(yù)測(cè)出的響應(yīng)概率從大到小排序后抽取的客戶比例,縱軸表示的是與之對(duì)應(yīng)的提升指數(shù)(lift)。顯然,提升指數(shù)越大表明模型的目標(biāo)客戶選擇性能越好。 (4)洛倫茲曲線(Lorenz Curve) 作為另一個(gè)常用于評(píng)價(jià)目標(biāo)客戶選擇模型性能的準(zhǔn)則,洛倫茲曲線[4]能夠線性直觀的展示出各個(gè)模型的比較結(jié)果。它的橫軸表示選出的目標(biāo)客戶占所有客戶數(shù)的比例r%,縱軸表示選擇比例為r%時(shí)與之對(duì)應(yīng)的累計(jì)命中率。圖中的對(duì)角線僅表示在不同比例下隨機(jī)選取的目標(biāo)客戶對(duì)應(yīng)的累計(jì)命中率,并不涉及任何模型的使用。當(dāng)洛倫茲曲線越凸向左上角,即與對(duì)角線圍成的面積越大,則說明該模型的目標(biāo)客戶選擇性能越好。 4.4.1 模型的AUC值比較 圖3展示了本文提出的CSSE模型與其它六種模型在CoIL2000上的AUC值,其中橫坐標(biāo)表示U和L中的樣本比例從1∶1變化到5∶1。仔細(xì)分析圖3,我們可以得到以下結(jié)論: 圖3 七種模型在不同比例下的AUC值 (1)CSSE模型在五種不同比例下均具有最大的AUC值,因此,CSSE模型的整體目標(biāo)客戶選擇性能要優(yōu)于其他六種模型。六種對(duì)比模型均采用隨機(jī)向上抽樣的方法來平衡數(shù)據(jù)集類別分布,但它們的AUC值均低于CSSE模型,這說明與這六種模型相比,本文提出的代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型CSSE可以更有效地解決目標(biāo)客戶選擇數(shù)據(jù)集中存在的類別分布不平衡問題。AUC 值通常被用于評(píng)價(jià)模型在類別分布不平衡數(shù)據(jù)集上的總體分類性能,CSSE模型在該評(píng)價(jià)指標(biāo)上表現(xiàn)優(yōu)異,這也說明了和已有的模型相比,CSSE模型將CSL,SSL和RSS方法進(jìn)行融合確實(shí)具有更好的整體性能。 (2)在七種模型中,CSSE、DRSCO、CoBag、RASCO以及Semi-Bagging模型都屬于半監(jiān)督分類模型,而RSS和Bagging模型屬于監(jiān)督式分類模型。從圖中可以看出大多數(shù)半監(jiān)督分類模型如CSSE、DRSCO和CoBag的AUC值均大于兩種監(jiān)督式分類模型RSS和Bagging。然而,也有一些半監(jiān)督分類模型的目標(biāo)客戶選擇性能比較差,如RASCO模型和兩種監(jiān)督式分類模型的AUC值不相上下,而Semi-Bagging模型的AUC值更是低于兩種監(jiān)督式分類模型的AUC值。這表明,在多數(shù)情況下從大量無類別標(biāo)簽的數(shù)據(jù)集中選擇性標(biāo)記一部分樣本加入到訓(xùn)練集中,確實(shí)能夠提高目標(biāo)客戶選擇的性能。但是如果模型的選擇性標(biāo)記的機(jī)制不夠合理,導(dǎo)致大量被錯(cuò)誤標(biāo)記類別的樣本加入到訓(xùn)練集中,從而很難提高模型的性能,有時(shí)甚至?xí)p害模型的目標(biāo)客戶選擇性能; (3)隨著U和L中的樣本比例不斷增大,半監(jiān)督分類模型中的CSSE、DRSCO和CoBag的AUC值雖然存在較小波動(dòng),但總體上保持較高水平并優(yōu)于監(jiān)督式分類模型RSS和Bagging,因?yàn)楹竺鎯煞N模型的AUC值大體上呈現(xiàn)出逐漸減小的趨勢(shì)。特別地,本文提出的CSSE模型,當(dāng)U和L中的比例不斷增大時(shí),它的AUC值與監(jiān)督式分類模型的AUC值的差距在逐漸變大。這表明,當(dāng)數(shù)據(jù)集包含大量無類別標(biāo)簽的樣本時(shí),相比于傳統(tǒng)的監(jiān)督式分類模型,本文提出的半監(jiān)督分類模型CSSE更具優(yōu)勢(shì)。 4.4.2 模型的命中率比較 圖4給出了本文提出的CSSE模型和其他六種對(duì)比模型的命中率,其中,(a)~(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結(jié)果,同時(shí),在每個(gè)子圖中,我們還給出了目標(biāo)客戶選擇比例(r%)從10%增加到50%時(shí),各個(gè)模型的命中率比較。 根據(jù)圖4,我們可以得出以下結(jié)論: (1)當(dāng)U和L中的樣本比例從1∶1增加到5∶1時(shí),CSSE模型的命中率在各種不同的目標(biāo)客戶選擇比例時(shí)均大于其他模型,這說明CSSE模型的目標(biāo)客戶選擇性能是優(yōu)于對(duì)比模型的; (2)在每個(gè)子圖中,隨著目標(biāo)客戶選擇比例的增加,各個(gè)模型的命中率雖然存在一些波動(dòng),但是總體上均表現(xiàn)出逐漸下降的趨勢(shì)。分析其原因,可能是因?yàn)槲覀兪歉鶕?jù)每個(gè)模型預(yù)測(cè)得到的測(cè)試集中所有客戶做出響應(yīng)的概率從大到小進(jìn)行排序,最后選擇前面r%的客戶作為目標(biāo)客戶。因此,目標(biāo)客戶選擇比例越小,就越可能選中那些真正的響應(yīng)客戶,命中率自然相對(duì)就越高; (3)大多數(shù)半監(jiān)督式集成模型的命中率要高于2種監(jiān)督式集成模型,而且隨著U和L中的樣本比 圖4 七種模型命中率的比較 例增大,半監(jiān)督模型的命中率仍能保持在較高水平,而RSS和Bagging的命中率值則呈下降趨勢(shì),這說明當(dāng)數(shù)據(jù)集包含大量無類別標(biāo)簽的樣本時(shí),半監(jiān)督分類模型具有明顯優(yōu)勢(shì)。分析其原因,可能是因?yàn)楸O(jiān)督式模型只使用少量有類別標(biāo)簽的數(shù)據(jù)集L來建模,而半監(jiān)督分類模型則能夠同時(shí)使用L和大量無類別標(biāo)簽數(shù)據(jù)集U中的樣本來建模。 4.4.3 模型的提升圖比較分析 圖5展示了CSSE模型和其他六種模型的提升指數(shù),其中,(a)~(e)分別表示U和L中的樣本比例從1∶1變化到5∶1的結(jié)果。同時(shí),在每個(gè)子圖中,我們還給出了目標(biāo)客戶選擇比例(r%)從10%增加到100%時(shí),各個(gè)模型的提升指數(shù)的比較。 仔細(xì)分析圖5,我們能夠得出與4.4.2小節(jié)類似的結(jié)論: (1)當(dāng)U和L中的樣本比例從1∶1增加到5∶1時(shí),CSSE模型的提升指數(shù)在不同的目標(biāo)客戶選擇比例時(shí)均明顯大于其他模型的,這說明該模型具有最好的目標(biāo)客戶選擇性能; (2)在每個(gè)子圖中,隨著目標(biāo)客戶選擇比例的增加,各個(gè)模型的提升指數(shù)雖然存在一些波動(dòng),但是總體上均表現(xiàn)出逐漸下降的趨勢(shì); (3)大多數(shù)半監(jiān)督式集成模型的提升指數(shù)要高于2種監(jiān)督式集成模型,而且隨著U和L中的樣本比例增大,半監(jiān)督模型的優(yōu)勢(shì)更加明顯。 4.4.4 模型的洛倫茲曲線比較 由于篇幅所限,我們僅給出了U和L中的樣本的比例為5∶1時(shí)七種不同分類模型的洛倫茲曲線,見圖6。從圖中可以看出,當(dāng)目標(biāo)客戶選擇比例為10%、20%和30%時(shí),CSSE模型的洛倫茲曲線均在其他模型的曲線上方,此時(shí)CSSE模型的累計(jì)命中率明顯高于其他六種模型。在現(xiàn)實(shí)企業(yè)的目標(biāo)客戶選擇問題中,企業(yè)的潛在客戶通常很多,但由于營銷預(yù)算的限制,我們往往只能選擇排在前面的很小一部分的客戶作為目標(biāo)客戶,從而向他們郵寄宣傳資料,即目標(biāo)客戶選擇的比例通常比較小。因此,與其它模型相比,本文提出的CSSE模型可望在現(xiàn)實(shí)企業(yè)的目標(biāo)客戶選擇中取得更好的性能。 近年來,數(shù)據(jù)庫營銷成為客戶關(guān)系管理領(lǐng)域的研究熱點(diǎn)。而目標(biāo)客戶選擇是數(shù)據(jù)庫營銷的重中之重,它能幫助企業(yè)提高客戶響應(yīng)率,增強(qiáng)核心競(jìng)爭(zhēng)力,同時(shí)節(jié)約大量營銷成本。在現(xiàn)實(shí)的目標(biāo)客戶選擇建模中,往往只能獲取少量有類別標(biāo)簽的樣本,而剩下的大量樣本都無法獲取類別標(biāo)簽。已有研究大都使用監(jiān)督式建模研究范式,僅在少量有類別標(biāo)簽 圖5 七種模型的提升指數(shù)比較 圖6 七種模型的洛倫茲曲線比較 樣本集L上建模,很難取得令人滿意的效果。為解決這一問題,本文引入SSL技術(shù),將其與CSL和多分類器集成中的RSS方法相結(jié)合,提出了代價(jià)敏感的目標(biāo)客戶選擇半監(jiān)督集成模型CSSE。該模型使用代價(jià)敏感的SVM來解決目標(biāo)客戶選擇建模中樣本數(shù)據(jù)類別分布不平衡問題,還能夠同時(shí)使用有、無類別標(biāo)簽的客戶樣本來建模。進(jìn)一步地,該模型利用RSS方法訓(xùn)練一系列基本分類模型,并通過集成得到最終的分類結(jié)果。為了分析本文提出的CSSE模型在目標(biāo)客戶選擇方面的性能,本文在某保險(xiǎn)公司目標(biāo)客戶選擇數(shù)據(jù)集上進(jìn)行實(shí)證分析,同時(shí)將其與兩種監(jiān)督式集成模型、兩種單一的半監(jiān)督模型以及兩種半監(jiān)督集成模型相比較。我們選取AUC值、命中率、提升圖和洛倫茲曲線作為模型評(píng)價(jià)準(zhǔn)則。實(shí)驗(yàn)結(jié)果表明,CSSE模型具有更好的目標(biāo)客戶選擇性能。4 實(shí)證分析
4.1 數(shù)據(jù)集描述
4.2 實(shí)驗(yàn)設(shè)置
4.3 模型性能的評(píng)價(jià)準(zhǔn)則
4.4 模型性能比較分析
5 結(jié)語