閆 春,張馨予
(山東科技大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,山東 青島 266590)
客戶流失是指某公司現(xiàn)有的客戶,由于某些主觀或客觀因素,放棄消費(fèi)當(dāng)前公司的產(chǎn)品或服務(wù),轉(zhuǎn)而選擇消費(fèi)其他公司產(chǎn)品或服務(wù)的行為[1]。由于發(fā)展新客戶的成本要比發(fā)展老客戶高,各行各業(yè)對(duì)客戶流失控制問題高度重視。中國的壽險(xiǎn)行業(yè)雖起步較晚,但發(fā)展迅速。隨著市場競爭愈發(fā)激烈,客戶流失頻率較高,有必要深入開展客戶流失預(yù)測研究,為壽險(xiǎn)公司預(yù)防客戶流失、提升盈利能力提供決策依據(jù)。
目前,學(xué)者們對(duì)壽險(xiǎn)等行業(yè)客戶流失預(yù)測的研究有一定進(jìn)展,多采用單一模型進(jìn)行預(yù)測,如決策樹算法、BP神經(jīng)網(wǎng)絡(luò)、二元邏輯回歸模型等。Kisioglu等[2]通過貝葉斯信念網(wǎng)絡(luò)建模,識(shí)別出具有流失傾向的電信客戶行為。周曉瑋[3]將BP神經(jīng)網(wǎng)絡(luò)應(yīng)用到壽險(xiǎn)營銷預(yù)警中,并比較其與支持向量機(jī)(support vector machine,SVM)、決策樹算法的預(yù)測效果。Bi 等[4]將二元邏輯回歸運(yùn)用到電信客戶流失預(yù)測中。Günther等[5]將包含時(shí)間動(dòng)態(tài)解釋變量和相互作用的邏輯縱向回歸模型擬合到非壽險(xiǎn)數(shù)據(jù)中進(jìn)行建模。梁鋒[6]將壽險(xiǎn)公司的客戶數(shù)據(jù)生成庫,用IBM SPSS Modeler工具和決策樹算法建立預(yù)測模型。鄭宇晨等[7]將Logistic模型用于證券公司客戶流失預(yù)警分析。Amin等[8]提出一種基于粗糙集理論(rough set theory,RST)的規(guī)則智能決策技術(shù),用于提取與電信客戶狀態(tài)相關(guān)的重要決策規(guī)則。馮鑫等[9]以在線評(píng)論信息為基礎(chǔ),將情感因素引入BP神經(jīng)網(wǎng)絡(luò),進(jìn)行移動(dòng)網(wǎng)絡(luò)虛擬運(yùn)營商的客戶流失預(yù)測。張利利等[10]使用決策樹方法進(jìn)行航空客戶流失預(yù)測,并通過K-mans算法進(jìn)行客戶價(jià)值衡量。
20世紀(jì)50年代中期,基于客戶實(shí)際需求不一、資源效益最大化需求,溫德爾[11]最早提出客戶細(xì)分的概念,指企業(yè)在特定市場和業(yè)務(wù)模式下,根據(jù)屬性、行為、需求、偏好和價(jià)值等因素對(duì)客戶進(jìn)行分類。目前主要從市場需求、企業(yè)運(yùn)營的相關(guān)條件和客戶自身綜合屬性等幾方面進(jìn)行分類[12]。
綜合考慮已有的客戶細(xì)分標(biāo)準(zhǔn),為了更精準(zhǔn)、科學(xué)、立體地刻畫客戶行為動(dòng)態(tài),更好地進(jìn)行客戶細(xì)分和流失預(yù)測,本研究從外在、內(nèi)在以及行為(external,intrinsic,behavior,EIB)三方面屬性出發(fā)構(gòu)建壽險(xiǎn)客戶指標(biāo)體系。另外,考慮到傳統(tǒng)的K-means算法[13]在處理大數(shù)據(jù)集時(shí),雖有較好的可伸縮性,但也存在初始聚類數(shù)不確定以及對(duì)離群點(diǎn)敏感的缺陷,提出改進(jìn)的K-means算法,將改進(jìn)的輪廓系數(shù)公式作為選取初始聚類數(shù)目的依據(jù),并綜合考慮歐式距離相似度的距離測度優(yōu)勢與余弦相似度的方向測度優(yōu)勢,在聚類迭代中進(jìn)行局部、全局離群點(diǎn)的過濾,盡可能降低可視化噪聲、減小簇內(nèi)誤方差。使用改進(jìn)后的K-means算法劃分出不同流失風(fēng)險(xiǎn)的客戶群,針對(duì)不同群體制定個(gè)性化挽留思路。吸取BP神經(jīng)網(wǎng)絡(luò)算法非線性擬合能力強(qiáng)與Adaboost算法可有效提升模型泛化能力的優(yōu)點(diǎn),提出使用融合的BP-Adaboost算法構(gòu)建壽險(xiǎn)客戶流失強(qiáng)預(yù)測器,并綜合比較細(xì)分前后、K-means算法改進(jìn)前后以及單個(gè)預(yù)測器與融合預(yù)測器的效果。
由于客戶細(xì)分的標(biāo)準(zhǔn)尚未統(tǒng)一,本研究根據(jù)壽險(xiǎn)行業(yè)的特點(diǎn),提出客戶EIB屬性(如表1),并以此為依據(jù)進(jìn)行壽險(xiǎn)客戶指標(biāo)體系設(shè)計(jì),以便高效地進(jìn)行客戶細(xì)分與流失預(yù)測建模。
表1 客戶的EIB屬性Tab. 1 EIB attributes of customers
我國現(xiàn)行《保險(xiǎn)法》第五十三條規(guī)定“投保人對(duì)本人、近親屬以及其他同意與投保人訂立合同的被保險(xiǎn)人均有保險(xiǎn)利益”,這說明投保人與被保險(xiǎn)人之間存在一對(duì)多的現(xiàn)象,且在實(shí)際情況中,這種一對(duì)多的現(xiàn)象,造成了客戶關(guān)系的復(fù)雜性。因此需要根據(jù)“客戶關(guān)系-投保人-被保險(xiǎn)人”的對(duì)應(yīng)關(guān)系,依據(jù)EIB屬性,綜合考察客戶自身價(jià)值觀念、生活水平以及客戶和壽險(xiǎn)公司的業(yè)務(wù)交易信息等,建立壽險(xiǎn)客戶指標(biāo)體系,如表2所示。
表2 基于EIB屬性的壽險(xiǎn)客戶指標(biāo)體系Tab. 2 Index system of life insurance customers based on EIB attribute
傳統(tǒng)K-means算法主要基于歐式距離測度以及最小化平方誤差和準(zhǔn)則,其步驟如下:
2) 類劃分。將N個(gè)樣本按照與k個(gè)聚類中心的歐式距離遠(yuǎn)近,分別分配給距離最近的聚類中心,形成k個(gè)簇C=(C1,C2,…,Ck)。
3) 類中心點(diǎn)求解。計(jì)算k個(gè)簇中心點(diǎn)的平均值作為新的聚類中心。
(1)
(2)
5) 重復(fù)步驟2)和3),直到每個(gè)類的個(gè)體不再變化,得到所有類別的最終聚類中心及其包括的個(gè)體。
本研究主要從選取初始聚類簇?cái)?shù)和改進(jìn)迭代規(guī)則兩個(gè)方面,對(duì)K-Means算法進(jìn)行改進(jìn)。
1)初始聚類簇?cái)?shù)選取的改進(jìn)
傳統(tǒng)K-means算法通常按照初始聚類中心來設(shè)置初始聚類簇?cái)?shù)k,繼而進(jìn)行類劃分和中心點(diǎn)求解的迭代,因此初始值的選取十分重要。若選取不當(dāng),會(huì)使得聚類效果較差。Peter在1986年提出輪廓系數(shù)
(3)
來評(píng)價(jià)聚類效果的好壞[14]。其中:q(i)表示點(diǎn)i到所屬類中其他點(diǎn)的平均距離,主要反映內(nèi)聚度;p(i)表示點(diǎn)i到非所屬類中所有點(diǎn)平均距離的最小值,主要反映分離度。輪廓系數(shù)結(jié)合了內(nèi)聚度、分離度兩種因素,通常數(shù)值越大,聚類效果越好。針對(duì)傳統(tǒng)的輪廓系數(shù)未考慮對(duì)內(nèi)聚度有潛在影響的類內(nèi)最小距離和對(duì)分散度有潛在影響的類間平均距離最大值的問題,引入點(diǎn)i到所屬類中其他點(diǎn)的最小距離s(i)和點(diǎn)i到非所屬類中所有點(diǎn)平均距離的最大值r(i),提出改進(jìn)后的輪廓系數(shù)公式:
(4)
式(4)反映了各因素之間更全面的制約關(guān)系。進(jìn)而得到N個(gè)樣本點(diǎn)輪廓系數(shù)的平均值
(5)
2) 迭代規(guī)則的改進(jìn)
傳統(tǒng)的K-means算法在迭代過程中未考慮全局、局部離群點(diǎn)對(duì)平均值計(jì)算的影響。當(dāng)離群點(diǎn)被分配到某簇中,可能會(huì)嚴(yán)重影響該簇類的均值,從而使聚類中心有較大誤差,影響最終聚類結(jié)果。以往對(duì)于K-means算法的離群點(diǎn)監(jiān)測方法常?;卩徑然蛎芏萚15],但這兩種方法難以處理大數(shù)據(jù)集,且對(duì)參數(shù)選擇高度敏感。因此,本研究提出一種基于相似度的離群點(diǎn)監(jiān)測方法,根據(jù)改進(jìn)的相似度公式設(shè)置迭代中的離群點(diǎn)過濾規(guī)則。
(6)
(7)
(8)
鑒于兩種測度方法優(yōu)勢互補(bǔ),提出改進(jìn)的相似度計(jì)算公式:
(9)
由式(9)可見,改進(jìn)的相似度綜合考慮了歐式距離相似度、余弦相似度,且存在上限。參與聚類迭代的向量與當(dāng)前簇中心向量的相似度越小,說明其越偏離當(dāng)前簇類。當(dāng)?shù)陀谀硞€(gè)閾值P1時(shí),可將其對(duì)應(yīng)的歐式空間樣本點(diǎn)視為局部離群點(diǎn)并進(jìn)行過濾;與所有簇中心的均值向量的相似度越小,說明其越偏離整體,當(dāng)?shù)陀谀硞€(gè)閾值P2時(shí),可將其對(duì)應(yīng)的歐式空間樣本點(diǎn)視為全局離群點(diǎn)并進(jìn)行過濾。P1和P2為離群點(diǎn)監(jiān)測的閾值參數(shù),在實(shí)際中,可通過多次實(shí)驗(yàn),選取最合適的參數(shù)值。具體過濾規(guī)則如下:
BP神經(jīng)網(wǎng)絡(luò)[17]有較強(qiáng)的非線性擬合能力,理論上能夠擬合任意非線性函數(shù),但存在收斂速度慢、泛化能力弱等缺點(diǎn)。而Adaboost算法[18]能夠在迭代中降低誤差,提高模型的泛化能力。本研究將兩者結(jié)合,得到BP-Adaboost算法[19]來降低原始BP算法的預(yù)測誤差,其詳細(xì)步驟如下。
1) 選擇數(shù)據(jù)并進(jìn)行網(wǎng)絡(luò)初始化。隨機(jī)抽取m組訓(xùn)練數(shù)據(jù){x1,x2,…,xm},初始化權(quán)重
(10)
2) 將訓(xùn)練數(shù)據(jù)用BP神經(jīng)網(wǎng)絡(luò)弱預(yù)測器進(jìn)行預(yù)測。當(dāng)訓(xùn)練到第t個(gè)弱預(yù)測器時(shí),獲得弱預(yù)測序列ft的預(yù)測誤差和
(11)
其中y為期望輸出。
3) 計(jì)算預(yù)測序列的權(quán)重。依據(jù)εt計(jì)算弱預(yù)測器的權(quán)重
(12)
4) 調(diào)整測試數(shù)據(jù)的權(quán)重。依據(jù)預(yù)測序列的權(quán)重αt調(diào)整新訓(xùn)練的樣本權(quán)重
(13)
其中,Zt稱作歸一化因子,主要作用是當(dāng)權(quán)重比例不變時(shí),使其分布之和等于1。
5) 輸出強(qiáng)預(yù)測器函數(shù)。迭代T次后,得到T組弱預(yù)測器函數(shù)g(ft,αt)合成的強(qiáng)預(yù)測器函數(shù)
(14)
實(shí)驗(yàn)數(shù)據(jù)來源于某國內(nèi)保險(xiǎn)公司網(wǎng)站(http://www.chinalife.com.cn/)2018年1月1日—2019年12月31日的壽險(xiǎn)客戶調(diào)查公報(bào)及其交易信息,實(shí)驗(yàn)軟件為MATLAB R2014a。
依據(jù)客戶的EIB指標(biāo)體系提取數(shù)據(jù)信息,歸一化處理后,將客戶調(diào)查公報(bào)中各指標(biāo)出現(xiàn)的頻次與全部指標(biāo)出現(xiàn)的頻次之比作為重要度權(quán)值,對(duì)指標(biāo)進(jìn)行加權(quán)量化處理,最終得到2 000條壽險(xiǎn)客戶樣本,部分?jǐn)?shù)據(jù)如表3所示。
表3 部分處理后的壽險(xiǎn)客戶樣本Tab. 3 Part of life insurance customer samples after processing
1) 輪廓系數(shù)改進(jìn)前后的實(shí)驗(yàn)結(jié)果對(duì)比
為了獲得最佳初始聚類簇?cái)?shù)目,選取不同的k值,對(duì)歸一化處理后的樣本進(jìn)行K-means聚類,并統(tǒng)計(jì)改進(jìn)前后的輪廓系數(shù)均值,如圖1所示。
圖1 改進(jìn)前后的輪廓系數(shù)均值對(duì)比Fig. 1 Comparison of mean contour coefficients before and after improvement
由圖1可見,在改進(jìn)后的輪廓系數(shù)均值中,不同初始聚類簇?cái)?shù)k下的系數(shù)變化幅度較改進(jìn)前明顯增大,表明改進(jìn)后的輪廓系數(shù)均值能更全面地衡量聚類的內(nèi)聚度和分離度,對(duì)于篩選合適的聚類數(shù)目更具區(qū)分度。在兩種輪廓系數(shù)中,對(duì)應(yīng)最大系數(shù)的k值均為3,故選取k=3作為初始聚類簇?cái)?shù)。
取k值分別為3和4進(jìn)行輪廓系數(shù)分布的可視化展示,如圖2所示。
圖2 改進(jìn)前后的輪廓系數(shù)分布圖對(duì)比Fig. 2 Comparison of contour coefficient distributions before and after improvement
由圖2可知,k=3時(shí)輪廓系數(shù)為負(fù)的樣本點(diǎn)更少,且總體輪廓系數(shù)更大,進(jìn)一步這說明k=3作為初始聚類簇?cái)?shù)的優(yōu)越性;與改進(jìn)前相比,改進(jìn)后的輪廓系數(shù)為負(fù)的樣本點(diǎn)明顯減少(k=3時(shí)幾乎為0),且總體輪廓系數(shù)明顯增大。
2) 改進(jìn)迭代規(guī)則的K-means算法結(jié)果分析
圖3 K-means算法的聚類結(jié)果可視化(+客戶群Ⅰ,○客戶群Ⅱ,*客戶群Ⅲ)Fig. 3 Visualization of clustering results of K-means algorithm(+Customer base Ⅰ,○Customer baseⅡ,*Customer baseⅢ)
使用改進(jìn)迭代規(guī)則的K-means算法進(jìn)行聚類,在實(shí)驗(yàn)過程中,固定閾值P2=0.005,以0.03為起點(diǎn)、0.03為步長將P1逐步增加到0.18。將三維指標(biāo)集{信用評(píng)級(jí),繳費(fèi)數(shù)量,所購險(xiǎn)種}用于改進(jìn)K-means算法的可視化展示,如圖4所示。
圖4 不同閾值下的改進(jìn)K-Means算法聚類結(jié)果可視化(+客戶群Ⅰ,○客戶群Ⅱ,*客戶群Ⅲ)Fig. 4 Visualization of clustering results of improved K-means algorithm under different thresholds(+Customer base Ⅰ,○Customer baseⅡ,*Customer baseⅢ)
由圖4可知,閾值P1≤0.09,尤其是P1=0.06時(shí),可視化噪聲明顯較改進(jìn)前的圖2有所減?。坏玃1>0.09,尤其是P1=0.15時(shí),可視化噪聲較大。
使用最終的簇內(nèi)誤方差(sum of the squared error,SSE)作為評(píng)價(jià)改進(jìn)的K-means算法聚類結(jié)果好壞的指標(biāo),統(tǒng)計(jì)閾值P1在0.03~0.18范圍內(nèi)的最終簇內(nèi)誤方差,結(jié)果如圖5所示。由圖5可見,當(dāng)閾值P1=0.06時(shí)獲得較低的簇內(nèi)誤方差,而P1=0.12、0.15時(shí)的簇內(nèi)誤方差較大,甚至與改進(jìn)前持平。
圖5 不同閾值下改進(jìn)K-means算法的SSEFig. 5 SSE of improved K-means algorithm under different thresholds
這說明閾值P1≤0.09時(shí),改進(jìn)的K-means算法能合理過濾局部和全局離群點(diǎn),有效提升聚類效果。分別將P1為0.03、0.06、0.09時(shí)的最終聚類中心以及對(duì)應(yīng)的細(xì)分客戶群體進(jìn)行匯總,并與改進(jìn)前的結(jié)果作比較,如表4所示。
由表4可知,在不同閾值下的改進(jìn)K-means算法中,最終聚類中心、對(duì)應(yīng)客戶數(shù)量在不同客戶類別中的差距較改進(jìn)前均有明顯增大,其中最終聚類中心的變化主要表現(xiàn)在指標(biāo)集{性別,年齡,職業(yè)危險(xiǎn)級(jí)別,學(xué)歷級(jí)別,婚姻狀況,信用評(píng)級(jí),繳費(fèi)數(shù)量,所購險(xiǎn)種,購買主導(dǎo)動(dòng)機(jī)}中,這主要體現(xiàn)了局部離群點(diǎn)過濾的作用;改進(jìn)K-means算法后的客戶數(shù)量總和均不足2 000,體現(xiàn)了全局離群點(diǎn)過濾的作用。
表4 改進(jìn)K-means算法前后的最終聚類結(jié)果對(duì)比Tab. 4 Comparison of final clustering results before and after the improvement of K-means algorithm
考慮到“信用評(píng)級(jí)”指標(biāo)在聚類可視化結(jié)果中展示出良好的區(qū)分度且與客戶消費(fèi)行為密切關(guān)聯(lián),故將其用于客戶相對(duì)流失風(fēng)險(xiǎn)識(shí)別。“信用評(píng)級(jí)”的高低與流失風(fēng)險(xiǎn)水平呈負(fù)相關(guān),因此得到不同風(fēng)險(xiǎn)客戶細(xì)分{I=“高流失風(fēng)險(xiǎn)客戶群”,II=“中流失風(fēng)險(xiǎn)客戶群”,III=“低流失風(fēng)險(xiǎn)客戶群”},其所含客戶數(shù)量按高、中、低流失風(fēng)險(xiǎn)客戶群依次減少。
低流失風(fēng)險(xiǎn)客戶群所含客戶數(shù)量最多,對(duì)應(yīng)聚類中心的年齡最大、職業(yè)危險(xiǎn)級(jí)別最高、學(xué)歷最高、婚姻狀況傾向于“已婚”、購買主導(dǎo)動(dòng)機(jī)傾向于“實(shí)際需要”、繳費(fèi)數(shù)量適中,反映了該群體對(duì)保險(xiǎn)的需求心理、理性思維方式和一定的經(jīng)濟(jì)實(shí)力。這類客戶在購買壽險(xiǎn)產(chǎn)品時(shí),多考慮自身或家庭成員的需要,因此不易流失,能給公司帶來長期的穩(wěn)定利潤。
高流失風(fēng)險(xiǎn)客戶群所含客戶數(shù)量最少,對(duì)應(yīng)聚類中心的年齡最小、職業(yè)危險(xiǎn)級(jí)別最低、學(xué)歷最低、婚姻狀況傾向于“未婚”、購買主導(dǎo)動(dòng)機(jī)傾向于“礙于面子”、繳費(fèi)數(shù)量相對(duì)較高。該類客戶在購買保險(xiǎn)產(chǎn)品時(shí),缺乏理性購買動(dòng)機(jī),容易跟風(fēng)購買一些價(jià)格相對(duì)較高的壽險(xiǎn)產(chǎn)品。雖然該群體有一定購買力,但存在較大的流失風(fēng)險(xiǎn)。
中流失風(fēng)險(xiǎn)客戶群所含客戶數(shù)量適中,對(duì)應(yīng)聚類中心的年齡適中、職業(yè)危險(xiǎn)級(jí)別適中、學(xué)歷適中、繳費(fèi)數(shù)量相對(duì)較低。這一類客戶對(duì)壽險(xiǎn)產(chǎn)品有一定的需求,購買主導(dǎo)動(dòng)機(jī)多樣化,能給公司帶來為數(shù)不多但較為穩(wěn)定的利潤,流失的風(fēng)險(xiǎn)性介于上述兩種群體之間。
為進(jìn)一步證明改進(jìn)K-means算法的優(yōu)越性并展開壽險(xiǎn)客戶流失預(yù)測研究,統(tǒng)計(jì)改進(jìn)前后K-means算法的客戶細(xì)分結(jié)果,分別運(yùn)用BP弱預(yù)測器、BP-Adaboost強(qiáng)預(yù)測器對(duì)不同客戶群體進(jìn)行流失預(yù)測建模,并綜合比較其預(yù)測誤差。
1) 基于二分類的壽險(xiǎn)客戶狀態(tài)觀測
壽險(xiǎn)客戶在觀測期內(nèi)的狀態(tài)有兩種,用二分類集合{流失,未流失}來表示。本研究從反映客戶與公司業(yè)務(wù)往來的屬性B中選取合適的規(guī)則,作為判斷客戶流失與否的標(biāo)志。如表2所示,屬性B對(duì)應(yīng)的4個(gè)指標(biāo)中,繳費(fèi)數(shù)量、繳費(fèi)方式和繳費(fèi)次數(shù)存在數(shù)值關(guān)系。令二分類變量為Y,設(shè)置客戶狀態(tài)的觀測方法如下:
對(duì)于一次性繳清所有保費(fèi)的躉繳客戶,其狀態(tài)容易觀測。將含有“退?!焙汀蔼q豫期退?!弊謽有畔⒌目蛻糇R(shí)別為流失客戶(Y=1),其余識(shí)別為未流失客戶(Y=0)。
2) BP算法與BP-Adaboost算法實(shí)驗(yàn)結(jié)果對(duì)比
將BP神經(jīng)網(wǎng)絡(luò)設(shè)置為3層:輸入層為{性別,年齡,職業(yè)危險(xiǎn)級(jí)別,家庭收入等級(jí),學(xué)歷級(jí)別,婚姻狀況,購買主導(dǎo)動(dòng)機(jī),信用評(píng)級(jí),繳費(fèi)數(shù)量,所購險(xiǎn)種};輸出層為客戶狀態(tài)集Y={0,1};隱藏層神經(jīng)元數(shù)量的設(shè)置采用試湊法,即首先選取較少隱含層神經(jīng)元訓(xùn)練BP網(wǎng)絡(luò),觀測預(yù)測精度或誤差,隨后增加隱含層神經(jīng)元數(shù)量,直到預(yù)測精度不再增加為止,最終確定網(wǎng)絡(luò)各層神經(jīng)元數(shù)量依次為10、5、1。
根據(jù)預(yù)測結(jié)果調(diào)整樣本權(quán)重,把預(yù)測誤差大于0.1的測試樣本作為應(yīng)該加強(qiáng)學(xué)習(xí)的樣本訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)弱預(yù)測器,最終獲得由10組弱預(yù)測器生成的BP-Adaboost強(qiáng)預(yù)測器。以P1=0.06時(shí)改進(jìn)K-means算法細(xì)分的低流失風(fēng)險(xiǎn)客戶群為例,在1 143條樣本中,隨機(jī)選擇943條作為訓(xùn)練樣本、200條作為測試樣本進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)數(shù)據(jù)的誤差均方曲線見圖6。
圖6 誤差均方曲線Fig. 6 Curve of mean squared errors
由圖6可見,誤差均方曲線逐漸收斂,在第17步達(dá)到最好的測試效果0.065 281,之后逐漸趨向于平緩,誤差值幾乎不變化,效果較好。
圖7為10組BP神經(jīng)網(wǎng)絡(luò)弱預(yù)測器的平均誤差絕對(duì)值和對(duì)應(yīng)BP-Adaboost強(qiáng)預(yù)測器的誤差絕對(duì)值??梢钥闯觯诩?xì)分客戶樣本的預(yù)測誤差值中,除極個(gè)別樣本的強(qiáng)預(yù)測器預(yù)測誤差高于弱預(yù)測器以外,總體上,用Adaboost調(diào)整后得到的強(qiáng)預(yù)測器預(yù)測的誤差絕對(duì)值要普遍小于弱預(yù)測器。在200個(gè)預(yù)測樣本中,傳統(tǒng)BP網(wǎng)絡(luò)算法的測試誤差絕對(duì)值區(qū)間為[0, 0.2],樣本點(diǎn)的誤差絕對(duì)值有不少超出0.1;BP-Adaboost算法的測試誤差的絕對(duì)值區(qū)間絕大多數(shù)都在[0, 0.1]之間,樣本點(diǎn)的誤差絕對(duì)值幾乎都接近0。模型的擬合效果顯示,強(qiáng)預(yù)測器預(yù)測的訓(xùn)練集R=0.952 97、驗(yàn)證集R=0.940 35、測試集R=0.961 06、總體R=0.952 51,說明模型的擬合結(jié)果較好。
圖7 預(yù)測誤差的絕對(duì)值Fig. 7 Absolute values of prediction error
3) 全部實(shí)驗(yàn)結(jié)果對(duì)比
對(duì)于每次實(shí)驗(yàn),將預(yù)測誤差絕對(duì)值超過0.2的樣本點(diǎn)剔除,計(jì)算剩余樣本點(diǎn)的預(yù)測誤差平均值。匯總?cè)繉?shí)驗(yàn)結(jié)果如圖8所示。
圖8 改進(jìn)K-means算法前后的平均預(yù)測誤差對(duì)比Fig. 8 Comparison of average prediction errors before and after the improvement of K-means algorithm
由圖8可見:BP-Adaboost算法的預(yù)測誤差較傳統(tǒng)的BP算法小,說明Adaboost在迭代中對(duì)BP算法進(jìn)行了有效提升;細(xì)分前客戶樣本的預(yù)測誤差要明顯大于細(xì)分后,說明客戶細(xì)分對(duì)于提高客戶流失預(yù)測的精度有一定作用;改進(jìn)的K-means算法細(xì)分的客戶群與傳統(tǒng)的K-means算法相比,在后續(xù)的流失預(yù)測中,預(yù)測誤差幾乎全部變小,進(jìn)一步證明改進(jìn)的K-means算法實(shí)現(xiàn)的客戶細(xì)分結(jié)果更為精準(zhǔn),且對(duì)后續(xù)客戶流失預(yù)測的精度提升有明顯作用。
壽險(xiǎn)公司在實(shí)際的營銷過程中,客戶細(xì)分對(duì)于客戶流失預(yù)測有重要意義??蛻舻耐炝艄芾碛兄诠窘?jīng)濟(jì)效益的提升。公司要充分利用已有客戶信息,挖掘并掌握不同客戶群體的特征,采取不同的措施對(duì)不同的客戶群體制定個(gè)性化服務(wù)。以本文的實(shí)驗(yàn)結(jié)果為例,對(duì)不同流失風(fēng)險(xiǎn)的客戶群提出建議如下。
1)低流失風(fēng)險(xiǎn)客戶群。這類客戶的年齡相對(duì)較大、職業(yè)危險(xiǎn)性相對(duì)較高,在購買保險(xiǎn)產(chǎn)品時(shí)傾向于理性和滿足實(shí)際需求,且有充足的資金支持續(xù)保。這類客戶是當(dāng)今壽險(xiǎn)市場的主流客戶,且客戶數(shù)量龐大,能為公司帶來長期穩(wěn)定的利潤。公司應(yīng)當(dāng)對(duì)這類群體給予高度重視,并根據(jù)每一位客戶在時(shí)間、空間上的需求變化,盡可能地為其量身定制更適合的壽險(xiǎn)服務(wù),使這類客戶更加忠誠地續(xù)保。
2)高流失風(fēng)險(xiǎn)客戶群。這類客戶的年齡相對(duì)較小、職業(yè)危險(xiǎn)性相對(duì)較低,在購買保險(xiǎn)產(chǎn)品時(shí)缺乏理性考慮,容易受保險(xiǎn)推銷員或周圍朋友的影響購買一些用處不大卻價(jià)格昂貴的壽險(xiǎn)產(chǎn)品,給公司帶來的利潤雖多,但較不穩(wěn)定。這類客戶有一定購買力,但對(duì)壽險(xiǎn)產(chǎn)品的熱衷程度還不夠。公司可以舉辦一些形式豐富的活動(dòng),來提高其對(duì)壽險(xiǎn)產(chǎn)品的購買欲望,培養(yǎng)其與公司的感情。例如:定期對(duì)客戶進(jìn)行回訪詢問,節(jié)假日舉辦一些促銷活動(dòng),以抽簽方式贈(zèng)送小禮品,等等。通過公司服務(wù)水平的提升,客戶的忠誠度、滿意度也會(huì)隨之上升,流失風(fēng)險(xiǎn)隨之降低。
3)中流失風(fēng)險(xiǎn)客戶群。這類客戶的年齡、職業(yè)危險(xiǎn)級(jí)別、學(xué)歷處于中等水平,對(duì)壽險(xiǎn)產(chǎn)品有一定的需求,繳費(fèi)數(shù)量較低但相對(duì)穩(wěn)定。作為壽險(xiǎn)公司的營銷對(duì)象,有一定的發(fā)展?jié)摿?。因此,可以綜合高、低流失客戶群體的措施進(jìn)行客戶挽留管理。公司在為其進(jìn)行節(jié)假日促銷活動(dòng)的同時(shí),還可以挑選一些幸運(yùn)客戶,同低流失風(fēng)險(xiǎn)群體共同參與量身定制產(chǎn)品活動(dòng),或者開展價(jià)格相對(duì)高的壽險(xiǎn)產(chǎn)品的首單優(yōu)惠活動(dòng),激發(fā)此類客戶對(duì)該類產(chǎn)品的購買欲望,提高公司的盈利水平。
針對(duì)壽險(xiǎn)行業(yè)的客戶流失問題,構(gòu)建了基于EIB屬性的壽險(xiǎn)客戶指標(biāo)體系。在K-means算法的改進(jìn)中,使用改進(jìn)后的輪廓系數(shù)確定初始聚類中心,并綜合歐式距離相似度與余弦相似度的測度優(yōu)勢,在類劃分中進(jìn)行局部、全局離群點(diǎn)的過濾。使用改進(jìn)前后的K-means算法分別進(jìn)行客戶細(xì)分,利用BP算法、BP-Adaboost算法對(duì)細(xì)分后的客戶建立流失預(yù)測模型。算例實(shí)證結(jié)果表明改進(jìn)后K-means算法的簇內(nèi)誤方差變小,最終聚類中心和客戶數(shù)量在不同類別中的差距增大、可視化噪聲降低,且基于改進(jìn)K-means算法客戶細(xì)分的流失預(yù)測誤差較改進(jìn)前有明顯降低。本算法不僅為壽險(xiǎn)公司的客戶流失風(fēng)險(xiǎn)預(yù)警及挽留管理提供參考,也為壽險(xiǎn)及相關(guān)行業(yè)的客戶流失預(yù)測研究給供借鑒。本研究從“客戶流失風(fēng)險(xiǎn)”角度出發(fā),在特定的時(shí)間、空間范圍內(nèi)開展客戶細(xì)分和流失預(yù)測建模,可以視為對(duì)客戶畫像的局部研究。未來可綜合考慮客戶各項(xiàng)指標(biāo)在時(shí)間、空間上的變化,開展更全面的研究。