張馨予 門玉杰 孫曉紅
摘 要:為了幫助壽險行業(yè)從海量業(yè)務交易中提取有效客戶信息并進行客戶保留,本文首先用K-Means算法進行壽險客戶的價值細分,初步判斷哪類客戶最有可能流失,并針對不同價值群體的客戶給予公司不同的建議;其次對細分后的客戶群體建立Logistic二分類回歸預測模型,比較與細分前的預測精度差異。實驗結(jié)果中,細分后客戶群對應Logistic模型的準確率、召回率和F1值較細分前均有提升,這說明客戶細分能為其流失預測提供有價值的信息,有助于壽險公司盈利水平的提高。
關(guān)鍵詞:壽險客戶流失? 客戶細分? K-Means算法? Logistic模型
中圖分類號:F840.62 文獻標識碼:A 文章編號:2096-0298(2020)09(a)--03
客戶流失是指公司現(xiàn)存客戶停止與當前公司的業(yè)務交易,轉(zhuǎn)而與該公司的競爭對手進行業(yè)務交易[1],它是引發(fā)公司經(jīng)濟不景氣的潛在不利因素。壽險客戶為非合約客戶,相關(guān)性較弱且流動率較高,因此客戶保留工作不容小覷。
國內(nèi)針對壽險行業(yè)的客戶流失預測研究起步較晚、成果較少。2008年,孫紅等建立壽險客戶流失的價值指標體系,用決策樹算法輸出各項指標對決策的影響[2]。2013年,周曉瑋構(gòu)建壽險預警指標,使用BP神經(jīng)網(wǎng)絡建立流失預測模型[3]。2015年,梁鋒將數(shù)據(jù)挖掘技術(shù)應用到壽險行業(yè)中,利用決策樹算法建立預測模型[4]。20世紀50年代中期,溫德爾提出“客戶細分”的概念,旨在從龐大的客戶信息中獲取少量精準信息進行客戶分類,方便公司進行營銷管理,實現(xiàn)經(jīng)濟效益最大化??紤]到在壽險行業(yè)中,甚少有學者采用對客戶進行先細分后流失預測的建模方法。本文首先用K-Means聚類算法對壽險客戶進行價值細分,獲得不同價值類別的客戶;其次建立Logistic二分類模型進行客戶流失預測,并比較細分前、細分后的預測效果。本文提出的方法,可以幫助壽險公司從宏觀上預測客戶流失的人數(shù),從微觀上判斷客戶的狀態(tài),為壽險行業(yè)的客戶保留提供可行建議。
1 壽險客戶價值指標體系
實驗數(shù)據(jù)為某壽險公司網(wǎng)站(http://www.chinalife.com.cn/)2016年1月1日—2018年12月31日的交易數(shù)據(jù)。觀察到原始數(shù)據(jù)的交叉性較強:若一位投保人同時為多位被保險人支付保險訂單,且其中的一位被保險人退保,其他幾位未退保,此時已發(fā)生客戶流失現(xiàn)象。因此有必要尋找對應關(guān)系(投保人—被保險人—客戶),整理得到壽險客戶價值指標體系,如表1所示。
2 壽險客戶細分
將處理后的2000條壽險客戶數(shù)據(jù)導入SPSS20.0中進行K-Means聚類分析,最終聚類結(jié)果如表2所示。
通常,在壽險客戶與公司的業(yè)務交易中,若客戶的信用水平越高、對應繳費金額越大,說明該客戶的經(jīng)濟水平以及對產(chǎn)品的熱衷度越高,發(fā)生流失現(xiàn)象的可能性越小。由表2觀察到,III客戶群的繳費金額最大、信用水平最高,由此識別為高價值群體;II客戶群的信用水平一般,且繳費金額最小,由此識別為低價值群體;I客戶群的繳費金額介于II客戶群和III客戶群之間,由此識別為中價值群體。最終得到價值排序:III>I>II。統(tǒng)計各類客戶的人數(shù)以及所占百分比,發(fā)現(xiàn)高價值客戶僅占總數(shù)的4.7%,低價值客戶占總數(shù)最多,為77.3%,差異較大。
3 基于Logistic模型的壽險客戶流失預測
3.1 Logistic二分類回歸預測
將原始數(shù)據(jù)中含“退?!弊謽拥目蛻糇R別為流失(Y=1),其他為未流失(Y=0),進行Logistic二分類回歸預測,并以細分前客戶的實驗過程為例進行展示。選取訓練數(shù)據(jù)1000條,測試數(shù)據(jù)700條。
將7個壽險客戶價值指標全部用來擬合Logistic模型,篩選出P值小于0.5的壽險客戶價值指標{年齡、職業(yè)、收入、信用、動機},并作為自變量重新擬合Logistic模型,得到訓練集的預測結(jié)果,如表3所示。
表3說明,使用該Logistic回歸方程對樣本點進行分類,其總計預測精確度為96.4%;實際未流失的911位客戶中有903位被預測出來,有8個發(fā)生誤判現(xiàn)象,正確率達到99.1%。這表明該模型在預測實際未流失人數(shù)上精度較高,但實際流失人數(shù)的預測精度僅為68.5%,有待提升。
從表4可以看出,年齡的偏回歸系數(shù)為負數(shù)且絕對值最大,這說明其與客戶流失的負相關(guān)性很強,年齡越大,客戶越不易流失。動機的偏回歸系數(shù)為正數(shù)且絕對值較大,說明其與客戶流失的正相關(guān)性較強:動機越傾向于按需購買,客戶狀態(tài)越穩(wěn)定。
動機的OR值最大(為1.920),說明它是影響客戶流失的主要危險因素;收入與職業(yè)的OR值(分別為1.397和1.341)也均大于1,也是影響客戶流失的重要危險因素。而年齡和信用的OR值均小于1,是保護因素。由Logistic模型原理[5]和表4中的Exp (B)一列可得式(1)。其中變量X1~X5分別表示“年齡”“職業(yè)”“收入”“信用”和“動機”。
Logistic二分類模型的概率形式如式(2)、式(3)所示。
將700條測試數(shù)據(jù)帶入式(2)、式(3)檢驗,得到預測結(jié)果如表5所示。
從表5可以看出,使用建立的Logistic模型預測訓練樣本外的客戶狀態(tài),其預測精度高達98.1%,較之前的96.4%有明顯提升。實際未流失的639位客戶有634位得到了正確的預測,有5位錯判,預測精度達到99.2%;對于實際流失的61位客戶,有53位得到了正確的預測,預測精度高達86.9%,相比之前訓練集的預測精度68.5%得到顯著提高,這表明該模型有較好的泛化能力。
3.2 實驗結(jié)果匯總
將細分后的高價值客戶、中價值客戶以及低價值客戶分別用于Logistic二分類回歸預測建模,根據(jù)測試集預測結(jié)果的二分類混淆矩陣計算準確率、召回率、F1值,并進行細分前、細分后的對比。
從表6可以看出,細分后三類客戶實驗結(jié)果的準確率、召回率、F1值均有提高,說明客戶細分有助于流失預測效果的提升。其中提升最明顯的是低價值客戶,準確率為94.5%、召回率為89.3%、F1值達到91.8%;提升最不明顯的是高價值客戶。
4 結(jié)語
對壽險行業(yè)而言,客戶是其生存和發(fā)展的重要基礎(chǔ),而客戶細分和流失預測能幫助公司從海量交易中提取出有效的客戶信息,方便公司的營銷管理。本文建立壽險客戶價值指標體系,對不同價值類別的壽險客戶進行細分和研究,并對細分前后的客戶運用Logistic二分類模型進行流失預測。實證表明,細分后的準確率、召回率、F1值較細分前有明顯提高,這表明客戶細分對于流失預測效果的提升有一定作用。
在實際經(jīng)營中,壽險公司應當與時俱進,及時調(diào)整管理策略,不斷提升服務水平,減少流失客戶,保持現(xiàn)有客戶。公司可以對客戶進行分類管理:對于購買力強、較理性的高價值客戶,在為其精心策劃壽險服務的同時,還應當給予完善的售后服務,使其盡最大可能保持;對于人數(shù)比重大的低價值客戶,公司可以給予該群體中信用評級相對高的客戶一些優(yōu)惠活動,以增加客戶續(xù)購產(chǎn)品的可能性;對于中價值客戶,可以綜合前兩者的方案進行保留管理。
參考文獻
任紅娟,夏國恩.客戶流失研究綜述[J].中國商論,2018(32).
孫紅,朱雷,劉毅婷.決策樹在壽險企業(yè)客戶流失分析中的應用[J].現(xiàn)代商業(yè),2008(20).
周曉瑋.BP神經(jīng)網(wǎng)絡技術(shù)在壽險營銷系統(tǒng)中的應用研究[D].上海:上海交通大學,2014.
梁鋒.數(shù)據(jù)挖掘技術(shù)在壽險客戶流失中的應用[J].電子科學技術(shù),2015,02(01).
鄭宇晨,呂王勇.基于logistic模型的證券公司客戶流失預警分析[J].鄭州航空工業(yè)管理學院學報,2016,34(05).