◆徐華杰
K-means聚類(lèi)在A保險(xiǎn)公司客戶(hù)細(xì)分模型中的研究
◆徐華杰
(華東師范大學(xué)計(jì)算機(jī)工程學(xué)院 上海 200000)
實(shí)現(xiàn)客戶(hù)管理、轉(zhuǎn)變傳統(tǒng)保險(xiǎn)營(yíng)銷(xiāo)模式是保險(xiǎn)行業(yè)大數(shù)據(jù)應(yīng)用最重要的一個(gè)方向[1]。本文以上海市A保險(xiǎn)公司的真實(shí)生產(chǎn)客戶(hù)數(shù)據(jù)為基礎(chǔ),通過(guò)K-means訓(xùn)練客戶(hù)樣本數(shù)據(jù),實(shí)現(xiàn)保險(xiǎn)金融行業(yè)對(duì)客戶(hù)的精準(zhǔn)營(yíng)銷(xiāo)[2]。本算法基于平均輪廓系數(shù)(Average Silhouette Coefficient)尋找最優(yōu)K值[8]和 K-means 算法搭建真實(shí)客戶(hù)的聚類(lèi)模型,然后基于改進(jìn)的RFM客戶(hù)模型進(jìn)行聚類(lèi)因子建模,迭代優(yōu)化,該模型可用于產(chǎn)品開(kāi)發(fā)師的設(shè)計(jì)指南,經(jīng)真實(shí)市場(chǎng)驗(yàn)證可知,該模型可以提升保單投保率和續(xù)保率。
保險(xiǎn)客戶(hù);K-means;RFM模型;無(wú)監(jiān)督學(xué)習(xí)
保險(xiǎn)公司都有著大量的客戶(hù)數(shù)據(jù)信息,對(duì)于千萬(wàn)級(jí)別的客戶(hù)數(shù)據(jù),大部分公司對(duì)其利用并不充分,造成了嚴(yán)重的資源浪費(fèi)。而且隨著不斷變化的互聯(lián)網(wǎng)金融環(huán)境,其原有的保險(xiǎn)代理人中介營(yíng)銷(xiāo)模式已經(jīng)無(wú)法應(yīng)對(duì)當(dāng)前的需求大環(huán)境,想要真正地實(shí)現(xiàn)精準(zhǔn)營(yíng)銷(xiāo),必須從客戶(hù)數(shù)據(jù)源著手,通過(guò)技術(shù)手段進(jìn)行數(shù)據(jù)挖掘,并對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行聚類(lèi)操作,進(jìn)而指定更加完備的精準(zhǔn)營(yíng)銷(xiāo)策略。
本文所研究的客戶(hù)分類(lèi)技術(shù)將是以上海某保險(xiǎn)集團(tuán)真實(shí)客戶(hù)數(shù)據(jù)為例,對(duì)保險(xiǎn)公司客戶(hù)數(shù)據(jù)整合利用的應(yīng)用可以更加使系統(tǒng)從科學(xué)的視角將保險(xiǎn)公司的源數(shù)據(jù)、技術(shù)手段和業(yè)務(wù)流程進(jìn)行綜合探究,客戶(hù)管理不僅可以提高本項(xiàng)目組在公司內(nèi)部的核心競(jìng)爭(zhēng)力,還可以提高客戶(hù)對(duì)公司品牌的忠誠(chéng)度和公眾認(rèn)可度,同時(shí)還可以降低營(yíng)銷(xiāo)成本,大幅提升服務(wù)效率。
RFM模型是體現(xiàn)用戶(hù)對(duì)公司價(jià)值高低的一種指標(biāo),本模型由三個(gè)指標(biāo)組成,分別是用戶(hù)最近一次購(gòu)買(mǎi)時(shí)間(R)、指定周期內(nèi)的消費(fèi)頻率(F)以及總消費(fèi)金額(M),本研究基于特定的業(yè)務(wù)場(chǎng)景提出了LBTRM模型。
由于生產(chǎn)環(huán)境的數(shù)據(jù)庫(kù)數(shù)據(jù)存在數(shù)據(jù)缺失、數(shù)據(jù)重復(fù)、數(shù)據(jù)不合理等問(wèn)題,為保證聚類(lèi)效果需要對(duì)數(shù)據(jù)集進(jìn)行離群點(diǎn)刪除、數(shù)據(jù)缺失值補(bǔ)填等標(biāo)準(zhǔn)化處理,數(shù)據(jù)處理流程如下:
2.2.1查看數(shù)據(jù)分布情況以及缺失值審查
本研究第一步是通過(guò)Python的數(shù)據(jù)處理包進(jìn)行數(shù)據(jù)集基本信息的查看,原始數(shù)據(jù)的基本描述性信息包括所有特征的數(shù)據(jù)類(lèi)型以及數(shù)值型特征的五值分布(mean、std、min、max、count),缺失值審查,包括查看缺失值的總函數(shù)。
第二步是查看不同屬性間的相關(guān)聯(lián)系性,相關(guān)性高就代表兩個(gè)特征在建立模型的時(shí)候作用效果是一樣的,為降低運(yùn)算復(fù)雜度降低原始數(shù)據(jù)的維度,需要將其刪除其一。由實(shí)驗(yàn)可知,身高和體重的相關(guān)性非常高,這兩個(gè)屬性模型的訓(xùn)練貢獻(xiàn)度大體相同,可刪除其一。
2.2.2類(lèi)別變量獨(dú)熱編碼
One-Hot編碼又稱(chēng)為一位有效編碼,比如性別存在兩個(gè)類(lèi)別,分別是男和女,那么其獨(dú)熱編碼形式為[1,0]代表男,[0,1]代表女。本研究針對(duì)客戶(hù)的性別、機(jī)構(gòu)、是否吸煙、工作編碼、支付方式、所在機(jī)構(gòu)、是否結(jié)婚等特征進(jìn)行獨(dú)熱編碼。
2.2.3數(shù)據(jù)標(biāo)準(zhǔn)化處理
通過(guò)sklearn包中的API對(duì)獨(dú)熱編碼前的矩陣進(jìn)行標(biāo)準(zhǔn)化處理,然后合并所有維度,最后得到的是一個(gè)200000*334的高維矩陣。
平均輪廓系數(shù)(Average Silhouette Coefficient)是權(quán)衡聚類(lèi)成果好壞的重要指標(biāo)之一,它由簇內(nèi)聚合度(Cohesion)和簇間分離度(Separation)兩部分組成,其中簇內(nèi)聚合度是衡量同一簇內(nèi)樣本點(diǎn)差別的參數(shù),而簇間分離度是衡量不同簇間差異的參數(shù),因而兩者組合而成的輪廓系數(shù)綜合反映了同一簇內(nèi)和不同簇間的狀況。
K-means 作為一種無(wú)監(jiān)督聚類(lèi)算法在各種業(yè)務(wù)場(chǎng)景中得到較為普及的運(yùn)用。聚類(lèi)算法就是按照樣本之間的相似度,旨在將沒(méi)有標(biāo)簽信息的數(shù)據(jù)分為幾個(gè)類(lèi)別的過(guò)程,其中同一個(gè)類(lèi)簇之間的樣本相似度大,不同類(lèi)簇之間的樣本相似度小,這是在無(wú)監(jiān)督學(xué)習(xí)的任務(wù)上完成的基本工作之一,K-means 是將給定數(shù)據(jù)集中的數(shù)據(jù)使用其不同特征進(jìn)行聚類(lèi)的算法模型,之所以稱(chēng)該模型為K-均值是因?yàn)樗梢岳脽o(wú)監(jiān)督學(xué)習(xí),將數(shù)據(jù)集分為K個(gè)不同的簇,且每個(gè)簇的聚類(lèi)核心點(diǎn)采用簇中所含值的平均值計(jì)算而來(lái)。簇的個(gè)數(shù)K是用戶(hù)手動(dòng)指定的,每一個(gè)簇經(jīng)過(guò)其聚類(lèi)核心點(diǎn)(即簇中所有點(diǎn)的中心)來(lái)描述。
“孩子,我對(duì)不起你……”范堅(jiān)強(qiáng)失聲道,“本來(lái),你是不應(yīng)該活著的,但你是我在這世上唯一的親人了,當(dāng)我看到你脖子上戴的玉佩時(shí),我就知道,你是那個(gè)我找了二十多年的親人。所以,才把你關(guān)在石屋里。你不知道,我每天在石屋外面徘徊,心里有多難過(guò)?!狈秷?jiān)強(qiáng)的話(huà)里帶著幾份凄涼。
3.3.1自動(dòng)確定聚類(lèi)數(shù)目
數(shù)據(jù)標(biāo)準(zhǔn)化處理后,經(jīng)過(guò)平均輪廓系數(shù)測(cè)驗(yàn)得到最佳的KMeans聚類(lèi)模型,由實(shí)驗(yàn)結(jié)果可知,?當(dāng)K=3時(shí)聚類(lèi)模型效果最好。
本研究將K-means應(yīng)用于實(shí)際的客戶(hù)數(shù)據(jù)集,數(shù)據(jù)集標(biāo)準(zhǔn)化完成后,利用平均輪廓系數(shù)進(jìn)行初始聚類(lèi)數(shù)目的確定,確認(rèn)完數(shù)目之后作為K-means模型的輸入,進(jìn)行聚類(lèi)。
(1)實(shí)驗(yàn)結(jié)果
當(dāng)K=3時(shí),聚類(lèi)效果最佳,聚類(lèi)模型所生成的雷達(dá)圖如圖1所示。
(2)實(shí)驗(yàn)結(jié)果分析
對(duì)于第0類(lèi),可以從雷達(dá)圖中看出,該類(lèi)人群的年收入和負(fù)債都比較高,年齡都在中年偏上左右,此年齡段常常事業(yè)有成,收入不菲,但是房貸車(chē)貸家庭支出壓身,該類(lèi)客戶(hù)為了更好地保護(hù)自己或者家人的安全會(huì)投健康險(xiǎn)或者意外險(xiǎn)等險(xiǎn)種,公司規(guī)劃產(chǎn)品時(shí)可以針對(duì)這兩款險(xiǎn)種進(jìn)行一些創(chuàng)新和優(yōu)惠,加大投保力度。
對(duì)于第1類(lèi),可以從雷達(dá)圖中看出,該類(lèi)人群的最大購(gòu)買(mǎi)能力較高,但是收入較低,且該類(lèi)人群普遍是未成年或者老年人,該類(lèi)人群通常作為被保人或者受益人存在,公司在以后規(guī)劃產(chǎn)品時(shí)可針對(duì)此人群設(shè)計(jì)教育保險(xiǎn)套餐以及一些老年疾病保險(xiǎn)。該類(lèi)人群是最應(yīng)該發(fā)展的人群。
對(duì)于第2類(lèi),可以從雷達(dá)圖中看出,該類(lèi)人群收入較高,但是最大購(gòu)買(mǎi)能力較小,支付方式也大部分為躉交,所以公司在以后規(guī)劃產(chǎn)品時(shí)可以設(shè)計(jì)價(jià)格較低并支持持續(xù)繳費(fèi)的短期產(chǎn)品。
圖1 客戶(hù)聚類(lèi)雷達(dá)圖
結(jié)合目前在金融界的研究情況,成熟的保險(xiǎn)公司收集了上千萬(wàn)的客戶(hù)數(shù)據(jù),但是大多數(shù)保險(xiǎn)公司對(duì)其利用并不充分,造成了嚴(yán)重的資源浪費(fèi)。而且隨著不斷變化的互聯(lián)網(wǎng)金融環(huán)境,其原有的保險(xiǎn)代理人中介營(yíng)銷(xiāo)模式已經(jīng)無(wú)法應(yīng)對(duì)當(dāng)前的需求大環(huán)境,2018下半年,中國(guó)銀保監(jiān)會(huì)再次提出了“科技賦能,營(yíng)銷(xiāo)創(chuàng)新“的要求,受銀保監(jiān)會(huì)監(jiān)管的保險(xiǎn)公司即使有想改變傳統(tǒng)銷(xiāo)售模式的動(dòng)機(jī),卻缺少科學(xué)的科技支持。想要真正地轉(zhuǎn)變傳統(tǒng)代理人營(yíng)銷(xiāo)模式,保留現(xiàn)有客戶(hù)是關(guān)鍵,需要提升客戶(hù)對(duì)企業(yè)的忠誠(chéng)度,因此本文所探究的客戶(hù)管理將以A保險(xiǎn)公司生產(chǎn)環(huán)境的客戶(hù)為依托,對(duì)客戶(hù)進(jìn)行分類(lèi)梳理,客戶(hù)管理不僅可以提高本項(xiàng)目組在公司內(nèi)部的核心競(jìng)爭(zhēng)力,還可以提高客戶(hù)的忠誠(chéng)度和公眾認(rèn)可度,同時(shí)還可以降低營(yíng)銷(xiāo)成本,可以大幅提升服務(wù)效率。結(jié)合以上客戶(hù)管理的優(yōu)勢(shì),因此本文提出并進(jìn)行了以下工作:
(1)本文提出了將K-means算法應(yīng)用于非圖像數(shù)據(jù)進(jìn)行聚類(lèi)并介紹了K-means算法的原理和基本流程,隨后介紹了平均輪廓系數(shù)的原理,分析比較并找到了確定最優(yōu)K值的方法,實(shí)驗(yàn)得知平均輪廓系數(shù)所得出的K值進(jìn)行模型訓(xùn)練時(shí)準(zhǔn)確率最高。
(2)本文針對(duì)A公司客戶(hù)提出了LBTRFM模型并人工制作數(shù)據(jù)集,并介紹了人工制作客戶(hù)數(shù)據(jù)集的一般流程,包括去重、填補(bǔ)、獨(dú)熱編碼等流程
(3)本文通過(guò)對(duì)分析K-means算法的缺陷提出了采用隨機(jī)梯度下降算法進(jìn)行迭代優(yōu)化,從而降低落入局部最小值的概率。
5 結(jié)語(yǔ)
雖然本論文對(duì)真實(shí)保險(xiǎn)客戶(hù)進(jìn)行提取并利用K-means模型進(jìn)行分類(lèi),但在整個(gè)對(duì)保險(xiǎn)客戶(hù)挖掘的研究過(guò)程中仍存在著以下幾點(diǎn)不足之處。
(1)是否存在比歐氏距離更好的度量公式來(lái)計(jì)算相似度,客戶(hù)的不同特征對(duì)于客戶(hù)畫(huà)像的影響不盡相同,是否可以考慮對(duì)于不同特征加權(quán),消除特征平行性。
(2)對(duì)于獨(dú)熱編碼后的矩陣維度過(guò)高,是否要引入當(dāng)前火熱的深度神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,矩陣降維,再將降維后的數(shù)據(jù)輸入進(jìn)模型進(jìn)行計(jì)算,減少模型計(jì)算時(shí)間。
今后研究的工作重點(diǎn)是探究適用于保險(xiǎn)客戶(hù)數(shù)據(jù)特征訓(xùn)練的神經(jīng)網(wǎng)絡(luò),旨在提升算法的執(zhí)行效率以及準(zhǔn)確率。
[1]樊仙仙.基于聚類(lèi)分析的 H 銀行客戶(hù)細(xì)分及營(yíng)銷(xiāo)策略研究[D].華東理工大學(xué),2015.
[2]李艷君.K-means聚類(lèi)算法在銀行CRM系統(tǒng)客戶(hù)細(xì)分中的應(yīng)用[D].哈爾濱工業(yè)大學(xué),2017.
[3]陳葉旺,申蓮蓮,鐘才明,等.密度峰值聚類(lèi)算法綜述[J].計(jì)算機(jī)研究與發(fā)展,2020,57(02):378-394.
[4]徐森,皋軍,花小朋,李先鋒,徐靜.一種改進(jìn)的自適應(yīng)聚類(lèi)集成選擇方法.自動(dòng)化學(xué)報(bào),2018,44(11):2103-2112.
[5]楊玉梅.基于信息熵改進(jìn)的K-means 動(dòng)態(tài)聚類(lèi)算法[J].重慶郵電大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,28(2):254-259.
[6]Dutta Dipankar,Sil Jaya,Dutta Paramartha .Automatic clustering by multi-objective genetic algorithm with numeric and categorical features. Expert Systems With Applications,2019(137):357-379.
[7]Ye Zong-Lin,Cao Hui,Zhang Yan-Bin,Jia Li-Xin. Outlier factor based partitional clustering analysis with constraints discovery and representative objects generation.Neurocomputing, 2016(173):1538-1553.
[8]賈瑞玉,李玉功.類(lèi)簇?cái)?shù)目和初始中心點(diǎn)自確定的K-means 算法[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(7):152-158.
[9]Arshad A,Riaz S,Jiao L. Semi-supervised deep fuzzy c-mean clustering for imbalanced multi-class classification.IEEE Access,2019(7):28100-28112.