楊靜雅,孫林夫,吳奇石
西南交通大學(xué) 信息科學(xué)與技術(shù)學(xué)院,成都610031
客戶細(xì)分(Customer Segmentation),是企業(yè)在明確的戰(zhàn)略、業(yè)務(wù)模式和特定的市場中,根據(jù)客戶的屬性、行為、需求、偏好以及價(jià)值等因素對(duì)于客戶進(jìn)行分類,并提供有針對(duì)性的產(chǎn)品、服務(wù)和營銷模式的過程[1]。能夠正確評(píng)估客戶價(jià)值的企業(yè)可以對(duì)不同客戶提供個(gè)性化的服務(wù),在有效管理客戶關(guān)系的同時(shí)增加企業(yè)的利潤[2]。
汽車售后服務(wù)供應(yīng)鏈中的企業(yè)包括配件供應(yīng)商、制造廠和售后服務(wù)商。汽車售后服務(wù)供應(yīng)鏈云平臺(tái)為實(shí)現(xiàn)售后服務(wù)供應(yīng)鏈企業(yè)間的業(yè)務(wù)協(xié)同提供了一種基于公共服務(wù)平臺(tái)的解決方案。作為平臺(tái)的增值服務(wù),根據(jù)購車客戶在售后服務(wù)商處的歷史維修保養(yǎng)數(shù)據(jù)對(duì)客戶細(xì)分,將客戶劃分為一個(gè)個(gè)具有不同特征的客戶群體,對(duì)每個(gè)客戶群適時(shí)地給予個(gè)性化的維修保養(yǎng)建議,可以有效改善售后服務(wù)質(zhì)量,提高客戶滿意度,對(duì)售后服務(wù)供應(yīng)鏈的發(fā)展至關(guān)重要。
目前,國內(nèi)外關(guān)于客戶細(xì)分的研究中,聚類分析及其改進(jìn)算法最常用[3-6]。文獻(xiàn)[3]使用K-Means算法對(duì)零售業(yè)客戶進(jìn)行細(xì)分。文獻(xiàn)[4]運(yùn)用自組織映射神經(jīng)網(wǎng)絡(luò)對(duì)客戶進(jìn)行聚類,通過對(duì)聚類結(jié)果進(jìn)行分析與識(shí)別得到4S店客戶細(xì)分結(jié)果。文獻(xiàn)[5]提出了一種基于k 均值和多變量量子混合蛙跳算法(MQSFLA)的聚類算法,用作電信客戶營銷中的客戶細(xì)分。文獻(xiàn)[6]提出了一種基于進(jìn)化的聚類算法,將元啟發(fā)式與核心直覺模糊c 均值(KIFCM)算法相結(jié)合,用于女裝銷售客戶細(xì)分。然而,這些研究大都基于單一聚類算法或聚類算法與其他數(shù)據(jù)挖掘算法的結(jié)合,沒有完整地揭示數(shù)據(jù)集的潛在結(jié)構(gòu),難以獲得精確的聚類結(jié)果。
聚類集成[7]算法通過訓(xùn)練多個(gè)基聚類器,充分挖掘數(shù)據(jù)集的內(nèi)在特征,再利用共識(shí)函數(shù)集成所有基聚類結(jié)果標(biāo)簽,得到一個(gè)更具魯棒性和穩(wěn)定性的劃分[8-9]。半監(jiān)督聚類[10-11]能夠結(jié)合少量標(biāo)簽或者成對(duì)約束信息指導(dǎo)聚類過程,利用數(shù)據(jù)集本身潛藏的先驗(yàn)知識(shí),使得聚類算法能夠獲取更多的啟發(fā)式信息,從而減少搜索過程的盲目性,提高聚類質(zhì)量。譜聚類算法[12-13]可以在任意形狀的樣本空間上聚類且通過特征分解收斂于全局最優(yōu)解。本文作者在文獻(xiàn)[14]中同時(shí)運(yùn)用了聚類集成、半監(jiān)督學(xué)習(xí)和譜聚類算法的優(yōu)勢,提出了半監(jiān)督譜聚類集成算法,用成對(duì)約束信息指導(dǎo)聚類集成過程,獲得了較優(yōu)的聚類效果?,F(xiàn)有客戶細(xì)分研究中很少運(yùn)用聚類集成和半監(jiān)督學(xué)習(xí)思想,基于此,本文將半監(jiān)督譜聚類集成算法應(yīng)用到汽車售后服務(wù)客戶細(xì)分過程。
此外,客戶細(xì)分指標(biāo)的選擇與細(xì)分目的相關(guān),影響細(xì)分結(jié)果,是客戶細(xì)分的關(guān)鍵任務(wù)。RFM模型[15]是應(yīng)用最廣泛的一種客戶細(xì)分指標(biāo)模型,模型通過客戶最近一次消費(fèi)(R)、消費(fèi)頻率(F)以及消費(fèi)金額(M)三項(xiàng)指標(biāo)評(píng)估客戶的價(jià)值狀況,用于監(jiān)測客戶消費(fèi)行為異動(dòng)、防范重要客戶流失。后來的很多研究都繼承自RFM 模型[16-18,4],做了相應(yīng)發(fā)展。文獻(xiàn)[16]引入總利潤屬性,創(chuàng)建RFP 模型,用于電子商務(wù)企業(yè)客戶細(xì)分;文獻(xiàn)[17]增加購買傾向?qū)傩?,提出了RFAT指標(biāo)模型,用于食品連鎖銷售企業(yè)的客戶細(xì)分;文獻(xiàn)[18]提出了LRFMP模型,用于對(duì)雜貨零售行業(yè)的客戶分群。但這些細(xì)分指標(biāo)模型均不適合汽車售后服務(wù)客戶保養(yǎng)的場景。文獻(xiàn)[4]雖然針對(duì)汽車維修服務(wù)業(yè)的特點(diǎn),提出了YKFM客戶細(xì)分模型,但不適合本文只研究保修期內(nèi)客戶的特點(diǎn),因此無法指導(dǎo)本文研究的汽車售后服務(wù)客戶細(xì)分。
綜上分析,本文根據(jù)汽車售后服務(wù)客戶細(xì)分的目的及研究對(duì)象的特點(diǎn),設(shè)計(jì)了RFMD 細(xì)分模型;并將半監(jiān)督譜聚類集成算法應(yīng)用于細(xì)分過程,提出了基于半監(jiān)督譜聚類集成的售后服務(wù)客戶細(xì)分方法。
保修期內(nèi),客戶對(duì)車輛的關(guān)注度非常高,對(duì)服務(wù)商(本文指整車特約服務(wù)商和能提供維修保養(yǎng)服務(wù)的整車特約經(jīng)銷商)的依賴度也相當(dāng)高,關(guān)于車輛的幾乎所有的保養(yǎng)與維修都在服務(wù)商處進(jìn)行,是服務(wù)商最基本的目標(biāo)客戶。服務(wù)商處也會(huì)因此記錄客戶從購車以來的所有維修保養(yǎng)數(shù)據(jù),該數(shù)據(jù)真實(shí)反應(yīng)了不同客戶的駕駛習(xí)慣、消費(fèi)習(xí)慣、購買能力、喜好,以及對(duì)車輛的使用頻率、使用環(huán)境、保養(yǎng)維修頻率等,依據(jù)這些數(shù)據(jù)對(duì)客戶細(xì)分,可以從不同側(cè)面或?qū)哟瘟私饪蛻?、定位客戶,分析客戶的潛在價(jià)值,從而有針對(duì)性地向客戶提供差異化的產(chǎn)品和服務(wù),提高客戶的滿意度和忠誠度,使客戶在保修期過后仍然選擇到該服務(wù)商處維修保養(yǎng),增加企業(yè)利潤。
本文以保修期內(nèi)的車輛用戶(以下簡稱“客戶”)為研究對(duì)象,根據(jù)該時(shí)期內(nèi)客戶對(duì)車輛的保養(yǎng)情況來細(xì)分客戶。對(duì)于細(xì)分到不同簇的客戶群,根據(jù)簇內(nèi)群體的不同特征推薦與其特征相符的產(chǎn)品和服務(wù),比如向追求高品質(zhì)的客戶群體推薦中高檔車輛保養(yǎng)產(chǎn)品,而向不太注重品質(zhì)且購買能力不高的客戶推薦中檔及以下的保養(yǎng)產(chǎn)品;對(duì)于細(xì)分為同一簇的客戶,可以為其推薦簇內(nèi)其他客戶購買或使用過的產(chǎn)品和服務(wù),比如某一簇內(nèi)客戶A除了常規(guī)保養(yǎng)外還對(duì)車輛進(jìn)行了漆面護(hù)理,那么推測該簇內(nèi)的客戶B 也傾向做漆面護(hù)理,因此,可以嘗試向客戶B推薦漆面護(hù)理的保養(yǎng)。
客戶細(xì)分的關(guān)鍵任務(wù)是選擇適當(dāng)?shù)募?xì)分指標(biāo)。由2.1 節(jié)的分析,本文在RFM 模型基礎(chǔ)上,總結(jié)如下與車輛保養(yǎng)屬性相關(guān)的影響因素,并從中選擇合適的細(xì)分指標(biāo)。
(1)最近一次保養(yǎng)的時(shí)間R:從上次保養(yǎng)到當(dāng)前日期的天數(shù)。如果R 大于一定期限,比如半年,則推斷客戶保養(yǎng)習(xí)慣較隨性,或不注重保養(yǎng),需給予其一定提醒。
(2)保養(yǎng)的頻率F:從購車到當(dāng)前日期內(nèi)的保養(yǎng)頻率(次數(shù)/天數(shù))。F越大,客戶潛在價(jià)值越大。
(3)保養(yǎng)的總金額M:這里修正為從購車到當(dāng)前日期內(nèi),每次保養(yǎng)的平均消費(fèi)金額(總金額/次數(shù))。M 一定程度上反映了客戶的消費(fèi)習(xí)慣和購買能力,M 越大,客戶潛在價(jià)值越大。
(4)日均行駛里程D:從購車到最近一次保養(yǎng)日期內(nèi),客戶的日均行駛里程(總行駛里程/天數(shù))。日均行駛里程大,預(yù)示車輛磨損老化快,需要客戶經(jīng)常保養(yǎng)來保證車輛的正常使用。因此,D越大,客戶潛在價(jià)值越大。
(5)車輛行駛的外部環(huán)境E:外部環(huán)境包括溫度、濕度和道路狀況等。溫度高,橡膠制品易老化;濕度大,金屬易銹蝕;道路狀況差,輪胎易磨損;等等。
(6)客戶駕駛技術(shù)S:駕駛技術(shù)好,則車輛不易被剮蹭,剎車片、輪胎等易損件也不易被損耗,因此車輛不需要經(jīng)常保養(yǎng);反之,車輛需要經(jīng)常保養(yǎng)。
其中,(4)(5)(6)因素均可通過保養(yǎng)頻率即因素(2)來體現(xiàn),然而(4)因素對(duì)保養(yǎng)屬性影響較大,并且(5)(6)因素難以量化。綜合考慮,選擇(4)因素與(1)(2)(3)因素一起作為本文的客戶細(xì)分指標(biāo),即RFMD 細(xì)分指標(biāo)模型。
假定有對(duì)象集O={o1,o2,…,on} ,以及這n 個(gè)對(duì)象的基聚類劃分?jǐn)?shù)目r 。一致函數(shù)Γ 被定義為這樣一個(gè)映射Nn×r→Nn,將一組聚類的集合映射為一個(gè)集成聚類,即Γ:{λ(q)|q ∈{1 ,2,…,r }}→λ ,其中{1 ,2,…,k} }表示將對(duì)象集O 聚成K 類的一個(gè)劃分。聚類集成的目標(biāo)是從r 個(gè)λ(q)中尋找一個(gè)一致性劃分,使其能夠更好地代表所有劃分的特性。
半監(jiān)督聚類利用先驗(yàn)知識(shí)(成對(duì)約束或少量標(biāo)簽信息)指導(dǎo)聚類過程,減少了搜索的盲目性,提高聚類結(jié)果的質(zhì)量。本文算法利用成對(duì)約束先驗(yàn)信息,mustlinks:M={(oi,oj)|oi和oj屬于同一個(gè) }簇,cannot-links:C={(oi,oj)|oi和oj屬于不同的 }簇,指導(dǎo)聚類集成過程,即半監(jiān)督聚類集成。
半監(jiān)督聚類集成不僅要實(shí)現(xiàn)聚類集成的目標(biāo),而且還要達(dá)成一個(gè)目標(biāo),即:利用成對(duì)約束信息學(xué)習(xí)一個(gè)相似度矩陣S,使C 中樣本點(diǎn)間的距離盡可能得大,而M中樣本點(diǎn)間的距離盡可能得小。
圖1 為本文提出的半監(jiān)督譜聚類集成(SSSCE)框架。具體來講,SSSCE 首先隨機(jī)初始化k-means 算法,生成多樣性的基聚類結(jié)果{λq|q ∈{1 ,2,…,r }};然后,用基聚類結(jié)果標(biāo)簽向量生成相似度矩陣S,并用成對(duì)約束信息修正S。最后,采用譜聚類算法作為一致性函數(shù)生成最終聚類結(jié)果。
半監(jiān)督譜聚類集成算法實(shí)現(xiàn)步驟如下。
輸入:對(duì)象集O={o1,o2,…,on} ,聚類結(jié)果的簇?cái)?shù)K ,基聚類器數(shù)目r ,必連約束樣本點(diǎn)集M ,不連約束樣本點(diǎn)集C
步驟1 生成基聚類器,為聚類集成做準(zhǔn)備;
for q=1:r
圖1 半監(jiān)督譜聚類集成(SSSCE)框架
kq:從中隨機(jī)選取
λq=kmeans(O,kq)
end for
步驟2 將基聚類結(jié)果的標(biāo)簽向量轉(zhuǎn)換成超圖H ;
步驟3 構(gòu)建相似度矩陣S=HHT,且S ∈Rn×n,H ∈Rn×d;
步驟4 用成對(duì)約束信息修正相似度矩陣S:
(1)如果樣本點(diǎn)對(duì)(oi,oj)∈M ,則Sij=1;
(2)如果樣本點(diǎn)對(duì)(oi,oj)∈C,則Sij=0;
步驟5 以相似度矩陣S 為輸入,運(yùn)行標(biāo)準(zhǔn)的譜聚類算法;
輸出:對(duì)象集O 的K 個(gè)簇
在文獻(xiàn)[14]中,通過選取UCI機(jī)器學(xué)習(xí)庫中的16個(gè)數(shù)據(jù)集,已經(jīng)驗(yàn)證SSSCE 在MP[19]和ARI[20]指標(biāo)的衡量下均優(yōu)于CSPA、HGPA、MCLA、SCE 等聚類集成算法。以下分析SSSCE在汽車售后服務(wù)客戶細(xì)分中的實(shí)驗(yàn)結(jié)果,并與譜聚類算法(SC)和譜聚類集成算法(SCE)的客戶細(xì)分結(jié)果比較。
西南交通大學(xué)和四川省現(xiàn)代服務(wù)科技研究院等單位創(chuàng)建的汽車售后服務(wù)供應(yīng)鏈云平臺(tái),自搭建以來,受到了各整車及零配件制造廠的青睞,目前已經(jīng)為全國5 000 多家與汽車生產(chǎn)相關(guān)的上下游企業(yè)提供服務(wù),本文依托于該平臺(tái),以某汽車售后服務(wù)供應(yīng)鏈中的售后服務(wù)商為實(shí)例,以2018 年5 月1 日為當(dāng)前日期,選取該服務(wù)商F12 型汽車在保修期內(nèi)的357 位客戶的2 623 條歷史保養(yǎng)記錄作為樣本數(shù)據(jù)。將樣本數(shù)據(jù)按RFMD 細(xì)分指標(biāo)模型計(jì)算整理,形成357×4的矩陣,如表1所示。
表1 F12型汽車客戶的保養(yǎng)相關(guān)樣本數(shù)據(jù)
將樣本數(shù)據(jù)分別按四個(gè)指標(biāo)由大到小或由小到大排序;根據(jù)企業(yè)管理中的“二八法則”,每次排序后,分別取各序列中前20%的數(shù)據(jù)組成四個(gè)樣本集合,選取該四個(gè)集合中均存在的樣本,組成樣本集M_set1;同理,從各指標(biāo)序列的后20%中選出樣本集M_set2;設(shè)定M_set1中的樣本對(duì)和M_set2 中的樣本對(duì)均屬于must-links,而同時(shí)由M_set1 和M_set2 中的樣本構(gòu)成的樣本對(duì)屬于cannot-links,由此生成成對(duì)約束集M 和C。
由于樣本數(shù)據(jù)存在較大波動(dòng),且四個(gè)指標(biāo)的意義、量綱和數(shù)值范圍各不相同,需要在聚類前對(duì)數(shù)據(jù)進(jìn)行歸一化處理[21],歸一化公式如下,歸一化后的數(shù)據(jù)如表2所示。
式中,xi為樣本數(shù)據(jù)實(shí)際值,xmax=max(xi),xmin=min(xi)。
表2 歸一化后的樣本數(shù)據(jù)
在汽車售后服務(wù)客戶細(xì)分等實(shí)際應(yīng)用中,樣本數(shù)據(jù)的真實(shí)標(biāo)簽無法或很難事先獲知,因此,基于已知標(biāo)簽的聚類效果評(píng)價(jià)指標(biāo)(比如MP、ARI、NMI 等),將不能通過計(jì)算得出。故實(shí)驗(yàn)需要選用不依據(jù)已知標(biāo)簽的評(píng)價(jià)指標(biāo),比如Silhouette Coefficient[22]、Calinski-Harabasz Index[23]、Davies-Bouldin Index[24],這三個(gè)指標(biāo)一定程度上均是從簇內(nèi)的密集程度和簇間的離散程度來評(píng)估聚類效果。與Calinski-Harabasz Index 相比,Silhouette Coefficient計(jì)算稍顯復(fù)雜,Davies-Bouldin Index使用質(zhì)心距離限制了歐幾里德空間的距離度量,因此,實(shí)驗(yàn)選用Calinski-Harabasz Index 作為評(píng)價(jià)指標(biāo)。另外,本文自定義一個(gè)損失函數(shù)來評(píng)估聚類效果,以及估計(jì)聚類的簇?cái)?shù)。
(1)Calinski-Harabasz Index
其中,n 為樣本數(shù),K 為簇?cái)?shù),BK為簇間的協(xié)方差矩陣,WK為簇內(nèi)數(shù)據(jù)的協(xié)方差矩陣,tr 為矩陣的跡。CH( K )值越大,則聚類效果越好。
(2)損失函數(shù)
設(shè)c1,c2,…,cK為K 個(gè)聚類中心,yik∈{ }0,1 表示樣本oi是否屬于聚類k(0代表“否”,1代表“是”),則損失函數(shù)J(c,y)定義如下:
在K 取值一定的情況下,J(c,y)的值越小,表示算法的聚類效果越好。
對(duì)于參數(shù)r(基聚類器數(shù)目)的設(shè)置,r 越大,基聚類結(jié)果越多樣化,最終聚類結(jié)果也將越準(zhǔn)確,但考慮到實(shí)驗(yàn)運(yùn)行效率,r 不能過大,文中實(shí)驗(yàn)設(shè)置r 為10;而各基聚類k -means 算法中k(即kq)的取值范圍設(shè)置為:。譜聚類算法中參數(shù)σ 設(shè)置為1。
分別使K 取2、3、4、5、6,依次進(jìn)行聚類,運(yùn)行20次取平均值。
(1)SC 算法、SCE 算法和SSSCE 算法的Calinski-Harabasz Index如圖2所示。
圖2 三種算法的Calinski-Harabasz Index
從圖2可以看出,①在K 的五個(gè)取值中,SCE算法的Calinski-Harabasz Index 幾乎均大于SC 算法,而SSSCE算法的Calinski-Harabasz Index 也幾乎均大于SCE 算法,由此顯示出聚類集成算法的優(yōu)勢,以及半監(jiān)督學(xué)習(xí)思想的優(yōu)勢。②三種算法的Calinski-Harabasz Index均在K=4 時(shí)取得最大值,可以判斷4為最佳聚類數(shù)目。
(2)SC算法、SCE算法和SSSCE算法的損失函數(shù)如圖3所示。
圖3 三種算法的損失函數(shù)
從圖3看出,①在K 的五個(gè)取值中,SCE算法的損失函數(shù)均小于SC 算法的損失函數(shù),且二者的“肘點(diǎn)”值均為4(根據(jù)經(jīng)典的“肘點(diǎn)”法,“肘點(diǎn)”值為最佳K 值)。②SSSCE 算法的損失函數(shù)變化不大,且始終處于較低值。圖3 印證了由圖2 得出的判斷,即聚類集成和半監(jiān)督學(xué)習(xí)使聚類效果更優(yōu),且4為最佳聚類數(shù)目。
因此,選擇K=4 時(shí)SSSCE算法的運(yùn)行結(jié)果為最終聚類結(jié)果,四個(gè)聚類中心如表3所示。
表3 聚類中心
由表3 和表4 分析各類客戶群的特征,并給出以下保養(yǎng)指導(dǎo)建議:
1類客戶:這類客戶用車多,對(duì)車輛保養(yǎng)頻繁,每次保養(yǎng)花費(fèi)較高,剛做過保養(yǎng);可以推斷該類客戶對(duì)車輛比較依賴,對(duì)車輛性能要求高,愛惜車,消費(fèi)水平較高,對(duì)服務(wù)商忠誠,對(duì)服務(wù)商來說是高價(jià)值客戶;另外,可以判斷該類客戶的車輛接近保修期,服務(wù)商應(yīng)特別關(guān)注該類客戶的需求,盡量做到一對(duì)一個(gè)性化服務(wù),確保客戶繼續(xù)忠誠,保修期過后不流失。
2類客戶:這類客戶用車時(shí)間正常,保養(yǎng)頻率正常,每次保養(yǎng)花費(fèi)也處于中檔水平;該類客戶占比較大,是服務(wù)商盈利的中堅(jiān)力量,服務(wù)商應(yīng)遵循其保養(yǎng)規(guī)律,適時(shí)給予相似客戶的保養(yǎng)用品推薦,互通該類客戶群的保養(yǎng)選擇;在保證這類客戶忠誠度的同時(shí),適當(dāng)引導(dǎo)其消費(fèi)習(xí)慣,提高其消費(fèi)水平,使這類客戶的保養(yǎng)消費(fèi)水平逐漸向1類客戶靠攏。
表4 各類的成員數(shù)量
3類客戶:這類客戶用車少,保養(yǎng)頻率低,每次保養(yǎng)花費(fèi)也較低,且已經(jīng)很久沒做過保養(yǎng);可以推斷該類客戶對(duì)車輛依賴比較低,對(duì)車輛性能要求低,不關(guān)注也不太愛惜車輛,對(duì)車輛消費(fèi)水平偏低,對(duì)服務(wù)商來說是低價(jià)值客戶;服務(wù)商需要關(guān)注這類客戶,向其普及保養(yǎng)常識(shí),引導(dǎo)其形成正確正常的用車和保養(yǎng)意識(shí),增加其忠誠度,使其逐漸形成2 類客戶的保養(yǎng)習(xí)慣,或者不至于流向競爭企業(yè)。
4類客戶:這類客戶用車多,但保養(yǎng)頻率不高,每次保養(yǎng)的花費(fèi)處于正常偏上水平,已經(jīng)較長時(shí)間沒來保養(yǎng);可以推斷該類客戶對(duì)車輛依賴度高,但不注重保養(yǎng),這將存在一定的安全隱患;服務(wù)商應(yīng)針對(duì)性地提醒其適時(shí)保養(yǎng),規(guī)范其保養(yǎng)行為,并適當(dāng)?shù)亟o予其保養(yǎng)用品建議,使其形成正確的保養(yǎng)意識(shí),提高其對(duì)服務(wù)商的依賴度與忠誠度,保修期內(nèi)外都將對(duì)服務(wù)商產(chǎn)生較大的潛在價(jià)值。
通過分析客戶在售后服務(wù)商處的歷史保養(yǎng)記錄,建立了與汽車保養(yǎng)屬性相關(guān)的RFMD細(xì)分指標(biāo)模型;基于半監(jiān)督譜聚類集成算法對(duì)售后服務(wù)客戶進(jìn)行細(xì)分,實(shí)驗(yàn)結(jié)果表明該算法的細(xì)分結(jié)果優(yōu)于SC 算法和SCE 算法。對(duì)不同客戶群進(jìn)行特征分析,給出與其特征相符的保養(yǎng)建議。依據(jù)客戶其他屬性(比如維修、駕駛等)進(jìn)行客戶細(xì)分,以及進(jìn)一步優(yōu)化半監(jiān)督聚類集成算法(比如調(diào)整成對(duì)約束集的取法)將是下一步研究的方向。