廉 琪,蘇 屹
(哈爾濱工程大學(xué) 經(jīng)濟(jì)管理學(xué)院,黑龍江 哈爾濱 150001)
●營銷管理
基于 SOM和 PSO聚類組合算法的客戶細(xì)分研究
廉 琪,蘇 屹
(哈爾濱工程大學(xué) 經(jīng)濟(jì)管理學(xué)院,黑龍江 哈爾濱 150001)
文章在對(duì) RFM指標(biāo)體系進(jìn)行分析的基礎(chǔ)上,應(yīng)用自組織特征映射 (SOM)神經(jīng)網(wǎng)絡(luò)和粒子群優(yōu)化(PSO)的聚類組合算法,通過客戶關(guān)系的特征衡量分析客戶的內(nèi)在價(jià)值和忠誠度,對(duì)客戶數(shù)據(jù)進(jìn)行了科學(xué)、客觀、深層次的挖掘分析,為企業(yè)有針對(duì)性的制定營銷策略提供了依據(jù)。
客戶細(xì)分;SOM算法;PSO算法;RFM指標(biāo)體系
當(dāng)代企業(yè)間的競爭已經(jīng)從市場份額的爭奪轉(zhuǎn)向客戶群體的爭奪,事實(shí)證明,許多在客戶數(shù)據(jù)挖掘方面做的出色的企業(yè)都已取得了斐然的銷售業(yè)績。例如,寶潔公司在分析客戶數(shù)據(jù)時(shí)發(fā)現(xiàn)大量客戶都為頭屑問題所困擾,于是寶潔公司立刻研發(fā)生產(chǎn)去屑洗發(fā)水,該洗發(fā)水投入市場后獲得了無數(shù)客戶的認(rèn)可和好評(píng),為寶潔公司帶來了巨大的收益??梢?企業(yè)通過客戶數(shù)據(jù)信息挖掘出客戶需求的潛在性和多樣性,已經(jīng)成為企業(yè)提升核心競爭力的重要前提與基礎(chǔ)。因此,如何高效率并準(zhǔn)確的挖掘、利用客戶信息,細(xì)分不同的客戶群體和客戶需求,進(jìn)而增加企業(yè)銷量、降低營銷成本、推動(dòng)企業(yè)發(fā)展,將成為現(xiàn)代企業(yè)間無形的競爭。雖然,我國大部分企業(yè)都已非常重視客戶數(shù)據(jù)挖掘工作,但是由于目前有些數(shù)據(jù)挖掘算法本身的不精確性和評(píng)價(jià)體系構(gòu)建的不當(dāng),致使企業(yè)無法滿足客戶多樣化的需求并保持客戶忠誠度,有時(shí)甚至因此流失大量的潛在客戶。
本文提出的以客戶關(guān)系特征為指標(biāo)來細(xì)分客戶能重點(diǎn)表達(dá)出客戶與企業(yè)之間的多元化的關(guān)系結(jié)構(gòu),即通過一系列定量的指標(biāo)分析得到最準(zhǔn)確的衡量結(jié)果。同時(shí)采用客戶關(guān)系特征分類法中的 RFM模型來細(xì)分客戶的行為特征,通過 SOM和 PSO的算法組合來對(duì)客戶的這些行為特征進(jìn)行分類,進(jìn)而識(shí)別不同的客戶群體,為企業(yè)營銷策略的制定提供依據(jù)、為核心競爭力的提升奠定基礎(chǔ)。
自組織特征映射神經(jīng)網(wǎng)絡(luò) (SOM)算法是一種經(jīng)典的聚類算法。SOM網(wǎng)絡(luò)是一個(gè)由全連接的神經(jīng)元陣列組成的無教師自組織、自學(xué)習(xí)網(wǎng)絡(luò)。它根據(jù)大腦神經(jīng)對(duì)信號(hào)處理的過程模擬而來,當(dāng)一個(gè)神經(jīng)網(wǎng)絡(luò)接受外界輸入模式時(shí),將會(huì)分為不同的反應(yīng)區(qū)域,各區(qū)域?qū)斎肽J骄哂胁煌捻憫?yīng)特性[1]。因此,SOM網(wǎng)絡(luò)的典型特性就是可以在一維和二維的處理單元陣列上,形成輸入信號(hào)的特征拓?fù)浞植?具有抽取輸入信號(hào)模式特征的能力。SOM網(wǎng)絡(luò)由輸入層和競爭層 (輸出層)組成,輸入層中的每個(gè)神經(jīng)元通過權(quán)與輸出層中的每一個(gè)神經(jīng)元項(xiàng)連[2],其結(jié)構(gòu)如圖 1所示。
圖1 SOM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
SOM算法的具體過程如下[3]:
(1)初始化,將權(quán)值Wij賦予較小的隨機(jī)初始值;設(shè)置一個(gè)較大的鄰域半徑Nc;設(shè)置學(xué)習(xí)次數(shù) T;
(2)采樣,隨機(jī)輸入一組訓(xùn)練矢量 Xk:Xk={X1k+X2k+…+Xnk};
(3)競爭,計(jì)算訓(xùn)練矢量 Xk和所有的輸出神經(jīng)元的距離 djk,并選擇和 Xk距離最小的神經(jīng)元 c,則 c即為獲勝的神經(jīng)元;
(4)自適應(yīng),更新結(jié)點(diǎn) c的鄰域,調(diào)整輸出節(jié)點(diǎn)的連接權(quán)值向量;
(5)輸入訓(xùn)練矢量集中的下一個(gè)矢量 Xk+1;
(6)令 t=t+1,更新學(xué)習(xí)率并選取另一組訓(xùn)練矢量輸入網(wǎng)絡(luò),返回步驟 (3);
(7)結(jié)束,當(dāng) t=T時(shí),結(jié)束算法。
粒子群優(yōu)化 (PSO)算法是一種進(jìn)化的計(jì)算算法。PSO算法是模擬鳥群覓食過程中的遷移和群集的模擬。假設(shè)在一群鳥搜索食物的空間中只有一塊食物,所有鳥都不知道這塊食物的具體位置,但是它們知道自身離這塊食物的還有多遠(yuǎn)[5]。那么找到食物的方法就是搜索當(dāng)前離食物最近的鳥的周圍區(qū)域。在 PSO中,每個(gè)鳥都是一個(gè) “粒子”,粒子群在空間搜索,每個(gè)粒子的位置都表示問題的一個(gè)解,并通過位置的不斷調(diào)整來搜索優(yōu)化的新解[4]。粒子本身的最優(yōu)解設(shè)為Pid,粒子群的最優(yōu)解設(shè)為 Pgd。粒子自身的調(diào)整公式為[3]:
在 SOM算法中,需要對(duì)輸入的矢量數(shù)據(jù)進(jìn)行大量的網(wǎng)絡(luò)訓(xùn)練才能得到最終收斂的效果,并且在網(wǎng)絡(luò)訓(xùn)練時(shí)有些結(jié)點(diǎn)始終無法勝出而形成死神經(jīng)元,最終導(dǎo)致形成局部優(yōu)化的現(xiàn)象[2]。PSO算法是 1995年新提出來的聚類算法,雖然該種算法能有效結(jié)局極值陷入局部最優(yōu)解的問題,但在單獨(dú)使用對(duì)數(shù)據(jù)進(jìn)行聚類分析時(shí)由于其初始化權(quán)值的隨機(jī)性,大大降低了 PSO算法的聚類效果[3]。因此,本文通過兩種算法的結(jié)合,即通過 SOM算法先得到較優(yōu)的權(quán)值,然后用得到的權(quán)值來初始化 PSO算法,顯著的提高了單獨(dú)使用這兩種算法的聚類效果。
RFM指標(biāo)體系由美國直接營銷學(xué)家Bobstone基于許多數(shù)據(jù)庫營銷的經(jīng)驗(yàn)提出的。R(Recency),表示最近一次消費(fèi);F(Frequency),表示消費(fèi)頻率;M (Monetary),表示消費(fèi)金額[6]。RFM指標(biāo)體系是衡量客戶價(jià)值和客戶創(chuàng)利能力的重要工具和手段。該模型通過一個(gè)客戶的近期購買行為、購買的總體頻率以及花了多少錢三項(xiàng)指標(biāo)來描述該客戶的價(jià)值狀況[7]。同時(shí),RFM指標(biāo)體系也較為動(dòng)態(tài)地表示了一個(gè)客戶的全部輪廓,這對(duì)個(gè)性化的溝通和服務(wù)提供了依據(jù),此外,如果與該客戶打交道的時(shí)間足夠長,也能夠較為精確地判斷該客戶的長期價(jià)值 (甚至是終身價(jià)值),通過改善三項(xiàng)指標(biāo)的狀況,從而為更多的營銷決策提供支持[8]。得到精準(zhǔn)的數(shù)據(jù)分類是客戶細(xì)分的重要一步,但僅憑借數(shù)據(jù)分類而沒有具體的客戶價(jià)值評(píng)價(jià)體系則無法識(shí)別、挖掘客戶的價(jià)值[6],因此本文構(gòu)建 RFM指標(biāo)體系來對(duì)不同類別客戶的價(jià)值進(jìn)行評(píng)價(jià)。
本文以電信業(yè)客戶細(xì)分為例,建立 RFM指標(biāo)體系。由于電信行業(yè)中客戶消費(fèi)頻率很高,幾乎每天甚至每時(shí)都在消費(fèi),因此基于傳統(tǒng)的 RFM指標(biāo) (R:消費(fèi)近度;F:消費(fèi)頻率;M:消費(fèi)金額)中的 R幾乎為零而 F則非常高,這在指標(biāo)體系的建立中毫無意義[8]。綜合考慮電信業(yè)客戶的消費(fèi)特點(diǎn),即交費(fèi)時(shí)間間隔較大,交費(fèi)次數(shù)相對(duì)較少,交費(fèi)額度等于消費(fèi)額度,本文提出以客戶交費(fèi)的近度、頻率和金額來替代消費(fèi)的近度、頻率和金額。構(gòu)建指標(biāo)體系見表 1。
表1 電信業(yè)客戶細(xì)分的 RFM指標(biāo)體系及各指標(biāo)含義
第一步,從客戶資料中提取客戶的詳細(xì)資料,以設(shè)計(jì)好的指標(biāo)體系作為標(biāo)準(zhǔn),分解客戶指標(biāo);
第二步,經(jīng)驗(yàn)顯示,當(dāng)所有的輸入和輸出值介于 0和 1之間時(shí),SOM神經(jīng)網(wǎng)絡(luò)的計(jì)算效果最好[9]。因此在輸入客戶的指標(biāo)前,將客戶指標(biāo)做歸一化處理。其具體方法如下:
調(diào)整后的標(biāo)準(zhǔn)值 =(初始值 -min)/(max-min),其中,min和max為選擇客戶樣本數(shù)據(jù)各指標(biāo)中的的最小和最大值;
第三步,隨機(jī)選取各指標(biāo)的權(quán)重作為 SOM神經(jīng)網(wǎng)絡(luò)中各神經(jīng)元的初始連接權(quán)值,將客戶的數(shù)據(jù)輸入到 SOM神經(jīng)網(wǎng)絡(luò)中得到多個(gè)客戶簇,并通過不斷的訓(xùn)練使模型達(dá)到滿意的精度;
第四步,將 SOM神經(jīng)網(wǎng)絡(luò)中得到的優(yōu)化了的權(quán)值作為初始聚類中心,對(duì)粒子群進(jìn)行初始化,執(zhí)行改進(jìn)后的 PSO聚類算法進(jìn)行聚類;
第五步,本文為了證明 SOM-PSO聚類組合算法的優(yōu)化性,特將運(yùn)用組合算法得到的客戶細(xì)分結(jié)果的 F-measure值與單純運(yùn)用 SOM算法得到的 F-measure[10]值比較,來證明SOM-PSO組合算法更好的客戶細(xì)分效果;
第六步,在通過 SOM-PSO組合聚類算法得到較為精確的客戶群后,對(duì)每類客戶的 RFM平均值和總 RFM平均值作比較,每次對(duì)比中會(huì)得到兩個(gè)結(jié)果:大于等于平均值和小于平均值,通過對(duì)比得到每類客戶的 RFM的變動(dòng)情況;
第七步,根據(jù)每類客戶的 RFM的變動(dòng)情況分析該客戶的類別,如該客戶是有價(jià)值客戶還是潛在客戶等,針對(duì)不同的客戶類別采取 “一對(duì)一”的營銷策略;
第八步,對(duì)每類客戶標(biāo)準(zhǔn)化后的每個(gè)指標(biāo)取平均值,再將平均值加權(quán)求和,得到每類客戶的終身價(jià)值總得分,分析各類客戶終身價(jià)值的差別,具體情況如圖 2所示。
本文從某市通信公司 2008年的所有的電信客戶記錄中隨機(jī)抽取了 50名客戶的數(shù)據(jù)信息進(jìn)行分析,由于篇幅有限,本文僅列出十組經(jīng)過歸一化處理的客戶數(shù)據(jù)信息 (見表 2)。
本例所構(gòu)建的 SOM網(wǎng)絡(luò)模型的輸入層幾點(diǎn)為 3個(gè),競爭層設(shè)計(jì)為一個(gè) 3*4的二維平面;由于本例競爭層的二維平面結(jié)點(diǎn)相對(duì)于所要訓(xùn)練的客戶數(shù)據(jù)來說較小,因此 SOM網(wǎng)絡(luò)的初始鄰域值設(shè)為整個(gè)競爭層;初始的學(xué)習(xí)速率η0=0.2,并隨著時(shí)間 t而遞減;訓(xùn)練次數(shù)分別設(shè)為 10、50、100次。
圖2 基于 SOM-PSO聚類組合算法的客戶細(xì)分流程圖
表2 歸一化處理的客戶信息
使用MATLAB軟件編程,對(duì) SOM神經(jīng)網(wǎng)絡(luò)中輸入的數(shù)據(jù)訓(xùn)練進(jìn)行訓(xùn)練時(shí)發(fā)現(xiàn),當(dāng)訓(xùn)練 10次時(shí)分類較為粗糙,訓(xùn)練 50次時(shí)分類效果較好,隨著訓(xùn)練次數(shù)的增加,到 100次時(shí)客戶分類過于細(xì)化幾乎沒有意義。因此,本例中選取訓(xùn)練 50次時(shí)得到的分類結(jié)果作為初步優(yōu)化的分類結(jié)果。
用 SOM網(wǎng)絡(luò)得到的權(quán)值初始化 PSO算法,得到通過SOM-PSO聚類分析后產(chǎn)生的客戶類別。算法的輸出同時(shí)為了比較使用 SOM-PSO聚類組合方較單純使用 SOM神經(jīng)網(wǎng)絡(luò)對(duì)客戶分類的結(jié)果的優(yōu)化性,特通過 F-measure平均 (它組合了信息檢索中查準(zhǔn)率 (precision)與查全率 (recall)的思想來進(jìn)行聚類評(píng)價(jià),因此該值越大聚類效果越好[10])來比較 SOM-PSO組合算法和 SOM算法,結(jié)果如表 3所示。從表中我們不難發(fā)現(xiàn),SOM-PSO算法的 F-measure平均值比 SOM算法要高出接近 10個(gè)百分點(diǎn),這充分的說明了使用SOM-PSO算法對(duì)客戶數(shù)據(jù)進(jìn)行分類的效果要 SOM算法。
表3 兩種算法的比較結(jié)果
通過 RFM指標(biāo)體系對(duì)經(jīng)過聚類后的客戶分成了六個(gè)級(jí)別,分別是重要保持客戶、重要發(fā)展客戶、重要挽留客戶、一般重要客戶、一般客戶、無價(jià)值客戶,如表 4所示。由每一級(jí)別的客戶人數(shù)我們也可以看出組合算法對(duì)客戶分類的實(shí)際情況也符合“20/80”法則,即企業(yè)百分之八十的利潤來源于百分之二十的客戶。
雖然通過上述分類確定了客戶的等級(jí),但卻沒有各類客戶間量化了的價(jià)值比較,而且有些不同客戶類別屬于一個(gè)級(jí)別,無法區(qū)分其價(jià)值差異。因此,本文利用通過 SOM-PSO組合算法得到的最優(yōu)權(quán)值來對(duì)每類客戶進(jìn)行打分,根據(jù)最終的總分 C總j對(duì)每類客戶排序。C總j的計(jì)算方法如下:
其中 C總j表示第 j類客戶的 R,F,M個(gè)指標(biāo)加權(quán)后的總得分;j=1,…,m表示聚類后的類別,;ωRj,ωFj,ωMj分別表示第 j類的客戶的 R,F,M各指標(biāo)的權(quán)值,CRj,CFj,CMj分別表示第 j類客戶的 R,F,M各指標(biāo)歸一化處理的平均值。經(jīng)計(jì)算后的出結(jié)果,如表 5。通過比較各類的總得分,可以量化的比較出各類客戶的價(jià)值,如類 2是類 3的0.4367/0.3812=1.1456倍。
針對(duì)以上客戶的分類情況,企業(yè)可以進(jìn)行有針對(duì)性的營銷,例如對(duì)于重要保持型客戶,即 R值低、F值高、M值高。此類客戶的繳費(fèi)時(shí)間間隔短,繳費(fèi)較為頻繁且繳費(fèi)額度大。此類客戶一般為社會(huì)工作穩(wěn)定且收入較高的人群,消費(fèi)能力強(qiáng)如銷售經(jīng)理、業(yè)務(wù)員等,這類客戶對(duì)價(jià)格敏感度低,為該電信公司的長期穩(wěn)定客戶。針對(duì)此類客戶,該電信公司可向其進(jìn)行的多種營銷活動(dòng)刺激其一次性多繳話費(fèi),如預(yù)交話費(fèi) 3000元增 3G手機(jī)等高附加值的業(yè)務(wù)。此外,還要努力為其提供個(gè)性化、親情化的移動(dòng)業(yè)務(wù)和延伸服務(wù),如將單純的通話業(yè)務(wù)延伸至話費(fèi)每月滿 300元增手機(jī)上網(wǎng)流量等?;蛘?對(duì)于一般重要客戶,即 R值低、F值高、M值低。此類客戶繳費(fèi)時(shí)間間隔短、頻率高,但是費(fèi)用少,這類客戶是典型的學(xué)生群體。他們的消費(fèi)能力偏弱,所以通常會(huì)在優(yōu)惠時(shí)段打電話,而且更多使用的是較為便宜的短消息業(yè)務(wù)。這部分客戶的利潤率僅為 8.4%,低于平均水平,且客戶人數(shù)比例也僅為 8%。但是,如果對(duì)該類客戶采取適當(dāng)?shù)臓I銷手段,提高他們對(duì)短信、上網(wǎng)業(yè)務(wù)的使用量,就有可能提高這一群體的利潤水平;此外,該類用戶群體在不久后都將走出校園,他們的消費(fèi)能力將整體增強(qiáng)。鑒于以上原因,該電信公司可以為他們訂做一個(gè)短消息包月和上網(wǎng)流量包月,而且校園網(wǎng)內(nèi)通話低于預(yù)付資費(fèi)水平的服務(wù)套餐,從而提高他們的消息類業(yè)務(wù)和上網(wǎng)業(yè)務(wù)的使用量。
表4 通過 SOM-PSO聚類分析后產(chǎn)生的客戶類別
表5 各類客戶的加權(quán)總得分
本文提出了一種基于 SOM-PSO聚類組合算法的客戶細(xì)分方法,并通過實(shí)證研究,以電信行業(yè)的部分客戶數(shù)據(jù)資料驗(yàn)證了該組合算法的可行性。同時(shí),通過 F-measure平均值與單純使用 SOM算法比較,證明了該組合算法在客戶信息挖掘和分類方面的優(yōu)化性。由于時(shí)間和篇幅的限制,本文也存在一些不足之處,例如樣本索取量比較小。在未來研究過程中,作者將進(jìn)一步完善這一算法的應(yīng)用。
[1]郭偉業(yè),趙曉丹,龐英智,等.數(shù)據(jù)挖掘中 SOM神經(jīng)網(wǎng)絡(luò)的聚類方法研究 [J].情報(bào)科學(xué),2009,(6):874-876.
[2]楊占華,楊燕.SOM神經(jīng)網(wǎng)絡(luò)算法的研究與進(jìn)展 [J].計(jì)算機(jī)工程,2006,(8):201-202.
[3]劉春曉,張翠芳.基于 SOM和 PSO的聚類組合算法[J].通信技術(shù),2010,(1):208-212.
[4]劉靖明,韓麗川,侯立文.一種新的聚類算法——粒子群聚類算法 [J].計(jì)算機(jī)工程與應(yīng)用,2005,(2):183-185.
[5]陳永剛,楊鳳杰,孫吉貴.新的粒子群優(yōu)化算法 [J].吉林大學(xué)學(xué)報(bào),2006,(3):181-184.
[6]BartBaesens,GeertVerstraeten,Dirk Van Den Poel,et al.Bayesian network classifiers for identifying the slope of the customer lifecycle of long-life customers[J]. European Journal of Operational Research. Tourism Management,2004,25:429.
[7]趙曉煜,黃小原,孫福權(quán).基于 RFM分析的促銷組合策略優(yōu)化模型 [J].中國管理科學(xué),2005, (2):60-63.
[8]林盛,肖旭.基于 RFM的電信客戶市場細(xì)分方法 [J].哈爾濱工業(yè)大學(xué)學(xué)報(bào),2006,(5):758-760.
[9]田玲.電子商務(wù)中客戶關(guān)系管理的研究 [M].知識(shí)產(chǎn)權(quán)出版社,2009.
[10]楊燕,靳蕃.聚類評(píng)價(jià)有效性綜述 [J].計(jì)算機(jī)應(yīng)用研究,2008,(6):1630-1638.
Investigating the Consumers Segmentation Based on SOM and PSO Algorithm
L IAN Qi,SU Yi
(School of Econom ics and M anagem ent,Harbin Engineering University,Harbin150001,China)
In this paper,a combination algorithm of self-organizing feature map(SOM)neural network and particle swarm optimization(PSO)clustering are applied to mining the consumers’data based on the RFM index system.This combination algorithm can measure consumers’intrinsic value and loyalty quantitatively and offer enterprises a better decision basis formarketing strategies.
consumers segmentation;SOM algorithm;PSO algorithm;RFM index system
F274
A
1007—5097(2011)01—0118—04
10.3969/j.issn.1007-5097.2011.01.028
2010—03—29
黑龍江省科技攻關(guān)項(xiàng)目 (GZ09D204)
廉 琪 (1988—),女 (滿族),黑龍江哈爾濱人,本科生,研究方向:數(shù)據(jù)挖掘;
蘇 屹 (1983—),男,黑龍江哈爾濱人,博士研究生,研究方向:科技管理與創(chuàng)新管理,數(shù)據(jù)挖掘。
[責(zé)任編輯:張 青 ]