原慧琳,杜 杰,李延柯
(東北大學(xué) 信息科學(xué)與工程學(xué)院,遼寧 沈陽(yáng) 110000)
如今,零售行業(yè)的市場(chǎng)競(jìng)爭(zhēng)日趨激烈,這給企業(yè)帶來(lái)了巨大壓力,迫使他們需要更有效了解客戶需求,以獲得或保持該行業(yè)的競(jìng)爭(zhēng)優(yōu)勢(shì)。為了提高客戶的忠誠(chéng)度和滿意度,提供個(gè)性化的服務(wù)和制定精準(zhǔn)的營(yíng)銷策略對(duì)企業(yè)來(lái)說(shuō)是至關(guān)重要的。在現(xiàn)代消費(fèi)者的偏好和品味中,企業(yè)不可能完全滿足每一位消費(fèi)者。然而,大數(shù)據(jù)時(shí)代的到來(lái),為企業(yè)提供了使用數(shù)據(jù)分析和挖掘技術(shù)的機(jī)會(huì),通過(guò)這些海量數(shù)據(jù)對(duì)客戶進(jìn)行細(xì)分,從而提高企業(yè)決策質(zhì)量[1]。
傳統(tǒng)的細(xì)分模型雖然在客戶分類方面表現(xiàn)良好,但忽略了客戶購(gòu)買行為的周期性和產(chǎn)品的購(gòu)買力,而這兩個(gè)方面體現(xiàn)了客戶價(jià)值信息。此外,在經(jīng)典的RFM模型中,定義的時(shí)間變量只考慮客戶的最新交易行為,但在很多情況下,因?yàn)榭蛻舻南M(fèi)行為表現(xiàn)出時(shí)間上的變化,這樣的變量并不能準(zhǔn)確地反映客戶的重復(fù)購(gòu)買或訪問(wèn)傾向[2]。為了彌補(bǔ)上述不足,本文旨在研究一套基于數(shù)據(jù)挖掘的多指標(biāo)客戶細(xì)分模型,提高細(xì)分模型的準(zhǔn)確度。利用熵值法賦權(quán)值,構(gòu)建新的指標(biāo)矩陣,并用因子分析法進(jìn)行新指標(biāo)矩陣的降維,減小算法的時(shí)間復(fù)雜度。最后,利用改進(jìn)的 K-means 算法實(shí)現(xiàn)客戶分類。
通過(guò)某零售商提供的過(guò)去幾年的銷售點(diǎn)(POS)數(shù)據(jù),驗(yàn)證我們的多指標(biāo)客戶細(xì)分方法可以有效地識(shí)別客戶群體,幫助企業(yè)提高決策質(zhì)量和客戶關(guān)系管理水平。
客戶細(xì)分是指企業(yè)在特定的市場(chǎng)環(huán)境和運(yùn)營(yíng)模式下,按照客戶的行為、屬性、需求及偏好等變量進(jìn)行劃分,并為其提供滿足需求的服務(wù)和產(chǎn)品的過(guò)程。關(guān)于客戶細(xì)分的研究主要從以下4個(gè)方面展開,包括客戶行為、人口統(tǒng)計(jì)方法、生活方式細(xì)分以及利益的細(xì)分方法。目前,基于客戶行為的細(xì)分方法最為廣泛,該方法以信息技術(shù)為基礎(chǔ),利用數(shù)據(jù)庫(kù)中已有的客戶行為數(shù)據(jù)完成客戶細(xì)分。最常用的為Hushes提出的基于RFM(Recency、Frequency和Monetary)模型的客戶細(xì)分方法。例如,Dursun和 Caber 利用RFM模型,對(duì)酒店客戶關(guān)系管理系統(tǒng)中的客戶消費(fèi)行為信息進(jìn)行價(jià)值細(xì)分[3]。Krishna和Ravi利用RFM模型進(jìn)行客戶細(xì)分,幫助企業(yè)根據(jù)客戶的需求定制產(chǎn)品和服務(wù),提高客戶體驗(yàn)和滿意度[4]。Cho等認(rèn)為客戶的重要性并不相同,因此提出了加權(quán)的RFM模型,從客戶的消費(fèi)數(shù)據(jù)中挖掘行為模式,以提高推薦的準(zhǔn)確性,完成客戶細(xì)分[5]。
其次,客戶細(xì)分另一個(gè)重要的問(wèn)題是指標(biāo)體系的劃分。根據(jù)客戶細(xì)分變量將整個(gè)客戶群劃分為不同的小群體,由具有相似需求和特征的客戶組成。例如:Park等提出了一種用于多類別背景下客戶細(xì)分的模型框架,以預(yù)測(cè)客戶購(gòu)買模式[6]。Kwac等根據(jù)客戶的用電數(shù)據(jù)進(jìn)行生活方式的細(xì)分,并根據(jù)細(xì)分結(jié)果對(duì)哪些生活方式群體可以成為某些能源項(xiàng)目的良好候選提出建議[7]。Chen等根據(jù)顧客在服務(wù)提供中的角色和行為來(lái)識(shí)別不同的細(xì)分市場(chǎng),通過(guò)與客戶建立密切聯(lián)系,提高服務(wù)質(zhì)量[8]。Han等展示了分類變量屬性在客戶細(xì)分中的重要性[9]。
如今,客戶細(xì)分不僅能夠有效地識(shí)別關(guān)鍵客戶群,而且?guī)椭髽I(yè)更深層次地了解客戶行為和偏好。利用客戶細(xì)分結(jié)果,幫助企業(yè)制定差異化的客戶管理和營(yíng)銷策略,實(shí)現(xiàn)企業(yè)與客戶的雙贏。
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中發(fā)現(xiàn)隱藏于其中的信息的過(guò)程,如特征(Pattern)、趨勢(shì)(Trend)及相關(guān)性(Relationship),也可以說(shuō)是從數(shù)據(jù)中提取信息或知識(shí)。通過(guò)使用復(fù)雜的數(shù)據(jù)分析工具來(lái)突出大數(shù)據(jù)集下的信息結(jié)構(gòu),發(fā)現(xiàn)這些數(shù)據(jù)之間隱藏的潛在關(guān)系。對(duì)于客戶消費(fèi)數(shù)據(jù)來(lái)說(shuō),數(shù)據(jù)挖掘技術(shù)能夠幫助企業(yè)更好維系客戶關(guān)系,多屬性和多維度地發(fā)現(xiàn)客戶群體消費(fèi)需求和行為模式的差異性,實(shí)現(xiàn)精準(zhǔn)化的客戶關(guān)系管理。數(shù)據(jù)挖掘技術(shù)主要有以下幾個(gè)方面:聚類(Clustering)、分類(Classification)、回歸分析(Regression analysis)、預(yù)測(cè)(Prediction)、關(guān)聯(lián)規(guī)則(Association rules)[10-12]。
在數(shù)據(jù)挖掘技術(shù)中,客戶關(guān)系挖掘常用的幾種算法如下:聚類算法、分類算法和關(guān)聯(lián)規(guī)則挖掘。聚類算法可以發(fā)現(xiàn)不同客戶群體消費(fèi)行為的差異性,幫助企業(yè)制定精準(zhǔn)的營(yíng)銷策略。分類算法可以預(yù)測(cè)未來(lái)客戶消費(fèi)行為的趨勢(shì)。關(guān)聯(lián)規(guī)則挖掘可以找出客戶與產(chǎn)品之間的關(guān)聯(lián)性,指導(dǎo)企業(yè)進(jìn)行交叉銷售。其中,Hu等利用關(guān)聯(lián)規(guī)則,挖掘有價(jià)值的購(gòu)買模式和客戶群體[10]。Zhuang等使用3種混合類型的數(shù)據(jù)聚類算法對(duì)客戶進(jìn)行細(xì)分,挖掘有用的客戶相關(guān)信息來(lái)獲得競(jìng)爭(zhēng)優(yōu)勢(shì)[13]。Murray等利用數(shù)據(jù)挖掘方法來(lái)識(shí)別歷史嘈雜的傳遞數(shù)據(jù)中的行為模式,從而更好實(shí)現(xiàn)客戶細(xì)分[14]。Tleis等利用K-means聚類算法,實(shí)現(xiàn)有機(jī)食品市場(chǎng)的客戶價(jià)值細(xì)分[15]。Peker等通過(guò)LRFM模型聚類實(shí)現(xiàn)雜貨零售行業(yè)的客戶細(xì)分[16]。Lotko等利用神經(jīng)網(wǎng)絡(luò)對(duì)維修服務(wù)行業(yè)的顧客忠誠(chéng)度進(jìn)行建模分析[17]。
數(shù)據(jù)挖掘技術(shù)己成為企業(yè)輔助決策的重要工具。有效的客戶關(guān)系管理需要借助數(shù)據(jù)挖掘技術(shù),實(shí)現(xiàn)客戶信息的特征提取和價(jià)值分類。充分利用客戶消費(fèi)信息,能夠提高客戶忠誠(chéng)度和關(guān)系管理的質(zhì)量。同時(shí),有效地分配資源,實(shí)現(xiàn)公司利潤(rùn)最大化,保持同行業(yè)的競(jìng)爭(zhēng)力。因此,企業(yè)在客戶關(guān)系管理中使用數(shù)據(jù)挖掘技術(shù)具有重要的意義。
本節(jié)中,主要介紹了研究的模型和客戶細(xì)分流程。主要包括以下幾個(gè)步驟:①數(shù)據(jù)獲取和預(yù)處理;②分析與建模;③模型評(píng)估與優(yōu)化。其中,模型的創(chuàng)新性主要體現(xiàn)在“分析與建模”階段,包括:構(gòu)建RFMPA多指標(biāo)細(xì)分體系、熵值法客觀賦權(quán)值、因子分析降維、聚類實(shí)現(xiàn)客戶細(xì)分。具體模型流程如圖1所示。
圖1 客戶細(xì)分模型
數(shù)據(jù)獲取是數(shù)據(jù)挖掘工作的基礎(chǔ),是依據(jù)需求分析的結(jié)果提取、搜集數(shù)據(jù),主要從網(wǎng)絡(luò)數(shù)據(jù)與本地?cái)?shù)據(jù)庫(kù)中獲得。但是,原始數(shù)據(jù)中存在大量異常數(shù)據(jù),例如:數(shù)據(jù)缺失、異常值、不一致等,嚴(yán)重影響數(shù)據(jù)分析模型的效率,甚至?xí)?dǎo)致分析結(jié)果的偏差。所以,數(shù)據(jù)清洗變得尤其重要。數(shù)據(jù)清洗完成之后,接下來(lái)需要進(jìn)行的是數(shù)據(jù)的轉(zhuǎn)換、集成、規(guī)約等一系列操作,這就是數(shù)據(jù)獲取和預(yù)處理。數(shù)據(jù)預(yù)處理一方面可以提高基礎(chǔ)數(shù)據(jù)的質(zhì)量,另一方面能夠讓數(shù)據(jù)更好地適應(yīng)特定的數(shù)據(jù)挖掘模式,降低模型所花費(fèi)的時(shí)間。
2.2.1 構(gòu)建RFMPA指標(biāo)體系
經(jīng)典的RFM模型中,只考慮客戶近期的交易情況,并不能完全刻畫客戶整體行為特征。結(jié)合數(shù)據(jù)的多維特性,我們對(duì)傳統(tǒng)的客戶細(xì)分指標(biāo)進(jìn)行更新和優(yōu)化,主要體現(xiàn)在以下幾個(gè)方面:
(1)將每一個(gè)維度劃分為宏觀和微觀方面。在宏觀方面可以反映出客戶在整體消費(fèi)中的情況,微觀方面反映自身近期購(gòu)買行為特征;
(2)增加了客戶購(gòu)買行為的周期性和數(shù)量。一方面能夠準(zhǔn)確反映客戶交易行為,另一方面體現(xiàn)了客戶的購(gòu)買力。
首先,在R(Recency)的選取上,經(jīng)典的客戶細(xì)分模型通常選取客戶最近一次訪問(wèn)日期到觀察期的時(shí)間間隔。在此基礎(chǔ)上,我們將近度變量修改為客戶N次訪問(wèn)日期到觀察期之間的平均天數(shù),可以觀察出客戶訪問(wèn)公司的程度,并提供有關(guān)重復(fù)購(gòu)買傾向的信息,模型計(jì)算公式如下
(1)
其中,date_dis(tenddate,tm-i), 表示觀察期日期與客戶來(lái)訪日期之間的差值。tm是客戶最后一次訪問(wèn)。n是客戶總計(jì)訪問(wèn)的次數(shù)。當(dāng)n=1時(shí),新定義的近度值變量等于傳統(tǒng)的近度值,因此新特征變量包含了經(jīng)典的變量特征。R1為顧客消費(fèi)平均近度值與所有客戶平均近度值的比值,R2為顧客一年內(nèi)近度值與其自身歷史近度值的比值。比值越高,說(shuō)明客戶消費(fèi)時(shí)間距離觀察期越近,客戶的流失性越小。反之,客戶的流失性越大。
F(Frequency)選取上,以顧客觀察期內(nèi)總的消費(fèi)次數(shù)為分子,所有顧客的平均消費(fèi)次數(shù)為分母,二者的比值記為F1。宏觀方面體現(xiàn)了客戶在全部客戶中的水平。微觀方面,選取了近一年內(nèi)總的消費(fèi)次數(shù)和自身總的消費(fèi)次數(shù),二者的比值為F2。目的是觀察客戶近期忠誠(chéng)度的變化,如果近一年內(nèi)總的消費(fèi)次數(shù)與總的消費(fèi)次數(shù)比值較大,說(shuō)明客戶的忠誠(chéng)度處于上升期。
M(Monetary)選取上,統(tǒng)計(jì)客戶在觀察期內(nèi)總消費(fèi)金額,并計(jì)算所有客戶的平均消費(fèi)金額。M1為客戶消費(fèi)總金額與全部客戶平均消費(fèi)金額的比值,M2為客戶近期內(nèi)消費(fèi)額與其歷史總消費(fèi)額的比值。通過(guò)消費(fèi)金額的比值大小,可以觀察出客戶對(duì)企業(yè)的貢獻(xiàn)度的高低。如果比值較大,說(shuō)明客戶購(gòu)買力較大,企業(yè)應(yīng)該將資源投入到這部分客戶中去,提高客戶滿意度和客戶價(jià)值。反之,客戶購(gòu)買力越小,企業(yè)應(yīng)適當(dāng)投放資源,并制定有效的營(yíng)銷策略,刺激客戶消費(fèi)。
在P(Periodicity)的確定上,我們定義為客戶訪問(wèn)間隔時(shí)間的標(biāo)準(zhǔn)差,它能夠反映客戶是否定期光顧商店,計(jì)算公式如下
Periodicity=stdev(VT1,VT2,…,VTn)
(2)
其中,n表示客戶訪問(wèn)間隔值的個(gè)數(shù)。VT表示訪問(wèn)時(shí)間間隔,指客戶連續(xù)兩次訪問(wèn)之間經(jīng)過(guò)的時(shí)間。P1為客戶購(gòu)買產(chǎn)品的周期值與全部客戶購(gòu)買產(chǎn)品的平均周期值的比值。P2為客戶近期內(nèi)購(gòu)買產(chǎn)品周期性值與其歷史總購(gòu)買周期性值的比值。周期性表示客戶訪問(wèn)是否傾向于定期進(jìn)行。如果一個(gè)客戶的周期性值較低,這意味著該客戶訪問(wèn)或購(gòu)買的時(shí)間間隔相對(duì)固定,可以被認(rèn)為是有規(guī)律的。
A(Amount)為客戶消費(fèi)記錄中購(gòu)買商品數(shù)量的多少,A1為客戶購(gòu)買產(chǎn)品數(shù)量與全部客戶平均購(gòu)買數(shù)量的比值。A2為客戶近期內(nèi)購(gòu)買產(chǎn)品數(shù)量與其歷史總購(gòu)買數(shù)量的比值。通過(guò)觀察這一指標(biāo),目的是從客戶的購(gòu)買記錄中發(fā)現(xiàn)客戶消費(fèi)的種類越多,那么對(duì)這類客戶進(jìn)行交叉銷售可能性越高。在對(duì)商品購(gòu)物籃分析之后,他們更傾向于購(gòu)買種類較多的產(chǎn)品。企業(yè)可以根據(jù)客戶的這種心理趨勢(shì)來(lái)完成產(chǎn)品的交叉銷售,提高產(chǎn)品銷量。
構(gòu)建RFMPA模型的指標(biāo)體系見表1。
表1 客戶細(xì)分指標(biāo)體系
2.2.2 確定權(quán)重
進(jìn)一步研究,經(jīng)典RFM模型在指標(biāo)權(quán)重劃分方面存在不同意見。Hughes和Arthur認(rèn)為RFM模型在權(quán)重劃分方面是相同的,應(yīng)該賦予相同的權(quán)重值。而Stone和Jacobs利用信用卡用戶數(shù)據(jù)的實(shí)證分析表明,各個(gè)指標(biāo)的權(quán)重并不相同,應(yīng)賦予頻度值最高,近度次之,花費(fèi)金額最低。目前,關(guān)于客戶細(xì)分指標(biāo)權(quán)重的研究主要有以下兩個(gè)方面:一是主觀賦權(quán)法,包括層次分析法、特征值法等,主觀評(píng)價(jià)法與決策者自身理解能力有關(guān),人為因素的影響較大。二是客觀賦權(quán)法,包括極差法、熵值法等,客觀評(píng)價(jià)法重視數(shù)學(xué)理論的應(yīng)用,從數(shù)據(jù)的離散程度和信息貢獻(xiàn)度出發(fā),不受決策者本身影響。
為了得到更加客觀的客戶細(xì)分結(jié)果,突出指標(biāo)重要性,選用熵值法來(lái)計(jì)算細(xì)分指標(biāo)的權(quán)重。按照各項(xiàng)指標(biāo)觀測(cè)值所提供信息的能力來(lái)確定權(quán)重值。熵值法的具體步驟如下:
(1)建立數(shù)據(jù)矩陣
(3)
其中,Xij為第i個(gè)客戶,第j個(gè)細(xì)分指標(biāo)的數(shù)值。
(2)數(shù)據(jù)標(biāo)準(zhǔn)化處理
其中,為避免計(jì)算熵值時(shí)對(duì)數(shù)的無(wú)意義,對(duì)數(shù)據(jù)進(jìn)行了平移,正向指標(biāo)
(4)
負(fù)向指標(biāo)
(5)
(3)計(jì)算第i個(gè)客戶,第j個(gè)指標(biāo)的比重
(6)
(4)計(jì)算第j項(xiàng)指標(biāo)的熵值
(7)
其中,k=1/lnn, ln為自然對(duì)數(shù),n為客戶數(shù)量,ej≥0。
(5)計(jì)算第j項(xiàng)指標(biāo)的差異系數(shù)
gj=1-ej
(8)
對(duì)于第j項(xiàng)指標(biāo),指標(biāo)值X′ij的差異越大,對(duì)方案評(píng)價(jià)的作用越大,熵值就越小,gj值就越大。說(shuō)明指標(biāo)越重要。
(6)計(jì)算各項(xiàng)指標(biāo)的權(quán)值
(9)
A′=AW
(10)
2.2.3 數(shù)據(jù)降維
熵值法是按照各項(xiàng)指標(biāo)的差異程度來(lái)確定權(quán)重值的大小,避免了主觀因素帶來(lái)的偏差,但熵值法并不能降低評(píng)價(jià)指標(biāo)的維度,存在聚類時(shí)間復(fù)雜度較高的現(xiàn)象,所以我們引用了因子分析法對(duì)新指標(biāo)矩陣進(jìn)行數(shù)據(jù)降維。
因子分析模型:一般地設(shè)X=(x1,x2,…,xp)′為可觀測(cè)的隨機(jī)變量,且有
Xi=μi+ai1f1+ai2f2+…+aimfm+ei
(11)
其中,f=(f1,f2,…,fm)′ 為公共因子,e=(e1,e2,…,ep)′ 為特殊因子,f和e均為不可直接觀測(cè)的隨機(jī)變量。μ=(μ1,μ2,…,μp)′ 為總體X的均值。A=(aij)p*m為因子載荷矩陣。
通常先對(duì)X做標(biāo)準(zhǔn)化處理,使其均值為零,方差為1,這樣就有:
假定:
(1)fi的均數(shù)為0,方差為1;
(2)ei的均數(shù)為0,方差為δi;
(3)fi與ei相互獨(dú)立。
則稱X為具有m個(gè)公共因子的因子模型。
如果滿足fi與fj相互獨(dú)立 (i≠j), 則稱該因子模型為正交因子模型。正交因子模型具有如下特性:
X的方差可表示為
Var(xi)=1=ai12+ai22+…+aim2+δi
(12)
設(shè)
hi2=ai12+ai22+…+aim2
(13)
則:
(1)hi2是m個(gè)公共因子對(duì)第i個(gè)變量的貢獻(xiàn),表示第i個(gè)共同度或共性方差;
(2)δi為特殊方差,表示不能由公共因子解釋的部分。
因子載荷是隨機(jī)變量與公共因子的相關(guān)系數(shù)。
設(shè)
(14)
稱gj2為公共因子fj對(duì)X的“貢獻(xiàn)”,是衡量公共因子重要性的一個(gè)指標(biāo)。
因子分析步驟:
(1)輸入原始數(shù)據(jù)Xn*p, 計(jì)算樣本均值和方差;
(2)求樣本相關(guān)系數(shù)矩陣R=(rij)p*p;
(3)求相關(guān)系數(shù)矩陣的特征根λi(λ1,λ2,…,λp>0) 和相應(yīng)的標(biāo)準(zhǔn)正交的特征向量;
(4)確定公共因子數(shù);
(5)計(jì)算公共因子的共性方差hi2;
(6)對(duì)載荷矩陣進(jìn)行旋轉(zhuǎn),以求能更好解釋公共因子。
因子分析法是利用變量與變量之間的關(guān)系,用少數(shù)幾個(gè)因子去表示多指標(biāo)之間的相關(guān)性。Kaiser度量標(biāo)準(zhǔn)見表2。
表2 因子分析度量標(biāo)準(zhǔn)
對(duì)新指標(biāo)矩陣,我們根據(jù)KMO和Bartlett’s test來(lái)確定變量之間是否適合進(jìn)行因子分析,參照并通過(guò)累計(jì)方差貢獻(xiàn)率和特征根來(lái)確定因子的數(shù)目,累計(jì)方差貢獻(xiàn)率一般要不小于85%,特征根要求大于1。
2.2.4 聚類
接下來(lái),需要對(duì)因子變量進(jìn)行聚類,完成客戶細(xì)分。其中常用的聚類算法為K-means算法,通過(guò)隨機(jī)選取一組初始聚類中心,不斷更新迭代,直到聚類結(jié)果不再變化[18]。但K-means算法中K值的確定是難以估計(jì)的,起初我們并不確定將數(shù)據(jù)集劃分成多少個(gè)類別最合適,有些根據(jù)研究經(jīng)驗(yàn)來(lái)確定K值。此外,聚類算法中初始中心點(diǎn)的選擇對(duì)分類結(jié)果影響較大,如果初始值選取不好,可能無(wú)法得到預(yù)期的效果。所以,我們利用改進(jìn)的K-means算法來(lái)彌補(bǔ)以上不足。
首先,根據(jù)SSE(手肘法)確定最佳聚類數(shù)目K,SSE定義為每個(gè)簇的對(duì)象與其聚類中心之間距離的平方和。通常類別越多,SSE就越小。一個(gè)合適的K值可以定義為SSE下降速度顯著放緩的值。因?yàn)楫?dāng)K值小于真實(shí)聚類數(shù)時(shí),由于K的增加會(huì)大幅提高每個(gè)簇的聚合程度,所以SSE的下降趨勢(shì)很明顯。而當(dāng)K值達(dá)到真實(shí)聚類數(shù)目時(shí),再增大K所得到的聚合程度會(huì)極速變小,SSE的下降幅度也會(huì)驟減。所以說(shuō)SSE和K的趨勢(shì)圖是一個(gè)手肘的形狀,而肘部的位置就是對(duì)應(yīng)的K值的真實(shí)聚類數(shù)[19]。
此外,當(dāng)確定好聚類數(shù)目之后,在初始點(diǎn)的選擇上,我們選取盡可能遠(yuǎn)的K個(gè)點(diǎn),這個(gè)改進(jìn)雖然簡(jiǎn)單直觀,但卻十分有效。具體算法如下描述:
(1)從輸入的數(shù)據(jù)集中隨機(jī)選取一個(gè)點(diǎn),作為初始聚類中心點(diǎn);
(2)對(duì)數(shù)據(jù)集中的每一個(gè)點(diǎn)X, 計(jì)算其與初始聚類中心點(diǎn)的距離D(x), 并將其放到一個(gè)數(shù)組里邊,然后距離相加得到Sum(D(x));
(3)選擇下一個(gè)新的聚類中心點(diǎn),選擇原則是:D(x) 較大的點(diǎn),也就是距離初始中心點(diǎn)最遠(yuǎn)的點(diǎn),被選取的機(jī)率較大。通過(guò)權(quán)重的方法來(lái)獲取下一個(gè)初始種子點(diǎn)。步驟如下:
1)取一個(gè)可以落在Sum(D(x)) 中的隨機(jī)值Random,計(jì)算方法為Sum(D(x)) 與0到1之間的隨機(jī)數(shù)相乘;
2)找出當(dāng)前Random所在的區(qū)間,Random等于Random 減去D(x), 直到其小于或等于0,此時(shí)對(duì)應(yīng)的點(diǎn)就是下一個(gè)初始種子點(diǎn)。如圖2所示,Random有更大的概率落在D(x3) 中。
圖2 初始聚類中心點(diǎn)選取
(4)重復(fù)第(2)步和第(3)步,直到選出K個(gè)初始聚類中心點(diǎn)。
(5)根據(jù)選出的K個(gè)初始聚類中心點(diǎn),運(yùn)行標(biāo)準(zhǔn)的 K-means 算法。
另外,在距離計(jì)算方面,我們采用歐氏距離
(15)
其中,Xi為樣本i所有指標(biāo)形成的向量,Cj是簇j的中心點(diǎn)對(duì)應(yīng)這些指標(biāo)的向量,n是指標(biāo)的個(gè)數(shù)。
為了驗(yàn)證結(jié)果的有效性,我們與經(jīng)典RFM指標(biāo)對(duì)客戶進(jìn)行細(xì)分的結(jié)果對(duì)比。并驗(yàn)證選取初始中心點(diǎn)之后的聚類時(shí)間和迭代次數(shù)的優(yōu)化。在聚類效果的評(píng)估中主要考慮的是類別的緊密程度,因此我們將每個(gè)客戶點(diǎn)與其聚類中心點(diǎn)的類內(nèi)平均歐氏距離作為標(biāo)準(zhǔn)
(16)
Xi是樣本i所有指標(biāo)形成的向量,Cj是簇j的中心點(diǎn)對(duì)應(yīng)這些指標(biāo)的向量,n是指標(biāo)的個(gè)數(shù),m為類內(nèi)樣本的數(shù)量。
我們將某零售商提供的過(guò)去3年的Pointofsales數(shù)據(jù)(POS數(shù)據(jù))作為案例,數(shù)據(jù)集含有3萬(wàn)多條會(huì)員信息,約38萬(wàn)條消費(fèi)記錄。我們對(duì)原始數(shù)據(jù)集進(jìn)行預(yù)處理工作,對(duì)存在多個(gè)屬性信息缺失的情況予以刪除,少部分缺失進(jìn)行插值補(bǔ)全。通過(guò)對(duì)數(shù)據(jù)的清洗和整合,最終有31 099條會(huì)員基本信息和362 368條消費(fèi)信息被保留,約94%的原始數(shù)據(jù)集。
首先,根據(jù)熵值法得到的每個(gè)指標(biāo)的權(quán)重為W=(0.12044223,0.13227003,0.00438084,0.26321809,0.00650823,0.16555703,0.00389175,0.14118024,0.00505721,0.15749435)。 將得到的權(quán)重值按式(10)計(jì)算得到新的數(shù)據(jù)矩陣。
接下來(lái),利用KMO和Bartlett’s 檢驗(yàn)來(lái)確定新的數(shù)據(jù)矩陣之間是否適合進(jìn)行因子分析。通過(guò)計(jì)算,我們得出的結(jié)果見表3。
表3 KMO和Bartlett’s test
可以看出KMO=0.857,說(shuō)明數(shù)據(jù)矩陣比較適合進(jìn)行因子分析。Bartlett’s test Sig值小于0.05,說(shuō)明拒絕零假設(shè),即相關(guān)矩陣不是單位矩陣,原矩陣之間有共同因素存在,適合進(jìn)行因子分析。進(jìn)一步,通過(guò)計(jì)算累計(jì)方差貢獻(xiàn)率和特征根來(lái)確定因子的數(shù)目,見表4。
表4 總方差解釋
從表4可以看出,因子1的方差百分比為57.42%,因子2的方差百分比為15.96%,因子3的方差百分比為13.605%,前3個(gè)因子累積貢獻(xiàn)率為87%。另外,觀察特征值和旋轉(zhuǎn)平方和載入數(shù)據(jù),最終我們選取了3個(gè)因子。
聚類方面,為了彌補(bǔ)傳統(tǒng)聚類算法的不足,我們首先根據(jù)SSE法來(lái)確定最佳聚類的數(shù)量,通過(guò)觀察肘部的位置來(lái)確定K值。將降維后,選取3個(gè)公共因子的數(shù)據(jù)集作為輸入,找出肘部位置,如圖3所示。顯然,肘部對(duì)應(yīng)的K值為5,所以針對(duì)這個(gè)數(shù)據(jù)集來(lái)說(shuō),最佳聚類數(shù)目應(yīng)該選擇5類。
圖3 SSE圖
接下來(lái),在初始聚類中心點(diǎn)的選擇上,按照2.2.4節(jié)所描述,選取盡可能遠(yuǎn)的5個(gè)點(diǎn)作為初始聚類中心,結(jié)果見表5。
表5 初始聚類中心
最后,我們根據(jù)標(biāo)準(zhǔn)K-means算法,將客戶分為5類,聚類信息見表6。
表6 多指標(biāo)客戶細(xì)分結(jié)果
依據(jù)聚類結(jié)果,我們將客戶細(xì)分為5個(gè)等級(jí),分別為:C1中價(jià)值客戶、C2重要發(fā)展客戶、C3低價(jià)值客戶、C4高價(jià)值客戶、C5一般客戶。
對(duì)同一個(gè)數(shù)據(jù)集,根據(jù)經(jīng)典客戶細(xì)分指標(biāo)對(duì)客戶進(jìn)行細(xì)分,并按照本文所述評(píng)估方法進(jìn)行計(jì)算,聚類信息見表7。同時(shí)監(jiān)控新模型和經(jīng)典模型的算法運(yùn)行時(shí)間和迭代次數(shù),以及聚類中心變動(dòng)大小的變化。
表7 傳統(tǒng)細(xì)分模型結(jié)果
通過(guò)實(shí)際案例發(fā)現(xiàn),在找出初始聚類中心以后,聚類中心變動(dòng)均值(5個(gè)聚類中心點(diǎn)變化的平均值)從最初的
1.87下降到0.57,說(shuō)明初始點(diǎn)的選取對(duì)聚類迭代有很大的影響。從圖4(橫坐標(biāo)為聚類迭代次數(shù),縱坐標(biāo)為聚類中心變動(dòng)的均值大小)結(jié)果對(duì)比可以看出,標(biāo)準(zhǔn)的聚類算法迭代了70多次,而加入初始點(diǎn)以后迭代了30多次,聚類的迭代次數(shù)是原來(lái)的1/2左右,說(shuō)明對(duì)初始聚類中心點(diǎn)的選取做了優(yōu)化,簡(jiǎn)要來(lái)說(shuō)就是使初始聚類中心點(diǎn)盡可能分散開來(lái),這樣可以有效減少迭代次數(shù),加快運(yùn)算速度。而且聚類所花費(fèi)時(shí)間從00:01.13下降到00:00.50,可以看出算法在改進(jìn)之后迭代次數(shù)和聚類時(shí)間都得到了優(yōu)化。
圖4 結(jié)果對(duì)比
我們將兩種模型的細(xì)分結(jié)果進(jìn)行對(duì)比,很容易發(fā)現(xiàn),經(jīng)典RFM模型細(xì)分結(jié)果中每個(gè)類別除了花費(fèi)金額差異較大,其它特征差異較小。另外,可以看出各個(gè)類別的類內(nèi)平均距離較大。而通過(guò)表7可以看出,利用多指標(biāo)客戶細(xì)分模型得到的細(xì)分結(jié)果,類與類之間的差異較大,類內(nèi)差異較小,聚類效果更為緊湊。這表明該模型在聚類緊湊性和特征劃分能力方面優(yōu)于傳統(tǒng)的客戶細(xì)分方法,可以有效地幫助企業(yè)區(qū)分不同類型的客戶群體,提高客戶關(guān)系管理水平和決策質(zhì)量。
本文提出的多指標(biāo)客戶細(xì)分模型,根據(jù)細(xì)分結(jié)果,可以幫助企業(yè)決策者制定精準(zhǔn)的營(yíng)銷策略,加強(qiáng)企業(yè)與客戶之間的聯(lián)系,從而帶來(lái)更高的利潤(rùn)。在本節(jié)中,我們將提供基于客戶細(xì)分的管理策略示例,目的是留住高價(jià)值客戶,吸引一般客戶,爭(zhēng)取重要發(fā)展客戶,從而提高企業(yè)利潤(rùn)和客戶滿意度。
中價(jià)值客戶(C1),他們是企業(yè)比重最大的客戶,占整體的30%左右,消費(fèi)水平是整體客戶的平均水平。然而這個(gè)群體中,客戶消費(fèi)的平均近度值較低,說(shuō)明客戶購(gòu)買產(chǎn)品的時(shí)間間隔較長(zhǎng),流失的可能性較高。企業(yè)應(yīng)該關(guān)注這類客戶的最新消息,采取一定的營(yíng)銷方法,降低客戶流失的可能性。
重要發(fā)展客戶(C2),他們是企業(yè)的潛在價(jià)值客戶,客戶人數(shù)占整體的15.1%。雖然消費(fèi)水平低于高價(jià)值客戶,但整體來(lái)看屬于企業(yè)的忠實(shí)客戶,有很大的發(fā)展?jié)摿?。在營(yíng)銷活動(dòng)中,企業(yè)應(yīng)重視與這類客戶的關(guān)系,制定適當(dāng)?shù)挠脩舨呗?,刺激他們消費(fèi)。另外,促進(jìn)重要發(fā)展客戶向高價(jià)值客戶轉(zhuǎn)變,實(shí)現(xiàn)企業(yè)長(zhǎng)遠(yuǎn)穩(wěn)定的收益。
低價(jià)值客戶(C3)和一般客戶(C5),這兩類客戶人數(shù)占了總?cè)藬?shù)的50%左右。整體表現(xiàn)為購(gòu)買數(shù)額小、頻次低、時(shí)間間隔較遠(yuǎn),購(gòu)買行為具有很大的隨意性。通常,商品促銷和降價(jià)對(duì)這類客戶有很大的吸引力。企業(yè)可以定期制定營(yíng)銷活動(dòng),促進(jìn)他們向發(fā)展客戶的轉(zhuǎn)變。同時(shí),企業(yè)應(yīng)該適當(dāng)減少這類客戶的資源投入,轉(zhuǎn)移到有價(jià)值的客戶群體,從而達(dá)到企業(yè)資源的有效利用。
高價(jià)值客戶(C4),他們的購(gòu)買金額大,消費(fèi)頻次多,購(gòu)買種類多,對(duì)企業(yè)的貢獻(xiàn)最大,但他們所占的比例卻最小,占整體客戶的7.8%。企業(yè)在進(jìn)行客戶關(guān)系管理時(shí),應(yīng)該重點(diǎn)關(guān)注這類客戶。將企業(yè)資源優(yōu)先投放到他們身上,并進(jìn)行個(gè)性化管理和精準(zhǔn)的營(yíng)銷策略,提高他們的滿意度和忠誠(chéng)度,延長(zhǎng)這類客戶的消費(fèi)周期。
本文針對(duì)當(dāng)前客戶細(xì)分的背景,結(jié)合數(shù)據(jù)挖掘工具,提出了多指標(biāo)客戶細(xì)分模型。從微觀和宏觀角度考慮,將傳統(tǒng)指標(biāo)進(jìn)行細(xì)化,并加入新的細(xì)分指標(biāo)。通過(guò)熵值法為指標(biāo)賦權(quán)。為了減少聚類的時(shí)間復(fù)雜度,利用因子分析進(jìn)行數(shù)據(jù)降維。最后,利用改進(jìn)的K-means聚類算法,在K值的確定和初始中心點(diǎn)的選取上進(jìn)行優(yōu)化,確定客戶細(xì)分結(jié)果。對(duì)某零售商會(huì)員數(shù)據(jù)進(jìn)行細(xì)分的實(shí)證研究結(jié)果表明,在聚類緊湊性和特征劃分能力方面優(yōu)于經(jīng)典的客戶細(xì)分方法,能夠幫助企業(yè)提高客戶關(guān)系管理水平和決策質(zhì)量。
客戶細(xì)分有助于公司的戰(zhàn)略制定并提升競(jìng)爭(zhēng)力。為了更好滿足客戶需求和偏好,企業(yè)必須認(rèn)識(shí)到客戶的差異性,從而制定精準(zhǔn)的營(yíng)銷策略?;诳蛻艏?xì)分問(wèn)題的研究,未來(lái)的工作將圍繞更加細(xì)致的客戶分類,分析不同客戶具有的各種用戶特征。結(jié)合數(shù)據(jù)挖掘技術(shù),輔助客戶細(xì)分的決策與優(yōu)化。我們將進(jìn)一步對(duì)上述問(wèn)題進(jìn)行研究,期望獲得更有理論意義和實(shí)際應(yīng)用價(jià)值的成果。