李曉萍
(張家口學院 經(jīng)濟與管理學院 河北省張家口市 075000)
當前具有聚類分類的方法有很多,對于不同的客戶分類研究中,不同的分類方法產(chǎn)生的分類效果對于企業(yè)的接下來的工作有直接的影響,效果不好的分來有可能直接導致優(yōu)質(zhì)客戶的流失而對價值一般的客戶投入太多的精力。當前應(yīng)用于客戶分類中的RFM 模型是利用K-means算法進行操作。本文認為綜合商場商品種類較多,由于不同的品牌檔次對于客戶價值的確定有著至關(guān)重要的作用,日常生活中消費者更傾向于購買知名品牌的商品,原因是由于其質(zhì)量以及售前售后服務(wù)都有所保證,所以加入一新的變量購買品牌P 以改善RFM 模型。本文根據(jù)歷史數(shù)據(jù)以及商場性質(zhì)直接確定了聚類數(shù)目K 值[5],但是由于初始聚類中心的波動[3-4]引起的效果變動,對于初始聚類中心用比例劃分法,不同的變量屬性對于客戶的價值貢獻是有差別的,本文也對改進后的RFA 的四個因素賦予權(quán)重。繼而進行計算每個節(jié)點到聚類中心的距離,選擇對應(yīng)距離最小的加入聚類,進行傳統(tǒng)的迭代算法直至根據(jù)判定函數(shù)確定聚類沒有明顯的變化。
RFM 模型是分析客戶價值的一種定量分析模型,它通過三個變量值來描述客戶的重要程度和客戶類型,即最近購買時問(R),某一期間內(nèi)購買的次數(shù)(F),某一期間內(nèi)購買的總金額(M)。本文結(jié)合Marcus 提出客戶價值矩陣模型,提出了新的模型結(jié)構(gòu)RFAP,最近購買時間(R),期間內(nèi)購買次數(shù)(F),平均購買額(A),購買品牌屬性(T)新加入的購買品牌屬性是一個分類消費者消費層次的重要變量。此模型數(shù)據(jù)的預(yù)處理:設(shè)給定時間段2019-01-01—2014-06-30。R’=R-2019-01-01,A=M/F,P 根據(jù)商場內(nèi)部進貨渠道確定不同品牌檔次分類數(shù),本文選取5 個檔次由低到高Ti(i=1,2,3,4,5),Ti=i,利用示性函數(shù)轉(zhuǎn)化成數(shù)值進行品牌得分的處理,即得分(1)S=∑5
i=1(TiPi),∑5i=1Pi=1(Pi是在規(guī)定時間內(nèi)所買商品檔次i 的頻率),得分越高,說明此消費者更傾向于高端品牌,反之則喜歡低價商品。
聚類是一種機器學習技術(shù),它涉及到數(shù)據(jù)點的分組。給定一組數(shù)據(jù)點,我們可以使用聚類算法將每個數(shù)據(jù)點劃分為一個特定的組。理論上,同一組中的數(shù)據(jù)點應(yīng)該具有相似的屬性和/或特征,而不同組中的數(shù)據(jù)點應(yīng)該具有高度不同的屬性和/或特征。聚類是一種無監(jiān)督學習的方法,是許多領(lǐng)域中常用的統(tǒng)計數(shù)據(jù)分析技術(shù)。
目前主要的聚類方法有以下幾種,分別是均值偏移聚類算法、DBSCAN 聚類算法、使用高斯混合模型(GMM)的期望最大化(EM)聚類、層次聚類算法、K-means 聚類算法
均值偏移聚類算法是一種基于滑動窗口的算法,它試圖找到密集的數(shù)據(jù)點。而且,它還是一種基于中心的算法,它的目標是定位每一組群/類的中心點,通過更新中心點的候選點來實現(xiàn)滑動窗口中的點的平均值。這些候選窗口在后期處理階段被過濾,以消除幾乎重復的部分,形成最后一組中心點及其對應(yīng)的組。
DBSCAN 聚類算法是一個比較有代表性的基于密度的聚類算法。具體步驟:
(1) 首先確定半徑r 和最小點.從一個沒有被訪問過的任意數(shù)據(jù)點開始,以這個點為中心,r 為半徑的圓內(nèi)包含的點的數(shù)量是否大于或等于最小點,如果大于或等于最小點,則改點被標記為中心點,反之則會被標記為噪聲。
(2) 重復1 的步驟,如果一個噪聲存在于某個中心點為半徑的圓內(nèi),則這個點被標記為邊緣點,反之仍為噪聲。重復步驟1,知道所有的點都被訪問過。此種聚類方法的優(yōu)點是不需要知道簇的數(shù)量,缺點是需要確定距離r 和最小點。
使用高斯混合模型,我們可以假設(shè)數(shù)據(jù)點是高斯分布的以二維的例子為例,這意味著聚類可以采用任何形式的橢圓形狀。因此,每個高斯分布可歸屬于一個單獨的聚類。
層次聚類算法實際上分為兩類:自上而下或自下而上。自下而上的算法在一開始就將每個數(shù)據(jù)點視為一個單一的聚類,然后依次合并(或聚集)類,直到所有類合并成一個包含所有數(shù)據(jù)點的單一聚類。因此,自下而上的層次聚類稱為合成聚類或HAC。聚類的層次結(jié)構(gòu)用一棵樹(或樹狀圖)表示。樹的根是收集所有樣本的唯一聚類,而葉子是只有一個樣本的聚類。
在K-Means 聚類方法中,
(1)首先,我們選擇一些類/組來使用并隨機地初始化它們各自的中心點。要想知道要使用的類的數(shù)量,最好快速地查看一下數(shù)據(jù),并嘗試識別任何不同的分組。中心點是與每個數(shù)據(jù)點向量相同長度的向量。
(2)每個數(shù)據(jù)點通過計算點和每個組中心之間的距離進行分類,然后將這個點分類為最接近它的組。
(3)基于這些分類點,我們通過取組中所有向量的均值來重新計算組中心。
(4)對一組迭代重復這些步驟,還可以選擇隨機初始化組中心幾次,然后選擇那些看起來對它提供了最好結(jié)果的來運行。
K-Means 聚類算法的優(yōu)勢在于它的速度非??欤驗槲覀兯龅闹皇怯嬎泓c和群中心之間的距離;它有一個線性復雜度O(n)。K-Means 也有幾個缺點。首先,必須選擇有多少組/類。分類可以通過歷史數(shù)據(jù)或者具體實驗要求進行確定,K-Means 也從隨機選擇的聚類中心開始,因此在不同的算法運行中可能產(chǎn)生不同的聚類結(jié)果。因此,結(jié)果可能是不可重復的,并且缺乏一致性。其他聚類方法更加一致。本文針對此種方法在應(yīng)用過程中的缺點進行了改進,可以有效地避免由于聚類中心隨機選擇出現(xiàn)的每一次運行聚類結(jié)果不同的缺點。
圖1
K-means 聚類計算點到聚類中心的距離用的是歐幾里得距離公式:(2)是樣本數(shù)據(jù)點,ck是k 個聚簇的聚類中心。隨機選取的初始聚類中心可能使數(shù)據(jù)的分類在第一步就發(fā)生錯誤,基于綜合商場的消費人群的特點,各類人群的消費M 和人數(shù)Z 不是平均分配的,M 越大,Z 越小,也就是說越是高端用戶準入條件越復雜,所以人數(shù)會越少。針對高端用戶,商場對應(yīng)提供的服務(wù)品質(zhì)以及優(yōu)惠政策都是具有排他性的,直至聚類不再發(fā)生變化則可以輸出,評價聚類的函數(shù):
針對綜合商場的特點,商品種類繁多,日人流量龐大,消費檔次不一,以及聚類中心的隨機選取造成的類簇內(nèi)緊密度密下降的問題,本文提出了對傳統(tǒng)的K-means第2步和5步的改善:距離公式(4)(i 是每一個點對應(yīng)的屬性,wi是屬性的權(quán)重),之所以要賦予權(quán)重。是因為不同的屬性對客戶總體價值的體現(xiàn)貢獻不同。例如一個人的購買次數(shù)很多,但是總購買額度而卻比另外的一位客戶一次購買額度還要小,那么這倆位客戶的價值如何確定呢?利用歷史數(shù)據(jù)得出的客戶價值合理分配權(quán)重w_i.
(1)首先利用距離公式計算樣本任意倆點間的距離并得到max{d1(xa, xb)},(a=1,2…..t,b=1,2….t,a ≠b)(5)。
(2)根據(jù)歷史數(shù)據(jù)得到各消費層次的人數(shù)mk(k=1,2….5)的比值,從點值得分最高的開始,以距離確定點集合(i=1,2….5,Hk是第k 個聚類包含的點的集合)。
(4)在每個點集里面,根據(jù)點值得分公式可以算出每個點的得分,之后利用公式(8)(xkp, xkq分別是第k個聚類中的任意倆點,指第K 個聚類的點數(shù))確定初始聚類中心,Centrexk與對應(yīng)聚類中的點值相等或最接近的點即為初始聚類中心,在每個聚類中都可以找到。
此聚類方法得到的初始聚類中心避免了錯誤的把所有消費人群均分,即初始點可能聚集在點比較集中的某一區(qū)域內(nèi)。就像前面說到的,高端客戶類別里的人數(shù)要比普通客戶的人數(shù)要少,先確定客戶得分最高的點,然后確定點集,最后再點集里面尋找中心位置點,這樣得到的初始聚類中心符合生活中綜合商場中的人群消費特點。
那么此方法迭代到一個什么樣的程度就算是完成聚類,本文根據(jù)現(xiàn)實意義在原方法上增加一個限制條件:①聚類中心的變化在ε之內(nèi),②mk之間的比值相對穩(wěn)定。
每個聚類都類似一個圓,最邊界的點在迭代的過程中會發(fā)生類別之間的跳動,簡單來說就是第一次在類k1,第二次在類k2,第三次又在類k1 中,這樣的點我們要標記出來不重復迭代,這些點的現(xiàn)實意義表示很容易發(fā)生價值提升和降低的客戶,對于這樣的客戶我們要采取特定的銷售策略,從而人為的改變他的潛在價值。而對于靠近聚類中心的點則是比較穩(wěn)定的客戶,對待這樣的客戶屬于不同的聚類采取特定的措施。已知k 值,則對于k 個聚類,處于最低端的客戶聚類是最沒有價值的,對綜合商場的總體貢獻偏低,一般這個類別都是由散客來構(gòu)成的,對于此類客戶的營銷手段可以通過促銷打折、以及降價等大型活動來維持人流量,通過薄利多銷的模式提高此類用戶的消費價值。
當k=5,四個分類屬性分別為R’FAP,每個數(shù)據(jù)點的得分值利用公式⑴給出,每個衡量指標都用數(shù)值表示,有四個字母所代表的含義說明了得分值越大客戶總體價值越高。四個屬性所占的權(quán)重[w1,w2, w3, w4]=[0.1,0.2,0.4,0.3]根據(jù)以往經(jīng)驗以及專家意見,并且通過對其它商場調(diào)研所得,m1:m2:m3:m4:m5=1:2:3:2:2.當然,可以根據(jù)商場的營業(yè)狀況適當調(diào)整客戶檔次的準入原則,從而對人數(shù)比做出一定的調(diào)整。
如表1所示,輸入原始數(shù)據(jù),文章選取某地區(qū)中端消費水平商場(服裝類)的2019.01.01-2019.06.30 會員客戶消費數(shù)據(jù)。共6 個月份的消費數(shù)據(jù),并對數(shù)據(jù)進行整理,按照隨機抽取原則抽取其中500 個會員的半年消費記錄。
表1:商場會員消費指標RFAP 數(shù)據(jù)記錄表
通過保留的客戶消費交易單據(jù)對所調(diào)查時間段內(nèi)購買的物品按照商場對品牌類別進行劃分,定位標準進行品牌分類,從而得到每一個客戶的品牌選擇傾向概率表。如表2所示。
表2:消費者購買各品牌種類概率表
利用公式⑴對品牌進行數(shù)值處理,并且利用公式(6)對500位客戶求出相應(yīng)的點值得分。如表3所示。
根據(jù)公式(7),公式(8)得到表4 初始聚類中心和各聚類中心點值的得分。
表4:初始聚類中心表
中心點值得分表示每個類內(nèi)部中心點的大致方位,表4 得到的中心點值之間差值很大,由此可以清楚得到此方法得到的聚類中心保證了類和類之間的差異性以及聚類內(nèi)部的緊密性。避免隨機取點造成的聚類重復。最后利用加入權(quán)重的距離公式(4)計算樣本點到各個聚類中心的距離從而選擇最小距離并加入相應(yīng)的聚類,如此反復直至滿足相應(yīng)的收斂條件。如表5所示。
表5:2019 上半年某商場客戶級別分類表
從以上實驗結(jié)果可以得到,此商場按照改進后的K-means算法對商場500 客戶進行分類,共分為5 大類別,其中,至尊客戶的中心點值得分最高,散客的中心點值得分最低,至尊客戶占4.2%,優(yōu)質(zhì)客戶占13.2%,中等客戶人數(shù)最多,超過一半,占比57.8%,普通客戶占比19.4%,散客占比5.4%,此結(jié)果與商場消費等級以及定位較為一致,同時與商場內(nèi)部劃分顧客價值標準相似度達90%.
本文主要對綜合商場客戶檔次分類所用到的K-means算法初始聚類中心作出改進,符合實際中的分類由于初始中心的隨機選擇造成的客戶歸類不恰當,同時對傳統(tǒng)RFM 模型進行變量的添加和簡單處理,有效的包含客戶分類的大部分決定因素,并通過實證分析證明了這一結(jié)論,為綜合商場的客戶價值挖掘提供了一定的方法。在本文數(shù)據(jù)處理的過程中,RFAP 模型可以更加有效區(qū)分商場客戶價值,本文篩選數(shù)據(jù)商場屬于中等消費水平商場,此模型較為有效,若商場屬于高端類型消費商場,會出現(xiàn)類別分歧較大且互不交叉的現(xiàn)象,并且異常點會增多,此時本模型的各個篩選指標在一定程度上失去有效性,在對各指標對于客戶價值影響程度的權(quán)重分配時采用歷史數(shù)據(jù)模擬的方法直接劃定數(shù)據(jù)權(quán)重也將無意義,針對高端商場客戶價值挖掘及定向服務(wù)的模型的指標選取方法有待進行進一步研究。