程汝嬌,徐鴻雁
(西南財經大學天府學院,綿陽 621000)
基于RFM模型的半監(jiān)督聚類算法①
程汝嬌,徐鴻雁
(西南財經大學天府學院,綿陽 621000)
客戶分類作為客戶關系管理(CRM)的重要管理方法,是企業(yè)進行市場營銷的重要依據(jù).通過對客戶進行分類,有利于對客戶價值進行準確評估,方便進行精準營銷.本文通過對RFM模型數(shù)據(jù)集本身潛藏的先驗結構化信息進行研究,標記出兩組客戶數(shù)據(jù)作為先驗類別標記,進而得到兩個初始聚類中心.基于傳統(tǒng)K-means算法使用自適應方法確定K值和初始聚類中心.引入Must-link和Cannot-link兩種約束將類別標記轉換為成對約束信息,基于HMRF-KMeans成對約束,引入約束懲罰項和約束獎勵項,實現(xiàn)對聚類引導和聚類結果的調整.使用改進的半監(jiān)督聚類算法(RFM-SS-means)對標準數(shù)據(jù)集進行了測試,同時使用Food mart數(shù)據(jù)集對比了RFM-SS-means算法與傳統(tǒng)K-means算法、two-steps算法的聚類效果.由實驗結果可知,RFM-SS-means的CH系數(shù)最大,無需事先確定K值和初始聚類中心,聚類效果良好.
客戶分類;半監(jiān)督聚類;K-means;RFM模型
隨著信息科技的不斷進步,企業(yè)經驗與管理的理念不停在發(fā)生變化,企業(yè)營銷經歷了從“以產品為中心”到“以服務為中心”,再從“以服務為中心”到“以客戶為中心”不斷變遷[1,2].客戶關系管理(Customer Relationship Management,CRM)成為最主流的“以客戶為中心”的管理理念之一,適應企業(yè)發(fā)展的需求,近年來備受關注.客戶分類作為CRM的重要管理工具,它是企業(yè)進行市場營銷的重要依據(jù)[3-6].它對客戶群體進行劃分,方便確定高價值顧客,從而幫助企業(yè)重點關注高價值顧客群體[5].在眾多的CRM的分析模式中,RFM模型備受矚目,被各個不同領域廣泛使用.RFM模型的參考變量是消費者消費行為的數(shù)據(jù),不涉及客戶私人隱私且容易得到,且此模型比較簡單便捷,實踐起來也比較有效.RFM模型是根據(jù)客戶購買行為進行客戶價值評估的模型,其通過 R(recency)、F(frequency)、M(monetary)三個變量,即最后一次購物時間R、某期間內的購買次數(shù)F以及某期間內客戶花費總金額M來描述客戶行為價值[7].傳統(tǒng)的基于RFM模型的分類具有劃分群組過多、消費的次數(shù)(F)和總金額(M)二者間有著共線性以及不同簇之間差距不大等缺點,近年來客戶分類方法主要有K-means、Two-step及Kohonen神經網絡算法等[8-12],這些算法往往自身存在不足,例如對初始聚類中心以及聚類數(shù)目的選取比較敏感、對離群點敏感、不適用于大數(shù)據(jù)等[9].其中,K-means是基于劃分的算法,其運行速率較快且具有很高的運行效率,它的復雜程度為O(nkt),其中,n為數(shù)據(jù)庫中實體數(shù),t是迭代次數(shù),k為簇的數(shù)目,一般來說,klt;lt;n,tlt;lt;n.K-means算法對大量數(shù)據(jù)集的處理,依然有著較高的效率和伸縮性,但劃分數(shù)目K是K-means算法必要的輸入的變量,它對運算結果影響較大且很難確定,隨機確立的初始聚類中心也會導致大相徑庭的甚至錯誤的聚類結果[13].同時,傳統(tǒng)的聚類算法由于未考慮客戶數(shù)據(jù)結構的特征,從而導致聚類過程存在盲目性.本文采用半監(jiān)督聚類算法對客戶分類展開研究,旨在減少或彌補上述客戶分類算法的不足.
半監(jiān)督聚類算法是在聚類算法的基礎上進行的,它的核心在于標記信息的處理以及標記信息與聚類算法的結合,即如何利用標記信息來控制或引導聚類的過程或者調整聚類結果,使得聚類結果最大程度上按照用戶的意愿進行.
半監(jiān)督聚類算法在實際應用中標記樣本的方法主要有Wagstaff提出的Must-link和Cannot-link約束方法[14].假定給定數(shù)據(jù)集D,已知P、Q∈D,如果認為P、Q應當在同一類中,則Must-link(P,Q)=True,如果認為兩者不應當在同一類中,則Cannot-link(P,Q)=True.Must-link和Cannot-link具有如下性質.
性質1.對稱性.設D為數(shù)據(jù)集,P、Q∈D,則如下兩式成立:
性質2.有限的傳遞性.設D為數(shù)據(jù)集,P、Q、R∈D,則下式成立:
Kotler作為客戶營銷戰(zhàn)略的倡導者認為關系營銷的重心要放在如何和最有價值的少部分顧客建立長期并為公司帶來利潤的關系[15],而Morgan和Hunt更明確指出顧客價值已經成為顧客關系營銷的一個中心和重點[16],Wyner也指出企業(yè)80%的利潤是來自于20%的顧客,而其余20%的利潤,卻花了公司80%的營銷費用[17].
在進行RFM模型的客戶數(shù)據(jù)結構分析時,我們可以發(fā)現(xiàn)該模型的三個評價R、F、M指標存在多重共線性,例如一個消費額大的客戶通常消費頻率較高,同時近期內有購買記錄的可能性也較大.我們參考傳統(tǒng)的RFM模型劃分方式,將F、M兩個影響因子從大到小排序,分別各選取前20%的兩組客戶數(shù)據(jù)集,然后再將R從近到遠排序,選擇前20%的客戶數(shù)據(jù)集,這樣我們就得到三組客戶數(shù)據(jù),然后篩選出在三組客戶群組中都存在的客戶,組成一個客戶集D1.同理,將F、M兩個影響因子從小到大排序,各選取前20%的兩組客戶數(shù)據(jù),然后再將R從遠到近排序,選擇前20%的客戶數(shù)據(jù),這樣我們就得到三組客戶數(shù)據(jù),然后篩選出在三組客戶群組中都存在的客戶,組成一個客戶集合D2.
假設P1和Q1是屬于D1中的任意兩個數(shù)據(jù),P2和Q2是屬于D2中的任意兩個數(shù)據(jù),即P1、Q1∈D1,P2、Q2∈D2,則 Must-link(P1,Q1)=True,Must-link(P2,Q2)=True,Cannot-link(P1,P2)=True,Cannot-link(P1,Q2)=True,Cannot-link(P2,Q1)=True,Cannot-link(Q1,Q2)=True.通過計算可以得出集合D1和D2的Mustlink集合M和Cannot-link集合C.
利用標記信息來控制或引導聚類的過程或者調整聚類結果的半監(jiān)督聚類算法能使得聚類結果最大程度上按照用戶的意愿進行,提高其效率和精度.HMRFKMeans[18]是近年來提出的一種半監(jiān)督聚類算法,它基于馬爾科夫隨機場(Hidden Markov Random Field,HMRF)成對約束,目標函數(shù)為:
其中,M,C分別是給定的Must-link集合與Cannotlink集合;mc為聚類中心,wij,分別為違反Mustlink和Cannot-link約束規(guī)則的懲罰權重.在應用成對約束的半監(jiān)督聚類方法中,滿足li=lj的約束集合被稱為Must-link集合.滿足li≠lj的約束集合為稱為Cannot-link集合.HMRF-KMeans算法使用歐式距離或余弦相似度計算權重.
基于傳統(tǒng)K-means算法自適應確定K值的主要思想是:首先使用標記出的兩組數(shù)據(jù)集,將該兩組數(shù)據(jù)集的中值作為兩個初始聚類中心;將剩余數(shù)據(jù)對象按照與這兩個初始聚類中心的距離來劃分類;然后將這些距離中距離聚類中心最遠的點作為新的聚類中心,對所有的數(shù)據(jù)進行二次劃分;如此循環(huán)反復,直到滿足條件算法結束.基于傳統(tǒng)K-means算法自適應生成K值的算法流程如圖1所示.
圖1 自適應K值方法流程圖
通過對RFM模型客戶數(shù)據(jù)集先驗結構化信息的處理,利用HMRF-KMeans成對約束思想和自適應確定傳統(tǒng)K-means算法K值的方法,本文提出一種基于RFM模型的半監(jiān)督聚類算法(Based on RFM model semi supervised K-means,RFM-SS-means),圖2是改進后的算法總體流程圖,其中虛線框內標明的是較傳統(tǒng)K-means算法改進的地方.
圖2 改進的半監(jiān)督聚類算法(RFM-SS-means)
RFM-SS-means算法挖掘了RFM數(shù)據(jù)集中本身潛藏的先驗信息,使得聚類算法能夠獲取更多的啟發(fā)式信息,從而減少了搜索過程的盲目性,使用標記數(shù)據(jù)選取初始聚類中心,避免了隨機獲取初始聚類中心導致的聚類結果的不穩(wěn)定性,使用自適應確定K值的方法確定聚類數(shù)目,解決了聚類之前必須事先確立K值的不足.基于HMRF-KMeans成對約束,在傳統(tǒng)的目標函數(shù)上引入約束懲罰項和約束獎勵項,實現(xiàn)了對聚類引導和聚類結果的調整.
UCI數(shù)據(jù)庫(http://archive.ics.uci.edu/ml/)是一個國際上專業(yè)進行機器學習、數(shù)據(jù)挖掘算法測試的標準數(shù)據(jù)庫.選擇UCI數(shù)據(jù)庫中的Iris和Wine這兩個標準數(shù)據(jù)集作為測試數(shù)據(jù)集,測試RFM-SS-means算法聚類的準確性.
以數(shù)據(jù)集Iris為例,根據(jù)分類結果,選擇Iris每個樣本的三個屬性(花萼長度、花萼寬度和花瓣長度)畫出三維原始數(shù)據(jù)的分類效果圖,實現(xiàn)可視化的目的,聚類效果如圖3所示.
圖3 RFM-SS-means算法與標準Iris的聚類效果
為了更加準確的檢驗聚類算法的性能,采用外部有效性評價指標FMI指標將聚類結果與“真實”聚類結果進行比較.隨機選擇Iris和Wine數(shù)據(jù)集中的15、30、45、60、75、90、105、130、145 個數(shù)據(jù)對象共18組數(shù)據(jù),抽取數(shù)據(jù)對象時從每個類抽取同等數(shù)量的數(shù)據(jù)對象,進行準確性驗證,得到結果如表1所示.
表1 RFM-SS-means算法的外部有效性評價結果
FMI指標結果區(qū)間為[0,1],值越大表示聚類效果越好,當FMI指標為1時,代表分類結果與“真實”分類情況完全一致.通過表1可以看出,RFM-SS-means算法在Iris數(shù)據(jù)集上的平均FMI指標達到了0.917,在Wine數(shù)據(jù)集上的FMI指標達到了0.719,具有較高的聚類準確性.
考慮到UCI標準數(shù)據(jù)集并不具備RFM客戶數(shù)據(jù)集的結構特征,難以發(fā)揮標記數(shù)據(jù)的作用,因此使用Food Mart數(shù)據(jù)集對改進算法進行測試.Food Mart數(shù)據(jù)庫是根據(jù)某食品超市在1998年的售貨記錄得到的,該數(shù)據(jù)庫RFM模型的基本特征.該數(shù)據(jù)庫包含23張原始表,主要的數(shù)據(jù)表為sales_fact_1998(1998 年的商品交易數(shù)據(jù)),customer(顧客屬性信息表,time_data(商品銷售時間信息)等.顧客交易資料中關鍵字段解釋如表2所示.
表2 Food Mart數(shù)據(jù)庫字段字典
通過對Food Mart數(shù)據(jù)庫中321個客戶的相關客戶信息、商品銷售信息、商品銷售時間等數(shù)據(jù)表進行處理,可以得到RFM模型的三個維度的輸入變量:客戶總消費(M)、消費次數(shù)(F)和最近消費時間間隔(R).運用本文前面提到的改進方法,對Food Mart數(shù)據(jù)庫客戶數(shù)據(jù)的先驗結構化信息進行分析,可以得到兩組消費行為迥異的用戶族群,將這兩組客戶數(shù)據(jù)作為先驗類別標記,進而可以得到RFM-SS-means算法的兩個初始聚類中心.
分別應用K-means、two-step和RFM-SS-means算法對客戶群體進行分類,根據(jù)三種聚類方法的分類結果,作出三維原始數(shù)據(jù)的客戶分類效果圖,如圖4所示.
圖4 三種聚類算法聚類效果圖
為了準確的檢驗聚類算法的性能,采用內部檢驗法對三種方法的聚類結果進行效果評價,即分別計算出不同聚類結果的CH系數(shù),得到如表3所示結果.
CH系數(shù)是基于對觀測數(shù)據(jù)的組內距離差矩陣與組間距離差矩陣的測度,CH系數(shù)的值越大,則表明分類效果就越好.從表3可以得到Two-step、K-means與RFM-SS-means算法的CH系數(shù)分別為8.52,9.14,9.31,可以看出本文提出的半監(jiān)督聚類算法聚類效果最優(yōu).
表3 不同聚類算法聚類效果的內部檢驗法評價(CH系數(shù))
本文提出了一種基于RFM模型和K-means算法的半監(jiān)督聚類算法(RFM-SS-means).通過對客戶數(shù)據(jù)集中本身潛藏的先驗結構化信息進行研究,標記出兩組客戶數(shù)據(jù)作為類別標記,進而計算出兩個初始聚類中心,同時采用自適應方法自動確定K值和初始聚類中心,解決了傳統(tǒng)算法中K-means算法的K值和初始聚類中心難以確定的不足.引入Must-link和Cannotlink兩種約束將類別標記轉換為成對約束信息,基于HMRF-KMeans成對約束,在傳統(tǒng)的目標函數(shù)上引入約束懲罰項,從而實現(xiàn)對聚類引導和聚類結果的調整,提高了聚類實現(xiàn)的效率.本文提出的RFM-SS-means算法可用于企業(yè)對客戶群體的分類,有利于企業(yè)針對不同客戶群體開展精準的營銷活動,提高企業(yè)的營業(yè)收入和利潤.
2 何榮勤.CRM原理·設計·實踐.北京:電子工業(yè)出版社,2003:3–12.
3 Gloy BA,Akridge JT,Preckel PV.Customer lifetime value:An application in the rural petroleum market.Agribusiness,1997,13(3):335–347.[doi:10.1002/(ISSN)1520-6297]
4 馬椿榮.消費者價值研究理論綜述.商業(yè)時代,2014,(10):60–61.[doi:10.3969/j.issn.1002-5863.2014.10.025]
5 Hughes AM.Strategic database marketing:The masterplan for starting and managing a profitable,customer-based marketing program.Irwin Professional,1994.
6 Duboff RS.Marketing to maximize profitability.The Journal of Business Strategy,1992,13(6):10–13.[doi:10.1108/eb039521]
7 Cheng CH,Chen YS.Classifying the segmentation of customer value via RFM model and RS theory.Expert Systems with Application,2009,36(3):4176–4184.[doi:10.1016/j.eswa.2008.04.003]
8 徐翔斌,王佳強,涂歡,等.基于改進RFM模型的電子商務客戶細分.計算機應用,2012,32(5):1439–1442.
9 閆相斌,李一軍,葉強.基于購買行為的客戶分類方法研究.計算機集成制造系統(tǒng),2015,11(12):1769–1774.
10 鄭茜茜.基于數(shù)據(jù)挖掘的客戶細分研究[碩士學位論文].重慶:重慶交通大學,2013:8–10.
11 劉芝怡,陳功.基于改進K-means算法的RFAT客戶細分研究.北京理工大學學報,2014,38(4):531–536.
12 潘玲玲,張育平,徐濤.核DBSCAN算法在民航客戶細分中的應用.計算機工程,2012,38(10):70–73.[doi:10.3969/j.issn.1000-3428.2012.10.020]
13 張建萍,劉希玉.基于聚類分析的K-means算法研究及應用.計算機應用研究,2007,24(5):166–168.
14 Wagstaff K,Cardie C.Clustering with instance-level constraints.Proc.of the 17th International Conference on Machine Learning.San Francisco,CA,USA.2000.1103–1110.
15 Kotler P.Marketing management.Upper Saddle River,NJ:Prentice Hall,2000.
16 Morgan RM,Hunt SD.The commitment-trust theory of relationship marketing.Journal of Marketing,1994,58(3):20–38.[doi:10.2307/1252308]
17 Wyner GA.Customer valuation:Linking behavior and economics.Marketing Research,1996,8(2):36–38.
18 Basu S,Bilenko M,Mooney RJ.A probabilistic framework for semi-supervised clustering.Proc.of the 10th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,NY,USA.2004.59–68.
Semi-Supervised Clustering Algorithm Based on RFM Model
CHENG Ru-Jiao,XU Hong-Yan
(Tianfu College of Southwest University of Finance and Economics,Mianyang 621000,China)
As an important management method of customer relationship management (CRM),the customer classification is the basis for enterprises to carry out marketing.The classification of customers is conducive to accurate assessment of customer value and facilitate the precise marketing.In this paper,we study the priori structured information hidden in the RFM model dataset,and mark two sets of customer data as a priori category mark,and then get two initial clustering centers.Based on the traditional K-means algorithm,the K value and the initial clustering center are determined with the adaptive method.Combining the two types of constraints of Must-link and Cannot-link,the category markers are transformed into pairs of constraint information.Based on HMRF-KMeans pairs,the constraints and constraint bonuses are introduced to improve the clustering guidance and clustering results.The improved semi-supervised clustering algorithm (RFM-SS-means)was used to test the standard data set,and the Food mart data set was also used to compare the RFM-SS-means algorithm with the traditional K-means algorithm and the two-steps algorithm Class effect.From the experimental results,it can be seen that the CH coefficient of RFM-SS-means is the largest,and the clustering effect is good without prior determination of K value and initial clustering center.
customer classification;semi-supervised clustering;K-means;RFM model
程汝嬌,徐鴻雁.基于RFM模型的半監(jiān)督聚類算法.計算機系統(tǒng)應用,2017,26(11):170–175.http://www.c-s-a.org.cn/1003-3254/6078.html
四川省高等教育改革項目([2014]156551)
2017-02-21;修改時間:2017-03-23;采用時間:2017-03-29
10.3969/j.issn.1007-3361.2007.11.031]
?