魏建兵
摘要:客戶決定著企業(yè)存在的價值,能否滿足客戶需求是公司商業(yè)運作成功與否的關(guān)鍵所在。在復雜多變的市場情形中,只有那些了解客戶,把握市場變化,學習使用現(xiàn)階段先進的管理理論,將信息技術(shù)與數(shù)量分析方法相結(jié)合,對現(xiàn)有市場情況進行數(shù)據(jù)分析與決策的企業(yè)才可能成為市場的贏家。因此,愈來愈多的企業(yè)將關(guān)注的重點從以產(chǎn)品為中心的商業(yè)模式向以客戶為中心的新型商業(yè)模式轉(zhuǎn)移。該文通過結(jié)合RFM理論,運用數(shù)據(jù)挖掘,進行聚類分析并提取出相關(guān)規(guī)則,證明基于RFM模型的組合數(shù)據(jù)挖掘技術(shù)進行客戶細分及規(guī)則挖掘是有效的。
關(guān)鍵詞:K-means;RFM;客戶細分;數(shù)據(jù)挖掘
中圖分類號:TP391.9? ? ? ? ?文獻標識碼:A
文章編號:1009-3044(2023)13-0073-03
開放科學(資源服務)標識碼(OSID)
0 引言
H公司其主要產(chǎn)品是各類型電流穩(wěn)壓器,是國家穩(wěn)壓器定點生產(chǎn)廠家之一,具備全系列交流穩(wěn)壓器的生產(chǎn)經(jīng)驗。H公司同眾多企業(yè)一樣,迫切需要解決的一個問題也是其業(yè)務過程中累積的大量數(shù)據(jù)需要分析處理。H公司在數(shù)據(jù)分析處理中進行了三次數(shù)據(jù)處理:第一次為數(shù)據(jù)報表的統(tǒng)計階段,業(yè)務人員利用一些常用的計算機相關(guān)的統(tǒng)計軟件,對企業(yè)相關(guān)的靜態(tài)數(shù)據(jù)進行分類統(tǒng)計,這些數(shù)據(jù)將成為企業(yè)領(lǐng)導進行最終決策的重要依據(jù);第二次是聯(lián)機事務處理或聯(lián)機分析處理階段,這個階段對統(tǒng)計報表進行優(yōu)化,會進行一些多維分析及原因分析,如分析調(diào)查今年以來哪些產(chǎn)品是最有利潤的?最有利潤產(chǎn)品是不是和去年一樣?同時,進行一些簡單的預測功能,如銷售量的預測等;第三次是數(shù)據(jù)挖掘技術(shù)的應用,公司對經(jīng)營運行過程匯總產(chǎn)生的數(shù)據(jù),利用數(shù)據(jù)挖掘工具建立數(shù)學模型,如聚類模型、分類與預測、K-means[1],快速聚類,系統(tǒng)聚類等。
1 數(shù)據(jù)的分析過程及方法
文章利用衡量客戶價值和客戶創(chuàng)造利益能力的RFM模型[2],對相應客戶進行分析工作。第一步,預處理相關(guān)的數(shù)據(jù)集;第二步,利用RFM模型,利用聚類分析方法,輸入近度、頻度、值度,輸出客戶價值;第三步,利用數(shù)據(jù)挖掘相關(guān)算法,對每個類別的規(guī)則特征進行分析提??;第四步,客戶信息的結(jié)果描述,輸出按照類型分類的客戶規(guī)則,客戶數(shù)據(jù)庫為最近購買時間、購買頻率和總購買金額等。
1.1 數(shù)據(jù)預處理
排序處理對消費金額(值度)、購買頻率(頻度)分別進行排序,見表1和表2。
1.2 市場細分
溫德爾·史密斯(Wendell R·Smith) 在其 1958 年發(fā)表的《市場營銷策略中的產(chǎn)品差異化與客戶細分》一文中指出:市場細分是指企業(yè)按照客戶屬性將客戶群體分為若干個子客戶群體,細分后客戶群體之間的差異最大化,每個客戶群體盡可能相似[3]。
為進一步有效地挖掘不同類別客戶,利用聚類分析對客戶數(shù)據(jù)進行有效分析,輸出不同類別客戶所隱藏的信息。針對不同客戶,企業(yè)利用這些信息可以采取不同的營銷策略,根據(jù)企業(yè)貢獻度的高低,優(yōu)選相應的客戶類別,并在持續(xù)做好貢獻度高的客戶的同時,將貢獻度較低類的客戶通過優(yōu)化策略發(fā)展成為貢獻度高的客戶[4]。
基于RFM的聚類分析可以按以下步驟進行:
第一步:確定聚類算法[5],將數(shù)據(jù)集D劃分為若干個類C={C1,C2,...,Cp}。其中,D=C1∪C2∪...∪p;
第二步:選?。航萊(Re-cency)、頻度F(Frequency)和值度M(Monetary Value)。
第三步:對每一個Ci,i=1,2,...,p,歸納出能描述其特征的一條或幾條規(guī)則。
1.3 規(guī)則的挖掘
數(shù)據(jù)挖掘最關(guān)鍵的步驟就是挖掘數(shù)據(jù)庫中的潛在規(guī)則??梢岳脭?shù)據(jù)挖掘工具完成,這也是數(shù)據(jù)分析過程的關(guān)鍵所在。
2 建模仿真
本案例采用TipDM 數(shù)據(jù)挖掘在線建模平臺中的k-Means聚類分析[4]和Apriori關(guān)聯(lián)規(guī)則挖掘等算法進行模型構(gòu)建。
2.1 數(shù)據(jù)預處理
在C-company業(yè)務數(shù)據(jù)表中共收集了2019年到2022年的客戶交易記錄,刪除冗余。轉(zhuǎn)變成合適的格式,保存規(guī)范的業(yè)務記錄,業(yè)務記錄表包括最近購買時間、購買頻次和總購預買金額等。對原始數(shù)據(jù)進行預處理得到合適的格式,詳細步驟如下:
1) 定義RFM的取值范圍[6],如劃分為5等份,分別為5至1等。對于R-Recency值,如最近合同時間是2022年定為5,2021年定義為4,依此類推。對F-Frequency、M-Monetary也分別類似處理。
2) 對客戶數(shù)據(jù)表中的每一條客戶記錄量化以后,得到RFM 量化結(jié)果,包括客戶ID、R-Recency、F-Frequency、M-Monetary。
3) 分別評估R(近度)、F(頻度)、M(值度)的權(quán)重,事實上它們的權(quán)重應該是相同的。
2.2 K-means聚類分析
預處理后產(chǎn)生的RFM數(shù)值,利用聚類方法對各大區(qū)的x個客戶分5類得到的初始聚類中心值為:C1(3.21, 1.38, 1.76) C2(1.84, 1.24, 1.70)
C3(1.95, 1.27, 1.11) C4(2.29, 2.13, 3.78)
C5(1.89, 1.22, 1.08)
然后,運用K-均值聚類算法[3],完成數(shù)據(jù)集的聚類分析,這樣,我們就得到了每一個客戶所屬的聚類類別,通過聚類方法找到了對企業(yè)具有重要價值的客戶[7]。
2.3 特征規(guī)則提取
選取UCI數(shù)據(jù)集中balance scale ,congressional voting records, hepatitis, iris plant , statlogaustralian credit approval及 statlog german credit共六個數(shù)據(jù)集作為實驗數(shù)據(jù)集,分別應用Single NN(single neural network)方法、GMDH網(wǎng)絡方法(Knowledgeminer) 、神經(jīng)網(wǎng)絡方法(Clementine) 、C4.5決策樹方法(weka)進行對比分析。將每一個數(shù)據(jù)集分成5部分,以每一個為檢測集,其他四個為學習集,五次運行后的平均結(jié)果為最終結(jié)果。
對于balance-scale數(shù)據(jù)集,按順序選取500個樣本構(gòu)成學習集,125個樣本構(gòu)成檢測集,運用GMDH網(wǎng)絡分類得到的結(jié)果是:學習集中47個錯誤,錯誤率9.4%;在檢測集中8個錯誤,錯誤率6.4%。再分別任選一部分作檢測集,其余四部分作為學習集重復運行五次,對檢測集中分類錯誤平均,得到檢測集中平均錯誤率為13.44%(5次共84個錯誤)。
提取的 L 類特征規(guī)則是:
IF NOT - A1& C1 OR NOT - B1&D1
THEN L
如果左、右兩邊重量都不是1,或者左、右兩邊距離都不為1,則屬于L類。
對于其他數(shù)據(jù)集,使用不同方法同樣處理,得到分類錯誤率如表3所示。同樣,對于連續(xù)型屬性,將某個連續(xù)屬性的取值分成若干個區(qū)間,將連續(xù)屬性離散化,再建立規(guī)則輸入輸出模型。
上面列出一些錯誤情況對比,可用Friedman統(tǒng)計檢驗方法對各算法之間是否有顯著差異進行判斷。設[rji]是第j個算法在第i個數(shù)據(jù)集上的排序,F(xiàn)iredman檢驗比較各種算法的平均排序[Rj=1Nirji]。Firedman檢驗的零假設是各算法表現(xiàn)是一樣的,即它們的平均排序相同。
Firedman檢驗:
[x2F=12Nk(k+1)jR2j-k(k+1)24],服從自由度為k?1的卡方分布。在此基礎上,Iman 和 Davenport指出Firedman過于保守,他們提出了另一種更好的統(tǒng)計檢驗:[FF=(N-1)x2FN(k-1)-x2F]服從自由度為k?1和(k?1)(N?1)的F分布。
引入秩后表后,GMDH網(wǎng)絡方法要好于其他三種方法,因GMDH的平均秩為最大,所以可用Holm方法對算法進行進一步的檢驗。Holm檢驗從最顯著的p1值開始,如果p1<α/(k?1),拒絕相應的零假設,同時進一步比較p2和α/(k?2),如果第2個假設被拒絕,則繼續(xù)第3個比較,直至被接受為止。令[z=(Ri-Rj)k(k+1)6N],z值用于從正態(tài)分布表中查找相應的概率值([p(x≥z)=2*(1-p(x≤z))]) ,然后將概率值與相應的α(0.05)進行比較。
從Holm檢驗可以看到,0.004<0.017,顯然, C4.5 Rule要劣于GMDH方法。但由于0.072>0.025,0.116>0.05,因此,在95%的置信度下不能拒絕零假設,即神經(jīng)網(wǎng)絡方法劣于GMDH方法并不明顯。
通過實驗,GMDH網(wǎng)絡方法具備較好的特征提取能力,由于需要預先知道樣本的類型,所以在企業(yè)面對眾多客戶的情況下,結(jié)合聚類和GMDH網(wǎng)絡進行特征規(guī)則挖掘是一種有效而實用的方法。在本例中,通過TIPDM完成對客戶進行聚類分析后,我們就知道了每個客戶分別屬于哪類客戶(客戶價值),然后在此基礎上運用GMDH網(wǎng)絡方法提取出一些規(guī)則特征。這樣,聚類后通過提取規(guī)則,就從客戶關(guān)系數(shù)據(jù)庫中得到了一些描述規(guī)則,這些規(guī)則概括了數(shù)據(jù)集中不同概念的特征,從而使公司的營銷活動更有針對性。有了這些特征規(guī)則,決策者可以作出一個正確的銷售和廣告宣傳決策[6]。
2.4 Apriori算法產(chǎn)生強關(guān)聯(lián)規(guī)則
2.4.1 算法過程
通過Apriori算法,對數(shù)據(jù)庫的多次掃描來發(fā)現(xiàn)所有的頻繁項目集,在每一次掃描中只考慮具有同一長度(即項目集中所含項目的個數(shù))的所有項目集,在第一次掃描中計算所有單個項目的支持度,生成所有長度為1的頻繁項目集。在后續(xù)的每一次掃描中,首先以K-1次掃描所生成的所有頻繁項目集為基礎產(chǎn)生新的候選項目集。然后,掃描數(shù)據(jù)庫,計算這些候選項目集的支持度,刪除其支持度低于用戶給定的最小支持的項目集。最后,生成所有長度為K的頻繁項目集。重復過程,直至再也找不到新的頻繁項目集為止[8]。產(chǎn)品項目表如表4所示。
這樣,就得到一個頻繁 3 項集{SBW?30,SBW?50,SBW?100},它的所有非空真子集有:{SBW?30},{SBW?50},{SBW?100},{SBW?30,SBW?50},{SBW?30,SBW?100},{SBW?50,SBW?100},設最小置信度為50%,則可以輸出強關(guān)聯(lián)規(guī)則如:SBW?50?SBW?30∧SBW?100,置信度(2/3=67%) ,支持度(2/3=67%) 。
2.4.2 TIPDM挖掘關(guān)聯(lián)規(guī)則
通過TIPDM對 Apriori算法的實現(xiàn),就可以從銷售數(shù)據(jù)庫中挖掘出關(guān)聯(lián)規(guī)則了。如計算得到的{SBW?30? SBW?50? SBW?100}及{SBW?100? SBW?180? SBW?400},均為支持度大于2的頻繁3項集,同樣可以計算出各個產(chǎn)品間的置信度。例:SBW?100?SBW?180∧SBW?400,因SBW?100的支持度計數(shù)為38,而SBW?180∧SBW?400的支持度計數(shù)為2,即SBW?100?SBW?180∧SBW?400的置信度(2/38=5.26%) ,購買SBW100的5.26%的客戶,可能性會同時購買SBW180和SBW400,但由SBW?180?SBW?400置信度(10/18=55.56%),即購買了SBW180的客戶很可能(55.56%的可能性)會同時購買SBW400。這樣,企業(yè)就可以據(jù)此采取相應的促銷措施,開展交叉銷售活動,從而促進更多產(chǎn)品的銷售,更好地滿足客戶需求。
3 結(jié)論
隨著世界經(jīng)濟一體化進程的加速,企業(yè)可利用數(shù)據(jù)挖掘技術(shù)進行客戶特征規(guī)則提取及關(guān)聯(lián)規(guī)則挖掘。利用RFM模型,聚類方法,通過對神經(jīng)網(wǎng)絡方法、C4.5方法及GMDH網(wǎng)絡方法在六個UCI數(shù)據(jù)集上的比較實驗,確認幾種算法之間是有差異的,并指出結(jié)合聚類(客戶細分)與GMDH網(wǎng)絡方法建立模型,從而提取出特征規(guī)則是比較理想與可行的一種方法。
綜上,文章通過運用組合數(shù)據(jù)挖掘技術(shù),將改進的K-means方法用于客戶細分,結(jié)合聚類與GMDH網(wǎng)絡提取客戶特征規(guī)則及Apriori挖掘出產(chǎn)品的關(guān)聯(lián)規(guī)則,證明進行客戶細分和規(guī)則挖掘是有效的。
參考文獻:
[1] 李明倩,王苗,劉芳.改進k-means的電網(wǎng)控制自動化系統(tǒng)數(shù)據(jù)聚類方法[J].機械與電子,2023,41(3): 34-38.
[2] 程汝嬌,徐鴻雁.基于RFM模型的半監(jiān)督聚類算法[J].計算機系統(tǒng)應用,2017,26(11):170-175.
[3] 李明楊.基于無監(jiān)督K-means聚類方法的移動公司客戶細分研究[J].通訊世界,2019,26(2):8-10.
[4] 謝鵬壽,張寬,范宏進,等.汽車4S店TFM客戶細分模型及其方法研究[J].小型微型計算機系統(tǒng),2019,40(10):2165-2169.
[5] 才東陽.基于K-means聚類的計算機網(wǎng)絡信息安全風險評估方法[J].網(wǎng)絡安全技術(shù)與應用,2022(11):30-31.
[6] 趙偉.基于RFM模型X公司客戶關(guān)系管理研究[D].北京:北京化工大學,2018.
[7] 白燕燕.基于客戶細分的潛在高價值客戶挖掘?qū)嵶C研究[D].蘭州:蘭州財經(jīng)大學, 2017.
[8] 楊一男.基于數(shù)據(jù)挖掘技術(shù)的B2C企業(yè)客戶關(guān)系管理研究[D].沈陽:沈陽工業(yè)大學,2016.
【通聯(lián)編輯:代影】