游晉峰
(晉中師范高等??茖W(xué)校 數(shù)理科學(xué)系,山西 晉中 030600)
在零售業(yè)中,會(huì)員能持續(xù)不斷地為零售運(yùn)營(yíng)商帶來穩(wěn)定的銷售額和利潤(rùn),同時(shí)為運(yùn)營(yíng)商制定策略提供數(shù)據(jù)支持.零售業(yè)通過促銷等活動(dòng)來吸收新會(huì)員,并盡可能地提高會(huì)員的忠誠(chéng)度.而發(fā)展新會(huì)員的投入比較大,所以運(yùn)營(yíng)商一般會(huì)采取措施來維系現(xiàn)有會(huì)員,完善畫像描繪,加強(qiáng)精細(xì)化管理,定期推送產(chǎn)品和服務(wù),以期得到更好的發(fā)展.
本文以2018年全國(guó)大學(xué)生數(shù)學(xué)建模競(jìng)賽C題“大型百貨商場(chǎng)會(huì)員畫像描繪”為背景,首先對(duì)題目所給數(shù)據(jù)觀察和清洗后,對(duì)數(shù)據(jù)進(jìn)行了分析,并在此基礎(chǔ)上建立了基于RFM的商場(chǎng)會(huì)員購(gòu)買力評(píng)價(jià)模型、基于RFM的客戶促銷參與模型、基于Apriori算法的連帶銷售方案,為大型百貨商場(chǎng)的會(huì)員銷售數(shù)據(jù)分析提供了可行的辦法.
題目給出了某大型百貨商場(chǎng)會(huì)員的相關(guān)信息,有:會(huì)員信息數(shù)據(jù)(194 761條)、近幾年的銷售流水表(1 015 366條)、會(huì)員消費(fèi)明細(xì)表(911 702條)、商品信息表(24 170條).
通過分析發(fā)現(xiàn),所給信息中存在不完整的、含噪聲的數(shù)據(jù),利用Excel中的定位條件功能中的空值選項(xiàng)刪除有空值的記錄,刪除了信息不完整的記錄和信息錯(cuò)誤的記錄.然后,利用Acess數(shù)據(jù)庫(kù)中的查詢功能,通過搜索相同關(guān)鍵字:會(huì)員卡號(hào),建立了含有會(huì)員卡號(hào)、消費(fèi)產(chǎn)生時(shí)間、商品編號(hào)、銷售數(shù)量、商品售價(jià)、消費(fèi)金額、商品名稱、此次消費(fèi)的會(huì)員積分、收銀機(jī)號(hào)、單據(jù)號(hào)、柜組編碼、柜組名稱等信息的數(shù)據(jù)表.
對(duì)該數(shù)據(jù)表分析發(fā)現(xiàn):
1.隨著年齡的增加,會(huì)員的消費(fèi)次數(shù)、消費(fèi)總金額、最高消費(fèi)金額和最低消費(fèi)金額等數(shù)據(jù)呈泊松分布.出生在1964-1983年之間的人群消費(fèi)水平較高,年齡在1954-1964,1983-1993年之間的次之,其他年齡段的相對(duì)最低,接近于0.說明,年齡在35-54歲的人群相對(duì)來說時(shí)最具消費(fèi)潛力人群.
2.女性的各項(xiàng)消費(fèi)都遠(yuǎn)遠(yuǎn)高于男性,其中人數(shù)比為3.6∶1,消費(fèi)總數(shù)量比為7.61,消費(fèi)總金額比為6.41,消費(fèi)頻率比為7.81.說明,女性的消費(fèi)水平遠(yuǎn)遠(yuǎn)高于男性的消費(fèi)水平.
3.利用Excel數(shù)據(jù)透視表中的求最值功能,計(jì)算出每個(gè)會(huì)員的最近一次消費(fèi)時(shí)間在2015-01-01~2018-01-03之間.其中,會(huì)員的最近一次消費(fèi)時(shí)間指某個(gè)會(huì)員消費(fèi)明細(xì)表中會(huì)員消費(fèi)產(chǎn)生的最后一次時(shí)間.
4.會(huì)員第一次消費(fèi)的時(shí)間在2015-01-01-2018-01-03之間.和會(huì)員最近一次消費(fèi)時(shí)間比較,可以知道,每天不僅有新會(huì)員的持續(xù)加入,也有老會(huì)員的睡眠甚至流失.
5.會(huì)員最大的消費(fèi)次數(shù)為3 303次,最小為1次.其中,消費(fèi)次數(shù)在1~2的會(huì)員數(shù)占總會(huì)員的31.15%.消費(fèi)次數(shù)在100以上的會(huì)員數(shù)占總會(huì)員數(shù)的1.86%.消費(fèi)次數(shù)在3-100的會(huì)員數(shù)占總會(huì)員數(shù)的66.99%,這部分人群可作為重點(diǎn)關(guān)注人群.
6.消費(fèi)總額約為6億元,人均消費(fèi)金額為18 642元,單次平均消費(fèi)水平為1 348.9元.其中:
1)消費(fèi)金額為負(fù)數(shù)的會(huì)員有9人,說明該用戶曾有過退貨行為或參加了積分進(jìn)行換商品活動(dòng).
2)消費(fèi)金額為0的會(huì)員有49人,說明這些用戶是老用戶,不購(gòu)買新產(chǎn)品,只參加積分兌換活動(dòng),或者近一年以內(nèi)沒有進(jìn)行購(gòu)物,為流失會(huì)員.
3)消費(fèi)金額在5萬以上的會(huì)員占總數(shù)的8.2%.
4)消費(fèi)金額在0~5萬之間的會(huì)員占總?cè)藬?shù)的91.76%.
綜合上述分析,說明該商場(chǎng)的會(huì)員消費(fèi)水平處于中低水平.
根據(jù)上述分析的最近一次消費(fèi)時(shí)間(R)、消費(fèi)次數(shù)(F)、消費(fèi)金額(M),建立基于RFM[1]的購(gòu)買力評(píng)價(jià)模型.具體步驟如下:
2.1.1 第一步:建立會(huì)員購(gòu)買力的隸屬分類表
首先將R,F,M每個(gè)方向定義為高、低兩個(gè)擋;然后根據(jù)會(huì)員整體的消費(fèi)情況,找出R,F,M的中值,高于中值就是高,低于中值就是低,這樣就是2×2×2=8種會(huì)員分類.
具體如下表1.
表1 會(huì)員購(gòu)買力的隸屬分類表
2.1.2 第二步:提取R,F,M三個(gè)維度的數(shù)據(jù)
從數(shù)據(jù)表中提取會(huì)員卡號(hào)、最近一次消費(fèi)時(shí)間R、消費(fèi)次數(shù)F、消費(fèi)金額數(shù)據(jù)M等數(shù)據(jù),建立二維數(shù)據(jù)表格,見表2.由于有32 165條數(shù)據(jù)記錄,此處只截取了前20條記錄進(jìn)行展示.
表2 部分會(huì)員的RFM值
2.1.3 第三步:分析R,F,M的數(shù)據(jù)散點(diǎn)圖,得到它們的分檔標(biāo)準(zhǔn)
首先分別分析R,F,M三個(gè)維度的數(shù)據(jù)散點(diǎn)分布,得到了如圖1~3.
然后根據(jù)散點(diǎn)圖得到R,F,M三個(gè)數(shù)據(jù)指標(biāo)的分檔區(qū)間標(biāo)準(zhǔn).
圖1 最近一次消費(fèi)時(shí)間R的數(shù)據(jù)散點(diǎn)圖
根據(jù)圖1,按照R值時(shí)反向值,即R值越大會(huì)員價(jià)值越低,將最近一次消費(fèi)時(shí)間R分為如下5個(gè)檔:
R=1=[2017-07-17,2018-01-03],R=2=[2016-11-19,2017-07-17],R=3=[2016-03-24,2016-11-19].
R=4=[2015-09-26,2016-03-24],R=5=[2014-11-30,2015-01-01]
說明,圖2是對(duì)消費(fèi)次數(shù)F降序排列后做出的散點(diǎn)圖.
根據(jù)圖2,按照F值時(shí)正向值,即F值越大會(huì)員價(jià)值越高,將消費(fèi)次數(shù)F分為如下5個(gè)檔:F=1=[0,40],F(xiàn)=2=[40,140],F(xiàn)=3=[140,340],F(xiàn)=4=[340,500],F(xiàn)=5=[500,900].
圖2 消費(fèi)次數(shù)F的數(shù)據(jù)散點(diǎn)圖圖3 消費(fèi)金額數(shù)據(jù)M的數(shù)據(jù)散點(diǎn)圖
根據(jù)圖3,按照M值時(shí)正向值,即M值越大會(huì)員價(jià)值越高,將消費(fèi)金額數(shù)據(jù)M分為如下5個(gè)檔:M=1=[0,80 000],M=2=[80 000,240 000].
M=3=[240 000,440 000],M=4=[440 000,840 000],M=5=[840 000,1750 000].
2.1.4 第四步:根據(jù)分檔標(biāo)準(zhǔn)計(jì)算R,F(xiàn),M的分檔值
具體操作:
在Excel中寫入if語(yǔ)句,然后進(jìn)行格式填充:
計(jì)算R對(duì)應(yīng)分檔值的語(yǔ)句為:
E2=if(B2>2014-11-30,5,if(B2>2015-09-26,4,if(B2>2016-03-24,3,if(B2>2016-11-19,2,1)))).
語(yǔ)句解釋:
如果B2大于2014-11-30,則A1會(huì)員對(duì)應(yīng)的R值=5,否則進(jìn)入下一個(gè)if判斷;
如果B2大于2015-09-26,則A1會(huì)員對(duì)應(yīng)的R值=4,否則進(jìn)入下一個(gè)if判斷;
如果B2大于2016-03-24,則A1會(huì)員對(duì)應(yīng)的R值=3,否則進(jìn)入下一個(gè)if判斷;
如果B2大于2016-11-19,則A1會(huì)員對(duì)應(yīng)的R值=2,否則進(jìn)入下一個(gè)if盤點(diǎn).
類似地,計(jì)算F對(duì)應(yīng)分檔值的語(yǔ)句為:
F2= if(C2>500,5,if(C2>340,4,if(C2>140,3,if(C2>40,2,1))))
計(jì)算M對(duì)應(yīng)分檔值的語(yǔ)句為:
G2==if(D2>840 000,5,if(D2>440 000,4,if(D2>240 000,3,if(D2>80 000,2,1))))
2.1.5 第五步:計(jì)算R,F(xiàn),M分檔值的平均值
利用Excel中寫入average(E1∶E32165),average(F1∶F32165),average(G1∶G32165)分別求得R,F(xiàn),M分檔值的平均值,分別為:2016-11-06、13.82、18 642.98.
2.1.6 第六步:將R,F(xiàn),M分檔值與平均值比較,得到R,F(xiàn),M的高低值
將每個(gè)會(huì)員的R,F(xiàn),M分檔值與平均值比較,高于平均值則標(biāo)記為高,低于平均值則標(biāo)記為低.具體操作語(yǔ)句為:
R高低值的判斷:H2=if(F2<2016-11-06,“低”,“高”);
F高低值的判斷:I2=if(G2<13.82,“低”,“高”);
M高低值的判斷:J2=if(H2<18 642.98,“低”,“高”).
2.1.7 第七步:將每個(gè)會(huì)員的R,F(xiàn),M值與會(huì)員購(gòu)買力隸屬分類表比較,得出會(huì)員所屬類別,得出會(huì)員的購(gòu)買力
K2=if(AND(H2=“高”,I2=“高”,J2=“高”),“重要價(jià)值用戶”,
if(AND(H2=“高”,I2=“低”,J2=“高”),“重要發(fā)展用戶”,
if(AND(H2=“低”,I2=“高”,J2=“高”),“重要保持用戶”,
if(AND(H2=“低”,I2=“低”,J2=“高”),“重要挽留用戶”,
if(AND(H2=“高”,I2=“高”,J2=“低”),“一般價(jià)值用戶”,
if(AND(H2=“高”,I2=“低”,J2=“低”),“一般發(fā)展用戶”,
if(AND(H2=“低”,I2=“高”,J2=“低”),“一般保持用戶”,“一般挽留用戶”))))))).
為驗(yàn)證模型的可行性,隨機(jī)抽樣選取了20個(gè)會(huì)員的消費(fèi)記錄,進(jìn)行了計(jì)算.20個(gè)會(huì)員的抽樣計(jì)算結(jié)果見表3.
表3 根據(jù)分檔標(biāo)準(zhǔn)確定的R,F(xiàn),M的分檔值、高低值及會(huì)員所屬類別
根據(jù)陳明亮的研究[2],選取消費(fèi)金額和利潤(rùn)兩個(gè)變量來表征會(huì)員發(fā)展水平.但是基于問題一的分析,發(fā)現(xiàn)會(huì)員消費(fèi)產(chǎn)生的時(shí)間dtime分布能更好地反映會(huì)員生命周期曲線.
首先,統(tǒng)計(jì)出不同會(huì)員在2015-01-01~2018-01-03期間的消費(fèi)次數(shù).
其次,做出其消費(fèi)時(shí)間的散點(diǎn)圖.
最后,利用狀態(tài)曲線圖中點(diǎn)的稠密度判斷會(huì)員的狀態(tài).
在上述分析的基礎(chǔ)上,知道會(huì)員生命周期分為考察期、形成期、穩(wěn)定期、退化期.而一個(gè)生命周期中處于穩(wěn)定期的會(huì)員可視為活躍會(huì)員,處于其他時(shí)期的會(huì)員為非活躍會(huì)員.這樣,非活躍會(huì)員包括普通的消費(fèi)者、新生會(huì)員、即將流失的會(huì)員.換句話說,活躍會(huì)員為在3個(gè)月內(nèi)有消費(fèi)記錄的會(huì)員,除此之外都統(tǒng)稱為非活躍會(huì)員.而這些會(huì)員中,某些顧客可能不會(huì)積極參與促銷活動(dòng),如流失會(huì)員.故會(huì)員若由非活躍狀態(tài)轉(zhuǎn)為活躍狀態(tài),需要積極參與促銷活動(dòng).
根據(jù)成希瑤[6]的研究,建立基于RFM的客戶促銷參與模型,將積極參與促銷活動(dòng)的客戶區(qū)分出來,從而確定非活躍會(huì)員的激活率.
具體操作步驟如下:
會(huì)員促銷參與得分RS的計(jì)算公式為:
RS=Rscore×WR+Fscore×WF+Mscore×WM
其中,Rscore,Fscore,Mscore分別為按照客戶最近一次消費(fèi)時(shí)間、消費(fèi)頻率、消費(fèi)金額劃分的等級(jí)得分,WR,WF,WM分別這三個(gè)指標(biāo)的權(quán)重系數(shù).這三個(gè)指標(biāo)的權(quán)重系數(shù)可先利用層次分析法計(jì)算出一個(gè)理論值,然后通過實(shí)際銷售數(shù)據(jù)對(duì)其進(jìn)行調(diào)整和修正.
由此得到,
Step1:分析會(huì)員的購(gòu)買喜好分析會(huì)員對(duì)不同商品的喜好程度;
Step2:定義喜好程度的閾值;
Step3:由喜好程度向會(huì)員推薦相應(yīng)產(chǎn)品.
考慮商品的連帶率[7,8],提出基于Apriori算法的連帶銷售方案制定的辦法,具體如下:
Step1:分析銷售數(shù)據(jù)庫(kù)中同一銷售單據(jù)的商品集合;
Step2:統(tǒng)計(jì)每種商品集合的支持度計(jì)數(shù);
Step3:找出滿足最小支持度計(jì)數(shù)的商品集合;
Step4:由集合產(chǎn)生關(guān)聯(lián)規(guī)則;
Step5:計(jì)算關(guān)聯(lián)規(guī)則的支持度計(jì)數(shù)和置信度;
Step6:找出滿足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則.
即由此產(chǎn)生的關(guān)聯(lián)規(guī)則即為連帶消費(fèi)產(chǎn)品,可進(jìn)行捆綁銷售或適當(dāng)安排擺放增加銷售量.
本文首先分析了會(huì)員的消費(fèi)特征.由于題目數(shù)據(jù)量大,且沒有相應(yīng)的后臺(tái)服務(wù)器做支撐,故抽樣選取了部分代表性的數(shù)據(jù),進(jìn)行了數(shù)據(jù)的分析,并對(duì)部分模型進(jìn)行了驗(yàn)證.
1)對(duì)于2.1.5節(jié)中R,F,M分檔值的平均值計(jì)算,還可以考慮二八法則,即20%的會(huì)員創(chuàng)造了80%的收益.所以,可以將這個(gè)臨界點(diǎn)作為每個(gè)會(huì)員R,F,M比較的對(duì)象.
2)對(duì)于題目中的問題2、3、4,本文只給出了模型,并沒有進(jìn)行驗(yàn)證.