侯毓
(湖北中煙工業(yè)有限責(zé)任公司信息中心,湖北 武漢 430040)
2020年4月9日,中共中央、國(guó)務(wù)院發(fā)布《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)》,正式將數(shù)據(jù)納入生產(chǎn)要素范圍,數(shù)據(jù)資源的重要性已不言而喻。對(duì)于煙草行業(yè)而言,目前中國(guó)煙民大概3.5億人,全國(guó)注冊(cè)零售戶(hù)1 286萬(wàn)戶(hù)。2019年,全年行業(yè)訂單2.28億份,交易明細(xì)記錄73.59億條。煙草行業(yè)有如此大體量數(shù)據(jù),應(yīng)積極探索識(shí)別不同零售戶(hù)的潛在價(jià)值以實(shí)現(xiàn)卷煙資源的合理配置以及營(yíng)銷(xiāo)物資的合理投放。
1956年,Wendell R. Smith提 出 市 場(chǎng) 細(xì) 分理論,針對(duì)不同客戶(hù)群體實(shí)行差異化營(yíng)銷(xiāo)[1]。通過(guò)對(duì)4 998戶(hù)柳州市轄區(qū)持證卷煙零售戶(hù)開(kāi)展?jié)M意度調(diào)查,梁娟等研究發(fā)現(xiàn)零售戶(hù)對(duì)客戶(hù)服務(wù)和市場(chǎng)管理的滿(mǎn)意度較高,但對(duì)盈利情況、貨源供應(yīng)政策、月度商定總量、卷煙品質(zhì)的豐富性、零售戶(hù)分檔公平性等的滿(mǎn)意度較低[2]。煙草公司現(xiàn)行的營(yíng)銷(xiāo)策略是根據(jù)“購(gòu)進(jìn)數(shù)量”“購(gòu)進(jìn)金額”“購(gòu)進(jìn)品規(guī)數(shù)”三個(gè)維度,通過(guò)權(quán)重附分值的方法進(jìn)行月度滾動(dòng)式分檔管理。由于貨源投放依賴(lài)分檔結(jié)果,缺乏靈活性,面對(duì)市場(chǎng)環(huán)境的變化難以快速調(diào)整投放策略,貨源投放不精準(zhǔn)。面對(duì)卷煙消費(fèi)的升級(jí)不能及時(shí)響應(yīng),導(dǎo)致零售戶(hù)所處檔位與其實(shí)際銷(xiāo)售能力不匹配,許多零售戶(hù)對(duì)現(xiàn)有的檔位劃分結(jié)果不滿(mǎn)意[3]。
各學(xué)者試圖利用數(shù)據(jù)挖掘技術(shù)尋找更為科學(xué)的方法,如姚龍飛基于RFM模型構(gòu)建用戶(hù)畫(huà)像標(biāo)簽,通過(guò)云模型聚類(lèi)算法將湖南省某地市零售戶(hù)劃分為重要保留客戶(hù)、重要發(fā)展客戶(hù)、重要挽留客戶(hù)、低價(jià)值客戶(hù)四大類(lèi)[4];周旭以“客戶(hù)為中心”,基于Hadoop大數(shù)據(jù)平臺(tái),利用FCM模糊聚類(lèi)算法構(gòu)建客戶(hù)價(jià)值模型,將全國(guó)零售戶(hù)劃分為五大類(lèi)[5];鄧基剛等基于K-means聚類(lèi)將12 357個(gè)客戶(hù)劃分為VIP客戶(hù)、重要客戶(hù)、普通客戶(hù)、小客戶(hù)四大類(lèi)[6]。
文章以RFM模型和K-means算法為理論基礎(chǔ),從實(shí)際業(yè)務(wù)出發(fā),將方法論與業(yè)務(wù)實(shí)踐深度融合,以融合后的實(shí)際結(jié)果為依據(jù)劃分零售戶(hù)類(lèi)別,并進(jìn)行相應(yīng)的價(jià)值挖掘,相比傳統(tǒng)的理論導(dǎo)向更有實(shí)踐意義。
RFM模型由美國(guó)數(shù)據(jù)庫(kù)營(yíng)銷(xiāo)研究所Arthur Hughes提出,是一種被廣泛應(yīng)用的經(jīng)典的精細(xì)化運(yùn)營(yíng)方法,是衡量客戶(hù)當(dāng)前價(jià)值和潛在價(jià)值的重要工具和手段。該模型由觀察期內(nèi)客戶(hù)最近一次消費(fèi)時(shí)間到當(dāng)前時(shí)間的間隔R(Recency)、消費(fèi)頻次F(Frequency)、消費(fèi)總金額M(Monetary)三項(xiàng)指標(biāo)構(gòu)成。
聚類(lèi)分析是數(shù)據(jù)挖掘中研究分類(lèi)問(wèn)題的一種重要的統(tǒng)計(jì)分析方法,屬于機(jī)器學(xué)習(xí)中的無(wú)監(jiān)督學(xué)習(xí)。K-means聚類(lèi)是聚類(lèi)算法中的一種常用算法,也是數(shù)據(jù)挖掘中的十大經(jīng)典算法之一,其核心思想是通過(guò)計(jì)算樣本點(diǎn)至類(lèi)中心的距離劃分k個(gè)類(lèi)別,找出使組內(nèi)距離平方和總和D最小的類(lèi)別進(jìn)行劃分,即求解最優(yōu)化問(wèn)題[7]。
就煙草行業(yè)某省級(jí)工業(yè)公司而言,對(duì)于行業(yè)零售戶(hù)訂單數(shù)據(jù),傳統(tǒng)數(shù)據(jù)庫(kù)存儲(chǔ)數(shù)據(jù)量5~6T,日均處理數(shù)據(jù)量5億~6億條,處理時(shí)間少則1小時(shí)、多則8小時(shí),甚至出現(xiàn)崩潰狀態(tài)。利用內(nèi)存計(jì)算、高效索引、執(zhí)行優(yōu)化和高度容錯(cuò)的大數(shù)據(jù)技術(shù),可以滿(mǎn)足海量訂單數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)存儲(chǔ)和處理的需求,處理時(shí)間僅需要10分鐘。將數(shù)據(jù)庫(kù)中的訂單主表與零售戶(hù)維度表進(jìn)行左連接,抽取湖北省某地市全年零售戶(hù)所有卷煙的訂單數(shù)據(jù),共計(jì)零售戶(hù)38 567戶(hù)、訂單162.99萬(wàn)份,涉及的字段如表1所示。
表1 零售戶(hù)相關(guān)分析字段
數(shù)據(jù)收集完成后,需要進(jìn)行數(shù)據(jù)質(zhì)量檢查。研究范圍內(nèi)的數(shù)據(jù)未出現(xiàn)數(shù)據(jù)缺失、格式不統(tǒng)一、數(shù)據(jù)不規(guī)范、重復(fù)記錄等問(wèn)題,原因在于行業(yè)訂單下行數(shù)據(jù)進(jìn)入大數(shù)據(jù)平臺(tái)時(shí),平臺(tái)會(huì)開(kāi)展相關(guān)數(shù)據(jù)清洗工作,清洗后的數(shù)據(jù)質(zhì)量相對(duì)較高。
1.構(gòu)建RFM指標(biāo)
R:先找出某年1月1日至12月31日,各零售戶(hù)的最近一次訂購(gòu)日期,然后以年度商業(yè)公司準(zhǔn)予的最后一次訂購(gòu)日期12月31日為基準(zhǔn),計(jì)算各零售戶(hù)最近一次訂購(gòu)日期到12月31日的間隔天數(shù),即各零售戶(hù)的R值,單位:天。
F:一次訂單僅對(duì)應(yīng)一個(gè)編號(hào),故訂單編號(hào)唯一。計(jì)算1月1日至12月31日,各零售戶(hù)不同訂單編號(hào)總數(shù),即各零售戶(hù)的F值,單位:次。
M:1月1日至12月31日,各零售戶(hù)訂購(gòu)金額總和,即各零售戶(hù)的M值,單位:元。
利用R語(yǔ)言構(gòu)建RFM模型,樣本量共計(jì)38 567個(gè)。
2.剔除異常值
根據(jù)卷煙管控的特殊性質(zhì),最近一次訂購(gòu)間隔和年度訂購(gòu)次數(shù)一般不會(huì)出現(xiàn)極端情況,而訂購(gòu)總金額可能會(huì)因?yàn)椴煌闶蹜?hù)的不同經(jīng)營(yíng)狀況出現(xiàn)極端差異,須對(duì)M值進(jìn)行異常值檢查。通過(guò)R語(yǔ)言繪制的箱形圖,一個(gè)樣本M值存在異常。經(jīng)查實(shí),該零售戶(hù)是一家大型便利店,推測(cè)該零售戶(hù)可能是特殊客戶(hù),故研究不將該零售戶(hù)納入樣本范圍,剔除后樣本量為35 863個(gè)。
3.數(shù)據(jù)標(biāo)準(zhǔn)化
為消除不同量綱對(duì)后續(xù)聚類(lèi)分析產(chǎn)生的影響,需要對(duì)R、F、M進(jìn)行標(biāo)準(zhǔn)化。文章采用Z-Score方法進(jìn)行數(shù)據(jù)標(biāo)準(zhǔn)化,具體換算過(guò)程:
利用R語(yǔ)言中的scale函數(shù)實(shí)現(xiàn)Z-Score標(biāo)準(zhǔn)化。
K-means算法需要事先確定k值,利用R語(yǔ)言繪制組內(nèi)距離平方和隨k值變化的折線圖,可以看到k的最優(yōu)值為5,也就是說(shuō)整個(gè)樣本分為5類(lèi)是最合適的。
利用R語(yǔ)言進(jìn)行K-means聚類(lèi)建模,得到不同角度的三維聚類(lèi)效果如表2所示??梢钥吹?,整體劃分結(jié)果較為理想。
表2 聚類(lèi)模型的各類(lèi)中心值
映射到原數(shù)據(jù)的各類(lèi)中心值如表3所示,結(jié)合實(shí)際業(yè)務(wù)對(duì)5類(lèi)零售戶(hù)進(jìn)行精準(zhǔn)定位。根據(jù)某年該地市實(shí)際訂煙情況看,全年訂購(gòu)周期共計(jì)53期,下面針對(duì)表3進(jìn)行定位分析。
表3 映射到原數(shù)據(jù)的各類(lèi)中心信息表
第1類(lèi):最近一次訂購(gòu)時(shí)間平均間隔為7.22天,平均每戶(hù)訂購(gòu)50.93次,屬于高頻戶(hù);平均每戶(hù)年訂購(gòu)金額次于第3類(lèi),優(yōu)于其他類(lèi)。該類(lèi)零售戶(hù)經(jīng)營(yíng)狀況不錯(cuò),通過(guò)一定的營(yíng)銷(xiāo)手段或激勵(lì)措施,有望進(jìn)一步增強(qiáng)銷(xiāo)售能力,故文章將該類(lèi)定位為潛力客戶(hù)。
第2類(lèi):最近一次訂購(gòu)時(shí)間平均間隔為6.58天,說(shuō)明最近一次訂購(gòu)周期內(nèi)該類(lèi)零售戶(hù)正常訂煙;平均每戶(hù)訂購(gòu)52.05次,說(shuō)明該類(lèi)零售戶(hù)在整年每個(gè)訂煙周期內(nèi)均未缺席;平均每戶(hù)年訂購(gòu)金額達(dá)到百萬(wàn)以上,是所有類(lèi)別中訂購(gòu)金額最高的一類(lèi)。該類(lèi)零售戶(hù)經(jīng)營(yíng)狀況最好,銷(xiāo)售能力最強(qiáng),故文章將該類(lèi)定位為優(yōu)質(zhì)客戶(hù)。
第4類(lèi):最近一次訂購(gòu)時(shí)間平均間隔為8.49天,與其他4類(lèi)相比,屬于中等水平,故文章將該類(lèi)定位為一般客戶(hù)。
第5類(lèi):最近一次訂購(gòu)時(shí)間平均間隔達(dá)到132.28天,說(shuō)明該類(lèi)零售戶(hù)有4個(gè)多月沒(méi)有訂購(gòu)行為,相對(duì)應(yīng)的平均每戶(hù)訂購(gòu)次數(shù)較少。該類(lèi)零售戶(hù)可能對(duì)卷煙市場(chǎng)經(jīng)營(yíng)形勢(shì)不看好,處于流失狀態(tài),故文章將該類(lèi)定位為流失客戶(hù)。
商業(yè)公司對(duì)每一規(guī)格投放的數(shù)量有嚴(yán)格限制。零售戶(hù)根據(jù)需求下單時(shí),實(shí)際能夠訂購(gòu)的數(shù)量最多只能與商業(yè)公司提供的上限一致,不一定能滿(mǎn)足需求,用需求滿(mǎn)足率=訂購(gòu)量/需求量來(lái)衡量供需情況。各類(lèi)客戶(hù)需求滿(mǎn)足情況如表4所示,從中可以看出,整體需求滿(mǎn)足率在60%上下,供遠(yuǎn)小于求,市場(chǎng)供需不平衡較為明顯,但從“吸煙有害健康”的角度來(lái)說(shuō),供給側(cè)嚴(yán)格控量符合國(guó)家行業(yè)稍緊平衡和垂直管控政策。
表4 各類(lèi)客戶(hù)需求滿(mǎn)足情況
1.不同業(yè)態(tài)下的分布差異
不同業(yè)態(tài)類(lèi)型下的客戶(hù)分布存在差異,如表5所示。
表5 不同業(yè)態(tài)類(lèi)型下的客戶(hù)分布情況
根據(jù)零售戶(hù)店鋪的經(jīng)營(yíng)范圍,業(yè)態(tài)類(lèi)型分為食雜店、便利店、煙酒店、商場(chǎng)、娛樂(lè)服務(wù)及其他6種??v向看,食雜店在所有業(yè)態(tài)類(lèi)型中占到了3/4以上,說(shuō)明該地市卷煙銷(xiāo)售大部分集中在食雜店,這是符合實(shí)際情況的,食雜店俗稱(chēng)“小賣(mài)部”,隨處可見(jiàn)。從百分比角度看,便利店、食雜店中的各類(lèi)客戶(hù)占比情況一致——一般客戶(hù)>潛力客戶(hù)>新/擬流失客戶(hù)>優(yōu)質(zhì)客戶(hù)>流失客戶(hù);商場(chǎng)的一般客戶(hù)、潛力客戶(hù)居多,優(yōu)質(zhì)客戶(hù)尚可;娛樂(lè)服務(wù)店中一般客戶(hù)、新/擬流失客戶(hù)比重較高,流失客戶(hù)在所有業(yè)態(tài)類(lèi)型中比率最高,說(shuō)明娛樂(lè)服務(wù)店的客戶(hù)在所有業(yè)態(tài)中最易流失;其他業(yè)態(tài)中一般客戶(hù)居多,也是6大業(yè)態(tài)類(lèi)型里一般客戶(hù)比重最大的一類(lèi)。
2.不同規(guī)模下的客戶(hù)分布
不同規(guī)模,客戶(hù)分布也不同,如表6所示。
表6 不同規(guī)模的客戶(hù)分布情況
零售戶(hù)經(jīng)營(yíng)規(guī)模分大、中、小3種類(lèi)型??v向看,該地市零售戶(hù)67%以上都是中型,大型和小型各占一角。橫向看,優(yōu)質(zhì)客戶(hù)集中于大型,中型稍多,可謂是小型零售戶(hù)里的鳳毛麟角;潛力客戶(hù)大多存在于大、中型,中型比大型多;一般客戶(hù)、流失客戶(hù)、新/擬流失客戶(hù)均以中型居多,小型其次,大型最少。大型規(guī)模的潛力客戶(hù)最多,占一半以上,優(yōu)質(zhì)客戶(hù)排名第二,新/擬流失客戶(hù)、流失客戶(hù)相較中、小型零售戶(hù)最少;中型規(guī)模的客戶(hù)排名是一般客戶(hù)第一、潛力客戶(hù)第二、新/擬流失客戶(hù)第三、流失客戶(hù)第四、優(yōu)質(zhì)客戶(hù)第五;小型規(guī)模的零售戶(hù)也以一般客戶(hù)居多,因投資成本低,新/擬流失客戶(hù)及流失客戶(hù)比重都比大、中型高,優(yōu)質(zhì)客戶(hù)和潛力客戶(hù)自然就極少。
文章依托大數(shù)據(jù)平臺(tái),收集了湖北省某地市的零售戶(hù)38 567戶(hù)、訂單162.99萬(wàn)份。經(jīng)過(guò)構(gòu)造RFM指標(biāo)、剔除無(wú)效零售戶(hù)、剔除異常值等數(shù)據(jù)處理后,得到樣本35 863個(gè)。通過(guò)R語(yǔ)言實(shí)現(xiàn)的K-means聚類(lèi)建模,將分析樣本劃分為較為理想的5大類(lèi),并結(jié)合年度該地市的實(shí)際訂煙情況,實(shí)現(xiàn)了5大類(lèi)的精準(zhǔn)定位,分別是優(yōu)質(zhì)客戶(hù)、潛力客戶(hù)、一般客戶(hù)、流失客戶(hù)、新/擬流失客戶(hù),繼而比較貼合實(shí)際地分析了不同客戶(hù)群體的經(jīng)濟(jì)價(jià)值、供需情況、分布差異(包括業(yè)態(tài)差異、規(guī)模差異),為卷煙資源的合理配置以及營(yíng)銷(xiāo)物資的合理投放提供了一定的參考,也為后續(xù)更細(xì)粒度地?cái)?shù)據(jù)挖掘,比如零售戶(hù)對(duì)卷煙規(guī)格的偏好分析等,奠定了良好基礎(chǔ)。