熱依木江·克里木
(中國科學(xué)院大學(xué),北京 100190)
品牌營銷即通過營銷手段提升品牌在需求者心目中的綜合形象(品牌價值),在這一過程中,想要識別某一具體品牌的核心價值則需考慮其在目標(biāo)消費者群體中的影響力以及與競爭者品牌的差異性,而考慮目標(biāo)消費者群體,實質(zhì)上就是考慮如何更加準(zhǔn)確地細(xì)分消費者(客戶細(xì)分),因而針對品牌消費者進(jìn)行消費者行為分析是品牌營銷的重要內(nèi)容。
從現(xiàn)有關(guān)于構(gòu)建區(qū)域產(chǎn)業(yè)品牌策略的研究中可以發(fā)現(xiàn),客戶(消費者)是品牌資產(chǎn)的關(guān)鍵驅(qū)動要素。在對客戶的分析中,Ascarza[1]認(rèn)為并非每個客戶都會在停止消費前作出正式的取消合約行為(例如注銷賬號)。同樣地,也并非每個客戶都會保證下次繼續(xù)消費。僅使用當(dāng)前客戶的整體消費數(shù)據(jù)進(jìn)行客戶分析可能會忽略某些客戶消費行為的動態(tài)變化,如高消費客戶可能已經(jīng)考慮不再繼續(xù)消費,而第一次消費的客戶,即使消費金額較高也可能未來不再進(jìn)行高頻度消費而直接進(jìn)入消費末期。因此,有必要從時間維度出發(fā)考察客戶在不同消費時點上階段歸屬的變化,從而更好地動態(tài)擬定針對不同客戶群體的品牌營銷策略。目前學(xué)界在分析評估客戶消費階段時存在兩個困境:一是某些客戶在樣本期內(nèi)僅消費一次;二是客戶的消費行為未必總是按照消費的生命周期階段進(jìn)行,可能存在大幅向前或向后而跳過中間階段的情況。前一個問題多由數(shù)據(jù)信息不足引發(fā),后一個問題則可視作分類問題,即將客戶分為包含所有消費生命周期階段的客戶與僅包含部分消費生命周期階段的客戶。若要準(zhǔn)確地對客戶消費行為進(jìn)行動態(tài)階段識別,需使用合理的假設(shè)與工具處理上述兩個困境帶來的不利影響。
本文通過SMOTE方法合理增加多次消費客戶的消費行為數(shù)據(jù)后,使用非監(jiān)督學(xué)習(xí)的受限玻爾茲曼機(jī)計算每個客戶包含各消費階段的初始概率,再采用區(qū)制轉(zhuǎn)移動態(tài)因子模型,并以不同區(qū)制代表客戶消費行為所處的不同生命周期階段,從而計算動態(tài)變化的顧客終身價值(CLV)。
現(xiàn)實中,大多數(shù)消費行為數(shù)據(jù)中消費頻率和消費總金額的分布往往呈現(xiàn)明顯的右偏特征,消費次數(shù)很多和消費總金額很大的客戶數(shù)量相對較少,但這些客戶往往是品牌營銷的主要目標(biāo),因此有必要對其消費行為進(jìn)行動態(tài)分類與預(yù)測,從而更好地制定維護(hù)這類客戶消費的策略。然而,較少的樣本數(shù)量增大了預(yù)測這部分客戶消費行為的難度,同時非平衡數(shù)據(jù)也使得機(jī)器學(xué)習(xí)方法無法總結(jié)出少數(shù)類的類別特征,可能導(dǎo)致對這部分客戶的分類出現(xiàn)偏誤,因而有必要對數(shù)據(jù)進(jìn)行平衡調(diào)整,合理增加虛擬的消費次數(shù)很多和消費總金額很大的客戶樣本數(shù)量。
平衡數(shù)據(jù)主要有以分層抽樣為代表的概率抽樣方法、以過采樣和欠采樣為代表的比例抽樣方法以及二者結(jié)合的混合抽樣方法,這3種采樣方法的主要思路均是調(diào)整每次抽樣時多數(shù)類與少數(shù)類的比例,主要從抽取概率或者抽取比例上入手。鑒于本文主要考察客戶從屬于不同類別的概率,調(diào)整抽取概率可能會影響客戶實際從屬概率,因此選擇從抽取比例上進(jìn)行數(shù)據(jù)平衡。目前從抽取比例上進(jìn)行數(shù)據(jù)平衡主要有過抽樣與欠抽樣兩種思路,欠抽樣在每次訓(xùn)練時需舍棄一部分多數(shù)類中的樣本從而減小多數(shù)類與少數(shù)類兩種類別間的差異。本研究中數(shù)據(jù)非平衡程度較高,利用欠抽樣可能要舍棄大部分多數(shù)類樣本,不能滿足機(jī)器學(xué)習(xí)訓(xùn)練集的樣本量要求,且欠抽樣可能使得機(jī)器學(xué)習(xí)無法充分掌握少數(shù)類客戶的特征,與了解重點客戶的初衷不符,因此選擇過抽樣方法。SMOTE方法是一種經(jīng)典的過抽樣方法,其在簡單隨機(jī)過采樣方法上進(jìn)行了擴(kuò)展。簡單隨機(jī)過采樣方法通過簡單復(fù)制少數(shù)類樣本來平衡數(shù)據(jù),這會導(dǎo)致模型出現(xiàn)過擬合、模型訓(xùn)練集泛化程度不夠等問題,在應(yīng)用于新的數(shù)據(jù)集時其分類效果會大打折扣,而SMOTE方法主要采用插值法為少數(shù)類增加新的樣本。假設(shè)訓(xùn)練集中少數(shù)類樣本數(shù)為nminority,多數(shù)類樣本數(shù)為nmajority,合成樣本數(shù)為anminority,a為正整數(shù)。對于少數(shù)類中的一個樣本i,其包含的變量構(gòu)成的向量為xi,xi的k個近鄰記作xi(j),其中j=1,…,k。從xi的k個近鄰中隨機(jī)選擇一個樣本xi(j),并用均勻分布隨機(jī)生成一個0~1之間的數(shù)值ζ,則新的合成樣本可以表示為依此重復(fù)a次并對每個少數(shù)類樣本進(jìn)行這樣的操作,則可生成anminority個新的樣本。通過調(diào)整a數(shù)值進(jìn)而調(diào)整多數(shù)類與少數(shù)類的比例,可使后續(xù)神經(jīng)網(wǎng)絡(luò)對少數(shù)類的分類有更高的準(zhǔn)確性。
需要說明的是,k和a的取值需根據(jù)后續(xù)通過神經(jīng)網(wǎng)絡(luò)估計得到初步分類的結(jié)果進(jìn)行調(diào)整,本文參考薛薇[2]的做法,在使用SMOTE方法增加樣本數(shù)量時主要考慮靈敏度、特異度、查準(zhǔn)率、查全率和AUC值。第一次訓(xùn)練前設(shè)定k=1、anminority=nmajority進(jìn)行第一次初步分類,令得到的各類別均值的平均差異為----Δxˉ、組間標(biāo)準(zhǔn)差為sdinter、組內(nèi)標(biāo)準(zhǔn)差為sdinner;然后令k增加1而anminority減少并進(jìn)行分類訓(xùn)練,計算得到類別間3個指標(biāo)的數(shù)值,若當(dāng)----Δxˉ、sdinter增加而sdinner減少時,則再次增加k并減少anminority。由于3個指標(biāo)可能并不同時滿足上述變化條件,客戶分類目標(biāo)是區(qū)別各客戶類別的動態(tài)行為,因而可將----Δxˉ與sdinter的幾何平均變化作為兩個變量修正的終止條件,即當(dāng)----Δxˉ與sdinter的幾何平均不再增加時則停止兩個變量的修正,將此時得到的穩(wěn)定初步分類結(jié)果作為最終的初步分類結(jié)果。
在動態(tài)計算每個客戶消費階段歸屬概率前,需通過受限玻爾茲曼機(jī)識別客戶的先驗類別,判斷客戶消費是否包含所有的消費階段。先驗類別可為后續(xù)分類提供依據(jù),并為階段歸屬概率的計算提供先驗信息。受限玻爾茲曼機(jī)是一種可進(jìn)行無監(jiān)督學(xué)習(xí)的人工神經(jīng)網(wǎng)絡(luò),無監(jiān)督學(xué)習(xí)的主要優(yōu)勢在于不需依賴先驗信息便可進(jìn)行數(shù)據(jù)分類,能夠避免錯誤先驗信息帶來的干擾。將無監(jiān)督學(xué)習(xí)得到的分類作為先驗分類信息可以較充分地利用數(shù)據(jù)本身的特征,增強(qiáng)最終階段歸屬概率識別的穩(wěn)健性。受限玻爾茲曼機(jī)的結(jié)構(gòu)主要分為兩層,即可見的輸入層及不可見的識別層,兩層的層內(nèi)單元間沒有關(guān)聯(lián)而兩層間則進(jìn)行全連接。假設(shè)輸入層包含n個輸入單元即n個樣本,每個樣本可能包含k個變量;同時假設(shè)識別層包含m個單元即劃分為m個類別。分類的主要邏輯是運用輸入層與識別層的能量函數(shù)計算不可見的識別層的條件概率,并運用Sigmoid激活函數(shù)判斷輸入層對應(yīng)的識別層單元,最終實現(xiàn)對輸入層分類的目的。學(xué)界一般使用對比散度算法(CD算法)對受限玻爾茲曼機(jī)進(jìn)行訓(xùn)練,主要做法是比較當(dāng)次估計的參數(shù),如對于隱藏層節(jié)點權(quán)重與上次估計參數(shù)間的熵,當(dāng)二者較為接近時則認(rèn)為分類效果較理想,可以進(jìn)一步使用經(jīng)典的反向傳播算法對參數(shù)進(jìn)行調(diào)優(yōu)從而使模型達(dá)到局部最優(yōu)。這種方法稱為逐層貪婪訓(xùn)練法,其不僅可解決訓(xùn)練速度慢的問題,還能找到較好的模型參數(shù)初始值。
基于受限玻爾茲曼機(jī)和客戶RFM(最近一次消費recency、消費頻次frequency、消費金額monetary)數(shù)據(jù)的初步分類思路如下:一是根據(jù)RFM指標(biāo)對客戶數(shù)據(jù)進(jìn)行整理并進(jìn)行異常值調(diào)整、標(biāo)準(zhǔn)化處理等,參考許靜[3]的研究,同時考慮到受限玻爾茲曼機(jī)需二值型輸入,故本研究使用Min-Max法進(jìn)行標(biāo)準(zhǔn)化處理。當(dāng)指標(biāo)為正向指標(biāo)時,其數(shù)值x的標(biāo)準(zhǔn)化公式為當(dāng)指標(biāo)為負(fù)向指標(biāo)時,數(shù)值x的標(biāo)準(zhǔn)化公式為二是將處理后的指標(biāo)納入受限玻爾茲曼機(jī)模型以得到初始客戶類別。Pfeifer[4]將客戶消費周期分為考察期、發(fā)展期、成熟期、衰退期、終止期5個階段,但最后一階段不再發(fā)生消費行為或者只發(fā)生極少數(shù)消費行為,可以觀測到消費行為的階段一般只有4個,且對于僅消費一次客戶,其后續(xù)轉(zhuǎn)移到第二階段與第三階段的概率是未知的,可將這兩個階段合并為消費中期階段,因此消費生命周期便可劃分為3個階段,即消費初期、消費中期和消費末期。本研究只考察樣本期內(nèi)開始消費的客戶群體,類別數(shù)m取值為3,代表了消費階段組合的3種情況,即包含所有消費階段、僅存在消費初期、僅存在消費初期與消費末期。
在進(jìn)行數(shù)據(jù)平衡與客戶初步分類后,便可計算每個時期客戶屬于某消費階段的概率。客戶的消費行為包括最近一次消費R、消費頻次F、消費金額M共3個維度,需綜合各維度信息提取客戶消費行為特征,動態(tài)分析客戶消費行為在每個時間點上屬于各階段的概率。動態(tài)因子模型可以較好地提取不同維度中包含的共同信息,而加入帶區(qū)制轉(zhuǎn)移的狀態(tài)變量則可同時給出客戶屬于各消費階段的概率。因此,本研究使用區(qū)制轉(zhuǎn)移動態(tài)因子模型估計客戶動態(tài)階段概率,模型形式如下:
式(1)中,xit為第i個客戶在t時期的消費行為變量R、F、M,向量ft是客戶消費行為變量的共同因子,eit為各變量的特質(zhì)性部分,為便于研究假設(shè)ft、eit均服從一階自回歸。αi為第i個客戶的因子載荷系數(shù),β、γi為ft、eit的自回歸系數(shù),εt、ηit為ft、eit自回歸過程的擾動項,假設(shè)其服從均值為0的正態(tài)分布,標(biāo)準(zhǔn)差分別為σε、σi。μSt為客戶消費行為最可能歸屬消費階段的因子均值,且滿足μSt=μ0+St μ1,其中μ1>0,St可取值0、1、2,代表客戶消費生命周期的3個階段。St服從一階Markov鏈,轉(zhuǎn)移概率矩陣為:
式(2)中,pij代表從i狀態(tài)轉(zhuǎn)移到j(luò)狀態(tài)的概率,即pij=Pr(St=j|St-1=i),其中i、j取值為0、1、2(狀態(tài)0、1、2分別對應(yīng)消費初期、消費中期、消費末期)。可以看到,在給出每個客戶每個時間點上所屬階段的同時,上述模型也能給出客戶在各時間點上屬于每個階段的概率,所屬階段以外的從屬概率相對較小。
Pfeifer[4]認(rèn)為處于不同生命周期階段的客戶,當(dāng)不考慮最后一個狀態(tài)時,其轉(zhuǎn)移概率除了從i狀態(tài)轉(zhuǎn)移到i+1狀態(tài)非零外,僅有所有狀態(tài)轉(zhuǎn)移到0狀態(tài)非零,也就是說,其將客戶最近一次消費的時間點作為消費狀態(tài)的代理變量。這樣做的好處在于對轉(zhuǎn)移概率矩陣作出了較強(qiáng)的假設(shè),減少了需要估計的變量。但與此同時,其假設(shè)過程可能導(dǎo)致對客戶的分析并不符合現(xiàn)實中客戶消費行為的動態(tài)變化特征。本研究中,客戶僅有3種可能的消費狀態(tài),跨階段轉(zhuǎn)移僅有狀態(tài)0和狀態(tài)2之間,因此可以放寬假設(shè)認(rèn)為存在跨階段轉(zhuǎn)移,而不必?fù)?dān)心過多參數(shù)帶來的估計問題。
對于僅消費一次客戶,由于計算CLV時并不能獲知其后續(xù)狀態(tài)演進(jìn)過程,故假定其后續(xù)兩個狀態(tài)相應(yīng)的轉(zhuǎn)移概率由消費金額決定,即不論是從初始狀態(tài)0轉(zhuǎn)移到狀態(tài)1還是狀態(tài)2,又或是從狀態(tài)1、狀態(tài)2轉(zhuǎn)移到其他狀態(tài),其概率均以消費金額進(jìn)行模擬。相較于多次購買客戶第一次消費金額的中位數(shù),僅消費一次客戶消費金額越高則認(rèn)為其向狀態(tài)1轉(zhuǎn)移的概率越大,反之則向狀態(tài)2轉(zhuǎn)移的概率越大。狀態(tài)1、狀態(tài)2的消費總金額與消費次數(shù)通過倒“U”形函數(shù)與隨機(jī)擾動項進(jìn)行模擬,消費時間則以實際值來降低模擬帶來的對僅消費一次客戶的評價提升。這是因為如果消費時間仍使用模擬數(shù)值,則默認(rèn)僅消費一次客戶后續(xù)還會繼續(xù)消費,但其實并不能確定其后續(xù)是否真的會繼續(xù)消費,這將使對僅消費一次客戶的評價過高,因此對僅消費一次客戶的消費時間使用實際值來避免這種情況的發(fā)生。具體而言,假設(shè)僅消費一次客戶的實際消費總金額為y,則模擬的狀態(tài)1和狀態(tài)2的消費總金額可以寫作:
式(3)中,yi表示i狀態(tài)下模擬的消費總金額為某客戶依最大概率所屬類別內(nèi)的平均消費金額,ε服從正態(tài)分布,其均值為0,標(biāo)準(zhǔn)差由某客戶依最大概率所屬類別內(nèi)消費總金額的標(biāo)準(zhǔn)差決定。同時,對于消費次數(shù)也有類似設(shè)定,不同之處在于因僅消費一次客戶的消費次數(shù)為1,故每個時間點上或每個消費階段上的消費次數(shù)不會進(jìn)一步減少,因此每個階段上消費次數(shù)的變化可表示為:
本研究根據(jù)包含的消費階段數(shù)量將客戶分為3類:第一類客戶僅包含消費初期,第二類客戶包含消費初期與消費末期,第三類客戶包含所有3個消費階段。式(4)中,后兩個階段消費次數(shù)的構(gòu)建方法是在前一階段消費次數(shù)基礎(chǔ)上對其增加一個隨機(jī)整數(shù)。η1服從初步分類后消費中期客戶中消費總金額大于僅消費一次客戶消費總金額的消費次數(shù)減1的分布,η2服從消費末期客戶中消費總金額大于包含了虛擬消費金額的僅消費一次客戶消費總金額的消費次數(shù)減1的分布。從后續(xù)初步分類結(jié)果中可以發(fā)現(xiàn),第二類與第三類客戶均包含消費末期,因此此處η2服從的分布由第二類客戶與第三類客戶中消費總金額超過75%分位數(shù)的部分組成。在決定了消費次數(shù)后,依據(jù)不同階段客戶消費最近時間分布特征決定僅消費一次客戶后續(xù)兩個階段的消費最近時間。上述調(diào)整雖對僅消費一次客戶的后續(xù)消費行為假設(shè)較強(qiáng),但仍不失為增加多次消費客戶消費行為信息的有效方法。多次消費且消費總金額較大的客戶是銷售者最為關(guān)注的群體,通過虛擬僅消費一次客戶的消費行為來進(jìn)一步剖析這類人群的消費行為動態(tài)變化特征,有助于為銷售決策的制定提供更加豐富、合理的建議。
對于區(qū)制轉(zhuǎn)移動態(tài)因子模型,本文參考Kim[5]的研究,使用Gibbs抽樣方法對參數(shù)集進(jìn)行估計。由前文可知每個客戶從屬于不同階段的概率在每個時間點上均是變化的,因此在每個時間點上均能得到每個客戶的CLV,其為客戶從屬于每個階段的概率與該階段客戶CLV均值(由區(qū)制轉(zhuǎn)移動態(tài)因子模型中的狀態(tài)均值得出)的乘積。參考Chiang[6]的研究,本文以固定權(quán)重計算客戶平均CLV,得到WR=0.197,WF=0.366,WM=0.437,即消費最近時間、消費頻率、消費總金額權(quán)重分別為0.197、0.366、0.437。
本研究所用數(shù)據(jù)來源于京東、淘寶天貓、京東樂鮮關(guān)于庫爾勒香梨的97348條交易記錄,時間跨度為2017年9月1日至2017年11月30日。由于時間長度相對較短,因此研究中將每個星期作為一個時間節(jié)點,總時間長度T為12。數(shù)據(jù)顯示,僅消費一次客戶占比為87.23%,因而僅就消費頻率而言消費數(shù)據(jù)的分布就存在明顯的右偏現(xiàn)象,在使用SMOTE方法增加多次消費客戶的數(shù)據(jù)總量并通過受限玻爾茲曼機(jī)的識別訓(xùn)練后,確定k、a兩個參數(shù)值分別為3和4。通過計算可知,當(dāng)a=4時單次消費客戶數(shù)量約為多次消費客戶數(shù)量的1.7倍,這與薛薇[2]計算出的臨界值基本一致。下面以消費總金額和消費最近時間為例說明SMOTE方法平衡數(shù)據(jù)的效果。
圖1給出了多次消費客戶(10767條數(shù)據(jù))的消費總金額與消費最近時間的分布情況,可以看到,相較于原始數(shù)據(jù)圖中消費總金額較多的數(shù)據(jù)樣本較為缺乏的情況,SMOTE方法平衡后的多次消費客戶(43068條數(shù)據(jù))在消費總金額與消費最近時間的維度分布均較為均勻。
圖1 SMOTE平衡前后少數(shù)類部分?jǐn)?shù)據(jù)分布情況
圖2給出了僅消費一次客戶(73679條數(shù)據(jù))的分布情況。可以看出,經(jīng)SMOTE方法平衡后,多數(shù)類與少數(shù)類消費總金額的K-L散度由1.25變?yōu)?.83,分布變得更為相似,對于消費最近時間也有類似結(jié)論,K-L散度由0.005784降至0.005764。同時,多次消費客戶信息由10767條增至43068條,與僅消費一次客戶的信息比由0.1277∶0.8723變?yōu)?.369∶0.631。
圖2 多數(shù)類部分?jǐn)?shù)據(jù)分布情況
通過穩(wěn)定的SMOTE過抽樣增加樣本點后多數(shù)類與少數(shù)類分布特征如表1所示。由消費總金額的變化可知,該方法增加了多次消費客戶的總記錄數(shù),其對分布的影響主要體現(xiàn)在標(biāo)準(zhǔn)差的減少上,其他指標(biāo)無太大變化,保留了多次消費客戶的類別特征,在增加記錄信息數(shù)量的同時減少了多數(shù)類與少數(shù)類的差異,為模擬多數(shù)類中僅消費一次客戶后續(xù)消費行為提供了相對合理且更加豐富的數(shù)據(jù)基礎(chǔ)。
表1 消費總金額平衡前后的指標(biāo)變化
續(xù)表1
因此,可以認(rèn)為通過SMOTE方法增加多次消費客戶消費行為數(shù)據(jù)是可行且有效的,其不僅增大了少數(shù)但重要客戶消費行為的信息占比,減小了多數(shù)類與少數(shù)類的分布差異,還可保留少數(shù)類的大部分分布特征,具備良好的增加數(shù)據(jù)量的特質(zhì)。此外,根據(jù)Hinton[7]關(guān)于受限玻爾茲曼機(jī)的參數(shù)建議,設(shè)定對比散度的迭代運行次數(shù)為1000,隱藏層節(jié)點數(shù)為150,批量隨機(jī)梯度下降中每個mini-batch中包含10個訓(xùn)練樣本點,動量為0.5,稀疏性目標(biāo)為0.01,可得到如圖3所示的隱藏層部分節(jié)點權(quán)重圖。
圖3 受限玻爾茲曼機(jī)部分隱藏層節(jié)點權(quán)重(前30個節(jié)點)
進(jìn)一步地,根據(jù)權(quán)重結(jié)果可計算初步分類后不同類別客戶消費的差異,此處以消費總金額為例給出各類別的多個統(tǒng)計量,如表2、表3所示。由表2和表3可知,三類客戶統(tǒng)計量均具有明顯差異,特別是標(biāo)準(zhǔn)差與組間統(tǒng)計量,第三類客戶不論是與其他類別相比或者相比于類別內(nèi)部,其消費總金額均具有較大差異,這主要是因這些客戶的消費次數(shù)與消費最近時間具有較大差異,呈現(xiàn)顯著的右偏特征,從而導(dǎo)致即使第三類客戶平均消費金額與其他類別差異不大,但總金額均值仍遙遙領(lǐng)先,而中位數(shù)差異則小得多。這一特點在組間標(biāo)準(zhǔn)差上也能得以體現(xiàn)。從初步分類后的結(jié)果來看,在不考慮客戶消費行為動態(tài)特征時,受限玻爾茲曼機(jī)對客戶消費行為具有良好的分類效果。
表2 初步分類后不同類別客戶消費總金額統(tǒng)計量(一)
表3 初步分類后不同類別客戶消費總金額統(tǒng)計量(二)
進(jìn)一步觀察三類客戶可以發(fā)現(xiàn):第一類客戶消費次數(shù)基本為1,同時包含少數(shù)消費次數(shù)為2的客戶(596名);第二類客戶消費次數(shù)大多介于2~5次之間,僅有少數(shù)消費次數(shù)為1次的客戶(400名)和消費5次以上的客戶(68名);第三類客戶均為消費5次以上(最多為14次)的客戶(1082名)。消費次數(shù)最多的消費者數(shù)據(jù)主要由原始數(shù)據(jù)以及由這些原始數(shù)據(jù)生成的約30%的虛擬數(shù)據(jù)構(gòu)成。從消費最近時間來看,三類客戶并沒有顯著差異,均在2017年10月15日左右,標(biāo)準(zhǔn)差為3日,這可能是因SMOTE方法在劃分多數(shù)類與少數(shù)類時,兩類消費次數(shù)差異更大,而消費最近時間差異相對較小,因此SMOTE方法并不能生成更多能夠明顯區(qū)分兩類客戶消費最近時間的虛擬客戶數(shù)據(jù)。分析原始數(shù)據(jù)中消費次數(shù)較多的客戶可以發(fā)現(xiàn),消費次數(shù)超過5次的客戶具有最小的平均消費最近時間,即2017年11月10日,而消費1次與消費2~5次的客戶平均消費最近時間沒有太大區(qū)別,即2017年10月6日與2017月9月28日。綜合最近一次消費R、消費頻次F、消費金額M這3個維度的信息推斷可知,第一類對應(yīng)僅存在消費初期的消費者,而第二類、第三類對應(yīng)于存在消費中期與消費末期行為的消費者,由于后續(xù)計算中假設(shè)消費末期的消費總量小于消費中期,故此處假設(shè)第三類對應(yīng)于包括消費三階段的消費者,而第二類則對應(yīng)于除消費初期外僅包含消費末期的消費者。從消費最近時間上來看這種假設(shè)也是相對合理的,消費2~5次客戶的原始消費最近時間距離基準(zhǔn)時間最遠(yuǎn)。
綜上可知,在提供靜態(tài)先驗分類信息方面,受限玻爾茲曼機(jī)具有良好特質(zhì),其劃分的三類客戶在消費總金額和消費次數(shù)上均具有顯著差異,消費最近時間上雖然差異較小,但結(jié)合包含消費階段的推論可知,消費最近時間在三類間仍存在一定差異。因此,在SMOTE方法基礎(chǔ)上,如不考慮動態(tài)效應(yīng),則使用受限玻爾茲曼機(jī)是對客戶消費行為進(jìn)行分類的較好選擇。
前文3種不同類別的客戶本質(zhì)上可劃分為僅消費一次客戶與多次消費客戶,因此下文以分屬兩種情況的不同類別中較為典型客戶的消費行為特征為例,分析區(qū)制轉(zhuǎn)移模型估計的客戶消費階段的動態(tài)變化特征以及屬于各個不同階段概率的變化情況。
1.第一種情況(僅消費一次)的典型客戶分析。僅消費一次客戶在初步分類中基本可歸屬于第一類別,因此本研究在歸屬于第一類別且消費金額在33~34元的客戶中隨機(jī)抽取,將第一類別(共112242名客戶)中的第7008號客戶作為分析消費階段歸屬概率動態(tài)變化的例子,該客戶的消費總金額為33.9元,僅消費一次,消費最近時間為2017年10月1日。根據(jù)式(3)與式(4)模擬增加該客戶的消費總金額、消費次數(shù)與消費最近時間,消費總金額增加為33.9+316.8=350.7元,消費次數(shù)增加為1+6=7次,消費最近時間為2017年10月21日,模型參數(shù)估計結(jié)果如表4和表5所示。需注意的是,表中區(qū)制順序分別為消費初期、消費中期與消費末期,對應(yīng)的典型類別代表分別為受限玻爾茲曼機(jī)中的第一類、第三類與第二類。表5中p01、p11、p21數(shù)值在轉(zhuǎn)移概率矩陣各行中最大,意味著典型的僅消費一次客戶在后續(xù)消費過程中,如果參照其他多次購買客戶的平均水平,則處于消費中期的概率最高,且由其他狀態(tài)轉(zhuǎn)移到消費中期的概率也更高;同時,p12數(shù)值在轉(zhuǎn)移概率矩陣其所在行中最小,可以認(rèn)為多數(shù)情況下典型僅消費一次客戶會進(jìn)行多次消費,但未必會到達(dá)消費末期,可能在消費中期就停止消費行為,這與Ascarza[8]的研究結(jié)論類似,即消費者可能在消費早期或消費中期就停止進(jìn)一步的消費行為。此外,p20數(shù)值也較小,說明當(dāng)該消費者進(jìn)入消費末期后很可能不會再次回到消費初期,即當(dāng)營銷條件等外部因素不變時,其不太可能重新燃起消費商品的欲望。對于階段均值也可以得到類似的結(jié)論,即消費中期具有最大的消費總金額均值,此時消費者具有最大的高消費可能性。
表4 僅消費一次典型客戶(7008號客戶)區(qū)制轉(zhuǎn)移動態(tài)因子模型的主要參數(shù)
表5 僅消費一次典型客戶區(qū)制轉(zhuǎn)移動態(tài)因子模型的轉(zhuǎn)移概率矩陣
僅消費一次客戶由于時間維度上數(shù)據(jù)相對缺失而使用其他多次消費客戶的數(shù)據(jù)進(jìn)行補(bǔ)足,故而大多體現(xiàn)出多次消費客戶的平均傾向,但數(shù)據(jù)補(bǔ)足的基本假設(shè)符合邏輯與數(shù)據(jù)集特征。第一次消費總金額越大的客戶越有可能進(jìn)行多次消費,并且不容易直接進(jìn)入消費末期;同時,數(shù)據(jù)補(bǔ)足也為識別多次消費客戶的消費行為動態(tài)特征提供了更多的模擬數(shù)據(jù),例如單次最小消費金額與單次最大消費金額均在僅消費一次客戶群體中,起到了時間維度上SMOTE平衡的作用。此外,通過每個時間點上7008號客戶屬于每個狀態(tài)(消費階段)的概率可以計算其在每個時間點上的CLV,結(jié)果如圖4所示。由圖4可知,在7008號客戶的7次消費中,前2次屬于消費初期的概率較大,中間第3~5次被判斷為消費中期(以第二類、第三類客戶的平均水平來說),最后2次則被判斷為消費末期。在這個過程中,雖然屬于非歸屬階段的概率相對較小,但平均來說仍有9.26%,并不屬于可以忽略的概率值,因此,在計算該客戶的動態(tài)CLV時必須考慮非歸屬階段帶來的影響。
圖4 僅消費一次客戶的動態(tài)CLV
2.第二種情況(多次消費)的典型客戶分析。多次消費的客戶在初步分類中既有屬于第二類也有屬于第三類的。從前述分析可知,第三類似乎最有可能包含客戶消費的所有階段,因此,本研究從第三類中隨機(jī)抽取典型客戶與僅消費一次的典型客戶(即第一類客戶)進(jìn)行對比分析,第二類客戶也能得到類似結(jié)論。本研究抽取第三類(共350名客戶)中的第31號客戶進(jìn)行分析,該客戶的消費總金額為362.4元,消費次數(shù)為6次,消費最近時間為2017年9月26日。通過構(gòu)建該客戶的區(qū)制轉(zhuǎn)移動態(tài)因子模型,可以得到主要參數(shù)結(jié)果如表6、表7所示。由表中數(shù)據(jù)可知,從均值來看,多次消費客戶在3個階段的均值與僅消費一次客戶的虛擬數(shù)據(jù)差別不大,這也驗證了僅消費一次客戶后續(xù)數(shù)據(jù)的可靠性,至少在該數(shù)據(jù)集中其后續(xù)數(shù)據(jù)的假定是符合現(xiàn)實情況的。從轉(zhuǎn)移概率來看,結(jié)果顯示其在進(jìn)入消費末期后轉(zhuǎn)移回之前階段的可能性很小。當(dāng)然,這可能是因該客戶本身就有退出消費的傾向,其最后一次消費總金額大幅下降,從而導(dǎo)致消費末期階段的狀態(tài)均值相對表4僅消費一次客戶生成虛擬的多次消費數(shù)據(jù)后的平均傾向小得多。同時,客戶維持在消費中期的可能性相對較大,這與表5情況類似。主要原因是31號客戶的消費次數(shù)與7008號客戶生成虛擬消費數(shù)據(jù)后較為接近,消費最近時間也有一定的共同性,消費間隔較為穩(wěn)定,一個約為10天,一個約為7天,且后續(xù)消費并未出現(xiàn),這進(jìn)一步驗證了31號客戶退出消費的可能性。此外,相對于僅消費一次客戶后續(xù)消費的特征而言,31號客戶的αˉi較小而σˉη較大,且其3個維度的異質(zhì)性更強(qiáng),共同變化的因素影響相對較小。
表6 包含所有消費階段典型客戶(31號客戶)區(qū)制轉(zhuǎn)移動態(tài)因子模型的主要參數(shù)
表7 包含所有消費階段典型客戶區(qū)制轉(zhuǎn)移動態(tài)因子模型的轉(zhuǎn)移概率矩陣
類似于僅消費一次客戶的情況,本研究使用各個時間點上31號客戶的階段從屬概率與其RFM數(shù)據(jù)可計算得到如圖5所示的CLV動態(tài)變化情況。
圖5 包含所有消費階段典型客戶的動態(tài)CLV
從第一類和第三類典型客戶的區(qū)制轉(zhuǎn)移動態(tài)因子模型的估計結(jié)果和動態(tài)CLV的估計結(jié)果中可以發(fā)現(xiàn),區(qū)制轉(zhuǎn)移動態(tài)因子模型可以較好地識別客戶在不同時間點上所處的消費階段。另外,不論是通過整體樣本均值虛擬得到的第一類典型樣本還是由真實數(shù)據(jù)產(chǎn)生的第三類典型樣本,估計得到的動態(tài)CLV均呈倒“U”形特征,符合理論模型的預(yù)測結(jié)果,說明使用區(qū)制轉(zhuǎn)移動態(tài)因子模型具有較好的消費階段識別能力和較準(zhǔn)確的客戶動態(tài)CLV估計能力。
現(xiàn)有研究中,在分析客戶消費行為類別以及在計算CLV時,先驗信息與僅消費一次客戶的行為特征未被充分重視,這可能導(dǎo)致消費行為的跳躍性被忽略,對低頻率消費客戶的分析也不夠合理。本研究通過SMOTE方法虛擬增加了數(shù)量較少但較重要的多次消費且高消費金額的客戶樣本數(shù)據(jù),從而更好地估計占樣本大多數(shù)的僅消費一次客戶后續(xù)的消費行為。在足夠數(shù)據(jù)支撐的基礎(chǔ)上,本研究通過受限玻爾茲曼機(jī)較好地提取了多維數(shù)據(jù)中的概率分布特征,對客戶跳躍性消費行為進(jìn)行分類,為動態(tài)消費階段的識別和CLV的計算提供較為準(zhǔn)確的先驗信息。在獲得先驗分類信息后,本研究使用區(qū)制轉(zhuǎn)移動態(tài)因子模型為非線性客戶消費階段變化提供了較為穩(wěn)健的模型分析框架,在此基礎(chǔ)上計算客戶在每個時間點上從屬于不同消費階段的概率,從而計算得到更為準(zhǔn)確的動態(tài)CLV,并采用庫爾勒香梨的網(wǎng)絡(luò)銷售樣本數(shù)據(jù)進(jìn)行示例分析。實證結(jié)果表明:通過SMOTE方法增加數(shù)據(jù)后,多次消費客戶的消費行為在消費金額和最近消費時間上的分布變得更加均勻,并且與多數(shù)類(僅消費一次客戶)的分布更為相似,但分布的統(tǒng)計量則變化不大。這意味著SMOTE方法在模擬增加重要客戶消費行為數(shù)據(jù)方面具有很好的效果。而以受限玻爾茲曼機(jī)進(jìn)行初步分類后得到的先驗信息也是如此,初步分類后三類客戶各維度上表現(xiàn)出明顯不同,分類效果優(yōu)良。使用典型客戶的區(qū)制轉(zhuǎn)移動態(tài)因子模型進(jìn)行的研究則證明了以多次消費客戶對僅消費一次客戶的后續(xù)消費行為進(jìn)行模擬具有一定的合理性,二者的動態(tài)CLV均呈現(xiàn)倒“U”形特征,僅消費一次客戶的預(yù)期CLV較高。
本研究測試的動態(tài)客戶分類方法能夠提供更為充足的客戶信息,進(jìn)而為制定庫爾勒香梨品牌營銷、構(gòu)建品牌聯(lián)合體及產(chǎn)業(yè)化發(fā)展等策略提供科學(xué)合理的動態(tài)信息,使得及時修正或填補(bǔ)營銷與發(fā)展策略中未考慮完全或有所疏漏的部分成為可能。特別是對于庫爾勒香梨這種季節(jié)性較為明顯的商品而言,動態(tài)分析極為重要。在客戶信息不足如僅消費一次客戶數(shù)據(jù)較多的情況下,仍能為重點客戶群體提供較高質(zhì)量的類別動態(tài)信息,進(jìn)而為及時預(yù)警、維護(hù)重要客戶提供決策依據(jù),同時也使得制定適合重要客戶的針對性營銷策略成為可能。此外,本研究對于客戶維護(hù)具有一定的啟示意義。例如,第一次消費總金額較大的客戶,其進(jìn)行多次消費的可能性較大,并且不易直接進(jìn)入消費末期,對于此類客戶,企業(yè)需要為其提供更好的服務(wù)和體驗,并進(jìn)行定期的營銷推送來喚醒其重購動機(jī)。同時,對于那些典型的僅消費一次客戶,研究表明其在后續(xù)消費過程中如果參照其他多次購買客戶的平均水平,則處于消費中期的概率最大,且由其他狀態(tài)轉(zhuǎn)移到消費中期的概率更大;同時p20數(shù)值較小,說明當(dāng)該消費者達(dá)到消費末期后很可能不會再次回到消費初期,即當(dāng)營銷條件等外部因素不變時,不太可能重新燃起消費該種商品的欲望。因此,此類客戶極可能成為潛在的流失對象,企業(yè)需多關(guān)注這一類別的客戶,可以通過電話回訪或者營銷促銷等策略激發(fā)客戶的參與興趣。
本研究也存在一些不足,如對于僅消費一次客戶,其真實消費行為模式其實是未知的,模擬數(shù)據(jù)主要源于已有觀測數(shù)據(jù)的平均值,并不能很好地預(yù)測極端數(shù)據(jù)或者具有新的消費模式的消費者CLV的變化情況,因此在未來的研究和實際應(yīng)用中,還需依據(jù)后續(xù)觀測數(shù)據(jù)進(jìn)行修正,盡量避免已有數(shù)據(jù)帶來的過擬合情況。