張馭思,于明亮
(上海理工大學,上海 200093)
目前我國網(wǎng)絡建設發(fā)展極為迅速,涉及到互聯(lián)網(wǎng)經(jīng)濟的產(chǎn)業(yè)均迎來快速發(fā)展,線上客戶數(shù)量的不斷提高使得企業(yè)的經(jīng)營重點逐漸從產(chǎn)品/服務本身向維持現(xiàn)有客戶資源偏移。以酒店服務業(yè)務為例,目前的綜合性酒店旅行服務企業(yè)大多通過線上APP 和網(wǎng)站以數(shù)字信息的形式為數(shù)量龐大的會員提供全方位的酒店旅行信息。通過對我國目前相關(guān)企業(yè)進行研究發(fā)現(xiàn),目前針對線上酒店預定平臺的服務調(diào)研主要聚焦在客戶的滿意度管理,有關(guān)交易行為和消費轉(zhuǎn)化率等信息在一定程度上被忽略。
對于客戶數(shù)據(jù)進行分析,進而對其流失傾向進行分析總結(jié),能夠企業(yè)的客戶關(guān)系維護和管理提供理論指導與數(shù)據(jù)支撐。研究者曾采用支持向量機、神經(jīng)網(wǎng)絡和貝葉斯模型分別客戶流失傾向進行分析和預測,通過與實際數(shù)據(jù)對比驗證了模型的有效性。隨后,有研究者開始在現(xiàn)有模型中添加插件模塊以優(yōu)化算法,提升預測精度,Xu等研究者將模糊語言和貝葉斯模型進行融合,將模糊信息以概率的形式精確呈現(xiàn),使信息缺失、模糊的流失客戶數(shù)據(jù)分析成為可能。近年來,模型間的耦合被證明在某些領(lǐng)域擁有比傳統(tǒng)單一模型更高的預測準確性。Aron等人將邏輯回歸模型和決策樹模型耦合,通過實驗及驗證分析,表明耦合模型在精度和可靠性、可解釋性方面均有著比各自獨立模型預測結(jié)果更好的表現(xiàn)。在數(shù)據(jù)處理過程中,Sebastiaan 團隊在數(shù)據(jù)前期處理中引入最大利潤度這一概念,并作為模型的評價和分析指標,以該標準進化算法并驅(qū)動決策樹模型,獲得了同時考慮企業(yè)成本和利潤的更合理且解釋性更強的模型。
上述研究對在企業(yè)客戶管理和運營方面的提升和完善具有十分積極的推進作用,但針對酒店線上客戶流失的分析模型亟待構(gòu)建。本文以線上綜合服務型酒店對現(xiàn)有客戶流失運營管理為主題,以高效預測客戶流失為目的,通過對諸多算法進行比較,將數(shù)據(jù)挖掘、統(tǒng)計學理論融入管理理論,實現(xiàn)學科的融合,為線上酒店解決用戶流失問題提供具有參考價值的理論模型和數(shù)據(jù)支持。
本文實驗的原始數(shù)據(jù)來源于攜程用戶的脫敏訪問數(shù)據(jù),構(gòu)建模型之前,需對原始數(shù)據(jù)進行數(shù)據(jù)清洗、整合與構(gòu)建,最后按照既定標準進行格式化。
本次實驗樣本共有689 945 條數(shù)據(jù),變量總結(jié)歸納為三類相關(guān)指標:訂單、客戶行為和酒店相關(guān)指標,如圖1所示,除去標簽列和id 列共有49 項特征。
圖1 變量分類
1.2.1 異常值處理
在數(shù)據(jù)獲取過程中往往會出現(xiàn)某些數(shù)據(jù)點的異常,這在后期建模過程中會影響模型的準確性,因此應提前進行篩選處理。本文以customer_value_profit 和ctrip_profits 為例將處理前后的數(shù)據(jù)散點圖對比如圖2所示。
圖2 異常值處理前后的數(shù)據(jù)散點圖變化
1.2.2 相關(guān)性分析及PCA 降維
在建模之前還需要對數(shù)據(jù)的相關(guān)性進行分析,進而降低建模過程的數(shù)據(jù)維度,根據(jù)圖1我們可以看到訂單相關(guān)指標只涉及四個小類且明顯彼此間相關(guān)性不高,因此本文僅注重用戶特征的相關(guān)性分析,相關(guān)性矩陣熱度圖如圖3所示。
圖3 用戶特征的相關(guān)性矩陣熱度圖
我們將數(shù)據(jù)維度從最開始的(689 945,49)降至(689 845,41),數(shù)據(jù)條數(shù)未改變,將建模input 的變量維度從49 降至41。隨后將數(shù)據(jù)標準化之后,開始建模計算。
首先我們采用邏輯回歸模型對預處理后的數(shù)據(jù)集進行建模分析,得到模型的準確率為0.737 4,ROC 曲線如圖4所示,AUC 值為0.7,精確度、召回率等信息如表1所示。
圖4 邏輯回歸模型的ROC 曲線
表1 邏輯回歸模型相關(guān)信息
我們隨后采用樸素貝葉斯模型對預處理后的數(shù)據(jù)集進行建模分析,得到該模型的預測準確率為0.637 1,ROC 曲線如圖5所示,AUC 值為0.67,精確度、召回率等信息如表2所示。
圖5 樸素貝葉斯模型的ROC 曲線
表2 樸素貝葉斯模型相關(guān)信息
我們繼續(xù)采用支持向量機模型對預處理后的數(shù)據(jù)集進行建模分析,得到該模型的預測準確率為0.550 2,ROC 曲線如圖6所示,AUC 值為0.49,精確度、召回率等信息如表3所示。
表3 支持向量機模型相關(guān)信息
圖6 支持向量機模型的ROC 曲線
我們繼續(xù)采用決策樹模型對預處理后的數(shù)據(jù)集進行建模分析,得到該模型的預測準確率為0.881 8,ROC 曲線如圖7所示,AUC 值為0.86,精確度、召回率等信息如表4所示。
圖7 決策樹模型的ROC 曲線
表4 決策樹模型相關(guān)信息
我們繼續(xù)采用隨機模型對預處理后的數(shù)據(jù)集進行建模分析,得到該模型的預測準確率為0.925 0,ROC 曲線如圖8所示,AUC 值為0.97,精確度、召回率等信息如表5所示。
圖8 隨機森林模型的ROC 曲線
表5 隨機森林模型相關(guān)信息
最后,我們采用極端梯度提升模型對預處理后的數(shù)據(jù)集進行建模分析,最終得到該模型的預測準確率為0.925 0,ROC 曲線如圖9所示,AUC 值為0.97,精確度、召回率等信息如表6所示,可以看出極端梯度提升模型的ROC 曲線和隨機森林的ROC 曲線基本一致,具體比較將在下一節(jié)討論。
圖9 極端梯度提升模型的ROC 曲線
表6 極端梯度提升模型相關(guān)信息
通過對模型預測準確率的比較可以看出,隨機森林和極端梯度提升模型的準確率最好,說明在本文客戶流失信息預測方面隨機森林模型和極端梯度模型具有更好的表現(xiàn),而支持向量機模型的準確率最低,為0.550 2,說明該模型相對而言并不適合客戶流失信息的預測研究。為了進一步比較,我們進將六類模型的ROC 曲線繪制于如圖10 所示。
圖10 六種模型的ROC 曲線
隨機森林以及XGBoost 的的ROC 曲線表現(xiàn)最佳,但在訓練過程中我們發(fā)現(xiàn),XGBoost 明顯更加耗時,且其準確率和AUC 值均低于隨機森林模型,因此我們認為隨機森林模型更適用于本文酒店線上客戶流失的情況的預測和分析。
本文以酒店服務類綜合性企業(yè)的現(xiàn)有客戶流失情況為研究對象,以線上綜合服務型酒店對現(xiàn)有客戶流失運營管理為主題,以高效預測客戶流失為目的,針對移動通信用戶流失問題進行了定量分析。通過對邏輯回歸、樸素貝葉斯、支持向量機、決策樹、隨機森林、極端梯度提升(XGBoost)等諸多算法進行比較,獲得更適合客戶管理的流失預測模型。通過不同模型運行結(jié)果對比分析,發(fā)現(xiàn)隨機森林、極端梯度提升(XGBoost)比傳統(tǒng)的邏輯回歸、樸素貝葉斯、支持向量機、決策樹模型在各項評價指標上均有較強的優(yōu)勢,為線上酒店解決用戶流失問題提供支持。