,
(中國科學(xué)院大學(xué) 經(jīng)濟(jì)與管理學(xué)院,北京 100190)
近年,互聯(lián)網(wǎng)金融經(jīng)過快速發(fā)展,用戶流失問題變得與銀行業(yè)和電信業(yè)類成熟型行業(yè)一樣越來越重要。一是因?yàn)榫珳?zhǔn)的用戶流失預(yù)測能為企業(yè)制定用戶策略提供有效的決策依據(jù)甚至是決策方案;二是因?yàn)楂@取用戶的成本是留住用戶成本的5倍以上。在行業(yè)競爭越來越激烈的情況下,有效的用戶管理是一柄重要的競爭利劍,影響企業(yè)生存。目前互聯(lián)網(wǎng)金融企業(yè)正面臨用戶獲取成本高和用戶流失率高等問題,所以如何提高用戶流失預(yù)測的效果,從而在用戶管理方面提高資金利用率是一個值得研究的問題。一些學(xué)者的研究為企業(yè)在用戶流失方面提高資金利用率提供了理論支持,如Bhattacharya[1], Athanassopoulos[2], Slater和Narver[3]發(fā)現(xiàn):獲取一個新用戶的成本是留住一個老用戶成本的5到6倍甚至更多;He等[4]的研究提到:哈佛商業(yè)評論研究表明降低5%的用戶流失率能夠提升25%到85%的企業(yè)利潤。
用戶流失預(yù)測效果好壞主要取決于特征變量的好壞。特征提取和選擇的相關(guān)研究主要聚焦在特征工程方面,如:Titele[5]通過從用戶的個人信息、信用卡信息、風(fēng)險信息和交易信息為用戶流失預(yù)測模型設(shè)計了135個變量;Huang等[6]提出了一種多目標(biāo)特征選擇方式;Castro和Tsuzuki[7]通過TFPD方式提取游戲類用戶的日志行為特征從而對用戶的流失行為進(jìn)行預(yù)測;Coussement和Poel, Coussement等[8,9]通過對某電信企業(yè)的研究揭示數(shù)據(jù)展現(xiàn)形式對流失預(yù)測的影響;周靜等[10]運(yùn)用社交網(wǎng)絡(luò)分析方法,通過構(gòu)造與網(wǎng)絡(luò)結(jié)構(gòu)相關(guān)的變量進(jìn)行影響因素的探討,運(yùn)用LR方法構(gòu)建客戶流失預(yù)警模型。本文主要采用RFM(recency-frequency-monetary)和TFPD(time-frequency plane domain)方法提取特征。RFM是一個經(jīng)典的基于用戶生命價值理論研究用戶行為的模型,以零售業(yè)為例,該模型提取用戶的最近購買時間、消費(fèi)頻率以及消費(fèi)金額三類數(shù)據(jù)來衡量用戶對企業(yè)的忠誠度和購買力,相關(guān)研究[11,12]以及拓展研究[13~16]較多。Castro和Tsuzuki[7]提出TFPD方法用于提取特征的趨勢信息,其研究結(jié)果表明該類方法應(yīng)用于在線游戲領(lǐng)域用戶流失預(yù)測問題可比RFM方法平均提升23%的企業(yè)收益。
用戶流失預(yù)測文獻(xiàn)資料豐富,包含管理學(xué)方面的文獻(xiàn)[17~20]和計算機(jī)科學(xué)方面的文獻(xiàn)[21~24],研究領(lǐng)域主要為電信業(yè)和銀行業(yè),其中互聯(lián)網(wǎng)金融領(lǐng)域用戶流失預(yù)測問題的研究較少,且尚未發(fā)現(xiàn)基于用戶基本信息、日志行為和交易類信息這三類能較全面刻畫用戶特征的數(shù)據(jù)進(jìn)行流失預(yù)測的相關(guān)研究,本研究將基于這三類數(shù)據(jù)展開。且相關(guān)文獻(xiàn)較少涉及針對用戶的行為類數(shù)據(jù)和交易類數(shù)據(jù)系統(tǒng)考慮特征提取的優(yōu)化方案,本文通過RFM和TFPD兩類方法針對相關(guān)數(shù)據(jù)提取特征,并對兩類特征提取方式在不同數(shù)據(jù)類型和模型上的表現(xiàn)進(jìn)行評估,從而為用戶流失管理提供建模技術(shù)和管理兩方面的啟示。
本文研究對象是案例企業(yè)賬齡3個月以上的最后一筆定期到期用戶,針對該類用戶群體,本研究采用案例企業(yè)的流失用戶定義:最后一筆定期到期后若持續(xù)30天以上平臺資金量小于150元則為流失用戶。據(jù)此,本研究的流失用戶標(biāo)記依據(jù)為:以用戶最后一筆定期到期日(定期購買時間2016年10月31日之前)為開始日期,到統(tǒng)計日期2016年12月31號截止,如果一個用戶此期間連續(xù)30天以上賬戶總金額小于150元則被認(rèn)為是流失用戶。
本文研究數(shù)據(jù)包含用戶的基本信息、日志行為信息和交易信息。為對RFM和TFPD特征提取方式進(jìn)行對比,基于以上數(shù)據(jù)的特征分成三類:一是基本信息,包含用戶的性別、年齡、所在城市等級等人口學(xué)信息和活期定期投資金額等不通過RFM和TFPD方式提取的交易和行為信息;二是日志行為信息提取的RFM和TFPD類特征,日志行為信息包含用戶對企業(yè)移動端app頁面的訪問日志;三是交易類信息提取的RFM和TFPD類特征,交易信息包含用戶在企業(yè)移動端app轉(zhuǎn)入資金、購買理財產(chǎn)品、贖回資金等信息。
本研究共獲得13831名符合條件的用戶作為樣本數(shù)據(jù),其中4507名為流失用戶,9324名為留存用戶,流失率32.6%。以上數(shù)據(jù)隨機(jī)選取70%采用五倍交叉驗(yàn)證法同時作為分類器的訓(xùn)練集和測試集,通過網(wǎng)格搜索確定分類器的最佳參數(shù),另30%數(shù)據(jù)作為驗(yàn)證集衡量分類器在新樣本上的表現(xiàn)。另外該數(shù)據(jù)集類別分布不均衡,本文采用代價敏感參數(shù)法對少數(shù)類別進(jìn)行補(bǔ)償。對不平衡數(shù)據(jù)的處理方法將作為未來工作,本文不再討論。
2.1.1 基本特征
表1 用戶的基本特征及其解釋
案例企業(yè)提供了19個運(yùn)營環(huán)境下與用戶流失關(guān)系密切的變量供參考,這些變量包含用戶人口學(xué)特征、行為特征和交易特征。表1展示了這些特征及其對應(yīng)的解釋:人口學(xué)特征包含用戶的年齡、性別等信息;交易類特征包含用戶優(yōu)惠券的使用率和定期投資總額等信息;行為類信息包含用戶最后一次登錄到統(tǒng)計截止日的時間差等信息。
2.1.2 RFM和TFPD類特征
RFM和TFPD是兩種對時間序列格式的數(shù)據(jù)進(jìn)行信息提取的方法。RFM中R代表用戶最近一次購買時間距統(tǒng)計截止日天數(shù);F代表用戶某一行為在統(tǒng)計時間范圍內(nèi)發(fā)生的頻率;M代表用戶在統(tǒng)計時間范圍內(nèi)付出的成本(金錢、時間等)。本研究的RFM特征提取方式為:通過對M變量求F的均值得到R時間范圍內(nèi)的平均值特征,如:R-最后一筆定期到期前一周,F(xiàn)-用戶訪問移動端app頻率為5次,M-總訪問時長為40秒,則RFM變量為用戶最后一筆定期到期前一周每次訪問app平均時長8秒。TFPD是Castro和Tsuzuki[7]提出的一種頻數(shù)分析法,首先使用小波分解(wavelet packet decomposition schema)獲得變量每一時間段的頻數(shù)信息,然后將按時間順序排列的頻數(shù)類數(shù)據(jù)每兩對分別相加和相減求均值將數(shù)據(jù)分成父類和母類因素,對父類和母類因素分別重復(fù)上述操作直到父類和母類因素?zé)o法再按相同的方式進(jìn)行分割。TFPD法通過對成對變量的加和求均值和相減求均值實(shí)現(xiàn)對變量短期變化趨勢的捕捉。
交易和日志行為數(shù)據(jù)均通過RFM和TFPD方法提取特征。交易數(shù)據(jù)為用戶在平臺的資產(chǎn)總額即資金存量信息,日志行為數(shù)據(jù)為用戶登錄app頻率以及對收益類頁面的平均訪問時長。其中交易信息的時間窗口為用戶最后一筆定期到期前推16周(TFPD算法收斂的條件是時間周期為2n),統(tǒng)計用戶16周內(nèi)每周在該企業(yè)移動端理財app的資金平均存量。由于行為數(shù)據(jù)時間有效性較短,時間窗口設(shè)置為用戶最后一筆定期到期前推8周,統(tǒng)計用戶每周訪問APP平均時長和收益類頁面平均訪問時長。
本研究使用二分類模型對企業(yè)用戶是否流失進(jìn)行預(yù)測,包含LR、RF和SVM三類二分類算法。對于每一個用戶,二分類模型會根據(jù)其特征產(chǎn)生一個0到1范圍內(nèi)的概率值用以表示一個用戶為流失用戶的概率,本研究中當(dāng)概率值大于0.5時,用戶為流失用戶,否則為留存用戶。以用戶流失與否的實(shí)際情況為參照,根據(jù)分類模型對用戶流失概率的預(yù)測可計算用以衡量模型分類準(zhǔn)確度的AUC值,根據(jù)模型對用戶流失與否的判斷可獲得分類模型混淆矩陣,進(jìn)一步計算分類的精準(zhǔn)度和召回率。
2.2.1 分類模型
本文的流失預(yù)測模型中,假設(shè)樣本為{X,Y}n,則:目標(biāo)變量Y為用戶是否流失,Y=1表示流失用戶,Y=0表示非流失用戶;X為m維的樣本特征向量;n表示樣本數(shù)。
LR算法是比較常用的二分類算法,具有速度快、簡單易理解等優(yōu)點(diǎn),適合處理線性可分的二分類問題。在LR模型中,用戶被預(yù)測為流失用戶的概率如(1)式所示,其中wi為通過樣本學(xué)習(xí)的邏輯回歸對應(yīng)變量的最優(yōu)參數(shù),對于本研究P(Y=1|x)>0.5,則用戶被判定為流失否則為留存用戶。
(1)
SVM算法可以通過核函數(shù)將特征映射到高維空間解決線性不可分問題,在處理小樣本、非線性和高維模式識別中具有優(yōu)勢。SVM可以通過支持向量構(gòu)造最優(yōu)分類平面將正負(fù)樣本分開,超平面的公式為wx+b=0,SVM通過優(yōu)化問題(2~3)確定超平面參數(shù)向量w和b,其中ξi和C是為了解決線性不可分問題引入的松弛變量及其系數(shù),允許數(shù)據(jù)點(diǎn)在一定程度上偏離超平面。對于本研究若wx+b>0,則用戶被判斷為流失用戶否則為留存用戶。
(2)
subjectto:yi·(w·x+b)≥1-ξi?i,ξi≥0
(3)
RF是由眾多決策樹組合而成的分類器,具有準(zhǔn)確率高、學(xué)習(xí)過程快等優(yōu)點(diǎn)。RF算法的輸出結(jié)果由全體決策樹投票決定。決策樹的核心算法為分裂規(guī)則,常用算法有ID3、C4.5和Gini系數(shù)。本研究選取目前最通用的Gini系數(shù)作為分裂規(guī)則,如(4)式所示,分裂規(guī)則可計算每次分裂不同特征的重要性和最優(yōu)分裂點(diǎn),如(5)式所示,其中A表示特征,k表示A特征的類別數(shù),如性別特征k=2,D表示計算該特征Gini指數(shù)時劃分樣本的樣本數(shù)。通過(4)式和(5)式可以確定一顆決策樹,對于隨機(jī)森林而言,可通過隨機(jī)選擇總樣本的多個子集、所有特征的多個子集訓(xùn)練多顆決策樹,新的樣本則根據(jù)多顆決策樹從訓(xùn)練樣本中學(xué)習(xí)到的規(guī)則進(jìn)行投票分類。
(4)
(5)
2.2.2 分類模型效果評估
二分類預(yù)測模型效果評估常用指標(biāo)包含準(zhǔn)確率、召回率、精確度、F-score和AUC(the area under ROC curve)。其中準(zhǔn)確率、召回率等指標(biāo)要求樣本為平衡數(shù)據(jù),因?yàn)楸狙芯坎捎玫氖遣黄胶鈹?shù)據(jù),所以對比RFM和TFPD特征提取方式的流失預(yù)測效果時采取AUC作為評價指標(biāo);最終模型效果解釋選擇精確度、召回率和混淆矩陣三類指標(biāo)。
ROC(receiver operating characteristic)曲線用于衡量分類模型區(qū)分好壞樣本的能力[25],通常用AUC即ROC曲線下的面積表示分類器性能好壞,AUC越大,分類器效果越理想?;煜仃囀强梢暬诸惼髟谡?fù)樣本上具體表現(xiàn)的工具,矩陣的每列代表類的預(yù)測值,每行代表類的實(shí)際值。TP表示分類器將實(shí)際流失用戶預(yù)測為流失用戶的數(shù)量;FN表示將實(shí)際流失用戶預(yù)測為留存用戶的數(shù)量;FP表示實(shí)際為留存用戶預(yù)測為流失用戶的數(shù)量;TN表示實(shí)際為留存用戶預(yù)測為留存用戶的數(shù)量。通過混淆矩陣可分別計算正負(fù)樣本分類的精確度和召回率,以正樣本為例:精確度指預(yù)測結(jié)果為正樣本時預(yù)測正確的比例,計算公式為TP/(TP+FP),召回率指預(yù)測結(jié)果為正樣本且實(shí)際為正樣本占實(shí)際正樣本的比例,計算公式為TP/(TP+FN)。
本研究首先使用RFM和TFPD方法從用戶的日志行為信息和交易信息中提取特征,包含RFM類日志行為特征、RFM類交易特征、TFPD類日志行為特征和TFPD類交易特征;然后利用以上特征建立不同的流失預(yù)測模型,模型使用LR、RF和SVM三類算法,對案例企業(yè)最后一筆定期到期用戶流失與否進(jìn)行預(yù)測,以0.5為用戶流失與否的判斷標(biāo)準(zhǔn),即流失概率大于0.5為流失用戶,否則為留存用戶;最后以AUC作為上述模型優(yōu)劣的評價指標(biāo),模型結(jié)果如表2所示。
通過表2對比三類模型五倍交叉驗(yàn)證的AUC評分可以發(fā)現(xiàn):對比日志行為信息beh_TFPD和beh_RFM在三類模型上的表現(xiàn),beh_RFM的AUC均值均大于beh_TFPD的AUC均值,因而針對日志行為類信息通過RFM方式提取特征建模優(yōu)于TFPD方式;對比交易類信息trade_TFPD和trade_RFM在三類模型上的表現(xiàn),對于RF和SVM算法,trade_TFPD的AUC均值大于trade_RFM的AUC均值,此時交易類信息通過TFPD方式提取特征建模優(yōu)于RFM方式,而LR算法的結(jié)論與之相反。基于以上描述,本研究的數(shù)據(jù)對于基于LR算法的流失預(yù)測模型以RFM方式提取交易特征,基于RF和SVM算法的流失預(yù)測模型以TFPD方式提取交易特征,RFM提取行為特征較為合理。
表2 各分類模型結(jié)果數(shù)據(jù)
最后,本研究以用戶基本特征、RFM方式構(gòu)建的交易特征和行為特征訓(xùn)練基于LR算法的流失預(yù)測模型,以用戶基本特征、TFPD方式構(gòu)建的交易特征以及RFM方式構(gòu)建的行為特征訓(xùn)練基于RF和SVM算法的流失預(yù)測模型,過程與各類特征單獨(dú)建模一致,從精確度、召回率以及AUC三類指標(biāo)衡量模型在驗(yàn)證集上的表現(xiàn),包含精確度、召回率和AUC的評價結(jié)果如表3所示。
表3 流失預(yù)測模型分類結(jié)果
從表3可以看出用戶流失預(yù)測模型對流失用戶的預(yù)測效果:基于LR算法的模型召回率最大為0.75,預(yù)測出的流失用戶包含75%真正會流失的用戶;基于RF算法的模型精確度最高為0.78,能以78%的準(zhǔn)確性預(yù)測出流失用戶,優(yōu)于隨機(jī)猜測的30%。以上結(jié)果是以閾值0.5為流失與否判斷依據(jù),實(shí)際運(yùn)營環(huán)境下,可以根據(jù)企業(yè)的業(yè)務(wù)需求判斷哪一類指標(biāo)更重要,調(diào)高閾值以提高精確度,調(diào)低閾值以提高召回率?,F(xiàn)假設(shè)案例企業(yè)最后一筆定期到期用戶1000名,這些用戶的流失率為30%,現(xiàn)需要采取行動避免用戶流失。如果企業(yè)不了解這些用戶具體流失傾向,一是對1000名用戶均采取運(yùn)營優(yōu)惠活動挽留可能流失用戶;二是不采取任何措施放棄將會流失的用戶。在企業(yè)不了解用戶具體流失傾向時采取行動將變得缺乏目標(biāo)且成本巨大。如果企業(yè)對用戶進(jìn)行流失預(yù)測,預(yù)測具體的流失用戶群體,以基于RF算法的模型為例對流失預(yù)測分類器的效果進(jìn)行解釋,用混淆矩陣展示模型效果如表4所示。
表4 基于運(yùn)營假設(shè)的混淆矩陣
從表4看出,1000名用戶中實(shí)際流失用戶為336名,流失率33.6%,其中模型預(yù)測總共245名用戶為流失用戶,預(yù)測正確191名,預(yù)測正確率為78%,召回率57%。運(yùn)營環(huán)境下,案例企業(yè)本需對1000名用戶都采取策略從而挽留即將流失的用戶,但通過該流失預(yù)測模型,案例企業(yè)可針對模型預(yù)測的245名流失用戶采取挽留策略。與對1000名用戶采取相同的挽留策略相比,對預(yù)測為流失的245名用戶以及根據(jù)其流失可能性的大小采取不同程度的挽留策略能為企業(yè)節(jié)省可觀的用戶關(guān)系維護(hù)成本。實(shí)際運(yùn)營環(huán)境下,案例企業(yè)可根據(jù)用戶維系的目標(biāo)選擇具有不同表現(xiàn)的模型,如果傾向于留住更多用戶則可使用召回率較高的LR模型;如果更傾向于降低用戶關(guān)系維系成本則可使用精確度較高的RF模型。
用戶流失預(yù)測的技術(shù)相對成熟,本文認(rèn)為優(yōu)秀的流失預(yù)測方案有兩個重要的因素:一是對具體流失問題的認(rèn)知程度;二是數(shù)據(jù)的質(zhì)量和從中提取的信息量。本文以互聯(lián)網(wǎng)金融企業(yè)用戶流失問題為背景,通過案例企業(yè)的真實(shí)用戶數(shù)據(jù)研究用戶流失預(yù)測建模問題,針對互聯(lián)網(wǎng)金融用戶的流失特點(diǎn),選取用戶基本信息、日志行為信息以及交易信息中對用戶流失有預(yù)判作用的信息作為建模數(shù)據(jù),其中基本信息一定程度上刻畫用戶的人口學(xué)特征,如年齡、學(xué)歷和投資偏好等;用戶的交易信息可刻畫用戶的投資偏好和傾向,如購買量的變化;用戶的日志行為類信息則刻畫用戶的投資態(tài)度,如對平臺收益的關(guān)注度,這些信息組合在一起可以大致知道用戶是否有投資意愿、目前在平臺投資的資金是增加還是減少以及對自己的投資產(chǎn)品或其他產(chǎn)品的關(guān)注程度等。針對以上數(shù)據(jù),本文進(jìn)一步比較不同的特征提取方式優(yōu)劣,采用RFM和TFPD兩類方法從行為數(shù)據(jù)和交易數(shù)據(jù)中分別提取特征,對比兩類特征提取方法在不同數(shù)據(jù)即日志行為數(shù)據(jù)和交易數(shù)據(jù)與不同模型即LR、RF和SVM上的表現(xiàn),發(fā)現(xiàn)對于LR模型RFM提取的特征表現(xiàn)優(yōu)于TFPD,對于RF和SVM模型,行為類信息通過RFM提取特征表現(xiàn)優(yōu)于TFPD,交易類信息通過TFPD提取特征表現(xiàn)優(yōu)于RFM;最后本文將用戶流失預(yù)測模型應(yīng)用于企業(yè)的用戶流失管理過程,可幫助企業(yè)定位潛在流失用戶,為其開展對應(yīng)的流失用戶挽留策略提供數(shù)據(jù)支持。本研究旨在為用戶流失管理提供建模技術(shù)和管理兩方面的啟示,流失建模技術(shù)方面可為數(shù)據(jù)類型選擇和特征提取方式提供參考思路與方案;流失管理啟示方面,本研究的研究成果首先可為企業(yè)定位流失用戶群體從而提升運(yùn)營效率,其次可依據(jù)用戶流失的概率大小差異化設(shè)計用戶關(guān)系維系成本節(jié)省企業(yè)預(yù)算。未來我們將對用戶行為和交易信息的特征處理進(jìn)行更深入的分析與研究,一方面研究更多基于數(shù)據(jù)類型的特征提取方式,另一方面嘗試挖掘數(shù)據(jù)類型與適用特征提取方式背后的聯(lián)系機(jī)理,以取得更好的預(yù)測效果和更有深度的發(fā)現(xiàn)。