董紀陽
(東北財經大學 管理科學與工程學院,遼寧 大連 116023)
客戶是企業(yè)盈利的源泉,客戶的忠誠度與客戶關系的維持是各企業(yè)爭奪競爭優(yōu)勢的焦點。自20世紀60年代,以客戶為中心便成為企業(yè)經營的主旨。進入21世紀,全球歷經了兩次大的世界性金融危機以及數(shù)次公共衛(wèi)生事件的沖擊,其“蝴蝶效應”仍在加劇,人類已經步入“新全球危機時代”。特別是2020年初暴發(fā)的新冠病毒肺炎疫情,給金融業(yè)發(fā)展帶來了新的困難和挑戰(zhàn),當疫情跨地域跨國界蔓延時,其所致危機的復雜性更增加了經濟前景的不確定性。后疫情時代,以數(shù)字營銷為代表的數(shù)字經濟將成為發(fā)展主流,利用AI技術提供精準客戶數(shù)據(jù)分析,時刻抓住客戶的動態(tài),將為企業(yè)行為模式上爭取領先地位??蛻袅魇Ч芾硎强蛻絷P系管理的重要環(huán)節(jié),如何預判哪些客戶有流失傾向,分析他們的流失原因,及時采取措施加以挽留意義重大。
客戶流失預測一般指有針對性地對與當前公司表現(xiàn)出結束商業(yè)關系傾向的客戶進行計算機化搜索和識別。近年來蓬勃發(fā)展的計算硬件與機器學習算法推動了客戶流失預測算法在電信、銀行、保險等應用場景的廣泛應用,模型取得的斐然效果給企業(yè)帶來了巨大收益,客戶流失預測成為機器學習的重要應用方向。客戶流失預測有著重大商用前景和學術價值,很多學者以客戶或交易記錄為數(shù)據(jù)集,運用多種機器學習方法展開了系列研究:Ganesh J等用SMOTE算法進行數(shù)據(jù)均衡,選用決策樹模型對信用卡數(shù)據(jù)進行客戶流失挖掘(1)Ganesh J,Arnold M J,Reynolds,K.E.Understanding the Customer Base of Service Providers:An Examination of the Differences Between Switchers and Stayers,in Journal of Marketing, 2000,pp.65-87.;Hung等使用反向傳播算法對臺灣某通信公司的客戶數(shù)據(jù)進行流失預測,論證了在各細分市場上建模的效果比在全部市場上更為準確(2)Ha H,The moderating roles of status of B2B evaluator and dependence in the switching costs-switching intentions-performance causal chain in Korea,Asia Pacific Business Review,2017,pp.420-437.;還有學者使用基于粒子群優(yōu)化(PSO)的欠采樣與降維技術處理不平衡數(shù)據(jù),構建隨機森林模型對通信行業(yè)的流失預測模型。(3)Kumar V,Reinartz W,Creating Enduring Customer Value,in Journal of Marketing,2016,PP36-68.
流失預測問題大都可以轉化成二分類問題,分類預測模型本身的思想和應用在后續(xù)的建模與評估上與“客戶預測”這個應用場景關聯(lián)并不大。基于分類系統(tǒng)的客戶流失預測模型的效率依賴于對可用數(shù)據(jù)集的學習策略。適當?shù)念A處理數(shù)據(jù)集有助于分類器達到所需的精度,最終獲得理想的性能(4)張線媚:《數(shù)據(jù)挖掘在電信行業(yè)客戶流失預測中的應用》,《微型機與應用》2015年第15期。?;鸸就ㄟ^獲取大量客戶信息來歸檔數(shù)據(jù),遺憾的是此類數(shù)據(jù)具有維度高與特征分布嚴重失衡的特點,流失客戶數(shù)量通常與非流失客戶相比要少得多,從而導致數(shù)據(jù)集不平衡。高質量的數(shù)據(jù)預處理對模型效果影響重大,在流失預測場景中常用的方法有數(shù)據(jù)均衡、人工特征選擇、缺失值處理、特征降維等。人工特征選擇的方法有較大主觀性,本文在前人研究的基礎上,使用決策樹的方法進行特性選擇,運用邏輯回歸算法對流失預測的效果進行實驗和對比評估,以期為后續(xù)相關研究提供參考。
對于一般機器學習,分類預測的流程通常需要數(shù)據(jù)錄入、數(shù)據(jù)清洗、特征提取、特征篩選、模型訓練、模型評估等步驟。數(shù)據(jù)清洗主要是將從信息系統(tǒng)中導出的數(shù)據(jù)進行一定程度處理,去除不標準數(shù)據(jù)和一些無用、雜亂的數(shù)據(jù)。特征提取、特征篩選用于提取能夠體現(xiàn)數(shù)據(jù)特點的特征,模型訓練主要是將數(shù)據(jù)提供給模型算法,讓模型能夠學習到一組參數(shù),模型評估用來對模型的準確程度給予評價,看模型是否達到了一定的指標。
1.數(shù)據(jù)獲取與數(shù)據(jù)清洗
在面向某個領域的數(shù)據(jù)分析任務時,首先需要確定能夠獲取的數(shù)據(jù)和數(shù)據(jù)的格式,這是數(shù)據(jù)分析的起點,之后針對每條數(shù)據(jù)來確定是否有確定的標簽,如果有,就屬于有監(jiān)督學習;如果沒有,則屬于非監(jiān)督學習。再進而確定是監(jiān)督、非監(jiān)督學習中的哪個具體的算法,或者歸為某種具體的經典數(shù)學問題。(5)盧美琴、吳傳威:《大數(shù)據(jù)背景下商業(yè)銀行貴賓客戶流失的組合預測研究》,《電子商務》2019年第6期。
在數(shù)據(jù)獲取上要充分考慮數(shù)據(jù)的量級,如果數(shù)據(jù)量過大,可以考慮采用抽樣來縮減處理的數(shù)據(jù)量,用樣本代替整體;考慮后續(xù)特征抽取的數(shù)量,也可以對相關的特征進行壓縮、降維;或者直接采用分布式引擎。在樣本的獲取上要做到多標簽樣本均衡,這尤其會影響分類問題的準確度。本文中面向的場景中,流失用戶比例較低,那么就要對這類數(shù)據(jù)進行豐富,采用相關的數(shù)據(jù)平衡方式——過采樣或者欠采樣來應對。
特征工程的范疇較廣,也是數(shù)據(jù)處理中較為耗時的一個階段,是機器學習中基礎而又必備的步驟,其中包括特征提取、特征選擇、特征構建等方面。特征工程能夠從繁雜的數(shù)據(jù)表現(xiàn)中,提取出面向問題最具代表性的那些特征,好的特征工程結果往往能夠讓簡單的模型有較高的準確度,甚至高于復雜模型。對于分類模型,訓練集中可能會存在某個或某些類別下的樣本數(shù)遠大于另一些類別下的樣本數(shù)目,一方面需要對訓練集做數(shù)據(jù)均衡,以提升模型對少數(shù)類的識別精度,另一方面不能簡單地使用AUC指標衡量模型性能,而需要結合精準率召回率等多種指標。
常用的數(shù)據(jù)均衡方法有增加數(shù)據(jù)集、對多數(shù)類樣本欠采樣與對少數(shù)類樣本的過采樣。直接增加數(shù)據(jù)集效果顯著,然而往往難以實現(xiàn)。欠采樣是對多數(shù)類的數(shù)據(jù)樣本進行采樣來減少該類數(shù)據(jù)樣本的個數(shù),最直接的方法是隨機地去掉一些多數(shù)類樣本來減小多數(shù)類的規(guī)模,但是會丟失多數(shù)類樣本中的一些重要信息,且不適用于少數(shù)類過少的情況。過采樣指對少數(shù)類的數(shù)據(jù)樣本進行采樣以增加少數(shù)類的數(shù)據(jù)樣本個數(shù),最直接的方法是簡單復制少數(shù)類樣本或者使用SMOTE算法增加樣本個數(shù)。
機器學習模型訓練是一個持續(xù)優(yōu)化的過程,需要經歷模型訓練、評估、參數(shù)調優(yōu)的過程(6)雷海銳、高秀峰、劉輝:《基于機器學習的混合式特征選擇算法》,《電子測量技術》2018年第16期。。在訓練過程中,通過繪制loss值曲線,能夠判斷模型是否已經收斂,為了避免過擬合,應該采用K折交叉驗證,即將訓練集分割為K個等分,每次訓練從中選取一份作為測試機,其他作為訓練集,這樣對模型訓練K-1次之后,取七個模型平均的loss值作為評估標準,就能夠避免有偏采樣作為測試集導致的欠擬合、過擬合問題,通過增加懲罰項、增加訓練數(shù)據(jù)量等,也可以降低模型復雜度。
在訓練后需要對模型的準確度進行評估,對于連續(xù)值可以采用距離計算,而布爾值可以采用混合矩陣方式來評估模型的準確性,業(yè)界通常采用f值計算來對一個模型的查準率、查全率進行評估。評估模型后,再次對參數(shù)進行調整,并觀察loss值變化,直到可以收到滿意的模型準確度。這是一個反復迭代的過程,可以通過人工經驗來調整參數(shù),也可以通過自動化方式對參數(shù)進行矩陣搜索嘗試。在靜態(tài)數(shù)據(jù)調優(yōu)之后,將會把模型部署到線上使用,實際應用場景中數(shù)據(jù)條目、數(shù)據(jù)量也是動態(tài)變化。因此模型需要持續(xù)不斷學習已有的數(shù)據(jù),更新參數(shù)。
2.預測模型的特征提取
在機器學習中,特征是指實體的一些屬性和性質,無論這些屬性和性質是否對解決問題有用。在現(xiàn)實問題中,數(shù)據(jù)中的特征對于模型的訓練和預測非常重要,更好的特征能夠讓模型簡單而靈活。因此如何選擇較好的特征是機器學習中重要的一環(huán)。特征選擇分為特征提取和特征篩選兩部分。在面向用戶流失場景的分析時,用戶本身的特性如性別、平均收入、年齡為靜態(tài)數(shù)據(jù),可以通過數(shù)值化、離散化的方式進行提取,特征提取后通過一定度量方法篩選出少量且能夠保留大部分信息的特征,一方面可以減少特征數(shù)量、達到降維效果的同時使模型擁有更好的通用性和魯棒性,減少過擬合;另一方面可以增強對特征和特征值之間的理解,提升模型的準確度。
從特征是否差異顯著、特征與目標的相關性兩個角度審視特征的價值是進行特征選擇分析的有效途徑。如果一個差異不顯著,即該方差接近于0,可以認為該特征不能對樣本進行有效區(qū)分,沒有太多的信息量;而對于與目標相關性不高的特征也應考慮刪除,減少對模型的干擾。特征提取的手段很多,從面向特征的差異、相關性分析性角度出發(fā),通??梢詺w納為Filter、Wrapper、Embedded三類方法。
Filter方法沒有使用結果錯誤率來對特征選擇的優(yōu)劣進行打分,而是使用一些代理指標。這些代理指標通常計算速度更快,常用的代理指標包括逐點互信息、互信息、皮爾森積距相關系數(shù)。Filter方法特征選取計算量一般比Wrapper要小。因為排除了使用模型對結果預測并評估準確度的步驟,選取的特征和使用某個模型無關,這也就使得特征更加通用,也更側重特征之間的相互關系,但負面效果是會降低實際預測結果的準確度。此種類型的特征選擇方法所產生的結果是對所有特征的打分排名,而不是某一組特定的特征組合,通過交叉驗證,能夠最終確定打分的截斷值。在面向大量特征的時候,F(xiàn)ilter方法作為Wrapper的前置方法對特征進行預篩選,計算速度快使得它能夠快速減少特征的數(shù)量。(7)楊榮、趙娟娟、賈郭軍:《基于決策樹的存量客戶流失預警模型》,《首都師范大學學報(自然科學版)》2019年第5期。Wrapper方法使用預測模型來為特征選擇子集打分。每次選擇一組特征子集訓練模型,之后對模型的預測結果進行打分,由于需要對特征的每種組合都訓練一個模型,這會使得計算量非常大,但因為覆蓋足夠全面,較為容易找到合適的特征組合。Embedded方法同樣使用預測模型構建來選擇特征,與Wrapper過程不同的是,在每次構建模型之后,對特征的權重進行分析。通常在模型構建時,加入懲罰項,L1懲罰項會讓某些低權重特征的權重傾向為0,權重非0的特征會被選中;也可以用樹模型,越靠近根、分叉越早的特征代表性也越強。
3.預測模型的特征篩選
從已經獲得的特征中找出最有效的那一類特征就是特征篩選。一方面要能夠代表實體的特性;另一方面,由于特征之間可能存在一定的關聯(lián)關系,也需要對這些關系進行識別。本文采用計算協(xié)方差的方式:機器學習模型預訓練,通過在已知數(shù)據(jù)上構建機器學習模型,一些模型可以獲得每個特征所屬的權重,通過按照特征對應權重由大到小排列,可以獲得特征重要性排名。理論上通過碎石圖可以幫助得到選擇選取哪幾個機器學習變量可以保留較多的信息量,在實際生產中,往往采用多次嘗試構建機器學習模型的方法,不斷減少特征來權衡精準率與特征數(shù)量之間的平衡。在本文中選擇了決策樹作為這種衡量特征重要程度的算法,決策樹是一個有向無環(huán)圖,樹形結構代表實體屬性和實體值之間的一種映射關系。樹的每個節(jié)點標識一個對象,樹杈代表了這個對象的取值范圍的一次劃分,葉子節(jié)點代表數(shù)據(jù)的一組分類結果。對應每條訓練數(shù)據(jù),都可以沿著根節(jié)點根據(jù)分叉條件逐層向下找到一條路徑,到達最終的分類。建立樹的過程是機器學習的訓練流程。每個決策樹都表述了一種樹型結構,只是由它的分支來對此類型的對象依靠其屬性進行一定的分類。每個決策樹能夠依靠對源數(shù)據(jù)的分割進行數(shù)據(jù)測試,這樣能夠使用滿足劃分準則的特征不間斷地將數(shù)據(jù)集劃分為信息純度更高的子集。
其中不確定度的度量標準一般有信息增益、信息增益率、基尼指數(shù)三種。信息增益定義為熵與條件熵的差值,表征在某條件下信息不確定性減少的程度。對于待劃分的數(shù)據(jù)集,其熵值固定,但是劃分之后的熵就會有變化,熵越小表明使用此特征劃分得到的子集的不確定性越小,因此兩者的差異也就是信息增益越大,說明以當前特征劃分后,信息純度更高;如果某個屬性存在大量的不同值,決策樹在選擇屬性時會偏向于選擇該屬性,必然會帶來較大偏差,信息增益率考慮了各分支數(shù)量的因素,定義為信息增益與數(shù)據(jù)集關于某特征的值得熵之比,其本質是在信息增益的基礎之上增加了一個懲罰參數(shù)。特征個數(shù)較多時,懲罰參數(shù)較?。惶卣鱾€數(shù)較少時,懲罰參數(shù)較大;基尼指數(shù)也叫基尼不純度,表示在樣本集合中一個隨機選中的樣本被分錯的概率。集合所包含的純度越高,集合里被選中的樣本被分錯的概率如果越小,它的基尼指數(shù)也就越小。(8)馬文斌、夏國恩:《基于深度神經網(wǎng)絡的客戶流失預測模型》,《計算機技術與發(fā)展》2019年第9期。
決策樹不僅可以用于模型構建,還可以用于特征篩選。決策樹每次分叉都會選擇對信息熵影響大的特征,所以我們將特征根據(jù)分叉的先后順序排序,排序約靠前的特征就是對分類結果影響最重要的,通過這種方法篩選特征能夠有效降低模型的復雜度。
4.監(jiān)督學習的過程
在監(jiān)督學習中,每條數(shù)據(jù)對的輸入特征通常是一個向量,而確定的標簽是一個值。模型訓練后得到了映射函數(shù),當把新的輸入交給函數(shù)時,就會得到對新數(shù)據(jù)的一個預測結果。此時如果標簽是一個連續(xù)值,就叫做回歸問題,如果標簽是一個枚舉值,就叫做分類問題。通過對已有數(shù)據(jù)的觀察,然后將此規(guī)律應用到新的數(shù)據(jù)上去,需要總結對問題足夠通用的學習規(guī)律,這叫做模型的泛化能力。也并非漫無目的地去找尋這個映射函數(shù),可以對問題給予一個基本的假定,然后推導出一個通用的公式,再通過現(xiàn)有數(shù)據(jù)來確定其中的參數(shù)。不同的假定也就產生了不同的模型,比如邏輯回歸、支持向量機等。
下面將整個過程數(shù)學化表示,給定的數(shù)據(jù)為(x,g(x)),其中就是目標函數(shù)。假設符合g行為的樣本是從某個空間中,以未知概率p,以獨立同分布隨機方式來抽樣。這時定義一個損失函數(shù)。
L:Y×X→R
其中,Y是g的陪域,如果g預測出的值是z,觀測真值是y,定義L(z,y)叫為損失值,L取值一般為非負實數(shù)。假定p是離散的,在全部樣本上的損失值累計為:
那么問題簡化為,如何確定函數(shù)f*,能夠使得R(f*)風險值最小。根據(jù)g可以適用于全部觀測值對(x1,y1), ..., (xn,yn),則以一種近似方式給出風險值的計算方式如下:
(1)
通過統(tǒng)計理論就可以驗證經驗風險最小化是否可行,以及確定最小化的值。這就可以確定f*,從而找到(x,g(x))的一種風險最小化的映射關系。
我國的基金市場發(fā)展近三十年,其技術環(huán)境、監(jiān)管環(huán)境、政策環(huán)境得到不斷發(fā)展和提升,而基金公司內部的治理結構、管理人監(jiān)督也隨之完善,共同推進了中國金融體系的成長。在不斷健全發(fā)展的大環(huán)境下,客戶開始認可重視基金這種投資方式,影響客戶基金投資決策的影響因素很多,一方面是經濟形勢、企業(yè)發(fā)展、行業(yè)發(fā)展、科學技術演進等宏觀因素;另一方面是客戶自身的投資條件、心理預期、風險承受、投資動機等微觀因素。諸多因素影響著客戶對基金的認識以及選擇,尤其是后疫情時代的經濟環(huán)境存在著諸多不確定性,而個人信息與交易信息能夠在一定程度上反映投資特點,可以以此數(shù)據(jù)進行流失客戶的識別。
本文以深圳市某基金公司的客戶為研究對象。采用客戶信息表和交易記錄表作為數(shù)據(jù)來源,其中客戶信息表是客戶開戶時填寫的情況,交易記錄表則是按時間順序客戶的一筆筆交易行為,這樣的交易行為帶有時間屬性。受外部環(huán)境和自身投資習慣的影響,用戶對基金的買進與賣出具有很大的變動性,客戶流失的有效預判價值巨大。數(shù)據(jù)集為該公司2018年5月1日至2018年12月31日這8個月的交易信息表以及客戶信息表的數(shù)據(jù),如表1。值得說明的是,本文所選用的數(shù)據(jù)雖然為2018年所收集的,但是對于后疫情時代下的金融發(fā)展有較好的啟示和借鑒意義。
在經過特征提取后,得到了如下特征,令特征為fn,n=1,2,3…,對應上表中的特征得到:
f1,f2,f3,…f13
表1 客戶交易數(shù)據(jù)表
客戶的流失按照是否已經完全流失,一般可分為已經流失與正在流失兩種。對前者可以直接通過統(tǒng)計方法找出持倉量一直為0的流失用戶f13=0,無需識別預測;后者是模型預測關注的重點,可以通過統(tǒng)計某段時間的增倉、減倉次數(shù),定義增倉數(shù)目為0,減倉數(shù)大于0的用戶為流失用戶。
本文使用前6個月的上述特征數(shù)據(jù)作為模型輸入f1,f2,f3,…f13,后2個月數(shù)據(jù)提取出流失標簽target∈(0,1),流失定義為1,未流失為0,構建監(jiān)督學習模型對基金客戶流失進行預測,目標就是找到合適的F。
F(f1,f2,f3,…f13)→target
在對數(shù)據(jù)進行缺失值填充和正負樣本平衡后,將數(shù)據(jù)進行OneHot編碼:
f1→f11,f12,f13…f1n
上述機器學習問題變換為:
F(f11,f12…f1n,f21,f22…f2m,f31,f32…,f3q)→target
其中n,m,q代表OneHot編碼之后的特征數(shù)量,在變換后得到914個特征。
以上問題等價于:
其中p=914,等價于914個特征。
隨著特征迅速膨脹,將這些特征全部放入模型訓練過程,將會使得訓練流程變得冗長且非常容易過擬合。
圖1 決策樹節(jié)點屬性
預處理后最終得到基金客戶流失預測的數(shù)據(jù),訓練集train_total_sample3086條,其中正負樣本數(shù)各1543條,測試集2693條,基本滿足實驗需求。對于F這里使用決策樹來進行模型構建,考慮到基尼系數(shù)在大幅減少對數(shù)運算的基礎上保持熵模型的優(yōu)點,本模型的度量標準選擇基尼系數(shù)。由于特征數(shù)量很多,選擇決策樹中的給與枝剪策略,樹深度控制在200。
F(Gini,Deepth<200)
對于決策樹,每個節(jié)點由多個屬性組成,見圖1:
葉子節(jié)點Leaf:
信息純度gini:根據(jù)決策樹計算的信息純度
此節(jié)點下的樣本數(shù)sample,本實驗中
sample∈(0,3086)
此節(jié)點下對于屬性的樣本類別class
對于正樣本,即流失用戶樣本class=true;對于負樣本,即未流失用戶樣本class=false
非葉子節(jié)點Non-Leaf:非葉子節(jié)點中沒有分叉屬性,其余和葉子節(jié)點一致。
因為分叉feature都在葉子節(jié)點上,
feature_importancei
=(Leaf.sample*Leaf.gini-left.sample*left.gini
-right.sample*right.gini)/train_total_sample
feature_importancei∈(0,1)
本實驗中,保留99%的特征信息,所以對feature_importancei<0.01時,認為該特征的信息不足以表達足夠信息,去掉這些特征。
經過篩選,914個特征保留了113個。追溯這些特征的含義,增倉減倉標簽有著比較高的重要性,與定義的流失標簽有較大關聯(lián),其他較高的特征為網(wǎng)點、基金代碼、持有份額、(交易)天、省份、城市、街區(qū)等特征。從數(shù)據(jù)上看,交易信息的重要性略大于個人信息,在特征篩選中占有更大的權重。網(wǎng)點體現(xiàn)了較強的地域特征,表明交易地點對流失有較大的影響;基金代碼與持有份額的變化是客戶對基金預期直接體現(xiàn)。
在流失預測模型的構建上,本文使用的算法有較有代表性的邏輯回歸。邏輯回歸是一種用于解決二分類問題的機器學習方法,用于估計某種事物的可能性。其數(shù)學模型、求解和實現(xiàn)都相對簡潔。邏輯回歸以線性回歸為理論支持,通過引入Sigmoid函數(shù)將預測值映射在將數(shù)值結果轉化為了0到1之間的概率,從而通過閾值實現(xiàn)二分類??紤]到數(shù)據(jù)已進行過特征選擇,懲罰系數(shù)選擇L2正則化,選擇liblinear優(yōu)化算法,通過坐標軸下降法來迭代優(yōu)化損失函數(shù)。
在經過特征篩選之后問題簡化為:
根據(jù)邏輯回歸模型基本假設
hθ的實際意義為樣本對應的target的二分類概率:
下面進行極大似然估計計算,概率函數(shù)為:
因為樣本數(shù)據(jù)獨立,所以聯(lián)合概率分布函數(shù)可以表示為各個邊際分布的乘積,取似然函數(shù)為:
取對數(shù)似然函數(shù):
最大似然估計為使得l(θ)取最大值時候θ的值,這里可以用梯度上升法來求解,取
這樣就得到了一組θ從而求得F。
二分類模型的單個樣本預測有四種結果,這四種結果可以寫成一個2*2的混淆矩陣,如表2所示,用T(True)代表正確、F(False)代表錯誤,TP與TN表示預測值與實際值相符,模型預測正確。而FP與FN表示預測值與實際值不符,模型預測錯誤。
表2 混淆矩陣
以混淆矩陣作為基礎,我們選擇精準率、召回率和F1值作為分類模型的評價指標。其中,所有樣本能夠被正確預測的比例稱為精準率(公式2),實際為正類的樣本中能夠被正確預測為正類的比例稱為召回率(公式3),F(xiàn)1值用精準率和召回率的調和平均數(shù)表示(公式4)??紤]到基金客戶流失的目的在于準確識別潛在流失客戶,所以本文關注的重點在召回率和F1值。
(2)
(3)
(4)
對訓練的評估模型進行檢驗(見表3),在本實驗中分別對使用決策樹篩選的特征建模M1,和未經決策樹篩選的特征采用邏輯回歸建模M2。可以看到M1分類器的效果較好,在對正類的識別上,預測為正類的全部是正類,在對負類的預測上相對較好,預測為負類的有32個實際是負類,有62個負類樣本沒有識別出,精準率和召回率分別為0.99與0.98,F(xiàn)1值為0.98,都為較高水平。M2分類器的效果不理想,在對負類樣本的預測上,只識別出25個負類樣本,而將598個正類樣本預測為負類,精準率和召回率分別為0.99與0.78,F(xiàn)1值為0.86,與M1分類器相比,精準率差距不大,召回率差異顯著,處于較低水平,該分類器無法識別負類樣本。
表3 基金客戶流失分類模型預測結果
實驗結果表明,未經過特征篩選的分類模型在對正負樣本嚴重失衡的數(shù)據(jù)集中效果不佳,體現(xiàn)在無法有效識別負例樣本,而負例樣本恰恰是我們重點關注的。而經過決策樹篩選后,都能夠在測試集上較為精確區(qū)分正例(未流失客戶)和負例(流失客戶),最高能夠達到了99%的精準率和98%的召回率,因此利用分類模型可以在流失進行有效的預測。
準確的客戶流失預測是客戶維挽的前提和基礎,本文提出一種基金交易場景下,使用決策樹方法對流失客戶特征自動化篩選的方法。以某基金公司的客戶和交易兩個維度的數(shù)據(jù)為例,進行特征提取和決策樹特征篩選,發(fā)現(xiàn)交易信息對模型有著更高程度的影響。對流失影響較大的特征為網(wǎng)點(地域)、基金代碼、剩余份額。分別使用經過決策樹篩選的特征組和未經決策樹方法篩選的特征組通過邏輯回歸算法構建流失預測模型,對使用混淆矩陣、精準率、召回率、F1值指標其上述模型的效果進行評估。本特征自動化提取方法可以較為準確的提取對目標信息貢獻度較高的特征,大幅提升召回率。數(shù)據(jù)挖掘技術是客戶流失精準預測的支持,而個性化的營銷維挽是最終項目落地的關鍵,需將兩者有機結合,實現(xiàn)更高水平的金融服務。總之,基于AI技術的客戶流失預警將快速調整企業(yè)流程并保持客戶滿意度,從而提高了客戶忠誠度和保留率,將成為以基金業(yè)為代表的金融行業(yè)應對后疫情時代條件下客戶管理的對策和良方。