李云菊 牛貴敏
摘? 要: 采用數(shù)據(jù)挖掘手段,基于某銀行零售業(yè)的數(shù)據(jù),分析了客戶的投資偏好。采用CART決策樹進(jìn)行特征篩選,發(fā)現(xiàn)客戶群體年齡大于30歲,資產(chǎn)處于5萬(wàn)以上且工作穩(wěn)定的保守型客戶更傾向于購(gòu)買銀行基金產(chǎn)品。此外,還構(gòu)建了邏輯回歸模型對(duì)客戶購(gòu)買基金的概率進(jìn)行預(yù)測(cè)。結(jié)果表明,通過(guò)數(shù)據(jù)挖掘相關(guān)方法所篩選得到的客戶群體有更高的購(gòu)買概率,因此極大地提高了銀行從業(yè)人員的工作效率。
關(guān)鍵詞: 特征篩選; 數(shù)據(jù)挖掘; 決策樹; 邏輯回歸; 基金預(yù)測(cè)
Abstract: Using data mining method, based on the data of a bank's retail trade, this paper analyzes customers' investment preferences. Using CART decision tree for feature selection, it is found that conservative customers with age over 30, assets over 50,000 and stable work are more inclined to buy bank fund products. In addition, a logistic regression model is also constructed to predict the probability of customers purchasing funds. The results show that the customer groups screened by data mining have higher purchase probability, so it greatly improves the work efficiency of the bank employees.
0 引言
隨著5G技術(shù)的不斷普及應(yīng)用,數(shù)據(jù)規(guī)模增長(zhǎng)趨勢(shì)加劇,在看似繁雜無(wú)序的數(shù)據(jù)背后,往往隱藏著具有價(jià)值的信息或知識(shí),其對(duì)我們的生產(chǎn)生活具有積極的指導(dǎo)意義。因此從海量的、不完全的、有噪聲的數(shù)據(jù)中可以抽象出人們未知但又潛在的具有實(shí)際意義的信息,即通過(guò)數(shù)據(jù)挖掘的方式對(duì)海量數(shù)據(jù)進(jìn)行精細(xì)化加工,用機(jī)器學(xué)習(xí)的方式挖掘出數(shù)據(jù)間的關(guān)系,用人們易于理解的方式呈現(xiàn),有助于人們更好的進(jìn)行生活生產(chǎn)活動(dòng)[1]。對(duì)于企業(yè)而言,用數(shù)據(jù)挖掘的方式對(duì)客戶有關(guān)數(shù)據(jù)進(jìn)行分析,有助于企業(yè)更好的了解客戶行為,順應(yīng)市場(chǎng)變化,調(diào)整營(yíng)銷策略,縮減營(yíng)銷成本。
此外,隨著互聯(lián)網(wǎng)“快時(shí)代”的到來(lái)以及人們消費(fèi)升級(jí),人們?cè)谶x擇消費(fèi)目標(biāo)或者投資目標(biāo)產(chǎn)品時(shí)愿意花費(fèi)的時(shí)間比以前更短,因此,對(duì)于各行各業(yè)來(lái)說(shuō)采取更加便捷、簡(jiǎn)單、個(gè)性化的營(yíng)銷推薦方式,選擇真正符合客戶心理需求的服務(wù)才能贏得客戶的青睞,對(duì)于銀行業(yè)來(lái)說(shuō)也不例外。為適應(yīng)這種發(fā)展趨勢(shì),提高再本行業(yè)內(nèi)的競(jìng)爭(zhēng)力,銀行業(yè)應(yīng)加快轉(zhuǎn)變“廣撒網(wǎng)”“大概率”的傳統(tǒng)營(yíng)銷方式,由產(chǎn)品導(dǎo)向轉(zhuǎn)為客戶導(dǎo)向,從而形成以“互聯(lián)網(wǎng)+”為依托,以“數(shù)據(jù)驅(qū)動(dòng)”為關(guān)鍵理念的創(chuàng)新“新零售”模式。通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)客戶群體特征,對(duì)潛在的客戶進(jìn)行有效預(yù)測(cè)并為其提供更及時(shí)有針對(duì)性的服務(wù)。
具有相似特征的客戶,往往會(huì)有相似的行為方式。因此在“新零售”模式下,發(fā)現(xiàn)客戶群體的主要特征是重要前提。通過(guò)訓(xùn)練機(jī)器學(xué)習(xí)模型可以從海量的歷史數(shù)據(jù)中“學(xué)”到客戶特征,從而形成“客戶畫像”從多維度來(lái)識(shí)別客戶群體,有利于企業(yè)進(jìn)一步的整合銷售渠道與銷售產(chǎn)品類型,合理規(guī)劃營(yíng)銷策略,在諸如“廣告推送”的營(yíng)銷手段中有針對(duì)性的發(fā)送到目標(biāo)客戶手中[2]。此外在選擇營(yíng)銷客戶對(duì)象時(shí),利用機(jī)器學(xué)習(xí)模型對(duì)客戶購(gòu)買情況做出有效的預(yù)測(cè),也能在保證營(yíng)銷效果的基礎(chǔ)上降低營(yíng)銷成本,提高營(yíng)銷效率。
因此,在大數(shù)據(jù)時(shí)代下,基于銀行業(yè)零售客戶大量的歷史數(shù)據(jù),挖掘數(shù)據(jù)所隱含的有價(jià)值信息,可以對(duì)客戶群體特征以及購(gòu)買基金產(chǎn)品的概率進(jìn)行預(yù)測(cè)。本文的分析重點(diǎn)是運(yùn)用機(jī)器學(xué)習(xí)模型對(duì)銀行零售業(yè)中基金產(chǎn)品用戶進(jìn)行特征提取并對(duì)新用戶購(gòu)買基金的概率進(jìn)行有效預(yù)測(cè)。
1 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘當(dāng)前采用的技術(shù)主要包括分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征分析等,在數(shù)據(jù)挖掘過(guò)程中根據(jù)不同分析目標(biāo)選擇不同的手段進(jìn)行模型構(gòu)建。其中分類是數(shù)據(jù)挖掘最常采用的分析方式之一,分類算法包括決策樹、邏輯回歸、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)、支持向量機(jī)等[3]。本文采用分類算法中的決策樹算法對(duì)購(gòu)買基金的客戶群體特征進(jìn)行提取,并用邏輯回歸算法對(duì)新客戶購(gòu)買基金的概率進(jìn)行預(yù)測(cè)。模型參數(shù)的確定均采用網(wǎng)格搜索算法進(jìn)行參數(shù)尋優(yōu),來(lái)保證模型的訓(xùn)練效果。
1.1 CART決策樹算法
決策樹(Descision Tree)作為一種典型的監(jiān)督式學(xué)習(xí)主要用來(lái)解決分類問(wèn)題,通過(guò)對(duì)數(shù)據(jù)的分類迭代,最終形成特征屬性與最終類別之間的樹形結(jié)構(gòu)。決策樹的樹形結(jié)構(gòu)包括三類節(jié)點(diǎn),分別是問(wèn)題最初所在位置的根節(jié)點(diǎn),問(wèn)題的結(jié)論即最終所屬類別的葉子節(jié)點(diǎn)以及在根節(jié)點(diǎn)和葉子節(jié)點(diǎn)之間的節(jié)點(diǎn)為中間節(jié)點(diǎn)。
決策樹根據(jù)不同的最優(yōu)劃分屬性方式可以分為ID3、C4.5、CART等,與ID3、C4.5相比,CART采用基尼系數(shù)(公式1)決定最優(yōu)劃分屬性[4],并采用二分遞歸分割方式構(gòu)建決策樹,使得CART既可以解決分類問(wèn)題也可用作解決回歸問(wèn)題,此外CART決策樹還支持連續(xù)值的處理且適合數(shù)據(jù)復(fù)雜,變量多的數(shù)據(jù),因此CART決策樹相較于ID3、C4.5來(lái)說(shuō)應(yīng)用更為廣泛。
由于整個(gè)決策樹的構(gòu)建過(guò)程理論清晰,可以將訓(xùn)練得到的決策樹模型以二叉樹的方式進(jìn)行輸出,最終形成的決策樹結(jié)構(gòu)具有很好的可讀性,因此決策樹作為一種白盒模型除了用于分類之外也可用于特征提取。在本文中CART決策樹用于購(gòu)買基金客戶特征的提取。
1.2 邏輯回歸算法
與常見(jiàn)的回歸模型不同,邏輯回歸(Logistic Regression)是一種概率模型用于預(yù)測(cè)分類因變量的概率,采用Sigmod函數(shù)(圖1)作為判別函數(shù),圖1所示的S形曲線形象的解釋了概率和自變量之間的關(guān)系,對(duì)于常見(jiàn)的二分類問(wèn)題,通過(guò)輸入未知類別對(duì)象的屬性特征序列得到對(duì)象所處的類別,并通過(guò)區(qū)間分布對(duì)類別進(jìn)行區(qū)分,即如果Y值大于等于0.5,則判定為正樣本,如果Y值小于0.5,則判定為負(fù)樣本[5]。在本文我們探討的是新客戶是否購(gòu)買基金為典型的二分類問(wèn)題,因此,我們將構(gòu)建邏輯回歸模型對(duì)客戶購(gòu)買基金的情況進(jìn)行預(yù)測(cè)。
1.3 網(wǎng)格搜索算法
機(jī)器學(xué)習(xí)的主要任務(wù)包括分類和回歸兩種,而機(jī)器學(xué)習(xí)模型構(gòu)建的關(guān)鍵是各類參數(shù)的設(shè)置,其直接影響著模型的分類或回歸效果,因此若僅僅依靠個(gè)人經(jīng)驗(yàn)確定模型參數(shù)將是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作?!熬W(wǎng)格搜索法”(Grid_Search)是一種暴力窮舉搜索的方法,即在所有的候選的參數(shù)選擇中,通過(guò)遍歷給定的參數(shù)的組合并通過(guò)交叉驗(yàn)證的方式來(lái)嘗試每一種可能性,并返回最優(yōu)模型下的參數(shù)取值,從而進(jìn)行模型優(yōu)化[6]。本文中CART決策樹以及邏輯回歸模型的參數(shù)均通過(guò)網(wǎng)格搜索方法進(jìn)行參數(shù)尋優(yōu)。
2 算法在銀行零售業(yè)的應(yīng)用
數(shù)據(jù)挖掘的應(yīng)用渠道非常廣泛,就銀行業(yè)來(lái)說(shuō),它應(yīng)用于銀行客戶管理生命周期的各個(gè)階段,如獲取客戶、保留客戶和優(yōu)化客戶服務(wù)等等過(guò)程之中。而基金業(yè)務(wù)對(duì)于提高銀行綜合收益起到了舉足輕重的作用,但由于獲取客戶難度高導(dǎo)致的基金業(yè)務(wù)難做成為銀行業(yè)的痛點(diǎn)。因此本文針對(duì)銀行業(yè)內(nèi)普遍存在的這一難題通過(guò)數(shù)據(jù)挖掘方式進(jìn)行改善。
本文的研究過(guò)程如圖2所示,主要包括三部分,其中第一部分介紹了數(shù)據(jù)集的來(lái)源以及數(shù)據(jù)集的預(yù)處理過(guò)程;第二部分采用CART決策樹進(jìn)行基金購(gòu)買客戶群體的特征提取;第三部分則在以上2部分的基礎(chǔ)上用邏輯回歸進(jìn)行新客戶購(gòu)買基金的概率進(jìn)行科學(xué)預(yù)測(cè)。
2.1 數(shù)據(jù)集介紹以及數(shù)據(jù)預(yù)處理
本文研究的數(shù)據(jù)集來(lái)自于某銀行零售部門的客戶數(shù)據(jù)(已經(jīng)過(guò)嚴(yán)格脫敏),共計(jì)105780條有效數(shù)據(jù),其中特征屬性包含客戶基本信息、使用渠道、客戶評(píng)價(jià)和資產(chǎn)負(fù)債這4大類別,共計(jì)17維度,其中基金購(gòu)買狀態(tài)為標(biāo)簽列,具體數(shù)據(jù)集的特征屬性描述如表1所示。
為了方便模型訓(xùn)練和實(shí)驗(yàn)結(jié)果的歸納,本文將連續(xù)型變量即“年齡”與“資產(chǎn)量(月日均)”這兩個(gè)特征屬性進(jìn)行如表2所示的離散化處理。其中“年齡”劃分標(biāo)準(zhǔn)依據(jù)數(shù)據(jù)分布特點(diǎn),“資產(chǎn)量(月日均)”的離散化標(biāo)準(zhǔn)為銀行業(yè)內(nèi)對(duì)客戶資金段的劃分標(biāo)準(zhǔn)。將零售客戶數(shù)據(jù)集進(jìn)行數(shù)據(jù)去重等數(shù)據(jù)集清洗工作后,得到總計(jì)37360條數(shù)據(jù)。
2.2 CART決策樹進(jìn)行特征提取
基于零售客戶數(shù)據(jù)集,采用CART決策樹,以“基金購(gòu)買狀態(tài)”為標(biāo)簽列,根據(jù)CART決策樹算法所訓(xùn)練的決策樹模型對(duì)數(shù)據(jù)集中除“基金購(gòu)買”標(biāo)簽列的16維數(shù)據(jù)特征進(jìn)行進(jìn)一步的特征篩選,進(jìn)而得到實(shí)際與客戶基金購(gòu)買結(jié)果相關(guān)的因素。
實(shí)驗(yàn)結(jié)果得到影響客戶基金購(gòu)買的相關(guān)的特征為包括“資產(chǎn)數(shù)量(月日均)”,“年齡”,“性別”,“職業(yè)”,“婚姻狀況”,“代發(fā)簽約狀態(tài)”,“信用卡簽約狀態(tài)”,“微信銀行簽約狀態(tài)”,“其他理財(cái)產(chǎn)品數(shù)量”共計(jì)9維特征屬性。進(jìn)一步的我們發(fā)現(xiàn),大于30歲的資產(chǎn)月日均在5萬(wàn)以上具有穩(wěn)定工作且消費(fèi)為“保守型”的客戶與其他銀行客戶相比,更傾向于購(gòu)買基金理財(cái)產(chǎn)品,其中信用卡簽約狀態(tài)為未簽約的客戶我們認(rèn)為其消費(fèi)類型為“保守型”。
2.3 邏輯回歸進(jìn)行基金購(gòu)買情況預(yù)測(cè)
基于CART決策樹模型所得到的特征篩選結(jié)果,即在“資產(chǎn)量(月日均)”等9維特征屬性以及“基金購(gòu)買狀態(tài)”這一標(biāo)簽列的基礎(chǔ)上,采用邏輯回歸(Logistic Regression)算法訓(xùn)練基金購(gòu)買預(yù)測(cè)模型,對(duì)新客戶購(gòu)買基金的可能性進(jìn)行預(yù)測(cè)。并將最終預(yù)測(cè)結(jié)果映射為0—1的之間的概率值,且數(shù)值越大,表明客戶購(gòu)買基金的可能性越大,即當(dāng)映射的概率值為1時(shí),邏輯回歸模型將判定用戶購(gòu)買基金產(chǎn)品的可能性為100%。
本文采用留出法對(duì)模型進(jìn)行評(píng)估,其中數(shù)據(jù)集的70%作為訓(xùn)練集進(jìn)行邏輯回歸模型訓(xùn)練,數(shù)據(jù)集的30%作為測(cè)試集來(lái)測(cè)試模型效果。模型參數(shù),用網(wǎng)格搜索法進(jìn)行參數(shù)尋優(yōu)來(lái)確定。
由于本文實(shí)驗(yàn)?zāi)康氖窃诒U峡蛻纛A(yù)測(cè)準(zhǔn)確率的同時(shí)盡可能多的發(fā)現(xiàn)基金客戶,為此我們?cè)谶x擇模型參數(shù)時(shí)犧牲了部分準(zhǔn)確率(Precision)來(lái)得到更高的查全率(Recall)。最終基于零售客戶數(shù)據(jù)集訓(xùn)練所得到的基因購(gòu)買邏輯回歸預(yù)測(cè)模型在測(cè)試集上的準(zhǔn)確率達(dá)到70%,查全率為75%,F(xiàn)1值(F-Measure)為70%。
3 結(jié)束語(yǔ)
大數(shù)據(jù)產(chǎn)業(yè)鏈的驅(qū)動(dòng)下的數(shù)據(jù)分析與數(shù)據(jù)挖掘作為其中的一個(gè)重要環(huán)節(jié)對(duì)于加強(qiáng)產(chǎn)業(yè)與信息服務(wù)之間的聯(lián)系,促進(jìn)產(chǎn)業(yè)發(fā)展具有十分積極的作用。本文基于銀行業(yè)零售基金購(gòu)買情況的數(shù)據(jù)集,通過(guò)CART決策樹進(jìn)行特征提取,我們發(fā)現(xiàn)客戶群體符合年齡在30歲以上,資產(chǎn)處于5萬(wàn)以上且工作穩(wěn)定的“保守型”客戶更傾向于購(gòu)買基金,另外,基于訓(xùn)練得到的邏輯回歸模型,可以對(duì)客戶購(gòu)買基金的可能性進(jìn)行有效的預(yù)測(cè)。本文為銀行業(yè)基金理財(cái)產(chǎn)品精準(zhǔn)營(yíng)銷提供了科學(xué)有效的方法,實(shí)驗(yàn)結(jié)果表明,通過(guò)數(shù)據(jù)挖掘方法得到的客戶比隨機(jī)進(jìn)行基金產(chǎn)品營(yíng)銷更準(zhǔn)確方便,此法極大地減少了銀行從業(yè)人員的工作量,提高了銀行從業(yè)人員決策的準(zhǔn)確性。
參考文獻(xiàn)(References):
[1] 邵峰晶.數(shù)據(jù)挖掘原理與算法[M].中國(guó)水利水電出版社,2003.
[2] 趙飛鴻.基于金融類客戶畫像的二分K均值算法分析研究與應(yīng)用[D].中國(guó)科學(xué)院大學(xué)(工程管理與信息技術(shù)學(xué)院),2016.
[3] Han J, Micheline K. Data mining: concepts and techniques[J]. 2006.5(4):1-18
[4] 周志華.機(jī)器學(xué)習(xí)[J].航空港,2018.2:94-94
[5] 李平,戴月明,王艷.基于混合卡方統(tǒng)計(jì)量與邏輯回歸的文本情感分析[J].計(jì)算機(jī)工程,2017.12:198-202,208
[6] 劉道文,忽海娜.基于網(wǎng)格搜索支持向量機(jī)的網(wǎng)絡(luò)流量預(yù)測(cè)[J].計(jì)算機(jī)應(yīng)用與軟件,2012.29(11):191-192,253