羅雅晨
?
類別不平衡的集成學(xué)習(xí)預(yù)測(cè)P2P網(wǎng)貸信用風(fēng)險(xiǎn)
羅雅晨
(同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院,上海 201804)
國(guó)內(nèi)的P2P網(wǎng)貸行業(yè)經(jīng)監(jiān)管整治后呈現(xiàn)出越來(lái)越重視線上風(fēng)控的趨勢(shì),機(jī)器學(xué)習(xí)等技術(shù)被廣泛應(yīng)用于構(gòu)建信用評(píng)價(jià)體系。而違約的和正常還款的樣本類別不平衡是建模的一大難點(diǎn),有針對(duì)性地構(gòu)建了一種比例平衡的隨機(jī)森林模型(Ratio-balanced Random Forest)。模型對(duì)多數(shù)類進(jìn)行多次欠采樣,和少數(shù)類合并生成多個(gè)比例均衡的樣本子集,再融合隨機(jī)子空間添加屬性擾動(dòng),最后利用隨機(jī)森林構(gòu)建集成的分類器模型。在拍拍貸真實(shí)借貸數(shù)據(jù)集上與機(jī)器學(xué)習(xí)單模型、集成模型和平衡的集成模型三類方法做對(duì)比實(shí)驗(yàn),結(jié)果驗(yàn)證了該模型的有效性,并指出平衡的集成模型方法在解決不平衡分類問(wèn)題上的優(yōu)越性。
P2P網(wǎng)絡(luò)借貸;信用風(fēng)險(xiǎn);違約預(yù)測(cè);類別不平衡
隨著大數(shù)據(jù)技術(shù)的高速發(fā)展,傳統(tǒng)金融也更多融入了互聯(lián)網(wǎng)思維,這其中的典型就是P2P網(wǎng)絡(luò)借貸。P2P是“Peer to Peer”的縮寫,即個(gè)人對(duì)個(gè)人的借貸,指出借人與借款人之間通過(guò)網(wǎng)絡(luò)借貸平臺(tái)而非金融機(jī)構(gòu)產(chǎn)生的無(wú)抵押貸款[1]。
截至2018-04,中國(guó)累計(jì)P2P網(wǎng)貸平臺(tái)數(shù)量達(dá)到6 114個(gè),但尚在運(yùn)營(yíng)的只有1 877個(gè),這是由于2016年政府出臺(tái)了一系列管控政策,淘汰了一大批資質(zhì)不全的問(wèn)題平臺(tái),并指出平臺(tái)不得提供擔(dān)保,應(yīng)秉承小額分散原則,采用信息中介這樣的發(fā)展模式。
在這種發(fā)展模式下,平臺(tái)對(duì)于借款標(biāo)的的風(fēng)險(xiǎn)控制變得尤為重要。平臺(tái)風(fēng)控系統(tǒng)對(duì)每筆借款是否會(huì)違約做出預(yù)測(cè),并決定是否審核通過(guò),符合機(jī)器學(xué)習(xí)中的二分類問(wèn)題。于是各種統(tǒng)計(jì)學(xué)方法大量被用于P2P網(wǎng)貸領(lǐng)域。王會(huì)娟以人人貸為例,使用因子分析和回歸模型分析了信用認(rèn)證指標(biāo)和機(jī)制及其對(duì)借貸行為的影響[2]。進(jìn)一步的,機(jī)器學(xué)習(xí)方法也被逐漸應(yīng)用到該分類預(yù)測(cè)問(wèn)題中。裴平則利用了機(jī)器學(xué)習(xí)中的貝葉斯網(wǎng)絡(luò)建立借款人信用評(píng)價(jià)模型[3]。
但是由于違約貸款和正常還款貸款的樣本數(shù)量是高度不平衡的,僅考慮分類準(zhǔn)確率是不全面的,而直接套用一般的機(jī)器學(xué)習(xí)模型更有可能導(dǎo)致實(shí)驗(yàn)失敗。類別不平衡問(wèn)題已被列為數(shù)據(jù)挖掘的十大最有挑戰(zhàn)性難題之一。因此近期有學(xué)者針對(duì)此問(wèn)題提出一些方法,尤其是集成學(xué)習(xí)。Gang Wang提出結(jié)合Bagging和隨機(jī)子空間的兩種集成模型,并在UCI德國(guó)和澳大利亞信用數(shù)據(jù)集上驗(yàn)證[4],陳啟偉等提出一種考慮代價(jià)敏感和類別不平衡并引入多種參數(shù)擾動(dòng)的集成學(xué)習(xí)的模型,給出用戶信用分?jǐn)?shù)[5],但其實(shí)驗(yàn)在UCI德國(guó)數(shù)據(jù)集上進(jìn)行,未在中國(guó)平臺(tái)上驗(yàn)證。
可知在不平衡的中國(guó)P2P網(wǎng)貸數(shù)據(jù)建立信用評(píng)價(jià)模型方面研究還很少,因此本文致力于彌補(bǔ)這一缺口,有針對(duì)性地構(gòu)建了一種比例平衡的隨機(jī)森林模型(Ratio-balanced Random Forest)。在拍拍貸真實(shí)借貸數(shù)據(jù)集上與機(jī)器學(xué)習(xí)單模型、集成模型和平衡的集成模型這三類方法做對(duì)比實(shí)驗(yàn),并取得較好的結(jié)果。
目前解決類別不平衡問(wèn)題的方法主要分為數(shù)據(jù)層面和算法層面。在數(shù)據(jù)層面主要是基于過(guò)采樣和欠采樣的重采樣技術(shù),在算法層面結(jié)合了代價(jià)敏感的分類算法和集成學(xué)習(xí)。
在數(shù)據(jù)預(yù)處理過(guò)程中,重采樣是一種常用的方法,即對(duì)不平衡的兩類數(shù)據(jù)重新進(jìn)行人工采樣使之達(dá)到平衡,主要包括過(guò)采樣和欠采樣。對(duì)少數(shù)類的過(guò)采樣可以通過(guò)簡(jiǎn)單復(fù)制原始樣本,使少數(shù)類樣本量與多數(shù)類持平。欠采樣技術(shù)主要也分為兩類,一類是簡(jiǎn)單隨機(jī)刪除多數(shù)類中的樣本,使兩類樣本趨于均衡;另一類通過(guò)各種算法進(jìn)行有選擇性的拋棄樣本。
Boosting是一種串行地將一系列弱學(xué)習(xí)器組合成強(qiáng)學(xué)習(xí)器的集成學(xué)習(xí)算法。通過(guò)在每輪調(diào)節(jié)樣本分布,提高被錯(cuò)分樣本的權(quán)重,使其在下一輪訓(xùn)練中更有可能被抽取,如此重復(fù)從而得到最終的加權(quán)分類器。
Bagging是另一種并行的集成方法?;赽ootstrap(自助采樣法,即有放回的抽樣)抽取個(gè)訓(xùn)練集,相應(yīng)構(gòu)造個(gè)基學(xué)習(xí)器,再將這些基學(xué)習(xí)器組合,對(duì)于分類任務(wù),最后通過(guò)簡(jiǎn)單投票得出結(jié)果[6]。如果在Bagging構(gòu)造基學(xué)習(xí)器之前或之中對(duì)樣本進(jìn)行重采樣使之平衡,則可以得到不同平衡的集成學(xué)習(xí)算法。這類算法每個(gè)平衡的子集只含部分?jǐn)?shù)據(jù),但從全局來(lái)看,卻不會(huì)丟失信息。
近兩年,集成學(xué)習(xí)方法開(kāi)始被用來(lái)解決P2P網(wǎng)貸中的類別不平衡問(wèn)題。例如陳啟偉等提出一種考慮代價(jià)敏感和不平衡的多種參數(shù)擾動(dòng)的結(jié)合GBDT和Bagging的模型,做用戶違約概率的回歸預(yù)測(cè)[5]。
平衡的隨機(jī)森林(Balanced Random Forest ,BRF[7])是基于隨機(jī)森林算法,針對(duì)類別不平衡問(wèn)題做出的改進(jìn)算法,過(guò)程描述如下:①對(duì)于隨機(jī)森林的每輪迭代,對(duì)少數(shù)類進(jìn)行bootstrap采樣,相應(yīng)地從多數(shù)類中有放回的取樣等量樣本,組成樣本子集。②從樣本子集中生成不剪枝的CART分類決策樹(shù),在樹(shù)的每個(gè)節(jié)點(diǎn)劃分時(shí),只從隨機(jī)挑選的部分屬性集里尋找最優(yōu)劃分屬性,而不是搜索屬性全集。③重復(fù)以上兩步直至規(guī)定時(shí)間,整合各決策樹(shù)預(yù)測(cè)結(jié)果并做出最終預(yù)測(cè)。集成學(xué)習(xí)追求基分類器的“好而不同”[6],決策樹(shù)在大多數(shù)分類任務(wù)中都是一個(gè)不錯(cuò)的學(xué)習(xí)器。BRF的bootstrap抽樣帶來(lái)數(shù)據(jù)樣本擾動(dòng),劃分節(jié)點(diǎn)時(shí)帶來(lái)屬性擾動(dòng)。又由于決策樹(shù)是數(shù)據(jù)敏感的,所以不同的樣本集會(huì)生成很不相似的決策樹(shù),因此能保證基分類器的多樣性。但BRF模型也存在一些缺點(diǎn),bootstrap采樣會(huì)帶來(lái)一些重復(fù)樣本,而剩余的包外樣本沒(méi)有得到充分利用,結(jié)合P2P網(wǎng)貸情景來(lái)看,違約樣本量本就稀少,再舍棄一部分可能造成關(guān)鍵信息丟失,從而弱化基分類器。再加之BRF初始構(gòu)建樣本子集時(shí)為重采樣至兩類平衡,但會(huì)改變數(shù)據(jù)本身的分布,過(guò)度突顯少數(shù)類的特征。尤其在信貸場(chǎng)景下,借款的批準(zhǔn)與否以利潤(rùn)為導(dǎo)向,而不是單純預(yù)測(cè)準(zhǔn)確率導(dǎo)向,如果為了盡量減少違約風(fēng)險(xiǎn)而拒絕大量正常借款,也會(huì)降低整體利潤(rùn)。
鑒于現(xiàn)有研究存在以上問(wèn)題,本文基于BRF模型,做出如下改進(jìn):①為了使基分類器多樣化,在生成每棵決策樹(shù)之前,運(yùn)用隨機(jī)子空間(Random subspace method,RSM[8])抽取部分特征而不是用所有特征來(lái)訓(xùn)練每個(gè)分類器,添加了輸入屬性擾動(dòng),也可以進(jìn)一步減小訓(xùn)練模型時(shí)的搜索空間,節(jié)省時(shí)間和內(nèi)存。②將欠采樣出類別平衡的子集改為構(gòu)建不同類別比例的子集,增加輸入數(shù)據(jù)樣本的擾動(dòng)??筛鶕?jù)具體應(yīng)用實(shí)例調(diào)整類別比例值,使分類器具有偏好,調(diào)和對(duì)類別特征的抓取關(guān)注度。③使用Bagging并行地集成CART決策樹(shù),所以算法的時(shí)間復(fù)雜度與訓(xùn)練單棵決策樹(shù)為同數(shù)量級(jí)。在保證高預(yù)測(cè)性能的同時(shí),簡(jiǎn)化模型框架,使之具有更強(qiáng)的可用性和更廣的適用范圍。
本文提出的比例平衡的隨機(jī)森林模型(Ratio-balanced Random Forest)框架如圖1所示,算法過(guò)程偽代碼如表1所示。
圖1 比例平衡的隨機(jī)森林模型(Ratio-balanced Random Forest)框架圖
本文采用拍拍貸平臺(tái)上2016-09—2016-10發(fā)布的共99 215條借款標(biāo)的信息。包含Listing Id、借款金額、借款期限、借款利率、借款成功日期、初始評(píng)級(jí)、借款類型、是否首標(biāo)、年齡、性別、手機(jī)認(rèn)證、戶口認(rèn)證、視頻認(rèn)證、學(xué)歷認(rèn)證、征信認(rèn)證、淘寶認(rèn)證、歷史成功借款次數(shù)、歷史成功借款金額、總待還本金、歷史正常還款期數(shù)、歷史逾期還款期數(shù)、標(biāo)當(dāng)前逾期天數(shù)、標(biāo)當(dāng)前狀態(tài),共計(jì)23個(gè)屬性指標(biāo)。在輸入模型訓(xùn)練之前,應(yīng)對(duì)樣本進(jìn)行數(shù)據(jù)清洗,清洗后的數(shù)據(jù)集共有98 597個(gè)樣本,其中正例96 816個(gè),反例1 781個(gè)。樣本不均衡比為54∶1,屬于類別高度不平衡的數(shù)據(jù)集。
對(duì)于類別不平衡的分類問(wèn)題,單純使用錯(cuò)誤率、精度、查準(zhǔn)率、查全率等指標(biāo)是不恰當(dāng)?shù)摹@缫粋€(gè)數(shù)據(jù)集含正類樣本98個(gè),反類樣本2個(gè),那么即使分類器“傻瓜式”將全部樣本分類為正類,也可以得到98%的準(zhǔn)確率。因此本文除了采用常規(guī)的召回率和正確率,也會(huì)采用F1、G-mean和AUC作為模型分類能力評(píng)價(jià)指標(biāo),同時(shí)記錄模型訓(xùn)練時(shí)間作為模型運(yùn)行能力評(píng)價(jià)指標(biāo)。
表1 比例平衡的隨機(jī)森林模型算法過(guò)程偽代碼
算法:比例平衡的隨機(jī)森林模型 輸入:多數(shù)類全集N,少數(shù)類全集P,|N|<|P|, 欲合成的新子集數(shù)n, 采樣后的多數(shù)類樣本比少數(shù)類比例r, 屬性抽取比例k, 過(guò)程: For i = 1,2,…,n: 從N中隨機(jī)抽取Ni,使Ni=rp; Di=Ni+P;#合并生成新子集 ; #抽取屬性生成隨機(jī)子空間訓(xùn)練子集 ; #用隨機(jī)森林中的決策樹(shù)訓(xùn)練基分類器 End 輸出: 簡(jiǎn)單投票法集成學(xué)習(xí)器 輸出預(yù)測(cè)類別
G-mean是一種追求真正例率和真反例率都高的指標(biāo),在不平衡的二分類問(wèn)題評(píng)估中區(qū)分能力優(yōu)秀:
為了驗(yàn)證本文提出的比例平衡的隨機(jī)森林模型(記為R-Balanced RF)在中國(guó)P2P網(wǎng)貸信用評(píng)價(jià)上的應(yīng)用,實(shí)驗(yàn)采用留出法驗(yàn)證,將樣本總體劃分為70%訓(xùn)練集和30%驗(yàn)證集。實(shí)驗(yàn)比較本文模型與現(xiàn)有常用的信用風(fēng)險(xiǎn)預(yù)測(cè)模型結(jié)果。各類模型的具體選擇如表2所示。
表2 各類模型的具體選擇
類型模型相關(guān)文獻(xiàn) 單模型決策樹(shù)(DT)Arminger G. et al.(1997)[9] 邏輯回歸(LR)Arminger G. et al.(1997)[9] 樸素貝葉斯(NB)Lessmann S. rt al.(2015)[10] 支持向量機(jī)(SVM)Chow et al.(2018)[11] 集成模型AdaboostChow et al.(2018)[11] GBDT朱夢(mèng)瑩等(2016)[12] BaggingAbellan and Masegosa(2010)[13] 隨機(jī)森林(RF)Raquel Florez-Lopez et al.(2015)[14] 平衡的集成模型Balanced BaggingXu-Ying Liu et al.(2009)[15] Balanced Bagging+GBDT陳啟偉等(2017)[5] Balanced RFChao Chen(2004)[7] R-Balanced RF本文
12個(gè)分類模型在驗(yàn)證集上測(cè)試結(jié)果如表3所示。
表3 12個(gè)分類模型在驗(yàn)證集上測(cè)試結(jié)果
模型召回率(多數(shù)類)召回率(少數(shù)類)正確率F1AUCG-mean用時(shí)/s DT0.990.560.980.9840.7770.7470.38 LR1.000.000.980.9740.5000.000*1.76 NB0.990.020.970.9690.5020.124*0.04 SVM1.000.440.990.9870.7190.662511.82 Adaboost1.000.000.980.9740.5000.000*2.03 GBDT1.000.010.980.9740.5040.088*5.05 Bagging1.000.000.980.9740.5000.000*0.15 RF1.000.420.990.9860.6960.6270.63 Balanced Bagging0.730.830.730.8290.7790.7772.27 Balanced Bagging+GBDT0.780.790.780.8600.7830.783146.51 Balanced RF0.740.800.740.8350.7690.7681.86 R-Balanced RF0.900.690.890.9300.7930.7861.80
在4個(gè)單模型中,LR和NB在高度不均衡的數(shù)據(jù)集上失效,而SVM的Accuracy和F1值最高,但花費(fèi)時(shí)間過(guò)多,在數(shù)據(jù)量很大時(shí)不適宜做基分類器。實(shí)驗(yàn)表明單棵決策樹(shù)是一個(gè)具有一定判別能力的弱學(xué)習(xí)器,又由于其易受擾動(dòng)的特性,使其符合集成學(xué)習(xí)對(duì)于基學(xué)習(xí)器具有準(zhǔn)確性和多樣性的要求。
在集成學(xué)習(xí)模型中,Adaboost,GBDT和Bagging這3種在各領(lǐng)域應(yīng)用頗廣的經(jīng)典模型均失效(用時(shí)加*號(hào)列),所以機(jī)器學(xué)習(xí)單模型和集成學(xué)習(xí)模型在未改造時(shí)均不適宜進(jìn)行網(wǎng)貸違約預(yù)測(cè)。
當(dāng)賦予集成學(xué)習(xí)器處理不均衡數(shù)據(jù)的能力時(shí),其性能均得到大幅提升。平衡的集成學(xué)習(xí)模型相對(duì)于經(jīng)典機(jī)器學(xué)習(xí)模型,對(duì)少數(shù)類的Recall率提高很多,但對(duì)多數(shù)類的Recall率則有下降,造成正確率的下降。本文的R-Balanced RF模型在顯著提高對(duì)少數(shù)類的識(shí)別能力的同時(shí),將對(duì)多數(shù)類的判別仍保持在一個(gè)較高的水平上,從而保證了整體的正確率。
隨著P2P網(wǎng)貸領(lǐng)域線上模式越來(lái)越重要,機(jī)器學(xué)習(xí)方法突顯優(yōu)勢(shì)。本文著眼于中國(guó)網(wǎng)貸平臺(tái)特點(diǎn)和借款違約與正常還款的樣本類別不平衡這一難點(diǎn),總結(jié)前人的研究,針對(duì)性提出一種比例平衡的隨機(jī)森林模型。模型采用欠采樣的方法得到多個(gè)接近均衡比例的樣本子集,并引入樣本擾動(dòng)和參數(shù)擾動(dòng),再進(jìn)行隨機(jī)森林的集成學(xué)習(xí)。實(shí)驗(yàn)比較了3類模型的預(yù)測(cè)及運(yùn)行性能,得出平衡的集成學(xué)習(xí)方法效果更好的結(jié)論,也證實(shí)本模型分類預(yù)測(cè)更準(zhǔn)確。
從該研究中可以得到如下啟示:①類別不平衡問(wèn)題在實(shí)際應(yīng)用中很常見(jiàn),在應(yīng)用機(jī)器學(xué)習(xí)方法時(shí)可采用本文結(jié)論靈活解決。②雖然我國(guó)P2P平臺(tái)缺少硬性個(gè)人信用數(shù)據(jù),但充分挖掘海量的相關(guān)數(shù)據(jù)也可以達(dá)到很高的精確度。
未來(lái)的研究方向可從以下幾個(gè)方面著手:①P2P網(wǎng)貸領(lǐng)域信息不對(duì)稱性高,羊群效應(yīng)顯著,如何基于此構(gòu)建模型分析投資人決策心理。②如何自動(dòng)化地制訂投資組合,幫助投資人分散風(fēng)險(xiǎn)。
[1]M.lin,N.R.Prabhala,S.Viswanathan.Judging Borrowers by the Company They Keep:Friendship Networks and Information Asymmetry in Online Peer-to-Peer Lending[J].INFORMS,2013(1).
[2]王會(huì)娟,廖理.中國(guó)P2P網(wǎng)絡(luò)借貸平臺(tái)信用認(rèn)證機(jī)制研究——來(lái)自“人人貸”的經(jīng)驗(yàn)證據(jù)[J].中國(guó)工業(yè)經(jīng)濟(jì),2014(4).
[3]裴平,郭永濟(jì).基于貝葉斯網(wǎng)絡(luò)的P2P網(wǎng)貸借款人信用評(píng)價(jià)模型[J].中國(guó)經(jīng)濟(jì)問(wèn)題,2017(2).
[4]G.Wang,J.Ma,L.Huang,et al.Two credit scoring models based on dual strategy ensemble trees[J].Knowledge-Based Systems,2012(26):61-68.
[5]陳啟偉,王偉,馬迪,等.基于Ext-GBDT集成的類別不平衡信用評(píng)分模型計(jì)算機(jī)應(yīng)用研究[J] 2018(2):421-427.
[6]周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.
[7]C.Chen,A.Liaw,L.Breiman.Using Random Forest to Learn Imbalanced Data.http://www.stat.berkeley.edu/tech?-reports/666.pdf.2004.
[8]T.K.Ho.The random subspace method for constructing decision forests[J].IEEE transactions on pattern analysis and machine intelligence,1998(9).
[9]G. Arminger,D. Enache,T. Bonne.Analyzing credit risk data:A comparison of logistic discrimination,classification tree analysis, and feedforward networks[J].Social Science Electronic Publishing,1997(1).
[10]S.Lessmann,B.Baesens,H.-V.Seow,et al. Benchmarking state-of-the-art classification algorithms for credit scoring:An update of research, European Journal of Operational Research[J].European Journal of Operational Research,2015(1).
[11]J. C. Chow.Analysis of Financial Credit Risk Using Machine Learning[J].Papers,2018(2).
[12]朱夢(mèng)瑩,鄭小林,王朝暉.基于風(fēng)險(xiǎn)和剩余價(jià)值的在線 P2P借貸投資推薦方法[J].計(jì)算機(jī)研究與發(fā)展,2016(12):2708-2720.
[13]J.Abellán,A.R.Masegosa.Bagging Decision Trees on Data Sets with Classification Noise[J].In International Conference on Foundations of Information and Knowledge Systems,2010(2):248-265.
[14]R.Florez-Lopez,J.M.Ramon-Jeronimo.Enhancing accuracy and interpretability of ensemble strategies in credit risk assessment. A correlated-adjusted decision forest proposal[J].Expert Systems with Applications, 2015(13):5737-5753.
[15]X.Y.Liu,J.Wu,Z.H.Zhou.Exploratory undersampling for class-imbalance learning[J].IEEE Transactions on Systems Man & Cybernetics Part B,2009(4):539-550.
2095-6835(2018)24-0001-04
F724.6;F832.4
A
10.15913/j.cnki.kjycx.2018.24.001
羅雅晨(1994—),女,安徽滁州人,碩士研究生,研究方向?yàn)閿?shù)據(jù)挖掘與機(jī)器學(xué)習(xí)。
〔編輯:嚴(yán)麗琴〕