楊沛衡 吳東鵬 徐典
摘要:隨著我國互聯(lián)網(wǎng)金融行業(yè)的持續(xù)規(guī)范和個人征信體制的不斷完善,大數(shù)據(jù)機器學習在信貸風險控制中的作用逐漸凸顯。文章在徐桂瓊等學者研究的基礎上進行改進,建立基于分類組合的個人信貸信用風險預測模型,其可以有效對非平衡數(shù)據(jù)集進行處理,以滿足金融決策的實際業(yè)務需求。實證分析結(jié)果表明,該模型具有較高準確率,能夠高效完成個人信貸違約預測,為行業(yè)可持續(xù)規(guī)范發(fā)展提供助力。
關鍵詞:個人信用評估;Two Step聚類;模型融合
高信任維持與低監(jiān)管運營成本是互聯(lián)網(wǎng)金融行業(yè)面臨的核心難題,而基于機器學習的信貸風控模型從源頭上提供了解決方案。風險控制意識與能力的不足曾一度成為行業(yè)的頑疾,并間接誘發(fā)了2018年以來的行業(yè)整頓風波。隨著P2P業(yè)務“三降”、網(wǎng)貸機構(gòu)轉(zhuǎn)型、個人征信體系健全、金融牌照制度改革等監(jiān)管舉措的持續(xù)推進,行業(yè)秩序不斷改善。如今互聯(lián)網(wǎng)金融在強監(jiān)管與促創(chuàng)新并存的政策環(huán)境下逐漸形成了新的行業(yè)生態(tài)。
經(jīng)歷了從粗放式發(fā)展到集中整改,再到穩(wěn)健經(jīng)營的發(fā)展歷程,監(jiān)管部門及互金企業(yè)逐漸意識到依賴金融科技構(gòu)建成熟的風控模式在行業(yè)可持續(xù)發(fā)展、企業(yè)降本增效中的決定性作用?!督鹑诳萍及l(fā)展規(guī)劃(2019~2021)》 要求,“運用數(shù)字化監(jiān)管協(xié)議、智能風控平臺等監(jiān)管科技手段,推動金融監(jiān)管模式由事后監(jiān)管向事前、事中監(jiān)管轉(zhuǎn)變”;眾多企業(yè)和銀行或依靠自身實力研發(fā)智能風控平臺,或與金融科技公司及征信機構(gòu)廣泛開展業(yè)務合作,將以大數(shù)據(jù)機器學習為核心的信貸風控方案深度嵌入信用風險控制流程之中。已有研究表明,大數(shù)據(jù)機器學習為代表的金融科技技術(shù)能夠挖掘顆粒狀、實時性的非標準化信息,顯著降低了商業(yè)銀行的風險承擔水平,使其盈利能力得到提升。
然而,由于我國金融資源分布不均勻,金融科技應用存在較大的個體和地域差異,網(wǎng)絡借貸中多頭共債、逃廢債現(xiàn)象仍頻繁發(fā)生,亟待成熟、穩(wěn)定的信貸違約預測模型的普及應用。目前學術(shù)界對機器學習在建立個人信貸風險控制模型中的應用進行了一定的研究與探索,但仍存在特征工程精度不高、缺乏與業(yè)務實際的結(jié)合等問題。
一、文獻綜述
機器學習算法在金融決策支持領域的應用已有豐富的成果,現(xiàn)有研究已經(jīng)逐漸從單一算法的對比與擇優(yōu)轉(zhuǎn)向不同算法間的集成與融合。集成學習通過把單個分類器的預測結(jié)果進行組合,以使模型得到性能上的提升。對于單一分類器的選取,常按照性能接近且相關性系數(shù)低的原則進行。目前學者已經(jīng)嘗試運用不同方法融合單一分類器結(jié)果,并總結(jié)出stacking、blending等有效的集成方法。丁嵐、駱品亮以支持向量機為次級學習器構(gòu)建stacking集成的違約評估模型,其相較于初級學習器顯著降低了一類和二類錯誤比例。白鵬飛等采用加權(quán)投票對SVM、RF和XGboost預測結(jié)果進行集成,依據(jù)單個模型表現(xiàn)賦予其在加權(quán)融合公式中的權(quán)重。胡忠義等則針對以往集成方法中同一訓練集用于所有分類器訓練提出改進,在對樣本進行K均值聚類后以不同的基分類器處理不同區(qū)域樣本,從而構(gòu)建出多分類器動態(tài)集成模型。王重仁等在移除低方差特征后使用特征遞歸消除法(RFE)進行特征選取,使用貝葉斯優(yōu)化對XGboost算法進行超參數(shù)的調(diào)整,發(fā)現(xiàn)這種算法相對于網(wǎng)格搜索與隨機搜索更加有效。董路安對機器學習算法指導決策樹構(gòu)建的傳統(tǒng)教學式方法進行改進,在生成偽數(shù)據(jù)集過程中結(jié)合weight-SMOTE算法改變決策樹的學習偏好,在準確度、解釋性與一致性上均優(yōu)于傳統(tǒng)教學式方法與CART決策樹。
改良現(xiàn)有算法以適應信貸審核的業(yè)務特點與現(xiàn)實需求,是學者研究的又一重點。一方面,金融決策具有“高風險”特點,對預測結(jié)果解釋性要求較高;另一方面,從業(yè)務實踐中積累的訓練數(shù)據(jù)往往高度不平衡,影響模型訓練效果。歐盟頒布的《一般數(shù)據(jù)保護條例》(GDPR)中指出,銀行所使用的信用風險評價模型需要為其預測結(jié)果提供必要的解釋,以保證申請人平等的貸款獲取機會。吳暉等提出模型無關類傾向評分歸因算法,輸出平均因果作用值(ACE)以衡量不同特征在多種算法中的解釋性強弱,發(fā)現(xiàn)對于底層理論相似的模型,同一特征的解釋性也相近。劉志慧等通過XGBoost算法構(gòu)建違約預測模型,并將模型輸出的概率值轉(zhuǎn)換為傳統(tǒng)的信用評分值,從而提高算法結(jié)果在金融業(yè)務中的可操作性。陳戰(zhàn)勇在構(gòu)建信用評分卡過程中同時考慮借款人“硬信息”和“軟信息”,將定性變量經(jīng)過WOE編碼后依據(jù)IV值進行篩選,構(gòu)建基于邏輯回歸的信用評分卡模型,將借款人分類為從Aaa到C的九個等級。徐桂瓊、李微在研究中重視金融樣本高度不均衡造成的少數(shù)樣本錯誤分類風險,運用Two Step聚類思想對樣本進行均衡化處理,從而構(gòu)造結(jié)構(gòu)平衡的訓練集。但其方法存在一定缺陷,會導致逾期樣本在訓練集和測試集中重復出現(xiàn),進而造成預測模型準確率虛高。
本文對徐桂瓊、李微提出的方法做出改進,提出基于Two Step的改進組合分類算法。該文獻在數(shù)據(jù)樣本均衡化后得到的所有子集中,抽取一份作為測試集,其余為訓練集。由于訓練集與測試集中的逾期樣本(即少數(shù)樣本)為同一批,使得已訓練過的數(shù)據(jù)被重復放入驗證集中,導致測試結(jié)果準確率虛高。同時,這一方法只能得到比例均衡的測試集,無法有效測試模型在樣本極度不均衡的信貸實際業(yè)務中的表現(xiàn)。
因此,在綜合應用粗糙集約減和遞歸特征消除法進行特征工程之后,本文提前將少數(shù)樣本切分出一定比例用于組成驗證集,剩余部分則按原方法進行訓練集的構(gòu)造。由此,在保證訓練集正負樣本比例均衡的同時,解決了少數(shù)樣本重復使用的問題,亦使得測試集數(shù)據(jù)分布及正負樣本比例均與原數(shù)據(jù)集保持一致。而相比于SMOTE等通過生成新增樣本點來增加正樣本比例的方法,本文所用方法避免了原本不存在的新增樣本對數(shù)據(jù)集內(nèi)在分布的改變。得到各份訓練集后,本文參考了集成模型加權(quán)投票的思想,分別將各個分類器用于1份訓練集而不是所有訓練集進行訓練,以防止模型過擬合,最后各個機器學習模型通過加權(quán)投票的方式得到最終的預測結(jié)果。
二、改進組合分類模型設計
(一)數(shù)據(jù)均衡化處理
設一不均衡樣本數(shù)據(jù)集D,該數(shù)據(jù)集的目標列為0和1兩個類別。該數(shù)據(jù)集中目標列值占多數(shù)的記為多數(shù)類樣本集M,目標列值占少數(shù)的記為少數(shù)類樣本集L。
本文基于徐桂瓊、李微提出的數(shù)據(jù)均衡化方法進行改進。本文通過提前切分出一定比例的正負樣本來解決以上兩個問題。根據(jù)上述方法,既保證了訓練集和測試集的相對獨立,也控制了測試集的數(shù)據(jù)比例,使其數(shù)據(jù)分布與原數(shù)據(jù)集保持一致。
組合分類:經(jīng)過數(shù)據(jù)均衡化處理后會產(chǎn)生k1個訓練集及1個驗證集,將k1個分類器分別訓練各個訓練集,最后讓各個分類器進行加權(quán)投票,輸出最終結(jié)果。利用驗證集來評價模型的性能。由于在本文中k2=4,因此最后需要訓練3個分類器。本文所采用的分類器為XGBoost,Ada Boost,高斯樸素貝葉斯模型。
(二)Xgboost模型
(四)樸素貝葉斯算法
樸素貝葉斯分類基于概率論中貝葉斯派的主張,通過對于參數(shù)θ的經(jīng)驗提供的先驗分布與數(shù)據(jù)提供的樣本信息估計給定樣本X下參數(shù)θ的后驗分布。
算法步驟如下:
1.根據(jù)給定條件及假設估計出訓練集D中第c類樣本的先驗概率
比較相同樣本在不同類別假設下的后驗概率,將最大后驗概率對應的類別作為本樣本的估計類別。
三、實驗與分析
(一)實驗數(shù)據(jù)與實驗環(huán)境
本文基于LendingClub平臺信貸數(shù)據(jù)進行研究。LendingClub是成立于2006年的網(wǎng)絡借貸平臺,其依靠明確的信息中介定位、精準的高端個貸市場細分及嚴苛的風控措施,保證了P2P業(yè)務在低違約率下持續(xù)高速增長,資產(chǎn)質(zhì)量優(yōu)于一流銀行。LendingClub披露的真實交易數(shù)據(jù)已經(jīng)過脫敏處理,包含150個特征變量,覆蓋借款人資產(chǎn)狀況及現(xiàn)金流、借款期限及相關日期、銀行賬戶、征信查詢、信用評級等方面,是大數(shù)據(jù)機器學習的理想數(shù)據(jù)集。本文選取LendingClub公布的2018年第一到第四季度信貸數(shù)據(jù)共167452條,以“借款狀態(tài)”(loan status)特征作為數(shù)據(jù)標簽,將“寬恕期中”、“已償清”界定為非逾期,記為0;將“逾期16~30天”、“逾期31~120天”、“違約”、“核銷”界定為逾期,記為1。
實驗環(huán)境為Intel(R)Core(TM)i5-8250U CPU @ 1.60GHz (8 CPUs),~1.8GHz,Python 版本 3.7.3,TensorFlow 版本 1.3.1,Keras 版本 2.2.4。
(二)數(shù)據(jù)處理
數(shù)據(jù)缺失值統(tǒng)計圖如圖1所示,大約有44個特征缺失比例在55%以上,對于上述特征直接剔除。隨后值完全相同的特征、逾期行為明顯無關的特征及離群值過多的特征。最后可以得到數(shù)據(jù)樣本為165472,特征數(shù)量為101的數(shù)據(jù)集,其中128282個非逾期樣本,39170個逾期樣本。
特征衍生步驟中,針對于fico_score和last_fico_score兩個特征,采用信貸違約預測中常見的處理方法,以fico評分的平均水平作為fico評級的代理變量。
對于表1中的特征作以下處理:
fico score=0.5×fico range low+0.5×fico range hiah
last fico score=0.5×last fico range low+0.5×last fico range hiah
在進行特征篩選時,首先剔除相關性大于90%的特征,隨后采用基于遺傳算法的粗糙集約簡策略進行特征篩選,得到32個特征。最后將上述特征用于基于隨機森林的遞歸特征消除中再進一步進行特征篩選,最終得到當特征數(shù)量為15個效果最佳。
經(jīng)過以上特征工程處理,共得到如表1所示的15維用戶特征變量,涵蓋信用卡數(shù)目及額度、信用評級、個人經(jīng)濟情況等多個方面。這些特征既包含我國商業(yè)銀行主流的個人信貸信用風險評估指標,也加入了傳統(tǒng)信用評級難以覆蓋的其他相關信息,體現(xiàn)了大數(shù)據(jù)技術(shù)從信息維度與質(zhì)量方面賦能信貸風控的特點。
(三)建模分析
模型的正負樣本比例為133577:48503,大約為不均衡比例大約為2.75,由此可以計算出均衡化處理的系數(shù)k1=3,k2=4。按照上述處理數(shù)據(jù)不均衡比例的方法可以得到三個訓練集和一個驗證集。其中驗證集的正負樣本比例為33397:12127。訓練集的信息如表2所示。
在訓練集均衡的基礎上,本文采用了基于XGBoost,AdaBoost,高斯樸素貝葉斯三種模型分別擬合上述得到的平衡訓練集T1,T2,T3,然后進行投票分類得到最終結(jié)果。經(jīng)過網(wǎng)格搜素,本文確定了各個模型的超參數(shù)值。
其中對于XGBoost,本文選擇的超參數(shù)組合為,max_depth為10,learningrate為0.01,n_estimators為100,其余參數(shù)采用系統(tǒng)默認參數(shù)。
對于Adaboost,本文選擇的超參數(shù)組合為,max_depth為20,learningrate為0.05,n_estimators為80,其余參數(shù)選擇系統(tǒng)默認參數(shù)。
對于高斯樸素貝葉斯,均選擇系統(tǒng)默認參數(shù)。
在模型評價指標上選擇了準確率,F(xiàn)1-Score,AUC,誤報率等指標。準確率和AUC值都能夠從整體上反映模型的準確率,但是在不均衡數(shù)據(jù)集上,模型整體的表現(xiàn)可能會掩蓋模型對少數(shù)類樣本的低性能表現(xiàn)[組合分類]。因此,本文還選取了F1-Score,誤報率等指標來評測模型的性能。其中F1-Score是召回率和精準率的加權(quán)調(diào)和平均,誤報率是1-召回率。通過以上兩指標即可反映模型在少數(shù)樣本集上的表現(xiàn)。
在權(quán)重比例設置上,由于XGBoost的模型綜合表現(xiàn)最佳,在準確率,F(xiàn)1-Score,AUC值上都要比其他兩個略優(yōu),在漏報率上表現(xiàn)不如AdaBoost。而GaussianNB在三個模型中表現(xiàn)最差,原因可能是其模型中不包含正則化懲罰,導致模型擬合程度過高。因此對于XGBoost,AdaBoost,GaussianNB,的權(quán)重比例為4:2:1進行加權(quán)投票。
由表3可以發(fā)現(xiàn),進行集成投票后,各項指標均有小幅提升,這是由于本模型的三個分類器分別對不同的均衡樣本訓練集進行了訓練擬合,且通過投票加權(quán)的方式增強了模型的魯棒性。而通過數(shù)據(jù)均衡處理后得到的驗證集滿足原來數(shù)據(jù)的分布,正負樣本比例也維持不變,訓練好的模型在該驗證集上也能得到不錯的效果。
為了進一步驗證被本文提出模型的有效性,利用原來數(shù)據(jù)中未進行數(shù)據(jù)均衡化處理的數(shù)據(jù)進行實驗。其中由于本文所選取的驗證集的樣本為45524個,占總數(shù)據(jù)樣本的25.0%,因此對傳統(tǒng)單一模型所采用的訓練集和驗證集由總體數(shù)據(jù)樣本隨機切分得到,其中切分比例為訓練集:驗證集=3:1,但只取其中的訓練集部分進行訓練,對于驗證集則進行丟棄,而用數(shù)據(jù)均衡處理得到的驗證集用以進行最后模型效果的驗證。通過以上的方法,即可保證傳統(tǒng)模型和本文模型得到的有效訓練和驗證樣本數(shù)量是一致的。
考慮到切分的隨機性,對切分實驗重復進行50次取平均值,即可得到各單一模型訓練的效果。
通過表4可以得到,進行隨機切分進行訓練得到的各個分類器得分明顯低于本文模型所訓練出的分類器及集成投票模型。盡管傳統(tǒng)XGBoost模型在準確率上仍有優(yōu)秀的表現(xiàn),但其其余的指標明顯低于本模型所訓練的XGBoost。由于驗證集中正負樣本比例為3:1,傳統(tǒng)XGBoost模型準確率高而其他指標較低,這表明傳統(tǒng)模型在預測多數(shù)樣本集上有著較好的表現(xiàn),但是在預測少數(shù)樣本上不具有穩(wěn)定好的表現(xiàn)。而傳統(tǒng)AdaBoost模型和傳統(tǒng)GaussianNB模型的表現(xiàn)也比本文所提出的模型更低。
綜上所述,從各個指標上看,各個傳統(tǒng)模型在本數(shù)據(jù)集上的表現(xiàn)都不如本文所提出的模型。本文提出的模型能夠適用于數(shù)據(jù)樣本不均衡的情況,并且在保證性能的情況下做到對多數(shù)樣本及少數(shù)樣本的精準預測。因此,本文基于Two Step聚類算法的改進組合分類方法能夠有效適用于逾期風險監(jiān)測。
四、結(jié)語
互聯(lián)網(wǎng)金融行業(yè)在強監(jiān)管政策的持續(xù)作用下,逐步擺脫了初期的粗放式發(fā)展路徑,迎來了監(jiān)管與創(chuàng)新并存的行業(yè)新生態(tài)。建立以大數(shù)據(jù)機器學習為核心的信貸逾期預測模型,符合《金融科技發(fā)展規(guī)劃》的政策要求,是互聯(lián)金融行業(yè)在新生態(tài)下實現(xiàn)可持續(xù)發(fā)展的關鍵舉措。
本文采用基于遺傳算法的粗糙集法及遞歸特征消除(RFE)進行特征工程,并提出了基于Two Step聚類算法的改進組合聚類算法將不均衡數(shù)據(jù)進行處理。隨后,將XGBoost、AdaBoost、高斯樸素貝葉斯以上三種算法作為集成模型的子分類器進行訓練,最后加權(quán)投票得到預測結(jié)果,構(gòu)建出兼具準確性、解釋性的信貸逾期預測模型。實證結(jié)果表明:相較于傳統(tǒng)算法,本文所提出的模型有效提升了預測模型的準確性,與信貸業(yè)務實際需求更加契合。
參考文獻:
[1]Zhu,C.Big data as a governance mechanism.Social Science Electronic Publishing,2018.
[2]郭品,沈悅.互聯(lián)網(wǎng)金融加重了商業(yè)銀行的風險承擔嗎?——來自中國銀行業(yè)的經(jīng)驗證據(jù)[J].南開經(jīng)濟研究,2015(04):80-97.
[3]楊文捷,朱順和,鄺艷娟.金融科技發(fā)展、市場競爭與銀行風險承擔[J].金融理論與實踐,2020(03):52-57.
[4]姜增明,陳劍鋒,張超.金融科技賦能商業(yè)銀行風險管理轉(zhuǎn)型[J].當代經(jīng)濟管理,2019,41(01):85-90.
[5]李易懋.金融科技對我國上市商業(yè)銀行盈利能力影響的實證研究[J].湖南師范大學自然科學學報,2020,43(05):83-89.
[6]Kittler J V,Hatef M,Duin R P W,et al.On Combining Classifiers[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,1998,20(03):226-239.
[7]丁嵐,駱品亮.基于Stacking集成策略的P2P網(wǎng)貸違約風險預警研究[J].投資研究,2017,36(04):41-54.
[8]白鵬飛,安琪,NicolaasFransde ROOIJ,李楠,周國富.基于多模型融合的互聯(lián)網(wǎng)信貸個人信用評估方法[J].華南師范大學學報(自然科學版),2017,49(06):119-123.
[9]胡忠義,王超群,陳遠,吳江,鮑玉昆.基于多分類器動態(tài)集成的P2P違約風險評估[J].管理學報,2019,16(06):915-922.
[10]徐桂瓊,李微.基于組合分類的P2P貸款逾期風險預警研究[J].管理現(xiàn)代化,2019,39(04):9-12.
[11]王重仁,韓冬梅.基于超參數(shù)優(yōu)化和集成學習的互聯(lián)網(wǎng)信貸個人信用評估[J].統(tǒng)計與決策,2019,35(01):87-91.
[12]董路安,葉鑫.基于改進教學式方法的可解釋信用風險評價模型構(gòu)建[J].中國管理科學,2020,28(09):45-53.
[13]RiccardoGuidotti,AnnaMonreale,SalvatoreRuggieri,F(xiàn)rancoTurini,F(xiàn)oscaGiannotti,DinoPedreschi.A Survey of Methods for Explaining Black Box Models[J].ACM Computing Surveys(CSUR),2018,51(05).
[14]吳飛,廖彬兵,韓亞洪.深度學習的可解釋性[J].航空兵器,2019,26(01):39-46.
[15]吳暉,韓海庭,屈秀偉,孫圣力.大數(shù)據(jù)征信算法的可解釋性研究[J].征信,2020,38(05):44-51.
[16]劉志惠,黃志剛,謝合亮.大數(shù)據(jù)風控有效嗎?——基于統(tǒng)計評分卡與機器學習模型的對比分析[J].統(tǒng)計與信息論壇,2019,34(09):18-26.
[17]陳戰(zhàn)勇.珠聯(lián)璧合:基于機器學習的網(wǎng)絡借貸信用評分卡模型研究[J].武漢金融,2020(03):42-50.
*基金項目:國家大學生創(chuàng)新創(chuàng)業(yè)訓練項目(202010394082)。
(作者單位:楊沛衡,河海大學商學院;吳東鵬,河海大學計算機與信息學院;徐典,河海大學理學院)
1785501705269