牛曉健,凌 飛
(復(fù)旦大學(xué) 經(jīng)濟(jì)學(xué)院,上海 200433)
我國的個人征信行業(yè)已發(fā)展20多年,1997年中國人民銀行批準(zhǔn)上海市進(jìn)行個人征信試點標(biāo)志著我國個人征信事業(yè)的起步.2006年3月中國人民銀行設(shè)立個人征信中心,政府主導(dǎo)的公共征信體系初步建立.最近十年來個人消費信貸需求日趨旺盛,因此促進(jìn)了消費金融公司的迅猛發(fā)展.為更好地適應(yīng)新變化,2015年1月央行要求8家商業(yè)機構(gòu)做好開展個人征信業(yè)務(wù)的準(zhǔn)備工作,個人征信體系逐步走向市場化.總體而言,我國個人征信市場的格局已呈現(xiàn)多元化的趨勢,傳統(tǒng)的央行征信體系和新興的市場征信體系并存,尤其是各家商業(yè)征信公司都在競爭中謀求更好的發(fā)展.無論哪種模式的征信機構(gòu),其核心優(yōu)勢和持久經(jīng)營的關(guān)鍵在于個人信用風(fēng)險評估模型的設(shè)計,通過運用合適的評估方法,精準(zhǔn)高效地識別可能違約的借款人,以減少銀行和消費金融等放貸機構(gòu)的壞賬損失,從而保障社會經(jīng)濟(jì)的穩(wěn)定發(fā)展.
個人信用風(fēng)險評估是通過分析潛在借款人的信息來判斷其是否會違約的一種方法[1].機器學(xué)習(xí)方法被廣泛應(yīng)用于信用評估、貸款預(yù)測、反洗錢等金融領(lǐng)域[2],也是目前個人信用風(fēng)險評估中運用的主要方法.傳統(tǒng)的機器學(xué)習(xí)模型主要有以下3種:
(1) Logistic回歸常被用來預(yù)測借款人的違約概率,是個人信用評級領(lǐng)域的基準(zhǔn)模型[3].Lasso Logistic回歸[4]、雙層變量選擇懲罰方法(adaptive Sparse Group Lasso, adSGL)Logistic回歸[5]、多源數(shù)據(jù)融合的Logistic回歸模型[6]、基于半監(jiān)督廣義可加(Semi-Supervised Generalized Additive, SSGA)Logistic回歸模型[7]等都是對Logistic回歸的改進(jìn).(2) 神經(jīng)網(wǎng)絡(luò)自20世紀(jì)90年代以來在信用風(fēng)險評估領(lǐng)域有著廣泛的應(yīng)用,可以幫助改善金融機構(gòu)的評估模型和信貸決策[8].神經(jīng)網(wǎng)絡(luò)通常在大數(shù)據(jù)集上表現(xiàn)出色,但是確定其結(jié)構(gòu)是一個不斷試錯的過程,因此非常耗時[9].Zhao等[10]在用BP(Back Propagation)算法對多層感知器(Multi-Layer Perceptron, MLP)神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練的基礎(chǔ)上,在數(shù)據(jù)抽樣、樣本分割和模型結(jié)構(gòu)層面提出了3種優(yōu)化方法,研究過程表明確定合適的神經(jīng)網(wǎng)絡(luò)需要大量的實驗.(3) 支持向量機(Support Vector Machine, SVM)是個人信用風(fēng)險評估中研究最多的模型[11].最小二乘支持向量機(Least Squares SVM, LSSVM)[12]、正交支持向量機(Orthogonal SVM)[13]、聚類支持向量機(Clustered SVM, CSVM)[14]、無核二次曲面支持向量機(Quadratic Surface SVM, QSSVM)[15]等模型主要從樣本和特征角度對支持向量機進(jìn)行優(yōu)化.
上述傳統(tǒng)的機器學(xué)習(xí)方法大部分是淺層結(jié)構(gòu)模型,比較適合處理簡單和有約束條件的問題,但是對于復(fù)雜的金融數(shù)據(jù)的處理往往力不從心[16],無法在大數(shù)據(jù)環(huán)境下得到較好的擴(kuò)展和應(yīng)用.近年來,深度學(xué)習(xí)(Deep learning)理論蓬勃發(fā)展,不少學(xué)者將深度學(xué)習(xí)運用于金融預(yù)測分析,結(jié)果表明,在預(yù)測能力上深度神經(jīng)網(wǎng)絡(luò)相比傳統(tǒng)模型表現(xiàn)得更為優(yōu)秀[17].此外,融合多個單一模型的集成學(xué)習(xí)(Ensemble learning)方法能有效提升模型的能力,這使得集成學(xué)習(xí)在各大數(shù)據(jù)科學(xué)競賽上頻頻奪冠.因此,將深度學(xué)習(xí)與集成學(xué)習(xí)運用于個人信用風(fēng)險評估是一個有益的嘗試.本文以美國最大的P2P平臺Lending Club 2019年的數(shù)據(jù)為基礎(chǔ),分析了隨機森林(Random Forest, RF)、XGBoost(Extreme Gradient Boosting)、LightGBM(Light Gradient Boosting Machine)和CatBoost(Categorical Boosting)4種集成學(xué)習(xí)模型,研究表明,隨機森林的表現(xiàn)相對更好,LightGBM速度最快;并進(jìn)一步設(shè)計了深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network, DNN)、稀疏自編碼器(Sparse Auto-Encoder, SAE)和主成分分析(Principal Component Analysis, PCA)3種不同維度結(jié)構(gòu)的特征提取器,分析后發(fā)現(xiàn)SAE對Boosting類集成學(xué)習(xí)模型的能力有一定的提升.
本文的創(chuàng)新之處和邊際貢獻(xiàn)如下: 第一,對比了隨機森林、XGBoost、LightGBM和CatBoost 4種具有代表性的集成學(xué)習(xí)模型的理論特點和實證結(jié)果,彌補了現(xiàn)有文獻(xiàn)在個人信用風(fēng)險評估領(lǐng)域只分析單一集成學(xué)習(xí)模型的不足.第二,借鑒了深度學(xué)習(xí)在圖像和語音等領(lǐng)域提取特征的構(gòu)思,在個人信用風(fēng)險評估中引入DNN和SAE兩種深度學(xué)習(xí)模型的隱藏層作為特征提取器,并將提取的特征輸入集成學(xué)習(xí)構(gòu)建組合學(xué)習(xí)模型,論證了SAE提取的稀疏特征有助于提升原有模型的預(yù)測能力.第三,結(jié)合實證分析,對深度學(xué)習(xí)在個人信用風(fēng)險評估的適用性做了探討.
目前深度學(xué)習(xí)在個人信用風(fēng)險評估領(lǐng)域的研究才剛剛起步.一種研究方向是繼續(xù)加深淺層神經(jīng)網(wǎng)絡(luò)的深度: Sun等[18]對深度神經(jīng)網(wǎng)絡(luò)在大數(shù)據(jù)集上的運用進(jìn)行了研究,利用巴西某銀行的個人信用卡數(shù)據(jù)訓(xùn)練了一個3層的深度神經(jīng)網(wǎng)絡(luò),表明更深的結(jié)構(gòu)比傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)更能學(xué)習(xí)海量的數(shù)據(jù)信息,并在AUC(Area Under Curve,即ROC曲線下與坐標(biāo)軸圍成的面積)等指標(biāo)上表現(xiàn)更好.另一種研究方向是直接借鑒運用在圖像和語音等特定類型的深度學(xué)習(xí)模型: Kim等[19]嘗試運用深度卷積神經(jīng)網(wǎng)絡(luò)(Deep convolutional neural networks)DenseNet對個人信用風(fēng)險進(jìn)行評估,利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的特殊構(gòu)造,即卷積層和池化層密集連接并自動提取特征,節(jié)省了數(shù)據(jù)處理和特征工程的步驟,并證明由于融入了Dense Block,因此DenseNet比普通CNN更加優(yōu)越.Wang等[20]對比了各種類型的長短期記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò),利用我國某P2P公司的數(shù)據(jù)進(jìn)行分析,實證結(jié)果表明基于注意力機制的長短期記憶網(wǎng)絡(luò)(Attention Model LSTM, AM-LSTM)要比雙向長短期記憶網(wǎng)絡(luò)(Bi-directional LSTM, Bi-LSTM)和普通長短期記憶網(wǎng)絡(luò)預(yù)測得更加精確.Bastani等[21]在個人信用風(fēng)險評估中借鑒了谷歌商店推薦系統(tǒng)的Wide & Deep模型,先用Wide模型學(xué)習(xí)了借款人的高頻特征兩兩之間的關(guān)聯(lián)性(Memorization),再用Deep模型學(xué)習(xí)了相對獨立的低頻類別特征(Generalization),最后用σ函數(shù)將兩種向量融合得到預(yù)測結(jié)果.
集成學(xué)習(xí)包括同態(tài)集成和異態(tài)集成,以CART(Classification And Regression Tree)等決策樹為基分類器的同態(tài)集成通常能取得較好的效果[22].Malekipirbazari等[23]選取了美國P2P平臺Lending Club的數(shù)據(jù),詳細(xì)分析了年收入、年齡、借款期限等15個變量的結(jié)構(gòu)特征和分布情況,并用隨機森林對違約進(jìn)行了預(yù)測,得出隨機森林相比Lending Club平臺的模型和FICO信用分能更好地篩選潛在違約借款人.Xia等[24]以XGBoost模型為基礎(chǔ)完整展示了個人信用風(fēng)險評估的建模流程,首先處理缺失值并將原始數(shù)據(jù)標(biāo)準(zhǔn)化,再用XGBoost進(jìn)行特征重要性的排序,最后用訓(xùn)練和優(yōu)化后的XGBoost模型進(jìn)行預(yù)測.Xia等[25]通過將代價敏感學(xué)習(xí)(Cost-sensitive learning)和樹模型結(jié)合,提出了針對P2P領(lǐng)域的個人風(fēng)險評估的CSXGBoost模型,更好地解決了錯分問題.Zhou等[26]將GBDT、XGBoost和LightGBM 3種Boosting類模型的預(yù)測進(jìn)行線性加權(quán),在中國的某P2P的數(shù)據(jù)集上進(jìn)行實驗后,認(rèn)為該模型能有效應(yīng)對不平衡的高維稀疏樣本.黃志剛等[27]構(gòu)建了9個基于XGBoost的子模型分別訓(xùn)練數(shù)據(jù),并在此基礎(chǔ)上提出了多源數(shù)據(jù)信用評級的普適模型??蚣埽@一方法可將單一子模型的評估結(jié)果融合后轉(zhuǎn)化為信用評分卡,具有較好的穩(wěn)定性;同時作者也指出可以設(shè)計其他類型的融合方法構(gòu)建信用評分卡,充分體現(xiàn)了該框架的靈活性.
由于不同分類器產(chǎn)生的偏差并不相同,因此理論上組合學(xué)習(xí)更加適應(yīng)不同種類的數(shù)據(jù),并進(jìn)一步強化基分類器的預(yù)測能力[28].有關(guān)組合學(xué)習(xí)的文獻(xiàn)很多,但是有關(guān)深度學(xué)習(xí)與集成學(xué)習(xí)相結(jié)合的研究卻很少.一種思路是用集成學(xué)習(xí)優(yōu)化樣本后輸入深度學(xué)習(xí)模型訓(xùn)練: Yu等[29]先用Bagging方法將初始數(shù)據(jù)分割為不同子集,再錄入多隱藏層的深度信念網(wǎng)絡(luò)(Deep Belief Nets, DBN)中提取特征,最后用多個極限學(xué)習(xí)機(Extreme Learning Machine, ELM)集成各項分類結(jié)果,二者相結(jié)合組成的DBN-based ELM模型比單一方法更有效.Yu等[30]提出了一種基于DBN的重采樣支持向量機集合算法,具體是先用Bagging方法得到多個均衡的樣本子集,再用SVM分別訓(xùn)練后輸入DBN進(jìn)行融合,最終輸出階段還采取了收益矩陣(Revenue matrix)加大違約損失的權(quán)重,使得結(jié)果更加合理.另一種思路是構(gòu)建深度學(xué)習(xí)與集成學(xué)習(xí)融合的復(fù)雜結(jié)構(gòu): Pawiak等[31]提出了深度遺傳級聯(lián)集合分類算法(Deep Genetic Cascade Ensembles of Classifiers, DGCEC),將遺傳算法的進(jìn)化機制和兩種不同的支持向量機集合而成16層的深度結(jié)構(gòu)模型,其中還包括正則化層、特征提取層、核函數(shù)層、參數(shù)優(yōu)化層和交叉驗證層,該方法是對深度學(xué)習(xí)、集成學(xué)習(xí)和參數(shù)自動優(yōu)化相結(jié)合的嘗試.
綜上所述,目前在個人信用風(fēng)險評估領(lǐng)域尚沒有將深度學(xué)習(xí)模型作為提取特征的工具,對集成學(xué)習(xí)的運用往往聚焦于單一模型的拓展,缺乏不同集成學(xué)習(xí)模型之間的橫向?qū)Ρ?,而且鮮有將深度學(xué)習(xí)與集成學(xué)習(xí)相結(jié)合的研究.本文借鑒深度學(xué)習(xí)的“它山之石”,結(jié)合集成學(xué)習(xí)構(gòu)建組合學(xué)習(xí)模型,以探討深度學(xué)習(xí)對個人信用風(fēng)險評估模型的影響.
淺層神經(jīng)網(wǎng)絡(luò)主要存在以下3大問題[32]: 在測試集上的表現(xiàn)不如訓(xùn)練集的過擬合問題、無法有效學(xué)習(xí)的梯度消失或梯度爆炸問題以及難以找到全局最優(yōu)解的局部極值問題.深度神經(jīng)網(wǎng)絡(luò)(DNN)擁有比傳統(tǒng)淺層神經(jīng)網(wǎng)絡(luò)更多的隱藏層,神經(jīng)網(wǎng)絡(luò)層數(shù)的增加能夠使得模型獲得更加豐富的表達(dá).DNN的成功得益于近年來一系列深度學(xué)習(xí)優(yōu)化技術(shù)的不斷推出.線性整流函數(shù)(Rectified Linear Unit, ReLU,又稱修正線性單元)在梯度更新中把負(fù)數(shù)轉(zhuǎn)換為0,表現(xiàn)了良好的稀疏性,提高了模型的泛化能力;同時把正數(shù)轉(zhuǎn)化為1,解決了神經(jīng)網(wǎng)絡(luò)隨著層數(shù)增加產(chǎn)生的梯度消失問題,使得深度神經(jīng)網(wǎng)絡(luò)能夠得以訓(xùn)練,因此成為最近十年來深度學(xué)習(xí)領(lǐng)域最常用的激活函數(shù).Dropout方法由Srivastava等[33]提出,中文稱為丟棄法或隨機失活.它的構(gòu)思是在訓(xùn)練數(shù)據(jù)時對輸入的節(jié)點進(jìn)行隨機丟棄,通過將該元素賦值為0,使得隱藏層的神經(jīng)元進(jìn)入休眠,同時各個輸入輸出節(jié)點連接也會被移除,這樣每次訓(xùn)練時網(wǎng)絡(luò)結(jié)構(gòu)都不同,打破了模型的自適應(yīng)性和網(wǎng)絡(luò)結(jié)構(gòu)本身的限制,減少了對局部特征的依賴.批量歸一化(Batch Normalization, BN)方法由Ioffe等[34]提出,其核心思想是通過歸一化使得每層網(wǎng)絡(luò)的輸入都保持標(biāo)準(zhǔn)正態(tài)分布,每個節(jié)點的輸入都能在激活函數(shù)的敏感區(qū)得到訓(xùn)練,每輪迭代中就不需要重新去適應(yīng)變化后的分布,大大提高了訓(xùn)練速度.
h=σ(W1x+b1),
(1)
(2)
自編碼器的隱藏層通常為壓縮結(jié)構(gòu),即通過編碼器挖掘數(shù)據(jù)間的相關(guān)性,降維獲得更高層次的特征表達(dá),但是如果隱藏層節(jié)點大于輸入層,則解碼器學(xué)習(xí)到的信息沒有價值.高維稀疏的特征被認(rèn)為是優(yōu)秀的,因此一個較好的解決辦法是可以構(gòu)造稀疏自編碼器(SAE)[35],通過人為地對隱藏層過多的節(jié)點數(shù)進(jìn)行約束來構(gòu)造特征提取器.稀疏性的含義是使得隱藏層中的節(jié)點大部分變?yōu)?,只有小部分的節(jié)點保持活躍狀態(tài).這種構(gòu)造通常是對原始數(shù)據(jù)更加簡潔的表達(dá),類似于信號在人類大腦中傳遞時,大部分神經(jīng)元處于休眠狀態(tài),只有小部分神經(jīng)元會對刺激做出反應(yīng),因此這種構(gòu)造更接近生物神經(jīng)網(wǎng)絡(luò)的本質(zhì).
單一的機器學(xué)習(xí)模型在進(jìn)行個人信用風(fēng)險評估時往往有一定的局限性,一種較好的解決思路就是同時訓(xùn)練多個模型,再利用不同策略綜合起來得到預(yù)測結(jié)果,這就是集成學(xué)習(xí).集成學(xué)習(xí)好比一群人進(jìn)行“頭腦風(fēng)暴”,用若干基分類器組合成強分類器,取長補短,獲得更高的準(zhǔn)確率,也可以降低單一模型的誤差以提升整體的穩(wěn)健性.
隨機森林是由Breiman[36]提出的一種集成學(xué)習(xí)方法,該方法通過Bagging算法和隨機子空間算法來“隨機”地構(gòu)建數(shù)量繁多的差異化決策樹,從而形成一整片“森林”.隨機森林每棵CART都是從上至下分裂,在第1階段生成單棵決策樹時,采取Bootstrap抽樣方法創(chuàng)建n個訓(xùn)練樣本,由于是放回抽樣,因此每顆CART根節(jié)點的數(shù)據(jù)都是原始數(shù)據(jù)的子集,單棵CART能夠隨機獨立地在不同的訓(xùn)練集上訓(xùn)練.多棵CART有效地解決了單棵CART精度一般、過擬合和局部收斂等問題,因此隨機森林具有良好的泛化能力和抗噪音能力.隨機森林的構(gòu)建過程見圖1.
圖1 隨機森林構(gòu)建過程Fig.1 Construction process of random forest
XGBoost[37],即極端梯度提升算法,其理論基礎(chǔ)是對梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)[38]的改進(jìn).XGBoost與GBDT相比主要有以下優(yōu)勢: 第一,XGBoost對損失函數(shù)進(jìn)行了優(yōu)化,在GBDT只對損失函數(shù)計算1階導(dǎo)數(shù)的基礎(chǔ)上增加了2階泰勒展開后利用貪心算法求解參數(shù),可以更準(zhǔn)確地找到最優(yōu)解.第二,在損失函數(shù)中還引入包含葉子節(jié)點數(shù)的L1范數(shù)和葉子節(jié)點得分的L2范數(shù),用來平滑葉子節(jié)點的預(yù)測值,有效防止模型過擬合.第三,借鑒了Bagging的思想,采取在同層級節(jié)點訓(xùn)練一部分特征的列抽樣方法,通過創(chuàng)造性的并行計算大幅提高了訓(xùn)練速度.第四,引入了收縮(Shrinkage)的思想,即通過葉子節(jié)點乘以學(xué)習(xí)率來削弱新生成CART的影響,使得模型每次迭代后都有學(xué)習(xí)的空間,更有效地逼近真實值.
LightGBM[39]由微軟亞洲研究院發(fā)布,作為GBDT梯度提升家族的一員,它是一個開源、快速、高效的新算法.顧名思義,該模型的最大優(yōu)點就是“Light”(輕量級),主要是在對CART的處理上采用了Leaf-wise算法,即帶深度限制的葉子生長策略,不同于GBDT的Level-wise(按層分裂)的多線程生長策略,該算法是通過只在產(chǎn)生分裂最大增益的葉子分裂節(jié)點,而其他葉子則被舍棄,循環(huán)重復(fù)形成CART,同時為了防止過擬合而對樹的深度加以限制.按葉子分裂能有效避免按層分裂的多余計算,在保證預(yù)測精度的同時提高了計算速度.Level-wise和Leaf-wise兩種算法的分裂過程對比見圖2,其中灰色方塊為分裂節(jié)點.LightGBM和XGBoost在最近幾年的大數(shù)據(jù)實踐中被廣泛應(yīng)用,并稱為當(dāng)今機器學(xué)習(xí)領(lǐng)域的“倚天屠龍”[40].
圖2 Level-wise和Leaf-wise生長策略對比Fig.2 Comparison between Level-wise and Leaf-wise growing strategy
CatBoost[41]是由俄羅斯搜索引擎巨頭Yandex的研究人員新開發(fā)的開源算法.相較于傳統(tǒng)的GBDT算法,CatBoost的最大特點是能夠直接處理類別特征(離散變量)并將其轉(zhuǎn)換為數(shù)字.具體做法是對所有樣本隨機排序并形成多組集合,再計算每組中排在該樣本之前的樣本類別標(biāo)簽的平均值(這種方法被稱為Greedy Target-based Statistics,簡稱為Greedy TS),根據(jù)因變量的先驗分布情況對類別特征賦值以減少噪聲和低頻數(shù)據(jù)的影響,并對特征優(yōu)先級設(shè)置權(quán)重系數(shù)來保證特征之間的獨立性,最后替換原始特征.上述4種集成學(xué)習(xí)模型的特點對比見表1.
表1 隨機森林、XGBoost、LightGBM和CatBoost的特點對比Tab.1 Characteristics comparison of random forest, XGBoost, LightGBM and CatBoost
組合學(xué)習(xí)的目標(biāo)是將多種模型結(jié)合起來解決同一個問題,利用信息互補最大化每個模型的優(yōu)點,從而完善單一模型的不足.組合學(xué)習(xí)通常有兩種研究思路,分別是串聯(lián)結(jié)構(gòu)(Sequential structure)和并行結(jié)構(gòu)(Parallel structure),兩種模型的結(jié)構(gòu)見圖3.
圖3 組合學(xué)習(xí)的串聯(lián)結(jié)構(gòu)和并行結(jié)構(gòu)Fig.3 Sequential structure and parallel structure of hybrid learning
串聯(lián)結(jié)構(gòu)指的是將前一個模型的輸出作為后一個其他類型模型的輸入,以提高單一模型的分類能力.這種構(gòu)造的最大特點是能利用前一個模型對數(shù)據(jù)提取特征或者降維,得到更高層次的信息來訓(xùn)練下一個模型,即起到了“特征提取器”的作用.串聯(lián)結(jié)構(gòu)理論上可以把數(shù)個模型逐個串接起來,雖然準(zhǔn)確率會得到提升,但是也會產(chǎn)生預(yù)測結(jié)果愈加難以解釋等問題,因此實踐中通常只采用兩層結(jié)構(gòu)進(jìn)行串聯(lián).串聯(lián)不同模型還會造成一個問題,如果前一個模型提取的特征并不良好,那么輸入后續(xù)模型反而會造成預(yù)測效果的下降.
并行結(jié)構(gòu)通過將單一模型的預(yù)測用某種方式組合起來得到最終結(jié)果,和串聯(lián)結(jié)構(gòu)不同的是每個模型各自獨立、互不影響,這使得并行結(jié)構(gòu)穩(wěn)定性會更加好.并行結(jié)構(gòu)本質(zhì)上就是集成學(xué)習(xí),只不過通常默認(rèn)集成學(xué)習(xí)的基分類器是CART等決策樹,但是并行訓(xùn)練的基分類器其實可以是任何模型,比如并行構(gòu)造多個神經(jīng)網(wǎng)絡(luò)建立集成神經(jīng)網(wǎng)絡(luò).并行結(jié)構(gòu)的單個模型最好容易受不同參數(shù)的影響,而不是選取比較穩(wěn)定的樸素貝葉斯分類等模型,因為基分類器的差異化是并行結(jié)構(gòu)(尤其是Bagging)性能提升的基石.
Lending Club是世界上規(guī)模最大、最有影響的P2P借款平臺,總部位于美國舊金山,成立于2006年10月,并在2014年12月于紐交所成功上市.Lending Club自2012年開始進(jìn)入高速發(fā)展期,截止2019年年底已經(jīng)累積借款超過530億美元,累積交易量接近490萬筆,遠(yuǎn)超其競爭對手Prosper.其各年的具體業(yè)務(wù)情況見圖4.Lending Club經(jīng)過十幾年的發(fā)展已經(jīng)積累了大量真實的交易數(shù)據(jù),每筆借款需由美國三大征信機構(gòu)之一的Experian(益博睿)提供個人FICO信用分,保障了數(shù)據(jù)的可靠性.為了提升模型驗證和對比研究的效率,本文在時間維度上選擇Lending Club 2019年一整年的數(shù)據(jù).
圖4 2007—2019年 Lending Club的交易額與交易數(shù)量Fig.4 Volume and turnover of Lending Club in 2007—2019數(shù)據(jù)由Lending Club官方網(wǎng)站整理得出.
根據(jù)Ma等[42]對于Lending Club履約和違約狀態(tài)的定義,選取貸款狀態(tài)為按時還款(Fully paid)的借款人為履約客戶,貸款狀態(tài)為壞賬核銷(Charged off)的借款人為違約客戶,將二者作為目標(biāo)變量,并刪除其他借款狀態(tài)的數(shù)據(jù).
在數(shù)據(jù)清洗方面刪除了貸中和貸后數(shù)據(jù),以及缺失比例達(dá)到50%以上和集中度大于95%的高同值變量;特征工程方面在使用隨機森林和XGBoost兩種方法進(jìn)行特征重要性排序后選擇排名前30位的共同變量,將Spearman相關(guān)性大于0.7且重要性較低的變量、存在多重共線性的變量以及IV值小于0.01的變量刪除.除目標(biāo)變量loan_status(借款狀態(tài))以外,共保留21個特征變量,各變量的具體屬性和含義見表2.
表2 特征變量的詳情Tab.2 Details of feature variables
(續(xù)表)
(3)
隨后將數(shù)據(jù)按照8∶2的比例隨機劃分為訓(xùn)練集和測試集,用于訓(xùn)練和評估模型的泛化能力,再對訓(xùn)練集以8∶2的比例隨機劃分出20%的驗證集用來調(diào)整模型參數(shù),最終訓(xùn)練集、驗證集和測試集的比例為0.64∶0.16∶0.20.
在劃分完數(shù)據(jù)之后觀察訓(xùn)練集,共有28 727條數(shù)據(jù),發(fā)現(xiàn)所有樣本中借款狀態(tài)為履約的占比89.02%,為違約的占比10.98%,比例較不平衡,屬于典型的不平衡數(shù)據(jù).本文選擇SMOTE(Synthetic Minority Oversampling Technique)算法[43]以1∶1的設(shè)置對訓(xùn)練集進(jìn)行過采樣處理,處理后總樣本數(shù)量變?yōu)?1 144個,違約和履約借款人比例各占50%.具體變化情況見表3.
表3 SMOTE算法優(yōu)化后的訓(xùn)練集目標(biāo)變量Tab.3 Target variables of training set optimized by SMOTE algorithm
個人信用風(fēng)險評估是典型的“非此即彼”的二分類問題,即根據(jù)現(xiàn)有的借款人資料判斷其違約的可能性.通常用kTP表示實際違約的借款人被預(yù)測為違約(True Positive, TP),kFP表示實際履約的借款人被預(yù)測為履約(False Positive, FP),kFN表示實際違約的借款人被預(yù)測為履約(False Negative, FN),kTN表示實際履約的借款人被預(yù)測為違約(True Negative, TN).準(zhǔn)確率λACC表示在全部借款人中所有預(yù)測都準(zhǔn)確的比例.λTPR表示所有實際違約借款人中被準(zhǔn)確預(yù)測出來的那部分比例,即“抓住壞人”,也等價于(1-Type Ⅱ error);λFPR即統(tǒng)計學(xué)中的Type Ⅰ error,表示實際履約的借款人卻被錯誤地預(yù)測為違約的那部分比例,即“冤枉好人”.上述指標(biāo)的計算公式見表4.
表4 評價指標(biāo)計算公式Tab.4 Formulas of evaluation criteria
若以λTPR為縱軸,λFPR為橫軸,遍歷不同的概率閾值并計算兩個值就可以得到ROC曲線(Receiver Operating Characteristic curve),即受試者工作特征曲線.該指標(biāo)最早用于雷達(dá)信號分析和臨床醫(yī)療診斷,反映了不同誤差范圍內(nèi)的預(yù)測準(zhǔn)確率,越靠近左上角表明模型效果越好.為了更直觀地觀察ROC曲線,更常使用AUC指標(biāo)(SAUC),其含義為ROC曲線下方的面積,面積越大說明模型更為出色,該指標(biāo)能更好地使得不同的ROC曲線之間相互比較.KS曲線(Kolmogorov-Smirnov curve)是以不同閾值為橫軸,λTPR和λFPR為縱軸繪制而成.兩條曲線之間的最大距離即KS值,該指標(biāo)展現(xiàn)了對履約借款人和違約借款人之間的區(qū)分程度.在二分類問題中,通常認(rèn)為如果一個模型的AUC大于0.6,KS值大于0.2,表明其有一定的區(qū)分能力.
本文選取準(zhǔn)確率、AUC和KS值3個指標(biāo)來衡量模型性能,其中準(zhǔn)確率和AUC是個人信用風(fēng)險評估中最常用的指標(biāo)[44].準(zhǔn)確率反映了模型最基本的預(yù)測性能,也能據(jù)此推算出錯誤率;AUC展示了不同閾值下模型的區(qū)分能力,而且能較好地克服數(shù)據(jù)不平衡的問題,在Kaggle等數(shù)據(jù)科學(xué)競賽中一般被認(rèn)為是首選的評價指標(biāo);KS值還能計算出最佳閾值的選擇,在建模時可以通過計算違約成本進(jìn)而調(diào)整閾值來制訂不同的風(fēng)險策略,因此在個人信用評級業(yè)界有著廣泛的應(yīng)用.
本文采用串聯(lián)結(jié)構(gòu)構(gòu)建組合學(xué)習(xí)模型,分成作為特征提取器的前模型和分類器的后模型兩個部分.主要選取3個具有代表性的特征提取器,即DNN、SAE和PCA,其中DNN和SAE都是深度學(xué)習(xí)模型;后模型選取的是隨機森林、XGBoost、LightGBM和CatBoost這4種集成學(xué)習(xí)模型.
5.1.1 DNN特征提取器
首先引入DNN作為第1個特征提取器.DNN作為多重網(wǎng)絡(luò)疊加而形成的深度學(xué)習(xí)模型,其中間的隱藏層能夠進(jìn)行一系列復(fù)雜的非線性映射,并對原始數(shù)據(jù)進(jìn)行逐層抽象變換,因此比淺層神經(jīng)網(wǎng)絡(luò)和SVM等模型更能自動學(xué)習(xí)到更富有層次的特征[45-46].
由于個人信用風(fēng)險評估的最終結(jié)果是實現(xiàn)二分類問題,因此DNN的損失函數(shù)選擇為二元交叉熵(Binary cross-entropy)損失函數(shù);參數(shù)初始化方法選擇最常用的均勻分布初始化來產(chǎn)生隨機張量.優(yōu)化器方面選擇自適應(yīng)動量估計(Adaptive moment estimation, Adam)進(jìn)行優(yōu)化.該方法結(jié)合了穩(wěn)定學(xué)習(xí)率衰減的RMSProp算法,以及調(diào)整梯度方向的動量法(Momentum method),因此被認(rèn)為是目前深度學(xué)習(xí)的首選優(yōu)化算法.添加丟棄概率為0.3的dropout層,并運用Batch normalization方法防止過擬合.
深度學(xué)習(xí)研究中通常認(rèn)為采用遞減型結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)較為合適[47],該方法本質(zhì)上來說是逐層降維,在多重節(jié)點與少數(shù)節(jié)點之間的連接中將模型特征抽象化,提取到更好的特征來進(jìn)行分類.DNN隱藏層和節(jié)點數(shù)的選擇參考Kim等[48]的研究,實驗中隱藏層最多為4層,節(jié)點數(shù)的選擇范圍為10~300.由于其研究結(jié)果表明模型100以下的節(jié)點數(shù)就能取得較好的實證效果,同時考慮到本文使用數(shù)據(jù)量級的差異性,因此節(jié)點數(shù)最終選擇的范圍為5到100之間.本文模型的輸入層的節(jié)點數(shù)是最終選取的特征數(shù)目21,輸出層的節(jié)點數(shù)是二分類的結(jié)果2,將隱藏層從1到4之間,最高節(jié)點數(shù)為100開始,采用折半遞減結(jié)構(gòu)進(jìn)行實驗.最終確定DNN結(jié)構(gòu)為21-100-50-25-1,即第一隱藏層到第三隱藏層的節(jié)點數(shù)分別為100、50和25,此時準(zhǔn)確率最高且損失值最小.
DNN在訓(xùn)練集和驗證集上迭代200次的準(zhǔn)確率和損失值的圖像見圖5和圖6,可以發(fā)現(xiàn)DNN的收斂速度在10個epoch的迭代過程中,準(zhǔn)確率迅速提升的同時損失值也迅速下降,同時添加dropout和BN層本身也能起到防止過擬合的作用,因此訓(xùn)練集和驗證集的損失值始終在較小的幅度內(nèi)波動.
圖5 DNN訓(xùn)練集和驗證集準(zhǔn)確率的變化Fig.5 Changing of accuracy of training set and validation set
圖6 DNN訓(xùn)練集和驗證集損失值的變化Fig.6 Changing of loss of training set and validation set
不同激活函數(shù)對DNN有著不同的影響,linear就是直線型,其他傳統(tǒng)的激活函數(shù)如sigmoid、tanh、hard sigmoid、softmax、softplus以及新型激活函數(shù)ReLU的圖像見圖7.為了探索和驗證最佳激活函數(shù),本文對各項激活函數(shù)在DNN中進(jìn)行實驗,主要觀測訓(xùn)練集和驗證集的準(zhǔn)確率的對比情況,結(jié)果見圖8.可以發(fā)現(xiàn),在迭代相同次數(shù)后,訓(xùn)練集的準(zhǔn)確率始終高于驗證集,傳統(tǒng)類型的激活函數(shù)之間準(zhǔn)確率相差并不是很大,其中tanh和sigmoid兩類經(jīng)典的激活函數(shù)表現(xiàn)最好,hard sigmoid表現(xiàn)最差,總之傳統(tǒng)類型的激活函數(shù)在訓(xùn)練中都會面臨梯度消失的困境,導(dǎo)致準(zhǔn)確率無法進(jìn)一步提升.ReLU函數(shù)無論是在訓(xùn)練集還是在驗證集上的準(zhǔn)確率都明顯高于其他激活函數(shù),這得益于其分段函數(shù)的特性,同時公式中不存在冪運算,能夠大幅度提升模型的收斂速度.
圖7 各類激活函數(shù)的圖像Fig.7 Pictures of various types of activation functions
圖8 DNN更換不同激活函數(shù)后準(zhǔn)確率的變化Fig.8 Changing of accuracy for different types of activation functions
DNN的第三隱藏層在經(jīng)過之前隱藏層、dropout層和BN層的逐層變換后包含25個節(jié)點,其維度數(shù)量和輸入的特征數(shù)21比較接近,因此DNN是一種等維特征提取器.本文將選取訓(xùn)練完的DNN的第三隱藏層提取的特征作為第1個特征提取器,再輸入集成學(xué)習(xí)模型,以驗證DNN是否能夠提升集成學(xué)習(xí)的分類能力,過程見圖9.
圖9 DNN的第三隱藏層的特征提取器Fig.9 Feature extractor of the third hidden layer of DNN
5.1.2 SAE特征提取器
SAE本身構(gòu)造的目的是使得輸入和輸出盡可能相等,但是追求相等的輸出對于建模沒有任何意義,SAE的價值在于編碼器部分.本文將訓(xùn)練完的SAE的解碼器去除,將編碼器作為第2個選用的特征提取器,利用稀疏輸出作為SAE學(xué)習(xí)到的隱藏層表達(dá)作為后續(xù)模型的輸入,研究無監(jiān)督方式學(xué)習(xí)到的特征是否能提升后集成學(xué)習(xí)模型的性能,過程見圖10.
圖10 SAE的稀疏隱藏層的特征提取器Fig.10 Feature extractor of the sparse hidden layer of SAE
接下來確定SAE的提取特征數(shù),首先需要將稀疏性加入自編碼器中.在自編碼器中節(jié)點稀疏化可以使用的方法有類似Logistic回歸的L1和L2正則化,以及KL散度(Kullback-Leibler divergence).本文選取L1正則化對中間隱藏層進(jìn)行稀疏化,因為L1正則化相比L2正則化更能對重要特征進(jìn)行提煉,同時也可以有效防止過擬合,正則化強度為10-8.
(4)
SAE的實驗結(jié)果見表5,可以發(fā)現(xiàn)不同節(jié)點數(shù)對SAE的準(zhǔn)確率和MSE的影響較大,但是沒有明顯規(guī)律,總體來說節(jié)點數(shù)在40到60、80到100之間可以獲得較好的效果,繼續(xù)增加節(jié)點數(shù)反而會造成準(zhǔn)確率的下降和MSE的上升.在所有實驗的節(jié)點數(shù)中,90個節(jié)點數(shù)的SAE準(zhǔn)確率最高且MSE最低,因此將隱藏層節(jié)點數(shù)確定為90,這也是稀疏結(jié)構(gòu)的特征提取數(shù).
表5 不同節(jié)點數(shù)對SAE的影響Tab.5 Influence on SAE under different nodes
5.1.3 主成成分分析
主成分分析(PCA)是最經(jīng)典的降維方法之一,其核心思想是通過坐標(biāo)轉(zhuǎn)換將數(shù)據(jù)從高維空間映射到低維空間,使得轉(zhuǎn)換后空間的數(shù)據(jù)方差最大化.轉(zhuǎn)換后的數(shù)據(jù)被稱為主成分,是原來數(shù)據(jù)的線性組合,同時轉(zhuǎn)換過程要盡可能包含原來數(shù)據(jù)的信息,相互之間也不相關(guān),因此獲得的少數(shù)特征更具有代表性.
假設(shè)原始數(shù)據(jù)有n個樣本和m個特征,xij是第i個樣本的第j個數(shù)據(jù),用矩陣表示為X=(xij)n×m,PCA先將X標(biāo)準(zhǔn)化為X′,以消除量綱不同的影響;再計算X′的相關(guān)矩陣
(5)
并求解Z的方程
|λI-Z|=0
(6)
得到特征值λ1,λ2,…,λm(λ1≥λ2≥…≥λm≥0)和對應(yīng)的特征向量p1,p2,…,pm;第i個主成分的特征值λi也是主成分的方差,選取最大的k個特征值對應(yīng)的特征向量,k也是降維后的主成分個數(shù).此外,還可以通過重構(gòu)方式得到主成分的累計方差貢獻(xiàn)率,即先確定一個閾值α,再計算提取后的維度k,滿足
(7)
本文選取具有代表性的PCA作為第3個特征提取器.PCA壓縮結(jié)構(gòu)確定特征提取數(shù)有兩種思路,可以先確定降維后主成分的個數(shù),也可以確定累計方差貢獻(xiàn)率倒推出降維個數(shù),因為該值表明了壓縮后主成分所蘊含的信息量.本文選取后一種方法.在實踐中,累計方差貢獻(xiàn)率通常選取為85%,本文也選取該閾值,通過PCA壓縮原始數(shù)據(jù)后得到主成分的方差貢獻(xiàn)率和累計方差貢獻(xiàn)率,見表6.
表6 PCA主成分的方差貢獻(xiàn)率和累計方差貢獻(xiàn)率Tab.6 Variance contribution rate and accumulated variance contribution rate of PCA main components
圖11展現(xiàn)了隨著提取主成分個數(shù)的增加,單個主成分方差貢獻(xiàn)率的增加情況,可以發(fā)現(xiàn)由于單個主成分的方差貢獻(xiàn)率占總方差比例越來越小,從最初的20.76%降到最后的2.33%.圖12從另一個角度展現(xiàn)了隨著主成分個數(shù)的增加引起累計方差貢獻(xiàn)率的變化情況,由于單個主成分的方差貢獻(xiàn)率逐漸變小,因此累計方差貢獻(xiàn)率曲線趨于平緩.上述實驗中PCA在85%的閾值下降維的主成分個數(shù)為13,因此壓縮結(jié)構(gòu)提取的特征數(shù)為13.
圖11 主成分方差占總方差比例隨主成分個數(shù)的變化Fig.11 Changing of proportion of principal component variance to total variance with numbers of main components
圖12 累計方差貢獻(xiàn)率隨主成分個數(shù)的變化Fig.12 Changing of accumulated variance contribution rate with numbers of main components
綜上所述,本文先構(gòu)造了3個不同類型的特征提取器作為串聯(lián)結(jié)構(gòu)的前半部分,等維結(jié)構(gòu)的DNN、稀疏結(jié)構(gòu)的SAE和壓縮結(jié)構(gòu)的PCA分別代表了數(shù)據(jù)抽象和提煉的3種解決方案.
串聯(lián)結(jié)構(gòu)的后半部分就是隨機森林等4個集成學(xué)習(xí)模型.本文使用網(wǎng)格搜索 (Grid search) 法在驗證集上尋找最優(yōu)參數(shù),重點研究的參數(shù)加粗標(biāo)識,其他參數(shù)選取默認(rèn)值,具體見表7~表10.
表7 隨機森林的最優(yōu)參數(shù)Tab.7 Best parameters of random forest
表8 XGBoost的最優(yōu)參數(shù)Tab.8 Best parameters of XGBoost
表9 LightGBM的最優(yōu)參數(shù)Tab.9 Best parameters of LightGBM
表10 CatBoost的最優(yōu)參數(shù)Tab.10 Best parameters of CatBoost
在提取了等維結(jié)構(gòu)的DNN的25個特征、稀疏結(jié)構(gòu)的SAE的90個特征和壓縮結(jié)構(gòu)的PCA的13個特征之后,將特征輸入4個集成學(xué)習(xí)模型中進(jìn)行訓(xùn)練,最后將訓(xùn)練好的模型在測試集上檢驗效果,主要評價指標(biāo)是準(zhǔn)確率、AUC和KS值.為了便于展示,構(gòu)造的組合模型命名方式為前半部分是特征提取器的名字,后半部分是集成學(xué)習(xí)模型的名字,比如等維結(jié)構(gòu)的DNN和隨機森林相結(jié)合,組合模型名字為DNN隨機森林.可以建立的串聯(lián)模型數(shù)量共12個,最終結(jié)果見表11,各個指標(biāo)中表現(xiàn)最好的數(shù)值通過加粗標(biāo)注.
表11 12種組合模型在測試集上的表現(xiàn)Tab.11 Performance of 12 combined models on test set
可以發(fā)現(xiàn)在準(zhǔn)確率這個指標(biāo)上,隨機森林等4種集成學(xué)習(xí)模型幾乎不相上下,其中LightGBM以微弱優(yōu)勢取得最高分.接下來觀察不受測試集分布變化影響的AUC和KS值,這兩項指標(biāo)更能反映二分類問題下模型的性能.可以發(fā)現(xiàn)其中隨機森林的AUC值和KS值最高,3種Boosting類集成方法的AUC和KS值總體非常接近,因為其核心基礎(chǔ)都是GBDT,導(dǎo)致對相同的數(shù)據(jù)的測試結(jié)果相差很小.由于為了在同一層面進(jìn)行對比分析,模型運行的數(shù)據(jù)完全相同,類別特征在數(shù)據(jù)處理階段已經(jīng)通過WOE編碼數(shù)值化,導(dǎo)致CatBoost直接處理離散數(shù)據(jù)的卓越性能無法發(fā)揮.隨機森林作為Bagging類集成方法的代表,在這兩項關(guān)鍵指標(biāo)上都獲得了第一,超過了另外3種Boosting類集成方法,表明對于個人信用風(fēng)險評估而言,Bagging類的方法比Boosting類方法更有優(yōu)勢,該結(jié)果與Hamori等[50]認(rèn)為的Boosting類方法比Bagging類方法更好的結(jié)論有所不同.集成學(xué)習(xí)在投票組合或重復(fù)迭代了單棵CART之后,其分類能力得到了明顯提升.
在4種集成學(xué)習(xí)模型的訓(xùn)練和測試過程中,LightGBM充分體現(xiàn)了其“Light”(輕量級)的優(yōu)勢,訓(xùn)練速度最快,XGBoost和隨機森林次之,而CatBoost最慢.因此如果是在消費金融等講究評估速度的平臺進(jìn)行個人信用分析時,LightGBM不失為一個較好的選擇.
加上DNN和SAE這兩種特征提取器后,4種集成學(xué)習(xí)模型的準(zhǔn)確率幾乎沒有變化,說明無論是等維結(jié)構(gòu)還是稀疏結(jié)構(gòu)對準(zhǔn)確率這個指標(biāo)基本沒有影響.但是使用PCA降維后卻導(dǎo)致集成學(xué)習(xí)的準(zhǔn)確率有了明顯的下降,原因可能是已經(jīng)對初始變量進(jìn)行了仔細(xì)的篩選,所選取的特征已經(jīng)有相當(dāng)?shù)拇硇?,繼續(xù)用PCA反而會使得13個新特征喪失業(yè)務(wù)含義,不利于模型的學(xué)習(xí).
12種串聯(lián)結(jié)構(gòu)模型的ROC曲線和相應(yīng)的AUC見圖13~圖16,同時觀察表明模型區(qū)分度的KS值,可以發(fā)現(xiàn)非常明顯的規(guī)律.對于Bagging類的隨機森林模型來說,3種特征提取器都沒有提升AUC和KS值,反而使得模型的這兩項指標(biāo)有所下降,隨機森林是單棵CART并行投票組合而成,本身就已經(jīng)有較好的效果,因此串聯(lián)結(jié)構(gòu)并無多少作用.而對于3種Boosting類模型來說,稀疏結(jié)構(gòu)的SAE都使得原來模型有了一定的提升,說明高維稀疏的特征有助于糾正Boosting類模型迭代中的過擬合問題,但是DNN和PCA兩種串聯(lián)結(jié)構(gòu)并沒有使得Boosting類模型取得更好的效果,其AUC和KS值不如先前.因此,稀疏結(jié)構(gòu)的SAE最適合作為串聯(lián)模型的特征提取器,尤其是能對Boosting類集成模型在AUC和KS值等關(guān)鍵指標(biāo)上有更好的提升.
圖13 隨機森林、DNN隨機森林、SAE隨機森林和PCA隨機森林的ROC曲線Fig.13 ROC curve of random forest, DNN random forest, SAE random forest and PCA random forest
圖14 XGBoost、DNN XGBoost、SAE XGBoost和PCA XGBoost的ROC曲線Fig.14 ROC curve of XGBoost, DNN XGBoost, SAE XGBoost and PCA XGBoost
圖15 LightGBM、DNN LightGBM、SAE LightGBM和PCA LightGBM的ROC曲線Fig.15 ROC curve of LightGBM, DNN LightGBM, SAE LightGBM and PCA LightGBM
圖16 CatBoost、DNN CatBoost、SAE CatBoost和PCA CatBoost的ROC曲線Fig.16 ROC curve of CatBoost, DNN CatBoost, SAE CatBoost and PCA CatBoost
從特征提取器本身的角度來看,SAE表現(xiàn)是最好的,說明特殊結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)自編碼器可以在稀疏化維度中尋求更優(yōu)秀的特征,進(jìn)一步體現(xiàn)了深度模型強大的學(xué)習(xí)能力;PCA作為經(jīng)典降維工具表現(xiàn)一般,其本身更適合對更高維度的原始特征進(jìn)行壓縮;DNN表現(xiàn)最差,說明普通結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò)作為特征提取器并無優(yōu)勢,而且DNN提取的特征個數(shù)和輸入特征數(shù)非常接近,對后續(xù)的集成學(xué)習(xí)模型來說等維結(jié)構(gòu)并沒有獲得更有價值的信息.
第一,DNN作為等維結(jié)構(gòu)特征提取器并沒有取得想象中提升集成學(xué)習(xí)預(yù)測能力的效果,其本質(zhì)上是多層感知器,相較于傳統(tǒng)單隱藏層的BP神經(jīng)網(wǎng)絡(luò)擁有更多的層數(shù),基于最近十年發(fā)展出的各種優(yōu)化技巧使得深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練成為可能.而更具代表性的深度學(xué)習(xí)模型,比如卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)由于其特殊的構(gòu)造往往能在諸如圖像分類、語音識別和自然語言處理等非結(jié)構(gòu)化的數(shù)據(jù)上表現(xiàn)出色[51-52],因為圖像、語音、文字轉(zhuǎn)換為數(shù)值之后掩蓋了其本來形態(tài),CNN和RNN相比傳統(tǒng)神經(jīng)網(wǎng)絡(luò)能更有效地提取抽象特征,從而實現(xiàn)解決端到端(End-to-end)的學(xué)習(xí).但是,對于個人信用資料這種2維的結(jié)構(gòu)化數(shù)據(jù)來說,每列數(shù)據(jù)都有具體的經(jīng)濟(jì)金融業(yè)務(wù)內(nèi)涵,比如性別、年齡、收入、資產(chǎn)負(fù)債率等,DNN并沒有發(fā)揮出類似CNN或RNN的優(yōu)勢.
第二,SAE作為稀疏結(jié)構(gòu)特征提取器相比普通的DNN和常用降維工具PCA在實證結(jié)果中表現(xiàn)更好,雖然沒有取得“石破天驚”的提升效果,不過由于個人征信市場體量很大,只要各項指標(biāo)相比原先模型有一定的進(jìn)步就是有價值的,能夠幫助銀行和消費金融等放貸機構(gòu)“聚沙成塔”地減少遺漏識別違約風(fēng)險造成的經(jīng)濟(jì)損失.因此相比普通的深度學(xué)習(xí)模型DNN,個人征信實踐中可以嘗試用SAE先提取特征后再輸入其他分類器訓(xùn)練.SAE的深度學(xué)習(xí)提取到的特征和Boosting類集成學(xué)習(xí)構(gòu)建的組合學(xué)習(xí)模型為個人信用風(fēng)險評估提供了新的方法和思路,可為國內(nèi)金融相關(guān)企業(yè)防范風(fēng)險提供借鑒,也可為監(jiān)管部門提供參考.
個人信用風(fēng)險評估作為銀行信貸和消費金融的基石,肩負(fù)著篩選合適客戶及識別潛在風(fēng)險的核心職能,更先進(jìn)的評估理論和更高效的評估方法對整個個人征信行業(yè)的穩(wěn)定具有特殊重要的作用,進(jìn)一步探索個人信用風(fēng)險評估模型有著很高的實用價值.本文基于Lending Club 2019年的數(shù)據(jù),對深度學(xué)習(xí)、集成學(xué)習(xí)與組合學(xué)習(xí)在個人信用風(fēng)險評估領(lǐng)域進(jìn)行實證檢驗,主要的結(jié)論與建議如下:
第一,隨機森林、XGBoost、LightGBM和CatBoost 4種集成學(xué)習(xí)模型的整體表現(xiàn)比較接近,其中隨機森林表現(xiàn)最好,可以作為個人信用風(fēng)險評估的首選模型;LightGBM訓(xùn)練速度最快,因此更適合講究審批效率的消費金融風(fēng)控.
第二,借鑒深度學(xué)習(xí)擅長提取圖像和語音等特征的優(yōu)勢,將深度學(xué)習(xí)和集成學(xué)習(xí)構(gòu)建成串聯(lián)結(jié)構(gòu)的組合學(xué)習(xí)模型;稀疏結(jié)構(gòu)的SAE提取到的特征相比等維結(jié)構(gòu)的DNN和壓縮結(jié)構(gòu)的PCA更能提升原有的集成學(xué)習(xí)模型的評價指標(biāo),尤其是對XGBoost、LightGBM和CatBoost等Boosting類模型有一定程度的改進(jìn).
第三,深度學(xué)習(xí)最大的問題在于無法給出業(yè)務(wù)上的合理解釋,比如像傳統(tǒng)的計量方法一樣給出因果關(guān)系分析以及每個參數(shù)的經(jīng)濟(jì)學(xué)含義[53],這點難以滿足金融監(jiān)管的要求.但是SAE等深度學(xué)習(xí)模型提取到的稀疏特征仍然可以作為個人征信機構(gòu)內(nèi)部審批的輔助參考,比如將這些特征融入FICO信用分、阿里的芝麻信用分等評價體系,并結(jié)合其他指標(biāo)對借款人描繪層次更加豐富的“用戶畫像”,從而有效甄別潛在的違約風(fēng)險.