文/王春茹(南開大學(xué)金融學(xué)院)
經(jīng)濟內(nèi)循環(huán)帶動了國內(nèi)消費行業(yè)的蓬勃發(fā)展,滋生了一系列以小微貸款為主的消費信貸公司,同時商業(yè)銀行也積極在個人信貸方面持續(xù)進取。個人信貸數(shù)目持續(xù)上升的同時,如何客觀準確且高效地評價客戶信貸風險成為當前亟待解決的問題。在消費信貸熱度不斷提高的情況下,商業(yè)銀行將個人信貸看作是一項具有長遠發(fā)展的業(yè)務(wù),由此帶來的信用風險問題也成為銀行在風險應(yīng)對中的主要著力點。要降低貸款方違約發(fā)生的可能性,一味地提高借貸門檻也是不可取的,因為有可能會使信用狀況良好并且將來有能力償還借款的客戶需求得不到滿足。因此采用合理的方式評估客戶的信用狀況就變得很重要。在目前的環(huán)境下,機器學(xué)習、人工智能等基礎(chǔ)上建立的風險評估模型在最近幾年被業(yè)界內(nèi)持續(xù)討論,但不同機器學(xué)習內(nèi)核的準確性、不同內(nèi)核對不同維度數(shù)據(jù)的敏感性、不同評測模型的高效性使得不同風險評測模型的表現(xiàn)大不相同,因此不同機器學(xué)習內(nèi)核在不同數(shù)據(jù)中的表現(xiàn)效率仍需進一步研究。
客戶的信用風險與FICO評分系統(tǒng)得出的信用分數(shù)呈負相關(guān)趨勢,但是客戶的信用風險情況并不能僅僅通過評分系統(tǒng)體現(xiàn),評分分數(shù)更多地被用來作為貸款決策中的參考。680分以上的信用評分代表借款人的信用風險水平較低,可以同意發(fā)放貸款。低于620分的信用評分代表借款人需要增加擔保,否則有極大可能被拒絕貸款。620-680分之間的信用評分代表貸款方需要進一步對貸款人的個人信用情況調(diào)查核實。FICO評分模型主要因素關(guān)注客戶的信用償還歷史、信用賬戶數(shù)、使用信用的年限、正在使用的信用類型、新開立的信用賬戶五項因素。
Wang et al.(2005)提出了一種新的“模糊支持向量機”。該算法在保持模糊支持向量機對異常值不敏感的同時,通過更一般化的方法來區(qū)分好債權(quán)人和壞債權(quán)人。他們提出了一種雙邊加權(quán)模糊支持向量機,結(jié)果顯示在信用分析方面有良好的應(yīng)用前景。Raei et al.(2016)研究了一種新的估計商業(yè)銀行企業(yè)客戶違約概率的混合模型。他們將混合模式描述為一種可以解決“黑箱”的模式,研究結(jié)合了兩階段的研究方法,將logit模型的可理解性與神經(jīng)網(wǎng)絡(luò)等非線性技術(shù)的預(yù)測能力相結(jié)合。結(jié)果表明該混合模型的總體精度優(yōu)于兩種基本模型。
龐素琳和鞏吉璋(2009)通過對德國銀行個人信貸數(shù)據(jù)的分析,以C5.0為信用評估模型核心,同時利用Boosting算法極大地提升了模型與數(shù)據(jù)的擬合程度,最后通過參數(shù)調(diào)節(jié)進一步提高分類精確。方匡南等(2010)運用RF算法識別信用卡違約風險,因為這種方法無需對數(shù)據(jù)樣本標準化預(yù)處理,并且結(jié)果相較支持向量機、單一決策樹以及Logistic 回歸更為準確。李淑錦等(2020)通過分析個人借款者的信用風險影響因素建立起包括性別、年齡等的指標體系,通過Lasso-Logistic模型對違約概率進行預(yù)測,得出Lasso-Logistic模型比Logistic回歸的預(yù)測準確性高的結(jié)論,且羊群效應(yīng)作為一個重要因素能在很大程度上提高對違約概率預(yù)測的準確性。王妍等(2020)對SVM算法的超參數(shù)進行混合蛙跳優(yōu)化,并與經(jīng)網(wǎng)格法和遺傳算法優(yōu)化的SVM超參數(shù)結(jié)果進行比較,得出進行過混合蛙跳優(yōu)化的SVM模型對信用風險的評估效果更好。
本文所用數(shù)據(jù)分別來自一個名叫Credit Scoring的數(shù)據(jù)集和一個名為German的數(shù)據(jù)集,內(nèi)容是在評估客戶信用情況時會用到的一些基本信息。其中Credit Scoring數(shù)據(jù)集中包括1225條樣本信息,每條樣本共有15個相關(guān)信息。選取指標有個人、信用和經(jīng)濟三大類。包括出生年月、子女數(shù)目、需要撫養(yǎng)或贍養(yǎng)的人數(shù)、是否有家庭電話、配偶收入、職業(yè)、收入、住宅狀態(tài)、房屋價值、未償還抵押貸款余額、即將支付的房屋抵押貸款或租金、即將支付的貸款、即將支付的分期付款、即將需要償還的信用卡支付、是否違約等15個指標。在German數(shù)據(jù)集中,共有1000條樣本信息,20個屬性變量和一個類變量,在20個屬性當中,有7個數(shù)值型屬性變量,13個定性變量,類變量則分為兩種不同的狀態(tài){good ,bad}。選取指標同樣可分為個人、信用和經(jīng)濟三大類。包括支票賬戶狀態(tài)、持續(xù)時間、信用記錄、信貸目的、信貸金額、儲蓄賬戶、工作年限、分期付款率占可支配收入的百分比、個人身份和性別、是否有其他債務(wù)人/擔保人、現(xiàn)在居住年限、財產(chǎn)屬性、年齡、其他分期計劃、房屋、該銀行中現(xiàn)有的信貸數(shù)量、工作、需要為其提供贍養(yǎng)或撫養(yǎng)的人數(shù)、是否有電話、是否是外籍工人、是否違約等21個指標。本次實驗按照6:4的比例,分別從兩個數(shù)據(jù)集中選取訓(xùn)練集與測試集。由于兩個數(shù)據(jù)集都沒有足夠的信用差的數(shù)據(jù),這種訓(xùn)練數(shù)據(jù)集中的偏差會影響學(xué)習算法,導(dǎo)致少數(shù)類被完全忽略。因此,本文對不平衡數(shù)據(jù)集采用隨機過采樣的方法來重新平衡類的分布,取得更好的學(xué)習效果。
Bellotti-Crook的一篇論文將支持向量機應(yīng)用于預(yù)測貸款的違約風險,這是金融機構(gòu)普遍面臨的一項重要而又具有挑戰(zhàn)性的任務(wù)。
信用評分是指通過評估暴露的風險來給予消費者信用,因為壞賬不僅會給機構(gòu)帶來負面影響,還會成為一個嚴重的社會問題。支持向量機、邏輯回歸、線性判別分析和k近鄰法,是基于消費者應(yīng)用和提供的數(shù)據(jù)來確定違約發(fā)生的概率。在本文的研究中,將致力于檢查信用評分設(shè)置中應(yīng)用的每個學(xué)習算法的準確性水平,并與Bellotti-Crook的結(jié)果進行比較。本文依次采用logistic回歸(LR)、支持向量機(SVM)、k近鄰法(KNN)和線性判別分析(LDA)方法對消費者信用數(shù)據(jù)進行實證研究,比較各種方法的準確率。
邏輯回歸的決策邊界由于其定義域是連續(xù)的,因此不能擬合離散變量,因此更多地用于擬合概率P(Y = 1| x),因為概率取值連續(xù)。logistic回歸則通過函數(shù)L將決策邊界對應(yīng)一個隱狀態(tài)p,然后根據(jù)p與1-p的大小決定因變量的值。在logistic函數(shù)的分布函數(shù)中,μ為位置參數(shù),γ>0為形狀參數(shù),當μ=0,γ=1時也被稱為sigmoid函數(shù),是一條s形曲線,它可以取任何實值數(shù)并將其映射為0到1之間的值。在決策邊界等于0時,函數(shù)y(wtx+b)=0.5。鑒于決策邊界是連續(xù)的,可以得出如下的函數(shù):為了擬合該函數(shù)的值,我們使用決策邊界作為截斷點來建立預(yù)測準則,當logistic函數(shù)輸出大于或等于0.5時,算法預(yù)測為1,反之則預(yù)測為0。為了檢索最優(yōu)的參數(shù)來擬合這個函數(shù),我們使用最大似然估計來優(yōu)化對數(shù)似然函數(shù)最大的w和b。
正確劃分訓(xùn)練數(shù)據(jù)集、獲得幾何間隔最大的分離超平面是SVM算法的核心。與Logistic算法類似,將wx+b=0定義為分離超平面,對于線性可分的樣本,可以獲得無窮多個超平面使得不同種類的數(shù)據(jù)分離,但只能找到唯一的幾何間隔最大的分離超平面。給定某特征空間上的樣本集T,其中,xi為第i個特征向量,yi為分類特征,可分為+1類與-1類。假設(shè)訓(xùn)練數(shù)據(jù)集是線性可分的。在樣本集T和超平面w*x+b=0上定義出超平面與樣本點(xi,yi)的幾何間隔,則該超平面與所有樣本點之間最小的幾何間隔為,這個距離即為支持向量與超平面間的幾何距離??梢詫⒁约s束最優(yōu)化問題表示SVM模型的求解最大分割超平面。約束條件兩邊同時除以γ。由于都是標量,為了表達式簡潔,令得到同時求γ得最大值,等價于求解的最大值,即求解的最小值(是為了后續(xù)求導(dǎo)后形式簡潔,不影響結(jié)果)。因此可以用約束最優(yōu)化問題表示SVM模型的求解最大分割超平面。用拉格朗日乘子法找到含有不等式約束的凸二次規(guī)劃的對偶問題。用無約束的新構(gòu)造的拉格朗日目標函數(shù)表示出有約束的拉格朗日目標函數(shù)。
綜合以上討論,得到如下線性支持向量機算法:(1)定義懲罰參數(shù)則有凸二次規(guī)劃問題,得到最優(yōu)解。(2)求出分離超平面后可以得出分類決策函數(shù)。直觀地講,每個SVM分類器都有一個核函數(shù),其目的是獲取輸入數(shù)據(jù)并將數(shù)據(jù)轉(zhuǎn)化為所需的形式,以便算法進一步對數(shù)據(jù)進行類的微分(也可以理解為相似度函數(shù))。
KNN的原理為在一個特征空間中預(yù)測某個新的樣本,根據(jù)它距離最近的K個點大多數(shù)屬于某類別,則該樣本也屬于該類別。當K為某個級數(shù)時,與它距離最近的n個點中,哪種類別多,則預(yù)測樣本也為該類別,因此KNN算法結(jié)果是由K值的選取和點距離的計算決定的。本文KNN算法中使用歐式距離,在二維平面中,兩個點的歐式距離為:擴展到多維空間則為:。最直接的KNN算法是計算預(yù)測樣本點與給定半徑內(nèi)所有已知樣本點的距離,并將結(jié)果保存、排序,在所得序列中,判斷前n個K值下對樣本的判斷以確定樣本的真實水平。
LDA的核心思想是在坐標系內(nèi)尋找一條直線,使訓(xùn)練樣本集在這條線上的投影達到同類樣本的投影點接近,不同類樣本的投影點遠離的目標。假設(shè)某樣本。定義Nj(j=0,1)為第j類樣本的個數(shù),Xj(j=0,1)為第j類樣本的集合,μj(j=0,1)向量為第j類樣本的均值,Σj(j=0,1)為第j類樣本的協(xié)方差矩陣。μj的表達式為:。如上文所述,需要找到一條直線使得兩類數(shù)據(jù)的投影達到同類樣本的投影點接近,不同類樣本的投影點遠離的目標。假設(shè)該支線上有向量ω,則任意樣本xi在直線ω的投影為ωTxi,上述兩類數(shù)據(jù)的中心μ0,μ1,在直線ω的投影為ωTμ0和ωTμ1。根據(jù)我們的目標,不同類數(shù)據(jù)中心之間的“距離”盡可能大,即最大化,且同類數(shù)據(jù)的投影點盡可能地接近,所以投影點協(xié)方差需要盡可能小,即最小化。多類別LDA的原理同二類別LDA,由于多維向低維投影,此時投影到的低維空間就是一個超平面。與其他算法相比,LDA算法的主要優(yōu)點有:在降維過程中可以將類別的先驗經(jīng)驗納入考慮范圍,且在樣本分類依據(jù)為均值而非方差。但LDA算法也有一些主要缺點:對非高斯分布的樣本降維的情況并不適用,且LDA降維最多降低k-1個維度,若降維的維度大于k-1,則LDA不適用。當樣本分類信息依賴方差而非均值時,降維效果不佳。也可能出現(xiàn)過度擬合數(shù)據(jù)的情況。
(1)LR:通過分析德國的信貸數(shù)據(jù),本文發(fā)現(xiàn)好的數(shù)據(jù)占70%,壞的數(shù)據(jù)占30%。對數(shù)據(jù)進行訓(xùn)練后,檢驗結(jié)果表明Logistic回歸的準確率為0.79,AUC值達到了0.86。用同樣的方法分析美國信用評分數(shù)據(jù),好的數(shù)據(jù)占26.37%,壞的數(shù)據(jù)占73.63%。檢驗結(jié)果表明,Logistic回歸的精度為0.6,AUC值達到了0.59。因此LR回歸在這些測試中表現(xiàn)很好。
(2)SVM:SVM有三種不同的核,分別是線性核、多項式核和RBF核,除了線性核的運行時間比預(yù)期的長之外,SVM總體上的效果最好,盡管它的預(yù)測級別幾乎和其他核一樣高。考慮到精度和運行時間之間的權(quán)衡,線性核支持向量機在實踐中并不是最優(yōu)選擇。多項式內(nèi)核模式結(jié)果表現(xiàn)出了相當高的精度,ROC得分在0.8以上,徑向基函數(shù)(RBF)給人的最優(yōu)的分類結(jié)果也達到0.8以上的 ROC得分。
(3)KNN :K的范圍通過交叉驗證確定(將樣本數(shù)據(jù)按6:4拆分為訓(xùn)練數(shù)據(jù)和驗證數(shù)據(jù)),從某個較小的K值開始,隨著K值的增加,得到驗證集合并計算方差,最終找到一個比較的K值。與其他學(xué)習算法相比,k近鄰算法不需要對數(shù)據(jù)分布進行任何假設(shè),在實際應(yīng)用中更有價值。當優(yōu)化參數(shù)以配置最優(yōu)的k值時,對計算能力的要求非常高,因為算法存儲所有訓(xùn)練數(shù)據(jù),并在交叉驗證步驟中驗證k值的每個選項已進行調(diào)優(yōu)。同時,為了存儲所有的訓(xùn)練數(shù)據(jù),它占用了很高的內(nèi)存。本文的結(jié)果顯示,kNN分類器的實現(xiàn)并沒有花費太多的運行時間??傮w而言,該算法能夠?qū)UC曲線進行準確的預(yù)測,AUC達到0.83。
(4)LDA:Bellotti-Crook的論文結(jié)果表明,LDA的AUC是第二高的。然而,性能上的差異很小,也不顯著。與BC的論文一樣,在使用德國信貸數(shù)據(jù)集時和使用美國信用評分數(shù)據(jù)集時LDA都得到了較高的AUC值。
如Bellotti-Crook論文中所述,每個學(xué)習算法都用AUC-ROC曲線來計算預(yù)測精度。ROC曲線是通過繪制不同閾值設(shè)置下的真正率和假正性率來創(chuàng)建的。AUC是ROC曲線下的面積,表示可分離程度,說明模型區(qū)分類的能力有多大。出于本文的目的,它計算了多少樣本可以被區(qū)分并且準確地預(yù)測。將誤分類率設(shè)定在20% - 30%,本文的模型可以最優(yōu)地達到設(shè)定的誤分類率,有些算法甚至可以將誤分類低于20%。大多數(shù)算法的運行時間都比本文所述的要快得多,很可能是由于算法實現(xiàn)了改進。然而,由于適當?shù)臄?shù)據(jù)集的可用性有限,重建結(jié)果是困難的。盡管有一些數(shù)據(jù)集需要測試,但這些數(shù)據(jù)集遠遠小于Bellotti-Crook使用的數(shù)據(jù)集,本文只有1000個樣本,而他們的超過30000個樣本??傮w而言,SVM的RBF核所表現(xiàn)出的結(jié)果相較其他方法來說更好,AUC值更高,因此運用RBF核的SVM法進行個人信用風險預(yù)測能達到更高的準確性。
在基于德國信用數(shù)據(jù)樣本集的研究中發(fā)現(xiàn),“擔保人”一項也會對個人信用產(chǎn)生較大影響,但在我國當前的個人信用評分機制中,對貸款人的“擔保人”等指標缺乏重視,因此相關(guān)企業(yè)在充分考慮保護用戶個人隱私的前提下可以完善“擔?!薄叭嗣}”等相關(guān)指標的信息采集。在個人信用風險評估中,大數(shù)據(jù)畫像等技術(shù)可以更完整地描述用戶信用情況,但利用已知所有樣本數(shù)據(jù)進行評估的效率低、成本高,因此亟須尋找更有效的個人信用指標的篩選方法。本文主要探究分類算法的改進,而算法的更新迭代時間成本高,因此尋找更有效的數(shù)據(jù)樣本分類手段進行用戶風險評估成為解決該問題的重要手段之一。