徐文倩
(安徽工業(yè)大學管理科學與工程學院,馬鞍山 243032)
隨著現(xiàn)代金融系統(tǒng)的發(fā)展,借貸平臺在現(xiàn)代金融系統(tǒng)中具有重要地位,尤其在個人借貸方面得到了廣泛的應用。社會整體消費觀念的轉變及消費水平的發(fā)展,極大地刺激著人們的消費欲望。個人借貸的出現(xiàn),不僅滿足了人們的需求,并保證了社會經(jīng)濟的長期穩(wěn)定增長。然而,由于借貸平臺缺乏有效的風險控制,信用風險不可避免。良好的借貸關系有利于達成借貸平臺與貸款者的共贏,但隨著個人貸款交易數(shù)量的迅速增長,一些無節(jié)制透支、超時還款以及借款無法追回等違約現(xiàn)象不僅影響了借貸平臺的正常運營以及投資人的利益,還對個人信用產(chǎn)生了極大的影響。為了有效的避免或降低借貸風險,保證借貸關系的持續(xù)健康發(fā)展,對個人信用風險進行有效評估具有重要意義。
信用風險評估是根據(jù)貸款者相關信息對貸款者進行評估的一種方法,通過將貸款者分為好的和差的兩種信用類型,然后決定是否提供貸款[1]。信用評分法在傳統(tǒng)金融機構中已被廣泛使用,根據(jù)目前的研究,信用評分方法主要基于統(tǒng)計方法和機器學習方法[1-3]。
由于大部分信貸數(shù)據(jù)集屬于不平衡數(shù)據(jù)集,數(shù)據(jù)集中具備良好信貸關系的貸款者數(shù)量遠遠大于存在違約現(xiàn)象的貸款者數(shù)量。因此,信用風險評估問題中的不平衡現(xiàn)象對評估模型的有效性提出了重大挑戰(zhàn),對不平衡數(shù)據(jù)分類的研究也將有助于信用風險評估問題的研究。不平衡數(shù)據(jù)分類主要分為數(shù)據(jù)層面方法和算法層面方法。數(shù)據(jù)層面方法使用重采樣技術預先平衡目標訓練數(shù)據(jù)集進而使用分類方法進行分類,主要有過采樣方法和欠采樣方法。過采樣方法通過合成少數(shù)類樣本,增加少數(shù)類數(shù)量來平衡數(shù)據(jù)集。SMOTE(synthetic minority,SMOTE)方法[4]作為經(jīng)典的過采樣方法,通過在每個少數(shù)類樣本與其K個近鄰樣本之間的連線上產(chǎn)生合成新樣本來增加少數(shù)類樣本數(shù)量,從而使數(shù)據(jù)集趨于平衡。欠采樣方法通過減少多數(shù)類樣本來平衡數(shù)據(jù)集。研究表明,在信用風險評估問題中,采用重采樣方法平衡數(shù)據(jù)集能夠有效提高對信用風險不平衡數(shù)據(jù)集的分類性能。Song等[5]使用基于多準則決策的方法評估了用于信用風險預測的幾個不平衡分類器,證明了基于SMOTEBoost的模型對于不平衡數(shù)據(jù)分類比其他方法更有效。Shen等[6]提出一種合成少數(shù)過采樣技術和分類器優(yōu)化技術的集成模型,使用SMOTE技術平衡目標訓練數(shù)據(jù)集,構造基于Ada-Boost和BP神經(jīng)網(wǎng)絡算法的集成模型對不平衡信用數(shù)據(jù)進行分類。數(shù)據(jù)層面的方法主要使用代價敏感學習和集成學習方法來提高分類性能。針對信用風險不平衡數(shù)據(jù)集,代價敏感方法為具有良好借貸關系的貸款者和存在違約現(xiàn)象的貸款者指定不同的誤分類代價,對存在違約現(xiàn)象的貸款者提高誤分類代價,從而提高對存在違約現(xiàn)象的少數(shù)貸款者的識別率,降低信用風險。馬鵬舉等[7]構造基于代價敏感學習方法的決策樹,提高了對貸款者違約情況的評估能力。Xia等[8]提出了一種代價敏感的集成樹貸款評估模型,結合代價敏感學習和XGBoost方法增強對潛在違約貸款者的辨別能力,證明了模型對不平衡問題的有效性。集成方法在信用風險評估中的應用已經(jīng)取得了顯著進步,陳舒期等[9]通過改進選擇性支持向量機集成算法,提供了一種有效的個人信用評估方法。李淑錦等[10]將Boosting和Bagging兩種集成方法的優(yōu)勢結合,提出了基于LightGBM和Bagging的評估模型,進一步提高了對信用風險評估問題的分類能力。Ye[11]利用機器學習算法建立了logistics回歸模型、決策樹模型、支持向量機模型以及基于三種算法的集成模型評估和預測個人信用風險,通過比較不同模型的預測效果,表明集成學習模型分類效果更好。
與統(tǒng)計方法和機器學習方法相比,深度學習模型尚未廣泛應用于信用風險評估。楊德杰等[12]針對銀行客戶數(shù)據(jù)的數(shù)據(jù)特征之間的相關性,引入截斷的Karhuncn-Loève對堆棧降噪自編碼神經(jīng)網(wǎng)絡模型改進,提高了信用風險評估準確率。Dastile等[13]采用系統(tǒng)的文獻調查方法,分析了信用風險評估中的常用統(tǒng)計方法和機器學習技術,并表明了深度學習算法對信用風險評估的適用性。
通過上述研究發(fā)現(xiàn),基于神經(jīng)網(wǎng)絡和集成方法的混合與集成模型已成為信用風險評估問題研究的新趨勢,這些模型為借貸平臺提供了更復雜、更準確的工具。因此,本文提出一種ADASYN-AdaBoost-CNN集成學習模型用于不平衡信用風險評估。通過ADASYN(adaptive synthetic sampling,ADASYN)過采樣方法平衡目標訓練數(shù)據(jù)集,利用卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)分類預測性能的優(yōu)越性,將卷積神經(jīng)網(wǎng)絡作為基分類器,使用AdaBoost集成方法避免卷積神經(jīng)網(wǎng)絡的過擬合,構造強分類器,從而提高對信用風險不平衡數(shù)據(jù)集的評估準確性和魯棒性。
ADASYN算法的主要思想是根據(jù)少數(shù)類樣本密度分布自適應生成不同數(shù)量的新少數(shù)類樣本[14]。與SMOTE算法為每個少數(shù)類樣本生成相同數(shù)量的新樣本相比,ADASYN方法不僅可以減少原始不平衡數(shù)據(jù)分布帶來的學習偏差,還可以自適應地將決策邊界轉移到難以學習的樣本上。
ADASYN算法步驟如下:
輸入:訓練集{(x1,y1),(x2,y2),…,(x i,y i),…,(x n,y n)},其中x i是n維特征空間X中的一個實例,y∈Y={1,-1}是類別標簽。n s:少數(shù)類樣本數(shù)量,n l:多數(shù)類樣本數(shù)量。
輸出:加入合成樣本后數(shù)據(jù)集。
(1)計算數(shù)據(jù)集的不平衡率:d=n s/n l,其中,d∈(0,1]。
(2)如果d<dth(dth為最大不平衡率預設閾值):
1)計算需要為少數(shù)類樣本生成的合成數(shù)據(jù)示例的數(shù)量:G=(n s-n l)×β。其中β∈[0,1],用于指定合成數(shù)據(jù)生成后所需的平衡水平。β=1表示完全平衡的數(shù)據(jù)集。
2)對于每個少數(shù)類樣本,基于n維空間中的歐式距離找到K個最近鄰,Δi為k個鄰居中屬于多數(shù)類的樣本數(shù),并定義比例r i為:r i=Δi/K,i=1,…,n,r i∈[0,1]。
4)計算每個少數(shù)類樣本合成樣本的數(shù)量:g i=?×G。
5)對每個少數(shù)類樣本,按照以下步驟合成樣本:Forz=1 tog i:
①在待合成的少數(shù)類樣本x i的K個最近鄰中選擇1個少數(shù)類樣本x zi。
②根據(jù)s i=x i+(x zi-x i)×λ合成新少數(shù)類樣本,其中λ是一個隨機數(shù),λ∈[0,1]。
AdaBoost[15]是一種精度提升算法,其核心思想是通過不斷調整樣本權重和創(chuàng)建若干基分類器,直至新創(chuàng)建的基分類器的精度不再變化,進而將創(chuàng)建的基分類器組合成一個強分類器以達到較好的預測效果。訓練過程中,AdaBoost算法自適應地調整數(shù)據(jù)集中每個樣本的權重。首先,為訓練集中的每個樣本隨機分配一個相同的權重,表示對所有樣本的重要性相同。然后在迭代過程中,增加錯誤分類的樣本的權重,減少正確分類的樣本的權重,目的是在后續(xù)的迭代過程中更加重視誤分類樣本的學習,使分類錯誤率隨著訓練增加而穩(wěn)定下降。
卷積神經(jīng)網(wǎng)絡(CNN)是一種包含卷積計算并且具有深度結構的前饋神經(jīng)網(wǎng)絡,能夠在大量數(shù)據(jù)樣本中自動學習原始數(shù)據(jù)特征表達。因此,基于卷積神經(jīng)網(wǎng)絡的分類性能,將其作為基分類器,構造AdaBoost-CNN集成學習模型,以處理不平衡數(shù)據(jù)分類[16]。本文構建的卷積神經(jīng)網(wǎng)絡主要由輸入層、卷積層、池化層、全連接層和輸出層組成,其中,除了輸出層使用Sigmoid函數(shù)作為激活函數(shù)外,其余都使用ReLU作為激活函數(shù),同時在池化層和全連接層后添加了Dropout技術以緩解過擬合。
AdaBoost-CNN算法步驟如下:
輸入:訓練集{(x1,y1),(x2,y2),…,(x i,y i),…,(x n,y n)},其中其中x i是n維特征空間X中的一個實例,y∈Y={1,-1}是類別標簽。
Form=1 toM:
(1)如果m==1,根據(jù)初始化樣本權重分布D m-1={D1()i=1n}在訓練集上訓練第一個基分類器C m-1(x)。
否則,將前一個基分類器的學習參數(shù)轉移到第m個基分類器:C m(x)。根據(jù)樣本權重分布D m在訓練集上訓練第m個基分類器C m(x)。
(2)獲取第m個基分類器的輸出,即每個類別的概率估計:(x),其中k={0,1}。
(3)基于(x)更新數(shù)據(jù)樣本權重D m。
(4)重新標準化數(shù)據(jù)樣本權重D m。
(5)保存第m個基分類器:C m(x)。
不平衡數(shù)據(jù)分類結果可以用混淆矩陣表示,本文將存在違約現(xiàn)象的少數(shù)類定義為正類,具備良好信貸關系的多數(shù)類定義為負類。混淆矩陣如表1所示:
表1 混淆矩陣
根據(jù)混淆矩陣,相關評價指標如下:
精確率(Pr eci sion)表示被預測為正類的樣本中實際為正類的比例:
召回率(Recall)表示正類樣本被正確分類的概率:
F1值(F1-measure)表示精確率和召回率的加權調和平均,當F1值高時意味著精確率和召回率都高:
G-均值(G-mean)表示正類分類準確率和負類準確率的均衡值:
F1-measure和G-mean表現(xiàn)了分類準確率的高低,ROC曲線下的的面積AU C的大小,體現(xiàn)了模型平均性能的優(yōu)劣,A U C值越大,模型性能越好。
本文實驗數(shù)據(jù)集使用從Kaggle獲取的Lending club數(shù)據(jù)集的一個子集,其中數(shù)據(jù)集總量90096條,多數(shù)類樣本76745條,少數(shù)類樣本13351條,不平衡率為0.17。
使用ADASYN算法對數(shù)據(jù)集進行過采樣后,數(shù)據(jù)集總量為151026條,多數(shù)類樣本76745條,少數(shù)類樣本74281條,數(shù)據(jù)集趨于平衡。
對采樣后的數(shù)據(jù)集進行分類預測,基于先前研究,采用對比算法為AdaBoost[15]算法,SMOTEBoost[5]算法,AdaBoost-CNN算法[16],其中Ada-Boost算法,SMOTEBoost算法使用決策樹作為基分類器,深度為8,實驗中使用10折交叉驗證方法,將數(shù)據(jù)集劃分為10份,其中9份作為訓練集,1份作為測試集,重復進行10次實驗,取平均值作為結果。對于ADASYN-AdaBoost-CNN模型與AdaBoost-CNN算法,在訓練過程中將數(shù)據(jù)集的80%作為訓練集,20%作為測試集。本文ADASYN-AdaBoost-CNN模型實驗過程如圖1所示。
圖1 ADASYN-AdaBoost-CNN模型實驗過程
仿真實驗后,本文提出的模型ADASYN-AdaBoost-CNN和其它對比算法在數(shù)據(jù)集下得到的評價指標值如表2所示。其中加粗值為當前評價指標下最高值。為了更直觀的表示實驗結果,圖2展示不同算法得到的實驗結果對比圖,圖中橫坐標表示評價指標,縱坐標表示結果取值。
表2 不同算法在數(shù)據(jù)集上的F值、G-mean、A U C值
圖2 實驗結果對比圖
從上述結果可以看出,本文提出的ADASYN-AdaBoost-CNN模型整體表現(xiàn)最優(yōu)。在F1-measure評價指標上,4個不同算法結果較為穩(wěn)定,說明模型的精確率和召回率保持在穩(wěn)定的狀態(tài)。其中,相對于SMOTEBoost算法本文模型的F1-measure提高3%。在G-mean評價指標上,ADASYN-AdaBoost-CNN模型的G-mean達到82.95%,與AdaBoost算法相比提高40%,與SMOTEBoost算法和AdaBoost-CNN算法相比提高30%,說明本文模型對于訓練數(shù)據(jù)集的正類分類準確率和負類分類準確率較高。在AUC評價指標上,相比SMOTEBoost算法,ADASYN-AdaBoost-CNN模型的AUC值提高57%,與其他兩個算法相比也有明顯提升,說明本文模型的泛化性能較好,能夠針對信用風險不平衡數(shù)據(jù)集進行有效評估。
針對信用風險評估中數(shù)據(jù)集不平衡現(xiàn)象,本文應用ADASYN自適應過采樣算法進行數(shù)據(jù)預處理,減小數(shù)據(jù)集不平衡程度,并進一步結合Ada-Boost集成算法的魯棒性以及卷積神經(jīng)網(wǎng)絡的分類準確性,構造ADASYN-AdaBoost-CNN信用風險評估模型。實驗結果表明,與AdaBoost,SMOTEBoost,AdaBoost-CNN算法相比,本文模型實現(xiàn)了對信用風險不平衡數(shù)據(jù)集的有效評估,有助于借貸平臺降低風險,進而維護借貸系統(tǒng)中良好的運作環(huán)境。