王 靜,王艷麗,孫士保*,賈少勇
(1. 河南科技大學(xué)信息工程學(xué)院,河南 洛陽 471023;2. 河南科技大學(xué)軟件學(xué)院,河南 洛陽 471023)
隨著我國經(jīng)濟(jì)的飛速發(fā)展以及消費(fèi)觀念的改變,信貸業(yè)務(wù)正在逐漸擴(kuò)大,銀行決定是否向貸款人發(fā)放貸款在信貸行業(yè)中備受關(guān)注。不良貸款的出現(xiàn)增加了銀行的信用風(fēng)險(xiǎn)問題,因此,構(gòu)建有效的信用評(píng)分模型在信貸行業(yè)中被人們?cè)絹碓疥P(guān)注和重視。
信用評(píng)分實(shí)質(zhì)上是將總體按照不同的特征分配到“良好信用”組或“不良信用”組,從而對(duì)貸款的信用風(fēng)險(xiǎn)進(jìn)行評(píng)價(jià)。通過構(gòu)建信用評(píng)分模型,提高評(píng)估績效的同時(shí)減輕風(fēng)險(xiǎn)的靈活性。
傳統(tǒng)的信用評(píng)分模型是眾多學(xué)者基于統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)法等方面來構(gòu)建,此方法主要有線性判別分析(Linear discriminant analysis,LDA)[1]、Logistic回歸[2]等。典型的信用評(píng)分模型簡單且可解釋強(qiáng),但因預(yù)測準(zhǔn)確率偏低,應(yīng)用范圍相對(duì)較少。隨著計(jì)算技術(shù)和優(yōu)化理論的發(fā)展,信用評(píng)分方法也逐漸智能化,其中較為常見的信用評(píng)分方法有決策樹(Decision Tree,DT)[3]、神經(jīng)網(wǎng)絡(luò)(ANN)[4]、支持向量機(jī)(Support Vector Machine,SVM)[5]等,鑒于以上常見方法在建立信用評(píng)分時(shí)模型簡單易理解,神經(jīng)網(wǎng)絡(luò)和集成學(xué)習(xí)模型預(yù)測準(zhǔn)確率較高。在處理二分類問題時(shí)模型有較好效果,但可解釋性相比于傳統(tǒng)的信用評(píng)分方法較弱。
信用評(píng)分模型若運(yùn)用到現(xiàn)實(shí)生活中,則需要考慮一些不可忽視的問題。如在前期篩選數(shù)據(jù)時(shí)出現(xiàn)“好”客戶數(shù)據(jù)遠(yuǎn)遠(yuǎn)多于“壞”客戶數(shù)據(jù),從而出現(xiàn)數(shù)據(jù)不平衡現(xiàn)象。目前,處理非平衡數(shù)據(jù)問題從分類算法和數(shù)據(jù)兩個(gè)層面:數(shù)據(jù)層面常基于采樣技術(shù),分類算法層面常基于代價(jià)敏感學(xué)習(xí)。在信貸業(yè)務(wù)中,代價(jià)敏感學(xué)習(xí)實(shí)現(xiàn)修正分類面相對(duì)較難,從而提出數(shù)據(jù)層面的采樣方法。采用此方法解決實(shí)際問題中出現(xiàn)的數(shù)據(jù)分布不平衡問題[6]。早期有學(xué)者使用隨機(jī)欠采樣對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,但少數(shù)類樣本易丟失。Blake等[7]提出Balance Cascade算法,此算法易過擬合。Chawla等[8]提出一種新的過采樣方法SMOTE(synthetic minority over-sampling technique),此方法易產(chǎn)生混疊現(xiàn)象造成分類效果不佳。Han等[9]基于SMOTE算法提出Borderline-SMOTE算法,在邊緣區(qū)域進(jìn)行插值,使得新樣本更加有效且分類效果良好。同時(shí)有眾多學(xué)者對(duì)評(píng)分模型的預(yù)測準(zhǔn)確度方面進(jìn)行研究,徐海洋等[10]改進(jìn)線性判別分析構(gòu)建多目標(biāo)信用評(píng)分模型,此方法能有效地提升分類準(zhǔn)確率,但僅從統(tǒng)計(jì)方法進(jìn)行探討具有一定的局限性。陳煜等[11]引入隨機(jī)代價(jià)敏感向量的方式,增強(qiáng)隨機(jī)森林分類器的差異性,但分類效果不佳。Han Lu[12]將人工智能和logistic回歸融合構(gòu)建信用評(píng)分模型,表明組合模型相較于單一模型精度更高。
基于現(xiàn)有研究,構(gòu)建信用評(píng)分模型將基于過采樣方法處理非平衡數(shù)據(jù),同時(shí)考慮可解釋性和預(yù)測準(zhǔn)確率在信用評(píng)分模型中所占的比重。因此,本文提出結(jié)合Borderline-SMOTE的方法對(duì)不平衡分布的數(shù)據(jù)進(jìn)行預(yù)處理。LDA模型引進(jìn)顯著的預(yù)測結(jié)果作為BP神經(jīng)網(wǎng)絡(luò)模型的輸入變量的方法構(gòu)建信用評(píng)分模型。此外,通過多個(gè)數(shù)據(jù)集與多種機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,選取適當(dāng)?shù)脑u(píng)價(jià)指標(biāo)論證模型的可行性和有效性。
LDA最早由Fisher提出解決二分類問題的fisher判別分析,LDA是一種非常有效的可監(jiān)督的降維技術(shù)。當(dāng)前該項(xiàng)技術(shù)在人臉識(shí)別等方面已廣泛存在[13]。線性判別分析有較好的預(yù)測變量的某些屬性,能夠準(zhǔn)確地尋找到最佳的線性組合,以最佳精度將研究對(duì)象分為兩個(gè)或兩個(gè)群體以上。因此,本文將基于LDA模型在信用評(píng)分問題中預(yù)測輸出變量。
(1)
(2)
zi=WTxi
(3)
20世紀(jì)80年代,BP神經(jīng)網(wǎng)絡(luò)是Rumelhart與McCelland為首的研究小組所提出[14]。BPNN則是按照誤差逆轉(zhuǎn)傳播法訓(xùn)練的神經(jīng)網(wǎng)絡(luò),其主要思想是學(xué)習(xí)過程中信號(hào)的正向傳播和誤差的反向傳播方式的組合。BPNN拓?fù)鋱D如圖1所示。
圖1 BPNN拓?fù)浣Y(jié)構(gòu)
BPNN本質(zhì)上是一種基于梯度最陡下降訓(xùn)練算法的網(wǎng)絡(luò),是迄今為止最常用的范式。設(shè)D={(x1,y1),(x2,y2),…,(xm,ym)},xi∈Rd,yi∈Rl為訓(xùn)練集,l輸入層節(jié)點(diǎn)數(shù),h隱含層節(jié)點(diǎn)數(shù),o輸出層節(jié)點(diǎn)數(shù),輸入層至隱含層的權(quán)重由ωij表示,隱含層至輸出層的權(quán)重由ωjk表示,輸入層至隱含層偏置由aj表示,隱含層至輸出層偏置由bk表示,學(xué)習(xí)率由η表示,g(x)取Sig函數(shù)
(4)
并進(jìn)行隱含層的輸出Hj
(5)
和輸出層的輸出Ok
(6)
根據(jù)(6)公式計(jì)算誤差E
(7)
其中Yk為期望輸出,記Yk-Ok=ek,則E也可以表示
(8)
以上公式中,i=1…l,j=1…l,k=1…o。
誤差反向傳播過程中,使得誤差函數(shù)最小化,借用梯度下降法進(jìn)行隱含層至輸出層的更新,輸入層至隱含層的權(quán)值表達(dá)為
(9)
以及隱含層至輸出層的更新,輸入層至隱含層的偏置表達(dá)為
(10)
以往研究信用評(píng)分模型是基于數(shù)據(jù)平衡所構(gòu)建,忽略非平衡數(shù)據(jù)對(duì)信用評(píng)分模型的影響,使得所構(gòu)建模型的預(yù)測結(jié)果偏向于多類。在實(shí)際問題中,考慮過多的是少數(shù)類樣本,并希望可以有效預(yù)測少數(shù)類,達(dá)到特異預(yù)警的效果。
令選取kaggle開源數(shù)據(jù)集,以及UCI公開的德國數(shù)據(jù)集和澳大利亞數(shù)據(jù)集。數(shù)據(jù)集顯示,三種開源數(shù)據(jù)集均出現(xiàn)非平衡分布,正負(fù)樣本比例分別為1:14;1:3;1:5,如圖2至圖4所示。
圖2 kaggle數(shù)據(jù)集正負(fù)樣本分布
圖3 德國數(shù)據(jù)集正負(fù)樣本分布
圖4 澳大利亞數(shù)據(jù)集正負(fù)樣本分布
本文選用Borderline-SMOTE算法,其算法是基于SMOTE方法改進(jìn)的自適應(yīng)合成抽樣法。SMOTE方法在產(chǎn)生新樣本時(shí)缺乏對(duì)近鄰樣本分布的考慮,采用線性插值處理操作,使得樣本重復(fù)率大大增加。為解決此問題,本文基于Borderline-SMOTE算法對(duì)少數(shù)類邊界過采樣合成新樣本,同時(shí)考慮少數(shù)類樣本周圍多數(shù)類樣本分布情況。相比于SMOTE算法,Borderline-SMOTE算法合成的新樣本可將少數(shù)類樣本合理分布,對(duì)分類器的影響也相對(duì)較小。算法具體操作步驟如下:
1)識(shí)別少數(shù)類樣本L:
①每個(gè)pi?Smin確定最優(yōu)的鄰近樣本集合,稱該數(shù)據(jù)集為Si:m-NN,且Si:m-NN?S。
②判斷多數(shù)類樣本中與pi鄰近樣本集的數(shù)目,表達(dá)為:|Si:m-NN∩Smaj|。
2)少數(shù)類樣本L按k個(gè)最近鄰分類處理:
3)令邊界樣本集B={l1′,l2′,…,lb′},同時(shí)進(jìn)行B集合內(nèi)每個(gè)樣本l1′的計(jì)算,i=1,2,…,b是在少量樣本L中的k′個(gè)最近鄰lij。
4)隨機(jī)選取s(1
5)計(jì)算全局特征差值dij=li′-lij,j=1,2,…,s的度量。
6)乘以隨機(jī)數(shù)rij,rij(0,1),若lij∈N′∪s,則rij(0,0.5)。
7)生成人工少數(shù)類樣本hij:
hij=li′+rij*dij,j=1,2,…,s
(11)
8)重復(fù)上述步驟3到步驟7操作,若人工少量樣本個(gè)數(shù)符合需求,則該樣本集得以均衡。
鑒于以上信息,基于均值插補(bǔ)方法處理缺失值,使得月收入變量數(shù)據(jù)作為定距型,選用該變量的均值進(jìn)行填補(bǔ)。與此同時(shí),數(shù)據(jù)中缺失相對(duì)較少,選擇直接刪除即可。其次,箱線圖用以判斷異常值
xi>Q3+k(IQR)∨xi (12) IQR=Q3-Q1,k≥0 (13) 進(jìn)行各個(gè)特征的異常值剔除。之后采用Borderline-SMOTE方法解決數(shù)據(jù)非平衡分布。 基于數(shù)據(jù)平衡分布,選用LDA模型,將預(yù)測較好的輸出變量作為BPNN模型的輸入變量,輸出預(yù)測結(jié)果。采用LDA-BPNN構(gòu)建信用評(píng)分模型,圖5為該方法的結(jié)構(gòu)框架圖。 圖5 結(jié)構(gòu)框架圖 LDA-Borderline-SMOTE-BPNN信用評(píng)分模型構(gòu)建具體方法:Borderline-SMOTE算法處理非平衡數(shù)據(jù)分布,其后選用LDA模型將各個(gè)數(shù)據(jù)集預(yù)測較好的輸出變量轉(zhuǎn)變?yōu)锽P神經(jīng)網(wǎng)絡(luò)的輸入變量,確定初始權(quán)值并進(jìn)行網(wǎng)絡(luò)初始化,計(jì)算各層的實(shí)際期望值和網(wǎng)絡(luò)樣本輸出值之間誤差,對(duì)客戶進(jìn)行信用分類。算法具體步驟如下所示。 該方法的基本步驟 Iuput:信用數(shù)據(jù)集。 Output:模型評(píng)價(jià)指標(biāo)。 Step1:對(duì)信用數(shù)據(jù)進(jìn)行缺失值和異常值處理; Step2:劃分訓(xùn)練集和測試集; Step3:采用Borderline-SMOTE算法進(jìn)行數(shù)據(jù)不平衡處理; Step4:基于以上步驟,采用LDA模型預(yù)測較好的輸出變量,作為BPNN模型的輸入變量,構(gòu)建LDA-Borderline-SMOTE-BPNN信用評(píng)分模型,在訓(xùn)練集上訓(xùn)練; Step5:在測試集上評(píng)估模型。 實(shí)驗(yàn)配置環(huán)境在Window10 64位操作系統(tǒng)上執(zhí)行。對(duì)此三類數(shù)據(jù)集分別選取70%為訓(xùn)練集,其30%為測試集,數(shù)據(jù)的預(yù)處理則使用Borderline-SMOTE方法。實(shí)驗(yàn)選用Python代碼實(shí)現(xiàn)數(shù)據(jù)平衡分布,初始數(shù)據(jù)集正負(fù)樣本比例1:14、1:2、1:5,經(jīng)缺失值和異常值處理正負(fù)樣本比例為1:7、1:2、1:5,基于Borderline-SMOTE方法進(jìn)行數(shù)據(jù)預(yù)處理,正負(fù)樣本比例均為1:1。 信用評(píng)分模型的構(gòu)建實(shí)質(zhì)是一種二分類問題,因此,選取查準(zhǔn)率(Pre)、召回率(recall)、準(zhǔn)確率(Acc)作為評(píng)價(jià)機(jī)制,其中正樣本為良好信用者,負(fù)樣本為不良信用者。查準(zhǔn)率、召回率、準(zhǔn)確率的定義分別如下所示 (14) (15) (16) 以上式子中各個(gè)值的含義如表1信用評(píng)分模型的混淆矩陣所示。 表1 信用評(píng)分模型的混淆矩陣 信用評(píng)分模型在實(shí)際的運(yùn)用,尤為重要的是預(yù)測準(zhǔn)確能力。因此,本實(shí)驗(yàn)將采用pr曲線判斷數(shù)據(jù)平衡前后的預(yù)測準(zhǔn)確能力。如圖6、圖7、圖8所示。 圖6 kaggle數(shù)據(jù)集平衡前后pr曲線圖 圖7 澳大利亞數(shù)據(jù)集平衡前后pr曲線 圖8 德國數(shù)據(jù)集平衡前后pr曲線 針對(duì)不同數(shù)據(jù)集平衡前后構(gòu)建的三個(gè)模型進(jìn)行對(duì)比分析:以召回率為基準(zhǔn),kaggle數(shù)據(jù)集中當(dāng)recall=0.4時(shí),平衡前三個(gè)模型的Precision分別為0.02,0.16,0.6,平衡后三個(gè)模型的Precision分別為0.03,0.17,0.65;澳大利亞數(shù)據(jù)集中當(dāng)recall=0.7時(shí),平衡前三個(gè)模型的Precision分別為0.84,0.53,0.86,而平衡后三個(gè)模型的Precision分別為0.87,0.59,0.89;德國數(shù)據(jù)集中當(dāng)recall=0.925時(shí),平衡前三個(gè)模型的Precision分別為0.87,0.875,0.88,而平衡后三個(gè)模型的Precision分別為0.88,0.875,0.89。 鑒于以上分析和pr曲線圖的呈現(xiàn),平衡后三種模型的查準(zhǔn)率都略優(yōu)于平衡前三種模型。因此,基于過采樣技術(shù)方法預(yù)測能力相對(duì)較好。根據(jù)pr曲線圖從可解釋性方面而言,平衡后LDA-Borderline-BPNN的模型具較強(qiáng)的可解釋性。 驗(yàn)證非平衡分布的LDA-BPNN模型的有效性,本實(shí)驗(yàn)采用交叉驗(yàn)證方法對(duì)樣本進(jìn)行處理,為避免實(shí)驗(yàn)中出現(xiàn)的偶然性,進(jìn)行10次獨(dú)立實(shí)驗(yàn),將10次的實(shí)驗(yàn)平均值作為數(shù)據(jù),進(jìn)一步測試本實(shí)驗(yàn)的預(yù)測效果。各個(gè)算法模型檢驗(yàn)對(duì)應(yīng)的ROC曲線由圖9至圖11所示。 圖9 kaggle數(shù)據(jù)集ROC曲線圖 圖10 澳大利亞數(shù)據(jù)集ROC曲線圖 圖11 德國數(shù)據(jù)集ROC曲線圖 根據(jù)ROC曲線得出各個(gè)數(shù)據(jù)集模型的AUC值,從表2中可以看出,采用LDA - Borderline - SMOTE - BPNN模型分類效果在多個(gè)模型中預(yù)測準(zhǔn)確率是相對(duì)較高,根據(jù)多個(gè)模型ROC曲線和AUC值的對(duì)比表明分類效果的有效性。 表2 AUC實(shí)驗(yàn)結(jié)果 信用評(píng)分問題中,為評(píng)估模型整體的信用評(píng)分能力,需考慮誤分類成本問題。在實(shí)際問題中,第一類錯(cuò)誤的成本雖低于第二類錯(cuò)誤的成本,但均會(huì)給銀行帶來巨大損失。因此良好的信用評(píng)分模型的建立則需考慮第一類錯(cuò)誤和第二類錯(cuò)誤。表3至表5總結(jié)了6種模型的第一類和第二類的誤差。 表3 kaggle數(shù)據(jù)集第一類和第二類誤差 (%) 表4 澳大利亞數(shù)據(jù)集第一類和第二類誤差(%) 表5 德國數(shù)據(jù)集第一類和第二類誤差(%) 由表可知,LDA-BPNN模型在三種數(shù)據(jù)集的第一類錯(cuò)誤和第二類錯(cuò)誤的誤差均相對(duì)較低。因此,LDA-BPNN模型能夠有效的減少第一類錯(cuò)誤和第二類錯(cuò)誤引發(fā)的額外損失,驗(yàn)證了模型的有效性。 根據(jù)表6至表8實(shí)驗(yàn)結(jié)果得出LDA - Borderline - SMOTE-BPNN模型擁有最高的準(zhǔn)確率、查準(zhǔn)率和召回率。準(zhǔn)確度數(shù)據(jù)顯示,提出的算法(LDA - Borderline - SMOTE - BPNN)在三組實(shí)驗(yàn)中分別占據(jù)75.49%、87.00%和89.33%,遠(yuǎn)高于單一模型BPNN、KNN以及LG等其它算法的準(zhǔn)確度;查準(zhǔn)率和召回率數(shù)據(jù)顯示,三個(gè)數(shù)據(jù)集結(jié)果均表明LDA - Borderline - SMOTE - BPNN模型相對(duì)穩(wěn)定。 表6 kaggle數(shù)據(jù)集結(jié)果 (%) 表7 澳大利亞數(shù)據(jù)集結(jié)果 (%) 表8 德國數(shù)據(jù)集結(jié)果(%) 本文提出基于LDA - Borderline - SMOTE - BPNN的信用評(píng)分模型,通過采用Borderline - SMOTE算法對(duì)數(shù)據(jù)預(yù)處理達(dá)到數(shù)據(jù)平衡分布,提高分類效果,實(shí)際問題中也可得到應(yīng)用。以此為基礎(chǔ),采用LDA模型輸出預(yù)測變量作為BPNN的輸入變量,輸出預(yù)測準(zhǔn)確率(AUC)。實(shí)驗(yàn)結(jié)果表明,融合后的模型不僅有效的提高預(yù)測準(zhǔn)確率和增強(qiáng)可解釋性,而且還有較低的誤分類錯(cuò)誤。在未來工作中,將其它人工智能技術(shù)與BP神經(jīng)網(wǎng)絡(luò)相結(jié)合,進(jìn)一步對(duì)BP神經(jīng)網(wǎng)絡(luò)內(nèi)部做提升,實(shí)現(xiàn)基于動(dòng)態(tài)自適應(yīng)學(xué)習(xí)速率,進(jìn)而提升信用評(píng)分的分類精度。3.2 LDA-Borderline-SMOTE-BPNN模型
4 實(shí)驗(yàn)結(jié)果與分析
4.1 評(píng)價(jià)指標(biāo)
4.2 平衡前后對(duì)比
4.3 分類算法對(duì)比
4.4 實(shí)驗(yàn)結(jié)果
5 結(jié)論