李麗 趙陸亮 陳軍
【摘 要】為了解決西南財(cái)經(jīng)大學(xué)“新網(wǎng)銀行杯”競(jìng)賽數(shù)據(jù)中存在的高維稀疏數(shù)據(jù)、無(wú)標(biāo)簽數(shù)據(jù)、多產(chǎn)品客群來(lái)源及好壞樣本不平衡等問(wèn)題,采用機(jī)器學(xué)習(xí)方法,如Logistic回歸、決策樹(shù)、Adaboost、GradientBoosting和LGB模型對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,得出LGB模型的性能評(píng)價(jià)指標(biāo)AUC數(shù)值最大的結(jié)論。
【關(guān)鍵詞】信用風(fēng)險(xiǎn)預(yù)測(cè);機(jī)器學(xué)習(xí);性能評(píng)價(jià)指標(biāo)
【中圖分類號(hào)】F830.589 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2021)03-0046-03
1 研究背景
銀行信用風(fēng)險(xiǎn)評(píng)估一直是學(xué)術(shù)研究和商業(yè)銀行管理領(lǐng)域重要的研究話題。信貸信用風(fēng)險(xiǎn)是銀行所面臨的信用風(fēng)險(xiǎn)中最重要的一個(gè)部分,又由于銀行是整個(gè)金融系統(tǒng)的核心,銀行的主要資產(chǎn)業(yè)務(wù)是銀行對(duì)企業(yè)發(fā)放的貸款,若企業(yè)由于破產(chǎn)或資金流動(dòng)性等原因無(wú)法按期償還貸款甚至造成違約會(huì)給商業(yè)銀行帶來(lái)巨大的損失。此外,商業(yè)銀行不良貸款率的不斷提升也會(huì)導(dǎo)致整個(gè)金融市場(chǎng)風(fēng)險(xiǎn)的提升。因此,商業(yè)銀行能否獲得性能極好又切實(shí)可行的信用風(fēng)險(xiǎn)預(yù)測(cè)模型,對(duì)于銀行金融機(jī)構(gòu)乃至整個(gè)金融市場(chǎng)至關(guān)重要。
早期的預(yù)測(cè)模型大多使用傳統(tǒng)計(jì)量和統(tǒng)計(jì)方法,例如多元判別分析方法、Logistic回歸分析方法等。近年來(lái),隨著人工智能的興起、機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘在世界范圍內(nèi)的推廣,幫助商業(yè)銀行風(fēng)險(xiǎn)預(yù)測(cè)獲得了新的、更有效的預(yù)測(cè)方法,也預(yù)示著在商業(yè)銀行信用風(fēng)險(xiǎn)預(yù)測(cè)領(lǐng)域,人工智能方法會(huì)逐漸取代傳統(tǒng)統(tǒng)計(jì)方法,成為預(yù)測(cè)商業(yè)銀行信用風(fēng)險(xiǎn)的首選方法。
2 文獻(xiàn)回顧
Ekinci & Erdal(2011)[1]對(duì)土耳其的35家私人商業(yè)銀行進(jìn)行分析,比較了SVM方法和神經(jīng)網(wǎng)絡(luò)方法的預(yù)測(cè)精度。余晨曦等人(2008)[2]運(yùn)用支持向量機(jī)技術(shù)(SVM),構(gòu)建了基于支持向量機(jī)的我國(guó)商業(yè)銀行信貸信用風(fēng)險(xiǎn)度量模型,將支持向量機(jī)的非線性分類器應(yīng)用到貸款違約的判別中,研究發(fā)現(xiàn)SVM可以處理非線性分類問(wèn)題,但不能很好地估計(jì)違約概率。李佳等人(2018)[3]將SVM、BP神經(jīng)網(wǎng)絡(luò)和PCA變量降維處理結(jié)合使用,對(duì)2015—2016年我國(guó)的144家滬深上市公司開(kāi)展研究和預(yù)測(cè),最后得出了良好的預(yù)測(cè)能力。
3 數(shù)據(jù)來(lái)源及解析
3.1 數(shù)據(jù)來(lái)源
本文數(shù)據(jù)是來(lái)自DC競(jìng)賽網(wǎng)中的西南財(cái)經(jīng)大學(xué)“新網(wǎng)銀行杯”數(shù)據(jù)科學(xué)競(jìng)賽,四川新網(wǎng)銀行已經(jīng)開(kāi)發(fā)出了國(guó)內(nèi)第一款全在線辦理的銀行大額云授信產(chǎn)品——“好人貸”。比賽提供真實(shí)業(yè)務(wù)場(chǎng)景下的脫敏數(shù)據(jù),在“好人貸”的量化風(fēng)控實(shí)踐中,四川新網(wǎng)銀行面臨多個(gè)維度的挑戰(zhàn):高維數(shù)據(jù)、稀疏數(shù)據(jù)、無(wú)標(biāo)簽樣本、多產(chǎn)品客群好壞樣本不平衡等。其中,對(duì)于包含多產(chǎn)品(客群)的高維特征數(shù)據(jù)和表現(xiàn)數(shù)據(jù)(部分有標(biāo)簽,部分無(wú)標(biāo)簽),邀請(qǐng)參賽者對(duì)數(shù)據(jù)進(jìn)行探索分析,綜合利用監(jiān)督和半監(jiān)督機(jī)器學(xué)習(xí)算法、遷移學(xué)習(xí)算法等設(shè)計(jì)區(qū)分能力高、穩(wěn)定性強(qiáng)的信用風(fēng)險(xiǎn)預(yù)測(cè)模型,對(duì)客戶信用風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。
通過(guò)初步的數(shù)據(jù)分析,我們發(fā)現(xiàn)數(shù)據(jù)的特征缺失嚴(yán)重,可能會(huì)對(duì)模型的預(yù)測(cè)帶來(lái)干擾,并且雖然特征維度僅有157維,但是由于是匿名特征,因此很難確定數(shù)據(jù)的具體含義。脫敏數(shù)據(jù)不能使用相關(guān)性分析方法,也不能構(gòu)造新的特征,所以在數(shù)據(jù)清洗中對(duì)缺失值的處理與分析和模型的訓(xùn)練與評(píng)估都是需要我們解決的關(guān)鍵問(wèn)題。
3.2 數(shù)據(jù)解析
此次競(jìng)賽提供的數(shù)據(jù)包括用戶id,157項(xiàng)脫敏的屬性/行為特征,以及是否屬高風(fēng)險(xiǎn)用戶的標(biāo)簽項(xiàng)。一共有3個(gè)文件,數(shù)據(jù)描述如下。
(1)train_xy.csv,帶標(biāo)簽的訓(xùn)練集數(shù)據(jù),共15 000條。
(2)train_x.csv,不帶標(biāo)簽的訓(xùn)練集數(shù)據(jù),除無(wú)標(biāo)簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。
(3)test_all.csv,測(cè)試集數(shù)據(jù),除無(wú)標(biāo)簽字段‘y外,其余字段與train_xy.csv相同,共10 000條。
train_xy數(shù)據(jù)節(jié)選如圖1所示。
那么,根據(jù)賽題任務(wù)與數(shù)據(jù),可以將問(wèn)題轉(zhuǎn)化為“二分類”問(wèn)題,0代表低風(fēng)險(xiǎn)客戶,1代表高風(fēng)險(xiǎn)客戶,賦值為0的個(gè)數(shù)有14 309,為1的個(gè)數(shù)為691,0和1的數(shù)量比值為21∶1,不同cust_group的樣本分布也不平衡(見(jiàn)表1)。
評(píng)估指標(biāo)為AUC=0.3×AUC1+0.3×AUC2+0.4×AUC3,并且提供有/無(wú)標(biāo)簽數(shù)據(jù)樣本,可以使用監(jiān)督與半監(jiān)督方法綜合預(yù)測(cè)用戶的信用風(fēng)險(xiǎn)概率。
4 數(shù)據(jù)清洗與處理
4.1 缺失值分析
根據(jù)數(shù)據(jù)介紹,x變量的缺失值統(tǒng)一以-99表示,我們首先對(duì)每個(gè)x特征變量,在列方向上進(jìn)行缺失值的個(gè)數(shù)統(tǒng)計(jì),從而轉(zhuǎn)化為缺失率。缺失率的大小可以表明某個(gè)特征缺失是否嚴(yán)重及嚴(yán)重程度。以train_set為例,從圖2中可以更加直觀地看出,有較多的特征缺失率高達(dá)100%,說(shuō)明這些特征缺失嚴(yán)重,可能會(huì)對(duì)模型預(yù)測(cè)帶來(lái)干擾。
4.2 缺失值處理
根據(jù)上面的分析,幾乎所有數(shù)據(jù)都存在缺失值-99。一般處理缺失值的方法有中位數(shù)、平均數(shù)、眾數(shù)填充等操作。在對(duì)變量進(jìn)行填充之前,根據(jù)每個(gè)樣本的缺失值的個(gè)數(shù),對(duì)缺失值進(jìn)行離散化并劃分成7個(gè)區(qū)間引入虛擬變量。
在這里我們針對(duì)數(shù)值型的數(shù)據(jù)利用均值進(jìn)行填充,對(duì)類別型的數(shù)據(jù)引入啞元變量,并對(duì)填充完的數(shù)據(jù)進(jìn)行歸一化處理。圖3以x_81為例,可以看到均值填充后進(jìn)行歸一化的結(jié)果。
5 特征選取
一般而言,常見(jiàn)的特征選擇方法有如下3種:一是過(guò)濾式選擇,即通過(guò)相關(guān)系數(shù)、卡方檢驗(yàn)、信息增益等篩選特征;二是包裹式選擇,是通過(guò)迭代特征,利用學(xué)習(xí)器的性能評(píng)估進(jìn)行選擇;三是嵌入式選擇,特點(diǎn)是利用學(xué)習(xí)器自動(dòng)選擇特征,包括正則化、基于樹(shù)模型選擇。
通過(guò)運(yùn)用隨機(jī)森林的方法對(duì)157個(gè)特征進(jìn)行了重要性的排序,我們從中選取TOP25作為模型的特征,各個(gè)特征的重要性如圖4所示。
6 模型選擇與評(píng)估
6.1 降維與不降維結(jié)果比較分析
本文的數(shù)據(jù)建模方法主要有Logistic回歸、決策樹(shù)、Adaboost、GradientBoosting 4個(gè)模型。這兩種方式的保留信息會(huì)有所不同,那么通過(guò)模型做出的預(yù)測(cè)結(jié)果肯定有區(qū)別。通過(guò)對(duì)兩者的結(jié)果進(jìn)行比較與分析,如圖5所示,我們發(fā)現(xiàn)不降維的結(jié)果要優(yōu)于降維之后的結(jié)果,所以我們最后決定不刪除任何原始特征,而是使用模型自動(dòng)選擇。這樣做有兩個(gè)考慮,一是特征維度并不高(157維),而且是匿名特征,很難確定具體含義;二是模型自身具有選擇特征的特性,可以更好地表現(xiàn)數(shù)據(jù)。
6.2 模型存在的問(wèn)題
在上述模型中,會(huì)存在不同程度的過(guò)擬合現(xiàn)象(如圖5所示)。
6.3 解決方法
我們將采用5折分層交叉驗(yàn)證及將模型升級(jí)為L(zhǎng)GB模型的方法減輕過(guò)擬合的現(xiàn)象,并且得到的結(jié)果AUC1=0.744 82、AUC2=0.765 77、AUC3=0.842 87、AUC=0.788 7。LGB訓(xùn)練的AUC值明顯高于其他幾個(gè)模型。所以,最終我們選取LGB作為我們的最終模型。
出現(xiàn)過(guò)擬合的原因:一是數(shù)據(jù)可能過(guò)小,容易產(chǎn)生過(guò)擬合;二是模型本身性能可能不理想,那么增加訓(xùn)練數(shù)據(jù)是沒(méi)有效果的。但是相較這兩種原因,我們認(rèn)為前者的可能性更大。
7 結(jié)語(yǔ)
本文將數(shù)據(jù)集隨機(jī)選取70%作為訓(xùn)練集,剩下的30%的數(shù)據(jù)作為驗(yàn)證集,并對(duì)缺失數(shù)據(jù)進(jìn)行均值填充,運(yùn)用多種機(jī)器學(xué)習(xí)方法,以AUC為模型的性能評(píng)價(jià)指標(biāo),由于決策樹(shù)、邏輯斯蒂回歸等模型出現(xiàn)過(guò)擬合現(xiàn)象,所以我們采取五折交叉驗(yàn)證,并改進(jìn)模型引入LGB模型,得到的結(jié)果也是最優(yōu)的,選取LGB模型作為我們最終的模型。
參 考 文 獻(xiàn)
[1] Ekinci A,Erdal H I.An Application on Prediction of Bank Failure in Turkey[J].Iktisat Isletme ve Fi-nans Dergisi,2011,26(298):21-44.
[2]余晨曦,梁瀟.基于支持向量機(jī)的商業(yè)銀行信用風(fēng)險(xiǎn)度量模型[J].計(jì)算機(jī)與數(shù)字工程,2008,36(11):10-14.
[3] 李佳,黃之豪.銀行信用風(fēng)險(xiǎn)預(yù)測(cè)——基于SVM和BP神經(jīng)網(wǎng)絡(luò)的比較研究[J].上海立信會(huì)計(jì)金融學(xué)院學(xué)報(bào),2018(6):40-48.