阮素梅 周澤林
(安徽財(cái)經(jīng)大學(xué)1.金融學(xué)院 2.安徽經(jīng)濟(jì)社會(huì)發(fā)展研究院, 安徽 蚌埠 233000)
P2P網(wǎng)絡(luò)借貸能夠緩解資金供求雙方的矛盾,然而貸款人信息的高度不對稱性加大了貸款違約風(fēng)險(xiǎn)。大數(shù)據(jù)環(huán)境下,建立合理、準(zhǔn)確的信用評(píng)估體系,有助于信貸機(jī)構(gòu)對貸款人的信用評(píng)測,能夠?yàn)榭刂七`約發(fā)生的誘導(dǎo)因素提供決策參考,對于實(shí)現(xiàn)網(wǎng)絡(luò)借貸平臺(tái)平穩(wěn)運(yùn)行等具有重要意義。
經(jīng)典的信用評(píng)估模型主要使用統(tǒng)計(jì)分析方法,例如Z-Score模型(Altman,1968)、ZETA模型(Altman et al.,1977)和Logit模型(Laitinen,1999)。這三種信用評(píng)估模型的核心理念在于建立信用水平及其影響因素之間的聯(lián)系,進(jìn)而實(shí)現(xiàn)信用狀態(tài)的準(zhǔn)確評(píng)估。這類方法發(fā)展時(shí)間較長,技術(shù)相對成熟,應(yīng)用范圍也最為廣泛,前兩種主要使用線性模型設(shè)計(jì),第三種使用非線性的Logistic轉(zhuǎn)換。吳世農(nóng)等(2001)應(yīng)用剖面分析和單變量分析,選定6個(gè)財(cái)務(wù)指標(biāo),應(yīng)用Fisher判定分析、多元線性回歸分析和Logit回歸分析三種方法分別建立三種預(yù)測財(cái)務(wù)困境模型。Davis et al. (2008)與寧澤逵等(2016)主張Logit回歸是全球早期預(yù)警系統(tǒng)和信號(hào)識(shí)別的最適當(dāng)方法。韓立巖等(2010)運(yùn)用主成分分析與Logit回歸結(jié)合,建立國內(nèi)外中小上市公司財(cái)務(wù)危機(jī)判別模型。王君萍等(2015)以我國能源上市企業(yè)為研究對象,進(jìn)行指標(biāo)選取和運(yùn)用Logit回歸構(gòu)建預(yù)警模型。董曉林等(2017)基于二元選擇Logit模型,研究城鄉(xiāng)家庭金融資產(chǎn)選擇問題。
為改進(jìn)經(jīng)典信用評(píng)估方法的模型誤設(shè)缺陷以及對非線性處理能力的不足,機(jī)器學(xué)習(xí)領(lǐng)域的方法(主要有神經(jīng)網(wǎng)絡(luò)、支持向量機(jī))被引入信用評(píng)估領(lǐng)域。在使用神經(jīng)網(wǎng)絡(luò)進(jìn)行信用評(píng)估研究方面,代表性的文獻(xiàn)有Desai et al. (1996)、王春峰等(1999)、Baesens et al. (2003)、Abdou et al.(2008)、Angelini et al.(2008)等。在使用支持向量機(jī)進(jìn)行信用評(píng)估研究方面,代表性的文獻(xiàn)有Baesens et al. (2003)、李建平等(2004)、Bellotti et al. (2009)、Yu et al. (2011)、余樂安(2012)、陳為民等(2012)、Harris(2013)、Xiao et al.(2017)等。實(shí)證研究表明基于機(jī)器學(xué)習(xí)方法的信用評(píng)估效果要優(yōu)于其他方法,陳詩一(2008)、劉玉敏等(2016)、Hajek et al. (2017)等均發(fā)現(xiàn)向量機(jī)方法的預(yù)測準(zhǔn)確度比Logit模型有明顯改進(jìn),但并不總是最優(yōu)。
信用評(píng)估實(shí)踐的發(fā)展,積累了更多的影響因素,形成了高維數(shù)據(jù)(或稱高維變量),需要從冗余變量中甄別出特征變量。以逐步回歸為代表的子集變量選擇法,需要進(jìn)行多次重復(fù)計(jì)算操作,當(dāng)數(shù)據(jù)變量眾多時(shí),該方法往往就不適用了(Breiman,1995;孫燕,2012)。Tibshirani(1996)提出的LASSO(Least Absolute Shrinkage and Selection Operator)回歸,不僅能夠進(jìn)行變量選擇,而且能夠同時(shí)得到高維數(shù)據(jù)均值回歸模型估計(jì)結(jié)果。有研究將高維數(shù)據(jù)回歸分析方法引入信用評(píng)估領(lǐng)域,Perederiy(2009)、Koopman et al. (2011)、Amendola et al. (2012)、方匡南等(2014)分別使用LASSO方法進(jìn)行高維變量選擇與特征提取,建立信用評(píng)估模型。
自2012年以來,我國互聯(lián)網(wǎng)金融蓬勃發(fā)展,對于小微企業(yè)融資具有重要意義(安寶洋,2014;Xu,2017)。皮天雷等(2014)、BenSa?da et al.(2017)、Zhang et al.(2017)等認(rèn)為,P2P網(wǎng)絡(luò)借貸作為互聯(lián)網(wǎng)金融創(chuàng)新的典型代表,能夠顯著提高資金配置效率。在P2P市場中,日常用戶活躍度高、交易量大,產(chǎn)生了大量的信用數(shù)據(jù),具有典型大樣本與高維特征,為信用評(píng)估模型開發(fā)帶來了機(jī)遇與挑戰(zhàn)(Serrano-Cinca et al.,2016;Blasco et al.,2017)。可以說,在信用評(píng)估領(lǐng)域,機(jī)器學(xué)習(xí)方法在模型的預(yù)測準(zhǔn)確度方面已表現(xiàn)得很優(yōu)越,并得到較高的認(rèn)可度,但其缺點(diǎn)在于大多數(shù)模型采用復(fù)雜的非線性作用機(jī)制,既難以識(shí)別關(guān)鍵風(fēng)險(xiǎn)因子,也不便于管理者直觀理解其經(jīng)濟(jì)含義。經(jīng)典信用評(píng)估模型(如Logit模型)可能在預(yù)測精度方面不如機(jī)器學(xué)習(xí)模型,但可以清晰地表達(dá)各因子對信用狀態(tài)的(轉(zhuǎn)換后)線性影響與邊際貢獻(xiàn),既能夠進(jìn)行風(fēng)險(xiǎn)預(yù)測,又有助于進(jìn)行風(fēng)險(xiǎn)控制(蔣翠俠 等,2017)。因此,可以在經(jīng)典信用評(píng)估模型基礎(chǔ)上,進(jìn)一步考慮模型的變量選擇能力,提高其預(yù)測精度,解決P2P借貸中違約識(shí)別與預(yù)測這兩個(gè)關(guān)鍵問題。
為此,本文將L1懲罰Logit模型應(yīng)用于P2P網(wǎng)絡(luò)借貸信用違約分析,一方面通過LASSO的變量選擇功能,從眾多影響因素中篩選出關(guān)鍵因素;另一方面,通過Logit模型,分析P2P網(wǎng)絡(luò)借貸信用違約行為。利用拍拍貸的信用數(shù)據(jù),實(shí)證檢驗(yàn)了L1懲罰Logit模型效果,發(fā)現(xiàn)其能夠很好地適應(yīng)拍拍貸信用數(shù)據(jù)特征,揭示拍拍貸市場中信用行為與規(guī)律。本文的數(shù)值模擬結(jié)果與實(shí)證結(jié)果都表明:L1懲罰Logit模型具有很好的變量選擇與預(yù)測功能,能夠得到比其他模型(支持向量機(jī)模型、普通Logit模型)更好的預(yù)測效果,可以準(zhǔn)確預(yù)測信用違約風(fēng)險(xiǎn);而且能夠識(shí)別信用違約的關(guān)鍵影響因素,細(xì)致地刻畫各關(guān)鍵影響因素對違約概率帶來的影響,可以為風(fēng)險(xiǎn)控制提供決策依據(jù)。
在LASSO方法中,由于使用了絕對值懲罰(也稱L1懲罰),能夠?qū)崿F(xiàn)變量選擇。LASSO方法既可以和線性回歸相結(jié)合,用于解決連續(xù)型變量的預(yù)測問題;也可以和Logit回歸相結(jié)合,用于解決離散變量的分類問題。為此,可以將LASSO思想與Logit模型相結(jié)合,建立L1懲罰Logit模型,并將其應(yīng)用于信用違約分析。
1.模型表示與估計(jì)
設(shè)第i個(gè)樣本觀測記為(x1i,x2i,…,xki,yi),其中:xi=(x1i,x2i,…,xki)為由解釋變量組成的設(shè)計(jì)矩陣;yi為可觀測的二元響應(yīng)變量,取值為1或0,分別表示違約與非違約兩種信用狀態(tài)。標(biāo)準(zhǔn)的二元選擇模型:
(1)
其中:i=1,…,n;y*i為不可觀測的潛變量;εi為隨機(jī)擾動(dòng)項(xiàng);β為k×1維待估計(jì)參數(shù)向量,可以通過下式求解:
(2)
(3)
將LASSO變量選擇思想融入二元選擇分位數(shù)回歸,即在式(2)中增加L1懲罰函數(shù),得到:
(4)
其中:λ||β||1即為懲罰函數(shù);||β||
1為β的向量1-范數(shù);λ≥0為懲罰參數(shù),取值越大,懲罰力度越大,取值越小,懲罰力度越小。模型的參數(shù)估計(jì),可以采取Efron et al. (2004)提出的LARS算法。
2.懲罰參數(shù)選擇
L1懲罰Logit模型的變量選擇,關(guān)鍵在于懲罰參數(shù)λ的選取,常用方法有Bootstrap、交叉驗(yàn)證(Cross Validation,CV)等,本文采用10-折交叉驗(yàn)證(CV)方法確定懲罰參數(shù)λ的值,其具體算法如下:
(5)
(6)
1.混淆矩陣
在兩分類問題中,預(yù)測結(jié)果存在四種情形,詳見表 1所示的混淆矩陣。通過混淆矩陣,能夠容易得出一個(gè)模型的正確率為(a+c)/(a+b+c+d),第Ⅰ類錯(cuò)誤率b/(a+b)和第Ⅱ類錯(cuò)誤率d/(d+c),從而合理地評(píng)價(jià)模型效果。
表1 混淆矩陣
2.ROC曲線與AUC值
ROC曲線是根據(jù)截?cái)嘀档淖兓L制出的一條曲線,每一個(gè)截?cái)嘀祵?yīng)于曲線上的一個(gè)點(diǎn),其縱坐標(biāo)為真陽性率(TPR),橫坐標(biāo)為假陽性率(FPR)。對于不同的分類模型,性能優(yōu)者ROC曲線更接近左上角。在ROC曲線基礎(chǔ)上,由ROC曲線下方區(qū)域的面積,得到AUC(Area Under ROC Curve)值,定義如下:
(7)
其中,TPR(FPR)表示擊中率是誤報(bào)率的一個(gè)函數(shù),實(shí)際上就是ROC曲線?,F(xiàn)實(shí)中,隨機(jī)分類器所得AUC=0.5;完美分類器所得AUC=0.1;一般的分類器的AUC值介于0.5到1之間。AUC值越接近于1,說明診斷效果越好:AUC值在0.5~0.7時(shí),有較低準(zhǔn)確性;在0.7~0.9時(shí),有一定準(zhǔn)確性;在0.9以上時(shí),有較高準(zhǔn)確性。此外,AUC<0.5不符合真實(shí)情況,在實(shí)際中極少出現(xiàn)。
為檢驗(yàn)L1懲罰Logit模型的變量選擇能力與預(yù)測效果,進(jìn)行Monte Carlo模擬。參考Tibshirani(1996)的“Example 4”,設(shè)計(jì)40個(gè)解釋變量且任意兩個(gè)解釋變量xj與xk之間的相關(guān)系數(shù)為ρ|j-k|;回歸系數(shù)β=(0,0,…,0,2,2,…,2,0,0,…,0,2,2,…,2)′,即連續(xù)10個(gè)0、連續(xù)10個(gè)2,反映解釋變量對響應(yīng)變量的影響程度。在式(1)基礎(chǔ)上,設(shè)計(jì)響應(yīng)變量生成機(jī)制,將式(1)改寫為:
(8)
其中:εi~iidN(0,1),i=1,2,…,N。解釋變量X=(x1,x2,…,x40)′來自一個(gè)多元標(biāo)準(zhǔn)正態(tài)分布,取ρ=0.5,代表中等相關(guān)程度;σ=15,表示信號(hào)噪音比約為9.0。
實(shí)驗(yàn)中,設(shè)置樣本量N=200,隨機(jī)地取其中的100個(gè)樣本用于模型估計(jì),余下的100個(gè)樣本用于模型預(yù)測。重復(fù)上述過程B=500次,變量選擇結(jié)果見表2;記錄下AUC、正確率和運(yùn)行時(shí)間三個(gè)指標(biāo)的均值與及標(biāo)準(zhǔn)差,結(jié)果見表3。實(shí)驗(yàn)的硬件配置為雙處理器 Inter Xeon E5-2630L(六核,2.1GMHz)和 32GB 內(nèi)存;軟件配置為64位R 3.4.2。
由表2可知:無論是支持向量機(jī)模型還是普通Logit模型,都沒有變量選擇功能,始終選中沒有貢獻(xiàn)的變量x1,x2,…,x10與x21,x22,…,x30。L1懲罰Logit模型很好地實(shí)現(xiàn)了變量選擇,不但能夠?qū)⒋嬖陲@著作用的變量x11,x12,…,x20與x31,x32,…,x40全部選中,而且能夠?qū)]有貢獻(xiàn)的變量x1,x2,…,x10與x21,x22,…,x30進(jìn)行刪除,錯(cuò)誤率僅為0.2%、…、0.4%與0.2%等,不超過0.4%。因此,L1懲罰Logit模型具有很好的變量選擇能力。此外,就運(yùn)行時(shí)間而言,普通Logit模型平均耗時(shí)最短,運(yùn)行速度最快;其次為L1懲罰Logit模型;支持向量機(jī)模型則耗時(shí)較多。
表2 變量選擇結(jié)果與運(yùn)行時(shí)間
注:在變量選擇結(jié)果中,數(shù)值大小表示在500次重復(fù)中變量被選中的次數(shù);在運(yùn)行時(shí)間結(jié)果中,均值表示500次重復(fù)中平均運(yùn)行時(shí)間,標(biāo)準(zhǔn)差為運(yùn)行時(shí)間標(biāo)準(zhǔn)差大?。黄胀↙ogit模型無需設(shè)置參數(shù),L1懲罰Logit模型與支持向量機(jī)模型通過交叉驗(yàn)證選取了最優(yōu)超參數(shù)(L1懲罰Logit模型中的懲罰參數(shù)和支持向量機(jī)模型中的核函數(shù)參數(shù))。
表3 模型預(yù)測結(jié)果
由表3可知:就標(biāo)準(zhǔn)差大小而言,各模型都取得了穩(wěn)定的預(yù)測結(jié)果。就均值而言,從正確率指標(biāo)來看,L1懲罰Logit模型和支持向量機(jī)模型均取得了較好的結(jié)果,都優(yōu)于普通Logit模型。從AUC指標(biāo)來看,其均值水平都低于正確率指標(biāo),表明AUC指標(biāo)是一個(gè)更為嚴(yán)苛的評(píng)價(jià)指標(biāo)。實(shí)驗(yàn)結(jié)果表明,L1懲罰Logit模型的AUC均值明顯優(yōu)于普通Logit模型和支持向量機(jī)模型,表現(xiàn)出更為強(qiáng)大的預(yù)測能力。
綜合表2和表3的結(jié)果,可以得到:L1懲罰Logit模型不但具有很好的變量選擇能力,而且能夠得到比較理想的預(yù)測效果。
本文的實(shí)證研究數(shù)據(jù)來源于科賽網(wǎng)(http://www.kesci.com)提供的拍拍貸公開脫敏數(shù)據(jù),樣本區(qū)間為2010年2月—2015年6月。原始數(shù)據(jù)中部分變量的數(shù)據(jù)缺失比例很高,這里刪除了缺失比例超過10%的變量。經(jīng)過數(shù)據(jù)清洗(刪除缺失數(shù)據(jù)、數(shù)據(jù)匹配等),得到有效樣本量9913。表 4列出了所有14個(gè)變量,其中:賬戶狀態(tài)(status)為響應(yīng)變量,取值為結(jié)清(212)、正常(246)、逾期(9455),占比分別為2.14%、2.48%和95.38%;其余13個(gè)變量為解釋變量。
表4 變量說明
這里,通過比例型立聯(lián)表分析,初步查看貸款狀態(tài)與教育程度、性別、婚姻狀態(tài)之間的關(guān)系。
表5 貸款狀態(tài)與教育的立聯(lián)表分析
注:這里對原始數(shù)據(jù)的教育程度進(jìn)行相應(yīng)的歸并,得到五個(gè)等級(jí)的教育水平:研究生、大學(xué)本科、大學(xué)???、中學(xué)、小學(xué)及以下。
由表5可以看出,教育程度越高,結(jié)清比例越高,逾期比例越低;反之,則反是。如“小學(xué)及以下”信貸客戶,其結(jié)清比例僅為1.96%(比“研究生”低近6個(gè)百分點(diǎn)),更多處于逾期狀態(tài),為96.27%(比“研究生”高近5個(gè)百分點(diǎn)),這意味著學(xué)歷越高會(huì)越傾向于結(jié)清貸款??ǚ綑z驗(yàn)結(jié)果(χ-squared=174.88,p-value=0.0004)表明,教育與貸款狀態(tài)之間存在顯著的關(guān)聯(lián)關(guān)系。
表6 貸款狀態(tài)與性別的立聯(lián)表分析
由表6可以看出,與男性相比,女性結(jié)清比例要高出1.5個(gè)百分點(diǎn),逾期比例要低近2個(gè)百分點(diǎn),表明女性客戶更傾向于結(jié)清貸款。卡方檢驗(yàn)結(jié)果(χ-squared=21.283,p-value=0.0009)表明,性別與貸款狀態(tài)之間存在顯著的關(guān)聯(lián)關(guān)系。
由表7可以看出,在已婚狀態(tài)下,結(jié)清比例最高,逾期比例最低;在喪偶狀態(tài)下,結(jié)清比例較低(比已婚狀態(tài)低近6個(gè)百分點(diǎn)),而逾期比例較高(比已婚狀態(tài)高7個(gè)百分點(diǎn)以上),意味著婚姻狀況越穩(wěn)定越傾向于結(jié)清貸款??ǚ綑z驗(yàn)結(jié)果(χ-squared=308.98,p-value=0.0005)表明,婚姻狀態(tài)與貸款狀態(tài)之間存在顯著的關(guān)聯(lián)關(guān)系。
表7 貸款狀態(tài)與婚姻狀況的立聯(lián)表分析
1.變量選擇與模型估計(jì)
首先,為了適應(yīng)兩分類討論,本文將“逾期”視為違約,將“結(jié)清” 、“正?!币暈榉沁`約。
圖1 交叉驗(yàn)證與選擇過程
注:這里對原始數(shù)據(jù)的職業(yè)變量進(jìn)行相應(yīng)的歸并,得到三個(gè)等級(jí)的職業(yè)水平:國家機(jī)關(guān)、黨群組織、企業(yè)、事業(yè)單位負(fù)責(zé)人,專業(yè)技術(shù)人員及其他。
其次,通過交叉驗(yàn)證,對L1懲罰Logit模型參數(shù)進(jìn)行選擇,結(jié)果見圖 1所示。根據(jù)Tibshirani(1996)的建議:在模型偏差相差不大的基礎(chǔ)上,盡量獲得相對比較重要的變量,使壓縮程度最大,即獲得的變量數(shù)目盡量少。為此,本文選取圖 1中右側(cè)虛線對應(yīng)的值,得到模型解釋變量系數(shù)有5個(gè)不為0,詳見表 8。這樣,管理者可以將主要精力集中到這5個(gè)變量上來,防范信用違約風(fēng)險(xiǎn),極大地減少了從全部13個(gè)變量出發(fā)實(shí)施監(jiān)管方案帶來的管理成本。
最后,估計(jì)L1懲罰Logit模型選中變量的系數(shù),詳見表8。在存在顯著影響的5個(gè)變量中,包含性別、學(xué)歷與婚姻狀態(tài)三個(gè)變量,與立聯(lián)表所得結(jié)果一致。另外,在這5個(gè)變量中,性別、學(xué)歷、婚姻狀況、職業(yè)等對信用違約存在反向影響,而授信額度對信用違約存在正向影響。事實(shí)上,這一結(jié)果有較強(qiáng)的作用機(jī)理。例如學(xué)歷越高,其還款能力越強(qiáng),且還款意愿越強(qiáng)烈,最終違約可能性降低,因此呈現(xiàn)反向作用;授信額度越高,可能導(dǎo)致按時(shí)足額還款困難,最終違約可能性提高,因此存在正向影響。
2.模型性能比較
為了評(píng)價(jià)L1懲罰Logit模型的性能,將其與Logit模型、支持向量機(jī)模型(SVM)進(jìn)行比較。利用上文描述的標(biāo)準(zhǔn)數(shù)據(jù)集,從中隨機(jī)抽取75%數(shù)據(jù)作為訓(xùn)練集,剩下的25%作為測試集,分別使用上述模型與方法運(yùn)行100次,記錄下正確率、第Ⅰ類錯(cuò)誤率、第Ⅱ類錯(cuò)誤率、AUC值,進(jìn)而統(tǒng)計(jì)出100次中其對應(yīng)的均值與及標(biāo)準(zhǔn)差,結(jié)果見表 9。
表9 信用評(píng)價(jià)結(jié)果比較
由表 9可知,無論從模型的正確率,還是第Ⅰ類錯(cuò)誤率或者第Ⅱ類錯(cuò)誤率來考量,L1懲罰Logit模型的結(jié)果都是最優(yōu)的,其次為支持向量機(jī)模型,最后為普通Logit模型。與其他兩個(gè)模型相比,L1懲罰Logit模型具有更高的正確率和更低的錯(cuò)誤率,特別是將Ⅰ類錯(cuò)誤率降低近66%。不僅如此,L1懲罰Logit模型所得結(jié)果的標(biāo)準(zhǔn)差更小,意味著該模型具有更好的穩(wěn)健性。當(dāng)然,由于本文的數(shù)據(jù)集是一個(gè)典型的非平衡分類,正確率往往難以奏效,需要進(jìn)一步觀察其AUC值。AUC的評(píng)價(jià)結(jié)果表明,L1懲罰Logit模型的性能最優(yōu),比普通Logit模型提升13.87%,比支持向量機(jī)模型提升16.02%。究其原因,可能在于:L1懲罰Logit模型通過變量選擇功能,將一些干擾變量的系數(shù)壓縮為0,避免了一些冗余信息的干擾,提升了模型的預(yù)測性能。
綜合來看,L1懲罰Logit模型在處理高維、非均衡數(shù)據(jù)時(shí),表現(xiàn)出很好的效果:第一,選擇出重要變量,對于控制信用違約發(fā)生具有重要決策參考意義;第二,能夠得到更好的分類預(yù)測結(jié)果,提高了AUC等性能。
3.違約概率預(yù)測
鑒于L1懲罰Logit模型的優(yōu)良表現(xiàn),進(jìn)一步使用其進(jìn)行違約概率預(yù)測。在L1懲罰Logit模型篩選出的五個(gè)關(guān)鍵影響因素中,性別、學(xué)歷、婚姻狀況、職業(yè)等為分類變量,授信額度為連續(xù)變量(經(jīng)過了自然對數(shù)變換)。為此,考慮如下四種類型的變量組合:(1)性別+授信額度;(2)學(xué)歷+授信額度;(3)婚姻狀況+授信額度;(4)職業(yè)+授信額度。在每一組合中,性別、學(xué)歷、婚姻狀況、職業(yè)等分類變量取各自的離散值,授信額度的取值按照從低到高依次等間隔選取500個(gè),將其取值結(jié)果代入L1懲罰Logit模型中,可以預(yù)測出信用違約概率變動(dòng)情況,分別見圖2~圖5。
由圖2~圖5可知,授信額度是違約的重要影響因素,且隨著授信額度的增加,違約發(fā)生概率在不斷增加,這與表8授信額度回歸系數(shù)為正的結(jié)果一致。在圖2中,男性的違約概率曲線始終位于女性的上方,表明在相同的授信額度情況下男性違約概率要大于女性,這與表8中性別回歸系數(shù)為負(fù)以及表6中立聯(lián)表分析結(jié)果一致。圖3清晰地顯示了不同學(xué)歷在違約概率上的差異,可以發(fā)現(xiàn):學(xué)歷水平越高,違約可能性越低;反之,則反是。不過,違約概率在學(xué)歷水平上的差異將被授信額度所替代,例如在授信額度達(dá)到12(原始值為162754)之后,不同學(xué)歷群體的違約概率近乎相同。圖4所得結(jié)果與圖3類似,違約概率預(yù)測結(jié)果表明,婚姻狀態(tài)越穩(wěn)定,違約可能性越低,并且這一差距也被授信額度所替代。圖5的表現(xiàn)與圖2類似,國家機(jī)關(guān)等單位負(fù)責(zé)人、專業(yè)技術(shù)人員及其他三類群體在違約表現(xiàn)上存在著顯著差異,其違約可能性依次遞增,并且這一差異沒有被授信額度所取代。這一結(jié)果意味著,無論在多高的授信額度下,國家機(jī)關(guān)等單位負(fù)責(zé)人的違約概率都是最低的,比專業(yè)技術(shù)人員和其他人員分別低約3%和7%。
圖2基于性別+授信額度的違約概率預(yù)測
圖3基于學(xué)歷+授信額度的違約概率預(yù)測
圖4基于婚姻狀況+授信額度的違約概率預(yù)測
圖5基于職業(yè)+授信額度的違約概率預(yù)測
金融理論與實(shí)踐的迅速發(fā)展,積累了越來越多的金融大數(shù)據(jù),表現(xiàn)出非均衡、非線性、高維等典型特征,為實(shí)現(xiàn)準(zhǔn)確的信用評(píng)價(jià)帶來了機(jī)遇與挑戰(zhàn)。本文以P2P網(wǎng)絡(luò)借貸為對象,研究其信用違約行為??紤]到P2P網(wǎng)絡(luò)借貸中信用數(shù)據(jù)特征,本文將L1懲罰Logit模型應(yīng)用于信用違約識(shí)別與預(yù)測,取得了一些實(shí)證結(jié)果,總結(jié)如下:
第一,L1懲罰Logit模型具有很好的變量選擇功能與預(yù)測能力。通過Monte Carlo數(shù)值模擬,將L1懲罰Logit模型與普通Logit模型、支持向量機(jī)模型進(jìn)行了對比。數(shù)值結(jié)果表明:在變量選擇方面,L1懲罰Logit模型變量選擇錯(cuò)誤率僅為0.2%~0.4%,而普通Logit模型與支持向量機(jī)模型則不具備變量選擇功能;在模型預(yù)測方面,L1懲罰Logit模型獲得了更高的正確率和AUC值,預(yù)測能力更強(qiáng);在運(yùn)行時(shí)間方面,L1懲罰Logit模型稍遜于普通Logit模型,但優(yōu)于支持向量機(jī)模型。
第二,L1懲罰Logit模型的變量選擇功能和回歸系數(shù)估計(jì),克服了支持向量機(jī)等智能模型黑箱操作的弊端,增強(qiáng)了模型的解釋性。通過變量選擇功能識(shí)別出影響信用違約的關(guān)鍵指標(biāo),依據(jù)模型估計(jì)變量系數(shù)的正負(fù)來抑制或是促進(jìn)相應(yīng)信用特征以完成對風(fēng)險(xiǎn)的有效控制。例如學(xué)歷的回歸系數(shù)為負(fù),意味著學(xué)歷越高,信用違約可能性越低。從而可以通過提高學(xué)歷(信貸對象為高學(xué)歷者)的方式,降低P2P網(wǎng)絡(luò)借貸信用違約風(fēng)險(xiǎn)。
第三,L1懲罰Logit模型提升了普通Logit模型的分類性能,能夠得到更加準(zhǔn)確、穩(wěn)健的分類預(yù)測結(jié)果。本文的實(shí)證結(jié)果表明,L1懲罰Logit模型不僅能夠顯著地提升預(yù)測準(zhǔn)確性(比普通Logit模型提升13.87%,比支持向量機(jī)模型提升16.02%),而且能夠顯著地降低第Ⅰ類錯(cuò)誤率與第II類錯(cuò)誤率,特別是將Ⅰ類錯(cuò)誤率降低近66%,控制在6.4%的極佳水平。
第四,L1懲罰Logit模型能夠細(xì)致分析關(guān)鍵影響因素對違約概率造成的影響。本文考慮了性別+授信額度、學(xué)歷+授信額度、婚姻狀況+授信額度、職業(yè)+授信額度等四種類型的變量組合,研究其對違約概率帶來的影響,既有助于理解信用違約行為及其發(fā)展規(guī)律,預(yù)測信用違約的發(fā)生;也可以實(shí)現(xiàn)情景模擬,制訂相應(yīng)政策組合,控制信用違約的發(fā)生。
總之,L1懲罰Logit模型不但具有很好的預(yù)測能力,提升了經(jīng)典信用評(píng)估模型的性能,而且具有很好的解釋能力,改進(jìn)了大多數(shù)機(jī)器學(xué)習(xí)模型復(fù)雜非線性作用機(jī)制難以直觀理解的不足。一方面,L1懲罰Logit模型通過變量選擇功能,可以有效地識(shí)別影響信用違約的關(guān)鍵因素,降低了管理者的監(jiān)管成本;另一方面,L1懲罰Logit模型通過概率預(yù)測,既能夠從總體上實(shí)現(xiàn)對信用違約狀態(tài)的準(zhǔn)確預(yù)測,又能夠細(xì)致分析關(guān)鍵影響因素對違約概率造成的影響,有助于預(yù)測和控制信用違約的發(fā)生。
安寶洋. 2014. 互聯(lián)網(wǎng)金融下科技型小微企業(yè)的融資創(chuàng)新[J]. 財(cái)經(jīng)科學(xué)(10):1-8.
陳詩一. 2008. 德國公司違約概率預(yù)測及其對我國信用風(fēng)險(xiǎn)管理的啟示[J]. 金融研究(8):53-71.
陳為民,張小勇,馬超群. 2012. 基于數(shù)據(jù)挖掘的持卡人信用風(fēng)險(xiǎn)管理研究[J]. 財(cái)經(jīng)理論與實(shí)踐(5):36-40.
董曉林,于文平,朱敏杰. 2017. 不同信息渠道下城鄉(xiāng)家庭金融市場參與及資產(chǎn)選擇行為研究[J]. 財(cái)貿(mào)研究(4):33-42.
方匡南,章貴軍,張惠穎. 2014. 基于Lasso-Logistic模型的個(gè)人信用風(fēng)險(xiǎn)預(yù)警方法[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究(2):125-136.
韓立巖,李蕾. 2010. 中小上市公司財(cái)務(wù)危機(jī)判別模型研究[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究(8):102-115.
蔣翠俠,黃韻華,許啟發(fā). 2017. 基于Lasso二元選擇分位數(shù)回歸的上市公司信用評(píng)估[J]. 系統(tǒng)工程(2):16-24.
李建平,徐偉宣,劉京禮,等. 2004. 消費(fèi)者信用評(píng)估中支持向量機(jī)方法研究[J]. 系統(tǒng)工程(10):35-39.
劉玉敏,劉莉,任廣乾. 2016. 基于非財(cái)務(wù)指標(biāo)的上市公司財(cái)務(wù)預(yù)警研究[J]. 商業(yè)研究(10):87-92.
寧澤逵,寧攸涼. 2016. 區(qū)位、非農(nóng)就業(yè)對中國家庭農(nóng)業(yè)代際傳承的影響:基于陜西留守農(nóng)民的調(diào)查[J]. 財(cái)貿(mào)研究(2):75-84.
皮天雷,趙鐵. 2014. 互聯(lián)網(wǎng)金融:邏輯、比較與機(jī)制[J]. 中國經(jīng)濟(jì)問題(4): 98-108.
孫燕. 2012. 隨機(jī)效應(yīng)Logit計(jì)量模型的自適應(yīng)Lasso變量選擇方法研究:基于Gauss-Hermite積分的EM算法[J]. 數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究(12):147-157.
王春峰,萬海暉. 1999. 基于神經(jīng)網(wǎng)絡(luò)技術(shù)的商業(yè)銀行信用風(fēng)險(xiǎn)評(píng)估[J]. 系統(tǒng)工程理論與實(shí)踐(9):24-32.
王君萍,白瓊瓊. 2015. 我國能源上市企業(yè)財(cái)務(wù)危機(jī)預(yù)警研究[J]. 經(jīng)濟(jì)問題(1):109-113.
吳世農(nóng),盧賢義. 2001. 我國上市公司財(cái)務(wù)困境的預(yù)測模型研究[J]. 經(jīng)濟(jì)研究(6):46-55.
余樂安. 2012. 基于最小二乘近似支持向量回歸模型的電子商務(wù)信用風(fēng)險(xiǎn)預(yù)警[J]. 系統(tǒng)工程理論與實(shí)踐(3):508-514.
ABDOU H, POINTON J, El-MASRY A. 2008. Neural nets versus conventional techniques in credit scoring in Egyptian banking [J]. Expert Systems with Applications, 35(3):1275-1292.
ALTMAN E I. 1968. Financial ratios, discriminant analysis and the prediction of corporate bankruptcy [J]. The Journal of Finance, 23(4):589-609.
ALTMAN E I, HALDEMAN R G, NARAYANAN P. 1977. ZETATM analysis:a new model to identify bankruptcy risk of corporations [J]. Journal of Banking and Finance, 1(1):29-54.
AMENDOLA A, RESTAINO M, SENSINI L. 2012. Dynamic statistical models for corporate failure prediction in Italy [J]. Journal of Modern Accounting and Auditing, 8(8):1214-1224.
ANGELINI E, DI TOLLO G, ROLI A. 2008. A neural network approach for credit risk evaluation [J]. The Quarterly Review of Economics and Finance, 48(4):733-755.
BAESENS B, SETIONO R, MUES C, et al. 2003. Using neural network rule extraction and decision tables for credit-risk evaluation [J]. Management Science, 49(3):312-329.
BELLOTTI T, CROOK J. 2009. Support vector machines for credit scoring and discovery of significant features [J]. Expert Systems with Applications, 36(2):3302-3308.
BENSA?DA A. 2017. Herding effect on idiosyncratic volatility in US industries [J]. Finance Research Letters, 23:121-132.
BLASCO N, CORREDOR P, FERRERUELA S. 2017. Can agents sensitive to cultural, organizational and environmental issues avoid herding [J]. Finance Research Letters, 22:114-121.
BREIMAN L. 1995. Better subset regression using the nonnegative garrote [J]. Technometrics, 37(4):373-384.
DAVIS E P, KARIM D. 2008. Comparing early warning systems for banking crises [J]. Journal of Financial Stability, 4(2):89-120.
DESAI V S, CROOK J N, OVERSTREET G A, Jr. 1996. A comparison of neural networks and linear scoring models in the credit union environment [J]. European Journal of Operational Research, 95(1):24-37.
EFRON B, HASTIE T, JOHNSTONE I, et al. 2004. Least angle regression [J]. Annals of Statistics, 32(2):407-499.
HAJEK P, HENRIQUES R. 2017. Mining corporate annual reports for intelligent detection of financial statement fraud-a comparative study of machine learning methods [J]. Knowledge-Based Systems, 128:139-152.
HARRIS T. 2013. Quantitative credit risk assessment using support vector machines: broad versus narrow default definitions [J]. Expert Systems with Applications, 40(11):4404-4413.
KOOPMAN S J, LUCAS A, SCHWAAB B. 2011. Modeling frailty-correlated defaults using many macroeconomic covariates [J]. Journal of Econometrics, 162(2):312-325.
LAITINEN E K. 1999. Predicting a corporate credit analyst′s risk estimate by logistic and linear models [J]. International Review of Financial Analysis, 8(2):97-121.
SERRANO-CINCA C, GUTIERREZ-NIETO B. 2016. The use of profit scoring as an alternative to credit scoring systems in peer-to-peer (P2P) lending [J]. Decision Support Systems, 89:113-122.
TIBSHIRANI R. 1996. Regression shrinkage and selection via the lasso [J]. Journal of the Royal Statistical Society: Series B, 58(1):267-288.
XIAO J, CAO H, JIANG X, et al. 2017. GMDH-based semi-supervised feature selection for customer classification [J]. Knowledge-Based Systems, 132(Supplement C):236-248.
XU J. 2017. China′s internet finance: a critical review [J]. China & World Economy, 25(4):78-92.
YU L, YAO X, WANG S, et al. 2011. Credit risk evaluation using a weighted least squares SVM classifier with design of experiment for parameter selection [J]. Expert Systems with Applications, 38(12):15392-15399.
ZHANG Z, HUNG K, CHANG T. 2017. P2P Loans and bank loans, the chicken and the egg, what causes what? Further evidence from a bootstrap panel granger causality test [J]. Applied Economics Letters, 24(19):1358-1362.