向玉婷 潘莉
摘 要:近年來網(wǎng)絡借貸業(yè)務競爭激烈,個人信用貸款的風險控制已無法忽視。因此為幫助金融平臺規(guī)避個人不良借貸的信用風險,本文以螞蟻花唄和京東白條為例,運用R軟件,通過建立關于還款理想程度的定序回歸(probit)模型尋找影響還款狀況的顯著因素。研究表明,對數(shù)平均信用額度(累計信用額度/平臺開戶數(shù)),性別,常住地、網(wǎng)絡貸款頻率均為顯著影響因素。并對該模型的預測準確度進行驗證,結果顯示:該定序回歸模型的精確度可以達到67.69%,但該模型對類1,類2的判斷準確率較低。
關鍵詞:個人貸款風險;定序(probit)回歸;還款理想程度模型
1研究背景
隨著網(wǎng)絡金融不斷發(fā)展壯大,網(wǎng)絡借貸作為互聯(lián)網(wǎng)金融的一部分,因其借貸門檻低,放貸速度快的信用貸款模式成為當前市場上小額貸款的首選方式。當前最受追捧的網(wǎng)絡貸款類型當屬網(wǎng)絡信用貸款,例如螞蟻集團的螞蟻花唄、螞蟻借唄,京東金融的京東白條、金條,度小滿金融有錢花等。與傳統(tǒng)貸款發(fā)展相同,網(wǎng)絡小額信用貸款也存在風險控制問題,如逾期還款、不還款、金額套現(xiàn)等。由于很多平臺對個人信用的風險把控不嚴,導致部分資信不良的個人成功借貸,使金融平臺遭受損失。本文針對目前互聯(lián)網(wǎng)金融和個人信用貸款的大背景,欲通過收集用戶基礎信息與歷史借還款狀況信息去構建個人信用貸款風險模型,幫助金融平臺規(guī)避個人不良借貸的信用風險,構建互聯(lián)網(wǎng)金融借貸的優(yōu)質客戶畫像。
2模型構建
2.1數(shù)據(jù)說明及變量選擇
本文數(shù)據(jù)共涉及1個被解釋變量(還款理想程度)和9個解釋變量(性別、常住地、學歷、收入、是否理財、支出、網(wǎng)絡貸款頻率、累計信用額度和平臺開戶數(shù))。
被解釋變量(還款理想程度)共分為三個等級:1-還款理想狀態(tài)-按期最低還款;2-還款較理想狀態(tài)-按期部分還款(還款金額>最低還款金額);3-還款不理想狀態(tài)-按期全還款和逾期還款。
由于被解釋變量為定序變量,為深入挖掘影響還款理想程度的影響因素,本文選擇Probit定序回歸模型進行擬合。
2.2Probit定序回歸模型
定序回歸與傳統(tǒng)的線性模型不同,其因變量為有序的分類變量,比如不合格、合格、優(yōu)秀等。為了方便分析,定義解釋變量為X= (1,X1…,Xp)^',其中p是解釋變量個數(shù),相應的回歸系數(shù)記作β=(β0,β1…,βp)' ,其中 是截距項。由于因變量Y是一個分類變量,為離散型的定性指標,定序回歸模型直接定義為Y= X'β+ε是不合適的,這時考慮潛變量Z,幫助將定序數(shù)據(jù)模型表達出來:
其中, ci? (i=1,2,3,4)是未知的閾值,Z是一個連續(xù)變量,假設Z服從標準正態(tài)分布,可以計算出Y在各個取值下的條件概率,此時將等號左邊因變量Y映射為[0,1]區(qū)間的連續(xù)概率值,等式就可以構成如下模型:
k表示不同Y的取值,取值為1,2,3…, 表示截距項,i,j均為正整數(shù)。 Ф(.) 代表Probit回歸模型。同簡單的0-1型Probit回歸一樣,對定序Probit回歸而言,也是采用極大似然準則進行對被解釋變量的估計。
在自變量的選取過程中,全模型的構造不會剔除變量,可能會導致模型的自變量過多或存在不顯著因素,導致模型精度降低。而AIC準則可以有效防止模型復雜度過高,在保證模型精度的前提下篩選出最優(yōu)子集,使擬合精度與位置參數(shù)個數(shù)實現(xiàn)最優(yōu)化配置。
2.3AIC信息準則(Akaike Information Criterion)
AIC準則是由日本統(tǒng)計學家赤池弘次(Akaike)在1974年提出,AIC全稱是最小信息準則(An Information Criterion),它建立在熵的概念之上,是一種考評綜合最優(yōu)配置的指標,是擬合精度和參數(shù)未知個數(shù)的加權函數(shù):
AIC=-2ln(模型中極大似然函數(shù)值)+2*(模型中未知參數(shù)個數(shù))
3 AIC準則下模型實證分析
本文運用R語言,分別對全模型和AIC、BIC準則下最優(yōu)模型進行試算,最終選擇AIC準則模型進行分析。
AIC準則下模型運行結果如下:
P(還款理想程度<=1)=Ф(-3.789-0.378*對數(shù)支出+0.134*對數(shù)均信用額度+0.343*性別2(女)-0.414*常住地2(鄉(xiāng)村)-0.174網(wǎng)絡貸款頻率2(2~3個月)+0.155*網(wǎng)絡貸款頻率3(半年左右)+0.643*網(wǎng)絡貸款頻率4(偶爾))? ? ? ?(3.1)
P(還款理想程度<=2)= Ф(-2.228-0.378*對數(shù)支出+0.134*對數(shù)均信用額度+0.343*性別2(女)-0.414*常住地2(鄉(xiāng)村)-0.174網(wǎng)絡貸款頻率2(2~3個月)+0.155*網(wǎng)絡貸款頻率3(半年左右)+0.644網(wǎng)絡貸款頻率4(偶爾))? ? ? ? (3.2)
在5%的顯著性水平下,式子(3.1)和(3.2)分別給出了還款理想程度小于等于1及還款理想程度小于等于2的累計概率,由于正態(tài)分布函數(shù)在定義域內單調遞增,因此對式子(3.1)和(3.2)中回歸系數(shù)作簡要的分析如下:
1). 對數(shù)支出:對數(shù)支出的參數(shù)估計系數(shù)為負,說明在給定其他條件相同的情況下,相較于對數(shù)支出低的用戶來說,對數(shù)支出高的用戶,其還款理想程度取值偏小,還款狀況更理想;
2). 對數(shù)均信用額度:對數(shù)均信用額度的參數(shù)估計系數(shù)為正,說明在給定其他條件相同的情況下,相較于對數(shù)均信用額度低的用戶來說,對數(shù)均信用額度越高,還款理想程度取值偏大,還款狀況越不理想;
3). 性別:性別2(女)的參數(shù)估計為正,說明在給定其他條件相同的情況下,相較于男性用戶來說,女性的還款理想程度偏大,還款狀況更不理想;
4). 常住地:常住地為鄉(xiāng)村的參數(shù)估計為負,說明在給定其他條件相同的情況下,相較于常住地為城市用戶來說,常住地為鄉(xiāng)村用戶的還款理想程度偏小,還款狀況更理想;
5). 網(wǎng)絡貸款頻率:網(wǎng)絡貸款頻率(偶爾)的參數(shù)估計系數(shù)為正,說明在給定其他條件相同的情況下,相較于網(wǎng)絡貸款頻率(每月)的用戶來說,網(wǎng)絡貸款頻率(偶爾)的用戶的還款理想程度偏大,還款狀況更不理想。在給定其他條件相同的情況下,對于標準組(網(wǎng)絡貸款頻率—每月),網(wǎng)絡貸款頻率3(2~3個月)和網(wǎng)絡貸款頻率4(半年左右)均不顯著。
4模型預測
根據(jù)模型預測原理,結合R軟件輸出的概率預測值和混淆矩陣整理得到表4-1:
如表4-1所示,類別1的32個樣本中,沒有預測正確的,正確率為0.00%;類別2的143個樣本中,有57個預測正確,正確率為39.86%;類別3的280個樣本中,有251個預測正確,正確率為89.64%;全部455個樣本中,有308個預測準確,準確率為67.69%。由此可知,該模型的總預測準確率中等,對類3預測準確性較高,對類1和類2的預測準確性很低。
5結論及展望
對AIC模型解讀,發(fā)現(xiàn)相較于其他用戶,對數(shù)支出越高、對數(shù)均信用額度越低、男性、網(wǎng)絡貸款頻率為偶爾的用戶的還款狀況更理想,平臺承擔的風險也會更低。同時,通過AIC模型預測結果表明,AIC模型的準確率為67.69%,具有一定的預測能力。預測結果表明,盡管模型AIC對于樣本等級判定具有一定的準確率,但該模型對類1和類2的預測準確度很低,模型準確度有待進一步提高。后期可考慮在模型中加入優(yōu)勢比(OR)概念,計算優(yōu)勢比(OR),明確每增加一個單位X,對于Y變化幅度的影響,更好的解讀模型。
參考文獻:
[1] 陳春香.淺論商業(yè)銀行個人消費貸款風險管理[J].經(jīng)濟視角,2019(10):61-63.
[2] 王漢生,成慧敏.商務數(shù)據(jù)分析與應用——基于R[M].北京:中國人民大學出版社,2020:160-215.
[3] 范欣欣,陳立明,許軍.公務員亞健康狀況影響因素的有序多分類Logistic回歸分析[J].中國衛(wèi)生統(tǒng)計.2017(05):770-773.
作者簡介:
[1]向玉婷,成都信息工程大學統(tǒng)計學院學生
[2]潘莉,成都信息工程大學統(tǒng)計學院講師,碩士;研究方向:金融數(shù)量分析。