黎 月
(南京郵電大學經濟學院,南京210023)
“互聯(lián)網+”和大數據的時代背景下,信貸行業(yè)在數據挖掘和云計算的技術主題下呈現爆發(fā)式增長。它促進資金優(yōu)化配置,緩解市場信息不對稱等問題,滿足中小微企業(yè)對融資服務的需求。信貸領域的信用體系是互聯(lián)網金融發(fā)展的核心,也是亟待解決的重大問題。金融市場尤其是信貸業(yè)務中個人信用涉及的領域廣泛,主要集聚在信貸交易、信息消費和道德規(guī)范等方面。2014年6月,中國國務院發(fā)布的《社會信用體系建設規(guī)劃綱要(2014-2020)》中提出信用建設的目標,信用風險評估是借貸體系建設的關鍵環(huán)節(jié),需要學術界和業(yè)界不斷地創(chuàng)新性研究。[1]金融體系面臨資本和技術脫媒的雙重難題,通過評估體系反映借款人的信用評分,利用龐大的借貸用戶行為數據建立信用體系及等級問題,具有重要的現實意義。
經濟學界“理性人”假設,網絡信貸平臺認為借款人大部分時候是理性的。主要基于收入、信用、借款及個人狀況等因素來反映違約風險。Shen,Krumme&Lippman (2010) 及 Collier&Hampshire(2010)以P2P為例實證:借款人的信息、信用及利率影響違約風險的程度。李淵博等(2014)研究表明借款期限、借款等級和個人信息情況對毀譽風險因素影響顯著,而借款金額未通過顯著性檢驗。
從交易結果出發(fā),借款人的人口特征和身份地位也會影響借貸風險。Pope&Sydnor(2008)、Iyeret al(2009)和Ravina,E.(2015)都指明信譽越高其借貸風險越低,種族、年齡和性別等人口特征通過利率影響借貸狀況。個人信息、信用水平和記錄、收入、就業(yè)、年齡和房屋所有權等會影響借貸成功率。吳小英等(2012)實證分析顯示學生群體的借款成功率比一般借款低3.4%。[2]朱浩(2014)以拍拍貸的研究發(fā)現結構型社會資本對利率的影響不顯著,也有學者(2016)認為顯著,關系型社會資本能夠降低借款利率。
在所有相關概率都已知的情形下,貝葉斯考慮的是基于這些概率和誤判損失來選擇最優(yōu)的類別標記。[3]對每個樣本x,選擇能使后驗概率P(c|x)最大的類別標記。[3]若使決策風險最小化,首先要獲得后驗概率 P(c|x)。其中,P(c)是類“先驗”概率,P(x|c)是相對于類標記c的類條件概率,而P(x)是用于歸一化的“證據”因子。[3]貝葉斯網絡考慮樸素貝葉斯分類器要求所有變量都是獨立的問題,[4]給定父節(jié)點集,令B=<G,Θ>,即假設屬性xi在G中的父節(jié)點集πi,則Θ包含了每個屬性的條件概率表θxi|πi=PB(xi|πi)。通過評分函數,衡量備選貝葉斯網和訓練數據的擬合優(yōu)度。
因變量節(jié)點多,集合龐大等問題,登山算法從網絡結構出發(fā),每增加或者減去一條連接邊,計算一次評分函數,直到不再減小為止。主要設定五個步驟:(1)選取一個網絡結構作為初始狀態(tài)N;(2)根據計分函數計算N的得分,賦值給score<-score(N);(3)改變N的結構(增減一條邊)得到更新狀態(tài)N’;(4)If score(N’)>score(N);Maxscore<-score(N’);(5)Return(Maxscore);可以找到一個“最優(yōu)”(也可能是局部最優(yōu))的貝葉斯網絡結構圖并且訓練出各節(jié)點處的條件概率參數。
采用多維的隨機變量建立樸素貝葉斯模型,由假定參數的先驗分布來計算后驗分布。采用“半樸素貝葉斯分類器”放松變量間獨立性的要求,計算聯(lián)合概率構建網絡結構和多維屬性間節(jié)點關系,根據網絡關系圖來構建互聯(lián)網借貸信用評估模型并進行預測。
數據集中Pub-rec(毀譽記錄P)為被解釋變量,可取值為0,1,2,將0納入履約范圍,將≥1值視為違約。Term(借款期限H)、Loan-amount(借款金額A)、Annual-inc(年收入 C)、Dit(負債 /收入比率D)、Purpose(借款目的 N)、Application-type(申請類型 R)、Total-acc(信用賬戶總數 F)、Deling-2yrs(逾期次數O)和Open-acc(公開信用賬戶E)為第一組解 釋 變 量 ;Install ment( 分 期 付 款 B)、Total-il-high-credit-limit(銀行信用卡總額限度G)、Charge off-within-12mths(12個月內銷賬的數量S)和Initial-list-status(清單初始狀態(tài)Q)為第二組解釋變量;Grade(借款等級 I)、Emp-length(工作年限J)、Home-owership ( 房 屋 所 有 權 K)、Verification-status(收入認證 L)、和 Loan-status(借款狀況M)為第三組解釋變量,因涉及變量較多,將變量名簡化為括號內A-S共19個大寫字母。
數據源于美國lending club公司官方網上數據庫的數據集。選取2017年第一季度共96700條借貸數據,履約人數為77674約占總體的80%,違約人數19105約占總體的20%。對9個連續(xù)變量通過信息熵離散化表明:借款金額、利率、分期付款、年收入、負債/收入比率、公開信用賬戶、信用賬戶總數和銀行信用卡總額限度的分割點為6750,0.11,317,92000,10,12,30和54000;將低于分割點的為1,高于分割點為2。通過10折交叉驗證來訓練模型,得到10個貝葉斯網絡,分別計算每個網絡模型的誤判率得到平均誤判率。
采用AIC評分函數,利用R語言”bnlearn”軟件中的登山算法的”hc()”函數搜索得到最佳貝葉斯網絡結構圖。[4]響應變量P(是否毀約)節(jié)點落在網絡結構的末端,節(jié)點P存在三個父節(jié)點即I(指定借款等級)、O(逾期次數)、H(借款期限)直接影響響應變量,尤其是I(指定借款等級),該節(jié)點存在6個子節(jié)點,兩個父節(jié)點,處于整個網絡結構的核心位置,說明借款等級能夠在很大程度上說明用戶大部分信用特征。節(jié)點I(借款等級),在較長的借款周期內不能有效判斷違約可能性。樣本中存在屬性節(jié)點O(逾期次數),會提前給債權人警報信息,即使客戶之前的借款等級優(yōu),債權人也會擔心客戶能否在到期日之前清款。
一般情況下,借款等級對違約概率的影響表明:貸款等級為G-A,對應的借款等級對違約概率的影響系數分別為:0.26153、0.25622、0.25841、0.22474、0.22718、0.24850、0.10629。貸款等級越高(從G-A越來越高)客戶違約的概率也會越小,同等條件下貸款分等級G的客戶要比A客戶的違約概率高出1.45倍。10折交叉驗證得到的貝葉斯網絡模型的預測結果,模型的履約預測準確率為0.92,違約的預測準確率為0.64,模型的綜合預測準確率為0.86,綜合誤判率為0.14。根據樣本計算的履約的先驗概率為0.82。說明貝葉斯網絡關系在先驗概率的基礎上提高了0.04的準確率。
基于實證結果,可以從資金的貸方立場提出幾點對策解析:第一,重點監(jiān)控核心指標,能夠更快更及時地給借方發(fā)出警報信息;第二,互聯(lián)網借貸為金融領域提高金融服務效率、降低交易成本、滿足多元化投融資需求、提升微型金融的能力,[6]發(fā)揮政府、借貸平臺和借款人的主體作用;第三,根據借款者情況全面的評估信用等級,綜合借款期限、分期付款和借款等級考慮;第四,實現個體之間的信息溝通、資源共享、資金流動,為部分融資者提供了一條新的融資渠道。作為網絡金融創(chuàng)新模式,P2P網絡信貸是完善金融體系、填補信貸空缺、彌補中小企融資缺口、緩解民間投資需求的重要工具,它帶來的長尾效應引起了世界范圍內的高度關注。[6]
[1]黃國平,等.P2P網貸平臺風險評級與分析[M].北京:中國社會科學出版社,2015.
[2]周志華.機器學習[M].北京:清華大學出版社,2016.
[3]吳喜之.復雜數據統(tǒng)計方法-基于R的應用[M].北京:中國人民大學出版社,2015.
[4]張 超.公司違約概率模型及其在商業(yè)銀行中的應用[J].華北金融,2010(4).
[5]ScottA.Zonneveldt,KevinB.KorbandAnnE.Nicholson.Bayesiannetworkclassifiers forthe German credit data[D].Monash University(Australia),2010(1).
[6]伍旭川.互聯(lián)網借貸:風險與監(jiān)管[J].金融市場研究,2014(2).