鐘教聰 方華
摘 要:以P2P網(wǎng)絡(luò)借貸為例,從人人貸中選取2015—2018年共7 559條記錄,通過數(shù)據(jù)挖掘模型來對借款人違約風(fēng)險進行分析,并識別出影響借款人違約的主要因素,這些數(shù)據(jù)挖掘模型主要包括決策樹、支持向量機和隨機森林。主要結(jié)論包括:第一,運用數(shù)據(jù)挖掘模型來預(yù)測違約風(fēng)險效果都很好,其中最好的是隨機森林;第二,特征重要性程度前五依次為信用等級、借款金額、借款周期、借款利率、借款人所在企業(yè)的規(guī)模。
關(guān)鍵詞:P2P網(wǎng)絡(luò)借貸;數(shù)據(jù)挖掘;違約風(fēng)險
中圖分類號:F832? ? ? ? 文獻標(biāo)志碼:A? ? ? 文章編號:1673-291X(2020)10-0088-04
引言
近年來,互聯(lián)網(wǎng)與金融的結(jié)合更加廣泛,互聯(lián)網(wǎng)金融憑借其支付優(yōu)勢、流程優(yōu)勢等優(yōu)勢逐漸深入人心,同時也對我國經(jīng)濟的發(fā)展起到了很大的促進作用。其中,P2P網(wǎng)絡(luò)借貸是互聯(lián)網(wǎng)金融的一個分支。P2P網(wǎng)絡(luò)借貸,通常是指個體和個體通過互聯(lián)網(wǎng)平臺進行的直接借貸活動。艾瑞咨詢統(tǒng)計結(jié)果顯示,截至2017年,我國網(wǎng)絡(luò)借貸超過了2萬億元,且年增長率高達40%,用戶高達2億人,相較2016年增長23.1%,可見網(wǎng)絡(luò)借貸發(fā)展之蓬勃。
P2P網(wǎng)絡(luò)借貸開始出現(xiàn)是在英國,因為其相較于傳統(tǒng)銀行更加方便,回報率高,很快便快速蔓延至其他國家。2007年6月,我國第一家P2P網(wǎng)貸公司成立,從此網(wǎng)絡(luò)借貸在我國拉開了序幕。在2013年前,我國P2P網(wǎng)貸平臺發(fā)展的很慢,屬于萌芽期。2013開始,我國P2P網(wǎng)貸行業(yè)在用戶和平臺都開始爆發(fā)性增長。但是在爆發(fā)性增長的同時也伴隨著很多風(fēng)險,截至2017年,停業(yè)的P2P網(wǎng)貸平臺已達1 500家,網(wǎng)貸平臺壞賬率普遍達到了10%以上,這顯著高于傳統(tǒng)金融機構(gòu)。網(wǎng)貸平臺的高風(fēng)險,有一個主要原因是,網(wǎng)貸不需要抵押,借款人違約成本較低,如果出現(xiàn)很多借款人違約,則會對平臺現(xiàn)金流產(chǎn)生影響,會影響平臺的可持續(xù)發(fā)展。在此背景下,對借款者的違約風(fēng)險進行分析顯得尤為重要。
本文主要運用數(shù)據(jù)挖掘的方法,基于數(shù)據(jù)借款人信息,找出影響借款人的違約因素,以期能給網(wǎng)貸平臺和投資者提供些參考。本文選用的模型相對于傳統(tǒng)的風(fēng)險分析模型主要優(yōu)勢是,傳統(tǒng)的模型大多需要設(shè)定參數(shù),對前提假設(shè)有很嚴格的限制,如最小二乘模型要求數(shù)據(jù)必須符合正態(tài)分布、序列沒有關(guān)聯(lián)且沒有噪聲。Logistic要求自變量不能存在多重共線性,而數(shù)據(jù)挖掘?qū)?shù)據(jù)并無限制。
一、文獻綜述
由于網(wǎng)絡(luò)借貸的快速發(fā)展,對金融業(yè)產(chǎn)生了較大的沖擊,因此引起了學(xué)術(shù)界的廣泛關(guān)注,中外學(xué)者對進行了很多關(guān)于網(wǎng)絡(luò)借貸違約的研究。
從違約風(fēng)險來看。由于信息不對稱使得投資人和網(wǎng)貸平臺不能很好地評價借款人違約風(fēng)險的大小,從而增加了投資者和網(wǎng)貸平臺的風(fēng)險(劉麗麗,2013)。同時由于網(wǎng)貸借款人在借款人并不是抵押借款,違約成本比較低,且貸款用途沒有限制,這使得貸款風(fēng)險顯著增加(李淵琦、陳芳,2015)。社會資本的存在能有效降低借款人的違約風(fēng)險,這些社會資本包括借款列表被推薦的額次數(shù)、是否加入小組、增加投資者中朋友的個數(shù)等等(繆蓮英、陳金龍,2014)。通過使用多元線性回歸模型對拍拍貸進行違約風(fēng)險分析,發(fā)現(xiàn)隨著年齡的增加違約風(fēng)險越低(劉鵬翔,2017)。借款人聲譽能有效緩解信息不對稱,聲譽變量包括借款人以往違約次數(shù)和借款成功次數(shù)為代表,實證得出借款人聲譽對違約風(fēng)險的識別效應(yīng),且如果借款人還款能力增加,這種識別能力也會增強(李鑫,2019)。以拍拍貸為例,研究學(xué)歷在網(wǎng)絡(luò)借貸上的作用,發(fā)現(xiàn)隨著學(xué)歷的上升,借款人逾期的風(fēng)險越小,且借款成功的概率更高(程瑤,2018)。
就研究模型來看,經(jīng)典的預(yù)測借款人違約的模型,如Logistic、Probit,OLS預(yù)測效果有太多的約束,如對樣本要求比較嚴格,在特征較為復(fù)雜的情況下,預(yù)測效果會大打折扣(Hill Griffiths and Lim,2011)。相較于經(jīng)典的預(yù)測模型,數(shù)據(jù)挖掘模型對樣本沒有較多約束,且能應(yīng)對更為復(fù)雜的自變量,通常情況下,預(yù)測效果好于經(jīng)典預(yù)測模型(Goyal,A.and R.Kaur,2016)。
二、模型選擇
本文所選用的數(shù)據(jù)挖掘模型包括支持向量機(SVM)、決策樹(DT)和隨機森林(RF),這三種模型都是監(jiān)督學(xué)習(xí)算法,都是可以通過訓(xùn)練樣本獲得最優(yōu)模型的。
(一)支持向量機
支持向量機的目標(biāo)是創(chuàng)建一個平面邊界,稱為超平面,從而將具有不同性質(zhì)的樣本進行劃分,劃分的原則是間隔最大化。支持向量機從20世紀90年代開始快速發(fā)展,目前在很多領(lǐng)域都得到廣泛應(yīng)用。支持向量機可以將低維度空間樣本分類的問題投影到高維度空間,從而可以在新的空間上得出最優(yōu)超平面。
目前,支持向量機模型常用來解決分類問題的核函數(shù)包括以下四種:線性核函數(shù)、多項式核函數(shù)、S形核函數(shù)以及高斯RBF核函數(shù)。本文所采用的是線性核函數(shù),其設(shè)定如下:
其中,xi表示第i個特征。
(二)決策樹
決策樹是一種有監(jiān)督的算法,按照一定的劃分規(guī)則,對數(shù)據(jù)進行持續(xù)的劃分,最后根據(jù)根據(jù)投票結(jié)果進行分類。決策樹在任何領(lǐng)域上幾乎都能用,可以說是應(yīng)用最廣泛的數(shù)據(jù)挖掘模型了。決策樹的算法主要包括ID3算法、GART算法和C4.5算法,本文采用的是C4.5算法。
C4.5算法用信息增益率選擇決策屬性。C4.5算法有兩個步驟,第一,先選取一個屬性Ai,按照Ai的某個值將n維空間進行劃分成兩個部分。第二,按照第一步重新選擇另一個屬性進行劃分,直到n維空間都被劃分了。C4.5算法劃分的標(biāo)準是信息增益率(Info Gain Ratio)指標(biāo)。假設(shè)數(shù)據(jù)集D有m個類別,數(shù)據(jù)D的熵可定義為:
其中,pi表示類別i占樣本的比率,數(shù)據(jù)集的種類越多,則Info(D)越大,當(dāng)數(shù)據(jù)集只有一個類別時,Info(D)為0?,F(xiàn)假定屬性A對數(shù)據(jù)集D進行劃分,且劃分為K個Dj子集,則劃分后的數(shù)據(jù)集D的熵為:
D表示數(shù)據(jù)集D的樣本量,Dj表示數(shù)據(jù)集Dj的樣本量,則信息增益為:
要想得出信息增益率,必須先求出使用“分裂信息”值,分裂信息定義為:
在C4.5算法中,信息增益率最大的屬性為劃分標(biāo)準。最后,信息增益率為:
(三)隨機森林
隨機森林是一種集合學(xué)習(xí)的方法,隨機森林通過隨機建立一個森林,這森林里包括很多個決策樹,隨機森林里的每棵決策樹都是相互獨立的。在建立隨機森立后,當(dāng)輸入一個樣本,則隨機森林里的每棵決策樹樹都會對樣本進行決策,然后在通過這些決策樹進行投票,從而得出最終的預(yù)測值。隨機森林有效地提高了預(yù)測精度,并且能夠給出每個特征變量的重要程度。
三、實證分析
第一,數(shù)據(jù)來源。人人貸是我國較早進行網(wǎng)絡(luò)借貸的平臺,也是發(fā)展的比較好的平臺。本文通過python爬蟲的方法從人人貸平臺上選取了2015—2018年上半年的個人借款數(shù)據(jù),由于存在到大量與個人信用無關(guān)的信息,如借款人昵稱、貸款編號等,若加入模型,可能會造成不必要的干擾。此外,有些變量是字符型的,也改成數(shù)值型。最終,借款人的信息包括個人信息(借款人年齡、學(xué)歷、性別、工作區(qū)域、是否有房、是否有車、是否有房貸、是否有車貸,婚姻狀況、工資、公司規(guī)模以及工齡);借款人信用情況(信用評級);借款信息(借款利率、借款金額、借款用途、借款周期)。在刪除了缺失值后,得到了7 599條完整記錄的數(shù)據(jù)。在所選取的數(shù)據(jù)中,6 482條是沒有違約的,1 117條是違約的。
第二,變量選取及處理。網(wǎng)貸違約風(fēng)險預(yù)測中并沒有標(biāo)準的變量選取方法,本文通過參考國內(nèi)外眾多文獻,最終確定了16個解釋變量,可分為三大類,分別是借款人基本情況、借款產(chǎn)品信息以及借款人信用情況。1個預(yù)測變量,即是否違約。我們對各個變量進行了處理,具體(如表1所示)。
第三,實證結(jié)果。本文分別使用了支持向量機(SVM)、決策樹(DT)和隨機森林(RF)進行預(yù)測,先在不同訓(xùn)練集下的建立模型,然后在測試集上進行預(yù)測,結(jié)果(如表2和表3所示)。
從以上數(shù)據(jù)可以得出,在進行違約率的預(yù)測時,三個數(shù)據(jù)挖掘模型的預(yù)測效果都比較好,其中最好的是隨機森林模型。同時,我們在訓(xùn)練集為90%的情況下,根據(jù)隨機森林模型得出了各個變量的重要性程度。
各個解釋變量的重要性依次為信用等級、借款數(shù)額、借款周期、借款利率、公司規(guī)模、工作時間、年齡、工資、學(xué)歷、工作區(qū)域、婚姻狀況、是否有車、是否有房、是否有房貸、性別、是否車貸。
四、結(jié)論與建議
第一,本文通過使用數(shù)據(jù)挖掘模型(支持向量機、決策樹、隨機森林)對網(wǎng)貸數(shù)據(jù)進行建模預(yù)測得出以下結(jié)論。首先,這三種模型對借款人的違約預(yù)測效果都很好,總體預(yù)測正確率都達到了87%以上,而對違約樣本的預(yù)測正確率也都達到了82%以上,尤其以隨機森林的預(yù)測效果最好,這可以為投資人和網(wǎng)貸平臺在選擇借款人時提供一些參考。其次,影響借款人違約的最重要的十個特征是借款人信用等級、借款數(shù)額、借款周期、借款利率、公司規(guī)模、工作時間、年齡、工資、學(xué)歷、工作區(qū)域。
第二,基于以上結(jié)論,并結(jié)合中國P2P網(wǎng)貸行業(yè)發(fā)展現(xiàn)狀,提出以下兩點建議:首先,信用等級對借款人是否違約有重要的參考意義,所以網(wǎng)貸平臺應(yīng)該建立起一套標(biāo)準的信用評級體系,能對借款人的信用等級進行有效的評分。其次,網(wǎng)貸平臺間應(yīng)該建立信息共享平臺,使得平臺間的征信信息能夠得到有效共享,以降低違約風(fēng)險。
參考文獻:
[1]? 劉麗麗.我國P2P網(wǎng)絡(luò)借貸發(fā)展存在的風(fēng)險及其監(jiān)管對策[J].征信,2013,(11):29-32.
[2]? 李淵琦,陳芳.我國P2P網(wǎng)貸風(fēng)險的風(fēng)險分析及監(jiān)管對策[J].上海金融,2015,(7):78-81.
[3]? 繆蓮英,陳金龍.P2P網(wǎng)絡(luò)借貸中社會資本對借款者違約風(fēng)險的影響——以Prosper為例[J].金融論壇,2014,(3):9-15.
[4]? 劉鵬翔.P2P網(wǎng)貸平臺借款人信用風(fēng)險的影響因素分析——以拍拍貸平臺為例[J].征信,2017,(3):71-76.
[5]? 李鑫.借款人聲譽與風(fēng)險識別——來自P2P網(wǎng)絡(luò)借貸的證據(jù)[J].金融發(fā)展研究,2019,(6):3-11.
[6]? 程瑤.學(xué)歷水平在借貸市場上的作用——來自P2P市場的經(jīng)驗證據(jù)[J].上海金融,2018,(2):47-55.
[7]? Hill R.C,W.E.Griffiths,G.C.Lim:“Principles of econometrics”,Danvers,MA:John Wiley & Sons,Inc,2011.
[8]? Goyal A.,R.Kau:“Accuracy pre-diction for loan risk using machine learning models”,International Journal of Computer Science Trendsand Technology,2016,(1):52-57.
Analysis on the Risk of Default of Network Loan Based on Data Mining
ZHONG Jiao-cong,F(xiàn)ANG Hua
(University of Shanghai for Science and Technology,Shanghai 200093,China)
Abstract:Taking P2P network lending as an example,this paper selected 7559 records from personal loans from 2015 to 2018,analyzed borrowers default risk through data mining model,and identified the main factors affecting borrowers default.These data mining models mainly include decision tree,support vector machine and random forest.The main conclusions include:firstly,using data mining model to predict default risk is very good,the best of which is random forest;secondly,the top five characteristics of importance are credit rating,loan amount,loan cycle,loan interest rate and working time of borrowers.
Key words:P2P network lending;data mining;default risk
收稿日期:2019-10-08
作者簡介:鐘教聰(1995-),男,海南昌江人,碩士研究生,從事互聯(lián)網(wǎng)金融研究。