王茂光,朱子君
?
基于神經(jīng)網(wǎng)絡模型的網(wǎng)絡借貸高危企業(yè)信用風險的識別研究
王茂光,朱子君
(中央財經(jīng)大學信息學院,北京 100081)
網(wǎng)絡借貸的飛速發(fā)展在一定程度上緩解了小微型企業(yè)融資難的問題,但也暴露出網(wǎng)絡借貸平臺信用風險的識別問題。為充分識別高危網(wǎng)貸企業(yè)的特征,以中小型網(wǎng)貸企業(yè)為樣本,通過指標篩選,挑選出與風險識別相關度較高的指標作為指標變量。并利用BP神經(jīng)網(wǎng)絡算法模型得出高危網(wǎng)貸企業(yè)在不同條件下的信用風險識別率和信用風險分類正確率。實驗結果表明,高危網(wǎng)貸企業(yè)的信用風險具有高度識別性,高召回率、高正確率的特點。
高危網(wǎng)貸企業(yè)風險識別;指標篩選;神經(jīng)網(wǎng)絡;召回率
中小微企業(yè)融資難的問題一直是世界各國普遍關注的難點問題。隨著網(wǎng)絡借貸的飛速發(fā)展,雖然融資難的問題得到了極大的緩解,許多小微型公司可以通過網(wǎng)絡融資獲得資助,但是同時也暴露出網(wǎng)絡融資高風險的弊端。例如,e租寶涉嫌非法集資500多億,“校園貸”事件中,學生在多平臺借款,最后卻因無力還款而造成巨大經(jīng)濟壓力等。這些網(wǎng)絡融資風險產(chǎn)生的主要原因在于目前大多數(shù)網(wǎng)絡融資的公司規(guī)模都較小,沒有較好的管理、經(jīng)營機制以及完善的信息披露機制。公司資質參差不齊,加上相關機構監(jiān)控力度弱,風險控制模型尚不成熟,無法滿足目前網(wǎng)絡借貸的需求,從而導致中小微型企業(yè)融資難、融資貴的問題依然沒有得到徹底解決。因此,如何在網(wǎng)絡借貸中運用恰當?shù)娘L險識別系統(tǒng)是重中之重,即建立適當?shù)娘L險識別體系,進行風險識別。
互聯(lián)網(wǎng)技術的迅速發(fā)展為網(wǎng)絡借貸的信用風險識別提供了有力的技術手段。尤其是大數(shù)據(jù)的快速發(fā)展,打破了傳統(tǒng)風險模型模式,使利用大數(shù)據(jù)進行企業(yè)風險劃分成為可能。
在國內研究中,企業(yè)的信用風險評估仍處于起步階段,許多研究已經(jīng)將關注點定位在企業(yè)的風險識別和模型搭建,但是大多數(shù)的評價模型仍依賴于定性分析,缺乏量化風控模型。尤其在互聯(lián)網(wǎng)金融跑路現(xiàn)象盛行的情況下,有效的模型是人們關注的焦點。目前人們研究較多的模型算法有基于貝葉斯、決策樹、神經(jīng)網(wǎng)絡等算法。各個學科知識也逐漸被引用到模型搭建中,如統(tǒng)計學、數(shù)學、計算機科學技術等。
在風險評估方面,Beaver等[1]首次將統(tǒng)計方法運用到企業(yè)危機預警研究中,指出現(xiàn)金流與負債總額之比、資產(chǎn)負債率是最能體現(xiàn)企業(yè)財務狀況的指標,并對企業(yè)的財務情況進行預測。劉新海[2]對大數(shù)據(jù)應用處于國內領先的阿里巴巴企業(yè)進行征信體系和征信預測分析。肖曼君等[3]針對P2P網(wǎng)絡借貸采用排序選擇模型對平臺信用風險進行實證分析。劉宇璟等[4]針對小微企業(yè)創(chuàng)業(yè)者素質提出了從創(chuàng)業(yè)人格特質、創(chuàng)業(yè)能力和創(chuàng)業(yè)知識3個維度評價小微企業(yè)創(chuàng)業(yè)者指標體系。鄔建平[5]構建了基于灰色關聯(lián)分析的電子商務信用風險評價模型,并對各級最終模型的評價結果提出相應的應對策略。這些方法大多屬于傳統(tǒng)風險評估方法,多集中于定性分析,缺乏定量分析的有效模型。
神經(jīng)網(wǎng)絡的快速發(fā)展,促使許多學者將神經(jīng)網(wǎng)絡方法應用到解決問題的過程中,Atiya[6]提出了將神經(jīng)網(wǎng)絡應用于對銀行破產(chǎn)的信用風險評價,提出運用神經(jīng)網(wǎng)絡的模型將傳統(tǒng)金融指標用于對銀行風險進行預測。葉斌等[7]總結了設計BP網(wǎng)絡時確定隱含層層數(shù)以及節(jié)點數(shù)的幾種傳統(tǒng)方法,并指出了BP網(wǎng)絡結構優(yōu)化的新思路和未來發(fā)展趨勢。熊志斌[8]運用遺傳神經(jīng)網(wǎng)絡模型對我國上市公司財務危機進行預測,并與BP神經(jīng)網(wǎng)絡進行對比。翟萬里[9]針對商業(yè)銀行企業(yè)客戶信用風險的主要影響因素,基于改進的BP神經(jīng)網(wǎng)絡建立了商業(yè)銀行信用風險模型。劉建偉等[10]論述了深度學習的新進展,對深度學習在網(wǎng)絡層數(shù)、激活函數(shù)選擇、模型結構等方面進行了綜述。
目前,雖然國內外對于網(wǎng)絡借貸的風險關注度都很高,但是風險識別評價還多停留在采用專家評價法或者定性評價法等主觀方法,缺少有效的定量模型和算法。在目前網(wǎng)絡借貸快速發(fā)展的時期,必須對大量的網(wǎng)絡數(shù)據(jù)進行模型的實證分析。
針對網(wǎng)貸平臺風險較高的問題,本文通過收集網(wǎng)貸平臺的信用風險數(shù)據(jù)以及學習出現(xiàn)過“跑路”“經(jīng)營困難”等問題網(wǎng)貸企業(yè)的數(shù)據(jù),來訓練網(wǎng)貸企業(yè)的風險評估模型。本文的數(shù)據(jù)來自第三方資訊平臺“網(wǎng)貸之家”的網(wǎng)貸平臺企業(yè)數(shù)據(jù),數(shù)據(jù)中主要包含了網(wǎng)貸企業(yè)的各項經(jīng)營和財務指標,其中涵蓋了網(wǎng)貸企業(yè)的資本情況數(shù)據(jù)、營業(yè)財務數(shù)據(jù)和市場的打分等各項指標。
數(shù)據(jù)共包含37個變量,各個具體屬性如表1所示。
之后本文對收集到的37個指標進行指標篩選和離散化處理。篩選時采用值和值對指標變量進行選取。
定義1 假設y為在相應屬性中高風險企業(yè)數(shù)量,n為在相應屬性中低風險企業(yè)數(shù)量,py為y占樣本中所有高風險企業(yè)的比例,pn是n占樣本中所有低風險企業(yè)的比例,則有
定義2
表1 數(shù)據(jù)變量屬性
值在值的基礎上計算得出,更加直觀地表示出該屬性值對于因變量分類之間的關系程度。
以“平臺投資期限”為例計算和值,如表2所示。平臺收益劃分為1、2、3 三檔,平臺狀態(tài)由0、1表示。平臺收益為1且平臺狀態(tài)為的共有1 051家平臺,以此類推。根據(jù)式(1)可計算得出平均收益在“1”下的1值為0.71,根據(jù)式(2)可求得1為0.33,求和后得到的為1.4。
表2 變量“平臺投資期限”的WOE和IV值
通常將值在[0.1,∞)范圍內的自變量作為提取后的指標。同時在數(shù)據(jù)處理時,本文將同類指標合并(如投資期限占比、標的金額占比)計算其加權平均數(shù);將不便于劃分和離散的屬性(如公司法人)去除;將缺失值較多的屬性變量(如平臺的投資人數(shù)、平臺的借款人人數(shù))去除。經(jīng)過處理后,再對得到的連續(xù)性變量進行離散化處理。最后共整理出21個因變量,1個自變量(企業(yè)風險類型),有效數(shù)據(jù)2 725條。具體分類如表3所示。
表3 最終變量選取和劃分標準
本文的算法運行環(huán)境是Windows操作系統(tǒng),使用Java編程語言編寫,并通過BeanShell——一種兼容Java的腳本語言,進行運行調試。BeanShell是一個小巧免費的Java源碼解釋器,支持對象式的腳本語言特性,亦可嵌入Java源代碼中。之所以選擇BeanShell的原因是BeanShell可以快速地檢驗算法調整的結果,還可以檢驗單個輸入的反饋,所以本文使用BeanShell進行實驗。
本文算法使用的模型是BP神經(jīng)網(wǎng)絡算法,一個典型的神經(jīng)網(wǎng)絡,主要由神經(jīng)元節(jié)點與節(jié)點之間的聯(lián)系(突觸)構成:一些節(jié)點負責簡單地把數(shù)據(jù)傳入或傳出網(wǎng)絡,另一些節(jié)點則負責處理數(shù)據(jù)。將數(shù)據(jù)導入網(wǎng)絡或從網(wǎng)絡導出數(shù)據(jù)的層級稱為輸入層和輸出層節(jié)點,其他節(jié)點被稱為隱藏層節(jié)點。
根據(jù)數(shù)據(jù)可以得出,BP神經(jīng)網(wǎng)絡的輸入層節(jié)點有21個,輸出層節(jié)點有1個,中間隱藏層節(jié)點數(shù)可變,共3層。BP神經(jīng)網(wǎng)絡即后向傳播算法,通過檢查每一個訓練實例,并依結果調整自身鏈接的權值,以使輸出值與期望值之間的誤差最小化。本文通過調用updateWeight()實現(xiàn)權值的更新,使用sigmoid函數(shù)作為激勵函數(shù),學習率和迭代次數(shù)均可變。
神經(jīng)網(wǎng)絡的基本思路如下。首先將總數(shù)據(jù)分為訓練數(shù)據(jù)和測試數(shù)據(jù)兩部分,對訓練數(shù)據(jù)進行學習,再用運行測試數(shù)據(jù)得出結果并驗證訓練的準確率。一般來講,訓練數(shù)據(jù)越大,準確性會相應提高。本文使用優(yōu)化的神經(jīng)網(wǎng)絡算法,提高了神經(jīng)網(wǎng)絡在低比例訓練數(shù)據(jù)下的學習效率。學習效率(分類正確程度)通過計算分類的正確率和召回率衡量。
定義3 計算訓練結果正確率的比值為正確率和召回率。
各變量假設如表4所示,其中,為低風險企業(yè)被模型預測為低風險企業(yè)的數(shù)量,為低風險模型預測為高風險企業(yè)的數(shù)量,以此類推。則可得
通過比較分類的正確率和召回率來分析模型分類的合理度和分類的正確程度。
本文在研究方法上主要采用實證研究法和定量分析法。在實證分析法中首先對目前網(wǎng)絡借貸企業(yè)的信用數(shù)據(jù)進行指標量化和離散化,進而利用神經(jīng)網(wǎng)絡評估高風險企業(yè),以確保高風險企業(yè)不會成為漏網(wǎng)之魚,實驗結果證明,高風險企業(yè)的數(shù)據(jù)具有一定特征,在神經(jīng)網(wǎng)絡訓練過程中,學習成功率很高。
相較于其他常見的模型算法,如決策樹模型、貝葉斯模型、SVM模型等,神經(jīng)網(wǎng)絡具有實現(xiàn)復雜非線性映射的優(yōu)點,在大量數(shù)據(jù)訓練下具有高度自學習和自適應能力,同時具有一定的容錯能力,在部分或局部神經(jīng)元受到破壞后不會影響系統(tǒng)的正常工作。因此,本文選擇神經(jīng)網(wǎng)絡進行模型訓練。
表4 不同情況下的變量假設
表5 模型在不同迭代次數(shù)下對高風險企業(yè)識別的表現(xiàn)
本文采用實證方法來分析不同學習率(0.1, 0.5, 0.025)和神經(jīng)網(wǎng)絡迭代次數(shù)(10, 25, 50, 100, 200, 500)對學習率的影響,并通過調整訓練數(shù)據(jù)和測試數(shù)據(jù)的比例尋找最佳的測試比例。
1) 在控制變量條件下,測試不同的迭代次數(shù)對正確率和召回率的影響,結果如表5和圖1所示。
圖1 不同迭代次數(shù)下高風險企業(yè)識別的表現(xiàn)
可以看出,在迭代次數(shù)的增大最初會導致正確率短暫上升,然后下降,其中在迭代次數(shù)為25達到最佳,整體數(shù)據(jù)的正確率高達83%。而召回率在不同的迭代次數(shù)下,比值都較高,表示迭代次數(shù)對高風險識別的影響并不大。
2) 在控制變量情況下,本文測試不同的學習率對正確率和召回率的影響,結果如圖2所示。
圖2 不同學習率下高風險企業(yè)識別的表現(xiàn)
通過圖2可以發(fā)現(xiàn),學習率在[0.025,0.1]的范圍內,企業(yè)風險識別的正確率和召回率都較高。學習率對風險的敏感程度不大。
3) 在控制變量的情況下,本文測試訓練數(shù)據(jù)和測試數(shù)據(jù)比率對正確率和召回率的影響,結果如圖3所示(圖例括號中數(shù)字表示迭代次數(shù))。
圖3 訓練數(shù)據(jù)與測試數(shù)據(jù)比率對召回率和正確率的影響
通過圖3可以發(fā)現(xiàn),訓練數(shù)據(jù)與測試數(shù)據(jù)比率對召回率的影響比對正確率的影響大。在比率為1:3的情況下,召回率幾乎為零,提升到1:2后,召回率恢復到正常水平。而正確率在不同比率下一直保持在比較平穩(wěn)的水平。
4) 在控制其他變量情況下,設置不同的隱藏層節(jié)點數(shù)(如5, 7, 10)來測試對高風險企業(yè)識別的正確率和召回率的影響。其中無關變量的設置為迭代次數(shù)等于10,學習率為0.025。
根據(jù)圖4可得出,在隱藏層節(jié)點數(shù)為5和7的情況下,高風險企業(yè)識別的召回率和正確率均較高;將節(jié)點數(shù)提高到10時,在召回率依然較好的情況下,正確率明顯降低??梢婋[藏層節(jié)點數(shù)也不是越多越好。
圖4 隱藏層節(jié)點數(shù)對召回率和正確率的影響
5) 為了證明算法的優(yōu)異性,本文又對比了在不同的算法下(樸素貝葉斯、決策樹、神經(jīng)網(wǎng)絡算法)召回率和正確率之間的差異(訓練數(shù)據(jù)與測試數(shù)據(jù)比為1:2),結果如圖5所示。
圖5 不同算法之間召回率和正確率對比
根據(jù)圖5可以發(fā)現(xiàn),不同的算法間召回率都比較高,可以保證高風險識別率較高。但是貝葉斯和決策樹的正確率明顯低于神經(jīng)網(wǎng)絡的正確率,證明了神經(jīng)網(wǎng)絡在少量訓練數(shù)據(jù)下良好的學習能力。
本文通過采用BP神經(jīng)網(wǎng)絡模型,對網(wǎng)絡借貸高危企業(yè)進行風險識別,測試神經(jīng)網(wǎng)絡對企業(yè)風險識別的正確率,以及高危風險企業(yè)信用正確分類的召回率。實驗結果表明,高危企業(yè)的數(shù)據(jù)有明顯的特征,高危企業(yè)被誤識別為低風險企業(yè)的可能性很低,即召回率較高。并且企業(yè)風險劃分的正確率較高,誤報率也較低,保證了模型的正確性。進而分析了在選取不同的迭代次數(shù)、學習率和訓練數(shù)據(jù)比率的情況下,對模型正確率和召回率的影響。
下一步工作是進一步識別高風險網(wǎng)貸企業(yè)的風險關鍵性指標,找出導致網(wǎng)貸企業(yè)風險較高的原因,以及探究并測試不同的神經(jīng)網(wǎng)絡模型對風險識別的影響。
[1] BARTH M E, BEAVER W H, LANDSMAN W R. Value-relevance of banks' fair value disclosures under SFAS No. 107[J]. Accounting Review, 1996, 71(4): 513-537.
[2] 劉新海. 阿里巴巴集團的大數(shù)據(jù)戰(zhàn)略與征信實踐[J]. 征信, 2014, 32(10): 10-14.
LIU X H. The strategy of big data for Alibaba Group and its practices of credit reference[J]. Credit Reference, 2014, 32(10): 10-14.
[3] 肖曼君, 歐緣媛, 李穎. 我國P2P網(wǎng)絡借貸信用風險影響因素研究——基于排序選擇模型的實證分析[J]. 財經(jīng)理論與實踐, 2015, 36(1):2-6.
XIAO M J, OU Y Y, LI Y. Research on the factors affecting credit risk of P2P lending in China: an empirical analysis based on the sort selection model[J]. The Theory and Practice of Finance and Economics, 2015, 36(1): 2-6.
[4] 劉宇璟, 林裘緒, 竇先琴. 小微企業(yè)創(chuàng)業(yè)者素質評價指標體系構建[J].統(tǒng)計與決策,2015,(20):185-188.
LIU Y J, LIN Q X, DOU X Q. The construction of the quality evaluation index system for the entrepreneurs of small and micro enterprises[J]. Statistics and Decision, 2015, (20): 185-188.
[5] 鄔建平. 電子商務信用風險評估模型[J]. 統(tǒng)計與決策, 2016, (11): 69-71.
WU J P. Credit risk assessment model of e-commerce[J]. Statistics and Decision, 2016, (11): 69-71.
[6] ATIYA A F. Bankruptcy prediction for credit risk using neural networks: a survey and new results[J]. IEEE Transactions on Neural Networks, 2001, 12(4): 929.
[7] 葉斌, 雷燕. 關于BP網(wǎng)中隱含層層數(shù)及其節(jié)點數(shù)選取方法淺析[J].商丘職業(yè)技術學院學報, 2004(6): 52-53.
YE B, LEI Y. On the method of selecting the number of hidden layers and the number of nodes in BP network[J]. Journal of Shangqiu Vocational Technical College, 2004, (6): 52-53.
[8] 熊志斌. 運用遺傳神經(jīng)網(wǎng)絡模型對我國上市公司財務危機的預測[J]. 統(tǒng)計與決策, 2008, (14): 32-34.
XIONG Z B. Using genetic neural network model to predict financial crisis of Listed Companies in China[J]. Statistics and Decision, 2008, (14): 32-34.
[9] 翟萬里. 基于人工神經(jīng)網(wǎng)絡的商業(yè)銀行信用風險評估模型研究[D].長沙: 長沙理工大學, 2013.
ZHAI W L. Research on credit risk assessment model of commercial banks based on artificial neural network[D]. Changsha:Changsha University of Science and Technology, 2013.
[10] 劉建偉, 劉媛, 羅雄麟. 深度學習研究進展[J]. 計算機應用研究, 2014, 31(7): 1921-1930.
LIU J W, LIU Y, LUO X L. Progress in research on deep learning[J]. Application Research of Computers, 2014, 31(7): 1921-1930.
Credit risk identification of high-risk online lending enterprises based on neural network model
WANG Mao-guang, ZHU Zi-jun
(School of Information, Central University of Finance and Economics, Beijing 100081, China)
The rapid development of online lending alleviates the difficulty of financing for small and micro enterprises to a certain extent, but it also exposes the credit risk identification problem of online lending platform. In order to fully identify the characteristics of high-risk network lending enterprises, small and medium-sized network lending companies were selected as samples, and indicators that were highly correlated with risk identification were chosen as indicators variables. And by using the BP neural network algorithm model, the credit risk identification rate and credit risk classification accuracy rate of high risk network lending enterprises, under different conditions, were obtained. The results show that the credit risks of high-risk network lending enterprises are highly recognized, and have the characteristics of high recall rate and high accuracy.
high risk online lending enterprise risk identification, index screening, neural network, recall rate
F49
A
10.11959/j.issn.2096-109x.2017.00222
2017-11-03;
2017-12-01。
朱子君,zzj_2017@163.com
網(wǎng)金中心合作基金資助項目(No.020676116004);北京大學合作基金資助項目(No.020676114004)
Cooperation Project with Network Finance Center (No.020676116004), Cooperation Project with Peking University (No.020676114004)
王茂光(1974-),男,山東招遠人,中央財經(jīng)大學教授,主要研究方向為互聯(lián)網(wǎng)金融風控和征信、軟件工程、分布式智能系統(tǒng)。
朱子君(1993-),女,吉林長春人,中央財經(jīng)大學碩士生,主要研究方向為互聯(lián)網(wǎng)金融風控和征信。