章 寧,陳 欽,2
(1.中央財(cái)經(jīng)大學(xué) 信息學(xué)院,北京 100081; 2.國銀金融租賃股份有限公司 信息化管理部, 廣東 深圳 518038)(*通信作者電子郵箱2013110160@CUFE.edu.cn)
個人對個人P2P(Peer-to-Peer)借貸(或P2P貸款)即個人對個人的貸款行為,投資人依據(jù)借款人的個人信用,按照一定利率進(jìn)行貸款投資,一旦出現(xiàn)違約,貸款本金將產(chǎn)生較大損失[1-2],具有收益固定、風(fēng)險(xiǎn)高的特點(diǎn)。
全球第一家在線P2P借貸平臺是2005年成立于英國的Zopa。美國兩家最知名的P2P借貸平臺,分別是成立于2006年的Prosper,以及成立于2007年的Lending Club,后者于2014年12月在紐約股票交易所掛牌上市,目前為美國最大規(guī)模的P2P借貸平臺。2007年國內(nèi)出現(xiàn)了第一家P2P借貸平臺拍拍貸,同年10月宜信借貸平臺上線,從2011年開始,國內(nèi)P2P借貸平臺進(jìn)入快速發(fā)展期,伴隨而來的則是大量業(yè)務(wù)亂象。 2016年監(jiān)管部門對P2P貸款的合規(guī)管理開始不斷收緊,截至2017年12月底,正常運(yùn)營的P2P貸款平臺數(shù)量為1 931家,相對于2016年底減少了517家[3]。
與傳統(tǒng)銀行貸款不同,P2P貸款完全通過線上完成,屬于直接融資的一種,由于缺乏第三方金融中介參與,借貸雙方存在很大的信息不對稱性,投資人只能獨(dú)立對貸款未來的違約概率、預(yù)期收益等進(jìn)行預(yù)測[4],以期預(yù)防投資風(fēng)險(xiǎn),并獲得更高的投資收益。目前由于缺乏有效的P2P貸款違約預(yù)測方法和工具,投資人要么簡單遵循“大數(shù)原則”進(jìn)行投資分散以規(guī)避風(fēng)險(xiǎn),要么選擇利率更高的貸款以期獲得風(fēng)險(xiǎn)補(bǔ)償,這在相當(dāng)程度上進(jìn)一步加劇了P2P貸款中的道德風(fēng)險(xiǎn)和逆向選擇。
目前對P2P貸款違約預(yù)測方法,根據(jù)使用的信息來源不同,主要可分為基于借款人信息和基于投資人信息兩類。
該類方法基于借款人提供的各類信息,包括年齡、性別、婚否、借款總額、收入負(fù)載比、總體負(fù)載率等,對貸款的違約概率進(jìn)行預(yù)測。模型主要包括線性回歸(Linear Regression, LR)[5]、Logitics回歸(Logitics reGression, LG)[6-7]、支持向量機(jī)(Support Vector Machine, SVM)[8]、核模型(Kernel-Based Model, KBM)[8]、貝葉斯網(wǎng)絡(luò)(Bayesian network)[9-10]等,使用最普遍是LR、LG、SVM等模型。
但由于P2P貸款中借貸雙方信息不對稱性,借款人存在較大道德風(fēng)險(xiǎn),其提供信息的完整性和真實(shí)性很難保證,故基于這些信息所進(jìn)行預(yù)測的準(zhǔn)確性也受到較大限制[4,11]。
P2P貸款是多對多的投資方式,即一筆貸款由多名投資人投資,而一名投資人也可以投資多筆貸款,兩者之間的關(guān)系如圖1所示,其中psi、pfi、investi分別是投資人i的投資穩(wěn)定率、投資收益率和投資貸款數(shù)量,Bidi, j和Ratei, j分別為投資人i對貸款j的投資金額和出價(jià)利率,debtj是貸款j的投資人數(shù)量。
圖1 P2P貸款與投資人之間的關(guān)聯(lián)關(guān)系Fig. 1 Relationship between P2P loans and lenders
針對借款人提供信息真實(shí)性無法得到有效保障的問題,文獻(xiàn)[12-14]中提出了基于貸款投資人端信息對P2P貸款違約率進(jìn)行預(yù)測,并取得了較好效果。該預(yù)測模型基于投資人穩(wěn)定性(Lender Stability, LS)保持不變的假設(shè),具體如式(1)所示:
(1)
其中:wi為投資人i的權(quán)重因子,其計(jì)算方式為投資人對該筆貸款的投資金額Bidi, j占該筆貸款總金額的比例;psi為投資人歷史投資穩(wěn)定率,即其投資中狀態(tài)為正常的投資金額與其總投資金額的比率;參數(shù)normali為投資人i所投資的狀態(tài)為正常的貸款數(shù)量。
LS模型利用投資人端的信息進(jìn)行貸款違約預(yù)測,避免了借款人提供不真實(shí)借款信息的道德風(fēng)險(xiǎn),但其假設(shè)投資人所投貸款穩(wěn)定性趨同的假設(shè),并未考慮P2P貸款之間以及投資人之間的差異性。不同的貸款具有不同利率,即使相同的違約概率也可能帶來不同的收益,而不同投資人由于在風(fēng)險(xiǎn)偏好、投資效用、投資能力、所掌握信息等方面存在的差異,也會影響其投資判斷和決策。另外,該模型按投資金額比例來計(jì)算投資者相對貸款的權(quán)重,并未考慮不同投資者以往在投資總量、投資分布等方面的差異。
本文基于投資效用理論,對投資人的投資偏好、投資判斷等進(jìn)行量化定義和測算,提出了基于投資人效用(Lender Utility, LU)的貸款違約預(yù)測模型。同時,借鑒信息檢索中的詞頻-逆文本頻率(Term Frequency-Inverse Document Frequency, TF-IDF)算法,對投資人與貸款之間的關(guān)聯(lián)權(quán)重因子進(jìn)行優(yōu)化,以期進(jìn)一步提升預(yù)測準(zhǔn)確性。
表1 符號和定義Tab. 1 Symbols and definitions used in this paper
假設(shè)1 貸款狀態(tài)只包括正常(Normal)與違約(Default),不考慮還款延遲(Late)等情況。
假設(shè)2 所有貸款為無抵押擔(dān)保,一旦出現(xiàn)違約,將該筆貸款的總額都記為損失,不考慮已收回還款金額。
假設(shè)3 投資者的風(fēng)險(xiǎn)偏好和投資目標(biāo)是穩(wěn)定和持續(xù)的,投資者將不斷學(xué)習(xí)提升投資能力,以達(dá)到自己預(yù)期的投資收益。
假設(shè)4 投資者是理性的,能充分利用自身知識和掌握的各類信息,作出自身認(rèn)為最優(yōu)的投資判斷和決策。
假設(shè)5 貸款成立前經(jīng)過充分競價(jià),即有足夠多的投資者提出投資意向,包括投資金額及可接受的最低利率,如果該筆貸款成立,將按照投資者提出的利息報(bào)價(jià)從低向高逐筆匹配投資金額[1,15]。
3.2.1 貸款收益率與違約率之間的關(guān)系
根據(jù)假設(shè)1,貸款的違約率與正常率之間滿足關(guān)系pnj=1-pdj,即預(yù)測貸款的違約率與預(yù)測其正常率實(shí)現(xiàn)了統(tǒng)一。而根據(jù)假設(shè)2,貸款預(yù)期收益率可由預(yù)期回報(bào)利率減去預(yù)期損失率得到,即profitj=rj*pnj-pdj,其中rj是貸款j最終成立時的利率,profitj是該筆貸款的預(yù)期收益率。將這兩個等式聯(lián)立,即可以得到貸款收益率與正常率之間的關(guān)系。
profitj=(1+rj)*pnj-1
(2)
3.2.2 考慮投資人投資效用的差異性
根據(jù)假設(shè)3,投資人的投資收益率pfi從長期來看將趨于穩(wěn)定,可通過其歷史投資盈利(正常貸款的利息收益-減去違約貸款損失),與其歷史投資總額的比率來計(jì)算。
(3)
基于經(jīng)濟(jì)學(xué)中效用理論,不同投資人有不同的投資偏好,但所有投資人都追求效用最大化,即在承擔(dān)相同風(fēng)險(xiǎn)時追求投資收益最大化,或是獲得相同投資收益時承擔(dān)最小的風(fēng)險(xiǎn)[16]。根據(jù)假設(shè)4,投資人會基于自己的投資知識和所掌握的各類信息,對貸款未來是否正常的概率pnj進(jìn)行預(yù)測,然后以自己的投資目標(biāo)收益率為基線,盡可能地提高利率報(bào)價(jià),以期盡可能地獲得更高投資收益。
但與此同時,基于假設(shè)5,貸款在成立前將經(jīng)過充分的利率競價(jià)過程,投資者為了投資成功,將不斷降低對該筆貸款的利率報(bào)價(jià)Ratei, j,從而該筆貸款的預(yù)期收益率也在不斷降低,直到回到投資人的目標(biāo)投資收益率底線,即profitj=pfi,如果競爭進(jìn)一步拉低該筆貸款的利率報(bào)價(jià),投資人判斷預(yù)期收益率過低,將放棄投資該筆貸款。最終,該筆貸款的利率報(bào)價(jià)將實(shí)現(xiàn)市場出清(market clearing)[17],即所有投資人只能實(shí)現(xiàn)其各自的目標(biāo)投資收益率,無法獲得任何超額收益。
由此,可以借助投資人的歷史收益率、貸款利率報(bào)價(jià)等信息,推算投資人是如何評估某筆貸款的正常概率的,具體方法如式(4)所示:
pfi=profitj=(1+Ratei, j)*pn_bidi, j-1 ?
(4)
在式(4)基礎(chǔ)上,考慮將貸款所有投資人預(yù)測的違約概率進(jìn)行加權(quán)匯總,權(quán)重因子依然按照投資金額比例進(jìn)行計(jì)算,可以建立基于投資人效用的P2P貸款違約預(yù)測模型,具體如式(5)所示。
(5)
基于投資人信息的P2P貸款違約預(yù)測模型,很關(guān)鍵的一點(diǎn)就是更準(zhǔn)確地度量投資人與貸款之間的相關(guān)性,即不同投資人的權(quán)重計(jì)算因子。目前研究中該因子的計(jì)算方式比較簡單,即依照投資人投入資金的比例來計(jì)算投資人對貸款的權(quán)重,該方法將所有投資人都等同看待,并未考慮不同投資人在投資總量、投資分布等方面的差異性。
信息檢索領(lǐng)域一個比較重要的研究內(nèi)容就是詞語與文章之間關(guān)聯(lián)關(guān)系。一篇文章包含了不同的詞語,一個詞語也可以出現(xiàn)在多篇文章之中,兩者關(guān)系如圖2所示。對比圖1和圖2可以發(fā)現(xiàn),投資人對P2P貸款進(jìn)行投資,與詞語組成文章的關(guān)聯(lián)關(guān)系非常類似,本文考慮借鑒信息檢索中比較成熟的技術(shù)和算法,以期更好地利用投資人的信息對P2P貸款違約進(jìn)行預(yù)測。
圖2 信息檢索研究中文章與詞語之間的關(guān)聯(lián)關(guān)系Fig. 2 Relationship between documents and words in information retrieval research
TF-IDF(Term Frequency-Inverse Document Frequency)是一種信息檢索研究中常用的加權(quán)算法,其核心思想是字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降[18-19]。
借鑒TF-IDF算法,本文對投資人相對于貸款的權(quán)重因子計(jì)算方法進(jìn)行了優(yōu)化,在原有的投資占比因子(類TF)基礎(chǔ)上,增加投資者的逆向投資比例因子(類IDF),于是在投資人效用的預(yù)測模型基礎(chǔ)之上,建立了基于TF-IDF算法的P2P貸款違約預(yù)測模型,其計(jì)算方法如式(6)所示。
(6)
算法1 計(jì)算投資人歷史投資收益率。
算法說明 遍歷投資人所有的歷史投資貸款,基于各筆貸款的違約情況、投資金額和利率,根據(jù)式(3)計(jì)算該投資人的歷史投資收益率。
輸入 投資人所有貸款的集合Loani。
輸出pf。
初始化pf=0,Sum=0,Earning=0。
Fori=1 tondo
Sum=Sum+Loani.BidAmount
//記錄投資總額
IfLoani.Status=′Default′ Then
//貸款違約了
Earning=Earn-Loani.BidAmount
//全部投資金額被作為損失從投資盈利中扣減
Else
//貸款狀態(tài)正常
Earning=Earning+Loani.BidAmount*Loani.Rate
//將投資收益(投資額與利率的乘積)計(jì)入投資盈利
End if
End for
pf=Earning/Sum
//計(jì)算總的投資收益率
算法2 基于pLU2模型測算貸款正常率。
算法說明 遍歷某筆貸款所有的合格投資人(投資數(shù)量或投資收益達(dá)到一定要求),基于其歷史投資收益率、利率出價(jià)、歷史投資數(shù)量等信息,根據(jù)式(6)測算該筆貸款的正常概率。
輸入 貸款Loan,貸款所有競價(jià)的集合Bidi。
輸出Pn。
初始化tf=0,idf=0,Pn′=0,Pn=0。
Fori=1 tondo
IfBidi.LenderStatus=′Qualified′ Then
/*是否為合格投資人,即歷史投資數(shù)量、歷史投資收益率等滿足一定要求,設(shè)置此條件是為了避免缺乏經(jīng)驗(yàn)的投資人,因其投資表現(xiàn)波動隨機(jī)性過大,對預(yù)測結(jié)果的穩(wěn)定性產(chǎn)生影響*/
CheckRelativity(Loan,Bidi.Lender)
/*檢查當(dāng)前貸款是否計(jì)入投資人的投資歷史,如果是則將其從投資人的投資歷史中剝離,以防造成預(yù)測結(jié)果的過擬合*/
tf=Bidi.BidAmount/Loan.Sum
//計(jì)算TF權(quán)重因子
idf=Ln(Tloan/Bidi.LenderInvest+1)
/*計(jì)算IDF權(quán)重因子,分母加1的處理,是為了避免首次投資的投資人其投資數(shù)量為0的情況*/
IfBidii.LenderProfit /*如果該投資人歷史收益率低于本筆貸款的利率,則推算的概率不高于1*/ Pn′=(1+Bidii.LenderProfit)/(1+Bidi.Rate) /*從投資人效用角度推測的貸款正常預(yù)期概率*/ Else Pn′=1 /*如果該投資人歷史收益率超過了本筆貸款利率,則進(jìn)行修正,即推算的概率最高為1*/ End if Pn=Pn+tf*idf*Pn′ //加權(quán)匯總所有投資人的預(yù)測結(jié)果 End if End for 目前國內(nèi)大部分P2P平臺貸款業(yè)務(wù)數(shù)據(jù)開放程度相對都不高,尤其是貸款違約情況、投資人投資情況等數(shù)據(jù)基本不公開。本文使用的實(shí)證數(shù)據(jù)來自美國的P2P借貸平臺Prosper.com,除了貸款、借款人、投資者、是否違約等信息外,還包括了貸款競價(jià)(Bid)過程的相關(guān)信息(如投資金額、利率出價(jià)等),這為驗(yàn)證基于投資人信息的預(yù)測模型提供了數(shù)據(jù)基礎(chǔ)[20]。 實(shí)驗(yàn)數(shù)據(jù)中貸款總數(shù)量為49 988筆,訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集共分為10組,采取放回取樣的方式隨機(jī)進(jìn)行抽取,訓(xùn)練數(shù)據(jù)集大小為1 000筆,測試數(shù)據(jù)集分別為1 000筆、3 000筆、5 000筆、8 000筆和全部貸款。表2是各數(shù)據(jù)集的平均統(tǒng)計(jì)信息,可以發(fā)現(xiàn)各數(shù)據(jù)集中違約貸款的比率基本一致,不存在不平衡情況。 表2 訓(xùn)練數(shù)據(jù)集與測試數(shù)據(jù)集的統(tǒng)計(jì)信息Tab. 2 Statistics of training datasets and test datasets ROC(Receiver Operating Characteristic)曲線和AUC(Area Under Curve)值常被用來評價(jià)一個二值分類器(binary classifier)的優(yōu)劣。ROC曲線最早運(yùn)用在軍事上,后來逐漸運(yùn)用到醫(yī)學(xué)領(lǐng)域,再被運(yùn)用到統(tǒng)計(jì)分析研究中,其可準(zhǔn)確反映某分析方法特異性和敏感性的關(guān)系[21-22]。 ROC曲線以下部分的面積即為AUC,AUC值可以解釋為任取一對(正、負(fù))樣本,正樣本的預(yù)測值大于負(fù)樣本預(yù)測值的概率[23]。AUC值越高表示模型預(yù)測效果越好,而且其具有一致性和穩(wěn)定性的特點(diǎn),即不受判斷閾值選擇影響,且即使測試集中正負(fù)樣本分布不平衡,AUC值也能保持穩(wěn)定,故本文采用AUC值對各模型的預(yù)測效果進(jìn)行比較和分析。 進(jìn)行驗(yàn)證對比的模型共6種,分別是線性回歸(LR)、Logitics回歸(LG)、支持向量機(jī)(SVM)、基于投資者穩(wěn)定性(LS)、基于投資者效用(LU)、TF-IDF算法優(yōu)化后的基于投資者效用(LU2)。 4.3.1 各模型預(yù)測結(jié)果ROC曲線對比 各模型預(yù)測結(jié)果的ROC曲線對比見圖3,為測試數(shù)據(jù)集為1 000筆貸款的預(yù)測結(jié)果,其中:假陽性概率(False Positive Rate, FPR)是指實(shí)際違約了的貸款(False)被預(yù)測為正常(Positive)的概率;真陽性概率(True Positive Rate,TPR)是指實(shí)際正常的貸款(True)被預(yù)測為正常(Positive)的概率,即召回率(Recall)。 圖3 各模型預(yù)測結(jié)果的ROC曲線對比Fig. 3 Comparison of ROC curves of prediction results by different models 可以看到實(shí)驗(yàn)結(jié)果中基于借款人信息預(yù)測模型(LR、LG、SVM)的ROC曲線,處于基于投資人信息預(yù)測等模型(LS、LU、LU2)ROC曲線的右下部,即在相同TPR值時,前一類預(yù)測模型具有更高FPR值,也就是更容易將實(shí)際違約的貸款預(yù)測為正常,這說明了基于借款人信息的預(yù)測模型更容易受到借貸人提供不真實(shí)信息影響。而LU2模型預(yù)測結(jié)果的ROC曲線一直保持在左上區(qū)域,這表明該模型預(yù)測效果最為理想。 4.3.2 各模型預(yù)測結(jié)果的AUC值對比 各模型預(yù)測結(jié)果的AUC值見表3,可以發(fā)現(xiàn)基于借款人信息的預(yù)測模型表現(xiàn)非常接近(LG比LR稍好,SVM表現(xiàn)最差),但都與基于投資人信息的幾個預(yù)測模型存在明顯的差距。本文提出的基于投資人效用(LU)模型的預(yù)測準(zhǔn)確性明顯較高,而經(jīng)過TF-IDF算法優(yōu)化權(quán)重后的LU2模型,預(yù)測準(zhǔn)確率更是進(jìn)一步提升,這進(jìn)一步驗(yàn)證了通過投資人的信息進(jìn)行預(yù)測能更有效地避免借貸雙方的信息不對稱性問題。 表3 各模型預(yù)測結(jié)果AUC值Tab. 3 AUC values of prediction results by different models 表4是LU2與其他模型在預(yù)測準(zhǔn)確性方面的比較情況。LU2模型在不同測試數(shù)據(jù)集上都取得了最好的預(yù)測準(zhǔn)確性,相對于基于投資人穩(wěn)定性(LS)模型,LU2模型預(yù)測準(zhǔn)確性平均提高了2.38%,而相比基于借款人信息的模型(LR、LG、SVM) 更是提高了5.76%至6.16%。 表4 LU2相比其他模型的預(yù)測準(zhǔn)確性提高比例Tab. 4 Prediction accuracy improvement of LU2 compared to other models P2P貸款的業(yè)務(wù)模式要求投資者對貸款違約率進(jìn)行更準(zhǔn)確的預(yù)測。傳統(tǒng)方法是使用線性回歸等模型,基于借款人提供的各類信息進(jìn)行預(yù)測,其效果受借貸雙方信息不對稱性限制。近期相關(guān)研究提出了利用貸款投資者端信息進(jìn)行預(yù)測的方法,但并未考慮不同投資人在風(fēng)險(xiǎn)偏好、投資效用、歷史投資分布情況等方面的差異。 本文利用來自投資人的投資歷史收益率、貸款利率出價(jià)等信息,提出了一種基于投資人效用的P2P貸款違約預(yù)測模型,并借鑒信息檢索領(lǐng)域的TD-IDF算法,構(gòu)造了投資人逆向投資比例因子,以更準(zhǔn)確地量化和度量不同投資人對貸款違約概率預(yù)測的計(jì)算權(quán)重。通過實(shí)際P2P貸款數(shù)據(jù)的實(shí)證比較,本文所提模型的預(yù)測準(zhǔn)確性與其他模型相比表現(xiàn)最優(yōu),并且在不同測試數(shù)據(jù)集上均表現(xiàn)穩(wěn)定。后續(xù)可在通過集成學(xué)習(xí)方法[24-25]整合基于借款人信息和基于投資人信息的兩類模型,以及增加對投資人投資行為動態(tài)時序分析等方面開展進(jìn)一步的研究。4 模型實(shí)證結(jié)果比較與分析
4.1 實(shí)驗(yàn)數(shù)據(jù)說明
4.2 模型預(yù)測效果比較的方法
4.3 實(shí)證結(jié)果分析
5 結(jié)語