朱益冬,陳玉明*,盧俊文,曾念峰
(1.廈門理工學(xué)院計(jì)算機(jī)與信息工程學(xué)院,福建 廈門 361024;2.易成功(廈門)信息科技有限公司,福建 廈門 361024)
隨著個(gè)人借貸需求的不斷增長(zhǎng),加上互聯(lián)網(wǎng)和金融的優(yōu)勢(shì)互補(bǔ)[1],P2P平臺(tái)[2-3]應(yīng)運(yùn)而生。2007年8月,中國(guó)第一個(gè)P2P網(wǎng)貸平臺(tái)拍拍貸誕生[4],此后P2P行業(yè)[5]進(jìn)入飛速發(fā)展階段。但網(wǎng)貸平臺(tái)的不規(guī)范經(jīng)營(yíng)給平臺(tái)機(jī)構(gòu)、融資者和投資者等帶來一系列風(fēng)險(xiǎn)。特別是到2018年下半年,多家網(wǎng)絡(luò)借貸平臺(tái)集中爆雷,對(duì)行業(yè)聲譽(yù)造成了較大負(fù)面影響。如何對(duì)借款人的信用進(jìn)行評(píng)估[5-6],成為規(guī)范社會(huì)和金融穩(wěn)定發(fā)展的關(guān)鍵問題。
眾多學(xué)者應(yīng)用機(jī)器學(xué)習(xí)的方法在信用評(píng)估領(lǐng)域作了許多深入研究。普雪飛[7]提出了一種P2P網(wǎng)貸信用風(fēng)險(xiǎn)量化評(píng)估模型,基于P2P平臺(tái)Lending Club的真實(shí)借款數(shù)據(jù),利用邏輯回歸算法構(gòu)建借款人信用評(píng)估方法。劉瀟雅等[8]提出基于支持向量機(jī)集成的個(gè)人信用評(píng)估研究,該方法較單一SVM模型和傳統(tǒng)集成方法效能明顯提高。然而這些研究都是將國(guó)外數(shù)據(jù)集作為考察對(duì)象,并且采用的模型都是傳統(tǒng)的機(jī)器學(xué)習(xí),難以擬合復(fù)雜多變的指標(biāo),使得預(yù)測(cè)精確度不高。王冬一等[9]提出基于大數(shù)據(jù)技術(shù)的個(gè)人信用動(dòng)態(tài)評(píng)價(jià)指標(biāo)體系研究的方法,選擇較新的算法進(jìn)行實(shí)驗(yàn),然而缺乏對(duì)多維度數(shù)據(jù)進(jìn)行算法的優(yōu)化整合和應(yīng)用對(duì)比。王重仁等[10]提出融合深度神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估方法,采用基于注意力機(jī)制的長(zhǎng)短期記憶(long short-term memory,LSTM)模型和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)模型2個(gè)子模型。吳斌等[11]展開對(duì)P2P網(wǎng)貸個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型研究,提出一種混合果繩神經(jīng)網(wǎng)絡(luò)的方法,有效提升了個(gè)人信用違約預(yù)測(cè)精確度。Song等[12]提出基于距離模型和自適應(yīng)聚類的多視角集成學(xué)習(xí),并用于P2P借貸中不平衡信用風(fēng)險(xiǎn)評(píng)估,然而無法在準(zhǔn)確性和多樣性上做到很好的權(quán)衡。Akanmu等[13]提出一種基于提升決策樹模型的P2P借貸違約預(yù)測(cè)方法,在美國(guó)小企業(yè)管理局公開可用的貸款管理數(shù)據(jù)集上取得了非常好的擬合效果。Cai[14]基于隨機(jī)森林的P2P網(wǎng)絡(luò)借貸違約分析,利用SMOTE算法平衡借貸數(shù)據(jù)集,并應(yīng)用隨機(jī)森林和交叉驗(yàn)證對(duì)特征進(jìn)行選擇。馬春文等[15]基于隨機(jī)森林分類模型對(duì)P2P網(wǎng)貸借款標(biāo)的信用風(fēng)險(xiǎn)因子進(jìn)行研究。Liu等[16]提出一種粗糙集的方法進(jìn)行信用評(píng)估,盡管粗糙集模型的分類精度不如決策樹、邏輯回歸和神經(jīng)網(wǎng)絡(luò)模型,但粗糙集模型更準(zhǔn)確地預(yù)測(cè)信用不良的用戶。盡管這些方法都取得了不錯(cuò)的識(shí)別率,但是由于結(jié)構(gòu)復(fù)雜,缺乏可解釋性,難以對(duì)具體指標(biāo)展開分析。
信用風(fēng)險(xiǎn)評(píng)估與預(yù)測(cè)涉及的指標(biāo)眾多,采用流行的Logistic回歸(logistic regression,LR)模型,其參數(shù)簡(jiǎn)單,難以擬合復(fù)雜多變的信用指標(biāo)。因此,針對(duì)借款人信用評(píng)估與預(yù)測(cè)問題,結(jié)合P2P平臺(tái)的特點(diǎn),本文提出基于Logistic回歸[17]和Tabnet模型[18]的融合方法,對(duì)平臺(tái)借款人違約概率進(jìn)行預(yù)測(cè)。
LR是一種廣義線性回歸分析模型[19],在二分類和多分類應(yīng)用廣泛。LR的輸出映射在0~1,而信用風(fēng)險(xiǎn)預(yù)測(cè)的概率值同樣在0~1。
根據(jù)是否違約,信用評(píng)估劃分為0和1兩類,一般地,0表示未違約,1表示違約。按照廣義線性回歸模型的思想,最理想的方法是在線性組合后,通過一個(gè)單位階躍函數(shù)將輸出結(jié)果映射到0或者1。但是這種單位階躍函數(shù)的導(dǎo)數(shù)性質(zhì)不好,不利于權(quán)重優(yōu)化,因此用其他可導(dǎo)函數(shù)形式來近似表示。sigmoid函數(shù)可以很好地近似單位階躍函數(shù),而且其導(dǎo)數(shù)性質(zhì)非常好。sigmoid函數(shù)表達(dá)式為:
(1)
sigmoid函數(shù)的坐標(biāo)如圖1所示。
圖1 sigmoid函數(shù)坐標(biāo)圖Fig.1 A sigmoid graph
sigmoid函數(shù)求導(dǎo)結(jié)果即是關(guān)于自身的一個(gè)函數(shù)。
(2)
因此,LR模型可表示為
(3)
其對(duì)數(shù)似然函數(shù)為
(4)
由于概率值的非線性,該對(duì)數(shù)似然函數(shù)的最優(yōu)w值不能直接求解,于是采用梯度下降的方式求解,經(jīng)過多次迭代即可得到最優(yōu)參數(shù)w:
(5)
式(5)中:γ為學(xué)習(xí)率;J是損失函數(shù)。
金融領(lǐng)域存在不同的數(shù)據(jù)類型,其中使用最廣泛的是表列數(shù)據(jù),它給金融行業(yè)帶來直接的商業(yè)價(jià)值。決策樹模型非常適合處理表格類型的數(shù)據(jù)。Tabnet的主體思想是用神經(jīng)網(wǎng)絡(luò)來表示樹模型,實(shí)驗(yàn)證明,Tabnet在處理表列數(shù)據(jù)的表現(xiàn)已經(jīng)超過了GBDT[20]。
Tabnet使用序列化的注意力機(jī)制來選擇在每個(gè)決策步驟中要推理的特征,從而學(xué)習(xí)得到最顯著的特征,實(shí)現(xiàn)可解釋性和更有效的學(xué)習(xí)。Tabnet神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 Tabnet結(jié)構(gòu)Fig.2 A Tabnet architecture
由圖2可知Tabnet的具體流程:Tabnet給每個(gè)步驟傳入相同維度特征f∈RB×D,其中,B是批大小,D是特征維度;接著進(jìn)行Tabnet的編碼處理,共有多個(gè)步驟的決策,每步?jīng)Q策的輸入特征受前一步信息影響;然后輸出處理好的特征表征結(jié)果和單步預(yù)測(cè)向量;最后將特征表征結(jié)果相加得到全局特征重要性,預(yù)測(cè)向量多步累加經(jīng)過全連接層得到最終輸出,完成預(yù)測(cè)。
從結(jié)構(gòu)上看,Tabnet從左到右由多個(gè)步驟的子模塊組成,每個(gè)步驟關(guān)注不同層級(jí)的特征。單個(gè)步驟包含注意力機(jī)制變換器、特征變換器及一些輔助的運(yùn)算。注意力機(jī)制變換器的作用是輸出特征的掩碼,用于衡量每個(gè)特征的重要程度,而特征變換器的作用是特征的提取,生成對(duì)樣本屬性更有效的表征。
注意力機(jī)制變換器輸出一個(gè)掩碼來進(jìn)行特征選擇,其掩碼M[i]計(jì)算公式為
M[i]=sparsemax(P[i-1]·hi(a[i-1]))。
(6)
為了達(dá)到選擇特征掩碼的稀疏性,在損失函數(shù)上加了正則項(xiàng)Lsparse,其公式為
(7)
式(7)中:Nsteps是步驟數(shù);B是批次的大?。籇是特征維度。
特征變換器的作用是特征的提取,包括共享參數(shù)層和獨(dú)立決策層,共享參數(shù)層以步驟參數(shù)共享,獨(dú)立決策層參數(shù)只由該步驟訓(xùn)練得到。一般是兩層參數(shù)共享,兩層獨(dú)立決策,構(gòu)成都是批正則化加ReLU激活函數(shù),融合殘差連接。掩碼與原始特征內(nèi)積通過特征變換器后在分割層進(jìn)行,其公式為
(8)
式(8)中:d[i]作為最終結(jié)果輸出;a[i]作為下一步注意力機(jī)制變換器的輸入。
最后是特征屬性的輸出,它刻畫的是特征的全局重要性。模型先對(duì)一個(gè)步驟的輸出向量求和,得到一個(gè)標(biāo)量,這個(gè)標(biāo)量反映了這個(gè)步驟對(duì)于最終結(jié)果的重要性,那么它乘以這個(gè)步驟的掩碼矩陣就反映了這個(gè)步驟中每個(gè)特征的重要性,將所有步驟的結(jié)果加起來,就得到了特征的全局重要性。
總體上,Tabnet是一種類似于加性模型的神經(jīng)網(wǎng)絡(luò),它采用的是順序多步的框架,很好地將樹模型的可解釋性與深度神經(jīng)網(wǎng)絡(luò)的表征能力結(jié)合在了一起。
LR是當(dāng)前智能金融使用最廣泛且比較成熟的信用評(píng)估方法,具有解釋性強(qiáng)、簡(jiǎn)單易于理解、穩(wěn)定性高等優(yōu)勢(shì)。然而,LR要求解釋變量和事件發(fā)生的概率是線性關(guān)系,因此很可能會(huì)出現(xiàn)欠擬合及預(yù)測(cè)的精確度下降的情況。相反,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)精確度較高,但是缺乏解釋性,不能很好確定各變量之間的關(guān)系,并且穩(wěn)定性較差。
為了將LR與神經(jīng)網(wǎng)絡(luò)結(jié)合起來,既能展示LR的穩(wěn)定性和解釋性,又能運(yùn)用神經(jīng)網(wǎng)絡(luò)提高精確度,達(dá)到最優(yōu)的預(yù)測(cè)效果,本文提出了一種融合LR與Tabnet神經(jīng)網(wǎng)絡(luò)的算法。
該融合算法采用自頂向下的組合方式,將兩個(gè)單一的模型連接。具體地,首先,將Tabnet預(yù)測(cè)出借款人的違約概率值作為一個(gè)新特征,同時(shí)Tabnet分析特征的重要性,剔除特征重要性為0的特征。其次,將二者結(jié)合作為L(zhǎng)R模型的輸入變量。Tabnet是神經(jīng)網(wǎng)絡(luò)模型,其分類效果較好。這樣既能保留LR模型的可解釋性和穩(wěn)定性,又能得到Tabnet神經(jīng)網(wǎng)絡(luò)模型的高精確度。融合分類方法的過程如下:
1)獲取數(shù)據(jù)集,得到數(shù)據(jù)集之后,分析數(shù)據(jù)集特點(diǎn),對(duì)數(shù)據(jù)進(jìn)行清洗和加工預(yù)處理。
2)采用IV和Pearson方法進(jìn)行變量篩選,剔除大量冗余及分類相關(guān)性較低的特征。本實(shí)例經(jīng)過這個(gè)步驟篩選出16個(gè)解釋變量。
3)數(shù)據(jù)集劃分為訓(xùn)練集與測(cè)試集,并構(gòu)建Tabnet模型。根據(jù)網(wǎng)格搜索法尋找最優(yōu)參數(shù),設(shè)置好參數(shù)后,將訓(xùn)練數(shù)據(jù)輸入Tabnet進(jìn)行學(xué)習(xí),Tabnet輸出的原始預(yù)測(cè)結(jié)果作為新的特征。
4)將Tabnet模型作為進(jìn)一步特征選擇的工具,通過分裂增益特征選擇,輸出每個(gè)特征的重要性值,對(duì)前期篩選的16個(gè)變量進(jìn)行特征選擇,剔除特征重要性為0的特征,加上Tabnet預(yù)測(cè)所構(gòu)造的新特征,得到新的數(shù)據(jù)集,最后將新的數(shù)據(jù)樣本用于Logistic回歸模型進(jìn)行分類訓(xùn)練,得到最終的預(yù)測(cè)模型。
5)將測(cè)試集數(shù)據(jù)用于該融合模型預(yù)測(cè),根據(jù)模型評(píng)價(jià)指標(biāo)來分析模型的優(yōu)劣。
圖3為L(zhǎng)R與Tabnet模型融合訓(xùn)練過程的示意圖。
圖3 LR與Tabnet融合模型步驟Fig.3 Model fusion steps of LR and Tabnet
利用爬蟲技術(shù)獲取人人貸借款人的資料信息,爬取的時(shí)間是2010—2019年。共獲取滿標(biāo)數(shù)據(jù)共500 000余條,其中違約數(shù)據(jù)共4 000余條。隨機(jī)選取違約樣本2 000條??紤]人人貸最長(zhǎng)的還款期限為36個(gè)月,也就是最晚2017年放貸的樣本,要在2019年底才可以觀察到借款人是否還清貸款,則違約樣本時(shí)間范圍在2010—2017年。因此,在2010—2017年采用隨機(jī)采樣的方式抽取樣本,共獲得樣本容量為24 000余條的樣本集,每個(gè)樣本的特征維度是41。剔除了一些無用的解釋變量,將一些變量進(jìn)行組合,對(duì)離散型變量使用標(biāo)簽進(jìn)行編碼,對(duì)連續(xù)型變量采用信息價(jià)值法和Pearson分析法進(jìn)行篩選,最后確定入模變量共16個(gè),具體如表1所示。
表1 入模變量Table 1 Variables into the model
將數(shù)據(jù)集按照3∶1劃分成訓(xùn)練集和測(cè)試集。訓(xùn)練集共18 000條,用作模型的訓(xùn)練;測(cè)試集共6 000條,隨機(jī)劃分為3等分,用作模型的效果評(píng)估。樣本數(shù)據(jù)劃分情況如表2所示。
表2 樣本集劃分情況Table 2 A sample set splitting 單位:個(gè)
為了提高收斂速度、模型的穩(wěn)定性和精確度,需要先對(duì)輸入數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即將數(shù)據(jù)按照行、列或者其他屬性值減去其均值再除以其標(biāo)準(zhǔn)差,所得到的數(shù)據(jù)都聚集在0附近。
本文評(píng)估指標(biāo)為準(zhǔn)確率、精確率。根據(jù)真實(shí)數(shù)據(jù)標(biāo)簽和模型預(yù)測(cè)標(biāo)簽組合,將結(jié)果分為以下4類:
1)真正例(TP),該網(wǎng)貸樣本是違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后也是違約樣本實(shí)例。
2)假正例(FP),該網(wǎng)貸樣本是未違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后卻是違約樣本實(shí)例。
3)真反例(TN),該網(wǎng)貸樣本是未違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后也是未違約樣本實(shí)例。
4)假反例(FN),該網(wǎng)貸樣本是違約樣本數(shù)據(jù)且經(jīng)過模型預(yù)測(cè)后為未違約樣本實(shí)例。
本實(shí)驗(yàn)在操作系統(tǒng)為Window11、顯卡為GTX1650、內(nèi)存為32 GB的電腦上進(jìn)行模型搭建調(diào)試和訓(xùn)練,數(shù)據(jù)分析依賴python的pandas庫,邏輯回歸模型基于scikit-learn實(shí)現(xiàn),Tabnet基于開源框架pytorch實(shí)現(xiàn)。
首先對(duì)單個(gè)Logistic回歸和Tabnet模型分別實(shí)驗(yàn),然后對(duì)Tabnet-LR模型進(jìn)行實(shí)驗(yàn),最后以acc和pr作為評(píng)價(jià)指標(biāo),橫向比較多個(gè)常用的機(jī)器學(xué)習(xí)算法。
3.3.1 LR模型實(shí)驗(yàn)
LR作為本實(shí)驗(yàn)的預(yù)測(cè)模型,滿足本文研究預(yù)測(cè)風(fēng)險(xiǎn)的需要。將被解釋變量借款狀態(tài)1或0作為二分類變量,Y=0表示未違約,Y=1表示違約。前面確定了16個(gè)指標(biāo)作為解釋變量,使用scikit-learn 中的Logistic Regression建立本實(shí)驗(yàn)的Logistic回歸模型,通過scikit-learn的網(wǎng)格搜索法得到最優(yōu)超參數(shù),具體超參數(shù)組合如表3所示。
表3 LR超參數(shù)值Table 3 LR hyper parameters
設(shè)定好超參數(shù)后,將訓(xùn)練數(shù)據(jù)集使用5折交叉驗(yàn)證的方法分成5等分進(jìn)行實(shí)驗(yàn),得到最優(yōu)的Logistic回歸分類模型。
3.3.2 Tabnet模型實(shí)驗(yàn)
Tabnet模型是基于pytorch的Tabnet網(wǎng)絡(luò),TabnetClassifier是Tabnet用于分類的函數(shù)庫,該網(wǎng)絡(luò)適用于二分類。使用scikit-learn的網(wǎng)格搜索最優(yōu)參數(shù),各超參數(shù)的值是:max_epochs為50,即最大迭代次數(shù)是50;patience為10,即模型迭代10次,loss不降低,則提前停止訓(xùn)練;batch_size設(shè)為1 024;virtual_batch_size設(shè)為128;num_workers設(shè)為0;weights設(shè)1;drop_last設(shè)為False;其他為默認(rèn)超參數(shù)。設(shè)定好超參數(shù)后,將訓(xùn)練數(shù)據(jù)集使用5折交叉驗(yàn)證的方法分成5等分進(jìn)行實(shí)驗(yàn),訓(xùn)練Tabnet模型。結(jié)合Tabnet模型類似于樹模型選擇最優(yōu)特征劃分的原理,輸出特征重要性,具體如圖4所示。
圖4 特征重要性Fig.4 Importances of features
3.3.3 LR-Tabnet融合模型實(shí)驗(yàn)
表4 LR回歸、Tabnet模型和LR-Tabnet模型評(píng)價(jià)結(jié)果Table 4 Evaluation results of LR regression,Tabnet model and Tablet-LR model
由表4可見,測(cè)試集1和測(cè)試集3中組合模型的預(yù)測(cè)準(zhǔn)確率均高于其他單個(gè)模型,組合模型的預(yù)測(cè)精確率在所有測(cè)試集上均優(yōu)于其他模型的。組合模型的精確度和準(zhǔn)確度明顯優(yōu)于LR模型,說明組合模型極大改善了LR模型的預(yù)測(cè)能力。在準(zhǔn)確率和精確率上,組合模型的標(biāo)準(zhǔn)差均低于其他模型的,說明組合模型有很好的穩(wěn)定性。
經(jīng)典的機(jī)器學(xué)習(xí)的分類算法有KNN、SVM、樸素貝葉斯和決策樹。本文采用acc(準(zhǔn)確度)和pr(精確度)來評(píng)價(jià)預(yù)測(cè)算法的能力。每個(gè)模型均采用網(wǎng)格搜索法設(shè)定最優(yōu)的超參數(shù)。實(shí)驗(yàn)均采用5折交叉驗(yàn)證的方式選取最優(yōu)模型。各分類器的評(píng)估結(jié)果如表5所示。
表5 各算法的分類性能比較Table 5 Classification performance of algorithms compared 單位:%
由表5可見,LR-Tabnet模型在3個(gè)測(cè)試集上要優(yōu)于其他算法,其次是決策樹分類。特別是在測(cè)試集1和測(cè)試集3上,LR-Tabnet模型的精確率比樸素貝葉斯分類器的提升了近17%,說明該融合算法是有效的。
在實(shí)際場(chǎng)景中,不僅要滿足模型的效果,通常還會(huì)分析特征對(duì)模型結(jié)果的影響,這對(duì)解決現(xiàn)實(shí)問題至關(guān)重要。使用python的statsmodels包查看LR中的重要參數(shù)。R-squread是自變量與因變量直接關(guān)聯(lián)強(qiáng)度的檢驗(yàn)參數(shù),得到參數(shù)R-squared為0.95,接近于1,可知變量之間的關(guān)聯(lián)性很強(qiáng),模型的擬合優(yōu)度好。
coef是每個(gè)變量的估計(jì)系數(shù),P值表示變量在邏輯回歸中起到的作用。一般認(rèn)為,P值小于0.05的自變量是顯著的,統(tǒng)計(jì)表明,該變量會(huì)影響被解釋變量為1的概率(即借款人違約的概率)。[0.025,0.975]是回歸系數(shù)的置信區(qū)間的下限、上限,某個(gè)回歸系數(shù)的置信區(qū)間以 95%的置信度包含該回歸系數(shù)。
在融合模型中,Tabnet預(yù)測(cè)出借款人的違約概率值作為一個(gè)新特征,同時(shí)Tabnet分析特征重要性,剔除特征重要性為0,最后輸入Logistic回歸模型中訓(xùn)練的7個(gè)變量,觀察這7個(gè)變量P值、std err、coef值等,結(jié)果如表6所示。
表6 變量特征權(quán)重表Table 6 Weights of variable features
由此得到各變量與最終借款狀態(tài)的關(guān)系:公司規(guī)模系數(shù)為負(fù),說明公司規(guī)模與借款人違約呈負(fù)相關(guān),即公司規(guī)模越大,違約概率越低;年利率和違約概率呈正相關(guān),表明隨著年利率的增加,借款人負(fù)擔(dān)不起這么高的年利率,從而導(dǎo)致逾期;借款人還清的筆數(shù)越多,說明借款人的還款意愿越高,因此逾期的概率越低;逾期金額和逾期次數(shù)均與違約呈正相關(guān),說明逾期的金額和逾期次數(shù)增加,借款人就會(huì)更難以還上借款;信用評(píng)分反映的是借款人的綜合信用,評(píng)分越高的借款人發(fā)生違約的概率越低。
本文提出一種融合Logistic回歸與Tabnet模型的P2P網(wǎng)貸違約預(yù)測(cè)方法,在對(duì)采集到的人人貸數(shù)據(jù)進(jìn)行預(yù)處理后,將處理得到的數(shù)據(jù)運(yùn)用到LR-Tabnet模型中。針對(duì)傳統(tǒng)的單個(gè)機(jī)器學(xué)習(xí)識(shí)別分類問題存在的局限性,本文結(jié)合神經(jīng)網(wǎng)絡(luò)在處理大量樣本和高維度的人人貸數(shù)據(jù)仍具有很好學(xué)習(xí)能力的優(yōu)勢(shì),通過模型組合的方式,對(duì)比單個(gè)模型的識(shí)別準(zhǔn)確率和精確率,識(shí)別率得到了較大提升。同時(shí),不僅保留了LR的可解釋性和穩(wěn)定性,還提高了LR的識(shí)別率。融合模型在3個(gè)測(cè)試集上的平均識(shí)別準(zhǔn)確率和精確率分別是99.60%、96.72%,相比于其他2個(gè)單個(gè)模型,平均識(shí)別準(zhǔn)確率和精確率分別提升了0.88%、4.5%和0.02%、1.25%。
本文選取的人人貸平臺(tái)雖在P2P平臺(tái)中排名靠前,但也不能代表整個(gè)網(wǎng)貸平臺(tái),每個(gè)網(wǎng)貸平臺(tái)的借款人維度有所不同,需要針對(duì)具體問題具體分析。再加上沒有考慮外部經(jīng)濟(jì)因素和環(huán)境因素比如2020年初的新冠病毒侵襲的影響,本研究還存在一定的局限性,今后將采用更靈活的特征篩選和模型構(gòu)建的方式作進(jìn)一步的研究。