摘 ?要 ?從網(wǎng)貸之家網(wǎng)站上公布的6422家P2P網(wǎng)貸平臺(tái)的數(shù)據(jù),選取平臺(tái)的運(yùn)營(yíng)數(shù)據(jù)(參考收益、投資期限、是否進(jìn)行存管銀行、是否跑路)以及用戶對(duì)平臺(tái)的評(píng)價(jià)(提現(xiàn)評(píng)分、站崗評(píng)分、服務(wù)評(píng)分、體驗(yàn)評(píng)分),進(jìn)行分析并構(gòu)建一個(gè)預(yù)測(cè)P2P平臺(tái)是否跑路的數(shù)據(jù)模型。
關(guān)鍵詞 ?P2P平臺(tái) ?是否跑路 ?支持向量機(jī) ?預(yù)測(cè)模型
一、引言
1983年格萊銀行創(chuàng)建,主要業(yè)務(wù)是通過(guò)小額信貸業(yè)務(wù)來(lái)幫助窮人擺脫貧困,這是P2P最初的線下雛形。2005年英國(guó)ZOPA公司,借助網(wǎng)絡(luò)將個(gè)人借貸業(yè)務(wù)直接在互聯(lián)網(wǎng)上進(jìn)行對(duì)接,從而形成了摒棄依賴傳統(tǒng)金融行業(yè)的新模式。2007年國(guó)內(nèi)首家P2P網(wǎng)絡(luò)借貸平臺(tái)在上海成立,讓很多敢于嘗試互聯(lián)網(wǎng)投資的投資者認(rèn)識(shí)了P2P網(wǎng)絡(luò)借貸模式,其后一部分具有創(chuàng)業(yè)冒險(xiǎn)精神的投資人隨之嘗試開辦了P2P網(wǎng)絡(luò)借貸平臺(tái)。一些具有民間線下放貸經(jīng)驗(yàn)同時(shí)又關(guān)注網(wǎng)絡(luò)的創(chuàng)業(yè)者開始嘗試開設(shè)P2P網(wǎng)絡(luò)借貸平臺(tái),同時(shí)一些軟件開發(fā)公司開始開發(fā)相對(duì)成熟的網(wǎng)絡(luò)平臺(tái)模板。經(jīng)過(guò)3年爆發(fā)試增長(zhǎng),一些平臺(tái)已經(jīng)出現(xiàn)提現(xiàn)難的問題,以2015年12月e租寶倒臺(tái)為標(biāo)志,行業(yè)風(fēng)險(xiǎn)逐漸被大眾關(guān)注。
隨著P2P網(wǎng)貸的投資人群越來(lái)越多,投資金額越來(lái)越大,并且爆發(fā)e租寶事件。國(guó)家相繼出臺(tái)了3大規(guī)范文件,要求P2P網(wǎng)貸平臺(tái)合規(guī)發(fā)展,進(jìn)行詳細(xì)的信息披露、資金介入銀行存管等待,但是隨著今年全國(guó)經(jīng)濟(jì)政策的縮緊,一些風(fēng)控能力較差的P2P網(wǎng)貸平臺(tái)開始出現(xiàn)暴雷現(xiàn)象,逐漸影響了整個(gè)行業(yè)引起了一波暴雷潮,僅7月份前半個(gè)月暴雷的P2P平臺(tái)就高達(dá)131家。如何在暴雷不斷的P2P行業(yè)中進(jìn)行投資優(yōu)化,從中優(yōu)選出來(lái)資質(zhì)較好、運(yùn)營(yíng)較穩(wěn)定的平臺(tái),是擺在投資者眼前的一道不可不面對(duì)的門檻。本文收集網(wǎng)貸之家上公布的6422家P2P網(wǎng)貸平臺(tái)的數(shù)據(jù),整理投資者比較關(guān)注的P2P網(wǎng)貸平臺(tái)數(shù)據(jù),使用支持向量機(jī)對(duì)網(wǎng)貸平臺(tái)是否跑路進(jìn)行分析預(yù)測(cè),構(gòu)建出一套用于預(yù)測(cè)平臺(tái)是否跑路的數(shù)據(jù)模型。
二、相關(guān)研究
隨著P2P網(wǎng)貸模式在國(guó)內(nèi)的興起,我國(guó)學(xué)者也對(duì)P2P網(wǎng)貸平臺(tái)進(jìn)行了大量的研究分析,但都集中在P2P網(wǎng)貸平臺(tái)業(yè)務(wù)以及后期風(fēng)控研究,主要可以分為兩類。一是從P2P網(wǎng)貸業(yè)務(wù)運(yùn)營(yíng)進(jìn)行研究,鄭國(guó)良(2018)當(dāng)前P2P網(wǎng)貸平臺(tái)業(yè)務(wù)分析,并提出了P2P網(wǎng)貸平臺(tái)的選擇策略。姜琪(2018)中國(guó)P2P網(wǎng)貸平臺(tái)效率差異及成交量影響因素研究[1]。段錁(2018)我國(guó)P2P網(wǎng)貸行業(yè)的發(fā)展現(xiàn)狀、存在問題及對(duì)策[2]。二是從P2P網(wǎng)貸運(yùn)營(yíng)中遇到的監(jiān)管及借款人信用風(fēng)險(xiǎn)進(jìn)行研究[3]。馬亮(2014)P2P網(wǎng)貸的風(fēng)險(xiǎn)分析及防控對(duì)策[4]。陳偉; 涂有釗(2016)美國(guó)P2P網(wǎng)貸的發(fā)展、困境、監(jiān)管及啟示[5]。李璽; 李應(yīng)博; 馬一為(2018)我國(guó)P2P網(wǎng)貸監(jiān)管中政府治理創(chuàng)新研究[6]。
目前我國(guó)對(duì)P2P網(wǎng)貸平臺(tái)投資策略中篩選優(yōu)質(zhì)高利率的平臺(tái)研究較少。因此本文以網(wǎng)貸之家公布的6422家P2P網(wǎng)貸平臺(tái)數(shù)據(jù)為例,從平臺(tái)運(yùn)營(yíng)數(shù)據(jù)、用戶評(píng)價(jià)數(shù)據(jù)出發(fā),選取相關(guān)的樣本數(shù)據(jù),通過(guò)支持向量機(jī)進(jìn)行回歸分析構(gòu)建出用于預(yù)測(cè)P2P網(wǎng)貸平臺(tái)是否會(huì)跑路的數(shù)據(jù)模型。
三、理論依據(jù)
支持向量機(jī)(SVM)是一種常見的判別方法。在機(jī)器學(xué)習(xí)領(lǐng)域,是一個(gè)有監(jiān)督的學(xué)習(xí)模型,通常用來(lái)進(jìn)行模式識(shí)別、分類以及回歸分析。主要思想可以概括為兩點(diǎn):1、它是針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能。2、它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化理論之上在特征空間中構(gòu)建最優(yōu)超平面,使得學(xué)習(xí)器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望以某個(gè)概率滿足一定上界。
在使用SVM進(jìn)行計(jì)算時(shí)有可能會(huì)產(chǎn)生“維數(shù)災(zāi)難”,即再把樣本向高維空間做映射時(shí)會(huì)增加計(jì)算的復(fù)雜性,維度越高,復(fù)雜性就越大。為了解決“維數(shù)災(zāi)難”這一難題,SVM引入了核函數(shù)。應(yīng)用核函數(shù)的展開定理,就不需要知道非線性映射的顯式表達(dá)式;由于是在高維特征空間中建立線性學(xué)習(xí)機(jī),所以與線性模型相比,不但幾乎不增加計(jì)算的復(fù)雜性,而且在某種程度上避免了“維數(shù)災(zāi)難”。SVM常用的核函數(shù)有以下4種:1、線性核函數(shù)K(x,y)=x·y;2、項(xiàng)式核函數(shù)K(x,y)=[(x·y)+1]^d;3、向基函數(shù)K(x,y)=exp(-|x-y|^2/d^2);4、二層神經(jīng)網(wǎng)絡(luò)核函數(shù)K(x,y)=tanh(a(x·y)+b)。
四、數(shù)據(jù)選取與模型訓(xùn)練
1.數(shù)據(jù)選取
本文研究的是基于用戶評(píng)價(jià)數(shù)據(jù)下,構(gòu)建P2P網(wǎng)貸平臺(tái)的可信度數(shù)據(jù)模型。因此,本文以網(wǎng)貸之家公布的P2P網(wǎng)貸平臺(tái)數(shù)據(jù)為研究對(duì)象,爬取網(wǎng)貸之家上公開的6422家P2P網(wǎng)貸平臺(tái)的用戶評(píng)價(jià)數(shù)據(jù)以及平臺(tái)運(yùn)營(yíng)數(shù)據(jù),作為樣本數(shù)據(jù)。
2.變量選取與模型構(gòu)建
網(wǎng)貸之家上給用戶對(duì)每個(gè)P2P網(wǎng)貸平臺(tái)的評(píng)分共分為四個(gè)維度分別是:提現(xiàn)評(píng)分、站崗評(píng)分、服務(wù)評(píng)分、體驗(yàn)評(píng)分。除此之外,網(wǎng)貸之家針對(duì)P2P網(wǎng)貸平臺(tái)還有很多其他維度的數(shù)據(jù),我從中選取了投資人比較關(guān)注的三個(gè)維度的運(yùn)營(yíng)數(shù)據(jù):參考收益、投資期限、存管銀行。
由于爬取的數(shù)據(jù)有部分缺失值以及不規(guī)則,我對(duì)各項(xiàng)變量進(jìn)行了如下處理。對(duì)于用戶四個(gè)維度的評(píng)分?jǐn)?shù)據(jù),先進(jìn)行計(jì)算各自的中位數(shù),并使用中位數(shù)進(jìn)行填充數(shù)據(jù)為空的變量。由于我國(guó)監(jiān)管機(jī)構(gòu)要求P2P網(wǎng)貸平臺(tái)進(jìn)行銀行資金存管,因此對(duì)于未進(jìn)行銀行存管的P2P網(wǎng)貸平臺(tái)不建議不進(jìn)行投資,所以對(duì)于沒有收集到存管銀行名稱的的均按照未進(jìn)行銀行存管處理,并對(duì)其數(shù)值化為0和1,0代表未進(jìn)行存管,1代碼已進(jìn)行銀行存管。對(duì)于平臺(tái)是否跑路,由于網(wǎng)貸之家公布了P2P網(wǎng)貸平臺(tái)的跑路時(shí)間,因此我根據(jù)是否有跑路時(shí)間作為平臺(tái)是否跑路的參考,對(duì)其進(jìn)行數(shù)值化為0和1,0代表未跑路,1代表跑路。由于參考收益和投資期限均能爬取到且都在正常區(qū)間內(nèi),并無(wú)異常值,因此這兩個(gè)字段的值無(wú)需進(jìn)行復(fù)雜的清洗,僅僅對(duì)參考收益中的百分號(hào)進(jìn)行去除操作,以便于模型進(jìn)行計(jì)算。
數(shù)據(jù)清洗后的部分?jǐn)?shù)據(jù)如表四所示。
使用sklearn包中的模型選擇model_selection對(duì)樣本數(shù)據(jù)進(jìn)行劃分,分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集兩部分,并使用sklearn包中的支持向量機(jī)SVC對(duì)樣本數(shù)據(jù)中的訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,再使用測(cè)試數(shù)據(jù)集進(jìn)行測(cè)試驗(yàn)證。在使用支持向量機(jī)進(jìn)行分類時(shí)核函數(shù)的選擇較為重要,選擇不同的核函數(shù),可以生成不同的SVM。本文中在使用線性核函數(shù)進(jìn)行計(jì)算分類時(shí)達(dá)到了較好的效果,訓(xùn)練及驗(yàn)證部分代碼入表五所示。
在對(duì)模型進(jìn)行評(píng)價(jià)時(shí),訓(xùn)練數(shù)據(jù)集得到了0.95分的好成績(jī),測(cè)試數(shù)據(jù)集也得到了0.93的成績(jī),因此認(rèn)為該模式是較為可信的。為此我假設(shè)了部分?jǐn)?shù)據(jù)來(lái)驗(yàn)證該模型是否可行,結(jié)果如表六所示。
五、結(jié)論與建議
本文以網(wǎng)貸之家公布的6422家P2P網(wǎng)貸平臺(tái)的數(shù)據(jù)作為分析基礎(chǔ),統(tǒng)計(jì)了7個(gè)維度的數(shù)據(jù),包括用戶對(duì)P2P網(wǎng)貸平臺(tái)的評(píng)價(jià)以及P2P網(wǎng)貸平臺(tái)日常運(yùn)營(yíng)的數(shù)據(jù)。運(yùn)用線性核函數(shù)的支持向量機(jī)模型對(duì)P2P網(wǎng)貸平臺(tái)是否跑路進(jìn)行了實(shí)證檢驗(yàn),研究結(jié)果表明參考收益與平臺(tái)是否跑路呈正相關(guān),投資期限與平臺(tái)是否跑路呈負(fù)相關(guān)。用戶評(píng)價(jià)對(duì)平臺(tái)是否跑路影響較小,并且當(dāng)評(píng)分較高時(shí)平臺(tái)跑路的風(fēng)險(xiǎn)反而增加,考慮到可能是平臺(tái)存在水軍刷分的情況。而對(duì)于P2P網(wǎng)貸平臺(tái)是否進(jìn)行銀行資金存管對(duì)P2P網(wǎng)貸平臺(tái)是否跑路具有較大的相關(guān)性,平臺(tái)已經(jīng)進(jìn)行資金存管的跑路概率筆未進(jìn)行資金存管的概率要小的多,為此我對(duì)投資人選擇P2P網(wǎng)貸平臺(tái)進(jìn)行投資時(shí)有以下建議。
1、投資時(shí)一定要選擇進(jìn)行了銀行資金存管的P2P網(wǎng)貸平臺(tái)。
2、選擇具有合理的投資收益回報(bào)率P2P網(wǎng)貸平臺(tái),較為合理年化收益的區(qū)間是6%到12%之間。
3、選擇具有合理的投資期限P2P網(wǎng)貸平臺(tái),較為合理的投資期限的區(qū)間是6個(gè)月到24個(gè)月之間。
4、選擇用戶評(píng)價(jià)口碑較為適中的P2P網(wǎng)貸平臺(tái)進(jìn)行投資,較為適中的評(píng)分在3.5到4.0之間。
參考文獻(xiàn)
[1]鄭國(guó)良.當(dāng)前P2P網(wǎng)貸平臺(tái)業(yè)務(wù)分析.中國(guó)社會(huì)科學(xué)院上海研究生分院.2018(11).
[2]姜琪.中國(guó)P2P網(wǎng)貸平臺(tái)效率差異及成交量影響因素研究.數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究.2018(06).
[3]段錁.我國(guó)P2P網(wǎng)貸行業(yè)的發(fā)展現(xiàn)狀、存在問題及對(duì)策.時(shí)代金融.2018(02).
[4]馬亮.P2P網(wǎng)貸的風(fēng)險(xiǎn)分析及防控對(duì)策.金融經(jīng)濟(jì).2014(06).
[5]陳偉;涂有釗.美國(guó)P2P網(wǎng)貸的發(fā)展、困境、監(jiān)管及啟示.西南金融.2016(12).
[6]李璽;李應(yīng)博;馬一為.我國(guó)P2P網(wǎng)貸監(jiān)管中政府治理創(chuàng)新研究.西南金融.2018(03).
作者簡(jiǎn)介:王錦,對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)高級(jí)研修班。