王重仁,王 雯,佘 杰,凌 晨,5
(1.山東財(cái)經(jīng)大學(xué) 管理科學(xué)與工程學(xué)院,濟(jì)南 250014; 2.濟(jì)南大學(xué) 金融研究院,濟(jì)南 250001; 3.中泰證券股份有限公司風(fēng)險(xiǎn)管理部,濟(jì)南 250001; 4.上海財(cái)經(jīng)大學(xué) 信息管理與工程學(xué)院,上海 200433; 5.上海健康醫(yī)學(xué)院 醫(yī)療器械學(xué)院,上海 201318)
互聯(lián)網(wǎng)、大數(shù)據(jù)和人工智能等技術(shù)正引發(fā)金融行業(yè)的變革,隨著大數(shù)據(jù)時(shí)代的來(lái)臨,金融行業(yè)數(shù)據(jù)量逐漸增大,數(shù)據(jù)類型越來(lái)越多,數(shù)據(jù)更新速度也日益加快,這為金融機(jī)構(gòu)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估工作帶來(lái)了挑戰(zhàn),傳統(tǒng)的個(gè)人信用風(fēng)險(xiǎn)評(píng)估方式已經(jīng)無(wú)法適應(yīng)環(huán)境的不斷變化,不能滿足金融行業(yè)的發(fā)展需要,因此,迫切需要構(gòu)建一套智能的信用風(fēng)險(xiǎn)評(píng)估體系。
國(guó)內(nèi)外學(xué)術(shù)界對(duì)個(gè)人信用風(fēng)險(xiǎn)評(píng)估的研究從20世紀(jì)40年代開(kāi)始。19世紀(jì)80年代,美國(guó)FICO公司開(kāi)始提供個(gè)人信用評(píng)分服務(wù),目前FICO信用評(píng)分已經(jīng)成為美國(guó)金融機(jī)構(gòu)信用評(píng)估不可或缺的數(shù)據(jù)源。個(gè)人信用風(fēng)險(xiǎn)評(píng)估本質(zhì)上是一個(gè)分類問(wèn)題,借助個(gè)人信用風(fēng)險(xiǎn)評(píng)估模型,可以將申請(qǐng)人劃分為“好”客戶和“壞”客戶,進(jìn)而幫助金融機(jī)構(gòu)進(jìn)行貸款審批決策。當(dāng)前,國(guó)內(nèi)外個(gè)人信用評(píng)分方法的研究主要分為專家模型、統(tǒng)計(jì)學(xué)方法、機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)4個(gè)方面。
目前將深度學(xué)習(xí)應(yīng)用到個(gè)人信用評(píng)分領(lǐng)域的研究還較少。文獻(xiàn)[1]提出了一種基于分類限制玻爾茲曼機(jī)(Class RBM)的信用評(píng)分方法,并且證明該方法具有較高的預(yù)測(cè)性能。文獻(xiàn)[2]為提高信用風(fēng)險(xiǎn)評(píng)估的準(zhǔn)確性,提出了一種基于極限學(xué)習(xí)機(jī)(ELM)集成學(xué)習(xí)方法的新型多級(jí)深度信念網(wǎng)絡(luò)(DBN),研究結(jié)果表明,該方法具有一定的優(yōu)越性。然而上述研究都基于傳統(tǒng)的特征數(shù)據(jù)進(jìn)行建模,未利用深度學(xué)習(xí)算法自動(dòng)提取特征的特點(diǎn)。
在互聯(lián)網(wǎng)行業(yè),重要的信用評(píng)分?jǐn)?shù)據(jù)源是用戶的行為數(shù)據(jù),對(duì)于這類數(shù)據(jù),傳統(tǒng)的方法是采用人工特征提取的方式進(jìn)行建模。近年來(lái),隨著深度學(xué)習(xí)技術(shù)的發(fā)展,已有研究基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和長(zhǎng)短期記憶(Long Short-term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)技術(shù)對(duì)用戶的歷史行為原始數(shù)據(jù)進(jìn)行建模。文獻(xiàn)[3]研究了深度學(xué)習(xí)在客戶流失預(yù)測(cè)中的應(yīng)用,使用一種新的編碼方法將電信行業(yè)客戶的歷史行為數(shù)據(jù)轉(zhuǎn)換成圖像,并設(shè)計(jì)一個(gè)CNN模型來(lái)自動(dòng)學(xué)習(xí)特征。文獻(xiàn)[4]使用用戶行為原始數(shù)據(jù),設(shè)計(jì)一種基于注意力機(jī)制LSTM的個(gè)人信用評(píng)分模型,實(shí)驗(yàn)結(jié)果表明,該模型優(yōu)于傳統(tǒng)方法,但較為單一,仍有一定的改進(jìn)空間。
目前已有研究嘗試將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)相結(jié)合,并應(yīng)用到文本分類[5]、圖像識(shí)別[6-7]和網(wǎng)絡(luò)入侵檢測(cè)[8]等領(lǐng)域。本文運(yùn)用基于CNN和RNN融合的深度學(xué)習(xí)方法,使用用戶歷史行為數(shù)據(jù),對(duì)個(gè)人信用評(píng)分問(wèn)題進(jìn)行研究。
本文研究的數(shù)據(jù)源是用戶的歷史行為數(shù)據(jù),行為數(shù)據(jù)主要包括用戶瀏覽行為、用戶銀行流水記錄、信用卡賬單記錄等。本文對(duì)每個(gè)用戶的原始數(shù)據(jù)進(jìn)行編碼后形成一個(gè)矩陣,該矩陣包括2個(gè)維度即時(shí)間維度和行為維度,數(shù)據(jù)編碼方式如圖1所示。本文將用戶原始行為數(shù)據(jù)按照時(shí)間切片進(jìn)行重采樣編碼,由于不同用戶的借款日期不完全相同,因此對(duì)于時(shí)間維度,將每個(gè)用戶的借款日期作為切片的基準(zhǔn)時(shí)間點(diǎn)。假設(shè)用戶的行為數(shù)據(jù)指標(biāo)數(shù)量為n,則矩陣行數(shù)為m,矩陣代表了一個(gè)用戶在不同時(shí)間點(diǎn)上的所有行為特征。在按照時(shí)間切片對(duì)用戶行為數(shù)據(jù)進(jìn)行重采樣時(shí),選擇的匯總方式包括合計(jì)、計(jì)數(shù)、平均等,然后將用戶匯總的數(shù)據(jù)按照時(shí)間先后進(jìn)行排列,對(duì)于無(wú)記錄的情況統(tǒng)一填充為固定值,這樣用戶不同行為的序列就按照時(shí)間進(jìn)行對(duì)齊。
圖1 數(shù)據(jù)編碼方式Fig.1 Mode of data encoding
對(duì)用戶歷史行為數(shù)據(jù)而言,編碼完畢的矩陣包括時(shí)間維度和行為維度,以此為基礎(chǔ),構(gòu)建信用風(fēng)險(xiǎn)評(píng)估模型有兩種思路,一方面,在一段歷史時(shí)間內(nèi),按照時(shí)間的先后順序,用戶的歷史行為會(huì)具有一定的序列性,同時(shí),因?yàn)橛脩粜袨橛卸喾N類型,所以基于用戶歷史行為數(shù)據(jù)的個(gè)人信用評(píng)分可以視為一個(gè)多變量序列預(yù)測(cè)問(wèn)題,可以采用LSTM模型來(lái)提取用戶行為的序列特征。另一方面,編碼之后的數(shù)據(jù)可以視為圖像,一般的彩色圖像有3個(gè)通道,而本文編碼之后的數(shù)據(jù)可以視為單通道灰度圖像,CNN在圖像分類領(lǐng)域具有較為廣泛的應(yīng)用。采用單一的LSTM模型或者CNN模型都存在一些不足之處,LSTM注重挖掘數(shù)據(jù)的整體序列特征,往往忽略了數(shù)據(jù)的局部特征,而CNN主要通過(guò)卷積層和池化層來(lái)學(xué)習(xí)輸入的局部特征和提取重要的特征信息[9-10]。因此,本文提出一種基于LSTM和CNN的融合深度神經(jīng)網(wǎng)絡(luò)模型,該模型由LSTM子模型和CNN子模型2個(gè)子模型融合而成,這樣模型可以從用戶原始行為數(shù)據(jù)中提取序列特征和局部特征。
1.1.1 LSTM神經(jīng)網(wǎng)絡(luò)
RNN將循環(huán)結(jié)構(gòu)引入傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)。因?yàn)镽NN在訓(xùn)練中很容易發(fā)生梯度爆炸或者梯度消失問(wèn)題,從而無(wú)法捕捉長(zhǎng)距離依賴(Long-Term Dependencies)關(guān)系[11]。為解決上述問(wèn)題,Hochreiter 和 Schmidhuber[12]在RNN的基礎(chǔ)上提出長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)。
LSTM以傳統(tǒng)RNN為基礎(chǔ)進(jìn)行改進(jìn),設(shè)計(jì)了一種特殊的結(jié)構(gòu)單元,并同時(shí)設(shè)計(jì)了3種獨(dú)特的“門(mén)”結(jié)構(gòu),對(duì)通過(guò)單元的信息可以選擇性地增加或去除,從而對(duì)通過(guò)單元的信息進(jìn)行篩選?!伴T(mén)”結(jié)構(gòu)采用Sigmoid函數(shù)實(shí)現(xiàn),Sigmoid的取值范圍為0~1,可以視為允許多少信息通過(guò)。若為0,則不允許該信息通過(guò);若為1,則允許所有信息通過(guò)。這3種“門(mén)”結(jié)構(gòu)作用于單元結(jié)構(gòu)組成了LSTM的隱藏層。LSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of LSTM network
LSTM結(jié)構(gòu)如下:
1)LSTM單元通過(guò)遺忘門(mén)(forget gate)來(lái)對(duì)前一個(gè)記憶狀態(tài)的信息進(jìn)行處理,決定從記憶狀態(tài)遺忘的信息。遺忘門(mén)會(huì)輸入ht-1和xt,并輸出介于0~1之間的值。
ft=σ(Wf·[ht-1,xt]+bf)
(1)
2)決定記憶中存儲(chǔ)哪些信息。主要包括兩方面,一方面通過(guò)輸入門(mén)決定要更新哪些信息,另一方面通過(guò)tanh激活函數(shù)來(lái)更新候選向量。
it=σ(Wi·[ht-1,xt]+bi)
(2)
(3)
3)結(jié)合上面兩部分來(lái)更新記憶狀態(tài)。
(4)
(5)
4)決定輸出哪些隱藏狀態(tài)信息。首先使用輸出門(mén)來(lái)決定要輸出的內(nèi)容,然后采用tanh激活函數(shù)處理記憶狀態(tài),最后使用輸出門(mén)來(lái)控制需要輸出的記憶狀態(tài)。
ot=σ(Wo·[ht-1,xt]+bo)
(6)
ht=ot×tanh(Ct)
(7)
LSTM等RNN模型主要的訓(xùn)練方法是按時(shí)間展開(kāi)的反向傳播算法(Back-Propagation Through Time,BPTT)[13]。BPTT算法是對(duì)經(jīng)典的反向傳播(BP)算法的改進(jìn),BPTT將RNN按照時(shí)間順序展開(kāi)為一個(gè)深層的網(wǎng)絡(luò),在此基礎(chǔ)上采用BP算法對(duì)展開(kāi)后的網(wǎng)絡(luò)進(jìn)行訓(xùn)練。由于BPTT算法概念清晰且計(jì)算高效,因此本文采用BPTT算法來(lái)訓(xùn)練LSTM網(wǎng)絡(luò)。
標(biāo)準(zhǔn)單向LSTM的缺點(diǎn)是它僅用到正向的信息,而沒(méi)有考慮反向的信息,這樣就丟失了一些有價(jià)值的信息。針對(duì)該問(wèn)題,雙向LSTM(BLSTM)同時(shí)考慮了雙向的信息,它是在雙向RNN模型的基礎(chǔ)上改進(jìn)而來(lái)。雙向LSTM就是在隱藏層中同時(shí)有一個(gè)正向LSTM和一個(gè)反向LSTM,雙向LSTM的輸出是由這2個(gè)單向LSTM共同決定(可以拼接或者求和等),和標(biāo)準(zhǔn)單向LSTM相比,這樣可以挖掘更多的信息。
1.1.2 注意力機(jī)制
深度學(xué)習(xí)模型中的注意力機(jī)制是對(duì)人類大腦注意力的一種模擬,其借鑒了人腦的特點(diǎn),在某些時(shí)候,人腦對(duì)事物的關(guān)注將集中在特定的地方,從而忽略了其他地方。這樣可以將注意力集中在重要的地方,這種機(jī)制可以合理利用人腦的計(jì)算資源。
注意力機(jī)制最早來(lái)源于20世紀(jì)90年代的圖像研究領(lǐng)域,但真正被研究人員重視是從Google DeepMind團(tuán)隊(duì)的圖片識(shí)別研究[14]開(kāi)始的,人們?cè)谟^察圖像時(shí),并不是去仔細(xì)地把圖像的每個(gè)像素都看一遍,而是會(huì)將注意力選擇性地集中在圖像的某些重要部分,忽略其他不重要的部分,因此根據(jù)人類觀察事物的這個(gè)特點(diǎn),在RNN上增加注意力機(jī)制來(lái)進(jìn)行圖像識(shí)別研究。此后,文獻(xiàn)[15]將注意力機(jī)制應(yīng)用到機(jī)器翻譯領(lǐng)域,注意力機(jī)制對(duì)翻譯模型的輸入與輸出之間的相關(guān)性進(jìn)行重要度計(jì)算,從而抽取出更加關(guān)鍵的信息。
1.1.3 LSTM模型
本文嘗試基于用戶行為序列數(shù)據(jù)來(lái)進(jìn)行信用評(píng)分,采用了一種基于注意力機(jī)制LSTM(AM-BLSTM)的個(gè)人信用評(píng)分方法,該方法結(jié)構(gòu)如圖3所示,從下往上分為行為數(shù)據(jù)編碼層、BLSTM層、注意力機(jī)制層、輸出特征層。
圖3 AM-LSTM模型結(jié)構(gòu)Fig.3 Structure of AM-LSTM model
原始數(shù)據(jù)經(jīng)過(guò)編碼轉(zhuǎn)換后,可以轉(zhuǎn)換為多變量序列。對(duì)于LSTM網(wǎng)絡(luò)而言,每一個(gè)時(shí)刻的輸入可以是單個(gè)數(shù)值,也可以是一個(gè)向量,本文模型每一個(gè)時(shí)刻的輸入都是一個(gè)向量。
1)BLSTM層:對(duì)于原始數(shù)據(jù)進(jìn)行編碼并且對(duì)數(shù)據(jù)進(jìn)行預(yù)處理后,數(shù)據(jù)輸入雙向LSTM網(wǎng)絡(luò),對(duì)于LSTM網(wǎng)絡(luò)而言,每個(gè)時(shí)刻的輸入都是當(dāng)前時(shí)間所有行為組成的向量,使用雙向LSTM的目的在于能夠捕獲不同序列方向的更多的特征信息。如圖3所示,BLSTM網(wǎng)絡(luò)在單向 LSTM 的基礎(chǔ)上,增加了一個(gè)反向的LSTM層,通過(guò)2個(gè)LSTM層以相反的方向處理數(shù)據(jù),使得 BLSTM可以同時(shí)捕捉正向序列信息和反向序列信息。
2)注意力機(jī)制層:注意力機(jī)制通過(guò)計(jì)算注意力概率分布,突出了某些重要輸入對(duì)于輸出的影響作用。本文采用一種適用于 BLSTM 網(wǎng)絡(luò)的注意力機(jī)制來(lái)解決信用評(píng)分任務(wù)。如圖3所示,注意力層將LSTM 的正反層輸出拼接后作為注意力層的輸入,以對(duì)LSTM各時(shí)刻的輸出分別計(jì)算重要度,最后根據(jù)重要度對(duì)結(jié)果進(jìn)行加和匯總。
ui=tanh(Whi+b)
(8)
ai=softmax(ui)
(9)
(10)
其中,hi表示BLSTM 第i個(gè)時(shí)間點(diǎn)輸出,t代表事件序列的長(zhǎng)度,ai代表第i個(gè)時(shí)間點(diǎn)輸出的權(quán)重,最終得到c代表BLSTM各個(gè)時(shí)間點(diǎn)輸出的加權(quán)合計(jì),最終基于注意力機(jī)制的LSTM模型將會(huì)輸出一個(gè)特征向量。
CNN的基本結(jié)構(gòu)由輸入層、卷積層、池化層、全連接層以及輸出層構(gòu)成。
在分類問(wèn)題上,CNN主要包括3類結(jié)構(gòu),分別是1D CNN、2D CNN和3D CNN。其中,最常見(jiàn)的是2D CNN,2D CNN即卷積核的維度為二維,常用在圖像領(lǐng)域。1D CNN即卷積核的維度為一維,常用在NLP領(lǐng)域,如在文本分類問(wèn)題中,文獻(xiàn)[16]使用CNN進(jìn)行文本情感分類。3D CNN即卷積核的維度為三維,常用在視頻領(lǐng)域,如文獻(xiàn)[17]使用3D CNN從監(jiān)控視頻中識(shí)別人類行為。不同于文本分類研究領(lǐng)域,本文研究領(lǐng)域中用戶不同類型的行為之間是互相聯(lián)系的,使用1D CNN從單一的時(shí)間維度上應(yīng)用卷積操作可能會(huì)破壞特征表示結(jié)構(gòu),使用2D CNN可以從2個(gè)不同維度提取更有意義的特征。
在本文中,卷積神經(jīng)網(wǎng)絡(luò)模型的輸入可以視為圖像,同時(shí)本文編碼之后的輸入和圖像相比有一定區(qū)別,一方面,一般的彩色圖像是3個(gè)通道,而本文輸入數(shù)據(jù)是矩陣格式,可以視為單通道圖像,另一方面,本文輸入數(shù)據(jù)的矩陣大小遠(yuǎn)遠(yuǎn)小于圖像的大小。因此,本文提出的卷積神經(jīng)網(wǎng)絡(luò)模型采用2個(gè)卷積層和2個(gè)池化層來(lái)自動(dòng)提取特征,CNN模型結(jié)構(gòu)如圖4所示。
圖4 CNN模型結(jié)構(gòu)Fig.4 Structure of CNN model
卷積層由多個(gè)特征圖組成,特征圖中有許多神經(jīng)元,每個(gè)神經(jīng)元通過(guò)卷積核與上一層特征圖的局部區(qū)域連接。卷積層的核心操作是卷積操作,然后需要對(duì)卷積操作的結(jié)果加上偏置項(xiàng)b,經(jīng)過(guò)一個(gè)非線性的激勵(lì)函數(shù)f,最后計(jì)算出該層最終的結(jié)果。卷積層計(jì)算公式如下:
X(l)=f(W?X(i-1)+b(l))
(11)
其中,X(l)和X(i-1)分別表示l層和l-1層的神經(jīng)元活性,W表示卷積核,b表示偏置項(xiàng)。通過(guò)卷積操作可以提取其前一層的各種局部特征。
卷積層最重要的2個(gè)特征是局部連接和權(quán)值共享,這2個(gè)特征可以減少神經(jīng)網(wǎng)絡(luò)參數(shù)數(shù)量,降低神經(jīng)網(wǎng)絡(luò)復(fù)雜度。局部連接是指卷積層的節(jié)點(diǎn)只和其前一層的部分節(jié)點(diǎn)相連接,以學(xué)習(xí)局部特征,這種局部連接方式減少了參數(shù)的數(shù)量,提高了模型訓(xùn)練速度,同時(shí)也降低了過(guò)擬合的可能性。權(quán)值共享指的是卷積核會(huì)和上一層的不同區(qū)域作卷積,進(jìn)而檢測(cè)相同的特征,只有不同的卷積核才會(huì)具有不同的權(quán)值參數(shù),進(jìn)而檢測(cè)不同的特征。
在第1個(gè)卷積層,本文選擇了大小為1×k的卷積核,目的是提取用戶每一種行為在不同時(shí)間點(diǎn)上的特征。卷積層后面是池化層,常用的池化方法包括最大池化、隨機(jī)池化和均值池化,本文采用了最大池化。池化層的作用是在語(yǔ)義上將把相似的特征合并,起到二次提取特征的作用,進(jìn)一步降低神經(jīng)網(wǎng)絡(luò)的參數(shù)數(shù)量和網(wǎng)絡(luò)復(fù)雜度。對(duì)于第2個(gè)卷積層,為進(jìn)一步提取用戶每一個(gè)行為指標(biāo)在不同時(shí)間點(diǎn)上的特征,同時(shí)提取用戶在用一時(shí)間點(diǎn)上不同行為的特征,第2個(gè)卷積層的卷積核大小設(shè)置為p×p,在第2個(gè)卷積層之后連接了一個(gè)池化層,最后,在所有卷積層和池化層之后進(jìn)行了一維化處理,從而輸出一個(gè)特征向量。
激勵(lì)函數(shù)采用了修正線性單元(Rectified Linear Unit,ReLU)[18],ReLU可以防止梯度消失和過(guò)擬合問(wèn)題[19],該函數(shù)定義如下:
fcov(x)=max(0,x)
(12)
本文提出的基于LSTM和CNN的個(gè)人信用評(píng)分模型(LSTM&CNN)結(jié)構(gòu)如圖5所示,該模型在AM-BLSTM模型和CNN模型基礎(chǔ)上融合而成,該模型主要由兩部分組成,左側(cè)部分為L(zhǎng)STM網(wǎng)絡(luò)結(jié)構(gòu),右側(cè)部分為CNN網(wǎng)絡(luò)結(jié)構(gòu)。
圖5 LSTM & CNN模型結(jié)構(gòu)Fig.5 Structure of LSTM & CNN model
LSTM模型部分和CNN模型部分對(duì)應(yīng)同一個(gè)數(shù)據(jù)源,采用同樣的輸入數(shù)據(jù),在特征融合層將LSTM部分輸出的特征和CNN部分的輸出特征進(jìn)行融合,假設(shè)c和n分別代表LSTM模型和CNN模型輸出的特征向量,其中對(duì)于LSTM模型部分,特征向量是注意力層的輸出,對(duì)于CNN模型部分,特征向量是卷積神經(jīng)網(wǎng)絡(luò)的輸出向量,那么特征融合層的特征向量o計(jì)算公式為:
o=c⊕n
(13)
其中,⊕代表向量拼接,使用Sigmoid函數(shù)對(duì)融合之后的特征進(jìn)行分類,得到用戶逾期可能性的輸出結(jié)果。
y=Sigmoid(Wo+b)
(14)
本文實(shí)驗(yàn)環(huán)境的配置如下:CPU Intel?Xeon?E5-2630 2.60 GHz,內(nèi)存32 GB,硬盤(pán) 500 GB,操作系統(tǒng) Ubuntu 14 LTS 64位。本文實(shí)驗(yàn)采用的開(kāi)發(fā)語(yǔ)言為Python(2.7),實(shí)驗(yàn)中用到的Python庫(kù)主要包括 Numpy、Pandas、Scikit-learn、Matplotlib,其中:Numpy是Python的一個(gè)科學(xué)計(jì)算的庫(kù),提供了矩陣運(yùn)算的功能;Pandas是一個(gè)主要用于數(shù)據(jù)處理、數(shù)據(jù)分析的庫(kù);Scikit-learn是一個(gè)機(jī)器學(xué)習(xí)庫(kù);Matplotlib是一個(gè)畫(huà)圖用的庫(kù)。深度學(xué)習(xí)框架選擇了基于Python的深度學(xué)習(xí)庫(kù)Keras(Tensorflow作為后端)。
本文研究用數(shù)據(jù)來(lái)源于國(guó)內(nèi)一家互聯(lián)網(wǎng)平臺(tái)——融360。數(shù)據(jù)集包括用戶瀏覽行為、銀行流水記錄、信用卡記錄等行為數(shù)據(jù),因部分用戶記錄存在缺失,過(guò)濾掉了缺失值較多的用戶數(shù)據(jù),最后從數(shù)據(jù)集中選擇了47 329個(gè)用戶的數(shù)據(jù)作為本文的研究對(duì)象。樣本的標(biāo)簽為借款用戶是否逾期,若用戶逾期,則標(biāo)簽為1;若用戶按時(shí)還款,則標(biāo)簽定義為0。
本文隨機(jī)選取80%的數(shù)據(jù)作為訓(xùn)練集,20%的數(shù)據(jù)作為測(cè)試集。在訓(xùn)練數(shù)據(jù)中,隨機(jī)選取10%的數(shù)據(jù)作為驗(yàn)證集,為保證結(jié)果準(zhǔn)確性,本文將實(shí)驗(yàn)重復(fù)了5次,每次隨機(jī)選取不同的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。
首先對(duì)原始數(shù)據(jù)進(jìn)行處理,將原始數(shù)據(jù)轉(zhuǎn)換為上文所述的數(shù)據(jù)編碼,考慮到每個(gè)用戶的行為序列長(zhǎng)度不同,因此本文將所有序列轉(zhuǎn)換為固定長(zhǎng)度序列。本文首先通過(guò)分析歷史數(shù)據(jù)確定了一個(gè)標(biāo)準(zhǔn)序列長(zhǎng)度,由于原始數(shù)據(jù)集中時(shí)間戳變量已經(jīng)進(jìn)行了脫敏處理,因此將序列長(zhǎng)度用時(shí)間單位來(lái)表示,然后將標(biāo)準(zhǔn)序列長(zhǎng)度設(shè)置為60,這個(gè)序列長(zhǎng)度可以覆蓋95%以上的用戶行為,即大部分用戶的操作在這個(gè)長(zhǎng)度范圍內(nèi),從用戶的瀏覽行為、銀行流水記錄、信用卡記錄等原始行為數(shù)據(jù)中抽取了61種行為。
在對(duì)用戶原始行為數(shù)據(jù)進(jìn)行編碼后,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。因?yàn)閿?shù)據(jù)均為連續(xù)型變量,不同的行為變量之間量綱不同,數(shù)值范圍差別較大,為了避免神經(jīng)元飽和問(wèn)題,本文對(duì)每一種變量數(shù)據(jù)進(jìn)行Min-Max標(biāo)準(zhǔn)化處理。
本文提出的基于LSTM和CNN的個(gè)人信用評(píng)分模型參數(shù)設(shè)置如表1所示。在經(jīng)過(guò)一系列實(shí)驗(yàn)后,將LSTM神經(jīng)元數(shù)量最后設(shè)置為64。對(duì)于CNN有一個(gè)通用的設(shè)計(jì)規(guī)則:在后面的層(離輸出層近的)特征圖個(gè)數(shù)應(yīng)該增加,這樣就可以從低級(jí)的特征產(chǎn)生更多類型的特征。因此,在經(jīng)過(guò)實(shí)驗(yàn)分析后,對(duì)于第1個(gè)卷積層,本文選擇了32個(gè)特征圖,卷積核大小為1×3,對(duì)于第2個(gè)卷積層,選擇了64個(gè)特征圖,卷積核大小為3×3。本文在LSTM層加入了 Dropout機(jī)制,經(jīng)過(guò)對(duì)比將 Dropout 比率設(shè)置為 0.3,同樣本文在CNN的輸出層同樣加入了Dropout機(jī)制,比率設(shè)置為0.3。訓(xùn)練模型的訓(xùn)練采用 Mini-batch 隨機(jī)梯度下降,參數(shù)更新采用 Adam規(guī)則,Mini-batch 的大小設(shè)置為64。
表1 LSTM與CNN模型參數(shù)設(shè)置Table 1 Parameter settings of LSTM and CNN model
為更好地對(duì)本文提出的基于LSTM和CNN的個(gè)人信用評(píng)分方法進(jìn)行評(píng)估,證明本文方法的優(yōu)越性,本文進(jìn)行了詳細(xì)的對(duì)比分析,并選擇了如下的對(duì)比方法:
Logistic回歸(LR):Logistic回歸模型回歸穩(wěn)定性高,解釋性較強(qiáng),是信用評(píng)估領(lǐng)域應(yīng)用最普遍的模型之一。對(duì)于用戶歷史行為數(shù)據(jù),本文采取傳統(tǒng)的人工特征提取方式提取特征數(shù)據(jù),然后使用LR算法進(jìn)行建模。
隨機(jī)森林(RF):使用從歷史行為數(shù)據(jù)中提取的特征數(shù)據(jù),并運(yùn)用RF算法進(jìn)行建模。
AM-BLSTM:單獨(dú)運(yùn)用基于注意力機(jī)制的LSTM模型進(jìn)行建模。
CNN:單獨(dú)運(yùn)用CNN模型進(jìn)行建模。
LSTM&CNN:本文提出的基于LSTM和CNN的融合神經(jīng)網(wǎng)絡(luò)個(gè)人信用評(píng)分模型。
在模型評(píng)估指標(biāo)方面,考慮到需要對(duì)用戶違約概率進(jìn)行評(píng)估,本文選擇了信用評(píng)分領(lǐng)域常用的2個(gè)指標(biāo),即AUC(Area Under Curve)和KS(Kolmogorov-Smirnov)。
假設(shè)TP(True Positive)表示實(shí)際違約預(yù)測(cè)結(jié)果,也為違約的樣本數(shù)量,TN(True Negative)表示實(shí)際未違約預(yù)測(cè)結(jié)果,也為未違約的樣本數(shù)量,FP(False Positive)代表實(shí)際未違約預(yù)測(cè)結(jié)果,也為違約的樣本數(shù)量,FN (False Negative)代表實(shí)際違約預(yù)測(cè)結(jié)果,也為未違約的樣本數(shù)量。首先計(jì)算真陽(yáng)性率(TPR)和假陽(yáng)性率(FPR)的值,TPR和FPR的計(jì)算公式如下:
(15)
(16)
ROC曲線是以FPR和TPR分別作為橫坐標(biāo)和縱坐標(biāo)所形成折線圖,AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積,AUC值越大,說(shuō)明模型的分類性能越好。
在計(jì)算KS指標(biāo)時(shí),先將用戶按照預(yù)測(cè)結(jié)果的違約概率值進(jìn)行排序,在此基礎(chǔ)上計(jì)算每一個(gè)違約概率的累積FPR值和累積TPR值,最后計(jì)算這2個(gè)累積值的差值,差值的最大值就是KS指標(biāo)值。KS指標(biāo)值越高,說(shuō)明信用評(píng)估模型能夠?qū)ⅰ昂谩笨蛻艉汀皦摹笨蛻魠^(qū)分開(kāi)的程度越大。
在進(jìn)行深度學(xué)習(xí)模型訓(xùn)練時(shí),本文采用提前終止的策略來(lái)訓(xùn)練模型,使用模型損失值來(lái)評(píng)估效果,當(dāng)驗(yàn)證集的損失值連續(xù)多次不再下降時(shí)停止迭代。
實(shí)驗(yàn)結(jié)果如表2所示,從表2可以看出,基于注意力機(jī)制的LSTM模型與LR和RF模型相比,KS指標(biāo)和AUC指標(biāo)都有了一定提升,表明基于注意力機(jī)制LSTM表現(xiàn)優(yōu)于傳統(tǒng)的機(jī)器學(xué)習(xí)方法。CNN與LR和RF相比,KS指標(biāo)和AUC指標(biāo)都有一定提升,表明CNN模型表現(xiàn)優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)方法。
表2 不同模型的性能指標(biāo)Table 2 Performance indicators of different models
從表2可以看出,LSTM&CNN方法的KS值、AUC值與單獨(dú)的CNN模型或者單獨(dú)的LSTM模型相比都有一定的提升,充分證明了LSTM&CNN方法具有較好的個(gè)人信用違約預(yù)測(cè)性能,不但優(yōu)于傳統(tǒng)方法,而且優(yōu)于LSTM模型和CNN模型,進(jìn)而說(shuō)明LSTM&CNN模型可以從不同角度自動(dòng)提取特征。
本文基于互聯(lián)網(wǎng)行業(yè)的用戶行為數(shù)據(jù),提出一種基于LSTM和CNN的融合深度神經(jīng)網(wǎng)絡(luò)個(gè)人信用評(píng)分方法。將每個(gè)用戶的行為數(shù)據(jù)編碼成包括時(shí)間維度和行為維度矩陣。融合LSTM和CNN 2個(gè)子模型,其中CNN子模型使用2個(gè)卷積層和2個(gè)池化層來(lái)自動(dòng)提取特征。實(shí)驗(yàn)結(jié)果表明,本文提出的融合深度神經(jīng)網(wǎng)絡(luò)個(gè)人信用評(píng)分方法較傳統(tǒng)的機(jī)器學(xué)習(xí)方法和單一的LSTM卷積神經(jīng)網(wǎng)絡(luò)方法性能都有明顯提升,證明了該方法在個(gè)人信用評(píng)分領(lǐng)域的有效性和可行性。下一步將在動(dòng)態(tài)信用風(fēng)險(xiǎn)評(píng)估基礎(chǔ)上,對(duì)信用評(píng)分模型的動(dòng)態(tài)更新問(wèn)題進(jìn)行研究。