魏冠男
(安徽財(cái)經(jīng)大學(xué) 管理科學(xué)與工程,安徽 蚌埠 233030)
基于支持向量機(jī)和決策樹CART的個(gè)人信用評估
魏冠男*
(安徽財(cái)經(jīng)大學(xué) 管理科學(xué)與工程,安徽 蚌埠 233030)
為了更好地控制借款人的信用風(fēng)險(xiǎn),利用支持向量機(jī)對個(gè)人信用進(jìn)行預(yù)測與分析,在支持向量機(jī)對個(gè)人信用評估產(chǎn)生缺陷的基礎(chǔ)上提出基于代價(jià)敏感學(xué)的CART決策樹預(yù)測個(gè)人信用的方法。實(shí)證分析表明:該方法能夠較好地對借款人信用狀況進(jìn)行預(yù)測,為互聯(lián)網(wǎng)金融機(jī)構(gòu)進(jìn)行相關(guān)風(fēng)險(xiǎn)管理提供理論依據(jù)。
支持向量機(jī);個(gè)人信用;互聯(lián)網(wǎng)金融機(jī)構(gòu);CART決策樹;風(fēng)險(xiǎn)管理
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,互聯(lián)網(wǎng)金融對促進(jìn)小微企業(yè)融資和擴(kuò)大就業(yè)產(chǎn)生了積極影響。但由于目前國內(nèi)征信體系不完善、違約成本低等原因極易出現(xiàn)借款人違約等信用風(fēng)險(xiǎn)。風(fēng)險(xiǎn)的出現(xiàn)無疑會(huì)給相關(guān)金融機(jī)構(gòu)和投資人帶來巨大的損失,最終不利于互聯(lián)網(wǎng)金融的健康發(fā)展。因此,建立互聯(lián)網(wǎng)金融標(biāo)準(zhǔn)時(shí)應(yīng)將信用管理作為一個(gè)關(guān)鍵指標(biāo)。美國互聯(lián)網(wǎng)金融機(jī)構(gòu)把FICO信用分[1]作為信用風(fēng)險(xiǎn)控制最重要的參考數(shù)據(jù),而國內(nèi)尚缺乏這樣的信用評分體系,不能精確估計(jì)消費(fèi)信貸的風(fēng)險(xiǎn)。同時(shí),由于互聯(lián)網(wǎng)金融與傳統(tǒng)商業(yè)銀行在客戶定位上的根本性差異,兩者的信用評價(jià)模式也就不同。傳統(tǒng)商業(yè)銀行客戶信用評價(jià)模式依賴于提供足夠的抵押物或有效擔(dān)保,或提供合適的財(cái)務(wù)報(bào)表等“硬信息”;互聯(lián)網(wǎng)金融小微客戶缺乏充足的抵押物,難以提供有效擔(dān)保,且財(cái)務(wù)報(bào)表往往不規(guī)范、不全或失真,因此,我國應(yīng)在基于本國國情的基礎(chǔ)上結(jié)合客戶的特征進(jìn)行風(fēng)險(xiǎn)管理。充分利用積累的信息和數(shù)據(jù),采用合適的信用評估方法對不同類別的借款人進(jìn)行有效的信用評估。目前國內(nèi)學(xué)者已經(jīng)提出關(guān)于個(gè)人信用評估的多種分類方法:如李太勇等[2]針對傳統(tǒng)信用評估方法分類精度低、特征可解釋性差等問題,提出了一種使用稀疏貝葉斯學(xué)習(xí)方法來進(jìn)行個(gè)人信用評估的模型(SBLCredit)。張燕等[3]針對個(gè)人信用評估中未標(biāo)號(hào)數(shù)據(jù)獲取容易而已標(biāo)號(hào)數(shù)據(jù)獲取相對困難,以及普遍存在的數(shù)據(jù)不對稱問題,提出了基于改進(jìn)圖半監(jiān)督學(xué)習(xí)技術(shù)的個(gè)人信用評估模型。湯浩龍等[4]以個(gè)人貸款信用評估為切入點(diǎn),將支持向量機(jī)(Support Vector Machines,SVM)方法應(yīng)用到個(gè)人貸款信用評估模型中。本文在利用Clementine軟件基于支持向量機(jī)方法對個(gè)人信用評估進(jìn)行評估的基礎(chǔ)上提出了不平衡類問題,并提出基于代價(jià)敏感學(xué)習(xí)的分類決策樹(Classification And Regression Tree,CART)的解決辦法。
1.1 支持向量機(jī)分類原理
SVM是一種監(jiān)督式學(xué)習(xí)的方法,基本思想是把輸入空間的樣本通過非線性變換映射到高維特征空間,然后在特征空間中求取把樣本線性分開的最優(yōu)分類面[5],如圖1所示。
圖1 支持向量機(jī)的分類原理圖
圖1中,H代表分類線,H1和H2分別將樣本分開且離分類線最近且平行于分類線的直線,它們之間的距離稱為分類間隔(Margin)。最優(yōu)分類線能將兩類樣本正確分開,并且使分類間隔最大。分類線的方程表示為x·w+b=0,對于給定線性可分的樣本集(xi,yi),i=1,2,…,n,xi∈Rd,y∈{-1,1}滿足
yi(w·xi+b)-1≥0(i=1,2,…,n),
(1)
得到分類間隔為2/││w││,當(dāng)分類間隔最大時(shí),即等價(jià)于││w││2最小,滿足條件式(1)并且使││w││2/2最小的分類面就叫做最優(yōu)分類面,H1、H2上的訓(xùn)練樣本叫做支持向量。
(2)
常用的核函數(shù)有線性核函數(shù)K(xi,x)=xixj;多項(xiàng)式核函數(shù)K(xi,xj)=[(xixj)+1]q;RBF核函數(shù)K(xi,xj)=exp(-(xi-xj)2/σ2);Sigmoid核函數(shù)K(xi,xj)=tanh(v(xixj)+c)。
1.2 個(gè)人信用評估的SVM模型建立
本文通過運(yùn)用數(shù)據(jù)挖掘中的Clementine軟件來對樣本數(shù)據(jù)進(jìn)行建模分析,具體過程如下:
1.2.1 商業(yè)理解
目前,住房按揭、消費(fèi)信貸、汽車貸款、信用卡等信用消費(fèi)已經(jīng)逐步浮出水面,但是國內(nèi)商業(yè)銀行對消費(fèi)貸款的風(fēng)險(xiǎn)管理水平較低,管理手段與方法均較落后,本研究利用信貸評估實(shí)例數(shù)據(jù)進(jìn)行實(shí)證分析,采用最合適的任務(wù)安排和挖掘算法,為商業(yè)銀行評估個(gè)人信用狀況,并進(jìn)行相關(guān)風(fēng)險(xiǎn)管理提供了理論依據(jù)。
1.2.2 數(shù)據(jù)理解
數(shù)據(jù)理解的關(guān)鍵是數(shù)據(jù)源的選擇。本研究選用德國一銀行信貸評估實(shí)例數(shù)據(jù)進(jìn)行實(shí)證分析,實(shí)例數(shù)據(jù)中主要有20個(gè)影響違約狀況的因素,第21個(gè)指標(biāo)為該德國銀行根據(jù)前面20個(gè)屬性指標(biāo)進(jìn)行綜合判斷后對每個(gè)各戶給出的信用評估類別。該樣本數(shù)據(jù)中共包含1 000個(gè)客戶,被銀行批準(zhǔn)獲得貸款的“好客戶”有700個(gè),同時(shí)未獲得銀行貸款的“壞客戶”有300個(gè)。
1.2.3 數(shù)據(jù)準(zhǔn)備
在構(gòu)建模型時(shí),數(shù)據(jù)的處理對模型的評估結(jié)果有很大的影響。為了使模型的評估結(jié)果更準(zhǔn)確,需要對數(shù)據(jù)進(jìn)行預(yù)處理。我們將其中關(guān)于各個(gè)屬性對應(yīng)的狀態(tài)編碼數(shù)字化,首先根據(jù)每個(gè)屬性的不同的狀態(tài)按照0,1,2,…由小到大按順序進(jìn)行編號(hào),其次將所有的屬性及狀態(tài)標(biāo)號(hào)匯總在同一張Excel表中用于導(dǎo)入到Clementine軟件中進(jìn)行分析。
1.2.4 模型建立
選取 Clementine中的支持向量機(jī)節(jié)點(diǎn)建模,并分別用不同的核函數(shù)進(jìn)行分類,具體的操作過程為:
Step1:將德國信用數(shù)據(jù)集Excel表導(dǎo)入其中作為源節(jié)點(diǎn),將表節(jié)點(diǎn)附加到變量文件節(jié)點(diǎn)并執(zhí)行流,將一個(gè)類型節(jié)點(diǎn)附加到源節(jié)點(diǎn),將客戶類別的字段值類型設(shè)置為“標(biāo)志”,方向設(shè)置為“輸出”,其他所有指標(biāo)字段的方向設(shè)置為輸入。
Step2:SVM 節(jié)點(diǎn)提供多個(gè)可選的核函數(shù)用于執(zhí)行處理過程。由于無法知道哪個(gè)函數(shù)對于任意給定的數(shù)據(jù)集性能最佳,依次選用RBF(徑向基函數(shù))、poly(多項(xiàng)式函數(shù))、Sigmoid函數(shù)和 line(線性函數(shù))進(jìn)行比較研究。
Step3:依次運(yùn)行4個(gè)SVM節(jié)點(diǎn)可以生成4種核函數(shù)的分類模型,在最后一個(gè)模型后面附加一個(gè)分析節(jié)點(diǎn)并執(zhí)行分析節(jié)點(diǎn)來對模型進(jìn)行比較。
1.2.5 模型分析
將分析節(jié)點(diǎn)附加到最后一個(gè)模型節(jié)點(diǎn)上,然后使用分析節(jié)點(diǎn)的默認(rèn)設(shè)置來執(zhí)行。在完成模型實(shí)施階段之后,數(shù)據(jù)流設(shè)計(jì)中的數(shù)據(jù)流圖如圖2所示。
圖2 SVM模型實(shí)施階段數(shù)據(jù)流圖界面
支持向量機(jī)中不同核函數(shù)的運(yùn)行結(jié)果如表1所示。
表1 模型預(yù)測數(shù)據(jù)分析表
表1給出了不同的核函數(shù)對于樣本數(shù)據(jù)分類為正確或不正確的準(zhǔn)確性。通過運(yùn)行分析節(jié)點(diǎn),可以得到每個(gè)模型的預(yù)測效果,來自分析節(jié)點(diǎn)的輸出顯示 RBF 函數(shù)可以正確地預(yù)測 99%的觀測值,多項(xiàng)式函數(shù)可以正確預(yù)測每個(gè)觀測值中的診斷。而Sigmoid函數(shù)和線性函數(shù)則只能預(yù)測70%和63%的觀測值。這就意味著多項(xiàng)式函數(shù)相比其他3種核函數(shù)在預(yù)測個(gè)人信用方面要更加實(shí)用一些。
在分類過程中,屬于不同類的實(shí)例數(shù)量都不成比例,對于銀行來說,拒絕“好”客戶和接受“壞”客戶所造成的損失并不相等。接受“壞”客戶,銀行可能遭受較大的違約風(fēng)險(xiǎn);而拒絕“好”客戶,損失的是貸款利息[6]。也就是說,接受“壞”客戶比拒絕“好”客戶的成本高。雖然欺詐的量級可能是百分之一,但其所帶來的損失必將是大于其收益的,因此,本文提出了基于代價(jià)敏感學(xué)習(xí)的個(gè)人信用預(yù)測方法。
2.1 CART決策樹簡介
CART決策樹模型使用二叉樹將預(yù)測空間遞歸地劃分為若干子集,而樹中的節(jié)點(diǎn)對應(yīng)著劃分不同區(qū)域,劃分是由每個(gè)內(nèi)部節(jié)點(diǎn)相關(guān)的分支規(guī)則來確定的,通過從樹根到節(jié)點(diǎn)移動(dòng),一個(gè)預(yù)測樣本被賦予一個(gè)唯一的葉節(jié)點(diǎn),應(yīng)變量在該節(jié)點(diǎn)上的條件分布也即被確定。CART算法包含3部分內(nèi)容:分支變量即拆分點(diǎn)的選擇、樹的修剪和模型樹的評估[7-9]。
2.2 CART決策樹建模
Step1:采用的方法是將1 000個(gè)樣本數(shù)據(jù)按照2∶1的比例分為訓(xùn)練樣本(667個(gè),從第一個(gè)到第667個(gè)樣本)和測試樣本(333個(gè),從第668個(gè)到第1 000個(gè)樣本)
Step2:將接受“壞”客戶損失與拒絕“好”客戶的損失比例分別設(shè)置為不同的比例時(shí),對333個(gè)測試樣本進(jìn)行測試。
Step3:按照支持向量機(jī)的建模過程得到CART決策樹的數(shù)據(jù)流如圖3所示。
圖3 CART模型實(shí)施階段數(shù)據(jù)流圖界面
2.3 不同誤分類損失比例的結(jié)果分析
根據(jù)上述實(shí)驗(yàn)得到的結(jié)果如表2所示,其中a為接受“壞”客戶損失與拒絕“好”客戶的損失比例。
表2 CART模型預(yù)測結(jié)果表
從表2可以看出,隨著接受“壞”客戶損失與拒絕“好”客戶的損失比例的加大,把“好”的客戶誤判為“壞”客戶的可能性也加大,其預(yù)測結(jié)果的正確率會(huì)降低。
信用評估準(zhǔn)確率直優(yōu)劣直接影響到互聯(lián)網(wǎng)金融機(jī)構(gòu)的利益和投資者的資金安全,影響到整個(gè)行業(yè)的健康發(fā)展。專業(yè)的信用風(fēng)險(xiǎn)控制能夠?qū)⑵脚_(tái)的逾期和壞賬率控制到最低,可以保證金融機(jī)構(gòu)長期運(yùn)營的穩(wěn)定和規(guī)范化發(fā)展。因此,無論是傳統(tǒng)的銀行借貸,還是互聯(lián)網(wǎng)金融借貸,都應(yīng)該把控好借款人質(zhì)量,維護(hù)投資人的利益。
[1] FICO信用評級介紹[EB/OL].(2014-06-18)[2016-04-10]. http://wenku.baidu.com/link?url=aZF2-QNJMMe1cetFot x0jvJeJigr9VTxVlG_qW3ga6Rag_cVmJiSQE18PfO6T9BVHG8Cx5El 3zp4t6EB2JzQjWFIgMlje_ddcqqB_ta70DS.
[2] 李太勇,王會(huì)軍,吳江,等.基于稀疏貝葉斯學(xué)習(xí)的個(gè)人信用評估[J].計(jì)算機(jī)應(yīng)用,2013,33(11):3094-3096.
[3] 張燕,張晨光,張夏歡.基于改進(jìn)圖半監(jiān)督學(xué)習(xí)的個(gè)人信用評估方法[J].計(jì)算機(jī)科學(xué)與探索,2012,6(5):473-480.
[4] 湯浩龍,和炳全,周薇.基于SVM的銀行個(gè)人貸款信用評估模型研究[J].西部經(jīng)濟(jì)管理論壇,2012,23(1):45-50,55.
[5] 葉俊勇,汪同慶,楊波,等.基于支持向量機(jī)的人臉檢測算法[J].計(jì)算機(jī)工程,2003,29(2):23-24.
[6] 宓文斌. 數(shù)據(jù)挖掘在銀行信貸業(yè)務(wù)中的應(yīng)用[D].上海:上海交通大學(xué),2012.
[7] 王鶴琴,朱萍,程代娣. 決策樹算法分析及其未成年人犯罪行為分析應(yīng)用[J].合肥學(xué)院學(xué)報(bào)(自然科學(xué)版),2011,21(1):59-62.
[8] 高尚.支持向量機(jī)及個(gè)人信用評估[M].西安:西安電子科技大學(xué)出版社,2013:引用頁碼.
[9] TAN P N, STEINBACH M, KUMAR V.Introduction to data mining[M].Addison-Wesley Longman Publishing Co.Inc.2005.
Personal Credit Evaluation based on Support Vector Machines and Classification and Regression Tree
WEIGuannan*
(Anhui University of Finance and Economics, Institute of Management Science and Engineering, Bengbu,233030)
To predict and analysis individual credit by using support vector machine (SVM),the author puts forward a method of personal credit evaluation approach based on cost-sensitive CART, which provides a theoretical basis to commercial banks of the assessment for personal credit status about related risk management .
Support Vector Machine(SVM); personal credit; online financing;classification and regression tree; risk management
10.13542/j.cnki.51-1747/tn.2016.04.015
2016-06-27
魏冠男(1989— ),男(漢族),河南南陽人,在讀碩士研究生,研究方向:互聯(lián)網(wǎng)金融,通信作者郵箱:nan_shan@foxmail.com。
F830.49
A
2095-5383(2016)04-0060-03