黃巍,張靚,唐友
(1.黑龍江財(cái)經(jīng)學(xué)院,哈爾濱 150025;2.燕京理工學(xué)院)
基于SVM算法的個(gè)人信用評(píng)估方法的完善
黃巍1,張靚2,唐友1
(1.黑龍江財(cái)經(jīng)學(xué)院,哈爾濱150025;2.燕京理工學(xué)院)
在眾多的模式識(shí)別工具中,支持向量機(jī)(Support Vector Machine,SVM)是一種非常有效的解決工具。提出了基于SVM模型提升金融機(jī)構(gòu)對(duì)個(gè)人信用評(píng)估效率的方法。通過對(duì)某銀行的用戶信用數(shù)據(jù)進(jìn)行的研究,設(shè)計(jì)具體評(píng)估流程,利用SVM的SMO算法處理參數(shù)優(yōu)化來構(gòu)建模型,特點(diǎn)是分類精度高、誤判率低,具有較好的穩(wěn)健性,以此來控制消費(fèi)信貸風(fēng)險(xiǎn)具有良好的適用性。處理商業(yè)銀行劃分信貸等級(jí),應(yīng)用此種模式可以解決信貸申請(qǐng)和政策實(shí)現(xiàn),具有一定的實(shí)際意義。
SVM;個(gè)人信用評(píng)估;SMO算法
近年來,隨著人們收入的增加,大家的消費(fèi)觀念也在逐步改變,在當(dāng)前信用關(guān)系中個(gè)人信用活動(dòng)成為最具潛力的一部分。它能夠引導(dǎo)資金流向、刺激消費(fèi)需求以及提高居民生活質(zhì)量等方面發(fā)揮著比較重要的作用。
所謂個(gè)人信用評(píng)估是根據(jù)居民收入和資產(chǎn),發(fā)生借貸情況,然后進(jìn)行償還,如果出現(xiàn)信用透支或者是許多不良記錄,最終受到處罰,然后將這些信息進(jìn)行記錄、存儲(chǔ),根據(jù)實(shí)際需求進(jìn)行評(píng)估,決定在此信用下能完成的貸款數(shù)量。個(gè)人信用管理體系是指管理、監(jiān)督與保障個(gè)人信用活動(dòng)規(guī)范、健康發(fā)展的一套規(guī)章制度與行為規(guī)范。
個(gè)人征信評(píng)估體系仍需規(guī)范,對(duì)于消費(fèi)金融產(chǎn)品來說,最重要的環(huán)節(jié)就是風(fēng)險(xiǎn)管控,如何評(píng)估用戶的信用以及消費(fèi)等級(jí)都要確立一套合理規(guī)范的體系,無論是數(shù)據(jù)的獲取、產(chǎn)品的完善性還是評(píng)分的準(zhǔn)確性,都將制約金融機(jī)構(gòu)對(duì)個(gè)人信用評(píng)估的效率。相比美國(guó)、德國(guó)、日本等國(guó)家,中國(guó)的個(gè)人征信體系建設(shè)起步晚,發(fā)展不完善,主要依靠銀行系統(tǒng)的金融信用數(shù)據(jù)覆蓋面有限。對(duì)于現(xiàn)有征信體系,當(dāng)前最大問題仍是信息“孤島”。未來,應(yīng)該嘗試建立政府、機(jī)構(gòu)、企業(yè)等信息共享平臺(tái)進(jìn)行數(shù)據(jù)整合,盡可能完善我國(guó)個(gè)人征信體系。隨著我國(guó)商業(yè)銀行消費(fèi)信貸業(yè)務(wù)的迅猛發(fā)展,個(gè)人信用評(píng)估得到了空前的重視。科學(xué)有效的個(gè)人信用評(píng)估方法成為了商業(yè)銀行實(shí)現(xiàn)風(fēng)險(xiǎn)控制、進(jìn)一步促進(jìn)消費(fèi)信貸發(fā)展的關(guān)鍵。因此個(gè)人信用評(píng)估的研究也便有了重要的應(yīng)用和現(xiàn)實(shí)價(jià)值。
2.1SVM函數(shù)和分類原理
支持向量機(jī)是Cortes和Vapnik于1995年提出的,在機(jī)器學(xué)習(xí)中通過擬合函數(shù)解決小樣本,應(yīng)用于高維模式線性等模式識(shí)別中,具有特有的優(yōu)勢(shì)。
支持向量機(jī)是一種基于分類邊界的方法,其原理是采用分類超平面把空間中兩類樣本點(diǎn)正確分離,同時(shí)獲得最大邊緣(即正樣本和負(fù)樣本距離超平面最小),對(duì)于分類聚集在不同的二維平面上,這樣就會(huì)設(shè)定該算法的目的,在設(shè)定目標(biāo),進(jìn)行訓(xùn)練,確定分類的邊界,這樣可以設(shè)定線性和非線性的,如果是多維的比如N維就必須先來設(shè)定空間點(diǎn),再來設(shè)計(jì)相關(guān)空間維中的面,通過這個(gè)面在來設(shè)計(jì)N維中的點(diǎn)和面。如果設(shè)定線性分類器使用超過平面,邊界就會(huì)超出曲面。線性劃分如圖1。這樣可根據(jù)新的數(shù)據(jù)相對(duì)于分類邊界位置進(jìn)行分類判斷。
圖1 線性劃分Fig.1Linear division
最優(yōu)分類超平面方法向量就是范數(shù)最小的滿足約束w。其目標(biāo)函數(shù)和約束函數(shù)分別是上下凹的二次型,如果有凸規(guī)劃是非常嚴(yán)格的??梢愿鶕?jù)一些理論根據(jù)來解決這種規(guī)劃問題如最優(yōu)理論再通過下面的公式來解決。
那么約束性非線性規(guī)劃問題如下公式(1)。
其中αi是樣本點(diǎn)xi的Lagrange乘子。根據(jù)Kuhn-Tunker條件定理指出:無效約束所針對(duì)的Lagrange乘子是為0;因此其物理意義是說非支持向量xi的Lagrange乘子是0。所以分類規(guī)則僅由恰好在超平面邊緣上的少數(shù)支持向量來決定,這和其他樣本沒關(guān)。即為“支持向量機(jī)”。
而對(duì)非線形情況,只將在對(duì)偶問題中的點(diǎn)積通過卷積核函數(shù)K(xi,xj)來代替。針對(duì)樣本點(diǎn)不可分的情況,來構(gòu)造軟邊緣分類面,最終獲得Wolfe對(duì)偶問題同原來是相似的,就是α多了個(gè)上限約束。因此這個(gè)上限C也代表著對(duì)錯(cuò)分樣本的懲罰力度,通過在邊緣之內(nèi)的樣本對(duì)分類面的構(gòu)造能夠起到的作用是比較有限制的,即所謂“軟邊緣”。最后,針對(duì)求最大值是可以轉(zhuǎn)化為取負(fù)來求最小值,那么數(shù)學(xué)模型表達(dá)式如公式(3)。其中H是個(gè)半正定的對(duì)稱矩陣[yiyjK(xi,xj)]li,j=1(其線性表示(XY)T(XY),X=[x1,x2,…,xl],Y=diag(y1,y2,…,yl)),而α=[α1,α2,…,αl]T是個(gè)對(duì)偶問題也具有約束的一個(gè)二次規(guī)劃,它通過Kuhn-Tucker條件(SVM的文獻(xiàn)中稱為Kaush-Kuhn-Tucker,KKT)也可等價(jià)地轉(zhuǎn)換為式子(4)。其中ui是一個(gè)分類面(在非線性下不確定是超平面)函數(shù)作用在xi上的輸出式子(5)。
對(duì)于KKT條件在研究的問題中有具體的意義:一是xi為非支持向量,處在分類面邊緣以外,其中Lagrange乘子是0,對(duì)分類面構(gòu)造是無影響的;二是xi為正好在分類面上的支持向量,針對(duì)的Lagrange乘子為非0;三是xi在分類面邊緣以內(nèi)甚至被錯(cuò)分,其中Lagrange乘子是受到上限的限制而為0。
2.2SMO算法和構(gòu)建思路
在計(jì)算機(jī)內(nèi)存無法承受數(shù)據(jù)量時(shí),也就是成千上萬的樣本時(shí),我們就要采用一些辦法來解決,也就是不同的算法塊和分解等。如果我們每次訓(xùn)練多個(gè)樣本就可能會(huì)同時(shí)處理兩個(gè)樣本,這里面提供SMO(串行最小化)的方法,這里包含兩個(gè)重要算法就是α的選擇,還有一個(gè)是α的更新處理。
圖2 訓(xùn)練基本流程Fig.2Basic training process
2.2.1α的選擇算法
事實(shí)上,許沁想錯(cuò)了。許沁在葛局長(zhǎng)的心中,早已沒有任何位置了。當(dāng)然這并不是位置的問題,而是為官之道。在葛局長(zhǎng)看來,許沁是條狗,是條隨時(shí)會(huì)咬人的狗,是條翻臉不認(rèn)人的狗。一旦受到威脅或傷害,她會(huì)逮誰咬誰。葛局長(zhǎng)不能不嚴(yán)加提防,因而斷然割斷了和許沁的任何聯(lián)系。
通過選擇兩個(gè)與KKT條件違背的比較嚴(yán)重的兩個(gè)αi,設(shè)定為內(nèi)外循環(huán)。在外層循環(huán)中通常因?yàn)檫吔鐦颖镜膯栴}需要調(diào)整和遍歷,這是非常重要,而邊界樣本常常是不能得到進(jìn)一步調(diào)整,因此留在邊界上??梢栽诖诉^程中找出(yi=1,αi<C)或(yi=-1,αi>0)的所有樣本中-yi*?(di)值最大的(這是比較可能不滿足-yi*?(αi)≤b條件的樣本)。內(nèi)層循環(huán):將外層循環(huán)中選定的樣本αi,去找到這樣的樣本αj,使得樣本最大。將公式(6)中更新α的一個(gè)算式,表示的是在選定αi,那么αj為更新算子下,樣本最大。如果選擇α的過程中發(fā)現(xiàn)已經(jīng)符合了KKT條件,那么算法結(jié)束。
2.2.2α的更新算法
在我們使用SMO算法時(shí),需要每次去設(shè)計(jì)樣本,或者轉(zhuǎn)化約束形式為直線約束:α1+y1y2α2=d(d
圖3 約束轉(zhuǎn)化Fig.3Constraint Transformation
最終獲得結(jié)果如式子(9)。
由于在運(yùn)算時(shí)使用大量的內(nèi)存,這樣運(yùn)算速度就會(huì)慢,當(dāng)數(shù)據(jù)量大時(shí)如果采用SVM算法,那么速度就會(huì)下降。那么來設(shè)計(jì)一個(gè)好的方法,就是一邊讀取一邊運(yùn)算,運(yùn)算完就倒出內(nèi)存,讓系統(tǒng)繼續(xù)執(zhí)行。這樣樣本在運(yùn)算時(shí)就會(huì)減少,我們?cè)僭O(shè)計(jì)樣本訓(xùn)練時(shí)α[i]一旦達(dá)到邊界(α[i]=0或α[i]=C),α[i]就不變了,這樣樣本變小,最終通過SVM來處理樣本。我們?cè)诠街袡z驗(yàn)樣本參數(shù)α[i]的值來設(shè)定達(dá)到邊界的問題,我們需要去掉邊界樣本來進(jìn)行下一步運(yùn)算。
通過公式(10)所展示的,在不確定這里面參數(shù)b時(shí),我們要想得到最優(yōu)解就需要去使用SVM(0<α[i]<C)的樣本帶入,在當(dāng)前使用公式得到b的情況很多需要我們不停去探索,那種方法才是最有效的。在libSVM中,去設(shè)定y=-1與y=1的兩種支持向量求得b,然后再取平均值。
SMO和SVM兩個(gè)算法都是將處理整個(gè)二次規(guī)劃問題,可以很好地處理小問題,那么兩者之間不同的是SMO這種方法可以去處理分解小規(guī)模,之后再來判斷兩者樣本的問題,如果我們采取問題分析理解的方式來處理的化,會(huì)完善的很好。
我們進(jìn)行個(gè)人信用評(píng)估處理和實(shí)踐上,會(huì)有不同的誤判,一是把好的客戶當(dāng)做不好的來處理,在客戶到銀行辦理業(yè)務(wù)時(shí)拒絕不同意為其貸款,另外一種是將不好的客戶當(dāng)做好的處理,那么不講誠(chéng)信的人也能到銀行貸到款,辦成業(yè)務(wù)等等,為了避免這幾種形式錯(cuò)誤產(chǎn)生,我們需要建立模型,通過不同因子來完成參數(shù)設(shè)定決定模型的可信度,那么通過建立SVM方法,設(shè)置參數(shù),為決定性參數(shù)和懲罰性因素。這樣利用SVM建立個(gè)人評(píng)估模型是非常具有說服力的,選擇RBF核函數(shù),通過這個(gè)核函數(shù)具有較強(qiáng)的非線性映射能力。但是如果用SMO就不能完成這樣的效果,會(huì)有一組參數(shù)來處理誤判的可能。
我們通過從某個(gè)工商銀行在最近兩年的個(gè)人信用貸款的數(shù)據(jù)中,獲得發(fā)放消費(fèi)貸款等數(shù)據(jù)信息,去除掉缺失的樣本數(shù)據(jù),會(huì)獲得2 114個(gè)樣本,那么怎么來判斷違約的數(shù)據(jù),如何設(shè)置違約次數(shù),設(shè)定一個(gè)標(biāo)準(zhǔn)或者一個(gè)區(qū)域,這個(gè)標(biāo)準(zhǔn)就是用戶在分期付款時(shí),滯后還款,或者不能保證金額還款。在西方一些發(fā)達(dá)國(guó)家同一年中出現(xiàn)違約不能超過4回,否則信用大大降低,而在我們國(guó)家信用評(píng)估才剛剛開始所以設(shè)置樣本標(biāo)注要松一些,這里面我們定義10,如下面表1。
根據(jù)這些數(shù)據(jù),我們?nèi)シ珠_抽樣,將樣本設(shè)置違不違約。只有抽出的實(shí)例來看看這兩種情況的對(duì)比,如果因?yàn)闃颖静黄胶饽蔷褪悄P筒环€(wěn)健,如果出現(xiàn)這兩種情況非常接近的化或者很相似,然后進(jìn)行穩(wěn)定處理,通過選擇高于兩倍的方差,去檢查不對(duì)的數(shù)據(jù),通過上面的方法我們選擇所有的樣本進(jìn)行訓(xùn)練和檢查,并隨機(jī)處理這幾個(gè)部分。一部分是1 056個(gè)樣本,在這里面有514個(gè)違約樣本,還有542個(gè)未違約樣本來進(jìn)行訓(xùn)練來設(shè)置模型;在第二部分1 058個(gè)樣本,里面有496個(gè)違約樣本,還有562個(gè)是未違約樣本,進(jìn)行檢驗(yàn)?zāi)P偷膽?yīng)用效果。
表1 指標(biāo)和說明Table 1Index and instructions
為了收斂模型加快,根據(jù)要處理模型來進(jìn)行不同數(shù)據(jù)進(jìn)行訓(xùn)練和檢驗(yàn),然后進(jìn)行處理,那么根據(jù)表格中的指標(biāo)值去形成不同變量如離散型和連續(xù)型等等,根據(jù)上面的選擇參數(shù)來設(shè)計(jì)兩種變量(x1、x3、x4、x5、x7、x8、x9),根據(jù)最大最小進(jìn)行方法完善,通過下面公式所示。其中Y∈[0,1]代表歸一變化后的變量值;Xmin與Xmax來表示不同變量X的最小值和最大值。
針對(duì)連續(xù)型變量(x2、x6、x10),是通過對(duì)變量值的分布狀況進(jìn)行處理,這3個(gè)變量變化都近似正態(tài)分布。
4.1個(gè)人信用評(píng)估流程
通過設(shè)計(jì)信用評(píng)估參數(shù),來完成操作流程設(shè)計(jì),通過設(shè)計(jì)兩種方法,特別是SVM方法來完善模型,其流程模型如圖4。
圖4 信用評(píng)估流程Fig. 4Credit Evaluation Process
4.2SVM模型的建立過程
假設(shè)訓(xùn)練數(shù)據(jù)(x1,yi),…,(xl,yl),x∈Rn,y∈{+1,-1}通過設(shè)定平面(w·x)-b=0來確定分開,根據(jù)我們預(yù)測(cè)不同樣本,進(jìn)行比對(duì),根據(jù)測(cè)得距離來判定選擇的最大能力(即為邊緣最大)的分類超平面可得到最佳的推廣能力(最為穩(wěn)妥地處理兩種樣本界限),離此最近的少數(shù)樣本點(diǎn)來分成那些是最優(yōu)平面,通過對(duì)比樣本來設(shè)定,根據(jù)式子(12)描述樣本間隔為Δ的分類超平面。
如果把這個(gè)分類超平面進(jìn)行歸一化:讓?duì)ぃ?,通過w與b去設(shè)置不同比例縮放。根據(jù)設(shè)定離超平面最近的樣本點(diǎn)SVM滿足式子(13)。向量到超平面的距離為1/||w||。因此,這個(gè)最優(yōu)化問題是通過公式(1)來進(jìn)行運(yùn)算。
在完成公式對(duì)偶處理后,通過樣本中的問題來支持向量形式展示,通過這方面使用SVM出測(cè)試推廣非線性情況。
通過去創(chuàng)建SVM模型的評(píng)估系統(tǒng),開始建立這個(gè)模型,是想讓我們?nèi)シ治龊撕瘮?shù),然后去設(shè)置RBF徑向基來完成較強(qiáng)的非線性能力,在進(jìn)行較為廣泛的使用中,通過RBF來設(shè)置SVM標(biāo)準(zhǔn),還要需要之前提到的核心函數(shù)以及又決定左右的懲罰因子等等。通過選擇參數(shù)應(yīng)該具有很強(qiáng)的影響力,再通過不同方式的驗(yàn)證來確定SVM的設(shè)定標(biāo)準(zhǔn),這樣就能夠明確其中的最有參數(shù)是什么,利用懲罰因子的查找范圍[2-5210],核心參數(shù)查找范圍為[2-1025],重新設(shè)置Cn+1=2*Cn和γn+1=2*γn。那么我們能得到的最優(yōu)參數(shù)為來源于真是數(shù)據(jù)引入模型運(yùn)算的懲罰因子C=8.0和核心參數(shù)γ=0.003 906 25。利用交叉驗(yàn)證確定分類精度可達(dá)94.697%,最后在根據(jù)標(biāo)準(zhǔn)SVM算出最優(yōu)參數(shù)對(duì)樣本進(jìn)行訓(xùn)練,最終得到的參數(shù)w,b的結(jié)果為:w=-2.733 8與b=-0.245 840。
根據(jù)得到的參數(shù)w,b通過公式(14)獲得SVM的決策函數(shù)值。由于個(gè)人信用評(píng)估實(shí)質(zhì)上是分類的問題,所以,通過最終把樣本劃分為違約和未違約類。因此先對(duì)信用評(píng)估中出現(xiàn)的兩類誤判進(jìn)行說明。在銀行與其他金融機(jī)構(gòu)當(dāng)中,第二類誤判是損失更大的。通過SMO算法的SVM模型在訓(xùn)練樣本上的分類結(jié)果見表2。把訓(xùn)練后的SVM模型應(yīng)用大檢驗(yàn)樣本判別,來得到分類結(jié)果。
表2 兩類誤判結(jié)果Table 2Results of two false positives
4.3結(jié)果分析
根據(jù)表2可以得出,SVM在訓(xùn)練樣本與檢驗(yàn)樣本上,2誤判的個(gè)數(shù)比1類誤判的個(gè)數(shù)少很多,這表明研究采用SMO算法針對(duì)2誤判的控制是非常有效的,這也可以使商業(yè)銀行在實(shí)踐操作中盡量避免信用風(fēng)險(xiǎn)。在分類精度上,模型的訓(xùn)練樣本與檢驗(yàn)樣本上都可以達(dá)到95%,可以說效果是非常好的,相比曾經(jīng)用過的統(tǒng)計(jì)模型還有神經(jīng)網(wǎng)絡(luò)模型去得到運(yùn)算結(jié)果,能說明分類效果才能達(dá)到這樣的效果。進(jìn)行訓(xùn)練樣本交叉檢驗(yàn)樣本上分類結(jié)果的變化趨勢(shì)來看,SVM分類精度有0.94%的下降,因此該模型的穩(wěn)健性是比較理想的,對(duì)于動(dòng)態(tài)變化的信用數(shù)據(jù)更具有適用性。
研究采用SVM的SMO算法完善個(gè)人信用評(píng)估方法,在進(jìn)行個(gè)人信用數(shù)據(jù)獲取并分析時(shí),通過結(jié)果來分析該模型,能夠有效的控制信用評(píng)估中給銀行造成的損失,有利于規(guī)避信貸風(fēng)險(xiǎn)。因此,目前通過銀行的個(gè)人信用信息、在信用影響的環(huán)境動(dòng)態(tài)變化情況下,選擇SVM模型是具有優(yōu)勢(shì)的。
[1]Angilella S,Mazzu S.The financing of innovative SMEs:A multicriteria credit rating model[J]. European Journal of Operational Researchc,2015,26(2):344-252.
[2]葉菁菁.P2P網(wǎng)貸個(gè)人信用評(píng)估國(guó)內(nèi)外研究綜述[J].商業(yè)經(jīng)濟(jì)研究,2015(11):34-39.
[3]陳昊潔,姜明輝.個(gè)人信用行為評(píng)估方法再思考[J].學(xué)術(shù)交流,2015(12):12-15.
[4]王慧勤,雷剛.基于LIBSVM的風(fēng)速預(yù)測(cè)方法研究[J].科學(xué)技術(shù)與工程,2011(22):23-25.
[5]黃勇.完善我國(guó)個(gè)人信用社會(huì)征信體系的對(duì)策探討[J].征信,2012(5):67-69.
[6]李嫻.基于GCV的LS-SVM模型選擇在個(gè)人信用評(píng)估中的應(yīng)用[J].河南大學(xué)學(xué)報(bào):自然科學(xué)版,2011,41(3):15-19.
Perfection of Personal Credit Evaluation Method Based on SVM Algorithm
Huang Wei1,Zhang Liang2,Tang You1
(1.Heilongjiang Institute of Finance and Economics,Haerbin 150025;2.Yanjing Polytechnic Institute)
Among many pattern recognition tools,Support Vector Machine(Support Vector Machine,SVM)is a very effective one.A model based on SVM was proposed to promote efficiency of financial institution of personal credit evaluation method.Through researching user credit data of a bank,designing the specific evaluation process,using the SVM SMO algorithm to build the model of processing parameter optimization,it was characterized by high classification precision and low misjudgment rate,so it was stable and could control the consumption credit risk.Dealing with commercial bank credit rating,application of this model would solve the credit application and policy implementation,which had a certain practical significance.
SVM;personal credit evaluation;SMO algorithm
F832.479
A
1002-2090(2016)02-0105-06
10.3969/j.issn.1002-2090.2016.02.022
2016-01-04
黃?。?981-),女,副教授,哈爾濱工業(yè)大學(xué)畢業(yè),現(xiàn)主要從事金融投資方面的研究工作。
唐友(1979-),男,教授,E-mail:tangyou9000@163.com。