王潤(rùn)華
(湖南城市學(xué)院,湖南 益陽(yáng) 413000)
伴隨著我國(guó)經(jīng)濟(jì)的高速發(fā)展,信用消費(fèi)已經(jīng)逐步浮出水面,例如住房按揭、消費(fèi)信貸、汽車貸款、信用卡、教育貸款等多種消費(fèi)貸款的規(guī)模越來(lái)越大[1]。在消費(fèi)信貸越來(lái)越熱的形勢(shì)下,大部分商業(yè)銀行都把大力發(fā)展消費(fèi)信貸看作未來(lái)發(fā)展戰(zhàn)略的一個(gè)重要的組成部分。但是目前國(guó)內(nèi)商業(yè)銀行對(duì)消費(fèi)貸款的風(fēng)險(xiǎn)管理水平較低,管理手段與方法均較落后,其中缺乏一套有效的個(gè)人信用評(píng)估方法是阻礙了個(gè)人消費(fèi)信貸業(yè)務(wù)進(jìn)一步開(kāi)展的主要因素之一[2-4]。公民信用歷史資料的信用評(píng)估和完全交流,也為貸款人(如各商業(yè)銀行)提供了客觀的、一致的評(píng)估方法[5-8]。
個(gè)人信用評(píng)估是消費(fèi)貸款的制約因素[9-11]。與國(guó)家的政策大力推動(dòng)和商業(yè)銀行開(kāi)展消費(fèi)信貸業(yè)務(wù)的熱情形成對(duì)比的是,消費(fèi)信貸在實(shí)際運(yùn)作中并沒(méi)有出現(xiàn)人們預(yù)期的火爆場(chǎng)面。業(yè)內(nèi)人士指出,問(wèn)題的癥結(jié)是個(gè)人信用的評(píng)估問(wèn)題還沒(méi)解決[12-13]。我國(guó)對(duì)企業(yè)的信用評(píng)估才剛剛起步,個(gè)人信用制度還幾乎是完全空白,銀行對(duì)個(gè)人的真實(shí)收入情況、信用水準(zhǔn)很難掌握。為了化解風(fēng)險(xiǎn),消費(fèi)信貸的門(mén)檻不得不提高,步驟也比較繁瑣。
目前,國(guó)外商業(yè)銀行信用評(píng)估中應(yīng)用最為廣泛的是多元統(tǒng)計(jì)分析方法。統(tǒng)計(jì)模型的最大優(yōu)點(diǎn)在于其具有明顯的解釋性,存在的缺陷是過(guò)于嚴(yán)格的前提條件。隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的突破性進(jìn)展,許多學(xué)者將其應(yīng)用于信用評(píng)估中。由于神經(jīng)網(wǎng)絡(luò)是一種對(duì)數(shù)據(jù)分布無(wú)任何要求的非線性技術(shù),它能有效解決非正態(tài)分布、非線性的信用評(píng)估問(wèn)題,但其缺陷是:“黑箱性”問(wèn)題,即不具有解釋性;結(jié)構(gòu)確定的困難性、訓(xùn)練效率低下等,因此實(shí)際中神經(jīng)網(wǎng)絡(luò)往往被作為一種“校驗(yàn)性”的輔助方法。支持向量機(jī)是在統(tǒng)計(jì)學(xué)理論基礎(chǔ)上發(fā)展起來(lái)的,是借助最優(yōu)化方法解決機(jī)器學(xué)習(xí)問(wèn)題的新工具。支持向量機(jī)在其理論研究和算法實(shí)現(xiàn)方面都取得了突破性進(jìn)展,在解決小樣本問(wèn)題中表現(xiàn)出許多優(yōu)勢(shì),開(kāi)始成為克服 “維數(shù)災(zāi)難”和“過(guò)學(xué)習(xí)”等傳統(tǒng)困難的有力手段。目前,支持向量機(jī)在許多領(lǐng)域都獲得了成功的應(yīng)用,逐步成為新的研究熱點(diǎn)。
假設(shè)訓(xùn)練樣本集合為:(X1,y1),(X2,y2),…,(Xm,ym)
這里,yi=1表示個(gè)人信用不好,yi=-1表示個(gè)人信用良好。m個(gè)樣本可看成是n維空間中的點(diǎn),如果存在一個(gè)超平面 ωX-b=0(ω,X∈Rm,b∈R)將這 m 個(gè)樣本點(diǎn)分開(kāi),則對(duì)于新的數(shù)據(jù),就可以采用下列的函數(shù)判別它的類型:
f(X)=sgn(ω·X-b)
設(shè)非線性映射為:
φ:Rn→Rl(l>n)
則在高維特征空間中的判別函數(shù)為:
f(X)=sgn(ω·φ(X)-b)
其中,ω·φ(X)-b是空間Zl中的超平面。
對(duì)于訓(xùn)練樣本來(lái)講,我們假設(shè):
ω·φ(X)-b>1,if yi=1
ω·φ(X)-b<-1,if yi=-1
接下來(lái)需要尋找距離最大的兩個(gè)超平面,也就是要求解這樣一個(gè)二次規(guī)劃問(wèn)題:
約束為:
應(yīng)用拉格朗日乘子法:
其中ai為拉格朗日乘子。根據(jù)一階必要條件可知,在鞍點(diǎn)上,解(ω*,b*,a*)滿足:
即系數(shù)a*必須滿足:
最優(yōu)超平面是訓(xùn)練樣本在高維空間Zl中的線性組合:
由kuhn-Tucker條件可知,最優(yōu)超平面的充分必要條件是:
支持向量ω*也可表示為支持向量的線性組合:
約束為:
表1 特征變量的分組結(jié)果
這里,Xi是支持向量,是拉格朗日系數(shù),b*是最優(yōu)超平面的截距:
模型構(gòu)建是基于統(tǒng)計(jì)樣本的,在構(gòu)建SVM模型之前,必須選取合適的SVM模型變量,然后根據(jù)所選取的變量進(jìn)行相關(guān)的數(shù)據(jù)收集、數(shù)據(jù)整理和數(shù)據(jù)統(tǒng)計(jì)工作。
本文基于以下步驟來(lái)完成數(shù)據(jù)收集工作:(1)根據(jù)從銀行獲得的實(shí)際數(shù)據(jù),標(biāo)出履約和違約客戶,統(tǒng)計(jì)履約與違約客戶的個(gè)數(shù)。通過(guò)統(tǒng)計(jì),發(fā)現(xiàn)有80萬(wàn)個(gè)履約客戶和5萬(wàn)個(gè)違約客戶;(2)抽取履約和違約客戶數(shù)據(jù)。按照時(shí)間順序?qū)①~號(hào)進(jìn)行排序,從每8千個(gè)履約客戶中選取1個(gè)樣本,得到1千個(gè)履約客戶樣本;從每50個(gè)違約客戶中抽取1個(gè)樣本,得到1千個(gè)違約客戶樣本;(3)列出抽中樣本的名字、賬號(hào)和客戶屬性信息(履約客戶或違約客戶);(4)將所有選中賬戶所對(duì)應(yīng)的申請(qǐng)表和征信表匯總起來(lái),最終得到建模樣本。
數(shù)據(jù)整理的主要目的包括:初步分析具有某種特征變量的客戶的信用行為和對(duì)特征變量進(jìn)行合理分組。根據(jù)現(xiàn)有的研究成果:如果某些特征項(xiàng)所包含的樣本數(shù)目較少,則基于這些數(shù)據(jù)建立起來(lái)的模型的穩(wěn)定性較差;如果一些特征項(xiàng)的“發(fā)生比”差別較小,則具有此類特征的客戶信用行為很相似,可將這些特征項(xiàng)進(jìn)行合并。本文使用交叉表分析方法來(lái)完成對(duì)樣本數(shù)據(jù)的整理工作。采用交叉表分析方法可得到特征變量的以下指標(biāo):特征內(nèi)履約客戶的分布情況、特征內(nèi)違約客戶的分布情況和履約客戶發(fā)生比。根據(jù)得到的具體指標(biāo)對(duì)特征變量進(jìn)行重新分組。分組方法是:對(duì)樣本容量少的特征項(xiàng)進(jìn)行合并;將“發(fā)生比”較接近的特征項(xiàng)予以合并。經(jīng)過(guò)處理后得到的特征變量的各對(duì)應(yīng)特征項(xiàng)分組如表1所示。在表1中,本文選取7個(gè)特征變量建立SVM模型,但這7個(gè)特征變量中性別、教育程度、單位性質(zhì)、職業(yè)、婚姻是定性變量,由于SVM模型只能處理數(shù)值型變量,所以需要將定性數(shù)據(jù)進(jìn)行量化處理。特征變量屬性值量化表如表2所示。
為了SVM建模的需要,還要將樣本數(shù)據(jù)轉(zhuǎn)化成SVM模型需要的格式:對(duì)于輸出結(jié)果,即信用良好(履約)還是信用不好(違約)分別采用1和-1來(lái)表示;輸入變量如下:x1表示性別,x2表示年齡,x3表示教育程度,x4表示月均收入,x5表示單位性質(zhì),x6表示職業(yè),x7表示婚姻狀況,由此就可得到符合SVM模型識(shí)別的訓(xùn)練數(shù)據(jù)。個(gè)人信用評(píng)估的SVM模型如圖1所示。本文選取1000個(gè)樣本作為訓(xùn)練樣本,1000個(gè)數(shù)據(jù)作為測(cè)試樣本;同時(shí)針對(duì)不同的核函數(shù),比較不同的核函數(shù)的分類效果的差異。
表2 特征變量屬性值量化表
本文分別用線性核、多項(xiàng)式核、高斯核進(jìn)行分類試驗(yàn),分類精度如表3所示。計(jì)算結(jié)果表明線性核的分類效果很不理想,說(shuō)明消費(fèi)信貸中的個(gè)人信用評(píng)估一般都不是線性可分的。應(yīng)用多項(xiàng)式核來(lái)實(shí)現(xiàn)分類的結(jié)果較好;隨著多項(xiàng)式次數(shù)的增加,則訓(xùn)練數(shù)據(jù)的精度不斷增加,測(cè)試數(shù)據(jù)的精度卻呈現(xiàn)減少的趨勢(shì)。就本文實(shí)例來(lái)看,采用高斯核得到的分類效果沒(méi)有多項(xiàng)式好,其原因就在于參數(shù)的選取比較困難,尤其是推廣能力上還不夠理想。
表3 分類精度表
本文的主要?jiǎng)?chuàng)新點(diǎn):建立了基于改進(jìn)支持向量機(jī)的消費(fèi)信貸個(gè)人信用評(píng)估模型,并利用部分?jǐn)?shù)據(jù)對(duì)消費(fèi)信貸中個(gè)人信用評(píng)估問(wèn)題做了實(shí)證分析。
實(shí)驗(yàn)結(jié)果表明:(1)一般情況下,消費(fèi)信貸中個(gè)人信用評(píng)估不是線性可分的問(wèn)題,采用線性核的分類效果不是很理想;(2)由于參數(shù)的選取難以做到恰到好處,就本文選取的實(shí)例來(lái)看,采用高斯核的分類效果不如多項(xiàng)式好,特別是在推廣能力上不夠理想;(3)采用多項(xiàng)式核來(lái)執(zhí)行分類的效果較滿意,隨著多項(xiàng)式次數(shù)的增加,則訓(xùn)練數(shù)據(jù)的精度不斷增加,測(cè)試數(shù)據(jù)的精度卻呈現(xiàn)減少的趨勢(shì)。
未來(lái)值得進(jìn)一步研究的方向:(1)SVM采用一種“黑盒”學(xué)習(xí)方法,僅能得到分類模型;在信用評(píng)估領(lǐng)域,銀行更需要向客戶進(jìn)一步解釋SVM模型的結(jié)果;如何對(duì)SVM模型進(jìn)行解釋是未來(lái)值得研究的一個(gè)方向;(2)本文的分類結(jié)果僅限于“不好”和“良好”兩個(gè)等級(jí),而銀行實(shí)際是將客戶分為多個(gè)等級(jí);如何快速、有效地利用SVM模型進(jìn)行多值分類是未來(lái)值得研究的一個(gè)方向;(3)SVM模型的分類性能在很大程度上依賴于核函數(shù)的選擇,如何選取一些合適的核函數(shù)也是未來(lái)值得研究的一個(gè)方向。
[1]朱小宗,張宗益,耿華丹.現(xiàn)代信用風(fēng)險(xiǎn)度量模型剖析與綜合比較分析[J].財(cái)經(jīng)研究,2004,(9).
[2]陳東海,謝赤.關(guān)于信用風(fēng)險(xiǎn)管理模型的比較分析[J].社會(huì)科學(xué)家,2005,(3).
[3]王磊.商業(yè)銀行個(gè)人消費(fèi)信貸的風(fēng)險(xiǎn)分析與對(duì)策研究[J].企業(yè)經(jīng)濟(jì),2006,(11).
[4]黃弈銘.支持向量機(jī)在雷雨天氣預(yù)報(bào)中的應(yīng)用[J].廣東氣象,2006,3(1).
[5]王曉丹,王積勤.支持向量機(jī)研究與應(yīng)用[J].空軍工程大學(xué)學(xué)報(bào),2004,5(3).
[6]余艷芳,高大啟.一種改進(jìn)的最小二乘支持向量機(jī)及其應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2006,28(2).
[7]鄒淑雪,王巖等.一種基于支持向量機(jī)的模糊分類系統(tǒng)研究[J].小型微型計(jì)算機(jī)系統(tǒng),2006,27(4).
[8]馬海英,郭鈺.數(shù)據(jù)挖掘技術(shù)在信用風(fēng)險(xiǎn)評(píng)估中的應(yīng)用[J].現(xiàn)代管理科學(xué),2006,(11).
[9]趙曉翠,王來(lái)生.基于主成分分析和支持向量機(jī)的商業(yè)銀行信貸風(fēng)險(xiǎn)評(píng)估[J].統(tǒng)計(jì)與決策,2006,(7).
[10]黃儒靖.建立我國(guó)商業(yè)銀行個(gè)人信用評(píng)估體系的思考[J].云南財(cái)貿(mào)學(xué)院學(xué)報(bào),2004,20(3).
[11]張學(xué)工.關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論與支持向量機(jī)[J].自動(dòng)化學(xué)報(bào),2000,26(1).
[12]胡延平.商業(yè)銀行個(gè)人消費(fèi)信貸面臨的問(wèn)題及對(duì)策研究[J].消費(fèi)經(jīng)濟(jì),2006,22(3).
[13]周瑋,楊兵兵.商業(yè)銀行信用風(fēng)險(xiǎn)管理基本要素[J].經(jīng)濟(jì)理論與經(jīng)濟(jì)管理,2002,(11).