任 瀟, 姜明輝 , 車 凱, 王 尚
(1.哈爾濱工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,150001 哈爾濱; 2.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,150001 哈爾濱;3.哈爾濱工業(yè)大學(xué) 材料科學(xué)與工程學(xué)院,150001 哈爾濱)
?
個(gè)人信用評(píng)估組合模型選擇方案研究
任瀟1, 姜明輝1, 車凱2, 王尚3
(1.哈爾濱工業(yè)大學(xué) 經(jīng)濟(jì)與管理學(xué)院,150001 哈爾濱; 2.哈爾濱工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,150001 哈爾濱;3.哈爾濱工業(yè)大學(xué) 材料科學(xué)與工程學(xué)院,150001 哈爾濱)
摘要:為準(zhǔn)確評(píng)估借款人的信用和合理控制商業(yè)銀行風(fēng)險(xiǎn),首先對(duì)個(gè)人信用評(píng)分模型的常用模型進(jìn)行了總結(jié)和歸納,然后通過(guò)分析比較說(shuō)明了不同模型的準(zhǔn)確性. 在“壞樣本”的區(qū)分與結(jié)果判斷上采用加權(quán)方式,提出修正算法來(lái)確定信用評(píng)分模型中的指標(biāo)權(quán)重,滿足不同銀行數(shù)據(jù)多樣化的需要,提高評(píng)分模型精度.
關(guān)鍵詞:風(fēng)險(xiǎn)控制;個(gè)人信用;信用評(píng)分模型;修正算法
目前,我國(guó)的個(gè)人信用評(píng)估體系還處于發(fā)展階段,信用制度不夠健全,各大銀行在信用評(píng)估過(guò)程中更多采用基于經(jīng)驗(yàn)主義的判斷方法,國(guó)內(nèi)學(xué)者的研究大多數(shù)都是偏向于評(píng)分指標(biāo)體系的理論性研究[1].
Logistic回歸方法以其強(qiáng)大的穩(wěn)健性和泛化能力被較多地應(yīng)用到評(píng)估方法中[2];神經(jīng)網(wǎng)絡(luò)對(duì)不完全信息具有很強(qiáng)的處理能力,能夠解決現(xiàn)實(shí)生活中的非線性問(wèn)題,而且分類精度非常高,也是優(yōu)先選擇的信用評(píng)估方法[3-4];支持向量機(jī)能處理小樣本、高維度的數(shù)據(jù),并且獲得較高的分類精度,對(duì)處于發(fā)展階段的信用評(píng)估系統(tǒng)也是一個(gè)不錯(cuò)的選擇[5-6].
總的來(lái)說(shuō)評(píng)價(jià)指標(biāo)體系被分為兩大類[7]:體現(xiàn)還款能力的指標(biāo)和體現(xiàn)還款意愿的指標(biāo). 這些指標(biāo)相對(duì)較容易獲得,并且能在一定程度上反映個(gè)人的真實(shí)還款能力和還款意愿,但是這些指標(biāo)比較片面,容易出現(xiàn)誤判,而且門(mén)檻非常高. 現(xiàn)階段的專家投標(biāo)法,模型主要的作用是對(duì)數(shù)據(jù)樣本進(jìn)行客觀評(píng)估,但在評(píng)估模型中總是存在一些“壞樣本”,如重點(diǎn)評(píng)估指標(biāo)與總體一致,但一些次要的指標(biāo)偏離了總體;有的樣本本身信譽(yù)度沒(méi)有問(wèn)題,但重點(diǎn)指標(biāo)又與評(píng)價(jià)結(jié)果不符;還有的樣本自身的指標(biāo)相互間存在矛盾. 為此,本文基于4種常用的統(tǒng)計(jì)學(xué)模型,設(shè)計(jì)了一種修正算法,同時(shí)考慮樣本多樣性以及影響因素之間的相關(guān)性問(wèn)題,對(duì)信用評(píng)分的指標(biāo)體系進(jìn)行重新組合與打分加權(quán),在保留統(tǒng)計(jì)學(xué)方法優(yōu)點(diǎn)的基礎(chǔ)上,進(jìn)一步提高統(tǒng)計(jì)學(xué)模型的解釋性及精確度,從而減少“壞樣本”對(duì)模型評(píng)分結(jié)果的影響.
1評(píng)分模型
近年來(lái)隨著信用評(píng)分研究的不斷深入,神經(jīng)網(wǎng)絡(luò)以其較高的精確度得到了廣泛的運(yùn)用[4,8]. 但是,神經(jīng)網(wǎng)絡(luò)就像一個(gè)黑箱子,其解釋性不強(qiáng),不能體現(xiàn)不同變量的重要性. 而且,神經(jīng)網(wǎng)絡(luò)穩(wěn)定性也不如其他統(tǒng)計(jì)學(xué)模型,在信用評(píng)分領(lǐng)域的應(yīng)用也存在著嚴(yán)重的局限. 因此本文以回歸模型、支持向量機(jī)模型和貝葉斯分類器模型為基礎(chǔ),使用加權(quán)法找出顯著因子,確定影響評(píng)分結(jié)果的重點(diǎn)指標(biāo),并對(duì)數(shù)據(jù)結(jié)果進(jìn)行交叉驗(yàn)證,從而得到一個(gè)修正的評(píng)價(jià)模型.
1.1回歸分析模型
回歸分析法是指在大量已知數(shù)據(jù)的基礎(chǔ)上,探究一種變量(自變量)對(duì)另外一種變量(因變量)的影響,并建立能描述二者間相關(guān)關(guān)系的回歸方程,在這一方程的基礎(chǔ)上,根據(jù)已知自變量的值對(duì)因變量的值進(jìn)行預(yù)測(cè)[9]. 在回歸分析法中,應(yīng)用最為廣泛的是Logistic回歸分析、Probit回歸分析及多元線性回歸. 在此,以Logistic回歸分析為例進(jìn)行說(shuō)明.
設(shè)x1,x2,…,xn為與客戶信用相關(guān)的n個(gè)特征值,y是客戶的信用情況,是取值為0或1的隨機(jī)變量. 假設(shè)樣本集中有m個(gè)客戶,即(xi1,xi2,…,xin; yi)(i=1,2,…,n),則認(rèn)為yi與xi1,xi2,…,xin滿足以下的關(guān)系:
則Logisitc回歸方程為
對(duì)以上方程做線性變化,即可得
盡管在個(gè)人信用評(píng)分的實(shí)踐中,回歸分析的魯棒性低于判別分析,但回歸分析對(duì)數(shù)據(jù)分布的要求相對(duì)寬松,而且能夠提供客戶的違約概率,因此獲得了大多數(shù)學(xué)者和銀行業(yè)的青睞. 目前為止,Logistic回歸已經(jīng)成為所有回歸方法中最成功、最常用的統(tǒng)計(jì)方法之一.
1.2支持向量機(jī)模型
支持向量機(jī)的基本思想是將輸入空間的樣本通過(guò)非線性變換映射到高維特征空間,然后在特征空間中求取把樣本線性分開(kāi)的最優(yōu)分類面[10]. 這一模型針對(duì)線性可分情況進(jìn)行分析,對(duì)于線性不可分的情況,通過(guò)使用非線性映射算法將低維輸入空間線性不可分的樣本轉(zhuǎn)化為高維特征空間使其線性可分,從而使得高維特征空間采用線性算法對(duì)樣本的非線性特征進(jìn)行線性分析成為可能.
設(shè)訓(xùn)練樣本集D={(xi, yi}(i =1 , 2 , …, m) , xi∈ Rn, yi∈(+1 , -1)}, yi為輸出. 把這m 個(gè)樣本點(diǎn)看作是n維空間中的點(diǎn), 如果存在一個(gè)分類超平面
這個(gè)超平面能將m個(gè)樣本分為兩類,而且能使分類間隔(2/‖w‖2)最大,這樣的超平面稱為最優(yōu)分類面. 要使分類間隔最大就等價(jià)于使‖w‖2/2 最小,尋求最優(yōu)分類面的問(wèn)題就轉(zhuǎn)化為求解下面的最優(yōu)化問(wèn)題:
(1)
根據(jù)優(yōu)化理論, 可得線性可分條件下的分類決策樹(shù)為
式中:b*是分類閾值;αi是每個(gè)樣本對(duì)應(yīng)的Lagrange乘子,αi不為零時(shí)所對(duì)應(yīng)的樣本就是支持向量. 對(duì)于線性不可分情況,通常要引進(jìn)核函數(shù)來(lái)解決. 只要采用的內(nèi)積核函數(shù)適當(dāng),就可以將低維輸入空間中的非線性可分問(wèn)題轉(zhuǎn)化為高維特征空間中的線性可分問(wèn)題. 應(yīng)注意的一點(diǎn)是,引入的核函數(shù)k應(yīng)滿Mercer′s條件. 此時(shí)需要在目標(biāo)函數(shù)式中增加松弛變量ξi和懲罰函數(shù)C,式(1)轉(zhuǎn)化為
所得分類決策函數(shù)為
1.3貝葉斯分類器
貝葉斯分類器的分類原理是通過(guò)某對(duì)象的先驗(yàn)概率,利用貝葉斯公式計(jì)算出其后驗(yàn)概率,即該對(duì)象屬于某一類的概率,選擇具有最大后驗(yàn)概率的類作為該對(duì)象所屬的類. 也就是說(shuō),貝葉斯分類器是最小錯(cuò)誤率意義上的優(yōu)化. 用于分類的貝葉斯網(wǎng)絡(luò)中應(yīng)包含類結(jié)點(diǎn)C,其中C的取值來(lái)自于類集合(c1,c2,…,cm),還包含一組結(jié)點(diǎn)X=(X1,X2,…,Xn),表示用于分類的特征. 對(duì)于貝葉斯網(wǎng)絡(luò)分類器,若某一待分類的樣本D,其分類特征值為x= (x1,x2,…,xn) ,則樣本D屬于類別ci的概率P(C=ci|X1=x1,X2=x2,…,Xn=xn) (i=1, 2,…,m) 應(yīng)滿足下式:
P(C=ci|X=x)=Max{P(C=c1|X=x) ,
P(C=c2|X=x),…,P(C=cm|X=x)}.
而由貝葉斯公式
其中,P(C=ci) 可由領(lǐng)域?qū)<业慕?jīng)驗(yàn)得到,而P(X=x|C=ci) 和P(X=x) 的計(jì)算則較困難. 對(duì)此貝葉斯估計(jì)一般采用兩階段選擇方法:
第一階段是貝葉斯網(wǎng)絡(luò)分類器的學(xué)習(xí),即從樣本數(shù)據(jù)中構(gòu)造分類器,包括結(jié)構(gòu)學(xué)習(xí)和CPT學(xué)習(xí);
第二階段是貝葉斯網(wǎng)絡(luò)分類器的推理,即計(jì)算類結(jié)點(diǎn)的條件概率,對(duì)分類數(shù)據(jù)進(jìn)行分類.
這兩個(gè)階段的時(shí)間復(fù)雜性均取決于特征值間的依賴程度,甚至可以是NP完全問(wèn)題,因而在實(shí)際應(yīng)用中往往需要對(duì)貝葉斯網(wǎng)絡(luò)分類器進(jìn)行簡(jiǎn)化. 根據(jù)對(duì)特征值間不同關(guān)聯(lián)程度的假設(shè),可以得出各種貝葉斯分類器,NaiveBayes、TAN、BAN、GBN就是其中較典型、研究較深入的貝葉斯分類器.
2樣本數(shù)據(jù)
為了保證預(yù)測(cè)模型的準(zhǔn)確性,本文在建模時(shí)使用了銀行的真實(shí)數(shù)據(jù),但為了保護(hù)用戶隱私,沒(méi)有列出姓名,只是提取了打分所需的項(xiàng)目. 評(píng)估所用數(shù)據(jù)如表1所示,數(shù)據(jù)共4 500組,所有數(shù)據(jù)采用隨機(jī)挑選方式分成訓(xùn)練組與驗(yàn)證組. 為保證建模準(zhǔn)確性,每組數(shù)據(jù)中最終評(píng)分通過(guò)與不通過(guò)的比例均與原始數(shù)據(jù)一致,為3.5∶1.0.
3實(shí)驗(yàn)過(guò)程
在使用樣本數(shù)據(jù)進(jìn)行建模之前,先要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理. 對(duì)收集的數(shù)據(jù)采用Z-SCORE方法進(jìn)行標(biāo)準(zhǔn)化處理,用公式可以表示為
其中x為原數(shù)據(jù),μ為平均數(shù),σ為標(biāo)準(zhǔn)差.Z值反映出了原始數(shù)據(jù)與數(shù)據(jù)整體平均值之間的距離(以標(biāo)準(zhǔn)差為單位衡量),適合樣本中有離群數(shù)據(jù)的情況,標(biāo)準(zhǔn)化后的數(shù)據(jù)也可用來(lái)識(shí)別異常值.
由此可見(jiàn),對(duì)意義的正確理解,是口譯的核心,譯員的知識(shí)儲(chǔ)備、心理素質(zhì)等多方面原因會(huì)影響其對(duì)意義的理解。按釋意理論重意義的模式,從各方面研究對(duì)意義的理解,以輔助譯員正確理解意義,確實(shí)是口譯研究的一個(gè)重要方向。
3.1Logistic回歸分析
采用SPS軟件進(jìn)行Logistic回歸分析,分析結(jié)果如表2中所示.
由B 與顯著性可以看出,職業(yè)和貸款期限是有顯著影響的,這也符合信用風(fēng)險(xiǎn)評(píng)價(jià)的一般規(guī)律. 對(duì)于Logistic回歸分析影響因素是否有效除了與其絕對(duì)數(shù)值大小,還與顯著性上限Zmax有關(guān). 一般而言,z<0.05時(shí)影響因素才有意義. 從表2中可以發(fā)現(xiàn),符合這一條件的變量分別為有無(wú)配偶、貸款金額、受教育程度、擔(dān)保方式以及月收入.
表1 來(lái)自銀行的部分?jǐn)?shù)據(jù)
表2 Logistic回歸分析結(jié)果
數(shù)據(jù)結(jié)果準(zhǔn)確性分析如表3所示. 通過(guò)表3可以看出,相比于訓(xùn)練集較高的準(zhǔn)確率,測(cè)試集的準(zhǔn)確率偏低一些. 這一點(diǎn)可能是因?yàn)槟P蛿?shù)據(jù)是依據(jù)訓(xùn)練集給出的,同時(shí)測(cè)試集的數(shù)據(jù)更多,也會(huì)影響精度,說(shuō)明這一模型對(duì)數(shù)據(jù)的依賴程度較大.
表3 數(shù)據(jù)結(jié)果準(zhǔn)確性分析
3.2Probit回歸分析
采用stata對(duì)數(shù)據(jù)進(jìn)行Probit分析,其結(jié)果如表4所示. 其中在P>|z|一列中,0.000的數(shù)值表示遠(yuǎn)小于0.05的值,這一部分?jǐn)?shù)據(jù)均為關(guān)鍵因素.
通過(guò)結(jié)果分析,發(fā)現(xiàn)數(shù)據(jù)的顯著性排序基本與Logistic回歸分析結(jié)果相同,但是也有一些不同. 除了有無(wú)配偶、貸款金額、受教育程度、擔(dān)保方式以及月收入是關(guān)鍵因素以外,性別和年齡也會(huì)影響分析結(jié)果,這些差異也導(dǎo)致了這一模型誤差較大. 數(shù)據(jù)結(jié)果準(zhǔn)確性分析如表5所示.
表4 Probit回歸分析結(jié)果
表5 數(shù)據(jù)結(jié)果準(zhǔn)確性分析
采用matlab對(duì)數(shù)據(jù)進(jìn)行SVM分析,分析過(guò)程如圖1所示. 在初次粗略計(jì)算后,SVM所得結(jié)果準(zhǔn)確性較差,因此利用libsvm 工具包建立支持向量機(jī)模型之前,需對(duì)模型主要參數(shù)(懲罰系數(shù)c 和核函數(shù)中g(shù))進(jìn)行人為賦值,而這些參數(shù)是由訓(xùn)練樣本的數(shù)值特性和模型所建立的規(guī)律來(lái)確定的,每個(gè)模型的c,g值都可能不同. 為了保證選取合適的參數(shù)值,具體優(yōu)化方法為:選取一個(gè)足夠?qū)挼膶?yōu)范圍,讓c,g 按照一定的步長(zhǎng)來(lái)迭代,利用每次迭代的參數(shù)值訓(xùn)練模型,通過(guò)交叉驗(yàn)證(K-CV 法)得到訓(xùn)練后的誤差值,最終選取使得訓(xùn)練誤差最小的c,g值作為最佳參數(shù)組合,并以此訓(xùn)練模型.
圖1 SVM參數(shù)尋優(yōu)基本流程
SVM參數(shù)尋優(yōu)基本流程如圖2所示. 由圖2可知,隨著等高線依次降低,MSE 值逐漸降低,經(jīng)過(guò)c, g 的參數(shù)尋優(yōu),當(dāng)模型訓(xùn)練MSE值為最小等高線在空間上為最低點(diǎn)時(shí),c,g的組合值為最優(yōu)取值. 本次參數(shù)尋優(yōu)后,最佳c值為32,g值為0.062 5.
圖2 SVM參數(shù)優(yōu)化等高線
其中b=-2.100 1.
數(shù)據(jù)結(jié)果準(zhǔn)確性分析如表6所示. 通過(guò)表6可以看出,相比于訓(xùn)練集較高的準(zhǔn)確率,測(cè)試集的準(zhǔn)確率偏低一些. 同之前分析一樣,大樣本下一些“壞樣本”對(duì)結(jié)果造成了一定影響,所占權(quán)重較大的因素由大到小分別為:貸款額業(yè)、擔(dān)保方式、配偶和職業(yè). 這一結(jié)果也符合之前其他模型分析結(jié)果的規(guī)律,但即便如此,SVM方法的精確度依然高于其他分析方法.
表6 數(shù)據(jù)結(jié)果準(zhǔn)確性分析
3.4貝葉斯分類器
作為對(duì)比模型,樸素貝葉斯模型的構(gòu)造采用matlab中內(nèi)建的數(shù)據(jù)包對(duì)樣本進(jìn)行貝葉斯分析,默認(rèn)數(shù)據(jù)服從高斯分布,且先驗(yàn)概率等于經(jīng)驗(yàn)概率,得出的分類矩陣為
從分類矩陣可以得出,預(yù)測(cè)的準(zhǔn)確率為0.867 3. 這一方法最為簡(jiǎn)單,求解速度最快,但相比于其他方法其準(zhǔn)確度較低(如表7所示). 而且不能給出相關(guān)因素的顯著性,如同神經(jīng)網(wǎng)絡(luò)一樣,只能在“黑箱”中進(jìn)行.
表7 數(shù)據(jù)結(jié)果準(zhǔn)確性分析
通過(guò)比較訓(xùn)練組和驗(yàn)證組的數(shù)據(jù),發(fā)現(xiàn)SVM的結(jié)果準(zhǔn)確率最高,接下來(lái)是Logistic回歸分析和Probit回歸分析,最后是貝葉斯分析. 因此進(jìn)一步對(duì)SVM方法進(jìn)行優(yōu)化,加入模型修正系數(shù)后,模型準(zhǔn)確率有所提升,并且得到的向量平面能都直接反映出不同影響因素的權(quán)重. 因此,對(duì)于該銀行數(shù)據(jù)的擬合結(jié)果說(shuō)明,SVM模型能夠進(jìn)行快速分析并保證一定的準(zhǔn)確性,并確定貸款額業(yè)、擔(dān)保方式、配偶和職業(yè)為主要因素.
4結(jié)語(yǔ)
本文例舉了4種常用的個(gè)人信用單一評(píng)分模型及組合評(píng)分模型,指出了模型的優(yōu)缺點(diǎn),并針對(duì)個(gè)人信用評(píng)分模型在我國(guó)的應(yīng)用中出現(xiàn)的問(wèn)題進(jìn)行了分析探討,發(fā)現(xiàn)SVM方法效果最好. 在此基礎(chǔ)上,結(jié)合模型的應(yīng)用實(shí)際,針對(duì)不同地區(qū)銀行不同的業(yè)務(wù)樣本數(shù)據(jù),形成相應(yīng)的指標(biāo)體系,并對(duì)參數(shù)顯著性進(jìn)行了初步的排序,確定了幾個(gè)對(duì)評(píng)估有重要意義的參數(shù).在接下來(lái)的工作中將進(jìn)一步對(duì)影響因素進(jìn)一步篩選,并對(duì)SVM預(yù)測(cè)模型進(jìn)行優(yōu)化,達(dá)到更好的預(yù)測(cè)效果.
參考文獻(xiàn)
[1] 朱曉明,劉治國(guó).信用評(píng)分模型綜述[J]. 統(tǒng)計(jì)與決策, 2007(2):103-105.
[2] 姜明輝,姜磊,王雅林. 線性判別式分析在個(gè)人信用評(píng)估中的應(yīng)用[J]. 管理科學(xué),2003,16(1):53-55.
[3] 藍(lán)潤(rùn)榮, 程??? 基于改進(jìn) RBF 神經(jīng)網(wǎng)絡(luò)的銀行個(gè)人信用評(píng)級(jí)[J]. 中國(guó)科學(xué)院研究生院學(xué)報(bào), 2013,30(3): 298-303.
[4] 朱興德,馮鐵軍. 基于GA神經(jīng)網(wǎng)絡(luò)的個(gè)人信用評(píng)估[J]. 系統(tǒng)工程理論與實(shí)踐,2003,23(12):70-75.
[5] 丁世飛, 齊丙娟, 譚紅艷. 支持向量機(jī)理論與算法研究綜述 [J]. 電子科技大學(xué)學(xué)報(bào), 2011, 40(1): 2-10.
[6] 肖智, 李文娟. 基于主成分分析和支持向量機(jī)的個(gè)人信用評(píng)估[J]. 技術(shù)經(jīng)濟(jì), 2010, 29(3): 69-72.
[7] 張麗娜, 趙敏. 我國(guó)商業(yè)銀行個(gè)人信用評(píng)分指標(biāo)體系分析[J]. 市場(chǎng)周刊 (理論研究), 2007(8): 115-117.
[8] 藍(lán)潤(rùn)榮, 程??? 基于改進(jìn) RBF 神經(jīng)網(wǎng)絡(luò)的銀行個(gè)人信用評(píng)級(jí) [J]. 中國(guó)科學(xué)院研究生院學(xué)報(bào), 2013, 30(3): 298-303.
[9] 梁琪. 企業(yè)經(jīng)營(yíng)管理預(yù)警: 主成分分析在 logistic 回歸方法中的應(yīng)用[J]. 管理工程學(xué)報(bào), 2005, 19(1): 100-103.[10]聶銘, 周冀衡. 基于 MIV-SVM 的烤煙評(píng)吸質(zhì)量預(yù)測(cè)模型[J]. 中國(guó)煙草學(xué)報(bào), 2015, 20(6): 56-62.
(編輯王小唯)
The research on methods of personal credit scoring combined model selection based on optimized index system
REN Xiao1, JIANG Minghui1, CHE Kai2, WANG Shang3
(1.School of Management, Harbin Institute of Technology, 150001 Harbin, China;2.School of Computer Science and Technology, Harbin Institute of Technology, 150001 Harbin, China;3.School of Materials Science and Engineering, Harbin Institute of Technology, 150001 Harbin, China)
Abstract:For precise estimation of borrowers’ personal credit and reasonable risk management of commercial bank, main models as well as problems are pointed out first. Next, to solve these problems, a modified algorithm is designed to compute a series of weights for indexes to satisfy different needs in different banks with various data and finally improve the accuracy of the model.
Keywords:risk management; personal credit; model for credit scoring; modified algorithm
中圖分類號(hào):F830.589
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0367-6234(2016)05-0067-05
通信作者:任瀟, renxiao@hit.edu.cn.
作者簡(jiǎn)介:任瀟(1983—),女,博士后;姜明輝(1967—),男,教授,博士生導(dǎo)師.
收稿日期:2015-10-22.
doi:10.11918/j.issn.0367-6234.2016.05.010