摘要:將組合預(yù)測模型用于個人信用評估,在兩種單一統(tǒng)計(jì)模型的基礎(chǔ)上,利用粒子群算法(PSO)求解組合模型的權(quán)重,并通過粒子適應(yīng)度函數(shù)的設(shè)置來控制第二類誤判的發(fā)生,構(gòu)建了基于PSO的組合預(yù)測模型。應(yīng)用結(jié)果表明,基于PSO的組合預(yù)測模型的分類精度高于單一統(tǒng)計(jì)模型,并且有效降低了第二類誤判率,對于商業(yè)銀行控制信用風(fēng)險具有更好的適用性。
關(guān)鍵詞:粒子群算法;組合預(yù)測;個人信用評估
中圖分類號:F832.479文獻(xiàn)標(biāo)志碼:A文章編號:1673-291X(2008)14-0083-04
隨著我國消費(fèi)信貸市場的迅速發(fā)展,個人信用評估的作用日益增強(qiáng)。對于商業(yè)銀行而言,個人信用評估就是通過考察反映消費(fèi)信貸申請者的各種指標(biāo),對其按時還款的可能性進(jìn)行全面的判斷和評估,從而作出是否放貸的決定。在西方發(fā)達(dá)國家,對于個人信用評估方法的研究不斷發(fā)展而且日趨成熟,許多方法被應(yīng)用到個人信用評估領(lǐng)域[1],包括線性回歸、Logistic回歸等統(tǒng)計(jì)方法以及以神經(jīng)網(wǎng)絡(luò)為代表的人工智能方法等。我國現(xiàn)階段仍未建立起完善的個人征信體系,各商業(yè)銀行沒有一套科學(xué)合理的個人信用評估方法,這種狀況嚴(yán)重制約著我國消費(fèi)信貸的發(fā)展。因此,建立適合我國國情的個人信用評估模型是很有意義的。本文將組合預(yù)測模型用于個人信用評估,并利用粒子群算法[2](Particle Swarm Optimization,PSO)來求解模型中的權(quán)重,建立基于PSO算法的組合預(yù)測模型,并與單一模型進(jìn)行對比,考察模型的適用性。
1理論背景及模型構(gòu)建思路
1.1組合預(yù)測的基本原理
組合預(yù)測是將各種預(yù)測加權(quán)重組而得到結(jié)果,Clemen曾指出,組合預(yù)測將成為預(yù)測研究的主流之一[3]。在組合預(yù)測理論中,按照集結(jié)各單項(xiàng)預(yù)測模型的方式大致可分為線性組合和非線性組合,其中,線性組合預(yù)測模型是研究最多、應(yīng)用最廣泛的[4]。線性組合預(yù)測的基本原理如下:
1.2基本PSO算法
1.3模型構(gòu)建思路
個人信用評估本質(zhì)上是模式識別中的一類分類問題,將消費(fèi)信貸申請者劃分為能夠按期還本付息和違約兩類,從而作出接受或拒絕其信貸申請的決定。在信用評估的實(shí)踐中通常存在著兩類誤判:第一類誤判是將信用好的客戶誤判為信用差從而拒絕其貸款申請;第二類誤判是將信用差的客戶誤判為信用好從而接受其貸款申請。一般來說,在銀行和其他金融機(jī)構(gòu)的實(shí)際操作中,后者給銀行造成的損失更大。因此,運(yùn)用模型進(jìn)行個人信用評估時,在提高分類精度的同時,應(yīng)當(dāng)盡量控制第二類誤判的發(fā)生。
本文在個人信用評估中利用線性回歸和Logistic回歸兩種統(tǒng)計(jì)方法分別建立單一預(yù)測模型,進(jìn)一步構(gòu)建基于二者的線性組合預(yù)測模型。在權(quán)重的求解上,本文嘗試采用PSO算法搜索一組權(quán)重,為了使組合預(yù)測模型能夠有效地控制第二類誤判發(fā)生,通過粒子的適應(yīng)度函數(shù)的設(shè)置使PSO算法向第二類誤判降低的方向進(jìn)行權(quán)重的搜索。最后通過與單一模型的分類效果進(jìn)行對比,考察基于PSO算法的組合模型的適用性。
2樣本數(shù)據(jù)及預(yù)處理
2.1樣本數(shù)據(jù)
本文所使用的數(shù)據(jù)來自深圳某商業(yè)銀行的消費(fèi)信貸數(shù)據(jù)庫。分類(是否違約)的標(biāo)準(zhǔn)根據(jù)“違約次數(shù)”,即在分期償付貸款時出現(xiàn)還款滯后或還款金額不足的次數(shù)進(jìn)行判定。在國外的實(shí)踐中,一般認(rèn)為在上一年中違約次數(shù)超過4次,則認(rèn)為該客戶具有較強(qiáng)的違約傾向。本文采用相對嚴(yán)格的分類方法,即只要該違約次數(shù)大于0,就定義為違約。同時,將屬性缺失較嚴(yán)重的指標(biāo)剔出,最終選擇的數(shù)據(jù)中包含10個解釋指標(biāo),這些指標(biāo)及量化方法列于文尾表1。
對于這些數(shù)據(jù),本文選擇分層抽樣的方法,將樣本分為違約和未違約兩類,為了降低數(shù)據(jù)不均衡對模型分類能力的影響,選擇使兩類樣本個數(shù)近似相等。按照上述步驟,最終選擇1 057個數(shù)據(jù)用于模型的建立和測試,并將其隨機(jī)分為兩部分:一部分528個樣本,包括257個違約樣本和271個未違約樣本用于建立模型;另一部分529個樣本,包括248個違約樣本和281個未違約樣本,用于測試模型的分類效果。
2.2數(shù)據(jù)的歸一化處理
為了消除量綱的影響以及降低數(shù)據(jù)不均衡對模型分類能力的影響,本文首先將訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)進(jìn)行歸一化處理。對于本文所采用的10個解釋指標(biāo),將其分成離散型變量和連續(xù)型變量兩組。
3模型的構(gòu)建及應(yīng)用
3.1單一統(tǒng)計(jì)模型
作為組合預(yù)測模型建立的基礎(chǔ),本文首先分別建立線性回歸和Logistic回歸模型。
線性回歸要求解釋變量的分布只有服從一定的前提條件,才能得到較好的結(jié)果。在這些前提條件中,一個重要的假定就是解釋變量之間不存在較強(qiáng)的相關(guān)性,即不存在多重共線性。因此,本文利用SPSS軟件建立線性回歸模型,為了消除解釋變量之間的共線性對模型的影響,變量進(jìn)入模型的方法選擇逐步進(jìn)入(stepwise)法,得到的結(jié)果為:
回歸方程調(diào)整的R2為0.651,對式(6)的系數(shù)進(jìn)行t檢驗(yàn)以及對式(6)進(jìn)行F檢驗(yàn),結(jié)果均表明回歸方程有效。將回歸方程用于測試樣本,并以0.5作為分類界限,即如果預(yù)測結(jié)果大于0.5,則將其判為未違約類,否則判為違約類,得到的預(yù)測分類結(jié)果列于表2。線性回歸應(yīng)用于個人信用評估存在著一個缺點(diǎn)就是:回歸方程的右邊取值可以從-∞到+∞,但等式的左邊是一個概率,其取值范圍只能在(0,1)區(qū)間內(nèi)。如果等式左邊變換成p的一個函數(shù),它可以取任意值,則模型會更有意義[1]。Logistic回歸正是在線性回歸的基礎(chǔ)上產(chǎn)生的。將概率p進(jìn)行Logit變換,即y=ln,就克服了線性回歸的上述缺點(diǎn)。利用SPSS建立Logistic回歸模型,變量篩選的方法選擇Backward: conditional(以假定參數(shù)為基礎(chǔ)作似然比概率檢驗(yàn),向后逐步選擇自變量)的方法,本文得到的Logistic回歸方程為:
其中:分別表示未違約和違約樣本總數(shù);y和y分別表示網(wǎng)絡(luò)的實(shí)際輸出和期望輸出;M是一個放大系數(shù),是為了保證適應(yīng)度的變化比較明顯,這里取為100;k是一個變量,為了控制個人信用評估中造成損失較大的第二類誤判,本文將其設(shè)置為大于1的常數(shù),引導(dǎo)種群向第二類誤判降低的方向進(jìn)化,如果k取值過大,雖然會降低第二類誤判,但會使第一類誤判增加,從而造成總的誤判增加。通過對不同數(shù)值的試驗(yàn),最終模型中k取為10。
將線性回歸與Logistic回歸模型在建模樣本上的預(yù)測結(jié)果作為輸入向量,建立基于PSO算法的組合預(yù)測模型,PSO算法在權(quán)重搜索過程中,其最優(yōu)粒子所對應(yīng)的適應(yīng)度函數(shù)值的變化如右圖1所示。
PSO算法經(jīng)過500次的迭代,搜索得到的最優(yōu)權(quán)重為
因此,本文求得的組合預(yù)測模型為
將線性回歸和Logistic回歸模型在測試樣本上的預(yù)測結(jié)果代入組合模型(14),并以0.5作為分類界限,得到的預(yù)測分類結(jié)果見下頁表2。
4結(jié)果分析
下面分別從分類精度與兩類誤判兩方面進(jìn)行單一模型與基于PSO算法的組合預(yù)測模型的對比分析。
從分類精度的對比可以看出,在建模樣本和測試樣本上,基于PSO算法的組合預(yù)測模型高于線性回歸和Logistic回歸模型,說明組合模型由于結(jié)集了各種單一模型的優(yōu)點(diǎn),用于個人信用評估中較單一模型具有優(yōu)勢。
從兩類誤判的對比可以看出,在建模樣本和測試樣本上,組合預(yù)測模型在第一類誤判方面得到了與Logistic回歸相同的結(jié)果,高于線性回歸模型。但在第二類誤判方面,組合模型是三者中最低的,有效地降低了第二類誤判的發(fā)生。兩種單一統(tǒng)計(jì)模型的第二類誤判都高于第一類誤判,說明在實(shí)際中違約類客戶的特征較未違約類客戶的特征更為復(fù)雜,但通過PSO算法中粒子的適應(yīng)度函數(shù)的設(shè)置,在第一類誤判沒有增加的情況下,實(shí)現(xiàn)了第二類誤判的進(jìn)一步降低,說明本文中PSO算法的適應(yīng)度函數(shù)的設(shè)置是有效的,對于實(shí)踐中規(guī)避信用風(fēng)險的要求具有更好的適用性。
5結(jié)論
本文將組合預(yù)測模型用于個人信用評估,在構(gòu)建線性回歸和Logistic回歸兩種單一統(tǒng)計(jì)模型的基礎(chǔ)上,構(gòu)建了基于PSO算法的組合預(yù)測模型,利用PSO算法的全局搜索能力求解組合預(yù)測模型的權(quán)重,并利用粒子的適應(yīng)度函數(shù)來控制第二類誤判的發(fā)生。通過實(shí)證研究,本文得出以下結(jié)論:(1)組合預(yù)測模型的分類精度高于兩種單一統(tǒng)計(jì)模型,因此,從提高分類精度的角度考慮,運(yùn)用組合預(yù)測模型進(jìn)行個人信用評估是具有優(yōu)勢的。(2)通過PSO算法中粒子的適應(yīng)度函數(shù)的設(shè)置,組合模型在第一類誤判沒有增加的情況下,實(shí)現(xiàn)了第二類誤判的進(jìn)一步降低,對于商業(yè)銀行控制信用風(fēng)險的意義更為重要。
參考文獻(xiàn):
[1]Lyn C. Thomas. A Survey of Credit and Behavioral Scoring: Forecasting Financial Risk of Lending to Consumers [J]. International
Journal of Forecasting, 2000,(16):149-172.
[2]Kennedy J, Eberhart R C. Particle Swarm Optimization[A]. Proceedings of IEEE International Conference on Neural Networks
[C].Perth: IEEE Piscataway, 1995:1942-1948.
[3]Clemen R T. Combining forecasts: A review and annotated bibliography[J]. International Journal of Forecasting, 1989, (5): 559-
583.
[4]馬永開,唐小我.線性組合預(yù)測模型優(yōu)化問題研究[J].系統(tǒng)工程理論與實(shí)踐,1998,(9):110-115.
[5]Shi Y H, Eberhart R C. Parameter Selection in Particle Swarm Optimization [A]. Proceedings of the Seventh Annual Conf. on
Evolutionary Programming [C]. New York: Springer-Verlag, 1998: 591-601.
[6]Shi Y H, Eberhart R C. A Modified Particle Swarm Optimizer [A]. IEEE International Conference on Evolutionary Computation
[C]. Anchorage, Alaska: IEEE Press, 1998:69-73.
[7]周家林,段正澄,鄧建春,等.基于粒子群算法的神經(jīng)網(wǎng)絡(luò)優(yōu)化及其在鏜孔加工中的應(yīng)用[J]. 中國機(jī)械工程,2004,15(21):
1927-1929.
[8]Shi Y H, Eberhart R C. Empirical study of particle swarm optimization [A]. Proceedings of Congress on Evolutionary Computation
[C]. Piscataway: IEEE Service Center, 1999:1945-1950.
Combining Forecast Model Based on PSO for Personal Credit Scoring
YIN Shunag, JIANG Ming-hui
(Administration College, Harbin Institute of Technology, Harbin 150001, China)
Abstract: This paper used combining forecast model for personal credit scoring. Based on two statistical models, this paper constructed a combining forecast model using particle swarm optimization (PSO) to search the combining model's weights and using particle's fitness function to control the type II error rate. The application results indicate that the combining forecast gets higher accuracy with lower type II error rate on training samples and testing samples. The combining forecast model based on PSO presents more applicable for commercial banks to control the credit risk.
Key words: particle swarm optimization; combining forecast; personal credit scoring