顧詩韜 李佳燡
(中央財經(jīng)大學中國金融發(fā)展研究院,北京 100000)
信用評分是運用數(shù)學優(yōu)化理論(包括統(tǒng)計學方法、運籌學方法等),依照既定原則(損失最小原則或風險溢價原則),利用客戶的申請資料區(qū)分不同違約率水平客戶的方法。根據(jù)客戶的信用分數(shù),授信者可以分析客戶按時還款的可能性[1]。
Mangasarian[2]于1963年首先提出可將線性規(guī)劃方法應(yīng)用于線性及非線性分類問題。20世紀70年代末到80年代初,F(xiàn)reed和Glover[3,4]提出一系列用于解決判別問題的線性規(guī)劃模型。
以上提及的研究成果著眼于單個目標的優(yōu)化,而石勇和他的研究團隊自1998年起研究數(shù)據(jù)分析和數(shù)據(jù)挖掘領(lǐng)域的多目標規(guī)劃問題,并在前人基礎(chǔ)上提出一系列多目標數(shù)學規(guī)劃模型(Multiple criteria mathematical program, MCMP)。目前,MCMP已經(jīng)成為計算金融和商業(yè)智能領(lǐng)域應(yīng)用最優(yōu)化技術(shù)解決數(shù)據(jù)挖掘問題的最受歡迎的方法之一[5]。
在眾多MCMP模型中,MCLP(多目標線性規(guī)劃)于2001年首先由石勇及其團隊提出,并被成功應(yīng)用在信用卡客戶管理問題中[6]??偨Y(jié)之前的研究成果,MCLP用于個人信用評分領(lǐng)域具有以下優(yōu)勢:一是,相對于其他方法,線性規(guī)劃模型不需要任何假設(shè)條件,與實際經(jīng)濟環(huán)境相符;二是,準確率和靈敏度較高,可以滿足實際操作對違約風險控制的要求;三是,作為一種線性分類模型,原理簡單易懂,操作簡便,易于計算機實現(xiàn);四是,可以處理大樣本數(shù)據(jù),滿足多分類需求,受解釋變量相關(guān)性和共線性影響小,能較好地適應(yīng)不同的情況。
線性規(guī)劃是一種運籌學方法,它能將個人信用評分轉(zhuǎn)化為一個帶有不等式約束的最優(yōu)化問題。其基本思路可以這樣來描述:
假設(shè):我們有一個樣本, 其中有nG個好客戶(將其標記為i=1,2,3…nG+ng)、nB個壞客戶(將其標記為i=nG+1,nG+2,…nG+ng);我們可以從客戶的申請表中得到m個預(yù)測變量,因此客戶i的特征項向量為(Xi1,Xi2,Xi3……,Xim)m個預(yù)測變量對應(yīng)的權(quán)重為W1,W2,W3,……,Wm;臨界值c值用來區(qū)分兩組客戶, WXi≤c,則Xi為好客戶,反之為壞客戶。
此時模型建立如下:
研究獲取德國信用數(shù)據(jù)German credit data(UCI),英國信用數(shù)據(jù)集(Credit)_Thomas 《Credit scoring and its applications》(UCI),日本信用篩查數(shù)據(jù)Japanese Credit Screening Data Set(UCI),信用評估競賽數(shù)據(jù)(數(shù)據(jù)堂),通過數(shù)據(jù)清理獲得最終的平衡數(shù)據(jù)集。在實驗中,分別使用MCLP,DEA以及Logistic回歸三種分類器對同樣的數(shù)據(jù)進行計算,由各混淆矩陣可算出分類器的靈敏性、特效性、準確率。
綜合四個數(shù)據(jù)庫的分類結(jié)果,可總結(jié)出MCLP、Logistic回歸以及DEA算法的優(yōu)劣如下:從準確率來看,MCLP模型穩(wěn)健性較好,始終維持在70%左右,且訓(xùn)練組測試組準確率變化不大;DEA算法準確率雖略高于MCLP模型,但穩(wěn)健性不夠,訓(xùn)練組和測試組之間的準確率相差過多;而logistic回歸相比而言略優(yōu)于其余兩種算法。
從靈敏性來看,三種算法差別不大。然而在英國數(shù)據(jù)庫的計算中,測試組的靈敏性出現(xiàn)了異常值,MCLP和DEA算法得出的結(jié)論都小于50%,相比而言DEA算法要穩(wěn)健得多。
從特效性來看,MCLP模型表現(xiàn)出了較大優(yōu)勢,比率均高于其余兩種算法且較為穩(wěn)健,而在實際生活中,對于壞客戶的識別非常重要,因此MCLP模型在實際運用中非常適合用于個人信用評分。
由MCLP模型的原理可知,資源數(shù)量即臨界值的變化會對模型的準確率產(chǎn)生影響。特對臨界值進行敏感度分析以優(yōu)化模型。研究選取了數(shù)據(jù)質(zhì)量較好的德國數(shù)據(jù)庫中的數(shù)據(jù),以全部屬性為變量,計算當b值在-25到25之間,以步長0.5變化時相應(yīng)得出的測試集的準確率的變動情況,準確率基本以0為軸對稱分布,隨著與0之差的絕對值的增加,準確率呈現(xiàn)不斷下降的趨勢,而b值在-3到3之間所對應(yīng)的準確率較高,實驗結(jié)果表明,當b值取-3時,準確率最高達75%。因此可得結(jié)論,c值的選取以-3到3之間為宜。
對MCLP模型進行評估可得,相比logistic回歸及DEA算法而言,MCLP模型更為穩(wěn)健,在四個數(shù)據(jù)庫中的實驗準確率都在70%左右,由于在實際生活中,將壞客戶誤判為好客戶的代價遠高于將好客戶誤判為壞客戶的代價,因此模型的特效性較為重要,而MCLP模型的特效性顯示略高于其余兩種模型,因此選取MCLP模型是合理并且有效的。此外,由靈敏度分析可得,當模型中的臨界值取在-3到3之間時,模型準確度較高,本文認為取-3為宜。