王 黎,廖聞劍
(1.武漢郵電科學研究院 湖北 武漢 430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京 210019)
基于GBDT的個人信用評估方法
王 黎1,2,廖聞劍1,2
(1.武漢郵電科學研究院 湖北 武漢 430074;2.烽火通信科技股份有限公司 南京研發(fā)部,江蘇 南京 210019)
近年來,個人信用評估問題成為信貸行業(yè)的研究熱點,針對當前應用于信用評估的分類算法大多存在只對某種類型的信用數(shù)據(jù)集具有較好的分類效果的問題,提出了基于Gradient Boosted Decision Tree(GBDT)的個人信用評估方法。GBDT天然可處理混合數(shù)據(jù)類型的數(shù)據(jù)集,可以發(fā)現(xiàn)多種有區(qū)分性的特征以及特征組合,不需要做復雜的特征變換,對于特征類型復雜的信用數(shù)據(jù)集有明顯的優(yōu)勢,且其通過其損失函數(shù)可以很好地處理異常點。在基于兩個UCI公開信用審核數(shù)據(jù)集上的對比實驗表明,GBDT明顯優(yōu)于傳統(tǒng)常用的支持向量機(Support Vector Machine,SVM)以及邏輯回歸(Logistic Regression,LR)的信用評估效果,具有較好的穩(wěn)定性和普適性。
信用評估;分類算法;GBDT
信用風險分析在信貸行業(yè)起著非常重要的作用,對信貸申請者的準確信用評估可幫助信貸商家有效規(guī)避信用風險[1]。近年來,許多分類算法都被應用于個人信用評估,如線性判別分析[2]、LR[3]、K-NN最近鄰算法、樸素貝葉斯、決策樹[4]、神經(jīng)網(wǎng)絡[5]、SVM[6]等。這些方法中,神經(jīng)網(wǎng)絡多數(shù)情況下具有更高的評估準確率[7-8],而關于支持向量機的研究則表明,支持向量機可以克服神經(jīng)網(wǎng)絡的不足,包括結構選擇和小樣本下泛化能力不足等問題。然而,在數(shù)據(jù)集維度較復雜時這些算法存在不能主動進行特征選擇和特征組合的問題,因此準確率會受到無關維度的影響,甚至產生維度災難[9],并且在數(shù)據(jù)預處理中若不剔除異常點,也會對分類結果的準確率產生影響。如對于LR模型,特征組合非常關鍵,但又無法直接通過特征笛卡爾積解決,只能依靠人工經(jīng)驗,耗時耗力同時并不一定會帶來效果提升。GBDT是一種通過將弱分類器組合來提升分類器性能的方法[10]。GBDT算法可有效解決自動進行特征選擇和處理異常點問題,還能在一定程度上避免模型過擬合問題。在UCI兩個公開信用數(shù)據(jù)集[11]上的對比實驗有效驗證了GBDT在個人信用評估應用上的適用性和穩(wěn)定性。
GBDT模型在1999年由Jerome Friedman提出[12],是決策樹與Boosting方法相結合的應用。GBDT每顆決策樹訓練的是前面決策樹分類結果中的殘差。這也是Boosting思想在GBDT中的體現(xiàn)。具體算法思想如圖1所示。
圖1 GBDT算法思想示意圖
從上圖可以看出GBDT的訓練過程是線性的,是無法并行訓練決策樹的。第一棵決策樹T1訓練的結果與真實值T的殘差是第二棵樹T2訓練優(yōu)化的目標,而模型最終的結果是將每一棵決策樹的結果進行加和得到的。即公式(1):
GBDT對于迭代求優(yōu)常用的有兩種損失函數(shù)。一種方式是直接對殘差進行優(yōu)化,另一種是對梯度下降值進行優(yōu)化。從上圖也可以看出,GBDT與傳統(tǒng)的boosting不同,GBDT每次迭代的是優(yōu)化目標,boosting每次迭代的是重新抽樣的樣本。下面,以一個二元分類為例,介紹GBDT的原理,如圖2所示。
圖2 二元分類示例圖
對于一個待分裂的節(jié)點R,其輸出值以不同樣本y的平均值μ作為節(jié)點輸出值,即公式(2):
于是,節(jié)點的誤差可以表示為公式(3):
在節(jié)點分裂的過程中,需要選擇分裂增益最大的屬性進行劃分,分裂增益G的計算方法如公式(4):
采用方差作為損失函數(shù),可以得到Sj,如公式(5):
于是,每個節(jié)點分裂問題就變成尋找一個屬性使分裂增益最大。分別將S,Sj展開,如公式(6):
GBDT采用Shrinkage(縮減)的策略通過參數(shù)設置步長,避免過擬合。Shrinkage的思想認為,每次走一小步逐漸逼近結果的效果,要比每次邁一大步很快逼近結果的方式更容易避免過擬合。即它不完全信任每一棵殘差樹,它認為每棵樹只學到了真理的一小部分,累加的時候只累加一小部分,通過多學幾棵樹彌補不足。Shrinkage仍然以殘差作為學習目標,但對于殘差學習出來的結果,只累加一小部分(step*殘差)逐步逼近目標,step一般都比較小,如0.01~0.001,導致各個樹的殘差是漸變的而不是陡變的。本質上,Shrinkage為每棵樹設置了一個權重,累加時要乘以這個權重。
2.1 信用數(shù)據(jù)的獲取與預處理
由于我國個人征信體系剛剛起步,信用數(shù)據(jù)不易獲得,因此本次實驗基于UCI的兩個公開信用審核數(shù)據(jù)集,分別是澳大利亞信用數(shù)據(jù)集和德國信用數(shù)據(jù)集。其中澳大利亞信用數(shù)據(jù)集的特征含義被隱去以保護數(shù)據(jù)源的機密性,而德國信用數(shù)據(jù)集包含以下指標,分別是 credit history、account balance、loan purpose、loan amount、employment status、personal information、age、housing和job等。這兩個信用數(shù)據(jù)集的指標類型均包含數(shù)值型變量以及離散型變量。數(shù)據(jù)集的具體信息如表1所示。
表1 信用數(shù)據(jù)集
在獲得這些信用數(shù)據(jù)集后,需要首先對這些原始數(shù)據(jù)進行一些預處理,如指標的數(shù)值化,標準化和缺失值填補等。數(shù)值化即把定性指標的屬性值轉換成數(shù)值,以UCI澳大利亞信用數(shù)據(jù)集為例,A1指標的兩個屬性值a和b,在本文中分別被數(shù)值化為0和1。雖然GBDT算法不需要對指標進行標準化處理,但對比實驗中使用的SVM和LR算法中的目標函數(shù)往往認為數(shù)據(jù)集中的特征是標準化的并且具有同階方差的,因此為避免某一指標因方差階數(shù)太大而主導了目標函數(shù),使得目標函數(shù)無法從其他特征進行學習,需要在預處理中統(tǒng)一對數(shù)據(jù)集指標標準化處理。本文將數(shù)據(jù)集處理成符合高斯分布的標準數(shù)據(jù)。對缺失值的填補,數(shù)值型變量采取中值填補方法,離散型變量采用眾數(shù)填補。
2.2 基于GBDT方法的個人信用評估
根據(jù)前面介紹的GBDT的原理可知,GBDT分類模型的可調參數(shù)包括弱分類器(回歸樹)的個數(shù)M,每棵回歸樹的深度h,每棵樹最大葉子節(jié)點數(shù)N,模型學習步長 step,損失函數(shù)(Loss Function),每個分裂節(jié)點最少樣本數(shù),每個葉子節(jié)點最少樣本數(shù),葉子節(jié)點樣本的最小加權分數(shù),子樣本分數(shù),以及分裂節(jié)點的特征數(shù)等。其中學習步長的范圍為,是通過Shrinkage控制模型過擬合的參數(shù),根據(jù)經(jīng)驗,較好的策略是選取較小的學習步長,對應的選取較多的回歸樹。樹的深度和樹的最大葉子節(jié)點參數(shù)都是來控制回歸樹大小的。如果定義樹的最大深度為h,則會生成深度為h的完全二叉樹,該樹至多有2h-1個葉子節(jié)點和2h-1-1個分裂節(jié)點;如果定義樹的葉子節(jié)點數(shù)k,則會通過best-first search生成樹,該樹的深度為k-1,有k-1個分裂節(jié)點。而后一種方法較前一種方法有更快的訓練速度,代價是相對較高的訓練誤差,本課題訓練樣本數(shù)較少,暫不考慮訓練時間的問題,為保證盡可能低的訓練誤差,本文選擇設置樹的深度h參數(shù),而由于GBDT的 boosting特性,訓練的每一步都會在上一步的基礎上更加擬合原數(shù)據(jù),模型是可以一定程度上保證較低的偏差(bias)的,那么為了同樣保證較低的方差(variance),樹的深度h的設置不需要太大。
GBDT可以通過優(yōu)化損失函數(shù)來優(yōu)化訓練過程,本文使用Deviance作為GBDT的損失函數(shù),那么對應的梯度為 I(yi=Gk)-pk(xi),pk表示樣本xi屬于第k個類別的概率,通過Softmax方法求得。因為有k個類別,所以得到k個系列的回歸樹,每個系列最終的預測值分別為f1(x),f2(x),…,fk(X),具體計算公式如(7)所示:
I(·)為指示函數(shù)。也就是當預測第k個類別的概率時,如果真實類別恰好為該類別,梯度為1-pk(xi),否則為-pk(xi)。所以后一棵樹擬合的也就是之前預測值的殘差。
本文基于UCI公開的澳大利亞信用數(shù)據(jù)集和德國信用數(shù)據(jù)集分別對支持向量機,邏輯回歸,以及GBDT方法進行了信用分類性能比較實驗。支持向量機采用的是 LIBSVM[13],核函數(shù)(kernel function)是徑向基核 (radial basis function,RBF)。 為了保證GBDT具有最好的分類性能,每次訓練時都在訓練集上利用5折交叉驗證對GBDT中的參數(shù)進行網(wǎng)格搜索。實驗中我們采取k折交叉驗證(k-fold Cross Validation)的方式。所謂k折交叉驗證指樣本集被分成k組,輪流將其中的k-1組作為訓練集,剩下1組作為測試集,實驗結果取這k次實驗結果的平均值。
我們在每個數(shù)據(jù)集上的實驗分為5組,分別是5、10、15、20、25 折交叉驗證, 實驗結果如表 2 和表3。表2為基于澳大利亞信用審核數(shù)據(jù)集的各算法信用分類結果。表3為基于德國信用審核數(shù)據(jù)集的各算法信用分類結果。其中P、R、F分別表示Precision、Recall和 F-Score。
從表2和表3中可以看出,GBDT在澳大利亞和日本信用數(shù)據(jù)集上的各組實驗中都獲得了比LR和SVM更高的Precision、Recall和F-Score值。而對于信用數(shù)據(jù)集中正負例非常不平衡的德國數(shù)據(jù)集,雖然3種算法的F-Score均明顯下降,但是GBDT方法依然保持相對較好的評估效果。在澳大利亞信用數(shù)據(jù)集上顯示GBDT的平均F值比LR和SVM方法分別高出4.5%和6.7%;在德國信用數(shù)據(jù)集上GBDT的平均F值比LR和SVM方法分別高出12.8%和24.9%。從德國信用數(shù)據(jù)集來看,隨著交叉驗證的折數(shù)從 5變化到 25,LR的 F值變化了14.3%,SVM的F值變化了19%,GBDT的F值變化了10.4%。從圖3中也能看出,GBDT相較于LR和SVM隨實驗折數(shù)的變化相對平穩(wěn)。這說明GBDT相比于LR和SVM的信用分類效果不僅更好,并且具有較高的穩(wěn)定性和有效性,對于正負例非均衡的數(shù)據(jù)集[15]也能保持相對較好的分類準確率。
表2 LR、SVM和GBDT在澳大利亞信用審核數(shù)據(jù)集上的評估效果(%)
表3 LR、SVM和GBDT在德國信用審核數(shù)據(jù)集上的評估效果(%)
圖3 LR、SVM和GBDT的F-Score隨折數(shù)的變化
文中針對當前應用于信用評估的分類算法大多存在只對某種類型的信用數(shù)據(jù)集具有較好的分類效果的問題,提出了基于GBDT的個人信用評估方法。實驗表明在不同類型的信用數(shù)據(jù)集上,GBDT算法相對于工業(yè)常用的LR和SVM分類算法能保持較高的分類準確率,以及更好的穩(wěn)定性和普適性。
[1]Burton D.Credit scoring, risk, and consumer lendingscapes in emerging markets [J].Environment and Planning A,2012,44(1):111-124.
[2]Basens B, Gestel T, Viaene S, et al.Benchmarking state-of-art classification algorithms for credit scoring [J].Journal of the OperationalResearch Society, 2003, 5(4):627-635.
[3]Sarlija N,Bensic M,Zekic-Susac M.Modeling customer revolving credit scoring using logistic regression survival analysis and neural networks[C]//Proceedings of the 7th WSEAS International Conference on Neural Networks, Cavtat, Croatia,2006.Stevens Point, Wisconsin, USA:WSEAS,2006:164-169.
[4]Bahnsen A,Aouada D,Ottersten B.Exampledependent cost-sensitive decision trees[J].Expert Systems with Applications, 2015, 42(19):6609-6619.
[5]West D.Neural network credit scoring models[J].Neural Networks in Business, 2000,27(11):1131-1152.
[6]Huang C L,Chen M C,Wang C J.Credit scoring with a data mining approach based on support vector machines [J].Expert Systems with Applications,2007,33(4):847-856.
[7]Lee T S, Chiu C C, Lu C J, et al.Credit scoring using the hybrid neural discriminant technique[J].Expert Systems with Applications, 2002,23(3):245-254.
[8]Blanco A,Pino-Mejias R,Lara J,Rayo S.Credit scoring models for the microfinance industry using neral networks:Evidence from peru [J].Expert Systems with Applications, 2013,40(1):356-364.
[9]Aryuni M,Madyatmadja E.Feature selection in credit scoring model for credit card applicant in xyz bank:A comparative study [J].International Journal of Multimedia and Ubiquitous Engineering, 2015,10(5):17-24.
[10]Florez-Lopez R,Ramon-Jeronimo J.Enhancing accuracy and interpretability of ensemble strategies in credit risk assessment.a correlated-adjusted decision forest proposal[J].Expert Systems with Applications, 2015,42(13):5737-5753.
[11]Asuncion A,Newman D.UCI machine learning repository[EB/OL].(2008)[2011-02].http://archive.ics.uci.edu/ml
[12]Friedman J H.Greedy Function Approximation:A Gradient Boosting Machine [J].Annals of Statistics,2001,29(5):1189-1232.
[13]Chang C C,Lin C J.LIBSVM:a library for support vector machines[CP/OL].(2001)[2011-02].http://www.csie.ntu.edu.tw/~cjlin/libsvm.
[14]Fawcett T.An introduction to ROC analysis[J].Pattern Recognition Letters, 2006,27(8):867-874.
[15]Brown I,Mues C.An experimental comparison of classification algorithms for imbalance credit scoring data sets[J].Expert Systems with Applications, 2012,39(3):3446-3453.
Personal credit scoring method using gradient boosting decision tree
WANG Li1,2,LIAO Wen-jian2
(1.Wuhan Research Institute of Posts and Telecommunications, Wuhan 430074,China;2.Ltd.Nanjing R&D,F(xiàn)iberHome Communications Science&Technology Development Co., Nanjing 210019,China)
In recent years,the personal credit scoring problem has become the research hotspots in the credit industry.In view of the current classification algorithms applied in credit scoring only have a good effect for some type of credit data set,a personal credit scoring method based on gradient boosted decision tree (GBDT) methods is put forward in this paper.GBDT is naturally able to deal with mixed types of data sets and find distinguishing features and feature combinations without doing complex feature transformation.GBDT shows obvious advantages for credit data set of complex data types,and by the loss function outliers can be well processed.The contrast experiment based on two UCI public credit audit data sets shows that credit scoring results of GBDT is obviously superior to the result of Support Vector Machine(SVM)and Logistic Regression(LR)with good stability and universal applicability.
credit scoring; classification algorithms; GBDT
TN02
:A
:1674-6236(2017)15-0068-05
2016-07-11稿件編號:201607087
王 黎(1992—),女,湖北宜昌人,碩士。研究方向:數(shù)據(jù)挖掘。