王 燦
(上海郵電設計咨詢研究院有限公司,上海 200093)
個人信用實際是借款人與金融機構或出資方的隱形契約,能降低交易行為的成本[1]。但是當信貸交易完成后,借款人未按期履約,將給貸款機構造成損失。美國次貸金融危機以及國內2018年以來多起P2P平臺“暴雷事件”,導致國內外對個人信貸業(yè)務的開展越發(fā)慎重。為了降低信用風險,一套有效的個人信用評價體系及方法顯得尤為重要[2]。
與西方發(fā)達國家相比,我國個人信用評價體系、技術起步較晚,傳統(tǒng)人工經(jīng)驗打分法已無法滿足迅猛發(fā)展的信貸業(yè)務。中辦國辦印發(fā)《關于推進社會信用體系建設高質量發(fā)展促進形成新發(fā)展格局的意見》(2022)指出:支持金融、征信和評級等機構運用大數(shù)據(jù)等技術加強跟蹤監(jiān)測預警。同時,在業(yè)界和學術界,構建既符合信貸業(yè)務特點又高效可行的機器學習方法逐漸成為熱門研究課題。
該文以個人貸款業(yè)務為背景,將信用風險評估抽象為監(jiān)督學習下2類分類問題,采用EasyEnsemble方法解決個人信用數(shù)據(jù)普遍存在的數(shù)據(jù)不平衡問題,對多種單一模型集成進行模型融合,采用準確率、召回率等指標對模型進行評價,以驗證集成學習方法的有效性。
對監(jiān)督學習下的2類分類問題來說,當2種類別樣本數(shù)量差別較大時,被稱為“數(shù)據(jù)不平衡”,即某一類樣本數(shù)遠小于另一類樣本數(shù),可能會導致分類邊界受多數(shù)類樣本的影響[3]。
實際上,銀行、信貸機構多數(shù)類數(shù)據(jù)樣本是非逾期客戶的信息,而逾期客戶占比大約為10%,存在嚴重的正負樣本不平衡問題,例如在一個信用數(shù)據(jù)集中,多數(shù)類(非逾期)樣本有90個,少數(shù)類(逾期)樣本只有10個,將所有樣本都歸為非逾期,識別準確度可達到90%,這時,準確率雖然高,但是對貸款業(yè)務來說,其結果的意義不大。當面對數(shù)據(jù)集不平衡時,以SVM、LR等為代表的機器學習方法僅能得到次優(yōu)結果。
目前,有2個主流方法可以處理數(shù)據(jù)集不平衡問題,即抽樣技術和代價敏感學習[4]。其中,抽樣技術可利用欠采樣方式進行數(shù)據(jù)重構,使數(shù)據(jù)分類能達到平衡,即選擇少量的多數(shù)類樣本與少數(shù)類樣本構成新的訓練集,這種方法雖然使樣本整體比例均衡,但是該方法會使樣本數(shù)減少,導致信息缺失,讓某些特征不能較好地顯現(xiàn),最終使分類模型欠擬合。
為了避免欠擬合技術的缺陷,該文采用EasyEnsemble方法對不平衡數(shù)據(jù)進行處理,該算法類似于隨機森林(Random Forest, RF)的Bagging方法。首先,將數(shù)據(jù)集劃分為多數(shù)類和少數(shù)類2個部分。其次,對多數(shù)類樣本進行不放回抽樣,經(jīng)過n次操作后,生成n份子集。再次,將n份樣本子集分別與少數(shù)類樣本合并訓練一個模型。最后,可以得到n個模型,以n個模型預測結果的平均值作為最終模型。進行EasyEnsemble處理后,如果每組多數(shù)類與少數(shù)類樣本比值約為3∶1,根據(jù)文獻[5]可知,該比例適合進行數(shù)據(jù)集訓練。
集成學習方法是機器學習領域的一個分支,具有一定的理論體系,主要思想為通過一定手段,訓練得到多種單一學習模型(基分類器),要求這些基分類器為弱分類器(誤差率小于0.5),然后,將多種基分類器進行排列組合,通過融合輸出結果來形成分類邊界,該分類結果往往比單一學習模型預測結果更好,即融合后的分類邊界將更接近真實邊界。
常見框架有Bagging模型和Boosting模型,簡單來說,這2種方法就是通過“并聯(lián)”或“串聯(lián)”的結構將基分類器進行組合,并按照一定規(guī)則對最后的結果進行融合,旨在提高模型的穩(wěn)定性或預測精度。其中,Bagging(Bootstrap Aggregating)由Breiman(1996)提出,主要按一定比例對訓練集進行重采樣,然后構成不同的分類器,最后再按一定規(guī)則對結果進行融合。
為了充分利用信用數(shù)據(jù),增強模型泛化能力,該文采用無放回的方式隨機抽取訓練數(shù)據(jù),然后對不同分類器進行集成,包括SVM、LR回歸、DT以及k-NN等,最終的分類(或回歸)結果是n個單獨分類器分類結果的“多數(shù)投票”。
該文以4種弱分類器為基分類器,分別是非對稱誤差成本的核支持向量機(Support Vector Machine,SVM)、邏輯斯蒂回歸(Logistic Regression, LR)、C5.0算法的決策樹(Decision Tree, DT)以及帶有距離加權的k-NN算法(k-Nearest Neighbor,k-NN)。
非對稱誤差成本的核SVM是在普通SVM模型基礎上,通過某些核函數(shù)轉化提高模型處理非線性問題的能力,該文采用徑向基核。同時,考慮信用評價時將逾期誤判為非逾期和將非逾期誤判為逾期的2種錯誤分類的成本不同,因此在徑向基核SVM的基礎上,再引入非對稱誤差成本,即增加將高風險樣本誤判為低風險樣本的成本。這樣雖然降低了分類準確率,但是更符合信貸業(yè)務的實際情況。
邏輯斯蒂回歸是一種經(jīng)典的機器學習模型,常用于解決監(jiān)督學習下的二分類問題,LR模型是在普通線性回歸模型基礎上引入Sigmoid函數(shù),將線性回歸模型產(chǎn)生的數(shù)值帶入Sigmoid函數(shù),最后輸出[0, 1]的結果,以代表對應樣本二分類概率。對信貸業(yè)務來說,該結果能反映樣本的違約概率,因此LR模型及其優(yōu)化被廣泛應用于信貸業(yè)務。
C5.0算法的決策樹是一種經(jīng)典的分類方法,C5.0是其常見算法,主要是以信息熵的下降速度作為節(jié)點分裂準則來構建整個決策樹。同時,為了降低模型過擬合風險,對決策樹進行剪枝,該文采用悲觀剪枝法,其使用統(tǒng)計置信區(qū)間的估計方法,在估計得到誤差后,C5.0算法以“減少誤差”為依據(jù)判斷是否剪枝。
帶有距離加權的k-NN算法是一般k近鄰法算法的改進,k近鄰法是通過計算距離得到的,新樣本與原數(shù)據(jù)集最近距離的k個樣本,將新樣本歸集到k個樣本中的多數(shù)類。但在分類時,某一類樣本量遠大于其他類別,該算法容易出現(xiàn)誤判。為了降低這一類誤判的風險,該文在計算歐式距離時,加入距離權重,對離新樣本距離更近的數(shù)據(jù)點賦予更高的權重,以減少數(shù)據(jù)不平衡對k-NN算法的影響。
對數(shù)據(jù)集進行基分類器訓練,采用不放回Bagging方法,將以上弱分類器以“并聯(lián)”的方式集成(圖1),并在調試參數(shù)過程中,給在集成模型中表現(xiàn)較好的分類器賦予更高的權重。其中,每個分類器的參數(shù)設置都不相同,形成異構基分類器,保證各單獨分類器的分類準確率及召回率的表現(xiàn)不同。因此,該模型將進一步提高表現(xiàn)較好的分類器在集成模型中的權重,使其在投票階段占比更高,對最終結果影響更顯著。
圖1 集成分類器示意圖
該文使用某貸款機構提供30 000個貸款報告信息,所有數(shù)據(jù)來源于某貸款機構經(jīng)一定處理的數(shù)據(jù)(非原始數(shù)據(jù)),使用Python 2.7.12進行求解和檢驗。
該文有30 000樣本,原有19項具體特征指標。由傳統(tǒng)“5C”原則[6]劃分指標的中間層,再由6項基本原則[7]確定中間層展開(圖2),經(jīng)多重共線性及顯著性檢驗后,最終選取16個特征指標,包括是否本地籍、教育程度、婚姻情況、收入、貸款逾期筆數(shù)、貸款逾期月份數(shù)、貸款單月最高逾期總額、貸款最大貸款時長、貸記卡以及準貸記卡相關項等指標,以上16項指標能反映個人自然狀況、經(jīng)濟狀況和信用情況。
圖2 信用評價指標體系圖
對16項指標進行數(shù)據(jù)轉換,以便進行后續(xù)處理及模型訓練。其中,對是否本地籍指標來說,一般本地戶籍樣本違約成本較高,違約概率較低,對該特征采用布爾值,0表示非本地戶籍,1表示本地戶籍。對教育程度指標來說,文化程度高的群體信用意識強,違約風險相對較低,對該特性進行離散化處理,依次用1~8表示初中至博士研究生。對婚姻情況指標來說,婚姻狀況反映樣本所受家庭或社會關系約束的程度,已婚人士違約機會成本高于未婚人士,其違約概率較低,對該特性進行one hot編碼處理,即對已婚、未婚以及離異(單身)等狀態(tài)進行編碼。其他指標(例如收入、貸款逾期筆數(shù)等)無需轉換。
在30 000個樣本中,非逾期與逾期數(shù)據(jù)比達到15∶1,見表1。存在數(shù)據(jù)不平衡問題,采用EasyEnsemble方法,對30 000個樣本進行集成欠采樣,將多數(shù)類樣本(非逾期類)隨機不放回地分為5組,再將這5組與少數(shù)類(逾期類)進行合并,經(jīng)過該處理后,每組多數(shù)類與少數(shù)類樣本比值約3∶1,生成易于后續(xù)模型學習訓練的數(shù)據(jù)集。
表1 原始數(shù)據(jù)集基本情況
同時,為了避免EasyEnsemble后,單組數(shù)據(jù)集樣本量減少,增加模型泛化能力,該文運用交叉驗證方法(Cross validation)將數(shù)據(jù)集隨機劃分為k等份(k-折交叉驗證),即將原有訓練集隨機拆分為k個大小基本相等且互不重疊的區(qū)域,選取其中k-1份作為訓練模型,剩下1份作為測試集。這樣,將進行k次模型訓練,通過k個不同結果計算準確率、召回率以及AUC值等平均值,以調整模型合適的參數(shù)。根據(jù)經(jīng)驗法則,將k值設置為10,該文采用10-折交叉驗證進行模型訓練與調參。
將5組欠采樣處理后的數(shù)據(jù)進行10-折交叉驗證,依次將這50組數(shù)據(jù)集代入SVM分類器、LR分類器、k-NN分類器以及DT分類器進行交叉驗證。在信用分類器性能評價時,求取準確率和召回率的平均值,將其作為效果評價指標。各分類器求解及驗證結果見表2~表5。
表2 SVM 分類器參數(shù)設置及模型驗證
表3 LR分類器參數(shù)設置及模型驗證
表4 DT分類器參數(shù)設置及模型驗證
表5 k-NN分類器參數(shù)設置及模型驗證
單個分類器訓練學習完畢后,通過并行Bagging集成的方法完成最終集成模型,集成分類器的模型檢驗結果見表6。由表6可知,集成后的準確率達到73.94%,召回率達到81.21%,其結果整體優(yōu)于單個分類器的分類效果。同時,模型檢驗結果較差的是LR分類器。
在對每個分類器進行參數(shù)優(yōu)化后,通過集成算法將弱分類器組合在一起,以增加模型的穩(wěn)定性和魯棒性,然而不同的分類器組合帶來的分類效果也不相同,該文分別對比了三分類器組合、五分類器組合、七分類器組合及九分類器組合,得出各AUC(Area Under Curve,受試者工作特征曲線下面積)值,見表7。經(jīng)比較,九分類器(表6中9個單一分類器)的組合效果為最好。
表6 集成分類器模型驗證
表7 AUC值
該文根據(jù)個人信用數(shù)據(jù)的特點,引入EasyEnsemble方法進行多數(shù)類與少數(shù)類數(shù)據(jù)比例平衡,并基于集成學習方法提出了一種可通用于個人信用評價的集成學習算法,對Bagging主要思想進行統(tǒng)一和推廣。在一定程度上解決了信用評價的2個問題(數(shù)據(jù)不平衡和對少數(shù)類(逾期類)的識別),旨在識別逾期風險較大的借款人,以降低信用風險。
在實例分析時,以某貸款公司個人貸款業(yè)務為背景,依次完成信用指標體系構建、原始數(shù)據(jù)處理以及模型選取等工作。其中,針對信用數(shù)據(jù)不平衡的問題,在運用EasyEnsemble方法后,每組多數(shù)類與少數(shù)類樣本比值由15∶1降為3∶1,再以SVM模型、Logistic回歸、k-NN算法以及DT模型進行并行集成,通過九分類器組合得到最終模型,與單一分類器相比,集成分類器可以提高逾期樣本的識別效果。