陳 倩,賀興時,楊新社
(1.西安工程大學 理學院,陜西 西安 710048;2.密德薩斯大學 科學與技術學院,英國 倫敦 NM4 4BT)
隨著互聯網金融的迅猛發(fā)展以及個人消費觀念的快速轉變,國內商業(yè)銀行零售信貸業(yè)務,特別是個人信貸業(yè)務得到了發(fā)展,而個人信用風險是信貸業(yè)務面臨的主要風險。如何盡可能地降低信貸損失,已成為金融機構的研究熱點。我國的信用評估系統(tǒng)經過不斷的發(fā)展已經相對成熟,但是仍然存在一定的拓展空間。如何選取合適的評價指標,進一步改善適合我國國情的個人信用評估系統(tǒng),仍具有重大的現實意義。
現有的個人信用風險評估模型,大致可以分為統(tǒng)計分析方法、機器學習方法和統(tǒng)計分析與機器學習結合的組合模型方法[1-5]。包括多元線性回歸[6]、判別分析[7]、Logistic回歸[8]以及支持向量機、神經網絡、決策樹[9-12]等。其中,Logistic回歸模型因為具有較強的變量解釋能力,較高的預測準確率以及計算簡單而被廣泛用在風險評估領域[13]。然而,在實際個人信用風險模型中,影響風險的因素及需要解釋的變量很多,傳統(tǒng)的Logistic模型不能很好地解決多重共線性問題,導致計算了過多冗余變量而增加了模型復雜度[14],影響了模型的解釋性和預測準確性[15]。針對這一缺陷,1996年,TIBSHIRANI提出了著名的Lasso方法,對模型的系數進行壓縮,使得模型中絕對值較小的系數壓縮至零[16];2001年,FAN提出了懲罰似然函數方法,將Lasso懲罰(即L1懲罰)應用于廣義線性模型,使其能夠同時進行變量選擇和系數估計[17];2006年,KIM等提出對Logistic回歸采用Group Lasso算法[18]。2015年,胡小寧等通過Lasso-Logistic回歸模型研究了某銀行的個人信貸數據,并與Logistic回歸模型、基于逐步回歸的Logistic模型進行比較分析。結果顯示,在模型解釋性和預測準確率方面前者都是最優(yōu)的[19]。2016年,張婷婷等建立Adaptive Lasso-Logistic回歸模型,并將其應用到個人信用風險評估問題,其結果比Lasso-Logistic模型和傳統(tǒng)Logistic回歸模型更具說服力[20]。同年,張碧月提出RF-APSOLSSVM二階段個人信用評估模型,實證分析表明RF-Apsolssvm的預測精度比RF模型和Apsolssvm模型的精度高[21]。2017年,余華銀等運用決策樹和Logistic回歸對網貸平臺進行實證分析,結果表明2個模型都具有較好的分類能力,其中決策樹表現最優(yōu)[22]。2020年,鄧麗純等運用Cox模型預測上市公司財務危機,結果表明Cox比例風險模型不但能夠解決空值信息,還能預估數據在指定時刻的生存率狀況[23]。
目前,在個人信用評估領域中構建的模型是以提高模型精度為主要目的,并逐漸從單一模型轉向組合模型; 而將統(tǒng)計分析與機器學習相結合的組合模型兼顧預測精度、穩(wěn)健性和解釋性,在個人信用風險評估領域越發(fā)受學者的關注。本文通過模擬實驗,建立了基于隨機森林[24](random forest,RF)的彈性網[25](Elastic Net)- Logistic個人信用違約風險評估模型及基于RF的Lasso-Logistic模型,并進行比較分析。
文獻[25]提出了Elastic Net方法,其估計為
βenet=arg min{‖y-Xβ‖2+
λ2‖β‖2+λ1‖β‖1}
(1)
式中:λ1和λ2是非負參數;y=(y1,y2,…,yN)T為N維因變量;β=(β1,β2,…,βp)T為Logistic回歸系數;X為N×p階矩陣。該方法是L1懲罰和L2懲罰的結合,懲罰的L1部分生成一個稀疏模型,懲罰的L2部分能夠連續(xù)收縮,在一定程度上消除了變量之間的多重共線性。當變量之間強相關時,彈性網方法能夠有效處理,將必需的強相關變量組全部選入模型,而不會只選擇其中一個變量。
βenet=arg min{‖y-Xβ‖2+
λ[α‖β‖2+(1-α)‖β‖1]}
(2)
式中:λ為非負參數;α∈[0,1]是一個可變參數。當α=1時,彈性網方法變?yōu)閹X回歸; 當α=0時,彈性網方法變?yōu)長asso方法。當0<α<1時,彈性網方法既可以簡化模型,增加模型的預測精度,還盡可能保留重要的解釋變量,不影響模型的解釋力。
通過分析,彈性網只有當特征變量之間存在高相關性時,預測精度才會顯著提高。RF算法對于不平衡的數據集可以平衡誤差,對具有部分特征遺失的數據集可以填補缺失值,并且可以有效避免過度擬合,適用的樣本類型更廣泛。所以,本文首先采用RF算法進行變量篩選,給出解釋變量重要性的度量,剔除不重要的變量;其次,利用整理好的變量擬合Elastic Net-Logistic回歸模型及Lasso-Logistic回歸模型;最后,建立有關個人信用違約風險評估的預測模型。
假設有n個獨立同分布的客戶信用樣本觀測值(xi,yi),xi為第i個客戶的觀測值,yi為響應變量,yi∈{0,1},0代表“壞”客戶,1代表“好”客戶。
假設πi=P(yi=0|xi)是將客戶i評判為“壞”的概率,對πi做Logit變換,記為Logit(πi),即
(3)
式中:β0為截距;xi=(xi1,xi2,…,xip)T為p維協(xié)變量。
對式(3)取最大似然函數,得
(4)
則回歸參數的估計就是將式(4)最大化,即
maxL(β)
(5)
于是得到Logistic回歸模型下的Elastic Net方法的定義,即
(1-yi)ln(1-πi))]+
(6)
(1-yi)ln(1-πi))]+
(7)
式(7)分為2個部分:第1部分
表示模型的擬合程度;
第2部分
表示對進入模型的變量的懲罰力度,最終選出的變量集合要使這2部分的值達到最小。當α=0時,式(7)變?yōu)長asso-Logistic回歸模型。
使用來自加州大學歐文分校(UCI)機器學習數據集倉庫公開的南德信貸數據(2020年)。該數據集共有1 000個觀測記錄和21個變量。其中前20個變量是對貸款申請人的個人特征描述,最后1個變量(yi)是該銀行對客戶信用等級的評判:0為“壞”客戶,1為“好”客戶。個人特征屬性包含了有關客戶的20項指標,分別是現有支票狀況(xi1)、貸款期限(xi2)、歷史信用記錄(xi3)、貸款用途(xi4)、信貸額度(xi5)、儲蓄賬戶/債券狀況(xi6)、工作年限(xi7)、分期付款占可支配收入百分比(xi8)、性別/婚姻(xi9)、擔保情況(xi10)、居住年限(xi11)、個人資產(xi12)、年齡(xi13)、其他分期付款計劃(xi14)、住房情況(xi15)、此銀行已有貸款項目數(xi16)、工作性質(xi17)、供養(yǎng)人數(xi18)、是否有電話(xi19)、是否外籍雇工(xi20)。在這1 000條個人信貸記錄里,被定義為“好”客戶的有700人,另外300人被定義為“壞”客戶。
結合現有信用指標選取資料[26],對數據指標進行初步篩選。其中貸款用途(xi4)屬性取值多達10個,但是其樣本分布極其不均勻,并且某些屬性對應樣本數不足1%,違反了信用評估指標體系構建的層次性原則和可操作原則,因此刪除。性別/婚姻(xi9)原本應是2個評價指標,在該數據集中將二者合為1個指標,違反了信用評估指標體系構建的科學性原則,因此刪除。
刪除這2個比較明顯有問題的指標后,再對剩余的18個指標進一步篩選,其中共有8個屬性變量和10個數值型變量。將8個屬性變量進行啞編碼。以是否有電話(xi19)為例:“否”標記為0,“是”標記為1。若屬性變量的種類超過1個,以住房情況(xi15)為例:“免費住房(xi15_0)”標記為(1,0,0),“租房(xi15_1)”標記為(0,1,0),“自有住房(xi15_2)”標記為(0,0,1)。變換之后的變量由原本的8維擴充到24維。10個數值型變量中,有3個變量(xi2,xi5,xi13)為一般意義下的連續(xù)取值,為消除數據量綱影響,將這3個連續(xù)型數值變量進行“z-score”標準化。剩下的7個變量實際取值為離散值,且取值具有大小的意義,因此可看成有序變量,按照變量影響由小到大的順序編碼為1、2、3、4、5。處理后解釋變量共34個,即p=34,因變量1個。
確定訓練集與測試集分割比例為7∶3,即對整個數據集隨機抽取70%作為訓練集,30%作為測試集。
將處理好的數據集應用RF算法對解釋變量進行重要性度量(見表1),篩選重要變量。對于RF算法的參數,通過計算基于OOB數據的模型誤判率均值,選取最小誤判率mtry=6。另一個重要參數節(jié)點數ntree通過運行結果選取,ntree=310。本文提出的模型運算均通過R語言編輯。
表 1 隨機森林對各個變量的重要性度量Tab.1 The importance measure of random forests to individual variables
表1為RF算法對各個變量的重要性度量表,包含2種度量方式:第1種度量方式是精度平均減少值; 第2種方式是節(jié)點不純度平均減少值。在輸出的結果中,對應變量的重要值越大,說明該變量對于模型進行分類越重要。根據顯著性刪除xi18、xi19、xi20、xi12_1、xi12_2、xi17_0、xi17_2等7個變量,還剩27個解釋變量。
用RF算法篩選出來的27個解釋變量構建基于RF的Lasso-Logistic模型和基于RF的Elastic Net-Logistic模型,并用初始的34個解釋變量構建全變量Elastic Net-Logistic模型。3個模型分別用于個人信用違約風險評估。以預處理過程中隨機選取的70%的觀測值作為訓練樣本,剩下的30%作為預測樣本,以BIC作為準則進行變量選擇和比較。將預測結果與原有數據的客戶標簽變量,即顧客“好”與“壞”的分類結果逐一比較,結果見表2和表3。
表 2 3個模型對樣本顧客的分類預測結果Tab.2 Classification prediction results of customer samples by three models
表 3 3個模型對樣本比例的分類預測結果
建立個人信用違約風險模型的主要目的是為了正確判定違約客戶和不違約客戶。若將違約客戶判定為不違約客戶,對放貸機構而言損失更大,潛在風險也更大。因此,本文著重關注模型的違約召回率,即違約客戶被正確預測的概率,其次關注模型的精度(整體客戶被正確預測的概率)與不違約召回率(不違約客戶被正確預測的概率)。
從表2和表3可以看出:首先,基于RF的Elastic Net-Logistic模型與Elastic Net-Logistic模型相比,前者違約召回率與精度更高,不違約召回率相對偏低,但都保持在80%以上; 其次,基于RF的Elastic Net-Logistic模型和基于RF的Lasso-Logistic模型相比,雖然2個模型在訓練集中的違約召回率一樣,但前者精度更高。在測試集中,基于RF的Elastic Net-Logistic模型的違約召回率和精度均高于基于RF的Lasso-Logistic模型。整體來看,基于RF的Elastic Net-Logistic模型和基于RF的Lasso-Logistic模型從訓練集到測試集違約召回率與精度都在提高,而傳統(tǒng)的Elastic Net-Logistic模型從訓練集到測試集精度在下降,即加入RF算法后的模型性能更好。比較而言,基于RF的Elastic Net-Logistic方法建立的個人信用違約風險評估模型更具有優(yōu)勢。
為降低實驗結果偶然性,進一步驗證本文模型的有效性,選取加州大學歐文分校(UCI)機器學習數據集倉庫提供的澳大利亞信貸數據進行實例驗證。該數據集共有690條觀測記錄,15個屬性變量。與南德信貸數據相似,前14個變量是對貸款申請人的個人特征描述,其中有6個屬性值為連續(xù)值,8個屬性值為離散值。最后1個類變量是該銀行對客戶信用等級的評判:第一類為“壞”客戶,共383個; 第二類為“好”客戶,共307個。采用相同的數據預處理方法及訓練集、測試集分割比例進行實驗,各模型在測試集上對樣本的預測結果如表4所示。
表 4 模型對樣本的分類效果Tab.4 Comparison of models classification effect
從表4可以看出:基于RF的Elastic Net-Logistic模型在違約召回率上比傳統(tǒng)的Elastic Net-Logistic模型和基于RF的Lasso-Logistic模型分別提高了0.88%和8.78%; 在分類精度上分別提高了0.79%和6.06%; 不違約召回率均保持在86%以上。可見,基于RF的Elastic Net-Logistic模型更適用于個人信用違約風險評估問題。
本文引入基于RF的Elastic Net-Logistic方法建立個人信用違約風險評估模型,對南德信貸數據與澳大利亞信貸數據進行實證分析,并與傳統(tǒng)的Elastic Net-Logistic方法和基于RF的Lasso-Logistic方法進行對比分析。結果表明:3個模型均有一定的穩(wěn)定性,但是從分類與預測準確性看,基于RF的Elastic Net-Logistic方法較其他2種方法有明顯的優(yōu)勢。該方法有更高的違約召回率,即違約客戶被正確預測的概率更高,能減少放貸機構的壞賬率,更加符合個人信用違約風險評估的要求??梢?基于RF的Elastic Net-Logistic的個人信用違約風險評估模型,能夠為銀行及其他金融機構在評判客戶信用違約風險中起到一定的指導作用。
本文提出的模型可以處理不平衡數據集,并且適用于特征變量存在高度相關性的情況。在實際問題中,可以將貸款申請人的個人特征作為輸入變量,利用該模型預測客戶風險狀況,及時預防和避免違約狀況的發(fā)生。但是,本文只考慮了把客戶分為“好”“壞”等2種類別,而在實際情況中,可能需要將客戶分為更多的類別;同時,由于相關信息的保密性,數據來源受到限制。因而,本文采用的信貸數據集的數據量并不大,不能全面反映目前復雜的個人信貸消費場景,有待根據具體情況進一步完善。