劉賽可,何曉群,夏利宇
(1.中國人民大學 應用統(tǒng)計科學研究中心,北京 100872;2.國網(wǎng)能源研究院有限公司 管理咨詢研究所,北京 102209)
隨著計算機數(shù)據(jù)存儲和計算能力的顯著提升,信用評級應用研究在得到更多關注的同時亦遇到諸多難題,尤其是可收集的相關數(shù)據(jù)更加多面化和精細化,給信用評級建模帶來一定的挑戰(zhàn)。邏輯回歸(Logistic Regression)模型因其建模過程易理解、結(jié)果可解釋和易轉(zhuǎn)化等特性,成為信用評級建模中常用的模型。在邏輯回歸中,對分類自變量的處理方法通常是重新編碼成虛擬變量,但是當數(shù)據(jù)中包含較多的分類變量且分類變量的類別較多時(如存在k個類別個數(shù)均為g的分類變量則需要添加k(g-1)個虛擬變量),給模型估計和結(jié)果解釋及其在實際工作中的應用均造成一定影響。
實際上,多類別數(shù)據(jù)帶來的問題不僅僅存在于邏輯回歸中,對于其他回歸模型也是類似的。尤其當數(shù)據(jù)樣本量不夠充足而分類變量的類別總數(shù)較多時,回歸模型的估計問題甚至會成為高維問題。一方面,對于高維問題雖然可以考慮變量選擇方法如LASSO (Least Absolute Shrinkage and Selection Operator)、Group-LASSO等進行降維[1],但是如果使用LASSO進行變量選擇則很可能僅保留多類別分類變量中的某幾個類,從而損失部分信息[2];如果使用Group-LASSO在模型中保留或刪掉分類變量的全部類別,這將會給模型的估計或預測帶來影響[3]。另一方面,實際應用中工作人員通常可以根據(jù)其背景知識或經(jīng)驗對分類變量的類別進行合并以減少類別數(shù),但是該方法主觀性太強不具科學合理性,難以泛化推廣應用。綜上所述,具體有效地處理多類別的分類變量的方法非常必要且具有重要意義,但是目前針對該問題的研究極少,沒有合理的理論方法來解決多類別分類自變量給模型回歸帶來的上述問題,因此亟待研究者提出有效的處理方法。尤其在使用邏輯回歸建立信用評級模型時,如果能夠?qū)⑤^多的類合并為少數(shù)幾個類,在簡化模型的同時提升模型的預測效果,不僅可以增加模型的穩(wěn)定性而且得到的模型更便于理解和促進結(jié)果的產(chǎn)品化呈現(xiàn)[4]。
本文主要針對信用評級建模中多類別分類自變量的類合并處理方法進行研究,并給出合并方法的具體操作步驟。分別采用模擬數(shù)據(jù)和實證數(shù)據(jù)對多類別的分類變量進行相應處理,然后使用處理后的數(shù)據(jù)建立信用評級模型,并與未進行處理的數(shù)據(jù)所建模型的預測結(jié)果進行比較,分析本文給出的多類別分類變量類合并方法的有效性。
對于多類別分類變量,最直接的處理方法是進行類別的合并。對分類變量進行類的合并與連續(xù)數(shù)據(jù)離散化在本質(zhì)和目的上具有一定的相似性,因此本文試圖結(jié)合信用評級建模中連續(xù)數(shù)據(jù)離散化的思想提出分類變量的類別合并方法,通過將具有相似性的類別進行合并以提升模型的分類效率,其中主要利用數(shù)據(jù)離散化方法合并相鄰區(qū)間或?qū)^(qū)間進行分割以獲得更多的信息增益的思想,作為本文類合并方法的理論基礎。
數(shù)據(jù)離散化方法可分為有監(jiān)督的和無監(jiān)督的方法,由于無監(jiān)督方法在使用時具有較大的主觀性和不確定性,故而有監(jiān)督的離散化方法相對更受青睞,研究表明有監(jiān)督的數(shù)據(jù)離散化方法要優(yōu)于無監(jiān)督的數(shù)據(jù)離散化方法[5-6]。因此,本文將主要參考有監(jiān)督的數(shù)據(jù)離散化方法給出有監(jiān)督的類合并方法,然后分別使用模擬和實證數(shù)據(jù)對所給出的幾種方法進行比較。有監(jiān)督的數(shù)據(jù)離散化方法又可分為自底向上合并相鄰區(qū)間的方法和自頂向下的區(qū)間分割方法。其中,自底向上的數(shù)據(jù)離散化方法中較經(jīng)典的是Kerber提出的基于卡方檢驗的ChiMerge離散化方法[7],后續(xù)基于ChiMerge方法的改進,如Chi2、Modified-Chi2、Imp-Chi2、Extended-Chi2等方法也被不斷提出[8]。自頂向下的方法中較經(jīng)典的是MDLP,另外還有基于信息熵增益最大、類別-屬性相依最大化(CAIM)等準則的方法應用亦較廣泛[9-11]。當多分類變量為有序時,可以直接使用相鄰區(qū)間合并的自底向上離散化方法,基于已有的某種準則對相鄰的類進行合并;當多分類變量為無序時,不能直接套用數(shù)據(jù)離散化的方法和步驟(尤其是自頂向下的分割方法),但可以將數(shù)據(jù)離散化方法中的準則應用于分類變量的類合并中。
數(shù)據(jù)離散化的方法現(xiàn)已得到比較充分的研究,下面簡要介紹3種相對更適用于信用評級建模的方法。其中,史小康等提出采用Fisher精確檢驗方法進行數(shù)據(jù)離散化,該方法是自底向上的合并相鄰區(qū)間的方法。他們在研究中指出,最終被合并為一類的變量可以剔除出模型,該變量被合并為一類表明它與因變量的相關性弱,由此在數(shù)據(jù)離散化的同時可以達到變量選擇的效果[12]。另外,基于卡方檢驗的離散化算法中存在自由度與期望頻數(shù)選取的問題,會影響卡方計算的準確性,而采用Fisher精確檢驗可以避免自由度和期望頻數(shù)難以確定的問題[13]。在自頂向下的離散化方法中,Li等提出的類別-屬性一致性最大化(CACM)準則是對類別-屬性相依冗余性(CAIR)準則和類別-屬性相依最大化(CAIM)準則的改進,具有一定的優(yōu)越性[14-15]。夏利宇等在CACM準則的基礎上考慮數(shù)據(jù)不平衡的特性對類別的比重進行調(diào)整,提出了基于ACACM準則的數(shù)據(jù)離散化方法,使其更適用于信用評級建模[16]。
本文將根據(jù)上述幾種連續(xù)數(shù)據(jù)離散化方法的核心思想,提出分別采用Fisher精確檢驗準則、CACM和ACACM準則的多類別分類變量的類合并方法,并以信用評級建模為例列出具體的步驟。
在基于Fisher精確檢驗的準則進行類合并時,本文不對最終類別的個數(shù)進行設定,其具體操作步驟為:1.對分類變量中的任意兩個類別屬性關于因變量作出列聯(lián)表,然后分別進行Fisher精確檢驗,得到兩兩類別組合下對應的雙邊檢驗的p值;2.將大于0.1(或用戶定義的其他水平)的最大p值所對應的兩個類別合并為一類;3.重復步驟1和步驟2,直至合并任意兩類后得到的Fisher精確檢驗的p值都小于0.1,或者該分類變量最終被合并為一類。
采用CACM和ACACM的有監(jiān)督類合并方法的步驟為:1.設定最終類別的個數(shù)為k;2.對該分類變量關于因變量作出列聯(lián)表,并計算此狀態(tài)下的CACM或ACACM準則值;3.計算合并任意兩個類別后對應列聯(lián)表的準則值,將使得該準則取得最大值的兩個類別合并為一類;4.重復步驟2和步驟3,直至所有類別被合并為k類,其中k的取值不宜過大,建議選取3或4。
信用評級建模中因變量通常是0-1型的分類變量,那么包含m個類別的分類自變量X關于該因變量的頻數(shù)分布見表1。
表1 信用評級分類自變量的頻數(shù)分布表
Fisher精確檢驗可基于超幾何分布對2×2的列聯(lián)表進行獨立性檢驗,其原假設為行變量和列變量不相關。若對類別Ci和Cj關于因變量的列聯(lián)表Fisher檢驗的結(jié)果不拒絕原假設,則表明類別Ci和Cj與因變量的兩個類別不相關,此時可以將2×2的列聯(lián)表中的兩個類別Ci和Cj(i,j∈{1,2,…,m}且i≠j)合并。如此,每輪計算中可以合并的類別或許有多組,而秉持每輪僅合并一組的原則,會優(yōu)先合并使得Fisher檢驗的p值(大于0.1)最大的兩個類別,如操作步驟2所述。
根據(jù)表1計算CACM準則值的公式為:
(1)
然而,ACACM準則的計算是基于調(diào)整的頻率分布表。首先由表1轉(zhuǎn)換得到相應的頻率分布表,然后將0類和1類的邊際概率進行調(diào)整使其相等,詳見表2所示。
表2 調(diào)整后的分類變量頻率分布表
根據(jù)表2計算ACACM準則的公式為:
(2)
夏利宇等已證明ACACM準則中違約(或違約風險高的)樣本所提供的信息比CACM準則中的多,且其主要是針對信用評級數(shù)據(jù)的天然不平衡性而進行的調(diào)整,故ACACM準則相對更適用于信用評級問題[16]。
通過數(shù)值模擬的方式,分析不同情形下3種類合并方法的效果,并使用3種類合并方法處理后的數(shù)據(jù)和未進行處理的數(shù)據(jù)建立邏輯回歸模型,比較不同方法處理的數(shù)據(jù)在預測效果上的差異。
令模擬數(shù)據(jù)的自變量分別為x1,x2,x3,x4,x5,其中前4個自變量的聯(lián)合分布為多元正態(tài)分布即(x1,x2,x3,x4)~N4((0,1,1.5,2.5),I),N4(·)表示多元正態(tài)分布,I為單位陣。x5為包含12個類別ci(i=1,2,…,12)的分類變量,由包含3個不同分布的混合分布ρ1d1+ρ2d2+ρ3d3生成,其中d1為服從參數(shù)為1.25的泊松分布的密度函數(shù),d2為服從參數(shù)為(0.3,0.15,0.2,0.35)的多項分布的密度函數(shù),d3為服從參數(shù)為0.65的幾何分布的密度函數(shù),ρ1,ρ2,ρ3為3個分布所占的比重。本文的主要目的并非比較不同的數(shù)據(jù)產(chǎn)生機制,故模擬時僅考慮ρ1,ρ2,ρ3只有一個系數(shù)為1的情形,即按上述設定生成樣本量為1 000的數(shù)據(jù),其中350個觀測的(ρ1,ρ2,ρ3)=(1,0,0),350個觀測的(ρ1,ρ2,ρ3)=(0,1,0),剩余300個觀測的(ρ1,ρ2,ρ3)=(0,0,1)。由d2可生成包含4個不同類別的數(shù)據(jù),而d1和d3的分布均可能生成大于4個類別的數(shù)據(jù),此時只需將其中頻數(shù)較大的前3個類別各自作為一類,剩余頻數(shù)較小的類別作為一類。最后,根據(jù)式(3)生成因變量Y。
(3)
其中,T=β0+β1x1+β2x2+β3x3+β4x4+β5,2x5,2+β5,3x5,3+…+β5,12x5,12+ε,ε~N(0,1)。x5是分類變量,以第一個類別為基準添加的11個虛擬變量分別表示為(x5,2,x5,3,…,x5,12),對應的系數(shù)為β5=(β5,2,β5,3,…,β5,12)。由于對β5取值的不同設定可生成分類自變量的各類別與因變量相關程度不同的數(shù)據(jù),因此下面設定β5不同類型的取值,分別代表不同的情形,而(β0,β1,β2,β3,β4)的取值均設定為(0.15,0.35,1,-2,-1)。
模型(1):β5=(0,0,0,2.5,2.5,2.5,2.5,-3,-3,-3,-3),來自相同分布類別的系數(shù)取值相同,其中系數(shù)相同的類別與因變量的相關強度相同;
模型(2):β5=(-0.5,0,-0.5,2.5,0,0,2.5,0,-3,0,-3),來自相同分布的類別中有一個或兩個類別的系數(shù)為0,即其與因變量無關;
模型(3):β5=(5,0,-0.5,-2,0,0,2.5,0,3,0,-3),來自相同分布的類別系數(shù)取值不同,且有部分類別與因變量無關。
利用所提出的基于Fisher精確檢驗、CACM準則和ACACM準則的3種類合并方法對分類變量x5進行處理,3種情形下得到的類合并結(jié)果如表3所示。
3種不同情形下,基于CACM和ACACM準則得到的類合并結(jié)果是相同的,而基于Fisher精確檢驗得到的結(jié)果略有不同,但總體差異不大。在第一種情形下,3種方法均能將服從相同分布且系數(shù)相同的類別合并為一類。第二種情形中,類別c5和c8來自相同分布且對應的系數(shù)相同,被合并為一類是顯然的;對于c10、c11和c12三個類別,雖然c11的系數(shù)為0,但它們來自相同的分布,此時也被合并為一類;剩余被合并為一類的其他類別對應的系數(shù)均較小,主要由于其與因變量的相關程度均不強。第三種情形中,類別c2的系數(shù)為5,相較于其他類別與因變量的相關程度最強,因此被單獨劃分為一類;類別c8和c10雖然來自于不同的分布,但二者與因變量的相關程度最為接近,且各自系數(shù)分別與其服從同分布類別的系數(shù)差別較大,此時類別c8和c10被劃為一類亦是合理的。綜上可知,不同情形下3種類合并方法能夠較好地綜合數(shù)據(jù)所服從的分布特點及其與因變量相關程度的不同對類別進行合并。
表3 不同情形下3種方法的類合并結(jié)果表
根據(jù)表3中的結(jié)果分別對分類變量x5的類別進行合并,然后隨機抽取樣本中的60%作為訓練集,40%作為測試集,重復100次,使用類合并處理后的訓練數(shù)據(jù)和不做任何處理的訓練數(shù)據(jù)建立Logistic回歸模型,并對處理后數(shù)據(jù)所建模型在測試集上的平均預測結(jié)果與未經(jīng)處理的數(shù)據(jù)所建模型的結(jié)果進行比較,模型的預測效果主要通過指標AUC、正確率、召回率、精確率和F2得分進行衡量,其中閾值設定為0.5,結(jié)果如表4所示。
在3種不同的情形下,使用未對分類變量進行處理的數(shù)據(jù)直接建立回歸模型得到的AUC、正確率、召回率、精確率和F2得分指標的平均值均相對最小,表明其預測效果最差。由此可知,使用3種方法對分類變量進行類合并不僅能夠減少回歸模型中的待估參數(shù)的個數(shù),而且能夠提升模型的預測效果。另外,對于前兩種情形基于CACM和ACACM準則的類合并方法整體優(yōu)于Fisher方法,而第3種情形下Fisher方法的模型預測效果整體優(yōu)于CACM和ACACM方法,因此,在實際中可以根據(jù)不同的數(shù)據(jù)情況和應用目的,選擇使用合適的類合并方法。
表4 模型預測結(jié)果表
利用所提出的基于Fisher精確檢驗、CACM準則和ACACM準則的3種類合并方法處理某融資擔保公司的小微企業(yè)信貸業(yè)務數(shù)據(jù),比較用不同方法對多類別分類變量進行合并后得到數(shù)據(jù)的預測能力。根據(jù)3種方法得到的結(jié)果對分類變量的相應類別進行合并,然后分別對合并類別后的數(shù)據(jù)和未加處理的數(shù)據(jù)建立Logistic模型,并對預測結(jié)果進行對比分析。
該小微企業(yè)信貸業(yè)務數(shù)據(jù)的樣本分為存在較低違約風險和存在高違約風險兩類,總樣本量為 2 049,其中違約風險低的樣本量為1 868,風險高的樣本量為181,顯然存在數(shù)據(jù)不平衡。另外,數(shù)據(jù)包含15個連續(xù)變量和3個分類變量,其中分類變量“企業(yè)的行業(yè)類型”有14個類別,分別為A、C、E、F、G、H、I、K、L、M、O、P、Q和R。接下來對“企業(yè)的行業(yè)類型”這一分類變量進行類別合并,在使用CACM和ACACM方法時,將最終類別的個數(shù)設定為4,由3種類合并方法得到的合并結(jié)果如表5所示。
表5 類合并結(jié)果表
由表5中結(jié)果可知,基于Fisher精確檢驗得到的合并結(jié)果與CACM方法的比較接近,而ACACM方法得到的結(jié)果與其他兩種的差異較大。另外,若將最終類別的個數(shù)設為3,由CACM方法得到的類合并結(jié)果與Fisher方法得到的結(jié)果一致,而ACACM方法得到的合并結(jié)果是(H,F(xiàn),G)、(C,E,O,P,Q)和(A,K,M,I,L,R)。造成合并結(jié)果差異的主要原因在于當數(shù)據(jù)嚴重不平衡時,ACACM方法會較另兩種方法更關注樣本量少的風險客戶。綜上所述,在3種方法中(C,E,O)均被合并為一類,且總不與(H,F(xiàn),G)是同一類,而(A,K,M,I,L,R)更容易被合并為一類。
針對上述信貸業(yè)務數(shù)據(jù),使用表5中的結(jié)果對“企業(yè)的行業(yè)類型”這一分類變量分別進行相應類別合并,從而得到3組處理后的數(shù)據(jù)。然后,對3組數(shù)據(jù)和未進行處理的數(shù)據(jù)分別建立Logistic模型,從違約風險低和風險高的樣本中隨機抽取60%作為訓練集,而剩余的40%作為測試集,重復100次。最后,因為數(shù)據(jù)的嚴重不平衡性,特將閾值設定為0.1(預測值大于等于0.1的被認為是存在高風險的客戶),并將由各組數(shù)據(jù)的訓練集所建立模型在相應測試集上100次的預測結(jié)果進行平均,得到各指標的均值和方差如表6所示。
使用3種類合并方法處理的數(shù)據(jù)建立模型的預測結(jié)果均優(yōu)于未進行任何處理的結(jié)果,說明對于多類別的分類變量進行有效的類合并處理有利于提高模型的預測效果和增加模型的穩(wěn)定性。另外,比較3種類合并方法相應的AUC和F2得分發(fā)現(xiàn),使用ACACM方法的預測效果較優(yōu),而且其召回率和精確率最高,說明該方法對存在高風險的客戶識別能力相對最強,而CACM方法的表現(xiàn)次優(yōu),F(xiàn)isher方法的表現(xiàn)較差。但是,基于Fisher檢驗方法的正確率相對最高,說明該方法能夠正確識別較多的低風險客戶。
表6 模型預測結(jié)果表
針對Logistic等回歸模型中多類別分類數(shù)據(jù)可能出現(xiàn)的問題,本文結(jié)合數(shù)據(jù)離散化的核心思想提出了3種類合并方法并給出了相應的操作步驟,這3種方法分別基于Fisher精確檢驗、CACM準則和ACACM準則。分別采用模擬數(shù)據(jù)和實際數(shù)據(jù)對3種類合并的方法進行分析,研究表明3種方法能夠較好地根據(jù)數(shù)據(jù)的分布特點和不同類別與因變量的相關程度對類別進行合并,而且使用類別合并處理后的數(shù)據(jù)建模既減少了模型中待估參數(shù)的個數(shù),又能提高信用評級模型的分類效果,尤其是基于ACACM準則的類合并方法可以較好地識別具有高風險的貸款企業(yè)。
本文主要在信用評級的背景下提出有監(jiān)督的類合并方法,其中因變量為0-1型的二分類變量,但是這3種方法極易推廣至因變量為多分類的情形。此外,對類別進行合并的準則不限于本文所涉及的3種,亦可嘗試使用其他準則。本文的類合并方法僅針對單一的分類自變量,未考慮自變量間的相關性,因此,同時處理多個分類變量的有監(jiān)督類合并方法有待進一步深入研究。