郭 暢
(安徽大學(xué) 經(jīng)濟學(xué)院,合肥 230601)
信用風(fēng)險是商業(yè)銀行面臨的主要風(fēng)險之一,并且隨著“互聯(lián)網(wǎng)+”時代的到來,互聯(lián)網(wǎng)金融行業(yè)蓬勃發(fā)展,越來越多的金融產(chǎn)品走向市場。然而信貸業(yè)務(wù)不僅限于商業(yè)銀行,也開始有了越來越多的選擇,對于互聯(lián)網(wǎng)金融公司,機遇的同時面臨著極大的挑戰(zhàn)。不管是銀行還是互聯(lián)網(wǎng)金融行業(yè),信用風(fēng)險的管控都是不可逃避的關(guān)鍵環(huán)節(jié)和決策的主要依據(jù)。之前安然事件引發(fā)了J.P摩根和花旗集團的信用風(fēng)險,使得J.P摩根對安然的無擔(dān)保貸款高達5億美元;由于信用風(fēng)險監(jiān)管缺失,德隆系(與新疆德隆有關(guān)的上市公司)在銀行的貸款高達200~300億元,造成銀行信貸危機。近年來, P2P(互聯(lián)網(wǎng)金融點對點借貸平臺)的破產(chǎn)事件引起了社會極大關(guān)注,不可避免的原因在于大多 P2P平臺借助各方擔(dān)保,這加速了平臺信用風(fēng)險的醞釀和積累。
可見不管是銀行還是互聯(lián)網(wǎng)金融業(yè),“風(fēng)險管控”都是必經(jīng)之路,而“征信系統(tǒng)”的完善更是要共同追求的目標(biāo)。如何構(gòu)建高效的信用風(fēng)險評估系統(tǒng),從企業(yè)的角度防范信用風(fēng)險是研究的重點。而制造業(yè)是我國國民經(jīng)濟的重要組成部分,制造業(yè)是立國之本、強國之本、富民之本。在“中國制造2025”強國戰(zhàn)略實施背景下,關(guān)注制造企業(yè)發(fā)展及其資金借貸狀況顯得尤為重要。然而制造業(yè)企業(yè)整體信用風(fēng)險偏高,是商業(yè)銀行不良貸款的主要來源,因此需要針對制造業(yè)企業(yè)的特點,合理構(gòu)建企業(yè)信貸的風(fēng)險評估方法,完善企業(yè)風(fēng)險預(yù)警機制,提升違約風(fēng)險識別的精度是研究的重點內(nèi)容。
岳愛東[1]使用2004年至2012年9年的財務(wù)指標(biāo)數(shù)據(jù)計算出指標(biāo)的WOE值和IV值,初步篩選變量,再選擇其中不同的變量組合,分別建立Logistic回歸模型,通過比較模型的預(yù)測結(jié)果反推出可納入信用風(fēng)險模型的優(yōu)良定量指標(biāo)。由于傳統(tǒng)的logistic回歸模型因為其解釋性強、預(yù)測能力較好且穩(wěn)定性較高的原因常常被用來建立信用評分模型,但由于個人信用評估的數(shù)據(jù)一般較大,涉及變量較多,指標(biāo)之間往往存在多重共線性,此時,傳統(tǒng)的邏輯回歸會因為變量間的相關(guān)性導(dǎo)致模型性能較差,不再適用,而進行變量子集選擇后的逐步回歸傾向于保留部分不重要的變量,使模型準(zhǔn)確率大打折扣,因此很有必要進行有效的變量選擇。方匡南等[2]基于logistic回歸模型的優(yōu)點,結(jié)合變量篩選的目的將Lasso-logistic模型應(yīng)用于信用風(fēng)險的評估取得較優(yōu)預(yù)測結(jié)果。
通過梳理信用風(fēng)險評估方面文章[3-5]可以發(fā)現(xiàn),對于企業(yè)信用評估,由于其指標(biāo)往往具有強相關(guān)性,在建模之前需要進行指標(biāo)篩選。然而LASSO(Least Absolute Shrinkage and Selection Operator)就是一種變量選擇和參數(shù)估計相結(jié)合的方法。它的原理是在模型的損失函數(shù)上增加一個正則化項,通過對模型系數(shù)的壓縮,實現(xiàn)控制模型復(fù)雜度的效果。由于其特殊的性質(zhì),方法兼具嶺回歸和子集選擇的優(yōu)點。因此,采用具有變量篩選功能的Lasso-logistic模型作為子模型再對不同子模型的預(yù)測概率進行集成,與不同的單個模型進行對比,研究模型的預(yù)測效果。
預(yù)測制造業(yè)上市公司信用違約情況的目標(biāo)是提前預(yù)知哪些企業(yè)更傾向于違約,發(fā)生違約的企業(yè)往往占少數(shù),因此上市公司財務(wù)數(shù)據(jù)呈現(xiàn)出類別不平衡的結(jié)構(gòu)。常用的信用風(fēng)險評估模型Logistic回歸等模型的基本假設(shè)是各個類別數(shù)目分布比例大致均等,因此,對不平衡數(shù)據(jù)的處理也顯得尤為重要。建立在不平衡數(shù)據(jù)集上的機器學(xué)習(xí)算法性能引起了越來越多學(xué)者的高度關(guān)注。其中最受關(guān)注的方法分為數(shù)據(jù)和算法層面的處理,數(shù)據(jù)層面即從抽樣方法上進行處理,通常采用欠采樣(Under Sampling)和過采樣(Over Sampling)的方法。Under Sampling顧名思義就是減少數(shù)據(jù)集中多數(shù)類的樣本來平衡分布;Over Sampling是對數(shù)據(jù)集中的少數(shù)類樣本進行重復(fù)抽樣至數(shù)據(jù)平衡。然而,前者損失了大部分的樣本信息,后者又容易造成模型過擬合。基于過采樣方法的弊端,Chawla等[6]提出基于k近鄰,利用線性插值法合成少數(shù)類樣本數(shù)據(jù)的SMOTE(Synthetic Minority Over Sampling Technique)方法。現(xiàn)今,研究者們?nèi)匀粚Α皵?shù)據(jù)”層面處理不平衡的基礎(chǔ)算法進行不斷改進。陳啟偉等[7]從欠抽樣方法入手,在多數(shù)類樣本中反復(fù)抽取和少數(shù)類樣本量相等的子樣本組成多個子數(shù)據(jù)集,對多個數(shù)據(jù)子集建立模型并采用簡單平均集成得到較好的預(yù)測性能。
通過梳理文獻,還未有文章結(jié)合lasso指標(biāo)篩選和不平衡處理進行集成的信用違約測度方法,鑒于此,選擇滬深A(yù)股上市的2 042家制造業(yè)上市公司在償債能力、盈利能力、營運能力、發(fā)展能力、現(xiàn)金流能力5個方面22個財務(wù)指標(biāo)數(shù)據(jù),先通過計算WOE和IV值,剔除風(fēng)險識別能力和穩(wěn)定性較差的變量,再同時從“數(shù)據(jù)”的修正和“算法”的改進入手,將改進的Batch-US-LLR模型與單模型進行對比并研究模型在不平衡制造業(yè)上市公司財務(wù)數(shù)據(jù)上的違約預(yù)測效果。
Batch-US-LLR模型的算法設(shè)計如下:
Lasso方法的本質(zhì)是在損失函數(shù)上增加正則化項,在進行參數(shù)估計時,系數(shù)會被壓縮,部分系數(shù)甚至可以壓縮到0來實現(xiàn)特征選擇。對于信用違約預(yù)測,其因變量是否違約屬于二分類變量,因而應(yīng)該在Logistic模型損失函數(shù)增加lasso正則項即使用Lasso-logistic模型。
假設(shè)樣本數(shù)據(jù)為(xi,yi)i=1,2,…,n,其中xi=(xi1,xi2,…,xip)和yi分別是預(yù)測變量和目標(biāo)變量,并且是二元離散數(shù)據(jù)變量取值為0,1,則logistic回歸模型的條件概率為
(1)
(2)
式(2)中為
Lasso-logistic模型中參數(shù)估計寫成如式(3)的形式:
(3)
Batch-US-LLR模型的算法設(shè)計如下:
算法:Batch-US-LLR集成模型(圖1)。
輸入:數(shù)據(jù)集D={(xi,yi),i=1,2,…,N,yi∈{0,1}},多數(shù)類樣本數(shù)記Nm,稀有類樣本記Ns,Nm+Ns=N,采樣率記為SR,k為lasso-logistic子模型個數(shù)。
算法步驟:
(1) 將數(shù)據(jù)集中多數(shù)類樣本和少數(shù)類樣本分別記為Sm和Ss,k=ceil(Sm/Ss);
(2) forj=1,2,…,kdo
(3) 從1~(Ns-i+1)中隨機抽樣,取出對應(yīng)序號的樣本x′;
(4) 在類0樣本中取出所選樣本Ss=Ss-x′;
(7) end for;
圖1 Batch-US-LLR集成模型框架Fig. 1 Batch-US-LLR integrated model structure
選取我國上海證交所和深圳證交所所有A股市場上的制造業(yè)上市企業(yè)作為研究樣本。由于ST、*ST、S*ST企業(yè)都為特殊處理的公司(下文簡稱ST類),ST股為經(jīng)營連續(xù)2 a虧損的公司;*ST股為經(jīng)營連續(xù)3 a虧損、有退市預(yù)警的公司,S*ST為連續(xù)3 a虧損、有退市預(yù)警且未完成股改的公司,一般ST類企業(yè)財務(wù)風(fēng)險較為嚴(yán)重,因此將其作為違約對照組,非ST類的公司作為正常組樣本。
企業(yè)的財務(wù)狀況和經(jīng)營狀況體現(xiàn)在企業(yè)對債務(wù)的償付能力、資產(chǎn)運營管理能力以及企業(yè)的盈利水平、企業(yè)發(fā)展?jié)摿Φ榷鄠€方面,因此,從國泰安數(shù)據(jù)庫(http://www.gtarsc.com/),選取了2017-06-30—2018-06-30的2 394家制造業(yè)上市公司的償債能力、盈利能力、營運能力、發(fā)展能力、現(xiàn)金流能力5個方面共24個財務(wù)指標(biāo)數(shù)據(jù)。其中,根據(jù)統(tǒng)計的樣本數(shù)據(jù)的某些會計年度數(shù)據(jù)的缺失情況,對每個方面財務(wù)指標(biāo)數(shù)據(jù)中樣本會計年度缺失值大于20%的指標(biāo)直接刪除,由于不考慮風(fēng)險積累的時間序列影響,故對其剩余取值做均值處理匯總成截面數(shù)據(jù),最終選取2 042家制造業(yè)上市公司21個財務(wù)指標(biāo)作為自變量,按其是否違約作為因變量。具體變量說明如表1所示。
表1 變量說明表Table 1 Variable description
對數(shù)據(jù)做基礎(chǔ)的描述性統(tǒng)計發(fā)現(xiàn),數(shù)據(jù)存在明顯的異常值,使用R語言編寫蓋帽法函數(shù)對數(shù)據(jù)進行修正。
3.2.1 變量統(tǒng)計檢驗
要研究預(yù)測變量與目標(biāo)變量之間的關(guān)聯(lián),由于目標(biāo)變量是分類變量,因此采用方差分析查看變量是否通過檢驗。方差分析結(jié)果見表2,除了變量X11,X12,X14,X20沒有通過檢驗,說明4個變量對企業(yè)是否違約影響不大,考慮剔除。
表2 各變量與是否違約的方差分析檢驗表Table 2 Variance analysis test of each variable and whether default
3.2.2 變量初篩
根據(jù)所取得的上市公司財務(wù)指標(biāo)數(shù)據(jù),并根據(jù)所計算的指標(biāo)的WOE變動和IV值結(jié)合變量壞賬率圖形,進行變量初篩。WOE(Weight Of Evidence)含義為證據(jù)權(quán)重。IV(Information Value)即為信息價值,衡量自變量對因變量的影響能力。
經(jīng)驗證,所有變量的IV值見表3,剔除IV值小于0.3的變量,其余自變量對是否違約均產(chǎn)生影響。結(jié)合WOE趨勢不符的變量共有:X11,X12,X20??紤]變量的統(tǒng)計檢驗將X14剔除。對剩余變量進一步檢查變量相關(guān)性,做變量相關(guān)圖2,可見部分變量間存在明顯的相關(guān)性,有必要對其進行變量篩選,因此選擇Lasso-logistic模型作子模型。
表3 變量IV值和WOE變動Table 3 IV and WOE of variables
圖2 變量相關(guān)圖Fig. 2 Variable correlation
由于違約事件的發(fā)生是少量的,獲取的 2 042 家制造業(yè)上市公司的財務(wù)指標(biāo)數(shù)據(jù)正負樣本占比分別為96%和4%,數(shù)據(jù)存在嚴(yán)重不均衡,傳統(tǒng)的基于準(zhǔn)確率的模型評價指標(biāo)已經(jīng)不再適用。基于此,選取ROC曲線下面積AUC來評價模型的預(yù)測性能,KS值來評價模型風(fēng)控能力。
由于采用的lasso-logistic基分類器具有變量篩選功能,因此將初篩后的全部變量納入模型。為了更好地進行模型評估將數(shù)據(jù)按7∶3的比例劃分為訓(xùn)練集和測試集。對處理后的數(shù)據(jù)建立5種單一模型:BP神經(jīng)網(wǎng)絡(luò);AdaBoost;隨機森林;logistic回歸;Lasso-logistic 和提出的Batch-US-LLR集成模型進行對比分析。
由表4可得,單一模型中Lasso-logistic模型的AUC值達0.921 6,而使用Batch-US-LLR集成模型在所有對比模型中的AUC最高達到0.927 3,模型精度提升了0.57%,KS值約為0.77說明模型將“好”、“壞”客戶區(qū)分的程度也很高,使用模型對正負樣本精度和穩(wěn)定性的測度在6個模型中最好。
表4 模型結(jié)果匯總表Table 4 Summary of model result
研究并未摒棄傳統(tǒng)的信用風(fēng)險評分卡模型,而是采用傳統(tǒng)A卡(申請評分卡)中變量篩選方法,通過計算WOE和IV的值得到較高風(fēng)險識別能力和穩(wěn)定性的變量納入模型。以X3(資產(chǎn)負債率)、X6(資產(chǎn)報酬率),X9(營業(yè)凈利率)為例,用R Studio做企業(yè)壞賬率圖可圖3、圖4、圖5。對于制造業(yè)來說,其資金占用量大,隨著企業(yè)資產(chǎn)負債率的上升,企業(yè)負擔(dān)較重,往往伴隨著企業(yè)違約率的上升。隨著營業(yè)資產(chǎn)報酬率的上升,營業(yè)凈利率的上升,企業(yè)壞賬率逐步降低,Ⅳ值分別達到1.074 2、1.453 6、1.793 3,說明這些變量對企業(yè)是否違約有著重要影響。
圖3 資產(chǎn)負債率和企業(yè)違約與否的壞賬率圖Fig. 3 Bad debt ratio chart of asset liability ratio and enterprise defaults or not
圖4 資產(chǎn)報酬率和企業(yè)違約與否的壞賬率圖Fig. 4 Bad debt ratio chart of return on assets and enterprise defaults or not
圖5 營業(yè)凈利潤率和企業(yè)違約與否的壞賬率圖Fig. 5 Bad debt rate chart of operating net profit margin and enterprise defaults or not
結(jié)合表2和表3,除去應(yīng)收賬款周轉(zhuǎn)率、存貨周轉(zhuǎn)率、固定資產(chǎn)周轉(zhuǎn)率和營運指數(shù)外的17個財務(wù)指標(biāo)均對是否違約有顯著影響。因此,建議企業(yè)關(guān)注反映企業(yè)盈利能力和償債能力的財務(wù)指標(biāo),這些指標(biāo)能夠幫助銀行等貸款機構(gòu)提醒個別制造業(yè)企業(yè)盡早發(fā)現(xiàn)風(fēng)險隱患,幫助銀行及其他金融機構(gòu)制定預(yù)警機制,及時降低信用風(fēng)險發(fā)生的概率。
對制造業(yè)上市公司的財務(wù)指標(biāo)不平衡數(shù)據(jù),分別對Batch-US改進后的模型和未改進的單個模型進行對比,由表4可以看出,基于Batch-US-LLR集成的模型結(jié)果明顯優(yōu)于沒有處理不平衡數(shù)據(jù)的單個分類器建模結(jié)果。由于在互聯(lián)網(wǎng)風(fēng)控模型中千分之一的精度改變帶來的影響也是巨大的,可見對不平衡數(shù)據(jù)的處理具有一定意義。結(jié)合模型和實際企業(yè)信用評估對評分模型的實際需求,進一步將模型輸出的概率結(jié)果用壞賬率表和K-S 值分析,證實了Batch-US-LLR模型在實際業(yè)務(wù)中的可行性和有效性。因此,模型能夠幫助金融貸款機構(gòu)識別更多的違約企業(yè),銀行或其他金融貸款機構(gòu)在制定信用風(fēng)險預(yù)警機制時可以結(jié)合此模型,注意處理數(shù)據(jù)呈現(xiàn)的明顯不平衡問題,并且對于企業(yè)財務(wù)數(shù)據(jù)指標(biāo)之間相關(guān)性較強的問題采取指標(biāo)篩選處理,并探索子模型集成的方法來降低銀行等金融機構(gòu)可能存在的信用違約風(fēng)險。