王燦華
摘要:本文基于可得數(shù)據(jù),采用特征工程方法提取影響信用資質(zhì)的核心因素,并將其作為自變量構(gòu)建制造業(yè)企業(yè)信用違約預(yù)測(cè)的Logistic回歸模型和信用評(píng)分卡。實(shí)證結(jié)果顯示,企業(yè)性質(zhì)、銷(xiāo)售費(fèi)用/營(yíng)業(yè)收入、流動(dòng)資產(chǎn)周轉(zhuǎn)率、帶息債務(wù)/全部投入資本等六個(gè)指標(biāo)對(duì)違約概率影響顯著。通過(guò)建立機(jī)器學(xué)習(xí)模型評(píng)級(jí)和外部評(píng)級(jí)之間的映射表,有望實(shí)現(xiàn)風(fēng)險(xiǎn)企業(yè)排雷、信用價(jià)值挖掘、信用風(fēng)險(xiǎn)定價(jià)等功能。
關(guān)鍵詞:機(jī)器學(xué)習(xí)特征工程 制造業(yè)企業(yè)信用評(píng)級(jí)
得益于大數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)處理技術(shù)的發(fā)展,基于大數(shù)據(jù)的機(jī)器學(xué)習(xí)模型應(yīng)用日益廣泛。機(jī)器學(xué)習(xí)算法是根據(jù)特征對(duì)事物進(jìn)行分類(lèi),本質(zhì)上是降熵過(guò)程。企業(yè)信用評(píng)級(jí)是利用不同的信用評(píng)分或評(píng)級(jí)對(duì)樣本進(jìn)行分類(lèi),進(jìn)而實(shí)現(xiàn)將企業(yè)違約概率從等概率分布轉(zhuǎn)換為非等概率分布。非等概率的熵低于等概率的熵,信用評(píng)級(jí)降熵可用于評(píng)價(jià)企業(yè)信用資質(zhì)。從功能和目標(biāo)的角度看,將機(jī)器學(xué)習(xí)模型應(yīng)用于企業(yè)信用評(píng)級(jí)具有一定優(yōu)勢(shì),但需要以大數(shù)據(jù)為基礎(chǔ),以保證學(xué)習(xí)效果和參數(shù)估計(jì)準(zhǔn)確,避免過(guò)擬合??紤]到難以具備海量企業(yè)樣本數(shù)據(jù),在建模時(shí),使用有較少參數(shù)估計(jì)需求的Logistic回歸算法更為合適。為減少變量共線性對(duì)模型估計(jì)的影響,筆者采用特征工程方法提取信用資質(zhì)驅(qū)動(dòng)核心因子入模。從行業(yè)看,制造業(yè)企業(yè)違約樣本數(shù)居行業(yè)之首,負(fù)樣本數(shù)量相對(duì)充足。將特征工程和機(jī)器學(xué)習(xí)方法應(yīng)用于制造業(yè)企業(yè)信用評(píng)級(jí)在技術(shù)和數(shù)據(jù)方面具有較好的可行性。
指標(biāo)選取、數(shù)據(jù)來(lái)源及特征工程
在樣本選擇方面,筆者選擇證監(jiān)會(huì)行業(yè)分類(lèi)標(biāo)準(zhǔn)下的制造業(yè),訓(xùn)練正樣本為截至2021年一季度末有存量債券、未發(fā)生違約事件且評(píng)級(jí)在A級(jí)以上的企業(yè)主體,共682家;負(fù)樣本為2014—2019年發(fā)生違約事件或者評(píng)級(jí)在BBB級(jí)及以下的企業(yè)主體,共56家。正負(fù)樣本之比約為12:1。將外部評(píng)級(jí)為BBB級(jí)及以下的企業(yè)視為負(fù)樣本基于兩方面考量:一是BBB級(jí)以下屬投機(jī)級(jí),違約風(fēng)險(xiǎn)較高,考慮到外部評(píng)級(jí)實(shí)行發(fā)行人付費(fèi)模式,為審慎起見(jiàn),將正負(fù)切分線上調(diào)至BBB級(jí);二是多數(shù)金融機(jī)構(gòu)限制準(zhǔn)入外部評(píng)級(jí)在A級(jí)及以下的債券,認(rèn)為BBB級(jí)及以下債券的違約風(fēng)險(xiǎn)較高。
在觀察期和表現(xiàn)期選擇方面,考慮到債券市場(chǎng)的價(jià)格敏感度高于評(píng)級(jí)公司跟蹤評(píng)級(jí)以及真實(shí)違約消息,筆者將債券估值偏離度大于10%、評(píng)級(jí)低于A級(jí)、首次違約等三個(gè)事件發(fā)生之前作為樣本企業(yè)觀察期,將觀察期數(shù)據(jù)作為L(zhǎng)ogistic回歸自變量數(shù)據(jù)。觀察期之后為表現(xiàn)期,將表現(xiàn)期違約與否作為因變量數(shù)據(jù)。
為客觀地基于機(jī)器學(xué)習(xí)模型預(yù)測(cè)制造業(yè)企業(yè)違約情況,需構(gòu)建信用資質(zhì)影響因子矩陣??紤]到信用債發(fā)行主體樣本總量相對(duì)有限,且待估參數(shù)過(guò)多可能影響估計(jì)結(jié)果,筆者將企業(yè)性質(zhì)和30項(xiàng)財(cái)務(wù)指標(biāo)作為原始指標(biāo),具體包括:一是盈利能力指標(biāo)6項(xiàng)[銷(xiāo)售凈利率、銷(xiāo)售費(fèi)用/營(yíng)業(yè)總收入、營(yíng)業(yè)利潤(rùn)/營(yíng)業(yè)總收入、稅息折舊及攤銷(xiāo)前利潤(rùn)(EBITDA)/營(yíng)業(yè)總收入、經(jīng)營(yíng)活動(dòng)凈現(xiàn)金流/利潤(rùn)總額、凈資產(chǎn)回報(bào)率的增長(zhǎng)率];二是現(xiàn)金流量指標(biāo)4項(xiàng)(經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~/營(yíng)業(yè)總收入、經(jīng)營(yíng)活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~占比、投資活動(dòng)產(chǎn)生的現(xiàn)金流量?jī)纛~占比、投資活動(dòng)現(xiàn)金凈流量/營(yíng)業(yè)總收入);三是營(yíng)運(yùn)能力指標(biāo)4項(xiàng)(存貨周轉(zhuǎn)天數(shù)、應(yīng)收賬款周轉(zhuǎn)率、流動(dòng)資產(chǎn)周轉(zhuǎn)率、總資產(chǎn)周轉(zhuǎn)率);四是償債能力指標(biāo)5項(xiàng)(長(zhǎng)期負(fù)債占比、EBITDA/利息費(fèi)用、經(jīng)營(yíng)活動(dòng)凈現(xiàn)金流/帶息債務(wù)、經(jīng)營(yíng)活動(dòng)凈現(xiàn)金流/總負(fù)債、貨幣資金/短期債務(wù));五是成長(zhǎng)能力指標(biāo)7項(xiàng)(營(yíng)業(yè)總收入同比增長(zhǎng)率、利潤(rùn)總額同比增長(zhǎng)率、凈利潤(rùn)同比增長(zhǎng)率、營(yíng)業(yè)利潤(rùn)同比增長(zhǎng)率、凈資產(chǎn)同比增長(zhǎng)率、營(yíng)業(yè)總收入3年復(fù)合增長(zhǎng)率、凈利潤(rùn)2年復(fù)合增長(zhǎng)率);六是資本結(jié)構(gòu)指標(biāo)4項(xiàng)(資產(chǎn)負(fù)債率、長(zhǎng)期資本負(fù)債率、帶息債務(wù)/全部投資資本、流動(dòng)負(fù)債/負(fù)債總計(jì))。
利用特征工程方法從原始指標(biāo)篩選入模變量。在進(jìn)行特征工程之前利用相關(guān)性分析和VIF檢驗(yàn)剔除了方差膨脹因子VIF大于10的指標(biāo)。特征工程首先對(duì)原始指標(biāo)進(jìn)行分箱,透過(guò)卡方分箱方法計(jì)算不同指標(biāo)的證據(jù)權(quán)重WOE和信息量IV值,如表1所示,最終選取IV值大于0.2的變量入模,確保入模變量具有較好的違約預(yù)測(cè)能力。
機(jī)器學(xué)習(xí)模型:Logistic回歸及結(jié)果
Logistic回歸模型將多元線性回歸通過(guò)Sigmoid函數(shù)轉(zhuǎn)為違約概率預(yù)測(cè)的計(jì)算函數(shù),因變量是樣本違約與否的結(jié)果,自變量為特征工程篩選出的22個(gè)特征變量。通過(guò)回歸結(jié)果的p值測(cè)量回歸系數(shù)的顯著性大小,結(jié)合逐步回歸確定最終入模指標(biāo)。筆者選擇顯著性較高(p值小于5%)的特征變量。對(duì)樣本按照7:3的比例隨機(jī)分為訓(xùn)練集和測(cè)試集,訓(xùn)練集回歸結(jié)果如表2所示。
從回歸結(jié)果來(lái)看,制造業(yè)企業(yè)信用影響因子涵蓋企業(yè)性質(zhì)、盈利能力、營(yíng)運(yùn)能力、資本結(jié)構(gòu)、償債能力和成長(zhǎng)能力中的6個(gè)指標(biāo)。如圖1所示,結(jié)合特征工程分箱及不同箱體的WOE值分析內(nèi)在機(jī)理。預(yù)期內(nèi)的結(jié)論是:影響信用資質(zhì)的核心指標(biāo)包括企業(yè)性質(zhì)、流動(dòng)資產(chǎn)周轉(zhuǎn)率、經(jīng)營(yíng)活動(dòng)凈現(xiàn)金流占負(fù)債的比例、有息負(fù)債占投入資本的比重、凈利潤(rùn)復(fù)合增長(zhǎng)率。超預(yù)期的結(jié)論是:銷(xiāo)售費(fèi)用占營(yíng)業(yè)收入的比重越低越容易違約。這說(shuō)明對(duì)于制造業(yè)企業(yè)來(lái)說(shuō),銷(xiāo)售收入可提高盈利和償債能力。
如表3所示,訓(xùn)練集和測(cè)試集的KS值分別為0.67和0.65,顯著大于0.3,說(shuō)明模型具有良好的等級(jí)區(qū)分能力;由表4可見(jiàn),訓(xùn)練集和測(cè)試集的AUC值分別為0.90和0.88,顯著高于0.75的界限值,說(shuō)明模型具有較高的精準(zhǔn)性;表4所示測(cè)試集的混淆矩陣顯示模型應(yīng)用于測(cè)試集的效果較好,違約預(yù)測(cè)精準(zhǔn)度高達(dá)73.33%。
制造業(yè)企業(yè)信用評(píng)級(jí)模型及評(píng)分卡
基于Logistic回歸模型及參數(shù)估計(jì)結(jié)果,計(jì)算制造業(yè)企業(yè)的違約概率p,再基于p構(gòu)建信用評(píng)級(jí)評(píng)分卡,評(píng)分Score=500-20?log(p/1-p),即以500分為基準(zhǔn)分,以20分為單一等級(jí)分?jǐn)?shù)區(qū)間,違約概率越高,則評(píng)分越低?;谏鲜鲞壿嫎?gòu)建制造業(yè)企業(yè)的信用評(píng)分卡,如表5所示。基于評(píng)分卡對(duì)存量738家制造業(yè)企業(yè)進(jìn)行信用評(píng)級(jí)打分,以30分劃分一級(jí),將企業(yè)分成12個(gè)等級(jí),結(jié)果如表6所示。10級(jí)以上企業(yè)占比為13.69%,與外部評(píng)級(jí)相比,模型更具區(qū)分度。外部評(píng)級(jí)為AA級(jí)及以上的企業(yè)占比為70%,AAA級(jí)占比高達(dá)22%,集中度較高,區(qū)分度較低。
在信用違約預(yù)測(cè)方面,機(jī)器學(xué)習(xí)模型表現(xiàn)較好,違約預(yù)測(cè)命中率達(dá)75%。如表7所示,2020年下半年至2021年一季度實(shí)際違約企業(yè)4家,其中3家基于2019年數(shù)據(jù)的評(píng)級(jí)結(jié)果低于6級(jí),基于2018年數(shù)據(jù)的評(píng)級(jí)結(jié)果均低于7級(jí),僅B公司的評(píng)級(jí)結(jié)果為9級(jí)。
研究結(jié)果的潛在應(yīng)用
將制造業(yè)企業(yè)外部評(píng)級(jí)和基于機(jī)器學(xué)習(xí)方法的信用評(píng)級(jí)建立二維映射表,如表8所示,單元格內(nèi)容代表外部評(píng)級(jí)為該列對(duì)應(yīng)外部等級(jí)和機(jī)器學(xué)習(xí)模型評(píng)級(jí)為所在行對(duì)應(yīng)模型等級(jí)的企業(yè)家數(shù)。映射表可用于三個(gè)方面。一是風(fēng)險(xiǎn)企業(yè)排雷,當(dāng)企業(yè)外部評(píng)級(jí)低于AA-級(jí)且模型評(píng)級(jí)低于5級(jí)時(shí),可認(rèn)為信用風(fēng)險(xiǎn)較高,應(yīng)避免投資。二是信用價(jià)值挖掘,當(dāng)企業(yè)外部評(píng)級(jí)在AA-級(jí)及以下,但模型評(píng)級(jí)為9級(jí)及以上時(shí),可進(jìn)一步研究,挖掘被市場(chǎng)誤判帶來(lái)的信用溢價(jià)。三是警惕市場(chǎng)高估,當(dāng)企業(yè)外部評(píng)級(jí)在AA-級(jí)以上,但模型評(píng)級(jí)為5~9級(jí)時(shí),可考慮結(jié)合進(jìn)階信用研究并利用債券借貸等做空機(jī)制參與做空。
學(xué)習(xí)模型結(jié)果還可用于信用風(fēng)險(xiǎn)定價(jià)和內(nèi)部評(píng)級(jí)檢驗(yàn)。利用模型評(píng)級(jí)結(jié)果計(jì)算不同等級(jí)的違約概率,并將違約概率應(yīng)用于不同信用等級(jí)制造業(yè)企業(yè)的信用風(fēng)險(xiǎn)定價(jià)。模型評(píng)級(jí)還可為機(jī)構(gòu)內(nèi)部評(píng)級(jí)提供交叉驗(yàn)證和補(bǔ)充,助力內(nèi)部評(píng)級(jí)方法的改進(jìn)和完善。
注:1.單元格內(nèi)數(shù)字代表同時(shí)具有相應(yīng)外部評(píng)級(jí)和模型評(píng)級(jí)的企業(yè)數(shù)量
2.橙色區(qū)域?yàn)榭蛇x優(yōu)質(zhì)企業(yè)區(qū),綠色區(qū)域?yàn)樾庞脙r(jià)值挖掘區(qū),深藍(lán)色區(qū)域?yàn)槭袌?chǎng)高估區(qū),紅色區(qū)域?yàn)榕爬讌^(qū)
作者單位:東莞銀行資產(chǎn)負(fù)債管理部
責(zé)任編輯:陳森? 鹿寧寧