鄭怡昕 王重仁
摘要:本文選取2014—2021年的信用債作為研究對象,以單一算法(邏輯回歸、高斯樸素貝葉斯、支持向量機和伯努利樸素貝葉斯)分別構(gòu)建Bagging和Stacking集成學(xué)習(xí)模型,并將其與單一算法以及傳統(tǒng)方法(KMV模型)進行對比,探討如何提高信用債違約預(yù)測精度,證明Bagging集成算法的可靠性,還通過SHAP可解釋算法研究信用債違約中的重要指標(biāo)。實證結(jié)果顯示,四種單一機器學(xué)習(xí)模型在預(yù)測準(zhǔn)確率上優(yōu)于傳統(tǒng)KMV模型;進一步對機器學(xué)習(xí)模型進行集成,發(fā)現(xiàn)同質(zhì)集成算法在提高預(yù)測性能方面不如異質(zhì)集成算法,且Bagging異質(zhì)集成算法的預(yù)測準(zhǔn)確率優(yōu)于Stacking異質(zhì)集成算法。將性能最好的Bagging異質(zhì)集成算法與SHAP可解釋算法結(jié)合,得到對識別信用債違約具有重要價值的9個指標(biāo),分別是違約前債項評級、違約前主體評級、交易所、凈資產(chǎn)收益率、債券類型、企業(yè)性質(zhì)、財務(wù)費用、總資產(chǎn)增長率以及第一大股東持股比例,關(guān)鍵指標(biāo)的識別對信用債違約預(yù)測具有指導(dǎo)意義。
關(guān)鍵詞:信用債違約;風(fēng)險預(yù)警;Bagging集成算法;Stacking集成算法;SHAP可解釋算法
中圖分類號: F832.5? ? ? 文獻標(biāo)識碼:A? ? ? ? ? ?文章編號:1007-0753(2023)10-0018-10
一、引言
信用債作為企業(yè)直接融資的重要工具,在保障實體經(jīng)濟健康發(fā)展,解決融資難、融資貴問題上發(fā)揮著重要作用。隨著時間的推移,債券融資的發(fā)展空間逐漸擴大。然而通過分析2015—2021年信用債違約情況可以發(fā)現(xiàn),隨著市場規(guī)模的擴大,信用風(fēng)險問題日益凸顯。2015年受產(chǎn)能過剩的影響,上游周期行業(yè)的違約事件頻繁發(fā)生,使得違約主體數(shù)量大幅上升。2018年隨著去杠桿政策的出臺,民營企業(yè)違約現(xiàn)象頻發(fā),引發(fā)了第二波違約潮,2019年違約主體數(shù)量達到峰值。從違約金額來看,第二波違約潮在2018年后對市場的沖擊和影響遠超過2015年開始的第一波違約潮。隨著信用債市場的快速整頓,從2020年開始,違約主體數(shù)量有所下降,2021年的首次違約主體數(shù)量為16家,較上年減少14家,2020—2021年間違約金額也開始回落(杜漸和周冠男,2022)。
2021年的信用債市場處于經(jīng)歷“永煤事件”后的修復(fù)期,整體上信用債違約事件有所減少,但在違約主體的評級、性質(zhì)、行業(yè)和地區(qū)分布等方面也出現(xiàn)了一些新變化。首先,各行業(yè)中的違約主體呈現(xiàn)出不同的特點。例如,受到宏觀經(jīng)濟形勢影響較大的傳統(tǒng)制造業(yè)企業(yè),面臨著生產(chǎn)成本上升、市場競爭加劇等壓力,違約風(fēng)險相對較高。與此同時,新興科技和綠色能源等領(lǐng)域的企業(yè)由于創(chuàng)新性強、市場需求大,違約風(fēng)險相對較低。其次,地區(qū)間的經(jīng)濟發(fā)展不平衡也在一定程度上影響著信用債市場的穩(wěn)定性。發(fā)達地區(qū)的企業(yè)普遍具有較強的抗風(fēng)險能力,而欠發(fā)達地區(qū)的企業(yè)則更容易受到地區(qū)性經(jīng)濟波動的影響,違約風(fēng)險較高。
此外,信用債市場的政策環(huán)境也發(fā)生了一些變化。監(jiān)管機構(gòu)加大了對信用風(fēng)險的監(jiān)管力度,提高了信用債的發(fā)行門檻,加強了信息披露要求,這在一定程度上提高了市場的透明度,但也使得部分中小企業(yè)融資難度增加,這可能增加他們的違約風(fēng)險。同時,貨幣政策的變化也直接影響了市場流動性,對信用債違約形成了一定的影響。綜上所述,了解當(dāng)前信用債市場的變化,對于預(yù)測潛在的違約風(fēng)險、制定相應(yīng)的風(fēng)險管理策略以及維護市場的穩(wěn)定性具有重要意義。
二、文獻綜述
隨著信用債規(guī)模逐步擴大,信用債違約成為關(guān)注的焦點,越來越多的學(xué)者從各種角度研究信用債違約。傳統(tǒng)KMV模型常用于信用債違約預(yù)測。潛力和馮雯靜(2020)基于2015—2019年的面板數(shù)據(jù),采用KMV模型預(yù)測了2020—2023年地方政府專項債券的預(yù)期違約概率。Ephraim等(2022)對KMV原始模型做了改進,使其不僅可以估計信用違約概率,還能估計以交易成本為代表的市場摩擦和基于模糊性建模的不確定性;他們選擇南部非洲銀行進行驗證,結(jié)果表明銀行的負(fù)債、股權(quán)或資本成本以及不確定性與其違約風(fēng)險呈正相關(guān)關(guān)系。
在影響因素方面,國內(nèi)外學(xué)者從不同角度對債券違約特征進行研究。Nguyen(2021)研究了1995—2012 年間國際貨幣基金組織 (IMF)的援助計劃對 20 個國家企業(yè)違約風(fēng)險的影響,發(fā)現(xiàn)IMF的援助與企業(yè)違約風(fēng)險異常增加有關(guān)。在針對我國情況的研究中,Xu等(2020)發(fā)現(xiàn)不同省份的信用債違約概率在地域分布上存在明顯差異。張春強等(2019)發(fā)現(xiàn)公司從業(yè)性質(zhì)與債券違約具有明顯的相關(guān)關(guān)系。還有研究表明財務(wù)指標(biāo)(潘澤清,2018)、企業(yè)杠桿率變化(孫立行等,2021)、 企業(yè)特征和發(fā)行結(jié)構(gòu)(王雪標(biāo)等,2018)、企業(yè)生命周期(高詠玲等,2017)和民企互保(鐘金龍等,2021)與信用債違約具有明顯相關(guān)性。
隨著機器學(xué)習(xí)在金融領(lǐng)域的廣泛應(yīng)用,一些學(xué)者已將組合預(yù)測與集成預(yù)測的方法相結(jié)合,構(gòu)建了以機器學(xué)習(xí)算法為基礎(chǔ)的集成預(yù)測模型。Karol(2019)在預(yù)測波蘭的通貨膨脹數(shù)據(jù)時,發(fā)現(xiàn)和單個模型相比,將Bagging算法與單個隱含層的前饋神經(jīng)網(wǎng)絡(luò)結(jié)合的模型展現(xiàn)出更好的預(yù)測性能。Abellán和Mantas(2014)以澳大利亞、德國和日本的信用數(shù)據(jù)為研究對象,證明Bagging 集成算法具有明顯優(yōu)勢。Yin(2020)在股票溢價預(yù)測方面采用了Bagging集成算法,并與LASSO方法進行了比較,結(jié)果表明無論是經(jīng)濟繁榮時期還是經(jīng)濟衰退時期,Bagging算法均超過LASSO方法獲得了更為顯著的經(jīng)濟收益。王康等(2021)在預(yù)測電力系統(tǒng)短期負(fù)荷時,運用Bagging集成算法對原始模型進行集成處理,提高了預(yù)測精確度。Jiang等(2020)從多模型集成的角度,通過Stacking集成算法提高預(yù)測性能。丁嵐和駱品亮(2017)采用Logistic回歸、決策樹和支持向量機作為基分類器,并以支持向量機作為次級學(xué)習(xí)器構(gòu)建了一個Stacking集成框架,用于評估違約風(fēng)險;通過與單一學(xué)習(xí)器進行比較, Stacking集成框架展現(xiàn)出了更好的預(yù)測性能。由此,本文做出如下創(chuàng)新:
一是在已有研究中,Bagging集成算法一般應(yīng)用于同質(zhì)模型的集成,而本文試將Bagging集成算法應(yīng)用于異質(zhì)模型的集成,同時通過與Stacking集成算法進行比較,全面評估不同集成策略在信用債違約預(yù)測方面的預(yù)測效果。二是在相關(guān)文獻中,雖然集成算法被廣泛應(yīng)用于預(yù)測問題,但很少深入分析模型預(yù)測的因果關(guān)系。本文針對這一問題,引入SHAP可解釋算法(Lundberg和Lee, 2017)解釋模型預(yù)測背后的決策邏輯。與傳統(tǒng)的只關(guān)注預(yù)測結(jié)果不同,本文著重分析每個特征對預(yù)測結(jié)果的貢獻,深入挖掘模型的因果關(guān)系,從而提高模型的可信度和實用性,也強調(diào)了對模型決策過程的解釋和理解的重要性。
三、研究設(shè)計
本文旨在構(gòu)建一種集成學(xué)習(xí)方法,通過集成多種算法實現(xiàn)對信用債違約概率的預(yù)測。在對上述多種研究成果進行分析和總結(jié)的基礎(chǔ)上,選擇預(yù)測性能較佳的單一算法(支持向量機、邏輯回歸、高斯樸素貝葉斯和伯努利樸素貝葉斯),提出基于Bagging集成算法的框架來預(yù)測信用債違約情況,并將其與Stacking集成學(xué)習(xí)方法進行比較,驗證Bagging集成算法的預(yù)測性能;然后通過SHAP可解釋算法,深入分析模型的預(yù)測結(jié)果,并揭示指標(biāo)特征值對于結(jié)果的影響程度和方向。
(一)Bagging集成算法
Bagging集成算法能夠?qū)⒍鄠€預(yù)測模型相結(jié)合,每個模型都使用從原始訓(xùn)練集中采樣得到的子訓(xùn)練集來構(gòu)建(Breiman, 1996)。在進行預(yù)測時,通過對訓(xùn)練集進行隨機化抽樣處理,減小了預(yù)測結(jié)果的方差,避免了過擬合問題,使得預(yù)測結(jié)果更加穩(wěn)定(王康等,2021)。Bagging集成算法的步驟如下:
(1) 在原始數(shù)據(jù)集D中,利用有放回的隨機抽樣方式多次抽取m個樣本,形成n個數(shù)據(jù)集d1, d2, …, dn。假設(shè)每個樣本被選中的概率相等。
(2) 使用n個基模型對對應(yīng)的n個數(shù)據(jù)集d1, d2, …, dn進行訓(xùn)練學(xué)習(xí),在理想情況下,最終得到n個不同的模型e1, e2, …, en。
(3) 將n個不同的模型e1, e2, …, en的預(yù)測結(jié)果取平均值作為最終的集成預(yù)測結(jié)果(譚文侃等,2022)。
(二)Stacking集成學(xué)習(xí)算法
Stacking集成學(xué)習(xí)算法將多個分類或回歸模型進行聚合,使模型的邊界更加穩(wěn)定,降低了過擬合的風(fēng)險(Guo等,2020)。具體過程如下:假設(shè)有n個基礎(chǔ)學(xué)習(xí)器,訓(xùn)練集包含m個樣本,每個基礎(chǔ)學(xué)習(xí)器對每個樣本都進行預(yù)測,這些預(yù)測輸出組成一個元特征矩陣X:
其中,xij表示第i個樣本由第j個基礎(chǔ)學(xué)習(xí)器預(yù)測的輸出。元學(xué)習(xí)器使用元特征矩陣X作為輸入值,對應(yīng)的真實標(biāo)簽y 作為輸出值進行訓(xùn)練,得到元模型。在測試時,先使用基礎(chǔ)學(xué)習(xí)器進行預(yù)測,得到元特征矩陣,然后用元模型對元特征矩陣進行預(yù)測,得到最終的集成預(yù)測。
(三)SHAP可解釋算法
SHAP(Shapley Additive exPlanations)可解釋算法是一種用于解釋機器學(xué)習(xí)模型預(yù)測結(jié)果的方法。它基于博弈論中的SHAP值,為每個特征提供了一個重要性分?jǐn)?shù),以說明其對于模型預(yù)測的貢獻。在現(xiàn)有的機器學(xué)習(xí)模型中,通常很難直接理解模型的預(yù)測結(jié)果,而SHAP可解釋算法有助于理解模型中每個特征對預(yù)測結(jié)果的影響程度,為模型的可解釋性提供了有力支持(Lundberg和Lee,2017)。
SHAP值在機器學(xué)習(xí)中的應(yīng)用基于以下公式進行計算:
其中,SHAPi( f )是特征i在預(yù)測函數(shù)f中的SHAP值,n是輸入特征的數(shù)量,J是輸入特征的索引集,x∈X是輸入樣本。fx(S)表示將輸入S與i的組合送入模型中,并預(yù)測出輸出結(jié)果,即S對預(yù)測f的共同影響。而fx (S∪i)則表示在保持其他特征不變的情況下,將輸入i與S的組合送入模型中所預(yù)測的輸出結(jié)果,即S∪i對預(yù)測f的影響。|S|表示集合S的大小, S∈J \ i 表示從特征集中選擇一個不包含i的子集S。公式中的系數(shù)是SHAP值公式的系數(shù),用于計算每個特征的平均邊際貢獻(林娜等,2023)。
四、數(shù)據(jù)選擇與處理
(一) 數(shù)據(jù)說明
本文數(shù)據(jù)來源于WIND數(shù)據(jù)庫,選擇從2014年1月1日—2021年12月31日的違約信用債作為違約樣本,對于同一主體發(fā)行的不同信用債認(rèn)定為不同樣本,共計1 067只信用債。其中,60.12%的信用債主體評級在B級及以下,62.71%的信用債的債項評級在B級及以下。69.61%的違約信用債由民營企業(yè)發(fā)行,44.75%的違約信用債在銀行間債券交易市場進行交易,34.05%的違約信用債在上海交易所進行交易,18.86%的違約信用債在深圳交易所進行交易。違約信用債的種類主要是私募債(255只)、一般公司債(249只)和一般中期票據(jù)(246只)。為了確保所選信用債在觀察周期(2014年1月1日—2021年12月31日)內(nèi)不會發(fā)生違約,本文在2021年12月31日之前到期的信用債中進行選擇,并依據(jù)所屬行業(yè)和資產(chǎn)規(guī)模按照1∶2的配對比例為違約信用債選擇匹配樣本作為對照組。部分信用債主體信息不完整,需要從樣本中剔除,最終確定違約信用債769只,對照組987只信用債,用于本研究。
(二)風(fēng)險預(yù)警指標(biāo)選擇及數(shù)據(jù)預(yù)處理
在構(gòu)建信用債違約風(fēng)險預(yù)警指標(biāo)體系時,本文選擇宏觀指標(biāo)、債項指標(biāo)和財務(wù)指標(biāo)作為主要考慮因素。宏觀指標(biāo)的選取和處理參考Cakmakli和Van dijk(2016)的研究;債項指標(biāo)和財務(wù)指標(biāo)除了考慮現(xiàn)金流質(zhì)量、短期償債能力、長期償債能力、營運能力、盈利能力和發(fā)展分析6個方面外,還參考了蔣敏等(2021)的指標(biāo)體系,并將篩選出的所有變量根據(jù)指標(biāo)的屬性分為定量指標(biāo)和類別指標(biāo)。對于類別指標(biāo),按照標(biāo)簽編碼方案,將每個類別映射到數(shù)值。為了消除不同單位和方差對結(jié)果的影響,依據(jù)公式(3)對數(shù)據(jù)進行歸一化處理,并進行上下1%的縮尾處理剔除異常值,通過顯著性、相關(guān)性和多重共線性檢驗,最終篩選出33個指標(biāo),其中定量指標(biāo)27個、定性指標(biāo)6個(見表1)。
式中xi表示各個樣本,xmax表示樣本最大值,xmin表示樣本最小值。
五、實驗及結(jié)果分析
(一) 違約預(yù)測模型的構(gòu)建
本文選擇上述33個指標(biāo)建立新的信用債評級系統(tǒng),并以此為基礎(chǔ)構(gòu)建信用債違約預(yù)測模型;選擇支持向量機、邏輯回歸、高斯樸素貝葉斯和伯努利樸素貝葉斯作為基分類器,采用Bagging集成算法和Stacking集成算法構(gòu)建集成模型。同時,將這些集成算法與傳統(tǒng)KMV模型進行對比,旨在確定最佳預(yù)測模型。
為了降低模型的過擬合程度,并且盡可能地從數(shù)據(jù)中獲取信息,同時讓模型的預(yù)測性能不會因為數(shù)據(jù)集的劃分而過于敏感,本次實驗將樣本進行劃分,60%作為訓(xùn)練集,40%作為測試集,進行十折交叉驗證,重復(fù)三次,并將每次重復(fù)的結(jié)果求平均值以獲得最終結(jié)果。
在進行違約預(yù)測時,KMV模型和機器學(xué)習(xí)算法得到的預(yù)測結(jié)果存在差異。KMV模型預(yù)測的是違約概率,而機器學(xué)習(xí)算法常用于預(yù)測信用債的類別(即是否會違約)。為了進行統(tǒng)一的評估和比較,參考 Zhao和Chen(2022)的研究,通過大多數(shù)樣本的平均違約距離來判斷企業(yè)違約的標(biāo)準(zhǔn)。研究發(fā)現(xiàn)大多數(shù)企業(yè)的違約距離在-5—7之間,平均值為2,因此,若違約距離小于2,該企業(yè)發(fā)行的信用債將被判定為違約;若違約距離大于或等于2,該企業(yè)發(fā)行的信用債將被判定為非違約。
由于本文違約樣本和非違約樣本在數(shù)量上存在不平衡,模型的預(yù)測分類評價指標(biāo)選擇準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)和F1,這樣不會受到數(shù)據(jù)分布不均的影響,還能更有效地反映模型預(yù)測性能。其中準(zhǔn)確率(accuracy)是指分類器正確預(yù)測的樣本數(shù)與總樣本數(shù)之比。精確率(precision)是指在分類為正類的樣本中,分類器正確預(yù)測為正類的樣本數(shù)與所有預(yù)測為正類的樣本數(shù)之比。召回率(recall)是指,在所有真正為正類的樣本中,分類器正確預(yù)測為正類的樣本數(shù)與所有真正為正類的樣本數(shù)之比。F1值是精確率和召回率的調(diào)和平均數(shù),它綜合考慮了分類器的精確率和召回率。各指標(biāo)表達式見公式(4)—(7)。
其中TP、FP、FN和TN來自分別以真實值(T)和預(yù)測值(F)的positive (P)和negative (N)組成的混淆矩陣 。
(二) 基于不同模型的測算結(jié)果分析
表2—表4展示了各個模型的預(yù)測性能比較結(jié)果,表2是單一模型和傳統(tǒng)KMV模型的預(yù)測性能比較,表3是分別以不同模型為基分類器的同質(zhì)Bagging集成算法和異質(zhì)Bagging集成算法的預(yù)測性能比較,表4是分別以不同模型為基分類器的同質(zhì)Stacking集成算法和異質(zhì)Stacking集成算法的預(yù)測性能比較。和其他算法相比,KMV模型在accuracy、precision、recall和F1上的綜合性能弱于其他算法(除了F1略高于高斯樸素貝葉斯),而集成算法相對于單一算法在預(yù)測性能上有一定程度的提高,并且異質(zhì)集成算法優(yōu)于同質(zhì)集成算法。這是因為集成算法可以彌補單一模型的缺點,從而獲得更穩(wěn)定、更準(zhǔn)確的預(yù)測結(jié)果,并且異質(zhì)集成算法使用不同類型或不同參數(shù)設(shè)置的基礎(chǔ)模型,更有可能產(chǎn)生不同的預(yù)測錯誤。這種差異性有助于減少集成模型的偏差,提高整體性能。在異質(zhì)集成算法中,Bagging集成優(yōu)于Stacking集成,原因是在Bagging集成中,每個基分類器都通過自主隨機采樣訓(xùn)練,加強了模型的泛化能力,并在它們之間引入了一些隨機性,減少了過擬合產(chǎn)生的可能,在處理一定的噪聲和不平衡的數(shù)據(jù)時,可通過隨機抽樣和多模型平均減少噪聲的影響,并且在處理不平衡數(shù)據(jù)時能夠更好地平衡各類別的預(yù)測結(jié)果。Stacking集成算法則需要對多個基分類器的輸出進行組合,很容易受到性能不好的模型影響,且數(shù)據(jù)的噪聲和不平衡性還會影響其模型組合和元分類器的選擇;此外,額外引入的元分類器可能會增加整體模型的復(fù)雜度,很可能導(dǎo)致出現(xiàn)過擬合問題。
(三)信用債違約指標(biāo)重要性分析
和其他模型相比,Bagging異質(zhì)集成算法有著更優(yōu)的表現(xiàn),具備良好的預(yù)測能力。但其結(jié)構(gòu)過于復(fù)雜,在可解釋方面不如一些簡單模型易于理解,所以引入SHAP可解釋算法建立輔助理解模型。
圖1 展示了SHAP特征值的變化如何影響信用債違約概率。采用不同顏色表示指標(biāo)特征在樣本點上的取值大小,紅色樣本點表示指標(biāo)在該樣本上取值較大,藍色樣本點表示指標(biāo)在該樣本上取值較小。每個指標(biāo)特征的圖形由集合中所有樣本點構(gòu)成。以 SHAP 值=0為分界線,當(dāng)樣本點位于左側(cè)時,該指標(biāo)特征對應(yīng)樣本的 SHAP 值為負(fù),表示指標(biāo)特征取該樣本點的值時對輸出違約概率有負(fù)向貢獻,即降低違約概率;當(dāng)樣本點位于右側(cè)時,指標(biāo)特征取對應(yīng)值時對輸出違約概率有正向貢獻,即增加違約概率。因此,對輸出違約概率有正向貢獻的線性關(guān)聯(lián)指標(biāo),圖像應(yīng)呈現(xiàn)出左邊藍色、中間紫色和右邊紅色;而對輸出違約概率有負(fù)向貢獻的線性關(guān)聯(lián)指標(biāo),圖像應(yīng)呈現(xiàn)出左邊紅色、中間紫色和右邊藍色。結(jié)果表明,違約前債項評級、違約前主體評級、交易所、凈資產(chǎn)收益率、債券類型、企業(yè)性質(zhì)、財務(wù)費用、總資產(chǎn)增長率以及第一大股東持股比例對信用債違約概率預(yù)測發(fā)揮著重要的作用(見圖1)。這些指標(biāo)的SHAP值散點圖見圖2—圖10,圖中部分類別變量以數(shù)字代表,具體見表5。
結(jié)合表5和圖2—圖10可知,在銀行間交易和深圳交易所交易的信用債違約概率較大(見圖4);違約前主體評級和違約前債項評級都是評級越低,違約概率越大(見圖2和圖3);債券類型中,一般中期票據(jù)、一般企業(yè)債、一般短期融資券和私募債的信用債違約概率較大(見圖6);企業(yè)類型中,民營企業(yè)、國有企業(yè)和中外合資企業(yè)的信用債有較大違約概率(見圖7)。
根據(jù)圖5可知,整體來看凈資產(chǎn)收益率和信用債違約概率呈負(fù)相關(guān)關(guān)系。這是因為凈資產(chǎn)收益率為負(fù)不僅意味著企業(yè)由于運營不善,在經(jīng)營過程中有高額費用產(chǎn)生或者其他負(fù)面經(jīng)濟因素,面臨虧損,從而導(dǎo)致現(xiàn)金流緊張,難以滿足債務(wù)償還要求,增加違約風(fēng)險;還可能導(dǎo)致企業(yè)的信用評級下降,增加企業(yè)融資成本,進一步惡化企業(yè)的財務(wù)狀況,限制其債務(wù)償還能力,從而導(dǎo)致違約風(fēng)險上升。而凈資產(chǎn)收益率大于等于0則意味著企業(yè)在運營方面取得了盈利,這增強了企業(yè)的財務(wù)穩(wěn)定性,使其更有能力償還債務(wù),能更好地應(yīng)對經(jīng)濟波動,從而降低違約風(fēng)險,降低信用債違約概率。
根據(jù)圖8可知,隨著財務(wù)費用的上升,信用債違約概率呈現(xiàn)先上升后緩慢下降的趨勢。這是因為初期的財務(wù)壓力可能使企業(yè)的現(xiàn)金流受到擠壓,難以按時支付債務(wù),導(dǎo)致違約概率急劇上升。在財務(wù)費用增高后,企業(yè)可能會采取一些措施來應(yīng)對財務(wù)壓力,例如尋求新的融資、削減成本、提高盈利能力等,這些措施可能會在一段時間內(nèi)緩解財務(wù)壓力,降低信用債違約概率的增長速度。隨著時間的推移,企業(yè)也會進行財務(wù)調(diào)整和優(yōu)化來改善其財務(wù)狀況,包括重新規(guī)劃債務(wù)結(jié)構(gòu)、改善經(jīng)營績效、降低財務(wù)風(fēng)險等,這些措施能夠逐漸降低違約概率。
根據(jù)圖9可知,當(dāng)總資產(chǎn)增長率小于0時,信用債違約風(fēng)險高企,而當(dāng)總資產(chǎn)增長率大于0時,信用債違約概率先增加后減少直到趨于平緩。這是因為在總資產(chǎn)增長率的不同階段,企業(yè)面臨的財務(wù)壓力、債務(wù)負(fù)擔(dān)和市場環(huán)境等因素交織影響著違約概率的變化。當(dāng)總資產(chǎn)增長率大于0且數(shù)值較低時,企業(yè)可能在相對穩(wěn)定的狀態(tài)下運營,財務(wù)狀況較好,違約概率較低;然而,隨著企業(yè)總資產(chǎn)增長率的提高,企業(yè)可能開始擴張、投資和拓展市場,在這個階段,企業(yè)需要投入更多的資金來支持新項目,可能導(dǎo)致財務(wù)壓力增加,從而提高了違約概率;企業(yè)在高速增長的過程中可能會不斷優(yōu)化其財務(wù)結(jié)構(gòu),改善債務(wù)管理、資金配置等,在長期會降低債務(wù)風(fēng)險,提高企業(yè)的財務(wù)穩(wěn)定性,進而將違約概率控制在一個較低的平穩(wěn)數(shù)值。
由圖10可知,第一大股東持股比例與信用債違約概率之間的關(guān)系呈現(xiàn)出復(fù)雜的動態(tài),這可能是因為第一大股東持股比例處于不同區(qū)間時,受到不同的影響機制的主導(dǎo),呈現(xiàn)出不同的變動趨勢。整體來看,當(dāng)?shù)谝淮蠊蓶|持股比例較低時,其對企業(yè)決策的影響可能有限,此時,即使持股比例稍有增加,對企業(yè)運營和財務(wù)風(fēng)險的影響可能也不太顯著,因此違約概率的增長較為緩慢。隨著第一大股東持股比例的增加,他們獲得了更大的企業(yè)控制權(quán)和決策權(quán),在一定范圍內(nèi),這有助于提高企業(yè)運營效率,管理財務(wù)風(fēng)險,控制違約概率;但當(dāng)?shù)谝淮蠊蓶|持股比例超過某一閾值后,可能導(dǎo)致逆向效應(yīng),即過高的持股比例使第一大股東控制權(quán)過于集中,導(dǎo)致決策偏向性明顯,影響企業(yè)的正常經(jīng)營,這可能導(dǎo)致風(fēng)險集中或不穩(wěn)定,使違約概率再次增加。當(dāng)?shù)谝淮蠊蓶|持股比例達到一定水平后,持續(xù)增加持股比例可能不再顯著改變企業(yè)的控制和決策權(quán),而更多地意味著企業(yè)經(jīng)營和財務(wù)狀況的穩(wěn)定性,市場信心得以提升,從而減少了違約的風(fēng)險。此外,企業(yè)的治理結(jié)構(gòu)、市場環(huán)境、經(jīng)營戰(zhàn)略等因素都可能影響這種復(fù)雜的關(guān)系,使之呈現(xiàn)出一種多變、不穩(wěn)定的模式。
六、結(jié)論與不足
隨著近年來信用債市場的迅速發(fā)展,信用債違約風(fēng)險逐漸引起關(guān)注。本文旨在尋找提高預(yù)測信用債違約水平的模型,并探討信用債違約的影響因素,以期為投資者提供更準(zhǔn)確的風(fēng)險評估和決策參考。本文選擇2014—2021年全部的違約信用債作為違約組,并依據(jù)所屬行業(yè)和資產(chǎn)規(guī)模按照1∶2的配對比例為違約信用債選擇匹配樣本,最終得到信息完整的違約信用債769只,對照組非違約信用債987只。本文通過參考相關(guān)文獻,確定了定量指標(biāo),并結(jié)合信用債市場變化選擇部分類別指標(biāo)建立信用債違約預(yù)警指標(biāo)體系。在研究方法上,本文旨在探索基于不同基分類器的集成算法在信用債違約預(yù)警上的應(yīng)用,并比較不同算法性能的優(yōu)越性;考慮到集成算法存在的黑箱問題,最后選擇性能最佳的模型進行特征重要性分析。與傳統(tǒng)模型相比較,機器學(xué)習(xí)算法表現(xiàn)出更好的預(yù)測性能。與同質(zhì)集成算法相比,異質(zhì)集成算法在提高預(yù)測精度方面相對較強。此外,針對異質(zhì)集成算法,Bagging集成算法的預(yù)測效果優(yōu)于Stacking集成算法??偠灾?,在提高預(yù)測準(zhǔn)確性方面,異質(zhì)集成算法具備較大潛力,并且Bagging集成算法在該領(lǐng)域的應(yīng)用效果更加顯著。
此外,基于SHAP的特征分析,本文得出了對建立預(yù)警指標(biāo)體系具有重要意義的指標(biāo)。研究結(jié)果顯示,違約前債項評級、違約前主體評級、交易所、凈資產(chǎn)收益率、債券類型、企業(yè)性質(zhì)、財務(wù)費用、總資產(chǎn)增長率以及第一大股東持股比例在信用債違約預(yù)測中有很大影響,值得投資者和監(jiān)管部門關(guān)注。這些指標(biāo)大部分是類別指標(biāo),因此在今后構(gòu)建信用債違約預(yù)警體系時,可以考慮非量化指標(biāo)和量化指標(biāo)協(xié)同發(fā)揮作用,共同構(gòu)建信用債違約預(yù)警指標(biāo)體系,以全面衡量信用風(fēng)險(雷欣南等,2022)。
本文的研究也存在一些局限性。例如數(shù)據(jù)集規(guī)模較小、缺乏橫向數(shù)據(jù),影響了結(jié)果的適用性與普遍性。此外,特征之間的交互關(guān)系也需要更精細(xì)的探究。在未來研究中可以增加數(shù)據(jù)集規(guī)模,加入更多的影響因素,同時使用更多的算法對模型進行優(yōu)化,以提高模型預(yù)測精度并尋找最合適的模型,最終投入實踐,為信用債違約風(fēng)險控制策略的制定提供科學(xué)可行的參考。
參考文獻:
[1] 杜漸,周冠男. 2021年信用債市場違約年鑒(下)——案例篇[EB/OL].(2022-01-26)[2023-10-30]. https://cj.hczq.com/paidArticles/54915?t=1687338598270. 2022.01.26.
[2]潛力,馮雯靜.地方政府專項債券違約風(fēng)險 ——基于KMV模型的分析[J].統(tǒng)計與信息論壇,2020,35(07):35-44.
[3] EPHRAIM M, ERIYOTI C, FARAI K. Fuzzy structural risk of default for banks in Southern Africa [J]. Cogent Economics and Finance, 2022, 10(01): 2141884.
[4] NGUYEN T T. The effect of International Monetary Fund programs on corporate default risk[J]. International Journal of Finance & Economics,2021,28(01):1156-1174.
[5] XU Z H, FAN W, ZHU F. Research on regional debt risk in Hubei province based on modified KMV model [J]. IOP Conference Series: Materials Science and Engineering, 2020, 768(05): 052129.
[6]張春強,鮑群,盛明泉.公司債券違約的信用風(fēng)險傳染效應(yīng)研究——來自同行業(yè)公司發(fā)債定價的經(jīng)驗證據(jù)[J].經(jīng)濟管理,2019,41(01):174-190.
[7]潘澤清.企業(yè)債務(wù)違約風(fēng)險Logistic回歸預(yù)警模型[J].上海經(jīng)濟研究,2018,30(08):73-83.
[8]孫立行,吳雄劍,唐逸舟.貨幣政策、杠桿水平與債券違約[J].蘇州大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2021,42(06):115-126.
[9]王雪標(biāo),王晰,孫曉林.我國中期票據(jù)發(fā)行信用利差的影響因素研究[J].山西財經(jīng)大學(xué)學(xué)報,2018,40(09):18-32.
[10]高詠玲,杜晗,佟巖.生命周期視角下并購類型對上市公司信用風(fēng)險的影響——基于KMV模型的實證研究[J].科學(xué)決策,2017(03):35-48.
[11]中泰證券課題組,鐘金龍,馮玉梅.公司信用債違約風(fēng)險預(yù)警與防范研究[J].證券市場導(dǎo)報,2021(02):2-10+18.
[12]KAROL G S. Bagged neural networks for forecasting Polish (low) inflation[J]. International Journal of Forecasting,2019,35(03):1042-1059.
[13] ABELL?N J,MANTAS C J. Improving experimental studies about ensembles of classifiers for bankruptcy prediction and credit scoring[J]. Expert Systems with Applications,2014,41(08):3825-3830.
[14] YIN A W. Equity premium prediction and optimal portfolio decision with Bagging[J]. The North American Journal of Economics and Finance,2020,54:101274.
[15]王康, 張智晟, 撖奧洋, 等.基于Bagging的雙向GRU集成神經(jīng)網(wǎng)絡(luò)短期負(fù)荷預(yù)測[J]. 電力系統(tǒng)及其自動化學(xué)報, 2021, 33(10): 24-30.
[16] JIANG M Q,LIU J P,ZHANG L,et al. An improved Stacking framework for stock index prediction by leveraging tree-based ensemble models and deep learning algorithms[J]. Physica A:Statistical Mechanics and Its Applications,2020,541:122272.
[17]丁嵐,駱品亮. 基于Stacking集成策略的P2P網(wǎng)貸違約風(fēng)險預(yù)警研究[J]. 投資研究,2017,36(04):41-54.
[18] LUNDBERG S M, LEE S-I.? A unified approach to interpreting model predictions [C].? Proceedings of the 31st International Conference on Neural Information Processing Systems, 2017: 4768-4777.
[19] BREIMAN L. Bagging predictors[J]. Machine Learning,1996,24(02):123-140.
[20]譚文侃,胡南燕,葉義成,等.基于四大集成學(xué)習(xí)的巖爆烈度分級預(yù)測[J].巖石力學(xué)與工程學(xué)報,2022,
41(S2):3250-3259.
[21]GUO X F,GAO Y,ZHENG D,et al. Study on short-term photovoltaic power prediction model based on the Stacking ensemble learning[J]. Energy Reports,2020,6:1424-1431.
[22]林娜,馮珊珊,王斌,等.基于XGBoost模型的高分辨率遙感滑坡快速提取與分析研究[J/OL].武漢大學(xué)學(xué)報(信息科學(xué)版):1-12[2023-10-30].https://doi. org/10. 13203/j. whugis20220296.
[23] ?AKMAKL C,VAN DIJK D. Getting the most out of
macroeconomic information for predicting excess stock
returns[J]. International Journal of Forecasting,2016,
32(03):650-668.
[24] 蔣敏,周煒,史濟川,等.基于fsQCA的上市企業(yè)債券違約影響因素研究[J].管理學(xué)報,2021,18(07):1076-1085.
[25] 朱武祥,廖靜秋,詹子良,等.回歸金融原理:企業(yè)財務(wù)危機預(yù)警研究述評與展望[J].清華大學(xué)學(xué)報(自然科學(xué)版),2023,63(09):1467-1482.
[26] ZHAO Y, CHEN Y.? Assessing and predicting green credit risk in the paper industry [J].? International Journal of Environmental Research and Public Health,2022,19(22):15373.
[27]雷欣南,林樂凡,肖斌卿,等.小微企業(yè)違約特征再探索:基于SHAP解釋方法的機器學(xué)習(xí)模型[J/OL].中國管理科學(xué):1-13[2023-10-30].https://doi.org/10.16381/j.cnki.issn1003-207x.2021.0027.
(責(zé)任編輯:唐詩柔)
Study on Credit Bond Default Prediction Model Based on Integrated Algorithms and Its Influencing Factors
ZHENG Yixin, WANG Chongren
( Shandong University of Finance and Economics )
Abstract: Taking credit bonds from 2014 to 2021 as the research object, this paper constructs Bagging and Stacking integrated learning models using single algorithms (logistic regression, Gaussian naive Bayes, support vector machine and Bernoulli naive Bayes) respectively, and compares them with the results of single algorithms and traditional methods (KMV model) to explore how to improve the accuracy of credit bond default prediction, prove the reliability of the Bagging integrated algorithm, and study the important indicators in credit bond default through the SHAP interpretable algorithm. The results show that: the 4 single machine learning models are superior to the traditional KMV model in prediction accuracy; further integration of machine learning models finds that homogeneous integrated algorithms are not as good as heterogeneous integrated algorithms in improving predictive performance, and the prediction accuracy of heterogeneous Bagging integrated algorithm is better than that of Stacking. Combining the best-performing heterogeneous Bagging integrated algorithm with the SHAP interpretable algorithm, 9 indicators that are valuable for identifying credit bond defaults are obtained, which are rating before default, issuer rating before default, exchange, return on net assets, bond type, enterprise nature, financial expenses, growth rate of total assets, and the proportion of the largest shareholder. Identifying key indicators is instructive for credit bond default prediction.
Keywords: Credit bond default; Risk warning; Bagging ensemble algorithm; Stacking ensemble algorithm; SHAP interpretable algorithm
收稿日期:2023-06-27
作者簡介:鄭怡昕,碩士研究生,山東財經(jīng)大學(xué),研究方向為信用債、機器學(xué)習(xí)。
王重仁,博士,副教授,山東財經(jīng)大學(xué),研究方向為機器學(xué)習(xí)。
基金項目:山東省軟科學(xué)項目“山東省互聯(lián)網(wǎng)生態(tài)體系構(gòu)建與發(fā)展對策研究”(2021RKY02023)。