宋宇 李鴻禧
【摘要】在我國,債券發(fā)行人中財(cái)務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財(cái)務(wù)健康企業(yè),樣本的非平衡性導(dǎo)致一般的財(cái)務(wù)預(yù)警模型在訓(xùn)練時對財(cái)務(wù)危機(jī)企業(yè)的特征挖掘不足、預(yù)警精度低。利用“聚類Bagging”集成方法,將樣本數(shù)量較多的財(cái)務(wù)健康企業(yè)樣本分成多組,將多組財(cái)務(wù)健康樣本與財(cái)務(wù)危機(jī)樣本進(jìn)行兩兩配對,形成兩類樣本大致平衡的多個訓(xùn)練子集。在多個訓(xùn)練子集上分別構(gòu)建決策樹模型作為基學(xué)習(xí)器,使得決策樹基學(xué)習(xí)器可以大致同等地學(xué)習(xí)健康樣本與危機(jī)樣本的特征。利用基學(xué)習(xí)器在測試集上的預(yù)測精度AUC值作為權(quán)重,對決策樹基學(xué)習(xí)器進(jìn)行加權(quán),得到?jīng)Q策樹集成模型,作為最終的財(cái)務(wù)預(yù)警模型。以制造業(yè)債券發(fā)行企業(yè)為樣本,實(shí)證對比發(fā)現(xiàn)基于決策樹集成的財(cái)務(wù)預(yù)警模型精度更高,說明本模型能夠在總體預(yù)警正確率較高的前提下提高對財(cái)務(wù)危機(jī)企業(yè)的正確識別率。
【關(guān)鍵詞】財(cái)務(wù)預(yù)警;決策樹集成;AUC;預(yù)警指標(biāo)體系;債券發(fā)行
【中圖分類號】F830? ? ? 【文獻(xiàn)標(biāo)識碼】A? ? ? 【文章編號】1004-0994(2020)06-0045-6
一、引言
隨著債券市場規(guī)模不斷擴(kuò)張、債券品種逐漸多樣化,債市信用風(fēng)險(xiǎn)越來越難以把控。2018年以來我國金融市場上的債務(wù)違約呈現(xiàn)常態(tài)化。2018年全年違約債券125只、違約規(guī)模高達(dá)1160億元,超過2014 ~ 2017年之和??梢姡覈鹑谑袌龅男庞蔑L(fēng)險(xiǎn)形勢愈加嚴(yán)峻。在債券違約常態(tài)化的大趨勢下,對債券發(fā)行人的財(cái)務(wù)風(fēng)險(xiǎn)及時進(jìn)行預(yù)警顯得尤為重要。財(cái)務(wù)預(yù)警是指通過挖掘企業(yè)數(shù)據(jù)和財(cái)務(wù)風(fēng)險(xiǎn)之間的關(guān)聯(lián)關(guān)系,預(yù)測企業(yè)發(fā)生財(cái)務(wù)危機(jī)的概率。對債券企業(yè)進(jìn)行財(cái)務(wù)預(yù)警,一方面能夠提前給出風(fēng)險(xiǎn)信號,便于企業(yè)管理者及早改善經(jīng)營,避免破產(chǎn)違約的發(fā)生;另一方面能夠?yàn)殂y行、基金等機(jī)構(gòu)提供投資決策參考,使其免遭巨額損失。
財(cái)務(wù)預(yù)警模型的現(xiàn)有研究大致可分為三類:
一是基于統(tǒng)計(jì)計(jì)量方法的模型,其中有代表性的方法包括判別、聚類、邏輯回歸等。楊貴軍等[1] 在財(cái)務(wù)預(yù)警體系中增加了Benford因子,并利用Lasso-logistic模型構(gòu)建財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型。張發(fā)明等[2] 利用Topsis-GRA方法構(gòu)造動態(tài)信用評價(jià)加權(quán)決策矩陣,得到動態(tài)信用評價(jià)結(jié)果。周憶等[3] 基于卡爾曼濾波算法構(gòu)建了僵尸企業(yè)風(fēng)險(xiǎn)動態(tài)預(yù)警模型。Mizen等[4] 利用次序Probit回歸模型預(yù)測美國債券發(fā)行人的違約風(fēng)險(xiǎn)。
二是基于機(jī)器學(xué)習(xí)方法的模型,其中有代表性的方法包括決策樹、支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)等。蔡立新等[5] 在分析大數(shù)據(jù)技術(shù)與企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警需求的基礎(chǔ)上,構(gòu)建了大數(shù)據(jù)視角下的企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警機(jī)制。李茜等[6] 利用三種BP神經(jīng)網(wǎng)絡(luò)的改進(jìn)算法構(gòu)建財(cái)務(wù)預(yù)警模型,在預(yù)測精度上進(jìn)行對比分析。Sevim等[7] 利用決策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸建立了貨幣危機(jī)的預(yù)警系統(tǒng)。
三是基于多種方法的組合模型。楊勝剛等[8] 利用決策樹方法對個人信用指標(biāo)進(jìn)行篩選,再利用神經(jīng)網(wǎng)絡(luò)構(gòu)建分類模型。丁嵐等[9] 以logistic回歸、決策樹、支持向量機(jī)作為初級學(xué)習(xí)器,以支持向量機(jī)作為次級學(xué)習(xí)器,預(yù)測P2P網(wǎng)貸的違約風(fēng)險(xiǎn)。Javier De Andrés等[10] 將模糊聚類和多元自適應(yīng)回歸模型結(jié)合,對企業(yè)的破產(chǎn)概率進(jìn)行預(yù)測。
決策樹模型的概念最早由Hunt等在1966年提出,最有影響力的模型是Quinlan提出的基于ID3算法的模型,其以信息增益選擇結(jié)點(diǎn)分裂屬性為基礎(chǔ)。后來又提出了改進(jìn)后的C4.5算法,其以信息增益比率選擇屬性為基礎(chǔ)。而C5.0算法在C4.5算法的基礎(chǔ)上又進(jìn)一步提高了識別率。近年來,決策樹C5.0算法在風(fēng)險(xiǎn)預(yù)警和信用評級方面應(yīng)用廣泛。龐素琳等[11] 將決策樹C5.0算法用于構(gòu)造銀行個人信用評級模型。王茂光等[12] 通過決策樹C5.0算法建立了小額網(wǎng)貸平臺的風(fēng)險(xiǎn)監(jiān)控模型。
上述決策樹財(cái)務(wù)預(yù)警模型忽略了財(cái)務(wù)正常樣本與危機(jī)樣本之間數(shù)量比例不平衡的問題。在當(dāng)前我國資本市場上,發(fā)生財(cái)務(wù)危機(jī)、資不抵債的融資企業(yè)(發(fā)債主體、借款人等)仍是少數(shù),大多數(shù)融資企業(yè)都處于財(cái)務(wù)正常狀態(tài)。這種危機(jī)樣本與正常樣本數(shù)量不均衡的現(xiàn)象,會導(dǎo)致分類模型在訓(xùn)練時更多地學(xué)習(xí)正常樣本的數(shù)據(jù)規(guī)律,而忽略了對危機(jī)樣本的規(guī)律挖掘,從而對危機(jī)樣本的預(yù)測精度過低。所以,本文在考慮債券發(fā)行人中財(cái)務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財(cái)務(wù)健康企業(yè)的這種非平衡數(shù)據(jù)特征的前提下,構(gòu)建決策樹集成模型,旨在解決非平衡數(shù)據(jù)特征下的信用危機(jī)預(yù)警問題,并提高預(yù)警的精度。
二、基于決策樹集成的財(cái)務(wù)預(yù)警模型
集成學(xué)習(xí)是將多個機(jī)器學(xué)習(xí)模型(稱為“個體學(xué)習(xí)器”)按照一定的方法集成到一起。經(jīng)典的集成方法有AdaBoost、Bagging、隨機(jī)森林,這些經(jīng)典方法的特點(diǎn)是能讓個體學(xué)習(xí)器保持差異化,以保證每個個體學(xué)習(xí)器都能反映不同的信息,集成后的結(jié)果能夠更加全面,從而提升預(yù)測的精度。
本文采用的是同質(zhì)集成,即集成中只包含同種類型的個體學(xué)習(xí)器,此時的個體學(xué)習(xí)器稱為“基學(xué)習(xí)器”。本文采用決策樹C5.0算法構(gòu)建決策樹基學(xué)習(xí)器,通過“聚類Bagging”方法將多個決策樹基學(xué)習(xí)器進(jìn)行集成,以解決非平衡數(shù)據(jù)特征下的財(cái)務(wù)預(yù)警精度問題。
(一)基學(xué)習(xí)器的構(gòu)建
1. 決策樹C5.0算法。決策樹C5.0算法依據(jù)的是信息增益比率,選取該節(jié)點(diǎn)上信息增益比率最大的指標(biāo)作為分裂變量,劃分樣本生成下一層新的結(jié)點(diǎn)。信息增益比率的計(jì)算過程如下:
其中,n(Sj)為樣本子集Sj的樣本數(shù)量,n為樣本總數(shù)。條件信息熵E(S|X)反映了樣本集合按照指標(biāo)X的取值進(jìn)行分類之后,對于財(cái)務(wù)危機(jī)的平均分辨能力。條件信息熵E(S|X)越小,指標(biāo)X對于財(cái)務(wù)危機(jī)的分辨能力越強(qiáng)。
信息增益G(X)反映了指標(biāo)X對于“是否發(fā)生財(cái)務(wù)危機(jī)”的分辨能力。信息增益G(X)越大,指標(biāo)X對于“是否發(fā)生財(cái)務(wù)危機(jī)”的分辨能力越強(qiáng),從而可以更準(zhǔn)確地將財(cái)務(wù)危機(jī)樣本識別出來。為了消除指標(biāo)取值種類數(shù)目的影響,進(jìn)一步計(jì)算信息增益比率R(X):
其中,n(Sj)為樣本集合按照指標(biāo)X取值劃分后的樣本子集Sj的樣本數(shù)量,n為樣本總數(shù)。
以上為信息增益比率的計(jì)算過程。以信息增益比率為關(guān)鍵參數(shù)構(gòu)建一個決策樹模型,步驟如下:
Step1:以樣本全集作為決策樹的根結(jié)點(diǎn),計(jì)算全部評價(jià)指標(biāo)的信息增益比率R(Xi)。選取信息增益比率最大的指標(biāo)作為根結(jié)點(diǎn)的分裂變量。按照分裂變量的取值將樣本分成若干個子集,每個子集作為下一層的一個結(jié)點(diǎn)。假設(shè),指標(biāo)“學(xué)歷”為全部指標(biāo)中信息增益比率最大的指標(biāo),選取“學(xué)歷”為根結(jié)點(diǎn)上的分裂變量。根據(jù)“學(xué)歷”指標(biāo)下的四種取值{高中,本科,碩士及以上,其他}將樣本分為四類,形成第二層的四個節(jié)點(diǎn)。
Step2:在決策樹第二層中,對于每一個結(jié)點(diǎn)上的樣本集合,計(jì)算在該樣本集合上各個指標(biāo)的信息增益比率,選擇信息增益比率最大的指標(biāo)作為當(dāng)前結(jié)點(diǎn)上的分裂變量。同樣,根據(jù)分裂變量的取值繼續(xù)分裂成第三層上的結(jié)點(diǎn)。
Step3:以此類推逐層生成結(jié)點(diǎn),直到滿足如下三種情況之一時停止:①當(dāng)前結(jié)點(diǎn)的樣本集合中所有的樣本都屬于同一類別(在本研究中,同屬于財(cái)務(wù)危機(jī)企業(yè)或財(cái)務(wù)正常企業(yè)),當(dāng)前結(jié)點(diǎn)為葉結(jié)點(diǎn)。②當(dāng)前結(jié)點(diǎn)的樣本集合在所有指標(biāo)上的取值均相同,無法進(jìn)一步劃分樣本。此時,用當(dāng)前結(jié)點(diǎn)上多數(shù)樣本所屬的類別標(biāo)記當(dāng)前結(jié)點(diǎn),當(dāng)前結(jié)點(diǎn)為葉結(jié)點(diǎn)。③當(dāng)前結(jié)點(diǎn)包含的樣本集合為空。用當(dāng)前結(jié)點(diǎn)的父節(jié)點(diǎn)(該結(jié)點(diǎn)上一層直接關(guān)聯(lián)的結(jié)點(diǎn))中多數(shù)樣本所屬的類別標(biāo)記當(dāng)前結(jié)點(diǎn),當(dāng)前結(jié)點(diǎn)為葉結(jié)點(diǎn)。
2. 剪枝。由于在決策樹的生成中,為了盡可能正確識別出財(cái)務(wù)危機(jī)企業(yè),從而不斷地劃分樣本,造成決策樹過于龐大,對于訓(xùn)練樣本擬合得過好,由此喪失了對于訓(xùn)練樣本外新樣本的預(yù)測能力。為了避免過擬合問題,本文采用EBP(基于錯誤的剪枝)方法,自下而上地對決策樹的每個結(jié)點(diǎn)進(jìn)行剪枝。其基本思路是,分別計(jì)算剪枝前后的預(yù)測錯誤率,若剪枝后的錯誤率相比剪枝前并沒有明顯增大,說明這個子樹對于預(yù)測效果的影響很小,屬于冗余的分枝,應(yīng)該剪掉。
假設(shè)Tj為以結(jié)點(diǎn)j為根的子樹,剪枝前的葉結(jié)點(diǎn)是子樹Tj的葉結(jié)點(diǎn),剪枝后以結(jié)點(diǎn)j作為葉結(jié)點(diǎn)。采用悲觀錯誤率計(jì)算方法,計(jì)算剪枝前后該子樹上樣本的預(yù)測錯誤率e1、e2。假設(shè)樣本預(yù)測錯誤率是一個服從二項(xiàng)分布U(e,n)的隨機(jī)變量。給定一個置信度CF,可以求出關(guān)于錯誤率的一個置信區(qū)間[LCF,UCF]。若剪枝后的錯誤率期望值n×e2小于剪枝前的錯誤率上分位點(diǎn)UCF,說明剪枝后的錯誤率相比剪枝前并沒有明顯增大,那么剪枝;否則不剪枝。置信度CF越大,則剪枝越嚴(yán)重,CF一般取0.75。
(二)決策樹集成
市場上的債券發(fā)行人絕大多數(shù)都是財(cái)務(wù)健康的企業(yè),而發(fā)生財(cái)務(wù)危機(jī)的不良發(fā)行人不足5%,兩類樣本的數(shù)量極其不平衡。這種情況會導(dǎo)致決策樹模型在訓(xùn)練時更多地學(xué)習(xí)財(cái)務(wù)健康企業(yè)的數(shù)據(jù)特征,而忽略了對財(cái)務(wù)危機(jī)企業(yè)的特征挖掘。這種現(xiàn)象被稱為非平衡樣本問題。
本文基于“聚類Bagging”集成方法,通過K均值聚類的方法,將數(shù)量較多的財(cái)務(wù)健康企業(yè)樣本分成K組,將K組財(cái)務(wù)健康樣本與財(cái)務(wù)危機(jī)樣本進(jìn)行兩兩配對,形成K個大致平衡的訓(xùn)練子集。在K個訓(xùn)練子集上分別構(gòu)建決策樹作為基學(xué)習(xí)器,然后再集成,形成最終的預(yù)警模型,從而解決財(cái)務(wù)預(yù)警模型構(gòu)建過程中的非平衡樣本問題。具體的模型構(gòu)建過程如下:
Step1:聚類。將樣本劃分為訓(xùn)練集和測試集,訓(xùn)練集是為了訓(xùn)練模型的樣本集合,測試集是為了驗(yàn)證訓(xùn)練出的模型的預(yù)測精度。在訓(xùn)練集中,假設(shè)D為財(cái)務(wù)健康樣本集,F(xiàn)為財(cái)務(wù)危機(jī)樣本集。利用K均值聚類法將健康企業(yè)樣本D分成K份{D1,D2,…,DK}。由于聚類方法的特性,可以保證各類樣本之間的差異化最大,這樣就保證了不同樣本子集訓(xùn)練出的決策樹基學(xué)習(xí)器具有差異性。
Step2:生成多個訓(xùn)練樣本。將{D1,D2,…,DK}中每個集合與危機(jī)樣本集合F進(jìn)行兩兩配對,形成K個訓(xùn)練子集{D1∪F,D2∪F,…,DK∪F }。由于原本數(shù)量過多的健康樣本集D被拆成了K份,每一份健康樣本子集Di中樣本數(shù)量大大減少,因此新形成的訓(xùn)練子集Di∪F中,健康樣本數(shù)量與危機(jī)樣本數(shù)量變得相對平衡,從而大大削弱了總體樣本中的非平衡樣本問題。
Step3:決策樹基學(xué)習(xí)器。利用前文所述的方法,分別在上述K個訓(xùn)練子集上構(gòu)造決策樹,形成K個基學(xué)習(xí)器{M1,M2,…,MK}。聚類的方法特性使得不同訓(xùn)練子集之間具有差異性,保證了不同子集訓(xùn)練出的決策樹基學(xué)習(xí)器具有差異性。
Step4:決策樹集成。根據(jù)決策樹基學(xué)習(xí)器的預(yù)測精度對基學(xué)習(xí)器進(jìn)行加權(quán),預(yù)測準(zhǔn)確性越高,權(quán)重越高,從而形成決策樹集成學(xué)習(xí)器。具體方法為:利用K個基學(xué)習(xí)器{M1,M2,…,MK}在測試集上進(jìn)行預(yù)測,將預(yù)測結(jié)果與實(shí)際財(cái)務(wù)狀態(tài)進(jìn)行對比,畫出ROC曲線。
ROC曲線的橫坐標(biāo)是偽正率,即預(yù)測為正例但實(shí)際為負(fù)的樣本占所有負(fù)例樣本的比例(在本文中“發(fā)生財(cái)務(wù)危機(jī)”是研究對象,為正例);縱坐標(biāo)是真正率,即預(yù)測為正例且實(shí)際為正的樣本占所有正例樣本的比例。AUC值是ROC曲線與橫坐標(biāo)包圍的面積,AUC值綜合反映預(yù)測模型的準(zhǔn)確度和靈敏度。以AUC值作為權(quán)重對決策樹基學(xué)習(xí)器進(jìn)行加權(quán),得到?jīng)Q策樹集成學(xué)習(xí)器,作為財(cái)務(wù)預(yù)警模型。
經(jīng)過上述過程,將決策樹基學(xué)習(xí)器集成,最終得到財(cái)務(wù)預(yù)警模型。上述過程如圖1所示。
三、實(shí)證分析
1. 樣本的選取。本研究選取我國2014 ~ 2018年有存續(xù)債的1159家制造業(yè)企業(yè)為實(shí)證樣本。將這些債券發(fā)行人在2014 ~ 2018年中有債券存續(xù)年份的數(shù)據(jù)作為實(shí)證數(shù)據(jù),數(shù)據(jù)來自Wind數(shù)據(jù)庫。相同企業(yè)不同年份的數(shù)據(jù)可以看成不同的樣本,共得到3858個實(shí)證樣本。
本研究將以下兩種情況標(biāo)記為“企業(yè)發(fā)生財(cái)務(wù)危機(jī)”:一是債券發(fā)行人從違約前一年直至債券到期均標(biāo)記為發(fā)生財(cái)務(wù)危機(jī),這是由于絕大多數(shù)債券發(fā)行人在發(fā)生違約的之前一段時間,就已經(jīng)因經(jīng)營不善或投資失敗出現(xiàn)資金流短缺等財(cái)務(wù)困境問題。二是對于上市公司的債券發(fā)行人,將標(biāo)記?ST當(dāng)年及前三年、ST當(dāng)年及前兩年均標(biāo)記為發(fā)生財(cái)務(wù)危機(jī),主要是因?yàn)楸?ST說明連續(xù)三年出現(xiàn)財(cái)務(wù)虧損或經(jīng)營不善等財(cái)務(wù)狀況惡化現(xiàn)象,被ST說明連續(xù)兩年出現(xiàn)財(cái)務(wù)問題。
因此,3858個實(shí)證樣本中有3773個樣本為財(cái)務(wù)正常樣本、85個樣本為財(cái)務(wù)危機(jī)樣本,財(cái)務(wù)正常記為0、財(cái)務(wù)危機(jī)記為1。采用分層抽樣,分別從正常樣本和危機(jī)樣本中隨機(jī)抽取10%的樣本(包含378個財(cái)務(wù)正常樣本、9個危機(jī)樣本)作為測試集Test,剩余的3471個樣本(包含3395個財(cái)務(wù)正常樣本、76個危機(jī)樣本)作為訓(xùn)練集Train。
2. 預(yù)警指標(biāo)的海選。本研究借鑒穆迪、中誠信等國內(nèi)外評級機(jī)構(gòu)及文獻(xiàn)中的高頻指標(biāo),從企業(yè)財(cái)務(wù)運(yùn)營和經(jīng)營環(huán)境兩個層面來構(gòu)建指標(biāo)體系,如表1所示。
3. 決策樹集成。本研究中3471個訓(xùn)練樣本包含3395個財(cái)務(wù)正常樣本(記為集合D)和76個危機(jī)樣本(記為集合F),兩類樣本的比例約為45∶1,兩類樣本的數(shù)量極其不平衡。
對應(yīng)前文所述的步驟,構(gòu)建決策樹集成的財(cái)務(wù)預(yù)警模型:
Step1:聚類。采用K均值聚類的方法,將訓(xùn)練樣本中的財(cái)務(wù)正常樣本集合D分為四類{D1,D2,D3,D4},樣本個數(shù)分別為1633、1403、90、269。
Step2:生成多個訓(xùn)練樣本。將Step1中劃分的四類樣本{D1,D2,D3,D4},分別與財(cái)務(wù)危機(jī)樣本集F進(jìn)行兩兩配對,形成了4個訓(xùn)練子集{D1∪ F,D2∪ F,D3∪ F,D4∪ F},4個訓(xùn)練子集中兩類樣本的比例分別為21∶1、18∶1、1.2∶1和3.5∶1。相比整體訓(xùn)練樣本中兩類樣本的比例45∶1,訓(xùn)練子集中非平衡樣本問題被大大削弱了。
Step3:決策樹基學(xué)習(xí)器。利用前文所述方法,分別針對4個訓(xùn)練子集{D1∪ F,D2∪ F,D3∪ F,D4∪ F},利用決策樹C5.0算法訓(xùn)練模型,并在置信度CF=0.75的設(shè)置下對決策樹進(jìn)行剪枝,從而訓(xùn)練出4個決策樹基學(xué)習(xí)器{M1,M2,M3,M4}。此處以第一個訓(xùn)練子集訓(xùn)練出的決策樹基學(xué)習(xí)器M1為例進(jìn)行展示,見圖2。
Step4:決策樹集成。將四個決策樹基學(xué)習(xí)器{M1,M2,M3,M4}在測試集Test上進(jìn)行危機(jī)預(yù)測,分別計(jì)算四個決策樹基學(xué)習(xí)器的預(yù)測總體正確率、財(cái)務(wù)危機(jī)的預(yù)測正確率(將實(shí)際危機(jī)樣本預(yù)測正確的比率)。并根據(jù)畫出每個決策樹基學(xué)習(xí)器的ROC曲線,計(jì)算ROC曲線下方面積,即AUC值,如表2所示。以AUC值為權(quán)重對四個決策樹基學(xué)習(xí)器進(jìn)行集成,得到?jīng)Q策樹集成學(xué)習(xí)器,即為最終的財(cái)務(wù)預(yù)警模型。
在測試集上進(jìn)行財(cái)務(wù)危機(jī)預(yù)警的檢驗(yàn),預(yù)警的精度指標(biāo)如表3第二行所示?;跊Q策樹集成的財(cái)務(wù)預(yù)警模型對于測試集整體的預(yù)測正確率達(dá)到78.3%,財(cái)務(wù)危機(jī)的預(yù)測正確率達(dá)到77.8%。與表2中的基學(xué)習(xí)器相比,決策樹學(xué)習(xí)器預(yù)警模型在總體正確率較高的基礎(chǔ)上,大大提高了財(cái)務(wù)危機(jī)企業(yè)的正確識別率,兼顧了總體樣本的預(yù)測正確率和財(cái)務(wù)危機(jī)樣本的預(yù)測正確率,說明決策樹基學(xué)習(xí)器的集成是有效的。
4. 對比分析。本研究采用“聚類Bagging”方法構(gòu)建決策樹集成模型,目的是解決財(cái)務(wù)危機(jī)樣本過少情況下對于危機(jī)樣本的預(yù)測準(zhǔn)確度過低的問題。因此,將本研究構(gòu)建的決策樹集成模型與普通的決策樹模型進(jìn)行對比分析。對比模型是將全部訓(xùn)練樣本直接構(gòu)建一個決策樹模型,再對訓(xùn)練集進(jìn)行預(yù)警精度的檢測,決策樹中其他參數(shù)的設(shè)置均與本模型相同。將本模型與對比模型在測試集上的預(yù)警精度進(jìn)行對比,結(jié)果如表3所示。
由表3可以看出,對比模型對于財(cái)務(wù)危機(jī)的預(yù)警幾乎失效,近80%的危機(jī)企業(yè)都沒有被識別出來,沒有達(dá)到財(cái)務(wù)預(yù)警的根本目的。相較對比模型,本模型在財(cái)務(wù)危機(jī)樣本的預(yù)測正確率上提高了55.6%,能夠?qū)⒔^大多數(shù)的危機(jī)企業(yè)正確預(yù)測出來,且能夠使得總體樣本的預(yù)測正確率達(dá)到78%以上的較高水平。這說明本預(yù)警模型在總體預(yù)測正確率較高的前提下大大提高了財(cái)務(wù)危機(jī)的正確識別率,更為合理。
四、結(jié)論
本文考慮了債券發(fā)行人中財(cái)務(wù)危機(jī)企業(yè)數(shù)量遠(yuǎn)小于財(cái)務(wù)健康企業(yè)的這種非平衡數(shù)據(jù)特征,借鑒“聚類Bagging”集成方法,通過K均值聚類的方法,將樣本數(shù)量較多的財(cái)務(wù)健康企業(yè)樣本分成K組,將K組財(cái)務(wù)健康樣本與財(cái)務(wù)危機(jī)樣本進(jìn)行兩兩配對,形成K個大致平衡且有差異性的訓(xùn)練子集。利用決策樹C5.0算法,在K個訓(xùn)練子集上分別構(gòu)建決策樹模型作為基學(xué)習(xí)器,使得決策樹基學(xué)習(xí)器可以大致同等地學(xué)習(xí)健康樣本與危機(jī)樣本的特征,避免由于非平衡數(shù)據(jù)導(dǎo)致預(yù)警模型對數(shù)量較少的危機(jī)樣本預(yù)測精度過低的問題。利用基學(xué)習(xí)器在測試集上的預(yù)測精度AUC值作為權(quán)重,對決策樹基學(xué)習(xí)器進(jìn)行加權(quán),得到?jīng)Q策樹集成模型,作為最終的財(cái)務(wù)預(yù)警模型,這使得預(yù)測精度高的基學(xué)習(xí)器在決策樹集成模型中發(fā)揮更大的作用,提高了集成模型的預(yù)警精度。
經(jīng)過測試集檢驗(yàn)和對比分析,本文建立的基于決策樹集成的財(cái)務(wù)預(yù)警模型精度較高,總體的預(yù)警正確率達(dá)到78%,對財(cái)務(wù)危機(jī)企業(yè)的正確識別率達(dá)到77.8%。而簡單的決策樹模型對于財(cái)務(wù)危機(jī)的預(yù)警幾乎失效,近80%的危機(jī)企業(yè)都沒有被識別出來,說明本模型能夠在總體預(yù)警正確率較高的前提下大大提高財(cái)務(wù)危機(jī)的正確識別率。
【 主 要 參 考 文 獻(xiàn) 】
[ 1 ]? ?楊貴軍,周亞夢,孫玲莉.基于Benford-Logistic模型的企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警方法[ J].數(shù)量經(jīng)濟(jì)技術(shù)經(jīng)濟(jì)研究,2019(10):149 ~ 164.
[ 2 ]? ?張發(fā)明,王偉明,李小霜.TOPSIS-GRA法下的企業(yè)動態(tài)信用評價(jià)方法及其應(yīng)用[ J].運(yùn)籌與管理,2018(9):136 ~ 142.
[ 3 ]? ?周憶,張友棠.基于卡爾曼濾波的僵尸企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)動態(tài)預(yù)警研究[ J].財(cái)會通訊,2019(23):110 ~ 114.
[ 4 ]? ?Mizen P.,Tsoukas S.. Forecasting US bond default ratings allowing for previous and initial state dependence in an ordered probit model[ J].International Journal of Forecasting,2012(1):273 ~ 287.
[ 5 ]? ?蔡立新,李嘉歡.大數(shù)據(jù)時代企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警機(jī)制與路徑探究[ J].財(cái)會月刊,2018(15):40 ~ 45.
[ 6 ]? ?李茜,唐恒書.基于三種BP-NNs改進(jìn)算法的財(cái)務(wù)預(yù)警研究[ J].會計(jì)之友,2019(6):57 ~ 64.
[ 7 ]? ?Sevim C., Oztekin A., Bali O., et al.. Developing an early warning system to predict currency crises[ J].European Journal of OperationalResearch,2014(3):1095 ~ 1104.
[ 8 ]? ?楊勝剛,朱琦,成程.個人信用評估組合模型的構(gòu)建——基于決策樹—神經(jīng)網(wǎng)絡(luò)的研究[ J].金融論壇,2013(2):57 ~ 61.
[ 9 ]? ?丁嵐,駱品亮.基于Stacking集成策略的P2P網(wǎng)貸違約風(fēng)險(xiǎn)預(yù)警研究[ J].投資研究,2017(4):43 ~ 56.
[10]? ?Javier De Andrés, Lorca P., Juez F. J. D. C., et al.. Bankruptcy forecasting: A hybrid approach using fuzzy c-means clustering and multi-variate adaptive regression splines (MARS)[ J].Expert Systems with Applications,2011(3):1866 ~ 1875.
[11]? ?龐素琳,鞏吉璋.C5.0分類算法及在銀行個人信用評級中的應(yīng)用[ J].系統(tǒng)工程理論與實(shí)踐,2009(12):94 ~ 104.
[12]? ?王茂光,葛蕾蕾,趙江平.基于C5.0算法的小額網(wǎng)貸平臺的風(fēng)險(xiǎn)監(jiān)控研究[ J].中國管理科學(xué),2016(S1):356 ~ 363.