張 露,劉家鵬,田冬梅
(中國(guó)計(jì)量大學(xué)經(jīng)濟(jì)與管理學(xué)院,杭州 310018)
市場(chǎng)競(jìng)爭(zhēng)的日益激烈,資本市場(chǎng)的瞬息萬(wàn)變,使得企業(yè)陷入財(cái)務(wù)困境的可能性也在提高。財(cái)務(wù)預(yù)警模型在一定程度上能夠使得企業(yè)及時(shí)規(guī)避、有效防范財(cái)務(wù)風(fēng)險(xiǎn),對(duì)投資對(duì)象和項(xiàng)目審慎決策,防止企業(yè)陷入財(cái)務(wù)困境。而基于大數(shù)據(jù)的海量性、多樣性、高速性和價(jià)值性[1],越來(lái)越多的學(xué)者嘗試將以機(jī)器學(xué)習(xí)為代表的大數(shù)據(jù)人工智能技術(shù)應(yīng)用到財(cái)務(wù)預(yù)警領(lǐng)域[2]。隨之出現(xiàn)的財(cái)務(wù)預(yù)警樣本的嚴(yán)重不平衡性[3],一定程度上限制了分類器的性能[4]。重采樣技術(shù)[5]被提出應(yīng)用到財(cái)務(wù)預(yù)警研究領(lǐng)域,并取得了一定的成果。但是經(jīng)典的不平衡采樣技術(shù)存在一定的缺陷,隨機(jī)上采樣[6]通過(guò)對(duì)小樣本的多次重復(fù)來(lái)達(dá)到平衡,容易造成過(guò)擬合;隨機(jī)下采樣[7]通過(guò)刪減大樣本從而達(dá)到樣本平衡,但是對(duì)數(shù)據(jù)信息利用不足,預(yù)測(cè)存在很高的隨機(jī)性;人工合成新樣本的重采樣技術(shù)(Synthetic Minority Over-sampling TEchnique,SMOTE)[8]通過(guò)合成新樣本,來(lái)使得樣本達(dá)到平衡,但是合成樣本容易造成與原樣本之間的邊界模糊問(wèn)題。有學(xué)者嘗試將集成學(xué)習(xí)的思想應(yīng)用到重采樣技術(shù)中[9],證實(shí)可以有效提高算法性能。
人工智能技術(shù)快速發(fā)展,性能優(yōu)越的分類器如彈性網(wǎng)(Elastic Net,EN)[10]、隨機(jī)森林(Random Forest,RF)[11]和極端梯度提升(eXtreme Gradient Boosting,XGBoost)[12]等在財(cái)務(wù)預(yù)警研究中有了一定的應(yīng)用。但基于單分類器的性能提升陷入了一定的瓶頸,因此有學(xué)者將目光投向集成分類器的研究中,目前比較成熟的集成技術(shù)[13]有裝袋法(Bagging)、提升法(Boosting)和堆疊法(Stacking)等[14]。集成技術(shù)對(duì)簡(jiǎn)單分類器如決策樹(shù)等的性能有明顯的提升,隨機(jī)森林是基于決策樹(shù)的Bagging 集成[15],XGBoost 也是基于樹(shù)的Boosting 提升[16]。Stacking 集成方法被應(yīng)用在網(wǎng)頁(yè)檢測(cè)[17]、網(wǎng)貸違約檢測(cè)[18]等領(lǐng)域,可以有效融合不同種類的機(jī)器學(xué)習(xí)分類器,從而有效提升預(yù)測(cè)準(zhǔn)確率。
本文的主要工作有:1)通過(guò)Up-Down 集成采樣技術(shù)解決隨機(jī)上采樣容易發(fā)生過(guò)擬合問(wèn)題與隨機(jī)下采樣的信息利用不足的問(wèn)題,找到了上下采樣之間的平衡點(diǎn),提高信息利用率的同時(shí)防止發(fā)生過(guò)擬合問(wèn)題,從而提高算法性能;2)通過(guò)Tomek link 對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行清洗,降低SMOTE 算法在人工合成數(shù)據(jù)時(shí)發(fā)生邊界劃分的不清晰,一定程度上提高了財(cái)務(wù)預(yù)警的預(yù)測(cè)準(zhǔn)確率。3)構(gòu)建SBV(Stacking-Bagging-Vote)多源信息融合模型,綜合多個(gè)集成技術(shù),相較于單獨(dú)集成方法,多層次多框架的SBV 模型,將數(shù)據(jù)層次與模型層次進(jìn)行交互式融合,進(jìn)一步較為全面地提高了財(cái)務(wù)預(yù)警的各項(xiàng)指標(biāo),為不同的利益相關(guān)者提供更為契合的財(cái)務(wù)預(yù)警模型。
上采樣是指二次采樣中,隨機(jī)重復(fù)抽取小樣本,使得樣本均衡的方法。比如訓(xùn)練集中,有80%的數(shù)據(jù)屬于類別I,20%的數(shù)據(jù)屬于類別Ⅱ,該訓(xùn)練集的數(shù)據(jù)存在不平衡現(xiàn)象,上采樣就是將類別Ⅱ數(shù)據(jù)重復(fù)采樣,從而使樣本比例均衡。下采樣與上采樣相反,是通過(guò)隨機(jī)篩除大樣本,使得大樣本的數(shù)量與小樣本相等。比如上述的訓(xùn)練集,就是將80%的類別I 的數(shù)量降為與20%的類別Ⅱ的數(shù)量相等,因此,訓(xùn)練集一共使用了40%的數(shù)據(jù)。
由于小樣本的數(shù)據(jù)遠(yuǎn)遠(yuǎn)小于大樣本的數(shù)據(jù),在本文的研究中,小樣本數(shù)據(jù)僅占全體樣本的2.86%,因此若單獨(dú)使用上采樣技術(shù),會(huì)使小樣本重復(fù)的次數(shù)過(guò)高,造成模型產(chǎn)生過(guò)擬合現(xiàn)象;而單獨(dú)使用下采樣技術(shù),大量的樣本信息將被拋棄而無(wú)法被模型所學(xué)習(xí),只能學(xué)習(xí)到不到6%的數(shù)據(jù)集,分類器的學(xué)習(xí)效果并不盡如人意。因此,在本文的研究中,嘗試將上采樣和下采樣算法進(jìn)行集成,具體的過(guò)程如圖1所示。
圖1 Up-Down集成采樣算法的過(guò)程Fig.1 Process of Up-Down ensemble sampling algorithm
在集成Up-Down 過(guò)程中,將訓(xùn)練集中的大樣本和小樣本進(jìn)行不同比例的集成,將使用的上采樣比例記為over ratio,代表少數(shù)類樣本進(jìn)行隨機(jī)上采樣后,占到的全體訓(xùn)練集樣本的比例。然后對(duì)訓(xùn)練集樣本數(shù)據(jù)用10 折的交叉驗(yàn)證進(jìn)行訓(xùn)練。本文將over ratio 作為控制變量,以5%為間隔,基于數(shù)據(jù)有效性和過(guò)擬合的考慮,在初步的實(shí)驗(yàn)中,將over ratio 的取值范圍控制在0%~50%,根據(jù)實(shí)驗(yàn)表現(xiàn)逐步確定所有over ratio 的取值范圍,最終得到的訓(xùn)練集可以在一定程度上有效避免過(guò)擬合與欠擬合的發(fā)生。
SMOTE 算法屬于上采樣技術(shù),其基本思想是分析少數(shù)類樣本,并根據(jù)少數(shù)類樣本的數(shù)據(jù)特征,人工合成后向數(shù)據(jù)集添加新的樣本。樣本合成方式為對(duì)樣本X以歐氏距離為標(biāo)準(zhǔn),計(jì)算X到少數(shù)類的樣本集Smin中所有樣本的距離,并得到其k最近鄰。根據(jù)樣本的不平衡比例設(shè)置采樣比以確定采樣率n,對(duì)于每個(gè)少數(shù)樣本X,從其k個(gè)最近鄰隨機(jī)選擇幾個(gè)樣本,假設(shè)所選的最近鄰為Xn。對(duì)于每個(gè)隨機(jī)選擇的最近鄰Xn,根據(jù)式(1)構(gòu)造新樣本。
Tomek links 的定義為:假設(shè)樣本點(diǎn)Xa和Xb屬于不同的類別,d(Xa,Xb)表示兩個(gè)樣本點(diǎn)之間的距離,如果不存在第三個(gè)樣本點(diǎn)Xc使得d(Xc,Xa)<d(Xa,Xb)或者d(Xc,Xb)<d(Xa,Xb)成立,稱(Xa,Xb)為一個(gè)Tomek link 對(duì)。從定義容易看出,如果兩個(gè)樣本點(diǎn)為Tomek link 對(duì),則其中某個(gè)樣本為噪聲(偏離正常分布太多)或者兩個(gè)樣本都在兩類的邊界上,容易造成誤判。Tomek-Smote 算法的思想是用Tomek links 對(duì)訓(xùn)練集數(shù)據(jù)中的正常上市企業(yè)樣本進(jìn)行清洗,篩除位于邊界的樣本對(duì),然后用SMOTE 算法產(chǎn)生基于訓(xùn)練集的人工合成新樣本,進(jìn)行模型構(gòu)建與運(yùn)行。
Stacking 算法使用10× 10 折嵌套交叉驗(yàn)證,對(duì)訓(xùn)練集樣本進(jìn)行訓(xùn)練,并將得到的值輸出到下一層,用初級(jí)分類器對(duì)回測(cè)結(jié)果進(jìn)行堆疊。由于Stacking 模型使用初級(jí)分類器的預(yù)測(cè)值作為第二層的輸入,因此初級(jí)分類器和次級(jí)分類器學(xué)習(xí)到的數(shù)據(jù)應(yīng)該有所不同,在不能動(dòng)用測(cè)試集數(shù)據(jù)的情況下,本文使用交叉驗(yàn)證解決了這一問(wèn)題。
使用了三個(gè)元分類器——彈性網(wǎng)、隨機(jī)森林和XGBoost,作為初級(jí)分類器,分別使用決策樹(shù)(Decision Tree,DT)、邏輯回歸(Logistic Regression,LR)、支持向量機(jī)(Support Vector Machine,SVM)作為次級(jí)分類器,構(gòu)建Stacking 融合模型,構(gòu)建流程如圖2 所示。
圖2 Stacking融合框架工作流程Fig.2 Workflow of Stacking fusion framework
將每家公司的經(jīng)營(yíng)狀態(tài)設(shè)為Y,為0-1 屬性的類別變量,即正常上市和被特別處理。每家公司的財(cái)務(wù)特征指標(biāo)與市場(chǎng)特征指標(biāo)集設(shè)為X,包括營(yíng)業(yè)狀況指標(biāo)、財(cái)務(wù)風(fēng)險(xiǎn)指標(biāo)、資產(chǎn)配比、股票價(jià)差等。將實(shí)驗(yàn)數(shù)據(jù)分為訓(xùn)練集和測(cè)試集,在實(shí)驗(yàn)中,測(cè)試集數(shù)據(jù)不進(jìn)行處理變動(dòng)。
首先,將訓(xùn)練集樣本特征作為輸入變量,使用集成分類器隨機(jī)森林、彈性網(wǎng)和XGBoost,分別產(chǎn)生三個(gè)初級(jí)分類模型,得到三組的預(yù)測(cè)概率Pi(Y=0|X)和Pi(Y=1|X)。通過(guò)隨機(jī)搜索的方式得到三個(gè)初級(jí)分類器的最優(yōu)參數(shù),使用10×10 折嵌套交叉驗(yàn)證,解決Stacking 策略中可能出現(xiàn)的交叉學(xué)習(xí)現(xiàn)象。
然后用基礎(chǔ)分類器決策樹(shù)、Logistic 回歸和SVM 作為次級(jí)分類器,將初級(jí)分類器進(jìn)行依次堆疊,輸出三組預(yù)測(cè)概率,完成模型構(gòu)建。
最后,用最終輸出的Stacking 策略模型,對(duì)測(cè)試集數(shù)據(jù)進(jìn)行預(yù)測(cè),并對(duì)最終的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析。
裝袋(Bagging)是一種集成的元算法,通過(guò)對(duì)訓(xùn)練集數(shù)據(jù)自行復(fù)制,并獲得匯總的預(yù)測(cè)變量,從而生成基礎(chǔ)分類器的多個(gè)版本,提高了算法模型的穩(wěn)定性和準(zhǔn)確率,并減少了過(guò)擬合的問(wèn)題。投票裝袋(Bagging-Vote,BV)是本文基于Bagging 基本理論,結(jié)合投票集成思想設(shè)計(jì)的算法。
Bagging-Vote 算法的集成工作流程如圖3 所示。
圖3 基于Bagging-Vote算法的集成工作流程Fig.3 Ensemble workflow based on Bagging-Vote algorithm
BV 的步驟可以大致分為5 部分:
步驟1 從訓(xùn)練集數(shù)據(jù)中創(chuàng)建驗(yàn)證集樣本。
步驟2 在每個(gè)訓(xùn)練集和驗(yàn)證集樣本上訓(xùn)練模型。
步驟3 根據(jù)各算法創(chuàng)建分類模型并保存結(jié)果。
步驟4 將分類模型對(duì)測(cè)試數(shù)據(jù)進(jìn)行預(yù)測(cè),并保存預(yù)測(cè)結(jié)果。
步驟5 對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析對(duì)比,加入預(yù)測(cè)結(jié)果池,實(shí)現(xiàn)數(shù)據(jù)層面與模型層面的交互。
步驟6 基于模型的性能,對(duì)預(yù)測(cè)概率進(jìn)行加權(quán)投票,輸出最終預(yù)測(cè)結(jié)果。
用裝袋算法分別對(duì)多個(gè)元分類器進(jìn)行集成,對(duì)得到的分類模型進(jìn)行分別排列組合式投票集成,結(jié)合了多個(gè)分類器的最終分類結(jié)果。在此基礎(chǔ)上,將訓(xùn)練集的數(shù)據(jù)特征結(jié)果進(jìn)行統(tǒng)計(jì)對(duì)比分析,將統(tǒng)計(jì)結(jié)果作為預(yù)測(cè)值放入投票池中,實(shí)現(xiàn)了模型與數(shù)據(jù)層面的交互預(yù)測(cè)。最終將得到的模型組進(jìn)行對(duì)比分析,選擇預(yù)測(cè)準(zhǔn)確率與整體均衡性最高的模型。
在Bagging-Vote 算法和Stacking 融合框架的基礎(chǔ)上,結(jié)合不平衡數(shù)據(jù)集成采樣算法,嘗試將Tomek-Smote-Stacking 框架與Up-Down-Bagging-Vote 集成算法相融合,并加入經(jīng)過(guò)卡爾曼濾波技術(shù)過(guò)濾后的收益率數(shù)據(jù),形成數(shù)據(jù)層面與模型層面的交互式優(yōu)化提升,構(gòu)建SBV 多源信息融合模型,其構(gòu)建流程如圖4 所示。
圖4 SBV信息融合模型構(gòu)建流程Fig.4 Construction process of SBV information fusion model
對(duì)于SBV 信息融合模型的構(gòu)建流程大致分為如下幾個(gè)步驟:
步驟1 對(duì)訓(xùn)練集樣本進(jìn)行Tomek 清洗后用SMOTE 算法人工樣本合成新樣本得到STS,用不同框架下的Stacking 分類器進(jìn)行訓(xùn)練學(xué)習(xí),具體流程如圖2 所示。
步驟2 對(duì)訓(xùn)練集樣本進(jìn)行Up-Down 集成抽樣,得到SUD,用單分類器模型彈性網(wǎng)、隨機(jī)森林和XGBoost 對(duì)處理過(guò)的SUD樣本集進(jìn)行訓(xùn)練學(xué)習(xí),得到若干個(gè)單分類器ENi、RFi和XGBi,具體流程如圖3 所示。
步驟3 用在步驟1 和步驟2 得到的分類器對(duì)測(cè)試集樣本進(jìn)行預(yù)測(cè),得到對(duì)樣本集的預(yù)測(cè)概率。
步驟4 參考卡爾曼濾波方法在β 估計(jì)中的應(yīng)用[19],結(jié)合資本資產(chǎn)定價(jià)模型,過(guò)濾掉樣本集的收益率中大盤的影響,并進(jìn)行分析比較,形成數(shù)據(jù)層次與模型層次的交互式融合。
步驟5 基于Stacking 融合框架、BV 集成算法與過(guò)濾后收益率的直接融合,得到若干個(gè)基于不同框架與不同層次的信息融合模型,并將最終的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析,得到合適的模型。
本文的模型設(shè)計(jì)與結(jié)果驗(yàn)證基于Rstudio 編程實(shí)現(xiàn),設(shè)定的分類結(jié)果矩陣如表1,其中TP(True Positive)和TN(True Negative)代表預(yù)測(cè)和真實(shí)值一致的情況,F(xiàn)P(False Positive)和FN(False Negative)代表預(yù)測(cè)值和真實(shí)值不一致的情況。
表1 分類結(jié)果矩陣Tab.1 Matrix of classification results
本文的正類樣本為財(cái)務(wù)預(yù)警企業(yè),負(fù)類樣本為正常上市企業(yè),使用的4 個(gè)指標(biāo)公式如下所示。
召回率(Recall)表示正類樣本被正確分類的完整度,是指分類器對(duì)正例樣本分類“能力”的度量,即正確挑選出財(cái)務(wù)預(yù)警企業(yè)樣本的概率。
精確率(Precision)表示正確挑選出正類樣本的概率,用來(lái)度量被預(yù)測(cè)為財(cái)務(wù)預(yù)警企業(yè)的樣本真實(shí)值為財(cái)務(wù)預(yù)警企業(yè)的概率。
G-mean 綜合考慮了正類分類和負(fù)類分類的準(zhǔn)確率,表示正例分類準(zhǔn)確率和負(fù)例分類準(zhǔn)確率的均衡值。
F1 值綜合了準(zhǔn)確率和召回率的結(jié)果,當(dāng)F1 值較高時(shí)說(shuō)明算法分類結(jié)果比較理想。
本文的數(shù)據(jù)來(lái)自國(guó)泰安數(shù)據(jù)庫(kù),在A 股上市公司中,選取在2019 年由正常上市狀態(tài)轉(zhuǎn)為特殊處理的84 家企業(yè),記為財(cái)務(wù)危機(jī)樣本;將剩下的正常上市公司,篩除數(shù)據(jù)嚴(yán)重缺失的樣本后,得到2 854 家上市企業(yè),記為財(cái)務(wù)正常樣本。選取樣本公司2018 年第一季度到第三季度的財(cái)務(wù)指標(biāo)數(shù)據(jù)和股票市場(chǎng)數(shù)據(jù),進(jìn)行分析處理:其中,本文將股票市場(chǎng)的日度數(shù)據(jù)轉(zhuǎn)化為季度數(shù)據(jù),留下數(shù)據(jù)較為齊全且有一定代表性的財(cái)務(wù)指標(biāo),篩除數(shù)據(jù)缺失嚴(yán)重的企業(yè)。對(duì)剩下的缺失值用RF 算法補(bǔ)齊。將第一季度和第二季度的數(shù)據(jù)作為訓(xùn)練集,用于訓(xùn)練模型;將第三季度的數(shù)據(jù)作為測(cè)試集,來(lái)對(duì)模型的預(yù)測(cè)結(jié)果進(jìn)行評(píng)估。本文對(duì)訓(xùn)練集數(shù)據(jù)使用不平衡數(shù)據(jù)的集成采樣算法使其平衡,但是測(cè)試集數(shù)據(jù)用于模型預(yù)測(cè)效果的驗(yàn)證,故而不進(jìn)行任何處理。
在財(cái)務(wù)預(yù)警模型的構(gòu)建中,將是否發(fā)生財(cái)務(wù)預(yù)警記為因變量Y,將財(cái)務(wù)指標(biāo)和市場(chǎng)指標(biāo)記為自變量Xi。
將在2019 年由正常上市公司轉(zhuǎn)變?yōu)楸惶厥馓幚淼钠髽I(yè)記為發(fā)生財(cái)務(wù)預(yù)警的因變量Y=1,將在2019 年未存在特殊處理、退市或被證交所警告的正常上市企業(yè)記為因變量Y=0,剔除掉樣本嚴(yán)重缺失的企業(yè)后,得到樣本分布情況如表2 所示。ST 代表被特別處理,財(cái)務(wù)狀況異常;ST*代表存在退市風(fēng)險(xiǎn)警示。表2 中,將在2019 年當(dāng)年發(fā)生財(cái)務(wù)狀況異常、存在退市風(fēng)險(xiǎn)警示和發(fā)生退市的企業(yè)記為財(cái)務(wù)預(yù)警企業(yè)。如表2 所示,AB 代表企業(yè)在2019 年被證監(jiān)會(huì)特別處理,由正常上市狀態(tài)轉(zhuǎn)變?yōu)镾T 企業(yè);AD 代表在該企業(yè)在當(dāng)年由正常企業(yè)轉(zhuǎn)換為ST*企業(yè);AX 代表該企業(yè)由正常上市狀態(tài)轉(zhuǎn)為退市;AA 代表該企業(yè)為正常上市狀態(tài)。
表2 樣本分布情況Tab.2 Distribution of samples
本文的解釋變量在財(cái)務(wù)指標(biāo)的基礎(chǔ)上,加入股票市場(chǎng)指標(biāo),更契合財(cái)務(wù)預(yù)警成因,以提高財(cái)務(wù)預(yù)警預(yù)測(cè)的準(zhǔn)確性。核心解釋變量體系的構(gòu)建如圖5 所示,包括資本結(jié)構(gòu)指標(biāo)、營(yíng)運(yùn)能力指標(biāo)、盈利能力指標(biāo)和股票市場(chǎng)指標(biāo)。資本結(jié)構(gòu)指標(biāo)包括流動(dòng)比率等的流動(dòng)資產(chǎn)分布,資產(chǎn)與負(fù)債、權(quán)益分布,現(xiàn)金流的分布和應(yīng)收賬款與收入比的分布;營(yíng)運(yùn)能力指標(biāo)包括周轉(zhuǎn)率與存貨收入比等;盈利能力指標(biāo)包括利潤(rùn)率、成本率與費(fèi)用率等;股票市場(chǎng)指標(biāo)包括季度回報(bào)率、股票流動(dòng)性指標(biāo)和大盤指標(biāo)離差等。
圖5 解釋變量體系的構(gòu)建Fig.5 Construction of explanation variable system
3.3.1 基于Stacking和BV模型的財(cái)務(wù)預(yù)警預(yù)測(cè)
本節(jié)將Bagging-Vote 信息融合模型與多框架Stacking 融合模型分別應(yīng)用到財(cái)務(wù)預(yù)警領(lǐng)域,并依次通過(guò)集成Up-Down采樣技術(shù)、SMOTE 采樣技術(shù)與Tomek-Smote 采樣技術(shù)對(duì)數(shù)據(jù)樣本進(jìn)行處理,改變樣本的不平衡性,提高模型性能。實(shí)驗(yàn)結(jié)果如表3 所示。
如表3 所示,集成Up-Down 采樣技術(shù)下的BV-EN、BV-RF和BV-XGBoost 分別代表不同采樣比例與不同參數(shù)下的彈性網(wǎng)、隨機(jī)森林和XGBoost 分類器的BV 集成模型;BV-Models代表彈性網(wǎng)、隨機(jī)森林和XGBoost 分類器三類分類器同時(shí)進(jìn)行BV 集成得到的融合模型;Stacking-DT、Stacking-SVM 和Stacking-LR 分別表示以決策樹(shù)、支持向量機(jī)與邏輯回歸為次級(jí)分類器的Stacking 融合模型。
表3 基于不同采樣算法的模型預(yù)測(cè)結(jié)果Tab.3 Model prediction results based on different sampling algorithms
通過(guò)對(duì)比分析研究可以發(fā)現(xiàn):Bagging-Vote 算法與集成Up-Down 采樣技術(shù)的適配性更高。就召回率而言,最高的為Up-Down-Stack-SVM 模型,但此時(shí)的G-mean 值明顯偏低,可以最大限度上避免遺漏財(cái)務(wù)預(yù)警企業(yè);從總體樣本的預(yù)測(cè)準(zhǔn)確率來(lái)看,Up-Down-BV-Models 的綜合預(yù)測(cè)性能較為均衡,G-mean 值達(dá)到90.44%。
通過(guò)對(duì)比分析可知,多層次的BV(Bagging-Vote)融合模型與不同框架下的Stacking 融合模型對(duì)分類器都有一定的提升,但是二者各有特點(diǎn)。BV 算法對(duì)多個(gè)分類器的集成的提升效果在對(duì)數(shù)據(jù)進(jìn)行集成Up-Down 采樣的環(huán)境下,有一定的提升,可以相對(duì)均衡地提高召回率與精確率,但是提升幅度有 限;Stacking 融合框 架則與SMOTE 和Tomek-Smote 采樣技術(shù)的適配性更高,在犧牲了模型精確率的基礎(chǔ)上,對(duì)召回率有明顯的提升。
基于此,實(shí)驗(yàn)進(jìn)一步考慮將Tomek-Smote-Stacking 框架融合到Up-Down-Bagging-Vote 集成算法中,得到SBV 融合模型。
3.3.2 基于SBV多源信息融合模型的財(cái)務(wù)預(yù)警預(yù)測(cè)
Bagging-Vote 算法的優(yōu)點(diǎn)在于對(duì)融合的分類器類型沒(méi)有嚴(yán)格的限制,因此實(shí)驗(yàn)考慮進(jìn)行數(shù)據(jù)層次與模型層次的交互式融合,嘗試對(duì)模型性能進(jìn)行進(jìn)一步的提升。
在數(shù)據(jù)層次,公司收益率受大盤短期波動(dòng)因素的影響,較難很好地對(duì)經(jīng)營(yíng)狀況形成真實(shí)的反映。基于此,通過(guò)使用卡爾曼濾波技術(shù)對(duì)樣本公司的收益率數(shù)據(jù)進(jìn)行處理,過(guò)濾掉公司收益率中受大盤短期波動(dòng)影響的部分。過(guò)濾后的收益率,對(duì)公司的真實(shí)經(jīng)營(yíng)狀況具有一定的詮釋性,并加入模型池中,用Bagging 算法與分類模型和Stacking 框架進(jìn)行融合??柭鼮V波過(guò)濾后的收益率數(shù)據(jù)分布如圖6 所示。
圖6 卡爾曼濾波過(guò)濾后的收益率分布Fig.6 Distribution of return rates after Kalman filtering
如圖6 所示,財(cái)務(wù)預(yù)警企業(yè)的數(shù)量遠(yuǎn)少于正常上市企業(yè),就極值的分布而言,正常上市企業(yè)的收益率分布區(qū)間為[-0.389 0,0.456 2],存在財(cái)務(wù)風(fēng)險(xiǎn)的企業(yè)的收益率分布區(qū)間為[-0.431 1,0.301 1]。根據(jù)收益率上下限和數(shù)據(jù)分布的數(shù)據(jù)結(jié)構(gòu),進(jìn)行數(shù)據(jù)層面和模型層面的融合分析。
SBV 多源信息融合模型的構(gòu)建思路參考了BV 模型的排列組合與投票集成的方式,從而得到可以應(yīng)用在不同場(chǎng)景,適合不同對(duì)象的,以單框架融合(SBV-S)的、多框架融合(SBV-M)的與多框架多層次融合(SBV-MF)的總計(jì)420 個(gè)模型。
單框架融合模型(SBV-S)是以Stacking 單框架融合BV集成的模型;多框架融合模型(SBV-M)是以多個(gè)Stacking 框架融合BV 集成的模型;多框架多層次融合模型(SBV-MF)是多個(gè)Stacking 框架結(jié)合BV 集成與數(shù)據(jù)層次的交互式融合得到的多層次多框架的融合模型。實(shí)驗(yàn)以召回率(Recall)、精確率(Precision)和G-mean 值度量指標(biāo),對(duì)信息融合模型進(jìn)行排序,選取不同框架不同層次融合下的指標(biāo)排名前兩名,共計(jì)6 組模型進(jìn)行對(duì)比分析。
如表4 所示,分別以召回率、精確率和G-mean 值作為模型預(yù)測(cè)結(jié)果排序的度量指標(biāo)。
表4 基于不同排序指標(biāo)的預(yù)測(cè)結(jié)果Tab.4 Prediction results based on different ranking indexes
召回率衡量了模型成功預(yù)測(cè)出財(cái)務(wù)困境企業(yè)的概率,最高達(dá)到97.62%,為多框架多層次的SBV 多源信息融合模型,此時(shí)的精確率有較大程度的下降,整體樣本的預(yù)測(cè)準(zhǔn)確率大約維持在89%。
精確率衡量了模型預(yù)測(cè)出來(lái)的財(cái)務(wù)預(yù)警企業(yè)的精準(zhǔn)度,通過(guò)表4 可以發(fā)現(xiàn),在以精確率排序的預(yù)測(cè)結(jié)果中,SBV-S 的精確率最高,達(dá)到26.92%。將Tomek-Smote-Stacking-LR 融合模型(表3)與SBV-S 進(jìn)行對(duì)比,可以發(fā)現(xiàn):兩個(gè)模型在召回率相同的情況下,后者的精確率、F1 值和G-mean 都有一定的提升。
G-mean 衡量了模型預(yù)測(cè)性能的綜合能力,均衡地衡量了財(cái)務(wù)預(yù)警企業(yè)和正常企業(yè)預(yù)測(cè)準(zhǔn)確率。從表4 整體來(lái)看,SBV-MF 的G-mean 值相對(duì)比較低。SBV-MF 通過(guò)加大財(cái)務(wù)預(yù)警企業(yè)預(yù)測(cè)錯(cuò)誤的懲罰系數(shù),提高成功挑選出具有財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)的概率,在一定程度上犧牲了正常企業(yè)的預(yù)測(cè)準(zhǔn)確率。
對(duì)表4 進(jìn)行對(duì)比分析可以發(fā)現(xiàn),SBV 模型兼具BV 集成和Stacking 模型的優(yōu)點(diǎn),對(duì)于模型的性能在準(zhǔn)確率和精確率上都有較為全面的提升,并且根據(jù)模型的特性,可以為不同需求的利益相關(guān)者提供一定的參考。
基于Stacking 多框架與多層次的BV 集成得到的模型(SBV-MF),能最大化地幫助投資者挑選出存在風(fēng)險(xiǎn)的企業(yè),但與此同時(shí),將財(cái)務(wù)正常的企業(yè)誤判為財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)的概率也較大。利益相關(guān)者可以通過(guò)投資需求選擇恰當(dāng)?shù)哪P?,?duì)于風(fēng)險(xiǎn)規(guī)避者,可以選擇SBV-MF,有效規(guī)避投資失敗的風(fēng)險(xiǎn);對(duì)于風(fēng)險(xiǎn)中性者,可以選擇SBV-M,得到較為均衡的預(yù)測(cè)結(jié)果;對(duì)于追求高風(fēng)險(xiǎn)者,可以選擇SBV-S,在一定程度上可以減少將正常企業(yè)誤判為財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)的成本。
基于Stacking 單框架的BV 集成得到的模型(SBV-S),能得到較高的精確率和整體樣本的預(yù)測(cè)準(zhǔn)確率,能夠較為精確地挑選出財(cái)務(wù)預(yù)警企業(yè),從而降低對(duì)正常上市企業(yè)的誤判成本??傮w而言,SBV 信息融合模型顯著提升了財(cái)務(wù)預(yù)警的預(yù)測(cè)準(zhǔn)確率,相較于BV 集成模型和Stacking 融合框架又有了進(jìn)一步的提升,與單分類器相比,提升效果更為顯著,并且利益相關(guān)者可以通過(guò)實(shí)際需要挑選恰當(dāng)?shù)呢?cái)務(wù)預(yù)警模型。
在人工智能財(cái)務(wù)預(yù)警研究中,財(cái)務(wù)風(fēng)險(xiǎn)的企業(yè)數(shù)量要遠(yuǎn)少于正常上市企業(yè),由此產(chǎn)生了嚴(yán)重的樣本不平衡問(wèn)題。為了解決這一問(wèn)題,重采樣技術(shù)被應(yīng)用到財(cái)務(wù)預(yù)警研究中,然而典型的重采樣技術(shù)存在一定的缺陷,比如隨機(jī)上采樣容易產(chǎn)生過(guò)擬合問(wèn)題,隨機(jī)下采樣則丟失了大部分的信息,SMOTE 人工合成的新樣本容易產(chǎn)生樣本分類的邊界模糊問(wèn)題等。此外,現(xiàn)有的研究大多使用基礎(chǔ)分類器對(duì)財(cái)務(wù)預(yù)警問(wèn)題進(jìn)行研究,其分類器的提升始終有限。因此,通過(guò)對(duì)現(xiàn)有研究的梳理與對(duì)前沿技術(shù)的深入挖掘,將隨機(jī)上采樣與隨機(jī)下采樣進(jìn)行結(jié)合,得到集成Up-Down 采樣技術(shù);將Tomek link對(duì)應(yīng)用到SMOTE 采樣中,降低人工合成新樣本產(chǎn)生的邊界模糊,得到Tomek-Smote 采樣技術(shù)。集成不平衡采樣技術(shù)有效提升了分類器的性能,一定程度上降低了樣本不平衡對(duì)財(cái)務(wù)預(yù)警模型預(yù)測(cè)效果的影響。
在指標(biāo)的選擇上,考慮到企業(yè)遭受財(cái)務(wù)危機(jī)同時(shí)受到內(nèi)因和外因的影響,因此在財(cái)務(wù)指標(biāo)數(shù)據(jù)的基礎(chǔ)上,加入了市場(chǎng)指標(biāo)數(shù)據(jù),將市場(chǎng)信息納入考慮,使得指標(biāo)體系的構(gòu)建與財(cái)務(wù)預(yù)警風(fēng)險(xiǎn)的成因更加貼近。在進(jìn)行模型的BV 集成預(yù)測(cè)中,加入了使用卡爾曼濾波過(guò)濾之后的收益率,過(guò)濾了大盤影響之后的企業(yè)個(gè)體收益率更為真實(shí),并實(shí)現(xiàn)數(shù)據(jù)層次與模型層次的交互,一定程度上提高了模型的預(yù)測(cè)準(zhǔn)確率。
本文的研究還嘗試通過(guò)不同層次的Bagging-Vote 集成技術(shù)和不同框架的Stacking 模型來(lái)提高現(xiàn)有機(jī)器學(xué)習(xí)分類器的預(yù)測(cè)準(zhǔn)確率。隨機(jī)森林和XGBoost 作為當(dāng)前性能較強(qiáng)的分類器,對(duì)其本身進(jìn)行改進(jìn)得到的提升有限,因此,本文通過(guò)融合Bagging-Vote 和Stacking 框架構(gòu)建的SBV 多源信息融合模型,顯著提高了預(yù)測(cè)準(zhǔn)確率,并且可以根據(jù)利益相關(guān)者的實(shí)際需要選擇對(duì)應(yīng)的模型。對(duì)于市場(chǎng)監(jiān)管者而言,可以選擇精確率較高的模型,減少重點(diǎn)監(jiān)管企業(yè)的數(shù)量,實(shí)現(xiàn)高效、準(zhǔn)確的監(jiān)管范圍;對(duì)于投資者而言,可以選擇召回率值較高的模型,一定程度上規(guī)避投資失敗的風(fēng)險(xiǎn),并降低投資失敗的成本;對(duì)于上市公司自身而言,則可以利用多個(gè)模型對(duì)自己進(jìn)行預(yù)測(cè)判別,及時(shí)發(fā)現(xiàn)并防范風(fēng)險(xiǎn);對(duì)于債權(quán)人而言,可以通過(guò)財(cái)務(wù)預(yù)警模型判斷債務(wù)人的財(cái)務(wù)境況,降低資金無(wú)法回收的風(fēng)險(xiǎn)。
在未來(lái)的研究中,可以從以下方面進(jìn)行深入探討:1)對(duì)于數(shù)據(jù)的真實(shí)性問(wèn)題,由于上市公司公開(kāi)的財(cái)務(wù)數(shù)據(jù)可能經(jīng)過(guò)了一定的修飾與潤(rùn)色,并不能真實(shí)地反映企業(yè)的經(jīng)營(yíng)發(fā)展?fàn)顩r,在分類器的學(xué)習(xí)過(guò)程中,財(cái)務(wù)指標(biāo)數(shù)據(jù)的失真問(wèn)題在一定程度上會(huì)影響分類器的判斷。在未來(lái)的研究中,將通過(guò)文本挖掘技術(shù)等方法,對(duì)財(cái)務(wù)數(shù)據(jù)的真實(shí)性進(jìn)行進(jìn)一步的審核與改進(jìn),使用更為真實(shí)的數(shù)據(jù),來(lái)構(gòu)建具有更廣泛、更貼合實(shí)際應(yīng)用的企業(yè)財(cái)務(wù)預(yù)警模型。2)在評(píng)估模型性能的指標(biāo)方面,本文使用了較為傳統(tǒng)的統(tǒng)計(jì)學(xué)指標(biāo)。然而,基于財(cái)務(wù)預(yù)警的特殊性,統(tǒng)計(jì)指標(biāo)并不能準(zhǔn)確地衡量模型的性能。因此結(jié)合具體的實(shí)際情景,未來(lái)的研究中將構(gòu)建更具有經(jīng)濟(jì)意義的指標(biāo),從契合財(cái)務(wù)預(yù)警研究的角度衡量模型的性能。