古麗思
【摘 ?要】在新冠肺炎疫情防控常態(tài)化背景下,我國醫(yī)藥制造業(yè)呈現(xiàn)良好的發(fā)展態(tài)勢。醫(yī)藥制造業(yè)上市公司具有良好的投資價(jià)值,研究其財(cái)務(wù)風(fēng)險(xiǎn)將有利于投資者評估醫(yī)藥制造行業(yè)未來發(fā)展情況并進(jìn)行投資決策。論文以我國A股醫(yī)藥制造業(yè)上市公司為研究對象,基于其償債能力、盈利能力、營運(yùn)能力、現(xiàn)金流分析、發(fā)展能力及風(fēng)險(xiǎn)水平6個(gè)維度構(gòu)建財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警評價(jià)指標(biāo)體系,利用Stacking算法實(shí)現(xiàn)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警,并對比K-近鄰、Logistic回歸、決策樹3種單一分類器的預(yù)測效果。結(jié)果表明,提出的Stacking算法整體性能明顯優(yōu)于其他模型,準(zhǔn)確率、F1-Value及AUC值均高達(dá)98.5%以上。
【關(guān)鍵詞】醫(yī)藥制造業(yè);財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警;Stacking;不平衡數(shù)據(jù);遞歸特征消除
【中圖分類號】F406.7;F832.5;F426 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文獻(xiàn)標(biāo)志碼】A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 【文章編號】1673-1069(2023)04-0164-03
1 引言
由于經(jīng)濟(jì)全球化的不斷深入,使得資本市場的規(guī)模持續(xù)地?cái)U(kuò)大,企業(yè)之間貿(mào)易的頻繁發(fā)生及企業(yè)經(jīng)營環(huán)境的日趨復(fù)雜使得其很容易陷入財(cái)務(wù)風(fēng)險(xiǎn)當(dāng)中。基于此,構(gòu)建適合的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警機(jī)制是必要的,因?yàn)樗梢灶A(yù)測企業(yè)可能將面臨的危機(jī)并能及時(shí)化解。在已有的文獻(xiàn)研究中,還沒有文獻(xiàn)研究我國醫(yī)藥制造業(yè)上市公司的財(cái)務(wù)風(fēng)險(xiǎn)情況,在后疫情時(shí)期,醫(yī)藥制造業(yè)上市公司能否抓住機(jī)遇,持續(xù)良好的發(fā)展態(tài)勢需要進(jìn)一步量化分析,對于投資者而言,在進(jìn)行投資時(shí)亦存在較高的風(fēng)險(xiǎn),對現(xiàn)有上市公司進(jìn)行財(cái)務(wù)風(fēng)險(xiǎn)分析具有必要性?;诖?,本文以A股醫(yī)藥制造業(yè)上市公司為研究對象,利用Stacking集成算法實(shí)現(xiàn)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警,并根據(jù)預(yù)測結(jié)果提出相應(yīng)建議。
2 文獻(xiàn)回顧
Ohlson(1980)采用Logistic算法構(gòu)建預(yù)測公司破產(chǎn)的概率模型,結(jié)果證明公司規(guī)模、資本結(jié)構(gòu)、經(jīng)營狀況和變現(xiàn)能力指標(biāo)對公司破產(chǎn)具有顯著影響。吳世農(nóng)和盧賢義(2001)采用Fisher線性判定分析、多元線性回歸和Logistic回歸3種方法基于我國140家上市公司的21個(gè)財(cái)務(wù)指標(biāo)數(shù)據(jù)分別構(gòu)建3種財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,研究結(jié)果表明Logistic模型預(yù)測性能最優(yōu),誤判率最低。楊淑娥和徐偉剛(2003)基于Altman提出的Z分?jǐn)?shù)模型結(jié)合主成分分析法,以我國上市公司為研究樣本,提出Y分?jǐn)?shù)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,研究結(jié)果表明Y分?jǐn)?shù)模型具有良好的預(yù)測效果。鄭茂(2003)以我國112家上市公司為研究對象,采用概率模型和Logistic模型構(gòu)建相應(yīng)的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警數(shù)學(xué)模型,研究表明我國上市公司的財(cái)務(wù)信息是有效的,具有較強(qiáng)的預(yù)測能力,且線性概率模型和Logistic模型對財(cái)務(wù)風(fēng)險(xiǎn)也具有較好的識別能力。宋彪等(2015)通過爬取60家企業(yè)的相關(guān)新聞、博客等網(wǎng)絡(luò)數(shù)據(jù)構(gòu)建大數(shù)據(jù)指標(biāo),結(jié)合其財(cái)務(wù)指標(biāo)構(gòu)建了更為全面的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,并利用支持向量機(jī)(SVM)模型進(jìn)行預(yù)測,研究結(jié)果表明引入大數(shù)據(jù)指標(biāo)后模型預(yù)測效果短期內(nèi)有所提升,長期有明顯提高。
由上述分析可知,企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的方法已經(jīng)由傳統(tǒng)的統(tǒng)計(jì)類方法轉(zhuǎn)向新興的機(jī)器學(xué)習(xí)算法。基于此,本文擬初步選取反映醫(yī)藥制造業(yè)上市公司償債能力、營運(yùn)能力、盈利能力、現(xiàn)金流分析、發(fā)展能力和風(fēng)險(xiǎn)水平6個(gè)維度的35個(gè)財(cái)務(wù)比率指標(biāo)構(gòu)建了我國醫(yī)藥制造業(yè)上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,同時(shí)使用SMOTETomek綜合采樣算法以解決樣本不平衡問題,在特征選擇上,使用遞歸特征消除(Recursive Feature Elimination,RFE)算法根據(jù)隨機(jī)森林(Random Forest,RF)擬合結(jié)果選擇貢獻(xiàn)度高的前15個(gè)特征,最后構(gòu)建Stacking集成算法結(jié)合網(wǎng)格搜索構(gòu)建財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型。
3 研究設(shè)計(jì)
3.1 樣本選取與數(shù)據(jù)來源
本文選取2022年我國A股317家醫(yī)藥制造業(yè)上市公司作為研究對象(根據(jù)證監(jiān)會2012版行業(yè)分類),按照其是否被特別處理來劃分是否財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警,即將ST和*ST上市公司視作高財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)(即需財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警),非ST上市公司視作低財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)(不需財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警)。在本文研究的317家上市公司中,高財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)數(shù)量為9家,低財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)數(shù)量為308家。選取317家企業(yè)2015年至2022年的財(cái)務(wù)數(shù)據(jù)進(jìn)行實(shí)證研究,數(shù)據(jù)來源于CSMAR數(shù)據(jù)庫中公司研究系列欄目。
3.2 醫(yī)藥制造業(yè)企業(yè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警指標(biāo)體系構(gòu)建
在變量選取層面,本文在前人大量研究的基礎(chǔ)上,結(jié)合我國醫(yī)藥制造業(yè)上市公司財(cái)務(wù)風(fēng)險(xiǎn)成因初步選取反映企業(yè)償債能力、營運(yùn)能力、盈利能力、發(fā)展能力、現(xiàn)金流分析和風(fēng)險(xiǎn)水平6個(gè)維度累計(jì)35個(gè)財(cái)務(wù)指標(biāo)構(gòu)建了我國醫(yī)藥制造業(yè)上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,如表1所示。
3.3 數(shù)據(jù)預(yù)處理
本文首先對現(xiàn)有35個(gè)特征進(jìn)行缺失情況統(tǒng)計(jì),對缺失比例超過20%的特征進(jìn)行剔除;對缺失比例5%~20%的特征采取以該特征的分布邊緣值進(jìn)行填充,其分布邊緣值計(jì)算見式(1);對缺失比例低于5%的特征采取以各企業(yè)該特征字段的均值進(jìn)行填充。同時(shí),對重復(fù)樣本數(shù)據(jù)進(jìn)行剔除,最后對數(shù)據(jù)進(jìn)行歸一化處理。
padding values=mean+3×std ? ? ? ?(1)
其次,可以看到樣本數(shù)據(jù)極度不平衡,正負(fù)樣本比例約為1∶30,為解決樣本非平衡的問題,利用SMOTETomek綜合采樣算法,實(shí)質(zhì)是SMOTE過采樣算法結(jié)合Tomek Link欠采樣算法實(shí)現(xiàn)在通過SMOTE方法對少數(shù)類樣本進(jìn)行過采樣后進(jìn)行樣本的清洗,剔除了部分由于過采樣產(chǎn)生的噪音數(shù)據(jù)。具體而言,SMOTETomek綜合采樣算法判定噪聲數(shù)據(jù)的主要思想是當(dāng)找不到第三個(gè)樣本到某兩個(gè)樣本的距離低于兩個(gè)樣本間距離時(shí),就認(rèn)為兩個(gè)樣本中有一個(gè)為噪聲數(shù)據(jù)。在剔除噪音數(shù)據(jù)后,有利于后續(xù)模型的訓(xùn)練,且在經(jīng)過SMOTETomek綜合采樣算法處理過后,正負(fù)樣本比例為1∶1。
3.4 特征篩選
在特征選擇層面,本文采用遞歸特征消除(Recursive Feature Elimination,RFE)算法,通過給定其隨機(jī)森林(Random Forest,RF)算法進(jìn)行擬合,根據(jù)特征重要性移除權(quán)重比較低的特征,并重新擬合模型,重復(fù)此過程,直至指定數(shù)量的特征被保留下來。本文設(shè)定最終保留15個(gè)特征,算法輸出結(jié)果為保留流動比率、資產(chǎn)負(fù)債率、產(chǎn)權(quán)比率、權(quán)益乘數(shù)、應(yīng)付賬款周轉(zhuǎn)率、資本密集度、總資產(chǎn)凈利潤率(ROA)、凈資產(chǎn)收益率(ROE)、營業(yè)毛利率、銷售費(fèi)用率、管理費(fèi)用率、財(cái)務(wù)費(fèi)用率、財(cái)務(wù)杠桿、經(jīng)營杠桿、綜合杠桿。
3.5 Stacking算法設(shè)計(jì)
機(jī)器學(xué)習(xí)作為人工智能的一個(gè)分支,涉及數(shù)理統(tǒng)計(jì)、概率論、計(jì)算機(jī)原理等多門學(xué)科。隨著現(xiàn)代網(wǎng)絡(luò)信息技術(shù)的快速發(fā)展,機(jī)器學(xué)習(xí)逐漸在金融、醫(yī)療等眾多領(lǐng)域得到了廣泛的應(yīng)用,并取得了一定的成果。機(jī)器學(xué)習(xí)分為監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)4類。其中,監(jiān)督學(xué)習(xí)(Supervised Learning)主要解決分類和回歸問題,如垃圾信息分類、新聞情感分類、房價(jià)預(yù)測等問題。其特點(diǎn)是采用有標(biāo)簽的數(shù)據(jù)進(jìn)行模型訓(xùn)練和測試,而本文的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測即適用于監(jiān)督學(xué)習(xí)算法。集成學(xué)習(xí)(Ensemble Learning)是通過某種策略將多個(gè)個(gè)體學(xué)習(xí)器結(jié)合而得到的一個(gè)強(qiáng)學(xué)習(xí)器,通常較單個(gè)分類器具有更好的學(xué)習(xí)效果。Stacking是一種機(jī)器學(xué)習(xí)集成算法,其通過將多個(gè)模型組合在一起進(jìn)而構(gòu)成一個(gè)性能更優(yōu)的單一模型。其將原始數(shù)據(jù)輸入多個(gè)模型中(亦稱初級學(xué)習(xí)器)進(jìn)行訓(xùn)練,再將每個(gè)模型的預(yù)測結(jié)果作為新的特征輸入一個(gè)新的模型當(dāng)中(亦稱次級學(xué)習(xí)器),最后得到最終預(yù)測結(jié)果。本文利用K-近鄰算法(K-NearestNeighbor,KNN)、支持向量機(jī)算法(Support Vector Machine, SVM)和決策樹算法(Decision Tree,DT)作為初級學(xué)習(xí)器,利用邏輯回歸模型(Logistic Regression,LR)作為次級學(xué)習(xí)器構(gòu)建Stacking集成模型。同時(shí),本文結(jié)合網(wǎng)格搜索對模型進(jìn)行調(diào)優(yōu)。
4 實(shí)證分析及結(jié)果
4.1 評估指標(biāo)
在樣本非平衡情況下,衡量模型性能的好壞更重要的是盡可能將全部財(cái)務(wù)風(fēng)險(xiǎn)高的企業(yè)識別出來,即更注重模型將高財(cái)務(wù)風(fēng)險(xiǎn)企業(yè)找出的正確率。本文使用準(zhǔn)確率(Accuracy)、查全率(Recall)、查準(zhǔn)率(Precision)、F1-Value及AUC值對本文所構(gòu)建的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型進(jìn)行性能評估。上述指標(biāo)都可基于混淆矩陣計(jì)算而來,下面對混淆矩陣進(jìn)行具體說明。定義TP表示真正例,即實(shí)際為正樣本且被預(yù)測為正樣本的個(gè)數(shù);FP表示假正例,即實(shí)際為負(fù)樣本但被預(yù)測為正樣本的個(gè)數(shù);TN表示真負(fù)例,即實(shí)際為負(fù)樣本且被預(yù)測為負(fù)樣本的個(gè)數(shù);FN表示假負(fù)例,即實(shí)際為正樣本但被預(yù)測為負(fù)樣本的個(gè)數(shù),而混淆矩陣即由這4個(gè)指標(biāo)所構(gòu)成的矩陣?;诖?,可得準(zhǔn)確率、查全率、查準(zhǔn)率的計(jì)算公式依次為:
由式(2)~式(4)可知準(zhǔn)確率指模型預(yù)測正確的樣本數(shù)占樣本總數(shù)的比例;查全率指實(shí)際為正例的樣本中模型找對的比率,即衡量模型找回正樣本的能力;查準(zhǔn)率指模型預(yù)測為正例的樣本中實(shí)際正例所占比率。而往往查全率和查準(zhǔn)率是矛盾的,一個(gè)高另一個(gè)就低,那么為了同時(shí)考慮到查全率和查準(zhǔn)率,就引入了F1-Value指標(biāo),其是查全率和查準(zhǔn)率的調(diào)和平均數(shù),計(jì)算公式如下:
AUC指ROC曲線下的面積,對比準(zhǔn)確率、查全率、查準(zhǔn)率、F1-Value 4個(gè)指標(biāo),其能夠反映當(dāng)給模型不同的分類閾值時(shí)模型的不同性能表現(xiàn)情況。同時(shí),AUC具有對不平衡數(shù)據(jù)不敏感的優(yōu)勢且AUC指標(biāo)也易與隨機(jī)猜想的結(jié)果進(jìn)行比較,能較好度量模型的性能,AUC值介于0.5到1之間,AUC值越大說明模型性能越好,當(dāng)AUC值小于等于0.5,即說明模型結(jié)果與隨機(jī)猜想一樣甚至更差,說明模型沒有預(yù)測價(jià)值。
4.2 模型結(jié)果分析及比較
本文按8∶2劃分訓(xùn)練集和測試集,將訓(xùn)練樣本數(shù)據(jù)輸入本文所構(gòu)建Stacking模型進(jìn)行模型訓(xùn)練,在測試集上進(jìn)行預(yù)測得到預(yù)測結(jié)果,并與KNN、Logistic回歸、決策樹3種模型預(yù)測性能進(jìn)行對比,得到這4種模型的輸出結(jié)果(見表2),發(fā)現(xiàn)本文構(gòu)建的Stacking集成模型性能最優(yōu),在準(zhǔn)確率、查全率、查準(zhǔn)率、F1-Value及AUC值上都明顯優(yōu)于其他3種模型。
進(jìn)一步分析并進(jìn)行可視化,得到圖1。
5 結(jié)語
本文以我國A股317家醫(yī)藥制造業(yè)上市公司為研究樣本,結(jié)合其財(cái)務(wù)信息構(gòu)建了我國醫(yī)藥制造業(yè)上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警指標(biāo)體系,采用了SMOTETomek綜合采樣算法實(shí)現(xiàn)了樣本均衡,在數(shù)據(jù)清洗層面,以企業(yè)為單位進(jìn)行分組填充缺失值等,使用了遞歸特征消除(RFE)算法來進(jìn)行特征篩選,最后構(gòu)建了Stacking集成算法進(jìn)行財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警。通過實(shí)證分析,得出結(jié)論:本文所提出的Stacking集成學(xué)習(xí)算法較K-近鄰、決策樹、Logistic回歸這種單一分類器具有更好的準(zhǔn)確率、F1-Value及AUC值等,其對于機(jī)器學(xué)習(xí)、深度學(xué)習(xí)在我國醫(yī)藥制造業(yè)上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警的應(yīng)用方面具有一定意義。
【參考文獻(xiàn)】
【1】Ohlson J A.Financial Ratios and the Probabilistic Prediction of Bankruptcy[J].Journal of Accounting Research,1980,18(1):109-131.
【2】吳世農(nóng),盧賢義.我國上市公司財(cái)務(wù)困境的預(yù)測模型研究[J].經(jīng)濟(jì)研究,2001(06):46-55+96.
【3】楊淑娥,徐偉剛.上市公司財(cái)務(wù)預(yù)警模型——Y分?jǐn)?shù)模型的實(shí)證研究[J].中國軟科學(xué),2003(01):56-60.
【4】鄭茂.我國上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型的構(gòu)建及實(shí)證分析[J].金融論壇,2003(10):38-42+50.
【5】宋彪,朱建明,李煦.基于大數(shù)據(jù)的企業(yè)財(cái)務(wù)預(yù)警研究[J].中央財(cái)經(jīng)大學(xué)學(xué)報(bào),2015(06):55-64.