江俊毅,蔣洪迅
(中國人民大學信息學院,北京 100872)
收益與風險永遠并存.財務受困企業(yè)受限于融資成本高,傾向于發(fā)行更高回報率的企業(yè)債或其它證券.而高收益證券暗藏著高風險,對企業(yè)財務困境預測研究一直是學界的熱點問題.以往的研究大都專注于預測上市企業(yè)陷入財務困境的概率,探求面臨的風險與潛在的收益之間的盈虧平衡點.然而,事實上不少上市企業(yè)也實現(xiàn)了逆境求生、扭虧為盈,迄今卻少有文獻研究受困企業(yè)的脫困策略以及其可能性預測,特別是并購重組及其后續(xù)事件對上市企業(yè)的影響.
通過大數(shù)據(jù)預測上市企業(yè)的財務脫困,即險境淘金,在現(xiàn)實生活中既是可能的又是可行的.首先,我國滬深股市很多陷入財務困境的上市企業(yè)仍然擁有一個寶貴的“殼”資源,其它非上市企業(yè)通過并購重組、吸收合并、出清式資產(chǎn)置換等方式可以盤活這部分市場資源;其次,受到國際貿易態(tài)勢變化的影響,中國經(jīng)濟出現(xiàn)了明顯的產(chǎn)業(yè)升級,從勞動力密集型的產(chǎn)業(yè)轉移到科技密集型產(chǎn)業(yè),跨行業(yè)并購重組數(shù)量逐年快速增長,這些事件對于分析企業(yè)未來經(jīng)營狀況和擺脫財務困境有著越來越重要的理論價值和實踐意義;再次,傳統(tǒng)的財務數(shù)據(jù)存在著瞞報、漏報甚至造假的重大缺陷,即便在財會審計嚴格的美國股市也存在美化報表、隱瞞經(jīng)營狀況、虛構業(yè)務等的數(shù)字游戲,例如2020 年“瑞幸咖啡”事件;最后,監(jiān)管規(guī)范使得多源異構大數(shù)據(jù)特征輸入變得可能,近年證監(jiān)會對上市企業(yè)的信息披露行為進行了規(guī)范,特別是中文年報中的管理層討論與分析部分,蘊含了企業(yè)經(jīng)營狀況、財務狀況、治理水平、信用擔保和關聯(lián)關系等的大量信息,使得對其進行深入挖掘變得具有現(xiàn)實可行性,針對文本信息披露的關聯(lián)挖掘成為財務預測的一個重要的研究方向.
縱觀財務困境及其脫困預測的相關研究,涉及到三個基本方向:輸入維度的挖掘、預測模型的探索、決策角度的選擇.
首先,在輸入維度方面,除了傳統(tǒng)的財務指標等定量數(shù)據(jù),很多學者逐漸認識到了MD&A 文本等定性數(shù)據(jù)對財務預測的重要性.Cole 等[1]較早提出MD&A 及其披露的信息有助于投資者預測企業(yè)未來業(yè)績.薛爽等[2]針對國內上市企業(yè),也發(fā)現(xiàn)中文年報具有重要的信息揭示作用.隨著大數(shù)據(jù)的積累,自然語言處理技術(natural language processing,NLP)的發(fā)展給我們提供新的強有力工具.Hanley 等[3]利用文本向量化方法度量MD&A 的信息含量.Khrystyna 等[4]利用NLP 技術將MD&A 信息應用于企業(yè)收益預測的改進.陳藝云[5]利用中文MD&A 進行財務困境預測的嘗試,驗證了管理層語調為預測提供了新的信息.然而MD&A并非完美,管理層傾向于采取積極方式強調好消息而用模糊的語言報告壞消息以削弱消極影響[6],無法真實全面反映企業(yè)經(jīng)營情況.對此,Huang 等[7],曾慶生等[8]對MD&A 進行研究發(fā)現(xiàn),其文本會因管理層出于利己主義目的進行有條件的語調操縱,反加劇了企業(yè)和投資者之間的信息不對稱.因此雖然MD&A 可以提供增量信息,但經(jīng)過語調管理后的MD&A 使得有限理性投資者更易陷入判斷的困境,需要新的信息來源加以修正.另外,并購重組事件作為企業(yè)獲得和創(chuàng)造增長機會的一項重要投資活動[9],與企業(yè)脫困具有極大的相關性,是企業(yè)重要的脫困路徑之一[10].引入M&A 信息有望能夠減輕MD&A 語調粉飾帶來的影響,有利于衡量管理層因過度自信而導致的激進的資產(chǎn)置換.然而目前對M&A 事件與財務困境的研究,多見于理論分析[10]以及案例研究[11,12],幾乎未見對其中定量定性信息進行挖掘用以財務困境預測的先例.基于以上考量,本文在現(xiàn)有工作的基礎上,深入挖掘MD&A,M&A 事件中的定量定性信息,驗證其對于財務困境及其脫困預測的有效性;分析其對于預測的具體作用;同時探究M&A 事件與管理層語調的交互作用,比較對僅用MD&A 時可能會出現(xiàn)的文本粉飾現(xiàn)象造成的影響;最后將其加入預測模型得到了更好的預測效果.
其次,在預測模型選擇方面,多源數(shù)據(jù)帶來了信息增量的新機遇,也給預測模型帶來噪聲、冗余和數(shù)據(jù)不平衡的新挑戰(zhàn).Beaver[13]最早采用單變量分析方法進行了財務困境預測研究;吳世農等[14]選用了6 個財務指標建立了Logistic 預測模型;陳藝云[5]利用管理層語調以及9 個財務比率建立了離散時間風險模型.然而,這些模型所使用的數(shù)據(jù)量較小,特征選擇主要來自經(jīng)驗,存在較大的改善空間.在應用高維數(shù)據(jù)預測領域,盧永艷等[15]采取了平均影響值SVM 方法實現(xiàn)對多維財務變量的選擇,方匡南等[16]提出了稀疏組Lasso支持向量機方法實現(xiàn)對財務比率組間變量和組內變量的篩選,都取得了較好預測效果,但是這些研究在樣本數(shù)據(jù)集的選擇上都存在著一定的局限.
在正負樣本極度不平衡的應用場景下,數(shù)據(jù)集采樣也是相關研究的重要挑戰(zhàn)之一.多數(shù)研究都是人為挑選,構成趨近平衡的樣本集進行預測[14,15,17,18].然而,挑選出的樣本集訓練出來的模型只能應用于同時代、同領域企業(yè)的預測,對于其它企業(yè)效果不明朗,這勢必對于預測模型的泛化能力造成影響.目前的發(fā)展趨勢是一些學者已開始使用過采樣與欠采樣結合的方法[16]進行改進.因此,本文構造了一種基于集成學習的預測模型,將不平衡的正負樣本集切分成多個平衡的樣本子集分別進行弱分類器的訓練以解決數(shù)據(jù)不平衡的問題,同時將特征選擇嵌入模型中,對于分割后的平衡數(shù)據(jù)集挑選最佳特征以解決噪聲與冗余的問題.最后利用Boosting 方法加權各弱分類器的結果作為集成強分類器的最終結果.該集成學習模型的特點是對所有可用市場信息進行學習,模型學習的信息量更大,對于大多數(shù)企業(yè)更能普遍適用、推廣,有著更好的魯棒性和泛化能力,并且由于沒有人為挑選樣本,結果更加準確客觀.同時集成學習綜合各分類器的結果,比單個分類器能有較顯著的效果提升.出于對少數(shù)類樣本誤分為多數(shù)類樣本的代價較大(識別財務困境企業(yè)與脫困企業(yè)的意義更大)的考慮,本文在模型中加入懲罰系數(shù),達到了更好的識別財務困境(脫困)企業(yè)的效果.通過篩選最優(yōu)預測變量,得到影響企業(yè)財務困境預測的主要因素,從而提出對財務困境企業(yè)的相關建議.
最后,在決策角度方面,多數(shù)研究聚焦于企業(yè)進入財務困境的預測,少有對于困境企業(yè)能否脫困進行預測的研究.趙麗瓊等[19]曾對ST 企業(yè)摘帽脫困預測建立了一個Logit 回歸模型,探究影響困境企業(yè)恢復的因素,預測效果并不理想.另外還有一些研究分析“摘帽”的影響因素[20,21],及針對某些脫困企業(yè)的案例研究[22,23].實際上,相比于上市企業(yè)財務困境預測,很多投資人更關注困境企業(yè)的轉機,特別是上市企業(yè),其股票面臨退市的風險而處于價格低位,一旦企業(yè)恢復正常成功“摘帽”,其股價必定會出現(xiàn)報復性的反跳而產(chǎn)生巨大的價差收益.研究企業(yè)脫困的預測對于實際應用以及股市投資者都有著很大的指導價值,但此領域的文獻卻有所缺失.本文采用前述的集成學習框架,通過對財務數(shù)據(jù)、MD&A 以及M&A 的挖掘進行困境企業(yè)的脫困預測,得到了較好的預測效果,并討論了不同時期宏觀經(jīng)濟環(huán)境和政策因素對預測模型的影響.
本文跳脫了通常的財務困境預測,而更多著眼于財務脫困的研究新角度;在研究方法上也不再局限于傳統(tǒng)的上市企業(yè)財務數(shù)據(jù)分析,而是提出了一種多源大數(shù)據(jù)挖掘的上市企業(yè)財務預測的理論框架和實施方法.具體來說,本文不再局限于財務指標,而是集成企業(yè)財務數(shù)據(jù)、信息披露文本和并購重組事件信息等多源數(shù)據(jù),探究其對于財務困境預測的影響;在決策角度上,不再局限于陷入困境的單方面預測,而是開展企業(yè)解困的可能性和可行性預測;在模型構建上,提出一種改進的多分類器集成學習預測模型,對不平衡數(shù)據(jù)進行學習,避免人工選擇樣本集造成的局限性和過擬合,保證預測效果、客觀性和泛化能力,同時在模型中嵌入了特征選擇流程以解決噪聲與冗余的問題;在評價體系上,同時采取了AUC 和TPR 兩種指標,前者長于衡量非平衡數(shù)據(jù)集分類效果,后者可以保證模型對于少數(shù)類樣本的識別能力;鑒于財務困境樣本誤分為正常樣本(脫困樣本誤分為困境樣本)的代價較大的考慮,在模型中加入懲罰系數(shù),達到更好的識別效果.
MD&A屬于文本內容,目前對于文本信息的量化處理,主流有兩種方式:第一種是基于詞典的方式,根據(jù)特定詞典或詞表對文本中正面、負面、不確定等各類特征詞的劃分來對文本進行分類,從而從總體上表征文本的偏向程度[5],該方法可解釋性強,可以明確影響文本整體偏向的具體詞匯及其數(shù)量從而對結果進行解釋,但缺點是該方法受制于詞典的完備程度;第二種方法是基于文本向量化和機器學習的方式,將每個文本通過向量的形式進行表示,其每個元素為文本中每個詞語出現(xiàn)的頻率,再利用機器學習算法訓練文本分類的模型最后應用于全部文本[24],該方法不要求有既定的詞典和先驗的知識,但在數(shù)據(jù)集有限時效果不好并且對于結果的可解釋性較差.由于MD&A 的樣本量和文本量有限,使用基于詞典的方法既有語言學依據(jù)又更加透明化,是更加合適的方法[25].因此,出于對量化效果和解釋性的考慮,本文借鑒謝德仁[26]、陳藝云[5]等的方法,使用基于詞典的方式對MD&A 文本信息進行量化處理.
利用“Jieba”中文文本分詞模塊進行文本分詞,在詞典選取方面,正面詞匯和負面詞匯的判斷基礎主要是由Loughran 等[27]的英文金融文本詞典(LM詞典)根據(jù)中文年報內容翻譯為中文詞典,再結合情景進行擴充和完善得到.利用簡單比例加權方法設定情感詞的權重,統(tǒng)計正、負面詞匯詞頻,借鑒Henry[28]、Brockman[28]等的經(jīng)典做法,構造量化MD&A 信息的管理層語調變量為
其中POSPEC 表示正面詞匯數(shù)量占全部詞語總數(shù)的比例,NEGPEC 表示負面詞匯數(shù)量占全部詞語總數(shù)的比例,TONE 表示管理層討論與分析部分的凈語調,取值范圍為[?1,1].
2.1.1 并購重組事件信息的量化處理
并購與重組可以進行大致區(qū)分:并購主要涉及企業(yè)股權結構的調整,目標大多指向企業(yè)控制權的變動,核心內容是“股東準入”;重組則主要涉及企業(yè)資產(chǎn)、債務及業(yè)務結構的調整,目標是優(yōu)化企業(yè)的資產(chǎn)規(guī)模和質量、產(chǎn)業(yè)或行業(yè)屬性,核心內容是“資產(chǎn)業(yè)務準入”[30].自出現(xiàn)以股權類證券作為交易支付手段后,兩類“準入”可通過一項交易同時完成,二者之間的界限逐漸模糊.因此本文將兩者的效果合并討論.為將并購重組事件信息引入預測模型,本文首先從理論上對其有效性進行分析.
2.1.2 并購重組事件信息的有效性分析
并購重組事件反映管理層的素質.梁國勇[31]曾對企業(yè)并購的動機進行了研究,認為企業(yè)發(fā)生并購行為的根本動機是尋求利潤最大化,并購行為實際為競爭優(yōu)勢實現(xiàn)了雙向轉移并建立了新的競爭優(yōu)勢,因此可以認為主動尋求并購行為的管理層在積極地為企業(yè)謀求發(fā)展優(yōu)勢,而積極作為的管理層對于企業(yè)經(jīng)營有著重要的作用.另一方面,姜付秀等[32]研究認為,企業(yè)的過度擴張(并購作為一種主要手段)反映了管理層的過度自信,雖然過度自信的管理層傾向于選擇努力工作[33],但過度自信也與企業(yè)財務困境有很大的相關關系.
并購重組事件體現(xiàn)企業(yè)的發(fā)展階段.姚益龍等[34]的研究發(fā)現(xiàn),初創(chuàng)期的企業(yè)規(guī)模較小,內部資金流轉和外部籌資等都較為困難,不適合并購;成長期、成熟期的企業(yè)積累了較多過剩資源,為獲得協(xié)同效應和降低經(jīng)營風險,常進行縱向或混合并購;而衰退期企業(yè)生產(chǎn)萎縮,財務惡化,現(xiàn)金流枯竭,常處于待并購或被并購的地位.因此可以認為,企業(yè)在并購重組事件中的角色在一定程度上反映了企業(yè)的經(jīng)營發(fā)展狀況.
并購重組事件實現(xiàn)企業(yè)資源、債務、管理層的重新整合.買方可通過獲得標的的控制權來實現(xiàn)對其競爭優(yōu)勢的獲取;而賣方可通過資金的匯入實現(xiàn)債務結構的改善緩解財務壓力,通過企業(yè)管理層結構的優(yōu)化、引入先進的管理經(jīng)驗而實現(xiàn)企業(yè)經(jīng)營策略的優(yōu)化,從而有助于走出困境;對于雙方而言,可獲得擴大生產(chǎn)規(guī)模、實現(xiàn)經(jīng)驗共享與互補、獲得穩(wěn)定的供銷渠道、提高市場份額以及多角化經(jīng)營等的協(xié)同效應.
因此,可以說企業(yè)歷史的并購重組事件從許多方面體現(xiàn)著企業(yè)未來的經(jīng)營以及財務狀況,對于企業(yè)財務困境的預測有著很大的指導意義.
2.1.3 并購重組事件信息的特征提取
基于以上分析,本文構建了系列指標以對上述作用進行表征,定義樣本企業(yè)年度內并購重組(只計交易成功的)總次數(shù)NUM(即頻率)以表征企業(yè)進行并購重組的積極程度;定義樣本企業(yè)年度內并購重組總金額SUM 以表征企業(yè)并購重組(資產(chǎn)變更)總規(guī)模;同時區(qū)分交易地位分別定義作為買方的并購重組次數(shù)BUNUM,作為買方的交易總金額BUSUM,作為賣方的并購重組次數(shù)SENUM,作為賣方的交易總金額SESUM,作為標的方的并購重組次數(shù)BDNUM,作為標的方的交易總金額BDSUM 以衡量企業(yè)在交易中所處的不同角色及其規(guī)模.
集成學習是指通過聯(lián)合同種算法或多種不同算法,利用不同的特征和數(shù)據(jù),訓練出穩(wěn)健的魯棒的模型.其中每一個算法都是一個弱分類器,聯(lián)合各個弱分類器的結果得到最終的強分類器,一般來說強分類器的效果將顯著優(yōu)于單個弱分類器.本文在Liu[35]處理不平衡數(shù)據(jù)問題的基礎上建立了一個集成學習預測模型框架,如圖1 所示,以兼顧提升預測精度、處理不平衡數(shù)據(jù)、特征選擇和誤分類懲罰等多個目的.
財務困境企業(yè)數(shù)據(jù)為典型的不平衡數(shù)據(jù)集.已有的研究中,對于此類預測問題的樣本集的選擇,一般是通過人為挑選與困境企業(yè)規(guī)模、領域相類似的企業(yè)作為對應樣本加入樣本集中,而未考慮到其它類型企業(yè)的狀況.或是通過對多數(shù)類欠采樣(舍去其它大量樣本)構造單個的預測模型.由于沒有學習到其它絕大多數(shù)企業(yè)的信息,對于未挑選到的企業(yè)來說,模型的預測效果無法得到保障,因此存在嚴重的過擬合問題,缺乏泛化能力和實際應用意義,同時人為選擇也無法保證模型預測效果的客觀準確性.因此本文對所有可用樣本全集進行處理以學習所有樣本的數(shù)據(jù)特征,通過對非平衡數(shù)據(jù)集進行多次采樣得到多個平衡數(shù)據(jù)集分別建立弱分類模型最后加以集成以規(guī)避上述問題.
以困境預測為例,設樣本全集中財務困境企業(yè)(少數(shù)類)集合為P,經(jīng)營正常企業(yè)(多數(shù)類)集合為N,即|P| ?|N|,|·|表示集合的樣本量.從N中進行隨機采樣選取出子集N′,使|N′|=|P| ?|N|.取T=「|N|/|P|?,「·?表示向下取整,重復隨機采樣T次,得到從N中采樣所得的正常企業(yè)樣本子集N1,N2,...,NT.T個樣本子集中的總樣本數(shù)不小于|N|且為保證每次采樣中樣本企業(yè)選取的隨機性,使用有放回隨機采樣.每個正常企業(yè)樣本子集Ni與財務困境企業(yè)樣本全集P構成了一個平衡的樣本集,至此已構造了T個平衡的樣本集{N1,P},{N2,P},...,{NT,P}.
反映企業(yè)經(jīng)營的指標眾多,僅可用的財務指標就超過一百余項,但其中很多是噪聲或冗余,難以通過經(jīng)驗或理論排除.因此在建模時要求模型具有特征擇優(yōu)的能力,不僅減少過擬合、減少特征數(shù)量、提高模型泛化能力,而且還可以使模型獲得更好的解釋性,加快模型的訓練速度獲得更好的性能.常見的特征選擇方法對非平衡數(shù)據(jù)的處理效果很差,因此本文將特征選擇嵌入模型中,對經(jīng)過采樣生成的平衡數(shù)據(jù)集進行遞歸特征消除以減小噪聲與冗余.
對于每個平衡的樣本集{Ni,P},構造基模型Vi并進行不多于K ?1 輪的訓練(K為原始特征數(shù),包括管理層語調指標、企業(yè)并購重組事件指標以及財務指標),第一輪在原始的K維特征集上訓練,每個特征獲得一個權重,每輪訓練后從特征集中移除權值系數(shù)最小的特征,再基于新的特征集進行下一輪訓練,如此往復遞歸直至遍歷所有特征.記第j個被移除(可并列)的特征重要性得分為K ?j+1,記最后的一維特征得分為1,記所有的K維特征的重要性得分分別為Ri1,Ri2,...,RiK,則取值范圍為
取值越小表示特征越重要.對所有的T個樣本對分別進行上述特征遞歸特征消除,可得T ×K維的特征重要性得分矩陣.綜合T個樣本對進行特征選擇,構造表征第n維特征重要性的變量為
對n個RSUM 值進行排序,RSUM 值越小表示特征的重要性程度越高,對于模型的預測作用越大.通過對保留特征數(shù)進行優(yōu)化調整可得到最佳預測效果時的特征數(shù)以及目標預測效果時的最小特征數(shù).
Boosting 提升算法是一種可以用來減小監(jiān)督學習偏差的機器學習算法,在迭代訓練弱分類器過程中,樣本數(shù)據(jù)根據(jù)是否被正確分類來進行加權以強化對分類錯誤數(shù)據(jù)的學習.每個弱分類器根據(jù)其分類準確率被分配不同的權重,最后將弱分類器按權重集成,作為強分類器最終的輸出結果.
本文將進行特征選擇后的T個平衡樣本對記為.對每個樣本對利用Adaboost 提升算法訓練集成學習分類器H1,H2,...,HT.Hi由s個弱分類器hi1,hi2,...,his以及對應的權重αi1,αi2,...,αis構成,i=1,2,...,T,其中弱分類器學習算法的選擇與遞歸特征消除時所建立的基模型保持一致.
設m為每個平衡樣本對中的企業(yè)樣本數(shù),選用的基分類學習算法為ξ,進行共Q輪迭代.以{N′,P}={(x1,y1),(x2,y2),...,(xm,ym)}的訓練為例,x為輸入特征y為標簽.設每個企業(yè)樣本權值為
初始化樣本權值分布為
對每輪迭代(以第q輪為例),基于權值分布Dq從數(shù)據(jù)集{N′,P}中訓練出的基分類器
設P(·)表示分類器預測結果發(fā)生的概率,則該基分類器的誤差率為
若該基分類器誤差率?q >0.5,則該基分類器沒有效果,反之在該基分類器有效的情況下計算其參與最終決策的權重為
根據(jù)對每個企業(yè)樣本是否陷入財務困境(或是否成功脫困)的預測的正確與否更新樣本的權重,預測正確的降低權重,預測錯誤的增加權重繼續(xù)加以訓練,即
考慮到將財務困境企業(yè)誤判為正常企業(yè)未能識別出企業(yè)的財務風險的后果較嚴重,而將脫困企業(yè)從困境企業(yè)中識別的收益較大,因此對于此類誤判情況在樣本權重調整系數(shù)Dq+1(x)的基礎上再乘以一個懲罰系數(shù)β,即
讓財務困境企業(yè)樣本誤判為正常企業(yè)、將脫困企業(yè)樣本誤判為困境企業(yè)的代價加大,以提高模型對于財務困境風險以及脫困機會的識別能力.
經(jīng)過以上步驟重復訓練,可得到H的一系列基分類器h1,h2,...,hs以及對應的權重α1,α2,...,αs.同理,對所有的T個平衡樣本對,可得到h11,h12,...,h1s,h21,h22,...,h2s,...,hT1,hT2,...,hT s共T ×s個基分類器以及對應的權重α11,α12,...,α1s,α21,α22,...,α2s,...,αT1,αT2,...,αT s.將所有的基分類器分類結果按權重集成,得到最終強分類器輸出為
對于非平衡數(shù)據(jù)的預測,不能只簡單地以總預測精度作為評價指標,而應綜合考慮真陽性、假陽性、真陰性以及假陰性問題.對此,將真陽性率(TPR)定義為縱軸,假陽性率(FPR)定義為橫軸,利用模型對測試集中全部樣本點計算對應的概率值,從高到低排序依次取每個值作為閾值計算TPR 與FPR,繪制ROC 曲線.AUC 值為ROC 曲線下的面積,AUC 值越大表明模型效果越好,因此本文采用AUC 值作為模型的綜合評價指標.另外本文也考察模型的TPR 以側重檢驗模型對于財務困境企業(yè)(脫困企業(yè))的識別能力.
參照國內在預測上市企業(yè)財務困境時的通常做法,本文以因財務狀況異常而被特別處理(ST/*ST)作為上市企業(yè)出現(xiàn)財務困境的標志.根據(jù)中國上市企業(yè)的信息披露制度,上市企業(yè)(t ?1)年年度報告的對外公告與其在t年是否被特別處理幾乎同時發(fā)生,使用(t ?1)年的企業(yè)數(shù)據(jù)進行預測并無很大實際意義,故本文用上市企業(yè)(t ?2)年的數(shù)據(jù)來預測企業(yè)在t年是否被特別處理.考慮到制造業(yè)相對其他行業(yè)有著完善的生產(chǎn)流程、均衡的生產(chǎn)周期以及較為穩(wěn)定的發(fā)展趨勢,本文以滬深兩市A 股上市制造業(yè)企業(yè)為研究對象.因2007年、2019 年分別頒布新會計準則,對財務指標計算的一致性有所影響,故本文選取2009 年~2019 年A 股上市制造業(yè)企業(yè)為樣本,對應數(shù)據(jù)區(qū)間為2007 年~2017 年.另外,本文所使用的MD&A 數(shù)據(jù)來自中國研究數(shù)據(jù)服務平臺(CNRDS),數(shù)據(jù)集包括每年各上市企業(yè)披露的中文年報,截取其中管理層討論與分析部分,利用2.1 節(jié)所述方式對MD&A 文本內容進行自然語言處理,構造管理層語調變量;本文所使用的并購重組事件數(shù)據(jù)來自國泰安數(shù)據(jù)庫(CSMAR),數(shù)據(jù)集包括每年度各上市企業(yè)披露的并購重組事件,利用2.2 節(jié)所述方式對并購重組事件信息進行特征提取,對于年度內未進行并購重組的樣本變量賦值為0;本文所使用的財務比率數(shù)據(jù)來自銳思數(shù)據(jù)庫(RESSET),數(shù)據(jù)集包括每年各上市企業(yè)披露的所有財務比率,刪去缺失超過10%的財務比率以及強相關的比率,共得到87 個可用的財務比率.
數(shù)據(jù)預處理后,將樣本數(shù)據(jù)集構造為有監(jiān)督學習數(shù)據(jù),共得到598 個財務困境樣本,14 613 個正常經(jīng)營樣本(其中190 個脫困樣本),為典型的不平衡數(shù)據(jù)集.本文所使用的所有特征如下表1 所示,輸入模型前對所有變量進行Z-score 標準化處理,消除量綱的影響.
表1 特征說明Table 1 Feature descriptions
本文分別基于平衡數(shù)據(jù)集與非平衡數(shù)據(jù)集(全集)設計了多組實證研究,以檢驗MD&A 與M&A 對于提高模型預測效果的有效性,同時檢驗本文提出的集成學習模型的有效性.
過去的研究多是基于平衡數(shù)據(jù)集進行的,其預測模型(包括統(tǒng)計學模型與機器學習模型)對于非平衡數(shù)據(jù)集幾乎沒有預測效果,因此無法通過非平衡數(shù)據(jù)集來比較不同輸入對于預測效果改善的有效性.為了驗證加入MD&A 與M&A 是否能夠提升模型預測效果,本文首先進行基于平衡數(shù)據(jù)集的實證分析.采用簡單隨機下采樣方法構造平衡數(shù)據(jù)集進行財務困境預測的實驗.
5.1.1 機器學習預測模型
本文構造了四個主流應用的機器學習預測模型,即邏輯回歸(LG)、支持向量機(SVM)、決策樹(DT)以及Adaboost 集成學習模型(ADB)并分別利用財務數(shù)據(jù)(F)、財務數(shù)據(jù)及MD&A(FM)、財務數(shù)據(jù)及M&A(FR)、財務數(shù)據(jù)及MD&A 及M&A(FMR)四種不同類型的信息源作為輸入,進行重復實驗以排除不同樣本的影響,考察不同數(shù)據(jù)源對于模型預測效果的作用.本文統(tǒng)計了重復實驗中各模型在4 種輸入下分別取得最優(yōu)預測效果的次數(shù)(有并列)如圖2 和圖3 所示,各組實驗結果統(tǒng)計如表2 所示.
表2 預測結果統(tǒng)計Table 2 Statistics of foresting results
從預測結果AUC,TPR 可以看出,考慮了MD&A,M&A 或兩者都加以考慮的模型,具有更好的預測效果.這里,為排除抽樣實驗產(chǎn)生抽樣誤差的影響,對于重復實驗的結果進行了非參數(shù)Friedman 檢驗.對于AUC 值的Friedman 檢驗結果均為顯著,在統(tǒng)計上可以認為使用四種輸入造成了模型不同的預測結果(AUC),由于該結果對于四種不同的模型均成立,是個穩(wěn)健的結論.而TPR 值的Friedman 檢驗僅對于SVM 模型存在顯著性結果,表明四種輸入僅對SVM 的預測結果TPR 值造成明顯差異,對于其他模型并未產(chǎn)生明顯影響.從而合理推論,MD&A 與M&A 的加入通過使模型更好地識別正常經(jīng)營的企業(yè)從而提高了預測效果AUC 值,但對于SVM 模型則顯著地提升了識別財務困境樣本的能力.
5.1.2 Logit 回歸分析
機器學習模型使得準確的預測成為可能,但模型缺乏可解釋性使得難以證明數(shù)據(jù)內的關系,為進一步解讀MD&A 與M&A 對于財務困境預測影響的作用方向,本文先構建了二元Logit 回歸模型進行單個變量的統(tǒng)計建模,分析其系數(shù)的正負性以對作用效果提供參考,結果如表3 所示.
表3 新構造變量對財務困境的預測能力:基于單變量的比較分析Table 3 The predictive power of newly constructed variables to financial distress:Based on single variable analysis
管理層語調TONE 的系數(shù)顯著為負,表明年報文本中管理層對企業(yè)經(jīng)營的討論與分析越正面時,企業(yè)陷入財務困境的可能性越小;并購重組事件變量NUM,SUM,BUSUM,SENUM 和SESUM 的系數(shù)顯著為正,表明企業(yè)發(fā)生頻繁大規(guī)模的并購重組是企業(yè)財務困境的征兆之一;其余變量的系數(shù)統(tǒng)計上不顯著,當然不能斷言這些變量對于提高機器學習預測模型的準確率是無效的.回歸模型會受到內生性問題的干擾,就本文而言可能存在的內生性偏誤主要有兩個來源:首先是解釋變量與被解釋變量之間相互作用導致的內生性,另外是遺漏變量造成的內生性問題.針對前者,本文使用的解釋變量為(t ?2)期報告值而被解釋變量為t期報告值,屬于“領先–滯后方法”以減少前者的內生性影響.針對后者,現(xiàn)實中與企業(yè)財務狀況相關的變量層出不窮難以一一追溯,對此本文借鑒過往研究,進一步添加變量加以補救:加入每股凈資產(chǎn)(NAPS)以控制企業(yè)資產(chǎn)規(guī)模特征[36],加入營業(yè)收入增長率(opeincm)與資產(chǎn)凈利率(ROA)以控制企業(yè)運營績效[36?38],加入資產(chǎn)負債率(dbastrt)以控制杠桿狀況[39],加入無形資產(chǎn)比率(intanassrt)以控制企業(yè)的成長類型[40].控制變量(僅對表3 中顯著的變量)后估計結果如表4 所示.
表4 新構造變量對財務困境的預測能力:基于控制變量Table 4 The predictive power of newly constructed variables to financial distress:Based on control variable analysis
控制企業(yè)經(jīng)營狀況后,管理層語調TONE 仍顯著為負,表明管理層語調越消極企業(yè)陷入財務困境的可能性越大.該結果與Wu[41]的研究相合,其認為MD&A 表明了管理層對企業(yè)的期望,并對市場反應產(chǎn)生長期影響,MD&A 語調越樂觀的企業(yè)傾向于呈現(xiàn)更高的企業(yè)價值,反之越悲觀時則反映了企業(yè)價值的散失.企業(yè)年度M&A 總金額SUM 的系數(shù)仍顯著為正,表明M&A 規(guī)模仍顯著影響著企業(yè)財務困境的預測.買方M&A 總金額BUSUM 仍顯著為正,說明控制企業(yè)經(jīng)營狀況后,企業(yè)M&A 買入規(guī)模越大則陷入財務困境的可能性越大,這可以用“管理層過度自信”來解釋,過度自信的管理層傾向采用高風險探索式的戰(zhàn)略[42],而企業(yè)過度激進的擴張在短期內往往無法帶來同等的收益[32],將影響企業(yè)現(xiàn)金流導致資金鏈斷裂從而陷入財務困境.值得注意的是,一旦控制企業(yè)經(jīng)營狀況賣方M&A 事件對財務困境預測便不再有顯著影響,表明作為賣方的M&A 頻率與規(guī)??赡苁峭ㄟ^體現(xiàn)企業(yè)不同的經(jīng)營狀況或生命階段從而對企業(yè)財務困境預測做出貢獻.
為進一步探究加入M&A 事件對管理層語調的預測影響,本文考察M&A 事件(僅分析上表中顯著的變量)與管理層語調之間的交互作用,如表5 所示.表5 中第1 列、第2 列和第3 列為基線模型,從第4 列和第5 列的結果可以看出,管理層語調TONE 與M&A 規(guī)模SUM 之間存在著顯著的交互作用.管理層語調越積極,企業(yè)陷入財務困境的可能性越小,但M&A 規(guī)模削弱了管理層語調對財務困境預測的作用,M&A 規(guī)模越大,這種削弱越大,一個解釋是當管理層對年報進行粉飾而夸大對企業(yè)的預期時,現(xiàn)實已發(fā)生的M&A反映了企業(yè)的實際情況,削弱了年報粉飾帶來的夸大作用.可以認為,當考慮企業(yè)發(fā)生的M&A 規(guī)模時,對于年報中MD&A 中管理層語調的夸大對預測的影響具有一定的抑制作用.
表5 交互作用檢驗Table 5 Interaction test
隨機采樣構造出來的平衡樣本集,丟棄了大多數(shù)的市場樣本,損失了大量有用信息;但已有研究的財務困境預測模型對于不平衡樣本全集的預測效果較差,如表6 所示,原因是樣本集中正常經(jīng)營的企業(yè)-年度樣本占絕大多數(shù),模型傾向于將企業(yè)預測為正常經(jīng)營,導致模型的TPR 處于低值,無法有效識別企業(yè)的財務困境風險.為充分利用市場信息,同時解決不平衡樣本集的問題,本文以第3 節(jié)所述方式構造了一個集成學習預測模型(EE)以達到提升預測精度、處理不平衡數(shù)據(jù)、特征選擇、誤分類懲罰等多個效果.
初始將模型的基分類器ξ設定為決策樹,特征數(shù)為98(未特征尋優(yōu)),懲罰系數(shù)β=1(未加懲罰).輸入FMR 特征組合,使用樣本全集進行模型(EE)的測試,將邏輯回歸(LG’)、支持向量機(SVM’)、決策樹(DT’)、Adaboost(ADB’)作為對照,進行重復實驗(每次實驗采用相同的測試集),并與5.1.1 節(jié)實驗結果對比,結果如表6 所示.
表6 預測結果統(tǒng)計Table 6 Statistics of foresting results
在所有重復實驗中,模型EE 的各項指標在所有模型中均表現(xiàn)最佳,表明利用不平衡樣本全集訓練的EE 模型預測效果顯著優(yōu)于所有對照組,包括SVM 模型(平衡數(shù)據(jù)集中效果最好)以及邏輯回歸模型(實際應用最廣泛).分析其原因,EE 模型的基學習模型為決策樹(改為其他弱分類器時也有類似的實驗結果)并未優(yōu)于其它模型,EE 模型主要通過對不平衡樣本進行采樣分割實現(xiàn)了對所有樣本信息的訓練建模,獲得了廣泛的市場信息從而實現(xiàn)了較好的預測效果.
進一步地,考慮到如果未能預警財務困境風險從而將財務困境企業(yè)誤判為正常經(jīng)營企業(yè)的實際應用代價往往較大,如3.4 節(jié)所述通過添加并調節(jié)誤分類懲罰系數(shù)β,以提高預測模型的TPR 保證財務困境企業(yè)的識別能力.以0.05 為步長從β=0.6 至β=2.0 逐步測試懲罰系數(shù)β對模型預測結果的影響,如圖4 所示.當懲罰系數(shù)β逐步增大時,訓練集中被誤分類的財務困境樣本的學習權重增大,用以強化對分類錯誤數(shù)據(jù)的學習,從而使得模型對財務困境樣本的識別效果更好,TPR 值逐步提高,最大值達到0.893,相比未加懲罰時有顯著提升并明顯優(yōu)于其他模型.而提升TPR 的代價是造成模型對正常經(jīng)營樣本的誤判增大,使得AUC值降低,但當TPR 達到峰值時模型AUC 值為0.883,仍顯著高于其他模型.
本文利用所構造的模型進行特征尋優(yōu),對初始98維特征進行遞歸消除,每次保留最優(yōu)的特征組合同時減少一維特征,結果如圖5 所示.當輸入特征維度過少時,模型無法獲取足夠的信息,因此AUC 值、TPR 值均處于低位;隨著輸入特征維度增加,模型的預測效果逐步提升,但并非始終遞增,到達拐點后趨平甚至略有降低.原因是反映企業(yè)財務狀況的指標中很多是噪聲變量,如不加選擇地把所有特征都納入模型反而會降低模型的精度.本文構造的模型自動完成最優(yōu)特征排序與篩選,既避免了基于先驗知識的人為輸入選擇,又降低了噪聲的影響,同時也能篩去不重要的變量減少獲取數(shù)據(jù)的成本.
從圖5 中可知,模型篩選出的包含45 維特征的最優(yōu)特征組合(拐點值)即可達到理想的預測效果,特征組合如表7 所示.
表7 特征選擇結果Table 7 Results of feature selection
對比表1 的輸入變量,可以發(fā)現(xiàn)本文構造的MD&A 變量均保留,另外M&A 事件變量中的買方交易總金額、賣方次數(shù)、賣方交易總金額、標的方交易總金額經(jīng)過篩選后也得以保留,說明其對于財務困境預測發(fā)揮了重要的作用.結合5.1.2 節(jié)的回歸分析結果,可以認為企業(yè)管理層語調以及其在并購重組市場中所處的不同地位與交易規(guī)模在一定程度上確能反映企業(yè)的經(jīng)營狀況,從而對企業(yè)未來的財務發(fā)展起到預示作用.
然而“買方交易總次數(shù)”、“標的方交易總次數(shù)”被剔除,其原因在于所有企業(yè)–年度樣本中買方及標的方的企業(yè)–年度樣本較少,多數(shù)為0 值,并且數(shù)值變化較小導致該變量的信息熵不大,因信息量不足而被剔除.“年度并購重組總次數(shù)”、“年度并購重組總金額”兩變量被剔除,主要原因在于與其他并購重組變量間存在線性相關關系,作為冗余被剔除.
所選特征中也剔除了許多財務指標,原因在于許多財務比率變量是從相同的財務報表中提取經(jīng)過不同計算方式所得的,因此它們之間具有較強的相關性,被作為冗余而被剔除.而從另一方面,也說明了留下的指標更能集中反映企業(yè)的財務運行情況,從而預示企業(yè)是否陷入財務困境,例如流動比率等表征償債能力的指標、資產(chǎn)負債率等表征資本結構的指標等,這與之前的文獻研究相一致.在日常經(jīng)營過程中也應對影響上述指標的業(yè)務活動著重關注,這對于企業(yè)管理者具有啟示意義.
為對企業(yè)能否恢復正常經(jīng)營或成功完成重組而“摘帽”進行預測,于險境中挖掘新機遇,本文利用前述構造的模型與數(shù)據(jù)進行困境企業(yè)脫困的預測研究,無論對于企業(yè)規(guī)避困境、債權人風險控制或對投資者抄底“ST 股”的投資行為均有實際意義.
本文將脫困企業(yè)–年度樣本定義為當前年度為正常經(jīng)營而前一年度因財務困境而被風險警示的企業(yè)–年度,同第4 節(jié)所述方式處理,得到598 個財務困境企業(yè)–年度樣本以及190 個脫困企業(yè)–年度樣本.以簡單隨機下采樣構造的平衡數(shù)據(jù)集和數(shù)據(jù)全集作為訓練樣本,輸入FMR 特征組合進行重復實驗,結果如下表8 所示.本文構造的EE 模型在企業(yè)脫困的預測上仍取得了最優(yōu)的預測效果.對比5.1 節(jié)與5.2 節(jié)結果也可以看出,對于企業(yè)脫困的預測難度要大于陷入困境的預測.分析其原因,首先,用于脫困預測的脫困企業(yè)樣本的前一年度即為困境企業(yè)樣本,企業(yè)在各維度的表現(xiàn)與困境企業(yè)樣本的相似性相對較大,模型難以區(qū)分;第二,用于脫困預測的訓練樣本集規(guī)模較小,預測模型難以學習到廣泛的市場信息;再者,企業(yè)脫困的影響因素廣泛而復雜,5.1 節(jié)的實驗未考慮不同時期宏觀經(jīng)濟與政策環(huán)境的影響,在此情況下MD&A 與M&A的加入仍能顯著提升模型的預測效果,已能說明其有效性,但本節(jié)研究中用于訓練的樣本集總量小,在市場信息不足的情況下僅從財務、年報和歷史并購重組信息方面進行分析便略顯不足,不同時期的宏觀環(huán)境因素作用凸顯,并且ST(*ST)企業(yè)摘帽的條件受政策性因素影響較大,需要將其加以考慮.
因此,本文考慮宏觀經(jīng)濟環(huán)境和不同的政策因素將樣本集劃分為2007 年~2010 年、2011 年~2013 年、2014 年~2017 年三個時期的子集再次進行實驗,分別對應著企業(yè)2009 年~2012 年、2013 年~2015 年、2016 年~2019 年的風險警示情況,結果如表9 所示(僅展示多次重復實驗的均值).
表9 分時期預測結果Table 9 Forecasting results in different periods
針對不同時期的影響(為排除數(shù)據(jù)不平衡的干擾,SVM,LG,DT,ADB 僅分析平衡數(shù)據(jù)集下的結果),發(fā)現(xiàn)各模型在各階段的預測效果有所區(qū)別,其中在2014 年~2017 年最好,2011年~2013 年次之,2007 年~2010 年的最差.分析其原因,可能存在以下因素影響:首先,2008 年~2010 年屬于全球金融危機的動蕩期及危機后的快速發(fā)展時期,股市波動劇烈,我國上市企業(yè)也多受影響尤其是外向型制造業(yè)上市企業(yè),這個時期上市企業(yè)財務狀況影響因素復雜,歷史財務運行數(shù)據(jù)無法準確反映困境企業(yè)能否脫困,加之這個階段的并購重組市場并非理性,《上市公司信息披露管理辦法》剛推行,信息披露不夠規(guī)范,更使得該時期的預測難度加大;第二,2011 年~2013 年期間市場走向穩(wěn)定發(fā)展,信息披露制度逐步成熟,歷史財務數(shù)據(jù)與MD&A 的作用開始凸顯,另一方面2011 年《重組管理辦法》第一次修訂,期間配合著多次對資產(chǎn)重組過程中再融資政策的調整,“借殼上市”作為一類重大資產(chǎn)重組開始受到監(jiān)管,使得并購重組事件對于困境企業(yè)脫困預測也變得更有價值;第三,2014 年~2017 年期間的信息披露制度與宏觀經(jīng)濟環(huán)境較前一時期區(qū)別不大,而2014 年和2016 年對《重組管理辦法》的進一步修訂使得并購重組市場更趨向理性,追逐熱點、跨界并購的現(xiàn)象明顯減少,“炒殼”、“囤殼”等行為得到明顯抑制,市場對高風險、短期套利的重組情形也日趨理性,這使得歷史并購重組事件對于脫困預測有了更大的意義,因此這個時期內并購重組事件對提高模型預測效果的作用普遍超過了MD&A.綜合來看,隨著宏觀經(jīng)濟環(huán)境的穩(wěn)定運行,信息披露制度的逐步完善,并購重組市場的日趨理性,利用財務數(shù)據(jù)、MD&A,M&A 進行脫困預測的效果勢必也會逐步提升,從本問研究的三個時期的實驗結果也可以看出,集成學習EE 模型均取得最好的預測效果,表明其對于不同時期影響的魯棒性與可靠性。
在上市企業(yè)財務數(shù)據(jù)公報的基礎上,本文挖掘其年報管理層討論與分析中的文本信息以及企業(yè)并購重組的市場信息,對其財務困境以及脫困問題進行預測研究.實驗結果驗證了新特征的有效性,并給出了解釋.針對正負樣本數(shù)據(jù)不平衡問題,本文構造了一種集成學習預測模型框架,通過采樣構造多個平衡數(shù)據(jù)集進行訓練從而學習全部樣本的市場信息,利用特征遞歸消除減少了噪聲與冗余,在訓練弱分類器時加大財務困境樣本誤判的懲罰提高風險預警能力,最后利用Boosting 方法集成各弱分類器.相比傳統(tǒng)預測模型,無論在財務困境或脫困預測的AUC 還是TPR 方面,本文構造的模型均實現(xiàn)了更好的預測效果.
本文所涉及的企業(yè)脫困預測問題,未來還有不少有價值的潛在研究方向,諸如針對上市企業(yè)年度報告MD&A 特征的文本挖掘方法,分析MD&A 中不同語句的影響;挖掘更多企業(yè)脫困預測的相關數(shù)據(jù)源,評估各種特征選擇方法對預測效果的影響;繼續(xù)針對時間序列進行動態(tài)分析,研究財務困境中的概念漂移也將是一個有趣的問題.