• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于文本挖掘的上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究

      2022-03-02 08:32:10梁龍躍
      關(guān)鍵詞:財(cái)務(wù)指標(biāo)特征提取預(yù)警

      梁龍躍,劉 波

      1.貴州大學(xué) 經(jīng)濟(jì)學(xué)院,貴陽550000

      2.貴州大學(xué) 馬克思主義經(jīng)濟(jì)學(xué)發(fā)展與應(yīng)用研究中心,貴陽550000

      隨著經(jīng)濟(jì)全球化的發(fā)展,上市公司在實(shí)際運(yùn)營(yíng)中的競(jìng)爭(zhēng)日益激烈,企業(yè)為了開辟新的利潤(rùn)空間,選擇了多元化的投資經(jīng)營(yíng)方式,這在一定程度上促進(jìn)了企業(yè)的持續(xù)發(fā)展。但在此過程中,一些公司缺乏財(cái)務(wù)風(fēng)險(xiǎn)的意識(shí),使得發(fā)生財(cái)務(wù)危機(jī)的可能性增加。對(duì)于公司管理層來說,一旦公司發(fā)生財(cái)務(wù)危機(jī),就會(huì)面臨無法償還債務(wù)、使得公司陷入破產(chǎn)的風(fēng)險(xiǎn)。對(duì)于投資者來說,公司發(fā)生財(cái)務(wù)危機(jī)會(huì)帶來巨大的投資風(fēng)險(xiǎn)。因此,能夠正確預(yù)測(cè)公司是否發(fā)生財(cái)務(wù)危機(jī)對(duì)于公司管理層和投資者來說具有重要的意義。一方面,公司管理層可以借此改變經(jīng)營(yíng)策略,防止公司陷入財(cái)務(wù)危機(jī)。另一方面,投資者可以了解企業(yè)的生存能力,及時(shí)規(guī)避投資風(fēng)險(xiǎn)。此外,正確預(yù)測(cè)企業(yè)財(cái)務(wù)危機(jī),也有助于政府管理部門及時(shí)防范證券市場(chǎng)風(fēng)險(xiǎn)。

      國(guó)內(nèi)外學(xué)者先后使用不同的財(cái)務(wù)指標(biāo),針對(duì)不同的行業(yè)建立了不同的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,但傳統(tǒng)的預(yù)警模型通常基于上市公司的財(cái)務(wù)指標(biāo)數(shù)據(jù),而沒有考慮財(cái)務(wù)文本與財(cái)經(jīng)新聞等非結(jié)構(gòu)化的文本數(shù)據(jù),這些文本數(shù)據(jù)包含了大量的定性信息。Tennyson等[1]指出了財(cái)務(wù)文本信息對(duì)公司破產(chǎn)預(yù)測(cè)的重要作用,如上市公司年報(bào)中“經(jīng)營(yíng)情況討論與分析”和“審計(jì)報(bào)告”章節(jié)的部分文本內(nèi)容確實(shí)可以為公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)提供增量信息[2-3]?!敖?jīng)營(yíng)情況討論與分析”一節(jié)對(duì)公司過去一年的經(jīng)營(yíng)情況做了一個(gè)總結(jié)性的陳述,同時(shí)對(duì)公司未來的發(fā)展做出了規(guī)劃,而“審計(jì)報(bào)告”內(nèi)容能夠?yàn)檎屯顿Y者了解企業(yè)真實(shí)的財(cái)務(wù)狀況和經(jīng)營(yíng)成果提供依據(jù),但是如何從中抽取有助于財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)的信息向來是一個(gè)富有挑戰(zhàn)性的難題。文本挖掘技術(shù)的發(fā)展,為分析文本信息提供了新的技術(shù)和方法??梢酝ㄟ^文本挖掘技術(shù)對(duì)文本數(shù)據(jù)中的定性信息進(jìn)行量化分析,并將其轉(zhuǎn)化為財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型可以識(shí)別的文本特征,用于財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè),提高模型的預(yù)測(cè)能力。

      基于此,本文提出一種基于BERT(bidirectional encoder representations from transformer)與自編碼器(autoencoder,AE)的文本特征提取融合模型,實(shí)現(xiàn)對(duì)上市公司年報(bào)中“經(jīng)營(yíng)情況討論與分析”和“審計(jì)報(bào)告”章節(jié)文本特征的提取,并將此文本特征用于財(cái)務(wù)風(fēng)險(xiǎn)的預(yù)測(cè),擴(kuò)展了文本特征在財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)這一領(lǐng)域的研究。此外,本文研究結(jié)果表明,加入上市公司年報(bào)的文本特征后,財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型的預(yù)測(cè)精度得到顯著提升,表明BERT-AE融合模型能夠提取出對(duì)財(cái)務(wù)預(yù)警有用的文本特征,在今后的研究中,可將其應(yīng)用于其他領(lǐng)域的文本特征提取。

      1 文獻(xiàn)綜述

      1.1 基于財(cái)務(wù)指標(biāo)的研究

      上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)一直以來備受業(yè)界關(guān)注,大多數(shù)學(xué)者都是基于財(cái)務(wù)指標(biāo)數(shù)據(jù)對(duì)其進(jìn)行研究。Altman[4]運(yùn)用多元統(tǒng)計(jì)分析中的差異分析方法,選取5個(gè)財(cái)務(wù)指標(biāo)構(gòu)建Zeta 模型對(duì)財(cái)務(wù)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。但建立Zeta 模型有一個(gè)假設(shè)前提,即樣本財(cái)務(wù)指標(biāo)數(shù)據(jù)要呈正態(tài)分布,這與現(xiàn)實(shí)不相符合。Ohlson[5]以6 項(xiàng)財(cái)務(wù)指標(biāo)為控制變量,建立了Logistic模型,其克服了Zeta模型的前提性缺陷并取得更好的預(yù)測(cè)效果,一度成為財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)的主流模型。

      隨著機(jī)器學(xué)習(xí)的發(fā)展與應(yīng)用,神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(support vector machine,SVM)、決策樹等方法也被用來分析財(cái)務(wù)指標(biāo)對(duì)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)的影響。較早的研究中,有學(xué)者使用不同的財(cái)務(wù)指標(biāo),以基于人工神經(jīng)網(wǎng)絡(luò)方法建立了財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型,提高了財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)的準(zhǔn)確性[6-7]。最近3 年的研究中,方匡南等[8]選取90 個(gè)財(cái)務(wù)指標(biāo)構(gòu)建SGL-SVM 組合財(cái)務(wù)預(yù)警模型,同傳統(tǒng)的Logistic模型相比較,該模型擁有更優(yōu)的預(yù)測(cè)性能。宋歌等[9]以2007—2016年A股上市公司財(cái)務(wù)數(shù)據(jù)為研究樣本,選取25個(gè)財(cái)務(wù)指標(biāo)并使用深度學(xué)習(xí)模型建立上市公司違約預(yù)警系統(tǒng),模型預(yù)測(cè)精度可以達(dá)到72%以上。Wang等[10]選取6 個(gè)財(cái)務(wù)指標(biāo),使用C50、CART 和隨機(jī)森林3 種決策樹模型建立財(cái)務(wù)危機(jī)預(yù)警系統(tǒng),發(fā)現(xiàn)3個(gè)模型中隨機(jī)森林模型擁有良好的分類和預(yù)測(cè)能力。以上學(xué)者通過構(gòu)建不同的財(cái)務(wù)預(yù)警模型對(duì)上市公司財(cái)務(wù)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),使得財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)領(lǐng)域的研究不斷取得突破,但研究都是以公司披露的財(cái)務(wù)指標(biāo)數(shù)據(jù)為基礎(chǔ),忽略了公司披露的財(cái)務(wù)文本信息。

      1.2 文本信息在財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警中的應(yīng)用

      財(cái)務(wù)文本信息作為公司信息披露的一部分,是對(duì)公司當(dāng)前經(jīng)營(yíng)狀況以及未來發(fā)展前景的詳細(xì)說明,可以為預(yù)測(cè)公司財(cái)務(wù)風(fēng)險(xiǎn)提供增量信息[11]。通常使用文本挖掘技術(shù)對(duì)財(cái)務(wù)文本信息進(jìn)行分析[12],通過文本挖掘技術(shù)提取相應(yīng)的財(cái)務(wù)文本特征,用以預(yù)測(cè)公司未來財(cái)務(wù)狀況?,F(xiàn)有研究主要從基于規(guī)則的統(tǒng)計(jì)方法和深度學(xué)習(xí)方法實(shí)現(xiàn)對(duì)財(cái)務(wù)文本特征的提取。

      從基于規(guī)則的統(tǒng)計(jì)方法來看,國(guó)內(nèi)外學(xué)者主要通過構(gòu)建詞典、提取特定短語、詞頻統(tǒng)計(jì)的方法對(duì)財(cái)務(wù)文本進(jìn)行處理。Hájek等[13]將公司年報(bào)中的文本與Hájek等[14]開發(fā)的金融字典進(jìn)行比較,根據(jù)語義情緒對(duì)單詞進(jìn)行分類,并計(jì)算出單詞類別的平均權(quán)重構(gòu)建文本情緒指標(biāo),用以進(jìn)行財(cái)務(wù)困境的預(yù)測(cè)。謝德仁等[15]參照Henry[16]、Loughran等[17]所使用的單詞列表,從所有詞語中手工選出正面和負(fù)面的情感詞語,構(gòu)建上市公司業(yè)績(jī)說明會(huì)管理層語調(diào),發(fā)現(xiàn)管理層語調(diào)能夠提供關(guān)于公司未來業(yè)績(jī)的增量信息。以上構(gòu)建文本指標(biāo)的方法均需要手工挑選情緒詞,難以適用于對(duì)大樣本的分析。陳藝云等[18]采用卡方檢驗(yàn)的方法提取反映財(cái)務(wù)困境公司和正常公司的文本特征詞構(gòu)建違約傾向指標(biāo),并將此指標(biāo)加入財(cái)務(wù)變量中,提升財(cái)務(wù)預(yù)警模型預(yù)測(cè)精度。但使用卡方檢驗(yàn)提取特征詞會(huì)產(chǎn)生低頻詞缺陷問題。

      隨著文本挖掘技術(shù)的不斷突破以及公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警研究領(lǐng)域的深入,有學(xué)者使用深度學(xué)習(xí)模型提取財(cái)務(wù)文本語義信息,并將其與財(cái)務(wù)指標(biāo)數(shù)據(jù)結(jié)合起來用于財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè),以提高模型預(yù)測(cè)精度。Matin 等[3]運(yùn)用CNN 和基于注意力機(jī)制的RNN(recurrent neural networks)模型提取審計(jì)報(bào)告與管理層聲明的文本特征,發(fā)現(xiàn)加入文本特征后的財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型取得更優(yōu)的效果。Matin等使用了CNN-RNN模型對(duì)文本特征進(jìn)行提取,但CNN-RNN 模型在特征提取時(shí)存在一些問題。RNN 從輸入文本的不同位置學(xué)到的同一特征無法共享,且其在進(jìn)行反向傳播時(shí)因?yàn)閭鞑ヂ窂竭^長(zhǎng)容易導(dǎo)致梯度消失或者梯度爆炸。CNN的單層卷積核無法捕獲長(zhǎng)距離特征,且池化層無法捕獲單詞的位置信息。這些問題均會(huì)使得文本信息丟失。此外,Matin 等的研究沒有考慮提取的文本特征維度大小問題,若提取的文本特征維度較高,則不易區(qū)分文本特征間的信息,同時(shí)在進(jìn)行財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)時(shí)會(huì)出現(xiàn)模型擬合速度慢、容易過擬合等問題。針對(duì)這些問題,提出了一種BERT-AE融合文本特征提取模型。

      BERT模型[19]基于Transformer[20]結(jié)構(gòu)構(gòu)造了一個(gè)多層雙向的Encoder 網(wǎng)絡(luò),Encoder 層中的參數(shù)量相較于CNN 和RNN 模型較少,優(yōu)化了模型過擬合問題。多層雙向的Encoder網(wǎng)絡(luò)使得BERT模型擁有了獲取當(dāng)前詞上下文的信息、語義語法信息的能力,解決了CNN 和ANN只能捕獲單一近鄰文本語句關(guān)系的問題。自編碼器(AE)[21]是一種無監(jiān)督式學(xué)習(xí)模型,其泛化能力較強(qiáng),不僅可以解決存在線性關(guān)系的數(shù)據(jù)降維問題,也可以解決存在非線性關(guān)系的數(shù)據(jù)降維問題,它能充分利用高維特征信息的同時(shí)解決高維特征所引入的“維數(shù)災(zāi)難”問題[22]。BERT后接AE組成的BERT-AE融合模型不僅能提取出更為豐富的財(cái)務(wù)文本特征信息,還能在充分保留文本特征的同時(shí)將高維的文本特征降至低維,使得文本特征更容易區(qū)分,提高了模型的泛化能力。該模型提取的財(cái)務(wù)文本特征與Word2Vec-CNN-AE、Word2Vec-LSTM-AE 提取的財(cái)務(wù)文本特征相比較,結(jié)果表明,BERT-AE模型提取的財(cái)務(wù)文本特征使財(cái)務(wù)預(yù)警模型預(yù)測(cè)的AUC值的提升效果優(yōu)于對(duì)比模型。

      2 研究設(shè)計(jì)

      財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)能夠有效地降低風(fēng)險(xiǎn)和損失,國(guó)內(nèi)外學(xué)者先后使用不同的財(cái)務(wù)指標(biāo)、不同的模型進(jìn)行預(yù)測(cè),并通過對(duì)模型不斷優(yōu)化,獲得了更好的預(yù)測(cè)效果。但是,有關(guān)此問題的研究仍然需要進(jìn)一步的深入,例如獲取有效的財(cái)務(wù)文本特征用于財(cái)務(wù)風(fēng)險(xiǎn)的預(yù)測(cè)。對(duì)此,本文使用文本挖掘技術(shù)提取財(cái)務(wù)文本特征,并將此特征用于財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)。研究設(shè)計(jì)包含四部分:(1)數(shù)據(jù)獲?。唬?)文本特征提?。唬?)財(cái)務(wù)預(yù)警模型構(gòu)建;(4)對(duì)比實(shí)驗(yàn)。在數(shù)據(jù)獲取中,本文將收集財(cái)務(wù)指標(biāo)數(shù)據(jù)和文本數(shù)據(jù),并對(duì)財(cái)務(wù)指標(biāo)數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行預(yù)處理。在文本特征提取中,構(gòu)建BERT-AE 融合模型提取財(cái)務(wù)文本特征作為財(cái)務(wù)指標(biāo)數(shù)據(jù)的補(bǔ)充。在財(cái)務(wù)預(yù)警模型的構(gòu)建中,以Logistic 回歸、XGBoost、ANN、CNN 模型為基礎(chǔ),在財(cái)務(wù)指標(biāo)中加入文本特征指標(biāo),比較加入文本特征前后模型的擬合效果。在對(duì)比實(shí)驗(yàn)中,分別使用Word2Vec-CNN-AE和Word2Vec-LSTM-AE提取財(cái)務(wù)文本特征,然后將其加入財(cái)務(wù)指標(biāo)中,比較加入文本特征前后財(cái)務(wù)預(yù)警模型的擬合效果。

      2.1 數(shù)據(jù)獲取和預(yù)處理

      2.1.1 財(cái)務(wù)指標(biāo)數(shù)據(jù)獲取和預(yù)處理

      目前國(guó)內(nèi)對(duì)企業(yè)財(cái)務(wù)危機(jī)沒有客觀全面的判別標(biāo)準(zhǔn),本文參照國(guó)內(nèi)學(xué)者一般做法,將兩個(gè)會(huì)計(jì)年度財(cái)務(wù)狀況出現(xiàn)異常而被特別處理(ST)作為公司陷入財(cái)務(wù)困境的標(biāo)志。同時(shí),為了處理數(shù)據(jù)不平衡對(duì)實(shí)證結(jié)果穩(wěn)健性的影響問題,以1∶2 的方式對(duì)ST 公司與非ST 公司進(jìn)行配對(duì),并且進(jìn)行配對(duì)的每組3個(gè)公司都處于同一行業(yè)或相似行業(yè)。我國(guó)上市公司t年的年度報(bào)會(huì)在t+1 年公布,因此上市公司在t+1 年是否被特別處理與其在t年年報(bào)公布是同時(shí)發(fā)生的。此時(shí),若使用公司被ST 前一年的數(shù)據(jù)來預(yù)測(cè)當(dāng)年該公司是否會(huì)發(fā)生財(cái)務(wù)危機(jī)會(huì)夸大模型的預(yù)測(cè)精度,因此將公司發(fā)生危機(jī)前兩年的數(shù)據(jù)作為預(yù)測(cè)模型的輸入數(shù)據(jù)。按上述原則,本文選取了2019—2020年新增的177家被ST公司和354家非ST公司作為研究對(duì)象,并收集其在2017—2018 年的財(cái)務(wù)指標(biāo)數(shù)據(jù)作為實(shí)證分析數(shù)據(jù),所有財(cái)務(wù)指標(biāo)數(shù)據(jù)均來自國(guó)泰安數(shù)據(jù)庫(kù)。

      在文獻(xiàn)[3,23-24]基礎(chǔ)上,本文構(gòu)建了5個(gè)一級(jí)財(cái)務(wù)指標(biāo),分別是償債能力指標(biāo)、盈利能力指標(biāo)、經(jīng)營(yíng)能力指標(biāo)、發(fā)展能力指標(biāo)、現(xiàn)金流量指標(biāo)。在一級(jí)指標(biāo)之下提供了25個(gè)財(cái)務(wù)指標(biāo)。具體指標(biāo)見表1所示。

      表1 財(cái)務(wù)指標(biāo)表Table 1 Financial index

      由于各公司披露的財(cái)務(wù)指標(biāo)不一致,造成有些公司的財(cái)務(wù)指標(biāo)存在缺失值。對(duì)于部分缺失值,本文采取了均值插補(bǔ)法對(duì)缺失值做補(bǔ)值處理。針對(duì)財(cái)務(wù)指標(biāo)缺失比較嚴(yán)重的樣本,本文樣本缺失閾值為30%,當(dāng)一個(gè)樣本缺失值超過閾值時(shí),就刪除這個(gè)樣本。統(tǒng)計(jì)結(jié)果表明樣本數(shù)據(jù)中沒有缺失值超過30%的樣本,故本文對(duì)所有含有缺失值的樣本做補(bǔ)值處理。

      2.1.2 財(cái)務(wù)文本數(shù)據(jù)的獲取

      本文從東方財(cái)富網(wǎng)上獲取2017年至2018年相對(duì)應(yīng)的531家上市公司年報(bào),使用正則表達(dá)式提取出年報(bào)中“經(jīng)營(yíng)情況討論與分析”與“審計(jì)報(bào)告”這兩章節(jié)的文本內(nèi)容進(jìn)行分析。提取出的財(cái)務(wù)文本數(shù)據(jù)為每家上市公司年報(bào)中“經(jīng)營(yíng)情況討論與分析”和“審計(jì)報(bào)告”兩個(gè)章節(jié)中各一條文本信息。其中,提取了“經(jīng)營(yíng)情況討論與分析”章節(jié)中“概述”一節(jié)的內(nèi)容,而“審計(jì)報(bào)告”的內(nèi)容則全部提取,共包含了531條“經(jīng)營(yíng)情況討論與分析”的文本數(shù)據(jù)和531條“審計(jì)報(bào)告”的文本數(shù)據(jù)。

      2.2 文本特征提取

      2.2.1 文本特征提取模型的構(gòu)建

      (1)基于BERT-AE的文本特征提取模型

      基于BERT-AE 的文本特征提取模型如圖1 所示。首先通過BERT 模型提取出財(cái)務(wù)文本特征,再引入AE神經(jīng)網(wǎng)絡(luò)對(duì)此文本特征進(jìn)行降維。該模型在有效提取出財(cái)務(wù)文本特征的前提下,解決了文本特征維度較高問題。下面分別對(duì)文本特征提取模型中兩項(xiàng)關(guān)鍵技術(shù)(BERT和AE)進(jìn)行詳細(xì)的闡述。

      圖1 BERT-AE文本特征提取模型Fig.1 BERT-AE text feature extraction model

      (2)BERT模型

      BERT 模型采用了雙向Transformer 的Encoder 結(jié)構(gòu),并舍棄了Decoder 模塊,但模型結(jié)構(gòu)比Transformer更深,這樣便自動(dòng)擁有了雙向編碼能力和強(qiáng)大的特征提取能力。其結(jié)構(gòu)如圖2所示。

      圖2 BERT模型結(jié)構(gòu)Fig.2 BERT model structure

      BERT一大優(yōu)點(diǎn)就是它是一個(gè)泛化能力較強(qiáng)的預(yù)訓(xùn)練模型。其訓(xùn)練主要由兩個(gè)階段構(gòu)成:第一階段為預(yù)訓(xùn)練階段,第二階段為Fine-tuning階段。預(yù)訓(xùn)練階段是在大型數(shù)據(jù)集上根據(jù)一些預(yù)訓(xùn)練任務(wù)訓(xùn)練得到。Fine-tuning階段是利用預(yù)訓(xùn)練好的語言模型,處理具體的下游文本任務(wù),包括命名實(shí)體識(shí)別、文本分類等。BERT的第一個(gè)預(yù)訓(xùn)練任務(wù)是Masked LM,其主要目的是讓模型更為全面地根據(jù)全文理解單詞的意思。BERT的第二個(gè)預(yù)訓(xùn)練任務(wù)是NSP(next sentence prediction),其主要目的是讓模型能夠更好地理解句子間的關(guān)系。本研究關(guān)注的是利用預(yù)訓(xùn)練階段的BERT 模型進(jìn)行中文文本特征提取任務(wù)。在Vaswani 等[20]的論文中,研究者訓(xùn)練了兩個(gè)BERT模型,分別是BERTbase與BERTlarget,二者的區(qū)別在于參數(shù)量的不同,BERT 發(fā)展至今已經(jīng)增加了多個(gè)模型,本文使用了其中的中文預(yù)訓(xùn)練模型,這也是唯一一個(gè)非英語的模型。

      (3)自編碼器

      自編碼器(AE)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3 所示,它由輸入層、隱藏層和輸出層組成,主要包括了編碼(Encoder)和解碼(Decoder)兩部分。自編碼器試圖學(xué)習(xí)隱藏層中輸入數(shù)據(jù)的某種表示形式以重構(gòu)輸出層中的輸入,因此它的輸出與輸入基本相同,是一種盡可能重現(xiàn)輸入信號(hào)的神經(jīng)網(wǎng)絡(luò)。此外,自編碼器不需要用于學(xué)習(xí)特征的標(biāo)簽,以無監(jiān)督的方式廣泛用于特征提取,并且自編碼器可以通過編碼操作將高維度的輸入數(shù)據(jù)映射到低維度的特征編碼,達(dá)到降低數(shù)據(jù)維度的目的。

      圖3 自編碼器結(jié)構(gòu)Fig.3 AutoEncoder structure

      如圖3 所示,從輸入層到隱藏層對(duì)應(yīng)著編碼功能,它將輸入x映射到潛在表示空間h,其形式為:

      其中,f是非線性激活函數(shù),通常是Relu,W和b分別為編碼器的權(quán)重和偏置。

      其中,g是解碼器的激活函數(shù),W′是權(quán)重矩陣,b′是偏置矢量。

      為了使解碼重構(gòu)后的與輸入x一致,相應(yīng)的損失函數(shù)為:

      2.2.2 BERT-AE模型提取文本特征

      本文財(cái)務(wù)文本特征提取步驟包括以下四部分,如圖4所示。

      圖4 BERT-AE文本特征提取流程Fig.4 BERT-AE text feature extraction process

      (1)刪除字母、數(shù)字、漢字以外的所有符號(hào)。

      (2)利用jieba庫(kù)對(duì)文本進(jìn)行分詞,然后使用詞頻-逆文檔頻度(term frequency-inverse document frequency,TF-IDF)算法提取反映公司經(jīng)營(yíng)情況的關(guān)鍵詞。因?yàn)锽ERT 的最大輸入的編碼向量長(zhǎng)度為512,分詞以后的詞語較多,所以提取關(guān)鍵詞的長(zhǎng)度應(yīng)控制在512范圍內(nèi)。

      (3)使用中文預(yù)訓(xùn)練BERT模型將提取過后的所有文本信息進(jìn)行編碼,將得到的句子編碼和位置編碼一起作為特征輸入到BERT的雙向Transformer中,最終得到字向量序列S。將Si(Si是S中第i個(gè)向量輸出表示)作為全連接層的輸入,對(duì)文本信息進(jìn)行提取,最終得到一個(gè)多維文本特征。

      (4)為了解決上文提到的文本特征維度過高會(huì)引發(fā)的問題,本文使用自編碼器(AE)對(duì)文本特征進(jìn)行降維得到最終特征。

      關(guān)鍵詞提取就是從財(cái)務(wù)文本里面把跟這篇文本意義最相關(guān)的一些詞抽取出來,提取出這篇文本的關(guān)鍵詞,就可以大致了解文本要表達(dá)的意思。在步驟(2)中,本文使用基于統(tǒng)計(jì)的關(guān)鍵詞提取方法中最常用的詞頻-逆文檔頻率(TF-IDF)算法對(duì)關(guān)鍵詞進(jìn)行提取,TF-IDF算法可以評(píng)估某個(gè)詞語對(duì)于一個(gè)語料庫(kù)中的某一段文本的重要程度。其中,詞頻(TF)表示某個(gè)詞在給定文本中出現(xiàn)的頻率,其表達(dá)式為:

      其中,Mp,q為詞p在文檔q中出現(xiàn)的次數(shù),Mq為文檔q的總詞數(shù)。某個(gè)詞的TF值越大,說明這個(gè)詞在文檔中出現(xiàn)的次數(shù)越多。但并不是一個(gè)詞出現(xiàn)次數(shù)越多越重要,有一些詞在所有文本中出現(xiàn)的頻率很高,如停用詞,這類詞對(duì)某一文本的代表性很差,對(duì)于此,引入逆文檔頻率(IDF)對(duì)每個(gè)詞分配一個(gè)“重要性”權(quán)重,IDF 表達(dá)式為:

      其中,N為所有的文檔總數(shù)表示包含某個(gè)關(guān)鍵詞的文檔個(gè)數(shù)。

      將TF 和IDF 綜合考慮后,便可得到某一個(gè)詞在某個(gè)文檔中的表征性,TF-IDF定義如下:

      TF-IDF算法兼顧詞頻與新鮮度,過濾一些常見詞,保留能提供更多關(guān)于公司經(jīng)營(yíng)情況的重要詞。本文參照Fan等[25]的做法,對(duì)提取的關(guān)鍵詞進(jìn)行詞頻統(tǒng)計(jì),以驗(yàn)證提取出的關(guān)鍵詞能夠反映公司的經(jīng)營(yíng)情況。圖5 中(a)和(b)分別為提取的被ST公司和正常經(jīng)營(yíng)公司的詞云統(tǒng)計(jì)圖,每個(gè)詞語在圖中的字體大小與它在模型中出現(xiàn)的頻率成正比。表2為提取的被ST公司和正常經(jīng)營(yíng)公司的出現(xiàn)頻率排名前10的關(guān)鍵詞。

      表2 出現(xiàn)頻率排名前10關(guān)鍵詞Table 2 Top 10 keywords in terms of occurrence frequency

      圖5 關(guān)鍵詞詞云Fig.5 Keyword WordCloud

      從圖5及表2可以看出,在被ST公司文本數(shù)據(jù)提取出的頻率排名前10 的關(guān)鍵詞中,出現(xiàn)了虧損、減少、下降等能反映公司出現(xiàn)問題的詞語,而正常經(jīng)營(yíng)的公司則出現(xiàn)了實(shí)現(xiàn)、增長(zhǎng)、提升等能反映公司狀況良好的關(guān)鍵詞,這些關(guān)鍵詞能在一定程度上反映公司的經(jīng)營(yíng)情況。

      在步驟(3)、(4)中,文本特征維度的選取對(duì)實(shí)驗(yàn)效果至關(guān)重要。首先,本文使用BERT提取不同維度的文本特征,再通過自編碼器將不同維度的特征進(jìn)行降維,同樣的,降維時(shí)也選取了幾個(gè)不同維度,兩個(gè)步驟設(shè)置的文本特征維度如下:D1∈{32,64,128,256},D2∈{1,3,5,7}。經(jīng)過多次實(shí)驗(yàn)比較,最終將D1設(shè)置為64,D2設(shè)置為1。

      進(jìn)行上述4個(gè)步驟的操作后,便可將財(cái)務(wù)文本數(shù)據(jù)轉(zhuǎn)化為富含語義的財(cái)務(wù)文本特征。以第一條文本為例,第一條文本為一家被ST 公司的財(cái)務(wù)文本數(shù)據(jù),提取了“調(diào)整”“虧損”“利潤(rùn)”“下降”等能夠反映公司經(jīng)營(yíng)情況的關(guān)鍵詞后,經(jīng)過BERT-AE 模型便能提取出代表其語義的文本特征數(shù)據(jù)。提取出的文本特征數(shù)據(jù)結(jié)構(gòu)如圖6所示,提取的第一條財(cái)務(wù)文本特征數(shù)值為0.678 4。所有文本特征數(shù)據(jù)的取值在-1和1之間。

      圖6 文本特征數(shù)據(jù)結(jié)構(gòu)示例圖Fig.6 Example of text feature data structure

      2.3 數(shù)據(jù)標(biāo)準(zhǔn)化

      將提取出的財(cái)務(wù)文本數(shù)據(jù)與財(cái)務(wù)指標(biāo)相結(jié)合后,為更好了解特征變量分布情況,對(duì)特征變量進(jìn)行描述性統(tǒng)計(jì)分析,如表3所示。

      表3 特征變量描述性統(tǒng)計(jì)分析Table 3 Descriptive statistical analysis of characteristic variables

      從表3 中可以看出,利息保障倍數(shù)、應(yīng)收賬款周轉(zhuǎn)率、存貨周轉(zhuǎn)率、股東權(quán)益周轉(zhuǎn)率、凈利潤(rùn)增長(zhǎng)率、凈利潤(rùn)現(xiàn)金凈含量、現(xiàn)金適合比率、營(yíng)業(yè)利潤(rùn)現(xiàn)金凈含量等指標(biāo)數(shù)據(jù)差值較大,為了提高模型擬合速度和擬合精度需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。Z-score標(biāo)準(zhǔn)化可以將不同量級(jí)的數(shù)據(jù)統(tǒng)一化為同一個(gè)量級(jí),使數(shù)據(jù)的均值為0,方差為1,保證了數(shù)據(jù)間的可比性,其計(jì)算公式如下。

      其中,z值代表原始數(shù)據(jù)與原始數(shù)據(jù)平均值之間的距離,x為某一具體原始數(shù)據(jù),μ為原始數(shù)據(jù)的均值,σ為原始數(shù)據(jù)的標(biāo)準(zhǔn)差。

      2.4 財(cái)務(wù)預(yù)警模型構(gòu)建

      本文首先基于財(cái)務(wù)數(shù)據(jù)指標(biāo)構(gòu)建了Logistic 回歸、XGBoost、人工神經(jīng)網(wǎng)絡(luò)(ANN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)四個(gè)財(cái)務(wù)預(yù)警模型。然后分別將BERT-AE融合模型提取出的兩個(gè)文本段特征以及兩個(gè)文本段特征一起加入財(cái)務(wù)指標(biāo)中,作為財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)模型的輸入數(shù)據(jù)。下面分別對(duì)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型進(jìn)行介紹。

      2.4.1 Logistic回歸模型

      Logistic 回歸以線性回歸作為理論支持,它可以將回歸的結(jié)果通過sigmoid 函數(shù)映射到0 和1 之間,因?yàn)長(zhǎng)ogistic回歸具有容易實(shí)現(xiàn)、訓(xùn)練高效的特點(diǎn),被廣泛運(yùn)用于兩類分類任務(wù)中,其模型為:

      其中,pxi表示事件發(fā)生的概率,Xi表示解釋變量。

      2.4.2 XGBoost

      XGBoost是一種基于梯度提升樹的集成算法,它通過在數(shù)據(jù)上引入正則化損失函數(shù)構(gòu)建若干個(gè)弱評(píng)估器,并把這些準(zhǔn)確率較低的弱分類器整合為一個(gè)準(zhǔn)確率較高的強(qiáng)分類器,不僅降低了模型過擬合的風(fēng)險(xiǎn),還使得其分類表現(xiàn)比單個(gè)模型更好。由于XGBoost 使用了預(yù)排序、加權(quán)分位數(shù)、稀疏矩陣識(shí)別以及緩存識(shí)別等技術(shù),故其擁有可以并行運(yùn)算、算法的復(fù)雜度可控、泛化能力強(qiáng)的優(yōu)點(diǎn),其目標(biāo)函數(shù)如下所示:

      其中,l代表損失函數(shù),yi表示第i個(gè)樣本xi的真實(shí)值,表示第i個(gè)樣本xi的預(yù)測(cè)值,fk表示第k棵樹的預(yù)測(cè)函數(shù)。

      2.4.3 ANN

      人工神經(jīng)網(wǎng)絡(luò)(ANN)是由大量神經(jīng)元組成的信息響應(yīng)網(wǎng)絡(luò)拓?fù)?,通常一個(gè)神經(jīng)網(wǎng)絡(luò)由一個(gè)輸入層、多個(gè)隱藏層和一個(gè)輸出層構(gòu)成,如圖7所示。

      圖7 人工神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Artificial neural network structure

      Ji表示ANN神經(jīng)元的輸出,其計(jì)算過程可表示為:

      其中,wi表示第i個(gè)神經(jīng)元的權(quán)重,xi表示第i個(gè)神經(jīng)元的輸入。

      2.4.4 CNN

      卷積神經(jīng)網(wǎng)絡(luò)與一般神經(jīng)網(wǎng)絡(luò)不同之處在于其基本結(jié)構(gòu)由卷積層、池化層、全連接層堆疊而成,它的結(jié)構(gòu)如圖8所示。

      圖8 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Convolutional neural network structure

      卷積神經(jīng)網(wǎng)絡(luò)輸入層讀入規(guī)則化的圖像后,每一層的每個(gè)神經(jīng)元會(huì)抽取一些基本的視覺特征,并通過卷積操作獲得特征圖。卷積層后面連接池化層對(duì)卷積結(jié)果進(jìn)行降采樣操作,在減少數(shù)據(jù)量的同時(shí)保留有用的信息。卷積層和池化層通常會(huì)交替使用以便獲取更多有用的特征圖,然后將特征圖傳輸?shù)饺B接前饋網(wǎng)絡(luò)層,實(shí)現(xiàn)對(duì)提取特征的分類識(shí)別。

      2.5 對(duì)比實(shí)驗(yàn)

      采用了Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型提取的文本特征作為對(duì)比:

      (1)Word2Vec-CNN-AE文本特征提取模型:模型以Word2Vec 訓(xùn)練詞向量,把詞向量輸入到CNN 中,CNN通過卷積核提取每條數(shù)據(jù)中詞語的信息,然后通過池化層和全連接層對(duì)文本特征進(jìn)一步提取,最后通過AE 對(duì)文本特征進(jìn)行降維。

      (2)Word2Vec-LSTM-AE 文本特征提取模型:模型以Word2Vec 訓(xùn)練詞向量,然后以LSTM 模型對(duì)文本數(shù)據(jù)再次進(jìn)行特征提取,之后通過AE 對(duì)提取出來的文本特征進(jìn)行降維。

      將Word2Vec-CNN-AE 和Word2Vec-LSTM-AE 模型提取的財(cái)務(wù)文本特征分別與財(cái)務(wù)指標(biāo)結(jié)合,驗(yàn)證提取出的文本特征對(duì)財(cái)務(wù)預(yù)警模型的預(yù)測(cè)精度的貢獻(xiàn)率,并與BERT-AE模型提取的文本特征對(duì)財(cái)務(wù)預(yù)警模型的預(yù)測(cè)精度的貢獻(xiàn)率做對(duì)比。

      2.6 模型超參數(shù)調(diào)節(jié)

      模型的超參數(shù)設(shè)置能夠影響其預(yù)測(cè)精度及泛化能力,應(yīng)根據(jù)不同模型的特點(diǎn)對(duì)其參數(shù)進(jìn)行調(diào)節(jié),找出最優(yōu)的參數(shù)組合,進(jìn)而得到最優(yōu)預(yù)測(cè)結(jié)果。

      對(duì)于Logistic 回歸模型,本文設(shè)置的參數(shù)為學(xué)習(xí)率和最大迭代次數(shù)。因?yàn)長(zhǎng)ogistic回歸利用最小二乘法求解,容易出現(xiàn)過擬合問題,所以本文引入了L1 與L2 正則化對(duì)最小二乘法進(jìn)行優(yōu)化,提高分類器的預(yù)測(cè)精度。對(duì)于XGBoost 模型,本文設(shè)置的超參數(shù)為弱學(xué)習(xí)器個(gè)數(shù)、正則化參數(shù)、學(xué)習(xí)率和樹的最大深度。對(duì)于ANN模型,本文設(shè)置的超參數(shù)為隱層節(jié)點(diǎn)數(shù)、優(yōu)化器、批大小和epoch。對(duì)于CNN模型,本文設(shè)置的超參數(shù)為隱層節(jié)點(diǎn)數(shù)、卷積核個(gè)數(shù)、優(yōu)化器、批大小和epoch。各模型備選參數(shù)如表4所示。

      表4 模型備選參數(shù)Table 4 Model candidate parameters

      對(duì)于Logistic 回歸與XGBoost,本文使用了網(wǎng)格調(diào)參法對(duì)加入文本特征前后模型的所有參數(shù)進(jìn)行了調(diào)節(jié),確定所有參數(shù)的最優(yōu)組合。對(duì)于ANN 與CNN,先保持其他參數(shù)不變,對(duì)其中一個(gè)參數(shù)運(yùn)用網(wǎng)格調(diào)參法進(jìn)行參數(shù)調(diào)節(jié),依次確定模型的最優(yōu)參數(shù)。

      2.7 模型評(píng)價(jià)指標(biāo)

      2.7.1 真正例率和假正例率

      本文采用AUC 指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià),并繪制出模型的ROC曲線。在介紹ROC與AUC之前,先介紹真正例率(TPR)和假正例率(FPR)的概念。

      在一個(gè)二分類問題中,可以根據(jù)真樣本數(shù)據(jù)真實(shí)所屬類別與模型結(jié)果組合分為真正例(TP)、假反例(FN)、假正例(FP)、真反例(TN)四種情況。令TP、FN、FP、TN分別表示其對(duì)應(yīng)的樣例數(shù),可得到如表5的混淆矩陣。

      表5 混淆矩陣Table 5 Confusion matrix

      有了混淆矩陣之后,可以定義真正例率(TPR)和假正例率(FPR)為:

      2.7.2 ROC曲線和AUC值

      ROC的全稱是Receiver Operating Characteristic曲線,其以FPR 為橫軸,TPR 為縱軸繪制而出。模型預(yù)測(cè)性能的好壞可以通過ROC 曲線表現(xiàn)出來,它越靠近左上角,表明模型的性能越好。如果有A模型和B模型,A模型的ROC 曲線能完全“包住”B 模型的ROC 曲線,則可斷言A 模型比B 模型擁有更好的泛化能力。但是兩個(gè)模型的ROC 往往是相交的,這時(shí)為了比較兩個(gè)模型的性能就需要用到AUC。AUC 的全稱是Area Under Curve,是ROC曲線和x軸(FPR軸)之間的面積。因?yàn)锳UC 綜合考慮了分類器對(duì)正樣本和負(fù)樣本的分類能力,所以當(dāng)樣本數(shù)據(jù)不平衡時(shí),分類器仍然能夠做出合理的評(píng)價(jià)。

      3 實(shí)證結(jié)果與分析

      本文將531個(gè)樣本按7∶3的比例劃分訓(xùn)練集和測(cè)試集,用訓(xùn)練集訓(xùn)練模型,最后在測(cè)試集上對(duì)模型進(jìn)行驗(yàn)證評(píng)估。本文首先使用了上市公司的財(cái)務(wù)指標(biāo)數(shù)據(jù)作為模型輸入變量對(duì)財(cái)務(wù)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè),然后在財(cái)務(wù)指標(biāo)數(shù)據(jù)中加入BERT-AE 提取的財(cái)務(wù)文本特征,并將加入文本特征后的實(shí)驗(yàn)數(shù)據(jù)分為三組,分別放入模型之中進(jìn)行財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)。第一組為加入“經(jīng)營(yíng)情況討論與分析”文本特征的數(shù)據(jù)(F1),第二組為加入“審計(jì)報(bào)告”文本特征的數(shù)據(jù)(F2),第三組為加入兩個(gè)文本特征的數(shù)據(jù)(F1+F2),每組原始數(shù)據(jù)均為上述財(cái)務(wù)指標(biāo)數(shù)據(jù)。同樣的,對(duì)比實(shí)驗(yàn)也將進(jìn)行上述的實(shí)驗(yàn)流程。

      3.1 特征重要性分析

      為了分析文本特征對(duì)財(cái)務(wù)預(yù)警模型的預(yù)測(cè)精度是否會(huì)產(chǎn)生影響,本文以BERT-AE 提取的財(cái)務(wù)文本特征為例,使用XGBoost模型對(duì)加入文本特征前后的數(shù)據(jù)指標(biāo)進(jìn)行特征重要性分析,并作出XGBoost模型的特征重要度排序圖,如圖9 所示。其中,(I)為基于財(cái)務(wù)指標(biāo)數(shù)據(jù)的特征重要度排序圖,(II)為加入“經(jīng)營(yíng)情況討論與分析”文本特征(F1)的特征重要度排序圖,(III)為加入“審計(jì)報(bào)告”文本特征(F2)的特征重要度排序圖,(IV)為加入兩個(gè)文本特征(F1+F2)的特征重要度排序圖。

      圖9 XGBoost模型的特征重要度排序Fig.9 Feature importance ranking of XGBoost model

      從(II)、(III)、(IV)中可以看出,在包含“F1”的26個(gè)特征變量中,“F1”對(duì)預(yù)測(cè)結(jié)果的重要性位列第14;在包含“F2”的26 個(gè)特征變量中,“F2”對(duì)預(yù)測(cè)結(jié)果的重要性排名第3;在包含“F1”和“F2”的27 個(gè)特征變量中,“F1”與“F2”對(duì)預(yù)測(cè)結(jié)果的重要性排名分別為第4 和第15。以上結(jié)果表明本文提取的文本特征能夠?qū)ω?cái)務(wù)預(yù)警模型的預(yù)測(cè)精度產(chǎn)生影響。

      3.2 財(cái)務(wù)預(yù)警模型實(shí)驗(yàn)結(jié)果分析

      為了進(jìn)一步分析文本特征對(duì)財(cái)務(wù)預(yù)警模型預(yù)測(cè)精度的影響,本文基于財(cái)務(wù)指標(biāo)數(shù)據(jù),將加入文本特征前后財(cái)務(wù)預(yù)警模型預(yù)測(cè)的AUC 值進(jìn)行比較。得到的3 個(gè)實(shí)驗(yàn)具體的AUC值如表6所示,ROC曲線如圖10所示。

      圖10 加入財(cái)務(wù)文本特征前后財(cái)務(wù)預(yù)警模型的ROC曲線Fig.10 ROC curves of financial early warning model before and after adding financial text features

      表6 加入文本特征前后財(cái)務(wù)預(yù)警模型的AUC值Table 6 AUC value of financial early warning model before and after adding text features

      3.2.1 基于財(cái)務(wù)指標(biāo)數(shù)據(jù)預(yù)警模型結(jié)果與分析

      通過將只放入財(cái)務(wù)指標(biāo)數(shù)據(jù)的4 個(gè)預(yù)警模型在測(cè)試集上預(yù)測(cè)結(jié)果進(jìn)行對(duì)比發(fā)現(xiàn),Logistic 回歸模型得到的AUC 值最低,為0.829 4。在兩種深度學(xué)習(xí)模型中,ANN模型得到的AUC值優(yōu)于CNN模型,為0.851 1。而XGBoost模型表現(xiàn)優(yōu)于兩個(gè)深度學(xué)習(xí)模型和Logistic回歸模型,得到了最高的AUC值。

      在基于財(cái)務(wù)指標(biāo)的預(yù)警模型中可以發(fā)現(xiàn),相對(duì)于深度學(xué)習(xí)模型而言,傳統(tǒng)機(jī)器學(xué)習(xí)算法XGBoost模型預(yù)測(cè)效果更好,原因可能是在樣本較少的情況下,傳統(tǒng)的機(jī)器學(xué)習(xí)算法預(yù)測(cè)性能更優(yōu)。在大量的標(biāo)注訓(xùn)練數(shù)據(jù)下,

      深度學(xué)習(xí)模型才能取到較好擬合效果,正如宋歌等[9]使用深度學(xué)習(xí)網(wǎng)絡(luò)構(gòu)建預(yù)警模型時(shí)發(fā)現(xiàn),財(cái)務(wù)數(shù)據(jù)樣本越多,模型預(yù)測(cè)準(zhǔn)確率越高。

      3.2.2 基于財(cái)務(wù)數(shù)據(jù)與財(cái)務(wù)文本預(yù)警模型結(jié)果與分析

      由表6可以看出,BERT-AE模型提取的財(cái)務(wù)文本特征對(duì)4 個(gè)財(cái)務(wù)風(fēng)險(xiǎn)預(yù)警模型預(yù)測(cè)精度的貢獻(xiàn)度大于Word2Vec-CNN-AE和Word2Vec-LSTM-AE模型提取的文本特征的貢獻(xiàn)度。在4個(gè)財(cái)務(wù)預(yù)警模型中加入BERTAE模型提取的財(cái)務(wù)文本特征后,預(yù)測(cè)的AUC值提升最高,且4個(gè)財(cái)務(wù)預(yù)警模型的AUC提升值均大于1個(gè)百分點(diǎn),其中CNN 的AUC 值提升均達(dá)到最大,分別為3.64個(gè)百分點(diǎn)、3.35個(gè)百分點(diǎn)和3.93個(gè)百分點(diǎn)。在BERT-AE模型提取的財(cái)務(wù)文本特征后加入財(cái)務(wù)指標(biāo)的實(shí)驗(yàn)中,XGBoost 模型仍得到最高的AUC 值,分別為0.895 0、0.893 6和0.896 1,由此可見,使用BERT-AE模型提取的財(cái)務(wù)文本特征作為輸入變量的XGBoost 模型具有更優(yōu)的預(yù)測(cè)性能。

      綜上所述,在三組對(duì)比實(shí)驗(yàn)中,加入BERT-AE模型提取的財(cái)務(wù)文本特征后,預(yù)警模型的性能得到最好的增強(qiáng)。這表明使用BERT-AE融合模型能從公司年報(bào)中提取出有用的文本特征,將此特征用于公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)模型中能夠顯著提高模型的預(yù)測(cè)精度。

      3.3 加入文本特征后模型提升效果的橫向?qū)Ρ?/h3>

      在Matin等[3]的研究中,其使用CNN-RNN(用NN表示)構(gòu)建神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)財(cái)務(wù)風(fēng)險(xiǎn),然后將提取出來的審計(jì)報(bào)告文本特征、管理層聲名文本特征以及兩種文本特征與財(cái)務(wù)指標(biāo)結(jié)合,分析文本特征是否會(huì)提升模型預(yù)測(cè)精度,最后結(jié)果如表7所示。表中,NN指無文本的神經(jīng)網(wǎng)絡(luò),NNaud指帶有審計(jì)報(bào)告文本特征的神經(jīng)網(wǎng)絡(luò),NNman指帶有管理層聲名文本特征的神經(jīng)網(wǎng)絡(luò),NNaud+man指帶有審計(jì)報(bào)告和管理層聲名文本特征的神經(jīng)網(wǎng)絡(luò)。

      表7 Matin等人財(cái)務(wù)預(yù)警模型實(shí)證結(jié)果Table 7 Empirical results of Matin et al’s financial early warning model

      從表7中可以看出,NNaud、NNman、NNaud+man的AUC值提高了1.9 個(gè)百分點(diǎn)、1.1 個(gè)百分點(diǎn)和1.8 個(gè)百分點(diǎn)。而本文的CNN 模型加入BERT-AE 提取的三種文本特征后AUC 值的提升分別為3.64 個(gè)百分點(diǎn)、3.35 個(gè)百分點(diǎn)和3.93個(gè)百分點(diǎn),再次表明本文構(gòu)造的BERT-AE融合模型能更為有效地提取財(cái)務(wù)文本特征用于財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)。

      4 結(jié)論與啟示

      本文在已有研究的基礎(chǔ)上對(duì)文本信息的提取進(jìn)行了方法上的創(chuàng)新,使用BERT網(wǎng)絡(luò)提取上市公司年報(bào)中“經(jīng)營(yíng)情況討論與分析”和“審計(jì)報(bào)告”的文本特征,并利用AE 網(wǎng)絡(luò)對(duì)提取出的文本特征進(jìn)行降維處理,最后將AE網(wǎng)絡(luò)輸出的結(jié)果加入財(cái)務(wù)數(shù)據(jù)之中對(duì)上市公司財(cái)務(wù)風(fēng)險(xiǎn)進(jìn)行預(yù)測(cè)。研究結(jié)果顯示,相較于沒有引入文本特征的財(cái)務(wù)預(yù)警模型,帶有“經(jīng)營(yíng)情況討論與分析”“審計(jì)報(bào)告”以及兩種文本特征模型的AUC 值均有不同程度的提升,其中帶有兩種文本特征的CNN模型將AUC值提高了3.93個(gè)百分點(diǎn),且?guī)в小敖?jīng)營(yíng)情況討論與分析”的模型比帶有“審計(jì)報(bào)告”的模型擁有更高的預(yù)測(cè)精度,說明“經(jīng)營(yíng)情況討論與分析”比“審計(jì)報(bào)告”提供的信息更多。此外,通過對(duì)比實(shí)驗(yàn)和與其他學(xué)者的研究相比較,本文使用BERT-AE模型提取的財(cái)務(wù)文本特征使得財(cái)務(wù)預(yù)警模型提升效果表現(xiàn)更優(yōu),表明本文構(gòu)造的BERTAE融合模型能更為有效地提取財(cái)務(wù)文本特征用于財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)。

      在今后的工作中,可以引入更多的文本變量,如公司年報(bào)中其他章節(jié)的內(nèi)容、公司研報(bào)、財(cái)經(jīng)新聞、投資者評(píng)論等,更好地分析不同文本內(nèi)容對(duì)上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)的影響,提升模型的預(yù)測(cè)精度。此外,本文的研究方法不僅能夠在上市公司財(cái)務(wù)風(fēng)險(xiǎn)預(yù)測(cè)中得到更好的運(yùn)用,也可將其運(yùn)用于其他研究領(lǐng)域,如股價(jià)預(yù)測(cè)、信用反欺詐等之中。

      猜你喜歡
      財(cái)務(wù)指標(biāo)特征提取預(yù)警
      法國(guó)發(fā)布高溫預(yù)警 嚴(yán)陣以待備戰(zhàn)“史上最熱周”
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      我國(guó)金融機(jī)構(gòu)股價(jià)和主要財(cái)務(wù)指標(biāo)的相關(guān)性分析
      園林有害生物預(yù)警與可持續(xù)控制
      全國(guó)國(guó)有企業(yè)主要財(cái)務(wù)指標(biāo)
      Bagging RCSP腦電特征提取算法
      全國(guó)國(guó)有企業(yè)主要財(cái)務(wù)指標(biāo)
      機(jī)載預(yù)警雷達(dá)對(duì)IFF 的干擾分析
      榮豐控股財(cái)務(wù)指標(biāo)分析
      基于MED和循環(huán)域解調(diào)的多故障特征提取
      明星| 荆门市| 孟村| 申扎县| 扬中市| 汤原县| 启东市| 临澧县| 阳城县| 无棣县| 邵东县| 融水| 台前县| 宝山区| 凤山县| 临汾市| 盐城市| 肇东市| 应用必备| 渭源县| 抚松县| 平南县| 筠连县| 宁国市| 牡丹江市| 六枝特区| 贡山| 丹棱县| 华池县| 衡水市| 惠州市| 磐安县| 建水县| 贺兰县| 肇庆市| 华池县| 满洲里市| 崇仁县| 阳春市| 西宁市| 阳泉市|