陳璐CHEN Lu
(對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院,北京 100020)
年度報(bào)告,是公司每年度向大眾披露該公司經(jīng)營(yíng)狀況的一項(xiàng)報(bào)告,該報(bào)告涵蓋較多的內(nèi)容,包括該年度的主營(yíng)業(yè)務(wù),公司的負(fù)債情況等重要經(jīng)濟(jì)指標(biāo)。年報(bào)多數(shù)時(shí)候會(huì)成為投資者對(duì)未來(lái)預(yù)期以及投資選擇的一項(xiàng)重要依據(jù),同時(shí)也是國(guó)家證監(jiān)會(huì)為打擊舞弊行為重點(diǎn)查處的內(nèi)容。有效地識(shí)別年報(bào)舞弊行為,一方面可以規(guī)范整個(gè)股票市場(chǎng),另一方面也能讓股民選擇一家誠(chéng)信的公司投資。因此針對(duì)上市公司年報(bào)的研究成為經(jīng)濟(jì)學(xué)科、計(jì)算機(jī)文本數(shù)據(jù)挖掘方面的熱點(diǎn)。例如研究年報(bào)信息披露的特點(diǎn),通過(guò)年報(bào)判斷公司類型進(jìn)而計(jì)算公司的競(jìng)爭(zhēng)力。
本文在結(jié)合了傳統(tǒng)的文本分類系統(tǒng)以及對(duì)年報(bào)信息的研究,實(shí)現(xiàn)對(duì)年報(bào)信息的合理分類,進(jìn)而識(shí)別出年報(bào)的舞弊行為。本文的第二部分介紹了目前國(guó)內(nèi)外針對(duì)年報(bào)以及文本處理的相關(guān)研究;第三部分主要介紹了本系統(tǒng)的核心模型和數(shù)據(jù);第四部分主要介紹本系統(tǒng)的實(shí)驗(yàn)設(shè)計(jì);第五部分是對(duì)本次實(shí)驗(yàn)結(jié)果的分析;最后是對(duì)整個(gè)系統(tǒng)的不足之處的闡述與分析以及對(duì)未來(lái)工作的展望。
國(guó)外針對(duì)文本信息處理發(fā)展的較早,Verrecchia(2001)[1]在關(guān)于信息披露的文獻(xiàn)綜述中將現(xiàn)有的公司信息披露理論劃分為三大類,即聯(lián)系性披露(association-based disclosure),選擇性披露(discretionary-based disclosure)和基于效率的披露(efficiency-based disclosure)。系統(tǒng)地闡述了上市公司在年報(bào)的信息披露過(guò)程中是存在一些策略的,因此可能在披露的內(nèi)容上,有一定的規(guī)律可循。Gerard Hoberg 和Craig Lewis(2013)[2]詳細(xì)研究了上市公司年報(bào)信息披露的羊群現(xiàn)象以及局部反羊群現(xiàn)象。同時(shí)關(guān)于文本類數(shù)據(jù)的自動(dòng)化分類工作,國(guó)內(nèi)也存在較多研究,基于SVM 模型的文本分類判別的研究[3][4];楊麗華[5]等針對(duì)KNN模型進(jìn)行了文本分類任務(wù)的研究,詳細(xì)介紹了KNN 模型的算法原理和實(shí)現(xiàn)機(jī)制;王[6]等基于機(jī)器學(xué)習(xí)方法進(jìn)行了各類文本分類任務(wù)進(jìn)行了相關(guān)研究工作。
以上各類研究或涉及對(duì)上市公司年報(bào)披露特點(diǎn)的研究分析,或利用文本數(shù)據(jù)挖掘模型對(duì)各類文本進(jìn)行分類研究,目前沒(méi)有完整地基于文本數(shù)據(jù)挖掘方法的上市公司年報(bào)舞弊行為的識(shí)別研究。
本文采用向量空間模型(VSM)作為文本表示途徑,首先將文本進(jìn)行中文分詞,本文采用IKAnalyze 分詞器進(jìn)行中文分詞,提取特征并計(jì)算特征項(xiàng)的權(quán)值,將文本表示成一個(gè)空間向量,便于對(duì)文本進(jìn)行相應(yīng)的操作。
本系統(tǒng)所涉及的所有語(yǔ)料通過(guò)爬蟲(chóng)[7]技術(shù)進(jìn)行收集整理,所有的年報(bào)文檔均以文本格式存儲(chǔ)。資料來(lái)源是證監(jiān)會(huì)官方網(wǎng)站(http: //www.csrc.gov.cn)和聚潮資訊網(wǎng)(http://www.cninfo.com.cn)。證監(jiān)會(huì)網(wǎng)站會(huì)及時(shí)的公布涉嫌年報(bào)舞弊的上市公司的處決書(shū),以此獲取年報(bào)舞弊的公司名單。在聚潮資訊網(wǎng)上可以下載任何上市公司的年報(bào)信息,因此根據(jù)證監(jiān)會(huì)處罰公告的內(nèi)容,實(shí)現(xiàn)對(duì)舞弊公司舞弊年報(bào)的精確定位,從而獲得舞弊的年報(bào)以及非舞弊的年報(bào)。最終選取2012 年~2018 年公告內(nèi)容中獲取正負(fù)類樣本各200,為了消除噪音和平衡樣本數(shù)量,最終篩選其中194 個(gè)作為訓(xùn)練數(shù)據(jù)。
本次設(shè)計(jì)的特征詞典主要來(lái)源于三部分,第一部分是通過(guò)CHI 卡方分布統(tǒng)計(jì)訓(xùn)練語(yǔ)料的分類關(guān)鍵字,第二部分是通過(guò)LDA 主題模型提取訓(xùn)練語(yǔ)料主題關(guān)鍵字,第三部分是經(jīng)濟(jì)學(xué)角度獲取的專業(yè)詞匯。
第一部分是通過(guò)對(duì)年報(bào)數(shù)據(jù)本身的挖掘,首先對(duì)文本進(jìn)行分詞,再使用卡方統(tǒng)計(jì)量計(jì)算詞ti與年報(bào)類別C=(c1,c2)的關(guān)聯(lián)程度。
其中,A 表示Ci類中包含ti的文檔頻率,B 表示不屬于Ci類包含ti的文檔頻率,C 表示Cj類中不包含ti的文檔頻率,D 表示不屬于Cj類也不包含ti的文檔頻率,N 表示文檔總數(shù)。以下是特征與類的關(guān)系表,如表1 所示。
表1 特征與類關(guān)系表
第二部分是通過(guò)LDA(Latent Dirichlet Allocation)主題模型[8]獲取訓(xùn)練文檔主題詞,將這些詞加入特征詞典。主題模型是一種非監(jiān)督機(jī)器學(xué)習(xí)技術(shù),可以識(shí)別大規(guī)模的文檔或語(yǔ)料中潛在的主題詞。采用了計(jì)算每個(gè)詞匯w 與文檔d 相關(guān)聯(lián)的概率P(w|d)=P(w|t)·P(t|d),主題t 作為中間層的概率公式。LDA 可以設(shè)置文檔集的主題數(shù),在實(shí)驗(yàn)中設(shè)置了兩個(gè)主題,獲取800 個(gè)待選主題詞。因?yàn)長(zhǎng)DA 相比基于詞頻的統(tǒng)計(jì)量來(lái)說(shuō),屬于更深層次的語(yǔ)義分析,因此選用LDA 主題模型來(lái)豐富本系統(tǒng)的特征選擇模型。
第三部分是通過(guò)專業(yè)人員對(duì)大規(guī)模年報(bào)進(jìn)行分析、研究,獲取的經(jīng)濟(jì)學(xué)專業(yè)的詞匯,選出與年報(bào)舞弊相關(guān)程度較高的加入特征詞典。
通過(guò)計(jì)算特征詞的TF*IDF 值獲取特征項(xiàng)的權(quán)重,從而實(shí)現(xiàn)文本向量化,構(gòu)建能夠代表文本特征的向量。
支持向量機(jī)是Vapnik V[9]提出的一個(gè)非常有效的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法,后期主要用于模式識(shí)別領(lǐng)域。支持向量機(jī)能夠很好地解決二分類,而且其分類準(zhǔn)確率和穩(wěn)定性較高。SVM 的基本思想就是通過(guò)對(duì)樣本的訓(xùn)練,在向量空間尋求一個(gè)超平面(Hyper Surface),通過(guò)參數(shù)調(diào)優(yōu),使得這個(gè)超平面能夠最大限度的將所有樣本點(diǎn)分割成兩個(gè)部分,這樣就能清晰地完成分類任務(wù)。因此支持向量機(jī)的目的就是在樣本的向量空間中找到具有最大分類精度的決策平面。
為了實(shí)現(xiàn)系統(tǒng)的容錯(cuò)性,在分類的時(shí)候允許一些點(diǎn)不能正確分類,這些點(diǎn)可能是噪音,為了消除噪音,在SVM中需要選擇合適的懲罰因子C(C 表明了某個(gè)樣本點(diǎn)的重要性)。約束條件的意義是認(rèn)為所有的點(diǎn)到超平面的距離都大于1,并且給這個(gè)硬閾值加一個(gè)松弛變量ξ,即:
K-最鄰近法[10]的思想是:當(dāng)輸入一個(gè)待測(cè)試文檔時(shí),分類器會(huì)選取該文檔相近的K 個(gè)訓(xùn)練文檔(已知其分類標(biāo)簽的文檔)來(lái)為待測(cè)文檔判別類別。把鄰近文檔和待測(cè)文檔的文本相似度作為該鄰近文檔所在類別的權(quán)重,將訓(xùn)練文檔中同屬于某個(gè)類別的權(quán)重進(jìn)行求和計(jì)算作為該類別和測(cè)試文檔的相似度。然后系統(tǒng)可以將這些相似度進(jìn)行排序,給定閾值,確定所屬類別。決策規(guī)則表示如下:
BERT[11]模型是由Google 公司提出,是一種基于預(yù)訓(xùn)練方式的語(yǔ)言模型,近年來(lái)在各項(xiàng)語(yǔ)言理解任務(wù)上取得了優(yōu)異的表現(xiàn),因此我們基于該模型設(shè)計(jì)了文檔分類的任務(wù)用于解決對(duì)年報(bào)舞弊行為的判別。該模型相對(duì)傳統(tǒng)機(jī)器學(xué)習(xí)模型具有更強(qiáng)的特征抽取能力和泛化能力,因此可以降低特征組織的難度。該模型的結(jié)構(gòu)圖如圖1。
本系統(tǒng)主要采用了傳統(tǒng)機(jī)器學(xué)習(xí)模型(SVM/KNN)和深度神經(jīng)網(wǎng)絡(luò)模型(BERT)對(duì)年報(bào)文本進(jìn)行自動(dòng)分類,進(jìn)而驗(yàn)證年報(bào)舞弊行為在文本語(yǔ)義分布的差異化。首先將收集好的文本數(shù)據(jù),依據(jù)監(jiān)管部門(mén)披露的信息進(jìn)行類別標(biāo)注。此外對(duì)文本進(jìn)行一些特殊處理,去除停用詞、標(biāo)點(diǎn)等,然后進(jìn)行分詞并獲取文本特征,計(jì)算特征權(quán)重。實(shí)現(xiàn)對(duì)文本的預(yù)處理,獲得具備文本特征的文本向量。文本向量的格式是:
<label index : value index : value……>,其中l(wèi)abel 表示該文本的類別,index 表示向量的特征,value 表示相應(yīng)的index 特征的特征值。統(tǒng)一數(shù)據(jù)格式便于分類器能夠準(zhǔn)確讀取。
SVM 分類器主要采用臺(tái)灣大學(xué)的林智仁博士開(kāi)發(fā)的Libsvm[12]工具包,實(shí)現(xiàn)對(duì)文本的快速分類。并使用Libsvm自帶的交叉驗(yàn)證進(jìn)行參數(shù)尋優(yōu),實(shí)現(xiàn)最優(yōu)的分類參數(shù),獲取最佳參數(shù)c 和最佳參數(shù)g。用最佳的訓(xùn)練參數(shù)訓(xùn)練出較高分類精度的分類模型。
KNN 分類器主要通過(guò)K-最鄰近算法,通過(guò)計(jì)算每一個(gè)測(cè)試文本向量與所有已知類別的訓(xùn)練文本向量的相似度,作為兩者的距離。篩選出距離最近的K 個(gè)向量的距離值,并計(jì)算其中每個(gè)類別的向量的距離和。距離和較小的類別作為該測(cè)試文本的類別。
BERT 分類模型將年報(bào)的核心文本以及本章上述方案中提取的文本特征作為組合信息喂入模型中,基于訓(xùn)練數(shù)據(jù)有監(jiān)督的學(xué)習(xí)判別范式,微調(diào)預(yù)訓(xùn)練模型進(jìn)而達(dá)成對(duì)新年報(bào)文本的判定。
樣本均衡角度出發(fā),從收集的樣本中分別選取194 條正負(fù)樣本作為訓(xùn)練集,35 條數(shù)據(jù)作為測(cè)試樣本,用以驗(yàn)證模型的有效性。
表2 訓(xùn)練數(shù)據(jù)分布表
不同模型我們選擇不同的特征抽取方式以適應(yīng)模型對(duì)數(shù)據(jù)的需求,SVM 主要是TFIDF/CHI 卡方等特征抽取和特征權(quán)重算法;KNN 主要基于淺層語(yǔ)義表達(dá)進(jìn)行文本向量化;BERT 主要基于年報(bào)文本以及核心詞作為模型輸入。
表3 模型特征抽取表
為探究自動(dòng)化模型識(shí)別對(duì)該任務(wù)的有效性,本文設(shè)計(jì)了三個(gè)文本分類器,用以對(duì)年報(bào)文本進(jìn)行自動(dòng)分類。以下通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的統(tǒng)計(jì),對(duì)比不同模型在該任務(wù)上的有效性,進(jìn)而探究出基于自動(dòng)化模型實(shí)現(xiàn)年報(bào)舞弊行為判別的可行性。
表4 展示了不同模型分別實(shí)現(xiàn)對(duì)年報(bào)文本舞弊行為的判別任務(wù)。
表4 模型測(cè)評(píng)結(jié)果表
從表4 結(jié)果分析可以得出一些直觀結(jié)論:
①?gòu)暮暧^視角觀測(cè)三個(gè)模型的準(zhǔn)確率來(lái)看,均能達(dá)到遠(yuǎn)高于0.5 的概率預(yù)測(cè)值,因此基于機(jī)器學(xué)習(xí)模型的思路從統(tǒng)計(jì)概率的角度來(lái)看,對(duì)年報(bào)文本舞弊行為的特征分布具有一定的發(fā)現(xiàn)性,驗(yàn)證了該方案的有效性;
②同時(shí)橫向的比較兩個(gè)機(jī)器學(xué)習(xí)模型,SVM 和KNN同屬于淺層的機(jī)器學(xué)習(xí)模型,而SVM 基于大量的手工特征(例如經(jīng)濟(jì)學(xué)/會(huì)計(jì)學(xué)專業(yè)詞匯,會(huì)計(jì)指標(biāo)等)為模型提供了大量先驗(yàn)知識(shí),提高了模型識(shí)別準(zhǔn)確率,相對(duì)于KNN的淺層模型具有更優(yōu)勝的性能表現(xiàn),驗(yàn)證了會(huì)計(jì)類特征對(duì)判別科學(xué)性的影響是正向的;
③整體模型之間對(duì)比來(lái)看,BERT 模型具有明顯的性能優(yōu)勢(shì),能夠取得最佳的實(shí)驗(yàn)精度,從模型和特征角度出發(fā),BERT 模型的輸入特征相對(duì)淺層模型更為基礎(chǔ),而該模型具有更多的預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)信息以及極強(qiáng)的語(yǔ)義抽取能力,能夠在年報(bào)文本中有效的捕捉到文本的核心信息,從而有監(jiān)督地學(xué)習(xí)到文本語(yǔ)義與年報(bào)舞弊情況之間的關(guān)聯(lián)性,進(jìn)而實(shí)現(xiàn)對(duì)未知年報(bào)文本舞弊情況的有效判別,驗(yàn)證了語(yǔ)義挖掘在年報(bào)舞弊行為識(shí)別任務(wù)上的有效性。
本文的主要任務(wù)是分析探究如何通過(guò)文本挖掘的辦法,自動(dòng)處理大量的年報(bào)數(shù)據(jù),并有效地識(shí)別出年報(bào)舞弊行為,進(jìn)而能夠?yàn)槲璞啄陥?bào)的識(shí)別提供新的思路和文本層面上的特征挖掘。文中分別使用兩種經(jīng)典的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法和前沿的深度語(yǔ)義模型(BERT)對(duì)年報(bào)文本進(jìn)行建模,有監(jiān)督地對(duì)該類特殊文本進(jìn)行判別,從目前實(shí)驗(yàn)結(jié)果來(lái)看模型在準(zhǔn)確性上取得了相對(duì)優(yōu)秀的實(shí)驗(yàn)精度,具有一定的應(yīng)用可行性。未來(lái)從兩個(gè)角度對(duì)該工作做進(jìn)一步的深入研究,首先針對(duì)年報(bào)特征信息的挖掘?qū)ψR(shí)別精度和科學(xué)性具有重要意義,后續(xù)研究會(huì)引入更多的經(jīng)濟(jì)學(xué)/會(huì)計(jì)學(xué)指標(biāo),并基于多變量進(jìn)行關(guān)聯(lián)關(guān)系分析,從而選出最為顯著的特征自動(dòng)化加入模型訓(xùn)練中;為進(jìn)一步獲取舞弊年報(bào)的文本分布特征,在模型設(shè)計(jì)上充分利用深度語(yǔ)義模型在注意力機(jī)制上的能力,挖掘舞弊年報(bào)在文本表達(dá)上的特點(diǎn),為監(jiān)管部門(mén)提供預(yù)見(jiàn)性指引,同時(shí)為模型的可解釋性提供充分論證。