孫德華 孫晨
摘? 要:結(jié)合財務(wù)文本特征,對TF-IDF方法在應(yīng)用到財務(wù)文本分類時的不足進行了分析,提出了一種新的特征詞權(quán)重計算方法(SNGTI-LFDF)。該算法以TF-IDF方法為基礎(chǔ),引入停用詞失效的N-Gram方法和特征詞位置詞頻因子,保留特征詞位置信息并改善了特征詞的權(quán)重分配。采用樸素貝葉斯方法對分類性能進行了驗證,實驗結(jié)果表明,相對于TF-IDF和同類改進算法TF-IDF-DL,SNGTI-LFDF方法取得了更高的準(zhǔn)確率、召回率和F1值。因此該算法在能較好地提高財務(wù)文本分類性能。
關(guān)鍵詞:TF-IDF;N-Gram;位置因子;SNGTI-LFDF;財務(wù)文本分類
中圖分類號:TP301.6? ? ? 文獻標(biāo)識碼:A 文章編號:2096-4706(2020)18-0107-05
Abstract:Combining with the characteristics of financial texts,the TF-IDF algorithm was investigated for its shortcomings when applied to financial text classification,and a new algorithm for calculating the weight of feature words (SNGTI-LFDF) was proposed. This algorithm is based on TF-IDF method,and introduces the N-Gram method of invalid stop words and term frequency location factor,which retains the location information of the feature word and improves the weight distribution of the feature word. The Naive Bayes method is used to verify the classification performance. The experimental results show that compared with TF-IDF and the similar algorithm TF-IDF-DL,the SNGTI-LFDF method achieves higher accuracy,recall and F1 value. Therefore,the algorithm is better improving the performance of financial text classification.
Keywords:TF-IDF;N-Gram;location factor;SNGTI-LFDF;financial text classification
0? 引? 言
隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)文本充斥著人們生活的方方面面,財務(wù)文本是網(wǎng)絡(luò)文本中的一大分支,在財務(wù)危機預(yù)測[1]、資本市場調(diào)研、企業(yè)管理等方面都有重要的指示作用。就財務(wù)文本的性質(zhì)和作用可以將其劃分為政策類財務(wù)文本、規(guī)章制度類財務(wù)文本、統(tǒng)計數(shù)據(jù)類財務(wù)文本。其中政策類財務(wù)文本是國家各行政部門、企業(yè)財務(wù)部門等針對財務(wù)狀況出臺的一系列財務(wù)管理的方針、政策,這類文本為個人和企業(yè)提供政策指引,做出更好的財務(wù)決策;規(guī)章制度類財務(wù)文本是各企業(yè)制定的符合企業(yè)發(fā)展的章程,對企業(yè)和財務(wù)工作者制定符合其發(fā)展的規(guī)章制度有很高的參考價值;統(tǒng)計數(shù)據(jù)類財務(wù)文本是符合客觀財務(wù)信息并能反映一段時間內(nèi)企業(yè)財務(wù)狀況的文本,統(tǒng)計類財務(wù)文本可以幫助規(guī)避投資風(fēng)險、預(yù)防財務(wù)詐騙等。然而在這個大數(shù)據(jù)時代下,各類財務(wù)錯綜復(fù)雜,使得我們很難快速準(zhǔn)確地找到所需類別的財務(wù)文本,由于缺乏信息資料進而造成損失。作者結(jié)合實習(xí)項目“財務(wù)機器人”的開發(fā),對智能財務(wù)機器人的實現(xiàn)進行了深入調(diào)研,智能財務(wù)機器人的實現(xiàn)要依據(jù)大量的已知類別的財務(wù)文本,通過學(xué)習(xí)每種類別的文本的特征,總結(jié)經(jīng)驗,實現(xiàn)智能化。因此如何快速準(zhǔn)確地對財務(wù)文本進行分類就成了一個待解決的課題,傳統(tǒng)的基于人工進行財務(wù)文本分類同時存在效率低下和人為失誤不可避免等問題。機器學(xué)習(xí)和人工智能技術(shù)的發(fā)展使得自動高效地進行財務(wù)文本分類[2]變成了可能,有效地改善了人工分類時所帶來的問題,它通過學(xué)習(xí)已標(biāo)記類別的文本集,建立文本特征詞與文本類別之間的關(guān)系模型,進而通過該模型對新的文本進行類別判定。
對文本進行分類要遵循文本所具有的特征。本文擬根據(jù)財務(wù)文本特征定向的改進文本分類中常用的方法——TF-IDF算法[3],以較好地提升財務(wù)文本分類的性能。因此本文收集調(diào)研了大量的財務(wù)文本并對財務(wù)文本的特征總結(jié)為:
(1)財務(wù)特征詞的不可分割性:財務(wù)特征詞又可叫作財務(wù)術(shù)語,不可分割性是指一旦分割就會偏離原詞所表達的含義。如“固定資產(chǎn)”雖然可以被拆分為“固定”和“資產(chǎn)”兩個有實際意義的詞,但是其已經(jīng)偏離了原特征詞所表示的含義;
(2)財務(wù)文本結(jié)構(gòu)的嚴(yán)謹(jǐn)性:結(jié)構(gòu)的嚴(yán)謹(jǐn)性是指大多數(shù)財務(wù)文本都符合類似“總分總”這樣的文本特征,在文本始末都會出現(xiàn)對文本進行總結(jié)的內(nèi)容。
TF-IDF算法是一種基于詞頻統(tǒng)計的特征權(quán)重計算方法,通過計算詞頻和逆文檔頻率來計算特征詞的權(quán)重,在應(yīng)用到文本分類時取得了良好的效果,但是傳統(tǒng)的TF-IDF方法還存在有明顯的缺陷,第一,依賴于特征詞提取的效果,在特征詞提取準(zhǔn)確率不高的情況下,分類性能較低;第二,未考慮特征詞出現(xiàn)的位置信息,默認(rèn)賦予所有特征詞同樣的權(quán)重。基于此,結(jié)合財務(wù)文本的特性,本文的主要工作為:
(1)引入了基于去停用詞的N-Gram方法,在豐富特征詞的同時清除了無效特征詞帶來的影響;
(2)引入特征詞位置因子,加重符合文本主題的特征詞的權(quán)重;
(3)提出了基于N-Gram特征詞失效和位置因子和詞頻統(tǒng)計的TF-IDF方法(SNGTI-LFDF)并在財務(wù)數(shù)據(jù)集上取得了良好的效果。
1? 相關(guān)工作
為了考慮一個詞語對其上若干個詞語的依賴關(guān)系,Jestes[4]等人在2013年便提出了N-Gram的概念,N-Gram在保留詞匯的特征信息的同時也保留了特征詞的位置信息;文獻[5]將N-Gram方法用到計算機病毒特征碼的提取中,取得了較好的結(jié)果;文獻[6]在SQL注入檢測中結(jié)合N-Gram中提取SQL語句固定維數(shù)的特征向量,提高了檢測率降低了誤報率;文獻[7]將N-Gram模型結(jié)合卷積神經(jīng)網(wǎng)絡(luò),從而提升了短文本分類的分類性能。文獻[5-7]的結(jié)果表明,N-Gram方法與特定領(lǐng)域結(jié)合使用時,可以在一定程度上取得較好的效果。
對于TF-IDF算法來說,其核心就是特征詞的權(quán)重計算,計算方式為:
其中,wi,k為文本i中的第k個特征詞的權(quán)重。針對傳統(tǒng)的TF-IDF算法存在的不足,眾多學(xué)者都其進行了研究改進。文獻[8]通過改進特征詞權(quán)重計算,提出詞頻-逆重力矩計算方法,提升分類效果;文獻[9]引入去中心化詞頻因子和特征詞位置因子,加強特征權(quán)重的準(zhǔn)確性;文獻[10]將新詞納入TF-IDF的權(quán)重計算中,達到了特征降維的目的,提升了文本分類的效果;文獻[11-12]均引入權(quán)重影響因子,對TF-IDF算法的權(quán)重進行優(yōu)化,這些改進算法雖然提升了文本分類的準(zhǔn)確率,但其在應(yīng)用到財務(wù)文本分類時,由于未結(jié)合財務(wù)文本特征,還存在著一定的局限性。
2? 改進的TF-IDF權(quán)重計算方法
2.1? 基于停用詞失效的N-Gram方法
N-Gram方法是從一個句子中提取連續(xù)的N個字的字符串集合,可以獲取到字的前后信息的同時還可以提高特征詞提取的豐富程度。例如“資產(chǎn)轉(zhuǎn)移手段”,如果按照傳統(tǒng)的TF-IDF涉及的關(guān)鍵詞計算過程,其關(guān)鍵詞信息只有“資產(chǎn)、轉(zhuǎn)移、手段”,但結(jié)合N-Gram方法進行詞匯特征的選取,以2-Gram為例,程序和執(zhí)行結(jié)果如下所示:
In[1]: content = “資產(chǎn)轉(zhuǎn)移的手段”
...: ls_word = list(content)
...: bigram = []
...: for i in range(len(ls_word)-1):
...:? ? word = “”
...:? ? ?for j in range(i,i+2):
...:? ? ? ? ?word+=ls_word[j]
...:? ? ?bigram.append(word)
...: print(bigram)
[“資產(chǎn)”,“產(chǎn)轉(zhuǎn)”,“轉(zhuǎn)移”,“移的”,“的手”,“手段”]
由以上結(jié)果可以看出,原來僅有的3個特征詞,經(jīng)過2-Gram的處理變長到了6個,特征詞的豐富程度得到了極大的提升,但這種方式也帶來了無效特征詞的干擾,如上述結(jié)果中的“產(chǎn)轉(zhuǎn)、移的、的手”,這類特征詞不僅不具備特定的意義而且還會對文本處理的結(jié)果產(chǎn)生干擾,影響文本分類的性能。其中部分的無效特征詞可以通過一定的手段將其識別并從特征詞分詞表中刪除,如“移的、的手”兩詞都包含有字符“的”,而“的”通常是描述定語和形容詞之間的修飾關(guān)系,與其組成的詞在語義上無任何意義,相同的一類詞在文本中經(jīng)常出現(xiàn)的還有“是、為、也、了、個”等,與這些詞組成的特征詞在語義上無任何意義,因而又被稱為停用詞。停用詞失效是指一個特征詞如果包含有停用詞,那么這個特征詞是無意義的,對文本分類結(jié)果產(chǎn)生負(fù)面影響。
基于停用詞失效的N-Gram方法就是在使用N-Gram方法進行特征詞劃分選取時,對特征詞是否包含停用詞進行判別,判別公式如式(2)所示:
其中,termi,k指文本i中的第k個特征詞,validi,k第k個特征詞的有效性,stw指停用詞。
其具體步驟為:
(1)使用N-Gram方法對文本處理得到一個特征詞集合TC;
(2)使用式(2)對TC中的第k個特征詞進行有效性判定,結(jié)果為True則轉(zhuǎn)到步驟(3);若結(jié)果為False,轉(zhuǎn)到(4);
(3)從TC移除當(dāng)前的第k個特征詞,TC長度減1;
(4)k加1,轉(zhuǎn)到(2),直到k值等于TC的長度,結(jié)束處理過程。
2.2? 特征詞位置詞頻影響因子
在財務(wù)文檔中,大多數(shù)文檔都符合中文文本“總分總”的結(jié)構(gòu),即在文本的開始和末尾都會包含符合文本主題的特征詞信息,這類特征詞對文本較為重要,應(yīng)該賦予更高的權(quán)重,所以本文將特征詞的位置信息作為特征詞權(quán)重調(diào)節(jié)的重要影響因子。以1為度量單位,將所有的特征詞以第一次出現(xiàn)的位置排列成一個序列,取文本序列最中間的位置為原點,建立二維直角坐標(biāo)系,x軸存儲特征詞的相對位置信息,y軸存儲特征詞的詞頻(Term Frequency,TF)信息,以原點為基礎(chǔ),計算其他特征詞與原點的距離(x軸絕對距離),距離越大,說明其越是位于文本的開始或者末尾,應(yīng)該賦予更高的權(quán)重。在一份文檔中,文本的開始和末尾包含有若干特征詞,特征詞的TF值可以客觀地反映特征詞對文本的重要程度,將特征詞位置因子和詞頻因子結(jié)合,距離越遠、頻次越高的特征詞對文本更重要,應(yīng)賦予更高的權(quán)重。但在實際處理過程中,會出現(xiàn)某個特征詞在長文本中出現(xiàn)的頻次比短文本中出現(xiàn)頻次高,產(chǎn)生偏袒長文本的現(xiàn)象,因此需要對TF值進行規(guī)范化處理,通過取特征詞的詞頻和文本中特征詞的總數(shù)的比值定義規(guī)范化公式如式(3)所示:
其中,RTFi,x為規(guī)范化處理后的詞頻值,結(jié)果取兩位小數(shù)點,Mi為文本i包含的特征詞的總數(shù),TFi,x為文檔i中位置x的特征詞的詞頻。
將位置因子和詞頻因子結(jié)合,定義位置詞頻(Location Factor Term Frequency,LFDF)影響因子,要增加的文本i中x位置的權(quán)重LFDF值計算如式(4)所示:
其中,ε為權(quán)重值倍數(shù),范圍在(1,+)之間,η的范圍在(0,D/2)之間,D為序列總長度。
2.3? SNGTI-LFDF算法
將基于停用詞失效的N-Gram方法與特征詞位置詞頻影響因子相結(jié)合,定義基于停用詞失效和改進TF-IDF算法的特征詞權(quán)重計算算法(SNGTI-LFDF),算法步驟為:
(1)引入N-Gram模型,使用2.1章節(jié)的方法對特征詞集處理,得到一個有效特征詞集合;
(2)引入特征詞位置詞頻影響因子,使用式(4)計算特征詞的LFDF值;
(3)將特征詞的位置詞頻影響因子納入TF-IDF權(quán)重計算公式中,最終得到SNGTI-LFDF公式,由式(1)和式(4)得:
其中,weighti,k為由SNGTI-LFDF算法計算的文本i中第k個特征詞的權(quán)重值。
3? 實驗與結(jié)果分析
3.1? 實驗數(shù)據(jù)
目前公開的數(shù)據(jù)集中少有中文財務(wù)文本檔,本文從國內(nèi)一些財經(jīng)網(wǎng)站和相關(guān)金融媒體微博、公眾號等搜集整理了一個包含3 720條數(shù)據(jù)的財務(wù)文本集,其數(shù)據(jù)遵循的格式為:
為了保證出差人員工作和生活的需要,合理使用差旅費用,提高出差效率,特制定差旅費用報銷管理制度。
交通工具按標(biāo)準(zhǔn)乘坐,采用實報實銷制……
……
差旅費用報銷制度即日起施行
同時,對獲取的文檔進行分類處理,將其劃分為政策類、統(tǒng)計類、制度類三種類型的文本,各類文本的測試集和訓(xùn)練集數(shù)量的劃分如表1所示。
3.2? 實驗步驟
本文采用傳統(tǒng)的TF-IDF算法、文獻[8]中的TF-IDF-DL算法和SNGTI-LFDF算法進行特征詞權(quán)重計算。并使用樸素貝葉斯方法實現(xiàn)對文本的分類,結(jié)合實驗結(jié)果進行分析,具體實驗步驟為:
(1)提取特征詞并將生成的特征詞轉(zhuǎn)化詞頻向量;
(2)分別采用傳統(tǒng)TF-IDF、TF-IDF-DL和SNGTI-LFDF算法對特征詞的權(quán)重進行計算,選取權(quán)重最高的M個特征詞;
(3)將訓(xùn)練集文本的特征詞送入到樸素貝葉斯分類器,訓(xùn)練分類器模型;
(4)對測試文本按照樸素貝葉斯理論[13]進行相似度的計算,對最后相似度的大小排序,選擇相似度最大的作為待分類文本的類別;
(5)對比分析實驗結(jié)果。使用準(zhǔn)確率、召回率、和F1值作為分類器性能的評估指標(biāo)。其中準(zhǔn)確率指分類結(jié)果中正確分類為A類別的樣本數(shù)占所有分類為A類別的樣本數(shù)的比例;召回率指分類結(jié)果中正確分類為A類別的樣本數(shù)占實際為A類別的樣本數(shù)的比例;F1值為準(zhǔn)確率和召回率的調(diào)和平均值。
3.3? 實驗對比
采用SNGTI-LFDF算法進行特征詞權(quán)重計算時,首先需要計算出需要選取的N-Gram方法中的N值來完成特征詞的劃分。由于N-Gram方法也適用于所有的權(quán)重計算方法,本文采用TF-IDF方法對不同的N值設(shè)定的情況下,財務(wù)文本集分類的準(zhǔn)確率結(jié)果進行了計算驗證,結(jié)果如表2所示。由表2可知,分類的準(zhǔn)確率、召回率和F1值隨著N值的增加均有上升的趨勢,在N=4時,分類的準(zhǔn)確率、召回率和F1值均達到最高,而后隨著N值的增加分類的性能不斷降低,因此可以斷定4為分類的一個峰值,應(yīng)采用4-Gram作為本文的特征詞劃分方法。
3.3.1? 參數(shù)選擇
在文本分類中,特征詞的選取直接關(guān)系到文本分類的結(jié)果。少量的特征詞不能準(zhǔn)確的表達文本的主題,造成文本分類效果較差,但特征詞數(shù)量過大,也會對實驗產(chǎn)生一定的消極影響。因此在分類前,首先要計算出需要送入樸素貝葉斯分類器中的權(quán)重值最高的M個特征詞數(shù)量M。由于特征詞數(shù)量的選取適用于所有的權(quán)重值計算方法,因此本文采用傳統(tǒng)的TF-IDF方法在財務(wù)數(shù)據(jù)集上的文本分類的準(zhǔn)確率和時間兩個方面綜合考慮M值的選取,圖1為特征詞數(shù)量對分類的準(zhǔn)確率的影響。
假設(shè)文本i中的特征詞的總數(shù)量為D,由圖1可知,當(dāng)選取的特征詞數(shù)量M占總量D的40%左右時分類的準(zhǔn)確率增長速度開始變慢,由圖2可知,當(dāng)M占總量D的50%時,分類需要的時間開始急劇增加。因此,為了兼顧文本分類的準(zhǔn)確率和時間性能,本實驗選取中間值45%作為每個文本作為分類的特征詞數(shù)量比例,即M=0.45×D。
此外還需要計算出特征詞位置信息的影響因子ε和η的值。η值反應(yīng)特征詞的位置信息,ε為加權(quán)因子。本文等比例地從三個種類的財務(wù)文本集中抽取200個文本,其中政策類財務(wù)文本70個、統(tǒng)計類財務(wù)文本82個,制度類財務(wù)文本48個,對每個文本經(jīng)過4-Gram方法進行分詞后,分別計算每個財務(wù)文本的始末特征詞數(shù)量與文本特征詞總數(shù)量的商,得到一個文本比例數(shù)據(jù)集,經(jīng)過對數(shù)據(jù)集進行分析,發(fā)現(xiàn)其符合均值μ為0.12,方差σ為0.03的正態(tài)分布,其分布如圖2所示,因此可以假設(shè)所有的財務(wù)文本的始末特征詞數(shù)量與特征詞總數(shù)量的商也都符合這一分布,即需要根據(jù)位置信息對特征詞進行加權(quán)操作的特征詞數(shù)量占總特征詞數(shù)量的12%,此外,對這200個文本進行平均特征詞權(quán)重數(shù)量的計算,得到每個文本平均特征詞數(shù)量為545,由于這200個文本是隨機選取的,可以認(rèn)為整財務(wù)文本數(shù)據(jù)集中的平均特征詞數(shù)量為545,因此η的最優(yōu)值計算為545×(1-0.12)/2,即η=240。
在η值確定后,把ε作為變量,對財務(wù)文本分類的準(zhǔn)確率進行了驗證,結(jié)果如圖3所示。
由圖3可知,隨著加權(quán)因子ε的增加,文本分類的準(zhǔn)確率也會有一定的提升,但在ε值達到1.4時,分類的準(zhǔn)確率達到峰值,此后ε值再增加,分類的準(zhǔn)確率反而會降低,因此本文選取ε=1.4作為特征詞權(quán)重的調(diào)節(jié)值。
3.3.2? 結(jié)果分析
完成了對各個實驗參數(shù)的求解,分別使用TF-IDF、TF-IDF-DL和SNGTI-LFDF算法對財務(wù)數(shù)據(jù)文本進行特征詞權(quán)重的計算,并將訓(xùn)練集文本的特征詞經(jīng)由貝葉斯方法訓(xùn)練得到樸素貝葉斯分類器,對測試集文本進行驗證,記錄每個方法計算得到的準(zhǔn)確率、召回率和F1值,結(jié)果如圖4所示。
通過實驗對比,由圖4可知,SNGTI-LFDF算法在財務(wù)文本分類的準(zhǔn)確率、召回率以及F1值的性能表現(xiàn)方面都較TF-IDF和TF-IDF-DL算法有了較明顯的提升。其中SNGTI-LFDF的準(zhǔn)確率、召回率以及F1值較TF-IDF方法分別提升了20.3%、23.0%和21.7%,較TF-IDF-DL算法分別提升了5.3%、5.0%和5.2%。說明SNGTI-LFDF在財務(wù)文本分類中,能適應(yīng)財務(wù)文本的特征,分類效果更好,是一種良好的特征詞權(quán)重計算方法。
4? 結(jié)? 論
通過調(diào)研財務(wù)文本的特征,總結(jié)TF-IDF方法在應(yīng)用到財務(wù)文本分類中存在的不足,引入N-Gram方法進行財務(wù)文本特征詞提取的同時引入特征詞位置因子對TF-IDF方法進行改進,提出SNGTI-LFDF算法并結(jié)合樸素貝葉斯方法對算法的性能進行驗證。實驗采用自整理的財務(wù)文本數(shù)據(jù)集,結(jié)果表明該算法在財務(wù)文本分類中取得了較高的準(zhǔn)確率、召回率和F1值,較好地提升了財務(wù)文本分類的效果。
參考文獻:
[1] 劉佳明.引入財務(wù)狀態(tài)分析的上市公司財務(wù)危機預(yù)測方法研究 [D].哈爾濱:哈爾濱工業(yè)大學(xué),2018.
[2] 蘇金樹,張博鋒,徐昕.基于機器學(xué)習(xí)的文本分類技術(shù)研究進展 [J].軟件學(xué)報,2006(9):1848-1859.
[3] QU Z,SONG X,ZHENG S,et al. Improved Bayes Method Based on TF-IDF Feature and Grade Factor Feature for Chinese Information Classification [C]// 2018 IEEE International Conference on Big Data and Smart Computing (BigComp),2018:677-680.
[4] KIM Y,PARK H,SHIM K,et al. Efficient processing of substring match queries with inverted variable-length gram indexes [J]. Information Sciences,2013,244:119-141.
[5] YANG Y,JIANG G P.Improved Method of Computer Virus Signature Automatic Extraction Basedon N-Gram [J]. Computer Science,2017,44(S2):338-341(in Chinese).
[6] 萬卓昊,徐冬冬,梁生,等.基于N-Gram的SQL注入檢測研究 [J].計算機科學(xué),2019,46(7):108-113.
[7] WANG H T,HE J,ZHANG X H,et al. A Short Text Classification Method Based on N-Gram and CNN [J]. Chinese Journal of Electronics,2020,29(2):248-254.
[8] CHEN K W,ZHANG Z P,LONG J,et al. Turning from TF-IDF to TF-IGM for term weighting in text classification [J]. Expert Systems With Applications,2016,66:245-260.
[9] 許甜華,吳明禮.一種基于TF-IDF的樸素貝葉斯算法改進 [J].計算機技術(shù)與發(fā)展,2020,30(2):75-79.
[10] 葉雪梅,毛雪岷,夏錦春,等.文本分類TF-IDF算法的改進研究 [J].計算機工程與應(yīng)用,2019,55(2):104-109+161.
[11] 董蕊芳,柳長安,楊國田.一種基于改進TF-IDF的SLAM回環(huán)檢測算法 [J].東南大學(xué)學(xué)報(自然科學(xué)版),2019,49(2):251-258.
[12] 但唐朋,許天成,張姝涵.基于改進TF-IDF特征的中文文本分類系統(tǒng) [J].計算機與數(shù)字工程,2020,48(3):556-560.
[13] LIU P,ZHAO H H,TENG J Y,et al. Parallel naive Bayes algorithm for large-scale Chinese text classification based on spark [J].Journal of Central South University,2019,26(1):1-12.
作者簡介:孫德華(1994—),男,漢族,河南周口人,碩士研究生在讀,研究方向:自然語言處理。