張曉龍,支龍,高劍,苗仲辰,林越峰,項(xiàng)雅麗,熊贇
1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,上海 210438;2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 200438;3. 上海金融期貨信息技術(shù)有限公司,上海 200120
文本分類(lèi)是一項(xiàng)常見(jiàn)的數(shù)據(jù)任務(wù),通過(guò)對(duì)金融領(lǐng)域的新聞、言論等文本數(shù)據(jù)的主題進(jìn)行識(shí)別,可以有效地給金融相關(guān)部門(mén)提供技術(shù)支持。然而在針對(duì)金融領(lǐng)域的實(shí)際業(yè)務(wù)開(kāi)發(fā)過(guò)程中,不免會(huì)遇到標(biāo)注數(shù)據(jù)缺乏、類(lèi)別標(biāo)簽不均衡等挑戰(zhàn)。由于金融領(lǐng)域本身的復(fù)雜性,這些數(shù)據(jù)往往包含了大量的專(zhuān)業(yè)術(shù)語(yǔ)和特定表達(dá)方式,因此領(lǐng)域相關(guān)的文本標(biāo)注需要由具備較高專(zhuān)業(yè)知識(shí)水平的人員完成,這使得金融語(yǔ)料的標(biāo)注代價(jià)昂貴,且效率低下。
半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)[1]是利用無(wú)標(biāo)簽數(shù)據(jù)解決這一問(wèn)題的具有代表性的一種方法,其中,基于一致性訓(xùn)練的半監(jiān)督學(xué)習(xí)方法已經(jīng)在圖像領(lǐng)域取得了良好的效果,受到研究者的廣泛關(guān)注[2-5]。與一致性訓(xùn)練相關(guān)的一類(lèi)研究方法是在訓(xùn)練的過(guò)程中對(duì)輸入樣本[6-8]或隱藏狀態(tài)[9]增加噪聲,并且保持模型的預(yù)測(cè)值不會(huì)因此發(fā)生改變。例如,Laine等人[3]提出的Pseudo-ensembles方法在訓(xùn)練過(guò)程中應(yīng)用高斯噪聲和dropout噪聲;Miyato等人[6]提出的虛擬對(duì)抗訓(xùn)練方法通過(guò)近似模型最敏感的輸入空間的變化方向來(lái)定義噪聲;Clark等人[8]提出的交叉視圖訓(xùn)練方法通過(guò)掩蓋部分輸入數(shù)據(jù)的方法引入噪聲。另一類(lèi)與一致性訓(xùn)練相關(guān)的研究方法是在模型參數(shù)空間上實(shí)現(xiàn)強(qiáng)制一致性,如插值一致性訓(xùn)練[9]、MixMatch[10]和無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)(unsupervised data augmentation,UDA)[11]等方法。受到UDA方法的啟發(fā),本文將其引入金融文本分類(lèi)中,以應(yīng)對(duì)金融文本標(biāo)記不足的挑戰(zhàn)。但是UDA方法在對(duì)金融中文無(wú)標(biāo)簽文本進(jìn)行數(shù)據(jù)增強(qiáng)時(shí),存在增強(qiáng)后的中文文本質(zhì)量差的問(wèn)題,需要對(duì)金融中文無(wú)標(biāo)簽文本的數(shù)據(jù)增強(qiáng)方法進(jìn)行研究。針對(duì)金融新聞的文本分類(lèi)任務(wù),本文提出了一個(gè)基于半監(jiān)督學(xué)習(xí)的金融新聞文本分類(lèi)(semi-supervised learning financial news classification,SSF)算法。本文主要貢獻(xiàn)如下:
● 引入有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)的一致性訓(xùn)練方法,在有標(biāo)簽數(shù)據(jù)較少的情況下,實(shí)現(xiàn)金融文本的分類(lèi)任務(wù);
● 針對(duì)不同的金融領(lǐng)域任務(wù),采用不同的訓(xùn)練信號(hào)退火(training signal annealing,TSA)收斂策略,降低模型過(guò)擬合的可能性;
● 在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文提出的SSF算法相比主流文本分類(lèi)算法在有效性上有明顯提升。
預(yù)訓(xùn)練和微調(diào)框架已被應(yīng)用于多種自然語(yǔ)言處理(natural language processing,NLP)任務(wù)中[12-14]。Howard等人[15]提出在大型通用語(yǔ)料庫(kù)上預(yù)先訓(xùn)練語(yǔ)言模型,再對(duì)目標(biāo)任務(wù)進(jìn)行微調(diào)(即預(yù)訓(xùn)練+微調(diào)框架的方式)。這種方法相對(duì)于需要大量的標(biāo)注數(shù)據(jù)的連續(xù)詞袋(continuous bag-of-words,CBOW)模型[16],即使使用少量標(biāo)記數(shù)據(jù),經(jīng)過(guò)預(yù)訓(xùn)練的模型也能表現(xiàn)出較優(yōu)的性能,并且基于注意力機(jī)制的預(yù)訓(xùn)練模型可更好地理解特征之間的相互關(guān)系。算法除了對(duì)結(jié)果的有效性有要求,對(duì)內(nèi)存占用、運(yùn)行速度也有一定的要求。本文在預(yù)訓(xùn)練模型方面采用ALBERT(a lite bert)[17]模型,ALBERT模型使用句子順序預(yù)測(cè)(sentence order prediction)代替下一個(gè)句子預(yù)測(cè)(next sentence prediction),提升了訓(xùn)練效率,并且采用參數(shù)因式分解以及跨層參數(shù)共享兩種技術(shù)降低資源消耗,相比于OpenAI GPT[18]和BERT[19]等規(guī)模較大的預(yù)訓(xùn)練模型,ALBERT模型的訓(xùn)練速度更快。
一致性正則可以被看作標(biāo)簽傳播的一種形式,在空間表示中,相似的訓(xùn)練樣本更有可能屬于同一類(lèi)別。基于這個(gè)假設(shè),一致性正則通過(guò)某種機(jī)制可以將標(biāo)簽信息從樣本傳播到與其相鄰的樣本。一致性正則框架在圖像領(lǐng)域受到了廣泛關(guān)注[3,7,20-21]?,F(xiàn)有的利用一致性進(jìn)行訓(xùn)練的模型雖然用到了數(shù)據(jù)增強(qiáng),但是它們僅僅應(yīng)用了較弱的數(shù)據(jù)增強(qiáng)方法,如隨機(jī)翻譯和裁剪。與本文工作更為相關(guān)的工作有MixMatch[10]和UDA[11],這些方法在半監(jiān)督學(xué)習(xí)領(lǐng)域都取得了成功。然而,這些方法在處理金融領(lǐng)域文本等含有較多專(zhuān)業(yè)術(shù)語(yǔ)的文本時(shí),存在數(shù)據(jù)增強(qiáng)后的文本質(zhì)量較差等問(wèn)題。本文充分利用了文本中單詞的權(quán)重信息,將訓(xùn)練集中其他句子的非關(guān)鍵詞替換為當(dāng)前句子的非關(guān)鍵詞,提出的SSF算法在金融領(lǐng)域文本的數(shù)據(jù)增強(qiáng)上取得了當(dāng)前最佳(state-of-the-art,SOTA)的效果。除此之外,本文提出的SSF算法在提升訓(xùn)練速度以及減少資源消耗上也有顯著效果。
將金融 文本記為x,y*是該文本的標(biāo)注類(lèi)別,?x是對(duì)無(wú)標(biāo)注數(shù)據(jù)的增強(qiáng)樣本。本節(jié)具體介紹SSF算法,SSF模型采用半監(jiān)督學(xué)習(xí)的一致性訓(xùn)練[7,20-21]的思路,從預(yù)訓(xùn)練模型和數(shù)據(jù)增強(qiáng)兩個(gè)角度對(duì)已有半監(jiān)督學(xué)習(xí)模型進(jìn)行優(yōu)化。在預(yù)訓(xùn)練模型選擇上,如第1.1節(jié)所述,ALEBRT預(yù)訓(xùn)練模型在訓(xùn)練過(guò)程中可以顯著降低資源消耗,并縮短訓(xùn)練時(shí)間。在數(shù)據(jù)增強(qiáng)方面,由于金融領(lǐng)域文本存在較多專(zhuān)業(yè)性術(shù)語(yǔ),隨機(jī)替換和回譯法等文本數(shù)據(jù)增強(qiáng)方法可能會(huì)替換掉文本中的專(zhuān)業(yè)術(shù)語(yǔ),使增強(qiáng)后的樣本與原樣本差別較大。本文采用的數(shù)據(jù)增強(qiáng)方法可以選擇性地替換樣本中的非關(guān)鍵詞。模型框架如圖1所示,圖1上半部分是有監(jiān)督學(xué)習(xí)部分,下半部分是無(wú)監(jiān)督學(xué)習(xí)部分。在有監(jiān)督學(xué)習(xí)部分,利用有標(biāo)簽數(shù)據(jù)在預(yù)訓(xùn)練模型上進(jìn)行微調(diào);在無(wú)監(jiān)督學(xué)習(xí)部分,不同于在無(wú)標(biāo)注數(shù)據(jù)注入噪聲的方法,通過(guò)將用于有監(jiān)督學(xué)習(xí)數(shù)據(jù)增強(qiáng)的方法遷移至無(wú)監(jiān)督學(xué)習(xí)來(lái)增強(qiáng)模型的魯棒性。
下面針對(duì)模型的各個(gè)部分展開(kāi)敘述。
如圖1上半部分所示,對(duì)于有標(biāo)簽金融文本x,模型將其送入預(yù)訓(xùn)練模型ALBERT得到文本的嵌入表示,再經(jīng)過(guò)全連接層得到文本的預(yù)測(cè)標(biāo)簽。這部分的損失函數(shù)是標(biāo)準(zhǔn)有監(jiān)督訓(xùn)練中預(yù)測(cè)標(biāo)簽和真實(shí)標(biāo)簽的交叉熵,記為:
其中,PL為有標(biāo)簽數(shù)據(jù)的分布,f*(x)是預(yù)測(cè)函數(shù)。
如圖1下半部分所示,對(duì)于無(wú)標(biāo)注數(shù)據(jù)x,一方面,模型通過(guò)預(yù)訓(xùn)練模型ALBERT得到無(wú)標(biāo)簽文本的嵌入表示,計(jì)算其分布(y|x);另一方面,模型通過(guò)對(duì)無(wú)標(biāo)簽樣本進(jìn)行數(shù)據(jù)增強(qiáng),得到x?。x?經(jīng)過(guò)預(yù)訓(xùn)練模型得到嵌入表示,再計(jì)算該增強(qiáng)版本的分布pθ(y|x?)。模型最小化兩個(gè)分布之間的差異,使兩者盡可能相似,從而優(yōu)化模型的參數(shù)。模型保持增強(qiáng)樣本的預(yù)測(cè)值與無(wú)標(biāo)簽樣本的預(yù)測(cè)值一致,這使模型對(duì)噪聲不敏感,因此算法相對(duì)于輸入(或隱藏)空間的變化更平滑,更具魯棒性。其損失函數(shù)為兩個(gè)分布之間的交叉熵?fù)p失,形如:
圖1 SSF算法框架
其中,CE表示交叉熵?fù)p失函數(shù),UP表示無(wú)標(biāo)記數(shù)據(jù)的樣本分布,是一個(gè)數(shù)據(jù)增強(qiáng)函數(shù),是當(dāng)前訓(xùn)練參數(shù)θ的復(fù)制,反向傳播時(shí)不會(huì)更新。本文針對(duì)金融文本分類(lèi)任務(wù),考慮到文本中金融領(lǐng)域的關(guān)鍵詞對(duì)預(yù)測(cè)標(biāo)簽的影響較大,采用隨機(jī)替換和刪除可能會(huì)損失文本中的關(guān)鍵信息,因此采用了TF-IDF(term frequency-inverse document frequency)進(jìn)行同義詞替換,兼顧詞頻與新鮮度,替換一些常見(jiàn)詞,同時(shí)保留能提供更多信息的關(guān)鍵詞。
數(shù)據(jù)增強(qiáng)方法能夠生成多樣且有效的樣本,文本數(shù)據(jù)增強(qiáng)方法可以被設(shè)計(jì)為保留關(guān)鍵詞,并用其他非關(guān)鍵性單詞替換句子中的非關(guān)鍵性單詞。本文將TF-IDF信息應(yīng)用到數(shù)據(jù)增強(qiáng)中。具體而言,IDF(w)是單詞w在整個(gè)語(yǔ)料庫(kù)中的IDF分?jǐn)?shù)。TF(w)是單詞w在每個(gè)句子中TF分?jǐn)?shù)。每個(gè)單詞的TF-IDF分?jǐn)?shù)計(jì)算如下:TF-IDF(w)= TF(w)×IDF(w)。假定在一個(gè)句子x中,最大的TF-IDF分?jǐn)?shù)為C=maxiTF-IDF(xi)。為了使句子中被替換的單詞與單詞的TF-IDF分?jǐn)?shù)負(fù)相關(guān),將單詞替換的概率設(shè)置為(min(p/C-TF-IDF(xi))/Z,1),其中,p是超參數(shù),用于控制數(shù)據(jù)增強(qiáng)的程度,Z=∑i(CTF-IDF(xi))/|Z|是平均分?jǐn)?shù),從整個(gè)詞匯表中抽取另一個(gè)單詞來(lái)替換原文中的單詞。直觀地講,采樣的單詞不應(yīng)當(dāng)是別的詞匯表中的關(guān)鍵詞,以防止更改句子的標(biāo)簽。為了衡量一個(gè)單詞是否是關(guān)鍵詞,計(jì)算整個(gè)語(yǔ)料庫(kù)中每個(gè)單詞的分?jǐn)?shù),即計(jì)算分?jǐn)?shù)S(w)=freq(w)IDF(w),freg(w)是單詞w在整個(gè)語(yǔ)料庫(kù)中出現(xiàn)的頻率。采樣單詞w的概率設(shè)置為,其中是歸一項(xiàng)。數(shù)據(jù)增強(qiáng)方法實(shí)例如圖2所示。
圖2 TF-IDF數(shù)據(jù)增強(qiáng)示例
SSF將有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)結(jié)合起來(lái),其最終的損失函數(shù)為:
其中,權(quán)重因子λ用于控制無(wú)監(jiān)督損失和有監(jiān)督損失的重要程度,一般情況下設(shè)置為1。同時(shí)無(wú)標(biāo)簽樣本的批次大小大于有標(biāo)簽樣本的批次大小。
將有監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)結(jié)合后,SSF模型既利用了有限的有標(biāo)簽數(shù)據(jù),又利用無(wú)標(biāo)簽數(shù)據(jù)豐富了模型的表達(dá)能力。在有監(jiān)督訓(xùn)練、無(wú)監(jiān)督訓(xùn)練與增強(qiáng)樣本的訓(xùn)練過(guò)程中,三者的ALBERT模型一致,且參數(shù)共享,因此,有監(jiān)督訓(xùn)練過(guò)程與無(wú)監(jiān)督訓(xùn)練過(guò)程相輔相成。SSF框架通過(guò)引入TF-IDF數(shù)據(jù)增強(qiáng)方式,無(wú)標(biāo)簽樣本中的一致性損失項(xiàng)得到更嚴(yán)格的保證,并將模型的共享參數(shù)傳遞到有監(jiān)督訓(xùn)練部分,使整個(gè)模型更具有魯棒性。從另一個(gè)角度來(lái)看,將一致性損失降至最低會(huì)逐漸將標(biāo)簽信息從標(biāo)記的樣本傳播到未標(biāo)記的樣本,某種程度上這是在為某些無(wú)標(biāo)記數(shù)據(jù)打標(biāo)簽,提高了未標(biāo)記數(shù)據(jù)的利用率。
本節(jié)旨在說(shuō)明SSF框架在處理文本半監(jiān)督問(wèn)題時(shí)遇到的問(wèn)題以及解決方法。
(1)置信度閾值
在無(wú)監(jiān)督訓(xùn)練過(guò)程中,要排除掉那些模型預(yù)測(cè)不確定的樣本。例如,在小批次訓(xùn)練過(guò)程中,過(guò)濾預(yù)測(cè)值小于輸出閾值的樣本,從而使余留樣本的預(yù)測(cè)標(biāo)簽更加接近真實(shí)值。
(2)熵正則化[10]
熵正則化已經(jīng)被證明在半監(jiān)督學(xué)習(xí)上具有很好的效果,SSF模型也采取熵正則化來(lái)進(jìn)行訓(xùn)練。如前文所述,無(wú)監(jiān)督損失項(xiàng)中的計(jì)算如下:
其中,τ是超參數(shù),Zy是對(duì)樣本x預(yù)測(cè)的Logit值。
(3)TSA
在半監(jiān)督學(xué)習(xí)中,無(wú)標(biāo)簽數(shù)據(jù)量遠(yuǎn)遠(yuǎn)大于有標(biāo)簽數(shù)據(jù)量往往導(dǎo)致模型在少量的有標(biāo)簽樣本下過(guò)擬合,但在無(wú)標(biāo)簽樣本中卻尚未產(chǎn)生收斂。TSA方法可以解決這個(gè)問(wèn)題,即當(dāng)有標(biāo)簽數(shù)據(jù)過(guò)少時(shí),對(duì)預(yù)測(cè)值設(shè)定閾值,高于閾值的預(yù)測(cè)值不會(huì)參與反向傳播,從而確保模型不會(huì)因?yàn)闃?biāo)簽數(shù)據(jù)過(guò)少而產(chǎn)生過(guò)擬合。針對(duì)金融領(lǐng)域任務(wù)以及數(shù)據(jù)集的不同,采用不同的TSA策略,具體將在第3.4.2節(jié)中展開(kāi)說(shuō)明。
本節(jié)通過(guò)實(shí)驗(yàn)驗(yàn)證SSF模型的有效性,分析討論實(shí)驗(yàn)中的場(chǎng)景數(shù)據(jù),以及相關(guān)的參數(shù)設(shè)置。
實(shí)驗(yàn)使用了3份來(lái)源于某金融機(jī)構(gòu)的金融領(lǐng)域文本數(shù)據(jù)集。按照主題可分為違規(guī)類(lèi)別數(shù)據(jù)集、期貨期權(quán)數(shù)據(jù)集和機(jī)構(gòu)相關(guān)數(shù)據(jù)集,各類(lèi)別數(shù)據(jù)的數(shù)量見(jiàn)表1~表3。將數(shù)據(jù)按照8:1:1的比例隨機(jī)劃分為訓(xùn)練集、驗(yàn)證集以及測(cè)試集。這些數(shù)據(jù)集均存在不同程度的類(lèi)別不均衡,且針對(duì)某些業(yè)務(wù)場(chǎng)景的有標(biāo)簽樣本數(shù)目稀少。
表1 違規(guī)類(lèi)別數(shù)據(jù)集
表3 機(jī)構(gòu)相關(guān)數(shù)據(jù)集
● 違規(guī)類(lèi)別數(shù)據(jù)集:來(lái)源于某金融機(jī)構(gòu)從社交媒體平臺(tái)爬取的數(shù)據(jù)集,任務(wù)是預(yù)測(cè)一條文本是否違規(guī)以及違規(guī)類(lèi)別,違規(guī)類(lèi)別分別為惡意抹黑監(jiān)管機(jī)構(gòu)、非法薦股、誘導(dǎo)開(kāi)戶、煽動(dòng)維權(quán)詐騙。
● 期貨期權(quán)數(shù)據(jù)集:數(shù)據(jù)集來(lái)源于某新聞機(jī)構(gòu),任務(wù)類(lèi)型為分類(lèi)任務(wù),預(yù)測(cè)任務(wù)是判斷一條文本是否屬于某一主題。
● 機(jī)構(gòu)相關(guān)數(shù)據(jù)集:數(shù)據(jù)集來(lái)源于某金融機(jī)構(gòu),任務(wù)類(lèi)型為分類(lèi)任務(wù),預(yù)測(cè)任務(wù)是判斷一條文本的主體是哪個(gè)私募機(jī)構(gòu),其中,文本中可能包含多個(gè)私募機(jī)構(gòu)。
為了測(cè)試本文提出的方法的有效性,將其與幾種主流的文本分類(lèi)模型進(jìn)行了比較,具體如下。
● GloVe[22]:GloVe模型將基于奇異值分解(singular value decomposition,SVD)的潛在語(yǔ)義分析(latent semantic analysis,LSA)算法和word2vec算法結(jié)合到一起,既使用了語(yǔ)料庫(kù)的全局統(tǒng)計(jì)特征,也使用了局部的上下文特征,得到文本詞向量后經(jīng)過(guò)邏輯回歸得到分類(lèi)結(jié)果。
● ELMo[23]:ELMo事先用語(yǔ)言模型在一個(gè)大的語(yǔ)料庫(kù)上學(xué)習(xí)好詞的表示,接著用下游任務(wù)中的無(wú)標(biāo)簽數(shù)據(jù)來(lái)微調(diào)預(yù)訓(xùn)練好的ELMo。相比GloVE,ELMo在多義詞的表示方面取得了改善,得到文本詞向量后經(jīng)過(guò)邏輯回歸得到分類(lèi)結(jié)果。
● FastText[24]:FastText模型架構(gòu)與word2vec中的CBOW很相似,不同之處是FastText預(yù)測(cè)的是標(biāo)簽,而CBOW預(yù)測(cè)的是中間詞,即兩者模型架構(gòu)相似,但是模型的任務(wù)不同。
● VAMPIRE[25]:VAMPIRE模型是一種基于預(yù)訓(xùn)練半監(jiān)督的文本分類(lèi)輕量型模型,旨在解決由大量數(shù)據(jù)和高昂計(jì)算力導(dǎo)致的資源不足問(wèn)題。
● BERT[19]:BERT代表Transformers的雙向編碼器。它被設(shè)計(jì)為通過(guò)對(duì)左右的上下文的聯(lián)合來(lái)預(yù)訓(xùn)練未標(biāo)記文本,從而得到深層的雙向表示。這里使用BERTbase-Chinese預(yù)訓(xùn)練模型,并在下游任務(wù)上進(jìn)行微調(diào)得到分類(lèi)結(jié)果。
● UDA[11]:UDA采用一致性訓(xùn)練框架,在文本分類(lèi)任務(wù)上,采用BERT預(yù)訓(xùn)練模型,在數(shù)據(jù)增強(qiáng)方面,基于WMT’14英法翻譯模型,通過(guò)回譯法對(duì)無(wú)標(biāo)簽數(shù)據(jù)產(chǎn)生噪聲進(jìn)行數(shù)據(jù)增強(qiáng)。
實(shí)驗(yàn)中將有標(biāo)簽數(shù)據(jù)集按照8:1:1劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。測(cè)試集實(shí)驗(yàn)結(jié)果見(jiàn)表4。
從表4可以發(fā)現(xiàn),SSF模型在3個(gè)數(shù)據(jù)集上的精度和召回率均超過(guò)了先前的對(duì)比模型。與GloVe、ELMo和FastText文本分類(lèi)算法相比,采用一致性訓(xùn)練框架的VAMPIRE、UDA和SSF算法取得了較優(yōu)的表現(xiàn)。與VAMPIRE和BERT算法相比,SSF模型在精度和召回率上都取得了更好的結(jié)果,這表明引入無(wú)監(jiān)督數(shù)據(jù)增強(qiáng)方法可以帶來(lái)更好的性能。與UDA模型相比,SSF模型在精度和召回率上也取得了更好的表現(xiàn)。可以得出結(jié)論,相對(duì)于UDA中對(duì)無(wú)標(biāo)簽數(shù)據(jù)通過(guò)回譯法進(jìn)行數(shù)據(jù)增強(qiáng),SSF通過(guò)TF-IDF數(shù)據(jù)增強(qiáng)方法可以針對(duì)性地在中文金融新聞文本分類(lèi)上獲得更好的表現(xiàn)。
表4 SSF模型及其基準(zhǔn)模型實(shí)驗(yàn)結(jié)果
通過(guò)改變有標(biāo)簽文本的數(shù)量,將有標(biāo)簽數(shù)據(jù)的數(shù)量降為原來(lái)的50%,對(duì)比SSF算法與其他文本分類(lèi)算法的性能,實(shí)驗(yàn)結(jié)果見(jiàn)表5。
表5 SSF模型及其基準(zhǔn)模型實(shí)驗(yàn)結(jié)果
在這部分實(shí)驗(yàn)中,筆者針對(duì)有標(biāo)簽數(shù)據(jù)的數(shù)量進(jìn)行了調(diào)整。見(jiàn)表5,給定相同的無(wú)標(biāo)簽數(shù)據(jù),將有標(biāo)簽數(shù)據(jù)的數(shù)量減少50%,實(shí)驗(yàn)結(jié)果表明,本文所提文本分類(lèi)算法在F1值上都有下降。值得一提的是,SSF算法在更少的標(biāo)注數(shù)據(jù)上的表現(xiàn)大幅優(yōu)于其對(duì)比算法。
通過(guò)上述在3個(gè)標(biāo)簽數(shù)量少的數(shù)據(jù)集上的實(shí)驗(yàn)可以得出,在金融領(lǐng)域中文文本分類(lèi)任務(wù)中,本文提出的SSF框架在有監(jiān)督數(shù)據(jù)樣本缺乏的場(chǎng)景下有更好的表現(xiàn)。
本節(jié)從數(shù)據(jù)增強(qiáng)方面和模型閾值設(shè)置兩個(gè)方面開(kāi)展實(shí)驗(yàn)。
3.4.1 數(shù)據(jù)增強(qiáng)維度的影響分析
不采用數(shù)據(jù)增強(qiáng)機(jī)制時(shí)的SSF變種模型為SSF-w/o-aug,實(shí)驗(yàn)結(jié)果見(jiàn)表6。
表6的結(jié)果顯示,數(shù)據(jù)增強(qiáng)機(jī)制在3個(gè)數(shù)據(jù)集上都為模型的性能帶來(lái)了提升。其中,在違規(guī)類(lèi)別數(shù)據(jù)集上,數(shù)據(jù)增強(qiáng)為模型帶來(lái)了1.74%的精度增值和2.28%的召回率增值;在期貨期權(quán)數(shù)據(jù)集上,數(shù)據(jù)增強(qiáng)機(jī)制為模型帶來(lái)了2.40%的精度增值和1.30%的召回率增值;在機(jī)構(gòu)相關(guān)數(shù)據(jù)集上,數(shù)據(jù)增強(qiáng)機(jī)制給模型帶來(lái)了2.21%的精度增值和2.09%的召回率增值。因?yàn)閿?shù)據(jù)增強(qiáng)機(jī)制可以幫助模型保留文本中的關(guān)鍵信息,所以它在含有專(zhuān)業(yè)詞匯較多的金融文本領(lǐng)域分類(lèi)效果更好。
表6 去除數(shù)據(jù)增強(qiáng)時(shí)的實(shí)驗(yàn)結(jié)果
3.4.2 模型閾值設(shè)置維度的影響分析
考慮不同TSA策略對(duì)實(shí)驗(yàn)結(jié)果的影響,實(shí)驗(yàn)結(jié)果見(jiàn)表7。
表7的結(jié)果顯示,在違規(guī)類(lèi)別數(shù)據(jù)集上,有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的比例為1:109(表1),在無(wú)監(jiān)督訓(xùn)練時(shí)較快的收斂策略得到了較高的準(zhǔn)確率;而在期貨期權(quán)數(shù)據(jù)集上,有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)的比例約為1:14(表2),對(duì)數(shù)增長(zhǎng)的TSA策略取得了最佳的效果;在機(jī)構(gòu)相關(guān)數(shù)據(jù)集上,有標(biāo)簽和無(wú)標(biāo)簽的比例約為1:20(表3),采用線性增長(zhǎng)的TSA策略取得了最佳的效果。這表明在有標(biāo)簽數(shù)據(jù)和無(wú)標(biāo)簽數(shù)據(jù)比例不同時(shí),采用不同的TSA策略可以有效地避免模型過(guò)擬合。
表2 期貨期權(quán)數(shù)據(jù)集
表7 采用不同TSA策略的實(shí)驗(yàn)結(jié)果
本文圍繞金融領(lǐng)域的業(yè)務(wù)需求,針對(duì)中文金融領(lǐng)域數(shù)據(jù)集提出了SSF半監(jiān)督學(xué)習(xí)框架,通過(guò)使用針對(duì)性的數(shù)據(jù)增強(qiáng)方法對(duì)樣本中的無(wú)標(biāo)簽數(shù)據(jù)進(jìn)行了數(shù)據(jù)增強(qiáng),在真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文提出的SSF方法適用于金融領(lǐng)域下標(biāo)簽樣本少的文本分類(lèi)任務(wù),并且性能優(yōu)于先前的工作。由于硬件以及ALBERT預(yù)訓(xùn)練模型本身的限制,筆者在實(shí)驗(yàn)中采用的最大序列長(zhǎng)度為256,但是相關(guān)數(shù)據(jù)集的長(zhǎng)度一般為1000左右,需要指出,即使在如此有限的文本輸入上,SSF模型的表現(xiàn)能力也是較為理想的。但是,更好地處理長(zhǎng)文本信息使得模型感知到盡可能多的內(nèi)容,將有助于模型的效果提升,因此,長(zhǎng)文本數(shù)據(jù)上的模型優(yōu)化是進(jìn)一步的研究工作。