胥桂仙,陳 哲,馬慧麟
(1. 中央民族大學(xué) 民族語言智能分析與安全治理教育部重點(diǎn)實(shí)驗(yàn)室,北京 100081;2. 中央民族大學(xué) 信息工程學(xué)院,北京 100081)
文本分類可以使計(jì)算機(jī)自動(dòng)對(duì)海量文本信息進(jìn)行處理,節(jié)約大量信息處理費(fèi)用和人力成本,被廣泛應(yīng)用于信息社會(huì)生活的各個(gè)領(lǐng)域。目前,基于深度學(xué)習(xí)的文本分類方法在富文本語言的文本處理上已經(jīng)取得了良好的應(yīng)用成果,但對(duì)于藏語而言,由于資源的匱乏和公共數(shù)據(jù)集稀少,導(dǎo)致文本分類的研究進(jìn)展較為緩慢。目前藏文文本分類已有少量基于規(guī)則和傳統(tǒng)機(jī)器學(xué)習(xí)方法的分類研究,但將神經(jīng)網(wǎng)絡(luò)模型應(yīng)用于藏文文本分類的研究仍處于最淺顯層面,又因?yàn)槠脚_(tái)上缺乏開源的藏文語料,而每個(gè)研究人員所使用的語料也大不相同,因此使得實(shí)驗(yàn)研究數(shù)據(jù)缺乏可比性,其分類準(zhǔn)確率難以評(píng)估與對(duì)比。
本文主要研究多特征融合和多語言預(yù)訓(xùn)練的藏文文本分類,基于藏文新聞分類數(shù)據(jù)集(Tibetan News Classification Corpus, TNCC)進(jìn)行數(shù)據(jù)增強(qiáng),利用少數(shù)民族語言預(yù)訓(xùn)練模型(Chinese Minority Pre-trained Language Model, CINO)和TextCNN、雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory, BiLSTM)提取特征并進(jìn)行特征融合,實(shí)現(xiàn)藏文文本分類。本文提出的模型同時(shí)結(jié)合了TextCNN和BiLSTM模型,能夠在獲取局部特征的同時(shí),又有效獲取了上下文語義信息,在模型上實(shí)現(xiàn)了優(yōu)勢(shì)互補(bǔ)。
目前基于深度學(xué)習(xí)的文本分類算法大致可以分為三類: 基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)的文本分類算法、基于循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的文本分類算法、基于注意力機(jī)制的文本分類算法。
Kalchbrenner等人提出了第一個(gè)基于CNN的文本分類模型。該模型采用動(dòng)態(tài)k-max-pooling,因此稱為動(dòng)態(tài)CNN(DCNN)[1]。DCNN使用寬卷積層與動(dòng)態(tài)k-max-pooling給出動(dòng)態(tài)池層交替的卷積結(jié)構(gòu)來生成句子上的特征映射,該特征映射能夠顯式地捕獲單詞和短語的短期和長期關(guān)系。隨后,Kim提出一個(gè)比DCNN更簡單的基于CNN的文本分類模型(TextCNN)[2]。TextCNN僅在從無監(jiān)督神經(jīng)語言模型(即Word2Vec)獲得的單詞向量上使用了一層卷積,利用多個(gè)不同尺寸的kernel來提取句子中的關(guān)鍵信息,從而能夠更好地捕捉局部相關(guān)性。
基于RNN的模型將文本視為一個(gè)單詞序列,旨在獲取文本分類的單詞相關(guān)性和文本結(jié)構(gòu)。然而,普通RNN模型的性能并不好,往往不如前饋神經(jīng)網(wǎng)絡(luò)。在RNN的許多變體中,長短時(shí)記憶網(wǎng)絡(luò)(Long Short-term Memory, LSTM)[3]是最流行的模型,該模型旨在更好地捕捉長期依賴性。LSTM通過引入存儲(chǔ)單元以及輸入門、輸出門和遺忘門來調(diào)整信息輸入和輸出單元,緩解了普通RNN面臨的梯度消失或爆炸問題。
注意力機(jī)制最早被應(yīng)用于圖像領(lǐng)域中,在2017年才被應(yīng)用于文本表示任務(wù)。Transformer[4]通過應(yīng)用自注意力機(jī)制來并行計(jì)算句子中的每個(gè)單詞,或通過記錄“注意力分?jǐn)?shù)”來模擬每個(gè)單詞對(duì)另一個(gè)單詞的影響。自2018年以來,我們看到了一系列基于Transformer的大規(guī)模預(yù)訓(xùn)練語言模型的興起?;赥ransformer的預(yù)訓(xùn)練模型使用了更深層的網(wǎng)絡(luò)架構(gòu),并在大量文本語料庫上進(jìn)行預(yù)訓(xùn)練,通過預(yù)測基于上下文的詞來學(xué)習(xí)上下文的文本表示。這些預(yù)訓(xùn)練模型使用特定任務(wù)的標(biāo)簽進(jìn)行了微調(diào),并在包括文本分類在內(nèi)的許多下游NLP任務(wù)中創(chuàng)造了新的技術(shù)水平[5]。
藏文的文本分類研究還處于較淺顯的階段,周登、賈會(huì)強(qiáng)、王勇、群諾等人研究了基于機(jī)器學(xué)習(xí)的文本分類,包括基于N-gram、樸素貝葉斯、邏輯回歸模型、支持向量機(jī)等方法[6-12]。王莉莉[13]提出了基于多分類器藏文文本分類模型,其中包含深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長短時(shí)記憶網(wǎng)絡(luò)和雙向長短時(shí)記憶網(wǎng)絡(luò);蘇慧婧等人實(shí)現(xiàn)了基于高斯樸素貝葉斯模型[14]、多層感知機(jī)和深度可分離卷積模型[15]的藏文文本分類;李亮[16]提出了基于ALBERT預(yù)訓(xùn)練模型。以上模型雖然都取得了較好的分類效果,但大多不是采用公共數(shù)據(jù)集,由于數(shù)據(jù)集不同因此無法橫向比較各自方法的優(yōu)劣。盡管在藏文文本分類上已經(jīng)有了一些較為深入的研究,但相比于中文和英文等富文本語言,針對(duì)藏文文本分類的研究還是比較缺乏。
本文模型首先對(duì)少數(shù)民族語言預(yù)訓(xùn)練模型CINO進(jìn)行微調(diào),通過訓(xùn)練得到基于本文藏文語料TNCC的文本表示,同時(shí)結(jié)合TextCNN、BiLSTM模型進(jìn)行進(jìn)一步特征提取和特征融合,再進(jìn)行模型學(xué)習(xí)訓(xùn)練,得到基于多特征融合與多語言預(yù)訓(xùn)練的藏文文本分類模型。該模型簡稱為MFMLP模型(Multi-feature Fusion and Multi-Language Pre-training Model),其結(jié)構(gòu)示意圖如圖1所示。
圖1 MFMLP模型結(jié)構(gòu)示意圖
基于模型各自核心神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的功能和特點(diǎn),不同的模型對(duì)于文本特征的提取能力和側(cè)重方向也不同。實(shí)驗(yàn)證明CINO預(yù)訓(xùn)練模型已經(jīng)具備處理藏文的能力。TextCNN模型適合用來提取藏文文本的深層特征,通過不同尺寸的卷積核獲取文本特征,可以使特征更加多樣。然而卷積層提取的特征向量經(jīng)過池化、全連接后進(jìn)入分類器,無法充分體現(xiàn)特征之間的深層語義聯(lián)系。相較于TextCNN模型,BiLSTM模型由于具有記憶能力并且適合處理序列數(shù)據(jù),能夠體現(xiàn)相隔較遠(yuǎn)的文本之間的相互聯(lián)系。因此,本文模型通過結(jié)合這些模型的優(yōu)點(diǎn),在藏文文本分類任務(wù)上具有一定優(yōu)勢(shì)。
CINO[17]是哈工大訊飛聯(lián)合實(shí)驗(yàn)室發(fā)布的一個(gè)多語種預(yù)訓(xùn)練語言模型,也是第一個(gè)針對(duì)中國少數(shù)民族語言的多語言預(yù)訓(xùn)練模型。CINO涵蓋了標(biāo)準(zhǔn)漢語、粵語和藏語、蒙語、維吾爾語、哈薩克語、朝鮮語、壯語六種少數(shù)民族語言,并且在藏語上表現(xiàn)較好。實(shí)驗(yàn)表明,CINO已經(jīng)具備了對(duì)少數(shù)民族語言的理解能力,并優(yōu)于基準(zhǔn)模型。CINO是一個(gè)基于Transformer的多語言模型,其模型架構(gòu)與XLM-R[18]相同。相比于XLM-R模型,CINO模型進(jìn)行了詞匯擴(kuò)展和詞匯修剪。
本文將TNCC藏文數(shù)據(jù)集翻譯為中文后,與原數(shù)據(jù)集合并為新的數(shù)據(jù)集,輸入到CINO模型中,生成的字嵌入向量作為BiLSTM層和TextCNN層的輸入。
本文采用的數(shù)據(jù)集為新聞長文本,當(dāng)文本序列過長時(shí),傳統(tǒng)的RNN容易出現(xiàn)梯度消失和爆炸問題,因此LSTM通過引入存儲(chǔ)單元和輸入門、輸出門、遺忘門來控制進(jìn)出單元的信息流,這樣不僅可以解決梯度消失和爆炸問題,還能捕捉單詞的長期依賴性。
為了更好地獲得文本的語義信息,本文采用雙向LSTM模型,分別從前向和后向?qū)ξ谋具M(jìn)行特征提取。文本經(jīng)過CINO模型中的編碼器,得到Encoder的所有輸出,將字嵌入矩陣輸入到BiLSTM層中進(jìn)行上下文特征提取,再將前后向的文本信息和詞向量進(jìn)行拼接。BiLSTM層結(jié)構(gòu)如圖2所示。
圖2 BiLSTM層結(jié)構(gòu)示意圖
卷積神經(jīng)網(wǎng)絡(luò)在局部特征提取上表現(xiàn)良好,通過不同大小的卷積窗口來捕捉不同的N-gram特征。一段文本包含全局語義特征和不同粒度大小的局部語義特征,因此需要考慮不同粒度下的特征提取。通過設(shè)計(jì)多種大小的卷積核對(duì)文本信息進(jìn)行特征提取,并將不同粒度大小的特征融合在一起作為最終的局部特征表示。
通過TextCNN的卷積結(jié)構(gòu)可以提取出文本的局部特征,從而有利于文本分類。將CINO模型Encoder結(jié)構(gòu)中的所有輸出作為TextCNN層的輸入。通過調(diào)整不同大小的卷積核尺寸,獲得不同寬度視野下的文本局部特征。設(shè)置詞向量維度為2,3,4的卷積核,對(duì)文本序列進(jìn)行卷積操作。輸出的向量通過Relu函數(shù)激活,再輸入到最大池化層,獲得句子的重要信息。將經(jīng)過池化操作后的特征向量進(jìn)行拼接,得到TextCNN層的輸出。TextCNN的結(jié)構(gòu)如圖3所示。
圖3 TextCNN層結(jié)構(gòu)示意圖
通過多特征融合的方式可以更加全面地提取文本各方面的語義特征。CINO中內(nèi)置了藏文和中文分詞器,將經(jīng)過CINO模型后提取的Encoder最后一層的編碼向量分別進(jìn)一步輸入到TextCNN模型和BiLSTM模型中提取特征向量,隨后與CINO中產(chǎn)生的[CLS]特征信息在融合層進(jìn)行拼接,再輸入到分類器中。
在融合層,CINO輸出的[CLS]一維特征向量y1,TextCNN輸出的一維向量y2,BiLSTM輸出的一維向量y3進(jìn)行拼接融合生成向量M。
融合層的輸出M的公式為:
M=[y1y2y3]
(1)
各通路輸出的特征均為一維向量,采用這種拼接融合的方式可以不需要對(duì)通路輸出的數(shù)據(jù)進(jìn)行統(tǒng)一維度,從而避免數(shù)據(jù)信息損失。
本文提出的MFMLP模型結(jié)合CINO模型提取的[CLS]特征信息以及TextCNN和BiLSTM提取的特征向量,進(jìn)行融合后的特征將能更好地表示文本特征,從而取得更好的分類結(jié)果。
將得到的新的藏文序列輸入到分詞器中進(jìn)行文本預(yù)處理,再輸入到CINO模型中。通過CINO模型處理,得到了Encoder的所有輸出和最后一層的[CLS]特征。將Encoder的所有輸出并行輸入到TextCNN模型和BiLSTM模型中,獲取文本信息的深層特征和上下文特征。TextCNN和BiLSTM提取的特征向量和[CLS]特征在融合層進(jìn)行特征融合,最后將融合的特征輸入到分類器中進(jìn)行文本分類。
論文實(shí)驗(yàn)環(huán)境描述如表1所示。
表1 實(shí)驗(yàn)環(huán)境配置參數(shù)
本文中的實(shí)驗(yàn)選用由復(fù)旦大學(xué)自然語言處理實(shí)驗(yàn)室發(fā)布的藏語新聞數(shù)據(jù)集[19]。該數(shù)據(jù)集收集自中國西藏網(wǎng),包含12個(gè)類別,分別為: 政治、經(jīng)濟(jì)、教育、旅游、環(huán)境、語言、文學(xué)、宗教、藝術(shù)、醫(yī)學(xué)、風(fēng)俗、工具類。該數(shù)據(jù)集包含兩個(gè)文本分類數(shù)據(jù)集: 新聞標(biāo)題分類和新聞?wù)姆诸?本篇論文的實(shí)驗(yàn)主要采用新聞?wù)姆诸悢?shù)據(jù)集。語料庫分為訓(xùn)練集、開發(fā)集和測試集。訓(xùn)練集占數(shù)據(jù)集的80%,開發(fā)集和測試集各占10%,其中訓(xùn)練集有7 363條數(shù)據(jù),開發(fā)集和測試集各920條數(shù)據(jù)。由于TNCC數(shù)據(jù)集的文本類別分布不均衡,容易造成模型過擬合,因此本實(shí)驗(yàn)采取翻譯的數(shù)據(jù)增強(qiáng)方法,通過將TNCC數(shù)據(jù)集的每條藏文數(shù)據(jù)進(jìn)行藏譯中,達(dá)到數(shù)據(jù)擴(kuò)充和融合多語言信息的效果。擴(kuò)增后的多語言數(shù)據(jù)集簡稱為TCNCC(Tibetan and Chinese News Classification Corpus),TCNCC數(shù)據(jù)集總共18 406條文本數(shù)據(jù),其中藏文數(shù)據(jù)共9 203條,中文數(shù)據(jù)共9 203條。
藏文的音節(jié)之間用藏文分隔符分開,但分隔符通常只表示占位而不是起著分隔的作用。在基于神經(jīng)網(wǎng)絡(luò)的文本分類中,通常采用單詞的分布式表示作為輸入,但藏文文本處理很難實(shí)現(xiàn)單詞級(jí)分詞。主要有兩個(gè)原因: 一是沒有分隔符來標(biāo)記兩個(gè)單詞之間的邊界;二是藏文詞匯非常龐大,通常包含數(shù)百萬個(gè)單詞,因此對(duì)稀有和復(fù)雜詞的表征很差。因此TNCC數(shù)據(jù)集在音節(jié)和字母級(jí)別對(duì)藏文文本進(jìn)行建模,而不進(jìn)行明確的分詞,從而提高對(duì)稀有詞和復(fù)雜詞的表征[20]。該數(shù)據(jù)集已經(jīng)對(duì)藏文文本進(jìn)行了以音節(jié)為單位的分詞。文本數(shù)據(jù)與標(biāo)簽之間用TAB分割,標(biāo)簽數(shù)字對(duì)應(yīng)的是不同類別的編號(hào)。TNCC數(shù)據(jù)集藏文新聞?wù)臉永鐖D4所示。
圖4 TNCC數(shù)據(jù)集藏文新聞?wù)臉永?/p>
考慮每個(gè)類別的樣本數(shù)量在總數(shù)量中的占比,采用加權(quán)平均(Weighted Average)的計(jì)算方法。本文使用精確率(P)、召回率(R)、F1值(F1-score)等性能指標(biāo)作為評(píng)價(jià)指標(biāo)。計(jì)算如式(2)~式(4)所示。
其中,TP為將正類預(yù)測為正類的個(gè)數(shù),FN為將正類預(yù)測為負(fù)類的個(gè)數(shù),FP為將負(fù)類預(yù)測為正類的個(gè)數(shù),TN為將負(fù)類預(yù)測為負(fù)類的個(gè)數(shù)。
為了使模型達(dá)到最好的效果,實(shí)驗(yàn)對(duì)PyTorch版本的CINO-large-v2模型進(jìn)行了微調(diào)。在TextCNN模塊,設(shè)置卷積核的大小filter_sizes=(2,3,4);卷積核數(shù)量num_filters=256,池化操作選取Max-pooling。在BiLSTM模塊,設(shè)置雙向LSTM,正向與反向LSTM均有768個(gè)隱藏單元,隱藏層數(shù)為2。對(duì)TextCNN、BiLSTM和CINO提取的[CLS]特征在融合層進(jìn)行特征融合,不設(shè)置分層學(xué)習(xí)率,然后輸入到分類器中。整體模型參數(shù)如表2所示。
表2 模型參數(shù)
3.4.2 基于藏文數(shù)據(jù)的不同融合方式對(duì)比和分析
在對(duì)比實(shí)驗(yàn)中,為了驗(yàn)證多特征融合模型在藏文文本分類上的實(shí)驗(yàn)效果,基于TNCC藏文數(shù)據(jù)集,本文設(shè)計(jì)了三種融合方式: (1)CINO+BiLSTM: CINO提取的[CLS]特征+BiLSTM,設(shè)置分層學(xué)習(xí)率(LSTM層參數(shù)學(xué)習(xí)率是基學(xué)習(xí)率的100倍);(2)CINO+TextCNN: CINO提取的[CLS]特征+TextCNN,不設(shè)置分層學(xué)習(xí)率;(3)MFMLP: CINO提取的[CLS]特征+TextCNN+BiLSTM,不設(shè)置分層學(xué)習(xí)率。同時(shí)將這三種融合方式與CINO進(jìn)行微調(diào)后的效果進(jìn)行對(duì)比。為了避免偶然性和誤差,本文所有實(shí)驗(yàn)均進(jìn)行了五折交叉驗(yàn)證,五次實(shí)驗(yàn)結(jié)果取平均值。不同融合方式結(jié)果對(duì)比如表3所示,不同融合方式分類性能對(duì)比圖如圖5所示。
表3 不同融合方式結(jié)果對(duì)比表 (單位: %)
圖5 不同融合方式分類性能對(duì)比圖
根據(jù)表3和圖5,從不同融合方式對(duì)比中可以看出,MFMLP模型在藏文文本分類上的效果最佳。首先將MFMLP模型與CINO基準(zhǔn)模型對(duì)比,可以看出MFMLP模型的F1值比CINO模型高0.28%,說明CINO融合BiLSTM和TextCNN模型能夠有效提取藏文文本的上下文信息和局部特征,對(duì)模型效果有提升作用。CINO+BiLSTM模型的精確率、召回率和F1值比MFMLP模型分別低0.95%、1.63%、1.40%,CINO+TextCNN模型的精確率、召回率和F1值比MFMLP模型分別低0.63%、0.54%、0.64%,這兩個(gè)對(duì)比實(shí)驗(yàn)證明了CINO+BiLSTM+TextCNN模型在提取藏文文本的全局語義特征的有效性。
3.4.3 基于藏文數(shù)據(jù)的基準(zhǔn)模型對(duì)比和分析
為了驗(yàn)證模型的分類效果,使用TNCC藏文數(shù)據(jù)集將本文提出的模型多特征融合和多語言預(yù)訓(xùn)練模型MFMLP與常用的六種模型對(duì)比。
TextCNN[2]: Kim在CNN網(wǎng)絡(luò)中使用一維卷積核來提取文本的N-gram特征,然后通過最大池化保留最重要的特征,通過softmax分類器進(jìn)行分類。
TextRNN[20]: Liu等提出的一種通用于文本分類的循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),它將單向LSTM最后一個(gè)時(shí)間步的隱藏層狀態(tài)向量作為文本的全局語義特征表示,然后將該向量輸入到Softmax分類器。
TextRNN_att: 與TextRNN不同的是,引入了注意力層對(duì)文本信息附加權(quán)重。
TextRCNN[21]: Lai等引入循環(huán)卷積神經(jīng)網(wǎng)絡(luò)用于文本分類,與TextRNN相比,TextRCNN通過循環(huán)神經(jīng)網(wǎng)絡(luò)后,又引入了一個(gè)最大池化層來捕捉文本中的重要信息。
DPCNN[22]: Johnson等提出的一種類似于金字塔結(jié)構(gòu)的分類模型,通過增加網(wǎng)絡(luò)深度來提升模型的性能。
Transformer[4]: Vaswani等在機(jī)器翻譯任務(wù)中提出該模型,在文本分類任務(wù)中使用Transformer的Encoder結(jié)構(gòu),提取文本的長距離依賴特征。
基準(zhǔn)模型結(jié)果對(duì)比如表4所示,基準(zhǔn)模型分類性能對(duì)比圖如圖6所示。
表4 基準(zhǔn)模型結(jié)果對(duì)比表 (單位: %)
圖6 基準(zhǔn)模型分類性能對(duì)比圖
依據(jù)表4和圖6,從各種基準(zhǔn)模型對(duì)比結(jié)果可以看出,本文提出的MFMLP模型在藏文文本分類任務(wù)上的F1值最高,達(dá)到了71.71%。在表5的(2)至(7)對(duì)比實(shí)驗(yàn)中均只采用單一模型對(duì)藏文文本進(jìn)行特征提取處理,相較于采用多特征融合方法的MFMLP模型,分類效果不佳,因此采用多特征融合方法提取特征具有明顯優(yōu)勢(shì)。在前6個(gè)基準(zhǔn)模型中,實(shí)驗(yàn)效果最好的是TextCNN,精確率、召回率和F1值分別達(dá)到了61.74%、61.13%、59.47%。比本文提出的MFMLP模型分別低10.23、10.73、12.24個(gè)百分點(diǎn),從而證明本模型融合CINO、TextCNN和BiLSTM模型提取的文本上下文語義特征和多粒度的文本局部特征能夠有效提升藏文分類效果。
3.4.4 基于多語言數(shù)據(jù)的不同模型效果對(duì)比
經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),TNCC藏文數(shù)據(jù)集存在類別分布不均衡的問題,可能會(huì)造成模型過擬合,因此將TNCC數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)。采用數(shù)據(jù)增強(qiáng)中的翻譯法,將藏文文本輸入到翻譯器進(jìn)行藏譯中處理,再將得到的中文文本合并到原藏文數(shù)據(jù)中得到新的數(shù)據(jù)集TCNCC,解決了藏文數(shù)據(jù)集稀缺和一些類別樣本過少的問題。同時(shí)將數(shù)據(jù)進(jìn)行翻譯可以使數(shù)據(jù)既保留了藏文語義特征,又拓展了中文語義特征,實(shí)現(xiàn)多語言訓(xùn)練。
為了驗(yàn)證不同模型在數(shù)據(jù)增強(qiáng)后數(shù)據(jù)集上的效果,本節(jié)基于TCNCC數(shù)據(jù)集,對(duì)上文提到的不同融合方式和不同基準(zhǔn)模型進(jìn)行對(duì)比,各個(gè)模型取F1-score作為評(píng)測指標(biāo)。基于多語言數(shù)據(jù)的模型效果對(duì)比圖如圖7所示。
圖7 基于多語言數(shù)據(jù)的模型效果對(duì)比圖
由圖7可以看出,在數(shù)據(jù)增強(qiáng)后的多語言數(shù)據(jù)集TCNCC上,本文提出的MFMLP模型效果最佳,達(dá)到了72.11%,體現(xiàn)了MFMLP模型在多語言數(shù)據(jù)集上的優(yōu)勢(shì)。
3.4.5 多語言數(shù)據(jù)增強(qiáng)效果對(duì)比和分析
基于數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集訓(xùn)練模型使模型包含多語言信息,為了驗(yàn)證數(shù)據(jù)增強(qiáng)的效果,基于數(shù)據(jù)增強(qiáng)前的TNCC數(shù)據(jù)集和增強(qiáng)后的TCNCC數(shù)據(jù)集,本節(jié)對(duì)上文提到的不同融合方式和基準(zhǔn)模型的效果進(jìn)行對(duì)比,各模型取F1-score作為評(píng)測指標(biāo)。對(duì)比結(jié)果如圖8所示。
圖8 各模型數(shù)據(jù)增強(qiáng)前后對(duì)比圖
從圖8中可以看出除CINO模型外,經(jīng)過數(shù)據(jù)增強(qiáng)后,各模型的F1值都有一定的提高。其中各基準(zhǔn)模型效果提升較大,相較于未增強(qiáng)的藏文原始數(shù)據(jù)集TNCC,基于數(shù)據(jù)增強(qiáng)后的多語言數(shù)據(jù)集TCNCC訓(xùn)練的模型F1值都提升了5個(gè)百分點(diǎn)以上。由于數(shù)據(jù)增強(qiáng)實(shí)現(xiàn)了數(shù)據(jù)的擴(kuò)充,融合了多語言信息,而基準(zhǔn)模型未經(jīng)過預(yù)訓(xùn)練,因此分類效果提升比較顯著?;跀?shù)據(jù)增強(qiáng)后的數(shù)據(jù)集,不同融合方式的模型效果也實(shí)現(xiàn)了小幅度提升,體現(xiàn)了數(shù)據(jù)增強(qiáng)方法的有效性。相較于數(shù)據(jù)增強(qiáng)前,MFMLP模型的F1值達(dá)到了72.11%,比增強(qiáng)前提升了0.40個(gè)百分點(diǎn)。由于翻譯法的數(shù)據(jù)增強(qiáng)依賴于翻譯器的性能,本實(shí)驗(yàn)采取的小牛翻譯器在翻譯過程中產(chǎn)生了許多噪聲,對(duì)CINO模型的分類效果產(chǎn)生了一定影響,使得CINO模型數(shù)據(jù)增強(qiáng)前F1值略高于數(shù)據(jù)增強(qiáng)后。
實(shí)驗(yàn)結(jié)果表明經(jīng)過數(shù)據(jù)增強(qiáng)后融合了多語言特征,對(duì)預(yù)測結(jié)果有一定的提高效果。但由于翻譯法依賴翻譯器性能,小牛翻譯在翻譯過程中產(chǎn)生的噪聲會(huì)對(duì)實(shí)驗(yàn)效果產(chǎn)生影響,因此數(shù)據(jù)增強(qiáng)的效果不太明顯,為以后實(shí)驗(yàn)提供了改進(jìn)方向。
本文使用了少數(shù)民族多語言預(yù)訓(xùn)練模型CINO,使模型對(duì)藏文具有良好的理解能力。在經(jīng)過對(duì)CINO原模型的微調(diào)后,提高了該模型對(duì)藏文的理解能力,為后續(xù)的多特征融合打下了良好的基礎(chǔ)。其次,本文提出的模型同時(shí)結(jié)合了TextCNN和BiLSTM模型,能夠在獲取局部特征的同時(shí),又有效獲取了上下文語義信息,在模型上實(shí)現(xiàn)了優(yōu)勢(shì)互補(bǔ)。因此,在與基準(zhǔn)模型對(duì)比時(shí),本文模型的分類效果達(dá)到了最佳,說明本文提出的MFMLP模型在藏文文本分類任務(wù)中具有一定優(yōu)勢(shì)。
針對(duì)藏文數(shù)據(jù)集稀缺的問題,為了有效獲取文本的關(guān)鍵信息,本文提出了基于多特征融合與多語言預(yù)訓(xùn)練的藏文文本分類模型。在對(duì)TNCC數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)后,數(shù)據(jù)實(shí)現(xiàn)了擴(kuò)充并融合了多語言知識(shí)。在模型構(gòu)建過程中,首先使用CINO模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,提取出所有特征向量和最后一層的[CLS]特征,然后將所有的特征向量分別輸入到TextCNN和BiLSTM模型中,將獲取到的特征與[CLS]進(jìn)行拼接融合,最終輸入到分類器中進(jìn)行分類,從而實(shí)現(xiàn)藏文文本分類。
本文的多特征融合和多語言預(yù)訓(xùn)練模型相比于CINO模型和其他基準(zhǔn)模型的分類效果取得了一定程度的提升,但仍存在一些不足。數(shù)據(jù)增強(qiáng)效果并不明顯,這是由于翻譯的質(zhì)量不高,但這也為后續(xù)研究提供了思路和改進(jìn)空間。根據(jù)模型分類效果可以看出,分類還存在著一定的錯(cuò)誤,并且由于藏文數(shù)據(jù)集的稀缺性,只在TNCC數(shù)據(jù)集上進(jìn)行了驗(yàn)證。未來工作將在此基礎(chǔ)上進(jìn)行進(jìn)一步的深入研究。