郝 婷,王 薇
(1.長(zhǎng)春大學(xué)網(wǎng)絡(luò)安全學(xué)院,吉林 長(zhǎng)春 130022;2.長(zhǎng)春大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,吉林 長(zhǎng)春 130022)
997236440@qq.com;20017008@qq.com
互聯(lián)網(wǎng)的蓬勃發(fā)展產(chǎn)生了海量的數(shù)據(jù)信息,人們進(jìn)入大數(shù)據(jù)時(shí)代,文本數(shù)據(jù)通過互聯(lián)網(wǎng)快速增長(zhǎng),人們可以時(shí)刻接觸和處理海量的文本信息,如新聞、微博和商品評(píng)價(jià)等。此類文本具有海量性、實(shí)時(shí)性和不規(guī)則性等特點(diǎn)且大多屬于非結(jié)構(gòu)化的短文本數(shù)據(jù),使得短文本的語(yǔ)義發(fā)散,特征詞難以提取。如何對(duì)短文本進(jìn)行準(zhǔn)確、高效的分類是目前的研究熱點(diǎn)。傳統(tǒng)機(jī)器學(xué)習(xí)算法如樸素貝葉斯[1]和支持向量機(jī)[2-3]等方法常用于文本分類,但是這些算法存在對(duì)文本深層語(yǔ)義和上下文關(guān)聯(lián)信息挖掘方面的短板。
近年來(lái),基于神經(jīng)網(wǎng)絡(luò)算法的文本分析被廣泛應(yīng)用[4]。區(qū)別于傳統(tǒng)基于統(tǒng)計(jì)機(jī)器學(xué)習(xí),深度學(xué)習(xí)模型有多層網(wǎng)絡(luò),每層包含多個(gè)可進(jìn)行非線性變換的神經(jīng)元,因此具有更強(qiáng)的非線性擬合能力,在數(shù)據(jù)量較大的情況下效果更好。2018 年,預(yù)訓(xùn)練模型開始興起。PETERS等[5]構(gòu)建的新型語(yǔ)言模型(Embeddings from Language Models,ELMo)生成的詞向量可以隨語(yǔ)境進(jìn)行多義詞動(dòng)態(tài)變換。Google[6]提出的Bert(Bidirectional Encoder Representations from Transformers)通過其雙向結(jié)構(gòu)能夠?qū)W習(xí)到詞的上下文表示,該模型橫掃了多項(xiàng)自然語(yǔ)言處理任務(wù)的排行榜紀(jì)錄,極大地推動(dòng)其發(fā)展。
本文主要從傳統(tǒng)詞向量語(yǔ)義表達(dá)上存在問題和短文本由于特征稀疏導(dǎo)致重要特征較難提取兩個(gè)方面入手,提出融合Bert和BiLSTM的復(fù)合網(wǎng)絡(luò)模型Bert-BiLSTM。通過在本文所選中文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果顯示本文所提模型分類效果良好。
文本分類是自然語(yǔ)言處理的重要任務(wù)之一,其過程為使用機(jī)器按照規(guī)定的分類標(biāo)準(zhǔn)對(duì)需要進(jìn)行分類的文本進(jìn)行自動(dòng)分類標(biāo)記。目前,關(guān)于英文文本分類的研究較多,針對(duì)中文文本分類的研究相對(duì)較少。分析原因,一方面是相關(guān)的語(yǔ)料庫(kù)較少,另一方面是中文文本表示比英文復(fù)雜,采用傳統(tǒng)方法難以提取其特征。
文本表示是文本分類任務(wù)中非常重要的步驟,通過文本表示過程將其轉(zhuǎn)化成計(jì)算機(jī)能夠處理的數(shù)據(jù)信息,其好壞影響后續(xù)模型的表現(xiàn),最重要的是如何選擇合適的表示方法,并且應(yīng)當(dāng)盡可能地包含原本的信息,這是因?yàn)橐坏┰诳臻g映射時(shí)丟失了信息,則在后續(xù)的模型處理中再也無(wú)法獲取。良好的文本向量可以更好地在向量空間中有一個(gè)文本空間映射,從而使得文本可以計(jì)算。自然語(yǔ)言處理領(lǐng)域因其自身的特性而難以向量化,并且存在多種高級(jí)語(yǔ)法規(guī)則及其他特性,比如近義詞、反義詞、上下文之間的聯(lián)系等。文本表示過程的實(shí)質(zhì)是對(duì)文本特征進(jìn)行建模。
2.1.1 One-Hot Encoding(獨(dú)熱編碼)
傳統(tǒng)文本表示方法中最基本的表示方法是One-Hot編碼方式。One-Hot Encoding是最早的一種比較直觀的詞向量生成方式。這種映射方式通過匯總語(yǔ)料庫(kù)里的所有詞匯得到N個(gè)詞匯,并將每個(gè)個(gè)體生成一個(gè)N維向量。這是一種較為簡(jiǎn)單的映射方式,僅利用了單詞的相關(guān)位置信息,沒有把單詞的語(yǔ)義信息考慮在內(nèi),并且隨著語(yǔ)料庫(kù)的增加,會(huì)產(chǎn)生“維度災(zāi)難”問題。
2.1.2 Word Embedding(詞嵌入)
詞向量采取稠密向量對(duì)文本進(jìn)行表示,使“維度災(zāi)難”問題得以解決,因此被廣泛應(yīng)用于各種自然語(yǔ)言處理任務(wù)中。鐘桂鳳等[7]使用Word2Vec(詞嵌入)進(jìn)行詞向量的訓(xùn)練,并采用改進(jìn)注意力機(jī)制的方法進(jìn)行文本分類。Word2Vec根據(jù)預(yù)測(cè)方法提出了連續(xù)詞袋模型(CBOW)和跳元模型(Skip-gram)兩種模型結(jié)構(gòu)。CBOW模型預(yù)測(cè)目標(biāo)詞語(yǔ)采取的方法為根據(jù)上下文進(jìn)行預(yù)測(cè);Skip-gram則是根據(jù)當(dāng)前出現(xiàn)的詞預(yù)測(cè)上下文的模型。FastText(快速文本分類)模型[8]是對(duì)Word2Vec模型的一種改進(jìn),用于預(yù)測(cè)中心詞。方炯焜等[9]同時(shí)考慮了文本的局部信息與整體信息,采用全局詞向量(Global Vectors,GloVe)模型,再利用GRU(門控循環(huán)單元)進(jìn)行訓(xùn)練。下游文本分類任務(wù)效果的提升得益于Word2Vec、GloVe等模型訓(xùn)練得到的詞向量特征表示,但本質(zhì)上這些模型屬于靜態(tài)的預(yù)訓(xùn)練技術(shù),即便是在不同的上下文中,同一詞語(yǔ)可能會(huì)有相同的詞向量,所以會(huì)出現(xiàn)一詞多義的問題,這也導(dǎo)致在下游分類任務(wù)中的技術(shù)性能受限問題。
2.1.3 Bert詞向量
2018 年以來(lái),基于Transformer的預(yù)訓(xùn)練模型相繼被提出,并用于不同的下游任務(wù)。Bert模型可以捕捉更深層次的語(yǔ)義信息,基于Bert的文本分類模型是由預(yù)訓(xùn)練(Pre-Training)和預(yù)微調(diào)(Fine-Tuning)兩個(gè)部分構(gòu)成。預(yù)訓(xùn)練采用自監(jiān)督訓(xùn)練,使用大量未經(jīng)標(biāo)注的文本語(yǔ)料完成訓(xùn)練,可以很好地學(xué)習(xí)到文本語(yǔ)義特征和深層次的文本向量表示;預(yù)微調(diào)的起點(diǎn)為預(yù)訓(xùn)練Bert模型,其擬合和收斂則需根據(jù)具體的分類任務(wù)完成。楊彬[10]提出在罪名和相關(guān)法律條文文本分類任務(wù)中使用Bert詞向量結(jié)合Attenton-CNN模型,取得了比較好的分類效果。
在自然語(yǔ)言處理領(lǐng)域發(fā)展迅猛的有循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN),并在文本分類任務(wù)中得以廣泛應(yīng)用,循環(huán)神經(jīng)網(wǎng)絡(luò)是用于建模序列化數(shù)據(jù)的,并且可以捕獲長(zhǎng)距離輸入依賴的一種深度學(xué)習(xí)模型。但是,循環(huán)神經(jīng)網(wǎng)絡(luò)在處理文本時(shí)可能會(huì)出現(xiàn)“梯度消失”或“梯度爆炸”問題,學(xué)習(xí)能力有限。張?jiān)葡璧萚11]采用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行文本分類,該網(wǎng)絡(luò)降低了循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)難度,長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory,LSTM)模型是對(duì)RNN的擴(kuò)展,可以對(duì)有價(jià)值的信息進(jìn)行長(zhǎng)期記憶,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)存在的“梯度消失”或“梯度爆炸”問題。與此同時(shí),一些組合模型也相繼被提出用于解決文本分類題,田園等[12]采用雙向LSTM網(wǎng)絡(luò)模型提取文本的上下文信息,并融合注意力機(jī)制以提高文本分類效果。吳小華等[13]對(duì)文本進(jìn)行情感分析時(shí),利用基于自注意力機(jī)制的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)可以得到更好的文本句法信息;XIAO等[14]提出了char-CRNN模型,首先進(jìn)行卷積操作,然后用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行特征的提取。
文本特征融合可以學(xué)習(xí)到更好的特征表示,即最具差異性的信息能從融合過程中涉及的多個(gè)原始特征向量中獲得。本文針對(duì)中文新聞文本進(jìn)行分類模型研究,綜合考慮了Bert模型在文本表示方面和BiLSTM在語(yǔ)言模型構(gòu)建的特征優(yōu)化方面表現(xiàn)的優(yōu)點(diǎn),提出了基于Bert的特征融合網(wǎng)絡(luò)模型Bert-BiLSTM。本文采用的融合方式為特征層次融合[15],首先使用神經(jīng)網(wǎng)絡(luò)將原始詞向量轉(zhuǎn)化成高維特征表達(dá),然后針對(duì)提取到的高維特征進(jìn)行融合。中文文本分類整體流程如圖1所示。
圖1 中文文本分類流程圖Fig.1 Flow chart of Chinese text classification
Bert-BiLSTM模型結(jié)構(gòu)圖如圖2所示。本模型在上游部分使用Bert生成的字符向量作為字符嵌入層,在下游部分將BiLSTM作為特征提取器進(jìn)行建模,并使用Dropout降低過擬合風(fēng)險(xiǎn),最后輸入Softmax函數(shù)預(yù)測(cè)文本分類。Bert和BiLSTM的結(jié)合可以獲得更復(fù)雜的語(yǔ)義特征,構(gòu)建更準(zhǔn)確的語(yǔ)義表達(dá)。
圖2 模型總框架圖Fig.2 General framework of the model
Bert模型采用雙向Transformer編碼器獲取文本的特征表示。多層雙向Transformer編碼器的輸入為字符級(jí)的文本,訓(xùn)練過后輸出為文本字符級(jí)特征。Bert詞嵌入結(jié)構(gòu)圖如圖3所示,由嵌入層、分割嵌入層及位置嵌入層構(gòu)成。本文選用Bert做文本的詞嵌入,將文本向量改變格式后輸送到Bert中進(jìn)行編碼,便得到句子中每個(gè)字的向量表示。由于Bert使用更大規(guī)模的語(yǔ)料進(jìn)行模型的訓(xùn)練,所以這也加強(qiáng)了詞嵌入模型的泛化能力,使得文本序列中字符級(jí)、單詞級(jí)、句子級(jí)及句與句間關(guān)系的上下文特征得到了更充分的描述。Bert的這一特點(diǎn)適用于新聞標(biāo)題文本較短但含義豐富的特征,可以得到更好的詞嵌入信息。
圖3 Bert詞嵌入結(jié)構(gòu)圖[6]Fig.3 Structure diagram of Bert word embedding
LSTM即長(zhǎng)短期記憶網(wǎng)絡(luò),是RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的一種變體,其解決了RNN存在的長(zhǎng)期依賴問題。LSTM具有遺忘門、輸入門和輸出門,其結(jié)構(gòu)如圖4所示。
圖4 LSTM結(jié)構(gòu)Fig.4 LSTM structure
雙向循環(huán)網(wǎng)絡(luò)由1 個(gè)正向LSTM和1 個(gè)反向LSTM構(gòu)成。單向LSTM根據(jù)前一時(shí)刻的信息預(yù)測(cè)當(dāng)前時(shí)刻的輸出。BiLSTM與LSTM一樣,具有門控狀態(tài),可以捕捉更長(zhǎng)距離的信息,使循環(huán)神經(jīng)網(wǎng)絡(luò)長(zhǎng)期依賴的問題得以有效解決。BiLSTM模型可以將各個(gè)字符以句子的形式進(jìn)行表達(dá),并且考慮字符之間的依賴關(guān)系。因此,本文選擇使用BiLSTM捕捉每個(gè)單詞的上下文語(yǔ)義信息,其結(jié)構(gòu)如圖5所示。
圖5 BiLSTM結(jié)構(gòu)Fig.5 BiLSTM structure
本文使用的數(shù)據(jù)來(lái)自THUCNews新聞數(shù)據(jù)集[THUCNews是根據(jù)新浪新聞RSS訂閱頻道2005—2011 年的歷史數(shù)據(jù)篩選過濾生成,包含74萬(wàn)篇新聞文檔(2.19 GB),均為UTF-8純文本格式]。在開源網(wǎng)站搜集到的THUCNews的新聞標(biāo)題文本數(shù)據(jù)集,共20萬(wàn)條數(shù)據(jù),包含財(cái)經(jīng)、房產(chǎn)、股票等10 個(gè)類別,其中訓(xùn)練集數(shù)量為16萬(wàn)條,測(cè)試集數(shù)量為2萬(wàn)條,驗(yàn)證集數(shù)量為2萬(wàn)條。
本文實(shí)驗(yàn)環(huán)境為操作系統(tǒng)Windows 10,顯卡型號(hào)為GTX2060,開發(fā)語(yǔ)言為Python 3.10,搭建深度學(xué)習(xí)模型使用框架為Pytorch。
本文對(duì)分類結(jié)果進(jìn)行評(píng)估的指標(biāo)為Precision(精確率)、Recall(召回率)、F1值和Accuracy(準(zhǔn)確率)。精確率是指分類正確的正樣本個(gè)數(shù)占模型判定為正樣本的樣本個(gè)數(shù)的比例。召回率是指分類正確的正樣本個(gè)數(shù)占真正的正樣本的樣本個(gè)數(shù)的比例。只有當(dāng)精確率與召回率的數(shù)值同為1時(shí),F(xiàn)1值才能達(dá)到最大。F1-score是Precision與Recall兩個(gè)指標(biāo)的結(jié)合,可以更加全面地反映分類性能。用F1值評(píng)估模型性能時(shí),模型性能越好,F(xiàn)1值越接近于1,是衡量分類效果的重要評(píng)價(jià)指標(biāo)。準(zhǔn)確率是指分類正確的樣本占總樣本個(gè)數(shù)的比例。相關(guān)計(jì)算如式(1)—式(4)所示。TP表示實(shí)際正樣本預(yù)測(cè)為正,TN表示負(fù)樣本預(yù)測(cè)為負(fù),F(xiàn)P表示負(fù)樣本預(yù)測(cè)為正,F(xiàn)N表示正樣本預(yù)測(cè)為負(fù)。
為了驗(yàn)證本文所提模型對(duì)網(wǎng)絡(luò)新聞主題分類的有效性,選擇以下被廣泛應(yīng)用于新聞分類的模型進(jìn)行對(duì)比,具體對(duì)比情況如下。
BiLSTM:詞向量由Word2Vec訓(xùn)練所得,并且作為詞嵌入層輸入BiLSTM層中進(jìn)行特征提取。
AttentionBiLSTM:由BiLSTM和Attention組合的復(fù)合網(wǎng)絡(luò)模型。
FastText:JOULIN等[9]提出的快速文本分類方法,其訓(xùn)練速度較基于CNN和RNN的模型要快得多。
Bert-RCNN:輸入為Bert學(xué)習(xí)到的詞向量,然后通過RCNN[16]進(jìn)行進(jìn)一步的學(xué)習(xí)。該網(wǎng)絡(luò)由循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)文本的上下文表示,文本中的關(guān)鍵信息再用最大池化層捕獲。實(shí)驗(yàn)結(jié)果如表1所示。
表1 各模型實(shí)驗(yàn)結(jié)果Tab.1 Results of each model experiment
Bert-BiLSTM模型在測(cè)試集上對(duì)每一種分類進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表2所示。與不同模型的實(shí)驗(yàn)對(duì)比結(jié)果如圖6所示,實(shí)驗(yàn)結(jié)果證明Bert詞嵌入模型與BiLSTM模型融合后的分類效果更好。
圖6 各模型效果對(duì)比Fig.6 Comparison of effects of various models
分析表2中的數(shù)據(jù)可知,使用Word2Vec的BiLSTM、Attention-BiLSTM的分類效果比Bert-BiLSTM差,證明預(yù)訓(xùn)練模型在提取句子語(yǔ)義特征表示方面優(yōu)于Word2Vec。為了進(jìn)一步證明本文使用的BiLSTM模型對(duì)特征提取的有效性,本文選擇Bert-RCNN進(jìn)行實(shí)驗(yàn)對(duì)比。從表2中可以看出,本文使用的Bert-BiLSTM組合模型的分類效果最佳。Bert-BiLSTM模型相較于Bert-RCNN模型,其準(zhǔn)確率提升了0.0174。所提模型在分類時(shí)已經(jīng)達(dá)到較高的精度。使用預(yù)訓(xùn)練詞向量的模型和使用Word2Vec詞向量的模型相比,使用了預(yù)訓(xùn)練詞向量的模型準(zhǔn)確率明顯提升。
表2 Bert-BiLSTM模型實(shí)驗(yàn)結(jié)果Tab.2 Bert-BiLSTM model experimental results
通過分析以上實(shí)驗(yàn)結(jié)果可得,本文構(gòu)建的基于Bert-BiLSTM新聞短文本分類模型具有比其他基線模型更強(qiáng)的特征提取與特征組合能力,適用于處理新聞短文本分類任務(wù),相比其他模型具有更出色的表現(xiàn)和效果。綜上所述,本文所提Bert-BiLSTM模型在進(jìn)行短文本分類時(shí),獲得的分類效果較好。
從THUCNews新聞測(cè)試集中選取4 條預(yù)測(cè)錯(cuò)誤的例子進(jìn)行解釋,具體分析結(jié)果如表3所示。
表3中,新聞樣本(1)的實(shí)際類別為娛樂,預(yù)測(cè)類別為社會(huì),該分類相對(duì)合理,這條新聞同時(shí)具有娛樂新聞和社會(huì)新聞兩條屬性。新聞樣本(2)的實(shí)際類別為時(shí)政,但是被分類為娛樂,分析原因可能是“戛納”一詞偏娛樂屬性。新聞樣本(3)的實(shí)際類別為教育,但是被分類為社會(huì),分析原因可能是“防身手冊(cè)”偏社會(huì)屬性。新聞樣本(4)的實(shí)際類別為教育,預(yù)測(cè)類別為財(cái)經(jīng),分析原因可能是這條新聞可以認(rèn)為是教育問題也可以認(rèn)為是財(cái)經(jīng)問題。
表3 錯(cuò)誤樣本分析表Tab.3 Error sample analysis table
通過以上分析可以看出,模型在對(duì)比較有深意的文本進(jìn)行分類時(shí),效果較差,并且分類效果也受語(yǔ)料影響。但是,從新聞樣本(1)和新聞樣本(4)的分類結(jié)果可以看出,模型的分類結(jié)果具有合理性,并且能精準(zhǔn)地識(shí)別類別。
互聯(lián)網(wǎng)的快速發(fā)展產(chǎn)生了大量短文本,短文本不但有內(nèi)容特征稀疏的特點(diǎn),而且存在上下文依賴較強(qiáng)的問題。近年來(lái),基于詞向量的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)優(yōu)勢(shì)顯著,成為文本分類任務(wù)的主流。本文針對(duì)文本表示模型中的詞向量在不同語(yǔ)境下的詞語(yǔ)多義問題,綜合考慮了Bert模型在文本表示和BiLSTM在語(yǔ)言模型構(gòu)建的特征優(yōu)化方面的優(yōu)勢(shì),提出基于Bert的特征融合網(wǎng)絡(luò)模型(Bert-BiLSTM),使用Bert模型獲取文本的特征表示,將得到的特征表示輸入BiLSTM網(wǎng)絡(luò)中進(jìn)行進(jìn)一步的特征提取。通過實(shí)驗(yàn)證明,本文所提方法在進(jìn)行新聞短文本分類時(shí)獲得了良好的分類效果。