童根梅 朱敏
摘要: 首先 , 提出構(gòu)建雙向的全連接結(jié)構(gòu)用于更好提取上下文的信息;然后 , 利用雙向的注意力機制將包含豐富文本特征的矩陣壓縮成一個向量;最后 , 將雙向的全連接結(jié)構(gòu)和門控制結(jié)構(gòu)相結(jié)合. 通過實驗驗證了上述結(jié)構(gòu)對于提升文本分類的準確率具有積極的作用.將這3 種結(jié)構(gòu)和雙向的循環(huán)網(wǎng)絡(luò)進行結(jié)合 , 組成了所提出的文本分類模型. 通過在7 個常用的文本分類數(shù)據(jù)集(AG、DBP、Yelp.P、Yelp.F、Yah.A、 Ama.F、Ama.P)上進行的實驗 , 得到了具有競爭性的結(jié)果并且在其中5 個數(shù)據(jù)集(AG、DBP、Yelp.P、 Ama.F、Ama.P)上獲得了較好的實驗效果. 通過實驗表明 , 所提出的文本分類模型能顯著降低分類錯誤率.
關(guān)鍵詞:文本分類;? 注意力機制;? 長短記憶網(wǎng)絡(luò)
中圖分類號: TP399??? 文獻標志碼: A??? DOI: 10.3969/j.issn.1000-5641.2022.02.008
Bi-directional long short-term memory and bi-directional gated attention networks for text classification
TONG Genmei1 ,? ZHU Min2
(1. School of Computer Science and Technology, East China Normal University, Shanghai? 200062, China;
2. School of Data Science and Engineering, East China Normal University, Shanghai? 200062, China)
Abstract: In this paper, we propose the construction of a bi-directional fully connected structure for better extraction of context information. We also propose the construction of a bi-directional attention structure for compressing matrices containing rich text features into a vector. The bi-directional fully connected structure and the gated structure are then combined. This research demonstrates that the proposed combined structure has a net positive effect on text classification accuracy. Finally, by combining these three structures and a bi-direction long short-term memory, we propose a new text classification model. Using this model, we obtained competitive results on seven commonly used text classification datasets and achieved state-of-the-art results on five of them. Experiments showed that the combination of these structures can significantly reduce classification errors.
Keywords: text classification;? attention;? long short-term memory
0? 引言
互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展產(chǎn)生了海量的數(shù)據(jù)信息 , 使得人們進入了大數(shù)據(jù)時代 , 互聯(lián)網(wǎng)也成為人們獲取信息的主要渠道之一.通過互聯(lián)網(wǎng)可以傳遞各種形式的信息 , 其中絕大部分信息都以文本的形式存在, 文本形式的信息能夠讓用戶快速、便利地獲取.面對海量的信息, 用戶如何能從其中精準地獲取對自己有價值的信息變得越來越難 , 這就對于信息檢索和信息分類技術(shù)的要求越來越高.因此 , 如何讓用戶從互聯(lián)網(wǎng)的海量信息中快速、精準地獲取對自己有用的信息 , 尋找一種能對文本信息進行準確分類的方法變得尤為重要.
自然語言處理的目的是讓計算機能成功地處理大量的自然語言數(shù)據(jù). 文本分類是自然語言處理的一個基本任務 , 同時也是自然語言處理任務中一個非常重要的環(huán)節(jié). 文本分類是指計算機按照預先定義好的分類標準 , 根據(jù)文本的內(nèi)容自動地將文本數(shù)據(jù)集中的每一個文本劃分到某一個類別中 , 整個系統(tǒng)輸入的是需要進行分類的大量文本數(shù)據(jù)集 , 輸出的是每個文本所屬的類別. 相對于傳統(tǒng)手動獲取文本特征進行分類的方法 , 通過計算機對文本的自動處理 , 不僅提升了分類的效率 , 而且能進一步提高分類的準確性. 如今, 文本分類被廣泛應用 , 比如, 情感分析、問答系統(tǒng)和垃圾郵件檢測等.
LEAM (Label-Embedding Attention Model)認為一個典型的文本分類方法包含3 個步驟[1]:第 1步 , 將文本通過詞嵌入轉(zhuǎn)化為矩陣 V, 其中 Word2vec 和 GloVe 是2種常用的詞向量生成方法[2] , 目前用得比較多的還有動態(tài)詞向量 , 它是將輸入的文本 , 經(jīng)過預訓練的模型后 , 輸出相應單詞的詞向量表示 , 這類詞嵌入的預訓練語言模型主要有 ELMo (Embedding from Language Models)[3] , BERT (Bidirectional Encoder Representations from Transformers)[4] , GPT-2(Generative Pre-Training-2)[5]等.第 2步 , 通過不同的方法將詞嵌入形式的矩陣 V 轉(zhuǎn)化成固定長度的向量表示 Z, 該過程的目的是從文本的分布式表達中提取特征.第 3步 , 設(shè)計一個分類器對固定長度的向量表示 Z 標記標簽 , 該過程的分類器通常是由一個全連接層和 softmax 函數(shù)構(gòu)成.雖然很多研究人員在設(shè)計各種不同的特征提取方法時 , 將文本的分布式表達矩陣 V 轉(zhuǎn)化為固定長度的向量表示 Z, 但這些方法在提取文本的上下文信息上仍然存在局限性. 卷積神經(jīng)網(wǎng)絡(luò) CNN (Convolutional Neural Network)和循環(huán)神經(jīng)網(wǎng)絡(luò) RNN (Recurrent Neural Network)是最為常見的2 種特征提取方法. Kim[6]首先提出了采用 CNN 進行文本分類并且實現(xiàn)了超越傳統(tǒng)方法的效果. 但是該方法只是通過使用不同尺寸的卷積核和不同的池化操作來考慮短語的重要性 , 不具有聯(lián)系上下文的能力. 為了解決這個問題 , 文獻[7-8]提出了使用 Deep- CNN 進行文本分類 , 雖然這種方法具有聯(lián)系上下文的能力 , 但是會導致參數(shù)的增加 , 使得模型訓練過程更加困難. RNN 具有更強的聯(lián)系上下文的能力 , 但是它是具有偏向性的模型 , 很難聯(lián)系長距離的依賴關(guān)系.為此 , Hochreiter 等[9]提出了 LSTM (Long Short-Term Memory)和門控循環(huán)單元 GRU (Gate Recurrent Unit), 它們能較好地解決傳統(tǒng) RNN 的弊端. 文獻[10-11]提出了將 CNN 和 RNN進行結(jié)合的方法 , 這種方法首先利用 RNN 來提取上下文信息 , 然后通過 CNN 構(gòu)造更深層的特征表達 , 最后使用最大池化操作進行特征選取 , 從而提取到一些重要的特征.
為了解決 RNN 在聯(lián)系長距離依賴關(guān)系中存在不足的問題 , 本文所提出的結(jié)構(gòu)從2個方向上對特征矩陣進行特征提取.實驗表明這種方法能更好地提取上下文信息.同時 , 將該方法和循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合 , 進一步強化了整個模型對上下文的理解 , 其中 , 循環(huán)神經(jīng)網(wǎng)絡(luò)主要負責提取局部的信息 , 雙向的全連接網(wǎng)絡(luò)則將局部的信息整合成包含全文信息的特征.此外 , 本文還提出了一種雙向的注意力機制 , 這種方法能從2個方向上將富含文本特征的矩陣融合為一個向量 , 嘗試將 LSTM 中的門控制結(jié)構(gòu)和本文所提出的雙向的全連接結(jié)構(gòu)進行結(jié)合 , 以提升分類模型在文本分類運用中的效果.在 7個通用的文本分類數(shù)據(jù)集(AG、DBP、Yelp.P、Yelp.F、Yah.A、Ama.F、Ama.P)上進行了實驗 , 得到了具有競爭力的結(jié)果 , 在其中的5 個數(shù)據(jù)集(AG、DBP、Yelp.P、Ama.F、Ama.P)中 , 本文所提出的模型達到了最低的測試錯誤率 , 特別是在2個較大的數(shù)據(jù)集(Ama.F、Ama.P)中 , 本文所提出的組合模型使得測試錯誤率相比于之前最好實驗效果的錯誤率降低了約17.47%.
1? 相關(guān)工作和模型算法
1.1? 模型
本文所提出的模型結(jié)構(gòu)由5 個部分組成:輸入層、雙向 LSTM 層、門控制和雙向全連接層、雙向注意力層及輸出層 , 模型結(jié)構(gòu)如圖 1所示.
1.2? 雙向 LSTM 層
為了解決梯度消失和梯度爆炸問題 , Hochreiter 等[9]首先提出了 LSTM.其主要思想是采用當前的輸入信息和門控制結(jié)構(gòu)決定之前狀態(tài)的保留程度. 將輸入的文本表示成 X =(x1; x2; ·· ·; xl). 其中 l 是輸入文本的長度 , xi 表示文本中的第 i 個詞向量. 式(1)是 LSTM 的基本單元 , 用于更新t 時刻的記憶Ct和隱藏層的狀態(tài) , 具體表示為
式(1)中: W ∈ R4n? (n+m) , m 是詞向量的長度 , n 是隱藏單元的個數(shù); b ∈ R4n 是一個偏置項;[ht ; xt]是一個級聯(lián)的操作;? 是一個sigmoid 函數(shù) , 表示輸入門 t 、忘記門ft 和輸出門ot 的激活函數(shù); tanh 表示候選狀態(tài) t 的激活函數(shù)是雙曲正切函數(shù) , 當前的狀態(tài)Ct用于存儲上下文的信息 , 忘記門ft 和輸入門? t用于過濾上一時刻的狀態(tài)Ct? 1和當前時刻的候選狀態(tài) t并將它們組合成當前的狀態(tài)Ct , 具體輸出的內(nèi)容由輸出門ot控制;?表示向量對應元素進行數(shù)乘運算 , 通過相應的門控制結(jié)構(gòu)控制相關(guān)內(nèi)容的刪除和保留. Hochreiter 等[9]通過連接相反時間順序流中每個時刻的信息 , 將無向的 LSTM 網(wǎng)絡(luò)擴展為雙向的 BLSTM (Bidirectional Long Short-Term Memory), 因此該模型能考慮過去和未來的信息.在本文中 , BLSTM 用于捕捉過去和未來的信息 , BLSTM 在每個時刻的輸出主要考慮了較小范圍內(nèi)的信息.在 BLSTM 中t 時刻的輸出ht 可以表示為
1.3? 門控制和雙向全連接層
從 LSTM 的網(wǎng)絡(luò)結(jié)構(gòu)中可以知道 , LSTM 通過門控制結(jié)構(gòu)能從模型的輸入、輸出以及上下文中篩選出有效信息.這個方法的核心是在全連接層利用 sigmoid 和 tanh 作為激活函數(shù)來獲取文本特征 , 并將所得到的結(jié)果進行點乘.
門控制結(jié)構(gòu)能選擇更有效的信息以及消除一些無用的信息 , 因此 , 本文將雙向的全連接結(jié)構(gòu)和門控制結(jié)構(gòu)進行了組合 , 提出了門控制的雙向全連接結(jié)構(gòu). 雙向的全連接結(jié)構(gòu)經(jīng)過激活函數(shù)之后 , 將2 個輸入矩陣進行點乘 , 如圖 2所示.
1.4? 雙向注意力層
在介紹雙向注意力結(jié)構(gòu)之前 , 首先對注意力機制進行介紹. Pappas 等[12]第一次提出了一種將 GRU 網(wǎng)絡(luò)和注意力機制相結(jié)合的方法 , 并在文本分類中進行運用. 注意力機制表示為
(3)
式(3)中: H 表示一個特征圖矩陣; Ws表示該全連接層的特征向量; bs表示對應的偏置項; tanh 表示所對應的激活函數(shù);? 表示權(quán)重矩陣; T 表示轉(zhuǎn)置. H 由 GRU 網(wǎng)絡(luò)在各個時刻的輸出組成 , 例如 , i 時刻的輸出即為 hi .首先 , 將 GRU 網(wǎng)絡(luò)中每一時刻的輸出經(jīng)過一個全連接層 , 再將一個隨機初始化上下文向量us(T)和上一步所得到的結(jié)果進行相乘 , 得到 hi 和上下文的相似度值Si;然后 , 將每個得分利用 softmax 函數(shù)進行正則化 , 得到歸一化的權(quán)重矩形 ;最后 , 對每個輸入利用相應的得分進行加權(quán)求和得到對應句子向量v .這是一個自注意力機制 , 通過自身的輸入確定自身的權(quán)重 , 對所有的輸入進行加權(quán)求和得到模型的輸出.如果將所有的輸入組合成一個矩陣 , 那么這個過程可以看成是將一個矩陣融合成一個向量的過程.式 (3)表示的注意力機制通過對特征向量進行加權(quán)求和 , 得到包含豐富文本信息的文本向量.因此 , 也可以采用對相同特征維度、不同時間維度的向量進行加權(quán)求和的方法 , 以得到最適合的句子表示向量 , 這也是一種將矩陣融合為向量并且通過輸出層對文本進行分類的方法.本文對這種方法進行了測試 , 式(4)展示了該方法的定義 , 用時間維度的向量表示替代式(3)中的特征維度向量表示 , 具體為
最后 , 本文將特征維度注意力機制所獲得的向量v 和時間維度注意力機制所獲得的向量連接成一個向量 V .
式(5)表示將向量v 和連接成一個向量 , 最后將連接后的向量作為輸出層的輸入.
1.5? 輸出層
在輸出層中 , 本文采用了一個全連接層和 softmax 函數(shù)來預測文本所屬的類別. 式(6)表示選擇最高概率值所對應的標簽作為文本的標簽 , 具體為
式(6)中: Ws為該全連接層的特征向量; bs為對應的偏置項; 是利用 softmax 函數(shù)計算得到對應的輸出值; 表示該文本標簽值.
2? 實驗準備
2.1? 實驗數(shù)據(jù)集和設(shè)置
為了方便和之前的模型進行比較 , 本文采用了7 個常用的數(shù)據(jù)集( 表1).這 7個數(shù)據(jù)集是由 Zhang 等[13]收集得到的. AG (AG_news)數(shù)據(jù)集是有關(guān)新聞(news)的 , 它包含了4 個類別. 數(shù)據(jù)集中句子的平均長度是45個詞 , 訓練集和測試集數(shù)據(jù)相對都比較小. DBP (DBPedia)是一個關(guān)于 Ontology 的具有 14個類別的分類數(shù)據(jù)集. 該數(shù)據(jù)集中文本的平均長度是55. Yelp 和 Ama 是2 個有關(guān)評價的數(shù)據(jù)集.“.P”表示“Polarity”意味著是他們是二分類的數(shù)據(jù)集.“.F”是“Full”的縮寫意味著該數(shù)據(jù)集是對評論更為細致的劃分 , 具有更多的類別. Yelp.F 和 Ama.F 的類別數(shù)都是5. Yah.A 是一個10分類的數(shù)據(jù)集, 數(shù)據(jù)來源于 https://answers.yahoo.com/. 表1展示了每個數(shù)據(jù)集的統(tǒng)計信息.
表 1中: SA 表示情感分析(Sentiment Analysis); QA 表示問答(Question Answering);#s 表示句子的數(shù)量;#w 表示每個文檔中詞的平均數(shù)量; k 表示計數(shù)單位千; M 表示計數(shù)單位兆.
在文本數(shù)據(jù)預處理過程中 , 首先 , 使用空格將標點符號與句子中的單詞分開 , 本文認為標點符號在分類中扮演非常重要的角色 , 因此保留了各種標點符號. 然后 , 使用 NLTK (Natural Language Toolkit)的標記器工具來劃分句子. 最后 , 將所有大寫字母轉(zhuǎn)換為小寫字母. 為了使模型的輸入具有相同的大小 , 對于相同的數(shù)據(jù)集 , 將所有句子的長度限制為固定長度. 對于簡短的句子 , 添加特殊詞“PADDING”. 數(shù)據(jù)集中出現(xiàn)了大量單詞 , 有些單詞很罕見 , 這些罕見的單詞中有些是拼寫錯誤導致的.因此, 刪除這些罕見的單詞 , 有效地減少了詞匯量 , 對分類準確性幾乎沒有影響.
對于模型的參數(shù)設(shè)置和訓練 , 本文實驗使用未標記的數(shù)據(jù)訓練單詞向量 , 這樣操作可以顯著提高神經(jīng)網(wǎng)絡(luò)的泛化能力 , 并防止數(shù)據(jù)稀疏[14]. 在模型訓練過程中 , 對詞向量進行微調(diào)可以有效提高分類的準確性 , Pennington 等[2]使用 GloVe 模型訓練本文中所使用的詞向量. GloVe.42B 向量的維數(shù)為300.對于沒有預訓練詞向量的詞 , 本文實驗將其隨機初始化, 隨機生成向量中的每個元素的值都在區(qū)間[–0.5, 0.5]上.雙向 LSTM 網(wǎng)絡(luò)中的隱藏單元數(shù)為305, 在雙向完全連接結(jié)構(gòu)中 , 第1—2步中的隱藏單元數(shù)都為305.對于不同的分類任務 , 本文所選擇文本的平均單詞量如表 2所示.
在雙向注意機制中 , 第1 步隱藏單元的大小選擇為152, 第2 步隱藏單元的大小選擇為?l/2? , 其中 l 為句子長度 , “??”表示向上取整.從文本矩陣的輸入 , 到 BLSTM 網(wǎng)絡(luò)的輸出 , 本文對所有任務都采用 dropout 方法來避免梯度消失現(xiàn)象的出現(xiàn). 本文還使用 Adam 訓練模型[15] , 初始學習率為0.001.學習率以指數(shù)方式衰減 , 經(jīng)過一個時期的訓練 , 學習率變?yōu)樽詈笠粋€時期的94%.
2.2? 實驗基準
Linear model[13]:運行步驟為 , 首先, 進行人工提取特征;然后, 進行多項邏輯回歸;最后, 得到相應文本的類別. 常見的人工特征工程包括詞袋和詞頻逆文檔頻率.
Char-level CNN/Word-level CNN: Zhang 等[13]設(shè)計了一個9 層的卷積神經(jīng)網(wǎng)絡(luò)進行文本分類. 使用字符級和詞級進行詞嵌入來考慮其對文本分類的影響 , 其中, 詞級輸入由預訓練的詞向量表示.
Char-RCNN[16]:在此模型中 , 使用字符級嵌入方式 , 輸入的字符級嵌入 , 首先 , 通過卷積網(wǎng)絡(luò)層;然后, 通過 LSTM 網(wǎng)絡(luò);最后, 通過輸出層獲得不同標簽的預測概率.
FastText[17]:該模型結(jié)構(gòu) , 首先 , 將文本轉(zhuǎn)換為由 Word2vec 訓練的詞向量;然后 , 對文本的詞向量進行平均池化操作;最后 , 使用線性分類器獲得最終的輸出結(jié)果.此模型結(jié)構(gòu)不僅簡單 , 而且訓練速度非???
VDCNN (Very Deep Convolutional Neural Networks)[7]: VDCNN 是由 29個卷積層組成的網(wǎng)絡(luò) , 它可以獲取更深層次的文本表示 , 增強了模型理解上下文的能力 , 在大型數(shù)據(jù)集上取得了非常好的實驗結(jié)果.
DPCNN (Deep Pyramid Convolutional Neural Networks)[8]:這是一個具有15個卷積層的深度神經(jīng)網(wǎng)絡(luò). 通過使用下采樣 , 縮短模型的訓練時間 , 使用短連接解決梯度消失和梯度爆炸問題.
Region.emb[18]:文獻[18]提出了一種新的與任務相關(guān)的“局部嵌入”模型, 以分布式 n-gram 表示文本, 可以有效地捕獲重要的句法細節(jié) , 從而提高文本分類準確性.
LEAM[1]:該模型提出了一種用于分類標簽的詞嵌入新方法以及一種新的注意力機制 , 從而優(yōu)化了分類效果.
3? 實驗結(jié)果
3.1? 每個模塊對模型的影響
構(gòu)建整個模型的過程是 , 先構(gòu)建出每個對分類具有積極意義的模塊 , 再將各個模塊通過合適的方式拼成一個大的模型.為了確保實驗的科學性 , 在所有的模型上進行的實驗所采用的實驗參數(shù)和條件都保持一致.
3.1.1? 雙向注意力機制
假設(shè)在輸入的文本矩陣中 , 每一個列向量代表一個特征向量 , 通常對該特征向量進行加權(quán)求和只能得到 y 維度的注意力值. 本文從2個方向運用了注意力機制 , 對輸入矩陣的行向量進行加權(quán)求和 , 記為 x 維度的注意力值 , 對輸入矩陣的列向量進行加權(quán)求和 , 記為 y 維度的注意力值. 通過一個簡單的實驗驗證了二維的注意力結(jié)構(gòu)比單個維度更為有效.本文實驗對文本的特征矩陣添加注意力機制 , 利用一個輸出層和 softmax 函數(shù)對所屬標簽進行預測 , ATTx 表示文本矩陣 x 維度的注意力機制 , ATTy 表示文本矩陣 y 維度的注意力機制 , ATTxy 表示對文本矩陣2 個維度的向量都使用了注意力機制.由表3可知 , 即使只對 x 維度添加注意力機制 , 仍然可獲得不錯的分類效果 , 而在 y 維度的基礎(chǔ)上添加 x 維度注意力機制 , 能夠使得模型在各文本分類數(shù)據(jù)集上的分類錯誤率進一步降低.由此可知 , 該模型對于提升文本分類的準確率具有積極意義.
3.1.2? 雙向全連接層
本文所提出的雙向全連接結(jié)構(gòu) , 通過增加一個維度的全連接層使得模型具有更強的聯(lián)系上下文能力. 本文對只有一個維度上的全連接層網(wǎng)絡(luò)和2 個維度的全連接層網(wǎng)絡(luò)在相同的數(shù)據(jù)集上進行了實驗(表4).首先 , FC (Fully Connected)對輸入的文本矩陣經(jīng)過一個普通的全連接層;然后 , FC 再利用 y 維度的注意力機制對矩陣進行壓縮;最后 , FC 利用輸出層獲得其對每個標簽的預測概率. BFC (Bidirectional Fully Connected)相對于 FC 從一個維度的全連接層換成了2 個維度的全連接層. 通過比較 FC 和 ATTy 可知 , 增加簡單的全連接層能使得分類的準確率有所提升 , 這和構(gòu)建深層的卷積網(wǎng)絡(luò)用于文本分類具有類似的作用.對比 BFC 和 FC 的結(jié)果可知 , 增加另一個維度的全連接層對提升文本分類準確率是一種有效的方法.
3.1.3? 門控結(jié)構(gòu)
為了驗證 LSTM 的門控制結(jié)構(gòu)對于提升模型的分類效果具有積極的意義 , 本文在 BFC 的基礎(chǔ)上增加了門控制機制 , 注意力結(jié)構(gòu)仍然采用的是 y 維度的注意力(表5).由表5可知 , 增加門控制機制 ,降低了在 AG、Yelp.P 和 Yah.A 3個數(shù)據(jù)集上的錯誤率.
3.1.4?? BLSTM-ATTy
為了驗證在 BLSTM 的基礎(chǔ)上 , 增加雙向注意力機制能有效提升文本分類的效果 , 本文構(gòu)造了 BLSTM 增加一個維度的注意力機制的模型. 表 5展示了將 BLSTM 與注意力結(jié)構(gòu)相結(jié)合的方法. 通過該實驗可以發(fā)現(xiàn) , 該結(jié)構(gòu)在測試集上已經(jīng)能取得非常高的準確率 , 但是和表 6中最好的結(jié)果相比仍然還有差距.
3.2? 實驗結(jié)果
本文驗證了整個模型中不同的組成部分對于提高文本分類準確率具有積極意義. 本文最后將所有的結(jié)構(gòu)組合成一個更加完整的模型. 為了便于比較 , 表6列出了不同的模型在測試集上的錯誤率. 由表6可知 , 在所有的7 個數(shù)據(jù)集(AG、DBP、Yelp.P、Yelp.F、Yah.A、Ama.F、Ama.P)上 , 本文所提出的模型在其中的5 個數(shù)據(jù)集(AG、DBP、Yelp.P、Ama.F、Ama.P)上得到了較好的結(jié)果 , 在剩余的2 個數(shù)據(jù)集上也能得到非常具有競爭力的結(jié)果.
在 AG 和 DBP 2個較小的數(shù)據(jù)集上 , 本文的結(jié)果相比于其他模型所得到的結(jié)果在測試集上的錯誤率分別降低了12.37%和 14.77%.在 Ama.F 和 Ama.P 這2個較大的數(shù)據(jù)集上, 本文的模型使得錯誤率分別降低了13.76%和 17.47%.本文所提出的模型不僅擁有較強的聯(lián)系上下文的能力 , 同時添加了雙向注意力機制 , 使得文本特征的提取更加精確.雖然每個組成部分在文本分類任務中沒有取得足夠好的結(jié)果 , 但是本文將所有的結(jié)構(gòu)組合在一起使文本分類的效果有了很大的提升.為了得到類似的效果 , DPCNN 和 VDCNN 都是通過不斷地增加網(wǎng)絡(luò)的結(jié)構(gòu) , 本文的模型只包含了5 層結(jié)構(gòu)就得到比 DPCNN 和 VDCNN 更好的實驗結(jié)果.對于 DPCNN 和 VDCNN 結(jié)構(gòu) , 只有更高層次的卷積核才能獲得更大范圍的上下文信息 , 底層的卷積核只能獲得非常有限范圍的信息.本文通過引入雙向的全連接結(jié)構(gòu)能將不同位置的單詞信息聯(lián)系起來.
4? 結(jié)論
本文提出了雙向全連接結(jié)構(gòu)、雙向注意力結(jié)構(gòu)以及增加門控制機制的雙向全連接結(jié)構(gòu) , 在驗證了這 3種結(jié)構(gòu)有助于降低文本分類錯誤率的情況下 , 通過一定的方式將這3 種結(jié)構(gòu)和雙向 LSTM 進行組合 , 構(gòu)建了一種新的文本分類組合模型.在 7個通用的文本分類數(shù)據(jù)集上進行了實驗 , 獲得了具有競爭力的結(jié)果 , 證明了將本文所提出的3 種結(jié)構(gòu)與雙向 LSTM 進行組合所形成的新的模型能顯著降低在測試集上分類的錯誤率. 和其他深層的 CNN 模型相比 , 在包含輸出層的情況下本文只采用了5 層的結(jié)構(gòu) , 證明了將不同結(jié)構(gòu)進行合理的組合相比于不斷重復單一的結(jié)構(gòu)更加有效.
[參考文獻]
[1] WANG G, LI C, WANG W, et al. Joint embedding of words and labels for text classification [C]// Proceedings of the 56th AnnualMeeting of the Association for Computational Linguistics.2018:2321-2331.
[2] PENNINGTON J, SOCHER R, MANNING C. GloVe: Global vectors for word representation [C]// Conference on Empirical Methodsin Natural Language Processing.2014:1532-1543.
[3] PETERS? M,? NEUMANN? M,? IYYER? M,? et? al. Deep? contextualized? word? representations [EB/OL]. (2018-03-22)[2020-10-16].https://arxiv.org/pdf/1802.05365v2.pdf.
[4] DEVLIN J, CHANG M W, LEE K, et al. BERT: Pre-training of deep bidirectional transformers for language understanding [EB/OL].(2019-03-24)[2020-10-16]. https://arxiv.org/pdf/1810.04805.pdf.
[5] RADFORD A, WU J, CHILD R, et al. Language models are unsupervised multitask learners [EB/OL].(2019-01-08)[2020-10-16].https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf.
[6] KIM Y. Convolutional neural networks for sentence classification [EB/OL].(2014-09-03)[2020-10-16]. https://arxiv.org/pdf/1408.5882v2.pdf.
[7] CONNEAU A, SCHWENK H, BARRAULT L, et al. Very deep convolutional networks for text classification [EB/OL].(2017-01-27)[2020-10-16]. https://arxiv.org/pdf/1606.01781v2.pdf.
[8] JOHNSON R, TONG Z. Deep pyramid convolutional neural networks for text categorization [C]// Proceedings of the 55th AnnualMeeting of the Association for Computational Linguistics.2017:562-570.
[9] HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural Computation, 1997, 9(8):1735-1780.
[10] LAI S, XU L, LIU K, et al. Recurrent convolutional neural networks for text classification [C]// Proceeding of the 25th InternationalJoint Conference on Artificial Intelligence.2015:2267-2273.
[11] PENG Z, QI Z, ZHENG S, et al. Text classification improved by integrating bidirectional LSTM with two-dimensional max pooling[EB/OL].(2016-11-21)[2020-10-22]. https://arxiv.org/pdf/1611.06639.pdf.
[12] PAPPAS? N,? POPESCU-BELIS? A. Multilingual? hierarchical? attention? networks? for? document? classification [EB/OL]. (2017-09-15)[2020-09-14]. https://arxiv.org/pdf/1707.00896v4.pdf.
[13] ZHANG X, ZHAO J, LECUN Y. Character-level convolutional networks for text classification [EB/OL].(2015-09-10)[2020-09-11].https://arxiv.org/pdf/1509.01626v2.pdf.
[14] TURIAN J P, RATINOV L A, BENGIO Y. Word representations: A simple and general method for semi-supervised learning [C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.2010:384-394.
[15] KINGMA D, BA J. Adam: A method for stochastic optimization [EB/OL].(2015-07-30)[2020-10-16]. https://arxiv.org/pdf/1412.6980v8.pdf.
[16] XIAO Y, CHO K. Efficient character-level document classification by combining convolution and recurrent layers [EB/OL].(2016-02-01)[2020-10-16]. https://arxiv.org/pdf/1602.00367v1.pdf.
[17] JOULIN A, GRAVE E, BOJANOWSKI P, et al. Bag of tricks for efficient text classification [EB/OL].(2016-08-09)[2020-10-13].https://arxiv.org/pdf/1607.01759v3.pdf.
[18] QIAO C, HUANG B, NIU G, et al. A new method of region embedding for text classification [EB/OL].(2018-01-30)[2020-10-16].https://openreview.net/pdf?id=BkSDMA36Z.
(責任編輯:陳麗貞)