劉宇澤 葉青 劉建平
長沙理工大學(xué)電氣與信息工程學(xué)院,長沙 410114
隨著社會經(jīng)濟和旅游業(yè)的發(fā)展,游客選擇旅游景點時依賴于該景點的評論信息。評價信息既可以分析消費者的旅游感受,又可以影響其他潛在游客的景點選擇,而如何有效地分析景點評論的情感成為了一項非常有意義的任務(wù)。
情感分析是指通過分析用戶形容某件事件的文本而確定用戶對該事情的看法和評估?;谥С窒蛄繖C、樸素貝葉斯、最大熵、K鄰近等傳統(tǒng)的機器學(xué)習(xí)方法都可以用來解決情感分析問題[1]。PANG B等人[2]采用樸素貝葉斯分類的方法來計算文本的情感極性。LI D等人[3]研究了長短期記憶網(wǎng)絡(luò)在文本情感分類任務(wù)中的效果。PENGHUA Z等人[4]通過結(jié)合BiGRU和注意力機制并將其應(yīng)用于情感分類任務(wù),獲得了良好的分類結(jié)果。與以往的神經(jīng)網(wǎng)絡(luò)比較,預(yù)訓(xùn)練模型在許多 NLP任務(wù)中都有較好的作用。ELMo[5]、Transformer[6]、基于轉(zhuǎn)換器的雙向編碼表征BERT[7]等豐富的預(yù)訓(xùn)練模型接踵舉出。堪志群等人[8]將BERT與BiLSTM結(jié)合,BERT模型采用了一種特殊的調(diào)整方案,可以在學(xué)習(xí)過程中不斷地學(xué)習(xí)領(lǐng)域的知識,并通過神經(jīng)網(wǎng)絡(luò)的反饋對原有的模型進行參數(shù)的更正,在微博數(shù)據(jù)的觀點分析方面獲得了不錯的成效。胡任遠等人[9]提出了多層次語義協(xié)同模型,在不同數(shù)據(jù)集上驗證了該模型的優(yōu)越性。上述文獻對語篇序列情感極性的研究表明,BERT模型難以對文本情感進行多角度的分析學(xué)習(xí),在語句級別的文本情感分類中,BERT自身就是多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),與傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)合易出現(xiàn)退化的問題。
因此,本文提出一種將連結(jié)殘差網(wǎng)絡(luò)與BERT模型相結(jié)合的模型,該模型由不同維度的卷積神經(jīng)網(wǎng)絡(luò)通過殘差連接組成,可以使每一維的語義特點都包括原始文本信息,并且特征信息互不相同,再結(jié)合雙向長短期記憶網(wǎng)絡(luò),從而使模型學(xué)習(xí)更全面的語義信息。
1.1.1 BERT模型
傳統(tǒng)的產(chǎn)生詞向量工具(如Word2vec)都是建立在淺層網(wǎng)絡(luò)模型基礎(chǔ)上,而 BERT則是將模型整合到下游工作中,并能根據(jù)具體的任務(wù)進行改動。BERT是一種基于雙向轉(zhuǎn)換模式的雙向轉(zhuǎn)換編碼器,它的運算主要選取代碼模塊,如圖1所示。使用MLM遮蔽語言模型進行建模,使其輸出序列能夠更完全地了解各個方面的文字信息,利于為后續(xù)的更改選取更好的參數(shù)。
1.1.2 Transformer
Transformer模型的編碼部分由多頭注意力機制(Multi-Head Attention)和一個完全連接的前向神經(jīng)網(wǎng)絡(luò)組成,兩個模塊都對數(shù)據(jù)進行了規(guī)范化處理。為了處理神經(jīng)網(wǎng)絡(luò)的退化問題,模型中各子模塊都加入殘差相接?;赟eq2Seq結(jié)構(gòu)的 Transformer模型,它變化了傳統(tǒng)的Encoder-Decoder結(jié)構(gòu),只使用注意力機制和完全連通的神經(jīng)網(wǎng)絡(luò),利用位置編碼和單詞內(nèi)嵌,學(xué)習(xí)了文本序列之間的位置關(guān)系,并利用多頭自注意力機制,探索文字間的語義,如圖2所示。
虛線為殘差連接,能使前面信息準(zhǔn)確傳送到后面一層,其中注意力的計算如式(1)和式(2)所示。
其中,注意力層的輸入為Q,K,V,通過隨機初始化來取值,歸一化函數(shù)中用來調(diào)整模型大小。
其中,W0作用使模型學(xué)習(xí)更多的特征信息,將每個head學(xué)習(xí)到的注意力矩陣進行拼接。
1997年,HOCHREITER S等人[10]提出了一個新型網(wǎng)絡(luò)——LSTM。該網(wǎng)絡(luò)是針對RNN算法的一種改進,它可以有效地克服RNN在訓(xùn)練時的梯度消失現(xiàn)象,通過采取單元狀態(tài)和門控機制,將上一階段的數(shù)據(jù)存儲,并將接收到的數(shù)據(jù)進行下一步傳遞,如圖3所示。
LSTM的計算如下式所示:
其中,i、o、f分別為輸入門、輸出門和遺忘門;c記載細胞狀態(tài)的改變;t時網(wǎng)絡(luò)接收到當(dāng)前輸入xt和上一時間點信息向量ht-1作為3個門的輸入;it、ot、ft分別為輸入門、輸出門、遺忘門在t時間點計算得出。σ為非線性激活函數(shù)sigmoid();tanh為非線性激活函數(shù)tanh();圖中Wf、Wi、Wo、Wc和Uf、Ui、Uo、Uc分別為遺忘門、輸入門、輸出門和記憶細胞所對應(yīng)的權(quán)重矩陣;bf、bi、bo、bc是偏置量,通過實驗得到。
本文在 BERT基礎(chǔ)上搭建了一個多頭殘差網(wǎng)絡(luò)模型,如圖4所示。為了克服BERT模型在情緒分析方面的不足,利用 BiLSTM來獲取上下文關(guān)系,該模型能從多個角度學(xué)習(xí)序列中的情緒特點,并且阻止深度神經(jīng)網(wǎng)絡(luò)出現(xiàn)信息丟失的情況,最后通過特征融合,克服了由于網(wǎng)絡(luò)深度造成的梯度消失、信息丟失等問題。本文所確立的BERT-MRN模型能夠區(qū)別情感分類問題中的序列關(guān)系和各種程度的情感,從而更適宜于對文本情感分類。
該模型利用多個卷積核的一維卷積神經(jīng)網(wǎng)絡(luò)CNN構(gòu)成了多頭殘差結(jié)構(gòu)的語義學(xué)習(xí)器,能夠選擇合適數(shù)量的殘差結(jié)構(gòu),能夠更好地學(xué)習(xí)文本句子的情感特征,使用殘差連接避免了序列結(jié)構(gòu)中的深度神經(jīng)網(wǎng)絡(luò)的梯度消失。
雙向長短期記憶網(wǎng)絡(luò)BiLSTM能夠兼顧全文從上至下的語境,把所收到的信號傳遞給兩個反向時序的 LSTM網(wǎng)絡(luò),獲得上下文的信息,再使用向量拼接獲得最后序列的隱含表達。在每個迭代進程中,對隱藏層中的局部神經(jīng)元進行隨機削減,從而得到一定的正則化效應(yīng),其組成如圖5所示。將E1,E2,…,En作為輸入,通過BiLSTM的正向和反向網(wǎng)絡(luò)得到hL和hR,如公式(9)和公式(10)所示:
將hL和hR進行拼接后計算出hi(i=1, 2, …,n)。
該模型能夠從多個層面上對情緒態(tài)度進行研究,因此,本模型能夠應(yīng)用于各種語料庫的情緒分類。
該模型經(jīng)過特征融合層的輸出,使用sigmoid激活函數(shù)得出需要進行情感分類的情感極性,如式(11)所示:
其中,W為權(quán)重矩陣;b為偏置量;x為拼接后的輸出數(shù)據(jù);為 網(wǎng)絡(luò)模型的預(yù)估輸出。本文選取了反向傳播來訓(xùn)練網(wǎng)絡(luò)模型,情感分類的函數(shù)選擇交叉熵函數(shù),如式(12)所示,y為實際結(jié)果。
本文選擇旅行網(wǎng)站作為評論數(shù)據(jù)的出處,通過爬蟲爬取旅行網(wǎng)站的400個景點評論信息,在數(shù)據(jù)庫中整理數(shù)據(jù)集,首先對數(shù)據(jù)集進行預(yù)處理,削減評論信息中的無用評論和特有的、無意義的符號,經(jīng)過預(yù)處理后得到4,000條評論,其中正向評論2,600條,負向評論1,400條。
開始先刪除中文文字?jǐn)?shù)據(jù)中的停用詞和無意義的符號,然后選取情感分析方面最常見的詞來制定詞典,生成相應(yīng)的序列輸入。BERT模型中的輸入是詞向量、段向量、位置向量加權(quán)求和的矩陣。位置向量是指在不同位置出現(xiàn)的詞語所具備的語義信息(例如“風(fēng)景很好”、“很好風(fēng)景”),所以BERT模型會將其各自加入到差別的向量中,如圖6所示。
實驗選擇控制變量法,選擇不同優(yōu)化器優(yōu)化函數(shù),使用專門針對中文的預(yù)訓(xùn)練BERT模型。通過多次比較實驗,發(fā)現(xiàn)取表1參數(shù)時,BERTMRN分類能力最好。
表1 參數(shù)設(shè)置
本文采用的評估指標(biāo)包括:精確率、召回率、F1分?jǐn)?shù)。其中精確率是表示預(yù)測為正的樣本中實際的正樣本的數(shù)量所占比例,召回率是實際為正的樣本被判斷為正樣本的比例。文中將綜合度量指數(shù)F1作為評估模型的一個評估準(zhǔn)則,如下方公式(13)~公式(15)所示:
其中,TP(True Positive)表示正樣本判定為正的個數(shù);FP(False Positive)表示負樣本判定為正的個數(shù);FN(False Negative)表示正樣本判定為負的個數(shù)。
通過對預(yù)處理后的景點評論進行中文文本情感分析,在不同種模型的對比試驗中,驗證本文方法的可行性,實驗結(jié)果如表2所示。
表2 對比試驗
本文模型能夠較好地分析景點評論的情感極性,在對比傳統(tǒng)模型和BERT模型中,均有不錯的表現(xiàn)。其中對比BERT模型,F(xiàn)1分?jǐn)?shù)增加了8個百分點。
同時,本文對MRN中的殘差結(jié)構(gòu)進行對比選擇實驗,如圖7所示。分別使用雙殘差、三殘差和四殘差結(jié)構(gòu)進行實驗,其中,三殘差結(jié)構(gòu)的F1分?jǐn)?shù)最高,得出殘差結(jié)構(gòu)多會使模型的時間成本變多,模型分類效果不會有明顯增加,而殘差結(jié)構(gòu)少會影響模型的分類結(jié)果的可靠性,故本文選取三殘差結(jié)構(gòu)來提取評論情感特征。
本文介紹了BERT模型和BiLSTM,針對景點情感分析領(lǐng)域中深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型BERT與傳統(tǒng)網(wǎng)絡(luò)結(jié)合容易出現(xiàn)網(wǎng)絡(luò)退化的問題,提出了多頭殘差網(wǎng)絡(luò)模型。通過和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型以及一部分基于遷移學(xué)習(xí)思想的模型在情感分類任務(wù)中比較,驗證了BERT-MRN模型具備不錯的情感分類能力,能夠更好地分析景點評論情感,在景點推薦領(lǐng)域有好的應(yīng)用價值,對于游客選擇景點出行有著輔助意義。本文研究的實驗內(nèi)容主要指二分類問題,后續(xù)要針對多分類問題進一步探究該模型的適用性。