卞玉露
(安徽理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,安徽 淮南 232001)
隨著互聯(lián)網(wǎng)使用成本的逐漸降低,人們?cè)絹碓絻A向于在各類網(wǎng)絡(luò)平臺(tái)上發(fā)表評(píng)論,消費(fèi)者可以根據(jù)平臺(tái)涵蓋的評(píng)論快速了解信息。這些非結(jié)構(gòu)化數(shù)據(jù)既包含了對(duì)行業(yè)極具價(jià)值的數(shù)據(jù)也存在不少冗余數(shù)據(jù),[1]若單純依靠人工進(jìn)行逐條處理是不可取的,不僅耗費(fèi)成本而且會(huì)影響最終情感預(yù)測(cè)結(jié)果,這就使得我們必須采用先進(jìn)技術(shù)提取更高價(jià)值的信息。[2]所以針對(duì)海量數(shù)據(jù)進(jìn)行情感傾向性判斷也變得極為重要。
目前應(yīng)用于情感分析的主流方法分為三大類。[3-4]1)基于詞典的方法[5-7]需要構(gòu)建一個(gè)由大量主觀情感特征詞構(gòu)成的情感詞典,然后根據(jù)給定文本中帶有情感特征的詞匯得到情感分?jǐn)?shù),使用相應(yīng)計(jì)算方法得到最后的文本情感值,最后通過分值大小對(duì)情感傾向進(jìn)行區(qū)分。該方法雖易于實(shí)現(xiàn)且不依賴于手動(dòng)標(biāo)注的語料集,但性能卻極大地依賴于情感詞典中數(shù)據(jù)的質(zhì)量,且大多數(shù)情感詞典均缺乏領(lǐng)域詞。2)基于機(jī)器學(xué)習(xí)的方法[8-11]首先經(jīng)過特征提取獲取合適的特征,隨后依據(jù)統(tǒng)計(jì)學(xué)方法對(duì)特征詞進(jìn)行選取,從文字中抽取挖掘詞義信息并獲取有價(jià)值的數(shù)據(jù)特征從而提升模型的學(xué)習(xí)效果,通過分類算法對(duì)經(jīng)過特征選擇后的特征項(xiàng)進(jìn)行分類。目前該方法已取得不錯(cuò)的成績,相較于情感詞典方法在情感分類性能上也有了較高的提升,但卻很難提取到更深層的語義特征。3)基于深度學(xué)習(xí)的方法最初在圖像處理上取得了較好結(jié)果,后被廣泛應(yīng)用于文本領(lǐng)域。近年來由于人工神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征自動(dòng)學(xué)習(xí)能力,研究者也更多地結(jié)合深度學(xué)習(xí)技術(shù)進(jìn)行情感分析。[12-14]卷積神經(jīng)網(wǎng)絡(luò)模型(Convolutional Neural Network,CNN)[15-16]利用卷積計(jì)算獲得上下文詞和方面詞的表示,在挖掘文本局部特征上具有極大優(yōu)勢(shì)。它因計(jì)算速度快而被推崇,但大多都沒有考慮文本中先出現(xiàn)的詞對(duì)后面出現(xiàn)詞即詞序的影響。循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network,RNN)[17]是通過循環(huán)迭代結(jié)構(gòu)來處理信息的,是一類用于與時(shí)間序列相關(guān)任務(wù)的人工神經(jīng)網(wǎng)絡(luò),但在訓(xùn)練過程中容易出現(xiàn)一系列梯度問題,導(dǎo)致網(wǎng)絡(luò)缺乏長期記憶性。隨后長短時(shí)記憶網(wǎng)絡(luò)(Long and Short Term Memory Network,LSTM)在一定程度上彌補(bǔ)了RNN在梯度傳遞的缺陷緩解了梯度問題。近年來出現(xiàn)了一種在CNN基礎(chǔ)上具備處理序列問題的網(wǎng)絡(luò)模型,時(shí)間卷積神經(jīng)網(wǎng)絡(luò)模型(Temporal Convolutional Networks,TCN)[18-20],與普通一維卷積相比多了空洞卷積和因果卷積兩個(gè)操作。該模型可以借助因果卷積實(shí)現(xiàn)記憶功能,通過改變擴(kuò)張因子數(shù)靈活調(diào)控感受野,通過并行處理以減少訓(xùn)練時(shí)間,通過反向傳播很好地緩解梯度問題。TCN對(duì)文本序列特征的提取不夠全面,所以文獻(xiàn)[21]針對(duì)該問題提出使用BiTCN提取文本特征并對(duì)中文數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,但仍存在不能完整地獲取文本特征表示以及上下文信息使用不足的問題,同時(shí)對(duì)其中重要詞的關(guān)注程度不夠。
基于上述研究,借助TCN在處理序列問題時(shí)對(duì)詞序特征的處理優(yōu)勢(shì)提出一種新的基于BiTCN的情感分析方法。使用BiTCN從兩個(gè)方向共同完成對(duì)文本信息的特征提取,引入自注意力層捕捉文本中特征的內(nèi)部相關(guān)性,構(gòu)建BiTCN-SA模型,隨后將模型應(yīng)用于大眾點(diǎn)評(píng)餐廳評(píng)論數(shù)據(jù)集完成情感分析。以BiTCN作為基線模型,通過6組實(shí)驗(yàn)對(duì)比,驗(yàn)證所提模型的可行性和提升效果。
與CNN相比,TCN通過改變擴(kuò)張因子數(shù)合理調(diào)控感受野,通過疊加多個(gè)擴(kuò)張因果卷積層以獲取更完整的語義特征,通過殘差連接防止網(wǎng)絡(luò)層過高導(dǎo)致的梯度問題。[20]網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
圖1 TCN網(wǎng)絡(luò)結(jié)構(gòu)圖
(1)因果卷積
某時(shí)刻的信息只能依據(jù)此前參數(shù)值進(jìn)行預(yù)測(cè),只能由當(dāng)前輸入xi和x1,x2,…,xi-1計(jì)算如式(1):
(1)
滑動(dòng)窗口通過從左至右計(jì)算進(jìn)行特征提取,在保證充分利用該時(shí)刻前信息的同時(shí),也確保了不使用該時(shí)刻后的信息,嚴(yán)格受限于時(shí)間序列,具備很強(qiáng)的因果性質(zhì)。
(2)擴(kuò)張卷積
卷積層數(shù)越高,卷積窗口就越大,窗口中的空洞也就越多,通過引入擴(kuò)張卷積可以彌補(bǔ)對(duì)卷積核大小的限制。添加了擴(kuò)張卷積的卷積核大小為式(2):
fk-d=(d-1)×(fk-1)+fk
(2)
fk為當(dāng)前層卷積核大小,通過設(shè)定不同擴(kuò)張因子數(shù)d對(duì)文本序列采樣,通過增大擴(kuò)張因子數(shù)增大感受野,學(xué)習(xí)更大范圍的信息。
(3)殘差連接
對(duì)輸入x和經(jīng)過非線性變換后的F(x)求和形成短路鏈接,避免由網(wǎng)絡(luò)層數(shù)過大引起的梯度問題如式(3):
R=x+F(x)
(3)
注意力機(jī)制類比人類的視覺系統(tǒng),對(duì)于一張圖或一段文字中某些特定信息有更多的注意,從而抓取到更多有用的特征。計(jì)算過程如下:
計(jì)算多個(gè)查詢和每個(gè)鍵值的相關(guān)性,求出鍵值對(duì)應(yīng)的權(quán)重系數(shù)如式(4):
(4)
對(duì)權(quán)值矩陣歸一化處理如式(5):
(5)
將添加的權(quán)重和對(duì)應(yīng)的鍵值加權(quán)求和得到所求注意力值如式(6):
(6)
式(6)中Lx為數(shù)據(jù)長度,Q表示查詢,K表示鍵,V表示值。通過對(duì)文本中的情感特征賦予不同權(quán)重以區(qū)分其中信息的重要程度,從注意力角度強(qiáng)調(diào)分類的準(zhǔn)確率。
模型有5層。1)輸入層用于輸入用戶評(píng)論文本;2)文本向量表示層用于將輸入層的結(jié)果轉(zhuǎn)化為詞向量表示;3)網(wǎng)絡(luò)層借助雙向TCN提取文本的全局序列特征,同時(shí)能夠聯(lián)系上下文特征;4)自注意力層將提取的序列特征映射成添加了注意力權(quán)重的序列;5)在輸出層使用softmax對(duì)權(quán)重矩陣歸一化處理完成情感分類。模型架構(gòu)如圖2所示。
圖2 BiTCN-SA模型架構(gòu)圖
采用Skip-gram模型對(duì)文本詞向量表示。根據(jù)給定評(píng)論詞得到該詞匯出現(xiàn)在上下文中的概率P如式(7):
(7)
自注意力機(jī)制是注意力機(jī)制的一種,多用于處理數(shù)據(jù)集內(nèi)部和任務(wù)內(nèi)部的計(jì)算,它不依賴于外部知識(shí),只捕捉文本的內(nèi)部相關(guān)性,重點(diǎn)強(qiáng)調(diào)文本詞與詞之間的關(guān)系。過程如下:
(8)
對(duì)權(quán)重矩陣歸一化處理如式(9):
α=Softmax(W)
(9)
用權(quán)重乘上向量集合H求得自注意力值如式(10):
Att(H)=αH
(10)
最終的句子表示如式(11):
h*=tanh(Att(H))
(11)
在訓(xùn)練過程中使用交叉熵誤差作為損失函數(shù)最小化訓(xùn)練樣本和實(shí)際值誤差如式(12):
(12)
從北大數(shù)據(jù)庫平臺(tái)大眾點(diǎn)評(píng)餐廳評(píng)論數(shù)據(jù)集中選取15000條,每條數(shù)據(jù)包括評(píng)論觀點(diǎn)、整體評(píng)價(jià)星級(jí)等內(nèi)容。根據(jù)評(píng)分星級(jí)(4-5星,3星,1-2星)使用標(biāo)簽(1,0,-1)標(biāo)注對(duì)應(yīng)的情感極性(積極,中性,消極)即三元分類。
表1 實(shí)驗(yàn)數(shù)據(jù)樣例
(1)首先對(duì)數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)進(jìn)行掃描,過濾無用的數(shù)據(jù),修正錯(cuò)誤和不規(guī)范數(shù)據(jù),從經(jīng)過濾后的數(shù)據(jù)中選擇其中80%作為訓(xùn)練集,20%為測(cè)試集。
(2)采用結(jié)巴分詞工具自動(dòng)為文本分詞,并參照停用詞表去除停用詞。
(3)通過剪切、長度補(bǔ)齊等操作對(duì)數(shù)據(jù)格式標(biāo)準(zhǔn)化,保證其長度統(tǒng)一。
(4)對(duì)分詞后的文本進(jìn)行詞向量表示,將評(píng)論文本表示成詞向量矩陣結(jié)構(gòu),將詞向量序列作為網(wǎng)絡(luò)模型的輸入。
所用實(shí)驗(yàn)環(huán)境的具體信息如下:使用WIN10操作系統(tǒng),CPU為Intel?CoreTM i5-7300 HQ 3.5Hz。使用的開發(fā)語言是Python 3.8版本,深度學(xué)習(xí)框架為PyTorch 1.2.0。
采用word2Vec中的Skip-gram模型訓(xùn)練詞向量,詞向量維度設(shè)為200;在BiTCN網(wǎng)絡(luò)層中卷積核大小設(shè)為6,擴(kuò)張因果卷積層數(shù)設(shè)為4,擴(kuò)張因子數(shù)為2n[1,2,4,8],隱藏層數(shù)設(shè)為128;Dropout參數(shù)設(shè)為0.2,Adam優(yōu)化器的學(xué)習(xí)率設(shè)為0.01,訓(xùn)練批次的長度為32。
在同一實(shí)驗(yàn)環(huán)境下設(shè)置六組對(duì)比實(shí)驗(yàn),不同模型的實(shí)驗(yàn)結(jié)果如圖3所示。
CNN:利用卷積計(jì)算獲得上下文詞和方面詞的表示,計(jì)算速度快,在對(duì)文本局部特征的挖掘上有極大優(yōu)勢(shì)。與基線模型BiTCN相比,其準(zhǔn)確率提升了8.2%;
圖3 六種模型的準(zhǔn)確率對(duì)比圖
LSTM:通過添加門控機(jī)制選擇性地提取文本特征信息,是繼RNN后具有記憶功能的、在一定程度上彌補(bǔ)RNN梯度缺陷的優(yōu)化模型。與BiTCN相比,準(zhǔn)確率提升了14.4%;
BiLSTM:使用兩個(gè)LSTM分別提取文本的前、后向特征,再將兩個(gè)方向上的特征融合后輸入分類器完成情感分類。與BiTCN相比,準(zhǔn)確率提升了4.8%;
TCN:考慮文本序列中詞序的影響,利用多層因果卷積和擴(kuò)張卷積結(jié)構(gòu)提取具有詞序特征的信息。與BiTCN相比,準(zhǔn)確率提升了9.6%;
BiTCN:融合了前后兩個(gè)方向的特征編碼參與情感傾向性判斷,準(zhǔn)確率達(dá)到95.1%;
BiTCN-SA:在基線模型基礎(chǔ)上添加了自注意力機(jī)制捕捉文本中特征的內(nèi)部相關(guān)性,幫助模型優(yōu)化特征向量。與BiTCN相比,該模型的準(zhǔn)確率有了2.3%的提升。
提出BiTCN-SA模型并應(yīng)用于大眾點(diǎn)評(píng)餐廳評(píng)論數(shù)據(jù)集。首先使用Skip-gram模型對(duì)輸入文本進(jìn)行詞向量表示;然后借助BiTCN從兩個(gè)方向提取文本全局特征;最后引入自注意力機(jī)制,重點(diǎn)關(guān)注其中對(duì)情感判斷影響較大的特征詞,以提升模型分類的準(zhǔn)確率。6組對(duì)比實(shí)驗(yàn)表明,在相同條件下所提模型有較好的分類效果。實(shí)驗(yàn)中發(fā)現(xiàn):1)迭代訓(xùn)練次數(shù)過少,模型的魯棒性仍不夠好;2)僅以準(zhǔn)確率為評(píng)價(jià)指標(biāo),在文本情感分析的性能上仍不夠精確,還需要結(jié)合其他評(píng)價(jià)指標(biāo)共同判斷。因此,后續(xù)的研究將著眼于如何進(jìn)一步提升模型的準(zhǔn)確率和性能的問題上。
佳木斯大學(xué)學(xué)報(bào)(自然科學(xué)版)2022年6期