李 浩,樊建聰,2
(1.山東科技大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,山東 青島 266590; 2.山東省智慧礦山信息技術(shù)重點(diǎn)實(shí)驗室,山東 青島 266590)
近年來,隨著互聯(lián)網(wǎng)的快速發(fā)展,越來越多帶有情感的信息發(fā)布在社交媒體上,如對商品的評論、熱門事件的觀點(diǎn)、政治事件等。情感分析是從給定的主觀性文本中挖掘有用信息的過程,這些信息能夠反映人們對于商品的態(tài)度、熱點(diǎn)事件的思考、政策的傾向等。文本情感分析[1]是自然語言處理領(lǐng)域中的一個重要研究方向,在輿情分析、意見挖掘[2]等應(yīng)用領(lǐng)域中發(fā)揮著重要作用。
傳統(tǒng)的情感分析方法主要包括基于詞典的方法[3]和基于機(jī)器學(xué)習(xí)的方法?;谠~典的方法主要依靠情感詞典[4],分類效果取決于構(gòu)建的情感詞典的質(zhì)量和輸入規(guī)則?;跈C(jī)器學(xué)習(xí)的方法包括有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)方法,有監(jiān)督學(xué)習(xí)方法必須有大量標(biāo)注的數(shù)據(jù),耗費(fèi)人工成本;無監(jiān)督學(xué)習(xí)方法以聚類方法和隱含狄利克雷分配(latent dirichlet allocation,LDA)為主,不需要人工標(biāo)注數(shù)據(jù),但在處理復(fù)雜問題時準(zhǔn)確率不如前者好。近幾年隨著神經(jīng)網(wǎng)絡(luò)技術(shù)的快速發(fā)展,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在自然語言處理領(lǐng)域得到廣泛應(yīng)用。Kim等[5]利用CNN解決了文本分類問題;Cho等[6]使用RNN構(gòu)建Encoder-Decoder模型,更好地學(xué)習(xí)到序列的語義信息和語法信息。早期基于RNN模型的特定目標(biāo)情感分析主要是利用RNN來獲得句子的上下文語義信息,如Tang等[7]提出的目標(biāo)依賴的長短期記憶網(wǎng)絡(luò)(target dependent long short-term memory,TD-LSTM)模型,Wang等[8]提出的帶有目標(biāo)嵌入的注意力長短期記憶網(wǎng)絡(luò)(attention-based LSTM with aspect embedding,ATAE-LSTM)模型等,但LSTM模型存在模型復(fù)雜、不能并行計算等問題,在訓(xùn)練時需要大量的時間。盡管LSTM模型可以提取長距離的上下文語義信息,但是對于含有多個目標(biāo)的文本目標(biāo)情感分析任務(wù),局部特征對特定目標(biāo)分類結(jié)果的影響相對于全局特征更加重要。CNN通過不同的卷積核運(yùn)算獲取不同粒度的特征,在獲取句子的局部特征任務(wù)上具有獨(dú)特優(yōu)勢。
特定目標(biāo)情感分析[7](aspect-based sentiment analysis,ABSA)是對文本中特定目標(biāo)實(shí)體的情感極性進(jìn)行分類,是一項更細(xì)粒度的情感分析任務(wù)。例如,“這家酒店的服務(wù)很好,但是地理位置不容易找到,太偏了。”該文本有“服務(wù)”和“地理位置”兩個目標(biāo)實(shí)體,目標(biāo)實(shí)體“服務(wù)”對應(yīng)的情感極性是積極的,而“地理位置”對應(yīng)的情感極性是消極的。因此,一個文本中多個不同的目標(biāo)實(shí)體可能存在相反的情感極性。在特定目標(biāo)情感分析中,如何獲取目標(biāo)實(shí)體與上下文的關(guān)系也是熱門研究內(nèi)容。注意力機(jī)制通過一個注意力矩陣計算出句子相應(yīng)的注意力特征,在訓(xùn)練時重點(diǎn)關(guān)注某些信息,在實(shí)體識別、文本分類、機(jī)器翻譯等文本領(lǐng)域得到廣泛使用。梁斌等[9]利用多注意力的卷積神經(jīng)網(wǎng)絡(luò)獲取深層次的情感特征信息,有效識別目標(biāo)的情感極性。李明揚(yáng)等[10]融入自注意力機(jī)制對社交媒體命名實(shí)體識別任務(wù)做了改進(jìn),通過不同子空間捕獲上下文信息來提高實(shí)體識別性能。然而,簡單的注意力模型不善于捕獲上下文詞對目標(biāo)詞的影響程度。
本研究針對RNN對句子建模耗費(fèi)大量時間和無法獲取局部特征的問題,采用帶有門控機(jī)制[11]的卷積神經(jīng)網(wǎng)絡(luò)獲取句子語義特征,摒棄RNN結(jié)構(gòu),使用門控機(jī)制控制通過神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)的信息,增強(qiáng)目標(biāo)特征的表達(dá);為了更好地獲取上下文信息,本研究利用注意力機(jī)制構(gòu)建多頭注意力層,通過對文本信息特征進(jìn)一步表達(dá),提取更多的信息,通過帶有門控操作的卷積神經(jīng)網(wǎng)絡(luò),再經(jīng)過隱藏層處理,獲得目標(biāo)文本的情感極性判斷;為了彌補(bǔ)CNN在獲取文本序列信息方面的劣勢,在輸入層加入文本與目標(biāo)實(shí)體的相對位置編碼信息,增加文本的額外信息,提升特定目標(biāo)情感分析性能。
首先,模型通過輸入層獲得文本嵌入矩陣、位置嵌入矩陣和目標(biāo)嵌入矩陣;然后,利用多頭注意力層對文本嵌入矩陣進(jìn)行深層次特征表達(dá),在拼接位置信息后輸入到卷積層進(jìn)行局部特征提取,將提取到的特征與目標(biāo)信息融合,利用tanh門和relu門進(jìn)行對位相乘操作,控制信息傳遞;最后使用平均池化得到最終特征,輸出到Softmax分類器,完成目標(biāo)情感極性識別。
圖1 PE-MAGCN模型架構(gòu)
輸入層包括文本嵌入(word embedding)、目標(biāo)嵌入(target embedding)和位置嵌入(position embedding),目的在于獲得文本的表示矩陣。
文本嵌入是使用自然語言處理中的詞嵌入方法,將高維度one-hot編碼轉(zhuǎn)換為低維度的連續(xù)值向量來表達(dá)詞的語義信息。用文本嵌入矩陣S={w1,…,wi,…,wn}表示Sc經(jīng)過詞嵌入得到的實(shí)數(shù)矩陣,wi∈Rdw是第i個詞的實(shí)數(shù)值向量,其中dw是每個詞用向量表示的維度。
目標(biāo)嵌入是將目標(biāo)實(shí)體用連續(xù)值向量來表示,向量的維度與文本嵌入向量一致。目標(biāo)嵌入矩陣用T={wi,wi-1,…,wi+m-1}表示語料中標(biāo)注的實(shí)體。
(1)
受Transformer[12]結(jié)構(gòu)的啟發(fā),本研究在輸入層和卷積層之間額外加入注意力層,運(yùn)用多頭自注意力機(jī)制來更好地表示目標(biāo)和句子的特征,通過使用縮放點(diǎn)積操作(scaled dot product attention,SDA)計算句子中上下文單詞的權(quán)重,得出每個單詞的注意力分?jǐn)?shù),如式(2)~(4)所示。
(2)
Q,K,V=fx(X),
(3)
(4)
其中:X為輸入層的詞嵌入矩陣;Q、K、V分別表示Query、Key、Value由X乘以權(quán)重矩陣Wq∈Rdw×dq、Wk∈Rdw×dk、Wv∈Rdw×dv;dq、dk、dv表示權(quán)重矩陣的維度,均為dw/h;h為注意力頭的個數(shù)。
將所有頭學(xué)習(xí)到的注意力表示拼接后進(jìn)行矩陣轉(zhuǎn)換,多頭自注意力(multi-head self-attention,MHSA)矩陣
Xatt=MHSA(X)=tanh(H1:…:Hh}·W)。
(5)
其中:Xatt∈Rn×dw表示經(jīng)過注意力層后的詞向量矩陣;H1,…,Hh表示h個頭學(xué)習(xí)到的注意力表示;“:”表示所有向量拼接;W∈Rhdq×dw表示多頭注意力的權(quán)重矩陣;tanh(·)為非線性函數(shù),作為激活函數(shù)加入,以增強(qiáng)網(wǎng)絡(luò)學(xué)習(xí)能力。
本研究使用卷積層的窗口卷積來提取句子中的局部特征。窗口卷積使用單詞本身和上下文大小為窗口來進(jìn)行卷積操作,在超出邊界的句首或者句尾位置利用padding操作補(bǔ)齊,對上層得到的多頭自注意力矩陣Xatt進(jìn)行卷積運(yùn)算[13],如式(6)所示。
ci=conv(w·xi+b),
(6)
其中:ci∈Rdc為第i個卷積核運(yùn)算得出的結(jié)果;dc為模型結(jié)構(gòu)超參數(shù),表示卷積層的輸出維度;conv(·)表示卷積運(yùn)算;w為卷積核權(quán)重;xi表示多頭自注意力矩陣Xatt的第i個向量,0≤i≤n;b為偏置向量。
門控層由帶有目標(biāo)嵌入的門控單元[14](gated tanh-relu unit,GTRU)組成,每個門控單元與兩個卷積神經(jīng)節(jié)點(diǎn)連接,其輸入為卷積層的輸出和特定目標(biāo)特征向量,如式(7)~(9)所示。
gi=si×αi,
(7)
αi=relu(Wα·ci+Vα·vα+bα),
(8)
si=tanh(Ws·ci+bs)。
(9)
其中:vα表示經(jīng)過卷積操作后的目標(biāo)特征向量,Vα表示目標(biāo)特征向量的權(quán)重矩陣,向量αi的元素∈(0,1)表示經(jīng)過relu門后接收的目標(biāo)信息比例,Ws、Wα分別表示tanh門和relu門的權(quán)重矩陣,bs、bα分別表示tanh門和relu門的偏置向量,αi、si、gi與ci的大小一致,0≤i≤n。
輸出層包含平均池化層和分類器,門控層得到的向量ci按順序拼接為矩陣C,先經(jīng)過平均池化操作得出主要特征向量r,降低模型的參數(shù)和運(yùn)行時間,再經(jīng)過Softmax分類器得到特定目標(biāo)的情感極性。
r=Avg{C},
(10)
y=Softmax(W·r+b)。
(11)
其中:Avg函數(shù)表示平均池化操作;Softmax輸出最終特征,得到不同類別的概率;y為一個3維的向量,分別表示3個類別的概率。
為了預(yù)測目標(biāo)極性,需要在預(yù)測前對模型進(jìn)行訓(xùn)練。使用交叉熵和L2正則化作為模型的損失函數(shù),使用梯度下降法來最小化損失函數(shù)
(12)
PE-MAGCN模型的訓(xùn)練過程如算法1所示。輸入包括使用Glove得到的文本嵌入矩陣X和目標(biāo)嵌入矩陣T,使用建模方法得到的位置嵌入矩陣L。首先,使用(0,1)范圍內(nèi)的隨機(jī)數(shù)對模型中的權(quán)重矩陣進(jìn)行初始化(第1行),設(shè)置模型超參數(shù)和劃分?jǐn)?shù)據(jù)集。然后,多次迭代學(xué)習(xí)直到模型擬合(第2~7行)。具體是使用前向傳播計算模型的損失函數(shù),依據(jù)梯度下降法更新模型中的權(quán)重變量。最后,輸出測試集的結(jié)果。
算法1 PE-MAGCN模型的訓(xùn)練算法Input:文本嵌入矩陣X,目標(biāo)嵌入矩陣T,位置嵌入矩陣LOutput:測試數(shù)據(jù)集結(jié)果1) 隨機(jī)初始化模型參數(shù),設(shè)置超參數(shù),劃分?jǐn)?shù)據(jù)集;2) while i <= epoch do:3) 使用公式(2)~(11)計算輸出值ypre;4) err←ypre-y;5) 計算神經(jīng)元總誤差loss;6) if loss≤delta:break;7) 計算梯度誤差,使用梯度下降算法反向更新參數(shù);8)end while9)輸出測試集結(jié)果;10) 計算準(zhǔn)確率和F1值。
模型訓(xùn)練主要的計算成本是前向傳播,評估模型的函數(shù)和計算梯度誤差,使用梯度下降算法更新參數(shù)。句子、特定目標(biāo)以及目標(biāo)情感極性為一條數(shù)據(jù),在前向傳播過程中,一條數(shù)據(jù)分別經(jīng)過輸入層、多頭注意力層、卷積層、門控層,最終達(dá)到輸出層,時間復(fù)雜度為O(1),語料中共有N條數(shù)據(jù),故前向傳播的時間復(fù)雜度為O(N)。評估模型loss函數(shù)需要用到所有的樣本標(biāo)簽和預(yù)測標(biāo)簽,時間復(fù)雜度為O(N)。計算梯度誤差是對網(wǎng)絡(luò)中的參數(shù)求梯度,然后使用梯度下降法更新參數(shù),時間復(fù)雜度為O(N)。因此,模型訓(xùn)練一次迭代的時間復(fù)雜度為O(N)。
本模型針對RNN存在的問題,采用了卷積網(wǎng)絡(luò)結(jié)構(gòu)獲取文本局部特征,引入多頭注意力機(jī)制對文本嵌入特征進(jìn)行處理,增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力;增加位置嵌入矩陣,考慮了文本和目標(biāo)的相對位置信息,通過對位置建模和訓(xùn)練,反映不同單詞對目標(biāo)實(shí)體的貢獻(xiàn)程度,在卷積網(wǎng)絡(luò)層后加入門控層,控制信息在網(wǎng)絡(luò)中的傳遞,獲取與目標(biāo)實(shí)體更相關(guān)的特征。
為了驗證本模型的文本情感分類性能,在2個不同領(lǐng)域的數(shù)據(jù)集上進(jìn)行實(shí)驗,并與8個模型進(jìn)行對比。實(shí)驗環(huán)境:操作系統(tǒng)為Windows 10 64位,處理器為AMD Ryzen5 2600,內(nèi)存16 GB,顯存為GTX2060 6 GB,開發(fā)語言是Python 3.6,采用的深度學(xué)習(xí)框架為Pytorch 1.50。
選取英文SemEval 2014數(shù)據(jù)集(http:∥alt. qcri. org/semeval2014/),數(shù)據(jù)集包括restaurant領(lǐng)域和laptop領(lǐng)域的評論數(shù)據(jù)。每個評論樣本分為positive、neural和negative 3類情感傾向。數(shù)據(jù)集的統(tǒng)計情況如表1所示。
表1 SemEval 2014數(shù)據(jù)集
使用多種窗口卷積核對輸入矩陣進(jìn)行卷積操作,訓(xùn)練過程中使用Adadelta[15]更新規(guī)則,其他參數(shù)如表2所示。
為了驗證本模型性能,在上述數(shù)據(jù)集上設(shè)置多個基準(zhǔn)模型進(jìn)行對比實(shí)驗,具體基準(zhǔn)模型如下。
1) 目標(biāo)依賴的長短期記憶網(wǎng)絡(luò)[7](TD-LSTM):利用兩層目標(biāo)依賴的LSTM來預(yù)測情感極性。
2) 帶有目標(biāo)嵌入的注意力長短期記憶網(wǎng)絡(luò)[8](AEAT-LSTM):使用LSTM模型來獲取全文序列信息,融合了注意力機(jī)制和實(shí)體嵌入,通過學(xué)習(xí)上下文和目標(biāo)之間的信息來提高分類效果。
表2 實(shí)驗參數(shù)設(shè)置
3) 文本卷積神經(jīng)網(wǎng)絡(luò)(text comvolutional neural network,TextCNN):Kim等[5]提出的一種針對NLP任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)模型。
4) 帶有目標(biāo)嵌入的門控卷積網(wǎng)絡(luò)[14](gated convolutional network with aspect embedding,GCAE):通過卷積層構(gòu)建目標(biāo)和情感信息,并且使用門控單元控制信息的傳遞,經(jīng)過最大池化層后預(yù)測情感極性。
5) 交互注意力網(wǎng)絡(luò)[16](interactive attention network,IAN):利用注意力機(jī)制對實(shí)體和上下文之間關(guān)系進(jìn)行建模,關(guān)注目標(biāo)和上下文之間的表示,融合后再作為最終表示。
6) 記憶網(wǎng)絡(luò)[17](memory network,MemNet):包含多層權(quán)重共享的計算層,每層包含一個注意力層和全連接層,通過多層計算后輸出到分類層。
7) 注意力編碼網(wǎng)絡(luò)(attention encoder network,AEN):利用注意力機(jī)制來對上下文和特定目標(biāo)進(jìn)行編碼,放棄循環(huán)神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)來提取句子特征,交互式學(xué)習(xí)上下文和目標(biāo)的表示。
8) 包含句法依存信息的記憶網(wǎng)絡(luò)[18](MenNet with syntactic dependency information,MNSI):在原始MemNet的基礎(chǔ)上,利用卷積神經(jīng)網(wǎng)絡(luò)和多頭注意力機(jī)制融合句法依存信息。
為了驗證模型的性能,本模型與其他基準(zhǔn)模型在相同環(huán)境下運(yùn)行,各個模型的準(zhǔn)確率和F1值的結(jié)果如表3所示。
表3 各個模型的準(zhǔn)確率和F1值對比
從表3看出,與基準(zhǔn)模型相比,本研究模型在兩個數(shù)據(jù)集中有一定效果的提升。從模型的類型來看,使用循環(huán)神經(jīng)網(wǎng)絡(luò)的模型效果并不夠理想,效果最差的模型是TD-LSTM模型,原因在于TD-LSTM模型只是簡單地處理目標(biāo)詞,無法準(zhǔn)確地識別文本信息的特征,因此模型的準(zhǔn)確率和F1值較低。ATAE-LSTM模型在循環(huán)神經(jīng)網(wǎng)絡(luò)后加入注意力機(jī)制和目標(biāo)實(shí)體嵌入信息,在效果上優(yōu)于TD-LSTM模型?;贚STM的兩個模型結(jié)構(gòu)效果都不理想,原因在于雖然LSTM網(wǎng)絡(luò)能夠得到文本的序列信息,但是容易丟失信息,忽略目標(biāo)與上下文之間的相關(guān)性信息。
由于CNN可以獲取文本的局部信息特征,準(zhǔn)確率和F1值好于基礎(chǔ)的TD-LSTM模型。然而Text-CNN模型表現(xiàn)卻不好,因為TextCNN模型不是專門針對特定目標(biāo)的模型,沒有融合目標(biāo)信息,導(dǎo)致輸出的特征多為文本本身的特征,而并非目標(biāo)相關(guān)的特征。GCAE模型由于存在門控機(jī)制,可以控制信息的傳遞,并且將目標(biāo)嵌入到網(wǎng)絡(luò)模型中,增強(qiáng)了模型的信息獲取能力,表現(xiàn)優(yōu)于TextCNN模型,且比循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型的效果好,說明門控機(jī)制的存在能夠一定程度改善目標(biāo)特征選擇的問題。MNSI模型利用圖卷積結(jié)構(gòu),在訓(xùn)練中通過節(jié)點(diǎn)的距離改變節(jié)點(diǎn)狀態(tài),控制層與層之間的信息傳遞,增加了句法依存分析樹,轉(zhuǎn)換句子句法依存信息,消除目標(biāo)詞多義產(chǎn)生的錯誤結(jié)果,結(jié)果上優(yōu)于TextCNN和GCAE模型。
在注意力機(jī)制的模型中,IAN模型表現(xiàn)一般,在獲取目標(biāo)詞與上下文單詞之間關(guān)系時,只是簡單地交互學(xué)習(xí)注意力信息。MenNet模型通過多個計算層獲取語義信息得到最后的文本表示,而且文本表示本質(zhì)上為文本嵌入的非線性表示,模型效果優(yōu)于IAN模型。AEN模型在三個注意力機(jī)制模型中表現(xiàn)最優(yōu),說明多頭注意力交互的有效性,避免了網(wǎng)絡(luò)遞歸計算,但整體性能相對于本研究模型還存在一定差距。
為了進(jìn)一步分析模型各部分對性能的影響程度,使用Laptop數(shù)據(jù)集進(jìn)行消融實(shí)驗,各個模型的參數(shù)值相同,結(jié)果如表4所示。
表4 消融實(shí)驗結(jié)果
表4給出的實(shí)驗結(jié)果中,從acc和F1值兩個指標(biāo)可以看到,消融后的模型在準(zhǔn)確率和F1值兩方面效果均不如提出的模型,表明模型改善的部分在提高分類性能發(fā)揮著積極的作用。通過對比無門控機(jī)制模型(PE-MACN)和本研究模型(PE-MAGCN)結(jié)果,能夠發(fā)現(xiàn)存在門控機(jī)制的模型準(zhǔn)確率提高了0.37%,F(xiàn)1值提高了0.9%,表明門控機(jī)制在控制信息傳遞方面發(fā)揮出積極作用。通過與無位置嵌入信息模型(MAGCN)對比,PE-MAGCN在Laptop數(shù)據(jù)集上的準(zhǔn)確率和F1值分別提升了0.24%和0.97%,表明位置嵌入信息能夠反映目標(biāo)和文本的相對位置,在訓(xùn)練過程中一定程度反映局部特征對目標(biāo)的貢獻(xiàn)程度。從表中可以看出,不添加注意力層的模型(PE-GCN)準(zhǔn)確率和F1值均小于無門控機(jī)制的模型和無位置嵌入信息的模型,本研究模型(PE-MAGCN)與之相比,準(zhǔn)確率提高了1.68%,F(xiàn)1值提高了1.3%,提高幅度最大,表明注意力機(jī)制能夠有效增強(qiáng)模型的特征表達(dá)能力。
為了測試本研究模型與其他模型的復(fù)雜性,在Laptop數(shù)據(jù)集進(jìn)行實(shí)驗,迭代次數(shù)設(shè)置為20,學(xué)習(xí)率為0.01,batchsize設(shè)置為64,記錄每次epoch所需時間、模型達(dá)到收斂所消耗的時間以及模型的參數(shù)數(shù)量。實(shí)驗結(jié)果如表5所示。
由表5可以看出,PE-MAGCN模型的可訓(xùn)練參數(shù)數(shù)量為1.08×106個,少于由多層全連接層和注意力層構(gòu)成的MemNet模型和MNSI模型,這是由于模型結(jié)構(gòu)較為復(fù)雜,導(dǎo)致模型偏大。在迭代一次所需時間方面,模型要優(yōu)于ATAE-LSTM、MNSI、MenNet和IAN模型,次于TD-LSTM、TextCNN、GCAE、AEN。雖然上述模型的時間復(fù)雜度均為O(N),但是由于模型內(nèi)部的結(jié)構(gòu)不同,實(shí)例消耗的時間也不同。
與注意力網(wǎng)絡(luò)MemNet和IAN模型相比,收斂時間降低了44.38和58.5 s,因為模型摒棄了循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),模型訓(xùn)練時不會因為計算目標(biāo)與上下文之間的注意力矩陣消耗較多時間。與循環(huán)網(wǎng)絡(luò)相比,參數(shù)數(shù)量高于TD-LSTM和ATAE-LSTM模型,迭代一次所消耗的時間為3.7 s,高于TD-LSTM迭代一次所需時間,原因在于TD-LSTM模型的結(jié)構(gòu)較為簡單,訓(xùn)練一次所計算的參數(shù)較少。ATAE-LSTM模型在LSTM模型上加入全局注意力層,獲得隱藏層特征后再進(jìn)行注意力矩陣計算,消耗較多時間。而PE-MAGCN模型不使用LSTM結(jié)構(gòu)獲取特征,使用卷積單元獲取句子局部特征,因此時間少于ATAE-LSTM模型。與TextCNN、GCAE模型相比,PE-MAGCN模型的迭代一次所需時間分別增加了0.7和0.44 s,收斂時間增加了2.69和6.76 s,說明加入多頭注意力層會增加訓(xùn)練時間,但與提高的分類準(zhǔn)確率相比,增加的時間代價可以接受。與MemNet、IAN模型相比,PE-MAGCN模型迭代一次的時間分別降低了3.74和5.58 s,收斂
表5 模型參數(shù)數(shù)量和模型訓(xùn)練時間對比
時間分別降低了44.38和58.5 s,說明交互式注意力機(jī)制和LSTM模型的結(jié)構(gòu)會消耗較多的時間,時間復(fù)雜性較高。與AEN模型相比,PE-MAGCN模型迭代時間增加了0.2 s,收斂時間降低了7.27 s,這是因為AEN模型使用注意編碼層替代了LSTM層,獲取輸入嵌入的隱藏狀態(tài);使用點(diǎn)卷積獲取目標(biāo)語義相關(guān),與本研究模型結(jié)構(gòu)相似,因此時間代價相差不大。與MNSI模型相比,PE-MAGCN模型的迭代時間降低了4.02 s,收斂時間降低了47.71 s,這是由于MNSI模型是在MenNet模型的基礎(chǔ)上又引入了句法依存關(guān)系并使用spacy工具包將句子轉(zhuǎn)換為句法依存樹。雖然轉(zhuǎn)換句法依存樹的時間復(fù)雜度也為O(N),但是仍然消耗額外的轉(zhuǎn)換時間,在所有的對比模型中訓(xùn)練消耗的時間最高。PE-MAGCN模型使用多頭注意力機(jī)制獲取特征表達(dá),利用門控卷積層控制信息的傳遞,能夠有效地表示目標(biāo)相關(guān)特征,收斂速度較快,獲得了較高的準(zhǔn)確率。
針對循環(huán)神經(jīng)網(wǎng)絡(luò)在獲取句子特征時,容易造成信息丟失和較長的訓(xùn)練時間,以及傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)不能很好獲取上下文信息的問題,提出一種帶有位置嵌入的多頭注意力門控卷積網(wǎng)絡(luò),完成特定目標(biāo)情感識別任務(wù)。本研究模型首先利用多頭注意力層獲取目標(biāo)和文本詞之間的語義交互信息,通過卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)獲取文本局部特征,利用門控機(jī)制控制信息傳遞,將與目標(biāo)相關(guān)的信息輸入到分類層。另外,為了獲取不同詞與目標(biāo)特征之間的距離信息,模型額外加入位置嵌入矩陣,增加了模型的信息獲取能力。通過對SemEval 2014數(shù)據(jù)集進(jìn)行實(shí)驗,驗證了模型的有效性和實(shí)用性,準(zhǔn)確率和F1值在兩個數(shù)據(jù)集上都有提高。與其他基準(zhǔn)模型比較發(fā)現(xiàn),本模型相較于循環(huán)網(wǎng)絡(luò)和注意力機(jī)制網(wǎng)絡(luò),具有較快的收斂速度,可為特定目標(biāo)情感分析提供新的模型,但仍存在一些不足,如實(shí)驗所用的數(shù)據(jù)集規(guī)模有限且模型參數(shù)數(shù)量較多,一定程度增加了模型的訓(xùn)練時間。后續(xù)將研究如何將現(xiàn)有的額外知識融入到神經(jīng)網(wǎng)絡(luò)中,在精簡網(wǎng)絡(luò)模型結(jié)構(gòu)的同時增強(qiáng)模型的情感分析結(jié)果。