趙麗華,王春立,初鈺?shū)P
大連海事大學(xué) 信息科學(xué)技術(shù)學(xué)院,遼寧 大連116026
隨著社交媒體和在線論壇的發(fā)展,以及京東和淘寶等在線交易方式的日益普及,越來(lái)越多的消費(fèi)者開(kāi)始評(píng)論他們通過(guò)在線論壇、社交媒體網(wǎng)站和其他渠道所購(gòu)買(mǎi)的產(chǎn)品。提取評(píng)論中的觀點(diǎn)和情感詞,可以幫助消費(fèi)者提前了解商家的產(chǎn)品質(zhì)量或服務(wù),也可以幫助商家準(zhǔn)確、客觀地獲得大量的用戶評(píng)價(jià),有利于提高產(chǎn)品質(zhì)量,不斷優(yōu)化經(jīng)營(yíng)策略,增強(qiáng)競(jìng)爭(zhēng)力。在產(chǎn)品評(píng)論中,方面代表產(chǎn)品的屬性或特征。從人們表達(dá)觀點(diǎn)的產(chǎn)品或服務(wù)的評(píng)論文本中提取方面信息被稱為方面級(jí)情感分析,是細(xì)粒度的文本情感分析,而方面術(shù)語(yǔ)提取是方面級(jí)情感分析的關(guān)鍵問(wèn)題。
傳統(tǒng)的方面術(shù)語(yǔ)提取方法主要以語(yǔ)法和規(guī)則為主,并以詞法分析和句法分析的結(jié)果為基礎(chǔ),人工地建立一些詞性和句法規(guī)則來(lái)提取相關(guān)的術(shù)語(yǔ)。Bloom等[1]采用人工制定規(guī)則的方法來(lái)提取重要的方面詞。Zhao 等[2]采用詞法泛化的方法,利用詞法信息提取方面詞。Qiu等[3]提出一種利用預(yù)先制定的規(guī)則,通過(guò)雙重傳播(Double Propagation,DP)算法來(lái)抽取方面詞。這些方法雖然取得了一定的效果,但都需要人工知識(shí)和領(lǐng)域知識(shí)來(lái)標(biāo)記文本特征,特征的擴(kuò)展性不強(qiáng),它們不能利用高水平的領(lǐng)域知識(shí)來(lái)提取與中性和隱性情感相關(guān)的方面詞。
深度學(xué)習(xí)在各個(gè)領(lǐng)域都取得了突出的成果,也被應(yīng)用到方面術(shù)語(yǔ)提取領(lǐng)域。Yin等[4]采用詞嵌入、線性上下文嵌入和依賴路徑嵌入來(lái)增強(qiáng)CRF(Conditional Random Field)進(jìn)行方面術(shù)語(yǔ)的提取。Xu等[5]提出了一種采用兩種預(yù)訓(xùn)練嵌入的模型,該模型將一般通用嵌入和特定域嵌入拼接在一起,然后傳遞給CNN,不需要任何額外的監(jiān)督就取得了很好的性能。Ma 等[6]使用序列到序列學(xué)習(xí)的深度學(xué)習(xí)方法來(lái)提取方面詞。Huang 等[7]提出了LSTM-CRF 和BiLSTM-CRF模型。Ma 等[8]提 出 了BiLSTM-CNN-CRF模型,與上述的BiLSTM-CRF相比,BiLSTM-CNN 通過(guò)CNN 編碼了字符嵌入。Li 和Lam[9]使用兩種LSTM(Long Short-Term Memory),通過(guò)記憶交互的聯(lián)合處理方法提取方面和觀點(diǎn)詞,這些LSTM具有神經(jīng)記憶和擴(kuò)展記憶的操作。沈亞田等[10]使用深度長(zhǎng)短期記憶模型聯(lián)合抽取評(píng)價(jià)詞和評(píng)價(jià)對(duì)象。Wu等[11]提出了一種混合的無(wú)監(jiān)督方法,將基于規(guī)則的方法和深度學(xué)習(xí)方法相結(jié)合來(lái)提取方面術(shù)語(yǔ),在很少的人工標(biāo)注的情況下就達(dá)到了很好的性能。Luo等[12]使用雙向依存樹(shù)表示和BiLSTM-CRF 模型相結(jié)合的方法來(lái)提高方面術(shù)語(yǔ)提取的準(zhǔn)確性。
上述深度學(xué)習(xí)模型大多基于CNN(Convolutional Neural Network)和RNN(Recurrent Neural Network)的網(wǎng)絡(luò)結(jié)構(gòu),CNN的池化操作容易造成信息丟失,而當(dāng)序列的輸入長(zhǎng)度增加時(shí),RNN 就會(huì)出現(xiàn)梯度爆炸和消失的問(wèn)題。LSTM作為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的改進(jìn),它在簡(jiǎn)單循環(huán)神經(jīng)網(wǎng)絡(luò)中減少了長(zhǎng)距離的信息丟失問(wèn)題,能夠靈活地捕獲方面與其上下文單詞之間的語(yǔ)義關(guān)系,并且LSTM在序列標(biāo)注任務(wù)中的性能優(yōu)于CRF,也優(yōu)于其他神經(jīng)網(wǎng)絡(luò);BiLSTM(Bi-directional Long Short-Term Memory)不僅加入門(mén)控機(jī)制,而且可以捕獲文本的上下文順序信息。但是文本序列中不同詞語(yǔ)對(duì)方面術(shù)語(yǔ)提取效果有不同的影響,因此有必要區(qū)分不同詞語(yǔ)的重要程度。
多頭注意力機(jī)制是Google團(tuán)隊(duì)提出的[13],它可以在輸入文本序列內(nèi)部進(jìn)行注意力操作計(jì)算,找到序列內(nèi)部之間的聯(lián)系,并自動(dòng)學(xué)習(xí)輸入文本序列的權(quán)重分布。此外,Luo等[14]提出的ReGU(Residual Gated Unit)是一個(gè)額外的RNN 單元,該結(jié)構(gòu)由兩個(gè)門(mén)來(lái)控制輸入和隱藏狀態(tài)信息的流動(dòng),與跳過(guò)連接一樣,它可以使用一個(gè)門(mén)將輸入傳送到輸出,能夠更深入地訓(xùn)練和獲得有用的文本特征。
綜上,針對(duì)方面術(shù)語(yǔ)提取,本文提出基于注意力機(jī)制的雙層BiReGU(Attention-based Double BiReGU model,AD-BiReGU)模型,該模型在傳統(tǒng)BiLSTM 的基礎(chǔ)上使用了雙嵌入機(jī)制和ReGU 作為模型的輔助信息。注意力機(jī)制和BiLSTM模型的使用,充分考慮到文本序列中不同單詞的重要性和文本特征,更好地對(duì)輸出序列進(jìn)行編碼,并捕捉標(biāo)簽間的長(zhǎng)期依賴關(guān)系。為了驗(yàn)證模型的性能,本文在SemEval 2014中的Restaurant和Laptop 兩個(gè)數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),結(jié)果表明,本文模型的性能得到了有效提升。
BiLSTM-CRF 模型是將BiLSTM 網(wǎng)絡(luò)和CRF 網(wǎng)絡(luò)結(jié)合起來(lái)形成的,Huang等首次將該網(wǎng)絡(luò)模型應(yīng)用于自然語(yǔ)言處理基準(zhǔn)序列標(biāo)注數(shù)據(jù)集上,由于BiLSTM網(wǎng)絡(luò)層的存在,該模型可以同時(shí)獲取到過(guò)去和將來(lái)的輸入特征;由于CRF網(wǎng)絡(luò)層的存在,該模型可以使用句子級(jí)的標(biāo)注信息。BiLSTM-CRF模型結(jié)構(gòu)[7]如圖1所示。
圖1 BiLSTM-CRF模型結(jié)構(gòu)Fig.1 BiLSTM-CRF model structure
1997 年,Hochreiter 等[15]提出一種RNN 改進(jìn)后的模型,即LSTM,這種模型的作用主要就是為了解決RNN所造成的梯度爆炸或消失問(wèn)題。后來(lái)又被人們進(jìn)行了多次改進(jìn),其中最流行的一個(gè)LSTM 網(wǎng)絡(luò)的結(jié)構(gòu)如圖2所示[16]。它將“門(mén)”添加到原始的RNN 模型中,在一定程度上避免了梯度爆炸或消失的問(wèn)題,并充分考慮到當(dāng)前單詞的上下文信息,從而提取出輸入文本的全局特征表示。
圖2 LSTM網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 LSTM network structure
LSTM模型的網(wǎng)絡(luò)結(jié)構(gòu)主要包括遺忘門(mén)、輸入門(mén)和輸出門(mén),它們各自的計(jì)算公式如下:
其中,ft、it、ot分別是遺忘門(mén)、輸入門(mén)、輸出門(mén);x、h、c是輸入層、隱藏層、記憶單元;W、b是權(quán)重矩陣、偏置;*是點(diǎn)積。
為了區(qū)分不同詞語(yǔ)的重要程度,本文在傳統(tǒng)BiLSTMCRF模型結(jié)構(gòu)基礎(chǔ)之上加入注意力機(jī)制,同時(shí)還引入了雙嵌入機(jī)制和ReGU作為輔助,構(gòu)建了基于注意力機(jī)制的雙層BiReGU 網(wǎng)絡(luò)模型。該模型的結(jié)構(gòu)如圖3 所示。該網(wǎng)絡(luò)結(jié)構(gòu)把上下文信息輸入神經(jīng)網(wǎng)絡(luò)模型中,不僅能夠更好地捕捉到標(biāo)簽之間的長(zhǎng)期依賴關(guān)系,而且還能更好地獲取文本的特征。它還使用注意力機(jī)制來(lái)發(fā)現(xiàn)文本中的重要信息,自動(dòng)學(xué)習(xí)輸入文本序列的相對(duì)重要的單詞。模型的網(wǎng)絡(luò)結(jié)構(gòu)依次由以下五部分組成:詞嵌入層、第一層BiReGU、單詞注意力計(jì)算層、第二層BiReGU、方面術(shù)語(yǔ)標(biāo)注層。
圖3 AD-BiReGU網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 AD-BiReGU network structure
(1)詞嵌入層:利用Glove 預(yù)訓(xùn)練的詞向量嵌入和特定域預(yù)訓(xùn)練的詞向量嵌入進(jìn)行拼接操作,即雙嵌入方法,來(lái)將所輸入的文本序列轉(zhuǎn)化為向量表示的形式。
(2)第一層BiReGU:在BiLSTM的整體模型基礎(chǔ)上使用了ReGU 結(jié)構(gòu)來(lái)更深入地訓(xùn)練和獲得有用的文本特征。
(3)單詞注意力計(jì)算層:對(duì)第一層BiReGU 提取的特征,使用注意力機(jī)制來(lái)發(fā)現(xiàn)文本中的重要信息,自動(dòng)學(xué)習(xí)輸入文本序列的相對(duì)重要的單詞。
(4)第二層BiReGU:將單詞注意力計(jì)算層的輸出作為第二層BiReGU 層的輸入,來(lái)獲取更加全局的特征信息。
(5)方面術(shù)語(yǔ)標(biāo)注層:將第二層BiReGU 提取的向量信息輸入到CRF中,進(jìn)行最終的方面術(shù)語(yǔ)標(biāo)注。
由于深度學(xué)習(xí)模型只能接受數(shù)值形式的輸入,首先將文本數(shù)據(jù)表示成深度學(xué)習(xí)模型所能處理的形式,將輸入序列表示為W={x1,x2,…,xn},n為輸入文本序列的單詞個(gè)數(shù)。該模型沒(méi)有采用標(biāo)準(zhǔn)的技術(shù)通過(guò)拼接詞嵌入和字符嵌入來(lái)生成每個(gè)單詞xi的嵌入,而是采用Glove 詞向量嵌入G(xi)和特定域詞向量嵌入D(xi)進(jìn)行拼接,即雙嵌入機(jī)制的方法,將每個(gè)詞進(jìn)行向量化表示,每個(gè)句子就會(huì)生成一個(gè)詞向量矩陣E={e1,e2,…,en},其中ei表示第i個(gè)詞語(yǔ)的詞向量,維度為D=dG⊕dD,e∈Rn×D,充分考慮了嵌入是否與特定領(lǐng)域相關(guān)。
網(wǎng)絡(luò)模型中包括雙層BiReGU,每一層利用雙向的LSTM神經(jīng)網(wǎng)絡(luò)對(duì)前文信息和后文信息進(jìn)行處理,充分挖掘輸入序列的上下文信息??紤]到ReGU 能夠更深入地訓(xùn)練和獲得有用的文本特征,則在BiLSTM結(jié)構(gòu)的基礎(chǔ)上引入ReGU 結(jié)構(gòu),將此ReGU 結(jié)構(gòu)直接替換掉原LSTM 結(jié)構(gòu),擁有像BiLSTM 一樣的兩個(gè)方向的表示。ReGU 由兩個(gè)門(mén)ft和ot來(lái)控制輸入和隱藏狀態(tài)信息的流動(dòng),其中ot可以控制將上一層信息輸入到下一層,更深入地訓(xùn)練和獲得有用的文本特征。ReGU 結(jié)構(gòu)圖如圖4所示。
圖4 ReGU結(jié)構(gòu)Fig.4 ReGU structure
給定時(shí)間t和前一個(gè)記憶單元Ct-1的輸入xt,新的記憶單元Ct是通過(guò)以下公式計(jì)算得到的:
新的隱藏狀態(tài)計(jì)算如下:
其中,ft=σ(Wf·[ht-1,xt]+bf)是遺忘門(mén),是殘余門(mén),是xt還是tanh(Wi xt)根據(jù)xt大小是否等于ct決定。
與雙層BiLSTM 結(jié)構(gòu)一樣,構(gòu)建出的雙層BiReGU網(wǎng)絡(luò)模型的每一層利用雙向的ReGU 結(jié)構(gòu)對(duì)前文信息和后文信息進(jìn)行處理,充分挖掘輸入序列的上下文信息。將經(jīng)過(guò)詞嵌入層形成的詞向量表示W(wǎng)={h1,h2,…,ht,…,hn} 輸入到第一層BiReGU,記BiReGU 中前向ReGU和后向ReGU在時(shí)刻t的輸入處理分別為:
考慮到這種雙層BiReGU 網(wǎng)絡(luò)結(jié)構(gòu)未考慮不同單詞的重要性,因此將第一層BiReGU的輸出輸入到注意力計(jì)算層,計(jì)算每個(gè)單詞的重要程度。多頭注意力機(jī)制的計(jì)算方法為:
其中,Q、K、V分別表示Query矩陣、Key矩陣、Value矩陣,注意力操作是從Q到K×V的一個(gè)個(gè)映射,將它編碼成一個(gè)新的n×dv的序列,起調(diào)節(jié)的作用,它的作用是用來(lái)控制Q和K的內(nèi)積不會(huì)特別大,并且每個(gè)注意力的頭都會(huì)采用自注意力機(jī)制,尋找序列內(nèi)部之間的一種聯(lián)系。在方面術(shù)語(yǔ)提取工作中,Q、K、V的值是相等的,代表嵌入層的輸出E的大小為n×dm,其中dm為BiReGU 輸出的維數(shù)。h為頭的數(shù)量,i為第i個(gè)注意力頭部,每個(gè)注意力頭部用式(14)計(jì)算,然后再?gòu)淖蟮接覍⒚總€(gè)頭進(jìn)行拼接,最終形成注意力矩陣X。
考慮到單層BiReGU 不能獲取到更加全局的特征信息,故使用了雙層BiReGU,將單詞注意力計(jì)算層的輸出作為第二層BiReGU層的輸入,來(lái)獲取更加全局的特征信息。
為了生成最終的方面術(shù)語(yǔ)標(biāo)記,使用CRF代替softmax分類器作為最后一層可以提高標(biāo)注之間高度依賴的性能。CRF概率的計(jì)算如下:
訓(xùn)練過(guò)程中使用最大條件似然估計(jì),計(jì)算如下:
最后的標(biāo)注結(jié)果以最高的條件概率生成:
本文采用來(lái)自SemEval 2014 的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),數(shù)據(jù)集概況如表1 所示,Laptop、Restaurant 分別包含筆記本電腦和餐館領(lǐng)域中的用戶評(píng)論。評(píng)估指標(biāo)是宏觀平均F1,更適合具有不平衡類別的數(shù)據(jù)集。
表1 數(shù)據(jù)集概況Table 1 Dataset overview
表1表示數(shù)據(jù)集的基本信息,#S表示句子的數(shù)量,#T表示方面術(shù)語(yǔ)的數(shù)量。
本文實(shí)驗(yàn)平臺(tái)信息如表2所示。
表2 實(shí)驗(yàn)平臺(tái)設(shè)置Table 2 Setup of experimental platform
考慮到當(dāng)提取的文本特征維度太大會(huì)容易造成梯度爆炸問(wèn)題,維度太小又無(wú)法充分地提取到特征信息,因此將提取全局和局部特征的維度都設(shè)置為300。本文采用Glove 300 維詞向量對(duì)一般詞嵌入向量進(jìn)行初始化,選擇Adam(Adaptive Moment Estimation)作為優(yōu)化器函數(shù)對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,并將dropout值設(shè)置為0.4以防止過(guò)擬合現(xiàn)象的出現(xiàn)。所有參數(shù)都是通過(guò)實(shí)驗(yàn)微調(diào)得到的。模型的具體參數(shù)設(shè)置如表3所示。
表3 實(shí)驗(yàn)參數(shù)設(shè)置Table 3 Setup of experimental parameters
采用F1 值作為評(píng)估文本模型的指標(biāo),F(xiàn)1 值計(jì)算公式如下:
為了驗(yàn)證本文所提出模型的有效性,將本文方法與其他先進(jìn)方法進(jìn)行比較,如表4 所示,“—”表明該模型未在該數(shù)據(jù)集上進(jìn)行評(píng)估。
表4 實(shí)驗(yàn)結(jié)果對(duì)比(F1-Score)Table 4 Comparison of experimental result(F1-Score)%
上述結(jié)果表明,與傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,本文方法不基于特征工程,取得了合理的性能。與一些基準(zhǔn)模型相比,本文方法在性能上也有一定程度的提高。在上述深度學(xué)習(xí)網(wǎng)絡(luò)中,LSTM-CRF取得了相對(duì)較低的提取效果,這是因?yàn)樗雎缘袅藛卧~的上下文含義和詞之間的長(zhǎng)期依賴關(guān)系,而B(niǎo)iLSTM-CRF 有很好的效果,既能獲得長(zhǎng)距離的依賴信息,雙向結(jié)構(gòu)又能很好地包含每一個(gè)單詞的上下文信息。本文提出的模型F1 值達(dá)到82.45%、85.01%,在Laptop 數(shù)據(jù)集上,相比于基線模型BiLSTM-CNN 模型提升了3.48 個(gè)百分點(diǎn),在Restaurant數(shù)據(jù)集上,其F1 值提升了1.14 個(gè)百分點(diǎn)??梢钥闯霰疚奶岢龅哪P徒Y(jié)構(gòu)在兩種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,較其他基準(zhǔn)模型和先進(jìn)模型均有一定程度的提升,實(shí)驗(yàn)結(jié)果也證明了本文模型的有效性。
為了驗(yàn)證雙嵌入機(jī)制和ReGU 在特征提取時(shí)展示的優(yōu)勢(shì),設(shè)置了DE-BiLSTM-CRF、D-BiLSTM-CRF 和D-BiReGU-CRF對(duì)比實(shí)驗(yàn)。DE-BiLSTM-CRF是本文的基模型,它是在BiLSTM-CRF基礎(chǔ)上增加了雙嵌入機(jī)制得來(lái)的,可以看出實(shí)驗(yàn)結(jié)果比BiLSTM-CRF相對(duì)較好一些。D-BiLSTM-CRF 使用了雙層BiLSTM,D-BiReGUCRF 是在D-BiLSTM-CRF 基礎(chǔ)上引入了ReGU 結(jié)構(gòu)。實(shí)驗(yàn)對(duì)比結(jié)果如表5所示。
表5 實(shí)驗(yàn)結(jié)果對(duì)比(F1-Score)Table 5 Comparison of experimental result(F1-Score)%
由表5可以看出,雙層BiLSTM、引入ReGU與注意力機(jī)制均有效提升了效果。
本文提出了一種基于注意力機(jī)制的雙層BiReGU方面術(shù)語(yǔ)提取模型。該模型采用雙層BiLSTM模型進(jìn)行特征表示,然后使用多頭注意力機(jī)制,為句子中不同單詞分配不同權(quán)重,更好地學(xué)習(xí)文本特征表示和捕捉詞語(yǔ)間的長(zhǎng)期依賴關(guān)系。此外,本文還引入了雙嵌入機(jī)制和ReGU作為輔助。與傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)模型相比,本文的注意力機(jī)制模型能夠有效識(shí)別方面詞,取得了較好的提取效果。未來(lái)的工作可以考慮采用新型的網(wǎng)絡(luò)結(jié)構(gòu)(Graph Convolutional Network等)來(lái)改善模型的性能。