王 劍,唐 珊,黃于欣,余正濤*
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,昆明 650500;2.云南省人工智能重點實驗室(昆明理工大學(xué)),昆明 650500)
(*通信作者電子郵箱ztyu@hotmail.com)
漢越雙語觀點句識別旨在從描述同一事件的多篇漢越雙語新聞文檔中識別出能夠傳遞作者情感、表征作者觀點的句子,對開展跨語言事件分析和輿情分析等有著重要的支撐作用。
傳統(tǒng)的觀點句識別任務(wù)包括單語言觀點句識別和跨語言觀點句識別。單語言觀點句識別主要利用單語信息,基于情感詞典或機器學(xué)習(xí)算法實現(xiàn)觀點句識別。前者主要依據(jù)情感詞典來判斷句子是否包含情感特征。如文獻[1]通過建立觀點詞集,通過計算句子中觀點詞的強度來實現(xiàn)觀點句識別?;跈C器學(xué)習(xí)方法則將觀點句識別視為傳統(tǒng)的分類任務(wù),通過選擇合適的主客觀分類特征和機器學(xué)習(xí)分類算法實現(xiàn)觀點句分類;文獻[2]利用主觀詞和客觀詞作為分類特征訓(xùn)練樸素貝葉斯分類器來實現(xiàn)觀點句識別;文獻[3]中提出了通過隱馬爾可夫模型抽取情感特征,對句子進行序列標(biāo)注,通過賦予句子不同的權(quán)重來實現(xiàn)觀點句的識別。相比單語觀點句識別任務(wù),跨語言觀點句識別相關(guān)研究較少。目前常用的主要有基于雙語詞典、基于平行語料和基于機器翻譯和基于雙語詞嵌入模型的方法?;陔p語詞典方法的是將句子看成要素的集合,通過預(yù)先構(gòu)造的雙語對齊詞典來實現(xiàn)跨語言句子要素對齊,然后基于雙語對齊要素實現(xiàn)觀點句識別?;谄叫姓Z料的方法則利用平行語料間的對齊關(guān)系進行映射,得到目標(biāo)語言信息。文獻[4]利用詞對齊的雙語平行語料進行跨語言觀點挖掘,提出了一種基于依存關(guān)系的細粒度觀點挖掘算法;文獻[5]中提出了一種利用源語言主客觀分類器及平行語料來對目標(biāo)語言進行觀點句分類。然而這類方法要求在做觀點句識別時,必須有高質(zhì)量的平行語料。基于機器翻譯的思想是利用機器翻譯將源語言翻譯為目標(biāo)語言,將跨語言問題轉(zhuǎn)換為單語言觀點句識別。文獻[6]中提出了源語言翻譯到目標(biāo)語言和目標(biāo)語言翻譯到源語言兩種跨語言方式,然后在單語上進行觀點句分類。這類方法過于依賴于機器翻譯的性能,而越南語屬于低資源語言,機器翻譯性能不佳。因此基于機器翻譯的跨語言觀點句識別方法在漢-越等低資源語言上不適用。近年來,利用雙語詞嵌入來實現(xiàn)跨語言文本的語義空間對齊,解決不同語言之間差異性成為了重要的研究方向[7-9]。如文獻[7]中提出了一種基于注意力機制(Attention Mechanism)的跨語言表征方法,并結(jié)合長短期記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)實現(xiàn)跨語言情感分類;文獻[10]中提出一種基于雙語詞嵌入,融合主題特征、位置特征和情感特征的跨語言觀點句識別方法。綜上所述可以看出,通用的觀點句識別任務(wù),不管是單語言還是跨語言,都將其作為一個基于句子內(nèi)部情感特征的分類任務(wù),而很少考慮不同句子間的關(guān)聯(lián)關(guān)系對觀點句識別的影響。
針對漢越雙語多文檔新聞觀點句識別任務(wù),僅通過判斷句子內(nèi)部的情感特征難以達到很好的效果。在描述同一事件的多語言文檔中,句子之間存在復(fù)雜的關(guān)聯(lián)關(guān)系,這些關(guān)聯(lián)關(guān)系對觀點句識別有著重要的支撐作用[11-12]?;诖吮疚亩x了兩類關(guān)聯(lián)關(guān)系,即事件要素關(guān)聯(lián)和情感要素關(guān)聯(lián)。如表1所示,漢越雙語話題“一帶一路”中的兩個句子均包含事件要素“阮春?!薄爸袊本?,這種關(guān)聯(lián)稱為事件要素關(guān)聯(lián)。此外,這兩個句子均出現(xiàn)了情感詞“重要”,這種關(guān)聯(lián)稱為情感要素關(guān)聯(lián)。本文認為具有較強關(guān)聯(lián)關(guān)系的句子是不同來源媒體所共同關(guān)注的焦點,更容易成為觀點句。因此提出通過構(gòu)造句子之間的關(guān)聯(lián)關(guān)系圖來表征多語言、多文檔句子之間的關(guān)聯(lián)特性,并結(jié)合深度學(xué)習(xí)框架,融合句子編碼特征和關(guān)聯(lián)特征實現(xiàn)跨語言觀點句分類。
表1 漢越雙語新聞文檔示例Tab.1 Example of Chinese-Vietnamese bilingual news document
本文提出了一種基于雙向長短期記憶(Bi-directional Long Short Term Memory,Bi-LSTM)網(wǎng)絡(luò)[13]和句子關(guān)聯(lián)特征的漢越雙語新聞觀點識別模型。首先構(gòu)建漢越雙語句子關(guān)聯(lián)圖,生成句子關(guān)聯(lián)特征;然后基于雙語詞嵌入和Bi-LSTM 獲得漢越雙語同一語義空間下的表征;最后聯(lián)合句子的編碼特征和關(guān)聯(lián)特征構(gòu)造觀點句分類器??傮w結(jié)構(gòu)如圖1 所示,模型共分為四個部分:句子關(guān)聯(lián)圖構(gòu)建、雙語詞嵌入層、編碼層和觀點句分類層。圖1中:wi,k表示第i個句子的第k個詞;hi是句子編碼表示;ea表示相同語言頂點之間的邊;eb表示不同語言頂點之間的邊;v1、v2、v3、v4代表漢語句子;va、vb、vc、vd代表越南語句子;Avg 表示對句子編碼特征和句子關(guān)聯(lián)特征加權(quán)平均來獲得最終的觀點分類特征。
圖1 基于句子關(guān)聯(lián)特征的漢越雙語新聞觀點識別模型Fig.1 Chinese-Vietnamese bilingual news opinion sentence recognition model based on sentence association features
漢越雙語多文檔句子關(guān)聯(lián)圖能夠體現(xiàn)不同語言、不同文檔的句子間關(guān)聯(lián)關(guān)系,對于開展多文檔觀點句識別有著一定的支撐作用。首先定義了事件要素關(guān)聯(lián)和情感要素關(guān)聯(lián)兩種關(guān)聯(lián)關(guān)系;然后構(gòu)造以漢越雙語句子為頂點,以關(guān)聯(lián)關(guān)系為邊的句子關(guān)聯(lián)圖;最后基于句子關(guān)聯(lián)圖,通過TextRank 算法[14]計算句子的關(guān)聯(lián)特征。
1.1.1 事件要素關(guān)聯(lián)
事件要素包含事件發(fā)生的時間、地點、人物和組織機構(gòu)等信息。利用不同新聞句中事件要素的共現(xiàn)次數(shù)來表示不同句子間事件要素的關(guān)聯(lián)強度。具體來說,首先抽取漢越雙語新聞句子中的命名實體作為事件要素,得到的漢語事件要素的集合記為和相應(yīng)的越南語事件要素集合記為。對于漢越雙語句子sk,將其表征為相應(yīng)要素集合,即:sk={a1,a2,…,ak},其中事件要素ak為漢語或越南語對應(yīng)的事件要素。為了計算不同語言句子的要素關(guān)聯(lián)強度,首先利用漢越雙語詞典對抽取的要素進行對齊,得到對齊的漢越雙語事件要素集合Acv=。最后通過計算不同句子的事件要素共現(xiàn)次數(shù)來確定其關(guān)聯(lián)強度,共現(xiàn)次數(shù)可以通過判斷兩個句子是否包含相同的要素,即任意語言的兩個句子si、sj的要素集合是否存在交集。特別說明,不同語言句子的要素關(guān)聯(lián)強度需要利用對齊的漢越雙語事件要素集合中的實體共現(xiàn)來實現(xiàn)。具體計算如式(1)所示:
其中:C(si∩sj)表示新聞句si和sj的共現(xiàn)要素數(shù);C(si)表示句子si的要素個數(shù)。
1.1.2 情感要素關(guān)聯(lián)
情感要素關(guān)聯(lián)是指漢越雙語新聞句子中包含的情感詞的關(guān)聯(lián)關(guān)系,通過計算不同句子間情感詞的相似性來衡量其關(guān)聯(lián)關(guān)系。為了實現(xiàn)情感要素關(guān)聯(lián),首先抽取不同語言新聞句中所包含的情感詞,其中,漢語新聞句情感詞抽取利用知網(wǎng)情感詞典和臺灣大學(xué)情感詞典[15],提取出每個句子中的情感詞集。針對越南語情感詞典資源缺乏的問題,采用漢越雙語詞典翻譯漢語情感詞典,來構(gòu)建越南語情感詞典。抽取后得到每個越南語句子中包含的情感詞集合。通過計算任意兩個句子si和sj所包含情感詞的相似性作為句子的情感關(guān)聯(lián)強度。其中情感詞相似性通過漢越雙語詞向量的余弦相似度得到,如式(2)所示:
最終兩個句子的情感關(guān)聯(lián)強度通過計算兩個句子的所有情感詞相似度的最大值得到。如式(3)所示:
1.1.3 漢越雙語多文檔句子關(guān)聯(lián)圖的構(gòu)建
其中:Fa(si,sj)為句子的要素關(guān)聯(lián)強度;Fb(si,sj)為句子的情感關(guān)聯(lián)強度。特別說明,為了降低模型的復(fù)雜性,設(shè)置邊的權(quán)重閾值ε,如果W(vi,vj) >ε則保留這條邊,反之則刪除這條邊。
最后在已構(gòu)建的圖G上,利用TextRank 算法計算得到漢越雙語的句子關(guān)聯(lián)特征,如式(5)所示:
其中:R(vi)是句子vi的句子關(guān)聯(lián)特征;W(vj,vi)為頂點vi和vj的邊的權(quán)重;nb(vi)為與vi有關(guān)聯(lián)關(guān)系的鄰居節(jié)點;d=0.85,為阻尼系數(shù)。
雙語詞嵌入的目的是為了把不同語言的詞語映射在同一語義空間內(nèi),以實數(shù)向量的形式來表示詞語,同時保證語義相近的詞語在向量空間上也足夠接近,是一種解決跨語言問題的通用框架。首先利用雙語詞向量模型將漢語、越南語兩種不同的語言映射到同一個語義空間下。對于給定的句子si={wi,1,wi,2,…,wi,k},其中wi,k表示第i個句子的第k個詞,利用式(6)計算得到其雙語詞嵌入表征:
編碼器的目標(biāo)是把輸入的文本映射為向量表示,獲取其深層的語義特征。使用雙向長短期記憶(Bi-directional Long Short Term Memory,Bi-LSTM)網(wǎng)絡(luò)作為編碼器,編碼器在接收到每個雙語詞向量后,順序更新其隱藏狀態(tài),輸出句子向量。具體來講,通過Bi-LSTM 編碼器對雙語詞嵌入進行編碼,如式(7)所示:
其中:ei,k為在第i個句子中第k個詞的雙語詞向量表示;hi,k為隱層向量。編碼狀態(tài)中,前向LSTM 順序讀入句子中包含的每個詞產(chǎn)生前向隱式狀態(tài)序列,其中表示第i個句子中第k個詞,后向LSTM 逆序讀入句子中包含的每個詞產(chǎn)生后向隱式狀態(tài)序列,采用編碼器最后時刻的前向和后向?qū)?yīng)的隱層狀態(tài)拼接,構(gòu)成句子的編碼表示,如式(8)所示:
在獲得句子的語義編碼之后,需要對其進行降維來獲得其語義特征,如式(9)所示:
其中:Ws和bs為訓(xùn)練參數(shù);sigmoid函數(shù)為激活函數(shù)。
最后聯(lián)合句子關(guān)聯(lián)特征和句子語義特征獲得最終的觀點分類特征,如式(10)所示:
采用二分類的交叉熵損失函數(shù)對模型進行優(yōu)化。
其中:yi是第i個樣本的標(biāo)簽;是模型預(yù)測樣本是正樣本的概率。
由于目前還沒有公開的漢越雙語新聞?wù)Z料,因此利用爬蟲工具從中文新聞網(wǎng)站和越南新聞網(wǎng)站收集新聞文檔。選擇三個中越共同關(guān)心事件的雙語新聞文檔作為數(shù)據(jù)集,共計200 篇文檔,2 832 個句子,詳細信息如表2 所示。對每個話題下的新聞文檔按照90%、5%、5%隨機劃分訓(xùn)練集、驗證集和測試集。
表2 漢越雙語新聞文檔數(shù)據(jù)集Tab.2 Dataset of Chinese-Vietnamese bilingual news documents
采用準(zhǔn)確率P、召回率R、F1值作為評價指標(biāo)。計算公式如下所示:
其中:a表示模型將觀點句預(yù)測正確的個數(shù);b表示模型將非觀點句預(yù)測為觀點句的個數(shù);c表示模型將觀點句預(yù)測為非觀點句的個數(shù)。
采用的2 層的Bi-LSTM 網(wǎng)絡(luò)獲取漢越雙語的語義特征,其中雙語詞嵌入維度為300 維。Bi-LSTM 隱狀態(tài)設(shè)置為512維。為避免模型過擬合,dropout 設(shè)置為0.3。模型訓(xùn)練批次大小設(shè)置為64,訓(xùn)練200輪次。采用Adam 優(yōu)化器對模型進行優(yōu)化,學(xué)習(xí)率為1E -3,同時在模型訓(xùn)練過程中加入梯度裁剪,最大梯度裁剪為5。
為了驗證本文方法的有效性,第一組實驗在7 個基準(zhǔn)模型上進行實驗,結(jié)果如表3 所示。其中:卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)設(shè)置卷積層和全連接層皆為一層,卷積濾波器的大小設(shè)置為2、3、4;單向長短期記憶網(wǎng)絡(luò)(Long Short Term Memory Network,LSTM)參數(shù)設(shè)置與Bi-LSTM 相同,具體如2.3 節(jié)所示。僅使用關(guān)聯(lián)特征則利用TextRank算法得到的關(guān)聯(lián)特征值對句子進行排序得到相應(yīng)的觀點句。
表3 不同模型觀點句識別結(jié)果Tab.3 Results of opinion sentence recognition of different models
從表3 可以看出,三種模型在都不使用關(guān)聯(lián)特征時,Bi-LSTM 模型取得了最佳的性能,這也說明Bi-LSTM 在文本數(shù)據(jù)上強大的建模能力。但是同時可以看出,在不使用關(guān)聯(lián)特征時,性能最佳的Bi-LSTM 模型也僅能獲得63.8%的準(zhǔn)確率,比僅利用關(guān)聯(lián)特征的準(zhǔn)確率低了7.4%。這也說明了在多文檔觀點句識別過程中,模型僅依賴深度學(xué)習(xí)模型的輸出無法得到很好的語義表征。本文認為造成這種現(xiàn)象有兩個原因:一個是因為數(shù)據(jù)集規(guī)模較小,模型訓(xùn)練不充分;另一個原因是漢越雙語詞向量質(zhì)量不高,在詞嵌入階段存在誤差。另外還能看出,僅使用關(guān)聯(lián)特征相比三種深度學(xué)習(xí)模型在準(zhǔn)確率、召回率和F1值均能夠獲得較好的性能,這也說明了本文提出的句子關(guān)聯(lián)特征建模方法是有效的,并且在深度學(xué)習(xí)模型中融入句子關(guān)聯(lián)特征是有效的。最后可以看出,聯(lián)合建模深度學(xué)習(xí)模型和句子關(guān)聯(lián)特征,模型性能有一個較大幅度的提升。相比Bi-LSTM 模型,加入句子關(guān)聯(lián)特征,模型準(zhǔn)確率提升了15.1%,相比僅使用關(guān)聯(lián)特征,模型準(zhǔn)確率提升了7.7%。這些都充分說明了本文提出的結(jié)合語義特征和關(guān)聯(lián)特征能夠有效提升漢越雙語多文檔觀點句識別任務(wù)的性能。
第二組實驗是為了驗證式(4)中參數(shù)α和β對模型性能的影響,這兩個參數(shù)分別表示事件要素和情感要素在計算關(guān)聯(lián)特征時的比例對關(guān)聯(lián)特征有著重要的影響。實驗結(jié)果如表4所示。
表4 超參數(shù)α和β對模型性能的影響Tab.4 Effect of hyper-parameter α and β on model performance
從表4 可看出,模型在α=0.3,β=0.7 時取得了最佳性能,這也表明情感要素在計算關(guān)聯(lián)特征時更重要。本文認為這也說明了觀點句識別中情感詞仍然是一個重要的影響因素。當(dāng)α=0.9,β=0.1 時模型性能最差,這也反映了僅使用事件要素來表征關(guān)聯(lián)特征并不能很好地反映不同句子之間的情感關(guān)聯(lián)關(guān)系。
設(shè)計第三組實驗來驗證超參數(shù)ε對模型性能的影響,其大小決定了多文檔關(guān)聯(lián)圖的稀疏程度:ε值越大,則關(guān)聯(lián)圖越稀疏;反之則越稠密。實驗結(jié)果如表5所示。
表5 超參數(shù)ε對模型性能的影響Tab.5 Effect of hyper-parameter ε on model performance
從表5可以看出,超參數(shù)ε=0.5時模型性能最佳。同樣可以看出ε過小或者過大,模型性能均有顯著的下降。特別是ε=0.9 時,相比ε=0.5,模型F1值下降了6.9%,這也說明ε=0.9 時,圖模型過于稀疏,很多句子間的有用的關(guān)聯(lián)關(guān)系被丟棄,從而導(dǎo)致句子關(guān)聯(lián)特征產(chǎn)生較大偏差。
針對漢越雙語多文檔觀點句任務(wù),提出一種在深度學(xué)習(xí)框架下,在模型分類層融入句子關(guān)聯(lián)特征的觀點句識別方法。實驗結(jié)果表明,融入句子關(guān)聯(lián)特征能夠顯著提升漢越雙語觀點句識別模型的性能。在下一步研究中,擬開展利用深度神經(jīng)網(wǎng)絡(luò)聯(lián)合訓(xùn)練句子關(guān)聯(lián)特征和句子語義特征,探索利用圖卷積神經(jīng)網(wǎng)絡(luò)等方式利用句子關(guān)聯(lián)圖來提升觀點句識別模型性能。