沈龍?bào)J,鄒博偉,葉 靜,周國棟,朱巧明
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
否定語義在自然語言中十分普遍,通常用于表示人們對某一觀點(diǎn)的態(tài)度。否定表述通常包含一個(gè)否定運(yùn)算符(例如“不”“沒有”),該運(yùn)算符對表述本身或其某一方面的語義進(jìn)行了反轉(zhuǎn)。否定聚焦點(diǎn)是指在否定表述中最顯著被否定的文本片段,它是否定詞特別強(qiáng)調(diào)的語義,從更細(xì)粒度上對文本中的否定含義進(jìn)行界定。在相同句子中,根據(jù)描述者所強(qiáng)調(diào)的否定語義之間的差別,其對應(yīng)的否定聚焦點(diǎn)也不相同。如例1所示:
例1牛不會(huì)用叉子吃草。
在例1中,根據(jù)不同解釋,否定詞“不”的聚焦點(diǎn)可能對應(yīng)以下三種情形之一①本文用粗體表示否定運(yùn)算符,用下劃線表示否定聚焦點(diǎn)。:
? 否定聚焦點(diǎn)1:牛
解釋:牛不用叉子吃草,但其他動(dòng)物可以。
? 否定聚焦點(diǎn)2:草
解釋:牛不用叉子吃草,但是吃其他事物。
? 否定聚焦點(diǎn)3:用叉子
解釋:牛吃草,但是不用叉子。
前兩種情形不符合常識(shí)及人們在使用語言時(shí)的習(xí)慣,因此例1中否定詞“不”的聚焦點(diǎn)應(yīng)該為“用叉子”。根據(jù)以上分析可以看出,否定聚焦點(diǎn)識(shí)別不僅要考慮否定結(jié)構(gòu)的句法特點(diǎn),更重要的是其語義表示,甚至是常識(shí)及語境。Blanco和Moldovan 在否定聚焦點(diǎn)語料的標(biāo)注工作中指出,其人工標(biāo)注一致性僅為0.72[1],這從另一個(gè)角度說明了否定聚焦點(diǎn)識(shí)別任務(wù)的難度。
現(xiàn)有的否定聚焦點(diǎn)識(shí)別方法主要集中于基于規(guī)則的方法[2]和基于特征工程的方法[1],而這些傳統(tǒng)方法大多依賴于領(lǐng)域?qū)<疫M(jìn)行模板或特征設(shè)計(jì),需要耗費(fèi)很多的人力和時(shí)間代價(jià)。與傳統(tǒng)方法相比較,深度學(xué)習(xí)技術(shù)可以自動(dòng)地學(xué)習(xí)特征,最小化特征工程的代價(jià)。基于深度學(xué)習(xí)的方法在自然語言處理的各個(gè)任務(wù)中已經(jīng)被證明是有效的,如機(jī)器翻譯[3-4]、情感分析[5-6]、關(guān)系抽取[7-8]等。近些年來,循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[9]及其變體長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[10-11]和門控循環(huán)網(wǎng)絡(luò)(gated recurrent unit,GRU)[12]在序列化數(shù)據(jù)建模方面取得了較大成功。
本文將否定聚焦點(diǎn)識(shí)別作為序列標(biāo)注任務(wù),采用雙向長短期記憶網(wǎng)絡(luò)(bidirectional LSTM,BiLSTM)學(xué)習(xí)否定詞上下文中前向和后向的遠(yuǎn)距離特征,同時(shí),在該網(wǎng)絡(luò)輸出層后增加條件隨機(jī)場(conditional random field,CRF)結(jié)構(gòu),學(xué)習(xí)輸出標(biāo)簽之間的前后依賴關(guān)系。本文首先將句子中的詞進(jìn)行向量化表示,同時(shí)將每個(gè)詞對應(yīng)的相關(guān)特征(詞性、位置、句法信息、語義角色等)向量化,并進(jìn)行組合,將組合后的向量送入BiLSTM網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,最后通過CRF層解碼出全局最優(yōu)標(biāo)注序列。
本文提出的基于BiLSTM-CRF模型的否定聚焦點(diǎn)識(shí)別方法在*SEM2012數(shù)據(jù)集上進(jìn)行測試,準(zhǔn)確率達(dá)到69.58%,取得了目前最好的性能。此外,相關(guān)實(shí)驗(yàn)驗(yàn)證了語義角色信息對否定聚焦點(diǎn)識(shí)別的有效性。
本文組織結(jié)構(gòu)如下:第1節(jié)介紹否定聚焦點(diǎn)識(shí)別的相關(guān)研究及BiLSTM-CRF模型的相關(guān)工作;第2節(jié)詳細(xì)描述本文提出的基于BiLSTM-CRF模型的否定聚焦點(diǎn)識(shí)別方法;第3節(jié)介紹實(shí)驗(yàn)設(shè)置,并對實(shí)驗(yàn)結(jié)果進(jìn)行分析;第4節(jié)給出本文結(jié)論。
本節(jié)分別介紹否定聚焦點(diǎn)識(shí)別研究的進(jìn)展,以及BiLSTM-CRF模型在自然語言處理研究中的相關(guān)工作。
否定聚焦點(diǎn)識(shí)別任務(wù)由德克薩斯大學(xué)的Blanco和Moldovan于2011年首次提出[1],他們從語義角度對否定聚焦點(diǎn)的概念進(jìn)行了定義和描述,并基于PropBank語料庫[13]標(biāo)注了否定聚焦點(diǎn)數(shù)據(jù)集。同時(shí),提出決策樹模型對否定聚焦點(diǎn)進(jìn)行識(shí)別。然而,該方法采用了22類復(fù)雜繁瑣的詞法和句法特征,對特征工程依賴嚴(yán)重,需要大量人工參與和領(lǐng)域知識(shí)。
目前,針對否定聚焦點(diǎn)識(shí)別任務(wù)的研究相對匱乏,一方面原因是該任務(wù)本身難度較大(人工標(biāo)注一致性僅為0.72[1]),另一方面,還未有充足的否定聚焦點(diǎn)識(shí)別語料供現(xiàn)有模型進(jìn)行訓(xùn)練(Blanco標(biāo)注的數(shù)據(jù)集規(guī)模為3 993句)。*SEM2012評測任務(wù)將否定聚焦點(diǎn)識(shí)別作為其子任務(wù)之一[14]。Rosenberg和Bergler采用基于啟發(fā)式規(guī)則的方法來識(shí)別否定聚焦點(diǎn)[2],該方法不僅需要語言專家參與制定模板,在領(lǐng)域適應(yīng)性方面也存在一定限制。Zou等人利用上下文特征,提出基于“詞—主題”結(jié)構(gòu)的雙層圖模型[15]。該方法首先需要借助海量文本建立主題模型,同時(shí)在訓(xùn)練過程學(xué)習(xí)大量參數(shù),而調(diào)參方法大多基于個(gè)人經(jīng)驗(yàn),導(dǎo)致該方法擴(kuò)展性較差。
不同于以往的傳統(tǒng)模型,本文基于雙向長短期記憶網(wǎng)絡(luò)與條件隨機(jī)場模型來識(shí)別否定詞聚焦點(diǎn)。該模型能夠充分利用上下文信息,并有效捕獲相鄰詞的潛在依賴關(guān)系;此外,也擺脫了對特征工程以及基于經(jīng)驗(yàn)的大量參數(shù)學(xué)習(xí)的依賴,而由神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)參數(shù)及特征表示。據(jù)我們所知,本文首次嘗試采用神經(jīng)網(wǎng)絡(luò)模型解決否定聚焦點(diǎn)識(shí)別問題。
近年來,深度學(xué)習(xí)在自然語言處理的各個(gè)任務(wù)中均取得突破性進(jìn)展。其中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)作為一類典型的序列標(biāo)注網(wǎng)絡(luò),最早由Goller和Kuchler在1996年提出[9];而由于RNN受限于梯度消失和梯度爆炸問題[16-17],Hochreiter和Schmidhuber[10]提出了RNN的變體長短期記憶網(wǎng)絡(luò)(LSTM);之后,由于LSTM只能獲取單方向的上下文信息,Graves等提出了雙向LSTM(BiLSTM)并將其應(yīng)用于語音識(shí)別[18-19],該模型可以在特定時(shí)間范圍內(nèi)有效利用過去和未來的特征。另一方面,條件隨機(jī)場(CRF)由Lafferty等于2001年提出[20],近些年在自然語言處理領(lǐng)域中得到了廣泛應(yīng)用。在序列標(biāo)注任務(wù)中,CRF可以對輸出的相鄰標(biāo)簽之間的前后依賴關(guān)系加以考慮。
基于以上原因,一些工作嘗試將BiLSTM與CRF連接起來對序列化數(shù)據(jù)進(jìn)行建模。Huang等首次將BiLSTM與CRF的混合模型用于NLP的序列標(biāo)注任務(wù)上[21];Ma等將BiLSTM、CRF、CNN三種模型進(jìn)行融合并應(yīng)用于端到端的序列標(biāo)注任務(wù)中[22];Lample等將BiLSTM-CRF模型用于命名實(shí)體識(shí)別任務(wù)中[23]。該模型在序列標(biāo)注任務(wù)上的有效性逐漸得到證實(shí)。
本節(jié)首先介紹BiLSTM-CRF模型,然后給出基于該模型的否定聚焦點(diǎn)識(shí)別方法的細(xì)節(jié)。
LSTM單元循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)適合為序列化數(shù)據(jù)建模,該模型利用前一時(shí)刻的隱藏狀態(tài)和當(dāng)前輸入決定最終的輸出結(jié)果。然而,在實(shí)際應(yīng)用中,RNN受限于梯度消失和梯度爆炸問題[16-17],為解決該問題,Hochreiter和Schmidhuber提出了一個(gè)RNN的變體,LSTM網(wǎng)絡(luò)[10]。
圖1 LSTM記憶單元結(jié)構(gòu)
圖1給出了LSTM記憶單元的結(jié)構(gòu),由輸入門(input gate)、輸出門(output gate)、遺忘門(forget gate)和一個(gè)細(xì)胞狀態(tài)(cell)組成,它們控制著當(dāng)前信息以一定的比例傳遞到下一時(shí)刻,或者舍棄。因此,LSTM能夠有效利用長距離依賴關(guān)系,并消除冗余的上下文信息。
從圖1中可以看出,輸入門控制著輸入新信息按比例保存到細(xì)胞狀態(tài)中,遺忘門控制著細(xì)胞狀態(tài)所保留的歷史信息,輸出門決定了最終的輸出信息,t時(shí)刻的一個(gè)LSTM單元的更新公式如式(1)所示。
(1)
雙向LSTM在LSTM中僅考慮了單一方向的上下文信息,卻忽略了另一個(gè)方向。一個(gè)有效的解決方案是雙向LSTM(BiLSTM),該模型采用兩個(gè)相反方向的并行層——前向?qū)雍秃笙驅(qū)?,分別從序列的始端和末端開始運(yùn)行,因此,可以捕獲正向與反向的上下文信息。本文將兩個(gè)LSTM層輸出的隱藏狀態(tài)進(jìn)行拼接作為BiLSTM網(wǎng)絡(luò)的輸出。
CRF層在序列標(biāo)注中,一個(gè)詞的標(biāo)簽通常與其周圍詞的標(biāo)簽存在關(guān)聯(lián)。因此,在序列標(biāo)注任務(wù)中,對給定句子,一種有效的方法是將句子中當(dāng)前詞與相鄰詞的標(biāo)簽的關(guān)系考慮在內(nèi),然后解碼出全局最優(yōu)的標(biāo)簽序列?;诖?,本文在BiLSTM網(wǎng)絡(luò)輸出層后增加了一層條件隨機(jī)場(CRF)結(jié)構(gòu)。形式地,給定句子:
S=(x1,x2,x3,…,xn)
其預(yù)測標(biāo)簽序列為:
y=(y1,y2,y3,…,yn)
定義其得分如式(2)所示。
(2)
其中,T表示轉(zhuǎn)移得分矩陣,Ti,j表示從標(biāo)簽i到標(biāo)簽j的轉(zhuǎn)移得分,y0與yn+1是新增的句子起始標(biāo)簽和終止標(biāo)簽,T的維度為 (k+2)×(k+2);E是BiLSTM的輸出得分矩陣,其維度為n×k,其中k為不同標(biāo)簽的數(shù)量,Ei,j表示句子中第i個(gè)詞的第j個(gè)標(biāo)簽的得分。在預(yù)測句子所有可能的標(biāo)簽序列時(shí),采用柔性最大值(softmax)對結(jié)果進(jìn)行歸一化:
(3)
在訓(xùn)練過程中,本文最大化正確標(biāo)簽序列的對數(shù)概率如式(4)所示。
(4)
其中,YS表示句子S所有可能的標(biāo)簽序列。從式(4)可以看出,該模型生成概率最大的標(biāo)簽序列。解碼時(shí),獲取最高得分的標(biāo)簽序列作為最終預(yù)測的輸出序列,如式(5)所示。
(5)
BiLSTM-CRF模型圖2給出了BiLSTM-CRF模型框架。首先,將句子中的詞與其特征進(jìn)行向量化;其次,將特征向量送入BiLSTM模型從前向和后向兩個(gè)方向?qū)W習(xí)上下文特征;然后,將BiLSTM的輸出結(jié)果作為CRF層的輸入;最終,由CRF層預(yù)測全局最優(yōu)的標(biāo)簽序列。此外,為減小過擬合的影響,我們在BiLSTM模型兩端各添加了一個(gè)dropout層。
圖2 BiLSTM-CRF模型框架
標(biāo)記方案本文標(biāo)注集合定義如下:
? 標(biāo)記I:句子中的詞位于否定詞對應(yīng)的聚焦點(diǎn)內(nèi);
? 標(biāo)記O:句子中的詞不屬于否定聚焦點(diǎn)。
以*SEM2012數(shù)據(jù)集中的一個(gè)標(biāo)注實(shí)例為例,圖3給出了每個(gè)詞對應(yīng)的標(biāo)記。例如,該句子的否定聚焦點(diǎn)為mostAmericans,因此這兩個(gè)詞對應(yīng)的標(biāo)簽為I,而句子中其余詞對應(yīng)的標(biāo)簽為O。
Embedding層作為模型的輸入,本文構(gòu)建embedding層對詞及對應(yīng)的特征向量進(jìn)行編碼。對給定句子S=(w1,w2,w3,…,wn),首先使用向量矩陣WE將每個(gè)詞轉(zhuǎn)換成一個(gè)維度為dw的實(shí)值向量,其中WE∈dw×|V|,V表示詞表。
在自然語言處理領(lǐng)域的各任務(wù)中,相關(guān)研究探索了各種詞法、句法、語義等特征[24-26]。為比較各類特征在本文模型上的有效性,我們將詞性、相對位置、句法、語義角色等特征加入模型。圖3給出了各類型特征的示例,其向量化表示如下。
詞性: 向量矩陣ME1將每個(gè)詞的詞性映射為一個(gè)維度為dpos的實(shí)值向量,其中ME1∈dpos×|Vpos|,Vpos表示詞性的集合,采用隨機(jī)初始化;
相對位置:向量矩陣ME2將每個(gè)詞和動(dòng)詞觸發(fā)詞之間的相對距離映射為一個(gè)維度為dloc的實(shí)值向量,其中ME2∈dloc×|Vloc|,Vloc表示相對距離的集合,采用隨機(jī)初始化;
語塊標(biāo)記:向量矩陣ME3將每個(gè)詞在成分句法樹中的語塊標(biāo)簽映射為一個(gè)維度為dcon的實(shí)值向量,其中ME3∈dcon×|Vcon|,Vcon表示語塊標(biāo)簽的集合,采用隨機(jī)初始化;
圖3 標(biāo)記規(guī)則與特征表示
依存句法節(jié)點(diǎn):向量矩陣ME4將每個(gè)詞在依存句法樹中的父節(jié)點(diǎn)映射為一個(gè)維度為ddep的實(shí)值向量,其中ME4∈ddep×|Vdep|,Vdep表示依存句法節(jié)點(diǎn)的集合,采用隨機(jī)初始化;
語義角色:向量矩陣ME5將每個(gè)詞在句子中的語義角色映射為一個(gè)維度為dsr的實(shí)值向量,其中ME5∈dsr×|Vsr|,Vsr表示語義角色的集合,采用隨機(jī)初始化。
本文的實(shí)驗(yàn)數(shù)據(jù)采用*SEM2012評測任務(wù)數(shù)據(jù)集,其基于PropBank語料庫[注]PropBank語料庫對謂語動(dòng)詞和20多種語義角色進(jìn)行了標(biāo)注。進(jìn)行標(biāo)注,共包含3 544個(gè)否定聚焦點(diǎn)的實(shí)例,其中,2 302個(gè)實(shí)例作為訓(xùn)練集,530個(gè)實(shí)例作為開發(fā)集,712個(gè)實(shí)例作為測試集。*SEM2012數(shù)據(jù)集中不僅人工標(biāo)注了否定聚焦點(diǎn),還給出了詞性、命名實(shí)體、語塊、成分句法、依存句法、語義角色等信息。表1給出了該數(shù)據(jù)集中訓(xùn)練集、開發(fā)集、測試集的實(shí)例數(shù)的統(tǒng)計(jì),以及否定聚焦點(diǎn)對應(yīng)的語義角色類型的統(tǒng)計(jì)數(shù)據(jù)。
表1 *SEM2012數(shù)據(jù)集中否定聚焦點(diǎn)語義角色類型統(tǒng)計(jì)(實(shí)例數(shù))
從表1中可以看出,否定聚焦點(diǎn)對應(yīng)名稱A1和AM-NEG兩種類型的語義角色的情況較多。在大多數(shù)實(shí)例中,否定聚焦點(diǎn)只對應(yīng)單一語義角色,而在一小部分實(shí)例中,否定聚焦點(diǎn)對應(yīng)多個(gè)語義角色或不對應(yīng)語義角色(表1中語義角色為“None”的數(shù)據(jù))。
本文驗(yàn)采用預(yù)訓(xùn)練好的Senna詞向量[注]以維基百科和Reuters RCV-1語料庫為訓(xùn)練數(shù)據(jù),http://ronan.collobert.com/senna/,維度為50[27]。此外,我們同時(shí)嘗試了其他不同的向量集,包括Glove的100維詞向量[注]以維基百科和網(wǎng)頁文本60億個(gè)詞為訓(xùn)練數(shù)據(jù),http://nlp.stanford.edu/projects/glove/以及Google預(yù)訓(xùn)練好的300維新聞?wù)Z料[注]以谷歌新聞?wù)Z料1 000億個(gè)詞為訓(xùn)練數(shù)據(jù),https://code.google.com/archive/p/word2vec/的詞向量[28-29]。
在實(shí)驗(yàn)中,我們將特征維度設(shè)置為50,LSTM隱藏層的維度設(shè)置為150,mini-batch大小設(shè)置為3,dropout設(shè)置為0.3。參數(shù)更新時(shí)采用隨機(jī)梯度下降(stochastic gradient descent,SGD)算法,其中學(xué)習(xí)率設(shè)置為0.015,動(dòng)量(momentum)設(shè)置為0.9。此外,我們還嘗試了其他優(yōu)化算法,包括Adadelta[30]和Adam[31],這些方法雖然使得模型收斂速度加快,但是最終性能均不如SGD。本文采用準(zhǔn)確率(Accuracy,以下簡寫為Acc)作為系統(tǒng)性能評價(jià)指標(biāo),以句子為單位計(jì)算,即僅當(dāng)一個(gè)句子中預(yù)測的標(biāo)簽序列全部正確時(shí),才被判為正確。
表2給出了不同模型的性能比較,以及使用各種特征的BiLSTM-CRF模型的性能。其中,PoS表示詞性特征,Chunk表示語塊標(biāo)簽特征,Dep表示依存句法節(jié)點(diǎn)特征,RP表示相對位置特征,SR表示語義角色特征,ALL表示以上五種特征的組合。
表2 不同模型及特征組合的否定聚焦點(diǎn)識(shí)別系統(tǒng)性能比較
首先,我們比較了不同序列標(biāo)注網(wǎng)絡(luò)結(jié)構(gòu)在否定聚焦點(diǎn)識(shí)別任務(wù)上的性能(表2:第2~4行)。實(shí)驗(yàn)結(jié)果表明:1)BiLSTM模型的準(zhǔn)確率比LSTM模型高2.14%,主要原因是BiLSTM模型考慮了前向和后向兩個(gè)方向的信息,比單向的LSTM模型能夠更加充分地利用上下文特征。2)BiLSTM-CRF模型的準(zhǔn)確率達(dá)到64.10%,比單使用BiLSTM模型的性能提升了3.25%,其原因是否定聚焦點(diǎn)通常由連續(xù)文本片段構(gòu)成,甚至是一個(gè)完整的語義角色或句法結(jié)構(gòu),其中相鄰詞之間具有較強(qiáng)的依賴關(guān)系,僅采用LSTM或BiLSTM模型無法有效學(xué)習(xí)此類特征,而增加CRF層后,通過對轉(zhuǎn)移概率的訓(xùn)練和學(xué)習(xí),我們的否定聚焦點(diǎn)識(shí)別方法能夠捕捉這些信息。
為驗(yàn)證不同特征的有效性,我們在BiLSTM-CRF模型中使用不同類型的特征,并比較其性能(表2:5~9行)。結(jié)果顯示,添加詞性、語塊標(biāo)簽、依存句法節(jié)點(diǎn)和相對位置特征后,系統(tǒng)性能均有微弱提升。單獨(dú)添加語義角色特征后,系統(tǒng)性能提升了5.48%。由此可見,語義角色特征對否定聚焦點(diǎn)識(shí)別任務(wù)較為有效。根據(jù)表1的語料統(tǒng)計(jì),*SEM2012數(shù)據(jù)集中,大多數(shù)否定聚焦點(diǎn)對應(yīng)單一的語義角色,因此,語義角色是該任務(wù)的一個(gè)重要特征。
為進(jìn)一步驗(yàn)證以上結(jié)論,本文基于添加了語義角色特征的BiLSTM-CRF系統(tǒng),分別加入其他四類特征(表2:10~14行)。實(shí)驗(yàn)結(jié)果表明,分別增加這些特征后,系統(tǒng)性能并沒有獲得明顯提升。這說明,在否定聚焦點(diǎn)識(shí)別任務(wù)上,語義角色特征很可能包含了以上各類特征提供的信息,其他特征對識(shí)別否定聚焦點(diǎn)貢獻(xiàn)不明顯。
本文對添加語義角色特征的BiLSTM- CRF模型(表2中BiLSTM-CRF+SR系統(tǒng))嘗試了不同的參數(shù)設(shè)置,包括語義角色特征的維度、mini-batch大小、LSTM隱藏層維度、不同的預(yù)訓(xùn)練詞向量以及梯度下降算法。在觀察某一超參數(shù)值對模型性能影響時(shí),其他參數(shù)值固定為3.1節(jié)中給出的值。
(1) 語義角色特征維度
表2中驗(yàn)證了語義角色特征對否定聚焦點(diǎn)識(shí)別的有效性,因此本文嘗試采用不同的維度對語義角色特征進(jìn)行向量化表示。實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 語義角色特征維度對否定聚焦點(diǎn)識(shí)別的影響
可以看出,提升語義角色特征的維度后,系統(tǒng)性能有比較明顯的提升,當(dāng)特征維度為50時(shí),系統(tǒng)性能達(dá)到最高值69.58%。然而,當(dāng)繼續(xù)增加特征維度時(shí),系統(tǒng)性能開始出現(xiàn)下降。其原因可能是語義角色表征能力隨著維度的增加而變強(qiáng),直到維度超過某個(gè)閾值,其表示的信息開始變得稀疏或飽和,表征能力下降。
(2) Mini-batch大小
考慮到如果僅以單個(gè)實(shí)例來更新模型參數(shù)可能會(huì)使實(shí)驗(yàn)結(jié)果具有偶然性,在隨機(jī)梯度下降過程中可能會(huì)越過全局最小值而僅收斂于局部最小值,我們探索了不同的mini-batch大小對模型性能的影響,實(shí)驗(yàn)結(jié)果如圖5所示。
圖5 mini-batch大小對否定聚焦點(diǎn)識(shí)別的影響
可以看出,改變mini-batch的大小能夠使模型的性能得到進(jìn)一步提升,當(dāng)mini-batch的大小為3時(shí),系統(tǒng)性能達(dá)到最高值69.58%。從圖5中還可以看出,mini-batch的值過大時(shí),系統(tǒng)性能下降,可能是由于模型的泛化能力下降所致。
(3) LSTM隱藏層維度
LSTM隱藏層維度和輸入維度可能有著一定的聯(lián)系和相互影響:隱藏層維度偏大會(huì)使得模型更為復(fù)雜,泛化能力下降;隱藏層維度偏小會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)不充分,丟失一些重要特征。因此,本文驗(yàn)證了LSTM隱藏層維度對模型性能的影響,實(shí)驗(yàn)結(jié)果如圖6所示。結(jié)果表明,隱藏層維度為150時(shí),系統(tǒng)性能達(dá)到最高值69.58%。
圖6 LSTM隱藏層維度對否定聚焦點(diǎn)識(shí)別的影響
(4) 預(yù)訓(xùn)練詞向量
為驗(yàn)證預(yù)訓(xùn)練詞向量對模型性能的影響,本文對不同的公開詞向量以及隨機(jī)初始化的詞向量進(jìn)行了對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
表3 不同預(yù)訓(xùn)練詞向量對否定聚焦點(diǎn)識(shí)別的影響
比較兩種隨機(jī)初始化詞向量的方法,采用高斯分布的方法比均勻分布高,但兩種方法均低于公開的預(yù)訓(xùn)練詞向量,這表明預(yù)訓(xùn)練詞向量在本任務(wù)中的重要性。在三種不同的預(yù)訓(xùn)練詞向量中,Senna的50維詞向量獲得了最高系統(tǒng)性能,達(dá)到69.58%,使用斯坦福Glove的100維詞向量的性能比Senna低1.08%,而Google的300維詞向量略遜于Glove,也低于Senna。
(5) 梯度下降算法
采用不同梯度下降算法對模型性能也有一定的影響,本文嘗試了不同的優(yōu)化算法。表4給出了各優(yōu)化算法的性能,以及在10折交叉實(shí)驗(yàn)中完成迭代的實(shí)驗(yàn)平均收斂輪數(shù)。
表4 不同梯度下降算法對否定聚焦點(diǎn)識(shí)別的影響
實(shí)驗(yàn)結(jié)果表明,相比SGD算法,其他優(yōu)化方法,包括Adadelta、Adam和RMSprop,均加快了模型的收斂速度,而從系統(tǒng)性能來看,這些算法性能比SGD算法的性能略低。
我們選取BiLSTM-CRF+SR系統(tǒng)在測試集上的50條錯(cuò)誤實(shí)例進(jìn)行了分析。主要包含以下幾種類型的錯(cuò)誤。
(1) 否定聚焦點(diǎn)識(shí)別錯(cuò)誤(27/50)
*SEM2012數(shù)據(jù)集在標(biāo)注聚焦點(diǎn)時(shí),充分考慮了當(dāng)前句子的上下文信息,即前一句和后一句,而我們的模型僅憑借當(dāng)前句子,有時(shí)很難確定否定聚焦點(diǎn)。如下面句子所示:
Buta majority of the Addison councildidn’tbuy those arguments.
其否定聚焦點(diǎn)為a majority of the Addison council,而僅憑當(dāng)前句子的含義,很難確定其聚焦點(diǎn),換一種角度理解,也可能是those arguments或n’t。因此,在未來工作中需要考慮引入上下文信息幫助識(shí)別否定聚焦點(diǎn)。
(2) 否定聚焦點(diǎn)對應(yīng)多個(gè)語義角色(8/50)
由于模型并未約束否定聚焦點(diǎn)對應(yīng)單一語義角色,因此如果模型分配給不同語義角色的分值都比較高時(shí),便會(huì)造成此類型的錯(cuò)誤。
(3) 標(biāo)準(zhǔn)答案不符合標(biāo)注規(guī)則(13/50)
我們還發(fā)現(xiàn)部分錯(cuò)誤實(shí)例由標(biāo)注答案錯(cuò)誤所致,而我們系統(tǒng)給出的結(jié)果符合標(biāo)注規(guī)則。如下所示:
標(biāo)注結(jié)果:A panic on Wall Street doesn’texactly inspire confidence.
系統(tǒng)結(jié)果:A panic on Wall Street doesn’texactly inspireconfidence.
否定詞n’t聚焦點(diǎn)應(yīng)為confidence,而語料標(biāo)注為n’t本身。
此外,*SEM2012評測任務(wù)在數(shù)據(jù)標(biāo)注規(guī)則[14]中指出:否定聚焦點(diǎn)應(yīng)為單一且完整的語義角色[注]We only target verbal negations and focus is always the full text of a semantic role.。而我們發(fā)現(xiàn)數(shù)據(jù)集中標(biāo)注的否定聚焦點(diǎn)并非嚴(yán)格對應(yīng)單一且完整的語義角色。因此,我們對測試數(shù)據(jù)集進(jìn)行了進(jìn)一步分析,統(tǒng)計(jì)了標(biāo)注結(jié)果與標(biāo)注規(guī)則不一致的句子數(shù)目,結(jié)果如下:
? 否定聚焦點(diǎn)不對應(yīng)語義角色:35句;
? 否定聚焦點(diǎn)對應(yīng)多個(gè)語義角色:44句;
? 否定聚焦點(diǎn)對應(yīng)不完整語義角色:34句。
該類型的實(shí)例共113個(gè),占測試集的15.9%,而這部分否定聚焦點(diǎn)識(shí)別難度較大。因此,未來工作可嘗試修正此類標(biāo)注不一致問題,同時(shí)需從理論層面考慮,是否存在否定聚焦點(diǎn)對應(yīng)多個(gè)語義角色或不完整語義角色。
本文將我們的方法與現(xiàn)有的否定聚焦點(diǎn)識(shí)別模型進(jìn)行了比較,結(jié)果如表5所示。
表5 否定聚焦點(diǎn)識(shí)別性能比較
B&M[1]系統(tǒng)使用決策樹模型,融合了包括詞性、語義角色、句法節(jié)點(diǎn)、位置等22類特征;Zou的系統(tǒng)[15]使用基于“詞—主題”結(jié)構(gòu)的雙層圖模型對否定聚焦點(diǎn)進(jìn)行識(shí)別。本文提出的基于BiLSTM-CRF的否定聚焦點(diǎn)識(shí)別方法,準(zhǔn)確率達(dá)到69.58%,比目前的最好系統(tǒng)性能高2.44%。此外,我們還嘗試了另一種序列標(biāo)注網(wǎng)絡(luò)——雙向門控循環(huán)網(wǎng)絡(luò)(BiGRU)。在該網(wǎng)絡(luò)上增加CRF層之后,其性能也達(dá)到了68.47%。說明本文提出的“RNN網(wǎng)絡(luò)+CRF層”結(jié)構(gòu)能夠有效地提升否定聚焦點(diǎn)識(shí)別性能。
本文提出了基于BiLSTM網(wǎng)絡(luò)和CRF結(jié)構(gòu)相結(jié)合的否定聚焦點(diǎn)識(shí)別方法,該模型在*SEM2012數(shù)據(jù)集上取得了目前最好的性能。以下是本文主要結(jié)論:
首先,憑借BiLSTM模型在捕獲全局信息和長距離依賴關(guān)系的優(yōu)勢,有效地利用了上下文信息,使模型的性能得到提升。
其次,考慮到否定聚焦點(diǎn)通常由幾個(gè)連續(xù)的詞所構(gòu)成,為了獲取更準(zhǔn)確的識(shí)別結(jié)果,我們將CRF融合到BiLSTM模型中,使得模型兼具了CRF在權(quán)衡相鄰標(biāo)簽之間的聯(lián)系與依賴關(guān)系的優(yōu)點(diǎn),從而預(yù)測全局最優(yōu)的輸出標(biāo)簽序列。
最后,通過實(shí)驗(yàn)比較了各種特征對否定聚焦點(diǎn)識(shí)別性能提升的效果。據(jù)我們所知,這是首次將深度學(xué)習(xí)方法應(yīng)用于否定聚焦點(diǎn)識(shí)別任務(wù),并取得該任務(wù)目前的最好性能,因此本方法可以作為基線系統(tǒng)為相關(guān)研究提供參考。
本文方法僅針對當(dāng)前句子內(nèi)容識(shí)別否定聚焦點(diǎn),而正如3.4節(jié)分析,對部分實(shí)例而言,需要根據(jù)前后句子的信息判斷聚焦點(diǎn),這也與Zou[15]所指出的相一致。因此,未來研究考慮將上下文信息引入模型中,以進(jìn)一步提升否定聚焦點(diǎn)識(shí)別的性能。