秦彥霞 張民 鄭德權(quán)
文章編號: 2095-2163(2018)03-0001-06中圖分類號: 文獻(xiàn)標(biāo)志碼: A
摘要: 關(guān)鍵詞: (1 School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001, China;
2 School of Computer Science & Technology, Soochow University, Suzhou Jiangsu 215006, China)
Abstract: Event extraction is one important research task in information extraction, which shows great value to information retrieval, question answering and opinion analysis. Traditional event extraction methods manually design features and use Maximum Entropy classifier or Support Vector Machine classifier for trigger classification and argument role identification. Recently, neural network-based methods have shown their effectiveness in image classification, speech recognition and natural language processing areas. The advantage of neural network-based methods is automatic feature learning, thus avoid laborious feature engineering. This article will introduce recent neural network-based methods proposed for event extraction and discuss future work in this area.
Key words:
基金項目:
作者簡介:
收稿日期: 引言
事件作為信息的一種表現(xiàn)形式,其定義為特定的人、物在特定時間和特定地點(diǎn)相互作用的客觀事實(shí)。事件抽取是從自由文本中識別事件的發(fā)生并抽取事件的各元素的任務(wù)。本文將會探討介紹基于ACE2005評測(http://projects.ldc.upenn.edu/ace/)的事件抽取任務(wù)及方法。根據(jù)ACE2005評測,組成事件的各元素包括:觸發(fā)詞、事件類型、論元及論元角色。事件抽取任務(wù)可分解為4個子任務(wù):觸發(fā)詞識別、事件類型分類、論元識別和角色分類任務(wù)。其中,觸發(fā)詞識別和事件類型分類可合并成事件識別任務(wù)。論元識別和角色分類可合并成論元角色分類任務(wù)。事件識別判斷句子中的每個單詞歸屬的事件類型,是一個基于單詞的多分類任務(wù)。角色分類任務(wù)則是一個基于詞對的多分類任務(wù),判斷句子中任意一對觸發(fā)詞和實(shí)體之間的角色關(guān)系。
傳統(tǒng)事件抽取方法[1-11]均采用人工構(gòu)建特征的方法表示每個候選觸發(fā)詞或每個觸發(fā)詞-實(shí)體對,然后借助基于統(tǒng)計的分類模型進(jìn)行分類。以往方法重點(diǎn)在于研究有效的特征來捕捉候選觸發(fā)詞、候選論元的詞法、句法、語義信息,以及觸發(fā)詞-觸發(fā)詞之間的依賴關(guān)系、和同一觸發(fā)詞相關(guān)的多個實(shí)體之間的依賴關(guān)系、和同一實(shí)體相關(guān)的多個觸發(fā)詞之間的關(guān)系。此外,還有若干工作研究跨句子和跨文檔的事件一致性特征[9]、跨事件的一致性特征[10]和跨實(shí)體的事件一致性特征[11]來提高事件抽取的性能。
近年來興起的神經(jīng)網(wǎng)絡(luò)方法,能夠自動學(xué)習(xí)有效特征。不同于傳統(tǒng)的離散型特征,神經(jīng)網(wǎng)絡(luò)特征多是連續(xù)型向量特征,除了能夠建模語義信息外,還能自動組合構(gòu)建更上層的特征。這些特征的高效性已經(jīng)在自然語言處理眾多任務(wù)中屢獲驗(yàn)證,并帶來突破性進(jìn)展。在事件抽取任務(wù)中也陸續(xù)涌現(xiàn)出一些基于神經(jīng)網(wǎng)絡(luò)的事件抽取方法,使得研究人員免于繼續(xù)從事繁瑣的特征工程。本文將全面剖析論述已有的神經(jīng)網(wǎng)絡(luò)事件抽取方法,并對以后的研究方向給出預(yù)期展望。
1事件抽取定義
本節(jié)將圍繞自動內(nèi)容抽?。ˋutomatic Content Extraction, ACE)評測中的英文事件抽取任務(wù)涉及的相關(guān)術(shù)語及任務(wù),對其展開如下的研究闡釋。
(1)實(shí)體(Entity)。屬于某個語義類別的對象或?qū)ο蠹?。其中包括:人(PER)、地理政治區(qū)域名(GPE)、組織機(jī)構(gòu)(ORG)、地名(LOC)、武器(WEA)、建筑設(shè)施(FAC)和交通工具(VEH)。
(2)事件觸發(fā)詞(Event Trigger)。表示事件發(fā)生的核心詞,多為動詞或名詞。
(3)事件論元(Event Argument)。事件的參與者,主要由實(shí)體、值、時間組成。值是一種非實(shí)體的事件參與者,例如工作崗位(Job-Title)。和實(shí)體一樣,ACE05也標(biāo)記出了句子中出現(xiàn)的值和時間。下文中,即將實(shí)體、值、時間統(tǒng)稱為實(shí)體。
(4)論元角色(Argument Role)。事件論元在事件中充當(dāng)?shù)慕巧9灿?5類角色,例如,攻擊者(Attacker)、受害者(Victim)等。
ACE2005定義了8種事件類型和33種子類型。其中,大多數(shù)事件抽取均采用33種事件類型。事件識別是基于詞的34類(33類事件類型+None)多元分類任務(wù),角色分類是基于詞對的36類(35類角色類型+None)多元分類任務(wù)。這里,參考文獻(xiàn)[8]可得如下例句:
In Baghdad, a cameraman died when an American tank fired on the Palestine hotel. (在Baghdad, 當(dāng)一個美國坦克對著Palestine酒店開火時一個攝影師死去了)
以上例句中出現(xiàn)的事件解析可見表1。
作為一種有監(jiān)督多元分類任務(wù),事件抽取方法包括2個步驟:特征選擇和分類模型。本文根據(jù)使用特征的范圍不同、模型學(xué)習(xí)方式不同和外部資源的使用與否對不同的事件抽取方法進(jìn)行分類。各類方法的研究內(nèi)容可詳見如下。
(1)根據(jù)所使用特征的范圍,事件抽取方法可以分為句子級的事件抽取方法和篇章級的事件抽取方法??偟貋碚f,句子級的事件抽取方法只使用句子內(nèi)部獲取的特征。而篇章級的事件抽取方法則包含了跨句、跨文檔抽取的特征信息。一般情況下,句子級特征是所有事件抽取方法通用的特征,而篇章級特征則屬于面向?qū)嶋H任務(wù)挖掘的特效特征。
(2)根據(jù)學(xué)習(xí)方式不同,可以分為基于流水線模型的事件抽取方法和基于聯(lián)合模型的事件抽取方法。事件抽取任務(wù)分為事件識別和論元角色分類任務(wù)。其中,后者輸入依賴于前者輸出。論元角色分類任務(wù)的輸入是識別出的觸發(fā)詞和所有候選實(shí)體。大部分事件抽取方法都是流水線模型學(xué)習(xí)方式,先進(jìn)行事件識別模型的學(xué)習(xí),再轉(zhuǎn)入論元角色分類模型的學(xué)習(xí)。而經(jīng)仿真驗(yàn)證基于聯(lián)合模型的學(xué)習(xí)方式的效果要優(yōu)于流水線模型學(xué)習(xí)方式,故而也隨即產(chǎn)生了基于聯(lián)合模型的事件抽取工作。
(3)ACE05數(shù)據(jù)是現(xiàn)有的為數(shù)不多的有標(biāo)記事件數(shù)據(jù)之一,是在新聞、博客、訪談等數(shù)據(jù)上進(jìn)行人工標(biāo)注得到的。ACE數(shù)據(jù)的標(biāo)注質(zhì)量不高以及規(guī)模較小的問題,也在很大程度上影響了事件抽取任務(wù)的發(fā)展。為此很多工作嘗試借助外部資源輔助事件抽取任務(wù)的功能達(dá)成。根據(jù)是否使用外部資源,可以分為基于同源數(shù)據(jù)(即ACE數(shù)據(jù))的事件抽取方法和融合外部資源的事件抽取方法。
2.1句子/篇章級的事件抽取方法
傳統(tǒng)方法中,句子級別的特征可以分為基于詞的特征和基于詞對的特征。其中,基于詞的傳統(tǒng)離散特征包括:
(1)詞法特征。例如當(dāng)前詞及周邊詞的一元/二元語法、詞性標(biāo)簽、詞干、同義詞等。
(2)句法特征。例如當(dāng)前詞的依存詞和核心詞、涉及的依存關(guān)系、是否是未被引用的代詞、句法分析樹中路徑等。
(3)實(shí)體信息。例如實(shí)體類型、距離最近的實(shí)體類型、是否是相同類型論元候選中距離觸發(fā)詞最近的等等。
基于詞對的特征有:觸發(fā)詞-觸發(fā)詞之間的共現(xiàn)關(guān)系和觸發(fā)詞-論元的多種依賴關(guān)系等。
而篇章級事件抽取方法則額外考慮了跨句子或跨文檔的特征輔助任務(wù)實(shí)現(xiàn)。例如,相同/類似事件對應(yīng)的論元一致性,同一文檔內(nèi)的相同單詞觸發(fā)的事件類型一致性特征,相同類型的實(shí)體參與的事件一致性特征。
本小節(jié)將主要討論現(xiàn)有的句子級神經(jīng)網(wǎng)絡(luò)事件抽取方法[12-16]。不同于傳統(tǒng)離散特征,神經(jīng)網(wǎng)絡(luò)方法以連續(xù)型向量為特征,并通過不同的神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)更抽象的特征。以事件識別任務(wù)為例,神經(jīng)網(wǎng)絡(luò)事件抽取方法的流程為:首先用初始化的特征向量表示候選觸發(fā)詞,然后通過神經(jīng)網(wǎng)絡(luò)模型自動更新學(xué)習(xí)特征以及組合更高級別特征,最后通過Softmax模型來輸出分類。除了特征表示和學(xué)習(xí)方式的不同外,傳統(tǒng)方法和神經(jīng)網(wǎng)絡(luò)方法在分類模型上亦有不同。傳統(tǒng)方法使用不同的分類模型進(jìn)行分類,例如常用的最大熵模型和支持向量機(jī)模型。神經(jīng)網(wǎng)絡(luò)方法則采用Softmax模型來設(shè)計確定分類。
Chen等人[12]和Nguyen等人[13]率先嘗試將神經(jīng)網(wǎng)絡(luò)方法分別應(yīng)用于事件抽取、識別任務(wù)中,并取得了很好的效果,驗(yàn)證了神經(jīng)網(wǎng)絡(luò)特征的有效性。初始特征表示方面,二者均采用了預(yù)訓(xùn)練的詞向量作為每個單詞的初始表示,而且還融入了單詞的語義和語法信息的建模研究[17-18]。特殊而必要地,二者還都使用了位置信息來建模當(dāng)前詞和候選觸發(fā)詞的距離。受傳統(tǒng)特征啟發(fā),常用的特征還包括當(dāng)前詞的事件類型向量和實(shí)體類型向量。Nguyen等人利用實(shí)體類型特征來輔助事件識別任務(wù),而Chen等人使用事件類型特征用于角色分類任務(wù)。
在上層特征學(xué)習(xí)模型方面,研究中均使用了卷積神經(jīng)網(wǎng)絡(luò)模型[19](Convolutional Neural Network, CNN)來自動抽取有效特征進(jìn)行事件抽取或識別任務(wù)。更進(jìn)一步地,Chen等人改進(jìn)了傳統(tǒng)的CNN模型,增配了動態(tài)多池機(jī)制(dynamic multi-pooling)來提高事件抽取任務(wù)性能。研究認(rèn)為,相比于最大池機(jī)制,通過候選觸發(fā)詞和候選實(shí)體位置分割成3部分的動態(tài)多池機(jī)制,能夠獲取更為精細(xì)、有效的特征用于角色分類。Nguyen等人[14]則提出了一種基于離散短語(skip-gram)的卷積神經(jīng)網(wǎng)絡(luò)模型來輔助事件識別。相比于傳統(tǒng)的連續(xù)詞袋模型,基于離散短語的卷積神經(jīng)網(wǎng)絡(luò)模型能夠獲取更豐富的非連續(xù)短語上特征,而無需再限定于局部連續(xù)短語特征。
除了基于卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)模型外,還有研究者采用遞歸神經(jīng)網(wǎng)絡(luò)[20-21](Recurrent Neural Network, RNN)對文本中的序列信息進(jìn)行建模,從而為事件抽取任務(wù)提供助益支持。Feng等人[15]采用一個基于RNN的模型來獲取文本中的序列信息,并采用一個卷積層來獲取文本中的短語塊信息,將2種信息合并后進(jìn)行事件觸發(fā)詞識別。由于沒有使用額外特征,該混合模型是語言無關(guān)模型,在多種語言的事件識別任務(wù)中取得了良好效果。
以往的傳統(tǒng)事件抽取工作和上述神經(jīng)網(wǎng)絡(luò)事件抽取方法均嘗試了將觸發(fā)詞的相關(guān)特征,如事件類別信息、位置信息等用于輔助論元角色分類任務(wù),但卻尚未探索論元的信息對觸發(fā)詞識別任務(wù)的作用。借助于注意力模型(Attention),Liu等人[16]獨(dú)家采用了有監(jiān)督的論元注意力模型將論元信息輸入至事件識別模型中,其效果驗(yàn)證了論元信息能夠高效地輔助事件觸發(fā)詞識別任務(wù)。不同于聯(lián)合模型中觸發(fā)詞和論元信息相互輔助的間接方式,該方法提出的論元注意力模型最直接地將論元信息用于輔助識別觸發(fā)詞。