• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      事件關系檢測的任務體系概述

      2015-04-21 08:29:45楊雪蓉陳亞東姚建民朱巧明
      中文信息學報 2015年4期
      關鍵詞:語料框架體系

      楊雪蓉,洪 宇,陳亞東,姚建民,朱巧明

      (蘇州大學 江蘇省計算機信息處理重點實驗室,江蘇 蘇州 215006)

      ?

      事件關系檢測的任務體系概述

      楊雪蓉,洪 宇,陳亞東,姚建民,朱巧明

      (蘇州大學 江蘇省計算機信息處理重點實驗室,江蘇 蘇州 215006)

      事件關系檢測是一項面向文本信息流進行事件關系判定的自然語言處理技術。事件關系檢測的核心任務是以事件為基本語義單元,通過分析事件之間的語義關聯(lián)特征,實現(xiàn)事件邏輯關系的識別與判定,包括關系識別(即識別有無邏輯關系)和關系判定(即判定邏輯關系類型,如“因果”關系)。目前,專門面向事件的邏輯關系分析與處理,尚未形成一套完整的研究體系。針對這一問題,該文借助篇章分析、事件抽取和場景理解等相關領域中的概念與數(shù)據(jù)資源,嘗試建立一套事件關系檢測的任務和研究體系,包括任務定義、關系體系劃分、語料采集與標注、評價方法等。同時,該文著重分析和對比了事件關系檢測與篇章關系檢測的差異,并給出了事件關系檢測任務的難點與挑戰(zhàn)。

      事件關系檢測;篇章分析;事件;論元;語義關系

      1 引言

      事件(Event)是由特定人、物、事在特定時間和特定地點相互作用的客觀事實,事件的發(fā)生具有客觀性、真實性等特點。然而,事件的發(fā)生往往不是孤立現(xiàn)象,一個事件的發(fā)生必然存在與之相關的其它事件,例如與該事件相關的原因事件、結果事件、并發(fā)事件等。事件與其相關事件之間相互依存和關聯(lián)的邏輯形式,稱為事件關系(Event Relation)。

      事件關系客觀存在于事件之間,并且作用于原本孤立的事件集合中。事件關系能將離散于文本中的事件相連接,形成事件關系網絡和事件發(fā)展的拓撲脈絡。從而,分析事件關系對于目前大規(guī)模的輿情信息分析與處理具有重要的應用價值,例如,關聯(lián)事件聚類、新聞事件的關系網絡構建,以及突發(fā)事件推理與預測等。

      本文將“相關事件識別(Event Relevance Identification)”和“事件關系類型判定(Event Relation Type Decision)”統(tǒng)稱為事件關系檢測(Event Relation Detection),由此,事件關系檢測是一種深入判定兩兩事件之間相關性以及具有何種邏輯關系的任務。目前針對事件關系檢測的研究剛剛起步,由于不具有權威的任務定義、事件關系體系以及評測標準,相關探索尚不深入,相應方法也僅僅著眼于某一特定事件關系類型(如“因果”關系)的判定,不具有全面性和普適性。相較而言,自然語言處理領域中的篇章關系檢測研究,以論元(即完整的語義單元,如句子)為對象,建立了較為全面的任務體系,其蘊含的概念、關系體系和評價方法也具有普適性,能夠有效應用于事件關系檢測任務。

      然而,事件關系并不等同于篇章關系,篇章關系檢測也不能涵蓋所有事件關系檢測的關鍵問題。從而,事件關系檢測需要一種有針對性的專屬的任務和研究體系,而不能將篇章關系檢測體系簡單移植和并用。

      本文基于篇章關系檢測的定義及關系體系,定義了事件關系檢測任務、評價方法和事件關系體系,該體系將事件關系類型定義為五個大類,12個小類。同時,本文根據(jù)定義的事件關系類型構建了面向事件關系檢測任務的語料庫。此外,本文給出了篇章關系檢測與事件關系檢測的任務對比,以及事件關系檢測的關鍵問題與挑戰(zhàn)。

      本文的組織結構如下: 第2節(jié)給出相關工作;第3節(jié)介紹事件關系檢測的任務定義;第4節(jié)詳細分析事件關系與篇章關系的任務差異,以及事件關系檢測的關鍵問題;第5節(jié)介紹本文定義的事件關系體系;第6節(jié)闡述語料庫的構建方法;第7節(jié)簡要介紹可行的測試與評價方法;第8節(jié)總結全文。

      2 相關工作

      本節(jié)介紹事件關系檢測以及篇章關系分析的研究現(xiàn)狀。

      2.1 事件關系檢測相關研究

      由于缺少公認的事件關系體系,目前針對事件關系的研究方法主要針對某種特定事件關系類型的判定進行研究,主要的挖掘方法分為模板匹配法和元素分析法,下文分別對這兩種方法予以介紹。

      模板匹配法

      事件關系檢測的主要方法之一是借助事件特征的模式匹配,例如,利用事件觸發(fā)詞的關系模式匹配,根據(jù)人工定義的模板,對文本中符合模板的事件關系進行抽取。Chklovski[1]等首先定義六種時序關系:“similarity”(時序“相似”關系),“strength”(時序“加強”關系),“antonymy”(時序“相反”關系),“enablement”(時序“支持”關系), “happens”(時序“發(fā)生”關系)和“before”(時序“前”關系),再利用人工收集的LSP(Lexcial-Syntactic Pattern,即詞-句匹配模板)抽取包含這六種時序關系的“事件對”,并將抽取的結果形成稱為“VerbOcean”的知識庫。人工定義的事件關系模板往往受數(shù)量限制,造成關系檢測的低召回率問題。Pantel[2]通過Espresso算法進行自動模板的構建,算法首先給定少量關系實例,通過機器學習方法對現(xiàn)有模板進行迭代擴展,在一定程度上提高了模板匹配方法的召回率。

      元素分析法

      以事件元素為線索的研究大都繼承了Harris[3]的分布假設。Harris假設指出,處在同一上下文環(huán)境中的詞語具有相同或相似的含義。Lin[4]提出了一種結合Harris分布假設和建立依存樹思想的無監(jiān)督方法,稱為DIRT算法。算法將所有事件構造成依存樹形式,樹中的每條路徑表示一個事件,路徑的節(jié)點表示事件中的詞語,若兩條路徑的詞語完全相同,則這兩條路徑所表示的事件相同或者相似。

      3 事件關系檢測任務體系

      事件關系檢測任務包括如下方面: 事件抽取、相關事件識別和事件關系類型判定。其中,該任務的核心部分為: “相關事件識別”和“事件關系類型判定”。即首先獲得文本中的“相關事件對”(離散存在于段落或跨篇章),再將得到的“相關事件對”,通過挖掘事件關系線索,實現(xiàn)“相關事件對”關系類型的推理與判定。事件抽取任務則已出現(xiàn)ACE研究體系之內,不作為事件關系檢測的核心任務,僅作為研究基礎予以提出。下面分別對事件抽取、相關事件識別和事件關系類型判定任務進行詳細介紹。

      3.1 事件抽取

      事件抽取為自動內容抽取(Automatic Content Extraction,ACE)的子任務之一,該任務由美國國家標準技術研究院(NIST)提供較為完備的任務定義和研究體系。事件抽取任務旨在從含有事件信息的非結構化源文本中抽取結構化的事件描述,在自動文摘[9]、自動問答[10]以及信息檢索等領域有著廣泛的應用。目前,事件抽取已得到國內外廣泛的研究[11-12]。事件抽取能夠提供事件的基本屬性,并建立事件內部各組成成分之間的語義關系,從而塑造事件本質的描述結構。事件抽取是實現(xiàn)關聯(lián)事件識別和事件關系判定的先決條件,也是事件關系檢測的關鍵問題之一。

      3.2 相關事件識別

      相關事件識別旨在實現(xiàn)事件邏輯關系的淺層檢測,即判斷任意事件之間是否存在邏輯相關性,是一種二元關系判斷。事件的相關性(Event Relevancy)與事件的相似性(Event Similarity)不同,事件的相關性是指兩個事件之間是否存在邏輯關聯(lián)性,事件的邏輯關聯(lián)性客觀存在于事件中,不因事件文字描述的不同而不同;而事件的相似性側重識別相同或相似事件的不同文本描述的一致性(同一事件的描述形式多樣),即語義相似性,現(xiàn)有文本建模和相似度度量方法,已給出較為有效的處理手段。因此,事件的相關性與事件的相似性的差異,使得僅僅通過兩個事件的文字表述方式無法判斷邏輯關聯(lián)與否,需要挖掘更多的外部信息,充分利用外部資源輔助事件關聯(lián)性的識別。

      文本中的事件往往呈現(xiàn)一種離散分布,具有邏輯相關聯(lián)的事件往往跨句子、跨段落,甚至跨篇章。因此,需要預先對文本篇章中的離散事件集合中,各事件間是否存在邏輯關聯(lián)性進行識別,例如文本中存在如下三個事件:

      Evt1 “本東北地區(qū)宮城縣北部發(fā)生里氏7.9級特大地震”

      Evt2 “臨時關閉成田機場的跑道”

      Evt3 “日本食用牛肉首次檢出超標輻射物”

      上述三個事件為話題“日本7.9級地震”下描述的事件,而同一話題下的事件并非兩兩相關。通過相關事件識別,事件Evt1和事件Evt2相關,事件Evt1和事件Evt3相關,而事件Evt2和事件Evt3之間不存在邏輯關系。無關事件的關系判定不僅冗余,并且直接影響判定過程的整體精度,事件關系檢測任務首先通過“相關事件識別”識別“相關事件對”,進而只針對“相關事件對”解析其深層次的具體邏輯關系。

      3.3 事件關系類型判定

      “事件關系類型判定”指對已獲得的“相關事件對”判定邏輯關系類型,是一種對事件關系的深層分析和研究?!跋嚓P事件識別”僅對事件間是否存在邏輯關系進行識別,這種單一的判斷不足以對事件間邏輯關系進行深層分析和研究。事件邏輯關系作為一種客觀存在,包含大量不同種類的關系類型,常見的事件關系類型有因果關系、時序關系等。因此,通過對“相關事件對”具體關系類型的判定,進一步對事件關系類型進行分類,能夠更準確的挖掘事件發(fā)生的規(guī)律、特征等,從而更有效的輔助事件演變與發(fā)展的推理。

      事件關系類型檢測研究的首要任務是構建事件關系體系,然而,目前學術界尚未形成統(tǒng)一、完備的事件關系體系。篇章關系分析研究旨在識別和判定一對毗鄰“論元對”(具有完整語義的語言單元,如字句,短語等)間的語義關系類型,如“因果關系”、“轉折關系”等。本文借鑒篇章關系分析任務中完善的語義關系體系,將事件關系檢測任務與篇章關系分析任務類比,制定了一套完整的事件關系體系。同時,根據(jù)定義的事件關系體系,標注了事件關系語料庫,該部分內容由下文詳細闡述。

      4 篇章關系檢測與事件關系檢測的任務對比

      本文借鑒篇章關系檢測的任務體系,提出事件關系檢測研究。本節(jié)介紹篇章關系檢測任務,并將篇章關系檢測與事件關系檢測的任務對比,詳細分析事件關系與篇章關系的任務差異。同時,提出事件關系檢測任務的關鍵問題。

      4.1 簡析篇章關系檢測任務

      篇章關系檢測旨在自動檢測篇章中相鄰片段(子句、句子或段落),即“論元對”的組織結構與邏輯關系。該任務涉及短語、子句、句子等文本片段之間的語義關系研究,通過分析毗連文本區(qū)域之間內在的語義聯(lián)系,構建文本篇章關系結構,進而深入理解篇章語義。

      PDTB根據(jù)“論元對”是否由顯示連接詞(如英文中的“because”)銜接,將篇章關系分析分為顯式篇章關系和隱式篇章關系。PDTB針對論元定義的語義關系體系分為三層,其中,第一層包含四個大類,即“因果”、“對比”、“擴展”和“時序”四種關系,第二層包含16個子類,第三層包含22個子類型,各子類型均為對上一層關系類型的細化。

      4.2 篇章關系檢測與事件關系檢測的異同

      事件是一種人、物、事相互作用的客觀事實,訴諸文字后,成為信息傳播中可讀可解的事件文體(也稱“事件體”,本文統(tǒng)稱“事件”)。從而,事件的描述必須遵循自然語言的行文規(guī)律,如篇章結構、篇章修辭、語法和文法等規(guī)律。也因此,事件關系檢測與篇章關系檢測任務有著一定程度的領域交差性。

      然而,“事件關系檢測”與“篇章關系檢測”又有著明顯的差異,下面枚舉篇章關系和事件關系的主要差異。

      1) 篇章關系檢測的對象為兩兩毗連的論元,即序列“論元對”,而事件往往離散分布,并非絕對相互毗連,例如,序列論元“Arg1: 他病了”、“Arg2: 一天后”、“Arg3: 他康復了”中,按照ACE(Automatic Content Extraction)對事件的定義,Arg1與Arg3為事件(Arg2僅為論元,而非事件),且具有“對比”關系,但因相互并不毗連,從而不屬于篇章關系的研究范疇;

      2) 篇章關系檢測聚焦于獨立篇章內部,事件關系則可跨篇章出現(xiàn),從而只受話題框架約束,而非絕對依存于特定篇章塑造的語言環(huán)境(TDT領域,即Topic Detection and Tracking,將相互關聯(lián)的事件集合統(tǒng)稱為話題),例如,事件“國五條出臺”(2013年3月1日網易新聞*http://bj.house.163.com/13/0301/19/8OTEFDJF00073SD3.html)和事件“二手房交易井噴”(2013年3月18日網易新聞*http://money.163.com/13/0318/14/8Q8MH47N00253B0H.html)具有“因果”關系,但不局限于孤立的新聞報道之內;

      3) 篇章關系往往具有主觀性(即人為塑造的關系),而事件關系則注重事實與客觀性(即本源的邏輯關系)。

      4.3 事件關系檢測的關鍵問題

      針對事件關系檢測的特性,即事件離散分布、依賴先驗相關性、事件關系無直觀線索、受邏輯客觀性約束等特性,本節(jié)給出事件關系檢測的如下關鍵問題。

      1) 事件內部屬性(包括觸發(fā)詞、事件參與者等)信息能夠為事件關系檢測提供明確的事件描述,并且,事件屬性往往是反映事件外部關系的關鍵特征。然而,目前ACE領域中,針對事件抽取(包括觸發(fā)詞、事件類型、參與元素及其角色的抽取)尚未達到理想效果,全面支持自動事件關系檢測尚有困難。

      2) 為了提高事件關系類型判定的準確性,應首先判定兩事件是否相關(即事件關系識別)。事件關系識別挖掘事件關聯(lián)性以及關聯(lián)推理線索,從而構建事件關聯(lián)的線索集合,若進一步判定“相關事件對”的關系類型,則需分析和處理已構建的“相關事件對”線索集合,形成關鍵的關系推理脈絡,對事件關系類型進行推理。

      3) 事件本身具有離散性、跨篇章性、無顯式線索等特征,使得無法直接利用語言學特征支持事件關系的判斷。由此,檢測事件關系應從統(tǒng)計學角度入手,利用大規(guī)模數(shù)據(jù)識別和挖掘事件關聯(lián)的線索和脈絡,形成基于統(tǒng)計策略的事件關系推理機制;然而,這種機制必然引入大規(guī)模數(shù)據(jù)處理與挖掘,線索挖掘的效率快慢與精度高低都會直接影響事件關系檢測的性能;

      4) 事件關系檢測不能僅僅考慮字面上的語義關系,還應根據(jù)統(tǒng)計信息估測關系的邏輯可信性。這一問題在現(xiàn)有的事件關系檢測研究中尚未引起重視,相應的邏輯關系樣本也尚未構建,無法支持針對事件關系邏輯可信性的機器學習。因此,現(xiàn)階段僅能依據(jù)經驗模型和無指導的機器學習模型予以估測。同時,事件隸屬的主題框架,有助于識別事件關系的作用域,從而有助于事件關系的深層檢測。

      5 事件關系體系

      本文將篇章關系體系與事件關系進行分析和對比,選取篇章關系體系中能夠應用于離散“事件對”的篇章關系類型作為事件關系類型。同時,篇章關系與事件關系的差異性使得篇章關系不能描述完整的事件關系類型,因此,本文借助事件關系實例,人工總結事件關系類型,進一步對事件關系類型進行補充,確保事件關系體系的完整性,由此形成的事件關系體系如表1所示。

      本文定義的事件關系體系共分為兩層(表1),第一層包含四種主要關系類別: Temporal(時序)、Comparison(比較)、Contingency(偶然)、Expansion(擴展), 第二層為以上關系類型的擴展,共有十種子類型。下面給出主要關系的示例。

      5.1 Temporal 時序

      “時序關系”是指兩個事件通過時序相關聯(lián)。本文將“時序關系”進一步分為“同步關系”和異步關系,下面分別介紹這兩種關系類型。

      表1 事件關系體系

      (1) Synchronous 同步

      “同步關系”是指兩個相關事件Evt1、Evt2發(fā)生的時間存在一定的重合(如下例Evt1和Evt2,以下事件實例均來自FrameNet-1.5,加粗部分為該事件的觸發(fā)詞)。如下例中,事件Evt1與事件Evt2為同時發(fā)生的兩個事件。

      Evt1 “Policealsofindsasecondhouse”

      (譯文:“警察發(fā)現(xiàn)了第二個房子”)

      Evt2 “Meantime,analystsatthecrimelabtrytodiscoverwhatthebombwasmadefrom”

      (譯文:“同時,犯罪實驗室的分析師試圖發(fā)現(xiàn)炸彈的來源”)

      (2) Asynchronous 異步

      “異步關系”是指兩個相關事件發(fā)生存在時間的先后順序。如下例中事件Evt1中“開始(start)”事件的發(fā)生先于事件Evt2中“離開(leave)”事件的發(fā)生。

      Evt1 “Hall’slandmarkvisittoIraqstartedonSundayevening”

      (譯文:“Hall周日晚上開始對伊拉克進行一個具有里程碑意義的訪問”)

      Evt2 “U.S.DemocraticPartyCongressmanTonyHalllefthereThursday”

      (譯文:“美國民主黨國會議員托尼·霍爾周四離開了這里”)

      5.2 Comparison 比較

      “比較關系”的兩個事件的發(fā)生存在某些差異,并且突出這種差異。根據(jù)比較的趨勢,本文將“比較關系”進一步劃分為“對比關系”和“讓步關系”。

      (1) Contrast 對比

      “對比關系”是指兩個不同事件的共同屬性具有不同趨勢,突出兩者的差異。例如下例分別對“營業(yè)收入增長(rise)”和“凈利息增長(jump)”兩個事件的比較。

      Evt1 “Operatingrevenuerose69%toA$8.48billionfromA$5.01billion.”

      (譯文:“營業(yè)收入從50.1億美元增長到84.8億美元,增長了69%”)

      Evt2 “Butthenetinterestbilljumped85%toA$686.7millionfromA$371.1million.”

      (譯文:“但是,凈利息從3.711億美元達到6.867億美元,躍升了85%”)

      (2) Concession 讓步

      Evt1 “IransignedtheAdditionalProtocolonNuclearSafeguardson18December2003”

      (譯文:“伊朗簽署附加議定書于2003年12月18日核安全保障”)

      Evt2 “Iranfornotprovidingtheagencywithmoretimelyandcomprehensivesupport.”

      (譯文:“伊朗沒有提供該機構更及時和全面的支持”)

      5.3 Contingency 偶然

      “偶然關系”是指,一個原因事件Evt1的發(fā)生,能夠對結果事件Evt2產生影響。根據(jù)原因事件對結果事件的影響方式不同,將“偶然關系”進一步劃分為“因果關系”和“條件關系”。

      (1) Cause 因果

      “因果關系”的兩個事件存在事實性的因果影響。原因事件Evt1是結果事件Evt2的必然條件,結果事件Evt2是原因事件Evt1的必然結果。如下例中,事件Evt2中的“摧毀(destroyed)”事件必然由事件Evt1的“轟炸(bombed)”事件導致,事件Evt1必然導致事件Evt2的發(fā)生。

      Evt1 “TheybombedtheBogotaofficeslastmonth.”

      (譯文:“他們上個月轟炸波哥大辦公室”)

      Evt2 “Thebombdestroyeditscomputerandcausing$2.5millionindamage.”

      (譯文:“炸彈摧毀了它的計算機,造成250萬美元的損失”)

      (2) Condition條件

      “條件關系”是指兩個事件Evt1、Evt2,事件Evt1提出某種條件或場景,事件Evt2說明產生的結果?!皸l件關系”與“因果關系”的區(qū)別在于,“因果關系”中的原因事件為結果事件的必然條件,而“條件關系”中的原因事件為結果事件發(fā)生的可能原因之一。

      Evt1 “IfthecartelsucceedsinblackmailingtheColombianauthoritiesintonegotiations”

      (譯文:“如果壟斷聯(lián)盟成功勒索哥倫比亞當局談判”)

      Evt2 “thecartelwillbeincontrolandFidelcanexploithispastrelationshipswiththem”

      (譯文:“卡特爾將被控制和Fidel可以利用他的過去與它們的關系”)

      5.4 Expansion擴展

      “擴展關系”的兩個事件存在內容上的擴展,推動行文向前和事件的發(fā)生。本文將“擴展關系”進一步細分為“并列關系”、“遞進關系”、“重述關系”和“實例化關系”。

      (1) List并列

      “并列關系”的兩個事件是同一問題的幾個方面,適用于事件的枚舉。如下例事件Evt1和事件Evt2分別列舉了兩個“逮捕(arrest)”事件。

      Evt1 “Thisweek,thegovernmentarrestedJoseAbelloSilva”

      (譯文:“本周,政府逮捕了JoseAbelloSilva”)

      Evt2 “Later,anotherhigh-rankingtrafficker,LeonidasVArgas,wasarrested”

      (譯文:“后來,另一個高排名販子Leonidas VArgas也被逮捕”)

      (2) Progression遞進

      “遞進關系”強調兩個事件的連續(xù)性,事件Evt1為事件Evt2進一步的發(fā)展。如下例中“引渡(extradited)”事件Evt2為“逮捕(arrest)”事件Evt1的進一步發(fā)展結果。

      Evt1 “Thisweek,thegovernmentarrestedJoseAbelloSilva.”

      (譯文:“本周,政府逮捕了Jose Abello Silva”)

      Evt2 “JoseAbelloSilvawillprobablybeextraditedtotheU.S.fortrial.”

      (譯文:“JoseAbelloSilva將可能被引渡到美國受審”)

      (3) Restatement重述

      “重述關系”的兩個事件為同一事件的不同表述。如下例中的事件Evt1和事件Evt2均描述“蘇聯(lián)解體(theSovietUnioncollapsed)”事件。

      Evt1 “theSovietUnioncollapsed”

      (譯文:“蘇聯(lián)解體”)

      Evt2 “theSovietUnioncollapsedinDecember1991”

      (譯文:“蘇聯(lián)于1991年12月解體”)

      (4) Instantiation實例化

      “實例化關系”的兩個事件Evt1、Evt2,事件Evt1描述的事件具有更抽象的意義,而事件Evt2描述的事件包含于事件Evt1中,為事件Evt1的一個例子。如下例中,事件Evt1總述“核武器計劃(nuclearweaponprogram)”事件,而事件Evt2為“核武器計劃”事件的一項具體內容,即實例。

      Evt1 “TheSovietnuclearweaponprogram”

      (譯文:“蘇聯(lián)的核武器計劃”)

      Evt2 “TheSovietculminatedinasuccessfulatomicbombtestin1949”

      (譯文:“1949年,蘇聯(lián)以成功原子彈試驗達到頂峰”)

      6 事件關系語料庫構建與分析

      本文根據(jù)事件關系檢測的任務定義以及事件關系的類型體系,以FrameNet-1.5的新聞語料作為數(shù)據(jù)源,對每篇新聞文本中已標注的事件進行事件關系類型標注,本文標注的事件及其關系以單篇文本為作用域,不涉及跨篇章事件。為驗證標注內容的合理性和一致性,本文對標注語料進行kappa值計算,用于對不同標注者標注語料的一致性檢驗。

      6.1 語料選取

      FrameNet由美國加州大學伯克利分校構建的基于框架語義學[13](Frame Semantics)的詞匯資源,對詞語意義和句法結構研究提供一種理論框架,并基于真實語料(新聞語料)進行標注,目前最新版本為FrameNet-1.5。FrameNet用語義框架(Semantic Frame,F(xiàn)rame)描述一個語義場景的一組概念,F(xiàn)rameNet-1.5中共包括1 019個Frame類型。

      FrameNet-1.5中定義的框架類型大體分為三類: 事件(Event)、形式(Situation)和事物(Object)。本文將其中描述事件的語義框架稱為作為事件框架,并且定義事件框架為所描述事件的事件類型(Event Type),由于FrameNet-1.5未對三類框架區(qū)分,本文對FrameNet-1.5中事件Frame進行人工選擇,篩選所有標注框架集合中的事件框架,最終得到的事件框架共673種,即包含673種事件類型,確定的事件類型有助于事件關系的標注。因此,本文以FrameNet-1.5作為標注語料,將語料中標注為事件框架的實例作為事件,對其進行事件關系類型的標注。同時,F(xiàn)rameNet定義了更豐富的框架元素類型,平均每個事件框架實例含有兩個框架元素,F(xiàn)rameNet共定義了725種框架元素類型,豐富的事件元素類型使得事件關系類型判定更明確。

      6.2 事件關系標注

      FrameNet-1.5根據(jù)定義的框架類型,對78篇新聞語料標注了框架類型、框架核心詞以及框架元素,本文針對其中28篇新聞,以已標注的事件框架及框架元素為基礎,進一步標注每篇新聞的“相關事件對”及事件關系類型。

      FrameNet-1.5對新聞語料中的每個句子,以最細粒度標注其中包含的框架,同時,每個框架標注了該框架的核心詞以及框架參與者。本文保留其中標為事件框架的實例,作為事件實例。同時,將事件框架中的框架核心詞作為該事件的觸發(fā)詞,而框架元素為該事件的事件參與者。本文以FrameNet-1.5中已標注的離散的事件實例為基礎,對其中的事件關系進行人工標注(事件關系類型參照第五節(jié)的事件關系體系)。本文的標注工作由兩名該領域的研究人員(A1、A2)以及一名專家(B1)制定和完成。標注者將新聞語料中的相關事件以“相關事件對”的形式兩兩組合,接著對“相關事件對”的事件關系類型予以標注。目前的標注工作共包含1 004個事件,1 049個“相關事件對”及關系類型。本文統(tǒng)計各關系類型在新聞文本中的分布比例,表2為各事件關系類型的分布情況。

      對文本的標注結果計算kappa值,度量兩名標注者標注語料的一致性。新聞語料的平均kappa值為0.89,整體Kappa值較高,則認為兩名標注者標注的語料具有較強的一致性。

      表2 事件關系類型分布

      7 評價方法

      事件關系檢測將離散分布于不同文本中的事件構建“相關事件對”,并且進一步判斷兩個事件之間具有何種關系。該問題的輸入為待測“事件對”,輸出為“相關事件對”及其事件關系類型,因此,系統(tǒng)的性能優(yōu)劣主要取決于識別出的“相關事件對”數(shù)目和正確判定關系的“相關事件對”數(shù)目。因此,事件關系判定轉變?yōu)榉诸悊栴},即對事件之間屬于何種具體關系類型的劃分。針對這一分類問題,本文借鑒篇章關系分析研究大多采用的評價指標:Accuracy,具體計算公式如式(1)所示。

      (1)

      其中,TruePositve表示系統(tǒng)正確判定“相關事件對”以及其事件關系類型的個數(shù),TrueNegative表示系統(tǒng)正確判定“非相關事件對”個數(shù)。All則表示待測“事件對”的總數(shù)。而針對本文問題,將Accuracy用于多元關系的性能計量,計量過程將True-Negative設置為恒定0值,只檢驗每個“相關事件對”是否獲得正確的關系判定,即只計算TruePositve指標與All的比值,并將其作為準確率。

      8 總結

      事件關系客觀存在于事件之間,具有客觀性、邏輯性和規(guī)律性等特征。事件關系檢測任務旨在自動檢測事件間固有的邏輯關系類型。然而,目前專門面向事件的邏輯關系分析與處理,尚未形成一套完整的研究體系。本文通過分析和比較事件關系檢測與篇章關系分析的異同點,借助篇章分析、事件抽取和場景理解等相關領域中的概念與數(shù)據(jù)資源,首次提出了基于篇章關系分析的事件關系檢測體系。該體系包括事件關系檢測的概念、關系體系以及評價方法等。同時,根據(jù)定義的事件關系體系,以Frame-1.5中新聞語料為數(shù)據(jù)源,對其中已標注的事件進行事件關系類型的標注。今后的工作在完善現(xiàn)有語料的同時,重點研究如何將篇章分析有效運用于事件關系檢測任務中,從而形成信息流中事件關系的自動檢測,構建事件關系網絡以實現(xiàn)事件關系的推理和預測。

      [1] T Chklovski, P Pantel. Global path-based refinement of noisy graphs applied to verb semantics[C]//Proceedings of Joint Conference on Natural Language Processing, Jeju Island, Korea, 2005: 792-803.

      [2] P Pantel, M Pennacchiotti. Espresso: leveraging generic patterns for automatically harvesting semantic relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL, Sydney, Australia, 2006: 113-120.

      [3] Z S Harris. Mathematical Structure of Language[M]. New York, 1968.

      [4] D Lin, P Pantel. Discovery of Inference Rules from Text[C]//Proceeding of the 7th ACM SIGKDD, San Francisco, California, USA, 2001: 323-328.

      [5] E Pitler, M Raghupathy, H Mehta, et al. Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on the COLING, 2008: 87-90.

      [6] P E, R M, N HM, et al. Easily identifiable discourse relations[C]//Proceedings of the 22nd International Conference on Computational Linguistics (COLING 2008), Posters, Manchester, UK, 2008: 87-90.

      [7] The Penn Discourse Treebank 2.0 Annotation Manual[R], 2007.

      [8] Y Hong, X P Zhou, T T Che,et al. Cross-Argument Inference for Implicit Discourse Relation recognition[C]//Proceedings of the 21st ACM International Conference on Information and Knowledge Management(CIKM 2012),2012: 295-304.

      [9] N Daniel, D Radev, T Allison. Sub-event based multi-document summarization[C]//Proceedings of the Association for Computational Linguistics Morristown, NJ, USA, 2003: 9-16.

      [10] H Yang, T S Chua, S G Wang, et al. Structured use of external knowledge for event-based open domain question answering[C]//Proceedings of the 26th Int’l ACM SIGIR Conference, Toronto, Canada, 2003: 33-40.

      [11] S A Mirroshandel, G G Sani. Temporal Relations Learning with a Bootstrapped Cross-document Classifier[C]//Proceedings of the 4th International Workshop on Semantic Evaluations, Prague, 2007: 75-80.

      [12] Y Hong, J F Zhang, B Ma, et al. Using Cross-Entity Inference to Improve Event Extraction [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Portland, Oregon, June, 2011: 19-24.

      [13] C J Fillmore.Frame semantics and the nature of language[J].Annals of the New York Academy of Sciences,1976: 20-32.

      An Overview of Event Relation Detection System

      YANG Xuerong, HONG Yu, CHEN Yadong, YAO Jianmin, ZHU Qiaoming

      (Provincial Key Laboratory of Computer Information Processing Technology Soochow University, Suzhou, Jiangsu 215006,China)

      Event relation detection is the task to detect the event relation from information stream of texts. Treating the event as the basic semantic unit, the relation type is determined by analyzing the feature of semantic relevancy between events. The event relation detection includes event relation identification (identifying whether the event pair is related or not) and event relation type decision (deciding which relation between relevance events, e.g. cause relation). In this paper, we try to establish a system of event relation detection in light of the concepts and data resources of discourse analysis, event extraction and scene understanding, covering the issues of the task definition, classification system of event types, corpora acquisition and annotations evaluation methodology, etc. Finally, we not only emphasize the analysis and comparison of the difference between event relation detection and discourse relation analysis, but also present the difficulty and challenge of the event relation detection.

      event relation detection; discourse relation analysis; event; argument; semantic relation

      楊雪蓉(1990—),碩士,主要研究領域為事件關系檢測和信息抽取。E-mail:xuerongyang0650@gmail.com洪宇(1978—),博士,副教授,主要研究領域為話題檢測、信息檢索和信息抽取。E-mail:tianxianer@gmail.com陳亞東(1990—),學士,主要研究領域為信息抽取。E-mail:chinachenyadong@gmail.com

      1003-0077(2015)04-0025-08

      2013-06-26 定稿日期: 2015-05-28

      國家自然科學基金(61003152,61272259,61272260)

      TP391

      A

      猜你喜歡
      語料框架體系
      框架
      構建體系,舉一反三
      廣義框架的不相交性
      WTO框架下
      法大研究生(2017年1期)2017-04-10 08:55:06
      基于語料調查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應用
      一種基于OpenStack的云應用開發(fā)框架
      《苗防備覽》中的湘西語料
      “曲線運動”知識體系和方法指導
      國內外語用學實證研究比較:語料類型與收集方法
      驻马店市| 乐亭县| 普兰店市| 瓮安县| 和平县| 深泽县| 徐水县| 偏关县| 蕲春县| 永修县| 高平市| 拉萨市| 中宁县| 娄烦县| 七台河市| 泊头市| 湘潭县| 高邮市| 绿春县| 怀宁县| 象州县| 蕉岭县| 健康| 漳浦县| 夹江县| 家居| 富宁县| 正定县| 宜昌市| 桓仁| 临洮县| 林甸县| 保山市| 监利县| 克山县| 深水埗区| 溧水县| 金门县| 井陉县| 双城市| 厦门市|