楊雪蓉,洪 宇,馬 彬,姚建民,朱巧明
(蘇州大學(xué)計(jì)算機(jī)信息處理重點(diǎn)實(shí)驗(yàn)室,江蘇蘇州215006)
事件是指特定時(shí)間和環(huán)境下,由若干角色參與,并表現(xiàn)出某種行為或狀態(tài)特征的客觀事實(shí)(也稱“自然事件”)。文本中的事件則是這一客觀事實(shí)訴諸文字的獨(dú)特語用形式,多見于新聞報(bào)道、評論或博文等。自然事件往往不是孤立個(gè)體,其發(fā)生與發(fā)展往往與外在的其他自然事件有著本源的邏輯關(guān)系,如“因果”(Contingency)和“時(shí)序”(Temporal)關(guān)系等。然而,自然事件一經(jīng)訴諸文字并形成文本中的事件體,成為信息傳播中可讀可解的語言流,則必須遵循自然語言的行文規(guī)律,也使得事件關(guān)系作為重要的邏輯脈絡(luò),參與文本結(jié)構(gòu)和語義表述的形成過程。因此,表述事件以及事件關(guān)系的文本信息相應(yīng)地蘊(yùn)含著特定的分布規(guī)律。形成一種自動識別和檢測事件關(guān)系的自然語言分析和信息處理機(jī)制,對于面向大規(guī)模信息流中的離散事件,實(shí)現(xiàn)話題推演和話題預(yù)測,有著重要的輔助作用。
事件關(guān)系識別是一種針對“事件間邏輯關(guān)系存在與否”進(jìn)行自動判定的淺層事件關(guān)系檢測任務(wù)。事件關(guān)系檢測任務(wù)分為兩部分:事件關(guān)系識別和事件關(guān)系判定。事件關(guān)系識別通過解析文本結(jié)構(gòu)或語義特征,對文本中描述不同自然事件的文本片段(包括短語、子句、句子和段落)直接給出“有關(guān)”或“無關(guān)”判定結(jié)果。事件關(guān)系判定需要對關(guān)聯(lián)事件給出明確的語義關(guān)系或邏輯關(guān)系標(biāo)簽(如“因果”、“時(shí)序”、“擴(kuò)展”和“對比”等)。因此,預(yù)先確定事件之間是否存在關(guān)聯(lián)性,是深入解析事件邏輯關(guān)系的重要前提條件。
同一話題下的事件由種子事件或活動以及其相關(guān)的外延事件或活動組成。如事件“恐怖分子劫持飛機(jī)撞毀世貿(mào)大廈”是話題“9/11恐怖襲擊”的種子事件,而“襲擊嫌疑犯調(diào)查”是話題“9/11恐怖襲擊”的后續(xù)外延事件。為了更細(xì)粒度的識別事件之間關(guān)聯(lián)與否,將事件關(guān)系識別分為三個(gè)層面:1)“種子事件(Seminal Event)”間的關(guān)系識別(簡稱“SS識別”);2)“種子事件”與“外延事件(Extensional Event)”間的關(guān)系識別(簡稱“SE識別”);3)“外延事件”間的關(guān)系識別(簡稱“EE識別”)。
“SS識別”側(cè)重識別一致事件的不同文本描述,現(xiàn)有文本建模和相似度度量方法,如“語言模型(Language Model)”并輔以“KL距離(Kullback-Leibler Divergence)”,已給出較為有效的處理手段?!癝E識別”側(cè)重以種子事件為中心,實(shí)現(xiàn)關(guān)聯(lián)事件的向心內(nèi)聚(即話題聚類),其觀點(diǎn)是同一話題框架下的不同事件一致地與種子事件具有邏輯關(guān)聯(lián)性。然而,“SE識別”忽視了一種重要現(xiàn)象,即雖然同一話題框架下的外延事件向心地關(guān)聯(lián)于同一種子事件(假設(shè)話題未發(fā)生漂移或形態(tài)變異),但外延事件之間卻并非存在必然聯(lián)系。例如,“中菲黃巖島對峙”話題下的外延事件“日本三艦訪菲”和“菲香蕉被滯留”雖然關(guān)聯(lián)于核心事件“中菲對峙”,但兩兩之間并無聯(lián)系?!癊E識別”即是針對這一問題提出的事件關(guān)系識別任務(wù),其側(cè)重判定外延事件間是否存在邏輯關(guān)系。
相對而言,“SS識別”與“SE識別”的難度較低,前者可通過語義一致性或文本近似性予以判定,后者則可用種子事件作為標(biāo)桿,實(shí)現(xiàn)文本聚類,并判定同一聚類中所有文本蘊(yùn)含的事件皆相關(guān)?!癊E識別”的難度則較高,其待判定的“外延事件對”本身并非一致事件,文字描述必然差異較強(qiáng),語義或內(nèi)容一致性判定方法無法有效利用;同時(shí),相關(guān)于同一核心的“外延事件對”之間并非必然關(guān)聯(lián),現(xiàn)有話題聚類方法并不適用。從而,“EE識別”是針對大規(guī)模離散事件流實(shí)現(xiàn)關(guān)系識別的關(guān)鍵難點(diǎn)。
針對“EE識別”問題,本文提出一種基于事件核心詞和事件實(shí)體關(guān)聯(lián)線索的事件關(guān)系識別方法,該方法利用事件核心詞(Event Term)和事件實(shí)體(Event Entity)的分布特性,構(gòu)建事件關(guān)系邏輯線索,形成目標(biāo)事件的虛擬相關(guān)事件(virtual related event,簡稱vre)集合(即,利用事件的新聞背景得到與目標(biāo)事件相關(guān)聯(lián)的事件),最終建立事件線索(Event Cue,簡稱Ecue)集合,實(shí)現(xiàn)同一話題下事件相關(guān)性的自動識別。
本文組織如下:第2節(jié)介紹事件關(guān)系檢測的相關(guān)工作;第3節(jié)給出事件關(guān)系識別任務(wù)定義;第4節(jié)分析事件中核心詞及實(shí)體的分布特性;第5節(jié)詳細(xì)闡述本文方法;第6節(jié)介紹實(shí)驗(yàn);第7節(jié)總結(jié)。
由于在自動問答、自動文摘和事件預(yù)測等方面應(yīng)用需求的增加,事件關(guān)系檢測逐漸成為新的研究熱點(diǎn)[1],其中不乏可以在事件邏輯關(guān)系識別研究中借鑒的理論與方法。下面主要分為兩個(gè)方面予以簡介。
·模板匹配法
事件關(guān)系檢測的主要方法之一是借助事件特征的模式匹配,例如,利用事件觸發(fā)詞的關(guān)系模式匹配,根據(jù)人工定義的模板,對文本中符合模板的事件關(guān)系進(jìn)行抽取。Chklovski等[2]利用LSP(Lexcial-Syntactic Pattern,即詞-句匹配模板)抽取具有事件關(guān)系的資源,并將抽取的結(jié)果整理成一個(gè)稱為“VerbOcean”的知識庫。Chklovski等利用人工收集的LSP模板,抽取了6種時(shí)序關(guān)系(similarity,strength,antonymy,enablement,happens和before)的“事件對”。人工定義的事件關(guān)系模板往往受數(shù)量限制,造成關(guān)系檢測的低召回率問題。Pantel[3]通過Espresso算法進(jìn)行自動模板的構(gòu)建,算法在給定少量關(guān)系實(shí)例的情況下,通過機(jī)器學(xué)習(xí)方法對現(xiàn)有模板進(jìn)行迭代擴(kuò)展,在一定程度上改進(jìn)了模板匹配方法的召回率。
·元素分析法
以事件元素為線索的研究大都繼承了Harris[4]的分布假設(shè)。Harris假設(shè)指出,處在同一上下文環(huán)境中的詞語具有相同或相似的含義。Lin[5]提出了一種結(jié)合Harris分布假設(shè)和建立依存樹思想的無監(jiān)督方法,稱為DIRT算法。算法將所有事件構(gòu)造成依存樹形式,樹中的每條路徑表示一個(gè)事件,路徑的節(jié)點(diǎn)表示事件中的詞語。如果兩條路徑的詞語完全相同,則這兩條路徑所表示的事件相同或者相似。Szpektor[6]提出一種基于TE/ASE算法的無監(jiān)督學(xué)習(xí)方法,該方法包含兩步:首先利用ASE算法挖掘相似的事件元素集合;然后使用模板抽取算法,收集包含以上元素的句子,將收集的句子作為模板進(jìn)一步挖掘事件關(guān)系。
馬彬[7]通過分析事件在演化過程中的語義依存規(guī)律,提出一種基于語義依存線索的事件關(guān)系識別方法,該方法通過定位文本信息流中的事件,并分析事件之間的依存特征,挖掘事件關(guān)系的推理線索(即“依存線索”),實(shí)現(xiàn)事件關(guān)系的自動識別。
事件是一種描述特定人、物、事在特定時(shí)間和特定地點(diǎn)相互作用的客觀事實(shí)。事件由事件核心詞和事件實(shí)體組成。事件的核心詞能夠描述一個(gè)事件的發(fā)生,主要為動詞或者動名詞。本文將事件描述的依存分析結(jié)果中與根節(jié)點(diǎn)(“ROOT”節(jié)點(diǎn))相連的詞作為該事件的核心詞,如圖1所示。
圖1 事件核心詞、依存實(shí)體、共現(xiàn)實(shí)體定義示例
圖1是事件“金正恩當(dāng)選”的依存分析結(jié)果,該句子中與根節(jié)點(diǎn)直接相連的詞是“當(dāng)選”,該詞能夠描述該事件的發(fā)生,因此將“當(dāng)選”作為該事件的核心詞。為了驗(yàn)證該方法的可行性,對隨機(jī)選擇的500個(gè)事件進(jìn)行核心詞標(biāo)注,對比發(fā)現(xiàn),人工標(biāo)注的核心詞有87.8%與通過依存分析得到的核心詞一致。
事件實(shí)體是指事件的參與者,通常為名詞。本文將事件實(shí)體分為兩種類型:依存實(shí)體(Dependency Entity,DN)與共現(xiàn)實(shí)體(Co-occurence Entity,CN)。依存實(shí)體是指事件描述通過依存分析,與事件核心詞直接相連的實(shí)體,依存實(shí)體與核心詞語義相關(guān)聯(lián),如圖1中的“金正恩”和“委員長”;共現(xiàn)實(shí)體是指事件描述通過依存分析,不與事件核心詞相連的實(shí)體,如圖1中的“朝鮮”、“勞動黨”等。
事件關(guān)系表示事件之間的邏輯關(guān)系,是事件之間固有的一種客觀存在。本文側(cè)重研究事件之間的語義關(guān)系,即從事件的組成結(jié)構(gòu)以及篇章語義關(guān)系的角度解釋事件的邏輯關(guān)系。
話題檢測任務(wù)中,將包含一個(gè)種子事件或活動及與其直接相關(guān)的事件或活動的語言形式定義為話題[8]。根據(jù)話題的定義,一篇報(bào)道論述的事件或活動與特定話題的種子事件有著直接的聯(lián)系,那么該報(bào)道即與話題相關(guān)。然而,新聞報(bào)道往往包含多個(gè)不同事件的論述,報(bào)道的主題或主體內(nèi)容相關(guān)于話題主旨,并不能保證報(bào)道內(nèi)所有局部事件都相關(guān)于話題。同時(shí),如前一節(jié)所述,同一話題框架下的外延事件之間也不能保證邏輯相關(guān),因此,傳統(tǒng)的話題檢測方法僅能實(shí)現(xiàn)對事件關(guān)系的粗粒度識別和檢測,即同一話題下所有事件或活動都與話題本身有直接聯(lián)系,但不能針對話題內(nèi)任意“事件對”之間的關(guān)系給出準(zhǔn)確判定。
同一話題下的事件分為種子事件和外延事件,本文針對同一話題下的任意兩個(gè)外延事件的相關(guān)性進(jìn)行識別。同一話題下的外延事件與種子事件相關(guān),但并非兩兩相關(guān)。例如,話題“中國和菲律賓黃巖島對峙”中包含如下事件。
事件e1“日本三軍艦訪問菲律賓”
事件e2“菲律賓香蕉在中國港口被滯留”
事件e3“菲律賓香蕉商在中國損失14.4億比索”
事件e4“日本免費(fèi)向菲律賓提供十余艘巡邏船”
上述4個(gè)事件均與話題“中國和菲律賓黃巖島對峙”的核心事件存在直接聯(lián)系。除事件e1和事件e4,事件e2和事件e3存在邏輯關(guān)系外,其他任意兩事件之間并不存在邏輯關(guān)系。同時(shí),事件的相關(guān)性(Event Relevancy)與事件的相似性(Event Similarity)不同,事件的相關(guān)性是指兩個(gè)事件之間是否具有關(guān)聯(lián)性,因此,僅僅通過兩個(gè)事件的文字表述方式無法判斷關(guān)聯(lián)與否,需要挖掘更多的外部信息,充分利用外部信息輔助事件關(guān)聯(lián)性的識別;而事件的相似性側(cè)重識別一致事件的不同文本描述(事件相同,描述形式多樣),現(xiàn)有文本建模和相似度度量方法,已給出較為有效的處理手段。
本文的核心問題在于如何挖掘話題內(nèi)事件間的推理信息和語義關(guān)聯(lián)特征,通過文本事件的核心詞以及實(shí)體的分布規(guī)律,挖掘事件的推理線索,實(shí)現(xiàn)事件邏輯關(guān)系識別。
事件由核心詞以及相關(guān)實(shí)體組成,同一話題下相關(guān)事件的核心詞和實(shí)體的分布具有較高的相似性和一致性,而不相關(guān)事件的這類信息則沒有表現(xiàn)明顯的相似性和一致性。例如,話題“日本地震”下,以“地震”和“救援”為核心詞的事件具有較強(qiáng)的邏輯關(guān)系;而以“大跌”和“救援”為核心詞的事件往往不具有邏輯關(guān)系;話題“中國和菲律賓黃巖島對峙”下,包含實(shí)體“香蕉”和“中國港口”的事件往往相關(guān);而包含實(shí)體“漁民”和“香蕉”的事件往往不相關(guān)。因此,事件核心詞和實(shí)體的分布特性將有助于事件關(guān)系的識別。下面分別給出同一話題下實(shí)體和核心詞的分布數(shù)據(jù)并輔以分析說明。
分析語料發(fā)現(xiàn),“相關(guān)事件對”中的實(shí)體分布和“不相關(guān)事件對”中的實(shí)體分布存在較大差異:“相關(guān)事件對”中的實(shí)體種類少但頻度較大,即有關(guān)的實(shí)體分布較為均衡;而“不相關(guān)事件對”中的實(shí)體種類多而且離散,即對應(yīng)的實(shí)體分布較為稀疏。
為了驗(yàn)證以上現(xiàn)象,本文進(jìn)行了相關(guān)的統(tǒng)計(jì)實(shí)驗(yàn)。給定話題“日本地震”,利用互聯(lián)網(wǎng)分別檢索“地震”和“救援”(“相關(guān)核心詞對”)、“救援”和“大跌”(“不相關(guān)核心詞對”),得到與每一個(gè)“核心詞對”相關(guān)的前100個(gè)反饋結(jié)果摘要(Snippy),統(tǒng)計(jì)摘要中出現(xiàn)的事件實(shí)體及其頻度,形成集合“Rset”和“Nset”,其中,“Rset”是“相關(guān)核心詞對”中出現(xiàn)的實(shí)體集合,“Nset”是“不相關(guān)核心詞對”中出現(xiàn)的實(shí)體集合。抽取集合“Rset”和“Nset”中頻率最高的5個(gè)事件實(shí)體,分別統(tǒng)計(jì)每個(gè)實(shí)體在topN(N=1,2,3,…,100)個(gè)摘要中出現(xiàn)的頻度,如圖2所示。
圖2表示事件實(shí)體出現(xiàn)的頻度隨著摘要數(shù)量的增加而發(fā)生變化的趨勢樣例(針對較大規(guī)模數(shù)據(jù)的統(tǒng)計(jì)如表1所示),其中實(shí)線表示與事件“地震”和“救援”共現(xiàn)事件實(shí)體的頻度;虛線表示與事件“救援”和“大跌”共現(xiàn)事件實(shí)體的頻度。從圖2中可以看出,在同一個(gè)話題下,與“相關(guān)核心詞對”(“地震”和“救援”)共現(xiàn)的實(shí)體在摘要中分布較為均衡(均衡的分布在100個(gè)檢索結(jié)果中),即隨著摘要數(shù)的增加,實(shí)體的頻度呈顯著增長趨勢;而與“不相關(guān)核心詞對”(“救援”和“大跌”)共現(xiàn)的實(shí)體分布較為稀疏,隨著摘要數(shù)量的增加,同一實(shí)體的數(shù)量增長緩慢或者不增長。因此,上述的實(shí)體分布情況反映了相關(guān)事件和不相關(guān)事件中的實(shí)體分布差異,這種分布差異將有助于事件關(guān)系的識別。
圖2 分別與“相關(guān)核心詞對”和“不相關(guān)核心詞”共現(xiàn)的實(shí)體分布樣例
表1 “相關(guān)核心詞對”與“不相關(guān)核心詞”共現(xiàn)實(shí)體分布情況
為了量化地驗(yàn)證以上現(xiàn)象,本文隨機(jī)選擇50個(gè)“相關(guān)核心詞對”和50個(gè)“不相關(guān)核心詞對”,通過從互聯(lián)網(wǎng)檢索最相關(guān)的100個(gè)返回結(jié)果,分別統(tǒng)計(jì)前N(N=20,40,60,80,100)個(gè)反饋結(jié)果中出現(xiàn)的事件實(shí)體及其頻度(表1)。分析表1發(fā)現(xiàn),隨著反饋結(jié)果數(shù)量的增加,相關(guān)事件中的實(shí)體種類數(shù)增長緩慢,不相關(guān)事件中的實(shí)體種類數(shù)增加迅速;而相同反饋結(jié)果數(shù)量時(shí),隨著實(shí)體種類數(shù)的增加,相關(guān)事件中高頻實(shí)體種類數(shù)較多,不相關(guān)事件中高頻實(shí)體種類數(shù)較少。因此,相關(guān)事件實(shí)體的分布具有較高的一致性,該特性能夠有效輔助事件關(guān)系的識別。
在特定話題下,同一實(shí)體往往出現(xiàn)在相同或相似類型的事件中[9],因此提出以下假設(shè):相關(guān)事件中的實(shí)體往往參與相同或相似類型的事件,即相關(guān)事件中的實(shí)體參與的事件(核心詞)分布較為集中;而不相關(guān)事件的實(shí)體參與的事件(核心詞)分布較為離散。
為了驗(yàn)證以上假設(shè),本文從相關(guān)事件集合中選擇50對“相關(guān)實(shí)體對”,同時(shí)從不相關(guān)事件集合中選擇50對“不相關(guān)實(shí)體對”。以“實(shí)體對”作為檢索詞從互聯(lián)網(wǎng)中檢索實(shí)體參與的事件集合,統(tǒng)計(jì)由各個(gè)“實(shí)體對”反饋的事件集合中核心詞的重合度。圖3中實(shí)線部分表示通過檢索“相關(guān)實(shí)體對”得到的核心詞相關(guān)度;虛線部分表示“不相關(guān)實(shí)體對”的核心詞相關(guān)度,其中橫軸表示“實(shí)體對”編號,縱軸表示核心詞重合度。由圖3得出,“相關(guān)實(shí)體對”參與的事件相關(guān)性較大,即相關(guān)聯(lián)事件中的實(shí)體參與的事件具有較強(qiáng)的一致性和關(guān)聯(lián)性(事件種類集中);而“不相關(guān)實(shí)體對”參與的事件相關(guān)性較小,即不相關(guān)事件的實(shí)體參與的事件種類較多,事件分布較為離散,相關(guān)性較小。
圖3 “相關(guān)實(shí)體對”和“不相關(guān)實(shí)體對”參與的事件分布
因此,利用以上兩種假設(shè),本文提出一種基于實(shí)體和核心詞推理的事件關(guān)系識別方法。
本研究致力于探究一種基于核心詞和實(shí)體推理的事件關(guān)系識別方法,其核心思想是:事件相關(guān)性的識別利用事件的核心詞以及實(shí)體的分布特性,挖掘與目標(biāo)事件相關(guān)聯(lián)的事件,形成事件的虛擬相關(guān)事件(vre),再進(jìn)一步通過虛擬相關(guān)事件構(gòu)建事件線索集合(VRE),實(shí)現(xiàn)事件關(guān)系識別。
基于核心詞和實(shí)體推理的事件關(guān)系識別方法包括如下方面:事件定位、事件線索集構(gòu)建和事件關(guān)系推理。方法總體框架如圖4所示。
事件定位的目的是對給定的目標(biāo)事件探索特定文本中的一致或近似描述,從而得到包含該事件描述的文本片段,以此為媒介,抽取定位點(diǎn)的上下文內(nèi)容,挖掘與當(dāng)前事件在核心詞以及實(shí)體有一致性特征的文本片段,形成虛擬相關(guān)事件集。事件定位的處理流程如下:
1)給定事件eA,對其進(jìn)行分詞、詞性標(biāo)注和依存分析等預(yù)處理操作;
2)對語料文本進(jìn)行分句和子句劃分,形成(子句,整句)對集合;
3)計(jì)算事件eA與所有子句相似度(采用編輯距離算法[7]),從中選擇滿足相似度閾值θ且相似度值最大的子句作為定位結(jié)果,記相似度值為simA。
虛擬相關(guān)事件集的構(gòu)建包含兩項(xiàng)內(nèi)容,其一是初始虛擬相關(guān)事件集構(gòu)建,其二是迭代擴(kuò)展初始虛擬相關(guān)事件集,豐富虛擬相關(guān)事件線索集。下面分別對該兩項(xiàng)內(nèi)容予以介紹。
圖4 事件關(guān)系識別方法的主體框架
·虛擬相關(guān)事件集構(gòu)建
本文利用相關(guān)事件的核心詞以及實(shí)體的分布一致性特點(diǎn)構(gòu)造事件eA的事件線索集合VREA。VREA候選集的構(gòu)建過程具體步驟如下:
1)令eA定位得到的事件描述子句為SubA,SubA與eA的內(nèi)容一致或相似。SubA所在的整個(gè)句子為SA,其組成形式為[Sub1,Sub2,..,SubA,…,Subn],Subi皆為候選虛擬相關(guān)事件。
2)虛擬相關(guān)事件vreA與事件eA之間的相關(guān)程度用關(guān)聯(lián)因子(correlation factor)γ表示,記作:值越大表示事件eA與vreA之間的關(guān)聯(lián)性越大。γ值的計(jì)算方法如下。
關(guān)聯(lián)因子γ由核心詞關(guān)聯(lián)因子γET、依存實(shí)體關(guān)聯(lián)因子γDN和共現(xiàn)實(shí)體關(guān)聯(lián)因子γCN組成,將三部分的得分進(jìn)行加權(quán),公式定義為式(1)。
其中,α、β、χ和δ為加權(quán)系數(shù)。
a.核心詞關(guān)聯(lián)因子γET:事件eA與虛擬相關(guān)事件vreA的核心詞分別為ETA和ETvreA,同一個(gè)話題下,與ETA和ETvreA共現(xiàn)的實(shí)體集合分別記為NA和NvreA,計(jì)算NA和NvreA的重合度為γET,如式(2)所示。
b.依存實(shí)體關(guān)聯(lián)因子γDN:分別得到事件vreA與事件eA中的依存實(shí)體集合DNvreA和DNA,統(tǒng)計(jì)同一個(gè)話題下,與每一個(gè)依存實(shí)體共現(xiàn)的核心詞,形成集合ETA和ETvreA,將兩個(gè)事件中的依存實(shí)體兩兩計(jì)算核心詞的重合度,得到γDN,如式(3)所示。
c.共現(xiàn)實(shí)體關(guān)聯(lián)因子γCN:分別得到事件vreA與事件eA中的共現(xiàn)實(shí)體集合CNvreA和CNA,統(tǒng)計(jì)同一個(gè)話題下,與每一個(gè)依存實(shí)體共現(xiàn)的核心詞(除去依存實(shí)體),形成集合ETA和ETvreA,將兩個(gè)事件中的依存實(shí)體兩兩計(jì)算核心詞的重合度,得到γDE,如式(4)所示。
根據(jù)事件相關(guān)因子的計(jì)算方法,得到VREA候選集中的每個(gè)虛擬事件vreAi和eA的關(guān)聯(lián)因子γ,VREA集合中的每一個(gè)元素為每個(gè)虛擬事件vreAi和關(guān)聯(lián)因子γ組成的二元組,表示為:VERA={(verA1,γ1),(verA2,γ2),…,(verAn,γn)}。
·迭代擴(kuò)展虛擬相關(guān)事件集
由于句子長度有限,所以蘊(yùn)含的事件信息較少,在虛擬相關(guān)事件集構(gòu)造中將獲得數(shù)量有限的候選關(guān)聯(lián)事件。如判定目標(biāo)事件“9/11襲擊致大規(guī)模傷亡”和“美國舉國哀悼”是否相關(guān),在句子“9/11襲擊導(dǎo)致大規(guī)模人員傷亡,世貿(mào)大樓瞬間倒塌,世界為之震驚。”中構(gòu)建目標(biāo)事件“9/11襲擊致大規(guī)模傷亡”的事件線索集合,僅能獲得虛擬相關(guān)事件“世貿(mào)大樓瞬間倒塌”和“世界為之震驚”。但是,獲得的虛擬相關(guān)事件對目標(biāo)事件的關(guān)系判定無任何幫助。存在于其它文本中的對目標(biāo)事件關(guān)系判斷有輔助作用的信息,如“美國民眾為死難者哀悼”,需要通過對虛擬相關(guān)事件“世貿(mào)大樓倒塌”的進(jìn)一步擴(kuò)展中獲得。鑒于此,本文在已構(gòu)建的初始虛擬相關(guān)事件集合基礎(chǔ)上,通過以下步驟進(jìn)行迭代擴(kuò)展。
1)繼續(xù)將VREA中的每一個(gè)虛擬相關(guān)事件在文本中定位。在定位過程中,濾掉已定位過的句子,即保證包含當(dāng)前虛擬事件的句子不會重復(fù)出現(xiàn)。
2)構(gòu)造當(dāng)前虛擬事件的虛擬相關(guān)事件集合,并計(jì)算與事件eA之間的關(guān)聯(lián)因子,將擴(kuò)展得到的虛擬相關(guān)事件以相關(guān)因子添加到eA的事件線索集合VREA中。
3)迭代上述兩步,直到不滿足迭代條件。通過迭代方法,最終將得到與目標(biāo)事件相關(guān)的虛擬相關(guān)事件集合。
事件關(guān)系推理部分通過聚類予以實(shí)現(xiàn):同一聚類中的事件兩兩相關(guān),否則兩個(gè)事件不存在邏輯關(guān)系。事件關(guān)系推理以虛擬相關(guān)事件集為媒介,通過關(guān)聯(lián)因子計(jì)算,度量“目標(biāo)事件對”之間的關(guān)聯(lián)強(qiáng)度,并以此進(jìn)行事件集合的聚類劃分。
本文采用APCluster聚類算法[10],將該算法原有的相似度轉(zhuǎn)化為事件關(guān)聯(lián)度。事件eA和事件eB的關(guān)聯(lián)度計(jì)算公式如式(5)所示。
d(eA,eB)=max(sim(vreAi,eB)·γ(eA,vreAi)),vreAi∈VREA(5)其中,d(eA,eB)表示目標(biāo)事件eA和eB的相關(guān)度;vreAi為事件eA的虛擬相關(guān)事件;sim(vreAi,eB)為vreAi和目標(biāo)事件eB通過編輯距離得到的相似度值。該式的基本原理:在計(jì)算eA和eB相關(guān)度過程中,首先考慮和eB的相似度,如果vreAi與eB相似度很高,則可通過vreAi與eA的關(guān)聯(lián)因子γ(eA,vreAi)代替eB與eA的相關(guān)度值。為了更好地避免相似度計(jì)算帶來的誤差,本文將相似度值作為懲罰因子引入。
實(shí)驗(yàn)使用與馬彬[7]相同的數(shù)據(jù)集,從新浪、騰訊等網(wǎng)站的新聞專題中收集6個(gè)話題,平均每個(gè)話題包含32個(gè)新聞事件(外延事件)的30篇新聞報(bào)道。通過三位志愿者對每個(gè)話題下的事件進(jìn)行事件關(guān)系標(biāo)注(“相關(guān)”或“不相關(guān)”),最終獲得2 842個(gè)事件“關(guān)系對”,其中,具有邏輯關(guān)系(即“相關(guān)”)的“事件對”為811對,占總“事件對”的28.5%。
事件關(guān)系識別任務(wù)中,系統(tǒng)的性能優(yōu)劣主要取決于正確識別出關(guān)聯(lián)關(guān)系的“事件對”個(gè)數(shù)(包括正確判定“相關(guān)事件對”和“不相關(guān)事件對”)。實(shí)驗(yàn)采用文本檢索領(lǐng)域的通用評價(jià)指標(biāo):準(zhǔn)確率(Precision)、召回率(Recall)和F值。系統(tǒng)的性能由對每個(gè)話題的P值、R值和F值通過宏平均計(jì)算所得。
為了測試和比較本文提出的事件關(guān)系識別模型的效果,選擇基于依存線索系統(tǒng)[7]作為基準(zhǔn)系統(tǒng)(Baseline)。首先在訓(xùn)練集上對式(1)中加權(quán)系數(shù)進(jìn)行調(diào)整,使其獲得最佳結(jié)果,隨后將最佳取值應(yīng)用到測試集中,加權(quán)系數(shù)的取值分別為:α=0.5、β=0.5、χ=0.7和δ=0.3。實(shí)驗(yàn)結(jié)果如表2所示。本文提出的方法相對于Baseline在F值上獲得了7.68%的提高,在保證事件關(guān)系識別精確率P值的情況下,大大提升了事件關(guān)系識別召回率,即獲得了15.34%的提高。
表2 系統(tǒng)實(shí)驗(yàn)結(jié)果
本文通過對現(xiàn)有的虛擬相關(guān)事件進(jìn)行迭代,獲得更豐富的相關(guān)事件集合,迭代次數(shù)的選擇對系統(tǒng)的性能有一定的影響。圖5顯示了在測試集中,不同迭代次數(shù)下的系統(tǒng)性能,從圖5中可以看出,迭代次數(shù)為5時(shí),系統(tǒng)的性能最優(yōu)。因此,在測試集合中,選擇5作為最終的迭代次數(shù)。
圖5 迭代次數(shù)的訓(xùn)練結(jié)果
為了進(jìn)一步與Baseline進(jìn)行對比,分別對識別為有關(guān)系的“事件對”集合和無關(guān)系的“事件對”集合進(jìn)行分析,結(jié)果如表3所示。其中Baseline-Coincide為Baseline的識別正確,且本文方法也識別正確的比例;Our-Coincide為本文識別正確,而Baseline沒有識別正確的比例。從表3看出,Baseline識別為有關(guān)系的“事件對”只有25.00%能被本文方法正確判斷為有關(guān)系,而本文識別為有關(guān)系的“事件對”僅有5.80%能被Baseline識別正確。
表3 對比實(shí)驗(yàn)結(jié)果
分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),Baseline識別為有關(guān)系的而本文方法識別錯(cuò)誤的“事件對”之間存在較強(qiáng)的依存關(guān)系,但是事件中的實(shí)體和核心詞的出現(xiàn)頻率較低(實(shí)體省略現(xiàn)象嚴(yán)重),例如句子“朝鮮藐視安理會決議,仍堅(jiān)持發(fā)射衛(wèi)星?!卑氖录俺r仍堅(jiān)持發(fā)射衛(wèi)星”中實(shí)體“朝鮮”省略。此類事件通過本文方法構(gòu)造的線索集合較為稀疏,很難有效輔助事件關(guān)系識別。本文方法識別為有關(guān)系而Baseline識別錯(cuò)誤的事件,通過本文方法構(gòu)建的線索較為充分,彌補(bǔ)了因子句依存分析性能不佳造成的影響,對出現(xiàn)較為頻繁的事件的關(guān)系識別性能較優(yōu)。然而,兩種方法對于不相關(guān)事件的識別性能較為接近。因此,在相關(guān)聯(lián)事件的識別工作中,今后可以將兩種方法進(jìn)行融合,以提升事件關(guān)系識別的性能。
圖6分別給出本文系統(tǒng)和Baseline對每一個(gè)話題中“相關(guān)事件對”(左)和“不相關(guān)事件對”(右)的識別結(jié)果,其中,白色部分為本文系統(tǒng)的識別結(jié)果,灰色部分為Baseline的識別結(jié)果。從圖6可看出,本文對“相關(guān)事件對”的識別相對于Baseline有很大的提高,這是由于在構(gòu)建事件線索集時(shí),Baseline有60.07%的事件不存在事件線索集,而本文方法有27.7%的事件沒有獲得事件線索集。因此,本文的方法能夠構(gòu)造更豐富的事件線索集,從而提高事件關(guān)系的識別效果;然而,本文方法對“不相關(guān)事件對”的識別提高不明顯。
圖6 “相關(guān)事件對”(左)和“不相關(guān)事件對”(右)識別性能
但是,相關(guān)聯(lián)事件的識別性能依然不理想。其中,實(shí)體省略現(xiàn)象較為明顯,對事件線索的構(gòu)建有一定的影響。其次,語料資源有限對事件線索的迭代擴(kuò)展也具有一定的限制。本文在事件線索構(gòu)建過程中采用的是本地的新聞?wù)Z料資源,規(guī)模具有一定的局限性,在以后的工作中可以通過搜索引擎,利用互聯(lián)網(wǎng)信息進(jìn)行線索集的構(gòu)建。另外,本文對于事件核心詞的選擇仍需優(yōu)化。分析實(shí)驗(yàn)結(jié)果中的核心詞發(fā)現(xiàn),系統(tǒng)識別的一些核心詞語并不能真正的表述事件的發(fā)生。原因主要有兩點(diǎn):一是在虛擬相關(guān)事件構(gòu)建過程中引入的子句含有較多的噪聲,如子句“劉金哲說”、“發(fā)言人表示”、“朝鮮官方宣布”等,因此,抽取出的核心詞(如“說”、“表示”和“宣布”)對事件間的“區(qū)分”貢獻(xiàn)較小,這必將對構(gòu)建事件線索集造成影響;二是事件核心詞語的抽取性能還需提高,對比系統(tǒng)的核心詞識別結(jié)果和人工標(biāo)注的核心詞集合,準(zhǔn)確率為87.5%。因此,會在一定程度上影響系統(tǒng)的性能。
本文針對同一話題下事件關(guān)系識別任務(wù)提出一種基于核心詞和實(shí)體推理的事件關(guān)系識別方法。該方法通過利用事件的核心詞以及事件實(shí)體在相關(guān)事件中分布的一致性,形成目標(biāo)事件的虛擬相關(guān)事件集合,實(shí)現(xiàn)事件間關(guān)聯(lián)性的識別。實(shí)驗(yàn)結(jié)果表明,該方法優(yōu)于基于事件語義依存線索的事件關(guān)系識別方法。
然而,本文對事件線索集的構(gòu)建還需改進(jìn),因?yàn)槿杂胁糠质录o法通過本文的方法構(gòu)建虛擬相關(guān)事件集合。同時(shí),本文對事件核心詞的挖掘方法也需要進(jìn)一步優(yōu)化,以避免在實(shí)驗(yàn)過程中引入噪聲。本文采用的APCluster聚類算法僅僅利用事件分布一致性特征,并沒有充分利用事件聚類過程中的層次結(jié)構(gòu)信息,后續(xù)工作可嘗試采用層次聚類算法,利用聚類過程中的層次強(qiáng)度特性輔助事件關(guān)系識別。另外,在事件關(guān)系識別基礎(chǔ)上,進(jìn)一步確定事件的關(guān)系類別,即事件關(guān)系類型的定義和判定。
[1] W J Li,W Xu,M L Wu,et al.Extractive summarization using inter-and intra-event relevance[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the Association for Computational Linguistics,2006:369-376.
[2] T Chklovski,P Pantel.Global path-based refinement of noisy graphs applied to verb semantics[C]//Proceedings of the Joint Conference on Natural Language Processing,Jeju Island,Korea,2005:792-803.
[3] P Pantel,M Pennacchiotti.Espresso:leveraging generic patterns for automatically harvesting semantic relations[C]//Proceedings of the 21st International Conference on Computational Linguistics and 44th Annual Meeting of the ACL,Sydney,Australia,2006:113-120.
[4] Z S Harris.Mathematical Structure of Language[M].New York,1968.
[5] D Lin,P Pantel.Discovery of Inference Rules from Text[C]//Proceedings of the 7th ACM SIGKDD,San Francisco,California,USA,2001:323-328.
[6] I Szpektor,H Tanev,I Dagan,et al.Scaling Webbased Acquisition of Entailment Relations[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing,Barcelona,Spain,2004:41-48.
[7] 馬彬,洪宇,楊雪蓉,姚建民,朱巧明.基于語義依存線索的事件關(guān)系識別方法研究[J].北京大學(xué)學(xué)報(bào),2012,6:109-116.
[8] 洪宇,張宇,劉挺,李生.話題檢測與跟蹤的評測及研究綜述.中文信息學(xué)報(bào)[J],2007,6:71-84.
[9] Y Hong,J F Zhang,B Ma,et al.Using Cross-Entity Inference to Improve Event Extraction[C]//Proceedings ACL 2011:1127-1136.
[10] B J Frey,D Duerk.Clustering by Passing Messages Between Data Points[J].Science.2007,315:972-976.