孫銳
(樂(lè)山師范學(xué)院 計(jì)算機(jī)科學(xué)學(xué)院,四川 樂(lè)山 614000)
基于事件圖的新聞標(biāo)題生成研究
孫銳
(樂(lè)山師范學(xué)院 計(jì)算機(jī)科學(xué)學(xué)院,四川 樂(lè)山 614000)
為新聞自動(dòng)生成標(biāo)題是一個(gè)極具挑戰(zhàn)的任務(wù)。文章基于事件圖,提出一種有效的無(wú)監(jiān)督標(biāo)題生成方法。給定一篇新聞文檔,首先為其構(gòu)造事件圖以表示整個(gè)篇章,然后采用圖排序方法以計(jì)算每個(gè)事件的顯著性得分。隨后為排序后的多個(gè)事件,抽取其在文中的依存片段作為候選標(biāo)題,最后設(shè)計(jì)一個(gè)目標(biāo)優(yōu)化函數(shù)以搜索最終的標(biāo)題。在英文和中文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,文章提出的方法能有效地學(xué)習(xí)顯著性事件并能較好地生成標(biāo)題。
事件抽取;互增強(qiáng)原則;標(biāo)題生成
文本標(biāo)題能幫助讀者快速地從新聞報(bào)道中抓住主旨和感興趣的內(nèi)容。例如,Google新聞報(bào)道Ukraine Delays Announcement of New Government,讀者可直觀地了解該報(bào)道為烏克蘭延遲新政府成立宣告。然而,標(biāo)題的生成和評(píng)估都是非常有挑戰(zhàn)性的,其原因是在長(zhǎng)度受限的情況下標(biāo)題應(yīng)要求包含重要信息,同時(shí)也要具備可讀性。
表1 新聞片段示例
觀察Google News不同時(shí)段的新聞標(biāo)題,超過(guò)95%的標(biāo)題包含至少一個(gè)事件,且正文大多圍繞事件來(lái)組織。根據(jù)報(bào)道者書(shū)寫(xiě)習(xí)慣的不同,主旨事件可能在正文的不同位置出現(xiàn)(通常出現(xiàn)在首句),而其他相關(guān)事件通過(guò)公共角色或?qū)嶓w與主旨事件產(chǎn)生聯(lián)系。表1給出的新聞片段,描述了一個(gè)名叫Chris Scott Gilliam的恐怖主義者想殺掉每個(gè)人。容易看出,文中有大量與殺人相關(guān)的事件,如“sending mail bombs”“arresting”和“testifying”等。此外,該新聞的主角參與了包括主旨事件在內(nèi)的大多數(shù)事件。因此,從文中學(xué)習(xí)主旨事件對(duì)標(biāo)題生成是有意義的。一方面,主旨事件中的詞或短語(yǔ)可以確保標(biāo)題的信息度;另一方面,事件可以為各個(gè)短語(yǔ)提供語(yǔ)義上的約束。
本文工作旨在為單篇新聞文檔從事件出發(fā)生成標(biāo)題。因此,如何學(xué)習(xí)主旨事件是關(guān)鍵研究環(huán)節(jié)。首先,從文中提取詞匯鏈和事件以構(gòu)造事件圖,該圖可以看作是文章的壓縮表示。不同于傳統(tǒng)事件圖[1],本文事件圖并不描述事件間的因果或時(shí)序關(guān)系,而是論元間的語(yǔ)義關(guān)系。其次,利用圖的排序方法來(lái)習(xí)得事件的顯著性。最后將事件所在的依存片段作為候選標(biāo)題并利用優(yōu)化算法來(lái)搜索最終的標(biāo)題。
本文利用結(jié)構(gòu)化事件來(lái)生成標(biāo)題,并對(duì)比了多種排序方法來(lái)學(xué)習(xí)顯著性事件。在中英文兩種語(yǔ)料上的實(shí)驗(yàn)結(jié)果表明本文方法能取得有效的性能。
本文方法主要分為三個(gè)步驟:1)基于詞匯鏈和事件集合來(lái)構(gòu)建文章的事件圖,該圖描述了文章的篇章大意;2)采用圖的排序方法學(xué)習(xí)顯著性事件;3)抽取事件依存片段并搜索最終標(biāo)題。
1.1 事件圖構(gòu)建
圖1 篇章事件圖示例
如圖1所示,本文的事件圖可以抓住新聞的主旨,從圖中直觀地發(fā)現(xiàn)新聞主角以及其參與的事件集合。圖中,每個(gè)結(jié)點(diǎn)表示文檔中的一條詞匯鏈,邊則表示事件中成分間的關(guān)系。因此,在事件圖構(gòu)建前需進(jìn)行詞匯鏈和事件的抽取。
本文詞匯鏈的抽取采用以下原則:1)詞干化后形態(tài)相同的詞被視為同一個(gè)詞;2)擁有相同頭詞的短詞應(yīng)在同一鏈中;3)代詞應(yīng)根據(jù)其同指關(guān)系加入相應(yīng)詞匯鏈;4)在詞典中處于同一語(yǔ)義集合的詞匯須在同一鏈中。根據(jù)以上原則,表1可生成詞匯鏈:{Chris Scott Gilliam_3_2,he_5_2, He_2_3,Gilliam_10_7,Gilliam_4_9,Gilliam_4_11,Gilliam_8_13,Gilliam_3_14},鏈中第一次提及可視為代表詞,即Chris Scott Gilliam。對(duì)詞匯鏈初始權(quán)重的度量可使用兩個(gè)特征:詞匯鏈的長(zhǎng)度和所跨行數(shù)。即采用如下公式計(jì)算:
其中t表示詞匯鏈,函數(shù)len和span分別表示詞匯鏈長(zhǎng)度和所跨行數(shù),分別反映了詞匯鏈中詞的出現(xiàn)頻率及分布。
本文事件采用三元組形式的定義。不同于標(biāo)準(zhǔn)事件抽取方法,本文采用一種簡(jiǎn)單且有效的方法進(jìn)行事件抽取。該方法基于依存分析的結(jié)果,利用nsubj和dobj等動(dòng)詞依存關(guān)系。事件的論元是細(xì)粒度的。如表1中語(yǔ)句S14,“someone should kill the FBI sniper”可由依存關(guān)系“nsubj(kill-10,someone-8)”和“dobj(kill-10,sniper-13)”,組合成事件“someone kill snipper”。
一旦所有事件抽取完成后,即可構(gòu)建篇章事件圖。每個(gè)結(jié)點(diǎn)表示一條詞匯鏈,每條有向邊代表觸發(fā)詞與其論元間的關(guān)系。因此,一個(gè)事件至多可以對(duì)應(yīng)圖中的兩條邊。如圖1所示,圖中從主語(yǔ)到賓語(yǔ)的一條路徑代表一個(gè)事件。不同于傳統(tǒng)的篇章表示,篇章事件圖并不關(guān)注語(yǔ)句元間的語(yǔ)義關(guān)系,而關(guān)注于篇章事件的分析,其事件間的關(guān)系通過(guò)公共的事件論元來(lái)呈現(xiàn)。
1.2 顯著事件學(xué)習(xí)
直觀地,類似于PageRank或HITS的傳統(tǒng)圖排序方法可用于在事件圖中抽取最重要的事件。結(jié)點(diǎn)的權(quán)重與其在圖中的度有關(guān)。本文首先采用一種類似于PageRank的方法在事件圖中進(jìn)行事件排序。不同地,結(jié)點(diǎn)權(quán)重不需要分散到其他結(jié)點(diǎn)。結(jié)點(diǎn)度越大,其權(quán)重越大。一個(gè)事件包含一個(gè)觸發(fā)詞和至多兩個(gè)論元,因而事件權(quán)重可通過(guò)累加事件元素的權(quán)重獲得,即:
其中t表示事件e中每個(gè)元素,函數(shù)dg(.)表示圖中結(jié)點(diǎn)n的度。該方法為GraphR。
GraphR中主要考慮了詞匯鏈對(duì)事件權(quán)重計(jì)算的貢獻(xiàn),但事實(shí)上,事件對(duì)詞匯鏈的權(quán)重也應(yīng)同時(shí)考慮。因此,本文引入互增強(qiáng)原則來(lái)同時(shí)學(xué)習(xí)事件和詞匯鏈的權(quán)重?;ピ鰪?qiáng)模型的關(guān)鍵是如何度量事件和詞匯鏈的關(guān)系。
給定一篇新聞文檔,假設(shè)有n個(gè)事件{e1,e,...,en}和m條詞匯鏈{t1,t2,...,tn}。各自的權(quán)重分別定義為[w(e1),w(e2),...,w(en)]和[w(t1),w(t2),...,w(tn)]。關(guān)系矩陣r用于描述事件ei和詞匯鏈tj間的關(guān)系。以往的研究表明多數(shù)標(biāo)題出現(xiàn)在文章的開(kāi)始,相應(yīng)地出現(xiàn)在文章開(kāi)始的事件也越重要,因而出現(xiàn)在ei的詞匯的頻率及事件的位置信息可用于度量事件和詞匯的關(guān)系。關(guān)系矩陣定義如下:
其中w(tj)可用式1計(jì)算,t表示事件中的詞匯鏈;line和N分別表示事件所在行號(hào)和文章總行數(shù)。因此,可定義迭代算法按下式來(lái)計(jì)算權(quán)重:
其中K表示最大迭代次數(shù)。從初始w(t)0開(kāi)始,重復(fù)迭代過(guò)程直至權(quán)重向量移民定。參數(shù)在開(kāi)發(fā)集上調(diào)節(jié),當(dāng)w(t)0和K分別設(shè)置為1.0和10時(shí)權(quán)重向量趨于穩(wěn)定。
1.3 事件擴(kuò)展
直觀地,排序算法得到的顯著事件更可能出現(xiàn)在標(biāo)題中。觀察顯著事件所在語(yǔ)句的依存樹(shù),可發(fā)現(xiàn)如下一些現(xiàn)象。首先,事件論元中的指代須用相應(yīng)詞匯鏈的頭詞替換;第二,與事件論元有著語(yǔ)義關(guān)系的重要詞匯可能因依存錯(cuò)誤而丟失;第三,與標(biāo)題直接相關(guān)的事件不一定能得到更高的排名。
因此,每個(gè)顯著性事件需要擴(kuò)展為一個(gè)依存片段。每個(gè)片段可視為一個(gè)候選標(biāo)題,標(biāo)題生成的過(guò)程即為搜索過(guò)程,目標(biāo)函數(shù)可作如下定義:
其中,I為候選標(biāo)題數(shù)目,而ci和CS分別表示第i個(gè)候選和候選集合。Fit(.)函數(shù)可從兩個(gè)方面度量。一是候選所包含的詞匯鏈權(quán)重,另一個(gè)是該候選的排名。因而,該函數(shù)可定義如下:
具體地,每個(gè)事件候選的生成采用如下方法生成:1)構(gòu)建詞匯池,初始時(shí)包含了事件的所有論元;2)搜索所有與池中詞匯有著直接語(yǔ)義關(guān)系的詞,將權(quán)重最高的詞匯加入到池中;3)如詞匯池已滿或沒(méi)有詞匯再被選中則結(jié)束,否則返回第2步;4)池中的所有詞匯按其在文中出現(xiàn)的位置形成候選標(biāo)題。以上過(guò)程是一種貪心的策略。如表中語(yǔ)句3,事件“he kill everybody”可擴(kuò)展為片段“Chris Scott Gilliam wanted to kill everybody”。最后得分最高的候選即可作為最終的標(biāo)題,本文方法為MutualR。
2.1 實(shí)驗(yàn)設(shè)置
實(shí)驗(yàn)在中英文兩個(gè)數(shù)據(jù)集上進(jìn)行。英文語(yǔ)料為DUC04任務(wù)1標(biāo)準(zhǔn)評(píng)估語(yǔ)料,包括500篇文章。中文語(yǔ)料為新華社人民日?qǐng)?bào)語(yǔ)料,包括800篇文章。DUC07語(yǔ)料中前100篇文章作為開(kāi)發(fā)集。統(tǒng)計(jì)結(jié)果表明,測(cè)試集中有低于5%的抽象程度較高的標(biāo)題,每篇文章約50個(gè)事件,由此可見(jiàn)本文方法在這些數(shù)據(jù)集上是適用且有意義的。
表2 中英文語(yǔ)料上不同方法的性能評(píng)估
系統(tǒng)評(píng)估采用Rouge方法[2],其中Rouge1和Rouge2用于評(píng)估標(biāo)題的信息度和流暢度。因?yàn)樾枰M(jìn)行中文數(shù)據(jù)集的評(píng)估,我們基于同義詞詞林?jǐn)U展版重現(xiàn)了Rouge1和Rouge2的計(jì)算。
2.2 基線系統(tǒng)
TopWords:Lead10[3]方法簡(jiǎn)單地從首句中提取前10個(gè)詞作為標(biāo)題。盡管該方法簡(jiǎn)單,但它在標(biāo)準(zhǔn)評(píng)測(cè)數(shù)據(jù)上超過(guò)了以往了一些機(jī)器學(xué)習(xí)方法。
FirstSent:為驗(yàn)證事件擴(kuò)展的有效性,直接在文章首句上執(zhí)行了本文相同的實(shí)驗(yàn)。
2.3 結(jié)果
由表2所示的實(shí)驗(yàn)結(jié)果可見(jiàn),MutualR在兩個(gè)數(shù)據(jù)集上均取得比基線系統(tǒng)更好的性能。First-Sent方法總體性能和TopWords方法相當(dāng),驗(yàn)證了事件擴(kuò)展可以有效地找回丟失信息。由于新聞報(bào)道中大多在篇章開(kāi)始處直接呈現(xiàn)主題,主流的標(biāo)題生成方法均將第一條語(yǔ)句作為候選標(biāo)題。但英文數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明數(shù)據(jù)集中約30%的標(biāo)題并不是直接來(lái)源于首句。如表1中示例的標(biāo)題來(lái)源于語(yǔ)句S3。因此,標(biāo)題生成任務(wù)更應(yīng)該被視為篇章分析任務(wù)。如圖2所示,MutualR方法總體效果均高于GraphR,由此可見(jiàn)基于互增強(qiáng)的排序方法優(yōu)于傳統(tǒng)方法。其主要原因在于GraphR簡(jiǎn)單地考慮了結(jié)點(diǎn)權(quán)重,而忽略了詞和事件間的相互關(guān)系。此外,基于主旨事件的擴(kuò)展既能抓住重要信息,也能在一定程度上保障標(biāo)題的語(yǔ)法。
圖2 GraphR和MutualR在英文數(shù)據(jù)上的性能比較
實(shí)驗(yàn)結(jié)果證明了方法的有效性。從事件圖中習(xí)得的主旨事件能抓住篇章主旨。表3呈現(xiàn)了中英文語(yǔ)料上的一些生成結(jié)果。
從第一個(gè)示例可以看出參考標(biāo)題和機(jī)器生成標(biāo)題從語(yǔ)義上是大體相似且與篇章語(yǔ)義緊密相關(guān)的,然而,評(píng)估得分卻因?yàn)槿狈餐~匯而并不理想。顯然,采用能從語(yǔ)義推理進(jìn)行標(biāo)題生成評(píng)估的方法更符合實(shí)際。觀察第二個(gè)示例可見(jiàn),參考標(biāo)題中并沒(méi)有特定的事件,此時(shí)本文的方法僅能通過(guò)事件論元來(lái)提升信息度得分。統(tǒng)計(jì)結(jié)果表明,極端情況下評(píng)估得分為零。此類現(xiàn)象在中文中出現(xiàn)較多。因?yàn)橹形囊来娣治鲂阅艿挠绊?,特別是指代消解等問(wèn)題,事件抽取結(jié)果存在一些論元丟失或錯(cuò)誤的情況。故在中文標(biāo)題生成領(lǐng)域仍有許多工作需要開(kāi)展。
表3 中英文語(yǔ)料上不同方法的標(biāo)題生成結(jié)果示例
為進(jìn)一步評(píng)估基于圖的排序方法的性能,也進(jìn)行了事件顯著性學(xué)習(xí)比較的實(shí)驗(yàn)。候選事件的個(gè)數(shù)I分別從1變化到15。圖3給出了實(shí)驗(yàn)的結(jié)果。顯然,候選越多,得分應(yīng)趨近于一個(gè)極值。當(dāng)I等于 15時(shí),Rouge得分分別達(dá)到 0.4717和0.2404。近似地,互增強(qiáng)模型中,91%的主旨事件出現(xiàn)在前5位,98%的事件出現(xiàn)在前10位,因而這種基于事件圖的方法仍有很大的上升空間。
圖3 不同候選個(gè)數(shù)下英文數(shù)據(jù)集的性能比較
新聞標(biāo)題生成的方法大體分為兩類:抽取式和生成式。抽取式方法采用自頂向下的策略,在重要語(yǔ)句上實(shí)施語(yǔ)句壓縮技術(shù)以達(dá)到標(biāo)題長(zhǎng)度的要求。Dorr等[4]利用語(yǔ)言學(xué)的策略,提出了Hedge算法。Zajic等[5]則在Hedge算法的基礎(chǔ)上利用無(wú)監(jiān)督的主題發(fā)現(xiàn)方法組合了文檔的一個(gè)或多個(gè)主題詞。這些方法不需要過(guò)多的語(yǔ)言分析,一些重要的語(yǔ)法成分可能被錯(cuò)誤的刪除掉。
生成式方法通常分為兩個(gè)階段:內(nèi)容選擇和標(biāo)題合成。首先識(shí)別出能反映篇章主題的候選詞或短語(yǔ),然后再利用語(yǔ)句合成技術(shù)將這些候選成果組合成一條滿足語(yǔ)法規(guī)則且連貫的標(biāo)題。Woodsend等[6]基于偽同步語(yǔ)法提出了一種聯(lián)合模型。該模型中使用整數(shù)線性規(guī)則以優(yōu)化內(nèi)容選擇和語(yǔ)句生成。受自然語(yǔ)言生成技術(shù)的影響,基于短語(yǔ)和詞的合成仍無(wú)法確保語(yǔ)句的可讀性。Alfonseca等[7]首先基于現(xiàn)有知識(shí)庫(kù)Freebase生成事件模板,再利用“噪聲或”模型為一組相類新聞文檔集合生成標(biāo)題。受該工作的啟發(fā),本文從事件的角度出發(fā)為單篇新聞生成標(biāo)題。顯著性事件組合了一些顯著性詞匯或短語(yǔ),并且事件的擴(kuò)展基于依存關(guān)系進(jìn)行,因而能為標(biāo)題生成提供一定的性能保障。
本文基于事件圖來(lái)學(xué)習(xí)篇章主旨事件,并在事件的基礎(chǔ)上,設(shè)計(jì)了優(yōu)化函數(shù)以生成最終的標(biāo)題。該方法無(wú)需標(biāo)注數(shù)據(jù)和背景知識(shí),是一個(gè)輕量級(jí)的生成方法。實(shí)驗(yàn)結(jié)果表明該方法是有效且有潛力的。然而,在某些情況下,單個(gè)事件仍不足以表達(dá)篇章主題,尤其是在中文領(lǐng)域。因此,基于事件的融合是未來(lái)需要深入研究的目標(biāo)。
[1]ARNOLD H.Buss.Modeling with event graphs[C].Proceedings of the 1996 Winter Sirnulation Conference,1996:153-160.
[2]LIN Chin-Yew.Rouge:A package for automaticevaluation of summaries[C].Text SummarizationBranckes Out:Proceedings of the ACL-04 Workshop,2004:74-81.
[3]SORICUT R.MARCU D.Abstractive headlinegeneration using WIDL-expressions[J].Information Processing and Management,2007:43(6),1536-1548.
[4]DORR B,ZAJIC D,SCHWARTZ R.Hedge trimmer:A parse-and-trim approachto headline generation[C].Proceedings of the HLT-NAACL 03 on Text summarization workshop,2003,5:1-8.
[5]ZAJIC D,DORR B,SCHWARTZ R.Headline generation for written and broadcast news[R].lamp-tr-120,cs-tr-4698,2005.
[6]WOODSEND K,F(xiàn)ENG Y S,LAPATA M.Title generation with quasi-synchronousgrammar[C].Proceedings of the 2010 Conferenceon Empirical Methods in Natural Language Processing,2010:513-523.
[7]ALFONSECA E,PIGHIN D,GARRIDO G.HEADY:News headline abstractionthrough event pattern clustering[C].Proceedings ofthe 51st Annual Meeting of the Association for ComputationalLinguistics,2013:1243-1253.
Research on News Headline Generation Based on Event Graph
SUN Rui
(School of Computer Sciences,Leshan Normal University,Leshan Sichuan 614000,China)
Automatically generating news headline is a challenging task.This paper proposes an effective unsupervised method for this task based on event graph.Given a news report,firstly,a discourse event graph is constructed for it,and then graph ranking algorithms are used to compute the salient score for each event.Then,the dependency fragment in the text as the candidate title is extracted,and a target optimization function is designed to search the final headline.Experimental results on English and Chinese datasets demonstrate that the proposed method can effectively learn the salient events based on the discourse event graph and generate headlines.
Event Extraction;Mutual Reinforcement Principle;Headline Generation
TP391
A
1009-8666(2017)04-0042-05
10.16069/j.cnki.51-1610/g4.2017.04.009
[責(zé)任編輯、校對(duì):王興全]
2017-01-16
孫銳(1977—),男,四川眉山人。樂(lè)山師范學(xué)院計(jì)算機(jī)科學(xué)學(xué)院講師,博士,研究方向:自然語(yǔ)言處理。
樂(lè)山師范學(xué)院學(xué)報(bào)2017年4期