李 生,孔 芳 ,周國(guó)棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
基于PDTB的自動(dòng)顯式篇章分析器
李 生,孔 芳 ,周國(guó)棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
自動(dòng)篇章處理是自然語(yǔ)言處理中非常有挑戰(zhàn)的一個(gè)任務(wù),對(duì)自然語(yǔ)言處理的其他任務(wù),如問答系統(tǒng),自動(dòng)文摘以及篇章生成都有重要的作用。近年來,大規(guī)模篇章語(yǔ)料PDTB的出現(xiàn)為篇章研究提供了一個(gè)公共的平臺(tái)。該文在PDTB語(yǔ)料之上提出了一個(gè)完整的基于條件隨機(jī)場(chǎng)模型的顯式篇章分析平臺(tái),該平臺(tái)包含連接詞識(shí)別、篇章關(guān)系分類和關(guān)系論元提取三個(gè)子任務(wù)。給出了在PDTB上各模塊的實(shí)驗(yàn)結(jié)果,并針對(duì)錯(cuò)誤傳播問題,給出了完整平臺(tái)的性能及詳細(xì)分析。
篇章處理;條件隨機(jī)場(chǎng);賓州篇章樹庫(kù)
自動(dòng)篇章處理是自然語(yǔ)言處理中一項(xiàng)極具挑戰(zhàn)的任務(wù),是自然語(yǔ)言理解的基礎(chǔ),對(duì)許多自然語(yǔ)言處理的應(yīng)用而言(如問答系統(tǒng)、自動(dòng)文章摘要、篇章生成等)意義重大。
近年來,篇章理論的發(fā)展以及大規(guī)模篇章語(yǔ)料的構(gòu)建,使得篇章級(jí)的分析應(yīng)用越來越受到研究者的關(guān)注。2008年發(fā)布的最新版的賓州篇章樹庫(kù)(The Penn Discourse Treebank,PDTB)[1]是一個(gè)在D-LTAG[2]框架下標(biāo)注的篇章級(jí)語(yǔ)料庫(kù)。它以詞法為基礎(chǔ),標(biāo)注了謂詞論元形式的篇章結(jié)構(gòu)。該語(yǔ)料庫(kù)同時(shí)還和賓州樹庫(kù)(The Penn Treebank,PTB)[3]進(jìn)行了對(duì)齊,研究者可以很方便地從詞法、句法、語(yǔ)義等多個(gè)視角分析篇章。PDTB語(yǔ)料庫(kù)標(biāo)注了顯式和隱式兩類關(guān)系。其中顯式關(guān)系由連接詞觸發(fā),驅(qū)動(dòng)兩個(gè)論元,形成的關(guān)系都具有明確的語(yǔ)義類別。該語(yǔ)料庫(kù)為篇章分析提供了一個(gè)統(tǒng)一的平臺(tái),針對(duì)該標(biāo)注體系,目前已有一些子任務(wù)得到了大量的關(guān)注,取得了很好的效果。本文給出了一個(gè)基于條件隨機(jī)場(chǎng)模型的完整的顯式篇章分析器平臺(tái),該平臺(tái)由三部分構(gòu)成: (1)連接詞識(shí)別,判斷某一給定的候選連接詞是否真的承擔(dān)連接詞角色;(2)關(guān)系類別識(shí)別,判斷連接詞驅(qū)動(dòng)的關(guān)系所屬的語(yǔ)義類別;(3)關(guān)系論元的抽取,提取給定連接詞驅(qū)動(dòng)的文本域,并識(shí)別文本域承擔(dān)的角色(Arg1或者Arg2)。三部分級(jí)聯(lián)構(gòu)成了一個(gè)自動(dòng)顯式篇章分析器,本文通過PDTB上的實(shí)驗(yàn)分析了影響顯式篇章分析器性能的各類因素,并對(duì)三個(gè)模塊間的錯(cuò)誤傳播進(jìn)行了評(píng)測(cè)和分析。
本文其他部分的組織如下:第二節(jié)給出了基于PDTB語(yǔ)料庫(kù)的顯式篇章分析的相關(guān)研究;第三節(jié)提出了完整的基于條件隨機(jī)場(chǎng)模型的顯式篇章分析器平臺(tái);第四節(jié)給出了PDTB語(yǔ)料庫(kù)上的詳細(xì)實(shí)驗(yàn)結(jié)果及分析;最后給出了結(jié)論,并對(duì)下一步工作進(jìn)行了展望。
近年來,篇章理論的發(fā)展以及大規(guī)模篇章語(yǔ)料庫(kù)的構(gòu)建使得篇章級(jí)的分析受到越來越多的關(guān)注。本文關(guān)注焦點(diǎn)是基于PDTB語(yǔ)料庫(kù)的顯式篇章分析,下面就基于PDTB語(yǔ)料庫(kù)的顯式篇章分析的相關(guān)工作進(jìn)行介紹。
在連接詞識(shí)別研究方面,代表性工作包括: Pilter等[4]使用最大熵分類模型詳細(xì)探討了句法信息對(duì)連接詞消歧的貢獻(xiàn)。Lin等[5]在Pilter等工作的基礎(chǔ)上又針對(duì)連接詞消歧提出了一些補(bǔ)充特征,進(jìn)一步提升了連接詞識(shí)別的性能。目前,在正確句法樹上,連接詞識(shí)別的F值達(dá)到了95%;在自動(dòng)句法樹上,該模塊的F值約為93%。
在關(guān)系類別的識(shí)別方面,代表性的工作包括: Pilter等在連接詞識(shí)別的基礎(chǔ)上使用樸素貝葉斯方法依據(jù)連接詞和句法信息特征對(duì)第一層顯式關(guān)系進(jìn)行識(shí)別,其準(zhǔn)確率(Accuracy)達(dá)到了94.15%。Lin等針對(duì)第二層顯式關(guān)系使用最大熵分類模型依據(jù)連接詞上下文特征進(jìn)行了關(guān)系分類。在正確的句法樹上,關(guān)系類型識(shí)別的F值達(dá)到了86%;在自動(dòng)句法樹上,該模塊的F值約為80%。
在關(guān)系論元的抽取方面,代表性的工作包括: Dinesh等[6]針對(duì)Subordinate類型的連接詞提出了一個(gè)tree subtraction算法來自動(dòng)完成論元的抽取,但該方法使用了一套具有很強(qiáng)針對(duì)性的規(guī)則,對(duì)其他類別的連接詞并不完全適用。Lin等借鑒Dinesh的tree subtraction算法,借助機(jī)器學(xué)習(xí)方法首先識(shí)別覆蓋論元的最小子樹,再利用tree subtraction算法在子樹中抽取論元。但覆蓋論元的最小子樹也會(huì)包含非論元的部分,造成后續(xù)的抽取不能完全正確。他們的實(shí)驗(yàn)結(jié)果也證實(shí)了這一點(diǎn): 完全精確匹配的標(biāo)準(zhǔn)下,Arg1和Arg2同時(shí)正確的性能僅為40%,而在部分匹配的標(biāo)準(zhǔn)下,這一性能可達(dá)到80%以上。Wellner等[7]提出一個(gè)機(jī)器學(xué)習(xí)的方法來確定連接詞對(duì)應(yīng)論元Arg1和Arg2的head,但是PDTB語(yǔ)料中并沒有標(biāo)注論元的head信息,因而評(píng)測(cè)上缺乏一致的標(biāo)準(zhǔn)。Ghosh等[8]基于條件隨機(jī)場(chǎng)模型將論元抽取看成序列標(biāo)注問題,給出了一個(gè)論元識(shí)別方案,但他們使用了一些來自PDTB的標(biāo)準(zhǔn)信息,例如語(yǔ)義類別、Arg2信息等,給出的結(jié)果也只考慮了標(biāo)準(zhǔn)句法樹,未對(duì)自動(dòng)句法分析結(jié)果進(jìn)行評(píng)測(cè)。
本文側(cè)重于顯式關(guān)系篇章分析器的構(gòu)建,與他們方法不同的是,連接詞方面我們提出一個(gè)基于CRFs的序列標(biāo)注模型;論元抽取方面,我們抽取完整的論元而不是論元的head,此外我們分為兩步建模,先識(shí)別Arg2部分,再完全自動(dòng)化地識(shí)別Arg1(未使用任何標(biāo)準(zhǔn)信息,所有特征均自動(dòng)獲取);為了系統(tǒng)的完整性,還構(gòu)建了顯式關(guān)系類別的識(shí)別模塊。在此基礎(chǔ)上,我們探討了兩種句法樹類型以及模塊之間錯(cuò)誤傳播對(duì)篇章分析器的性能影響。
本文提出的篇章分析器的框架如圖1所示*PDTB體系認(rèn)為連接詞是篇章級(jí)的驅(qū)動(dòng)謂詞,它驅(qū)動(dòng)兩個(gè)論元形成一定的語(yǔ)義關(guān)系。已有的研究表明,對(duì)顯式關(guān)系而言,連接詞及其上下文已經(jīng)提供了足夠的信息來確定語(yǔ)義關(guān)系的類別。此外,我們的初步實(shí)驗(yàn)表明引入任何的論元信息都將降低語(yǔ)義類別的識(shí)別性能,再加上自動(dòng)論元識(shí)別的性能低于50%,它的引入必將降低語(yǔ)義類別的識(shí)別性能。因此,本文提出的顯式篇章分析器框架采用僅利用連接詞信息進(jìn)行關(guān)系類別的識(shí)別,在關(guān)系類別識(shí)別的基礎(chǔ)上,結(jié)合連接詞信息進(jìn)行關(guān)系論元的抽取。,可以看到該框架由三部分構(gòu)成:連接詞識(shí)別、顯式關(guān)系類型判別和論元抽取。其中,論元抽取分兩步進(jìn)行,首先識(shí)別與連接詞關(guān)系密切的Arg2論元,在已經(jīng)識(shí)別出Arg2論元的基礎(chǔ)上再抽取Arg1。
圖1 篇章分析整體框架
圖2 一個(gè)顯式篇章關(guān)系示例
具體流程我們以圖2給出的示例進(jìn)行解釋。這是摘自wsj_2015文章中表達(dá)時(shí)序關(guān)系的一個(gè)關(guān)系實(shí)例,連接詞用下劃線標(biāo)出,論元Arg1用斜體表示,論元Arg2用粗體表示。我們的平臺(tái)首先通過篇章連接詞識(shí)別模塊確定候選連接詞“after”的確是一個(gè)篇章連接詞;然后利用顯式關(guān)系類型判別模塊識(shí)別出當(dāng)前的連接詞“after”表述的語(yǔ)義關(guān)系是Temporal;最后在論元抽取部分對(duì)連接詞“after”驅(qū)動(dòng)的論元進(jìn)行二步式抽?。菏紫茸R(shí)別出Arg2是“having been unchanged in October”,然后再識(shí)別出Arg1是“Factory output dropped 0.2%, its first decline since February”。
下面我們將詳細(xì)介紹顯式篇章分析器中每一構(gòu)成部分。
3.1 篇章連接詞識(shí)別
篇章連接詞的識(shí)別是顯式篇章分析的第一步,目標(biāo)是根據(jù)上下文信息確定某一候選連接詞是否真正承擔(dān)連接詞角色。由于后續(xù)的篇章關(guān)系類別和論元識(shí)別都與連接詞密切相關(guān),這一步的性能對(duì)整個(gè)顯式篇章分析至關(guān)重要。目前傳統(tǒng)的連接詞識(shí)別方法是:根據(jù)PDTB預(yù)設(shè)的候選連接詞列表*在PDTB語(yǔ)料庫(kù)中預(yù)先設(shè)定了100個(gè)不同類型的候選連接詞。獲取當(dāng)前上下文中的候選連接詞,針對(duì)每個(gè)候選連接詞提取其所在的上下文詞匯、句法及語(yǔ)義信息來判斷其是否真正承擔(dān)連接詞角色。可以看到,傳統(tǒng)的連接詞識(shí)別方法對(duì)預(yù)設(shè)的候選連接詞有著極大的依賴。有些研究表明這些預(yù)設(shè)的候選連接詞具有一定的領(lǐng)域性。例如,Balaji等[10]針對(duì)PDTB和BIODRB[11](生物醫(yī)學(xué)篇章關(guān)系語(yǔ)料庫(kù))進(jìn)行了分析,發(fā)現(xiàn)兩個(gè)語(yǔ)料庫(kù)公共的候選連接詞僅占各自候選連接詞的40%左右,使用不同的候選連接詞列表將嚴(yán)重影響篇章連接詞識(shí)別的性能。
本文將連接詞識(shí)別問題看成是一個(gè)序列化標(biāo)注問題,提出一個(gè)基于條件隨機(jī)場(chǎng)模型的連接詞識(shí)別方法。該方法不依賴候選連接詞列表,可方便地應(yīng)用于多個(gè)不同領(lǐng)域、不同語(yǔ)言的篇章關(guān)系語(yǔ)料庫(kù)。
在序列化標(biāo)注問題中,我們首先需要確定需要使用的標(biāo)注集合。依據(jù)連接詞是否可以跨句,是否由不連續(xù)的幾部分構(gòu)成,我們將連接詞分成三類:(1)group:連續(xù)的不可分的,只能出現(xiàn)在一個(gè)句子中,例如,as a result;(2)senIntra:只能出現(xiàn)在一個(gè)句子中,包含分散的多個(gè)部分,例如,if...then;(3)senInter:出現(xiàn)在兩個(gè)句子中,包含分散的多個(gè)部分,例如,on one hand...on the other hand。其中第三類連接詞出現(xiàn)的頻度極低,本文后續(xù)的工作暫時(shí)忽略了這一類型。借鑒中文分詞以及短語(yǔ)識(shí)別的標(biāo)注集合,我們使用了五個(gè)標(biāo)注符:B,連接詞包含多個(gè)單詞,當(dāng)前詞為這一連接詞的開始;I,連接詞包含多個(gè)單詞,當(dāng)前詞位于連接詞的中間;E,連接詞包含多個(gè)單詞,當(dāng)前詞是連接詞的最后一個(gè)詞;S,連接詞僅包含一個(gè)單詞;O,不屬于連接詞。標(biāo)注符與連接詞類別相結(jié)合,在我們的連接詞識(shí)別模塊中共使用八個(gè)標(biāo)注符,B/I/E分成group和senIntra兩種,而S只針對(duì)group類別,O與連接詞無關(guān)。具體標(biāo)注符如表1所示。
表1 篇章連接詞識(shí)別使用的標(biāo)注集
確定了標(biāo)注集合后,我們從詞法、句法等方面提出了一系列上下文特征用于連接詞的識(shí)別,連接詞識(shí)別使用的相關(guān)特征如表2所示(我們假設(shè)當(dāng)前詞是圖2給出的示例中的連接詞“after”,該示例對(duì)應(yīng)的標(biāo)準(zhǔn)句法樹如圖3所示。
表2 篇章連接詞識(shí)別使用的特征及對(duì)應(yīng)描述
圖3 圖2給出示例對(duì)應(yīng)的標(biāo)準(zhǔn)句法樹
特征F1~F4都是自然語(yǔ)言處理中常見的特征,除了當(dāng)前詞,我們還同時(shí)考慮了詞的上下文環(huán)境以及相關(guān)組合特征。特征F5描述了一個(gè)詞的句法范疇,我們稱之為Parent Category,從句法樹上來看它的值就是該詞的詞性節(jié)點(diǎn)的父節(jié)點(diǎn)的值。特征F6也是一個(gè)句法類型的特征, 它描述了節(jié)點(diǎn)的語(yǔ)法推導(dǎo)信息,句法特征對(duì)連接詞的消歧被證明是非常有效的[3]。特征F7描述了一個(gè)詞出現(xiàn)在句子中的位置信息,通過觀察語(yǔ)料我們發(fā)現(xiàn)一些詞出現(xiàn)在特殊的位置,例如,but出現(xiàn)在句子的開始,那么它很有可能是作為篇章連接詞。特征F8和F9是兩個(gè)相似的特征,描述了詞的上下文是否含有標(biāo)點(diǎn)符號(hào)。標(biāo)點(diǎn)符號(hào)的出現(xiàn)常常表示關(guān)鍵信息(如連接詞,命名實(shí)體等)的開始或結(jié)束。特別的,一個(gè)句子的開始詞我們認(rèn)為其前面是有標(biāo)點(diǎn)符號(hào)的;相似的,一個(gè)句子的末尾詞其后面也是有標(biāo)點(diǎn)符號(hào)的。
3.2 顯式關(guān)系類型識(shí)別
識(shí)別出篇章連接詞后,我們需要進(jìn)一步對(duì)其表達(dá)的篇章關(guān)系的語(yǔ)義類別進(jìn)行識(shí)別。PDTB語(yǔ)料中關(guān)系的語(yǔ)義類別分為三個(gè)層次, Class、Type和Subtype。第一層共有四種類型:TEMPORAL, COMPARISON, CONTINGENCY和EXPANSION。TEMPORAL是一種時(shí)序關(guān)系,表明關(guān)系論元在時(shí)間上存在先后或者交叉等某種聯(lián)系;COMPARISON表明兩個(gè)論元之間存在對(duì)比關(guān)系;CONTINGENCY表示一種偶然性,表明論元之間存在因果或條件依賴等某種聯(lián)系;EXPANSION表示擴(kuò)展關(guān)系,一個(gè)論元對(duì)另一個(gè)可能進(jìn)行了補(bǔ)充說明等。
已有的研究表明,連接詞本身已經(jīng)蘊(yùn)含了足夠的信息來對(duì)其所屬的語(yǔ)義類別進(jìn)行分類,采用與Lin等[8]提出的類似的方法,我們使用連接詞本身、連接詞前后的詞及其詞性為特征,使用最大熵分類器實(shí)現(xiàn)了一個(gè)顯式篇章關(guān)系類別識(shí)別模塊。雖然第一層四大類語(yǔ)義類別的定義略顯寬泛,但對(duì)許多NLP應(yīng)用(例如文本摘要)已經(jīng)足夠。相比而言,第二層的16類定義更加嚴(yán)謹(jǐn)規(guī)范。鑒于此,本文分別給出了第一層和第二層上顯式關(guān)系類型的識(shí)別結(jié)果。
3.3 論元文本域的抽取
確定了篇章連接詞以及對(duì)應(yīng)的篇章關(guān)系語(yǔ)義類別后,我們嘗試進(jìn)行精確的論元文本域的識(shí)別。
根據(jù)PDTB手冊(cè)中對(duì)論元Arg1和Arg2的定義我們可以看到,Arg2與連接詞的關(guān)系非常緊密,它嚴(yán)格受連接詞的驅(qū)動(dòng),常規(guī)情況下都與連接詞同屬一個(gè)語(yǔ)句;相比Arg2,Arg1與連接詞間的關(guān)系松散很多,位置也更加靈活,既可以與連接詞同屬一個(gè)語(yǔ)句,也可出現(xiàn)在連接詞所在語(yǔ)句之前的任意句子中。因此,已有的研究已經(jīng)明確,Arg1論元的識(shí)別更具挑戰(zhàn)性。此外,PDTB語(yǔ)料中Arg1所處位置的統(tǒng)計(jì)表明,60.9%的Arg1論元與連接詞處于同一語(yǔ)句,30.1%的Arg1論元位于連接詞所屬語(yǔ)句前直接相鄰的語(yǔ)句中,其他情況僅占10%。因此,傳統(tǒng)的論元識(shí)別方法是:同時(shí)進(jìn)行Arg1和Arg2論元的識(shí)別。其中Arg2論元的搜索空間限定在連接詞所在句子,而Arg1則首先根據(jù)連接詞所處的上下文判別其所處位置(與連接詞處于同一語(yǔ)句SS,還是不同語(yǔ)句PS),再根據(jù)結(jié)果采用不同的策略進(jìn)行Arg1論元的抽取。
考慮到連接詞與Arg1和Arg2之間的關(guān)系并不等價(jià),同時(shí)也想探究一下自動(dòng)識(shí)別出的Arg2論元是否有助于Arg1論元的抽取,我們將論元文本域的抽取分成兩個(gè)步驟:首先以連接詞所在語(yǔ)句為搜索空間進(jìn)行Arg2論元的識(shí)別;在已知Arg2論元信息(自動(dòng)識(shí)別)的基礎(chǔ)上,以論元所在語(yǔ)句和前一語(yǔ)句為搜索空間進(jìn)行Arg1論元的識(shí)別。雖然這兩個(gè)步驟的搜索空間不同,使用的特征也存在一定的差異,但都可以看作獨(dú)立的序列標(biāo)注問題。同時(shí)序列標(biāo)注任務(wù)在確定搜索空間后也無需再區(qū)分SS或是PS的狀況,而對(duì)于這兩類序列標(biāo)注問題,我們可以采用統(tǒng)一的B/I/E/O標(biāo)注集進(jìn)行標(biāo)注。表3給出了這兩個(gè)步驟所使用的特征集合。
表3 論元抽取的特征描述
續(xù)表
特征F1描述了一個(gè)詞以及它的上下文信息,是自然語(yǔ)言處理中常見的特征。特征F2是指PDTB標(biāo)注體系中語(yǔ)義關(guān)系的第一層,我們使用關(guān)系語(yǔ)義識(shí)別模塊自動(dòng)確定關(guān)系的語(yǔ)義類型。顯然只有那些是連接詞的token才有Top Sense值,非連接詞的該特征取值為none。特征F3是從句法樹中提取的路徑信息,我們的路徑從詞性節(jié)點(diǎn)開始到連接詞的父節(jié)點(diǎn)。如果連接詞是一個(gè)短語(yǔ),我們?nèi)∷鼈兊淖畹凸补?jié)點(diǎn)作為父節(jié)點(diǎn)。特征F4主要是用來判斷Arg1的句子邊界,我們認(rèn)為如果下一個(gè)句子的開始詞是某一連接詞驅(qū)動(dòng)的論元的一部分時(shí),Arg1很有可能在前一個(gè)句子中。特征F5是指當(dāng)前詞是否屬于第一步識(shí)別出的Arg2中的一部分,因?yàn)锳rg2和Arg1是不重合的,我們使用該特征可以進(jìn)一步限定Arg1的范圍。
4.1 實(shí)驗(yàn)設(shè)置和評(píng)測(cè)方法
為了與已有的研究進(jìn)行性能比較,我們采用了與Lin等一致的數(shù)據(jù)集和評(píng)測(cè)方法。
所有實(shí)驗(yàn)均使用PDTB語(yǔ)料,將其中的section 02~21作為訓(xùn)練集,section23作為測(cè)試集,section 00~01作為開發(fā)集。整個(gè)平臺(tái)中,我們使用了CRF++*http://crfpp.sourceforge.net/這一序列化標(biāo)注工具,OpenNLP中附帶的maxent工具包*http://maxent.sourceforge.net/作為最大熵分類器,所有參數(shù)均選擇默認(rèn)值。為了和Lin等進(jìn)行公平的比較,自動(dòng)句法樹也使用Charniak句法分析器*ftp://ftp.cs.brown.edu/pub/nlparser/得到。
評(píng)測(cè)指標(biāo)采用標(biāo)準(zhǔn)的準(zhǔn)確率(Precision),召回率(Recall)以及F1值。特別說明的是,在評(píng)測(cè)論元抽取的性能時(shí),我們采用嚴(yán)格的精確匹配標(biāo)準(zhǔn)進(jìn)行評(píng)測(cè),即排除開始和結(jié)尾的標(biāo)點(diǎn)符號(hào)后使用字符串嚴(yán)格匹配來判定論元提取是否正確。
我們考察了三個(gè)不同實(shí)驗(yàn)設(shè)置下顯式篇章分析的性能,分別是:
(1) GS+noEP: 使用標(biāo)準(zhǔn)句法樹,模塊之間沒有錯(cuò)誤傳播,即每一步的前一個(gè)環(huán)節(jié)完全正確;
(2) GS+EP:使用標(biāo)準(zhǔn)句法樹,模塊之間有錯(cuò)誤傳播;
(3) Auto+EP:使用自動(dòng)句法樹,模塊之間有錯(cuò)誤傳播。這一評(píng)測(cè)給出了整個(gè)端對(duì)端自動(dòng)顯式篇章分析的性能,可以應(yīng)用于完全自動(dòng)的顯式篇章分析。
4.2 實(shí)驗(yàn)結(jié)果與分析
表4給出了在標(biāo)準(zhǔn)句法樹下三種類別特征對(duì)連接詞識(shí)別性能的貢獻(xiàn),僅用詞匯特征(F1-F4)已經(jīng)能達(dá)到88.43%的F1值,結(jié)合句法特征(F5-F6)能顯著提高識(shí)別性能。使用位置特征(F7-F9)也能進(jìn)一步提高連接詞的性能。
表4 標(biāo)準(zhǔn)句法樹下不同類別特征對(duì)連接詞的貢獻(xiàn)(—表示0)
表5給出了分別使用標(biāo)準(zhǔn)句法樹和自動(dòng)句法樹時(shí)獲得的連接詞識(shí)別的性能,連接詞識(shí)別處于整個(gè)框架的第一步,不存在錯(cuò)誤傳播問題。
表5 兩種不同句法樹下篇章連接詞識(shí)別的性能
從連接詞的識(shí)別效果來看,GS和Auto的性能相差1.86%,自動(dòng)句法樹對(duì)連接詞識(shí)別性能的影響較小。分析識(shí)別結(jié)果我們發(fā)現(xiàn),“and”和“but”引起的歧義最大。表6的最后一列給出了目前性能最好的Lin等[5]的連接詞識(shí)別的性能,比較發(fā)現(xiàn),我們給出的基于CRFs的連接詞識(shí)別的性能略遜于Lin等系統(tǒng)的性能,但我們的連接詞識(shí)別方法的優(yōu)勢(shì)在于它可應(yīng)用于不同領(lǐng)域、不同語(yǔ)言。
表6給出了不同實(shí)驗(yàn)配置下關(guān)系語(yǔ)義類別識(shí)別的性能。Prasad等人[10]指出整個(gè)顯式關(guān)系中,標(biāo)注人員對(duì)第一層和第二層語(yǔ)義關(guān)系一致認(rèn)可率有94%和84%,實(shí)驗(yàn)中我們僅使用連接詞及其前后詞的信息在第一層語(yǔ)義上就獲得了95.88%的F1值,這也說明連接詞識(shí)別的性能是至關(guān)重要的,如果不能正確識(shí)別連接詞,就無法確定它表達(dá)的關(guān)系語(yǔ)義信息。
表6 關(guān)系分類的性能
我們按照平臺(tái)構(gòu)建的順序評(píng)測(cè)論元抽取的性能,首先對(duì)論元Arg2的抽取性能進(jìn)行評(píng)測(cè),GS+noEP下提取的性能最好,F(xiàn)1值達(dá)到了81.57%,GS+EP下性能相較GS+noEP配置下獲得的性能下降了2.71%, Auto+EP配置下F1值相比GS+EP又下降了3.85%。論元Arg2抽取的誤差有兩個(gè)來源:連接詞識(shí)別的誤差和顯式關(guān)系類型識(shí)別的誤差。只有連接詞被識(shí)別為篇章連接詞時(shí)才有論元識(shí)別過程,這兩方面的誤差傳播導(dǎo)致在Auto+EP配置下,我們系統(tǒng)的性能較GS+noEP配置下衰減了6.56%。
表7 Arg2 抽取性能
抽取出論元Arg2后我們利用其結(jié)果輔助論元Arg1的抽取。從前文分析可知,Arg2和連接詞在同一個(gè)句子,而Arg1的位置并不固定,所以Arg1的識(shí)別不如Arg2容易。從表8結(jié)果來看也證實(shí)了我們的猜測(cè),沒有誤差傳播情況下GS+noEP的性能最高,F(xiàn)1值達(dá)到58.94%。由于誤差傳播的原因,GS+EP和Auto+EP下性能都有不同程度的衰減。論元Arg1之間存在三個(gè)誤差來源,分別是連接詞識(shí)別、篇章關(guān)系類型以及論元Arg2的抽取誤差。對(duì)比分析Arg2和Arg1識(shí)別性能,我們發(fā)現(xiàn)一點(diǎn)相似之處,CRF給出的召回率相對(duì)準(zhǔn)確率較低,這可能由于CRF在預(yù)測(cè)時(shí)偏于保守。
表8 Arg1 抽取性能
在論元Arg1抽取中,我們使用了Arg2識(shí)別的結(jié)果作為Arg1的一個(gè)特征。表9給出了在GS+noEP環(huán)境下Arg2特征對(duì)Arg1抽取性能的影響,可以看出使用Arg2能顯著提高Arg1的抽取性能約0.54%(p<0.005)。
表9 特征Arg2對(duì)Arg1抽取性能的影響
相對(duì)于Arg2,論元Arg1的位置比較靈活,實(shí)驗(yàn)中我們將連接詞所在的句子以及前一個(gè)句子作為Arg1的候選空間。表10評(píng)測(cè)了Arg1在不同位置的抽取性能,從結(jié)果來看不同句的論元Arg1抽取性能相對(duì)于同句的低了很多,這導(dǎo)致了Arg1的整體性能在50%左右。此外,可以看出不同實(shí)驗(yàn)設(shè)置下的性能差異主要來源是與連接詞同句的Arg1的性能間的差異。
表10 不同位置的Arg1的抽取性能
按照PDTB的標(biāo)注要求,每個(gè)顯式篇章關(guān)系有一個(gè)篇章連接詞和對(duì)應(yīng)的兩個(gè)論元Arg1和Arg2。為此我們?cè)u(píng)測(cè)了Arg1和Arg2同時(shí)抽取成功的性能。表11給出了不同配置下的抽取性能,并給出了相同配置下Lin等的性能。相對(duì)于GS+noEP配置,GS+EP和Auto+EP配置下論元抽取的F1值分別下降了約3%和5%,最終Auto+EP配置下系統(tǒng)的F1值只有45.13%。分析識(shí)別結(jié)果發(fā)現(xiàn)有些連接詞我們的CRF方法無法提取出對(duì)應(yīng)的論元,這顯然違背了PDTB標(biāo)注要求。我們?cè)趯頊?zhǔn)備嘗試進(jìn)行全局化的學(xué)習(xí),加上這一約束,來提高論元識(shí)別性能。
表11 Arg1 和Arg2同時(shí)抽取正確的性能
表11最后一列給出了Lin等論元抽取性能,與Lin等提出的平臺(tái)對(duì)比,我們的平臺(tái)在Auto+EP環(huán)境下的性能好于他們,主要原因是:Lin等采用的是傳統(tǒng)論元識(shí)別方法,即首先確定論元Arg1與連接詞的位置關(guān)系,然后使用不同策略進(jìn)行Arg1的抽取。顯然論元Arg1位置識(shí)別是否正確將會(huì)嚴(yán)重影響后續(xù)抽取的性能,而他們匯報(bào)的結(jié)果表明,在Auto+EP配置下位置識(shí)別的性能低于90%。因此Lin等論元抽取性能,在Auto+EP配置下相對(duì)于GS+EP配置下降了約12%,而GS+noEP配置與GS+EP配置下的抽取性能僅相差約1%。我們給出的論元抽取方法去除了位置識(shí)別步驟,而直接以連接詞所在語(yǔ)句以及前一語(yǔ)句作為搜索空間來識(shí)別Arg1論元,從而避免了位置判斷的影響。
至此,我們對(duì)每一個(gè)模塊進(jìn)行了細(xì)致的評(píng)測(cè)。最后我們?cè)u(píng)測(cè)了顯式篇章分析平臺(tái)的整體性能,評(píng)測(cè)的依據(jù)是:連接詞正確識(shí)別,其所表述的關(guān)系語(yǔ)義類別識(shí)別正確,并且由連接詞驅(qū)動(dòng)的兩個(gè)論元Arg1和Arg2也精確識(shí)別時(shí),我們認(rèn)為這一顯式關(guān)系分析正確。由于GS+noEP條件下各模塊相互獨(dú)立不存在誤差傳播,所以沒有整體性能這一指標(biāo)。
表12 系統(tǒng)整體性能
從表12中可以看出篇章分析器整體性能無論GS+EP還是Auto+EP性能都不算十分理想。一方面模塊之間存在誤差傳播;另一方面論元Arg1的抽取,尤其是與連接詞不同句的Arg1,相對(duì)困難給整體的性能帶來了很大的影響。我們?cè)谝院蟮墓ぷ鳒?zhǔn)備對(duì)論元抽取進(jìn)一步研究來提高抽取性能。
本文提出了一個(gè)基于條件隨機(jī)場(chǎng)模型的完整的顯式篇章分析器平臺(tái),該平臺(tái)包括連接詞識(shí)別、篇章關(guān)系分類和關(guān)系論元提取三個(gè)子任務(wù)。在PDTB語(yǔ)料基礎(chǔ)上給出了各模塊的實(shí)驗(yàn)結(jié)果,并針對(duì)錯(cuò)誤傳播問題,給出了完整平臺(tái)的性能及詳細(xì)分析。
從實(shí)驗(yàn)結(jié)果來看,論元Arg1的提取性能還有待提高,特別是與連接詞不同句的Arg1提取性能。此外有些連接詞我們CRF方法無法提取出對(duì)應(yīng)的論元,這違背了PDTB標(biāo)注的要求。在未來的工作中,一方面我們嘗試全局化的方法來提高顯式篇章分析的整體性能;另一面我們嘗試將篇章分析應(yīng)用于自動(dòng)文摘、篇章耦合等其他自然語(yǔ)言處理任務(wù)中。
[1] PDTB-Group. The Penn Discourse Treebank 2.0 Annotation Manual[OL]. The PDTB Research Group, 2007.
[2] Bonnie Webber. D-LTAG: Extending lexicalized TAG to discourse[J]. Cognitive Science, 2004,28(5):751-779.
[3] Mitchell P Marcus, Beatrice Santorini, Mary Ann Marcinkiewicz. Building a Large Annotated Corpus of English: the Penn Treebank[J]. Computational Linguistics, 1993,19(2):313-330.
[4] Emily Pitler, Ani Nenkova. Using syntax to disambiguate explicit discourse connectives in text[C]//Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, Singapore,2009.
[5] Ziheng Lin, Hwee Tou Ng, Min-Yen Kan. A PDTB-styled end-to-end discourse parser[C]//Proceedings of the Natural Language Engineering,2012.
[6] Nikhil Dinesh, Alan Lee, Eleni Miltsakaki, et al. Attribution and the (non)-alignment of syntactic and discourse arguments of connectives[C]//Proceedings of the ACL Workshop on Frontiers in Corpus Annotation II: Pie in the Sky, Ann Arbor, MI, USA,2005.
[7] Ben Wellner, James Pustejovsky. Automatically identifying the arguments of discourse connectives[C]//Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL), 2007: 92-101.
[8] Sucheta Ghosh, Richard Johansson, Giuseppe Riccardi, et al. Shallow discourse parsing with conditional random fields[C]//Proceedings of the 5th International Joint Conference on Natural Language Processing (IJCNLP 2011), 2011:1071-1079.
[9] R Prasad, S McRoy, N Frid, et al. The biomedical discourse relation bank[OL]. BMC Bioinformatics, 2011.
[10] Ramesh Balaji, Hong Yu. Identifying discourse connectives in biomedical text[C]//Proceedings of the AMIA Ann Symp Proc, 2010.
[11] Rashmi Prasad, Nikhil Dinesh, Alan Lee, et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation,2008.
A PDTB-Based Automatic Explicit Discourse Parser
LI Sheng, KONG Fang, ZHOU Guodong
(School of Computer Sciences and Technology, Soochow University, Suzhou, Jiangsu 215006, China)
Automatic discourse processing is considered as one of the most challenging NLP tasks which is helpful to many downstream NLP tasks, such as question answering, automatic summary and natural language generation. Recently, the large scale discourse corpus PDTB is made available, which provides a common platform for discourse researchers. On the basis of PDTB corpus, the paper proposes an end-to-end explicit discourse parser with conditional random fields. The parser consists of three components joined in a sequential pipeline architecture, which includes connective classifier, explicit relation classifier and relation argument extractor. We report the performance on each component, and, from error-cascading perspectives, we analyses the parser’s overall performance in detail.
discourse processing; conditional random fields; PDTB
李生(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、篇章分析。E?mail:shengli.ls@aliyun.com孔芳(1977—),博士,副教授,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)、自然語(yǔ)言處理、篇章分析。E?mail:kongfang@suda.edu.cn周國(guó)棟(1967—),博士,教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理、篇章理解。E?mail:gdzhou@suda.edu.cn
1003-0077(2016)02-0018-08
2013-09-09 定稿日期: 2013-12-20
國(guó)家自然科學(xué)基金(61003153,61272257,61273320);國(guó)家863項(xiàng)目(2012AA011102)
TP391
A