丁 彬,孔 芳,李 生,周國棟
(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
篇章是指由一系列連續(xù)的從句、復(fù)句或句群構(gòu)成,傳達(dá)一個(gè)完整信息、前后銜接、語義連貫的語言單位。篇章分析的主要任務(wù)包括研究篇章的內(nèi)在結(jié)構(gòu),理解文本單元間承接的語義關(guān)系等。篇章分析是自然語言領(lǐng)域至關(guān)重要的一部分,對自然語言處理的許多應(yīng)用,例如,問答系統(tǒng)、指代消解和篇章連貫性評價(jià)等有著重要的作用。
近年來,隨著賓州篇章樹庫(Penn Discourse TreeBank, PDTB)的發(fā)布,英文篇章分析越來越受到關(guān)注,許多基于它的研究工作陸續(xù)展開。
本文借鑒PTB和RST英文篇章標(biāo)注體系,選取漢語樹庫(Chinese Treebank, CTB)中的500篇文本進(jìn)行了漢語顯式篇章關(guān)系的標(biāo)注,并基于這一語料分析了詞法和句法特征對漢語顯式篇章關(guān)系的作用。
本文組織結(jié)構(gòu)如下: 第2節(jié)介紹了顯式篇章分析的相關(guān)工作;第3節(jié)介紹了漢語顯式篇章關(guān)系語料;第4節(jié)給出了一個(gè)基于詞法和句法特征的漢語篇章分析平臺(tái),具體介紹了連接詞識(shí)別和篇章語義關(guān)系分類這兩個(gè)子任務(wù)的具體實(shí)現(xiàn);第5節(jié)詳細(xì)分析了實(shí)驗(yàn)結(jié)果;最后總結(jié)全文并指出下一步工作。
隨著PDTB的發(fā)布出現(xiàn)了很多英文篇章關(guān)系分析的相關(guān)研究?;赑DTB語料庫的篇章分析工作主要包括連接詞識(shí)別、論元標(biāo)注、語義關(guān)系的分類以及隱式篇章關(guān)系識(shí)別等。其中顯式篇章關(guān)系研究的代表性工作包括以下幾點(diǎn)。
在連接詞識(shí)別方面,Pitler和Nenkova(2009)使用最大熵模型,第一次將句法方面的特征(這些句法特征已經(jīng)廣泛應(yīng)用于論元分類等任務(wù)中)應(yīng)用到連接詞識(shí)別任務(wù)中。在只有句法特征的情況下,連接詞識(shí)別的F1值達(dá)到了88.19%。在此基礎(chǔ)上,他們將連接詞與句法特征相組合,獲得了94.19%的連接詞識(shí)別F1值。Lin等(2012)在P&N的基礎(chǔ)上新增了詞法特征(包括連接詞的詞性和詞與詞性之間的組合)和兩種句法路徑作為特征。實(shí)驗(yàn)結(jié)果表明詞法特征的加入進(jìn)一步提高了英文連接詞識(shí)別的性能,F(xiàn)1值達(dá)到了95.36%。
在篇章關(guān)系識(shí)別方面,PDTB將篇章關(guān)系分為4大類[1]。P&N使用上述句法特征對英文顯式關(guān)系的語義分類進(jìn)行了研究,在PDTB上使用樸素貝葉斯分類器進(jìn)行10倍交叉驗(yàn)證。實(shí)驗(yàn)結(jié)果表明只有連接詞作為特征時(shí),4類篇章關(guān)系的識(shí)別精度為93.67%。加入句法特征后,識(shí)別精度提高到94.15%。
與英文相比,其他語言或非新聞?lì)I(lǐng)域也有一些相關(guān)研究,典型工作包括: Alsaif和Markert(2011)[2]依照PDTB的標(biāo)注框架對APT(Arabic Penn Treebank)進(jìn)行標(biāo)注,并在此基礎(chǔ)上研究阿拉伯語篇章中顯式連接詞的自動(dòng)識(shí)別和篇章關(guān)系的分類。其中連接詞識(shí)別的精度達(dá)到了92.4%。Ramesh等(2010)研究了在PDTB和生物語料庫(BioDRB)上連接詞識(shí)別的差異。他們使用條件隨機(jī)場模型(CRFs)在PDTB上訓(xùn)練分類器,在PDTB和生物語料庫上測試的F1值分別為84%和55%。在生物語料上進(jìn)行交叉驗(yàn)證的F1值達(dá)到了69%。
相比之下,對漢語顯式篇章關(guān)系的研究相對較少,這主要是因?yàn)槿狈h語篇章級別語料。我們依照PDTB框架[3],選取500篇CTB文本進(jìn)行了顯式篇章關(guān)系的標(biāo)注。漢語表達(dá)形式多樣,篇章連接詞的構(gòu)成比英文復(fù)雜,這都給漢語顯式關(guān)系分析造成了一定的困難。本文使用最大熵模型,結(jié)合詞法、句法等特征,構(gòu)建了漢語顯式篇章關(guān)系分析平臺(tái),并通過實(shí)驗(yàn)分析了漢語篇章關(guān)系的復(fù)雜性。
目前可供研究的英文語料庫主要有RST Discourse Treebank(RST-DT)和PDTB。RST-DT由美國南加利福尼亞大學(xué)和華盛頓國防部聯(lián)合標(biāo)注,2002年由LDC(Linguistic Data Consortium)發(fā)布。它先利用RST-Tool工具對文本進(jìn)行預(yù)標(biāo)注,主要包括文本的切割(生成小句)和初始修辭關(guān)系的生成,然后人工驗(yàn)證預(yù)標(biāo)注的結(jié)果,判斷文本的切分是否正確,并為功能語句對標(biāo)注一個(gè)可能性最大的修辭關(guān)系。
PDTB由LDC于2008年發(fā)布,是目前規(guī)模最大的英文篇章級別的語料庫。PDTB共標(biāo)注了以下幾種類型: (1)顯式和隱式關(guān)系連接詞;(2)Alternative Lexicalization(AltLex);(3)Entity-based Coherence Relation(EntRel);(4)No Relation(NoRel)。PDTB還定義了一個(gè)三級層次的語義結(jié)構(gòu),第1層包括Temporal、Contingency、Comparison和Expansion 4類語義,第2層包括16類語義,第3層包括23類語義。
與英文相比,漢語表達(dá)上更具多樣性。參考RST理論,借鑒PDTB體系,我們選取漢語樹庫(Chinese Treebank,CTB)中的500篇新聞文本進(jìn)行了漢語顯式篇章關(guān)系的標(biāo)注,共標(biāo)注了1 690個(gè)顯式關(guān)系,標(biāo)注內(nèi)容主要包括連接詞及其驅(qū)動(dòng)的篇章關(guān)系的類別。
與英文PDTB體系類似,我們將漢語連接詞也限定在某一范圍內(nèi),設(shè)定了258個(gè)詞構(gòu)成的連接詞列表,并根據(jù)這些連接詞在詞語構(gòu)成及語義表達(dá)上的主次關(guān)系選定了其對應(yīng)的中心詞,最終形成了180個(gè)連接詞中心詞列表。
在篇章關(guān)系方面,我們標(biāo)注了4大類關(guān)系: 因果類、并列類、轉(zhuǎn)折類和解說類。每一類細(xì)分了具體的關(guān)系小類,共17個(gè)。漢語篇章關(guān)系的劃分如表1所示。
表1 漢語篇章關(guān)系的劃分
接著我們以漢語中出現(xiàn)頻度較高的連接詞“而”為例介紹漢語顯式篇章關(guān)系的標(biāo)注。表2給出的6個(gè)例子均摘自CTB語料,我們可以看到,句1中“而”作為連接詞,表述的是轉(zhuǎn)折關(guān)系;但在句2中“而”并不承擔(dān)連接詞角色。此外,“而”作為連接詞,不僅可以表述轉(zhuǎn)折關(guān)系,還可以表述其它語義關(guān)系。在例句3—5中的連接詞“而”表述的語義關(guān)系分別為: 遞進(jìn)關(guān)系、因果關(guān)系和例證關(guān)系。此外例句6中,“不……而”承擔(dān)了篇章連接詞的角色,但就連接詞構(gòu)成成分及其表述的語義關(guān)系看,“而”是這一連接詞的中心詞。
表2 連接詞及其語義關(guān)系示例
漢語表達(dá)形式多樣,本節(jié)結(jié)合漢語特點(diǎn)給出了一個(gè)漢語顯式篇章關(guān)系分析平臺(tái),由篇章連接詞識(shí)別和篇章關(guān)系分類兩部分構(gòu)成。
篇章連接詞通常用來顯式地表述基本文本單元之間承接的篇章關(guān)系。與英文類似,漢語中連接詞候選也存在是否承擔(dān)了篇章連接詞角色的歧義。例如,表3給出的示例,就連接詞候選“和”而言,例句1中的“和”承擔(dān)了篇章連接詞角色,表述的是并列關(guān)系,而例句2中的“和”并不是篇章連接詞。所謂篇章連接詞識(shí)別,正是針對連接詞候選的這種歧義展開,主要任務(wù)就是確定連接詞候選是否承擔(dān)了篇章連接詞的角色。
表3 連接詞候選是否承擔(dān)篇章連接詞角色的歧義示例
本文將連接詞識(shí)別看作一個(gè)二元分類問題,首先根據(jù)語料標(biāo)注中預(yù)定義的180個(gè)連接詞的中心詞列表獲取連接詞候選集,再針對每一連接詞候選來選取特定的上下文特征,使用最大熵方法進(jìn)行訓(xùn)練和預(yù)測[4]。
我們考慮的上下文特征主要包括詞法和句法兩方面。詞法特征主要描述連接詞及其所處的上下文詞匯集的信息,而句法特征主要基于句法分析的結(jié)果獲取連接詞所在位置的句法信息[5]。此外我們還考慮了連接詞與句法特征的組合以及多種句法特征間的組合信息。以表2中的句1為例,表4給出了連接詞識(shí)別模塊所使用的特征集,及其詳細(xì)描述和取值情況。圖1給出的是該例句中連接詞候選“而”所處上下文的部分標(biāo)準(zhǔn)句法樹。
表4 特征集及其對應(yīng)的描述
圖1 表2示例中例句1對應(yīng)的標(biāo)準(zhǔn)句法樹
通常連接詞在篇章中表述某個(gè)特定的語義關(guān)系,例如,“并且”承擔(dān)連接詞角色時(shí),一般用來表述并列關(guān)系。但一些連接詞在表述篇章關(guān)系時(shí)也存在語義上的歧義。例如,表5中給出的兩個(gè)例句,“對此”都承擔(dān)了篇章連接詞角色,但例句1中的“對此”表述的是因果關(guān)系,而例句2中的“對此”則表述了一個(gè)評價(jià)關(guān)系。篇章關(guān)系分類主要完成的工作是,根據(jù)連接詞及其所處的上下文判定其所表述的語義類別。
表5 篇章關(guān)系語義類別示例
本文將篇章關(guān)系識(shí)別看作一個(gè)多元分類問題。與連接詞識(shí)別類似,我們針對每個(gè)連接詞選定特定的上下文特征,再借助最大熵模型訓(xùn)練、判別連接詞所表述的具體語義關(guān)系。由于顯式關(guān)系是由篇章連接詞驅(qū)動(dòng)的,因此我們采用的特征包括詞和它的詞性。
構(gòu)建了漢語顯式篇章關(guān)系分析平臺(tái)后,我們進(jìn)行了實(shí)驗(yàn)驗(yàn)證。為了有效利用語料,我們采用10倍交叉驗(yàn)證的方法進(jìn)行后續(xù)實(shí)驗(yàn)。實(shí)驗(yàn)中最大熵模型采用OpenNLP提供的maxent工具包*http://maxent.sourceforge.net/,參數(shù)均使用默認(rèn)選項(xiàng)。標(biāo)準(zhǔn)句法樹選自CTB,自動(dòng)句法樹使用Berkeley句法分析器*http://code.google.com/p/berkeleyparser/獲得(使用完全正確的分詞)。評測指標(biāo)方面我們采用標(biāo)準(zhǔn)的準(zhǔn)確率(Precision)、召回率(Recall)和F1值。
本文采用了3類特征對連接詞進(jìn)行識(shí)別,表6給出了標(biāo)準(zhǔn)句法樹下各類特征的貢獻(xiàn)度。從表中可以看出只使用詞法特征,連接詞識(shí)別的F1值達(dá)到了65.9%。進(jìn)一步考慮句法和組合特征,系統(tǒng)性能都有所提高。
表6 標(biāo)準(zhǔn)句法樹下各類特征的貢獻(xiàn)度
表7給出了標(biāo)準(zhǔn)句法樹和berkeley句法樹下漢語篇章連接詞識(shí)別的性能。我們可以發(fā)現(xiàn)篇章連接詞識(shí)別的性能相差極小,即漢語篇章連接詞識(shí)別性能對句法分析的性能好壞的依賴度較小*實(shí)際上這一結(jié)論與英文篇章連接詞識(shí)別的研究一致。英文中自動(dòng)句法分析對連接詞識(shí)別F1性能的影響小于2%。。
表7 連接詞識(shí)別的性能
與英文連接詞識(shí)別的性能相比,漢語連接詞識(shí)別性能比較低。為此我們對180個(gè)中心詞在語料中的分布情況進(jìn)行了統(tǒng)計(jì),其中有76個(gè)中心詞在標(biāo)注的顯式關(guān)系中只出現(xiàn)了一次。我們對這76個(gè)中心詞的識(shí)別情況進(jìn)行了驗(yàn)證,發(fā)現(xiàn)由于訓(xùn)練實(shí)例較少,只有極少數(shù)被識(shí)別正確*訓(xùn)練、測試集中去除這部分連接詞候選后,系統(tǒng)F1值提升了0.5%,但不能通過顯著性測試。。
由于顯式篇章關(guān)系是由連接詞驅(qū)動(dòng)的,連接詞在篇章關(guān)系語義類別的表述上起著關(guān)鍵性的作用。表8給出了語料庫中標(biāo)注的1 690個(gè)顯式關(guān)系在4大類上的分布情況,從中可以看到,并列關(guān)系比重最高,占到了一半以上,轉(zhuǎn)折和解說類關(guān)系比重相對較低。
表8 語義類別的分布情況
我們采用詞和詞性作特征進(jìn)行實(shí)驗(yàn),表9給出漢語顯式關(guān)系語義分類的性能。從實(shí)驗(yàn)結(jié)果可以看出,與英文顯式關(guān)系類似,漢語顯式關(guān)系的語義類別與連接詞有很強(qiáng)的依賴,即確定了篇章連接詞后,其語義一般沒有歧義。
表9 漢語顯式關(guān)系語義分類的性能
所有的連接詞中,部分連接詞在標(biāo)注的語料庫中出現(xiàn)的次數(shù)相對較多。從表10中我們可以看到,“并”、“其中”和“還”絕大多數(shù)實(shí)例都?xì)w為一類,構(gòu)造出的分類器也確實(shí)將其歸為了比重最高的一類。對于“而”,它的歧義最多,它在標(biāo)注的語料中出現(xiàn)了81次,其中57次被標(biāo)為并列類,約占70.37%,分析實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),我們的分類系統(tǒng)將它也均歸為了并列類,其分類性能的F1值為82.61%。
表10 出現(xiàn)頻度較高(>50次)、有歧義的連接詞的語義分布
借鑒英文PDTB和RST語料,我們選取500篇CTB文本進(jìn)行了漢語顯式篇章關(guān)系的標(biāo)注,基于這一語料構(gòu)建了一個(gè)漢語顯式篇章關(guān)系分析平臺(tái),并給出了實(shí)驗(yàn)結(jié)果及分析。為漢語篇章關(guān)系的分析奠定了良好的基礎(chǔ)。但從實(shí)驗(yàn)結(jié)果看,與英文顯式篇章關(guān)系分析相比,漢語篇章連接詞識(shí)別的性能偏低。對此我們將嘗試尋找新的符合漢語語言特性的特征,來提高漢語顯式關(guān)系分析的性能。另一方面還將考慮利用漢語語料中標(biāo)注的隱式關(guān)系,來輔助漢語顯式關(guān)系的分析。
[1] Rashmi Prasad, Nikhil Dinesh, Alan Lee, et al. The Penn Discourse Treebank 2.0[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation (LREC 2008),2008: 2961-2968.
[2] Alsaif A, Markert K. Modelling discourse relations for Arabic[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2011: 736-747.
[3] Xue N. Annotating discourse connectives in the chinese treebank[C]//Proceedings of the Workshop on Frontiers in Corpus Annotations II: Pie in the Sky. Association for Computational Linguistics, 2005: 84-91.
[4] Berger A L, Pietra V J D, Pietra S A D. A maximum entropy approach to natural language processing[J]. Computational linguistics, 1996, 22(1): 39-71.
[5] PDTB-Group. The Penn Discourse Treebank 2.0 Annotation Manual[OL]. The PDTB Research Group.2007.
[6] Emily Pitler, Ani Nenkova. Using syntax to disambiguate explicit discourse connectives in text[C]//Proceedings of the ACL-IJCNLP Conference Short Papers, Singapore, 2009.
[7] Ziheng Lin, Hwee Tou Ng, Min-Yen Kan. A PDTB-styled end-to-end discourse parser[J]. Natural Language Engineering. 2012,1(1):1-35.
[8] Ramesh Balaji, Hong Yu. Identifying discourse connectives in biomedical text[C]//Proceedings of AMIA Ann Symp Proc 2010:657-661.