周 強(qiáng),周驍聰
(1. 清華信息科學(xué)與技術(shù)國(guó)家實(shí)驗(yàn)室(籌);2. 清華大學(xué) 信息技術(shù)研究院語(yǔ)音和語(yǔ)言技術(shù)中心,北京 100084)
對(duì)語(yǔ)篇內(nèi)容的分析計(jì)算是自然語(yǔ)言理解研究的核心課題。經(jīng)過50多年的發(fā)展,它在英語(yǔ)、德語(yǔ)等西方語(yǔ)言的篇章描述語(yǔ)料庫(kù)構(gòu)建和篇章分析技術(shù)方面已經(jīng)取得了長(zhǎng)足的進(jìn)步[1],開始在文本摘要、信息檢索、機(jī)器翻譯、情感分析和文本質(zhì)量評(píng)估方面顯示出重要的應(yīng)用潛力[2]。而在漢語(yǔ)等東方語(yǔ)言的篇章描述和分析理解方面還很薄弱,有許多研究空白亟待開拓和探索。
在篇章理解方面,修辭結(jié)構(gòu)理論(Rhetorical Structure Theory,RST)[3]描述了篇章整體組織特點(diǎn),主要強(qiáng)調(diào)句子之間各種連貫關(guān)系的分析在篇章理解中的重要作用。以RST為基礎(chǔ),Marcu et al.構(gòu)建了英語(yǔ)篇章標(biāo)注庫(kù)RST-DT,以篇章中的小句為基本單位,自底向上組合形成二叉或多叉的修辭結(jié)構(gòu)樹,形成對(duì)篇章意義的整體描述[4]。該成果推動(dòng)了以基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)模型為主的RST自動(dòng)篇章分析器的開發(fā)研究[5]。
賓州話語(yǔ)樹庫(kù)PDTB(Penn Discourse Teebank)[6]則選擇篇章連接詞作為“元”謂詞,通過分析和標(biāo)注它所控制的兩個(gè)句子論元,形成對(duì)這兩個(gè)句子形成的篇章片段連貫性的初步理解。針對(duì)真實(shí)文本中大量存在的連接詞缺失現(xiàn)象,又設(shè)計(jì)了多層次標(biāo)記和多重特征相結(jié)合的描述機(jī)制。在此標(biāo)注庫(kù)上進(jìn)行的評(píng)測(cè)實(shí)驗(yàn)結(jié)果顯示[7],隱式連接詞發(fā)現(xiàn)和相應(yīng)關(guān)系標(biāo)記識(shí)別[8]是主要分析難點(diǎn),具有很大的技術(shù)挑戰(zhàn)性。
針對(duì)英語(yǔ)篇章語(yǔ)境中某些事件核心塊的省略和缺失現(xiàn)象,Rappenhofer et al.設(shè)計(jì)了SemEval-2010評(píng)測(cè)任務(wù),手工標(biāo)注了兩篇小說體裁篇章中的所有事件缺失塊及其在篇章語(yǔ)境中可能的共指成分[9]。相關(guān)的進(jìn)一步研究工作表明[10],對(duì)這個(gè)問題的分析研究還有很大的發(fā)展?jié)摿ΑA硪豁?xiàng)重要評(píng)測(cè)是在CoNLL-2011中提出的指代消解評(píng)測(cè)任務(wù)[11],希望能充分利用最新發(fā)布的OntoNotes庫(kù)[12]中同步標(biāo)注的句法、命題、詞義、命名實(shí)體和共指信息,提升自動(dòng)指代消解系統(tǒng)的處理性能。評(píng)測(cè)結(jié)果顯示[11],要達(dá)到各層次標(biāo)注信息互動(dòng)提高的處理效果,還需要在學(xué)習(xí)建模技術(shù)上有新的創(chuàng)新。
以上研究工作從兩個(gè)不同途徑探索了語(yǔ)篇連貫性(coherence)的描述方法: 一類是基于關(guān)系的連貫,包括針對(duì)篇章整體的RST結(jié)構(gòu)分析和針對(duì)篇章片段的PDTB分析。他們強(qiáng)調(diào)了對(duì)篇章中通過顯式和隱式關(guān)聯(lián)標(biāo)記體現(xiàn)出來(lái)的連貫關(guān)系的分析和把握;另一類是基于實(shí)體的連貫,包括SemEval-2010任務(wù)中設(shè)計(jì)的隱含角色鏈和OntoNotes中標(biāo)注的實(shí)體提及(mention)鏈。他們強(qiáng)調(diào)了對(duì)篇章中通過不同形式的指代引用關(guān)系體現(xiàn)出來(lái)的連貫片段的分析和把握。雖然兩者的研究對(duì)象和處理方法各不相同,但從總體上可以歸入Halliday 和Hasan 提出的廣義語(yǔ)篇連貫性描述框架[13]中的連貫和銜接(cohesion)兩個(gè)不同描述手段上。相對(duì)而言,英語(yǔ)語(yǔ)篇研究學(xué)者更關(guān)注從基于語(yǔ)義的修辭關(guān)系角度分析語(yǔ)篇的連貫性。
與英語(yǔ)相比,漢語(yǔ)篇章中的各種意義銜接手段的使用更為豐富靈活。漢語(yǔ)句子之間的意義連接一般很少或不使用關(guān)聯(lián)詞語(yǔ),各個(gè)相鄰小句之間的核心角色承前和蒙后省略現(xiàn)象非常普遍,各個(gè)小句和句子之間完全通過其中的事件轉(zhuǎn)承變化關(guān)系連接起來(lái)。考慮下面幾個(gè)真實(shí)文本漢語(yǔ)句子描述實(shí)例:
(1) 供大于求,價(jià)格未能上揚(yáng)。
(2) 你們年紀(jì)還小,(s1)還要成家立業(yè),(s2)不要虛度年華,(s3)更不要成為社會(huì)討厭的人。
(3) 她穿上那件舊花襖,(s1)走出窯來(lái),(s2)解下門扇上的鐵鏈子,(s3)撥開了門閂。
(4) 我無(wú)意中碰到了身邊的一個(gè)什么東西,(s1)伸手一摸(o1),(s2)是他給我開的飯,兩個(gè)干硬的饅頭。
其中例句(1)描述了無(wú)標(biāo)記的因果關(guān)系,兩個(gè)小句描述的事件之間的因果聯(lián)系需要通過使用經(jīng)濟(jì)學(xué)常識(shí)推理得到。例句(2)隱含了一個(gè)勸誡性因果關(guān)系: 因?yàn)?你們年紀(jì)還小,…立業(yè)),所以(不要虛度年華,…的人);同時(shí),后面三個(gè)小句的核心主語(yǔ)也承前省略,形成隱含角色共指鏈: 你們—s1—s2—s3。例句(3)描述了漢語(yǔ)中典型的時(shí)序連貫關(guān)系,順序發(fā)生的多個(gè)動(dòng)作的主體承前省略,形成類似上句的隱含角色共指鏈。例句(4)的情況更為復(fù)雜,各個(gè)小句存在著多個(gè)核心角色承前蒙后省略隱含情況,但是通過考慮各個(gè)小句之間的不同事件關(guān)系: 小句1-2之間為連貫,小句3-4之間為解注,小句1-2和3-4組合之間為解注,還是可以計(jì)算推導(dǎo)出可能的隱含角色共指鏈: 我—s1,東西—o1—s2—饅頭。漢語(yǔ)的這種簡(jiǎn)潔靈活的意合型篇章組合結(jié)構(gòu),對(duì)于人們?nèi)粘@斫饨涣鳑]有任何困難,但對(duì)漢語(yǔ)篇章連貫性描述計(jì)算模型則提出了很大的挑戰(zhàn)。
本文希望通過挖掘漢語(yǔ)語(yǔ)篇中的各種有效連貫描述形式,分析它們與不同連貫描述內(nèi)容之間的內(nèi)在聯(lián)系,在建立形式和內(nèi)容相結(jié)合的漢語(yǔ)連貫性描述體系方面進(jìn)行初步探索。在第2節(jié)中,我們首先對(duì)國(guó)內(nèi)外的相關(guān)研究工作進(jìn)行分析梳理;第3節(jié)提出我們的解決方案;第4節(jié)進(jìn)行初步的實(shí)驗(yàn)驗(yàn)證;第5節(jié)給出相關(guān)結(jié)論分析。
近年來(lái),通過引進(jìn)和吸收英語(yǔ)方面的篇章分析理論,在基于關(guān)系的漢語(yǔ)語(yǔ)篇的分析標(biāo)注方面研究人員進(jìn)行了許多有益的探索。樂明基于RST開發(fā)了一個(gè)針對(duì)漢語(yǔ)財(cái)經(jīng)評(píng)論文章的標(biāo)注庫(kù),加工規(guī)模為97個(gè)篇章[14]。Zhou針對(duì)漢語(yǔ)句子連接詞語(yǔ)缺乏的描述現(xiàn)狀,對(duì)PDTB體系中的顯性和隱性連接詞語(yǔ)區(qū)分標(biāo)注方法進(jìn)行了大幅度調(diào)整,直接在相鄰句子片段中標(biāo)注PDTB中定義的各種連貫關(guān)系,取得了較好的實(shí)驗(yàn)效果[15]。張牧宇等在PDTB體系上進(jìn)行適當(dāng)改良,提出了面向中文的層次化篇章關(guān)系體系,對(duì)大規(guī)模的漢語(yǔ)新聞?wù)Z料進(jìn)行了語(yǔ)篇關(guān)系標(biāo)注實(shí)驗(yàn)[16]。這些工作初步證實(shí)了基于關(guān)系的連貫描述在漢語(yǔ)語(yǔ)篇分析標(biāo)注中的可行性。
從20世紀(jì)80年代開始,許多語(yǔ)言學(xué)家也開始從不同角度關(guān)注漢語(yǔ)語(yǔ)篇的分析研究。廖秋忠(1992)對(duì)漢語(yǔ)語(yǔ)篇中的時(shí)空表示、指代成分、指同表達(dá)、連接成分、管界問題、論證結(jié)構(gòu)等進(jìn)行了許多開拓性的研究[17]。邢福義對(duì)漢語(yǔ)復(fù)句問題進(jìn)行了深入研究,提出了因果、并列、轉(zhuǎn)折三分的復(fù)句描述體系,并對(duì)每個(gè)類別下的常用關(guān)聯(lián)詞語(yǔ)的描述特點(diǎn)進(jìn)行了深入分析[19]。另外,吳為章,田小琳對(duì)漢語(yǔ)句群內(nèi)部組合結(jié)構(gòu)的分析[18],徐赳赳對(duì)漢語(yǔ)語(yǔ)篇中的零形回指、代詞回指、名詞回指和聯(lián)想回指等多種指代描述形式內(nèi)部關(guān)系的深入分析[20],也可以為我們提供許多有益的借鑒。
與篇章理解相關(guān)的另一項(xiàng)重要工作是語(yǔ)言學(xué)家對(duì)漢語(yǔ)話題和話題鏈的深入探索。在漢語(yǔ)研究方面,趙元任最先將話題(Topic)引入漢語(yǔ)結(jié)構(gòu)分析研究中[21],他使用了“話題”和“說明”(Comment)這對(duì)概念來(lái)解釋漢語(yǔ)的主語(yǔ)和謂語(yǔ)結(jié)構(gòu)。Li 和 Thompson進(jìn)一步總結(jié)了漢語(yǔ)的話題凸顯語(yǔ)言描述特點(diǎn)[22]。曹逢甫則強(qiáng)調(diào)了話題的篇章本性[23]。在漢語(yǔ)篇章中,話題的語(yǔ)義范圍可以延伸到小句之外,控制相關(guān)話題的代詞化和省略形式。漢語(yǔ)話題的這種篇章銜接作用在話題鏈結(jié)構(gòu)中得到了很好的體現(xiàn)。曹逢甫最早提出了漢語(yǔ)話題鏈(Topic Chain)的概念[24],細(xì)致地分析了話題在控制小句連接方面的作用。話題鏈的形成主要依賴各種指代回指(anaphor)形式,即零形回指(Zero Anaphor, ZA)、代詞回指(Pronoun Anaphora, PA)和名詞回指(Nominal Anaphor, NA)的選擇方法。曲承熹總結(jié)了前人的研究成果,提出了以下操作性較強(qiáng)的話題鏈定義“一組以零回指ZA形式的話題連接起來(lái)的小句”[25]。
話題鏈分析中另一個(gè)需要關(guān)注的是觀察者視域(perspective)問題。復(fù)雜語(yǔ)篇中往往會(huì)出現(xiàn)多個(gè)視域交叉的情況。其中有的視域只與個(gè)別的段落、句子發(fā)生關(guān)系,有的視域卻影響到了整個(gè)篇章的結(jié)構(gòu)。劉大為初步總結(jié)了兩類進(jìn)行視域描述的動(dòng)詞: 言說動(dòng)詞(說、告訴、講解、講述、宣稱等)和意向動(dòng)詞(認(rèn)為、相信、知道、希望、喜歡、害怕等)[26]。楊彬進(jìn)一步總結(jié)形成了漢語(yǔ)中常用的言說動(dòng)詞和意向動(dòng)詞表[27]。通過對(duì)真實(shí)文本句子中這些動(dòng)詞的管界內(nèi)容[28]的深入分析,可以對(duì)語(yǔ)篇中描述的不同視域中的不同事件內(nèi)容進(jìn)行有序組織。
盡管許多語(yǔ)言學(xué)家都強(qiáng)調(diào)了話題鏈對(duì)漢語(yǔ)語(yǔ)篇描述的獨(dú)特作用,近年來(lái)的深入研究也發(fā)現(xiàn)英語(yǔ)中實(shí)際上也存在類似漢語(yǔ)話題鏈的篇章組織結(jié)構(gòu)。孫坤對(duì)英漢篇章組織模式進(jìn)行了對(duì)比研究[29]。王建國(guó)把話題鏈的描述作用從句子拓展到超句(句群)和篇章,重新定義話題鏈為“由同一話題引導(dǎo)的系列語(yǔ)句”,并深入分析了話題鏈在漢英語(yǔ)篇中的不同描述特點(diǎn)[30]。劉禮進(jìn)使用人工標(biāo)注的小規(guī)模漢英篇章對(duì)比語(yǔ)料庫(kù),深入分析了話題鏈在漢英篇章的宏觀語(yǔ)義結(jié)構(gòu)描述功能上的差異情況[31]。
在漢語(yǔ)語(yǔ)篇結(jié)構(gòu)的計(jì)算分析研究方面,舒江波以邢福義提出的復(fù)句理論為指導(dǎo),對(duì)漢語(yǔ)復(fù)句關(guān)聯(lián)詞的自動(dòng)識(shí)別方法進(jìn)行了研究和探索[32]。宋柔提出了漢語(yǔ)廣義話題結(jié)構(gòu)模型,從標(biāo)點(diǎn)句入手分析了漢語(yǔ)句子相鄰小句片段中的話題隱現(xiàn)情況,總結(jié)出了若干有效的基于堆棧結(jié)構(gòu)的回指話題恢復(fù)策略[33]。張明堯提出了基于事件鏈的篇章語(yǔ)義表示模型,通過對(duì)篇章中共指實(shí)體鏈的分析標(biāo)注,自動(dòng)識(shí)別這些共指實(shí)體相關(guān)的事件鏈,初步構(gòu)建了基于事件鏈的篇章連貫性計(jì)算模型[34]。
通過對(duì)以上漢語(yǔ)語(yǔ)篇研究工作的簡(jiǎn)單綜述,我們發(fā)現(xiàn): 1)以修辭關(guān)系描述為主體的RST可以很好地分析和標(biāo)注漢英語(yǔ)篇的語(yǔ)義結(jié)構(gòu)和交際功能,其開放關(guān)系標(biāo)記集的設(shè)計(jì)理念使它更適合于篇章結(jié)構(gòu)生成的研究,而形式描述手段的缺乏則制約了它在語(yǔ)篇連貫性分析計(jì)算方面的應(yīng)用潛力;2) PDTB選擇的關(guān)聯(lián)詞語(yǔ)描述切入點(diǎn)很好地解決了連貫形式和內(nèi)容的結(jié)合問題,語(yǔ)言學(xué)家在漢語(yǔ)復(fù)句和句群研究中積累的豐富關(guān)聯(lián)詞語(yǔ)描述信息可以與PDTB模型形成內(nèi)容銜接,但漢語(yǔ)真實(shí)文本中關(guān)聯(lián)詞語(yǔ)使用范圍狹窄的現(xiàn)狀限制了這種描述體系在漢語(yǔ)語(yǔ)篇分析中的應(yīng)用效果;3) 理論語(yǔ)言學(xué)家對(duì)漢語(yǔ)話題鏈的深入研究,已初步形成了一套可操作的漢語(yǔ)語(yǔ)篇連貫性描述框架。計(jì)算語(yǔ)言學(xué)家在漢語(yǔ)廣義話題結(jié)構(gòu)分析和實(shí)體鏈、事件鏈上的計(jì)算探索又初步證明了其可計(jì)算性。把它引入漢語(yǔ)語(yǔ)篇連貫性分析計(jì)算模型中,應(yīng)該可以為相關(guān)模型的改進(jìn)和完善提供新的活力。
基于以上幾點(diǎn)考慮,我們希望能把話題鏈引入漢語(yǔ)語(yǔ)篇連貫性描述體系中,形成一套以話題鏈為主,融合關(guān)聯(lián)詞語(yǔ)和其他連貫形式描述機(jī)制,重構(gòu)現(xiàn)有連貫關(guān)系描述集。
傳統(tǒng)的語(yǔ)篇研究對(duì)象包括書面文本和口語(yǔ)對(duì)話兩大部分。我們的研究對(duì)象則主要集中在其中的書面文本部分,重點(diǎn)探索對(duì)新聞、學(xué)術(shù)、文學(xué)和應(yīng)用等體裁的敘事、說明、描寫等類型文本中的事件情景連貫特征的分析計(jì)算問題。
這里定義的EDC,基本上與宋柔定義的標(biāo)點(diǎn)句相當(dāng),主要差別在于我們的EDC包含了由逗號(hào)分隔的體詞性并列成分,以避免相應(yīng)的不完整標(biāo)點(diǎn)句對(duì)后續(xù)的篇章結(jié)構(gòu)分析的影響。從描述內(nèi)容上看,EDC大部分又都可以歸入沈家煊定義的“零句”形式[35],其中通過標(biāo)點(diǎn)劃分出的話題和狀語(yǔ)從句部分,可以很好地融入后續(xù)的連貫性分析計(jì)算框架中。
為便于后續(xù)的計(jì)算處理,進(jìn)一步引入下面兩個(gè)中間處理層次: 1)事件句式(Event Construction, EC),把它作為EDC中描述基本事件內(nèi)容的句法語(yǔ)義鏈接(Syntax-Semantics Linking, SSL)結(jié)合體。其中融合了淺層的主狀謂賓補(bǔ)等句法功能結(jié)構(gòu)和深層的謂詞論元結(jié)構(gòu)(Predicate-Argument Structure, PAS)[36]。雖然大多數(shù)簡(jiǎn)單EDC中只包含一個(gè)EC,但漢語(yǔ)真實(shí)文本小句中也存在許多復(fù)雜的EDC組合,其中的多個(gè)EC會(huì)形成并列、連謂、兼語(yǔ)、述結(jié)、定語(yǔ)從句嵌套等復(fù)雜結(jié)構(gòu)關(guān)系,與“小句句子”的組合關(guān)系有很強(qiáng)的相似性。因此,我們把它們作為語(yǔ)篇連貫性分析的基本單元;2) 句群(Sentence Group, SG),是漢語(yǔ)段落中多個(gè)句子組合形成的針對(duì)同一話題展開的、前后銜接、語(yǔ)義連貫、具有一定交際目的和功能的篇章描述單元。它們基本上與漢語(yǔ)語(yǔ)言學(xué)家定義的“句群”概念相當(dāng),只是更強(qiáng)調(diào)了句群片段描述意義的內(nèi)部完整性和外部功能性。它們可以作為句子到段落分析的中間計(jì)算單元。
這樣,就可以把本文關(guān)注的漢語(yǔ)語(yǔ)篇連貫性描述體系分為以下處理階段: 1)“事件句式小句句子”;2) “句子句群段落”。每個(gè)階段的連貫性分析描述又有不同側(cè)重點(diǎn):
為此,我們從前人的研究成果中,提煉出了如下幾種漢語(yǔ)連貫描述形式: 1) 話題鏈;2) 關(guān)聯(lián)詞語(yǔ);3) 其他連貫形式。并以此為基礎(chǔ),構(gòu)建了我們的連貫關(guān)系描述體系。下面對(duì)相關(guān)內(nèi)容進(jìn)行簡(jiǎn)要說明。
1) 話題鏈: 主要作用是連接各個(gè)小句或句子。綜合曲承熹和王建國(guó)的研究成果,我們提出了論文中使用的話題鏈概念的操作性定義: 一組以ZA、PA或NA形式的話題連接起來(lái)的小句或句子。在句子內(nèi)部的各個(gè)小句之間形成的話題鏈,主要以ZA形式表示。而在句群內(nèi)部的各個(gè)句子之間,則更多地會(huì)采用PA或NA形式。由于鏈?zhǔn)自掝}的不同導(dǎo)入方式,句子或句群內(nèi)部的話題鏈會(huì)形成不同的內(nèi)部結(jié)構(gòu),它們可以為不同的修辭關(guān)系內(nèi)容解釋提供真實(shí)理?yè)?jù)支撐[25]。
2) 關(guān)聯(lián)詞語(yǔ): 主要作用是連接各個(gè)小句或句子,同時(shí)顯性標(biāo)識(shí)其可能的修辭關(guān)系。因此在許多漢語(yǔ)真實(shí)文本句子中,關(guān)聯(lián)詞語(yǔ)會(huì)與話題鏈同時(shí)出現(xiàn),用于凸顯話題鏈中描述的各個(gè)小句片段之間需要強(qiáng)調(diào)的修辭關(guān)系,特別是在話題鏈中描述的信息違反常規(guī)的后景到前景的變化流程時(shí)。
3) 其他連貫形式: 主要作用是提供話題鏈和關(guān)聯(lián)詞語(yǔ)之外的其他連貫性判據(jù),包括:
a 實(shí)體鏈: 將漢語(yǔ)小句或句子中話題位置之外的其他具有共指關(guān)系的實(shí)體成分連接起來(lái)的共指實(shí)例鏈,類似張明堯中定義的實(shí)體鏈,顯示小句和句子描述內(nèi)容之間的實(shí)體銜接關(guān)系;
b 平行結(jié)構(gòu): 多個(gè)內(nèi)部結(jié)構(gòu)相似的小句或句子并置在一起,體現(xiàn)其描述內(nèi)容之間的對(duì)等或?qū)Ρ汝P(guān)系,一般使用頓號(hào)、逗號(hào)或分號(hào)等點(diǎn)號(hào)來(lái)分隔;
c 謂詞組合: 通過謂詞所帶的“了、著、過”等體標(biāo)記的不同反映相應(yīng)謂詞小句之間的前后景關(guān)系[25]。例如,持續(xù)體標(biāo)記“-著”一般表示后景事件,而完成體標(biāo)記“—了”則大多標(biāo)識(shí)前景事件。
在以上幾種連貫形式中,我們認(rèn)為話題鏈和關(guān)聯(lián)詞語(yǔ)是漢語(yǔ)語(yǔ)篇中使用的主要連貫形式,它們是建構(gòu)漢語(yǔ)連貫性描述體系的基礎(chǔ)。而其他連貫形式則是輔助性的,它們通過與話題鏈和關(guān)聯(lián)詞形式配合使用或單獨(dú)使用,凸顯某些特殊的連貫表示結(jié)構(gòu)。
以此為基礎(chǔ),我們重新建構(gòu)了新的連貫內(nèi)容描述體系。它包括4大修辭關(guān)系描述: 1) 話題評(píng)述關(guān)系;2) 廣義并列關(guān)系;3) 廣義因果關(guān)系;4) 廣義轉(zhuǎn)折關(guān)系。其中話題評(píng)述關(guān)系主要對(duì)應(yīng)于話題鏈形式,通過設(shè)置不同內(nèi)部子關(guān)系層次對(duì)不同話題鏈體現(xiàn)的事件前后景分布特點(diǎn)進(jìn)行詳細(xì)描述。有關(guān)內(nèi)容將在下面進(jìn)一步展開。廣義并列、因果和轉(zhuǎn)折關(guān)系主要對(duì)應(yīng)關(guān)聯(lián)詞形式,基本上沿用了邢福義(2001)提出的復(fù)句三分體系,并基于我們的理解進(jìn)行了適當(dāng)調(diào)整,例如,將遞進(jìn)關(guān)系從原來(lái)的廣義并列關(guān)系集移到廣義轉(zhuǎn)折關(guān)系集,共同與原有的轉(zhuǎn)折關(guān)系形成順轉(zhuǎn)和逆轉(zhuǎn)的對(duì)比描述集合。
在話題評(píng)述關(guān)系集中,根據(jù)不同話題鏈描述特點(diǎn),又區(qū)分出以下幾種子關(guān)系描述。
1) 時(shí)空順序關(guān)系
針對(duì)同一話題描述的多個(gè)事件在時(shí)間軸和空間體上形成的事實(shí)理?yè)?jù)順序關(guān)系。其話題鏈大多是由首句(小句)主語(yǔ)為基準(zhǔn)話題形成的單一ZA鏈。這是漢語(yǔ)話題鏈的主要描述形式。
2) 解釋注解關(guān)系
對(duì)新導(dǎo)出的話題的描述內(nèi)容進(jìn)行進(jìn)一步的解釋說明。其話題鏈主要是由話題導(dǎo)出句(小句)賓語(yǔ)為基準(zhǔn)話題形成的單一ZA鏈。典型使用場(chǎng)景是在更大的主話題鏈中作為一條子話題鏈,對(duì)主話題鏈描述的前景主線中的某個(gè)特殊實(shí)體的相關(guān)背景進(jìn)行介紹,形成后景描述。
3) 視域變換關(guān)系
通過視域動(dòng)詞的使用,將句子(句群)描述的內(nèi)容分成兩個(gè)不同視域,其中分別形成不同的話題鏈描述相應(yīng)事件內(nèi)容,兩者通過視域動(dòng)詞建立起內(nèi)在聯(lián)系。典型實(shí)例是由“說”、“宣布”等言說動(dòng)詞引導(dǎo)的轉(zhuǎn)述結(jié)構(gòu)。
至此,我們初步形成了一個(gè)形式和內(nèi)容相結(jié)合的漢語(yǔ)連貫性描述模型: 在連貫形式方面,提取了話題鏈、關(guān)聯(lián)詞和實(shí)體鏈、平行結(jié)構(gòu)、謂詞組合等其他形式;在連貫內(nèi)容方面,構(gòu)建了話題評(píng)述、廣義并列、廣義因果和廣義轉(zhuǎn)折等四大修辭關(guān)系描述集。下面通過第1節(jié)中列出的幾個(gè)實(shí)例的具體分析,對(duì)這個(gè)體系的形式內(nèi)容結(jié)合描述特點(diǎn)進(jìn)行簡(jiǎn)要說明。
(1) 例句: 她穿上那件舊花襖,走出窯來(lái),解下門扇上的鐵鏈子,撥開了門閂。
a. 連貫形式: 話題鏈“她-ZA-ZA-ZA”,完成體標(biāo)記“-了”;
b. 連貫內(nèi)容: 話題評(píng)述—時(shí)空順序,話題‘她’順序完成的多個(gè)動(dòng)作;
(2) 例句: 你們年紀(jì)還小,還要成家立業(yè),不要虛度年華,更不要成為社會(huì)討厭的人。
a. 連貫形式: 話題鏈“你們-ZA-ZA-ZA”,關(guān)聯(lián)詞語(yǔ)“還、更”,平行結(jié)構(gòu)“不要…,不要…”;
(3) 例句: 我無(wú)意中碰到了身邊的一個(gè)什么東西,伸手一摸,是他給我開的飯,兩個(gè)干硬的饅頭。
a. 連貫形式: 主話題鏈“我-ZA”,完成體標(biāo)記“-了”,次話題鏈“Φ—ZA”,實(shí)體鏈“東西—Φ—飯—饅頭”;(Φ 表示不在此句子中出現(xiàn)的隱含話題)
b. 連貫內(nèi)容: 主話題鏈描述時(shí)空順序關(guān)系,次話題鏈描述解釋注解關(guān)系
我們以清華句法樹庫(kù)TCT Ver 1.0[38]的全部標(biāo)注句子作為實(shí)驗(yàn)數(shù)據(jù)來(lái)驗(yàn)證相關(guān)體系描述的可行性。TCT選擇了新聞、學(xué)術(shù)、文學(xué)和應(yīng)用等四種體裁的漢語(yǔ)平衡語(yǔ)料文本進(jìn)行了句法結(jié)構(gòu)樹的分析和標(biāo)注??倶?biāo)注規(guī)模為100萬(wàn)詞,約4.7萬(wàn)句。TCT除了標(biāo)注小句層面的名詞短語(yǔ)(np), 動(dòng)詞短語(yǔ)(vp)等句法結(jié)構(gòu)信息外,還設(shè)計(jì)了包含11種關(guān)系標(biāo)記的復(fù)句描述體系[38],對(duì)漢語(yǔ)復(fù)句內(nèi)部的各種事件邏輯關(guān)系進(jìn)行了詳細(xì)描述,并對(duì)一些特殊引述句中的復(fù)雜句群組合關(guān)系進(jìn)行了初步描述,為我們進(jìn)行漢語(yǔ)“小句句子句群”層面的連貫性分析描述打下了很好的基礎(chǔ)。
我們提取了TCT中所有標(biāo)注了以下11種事件關(guān)系的復(fù)句(fj)成分: 并列(BL)、選擇(XZ)、連貫(LG)、遞進(jìn)(DJ)、因果(YG)、目的(MD)、條件(TJ)、假設(shè)(JS)、轉(zhuǎn)折(ZE)、解注(JZ)、流水(LS)等。為了更有效獲取這些復(fù)句內(nèi)部的連貫性表示形式,我們對(duì)它們進(jìn)行了以下預(yù)處理:
首先,自頂向下提取復(fù)句控制的所有子成分,包括內(nèi)部事件小句EDC和嵌套復(fù)句(i-fj),形成復(fù)句內(nèi)部小句塊序列: EDC* + i-fj*;
對(duì)每個(gè)內(nèi)部EDC,進(jìn)一步提取其中的主狀謂賓塊等形成的事件句式SDPO*S—主語(yǔ)塊,D——狀語(yǔ)塊,P—謂語(yǔ)塊,O—賓語(yǔ)塊。;對(duì)內(nèi)部嵌套復(fù)句,只提取其控制的第一個(gè)內(nèi)部EDC的相應(yīng)事件句式作為代表;
對(duì)每個(gè)復(fù)句內(nèi)部子成分塊(EDC或i-fj),設(shè)計(jì)了如下簡(jiǎn)單的內(nèi)部連貫性判據(jù):
? 如果該小句事件句式?jīng)]有主語(yǔ)塊,則判定為存在零形回指話題(ZAT)形式;
? 如果該小句句首和狀語(yǔ)塊中包含關(guān)聯(lián)詞語(yǔ)(CW),包括: 連詞(c)、連接語(yǔ)(l)和關(guān)聯(lián)副詞(d)*目前主要考慮了以下關(guān)聯(lián)副詞: "便","才","倒","都","非","就","馬上","卻","也","一","又","越","凡是","不論","盡管","即使","就是","雖然","早在","剛",”仍然”。等,則判定為存在關(guān)聯(lián)詞(CW)形式;
考慮到嵌套復(fù)句內(nèi)部多個(gè)關(guān)聯(lián)詞語(yǔ)使用的歧義性,規(guī)定該復(fù)句句首的連詞和連接語(yǔ)只在嵌套復(fù)句層面起作用,在其內(nèi)部EDC序列的連貫性狀態(tài)分析時(shí)不起作用。
據(jù)此,按照復(fù)句內(nèi)部各個(gè)小句塊的連貫性判據(jù)值,可以把所有復(fù)句分成以下4類。
1. 只通過話題鏈連接: 內(nèi)部小句包含一個(gè)以上ZAT,并且不包含任何CW;
2. 只通過關(guān)聯(lián)詞連接: 內(nèi)部小句包含一個(gè)以上CW,并且不包含任何ZAT;
3. 同時(shí)通過話題鏈和關(guān)聯(lián)詞連接: 內(nèi)部小句同時(shí)包含一個(gè)以上ZAT和CW;
4. 通過其他方式連接: 內(nèi)部小句不包含任何ZAT和CW;
表 1列出了目前獲得的完整統(tǒng)計(jì)數(shù)據(jù),從中可以看出目前論文關(guān)注的3種連貫形式在漢語(yǔ)真實(shí)文本句子中的大致分布特點(diǎn)。
1) ZA形式話題鏈?zhǔn)菨h語(yǔ)復(fù)句的主要連貫形式,覆蓋75.92%的漢語(yǔ)句子(1類—36.10%,3類—39.82%);
2) 關(guān)聯(lián)詞語(yǔ)也是漢語(yǔ)復(fù)句的重要連貫形式,覆蓋49.67%的漢語(yǔ)句子(2類—9.85%,3類—39.82%);其中關(guān)聯(lián)副詞的貢獻(xiàn)達(dá)到了22.78%(2類—5.85%,3類—16.93%),顯示了它們?cè)跐h語(yǔ)句子連貫性描述方面的重要作用;
3) 漢語(yǔ)句子中關(guān)聯(lián)詞語(yǔ)與ZA話題鏈同時(shí)使用是其應(yīng)用常態(tài),占其覆蓋句子的80%左右,初步證實(shí)了關(guān)聯(lián)詞語(yǔ)在凸顯話題鏈描述的不同事件關(guān)系中的重要作用[21];
4) 使用其他連貫形式的復(fù)句約占14.23%,主要分布在流水和并列復(fù)句中,其中的不同連貫形式描述特點(diǎn)需要在后續(xù)工作中進(jìn)一步深入分析。
為了更好地顯示不同連貫形式與連貫內(nèi)容之間的對(duì)應(yīng)關(guān)系,我們按照TCT標(biāo)注規(guī)范中給出的11類復(fù)句關(guān)系的描述特點(diǎn),將它們初步映射到上節(jié)定義的4種主要修辭關(guān)系類, 形成以下4大類事件關(guān)系描述集合。
1) 話題評(píng)述關(guān)系: 映射連貫(LG)、 流水(LS)和解注(JZ)3種關(guān)系,分別對(duì)應(yīng)時(shí)空順序、視域變換、解釋注解等關(guān)系小類;
2) 廣義因果關(guān)系: 映射因果(YG)、目的(MD)、條件(TJ)和假設(shè)(JS)4種關(guān)系,分別對(duì)應(yīng)相應(yīng)的描述小類;
3) 廣義轉(zhuǎn)折關(guān)系: 映射遞進(jìn)(DJ) 和轉(zhuǎn)折 (ZE)
表1 包含不同連貫標(biāo)記的TCT不同復(fù)句關(guān)系統(tǒng)計(jì)
2種關(guān)系,分別對(duì)應(yīng)順轉(zhuǎn)和逆轉(zhuǎn)兩個(gè)小類;
4) 廣義并列關(guān)系: 映射并列(BL)和選擇(XZ) 2種關(guān)系,分別對(duì)應(yīng)相應(yīng)的描述小類。
這樣,我們可以把表 1內(nèi)容歸并形成表 2數(shù)據(jù)。從中可以看出,在TCT數(shù)據(jù)集上,我們目前提出的3種連貫形式和4種修辭關(guān)系之間存在很強(qiáng)的對(duì)應(yīng)聯(lián)系。
a. 話題鏈?zhǔn)窃掝}評(píng)述關(guān)系的凸顯描述形式,覆蓋相應(yīng)句子實(shí)例的77%以上;而該類句子在真實(shí)文本中的分布比例也達(dá)到了63.47%,因此研究話題鏈和話題評(píng)述關(guān)系的互動(dòng)作用效果對(duì)理解真實(shí)文本中大部分句子的連貫性描述特點(diǎn)具有重要意義;
b. 關(guān)聯(lián)詞是廣義因果和轉(zhuǎn)折關(guān)系的凸顯描述形式,覆蓋相應(yīng)句子實(shí)例的82%左右;但該類句子在真實(shí)文本中的分布比例只有20.89%,這就使其發(fā)揮作用的范圍受到了很大限制;
表2 包含不同連貫標(biāo)記的4大類映射連貫關(guān)系復(fù)句統(tǒng)計(jì)
c. 相對(duì)而言,廣義并列關(guān)系句子中各種連貫手段的應(yīng)用相對(duì)平均,話題鏈、并列連詞、平行結(jié)構(gòu)等多種連貫形式都會(huì)在廣義并列關(guān)系的識(shí)別理解中發(fā)揮作用。而且其在真實(shí)文本中的分布比例也達(dá)到了15.64%,需要對(duì)其內(nèi)部連貫特點(diǎn)進(jìn)行進(jìn)一步分析。
為了進(jìn)一步分析話題鏈和關(guān)聯(lián)詞兩種連貫形式在不同體裁的漢語(yǔ)真實(shí)文本中的使用特點(diǎn),我們分別統(tǒng)計(jì)了它們?cè)诓煌w裁的文本句子中描述4類不同連貫關(guān)系時(shí)的分布比率,得到了圖 1和圖 2的數(shù)據(jù)結(jié)果。從中可以看出:
圖1 話題鏈在不同體裁的4大類連貫復(fù)句中的使用分布率
圖2 關(guān)聯(lián)詞在不同體裁的4大類連貫復(fù)句中的使用分布率
話題鏈在不同體裁的不同連貫關(guān)系復(fù)句中應(yīng)用很均衡,在話題評(píng)述、廣義因果和廣義轉(zhuǎn)折復(fù)句中的應(yīng)用比例都達(dá)到了75%以上,在廣義并列復(fù)句中的應(yīng)用比例也達(dá)到了65%以上,顯示了其在漢語(yǔ)句子的連貫性描述計(jì)算中的重要作用。
關(guān)聯(lián)詞在不同體裁的不同連貫關(guān)系復(fù)句中的應(yīng)用則不太均衡: 在不同體裁文本中,學(xué)術(shù)類句子使用相對(duì)較多,以適合學(xué)術(shù)類內(nèi)容描述的嚴(yán)謹(jǐn)性要求;而側(cè)重事務(wù)描述的應(yīng)用類句子中則使用較少。在不同連貫關(guān)系復(fù)句中,關(guān)聯(lián)詞在廣義因果、轉(zhuǎn)折和并列復(fù)句中使用較多,而在話題評(píng)述類復(fù)句中則使用較少,因?yàn)槠渲械脑掝}鏈已經(jīng)可以提供很好的連貫性描述支持。
表 3列出了從目前的自動(dòng)分析結(jié)果中隨機(jī)抽出的8個(gè)復(fù)句片段的自動(dòng)分類數(shù)據(jù)。從中可以看出,盡管我們目前只使用了簡(jiǎn)單的連貫形式判據(jù),但獲取到的分析數(shù)據(jù)基本上還是符合我們預(yù)期的。其中,例句3反映的廣義條件關(guān)系,需要通過對(duì)話題鏈描述內(nèi)容推斷得到,這將是后續(xù)工作的一個(gè)研究重點(diǎn)。而例句7則是由于對(duì)嵌套復(fù)句句首關(guān)聯(lián)詞語(yǔ)的簡(jiǎn)單排歧規(guī)則處理而導(dǎo)致的類別3漏判斷。據(jù)此,我們初步判斷目前得到的相關(guān)結(jié)論還是比較可靠的。
表3 各類體裁文本隨機(jī)選取的2個(gè)復(fù)句分析實(shí)例(關(guān)系=TCT復(fù)句關(guān)系;類別=自動(dòng)識(shí)別類)
目前在漢語(yǔ)真實(shí)文本上的話題鏈和關(guān)聯(lián)詞使用統(tǒng)計(jì)數(shù)據(jù)還比較少。宋柔在40萬(wàn)字左右的廣義話題結(jié)構(gòu)標(biāo)注庫(kù)上的統(tǒng)計(jì)結(jié)果顯示,漢語(yǔ)篇章中40%左右的標(biāo)點(diǎn)句首部缺少話題[32]。Zhou對(duì)CTB標(biāo)注庫(kù)中隨機(jī)抽取的20個(gè)語(yǔ)篇文件進(jìn)行了分析,發(fā)現(xiàn)82%的復(fù)句使用了隱性關(guān)聯(lián)詞,與英語(yǔ)PDTB標(biāo)注庫(kù)得到的54.5%的數(shù)據(jù)有很大差距[15]。這些數(shù)據(jù)從不同側(cè)面驗(yàn)證了漢語(yǔ)文本中ZA話題使用頻繁、關(guān)聯(lián)詞語(yǔ)使用較少的分布特點(diǎn),與我們的實(shí)驗(yàn)結(jié)果可以互為驗(yàn)證。
本文針對(duì)漢語(yǔ)篇章結(jié)構(gòu)簡(jiǎn)潔靈活、很少使用關(guān)聯(lián)詞語(yǔ)的描述特點(diǎn),提出引入話題鏈描述形式,設(shè)計(jì)不同類型的話題評(píng)述關(guān)系集,構(gòu)建了以話題鏈為主,融合關(guān)聯(lián)詞語(yǔ)和其他連貫形式描述機(jī)制,覆蓋話題評(píng)述、并列、因果、轉(zhuǎn)折四大類關(guān)系的漢語(yǔ)語(yǔ)篇連貫性描述體系。在清華句法樹庫(kù)TCT上進(jìn)行的初步驗(yàn)證實(shí)驗(yàn)表明,話題鏈在不同體裁的漢語(yǔ)真實(shí)文本數(shù)據(jù)上都有很好的適用性,可以很好地解決顯性關(guān)聯(lián)詞不足導(dǎo)致的連貫性判據(jù)缺失問題。
在后續(xù)研究中,我們將在這個(gè)描述體系指導(dǎo)下,重構(gòu)TCT標(biāo)注庫(kù)中“小句句子”層面的標(biāo)注信息,發(fā)現(xiàn)并標(biāo)注句子中的不同話題鏈,據(jù)此確定合適的句子連貫關(guān)系標(biāo)記。構(gòu)建新的融合話題鏈、關(guān)聯(lián)詞和其他連貫形式的漢語(yǔ)復(fù)句連貫性標(biāo)注庫(kù),為進(jìn)一步探索高效的漢語(yǔ)句子連貫性計(jì)算模型打下基礎(chǔ)。
[1] B.Webber, A Joshi. Discourse Structures and Computations: Past, Present and Future [C]//Proceedings of ACL-2012 Special Workshop on Rediscovering 50 Years of Discoveries, 2012: 42-54.
[2] B Webber, M Egg, V Kordoni. Discourse structure and language technology [J]. Natural Language Engineering. 2012,18(4): 437-439.
[3] Mann W C, Thompson S A. Rhetorical Structure Theory: Toward a functional theory of text organization [J]. Text, 1998,8(3):243-281.
[4] Carlson L, Marcu D, Okurowski M E. Building a Discourse-Tagged Corpus in the Framework of Rhetorical Structure Theory [C]//Proceedings of the Annual Sigdial Meeting on Discourse and Dialogue, Morristown: Association for Computational Linguiscs, 2001: 30-39.
[5] DuVerle D A, Prendinger H. A Novel Discourse Parser Based on Support Vector Machine Classification[C]//Proceedings of ACL-IJCNLP 2009. Morristown: ACL, 2009: 665-673.
[6] Prasad R, Miltsakaki E,Dinesh N,et al. The Penn Discourse Treebank 2.0 Annotation Manual[R]. USA: University of Pennsylvania,2008.
[7] Lin ZH, Ng H T, Kan M Y. A PDTB-styled end-to-end discourse parser [D]. Singapore: National University of Singapore,2010.
[8] Zhou ZM, Xu Y, Niu ZY, et al. Predicting Discourse Connectives for Implicit Discourse Relation Recognition[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Morristown: Association for Computational Linguistics, 2010: 1507-1514.
[9] J Ruppenhofer, C Sporleder, R Morante, et al. SemEval-2010 Task 10: Linking Events and Their Participants in Discourse[C]//Proceedings of SemEval-2010, 2010: 45-50.
[10] Josef Ruppenhofer, Philip Gorinski, Caroline Sporleder. In Search of Missing Arguments: A Linguistics Approach[C]//Proceedings of RANLP-2011, 2011: 331-338.
[11] Sameer Pradhan, Lance Ramshaw, Mitch Marcus, et al. Modeling Unrestricted Coreference in OntoNotes[C]//Proceedings of CoNLL-2011. 2011: 1-27.
[12] Ralph Weischedel, Eduard Hovy, Martha Palmer, et al. OntoNotes: A Large Training Corpus for Enhanced Processing [A]. In Joseph Olive, Caitlin Christianson, and John McCary, editors, Handbook of Natural Language Processing and Machine Translation.
[13] Halliday, M A K, Hasan, R. Cohesion in English [M]. London: Longman.
[14] 樂明. 中文篇章修辭結(jié)構(gòu)的標(biāo)注研究[J]. 中文信息學(xué)報(bào), 2008,22(4):19-23.
[15] Yuping Zhou, Nianwen Xue. PTDB-style Discourse Annotation of Chinese Text[C]//Proceedings of ACL-2012, 2012, 69-77.
[16] 張牧宇,秦兵,劉挺. 中文篇章級(jí)句間語(yǔ)義關(guān)系體系及標(biāo)注[J]. 中文信息學(xué)報(bào). 2014,28(2): 28-36.
[17] 廖秋忠. 廖秋忠文集 [M]. 北京: 北京語(yǔ)言學(xué)院出版社.
[18] 吳為章,田小琳. 漢語(yǔ)句群[M].北京: 商務(wù)印書館.
[19] 邢福義. 漢語(yǔ)復(fù)句研究[M]. 北京: 商務(wù)印書館.
[20] 徐赳赳. 現(xiàn)代漢語(yǔ)篇章語(yǔ)言學(xué)[M]. 北京: 商務(wù)印書館.
[21] Chao Yuan Ren (趙元任). A Grammar of Spoken Chinese [M]. Berkeley and Los Angeles: University of California Press.
[22] Li, Charles N, Sandra A Thompson. Subject and Topic [M]. New York: Academic Press.1976.
[23] Tsao Feng-fu (曹逢甫). A Functional Study of Topic in Chinese: the First Step toward Discourse Analysis [M]. Taipei: Student Book Co.
[24] Tsao Feng-fu (曹逢甫). Clause and Sentence Structure in Chinese: A Functional Perspective [M]. Taipei: Student Book Co.
[25] 曲承熹. 漢語(yǔ)篇章語(yǔ)法[M]. 北京: 北京語(yǔ)言大學(xué)出版社 (潘文國(guó)等譯),1998.
[26] 劉大為. 意向動(dòng)詞、言說動(dòng)詞與篇章的視域[J], 修辭學(xué)習(xí),2004,6:28-35.
[27] 楊彬. 話題鏈語(yǔ)篇構(gòu)建機(jī)制的多角度研究[D],上海: 復(fù)旦大學(xué)博士學(xué)位論文,2009.
[28] 廖秋忠. 篇章中的管界問題 [A]. 北京語(yǔ)言學(xué)院出版社: 《廖秋忠文集》 [C],1992: 92-115.
[29] 孫坤. 話題鏈視角下的漢英篇章組織模式對(duì)比研究[J],解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2013,36(3):12-20.
[30] 王建國(guó). 論話題的延續(xù): 基于話題鏈的漢英篇章研究[M]. 上海: 上海交通大學(xué)出版社,2013.
[31] 劉禮進(jìn). 英漢篇章結(jié)構(gòu)模式對(duì)比研究[A]. 劉禮進(jìn)著《英漢語(yǔ)篇和語(yǔ)法問題研究》[C],中山大學(xué)出版社,2011: 166-178.
[32] 舒江波. 面向中文信息處理的復(fù)句關(guān)聯(lián)詞自動(dòng)識(shí)別[D],2011,武漢: 華中師范大學(xué)博士學(xué)位論文.
[33] 宋柔. 漢語(yǔ)篇章廣義話題結(jié)構(gòu)研究[R],北京語(yǔ)言文化大學(xué)內(nèi)部資料, 2012.
[34] 張明堯. 基于事件鏈的語(yǔ)篇連貫研究[D],武漢: 武漢大學(xué)博士學(xué)位論文,2013.
[35] 沈家煊. “零句”和“流水句”[J]. 中國(guó)語(yǔ)文,2012,5:403-415.
[36] 邱晗. 漢語(yǔ)謂詞論元結(jié)構(gòu)的分析標(biāo)注研究[D]. 北京: 清華大學(xué)碩士論文,2014.
[37] 吳平. 漢語(yǔ)特殊句式的事件語(yǔ)義分析與計(jì)算[M]. 北京: 中國(guó)社會(huì)科學(xué)出版社.
[38] 周強(qiáng). 漢語(yǔ)句法樹庫(kù)標(biāo)注體系[J]. 中文信息學(xué)報(bào),2004, 18(4): 1-8.