• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      篇章視角的漢語(yǔ)零指代語(yǔ)料庫(kù)構(gòu)建*

      2021-02-25 12:15:52葛海柱周?chē)?guó)棟
      軟件學(xué)報(bào) 2021年12期
      關(guān)鍵詞:指代先行句法

      孔 芳,葛海柱,周?chē)?guó)棟

      1(蘇州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 自然語(yǔ)言處理實(shí)驗(yàn)室,江蘇 蘇州 215006)

      2(江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 蘇州 215006)

      篇章中提及了某個(gè)事物后,當(dāng)再次論及這個(gè)事物時(shí),會(huì)采用各種方式來(lái)進(jìn)行上下文的照應(yīng),這一現(xiàn)象稱為回指(anaphor).當(dāng)回指在篇章上沒(méi)有任何的形式層體現(xiàn)時(shí),就稱這種回指為零指代(zero anaphor),它是一種特殊的指代現(xiàn)象.相比英文,漢語(yǔ)中零指代出現(xiàn)的頻度很高,正如Kim[1]所統(tǒng)計(jì):漢語(yǔ)中在主語(yǔ)位置出現(xiàn)零指代的情況約占36%,而英文主語(yǔ)位置的零指代不足4%.正因如此,漢語(yǔ)零指代的研究對(duì)漢英文機(jī)器翻譯、文本摘要以及閱讀理解等眾多自然語(yǔ)言處理任務(wù)意義重大,已成為自然語(yǔ)言處理領(lǐng)域針對(duì)漢語(yǔ)研究的一個(gè)熱點(diǎn).

      例1 給出了一個(gè)漢語(yǔ)零指代的具體實(shí)例,該實(shí)例摘自O(shè)ntoNotes 中文語(yǔ)料的chtb_0009 文件,其中:零元素用“#”表示,位于相同指代鏈(即具有指代關(guān)系)的實(shí)體表述、零元素用相同顏色表示.

      例1:針對(duì)[甘肅]旅游業(yè)的發(fā)展需求,[人保公司]積極推出海外游客保險(xiǎn),[#]1還在國(guó)內(nèi)首家推出海外散客保險(xiǎn)辦法,[#]2使“八五”期間到[甘肅]觀光游覽的海外游客全部得到保險(xiǎn)保障.[甘肅省]還積極探索高風(fēng)險(xiǎn)業(yè)務(wù),“八五”期間,[#]3參與衛(wèi)星發(fā)射的共保,[#]4分擔(dān)的風(fēng)險(xiǎn)金額達(dá)一千萬(wàn)元,[#]5支付賠款五百萬(wàn)元,[#]6成為西北首家參與航天業(yè)務(wù)的公司.

      例1 共包含6 個(gè)零元素,其中:第1 號(hào)、第4 號(hào)~第6 號(hào)零元素指代相同的實(shí)體“人保公司”;第3 號(hào)零元素指代“甘肅省”;第2 號(hào)零元素并不指代某個(gè)具體的實(shí)體,而是指代前文提到的“人保公司積極推出海外游客保險(xiǎn),還在國(guó)內(nèi)首家推出海外散客保險(xiǎn)辦法”這兩個(gè)舉措.由此可以看到,完整的零指代消解任務(wù)由3 個(gè)子任務(wù)構(gòu)成: (1) 零元素識(shí)別,即識(shí)別出篇章語(yǔ)義上存在、但形式上未出現(xiàn)的那些“成分”;(2) 待消解的零元素識(shí)別,即根據(jù)零元素出現(xiàn)的篇章上下文來(lái)確定其是否回指某個(gè)具體的實(shí)體;(3) 零指代消解,確定待消解的零元素回指的具體實(shí)體,即先行詞的確定.

      眾所周知,指代結(jié)構(gòu)屬于篇章的范疇.隨著句子級(jí)詞法、句法研究的日益成熟,特別是MUC[2],ACE[3]以及CoNLL-shared Task2011 和2012 系列會(huì)議和比賽[2,3]相繼開(kāi)展,多語(yǔ)言的實(shí)體指代語(yǔ)料庫(kù)日益豐富,與篇章密切相關(guān)的指代結(jié)構(gòu)成為自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)之一.相比普通的實(shí)體指代消解,零指代消解任務(wù)更具挑戰(zhàn):首先,零元素在形式上不存在,沒(méi)有任何顯式的提示信息,需要從篇章語(yǔ)義的上下文中識(shí)別出這些隱式的“成分”;其次,漢語(yǔ)在形式的組織上相對(duì)松散,相同的語(yǔ)義成分可以以多種不同形式存在,這就造成了某些零元素可以出現(xiàn)的位置并不唯一;最后,因?yàn)樾问缴喜淮嬖?很多在實(shí)體指代消解中非常有用的詞、數(shù)、性等特征都無(wú)法提取.因此,如何高效表征上下文特征成為研究的核心.要應(yīng)對(duì)這些挑戰(zhàn),首先亟需解決的就是零指代結(jié)構(gòu)體系及對(duì)應(yīng)語(yǔ)料資源的構(gòu)建問(wèn)題.本文從服務(wù)于篇章分析的角度出發(fā),對(duì)漢語(yǔ)零指代進(jìn)行了表示體系的研究,并基于這一體系構(gòu)建了中等規(guī)模的服務(wù)于篇章分析的漢語(yǔ)零指代語(yǔ)料庫(kù),為后續(xù)在篇章視角下開(kāi)展?jié)h語(yǔ)零指代消解的研究奠定了扎實(shí)的基礎(chǔ).

      本文第1 節(jié)介紹漢語(yǔ)零指代資源建設(shè)的相關(guān)研究.第2 節(jié)對(duì)篇章視角漢語(yǔ)零指代的表示體系進(jìn)行詳細(xì)說(shuō)明,并給出基于這一體系進(jìn)行語(yǔ)料構(gòu)建的標(biāo)注規(guī)范和標(biāo)注流程.第3 節(jié)介紹了據(jù)此構(gòu)建完成的語(yǔ)料資源.第4 節(jié)以該語(yǔ)料為基礎(chǔ)給出了一個(gè)完整的漢語(yǔ)零指代消解基準(zhǔn)平臺(tái).第5 節(jié)對(duì)本文的工作進(jìn)行總結(jié)和展望.

      1 相關(guān)工作

      雖然在語(yǔ)言學(xué)領(lǐng)域,對(duì)漢語(yǔ)零指代現(xiàn)象已經(jīng)進(jìn)行了一些比較系統(tǒng)全面的理論研究[6,7],許多研究者從作者和閱讀者的角度出發(fā),以話題鏈為描述手段,歸納總結(jié)了漢語(yǔ)話題凸顯的語(yǔ)言描述特點(diǎn),并強(qiáng)調(diào)漢語(yǔ)中零指代現(xiàn)象廣泛存在且沒(méi)有任何約束,只能借助語(yǔ)義和語(yǔ)用知識(shí),根據(jù)篇章中出現(xiàn)的信息進(jìn)行零指代的解釋.正是由于零指代的靈活多樣且沒(méi)有約束,相關(guān)語(yǔ)料資源的標(biāo)注非常困難.因此,受限于漢語(yǔ)零指代語(yǔ)料資源,在計(jì)算語(yǔ)言學(xué)領(lǐng)域的相關(guān)研究較少,主要包括以下3 類代表性工作.

      (1) 針對(duì)某一類或多類零指代現(xiàn)象自行構(gòu)建小規(guī)模語(yǔ)料并進(jìn)行可計(jì)算模型的探索.

      典型的工作包括:Converse[8]在其博士論文研究中選取CTB3.0 中的205 篇新聞文本進(jìn)行了第三人稱代詞和零指代的標(biāo)注.Converse 的標(biāo)注直接在句法樹(shù)上進(jìn)行,句法是進(jìn)行各類現(xiàn)象判斷的標(biāo)準(zhǔn).此外,因?yàn)镃onverse 的研究主要關(guān)注第三人稱代詞和零指代,對(duì)于不包含第三人稱代詞和零指代的其他指代關(guān)系并未進(jìn)行標(biāo)注,但各類指代現(xiàn)象間存在明顯的互補(bǔ)性,孤立地進(jìn)行兩種類別指代的標(biāo)注可能會(huì)隱藏部分重要信息.對(duì)標(biāo)注結(jié)果的分析也發(fā)現(xiàn),Converse 標(biāo)注的零指代只涵蓋了部分句法樹(shù)上處于主語(yǔ)位置的零指代現(xiàn)象.使用Converse 的語(yǔ)料,Zhao 和Ng[9]首次提出了一個(gè)基于機(jī)器學(xué)習(xí)的漢語(yǔ)零指代方法,并探討了這一任務(wù)的困難之處.他們將零元素消解分為零元素的識(shí)別和消解,通過(guò)與標(biāo)準(zhǔn)句法樹(shù)進(jìn)行對(duì)比,構(gòu)建正例和負(fù)例作為訓(xùn)練實(shí)例,借助決策樹(shù)來(lái)進(jìn)行分類.但是由于正例和負(fù)例的分布嚴(yán)重不平衡,因此實(shí)驗(yàn)結(jié)果并不理想.Kong 等人[9]在研究了與漢語(yǔ)零指代相關(guān)的幾種句法結(jié)構(gòu)的基礎(chǔ)上,選取CTB6.0 中的100 個(gè)文檔進(jìn)行了零指代的標(biāo)注.Kong 的研究主要關(guān)注結(jié)構(gòu)化句法信息對(duì)漢語(yǔ)零指代的影響,因此其標(biāo)注也是以句法樹(shù)為參考依據(jù).與Converse 不同的是:他們不僅標(biāo)注了主語(yǔ)位的零指代現(xiàn)象,也考慮了賓語(yǔ)等其他位置.但100 個(gè)文檔的規(guī)模較小,也僅僅標(biāo)注了零元素的先行詞,零指代與普通實(shí)體指代間的關(guān)系并未進(jìn)行標(biāo)注.他們基于這一小規(guī)模的語(yǔ)料進(jìn)一步提出了一個(gè)統(tǒng)一的框架進(jìn)行零指代消解,將這一任務(wù)分為零元素識(shí)別、待消解項(xiàng)確定和零元素消解.不同于Zhao 和Ng[9]提出的基于特征的方法,他們使用基于句法樹(shù)的方法,在零元素識(shí)別和消解上相較于Zhao 和Ng[9]都有了明顯的提升.

      (2) 將零元素看作句法分析中產(chǎn)生的空語(yǔ)類的一種,借助句法樹(shù)中標(biāo)注的空語(yǔ)類信息進(jìn)行研究.

      早期關(guān)于空語(yǔ)類的研究大都采用基于規(guī)則的方法.CAMPBELL[10]提出一種基于賓州樹(shù)庫(kù)的算法來(lái)恢復(fù)空語(yǔ)類.Chung 等人[11]在研究機(jī)器翻譯時(shí)發(fā)現(xiàn):在句子中添加空語(yǔ)類,可以有效提升翻譯準(zhǔn)確率.仿照J(rèn)ohnson[12]和Gabbard[13]的工作,他們使用基于模式的方法,通過(guò)統(tǒng)計(jì)語(yǔ)料發(fā)現(xiàn):只有充當(dāng)代詞成分的零元素能夠提高語(yǔ)料句法結(jié)構(gòu)的完整性,并且可以幫助提升下游機(jī)器翻譯任務(wù)的準(zhǔn)確率.

      隨著機(jī)器學(xué)習(xí)技術(shù)的發(fā)展,很多學(xué)者開(kāi)始嘗試借助機(jī)器學(xué)習(xí)模型進(jìn)行空語(yǔ)類的回復(fù).Yang 和Xue[14]提出組合詞匯和句法信息進(jìn)行空語(yǔ)類恢復(fù),他們將空語(yǔ)類的恢復(fù)看作是序列標(biāo)注問(wèn)題,通過(guò)給空語(yǔ)類建立句法特征和詞法特征,使用最大熵模型建立分類器,在每個(gè)詞的后面判斷是否有空語(yǔ)類.在標(biāo)準(zhǔn)句法樹(shù)上性能較好,F值達(dá)到89%,但在自動(dòng)句法樹(shù)上,性能下降至63.2%,以此說(shuō)明空語(yǔ)類嚴(yán)重依賴句法信息.受Yang 和Xue[14]工作的啟發(fā),Cai 等人[15]將空語(yǔ)類的恢復(fù)集成到中文句法分析中,通過(guò)修改句法解析器,使得它可以用WordLattice(字格)作為輸入,并能夠減少人工干預(yù),自動(dòng)恢復(fù)空語(yǔ)類.這使得在自動(dòng)句法樹(shù)上的性能較Yang 和Xue 有了一定的提升,F值達(dá)到67.0%.Kong 和Zhou[16]提出了基于小句的空語(yǔ)類識(shí)別方案,認(rèn)為局部句法信息的準(zhǔn)確性相較較高.使用語(yǔ)義角色標(biāo)注方法獲得短句,針對(duì)終端短句,采用線性標(biāo)注的方法;針對(duì)非終端短句,使用結(jié)構(gòu)化分析的方法.此外,考慮到中文逗號(hào)意義豐富,為了提高短句識(shí)別的準(zhǔn)確性,還加入了逗號(hào)消岐.中文空語(yǔ)類識(shí)別在自動(dòng)句法樹(shù)上的性能F值提升至 74.6%.Xiang 等人[17]將恢復(fù)空語(yǔ)類的問(wèn)題轉(zhuǎn)化為分類問(wèn)題.考慮到空語(yǔ)類對(duì)句法結(jié)構(gòu)有很強(qiáng)的依賴性,他們將空類型標(biāo)簽刪掉,并將空語(yǔ)類的位置信息和類別信息轉(zhuǎn)移到句法樹(shù)上層節(jié)點(diǎn),引入句法樹(shù)特征、詞法特征以及空語(yǔ)類特征,借助最大熵模型對(duì)預(yù)測(cè)為包含空語(yǔ)類信息的節(jié)點(diǎn)進(jìn)行恢復(fù).Xue 等人[18]首次引入依賴關(guān)系,使用空語(yǔ)類的頭信息和后一個(gè)詞組成訓(xùn)練實(shí)例,成功解決Yang 和Xue[14]給出的序列標(biāo)注無(wú)法識(shí)別連續(xù)多個(gè)空語(yǔ)類的問(wèn)題.Zhou 等人[19]通過(guò)實(shí)驗(yàn)發(fā)現(xiàn):在句法分析中加入空語(yǔ)類標(biāo)簽,能夠有效提升準(zhǔn)確率.為了更好地描述空語(yǔ)類,他們將空語(yǔ)類標(biāo)簽重新定義,并提出了基于規(guī)則、句法分析以及依賴關(guān)系的3 種方法.實(shí)驗(yàn)結(jié)果表明:使用新的空語(yǔ)類標(biāo)簽后,句法分析準(zhǔn)確率明顯提高.但空語(yǔ)類表達(dá)是成分間的句法依賴關(guān)系,與篇章層的零指代存在一定的差異.

      (3) 在OntoNotes 語(yǔ)料上進(jìn)行零指代研究.

      語(yǔ)料資源方面,得到大眾認(rèn)可的漢語(yǔ)零指代語(yǔ)料是OntoNotes 語(yǔ)料[20].該語(yǔ)料的中文部分標(biāo)注了主語(yǔ)位置的零元素及其所屬的指代鏈情況,為目前的漢語(yǔ)零元素研究工作提供了資源支持.與前面小規(guī)模的語(yǔ)料標(biāo)注相比,該語(yǔ)料的規(guī)模擴(kuò)大很多,但仍然是基于句法信息的零指代資源.使用OntoNotes 語(yǔ)料,一些研究者展開(kāi)了零指代可計(jì)算性的相關(guān)研究.典型工作包括:包含零指代識(shí)別和消解兩個(gè)子任務(wù),Chen 等人[21]第1 個(gè)給出了完整的端到端的漢語(yǔ)零指代消解平臺(tái),并給出一組有效的句法和上下文特征,借助這些特征實(shí)現(xiàn)了全自動(dòng)的零指代分析.深度網(wǎng)絡(luò)技術(shù)的推進(jìn),各類向量嵌入工作的開(kāi)展,Chen 等人[22]基于深度神經(jīng)網(wǎng)絡(luò)模型,將字法、詞法、句法等許多已經(jīng)驗(yàn)證有效的特征以向量嵌入的方式融入零指代消解,以此構(gòu)建了一個(gè)神經(jīng)網(wǎng)絡(luò)框架,一定程度上提升了零指代消解的性能.但他們的工作也驗(yàn)證了,零指代消解的性能受到句法分析性能的嚴(yán)重影響.相比標(biāo)準(zhǔn)句法樹(shù),在自動(dòng)句法樹(shù)下的端到端的漢語(yǔ)零指代消解的F值下降了近42%.如何提升自動(dòng)句法樹(shù)下零指代的性能,成為了關(guān)注焦點(diǎn).Yin 等人[23]在Chen 等人[22]的基礎(chǔ)上對(duì)神經(jīng)網(wǎng)絡(luò)模型做了拓展,給出了一個(gè)深度記憶網(wǎng)絡(luò),利用兩個(gè)編碼器對(duì)先行詞進(jìn)行局部編碼和全局編碼,獲取先行詞的局部特征和全局特征,再對(duì)零代詞用上下文向量表示來(lái)獲取其上下文特征.為了更好地描述零代詞,除了零代詞的上下文信息外,還引入了候選先行詞特征,通過(guò)詞嵌入獲取向量之間的語(yǔ)義特征,并為每一層網(wǎng)絡(luò)加上注意力信息,實(shí)驗(yàn)結(jié)果證明了該方法的有效性.Zhang 等人[24]也嘗試通過(guò)將特征向量化的方式來(lái)更好地表征先行詞候選以及零元素和先行詞候選的上下文語(yǔ)義信息,再借助神經(jīng)網(wǎng)絡(luò)模型進(jìn)行零指代消解.Yin 等人[25]在高效表征各類信息的基礎(chǔ)上,還向神經(jīng)網(wǎng)絡(luò)平臺(tái)引入了強(qiáng)化學(xué)習(xí)策略,通過(guò)進(jìn)一步提升神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力來(lái)提升漢語(yǔ)零指代消解的性能.Kong 和Zhou[26]提出零指代不應(yīng)該被孤立對(duì)待,而是應(yīng)該與普通名詞短語(yǔ)的消解形成完整的整體.基于此觀點(diǎn),他們提出了一種全新的鏈到鏈的漢語(yǔ)零指代消解方案:首先將零元素聚類為共指鏈,每條共指鏈都作為一個(gè)獨(dú)立的指代詞,這樣,那些距離較遠(yuǎn)的零元素和先行詞可以通過(guò)共指鏈的傳遞性進(jìn)行鏈接;其次,名詞短語(yǔ)也被聚類成不同組,每一個(gè)組作為一個(gè)先行詞獨(dú)立存在.通過(guò)將普通名詞短語(yǔ)的指代消解結(jié)果看作是對(duì)先行詞候選進(jìn)行過(guò)濾的一種手段,以指代鏈為單位進(jìn)行漢語(yǔ)零指代消解,這樣大大減少了搜索空間,使得零指代消解的性能明顯提升.

      從上述相關(guān)研究可以看到,語(yǔ)料資源是開(kāi)展?jié)h語(yǔ)零指代可計(jì)算研究不可或缺的條件.為了降低對(duì)標(biāo)注語(yǔ)料的依賴,一些研究者也開(kāi)展了各種相關(guān)研究.為了解決對(duì)標(biāo)注語(yǔ)料的依賴,Chen[27]提出了一種無(wú)監(jiān)督的方法,借助最大熵構(gòu)建一個(gè)候選先行詞排序模型,在包含顯性代詞的語(yǔ)料上訓(xùn)練得到模型參數(shù)后,將其應(yīng)用到零代詞消解上.實(shí)驗(yàn)結(jié)果表明,該方法取得了比監(jiān)督模型更好的消解效果.但是該方法的局限性在于:他們并沒(méi)有研究零代詞的識(shí)別,提出的模型只能在零代詞已經(jīng)正確識(shí)別的基礎(chǔ)上進(jìn)行消解.在此基礎(chǔ)上,為了更好地描述先行詞特征,Chen[28]又提出一種非監(jiān)督概率模型,為先行詞加入了4 個(gè)語(yǔ)法特征:Number(數(shù)量特征),Gender(性別特征),Person(人稱特征)和Animacy(有生性特征),并使用EM 算法[29]來(lái)推測(cè)最可能的先行詞.為了考慮篇章特征,Chen[30]使用SalienceModel(凸顯模型)為每一個(gè)有效實(shí)體計(jì)算得分,并采用聯(lián)合的方式識(shí)別和消解零代詞.Liu等人[31]為了解決零指代標(biāo)注語(yǔ)料不足這一問(wèn)題,將對(duì)零指代消解的方法由分類模型轉(zhuǎn)化為閱讀理解模型.利用大量的偽語(yǔ)料訓(xùn)練閱讀理解模型,并將此模型應(yīng)用在零指代消解上.但他們的工作也針對(duì)零元素的消解進(jìn)行了研究,提出的基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)模型也只適用于零元素已知的情況.

      隨著一定規(guī)模的OntoNotes 語(yǔ)料庫(kù)的發(fā)布,漢語(yǔ)零指代消解研究日趨活躍.不過(guò),指代屬于篇章級(jí)的語(yǔ)言現(xiàn)象,從句法視角構(gòu)建漢語(yǔ)零指代的結(jié)構(gòu)體系存在著一些明顯的問(wèn)題,正如Yang 和Xue[14]分析實(shí)驗(yàn)結(jié)果得出的結(jié)論:僅關(guān)注句法信息,中文零元素的判別與句法層的共享主語(yǔ)現(xiàn)象間很難區(qū)分.另一方面,隨著篇章分析相關(guān)研究的展開(kāi),研究者開(kāi)始意識(shí)到篇章層的信息對(duì)于零指代消解意義重大.例如,Sheng 等人[32]在傳統(tǒng)零指代消解平臺(tái)中考慮了篇章修辭結(jié)構(gòu)信息,在零元素識(shí)別、零元素消解等多個(gè)環(huán)節(jié),都通過(guò)提取各類篇章級(jí)的信息來(lái)提升性能.相應(yīng)地,也有一些研究表明,零指代對(duì)于中文篇章分析意義重大.例如,奚雪峰等人[33,34]提出一種基于主述位理論的篇章微觀話題結(jié)構(gòu),其中的隱式主述位本質(zhì)上就是零元素,它們?cè)谠掝}鏈的形成中意義重大.因此,本文提出從服務(wù)于篇章分析的視角來(lái)構(gòu)建漢語(yǔ)零指代的體系結(jié)構(gòu).

      2 篇章視角的漢語(yǔ)零指代表示體系

      研究者普遍認(rèn)為:各語(yǔ)義成分是由驅(qū)動(dòng)謂詞管轄的,語(yǔ)義成分的缺省(零元素)可以通過(guò)“謂詞驅(qū)動(dòng)”這一方式進(jìn)行識(shí)別.例如:Cai 等人[15]嘗試在句法分析的過(guò)程中,依據(jù)驅(qū)動(dòng)謂詞進(jìn)行空語(yǔ)類的識(shí)別;Kong 和Zhou 等人[16]提出,借鑒簡(jiǎn)化的語(yǔ)義角色標(biāo)注(sematic role labeling,簡(jiǎn)稱SRL)方法識(shí)別子句,再以子句為單位進(jìn)行空語(yǔ)類和零元素的識(shí)別.不過(guò),本質(zhì)上零元素并不是單純的“缺失的語(yǔ)義成分”,而是在上下文銜接中缺失的有意義的語(yǔ)義成分,需要根據(jù)上下文進(jìn)行判斷.另外,漢語(yǔ)重意合的特點(diǎn)使得漢語(yǔ)表達(dá)更加靈活,許多固定句式雖然從謂詞驅(qū)動(dòng)的角度似乎存在語(yǔ)義成分的缺失,但從整體表達(dá)的語(yǔ)義信息看又不存在缺失.

      例如,例2 所示的句子包含3 個(gè)謂詞:“防止”“出現(xiàn)”和“出臺(tái)”.其中,“出臺(tái)”的各語(yǔ)義成分都齊全,未出現(xiàn)任何省略;“防止”的施事者“新區(qū)管委會(huì)”在篇章后面提及了,可以認(rèn)為在“防止”前存在一個(gè)語(yǔ)義省略,后文進(jìn)行了恢復(fù);“出現(xiàn)”的施事者在文中并未提及,說(shuō)明這一語(yǔ)義對(duì)象并非當(dāng)前篇章關(guān)注的焦點(diǎn),不存在上下文銜接中有語(yǔ)義成分缺失.

      例2:為防止出現(xiàn)無(wú)序現(xiàn)象,新區(qū)管委會(huì)及時(shí)出臺(tái)了一系列規(guī)范建設(shè)市場(chǎng)的文件.

      漢語(yǔ)重意合的特點(diǎn),決定了漢語(yǔ)零指代表示體系的確立必須從篇章的視角進(jìn)行.從形式上看,零元素是句子中省略的某個(gè)成分;而從語(yǔ)義理解的角度看,省略的這個(gè)成分一定包含明確的語(yǔ)義信息,承擔(dān)了一定的語(yǔ)用功能,即這個(gè)語(yǔ)義成分是依賴于篇章的上下文表述的,是銜接上下文的特殊語(yǔ)義載體.

      需要特別說(shuō)明的是:盛晨等人[35,36]提出從篇章視角分析漢語(yǔ)零指代,他們從篇章視角將零元素分成主干型和修飾型兩大類,同時(shí)又根據(jù)零元素所處篇章基本單元的句法結(jié)構(gòu)將零元素細(xì)分成若干小類.但他們的工作存在兩方面缺陷:首先,大類的劃分是篇章視角的,而小類的劃分是句法層面的,句法雖然利于語(yǔ)料標(biāo)注質(zhì)量的控制,但從分類體系的角度,兩種視角存在一定的沖突;其次,盛晨等人[35,36]僅對(duì)零元素的分類體系進(jìn)行了研究,但篇章中更重要的是銜接上下文的零元素,離開(kāi)指代關(guān)系獨(dú)立分析零元素對(duì)服務(wù)篇章的支撐是有限的.受盛晨等人工作的啟發(fā),葛海柱等人[37]進(jìn)一步梳理了篇章視角的零指代結(jié)構(gòu).基于盛晨和葛海柱等人的工作,我們從服務(wù)于篇章分析和文本理解的目標(biāo)出發(fā),我們構(gòu)建了完整的篇章視角的漢語(yǔ)零指代結(jié)構(gòu)體系,它由篇章視角的零元素分類體系和篇章視角的零指代結(jié)構(gòu)兩部分構(gòu)成,下面分別加以說(shuō)明.

      2.1 篇章視角的零元素分類

      在漢語(yǔ)篇章微觀修辭結(jié)構(gòu)表示體系[38,39],將基本篇章單元(elementary discourse unit,簡(jiǎn)稱EDU)定義成至少包含一個(gè)謂語(yǔ)部分,即至少表達(dá)一個(gè)命題,認(rèn)為EDU 是篇章構(gòu)成的基本單位.從服務(wù)于篇章分析的目標(biāo)出發(fā),我們將EDU 看作考察是否包含零元素的基本單元.與盛晨等人[35,36]的工作類似,依據(jù)EDU 內(nèi)是否存在缺失的語(yǔ)義成分,以及缺失的語(yǔ)義成分在EDU 中是否承擔(dān)主干成分,我們將零元素劃分成兩大類,即主干型零元素和修飾型零元素,但不再進(jìn)行小類的區(qū)分.

      以例3 所示的句子為例,從篇章分析的視角看,它由3 個(gè)基本篇章單元構(gòu)成,圖中用“[·]”進(jìn)行分割,分別記作e1,e2 和e3,這3 個(gè)基本篇章單元構(gòu)建形成的修辭結(jié)構(gòu)樹(shù)如圖1 所示.

      例3:[國(guó)家統(tǒng)計(jì)局預(yù)測(cè),一九九六年全球經(jīng)濟(jì)將繼續(xù)保持增長(zhǎng),]e1[這種良好的態(tài)勢(shì)對(duì)中國(guó)的發(fā)展十分有利,]e2| [φ使其面臨很多發(fā)展機(jī)遇.]e3

      Fig.1 Discourse rethorical structure tree of example 3圖1 例3 中各基本篇章單元形成的修辭結(jié)構(gòu)樹(shù)

      可以看到:基本篇章單元e1 和e2 在語(yǔ)義成分上是完整的,不存在零元素;但對(duì)于e3 而言,獨(dú)立觀測(cè)這一單元,它表達(dá)了兩層含義:一是“其(中國(guó)的發(fā)展)面臨很多發(fā)展機(jī)遇”,二是“這種良好的態(tài)勢(shì)造成了其面臨很多發(fā)展機(jī)遇”.其中,第1 層含義各語(yǔ)義構(gòu)成成分完整,不存在零元素;第2 層含義中的施事者“這種良好的態(tài)勢(shì)”缺失了,因此存在一個(gè)零元素,即例3 的e3 中所示的“φ”,它指代前一個(gè)EDU 中提及的“這種良好的態(tài)勢(shì)”,形成了一個(gè)零指代關(guān)系.在這兩層含義中,主干語(yǔ)義是第2 層含義,即“這種良好的態(tài)勢(shì)使得其面臨很多發(fā)展機(jī)遇”,零元素承擔(dān)了EDU 內(nèi)主干語(yǔ)義成分的角色,屬于篇章主干型零元素.

      例4 給出了一個(gè)包含兩個(gè)EDU 的句子示例,這兩個(gè)EDU 形成了因果關(guān)系.其中,第2 個(gè)基本篇章單元e2 表達(dá)的主干語(yǔ)義信息是“大量出現(xiàn)的是新情況、新問(wèn)題”,而“以前不曾遇到過(guò)的”是“新情況、新問(wèn)題”的修飾成分,但在這修飾成分中,謂詞“遇到”的施事者被省略了,它指代的是前一個(gè)EDU 中出現(xiàn)的“浦東”.因?yàn)榇颂幍恼Z(yǔ)義缺省出現(xiàn)在修飾成分中,我們將這一零元素歸為修飾型零元素.

      例4:[浦東開(kāi)發(fā)開(kāi)放是一項(xiàng)振興上海,建設(shè)現(xiàn)代化經(jīng)濟(jì)、貿(mào)易、金融中心的跨世紀(jì)工程,]e1[因此大量出現(xiàn)的是φ以前不曾遇到過(guò)的新情況、新問(wèn)題.]e2

      對(duì)比例3 和例4 我們可以看到:相比篇章主干型零元素,篇章修飾型零元素對(duì)EDU 內(nèi)部語(yǔ)義成分間的關(guān)系抽取以及局部句法分析的影響較大,它們的存在與EDU 內(nèi)部的句法結(jié)構(gòu),甚至是某一短語(yǔ)內(nèi)的句法結(jié)構(gòu)關(guān)系密切,對(duì)EDU 之上的粒度更大的篇章分析的影響相對(duì)較小.但很明確,準(zhǔn)確識(shí)別修飾型零元素將有助于明確局部語(yǔ)義成分,幫助更好地表征EDU,從而減少?gòu)?fù)雜的修飾成分對(duì)篇章理解帶來(lái)的噪聲.從可計(jì)算的角度考慮,篇章主干型零元素與篇章的銜接性和連貫性關(guān)聯(lián)更大,在這類零元素的自動(dòng)識(shí)別方面,應(yīng)更多地考慮篇章層面的信息;修飾型零元素更多與EDU 內(nèi)部的局部句法信息關(guān)系密切,這類零元素的自動(dòng)識(shí)別應(yīng)更多地考慮句法信息的支撐.

      對(duì)于零元素的標(biāo)注還存在定位問(wèn)題.所謂零元素,是形式上不存在,而語(yǔ)義上存在的某個(gè)成分.另外,人為對(duì)其進(jìn)行形式上的添加存在位置的不唯一性.就例4 給出的例子看,人為將零元素插入在“以前”這一修飾語(yǔ)的前面或后面都可以,具體參見(jiàn)例5 給出的兩種插入結(jié)果.零元素的先行詞是“浦東”,對(duì)于e2 這個(gè)EDU 而言,語(yǔ)義補(bǔ)全后,“大量出現(xiàn)的是浦東以前不曾遇到過(guò)的…”和“大量出現(xiàn)的是以前浦東不曾遇到過(guò)的…”,從句法和語(yǔ)義層都是合理的.

      例5:

      (1) [浦東開(kāi)發(fā)開(kāi)放是一項(xiàng)振興上海,建設(shè)現(xiàn)代化經(jīng)濟(jì)、貿(mào)易、金融中心的跨世紀(jì)工程,]e1[因此大量出現(xiàn)的是φ以前不曾遇到過(guò)的新情況、新問(wèn)題.]e2

      (2) [浦東開(kāi)發(fā)開(kāi)放是一項(xiàng)振興上海,建設(shè)現(xiàn)代化經(jīng)濟(jì)、貿(mào)易、金融中心的跨世紀(jì)工程,]e1[因此大量出現(xiàn)的是以前φ不曾遇到過(guò)的新情況、新問(wèn)題.]e2

      對(duì)于上述情況,為了保證語(yǔ)料標(biāo)注的一致性,對(duì)零元素的位置出現(xiàn)多個(gè)可選時(shí),要求統(tǒng)一定位在可選的首號(hào)位置.當(dāng)然,在進(jìn)行可計(jì)算研究時(shí),在評(píng)測(cè)中可考慮在忽略零元素前后的連詞和修飾成分的基礎(chǔ)上進(jìn)行位置是否正確的判定.

      2.2 篇章視角的零指代結(jié)構(gòu)

      零指代結(jié)構(gòu)關(guān)注零元素與其先行詞之間的關(guān)聯(lián)關(guān)系.篇章視角的零指代結(jié)構(gòu)需要從篇章層確定指代結(jié)構(gòu)的幾個(gè)核心要素,具體包括:

      (1) 指代關(guān)系的考察范圍

      指代描述的是篇章層的語(yǔ)言現(xiàn)象,實(shí)體指代關(guān)系遍布整篇文章.不過(guò),已有的研究(特別是對(duì)代詞作為待消解項(xiàng)的研究[40])發(fā)現(xiàn),其先行詞通常在當(dāng)前句或前兩句.零元素是形式上省略、而讀者可以根據(jù)上下文進(jìn)行語(yǔ)義恢復(fù)的對(duì)象,其聚焦性強(qiáng)于代詞.因此,與零元素關(guān)聯(lián)的先行詞通常不會(huì)與零元素跨越很遠(yuǎn).基于這一原則,我們將零指代結(jié)構(gòu)的考察范圍限定在相同段落內(nèi).由于漢語(yǔ)微觀篇章修辭結(jié)構(gòu)[38,39]將每個(gè)段落映射成一棵獨(dú)立的篇章修辭結(jié)構(gòu)樹(shù),因此我們將零指代結(jié)構(gòu)的考察范圍限定在零元素所在的篇章修辭結(jié)構(gòu)樹(shù)中.

      在上下文中承擔(dān)了銜接作用的零元素,這類零元素的先行詞一定顯式地在上下文中出現(xiàn)過(guò).為了從語(yǔ)義層更好地確定零元素指代的先行詞,我們首先將實(shí)體指代鏈作為考察對(duì)象,確認(rèn)當(dāng)前零元素指代的是哪一個(gè)實(shí)體指代鏈.眾所周知:指代結(jié)構(gòu)并不是兩個(gè)表述之間的關(guān)系,而是若干個(gè)表述之間的關(guān)系.將零元素關(guān)聯(lián)到具體的實(shí)體指代鏈,一方面可以充分利用已有的實(shí)體指代的標(biāo)注信息和端到端的自動(dòng)實(shí)體指代消解工具;另一方面,也可以較為容易地對(duì)零元素是否在上下文中承擔(dān)了銜接作用進(jìn)行準(zhǔn)確地判斷.當(dāng)然,在標(biāo)注過(guò)程中可以根據(jù)語(yǔ)義選擇同一指代鏈上的任意一個(gè)表述進(jìn)行指稱關(guān)系的標(biāo)注,最終的先行詞是由該表述對(duì)應(yīng)的指代鏈來(lái)表示的.若不存在某個(gè)實(shí)體指代鏈與當(dāng)前零元素間有指代關(guān)系,我們?cè)龠M(jìn)行短語(yǔ)級(jí)別的其他指代對(duì)象的考察.

      (2) 指代關(guān)系的分類

      從服務(wù)于篇章的視角,我們從兩個(gè)維度對(duì)零指代關(guān)系進(jìn)行了分類.

      一是根據(jù)指代關(guān)系是否跨越EDU 將零指代關(guān)系分成EDU 內(nèi)(intra-EDU)和EDU 間(inter-EDU)兩種,其中: inter-EDU 類型的指代關(guān)系發(fā)生在兩個(gè)不同的EDU 間,銜接的上下文更多的是篇章層對(duì)象;而intra-EDU 類型的指代關(guān)系發(fā)生在EDU 內(nèi)部,受到局部句法信息的影響更大.例6 給出了一個(gè)EDU,其中包含一個(gè)修飾型零元素,其指代的對(duì)象是該EDU 的主干主語(yǔ)“浦東”,這一指代關(guān)系在EDU 內(nèi)部完成,屬于intra-EDU 類型.可以看到,intra-EDU 類型的指代關(guān)系中涉及的零元素一定是修飾型零元素.例7 給出了一個(gè)inter-EDU 類型的零指代關(guān)系示例,該例子涉及相鄰的兩個(gè)EDU,這兩個(gè)EDU 之間是并列關(guān)系,其中,第2 個(gè)EDU 的主干主語(yǔ)缺省,指向第一個(gè)EDU 的主干主語(yǔ).

      例6:[浦東不是簡(jiǎn)單的采取“干一段時(shí)間,等φ積累了經(jīng)驗(yàn)以后再制定法規(guī)條例”的做法,]e1

      例7:[這個(gè)開(kāi)發(fā)區(qū)位于中國(guó)著名風(fēng)景旅游城——杭州市區(qū)內(nèi),]e1[φ是一九九一年國(guó)務(wù)院批準(zhǔn)建設(shè)的國(guó)家級(jí)高新技術(shù)產(chǎn)業(yè)開(kāi)發(fā)區(qū).]e2

      二是將inter-EDU 類型的指代關(guān)系,根據(jù)指代關(guān)系關(guān)聯(lián)的對(duì)象是實(shí)體、事件還是其他抽象概念,分成了以下4 種.

      ? EntityType:零元素指代前面提到的實(shí)體.例如:在例7 中,第2 個(gè)EDU 中的零元素指向前一個(gè)EDU 中提及的實(shí)體“這個(gè)開(kāi)發(fā)區(qū)”;

      ? EventType:零元素指代前面提到的事件,而不是某一個(gè)實(shí)體.例如:例8 中包含兩個(gè)EDU,后一個(gè)EDU 中包含一個(gè)零元素,而它指代的正是前一個(gè)EDU 提及的事件;

      ? UnionType:零元素指代前面提到多個(gè)事件或?qū)嶓w.如例9 給出的例子,該句子包含3 個(gè)EDU:前兩個(gè)EDU 間構(gòu)成了并列關(guān)系,再與第3 個(gè)EDU 構(gòu)成了遞進(jìn)關(guān)系.在第3 個(gè)EDU 中存在一個(gè)主干成分的缺失,而這一零元素從語(yǔ)義上指代前面的“從業(yè)人員”和“私營(yíng)企業(yè)注冊(cè)資金”兩個(gè)實(shí)體;

      ? RETType:零元素指代的單元位于此零元素后面或者未顯式出現(xiàn)的某個(gè)抽象概念.例10 給出了一個(gè)先行詞在待消解項(xiàng)后面出現(xiàn)的示例.

      例8:[但全民公決不接受這一方案,]e1[φ也就終止了整個(gè)進(jìn)程.]e2

      例9:[從業(yè)人員有九萬(wàn)七千九百六十三人,]e1[私營(yíng)企業(yè)注冊(cè)資金達(dá)到了三十億零八千多萬(wàn)元,]e2[φ分別比去年同期增長(zhǎng)一成至兩成.]e3

      例10:[φ為了造福社會(huì),]e1[王碼電腦公司毅然放棄本來(lái)可以賺大錢(qián)的機(jī)會(huì).]e2

      (3) 指代關(guān)系的標(biāo)注位置

      實(shí)體與事件之間是可以相互指代的,從服務(wù)于篇章理解,進(jìn)行實(shí)體和事件的統(tǒng)一指代消解為目標(biāo),在進(jìn)行零元素指代關(guān)系構(gòu)建時(shí),我們參考Proposition Bank 中語(yǔ)義角色標(biāo)注(semantic role labeling,簡(jiǎn)稱SRL)的標(biāo)注策略,將指代的先行詞定位成篇章修辭句法組合樹(shù)中對(duì)應(yīng)的某個(gè)結(jié)點(diǎn).

      篇章修辭句法組合樹(shù)是指以段落為單位,將每個(gè)段落映射成一棵獨(dú)立的樹(shù).該樹(shù)由兩部分組合而成:以EDU為基本單位,向上通過(guò)篇章修辭關(guān)系構(gòu)建形成修辭結(jié)構(gòu)樹(shù);再針對(duì)每個(gè)EDU,抽取其對(duì)應(yīng)的句法樹(shù)或句法子樹(shù).例如例3 所示的一個(gè)篇章片段,圖1 給出了其對(duì)應(yīng)的篇章修辭樹(shù),將其葉子結(jié)點(diǎn)對(duì)應(yīng)EDU 細(xì)化成句法子樹(shù)就形成了圖2 所示的篇章修辭句法組合樹(shù).

      Fig.2 Discourse rethorical and syntatic combination tree of example 3圖2 例3 構(gòu)建形成的篇章修辭句法組合樹(shù)

      若零元素指代的是某個(gè)實(shí)體,其距離最近的表述形式為一個(gè)名詞短語(yǔ),該短語(yǔ)將被映射到修辭句法組合樹(shù)中的一個(gè)對(duì)應(yīng)的結(jié)點(diǎn).實(shí)際上,名詞短語(yǔ)不會(huì)跨越EDU,因此它是句法子樹(shù)中的某個(gè)結(jié)點(diǎn).例如:圖3 給出了例7中第1 個(gè)EDU 對(duì)應(yīng)的句法子樹(shù)部分,而先行詞“這個(gè)開(kāi)發(fā)區(qū)”與子樹(shù)中方框擴(kuò)起的“NP”結(jié)點(diǎn)對(duì)應(yīng),該結(jié)點(diǎn)可以通過(guò)起始葉結(jié)點(diǎn)的序號(hào)與從該結(jié)點(diǎn)向上的層次數(shù)的形式進(jìn)行組合定位,其中,葉結(jié)點(diǎn)的序號(hào)是從整個(gè)篇章的角度進(jìn)行編號(hào)(例7 中的“這個(gè)開(kāi)發(fā)區(qū)”得到的標(biāo)注信息是:0+3).

      Fig.3 Syntatic subtree of the first EDU in example 7圖3 例7 中第1 個(gè)EDU 對(duì)應(yīng)的句法子樹(shù)

      若零元素指代的是某個(gè)事件,其距離最近的事件表述將被標(biāo)注成先行詞.在各種事件抽取任務(wù)中,事件表述被定義為事件觸發(fā)詞與事件論元的組合.我們選取修辭句法組合樹(shù)中涵蓋事件觸發(fā)詞及論元的層次最低的結(jié)點(diǎn)作為該事件表述對(duì)應(yīng)的結(jié)點(diǎn).例如:圖4 給出了例8 中第1 個(gè)EDU 對(duì)應(yīng)的修辭句法組合樹(shù)的句法子樹(shù)部分,而先行詞是“全民公決不接受這一方案”這一事件,觸發(fā)詞是“接受”,涉及的論元有“全民公決”“這一方案”,根據(jù)這些信息可再定位到圖4 中方框擴(kuò)起的“IP”結(jié)點(diǎn)是該事件表述對(duì)應(yīng)的結(jié)點(diǎn),同樣采用起始葉結(jié)點(diǎn)在篇章中的序號(hào)與向上的層次數(shù)的形式來(lái)唯一定位該結(jié)點(diǎn).

      Fig.4 Syntatic subtree of the first EDU in example 8圖4 例8 中第1 個(gè)EDU 對(duì)應(yīng)的句法子樹(shù)

      當(dāng)零元素指代的是多個(gè)事件或?qū)嶓w的組合時(shí),分別找到各個(gè)實(shí)體和事件對(duì)應(yīng)的篇章修辭句法組合樹(shù)中的結(jié)點(diǎn),再向上找尋它們共同的最低父結(jié)點(diǎn),將該結(jié)點(diǎn)作為映射得到的結(jié)點(diǎn).例如:例9 對(duì)應(yīng)的篇章修辭句法組合樹(shù)如圖5 所示,先行詞涉及兩個(gè)實(shí)體,它們分別對(duì)應(yīng)句法子樹(shù)部分方框擴(kuò)起的兩個(gè)NP 結(jié)點(diǎn),再向上找到最低的父結(jié)點(diǎn)是圓形擴(kuò)起的“并列”結(jié)點(diǎn).

      Fig.5 Discourse rethorical and syntatic combination tree of example 9圖5 例9 對(duì)應(yīng)的篇章修辭句法組合樹(shù)

      可以看到:通過(guò)上述方式,我們可以統(tǒng)一的進(jìn)行多種先行詞的標(biāo)注.

      3 篇章視角的漢語(yǔ)零指代標(biāo)注規(guī)范的制定和語(yǔ)料構(gòu)建

      3.1 文本數(shù)據(jù)的準(zhǔn)備

      我們選取賓州漢語(yǔ)樹(shù)庫(kù)(Chinese treebank,簡(jiǎn)稱CTB)[41]中的前325 篇(chtb0001~chtb0325)文本進(jìn)行零指代結(jié)構(gòu)的標(biāo)注,標(biāo)注的同時(shí)進(jìn)行了成分句法結(jié)構(gòu)、實(shí)體指代結(jié)構(gòu)和篇章修辭結(jié)構(gòu)的融合.

      CTB 語(yǔ)料由LDC 正式發(fā)布,在NLP 領(lǐng)域的很多任務(wù)中都有廣泛應(yīng)用,經(jīng)過(guò)多年的積累,已經(jīng)包含句法、淺層語(yǔ)義、可比較語(yǔ)料、實(shí)體指代消解等多方面的標(biāo)注信息.首先,CTB 語(yǔ)料提供了標(biāo)準(zhǔn)的成分句法分析結(jié)果,為構(gòu)建篇章修辭句法組合樹(shù)奠定了句法部分的基礎(chǔ);其次,OntoNotes 語(yǔ)料給出了實(shí)體指代結(jié)構(gòu)、語(yǔ)義角色標(biāo)注等多方面的信息,其N(xiāo)W 部分涵蓋了CTB 的這325 個(gè)文檔,為零指代結(jié)構(gòu)與普通的實(shí)體指代結(jié)構(gòu)的融合奠定了基礎(chǔ);最后,蘇州大學(xué)自然語(yǔ)言團(tuán)隊(duì)發(fā)布的基于連接詞驅(qū)動(dòng)的篇章樹(shù)(connective-driven discourse tree,簡(jiǎn)稱CDT)結(jié)構(gòu)的漢語(yǔ)篇章樹(shù)庫(kù)(Chinese discourse treebank,簡(jiǎn)稱CDTB)[38,39]中也涵蓋了這325 個(gè)文檔,為從篇章視角進(jìn)行零指代結(jié)構(gòu)的標(biāo)注提供了篇章體系結(jié)構(gòu)的支撐.根據(jù)其標(biāo)注的標(biāo)準(zhǔn)段落、句子信息以及CDTB 中標(biāo)注的標(biāo)準(zhǔn)EDU信息進(jìn)行統(tǒng)計(jì),該語(yǔ)料總共包含1 367 個(gè)段落(即1 367 棵篇章修辭結(jié)構(gòu)樹(shù)),4 098 個(gè)句子,6 628 個(gè)EDU.

      3.2 規(guī)范制定和標(biāo)注過(guò)程

      標(biāo)注工作分為3 個(gè)階段.

      ? 第1 階段確定初步的標(biāo)注規(guī)范,并設(shè)計(jì)開(kāi)發(fā)相應(yīng)的標(biāo)注平臺(tái).這部分工作的主要參與者是對(duì)可計(jì)算有一定理解的資深語(yǔ)言學(xué)家,在大量生語(yǔ)料分析的基礎(chǔ)上,同時(shí)考慮語(yǔ)料標(biāo)注的質(zhì)量以及通用性,充分討論的基礎(chǔ)上形成初步的標(biāo)注規(guī)范.然后對(duì)將要參與標(biāo)注的人員進(jìn)行初步培訓(xùn),確保他們真實(shí)理解這一規(guī)范;

      ? 第2 階段是預(yù)標(biāo)注階段,主要希望通過(guò)實(shí)踐來(lái)確認(rèn)參與標(biāo)注的人員對(duì)規(guī)范的理解,同時(shí)檢驗(yàn)規(guī)范的可實(shí)施性,并在標(biāo)注過(guò)程中對(duì)規(guī)范進(jìn)行微調(diào),并得到最終的標(biāo)注規(guī)范;

      ? 第3 階段是正式標(biāo)注和質(zhì)量保證階段.根據(jù)最終的標(biāo)注規(guī)范完成所有文檔的標(biāo)注,對(duì)最終的標(biāo)注文檔逐一校對(duì),通過(guò)一致性分析確定分歧較大的語(yǔ)篇,以討論的形式進(jìn)行修正或刪除不合理項(xiàng),形成完整的可發(fā)布的中文篇章零元素語(yǔ)料庫(kù).

      篇章視角的零指代結(jié)構(gòu)的標(biāo)注是在以段落為單位的篇章修辭句法組合樹(shù)上進(jìn)行,以給定的實(shí)體指代鏈為輔助信息.標(biāo)注過(guò)程分3 步進(jìn)行:(1) 零元素及其類型的確定;(2) 先行詞的確定;(3) 指代關(guān)系類型的確定.

      為了簡(jiǎn)化工作量、提高標(biāo)注效率以及標(biāo)注一致性,我們首先將標(biāo)注工作流程化,在恰當(dāng)?shù)膱?chǎng)合提供必要的輔助信息.給定文本后,從CTB,CDTB 中提取句法和篇章修辭信息,以段落為單位,構(gòu)建形成篇章修辭句法組合樹(shù).當(dāng)用戶確定當(dāng)前段落后,進(jìn)入標(biāo)注的3 個(gè)階段.

      (1) 在零元素及其類型的確定階段,EDU 是零元素確定的基本單位,篇章間的修辭結(jié)構(gòu)或EDU 內(nèi)的局部句法信息是確定零元素類別的參考依據(jù).因此,將段落以切分好的EDU 為單位進(jìn)行篇章修辭結(jié)構(gòu)的展現(xiàn),在標(biāo)注者指定相應(yīng)的EDU 后,再進(jìn)一步展現(xiàn)EDU 對(duì)應(yīng)的句法子樹(shù),讓標(biāo)注者依據(jù)相關(guān)信息進(jìn)行零元素及其類型的確定;

      (2) 設(shè)定零元素后,進(jìn)入先行詞的確定環(huán)節(jié).完整展現(xiàn)零元素前對(duì)應(yīng)篇章修辭句法組合樹(shù)的內(nèi)容,同時(shí)讀取OntoNotes 中標(biāo)注的實(shí)體指代關(guān)系,并將相關(guān)的表述映射到修辭句法樹(shù)中的各結(jié)點(diǎn),在用戶進(jìn)行先行詞對(duì)應(yīng)結(jié)點(diǎn)選擇時(shí),進(jìn)行實(shí)體指代信息的提示;

      (3) 選定先行詞后,根據(jù)EDU 跨度情況自動(dòng)確定是inter-EDU 還是intra-EDU 類型,同時(shí)讓用戶確定指代對(duì)象的類型.根據(jù)用戶指定的類型信息,結(jié)合零元素位置(段落中第幾個(gè)詞的前面,詞的劃分以修辭句法樹(shù)中的葉節(jié)點(diǎn)為標(biāo)準(zhǔn))和類型,先行詞對(duì)應(yīng)的結(jié)點(diǎn),形成完整的指代結(jié)構(gòu)信息,將這些信息以獨(dú)立的XML 文件格式保存.

      根據(jù)上述標(biāo)注流程,我們?cè)O(shè)計(jì)并開(kāi)發(fā)實(shí)現(xiàn)了篇章視角的零元素標(biāo)注平臺(tái),平臺(tái)的基本工作流程如圖6 所示.從工作流程可以看到:在標(biāo)注過(guò)程中,標(biāo)注者對(duì)于零元素的位置、類型、先行詞的結(jié)點(diǎn)以及指代關(guān)系的類型等信息的確定均以“選擇”動(dòng)作為主.此外,通過(guò)標(biāo)注平臺(tái)將一些不可能的位置屏蔽,設(shè)定一些必要的約束,例如零元素不能出現(xiàn)在某個(gè)詞的內(nèi)部,一個(gè)EDU 最多只能有一個(gè)主干型零元素等,以此來(lái)保障標(biāo)注質(zhì)量,提升標(biāo)注結(jié)果的一致性.

      Fig.6 Annotation procedure of chinese zero elments from discourse perspective圖6 中文篇章零元素標(biāo)注平臺(tái)的基本處理流程圖

      最終形成的XML 格式的標(biāo)注信息如圖7 所示.每一個(gè)零指代關(guān)系對(duì)應(yīng)形成一個(gè)ZLink 標(biāo)簽,而ZLink 標(biāo)簽中,EDUType 表明的是當(dāng)前這一指代關(guān)系是EDU 內(nèi)部的,還是跨EDU 的;ANTType 表明的是先行詞屬于哪種類型,具體對(duì)應(yīng)第2.2 節(jié)中給出的類別信息;ID 是以段落為單位順序遞增方式的序號(hào).在每個(gè)ZLink 中包含兩個(gè)基本元素,即零元素和其指代的距離最近的先行詞.零元素給出的是位于哪個(gè)詞的前面,position 記錄的是這個(gè)詞在段落中的序號(hào),type 用于表明零元素是主干型還是修飾型零元素.先行詞則通過(guò)起始位置(position)和層次(level)定位了篇章修辭句法組合樹(shù)中對(duì)應(yīng)結(jié)點(diǎn)的狀況,若先行詞是OntoNotes 中已標(biāo)注的實(shí)體鏈上的某個(gè)表述,則EntityID 用于記錄這個(gè)指代鏈的序號(hào).

      Fig.7 Annotation result in XML format of chinese zero anaphora structure圖7 漢語(yǔ)零指代結(jié)構(gòu)對(duì)應(yīng)的XML 標(biāo)注

      3.3 標(biāo)注語(yǔ)料一致性評(píng)價(jià)及分析

      本文采用語(yǔ)料標(biāo)注領(lǐng)域大家廣泛接受的Kappa 檢驗(yàn)[42]進(jìn)行一致性檢驗(yàn),以此來(lái)評(píng)估語(yǔ)料標(biāo)注的質(zhì)量.Kappa 計(jì)算公式如下:

      其中,PO表示觀察一致率,PC表示偶然一致率.通常認(rèn)為:Kappa 值大于0.75,則表示標(biāo)注具有較好的一致性;如果Kappa 值小于0.4,則表示一致性較差.

      從標(biāo)注語(yǔ)料中隨機(jī)抽取30 篇文檔,再選取兩名標(biāo)注人員對(duì)它們進(jìn)行獨(dú)立標(biāo)注,再根據(jù)標(biāo)注結(jié)果計(jì)算標(biāo)注的一致性.漢語(yǔ)零指代語(yǔ)料的一致性主要包括以下4 個(gè)方面.

      (1) 零元素位置的一致性:以EDU 為單位,當(dāng)標(biāo)注零元素的在EDU 內(nèi)部的位置相同時(shí),認(rèn)為零元素標(biāo)注是一致的;

      (2) 零元素類別的一致性:當(dāng)零元素位置一致,再檢測(cè)主干型和修飾型類別是否一致;

      (3) 先行詞的一致性:如果標(biāo)注的先行詞位置相同,認(rèn)為標(biāo)注的先行詞一致;此外,當(dāng)標(biāo)注的零元素先行詞具有EntityID,且EntityID 相同,即使先行詞位置不同(也就是選取了相同實(shí)體鏈上不同的表述作為其先行詞),我們?nèi)匀徽J(rèn)為這個(gè)標(biāo)注是一致的;

      (4) 指代關(guān)系類型的一致性:當(dāng)先行詞一致,再檢測(cè)指代的類型Entity,Event,Union 和RET 是否一致.

      通過(guò)計(jì)算,本語(yǔ)料的零元素位置標(biāo)注的一致性的Kappa 值為0.88,零元素類別標(biāo)注的一致性Kappa 值為0.85,先行詞的標(biāo)注一致性的Kappa 為0.82,指代關(guān)系類型的一致性Kappa 值為0.81,4 個(gè)指標(biāo)均超過(guò)了0.8,表明該語(yǔ)料的標(biāo)注質(zhì)量可靠.

      3.4 語(yǔ)料規(guī)模的統(tǒng)計(jì)說(shuō)明

      篇章視角的漢語(yǔ)零指代語(yǔ)料庫(kù)共包含325 篇文檔(chtb0001~chtb0325),全部來(lái)源于CTB 語(yǔ)料,我們共標(biāo)注了零指代鏈2 672 個(gè),平均每個(gè)段落包含零指代關(guān)系1.95 個(gè).因?yàn)闃?biāo)注過(guò)程中進(jìn)行了約束,每個(gè)EDU 最多只有一個(gè)主干型零元素,而實(shí)際上包含多個(gè)零元素的EDU 極少,只出現(xiàn)2 個(gè),可以看到,包含零元素的EDU 約占EDU總數(shù)的40.31%.

      下面對(duì)篇章視角的漢語(yǔ)零指代語(yǔ)料庫(kù)中零元素的分布情況以及指代鏈的分布情況進(jìn)行了統(tǒng)計(jì)分析.

      (1) 零元素的段落分布

      基于段落對(duì)零元素分布進(jìn)行統(tǒng)計(jì),對(duì)應(yīng)結(jié)果見(jiàn)表1.可以看到:在所有的1 367 個(gè)段落中,不包含零元素的段落僅占總數(shù)的31.09%,有425 個(gè)段落.也就是說(shuō),漢語(yǔ)篇章表述中,約有68.91%的段落中存在零元素.這也說(shuō)明了漢語(yǔ)中省略是普遍存在的,漢語(yǔ)零指代是漢語(yǔ)的重要特效之一.

      Table 1 Zero elements distribution over paragraphs表1 以段落為單位包含零元素?cái)?shù)量的分布統(tǒng)計(jì)

      (2) 零元素的類別分布

      針對(duì)零元素類別分布進(jìn)行統(tǒng)計(jì),其分布結(jié)果見(jiàn)表2.可以看到:主干型零元素(Main)占據(jù)了絕大部分,其比例高達(dá)80.16%,這部分零元素對(duì)篇章語(yǔ)義的理解以及篇章層的分析起到至關(guān)重要的作用;剩余的修飾型零元素所占比例約為19.84%,該部分主要關(guān)聯(lián)的是EDU 內(nèi)部的細(xì)節(jié)語(yǔ)義,能輔助局部句法和語(yǔ)義分析,在后續(xù)的研究中依舊存在不可替代的作用.

      Table 2 Zero elements distritution over categories表2 零元素類別分布統(tǒng)計(jì)

      (3) 零指代鏈的類別分布

      表3 給出了零指代鏈在EDU 內(nèi)和跨越EDU 這兩種情況的數(shù)量及比例,可以看到,跨越EDU 的零指代關(guān)系占到了絕大多數(shù).這也進(jìn)一步說(shuō)明指代是篇章層面的特性,是篇章銜接性的一種體現(xiàn).

      Table 3 Zero anaphora distribution over distances表3 零指代關(guān)系的距離類別分布統(tǒng)計(jì)

      我們對(duì)Inter-EDU 類型的零指代關(guān)系進(jìn)行了進(jìn)一步的類別統(tǒng)計(jì),表4 給出了按先行詞類別進(jìn)行統(tǒng)計(jì)得到的數(shù)量分布.從表4 所示的結(jié)果可以看到:先行詞是Entity 類別的情況占到了絕大多數(shù),約為94.91%.對(duì)這類零指代進(jìn)行進(jìn)一步統(tǒng)計(jì)發(fā)現(xiàn),先行詞是OntoNotes 中已標(biāo)注的某個(gè)實(shí)體指代鏈的零指代鏈有2 188 個(gè),約占實(shí)體類零指代的92.41%;還有180 個(gè)零元素的先行詞是由未構(gòu)成實(shí)體指代鏈的獨(dú)立名詞短語(yǔ)承擔(dān),約占實(shí)體類零指代鏈的7.60%.

      Table 4 Inter-EDU zero anaphora distribution over types表4 Inter-EDU 類型的零指代關(guān)系的指代類別分布統(tǒng)計(jì)

      (4) 跨EDU 的零指代鏈的距離分布

      表5 給出了Inter-EDU 類型的零指代關(guān)系跨EDU 數(shù)量的分布情況.從統(tǒng)計(jì)結(jié)果可以看到:零指代關(guān)系跨度小于等于3 個(gè)EDU 的情況占到了總情況的92.71%,而超過(guò)3 個(gè)EDU 的零指代關(guān)系通常為Entity 類型.

      Table 5 Inter-EDU zero anaphora distribution over distances表5 Inter-EDU 類型的零指代關(guān)系的距離分布統(tǒng)計(jì)

      3.5 與OntoNotes中標(biāo)注的零指代結(jié)構(gòu)的對(duì)比

      最后,我們將篇章視角的零指代結(jié)構(gòu)的標(biāo)注結(jié)果與OntoNotes 中已標(biāo)注的句法視角的零指代結(jié)構(gòu)進(jìn)行了對(duì)比.OntoNotes 中選取了*pro*部分進(jìn)行了零指代信息的標(biāo)注.在我們選取的325 篇來(lái)源CTB 的文檔中,*pro*共有1 077 個(gè),其中,在實(shí)體指代鏈上的*pro*為944 個(gè),有133 個(gè)*pro*被認(rèn)為是非待消解的零元素.而我們的篇章視角的零指代語(yǔ)料庫(kù)共標(biāo)注了2 672 個(gè)零元素,其中,有1 010 個(gè)與OntoNotes 中標(biāo)注的零元素重疊,與OntoNotes 中標(biāo)注的實(shí)體指代鏈上的零元素重疊的有900 個(gè).這1 010 個(gè)重疊的零元素按照我們給出的零元素分類體系進(jìn)行分類,具體的分布見(jiàn)表6.

      進(jìn)一步觀察這1 010 個(gè)重疊的零元素,發(fā)現(xiàn)有110 個(gè)零元素在OntoNotes 中被視為非待消解項(xiàng).與OntoNotes語(yǔ)料只關(guān)注實(shí)體指代不同,在我們的語(yǔ)料中,為了后續(xù)進(jìn)行多種類型指代的聯(lián)合學(xué)習(xí),語(yǔ)料標(biāo)注涵蓋了Event,Union 和RET 類型.表7 給出了1 010 個(gè)重疊零元素形成的指代關(guān)系的類別分布情況.

      從表7 給出的類別分布統(tǒng)計(jì)結(jié)果可以看到:修飾型零元素在EDU 內(nèi)就完成了指代的消解的情況占到總數(shù)的17.03%,而占據(jù)絕大多數(shù)的仍然是跨EDU 的實(shí)體類的指代關(guān)系.

      Table 6 Distribution over categories of zero elements overlapping with the OntoNotes corpus表6 與OntoNotes 中重疊的零元素類別分布統(tǒng)計(jì)

      Table 7 Distribution over types of zero anaphora overlapping with the ontonotes corpus表7 與OntoNotes 中重疊的零元素對(duì)應(yīng)的指代關(guān)系的類別分布統(tǒng)計(jì)

      除上述重疊部分,我們進(jìn)一步分析了不重疊的情況,可以分為兩種情況.

      (1) OntoNotes 中未標(biāo)注零元素,而在我們的語(yǔ)料中將其視為零元素.

      例11 給出了一個(gè)典型的例子.從統(tǒng)計(jì)數(shù)據(jù)可以看到:我們的語(yǔ)料中包含了2 672 個(gè)零元素,是OntoNotes 中標(biāo)注的零元素2.48 倍.對(duì)比標(biāo)注結(jié)果發(fā)現(xiàn):多出的零元素部分,例11 給出的情況占據(jù)了很大的比例.這也是Yang和Xue[14]基于多種句法信息進(jìn)行了零元素識(shí)別和恢復(fù)的可計(jì)算研究后,分析他們的實(shí)驗(yàn)結(jié)果得出的一個(gè)結(jié)論——很難區(qū)分是出現(xiàn)了零元素還是句法層面的共享主語(yǔ).

      例11:[去年外商投資企業(yè)出口商品中,工業(yè)制成品占九成以上,]e1[φ達(dá)四百三十八點(diǎn)八億美元,]e2[φ比上年增長(zhǎng)了百分之三十六點(diǎn)七,]e3[φ明顯高于全國(guó)平均水平.]e4

      在篇章表示體系中,EDU 被認(rèn)為是篇章構(gòu)成的基本單位,因此篇章視角的零指代表示體系也以EDU 為考察零元素存在與否的基本單元.若它有語(yǔ)義成分上的缺失,而且這個(gè)缺失可以從上下文中恢復(fù),我們就將這一缺失的語(yǔ)義成分看作零元素.例11 所示的句子包含4 個(gè)EDU,后3 個(gè)EDU 中存在明顯的語(yǔ)義缺失,而缺失的對(duì)象可以從前面的EDU 中恢復(fù),因此我們認(rèn)為后3 個(gè)EDU 中出現(xiàn)的是零元素,而不是主語(yǔ)共享.而且從指代鏈類型看,出現(xiàn)在e2 中的第1 個(gè)零元素和出現(xiàn)在e3 中的第2 個(gè)零元素指代的是“工業(yè)制成品”,屬于Entity 類型;而出現(xiàn)在e4 中的第3 個(gè)零元素指代的是“增長(zhǎng)”這件事,屬于Event 類型.

      例12 給出了一個(gè)篇章視角不存在零元素,句法視角是共享主語(yǔ)的示例,圖8 給出了對(duì)應(yīng)的句法分析結(jié)果.例12 僅包含一個(gè)EDU,這個(gè)EDU 表述的內(nèi)容是完整的.而“會(huì)積極配合學(xué)校發(fā)展中心”和“密切與學(xué)校相關(guān)部門(mén)聯(lián)系與合作”間共享了主語(yǔ)“公司”.我們認(rèn)為:若VP 節(jié)點(diǎn)與其主語(yǔ)位于同一個(gè)EDU 內(nèi)部時(shí),對(duì)上層篇章來(lái)說(shuō),該EDU 表述是完整的,則當(dāng)前省略表述不作為篇章零元素,而是句法層的共享主語(yǔ)現(xiàn)象.

      例12:[他說(shuō),公司會(huì)積極配合學(xué)校發(fā)展中心,密切與學(xué)校相關(guān)部門(mén)聯(lián)系與合作.]e1

      (2) OntoNotes 中標(biāo)注了零元素,而在我們的語(yǔ)料中未將其視為零元素.

      對(duì)比語(yǔ)料發(fā)現(xiàn),這一現(xiàn)象共有67 處.其中,位于OntoNotes 標(biāo)注的實(shí)體指代鏈上的零元素有44 處.例13~例19 給出了一些OntoNotes 中進(jìn)行了標(biāo)注(*pro*),而我們的語(yǔ)料未標(biāo)注的零元素示例.從這些例子可以看到:關(guān)聯(lián)某個(gè)具體的驅(qū)動(dòng)謂詞,確實(shí)存在句法層面的成分缺失.然而從篇章視角看,這些OntoNotes 中標(biāo)注的缺失成分都不是銜接上下文的語(yǔ)義成分,它們通常指代的是一些常識(shí)性的實(shí)體,對(duì)篇章的理解幾乎沒(méi)有影響.例如,例14 中標(biāo)注的*pro*與驅(qū)動(dòng)詞“有”相關(guān)聯(lián),從句法層看缺失了“有”的施事者,但這個(gè)施事者在上下文中是沒(méi)有銜接角色的,因此對(duì)篇章理解沒(méi)有意義.同樣,例16 中,謂詞“出臺(tái)”的施事者缺失了,但這個(gè)施事者在上下文中并未承擔(dān)銜接作用,對(duì)篇章理解是沒(méi)有影響的.

      例13:據(jù)了解,目前,*pro*在外商投資企業(yè)獲得的人民幣貸款中,有近一半是中國(guó)銀行提供的.

      例14:*pro*有人預(yù)言,隨著九江的進(jìn)一步開(kāi)放開(kāi)發(fā),王翔將從政府劃給他的土地中獲得可觀的利潤(rùn).

      例15:董建華在*pro*評(píng)論該指數(shù)時(shí)表示,香港特區(qū)已連續(xù)四年成為全球最自由的經(jīng)濟(jì)體.

      例16:如*pro*省里出臺(tái)并實(shí)施的《四川省鼓勵(lì)外商投資優(yōu)惠政策》等,為外商提供了優(yōu)惠、寬松的政策 環(huán)境.

      例17:*pro*在*pro*與中國(guó)締結(jié)友好城市中,以日本為最多.

      例18:研究人員介紹說(shuō),*pro*國(guó)外目前普遍使用的各種化學(xué)合成降糖藥對(duì)糖尿病并發(fā)癥均無(wú)多大的防治作用.

      例19:鎳儲(chǔ)量占*pro*中國(guó)國(guó)內(nèi)已探明儲(chǔ)量的百分之七十.

      Fig.8 Syntatic parse tree of example 12圖8 例12 對(duì)應(yīng)的句法樹(shù)

      4 篇章視角的零指代消解基準(zhǔn)平臺(tái)

      完整的零指代消解平臺(tái)由零元素識(shí)別和零元素消解兩部分構(gòu)成,其中:已有的零元素識(shí)別相關(guān)研究多以句子或子句為單位,依據(jù)句法分析的結(jié)果從句法成分的缺失這一角度進(jìn)行,使得零元素識(shí)別的性能對(duì)句法分析的結(jié)果有著嚴(yán)重的依賴;另一方面,零元素消解的相關(guān)研究則集中在如何更好地表征零元素所處的上下文信息.從篇章視角構(gòu)建零指代消解基準(zhǔn)平臺(tái)需要進(jìn)行以下幾個(gè)方面的考慮:首先,既然是篇章層的語(yǔ)言現(xiàn)象,高效的零指代消解必然需要多粒度的篇章信息的支持;其次,篇章級(jí)的任務(wù)更豐富、更復(fù)雜,它們之間必然存在密切的聯(lián)系,而這些聯(lián)系決定了不能孤立地討論零指代;最后,零指代歸根結(jié)底是指代的一種,進(jìn)行包括實(shí)體指代、事件指代在內(nèi)的多種指代的聯(lián)合消解勢(shì)在必行.因此,零指代消解應(yīng)借鑒較為成熟的實(shí)體指代框架.

      基于上述考慮,我們選擇了Kong 和Zhou[26]給出的鏈到鏈的漢語(yǔ)零指代消解方案作為基準(zhǔn)平臺(tái)構(gòu)建的基本方法,在實(shí)現(xiàn)上進(jìn)行了以下改動(dòng):(1) 用基于篇章單元(EDU)的零元素識(shí)別模塊替換了原來(lái)的零元素識(shí)別模塊;(2) 將實(shí)體指代消解模塊替換成了性能更好的基于神經(jīng)網(wǎng)絡(luò)的實(shí)體指代消解平臺(tái)[26];(3) 在零元素鏈接環(huán)節(jié),將原有的人工特征都作為附加特征進(jìn)行了向量表征,同時(shí)增加了基于Mask 機(jī)制的零元素表征;(4) 零指代關(guān)系的確定替換成了實(shí)體指代消解平臺(tái)中的前饋神經(jīng)網(wǎng)絡(luò)方法.關(guān)于鏈到鏈的漢語(yǔ)零指代消解方法的細(xì)節(jié),請(qǐng)參考Kong 和Zhou 的論文[26];實(shí)體指代消解平臺(tái)及前饋神經(jīng)網(wǎng)絡(luò)方法,請(qǐng)參考Kong 和Fu 的論文[26].本節(jié)主要介紹基于EDU 的零元素識(shí)別和基于Mask 機(jī)制的零元素表征.

      4.1 基于EDU的零元素識(shí)別

      給定一個(gè)EDU,我們認(rèn)為:構(gòu)成EDU 的每個(gè)詞的前面均有可能存在零元素,唯一不可能存在零元素的位置是最后一個(gè)詞的后面.因此,我們將零元素識(shí)別看作一個(gè)邊界點(diǎn)識(shí)別問(wèn)題,通過(guò)編碼-解碼框架來(lái)進(jìn)行,圖9 給出了這一框架的具體構(gòu)成.

      Fig.9 EDU based zero element detection framework圖9 基于EDU 的零元素識(shí)別框架

      在編碼階段,以EDU 為基本單元作為模型的輸入.將含有n個(gè)詞的EDU 記做E={w1,w2,w3,…,wn},其中,wi表示EDU 中的第i個(gè)詞.利用預(yù)訓(xùn)練的Embedding 矩陣將每個(gè)詞wi映射為低維稠密的詞向量,再將該詞向量與隨機(jī)初始化的詞性向量拼接作為BiLSTM 的輸入,借助BiLSTM 動(dòng)態(tài)捕獲文本的序列信息,其在兩個(gè)方向上的 最后一個(gè)隱狀態(tài)的拼接d?將承擔(dān)解碼器初始狀態(tài)的角色:

      解碼環(huán)節(jié)采用指針網(wǎng)絡(luò)模型實(shí)現(xiàn),它由解碼器(decoding phrase)和定位器(pointing phrase)兩部分構(gòu)成.解碼 器將啟動(dòng)單元Um作為輸入,經(jīng)過(guò)一個(gè)單向LSTM 后獲得對(duì)應(yīng)輸出dm,其中首次啟動(dòng)單元為d?,之后的啟動(dòng)單元 為前一次定位器確定位置的詞wi對(duì)應(yīng)的編碼hi:

      解碼時(shí),由于每個(gè)輸入序列中包含的零元素?cái)?shù)量不確定,在得到解碼器的輸出向量dm后,我們使用指向機(jī)制(pointing mechanism)[43]計(jì)算輸入序列中位于啟動(dòng)單元之后的零元素的位置,具體公式如下:

      其中,h和dm分別為編碼層和解碼器(decoding phase)的對(duì)應(yīng)輸出,j表示輸入序列中詞的位置.假設(shè)此時(shí)的啟動(dòng)單元為原序列中的第i個(gè)詞,vT,W1,W2均為固定維度的參數(shù),可由訓(xùn)練得到p,即啟動(dòng)單元為Um(原序列中wi)時(shí),各位置前包含零元素的概率,最后,取概率最大的位置作為零元素.

      訓(xùn)練時(shí)采用“teacher forcing”機(jī)制[44]來(lái)訓(xùn)練模型,即:為解碼器提供正確的零元素的位置和啟動(dòng)單元Um,測(cè)試時(shí)則使用模型的當(dāng)前輸出來(lái)確定下一步的輸入.以圖9 給出的輸入序列“一是繼續(xù)鼓勵(lì)和支持外來(lái)投資,”為例,具體解碼過(guò)程為:

      ? 首先,將編碼器的輸出d?作為起始啟動(dòng)單元送入解碼器端的LSTM 得到d0;然后,通過(guò)公式(5)和公式 (6)計(jì)算輸入序列中所有位置的零元素分布概率,得到“繼續(xù)”一詞前面存在零元素的概率最高,因此可以確認(rèn)第一個(gè)分割邊界“Boundary1”,第1 輪解碼完成;

      ? 再將“繼續(xù)”作為第2 輪次的啟動(dòng)單元,將其對(duì)應(yīng)的編碼端向量送入解碼器端的LSTM 得到d8,同前一步,利用公式(5)和公式(6)計(jì)算其右側(cè)各位置的零元素分布概率,發(fā)現(xiàn)最后一個(gè)詞“,”的概率最大,此時(shí),我們認(rèn)為該EDU 已沒(méi)有零元素存在,解碼結(jié)束.

      4.2 基于Mask機(jī)制的零元素表征

      與傳統(tǒng)的實(shí)體指代消歧相比,在零指代消解中,如何高效地表征零元素是一個(gè)難點(diǎn).本文采用的基于Mask機(jī)制的零元素表征方法,其思路來(lái)自于BERT 模型[45].該模型訓(xùn)練時(shí)采用Masked Language Model 的方法,即:隨機(jī)使用MASK 標(biāo)記覆蓋每個(gè)句子中約15%的詞,用其上下文來(lái)預(yù)測(cè)這些詞.很自然地想到:零元素本質(zhì)上可以看作被MASK 掉的詞,當(dāng)有足夠上下文可以預(yù)測(cè)這些詞時(shí),該MASK 標(biāo)記對(duì)應(yīng)的向量可以看作是零元素的表征結(jié)果.因此,我們可以借助預(yù)訓(xùn)練的BERT 模型來(lái)進(jìn)行零元素的表征.具體做法是:在預(yù)處理階段,給零元素所在的位置增加一個(gè)“[MASK]”標(biāo)記,來(lái)顯式地表示零元素(訓(xùn)練時(shí)已知正確的零元素位置,測(cè)試時(shí)借助零元素識(shí)別模塊自動(dòng)識(shí)別零元素).

      圖10 給出了“一是繼續(xù)鼓勵(lì)和支持外來(lái)投資,”示例中“繼續(xù)”前的零元素表征的示意圖.在獲得零元素表征后,與原有的已經(jīng)向量化的人工特征進(jìn)行拼接,得到完整的表征后即可進(jìn)行鏈接消歧.

      Fig.10 Mask mechanism based zero element representation圖10 基于Mask 機(jī)制的零元素表征

      4.3 基準(zhǔn)平臺(tái)的實(shí)驗(yàn)結(jié)果

      由于語(yǔ)料規(guī)模有限,基準(zhǔn)平臺(tái)的實(shí)驗(yàn)采用5 倍交叉驗(yàn)證的方式進(jìn)行,使用Precision(P),Recall(R),F1-score(F)作為評(píng)測(cè)標(biāo)準(zhǔn).驗(yàn)證集是從訓(xùn)練集中隨機(jī)劃分出的數(shù)據(jù),占比為15%,使用早停法(early stopping)來(lái)保存驗(yàn)證集上最好的模型,置信度設(shè)為10.模型采用批訓(xùn)練的方法,訓(xùn)練輪次為100,批次大小為32,使用adam 學(xué)習(xí)器進(jìn)行參數(shù)迭代更新,學(xué)習(xí)率為0.001.在embedding 和LSTM 層后引入dropout 機(jī)制,dropout 大小為0.5,LSTM 的層數(shù)為1,使用BERT 的“BERT-Base-uncased”版本來(lái)生成原始的嵌入,詞嵌入維度300,詞性嵌入維度20,隱藏層維度128.

      表8 給出了基于EDU 的零元素識(shí)別的性能.從結(jié)果可以看出,主干零元素的識(shí)別性能遠(yuǎn)遠(yuǎn)高于修飾型零元素的識(shí)別性能.可能的原因有兩方面:一是修飾型零元素占比較低,相應(yīng)的訓(xùn)練實(shí)例缺乏;二是直覺(jué)上修飾型零元素更多地依賴局部的句法信息,基準(zhǔn)平臺(tái)主要考慮了詞與詞之間的序列信息,后續(xù)可通過(guò)句法信息的融入進(jìn)一步改善修飾型零元素的識(shí)別性能.此外,從面向篇章理解的視角來(lái)看,主干零元素在篇章的組織、話題的演變等方面起著更為重要的銜接作用,高效地識(shí)別出主干型零元素,能夠有助于對(duì)整個(gè)篇章的理解.

      Table 8 Performance of EDU based Zero Element Detection表8 基于EDU 的零元素識(shí)別的性能

      表9 給出了零指代消解的性能.所謂“標(biāo)準(zhǔn)實(shí)體鏈”,我們抽取了OntoNotes 中標(biāo)注的實(shí)體指代鏈作為已知信息,僅僅完成將零元素鏈接到對(duì)應(yīng)實(shí)體鏈上的工作;而“自動(dòng)實(shí)體鏈”則使用Kong 和Fu[26]的系統(tǒng)自動(dòng)獲取實(shí)體指代鏈(使用OntoNotes 語(yǔ)料重新訓(xùn)練該系統(tǒng),將本語(yǔ)料的325 篇文本作為測(cè)試集,使用CoNLL 評(píng)測(cè)得到的實(shí)體指代消解的性能為69.66%).從表中列出的實(shí)驗(yàn)結(jié)果可以看到:不論是標(biāo)準(zhǔn)還是自動(dòng)實(shí)體指代鏈,零元素的識(shí)別性能都對(duì)零指代消解的性能產(chǎn)生很大的影響,F1 值下降了大約10%.但相比已有的從句法視角進(jìn)行的研究(Chen 等人[21,27]以及Kong 和Zhou[26]等,自動(dòng)零元素下消解性能下降了約20%),下降幅度有所減小,后續(xù)將考慮融入更多的篇章級(jí)信息來(lái)增強(qiáng)系統(tǒng)的魯棒性.

      Table 9 Performance of Zero Anaphor Resolution表9 零指代消解的性能

      5 總結(jié)與展望

      從服務(wù)于篇章分析和文本理解出發(fā),本文給出了漢語(yǔ)零指代結(jié)構(gòu)的表示體系,并基于這一表示體系選取漢語(yǔ)樹(shù)庫(kù)CTB、連接詞驅(qū)動(dòng)的漢語(yǔ)篇章樹(shù)庫(kù)CDTB 和OntoNotes 語(yǔ)料中重疊的325 篇文本進(jìn)行了漢語(yǔ)零指代的標(biāo)注,構(gòu)建了一定規(guī)模的漢語(yǔ)零指代語(yǔ)料庫(kù).系統(tǒng)檢測(cè)表明:本文提出的表示體系合理有效,構(gòu)造的語(yǔ)料庫(kù)質(zhì)量上乘,能夠?yàn)槠乱暯堑臐h語(yǔ)零指代研究提供必要的支撐.

      本文的主要貢獻(xiàn)體現(xiàn)在3 個(gè)方面:(1) 從篇章視角構(gòu)建了漢語(yǔ)零指代表示體系,并據(jù)此構(gòu)建了一定規(guī)模的漢語(yǔ)零指代語(yǔ)料庫(kù),為篇章視角的漢語(yǔ)零指代研究提供了支持;(2) 提出的漢語(yǔ)零指代表示體系使用了漢語(yǔ)篇章微觀修辭結(jié)構(gòu)表示體系中定義的基本篇章單元EDU 和篇章修辭結(jié)構(gòu)樹(shù),為探索漢語(yǔ)篇章微觀修辭結(jié)構(gòu)與漢語(yǔ)零指代之間的關(guān)系,開(kāi)展兩者的聯(lián)合學(xué)習(xí)奠定了扎實(shí)的基礎(chǔ),同時(shí)也為構(gòu)建多視角的漢語(yǔ)篇章結(jié)構(gòu)的統(tǒng)一表示體系做了初步的探索;(3) 給出了一個(gè)基于EDU 進(jìn)行漢語(yǔ)零指代的基準(zhǔn)平臺(tái),為與實(shí)體指代的聯(lián)合以及融入更多的篇章級(jí)信息奠定了基礎(chǔ).

      接下來(lái)我們將進(jìn)一步修正語(yǔ)料并正式對(duì)外發(fā)布,同時(shí)開(kāi)展兩個(gè)核心工作.一是進(jìn)行篇章視角的漢語(yǔ)零指代消解研究,側(cè)重考慮兩方面:(1) 如何借助豐富的篇章信息來(lái)更好地表征零元素及其上下文,從而提升零元素識(shí)別及消解的性能;(2) 主干型和修飾型零元素對(duì)篇章信息和句法信息的依賴度是不一樣的,后續(xù)將對(duì)它們分別建模,再借助多任務(wù)學(xué)習(xí)框架進(jìn)行結(jié)合;二是進(jìn)行漢語(yǔ)篇章零指代和微觀修辭結(jié)構(gòu)的聯(lián)合學(xué)習(xí)研究,側(cè)重考慮零指代在篇章邏輯語(yǔ)義關(guān)系推進(jìn)中的作用.

      猜你喜歡
      指代先行句法
      Let’s Save Food To Fight Hunger
      奧卡姆和布列丹對(duì)指代劃分的比較
      句法與句意(外一篇)
      述謂結(jié)構(gòu)與英語(yǔ)句法配置
      健康養(yǎng)生“手”先行
      從“先行先試”到“先行示范”
      句法二題
      詩(shī)詞聯(lián)句句法梳理
      黔貨出山 遵義先行
      遵義(2017年8期)2017-07-24 18:11:30
      黔貨出山 遵義先行
      遵義(2017年6期)2017-07-18 11:32:10
      象州县| 海盐县| 四子王旗| 恩平市| 临安市| 古交市| 红河县| 葵青区| 邹城市| 长岛县| 象州县| 田东县| 黔西| 凤庆县| 古交市| 金溪县| 鹤山市| 石狮市| 长垣县| 吴桥县| 雅江县| 洪湖市| 阜宁县| 南投县| 天等县| 仁布县| 镇康县| 巴青县| 连州市| 阜新市| 上高县| 日土县| 西乌珠穆沁旗| 福泉市| 松原市| 曲阜市| 隆子县| 盐山县| 新平| 陇南市| 孝昌县|