李艷翠,馮繼克,來(lái)純曉,馮洪玉,馮文賀
(1. 河南師范大學(xué) 計(jì)算機(jī)與信息工程學(xué)院,河南 新鄉(xiāng) 453007;2. 河南科技學(xué)院 信息工程學(xué)院,河南 新鄉(xiāng) 453003;3. 廣東外語(yǔ)外貿(mào)大學(xué) 語(yǔ)言工程與計(jì)算實(shí)驗(yàn)室,廣東 廣州 510006)
自然語(yǔ)言的單位從小到大分為詞、短語(yǔ)和句子,最后形成篇章。在實(shí)際應(yīng)用中,自然語(yǔ)言處理大都要在篇章上進(jìn)行,不可斷章取義。要正確理解篇章,就需要了解篇章中的銜接。銜接是一個(gè)語(yǔ)義概念,當(dāng)篇章中某個(gè)成分的含義需要依賴(lài)于另一個(gè)成分解釋時(shí),就會(huì)出現(xiàn)銜接,漢語(yǔ)和英語(yǔ)中都有多種銜接手段。銜接主要有指代、省略和連接: 指代是指用代詞、冠詞等表示特定的事物或已被提及過(guò)的事件;省略是指在事理邏輯上應(yīng)有但在字面上卻沒(méi)有的成份;連接主要指連接不同篇章并表達(dá)語(yǔ)義關(guān)系(如因果、并列、轉(zhuǎn)折等)的詞語(yǔ)。漢英篇章銜接手段有差異,如例1和例2。
[例1]a: (他)r1脫下衣服的時(shí)候c1,他a1聽(tīng)得外面很熱鬧,阿Qa2生平本來(lái)最?lèi)?ài)看熱鬧,(他)r2便c2即尋聲走出去了。(他)r3尋聲漸漸的尋到趙太爺?shù)膬?nèi)院里,雖然c3在昏黃中,(他)r4卻c4辨得出許多人,趙府一家a3連兩日不吃飯的太太也在內(nèi),還有c5(他們)r5間壁的鄒七嫂,(也有)c6(他們)r6真正本家的趙白眼,趙司晨。(魯迅: 阿Q正傳)
b:Whilec1’her1’was taking off his shirthea1’heard uproar outside,andsincec2’AhQa2’always liked to join in any excitement that was going,her3’went out in search of the sound,her4’traced it gradually right into Mr. Chao’s inner courtyard.Althoughc3’it was duskher4’could see many people there: all theChaofamilya3’including the mistress who had not eaten for two days.Inadditionc5’,theirr5’neighbor Mrs. Tsou was there,aswellasc6’theirr6’relatives Chao Pai-yen and Chao Szu-chen.(楊憲益、戴乃迭譯: The True Story of Ah Q)
[例2]a:盡管c1減輕污染a1的呼聲不斷,(并且)c2公眾日漸憤怒,污染a2還是變得更糟糕了,(這)r1越發(fā)顯出環(huán)保的緊迫性。
b:Despitec1’frequent calls for cuttingpollutiona1’,andc2’growing public anger,theproblema2’has only got worse,whichr1’increasingly shows the urgency of environmental protection.
例1中的篇章銜接方式主要有指代、省略和連接。例1a省略了四個(gè)主語(yǔ)“他”(r1~r4),由于省略的主語(yǔ)在上下文中是隱含的,因此并未給讀者在閱讀上造成困難,省略的“他”和“阿Q”形成省略銜接。但在英語(yǔ)中,主語(yǔ)是不能省略的,否則句子的結(jié)構(gòu)將不完整,如例1a的對(duì)照翻譯例1b,翻譯時(shí)被省略的主語(yǔ)“he”(r1’~r4’)都被補(bǔ)充上。例1a中的“他”(a1)和“阿Q”(a2)和例1b中的“he”(a1’)和“Ah Q”(a2’)形成指代銜接。例1a中的連接成分“雖然”(c3)、“還有”(c5)、“也有”(c6)分別和例1b中的“Although”(c3’)、“In addition”(c5’)、“as well as”(c6’)相對(duì)應(yīng),它們的功能相同,其中,連接詞“也有”(c6)在漢語(yǔ)中是省略的,而相應(yīng)的翻譯中卻根據(jù)意義補(bǔ)充了“as well as”(c6’)。例1給出的例子反映了漢英銜接的實(shí)際情況,例2是文獻(xiàn)[1]文中的實(shí)例,在翻譯時(shí),連接詞“盡管”(c1)和“Despite”(c1’)相應(yīng),“污染”(a2)在翻譯時(shí)變成了“the problem”(a2’)。綜合分析例1和例2可知,漢英篇章中都存在各種銜接,銜接手段略有差異。
本文主要進(jìn)行漢英篇章銜接資源構(gòu)建工作,第1部分介紹相關(guān)工作,第2部分介紹本文的標(biāo)注策略,第3部分介紹語(yǔ)料標(biāo)注情況,第4部分給出實(shí)驗(yàn)結(jié)果及分析,最后總結(jié)了標(biāo)注中存在的難點(diǎn)。本文開(kāi)展的漢英篇章銜接研究具有非常重要的理論意義和應(yīng)用價(jià)值,形成的漢英篇章銜接對(duì)齊標(biāo)注策略可用于構(gòu)建語(yǔ)料庫(kù),所構(gòu)建的語(yǔ)料庫(kù)既可用于漢英篇章銜接的對(duì)比、翻譯、教學(xué)等研究,又有助于推動(dòng)漢英篇章銜接對(duì)齊分析研究及平臺(tái)建設(shè)。
Halliday和Hasan[1]、Werth[2]和Cook[3]等人分別將銜接進(jìn)行了分類(lèi),他們文章中均指出主要銜接手段包括連接、省略和指代。胡壯麟[4]在《語(yǔ)篇的銜接與連貫》中第一次系統(tǒng)地介紹了漢語(yǔ)篇章銜接與連貫,這本書(shū)是胡壯麟先生對(duì)文獻(xiàn)[1]銜接理論的繼承和發(fā)展,除了保留文獻(xiàn)[1]以語(yǔ)法和詞匯為重點(diǎn)的銜接模式外,該書(shū)還包含了英語(yǔ)和漢語(yǔ)實(shí)例,這對(duì)漢英篇章銜接的研究具有很大的啟發(fā)作用。周利芳[5]、曹繼陽(yáng)[6]分別對(duì)漢語(yǔ)篇章銜接的成分和手段進(jìn)行了研究和分析。在理論研究方面,漢英語(yǔ)篇的銜接基本都包括指代、省略、連接等,漢英語(yǔ)篇的銜接對(duì)比也多從這幾個(gè)方面展開(kāi)。奚雪峰等[7]從篇章意圖性角度探討了篇章話(huà)題結(jié)構(gòu),并在此基礎(chǔ)上分析了篇章的連貫性和銜接性。朱永生等[8]的《英漢語(yǔ)篇銜接手段對(duì)比研究》將銜接理論用于漢英篇章對(duì)比,該書(shū)基于文獻(xiàn)[1]的銜接理論,運(yùn)用大量的語(yǔ)料分析了英漢銜接手段的異同。由于漢語(yǔ)是一種意合型語(yǔ)言,人們?cè)谶x擇詞語(yǔ)和句子方面通常能省則省,英語(yǔ)中大多數(shù)的省略都帶有形式上的標(biāo)記,而漢語(yǔ)的省略是在不用考慮語(yǔ)法,甚至不用考慮邏輯的情況下表達(dá)其含義。鐘書(shū)能[9]、張獻(xiàn)麗[10]、張易男和李燕鴻[11]等人將銜接理論用于漢英語(yǔ)篇對(duì)比研究,這些工作大多數(shù)采用文獻(xiàn)[1]對(duì)銜接手段的分類(lèi),結(jié)合漢英語(yǔ)料分析漢英篇章銜接方式的異同。以上漢英對(duì)比研究取得了一定的效果,但選擇的樣本均較少,往往難以排除隨機(jī)性對(duì)結(jié)果的影響。英漢對(duì)比研究應(yīng)著眼于兩種語(yǔ)言的特點(diǎn),選擇有代表性且數(shù)量較多的樣本。
語(yǔ)料庫(kù)在自然語(yǔ)言處理技術(shù)的發(fā)展過(guò)程中起到了非常重要的作用。下面介紹包含指代、連接信息的語(yǔ)料庫(kù),以及漢英平行語(yǔ)料庫(kù)。
(1) 包含指代信息的語(yǔ)料庫(kù)。目前較知名的標(biāo)注了指代信息的語(yǔ)料庫(kù)主要有MUC(Message Understanding Conference)、ACE(Automatic Content Extraction)(1)https://www.ldc.upenn.edu/collaborations/past-projects/ace、OntoNotes語(yǔ)料庫(kù)(2)https://catalog.ldc.upenn.edu/LDC2013T19。MUC語(yǔ)料通過(guò)指向形成指代鏈。ACE中具有相同指代關(guān)系的實(shí)體位于同一指代鏈,且該指代鏈擁有唯一的編號(hào)。但MUC和ACE只標(biāo)注了實(shí)體指代,并且沒(méi)有考慮省略的指代標(biāo)注。OntoNotes語(yǔ)料庫(kù)包括詞匯層面,句子層面和篇章層面等多層次的標(biāo)注,在篇章層面主要包含空語(yǔ)類(lèi)信息、實(shí)體間以及事件的共指關(guān)系。OntoNotes語(yǔ)料庫(kù)中包含漢語(yǔ)和英語(yǔ),漢語(yǔ)部分還標(biāo)注了部分零指代信息,但零指代僅標(biāo)注了主語(yǔ)位置,而漢語(yǔ)的零指代種類(lèi)很多,且每一類(lèi)別都有其自身的特點(diǎn),這就制約了漢語(yǔ)零指代消解的研究。文獻(xiàn)[12]在CTB 6.0語(yǔ)料標(biāo)注的空語(yǔ)類(lèi)(Empty Category)基礎(chǔ)上進(jìn)行了漢語(yǔ)零指代信息的標(biāo)注,該語(yǔ)料有150篇文本。
(2) 包含連接信息的語(yǔ)料庫(kù)。包含連接信息的語(yǔ)料庫(kù)主要有賓州篇章樹(shù)庫(kù)(Penn Discourse Tree Bank)(3)https://www.seas.upenn.edu/~pdtb/、漢語(yǔ)復(fù)句語(yǔ)料庫(kù)(4)http://linguist.ccnu.edu.cn/jiansuo/TestFuju.jsp、清華漢語(yǔ)樹(shù)庫(kù)[13]、哈工大中文篇章結(jié)構(gòu)語(yǔ)料[14]。以上對(duì)于篇章的標(biāo)注多采用英語(yǔ)篇章體系,文獻(xiàn)[15]提出一種基于連接依存樹(shù)的漢語(yǔ)篇章結(jié)構(gòu)表示方法,連接依存樹(shù)的主要特征是葉子節(jié)點(diǎn)為子句,內(nèi)部節(jié)點(diǎn)為連接詞,連接詞通過(guò)其層級(jí)地位表示篇章結(jié)構(gòu)的層次,通過(guò)其語(yǔ)義表示篇章關(guān)系。在此基礎(chǔ)上,作者標(biāo)注了500個(gè)文檔的漢語(yǔ)篇章語(yǔ)料,其中有24.8%的篇章關(guān)系有顯式連接詞。以上語(yǔ)料中雖然都涉及了連接詞的相關(guān)標(biāo)注,但均針對(duì)單語(yǔ),篇章關(guān)系中漢語(yǔ)僅25%左右有連接詞,英語(yǔ)則達(dá)45.5%,可見(jiàn)英語(yǔ)連接詞使用頻率大于漢語(yǔ)。文獻(xiàn)[16]將文獻(xiàn)[15]的方案擴(kuò)展到漢英并進(jìn)行了語(yǔ)料標(biāo)注工作,文獻(xiàn)[17]的標(biāo)注評(píng)估表明對(duì)齊標(biāo)注是構(gòu)建漢英篇章結(jié)構(gòu)平行語(yǔ)料庫(kù)的合理、有效工作方式。
綜上,由于漢英銜接理論不同,銜接方式也有差別,漢英銜接對(duì)比多從指代、省略和連接方面進(jìn)行,但可供選擇對(duì)比的樣本均較少,不具有統(tǒng)計(jì)學(xué)意義。目前的漢英銜接語(yǔ)料庫(kù)主要針對(duì)單語(yǔ),現(xiàn)有的平行語(yǔ)料庫(kù)只做了段落、句子等對(duì)齊工作,很少進(jìn)行篇章銜接等深度加工,特別是銜接信息的對(duì)齊。這嚴(yán)重制約了基于篇章銜接對(duì)齊語(yǔ)料的語(yǔ)言對(duì)比及自動(dòng)對(duì)齊分析工作。
在充分分析現(xiàn)有漢英銜接理論、銜接對(duì)比分析理論和漢英銜接自動(dòng)分析研究?jī)?nèi)容的基礎(chǔ)上,本文制定了標(biāo)注策略。詞匯銜接由于有明顯的詞語(yǔ)指示,不是漢英銜接研究的難點(diǎn),所以本文重點(diǎn)標(biāo)注語(yǔ)法銜接,包括指代(本文將銜接理論中的指稱(chēng)和替代合并為指代)、連接和省略信息。楊傳鳴[18]對(duì)紅樓夢(mèng)及其英譯本的銜接進(jìn)行定量統(tǒng)計(jì),發(fā)現(xiàn)在所有銜接手段中(包括詞匯銜接和語(yǔ)法銜接),漢語(yǔ)中指代、省略和連接手段占59.6%,英語(yǔ)占77.0%。本文的標(biāo)注內(nèi)容包括全部語(yǔ)法銜接,且包含大部分銜接手段,具有一定的代表性。
現(xiàn)有的對(duì)齊語(yǔ)料庫(kù)中,僅僅有句子等單位對(duì)齊,而沒(méi)有銜接的對(duì)齊,這直接影響漢英銜接對(duì)齊知識(shí)的獲取。本文標(biāo)注了子句、指代、省略和連接及其對(duì)齊信息。如例2的標(biāo)注內(nèi)容見(jiàn)圖1,圖1中用“|”切分子句,e1和e1’是對(duì)齊子句,用連線(xiàn)表示銜接對(duì)齊的信息,如連接詞“盡管”和“Despite”對(duì)齊;用括號(hào)表示省略的信息,省略的內(nèi)容可以是連接詞,也可以是指代詞,如省略的內(nèi)容“并且”和“and”對(duì)齊;同一語(yǔ)言中的指代鏈,用虛線(xiàn)表示,如“污染”和“污染”, “pollution”和“the problem”在同一指代鏈上。實(shí)際標(biāo)注中,指代、省略和連接是相互指導(dǎo),交叉進(jìn)行的。
圖1 例2的標(biāo)注信息
漢英篇章銜接對(duì)齊語(yǔ)料庫(kù)的對(duì)齊標(biāo)注總原則是“單位對(duì)齊、詞對(duì)齊”。標(biāo)注語(yǔ)料的整體策略是以“源語(yǔ)為主、目標(biāo)語(yǔ)為輔”,即以漢語(yǔ)為主、英語(yǔ)為輔。標(biāo)注目標(biāo)是實(shí)現(xiàn)雙語(yǔ)銜接中的子句、指代、連接的對(duì)齊標(biāo)注。實(shí)質(zhì)上是一個(gè)“標(biāo)注中有對(duì)齊、對(duì)齊中有標(biāo)注”的對(duì)齊與標(biāo)注合二為一的過(guò)程。
漢英篇章銜接的對(duì)齊標(biāo)注,包括子句對(duì)齊、連接詞對(duì)齊、指代對(duì)齊這幾個(gè)關(guān)鍵對(duì)齊標(biāo)注任務(wù)。本文考查的省略主要是連接詞省略和指代省略,因此將其標(biāo)注合并到相應(yīng)的任務(wù)中,在標(biāo)注時(shí)體現(xiàn)省略信息。下面詳述本文標(biāo)注策略。
本文參考文獻(xiàn)[19]的子句定義進(jìn)行對(duì)齊標(biāo)注,假設(shè)具有對(duì)譯關(guān)系的篇章,其內(nèi)部的子句是一一對(duì)應(yīng)的。英漢雙語(yǔ)篇章子句的對(duì)齊,為保證一致性,采用“源語(yǔ)優(yōu)先”即(漢語(yǔ)優(yōu)先)的劃分子句方法,首先按既定的漢語(yǔ)子句進(jìn)行切分,然后以英語(yǔ)對(duì)齊來(lái)保證漢英篇章的對(duì)應(yīng)關(guān)系。根據(jù)子句定義,英語(yǔ)的從句或句子和子句對(duì)應(yīng),子句對(duì)齊后便于銜接信息的對(duì)齊標(biāo)注。本文子句以漢語(yǔ)為主,將英語(yǔ)相應(yīng)的從句或短語(yǔ)和漢語(yǔ)子句對(duì)應(yīng)。事實(shí)上,這種分析對(duì)于漢語(yǔ)是子句分析,對(duì)于英語(yǔ)則是子句對(duì)齊。這種分析機(jī)制,可以保證所研究的問(wèn)題是篇章層面的問(wèn)題。
在實(shí)際操作中,主要依據(jù)三點(diǎn): 第一主要看英漢的句意。對(duì)于一個(gè)優(yōu)質(zhì)的翻譯文本,源語(yǔ)中的因果、轉(zhuǎn)折、并列等邏輯語(yǔ)義關(guān)系必然在目的語(yǔ)中得到反映,根據(jù)邏輯語(yǔ)義關(guān)系,可以分別從英漢平行語(yǔ)料庫(kù)中相鄰的子句中找出其對(duì)應(yīng)關(guān)系,從而進(jìn)行英漢的對(duì)齊劃分;第二看結(jié)構(gòu),結(jié)合源語(yǔ)與目的語(yǔ)的結(jié)構(gòu),英漢中主謂賓的順序是一致的,一些名詞性從句、狀語(yǔ)從句的對(duì)譯也較為一致,找出英漢中相應(yīng)的詞匯,從而找出英漢相對(duì)應(yīng)的句子成分進(jìn)行劃分。比如,看源語(yǔ)中結(jié)尾的動(dòng)詞、非謂語(yǔ)動(dòng)詞、賓語(yǔ)、各種從句或是其他成分在漢語(yǔ)中是否得到了體現(xiàn);第三是看標(biāo)點(diǎn),在對(duì)譯的英文文本中,英文的標(biāo)點(diǎn)大部分會(huì)和漢語(yǔ)一致,根據(jù)標(biāo)點(diǎn)情況,可以清楚地推測(cè)文意。
如例3中,漢語(yǔ)子句“比開(kāi)放前的一九九一年增長(zhǎng)九成多?!焙陀⒄Z(yǔ)子句“growing more than 90% compared to 1991, before they had opened.”對(duì)應(yīng)。
[例3]a: 據(jù)統(tǒng)計(jì),這些城市去年完成國(guó)內(nèi)生產(chǎn)總值一百九十多億元,|比開(kāi)放前的一九九一年增長(zhǎng)九成多。
b: According to statistics,these municipalities last year fulfilled more than 19 billion yuan of the gross domestic product,| growing more than 90% compared to 1991, before they had opened.
句子之間或子句之間存在如條件、轉(zhuǎn)折、因果等語(yǔ)義連接關(guān)系,連接詞指具有子句及其以上語(yǔ)法單位連接和關(guān)系提示作用的語(yǔ)言單位,可以根據(jù)連接詞連接的子句和篇章關(guān)系兩方面確定連接詞。文獻(xiàn)[20]將連接詞作為篇章關(guān)系的關(guān)鍵因素在漢語(yǔ)中已進(jìn)行了標(biāo)注。參考漢語(yǔ)篇章結(jié)構(gòu)中的做法,在漢英連接詞對(duì)齊標(biāo)注時(shí),對(duì)連接詞是否可添加或刪除進(jìn)行標(biāo)記,為便于操作,本文僅對(duì)在漢語(yǔ)、英語(yǔ)或漢英中都出現(xiàn)的連接詞進(jìn)行標(biāo)注。對(duì)雙語(yǔ)均省略的連接詞,由于添加時(shí)可供選擇的詞范圍較大,容易導(dǎo)致對(duì)齊標(biāo)注不一致,且在實(shí)際應(yīng)用中意義不大,故本文不做處理。漢英對(duì)譯篇章由于意義相同,所以對(duì)于連接詞的漢英對(duì)齊標(biāo)注主要為管轄范圍和邏輯功能的對(duì)齊,標(biāo)注時(shí)如連接詞缺省則根據(jù)意義對(duì)連接詞進(jìn)行添加。
文獻(xiàn)[20]在漢語(yǔ)連接詞分類(lèi)中認(rèn)為,連接詞可分為并列類(lèi)、轉(zhuǎn)折類(lèi)、解說(shuō)類(lèi)和因果類(lèi),在此基礎(chǔ)上又可分為17種不同的關(guān)系類(lèi)型。例如,并列類(lèi)可分為并列關(guān)系、順承關(guān)系、遞進(jìn)關(guān)系、選擇關(guān)系和對(duì)比關(guān)系五種關(guān)系類(lèi)型。每種關(guān)系類(lèi)型又包含多個(gè)連接詞,而某些連接詞可屬于不同的關(guān)系類(lèi)型。標(biāo)注時(shí)主要考慮三種連接詞對(duì)齊關(guān)系,如例4的漢語(yǔ)沒(méi)有連接詞而英語(yǔ)有連接詞,如例5的漢英均有連接詞,如例6的漢語(yǔ)有連接詞而英語(yǔ)沒(méi)有連接詞。
[例4]a: 西藏銀行部門(mén)積極調(diào)整信貸結(jié)構(gòu),以確保農(nóng)牧業(yè)生產(chǎn)等重點(diǎn)產(chǎn)業(yè)的投入,|加大對(duì)工業(yè)、能源、交通、通信等建設(shè)的正常資金供應(yīng)量。
b: Tibet’s banking sector is actively adjusting its credit structure to ensure the participation of key industries such as agricultural and livestock production, etc., |aswellasto increase the amount of the usual supply of capital funding for the development of industries, energy, transportation and communications, etc.
[例5]a: 并投資一千三百多個(gè)億,加強(qiáng)基礎(chǔ)設(shè)施和基礎(chǔ)產(chǎn)業(yè)建設(shè),|為擴(kuò)大對(duì)外開(kāi)放創(chuàng)造良好環(huán)境。
b: It has invested more than 130 billion yuan to strengthen the construction of infrastructures and basic industries|soastocreate a sound environment for expanding the opening up to the outside world.
[例6]a: 由于茅臺(tái)酒制作工藝復(fù)雜,生產(chǎn)周期長(zhǎng),|因而其產(chǎn)量十分有限。
b: Because the art of manufacturing Mao — tai is complicated and its production cycle is long,|the output of Mao — tai is extremely limited.
在翻譯時(shí),允許出現(xiàn)不是一對(duì)一的情況,如例7所示。
[例7]a: 在社會(huì)主義市場(chǎng)經(jīng)濟(jì)體制建設(shè)不斷推進(jìn),對(duì)外開(kāi)放進(jìn)一步擴(kuò)大的新形勢(shì)下,海關(guān)的職能不能削弱,|只能加強(qiáng)。
b: Under the new circumstances in which the construction of a socialist market economy mechanism is continually being promoted and the opening up to the outside world is further expanding, the functions of Customsshouldnotbeweakened, |andshouldonlybestrengthened.
經(jīng)過(guò)反復(fù)的研究和實(shí)踐,最終確定漢英篇章銜接對(duì)齊標(biāo)注的總原則,以篇章為單位將ACE實(shí)體類(lèi)型為人名、地名、機(jī)構(gòu)名、時(shí)間等具有代表性的且在文章中出現(xiàn)頻率較高的指代實(shí)體詞進(jìn)行漢英對(duì)齊標(biāo)注。標(biāo)注原則是單語(yǔ)中的指代信息構(gòu)成指代鏈,漢英指代鏈中的項(xiàng)目?jī)蓛上嗷?duì)應(yīng)。標(biāo)注時(shí)邊標(biāo)注指代鏈邊進(jìn)行雙語(yǔ)對(duì)齊,標(biāo)注和對(duì)齊同時(shí)進(jìn)行,這樣可以全面考察雙語(yǔ)的各種信息。
本文標(biāo)注實(shí)體指代和事件指代信息,如例8的“金川公司”是實(shí)體代詞,“這里”“這家企業(yè)”是實(shí)體指代。例8a中的“金川公司”“這里”“金川公司”和“這家企業(yè)”分別對(duì)應(yīng)例8b的“Jinchuan Company”“this place”“the Jinchuan Company”和“this enterprise”,同時(shí)形成指代關(guān)系,在本篇章中都指的是“金川公司”,因此將有指代信息的漢英指代詞標(biāo)注在同一指代鏈。
[例8]a: 一九六四年,金川公司產(chǎn)出第一批電解鎳。從此以后,逐步改變了中國(guó)鎳、鈷及鉑族金屬長(zhǎng)期依賴(lài)進(jìn)口的局面。如今,這里已成為中國(guó)最大的鎳鈷生產(chǎn)基地和鉑族金屬提煉中心,鎳和鉑族金屬產(chǎn)量分別占全國(guó)的百分之八十八和百分之九十以上,被譽(yù)為中國(guó)的“鎳都”。一九七八年,金川公司被中國(guó)政府列為全國(guó)礦產(chǎn)資源綜合利用三大基地之一,作為中國(guó)鎳工業(yè)代表的這家企業(yè)由此踏上依靠科技進(jìn)步求振興的發(fā)展之路。
b: In 1964,JinchuanCompanyproduced the first batch of electrolytic nickel.From then on, the situation of China’s long time dependence on import for nickel, cobalt and platinum family metals has been changed gradually.Up to now,thisplacehas become China’s largest nickel and cobalt production base and platinum family metals refining center, with an output of nickel and platinum family metals that respectively account for more than 88% and 90% of the whole country respectively, being praised as China’s “Nickel Capitol “.In 1978,theJinchuanCompanywas listed by the Chinese government as one of the top three bases of integrated utilization of national mineral resources.Since then,thisenterprise, as a representative of China’s nickel industry, began to step onto its vigorous development road by relying on advances in science and technology.
省略可以包含代詞的省略、名詞的省略以及連接詞的省略等,本文認(rèn)為指代和連接都可以省略。由于對(duì)篇章的理解是主觀的,特別是將翻譯者的主觀理解添加到翻譯后的文本中,可更好地反映原文,因此省略處理的原則是,漢英都省略的不做處理,主要處理漢語(yǔ)或者英語(yǔ)省略。由于漢語(yǔ)省略較多,標(biāo)注時(shí)以英語(yǔ)為主,在漢語(yǔ)中尋找對(duì)應(yīng)內(nèi)容,若不存在則補(bǔ)充,若存在則對(duì)齊,若不能補(bǔ)齊,則對(duì)空。如圖2中,根據(jù)英語(yǔ)對(duì)照補(bǔ)充兩個(gè)省略的代詞“他”,圖2中用“()”標(biāo)示?!?他)-he”“他-he”“阿Q-Ah Q”以及“(他)-he”依次對(duì)齊。如圖1中的例子“and”在是翻譯時(shí)補(bǔ)充的內(nèi)容,可以分析得出漢語(yǔ)中省略了對(duì)應(yīng)的詞“并且”。當(dāng)然,也有一些詞是漢語(yǔ)中有,而英語(yǔ)在不影響理解的情況下做了省略,此時(shí)英語(yǔ)中也補(bǔ)充并對(duì)齊。
圖2 例1省略和指代的對(duì)齊標(biāo)注
本文充分利用已有的漢語(yǔ)篇章級(jí)資源,在OntoNotes的漢英平行文本上追加與篇章銜接性相關(guān)的指代、省略和連接標(biāo)注信息,并進(jìn)行漢英標(biāo)注內(nèi)容的對(duì)齊。為了便于標(biāo)注,基于標(biāo)注策略,制定了標(biāo)注規(guī)范,開(kāi)發(fā)了輔助標(biāo)注平臺(tái),并以人工和計(jì)算機(jī)輔助的方式進(jìn)行語(yǔ)料標(biāo)注。
OntoNotes中已經(jīng)包含實(shí)體、部分省略信息。但這些信息是單語(yǔ)標(biāo)注,沒(méi)有體現(xiàn)雙語(yǔ)對(duì)齊關(guān)系。本文在此基礎(chǔ)上添加其他銜接信息,考慮雙語(yǔ),標(biāo)注的同時(shí)完成對(duì)齊,具體包括: ①將漢英篇章中的子句標(biāo)注擴(kuò)展到雙語(yǔ); ②以前期研究為指導(dǎo),標(biāo)注連接詞屬性和對(duì)齊信息,包含添加的連接詞和連接詞是否可刪信息,連接詞的管轄范圍,連接詞所連接的篇章單位是否調(diào)序等; ③種類(lèi)齊全的漢英省略信息: OntoNotes語(yǔ)料中僅包含了主語(yǔ)位置的零指代關(guān)系,而漢語(yǔ)省略涉及多個(gè)種類(lèi),本文標(biāo)注指代和連接兩種省略信息。
根據(jù)篇章銜接分析機(jī)制和對(duì)齊策略,針對(duì)子句、連接詞、指代、省略的標(biāo)注及對(duì)齊分別提出具體的標(biāo)注規(guī)范。標(biāo)注注重可操作性,分別從判定原則、對(duì)齊方法等方面入手制定標(biāo)注規(guī)范。
在標(biāo)注規(guī)范的指導(dǎo)下進(jìn)行標(biāo)注,標(biāo)注工作參考了之前漢語(yǔ)篇章結(jié)構(gòu)語(yǔ)料資源構(gòu)建積累的方法和經(jīng)驗(yàn),分4個(gè)階段進(jìn)行: ①由于語(yǔ)料庫(kù)處理工作量大,為確保質(zhì)量和通用性,制定了初步的標(biāo)注規(guī)范,同時(shí)開(kāi)發(fā)了標(biāo)注工具,并對(duì)參與標(biāo)注的人員進(jìn)行了培訓(xùn); ②為保證標(biāo)注的一致性,將標(biāo)注者分為三組,分別標(biāo)注若干相同的文檔,然后在一起討論所有標(biāo)注內(nèi)容,包括指代、省略和連接的屬性和對(duì)齊方式等,形成統(tǒng)一的標(biāo)注思想,得到修訂后的標(biāo)注規(guī)范; ③標(biāo)注者分組完成60篇相同文檔的標(biāo)注,用標(biāo)注完的文檔兩兩計(jì)算標(biāo)注的一致性。選取一致率高的兩組語(yǔ)料,由標(biāo)注成員共同參與討論,經(jīng)過(guò)多次研討形成最終的標(biāo)注規(guī)范; ④根據(jù)最終的標(biāo)注規(guī)范,由標(biāo)注一致率高的兩組成員繼續(xù)完成剩下語(yǔ)料的標(biāo)注,另一組成員負(fù)責(zé)完成語(yǔ)料校對(duì)和一致性的計(jì)算,形成最終的漢英篇章銜接對(duì)齊語(yǔ)料庫(kù)。
對(duì)于子句、指代、省略和連接及其對(duì)齊信息的標(biāo)注,本文開(kāi)發(fā)了輔助標(biāo)注平臺(tái),輔助用戶(hù)選擇記錄需要添加的詞、標(biāo)注信息的類(lèi)型、對(duì)齊的位置等信息,使用人機(jī)結(jié)合的標(biāo)注策略,提高標(biāo)注質(zhì)量和效率。
完成了200個(gè)平行文檔的漢英篇章銜接對(duì)齊語(yǔ)料標(biāo)注。標(biāo)注了子句切分對(duì)齊、連接詞對(duì)齊和指代詞對(duì)齊及指代鏈信息。根據(jù)制定的漢英子句對(duì)齊切分標(biāo)準(zhǔn),通過(guò)漢英子句對(duì)齊的標(biāo)注規(guī)范,即對(duì)平行語(yǔ)料庫(kù)進(jìn)行漢英子句對(duì)齊語(yǔ)料標(biāo)注。目前平行語(yǔ)料中共有效標(biāo)注漢英對(duì)齊段落1 974段,其中漢語(yǔ)句子2 424句,英語(yǔ)句子2 845句,漢英4 178個(gè)子句對(duì),漢語(yǔ)子句平均長(zhǎng)度是11個(gè)詞語(yǔ),英語(yǔ)子句平均長(zhǎng)度是20個(gè)單詞。漢語(yǔ)子句對(duì)應(yīng)的英語(yǔ)子句主要句法結(jié)構(gòu)有S、VP、NP、PP等。連接詞對(duì)齊標(biāo)注中,共標(biāo)注了817對(duì)連接詞,如“但”和“never the less”對(duì)應(yīng),共標(biāo)注顯式連接詞462次,出現(xiàn)次數(shù)較多的連接詞(并and)占50.9%,漢語(yǔ)中隱性連接詞達(dá)60%。在指代對(duì)齊標(biāo)注中,目前共標(biāo)注有效文檔193篇,標(biāo)注了1 613個(gè)指代鏈,平均每篇文檔有8.4個(gè)指代鏈。共標(biāo)注了3 657個(gè)指代詞,平均每個(gè)指代鏈上有2.3個(gè)指代詞。省略情況主要是連接詞省略和指代省略,在連接詞省略中,中文省略122次,英文省略3次,中文省略現(xiàn)象明顯多于英文。指代省略114次,其中中文省略92次,英文22次。
一致性評(píng)估主要考察標(biāo)注者標(biāo)注的一致內(nèi)容與所有標(biāo)注內(nèi)容之比,本文從漢語(yǔ)一致性、英語(yǔ)一致性和漢英對(duì)齊一致性三方面進(jìn)行考察。其中,漢英對(duì)齊一致性指的是標(biāo)注者對(duì)相同語(yǔ)料的漢語(yǔ)標(biāo)注一致并且漢語(yǔ)相對(duì)應(yīng)的英語(yǔ)對(duì)齊標(biāo)注也一致的情況。標(biāo)注工作有6名同學(xué)參與,前期將6名同學(xué)兩兩分為A、B和C三組進(jìn)行標(biāo)注,對(duì)其標(biāo)注的60篇文檔進(jìn)行逐一探討并兩兩計(jì)算一致性,得出A-C小組在在漢語(yǔ)一致性、英語(yǔ)一致性和漢英對(duì)齊一致率等方面明顯高于其他兩個(gè)小組,因此由A-C小組繼續(xù)完成剩下文檔的標(biāo)注工作,B小組成員負(fù)責(zé)校驗(yàn)。由于標(biāo)注內(nèi)容不同,針對(duì)子句、連接詞和指代詞分別采用了不同的計(jì)算方法。子句對(duì)齊、連接詞對(duì)齊和指代對(duì)齊語(yǔ)料評(píng)估結(jié)果如表1所示。
表1 標(biāo)注一致性計(jì)算結(jié)果
子句對(duì)齊亦可稱(chēng)作切分對(duì)齊,切分對(duì)齊的方法有兩種: ①切分對(duì)齊方式Ⅰ: 漢語(yǔ)子句的切分位均標(biāo)有標(biāo)點(diǎn)符號(hào),并計(jì)算了用作切分標(biāo)記的標(biāo)點(diǎn)符號(hào)(,;: 。)一致性。英語(yǔ)子句切分不一定使用標(biāo)點(diǎn)符號(hào)作為切分標(biāo)記,可以使用空格(基本上是任意單詞或標(biāo)點(diǎn)符號(hào))的形式作為切分標(biāo)記,以及是否可以使用任何空格作為一致性計(jì)算的切分標(biāo)記; ②切分對(duì)齊方式Ⅱ: 計(jì)算不同標(biāo)注者的所有切分(AUB)之間的共同切分(A∩B)的一致性。對(duì)于句子位置SentencePosition=“X1…X2|Y1…Y2”,計(jì)算A和B的切分位置相同的情況。與切分對(duì)齊方式Ⅰ相比,該方法的評(píng)估更準(zhǔn)確,可以統(tǒng)一中英文切分評(píng)估標(biāo)準(zhǔn)。
從表1可以看出,子句切分對(duì)齊方式Ⅰ在漢語(yǔ)和英語(yǔ)一致性上均較高,主要是每個(gè)切分位置都進(jìn)行計(jì)算,計(jì)算的無(wú)歧義切分位置較多。采用子句切分Ⅱ計(jì)算出漢英對(duì)齊一致性為0.909,說(shuō)明子句完全對(duì)齊還有待提高,可以從提高英語(yǔ)切分對(duì)齊標(biāo)注的位置精準(zhǔn)性和在漢語(yǔ)指導(dǎo)下進(jìn)一步實(shí)現(xiàn)英語(yǔ)切分對(duì)齊這兩方面改善。
由于連接詞總是有一定的管轄范圍,且連接詞有顯隱之分。連接詞對(duì)齊標(biāo)注評(píng)估,從顯隱對(duì)齊、顯式連接詞和全部連接詞對(duì)齊三個(gè)方面進(jìn)行評(píng)估。由表1一致性計(jì)算結(jié)果可知,顯隱對(duì)齊一致率較高,其中英語(yǔ)一致率達(dá)0.987,同時(shí)英語(yǔ)普遍高于漢語(yǔ)的一致率。這是因?yàn)橛⒄Z(yǔ)顯式連接詞明顯較漢語(yǔ)的多,相比漢語(yǔ),英語(yǔ)對(duì)于連接詞有比較共性的認(rèn)識(shí),僅漢語(yǔ)的認(rèn)識(shí)卻有較大分歧。這也說(shuō)明英語(yǔ)文本在關(guān)系對(duì)齊標(biāo)注時(shí)作為指導(dǎo)性標(biāo)準(zhǔn)的可靠性。顯式連接詞對(duì)齊的一致性高于全部連接詞,主要是表示同種連接關(guān)系所添加的隱式連接詞不固定,如表因果可以是“因?yàn)椤薄耙颉钡仍~。為提高連接詞對(duì)齊標(biāo)注的準(zhǔn)確率,本文從兩方面入手: 第一,進(jìn)一步明確漢語(yǔ)連接詞的定義,從而增強(qiáng)漢語(yǔ)顯式連接詞的對(duì)齊標(biāo)注效果。第二,規(guī)范隱式連接詞的添加,指定添加連接詞的范圍,減少隱式連接詞添加的分歧。
指代詞對(duì)齊主要計(jì)算標(biāo)注者選擇指代詞的一致性,由于指代詞通常比較明顯,添加的指代詞多為名詞且固定,所以一致性高于連接詞對(duì)齊。漢英指代詞對(duì)齊標(biāo)注的一致性達(dá)0.920,在指代對(duì)齊標(biāo)注一致性計(jì)算中除對(duì)漢語(yǔ)一致性、英語(yǔ)一致性、漢英對(duì)齊一致性進(jìn)行計(jì)算之處,還加入了漢語(yǔ)位置一致性、英語(yǔ)位置一致性、屬性一致性、指代詞個(gè)數(shù)一致性和指代鏈個(gè)數(shù)一致性的計(jì)算,其對(duì)應(yīng)的一致率分別為0.926、0.925、0.931、0.932和0.872,其一致率的計(jì)算對(duì)漢英篇章銜接對(duì)齊語(yǔ)料庫(kù)的構(gòu)建具有重要的參考意義。由于兩小組同學(xué)進(jìn)行雙盲標(biāo)注,標(biāo)注結(jié)果存在一定差異。討論過(guò)后,進(jìn)一步規(guī)范標(biāo)注策略,對(duì)一些文檔標(biāo)注完善,個(gè)別誤差大的文檔進(jìn)行重新標(biāo)注。
文獻(xiàn)[19]在基于逗號(hào)的漢語(yǔ)子句識(shí)別研究中,手工標(biāo)注了100篇文檔。實(shí)驗(yàn)結(jié)果表明,最大熵分類(lèi)器模型使用CTB 6.0提供的標(biāo)準(zhǔn)語(yǔ)法樹(shù),最高準(zhǔn)確率為92.8%,使用Berkeley自動(dòng)語(yǔ)法分析樹(shù),最高準(zhǔn)確率是89.9%。本文開(kāi)發(fā)了漢語(yǔ)子句切分平臺(tái)和英語(yǔ)子句切分平臺(tái),利用最大熵、決策樹(shù)、貝葉斯等模型進(jìn)行訓(xùn)練,然后分別進(jìn)行漢語(yǔ)、英語(yǔ)子句的自動(dòng)切分,得到中文自動(dòng)切分準(zhǔn)確率90%,英文自動(dòng)切分準(zhǔn)確率93%。在此基礎(chǔ)上,在文獻(xiàn)[21]中進(jìn)行基于BiLSTM-CRF模型進(jìn)行切分,漢英子句切分P、R、F分別為92.3%、94.4%、93.4%和95.5%、93.4%、94.4%。中文連接詞自動(dòng)識(shí)別準(zhǔn)確率為92.5%,英文95.7%。
漢英連接詞的自動(dòng)識(shí)別實(shí)驗(yàn)中,中文連接詞自動(dòng)識(shí)別準(zhǔn)確率為88.4%,英文為92.5%。文獻(xiàn)[20]對(duì)中文實(shí)驗(yàn)結(jié)果表明,具有最佳識(shí)別效果的解說(shuō)類(lèi)的準(zhǔn)確率為82.5%,連接詞自動(dòng)識(shí)別并分類(lèi)的總正確率為89.1%。文獻(xiàn)[22]對(duì)英文顯式篇章關(guān)系識(shí)別實(shí)驗(yàn)表明,連接詞識(shí)別正確率為92.5%,給定連接詞關(guān)系分類(lèi)正確率為85.6%。實(shí)驗(yàn)結(jié)果中,由于在關(guān)系類(lèi)別分布中并列類(lèi)所占比例最高,訓(xùn)練實(shí)例最多,并且連接詞的集中度較高,因此識(shí)別率相對(duì)較高。轉(zhuǎn)折類(lèi)識(shí)別效果最差,一是因?yàn)殛P(guān)系類(lèi)別分布中轉(zhuǎn)折類(lèi)出現(xiàn)次數(shù)最少,二是因?yàn)橛械霓D(zhuǎn)折類(lèi)連接詞同時(shí)對(duì)應(yīng)了其他的關(guān)系類(lèi)別。
在最初的標(biāo)注過(guò)程中,發(fā)現(xiàn)標(biāo)注結(jié)果中真正形成指代鏈的實(shí)體詞較少,并且存在較多指代詞單獨(dú)成鏈的現(xiàn)象,最終造成不同標(biāo)注者的標(biāo)注結(jié)果存在較大差異。經(jīng)過(guò)反復(fù)的實(shí)踐和討論,最終統(tǒng)一標(biāo)注規(guī)范,將有較多指代詞的ACE Type為GPE、ORG、LOC、PERSON和DATE的實(shí)體詞標(biāo)注,存在較少實(shí)體詞,甚至往往僅有單獨(dú)一個(gè)實(shí)體詞的ACE Type為MONEY、PERCENT、EVENT、QUANTITY和CARDINAT等實(shí)體詞不再單獨(dú)標(biāo)注成鏈。
[例9]a: (中國(guó))h1羽絨及其制品行業(yè)是(八十年代中期)d1開(kāi)始快速發(fā)展的,全行業(yè)利用(中國(guó))h2資源、人力優(yōu)勢(shì),加上注重引進(jìn)國(guó)外先進(jìn)技術(shù)與設(shè)備,產(chǎn)品產(chǎn)量和質(zhì)量得以大幅度提高。據(jù)不完全統(tǒng)計(jì),目前(中國(guó))h3已有羽絨及制品加工企業(yè)(三千余家)c1,其中上規(guī)模的達(dá)(六百多家)c2,從業(yè)人員約(三十萬(wàn))c3,形成年產(chǎn)羽絨制品(五千多萬(wàn)件)c4生產(chǎn)能力,年工業(yè)總產(chǎn)值達(dá)(八十億元)c5。通過(guò)(十余年)d2市場(chǎng)開(kāi)拓,(中國(guó))h4現(xiàn)已成為世界主要羽絨生產(chǎn)國(guó)和羽絨制品出口國(guó),年出口羽絨近(三萬(wàn)噸)c6、羽絨制品(二千多萬(wàn)件)c7,創(chuàng)匯達(dá)(八點(diǎn)二億美元)c8,其中羽絨服裝出口額占行業(yè)出口總額(百分之五十)c9以上。
b: (China’s)h1’down and down products industry started its rapid development in (the mid '80s)d1’.The entire industry makes use of (China’s)h2’resources and manpower advantage, and additionally stresses introducing advanced foreign technology and equipment, thus increasing production volume and quality by a large margin.According to incomplete statistics, (China)h3’currently has (over 3,000)c1’down and down product enterprises, among which, those above scale have reached (more than 600)c2’, with employed staff of (about 300,000)c3’.It has an annual production capacity of 50 millionc4 down products with a total annual industrial output value reaching (8 billion yuan)c5’.Through (more than ten years’)d2’market development, (China)h4’has now become the world’s main down manufacturing country and down products export country, annually exporting(nearly 30,000 tons)c6’of down and (over 20 million)c7’down products, with earned foreign exchange reaching (820 million US dollars)c8’, including down clothing export values accounting for more than(50%)c9’of total industry export values.
如例9中ACE Type為GPE的實(shí)體詞有(h1~h4),依據(jù)對(duì)齊標(biāo)注原則,該實(shí)體詞可標(biāo)注成指代鏈。其中ACE Type為DATE的實(shí)體詞有d1和d2,因其僅有一個(gè)實(shí)體詞,不單獨(dú)標(biāo)注成鏈。ACE Type為CARDINAT的實(shí)體詞(c1~c4和c7)、ACE Type為MONEY的實(shí)體詞c5和c8、ACE Type為QUANTITY的實(shí)體詞c6以及ACE Type為PERCENT的實(shí)體詞c9不在要求標(biāo)注的實(shí)體詞范圍內(nèi),同樣不單獨(dú)標(biāo)注成鏈。
標(biāo)注中有一些指代詞要在特定語(yǔ)境中才能標(biāo)注,如例10中的 “中”(e1)、“華”(e2)和“中”(e5)若單獨(dú)出現(xiàn)時(shí),并不能準(zhǔn)確判斷其具體含義。在本例中,根據(jù)其在文章中的語(yǔ)境,以及上下文信息,很容易判斷其與“中國(guó)”(e3和e4)形成指代銜接,將其(e1~e5)標(biāo)注在同一指代鏈,在對(duì)應(yīng)的英文中正確翻譯出“China”。同樣“韓”(q1)和“韓”(q4)與“韓國(guó)”(q2和q3)形成指代銜接,應(yīng)將其(q1~q4)標(biāo)注在同一指代鏈,對(duì)應(yīng)英文翻譯“South Korea”。
[例10]a: 近年來(lái),(中)e1(韓)q1兩國(guó)之間的經(jīng)貿(mào)往來(lái)發(fā)展迅速。截止去年九月,(韓國(guó))q2在(華)e2投資企業(yè)總數(shù)為五千八百八十三家,(中國(guó))e3已成為(韓國(guó))q3最大的投資對(duì)象國(guó)。據(jù)(中國(guó))e4海關(guān)統(tǒng)計(jì),一九九五年兩國(guó)貿(mào)易額已達(dá)一百六十九點(diǎn)八億美元,比前年增長(zhǎng)百分之四十四點(diǎn)八。經(jīng)濟(jì)專(zhuān)家預(yù)計(jì),今年(中)e5(韓)q4兩國(guó)貿(mào)易額將增至二百五十億美元。
b: In recent years, the economy and trade contacts between the countries of (China)e1’and (South Korea)q1’have been developing rapidly.By September of last year, the total number of (Korean)q2’enterprises investing in (China)e2’totaled 5,883.(China)e3’has become(Korea’s)q3’largest target country for investment.According to (Chinese)e4’Customs statistics, in 1995, trade between the two countries reached 16.98 billion US dollars, increasing 44.8% compared with that of the previous year.Economic experts estimate that this year trade between the two countries of (China)e5’and (South Korea)q4’would increase to 25 billion US dollars.
本文進(jìn)行了漢英篇章銜接語(yǔ)料庫(kù)的標(biāo)注工作,主要實(shí)現(xiàn)了子句、連接詞、指代和省略的對(duì)齊標(biāo)注。漢英篇章銜接對(duì)齊語(yǔ)料庫(kù)的對(duì)齊標(biāo)注總原則是“單位對(duì)齊、詞對(duì)齊”,標(biāo)注語(yǔ)料的整體策略是以漢語(yǔ)為主、英語(yǔ)為輔,省略添加的原則是漢語(yǔ)或英語(yǔ)有對(duì)應(yīng)顯式詞出現(xiàn)。子句以漢語(yǔ)為主,將英語(yǔ)相應(yīng)的從句或短語(yǔ)和漢語(yǔ)子句對(duì)應(yīng)。連接詞對(duì)齊標(biāo)注連接詞位置及其語(yǔ)義關(guān)系,體現(xiàn)為管轄范圍和邏輯功能的對(duì)齊。單語(yǔ)中的指代信息構(gòu)成指代鏈,漢英指代鏈中的詞兩兩相互對(duì)應(yīng),漢英都省略的不做處理,主要處理漢語(yǔ)或者英語(yǔ)一方省略的情況。
在本文漢英銜接對(duì)齊標(biāo)注策略基礎(chǔ)上,選擇漢英平行文本進(jìn)行了漢英篇章銜接資源的構(gòu)建,目前完成了200篇平行文檔的標(biāo)注工作。標(biāo)注中采用輔助平臺(tái),對(duì)子句、連接詞、指代的標(biāo)注質(zhì)量分別進(jìn)行評(píng)估,評(píng)估結(jié)果說(shuō)明本文方法切實(shí)可行,簡(jiǎn)單實(shí)驗(yàn)結(jié)果表明本語(yǔ)料子句切分、連接詞識(shí)別具有較強(qiáng)的可計(jì)算性。
下一步工作將不斷完善本標(biāo)注策略,擴(kuò)大標(biāo)注語(yǔ)料,進(jìn)行指代和省略的計(jì)算分析工作。