宋 柔,葛詩利
(廣東外語外貿(mào)大學 外語研究與語言服務協(xié)同創(chuàng)新中心,廣東 廣州 510420)
?
面向篇章機器翻譯的英漢翻譯單位和翻譯模型研究
宋 柔,葛詩利
(廣東外語外貿(mào)大學 外語研究與語言服務協(xié)同創(chuàng)新中心,廣東 廣州 510420)
篇章機器翻譯的首要問題是確定翻譯單位?;跐h語和英語的語言知識和英漢翻譯的實踐,該文提出面向篇章機器翻譯的基本單位和復合單位的雙層單位體系,討論了這兩種單位支持篇章翻譯應滿足的性質(zhì),并據(jù)此勾畫了篇章機器翻譯的拆分、翻譯、裝配三步模型(PTA模型)。該文提出,漢語篇章機器翻譯的復合單位為廣義話題結(jié)構對應的文本塊,基本單位則是根據(jù)廣義話題結(jié)構流水模型得到的話題自足句;英語篇章機器翻譯的復合單位為句號句,基本單位為naming-telling小句(NT小句),即指稱性成分加上對它的陳述或后修飾成分所構成的小句。該文展示了在這樣的翻譯單位體系下采用PTA模型的英漢翻譯過程實例,規(guī)劃了面向篇章翻譯的英漢小句對齊語料庫的建設任務,討論了PTA模型的可行性。
翻譯單位;翻譯模型;廣義話題結(jié)構;naming-telling小句
機器翻譯是既有巨大需求又有巨大困難的自然語言處理課題,國內(nèi)外已有多年的深入研究[1-3]?;谝?guī)則的方法難以應對千變?nèi)f化的語言現(xiàn)象,于是基于統(tǒng)計的方法應運而生。但句子層面的統(tǒng)計方法難以照顧遠程的上下文相關關系,于是基于篇章的機器翻譯成為當前的研究熱點[4]。
篇章機器翻譯的研究,目前多關注于利用篇章的詞匯銜接信息和邏輯連貫信息,改進基于句子的機器翻譯,包括詞匯義項選擇、同指詞語的譯文統(tǒng)一、邏輯關系表達等。但是,有一個問題卻尚未引起足夠重視,即篇章中翻譯單位的確定問題。
關于篇章翻譯的單位,史曉東曾提出這樣的觀點: “翻譯就是求意義等價。而等價的單位是分層次的,體現(xiàn)在音節(jié)(音素)、單詞、短語、子句、句子、段落、語篇等不同的單位。好的翻譯是各個層次都要對等?!盵5]這個觀點很正確,但不同語言的單位會有很大不同,單位對等就不好辦了。尤其是漢語,它的單詞、小句、句子都沒有清楚的界線。其實,問題的根本還不在于單位邊界不清,更基本的問題是這些單位的概念不清。
從人工翻譯實踐來看,英漢翻譯,一般以句號句(句號、嘆號、問號為切分符號)為單位;漢英翻譯,由于漢語句號的使用沒有一定之規(guī),所以常以段落為單位。但是,對于計算機處理來講,段落通常會太大了,英文的句號句也是偏大。統(tǒng)計翻譯的根基在于有足夠數(shù)量的有效的雙語對齊樣本。如果翻譯單位的界定過大,跨越了小句的連接處,那么比起小句內(nèi)部,數(shù)據(jù)樣本既要有多倍的長度還要有多倍數(shù)量才能反映對譯語言之間的詞語聯(lián)系。目前,長句的翻譯質(zhì)量差就是這個問題的反映。
王經(jīng)益2009年從《新概念英語》中抽取了40句帶有關系從句的句子,調(diào)查了華建和Google的機器翻譯系統(tǒng)。結(jié)果是,整句的譯文,華建和Google的可接受率分別是35%和20%;其中主句和從句的翻譯,華建和Google可接受率分別達80%和65%,都遠遠高出整句翻譯的結(jié)果[6]。這一實驗說明長句翻譯的確是嚴重問題。
我們必須確立一種面向篇章的翻譯單位體系,這一體系必須受到語言和認知規(guī)律的約束,又要顧及機器翻譯系統(tǒng)的把控能力。這個問題對于歐洲主要語言之間的翻譯也許并不很重要,但對于涉及漢語的翻譯則具有根本性的意義。
本文的主要目標就是厘清篇章翻譯中的翻譯單位,進而說明基于這種單位的翻譯策略。限于作者語言知識和翻譯實踐的局限性,本文的工作是以英語和漢語之間的翻譯,特別是從英語到漢語的翻譯為背景而展開的。
2.1 篇章翻譯單位
我們把篇章翻譯單位設計為兩個層次,一是基本單位,二是復合單位。復合單位由基本單位構成。從翻譯的需要出發(fā),它們應當滿足一系列性質(zhì):
(1) 復合單位是自然狀態(tài)文本片斷。源語言復合單位由篇章直接切割即可得到;目標語言篇章可以由源語言篇章中各復合單位的譯文直接接續(xù)而生成,除了個別術語、命名實體的譯文統(tǒng)一等少數(shù)可控的操作之外,基本不加任何變動。(見圖1,其中Scomp表示源語言復合單位,Tcomp表示目標語言復合單位)
(2) 基本單位不太大,應在句子的機器翻譯技術(統(tǒng)計加規(guī)則)的把控范圍內(nèi);基本單位不太小,其意義和功能應具有獨立性,使得每個基本單位都能獨立地生成確定的譯文,并且方便基本單位合成復合單位;基本單位是人的事理認知單位。
(3) 不同的基本單位可能會有共享成分,這種共享關系不能超出復合單位的范圍。
圖1 在復合單位層面看篇章翻譯中原文和譯文的關系
2.2 篇章翻譯模型
在這樣的單位劃分體系之下,篇章機器翻譯可以歸結(jié)為源語言到目標語言的復合單位之間的翻譯,其模型可用函數(shù)表示:
Ttext=TextTrans(Stext) =TextTrans({Scomp}) ={CompTrans(Scomp)}
(1)
其中各符號的含義是:
Ttext: 變量,目標語言篇章;Stext: 變量,源語言篇章;Scomp: 變量,源語言復合單位;TextTrans: 函數(shù),篇章翻譯,由源語言篇章生成目標語言篇章;CompTrans: 函數(shù),復合單位翻譯,由源語言復合單位生成目標語言復合單位;{x}: 變量x的序列。
公式(1)的意思是:
目標語言篇章=源語言篇章的譯文=源語言復合單位序列的譯文=源語言復合單位譯文的序列
其中第一個等號是顯然成立的,后兩個等號依據(jù)上一小節(jié)中說的復合單位與篇章的關系。
復合單位的翻譯過程可以分成三個彼此獨立的步驟:
(1) Parsing: 源語言文本中復合單位到基本單位序列的拆分;
(2) Translating: 源語言基本單位序列到目標語言基本單位序列的翻譯;
(3) Assembling: 目標語言基本單位序列到復合單位的裝配。
這三個步驟中,步驟2由句子的機器翻譯方法實現(xiàn),步驟1和3是篇章翻譯的特殊要求。
這三個步驟可以用下面的復合函數(shù)公式來表示:
CompTrans(Scomp)=
λ([{Sbasic},Logicrel, Coref])C2BParse(Scomp) B2CAssemble(BasicTrans({Sbasic}),Logicrel, Coref)
(2)
其中各符號的含義是:
Sbasic: 變量,源語言基本單位;Logicrel: 變量,源語言基本單位間的邏輯關系;Coref: 變量,源語言基本單位中詞語間的同指關系;C2BParse: 函數(shù),源語言復合單位的拆分,由Scomp生成{Sbasic}、Logicrel、Coref;BasicTrans: 函數(shù),基本單位序列的翻譯,由{Sbasic}生成目標語言基本單位序列{Tbasic};B2CAssemble: 函數(shù),目標語言復合單位裝配,由{Tbasic}、Logicrel、Coref生成Tcomp。
式(2)中λ是λ演算記號,λ([x1,……,xn])R M表示一個函數(shù)應用。R是實參;[x1,……,xn]是形參,表示R可以分解為n項,各項對應的形參是x1,……,xn;M是函數(shù)體。
公式(2)中,C2BParse(Scomp)為實參,其中函數(shù)C2BParse拆分Scomp,函數(shù)值可分解為三部分,分別交給函數(shù)體的實參{Sbasic}、Logicrel和Coref。函數(shù)體中函數(shù)BasicTrans翻譯{Sbasic},其結(jié)果應是目標語言基本單位序列{Tbasic},它連同Logicrel和Coref作為函數(shù)B2CAssemble的自變量,進行目標語言復合單位的裝配。
一般來說,目標語言基本單位裝配成復合單位,需要依賴目標語言基本單位之間的邏輯語義關系和詞語之間的同指關系。在公式(2)中,這兩種關系用的是源語言文本中的對應關系。這樣的做法是沒有問題的,因為這兩種關系是在人的認知中存在的,與語言種類無關。
由于基本單位翻譯的獨立性,源語言基本單位序列的翻譯結(jié)果就是基本單位翻譯結(jié)果的序列,因此由式(2)可以得到式(3):
CompTrans(Scomp)=
λ([{Sbasic},Logicrel, Coreference])C2BParse(Scomp) B2CAssemble({OneBasicTrans(Sbasic)}, Logicrel, Conference)
(3)
其中OneBasicTrans是翻譯一個基本單位的函數(shù)。
這些函數(shù)逐個寫出來就是:
[{Sbasic}, Logicrel, Coref]=C2BParse(Scomp)
{Tbasic}=BasicTrans({Sbasic})={OneBasicTrans(Sbasic)}
Tcomp=B2CAssemble({Tbasic}, Logicrel, Coref)
其中Tcomp是目標語言復合單位,也是函數(shù)式CompTrans(Scomp)的值。
概括來說,這是分拆(Parsing)、翻譯(Translating)、裝配(Assembling)三步走的模型,簡稱為PTA模型。圖示如下:
圖2 PTA模型
上面的函數(shù)映射可以用統(tǒng)計方法實現(xiàn):
(4)
考慮到復合單位翻譯的獨立性,有
(5)
由復合單位翻譯三個步驟的相互獨立性,復合單位翻譯的概率是三個條件概率的乘積:
P(Tcomp | Scomp)=
(6)
又由于基本單位翻譯的獨立性,上述公式中基本單位序列翻譯概率又可以進一步分解成各基本單位翻譯概率的乘積:
(7)
綜合公式(4)~(7),可以得到篇章翻譯的概率計算表達式:
Ttext=
(8)
其中自變量最大化算子argmax是對Sbasic、Logicrel、Coref、Tbasic和Tcomp而言的,即三個概率的計算中要分別對這五類變量進行優(yōu)選。
這里沒有涉及源語言篇章Stext切分為源語言復合單位序列{Scomp}的步驟。當源語言復合單位有唯一確定的形式標記作為界限時(比如英語以句號為標記),這一步可以忽略不計,否則還需要考慮到模型之中。
基本單位和復合單位的界定是語言相關的。下面就漢語和英語分別說明。
漢語篇章中的標點符號最常見的是逗號和句號,是篇章切分的最重要的形式標記,但不能直接作為翻譯單位的切分標記。原因在于逗號句往往信息不全,句號句常常規(guī)模太大,而且也可能信息不全。逗號句信息不全和句號句規(guī)模太大的實例比比皆是,下例是句號句信息不全的實例:
例1(中華人民共和國憲法第四十一條)
對于公民的申訴、控告或者檢舉,有關國家機關必須查清事實,負責處理。任何人不得壓制和打擊報復。
這段話由漢語的兩個句號句組成,它的英語譯文(引自全國人大網(wǎng))也是兩個句號句:
The state organ concerned must, in a responsible manner and by ascertaining the facts, deal with the complaints, charges or exposures made by citizens. No one may suppress such complaints, charges and exposures or retaliate against the citizens making them.
如果以句號句為單位進行翻譯,并且不對第2個句號句進行信息補充,不可能譯出其中加下劃線的部分。
漢語的第2個句號句可以看成省略了賓語,但更自然的看法是共享了第1個句號句的話題“對于公民的申訴、控告或者檢舉”。這段話的整體結(jié)構可以用以下圖式表示:
圖3 例1話題結(jié)構
其中包含三個單位:
對于公民的申訴、控告或者檢舉有關國家機關必須查清事實,
對于公民的申訴、控告或者檢舉有關國家機關必須負責處理。
對于公民的申訴、控告或者檢舉任何人不得壓制和打擊報復。
這一圖式是漢語篇章的廣義話題結(jié)構的表示方法。該理論以標點句為單位,以廣義話題和說明的語義關系為基本出發(fā)點,構建了基于微觀話題的漢語篇章靜態(tài)形式模型;以該形式模型為基礎,可以利用上下文補充完整標點句的話題和說明,得到話題自足句,這個操作過程歸納為動態(tài)的流水模型。廣義話題結(jié)構流水模型的主體是堆棧模型,此外有話題后置模型、節(jié)棧模型、匯流模型和封閉語段模型[7]。例1是堆棧模型的例子,所列的三個單位是三個話題自足句。
我們以廣義話題結(jié)構的文本塊作為漢語篇章翻譯的復合單位,以話題自足句作為漢語篇章翻譯的基本單位。它們滿足2.1節(jié)討論的性質(zhì)。限于篇幅,這里不予詳細討論。
我們把英語復合單位界定為句號句,即篇章中以句號、嘆號、問號為邊界的文本片斷。這樣的界定顯然滿足本文2.1節(jié)所列復合單位的性質(zhì)。從人工翻譯實踐看,英語篇章到漢語篇章的技術性的人工翻譯(區(qū)別于文學性的人工翻譯),通常的確是以句號句為篇章的下一級單位。
英語篇章基本單位的確定是比較復雜的。
例2(華爾街日報)
Documents filed with the Securities and Exchange Commission on the pending spinoff disclosed that Cray Research Inc. will withdraw the almost $100 million in financing it is providing the new firm if Mr. Cray leaves or if the product-design project he heads is scrapped .
百度譯文:
提交給美國證券交易委員會對未決分拆披露,克雷研究公司將收回近100 000 000美元的融資,這是為新公司如果克雷離開或者產(chǎn)品設計項目他頭報廢文件。
百度翻譯沒做好的地方有兩方面:
1) 未能識別名詞短語與其后修飾語的關系,造成譯文混亂。涉及這類錯誤的成分是:
① 名詞“Documents”的過去分詞后修飾語“filed with the Securities and Exchange Commission”;
② 名詞“Documents”的介詞短語后修飾語“on the pending spinoff”;
③ 名詞短語“the almost $ 100 million in financing”的關系從句“it is providing the new firm”
④ 名詞短語“the product-design project”的關系從句“he heads”
2) 狀語從句譯文順序不對。涉及這類錯誤的成分是:
① 主句“Cray Research Inc. will withdraw the almost $ 100 million in financing”的狀語從句“if Mr. Cray leaves”
② 同一個主句的另一個并列的狀語從句“if the product-design project is scrapped”
這些錯誤給我們兩條啟發(fā):
(1) 名詞短語和它的后修飾成分應當從句號句中提取出來,二者結(jié)合作為翻譯的基本單位。需要說明這種結(jié)合的關系類型,以便翻譯并做譯文裝配。
關于這一類基本單位,更準確的說法是指稱語加它的后修飾成分,因為作為被修飾對象的不全是名詞短語,有可能是形容詞短語、非限定的動詞短語或者主謂結(jié)構的小句等,它們在受到后修飾時,實際的語用功能不是陳述或修飾,而是指稱。
(2) 狀語從句應當從句號句中提取出來作為翻譯的基本單位。需要說明是哪個主句的從句,以便譯文在裝配時調(diào)序。
舉一反三,可以想到:
(3) 賓語從句應當成為一個基本單位。需要說明主從關系,以便譯文在裝配時安排順序。
(4) 并列的小句應當分別作為一個基本單位。需要說明哪幾個小句并列,以便譯文在裝配時安排順序。
(5) 上述各類提取出來準備作為翻譯基本單位的成分,如其中又含有這些類成分中的某一類或某幾類,也應提取出來作為翻譯基本單位。因此這一過程是遞歸的,直至沒有這些類成分需要提取。而最后剩下的也是翻譯基本單位,它應當是簡單的主謂關系小句。
以上就是英語篇章翻譯的基本單位的分類體系。其中第(1)類還要加以細化,因為有相當多的名詞后修飾成分只有一兩個詞,如N of N等,它們通常在基于句子的機器翻譯系統(tǒng)的掌控范圍內(nèi),而且單獨翻譯有歧義,并致譯文裝配繁瑣,因此不應單獨取出來做基本單位。下面是我們迄今為止在語料庫標注中歸納出的細化類型。
(1.1)指稱語+關系從句
例3 The missing watch is emblematic of the problems Mr. Wathen encountered .
其中the problems+Mr. Wathen encountered是一個基本單位,類型為WO,表示該基本單位是關系從句類型,先行語在關系從句中充任賓語。原句中去掉這個基本單位后剩下的成分The missing watch is emblematic of the problems 也是一個基本單位,類型為SV,即為簡單的主謂結(jié)構小句。注意,the problems是這兩個基本單位的共享成分。
指稱語+關系從句是一個大類,包括幾個小類。除了WO類外,還有WS類,表示先行語在關系從句中充任主語;WC類表示先行語在關系從句中充任主語,而且先行語本身是一個小句;WD類表示先行語在關系從句中充任狀語;WPO類表示先行語在關系從句中充任介詞賓語;WE類表示先行語和從句等同,形式主語it引導的從句屬于這一類。
本節(jié)的例子都來自《華爾街日報》賓州樹庫。下面的例子不再指明去掉所例示的基本單位后剩下的成分,也不再指明共享成分。
(1.2) 指稱語+過去分詞短語
例4 And though the size of the loan guarantees approved yesterday is significant.
其中the loan guarantees+ approved yesterday是一個基本單位,類型為ED,表示指稱語的后修飾成分是過去分詞短語。
(1.3) 指稱語+現(xiàn)在分詞短語
例5 Four of the five surviving workers have asbestos-related diseases, including three with recently diagnosed cancer .
其中Four of the five surviving workers+ including three with recently diagnosed cancer是一個基本單位,類型為ING,表示指稱語的后修飾成分是現(xiàn)在分詞短語。
(1.4) 指稱語+動詞不定式短語
例6 The plant, which is owned by Hollingsworth &Vose Co., was under contract with Lorillard to make the cigarette filters .
其中Lorillard+ to make the cigarette filters是一個基本單位,類型為TO,表示指稱語的后修飾成分是動詞不定式短語。
(1.5) 指稱語+形容詞短語
例7 They had all maintained with a certain fidelity a manner of technique and composition consistent with those of America’s first popular landscape artist .
其中technique and composition+consistent with those of America’s first popular landscape artist是一個基本單位,類型為ADJ,表示指稱語的后修飾成分是形容詞短語。
(1.6) 指稱語+介詞短語
例8 The survival of spinoff Cray Computer SEQp. as a fledgling in the supercomputer business appears to depend heavily on the creativity .
其中spinoff Cray Computer SEQp.+as a fledgling in the supercomputer business是一個基本單位,類型為PPM,表示指稱語的后修飾成分是嵌套的介詞短語,即介詞的賓語又帶有后修飾語。
指稱語+介詞短語是一個大類,包括幾個小類。除了PPM類外,還有PPI類,表示動名詞短語作介詞賓語;PPC類,表示主謂結(jié)構小句作介詞賓語。名詞短語的后修飾成分是介詞短語的情況很多,我們只把這三類歸入基本單位,一是因為這三類的介詞短語往往比較長,如不從句子中取出,會使整個句子太長,以致傳統(tǒng)的面向句子的機器翻譯系統(tǒng)無法把控;二是因為作為中心語的后修飾成分,這三類介詞短語有比較強的陳述性,能被獨立翻譯。
(1.7) 指稱語+同位語
例9 Rep. Jerry Lewis, a conservative Californian, added a provision of his own intended to assist Bolivia,
其中Rep. Jerry Lewis+a conservative Californian 是一個基本單位,類型為APP,表示指稱語的后修飾成分是指稱語的同位語,用以對指稱語進行解釋。
(1.8) 指稱語+插入的后修飾成分
例10 But maintaining the key components of his strategy—a stable exchange rate and high level of imports—will consume enormous amounts of foreign exchange .
其中the key components of his strategy+a stable exchange rate and high level of imports是一個基本單位,類型為EXP,表示指稱語的后修飾成分是一個插入語,對指稱語做進一步的解釋。
上面是第(1)大類的細分,它們都具有指稱語+后修飾成分的結(jié)構。這些后修飾成分,無論是關系從句、動詞短語、形容詞短語還是插入語,以及以動詞短語為賓語的介詞短語,都具有明顯的陳述意義。嵌套的介詞短語以及同位語雖然通常是靜態(tài)的修飾,但也可看成是對于前面指稱語的屬性描述,從而也具有陳述意義。比如例9中同位語類型的Rep. Jerry Lewis+a conservative Californian,意思是“眾議員Jerry Lewis是加州的保守黨人”。因此,這一大類的后修飾成分都可以看成陳述語。(1)至(5)各類樣例取出盡可能多的基本單位后剩下的成分都是主謂結(jié)構的小句,主語是指稱語,謂語是陳述語。所以,英語篇章翻譯的所有基本單位,都具有指稱語+陳述語的結(jié)構。但這里說的指稱語和陳述語的概念與語言學中的傳統(tǒng)概念有所不同。為了在加以區(qū)分同時還表現(xiàn)出這些結(jié)構的特點,我們借用兒童語言習得中的術語,把這里的指稱語稱為naming part,陳述語稱為telling part,一個基本單位就是一個naming-telling結(jié)構的小句,簡稱為NT小句。
如第3節(jié)所述,漢語篇章翻譯的基本單位是廣義話題結(jié)構的話題自足句。每個話題自足句都具有話題-說明結(jié)構,話題和說明可以分別看成naming part和telling part,因此漢語的話題自足句其實也是NT小句,漢語廣義話題結(jié)構文本可以拆分成NT小句的序列。因此,NT小句是英語和漢語篇章翻譯的對等的基本單位。
據(jù)涉及多種語體的數(shù)萬漢語NT小句和數(shù)千英語NT小句的調(diào)查,NT小句具有如下性質(zhì):
(1) 意義和功能的獨立性和完整性。NT小句能相對于上下文基本上獨立完整地表達意義。獨立性指的是它的意義不受上下文的影響而改變。完整性指的是它能表達相對完整的事理意義,包括事物的性狀、事件或關系的基本要素。NT小句裝配成復合單位,只需要遵從邏輯順序,無需再考慮事理意義所致的句法關系。
(2) 全覆蓋性。任何正常篇章中的所有成分,除了一些明顯的插入性成分之外,基本上都可劃入某一個NT小句的naming part或telling part。
(3) 順序性。除了話題后置的情況,naming part總是在telling part前面。而話題后置有比較嚴格的約束條件。
(4) 分支性。除了極特殊的情況(非主謂句和主語省略句),每個naming part有至少一個直接的telling part,每個telling part恰有一個直接的naming part。因此,會有多個NT小句共享一個naming part的情況。
(5) 不可交叉性。除了極特殊的情況(具有插入附注性質(zhì)的背景語段和補充說明語段),各NT小句之間互不交叉穿越。即不存在具有如下形式的文本片斷:
(6) 成句性。NT小句基本成句。每一個這種結(jié)構或者本身就是通常意義下的句子,或者簡單地插入刪除一兩個用于連接的成分就可以變成通常意義下的句子。
(7) 非遞歸性。每一個NT小句的內(nèi)部構造基本非遞歸,長度受限。
上面性質(zhì)中,第1條滿足了作為篇章分析基本單位的基本要求;第2條是這種結(jié)構的應用基礎;第3、4、5條保證了NT小句分析的可操作性;第6條和第7條是小句快速認知的基礎,也是小句自動翻譯的基礎。
人對客觀世界認知的出發(fā)點就是naming part,認知的內(nèi)容就是telling part,因此NT小句是人類認知的基本單位。
以上一系列分析說明,NT小句適合于表示篇章結(jié)構,能反映認知約束,具有高度的實證性,因此具有篇章文法的意義。NT小句滿足篇章翻譯基本單位的要求,能有效支持面向篇章的機器翻譯。
我們以例2為例,展示在這樣的翻譯單位體系下,采用三步走的PTA模型,如何完成英漢篇章翻譯工作。
英語原句
Documents filed with the Securities and Exchange Commission on the pending spinoff disclosed that Cray Research Inc.will withdraw the almost $100 million in financing it is providing the new firm if Mr. Cray leaves or if the product-design project he heads is scrapped .
第一步Parsing: 英語句號句拆分為NT小句
1) 英語名詞為中心的結(jié)構分析
首先采用換行縮進圖式表示英語的naming part 和telling part(圖4)。每個telling part 換行縮進到它對應的naming part右下方。為了標示naming part 的左邊界,需要在naming part的左下方加注雙豎線,但當naming part在行的左端時就無需雙豎線標記了。
圖4 NT小句結(jié)構示例
注:
① 每個telling part的右端標注它所對應的NT小句類型。
② 第三行只是一個非嵌套的介詞短語,本來不必列做一個telling part,但是第二行的成分列做telling part單獨成行后,這個介詞短語就被孤立出來了,所以只能單獨成行,與它修飾的documents構成一個NT小句,標注為PP類型,表示是介詞短語。
③ 第四行對應的NT小句是一個主謂結(jié)構,但謂語動詞缺少賓語從句,所以類型標注為SV-OBJ。
④ 圖式中的黑方括號括起分列多行的賓語從句。
NT小句的不可交叉性保證了英語的句號句能夠用這種換行縮進圖式表示,進而能由此圖式機械地生成NT小句。
2) 英語小句拆分、邏輯分析和同指分析
這一小步將上一步分析出來的naming part及對應的telling part放到一起,構成NT小句,并表示出小句間的成分共享關系、邏輯關系、同指關系。
(1) (Documents)1+ED+ filed with the Securities and Exchange Commission
(2) (Documents)1+PP+ on the pending spinoff
(3) (Documents)1disclosed that
(4) 【{Cray Research Inc.}4+will withdraw (the almost $100 million in financing)2
(5) (the almost $100 million in financing)2+WO+ {it}4is providing the new firm
(6) if {Mr. Cray}5+SV+ leaves
(7) (the product-design project)3+WO+{he}5heads
(8) or if (the product-design project)3+SV+is scrapped .】
(OBJ (ATT (1) (2) (3)) (SUB (PAR (6) (ATT(7) (8))) (ATT (5) (4))))
注:
① 各NT小句的類型標注在連接naming part 和telling part的兩個加號中間。
② 有些naming part 被多個telling part共享,于是需要復制多份。為了表明被復制成分的同一性,這些成分用圓括號括起來并加標數(shù)字。
③ 在英語原文中,有些概念初次出現(xiàn)時用名詞表示,再次出現(xiàn)時用代詞表示。但是,英語NT小句的譯文在組成漢語廣義話題結(jié)構時,有時需要調(diào)序。這種調(diào)序有可能把同一概念的代詞性出現(xiàn)調(diào)到了名詞性出現(xiàn)的前面,但這是不合乎漢語篇章語法的。為此,在英語處理階段,需要把代詞的同指對象識別并標注出來,以便在漢語裝配階段配合小句調(diào)序進行指代方式的調(diào)整。標注方法是花括號右邊加數(shù)字,標示指代的同一性。
④ 邏輯分析的目的是裝配階段能將各小句譯文按照漢語的邏輯順序排列好。上面最后一行是小句間的邏輯關系式,格式為(邏輯關系符 {邏輯前項行號}+ 邏輯后項行號)。本例中使用的邏輯關系符有: OBJ-主句和賓語從句,ATT-修飾成分和被修飾成分所在句,SUB-主從復句中的從句和主句,PAR-并列復句,IND-獨立小句。
第二步Translating: 英語NT小句到漢語NT小句的翻譯
3) 英漢小句翻譯(同一原文的譯文應當相同)
(1) (文件)1+ED+提交給了證券交易委員會
(2) (文件)1+PP+關于這個未決分拆
(3) (文件)1透露
(4) 【{克雷研究公司}4+將撤回(將近1億美元的融資)2
(5) (將近1億美元的融資)2+WO+{它}4正提供給該新公司
(6) 如果{克雷先生}5+SV+離開
(7) (產(chǎn)品設計項目)3+WO+{他}5帶領
(8) 或者如果(產(chǎn)品設計項目)3+SV+被廢止】
(OBJ (ATT (1) (2) (3)) (SUB (PAR (6) (ATT(7) (8))) (ATT (5) (4))))
第三步Assembling: 漢語NT小句裝配成漢語廣義話題結(jié)構的文本
4) 漢語說明語處理
(1)[關于這個未決分拆(2)]<的> (文件)1提交給了證券交易委員會
(3) (文件)1透露
(4) 【{克雷研究公司}4將撤回(將近1億美元的融資)2
(5) {它}4正把(將近1億美元的融資)2提供給該新公司
(6) 如果{克雷先生}5離開
(8) 或者如果[{他}5帶領(7)]<的> (產(chǎn)品設計項目)3被廢止】
(IND (1) (OBJ (3) (IND (5) (SUB (PAR (6) (8)) (4)))))
注: 這一小步變化如下:
① 長的NT小句(1)和(5)改造成普通句,進而句(2)的telling part嵌入被說明成分所在小句(1)中,插在被說明成分前,標上原來小句的序號(2),中間加“的”。
② 表示修飾關系的NT小句(7)中的telling part嵌入到被修飾成分所在小句(8)中,插在被修飾成分前,標上原來小句的序號(7),中間加 “的”。
③ 小句間邏輯語義關系需要修正,具體過程不詳述。
5) 漢語小句調(diào)序和指代變換
(1) [關于這個未決分拆(2)]<的> (文件)1提交給了證券交易委員會
(3) (文件)1透露
(5) 【{克雷研究公司}4正把(將近1億美元的融資)2提供給該新公司
(6) 如果{克雷先生}5離開
(8) 或者如果[{他}5帶領(7)]<的>(產(chǎn)品設計項目)3被廢止
(4) {它}4將撤回(將近1億美元的融資)2?!?/p>
(IND (1) (OBJ (3) (IND (5) (SUB (PAR (6) (8)) (4)))))
注: 這一小步中的變化如下:
① 按照邏輯關系式中小句序號的線性順序,對小句序列進行調(diào)序,第(4)小句移到最后。
② 因(4)移到后面,故(4)和(5)中同指的名詞形式和代詞形式對調(diào),(4)中與(5)中同指的名詞形式改為簡稱。
6)漢語小句刪除共享成分,加標點并刪除標記得到最后結(jié)果
關于這個未決分拆的文件提交給了證券交易委員會。
該文件透露:
【克雷研究公司正把將近1億美元的融資提供給該新公司。
如果克雷先生離開,
或者他帶領的產(chǎn)品設計項目被廢止,
它將撤回這筆融資。】
注: ① 上面黑括號中第三行里原有的“如果”可以作為廣義話題共享而刪除。
② 獨立句后為句號,帶賓語從句的主句后為冒號,并列復句中間用逗號,主從復句的從句和主句之間用逗號,復句結(jié)束用句號。
我們正在進行英漢篇章NT小句對齊語料庫的建設工作。源語料是賓州英語樹庫中《華爾街日報》(wsj)樹庫的英語原文,標注內(nèi)容是按PTA模型的三大步展示每個英語句號句翻譯成漢語廣義話題結(jié)構文本的翻譯過程。具體來說,有精加工和粗加工兩個方案。
精加工方案:
第一步加工英語篇章。以句號句為單位,采用換行縮進圖式的直觀方式,展示naming part 和telling part 的關系;構造NT小句,標注NT小句的類型、NT小句之間的邏輯關系、復制成分的同一性關系、代詞的同指關系。
第二步進行英語NT小句到漢語NT小句的翻譯。這步翻譯采用機助人譯的方式,在字面忠實于原文的前提下要求通順,以適應機器學習的需要。
第三步進行漢語NT小句到漢語篇章廣義話題結(jié)構的裝配,裝配操作包括: 某些NT小句變成普通句(話題自足句),某些NT小句的telling part嵌入到另一個NT小句中naming part之前,按小句間的邏輯關系進行小句調(diào)序,按小句調(diào)序結(jié)果修改指代方式,廣義話題結(jié)構中的共享成分刪除,按邏輯關系加標點。
粗加工方案:
第一步加工英語篇章。以句號句為單位,采用換行縮進圖式的直觀方式,展示naming part 和telling part 的關系,對于每個telling part標注它所對應的NT小句類型。
第二步翻譯。以機助人譯的方式在換行縮進圖式中將英語的每個naming part 和telling part翻譯成漢語。
第三步漢語裝配。人工將換行縮進圖式中的漢語片斷裝配成漢語文本。
目前,粗加工的英漢小句對齊語料已有數(shù)千句號句,為語料的精加工奠定了一定的基礎,下一步精加工結(jié)果可以由粗加工結(jié)果擴展而得到。
語料庫將顯示粗加工和精加工的每一大步的結(jié)果,以及精加工的每一小步的結(jié)果,以便機器學習和人工總結(jié)規(guī)律。
英漢篇章NT小句對齊語料庫的建設目的有以下幾方面:
? 直接用作英漢機器翻譯的訓練語料。
? 完善機器翻譯的評價系統(tǒng)。
? 面向人的英漢翻譯研究。
? 在NT小句體系下,跨語言的篇章語法研究,英語和漢語的小句異同研究
? 語言認知機制和認知語法研究。
? 語言習得和語言教學研究。
8.1 PTA模型的來由
PTA模型并非無本之木。王力先生70多年前在西南聯(lián)大《中國現(xiàn)代語法》的講義中專門講了歐化的語法[8]。他舉了多個英漢長句翻譯的實例,其中一個是:
People who have enjoyed good educational opportunities ought to show it in their conduct and language.
他說這句話的歐化譯法是“已經(jīng)享受過良好教育機會的人們應該在他們的行為言語上表現(xiàn)它?!?,非歐化的譯法是“一個人享受過良好教育的機會,應該在行為和言語上表現(xiàn)出來?!睆耐趿Φ奶幚矸椒梢钥闯?,他把英語的主句和關系從句拆分開來,分別翻譯,然后使用兩種裝配方法,一是用從句譯文作為先行語的前置修飾,一是將從句譯文另置一句,并共享主句話題。就這個例子來說,后一種譯法更自然。
其實,一般人在英漢人工翻譯的實踐中都有這樣的思路,即將主句和從句以及一些附帶的修飾成分分開翻譯,再看如何裝配更符合漢語習慣。PTA模型是人的認知的抽象。
基于規(guī)則的機器翻譯,效果較好的方法是轉(zhuǎn)換翻譯[9],一般劃分為三個階段: 原文分析、原文譯文轉(zhuǎn)換和譯文生成[10]。這個模式與本文的PTA模型思想相近,只是轉(zhuǎn)換翻譯是面向句子的,分析的葉節(jié)點是詞;PTA模型是面向篇章的,分析的葉節(jié)點是NT小句。這是機器翻譯方法的螺旋式的上升。
8.2 PTA模型的可行性分析
PTA模型的三個步驟——拆分、翻譯和裝配,每一步都有很大的難度。假如說每一步的準確率都達到70%,由于這三步相互獨立,最終的翻譯準確率只有70%的3次方,不到35%。如此看來,這個方法似乎是沒有前途的。
實際情況是,任何一個復雜問題的求解,都應盡可能地分解為多個子任務,而且最好子任務之間相互獨立。PTA模型的三個步驟正是對篇章翻譯這一復雜任務的分解,而且分解出的這三個子任務確實相互獨立。這三個子任務各自面對的困難都是篇章翻譯原來就有的,只不過目前的一般方法是混在一起處理,PTA模型則是把困難分開,分別處理?;煸谝黄鹛幚?,某些實例可能處理得好,某些實例可能處理得不好,這些處理結(jié)果都帶有一定的偶然性,難以把控,從而也就難以提高。分別處理的方法可以減少偶然性,可以針對不同困難的特點各個擊破。
PTA方法的基礎是人對于長句翻譯方法的理性認知,即拆成NT小句分別翻譯后再裝配。這種宏觀層面的理性認知不同于細節(jié)處理的規(guī)則,它具有高度的概括性和有效性。至于三個步驟中的每一步,既可以使用理性的知識,也可以使用來自語料庫數(shù)據(jù)的經(jīng)驗,還可以把二者結(jié)合起來。如果采用機器學習的方法,由于每個子任務都比篇章翻譯的總?cè)蝿諄淼煤唵?,目標較為集中,需要的特征比較少,機器學習的效果就會比較好。
進一步分析這一方法的難度:
? 拆分和裝配只涉及單一的語言,可以在巨大的單語語料庫中學習。
? 翻譯涉及雙語,但學習對象是NT小句,大致是非遞歸的簡單句,長度短,語法語義模式的重復率會比較高,而且短句對齊會比較容易,如此自然有利于機器學習。
? 拆分中要做NT小句識別,這基本上是一種淺層分析,但涉及語義關系,有較大難度,可是這個困難是不可回避的。
? NT小句間的邏輯關系分析和詞語同指關系分析,其目的是為了便于漢語小句裝配中的調(diào)序。目標清楚,所以任務得以限定: 邏輯關系分析中主從關系不必分出細類,因為漢語的句序在無連詞的情況下通常是從句在主句前,與主從關系的細類無關;同指分析僅限于有主從關系而且主在后從在前的小句,因為其他小句不涉及調(diào)序,無需作指代變換。退一萬步講,可以不做邏輯關系分析和同指分析。只要NT小句識別正確,將小句譯文直接連起來作為裝配結(jié)果,也能基本明白意思,總比各種小句混在一起亂成一鍋粥要強。
本文作者曾指導博士生王經(jīng)益研究英語帶有關系從句的復雜長句遵從PTA模型的漢譯,主要做譯文的裝配。王經(jīng)益歸納出了一系列特征和規(guī)則,在《新概念英語》的開放測試中,對于從句譯文應當前置修飾還是另置一句,區(qū)分的正確率接近80%[6]。
目前,作者的課題組正依照PTA模型進行英漢小句對齊語料的建設。當前的首要目標是通過人工標注,完善這一方法的理論基礎和形式模型。雖然機器翻譯的實驗尚未進行,但數(shù)千句號句英漢翻譯的人工考察,支持了該模型的可行性。
本文的目標首先是英漢翻譯。理論上說,漢英翻譯也可以照此模式進行。我們目前暫未實施,原因在于這三步的技術成熟程度還不夠。
第一步,漢語缺少形式標記,漢語廣義話題結(jié)構的分析較之英語NT小句分析更為困難;
第二步,漢語小句翻成英語小句,可用于機器學習的高質(zhì)量的對齊語料較英到漢更為缺乏,而且從形式標記少的語言翻譯成形式標記多的語言本身難度就大于反向翻譯。
第三步,英語小句的排序和改造,對于英語語感的要求非常高,通常需要具備較高語言學修養(yǎng)的英語母語者來完成,而我們的語料庫的建設人員通常只是漢語母語者。由于這一步的結(jié)果將用作機器翻譯的訓練樣本,要求質(zhì)量高,故必須慎重。
用PTA模型做漢英翻譯的工作,是一個合理的目標,也是我們后期的工作方向。為此,必須在這三步上多加努力,尤其要加緊漢語廣義話題結(jié)構分析的研究工作。
[1] 馮志偉. 《統(tǒng)計機器翻譯》述評[J]. 外語教學與研究,2003,45(4): 629-633.
[2] 劉群. 機器翻譯技術現(xiàn)狀與展望[J]. 集成技術,2012,1(1): 48-54.
[3] 宗成慶. 統(tǒng)計自然語言處理(第二版)[M]. 北京: 清華大學出版社,2013.
[4] 張民. 語義、語篇和機器翻譯[R]. 貴陽: CIPSC戰(zhàn)略研討會,2014.
[5] 史曉東,陳毅東. 基于語篇的機器翻譯前瞻[C]//曹右琦,孫茂松. 中文信息處理前沿進展——中國中文信息學會二十五周年學術會議, 北京: 清華大學出版社,2006: 34
[6] 王經(jīng)益. 面向計算機的英語關系從句漢譯研究[D]. 北京: 北京語言大學碩士學位論文,2009.
[7] 宋柔. 漢語篇章廣義話題結(jié)構的流水模型[J]. 中國語文,2013,(6): 483-494.
[8] 王力. 中國語法理論[M]. 北京: 中華書局. 2012: 352-354
[9] Hutchins, J. Machine translation General overview [A]. In R. Mitkov (ed.) The Oxford Handbook of Computational Linguistics[C]//Beijing: Foreign Language and Research Press & Oxford University Press, 2009.
[10] 馮志偉. 《統(tǒng)計機器翻譯》序[M]. 北京: 電子工業(yè)出版社,2012: 3-14.
English-Chinese Translation Unit and Translation Model for Discourse-Based Machine Translation
SONG Rou,GE Shili
(Guangdong Collaborative Innovation Center for Language Research & Services,Guangdong University of Foreign Studies, Guangzhou, Guangdong 510420, China)
The primary issue in discourse-based machine translation (MT) is to define the translation unit. Based on English and Chinese linguistic knowledge and English-Chinese translation practice, we propose a double level system of translation units for discourse-based MT, including the basic unit and the compound unit. We further explore the properties of these two types of units and construct a three-step discourse-based MT model: parsing, translating and assembling (PTA model). This paper suggests that the compound unit for Chinese discourse-based MT is the text corresponding to the generalized topic structure and the basic unit is the topic sufficient sentence derived from the stream model of the generalized topic structure; while the compound unit for English is the traditional sentence and the basic unit is the naming-telling clause (NT clause), namely, the clause constructed with the referential component and its description or post-modification component. This paper exhibits the process of English-Chinese translation with an example under the framework of the double level translation unit system and PTA model, and finally outlines a plan for the construction of English-Chinese clause aligned corpus for discourse-based MT.
translation unit; translation model; generalized topic structure; naming-telling clause
宋柔(1946—),教授,主要研究領域為計算語言學。E-mail:songrou@126.com葛詩利(1969—),教授,主要研究領域為計算語言學。E-mail:geshili@gdufs.edu.cn
1003-0077(2015)05-0125-11
2015-06-15 定稿日期: 2015-08-10
國家自然科學基金(61171129)
TP391
A