羅煦 四川傳媒學(xué)院
1966年,自動(dòng)語(yǔ)言處理咨詢(xún)委員會(huì)(ALPAC)發(fā)布的一份報(bào)告初步定義了歐洲煤鋼鐵協(xié)會(huì)(CECA)所使用的早期的翻譯記憶系統(tǒng)為:“包含上下文的自動(dòng)字典查詢(xún)。[...]翻譯者用下劃線(xiàn)表示他想要的幫助。然后將整個(gè)句子按鍵打開(kāi)并送入計(jì)算機(jī)。計(jì)算機(jī)通過(guò)搜索程序并打印出與問(wèn)題句子最明顯匹配(在詞匯項(xiàng)目中)的一個(gè)句子或多個(gè)句子。譯者然后檢索打印出來(lái)的所需項(xiàng)目的上下文以及它們?cè)谠次募谐霈F(xiàn)的順序。”(ALPAC 1966,27)這個(gè)系統(tǒng)的出現(xiàn),為了為現(xiàn)代翻譯記憶系統(tǒng)的發(fā)展鋪平道路,一些關(guān)鍵特征如文本對(duì)齊,自動(dòng)匹配和檢索被創(chuàng)造了出來(lái)。
翻譯記憶(TM)是一個(gè)存儲(chǔ)“段”的數(shù)據(jù)庫(kù),它存儲(chǔ)著之前翻譯過(guò)的句子,段落或類(lèi)似句子的單位(列表中的標(biāo)題,標(biāo)題或元素),借以此幫助翻譯人員。翻譯記憶通常與專(zhuān)用計(jì)算機(jī)輔助翻譯(CAT)工具,文字處理程序,術(shù)語(yǔ)管理系統(tǒng),多語(yǔ)言字典或甚至原始機(jī)器翻譯輸出結(jié)合使用。雖然翻譯人員可用的技術(shù)范圍包括從電子詞典和詞匯提取工具到高度復(fù)雜的翻譯環(huán)境等各個(gè)領(lǐng)域,但翻譯及一系統(tǒng)存儲(chǔ)和檢索能力以非凡的速度發(fā)展,因而對(duì)翻譯這個(gè)行業(yè)帶來(lái)了變革。因此,就像在翻譯和翻譯之間架起了一座橋梁。當(dāng)翻譯人員使用翻譯記憶庫(kù)工具翻譯新文本時(shí),該工具會(huì)識(shí)別新文本片段和存儲(chǔ)的源文本之間的相似性。在此過(guò)程中,搜索和檢索功能是所有翻譯記憶工具的基本功能。
現(xiàn)如今,翻譯行業(yè)正在為今后幾年的需求大幅增長(zhǎng)做好準(zhǔn)備。根據(jù)Common Sense Advisory的調(diào)查,語(yǔ)言服務(wù)市場(chǎng)2015年的增長(zhǎng)率為6.46%。雖然語(yǔ)言技術(shù)只占整個(gè)語(yǔ)言服務(wù)市場(chǎng)的2.8%,但它確實(shí)表明了語(yǔ)言技術(shù)發(fā)展的巨大潛力。Common Sense Advisory將名為翻譯自動(dòng)化軟件的三家大型公司列為混合語(yǔ)言服務(wù)提供商,向所有市場(chǎng)利益相關(guān)者銷(xiāo)售服務(wù),包括SDL,STAR和TransPerfect。他們的套裝包括翻譯記憶庫(kù),術(shù)語(yǔ)管理和TMS。
而翻譯記憶最新發(fā)展是“文本記憶”,這一概念與翻譯記憶相反。這也是LISA OSCAR(前本地化產(chǎn)業(yè)標(biāo)準(zhǔn)協(xié)會(huì)出臺(tái)的標(biāo)準(zhǔn))的基礎(chǔ)。在xml:tm中的文本內(nèi)存包含“譯者內(nèi)存”和“翻譯記憶”。譯者記憶用于記錄譯者編輯當(dāng)中出現(xiàn)的改動(dòng)。翻譯記憶則使用譯者記憶中的信息來(lái)實(shí)現(xiàn)翻譯記憶匹配。雖然主要針對(duì)XML文檔,但可以將XML:tm用于任何可以轉(zhuǎn)換為XLIFF格式的文檔。
翻譯記憶模式是指翻譯記憶存儲(chǔ)的方式。根據(jù)國(guó)內(nèi)研究人員(王華偉,崔啟良2005,107)的分類(lèi),目前有兩種翻譯記憶模式。一種是基于句子的模式(SB),其中翻譯記憶以翻譯單元的形式存儲(chǔ)。另一種是雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串(CSB)模式。目前,SB模式被應(yīng)用于大多數(shù)翻譯記憶工具。因此,本文在比較兩種模型時(shí)將更重視前者。
就該模式而言,翻譯記憶系統(tǒng)是一種特殊類(lèi)型的支持工具,它維護(hù)源語(yǔ)言和目標(biāo)語(yǔ)言對(duì)的數(shù)據(jù)庫(kù),并自動(dòng)檢索數(shù)據(jù)庫(kù)中出現(xiàn)的新文本中的這些句子的翻譯。換句話(huà)說(shuō),每個(gè)源語(yǔ)句與目標(biāo)語(yǔ)句中的語(yǔ)句完全匹配。在這一模式中,翻譯記憶系統(tǒng)將根據(jù)句子級(jí)別搜索和檢索數(shù)據(jù)。
為什么句子是大多數(shù)翻譯記憶工具選擇的首選翻譯單元?語(yǔ)料庫(kù)對(duì)在不同層面都差異甚大,比如文本、段落、句子、短語(yǔ)和詞語(yǔ)層面。一些像黃俊紅這樣的學(xué)者(2007,21)認(rèn)為,對(duì)齊單位越小,它傳達(dá)的語(yǔ)言信息就越多。然而,Bowker(2002,56)認(rèn)為,詞匯層次上的對(duì)齊非常困難,容易被誤解,因?yàn)榇蠖鄶?shù)自然語(yǔ)言可以找到它們之間的確切等價(jià)關(guān)系,而段落對(duì)太寬而無(wú)法搜索和檢索。因此,詞匯對(duì)齊應(yīng)該是構(gòu)建雙語(yǔ)平行語(yǔ)料庫(kù)最合適的方法。
此外,通常來(lái)講,這樣的匹配也是高度精確的。盡管能夠訪(fǎng)問(wèn)比句子更小的片段的工具可能會(huì)產(chǎn)生更多的匹配,但使用該句子作為基本單元的顯著益處在于,出現(xiàn)的匹配更有可能是相關(guān)的。這被認(rèn)為是高精度,低召回的搜素形式。
這種基于句子的模型的另一個(gè)優(yōu)點(diǎn)是它基于容易識(shí)別的單位(句子)進(jìn)行操作;系統(tǒng)可以根據(jù)形式標(biāo)準(zhǔn)(例如開(kāi)頭的大寫(xiě)字母,最后的標(biāo)點(diǎn)符號(hào))快速且比較容易地確定每個(gè)句子的開(kāi)始和結(jié)束。但是,當(dāng)文本中出現(xiàn)含有句點(diǎn)的縮寫(xiě)詞時(shí)就會(huì)出現(xiàn)問(wèn)題,但這可以在一定程度上用停用列表來(lái)幫助程序識(shí)別和忽略這些縮寫(xiě)(Bowker 2002,95)。
任何以句對(duì)形式存在的翻譯記憶數(shù)據(jù)庫(kù)都促進(jìn)了翻譯記憶系統(tǒng)在不同系統(tǒng)和用戶(hù)之間的可交換性,因?yàn)槭袌?chǎng)上大多數(shù)翻譯記憶系統(tǒng)使用該模式,而另一方面得歸功于本地化行業(yè)標(biāo)準(zhǔn)協(xié)會(huì)(LISA),因?yàn)樗_(kāi)發(fā)了TMX(翻譯記憶交換),這是一種標(biāo)準(zhǔn)格式,允許翻譯單元從一個(gè)翻譯記憶程序中導(dǎo)出并在另一個(gè)中重新打開(kāi),而不會(huì)丟失附加到這些單元的信息。
最明顯的缺點(diǎn)在于源文本和目標(biāo)文本之間由于句子結(jié)構(gòu)不同而導(dǎo)致的對(duì)齊問(wèn)題。有時(shí)需要將兩個(gè)源語(yǔ)言句子合并成一個(gè)目標(biāo)語(yǔ)言句子,或者將一個(gè)源語(yǔ)言句子分解成兩個(gè)目標(biāo)語(yǔ)言句子,特別是在由很多分句組成的長(zhǎng)句中(Bedard 1998,25)。
第二個(gè)明顯的缺點(diǎn)是匹配算法。匹配是通過(guò)字符匹配過(guò)程實(shí)現(xiàn)的,通過(guò)計(jì)算兩個(gè)段或子段中相同和相同順序的字符串?dāng)?shù)量。此計(jì)算以匹配值的形式表示,通常為百分比。這種匹配方式只考慮了語(yǔ)言因素,而不是語(yǔ)句所表達(dá)的意思。一些研究人員用以下三句話(huà)進(jìn)行了測(cè)試:
(1) The wild child is destroying his new toy.
(2) The wild chief is destroying his new tool.
(3) The wild children are destroying their new toy.
事實(shí)證明,(2)和(1)比(3)和(1)匹配得更好,而我們都知道(1)和(3)在意義上更接近的事實(shí),因?yàn)榭紤]到兩個(gè)句子只有單數(shù) 和復(fù)數(shù)形式。由于TM系統(tǒng)僅考慮共同字的數(shù)量,所以這個(gè)結(jié)果出來(lái)了。這種結(jié)果算法甚至?xí)a(chǎn)生無(wú)用匹配的更大風(fēng)險(xiǎn),這被稱(chēng)為“噪聲”。
雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式允許用戶(hù)看到更廣泛的匹配上下文(即整個(gè)段落或文本而不僅僅是一個(gè)單獨(dú)的段)。此外,用戶(hù)可以利用更大塊的重復(fù)或相似的文本,如段落或頁(yè)面,而不僅僅是在句子層面上運(yùn)作。
在雙語(yǔ)語(yǔ)料庫(kù)中搜索字符串,而非在單獨(dú)的句對(duì)中查找匹配,這一模式的優(yōu)點(diǎn)在于能夠完整保存句子層面之外的上下文。用戶(hù)可以看到更廣泛的上下文匹配內(nèi)容,即整個(gè)段落或文本,而不僅僅是一個(gè)單獨(dú)的片段。
此外,用戶(hù)可以利用更大塊的重復(fù)或相似的文本,如段落或頁(yè)面,而不是在句子層面進(jìn)行操作。例如,如果要翻譯的文本中有大量重復(fù)的材料集中在大塊中(可能是更新或修訂的情況),雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的翻譯記憶系統(tǒng)具有能夠立刻識(shí)別和處理多個(gè)連續(xù)的相同句子。
在基于句子模式的翻譯記憶系統(tǒng)中,精確對(duì)準(zhǔn)非常重要。這意味著創(chuàng)建和維護(hù)數(shù)據(jù)庫(kù)必須花費(fèi)更多的時(shí)間。相反,當(dāng)在雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式中保留上下文時(shí),可以在翻譯過(guò)程中用很少額外的努力來(lái)糾正錯(cuò)誤對(duì)齊。
盡管擁有能夠拾取短字符串的優(yōu)點(diǎn),但該模式可能以子段塊的形式產(chǎn)生更多的“噪音”,因?yàn)樵撓到y(tǒng)可能識(shí)別許多兩個(gè)三字的字符串。
此外,當(dāng)前文本的翻譯通常不會(huì)被添加到翻譯記憶中或者在翻譯過(guò)程完成之后才被驗(yàn)證,從而使用戶(hù)難以地利用內(nèi)部重復(fù)。這意味著,對(duì)于基于句子的模型,一旦翻譯完成,新的句對(duì)就可以很容易地從同一個(gè)數(shù)據(jù)庫(kù)中檢索出來(lái)。而在基于雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式中,直到整個(gè)翻譯完成并添加到數(shù)據(jù)庫(kù)之前,新文本的內(nèi)容才能以雙語(yǔ)語(yǔ)料的格式進(jìn)行搜索。即使在翻譯過(guò)程中將術(shù)語(yǔ)和表達(dá)方式添加到術(shù)語(yǔ)銀行,除非用戶(hù)在每次添加后重復(fù)每個(gè)過(guò)程,否則這些術(shù)語(yǔ)和表達(dá)方式不會(huì)被識(shí)別為內(nèi)部重復(fù)。
最后,雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式不太可能在系統(tǒng)和用戶(hù)之間轉(zhuǎn)移,因?yàn)門(mén)MX標(biāo)準(zhǔn)格式是基于句子模式發(fā)明的。
本文的主要目的是分析兩種翻譯記憶模型:基于句子的模式和雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式。但是,目前雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式的翻譯記憶系統(tǒng)幾乎已經(jīng)在市場(chǎng)上消失了。本文仍詳細(xì)分析了雙語(yǔ)語(yǔ)料庫(kù)內(nèi)的字符串模式,旨在為翻譯記憶系統(tǒng)的新功能的研究和開(kāi)發(fā)提供參考,因?yàn)樗哂衅洫?dú)特的優(yōu)勢(shì)。
[1]ALPAC,Language and Machines:Computers in Translation and Linguistics.A report by the Automatic Language Processing Advisory Committee,Division of Behavioral Sciences,National Academy of Sciences,National Research Council,Washington,DC.1996.
[2]王華偉,崔啟亮.軟件本地化[M].北京:電子工業(yè)出版社,2005.
[3]Bedard,Claude.“Jamais plus vous ne traduirez,ou les memoires des traduction,deuxieme partie”,Circuit,vol.61,1998:23.
[4]Bowker,Lynne.Computer-Aided Translation Technology:A Practical Introduction,University of Ottawa Press,2002.
[5]黃俊紅,范云,黃萍.雙語(yǔ)平行語(yǔ)料庫(kù)對(duì)齊技術(shù)述評(píng)[J].外語(yǔ)電化教學(xué),2007(118):21-25.