黃旦華
(浙江越秀外國語學(xué)院 英語學(xué)院,浙江 紹興 312000)
CAT(計算機(jī)輔助翻譯)工具的核心是翻譯記憶庫(Translation Memory,TM) 。 利用CAT 工具能夠高效完成翻譯,其實質(zhì)就是利用了翻譯記憶技術(shù)[1]。 CAT工作原理是用戶利用已有的源語和目標(biāo)語,建立起一個或多個翻譯記憶庫,在翻譯過程中,系統(tǒng)自動搜索翻譯記憶庫中相同或相似的翻譯資源,給出參考譯文,幫助用戶避免無謂的重復(fù)勞動,只需要專注于新內(nèi)容的翻譯[2]。 獲得翻譯記憶庫的方法有很多,一種是通過使用CAT工具在翻譯項目中新建翻譯記憶庫,完成翻譯后將譯文更新至翻譯記憶庫獲得高質(zhì)量的翻譯記憶庫,并在后期翻譯項目中不斷豐富拓展。 另外一種是雙語文檔對齊,將已有的源語文檔以及翻譯后的高質(zhì)量的目標(biāo)語文檔通過雙語對齊工具對齊,也就是原文與譯文在兩個文件中對齊,然后轉(zhuǎn)換成特定格式的翻譯記憶庫。
我們似乎已經(jīng)來到一個“無技術(shù)不翻譯”的時代[3]。 CAT 工具本身具有對齊功能,可以幫助譯者將翻譯過的句段存入數(shù)據(jù)庫,并自動生成翻譯記憶庫,翻譯時CAT 工具會自動進(jìn)行檢索匹配為譯者提供翻譯參考,避免重復(fù)勞動。 隨著翻譯的積累,記憶庫的內(nèi)容也不斷更新豐富,從而為譯者提供更多相匹配的翻譯,極大提高了翻譯效率[4]。 在擁有高質(zhì)量的雙語文本的情況下,還可以通過對齊工具將雙語文本對齊制作成翻譯記憶庫,通過CAT工具運用于翻譯項目,幫助譯者提高翻譯的效率與質(zhì)量,保證譯文整體風(fēng)格的一致。 譯者還可以對翻譯記憶庫進(jìn)行編輯管理,使其成為寶貴的語言資產(chǎn)。
通過使用雙語對齊工具對雙語文檔進(jìn)行對齊,導(dǎo)出生成的高質(zhì)量的雙語文檔或多語文檔可作為寶貴的翻譯教學(xué)資料,教師可將其作為教學(xué)素材對比雙語句段的詞法、 句法、 結(jié)構(gòu)及思維,分析、 歸納、 總結(jié)翻譯中使用的技巧與策略。 也可以作為翻譯練習(xí)的素材,將學(xué)生的翻譯與雙語文檔中的目標(biāo)語進(jìn)行對比分析,通過練習(xí)找出自身翻譯的薄弱點,幫助學(xué)生提高翻譯能力和改進(jìn)翻譯技能。 雙語對齊技術(shù)本身是CAT技術(shù)教學(xué)的一部分,幫助學(xué)生熟練掌握雙語對齊技術(shù)是提高學(xué)生翻譯技術(shù)素養(yǎng)的重要內(nèi)容,提高學(xué)生翻譯能力的同時提高學(xué)生的翻譯技術(shù)能力。 語料對齊還應(yīng)用于翻譯自動評分系統(tǒng),有效降低了閱卷成本,提高了評分的客觀性和準(zhǔn)確度[5]。
雙語對齊技術(shù)也是語料庫制作中一個重要關(guān)鍵技術(shù),語料庫研究的領(lǐng)域非常廣泛,可用于詞匯、 句法、 語義、 語用、 機(jī)器翻譯、 AI語音識別合成等研究領(lǐng)域。 雙語對齊技術(shù)也廣泛運用于詞匯對齊、 句子對齊和段落對齊。 句子對齊的方法也從早期的基于長度的方法、 基于詞匯的方法到后來的混合法[6]。 甚至神經(jīng)機(jī)器翻譯、 人工智能技術(shù)已應(yīng)用語料對齊,極大提高了對齊的效率與質(zhì)量。
王華樹等將雙語對齊工具分為四類: 嵌入式對齊工具、 獨立式對齊工具、 在線對齊工具、 開源對齊工具[7]。 該分類方法比較全面,但是分類的標(biāo)準(zhǔn)不統(tǒng)一,前三個工具分類的標(biāo)準(zhǔn)是基于操作界面進(jìn)行分類,而最后一個分類的標(biāo)準(zhǔn)是基于是否開源。 本文采用統(tǒng)一的分類標(biāo)準(zhǔn),即是否依靠網(wǎng)絡(luò)進(jìn)行分類,將對齊工具分為在線對齊工具以及單機(jī)對齊工具。 在線對齊工具的正常使用需要依靠網(wǎng)絡(luò),沒有網(wǎng)絡(luò),則無法完成對齊任務(wù); 而單機(jī)對齊工具不依靠網(wǎng)絡(luò)即可使用。 嵌入式、 獨立式和開源對齊工具都是獨立在電腦上運行,不依靠網(wǎng)絡(luò),因此都是單機(jī)對齊工具。
本研究選取法律、 政治、 演講文本。 法律文本為2021年修訂的《中華人民共和國民辦教育促進(jìn)法實施條例》中文文本,字?jǐn)?shù)為10636,使用機(jī)器翻譯獲得譯文; 政治文本為《中國共產(chǎn)黨第十九屆中央委員會第六次全體會議公報》中文文本,字?jǐn)?shù)為7452,譯文為網(wǎng)上搜索獲得; 演講文本為《小布什在老布什葬禮上的悼詞》中文文本,字?jǐn)?shù)為2776。
研究對象為6款雙語對齊工具,分別是Trados2017版, ABBYY Aligner2.0版, Transmate7.3版, Heartsome TMX Editor8.0版,Tmxmall, 以及Matecat Aligner。
Trados 1984年誕生于德國,為付費單機(jī)軟件。 它具有雙文檔對齊功能,支持世界上200多種語言,支持導(dǎo)入20種格式的文件,對齊后可以導(dǎo)出為sdltm、 sdlxliff、 sdlalign共3種格式的文件。 Trados先后被SDL公司和RWS(如文思)公司收購,雖然其作為CAT工具在全球市場占有重要席次,Trados Studio本身內(nèi)嵌有雙語對齊功能,但其用戶體驗并不友好,對齊需要較多的人工干預(yù),繁瑣耗時,經(jīng)過實踐測試2017版Trados能夠兼容tmx格式的記憶庫,而2021版的Trados則不能兼容tmx格式的記憶庫,只支持Trados 專有的sdltm格式的翻譯記憶庫, 兼容性不好。
ABBYY Aligner是俄羅斯ABBYY 公司旗下的產(chǎn)品,支持雙文檔對齊,為付費單機(jī)軟件,購買后可以長期使用。 支持世界上24種語言,支持導(dǎo)入21種格式的文件。 完成對齊后可以導(dǎo)出為tmx和rft 共2種格式的文件。 操作界面簡潔,有多種方式導(dǎo)入雙語文檔,第一種是直接將雙語文檔分別拖進(jìn)源語文本框和目標(biāo)語文本框; 第二種是直接將雙語文檔的內(nèi)容復(fù)制到源語文本和目標(biāo)語文本框中; 第三種是在“文件”欄中導(dǎo)入雙語文檔,導(dǎo)入之后點擊“對齊”即可完成初步對齊,對于可能沒有對齊的句段,系統(tǒng)會自動標(biāo)注紅色提示,方便用戶進(jìn)行編輯,對于沒有對齊的句段,可以通過軟件刪除多余空白的句段,也可以合并和拆分句段。 完成后可以導(dǎo)出為tmx格式的記憶庫,可應(yīng)用于主流的CAT工具中進(jìn)行輔助翻譯。
Transmate軟件是一款國產(chǎn)免費單機(jī)軟件,其本身是一款CAT工具,目前已經(jīng)停止更新維護(hù),但可正常使用。 軟件本身內(nèi)嵌了語料對齊功能。 除了支持雙文檔對齊,它還支持單文檔對齊,也就是將原文與譯文以上下/左右對照的形式在單個文件中對齊,可以將原文/譯文位置進(jìn)行互換,不能通過復(fù)制粘貼的方式導(dǎo)入雙語文檔。 支持世界上13種語言,支持導(dǎo)入3種格式的文件。 完成對齊后除了可以導(dǎo)出為tmx格式的文件,它還可以導(dǎo)出為Transmate特有的uetm格式文件,因此該記憶庫僅能在Transmate中使用。 此外它還有對文檔進(jìn)行檢索的功能。
Heartsome TMX Editor 是一款國產(chǎn)免費單機(jī)軟件,僅支持單文檔雙語對齊,支持世界上200多種語言,支持導(dǎo)入5種格式的文件。 對齊后可以導(dǎo)出為docx、 xlsx、 txt、 tbx、 hstm共5種格式的文件。 它集成了多種功能,可以對tmx格式的翻譯記憶庫進(jìn)行批量編輯是該工具的一大特色,可以將較大的記憶庫拆分為多個較小的翻譯記憶庫,也可以將多個記憶庫合并成一個記憶庫,可以批量刪除記憶庫中的標(biāo)簽。 它的QA(Quality Assurance)功能十分方便,比如標(biāo)記一次性檢查,數(shù)字一次性檢查,段首/段末空格,未翻譯,原文相同、 譯文不同,譯文相同、 原文不同,原文譯文相同等功能; 過濾器功能也是其一大特色。
Tmxmall 是一款國內(nèi)在線智能翻譯管理平臺,具有雙語對齊功能,支持雙文檔和單文檔對齊。 它無需在電腦上安裝軟件,直接打開官網(wǎng)注冊后登錄賬戶即可使用,操作界面比較簡單。 支持世界上46種語言,支持導(dǎo)入docx、 xlsx、 pptx、 pdf、 txt等36種格式的文件; 支持導(dǎo)出為tmx、 xlsx、 txt、 docx共4種格式的文件。 Tmxmall可以通過去除原文譯文相同的句段,去除一句多譯以及一鍵去重,提高對齊語料的質(zhì)量,通過黃綠兩色區(qū)分原文奇偶數(shù)段,提高了對齊的準(zhǔn)確率,可以快速改變語言對方向,從而改變記憶庫語言對的方向。 還可以基于神經(jīng)網(wǎng)絡(luò)技術(shù)進(jìn)行術(shù)語提取,在記憶庫制作完成的基礎(chǔ)上可實現(xiàn)雙語術(shù)語的智能提取。 使用需要依靠網(wǎng)絡(luò),可以免費使用編輯,但導(dǎo)出翻譯記憶庫則需要付費。
Matcat Aligner 是一款國外的在線對齊工具,支持雙文檔對齊,支持世界上200多種語言,支持導(dǎo)入69種格式的文件; 僅支持導(dǎo)出為tmx格式的文件。 操作比較簡單,導(dǎo)入源語文檔和目標(biāo)語文檔,或者直接拖拽,具備簡單的合并句段、 拆分句段、 刪除句段等功能,用戶界面友好。 導(dǎo)入文件后,該工具無法自動識別文檔的語言,需要手動設(shè)置語言對。
雙語對齊工具的設(shè)計本身就是為了提高語料對齊的效率與質(zhì)量,從操作的流程及耗時進(jìn)行評判。 ABBYY Aligner、 Transmate的便利性最高,軟件安裝好后可一直使用,操作流程簡單。 其次是Tmxmall和Matecat Aligner,使用需要登錄賬戶,需要網(wǎng)絡(luò)支持。 Matecat Aligner雖然操作界面簡單,但每次使用均需手動選擇文檔的語言對。 排在最后的是Trados 和Heartsome TMX Editor。 Trados本身內(nèi)嵌的對齊工具界面非常不友好,使用過程中需要花費大量的時間進(jìn)行人為干預(yù)對齊,需要頻繁使用鼠標(biāo)進(jìn)行編輯; 而Heartsome TMX Editor不支持導(dǎo)入雙文檔,只支持單文檔導(dǎo)入,這就需要在導(dǎo)入之前將雙語文檔合并在一個文檔中,過程比其他的工具復(fù)雜。
統(tǒng)計3種文體的句段,以句號、 分號、 問號、 感嘆號來對原文斷句。 句段數(shù)法律為239,政治為81,演講為103。 將上述工具斷句后的結(jié)果與人工統(tǒng)計斷句的結(jié)果進(jìn)行對比,離原文斷句數(shù)越接近,則表明斷句準(zhǔn)確率越高; 反之?dāng)嗑錅?zhǔn)確率則越低。 三種文本均為Word文件格式docx , 在Word 中通過查找以上標(biāo)點符號及段落標(biāo)志的方式人工統(tǒng)計原文的句段數(shù)。 然后將3種文本導(dǎo)入6種不同的工具中進(jìn)行對齊,統(tǒng)計工具對齊后的句段。 通過將不同對齊工具切分的句段數(shù)與人工統(tǒng)計的句段數(shù)對比,統(tǒng)計公式如下:
以下所有統(tǒng)計保留小數(shù)點后一位,采取四舍五入制。 通過公式計算,如表1所示。 法律文體中,有四款工具的斷句準(zhǔn)確率達(dá)到了93%以上。 準(zhǔn)確率最高的工具是Tmxmall以及Matecat Aligner,結(jié)果均是93.7%。 最低的是Transmate和 Heartsome TMX Editor,均為78.2%。
表1 原文斷句準(zhǔn)確率
在政治文體中,斷句準(zhǔn)確率最高的工具是ABBYY Aligner,達(dá)到了92.6%; 最低的是Transmate和 Heartsome TMX Editor,均為32.1%。
在演講文體中,斷句準(zhǔn)確率最高的工具是Trados和Matecat Aligner,均為100%; 最低的是Transmate 和 Heartsome TMX Editor,均為32%。
上述三種文體對齊的結(jié)果顯示,Trados、 Matecat Aligner的斷句準(zhǔn)確率均達(dá)到90%以上; ABBYY Aligner 和Tmxmall在兩種文體的對齊上均達(dá)到了90%以上,一種文體為80%以上,表現(xiàn)不俗。 綜合來看,6款對齊工具的斷句準(zhǔn)確率從高到低依次為:Trados, Matecat Aligner, ABBYY Aligner, Tmxmall, Transmate, Heartsome TMX Editor。 Transmate、 Heartsome TMX Editor排名相同,并列最后。
如表2所示在法律文本對齊實驗中,表現(xiàn)最佳的是Tmxmall和Matecat Aligner,分別對齊了224句、 216句,對齊率為100%及96.4%。 Trados對齊的句段數(shù)為0,排名最后。 Transmate 和Heartsome TMX Editor的斷句數(shù)量比較接近,通過在Word中使用通配符段落標(biāo)記^p進(jìn)行查找,發(fā)現(xiàn)有188個段落標(biāo)記,而這兩款工具句段切分?jǐn)?shù)是187,與其比較接近,由此可見這兩個工具的斷句規(guī)則是基于段落標(biāo)記。
表2 法律文本對齊數(shù)據(jù)
如表3所示在政治文本中Transmate、 Heartsome TMX Editor、 Tmxmall的中英文斷句數(shù)基本一致,對齊準(zhǔn)確率達(dá)到了100%,Tmxmall將雙語文檔分割為72個句段。 而Transmate 和Heartsome TMX Editor將雙語文檔分割為26個句段,采用上述方法對雙語文檔進(jìn)行搜索,發(fā)現(xiàn)中英雙語文檔各有27個段落標(biāo)記,因此可以推斷這兩款工具采用的斷句原理仍是按照段落標(biāo)記進(jìn)行分割對齊,嚴(yán)格來說,這兩款工具只是實現(xiàn)了段落對齊,不是真正意義上的句段對齊。 在對齊政治文本上,Tmxmall的對齊準(zhǔn)確度最高,Trados的對齊準(zhǔn)確度最低。
表3 政治文本對齊數(shù)據(jù)
如表4所示在演講文本中,Trados 和ABBYY Aligner對源語文本的句段分割數(shù)量最多,均為103,最少的是Transmate和Heartsome TMX Editor僅為33。 只有Tmxmall、 Transmate、 Heartsome TMX Editor3款工具全部實現(xiàn)了雙語句段的對齊,但是從切分句段數(shù)來看,采用上述相同的方法驗證,發(fā)現(xiàn)Transmate 和Heartsome TMX Editor實際上只是實現(xiàn)了段落對齊。 Tmxmall將雙語文檔切分成95個句段,且全部實現(xiàn)了對齊,整體而言Tmxmall對齊準(zhǔn)確度最高,Trados最低,僅對齊了18個句段。
表4 演講文本對齊數(shù)據(jù)
將上述三種文本的中英文雙語文檔分別導(dǎo)入6種對齊工具進(jìn)行自動對齊,由于每個工具對齊的規(guī)則和算法不盡相同,在沒有人工干預(yù)自動對齊的情況下,不同工具切分的句段數(shù)不一樣,對齊的結(jié)果也不一樣。 對齊準(zhǔn)確率計算公式如下:
句段數(shù)以工具自動切分為準(zhǔn),對齊由工具自動完成,沒有進(jìn)行人為干預(yù),按照公式進(jìn)行計算,具體結(jié)果見表5。
表5 雙語文本對齊準(zhǔn)確率
上述實驗結(jié)果顯示Trados 和Matcat Aligner的斷句準(zhǔn)確率排名第一、 第二。 斷句規(guī)則較為科學(xué),斷句合理,但無法自動完成對齊,對齊效果非常不理想,這意味著后期需要進(jìn)行大量的人為干預(yù)進(jìn)行對齊。 從句段對齊的準(zhǔn)確率來看這兩款工具排名最后。
Transmate 和Heartsome TMX Editor雖然對齊準(zhǔn)確率較高,但其對齊的規(guī)則是基于段落的對齊,實際上只是完成了較高質(zhì)量的段落對齊,盡管在法律文本中的句段分割數(shù)較高,但只是碰巧法律文本的句號和段落標(biāo)記一致。 因此使用這兩款軟件進(jìn)行雙語對齊,也需要對文檔進(jìn)行更多的人為干預(yù)處理,否則無法制作成較高質(zhì)量的基于句段對齊的翻譯記憶庫。
因此,綜合考量表1及表5中的數(shù)據(jù),嚴(yán)格意義上來講 Tmxmall的句段對齊質(zhì)量在所有的軟件中最高,無需安裝軟件,不足之處在于網(wǎng)絡(luò)狀態(tài)不好,或者沒有網(wǎng)絡(luò)的情況下,將影響其正常使用,每次導(dǎo)出記憶庫均需付費。 ABBYY Aligner整體的對齊質(zhì)量位列第二,使用時無需依賴網(wǎng)絡(luò)。 Trados雖然是行業(yè)領(lǐng)先的CAT工具,但其雙語對齊質(zhì)量在所有軟件中排名最后。
綜上所述,本文研究了6款雙語對齊工具的對齊效率與質(zhì)量。 通過實驗,計算、 統(tǒng)計、 分析了斷句的準(zhǔn)確率和對齊的準(zhǔn)確率,最終得出結(jié)論,對選擇雙語對齊工具提供借鑒與參考。 本研究也存在一定的局限性,第一是工具的局限性,因為費用限制,沒有購買更多的工具進(jìn)行測試,同時使用的單機(jī)版的軟件也并非最新版本。 第二是文本的局限性,研究僅選擇了三種不同類型的文本。 第三是語言對的局限性,僅使用了中英雙語文本。 第四是標(biāo)簽統(tǒng)計的局限性,沒有研究對齊過程中產(chǎn)生的標(biāo)簽數(shù)量是否會影響對齊的效果。 上述因素有可能會影響雙語文本對齊的準(zhǔn)確率。 因此研究者還可就上述局限性,使用不同的工具,對不同語言、 不同體裁、 不同類型的雙語文本開展更為廣泛、 深入的研究。