李毅鵬
(東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語(yǔ)系,廣東 東莞 523808)
從雙語(yǔ)平行語(yǔ)料庫(kù)到翻譯記憶庫(kù)
李毅鵬
(東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語(yǔ)系,廣東 東莞 523808)
雙語(yǔ)平行語(yǔ)料庫(kù)是一種獨(dú)特的語(yǔ)料庫(kù),專門用于研究雙語(yǔ)翻譯,培養(yǎng)和訓(xùn)練翻譯人員,提升翻譯教學(xué)與實(shí)踐水平。翻譯記憶庫(kù)最主要存在于計(jì)算機(jī)輔助翻譯系統(tǒng)中,屬于一種“簡(jiǎn)單”的語(yǔ)料庫(kù),其原理、結(jié)構(gòu)和作用與雙語(yǔ)平行語(yǔ)料庫(kù)有許多相同之處,將對(duì)此進(jìn)行深入探討。
雙語(yǔ)平行語(yǔ)料庫(kù);翻譯記憶庫(kù);翻譯研究
語(yǔ)料庫(kù)與翻譯記憶庫(kù)均屬于語(yǔ)言數(shù)據(jù)庫(kù)。語(yǔ)料庫(kù)先于翻譯記憶庫(kù)出現(xiàn),語(yǔ)料庫(kù)出現(xiàn)之初主要應(yīng)用于語(yǔ)言學(xué)領(lǐng)域,如詞性、句法、語(yǔ)義、二語(yǔ)習(xí)得、修辭和辭典編撰等研究。隨著語(yǔ)料庫(kù)規(guī)模的擴(kuò)大以及相關(guān)技術(shù)的成熟,其他與語(yǔ)言相關(guān)的領(lǐng)域也相繼運(yùn)用語(yǔ)料庫(kù)對(duì)一些課題進(jìn)行研究,如新興的語(yǔ)料庫(kù)翻譯學(xué)就是其中一個(gè)典范,語(yǔ)料庫(kù)為研究翻譯顯性做出了巨大貢獻(xiàn)。語(yǔ)料庫(kù),尤其是雙語(yǔ)平行語(yǔ)料庫(kù),在翻譯實(shí)踐方面的應(yīng)用潛力也十分巨大。翻譯記憶庫(kù)則是計(jì)算機(jī)輔助翻譯系統(tǒng)的核心和翻譯工作站的主要部分,從廣義來(lái)講,它屬于一種“簡(jiǎn)單”的雙語(yǔ)平行語(yǔ)料庫(kù),與普通雙語(yǔ)平行語(yǔ)料庫(kù)在結(jié)構(gòu)和應(yīng)用等方面都有許多相似之處,在發(fā)展過(guò)程中,兩者相互促進(jìn),相互借鑒,互補(bǔ)不足。
語(yǔ)料是語(yǔ)言的記錄,是研究語(yǔ)言和翻譯的重要素材。按照一定的語(yǔ)言原則,運(yùn)用隨機(jī)抽樣方法收集自然出現(xiàn)的連續(xù)的語(yǔ)言,運(yùn)用文本或話語(yǔ)片段建成的具有一定容量的大型電子文本庫(kù)就是一個(gè)語(yǔ)料庫(kù)。[1]語(yǔ)料庫(kù)主要分為三類:可比語(yǔ)料庫(kù)、多語(yǔ)語(yǔ)料庫(kù)和平行語(yǔ)料庫(kù)。多語(yǔ)語(yǔ)料庫(kù)用于研究翻譯文本的風(fēng)格,為研究翻譯文本提供有效的參考系數(shù);可比語(yǔ)料庫(kù)在翻譯研究中最具應(yīng)用潛力,主要用于研究深層次的翻譯問(wèn)題,如翻譯規(guī)范性等;平行語(yǔ)料庫(kù),主要有詞語(yǔ)級(jí)別、句子級(jí)別和段落級(jí)別平行語(yǔ)料庫(kù),同時(shí)它還分為單向平行語(yǔ)料庫(kù)和雙向平行語(yǔ)料庫(kù),其主要應(yīng)用于翻譯實(shí)踐、翻譯教學(xué)、翻譯研究、譯員培訓(xùn)、詞典編撰和機(jī)器翻譯等領(lǐng)域,是與翻譯領(lǐng)域最接近的一種語(yǔ)料庫(kù)。
雙語(yǔ)平行語(yǔ)料庫(kù)與其他語(yǔ)料庫(kù)最大區(qū)別在于所收集的語(yǔ)料類型和所涉及的語(yǔ)料處理過(guò)程。雙語(yǔ)平行語(yǔ)料庫(kù)收集的都是原語(yǔ)與目的語(yǔ)一一對(duì)應(yīng)的雙語(yǔ)語(yǔ)料,包括詞詞對(duì)應(yīng),句句對(duì)應(yīng),段段對(duì)應(yīng)或是篇篇對(duì)應(yīng),有些平行語(yǔ)料庫(kù)需要句子長(zhǎng)度對(duì)應(yīng)的語(yǔ)料。語(yǔ)料對(duì)應(yīng)程度和翻譯質(zhì)量將直接影響雙語(yǔ)平行語(yǔ)料庫(kù)的質(zhì)量和建設(shè)進(jìn)程。雙語(yǔ)平行語(yǔ)料庫(kù)除了要對(duì)所收集的語(yǔ)料精挑細(xì)選,進(jìn)行格式和標(biāo)記處理,還需對(duì)語(yǔ)料進(jìn)行最為重要的對(duì)齊處理。語(yǔ)料對(duì)齊的精準(zhǔn)程度關(guān)系到整個(gè)平行語(yǔ)料庫(kù)的存亡。
翻譯記憶庫(kù)是一種用于儲(chǔ)存原文與對(duì)應(yīng)譯文的語(yǔ)言數(shù)據(jù)庫(kù)。[2]翻譯記憶庫(kù)主要存在于計(jì)算機(jī)輔助翻譯系統(tǒng)中,它憑借計(jì)算機(jī)高速處理能力將待翻譯原文與庫(kù)中每一個(gè)原語(yǔ)句子進(jìn)行匹對(duì)分析,然后根據(jù)匹配率進(jìn)行排名,將達(dá)到譯者要求的匹配率的庫(kù)中原文的譯文瞬間顯示給譯者參考,協(xié)助譯員完成翻譯工作;在譯員對(duì)一個(gè)新翻譯單元(如句子)翻譯完畢后,記憶庫(kù)會(huì)自動(dòng)將剛才完成的譯文與原文組成完全匹配對(duì)并收錄到記憶庫(kù)中,記憶庫(kù)規(guī)模通過(guò)此動(dòng)作得到不斷擴(kuò)充。
翻譯記憶庫(kù)主要協(xié)助譯者開展工作, 譯者得到達(dá)到自己設(shè)定的匹配率要求的原文的譯文后,可根據(jù)實(shí)際情況,完全采用譯文或略作修改后使用或完全不使用。如果譯者選擇完全采用匹配率達(dá)到100%的已有原文的譯文,記憶庫(kù)將不會(huì)修改已有的譯文也不會(huì)重新收錄新的譯文;如果譯者對(duì)已有譯文進(jìn)行修改后再使用,記憶庫(kù)將對(duì)新的原文與譯文配對(duì),并收錄到記憶庫(kù)中; 對(duì)于記憶庫(kù)沒(méi)有提供參考譯文的“新原文”,記憶庫(kù)同樣會(huì)將翻譯后的譯文與原文配對(duì)并收錄到庫(kù)中。在此過(guò)程中,記憶庫(kù)收錄的都是匹配率達(dá)100%的精確對(duì)齊的語(yǔ)料。
翻譯記憶庫(kù)記錄了譯者從開始使用記憶庫(kù)以來(lái)翻譯過(guò)的所有原文和對(duì)應(yīng)的譯文,是譯者翻譯軌跡的最佳見證。無(wú)論是翻譯工作者個(gè)體還是翻譯團(tuán)隊(duì),只要他們一直使用已建立的記憶庫(kù)并沒(méi)有改變所從事的翻譯領(lǐng)域,翻譯記憶庫(kù)對(duì)他們的作用將會(huì)越來(lái)越顯現(xiàn)。當(dāng)記憶庫(kù)伴隨他們工作至一定時(shí)間或一定量時(shí),它給翻譯工作帶來(lái)的變化會(huì)從量變上升到質(zhì)變,譯者們也會(huì)越來(lái)越依賴記憶庫(kù)。
翻譯記憶庫(kù)對(duì)譯者工作意義重大,但發(fā)展卻十分緩慢。目前允許共享使用的翻譯記憶庫(kù)幾乎沒(méi)有 ,具有一定規(guī)模并得到公認(rèn)的翻譯記憶庫(kù)還沒(méi)出現(xiàn)。究其原因,主要有三個(gè):第一,翻譯記憶庫(kù)存儲(chǔ)了翻譯個(gè)人或團(tuán)隊(duì)翻譯過(guò)的所有語(yǔ)料,是他們所有工作經(jīng)驗(yàn)的積累,他們對(duì)此尤其珍惜,將其視為自己無(wú)形無(wú)價(jià)的財(cái)產(chǎn)和核心競(jìng)爭(zhēng)力,不會(huì)輕易與他人分享;第二,翻譯記憶庫(kù)記錄的是個(gè)人或團(tuán)隊(duì)的“筆跡”,是他們翻譯風(fēng)格翻譯習(xí)慣的集中體現(xiàn),如果開放了使用權(quán),其他譯者可修改庫(kù)里的譯文,這是記憶庫(kù)所有者所不想見到的;第三,翻譯記憶庫(kù)沒(méi)有對(duì)經(jīng)濟(jì)發(fā)展產(chǎn)生直接影響,而且過(guò)于專業(yè),社會(huì)對(duì)此關(guān)注不足,科研部門沒(méi)有給予其足夠的支持,特別是項(xiàng)目支持。
從以上分析不難看出,雙語(yǔ)平行語(yǔ)料庫(kù)主要用于翻譯領(lǐng)域或語(yǔ)言學(xué)領(lǐng)域,而翻譯記憶庫(kù)一般只用于翻譯領(lǐng)域,但從兩者所收錄的語(yǔ)料、結(jié)構(gòu)和作用角度分析,它們確實(shí)存在許多共同之處。
1.語(yǔ)料與結(jié)構(gòu)。
許多專家學(xué)者在建設(shè)雙語(yǔ)平行的語(yǔ)料庫(kù)的時(shí)候,會(huì)預(yù)留一定時(shí)間“順便”地建立一個(gè)與語(yǔ)料庫(kù)規(guī)模相約的翻譯記憶庫(kù)。雙語(yǔ)平行語(yǔ)料庫(kù)被認(rèn)為是一個(gè)升級(jí)版的翻譯記憶庫(kù),兩者建立的過(guò)程步驟和所使用的工具基本相同,記憶庫(kù)較語(yǔ)料庫(kù)簡(jiǎn)單,建立一個(gè)記憶庫(kù)所需時(shí)間大概是建立一個(gè)與其相同容量雙語(yǔ)平行語(yǔ)料庫(kù)的二分之一。
語(yǔ)料選擇,無(wú)論是語(yǔ)料庫(kù)還是記憶庫(kù)都必須根據(jù)建庫(kù)目的選擇和篩選語(yǔ)料。一般來(lái)說(shuō),雙語(yǔ)平行語(yǔ)料庫(kù)因應(yīng)用領(lǐng)域廣,其收錄的語(yǔ)料也會(huì)較為全面;相對(duì)而言,翻譯記憶庫(kù)專業(yè)性較強(qiáng),其收錄的語(yǔ)料非常具有針對(duì)性。但無(wú)論怎樣,它們所收錄的語(yǔ)料都是原語(yǔ)與譯語(yǔ)一一對(duì)應(yīng)的,因此它們的語(yǔ)料都屬于已譯語(yǔ)料,對(duì)于沒(méi)有對(duì)應(yīng)譯文的語(yǔ)料,建庫(kù)者只能將其翻譯后再放入庫(kù)中。兩種庫(kù)對(duì)翻譯精確都有嚴(yán)格的要求。
語(yǔ)料處理,它是兩者的生命線。語(yǔ)料處理的質(zhì)量決定了兩庫(kù)的存亡。兩庫(kù)收集的粗糙語(yǔ)料都必須經(jīng)過(guò)篩選、分類和格式處理,以方便使用。我們都將所有的語(yǔ)料按重要性和質(zhì)量進(jìn)行篩選,并按專業(yè)、主題、時(shí)間、來(lái)源、原語(yǔ)等進(jìn)行分類,同時(shí)將全部語(yǔ)料轉(zhuǎn)化為純文本格式。
語(yǔ)料對(duì)齊,它是語(yǔ)料處理最重要的過(guò)程。語(yǔ)料對(duì)齊是指通過(guò)軟件或人工手段,將原語(yǔ)文本中的每個(gè)段落或每個(gè)句子與譯語(yǔ)文本中其對(duì)應(yīng)的段落或句子進(jìn)行配對(duì)。雖然語(yǔ)料分類和格式轉(zhuǎn)換已將初始語(yǔ)料整理得工整有序,但其仍然無(wú)法被雙語(yǔ)平行語(yǔ)料庫(kù)和翻譯記憶庫(kù)收錄使用,因?yàn)檎Z(yǔ)料還沒(méi)進(jìn)行雙語(yǔ)對(duì)齊。在對(duì)齊之前需規(guī)定對(duì)齊的標(biāo)準(zhǔn),目前公認(rèn)的是以句為單元的句句對(duì)齊。對(duì)于對(duì)齊工具的選擇,一些大型的平行語(yǔ)料庫(kù)有專屬的對(duì)齊工具,而翻譯記憶庫(kù)所在的計(jì)算機(jī)輔助翻譯系統(tǒng)中,一般也會(huì)附帶一套對(duì)齊工具。一般來(lái)說(shuō),只要已對(duì)齊語(yǔ)料的格式符合要求,均可被兩庫(kù)收錄使用。無(wú)論是在建設(shè)雙語(yǔ)平行語(yǔ)料庫(kù)還是翻譯記憶庫(kù)過(guò)程中,語(yǔ)料對(duì)齊都會(huì)出現(xiàn)一些共同毛病。在對(duì)齊過(guò)程中,軟件對(duì)齊速度遠(yuǎn)高于人工對(duì)齊速度,所以一般以自動(dòng)對(duì)齊為主,人工對(duì)齊為輔,但自動(dòng)對(duì)齊結(jié)果往往出現(xiàn)一些小毛病。對(duì)于這些小錯(cuò)誤,可通過(guò)使用對(duì)齊軟件自帶的拆分和合并功能解決;對(duì)于原文或譯文的信息有所缺失、冗余或錯(cuò)譯的語(yǔ)言單元,只能由譯員重新翻譯然后再對(duì)齊;而對(duì)于出現(xiàn)對(duì)齊嚴(yán)重混亂語(yǔ)料,對(duì)齊人員需解除所有已配對(duì)單元,重新檢查原語(yǔ)語(yǔ)料和譯語(yǔ)語(yǔ)料中各種標(biāo)記符。對(duì)于原文單元與譯文單元長(zhǎng)度相差太遠(yuǎn)的情況,需采用獨(dú)特的處理方法,如將一個(gè)太長(zhǎng)的英語(yǔ)句子按照句法結(jié)構(gòu)和語(yǔ)義,適當(dāng)?shù)夭鸱譃閹讉€(gè)小句,或者將幾個(gè)過(guò)短的小句進(jìn)行合并處理。
在兩種庫(kù)的建設(shè)中,語(yǔ)料收集和處理過(guò)程大同小異,運(yùn)用的方法和工具,甚至所遇問(wèn)題都幾乎相同,這是它們的相同之處。在完成語(yǔ)料對(duì)齊以后得到的是已完全精確對(duì)齊的語(yǔ)料,已可以錄入庫(kù)中使用。對(duì)于在建設(shè)雙語(yǔ)平行語(yǔ)料庫(kù)過(guò)程中,“順便地”建立起來(lái)的翻譯記憶庫(kù)也完成了,建庫(kù)人員可直接將已經(jīng)完成對(duì)齊處理的語(yǔ)料復(fù)制多一份,然后直接導(dǎo)入到一個(gè)新建立的空的翻譯記憶庫(kù)當(dāng)中,導(dǎo)入成功后意味著記憶庫(kù)已經(jīng)正式“竣工”可交付使用了,譯員可以直接利用此記憶庫(kù)中收錄的雙語(yǔ)平行語(yǔ)料進(jìn)行輔助翻譯。
對(duì)于翻譯記憶庫(kù)來(lái)說(shuō),完成了語(yǔ)料對(duì)齊就意味著整個(gè)建庫(kù)過(guò)程基本完成了,但對(duì)于雙語(yǔ)平行語(yǔ)料庫(kù)來(lái)說(shuō),建庫(kù)工作還沒(méi)有結(jié)束。為了讓語(yǔ)料庫(kù)在翻譯和語(yǔ)言研究領(lǐng)域發(fā)揮最大作用,建庫(kù)人員還會(huì)對(duì)語(yǔ)料庫(kù)里所有的語(yǔ)料進(jìn)行標(biāo)注。當(dāng)前語(yǔ)料標(biāo)注主要有兩種方法:詞性標(biāo)注和句法標(biāo)注。詞性標(biāo)注可使用軟件完成,精確度高,基本不需人工干涉;句法標(biāo)注具有巨大實(shí)用價(jià)值,可惜目前仍沒(méi)有精準(zhǔn)的句法標(biāo)注軟件,所有句法標(biāo)注過(guò)程必須由人工完成,大部分雙語(yǔ)平行語(yǔ)料庫(kù)的語(yǔ)料都有詞性標(biāo)注。完成了語(yǔ)料的標(biāo)注后,雙語(yǔ)平行語(yǔ)料庫(kù)建庫(kù)過(guò)程也基本結(jié)束,經(jīng)過(guò)測(cè)試和評(píng)估后,可交付使用。
2.兩種庫(kù)的維護(hù)與更新。
隨著語(yǔ)言的發(fā)展和譯者的需要,同時(shí)為了保持這兩種庫(kù)的活力和時(shí)效性。兩種庫(kù)的負(fù)責(zé)人均需對(duì)庫(kù)進(jìn)行周期性的維護(hù)和更新。兩庫(kù)的維護(hù)過(guò)程基本相同,主要是檢測(cè)使用情況、所涉軟件的運(yùn)行情況,并對(duì)用戶反映的問(wèn)題進(jìn)行處理;而兩庫(kù)的更新則差異較大。雙語(yǔ)平行語(yǔ)料庫(kù)更新主要由于大眾語(yǔ)言的發(fā)展變化或所處領(lǐng)域發(fā)生了一些變化,導(dǎo)致新語(yǔ)料出現(xiàn)和舊語(yǔ)料發(fā)生了改變,如技術(shù)的優(yōu)勝劣汰,技術(shù)創(chuàng)新等,其更新動(dòng)作主要是添加和修改。語(yǔ)料庫(kù)更新需要耗費(fèi)較多的人力物力,且實(shí)際的語(yǔ)言變化和行業(yè)發(fā)展有一定的時(shí)間需要,所以更新頻率不宜也不必過(guò)于頻繁,雙語(yǔ)平行語(yǔ)料庫(kù)更新周期一般為1—2年。翻譯記憶庫(kù)更新主要依賴協(xié)同翻譯過(guò)程。在翻譯過(guò)程中,記憶庫(kù)會(huì)將產(chǎn)生的所有新語(yǔ)料對(duì)一一收錄到記憶庫(kù)中,對(duì)于被修改過(guò)的譯文也會(huì)采取替換或覆蓋方法收錄下來(lái),整個(gè)更新過(guò)程由軟件自動(dòng)完成。因此,相對(duì)于雙語(yǔ)平行語(yǔ)料庫(kù),記憶庫(kù)的更新較為簡(jiǎn)單。
綜上所述,從建庫(kù)到使用,再到維護(hù)更新,雙語(yǔ)平行語(yǔ)料庫(kù)與翻譯記憶庫(kù)具有許多相通之處和可借鑒之處,尤其是兩者收錄的語(yǔ)料類型相似度非常高,相互兼容性強(qiáng)。兩者發(fā)展過(guò)程相互促進(jìn),相互依賴。如上文所說(shuō),翻譯記憶庫(kù)得到的支持和重視遠(yuǎn)不如雙語(yǔ)平行語(yǔ)料庫(kù),但翻譯記憶庫(kù)得到雙語(yǔ)平行語(yǔ)料庫(kù)語(yǔ)料分享后,翻譯記憶庫(kù)已經(jīng)獲得了迅猛發(fā)展。在許多雙語(yǔ)平行語(yǔ)料庫(kù)開放使用權(quán)限的背景下,已有幾個(gè)較大的翻譯記憶庫(kù)計(jì)劃通過(guò)一定的手段在互聯(lián)網(wǎng)上實(shí)行共享,以促進(jìn)翻譯行業(yè)和相關(guān)行業(yè)的發(fā)展。
[1]楊惠中.語(yǔ)料庫(kù)語(yǔ)言學(xué)導(dǎo)論[M].上海:上海外語(yǔ)教育出版社,2002:33.
[2]Bowker, L.(2002). Computer-aided Translation Technology: A Practical Introduction, Ottawa: University of Ottawa Press.93.
ClassNo.:H315.9DocumentMark:A
(責(zé)任編輯:蔡雪嵐)
FromaBilingualParallelCorpustoTranslationMemory
Li Yipeng
Bilingual parallel corpora is a special kind of corpora. It specializes bilingual translation study and the translator training and improvement of translation practice. Translation memories mainly exist in computer-aided translation systems. They considered as“simple” Corpora have numerous similarities in principle, structure and role with the bilingual parallel corpora. This paper is devoted to discussing these similarities.
bilingual parallel corpus;translation memory;translation study
李毅鵬,碩士,講師,東莞職業(yè)技術(shù)學(xué)院。研究方向:語(yǔ)料庫(kù)翻譯學(xué)、計(jì)算機(jī)輔助翻譯。
1672-6758(2012)12-0063-2
H315.9
A
黑龍江工業(yè)學(xué)院學(xué)報(bào)(綜合版)2012年12期