【摘要】語料庫不僅在商業(yè)領域有著重要的作用,在翻譯學研究、語用學研究以及實踐教學等領域都有重要的作用。語料庫研究與應用是以語料庫建設為前提,語料庫建設是所有環(huán)節(jié)中最為重要的一個環(huán)節(jié)。語料庫在商業(yè)領域與科研教學領域的應用與研究的快速發(fā)展,得益于語料庫建設的技術手段日益成熟,同時語料庫也呈現出多樣化的應用與實踐。本文通過深度探索語料庫建設與應用的前沿技術發(fā)展與應用情況,重點介紹建立英漢語料庫以及平行語料庫應用平臺所需技術支持以及詳細的語料庫建設與應用操作細則。
【關鍵詞】語料庫建設;語料庫應用;雙語平行語料庫
語料庫分為單語語料庫、雙語語料庫以及多語語料庫,語料庫是語言實際應用過程中產生的語言數據,例如圖書的翻譯、商業(yè)文件的翻譯以及新聞報告的翻譯等語言數據都是形成語料庫的基本語料材料。
目前的研究主要是基于雙語語料庫的制作與應用,雙語語料庫也是最為廣泛使用以及數量最多的語料庫種類之一,語料庫的存放是以數據庫的形式存在為主,形成真正的語料庫需要經過收集、轉化、降噪、對齊、審校等諸多步驟,形成最終可用的語料庫。
語料庫的建設目的是多樣化的,語料庫的來源也是極其廣泛,其中尤為重要的環(huán)節(jié)就是語料的對齊,語料對齊的速度直接決定了語料庫制作的效率。
高質量的語料庫是進行語料庫制作與應用的基礎,語料庫的質量會直接影響最終的應用效果。
一、研究意義
語料庫的研究與應用目前在商業(yè)領域已經有了突飛猛進的發(fā)展,特別是近兩年神經網絡的發(fā)展,語料庫對于機器翻譯的發(fā)展奠定了基礎,極大提高了目前谷歌、百度、搜狗、有道以及必應等機器翻譯引擎的質量。不僅如此,商業(yè)領域的巨頭包括強生、中石化、微軟、阿里巴巴以及騰訊等諸多公司都在不同程度的基于語料庫提升在各自特定領域的機器翻譯引擎質量,其中阿里巴巴的機器翻譯引擎已經為中國眾多企業(yè)將成千上萬的商品推向全球市場提供了翻譯支持。
不僅如此,語料庫在學術、科研以及教學實踐等應用方面都有著舉足輕重的作用,利用語料庫可以進行語用學、翻譯學、譯者行為、語言風格等多方面學術科研;同時語料庫在教學中也廣泛應用,通過語料庫進行教學應用,教師可以將學生的翻譯作業(yè)整理成語料庫,利用語料庫檢索功能,學生可以進行自查自糾,教師也可以通過制作學生翻譯作業(yè)的語料庫尋找共性問題進行講解,幫助學生解決翻譯實踐中產生的問題。教師也可以利用高質量的語料庫面向學生開放,利用語料庫學生進行日常的翻譯學習和模擬訓練,不斷提升自身的語言能力和翻譯水平。
二、語料庫建設
語料對齊是語料庫制作尤為關鍵的一環(huán),目前市面上語料對齊軟件工具層出不窮,各有千秋,每一款語料對齊軟件工具都有自個的語料對齊算法、效率以及表現較為突出的一面,需要根據不同的語料素材來判斷應使用何種語料對齊軟件工具。
市面上目前語料對齊軟件工具主要有TRANSMATE軟件、TMXMALL對齊軟件、雪人軟件對齊工具以及各類CAT軟件自帶的對齊組件。獨立的語料對齊軟件工具在語料對齊方面表現會優(yōu)于CAT軟件中自帶的對齊組件。本文將會以TRANSMATE語料對齊軟件工具作為本次英語語料庫建設的對齊工具,進行安裝與使用詳細說明。
安裝:通過官網下載TRANSMATE軟件最新版。下載完成之后,雙擊進行默認安裝即可。
三、創(chuàng)建雙語對齊項目
創(chuàng)建雙語對齊項目是語料對齊的核心步驟,涉及語料的語言對、存儲路徑、對齊項目名稱與對齊效率。打開TRANSMATE軟件,點擊界面左上角的“語料管理“選項卡按鈕,進入語料管理操作界面,再點擊“雙語對齊”按鈕,即可彈出語料對齊界面,在界面上選擇需要的源語言和目標語言,跟需要對齊的語料相匹配。TRANSMATE語料對齊界面簡潔直觀,降低了使用門檻,非常符合廣大用戶的使用習慣。(見圖1)
下一步是導入需要對齊語料的雙語文件進行對齊操作,點擊“導入文件”按鈕,在“文件類型”處選擇雙語文件或單語雙文件。雙語文件:意思是單個文件中涵蓋了源語言和目標語言;單語雙文件:意思是源語言和目標語言以獨立的文件形式分開存放。
導入雙語文件之后,可以開始著手進行詳細的語料對齊工作。這一步驟是整個環(huán)節(jié)中最為重要的,也將是直接決定最后語料庫的成果關鍵。
我們將需要制作平行語料庫的素材導入到雙語對齊項目中。下圖為導入單語雙文件之后的示例圖。(見圖2)
導入需要對齊的語料后,需要優(yōu)先對雙語對齊項目進行保存操作,防止所做的導入、對齊、修改等操作因為電腦故障而沒有及時存儲下來。點擊“保存”按鈕,即可對當前雙語對齊項目進行保存,在語料對齊過程中也要在一定的頻率內點擊“保存”按鈕,確保工作內容能夠被及時地存儲下來。
在雙語對齊工作界面中,有幾個實用頻率比較高的按鈕,如果能夠熟悉幾個常用的操作按鈕,將會對提升語料對齊的效率有極大的幫助,以下我們將介紹幾個常用的功能按鈕。
所有原/譯文交換:直接將當前雙語對齊項目的所有源語言和目標語言的內容進行交換,主要用于在導入雙語對齊文件時,語言文件選擇錯誤情況下使用。
拆分:直接將現有光標處的句對一拆為二,主要用于語料對齊時沒有精確到句對,而是以段落對齊,這是需要將段落進行句對級別的拆分,以使語料達到較高的利用價值;拆分也是語料對齊中使用較為頻繁的功能之一。
將制作好的平行語料庫導出到記憶庫文件TMX,TMX文件格式是通用的一種記憶庫儲存格式,其本質上是一種XML格式的文件,具有存儲數據量大,可以注明多種屬性,方便對不同句對的語料進行個性化的備注。
到這里,我們已經制作好了一個最終格式為TMX的雙語平行語料庫。
綜上,在語料庫技術特別是語料庫對齊技術的迅速發(fā)展下,語料庫的建設也得到蓬勃的發(fā)展,建設十萬級甚至百萬級的語料庫,只要素材準備到位,都能夠快速地建設好平行語料庫。同時語料庫的應用層出不窮,無論是教學應用、科研應用以及商業(yè)應用,高質量精準的語料庫對于AI人工智能翻譯有極大的促進作用,也對提高學生翻譯水平以及課堂延伸學習都有極大的幫助。
參考文獻
[1]Robins,R.H.1967.AshortHistoryofLinguistics[M]. London:longman.
[2]李文中.語料庫索引工具[M].上海:上海外語教育出版社,2002.
作者簡介:馬崴(1973—),男,湖北武漢人,湖北工業(yè)大學外國語學院,講師,研究方向:語用學。