周影
【摘 要】語(yǔ)料庫(kù)擁有大量真實(shí)的人們實(shí)際使用的語(yǔ)言材料,它以計(jì)算機(jī)為載體,其真實(shí)語(yǔ)料經(jīng)加工處理后,可成為重要的資源。小型英漢平行語(yǔ)料庫(kù)的建成將會(huì)對(duì)翻譯領(lǐng)域、教學(xué)方面以及語(yǔ)言對(duì)比研究領(lǐng)域有著重大作用和意義。論文主要從語(yǔ)料選取、標(biāo)注以及平行匹配三部分來(lái)闡釋如何建設(shè)小型英漢平行語(yǔ)料庫(kù),以及其具體應(yīng)用。為語(yǔ)料庫(kù)研究者提供建庫(kù)方法,為英語(yǔ)學(xué)習(xí)者和研究者提供應(yīng)用指南。
【Abstract】The corpus has a large number of real language materials actually used by people, it takes the computer as the carrier, and its real corpus can become an important resource after processing. The establishment of a small English and Chinese parallel corpus will play an important role in the field of translation, teaching and language comparative research. This paper mainly explains how to build small English and Chinese parallel corpus from three parts: corpus selection, annotation and parallel matching, and its specific application. It provides corpus building methods for corpus researchers and application guidance for English learners and researchers.
【關(guān)鍵詞】平行語(yǔ)料庫(kù);語(yǔ)料庫(kù)的建設(shè);語(yǔ)料庫(kù)的應(yīng)用
【Keywords】 parallel corpus; the establishment of corpus; the application of corpus
【中圖分類號(hào)】H0 【文獻(xiàn)標(biāo)志碼】A 【文章編號(hào)】1673-1069(2018)07-0092-02
1 語(yǔ)料庫(kù)介紹
1.1 語(yǔ)料庫(kù)的分類
語(yǔ)料庫(kù)的英文為corpus,從字面上的意思講,即收集語(yǔ)料的倉(cāng)庫(kù)。早期的語(yǔ)料庫(kù)規(guī)模較小,隨著計(jì)算機(jī)技術(shù)的發(fā)展和語(yǔ)言詞匯數(shù)量的增加,其發(fā)展規(guī)模越來(lái)越大,類型也變得更加多樣化,常見(jiàn)的語(yǔ)料庫(kù)分為單語(yǔ)語(yǔ)料庫(kù)和雙語(yǔ)/多語(yǔ)語(yǔ)料庫(kù)。單語(yǔ)語(yǔ)料庫(kù)是目前開(kāi)發(fā)和使用最多的語(yǔ)料庫(kù),它僅收集一種語(yǔ)言的語(yǔ)料。雙語(yǔ)/多語(yǔ)語(yǔ)料庫(kù)是指由兩種或兩種以上語(yǔ)言的文本構(gòu)成的語(yǔ)料庫(kù)。平行語(yǔ)料庫(kù)是指由原文文本及其平行對(duì)應(yīng)的譯語(yǔ)文本構(gòu)成的雙語(yǔ)語(yǔ)料庫(kù),其雙語(yǔ)對(duì)應(yīng)程度有詞級(jí)、句級(jí)和段級(jí)幾種。
1.2 語(yǔ)料庫(kù)研究現(xiàn)狀
20世紀(jì)60年代初,第一代現(xiàn)代計(jì)算機(jī)語(yǔ)料庫(kù)LOB(1961)和BROWN(1961)建成。人們對(duì)語(yǔ)料庫(kù)的研制興趣日益濃厚,后隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,語(yǔ)料庫(kù)研究也得到迅速發(fā)展。在雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)的對(duì)象語(yǔ)言上,從一開(kāi)始的僅側(cè)重于英語(yǔ),發(fā)展到現(xiàn)在的幾乎覆蓋世界上所有主要語(yǔ)言,其所涉語(yǔ)種達(dá)20種之多。目前,國(guó)內(nèi)外建立了許許多多規(guī)模迥異、語(yǔ)種多樣的平行語(yǔ)料庫(kù),如北京外國(guó)語(yǔ)大學(xué)北京日本學(xué)研究中心研制的中日對(duì)譯語(yǔ)料庫(kù);北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所開(kāi)發(fā)的主要應(yīng)用于新聞的、機(jī)助翻譯類的雙語(yǔ)平行語(yǔ)料庫(kù);Johansson等人在挪威奧斯陸大學(xué)建立的英語(yǔ)和挪威語(yǔ)雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)等。國(guó)內(nèi)平行語(yǔ)料庫(kù)起步較晚,但發(fā)展很快。北京外國(guó)語(yǔ)大學(xué)中國(guó)外語(yǔ)教育研究中心王克非主持和研制的北外“通用漢英對(duì)應(yīng)語(yǔ)料庫(kù)”是目前世界上最大的雙語(yǔ)語(yǔ)料庫(kù),容量為3000萬(wàn)字詞,并在進(jìn)一步建設(shè)中。(王克菲,2004)
2 語(yǔ)料庫(kù)的建設(shè)
2.1 語(yǔ)料的選取與處理
獲得英漢對(duì)照的原語(yǔ)料的方法有很多種。本文主要講解的語(yǔ)料的獲取方法為直接從網(wǎng)上下載流行的美劇和美國(guó)電影的字幕。下載美劇字幕作為原語(yǔ)料有兩點(diǎn)好處,第一,研究人員可以直接從網(wǎng)上獲取大量英漢對(duì)照語(yǔ)料,無(wú)需到處搜集,更無(wú)需手動(dòng)敲打到電腦上;第二,下載近幾年的美劇字幕作為原語(yǔ)料能幫助人們了解近幾年美語(yǔ)的使用習(xí)慣和流行用語(yǔ)的使用,畢竟,語(yǔ)言在不斷的變化,例如,“how are you”“I am fine thank you,and you”這種對(duì)話不再常見(jiàn)[1]。
下載好的語(yǔ)料需要進(jìn)行去噪處理。本文處理語(yǔ)料使用的軟件為emeditor。該軟件功能強(qiáng)大、簡(jiǎn)單好用、支持多種配置。首先,打開(kāi)原語(yǔ)料文檔,去除時(shí)間軸和一些無(wú)關(guān)緊要的內(nèi)容,只留下漢英語(yǔ)料以及譯者和語(yǔ)料來(lái)源(注意:去除時(shí)間軸可用ALT鍵進(jìn)行豎排文本選擇然后右鍵刪除,去噪時(shí)不能更改語(yǔ)料內(nèi)容,要保持原有語(yǔ)料翻譯風(fēng)格)。去噪完成后,將漢英進(jìn)行分開(kāi)處理。以提取英語(yǔ)語(yǔ)料為例,使用漢語(yǔ)通配符[一-龥](méi),利用查找替換去除全部漢語(yǔ)語(yǔ)料,并將漢語(yǔ)語(yǔ)料中殘留的阿拉伯?dāng)?shù)字、漢語(yǔ)標(biāo)點(diǎn)和多余的空格全部刪除,留下英語(yǔ)語(yǔ)料即可。提取漢語(yǔ)語(yǔ)料時(shí),方法與提取英語(yǔ)語(yǔ)料相同,英語(yǔ)的通配符為[a-zA-Z]。將英語(yǔ)語(yǔ)料去除后,要人工為漢語(yǔ)語(yǔ)料添加標(biāo)點(diǎn),因?yàn)樵Z(yǔ)料中沒(méi)有漢語(yǔ)標(biāo)點(diǎn)(注意:添加標(biāo)點(diǎn)時(shí)要與相對(duì)應(yīng)的英語(yǔ)標(biāo)點(diǎn)保持一致)[2]。
2.2 語(yǔ)料的標(biāo)注
本文介紹使用的標(biāo)注應(yīng)用程序?yàn)闈h語(yǔ)詞性標(biāo)注工具。該應(yīng)用程序操作簡(jiǎn)單、還可批量處理文件。將處理好的漢語(yǔ)語(yǔ)料保存在一個(gè)文件夾中,加載該文件夾,選擇要處理的文件,點(diǎn)擊開(kāi)始切分標(biāo)注,即可得到標(biāo)注好詞性的漢語(yǔ)語(yǔ)料。對(duì)英語(yǔ)進(jìn)行標(biāo)注處理,使用的應(yīng)用程序?yàn)門agAnt。該應(yīng)用程序操作簡(jiǎn)便,但不可批量處理,一次只能處理一個(gè)文檔且只能處理utf-8格式的文檔。點(diǎn)擊input files選擇要處理的英語(yǔ)語(yǔ)料,點(diǎn)擊start即可得到標(biāo)注好詞性的英語(yǔ)語(yǔ)料。標(biāo)注好詞性后的語(yǔ)料,還需用emeditor做分句處理。打開(kāi)語(yǔ)料,在每個(gè)句號(hào)、問(wèn)號(hào)和嘆號(hào)的句子后面加上
2.3 語(yǔ)料的平行匹配
本文介紹使用的匹配軟件為paraconc。在平行匹配時(shí),只能上下調(diào)動(dòng)語(yǔ)料位置,不能更改語(yǔ)料內(nèi)容,所以在匹配之前,要確保英漢語(yǔ)料在內(nèi)容上沒(méi)有問(wèn)題。首先,點(diǎn)擊file里的load corpus file加載英漢語(yǔ)料,因?yàn)楸疚闹饕v解的是英漢雙語(yǔ)平行語(yǔ)料庫(kù),所以在parallel texts 處選擇2,在語(yǔ)言處選擇漢語(yǔ)和美語(yǔ)并在對(duì)應(yīng)的框里分別加載相應(yīng)的漢英語(yǔ)料,點(diǎn)擊OK即可。然后,點(diǎn)擊file里的view corpus alignment,選擇Alignment即可查看語(yǔ)料。因?yàn)榇蟛糠值恼Z(yǔ)料都不是對(duì)齊的,所以需要研究者手動(dòng)調(diào)節(jié),可單擊右鍵選擇merge with next segment或merge with previous segment將此行語(yǔ)料與下一行或上一行語(yǔ)料合并;還可選擇split segment將此行語(yǔ)料調(diào)至下一行;當(dāng)操作錯(cuò)誤時(shí),可選擇undo撤銷上一行為。
保存語(yǔ)料有兩種方法。①點(diǎn)擊file里的save workspace as,然后命名好并保存到相應(yīng)位置,再次操作時(shí)打開(kāi)該workspace即可,但該workspace不能移動(dòng)位置,更改路徑將無(wú)法打開(kāi);②點(diǎn)擊file里的export corpus files,命名并選擇保存到相應(yīng)位置,在alignment style處選擇tags,然后點(diǎn)擊OK即可。應(yīng)用時(shí)按照匹配的第一步驟分別加載該漢英文檔。使用此保存方法在移動(dòng)語(yǔ)料位置時(shí),對(duì)該語(yǔ)料無(wú)影響。
3 語(yǔ)料庫(kù)的應(yīng)用
Paraconc具有檢索動(dòng)能,點(diǎn)擊search,在彈出的搜索框內(nèi)輸入需要搜索的詞匯即可。輸入漢語(yǔ)關(guān)鍵詞時(shí),可得到大量相對(duì)應(yīng)的英語(yǔ)的相關(guān)表達(dá)。相比于英漢詞典,語(yǔ)料庫(kù)內(nèi)容更為豐富,而且有相應(yīng)語(yǔ)境,語(yǔ)料更新鮮、地道,這些內(nèi)容是無(wú)法從詞典里搜索到的。輸入英語(yǔ)關(guān)鍵詞時(shí),可得到大量詞匯搭配、構(gòu)詞法、地道的美語(yǔ)例句等。英語(yǔ)愛(ài)好者可利用英漢平行語(yǔ)料庫(kù)學(xué)習(xí)地道美語(yǔ),通過(guò)其檢索功能,學(xué)習(xí)新鮮英語(yǔ)詞匯,了解相同詞匯在不同語(yǔ)境下的用法,以及學(xué)習(xí)最正宗的美語(yǔ)表達(dá),練就一口地道美語(yǔ)口語(yǔ),避開(kāi)中式英語(yǔ)的影響。
語(yǔ)料庫(kù)中包含大量真實(shí)的語(yǔ)言材料及其譯文,翻譯工作者可通過(guò)譯者的不同翻譯風(fēng)格對(duì)比分析,來(lái)掌握規(guī)律,從而提高自身翻譯水平;英漢語(yǔ)言對(duì)比研究人員可對(duì)建成的語(yǔ)料庫(kù)進(jìn)行詞匯檢索,來(lái)得到大量檢索詞的常見(jiàn)搭配形式及其譯文,可幫助研究人員更好地開(kāi)展語(yǔ)言對(duì)比研究;詞匯學(xué)家和語(yǔ)法學(xué)家可利用語(yǔ)料庫(kù)進(jìn)行詞典編纂工作和歸納總結(jié)語(yǔ)法。
英語(yǔ)教師可利用語(yǔ)料庫(kù)中的資源,為學(xué)生提供優(yōu)秀的翻譯文本,讓學(xué)生平行比較源語(yǔ)言和譯入語(yǔ),幫助學(xué)生認(rèn)識(shí)二者的關(guān)系。此外,英語(yǔ)和漢語(yǔ)分屬于兩個(gè)不同語(yǔ)系,它們中的大部分詞語(yǔ)都不是一一對(duì)應(yīng)的,一種句型的翻譯方式也不是單一的,學(xué)生無(wú)法簡(jiǎn)單地從教材上或詞典中學(xué)習(xí)到這些,教師可以利用平行語(yǔ)料庫(kù),讓學(xué)生獲得感性認(rèn)識(shí)。語(yǔ)料庫(kù)中的真實(shí)語(yǔ)料可為學(xué)生提供豐富的知識(shí)來(lái)源,還可作為學(xué)生的語(yǔ)言能力訓(xùn)練的測(cè)試的平臺(tái),可有效提高學(xué)生的翻譯能力和外語(yǔ)知識(shí)水平。
4 結(jié)語(yǔ)
英漢平行語(yǔ)料庫(kù)的建成可為翻譯人員、語(yǔ)料庫(kù)研究人員、英語(yǔ)語(yǔ)言學(xué)習(xí)者以及英漢語(yǔ)言對(duì)比分析學(xué)家等提供大量的重要的語(yǔ)言材料,我國(guó)從研究建庫(kù)開(kāi)始到現(xiàn)在,已能夠建設(shè)并建成雙語(yǔ)或多語(yǔ)語(yǔ)料庫(kù),為很多領(lǐng)域提供了重要的信息來(lái)源。但語(yǔ)料庫(kù)的發(fā)展還有許多不足之處,由于語(yǔ)料庫(kù)相關(guān)軟件的稀缺,大型英漢語(yǔ)料庫(kù)的建設(shè),從最開(kāi)始的語(yǔ)料處理操作到最后的平行匹配都需要花費(fèi)大量的人力物力。平行語(yǔ)料庫(kù)的建設(shè)與應(yīng)用還有很大的發(fā)展空間,等待各位語(yǔ)料庫(kù)愛(ài)好者去挖掘與應(yīng)用。
【參考文獻(xiàn)】
【1】王克非.雙語(yǔ)對(duì)應(yīng)語(yǔ)料庫(kù)研制與應(yīng)用[M].北京:外語(yǔ)教學(xué)與研究出版社,2004.
【2】余國(guó)良.語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究與應(yīng)用[M].成都:四川大學(xué)出版社,2009.