李毅鵬
(東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語系,廣東 東莞 523808)
汽車專業(yè)雙語平行語料庫之建設(shè)
李毅鵬
(東莞職業(yè)技術(shù)學(xué)院 應(yīng)用外語系,廣東 東莞 523808)
建立汽車專業(yè)雙語平行語料庫有利于促進(jìn)國(guó)內(nèi)外汽車技術(shù)的交流,有助于提高汽車行業(yè)從業(yè)人員的素質(zhì),為汽車專業(yè)英語教學(xué)提供許多便利條件。對(duì)汽車專業(yè)雙語平行語料庫的建設(shè)過程進(jìn)行重點(diǎn)討論,望能為專業(yè)平行語料庫的建設(shè)人員和使用者提供一些啟發(fā)。
雙語平行語料庫;汽車專業(yè)英語;翻譯實(shí)踐
語料庫是按照一定的語言規(guī)則,運(yùn)用隨機(jī)抽樣方法,收集自然出現(xiàn)的連續(xù)語言,運(yùn)用文本或話語片斷建成的具有一定容量的大型電子文本庫。[1]53依據(jù) Mona Baker的理論,語料庫可分為三類:可比語料庫、多語語料庫和平行語料庫。可比語料庫收集某種語言,如法語的原文文本,同時(shí)也收集從其他語言翻譯成該語的文本;多語語料庫是根據(jù)類似設(shè)計(jì)標(biāo)準(zhǔn)建立起來的兩個(gè)或多個(gè)不同語言的單語種語料文本組成的復(fù)合語料庫;平行語料庫收集某種語言的原創(chuàng)文本和其被翻譯成另一種文字的對(duì)應(yīng)文本。[2]230-236自語料庫語言學(xué)和語料庫翻譯學(xué)興起以來,國(guó)內(nèi)外許多科研機(jī)構(gòu)和個(gè)人都根據(jù)科研和實(shí)踐的需要,積極建立各種語料庫。
目前,國(guó)內(nèi)建成的語料庫主要集中于文商領(lǐng)域,關(guān)于理工科的語料庫數(shù)量很少,而雙語平行的理工類語料庫就更為稀少。據(jù)調(diào)查,國(guó)內(nèi)尚未建成初具規(guī)模和實(shí)用性的汽車雙語平行語料庫,而許多汽車行業(yè)翻譯人員和汽車專業(yè)英語教師都在努力尋找此類語料庫。我國(guó)汽車行業(yè)起步晚,仍未掌握關(guān)鍵部件的核心技術(shù),許多技術(shù)都需向國(guó)外學(xué)習(xí)。需要培養(yǎng)大量既懂汽車行業(yè)又精通英語的專業(yè)人士,同時(shí)需要精確翻譯大量的英語技術(shù)文件。
建設(shè)雙語平行語料庫要比建設(shè)一般的單語語料庫困難得多。需要對(duì)其規(guī)模、內(nèi)容、語料樣本的選擇進(jìn)行更加細(xì)致、嚴(yán)謹(jǐn)、精確的分析和規(guī)劃。實(shí)踐表明50萬到100萬詞次的語料庫即可滿足。[3]187因此,根據(jù)實(shí)際翻譯和研究需要,此語料庫設(shè)計(jì)規(guī)模為100余萬詞次,并合理分配詞次、庫文本數(shù)量、樣本數(shù)量和層次樣本數(shù)量四個(gè)層次的比例。
3.1 確定所需軟件
建立平行語料庫所需的技術(shù)和軟件有別于一般語料庫。除了一般的文本處理、格式轉(zhuǎn)換、內(nèi)碼轉(zhuǎn)換、語料標(biāo)注、檢索軟件外,還需要語料對(duì)齊軟件?;趯?duì)軟件操作的熟練程度和對(duì)建庫成本的考慮,我們選取Office Word 2007作為文本處理軟件。在衡量了適用性和實(shí)用性后,筆者選用了Paraconc作為此語料庫的檢索軟件。當(dāng)前計(jì)算機(jī)輔助翻譯軟件Trados中附帶的Winalign語料對(duì)齊軟件中英文對(duì)齊功能全面,準(zhǔn)確性高,為了節(jié)約語料對(duì)齊中人工參與的工作量,同時(shí)考慮到建庫后對(duì)已對(duì)齊語料的二次利用,此語料庫將運(yùn)用Winalign完成語料對(duì)齊工作。
3.2 收集語料
汽車專業(yè)雙語平行語料庫的語料一律保存為“純文本”格式,并以適應(yīng)性,代表性,時(shí)效性為原則,通過人工錄入,網(wǎng)絡(luò)下載,網(wǎng)絡(luò)機(jī)器人搜索,文本掃描等途徑進(jìn)行收集。庫中的文本主要按汽車設(shè)計(jì)、部件、制造工藝、駕駛技術(shù)歸類,對(duì)各類別所占比例進(jìn)行精確計(jì)算和規(guī)劃。收集的文本以汽車專業(yè)英語教程、中英汽車制造技術(shù)文件、雙語汽車介紹和有關(guān)汽車的論文為主。
在規(guī)劃語料收集過程中,筆者重點(diǎn)考慮了代表性問題和概率抽樣問題。[4]33充分接納了Biber等人提出的“比例取樣”概念。在通用語料庫領(lǐng)域,Brown語料庫和LOB語料庫的代表性較好,但與Biber的要求仍相差甚遠(yuǎn)。按照Biber概念的要求,通用語料庫研究人員需要時(shí)刻關(guān)注庫中的語料變化,在必要時(shí)候需往庫中加入大量語料,以解決語料庫出現(xiàn)的不平衡問題,或直接建立專門用途語料庫解決此問題。汽車專業(yè)雙語平行語料庫采用的就是后者。
3.3 語料處理
所有采集的文本均通過文檔處理軟件保存為“純文本”格式,這是為了使全庫語料和對(duì)齊后的語料有更強(qiáng)通用性。由于掃描軟件精度不高和被掃描文本清晰度不足、格式轉(zhuǎn)換出現(xiàn)的錯(cuò)碼、人工錄入中的人為疏忽,格式轉(zhuǎn)換后和錄入后的文本常常會(huì)出現(xiàn)的信息缺失或冗余,如錯(cuò)別字、錯(cuò)別符號(hào)、多余空格、多余隔行、多余項(xiàng)目符號(hào)等,都必須予以糾正,否則將影響到對(duì)齊和標(biāo)注的準(zhǔn)確性。在預(yù)處理階段,筆者對(duì)每個(gè)文檔進(jìn)行歸類,添加文本頭標(biāo)記和結(jié)構(gòu)標(biāo)記。其中文本頭包括六項(xiàng):語言,主題,類別,長(zhǎng)度,來源,采集時(shí)間;結(jié)構(gòu)標(biāo)記采用<s></s>標(biāo)記完整句子和<p></p>標(biāo)記完整段落,以方便檢索和對(duì)齊。
語料對(duì)齊是此語料庫建設(shè)的重點(diǎn)和難點(diǎn)。語料對(duì)齊是指通過軟件或人工手段,將源語文本中的每個(gè)段落或每個(gè)句子與譯語文本中其對(duì)應(yīng)的段落或句子進(jìn)行配對(duì)。段段對(duì)齊的難度較低,對(duì)齊正確率較高,對(duì)齊速度快,但其不利于檢索后的雙語對(duì)比和翻譯實(shí)踐及教學(xué)應(yīng)用。句句對(duì)齊是目前大多雙語平行語料庫所采用的語料對(duì)齊方式,其在翻譯實(shí)踐中應(yīng)用十分廣泛?,F(xiàn)在,語料庫建設(shè)者可直接使用專門的句句對(duì)齊軟件,如Trados中的 Winalign,對(duì)語料進(jìn)行句句對(duì)齊。由于中英之間語法、句法、標(biāo)點(diǎn)和語篇等存在明顯差異,軟件對(duì)齊不可能100%準(zhǔn)確,目前,句句對(duì)齊軟件的自動(dòng)對(duì)齊準(zhǔn)確率大概為75%左右,因此,對(duì)齊結(jié)果必須經(jīng)過人工檢查糾正才能入庫。
在對(duì)齊過程中,通過將Winalign中的對(duì)齊標(biāo)記顯著屬性、數(shù)字顯著屬性、特殊字符顯著屬性和格式顯著屬性調(diào)至最高,以提高自動(dòng)對(duì)齊的準(zhǔn)確度,但部分對(duì)齊結(jié)果仍需人工糾正。對(duì)于大部分的錯(cuò)誤,可通過軟件自帶的拆分和合并功能解決;對(duì)于出現(xiàn)信息缺失、冗余或錯(cuò)譯的句子,則只能通過人工重譯給予修正;而對(duì)于少數(shù)出現(xiàn)對(duì)齊嚴(yán)重混亂的文檔,則需在軟件中解除所有句子配對(duì),重新檢查源語文本和譯語文本中段落標(biāo)記符和句子標(biāo)記符是否出錯(cuò)。由于中英文差異,英文的長(zhǎng)句子要比中文的多很多,某些英文長(zhǎng)句會(huì)出現(xiàn)過長(zhǎng)現(xiàn)象,而句子過長(zhǎng)不利于檢索,因此對(duì)于一些特殊的句子需采用特殊處理手段,如將過長(zhǎng)的英語句子適當(dāng)?shù)夭鸱譃槿舾煞志?,在不影響原句意思情況下,對(duì)原句進(jìn)行重組處理。
建立語料庫的一個(gè)重要環(huán)節(jié)是對(duì)語料進(jìn)行標(biāo)注。未經(jīng)標(biāo)注的語料庫都屬于生語料庫,難以發(fā)揮語料庫在語言研究領(lǐng)域的潛能。目前,世界流行的標(biāo)注有兩種:詞性標(biāo)注和句法標(biāo)注,其中前者已可使用軟件完成,精確率達(dá)95%以上,但尚沒有軟件能對(duì)句法做出具實(shí)用性的標(biāo)注,要對(duì)語料進(jìn)行有實(shí)用價(jià)值的句法標(biāo)注,必須采取人機(jī)協(xié)作的辦法。為了使此雙語平行語料庫更具研究?jī)r(jià)值和實(shí)用價(jià)值,同時(shí),考慮到汽車專業(yè)英語的特性——語言規(guī)范、詞匯問題突出,筆者決定重點(diǎn)對(duì)其進(jìn)行詞性標(biāo)注。通過調(diào)查、比較和綜合考慮,決定采用英國(guó)蘭開斯特大學(xué)研發(fā)的基于概率統(tǒng)計(jì)的標(biāo)注系統(tǒng)(CLAWS),其標(biāo)注速度快,準(zhǔn)確率高,經(jīng)其標(biāo)注過的語料庫可直接用于詞性研究。完成標(biāo)注后,經(jīng)抽樣統(tǒng)計(jì)計(jì)算,語料庫詞性準(zhǔn)確率達(dá)到了98%以上,對(duì)于個(gè)別詞性標(biāo)注有誤的詞語,需對(duì)照權(quán)威字典對(duì)其進(jìn)行校正。
3.4 語料庫的更新
考慮到上述的代表性問題和汽車專業(yè)的特點(diǎn),此語料庫設(shè)計(jì)為一個(gè)沒有詞次上限的開放式語料庫。汽車技術(shù)日新月異,每項(xiàng)技術(shù)出現(xiàn)都會(huì)帶來許多新詞匯,同時(shí),隨著新技術(shù)發(fā)展,許多落后技術(shù)會(huì)被淘汰,其伴隨的詞匯也會(huì)漸漸消失。為了使語料庫更加貼近迅猛發(fā)展的汽車科技,保持其活力和時(shí)效性,必須定時(shí)為其進(jìn)行更新和升級(jí),添加新語料,刪除過時(shí)的文本。語料庫的更新需要大量人力物力,從實(shí)際出發(fā),其更新頻率不能過于頻繁,汽車技術(shù)有自身發(fā)展的周期和步伐,參考了國(guó)外與汽車技術(shù)相關(guān)語料庫的更新經(jīng)驗(yàn)和語料庫相關(guān)軟件的發(fā)展速度,筆者將此語料庫的更新和升級(jí)周期定為1.5年。
[1]楊惠中.語料庫語言學(xué)導(dǎo)論[M].上海:上海外語教育出版社,2002.
[2]Mona Baker.Corpora in Translation Studies:An O-verview and Some Suggestions for Future Research[J].Target,1995(2).
[3]Kennedy,Graeme.An Introduction to Corpus Linguistics[M].New York:Longman,1998.
[4]Meyer C F.English Corpus Linguistics An introduction[M].Cambridge University Press,2002.
Construction of an Automotive Bilingual Parallel Corpus
LI Yi-peng
The establishment of an automotive bilingual parallel corpus will accelerate the technical exchanges between domestic and foreign automobile industries.It will also help improve the quality of employees working in automobile industries and offer a great numbers of benefits and conveniences to the teaching of automotive English.The paper concentrates on the whole construction process of the corpus so as to provide some inspiration and new knowledge to professionals and the users of the corpus.
bilingual parallel corpus;automotive English;translation practice
H059
A
1671-8275(2011)06-0117-02
2011-10-15
李毅鵬(1985-),男,廣東東莞人,東莞職業(yè)技術(shù)學(xué)院講師,碩士。研究方向:語料庫翻譯學(xué)、計(jì)算機(jī)輔助翻譯。
責(zé)任編輯:文 月