陳偉
摘要:雙語平行語料庫是專門用途英語(ESP)翻譯研究的新視角。本文以隴藥10種大宗道地中藥材為研究對(duì)象,收集權(quán)威出版物關(guān)于隴藥的中英文對(duì)照文獻(xiàn),建立大型隴藥漢英平行語料庫,并就該庫構(gòu)建的具體步驟——語料庫的設(shè)計(jì),語料的采集、加工、平行對(duì)齊和檢索等進(jìn)行了詳細(xì)分析,可為中藥英譯提供參考。
關(guān)鍵詞:隴藥;平行語料庫;中醫(yī)英語;語料庫建設(shè)
DOI:10.3969/j.issn.1005-5304.2017.04.003
中圖分類號(hào):R2-05 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1005-5304(2017)04-0009-04
Study on Construction of Chinese-English Parallel Corpus in Gansu Chinese Materia Medica CHEN Wei (Foreign Language Department, Dingxi Teachers College, Dingxi 743000, China)
Abstract: Bilingual parallel corpus is a new perspective of English for Specific Purposes (ESP) translation studies. This article set 10 kinds of Gansu genuine bulk Chinese materia medica as the research objects, and collected Chinese-English data about Gansu Chinese materia medica in the authoritative publications for the establishment of English-Chinese parallel corpus on Gansu Chinese materia medica. This article also analyzed the construction concrete steps in detail - corpus design, data acquisition and processing and bilingual corpus parallel and so on, and provided references for English translation of Chinese materia medica.
Key words: Gansu Chinese materia medica; English-Chinese parallel corpus; TCM English; corpus construction
中醫(yī)英語是英語語言在中醫(yī)藥對(duì)外翻譯與交流過程中逐漸形成的一種獨(dú)特的英語表達(dá)體系。在中醫(yī)國際化進(jìn)程中,中醫(yī)藥翻譯的重要性日益凸顯,其質(zhì)量在一定程度上影響中醫(yī)藥在國際上的認(rèn)可及推廣程度。甘肅中藥材資源豐富,其大宗道地藥材通稱隴藥。隴藥是甘肅物質(zhì)文化的重要組成部分,在華夏文明傳承創(chuàng)新區(qū)的建設(shè)中,相關(guān)翻譯不僅是對(duì)外傳播中醫(yī)的重要渠道,也是傳承文化的橋梁,但目前隴藥英譯良莠不齊。為此,筆者將語料庫數(shù)據(jù)驅(qū)動(dòng)技術(shù)引入相關(guān)翻譯,建設(shè)隴藥漢英平行語料庫(English-Chinese Parallel Corpus of Gansu Medicine,ECPCGM),為隴藥英譯提供參考。
1 研究現(xiàn)狀述評(píng)
1.1 平行語料庫
隨著專門用途英語(ESP)的發(fā)展,專門用途平行語料庫也得到相應(yīng)發(fā)展。中醫(yī)英譯研究引入語料庫數(shù)據(jù)驅(qū)動(dòng)技術(shù)的設(shè)想肇始于21世紀(jì)初,目前呈現(xiàn)零星發(fā)展態(tài)勢(shì)。中醫(yī)英漢平行語料庫的研究經(jīng)歷了2個(gè)階段。一是設(shè)想階段(2003-2009年),學(xué)者從宏觀方面提出了建庫設(shè)想和理論原則。聞?dòng)酪鉡1]提出中醫(yī)英語語料庫建設(shè)構(gòu)想及意義,并一直致力于《黃帝內(nèi)經(jīng)》語料庫研究;薛學(xué)彥[2]從建立中醫(yī)英語語料庫設(shè)想方面提出建庫方案;倪傳斌[3]從中醫(yī)英語語料庫建設(shè)原則方面解析了具體實(shí)施方法。但這些研究并不能直接指向?qū)嵺`。二是創(chuàng)建階段(2009年至今),學(xué)者提出了建立中醫(yī)平行語料庫細(xì)節(jié)問題及解決方案。管新潮等[4]開始了英漢醫(yī)學(xué)平行語料庫的創(chuàng)建與初始應(yīng)用研究,蘭彩玉[5]則設(shè)計(jì)并構(gòu)建中藥漢英雙語平行語料庫。另外,蘭鳳利等[6]基于自建的中醫(yī)典籍漢英雙語語料庫,分析了“經(jīng)絡(luò)”與“脈”的翻譯,認(rèn)為“vessel”指人體內(nèi)三維的管道,是對(duì)“經(jīng)脈”的恰當(dāng)譯語。蔣明佳[7]以人民網(wǎng)英文版為語料來源,建立“中醫(yī)藥英文報(bào)道專門用途小型語料庫”,分析了中醫(yī)藥對(duì)外報(bào)道,指出中醫(yī)藥對(duì)外英文報(bào)道應(yīng)以中醫(yī)藥歷史文化為核心。這些研究拓展了中醫(yī)典籍翻譯的研究視野,深化了中醫(yī)典籍翻譯研究。然而,以上研究是以中英文著作為范本進(jìn)行研究,選料單一,研究面窄且不夠深入,尚未建成實(shí)現(xiàn)網(wǎng)絡(luò)檢索的中醫(yī)典籍漢英語料庫。此外,2013年和2014年的國家社會(huì)科學(xué)基金指南仍有平行語料庫創(chuàng)建和應(yīng)用項(xiàng)目,表明平行語料庫的創(chuàng)建和應(yīng)用還不太成熟,中醫(yī)藥平行語料庫也不例外。
1.2 隴藥對(duì)外宣傳英譯研究
甘肅是全國中藥材優(yōu)勢(shì)主產(chǎn)區(qū)之一,人工種植面積位居全國第三,中藥材品種豐富,質(zhì)地優(yōu)良。現(xiàn)有藥用品種1527種,2012年甘肅省將當(dāng)歸、白條黨參、紋黨、黃芪、紅芪、大黃、柴胡、甘草、板藍(lán)根9種藥材確定為甘肅道地大宗中藥材,包括半夏在內(nèi),業(yè)內(nèi)有“十大隴藥”之說。為實(shí)現(xiàn)把隴藥產(chǎn)業(yè)做大做強(qiáng)的目標(biāo),甘肅省制定了《甘肅省“十二五”隴藥產(chǎn)業(yè)發(fā)展規(guī)劃》(甘政辦發(fā)〔2011〕181號(hào)),提出拓寬營銷領(lǐng)域,鼓勵(lì)和支持隴藥企業(yè)開拓國內(nèi)外消費(fèi)市場(chǎng)。
然而,中國知識(shí)資源總庫(CNKI)中尚未有隴藥的翻譯研究。相關(guān)內(nèi)容僅散見于藥店的說明書、土特產(chǎn)店中藥飲片及制品的產(chǎn)品介紹,且存在問題較多。①譯文頻繁出現(xiàn)中式英語及毫無意義的字面翻譯等。如甘肅岷海制藥有限責(zé)任公司生產(chǎn)的消炎退熱顆粒(Xiaoyan Tuire Keli)、杜仲壯骨膠囊(Duzhong Zhuanggu Jiaonang)、五味子顆粒(Wuweizi Keli)、小柴胡顆粒(Xiaochaihu Keli)和丹參顆粒(Dan shen Ke Li)。這種全用漢語拼音的翻譯方式不倫不類。原因是譯者或英語功底欠佳,或?qū)χ嗅t(yī)藥知識(shí)知之甚少。②有些是“印象式”(impressionistic)、“隨感式”(essayistic)翻譯,有失嚴(yán)謹(jǐn)。因中醫(yī)知識(shí)匱乏而導(dǎo)致的錯(cuò)誤翻譯,如把“板藍(lán)根沖劑”譯為“Radix Isatidis Lotion”。lotion指外用洗劑,屬不溶性藥物,不能內(nèi)服。內(nèi)服沖劑應(yīng)譯為“dissolvable powder”或“drink”。③中醫(yī)術(shù)語翻譯領(lǐng)域缺乏統(tǒng)一標(biāo)準(zhǔn)規(guī)范。如黃芪,在英文中就有astragalus、astragalus membranaceus、radix astragali及huang qi等多種翻譯,其主要原因是翻譯原則方面的學(xué)術(shù)分歧[8]。endprint
2 構(gòu)建語料庫依據(jù)
語料庫是指在隨機(jī)采樣基礎(chǔ)上收集到有代表性的真實(shí)語言材料集合,是語言運(yùn)用的樣本?;谡Z料庫的翻譯研究也稱語料庫翻譯學(xué),是以語言理論和翻譯理論為指導(dǎo),以概率和統(tǒng)計(jì)為手段,以大規(guī)模雙語真實(shí)語料為對(duì)象,采用語內(nèi)對(duì)比與語際對(duì)比相結(jié)合的方法,對(duì)翻譯現(xiàn)象歷時(shí)或共時(shí)描寫和解釋,探索翻譯本質(zhì)的一種翻譯學(xué)研究方法。語料庫具有強(qiáng)大的檢索功能,可以利用語言頻率的統(tǒng)計(jì)概率計(jì)算出高頻詞和低頻詞。因此,如果把某個(gè)中醫(yī)藥術(shù)語輸入ECPCGM,可通過ECPCGM及其檢索工具對(duì)詞頻進(jìn)行搜索,選擇詞頻最高的翻譯版本作為翻譯參考。從雙語文本“共現(xiàn)”(coexistent)中,可發(fā)現(xiàn)最易被人接受的詞與詞的搭配形式,對(duì)語法研究和詞匯在語言中的使用轉(zhuǎn)向做了語域再現(xiàn)式的翻譯實(shí)例和量化數(shù)據(jù),從而提高翻譯的可信度。中醫(yī)語言具有辭簡(jiǎn)、文約、言煉等語言美學(xué)特點(diǎn),如“滋陰補(bǔ)陽”這類具有特定文化信息的詞,ECPCGM可提供具體語境,突破單句層面上詞對(duì)詞的翻譯,使釋義更準(zhǔn)確。
3 建立語料庫的基本思路
3.1 總體設(shè)計(jì)
研究目的決定語料庫的采樣,建立ECPCGM的目的是客觀描述、考察中國學(xué)者對(duì)隴藥英語研究所表現(xiàn)出的總體特征及隴藥翻譯過程中呈現(xiàn)的共性特征。語言本身是動(dòng)態(tài)發(fā)展的,筆者通過初建一個(gè)50萬字容的ECPCGM,其他研究者可隨研究的進(jìn)展,添加適合的語料對(duì)該庫進(jìn)行更新擴(kuò)容。ECPCGM的建設(shè)過程包括總體設(shè)計(jì)、框架設(shè)計(jì)、語料采集、語料導(dǎo)入、雙語對(duì)齊、語料校對(duì)和語料優(yōu)化管理等步驟,見圖1。
ECPCGM包含2個(gè)一級(jí)子庫。①著作類:選取上海中醫(yī)藥大學(xué)出版社出版的新編實(shí)用中醫(yī)文庫《中藥學(xué)》、人民衛(wèi)生出版社出版的《中醫(yī)基本名詞術(shù)語中英對(duì)照國際標(biāo)準(zhǔn)》、廣東科技出版社出版的《中國中草藥圖典》和上海浦江教育出版社出版的《方劑學(xué)》4種英漢對(duì)照醫(yī)學(xué)教材和專著;②電子類:搜集CNKI等數(shù)據(jù)庫中甘肅道地藥材中英文論文摘要和論文。另下設(shè)10個(gè)二級(jí)子庫(5萬字/詞),內(nèi)容涉及10大隴藥的植物學(xué)特征、生物學(xué)特征、生境和主產(chǎn)地、性味與歸經(jīng)、功能與主治和現(xiàn)代藥理研究6個(gè)方面。子庫可分可合,便于研究。
3.2 建庫步驟
3.2.1 語料采集 ECPCGM按照語料的典型性、代表性、權(quán)威性和可行性標(biāo)準(zhǔn),語料取材于公開發(fā)行的圖書、電子版論文等。圖書類語料選取上文提到的4部教材和專著,其內(nèi)容均是英漢一一對(duì)照文本,全部由國內(nèi)中醫(yī)藥院校的著名學(xué)者翻譯,能夠代表中國學(xué)者中藥英譯的最高水平。電子版論文語料取自CNKI學(xué)術(shù)核心期刊有關(guān)隴藥的中英文論文摘要和論文等。
3.2.2 語料整理和加工 語料的加工是語料庫系統(tǒng)性構(gòu)建中的一個(gè)重要環(huán)節(jié)。該過程含3個(gè)步驟,即原始語料的采集、標(biāo)注和對(duì)齊。第一步把采集到的雙語對(duì)照文獻(xiàn),經(jīng)過良田高拍儀S800掃描,用OCR文字識(shí)別轉(zhuǎn)換成word,輔以人工校對(duì)消除文本中錯(cuò)誤信息,運(yùn)用Pre Encoder對(duì)原始語料進(jìn)行初步整理、去除噪音等預(yù)處理,將其變成可機(jī)讀的txt文本。第二步對(duì)生語料進(jìn)行加工,即標(biāo)注,使生語料變成熟語料,便于檢索和進(jìn)一步研究。采用語料庫構(gòu)建流程的簡(jiǎn)要XML標(biāo)記集。文獻(xiàn)信息標(biāo)注以開頭,以結(jié)束,注明語料類型
…,同時(shí)賦予段落的編號(hào)ID。借鑒蘭彩玉[5]的做法,英漢語句子對(duì)齊后在句子邊界采用xml格式標(biāo)記,句子以開始,以結(jié)束,1個(gè)句子級(jí)對(duì)齊單位是1個(gè)二元組,記作AS=…標(biāo)記嵌套在…標(biāo)記內(nèi)部,…標(biāo)記嵌套在
…標(biāo)記內(nèi)部,并人工輔助對(duì)齊。
3.2.3 語料入庫和組織 對(duì)齊后的語料需要通過語料庫索引,從而構(gòu)建成一個(gè)整體。索引結(jié)構(gòu)是語料庫的組織方式,也是語料庫檢索和應(yīng)用的基礎(chǔ)。可利用CUC Paraconc填寫每一文本信息,建立文本信息數(shù)據(jù)庫、單語索引和雙語索引的結(jié)構(gòu),方便以后進(jìn)行檢索。命名要有規(guī)律,文件名由“前綴+文件名”兩部分組成,前綴可以自己定義,文件名和后綴名一定要一致,如中文文件名“ch-testX.txt”,英文文件名“en-testX.txt”,ch-是中文前綴,en-是英文前綴,testX是文件名,X取值范圍為1~n,txt是后綴名。存貯采用tmx格式的xml標(biāo)記語言,統(tǒng)一碼用UTF-8編碼,以便存儲(chǔ)與檢索。雙語保存在一個(gè)文本中,也可雙語分開存貯在2個(gè)文本中。對(duì)雙語保存在一個(gè)文本中的平行語料,軟件能自動(dòng)識(shí)別4種對(duì)齊形式,即漢語在前、漢語在后、漢語整體在前、漢語整體在后,也可把4種形式的文本混在一起檢索。
3.2.4 語料檢索 語料庫檢索工具很多,常用的共享軟件如Free Text Browser、Web Concordance、Word Smith Tool 4、Concordancer等,可根據(jù)需要選擇使用檢索軟件。筆者使用中國傳媒大學(xué)研發(fā)的免費(fèi)綠色雙語檢索軟件CUC_ParaConc作為檢索軟件。軟件默認(rèn)一對(duì)一平行語料檢索,其標(biāo)簽下有3個(gè)子標(biāo)簽:調(diào)入語料及設(shè)置檢索參數(shù)、檢索中英對(duì)齊語料、正則式檢索。首先選擇所要檢索的txt文本目錄,可檢索目錄下所有文件夾和子文件夾中的對(duì)齊文本。單擊源文本目錄右邊的按鈕,選擇目錄,軟件會(huì)自動(dòng)生成“保存目錄”,默認(rèn)是在軟件同一目錄下自動(dòng)創(chuàng)立一個(gè)“ParaResult”文件夾,也可通過點(diǎn)擊保存到右邊的按鈕更換保存地址。
4 結(jié)語
ECPCGM的創(chuàng)建完成,在理論價(jià)值方面,基于ECPCGM的雙語文本和量化信息能為深入開展中醫(yī)翻譯提供可靠依據(jù);在技術(shù)方面,通過語料庫技術(shù),可挖掘中醫(yī)學(xué)術(shù)語的標(biāo)準(zhǔn)翻譯術(shù)語,客觀描述隴藥翻譯過程中呈現(xiàn)的共性特征;在應(yīng)用方面,該庫和語料軟件結(jié)合,可供學(xué)習(xí)者自主學(xué)習(xí)研究,并為隴藥英語教學(xué)、隴藥的對(duì)外宣傳英譯及詞典與教材編寫等提供幫助,另與網(wǎng)絡(luò)結(jié)合,把開發(fā)完成的語料庫在線發(fā)布和索引,實(shí)現(xiàn)網(wǎng)絡(luò)用戶對(duì)語料庫的直接訪問,對(duì)今后大規(guī)模對(duì)外翻譯介紹隴藥文獻(xiàn)具有重要借鑒和參考價(jià)值,必將促進(jìn)隴藥及隴藥文化傳承與發(fā)展。
參考文獻(xiàn):
[1] 聞?dòng)酪?淺談建設(shè)中醫(yī)英語語料庫的意義[J].陜西中醫(yī)學(xué)院學(xué)報(bào), 2003,26(5):65-68.
[2] 薛學(xué)彥.中醫(yī)英語語料庫建立的設(shè)想[J].廣州中醫(yī)藥大學(xué)學(xué)報(bào),2004, 26(6):482-485.
[3] 倪傳斌.中醫(yī)英語語料庫的建庫原則[J].上海中醫(yī)藥大學(xué)學(xué)報(bào),2005, 19(3):5-6.
[4] 管新潮,胡開寶,張冠男.英漢醫(yī)學(xué)平行語料庫的創(chuàng)建與初始應(yīng)用研究[J].當(dāng)代外語研究,2011(9):36-41.
[5] 蘭彩玉.中藥漢英雙語平行語料庫的設(shè)計(jì)及構(gòu)建[J].亞太傳統(tǒng)醫(yī)藥, 2014,10(8):1-3.
[6] 蘭鳳利,梁國慶,張葦航.中醫(yī)學(xué)中“脈”與“經(jīng)絡(luò)”概念的源流與翻譯[J].中國科技術(shù)語,2011,13(1):54-58.
[7] 蔣明佳.人民網(wǎng)英文版中醫(yī)藥對(duì)外報(bào)道狀況及語言分析[D].北京:北京中醫(yī)藥大學(xué),2014.
[8] 謝竹藩.關(guān)于中醫(yī)名詞術(shù)語英譯的討論[J].中國中西醫(yī)結(jié)合雜志, 2000,20(9):706-708.