王萌 李濤安 王治梅 聞?dòng)酪?/p>
摘?要:在中醫(yī)走向世界的時(shí)代背景下,中醫(yī)對(duì)外傳播的進(jìn)程越來(lái)越快。中醫(yī)翻譯在中醫(yī)藥文化“走出去”中起著至關(guān)重要的作用,一部能夠快速、準(zhǔn)確查詢中醫(yī)詞匯或術(shù)語(yǔ)的電子(在線)詞典可以為中醫(yī)翻譯者提供一個(gè)便捷的工具,可以更好地推動(dòng)中醫(yī)藥對(duì)外傳播。文章對(duì)以層級(jí)對(duì)應(yīng)技術(shù)為核心的中醫(yī)漢英電子詞典的研發(fā)進(jìn)行探索研究,以期為中醫(yī)電子詞典的編纂乃至中醫(yī)翻譯事業(yè)的發(fā)展做出貢獻(xiàn)。
關(guān)鍵詞:層級(jí)對(duì)應(yīng)技術(shù);中醫(yī)翻譯;漢英電子詞典
中圖分類號(hào):N04;R277;G255.75?文獻(xiàn)標(biāo)識(shí)碼:A?DOI:10.3969/j.issn.1673-8578.2020.05.002
Abstract: Under the background of Traditional Chinese Medicine (TCM) going out to the world, the transmission process of TCM has become faster and faster. Translation of TCM plays a vital role in the “going out” of TCM culture. An electronic (online) dictionary which can quickly and accurately query TCM vocabulary or terms can provide a convenient tool for TCM translators. This paper focuses on the research and development of TCM ChineseEnglish electronic dictionaries with hierarchical correspondence technology in order to make contributions to the compilation of TCM electronic dictionary and the development of TCM translation.
Keywords: Hierarchical corresponding technique; TCM translation; ChineseEnglish electronic dictionary
習(xí)近平總書(shū)記提出“深入發(fā)掘中醫(yī)藥寶庫(kù)中的精華,充分發(fā)揮中醫(yī)藥的獨(dú)特優(yōu)勢(shì),推進(jìn)中醫(yī)藥現(xiàn)代化,推動(dòng)中醫(yī)藥走向世界”,發(fā)展中醫(yī)、向外推廣中醫(yī)也是中國(guó)夢(mèng)的組成部分。而中醫(yī)的“走出去”很大程度上依賴于中醫(yī)翻譯,查詢?cè)~典是翻譯過(guò)程中必不可少的步驟。
早在1999年,就有人指出現(xiàn)代信息技術(shù)使得詞典內(nèi)容、檢索方式立體化,多媒體詞典集圖、文、聲、像等不同媒體信息于一身,將詞目全面立體地呈現(xiàn)在讀者眼前[1]。漢英電子詞典無(wú)論在內(nèi)容、檢索方式、信息編排、編纂手段等方面都向多樣式、多層次的立體化方向靠近[2]國(guó)內(nèi)關(guān)于電子詞典的研究雖然始于20世紀(jì)50、60年代,但在改革開(kāi)放之后得到了充分重視,80年代后期,中文信息處理領(lǐng)域的專家開(kāi)始了對(duì)機(jī)器詞典的研究,90年代初面向信息處理的機(jī)器詞典的。研究正式列入國(guó)家七五、八五、九五計(jì)劃。[3]
如今,隨著科學(xué)技術(shù)的不斷進(jìn)步和互聯(lián)網(wǎng)的普及,各類電子詞典、在線詞典甚至在線翻譯應(yīng)運(yùn)而生(例如有道詞典、金山詞霸、百度翻譯、谷歌翻譯等)。王朝暉、余軍[4]對(duì)“有道翻譯”“百度翻譯”“谷歌翻譯”和“必應(yīng)翻譯”等四大機(jī)器翻譯引擎的詞語(yǔ)翻譯質(zhì)量評(píng)估后發(fā)現(xiàn),基于不同知識(shí)源的不同機(jī)器翻譯給出的參考譯文各有千秋,最重要的是它們大多沒(méi)有收錄中醫(yī)專業(yè)詞匯和術(shù)語(yǔ),所以目前市面上可以用來(lái)準(zhǔn)確、快捷查詢中醫(yī)術(shù)語(yǔ)的電子或在線詞典極少。因此,我們嘗試開(kāi)發(fā)一款基于層級(jí)對(duì)應(yīng)的中醫(yī)翻譯專用詞典。此項(xiàng)研究基于2017年大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目——“層級(jí)中醫(yī)漢英在線詞典”項(xiàng)目而展開(kāi)。
一?設(shè)計(jì)與實(shí)現(xiàn)
1.總體設(shè)計(jì)
本項(xiàng)目旨在研發(fā)一款中醫(yī)漢英電子(在線)詞典,主要是將層級(jí)對(duì)應(yīng)技術(shù)用于對(duì)漢英雙語(yǔ)術(shù)語(yǔ)詞條進(jìn)行加工,建立一個(gè)基本語(yǔ)料庫(kù),供用戶查詢常規(guī)型術(shù)語(yǔ),并在此基礎(chǔ)上建立一個(gè)層級(jí)控制系統(tǒng),再基于一定的層次規(guī)則經(jīng)過(guò)短語(yǔ)層次分析器進(jìn)行分析,從而形成一個(gè)動(dòng)態(tài)語(yǔ)料庫(kù),可以使基本語(yǔ)料庫(kù)得到擴(kuò)充。如圖1所示。
2.詞典數(shù)據(jù)庫(kù)結(jié)構(gòu)設(shè)計(jì)
詞典數(shù)據(jù)庫(kù)分為基本語(yǔ)料庫(kù)和動(dòng)態(tài)語(yǔ)料庫(kù)。其中,基本語(yǔ)料庫(kù)主要由人工建立的詞庫(kù)組成。通過(guò)相關(guān)的編程技術(shù)設(shè)置標(biāo)準(zhǔn)參數(shù),動(dòng)態(tài)語(yǔ)料庫(kù)可把符合條件的文本自動(dòng)擴(kuò)充至各層級(jí)語(yǔ)料庫(kù)中。
3.詞典管理程序設(shè)計(jì)
運(yùn)用層級(jí)對(duì)應(yīng)技術(shù)可合理有序地管理基本語(yǔ)料庫(kù)以及不斷擴(kuò)充的動(dòng)態(tài)語(yǔ)料庫(kù)。
4.詞典檢索(查詢)方式設(shè)計(jì)
此詞典將為用戶提供多源檢索技術(shù),即可使用多種方式進(jìn)行檢索,無(wú)論用戶搜索詞級(jí)還是短語(yǔ)級(jí)都能夠準(zhǔn)確無(wú)誤地檢索出相關(guān)詞條及對(duì)應(yīng)譯文。
5.提取漢語(yǔ)和對(duì)應(yīng)譯文詞條
漢語(yǔ)詞條和對(duì)應(yīng)譯文詞條計(jì)劃從WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region(WHO版)、International Standard ChineseEnglish Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies(世中聯(lián)版)、PMPH Terms List (updated 2010-05-18)(人衛(wèi)版)這三套標(biāo)準(zhǔn)中提取。從實(shí)際情況出發(fā),本項(xiàng)目的詞條擬定先從PMPH Terms List (updated 2010-05-18) (人衛(wèi)版)中進(jìn)行提取。
6.加工詞條,建立詞庫(kù)
運(yùn)用層級(jí)對(duì)應(yīng)技術(shù)對(duì)所收集的漢、英詞條進(jìn)行加工處理,建立詞庫(kù)。
二?層級(jí)對(duì)應(yīng)技術(shù)及其在詞典編纂中的應(yīng)用
李安興[5]認(rèn)為:基于平行語(yǔ)料庫(kù)的漢英詞典編纂研究,要有所創(chuàng)新,就必須發(fā)揮語(yǔ)料庫(kù)信息存儲(chǔ)量大、檢索便利的優(yōu)勢(shì)。為建立一個(gè)大容量的語(yǔ)料庫(kù),此詞典應(yīng)用了層級(jí)對(duì)應(yīng)技術(shù),來(lái)合理有序地管理基本語(yǔ)料庫(kù)以及不斷擴(kuò)充的動(dòng)態(tài)語(yǔ)料庫(kù),使之呈現(xiàn)為動(dòng)態(tài)式、增進(jìn)式的模式,如圖2所示。不斷擴(kuò)充的動(dòng)態(tài)語(yǔ)料庫(kù)展示了一個(gè)具有巨大存儲(chǔ)量的語(yǔ)料庫(kù),且使用多源檢索技術(shù)可以輕松獲得檢索結(jié)果。
用戶輸入漢語(yǔ)詞條,經(jīng)過(guò)多源檢索可進(jìn)入基本詞庫(kù),從而輸出對(duì)應(yīng)的英語(yǔ)詞條。這個(gè)基本詞庫(kù)基于層級(jí)結(jié)構(gòu)存儲(chǔ)方式建立,由層級(jí)控制系統(tǒng)包括詞級(jí)和短語(yǔ)級(jí)(短語(yǔ)1級(jí)、短語(yǔ)2級(jí)、短語(yǔ)3級(jí))控制,也可通過(guò)設(shè)置參數(shù)建立自動(dòng)擴(kuò)展系統(tǒng)而自動(dòng)擴(kuò)展詞庫(kù),形成動(dòng)態(tài)詞庫(kù)。以“人參養(yǎng)榮湯——Decoction of Ginseng for Nourishing Vital Energy and Ying”為例,當(dāng)用戶輸入“人參”時(shí)可出現(xiàn)詞級(jí)“人參”或“養(yǎng)榮”的對(duì)應(yīng)譯文“Ginseng”或“Nourishing Vital Energy and Ying”、短語(yǔ)1級(jí)“養(yǎng)榮湯”的對(duì)應(yīng)譯文“Decoction for Nourishing Vital Energy and Ying”以及短語(yǔ)2級(jí)“人參養(yǎng)榮湯”的對(duì)應(yīng)譯文“Decoction of Ginseng for Nourishing Vital Energy and Ying”,如圖3所示。
詞典編纂所使用的層級(jí)對(duì)應(yīng)技術(shù)可追溯到Chiang[6]提出的基于層次化短語(yǔ)(hierarchical phrasebased)的翻譯系統(tǒng)模型。這種模型最大的優(yōu)點(diǎn)在于翻譯規(guī)則能自動(dòng)從雙語(yǔ)對(duì)齊語(yǔ)料獲得,不需要依賴任何語(yǔ)言學(xué)知識(shí)。本詞典所使用的層級(jí)對(duì)應(yīng)技術(shù)就是Chiang提出的基于層次化短語(yǔ)的翻譯系統(tǒng)模型的一大體現(xiàn)。與層次化短語(yǔ)翻譯系統(tǒng)類似,層級(jí)對(duì)應(yīng)技術(shù)指的是按照一定的規(guī)則對(duì)中醫(yī)術(shù)語(yǔ)雙語(yǔ)語(yǔ)料的詞條進(jìn)行分級(jí)(分為詞級(jí)、短語(yǔ)級(jí)),經(jīng)過(guò)加工處理之后可以實(shí)現(xiàn)雙語(yǔ)在各層級(jí)的對(duì)應(yīng),使用戶可以進(jìn)行多源檢索從而獲得術(shù)語(yǔ)的對(duì)應(yīng)譯文。層級(jí)對(duì)應(yīng)技術(shù)的應(yīng)用主要體現(xiàn)在層級(jí)控制系統(tǒng)和自動(dòng)擴(kuò)展系統(tǒng)中。
同時(shí),本項(xiàng)目的詞條提取和詞庫(kù)建立的方法是受基于實(shí)例的機(jī)器翻譯方法所啟發(fā),基于實(shí)例的機(jī)器翻譯方法是由日本學(xué)者長(zhǎng)尾真[7](Makoto Nagao)教授于20世紀(jì)80年代提出。李沐[8]曾提到這種翻譯方法首先利用雙語(yǔ)對(duì)照文本自動(dòng)構(gòu)建知識(shí)庫(kù)或?qū)嵗龓?kù),引入單語(yǔ)語(yǔ)義詞典、雙語(yǔ)詞典,通過(guò)類比對(duì)源語(yǔ)言句子進(jìn)行翻譯。無(wú)須對(duì)句子進(jìn)行復(fù)雜的語(yǔ)言分析,可直接利用已有的翻譯實(shí)例庫(kù)。
本項(xiàng)目將基于實(shí)例的機(jī)器翻譯方法部分運(yùn)用到此詞典的編纂過(guò)程中,但與之最大的不同是,本項(xiàng)目詞條的提取和加工處理是人工完成的,而不是自動(dòng)構(gòu)建的。其主要操作如下:先從PMPH Terms List (updated 2010-05-18)中提取漢英雙語(yǔ)詞條,將其輸入Microsoft Excel中,運(yùn)用層級(jí)對(duì)應(yīng)技術(shù)對(duì)詞條進(jìn)行加工,將一個(gè)漢語(yǔ)詞條分為詞級(jí)、短語(yǔ)1級(jí)、短語(yǔ)2級(jí),然后再給出對(duì)應(yīng)的英語(yǔ)詞條(如圖3所示),之后把漢語(yǔ)部分和英語(yǔ)譯文部分分別保存為兩個(gè).txt文件。
在此詞典的編纂過(guò)程中,我們使用基于實(shí)例的機(jī)器翻譯方法和層級(jí)結(jié)構(gòu)存儲(chǔ)方式對(duì)詞條的詞級(jí)、短語(yǔ)級(jí)進(jìn)行分級(jí)處理,建立一個(gè)小型的可供查詢的雙語(yǔ)語(yǔ)料庫(kù),如圖4所示。在此基礎(chǔ)上,通過(guò)自主研制開(kāi)發(fā)的專用詞典軟件(由Wensor聞?dòng)酪阍O(shè)計(jì)開(kāi)發(fā))實(shí)現(xiàn)詞(術(shù)語(yǔ))的查詢。
三?后續(xù)工作
目前,完成了詞條的提取和加工處理,建立了一個(gè)小型的語(yǔ)料庫(kù)(5000詞條),成功開(kāi)發(fā)出查詞的專用詞典軟件。下一步我們將在此基礎(chǔ)上,將互聯(lián)網(wǎng)技術(shù)和層級(jí)對(duì)應(yīng)技術(shù)相結(jié)合,運(yùn)用到中醫(yī)術(shù)語(yǔ)語(yǔ)料庫(kù)及中醫(yī)網(wǎng)絡(luò)詞典的構(gòu)建中,將此詞典升級(jí)為網(wǎng)絡(luò)(在線)電子詞典。為完善和推廣本項(xiàng)目所研發(fā)的詞典,后續(xù)還需做以下工作:
1.詞典上線工作
與相關(guān)技術(shù)人員合作開(kāi)發(fā)現(xiàn)有電子詞典(應(yīng)用程序)的PC端和手機(jī)端軟件。
2.宣傳與推廣工作
做好宣傳與推廣工作,擴(kuò)大這款詞典的使用范圍。目前這款詞典由于缺乏良好的宣傳與推廣,仍處于小范圍調(diào)試階段,尚不能大范圍進(jìn)行試用。
3.詞庫(kù)擴(kuò)充工作
后續(xù)還需整理其他現(xiàn)存雙語(yǔ)術(shù)語(yǔ)詞條,主要是兩套國(guó)際標(biāo)準(zhǔn)術(shù)語(yǔ),即WHO International Standard Terminologies on Traditional Medicine in the Western Pacific Region (WHO版) 和 International Standard Chinese-English Basic Nomenclature of Chinese Medicine of World Federation of Chinese Medicine Societies (世中聯(lián)版)。這兩套標(biāo)準(zhǔn)是目前國(guó)際認(rèn)可度較高的中醫(yī)術(shù)語(yǔ)翻譯標(biāo)準(zhǔn)。譚耿耿、方剛[9]在對(duì)中醫(yī)術(shù)語(yǔ)翻譯渠道評(píng)估后提出,現(xiàn)代術(shù)語(yǔ)檢索渠道的可靠性取決于術(shù)語(yǔ)翻譯的收集來(lái)源和翻譯技術(shù)的發(fā)展。目前,尚無(wú)線上詞典收錄兩部國(guó)際標(biāo)準(zhǔn),為了保證此詞典的專業(yè)性、科學(xué)性、先進(jìn)性,有必要把兩套國(guó)際標(biāo)準(zhǔn)納入詞庫(kù)。
4.詞庫(kù)升級(jí)工作
現(xiàn)存詞庫(kù)有一定的缺陷,對(duì)于一些比較長(zhǎng)且不能分割的中醫(yī)術(shù)語(yǔ)的查找來(lái)說(shuō)具有局限性。此外,動(dòng)態(tài)語(yǔ)料庫(kù)的建設(shè)需要通過(guò)編程技術(shù)設(shè)置標(biāo)準(zhǔn)參數(shù)來(lái)完善。
四?結(jié)?語(yǔ)
此項(xiàng)目將層級(jí)對(duì)應(yīng)技術(shù)應(yīng)用到中醫(yī)漢英電子(在線)詞典的編纂中,運(yùn)用層級(jí)結(jié)構(gòu)存儲(chǔ)方式對(duì)詞條進(jìn)行加工處理后,建立了詞庫(kù)(基本語(yǔ)料庫(kù)),并且已經(jīng)研發(fā)出一款可以用來(lái)查詢中醫(yī)術(shù)語(yǔ)對(duì)應(yīng)英文的應(yīng)用軟件,下一步我們將擴(kuò)大詞庫(kù)中的詞條數(shù)量,完善動(dòng)態(tài)語(yǔ)料庫(kù),在大量語(yǔ)料庫(kù)的基礎(chǔ)上與互聯(lián)網(wǎng)技術(shù)相結(jié)合,將此詞典升級(jí)為中醫(yī)網(wǎng)絡(luò)電子詞典。
參考文獻(xiàn)
[1]?紀(jì)大慶.淺論現(xiàn)代信息技術(shù)對(duì)語(yǔ)文詞典編纂的影響[J].辭書(shū)研究,1999(2):75-80.
[2]?廖海宏.試論現(xiàn)行漢英電子詞典的分類與性能特征[J].廣東廣播電視大學(xué)學(xué)報(bào),2004(1):74-77.
[3]?艾山·吾買爾.多語(yǔ)種—多媒體電子詞典資源平臺(tái)和大型英漢維電子詞典的研究和實(shí)現(xiàn)[D].烏魯木齊:新疆大學(xué)碩士論文,2007.
[4]?王朝暉,余軍.基于 CAT 及語(yǔ)料庫(kù)技術(shù)的電子商務(wù)翻譯研究[M].廈門:廈門大學(xué)出版社,2016.
[5]?李安興.關(guān)于漢英詞典編纂方法與理論創(chuàng)新問(wèn)題的思考[J].中國(guó)出版,2010(24):42-45.
[6]?Chiang D. Hierarchical PhraseBased Translation.[J].Computational Linguistics,2007,33(2):201-228,42-45.
[7]?Nagao M. A framework of a mechanical translation between Japanese and English by analogy principle [M]//Readings in Machine Translation Cambridge: MIT Press, 1984:352-354.
[8]?李沐.機(jī)器翻譯[M].北京:高等教育出版社,2018.
[9]?譚耿耿,方剛.中醫(yī)名詞翻譯術(shù)語(yǔ)檢索渠道評(píng)估[J].傳播力研究,2019(18):205-206.