汪美俠
(咸陽師范學(xué)院 外國語學(xué)院,陜西 咸陽 712000)
基于句法和語義的英漢翻譯記憶系統(tǒng)的研究與實(shí)現(xiàn)
汪美俠
(咸陽師范學(xué)院 外國語學(xué)院,陜西 咸陽712000)
由于目前市場所存在的英漢翻譯系統(tǒng)不能準(zhǔn)確將語句翻譯出來,所以仍是輔助工具作為人們工作生活中的翻譯手段。但對(duì)于資料重復(fù)率高的工作,完全可以利用強(qiáng)大的數(shù)據(jù)庫來減少重復(fù)工作?;诖?,文中提出了一個(gè)基于句法和語義的英漢翻譯記憶系統(tǒng)。本文首先在分析語句相似度以后,應(yīng)用WordNet技術(shù)對(duì)相似度的算法進(jìn)行了研究,然后對(duì)記憶庫進(jìn)行設(shè)計(jì),最后對(duì)該系統(tǒng)進(jìn)行了詳細(xì)研究。將該系統(tǒng)應(yīng)用于實(shí)際實(shí)驗(yàn)翻譯實(shí)踐中,結(jié)果表明該系統(tǒng)大大避免了對(duì)相同句子的翻譯過程,提高了翻譯速度、節(jié)約了時(shí)間。
翻譯記憶;相似度;WordNet
機(jī)器翻譯,顧名思義,就是將一種自然語言通過計(jì)算機(jī)翻譯成另一種所要求的目標(biāo)自然語言。隨著現(xiàn)今互聯(lián)網(wǎng)的快速興起,讓人們看到了機(jī)器翻譯的未來地位,也更堅(jiān)定了人們開發(fā)機(jī)器翻譯系統(tǒng)的決心。同時(shí),伴隨著現(xiàn)在國家之間的交流逐漸增多,人們相互交流越發(fā)的不順暢,使用先進(jìn)的、準(zhǔn)確的機(jī)器翻譯系統(tǒng)勢(shì)在必行。目前,現(xiàn)在流行的機(jī)器翻譯系統(tǒng)分為兩類,一類是基于語法分析、一類是基于語料庫,其中,基于語料庫技術(shù)發(fā)展的更好一些。但是,自然語言畢竟是經(jīng)過長時(shí)間發(fā)展演化才形成的,同時(shí)不同人對(duì)語言的理解把握能力也不盡相同,所以,機(jī)器翻譯對(duì)結(jié)果的準(zhǔn)確性還是有待提高。同時(shí),對(duì)于所需翻譯文件的重復(fù)率較高的工作,若每次都對(duì)這些文件進(jìn)行翻譯,大大消耗了人力物力,那么,采用翻譯記憶技術(shù)來做這些工作的話,大大減少了工作時(shí)間、提高了工作效率。文中在句法和語義的基礎(chǔ)上,提出了一個(gè)英漢翻譯記憶系統(tǒng)[1-5]。
翻譯記憶技術(shù)就是指的是根據(jù)之前所翻譯任務(wù)所獲得的經(jīng)驗(yàn)并將其應(yīng)用在之后的翻譯任務(wù)當(dāng)中,為該翻譯任務(wù)提供必要的信息,采用該技術(shù)的系統(tǒng)就是翻譯記憶系統(tǒng)。在翻譯過程中,系統(tǒng)會(huì)根據(jù)所需翻譯的內(nèi)容在本身存在的記憶庫中尋找類似的資源,并以此提供參考譯文,翻譯者可根據(jù)這些參考來更改內(nèi)容,這樣可以極大的節(jié)省翻譯工作,對(duì)新內(nèi)容投入更多精力。對(duì)于新內(nèi)容的翻譯,系統(tǒng)將這些新內(nèi)容與庫中數(shù)據(jù)進(jìn)行比較匹配,然后提供參考譯文,譯者根據(jù)參考譯文可以更改或接受,然后系統(tǒng)就會(huì)將新譯文保存入數(shù)據(jù)庫中,為以后的翻譯工作提供便利,這樣累計(jì)以后,記憶庫中數(shù)據(jù)變多,就會(huì)大大提高翻譯效率,避免重復(fù)工作。該翻譯過程如圖1所示[6-8]。
那么在翻譯記憶過程中,需要注意的幾個(gè)關(guān)鍵技術(shù)有:
1)相似度計(jì)算
圖1 翻譯記憶的工作流程
2)譯文構(gòu)造
3)記憶庫的設(shè)計(jì)
文中提出的算法是英語句子相似度算法,該算法從句法和語義兩方面來考慮。其中,相似度表示的是兩個(gè)句子是否相似,通常用[0,1]的區(qū)間范圍來表示,1指的是兩個(gè)句子無論從句法還是語義都是非常相似的,也就意味著這兩個(gè)句子都含有相同語義的單詞,同時(shí)這些單詞的排序順序也是相同的。0指的是兩個(gè)句子的句法和語義都是完全不同的,兩個(gè)句子之間不存在任何聯(lián)系。在0到1之間的不同數(shù)值則表示兩個(gè)句子之間不同的相似度。
對(duì)于文中提出的算法,過程如下:首先使用Link Grammar Parser軟件對(duì)所需計(jì)算的句子進(jìn)行計(jì)算,得到各個(gè)句子的句法結(jié)構(gòu),然后再采用算法判定兩者句法結(jié)構(gòu)是否相同,若兩者結(jié)構(gòu)相同,那么再進(jìn)一步利用算法來判定兩個(gè)句子的中的句義是否相似。在判定句義相似度的過程中,要根據(jù)句子中各個(gè)組成部分的句義相似度來判斷,由此可以避免與實(shí)際情況不相符的狀況發(fā)生[9-10]。
3.1翻譯記憶庫的設(shè)計(jì)
記憶庫是翻譯記憶系統(tǒng)的重要組成部分,目前所存在的記憶庫主要分為3個(gè)級(jí)別,分別為句子級(jí)、詞匯級(jí)和更深層級(jí),3個(gè)層次的優(yōu)缺點(diǎn)對(duì)比如表1所示。
表1 記憶庫方案比較
由表1可看出,對(duì)于記憶庫的設(shè)計(jì)而言,若前期加工程度較重,那么后期工作就會(huì)變少,但是帶來的困難就是管理上較為麻煩;若前期加工較淺,那么隨之而來的就是后期譯文生成就會(huì)繁瑣。在翻譯的英語句子中,即使是復(fù)雜的句子也是由不同的簡單句組合而成,也就是說,每個(gè)英語句子都會(huì)包括主語和謂語,文中所設(shè)計(jì)的系統(tǒng)就是以句子為單位來進(jìn)行翻譯的[11-12]。
在設(shè)計(jì)記憶庫時(shí),要對(duì)系統(tǒng)的檢索效率以及對(duì)系統(tǒng)的管理相互兼顧,考慮周到才好。文中設(shè)計(jì)的記憶庫的結(jié)構(gòu)如表2所示。
表2 記憶庫的結(jié)構(gòu)表
在記憶庫的設(shè)計(jì)過程中,要注意的是,若待譯譯文是全新的句子,那么需要譯者對(duì)其進(jìn)行翻譯,然后將翻譯的譯文存儲(chǔ)在記憶系統(tǒng)當(dāng)中,以便之后對(duì)相同句子的翻譯;若待譯譯文與例句僅有部分相似,那么譯者對(duì)最相似的句子進(jìn)行修改,并將修改后的譯文存儲(chǔ)在記憶庫當(dāng)中[13]。
3.2譯文生成
文中是針對(duì)句子的翻譯,所以翻譯所用的算法得到的結(jié)果在區(qū)間[0,1]之間,那對(duì)于匹配的類別也就有所不同,匹配類別分類如表3所示[14]。
根據(jù)表3的不同情況,也分為3種處理方式,分別為:
1)直接復(fù)用譯文
2)人工翻譯
3)修改譯文
句子的譯文生成過程如圖2所示。
圖2 譯文的修改
表3 匹配的類別
4.1系統(tǒng)的總體框架
文中所設(shè)計(jì)的框架如圖3所示。
系統(tǒng)的總體流程如下:
1)先輸入需要翻譯的句子
圖3 系統(tǒng)總體框架圖
2)通過分析句子的長度以及字符串,在記憶庫中找相似的例句,再將兩者進(jìn)行比較
3)如果相等,則給出譯文
4)如果不相等,再根據(jù)句法找尋相似句法的例句
5)計(jì)算兩個(gè)句子的相似度
6)對(duì)最相似的例句通過譯文生成方式得到翻譯結(jié)果
7)若對(duì)譯文不滿意,可以人文進(jìn)行修改,再將最后修改的譯文存儲(chǔ)到記憶庫中
4.2系統(tǒng)實(shí)現(xiàn)
4.2.1翻譯記憶庫的創(chuàng)建
文中設(shè)計(jì)的系統(tǒng)的翻譯記憶庫是利用SQL Sever 2000建立,該庫包括3個(gè)表,分別是:
Sentence表:該表中顯示的是所需翻譯的英語句子以及翻譯結(jié)果的詳細(xì)信息。
Structure表:該表是用來保存相關(guān)句子信息,例如句法結(jié)構(gòu)。
Component表:保存句子的各個(gè)部分和譯文[15]。
4.2.2相似度計(jì)算
相似度的計(jì)算流程如圖4所示。如圖4所示,在開始相似性計(jì)算時(shí),先根據(jù)句子的字符串進(jìn)行相似比較,若相似度為1,那么返回相似度。若相似度不完全一致,那么就會(huì)再計(jì)算句法結(jié)構(gòu),判斷句法結(jié)構(gòu)是否一致,若一致,則對(duì)句子中的各個(gè)關(guān)鍵詞進(jìn)行抽取計(jì)算相似度,然后再返回相似度計(jì)算,若句法不一致,那么相似度判定為0,再返回相似度最初端。
圖4 相似度的計(jì)算流程
4.2.3譯文生成
譯文生成是以相似度為依據(jù)的,通過比較所需翻譯的句子與例句,根據(jù)相似度來適當(dāng)進(jìn)行處理,再利用兩者之間的關(guān)系生成譯文的。圖5為譯文生成的實(shí)例??梢愿鶕?jù)生成的譯文進(jìn)行修改,從而得到最后的結(jié)果。圖中,82%表示相似度,“[]”表示需要修改的譯文。
圖5 譯文修改
為更好表達(dá)該系統(tǒng)的高效性,表4列出了部分對(duì)比數(shù)據(jù)。
表4 Navigator 6.0和7.0技術(shù)手冊(cè)的相關(guān)數(shù)據(jù)
由表可看出,該系統(tǒng)大大提高了翻譯速度,節(jié)省了時(shí)間。
文中提出了一個(gè)基于句法和語義的英漢翻譯記憶系統(tǒng)。本文首先在分析語句相似度以后,應(yīng)用WordNet技術(shù)對(duì)相似度的算法進(jìn)行了研究,然后對(duì)記憶庫進(jìn)行設(shè)計(jì),最后對(duì)該系統(tǒng)進(jìn)行了詳細(xì)研究。將該系統(tǒng)應(yīng)用于實(shí)際實(shí)驗(yàn)當(dāng)中,結(jié)果表明該系統(tǒng)大大避免了對(duì)相同句子的翻譯過程,提高了翻譯速度、節(jié)約了時(shí)間。
[1]王金銓.翻譯記憶(TM)—計(jì)算機(jī)翻譯技術(shù)的新發(fā)展[J].現(xiàn)代圖書情報(bào)技術(shù),2004,2004(5):13-16.
[2]Peter F.Brown,Stephen A,Della Pietra,et al.The Mathematics of Statistical Machine Translation:Parameter Estimation[J].Computational Linguistics,1993,19(2):263-311.
[3]Snell-Hornby.Mary.Translation Studies:An Integrated Approach.Revised edition[J].Amsterdam and Philadelphia:John Benjamins Publishing Company,1995:29.
[4]張健.基于實(shí)例的機(jī)器翻譯的泛化方法研究[D].北京:中國科學(xué)院計(jì)算技術(shù)研究所,2001.
[5]Nagao M.A Framework of a Mechanical translation between Japanese and Englishby analogy principle[C]∥In:Elithom A and Banerji R.Artificial and Human Intelligence,Edited ReviewPaperspresentedattheInternationalNATOSymposium.Amsterdam:NATO Publications,1984,173-180.
[6]Timothy Baldwin.A Look under the Hood and Road Test[C]∥In:Proceedings of 15th International Japanese/English Translation Conference.Yokohama,Japan:IEEE Press,2004,29-30.
[7]俞曉峰.面向譯文選擇的雙語語義詞典自動(dòng)構(gòu)建研究[D].哈爾濱:哈爾濱工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,2005.
[8]王斌.漢英雙語語料庫自動(dòng)對(duì)齊研究[D].北京:中國科學(xué)院計(jì)算技術(shù)研究所,1999.
[9]安玉璞.自然語言問答系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].哈爾濱:哈爾濱工業(yè)大學(xué),2003.
[10]張濤,楊爾弘.基于上下文詞語同現(xiàn)向量的詞語相似度計(jì)算[J].電腦開發(fā)與應(yīng)用,2006,18(3):41-43.
[11]魯松.自然語言中詞相關(guān)性知識(shí)無導(dǎo)獲取和均衡分類器的構(gòu)建[D].北京:中國科學(xué)院計(jì)算技術(shù)研究所,2001.
[12]穗志方,俞士汶.基于骨架依存樹的語句相似度計(jì)算模型[C]//1998中文信息處理國際會(huì)議論文集,北京:清華大學(xué)出版社,1998,458-465.
[13]車萬翔,劉挺,秦兵等.面向雙語句對(duì)檢索的漢語句子相似度計(jì)算[C]∥全國第七屆計(jì)算語言學(xué)聯(lián)合學(xué)術(shù)會(huì)議論文集.北京:清華大學(xué)出版社,2003:81-88.
[14]Hirst G,St-Onge D.Lexical Chains as representations of context for the detection and correction of malapropisms[C]∥In:C.Fellbaum(ed.)WordNet:An Electronic Lexical Database,Cambridge,MA:The MIT Press,1998:305-332.
[15]單玉秋.英漢輔助翻譯系統(tǒng)用戶需求調(diào)查及源語言輔助分析技術(shù)[C]∥2002全國機(jī)器翻譯研討會(huì)論文集,杭州:電子工業(yè)出版社,2002:15.
Research and implementation of English and Chinese translation memory system based on syntax and semantics
WANG Mei-xia
(School of Foreign Languages,Xianyang Normal University,Xianyang 712000,China)
As the English and Chinese translation system in the present market cannot translate the words accurately,it still works as a tool for people in their work and life.However,for the high rate of repetitive work,it is desirable to use the powerful database to reduce the burden of theheavy work.Based on this,this paper proposes a translation memory system based on syntax and semantics.Firstly,after analyzing the sentence similarity,this paper studies the algorithm of similarity based on WordNet technology,and then designs the memory database.Finally,it makes a detailed study on the system.This system will be applied to the actual experiment and translation practice,the results show that the system can greatly avoid the process of translation of the same sentence,therefore,improve the speed of translation and savetime.
translation memory;similarity;WordNet
TM933.4
A
1674-6236(2016)21-0024-03
2015-12-18稿件編號(hào):201512201
陜西省社會(huì)科學(xué)基金項(xiàng)目(13K045);咸陽師范學(xué)院2013年專項(xiàng)科研基金項(xiàng)目(13XSYK037);陜西省教育廳專項(xiàng)科研計(jì)劃項(xiàng)目(14JK1781)。
汪美俠(1977—),女,陜西咸陽人,碩士研究生,講師。研究方向:英語教學(xué)與英語翻譯。