摘 要:本文提出一種,針對專利文獻的機器翻譯系統(tǒng)中,通過人工撰寫模板,提高翻譯準(zhǔn)確率的同時節(jié)省時間和人力的方法。此方法不僅僅限于韓漢翻譯系統(tǒng),也可廣泛應(yīng)用于其他語言之間的翻譯系統(tǒng)。
關(guān)鍵詞:模板;專利文獻韓漢機器翻譯
中圖分類號:TP391.2
隨著計算機科學(xué)技術(shù)、特別是自然語言處理技術(shù)的高速發(fā)展,機器翻譯技術(shù)可以利用其發(fā)展而不斷進步,已成為未來翻譯領(lǐng)域的前沿課題以及大勢所趨。自2007年韓國專利文獻被納入PCT最低文獻量之后,世界范圍內(nèi)對韓國專利文獻的關(guān)注度也越顯突出。本文介紹一種能夠提高專利文獻韓漢機器翻譯引擎的翻譯質(zhì)量的方法,即基于模板的專利文獻韓漢機器翻譯研究方法。
1 模板的翻譯引擎
機器翻譯領(lǐng)域中,統(tǒng)計機器翻譯的基本思想即是通過對大量的平行語料進行統(tǒng)計分析,構(gòu)建統(tǒng)計翻譯模型,進而使用此模型進行翻譯。但統(tǒng)計翻譯引擎需要大量的語料進行訓(xùn)練,語料的搜集量以及準(zhǔn)確性直接影響其翻譯質(zhì)量,因此怎樣有效的搜集大量的對齊語料,并能保證語料的準(zhǔn)確性是構(gòu)建統(tǒng)計機器翻譯引擎的一個非常關(guān)鍵的因素,特別是研究人力有限的情況下,這將是一個非常龐大而長期的工程。
基于模板的翻譯引擎可在有限研究人力的情況下,彌補統(tǒng)計翻譯引擎帶來的弊端。運用專利文獻的語言特征,編寫相對應(yīng)的模板,針對性比較強,模板覆蓋范圍比較廣,有效解決機器翻譯中譯文語序混亂、不符合專利敘寫規(guī)范等問題。
2 模板的設(shè)計
2.1 專利文獻的特點
仔細觀察專利文獻的語言特征,不難看出,專利文獻帶有比較特殊的語法結(jié)構(gòu)。例如:
(1)本發(fā)明提供一種由充氣式圓環(huán)形圈構(gòu)成的嬰幼兒游泳圈;
(2)本發(fā)明涉及一種股骨頸保護裝置;
(3)本發(fā)明涉及冶金渣處理裝置;
這些語句都含有“本發(fā)明提供/涉及……”的句式;
(4)根據(jù)權(quán)利要求1所述的股骨頸保護裝置,其特征在于:所述的凸緣(12)在股骨(30)與股骨頸(20)相接的表面上略呈弧曲狀;
(5)根據(jù)權(quán)利要求4-6中任一項所述的方法,其特征在于,在步驟B中,所述逐點計算所有計算塊的運動矢量的步驟。
上述(4),(5)的例句中都包含“根據(jù)權(quán)利要求xx,其特征在于……”的句式?;谀0宓臋C器翻譯研究即是利用上述專利文獻的語言特征,人工撰寫對應(yīng)的語法模板,提高翻譯文的可讀性。
2.2 模板設(shè)計思路
人工撰寫模板的意義其實就在于,用計算機語言編寫人工語言的語法規(guī)則,使計算機熟悉人工語言語法。因此,模板的設(shè)計需要考慮每一句的語序安排,以及如何針對性的撰寫模板的問題。
圖1
如上述舉例,韓文和中文的語序存在差異,撰寫模板時應(yīng)考慮此類現(xiàn)象。
3 模板的撰寫方法
模板編寫是可運用正則文法的表達式,正則文法描述的是搜索文本正文時需要匹配的一個或者多個字符串,因此可用作于將字符模式與要搜索的字符串相匹配的模板。
表1
[]標(biāo)記括號表達式的開始和結(jié)尾。[ABC]與“ABC”或包括“ABC”的字符串匹配。
{}標(biāo)記限定符表達式的開始和結(jié)尾。a{2,3}與“aa”和“aaa”匹配。
+一次或多次匹配前面的字符或子表達式。zo+與“zo”和“zoo”匹配,但與“z”不匹配。
假如有“abc/ef/g/hi”這么一段自然語言語句,對應(yīng)的目標(biāo)語言為“ABC/HI/EF/G”的語序,那么運用上述符號,可編寫以下模板的表達式:
(0){abc}+(1){ef}+(2){g}+(3){hi}==>(0){ABC}+(1){HI}+(2){EF}+(3){G}
圖2
3.1 源語言表達方式
由于源語言是韓文,因此規(guī)定源語言的參數(shù)都以“K”為開頭,這樣的設(shè)置,方便了今后其他語言之間的機器翻譯系統(tǒng)的開發(fā)。
TEM[max]:無限變量,可以是一個字符,也可以是一個詞組,或者一段語句,語句可以帶任何標(biāo)點符號。
KRN:韓文詞匯,也可以是詞組,復(fù)合詞等。
KRN_M:韓文短語,包括助詞和謂語的組合,或者主語和助詞的組合。
KYM:韓文符號,一般指逗號或者分號。
KNU:韓文序列號,專利文中常見的序列號,如第一,第二,或者權(quán)利要求1,權(quán)利要求2,圖1,圖2等。
3.2 目標(biāo)語言表達方式
同樣的,目標(biāo)語言為中文,因此目標(biāo)語言參數(shù)部分都以“C”為開頭。
TEM[max]:無限變量,與上述韓文中的符號一樣,沒有長度限制。
CRN:中文詞匯,也可以是詞組,復(fù)合詞等。
CRN_M:中文短語,包括助詞和謂語的組合,或者主語和助詞的組合。
CYM:中文符號,一般指逗號或者分號。
CNU:中文序列號。
模板中,“@”為促發(fā)點,“$”作為結(jié)束點。
4 模板的實現(xiàn)與效果
4.1 模板的實現(xiàn)
圖3
整套翻譯系統(tǒng)是由記憶、模板、規(guī)則、統(tǒng)計相結(jié)合的方式運行。本論文的模板的實現(xiàn)方法是其中的一環(huán),當(dāng)輸入一段韓文語句,系統(tǒng)會對其進行分詞,之后根據(jù)記憶庫的資源,進行記憶匹配,由于記憶匹配是100%的完整匹配,因此很多情況下,無法找到匹配的語句。之后引擎會根據(jù)模板庫的資源,進行模板的匹配,一個語句只能匹配一個對應(yīng)的模板,通過模板的匹配可調(diào)整譯文的語序,提高譯文的可讀性。
4.2 模板的分類
模板可根據(jù)促發(fā)詞在語句中的位置,可分為首詞模板、尾詞模板、任意詞模板。
(1)首詞模板。促發(fā)詞為語句中的首詞的情況下,可寫成首詞模板。大部分是摘要中出現(xiàn)此類模板。例如“本發(fā)明公開…”“根據(jù)本發(fā)明…”等。
源語言:? 1??????????.
目標(biāo)語言:圖1是本發(fā)明的斜視圖。
@?
(0){KRN_M[?]}+(1){KNU[NUM?|?]}+(2){TEM[max]}==>(0){STR[圖]}+(1){CHN[1]}+(2){STR[是]}+(3){CHN[2]}
$;
(2)尾詞模板。促發(fā)詞為語句中的末尾詞的情況下,可寫成尾詞模板。
源語言:?????????????????.
目標(biāo)語言:本發(fā)明提供可折疊的便攜式椅子。
@????
(0){TEM[max]}+(1){TAIL[?|?]}+(2){TEM[max]}+(3){KOR[??]}==>(0){CHN[1]}+(1){STR[提供]}+(2){CHN[2]};
(3)任意詞模板。促發(fā)詞為語句中的任意一個位置(除了句首和句尾以外)時,可寫成任意詞模板。
源語言:????????????????????….
目標(biāo)語言:含有鉆石切割刀片的玻璃切割裝置….
@??(0){TEM[max]}+(1){KOR[??]LTAIL[?|?]}+(2){TEM[max]}+(3){KRN_M[??|???]}==>(0){STR[含有]}+(1){CHN[0]}+(2){STR[的]}+(3){CHN[2]}
$
4.3 模板的效果
通過以上的模板的分類以及撰寫方法,實驗組人工撰寫了100個模板,其中首詞模板為40個,尾詞模板為30個,任意詞模板為30個,放到實驗組自行研發(fā)的韓漢專利文獻機器翻譯系統(tǒng)。并隨機收取100句韓文專利文,進行了模板的測試,得到如下結(jié)果。
表2
改進程度數(shù)量
明顯67
一般25
無改進8
專利文中,比較典型的句式大部分都得到了很好的改善,輸出的譯文比較符合專利句式,有助于了解源語言的意境。
源語言:?????????????????????????.
原譯文:在布發(fā)明提供和軌道因為中有廠的故障棚子數(shù)。
模板譯文:由于本發(fā)明提供軌道,因此能夠棚子廠的故障。
參考譯文:由于本發(fā)明提供軌道,因此能夠防止機械的故障。
5 結(jié)束語
本文提出了利用專利文獻的語言特征,運用正則文法的表達式,人工撰寫專利文獻韓漢機器翻譯的模板的方法。并通過撰寫100條模板樣例,抽取100個例句進行了試驗性的測試。通過上述的試驗方法,可以看出人工撰寫的模板,針對性比較強,覆蓋面相對廣,有很好的譯文句式改進效果。但同時也出現(xiàn),添加較多的模板之后模板之間發(fā)生沖突,導(dǎo)致系統(tǒng)癱瘓,以及引擎選擇模板時,混淆類似的模板,導(dǎo)致匹配錯模板的問題。此類問題今后需要改進和升級系統(tǒng)來解決。
參考文獻:
[1]馮志偉.基于語料庫的機器翻譯系統(tǒng)[J].術(shù)語標(biāo)準(zhǔn)化與信息技術(shù),2010(01).
[2]張冬梅,劉小蝶,晉耀紅.基于模板的漢英專利機器翻譯研究[J].計算機應(yīng)用研究,2013(07).
[3]蔡舒,呂雅娟,劉群.人工書寫機器翻譯模板在統(tǒng)計機器翻譯系統(tǒng)中的應(yīng)用[A].第五屆全國機器翻譯研討會論文集[C],2009.
作者簡介:張延花(1981-),女,朝鮮族,吉林人,碩士,實習(xí)研究員,研究方向:語言學(xué),機器翻譯。
作者單位:中國專利信息中心,北京 100088