關(guān)鍵詞: 簡歷翻譯;機器翻譯;受限漢語;句模;統(tǒng)計翻譯法
摘 要: 隨著國際交流的深入,越來越多的中國人需要把中文簡歷翻譯成英文。但是,簡歷漢語的特殊性使機器翻譯還存有許多不足,導(dǎo)致漢譯英的簡歷表達不盡如人意。要解決這一問題,就有必要對簡歷中漢語的詞匯、句法和語義等進行限制,并建立翻譯句模,以簡化句子結(jié)構(gòu),減少或消除漢語表達的歧義,從而提高機器翻譯系統(tǒng)的譯文質(zhì)量。受限漢語和句模在機器翻譯中的應(yīng)用,可以推廣到飯店訂餐和房間預(yù)訂等受限領(lǐng)域的機器翻譯系統(tǒng)中。
中圖分類號: H085.3
文獻標志碼: A 文章編號: 1009-4474(2012)05-0049-05
隨著經(jīng)濟全球化和國際交流的發(fā)展,越來越多的畢業(yè)生申請到外資企業(yè)實習(xí)或工作。《2011上海應(yīng)屆生外資企業(yè)就業(yè)市場供需狀況調(diào)查》顯示,被調(diào)查的99家外資企業(yè)中,近九成的外資企業(yè)接受了學(xué)生實習(xí)、見習(xí)或招聘了大學(xué)畢業(yè)生,而簡歷的投遞就是見習(xí)、實習(xí)或應(yīng)聘的第一步。另外,“中國教育網(wǎng)”的最新數(shù)據(jù)顯示,2011年出國留學(xué)人數(shù)超過33萬,而就業(yè)或出國需將大量的簡歷翻譯為英文,因此市場上就出現(xiàn)了許多翻譯軟件。但用機器進行翻譯的軟件卻存在一些問題,如果簡單地用機器翻譯軟件將中文簡歷字對字、詞對詞地翻譯,英文簡歷會非常糟糕,申請者得到工作的機會或?qū)W習(xí)的機會就有可能大打折扣。因為簡歷的翻譯需言簡意賅、用詞準確,而現(xiàn)代漢語詞匯豐富,同樣的一個詞,在不同的語境中有可能表達的意思不盡相同,這就使結(jié)構(gòu)短小但信息含量龐大的簡歷翻譯有著極大的難度。要想把漢語簡歷準確地、簡便地翻譯為英文簡歷,就必須將簡歷的漢語句式限定為受限漢語,并建立翻譯句模。本文擬從機器翻譯的現(xiàn)狀和難點出發(fā),結(jié)合簡歷中漢語的特點,討論簡歷中受限漢語在機器翻譯中的可行性,以期為其他特殊領(lǐng)域的受限漢語機器翻譯提供一些參考。
一、機器翻譯現(xiàn)狀和翻譯難點 1.機器翻譯現(xiàn)狀
“機器翻譯(Machine Translation)是使用電子計算機把一種語言(源語言,Source Language)翻譯成另外一種語言(目標語言,Target Language)的一門新學(xué)科?!薄?〕半個多世紀以來,世界上許多國家一直都在從事有關(guān)機器翻譯的研究。機器翻譯研究曾走過一段曲折的道路,直到20世紀70年代中期,機器翻譯才開始在世界范圍內(nèi)復(fù)蘇并日趨走向繁榮。二十世紀七八十年代,國外研究者開發(fā)出了不少實用型的機器翻譯系統(tǒng),如:Météo,Systran,Logos和Metal。國內(nèi)的一些機器翻譯軟件也頗受歡迎,比如“譯星”、“雅信”、“通譯”和“華建”等。
西南交通大學(xué)學(xué)報(社會科學(xué)版) 第13卷第5期
林 娜 談受限漢語在機器翻譯中的運用——以中文簡歷英譯為例國內(nèi)外的機器翻譯研究雖然取得了不俗的成績,但國內(nèi)諸如“譯星”、“雅信”、“通譯”和“華建”等機器翻譯系統(tǒng)卻只擅長英譯漢,漢譯英的效果則很難令人滿意;國外以Trados和Systran為代表的許多國際機器翻譯系統(tǒng)只是英語、法語和西班牙語等語種間的互譯,很少有把“漢語翻譯成其它語種”的機器翻譯系統(tǒng)。這是因為漢語為表意文字,不像表音文字那樣有利于機器翻譯系統(tǒng)的“理解”。國內(nèi)外的漢英機器翻譯研究進展緩慢,其原因是漢語表達靈活多變,在詞法、句法和語義等層面有不少歧義。
2.機器漢譯英簡歷的難點
簡歷主要用于介紹個人情況,陳述過去的經(jīng)歷和業(yè)績。從句法來看,簡歷中漢語翻譯成英文時具有以下特點:一是動詞大都使用過去時態(tài),少數(shù)用現(xiàn)在時,基本不用將來時態(tài)。這一特點可降低漢譯英過程中機器判斷時態(tài)的難度。二是大多用無主句,翻譯系統(tǒng)不必調(diào)整名詞或代詞來實現(xiàn)主謂一致(英語中主語與謂語的時態(tài)和數(shù)量保持一致)。三是簡歷中大都使用短語或簡單句,少用復(fù)合句或復(fù)雜句,翻譯時基本上不需要依靠上下段落的語義結(jié)構(gòu)或語境來進行。例如:
例1 指導(dǎo)孩子們練習(xí)打籃球。(無主句、短語)
例2 精通德語聽說。(無主句、短語)
例3 2010年成都大學(xué)畢業(yè)生就業(yè)率為80%。(簡單句)
例4 2011年在XX外貿(mào)公司擔任跟單助理。(無主句、簡單句)
例5 通過了注冊會計師考試。(無主句、短語)
例6 領(lǐng)導(dǎo)臨時安排的任務(wù)。(無主句、短語)
從簡歷的用詞來看,出現(xiàn)最多的是動詞和名詞。動詞在漢英機器翻譯中最復(fù)雜的是時態(tài)和主謂一致的處理,而上述簡歷句式的特點大大降低了機器翻譯處理動詞的難度。簡歷中的名詞除了上述句中的“德語”、“XX外貿(mào)公司”“跟單助理”和“注冊會計師”之外,通常還有地名、人名和與學(xué)校學(xué)習(xí)相關(guān)的詞語:
例7 地名:金牛區(qū)、二環(huán)路
例8 人名:王紅、陳小明、上官儀、歐陽振豪
例9 機構(gòu)名稱:西南交通大學(xué)、外國語學(xué)院
例10 縮略構(gòu)詞:“四川大學(xué)”→“川大”、“藝術(shù)與傳播學(xué)院”→“藝傳學(xué)院”
例11 數(shù)學(xué)和寫作、?;@球隊隊長、優(yōu)秀畢業(yè)生
例12 四川省成都市西南交通大學(xué)外國語學(xué)院英語專業(yè)、輔修經(jīng)濟學(xué)專業(yè)
如果用Google Translate軟件來翻譯以上12個例句,其譯文如下:
例1 to teach children to play basketball
例2 is fluent in German heard
例3 2010 Chengdu University graduate employment rate of 80%
例4 XX foreign trade companies, as with a single assistant in 2011
例5 by a Certified Public Accountant exam
例6 led the interim arrangements for the task
例7 names:Jinniu,the Second Ring Road
例8 names:Wang Hong,Chen Xiaoming,Norm,Ouyang Zhen Hao
例9 Name of Organization:Southwest Jiaotong University,School of Foreign Languages
例10 Abbreviated word formation:\"Sichuan University→Sichuan,Yi Chuan College of Art and College of Communication,\"→\"
例11 mathematics and writing,the school basketball team captain,outstanding graduates
例12 Chengdu,Sichuan Province,Southwest Jiaotong University School of Foreign Languages,English major and a minor in economics
從譯文例7~例12可以看出,Google Translate軟件在翻譯一些專有名稱時處理比較恰當(“縮略構(gòu)詞”除外)。在翻譯人名時,Google Translate軟件把“小明”和“歐陽”譯成“Xiaoming”和“Ouyang”,譯文比較規(guī)范??梢奊oogle Translate可以“根據(jù)人名的構(gòu)成規(guī)律從語法角度對人名進行分析、描述和標注,從而設(shè)計出有效的運算法則,讓系統(tǒng)能自動準確地區(qū)別姓與名”〔2〕。但是Google Translate軟件翻譯的例1~例6,就有待商榷了。例1~例6的漢語非常靈活,有一詞多義的情況存在,中文所表現(xiàn)的意思如果不是唯一的話,那么機器軟件翻譯出來的意思就有可能不是投遞簡歷者所想表達的意思,還有可能給投簡歷者帶來不必要的困惑,甚至可能帶來嚴重的后果。
從宏觀句法看,漢語中“同一詞類擔任多種語法成分且無形態(tài)變化,語法單位界限模糊,詞類和句法成分沒有明確的一一對應(yīng)關(guān)系,句子成分和語義關(guān)系也沒有明確的一一對應(yīng)關(guān)系,書面語沒有分詞連寫〔3~4〕?!睆奈⒂^詞性看,“漢字的詞性是隱性的,有些漢字在不同的語境表現(xiàn)出不同的詞性;不少漢字可以一詞多義或存在歧義”〔2〕。可見漢語各個層面上的歧義現(xiàn)象非常嚴重。在詞法層面上,漢語中存在不少多義詞、兼類詞和組合詞,而且漢語中詞與詞之間沒有空格或界線,因此機器切分詞語通常不準確,翻譯質(zhì)量就受到極大地影響。在句法層面上,連動句式、兼語句式、無主句、形容詞謂語句及名詞謂語句等的大量應(yīng)用妨礙了機器正確判斷句子的結(jié)構(gòu)和成分,影響了翻譯結(jié)果的準確性和可讀性。在語義層面上,漢語中很多表達沒有明顯的時態(tài)標志,名詞也沒有明顯的單復(fù)數(shù)標志,需要機器根據(jù)語境或語義判定,這又正是絕大多數(shù)漢英機器翻譯系統(tǒng)難以實現(xiàn)的。
除此之外,省略結(jié)構(gòu)、意譯表達方式的存在也給機器翻譯帶來了新的難度。比如,例1中“指導(dǎo)”、“練習(xí)”和“打”皆為動詞,但翻譯成英語時三個動詞的時態(tài)卻不一樣。例2中“聽說”在漢語中既可是名詞,又可是動詞,而翻譯為英文時卻只翻名詞的意思,即“聽力和口語”。例3中“成都大學(xué)畢業(yè)生”有歧義,可理解為“成都大學(xué)的畢業(yè)生”或“成都的大學(xué)畢業(yè)生”。例4中“跟單”是商業(yè)貿(mào)易常用詞匯,“單”不能翻譯成single,應(yīng)該是business coordinator或者trade merchandiser。此外,“單”可以讀shàn,“單助理”可理解為姓“單”的“助理”。例5中“通過”是動詞,“注冊”是定語修飾“會計師”。例6也有歧義,如果“領(lǐng)導(dǎo)”是動詞,意思是“承擔臨時安排的任務(wù)”;如果“領(lǐng)導(dǎo)”是名詞,其含義是“上級(給下級)臨時安排的任務(wù)”。
可見,機器翻譯系統(tǒng)給出的例1~例6的譯文都不準確。也就是說,機器翻譯要“將表達靈活多變的漢語通過機器自動翻譯的方式轉(zhuǎn)化為語法邏輯嚴謹?shù)挠⒄Z,在詞法、句法和語義三個層面上都存在諸多不利因素,以及知識抽取不易和單向式的系統(tǒng)設(shè)計等”〔5〕問題,很難實現(xiàn)高質(zhì)量漢英機器翻譯。要解決上述問題,我們可以引入“受限語言”的理念,約束語言的多義或歧義現(xiàn)象,通過計算機標注來增強機器翻譯系統(tǒng)對漢語的理解?!安捎檬芟薜姆椒梢栽诓桓淖儸F(xiàn)有算法的基礎(chǔ)上較大地提高翻譯的正確率及可讀性,具有較好的使用價值。”〔6〕比如,加拿大Montreal大學(xué)開發(fā)的TaumMeteo系統(tǒng),由于專業(yè)領(lǐng)域選擇得當,所用的詞匯大約只有1500個不同的單詞,而且半數(shù)是地名,系統(tǒng)的詞匯歧義(多義詞)就很小,即使是多義詞,因領(lǐng)域的限制,所以在特定的領(lǐng)域中也沒有歧義〔7〕??梢娫跈C器翻譯軟件中使用“簡歷受限漢語”有助于解決上述簡歷翻譯中的一些問題。
二、簡歷中的受限漢語和句模建立 從上文機器翻譯簡歷的示例來看,目前機器翻譯仍然很難將任意文本自動從一種語言生成為另外一種語言。這是因為“計算機的翻譯是建立在串行二值邏輯的基礎(chǔ)上的緣故,它沒有思維、判斷、推理能力,只能是在限定的范圍內(nèi)進行一對一的選擇”〔8〕。這里所說的“限定的范圍”即是簡歷這樣的特定領(lǐng)域,特定領(lǐng)域需要使用受限語言,在簡歷中使用受限漢語有助于機器翻譯系統(tǒng)對漢語的理解和翻譯。“受限漢語是一種受限語言,它是對漢語施加限制,構(gòu)造一個或一組有一定表現(xiàn)能力且語法簡單、容易消除歧義的漢語子集?!薄?〕換言之,受限漢語就是在詞法、句法和語義等方面受到某些限制的漢語子集,它能從詞匯、語用、語義和句法四個方面減少或消除歧義。
對于機器翻譯來說,句子成分越復(fù)雜,句法分析越困難,譯文質(zhì)量越差。因此,簡化句子的復(fù)雜程度可以增強機器翻譯系統(tǒng)對漢語的理解。簡歷受限漢語的結(jié)構(gòu)應(yīng)該是“相對簡單和整齊劃一的”,應(yīng)該是“加以嚴格限制的,基本上做到一詞一義,盡量避免多義詞或近義詞”,句法與語義之間的聯(lián)系應(yīng)該“盡量一一對應(yīng)”〔10〕。
此外,句模策略也是簡化句子結(jié)構(gòu)、避免多義或歧義、使句法與語義一一對應(yīng)的方法。構(gòu)建受限漢語“句?!笨梢詭椭鷻C器翻譯消除歧義,“在句法和語義的層面上,對受限漢語有更加深刻全面的認識”〔10〕。
“句?!敝傅氖蔷渥幽K或句型,機器翻譯例句庫的每個例句都有一個句模與其對應(yīng)。比如,上述例句中含有短語模塊:
短語: 打 籃球
模塊:〔動作〕+〔對象〕
短語: 德語 聽說
模塊:〔語言〕+〔技能〕
在句法層面上,每個句模由時間模塊、動作模塊和空間模塊數(shù)個“模塊”組成。比如:
句子:2001年9月至2005年7月 就讀于 西南交通大學(xué)外國語學(xué)院
句模:〔時間模塊〕+〔動作模塊〕+〔空間模塊〕
句子:2001年9月至2005年7月 在西南交通大學(xué)外國語學(xué)院 學(xué)習(xí)
句模:〔時間模塊〕+〔空間模塊〕+〔動作模塊〕
簡歷通常包括以下內(nèi)容:個人信息、求職意向、教育背景、工作經(jīng)歷、成績榮譽和技能專長。有時也有附加信息,如:相關(guān)課程、參加活動和推薦人信息等。根據(jù)以上簡歷中的受限漢語和“句?!碧攸c,我們可以在機器翻譯系統(tǒng)中構(gòu)建如下句模:
(1)就讀于四川省成都市西南交通大學(xué)外國語學(xué)院英語專業(yè)
(2)榮獲西南交通大學(xué)“優(yōu)秀畢業(yè)生”稱號
(3)精通英語聽說讀寫
每一個句模由“固定部分”和“可變部分”構(gòu)成。上面句模中帶下劃線的為“可變部分”,即可以被替換;其他部分為固定內(nèi)容。其實句模中的“固定部分”也就是簡歷受限領(lǐng)域里的專業(yè)術(shù)語。因此簡化后的句模為:
(1)就讀于 省 市 (學(xué)校) (院/系) 專業(yè)(教育背景)
(2)榮獲 (學(xué)校) 稱號(獎勵榮譽)
(3)精通 聽說讀寫(外語水平)
句模(1)可以擴展為“工作于 (單位名稱)”或“在 (單位名稱)工作”,在簡歷的“工作經(jīng)歷”板塊中使用。句模(2)可以擴展為“榮獲 獎學(xué)金”;句模(3)也可以擴展為“基本掌握 ”或“熟練運用 ”,用來描述個人的外語水平或其他技能。相對而言,機器翻譯系統(tǒng)比較容易處理以上類似句模,還能按句模的結(jié)構(gòu)進行詞序的部分調(diào)整,從而提高翻譯的準確性。
總之,簡歷機器翻譯系統(tǒng)中的所有句模應(yīng)當預(yù)先分析,添加內(nèi)部標注。每個句模如何分塊,每個語塊應(yīng)承擔什么語法功能和語義角色,這對計算機來說都是較容易的。句模的最大優(yōu)勢就是幫助機器翻譯系統(tǒng)解決了對句子總體結(jié)構(gòu)把握不住的問題,因此,按照這些句模寫出來的句子計算機完全能“讀懂”,簡歷機器翻譯系統(tǒng)就能運行順暢,譯文質(zhì)量也能得到提高。
三、簡歷機器翻譯系統(tǒng)的運行和推廣 基于以上有關(guān)簡歷受限漢語的論述,我們可以設(shè)計出簡歷漢英機器翻譯系統(tǒng),以滿足漢語簡歷翻譯的需要。翻譯界對機器翻譯系統(tǒng)進行了大量開發(fā),早期有直接翻譯法、轉(zhuǎn)換法和中間語言法,后來又出現(xiàn)了“基于規(guī)則”的翻譯方法,“基于實例”和“基于統(tǒng)計”的方法,也有人提出基于混合策略的機器翻譯方法〔11~12〕。這些方法各有優(yōu)劣,對機器翻譯的研究和發(fā)展都有不同程度的影響。簡歷機器翻譯系統(tǒng)的開發(fā)應(yīng)當綜合上述各種翻譯方法的優(yōu)點,以受限漢語“句?!睘榛A(chǔ),以“統(tǒng)計翻譯法”為主導(dǎo),結(jié)合“基于句?!焙汀盎谟洃洝钡姆g方法來進行。統(tǒng)計機器翻譯方法是目前國際上領(lǐng)先的機器翻譯技術(shù),它克服了傳統(tǒng)規(guī)則翻譯方法的諸多弊端?!盎诰淠!钡姆g方法便于計算機系統(tǒng)處理具有相似模式的句子,這是因為簡歷中經(jīng)常會包含一些固定句型。“基于記憶”的翻譯方法可以把簡歷翻譯過的正確句子批量添加到記憶庫中,在機器翻譯過程中,如果記憶庫中存在相同的句子,系統(tǒng)就可以迅速搜索并輸出對應(yīng)譯文,從而節(jié)省時間精力,保證譯文質(zhì)量。此外,簡歷機器翻譯系統(tǒng)還應(yīng)當建立一個包括簡歷常用詞語的“受限漢語詞庫”,收錄一些常見地名、校名以及專業(yè)名稱等,增強機器翻譯系統(tǒng)的“文化水平”,以有利于提高翻譯的準度和精度。
如圖1所示,在“輸入漢語原文”之后,機器翻譯系統(tǒng)首先查找翻譯記憶庫,如果記憶庫中存儲的譯文正好與原文一致,系統(tǒng)就跳過“語言語法分析”等步驟,直接輸出記憶庫中的譯文;如果系統(tǒng)里沒有與之匹配的現(xiàn)成譯文,機器翻譯系統(tǒng)則對漢語原文進行詞語切分和標注等“語言語法分析”,然后與句模和例句庫匹配,運用統(tǒng)計翻譯法,結(jié)合各類翻譯模型和語言模型,最后輸出比較準確的英語簡歷譯文。
簡歷機器翻譯系統(tǒng)運行流程綜上所述,本文以簡歷中的受限漢語為出發(fā)點,結(jié)合機器翻譯簡歷的難點與受限漢語句模的特點,討論了簡歷受限漢語和句模在機器翻譯系統(tǒng)中得以應(yīng)用的可行性和策略,目的是讓簡歷機器翻譯系統(tǒng)幫助我們實現(xiàn)自動翻譯,以輸出質(zhì)量較高的譯文。本文的研究意義在于:一是能否在此研究基礎(chǔ)上進一步開發(fā)用于書寫個人簡歷的“受限漢語寫作器”,讓計算機輔助用戶在受限漢語“句?!钡募s束下寫出自己的漢語簡歷,然后由簡歷機器翻譯系統(tǒng)翻譯成地道的英文簡歷;二是將簡歷機器翻譯的模式進行推廣,可以在多個特殊領(lǐng)域研發(fā)受限漢語的機器翻譯系統(tǒng),比如:飯店訂餐和預(yù)訂房間等。由于這些領(lǐng)域的漢語與簡歷中的受限漢語有不少共性,諸如菜單、就餐或入住時間、預(yù)訂人數(shù)和房間號等信息都比較簡潔,句式也不復(fù)雜,因此也能根據(jù)上述原則開發(fā)機器翻譯系統(tǒng)。這些受限漢語的機器翻譯研究對于中外合作與交流都有一定的理論和實踐意義。
參考文獻:
〔1〕馮志偉.澄清對機器翻譯的一些誤解〔J〕.現(xiàn)代語文,2004,(5):36.
〔2〕KamFaiWong,Wenjie Li,Ruifeng Xu and Zhengsheng Zhang.Introduction to Chinese Natural Language Processing〔M〕.Lexington:Morgan Claypool Publishers,2010:33-39.
〔3〕劉海濤.機器翻譯不僅僅是機器+翻譯〔J〕.中國科技翻譯,2005,(4):59-61.
〔4〕俞士汶,朱學(xué)鋒.受限漢語研究的必要性〔J〕.語言現(xiàn)代化論從,1997,(3):32.
〔5〕王 丹,李 進.機器翻譯:現(xiàn)狀與展望〔J〕.專利文獻研究,2008,(3):6.
〔6〕劉 群,俞士汶.漢英機器翻譯的難點分析〔EB/OL〕.(19980101)〔20110105〕.http://ccl.pku.edu.cn/doubtfire/NLP/Machine_Translation/Difficulities_of_MT/paper98-7.htm.
〔7〕徐 波,孫茂松,靳光瑾.中文信息處理若干重要問題〔M〕.北京:科學(xué)出版社,2003:45.
〔8〕肖 靜.機器翻譯的若干問題〔EB/OL〕.(20100311)〔20110123〕.http://www.yywzw.com/show.aspx?id=1644cid=152.
〔9〕陳 云.基于受限漢語和模塊組合的自動程序設(shè)計研究〔D〕.重慶:重慶大學(xué)計算機學(xué)院,2008:4.
〔10〕馮志偉.“受限漢語”研究與信息技術(shù)〔J〕.中文信息,1997,(2):29-31.
〔11〕劉 群.機器翻譯研究新進展〔J〕.當代語言學(xué),2009,(2):147.
〔12〕馮志偉.機器翻譯今昔談〔M〕.北京:語文出版社,2007:38-44.
(責任編輯:楊 珊)