焦育玲
摘 要: 由于漢語(yǔ)與英語(yǔ)有不同的特點(diǎn),導(dǎo)致機(jī)器翻譯時(shí)把漢語(yǔ)當(dāng)做源語(yǔ)言要比把英語(yǔ)當(dāng)做源語(yǔ)言要困難得多。本文試圖從漢英機(jī)器翻譯的角度探討漢語(yǔ)自動(dòng)分析的難點(diǎn),包括詞法分析、句法分析和漢英轉(zhuǎn)換中的難點(diǎn)。
關(guān)鍵詞: 計(jì)算機(jī)翻譯 Systran 詞語(yǔ)切分 未登錄詞
在我國(guó),外漢機(jī)器翻譯系統(tǒng),特別是英漢機(jī)器翻譯系統(tǒng)的研制已經(jīng)取得較大的成功,達(dá)到初步實(shí)用的水平,并且推出不少實(shí)用系統(tǒng),如“譯星”、“漢神”、“通譯”等。但漢外機(jī)器翻譯,特別是漢英機(jī)器翻譯的研究卻進(jìn)展緩慢,離實(shí)用化還有一定的距離。例如要把英文句子“We should do our utmost to achieve our goalin life.”翻譯為中文,機(jī)器一般可以翻譯得較為準(zhǔn)確,但是要把漢語(yǔ)句子“他踢壞了三雙鞋?!狈g為英文,機(jī)器有的翻譯為“He plays three pairs of evil shoes.”,有的翻譯為“He kicked three pairs of shoes bad.”,還有的翻譯為“Him kick spoil 3 pairs of shoes.”。這些軟件翻譯的問(wèn)題主要存在于詞法、句法和語(yǔ)法幾個(gè)方面。
1.詞法分析的難點(diǎn)
1.1詞語(yǔ)切分
漢語(yǔ)的書(shū)面形式是字與字之間的連續(xù)書(shū)寫(xiě),詞與詞之間沒(méi)有自然的界限,因此,漢語(yǔ)的自然語(yǔ)言理解首先要解決詞的自動(dòng)切分問(wèn)題,而詞的自動(dòng)切分中,交集型歧義和組合型歧義是不可避免的。即使把交集型歧義和組合型歧義解決得比較好,要把漢語(yǔ)的自動(dòng)切詞正確率提高到99%也是一個(gè)相當(dāng)困難的事情。而且漢語(yǔ)的自動(dòng)切詞正確率即使達(dá)到99%,對(duì)于機(jī)器翻譯來(lái)說(shuō)也是不夠的。因?yàn)闄C(jī)器翻譯系統(tǒng)不是以詞為單位的,一般是以句子為單位進(jìn)行處理的,這樣一個(gè)句子只要有一處切詞錯(cuò)誤,整個(gè)句子就很有可能面目全非。
1.2未登錄詞
未登錄詞指沒(méi)有被分詞詞表收錄的詞語(yǔ),包括人名、地名、機(jī)構(gòu)名等專(zhuān)有名詞和新出現(xiàn)的詞語(yǔ)。未登錄詞是不可窮盡登錄的,如人名、地名,幾乎可以看成是無(wú)限的,新詞也是不斷產(chǎn)生的。未登錄詞包括專(zhuān)名和非專(zhuān)名兩大類(lèi),專(zhuān)名包括人名、地名等,非專(zhuān)名包括新詞、簡(jiǎn)稱(chēng)、行業(yè)用語(yǔ)、部分習(xí)語(yǔ)、俗語(yǔ),等等。未登錄詞不僅在漢語(yǔ)中存在,英語(yǔ)中也存在未登錄詞,不過(guò),英語(yǔ)中的未登錄專(zhuān)名名詞有形式標(biāo)志,其首字母是大寫(xiě)的,但漢語(yǔ)中的未登錄詞不僅沒(méi)有形式標(biāo)注,而且組成漢語(yǔ)未登錄詞的漢字可能本身又是漢語(yǔ)詞,也就是說(shuō),漢語(yǔ)的未登錄詞容易與普通詞語(yǔ)混淆。
1.3詞表
英語(yǔ)中的詞是基本確定的,漢語(yǔ)中的詞卻很難確定,或者說(shuō)漢語(yǔ)中的詞沒(méi)有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。詞是最小的能夠獨(dú)立運(yùn)用的語(yǔ)法單位,語(yǔ)素是最小的語(yǔ)音語(yǔ)義結(jié)合體,短語(yǔ)是詞與詞按照一定語(yǔ)法規(guī)則構(gòu)成的語(yǔ)法單位。詞和語(yǔ)素、短語(yǔ)是不同層次和不同性質(zhì)的語(yǔ)法單位,但由于漢語(yǔ)中的詞和自由語(yǔ)素、短語(yǔ)都能單說(shuō)或單用,因此要分清詞、語(yǔ)素和短語(yǔ)比較麻煩。舉一個(gè)例子,“肉”是一個(gè)詞,“豬肉”、“雞肉”、“狗肉”傾向于是一個(gè)詞,“海豹肉”、“海豚肉”傾向于是一個(gè)短語(yǔ),“果子貍?cè)狻?、“貓頭鷹肉”就更傾向于是一個(gè)短語(yǔ)??梢钥闯觯瑵h語(yǔ)的詞的確認(rèn)是一個(gè)比較困難的事情,這是迄今為止國(guó)內(nèi)還沒(méi)有一個(gè)統(tǒng)一的供機(jī)器使用的詞表的原因,而詞表是自然語(yǔ)言處理的基礎(chǔ),機(jī)器翻譯中絕大多數(shù)知識(shí)和規(guī)則都依賴(lài)于詞表而建立,這樣就加大了漢語(yǔ)自動(dòng)分析的難度。
2.句法分析的難點(diǎn)
2.1核心動(dòng)詞的分析
對(duì)于句法分析而言,抓住謂語(yǔ)中心詞就意味著這個(gè)句子有可能分析準(zhǔn)確,如果連謂語(yǔ)中心詞都找錯(cuò)了,就意味著這個(gè)句子不可能分析準(zhǔn)確。例如“王先生邀請(qǐng)她一起開(kāi)車(chē)出去玩?!?,對(duì)這個(gè)句子進(jìn)行分詞、詞性標(biāo)注等預(yù)處理后得到:王/n先生/n邀請(qǐng)/v她/r一起/d開(kāi)21.720.9車(chē)/v出去/v玩/v。然而,其中有可能充當(dāng)謂語(yǔ)中心詞的有:“邀請(qǐng)”、“開(kāi)車(chē)”、“出去”、“玩”。由于漢語(yǔ)屬于分析語(yǔ)言,缺乏明顯的形態(tài)標(biāo)記,在這些詞中選出一個(gè)正確的謂語(yǔ)中心詞,是一個(gè)非常復(fù)雜的問(wèn)題。
2.2特殊結(jié)構(gòu)的處理
漢語(yǔ)中的某些特殊結(jié)構(gòu)是漢譯英系統(tǒng)較為棘手的問(wèn)題,包括連動(dòng)式、兼語(yǔ)式、受事主語(yǔ)句、主謂謂語(yǔ)句、名詞謂語(yǔ)句、動(dòng)補(bǔ)式等。連動(dòng)式由若干個(gè)動(dòng)詞或動(dòng)詞短語(yǔ)相互連接,沒(méi)有明顯的形式標(biāo)志,機(jī)器往往難于確定其中的主要?jiǎng)釉~,如果主要?jiǎng)釉~的判定有誤,整個(gè)結(jié)構(gòu)的分析必定失敗。
2.3標(biāo)點(diǎn)符號(hào)的影響
現(xiàn)有的機(jī)器翻譯系統(tǒng)一般都是以句子為單位進(jìn)行翻譯的,但是要確認(rèn)漢語(yǔ)的句子卻不是一件簡(jiǎn)單的事情。漢語(yǔ)“句子”的隨意性太大,短的可以只有一個(gè)詞(獨(dú)詞句)或一個(gè)短語(yǔ),長(zhǎng)的句子可以是一個(gè)復(fù)句,甚至可以是一個(gè)段落。這樣,當(dāng)遇到一個(gè)特別長(zhǎng)的漢語(yǔ)句子時(shí),如果作為一個(gè)整體處理,往往會(huì)帶來(lái)巨大的時(shí)空開(kāi)銷(xiāo),而且這樣做增加了分析的難度;而分成幾個(gè)小句來(lái)處理,又難以準(zhǔn)確地?cái)嗑?。也就是說(shuō),漢語(yǔ)由于沒(méi)有形態(tài)變化,導(dǎo)致從句和分句沒(méi)有明顯的差異。
3.轉(zhuǎn)換過(guò)程中的難點(diǎn)
由于漢語(yǔ)是一種缺乏嚴(yán)格意義上形態(tài)變化的語(yǔ)言,而英語(yǔ)卻有形態(tài)變化,因此漢英機(jī)器翻譯中,漢語(yǔ)轉(zhuǎn)換為英語(yǔ)的過(guò)程存在多種“從無(wú)到有”的選擇。以下是在漢英機(jī)器翻譯中遇到的最常見(jiàn)的幾種比較難解決的轉(zhuǎn)換問(wèn)題。
3.1冠詞問(wèn)題
漢語(yǔ)沒(méi)有冠詞,英語(yǔ)的名詞或名詞短語(yǔ)往往要加上冠詞,冠詞又分為零冠詞、定冠詞和不定冠詞三種情況。這樣從漢語(yǔ)的“無(wú)”冠詞到英語(yǔ)的“有”冠詞,翻譯時(shí)需要確認(rèn)究竟是零冠詞,還是定冠詞或不定冠詞。
3.2單復(fù)數(shù)問(wèn)題
漢語(yǔ)的名詞或名詞短語(yǔ)沒(méi)有單復(fù)數(shù)形式,只有“們”等后綴可以勉強(qiáng)充當(dāng)形式標(biāo)志,但英語(yǔ)的名詞或名詞短語(yǔ)卻存在單復(fù)數(shù)。這樣從漢語(yǔ)的“無(wú)”單復(fù)數(shù)到英語(yǔ)的“有”單復(fù)數(shù),翻譯時(shí)需要確認(rèn)究竟把漢語(yǔ)中的名詞或名詞短語(yǔ)翻譯為英語(yǔ)中的單數(shù)還是復(fù)數(shù)。
3.3時(shí)態(tài)問(wèn)題
漢語(yǔ)沒(méi)有時(shí)態(tài),只有一些可以有助于顯示時(shí)態(tài)的助詞(如“著”、“了”、“過(guò)”)、副詞(如“將要”、“馬上”、“正在”)和時(shí)間名詞(如“現(xiàn)在”、“從前”、“目前”)等,不過(guò),這些標(biāo)志詞語(yǔ)并不是嚴(yán)格意義上的時(shí)態(tài)標(biāo)記,如“了”有時(shí)翻譯為過(guò)去時(shí),有時(shí)翻譯為完成時(shí)、過(guò)去完成時(shí),有時(shí)甚至不表示任何時(shí)態(tài);英語(yǔ)動(dòng)詞卻有時(shí)態(tài),這樣從漢語(yǔ)的“無(wú)”明顯時(shí)態(tài)到英語(yǔ)的“有”時(shí)態(tài),翻譯時(shí)要確認(rèn)究竟把漢語(yǔ)中的動(dòng)詞或動(dòng)詞短語(yǔ)翻譯為英語(yǔ)中的現(xiàn)在時(shí)、過(guò)去時(shí)還是將來(lái)時(shí)。
2.4.4語(yǔ)式問(wèn)題
語(yǔ)式是表示句子的語(yǔ)氣或情態(tài)的語(yǔ)法范疇,一般通過(guò)動(dòng)詞的形態(tài)變化區(qū)分陳述式、命令式、虛擬式、愿望式等。漢語(yǔ)沒(méi)有語(yǔ)式,英語(yǔ)中表示與事實(shí)相反的假設(shè)或個(gè)人主觀愿望時(shí),要使用虛擬式。這樣從漢語(yǔ)的“無(wú)”明顯語(yǔ)式到英語(yǔ)的“有”語(yǔ)式,翻譯時(shí)需要確認(rèn)究竟把漢語(yǔ)翻譯為英語(yǔ)中的陳述式還是虛擬式。
4.結(jié)語(yǔ)
從上面的分析可以看出,不管是詞法分析、句法分析,還是源語(yǔ)言向目標(biāo)語(yǔ)言的轉(zhuǎn)換,把漢語(yǔ)譯為英語(yǔ)都存在“從無(wú)到有”的困難。正是因?yàn)樵跐h英機(jī)器翻譯中,除了一般機(jī)器翻譯(如英漢機(jī)器翻譯)都存在的一些困難(如一詞多義、結(jié)構(gòu)歧義、語(yǔ)義歧義、語(yǔ)境因素等)之外,還存在這些“從無(wú)到有”的困難,這些特殊的困難幾乎分布于翻譯的各個(gè)階段,導(dǎo)致機(jī)器翻譯中把漢語(yǔ)當(dāng)做源語(yǔ)言要比把英語(yǔ)當(dāng)做源語(yǔ)言要困難得多。
參考文獻(xiàn):
[1]劉群,俞士汶.漢英機(jī)器翻譯的難點(diǎn)分析.載黃昌寧主編.1998中文信息處理國(guó)際會(huì)議論文集.清華大學(xué)出版社,1998.
[2]常寶寶,劉穎,劉群.漢英機(jī)器翻譯中的冠詞處理研究.中文信息學(xué)報(bào),1998(3).
本文為安康學(xué)院AYQDRW201216項(xiàng)目成果。