劉美平
(北京大學(xué) 哲學(xué)系,北京 100871)
機(jī)器翻譯中引入“詞化”模式的初步設(shè)想
劉美平
(北京大學(xué) 哲學(xué)系,北京 100871)
機(jī)器翻譯作為自然語言處理的重要分支領(lǐng)域,涉及語言、數(shù)學(xué)和計算機(jī)等學(xué)科。目前機(jī)器翻譯的譯文質(zhì)量并不理想,尤其是對漢語動結(jié)式的處理?!霸~化”模式理論或可用于改善漢語動結(jié)式語義自動分析,提高機(jī)器翻譯的質(zhì)量。本文就此提出一項初步解決方案。
機(jī)器翻譯 “詞化”模式 動結(jié)式語義分析
當(dāng)前機(jī)器翻譯的譯文質(zhì)量還很難達(dá)到實際應(yīng)用的要求,有悲觀論調(diào)認(rèn)為幾十年內(nèi)都難有大的突破。“計算機(jī)領(lǐng)域的人工智能、機(jī)器翻譯等都需要精準(zhǔn)的語言規(guī)律。要讓機(jī)器理解自然語言、模仿自然人思考,必須準(zhǔn)確揭示語言的運作原理及相關(guān)的具體規(guī)律。目前這些領(lǐng)域的進(jìn)展尚不能盡如人意,其根源則在于語言研究的滯后,自然語言中的很多規(guī)律尚未搞清楚”(石毓智,2010)。其實問題不僅在語言規(guī)律的探索,已有語言知識實用價值的轉(zhuǎn)化也亟待提高。本文將就“詞化”模式理論對提高漢譯英譯文質(zhì)量等問題進(jìn)行探討。
“詞化”模式理論提出不同語言的動詞所表達(dá)的事件信息存在差異,據(jù)此可進(jìn)行語言類型劃分。該理論把詞匯區(qū)分為開放與封閉兩大類,前者主要指動詞、名詞和形容詞等實詞,其余都可歸入后者。封閉類詞匯主要用于構(gòu)建概念框架,實詞則為相應(yīng)的框架提供概念內(nèi)容。在表達(dá)運動事件時,一些封閉詞類作為動詞的衛(wèi)星語素起作用。英語中的衛(wèi)星語素是與動詞詞根有姊妹關(guān)系的成分,但不包括做補語的名詞和介詞短語,大致相當(dāng)于小品詞(verb particle)。這些詞在形式上與動詞區(qū)別明顯(一般是副詞或動詞前綴),比如:
He ran across\along\through\past\by.
The bolt must have unscrewed(from the plate).
漢語也有與動詞相互配合的衛(wèi)星語素成分,如述補結(jié)構(gòu)中的補語,常常是一類動詞或者形容詞。例如:大風(fēng)吹垮了房子。其中“吹”作為表達(dá)運動的動詞,另一動詞“垮”充當(dāng)補語。英語衛(wèi)星語素多用于表達(dá)運動事件的路徑,通常表現(xiàn)為一個衛(wèi)星語素加介詞的組合,如:I ran out of the house.衛(wèi)星成分也可不依賴介詞單獨出現(xiàn),如:(After rifling through the house,)I ran out.當(dāng)然,有些語言通過動詞表達(dá)路徑,比如:法語、西班牙語、日語等。
語言模式的劃分還與事件整合類型學(xué)相關(guān)。這一理論提出概念的深層組織與表層語言現(xiàn)象相對,可分析成基本的事件復(fù)合體——“宏事件”(The Macro-event)。復(fù)合體中包括主事件和伴隨事件。前者在整個事件中起到框架設(shè)置的作用,因此被稱為“框架事件”(Framing Event)。伴隨事件指與框架事件相伴發(fā)生的事件。據(jù)框架事件的意義結(jié)構(gòu)可把“宏事件”分為五種類型:運動事件、狀態(tài)的改變、體相、行為相關(guān)及實現(xiàn)。分別示例簡介如下:運動事件中的路徑:The ball rolled in./體相中的體:They talked on./狀態(tài)變化中的性質(zhì):The candle blew out./行為相關(guān)事件中的相互關(guān)系:She sang along./實現(xiàn)事件中的完成:The police hunted the fugitive down.事件的語義層面和語言形式表達(dá)都可以分析為多種獨立成分。意義層面包括運動、路徑、焦點和背景等;語言形式涉及動詞、附置詞和衛(wèi)星語素等。兩個層面之間存在系統(tǒng)性對應(yīng),只不過并未在總體上展現(xiàn)出規(guī)整的一一對應(yīng),通常是一對多或者多對一的關(guān)系。根據(jù)對應(yīng)的具體情況便可以實現(xiàn)上述的語言類型劃分。
借助動詞(可以是表達(dá)運動語義的動詞,也可以是表達(dá)處所或者位置等的詞)描述的典型運動事件,其主事件(框架事件)在意義層面同樣可以分析出四種成分:焦點:運動體;背景:焦點運動的參照體;路徑:焦點所經(jīng)過的路線或所占的地點;運動。另外還包括與伴隨事件相關(guān)的非中心元素,分為以下兩種:方式:焦點運動的方式。使因:致使焦點產(chǎn)生運動。核心動詞一般同時對運動主事件和伴隨事件進(jìn)行表征。伴隨事件則可以對運動主事件的方式、使因等給出附加描繪。因為主事件(框架事件)中的路徑提供了對“宏事件”抽象框架的表征,從而被稱為框架事件的核心圖式(Core Schema)。其余的語義元素(焦點、運動、背景等)可以被填充入這一框架。核心圖式可通過動詞表達(dá),也可通過衛(wèi)星語素,這直接導(dǎo)致“詞化”模式的差異。具體來說,動詞表征的語義成分可以是運動+路徑,也可以是運動+方式或者運動+原因。比如在英語中:The bottlefloated out of the cave.其中動詞float對運動和方式同時進(jìn)行了編碼:The bottle moved out of the cave with-the-manner-of The bottle floated.路徑通過衛(wèi)星語素與介詞的組合“out of”表達(dá)出來。與此相對,西班牙語描述同樣的意義時其表層語言形式為:La botella salióde la cueva flotando.形式上對譯為英語為:The bottle exited from the cave,floating.動詞exit編碼的是運動+路徑,方式則通過分詞形式floating表達(dá)出來,并沒有被并入核心動詞。上述西班牙語句在字面上對譯出的英語句子表現(xiàn)得明顯不自然,所以不屬于英語通常的表達(dá)方式。兩大語言類型(動詞框架語言和衛(wèi)星語素框架語言)的區(qū)分正是基于這種差異,區(qū)分標(biāo)準(zhǔn)在于框架事件的核心圖式是由語句中的動詞還是衛(wèi)星語素表達(dá)的。衛(wèi)星語素框架語言在使用動詞表達(dá)框架事件的同時常常對伴隨事件加以描繪,而核心圖式一般通過其他衛(wèi)星語素表達(dá)。在這類語言中,通過分析動詞的語義結(jié)構(gòu)就可以推出伴隨事件。這種語義推理示例如下:
方式類伴隨事件
Nonagentive(非施事性語句):The rope hung across the canyon from two hooks.=The rope was across the canyon withthe-manner-of The rope hung from two hooks.
Agentive(施事性語句):I bounced the keg into the storeroom.=I moved the keg into the storeroom with-the manner-of I bounced the keg.
使因類伴隨事件
Nonagentive:The napkin blew off the table.=The napkin moved off the table with-the-cause-of Something blew on the napkin.
Agentive:I kicked the keg into the storeroom.=I moved the keg into the storeroom with-the-cause-of I kicked the keg.
基于句法規(guī)則的自然語言處理方案較為依賴規(guī)范性語言研究。但句法形式與語義結(jié)構(gòu)之間并不存在嚴(yán)格的同構(gòu)關(guān)系,詞匯意義的豐富性遠(yuǎn)大于包括詞匯形態(tài)在內(nèi)的表層語言形式。形式與意義在復(fù)雜性上的不對等直接導(dǎo)致同一句法形式可以表示差別極大的意義結(jié)構(gòu)。自然人之間實現(xiàn)復(fù)雜意義交互的基礎(chǔ)在于,每個自然人都通過“具身經(jīng)驗”儲存了相對自足的關(guān)于詞匯的語義信息。上述句法和語義之間的對應(yīng)問題不可能局限在形式領(lǐng)域內(nèi)部得到解決,這屬于一類在形式上不能自足的語言現(xiàn)象。這類語言知識的歸納整理工作量非常繁重,當(dāng)前主流的研究傾向于使用統(tǒng)計方法。只不過統(tǒng)計研究說到底還是需要基于特定的統(tǒng)計模型,由于統(tǒng)計模型必須由自然人基于語言知識構(gòu)建,最終還是繞不開語言知識的歸納整理。“以多義現(xiàn)象分析為例,從目前已經(jīng)開發(fā)的系統(tǒng)來看,大約50%到70%的多義語言現(xiàn)象可以通過單純的句法分析來解決,而其余30%的多義語言現(xiàn)象必須通過語義分析甚至語用分析才能解決……”(馮志偉,2012)。這類層級結(jié)構(gòu)通常是基于自然人往返交互的語言實踐并通過約定俗成產(chǎn)生的,既有認(rèn)知的理據(jù)性,又無法排除實踐中的偶然因素,只能通過理清語言形式背后的認(rèn)知原理才可以解釋清楚。形式主義語言研究傾向于由相對抽象的語言規(guī)則統(tǒng)攝具體的語言現(xiàn)象,在追求抽象規(guī)律時丟掉了太多具體意義,不能很好地解釋表層結(jié)構(gòu)與語義內(nèi)涵的對應(yīng)模式。語言習(xí)得研究表明,任何一個兒童都無法單獨依賴抽象語言模式掌握語法。兒童要掌握一種語言的語法結(jié)構(gòu),不僅要通過觀察現(xiàn)實中的事件結(jié)構(gòu),而且要在長期的語言實踐中不斷積累才可以掌握大量約定俗成的搭配方式。這些具體搭配作為固定的語言單位儲存在語言使用者的記憶中,高度依賴隨機(jī)經(jīng)驗,不可能靠規(guī)則臨時產(chǎn)生。“生成學(xué)派夸大了語言規(guī)律的能產(chǎn)性,而低估了語言中廣泛存在的約定俗成的用法,而且忽略了人們記憶的巨大潛力”(石毓智,2010)。我們認(rèn)為,通過將相關(guān)語言知識編輯成機(jī)器詞典的方式可以為機(jī)器注入“記憶”。
語言對于經(jīng)驗的依賴性體現(xiàn)為:任何語言的語法結(jié)構(gòu)都不是無限能產(chǎn)的,特定語法結(jié)構(gòu)對于語言中同一類屬的詞匯有些可以很好地適配,有些則不可以。判斷可行與否的依據(jù)都需要在經(jīng)驗中獲取。另外,由于不同語言表層形式的差異,包括“詞化”模式的差異,任何兩種語言之間都很難在詞匯層面實現(xiàn)一一對應(yīng)。比如:漢語中“哭啞”,如果將其視為一個整體的復(fù)合動詞,在英語中就找不到可以直接對應(yīng)的單詞,必須通過“cry”和“hoarse”的組合才可以較為恰當(dāng)?shù)姆g。筆者嘗試了百度翻譯和google翻譯對“他哭啞了嗓子”這一語句的翻譯,最終得出的結(jié)果分別為“He cried and cried.”和“He cried hoarse.”兩者都不能很好地把漢語詞義恰當(dāng)?shù)胤g為英語?!八皢×松ぷ印钡姆g結(jié)果相對較為理想,都是“He shouted himself hoarse.”。究其原因:英語中有一個和漢語“喊啞”基本對應(yīng)的慣用語“shout oneself hoarse”,實現(xiàn)了詞匯層面的直接對應(yīng),互譯中才表現(xiàn)出高度的切合。所以,當(dāng)前的機(jī)器翻譯在很大程度上仍然依賴不同語言詞匯層面的直接對應(yīng)。漢英兩種語言在“詞化”模式上又存在較大差別,很難實現(xiàn)詞匯層面的直接匹配,這便是當(dāng)前機(jī)翻譯文的質(zhì)量不高的一個主要原因。語言表層形式的差異體現(xiàn)的是語言使用群體深層概念化模式的差異,概念化模式正是認(rèn)知語義學(xué)的核心議題。從認(rèn)知語義學(xué)角度展開的漢語研究已經(jīng)持續(xù)了數(shù)十年,目前已有的很多理論成果對工程領(lǐng)域的技術(shù)提高而言可資借鑒之處頗多。
機(jī)器翻譯漢譯英一旦遇到動結(jié)式,往往就會生成一些莫名其妙的英語結(jié)構(gòu),可見當(dāng)前的處理方案還不能恰當(dāng)?shù)胤治鰟咏Y(jié)式的復(fù)雜語義結(jié)構(gòu)。語言學(xué)領(lǐng)域并不缺少對動結(jié)式語義結(jié)構(gòu)的研究,只是還未能被工程領(lǐng)域充分吸收利用。為達(dá)成對動結(jié)式語義結(jié)構(gòu)的自動分析,從述語動詞意義和補語意義整合來的動結(jié)式整體的意義必須得到精確的描述,并通過形式化的方式表達(dá),最終才能實現(xiàn)句法層面的機(jī)器操作。“詞項”的語義可以簡單也可以復(fù)雜,由于語義的組合性,“復(fù)雜詞項”的意義結(jié)構(gòu)通常都可以分解成“簡單詞項”意義結(jié)構(gòu)的特定組合。動結(jié)式的意義結(jié)構(gòu)就是如此,通過分解可實現(xiàn)與底層述語和補語動詞意義結(jié)構(gòu)的對應(yīng)。
動結(jié)式表達(dá)的“致役事件”通常包含參與者、事件發(fā)生的方式及造成的結(jié)果等語義信息?!霸跐h語復(fù)合動詞的構(gòu)造中,動作的方式或達(dá)到某一結(jié)果的途徑和動作的結(jié)果是比較凸顯的語義因素。漢語復(fù)合動詞的優(yōu)勢語義模式可以概括為:方式或途徑+行為或結(jié)果”(董秀芳,2005)。上述概括可更詳細(xì)地表述為:方式+行為、途徑+結(jié)果,分別對應(yīng)狀中式復(fù)合詞和動結(jié)式復(fù)合詞。就動結(jié)式來看,述語動詞一般表示達(dá)成結(jié)果的途徑。 如:“撞開”、“踢開”、“撬開”、“推開”,結(jié)果動詞“開”前的述語動詞就表達(dá)了達(dá)成這一結(jié)果的途徑,或者說原因;補語動詞則表達(dá)引發(fā)的結(jié)果,如:“開”。事實上,因為動結(jié)式的存在,整個漢語系統(tǒng)對信息的組織都表現(xiàn)為非 “伴隨特征+謂語中心+結(jié)果狀態(tài)”這一總體模式。由于不同語言之間簡單句法結(jié)構(gòu)存在共性的可能性更大,更容易實現(xiàn)異種語言之間的詞匯直接匹配,更容易達(dá)到更高程度的互譯準(zhǔn)確度。以“撞開”、“踢開”、“推開”為例,百度翻譯中可得出如下結(jié)果:1.他撞開了門。→He broke the door./2.他踢開了門。→He kicked the door open./3.他撬開了門?!鶫e opened the door./4.他推開了門?!鶫e pushed the door open.語句1與3翻譯效果很不理想,1譯文直接在意義上無法對應(yīng),而3則未能把相關(guān)的動作方式體現(xiàn)出來。語句2、4翻譯較為恰當(dāng),因為在英語中kick…open和push…open屬于比較通用的組合用法,可歸入慣用語,實現(xiàn)了語言表層的直接對應(yīng)。對語句1可進(jìn)行以下語義分析處理:他撞開了門?!查T,門開了?!八查T?!苯?jīng)百度翻譯得到結(jié)果:He knocked the door.“門開了。”經(jīng)百度翻譯得到結(jié)果:The door opened。兩條獨立的翻譯經(jīng)過句法組合操作可表述為:He knocked the door so the door opened.經(jīng)過上述處理意義上的對應(yīng)顯然更恰當(dāng)。對語句3也可做類似的處理。這種可以落實到句法層面的語義分析正是當(dāng)前機(jī)器翻譯所急需的。通過將這類語言規(guī)則編輯成機(jī)器詞典以知識庫的形式整合進(jìn)智能系統(tǒng),并保持這類知識庫的開放狀態(tài),不斷擴(kuò)充與優(yōu)化,再與其他方法配合,機(jī)器翻譯生成的譯文甚至可以擁有自然語句的質(zhì)量。
[1]Talmy,Leonard.Toward a Cognitive Semantics[M]. Massachnsetts:MIT Press,2000.
[2]闞哲華.漢語位移事件詞匯化的語言類型探究[J].當(dāng)代語言學(xué),2010(2).
[3]董秀芳.漢語的詞庫與詞法[M].北京:北京大學(xué)出版社,2005.
[4]馮志偉.自然語言處理簡明教程[M].上海:上海外語教育出版社,2012.
[5]石毓智.漢語語法[M].北京:商務(wù)印書館,2010.