王聞慧
摘要;機器翻譯作為信息時代的產(chǎn)物已經(jīng)愈來愈成為人們生活所必需的工具。計算機要實現(xiàn)“理解”語言以及語言“轉(zhuǎn)換”的功能,歧義的消解是其所面臨的最大難題。通過對越南語語言特點分析,本文介紹了目前的機器翻譯方法,并提出了漢越機器翻譯中存在的難點和可行的解決思路。本文對于認識漢越機器翻譯的現(xiàn)狀和難點做了有益介紹,并提出了相應(yīng)的解決思路,可以為相關(guān)研究者提供參考。
關(guān)鍵詞:機器翻譯;越南語;語言特點
中圖分類號:TP391? ? ? ?文獻標(biāo)識碼:A
文章編號:1009-3044(2019)17-0204-03
開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
Abstract: Machine translation, as a product of the information age, has become an increasingly necessary tool for people's lives. In order to realize the function of “understanding” the language and “transforming” the language, the resolution of ambiguity is the biggest problem. This paper aims introduces current mainstream methods of machine translation and analyzes the difficulties and corresponding solutions of machine translation between Chinese and Vietnamese. This paper can provide references for related researchers.
Key words: Machine translation; Vietnamese; Language features
1 引言
作為信息時代的產(chǎn)物,機器翻譯已經(jīng)成為人們生活所必需的工具,它也在無形之中改變著人們的生活方式。隨著全球化的突飛猛進,機器翻譯已經(jīng)深入到人類日常交際、科學(xué)研究、商業(yè)交流等方方面面。近些年來,隨著深度學(xué)習(xí)的興起,機器翻譯效果也得到了巨大提升。然而,機器翻譯遠未得到完全解決,尤其對于小語種而言,其機器翻譯效果往往不盡如人意。對于漢越機器翻譯而言,由于兩種語言之間的差異性和深度學(xué)習(xí)方法的局限性,其翻譯效果還存在著諸多問題。對漢語與越語兩種語言的差異性進行分析,對于提升漢越機器翻譯的效果有著很強的現(xiàn)實意義。
2 機器翻譯方法
機器翻譯是應(yīng)用計算機來進行不同語言之間的翻譯??傮w來看,機器翻譯方法可分為經(jīng)驗主義和理性主義兩種方法。20世紀(jì)30年代初,法國人阿爾楚尼首先提出了用機器進行翻譯的想法。隨著計算機的出現(xiàn),機器翻譯逐漸成了研究熱點。首先興起的是以基于轉(zhuǎn)換的機器翻譯方法為代表的理性主義方法。但由于有限的規(guī)則并不能描述語言的復(fù)雜性,再加上隨著規(guī)則的增多,規(guī)則之間的沖突也開始增多,使得基于轉(zhuǎn)換的機器翻譯方法在達到瓶頸之后逐漸淡出研究者視野。從20世紀(jì)90年代開始,基于語料庫的機器翻譯方法逐漸成為機器翻譯方法的主流,主要代表有基于統(tǒng)計的機器翻譯方法、基于實例的機器翻譯方法和近些年興起的基于神經(jīng)網(wǎng)絡(luò)的機器翻譯方法。對于理性主義方法與經(jīng)驗主義方法而言,兩者各有優(yōu)缺點:單純的語言規(guī)則難以涵蓋大量的語言現(xiàn)象,且基于不同語言的差異性而制定的詞匯庫、語法規(guī)則庫、語義規(guī)則庫往往規(guī)模大、開發(fā)成本高;而基于語料庫的方法雖然能夠依靠大規(guī)模真實文本涵蓋大量的語言現(xiàn)象,但大規(guī)模、高質(zhì)量對齊語料庫卻難以獲取,且模型的遷移性較差。因此在實踐中,常采用基于規(guī)則與基于語料庫相結(jié)合的方法以提升翻譯效果。
2.1 基于轉(zhuǎn)換的機器翻譯方法
基于轉(zhuǎn)換的機器翻譯方法包含三個步驟:源語言分析,源語言與目標(biāo)語轉(zhuǎn)換,目標(biāo)語生成。不同的基于轉(zhuǎn)換的機器翻譯方法在上述三個步驟中涉及的語言學(xué)深度不同,因此也產(chǎn)生了不同種類的機器翻譯方法。其中,直接翻譯法忽略了句法、語義與語境信息,通過一部詞典將源語言直接轉(zhuǎn)化為目標(biāo)語言。這種不考慮句子句法語義而只依賴于詞典的翻譯方法準(zhǔn)確性、拓展性較差,因此使用范圍較為狹窄。更為深層次的基于轉(zhuǎn)換的機器翻譯方法則會對源語言進行句法層面乃至語義層面的分析,從而使機器翻譯效果更好。該方法先將源語言句子轉(zhuǎn)換為源語言的一種表達方式,再將源語言的內(nèi)部表達轉(zhuǎn)換為目標(biāo)語言的內(nèi)部表達,最后按照目標(biāo)語言的內(nèi)部表達生成目標(biāo)語言。整個轉(zhuǎn)換的過程需要對句子進行詞匯分析、句法分析、語義分析、語篇分析等,其所生成的中間表達方式也是一種句法-語義表達式。其具體翻譯步驟如圖1所示。
2.2 基于中間語言的機器翻譯方法
基于中間語言的方法與基于轉(zhuǎn)換方法不一樣的地方在于中間語言方法是將源語言轉(zhuǎn)換為一種新的語言的中間表達式,并以此為基礎(chǔ)再轉(zhuǎn)換成目標(biāo)語言。這種中間語言對于不同系統(tǒng)可以是靈活的,并沒有被固化。在多語種翻譯時可以起到提高效率的作用,將原有n(n-1)個翻譯過程減少到2n,并且在譯文質(zhì)量、理解性等方面均有所改善。如圖2所示。
2.3 傳統(tǒng)的基于語料庫的機器翻譯方法
經(jīng)驗主義的方法主要包括基于統(tǒng)計與基于實例的機器翻譯方法?;诮y(tǒng)計的翻譯方法最早由Weaver在1949年提出,其主要采用了信息論思想,將翻譯過程看作是編碼與解碼的過程。通過將大規(guī)模雙語平行語料庫中出現(xiàn)的語言現(xiàn)象以概率的方式統(tǒng)計計算出來,從而得到從目標(biāo)語言到源語言的翻譯概率,即翻譯模型。再針對目標(biāo)語言選擇特定的語言模型進行訓(xùn)練,從而得到語言模型。最后,結(jié)合翻譯模型與語言模型進行計算,從而篩選出最貼合實際的譯文。目前,經(jīng)典的翻譯模型主要有IBM的研究者建立的五種翻譯模型,可以在GitHub上下載使用。經(jīng)典的語言模型則主要有n元語言模型與近些年來興起的神經(jīng)網(wǎng)絡(luò)語言模型。
基于實例的翻譯方法則是將雙語對照的實例導(dǎo)入到實例庫中去,當(dāng)輸入源語言句子時,系統(tǒng)自動搜索實例庫,從而獲得與當(dāng)輸入句子最相近的源語言句子并找到其對應(yīng)的譯文句子,再根據(jù)輸入句對譯文句子進行調(diào)整以輸出最終的翻譯結(jié)果?;趯嵗臋C器翻譯方法的關(guān)鍵點在于將輸入句子與實例庫中源語言句子進行相似度計算,從而找到與輸入句子最相似的源語言句子。目前,基于實例的機器翻譯方法已經(jīng)廣泛應(yīng)用在“機輔人譯”系統(tǒng)中。
總體來說,這兩種方法各有利弊,對前者來說其語言模型與翻譯模型的訓(xùn)練需要大量的高質(zhì)量雙語對齊語料作為支撐,而后者利用實例庫的方法盡管質(zhì)量效率高,但在多領(lǐng)域、多語種翻譯的應(yīng)用上,則需要大規(guī)模的實例庫支持。
2.4 基于神經(jīng)網(wǎng)絡(luò)的翻譯方法
近年來隨著深度學(xué)習(xí)的興起,神經(jīng)網(wǎng)絡(luò)方法在圖像識別、語音識別以及自然語言處理的各項任務(wù)中已取得較大突破與進展。與傳統(tǒng)的基于統(tǒng)計的機器翻譯方法相比,神經(jīng)網(wǎng)絡(luò)翻譯系統(tǒng)(NMT)在對語言規(guī)模的要求方面要更加嚴(yán)格,但其學(xué)習(xí)到的深度則是統(tǒng)計機器翻譯所不能及的。現(xiàn)階段神經(jīng)機器翻譯中比較常見的網(wǎng)絡(luò)架構(gòu)主要有RNN(recurrent neural network,循環(huán)神經(jīng)網(wǎng)絡(luò))、CNN(convolutional neural network,卷積神經(jīng)網(wǎng)絡(luò))、LSTM(long-short-time memory,長短時記憶網(wǎng)絡(luò))等。其主要通過編碼解碼的方式將源語言句子的向量表示映射到目標(biāo)語言的輸出序列。
3 機器理解語言的難點
計算機要想實現(xiàn)兩種語言間的轉(zhuǎn)換,首先需要“讀懂”源語言,然而在這個過程中歧義的存在是計算機所面對的最大障礙。歧義分為兩種,一種是句子本身就存在歧義,另一種是句子本身沒有歧義,但對于機器而言存在著歧義。如“北京大學(xué)生”本身是不存在歧義的,其分詞結(jié)果就是“北京/大學(xué)生”。但對于機器而言,“北京大學(xué)/生”也是一種分詞結(jié)果,因為“北京大學(xué)”與“生”都是漢語詞匯。但對于機器翻譯而言,其面臨的歧義問題主要指后者,即句子本身是沒有歧義的。歧義主要分為交集型歧義和組合型歧義,交集型歧義是指ABC可以分為AB/C、A/BC兩種,如“北京/大學(xué)生”與“北京大學(xué)/生”。組合型歧義則是指AB可以理解為AB或者A/B。如在“他馬上下來”中,“馬上”就存在組合型歧義。對于越語這門語言,歧義分布在詞匯、句法結(jié)構(gòu)、語義的各個層面。
3.1 詞匯層面歧義
越南語同漢語一樣都是孤立性語言,盡管越南語每個音節(jié)之間都有空格隔開,但其實質(zhì)就相當(dāng)于漢語中在所有字之間添加空格。漢語的分詞對應(yīng)到越南語則表現(xiàn)為“聚詞”。與漢語一樣,越南語中存在著眾多一詞多義以及同形異性(詞形相同詞性不同)的情況。例如漢語中的“把”一詞,既有持、拿又有端著、端起之義,越南語中的“cha?y”一詞,既可以表示跑這個動作,也可以用來形容商品的暢銷程度;漢語中的“研究”一詞,對應(yīng)于越南語中的“nghiên c??u”(研究)同時都可以作名詞以及動詞。由詞匯層面的歧義所造成的機器在做分詞和詞性標(biāo)注上的困難是很難克服的,僅依靠建立規(guī)則庫來解決歧義問題必然會造成規(guī)則庫規(guī)模過大、執(zhí)行效率低等問題。
3.2 句法結(jié)構(gòu)層面歧義
漢語、越南語在對所屬關(guān)系的表示方面與英語不同,英語有明顯的標(biāo)志性詞語用以界定,而漢語、越南語則沒有特定分隔或標(biāo)志性詞語,因此存在著結(jié)構(gòu)方面的歧義。例如漢語中“三個北京大學(xué)和清華大學(xué)的教授”對應(yīng)于越南語“ba(三) gia?o s?(教授) cu?a(的) ?a?i ho?c B??c Kinh(北京大學(xué)) va?(和) ?a?i ho?c Thanh Ho?a(清華大學(xué))”這樣的短語表達中,“三個”是界定在北京大學(xué)還是北京大學(xué)和清華大學(xué)則需要參考上下文語義進行理解。在機器分析這類結(jié)構(gòu)時可用多種句法樹來表示,通過經(jīng)驗主義的方法,利用大規(guī)模語料庫構(gòu)建語言模型對每個詞之間的轉(zhuǎn)換概率進行計算,從而選擇一條概率最大的路徑,進而尋找出最符合人們思維認知以及上下文語境的結(jié)構(gòu)。
3.3 語義層面歧義
語義的不確定性、模糊性無疑使得計算機無法像人腦一樣從認知層面理解語句的真正意思。再者,兩個民族之間風(fēng)俗習(xí)慣的差異性必然會導(dǎo)致兩種語言在表達上的不同。例如將“炸薯條”翻譯成越南語時需要考慮其是一種菜名還是一種行為動作。這需要結(jié)合語境來考察,而語境信息如何融入系統(tǒng)中則需要知識庫或者統(tǒng)計概率的支持。但目前的系統(tǒng)都無法做到對語境的充分理解與應(yīng)用。
4 漢-越雙語轉(zhuǎn)換難點及解決方法
越南語是一種孤立語,屬南亞語系越芒語族。由于受漢文化影響較大,越南語同中文具有一定的相似性。一是同為孤立語,缺少形態(tài)變化以及語法標(biāo)記,語法的表示通常采用虛詞、詞序等方式。二是越南語中存在大量的漢越詞,不論是發(fā)音還是結(jié)構(gòu)都與中文保持高度的同一性。三是語序都采用“主語+謂語+賓語”形式,在語言形式上具有相通性。與英文相比,漢、越語對句法結(jié)構(gòu)以及語法規(guī)則的限定性遠不如英文,這就給漢、越語自然語言處理帶來了一定的困難,同樣直接影響到漢越機器翻譯任務(wù)之中。
4.1 人稱代詞的多樣性
越南是一個十分講究尊卑的國家,這在越南語人際稱謂語中得以體現(xiàn)。例如同輩間比自己年長的男性統(tǒng)稱為anh+名,女性統(tǒng)稱為chi?+名,自稱通常用em;對父輩父親稱b??,母親稱me?,自稱con。在百度翻譯漢-越翻譯中輸入“小明應(yīng)該去上小學(xué)”這句話,軟件翻譯給出的結(jié)果為“pha?i ?i tr???ng tiê?u ho?c”,與人工翻譯出的“Con Minh pha?i ?i tr???ng tiê?u ho?c”相比,“小明”未翻譯出來。解決該問題首先要處理好未登錄詞中人名的識別問題,只有將漢語中的人名識別出來才能利用人稱關(guān)系將規(guī)則嵌入到翻譯系統(tǒng)中去。因此覆蓋度達到一定規(guī)模的詞表是一項十分重要的語言資源,而小語種低資源的建設(shè)同樣需要耗費大量人力物力,因此上層任務(wù)都需要扎實的基礎(chǔ)性資源的支撐。
4.2 長距離依賴
漢語中多存在復(fù)句等較為復(fù)雜的語言成分,句子的冗長使得在翻譯過程中處理分句主語對主句主語的依賴、指稱代詞對上文的依賴等長距離依賴問題是自然語言處理難以解決的問題之一,在這一點上越南語與漢語較為相似。目前解決該問題的相關(guān)研究中做得最多的是基于循環(huán)神經(jīng)網(wǎng)絡(luò)的機器翻譯,其主要的處理方法為通過將上文的信息與下文共同輸入到網(wǎng)絡(luò)當(dāng)中,從而將上文的信息融入下文的處理過程中來。但基于循環(huán)神經(jīng)網(wǎng)絡(luò)的機器翻譯存在著梯度爆炸與梯度彌散的問題,即上文的信息通過多次循環(huán)后,其對下文的影響往往很小。為解決這個問題,現(xiàn)階段主流的機器翻譯系統(tǒng)大都基于長短時記憶網(wǎng)絡(luò)。
長短時記憶網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一個變體,其不再單純地將上文信息傳遞給下文,而是采用了門限技術(shù)。通過將上文的信息設(shè)置三個“門”:輸入門,輸出門和遺忘門,從而決定哪些信息被傳遞給下文。通過使用門限技術(shù),長短時記憶網(wǎng)絡(luò)很好地解決了梯度彌散和梯度爆炸問題。但長短時記憶網(wǎng)絡(luò)對于長距離依賴問題的解決是有限的,其對過長的依賴問題也不能很好的解決。而越南語中存在著大量的長距離依賴現(xiàn)象,這就要求翻譯系統(tǒng)對句子結(jié)構(gòu)能夠很好地進行分析,而這目前仍然是一個難點。
4.3 復(fù)雜定語后置
越南語與漢語間一個重要的不同點是越南語的定語后置:除了一些表示數(shù)量、部分與全部、單位詞需要前置,越南語中的其他定語都需要后置。例如漢語中“中華人民共和國”翻譯成越文則是“n???c(國) C??ng Ho?a(共和) Nh?n d?n(人民) Trung Hoa(中華)”,越文翻譯正好與漢語語序相反。漢語中存在的定語過長而導(dǎo)致的中心詞靠后的問題對應(yīng)于越南語中就表現(xiàn)為需要讀者“從后往前讀”。除此之外,越南語定語成分的順序有所固定,通常先次要后主要,先小范圍后大范圍。由此,機器在判斷哪些是次要、小范圍,哪些是主要、大范圍時必然不可能具備像人一樣對大小范圍的認知能力,若僅僅依靠漢語定語語序倒序輸出越語譯文往往會出現(xiàn)一些問題。例如,在越南語中存在這樣的特殊情況:翻譯“經(jīng)濟社會”一詞中,越語譯文應(yīng)為“kinh tê?(經(jīng)濟) xa? h??i(社會)”而并非“xa? h??i(社會) kinh tê?(經(jīng)濟)”(此時定語前置)。對于此類特殊情況可以將其收入到詞典中去,盡管詞典規(guī)模過大會影響系統(tǒng)效率等問題,但卻可以對其進行有效的規(guī)避。此外,越南語定語的復(fù)雜性特征使得機器很難將其邊界識別準(zhǔn)確,對下一步進行句法分析等高層次任務(wù)造成阻礙。解決此類問題最重要的則是翻譯系統(tǒng)對句子結(jié)構(gòu)的正確分析,判斷動詞短語是做名詞的定語還是整句話的謂語、介詞短語是修飾名詞短語或動詞短語還是做句子狀語,這些對于翻譯的準(zhǔn)確性至關(guān)重要。
4.4 虛詞的處理
越南語與漢語一樣,都是缺乏形態(tài)變化、曲折變化的孤立性語言,時態(tài)、人稱、數(shù)等的變化只能通過虛詞來完成,因此虛詞承擔(dān)著重要的句法功能。例如漢語中“我吃過飯了”表示的是一種完成時狀態(tài),對應(yīng)于越語則表示為“T?i(我) ?a?(已經(jīng)) ?n(吃) xong(過) r??i(了)”,“?a?”與“過”“了”的功能相同都表示完成的狀態(tài),除了這些表示時態(tài)的虛詞之外還包括表示處所、方向、方式等。在處理漢、越語虛詞方面,一般情況下計算機要對將要處理的語料進行預(yù)處理,將句子中可能缺少或省略的虛詞補充完整。機器在識別出實詞之后往往將剩下來的詞視作虛詞,通過建立虛詞用法詞典,將虛詞及其用法錄入到詞典之中,并制定一系列虛詞用法規(guī)則便于機器進行模式匹配。另外,利用越南語與漢語在虛詞特點的相似之處也可直接建立漢-越虛詞映射表,例如過-?a?,未-ch?a,將-se?,從-t??等雙語映射對,省去不必要的分析和模式匹配環(huán)節(jié)。
5 結(jié)束語
盡管就目前來看機器翻譯已經(jīng)做到了比較純熟的程度,但涉及越南語方面的研究還是少之又少,漢越對譯仍存在著許多較為突出的問題需要我們解決。機器翻譯的難點必然與不同語種的特殊性所對應(yīng),要解決好所有可能的問題是一項繁重的工程。漢越機器翻譯不僅僅要在基礎(chǔ)資源建設(shè)上下功夫,還應(yīng)當(dāng)針對兩種語言的相似性與差異性找出既能省去煩瑣工作的有效方法以及具體問題具體分析的實用性經(jīng)驗,在兩者之間尋找平衡點。盡管深度學(xué)習(xí)的方法已成為主流,但自然語言不同于聲音與圖像,其內(nèi)部隱含的特征豐富使得神經(jīng)網(wǎng)絡(luò)的方法難以做到物盡其用。在深度學(xué)習(xí)方法達到一定瓶頸之后如何將
語言知識融合進去將會是有所突破更進一步的關(guān)鍵所在,因此語言特征的分析及應(yīng)用是漢越翻譯系統(tǒng)改進發(fā)展的必然趨勢。
參考文獻:
[1] 劉穎. 計算語言學(xué)[M]. 清華大學(xué)出版社, 2014.
[2] 劉云.英漢機器翻譯中漢語自動分析的難點[J].長江藝術(shù), 2009(1):111-115.
[3] 曹英華,郝進仕.漢語機器理解與漢英機器翻譯[J].內(nèi)江師范學(xué)院報, 2006, 21(1):55-57.
[4] 張政.機器翻譯難點所在[J].外語研究, 2005(5):59-62.
[5] 詹衛(wèi)東,常寶寶,俞士汶.漢語短語結(jié)構(gòu)定界歧義類型分析及分布統(tǒng)計[J].中文信息學(xué)報,1999, 1999, 13(3):10-18.
[6] 譚志詞, 徐方宇, 林麗. 基礎(chǔ)越南語(3)[M]. 世界圖書出版公司, 2013:95.
[7] 戴新宇, 尹存燕, 陳家駿,等. 機器翻譯研究現(xiàn)狀與展望[J]. 計算機科學(xué),2004, 31(11):176-179.
[8] 戴新宇, 尹存燕, 陳家駿,等. 機器翻譯研究現(xiàn)狀與展望[J]. 計算機科學(xué),2004, 31(11):176-179.
[9] 劉群, 俞士汶. 漢英機器翻譯的難點分析1[C]// 中文信息處理國際會議,1998.
[10] 程節(jié)華, 戴新宇, 陳家駿,等. 漢英機器翻譯中時體態(tài)處理[J].計算機應(yīng)用研究,2004, 21(3):79-80.
[通聯(lián)編輯:梁書]