成潔
摘 要: 誤差分析是衡量機器翻譯系統(tǒng)性能的重要手段。在從句復合模型的分析框架下,對從句復合級錯誤進行了分析,并從漢英語法差異的角度對錯誤進行了解釋。統(tǒng)計結(jié)果表明,復句級錯誤發(fā)生的概率相對較高,而且錯誤的發(fā)生在不同的體裁上是不同的,并且與復句的長度呈正相關。
關鍵詞: 機器翻譯; 從句復雜度; 從句-復雜度級別錯誤; 漢譯英
中圖分類號: H315.9/TP391.2 ? ? ?文獻標志碼: A
Abstract: Error analysis is an important method for performance estimationof machine translation systems. This article analyzes clause-level compound errors under the analysis framework of clause-complex model, and explains the errors from the perspective of differences between Chinese and English grammars. Statistical results show that the probability of complex sentence-level errors is relatively high, and that errors occur in different genres, and are positively related to the length of complex sentences.
Key words: machine translation; clause complex; clause-complex level errors; Chinese-English translation
0 引言
機器翻譯(MT)技術在過去幾十年里得到了長足的發(fā)展。隨著機器翻譯的發(fā)展,機器翻譯輸出的評價方法也在不斷發(fā)展。在MT發(fā)展的早期,人工評價是主要的方法。然而,隨著機器翻譯統(tǒng)計方法的廣泛應用,通過計算機器翻譯輸出和人工翻譯之間的相似度來進行自動評價的方法得到了廣泛的應用[1-2]。盡管自動評價是一種客觀的評價方法,提高了評價的效率,但自動評價的結(jié)果能否正確反映機器翻譯輸出的質(zhì)量,并指出機器翻譯輸出錯誤的原因,還是值得懷疑。同時,雖然目前仍有人工評價的研究,但大多只是對機器翻譯錯誤進行分類,沒有詳細分析錯誤產(chǎn)生的原因[3-4]。因此,本文旨在分析MT誤差產(chǎn)生的原因。
根據(jù)Halliday的理論[5],語言結(jié)構(gòu)涉及不同的層次,包括語素、詞、組/短語、從句、從句復合詞。不同的語言層次涉及不同的語境關系。由于跨語言從句復雜程度上的差異很大,而且涉及到遙遠的語境關系,因此這種差異會給機器翻譯帶來更大的困難。所以,本文探討了漢英機器翻譯中的從句復合級錯誤。
1 漢英復合從句
漢語從句復合體是基于命名共享關系和邏輯語義關系組合而成的標點從句(p-子句)序列[6]。p-子句是由逗號、分號、句點、感嘆號或問號與周圍上下文分隔的文本段。下例說明子句的復雜度,如圖1所示。
p-子句中的一個組件可以由另一個p-子句解釋或斷言。前面的組件稱為命名,下面的p-子句稱為定語從句。示例1顯示了一個由4個p-子句組成的子句復合體,這些p-子句以換行縮進模式表示。在本例中,帶下劃線的組件是名稱。冠名權(quán)上的成分、冠名權(quán)下和冠名權(quán)上的p-子句是它們的標志。
對于英語從句復合句來說,它基本上是一個傳統(tǒng)的句子。在英語中,主語或名詞短語加上解釋或修飾后稱為命名。它的謂語,或者它的解釋或后修飾,被稱為它的定語。
2 從句-復雜級錯誤
2.1 定義
從句復雜級錯誤(clause-complex level errors, CC)是指在翻譯過程中,由于忽略了源語言的小句間關系而導致的錯誤[7]。更具體地說,在漢英翻譯中,這些錯誤是由于忽略了從句復合體中p-子句之間的關系而造成的。
應該強調(diào)的是,在此只關注從句復雜度的錯誤。在本研究中,將不標記和分析非因忽略小句間關系而引起的錯誤。具體演示如何識別CC級別的錯誤,如圖2所示。
在圖2中,每個帶圓圈的數(shù)字表示一個錯誤,其位置表示錯誤發(fā)生的位置。中文原版、機器翻譯輸出版和修訂版中相同的數(shù)字表示機器翻譯輸出版中相同的錯誤。帶圓圈數(shù)字右邊帶下劃線的部分是機器翻譯輸出中的錯誤單詞或短語。如果一個帶圓圈的數(shù)字右邊沒有帶下劃線的部分,這意味著在這個位置的機器翻譯的輸出中有一些缺少的單詞。
雖然機器翻譯的輸出中總共有7個錯誤,但只有錯誤2和錯誤6是CC級別的錯誤。錯誤2是因為此位置缺少逗號。在中文原句中,句子“為了給他醫(yī)病”是后面三句話的邏輯目的。但是沒有逗號,邏輯目的就無法正確表達。錯誤6對應于第四個p-子句。在直譯方面,似乎第四個p-子句翻譯正確。然而,從漢語從句復合體的結(jié)構(gòu)來看,機器翻譯系統(tǒng)未能在基于共享命名的最后一個p-子句的翻譯中補充主語“她”。
其余5個錯誤不是CC級錯誤。錯誤1是由于中文人名的不正確細分引起的。在錯誤3中,中文短語“為了給他醫(yī)病”的結(jié)構(gòu)在輸出中未正確翻譯。發(fā)生錯誤4是因為中文“跑遍了”中的動詞在翻譯中丟失了。錯誤5是錯誤的,因為系統(tǒng)無法補充副詞動詞。錯誤7是動詞的錯誤選擇。所有這5個錯誤與其他p子句都不相關,因此它們不是CC級錯誤。
2.2 從句復雜級錯誤的分類
通過誤差分析,發(fā)現(xiàn)CC級誤差可分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關系誤差。每種類型的錯誤都對應于一種在機器翻譯輸出中沒有得到正確處理的子句間關系。
詞形錯誤是指由于忽視小句之間的詞匯關系而導致動詞、名詞或代詞詞形選擇錯誤。當命名和命名之間的語義關系在機器翻譯輸出中不恰當?shù)爻尸F(xiàn)時,就會出現(xiàn)共享結(jié)構(gòu)錯誤。邏輯關系錯誤是指影響子句之間邏輯關系的錯誤。
形態(tài)錯誤主要是由于漢語缺乏形態(tài)而引起的,這一點已被廣泛認識。因此,在此著重研究后兩類錯誤。
3 漢英機器翻譯輸出中的從句級錯誤
本文分析了兩類錯誤:共享結(jié)構(gòu)錯誤和邏輯關系錯誤。
3.1 共享結(jié)構(gòu)錯誤
從錯誤分析中可以看出,共有結(jié)構(gòu)錯誤主要是由于中英文在共有層面上的語法差異,特別是漢語中缺乏形態(tài)結(jié)構(gòu)和相對較大的從句復雜度(CC-size是指一個復合從句中包含的p-子句的數(shù)量)。下面是共享結(jié)構(gòu)錯誤的示例,說明這兩個特征的影響,顯示了缺乏形態(tài)形式的影響。如圖3所示。
中文和英文在語義角色形式上有所不同。 在中文中,不同的語義角色可以采用相同的形式。 在英語中,不同的語義角色對應于不同的形式[8]。 因此,中文命名無需更改其形式即可在將其共享為命名的講述中承擔不同的語義角色。 在圖3的例子中,共享命名“她”在第一個p-子句中扮演屬性“自家生活條件”的持有者,在第二個p-子句中變成動詞“收養(yǎng)”的代理,并成為主題 在最后一個p-子句中。 在機器翻譯輸出中,機器翻譯系統(tǒng)在第一子句中正確使用了所有格代詞她,但是它未能相應地更改命名形式并為其他兩個敘述的翻譯補充它們。
顯示了大型從句復雜大小的影響,如圖4所示。
在中文中,從句復合句的大小可能多達數(shù)十個p-子句。 在一個大型的漢語從句復合句中,一個命名及其敘述很可能被許多p-子句分隔開,其中有些p-子句具有主謂結(jié)構(gòu)或以句號結(jié)尾。 在示例4中,最后一個用中文講的共享命名為“澳洲肺魚”,相距數(shù)個p-子句。 然而,機器翻譯系統(tǒng)僅復制了中文原件的結(jié)構(gòu),因此無法基于共享命名來補充主題的翻譯。 這也是錯誤①,②,③和④的原因。
3.2 邏輯關系錯誤
漢語和英語從句之間邏輯關系的表達方式是不同的。在機器翻譯輸出分析中發(fā)現(xiàn)了兩個特點:連接詞的位置和省略。由于兩種語言之間的差異,機器翻譯系統(tǒng)很難在漢語原語中正確地呈現(xiàn)句間邏輯關系。如圖5所示。
在中文中,可以將連詞放在謂詞之前,以邏輯方式鏈接p-子句,但又不妨礙p-子句,尤其是后面帶有謂詞的p-子句可以共享命名。 但是,用英語來說,不能將從屬連詞直接置于謂詞之前而不將主語置于兩者之間。 因此,在機器翻譯輸出中,應在位置1和3處補充對象。 另外,在中文中,不需要協(xié)調(diào)連詞來連接兩個共享邏輯連詞的p-子句。 但是,用英語來說,應該使用一個協(xié)調(diào)連詞來連接兩個p-子句。 否則,這兩個部分的邏輯層次結(jié)構(gòu)將存在歧義。 因此,在位置2應該補充連詞“和”。如圖6所示。
在中文中,省略連詞是很常見的。但是,在英語中,經(jīng)常需要使用連接詞來表示從句之間的邏輯關系。 在此示例中,第一個p-子句是第二個p-子句的條件,但是沒有用于指示邏輯關系的連詞。因此,系統(tǒng)將兩個p-子句都輸出為常規(guī)語句,而無法表達兩者之間的實際關系。
4 實驗與數(shù)據(jù)分析
在本研究中,對463個漢語從句復合體的語料庫進行了錯誤分析,覆蓋了3種體裁。 每個條款復合體都輸入到4個在線機器翻譯系統(tǒng)中,這些系統(tǒng)在翻譯中采用了神經(jīng)網(wǎng)絡機器翻譯技術[9]。在每個輸出中標記,分析和計算CC級錯誤。每個中文從句復合詞被視為從句復合詞的一種類型(CC類型),而4個機器翻譯系統(tǒng)的每個輸入都被視為從句復合詞的標記(CC標記)??倲?shù)為463 CC類型和1852 CC標記。
4.1 錯誤類型和錯誤數(shù)量
表1顯示了共享結(jié)構(gòu)錯誤和邏輯關系錯誤的數(shù)量。在分析結(jié)果之前,應說明兩點。首先,一些錯誤被視為共享結(jié)構(gòu)錯誤和邏輯關系錯誤。這就是為什么表1中的總誤差大于表2和表3的誤差的原因。其次,這兩種類型的錯誤都計入1391個標記中(不包括具有太多復雜錯誤且無法識別為CC級錯誤的標記和僅包含一個p-子句的標記)。
在表1中,SP代表堆棧模式,NB表示新分支模式,BP代表后位置模式,IP表示流入模式。從表1中可以看出,在1 394個標記中共有1 154個共享結(jié)構(gòu)錯誤。共享結(jié)構(gòu)錯誤可以根據(jù)錯誤所在子句復合體的不同模式進一步分為SP錯誤,NB錯誤,BP錯誤,IP錯誤和其他錯誤。統(tǒng)計數(shù)據(jù)表明,共享結(jié)構(gòu)錯誤的可能性很高,而堆棧模式錯誤占共享結(jié)構(gòu)錯誤的百分比最高。結(jié)果表明,現(xiàn)有的機器翻譯系統(tǒng)仍不能正確地將中文命名共享結(jié)構(gòu)轉(zhuǎn)換為英文命名結(jié)構(gòu)。
對于邏輯關系錯誤,總錯誤數(shù)為239,與共享結(jié)構(gòu)錯誤的總數(shù)相比,這似乎是一個小數(shù)目。這是因為僅計算帶有連詞的CC標記中的錯誤。因此,基于較小的計數(shù)范圍,邏輯關系錯誤的可能性也較高。結(jié)果表明,表達漢英邏輯關系的不同方式也阻礙了機器翻譯系統(tǒng)產(chǎn)生高質(zhì)量的輸出。
4.2 不同大小從句復合詞的錯誤分布
不同大小子句復合詞中錯誤的分布,如表2所示。
由于268個只包含一個p-子句的子句復合體肯定沒有CC級別的錯誤,因此CC的大小為1行的錯誤總數(shù)和平均錯誤數(shù)為零。
從表中可以看出,一般情況下,錯誤數(shù)與從句復雜大小正相關。確實有一些上升和下降,特別是當CC大小超過10。這是因為子句復合詞的出現(xiàn)次數(shù)與其大小呈負相關。因此,基于小樣本的統(tǒng)計在很大程度上受到偶然因素的影響。一個典型的例子是當CC大小達到25。語料庫中只有一個這樣大小的從句復合類型,其結(jié)構(gòu)簡單且偶然一致。4個翻譯輸出中,1個基本正確,3個翻譯錯誤混雜無序。由于后三個譯本無法在現(xiàn)有的分析框架下進行分析,因此它們被排除在統(tǒng)計范圍之外。因此,平均錯誤數(shù)為0。
正相關可以從兩個方面來解釋。首先,當漢語從句復合詞規(guī)模較大時,其命名可能與某些主語相距甚遠,這些主語可以用句點或嵌套主語的主語與主語分開。在這種情況下,話語和命名之間的關系很難確定,因此無法在翻譯中呈現(xiàn)出來。其次,從句復雜度越大,它所涉及的邏輯關系就越復雜。由于漢英兩種語言表達邏輯關系的方式不同,在翻譯大型從句復合句時需要對結(jié)構(gòu)進行更多的調(diào)整,這給機器翻譯帶來了困難。
4.3 不同體裁的錯誤分布
通過統(tǒng)計發(fā)現(xiàn),CC級錯誤在體裁上的分布是不同的。如表3所示。
從表3中可以看出不同體裁的錯誤分布。百科全書中的平均錯誤數(shù),無論是每個CC標記的平均錯誤數(shù)還是每個p-子句的平均錯誤數(shù),都高于其他兩種類型。同時,從最后一行的數(shù)據(jù)來看,百科全書體裁的平均復句長度最大。因此,結(jié)果與表3中的統(tǒng)計數(shù)據(jù)相對應,表明在較大的子句復合詞中,CC級錯誤的概率更高。
5 總結(jié)
本文以463個漢語小句復合詞為語料,采用4個機器翻譯系統(tǒng),分析了漢語小句復合詞的中心偏誤。將誤差分為形態(tài)誤差、共享結(jié)構(gòu)誤差和邏輯關系誤差,并對后兩類誤差進行了詳細分析。錯誤分析表明,漢英語法差異是造成這些錯誤的主要原因。相關差異包括:1)語義角色的形式要求;2)大型從句復合句的結(jié)構(gòu);3)連詞的位置;4)連詞的省略等。
同時,統(tǒng)計結(jié)果表明:1)共有結(jié)構(gòu)錯誤和邏輯關系錯誤的概率較高;2)共有結(jié)構(gòu)錯誤和邏輯關系錯誤的概率與從句復合詞的大小呈正相關;3)不同體裁文本的錯誤概率不同,與社會新聞和政治文本相比,百科全書體裁的錯誤率更高。因此,認為有必要對CC級錯誤進行研究,這將對提高MT系統(tǒng)處理小句間關系的能力,從而產(chǎn)生更好的輸出帶來啟示。
參考文獻
[1] 王湘玲,王婷婷.人工翻譯與機器翻譯譯后編輯對比實證研究[J].外國語言與文化,2019,3(4):83-93.
[2] 黎亞飛,張瑞華.機器翻譯發(fā)展與現(xiàn)狀[J].中國輕工教育,2019(5):38-45.
[3] 孫瑞.基于英語翻譯應用視角下的計算機智能校對系統(tǒng)開發(fā)研究[J].微型電腦應用,2020,36(2):145-148.
[4] 李晗佶,陳海慶.翻譯技術研究現(xiàn)狀、問題與展望[J].北京科技大學學報(社會科學版),2019,35(4):112-118.
[5] Castro C D, Halliday M A K. An Introduction to Functional Grammar[J]. Language, 1995, 71(4):831.
[6] 張會會. 英語長句機器漢譯的研究[D].濟南:山東師范大學,2015.
[7] 左軍軍. 英漢機器翻譯中長句分析技術的研究[D].沈陽:沈陽航空航天大學,2013.
[8] 吳欣輝. 基于中英文主題向量空間的文本分類算法[D].合肥:中國科學技術大學,2018.
[9] 李真,屈丹,高明霞,張文林,等.基于端到端的神經(jīng)網(wǎng)絡機器翻譯技術研究[J].信息工程大學學報,2018,19(5):550-555.
(收稿日期: 2020.03.12)