李思迪,胡萌萌,陳懿懿
(中南林業(yè)科技大學,湖南 長沙 410004)
近年來,已經有多種與雙語語料庫有關的機器翻譯技術,例如,基于實例的機器翻譯技術(example-based)、基于數據庫存儲的機器翻譯技術(translation memory)等,都是通過直接使用經過分析和對齊的單語語料,提高了機器譯碼工作的質量。此外,還有一種翻譯技術通過統(tǒng)計模型等從雙語語料數據庫中提取到的雙語語料和翻譯模型進一步完成傳統(tǒng)機械化翻譯。
目前,關于雙語語料庫的研究大致可分為3類:一是擁有關于雙語語料的自動對齊技術,現(xiàn)在市場上已經出現(xiàn)了一些關于自動對齊語料的程序或工具;二是各種專門研究雙語語料庫的實際應用的科學技術,如在基于數據和統(tǒng)計的機器翻譯技術、基于實際案例的機器翻譯技術,甚至在對雙語單詞詞典進行編纂的過程中,雙語語料庫都起到了很大的作用;三是爭取解決對雙語語料庫設計、采集、編碼、管理等方面的問題。對于雙語或者多語言信息庫的研究,國內已有許多工作正在逐步展開,但對于在雙語信息庫構建方面以及雙語信息庫編碼和算法方面的探索,國內基本上還處于初步階段。因此,建立一個具有一定規(guī)模的能夠經過對齊處理來運作的俄漢雙語平行語料庫迫在眉睫[1]。
首先根據語料庫建設存在的相關問題,有針對性地進行了前期準備工作,包括采用網絡挖掘技術和網頁內容收集算法收集、整理語料、詞對齊模型升級和平行句子對入庫四項內容,以便順利進行接下來的俄漢雙語語料庫的建設和管理工作。下文具體介紹基于俄漢機器翻譯的雙語語料庫的前期準備以及收集、標記和加工具體構建過程。如圖1所示。
圖1 設計流程
基于Web的俄漢語料獲取模塊的主要功能是通過爬蟲程序對俄文網站進行抓取,獲取語料庫文檔,并從文檔中提取有價值的俄文信息,作為人工翻譯模塊的語料庫輸入源[2]。該模塊集成了一個基于寬度優(yōu)先數據搜索策略的通用網絡爬蟲程序,爬蟲程序通過分析俄語“導航網站”HTML文檔,提取多個俄語網站URL的種子集,依次選擇種子URL對每個俄語網站進行抓取,并下載保存網站網頁文檔。通過HTML標簽過濾、俄語字母識別算法、句子重復過濾、短句子過濾和單詞拼寫查詢步驟,提取具有完整表意功能的俄語單句語料庫,并將其保存在XML文檔中作為語料庫源。寬度優(yōu)先策略的優(yōu)點是保證了淺HTML文檔的優(yōu)先處理,可以有效避免“爬蟲迷失”的情況出現(xiàn)。
原始的單詞對齊模型是來源于IBM的模型,但嚴格意義上的單詞對齊很難得到,而簡單的解釋語序難以適應漢語語序復雜多變的特點,導致語序對齊效果不佳。為了大幅提高單個詞語對齊的準確度和質量,本文提出了一種對數式線性單個詞語的對齊模型。在當前的語言特征為對數線性的模型中,語言特征比較簡單,如何有效引入語言句法知識,較為有效地提高對齊能力是一個研究熱點。
本文主要通過對基于語料庫的統(tǒng)計機器翻譯進行分析,考慮到漢俄語之間的差異及漢語句法分析工作的難點,重點探討如何把形式語法直接引入到機器翻譯中,提升雙語機器翻譯的口譯能力和易記性能力;同時,充分利用已經掌握的基本語言知識,并進行語言的句法整合。將語言形式句法知識(ITG)與單詞和語言句法知識(簡稱句法樹)巧妙地結合,可以有效地分析和解釋兩個單詞在對齊的兩個雙語句子之間復雜的結構關系。形式語法模型的靈活度使其更易于讀寫,避免了分析語法所帶來的困難。
首先,根據研究的需要和目的,選擇雙語語料庫采集方法,從網絡上下載相同主題的文本進行語料庫采集。此外,為了擴大語料庫來源的廣度,提高語料庫的質量,還通過收集俄漢雙語教材和掃描特定文本,獲得一些雙語語料庫。雙語語料庫的采集應根據采集對象的不同來采取不同的方法。以網頁內容采集為例,首先分析雙語語料庫采集對象(網頁)的源代碼,網頁爬蟲程序必須根據網頁源代碼編寫,否則無法獲取網頁內容,然后整理出要采集的雙語語料庫地址進行研究,網站地址存儲在“wz”中。最后,根據wz中的地址收集相關的文本內容。具體流程如圖2所示。
圖2 具體流程
3.1.1 語料的來源由于俄漢機器翻譯對數據的要求比較高,所以需要大量俄漢雙語語料,而數據獲取的方法較為多樣。考慮到需要保證語料的充足性,最終選擇爬取《俄漢詳解大字典》與Python爬蟲技術相結合的方式。
3.1.2 語料的錄入
(1)在確認爬取取字典后,便開始進行中俄文語料的錄入。首先使用高速掃描儀掃描《俄漢詳解大字典》,但需要注意的是掃描后的格式為PDF,需要再將PDF格式轉換為語料庫的文本格式即TXT格式。
(2)基于Web的俄漢語料獲取方法,即通過爬蟲程序爬取俄文網站,進而獲取語料文檔,從中抽取有價值的俄文信息作為語料輸入源。利用基于寬度優(yōu)先數據的搜索策略通用網絡爬蟲程序,通過對俄文“導航網站”HTML文檔分析,提取出多個俄語網站URL的種子集,然后依次選取種子URL對各個俄文網站爬取,并且下載保存網頁的文檔。經過HTML標簽過濾、俄文字母識別算法、短句過濾句、重復過濾及單詞拼寫檢查五個步驟提取可用的俄語語料,最后保存在XML文檔中作為語料源。
3.2.1 語料的預處理
為了保證語料庫的質量和研究的準確性,有必要對掃描后的語料庫文本進行仔細校對,檢查語料庫是否有亂碼、拼寫錯誤以及具體內容是否與原文意思不同,并及時校對和改正。語料庫的預處理主要包括統(tǒng)一格式、去除各種雜質,來達到實現(xiàn)中俄語料庫準確共享的作用。在輸入校對語料、統(tǒng)一語料格式、去除雜質后,將中俄文語料分為不同的文檔,每份文件都用字母命名,方便文件的查詢及加載。文件名分別以“1-z.txt”“1-e.xt”格式命名,z指“中文”,e指“俄文”,以此標明文本語言是中文還是俄文。
3.2.2 語料的分類標記
(1)分類標準。在對語料庫信息進行歸類時,存在著不同的分類標準。針對這一點,可通過將每個語料庫的風格、樣式和領域3個基本屬性都標記在一起,對各個語料庫中的文本水平進行多層次地分類。語料庫根據語體可以劃分兩類(包括書面語和口頭語);語料庫根據文體可以被劃分為3種類型(包括文學、新聞和實用性寫作);按照學科和領域劃分,被細化成6大學科:包括藝術、產業(yè)、政治、科學、體育和其他社會文化[3]。這種多層次的分類法,一方面能夠靈活地反映出各種語料庫的組成和類別,另一方面也有利于在整個語料庫的基礎上再次抽取其他子語料庫。最重要的是,分類和收集到的信息進行統(tǒng)計分析結果會從不同的角度為構建均衡的大型雙語平行語料庫起到引領作用[4]。
(2)偏誤標注。俄漢雙語語料庫的成功建立,目的是能夠更好地服務于機器翻譯和語言學習者掌握機器翻譯語言的使用和其發(fā)展過程[5]。語料庫中錯誤的類型可能會導致其他錯誤的因素產生。為了客觀準確掌握學習者對特定的單一術語或表達形式的使用頻率、語言要素之間的組合或聯(lián)系,有必要對語料庫中錯誤的類型進行明確的識別和標注[6]。目前我國語料庫的標注工作仍存在部分問題。張寶林[7]指出了當前我國的資源數據庫建設中應當始終堅持“全面性”的原則,應該是做到在字、詞、短語、句、篇、語體、意思、語義、標點符號等各種層面上都要對相關語言和文化現(xiàn)象進行了標注,這樣我們才能夠有效地保證語料庫的功能全面,即主張“偏誤標注+基本標注”的一種新型標注方法。肖奚強、周文華[8]則從其所標注出來的廣度、深度、角度和準確度四個維度探討中介語語料庫標注的全面性問題,主張采取“正確信息+錯誤信息”的標注方式。俄漢雙語語料庫根據研究需要,可以從音位、語素、詞、節(jié)、句法結構和語用信息等方面對俄漢雙語語料庫進行編碼和標注[9]。由于國內俄語錯誤標注的語料庫系統(tǒng)建設只是處于探索的最初階段,本文基于真實性和客觀性原則,僅從詞匯與語法兩個方面進行探討。至于正確的俄文信息標注、風格標注、語用標注等多個層次的標注,需要在與俄文語料數據庫和相關研究工作中取得一定的研究成果之后才能夠開始[10]。對于排序結果,首先利用測試/統(tǒng)計工具檢查標簽的有效性,并根據具體需要進行必要的統(tǒng)計,如語料庫類型、句子對數量、錯誤率等[4]。
3.2.3 語料的加工
用自動對齊程序標識句子/段落邊界從而變成段落級/句子級的雙語對齊[4],在對數線性單詞的對齊模型中,引入IGT模型的約束,進而對全局語境范圍內單詞序列進行改變;為進一步加強詞序,把句法樹約束融入到基于IGT的單詞對齊模型中。經過兩個類型的句法知識點的整合,能夠有效地在全局及其他局部區(qū)域的范圍內限制詞語對齊時的字序變異[11]。將自動化技術與人工檢查相結合,對自動對齊結果進行人工審核,得到正確的句子/段落邊界標記和對齊標記的俄漢雙語平行語料庫[4]。
在語料庫建立之后,采取將語料庫實際應用在翻譯軟件中來檢驗結果的方式,通過基于機器學習的機器翻譯程序系統(tǒng)完成檢驗。該系統(tǒng)主要由三個重點模塊構成:譯碼器、語言模型及其解碼器。在基于機械科學的俄漢機器翻譯語言系統(tǒng)中,現(xiàn)有一些基于俄語語言模型的工具,例如srilm、cmu等,對俄語文本信息進行了專業(yè)化的語料庫訓練,從而可以獲得既覆蓋了語料庫的內容又完全符合俄語基本話題和語法原理規(guī)則的語言模型[12]。
4.2.1 語料庫為翻譯引擎提供資源支持
在基于實例或者是基于數據存儲的翻譯引擎研究工作中,需要大量的實例。這些實例至少以一種句子層次對齊的形式被存儲在基于數據實例的翻譯引擎記憶庫中。在俄漢雙語句子對齊的語料庫中,對單個短語的對齊做了一些具有探索意義的研究工作,包括一些俄漢兩種雙語句子的基礎名詞短語和最為普遍的名字單語對齊。標注句子與俄漢雙語的對齊信息,便于提煉俄漢兩種語言的相反句意。標記句子一級對齊的相關信息,便于提取俄漢兩種雙語的句子。這些句子既可以被直接存儲在基于編程器翻譯的引擎數據庫中,也可以被存儲在基于翻譯引擎的記憶翻譯數據庫中。這些語料庫資源都是俄漢機器翻譯系統(tǒng)的有力支持。
利用俄漢多語言的數據庫自動提取翻譯過程中必須的統(tǒng)計學基礎知識,提高機器翻譯系統(tǒng)的構建和效率;此外,采用大量的統(tǒng)計學基礎知識,以提高翻譯的可靠性。開發(fā)相關語料庫可有效增加數據庫的相關信息,因此當使用一個足夠大的語料庫或者輸入準確匹配到實例時,翻譯質量會相對更好。該語料庫還可以為機器翻譯系統(tǒng)的測試和評價提供一個平臺。通過數據庫對比機器翻譯系統(tǒng)的源詞和目標語兩種翻譯方法的分析研究結果,以及翻譯后的結果和語料庫中源詞和目標語之間的相互對應性關系,可以獲得大致的綜合性評價。