楊東東 蔣宇鵬
摘 要 隨著信息化和大數據的發(fā)展,基于真實語境的語料庫在語言服務平臺建設方面起著越來越重要的作用。本文計劃以上海交大外國語學院的外語學科為依托,以自主研發(fā)大規(guī)模英漢平行語料庫和專用語料庫為基礎,建設一個集語言學習、測試、翻譯于一體的綜合性語言服務平臺。
關鍵詞 語料庫 真實語境 語言服務
中圖分類號:H030 文獻標識碼:A DOI:10.16400/j.cnki.kjdks.2016.11.069
Abstract With the development of information technology and big data, corpus which is based on real context plays an increasingly important role in the construction of language service platform. This paper planned to construct an integrated language service platform, including a set of language learning, testing and translation, which is based on the disciplines of School of Foreign Languages in Shanghai Jiao Tong University, and also the large-scale parallel corpus and dedicated Corpus developed dependently.
Keywords corpus; real context; language service
上海交大外國語學院目前正在自主研發(fā)4000萬字詞大規(guī)模英漢平行語料庫和法律、醫(yī)學、航空等專用語料庫,在此基礎上,計劃建設一個集語言學習、測試、翻譯于一體的綜合性語言服務平臺。其特點是依據的語料真實,可信度高,功能多樣。
該平臺主要分為三個部分,第一部分是自主語言學習模塊,第二部分語言水平測試模塊,第三部分是語言翻譯模塊。其中,每一部分都包括通用語言服務和行業(yè)專用語言服務兩大功能,可以滿足不同用戶多樣化的語言需求。
1建設基于語料庫的語言服務平臺的背景和必要性
語言學中,語料庫通常指為語言研究收集的、用電子形式保存的語言材料,由自然出現的書面語或口語的樣本匯集而成,用來代表特定的語言或語言變體,可用于機助翻譯、雙語詞典編撰、外語教學、語言測試等應用領。
1.1 國內基于語料庫的語言服務行業(yè)現狀與分布
上世紀八十年代以來,隨著語言處理技術的不斷革新,跨文化交流活動的日益頻繁,國內外語言產業(yè)獲得快速發(fā)展,產業(yè)形態(tài)日益多樣化,由原先的語言翻譯和語言教育服務等業(yè)態(tài)擴大到語言處理、語言能力提升和品牌名牌命名及品牌文化評估等業(yè)態(tài),產業(yè)總值呈幾何級數增加。
目前,語言服務創(chuàng)新資源主要集中于北京、上海和廣州等地。北京和上海均有一定數量的高校和研究機構從事語料庫建設與研究,較有影響力的有北京大學計算機系、北京外國語大學中國外語教育研究中心和上海交通大學外國語學院。
1.2 語言產業(yè)中語料庫的應用現狀與需求分析
國內語言服務需求具體表現為以下趨勢:外語培訓和語言翻譯服務發(fā)展勢頭猛;語言處理產業(yè)落后,各種語言支持服務的技術產業(yè)發(fā)展緩慢;品牌命名產業(yè)和針對功能性語言障礙的語言能力提升服務尚未啟動;漢語言文字的現代信息化處理技術仍有較大上升空間,漢語國際化的產業(yè)化水平低。根據以上分析,本項目主要集中于機助翻譯技術、語言教學與能力測試幾個方面:
(1)機助翻譯技術?;谝?guī)則的機助翻譯使用句法規(guī)則作為句式轉換的基礎,而常規(guī)的統(tǒng)計機助翻譯利用網絡語料對翻譯引擎進行訓練,利用雙語語料庫進行句對齊、詞對齊,利用單語語料庫構建轉換規(guī)則。目前的趨勢是將人工翻譯的高質量語料利用統(tǒng)計機助翻譯系統(tǒng)進行訓練,再利用機助翻譯的結果進行譯后編輯,以提高翻譯效率,這已經成為部分跨國企業(yè)的常規(guī)實踐。
(2)語言教學與測試。語料庫語言學在語言教學和語言測試中具有非常重要的作用。它可以幫助教師和學生了解語言中的典型現象,如詞匯量、詞匯頻率、搭配、習語、語義韻、難度、文體特征、翻譯對應詞等,許多過去全憑老師個人直覺的東西如今可以通過快速處理大規(guī)模數據得到驗證,從而使教材編纂和教學大綱更加客觀科學,也使語言教學更加高效。
2 語言服務平臺建設的內容
2.1 語言服務平臺的主要內容
本項目主要依托上海交大外國語學院的外語學科,以自主研發(fā)的4000萬字詞大規(guī)模英漢平行語料庫和法律、醫(yī)學、航空等專用語料庫為基礎,建設一個集語言學習、測試、翻譯于一體的綜合性語言服務平臺。該平臺主要分為三個部分,第一部分是自主語言學習模塊,第二部分語言水平測試模塊,第三部分是語言翻譯模塊。其中,每一部分都包括通用語言服務和行業(yè)專用語言服務兩大功能,可以滿足用戶多樣化的語言需求。
2.1.1 經過標引處理的英漢語料庫系統(tǒng)
大規(guī)模英漢/漢英語料庫是本項目的靈魂,是各項翻譯研究、實踐、教學以及其他應用研究的基礎。交大外院在20世紀80年代就建立起具有世界領先水平的科技語料庫。目前外院正在研制的大規(guī)模英漢/漢英平行語料庫以及為當代英漢/漢英平行語料庫的建設提供了重要物質基礎,為機助翻譯的研發(fā)奠定了良好的基礎。
項目正在建設的總字數達4千萬字詞的英漢雙語雙向平行語料庫,同時,已經建成若干行業(yè)專用語料庫,如航空科技英語語料庫、醫(yī)學英語語料庫。具體流程如下:
(1)語料采集。文本采集對象主要為高質量的文學作品、新聞稿件等真實語料。文本主要通過人工鍵盤輸入、人工掃描以及通過網絡下載等方法,并以純文本形式儲存。
(2)語料的加工。通過運用語料庫建設技術,對采集的文本進行消除噪音信息處理,并實現雙語文本在篇章、段落層面的對齊;同時對選用的語料素材進行信息標注(如語料素材的作者信息、出處、題材類型、語言質量等),對語料素材建立一個評價的基本信息庫。
(3)語塊匹配。通過計算機的語塊計算和提取技術,建立雙語對應具翻譯意義單位的語塊匹配數據庫,形成平行語料庫核心信息,為漢英翻譯和教學等應用提供基礎。
(4)頻數與概率分析。對于語塊數據庫,通過頻數和概率的計算機智能分析,統(tǒng)計出本語料庫中各種表達的意義、使用的語言形式和實現的功能的頻度和概率等基本信息。
(5)建成平行語料庫。實現雙語文本在句子層面與語塊層面的對齊,建成平行語料庫。
(6)構建漢英對應的辭典庫。在建立英漢/漢英語料庫的同時,建立一個漢英對應的數據庫,作為語料庫機助翻譯時的一個輔助系統(tǒng)。
2.1.2 英漢機助翻譯系統(tǒng)
交大外院的翻譯平臺以自主研發(fā)的海量英漢語料庫為基礎,以真實語境為翻譯核心,采用基于語塊匹配的翻譯原理,以此實現最準確的語義翻譯狀態(tài)。同時,根據已建成和即將建成的行業(yè)專用語料庫,開發(fā)出更適合具體行業(yè)應用的翻譯軟件。
本系統(tǒng)是實現英漢互譯過程中極其重要一項,目的在于向使用者提供一種方便、準確、具有親和性的在線英漢互譯應用服務。
(1)檢索、匹配模塊。本系統(tǒng)的關鍵在于建立一個智能化的語料庫翻譯檢索模塊。通過系統(tǒng)中的語塊計算與提取、雙語文本語塊模糊與精確匹配等技術,將需要翻譯的源語言與核心數據庫中積累的大量而真實的且經過標注處理的雙語語料在語塊、句子等層面進行匹配,找出一系列匹配性佳的雙語語句。一般做到提供5句最適匹配狀態(tài)的譯文語句,供譯者根據個人文風選擇。
(2)翻譯編輯模塊。基于檢索、匹配模塊,以語塊為主從語料庫中匹配出需翻譯語句的參考句,作為翻譯編輯的基礎;并且智能化地提供相應參考句的評價信息(如語言質量評價A、B、C三級和引用率),需要時提供參考句所處的段落語境。本模塊以匹配性最適的語句作為譯句的翻譯參考句,譯者也可以根據自己文風偏好選擇其他匹配的語句作為譯句的翻譯參考句。有助于譯者對機譯文本進行科學、合理的修飾、完善。在此基礎上,再輔以一定的常用的機助翻譯技術和漢英雙語專業(yè)科技詞典庫,向譯者提供可靠的翻譯文本。
(3)終端顯示模塊。顯示模塊核心主要有源文本輸入窗口、參考語句窗口、譯文編輯輸出窗口。在整個窗口操作過程中,所有操作盡可能由鼠標來完成,減少人工輸入的時間。
2.1.3 語言能力測試系統(tǒng)
該系統(tǒng)根據建成的語料庫,采用外院自主研發(fā)的語言測試系統(tǒng),對語言學習者的語言水平進行能力測試,并根據測試結果推薦其學習與能力相適應的課程。
歐洲共同語言能力分級(A1入門級 A2基礎級 B1進階級 B2高階級 C1流利級 C2精通級)為基礎,劃分語言學習者的能力等級。
2.1.4 語篇模式教學系統(tǒng)
這也是本項目的其中一大特色。我們將根據交大外院教師豐富的教學經驗,結合翻譯平臺系統(tǒng)的建設,為公眾提供一種創(chuàng)新性的基于真實語境的語言教學方式,并提供可量化的教學評估,向實證教學模式轉變。本系統(tǒng)由四大模塊構成。
(1)語篇分析模塊?;诮ǔ傻暮A空Z料庫,通過文本分析與數據檢索技術,對語篇進行引言、研究方法、數據結果、討論等方面的分析。系統(tǒng)設定有最適語篇教學長度,也可自行選定語篇長度。
(2)常用句子結構分析模塊。基于頻數和概率分析技術對句子結構分析,歸類出生活中或具體行業(yè)中常用的文獻句子結構,顯示對應語料庫中的語篇,從而給英語的寫作與翻譯學習給出指導。
(3)常用詞組、搭配模塊?;陬l數和概率分析技術,提取雙語語料庫的常用詞組及其搭配進行分析、練習,掌握生活中或具體行業(yè)中常用詞組搭配習慣和技巧。
(4)自我練習翻譯模塊。在本模塊中,學生可自行選定需要練習的內容,將練習譯文與語料庫范文對比。本模塊基于雙語文本語塊模糊與精確匹配技術,通過句式模板對比、同義詞對比、語義相似度對比,對用戶自我翻譯質量提出評價以及相應的建議。
2.2 技術創(chuàng)新特色
本項目的核心創(chuàng)新點主要體現在如下幾個方面:
(1)基于真實語言應用的翻譯研究和開發(fā)。本研究有別于傳統(tǒng)的基于理論模型的翻譯模式。傳統(tǒng)的機助翻譯研究往往從某個理論模型出發(fā),脫離真實語言應用;理想的模型在真實文本面前往往捉襟見肘。而基于真實語言使用語料的翻譯研究則需要多種復雜的技術。
(2)采用基于頻數和概率的計算機智能分析方法。語言經常表達的意義、經常使用的語言形式和實現的功能是最核心的內容,是翻譯研究的重點,基于頻數和概率的方法較為有效地解決有關的翻譯問題,而基于規(guī)則的傳統(tǒng)翻譯模式卻無法實現。
(3)以語塊為基本翻譯單位的機助翻譯。在真實的語言中,語塊是一個具有一定意義的翻譯單位,能準確表達其在文本中的含義。基于語塊匹配的機助翻譯,可以實現最準確的語義翻譯狀態(tài)。傳統(tǒng)的機助翻譯主要基于單個詞,這在文本使用中意義容易發(fā)生改變,產生歧義。而目前國外所開發(fā)的機助翻譯軟件一般均以單個句子為翻譯單位,翻譯過程中出現較為常見的翻譯匹配缺失現象。
英漢互譯平臺及行業(yè)專用翻譯軟件的表現形式的特色和創(chuàng)新體現在如下幾個方面:
(1)界面表現形式創(chuàng)新,有助于使用者應用。傳統(tǒng)的在線翻譯界面或翻譯軟件主要有兩個窗口:文本輸入窗口和文本輸出窗口。本項目除輸入、輸出窗口外,開設了基于語料庫的具有多重選擇的參考語句的窗口,可提供5句(種)具有最適匹配狀態(tài)的譯文語句,供譯者選擇。該窗口還可實現調用語句所處語料文本的功能,提供語段的語言環(huán)境;幫助在輸出窗口實現翻譯編輯。
(2)建立語料文本的語言質量評價和引用率系統(tǒng)。向譯者提供參考語句語言質量評價和使用信息,幫助譯者合理地選擇翻譯的參考語句,提高翻譯文本的翻譯質量;同時為翻譯教學提供一種可評價的依據。在語料選用時即根據語義翻譯的要求,按照譯文質量確定選用語料的等級(一般為A、B、C三級)。
(3)簡便操作系統(tǒng)。為提高翻譯者的工作效率,本系統(tǒng)著眼于盡量減少使用者鍵盤輸入的繁瑣操作,整個文本的機助翻譯過程只需鼠標輕松操作即可。
3 綜述
語料庫的建設是基于真實語境的,因此,以語料庫為基礎建立的語言服務平臺包含的內容也是基于真實語境的,這將對機助翻譯、語言學習、語言測試、語言教學起到良好的促進作用。
參考文獻
[1] 賀宏志,陳鵬.語言產業(yè)導論[M].北京:首都師范大學出版社,2012.
[2] 傅榮.《歐洲語言共同參考框架:學習、教學、評估》述評[J].國際漢語教學動態(tài)與研究,2008(4).
[3] 梁茂成,李文中,許家金.語料庫應用教程[M].北京:外語教學與研究出版社,2011.
[4] 胡開寶.語料庫翻譯學概論[M].上海:上海交通大學出版社,2011.