蔣娜 王禹丁
(1.南寧理工學院,廣西 桂林 541000;2.廣西民族大學,廣西 南寧 530000)
中華人民共和國國務院在2016年12月印發(fā)了有關(guān)旅游業(yè)發(fā)展的規(guī)劃,強調(diào)未來五年我國旅游業(yè)的發(fā)展方向和目標,其中強化國際影響力是目標之一。開展國際旅游合作,給入境游客提供便利,使入境旅游持續(xù)增長。作為國際知名的旅游景區(qū),桂林地區(qū)旅游業(yè)發(fā)展速度逐漸提升,每年的旅游人數(shù)顯著增加,但是在發(fā)展過程中旅游語料庫的建設(shè)還有待完善。旅游語料庫屬于專門用途語料庫,是旅游領(lǐng)域的大量真實語言文本的集合。目前,我國國內(nèi)的旅游語料庫已有建設(shè),但數(shù)量不多,且集中在英語單學科語料庫,本研究將實現(xiàn)英漢雙語和信息化的研究融合。桂林旅游語料庫的創(chuàng)建可用于輔助桂林旅游外宣資料的翻譯和翻譯教學。
平行語料庫的研究始于20世紀90年代,與國外相比,我國的平行語料庫建設(shè)時間較晚。在國外建設(shè)的過程中,其大規(guī)模的平行語料庫有一百多個,且包含10多個歐洲語種,借助平行語料庫,能夠有效提升其英語語料庫的使用質(zhì)量。國外研究者在語料庫的研究中,主要結(jié)合地區(qū)發(fā)展實際情況,發(fā)揮語料庫的應用作用和優(yōu)勢。在國外發(fā)展過程中,以旅游文本為語料的專門語料庫主要有三個,分別是芬蘭薩翁林納翻譯研究學院英語教師Michael Wilkinson構(gòu)建的相關(guān)英語旅游文本語料庫,包含多至670,000的詞匯。同時,一些英國國家的研究生在英語旅游文本語料庫的研究中,對相關(guān)詞匯進行有效收集,以期更好地應用其中的詞匯內(nèi)容提升工作水平。該語料庫主要收集了酒店、餐館和旅行社的宣傳資料和政府旅游部門的介紹;日本大學(Nihon University)Kiyomi等人于2006年研制的“京都旅游語料庫”(Kyoto Tourism Corpus)共885篇,平均每篇47個詞,收集的內(nèi)容均為日本京都市旅游介紹的文本。這三個旅游語料庫都屬于小規(guī)模語料庫,容量不超過100萬詞。
在國內(nèi)發(fā)展過程中,我國已經(jīng)構(gòu)建平行語料庫,而且還有一些漢語英語平行的語料庫或者英語漢語文學作品語料庫。通過相關(guān)語料庫的應用,能夠提升我國對語料庫研究的水平和效率。在語料庫的研究和應用中,主要借鑒國外語料庫研究的優(yōu)勢和特征,根據(jù)國家和地區(qū)發(fā)展實際需要,構(gòu)建完善的語料庫體系,從而將相關(guān)語料庫內(nèi)容更好地應用在實際工作中,提升各項工作開展水平和效率,盡可能地為將來旅游行業(yè)發(fā)展和建設(shè)提供保障,發(fā)揮語料庫的優(yōu)勢和作用。就旅游文本而言,我國中科院研制了旅游咨詢口語對話語料庫和旅館預訂口語對話語料庫。
總的來說,我國的語料庫起步較晚,主要參照國外相關(guān)語料庫的模式進行建立。同時,在已經(jīng)建成的語料庫中,主要以英語學習為主,發(fā)揮英語學習的作用。
語料庫的發(fā)展從最初的詞的一般分析,如詞頻統(tǒng)計功能,逐步擴展到詞的語法屬性標等功能。除此之外,漢語語料庫的建設(shè)中存在缺乏技術(shù)支撐的問題,而且很多國外研發(fā)的成熟軟件并不能識別漢字,而在已經(jīng)建成的語料庫資源中,涉及的單語語料庫較多,雙語語料庫較少。因此,近20年來,人們開始將語料庫用于翻譯研究,主要構(gòu)建了以下三類語料庫:第一種是譯文語料庫,第二種是類比語料庫,第三種是雙語對應語料庫。在這三種語料庫的應用中,通常是以文學文本為主,或者收納百科文本為特色,根據(jù)地區(qū)特點專門研制和開發(fā)的雙語語料庫則存在不足。
基于前面的研究背景,研究者決定創(chuàng)建桂林旅游英漢雙語平行語料庫。該語料庫的創(chuàng)建和其他雙語語料庫的創(chuàng)建過程相似,大致需要經(jīng)過以下幾個過程:語料采集、語料整理、術(shù)語切分和提取、語料加工與標注和語料對齊。與其他雙語語料庫相比,桂林旅游英漢雙語平行語料庫具有地域性和針對性的特點。
語料收集是語料庫建立的第一步。桂林旅游景區(qū)眾多,市內(nèi)有七星公園、象鼻山、疊彩山、蘆笛巖等景區(qū),郊區(qū)以陽朔為代表,有大榕樹、蝴蝶泉、興坪和九馬畫山等景點。桂林旅游英漢雙語平行語料庫的語料來源眾多,格式多樣,在語料選取時需考慮其內(nèi)容的科學性和語料的代表性。首先,對語料的來源進行嚴格篩選,搜集的語料選用官方的雙語報告、景點宣傳材料、景區(qū)公示語、影視媒體劇本或字幕等。語料有紙質(zhì)的出版物、宣傳冊,也有電子書或者網(wǎng)頁下載的資料。其次,將收集的語料按照不同的來源存入相應的文件夾,分類整理,例如,景區(qū)景點、網(wǎng)絡和政府文件等,也可以按景點歸類整理。文件結(jié)尾處標明語料出處、作者及時間等信息。最后,為增加語料的有效性和可靠性,本語料庫還收集了國家標準委、教育部、國家語委發(fā)布的《公共服務領(lǐng)域英文譯寫規(guī)范》中關(guān)于旅游的部分。
語料收集后,需要對語料進行處理。針對不同形式的語料采取不同的方式進行處理,最終將語料變成電子文本形式供建庫使用。紙質(zhì)的書籍需要轉(zhuǎn)變OCR,然后讓其成為可檢索的電子版。同時,影視媒體字幕運用技術(shù)方法對其中的字幕進行提取,從而轉(zhuǎn)化成為能夠應用的電子版文本。在PDF格式文檔運用轉(zhuǎn)化軟件轉(zhuǎn)換生成純文本的過程中,可以為其資源的應用提供保障。印刷文本需要運用軟件掃描,通過格式化的轉(zhuǎn)化,讓其成為純文本格式。在用于語料庫的文本中,都需要經(jīng)過處理后保存為純文本格式。所有用于建庫的文檔經(jīng)處理后保存為純文本格式。對于非中英文對應的文本,可使用雪人CAT軟件對雙語語料和術(shù)語進行對齊處理。所有收集的語料使用文本格式處理軟件對相關(guān)內(nèi)容進行降噪處理,并對多余的空格、空行進行剔除,還會刪除一些無關(guān)的語言符號、圖形圖像等,得出清潔文本。然后檢查語料中的拼寫和語法錯誤等。
完成術(shù)語提取后,還應對語料做適當深加工,使平行語料庫更好地發(fā)揮其作用。語料深加工的技術(shù)和方法主要有自動分詞、詞性標注、句法分析、語義標注以及相關(guān)加工中的自動校對和一致性檢驗技術(shù)。對語料篇頭信息的標注可以采用標準通用標記語言(SGML)進行,標注語料樣本的屬性如語體、領(lǐng)域及作者等信息。對語篇的標注包括詞性標注、句法分析和語義標注等。針對具體研究問題,還可以對語料進行詞性標注自動校對和一致性檢驗、句法庫一致性檢驗等深加工處理。經(jīng)過深度加工和標注的語料,以便使用各種檢索軟件統(tǒng)計語言數(shù)據(jù)并加以分析。
語料對齊是指在平行語料庫中原文和譯文的相同語言單位之間建立對應關(guān)系的過程。平行語料庫中的雙語語料在使用雙語檢索軟件統(tǒng)計分析之前,需要通過對齊處理的方式,將雙語語料的對齊分為段落對齊、句子對齊等,還包含短語對齊、詞語對齊等。為實現(xiàn)句子對齊目的,研究者將對平行語料庫中的雙語語料,使用雪人CAT軟件自帶對齊工具進行句子對齊處理。為提高對齊的準確性,經(jīng)過雪人CAT軟件進行自動對齊后,再進行人工檢查和校對。雪人CAT軟件可以對一篇雙語文章或者中英文分開的兩篇文章進行句子對齊,大大提高了對齊效率。
旅游雙語文本經(jīng)過整理就構(gòu)成了英漢平行語料庫所需的語料。啟動雪人CAT軟件,載入所需語料文本,便可使用自己構(gòu)建的桂林旅游英漢雙語平行語料庫。在進行旅游外宣資料的翻譯時,通過關(guān)鍵詞檢索,可以檢索到語料庫中大量的英漢對照語言實例。借助旅游雙語平行語料庫,能快速地檢索,有效對比待翻譯材料和語料庫本中相關(guān)常用表達方式,增強桂林旅游資料翻譯的水平,提高桂林旅游環(huán)境建設(shè)水平。
桂林旅游雙語平行語料庫也可用于翻譯教學和實踐。桂林旅游雙語平行語料庫中的大量翻譯語料,能為學生提供真實翻譯材料,幫助學生補充相關(guān)背景知識,有利于學生借鑒翻譯句式、提升翻譯技巧和培養(yǎng)翻譯意識。此外,利用平行語料庫中提取的英漢雙語術(shù)語,還可以開展有關(guān)術(shù)語翻譯研究的工作,或者制作術(shù)語庫和記憶庫,加強計算機輔助翻譯實踐與研究工作以及編纂術(shù)語詞典。
桂林旅游英漢雙語平行語料庫的構(gòu)建是在《“十三五”旅游業(yè)發(fā)展規(guī)劃》大背景下提出的。借助語料庫,既能進行旅游外宣資料的翻譯、旅游公示語建設(shè)等,有助于提高桂林旅游資料翻譯的質(zhì)量,又能應用于翻譯教學和實踐,輔助學生提升翻譯意識和能力。由于課題組時間有限,所以在語料庫的研究中還存在問題,如語料庫規(guī)模偏小、翻譯標注程度有限等問題。語料規(guī)模的問題可以通過后期增加、不斷擴展來解決,語料的標注也可以不斷完善,提高其應用價值。