竇智
(北方民族大學(xué),銀川 750021)
自20世紀(jì)80年代以來(lái),美劇在中國(guó)大陸傳播發(fā)展已有38年。美劇在我國(guó)從小眾獨(dú)享到網(wǎng)絡(luò)熱播,正邁向全民化。學(xué)生是美劇的受眾群體之一,通過(guò)尋找美劇中的話(huà)題與外國(guó)人進(jìn)行跨文化的交流;觀看美劇不僅給人帶來(lái)視聽(tīng)享受,而且相比教材文本,可以學(xué)到最新實(shí)用的詞匯用法及口語(yǔ)表達(dá);借助美劇可以了解美國(guó)的政治、歷史、文化、社會(huì)和美國(guó)人的日常生活等知識(shí)。語(yǔ)言是不斷更新發(fā)展的,綜上,美劇是學(xué)習(xí)英語(yǔ)最鮮活生動(dòng)的資料。然而由于網(wǎng)絡(luò)傳播中的美劇作品不帶有中文字幕,這就催生了一批字幕翻譯員,盡管翻譯出了美劇臺(tái)詞的主要意思,但翻譯質(zhì)量難免良莠不齊。這就引出了對(duì)翻譯規(guī)范、譯者風(fēng)格和翻譯策略等翻譯學(xué)的研究,美劇語(yǔ)料庫(kù)的建設(shè)是千呼萬(wàn)喚始出來(lái)。因此,建設(shè)一個(gè)美劇字幕翻譯英漢語(yǔ)料庫(kù)可為后來(lái)的影視翻譯研究提供平臺(tái)基礎(chǔ)[1]。
語(yǔ)料庫(kù)是以計(jì)算機(jī)為載體承載語(yǔ)言知識(shí)的基礎(chǔ)資源;存放的是實(shí)際使用中真實(shí)出現(xiàn)過(guò)的語(yǔ)言材料。這些真實(shí)語(yǔ)料要經(jīng)過(guò)加工處理,才會(huì)成為有研究?jī)r(jià)值的資源。語(yǔ)料庫(kù)憑借電子計(jì)算機(jī)操作系統(tǒng)和相關(guān)語(yǔ)料庫(kù)軟件,對(duì)所收集語(yǔ)料進(jìn)行賦碼和標(biāo)注處理,實(shí)現(xiàn)語(yǔ)料的自動(dòng)存儲(chǔ)、檢索和統(tǒng)計(jì)(胡開(kāi)寶2011)。雙語(yǔ)平行語(yǔ)料庫(kù)可以使兩種或兩種以上的語(yǔ)言對(duì)比,具備微觀研究和宏觀研究結(jié)合的優(yōu)勢(shì)。語(yǔ)料庫(kù)尤其是平行語(yǔ)料庫(kù)作為一種研究工具,在語(yǔ)言學(xué)研究,尤其是翻譯學(xué)、自然語(yǔ)言處理以及機(jī)器翻譯等研究領(lǐng)域起著越來(lái)越不可替代的作用[2]。
近年來(lái)英語(yǔ)國(guó)家的影視作品對(duì)英語(yǔ)學(xué)習(xí)者產(chǎn)生了影響,尤其臺(tái)詞的模仿在語(yǔ)言交流中隨處耳聞。迄今為止,國(guó)內(nèi)尚無(wú)該領(lǐng)域建成可用的美劇字幕語(yǔ)料庫(kù)。在選擇語(yǔ)料庫(kù)類(lèi)型時(shí),根據(jù)研究需要,選擇能匹配美劇字幕翻譯的雙語(yǔ)平行語(yǔ)料庫(kù)。王克非(2004a)指出平行語(yǔ)料是由源語(yǔ)文本及其平行對(duì)應(yīng)的譯語(yǔ)文本構(gòu)成的雙語(yǔ)語(yǔ)料庫(kù)。與其他語(yǔ)料庫(kù)相比,平行語(yǔ)料庫(kù)的優(yōu)勢(shì)在于能自動(dòng)呈現(xiàn)兩種或兩種以上的語(yǔ)句對(duì)應(yīng)關(guān)系。建設(shè)美劇字幕庫(kù)的目的是為了后續(xù)在此平臺(tái)的基礎(chǔ)上進(jìn)行研究:①翻譯語(yǔ)言特征和規(guī)范研究;②美劇的口語(yǔ)俚語(yǔ)研究;③美國(guó)社會(huì)文化的反映;④譯者風(fēng)格和翻譯教學(xué)等研究。因此,本項(xiàng)目組自建一個(gè)小型的美劇字幕翻譯英漢雙語(yǔ)平行語(yǔ)料庫(kù),以填補(bǔ)該領(lǐng)域的空白[3]。
人們普遍認(rèn)為語(yǔ)料庫(kù)規(guī)模越大,就越有研究語(yǔ)言應(yīng)用的價(jià)值,然而任何語(yǔ)料庫(kù)只代表關(guān)于語(yǔ)言應(yīng)用現(xiàn)狀的小樣本(胡開(kāi)寶2011a)。所以應(yīng)根據(jù)設(shè)計(jì)目的和語(yǔ)料庫(kù)屬性來(lái)確定語(yǔ)料庫(kù)規(guī)模,不可盲目求大。由于處理難度高,平行語(yǔ)料庫(kù)的發(fā)展一直滯后于其他類(lèi)型語(yǔ)料庫(kù),而且平行語(yǔ)料庫(kù)耗費(fèi)大量時(shí)間和精力,故本項(xiàng)目建設(shè)一個(gè)容納100萬(wàn)詞的小型美劇字幕平行語(yǔ)料庫(kù),以共時(shí)性為主,即主要收集二十世紀(jì)后半葉和二十一世紀(jì)的有影響力的語(yǔ)料,保證語(yǔ)言文本的新鮮和經(jīng)典。
語(yǔ)料庫(kù)根據(jù)收錄語(yǔ)料內(nèi)容的不同分為四種:異質(zhì)型(Heterogeneous corpus)廣泛收錄各種語(yǔ)料;同質(zhì)型(Homogeneous)只收集同一類(lèi)別的語(yǔ)料;系統(tǒng)型(Systematic)選用的語(yǔ)料有平衡性和系統(tǒng)性,反應(yīng)語(yǔ)言的全貌;專(zhuān)用型(Specialized)是為特定用途而建立的語(yǔ)料。本語(yǔ)料庫(kù)屬于同質(zhì)、專(zhuān)用型,主要抽樣采集幾部當(dāng)代熱播美劇和經(jīng)典影片,對(duì)英語(yǔ)學(xué)習(xí)者有影響的和受同學(xué)們喜聞樂(lè)見(jiàn)的影視字幕,如《紙牌屋》、《權(quán)利的游戲》、《摩登家庭》、《亂世佳人》美劇。
采集語(yǔ)料在人人影視、字幕庫(kù)等網(wǎng)站下載字幕文件包,解壓文件包進(jìn)行篩選,留下漢語(yǔ)和英語(yǔ)的簡(jiǎn)寫(xiě)文本。多數(shù)字幕文件的英漢雙語(yǔ)在一個(gè)文件里,需要人工分開(kāi)將英語(yǔ)和漢語(yǔ)另存一個(gè)文本,然后用計(jì)算機(jī)軟件對(duì)語(yǔ)料進(jìn)行去噪和加工。
選用的文本編輯軟件是Emeditor,其操作便捷,支持多種配置。用此編輯器進(jìn)行文本凈化,清除時(shí)間軸和字體代碼等嘈雜的信息,數(shù)字和不必要的空格以及符號(hào)也清除,之后務(wù)必在篇頭處保留譯者的名字。此操作的輔助功能為計(jì)算機(jī)的搜索和替換功能,使用正則表達(dá)式批量處理,目的是保證英語(yǔ)和漢語(yǔ)的句子匹配對(duì)齊。由于下載的字幕包里漢語(yǔ)部分沒(méi)有標(biāo)點(diǎn),所以對(duì)著英語(yǔ)部分句對(duì)句的手動(dòng)添加標(biāo)點(diǎn),這也是平行語(yǔ)料庫(kù)耗時(shí)耗力的原因之一。處理完畢后進(jìn)行語(yǔ)料的初步校對(duì),清除雜質(zhì),將無(wú)法匹配的影視劇中出現(xiàn)的專(zhuān)有名詞如場(chǎng)景、地名等刪除,然后將英語(yǔ)和漢語(yǔ)分別存在一個(gè)文件夾里,存儲(chǔ)格式為txt格式,文件名標(biāo)寫(xiě)清晰的美劇名稱(chēng)。
所謂標(biāo)注(也稱(chēng)附碼)把各種表示語(yǔ)言特征的附碼標(biāo)注在相應(yīng)的語(yǔ)言成分上,便于計(jì)算機(jī)識(shí)讀。無(wú)論是計(jì)算機(jī)自動(dòng)還是人工標(biāo)注,都不能削除失誤(余國(guó)良2009a)。標(biāo)注分為詞性標(biāo)注、詞義標(biāo)注、句法標(biāo)注和語(yǔ)篇標(biāo)注,通過(guò)這些加工,語(yǔ)料才變成有利用價(jià)值的研究材料。本項(xiàng)目選用了詞性標(biāo)注,即用詞性符號(hào)標(biāo)記單詞的詞性,如動(dòng)詞,形容詞。
針對(duì)漢語(yǔ)語(yǔ)料,用漢語(yǔ)詞性標(biāo)注工具軟件,該應(yīng)用程序操作便捷,可批量處理文件。打開(kāi)軟件加載漢語(yǔ)文件夾,選擇要處理的文件,點(diǎn)擊開(kāi)始切分標(biāo)注,瞬間得到標(biāo)注成功的漢語(yǔ)語(yǔ)料。針對(duì)英語(yǔ)語(yǔ)料,使用的軟件為T(mén)agAnt,每次只能處理一個(gè)保存為utf-8格式的文檔。點(diǎn)擊input files選擇要處理的英語(yǔ)語(yǔ)料,按start瞬間得到標(biāo)注成功的英語(yǔ)語(yǔ)料。然后打開(kāi)標(biāo)注后的語(yǔ)料,在英漢雙語(yǔ)的句號(hào)、問(wèn)號(hào)和嘆號(hào)處加上</seg> <seg>分句符號(hào),可用計(jì)算機(jī)的查找替換功能操作,勾選正則表達(dá)式是批量處理。
ParaConc是強(qiáng)大的語(yǔ)言分析軟件,可以處理無(wú)限量的平行語(yǔ)料;可以保存或打印檢索結(jié)果為純文本文件;可以實(shí)現(xiàn)多語(yǔ)言文本的對(duì)齊,熱詞搜索,詞頻統(tǒng)計(jì)等功能。打開(kāi)軟件,首先在菜單里勾選Load Corpus Files,在Parallel Texts欄目里選擇語(yǔ)言種類(lèi),點(diǎn)擊Add添加文本。最后選擇所需的對(duì)齊格式(Align Format),點(diǎn)擊Ok。其次在菜單里選擇 View Corpus Alignment,選中文檔點(diǎn)擊Alignment,即可看到文本的平行狀態(tài)。計(jì)算機(jī)對(duì)齊有很大誤差,需要人工校對(duì)每個(gè)句子的匹配,當(dāng)發(fā)現(xiàn)一對(duì)多或者多對(duì)一時(shí),點(diǎn)擊鼠標(biāo)右鍵進(jìn)行句子的合并或分開(kāi)。當(dāng)發(fā)現(xiàn)句子里有多余符號(hào)或誤差很大時(shí),返回原語(yǔ)料文本,凈化噪點(diǎn),即重新操作,直到完美對(duì)齊,以方便檢索。
語(yǔ)料的保存有兩種方法。一是點(diǎn)擊file菜單里的save workspace as,生成兩個(gè)分別以BIN和PWS為名字后綴的文件。Workspace的兩個(gè)文件不能移動(dòng)位置,會(huì)因?yàn)楦穆窂酱蜷_(kāi)失敗;二是點(diǎn)擊file里的export corpus files,在文件名前加上A-,保存到文件夾中。導(dǎo)入語(yǔ)料后,進(jìn)行語(yǔ)料庫(kù)的搜索功能,打開(kāi)Search菜單,選擇語(yǔ)言類(lèi)型和輸入要找的字符。鼠標(biāo)移到搜索的文檔區(qū)域,點(diǎn)擊右鍵勾選Hot Words,即顯示熱詞。
語(yǔ)料庫(kù)翻譯學(xué)方興未艾,而平行語(yǔ)料庫(kù)是適合翻譯研究的最佳平臺(tái)。建設(shè)平行語(yǔ)料庫(kù)難度較大,步驟多且耗時(shí)耗力,且不能保證完全沒(méi)有誤差。本文將建庫(kù)過(guò)程和方法全部展現(xiàn)出來(lái),這個(gè)小型美劇字幕英漢平行語(yǔ)料庫(kù)是拋磚引玉之作,期待業(yè)界研發(fā)出更完善的計(jì)算機(jī)軟件,探索出建設(shè)平行語(yǔ)料庫(kù)更便捷的方法。