張海燕
隨著我國國際話語體系建設(shè)的不斷深入,國際傳播事業(yè)需要不斷優(yōu)化傳播布局、拓展傳播渠道、完善機(jī)制平臺并深化融合發(fā)展,從而更好地對外傳播中國發(fā)展成就并積極影響對象國涉華輿論生態(tài)。為更好貫徹落實國家相關(guān)文件以及習(xí)近平總書記在黨的十九大報告中提出的要高度重視傳播手段建設(shè)和創(chuàng)新,提高新聞輿論傳播力、引導(dǎo)力、影響力和公信力,黨的國際傳播事業(yè)要抓住時機(jī)、把握節(jié)奏、講究策略,體現(xiàn)時度效要求等重要講話精神,外宣媒體需進(jìn)一步強(qiáng)化信息化服務(wù),講好中國故事,對外展現(xiàn)真實、立體、全面的中國形象,綜合提高國家文化軟實力。
一、我國語料庫建設(shè)背景及調(diào)研情況
在人工智能促進(jìn)語言服務(wù)發(fā)展過程中,作為覆蓋范圍及應(yīng)用領(lǐng)域日益廣泛的語料庫在提高翻譯教學(xué)質(zhì)量、培養(yǎng)優(yōu)秀譯員及促進(jìn)計算機(jī)輔助翻譯中發(fā)揮著日益重要的作用。雙語和多語語料庫按照語料的組織形式,還可以分為平行(對齊)語料庫和比較語料庫,前者的語料構(gòu)成譯文關(guān)系,多用于機(jī)器翻譯、雙語詞典編撰等應(yīng)用領(lǐng)域,后者將表述同樣內(nèi)容的不同語言文本收集到一起,多用于語言對比研究。目前,我國已經(jīng)累積了大量各種類型的語料庫,如:葡萄牙語種樹庫、面向文本分類研究的中英文新聞分類語料庫、路透社文本分類訓(xùn)練語料庫、中文文本分類語料庫、大開放字幕庫Open Subtitles的多語言平行語料數(shù)據(jù)(Open Subtitles Corpus)、《圣經(jīng)》雙語語料庫("Bible" bilingual corpus)、Short messages service(SMS) corpus(短消息服務(wù)(SMS)語料)等。
語料庫有三點特征,一是語料庫中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料,因此例句庫通常不應(yīng)算作語料庫;二是語料庫是承載語言知識的基礎(chǔ)資源,但并不等于語言知識;三是真實語料需要經(jīng)過加工(分析和處理),才能成為有用的資源。
目前國際和國內(nèi)已有大量已建成的語料庫,英美國家語料庫建設(shè)走在世界前列,如BNC英國國家語料庫、美國當(dāng)代英語語料庫。我國外語語料庫建設(shè)多集中于外語口譯、教學(xué)等領(lǐng)域,語種以英語居多,中國學(xué)習(xí)者英語語料庫及中國英語學(xué)習(xí)者口語語料庫等,實施單位多為高??蒲袡C(jī)構(gòu)等,但針對國際傳播的專項人工智能語料庫建設(shè)仍為空白領(lǐng)域。
人工智能翻譯雖發(fā)展迅速,但因數(shù)字語料庫尤其是國際傳播相應(yīng)的語料庫建設(shè)相對滯后,目前,語料庫使用者多為外語專業(yè)、國際新聞專業(yè)學(xué)生,或只能在內(nèi)網(wǎng)中使用導(dǎo)致范圍受限,或缺乏持久建設(shè)已經(jīng)無法正常使用。國際傳播領(lǐng)域應(yīng)用人工智能翻譯存在大量錯譯現(xiàn)象,傳統(tǒng)人工翻譯無法緊跟中譯外工作量的爆發(fā)式增長,為此,人工智能翻譯建設(shè)已經(jīng)迫在眉睫,國際傳播語料庫建設(shè)是解決關(guān)鍵基礎(chǔ)性建設(shè)障礙的重中之重。要提升人工智能翻譯特別是中譯外的準(zhǔn)確性,就必須盡快啟動大型中外對譯語料庫的建設(shè),為國際傳播與走出去提供權(quán)威可靠的服務(wù)。
二、加強(qiáng)國際傳播專業(yè)語料庫建設(shè)的意義
習(xí)近平總書記在十九大報告中指出,要高度重視傳播手段建設(shè)和創(chuàng)新,提高新聞輿論傳播力、引導(dǎo)力、影響力、公信力。加強(qiáng)中外人文交流,以我為主、兼收并蓄。推進(jìn)國際傳播能力建設(shè),講好中國故事,展現(xiàn)真實、立體、全面的中國,提高國家文化軟實力。我國經(jīng)濟(jì)和文化的走出去,尤其是“一帶一路”等倡議的實施,導(dǎo)致中譯外工作量大幅增加,目前中譯外人才十分緊缺。
經(jīng)調(diào)研,從2013年起我國整體翻譯業(yè)務(wù)中中譯外業(yè)務(wù)量比例開始顯著高于外譯中業(yè)務(wù)量,同年黨中央提出的“一帶一路”倡議,極大地拓展了向國際社會展示自己和對外交流的資源和實力。然而翻譯人才,尤其是中譯外人才存在嚴(yán)重匱乏,其中“一帶一路”沿線國家小語種人才缺口較大等問題在嚴(yán)重制約中國特色政治話語體系的全面外譯以及我國國際話語權(quán)地位的提升。以“一帶一路”沿線國家使用的小語種為例,“一帶一路”沿線國家所使用的官方語言及主要民族語言總共約60余種,2013年“一帶一路”倡議提出時,我國高校外語專業(yè)招生語種只覆蓋了其中20種,而且11個小語種人數(shù)不超過100人,其中8個語種在50人以內(nèi)。截至目前,我國尚未有高校開設(shè)的語種有18種,僅有1所高校開設(shè)的語言有20種,而且已開設(shè)的一些語種也存在人才儲備不足的情況。在國際傳播方面,我國懂新聞專業(yè)知識、懂傳播技術(shù)同時又精通外語的“三通”復(fù)合型語言服務(wù)人才更加稀缺。與此同時,可有效彌補(bǔ)多語、小語種人才緊缺的人工智能翻譯,如微軟、百度機(jī)器翻譯軟件應(yīng)用仍缺乏政治方向翻譯專業(yè)性且翻譯質(zhì)量精準(zhǔn)度較低。外語語料庫尤其是小語種語料庫建設(shè)不足影響多語人才的專業(yè)教育,以及國際傳播專業(yè)學(xué)科建設(shè)及高等教育的改善。
三、國際傳播專業(yè)語料庫建設(shè)的基本任務(wù)及內(nèi)容
國際傳播專業(yè)語料庫可立足于中國外文局等外宣單位多年來對外說明中國的多語資源,數(shù)據(jù)類型可從詞、句對、語篇到文章、期刊雜志和書籍。
語料庫建設(shè)前期準(zhǔn)備。首先,語料庫的建設(shè)將使用最新語料庫分析統(tǒng)計軟件,該軟件具有索引、詞表生成、主題詞計算、搭配和詞族提取等多種功能,這為國際傳播專業(yè)語料庫建設(shè)項目的開展提供了強(qiáng)大的技術(shù)支持。其次,還可以大量閱讀專業(yè)文獻(xiàn)資料作為基礎(chǔ),同時借鑒其他權(quán)威語料庫建設(shè)經(jīng)驗。語料類別可依據(jù)是否有中文對照分為平行語料庫及比較語料庫兩種,以具有70余年外宣工作經(jīng)驗的中國外文局為例,前者多以外文局歷史數(shù)據(jù)為主,涉及外文出版社、《今日中國》及《人民中國》中外文對照語料。后者多以《北京周報》、新華社對外部、《求是》(英文版)、《環(huán)球時報》(英文版)等外文語料為主。
語料庫架構(gòu)及功能設(shè)計及加工。國際傳播專業(yè)語料可通過多種方式進(jìn)行文本采集,如大量分析真實歷史語言數(shù)據(jù)、利用網(wǎng)絡(luò)現(xiàn)有語料資源等。語料庫的建設(shè)涉及到語料庫題材、規(guī)模、樣本的大小、切分標(biāo)注標(biāo)準(zhǔn)等,此外還要充分考慮語料代表性、平衡性、一致性、標(biāo)簽集、描述元語言等許多問題。語料庫的建設(shè)還涉及到多種新聞題材,如政治、經(jīng)濟(jì)及文化術(shù)語和科技專利翻譯相關(guān)名詞等。
在外宣業(yè)務(wù)單位歷史資料及中央機(jī)關(guān)和國家外事外宣部門廣泛收集語料。首先,在語料庫的大體結(jié)構(gòu)設(shè)計完成后,查詢并收集關(guān)于“一帶一路”方面的各種國際傳播相關(guān)語料,以“一帶一路”為例,可以歸納的高頻主題名詞有:合作、一帶、一路、國家、絲綢之路、愿景、開放、貿(mào)易、發(fā)展、互聯(lián)、互利共贏、投資、亞洲、文化、機(jī)制、地區(qū)、二十一世紀(jì)、合作、基礎(chǔ)設(shè)施,等等。同時,“一帶一路”倡議主題高頻形容詞及副詞有“互相的、經(jīng)濟(jì)的、共同地、地區(qū)的、國際的、跨邊界的、海上的、文化的、多邊的”,這些詞語在情態(tài)上具有很強(qiáng)的評價功能,它們在強(qiáng)調(diào)相互合作重要性的基礎(chǔ)上進(jìn)一步強(qiáng)調(diào)了構(gòu)建命運(yùn)、經(jīng)濟(jì)和責(zé)任共同體的重要性以及建設(shè)海上絲綢之路和多邊文化交流的必要性。其次,語料庫還應(yīng)時刻關(guān)注中央機(jī)關(guān)及國家外事外宣部門主要國際傳播活動最新動向,不斷收集有關(guān)科技專利翻譯以及影視字幕翻譯有關(guān)的詞、固定搭配以及句子等。為了提高翻譯質(zhì)量,語料庫在收錄大量詞、句的同時還應(yīng)深入挖掘其文化內(nèi)涵并將這些詞、句進(jìn)行有機(jī)整合。
語料庫后期維護(hù)。語料庫建成后,需要不斷進(jìn)行日常的維護(hù)和升級以適應(yīng)新的軟硬件和用戶需求的改變。國際傳播相關(guān)的語料庫會隨著各類活動的開展而不斷更新,以確保其代表性、時效性。
四、國際傳播語料庫未來前景
語料庫建設(shè)能夠提高翻譯教學(xué)質(zhì)量、翻譯人才培養(yǎng)質(zhì)量及譯員翻譯質(zhì)量,從而有利于充分挖掘、整合各外宣媒體豐富多元的文化資源,提高國際傳播工作適應(yīng)新媒體形式的積極性和主動性,真正實現(xiàn)不同文化之間的高質(zhì)量交流與融合,并切實推動中華優(yōu)秀傳統(tǒng)文化走向世界,從而促進(jìn)加強(qiáng)國際傳播能力建設(shè)的貫徹實施,為講好中國故事奠定良好基礎(chǔ)。而另一方面,作為一種新型的網(wǎng)絡(luò)學(xué)習(xí)資源,國際傳播語料庫建設(shè)能夠為國際傳播從業(yè)者提供一個全面了解國際傳播相關(guān)術(shù)語、專利術(shù)語及其他領(lǐng)域?qū)I(yè)知識的渠道,使其更加了解多語及背景文化差異,可以在提高整體翻譯水平的同時,促進(jìn)國際傳播事業(yè)實現(xiàn)長足發(fā)展。endprint