雷小玉,楊沙沙
廣西大學外國語學院,南寧,530004
?
基于語料庫的中國企業(yè)網站本地化翻譯文本特征分析
雷小玉,楊沙沙
廣西大學外國語學院,南寧,530004
從中國企業(yè)的本地化英文網站和英美企業(yè)英文原創(chuàng)網站中抽取關于企業(yè)簡介的文本部分自建兩個小型的英文可比語料庫,采用Word Smith Tools 6、AntConc3.4.3、TreeTagger和Range32等工具,考察文本在詞匯、句子、語篇等不同方面的統(tǒng)計特征。結果顯示,中國企業(yè)的網站本地化翻譯文本詞匯豐富度較低,信息密度和詞匯難度較高,單詞、句子和語篇較長,且傾向于使用第三人稱。同時,提出了企業(yè)和本地化譯者應該充分了解本地化,具備跨文化意識的建議。
網站本地化翻譯;企業(yè)簡介;語料庫
隨著科學技術的進步與國際間交流的日益深入,本地化行業(yè)應運而生。本地化行業(yè)標準協(xié)會(LISA)將本地化定義為:對產品或服務進行修改,以適應不同市場中出現(xiàn)的差異的過程[1]5。本地化行業(yè)的目的是要讓本地化的產品看起來或者用起來都像是目標地區(qū)原創(chuàng)產品一樣。本地化包括聲音、圖像、文字編排等許多超文本因素,要關注語言、實物、商業(yè)和文化以及技術等方面的問題,其中語言問題即翻譯。本地化按照其產品類型可分為網站本地化、軟件本地化、多媒體本地化、手機APP本地化等[2]。網站本地化是指將互聯(lián)網信息從一種初始形式轉變成符合相關地區(qū)的語言文化需求的信息形式。網站本地化翻譯是翻譯模式的一種擴展,是企業(yè)全球化戰(zhàn)略的重要組成部分。國外將網站本地化作為一項重要的翻譯產業(yè)進行研究開始于20世紀80年代,可粗略地劃分為三大類別:網站本地化的技術研究、網站本地化翻譯人才的培養(yǎng)以及網站本地化翻譯策略研究[3]。與西方學界相比,國內關于網站本地化的研究起步較晚,目前還處于初步階段,主要集中在以下幾個方面:(1)對網站本地化相關概念性的探討,如馬文麗等探討翻譯在網絡本地化背景下的新語言支持形象[4];陳誼探討了全球化背景下的本地化翻譯,從全球化戰(zhàn)略、國際化設計、本地化集成和語言翻譯等四個方面對本地化進行了全面地梳理[5];(2)對網站本地化翻譯中人才培養(yǎng)模式的相關討論,大多數(shù)學者從培養(yǎng)目標、課程設置以及教學模式等方面進行了探討。例如,苗菊等分析了本地化對譯者的職業(yè)要求,在歸納總結國外本地化翻譯教學的基礎上,對我國本地化人才的培養(yǎng)目標與課程設置進行了探討[6];崔啟亮從分析翻譯與本地化企業(yè)對專業(yè)人才的需求入手,探討了在高校 MTI 教學中開設翻譯與本地化教學的課程設計體系和教學方法[7]。目前,國內鮮有基于語料庫的網站本地化研究,也鮮見對網站本地化翻譯的文本特征的探討。
用戶在網頁上停留瀏覽的時間即用戶黏性是網站成功與否的關鍵[1]25。用戶一旦發(fā)現(xiàn)網站上的內容晦澀難懂,便會離開去尋找其他網站上的關聯(lián)信息。西班牙學者Jiménez-Crespo指出,由于網站文本交際目的的特殊性,加上本地化過程中社會文化因素的影響,本地化翻譯文本和一般翻譯文本存在區(qū)別,具有其獨有的特點[8]6。
本文從2016年世界500強企業(yè)中選取10個英美國家企業(yè)原創(chuàng)官方網站以及10個中國企業(yè)為外國受眾制作的英文本地化網站,抽取企業(yè)網站中“About Us”“About the Company”“Company Profile”或者“Company Overview”模塊的文本信息,自建兩個小型的英文可比語料庫,分別為英美企業(yè)原創(chuàng)網站英文語料庫Corpus EN以及中國企業(yè)為外國受眾制作的本地化網站英文語料庫Corpus CN。 同時獲取中文源網站的企業(yè)簡介文本作為平行參考庫。所選取的企業(yè)屬于10個不同的行業(yè),每個英美企業(yè)都與中國企業(yè)相對應,這樣能夠避免語料不平衡的現(xiàn)象,使結果更具普遍性和可信度。表1為所收錄的企業(yè)網站名單。
表1 語料庫收錄企業(yè)名單
選取網站上“About Us”等模塊中的文本信息是出于如下考慮:這一模塊介紹企業(yè)的基本情況,包括歷史發(fā)展、所獲榮譽、發(fā)展愿景等,是企業(yè)網站的必要組成部分。這些共性的存在使文本更具可比價值,而其他模塊的內容由于企業(yè)行業(yè)的不同而具有較大差異,其所得結果的價值也相對較小。
本文主要研究以下兩個問題:(1)中國企業(yè)的網站本地化翻譯有什么樣的文本特征?這些特征對網站本地化的質量有何影響?(2)基于對中國企業(yè)網站本地化翻譯文本特征,如何提高中國企業(yè)網站本地化翻譯的質量?
針對上述問題,首先用文本整理器對兩個語料庫進行了格式清理,然后使用Word Smith Tools 6、AntConc3.4.3、TreeTagger和Range32工具,從詞匯豐富度、信息密度、主題詞分布、詞匯難度級別、平均詞長和句長與平均篇長等角度進行統(tǒng)計和分析,探討中國企業(yè)網站本地化翻譯的文本特征。
3.1 詞匯豐富度
詞匯豐富度一般可通過類符/形符比(Type-token ratio,TTR)來體現(xiàn)。類符/形符比是指語料庫中類符(文本中任何一個獨特的詞形個數(shù))與形符(語料庫總詞數(shù))所構成的比列,比值越低,表明語料庫詞匯越單調,變化性越小,詞匯豐富度也越小。文本越長,功能詞重復的詞數(shù)也就越多,類符/形符比也就會低。因此,如果長度不等的文本的詞匯密度采用類符/形符比來計算,就會顯得很不合理。有效的補救辦法是用標準化類符/形符比(Standardized type-token ratio,STTR)來計算詞匯密度,即每千詞的平均類符/形符比。表2是用Word Smith Tools 6計算的Corpus EN和Corpus CN的類符/形符比。
表2 詞匯豐富度對比
雖然Corpus CN和Corpus EN在總字數(shù)上有一定的差距,但經過標準化處理之后,結果仍然可信。由表2可知,原創(chuàng)網站的標準類符/形符比高出本地化網站約8個百分點,表明本地化網站文本不及原創(chuàng)網站文本詞匯度豐富。
3.2 信息密度
信息密度可通過語料庫中實詞所占比例來反映。實詞即實意詞,包括名詞、實意動詞、形容詞和副詞。實詞所占比例即所有這些實詞總數(shù)與總詞數(shù)之比乘以100%,比例越大,說明文本信息含量較大,閱讀理解難度也越大。為考察實詞比例,首先用TreeTagger工具對Corpus CN和Corpus EN兩個語料庫中的純文本進行詞性賦碼,再用AntConc3.4.3對賦碼結果進行分詞性逐一檢索統(tǒng)計,例如名詞個數(shù)可通過NN、NNS、NP和NPS檢索得出,最終統(tǒng)計結果如表3。
表3顯示,本地化網站的信息密度明顯高于原創(chuàng)網站的信息密度,每100個單詞中,Corpus CN比Corpus EN平均多出5個實詞,說明中國企業(yè)本地化網站文本所包含的信息量更大,比英美企業(yè)原創(chuàng)網站理解難度更大。這可能與漢語的使用習慣有關。從中文源網站的企業(yè)簡介文本發(fā)現(xiàn)中國企業(yè)的原創(chuàng)中文網站的簡介多用四字短語、排比等來增強氣勢,這在英美企業(yè)的網站中是很少見的。很顯然,在翻譯時中國企業(yè)網站本地化翻譯譯員更多地保留了中文的用詞與結構,故本地化網站文本信息密度更高。
表3 信息密度對比
3.3 主題詞分布
表4 Corpus CN與Corpus EN排列前20位主題詞
根據表4可知,Corpus CN中構成公司名稱的詞(表4中下劃線詞)的數(shù)量多于Corpus EN(6>4),而代詞的數(shù)量(表4中加雙下劃線詞)卻明顯少于后者(1<4)。追蹤文本可知,Corpus CN和Corpus EN公專有名詞和代詞數(shù)量的差別是由人稱使用的不同造成的。Corpus CN多用第三人稱,而Corpus EN多用第一人稱。
例1In the internet finance businesses,Ping An focuses on customer demand for health, food, housing, transportation, and entertainment, and constantly improves its online platforms and diversifies its offerings to weaves financial services into the very fabric of everyday life. (Corpus CN:中國平安保險(集團)股份有限公司)
例2Since the advent of the 21th century,CR has been striving to capture the historical opportunities arising from China's economic takeoff, and has maintained rapid growth for more than a decade, effectively achieving its grand strategy vision of“Recreating CR” for a second time.(Corpus CN:中國華潤總公司)
例3Through our two main operating segments, Upstream and Downstream, we find,develop and produce essential sources of energy, turning them into products that people need. (Corpus EN:BP)
例4We help build strong communities by supporting programs that enable home ownership, create safe neighborhoods, and making our homes and highways safe through activities aimed at preventing and reducing injury and loss. (Corpus EN:STATE FARM INSURANCE COS.)
從以上例子可以看出,中國企業(yè)的本地化網站多使用第三人稱,而英美國家企業(yè)原創(chuàng)網站多使用第一人稱。這也可以部分解釋3.2中發(fā)現(xiàn)的Corpus CN中實詞較多,而Corpus EN中虛詞較多的現(xiàn)象。Corpus CN中使用的公司名稱(第三人稱)均為實詞,而Corpus EN中所使用的第一人稱代詞均為虛詞。
3.4 詞匯難度級別
分析詞匯難度級別所常用的工具是Range32。表5是Range32對Corpus CN和Corpus EN的分析結果。
表5 Corpus CN與Corpus US的詞匯難度級別
根據表5,Corpus CN使用的一級詞匯比例明顯低于Corpus EN,二級詞匯比例略低于Corpus EN,而學術詞匯出現(xiàn)的比例和詞表外詞匯比例明顯高于Corpus EN。這說明與英美國家企業(yè)原創(chuàng)網站相比,中國企業(yè)的本地化網站更傾向于使用低頻詞匯,因此具有較高的詞匯難度級別。
3.5 平均詞長、句長與平均篇長
詞的長度是以字母的個數(shù)來衡量的,句子和篇長都是以單詞數(shù)衡量的。平均詞長、句長與平均篇長可以在一定程度上反映文本的復雜度。表6是利用Word Smith Tools統(tǒng)計的Corpus CN和Corpus EN的平均詞長、句長與篇長。
表6 平均詞長、句長與篇長對比
由表6可知,Corpus CN和Corpus EN的平均詞長相差不大,大約5個字母。但平均句長和平均篇長差別較明顯。Corpus CN平均每句話比Corpus EN多出8個單詞,平均每篇語料樣本多出210個單詞。這表明中國企業(yè)的本地化網站更傾向于使用較長的句子和語篇。為提高瀏覽速度,網頁用戶更傾向于閱讀語法結構簡單的短句和短小精悍的篇章,長篇大論會增加網頁用戶的閱讀困難也會使他們失去閱讀興趣。根據Jiménez-Crespo的研究,人的眼睛瀏覽屏幕的速度低于瀏覽紙質媒介,英文網頁的句長最好不超過25個單詞,這樣有利于保證用戶體驗[8]1。而中國企業(yè)的本地化網站文本的平均句長超過了25個單詞,以下例子更清晰地展示了本地化網站的句長特征。
例5After 1949, drawing on its long history as the state-designated specialised foreign exchange and trade bank, the Bank became responsible for managing China's foreign exchange operations and provided vital support to the nation's foreign trade development and economic infrastructure by its offering of international trade settlement, overseas fund transfer and other non-trade foreign exchange services.(Corpus CN:中國銀行)
例6Ping An strives to become a world-leading personal financial service provider under the philosophy of “technology-driven financial services for better life”,has adopted the models of “integrated finance + the internet” and “the internet+integrated finance”,focuses on “big financial assets”and“big health care”,pursues growth in insurance,banking,asset management,and internet finance,provides customers with excellent experience of “expertise makes life easier”,has achieved sustainable growth in profits, and provides long-term stable returns to shareholders.(Corpus CN: 中國石油化工集團公司)
可以看出,例句不僅長,而且結構復雜,包含的信息量大。通過對比中文的原文參考庫發(fā)現(xiàn),中國企業(yè)的中文簡介多使用排比、并列的結構來增強氣勢,這些英文長句多受中文原句的影響,基本上保留了中文的排比和并列結構。
研究發(fā)現(xiàn),與英美國家企業(yè)原創(chuàng)網站(Corpus EN)文本相比,中國企業(yè)本地化網站文本(Corpus CN)詞匯的豐富度較低,信息密度和詞匯難度均偏高,傾向于使用第三人稱,單詞、句子和語篇平均較長。中國企業(yè)本地化網站的這些文本特征反映出目前的網站本地化翻譯存在一定的問題:詞匯豐富度低會造成文本的單調乏味;詞匯難度高,信息密度大,單詞、句子、語篇較長,會使文本的可讀性降低,導致閱讀耗時長,效率低;第三人稱的過多使用會使文本過于莊重,缺乏親切感。這些因素綜合起來會削弱受眾的閱讀興趣,影響網站的瀏覽率。導致中國企業(yè)的網站本地化出現(xiàn)這些問題的深層原因主要是由于我國譯者對網站本地化翻譯這種新興的翻譯形態(tài)的了解還不夠充分,跨文化交際意識還有欠缺,企業(yè)對本地化目標的認識還不夠透徹。
企業(yè)要開拓國際市場,將產品和服務打入國際市場,重要途徑就在于本地化。是否符合目標地區(qū)受眾的瀏覽習慣和心理期待是網站本地化成功與否的關鍵,不能一味地對原網站的照搬死譯,而要使本地化網站看起來就像是目標地區(qū)的原創(chuàng)網站一樣。因此,網站本地化譯者首先應該對本地化有一個全面的了解,了解本地化的目的、流程和受眾。本地化翻譯不同于傳統(tǒng)的翻譯,不能對原文本逐字逐句地死譯。其次網站本地化譯者還應該提高自己的跨文化交際意識。翻譯是一種特殊的跨文化交際,翻譯時要了解我國與目標地區(qū)存在的文化差異,比如英美國家的網站喜歡用簡潔明了的文本,而我國通常將企業(yè)所取得的各項成就都投放于網站上,并且用復雜句式結構、四字短語來增強氣勢,如果不了解中西文化差異,一味地將這些成就都投放于本地化網站上,會給西方受眾一種華而不實之感,不利于企業(yè)的宣傳。最后積極與項目委托方、與本地化團隊進行溝通,在工作中秉承認真負責的態(tài)度,這樣才能最終實現(xiàn)國際交流的合作與目的。
本文通過選取2016年世界500強企業(yè)中10個中國企業(yè)為西方受眾制作的官方英文本地化網站和10個與中國企業(yè)行業(yè)相對應的英美國家企業(yè)原創(chuàng)官方網站,抽取網站中關于企業(yè)簡介部分自建兩個小型的英文可比語料庫。運用Word Smith Tools 6、AntConc3.4.3、TreeTagger以及Range32工具,從詞匯豐富度、信息密度、詞匯難度級別、主題詞分布和平均句長、詞長與篇長角度進行統(tǒng)計和分析,探討中國企業(yè)網站本地化翻譯的文本特征。結果表明:中國企業(yè)的本地化網站文本詞匯豐富度低,信息密度大、詞匯難度級別高,單詞、句子和篇幅平均較長,且多使用第三人稱,折射出中國企業(yè)的網站本地化翻譯存在一些問題。本地化譯者應該充分了解本地化,具備跨文化意識,企業(yè)自身也應該對本地化的目的有一個充分的了解,才能使本地化成功,最終實現(xiàn)開拓海外市場的目的。不過本文選取的語料比較少,只是對網站本地化翻譯文本特征的初步探討,未來將作更深一步的探討。
[1]LISA.Localization Industry Primer:2nd ed[M].Geneva:Localization Industry Standards Association,2004
[2]Pym A.Exploring Translation Theories[M].London:Routledge,2010:29
[3]馬文麗,王利明.網絡本地化與新語言支持[J].中國科技翻譯,2005(4):17-19
[4]丁立,王永亮.網站本地化中的簡化現(xiàn)象及其影響:基于語料庫的翻譯共性研究[J].江蘇外語教學研究,2016(1):84-88
[5]陳誼.全球化背景下的本地化翻譯[J].東北師大學報:哲學社會科學版,2011(4):157-160
[6]苗菊,朱琳.本地化與本地化翻譯人才的培養(yǎng)[J].中國翻譯,2008(5):30-34;95-96
[7]崔啟亮.高校MTI翻譯與本地化課程教學實踐[J].中國翻譯,2012(1):29-34
[8]Jiménez-Crespo M A.Localization and writing for a new medium:a review of digital style guides[J].Tradumática,2011(6):1-9
(責任編輯:胡永近)
10.3969/j.issn.1673-2006.2017.05.023
2017-03-12
雷小玉(1992-),女,湖南永州人,碩士研究生,研究方向:翻譯學。
H059
:A
:1673-2006(2017)05-0078-05
又稱為關鍵詞,是指被研究文本語料庫與參照庫相比,在被研究語料庫中出現(xiàn)較高頻率的詞匯。主題詞的分布可以反映語料庫文本的詞匯使用規(guī)律與傾向,進而透露文本的主題與意義。表4是用AntConc3.4.3工具統(tǒng)計的關于Corpus CN和Corpus EN排列前20位的主題詞匯。