鄭媛媛
廣西外國語學院廣西南寧530222
基于自建語料庫的四字格語塊特點研究
鄭媛媛
廣西外國語學院廣西南寧530222
語塊是指語言中出現(xiàn)頻率較高,形式和意義較固定,以整體形式儲存在大腦中的一串詞,可整體或稍作改動后作為預制語塊供學習者應用,具有整體儲存、整體提取、整體使用的特性。本研究借助Antconc3.4.3軟件,以中國國家政府報告英譯本為語料并自建語料庫;提取語料庫中的四詞語塊,進行結構上和功能上的分類;然后對庫中的四詞語塊進行分析,最后剖析四詞語塊結構和功能的關系,探討四詞語塊用詞特征。
語塊;語料庫;特點;中國政府工作報告
(一)語塊
又稱詞塊,是指語言中出現(xiàn)頻率較高,形式和意義較固定,以整體形式儲存在大腦中的一串詞,可整體或稍作改動后作為預制語塊供學習者應用。雖然學術界對語塊的定義和稱謂各有差別,如Pawley&Syder(1983)更側重于其語法功能于作用,把它定義為“具有固定的語法形式和詞匯意義的分句單位”;Biber et al(1999).將其定義為“由三個或以上的單詞構成,在一個特定的語域里以一種高頻共現(xiàn)的方式出現(xiàn)的結構”;Wray(2002:94)將之稱為程式化序列(formulaic sequence),定義為“作為整體使用和整體儲存的詞語程式”;NattingerandDeCarrico(1990:1)認為語塊是“介于句子和詞匯之間的模式化短語,是一個詞匯-語法單位”。
(二)語塊的分類和功能
Cortes(2004)把語塊分成九種結構,分別是名詞短語+of、名詞短語+that從句、其它名詞短語、介詞短語、介詞短語+of、it+be+adj+that、聯(lián)系動詞be+補語結構、動詞短語、其它結構。
從功能上看,Biber將語塊分成三大功能:指稱功能、文本銜接功能和態(tài)度立場功能。
(一)研究工具
本文運用日本早稻田大學Laurence Anthony教授研發(fā)的綠色免費語料庫軟件AntConc為工具自建小型語料庫,對中國政府工作報告里的四詞語塊進行研究。
(二)研究文本
中國政府報告作為一種官方文件,其文體正式,用詞嚴謹,表達精確,內(nèi)含大量固定的表達和措辭,以體現(xiàn)政府的權威性和嚴謹性。政府報告的詞塊的提取、歸類和分析有助于譯者更直觀、更迅速地保證翻譯的準確性、流暢性和得體性。本文里的中國政府報告英譯本的文本來源于中國政府編譯局的官方網(wǎng)站(http://www.cctb.net/),以2012-2014年這三年的政府工作報告英譯本為例。
(三)研究過程
文本被建立成庫前,所有的文本應先用文本處理器經(jīng)過格式的凈化處理,由word文檔模式變成text模式,完成格式處理之后可建庫如下:
完成語料的建庫之后,需要從中提取出四詞詞組。在提取過程中,四詞詞組出現(xiàn)的頻率很重要。一方面,頻率決定著語塊的辨析,某個結構共現(xiàn)的頻率越高,那么它越有可能會被識別稱為語塊以省去使用中的認知和加工過程;另一方面,一旦這個結構被整體存儲和整體記憶以后,當再次表達相關意思或概念時,它會被優(yōu)先使用和表達(Wray,2002)。
Altenberg(1998)認為,任意一個以固定形式和固定意義出現(xiàn)2次或以上的結構被稱之為語塊;Butler(1997)認為語塊至少包含3個單詞并共現(xiàn)超過10次以上;DeCock et al (1998)指出語塊的頻率和語塊的長度成反比,即一個詞匯短語的長度越長,頻率越低;因此對不同長度的語塊頻率標準也應該有所不同:2詞語塊的頻率應為9次或以上;三詞語塊的頻率為4次或以上;四詞語塊的頻率為3次或以上;5詞語塊的頻率為2次或以上。因此,本數(shù)據(jù)庫里,選項“theCluster/N-grams(詞簇)”的參數(shù)被設定為最小值(Min size)4,頻率(Frequency)3。
(四)研究結果
本數(shù)據(jù)庫含有38,416形符(tokens)和3,444類符(types)。形符類似于我們?nèi)粘Uf的“詞”,總形符數(shù)是語料庫容量的最常用的測量單位;類符作為一個統(tǒng)計量,指語料庫文本中的任何一個獨特的詞形,即重復出現(xiàn)的形符只能記做一個類符,如Gertrude Stein的“Rose is a rose is a rose is a rose”這句話中,形符一共有10個,而類符只有3個(rose,is,a)(梁茂成,李文忠,許家金,2010:9)。按照之前設定的參數(shù),把一些不合格的四詞結構剔除后,本庫四詞語塊的總數(shù)為714,由3,203形符以1229的頻率出現(xiàn)在庫中。下圖為本庫中出現(xiàn)頻率前15的四詞語塊。
表一
從前15個高頻出現(xiàn)的四詞語塊分布來看,動詞詞組(we will continue to,we will improve the,deepen reform of the,we will deepen reform,improve the mechanism for,give high priority to,improve the system of)和名詞詞組(economic and social development,the past five years,central and western regions,reform and opening up,agriculture rural areas and,rural areas and farmers,the people’s wellbeing)分別占據(jù)了47%的比例,而介詞短語占據(jù)了余下的大約6%.
1、四詞詞塊的結構性分析
對所提取的四詞語塊進行分析提煉后,結構分布頻率圖如下:(見表二)
本庫共有符合要求的四詞語塊共714個,比例分布較大的為名詞短語(Other NP)(30%)、動詞短語(V)(20%)、介詞類(Other PP)(17%);名詞短語+of結構(NP+of)占16%.而其余的結構,如名詞短語+that從句(NP+nominal),介詞短語+of(PP+of),其余類型(Others)and系動詞be+表語/補語成分(V be),分別占據(jù)了整庫不到10%的比例。值得注意的是在本庫中,“It+V be+adjective+(clause fragment)”缺失,沒有出現(xiàn)。
表二
在本庫中,與名詞相關的語塊(NP+of,NP+nominal, OtherNP)占據(jù)了將近一半的比例,說明政府工作報告里面涉及到的名詞指稱相當龐大和多樣。作為面向全國的政府工作總結,囊括國家各行各業(yè)的發(fā)展,更有對未來的展望和計劃,因此名此類詞塊獨占榜首也不足為奇,通常來說,名詞類結構在文章里主要是解釋概念,指代以及具體化。
介詞短語限定或界定了名詞的范圍,也使得表達更精確和流暢,由于和名詞關系密切,因此所占比重也較大。
動詞類語塊在本庫中占據(jù)了21%的比例,其中,主動語態(tài)高達93%而被動結構結構僅占7%左右,可以看出,雖然政府報告屬于政論文,但其由總理代表政府述職的形式也影響了語態(tài)的選擇;更重要的是,政府報告還承擔著為未來做計劃,向人民展示政府的成就、繼續(xù)推進改革開發(fā)讓人民享受更好的發(fā)展的決心,因此,主動語態(tài)成為報告中的主要語態(tài)。
短語類語塊(NP+of,Other NP,PP+of,Other PP,V be,V, Others)和分句類語塊(NP+nominal,It+V be+adjective+ clause fragment)相比,短語類比重高達95%,而分句類語塊僅占5%;而It+V be+adjective+clause fragment該結構在庫中甚至是缺失的,這個研究結果和前人的研究相符合,即短語類語塊比分句類語塊要更常見,頻率更高(Biber at al, 1999;Biber&Barbieri,2007;Yu 2013)。
2、四詞詞塊的功能性分析
本庫中的四詞語塊的功能頻率分類如下:(見表三)
四詞語塊在本庫中功能頻率的分布依次為:指稱功能(69%),態(tài)度立場功能(23%),文章銜接功能(8%)。這一結果和Biber&Barbieri(2007)的研究相符。此前研究發(fā)現(xiàn),幾乎70%的語塊都是指稱類的,而語塊的指稱作用也是正式文體中的主功能(Biber&Barbieri 2007:278)。作為官方文件,所述理當客觀,不偏不倚,因此態(tài)度立場功能所占比位于指稱功能之下;從態(tài)度立場的子功能里也可看出,認知態(tài)度和預測態(tài)度占比較大,愿望、職責和能力態(tài)度所占比極小,體現(xiàn)出了客觀、中立的表述態(tài)度。
表三
3、四詞詞塊的結構和功能的關系
表四
以上圖表體現(xiàn)了四詞語塊的結構和功能分布頻率的關系。指稱功能往往由名詞類語塊和介詞類語塊充當(NP+of structure,PP+of structures,NP structures and PP structures)。幾乎所有的表示態(tài)度的功能都由動詞類語塊充當(V be,V),文章的銜接功能則主要由分句類語塊實現(xiàn)(NP+nominal,It +V be+adj),部分由名詞類語塊(Other NP)、介詞類語塊(Other PP)和其它結構實現(xiàn)(Others structures)。
從上述分析可看出,中國政府報告中的四詞語塊出現(xiàn)頻率較高;從結構上看,最主要的結構是名詞短語語塊(Other NP),共占比30%;頻率較高的還有動詞語塊(V),介詞語塊(Other PP)以及名詞+of(NP+of)語塊;由此可見,中國政府工作報告英譯文偏向于采用包含名詞和介詞的詞塊來表達指稱、概念、質(zhì)量以及限定性,側面展示了報告內(nèi)容的綜合性、復雜性和精確;而動詞結構多用于表達政府不遺余力地推動經(jīng)濟改革,改善民生,促進社會公正公平的堅定信念和決心,故主動語態(tài)以93%的高頻成為譯本的主要語態(tài)。
從功能上看,指稱功能居于首位,隨后是態(tài)度立場功能和文章銜接功能,體現(xiàn)了中國政府報告譯文所含的內(nèi)容量的豐富、廣度,文體正式,分析客觀。在本庫中,指稱功能占比69%,其所包含的子功能里,指稱時間地點文本的功能(Time/ place/text reference)以及屬性細化功能(Specification of attribute)占比最重,這一點和結構上多使用名詞類以及介詞類語塊相呼應;在篇章銜接功能里,鑒定說明(elaboration/clarification)居首位,而這個功能和指稱功能相互依賴、密不可分。在態(tài)度立場功能的子功能里,分量最重的當屬認知態(tài)度(epistemic stance)和傾向預測態(tài)度(Intentional/prediction stance),這與報告剖析過往發(fā)展成就和展望下一年的內(nèi)在屬性息息相關。
從兩者的關系上看,某些特定功能的語塊往往由相對固定的結構實現(xiàn)。指稱功能往往由帶“of”結構的語塊實現(xiàn),包括(NP+of,PP+of)名詞類語塊和動詞類語塊也主要體現(xiàn)在指稱功能上;態(tài)度立場功能由動詞類語塊完成,銜接功能主要由分句類語塊體現(xiàn);而前兩類功能主要由短語類語塊完成。
因此,在對中國政府工作報告進行翻譯時,譯者可根據(jù)語塊特點而進行針對性翻譯,如表示實體或概念指稱作用多用含“of”結構以及名詞、介詞類語塊(NP+of,PP+of,other NP,other PP...);對于動作、質(zhì)量的指稱多用(V,V be)語塊;文本銜接常用短語類語塊表達等。對于一些出現(xiàn)頻率較高的語塊,可整體使用,以保證譯文的準確、通順、流暢。
最后,本語料庫建庫較為簡單,容量較小,也僅分析了四詞語塊,還有許多亟待完善之處,關于語塊的學習與研究也可在此基礎上不斷深化與改進。
[1]Wray.A.Future Directions in Formulaic Language Research[J].Wang Lifei,Advances in Theoretical and Empirical Research on Formulaic Language[C].Shanghai:Shanghai Foreign Language Education Press,2012.
[2]梁茂成,許家金,李文中.語料庫應用教學[C].北京:外語教學與研究出版社,2013.
[3]俞苗.不同學科學術語篇中四詞語塊的研究——以食品科學與教育學為例[M].大連海事大學,2013.