耿穎會 周淑莉
摘 要:隨著社會的發(fā)展進步,如今出現(xiàn)了許多新興的技術和學科。語料庫語言學作為一門新興學科,一經(jīng)研究便獲得迅速全面的發(fā)展?,F(xiàn)在都流行跨學科交流,語料庫和翻譯結合起來,大大提高了翻譯工作者的效率。本文將借助Antconc這一工具中的Concordance、Word List,F(xiàn)ile View,Collocates等功能,通過對《1976海事索賠責任限制公約》中某些詞進行檢索,對得出的數(shù)據(jù)進行分析,從而得出該文本用詞、句法及篇章特征,為文本翻譯和官方交流提供借鑒。
關鍵詞:語料庫; Antconc; 《海事索賠責任限制公約》
中圖分類號:H313? ? ? ? ?文獻標識碼:A? ? ? ? ?文章編號:1006-3315(2021)12-092-003
一、引言
按照科學的方法定義,語料庫就是書寫文本或口語轉寫的集合體。語料庫是“電子機讀文本的有限集合,從最大程度上代表了某種語言或語言變體”(王春艷,2009:43-47)。隨著科學技術的飛速發(fā)展,計算機逐漸被應用到更多領域,實現(xiàn)多學科跨領域的交流。語料庫語言學作為一門新興學科,它很好地結合了自然科學與文學,近幾年來受到廣泛的關注。無論文本多長多難,我們都可以借助語料庫工具來檢索,得到文本中有關語言使用情況的頻率和概念信息。我們常見的語料庫檢索工具有:單語語料庫檢索和分析工具:Wordsmith、Antconc,雙語語料庫檢索和分析工具:paraconc、Excel以及雙語記憶庫檢索和校訂:SDL TRADOS。
AntConc是日本早稻田大學Laurence Anthony博士實驗室研發(fā)的基于Microsoft Windows操作系統(tǒng)的多平臺的語料庫分析工具包,界面簡潔、操作方便,并基本實現(xiàn)了Word Smith的所有功能。截至2020年10月,對國內(nèi)CNKI數(shù)據(jù)庫輸入關鍵詞“AntConc”進行精確檢索,檢索區(qū)域從2007年-2020年一共獲得184篇相關文獻。國內(nèi)學者最早使用AntConc進行研究的是2007年徐靜的碩士研究生學位論文《一項基于語料庫的大學一年級學習者動/名詞搭配研究》(趙建軍,徐祖熹,2019:23-27)。AntConc是一個綠色免費版的軟件,一款十分不錯的語料庫檢索工具。該軟件支持txt格式,適用于語言文字領域,支持索引、詞表生成、主題詞計算、搭配和詞族提取等功能。該軟件一開始是作為相對簡單的索引程序,不過慢慢地進步成了一個相對有用的文本分析工具,翻譯工作者可以利用該軟件對一定文本的主題、語言特點等進行分析,大大提高工作效率。本文將借助Antconc軟件中的Concordance、Word List,F(xiàn)ile View,Collocates等功能對《1976海事索賠責任限制公約》這一文本中的某些單詞進行檢索,并對數(shù)據(jù)做定性分析,從而得出一定結論。
二、語料庫的選取
本文選取了聯(lián)合國20部公約中《1976海事索賠責任限制公約》作為研究的語料庫。它是在1976年政府間海事協(xié)商組織在倫敦召開的外交會議上通過的公約。該公約主要是關于海事索賠責任限制的某些統(tǒng)一規(guī)則,主要包括有權享受海事索賠責任限制的人,須受責任限制的海事索賠以及責任限額、責任限額的船舶總噸數(shù)。該文本是一個涉及法律相關的索賠條款。選擇這一文本作為語料庫是因為想要通過語料庫工具來檢索這一公約中某些相關的詞匯,對得到的相關數(shù)據(jù)進行分析,總結這類文本的基本特征和語言特點。
三、運用Antconc軟件分析《海事索賠責任限制公約》
首先把《1976年海事索賠責任限制公約》文本用Antconc軟件統(tǒng)計,它提供了有關這個文本的簡略統(tǒng)計數(shù)字。
(token)是指形符數(shù),也就是指語篇中一共有多少詞,總形符數(shù)是原料庫容量的最常用的測量單位。類符數(shù)(type)指語篇中一共有多少個不同的詞。類符形符比率在一定程度上反映了文本的某種本質(zhì)特征,即用詞的變化性。一般來說,類符形比越高,用詞變化性越高(冉凡敏,2016)?!?976年海事索賠責任限制公約》中總類符數(shù)是671,總形符數(shù)是4441,類符形符比為15.11。從上述統(tǒng)計數(shù)據(jù)中可以看出該語篇用詞不算復雜,文本整體相對來說不是很長,詞匯變化并不大,整體難度較小,易于理解。
(一)使用Wordlist和Concordance功能對詞語出現(xiàn)的頻率排序
用軟件Antconc對該文本進行統(tǒng)計,生成一個Word List,Word List工具,可以對該文本的基本信息進行統(tǒng)計,自動生成詞表,它可以提供文本中出現(xiàn)頻率最高詞的詞頻(以詞的頻率多少排列),對這些詞的初步分析可以讓我們了解有關文本內(nèi)容的信息。利用Antconc軟件中的Wordlist工具對《1976年海事索賠責任限制公約》中出現(xiàn)頻率前100的詞匯進行統(tǒng)計,如圖2所示。
從上圖2可以看出前九位出現(xiàn)頻率最多的是介詞和連詞,因為一個文本中最多的就是像介詞和連詞這種功能詞,它們只起到語法上的連接作用,沒有實際的意義。除了前九個出現(xiàn)頻率最多的介詞和連詞外,出現(xiàn)頻率次數(shù)最多的有:article,convention, claims,liability,fund,limitation,ship等,其中article出現(xiàn)了57次,convention出現(xiàn)了56次,claims出現(xiàn)48次,liability出現(xiàn)了44次等,這些詞匯表明該文本是涉及到和條款、協(xié)定相關的內(nèi)容,并且對里面一些相關的責任和資金進行限制和約定。并且從這些詞匯中還可以看出該類型文本選詞專業(yè)化、正式、準確。
另外,通過觀察,我們可以發(fā)現(xiàn)“which和 that”出現(xiàn)了41次和36次,這可以證明該文本中從句相對不是很多,說明文章句式相對比較簡單,對于這種法律公約文本,最重要的是條理清晰,避免歧義和糾紛。所以句式一般不會復雜。
(二)利用Concordance Plot和Collocates來分析詞匯的分布和搭配
Antconc語料庫軟件中Concordance Plot的功能是索引定位,每個文件的所有索引條數(shù)都在一個條形碼上定位出來,能夠表示檢索詞的位置所在。下面將通過檢索“article、convention、limitation、liability”等詞,利用Antconc語料庫檢軟件中索引定位(Concordance Plot)來分析詞匯在文本的分布特點。
根據(jù)上圖1生成的詞表,我們可以看出除了介詞和連詞出現(xiàn)的頻率最高以外,實義詞中“article”出現(xiàn)頻率是最高的。然后通過查閱了索引定位,得到了如圖3“article”這一詞在文章中的分布。通過圖3可以看出article這一詞匯主要出現(xiàn)在文章的前半部分,由此可以看出來該文本前半部分主要是關于條款的一些事項。
通過文件視圖(File view)可知,“article”一般出現(xiàn)在小標題中。
根據(jù)wordlist工具生成的詞匯頻率分布圖1,我們可以看出convention這一單詞在文本中出現(xiàn)的頻率挺高的,但困惑的是通過查閱了索引定位,如圖4,我們可以看出convention在文本中分布的不均勻,主要集中在文本中的某一部分,通過查看文件視圖(File view)可知,convention主要集中分布在文章的開頭,因為convention這個單詞的意思是公約的意思,出現(xiàn)在前面是對文本主題的回應。
通過仔細觀察搭配詞表(Collates)發(fā)現(xiàn),“convention”詞匯常跟形容詞“international”搭配,構成一個術語。常出現(xiàn)在聯(lián)合國文件里面。
利用Antconc軟件中的索引定位(Concordance Plot)功能,關于“l(fā)iability”詞匯在文本的分布如圖5所示。通過上圖我們可以看出該詞匯在文中的分布貫穿整個文本,但相比較而言,“l(fā)iability”分在文本的前半部分還是比較密集的。由此我們可以看出文本的主要內(nèi)容是關于和責任相關的。和上圖3結合起來,看出是關于條款里規(guī)定的責任。通過比較圖3和圖5可知“l(fā)iability”比“article”在文中分布得更多,能夠更好地反映文本的內(nèi)容。
通過使用搭配功能“Collocates”里檢索詞匯“l(fā)iability”,發(fā)現(xiàn)和它搭配的詞有名詞limitation,動詞claims,還有介詞to,of,for等。通過和名詞和動詞的搭配,我們同樣也可以看出該文本語言規(guī)范,多為一些法律方面的詞匯。這些搭配正好體現(xiàn)了與文本標題的呼應。這些詞匯之間都是相互聯(lián)系、相互修飾的,反映文本的內(nèi)容及語言特征。責任(liability)這一詞匯除了和名詞、動詞搭配外,它還和一些介詞搭配如:“to、for、of”一起構成一些日常生活中會用到的動詞搭配。利用Antconc這個軟件我們能很快對一個很大的文本的詞匯進行分析,從而對文本的主要內(nèi)容進行把握。了解這個文本的一些基本信息。
(三)利用Antconc軟件進行多項檢索
Antconc軟件除了檢索單個詞項以外,還具有檢索多個詞項的功能,這樣可以把一個單詞所有的形式都檢索出來。檢索方法為檢索項間鍵入“|”符號?!?976年海事索賠責任限制公約》這一文本中,“l(fā)imit”這一單詞有多種形式,通過在“Search Term”中輸入“l(fā)imit|limits|limitation”就可以把文中“l(fā)imit”的所有形式都檢索出來了。檢索結果如圖6和圖7所示。
通過多項檢索功能,這樣可以把所有關于limit的形式在文中的分布都展現(xiàn)出來。如上圖7可以看出“l(fā)imit”的各種形式貫穿整個文本。結合上述對“l(fā)iability”的分析,“l(fā)imitation”是和“l(fā)iability”搭配的,這兩個詞在文本中分布是最廣的,貫穿整個文本。所以該文本主要是圍繞對于責任的限制。Antconc軟件中的多項檢索功能把一個詞的多種形式全部呈現(xiàn)出來。如果要檢索項目較多的情況下,除了使用“|”檢索以外,還可以在TXT文本中鍵入所有要檢索的詞項,可多達250個詞。然后為該文本起名保存。需注意的是鍵入的詞項需以列的形式排列。然后點擊Search Term旁的“Advanced”,選擇“Use search term(s) from list below”。點擊“l(fā)oad file”,在保存以上新建的文本的盤符路徑點擊文本名,然后點擊“Apply”;回到語境共現(xiàn)的界面后,點擊“Start”,開始檢索。這種方法和上述方法檢索出來的結果是一樣的,所以Antconc軟件里的功能十分強大。
四、結語
以上分別運用語料庫軟件“Antconc”中“Concordance、WordList、File View、Collocates和多項檢索等功能對《1976年海事索賠責任限制公約》檢索出來的數(shù)據(jù)進行分析,得出了詞匯在文本出現(xiàn)的頻率以及在文本中的分布情況。通過分析這些數(shù)據(jù),了解該文本用詞規(guī)范準確、句式簡單、結構清晰明了。對于以后關于條約類型的文本提供一定的思路。該軟件除了對于一些聯(lián)合國的文件能夠進行一定的檢索分析,同時對于一些小說類型的文本,該軟件同樣適用,對小說敘事特征、情節(jié)發(fā)展、寫作藝術、主要人物進行分析。由此可見,該軟件在翻譯中起著至關重要的作用。當然語料庫工具分析不能代替人們主觀上對文本的分析,但是二者互為補充,語料庫的方法可以為人們的主觀鑒賞提供佐證,通過圖形、列表、統(tǒng)計等量化的方法來分析文本,可以對文本進行更加理性的詮釋(趙建軍,徐祖熹,2019:23-27)。所以我們應當注重技術和翻譯的結合。
參考文獻:
[1]管新潮.《語料庫與python應用》[M]上海:上海交通大學出版社,2018
[2]雷圣春.基于語料庫Antconc軟件對《白鯨》的語言特點及主題詞表征分析[J]數(shù)字通信世界,2019(2):249
[3]冉凡敏.基于語料庫Antconc的小說《紫色》分析[J]科技展望,2016(16):241-243.
[4]江莉,王莖,張四紅,程玲.基于語料庫的中醫(yī)術語翻譯中essence和spirit的差異性研究[J]科教文匯(上旬刊),2013(03):109-111
[5]趙建軍,徐祖熹.基于語料庫工具AntConc對《故鄉(xiāng)》研究[J]北第二師范學報,2019(01):23-27
[6]朱艷瓊.基于Sketch Engine在線BNC語料庫的英語近義詞搭配辨析——以affect和influence為例[J]2021(04):117-118
[7]鄭一菲.基于語料庫的《瓦爾登湖》譯本對比研究[J]散文百家,2021(02):138-140