彭曉曉
摘?要:本文利用AntConc語料庫工具,從文本和詞匯角度研究了TA語料庫,TA語料庫由505篇石油科技外文期刊摘要構(gòu)成,含130?000詞。研究發(fā)現(xiàn),TA中被動語態(tài)的使用頻率比AmE06_130語料庫高出19.35%;對于人稱代詞,“it”和“we”的頻率最高;oil的詞頻是petroleum的13倍。
關(guān)鍵詞:翻譯;語料庫研究;摘要語料庫;石油文本;AntConc
中圖分類號:F74?????文獻標識碼:A??????doi:10.19311/j.cnki.16723198.2024.04.022
1?數(shù)據(jù)收集及工具選擇
1.1?數(shù)據(jù)收集
本研究從《AAPG?Bulletin》《Bulletin?of?Canadian?Petroleum?Geology》《Journal?of?Petroleum?Science?and?Engineering》《Petroleum?Exploration?and?Development》和《Petroleum?Science》5個期刊中,選取了2022–2023年出版的505篇摘要,建立了一個130?000詞的摘要語料庫TA。相比以往研究,本研究的樣本數(shù)量擴大了一個數(shù)量級。從AmE06語料庫中,按分類等比例提取了約130?000詞內(nèi)容,建立了參照語料庫AmE06_130,用于提取TA中的關(guān)鍵詞單。
1.2?工具選擇
AntConc是一款語料庫分析工具,支持Raw?files導入,或?qū)⒍鄠€Raw?files打包成(.DB)文件,方便切換語料庫。
2?文本特征分析
2.1?被動語態(tài)分析
正則表達式可以檢索被動語態(tài)結(jié)構(gòu),檢索前需對目標語料庫進行詞性標注處理。本研究利用TagAnt軟件完成了對語料庫的詞性標注。顯示信息設置為word+pos_tag,其余按照默認選項運行。標注完成后,經(jīng)測試下列表達式能夠檢索被動語態(tài)結(jié)構(gòu):
(be|am|is|are|was|were)_VBw*s+w+_VBN
上述表達式會匹配這一結(jié)構(gòu):be動詞后面緊跟著一個過去分詞形式的動詞。結(jié)果如表1所示:
綜上所述,TA語料庫的被動語態(tài)使用頻次高出AmE06_130語料庫達19.35%。與以往研究結(jié)果相吻合,被動語態(tài)的使用頻率雖然高,但并未高過主動語態(tài)。
2.2?人稱代詞分析
英語中的人稱代詞共12種詞型,作者利用通配符檢索所有詞型,并核實結(jié)果對應的上下文判斷是否正確,再對錯誤結(jié)果進行修正。最終確定5種人稱代詞,結(jié)果如下:
數(shù)據(jù)顯示,“it”和“we”的使用頻率最高,其余人稱代詞均為復數(shù)形式,且僅有第一人稱和第三人稱形式。目標語料庫中沒有出現(xiàn)第一人稱單數(shù)形式(I和me),且沒有出現(xiàn)第二人稱的任何一種形式(you)。
2.3?N元模式分析
N-Gram工具可以生成目標文件中的N元列單。隨著Size逐漸增大,結(jié)果數(shù)量會逐漸減少。研究發(fā)現(xiàn),數(shù)值設定為2-5時,檢測出的結(jié)果最具有代表性。我們截取了前100條結(jié)果,并將其中內(nèi)容分為兩個大類:
(1)石油科技文本表達;
(2)摘要文本表達。
在N-Gram?Size設定為3的情況下,“oil?and?gas”的頻次最高。摘要文本表達相關(guān)的結(jié)果可歸為數(shù)個類別:表示“發(fā)現(xiàn)”、指代“本文”等?!笆涂萍肌毕嚓P(guān)結(jié)果單獨歸為一類。
2.4?詞云圖分析
詞云圖能夠可視化詞單數(shù)據(jù),通過字體大小和顏色深淺來體現(xiàn)詞重要性。生成詞云圖的數(shù)據(jù)樣本取自關(guān)鍵詞單。作者利用停用詞單(Stopword)對結(jié)果進行清洗(去除and,?of等虛詞)。處理完原始數(shù)據(jù)后,本文作者在詞云圖工具中,設置圖片尺寸寬900高450,最大詞數(shù)為300,輸出值為Keyness?(Likelihood)。
在生成的詞云圖中,顏色越深代表關(guān)鍵性越大,越淺則相反;字體大小同理。從圖中容易看出,“oil”的顏色深、字體大,而?“petroleum”則小許多,顏色也更淺,兩者在圖中的位置用箭頭進行了標示。
綜上所述,本節(jié)從被動語態(tài)、人稱代詞、N元模式和詞云圖等4個方面分析了目標語料庫的文本特征。主要進行了無檢索詞檢索,從側(cè)面觀察目標語料庫的文本特征。
3?Oil和Petroleum的檢索及結(jié)果的對比分析
3.1?詞頻分析
這部分研究選取的樣本是TA語料庫,參照語料庫為AmE06語料庫。本文作者在Word和Keyword功能中檢索oil和petroleum,發(fā)現(xiàn)前者的詞頻是后者的約13倍,關(guān)鍵性是后者的約15倍。
3.2?詞叢分析
詞叢分析運用Cluster工具對語料庫進行分析,Cluster?Size為2。為了抓取盡量多的數(shù)據(jù),檢索oil時,最小頻次和文檔范圍都設置為3,檢索petroleum時,最小頻次和文檔范設置為2。分別勾選On?Left(檢索詞位于左端)和On?Right(檢索詞位于右端),進行兩次檢索并匯總,最后人工清洗檢索結(jié)果,去除噪音數(shù)據(jù)。清洗后數(shù)據(jù)顯示,在目標語料庫中petroleum的結(jié)果全部位于左端,而oil的結(jié)果左右都有。
Petroleum的檢索結(jié)果:
綜上所述,這部分研究從詞頻、詞叢和Plot分析三個方面研究了oil和petroleum的區(qū)別。結(jié)合詞頻和Plot分析,我們發(fā)現(xiàn)目標語料庫中oil的使用頻率和關(guān)鍵性遠高于petroleum,且前者的Dispersion最大值以及前十數(shù)據(jù)平均值也都高于后者,最后統(tǒng)計了檢索詞的位置頻數(shù)。
4?結(jié)語
本研究選取了505篇石油科技外文期刊摘要,建立了目標語料庫,利用AntConc對目標語料庫進行了檢索分析。一方面,本研究采用無檢索詞檢索,研究分析了目標語料庫的文本特征;另一方面,選取了oil和petroleum兩詞進行詞匯層面對比研究。但是,本研究中目標語料庫構(gòu)成是一元的,oil和petroleum的詞頻對比數(shù)據(jù)需要在更大的語料庫且成分更多元的語料庫中進行驗證,希望為后續(xù)研究提供借鑒和參考。
參考文獻
[1]Anthony,?L.?(2022).?AntConc?(Version?4.2.0)?[Computer?Software].Tokyo,?Japan:?Waseda?University.Available?from?https://www.laurenceanthony.net/software.
[2]Qayyum?N,?Syed?S?F.?Gender?Representation?in?A?Thousand?Splendid?Suns:?A?Corpus-Based?Stylistic?Analysis[J].Journal?of?Excellence?in?Social?Sciences,2023,2(1):2036.
[3]陳柯,楊醫(yī)碩.基于AntConc3.2.4軟件的石油英語詞匯的檢索和分析[J].信息與電腦(理論版),2022,34(15):1014.
[4]崔艷秋.《出版人周刊》視域下的中國當代文學——基于AntConc語料分析[J].當代作家評論,2020,(04):189195.
[5]孫毅,王龍本.英文旅游新聞蓄意隱喻的理解與漢譯研究[J].外語教學理論與實踐,2020,(02):7280.
[6]王春艷.免費綠色軟件AntConc在外語教學和研究中的應用[J].外語電化教學,2009,(01):4548+78.
[7]王霞,姜孟.基于Antconc對近十年殘聯(lián)聽力障礙相關(guān)政策文件的特征分析[J].北京聯(lián)合大學學報,2020,34(02):7683.
[8]于強福.基于語料庫的工科碩士學位論文英文摘要語類使用問題及其對策探析[J].華北理工大學學報(社會科學版),2022,22(03):121128+154.