華中農(nóng)業(yè)大學(xué) 劉 萍 黃小倩 劉 珊
農(nóng)科學(xué)術(shù)英語論文語料庫的創(chuàng)建*
華中農(nóng)業(yè)大學(xué) 劉 萍 黃小倩 劉 珊
本文介紹華中農(nóng)業(yè)大學(xué)“農(nóng)科學(xué)術(shù)英語論文語料庫”的創(chuàng)建情況,包括語料收集、文本的轉(zhuǎn)換與清潔、標(biāo)記、賦碼等。借助CQPweb網(wǎng)絡(luò)語料庫系統(tǒng),將該語料庫部署在校園網(wǎng)供博士生和本科生的學(xué)術(shù)寫作教學(xué)。語料庫應(yīng)用于教學(xué)的效果調(diào)查表明:調(diào)查對象認(rèn)為語料庫的應(yīng)用有利于提高學(xué)術(shù)英語寫作水平,有意愿在寫作實(shí)踐中繼續(xù)運(yùn)用語料庫這一工具與資源;同時(shí)調(diào)查對象也指出:現(xiàn)有的語料庫資源有待充實(shí),語料庫的檢索操作仍顯復(fù)雜。本研究旨在為專門用途語料庫的建設(shè)提供一些參考。
農(nóng)科學(xué)術(shù)英語論文、語料庫、學(xué)術(shù)英語、CQPweb
20世紀(jì)60年代,世界上第一個電子化英語語料庫布朗語料庫問世后,各種類型、用途、規(guī)模的語料庫相繼建成。按研究目的,可將語料庫分為通用英語(EGP)和專門用途英語(ESP)語料庫。布朗語料庫、英國國家語料庫等均屬于通用英語語料庫。而專門用途英語語料庫是特定領(lǐng)域語言的反映(黃大網(wǎng)等2010),包括商務(wù)、法律、醫(yī)學(xué)等專業(yè)方向的語料庫,廣泛應(yīng)用于詞典編纂、機(jī)輔翻譯、語言教學(xué)等。專門用途英語中的很多用法在通用英語語料庫中未有收集,因而無法檢索到例子,那么就需要建立專門用途英語語料庫。Sinclair(2003)曾指出大型語料庫的建設(shè)已趨緩,建設(shè)規(guī)模較小、專業(yè)針對性更強(qiáng)的ESP語料庫將是語料庫建設(shè)的發(fā)展趨勢。國際上有代表性的ESP語料庫,包括Hyland建設(shè)的多學(xué)科學(xué)術(shù)期刊論文語料庫(含8個學(xué)科,240篇論文,130萬詞)、Swales(2003)開發(fā)的學(xué)術(shù)口語語料庫(錄音轉(zhuǎn)寫170萬詞)。另外,英國考文垂、雷丁等大學(xué)(2004-2007年)聯(lián)合建設(shè)了英國學(xué)術(shù)英語寫作語料BAWE(British Academic Writing of English)庫,該庫子集life sciences(140萬詞)的收錄涉及農(nóng)業(yè)科學(xué)(134篇)、生物科學(xué)(169篇)、食品科學(xué)(124篇)3個農(nóng)業(yè)學(xué)科400多篇,代表著由高層次英語母語學(xué)習(xí)者撰寫的學(xué)術(shù)論文。當(dāng)然,life sciences子語料庫并非農(nóng)科英語專屬語料庫,它同時(shí)也收錄了醫(yī)學(xué)、健康、心理學(xué)等領(lǐng)域的學(xué)術(shù)論文。除此之外,未見國外其他農(nóng)科英語語料庫建設(shè)的相關(guān)文獻(xiàn)記載。
在國內(nèi),1983年由楊惠中和黃人杰主持建成的上海交大科技英語語料庫JDEST是國內(nèi)建設(shè)的第一個學(xué)術(shù)英語語料庫。自20世紀(jì)90年代以來,很多學(xué)科領(lǐng)域都相繼建設(shè)了專門用途英語語料庫,如軍事、海事、法律、商務(wù)、醫(yī)學(xué)、計(jì)算機(jī)等學(xué)科的ESP語料庫(趙晴 2010;董愛華 2013)。迄今為止,國內(nèi)有關(guān)農(nóng)科英語語料庫建設(shè)的文獻(xiàn)只有3個檢索結(jié)果,包括西北農(nóng)林大學(xué)(王敏、李麗霞 2014:6855)建設(shè)的動物科學(xué)國際期刊論文語料庫(100萬詞)、王景懌(2015:51)主持建設(shè)的英漢/漢英雙語畜牧業(yè)小型語料庫,但這兩個語料庫不僅庫容量小,而且只涉及農(nóng)科領(lǐng)域某一個專業(yè)方向。有學(xué)者(范晶晶、李麗霞 2014;栗娜 2015)呼吁創(chuàng)建農(nóng)業(yè)學(xué)術(shù)英語語料庫,并提出了建設(shè)構(gòu)想,這表明國內(nèi)部分學(xué)者已經(jīng)意識到農(nóng)科英語語料庫建設(shè)的必要性和重要性。
語料庫被廣泛用于語言教學(xué)與研究,正如Leech(1993)所言:“從科學(xué)方法的角度,語料庫研究方法是一種更為強(qiáng)有力的方法,因?yàn)槠浣Y(jié)果是可以驗(yàn)證的?!盝ohns(1991)提出了“數(shù)據(jù)驅(qū)動學(xué)習(xí)”(Data-driven Learning,簡稱DDL)。國內(nèi)的語料庫專家論證了語料庫的頻率統(tǒng)計(jì)、概率分析等功能對于寫作中詞塊、類聯(lián)接、語義韻律等語言使用方面的研究價(jià)值(李文中 2001;王克非、黃立波2008;王克非、秦洪武 2012),桂詩春等(2010)專家論證了語料庫與ESP發(fā)展的互動關(guān)系,呼吁利用語料庫促進(jìn)ESP教學(xué)發(fā)展。
農(nóng)業(yè)是涉及國計(jì)民生的支柱產(chǎn)業(yè),眾多從事農(nóng)業(yè)科技研究的科研人員和高層次的學(xué)習(xí)者均有發(fā)表SCI論文、在國際上推廣農(nóng)科研究成果的需求。因此,農(nóng)科英語語料庫的建設(shè)及其在寫作教學(xué)中的應(yīng)用具有緊迫的現(xiàn)實(shí)意義。依托國家社科基金項(xiàng)目,項(xiàng)目組創(chuàng)建了農(nóng)科學(xué)術(shù)英語論文語料庫,旨在為農(nóng)科專業(yè)高層次學(xué)習(xí)者的ESP寫作教學(xué)及SCI論文寫作過程提供資源、工具與方法,提升農(nóng)科英語論文的寫作質(zhì)量與刊發(fā)率,最終促進(jìn)農(nóng)科成果在國際上的推廣。
農(nóng)科學(xué)術(shù)英語論文語料庫是根據(jù)農(nóng)學(xué)專業(yè)分類,收集農(nóng)科文獻(xiàn)中完整的學(xué)術(shù)英語論文文本而建成的電子文庫。該庫收集的文本包括已發(fā)表的權(quán)威期刊論文和農(nóng)科專業(yè)碩士生、博士生撰寫的學(xué)術(shù)論文。該庫的創(chuàng)建意義有:1)多學(xué)科、跨學(xué)科、交叉學(xué)科的農(nóng)科學(xué)術(shù)英語論文語料庫的創(chuàng)建可基本滿足ESP寫作教學(xué)多方面的需求,例如為教材建設(shè)、大綱與詞表的制定、農(nóng)科詞典編纂、農(nóng)科專業(yè)翻譯和語言培訓(xùn)提供資源與工具;2)語料庫的應(yīng)用將促進(jìn)寫作教學(xué)的改革。長期以來,寫作教學(xué)被認(rèn)為費(fèi)時(shí)低效,枯燥的講授與單調(diào)的操練導(dǎo)致產(chǎn)出格式化、形式化(蔡少蓮 2008),語料庫數(shù)據(jù)驅(qū)動的寫作教學(xué)方式可提高寫作教學(xué)成效,促進(jìn)ESP寫作教學(xué)改革。
3.1 農(nóng)科學(xué)術(shù)英語論文語料庫及其網(wǎng)絡(luò)檢索平臺
農(nóng)科學(xué)術(shù)英語論文語料庫包括農(nóng)科方向的SCI期刊論文語料庫(336個完整論文文本,220萬詞)與學(xué)習(xí)者語料庫,后者收錄了碩士生、博士生出于真實(shí)SCI發(fā)表目的撰寫的學(xué)術(shù)論文(306個完整論文文本,140萬詞)。這兩個平行的語料庫有著相同的結(jié)構(gòu)框架,其下是按照學(xué)科分類的專業(yè)論文子集,包括九個學(xué)科:植物科學(xué)(ZWKX)、動物科學(xué)(DWKX)、生命科學(xué)(SMKE)、園藝林學(xué)(YYLX)、水產(chǎn)科學(xué)(SCKX)、食品科學(xué)(SPKX)、農(nóng)科機(jī)械(NKJX)、農(nóng)業(yè)經(jīng)濟(jì)(NYJI)、資源環(huán)境(ZYHJ)。每篇論文按照“學(xué)科名稱漢語拼音的首字母組合 + 數(shù)字”命名,例如植物科學(xué)專業(yè)的第34篇論文,命名為ZWKX34。為了凸顯傳統(tǒng)農(nóng)科專業(yè)的地位,336篇期刊論文中4個傳統(tǒng)的農(nóng)科專業(yè)(植科、動科、生科、園林)的文本數(shù)量(在50篇以上)比其他學(xué)科(在25篇以上)要多。期刊論文語料庫代表英語母語者專家語料庫,學(xué)習(xí)者語料庫代表漢語母語者語料庫。這兩個語料庫除了按照學(xué)科劃分的9個學(xué)科子語料庫之外,還按照論文的部分分類,建立了6個論文部分子語料庫,包括摘要ABS(abstract)、引言INT(introduction)、方法材料MET(methodology)、結(jié)果RES(results)、討論DIS(discussion)、結(jié)論CON(conclusion)。語料庫構(gòu)架如下圖所示:
圖1. 農(nóng)科學(xué)術(shù)英語論文語料庫構(gòu)架
為了實(shí)現(xiàn)語料庫資源共享與服務(wù)寫作教學(xué)及其研究的目的,項(xiàng)目組在北京外國語大學(xué)語料庫團(tuán)隊(duì)(特別是吳良平老師)的幫助下,架設(shè)了基于校園網(wǎng)的語料庫檢索平臺(corpus query processor,簡稱CQPweb)。該平臺主體為農(nóng)科學(xué)術(shù)英語論文語料庫。同時(shí),為了語言的對比研究,得到授權(quán)后,項(xiàng)目組又上傳了BAWE語料庫。該庫收錄了高層次英語母語學(xué)習(xí)者撰寫的學(xué)術(shù)論文,可進(jìn)行英、漢語母語語言使用的對比比較,亦可進(jìn)行專家和學(xué)習(xí)者的語言對比研究。
3.2 語料選取的標(biāo)準(zhǔn)與文本元信息標(biāo)記
9個農(nóng)科專業(yè)方向相關(guān)的期刊論文來自9個農(nóng)科院系的專家、教授們親自下載推薦的權(quán)威期刊論文。他們對刊源的權(quán)威性和論文本身的質(zhì)量進(jìn)行了嚴(yán)格把關(guān)。期刊論文語料的選擇標(biāo)準(zhǔn)包括:1)論文的第一作者必須是英語母語者(依據(jù)姓名、國籍、工作單位、作者介紹判斷);2)源PDF論文的分欄排版最好是一欄或兩欄;3)文章具有典型的SCI論文結(jié)構(gòu),即包括摘要、引言、方法材料、結(jié)果、討論、結(jié)論幾個結(jié)構(gòu)板塊,剔除了板塊結(jié)構(gòu)不夠明顯的論文。例如,刊源為Science、Nature等自然科學(xué)頂級期刊上介紹性、報(bào)道性或綜述性的文章被剔除;4)文章的長度以10頁左右為佳,不宜過長,也不宜過短。最終我們收集到9個農(nóng)科專業(yè)滿足條件的論文共336篇(220萬詞)。其中大部分期刊論文的作者來自美國和英國,少部分來自于加拿大、澳大利亞以及新西蘭等英語國家,刊源為包括Nature和Cell等在內(nèi)的國際權(quán)威期刊。
學(xué)習(xí)者語料庫的語料來自華中農(nóng)業(yè)大學(xué)9個農(nóng)科專業(yè)方向的碩士生、博士生出于真實(shí)SCI論文發(fā)表目的而撰寫的研究論文。論文由專門提供學(xué)術(shù)英語論文語言修改服務(wù)的華農(nóng)學(xué)術(shù)寫作工作室提供。項(xiàng)目組從該工作室采集到從2010年1月至2015年3月修改前的完整學(xué)術(shù)論文共300多篇,經(jīng)語料加工,最終得到有效文本305篇(140萬詞)??偟膩碚f,由于來源局限,學(xué)習(xí)者論文語料比期刊論文語料少,論文的學(xué)科分布均衡性也不及期刊論文。由于論文修改遵循自愿原則,并非所有寫作者都選擇向華農(nóng)學(xué)術(shù)寫作工作室提交論文修改請求,有的院系的學(xué)生直接向國外公司提交論文修改。今后,我們將加大華農(nóng)學(xué)術(shù)寫作工作室的宣傳力度,同時(shí),我們將建立與其他農(nóng)科院校的合作,爭取在更廣范圍內(nèi)獲取學(xué)習(xí)者撰寫的研究論文,以便拓展語料來源,以求學(xué)習(xí)者語料庫語料的代表性及學(xué)科均衡性。
語料采集之后的工作便是文本元信息的統(tǒng)計(jì)。論文的編號與命名、文本字?jǐn)?shù)、作者國籍、期刊來源、作者姓名、論文標(biāo)題等信息被填寫在Excel表格中,以便對某些信息數(shù)據(jù)進(jìn)行計(jì)算分析。
3.3 文本轉(zhuǎn)換與清理、賦碼、標(biāo)記與子語料庫的建設(shè)
3.3.1 文本轉(zhuǎn)換與清理的兩種方法
文本元信息統(tǒng)計(jì)之后,便是對語料的加工處理。期刊論文的語料加工往往從PDF格式轉(zhuǎn)換開始,學(xué)習(xí)者語料庫則從DOC格式文本轉(zhuǎn)換開始。在此我們介紹兩種從PDF到TXT的文本格式轉(zhuǎn)換方法。
方法一:此法采用北京外國語大學(xué)中國外語教育研究中心和外語教學(xué)與研究出版社聯(lián)合舉辦的暑期語料庫培訓(xùn)課程中所介紹的方法,該方法對期刊論文語料進(jìn)行了兩次轉(zhuǎn)換,即從PDF到DOC,再到TXT。文本格式轉(zhuǎn)換需借助的工具軟件和操作步驟展示如下:
(1)PDF文件轉(zhuǎn)換成DOC文件。這一步驟所用的工具軟件為Adobe Acrobat。首先對頁眉、頁腳裁剪刪除,之后另存為DOC格式文件。然后刪除DOC文件中的噪音信息,如刊源信息、作者信息(包括作者姓名、通訊地址等)、圖表、注釋、參考文獻(xiàn)等等,有些文本信息的取舍取決于研究目的,例如是否保留致謝部分取決于研究需要。
(2)將所有由PDF文本轉(zhuǎn)換得到的DOC文件整理到一個文件夾中,利用“DOC to TXT”軟件一次性轉(zhuǎn)換成TXT格式文件。但是轉(zhuǎn)換后的文本中亂碼現(xiàn)象時(shí)有發(fā)生。針對這一問題,課題組成員嘗試著利用Nitro Reader軟件將PDF格式直接轉(zhuǎn)換成TXT格式文本,但是該軟件不具備裁剪頁眉、頁腳的功能,所以增加了手動刪除的工作量,但基本上不會出現(xiàn)亂碼和正文內(nèi)容板塊順序錯亂的情況,所以兩種軟件各有利弊。
(3)核對檢查TXT文件信息。對照PDF源文件,檢查TXT文件。檢查對象包括在刪除、復(fù)制、文本格式轉(zhuǎn)化過程造成的文本內(nèi)容的遺失、重復(fù)、板塊結(jié)構(gòu)順序錯亂以及拼寫錯誤。例如,我們發(fā)現(xiàn)經(jīng)過兩次格式轉(zhuǎn)換后,有些單詞中“fl”和“fi”的字母組合被顯示為“?”。如果某類錯誤有規(guī)律可循,便可以使用EditPad Pro軟件進(jìn)行查找和替換,批量處理,或者在PowerGREP軟件中逐個修改。
(4)TXT文本的清潔。經(jīng)過上述檢查步驟得到一個初步的TXT基礎(chǔ)文本,但是這絕非是最終可以使用的清潔文本,因此需要對TXT基礎(chǔ)文本進(jìn)行清潔。TXT文本清潔工具軟件可采用PowerGREP軟件。
方法二:
我們不妨把上述文本轉(zhuǎn)換與清理的方法稱之為方法一。采用方法一,項(xiàng)目組完成了200多篇期刊論文語料的加工與處理。實(shí)踐表明,通過方法一加工1篇期刊論文文本的工作,包括從PDF到TXT文本的轉(zhuǎn)換與清潔大致需要花費(fèi)40-60分鐘。語料庫建設(shè)后期,華農(nóng)的博士生參與了語料資源的共建共享,有博士生推薦了一種快速有效的文本轉(zhuǎn)換方法,我們將其稱之為方法二。方法二加工處理1篇期刊論文平均所需時(shí)間在10分鐘以內(nèi),是方法一所需時(shí)間的1/6或1/5,依靠此種方法得到的TXT文本,基本不需要文本清潔,即文本轉(zhuǎn)化與清潔兩項(xiàng)工作一并完成。使用方法二實(shí)現(xiàn)從PDF到TXT直接轉(zhuǎn)化的3個簡單步驟如下:
步驟1:用以下網(wǎng)址搜索所需要的英文文獻(xiàn):http://www.gfsoso.netscholar;https://scholar.ghbcx.com;https://scholar.wddmz.com。以第一個網(wǎng)址為例,在谷粉搜搜中找到提供全文資源的期刊論文。
步驟2:在網(wǎng)絡(luò)頁面找到相關(guān)全文資料后,不需要下載全文,可直接在網(wǎng)頁上點(diǎn)擊Full Text (HTML)瀏覽全文。
步驟3:直接選中目標(biāo),復(fù)制內(nèi)容,新建TXT文件,把復(fù)制的內(nèi)容直接粘貼到TXT文件中,便得到TXT目標(biāo)文件。
方法二的優(yōu)點(diǎn)在于:1)基本上不會出現(xiàn)斷行和亂碼現(xiàn)象;2)可以避免刪除圖表及其注釋的大量繁瑣工作,省時(shí)高效;3)操作簡便易行。此法得到的文本可以放在PowerGREP軟件中進(jìn)行刪除空行的簡單處理就能得到我們需要的清潔文本。同時(shí)利用谷粉搜搜檢索期刊論文也是對期刊論文質(zhì)量的檢驗(yàn)。但是,此法的局限性在于過分依賴網(wǎng)絡(luò),僅能加工處理網(wǎng)絡(luò)上能夠檢索到的文獻(xiàn),不能處理非網(wǎng)絡(luò)版的文獻(xiàn)。
3.3.2 賦碼與標(biāo)記
文本賦碼將有利于文本的檢索。利用正則表達(dá)式進(jìn)行的復(fù)雜檢索對文本賦碼提出了要求。不同工具軟件甚至要求不同的賦碼形式。目前,英語文本的賦碼主要有TreeTagger和CLAWS兩種賦碼,二者皆可借助軟件自動完成??偟膩碚f,CLAWS賦碼比TreeTagger賦碼的精確程度更高。華農(nóng)語料庫對TXT原始文本進(jìn)行了TreeTagger和CLAWS兩種賦碼,以便適用于不同的檢索工具。
為便于語料的提取,項(xiàng)目組對336篇期刊論文和305篇學(xué)習(xí)者論文文本(總共641篇)中title、abstract、body 3個部分進(jìn)行了標(biāo)記。標(biāo)記方法是在標(biāo)注對象的開始位置與結(jié)尾位置分別加上一對尖括號。例如,對標(biāo)題的標(biāo)記,是在標(biāo)題前加,標(biāo)記后的標(biāo)題可提取,而對摘要和正文的標(biāo)記,同樣可以達(dá)到提取的目的。
3.3.3 子語料庫的建設(shè)
為了聚焦論文不同部分的寫作教學(xué)及其研究,在全文語料庫建設(shè)的基礎(chǔ)上,我們進(jìn)行了論文各部分(摘要、引言等)子語料庫的建設(shè)。論文部分子語料庫的建設(shè)遇到了以下一些問題:
1)不同期刊的論文寫作規(guī)范要求不一致,導(dǎo)致某些論文6個部分的結(jié)構(gòu)不是很清晰。例如,有的論文將Abstract界定為Summary,其位置可能放在論文的開頭,也可能放在論文的結(jié)尾;有的論文中Abstract部分甚至缺失;有的論文的Results部分可能與Discussion部分合并,Discussion也可能與Conclusion部分合二為一。
2)語料的高度專業(yè)化給論文部分的切分、提取帶來了技術(shù)障礙。語料加工者原本是英語專業(yè)的學(xué)生,其自身的知識完成不了論文章節(jié)部分的切分。同時(shí),科技論文并非純語言文本,里面含有大量的學(xué)科專業(yè)領(lǐng)域的符號和公式,很多符號是英語語言文學(xué)專業(yè)學(xué)生不曾接觸到的,有些符號、公式的刪除會影響論文本內(nèi)容的完整性,那么具體的符號與公式是否能刪掉,文本中的某些上下標(biāo)是否應(yīng)該恢復(fù),抑或可以刪掉等問題的解決需要應(yīng)用專業(yè)學(xué)科知識進(jìn)行識別、判斷與處理。
鑒于此,我們把子語料庫的建設(shè)任務(wù)以課后作業(yè)的形式分配給參與華農(nóng)學(xué)術(shù)英語寫作課程學(xué)習(xí)的60多名博士生,他們來自于植科、動科等不同農(nóng)科專業(yè),每人分得10篇論文,完成對論文的標(biāo)記、論文各部分的切分提取以及語料的人工校對。華農(nóng)60多名博士生經(jīng)過兩個星期的共同努力,在全文語料庫建設(shè)基礎(chǔ)上,我們完成了摘要、引言、方法、結(jié)論等6個子語料庫的建設(shè)。
農(nóng)科學(xué)術(shù)英語論文語料庫建成后,上傳到華中農(nóng)業(yè)大學(xué)HZAU CQPweb平臺(http://211.69.132.28/)。隨后,在2個博士班和2個本科生A班(英語成績優(yōu)異者組成的班級)的寫作教學(xué)中開展了語料庫應(yīng)用的教學(xué)實(shí)驗(yàn)。4個班共124人通過給定的賬戶與密碼登錄HZAU CQPweb使用該平臺。
語料庫檢索培訓(xùn)未在寫作課程學(xué)習(xí)中單獨(dú)增加學(xué)時(shí)。在QQ學(xué)習(xí)群上,教師上傳了語料庫CQPweb檢索手冊和常見問題及解答,供學(xué)生自學(xué),然后布置了語料庫檢索練習(xí)的課后作業(yè)。檢索練習(xí)的設(shè)計(jì)遵循從易到難、由簡入繁的原則,從單個詞的檢索到短語的搭配、句型的提取,從單庫檢索到跨庫檢索,從簡單檢索到復(fù)雜檢索。對于復(fù)雜檢索練習(xí)題,我們給予了檢索表達(dá)式進(jìn)行提示。在檢索作業(yè)完成期間,兩名教師24小時(shí)在QQ群提供檢索技術(shù)咨詢,在線實(shí)時(shí)解答學(xué)生關(guān)于語料庫檢索的各種提問。老師鼓勵學(xué)生在線提問,并將每周的語料庫檢索提問與答案收集整理,放到QQ群中與同學(xué)們分享。經(jīng)過4次循序漸進(jìn)的語料庫檢索練習(xí),學(xué)生基本掌握了語料庫檢索技術(shù)。在此基礎(chǔ)上,結(jié)合實(shí)際寫作任務(wù),要求同學(xué)們就寫作過程中實(shí)際遇到的語言困惑,自己提問并通過語料庫檢索,找到問題的答案。
語料庫應(yīng)用于寫作教學(xué)經(jīng)歷了一個學(xué)期的教學(xué)實(shí)驗(yàn),課程結(jié)束時(shí)我們對語料庫的應(yīng)用情況進(jìn)行了書面訪談。訪談圍繞“語料庫使用的困難與收獲”、“對語料庫的認(rèn)識”、“語料庫的局限”、“參與語料庫創(chuàng)建的感受”4個問題進(jìn)行了提問。反饋信息表明:絕大多數(shù)學(xué)生對語料庫在外語教學(xué)中的作用持肯定態(tài)度。他們認(rèn)為寫作過程中應(yīng)用語料庫有利于英語寫作質(zhì)量的提高,通過語料庫檢索及其結(jié)果分析,他們能夠?yàn)槟承┱Z言困惑自己探求答案。因此語料庫的應(yīng)用有利于提高學(xué)生的英語自主學(xué)習(xí)能力,有利于培養(yǎng)學(xué)生發(fā)現(xiàn)問題、分析問題、解決問題的能力??鐜鞕z索的對比研究有利于培養(yǎng)學(xué)生的批判性思維能力,提高其對語言使用的敏感度。鑒于此,很多學(xué)生明確表示在今后實(shí)際寫作中他們愿意利用語料庫這一工具與資源,提高寫作質(zhì)量。
書面反饋也暴露出語料庫建設(shè)與使用中的一些問題。其中最突出的兩個問題分別是:1)現(xiàn)有語料庫庫容量不夠大,農(nóng)科方向某些專業(yè)領(lǐng)域的論文在語料庫中未有涉及,影響了語料的代表性,導(dǎo)致某些專業(yè)表達(dá)在語料庫中不能檢索到結(jié)果;2)語料庫檢索表達(dá)式的編寫過于復(fù)雜,檢索界面不夠友好,語料庫檢索的學(xué)習(xí)與使用對新手提出了挑戰(zhàn),他們希望語料庫的檢索能夠像Google和百度搜索一樣方便。
同時(shí),調(diào)查對象對語料庫的建設(shè)與完善提出了以下建議:1)語料資源須充實(shí)。語料庫及其子語料庫的專業(yè)方向須細(xì)化,以求語料涵蓋面更廣、更具代表性。有同學(xué)甚至建議教師傳授語料庫建庫流程,以便學(xué)生自己下載本專業(yè)領(lǐng)域的語料,建設(shè)專業(yè)領(lǐng)域小型語料庫或某個目標(biāo)期刊論文的語料庫,滿足個性化語料檢索的需求。大部分同學(xué)表示愿意參與語料庫建設(shè),包括提供專業(yè)語料和進(jìn)行語料加工。2)在語料分類方面,他們建議根據(jù)期刊的影響因子的分值范圍進(jìn)行分類,以滿足用戶對不同檔次論文發(fā)表的檢索之需。3)在檢索技術(shù)培訓(xùn)方面,調(diào)查對象建議:編寫更簡便易用的CQPweb操作手冊;建立網(wǎng)絡(luò)討論平臺,便于交流互動;開設(shè)語料庫檢索技術(shù)培訓(xùn)課程。
本文探討了農(nóng)科英語語料庫建設(shè)的必要性,提出農(nóng)科學(xué)術(shù)英語論文語料庫的建設(shè)及其在學(xué)術(shù)英語教學(xué)中的應(yīng)用將有利于學(xué)術(shù)英語寫作質(zhì)量與水平的提高。本文詳細(xì)介紹了農(nóng)科英語語料庫的建設(shè)流程,介紹了兩種文本加工的方法。方法一:利用Adobe Acrobat和DOC to TXT兩個軟件實(shí)現(xiàn)從PDF到DOC,再到TXT的兩次文本格式轉(zhuǎn)化法,此種方法繁瑣耗時(shí),但是具有廣普適用性。方法二:利用學(xué)術(shù)文獻(xiàn)的瀏覽網(wǎng)頁,直接復(fù)制文本黏貼到TXT文本中,一次性實(shí)現(xiàn)從PDF到TXT的格式轉(zhuǎn)換,此法高效省時(shí)、出錯率低,特別適合已公開發(fā)表的學(xué)術(shù)文本的加工處理。語料庫建成后,上傳到基于校園網(wǎng)的CQPweb系統(tǒng),嘗試將語料庫應(yīng)用于寫作教學(xué)。
語料庫應(yīng)用的效果調(diào)查表明:經(jīng)過CQPweb檢索手冊的自學(xué)和多次語料庫檢索練習(xí),實(shí)驗(yàn)對象基本能掌握語料庫檢索技術(shù),從而解答寫作中的部分語言困惑。調(diào)查對象認(rèn)為語料庫有益于寫作質(zhì)量的提高,明確表達(dá)了在今后實(shí)際寫作中將應(yīng)用語料庫的意愿。同時(shí),書面訪談暴露出現(xiàn)有語料庫資源仍不夠豐富,語料庫培訓(xùn)需由專門人員在網(wǎng)絡(luò)計(jì)算機(jī)教室進(jìn)行演示,安排專門課時(shí)上機(jī)操作。由于語料庫研制有一定的技術(shù)門檻,可以調(diào)動有技術(shù)能力的學(xué)生參與語料庫建設(shè)。通過語料庫檢索技術(shù)的學(xué)習(xí)和應(yīng)用,學(xué)生意識到語料庫的價(jià)值,他們表示愿意提供專業(yè)語料文本并參與語料加工。
Hyland, K. 2008. Genre and academic writing in the disciplines [J]. Language Teaching 41(4):543-562.
Johns, T. 1991. Should you be persuaded—Two examples of data-driven learning materials [J].English Language Research Journal 4(1): 1-16.
Leech, G. 1993. Corpus annotation schemes [J]. Literary and Linguistic Computing 8(4): 275-281.
Leech, G. 1997. Teaching and language corpora: A convergence [A]. In A. Wichmann, S. Fligelstone,T. McEnery & G. Knowles (eds.). Teaching and Language Corpora [C]. London: Longman.1-23.
Sinclair, J. 2003. Reading Concordances [M]. London: Longman.
Swales J. 1990. Genre Analysis: English in Academic and Research Settings [M]. Cambridge:CUP.
蔡少蓮,2008,基于語料庫的英語寫作教學(xué)實(shí)證研究 [J],《外語教學(xué)》(6):61-68。
曹合建,2008,《基于語料庫的商務(wù)英語研究》[M]。北京:對外經(jīng)濟(jì)貿(mào)易大學(xué)出版社。
董愛華,2013,專門用途語料庫的建設(shè)、應(yīng)用、問題與發(fā)展趨勢 [J],《北京印刷學(xué)院學(xué)報(bào)》(5):59-62。
范晶晶、李麗霞,2014,農(nóng)業(yè)學(xué)術(shù)英語語料庫建設(shè)構(gòu)想 [J],《安徽農(nóng)業(yè)科學(xué)》(7):2169-2170。
桂詩春、馮志偉、楊惠中、何安平、衛(wèi)乃興、李文中、梁茂成,2010,語料庫語言學(xué)與中國外語教學(xué) [J],《現(xiàn)代外語》(4):419-426。
何安平,2010,《語料庫輔助英語教學(xué)入門》[M]。北京:外語教學(xué)與研究出版社。
黃大網(wǎng)、秦 羿、徐賽穎,2010,專門用途英語語料庫:挑戰(zhàn)、理據(jù)與愿景 [J],《寧波大學(xué)學(xué)報(bào)(人文科學(xué)版)》(5):48-52。
栗 娜,2015,淺析農(nóng)業(yè)學(xué)術(shù)英語語料庫建設(shè)思路及設(shè)想 [J],《高教學(xué)刊》(18):261-262。
梁茂成、李文中、許家金,2010,《語料庫應(yīng)用教程》[M]。北京:外語教學(xué)與研究出版社。
李文中、濮建忠,2001,語料庫索引在外語教學(xué)中的應(yīng)用 [J],《解放軍外國語學(xué)院學(xué)報(bào)》(2):20-25。
王景懌,2015,英漢–漢英雙語畜牧業(yè)小型語料庫建設(shè)及相關(guān)翻譯研究初探 [J],《語文學(xué)刊·外語教育教學(xué)》(2):51-52。
王克非、黃立波,2008,語料庫翻譯學(xué)十五年 [J],《中國外語》(6):9-14。
王克非、秦洪武,2012,英漢翻譯與漢語原創(chuàng)歷時(shí)語料庫的研制 [J],《外語教學(xué)與研究》(6):822-834。
王立非,2008,我國英語寫作教學(xué)與研究的語料庫語言學(xué)視角 [A]。載王立非(編),《英語寫作教學(xué)與研究的中國視角》 [C]。 北京:外語教學(xué)與研究出版社。2-9。
王 敏、李麗霞,2014,動物科學(xué)國際期刊論文語料庫的創(chuàng)建與應(yīng)用 [J],《安徽農(nóng)業(yè)科學(xué)》(20):6854-6856。
衛(wèi)乃興、李文中、濮建忠,2005,《語料庫應(yīng)用研究》[C]。上海:上海外語教育出版社。
楊惠中、黃人杰,1982,JDEST科技英語計(jì)算機(jī)語料庫 [J],《外語教學(xué)與研究》(4):60-62。
楊永林、李 鳴,2004,一種數(shù)字化英語學(xué)習(xí)語料庫及其應(yīng)用 [J],《外語電化教學(xué)》(6):20-26。
趙 晴,2010,專門用途語料庫在ESP教學(xué)中的應(yīng)用 [J],《重慶科技學(xué)院學(xué)報(bào)(社會科學(xué)版)》(19):182-184。
通訊地址:430070 湖北武漢華中農(nóng)業(yè)大學(xué)外國語學(xué)院(劉萍、劉珊)430070 湖北武漢華中農(nóng)業(yè)大學(xué)經(jīng)濟(jì)管理學(xué)院(黃小倩)
* 本研究得到2014國家社科基金項(xiàng)目“農(nóng)科英語語料庫的建設(shè)與其在ESP寫作教學(xué)中的應(yīng)用研究”(14BYY162)、中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2662015PY193)華中農(nóng)業(yè)大學(xué)2014年度校級重點(diǎn)建設(shè)課程(科技英語寫作)項(xiàng)目的資助。感謝北京外國語大學(xué)許家金教授、博士生吳良平對農(nóng)科學(xué)術(shù)英語論文語料庫的建設(shè)與本文的撰寫所提供的支持與幫助。