浙江大學(xué)_肖忠華
肖忠華語料庫(kù)語言學(xué)答客問
浙江大學(xué)_肖忠華
編者按
《語料庫(kù)語言學(xué)》創(chuàng)刊號(hào)有幸登載了桂詩春先生的個(gè)人學(xué)術(shù)訪談。桂先生定稿時(shí)自擬題名《語料庫(kù)語言學(xué)答客問》,本刊欣然從之。本期所刊肖忠華教授訪談,仍沿用《語料庫(kù)語言學(xué)答客問》,并綴以受訪者姓名,以示區(qū)分。據(jù)此,期刊數(shù)據(jù)庫(kù)收錄,讀者文獻(xiàn)查詢時(shí),可免于混淆。
肖忠華教授(1966-2016)是國(guó)際知名的語料庫(kù)研究學(xué)者,是華人語言學(xué)研究學(xué)者的杰出代表。他師從英國(guó)蘭卡斯特大學(xué)Tony McEnery教授,2002年獲得語料庫(kù)語言學(xué)博士學(xué)位。他的研究領(lǐng)域涉及基于語料庫(kù)的英漢對(duì)比與翻譯研究、漢語研究、英語研究、時(shí)體理論、語言教育及二語習(xí)得等。肖教授著述量多質(zhì)優(yōu),尤其在基于語料庫(kù)的英漢對(duì)比與翻譯研究以及漢語研究方面的成果突出。很多論著為相關(guān)領(lǐng)域必讀必引之作。2016年1月2日,肖教授不幸因病去逝。
肖教授生前于病榻之上完成我刊書面訪談,深談國(guó)內(nèi)外語料庫(kù)研究進(jìn)展和個(gè)人學(xué)術(shù)歷程,我刊同仁由衷感佩。謹(jǐn)以此文紀(jì)念并深切緬懷肖忠華教授。
我最初接觸“語料庫(kù)”的概念,是在20世紀(jì)80年代中期讀大學(xué)本科的時(shí)候。我對(duì)英語語法比較感興趣,所以喜歡研究夸克等人編寫的《當(dāng)代英語語法》和《英語語法大全》,發(fā)現(xiàn)這些原版著作對(duì)英語語法的描述及其例句和張道真《實(shí)用英語語法》等當(dāng)時(shí)國(guó)內(nèi)流行的英語語法之間一個(gè)很大的差別就在于,夸克語法更接近真實(shí)的語言。當(dāng)時(shí),我并不知道語料庫(kù)這個(gè)名稱,只是了解到夸克語法是以夸克等人建立的“英語用法調(diào)查”(Survey of English Usage,SEU)數(shù)據(jù)庫(kù)中所收集的英國(guó)人實(shí)際使用英語的素材為基礎(chǔ)的。
真正開始接觸“語料庫(kù)語言學(xué)”這個(gè)術(shù)語,是在1999年聯(lián)系到英國(guó)攻讀博士學(xué)位的時(shí)候。由于一直對(duì)英語語法感興趣,就聯(lián)系了當(dāng)時(shí)在蘭卡斯特大學(xué)任教的夸克語法作者之一的Geoffrey Leech教授。由于Leech當(dāng)時(shí)已從講座教授退休改為研究教授,不再接收新的博士生,所以他把我推薦給了Tony McEnery教授(當(dāng)時(shí)其職稱為Reader in Multilingual Corpus Linguistics)。這是我第一次聽說“語料庫(kù)語言學(xué)”這個(gè)名稱,了解到語料庫(kù)語言學(xué)是用計(jì)算機(jī)來分析人們實(shí)際使用的真實(shí)語言,不僅采用傳統(tǒng)語言學(xué)中的定性分析方法,而且采用數(shù)理統(tǒng)計(jì)方法對(duì)語言的使用作定量分析。由于我本科和研究生讀的都是英語和語言學(xué)專業(yè),對(duì)語言學(xué)和數(shù)理統(tǒng)計(jì)相結(jié)合的研究感到十分新奇,而且我對(duì)計(jì)算機(jī)一直很感興趣,所以就同意從英語語法轉(zhuǎn)為語料庫(kù)語言學(xué)方向。當(dāng)時(shí),上海教育出版社剛引進(jìn)出版了《牛津應(yīng)用語言學(xué)叢書》一套28冊(cè),其中包括John Sinclair的《語料庫(kù)、索引與搭配》(Corpus, Concordance, Collocation),這是我讀到的第一本專門研究語料庫(kù)語言學(xué)的著作。
當(dāng)我在2000年初到英國(guó)蘭卡斯特大學(xué)開始博士研究時(shí),我對(duì)語料庫(kù)語言學(xué)的了解差不多是零起點(diǎn),第一年只好開始惡補(bǔ)語料庫(kù)語言學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)編程三大塊的知識(shí)。當(dāng)時(shí),該領(lǐng)域除了McEnery & Wilson(1996,2001)的《語料庫(kù)語言學(xué)》等少數(shù)專著外,大多數(shù)語料庫(kù)研究基本都是以論文集的形式出版的,這是因?yàn)?0世紀(jì)八九十年代還很少有期刊接受和發(fā)表語料庫(kù)方面的論文。當(dāng)時(shí),采用語料庫(kù)的研究方法尚未像十多年后的今天那樣普遍為人們接受而顯得理所當(dāng)然,還可以聽到各種反對(duì)聲音(如Widdowson 2000;Newmeyer 2003)。積極倡導(dǎo)語料庫(kù)語言學(xué)的學(xué)者(如Sinclair和Leech)對(duì)語料庫(kù)的建庫(kù)原則和分析方法存在意見分歧。
雖然多語種語料庫(kù)已于20世紀(jì)90年代中后期開始得到了發(fā)展(如英語-挪威語平行語料庫(kù)),但在新世紀(jì)初,當(dāng)人們提到語料庫(kù)語言學(xué)時(shí),基本上是指英語語料庫(kù)語言學(xué),這是因?yàn)樵诮y(tǒng)一碼(Unicode)應(yīng)用于文字編碼之前,安裝與統(tǒng)一碼兼容的Windows 2000之前操作系統(tǒng)的計(jì)算機(jī)只能處理ASCII編碼的語言,除非支持特定的字符集。當(dāng)時(shí)國(guó)際上應(yīng)用最廣泛的語料庫(kù)是英國(guó)國(guó)家語料庫(kù)(BNC)和由ICAME發(fā)行的包括Brown、LOB、Frown、FLOB在內(nèi)的語料庫(kù)光盤。語料庫(kù)檢索與分析軟件包括基于DOS的Longman Mini Concordancer與WordSmith 3.0版。由于當(dāng)時(shí)語料庫(kù)分析工具相當(dāng)簡(jiǎn)陋,所以學(xué)習(xí)語料庫(kù)語言學(xué)基本上都需要學(xué)習(xí)編程才能滿足自己的研究需要。我最初學(xué)的編程語言是Perl(當(dāng)時(shí)還沒有現(xiàn)在很流行的編程語言Python和R),該語言的正則表達(dá)式功能強(qiáng)大,而且非常適合語料庫(kù)建庫(kù)和分析。隨著學(xué)界對(duì)語料庫(kù)語言學(xué)興趣的升溫,蘭卡斯特大學(xué)發(fā)起了每?jī)赡昱e辦一次的“國(guó)際語料庫(kù)語言學(xué)大會(huì)”,第一屆于2001年召開,即CL2001,到2015年已是第八屆了。
在國(guó)內(nèi),雖然上海交通大學(xué)楊惠中教授的團(tuán)隊(duì)于20世紀(jì)80年代早期就已開始研制科技英語語料庫(kù)(JDEST),隨后石油大學(xué)廣州分院的祝啟波也建了石油英語語料庫(kù)(GPEC),但即使是在語言學(xué)界,了解語料庫(kù)語言學(xué)的人也非常少。記得當(dāng)時(shí)國(guó)內(nèi)有人問我在英國(guó)讀什么專業(yè),我說是Corpus Linguistics,人家還以為跟尸體有關(guān)而感到很惡心。值得一提的是,臺(tái)灣“中研院”黃居仁、陳克健團(tuán)隊(duì)于20世紀(jì)90年代中期就成功研制了第一個(gè)帶詞性標(biāo)注的現(xiàn)代漢語平衡語料庫(kù),并在網(wǎng)上對(duì)公眾開放。
語料庫(kù)語言學(xué)借助自然科學(xué)的實(shí)證研究方法,利用計(jì)算機(jī)軟件對(duì)大規(guī)模真實(shí)語言數(shù)據(jù)進(jìn)行分析,不僅包括傳統(tǒng)的定性分析,而且還采用數(shù)理統(tǒng)計(jì)方法對(duì)語言進(jìn)行定量分析。需要特別指出的是,語料庫(kù)語言學(xué)不像轉(zhuǎn)換生成語法等傳統(tǒng)語言研究那么依賴于研究者的語言直覺,而是主要依靠真實(shí)語料的實(shí)證數(shù)據(jù),但同時(shí)又不排斥語言直覺,兩者有機(jī)結(jié)合。
語言學(xué)研究中常用的數(shù)據(jù)來源有兩類,即真實(shí)語料和研究者的語言直覺。語言分析當(dāng)然離不開語言直覺。例如,語言直覺可用來造句(不管是正確還是錯(cuò)誤的例句)用于語言分析,也可用來判斷某一表達(dá)方式是否可接受或合乎語法。研究者在需要時(shí)可立即利用直覺通過內(nèi)省來編造更純的例句,這是因?yàn)檎Z言直覺隨手可得,而且編造的例句不像人們?cè)谡鎸?shí)語境中使用語言那樣受語言外部因素干擾。從某種意義上甚至可以說,語言直覺在語言學(xué)研究中是必不可缺的,因?yàn)閷?duì)語言現(xiàn)象的分類通常涉及基于直覺的判斷,而這種分類在構(gòu)建語言理論時(shí)不可避免。然而,正如Seuren(1998:260-262)所述,語言直覺必須謹(jǐn)慎使用。
首先,語言直覺可能會(huì)受到個(gè)人的地域方言或社會(huì)方言影響(Krishnamurthy 2000a:172)。結(jié)果就是,一句話對(duì)某個(gè)人來說不合語法或不可接受,而對(duì)另一個(gè)人來說卻完全正確。因此,我們??砂l(fā)現(xiàn)在語言學(xué)文獻(xiàn)中,對(duì)某些例句的可接受性爭(zhēng)論不休。其次,研究者編造例句來支持或駁斥某一論點(diǎn)時(shí),同時(shí)在有意識(shí)地監(jiān)控自己的語言產(chǎn)出。因此,即使其語言直覺是正確的,編造出來的例句也不能代表典型用法。第三,基于語言直覺通過內(nèi)省得到的語言數(shù)據(jù)脫離語境,因?yàn)樗嬖谟趦?nèi)省者頭腦中而非真實(shí)語境中,而要判斷一句話是否合乎語法或可以接受,語境至關(guān)重要。有了合適的語境,即使是脫離語境時(shí)顯得不合語法或不可接受的語句也有可能會(huì)變得合乎語法或可以接受,而人們的想象力十分豐富,即使是最不可思議的話語,也可以想象出可能的語境(Krishnamurthy 2000b:32-33)。第四,基于語言直覺的研究結(jié)果很難驗(yàn)證,因?yàn)檠芯空呤窃陬^腦中通過內(nèi)省來造句,無法直接觀察。第五,過分依賴直覺會(huì)使研究者對(duì)語言使用的現(xiàn)實(shí)視而不見(Meyer & Nelson 2006)。例如,由于罕用詞或不常見的用法具有心理上的突顯性(Sinclair 1997:33;Krishnamurthy 2000a:170-171),人們更傾向于注意到不常見的語言現(xiàn)象而又對(duì)普通現(xiàn)象熟視無睹。最后,在語言學(xué)的某些研究領(lǐng)域中(如語言變異研究、歷時(shí)語言學(xué)、語言習(xí)得等等),研究者無法可靠地使用個(gè)人的語言直覺,而必須依賴于語料庫(kù)數(shù)據(jù)(Meyer 2002;Léon 2005:36)。
通過內(nèi)省得到的語言數(shù)據(jù)基于研究者個(gè)人的語言直覺,而語料庫(kù)數(shù)據(jù)則截然不同,它匯集了許多語言使用者的語言直覺。語料庫(kù)中的書面語或口語語料樣本源自于真實(shí)語境中使用的自然語言。由于人們?cè)谡鎸?shí)語境中使用語言也是基于自己的語言直覺,可以說語料庫(kù)也是基于語言直覺的,但它比內(nèi)省式的語言數(shù)據(jù)更加自然,因?yàn)樗怯糜趯?shí)際的交際目的而不像后者那樣是編造出來用于語言分析的。與研究者個(gè)人通過內(nèi)省得到的語言數(shù)據(jù)相比,語料庫(kù)數(shù)據(jù)一般能反映出更多語言使用者的語言直覺。語料庫(kù)方法還能很容易地提供語言現(xiàn)象的頻數(shù),而這很難利用語言直覺可靠地預(yù)測(cè)(McEnery & Wilson 2001:15)。正因?yàn)槿绱?,語料庫(kù)能使研究者克服自身語言直覺中的偏頗,并使之能夠辨別哪些是具有統(tǒng)計(jì)意義的典型語言現(xiàn)象,哪些是隨機(jī)現(xiàn)象??傊?,語料庫(kù)不僅能提供業(yè)已驗(yàn)證的、帶有語境的定量數(shù)據(jù),而且有助于識(shí)別語言直覺無法覺察的用法差異(Francis, Hunston& Manning 1996;Kennedy 1998:272)。此外,語料庫(kù)方法還在過去30年間拓展或突出了語言學(xué)中一些無法只通過語言直覺來研究的新領(lǐng)域(如語體變異研究)。
語料庫(kù)研究的這些特點(diǎn)使之有別于傳統(tǒng)的語言研究,并更能取得可靠的研究結(jié)果。正如Leech早在20世紀(jì)90年代初指出的那樣,“50年代的語料庫(kù)語言學(xué)家拒絕語言直覺,而60年代的普通語言學(xué)家拒絕語料庫(kù)數(shù)據(jù)。兩者均未獲取近年來許多成功的語料庫(kù)分析所涉及的數(shù)據(jù)覆蓋面和所取得的精辟見解”(Leech 1991:14)。正因?yàn)榫邆溥@些優(yōu)勢(shì),語料庫(kù)方法不僅成為語言學(xué)領(lǐng)域的標(biāo)準(zhǔn)研究工具,而且已開始逐漸成為基于文本的人文社科領(lǐng)域中重要的研究工具1。
我最初的語言學(xué)研究興趣是英語語法和語義學(xué)。正式接觸語料庫(kù)并系統(tǒng)研究語料庫(kù)語言學(xué),是2000年初到蘭卡斯特大學(xué)攻讀博士學(xué)位才開始的,在此之前對(duì)語料庫(kù)研究知之甚少。因此可以說,在語料庫(kù)研究方面對(duì)我影響最大的是以Leech和McEnery為代表的蘭卡斯特語料庫(kù)語言學(xué)傳統(tǒng)。
一般認(rèn)為,在語料庫(kù)語言學(xué)內(nèi)部有兩個(gè)不同的取向,即“基于語料庫(kù)”和“語料庫(kù)驅(qū)動(dòng)”,或稱“語料庫(kù)作為方法”和“語料庫(kù)作為理論”(McEnery &Hardie 2012),分別以Leech為首的蘭卡斯特團(tuán)隊(duì)和以Sinclair為首的伯明翰團(tuán)隊(duì)為代表。兩者在語料庫(kù)的性質(zhì)(即語料庫(kù)語言學(xué)是方法還是理論、對(duì)待語言直覺和語料庫(kù)前理論的態(tài)度)、語料庫(kù)建庫(kù)(如語料庫(kù)的平衡性與代表性、語料采用全文還是抽樣、語料庫(kù)標(biāo)注)、語料庫(kù)分析(如基于語料庫(kù)或語料庫(kù)驅(qū)動(dòng)、推斷統(tǒng)計(jì)在語料分析中的作用)等方面都存在意見分歧(McEnery, Xiao & Tono 2006;McEnery & Hardie 2012)。當(dāng)然,兩大派別之間的對(duì)立存在著人為夸大的因素(Xiao 2009a:993)。再者,隨著時(shí)間的推移,繼承Sinclair和Leech語料庫(kù)研究傳統(tǒng)的兩派語料庫(kù)語言學(xué)家之間目前已有較大程度的融合,雙方取長(zhǎng)補(bǔ)短。
除了蘭卡斯特傳統(tǒng),Biber(1988)的多維度分析法對(duì)我的語料庫(kù)研究也有較大的影響。多維度分析法最初用于分析英語口語和書面語之間的語體差異,但在過去近30年中發(fā)展迅速并得到了廣泛運(yùn)用。我在這方面的研究主要集中在3個(gè)方面,即世界英語、科技論文摘要、翻譯共性(Xiao & McEnery 2005;Xiao 2009b;Cao & Xiao 2013;Hu, Xiao & Hardie forthcoming)。
目前布朗語料庫(kù)被公認(rèn)為第一個(gè)電子英語語料庫(kù),Quirk等人在倫敦大學(xué)學(xué)院于1959年開始建立的“英語用法調(diào)查”也被稱為現(xiàn)代語料庫(kù)語言學(xué)研究的鼻祖2。然而,由于漢語具有漢字眾多的特點(diǎn),盡管當(dāng)時(shí)還沒有語料庫(kù)這個(gè)名稱,但漢語研究早就具有采用真實(shí)語料來確定常用字詞的傳統(tǒng)。例如,我國(guó)第一個(gè)現(xiàn)代意義上的漢語字頻統(tǒng)計(jì),即黎錦熙的《國(guó)語基本語詞的統(tǒng)計(jì)研究》,早在1922年就已發(fā)表。教育家陳鶴琴及九名弟子花了3年時(shí)間收集并分析了6類“語體文”語料共計(jì)形符554,498字,類符4,261字,并對(duì)頻數(shù)為5,000、3,000、2,000和1,000以上的頻段進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)這些頻段的字?jǐn)?shù)分別為10、19、38和100以上,其結(jié)果于1922年發(fā)表在《新教育》第5卷第5期,其修訂本由商務(wù)印書館于1928年重新出版為《語體文應(yīng)用字匯》。黎錦熙和陳鶴琴的漢語字頻研究無疑為我國(guó)基于語料庫(kù)的詞匯研究開了先河。
隨著語料庫(kù)語言學(xué)在英美等國(guó)逐漸興起,以及計(jì)算機(jī)中文信息處理技術(shù)的改善,語料庫(kù)研究也從20世紀(jì)80年代開始在我國(guó)得以開展,并在過去近20年中得到了迅猛的發(fā)展。我國(guó)的語料庫(kù)研究主要集中在以下3個(gè)方面:漢語語料庫(kù)與中文信息處理、學(xué)習(xí)者語料庫(kù)與漢語中介語語料庫(kù)、漢英雙語平行語料庫(kù)。第一類漢語語料庫(kù)大多是由計(jì)算機(jī)專業(yè)研究者所建的專門用途語料庫(kù),缺乏平衡性,主要服務(wù)于中文信息處理而非語言學(xué)研究。第二類語言教學(xué)用語料庫(kù)研究主要由高校外語教師和對(duì)外漢語教師承擔(dān),其中學(xué)習(xí)者語料庫(kù)主要是專業(yè)和非專業(yè)英語學(xué)習(xí)者語料庫(kù),收集的語料大多為歷年英語等級(jí)考試材料,而漢語中介語語料庫(kù)主要包括日、韓、泰國(guó)等亞洲國(guó)家在華留學(xué)生的作文和口語材料。第三類雙語平行語料庫(kù)建設(shè)主要與過去10年左右我國(guó)開展語料庫(kù)翻譯學(xué)研究密切相關(guān)。
語料庫(kù)語言學(xué)在中國(guó)的迅速發(fā)展,主要得益于政府與學(xué)術(shù)機(jī)構(gòu)的大力支持以及高校等學(xué)術(shù)組織對(duì)語料庫(kù)研究方法的推廣普及。例如,近10年來,由國(guó)家社科基金資助,包括重大課題在內(nèi)的批準(zhǔn)項(xiàng)目每年都有差不多20個(gè),出版社與語言學(xué)專業(yè)期刊也越來越愿意發(fā)表語料庫(kù)研究成果。近年來國(guó)內(nèi)許多高校都為語言學(xué)專業(yè)研究生開設(shè)了語料庫(kù)語言學(xué)課程,北京外國(guó)語大學(xué)中國(guó)外語教育研究中心和上海交通大學(xué)也為高校教師和研究生等開設(shè)了多期語料庫(kù)語言學(xué)研修班。另外值得一提的是,由中外學(xué)者的民間力量自發(fā)組織開發(fā)并維護(hù)的www.corpus4u.org網(wǎng)站,自建站10年來為語料庫(kù)研究在我國(guó)的推廣和發(fā)展起到了十分重要的作用。
雖然我國(guó)的語料庫(kù)研究在新世紀(jì)得到了長(zhǎng)足的發(fā)展,但目前還存在不少問題。
首先是學(xué)科之間溝通合作不足。語料庫(kù)語言學(xué)涉及語言學(xué)、計(jì)算機(jī)、數(shù)理統(tǒng)計(jì)等多個(gè)學(xué)科的專業(yè)知識(shí),學(xué)科之間的合作不僅能拓寬研究思路、提高研究質(zhì)量,而且對(duì)當(dāng)今大數(shù)據(jù)時(shí)代的研究來說發(fā)揮著越來越重要的作用。而在我國(guó),研究語料庫(kù)的兩個(gè)研究群體,即研究漢語語料庫(kù)和中文信息處理的計(jì)算機(jī)領(lǐng)域和主要研究外語語料庫(kù)的外語教學(xué)與研究領(lǐng)域(包括涉及漢語的語言對(duì)比與翻譯研究),由于其研究目標(biāo)不同,兩者之間很少有相互的研究合作。在2011年5月由香港教育學(xué)院主辦的“漢語語料庫(kù)及語料庫(kù)語言學(xué)”圓桌會(huì)議上,國(guó)內(nèi)的與會(huì)者大多是中文信息處理和漢語研究方面的專家。當(dāng)我提到“中國(guó)語料庫(kù)語言學(xué)研究會(huì)”,幾乎沒有人知道或承認(rèn)這個(gè)語料庫(kù)協(xié)會(huì),說這是外語教師的一個(gè)組織吧。其實(shí),研究語料庫(kù)的語言學(xué)家與計(jì)算機(jī)專家之間的合作對(duì)雙方都有利。一方面,語言學(xué)家的參與能使語料庫(kù)更具有代表性,而另一方面,計(jì)算機(jī)專家的投入能使語料處理效率更高、語料加工也更具深度。在這方面,蘭卡斯特大學(xué)的UCREL和CASS語料庫(kù)研究中心的工作開展得卓有成效。UCREL研究中心的研究人員包括語言學(xué)系和計(jì)算機(jī)系對(duì)語料庫(kù)研究感興趣的老師,雙方相互合作取長(zhǎng)補(bǔ)短,承擔(dān)了包括英國(guó)國(guó)家語料庫(kù)(BNC)在內(nèi)的不少大型研究項(xiàng)目。由“英國(guó)經(jīng)濟(jì)社會(huì)研究理事會(huì)”(ESRC)投資430萬英鎊成立的CASS語料庫(kù)研究中心更是以語料庫(kù)為共同研究平臺(tái),聚集了語言學(xué)、計(jì)算機(jī)、心理學(xué)、醫(yī)學(xué)、歷史學(xué)、社會(huì)學(xué)、政治和財(cái)經(jīng)等眾多學(xué)科的專家,從多學(xué)科角度對(duì)各種社會(huì)問題進(jìn)行研究。這種學(xué)科之間的緊密合作值得我國(guó)語料庫(kù)研究者借鑒。
其次,重復(fù)投資、資源利用率不高。雖然國(guó)內(nèi)每年都有許多語料庫(kù)建設(shè)項(xiàng)目得到國(guó)家或省部級(jí)的資助,但建成的語料庫(kù)大多僅供內(nèi)部使用,有些項(xiàng)目建而不研,有的建成后束之高閣。其結(jié)果是語料庫(kù)資源利用率不高,從而引起重復(fù)投資和浪費(fèi)。當(dāng)然,有些語料庫(kù)是由于包括大量全文引起版權(quán)問題而使得對(duì)外開放資源受到限制,但此類版權(quán)問題從項(xiàng)目一開始,進(jìn)行語料庫(kù)設(shè)計(jì)時(shí)即應(yīng)加以考慮。其實(shí),只要語料庫(kù)設(shè)計(jì)合理,并與版權(quán)方充分溝通,這些問題是可以解決的。例如,美國(guó)的語言數(shù)據(jù)協(xié)會(huì)(LDC)、歐洲語言資源協(xié)會(huì)(ELRA)和牛津文本檔案庫(kù)(OTA)都發(fā)布了大量的語料庫(kù)資源,其版權(quán)問題都得到了妥善解決。要提高語料庫(kù)資源的共享度,我建議有關(guān)部門出臺(tái)規(guī)定,凡是得到國(guó)家和省部級(jí)資助的縱向課題產(chǎn)生的語料庫(kù)都必須在結(jié)題后一定時(shí)間內(nèi)(如6個(gè)月的保護(hù)期后,以便項(xiàng)目組享有數(shù)據(jù)的優(yōu)先使用權(quán))將資源向公眾開放。英國(guó)研究理事會(huì)的數(shù)據(jù)政策規(guī)定,所有資助項(xiàng)目產(chǎn)生的數(shù)據(jù)資源必須在項(xiàng)目結(jié)束后公開3。我國(guó)可以借鑒這一做法。
再次,從國(guó)內(nèi)出版和發(fā)表的研究成果來看,絕大多數(shù)語料庫(kù)質(zhì)量不高,語料分析也缺乏深度和系統(tǒng)性;發(fā)表的論文翻譯引介國(guó)外研究的多,而實(shí)證研究少。語料庫(kù)研究質(zhì)量不高與我國(guó)語言學(xué)界流行的“一窩蜂上”這一通病有關(guān)。從最初的轉(zhuǎn)換生成語法到系統(tǒng)功能語言學(xué),再到現(xiàn)在的語料庫(kù)語言學(xué),都存在這個(gè)問題。從www.corpus4u.org網(wǎng)站上的提問和討論來看,國(guó)內(nèi)有不少早期職業(yè)研究者,對(duì)語料庫(kù)一知半解,甚至缺乏最基本的語料庫(kù)知識(shí)和分析技能,都在用語料庫(kù)方法作研究寫論文。其實(shí),語料庫(kù)只是研究方法的一種,而且這種方法不是萬能的。有些研究問題用其他方法來研究效率更高。只有弄清楚語料庫(kù)能用來做什么,不能做什么,如何針對(duì)特定的研究問題建立或選擇合適的語料庫(kù),使用什么工具,以及特定軟件的哪些功能,采用哪些統(tǒng)計(jì)分析手段,如何將語料庫(kù)證據(jù)和包括語言直覺和其他學(xué)科知識(shí)在內(nèi)的資源結(jié)合起來,才能夠產(chǎn)出高質(zhì)量的語料庫(kù)研究。
最后,我國(guó)的語料庫(kù)研究基本上都在國(guó)內(nèi)的中文期刊上發(fā)表,而很少有論文發(fā)表在高檔次的國(guó)際期刊上,缺少與國(guó)際學(xué)術(shù)界的互動(dòng)與交流,以至于國(guó)際學(xué)術(shù)界對(duì)中國(guó)的語料庫(kù)研究知之甚少。其實(shí),我國(guó)的語料庫(kù)研究在某些方面(如漢語語料庫(kù)的加工,涉及漢語的雙語平行語料庫(kù)研究)還是處于國(guó)際領(lǐng)先地位的4。各高校和科研單位應(yīng)改革并完善業(yè)績(jī)?cè)u(píng)定與獎(jiǎng)勵(lì)機(jī)制,鼓勵(lì)作者走出去在國(guó)際上出版和發(fā)表自己的研究成果,讓世界聽到來自中國(guó)的聲音,了解我國(guó)的研究現(xiàn)狀。近年來,我國(guó)的學(xué)者在這方面已開始取得一些進(jìn)展(如Tsou & Kwong 2015;Xiao & Hu 2015;Xiao & Wei 2014;Zou, Hoey & Smith 2015;Hu & Kim forthcoming)。
從上述對(duì)我國(guó)語料庫(kù)研究現(xiàn)狀的討論可以看出,今后的發(fā)展應(yīng)該考慮以下幾個(gè)方面。首先是要加強(qiáng)學(xué)科間的研究合作,發(fā)展跨學(xué)科研究。這種合作有利于語料庫(kù)研究的深入開展,同時(shí)也是基于大數(shù)據(jù)的研究所必需的。第二,加強(qiáng)縱向項(xiàng)目數(shù)據(jù)管理,實(shí)現(xiàn)數(shù)據(jù)共享。一個(gè)好的語料庫(kù)通常是可反復(fù)利用的資源,而且可以滿足多種研究目的,但創(chuàng)建一個(gè)好的語料庫(kù)常常既費(fèi)時(shí)又耗資。根據(jù)不同的研究目的實(shí)現(xiàn)數(shù)據(jù)無償或有償共享,有利于節(jié)省研究時(shí)間和資金的投入。第三,加強(qiáng)研究梯隊(duì)建設(shè),提高研究質(zhì)量。老一代成熟的研究人員要發(fā)揮傳幫帶的作用,有計(jì)劃地培養(yǎng)早期職業(yè)研究人才,避免一窩蜂上的局面,建立語料庫(kù)研究梯隊(duì),形成我國(guó)語料庫(kù)研究的后勁以利于長(zhǎng)期發(fā)展。最后,我國(guó)的語料庫(kù)研究要立足國(guó)內(nèi),并走向世界。中文是世界上使用人數(shù)最多的語言,用中文發(fā)表研究成果本來無可厚非,但英語作為國(guó)際通用的科技和出版語言有利于世界各地的學(xué)者進(jìn)行交流。實(shí)際上,有許多非英語國(guó)家的作者都是直接用英語發(fā)表論文的。我們應(yīng)鼓勵(lì)作者把國(guó)內(nèi)包括語料庫(kù)研究在內(nèi)的頂級(jí)科研成果發(fā)表在高檔次的國(guó)際期刊上;同時(shí)把國(guó)內(nèi)發(fā)表的優(yōu)秀論文全文譯介到國(guó)際上以便交流。在譯介我國(guó)優(yōu)秀論文方面,中國(guó)知網(wǎng)已成立國(guó)際出版中心(http://tp.cnki.net),旨在通過組織高水平的編輯和翻譯人員,精選優(yōu)秀學(xué)術(shù)期刊中的論文進(jìn)行漢譯英翻譯并在線同步出版,以全面提高國(guó)際同行對(duì)我國(guó)社科領(lǐng)域最新研究成果的了解和認(rèn)同,進(jìn)一步提升中國(guó)優(yōu)秀學(xué)術(shù)成果的海外影響力。
我國(guó)語料庫(kù)研究在國(guó)際上的自我定位,應(yīng)該遵循“揚(yáng)我所長(zhǎng)、以研促用”的原則。前者是要充分利用自身的優(yōu)勢(shì),后者是要提高研究的實(shí)用價(jià)值。具體地說,首先是研究我們的母語漢語。到目前為止,基于語料庫(kù)的漢語研究基本上以現(xiàn)代漢語書面語為主。今后的研究可以更加注重以下幾個(gè)方面。一是在平衡語料庫(kù)的基礎(chǔ)上更系統(tǒng)地研究現(xiàn)代漢語口語,并對(duì)口筆語語體進(jìn)行比較。二是研究過去20年來隨互聯(lián)網(wǎng)與通訊技術(shù)發(fā)展而新出現(xiàn)的語體(如社交媒體)。這些新語體具有自身的語言特點(diǎn),但現(xiàn)有的漢語平衡語料庫(kù)基本上都沒有包含在內(nèi)。三是研制包含漢語發(fā)展各主要階段的歷時(shí)語料庫(kù)。漢字是世界上最古老的文字之一,創(chuàng)建能反映漢語發(fā)展史的歷時(shí)平衡語料庫(kù),不僅對(duì)我國(guó)古籍研究大有裨益,而且也能為自古以來中外語言接觸和文化交流的研究提供研究素材和實(shí)證依據(jù)。四是創(chuàng)建漢語方言語料庫(kù)。我國(guó)具有豐富的語言資源,各地方言多達(dá)230多種,對(duì)語言接觸和語言類型學(xué)研究具有十分重要的意義;而對(duì)于那些瀕危方言,建立語料庫(kù)則更能起到保護(hù)和保存作用。五是開發(fā)新的適合漢語并針對(duì)漢語特點(diǎn)的語料分析方法和工具。
其次是研制包括可比語料庫(kù)和平行語料庫(kù)在內(nèi)的多語種語料庫(kù),開展中外語言對(duì)比與翻譯研究。涉及像英語、漢語這樣大跨度語言之間的語言對(duì)比和翻譯(包括口譯)研究對(duì)于語言學(xué)理論具有重要意義,而針對(duì)主要外語語種和非通用語種的此類研究對(duì)外語教學(xué)具有指導(dǎo)意義。
第三,開發(fā)教學(xué)用語料庫(kù)資源,開展基于語料庫(kù)的二語習(xí)得研究。教學(xué)用語料庫(kù)是指我國(guó)各類學(xué)生學(xué)習(xí)外語的學(xué)習(xí)者語料庫(kù)和外國(guó)人學(xué)習(xí)漢語的漢語中介語語料庫(kù)。學(xué)習(xí)者語料庫(kù)是語料庫(kù)語言學(xué)中一個(gè)比較成熟的研究領(lǐng)域。我國(guó)在過去10年中已建成不少此類語料庫(kù),但還存在一些問題。比如,現(xiàn)有學(xué)習(xí)者英語語料庫(kù)包含的基本上都是各類英語等級(jí)考試材料,而現(xiàn)有漢語中介語語料庫(kù)基本上都只包括韓國(guó)、日本、泰國(guó)等亞洲國(guó)家留學(xué)生的語料。目前教學(xué)用語料庫(kù)研究存在的另一個(gè)問題是建而不研。語料庫(kù)建完了項(xiàng)目也就算結(jié)束了,而沒有對(duì)語料進(jìn)行深入系統(tǒng)的分析,將研究成果用來指導(dǎo)、促進(jìn)實(shí)際的教學(xué)工作。教學(xué)用語料庫(kù)研究今后在語料平衡性(包括語料類型和來源等)和研用結(jié)合方面尚有待改進(jìn)。
第四,開展基于多語種平行語料庫(kù)和可比語料庫(kù)研究,開發(fā)機(jī)助翻譯、翻譯記憶庫(kù)、多語種術(shù)語庫(kù)等應(yīng)用產(chǎn)品,并提高機(jī)器翻譯和自動(dòng)文摘等應(yīng)用系統(tǒng)的可靠性和有效性。
最后是利用語料庫(kù)技術(shù),針對(duì)網(wǎng)絡(luò)詐騙欺凌等社會(huì)問題,開展司法語言學(xué)研究。網(wǎng)絡(luò)欺凌在臉書(Facebook)和推特(Twitter)等國(guó)外社交網(wǎng)站屢見不鮮,國(guó)內(nèi)的網(wǎng)絡(luò)詐騙也同樣層出不窮、防不勝防。開展此類研究對(duì)于防范這類社會(huì)問題具有十分重要的社會(huì)意義。
總之,“揚(yáng)我所長(zhǎng)”主要是指這前兩類研究,而“以研促用”主要指后三類研究。
貢獻(xiàn)可能談不上,不過在過去10多年中,自我感覺還是在基于語料庫(kù)的語言研究方面腳踏實(shí)地、認(rèn)認(rèn)真真地做了一些令自己滿意的研究。
喜 娘 新娘踏進(jìn)門呀,養(yǎng)子中狀元;新娘過門墊呀,姑爺做府又做縣,姑爺走在前呀,起厝又買田……一拜天地,二拜高堂,夫妻對(duì)拜,送入洞房…….
我的主要研究領(lǐng)域是語言對(duì)比與翻譯研究,特別是語料庫(kù)翻譯學(xué)和基于語料庫(kù)的英漢對(duì)比研究(如Xiao 2010a)。我出版了國(guó)際上第一本基于語料庫(kù)的英漢對(duì)比研究專著(Xiao & McEnery 2010)。我于2006年在Applied Linguistics上發(fā)表的論文(Xiao & McEnery 2006)從語言對(duì)比角度探討了英漢語中的搭配和語義韻,也具有較大的影響。由本人發(fā)起兩年一屆的“基于語料庫(kù)的語言對(duì)比與翻譯(UCCTS)”國(guó)際研討會(huì)頗受歡迎,到2014年為止已在中國(guó)、英國(guó)和比利時(shí)成功舉辦4屆。在語料庫(kù)翻譯學(xué)方面,我近年來的研究從英漢翻譯和翻譯體漢語的視角重新審視了以往主要局限于英語及其相近語言的翻譯共性假設(shè),對(duì)英漢翻譯中翻譯體漢語的系統(tǒng)研究(Xiao 2010b, 2011, 2015;Xiao & Dai 2014;Xiao & Hu 2015;戴光榮、肖忠華 2011;肖忠華、戴光榮 2010;肖忠華 2012)對(duì)于描寫翻譯學(xué)和翻譯共性研究具有至關(guān)重要的意義。
我的另一個(gè)重要研究領(lǐng)域是漢語語料庫(kù)語言學(xué)。我于2004年出版的Aspect in Mandarin Chinese(Xiao & McEnery 2004)是世界上第一本在真實(shí)語料基礎(chǔ)上系統(tǒng)闡述漢語時(shí)體系統(tǒng)的專著,其學(xué)術(shù)價(jià)值得到了眾多書評(píng)的認(rèn)可。我在過去10多年來所建的一系列漢語語料庫(kù)和平行語料庫(kù)基本上全部向?qū)W術(shù)界免費(fèi)公開(如LCMC、ZCTC、UCLA2、Babel)5,在國(guó)際上廣為應(yīng)用。
在語料庫(kù)分析方法創(chuàng)新方面,我提出的多維分析框架對(duì)Biber(1988)的模型進(jìn)行了擴(kuò)展,在原有語法分析的基礎(chǔ)上增加了語義分析和類聯(lián)接分析,并將多維分析模型首次應(yīng)用于世界英語比較和科技論文摘要的對(duì)比分析(Xiao 2009b;Cao & Xiao 2013),最新的研究又將多維分析引入了翻譯共性研究領(lǐng)域(Hu,Xiao & Hardie forthcoming)。
在語料庫(kù)語言學(xué)教學(xué)方面,由本人主筆合著的Corpus-based Language Studies(McEnery, Xiao & Tono 2006)是目前最流行的語料庫(kù)語言學(xué)教材,被美國(guó)教育部指定為應(yīng)用語言學(xué)必讀參考書,并為世界各地70多個(gè)研究生課程和本科生課程所采用。我還參與了慕課課程Corpus Linguistics: Method, Analysis, Interpretation的教學(xué),主講多語種語料庫(kù)及其應(yīng)用,該課程由蘭卡斯特大學(xué)和Futurelearn推出6,前兩期學(xué)員人數(shù)已超過6,000人。過去10年左右我投入較多時(shí)間和精力參與建設(shè)和管理的www.corpus4u.org網(wǎng)站產(chǎn)生了較大的影響,為語料庫(kù)研究在我國(guó)的推廣普及發(fā)揮了重要作用。
最后,通過學(xué)術(shù)兼職為國(guó)際語料庫(kù)研究領(lǐng)域服務(wù)。本人多年來兼任International Journal of Corpus Linguistics、Corpora、Chinese Language and Discourse、Languages in Contrast等8種學(xué)術(shù)期刊的編委和近30家期刊和出版社的審稿人,以及英國(guó)社會(huì)經(jīng)濟(jì)研究理事會(huì)(ESRC)、英國(guó)藝術(shù)與人文研究理事會(huì)(AHRC)、美國(guó)國(guó)家科學(xué)基金會(huì)(NSF)、加拿大社會(huì)科學(xué)與人文研究理事會(huì)(SSHRC)、葡萄牙科學(xué)技術(shù)基金會(huì)(FCT)、中國(guó)香港研究資助局(RGC)等多個(gè)國(guó)家和地區(qū)研究基金的項(xiàng)目評(píng)審專家。此類學(xué)術(shù)兼職不僅使自己清楚地了解國(guó)際語料庫(kù)研究的前沿動(dòng)態(tài),而且能提高國(guó)際學(xué)術(shù)界發(fā)表論文的質(zhì)量。
語料庫(kù)是語言研究中一種十分有用的工具和資源。雖然我們?cè)谇拔囊延懻撨^使用語料庫(kù)方法的種種優(yōu)勢(shì),但跟所有工具一樣,語料庫(kù)不是萬能的。首先,一個(gè)語料庫(kù)不可能包括一種語言的所有語句,抽樣就不可避免,因而語料庫(kù)涉及代表性的問題。目前還沒有可靠的科學(xué)手段來保證語料庫(kù)的代表性。用Leech(1991:27)的話來說,語料庫(kù)的代表性仍然是一種“信仰行為”。換言之,當(dāng)一個(gè)語料庫(kù)的規(guī)模和覆蓋面達(dá)到一定程度時(shí),人們對(duì)其代表性的信心就會(huì)增加。其次,需要用更復(fù)雜、更嚴(yán)格的統(tǒng)計(jì)方法來分析語料庫(kù)數(shù)據(jù)。在語料庫(kù)研究中,定量分析與定性分析同等重要。目前語料庫(kù)研究中許多常用統(tǒng)計(jì)方法假設(shè)數(shù)據(jù)呈正態(tài)分布,而在語言運(yùn)用中正態(tài)分布并不普遍。因此,我支持Gries(2006)所提出的“更嚴(yán)格的語料庫(kù)語言學(xué)”這一觀點(diǎn)。第三,語料庫(kù)不能提供反面證據(jù)。一個(gè)語料庫(kù)不管多么大、多么平衡,除非它代表高度專門化的語言,都不可能窮盡一種語言中的所有語句,因?yàn)檎Z言本身就是無窮盡的。因此,語料庫(kù)不能告訴我們語言中哪些現(xiàn)象可能,哪些不可能。比如,如果你沒有在語料庫(kù)中找到某個(gè)結(jié)構(gòu),也不能說該結(jié)構(gòu)在語言中不存在7;同樣,也不能說在語料庫(kù)中能找到的結(jié)構(gòu)就一定合乎語法或可以接受,因?yàn)檎Z料庫(kù)數(shù)據(jù)屬于語言使用數(shù)據(jù)(performance data)而有可能包含語誤。最后,雖然語料庫(kù)方法可以幫助我們觀察到一些非常有趣的語言現(xiàn)象,卻無法解釋觀察結(jié)果,而必須依賴于包括語言直覺在內(nèi)的其他方法和資源來提供解釋(Xiao 2009a)。盡管語料庫(kù)方法存在這些問題,但由于其具備顯而易見的優(yōu)勢(shì),仍然越來越被語言研究者接受。其實(shí),不同的工具具有不同的用途,關(guān)鍵是選對(duì)工具。比如,望遠(yuǎn)鏡和顯微鏡都是十分有用的工具,我們不能指責(zé)顯微鏡無法用來觀察遠(yuǎn)處的東西,而望遠(yuǎn)鏡無法用來觀察細(xì)微的東西。同樣,我們不能指望用語料庫(kù)來研究它不擅長(zhǎng)回答的研究問題,那些問題仍然需要用其他方法來研究(Hunston 2002)。因此,取得語料庫(kù)研究成功的第一步,就是要根據(jù)語料庫(kù)研究方法的特點(diǎn),確定哪些研究問題可以用語料庫(kù)來研究而哪些不能,并且學(xué)會(huì)如何將語料庫(kù)方法和其他研究方法有機(jī)結(jié)合起來,融會(huì)貫通,充分利用各種資源,使語料庫(kù)研究既具描述性,又具解釋性。
由于語料庫(kù)僅僅提供一種研究方法和資源,從事語料庫(kù)研究時(shí)必須確定自己的研究主體。語料庫(kù)方法可用來研究語言學(xué)和基于文本的人文社科領(lǐng)域中一系列的問題(McEnery, Xiao & Tono 2006;McEnery & Hardie 2012)。因此,針對(duì)特定的研究目的和研究問題創(chuàng)建或選用合適的語料庫(kù)非常重要。
就語料庫(kù)分析而言,基本的統(tǒng)計(jì)知識(shí)和量化分析技術(shù)十分重要,因?yàn)檎Z料庫(kù)研究中定量分析和定性分析同等重要,而要使量化分析具有一定的深度,就不能僅僅局限于比較頻數(shù)和百分比等描寫統(tǒng)計(jì)方法,而應(yīng)該采用更復(fù)雜、更嚴(yán)格的推斷統(tǒng)計(jì)方法,甚至是各種多變量分析方法。
熟練運(yùn)用語料檢索和量化分析工具在語料庫(kù)研究中也很重要。要做到熟練,就必須勤學(xué)多練?,F(xiàn)有的語料庫(kù)分析工具(如AntConc、WordSmith、CQPweb等)功能都很強(qiáng)大,大多數(shù)語料庫(kù)研究者已不再需要學(xué)習(xí)計(jì)算機(jī)編程。當(dāng)然,如果你學(xué)習(xí)一門腳本語言(如Perl、Python),那就不僅會(huì)大大提高建庫(kù)或語料分析的效率,而且還能進(jìn)行一些常規(guī)軟件無法進(jìn)行的分析。當(dāng)然,編程的學(xué)習(xí)曲線很陡峭,需要花一定的時(shí)間,但一旦學(xué)會(huì),就會(huì)終身受益。
鑒于語料庫(kù)語言學(xué)的研究本體是人們?cè)谡鎸?shí)語境中實(shí)際使用的語言8,從事語料庫(kù)研究就首先要求研究者對(duì)語言使用具有敏感性。這種敏感性基于語言直覺,是通過長(zhǎng)期使用語言和擴(kuò)大知識(shí)面而積累起來的。因此,語料庫(kù)研究的初學(xué)者應(yīng)該避免急功近利、一蹴即就的心態(tài),腳踏實(shí)地把基本功打扎實(shí),以便獲得語料庫(kù)研究必備的學(xué)科素質(zhì)。
注釋
1. 參見蘭卡斯特大學(xué)CASS語料庫(kù)研究中心(http://cass.lancs.ac.uk)近年來在這方面取得的重大成就。
2. “英語用法調(diào)查”以卡片形式收集了1955-1985年30年間的語料,其口語部分后來轉(zhuǎn)化為電子化的“倫敦-倫德語料庫(kù)”(London-Lund Corpus)。
3. 參見英國(guó)研究理事會(huì)的數(shù)據(jù)政策(http://www.rcuk.ac.uk/research/datapolicy/)。
4. 例如,由上海交通大學(xué)出版社出版,王克非和胡開寶主編的《語料庫(kù)翻譯學(xué)文庫(kù)》是目前世界上第一個(gè)、也是唯一一個(gè)語料庫(kù)翻譯學(xué)叢書系列,現(xiàn)已出版5本高質(zhì)量的專著(胡開寶2011、王克非2012、肖忠華2012、戴光榮2013、黃立波2014)。
5. 漢語語料庫(kù)研究可見http://www.fass.lancs.ac.uk/projects/corpus/Chinese。
6. 語料庫(kù)語言學(xué)MOOC見http://www.futurelearn.com/courses/corpus-linguistics。
7. 雖然語料庫(kù)不能提供反面證據(jù),但正如Stefanowitsch(2006)所述,完全有可能通過分析語料庫(kù)來區(qū)分“顯著缺失”和“偶然缺失”的語言現(xiàn)象。
8. “文本”在這里是廣義的文本,包括口語和多媒體語料。
Biber, D. 1988. Variation across Speech and Writing [M]. Cambridge: CUP.
Cao, Y. & R. Xiao. 2013. A multidimensional contrastive study of English abstracts by native and nonnative writers [J]. Corpora 8(2): 209-234.
Francis, G., S. Hunston & E. Manning. 1996. Collins COBUILD Grammar Patterns 1: Verbs [M].London: HarperCollins.
Gries, S. 2006. Some proposals towards more rigorous corpus linguistics [J]. Zeitschrift für Anglistik und Amerikanistik 54(2): 191-202.
Hu, K. & K. Kim (eds.). Forthcoming. Corpus-based Translation and Interpreting Studies in the Chinese Context [C]. Basingstoke: Palgrave Macmillan.
Hu, X., R. Xiao & A. Hardie. Forthcoming. How do English translations differ from nontranslated English writings? A multi-feature statistical model for linguistic variation analysis[J]. Corpus Linguistics and Linguistic Theory.
本試驗(yàn)莖葉處理除草劑施藥時(shí)間是紫花苜蓿刈割后20 d左右,所得出的安全性結(jié)論也是刈割后莖葉處理的結(jié)果。紫花苜蓿還有一種苗后莖葉處理就是種子播種出苗后,這2種模式下的紫花苜蓿敏感度差異很大,至于播種出苗后的紫花苜蓿藥劑安全性如何,有待于進(jìn)一步研究。
Hunston, S. 2002. Corpora in Applied Linguistics [M]. Cambridge: CUP.
Kennedy, G. 1998. An Introduction to Corpus Linguistics [M]. London: Longman.
Krishnamurthy, R. 2000a. Size matters: Creating dictionaries from the world’s largest corpus [A].In Proceedings of KOTESOL 2000 – Casting the Net: Diversity in Language Learning [C].Taegu, South Korea. 169-180.
Krishnamurthy, R. 2000b. Collocation: From silly ass to lexical sets [A]. In C. Heffer, H.Sauntson & G. Fox (eds.). Words in Context: A Tribute to John Sinclair on His Retirement [C].Birmingham: University of Birmingham. 31-47.
Léon, J. 2005. Claimed and unclaimed sources of corpus linguistics [J]. Henry Sweet Society Bulletin 44: 36-50.
Leech, G. 1991. The state of the art in corpus linguistics [A]. In K. Aijmer & B. Altenberg (eds.).English Corpus Linguistics [C]. London: Longman. 8-29.
McEnery, T. & A. Wilson. 1996. Corpus Linguistics [M]. Edinburgh: Edinburgh University Press.
McEnery, T. & A. Wilson. 2001. Corpus Linguistics (2nd Edition) [M]. Edinburgh: Edinburgh University Press.
McEnery, T., R. Xiao & Y. Tono. 2006. Corpus-based Language Studies: An Advanced ResourceBook [M]. London: Routledge.
McEnery, T. & A. Hardie. 2012. Corpus Linguistics: Method, Theory, Practice [M]. Cambridge:CUP.
Meyer, C. 2002. English Corpus Linguistics: An Introduction [M]. Cambridge: CUP.
Meyer, C. & G. Nelson. 2006. Data collection [A]. In B. Aarts & A. McMahon (eds.). The Handbook of English Linguistics [C]. Oxford: Blackwell. 93-113.
Newmeyer, F. 2003. Grammar is grammar and usage is usage [J]. Language 79(4): 682-707.
Seuren, P. 1998. Western Linguistics: A Historical Introduction [M]. Oxford: Blackwell.
Sinclair, J. 1997. Corpus evidence in language description [A]. In A. Wichmann, S. Fligelstone,T. McEnery & G. Knowles (eds.). Teaching and Language Corpora [C]. London: Longman.27-39.
Sinclair, J. 1999. Corpus, Concordance, Collocation [M]. 上海:上海外語教育出版社。
Stefanowitsch, A. 2006. Negative evidence and the raw frequency fallacy [J]. Corpus Linguistics and Linguistic Theory 2(1): 61-77.
Tsou, B. & O. Kwong (eds.). 2015. Linguistic Corpus and Corpus Linguistics in the Chinese Context [C]. Hong Kong: The Chinese University Press.
Widdowson, H. 2000. The limitations of linguistics applied [J]. Applied Linguistics 21(1): 3-25.
Xiao, R. 2009a. Theory-driven corpus research [A]. In A. Lüdeling & M. Kyto (eds.). Corpus Linguistics: An International Handbook (Volume 2) [C]. Berlin: Mouton de Gruyter. 987-1007.
Xiao, R. 2009b. Multidimensional analysis and the study of world Englishes [J]. World Englishes 28(4): 421-450.
Xiao, R. (ed.). 2010a. Using Corpora in Contrastive and Translation Studies [C]. Newcastle:Cambridge Scholars Publishing.
Xiao, R. 2010b. How different is translated Chinese from native Chinese? [J]. International Journal of Corpus Linguistics 15(1): 5-35.
Xiao, R. 2011. Word clusters and reformulation markers in Chinese and English: Implications for translation universal hypotheses [J]. Languages in Contrast 11(2): 145-171.
Xiao, R. 2015. Source language interference in English-to-Chinese translation [A]. In J. Romero-Trillo (ed.). Yearbook of Corpus Linguistics and Pragmatics [C]. Berlin: Springer. 139-162.
Xiao, R. & G. Dai. 2014. Lexical and grammatical properties of translational Chinese: Translation universal hypotheses reevaluated from the Chinese perspective [J]. Corpus Linguistics and Linguistics Theory 10(1): 11-55.
Xiao, R. & T. McEnery. 2004. Aspect in Mandarin Chinese: A Corpus-based Study [M].Amsterdam: John Benjamins.
Xiao, R. & T. McEnery. 2005. Two approaches to genre analysis: Three genres in modern American English [J]. Journal of English Linguistics 33(1): 62-82.
Xiao, R. & T. McEnery. 2006. Collocation, semantic prosody and near synonymy: A crosslinguistic perspective [J]. Applied Linguistics 27(1): 103-129.
Xiao, R. & T. McEnery. 2010. Corpus-based Contrastive Studies of English and Chinese [M].London: Routledge.
Xiao, R. & N. Wei (eds.). 2014. Translation and Contrastive Linguistic Studies at the Interface of English and Chinese (Special Issue of Corpus Linguistics and Linguistic Theory Volume 10 Issue 1) [C]. Berlin: De Gruyter.
Xiao, R. & X. Hu. 2015. Corpus-based Studies of Translational Chinese in English-Chinese Translation [M]. Berlin: Springer.
Zou, B., M. Hoey & S. Smith (eds.). 2015. Corpus Linguistics in Chinese Contexts [C].Basingstoke: Palgrave Macmillan.
戴光榮,2013,《譯文源語透過效應(yīng)研究》[M]。上海:上海交通大學(xué)出版社。
戴光榮、肖忠華,2011,譯文中“源語透過效應(yīng)”研究:基于語料庫(kù)的英譯漢被動(dòng)句研究[J],《翻譯季刊》(4):85-108。
胡開寶,2011,《語料庫(kù)翻譯學(xué)概論》[M]。上海:上海交通大學(xué)出版社。
黃立波,2014,《基于語料庫(kù)的翻譯文體研究》[M]。上海:上海交通大學(xué)出版社。
王克非,2012,《語料庫(kù)翻譯學(xué)探索》[M]。上海:上海交通大學(xué)出版社。
肖忠華,2012,《英漢翻譯中的漢語譯文語料庫(kù)研究》[M]。上海:上海交通大學(xué)出版社。
肖忠華、戴光榮,2010,尋求“第三語碼”——基于漢語譯文語料庫(kù)的翻譯共性研究[J],《外語教學(xué)與研究》(1):53-61。