常芳玲
(北京外國語大學 中國語言文學學院, 北京 100089)
現(xiàn)代語言學之父索緒爾(1980)認為語言是一個純粹的價值系統(tǒng),語言研究與其他存在研究價值的科學一樣,具有內(nèi)在二重性,因此他將語言二分為語言和言語、內(nèi)部語言學和外部語言學以及共時和歷時等。其中,共時和歷時分別從靜態(tài)和動態(tài)的角度提供了語言研究的兩種視角。共時語言研究關注語言在某一特定時期的特點,歷時研究聚焦語言在不同時期的變化規(guī)律,但共時研究和歷時研究又存在密切聯(lián)系,共時差異通常源于歷時演變,歷時演變又有望對共時表現(xiàn)進行解釋(左珊、李福印,2020:42)。同樣地,基于語料庫的研究也可以二分為共時語言研究和歷時語言研究。不過,由于歷時語料庫通常建庫難度大、周期長,再加上歷時研究對研究者素質(zhì)要求也較高,以往基于語料庫的研究多以共時為主,歷時研究數(shù)量較少。近年來由于歷時語料的易得性,一批歷時電子語料庫相繼建成,研究者逐漸注意到歷時研究之于語言研究的重要性。在這樣的時代背景下,基于語料庫的歷時語言研究日益增長為一個研究熱點。
基于語料庫開展歷時研究的可切入角度十分廣泛,共時語言研究關注的每個領域均可以被歷時研究所采納,如歷史語言學、歷時/歷史語用學、認知語言學、社會語言學、語用學和構式語法等。借助語料庫分析語言的歷時演變可以真實、客觀地反映語言在歷史發(fā)展中的變化特點,探析其中規(guī)律與緣由,在促進語言本體研究進步的同時也為語言教學等相關領域提供參考。在具體的語料庫歷時研究中,不同學者所用語料不盡一致,所屬研究領域、研究內(nèi)容以及研究方法也各有差異。許家金(2020)雖對基于語料庫的歷時研究進行了述評,但該文更側重對國外相關研究的總結與概括,未將國內(nèi)外研究進行詳細對比。鑒于此,本文從語料來源、研究領域、研究內(nèi)容及研究方法四個視角出發(fā),梳理了國內(nèi)外基于語料庫開展歷時研究的相關文獻,旨在了解國內(nèi)外基于語料庫歷時研究的研究現(xiàn)狀、剖析此類研究的研究動向??偟膩碚f,國內(nèi)外研究各有特色,但國內(nèi)相關研究數(shù)量少于國外同類研究,研究語料涉及語種較為單一,新研究方法的應用范圍仍有待進一步拓寬。
在基于語料庫的研究中,借助何種語料、研究什么和怎樣研究是三個必須回答的問題。本文結合語料庫歷時研究的特點,以Web of Science數(shù)據(jù)庫為數(shù)據(jù)源、“corpus & diachronic research”為關鍵詞從語料來源、研究領域、研究內(nèi)容和研究方法四個方面出發(fā)討論國外基于語料庫歷時研究的現(xiàn)狀及特點。
(1)在基于語料庫的研究中,選擇何種語料往往要與研究目的、研究對象等緊密結合在一起。從研究所用語料來看,國外基于語料庫的歷時語言研究對書面語關注度高于口語,所用語料或源于現(xiàn)有歷時語料庫或通過自建而成,兩類研究分布趨于平衡。借助現(xiàn)有歷時語料庫的研究涉及多種語言,其中以英語為存儲語言的代表性歷時語料庫數(shù)量較多,包括芬蘭赫爾辛基大學創(chuàng)建的赫爾辛基英文語料庫、兼具美國英語和英國英語的布朗家族語料庫(包括Brown、LOB、Frown和FLOB等)、英國國家語料庫BNC(the British National Corpus)、英語對話語料庫CED(Corpus of English Dialogues)、美國當代英語語料庫COCA(the Corpus of Contemporary American English)、美國近當代英語語料庫COHA(the Corpus of Historical American English)、以多語域為特色的ARCHER(A Representative Corpus of Historical English Registers)語料庫、以《時代周刊》為數(shù)據(jù)來源的語料庫TIME Magazine Corpus、谷歌圖書(Google Books)、多倫多英語語料庫TEA(the Toronto English Archive)、南非英語語料庫SAfE(South African English)、澳大利亞英語語料庫Australian Diachronic Hansard Corpus以及口語歷時語料庫DCPSE(the Diachronic Corpus of Present-Day Spoken English)和OBC(Old Bailey Corpus)等。上述語料庫涉及英語在不同國家和地區(qū)的變體形式,為不同國家和地區(qū)英語變體的比較和歷時研究奠定了基礎。除英語語料外,國外基于語料庫的歷時語言研究也考察其他語言的歷時發(fā)展狀況,如漢語(CHC,Corpus of Historical Chinese)、法語(MCVF Corpus、BFM Corpus和Penn Supplement Corpus)和德語(DTA Deutsches Textarchiv)等。以上語料庫雖在語言、時間、語體和領域等方面有所區(qū)別,但它們并不是相互排斥的,在具體研究中可根據(jù)研究需要混合使用。另一方面,國外自建語料庫的歷時研究在成果數(shù)量上雖與借助現(xiàn)有歷時語料庫研究大抵相同,但自建語料研究所涉領域更為集中。進一步分析發(fā)現(xiàn),國外自建語料庫的歷時研究通常關注學術期刊、新聞報道和演講演說等領域,其中以學術期刊論文為數(shù)據(jù)來源自建語料庫開展歷時研究的文獻顯著度最為突出,這一特點可能得益于這些領域語料的相對易得性。
(2)研究領域指某類研究在研究過程中所涉及的領域。與具體化程度更高的研究內(nèi)容相比,對研究領域的歸納和整理能夠更好地從宏觀層面上把握、預測研究重點和熱點,從而推動研究的進一步發(fā)展。國外基于語料庫的歷時研究在研究領域方面呈現(xiàn)出以語言本體和學術寫作研究為主、其他領域研究為輔并行發(fā)展的特點。
首先,語言本體研究是國外語料庫歷時研究的一個重要領域。此類研究多借助現(xiàn)有語料庫,就特定語言現(xiàn)象在某種語言或多種語言中進行歷時性的探討,旨在發(fā)現(xiàn)所選語言對象在不同時代中的發(fā)展演變特征、規(guī)律及原因。如Maria & Belen(2012)依托布朗家族語料庫、DCPSE和TEA三個語料庫,選取1960s、1990s和2000s早期三個時間點為節(jié)點,以as though,as if和like為例考察了補語結構在英國英語、美國英語和加拿大英語中的歷時變化特點;Millar(2009)和Leech(2011)分別討論了英語情態(tài)動詞在歷史發(fā)展中的使用特點,但兩者的研究結論不甚一致。Millar(2009)以Leech(2003)的研究為出發(fā)點,基于TIME Magazine Corpus語料庫從發(fā)展的角度考察了情態(tài)動詞在1920s-2000s期間使用特點的歷時變化,研究發(fā)現(xiàn)盡管shall、must和 ought的使用頻率有所遞減,但總體上來講整個情態(tài)動詞的大類在語料中呈上升趨勢。Leech(2011)認為Millar(2009)的研究語料極為單一,不能全面、精準地反映出情態(tài)動詞在英語中的變化特點,因此他以布朗家族語料庫的英國英語子庫LOB和FLOB、另增BLOB語料庫為基礎考察情態(tài)動詞在英國英語中的使用變化,以COCA和COHA為基礎考察其在美國英語中的使用變化,兩個研究均發(fā)現(xiàn)情態(tài)動詞在具體的使用呈減少趨勢。上述對語言本體的歷時研究有助于總結語言在發(fā)展過程中的變化軌跡,為語言教學提供必要的參考。
其次,學術寫作也是國外基于語料庫歷時研究的主要關注領域之一,此類研究主要考察某一學科或不同學科學術論文中語言特征的發(fā)展變化,對學術論文寫作指導意義較大。Biber & Gray(2016)借助ARCHER語料庫和部分自建語料,深入探討了學術英語復雜度的歷時演變。Hyland & Jiang(2016a;2016b;2018)的系列研究通過收集應用語言學、社會學、生物學和電子工程學四個學科在50年內(nèi)的期刊語料研究了立場標記語、讀者參與度等語言特征在不同學科、不同時期學術論文中的使用特點。
除語言本體研究和學術寫作研究兩個主要領域外,國外語料庫歷時語言研究還關注新聞、廣播和演講演說等領域(Boula et al.,2012;Gema & Jorge,2018)。這些研究為基于語料庫的歷時語言研究提供了不同的切入視角,拓寬了語料庫歷時研究的廣度。
(3)研究內(nèi)容是研究領域的細化和深化,對文獻研究內(nèi)容的梳理能夠從微觀層面揭示語言研究聚焦的主要現(xiàn)象。國外語料庫歷時研究關注的主要包括詞匯短語、語法和話語語用特征的演變。
在詞匯短語演變類研究中,研究者關注與詞匯、短語相關語言特征的歷史演變特點及規(guī)律,研究對象既有相同屬性的某一類詞或短語,如情態(tài)動詞、立場標記語等,也有類似that這樣以詞匯化形式出現(xiàn)表示語法范疇的單個詞。Rissanen(1991)對賓語從句引導詞that從句及其零形式的研究、Millar(2009)和Leech(2011)對情態(tài)動詞使用頻率的探討和Hyland & Jiang(2016a;2018)對不同類別立場標記語的歷時研究等均屬此類。
語法演變類研究通常是在語言本體的研究范圍內(nèi),通過對比特定語法現(xiàn)象在不同時期的使用特征以此發(fā)現(xiàn)語言演變的特征與規(guī)律。此類研究主要關注語法化研究、構式語法研究以及一般的語法研究,其中語法化研究和構式語法研究的成果較多。語法化,也叫實詞虛化,通常指語言在歷史的發(fā)展中由表示實在意義的詞轉化為無實在意義、表語法功能成分的現(xiàn)象(沈家煊,1994)。國外學者對語法化的研究涉及多種語言,如Wu et al.(2016)借助COHA語料庫用量化的方法驗證了英語將來時be going to的語法化過程;Maria(2009)討論了西班牙語“por cierto”語法化發(fā)展的兩個方向;Dana(2011)自建語料庫討論了羅馬尼亞語將來時的語法化過程。除語法化研究外,以某一構式為基礎開展的構式語法歷時分析也是基于語料庫研究語法變化的重要內(nèi)容。Shank et al.(2014)基于1560年至2010年的英語書面語和口語語料,借助多因素分析方法考察了I think和I think that構式在書面語和口語中的選擇制約情況;Kim & Davis(2016)綜合構式和歷時的視角考察了英語中into致使結構的發(fā)展演變;Noel(2017)借助the Oxford English Dictionary和the Corpus of Late Modern English Texts討論了be bound to構式作為非義務性標記的歷時變化。一般語法研究在語法演變類研究中所占比重較小,主要涉及一些語法范疇或語法相關現(xiàn)象,如隱喻、轉喻等的歷時研究,Biber & Finegan(1989)、Ronel & Bertus(2012)、Glynn(2014)、Yao & Collins(2019)等研究均屬此類。
話語語用特征的演變研究也是國外語料庫歷時研究的重要組成部分之一。Timmis(2009)認為人們在完整的口頭表達末尾傾向于使用一些附加成分(該文定義為tail)補充說明前置成分,如例句They all want throwing out,thegovernment中的斜體表達the government。該文即以話語中類似the government的附加成分為研究對象,總結了這些成分的常用形式、頻率和功能的變化,指出話語結尾部分在英語口語中具有系統(tǒng)性、高頻度的特征。Moessner(2010)對比分析了直接言語行為在法律、宗教和科學話語三種語體中的歷時變化特點。與語法演變類的歷時研究不同,話語語用特征類演變研究涉及的領域較廣。此類研究不僅可以在語言本體視角下開展,以學術寫作、新聞報道和社會中一些特定概念、事件相關的話語語用特征為出發(fā)點的研究數(shù)量也頗多(Anna,2009;McEnery,2006;Jucker & Taavitsainen,2014;Hyland & Jiang,2019)。
(4)研究方法是研究中必不可少的一部分,是整個研究開展的基礎。一個研究如果沒有研究方法作為支撐,就會迷失前進的方向?;谡Z料庫的歷時語言研究涉及語言在不同時期的發(fā)展情況,因此對比分析的研究方法必然是此類研究的主要方法之一。不過,該方法在基于語料庫的歷時語言研究中不僅適用于不同時期語言現(xiàn)象的對比,也可以用于不同語言、學科和語域等的比較與分析。此外,多因素分析和可視化分析也是國外此類研究的主要借助方法。多因素分析是當下語言研究中較為流行的量化統(tǒng)計方法,可通過對應分析、分層聚類分析和混合效應邏輯回歸建模等技術來實現(xiàn),Christopher et al.(2012)、Yao & Collins(2019)等研究均運用了多因素分析的方法。可視化分析指運用可視化分析工具以圖譜形式呈現(xiàn)語言對象在不同時期的特點,讓讀者更加清晰、直觀地了解語言在歷史中的發(fā)展軌跡,如Zhang et al.(2015)借助MDS(Multidimensional Scaling)分析以3D圖的形式剖析了漢語中女性轉喻型式的歷時變化。
本文有關國內(nèi)基于語料庫的歷時研究文獻來源于中國知網(wǎng),研究對象綜合了以“語料庫&歷時研究”為關鍵詞和以“基于語料庫的歷時研究”為主題的文獻。為更好地分析比較國內(nèi)外語料庫歷時研究的異同點,本文在梳理國內(nèi)語料庫歷時研究文獻時,同樣從語料來源、研究領域、研究內(nèi)容及研究方法四個方面入手考察。
(1)在語料來源方面,國內(nèi)研究與國外相同,所用語料或借用現(xiàn)有語料庫或自建,同時受語料收集難度影響,書面語研究多于口語研究。不過,與國外研究不同的是,國內(nèi)借助現(xiàn)有語料庫的研究成果少于自建語料庫的歷時研究。具體來說,國內(nèi)借助現(xiàn)有語料庫的研究在語料選擇上較為集中,以漢語和英語為主,鮮有其他語種。英語作為主要研究對象在國內(nèi)研究中頻繁出現(xiàn),與當前全球化背景下該語言作為國際通用語的重要現(xiàn)實價值是密不可分的(張濤,2020:3)。通過進一步分析發(fā)現(xiàn),國內(nèi)研究借助的英語語料庫主要是布朗家族語料庫、COHA、COCA、赫爾辛基英文語料庫、TIME Magazine Corpus、CED(A Corpus of English Dialogues)、PCEEC(Parsed Corpus of Early English Correspondence)、LCEMET(The Lampeter Corpus of Early Modern English Tracts)、CLMETEV(Corpus of Late Modern English Prose (extended version) 等;漢語語料庫包括CCL、BCC、語料庫在線和中國基本古籍庫等。國內(nèi)自建語料庫的歷時研究語料多源自文學作品或其譯文、新聞報道、政治報告、學術論文和演講演說等文本,其中以文學作品及其譯本為語料來源的研究占比最大,是國內(nèi)語料庫歷時研究的特色之一。
(2)在研究領域方面,國內(nèi)基于語料庫的歷時語言研究以翻譯和語言本體研究為主,輔之其他領域的研究。
基于語料庫的翻譯研究是語料庫翻譯學的核心研究內(nèi)容,該學科是語料庫語言學和描寫性譯學雙重影響下發(fā)展起來的一個交叉性學科(劉國兵、常芳玲,2018:111)。國內(nèi)隸屬語料庫翻譯學的歷時研究通常以文學作品譯本或政府工作報告等政治文件譯文為研究對象。趙秋榮、王克非(2013)通過自建漢語原創(chuàng)文學和翻譯文學歷時類比語料庫,發(fā)現(xiàn)翻譯普遍性假說并不適用所有的翻譯現(xiàn)象,翻譯漢語具有不固定性和階段性。盧靜(2014)借助《聊齋志異》1880年翟譯本和2006年閔譯本,關注歷時視域下的譯者風格,并從歷史、文化和社會視角解讀了譯者風格產(chǎn)生的原因。龐雙子(2019)基于歷時類比語料庫,從20世紀選取三個時期為數(shù)據(jù)點,通過比較翻譯文本與原創(chuàng)文本的歷時發(fā)展,進一步討論了翻譯文本語體顯化特征及其對目標語的透過性問題。
國內(nèi)語言本體的歷時研究主要考察漢語或英語在不同時期的發(fā)展變化。何樂士(1984)在1984年就基于《左傳》和《史記》兩個不同時期的語料討論了動補式的發(fā)展變化。劉丙麗、劉海濤(2011)從歷時的角度研究了漢語動詞句法配價的研究過程。章柏成、許家金(2013)基于布朗家族語料庫考察了英語現(xiàn)在進行體在形式分布和意義演變中的歷時變化。劉國輝(2015)以COCA和COHA的語料為基礎,研究了英語表達“X-able”在不同時期、不同文體中的分布特點。文旭、姜燦中(2018)在歷時構式語法的理論框架下討論了“V破”動結式構式形式和意義的演變特點,同時從組合性、能產(chǎn)性和圖示性三個維度動態(tài)解釋了動結式構式層級網(wǎng)絡的發(fā)展。
除翻譯研究和語言本體研究外,國內(nèi)基于語料庫的歷時語言研究還涉及新聞、社會、政治和學術等領域,如范蓓(2009)以詞頻、詞匯搭配、典型句型特征和關鍵詞對照等為著眼點開展歷時研究,依據(jù)語言在不同時期的變化佐證了社會的發(fā)展與變遷;李葉等(2020)參照Biber et al.語料庫性別詞匯分析的研究方式,通過對比分析LOB和ICE-GB兩個不同時期語料庫中的性別詞匯,從性別特指詞匯參數(shù)、雙重性別詞匯參數(shù)和特殊性別詞的文本分析三個方面研究了英國社會女性地位的變化;羅建平(2011)自建美國總統(tǒng)就職演說語料庫,量化考察了美國總統(tǒng)就職演說的歷時語言特征。不過,這些領域在基于語料庫的歷時研究中顯著度不高,仍有較大的研究空間。
(3)在研究內(nèi)容方面,本文發(fā)現(xiàn)國內(nèi)基于語料庫的歷時語言研究以詞匯、語法歷時研究為主,對話語語用特征的演變關注較少。
國內(nèi)詞匯演變研究也是以一類詞或單個詞為研究對象探討詞匯的歷時演變規(guī)律及原因,如林璐、王旭(2019)從牛津英語詞典、COHA和MED語料庫中提取993-2009年間英語副詞again全部語料,采用近鄰聚類法考察了again一詞各個義項在不同時期內(nèi)的分布情況,追溯了不同語義產(chǎn)生、漸變的規(guī)律和動因;陳香蘭、禹杭(2018)借助歷時語料庫,分析了量詞“套”在歷史演變中的變化及轉喻機制;邵斌等(2012)基于COCA語料庫,從認知語言學的角度考察了carbon構成的碳族復合詞意義的演變。
國內(nèi)的語法演變研究同樣涉及語法化、構式語法和一般的語法演變研究,但研究數(shù)量少于國外同類研究。語法化研究主要包括蔡燕(2013)對漢語補位詞“一下”的語法化研究和王朝暉、余軍(2019)關于“定語+人稱代詞”結構語法化的歷時研究。國內(nèi)對于構式的歷時研究(房戰(zhàn)峰, 2015;黃瑩, 2016;楊旭, 2016;申小陽, 2018;文旭、姜燦中, 2018)略多于語法化研究,但研究熱度不及國外同類研究。相比語法化和構式語法研究,國內(nèi)語法演變研究對一般的語法研究關注度較高,研究數(shù)量也較多,如唐瑞梁(2008)、劉丙麗、劉海濤(2011)、章柏成、許家金(2013)和吉杰、梁茂成(2014)等。
(4)在研究方法方面,國內(nèi)語料庫歷時研究所用方法較為單一,占主導地位的方法仍是對比分析,用于分析比較不同時期翻譯、語言本體、新聞和演講演說等領域語言的具體表現(xiàn),探尋其中的發(fā)展規(guī)律及原因。近年來,國內(nèi)一些學者也在積極引進國外的量化統(tǒng)計方法為語言研究服務,如林璐、王旭(2016)為促進基于歷時語言學與語料庫語言學角度研究的發(fā)展,較為系統(tǒng)地介紹了近鄰聚類分析法的產(chǎn)生背景、統(tǒng)計原理、操作步驟及相關應用,但借助這些方法開展歷時研究的成果仍不多。換言之,國內(nèi)基于語料庫的歷時研究需要有意識的在傳統(tǒng)對比分析研究方法的基礎上,嘗試借鑒國外的新興研究方法,促進國內(nèi)基于語料庫開展歷時研究的技術方法革新。
綜合國內(nèi)外研究來看,國外基于語料庫的歷時語言研究總體上先于國內(nèi)同主題研究。因此,國外的相關研究為國內(nèi)語料庫歷時研究提供了可借鑒的思路和方向。結合國內(nèi)研究現(xiàn)狀,筆者認為未來國內(nèi)基于語料庫的歷時研究可以注意以下幾個問題:
首先,在語料選擇問題上,研究者一方面可以根據(jù)研究目的、內(nèi)容和研究對象需要自建語料庫,另一方面也要充分利用已建成的、可用于歷時研究的經(jīng)典語料庫。借助現(xiàn)有經(jīng)典語料庫開展研究不僅可以節(jié)省建庫時間,語料代表性也更能得到保障。此外,未來研究可適當偏向口語,注重口語歷時語料的收集與研究。
其次,國內(nèi)外語料庫歷時研究所涉及領域均不均衡,存在個別研究領域顯著度高、其他研究領域并行發(fā)展的特點。其中,國外所涉研究領域主要包括語言本體研究和學術寫作研究,國內(nèi)則以翻譯研究和語言本體研究為主。相較而言,國內(nèi)對學術寫作領域的語言歷時變化關注度不夠。此外,目前研究中顯著度不高或未涉及的其他領域還有很大的研究空間。
再者,在研究內(nèi)容的選擇上,未來國內(nèi)基于語料庫的歷時研究可注意以下幾個方面:一、在關注詞匯、語法歷時研究的同時,考察話語語用特征的歷時變化;二、加強對構式和語法化現(xiàn)象的歷時研究。
最后,國內(nèi)基于語料庫的歷時研究要多關注國外同類研究或相似研究所使用的新型研究方法,跳出傳統(tǒng)對比分析方法的束縛。就現(xiàn)階段來說,多因素數(shù)據(jù)統(tǒng)計分析和可視化方法在國外同類研究中使用凸顯度較高,而國內(nèi)仍以傳統(tǒng)的對比分析法為主。未來國內(nèi)相關研究可嘗試應用這些方法,為基于語料庫的歷時研究開拓新的思路。
本文梳理了國內(nèi)外基于語料庫開展歷時研究的相關文獻,分別從語料來源、研究領域、研究內(nèi)容及研究方法四個方面討論了國內(nèi)外基于語料庫開展歷時研究的現(xiàn)狀。研究發(fā)現(xiàn):(1)與口語相比,國內(nèi)外學者均更關注書面語的歷時發(fā)展,所用語料或借助已有語料庫或自建,但國外利用已有語料庫和自建語料的研究分布較平衡,且涉及語言較多,國內(nèi)研究多自建語料,語言以英語和漢語為主,鮮有其他語言;(2)就研究領域而言,國外研究呈現(xiàn)語言本體和學術寫作研究為主、其他領域研究為輔并行發(fā)展的特點;國內(nèi)以翻譯和語言本體研究為主,輔之其他領域的研究;(3)詞匯演變、語法演變和話語語用特征演變是國外語料庫歷時語言研究熱點所在,國內(nèi)以詞匯、語法歷時研究為主,對話語語用特征演變關注較少;(4)從研究方法上來說,國外研究常用方法包括對比分析、多因素分析以及可視化分析,國內(nèi)研究以對比分析為主,多因素分析雖有引進但應用研究較少,依托可視化分析的歷時研究數(shù)量更少。綜上所述,國內(nèi)基于語料庫的歷時語言研究在研究廣度、深度以及研究數(shù)量上與國外同類研究仍有一定差距,有待進一步地拓展與提升。