苗天順
(北京工商大學,北京 100048)
語料庫就是存放語言材料的倉庫,或者說,語料庫是為專門目的、按照明確設計標準收集的文章的集合(Granger 1998)。任何一種語言的語料都是無限的,要將其全部存入計算機是不可能的。但是為了研究一種語言,可以根據(jù)統(tǒng)計學的原理把這種語言的語料按一定的原則抽樣存入計算機,把它作為這種語言的代表而進行統(tǒng)計分析。這樣分析得出的結果,只要抽樣的原則合理,存入的語料有足夠的量,結果也是相當可靠的(侯敏1999)。現(xiàn)在世界上已經(jīng)有了不少規(guī)模較大的語料庫,有些是國家級的,有些由大學和詞典出版商聯(lián)合建設。另外,由于個人微機的迅猛發(fā)展和存貯數(shù)據(jù)的硬盤造價持續(xù)下降,研究者個人也開始建立適合于自己研究的小型語料庫。
McEnery(2001))認為,“語料庫語言學就是以語料庫為基本知識源來研究自然語言規(guī)律的一門學科。”由此可以看出,語料庫語言學這個術語有兩層主要含義。一是利用語料庫對語言的某個方面進行研究,即“語料庫語言學”不是一個新學科的名稱,而僅僅反映了一個新的研究手段。二是依據(jù)語料庫所反映出來的語言事實對現(xiàn)行語言學理論進行批判,提出新的觀點或理論。只有在這個意義上“語料庫語言學”才是一個新學科的名稱。
語料庫語言學是20世紀80年代才嶄露頭角的一門交叉學科,它研究自然語言(natural language)文本的分類(classification)、采集(collection)、存儲(storage)、加工(processing)、統(tǒng)計分析和應用(application),目的是憑借大規(guī)模語料庫提供的客觀翔實的語言證據(jù)來從事語言學研究和指導自然語言信息處理系統(tǒng)的開發(fā)和應用。語料庫語言學的崛起和迅速發(fā)展令世人耳目一新。人們希望通過大規(guī)模真實語料的調查來獲取自然語言的各種語言事實及語言規(guī)律,從多方面多層次描寫語言并驗證各種語言理論和假設,甚至建立新的語言理論和語言觀。許多國家相繼建立了數(shù)以百計的各種語料庫,規(guī)模也躍升到數(shù)億詞級,語料庫建設正朝著擴大庫容、國際化和多元化方向發(fā)展。
對語料庫語言學方面的研究和應用主要有以下幾個方面:
對詞語語義、語用的研究一直是詞匯學研究的一個主要方面,語料庫中真實的語料能對單個詞語的意義和語用功能做出更為客觀的描述。這個研究成果對學習者深入全面了解詞的意義和實際面貌很有幫助。
詞語搭配研究越來越得到人們的重視。語言學家弗思(J.R.Firth)有一句名言:“觀其伴,而知其意?!币虼?,一個詞的詞義只能通過與之相伴出現(xiàn)的搭配才能加以辨識。從這一觀點出發(fā),無論是要識別一個詞的不同詞義,還是學會這個詞的用法,都必須普遍調查詞語的搭配關系和用法模式。換句話說,詞的含義與上下文有極其密切的關系,即:詞的含義服從于這樣的一般規(guī)則:一個詞用于一種新的語境時,就具有了新的含義。人們通過語料庫可以在自然語境下觀察詞語的搭配行為和類聯(lián)接,進而啟迪詞匯教學。
詞語的語義韻律(semantic prosody)是一個詞語與語言中其他詞語反復聯(lián)系而獲得的連續(xù)的意義氛圍,它通常表達某種態(tài)度意義。語料庫是研究語言意義的有力工具。從一個語料庫中檢索節(jié)點詞(node),檢索上下文或臨近若干個詞而組成的并置結構(collocates),并將出現(xiàn)這些節(jié)點詞或并置結構的句子進行比較分析,揭示了用常規(guī)方法很難發(fā)現(xiàn)或很難確定的語義特征——語義韻律。國內有關語義韻律的研究有對語義韻律的介紹及其運用對其他領域的啟示(潘瑤,馮躍進 2003),有探討科技和學術研究文章中存在的語義韻律現(xiàn)象。
字典編篡者(lexicographer)用語料庫來編撰詞典(lexicalization)是語料庫運用的又一個方面。計算機語料庫與詞典學的關系和對詞典學的貢獻,在國內外辭書出版界可謂人人皆知。語料庫中大量的自然語言例證使詞的定義更加完整、精確。電子語料庫給出了關于某一詞或詞語的所有用法舉例,使詞典的編撰與修改速度空前加快。詞或詞語在真實語料中的前后搭配語境更清楚地顯示該詞或詞語的語義特征、使用頻率和語用特點,這使詞典的編撰更趨科學化。
利用語料庫對英語語言作多方面研究進一步揭示語言規(guī)律,有助于英語的教和學。對教師課堂用語的研究可以提高教師對自己使用英語的認識和敏感性;對學習者中介語的研究可以幫助教師認識外語學習的規(guī)律,采取科學合理的教學方法。語料庫在外語教學中的應用可以轉變教學思想,改進教學方法,具有重要意義。
語料庫的研究成果在語言教學中的運用是多方面的。參考語料庫語言學對英語語言的描述,人們可以更科學地制定和修訂教學大綱,更合理地編寫教材,更準確地制定教學詞表。1994年9月開始實行的“大學英語教學大綱通用詞匯表(1-4級)”就是參考JDEST語料庫科技英語詞匯表和其他詞匯表進行定量分析制定的。語料庫用于課堂教學有助于改進教學方法。一個重要的例子是基于語料庫索引的數(shù)據(jù)驅動學習。這種新的教學模式鼓勵學生自己積極主動地從真實語料中去觀察語言現(xiàn)象,發(fā)現(xiàn)語言規(guī)律。
基于語料庫對英語教師話語的研究成果有助于教師對其教學用語的認識并提高其應用教學用語的敏感意識,為英語教育和教學改革提供實證性參考依據(jù)。何安平(2003)調查和分析了英語課堂教學語料庫中教師話語的部分語言特征,探討了國內高中、初中和小學英語課教師話語中的認知思維導向特點及其教育教學功能。利用語料庫對學生中介語的研究有利于教師在教學過程中采取更合理的教學方法,提高教學效果。
利用語料庫研究寫作教學可以通過分析學生作文中出現(xiàn)的錯誤,或是通過與本族語學習者語料庫比較來了解母語寫作能力對英語寫作能力的影響,為寫作教學提供建議和參考依據(jù),也可以利用語料庫改進寫作的評估模式。婁寶翠(2001)利用中國學習者英語語料庫中的大學英語學習者作文子語料庫研究中國學生的造詞現(xiàn)象,提出了外語教師對造詞現(xiàn)象應采取的態(tài)度以及在教學中應采取的相應措施。
利用口語語料庫對學生口語的研究,包括對小品詞的研究、韻律特征研究、學生交際策略的研究、某些句式在口語中的語用功能的研究等。對口語多方面的研究能更好地指導教師的口語教學,培養(yǎng)和提高學生的口語能力。何蓮珍等(2004)利用大學英語四、六級考試口語考試(CET-SET)語料庫研究非英語專業(yè)大學生在大學英語口語考試中使用交際策略的情況。研究發(fā)現(xiàn),口語水平對交際策略的觀念和使用影響顯著。這一研究結果對培養(yǎng)學生的交際能力具有啟示作用。
用語料庫研究修辭和文學可以提供數(shù)據(jù)支持,將定性與定量研究方法相結合,研究更科學可信。周江林等(2003)使用英國國家語料庫檢索“high”和“l(fā)ow”兩個詞,研究英語的空間隱語。從語義的角度,通過分析共現(xiàn)于同一語境中有關詞項的語義特點,可以開辟一個新途徑來理解英語的修辭手段及其效果。語料庫在文學領域的研究通過對文學作品文本總體特征的描述來分析文學文本、作家的寫作技巧、語言風格等。
通過對不同語域語料庫的調查研究,可以了解在不同語域中英語使用的一些特點。余千華等(2001)以科技英語語料庫中統(tǒng)計的模糊限制語使用頻率作為參照標準,研究中外重要英語科技期刊上的論文中模糊限制語的使用情況,分析說明了中外科技工作者在用英語寫作科技論文時使用模糊限制語習慣上的一些異同點,給中國科技工作者用英語寫科技論文時提供借鑒。
基于大規(guī)模的語料庫的語音識別、音字轉換技術(中文輸入)、自動文本校對技術;
基于語料庫的句法分析、機器翻譯、機器學習技術、語音模型訓練以及語言模型的評價等等;
利用語料庫訓練隱馬爾可夫模型(Hidden Markov Model,簡稱HMM)進行分詞(word segmentation)、詞性標注(word tagging)、詞義標注等等。
語料庫語言學的發(fā)展離不開語料庫的建設,而語料庫的建設依賴于語言處理技術。國內許多學者依據(jù)自己的研究需要提出了自建語料庫的設想。王克非(2004)具體介紹了新型雙語對應語料庫的設計和構建。徐箐等(2003)介紹了一個對漢語語料進行切分標注加工的系統(tǒng)。對自然語言信息處理的研究基本上是對中文語料進行的。
對于語料庫語言學的發(fā)展前景,近年來語料庫語言學家多有論及。如Svartvik(1992)預測“計算機將運行更快,體積更小,價格更低;語料庫將規(guī)模更大,質量更好,利用率更高?!?McEnery(1996)則認為,語料庫語言學的發(fā)展將主要受語料庫規(guī)模、類型、國際關注和計算機發(fā)展等四方面力量的左右。基于語料庫語言學的研究現(xiàn)狀,語料庫語言學未來的發(fā)展方向將主要體現(xiàn)在以下幾個方面:
鑒于大型語料庫語料標注工作的滯后,有人認為今后一段時間還應發(fā)展小型專用語料庫,例如肖特(1996)為研究言語和思維的表達所建立的語體研究語料庫。此外,口語語料庫的發(fā)展應加大力度,以克服目前書面語語料庫和口語語料庫發(fā)展的失衡,促進口語研究的發(fā)展。Wilson(1996)預測在不久的將來會有更多的語料存儲媒體問世。
語料庫標注是對語言進行多維、多層面分析的基礎,而此種分析結果的受益者不僅限于原標注者,因而語料庫的有效利用在很大程度上有賴于語料庫標注的層次和質量。
語料庫分析有賴于計算機環(huán)境的支持,即從語料庫中檢索數(shù)據(jù)并對語料進行加工的軟件工具。充分利用統(tǒng)計學方法,建立科學有效的語料處理工具可以增加語言學研究人員的工作效率。目前軟件工具盡管已有了一定數(shù)量,但多數(shù)工具都是針對某一個特定的語料庫,適用范圍有限,缺乏通用性。
語料庫是一個由大量在真實情況下使用的語言信息集成的、可供計算機檢索的、專門作研究使用的巨型資料庫。它以其容量大、語料真實、檢索快捷準確等獨特的優(yōu)勢在現(xiàn)代語言學研究和語言教育中正發(fā)揮著越來越重要的作用。語料庫語言學不僅僅是研究方法論的一個重要突破,它更孕育著對語言描述框架乃至語言觀念的不斷更新(張政 2010)。
Granger,S.(1998).Learner English on computer[M].London:Longman。
McEnery,T.Wilson(1996).A Corpus Linguistics[M].Edinburgh University Press。
何安平(2004).語料庫在外語教育中的應用:理論與實踐 [M].廣東高等教育出版社。
何蓮珍,劉榮君(2004).基于語料庫的大學生交際策略研究 [J].外語研究(1)。
候敏(1999).計算語言學與漢語自動分析 [M].北京廣播學院出版社。
婁寶翠(2001).中國學生英語寫作中的造詞現(xiàn)象 [J].外語教學與研究(1)。
潘瑤,馮躍進(2003).非英語專業(yè)研究生寫作中連接詞用法的語料庫調査 [J].現(xiàn)代外語(2)。
王克非(2004).新型雙語對應語料庫的設計與構建 [J].中國翻譯(6)。
余千華,官玲玲,李娜,劉義(2001).英語科技論文中的模糊限制語 [J].華中科技大學學報 (社科版)(4)。張政(2010).計算語言學與機器翻譯導論 [M].外語教學與研究出版社。
周江林,張家強(2003).基于語料庫的英語空間隱喻研究 [J].解放軍外國語學院學報(5)。