楊永青
摘 要:截至目前,中國英語語料庫還未在中國語言學(xué)界的語料庫中建立,這在一定程度上阻礙了中國英語的發(fā)展與進步。中國英語語料庫的建設(shè)可以根據(jù)中國的具體發(fā)展國情,積極參考國際英語語料庫的分庫建設(shè)經(jīng)驗,逐步構(gòu)建具有中國特色的中國英語語料庫。基于此,本文擬從中國英語語料庫建設(shè)的必要性出發(fā),分析中國英語語料庫建設(shè)存在的問題,探討中國英語語料庫的建設(shè)路徑,旨在推動中國英語語料庫的建設(shè),提高中國英語的國際地位與影響力。
關(guān)鍵詞:中國;英語語料庫;建設(shè);英語語言;中國英語
中圖分類號:H310.1 文獻(xiàn)標(biāo)識碼:A 文章編號:1673-2596(2016)10-0207-03
隨著英語語言的國際化發(fā)展,英語的中國本土化趨勢也在不斷加深。世界學(xué)術(shù)領(lǐng)域越來越開始關(guān)注與世界英語聯(lián)系緊密的中國英語,其中相當(dāng)一部分學(xué)者對中國英語的客觀存在事實進行了論證,并深入討論了中國英語的理論意義、社會價值以及教學(xué)啟示,即中國英語不但有助于中國文化的傳播,以及彌補漢語語言在全球領(lǐng)域影響廣度有限這一缺憾,而且還有助于提升社團成員的作用與功能,具有十分重要的社會意義。近些年來,針對中國英語本土化的語音、詞匯、語篇與語法等描述頗多,但在論述過程中總是無法提供具有說服力的數(shù)據(jù),也難以探究產(chǎn)生各種問題的深層原因。然而,語料庫的迅速發(fā)展為中國英語語料庫的研究提供了更為有力的工具,有效促進了中國英語語料庫的建設(shè),最大化的填補了中國英語領(lǐng)域的研究空白。
一、中國英語語料庫建設(shè)的必要性
(一)促進中國英語語言研究的需要
中國英語語料庫具有反映真實英語語言數(shù)據(jù)的功能,通過分析大規(guī)模的中國英語語言資料,從中總結(jié)出中國英語語言的應(yīng)用規(guī)律,屬于一種全新的中國英語語言研究模式。中國英語語料庫的建設(shè)為中國英語語言的研究提供了豐富的英語語言資料,涉及到英語語言的各個領(lǐng)域與各個方面。中國英語語料庫的建設(shè),能夠為中國英語語言研究發(fā)揮重要的積極作用,有效促進中國英語語言研究的思維方式與研究手段,可以最大程度滿足相關(guān)研究者的語料需求,而且能夠促進研究手段的靈活化與方便化[1]。
(二)強化中國英語語言發(fā)展的需要
中國英語語料庫的建設(shè)有助于中國英語詞典的編撰,詞典編撰人員可以根據(jù)中國英語語料庫中的統(tǒng)計結(jié)果,給出相關(guān)詞條的實際頻率信息,以及對排列順序與狹義定義進行取舍等。同時,中國英語語料庫建設(shè)還可以為詞匯搭配方面的研究提供幫助,為英語語言學(xué)習(xí)者提供更加權(quán)威與地道的詞匯搭配方式,進而促使學(xué)習(xí)者對詞匯搭配的習(xí)慣、用法、文化、詞義等因素有更為深入的了解。另外,中國英語語料庫的建設(shè)還對英語語言的教學(xué)具有重要的推動作用,即廣大學(xué)生可以通過中國英語語料庫對英語語言在中國的具體應(yīng)用有更為全面深刻的認(rèn)知,從而提升學(xué)生的英語語言應(yīng)用技能。
(三)提升中國英語國際地位的需要
隨著全球經(jīng)濟一體化的飛速發(fā)展,世界各國之間的相互聯(lián)系日益頻繁,語言作為一國對外開展交流的重要工具,對國家的國際影響力具有重要的影響意義。英語作為國際通用語言之一,加強英語的中國本土化發(fā)展對于增強中國的對外貿(mào)易,以及提升國際社會對中國的認(rèn)知與了解具有不可替代的意義。而中國英語語料庫的建設(shè),作為提升中國英語研究與發(fā)展的重要途徑,更是增強中國英語國際地位的關(guān)鍵舉措[2]。
二、中國英語語料庫建設(shè)存在的問題
(一)語料庫的基礎(chǔ)建設(shè)較為滯后
中國英語語料庫的起步時間較晚,從一些研究論文中所采用的英語語料庫可以發(fā)現(xiàn),采用國際大型語料庫的研究較少,以中國自主研究與開發(fā)的英語語料庫應(yīng)用居多。然而,作為我國最具代表性的學(xué)習(xí)者英語語料庫“CLEC”,其詞級規(guī)模只有百萬,只包括頭標(biāo)注與錯誤類型標(biāo)注兩種[3]。從中可以看出,與世界數(shù)以億計的詞級規(guī)模語料庫相比,中國的英語語料庫基礎(chǔ)建設(shè)還有相當(dāng)大的差距。世界著名語言學(xué)家約翰·辛克萊曾指出,只有大型的語料庫才有可能推動語言理論的進步與發(fā)展,小型的語料庫只能位居語言學(xué)領(lǐng)域的邊緣。所以,大力改變中國英語語料庫基礎(chǔ)建設(shè)的滯后問題,提高中國英語語料庫的規(guī)模是當(dāng)前的重要任務(wù)之一。
(二)語料庫的技術(shù)水平相對薄弱
語料庫建設(shè)中的賦碼和各種標(biāo)注可以為相關(guān)研究提供更為豐富的信息,而人工標(biāo)注則難免會出現(xiàn)主觀性等問題,且速度比較緩慢,對大型語料庫的標(biāo)注而言,人工標(biāo)注技術(shù)是行不通的。目前,中國在英語詞類方面的自動賦碼技術(shù)已經(jīng)相當(dāng)成熟,幾乎可以達(dá)到精準(zhǔn)的水平,但在語義、句法等方面的自動分析水平還不夠成熟。一些語言專家建議使用句法賦碼技術(shù),即首先通過計算機對詞類進行自動標(biāo)記,用人工校對予以輔助,然后再通過計算機幫助人工分析語料的方式對語法進行標(biāo)記。這種技術(shù)雖然具有一定的可行性,但依然無法滿足語料庫快速的發(fā)展規(guī)模需求。人工標(biāo)注技術(shù)終將會被淘汰,特別是目前北京語言大學(xué)語言研究所新研制出的CCRL檢索系統(tǒng),可以對30G以上的生語料進行實時檢索、分詞與詞性標(biāo)注,這一技術(shù)發(fā)現(xiàn)使得中國英語語料庫建設(shè)突破了技術(shù)薄弱的瓶頸局限,并使得語料庫建設(shè)步入自動化處理階段變得指日可待。
(三)語料庫的專業(yè)設(shè)計不夠精細(xì)
當(dāng)前中國英語語料庫的建設(shè)工作還處于初級階段,各方面的發(fā)展還不夠成熟與完善,尤其是英語語料庫的專業(yè)化建設(shè)還未引起足夠的重視。與普通語料庫有所差別,專業(yè)化的英語語料庫會涉及到計算機、語言學(xué)、專業(yè)英語等更多的專業(yè)化知識。這就使得在對專業(yè)化英語語料庫進行設(shè)計的過程中,需要進行更深入、更全面的考慮,比如語料篩選標(biāo)準(zhǔn)、語料功能、語料代表性等等。同時,專門化的英語語料庫由于往往涉及到多個專業(yè)的子語料庫,所以,如何對英語語料庫實施分類,如何對英語語料庫加以編碼等都是需要考慮到的設(shè)計細(xì)節(jié)。然而,目前中國針對專業(yè)化的英語語料庫設(shè)計還存在不夠精細(xì)的問題,只是簡單的、未加分類的對英語語料進行堆積,這不僅使更為符合要求的語料獲取難度加大,而且嚴(yán)重降低了英語語料的實用性與代表性[4]。
三、中國英語語料庫的建設(shè)路徑
(一)明確語料庫的設(shè)計思路
中國英語語料庫的建設(shè)工作需要制定明確的設(shè)計思路,具體包括四個方面:一是明確中國英語語料庫的建設(shè)目的。即建設(shè)中國英語語料庫的根本目的在于滿足中國英語的應(yīng)用、語言研究以及教學(xué)等需要。二是明確中國英語語料庫的構(gòu)成方向。通過明確中國英語語料庫建設(shè)是應(yīng)用于研究領(lǐng)域還是實用領(lǐng)域,然后對其構(gòu)成方向進行確定。諸如,實用領(lǐng)域要以語言運用、英語理論與英語基礎(chǔ)知識作為主要結(jié)構(gòu)。三是明確中國英語語料庫的建設(shè)規(guī)模。比如,依據(jù)取樣分析對取樣的時間跨度進行明確,定位英語語料庫建設(shè)是否歸屬于開放性的語料庫,初步設(shè)計包含多少詞匯量的規(guī)模等等。四是明確中國英語語料庫的采集范圍。英語視頻、英語書籍、英語雜質(zhì)、英語廣播等都是英語語料的采集資源,對各個范圍的英語語料的組成結(jié)構(gòu)與限制性條件進行明確,對填充英語語料庫的內(nèi)容具有至關(guān)重要的意義。
(二)重視語料庫的網(wǎng)絡(luò)建設(shè)
隨著互聯(lián)網(wǎng)科學(xué)技術(shù)的迅猛推進,計算機網(wǎng)絡(luò)已經(jīng)滲入到了現(xiàn)代社會的方方面面。近年來,網(wǎng)絡(luò)語言對語言演化的影響愈來愈多,而要想收集那些日新月異的網(wǎng)絡(luò)語言資源,就必須構(gòu)建科學(xué)合理的網(wǎng)絡(luò)語料庫對之進行儲存。中國英語同樣如此,只有積極建設(shè)網(wǎng)絡(luò)化的中國英語語料庫,才能最大化中國英語語料庫的規(guī)模。同時,網(wǎng)絡(luò)化的英語語料庫還可以實現(xiàn)中國英語語料庫的自動化發(fā)展,即語料資源的選取將突破傳統(tǒng)的人工操作,通過計算機網(wǎng)絡(luò)便可以自動完成。網(wǎng)絡(luò)中國英語語料庫作為虛擬英語語料庫的一種形式,可以使整個網(wǎng)絡(luò)變成重要的英語語料庫資源,通過百度、搜狗、谷歌等搜索引擎對相關(guān)網(wǎng)頁的搜索,然后再應(yīng)用相關(guān)軟件對各種英語信息進行篩選[5]。在新世紀(jì)初期由伯明翰大學(xué)牽頭建設(shè)的“WebCorp”(網(wǎng)絡(luò)語料庫)是最具代表性的網(wǎng)絡(luò)語料庫,通過網(wǎng)絡(luò)該語料庫搜集到的語料已經(jīng)達(dá)50億規(guī)模,每日更新的語料網(wǎng)頁可達(dá)200萬,同時支持十幾種語言的檢索。因此,建設(shè)網(wǎng)絡(luò)化的中國英語語料庫是未來必然的發(fā)展趨勢。
(三)推動語料庫的智能發(fā)展
智能化的語料庫形式是新時代語料庫的新興形式,主要以“Monitor corpus”(監(jiān)控語料庫)形式為主,該語料庫具備自動監(jiān)控與及時更新的功能,可以自動更新語料、發(fā)現(xiàn)新語料、報告新語料以及淘汰過時語料。其中,及時發(fā)現(xiàn)語言應(yīng)用中的新變化與新現(xiàn)象是“Monitor corpus”的重要功能之一,比如COCA語料庫作為監(jiān)控語料庫的一種形式,其加入了一個動態(tài)性元素,致使新文本可以被持續(xù)不斷的加入進去,然后通過相應(yīng)的軟件分析,對新詞匯或者新詞的用法進行發(fā)現(xiàn)與識別[6]。全球英語語言監(jiān)控語料庫項目建設(shè)自2001年底正式啟動,其研究目標(biāo)是讓該語料庫具備報告專有名詞與術(shù)語在現(xiàn)階段意義的功能,以及對世界各國的英語發(fā)展趨勢可以進行及時報告,通過現(xiàn)階段英語語言的應(yīng)用與以前英語語言的應(yīng)用比較,對英語語言的最新變化進行報告。所以,大力推進中國英語語料庫的智能化發(fā)展,是建設(shè)中國英語語料庫的重要構(gòu)成部分,而走智能化的英語語料發(fā)展之路,是實現(xiàn)中國英語與國際接軌的重要路徑。
(四)強化語料庫的專業(yè)功能
與大規(guī)模的通用英語語料庫建設(shè)相比,當(dāng)前中國的專業(yè)英語語料庫建設(shè)少之又少,這在很大程度上限制了中國英語語料庫的功能發(fā)揮。所以,積極促進中國英語語料庫的專業(yè)化建設(shè)已成為語料庫建設(shè)的重點。中國英語語料庫的專業(yè)化建設(shè)涉及到的范圍十分廣泛,其中包括計算機技術(shù)、語料庫理論、語言學(xué)知識、專業(yè)知識等。因此,要想設(shè)計出代表性強、科學(xué)合理的英語語料庫就必須鼓勵計算機專業(yè)人員、英語教師、英語行業(yè)資深人員等加入進來,對檢索軟件開發(fā)、語料收集、語料標(biāo)注、語料分析、語料采樣等諸多問題進行深入分析與研究,實施跨學(xué)科、跨領(lǐng)域的合作交流。另外,由于中國英語語料庫的專業(yè)化發(fā)展與英語行業(yè)聯(lián)系十分緊密,這就使得在建設(shè)中國英語語料庫的時候,有必要邀請行業(yè)人士或者相關(guān)專家參與到語料庫的設(shè)計與監(jiān)督工作中來。
總而言之,語料庫已發(fā)展成為新時代語言學(xué)應(yīng)用、理論以及語言工程研究等所必須的基礎(chǔ)性資源。其中,一些發(fā)達(dá)國家在英語語料庫方面的研究起步時間較早,已經(jīng)構(gòu)建起了比較完善的英語語料庫理論體系與應(yīng)用規(guī)范。尤其是近些年來語料庫的迅速發(fā)展,促使世界各國都在著手語料庫的建設(shè),各種各樣的語料庫應(yīng)用軟件也不斷涌現(xiàn)。中國在積極借鑒其他國家語料庫建設(shè)經(jīng)驗的基礎(chǔ)上,緊密結(jié)合中國的發(fā)展國情以及廣大英語學(xué)習(xí)者的實際情況,對英語語料庫的研究與建設(shè)進行了深入研究,并卻得了一定的成績。然而,中國英語語料庫的建設(shè)還面臨著一系列的壓力與問題,這就要求英語語料庫的建設(shè)者必須不斷創(chuàng)新思路與方式,持續(xù)提升英語語料庫的建設(shè)質(zhì)量,才能真正推動中國英語語料庫的發(fā)展進程。
參考文獻(xiàn):
〔1〕黃大網(wǎng),等.數(shù)據(jù)驅(qū)動學(xué)習(xí)與英語寫作教學(xué)中的語域知識傳授——基于CLEC語料庫的個案研究[J].外語電化教學(xué),2003,(12).
〔2〕王海.21世紀(jì)以來我國基于語料庫的英語研究述評[J].湘潭示范學(xué)院學(xué)報,2007,(03).
〔3〕曾祥玲,李志遠(yuǎn).近十年來英語語料庫研究現(xiàn)狀與發(fā)展趨勢[J].外語教學(xué)與研究,2013,(55).
〔4〕胡開寶,吳勇,陶慶.語料庫與譯學(xué)研究:趨勢與問題——2007語料庫與譯學(xué)研究國際學(xué)術(shù)研討會綜述[J].外國語(上海外國語大學(xué)學(xué)報),2007,(05).
〔5〕胡開寶,陶慶.漢英會議口譯中語篇意義顯化及其動因研究——一項基于平行語料庫的研究[J].解放軍外國語學(xué)院學(xué)報,2009,(04).
〔6〕任文,楊平.邁向國際化:中國口譯研究發(fā)展的現(xiàn)狀與趨勢——第八屆全國口譯大會暨國際研討會述評[J].中國翻譯,2011,(01).
(責(zé)任編輯 賽漢其其格)