柴 能
(安順學院外國語學院,貴州 安順561000)
語料庫(corpus)是指以電子文本形式收集和存儲的語言材料,可以通過計算機進行標注、檢索和分析,為研究語言使用規(guī)律提供重要的語料基礎?,F(xiàn)代信息技術的發(fā)展極大地促進了語料庫的研究,出現(xiàn)了各種專門用途的語料庫。英語學習者語料庫收集英語學習者的語言輸出材料,是研究英語中介語(interlanguage)[1]特點的重要數(shù)據(jù)。通過定量分析大量的英語中介語語料,可以對英語學習機制有更深刻的理解。
英語學習者語料庫在過去30年里迅速發(fā)展,目前國外已建成的主要的英語學習者語料庫有:1.國際學習者英語語料庫(International Corpus of Learner English,ICLE)[2],由比利時Louvain大學Granger于1990年建立,現(xiàn)已更新到第3版,容量2,000,000詞,語料來自世界各地大學英語學習者的書面材料,是影響力最大的英語學習者語料庫;2.USE語料庫,由瑞典Uppsala大學于1999年建成,容量1,000,000詞,語料來源于瑞典高校的英語學習者的書面材料;3.劍橋學習者語料庫(Cambridge Learner Corpus,CLC),容量20,000,000詞,語料來自不同母語的學習者參加劍橋大學英語考試的作文;4.朗文學習者語料庫(Longman Learner Corpus, LLC),容量20,000,000詞,語料來自世界各地不同母語背景和水平的英語學習者的作文。
國內英語學習者語料庫的建設幾乎同時開始,目前已建成的主要的學習者語料庫包括:1.中國學習者英語語料庫(Chinese Learner English Corpus, CLEC)[3],1999年建成,容量1,000,000萬詞,語料來源于英語四、六級考試的作文以及部分中學生的英語測試作文;2.中國大學生英語口語語料庫(College English Learners' Spoken English Corpus, COLSEC)[4],容量720,000萬詞,語料來源于2000-2004年全國大學英語考試的錄音;3.中國學生英語口筆語語料庫1.0[5]& 2.0[6](Spoken and Written English Corpus of Chinese Learners, SWECCL),容量二百多萬詞,語料來源于1996-2007年大學英語考試的口試錄音和作文;4.中國學生萬篇英語作文語料庫(Ten-thousand English Compositions of Chinese Learners,TECCL)[7],2015年建成,語料涵蓋了大學、中學、小學三個階段,寫作類型包括課內限時寫作、課后作業(yè)、期中和期末考試寫作、課堂講稿、小組合作寫作等多種類型;5.iWritebaby Chinese Learner English 語料庫[8],2019年建成,語料取自iWrite英語在線寫作系統(tǒng)的英語作文,容量八百多萬詞。
隨著現(xiàn)代信息技術的飛速發(fā)展,國內外英語學習者語料庫的規(guī)模不斷擴大,但各類專業(yè)語料庫的建設仍需進一步探索。以上所述的英語學習者語料庫都是對不同學習者語料的一次性采集(大部分是基于英語考試的命題作文),缺乏對同一學習者的持續(xù)追蹤,因而無法體現(xiàn)出英語學習者的語言發(fā)展特點。
何安平認為,因為信息技術的發(fā)展,建設大容量的語料庫已不再困難,我們更應該關注怎么建立特色語料庫[9]。Granger指出,在學習者語料庫的發(fā)展方向上,我們未來應該更關注歷時語料庫方面的研究[10]。王立非也認為,為了描述中介語的發(fā)展過程,有必要建立歷時性學習者語料庫[11]。然而,由于難以追蹤和收集大量學習者語料,國內外對歷時追蹤性學習者語料庫的建設極少,目前僅有個別的發(fā)展性語料庫。例如,Housen開發(fā)的“青少年學習者中介語語料庫”收集了部分歐洲國家小學生不同階段的英語語料[12];李文忠構建了“學習者電子檔案語料庫”,關注學習者不同階段的歷時語料[13]。此外魯東大學建立的國別化漢語中介語動態(tài)語料庫[14],收錄了韓國留學生歷年在校期間的作業(yè)和考試語料。但是這些語料庫由于建庫限制,還不能達到對同一學習者語言發(fā)展進行持續(xù)追蹤的目的。
筆者認為,無論是從語料庫語言學的研究角度,還是從實際語言教學需要出發(fā),都有必要建立歷時追蹤性英語學習者語料庫,豐富學習者語料庫的類型,為研究英語學習者中介語的發(fā)展規(guī)律提供語料平臺。
1.語料規(guī)模
歷時追蹤性英語學習者語料庫是專門用途語料庫,筆者通過對100名大一學生持續(xù)收集英語作文,追蹤學生的英語發(fā)展過程。每周收集學生的英語作文1篇,長度為200詞左右,涵蓋說明文、記敘文、議論文、小說等體裁。語料收集可以持續(xù)2~3年,收集過程越長,對研究中介語的發(fā)展規(guī)律越有價值。建成后,收集到每名學生的語料達20,000詞,整個語料庫累計詞匯達2,000,000,基本形成一定規(guī)模,成為國內領先的英語學習者語料庫,為研究英語中介語發(fā)展規(guī)律提供語料平臺。
2.語料采集原則
語料的采集有兩種方法:學生在紙上寫作,然后再輸入電腦存儲為電子文本;或者直接讓學生在線寫作提交電子文檔。為了避免簡單的重復勞動,提高效率,我們將采用在線寫作的方式。根據(jù)我們的建庫目的,本語料庫收集的語料必須要滿足有效性、追蹤性、均衡性三個要求。
追蹤性:每周收集一次學生的英語作文,持續(xù)時間2-3年,達到對英語學習者中介語發(fā)展進行追蹤的要求,是本語料庫的特色,也是建設的難點。對比其他學習者語料庫,研究者收集歷時追蹤性語料比較困難。如何持續(xù)穩(wěn)定地從同一英語學習者收集語料,還沒有統(tǒng)一的標準模式,處于小范圍探索階段。然而追蹤語料庫的重要作用不可替代,積極探索歷時追蹤語料庫的建設可以為研究中介語的發(fā)展變化提供重要的數(shù)據(jù)平臺。本研究需要每周收集一次學生的英語作文(200詞),由于多數(shù)學生缺乏英語寫作實踐,培養(yǎng)學生良好的持續(xù)寫作習慣是關鍵之處。
均衡性:收集的語料涵蓋記敘文、說明文、議論文等各個體裁,話題盡可能廣泛,每種體裁的語料數(shù)量基本均衡,以全面反映學生的英語能力。國內常見的主要的學習者語料庫(CLEC、SWECCL等)都是基于各類英語考試的限時命題作文,題材固定、單一,學生語言趨于保守,并出現(xiàn)大量套用公式化句式的現(xiàn)象,是學生應試教育的產物,用來分析學生實際的英語能力有所欠缺。本研究擬建的英語學習者語料庫,語料源于學習者每周自由時間的寫作練習,是學生自然語境下的語言輸出,改進了學習者語料庫的語料采集方式,更能體現(xiàn)學習者的實際英語能力。
有效性:電子文檔語料的收集,要對所有收集到的語料進行鑒別,剔出抄襲、機器翻譯等無效語料,確保語料來源地真實有效。由于本語料庫收集自然語境下的學生語言輸出材料,我們主要以寫作任務的形式讓學生在課外時間完成,這樣可以避免考試作文的弊端,但是也帶來新的問題:怎么避免學生抄襲與機器翻譯。過往的教學經驗可知,學生可能會為快速完成寫作任務,從網絡上抄襲英語作文,或者使用機器翻譯,這都會導致語料的無效性。為此我們必須鑒別分析收到的每一篇英語作文,確保語料的有效性。每周對100篇語料進行整理分析,對我們來說也是一個挑戰(zhàn)。
3.收集過程
整個語料采集過程持續(xù)2~3年,每周提取100名大學生的英語作文、日記等素材。為了確保語料收集順利,采集前的準備工作與先導研究階段必不可少。
準備工作:提前確定好學生要寫作的題目,可以是寬泛的話題,也可以是具體的題目。每周向學生說明英語寫作任務,采用在線寫作形式。鼓勵學生大膽進行寫作練習,不允許抄襲與機器翻譯。
試收集階段:先進行一個月的先導研究,試收集學生的作文語料,檢驗方案的可行性,根據(jù)學生的完成情況對寫作題目、要求、長度等進行調整,貼合學生的英語水平與興趣,消除學生潛在的抵觸情緒,有效地完成寫作任務。
正式收集階段:進行正式的語料采集工作,培養(yǎng)學生形成良好的寫作習慣,對表現(xiàn)優(yōu)秀的學生給與一定獎勵,建立起你追我趕的競爭機制,使學生樂于寫作,在寫作中進步,完成語料收集任務。
下圖為本語料庫的建設流程,其中語料的收集與標注是重點,每周一次,持續(xù)兩年至三年的時間,收集200萬詞的學習者語料。
圖1 語料庫建設流程圖
語料采集完成后還只是生語料庫,需要對學生信息、采集時間、文本題材等信息進行標注,以及對語料進行賦碼處理,對語言錯誤進行標注,方便計算機對其進行檢索使用。標注與收集同步進行,每周一次。
本語料庫的標注方法借鑒SWECCL等國內學習者語料庫的標注方法,但是我們仍需要探索針對追蹤性語料的特殊標記。雖然目前已建成的學習者語料庫確定了一套事實上的標注規(guī)范,研發(fā)了相應的語料標注軟件與檢索軟件,本語料庫可以參照使用。但由于追蹤性語料庫建設極少,如何對同一學習者不同階段的動態(tài)語言材料進行標注和分析,還沒有可靠的先例,需要研究者在具體標注中實際探索,以實現(xiàn)語料庫的追蹤性功能,從大數(shù)據(jù)層面展現(xiàn)學習者在不同階段的中介語發(fā)展特點。
本研究擬采用XML格式對語料庫的頭文件信息及詞性等進行標注。
頭文件信息包括學生代碼(
詞性賦碼標注一般采用CLAWS、AGTS等工具進行。這些標注工具是針對英語為母語開發(fā)的,用于中介語標注時,會有部分賦碼錯誤的情況,有必要再進行人工校對完善。后期隨著研究需要,我們還可以對中介語的語言錯誤進行標記編碼,提高語料庫的應用價值。
用CLAWS賦碼標注后展現(xiàn)的結果:
The_AT0 university_NN1 began_VVD to_TO0 recruit_VVI international_AJ0
students_NN2 in_PRP 1986_CRD and_CJC had_VHD trained_VVN more_DT0 than_CJS
20,000_CRD international_AJ0 students_NN2 from_PRP more_DT0 than_CJS 80_CRD
countries_NN2 by_PRP 2019_CRD,_PUN says_VVZ Huang_NP0 Xiaojuan_NP0 ,_PUN
the_AT0 university_NN1 's_POS vice-president_SENT ._PUN
每個單詞之后的下劃線標注字符,表示了該單詞的詞性特征。用檢索軟件可以利用這些標注字符,對特定用法或句式結構進行檢索。
語料庫建成后,即可用Wordsmith與AntConc等軟件對語料數(shù)據(jù)進行統(tǒng)計分析,就英語學習者在語言準確性、詞匯變化、句式復雜度等方面,結合時間維度進行定量分析,為探索英語學習者的中介語發(fā)展規(guī)律提供大量真實的語料數(shù)據(jù)。
由于收集歷時語料費力費時,要對英語學習者進行跨時間觀察追蹤幾乎沒有現(xiàn)成的語料平臺。通過大量的歷時性中介語語料可以深刻認識英語學習者的英語發(fā)展路徑,研究英語學習者的中介語在詞匯運用、語法錯誤、句法特點等方面的語言發(fā)展特點,對中介語發(fā)展規(guī)律進行驗證。這方面的作用是共時語料庫不可替代的。雖然很多學習者語料庫也可以按照學習者的英語水平不同,對比研究不同水平學習者的中介語特點,推導中介語的發(fā)展規(guī)律。但是這種對比沒有基于同一批學習者,難以推導出可信的結論。歷時語料庫的優(yōu)勢就在于可以跨時間緯度對語言的發(fā)展變化進行追蹤,體現(xiàn)出語言的演變特征。對同一批學習者中介語發(fā)展變化進行追蹤分析,可以對中介語的發(fā)展變化規(guī)律得到更加清晰的認識。
雖然國內有眾多規(guī)模龐大、上千萬詞的英語學習者語料庫,但因為其缺乏追蹤性,無法對英語學習者的語言發(fā)展路徑進行深入探討。歷時跟蹤性英語學習者語料庫,持續(xù)跟蹤收集同一批英語學習者的語料, 突出語料的自然性特點,為研究英語中介語發(fā)展規(guī)律提供重要語料平臺。這對以后的歷時追蹤性語料庫建設,為后期更大規(guī)模更廣范圍的歷時追蹤性語料庫開發(fā)提供方法參考。