譚正嬌 王文文 余曉鈴
(云南大學(xué) 云南 昆明 650000)
國內(nèi)漢語中介語語料庫建立于1995年,建立之初的特點是盡量搜集語料,但對語料的深度分析和挖掘做得不夠。隨著計算機技術(shù)的發(fā)展和成熟,漢語中介語語料庫呈現(xiàn)出新的特點:語料挖掘更加細(xì)致,注重用戶體驗,從不同角度建庫,口語語料庫建設(shè)得到重視……這些變化都促進漢語中介語語料庫朝著更好的方向發(fā)展。
語料庫是以計算機為載體承載語言知識的基礎(chǔ)資源,其中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料,這些語言材料經(jīng)過人工處理,最終變成可供使用分析的基礎(chǔ)資源。世界上第一個語料庫是1963年在美國建成的布郎家族語料庫(Brown Corpus),布朗家族語料庫選取了1961年美國出版的各類刊物(小說、期刊等)共500個樣本,每個樣本選取約2000個詞,共計100萬個詞,并按照布朗大學(xué)的圖書分類進行目錄分類,層級清晰、系統(tǒng)完善——先把整個語料庫分為兩個大類,再對這兩個大類進行更加精細(xì)化的分類,類似于一個蛛網(wǎng),從中間點不斷向外延伸擴展。[1]我國的漢語中介語語料庫建設(shè)靈感就來源于布朗家族語料庫,其建庫方法、選材等都成為國內(nèi)中介語語料庫的靈感來源。
漢語中介語語料庫以母語為非漢語者的書面學(xué)習(xí)材料為研究對象,通過全面地記錄學(xué)習(xí)者的書面語言,經(jīng)過計算機分析,得出學(xué)習(xí)者學(xué)習(xí)漢語過程中出現(xiàn)的單項和綜合信息,最終豐富國際中文的教學(xué)理論基礎(chǔ)。通過語料庫客觀分析得出的結(jié)論信度較高,更有說服力,區(qū)別于以往語言研究僅憑“語感”得出的結(jié)論。
國內(nèi)于1993年正式提出構(gòu)建漢語中介語語料庫的設(shè)想,在此之前,對語料的搜集整理存在著以下局限:(1)收錄的語料僅是留學(xué)生的病句、錯句,語料收集不完整。(2)由于語料收集不成系統(tǒng)和規(guī)模,可能導(dǎo)致得出的理論存在一定偏頗。[2]第一個漢語中介語語料庫于1995年在北京語言學(xué)院正式建成,填補了漢語中介語語料庫研究方面的空白,在漢語作為第二語言教學(xué)領(lǐng)域里取得了開創(chuàng)性成果。[3]
語料庫作為一種新的研究手段,有著很廣闊的應(yīng)用前景。首先,它可以盡量詳盡地收集學(xué)習(xí)者的口語、書面語作為研究材料,為國際中文的理論研究提供語料支持;其次,語料庫詳盡地占有語料后,可以為老師的教、學(xué)生的學(xué)提供教學(xué)資源;再次,由語料庫衍生的語料庫語言學(xué),不僅可以為語料庫研究提供支持,還能為社會學(xué)、歷史學(xué)等學(xué)科研究提供幫助;最后,數(shù)據(jù)分析統(tǒng)計軟件和語音轉(zhuǎn)寫軟件的開發(fā),豐富了語料庫建設(shè)、研究的手段,降低了語料庫建設(shè)過程中需要消耗的人力物力。
目前,國內(nèi)國際中文中介語研究熱點大致分為語料庫建設(shè)、基于語料庫的研究和語料庫檢索分析軟件的開發(fā)三大模塊。
1.語料庫建設(shè)
自1995年第一個漢語中介語語料庫建成以來,“語料庫建設(shè)”這一課題逐漸成為熱點,國內(nèi)知名的漢語中介語語料庫(已建成且對外開放)包括:
(1)“HSK動態(tài)作文語料庫”——北京語言大學(xué)。該庫的特點是:收集了1992—2005年間HSK考試中部分考生的作文語料,共計11569篇語料424萬字,是目前國內(nèi)最大的中介語語料庫;最早公開偏誤標(biāo)注規(guī)范,其后新建語料庫的偏誤標(biāo)注均以HSK動態(tài)作文語料庫為范本,再根據(jù)實際需要加以改進。
(2)“留學(xué)生漢語中介語語料庫”——暨南大學(xué)。該語料庫的特點是:可以根據(jù)兩個詞之間的間距進行檢索,如“不但”“而且”間隔距離為5個詞;根據(jù)句子中的包含關(guān)系進行檢索,如含有“我們”且“他們”的句子。
(3)“中山大學(xué)中介語語料庫”——中山大學(xué)。該語料庫把偏誤標(biāo)注分類為“漢字偏誤標(biāo)注版”和“字、詞、句偏誤標(biāo)注版”,“錯字語料庫”是該語料庫的一大特點,用戶可以在其中搜索到“中山大學(xué)中介語語料庫”里所有錯字的使用情況。
(4)“臺灣師大漢字偏誤庫”——臺灣師范大學(xué)。該語料庫是專門針對漢字繁體字偏誤創(chuàng)建的語料庫。
2.基于語料庫的研究
蔡武2017年通過CiteSpaces5.0對國內(nèi)漢語中介語語料庫進行可視化分析,從發(fā)文時間、期刊分布、發(fā)文機構(gòu)等方面考量,認(rèn)為自“2013年開始,關(guān)于漢語中介語語料庫的論文數(shù)量急劇增長,發(fā)文機構(gòu)、作者相對集中”“形成了偏誤分析與習(xí)得研究、語料庫建設(shè)研究和基于國別化的學(xué)習(xí)者研究是該領(lǐng)域發(fā)展的三大熱點”等結(jié)論。[4]偏誤分析與習(xí)得研究偏向于二語學(xué)習(xí)者在學(xué)習(xí)目的語的過程中產(chǎn)生的偏誤研究,語料庫建設(shè)研究著重點在如何合理建設(shè)中介語口語語料庫和書面語語料庫,國別化的學(xué)習(xí)者研究則是通過劃分學(xué)習(xí)者的國籍,區(qū)分不同國家的學(xué)習(xí)者在學(xué)習(xí)漢語時產(chǎn)生的不同偏誤。2015年,漢語“中介語語料庫”建設(shè)漸成高潮。[5]在中國知網(wǎng)(CNKI)以關(guān)鍵詞“對外漢語”“中介語語料庫”進行搜索,共找出相關(guān)期刊、碩博論文559篇,從2015年1月1日至2020年11月20日,共有論文成果250篇,年平均增長量遠(yuǎn)超過去23年(1993年1月1日至2014年12月31日)。
3.語料庫檢索、分析軟件的開發(fā)
語料庫建成之后,如何最大限度地利用變成了首要問題。對語料庫不熟悉的人都認(rèn)為從事語料庫相關(guān)工作需要強大的計算機技術(shù),其實不然。我們大部分時間做的工作是如何把語料庫當(dāng)作一個工具,利用它來研究其他東西,因此大部分語料庫使用者需要的是簡單、強大、易上手的檢索分析軟件。目前在國內(nèi),AntConc、PowerConc等是比較熱門的軟件,以AntConc為例,該軟件有以下優(yōu)點:一是不需要強大的計算機專業(yè)背景知識,大部分人很快就能學(xué)會如何使用;二是文本導(dǎo)入后可以生成關(guān)鍵詞表,統(tǒng)計詞匯出現(xiàn)的頻率并自動保存;三是檢索項分為初級檢索和高級檢索,用戶能根據(jù)自己的實際需求設(shè)置檢索級別。
張寶林認(rèn)為,以2018年用計算機語言形成新的語料庫軟件系統(tǒng)開發(fā)為界,我國的漢語中介語語料庫可以分為1.0時代和2.0時代。[6]1.0時代是漢語中介語語料庫的奠基期,這一時期的語料庫擁有大量的語言材料,但由于計算機技術(shù)等條件限制,擁有的語言材料沒能被很好地加工轉(zhuǎn)化成規(guī)范的語料以供進一步研究,是“粗放型”的語料庫,此外,還有系統(tǒng)漏洞多、查詢條件設(shè)置不合理等缺憾。自2018年1月開始,用計算機語言處理大量繁雜的初始文字資料,大大提高了工作效率,中介語語料庫正式進入2.0時代。2.0時代在繼承了1.0版優(yōu)勢的基礎(chǔ)上,還著重于優(yōu)化用戶體驗,增強系統(tǒng)穩(wěn)定性。
目前國內(nèi)的中介語語料庫建設(shè)還有以下幾個特點:
1.語料來源方面
一是來源于教師在教外國留學(xué)生的過程中,留學(xué)生提交的書面作業(yè);二是來源于學(xué)生在實習(xí)過程中收集到的語料。
在這一過程中,語料庫呈現(xiàn)出以下特點:(1)語料大部分是學(xué)習(xí)者以書面語呈現(xiàn)出來的材料,如遣詞造句、小作文等。(2)語料庫來源大部分是初、中級學(xué)習(xí)者,原因是目前在學(xué)習(xí)漢語的外國人當(dāng)中,初、中級學(xué)習(xí)者占大部分比例,零基礎(chǔ)和高級學(xué)習(xí)者占比較少。(3)語言原材料大多數(shù)是對同一階段的學(xué)生進行集體性材料收集,少有針對某一個學(xué)習(xí)者的追蹤調(diào)查。
2.建庫方面
(1)國內(nèi)大部分中介語語料庫還是書面語語料庫,少有對學(xué)習(xí)者口語語料進行收集整理和研究的語料庫,國內(nèi)最先開展口語語料庫建設(shè)的是暨南大學(xué),但尚未對外開放。(2)大部分國際中文教師沒有意識到語料庫建設(shè)的重要性,一線教師沒有收集語料的習(xí)慣,導(dǎo)致語料流失。
3.其他方面
(1)基于語料庫的研究僅限于少數(shù)方面,如偏誤分析、中介語研究等,其他方面少有涉及。(2)目前國內(nèi)針對漢語中介語檢索的軟件過少,導(dǎo)致千辛萬苦建起來的語料庫最終因為“不好用”而被遺棄,沒有達到最初建庫的目的。
雖然國內(nèi)中介語語料庫建設(shè)和使用還存在較大空白,但中介語語料庫的建設(shè)無疑會給國際中文專業(yè)帶來正面影響:
建設(shè)中介語語料庫,可以為國際中文的學(xué)科發(fā)展提供理論知識和數(shù)據(jù)支持。語料收集、語料庫建設(shè)、語言教學(xué)是一個良性循環(huán)的過程——在教學(xué)中收集到的語料可以用于語料庫建設(shè),語料庫建設(shè)過程中產(chǎn)生的問題和成果可以用作后續(xù)實際教學(xué)的理論支撐。另外,語料庫中的語料全部來源于真實的書面語或者口語材料,這為有關(guān)學(xué)者編寫國際中文教材提供了貼近真實生活的材料,因此,國內(nèi)在漢語中介語語料庫建設(shè)方面還大有可為。
教師在教學(xué)中可以把語料庫當(dāng)作一本“在線詞典”,遇到不好向?qū)W生解釋的語法點,就能利用語料庫中的語料加以辨析。如教授“拉”和“牽”,運用圖片加語料庫語料的教學(xué)辦法,能讓學(xué)生更好地理解知識點。另外,教師在教的時候可以有意識地向?qū)W生展示如何使用語料庫進行學(xué)習(xí),當(dāng)學(xué)生的知識儲備達到一定層次,就可以探索式地自我學(xué)習(xí),以獲得更好的學(xué)習(xí)效果。
學(xué)生學(xué)會使用語料庫之后,可以自己嘗試對一些知識點進行總結(jié)歸納,再由教師糾偏,這樣不僅能激發(fā)學(xué)生的學(xué)習(xí)興趣,還能提高學(xué)習(xí)效率。
學(xué)習(xí)者通過訪問中介語語料庫,可以為自己的學(xué)術(shù)研究找到對應(yīng)的理論支撐(如韓國留學(xué)生可以找到韓國相關(guān)的語料),還可以通過對前人學(xué)習(xí)過程的總結(jié)歸納,總結(jié)出一套適合自己甚至適用于本國留學(xué)生的學(xué)習(xí)方法,為本國學(xué)生學(xué)習(xí)漢語掃平一些障礙。
評價一個專業(yè)是否有研究前景和應(yīng)用價值,要看它是否具有相關(guān)理論支撐和技術(shù)支持。國內(nèi)漢語中介語語料庫迄今已走過25年時光,每一次進步都離不開計算機技術(shù)的發(fā)展,各類統(tǒng)計、分析、轉(zhuǎn)寫軟件技術(shù)的日趨完善,使軟件技術(shù)在語料庫建設(shè)中起到了不可替代的作用。從建設(shè)語料庫需要用到的HunAlign、WinAlign等工具,到檢索語料庫用到的Antconc、Powerconc等軟件,語料庫建設(shè)依托于計算機軟件的開發(fā),正發(fā)生著日新月異的變化。但語料庫建設(shè)始于國外,很多理論和軟件都是由國外研發(fā)并先行使用,這些軟件更適用于外語語料庫建設(shè)。國內(nèi)針對中介語語料庫的寫入、輸出、檢索等軟件都還留有大片空白等待被填補。只有不斷優(yōu)化升級相關(guān)軟件,讓語料庫建設(shè)和使用過程變得更加經(jīng)濟方便,才能最終造福于我們的語料研究工作和國際中文教學(xué)事業(yè)。
目前,國內(nèi)缺少對于口語語料的收集和分析整理。究其原因,是因為口語具有瞬時性的特點,難以收集,口語語料在收集完之后還要花費大量時間轉(zhuǎn)寫成書面材料,雖然現(xiàn)在有語言轉(zhuǎn)寫軟件,但還需人工校對,費時費力;此外,受緊張、壓力、提前準(zhǔn)備考試等因素影響,從HSK考試中收集的口語語料,很難準(zhǔn)確體現(xiàn)出學(xué)習(xí)者真實的學(xué)習(xí)情況變化。從學(xué)習(xí)者日常交談會話中選擇語料,雖然能反映出學(xué)習(xí)者的真實水平,但很可能涉及個人隱私,即使學(xué)習(xí)者同意將語音材料用于研究,也不能大范圍對外開放。
國際中文的教學(xué)目標(biāo)是讓學(xué)習(xí)者先運用漢語進行日常交際,其次才是書面寫作,加強漢語口語語料庫的建設(shè),對本學(xué)科發(fā)展大有裨益。張寶林在2012年提出建設(shè)“全球漢語中介語語料庫”的計劃,得到了大力支持,“全球”即“語料來自全球、全球共建、全球共享”[7],可以預(yù)見全球漢語中介語語料庫建成之后,我國的國際中文教學(xué)事業(yè)將會前進一大步。
另外,國內(nèi)論文數(shù)據(jù)分析還是比較依賴外國的數(shù)據(jù)分析軟件,我國自主研發(fā)的軟件占比較少,針對性地進行軟件研發(fā),對國內(nèi)的論文數(shù)據(jù)分析將會起到錦上添花的效果。