北京外國語大學(xué) 梁茂成
梁茂成談?wù)Z料庫語言學(xué)與計算機(jī)技術(shù)
北京外國語大學(xué) 梁茂成
計算機(jī)技術(shù)與語料庫語言學(xué)密切相關(guān),表現(xiàn)在語料庫語言學(xué)高度依賴計算機(jī)技術(shù)。沒有計算機(jī)技術(shù),語料庫語言學(xué)就不可能發(fā)展起來,研究者就只能像Alexander Cruden (1699-1770)那樣,或像蔡庭干(1861-1935)那樣,靠人工將《圣經(jīng)》和《道德經(jīng)》制作成逐字索引,人們所能觀察到的數(shù)據(jù)必然十分有限。早期靠人工制作詞語索引的學(xué)者,其意識超前,不辭勞苦的精神值得稱道,更重要的是這種做法反映了這些學(xué)者對經(jīng)驗主義認(rèn)識論的推崇。
經(jīng)驗主義傾向是大多數(shù)人與生俱來的,也是語言研究中最不可動搖的方法。遠(yuǎn)的不說,20世紀(jì)上半葉,描寫主義(descriptivism)語言學(xué)在美國就曾風(fēng)靡一時,F(xiàn)ranz Boas(1858-1942)等一批研究者深入到美洲印第安人中,對印第安諸語言進(jìn)行了廣泛的調(diào)查,采集了大量十分珍貴的語言數(shù)據(jù)。后來,以Charles Fries(1887-1967)為代表的語言學(xué)家傳承了這種以田野調(diào)查為主要數(shù)據(jù)采集手段的方法,以經(jīng)驗主義為哲學(xué)基礎(chǔ)的語言學(xué)研究得以大行其道,成了語言學(xué)研究中的主要方法。這種以觀察數(shù)據(jù)為依據(jù)的方法主導(dǎo)著語言學(xué)研究,一直到Chomsky的普遍語法提出之后才有所收斂。在一些研究者(Fries 2010)看來,F(xiàn)ries的語言觀和語言學(xué)研究方法與當(dāng)今的語料庫語言學(xué)別無二致,Geoffrey Sampson和Diana McCarthy更是從Fries所著的The Structure of English(1952)中節(jié)選了第三章,將其作為開篇之作收錄到他們編著的Corpus Linguistics: Readings in a Widening Discipline(Sampson & McCarthy 2004)一書中。Leech(1992:105)甚至認(rèn)為,美國學(xué)界50年代的結(jié)構(gòu)主義語言學(xué)就是語料庫語言學(xué)。由于當(dāng)時這是唯一的語言學(xué)研究方法,人們自然不會采用“語料庫語言學(xué)”這個名稱。
我們認(rèn)為,以上學(xué)者的觀點(diǎn)的確可以表明,語言學(xué)研究中的經(jīng)驗主義方法由來已久,但并不能表明語料庫語言學(xué)在前計算機(jī)時代就已經(jīng)存在。語料庫語言學(xué)不同于以往的田野調(diào)查方法,兩者間至少存在以下差異:
1)前計算機(jī)時代語言學(xué)研究中的觀察數(shù)據(jù)量遠(yuǎn)遠(yuǎn)小于當(dāng)今語料庫語言學(xué)研究中的數(shù)據(jù)。在基于田野調(diào)查的實(shí)證語言學(xué)研究中,研究者受到當(dāng)時技術(shù)手段的制約,所能得到的數(shù)據(jù)量十分有限。比如,弗里斯在研究中使用的數(shù)據(jù)是約25萬詞的電話錄音?,F(xiàn)如今,數(shù)據(jù)收集變得如此方便,以至于25萬詞的數(shù)據(jù)很難被稱作為語料庫。數(shù)據(jù)量的大小是前計算機(jī)時代語言學(xué)研究和當(dāng)今語言學(xué)研究之間的重要區(qū)別。我們無意否認(rèn)弗里斯的研究價值,但數(shù)據(jù)量的大小勢必會對研究結(jié)果產(chǎn)生很大影響,憑借少量數(shù)據(jù)對語言現(xiàn)象進(jìn)行概括很可能是以偏概全甚至是徒勞的,這一點(diǎn)在后來的語料庫語言學(xué)研究中被反復(fù)證明。
或許在有些人看來,數(shù)據(jù)量的差異并無大礙,不會對研究結(jié)果有質(zhì)的影響。然而,Sinclair(1991:100)的經(jīng)典名句“若是同時觀察很多語例的話,語言看上去會迥然不同”(The language looks rather different when you look at a lot of it at once)所強(qiáng)調(diào)的正是數(shù)據(jù)量的差異,當(dāng)我們同時觀察大量語言使用實(shí)例時,所得到的結(jié)果常常與我們預(yù)期的大不相同。通過計算機(jī)軟件,語料庫中多種語言現(xiàn)象一覽無余,十分有利于研究者形成更為全面的概括,這自然有別于前計算機(jī)時代管中窺豹式的做法。很顯然,Sinclair希望說明的道理是,數(shù)據(jù)量的差異是語料庫語言學(xué)得以存在的基礎(chǔ),也是語料庫語言學(xué)得以超越其他研究的前提所在。
2)前計算機(jī)時代的數(shù)據(jù)分析方法遠(yuǎn)遠(yuǎn)落后于當(dāng)今語料庫語言學(xué)研究中的數(shù)據(jù)分析方法。在沒有計算機(jī)的年代,數(shù)據(jù)分析需要投入大量的人力,統(tǒng)計結(jié)果也常常難免出錯。計算機(jī)可以對大量數(shù)據(jù)進(jìn)行最為客觀的分析,其效率之高是前人難以想象的。無論是Cruden的《圣經(jīng)》逐詞索引,還是蔡庭干的《道德經(jīng)》逐字索引,都是花費(fèi)巨大的人力、物力方才完成的,而且人工制作索引很難保證不出差錯。為了提高數(shù)據(jù)分析的效率和準(zhǔn)確性,早期語言學(xué)家曾作過不懈的努力。早在計算機(jī)剛剛問世不久,人們就嘗試用計算機(jī)來分析語言。1963年,Lamb & Gould(1963)就出版了Concordances from Computers一書,書中系統(tǒng)介紹了他們設(shè)計的詞語索引軟件,該軟件在IBM 709/90/94計算機(jī)上運(yùn)行,可以極大地方便語言研究,并提高分析的準(zhǔn)確性。再如,據(jù)Lavid(2007:10)、Renouf(1984:23)和Renouf(2007)記載,早在上世紀(jì)80年代初期,Sinclair就組織伯明翰大學(xué)的一班人馬大張旗鼓地建設(shè)Birmingham Corpus,投入巨資購買了當(dāng)時只有極少數(shù)研究機(jī)構(gòu)才可能擁有的大型計算機(jī)(mainframe computers)(大約有公用電話亭那么大),并花費(fèi)70,000英鎊購買了當(dāng)時最先進(jìn)的掃描儀。每逢創(chuàng)建詞表這樣的大型工程,整個伯明翰大學(xué)不得不停電為其讓道。在對120萬詞的語料庫進(jìn)行檢索時,研究者甚至不得不將語料庫分成6份分別處理,最后再把結(jié)果合并起來。Sinclair是最早使用計算機(jī)分析語料庫的研究者之一,這一點(diǎn)反映了Sinclair對計算機(jī)重要性的認(rèn)識,也正是因為有了計算機(jī),Sinclair才得以建成COBUILD語料庫,開創(chuàng)了語言研究的全新視野。
筆者認(rèn)為,語料庫語言學(xué)的發(fā)展基于大量的數(shù)據(jù),而大量數(shù)據(jù)的分析又離不開計算機(jī)技術(shù),因而計算機(jī)技術(shù)對語料庫語言學(xué)發(fā)展的重要性是不言而喻的。概括地說,與語料庫語言學(xué)密切相關(guān)的計算機(jī)技術(shù)包括硬件技術(shù)和軟件技術(shù)。硬件性能的提高和軟件技術(shù)的發(fā)展,都是語料庫語言學(xué)研究進(jìn)一步深化的重要基礎(chǔ)。硬件技術(shù)為語料庫語言學(xué)的發(fā)展提供了可能,也使得我們對經(jīng)驗主義的追求在數(shù)據(jù)規(guī)模上得以超越前人,不再停留在費(fèi)時、低效的田野調(diào)查水平上,這正是語料庫語言學(xué)的區(qū)別性特征所在。而計算機(jī)軟件技術(shù),特別是以計算語言學(xué)研究為基礎(chǔ)的自然語言處理技術(shù),將為語料庫語言學(xué)的發(fā)展提供強(qiáng)大的技術(shù)支撐,可以極大地豐富語言分析的維度和層面,遠(yuǎn)遠(yuǎn)勝過肉眼觀察。未來的大數(shù)據(jù)分析技術(shù)更為語料庫語言學(xué)的發(fā)展提供了無限的遐想。
誠然,我們應(yīng)該牢記,計算機(jī)技術(shù)始終處于輔助和服務(wù)地位,語言研究才是我們真正的目的所在,在處理這一對關(guān)系時切不可本末倒置,一味地追求計算機(jī)技術(shù)而忽略對語言本體的關(guān)注。
具體地講,計算機(jī)技術(shù)在以下幾個主要方面可以為語料庫語言學(xué)提供服務(wù):
1)語料的收集和整理。當(dāng)今的計算機(jī)網(wǎng)絡(luò)技術(shù)為文本的收集提供了極大的便利,人們設(shè)計了各種網(wǎng)絡(luò)爬蟲,可以快速從網(wǎng)絡(luò)上采集到大量文本。WaC(Web as Corpus)技術(shù)的開發(fā)和應(yīng)用更使我們能夠?qū)W(wǎng)絡(luò)上采集來的文本加以定制。計算機(jī)掃描識別技術(shù)(即OCR技術(shù))使我們能夠把紙質(zhì)版的各類書籍文檔轉(zhuǎn)成電子文本。語音識別技術(shù)的應(yīng)用有利于大規(guī)??谡Z語料庫的建設(shè)。從文本的整理看,利用文本整理軟件,可以去除文本中各類噪音,從而保證文本加工的順利完成。
2)語料的加工。計算語言學(xué)研究的不斷深入使各類詞性標(biāo)注軟件(part-ofspeech tagger)、句法剖析軟件(parser)等工具成為可能,而且這些軟件的準(zhǔn)確率不斷提高,有效保證了語料庫語言學(xué)研究的效率和信度。隨著自然語言處理技術(shù)的發(fā)展,近年來人們甚至開發(fā)了語義標(biāo)注(semantic annotation)軟件、情感分析(sentiment analysis)工具等,極大地方便了語言研究。
3)語料庫的分析。語料庫分析技術(shù)不僅包括較為傳統(tǒng)的索引行分析、詞表分析和主題詞分析,同時還有近些年來開展起來的多維度分析(multidimensional analysis)、多因素分析(multifactorial analysis)、聚類分析(cluster analysis)等。這些分析方法無不依賴計算機(jī)技術(shù)。索引行分析已經(jīng)由原來的詞語檢索逐漸發(fā)展到框架(frame)檢索、構(gòu)式提?。ㄈ鏢tefan Gries的collostruction)、類聯(lián)接分析(如許家金、熊文新 2009)等,詞表分析也由單詞列表擴(kuò)展到多詞列表,主題詞分析已經(jīng)擴(kuò)展到主題詞串分析和詞性碼串分析,多維度分析和多因素分析則是依賴對文本的深度加工、標(biāo)注和復(fù)雜的統(tǒng)計技術(shù),甚至融入了文本分類和機(jī)器學(xué)習(xí)技術(shù),這些都離不開計算機(jī)技術(shù)。近幾年來,人們還將多維度方法用于網(wǎng)絡(luò)文本的分析中,對計算機(jī)技術(shù)的需求越來越大。自動語義分析、情感分析更是在計算語言學(xué)最新研究成果的基礎(chǔ)上發(fā)展起來的。
計算機(jī)技術(shù)在語料庫語言學(xué)發(fā)展過程中起到了至關(guān)重要的作用。
首先,計算機(jī)技術(shù)催生了語料庫語言學(xué),使得語料庫語言學(xué)得以從無到有。我們之所以認(rèn)為前計算機(jī)時代的語言研究并非語料庫語言學(xué),是因為當(dāng)時的田野調(diào)查數(shù)據(jù)不僅規(guī)模較小、取樣不夠科學(xué),數(shù)據(jù)處理方法也相對原始。Sinclair等研究者借助計算機(jī)技術(shù),創(chuàng)造了語料庫語言學(xué)學(xué)科。在Sinclair(1991:1)看來,語料庫語言學(xué)是一種嶄新的語言觀,這種語言觀與(計算機(jī))技術(shù)緊密相關(guān)(a new view of language and the technology associated with it)。計算機(jī)技術(shù)的介入,使我們可以同時觀察到大量的語言事實(shí),發(fā)現(xiàn)僅憑直覺無法預(yù)期的語言使用規(guī)律。因此,筆者認(rèn)為,經(jīng)驗主義哲學(xué)是語料庫語言學(xué)產(chǎn)生的哲學(xué)基礎(chǔ),而計算機(jī)技術(shù)則是語料庫語言學(xué)產(chǎn)生的技術(shù)基礎(chǔ),兩者缺一不可。語料庫語言學(xué)是經(jīng)驗主義語言觀與計算機(jī)技術(shù)結(jié)合的產(chǎn)物。沒有計算機(jī)技術(shù),語料庫語言學(xué)就失去了可操作性。
計算機(jī)技術(shù)還是語料庫語言學(xué)發(fā)展的推動力量。80年代之后,隨著大規(guī)模集成電路這一硬件技術(shù)的突破,大型計算機(jī)很快被個人計算機(jī)取代,計算機(jī)迅速得到了普及,而且運(yùn)算能力大大提高。到了90年代,計算機(jī)技術(shù)在語料采集、語料加工和語料分析中得到普遍應(yīng)用,使語料庫語言學(xué)學(xué)科得以快速前行。由此可見,計算機(jī)技術(shù)不僅促成了語料庫語言學(xué)的產(chǎn)生,還極大地推動了語料庫語言學(xué)的加速發(fā)展。縱觀語料庫語言學(xué)發(fā)展的簡短歷史不難發(fā)現(xiàn),在計算機(jī)技術(shù)特別是自然語言處理技術(shù)得到快速發(fā)展后,語料庫語言學(xué)得到了幾乎同步的發(fā)展。筆者在Google Ngram Viewer中分別輸入personal computers, corpus linguistics和world wide web,所得到的結(jié)果如圖1所示:
從圖1中可以直觀地看到,個人計算機(jī)在70年代前后問世。語料庫語言學(xué)幾乎同時問世,并在短時間內(nèi)得到了突飛猛進(jìn)的發(fā)展。到了90年代,互聯(lián)網(wǎng)開始逐漸進(jìn)入大眾生活,大量語言資源實(shí)現(xiàn)了網(wǎng)絡(luò)化,更有力地推動了語料庫語言學(xué)的發(fā)展。語料庫語言學(xué)高度依賴計算機(jī)技術(shù),而互聯(lián)網(wǎng)的普及更使語料庫語言學(xué)進(jìn)入大數(shù)據(jù)時代,孕育著一系列新的變化。我們可以毫不夸張地說,計算機(jī)技術(shù)是語料庫語言學(xué)得以產(chǎn)生的前提,也是語料庫語言學(xué)得以發(fā)展的推動力。沒有計算機(jī)技術(shù),就沒有語料庫語言學(xué)。
圖1. 語料庫語言學(xué)與計算機(jī)技術(shù)的同步變化
在語料庫建設(shè)與加工和語言學(xué)分析方面,所能涉及的最重要的計算機(jī)技術(shù)莫過于文本的標(biāo)注。本人有幸參與了由文秋芳教授主持的“中國大學(xué)生英語口筆語語料庫”(SWECCL)的建設(shè)。該項目于2002年開始,在語料庫建設(shè)過程中我們曾得到桂詩春教授、何安平教授和英國伯明翰大學(xué)Susan Hunston教授的指導(dǎo),并有機(jī)會向衛(wèi)乃興教授、李文中教授和濮建忠教授求教。
SWECCL包括口語和筆語兩部分。在SWECCL建設(shè)初期,文秋芳教授領(lǐng)著我們進(jìn)入了一間倉庫,里面存放著成千上萬盒錄音磁帶,記錄著歷年全國英語專業(yè)考試的學(xué)生口語錄音,我們的任務(wù)是要從這些磁帶中抽樣,并將抽樣后得到的樣本逐一轉(zhuǎn)寫成文本,配以電子化語音文件,建成語料庫。我們采用分層抽樣和系統(tǒng)抽樣相結(jié)合的方法,得到了幾千盒磁帶。在大規(guī)模轉(zhuǎn)寫開始之前,我們先組織幾位同學(xué)對幾十盒磁帶進(jìn)行了試轉(zhuǎn)寫,以發(fā)現(xiàn)轉(zhuǎn)寫過程中可能出現(xiàn)的問題。之后,我們邀請以上幾位教授就轉(zhuǎn)寫方案和標(biāo)注方案進(jìn)行了研討。幾位教授都有豐富的語料庫建設(shè)經(jīng)驗,研討過程中給出了十分有益的建議,使我們少走了很多彎路。其中,給我留下最深印象的是標(biāo)注問題。根據(jù)我們原先的計劃,準(zhǔn)備先組織人力對所有的錄音磁帶進(jìn)行轉(zhuǎn)寫和校對,然后對得到的所有文本進(jìn)行細(xì)致的錯誤標(biāo)注(error-tagging)。我們甚至設(shè)計了一套完整的標(biāo)注方案和錯誤分類體系,開發(fā)了計算機(jī)程序以方便標(biāo)注(也就是在這一過程中我開始學(xué)習(xí)計算機(jī)編程)。然而,在研討會上,桂詩春教授結(jié)合自己創(chuàng)建“中國學(xué)生英語語料庫”(CLEC)的經(jīng)驗,指出錯誤標(biāo)注不僅是一個耗時費(fèi)力的過程,而且不同的標(biāo)注者對錯誤的認(rèn)定很難取得一致。Hunston教授更是不贊成錯誤標(biāo)注,認(rèn)為我們應(yīng)該保持文本的原樣,其他幾位教授也提出了相同或相似的觀點(diǎn)。現(xiàn)在回顧起來看,幸虧當(dāng)時我們征求了幾位專家的意見,否則我們會陷入錯誤標(biāo)注的泥潭之中。我現(xiàn)在的觀點(diǎn)是,對于口語語料庫建設(shè)而言,語料庫建設(shè)者的任務(wù)是將口語轉(zhuǎn)寫成文本,同時需要把文本與語音文件對齊,以方便使用者檢索。至于標(biāo)注問題,特別是錯誤標(biāo)注問題,應(yīng)該留給研究者自己去完成。畢竟,由于研究目的不同,不同研究者對錯誤的認(rèn)識和分類也會大相徑庭,語料庫建設(shè)者不可能設(shè)計出一個可以滿足不同研究目的的標(biāo)注方案??傊瑢ξ谋镜臉?biāo)注要十分慎重,還需要充分考慮研究的目的。
盡管我們當(dāng)時并沒有進(jìn)行大規(guī)模的人工標(biāo)注,但就在對幾十盒磁帶的試標(biāo)注過程中,我們學(xué)會了標(biāo)注的基本方法。在后來的研究中,我常常需要對文本中的某些語言特征進(jìn)行標(biāo)注,雖然此類工作十分辛苦,但每當(dāng)完成一定量的標(biāo)注任務(wù),總會有一種說不出的滿足感?;趯?biāo)注過程的深刻理解,我在后來的研究中設(shè)計了兩款標(biāo)注工具。其中一款叫Text Annotation Tool(TAT),可以由研究者自行設(shè)計簡單的標(biāo)注方案或復(fù)雜的層級標(biāo)注方案,極大地方便了標(biāo)注過程。我一直認(rèn)為,研究人員最了解自己的需求,設(shè)計的工具在適用性方面遠(yuǎn)遠(yuǎn)勝過由計算機(jī)專業(yè)人員設(shè)計的工具。
本人設(shè)計的另外一款標(biāo)注工具叫KWIC-based Annotation Tool(KAT),即基于索引行的標(biāo)注工具。研究者先對文本進(jìn)行檢索,找出自己感興趣的詞語或結(jié)構(gòu),然后加載自行設(shè)計的標(biāo)注體系,直接在索引行中對節(jié)點(diǎn)詞進(jìn)行標(biāo)注,這對語言研究者十分有用。比如,認(rèn)知語言學(xué)認(rèn)為,一詞多義是詞語的常態(tài)。在漢語中,介詞“中”除了常見的空間域語義外,還具有豐富的隱喻意義,如“在語言學(xué)中”、“在孤獨(dú)中”、“在他們中”,其中的“中”分別表示“領(lǐng)域”、“心理狀態(tài)”、“范圍”等語義域。我們可以根據(jù)這些語義域,設(shè)計一個標(biāo)注體系,然后在語料庫中檢索“在……中”,并按照不同語義場對這一構(gòu)式進(jìn)行統(tǒng)計和分析(見下圖)。
圖2.KWIC-based Annotation Tool
不僅如此,該軟件還可以根據(jù)檢索詞語的語境相似性,對所有的索引行進(jìn)行自動識別和標(biāo)注,以方便語言研究。
基于自身的經(jīng)驗,筆者認(rèn)為,在語料庫技術(shù)的開發(fā)過程中,應(yīng)該廣泛征求研究者的需求,決不可閉門造車。
大規(guī)模英語語料庫建設(shè)早在上世紀(jì)60年代就開始了,發(fā)展到今天,不僅規(guī)模上大大領(lǐng)先其他語種,而且其加工深度也為其他語言所不及,在語料庫建設(shè)理念上也具有引領(lǐng)作用,相關(guān)技術(shù)的開發(fā)很快擴(kuò)展到其他語言。從語料庫的規(guī)??矗W(wǎng)絡(luò)技術(shù)的利用使得數(shù)億詞級的語料庫接連問世。此前幾十年里,伯明翰大學(xué)與柯林斯出版公司合作建成的“英語文庫”一直是無可爭議的最大的英語語料庫,但現(xiàn)在比“英語文庫”更大的語料庫并不少見,如Mark Davis主持建成的當(dāng)代美國英語語料庫(COCA)等一系列語料庫都具有相當(dāng)?shù)囊?guī)模。網(wǎng)絡(luò)語料庫(Web as Corpus)技術(shù)的開發(fā)更使語料庫的規(guī)模以幾何倍數(shù)增長。WaCKy和SpiderLing等工具的推出和WaC研討會的召開很快普及了這種技術(shù)?;诖?,Sketch Engine研究團(tuán)隊開發(fā)了十幾個語種的大型語料庫,并進(jìn)行了加工和標(biāo)注,發(fā)布到SketchEngine平臺上,供教師、學(xué)生、研究者、翻譯人員等使用。他們把這些語料庫稱為xxTenTen Corpora,其中的xx代表語言(如frTenTen Corpus是法語語料庫,zhTenTen Corpus是漢語語料庫),而TenTen指語料庫規(guī)模達(dá)到1010詞級?;谝陨犀F(xiàn)狀,我們認(rèn)為,語料庫語言學(xué)已步入大數(shù)據(jù)時代,正孕育著一系列變化。
至此,語料庫的規(guī)模已經(jīng)不再是重點(diǎn),更不是難點(diǎn)。有了大型語料庫,接下來的問題當(dāng)然就是語料庫的加工和分析。
盡管Sinclair的干凈文本原則被許多學(xué)者所推崇,但由于從生語料庫中所能獲取到的有價值信息十分有限,語料庫的自動標(biāo)注成為學(xué)界關(guān)注的重要問題,各國自然語言處理研究工作者嘗試各種方法,努力提高詞性標(biāo)注的準(zhǔn)確率,并在此基礎(chǔ)上開發(fā)句法剖析系統(tǒng)、語義標(biāo)注系統(tǒng)等,為語言教學(xué)、語言學(xué)研究甚至智能生活提供多種服務(wù)。然而,自從自然語言處理領(lǐng)域的主流方法由基于規(guī)則的方法過渡到基于統(tǒng)計的方法之后,標(biāo)注的準(zhǔn)確率雖然有了明顯提高,但似乎已經(jīng)達(dá)到了瓶頸階段,很難取得更大的突破。由于詞性標(biāo)注是大規(guī)模語料庫自動分析的重要基礎(chǔ),也是句法剖析和語義標(biāo)注的前提,同時還與短語提取有著不可分割的關(guān)系,預(yù)計對不同語言進(jìn)行詞性標(biāo)注這一項基礎(chǔ)研究將成為計算機(jī)技術(shù)輔助語料庫建設(shè)和語言研究中的一項重點(diǎn)工作,其目的自然是不斷地提高標(biāo)注的準(zhǔn)確率。筆者一直認(rèn)為,將基于規(guī)則的方法和基于統(tǒng)計的方法相結(jié)合,可以有效提高標(biāo)注的準(zhǔn)確率。同時,筆者十分認(rèn)同李文中(2012)對標(biāo)注的看法,對語料庫僅進(jìn)行有限標(biāo)注,特別是要慎用漢語句法剖析等尚不十分成熟的技術(shù)。
雙語語料庫建設(shè)除了單語語料庫建設(shè)中涉及的問題之外,還面臨對齊(alignment)問題。雖然一些自動對齊工具已經(jīng)取得了不錯的效果,但對自動對齊結(jié)果的校對仍需投入大量人力。如何改進(jìn)WaC技術(shù),從互聯(lián)網(wǎng)上自動獲取雙語文本,也將是雙語語料庫建設(shè)中的重點(diǎn)問題之一,計算機(jī)技術(shù)在其中責(zé)無旁貸。
在對大型語料庫進(jìn)行語言學(xué)分析方面,計算機(jī)技術(shù)的有效應(yīng)用將面臨重大難題。在筆者看來,如今的語料庫雖然規(guī)模龐大,但大數(shù)據(jù)的基本特性之一——多樣性,也在語料庫中暴露無遺,這給語言學(xué)分析帶來了極大的困難。如何按照語種、來源、語體等屬性對龐雜的網(wǎng)絡(luò)文本進(jìn)行自動分類將是一大挑戰(zhàn)。這一問題的解決需要自然語言處理領(lǐng)域的專家和語言學(xué)家的共同努力。除此之外,數(shù)據(jù)量大了,結(jié)果自然也就更復(fù)雜了。如何以概括形式將文本的各種特征科學(xué)地呈現(xiàn)出來,也將是我們面臨的重大難題。或許,可視化技術(shù)在其中會起到重要作用。
作為一名語言研究者,筆者關(guān)注的自然還是如何對大型語料庫進(jìn)行有效的語言學(xué)分析。比如,Patrick Hanks對大型語料庫進(jìn)行分析,從中歸納和提取了英語動詞的主要型式,比如將Birmingham beat Coventry City.一句中動詞beat的用法進(jìn)行概括,抽象出諸如[[Human1 | Human Group1 = Competitor (Winner)]] beat [[Human2| Human Group2 = Competitor (Loser)]]這樣的型式(Hanks 2013:38)。如果這項工作中能夠結(jié)合機(jī)器學(xué)習(xí)技術(shù),可能會大大提高工作效率,也十分有利于語言研究的深入和辭書的編纂。
筆者對短語學(xué)理論深信不疑,但如何界定短語的邊界,如何自動識別短語,如何對短語及其臨近的各類詞語進(jìn)行范疇化(抽取各種類聯(lián)接),以使得語料庫語言學(xué)的研究結(jié)果超越詞語層面而具有一定的范疇意義,這是筆者十分希望計算機(jī)技術(shù)能夠解決的問題。很顯然,這在更大程度上是一個語言學(xué)問題。只有語言學(xué)領(lǐng)域有了確定的標(biāo)準(zhǔn)和可操作的方案,計算機(jī)技術(shù)才能有所作為。
在筆者看來,計算機(jī)技術(shù)十分重要,任何語料庫語言學(xué)研究者都需要對計算機(jī)技術(shù)有一些基本了解。當(dāng)然,這并不是說計算機(jī)技術(shù)對于語料庫研究者來說是最重要的。恰恰相反,語料庫研究者首先是語言學(xué)研究者,需要對語言問題具有高度的敏感性,否則就成了文本工匠。在處理文本時,我們注重的是文本的物理屬性,而在分析文本時,我們關(guān)注的則是文本的意義和文本中的語言學(xué)現(xiàn)象。同時精通語言學(xué)和計算機(jī)技術(shù)是不太現(xiàn)實(shí)的,可能也是沒有必要的。筆者反對工具至上,提倡語言學(xué)至上。
該項目優(yōu)化的是主要部件的尺寸參數(shù),所以優(yōu)化的主要部件參數(shù)有主懸梁lad、主橫梁ldh及主橫梁上HI的長度dhi、主連桿lij、機(jī)械手末端執(zhí)行器的長度lag1作為設(shè)計變量。
然而,建設(shè)一支語料庫語言學(xué)團(tuán)隊則有所不同。筆者一直主張團(tuán)隊成員之間應(yīng)該具有一定的共同性和互補(bǔ)性。共同性使得成員之間便于交流,但共同性太大了,就成了雷同。同樣,互補(bǔ)性要求各成員各有所長,這樣才會更容易產(chǎn)生新的思想。在語料庫語言學(xué)團(tuán)隊中,人人都應(yīng)該對計算機(jī)技術(shù)有所了解,但其中一部分人應(yīng)該更加精通操作甚至能夠編寫計算機(jī)程序,團(tuán)隊中同時也應(yīng)該有一些人更熟知語言理論、善于思辨,這樣的合作才會更有意義。
大數(shù)據(jù)時代的語料庫分析方法可能會發(fā)生一些重要變化,我這里著重說三點(diǎn)。
首先,語料庫的存儲方式和檢索方式會不同從前,這一點(diǎn)已經(jīng)有所顯現(xiàn)。此前,語料庫是以光盤版或單機(jī)版形式存儲的,可以拷貝,一般通過單機(jī)版軟件工具檢索。這樣做的好處是我們可以對語料庫進(jìn)行多種個性化的、開放式的操作,但只適用于小型語料庫。然而,語料庫規(guī)模的擴(kuò)大不僅占用大量的計算機(jī)磁盤空間,單機(jī)版軟件時常還會無法加載大型語料庫,甚至?xí)霈F(xiàn)系統(tǒng)崩潰的情況。在大數(shù)據(jù)時代,語料庫將存儲于云端,只要有網(wǎng)絡(luò),語料庫就無處不在,因此我們不再需要拷貝語料庫,也不再需要單機(jī)版的軟件。當(dāng)然,如何對云端語料庫進(jìn)行個性化的再加工和檢索將成為一個新的問題。
大數(shù)據(jù)時代的語料庫分析方法也必將發(fā)生變化。比如,隨著語料庫規(guī)模的擴(kuò)大,檢索到的索引行可能會成千上萬,仍靠人工解讀很難完成,而對索引行進(jìn)行抽樣勢必造成數(shù)據(jù)浪費(fèi)和遺漏。在這種情形之下,我們或許可以對索引行進(jìn)行自動聚類,并將分析結(jié)果以直觀的圖形方式呈現(xiàn)出來,點(diǎn)擊圖形中的特定區(qū)域,可以激活或調(diào)取相關(guān)聯(lián)的文本或語境。近年興起的數(shù)據(jù)科學(xué)(Data Science)將在大型語料庫分析中起到至關(guān)重要的作用。
大數(shù)據(jù)分析善于發(fā)現(xiàn)相關(guān)關(guān)系(correlation),但并不揭示因果關(guān)系(causality)。比如,我們可能會發(fā)現(xiàn)某種語言特征與另外一些語言特征具有共現(xiàn)(co-occur)關(guān)系,還會發(fā)現(xiàn)某些語言特征與另外一些語言特征之間則存在共變(co-vary)關(guān)系。大數(shù)據(jù)分析并不能告訴我們?yōu)楹螘羞@些共現(xiàn)關(guān)系和共變關(guān)系。就如同Rayson, Leech & Hodges(1997)發(fā)現(xiàn)男性話語中更多使用定冠詞the一樣,至于男性為什么比女性更多使用定冠詞,這一點(diǎn)不太容易解釋。在大數(shù)據(jù)時代,數(shù)據(jù)的解讀具有很大的挑戰(zhàn)性。
Fries, P. 2010. Charles C. Fries, linguistics and corpus linguistics [J]. ICAME Journal 34: 89-119.
Hanks, P. 2013. Lexical Analysis: Norms and Exploitations [M]. Cambridge, MA.: The MIT Press.
Lamb, S. & L. Gould. 1963. Concordances from Computers [M]. Berkeley, CA.:Mechanolinguistics Project, University of California.
Lavid, J. 2007. To the memory of John Sinclair, Professor of Modern English Language [J].Estudios Ingleses de la Universidad Complutense 15: 9-12.
Leech, G. 1992. Corpora and theories of linguistic performance [A]. In Jan Svartvik, (ed.)Directions in Corpus Linguistics. [C]. Berlin: Mouton de Gruyter. 105-122.
Rayson, P., G. Leech & M. Hodges. 1997. Social differentiation in the use of English vocabulary:some analyses of the conversational component of the British National Corpus [J].International Journal of Corpus Linguistics 2(1): 133-152.
Renouf, A. 1984. A new specialized corpus: EFL materials [J]. ICAME News 8: 22-23.
Renouf, A. 2007. Corpus development 25 years on: From super-corpus to cyber-corpus [A]. In R.Facchinetti. (ed.). Corpus Linguistics 25 Years On [C]. Amsterdam: Rodopi. 27-49.
Sampson, G. & D. McCarthy. 2004. Corpus Linguistics: Readings in a Widening Discipline [C].London: Continuum.
Sinclair, J. 1991. Corpus, Concordance, Collocation [M]. Oxford: OUP.
蔡廷干,2014,《老解老》摘登 [J],《語料庫語言學(xué)》(2):81-90
李文中,2012,語料庫標(biāo)記與標(biāo)注:以中國英語語料庫為例,《外語教學(xué)與研究》(3):336-345。
許家金、熊文新,2009,基于學(xué)習(xí)者英語語料的類聯(lián)接研究:概念、方法及例析[J],《外語電化教學(xué)》(3):18-23。
通訊地址:100089 北京市北京外國語大學(xué)中國外語教育研究中心