解放軍外國語學(xué)院 邢富坤
邢富坤談?wù)Z料庫語言學(xué)與計(jì)算機(jī)技術(shù)
解放軍外國語學(xué)院 邢富坤
計(jì)算機(jī)技術(shù)可以分為3個(gè)層面來看待,分別是(1)工具;(2)方法;(3)思想。不同層面的計(jì)算機(jī)技術(shù)都與語料庫語言學(xué)研究有聯(lián)系。
1)工具層面。計(jì)算機(jī)是用于表示、存儲和處理數(shù)據(jù)的工具。語料庫語言學(xué)研究的基本素材是機(jī)器可讀的語言數(shù)據(jù),因此在工具層面,語料庫語言學(xué)必然與計(jì)算機(jī)技術(shù)之間有著密切聯(lián)系。首先是數(shù)據(jù)編碼技術(shù)。語料庫語言學(xué)的研究對象是語言文字,利用計(jì)算機(jī)對語言文字進(jìn)行研究,首先要使語言文字在計(jì)算機(jī)內(nèi)部能夠得到統(tǒng)一表示,理想目標(biāo)是人類使用的每一個(gè)語言符號在計(jì)算機(jī)內(nèi)部都有一個(gè)唯一的編碼與之對應(yīng),并且該編碼在不同國家、不同語言、不同操作系統(tǒng)以至不同計(jì)算機(jī)之間都具有一致性,使得同一編碼能夠被不同計(jì)算機(jī)解釋為同一語言符號。其次是存儲技術(shù)。存儲技術(shù)的發(fā)展表現(xiàn)為存儲能力不斷提升,存儲成本不斷降低,這為語料庫的建設(shè)與管理提供了重要支持,尤其是大容量的存儲設(shè)備,甚至是分布式存儲技術(shù)的出現(xiàn),為構(gòu)建和應(yīng)用超大規(guī)模語料庫提供了基本前提。第三是數(shù)據(jù)檢索技術(shù)。數(shù)據(jù)檢索技術(shù)提供了發(fā)現(xiàn)與挖掘語言內(nèi)在特征與模式的技術(shù)條件,研究者可以根據(jù)研究需求設(shè)定檢索條件,利用計(jì)算機(jī)檢索并統(tǒng)計(jì)真實(shí)語言中的語言實(shí)例,從而針對實(shí)例開展語言研究工作。第四是數(shù)據(jù)呈現(xiàn)技術(shù)。該技術(shù)是將語料庫的數(shù)據(jù)分析結(jié)果以恰當(dāng)?shù)姆绞絺鬟f給研究者,使得研究者能夠透過數(shù)據(jù)更全面地觀察和分析語言特征與模式。語言數(shù)據(jù)呈現(xiàn)技術(shù)既包括以數(shù)據(jù)形式呈現(xiàn)語料基本特征,如型符數(shù)、類符數(shù)等,以索引行的形式呈現(xiàn)檢索結(jié)果,也包括利用數(shù)據(jù)可視化技術(shù),例如詞云、詞網(wǎng)、頻譜圖等形式對語言現(xiàn)象的分布以及詞語等語言單元之間的關(guān)系等予以呈現(xiàn)。
2)方法層面。在方法層面,與語料庫語言學(xué)研究相關(guān)的計(jì)算機(jī)技術(shù)主要表現(xiàn)為文本表征、序列標(biāo)注、分類聚類等技術(shù)。文本表征有多種方法,主要包括字符串表征、詞袋表征、詞向量表征、語境向量表征等類型,其中字符串表征最為簡單,表示能力也最弱,語境向量表征則較為復(fù)雜,表示能力也更強(qiáng)。文本表征方法的主要目的是服務(wù)語言計(jì)算,但也能夠?yàn)檎Z料庫研究提供多種觀察語言的視角,輔助研究者更好地歸納總結(jié)語言的規(guī)律特征。序列標(biāo)注技術(shù)是為語言符號序列標(biāo)注屬性信息的技術(shù),詞性標(biāo)注是典型的序列標(biāo)注,此外還包括命名實(shí)體標(biāo)注、基本短語標(biāo)注、句法結(jié)構(gòu)標(biāo)注、語義角色標(biāo)注等,甚至中文分詞目前采用的主流方法也是基于序列標(biāo)注方法。序列標(biāo)注能夠?yàn)槲谋驹黾宇~外信息,這些信息并沒有顯性地表現(xiàn)在語言符號層面,借助序列標(biāo)注將隱含的信息給予顯性表達(dá),能夠更好地支持語言的研究工作。目前序列標(biāo)注主要借鑒了機(jī)器學(xué)習(xí)的思想與方法,基于大規(guī)模的文本數(shù)據(jù)學(xué)習(xí)標(biāo)注模型,實(shí)現(xiàn)較高準(zhǔn)確率的標(biāo)注效果。分類聚類技術(shù)以文本表征技術(shù)為基礎(chǔ),利用分類聚類方法實(shí)現(xiàn)對文本的分類或聚類,將特征相似的文本歸并在一起,特征差異較大的文本分屬不同的類別。分類聚類技術(shù)能夠幫助研究者從語言特征的整體以及關(guān)聯(lián)關(guān)系的視角觀察語言,在不同類別下考察語言特征。
3)思想層面。形式化思想是計(jì)算機(jī)技術(shù)的核心思想。形式化思想要求以有限符號和確定步驟的形式將研究對象與過程給予表示,在給定輸入的前提下,計(jì)算機(jī)能夠經(jīng)過確定的有限步驟處理,給出輸出結(jié)果。形式化思想與語料庫研究聯(lián)系緊密,一方面是因?yàn)檎Z料庫研究的工具是計(jì)算機(jī),計(jì)算機(jī)處理問題時(shí)必然要求研究問題與處理過程能夠形式化;另一方面是因?yàn)樾问交乃枷雽τ诔浞掷糜?jì)算方法,定量研究語言現(xiàn)象具有基礎(chǔ)性作用。實(shí)際上,語料庫本身就是形式化思想的一種體現(xiàn),是利用了人類實(shí)際語言中具有代表性的一小部分樣本代表了不可能完全獲取到的人類語言的全部,這種以有限樣本代替無限總體的抽樣思想使得本來漫無邊際的人類語言可以使用定量方法開展研究。在此基礎(chǔ)上,當(dāng)語料庫達(dá)到一定規(guī)模后,某些層面的語言現(xiàn)象就會呈現(xiàn)出統(tǒng)計(jì)規(guī)律性,可以利用統(tǒng)計(jì)方法對語言現(xiàn)象進(jìn)行深度挖掘,這是更具體的形式化思想。例如,當(dāng)語料庫達(dá)到一定規(guī)模后,詞語的使用規(guī)律就會呈現(xiàn)出統(tǒng)計(jì)性特征,利用統(tǒng)計(jì)方法可以將一些特有的搭配和使用模式抽取出來,基于這些數(shù)據(jù)可以更加深入地研究語言的特征規(guī)律。當(dāng)然在語料庫基礎(chǔ)上提出的N元統(tǒng)計(jì)語言模型、基于互信息的搭配獲取方法、基于向量空間的語義計(jì)算方法等具體語言表示與計(jì)算方法,是形式化思想在語言研究與處理中更為具體的體現(xiàn)。
語料庫語言學(xué)與計(jì)算機(jī)技術(shù)之間的關(guān)系表現(xiàn)在3個(gè)方面:
1)語料庫語言學(xué)為計(jì)算機(jī)技術(shù)提供了應(yīng)用場景,計(jì)算機(jī)技術(shù)是語料庫語言學(xué)研究的基本工具。技術(shù)要為應(yīng)用服務(wù),根據(jù)不同的應(yīng)用需求和特點(diǎn),會產(chǎn)生與發(fā)展相應(yīng)的計(jì)算機(jī)技術(shù)。例如針對生物醫(yī)學(xué)的需求,會研制開發(fā)出存儲、表示和挖掘生物基因模式的計(jì)算機(jī)技術(shù);針對金融服務(wù)的需求,會研制開發(fā)出預(yù)測證券市場波動變化的計(jì)算機(jī)技術(shù)。語料庫語言學(xué)研究為計(jì)算機(jī)技術(shù)提供了一個(gè)新的應(yīng)用場景,針對語言學(xué)研究的需求,研制開發(fā)針對語言分析的計(jì)算機(jī)技術(shù)。語料庫語言學(xué)研究的需求具體表現(xiàn)在大規(guī)模語料庫的構(gòu)建與管理、多樣化語言特征的檢索與統(tǒng)計(jì)、語言模式的識別與發(fā)現(xiàn)、語言特征的演化與比較、語言意義的形式化表示與計(jì)算等方面。這些特定需求依靠已有的通用計(jì)算機(jī)技術(shù)難以滿足,必須針對語言特點(diǎn),在語言學(xué)研究基礎(chǔ)之上,開展相應(yīng)計(jì)算機(jī)技術(shù)的研制與開發(fā)。
2)計(jì)算機(jī)技術(shù)為語料庫語言學(xué)研究提供了新的動力。語言學(xué)研究需要?jiǎng)恿?,傳統(tǒng)動力來源于人的需求,人對語言理解與使用的需求推動著語言學(xué)研究的發(fā)展。隨著計(jì)算機(jī)的出現(xiàn)與普及,人類更多地依靠計(jì)算機(jī)處理語言,并利用自然語言與計(jì)算機(jī)進(jìn)行交互。由于計(jì)算機(jī)的機(jī)械特質(zhì),其與人在語言學(xué)習(xí)與語言能力方面有著本質(zhì)差別,因此計(jì)算機(jī)對語言研究提出了新的需求,主要表現(xiàn)在:計(jì)算機(jī)不僅需要簡單且概括的語言規(guī)律和語法規(guī)則,同時(shí)需要更小顆粒度的語言知識與特征;計(jì)算機(jī)不僅需要典型的個(gè)案式語言分析,更需要在真實(shí)語言中具有廣泛覆蓋度的語言知識;計(jì)算機(jī)需要將只可“意會”的語言意義轉(zhuǎn)變?yōu)榭伞把詡鳌钡木哂行问交卣鞯囊饬x形式等。以上需求對語料庫研究提出了新的要求,需要在語言自身規(guī)律特點(diǎn)、語言形式與意義等方面開展深入的工作。
3)計(jì)算機(jī)技術(shù)為語料庫語言學(xué)研究提供了新的檢驗(yàn)評價(jià)途徑。科學(xué)研究需要檢驗(yàn)評價(jià),在檢驗(yàn)評價(jià)的基礎(chǔ)上才能查找不足,不斷前進(jìn)。語言學(xué)研究同樣需要檢驗(yàn)評價(jià),以往對語言學(xué)研究成果的檢驗(yàn)評價(jià)大多依靠專家評判或是小規(guī)模的驗(yàn)證測試,可重復(fù)性與可比較性都難以得到保證。計(jì)算機(jī)技術(shù)以應(yīng)用為目標(biāo),構(gòu)建系統(tǒng)規(guī)范的評價(jià)體系,實(shí)現(xiàn)對研究結(jié)果的客觀檢驗(yàn),從而不斷改善和提高研究水平。例如,語音識別、信息檢索、機(jī)器翻譯等領(lǐng)域都擁有自己的評價(jià)體系,在統(tǒng)一評價(jià)機(jī)制下,這些領(lǐng)域都得到了快速發(fā)展(Palmer & Strassel 2007)。語料庫語言學(xué)研究以真實(shí)語言為研究對象,研究結(jié)果需要接受真實(shí)語言的檢驗(yàn)。計(jì)算機(jī)技術(shù)提供了一種新的檢驗(yàn)途徑,可以將語言研究成果應(yīng)用到特定計(jì)算機(jī)技術(shù)之中,如語音識別、信息檢索、機(jī)器翻譯、文本分類等技術(shù)中,通過檢驗(yàn)計(jì)算機(jī)技術(shù)的性能指標(biāo),達(dá)到對語言研究成果進(jìn)行評價(jià)的目的。以文本分類為例,選擇并確定文本分類的特征是語言學(xué)研究者需要回答的問題,一般計(jì)算機(jī)研究者會直接以字或詞為特征單位進(jìn)行文本分類,但字或詞是否是最好的特征單元,是否還有一種能夠更好地代表文本特征的語言單位,這些需要語言研究者進(jìn)行研究。研究結(jié)果的有效性可以通過文本分類性能進(jìn)行評價(jià)。以計(jì)算機(jī)技術(shù)應(yīng)用為評價(jià)途徑,能夠更客觀地評價(jià)語言研究成果,增強(qiáng)語言研究與語言應(yīng)用之間的相互支撐。
計(jì)算機(jī)技術(shù)對語料庫發(fā)展的重要影響主要體現(xiàn)在關(guān)鍵技術(shù)對于語料庫建設(shè)與使用上的影響,概括為以下幾項(xiàng):
1)編碼技術(shù)的影響。編碼技術(shù)是將人類使用的符號轉(zhuǎn)化為計(jì)算機(jī)內(nèi)部的編碼,從而使得計(jì)算機(jī)能夠?qū)φZ言符號進(jìn)行存儲與計(jì)算。編碼技術(shù)的發(fā)展受制于計(jì)算機(jī)自身的編碼表示能力。最初計(jì)算機(jī)的編碼能力只有8位,也就是只能編制出256個(gè)不同的代碼,這大大限制了計(jì)算機(jī)對語言符號的處理。隨著計(jì)算機(jī)處理能力的提升,編碼能力也不斷提升,目前的主流計(jì)算機(jī)都具有32位編碼能力,不少計(jì)算機(jī)已經(jīng)可以有64位編碼能力,編碼能力的提升為計(jì)算機(jī)表示人類語言符號提供了基礎(chǔ)保證。此外,編碼還受到不同組織機(jī)構(gòu)之間編碼不統(tǒng)一的影響。隨著統(tǒng)一碼(Unicode)編碼體系在國際上的普遍應(yīng)用,編碼也趨于一致,這就使得在不同平臺、不同語言環(huán)境下可以一致性地存儲與處理不同語言符號,為多語言語料庫的建設(shè)與應(yīng)用提供了重要保障。
2)索引技術(shù)(indexing)的影響。索引技術(shù)的發(fā)展對大規(guī)模語料庫的高效檢索與使用具有重要影響。索引的基本結(jié)構(gòu)是詞項(xiàng)與詞項(xiàng)所在的位置。根據(jù)研究需求不同,可以將詞項(xiàng)定義為字、詞、短語等語言單位,也可以是作者、語體、年代等關(guān)于文本自身的信息。索引技術(shù)需要解決的問題是索引構(gòu)建、索引更新、多層級索引、索引壓縮等技術(shù)。高效率的索引具有占用空間小、索引結(jié)構(gòu)優(yōu)、更新速度快等特點(diǎn),是語料庫應(yīng)用的基礎(chǔ)條件。
3)互聯(lián)網(wǎng)技術(shù)的影響。互聯(lián)網(wǎng)使得語料庫構(gòu)建有了源頭活水,電子文本難以獲得不再成為構(gòu)建語料庫的瓶頸。由于互聯(lián)網(wǎng)已成為人類信息交流的重要媒介,不僅傳統(tǒng)媒介,如圖書、報(bào)紙、期刊等媒體都將各自的信息內(nèi)容通過互聯(lián)網(wǎng)傳播,同時(shí)還出現(xiàn)了一批網(wǎng)絡(luò)特有媒體,例如論壇、郵件、博客、微博等,這些媒體每天都由普通民眾生成和傳遞大量信息,信息內(nèi)容多樣,語言特色鮮明,為語料庫的構(gòu)建提供了重要素材來源。同時(shí),互聯(lián)網(wǎng)技術(shù)也為語料庫應(yīng)用平臺的開發(fā)設(shè)計(jì)提供了新的渠道。很多語料庫的使用都基于瀏覽器-服務(wù)器的模式開發(fā),用戶不需要在本地機(jī)器上存儲語言數(shù)據(jù),也不需要安裝專門的語料庫應(yīng)用軟件,就可以通過瀏覽器訪問語料庫所在的服務(wù)器,使用服務(wù)器提供的各類檢索功能,不僅減輕了用戶存儲負(fù)擔(dān),也避免了諸如版權(quán)等問題的困擾。此外,利用互聯(lián)網(wǎng)的搜索引擎進(jìn)行語言檢索也成為一種語料庫研究的形式。
4)機(jī)器學(xué)習(xí)技術(shù)的影響。機(jī)器學(xué)習(xí)技術(shù)的基本思想是利用已有的經(jīng)驗(yàn)數(shù)據(jù),通過一定的學(xué)習(xí)算法,得到一個(gè)與經(jīng)驗(yàn)數(shù)據(jù)擬合度較高且泛化能力較強(qiáng)的模型,利用該模型對未知數(shù)據(jù)進(jìn)行計(jì)算分析(Pustejovsky & Stubbs 2012)。機(jī)器學(xué)習(xí)以經(jīng)驗(yàn)數(shù)據(jù)為基礎(chǔ),這一點(diǎn)與語料庫語言學(xué)如出一轍,不過機(jī)器學(xué)習(xí)更多的是利用計(jì)算方法對經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行分析總結(jié),形成可計(jì)算的模型,而語料庫語言學(xué)更強(qiáng)調(diào)在機(jī)器輔助之下,對語言的內(nèi)部規(guī)律進(jìn)行深度研究。但無論如何,機(jī)器學(xué)習(xí)技術(shù)的出現(xiàn),使得機(jī)器對于語言的處理能力變得更強(qiáng),也為語言研究者提供了更多的觀察與分析手段。目前,在機(jī)器學(xué)習(xí)框架下,語言模型得到了很大程度的優(yōu)化,從以往的N元語言模型發(fā)展到基于詞向量表示的分布式語言模型。模型的優(yōu)化最直接的體現(xiàn)是對語義計(jì)算的更好支持,在分布式語言模型的支持下,機(jī)器可以進(jìn)行語義的代數(shù)計(jì)算,例如vector (“Madrid”) - vector (“Spain”) + vector (“France”)得到的結(jié)果是vector (“Paris”),再例如vector (“King”) - vector (“Man”) + vector(“Woman”)得到的結(jié)果是vector (“Queen”),這種計(jì)算方法是以往其他語言模型難以比擬的(Mikolov et al. 2013)?;跈C(jī)器學(xué)習(xí)技術(shù)得到的計(jì)算結(jié)果,結(jié)合語言自身的屬性特征,語料庫研究者可以更加深入地開展語言研究工作。
5)可視化技術(shù)的影響。可視化技術(shù)利用了人類對圖形敏感的特點(diǎn),以圖形形式展現(xiàn)數(shù)據(jù)內(nèi)容,從而輔助研究者把握數(shù)據(jù)的整體特點(diǎn),更好地作出推斷總結(jié)??梢暬夹g(shù)的發(fā)展對語料庫建設(shè)與應(yīng)用都有重要影響,主要表現(xiàn)在語料庫檢索結(jié)果、語料內(nèi)部模式的直觀展示以及研究者與應(yīng)用系統(tǒng)之間的交互等方面。
1)計(jì)算機(jī)技術(shù)在語料收集中的作用。語料收集有多種渠道,最直接的就是將已有的電子文本收錄到語料庫,間接的則需要文本的識別轉(zhuǎn)換,例如通過OCR識別將圖片類的文本轉(zhuǎn)換成電子文本,或是在語音識別技術(shù)輔助下將語音素材轉(zhuǎn)錄為電子文本。隨著網(wǎng)絡(luò)的發(fā)展,從互聯(lián)網(wǎng)直接獲取網(wǎng)頁文本成為構(gòu)建語料庫的重要素材來源,利用網(wǎng)絡(luò)爬蟲技術(shù)可以提高網(wǎng)絡(luò)文本的獲取效率,并實(shí)現(xiàn)網(wǎng)絡(luò)文本內(nèi)容的動態(tài)更新,為構(gòu)建開放的動態(tài)語料庫提供重要支持。
2)計(jì)算機(jī)技術(shù)在語料加工標(biāo)注中的作用。語料加工標(biāo)注主要包括語言素材的格式加工、文本元信息標(biāo)注、語言屬性標(biāo)注等內(nèi)容。在格式加工方面,主要利用了文本內(nèi)容的解析技術(shù),例如通過正則表達(dá)式對網(wǎng)頁文本進(jìn)行解析,提取其中關(guān)鍵部分內(nèi)容,去除格式標(biāo)記等內(nèi)容,也可以通過分析文本的內(nèi)部結(jié)構(gòu),構(gòu)造相應(yīng)的數(shù)據(jù)解析結(jié)構(gòu),實(shí)現(xiàn)對文本內(nèi)容的解析與提取。文本元信息主要包括文本的來源、時(shí)間、作者、語體等關(guān)于文本自身的屬性信息。語言屬性則包括詞語切分、詞性、命名實(shí)體、基本短語等屬性信息,語言屬性信息的標(biāo)注需要根據(jù)語料庫的構(gòu)建目的進(jìn)行有選擇性的標(biāo)注。在屬性標(biāo)注方面,目前采用比較廣泛的是XML格式語言,根據(jù)標(biāo)注屬性的需要,統(tǒng)一XML標(biāo)注語言的格式,在統(tǒng)一格式框架下進(jìn)行標(biāo)注,在該框架下的標(biāo)注結(jié)果具有很好的兼容性,能被不同應(yīng)用程序解析和使用(邢富坤 2015)。
3)計(jì)算機(jī)技術(shù)在語言學(xué)分析中的作用。在語言學(xué)分析方面,計(jì)算機(jī)技術(shù)的首要任務(wù)是充當(dāng)研究者的助手,輔助研究者開展語言研究。最典型的輔助功能是按照研究者的需求實(shí)現(xiàn)在大規(guī)模語料中對特定語言現(xiàn)象的查找,并對查找結(jié)果進(jìn)行直觀展示。研究者基于查詢結(jié)果,觀察和分析語言現(xiàn)象,總結(jié)語言特征規(guī)律。其次,在計(jì)算機(jī)技術(shù)輔助下,能夠?qū)崿F(xiàn)對不同語料的對比分析,通過對比發(fā)現(xiàn)不同語料的獨(dú)特語言特征,例如通過對不同語體語料中詞語使用進(jìn)行對比分析,查找出隸屬于不同語體的特有詞匯,形成具有某種領(lǐng)域特征的關(guān)鍵詞匯,進(jìn)而輔助相關(guān)研究與教學(xué)工作。第三,利用計(jì)算機(jī)技術(shù),可以實(shí)現(xiàn)對歷時(shí)語料的分析,給出語言與時(shí)間之間的關(guān)系,輔助語言演化研究。利用計(jì)算機(jī)技術(shù),在一定程度上也能夠主動發(fā)現(xiàn)語言中蘊(yùn)含的某些模式特征,最典型的就是通過一些統(tǒng)計(jì)方法,例如互信息、t檢驗(yàn)、卡方檢驗(yàn)等方法,自動提取語言中的典型搭配,計(jì)算得到的結(jié)果對于提高詞典編纂效率以及對搭配的深入研究都有重要意義(邢富坤 2012)。隨著語料規(guī)模的不斷擴(kuò)大,機(jī)器學(xué)習(xí)方法在文本特征挖掘方面的應(yīng)用越來越廣泛,它能幫助研究者更全面深入地考察語言特征。
4)計(jì)算機(jī)技術(shù)在研究成果應(yīng)用中的作用。從研究成果的應(yīng)用角度看,計(jì)算機(jī)技術(shù)有兩方面作用,一方面是通過構(gòu)建人機(jī)交互的良好界面系統(tǒng),實(shí)現(xiàn)語言研究成果的實(shí)用化,使得用戶可以比較方便地獲取和使用已有的研究成果。例如,基于語料庫的詞典編纂工作就可以利用計(jì)算機(jī)技術(shù)開發(fā)出的詞典輔助編纂平臺,平臺集成了語料庫研究中有關(guān)檢索、搭配、聚類等研究成果,方便編纂者對詞條進(jìn)行檢索、統(tǒng)計(jì)、排序以及聚類分析等工作,提高詞典編纂效率。另一方面是將語言研究成果集成到已有的應(yīng)用系統(tǒng)之中。例如,將搭配研究成果集成到信息檢索系統(tǒng)之中,利用搭配信息優(yōu)化查詢與文檔之間的相似度計(jì)算效果。由于信息檢索本身具有一套較為成熟的評價(jià)體系和評測數(shù)據(jù),因此可以通過評測實(shí)驗(yàn),比較不同語言研究成果加入后的系統(tǒng)性能指標(biāo),從而判斷語言研究成果的有效性。
1)語料庫的規(guī)模、結(jié)構(gòu)與加工問題。隨著互聯(lián)網(wǎng)發(fā)展,電子文本的獲取越來越容易。但語料庫建設(shè)的規(guī)模該如何確定,是否越大越好;如何定量地評價(jià)語料庫效益,能否以某種評價(jià)函數(shù)的形式給出語料庫效益的計(jì)算方法,指導(dǎo)語料庫建設(shè);如何確定語料庫的內(nèi)容結(jié)構(gòu),是否需要按確定比例對不同文類的語料數(shù)量進(jìn)行規(guī)定;如何利用計(jì)算機(jī)技術(shù)輔助開展語料加工工作,在不同加工者之間建立協(xié)同機(jī)制,提高加工的一致性,這些問題無論對于單語還是多語語料庫建設(shè)都是需要面對的問題(邢富坤 2013)。在應(yīng)對這些問題時(shí),需要考慮語料庫應(yīng)用目標(biāo)、構(gòu)建成本、計(jì)算能力等因素,綜合給出應(yīng)對辦法。對于雙語語料庫建設(shè)而言,具有翻譯關(guān)系的平行語料獲取難度更大,在擴(kuò)大語料規(guī)模的同時(shí),更要有效地評價(jià)語料質(zhì)量,有效地濾除翻譯質(zhì)量低劣甚至是機(jī)器翻譯的文本進(jìn)入語料庫。對于構(gòu)建雙語或多語可比語料庫而言,語料的獲取難度要更低,但需要面對如何確定可比關(guān)系以及如何有效分析利用可比語料的問題。解決以上問題不僅需要計(jì)算機(jī)技術(shù),更需要計(jì)算機(jī)技術(shù)與語料庫研究很好地融合,從語言自身規(guī)律與計(jì)算機(jī)能力兩方面共同給出解決辦法。
2)語言形式與語言意義的對應(yīng)問題。在語言問題上,計(jì)算機(jī)面臨的是符號形式與語義內(nèi)涵不對等的難題。計(jì)算機(jī)技術(shù)擅長對數(shù)據(jù)進(jìn)行匹配與計(jì)數(shù),這些工作都是在符號層面進(jìn)行。但由于語言中同一符號會對應(yīng)多種語義,有些詞的不同語義之間具有一定關(guān)聯(lián),例如“包裹、命題、發(fā)明”等,這些詞的不同語義之間具有行為與行為結(jié)果的關(guān)聯(lián),而有些詞的不同語義之間沒有任何關(guān)聯(lián),例如“制服、分別、把手、馬上”等。對于形式相同而語義不同的詞語進(jìn)行匹配與計(jì)數(shù)時(shí),就出現(xiàn)了形式與意義的不對等問題,如果不顧語義而只求形式上的相同,則會造成匹配與計(jì)數(shù)結(jié)果與實(shí)際目標(biāo)之間的偏差。此外,形式與語義的不對等問題也會對機(jī)器學(xué)習(xí)方法造成影響,不同語義的同一個(gè)形式在特征層面具有本質(zhì)性差異,應(yīng)該作為不同特征對待,如果將其混同為同一個(gè)特征,會給機(jī)器學(xué)習(xí)帶來噪音,影響機(jī)器學(xué)習(xí)效果。因此,在利用計(jì)算機(jī)技術(shù)開展語料庫研究的過程中需要重視形式與語義的關(guān)系問題,尋找可行的辦法對該問題給予一定程度的解決。
3)語言屬性與語言結(jié)構(gòu)的研究與使用問題。語言屬性是指在語言符號層沒有顯性表現(xiàn),而是蘊(yùn)含在語言內(nèi)部、具有規(guī)律性的特征。語法類別屬性(詞性)是傳統(tǒng)語言學(xué)研究中被廣泛使用的語言屬性,借助詞性可以將具體的語言實(shí)例劃分為不同的語言類別,從而使得語言研究結(jié)果具有一定的泛化能力,詞性也可以輔助分析語句結(jié)構(gòu)。當(dāng)然語言的屬性不局限于詞性,語料庫語言學(xué)視角下的搭配、語義傾向、語義韻等都可以作為語言的屬性,如果讓計(jì)算機(jī)使用此類屬性,需要對此類屬性有較為明確的定義,并針對屬性的標(biāo)注有規(guī)范的操作規(guī)格和流程。語言結(jié)構(gòu)是在語言形式層之上的一種隱含的特殊語言屬性,這類屬性并不是在單獨(dú)的語言單位上,而是語言單位之間的彼此關(guān)系。研究者對語言結(jié)構(gòu)有不同的認(rèn)識,有研究者將語言結(jié)構(gòu)當(dāng)作層級樹狀結(jié)構(gòu),也有研究者將語言結(jié)構(gòu)當(dāng)作線性結(jié)構(gòu),但無論何種結(jié)構(gòu)都需要將其外化,并形成具有較大覆蓋度的語言實(shí)例。語言屬性與結(jié)構(gòu)是語言研究的關(guān)鍵問題,計(jì)算機(jī)技術(shù)在面對這一問題時(shí)需要作兩方面工作,一是在人工標(biāo)注基礎(chǔ)上,實(shí)現(xiàn)語言屬性與結(jié)構(gòu)的自動標(biāo)注,為語言的深層挖掘與研究提供基本素材,這方面工作面臨的困難是語言屬性與結(jié)構(gòu)的研究還有待深入,自動標(biāo)注方法與標(biāo)注模型的研究仍需不斷提升。另一難題是基于已經(jīng)標(biāo)注語言屬性與結(jié)構(gòu)信息的語料進(jìn)行有效檢索與分析,從大量標(biāo)注數(shù)據(jù)中發(fā)現(xiàn)規(guī)律性的語言使用模式,進(jìn)而提高語言研究成果在語言教學(xué)、詞典編纂、信息處理等領(lǐng)域的應(yīng)用水平。
語料庫分析技術(shù)的突破依賴于語言研究與計(jì)算機(jī)技術(shù)的融合與發(fā)展,其中以語言研究為突破關(guān)鍵?,F(xiàn)有的語料庫分析技術(shù)主要包括頻數(shù)統(tǒng)計(jì)、詞語索引、搭配、詞叢、主題詞等分析技術(shù),分析對象主要是詞,分析方法以頻數(shù)統(tǒng)計(jì)和詞語檢索為主。語料庫分析技術(shù)的目的是輔助研究者對語言進(jìn)行觀察分析,更好地總結(jié)歸納語言規(guī)律,支持相關(guān)語言應(yīng)用。語言分析技術(shù)的輔助功能主要表現(xiàn)在兩個(gè)方面:一是為語言研究者提供相關(guān)語言分析數(shù)據(jù),使研究者能更全面地觀察語言;二是為語言研究發(fā)現(xiàn)的相關(guān)規(guī)律提供檢驗(yàn),驗(yàn)證語言規(guī)律的有效性。
從提供語言分析數(shù)據(jù)的角度看,目前語料庫分析技術(shù)主要集中在符號層,將語言作為一種數(shù)據(jù)符號,利用統(tǒng)計(jì)、檢索等方法進(jìn)行分析。期待下一步能夠從符號層進(jìn)入到語言屬性層與語言結(jié)構(gòu)層,能夠支持語言屬性、語言結(jié)構(gòu)的統(tǒng)計(jì)與檢索,在復(fù)雜多樣的語言形式之上,找到具有更強(qiáng)概括性的語言模式特征,在不同語言形式之間建立起聯(lián)系,更好地發(fā)現(xiàn)語言內(nèi)含的規(guī)律性特征。實(shí)現(xiàn)該突破的核心是對語言屬性、語言結(jié)構(gòu)的研究,研究成果需要具有較強(qiáng)的形式化特征,且能夠在較大規(guī)模的實(shí)際語言數(shù)據(jù)中得到實(shí)現(xiàn)與驗(yàn)證。
從檢驗(yàn)語言規(guī)律的角度看,對語料庫分析技術(shù)的更大期待是構(gòu)建一套語言研究成果的檢驗(yàn)評價(jià)機(jī)制與相關(guān)評價(jià)數(shù)據(jù)集。語料庫語言學(xué)對于語言研究的重要貢獻(xiàn)在于提出了一種從真實(shí)語言數(shù)據(jù)出發(fā)對語言進(jìn)行研究的思想、方法和工具,并取得了一系列的語言發(fā)現(xiàn)。面向真實(shí)語言的研究發(fā)現(xiàn)應(yīng)具有“可操作性”與“高覆蓋性”(宋柔 2013),因此需要將已經(jīng)取得的研究發(fā)現(xiàn),放回到真實(shí)的語言數(shù)據(jù)上進(jìn)行檢驗(yàn),檢查相關(guān)語言發(fā)現(xiàn)在真實(shí)語言上的吻合程度,查找例外并加以完善。
構(gòu)建評價(jià)機(jī)制與評價(jià)數(shù)據(jù)集的目的在于為不同的研究者提供統(tǒng)一的評價(jià)平臺,從而對不同研究成果進(jìn)行客觀評價(jià),減少不必要的爭論,推動整個(gè)研究領(lǐng)域的滾動發(fā)展。實(shí)現(xiàn)這一突破的難度更大,因?yàn)檎Z言研究絕大多數(shù)都是對語言規(guī)律的探索性研究,大部分成果是概念性、個(gè)案性的,且未最終定型,而構(gòu)建評價(jià)數(shù)據(jù)集的前提是對研究問題已經(jīng)有了較成熟的研究基礎(chǔ),形成了較完備的評價(jià)標(biāo)準(zhǔn)與評價(jià)實(shí)例。解決這一問題不能期待一步到位,也不能期待先構(gòu)建一個(gè)完備的評價(jià)數(shù)據(jù)集,而是需要研究者在研究過程中邊探索,邊總結(jié),邊檢驗(yàn),邊完善,需要多輪反復(fù)。在這個(gè)過程中,語料庫分析技術(shù)需要承擔(dān)的任務(wù)是管理已有的研究數(shù)據(jù),將已有研究數(shù)據(jù)與最新研究數(shù)據(jù)進(jìn)行對比分析,為研究者提供對比分析結(jié)果,更好地輔助研究者開展相關(guān)評價(jià)。
計(jì)算機(jī)是語料庫研究的輔助工具,工具的基本特征是技術(shù)門檻盡可能低,操作使用盡可能便捷。對于語料庫研究初學(xué)者而言,應(yīng)盡可能降低技術(shù)對語言研究的影響與限制,將研究重心與精力放在語料庫研究的基本方法與研究問題上,針對研究問題,使用已有的語料庫分析軟件有目的地開展研究工作。對于某些語言研究問題,可能現(xiàn)有分析軟件難以滿足研究需求,對于這類問題,首先是考慮是否有必要開發(fā)程序,如果手工能在可接受的時(shí)間內(nèi)完成處理工作,則不必專門開發(fā)程序。如果處理數(shù)據(jù)量大,且以后需要重復(fù)進(jìn)行類似工作,那么可以考慮專門開發(fā)程序加以實(shí)現(xiàn)。在程序開發(fā)之前,應(yīng)對研究問題進(jìn)行認(rèn)真梳理,按照計(jì)算機(jī)處理的流程給出具體處理步驟,最好能夠給出形式化的流程描述,為程序設(shè)計(jì)提供基本依據(jù),一定要避免邊寫程序邊設(shè)計(jì)。初學(xué)者如果有一定的數(shù)理基礎(chǔ),可以學(xué)習(xí)一門程序開發(fā)語言,但不是必需。通過學(xué)習(xí)和使用程序設(shè)計(jì)語言,可以提高形式化思維能力,培養(yǎng)形式化思維習(xí)慣,同時(shí)也能夠通過程序自主實(shí)現(xiàn)一些特定的語料庫分析功能,更好地輔助開展研究工作。在選擇程序設(shè)計(jì)語言時(shí),主要考慮的因素是自己身邊是否有人在使用并能夠教授這門語言,如果身邊有一位對自己所學(xué)語言非常熟悉、經(jīng)驗(yàn)豐富的使用者,那么可以大大提高語言的學(xué)習(xí)效率。
大數(shù)據(jù)是相對于傳統(tǒng)數(shù)據(jù)而言的。人類產(chǎn)生并可供使用的數(shù)據(jù)規(guī)模較過去有了很大幅度的提高。語言數(shù)據(jù)也是如此。語言數(shù)據(jù)規(guī)模擴(kuò)大至少體現(xiàn)在兩方面,一是語言數(shù)據(jù)的量大了,二是與語言數(shù)據(jù)相關(guān)的信息多了。語言數(shù)據(jù)量的擴(kuò)大對于語料庫分析方法影響不大,因?yàn)樽哉Z料庫產(chǎn)生之初,就面對語言總體無限的難題,采用以有限語言樣本代表無限總體的處理辦法,到了大數(shù)據(jù)時(shí)代依然如此,不過有所改變的是語言素材的來源更廣,話語形式更豐富,語言的動態(tài)特征也更強(qiáng)。語料庫規(guī)模擴(kuò)大,需要在存儲、計(jì)算性能上有新的發(fā)展,借鑒分布式存儲與計(jì)算的模式,有效地對大規(guī)模語言數(shù)據(jù)進(jìn)行存儲、管理與使用。
相對于語言數(shù)據(jù)規(guī)模的擴(kuò)大,語言數(shù)據(jù)相關(guān)信息的增多對于語料庫分析方法的影響更大。語言相關(guān)信息包括語言使用者的信息,例如微博中發(fā)表的內(nèi)容都與博主關(guān)聯(lián);相關(guān)信息還包括話語的時(shí)間、位置等信息,尤其是隨著移動智能設(shè)備和移動互聯(lián)網(wǎng)的普及,在移動設(shè)備上產(chǎn)生的話語信息都帶有了時(shí)間、位置等信息,這類信息與語言內(nèi)容信息進(jìn)行有效整合,對于更全面地把握語言特征具有重要價(jià)值。如果能夠通過合理渠道獲得語言相關(guān)信息,那么語料庫分析方法也要隨之發(fā)生變化。例如,語料庫的索引就不再只是對語言符號進(jìn)行索引,而是要加入語言相關(guān)信息索引,使用戶在語料庫檢索時(shí),不僅能夠得到查詢詞的語言內(nèi)容索引行,同時(shí)也能夠根據(jù)語言相關(guān)信息對內(nèi)容索引行給予更全面的描述,將言內(nèi)與言外信息有效融合。
相對于變化而言,大數(shù)據(jù)時(shí)代也需要關(guān)注語言研究不變之處,加強(qiáng)對語言自身形式特點(diǎn)的研究,以語言研究的成果支持大數(shù)據(jù)的深度處理與分析。目前在大數(shù)據(jù)研究領(lǐng)域,針對語言數(shù)據(jù)的處理方法與聲音、圖像等數(shù)據(jù)的處理方法基本相同,語言學(xué)知識的使用非常有限,研究重點(diǎn)在于大規(guī)模數(shù)據(jù)的存儲與計(jì)算方法上。但從語言的本質(zhì)上看,語言具有不同于語音、圖像等符號的特點(diǎn),提高語言的處理效果,必須建立在語言自身規(guī)律全面深入研究的基礎(chǔ)之上,就如同計(jì)算生物學(xué)的發(fā)展建立在生物學(xué)自身研究基礎(chǔ)之上,計(jì)算本身無法替代研究對象的自身規(guī)律特點(diǎn)研究。在大數(shù)據(jù)時(shí)代,應(yīng)該利用好語言數(shù)據(jù)與計(jì)算機(jī)工具,深入研究語言自身問題,例如語言的基本單元確定問題、語言的屬性與結(jié)構(gòu)問題、語言形式與意義之間的對應(yīng)問題等。通過語言自身的規(guī)律特點(diǎn)研究,提高計(jì)算機(jī)分析與處理語言的能力,讓計(jì)算機(jī)技術(shù)更好地服務(wù)語言研究與應(yīng)用。
綜上,本文認(rèn)為計(jì)算機(jī)技術(shù)與語料庫研究之間有著密切關(guān)系,彼此影響,互相促進(jìn),共同發(fā)展。計(jì)算機(jī)作為技術(shù)工具必然為語料庫研究服務(wù),其基本角色是研究助手,而不是研究的門檻或阻礙。計(jì)算機(jī)技術(shù)有嚴(yán)格的形式化要求,這也對語料庫研究提出了挑戰(zhàn),語料庫語言學(xué)的研究需要面向真實(shí)語言,研究成果要盡可能形式化,并且研究成果要接受真實(shí)語言的檢驗(yàn),通過檢驗(yàn)評價(jià)來指導(dǎo)語料庫語言學(xué)的發(fā)展。在大數(shù)據(jù)時(shí)代,語料庫語言學(xué)有著新的發(fā)展機(jī)遇,需要新的變化,但同時(shí)也需要更加清醒地認(rèn)識語言學(xué)自身的使命與任務(wù),守住語言研究的主線,以語言自身研究的成果支持大數(shù)據(jù)時(shí)代的語言處理與應(yīng)用。
Mikolov, T., W. Yih & G. Zweig. 2013. Linguistic regularities in continuous space word representations [A]. In Proceedings of NAACL-HLT [C]. 746-751.
Palmer, M. & S. Strassel. 2007. Historical development and future directions in data resource development [OL]. http://www.itl.nist.gov/iaui/894.02/minds.html (accessed 12/20/2014).
Pustejovsky, J. & A. Stubbs. 2012. Natural Language Annotation for Machine Learning [M].Beijing: The O’Reilly Press.
宋 柔,2013,漢語篇章廣義話題結(jié)構(gòu)的流水模型[J],《中國語文》(6):483-493。
邢富坤,2012,多詞單位的描寫識別與詞典編纂[J],《當(dāng)代語言學(xué)》14(4):407-417。
邢富坤,2013,中文分詞中未登錄詞分布規(guī)律及處理方法研究[J],《解放軍外國語學(xué)院學(xué)報(bào)》36(5):27-32。
邢富坤,2015,面向語言處理的語料庫標(biāo)準(zhǔn):回顧與反思[J],《解放軍外國語學(xué)院學(xué)報(bào)》38(3):8-13。
通訊地址:471003 河南省洛陽市解放軍外國語學(xué)院語言工程系