原偉
摘要:網(wǎng)絡(luò)語料庫是大數(shù)據(jù)時代語料庫發(fā)展的重要方向,GICR作為俄語大型動態(tài)網(wǎng)絡(luò)語料庫的最重要代表之一具有較高的研究價值與借鑒意義。通過對GICR語料庫總體設(shè)計、語料采集方法、處理手段和標(biāo)注體系的分析述評,深入討論了該語料庫的在語言信息處理及語言學(xué)研究領(lǐng)域的應(yīng)用研究,論述了該語料庫的特點(diǎn)與獨(dú)特優(yōu)勢,對俄語網(wǎng)絡(luò)語料庫研究的深入開展奠定了初步基礎(chǔ)。
關(guān)鍵詞: 網(wǎng)絡(luò)語料庫;俄語;GICR
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2018)04-0212-04
A Survey of Building and Using General Internet Corpus of Russian
YUAN Wei1,2
(1.Shanghai International Studies University, Shangha 200083, China; 2.Information Engineering University, Luoyang 471003, China)
Abstract: In the era of large data Web as corpus is an important research direction of corpus linguistics. As one of the most important representatives of Russian web corpora General Internet Corpus of Russian (GIRC) has a significant research value. This paper discusses the main methods of GIRC for texts collection, cleaning, organization and annotation,discusses the characteristics and unique advantages of GIRC, analyses its applications in linguistic studies and natural language processing.
Key words: Web as corpus; Russian; GIRC
1 概述
隨著大數(shù)據(jù)概念逐漸與語料庫研究相融合,該領(lǐng)域的研究方法與范式已經(jīng)產(chǎn)生了巨大變化。傳統(tǒng)語料庫的構(gòu)建通常是需要消耗大量人工的緩慢進(jìn)程,而這已無法適應(yīng)學(xué)科發(fā)展對超大規(guī)模語料庫的迫切需求,學(xué)者們紛紛將目光轉(zhuǎn)向擁有海量語言數(shù)據(jù)的互聯(lián)網(wǎng)。Kilgarriff[1]首次提出網(wǎng)絡(luò)語料庫(Web as corpus,WaC)的概念,討論了基于網(wǎng)絡(luò)數(shù)據(jù)驅(qū)動的語料庫研究問題。2000年初名為WaCky!的學(xué)術(shù)團(tuán)體成立,2006至2009年間構(gòu)建了一系列網(wǎng)絡(luò)語料庫(deWaC, frWaC, itWaC, ukWaC),每個都包含了10-20億詞[2]。2011年啟動的COW(COrpora from the Web)項(xiàng)目構(gòu)建了面向英、德、法、荷、西和瑞典語的網(wǎng)絡(luò)語料庫,至2014年多數(shù)語料分庫規(guī)模已經(jīng)逼近100億詞[3]。在CLARIN項(xiàng)目框架內(nèi)面向南斯拉夫語言的構(gòu)建了一系列網(wǎng)絡(luò)語料庫(bsWaC, hrWaC, slWaC, srWaC),規(guī)模從4億到20億詞不等[4]。與此同時,俄語網(wǎng)絡(luò)語料庫也得到了新發(fā)展,規(guī)模較大的如Aranea項(xiàng)目框架內(nèi)構(gòu)建的網(wǎng)絡(luò)語料庫包含近15種語言,其中俄語分庫根據(jù)來源網(wǎng)頁域名分為三個分庫(Russicum Russicum、Russicum Externum和Russicum)每個分庫按照語料規(guī)模都有Maius(大型)和Minus(小型)版本,如Russicum的大、小型語料分庫分別包含8.5和0.9億俄文詞[5];TenTen多語種網(wǎng)絡(luò)語料庫項(xiàng)目中每個語種分庫都超過10億詞,俄語分庫ruTenTen是最大的分庫之一[6];Russian Web corpora通過500個檢索詞借助搜索引擎獲取語料,總規(guī)模約1.47億詞[7]等。
一直以來,俄語國家語料庫(НКРЯ)成為大部分學(xué)者研究俄語的標(biāo)準(zhǔn)配置,然而該語料庫中當(dāng)代俄語的現(xiàn)時數(shù)據(jù)占比較少,因此并不十分適應(yīng)面向現(xiàn)代俄語的語言共時研究。上述網(wǎng)絡(luò)語料庫的構(gòu)建成果是有目共睹,一定程度上豐富了研究者的語料選擇,但都不同程度上存在缺陷,如上述Aranea、ruTenTen語料庫旨在面向多個語種,缺乏對俄語的定制性標(biāo)注與研究。除此之外,包括I-RU在內(nèi),這三個語料庫規(guī)??捎^但都缺乏元數(shù)據(jù)信息不易用于語言學(xué)研究,其他小型語料庫通常數(shù)據(jù)規(guī)模較小而不易把握面向特定俄語使用群體的語言現(xiàn)象,總體來說,鮮有專門面向現(xiàn)代俄語語言學(xué)研究、面向特定俄語使用人群的大規(guī)模語料庫,正是在這樣的背景下,ГИКРЯ語料庫應(yīng)運(yùn)而生。
2 GICR語料庫的構(gòu)建
2.1 概述
GICR(General Internet Corpus of Russian), GICR; Генеральный Интернет-корпус русского языка;本文譯:俄語網(wǎng)絡(luò)語料總庫)由俄羅斯國立人文大學(xué)于2012年開始籌建[8],是一個面向當(dāng)代俄語語言學(xué)研究的新型網(wǎng)絡(luò)文本語料庫。該語料庫構(gòu)建目的是為面向當(dāng)代俄語的語言學(xué)研究提供可靠數(shù)據(jù)支撐和技術(shù)工具,其語料從互聯(lián)網(wǎng)俄文網(wǎng)站自動采集,來源包括新聞、社交網(wǎng)絡(luò)、博客、論壇和網(wǎng)絡(luò)雜志等,網(wǎng)頁文本抽取、篩選清理和標(biāo)注過程均采用自動化的方式進(jìn)行,語料標(biāo)注十分詳盡,不僅包含詞法和句法標(biāo)注信息,還包含了大量面向文本的元數(shù)據(jù)標(biāo)注信息,如作者的性別、年齡、職業(yè)、文本體裁、主題和地域變體等。該庫最終構(gòu)建目標(biāo)是1000億詞,2016年該語料庫的規(guī)模已經(jīng)超過200億詞,已經(jīng)遠(yuǎn)超俄語國家語料庫(50億詞)。該語料庫項(xiàng)目由俄羅斯國立人文大學(xué)和莫斯科物理技術(shù)學(xué)院計算語言學(xué)教研室承擔(dān)主要研究工作,參與研究的還有莫斯科國立大學(xué)、英國利茲大學(xué)以及ABBYY公司的諸多專家學(xué)者。GICR語料庫項(xiàng)目得到了俄羅斯聯(lián)邦科技和教育部、俄羅斯國立人文大學(xué)戰(zhàn)略發(fā)展項(xiàng)目以及ABBYY公司的支持。GICR的主要優(yōu)勢在于:語料獲取、處理和更新實(shí)現(xiàn)了完全自動化且規(guī)模巨大,僅針對俄語一門語言構(gòu)建,語料構(gòu)成以最鮮活現(xiàn)代俄語語料為主,專門面向語言學(xué)研究進(jìn)行了詳盡的語法標(biāo)注,同時面向社會語言學(xué)研究標(biāo)注了語料的元信息。以下是語料庫的基本構(gòu)成(表1):
表1 ГИКРЯ語料庫語料構(gòu)成(2016年)
[語料來源 詞數(shù)(億詞) 文件數(shù)(個) Журнальный Зал(網(wǎng)絡(luò)雜志圖書館) 3.13 56547 Риа, Регнум, Лента ру, Росбалт(網(wǎng)絡(luò)新聞) 8.51 2964897 Живой Журнал(論壇及博客平臺) 81.1 73229158 Блоги Mail.ru(博客平臺) 7.07 9882120 ВКонтакте(社交網(wǎng)絡(luò)) 98.2 193770717 總計 198.01 279903439 ]
2.2 語料采集與處理
ГИКРЯ語料庫采集語料所使用的工具以Nutch為基礎(chǔ)定制開發(fā)。Nutch是一個構(gòu)建在Java平臺上的開源網(wǎng)頁采集及搜索引擎項(xiàng)目,包括了網(wǎng)頁爬蟲(Crawler)和查詢器(Searcher)兩部分組成。網(wǎng)絡(luò)爬蟲的功能是從網(wǎng)絡(luò)上抓取網(wǎng)頁、獲取網(wǎng)頁內(nèi)容并為這些網(wǎng)頁建立索引,查詢器的功能是利用這些索引檢索用戶的查找關(guān)鍵詞來產(chǎn)生查找結(jié)果。GICR網(wǎng)頁爬取策略不使用網(wǎng)頁排名,而是爬取所有可獲得網(wǎng)頁,但僅保留網(wǎng)頁中面向人類閱讀的部分,不收錄面向搜索引擎編撰的相關(guān)信息。GICR更注重精度而非召回率,因?yàn)槟壳岸碚Z互聯(lián)網(wǎng)資源的文本數(shù)量是GICR最終構(gòu)建目標(biāo)的100倍左右。
GICR語料庫對所獲取的網(wǎng)頁文本,進(jìn)行了垃圾信息清理工作,清理的對象包括網(wǎng)頁輔助信息、廣告、動態(tài)新聞條、郵件、自動生成的文本等,同時進(jìn)行重復(fù)文本刪除,這樣以來能夠減少后期語料入庫時的工作量。通常來說,網(wǎng)頁樣板代碼的清除算法基于是否知曉網(wǎng)頁結(jié)構(gòu)。GICR對于已知網(wǎng)頁結(jié)構(gòu)的博客平臺、內(nèi)容管理系統(tǒng)或論壇平臺,通過分析網(wǎng)頁源碼中帶有已知Xpath節(jié)點(diǎn)的DOM結(jié)構(gòu)抽取文本,同樣也可以把主體文本與評論文本區(qū)分開來;對于不知道其數(shù)據(jù)結(jié)構(gòu)的網(wǎng)頁,使用基于混合策略、獲取連續(xù)字符塊的算法抽取網(wǎng)頁正文。
GICR語料庫構(gòu)建時,不僅借助Nutch從爬取網(wǎng)頁并從中抽取文本正文,同樣也抽取文本的元信息,包括文本作者的用戶名(網(wǎng)名)、年齡、性別、出生地、受教育程度、常住地等,這些注冊信息通常以結(jié)構(gòu)化的文本表示。獲取這些元信息,主要是能夠借此高效地獲取文本創(chuàng)作(使用)者的相關(guān)信息,如用戶注冊信息、消息發(fā)布數(shù)量等,將用戶與用戶語料緊密關(guān)聯(lián)起來,這樣對分析特定人群的語言使用情況十分有效,能夠很好的用于社會語言學(xué)研究。獲取語料的主要算法基于假設(shè):對于某一用戶來說,掌握的相關(guān)語料越多,對其年齡、性別等信息的判斷與分類就越準(zhǔn)確。
2.3 語料標(biāo)注
GICR語料的標(biāo)注是通過計算機(jī)軟件自動進(jìn)行的,包括詞法標(biāo)注和元信息標(biāo)注兩個部分。首先,詞法標(biāo)注使用的工具是由Сергей Шаров開發(fā)的TnT-Russian軟件,包括語料的形態(tài)標(biāo)注和詞形還原。在形態(tài)標(biāo)注方面,所使用的機(jī)器詞典不僅使用TnT-Russian自帶詞庫,同時也融合了mystem的詞形庫,總共包含超過700萬俄語詞形。在詞形還原方面,不僅使用了TnT-Russian原有工具,針對未收錄詞(新詞)的處理,采用了Cstlemma模型(Github開源項(xiàng)目),同時根據(jù)GICR的自身特點(diǎn)對TnT-Russian工具進(jìn)行了定制拓展開發(fā)。除此之外,自主研制的標(biāo)記解析器(Токенизатор)能對所有標(biāo)點(diǎn)符號及使用連詞符組成的搭配進(jìn)行自動識別。GICR語料庫詞法標(biāo)注規(guī)范及語料標(biāo)注示例參見表2。
其次,語料元信息標(biāo)注。GICR的語料元信息標(biāo)注是指對從社交網(wǎng)絡(luò)、論壇、網(wǎng)絡(luò)雜志等網(wǎng)址獲取的網(wǎng)頁,獲取其關(guān)于文本本身的信息以作者信息并加以標(biāo)注。文本本身的信息包括文本來源、作者、發(fā)布時間、網(wǎng)絡(luò)體裁(博客、微博、論壇文章)等;作者信息包括用戶ID、網(wǎng)名、注冊時間、性別、年齡、地區(qū)(IP地址)、職業(yè)、興趣、文本發(fā)布數(shù)量、評論數(shù)量等。自動處理等起點(diǎn)是獲取文本作者的準(zhǔn)確信息,并將其以標(biāo)準(zhǔn)化形式表示出來。有些信息可以從IP地址(服務(wù)器地址用于地區(qū)定位)和網(wǎng)址URL中獲得,但往往這類元信息都是不完整的,首先并不是所有的網(wǎng)站都完整提供上述信息,其次IP地址在某些情況下也能夠被錯誤引導(dǎo)等。GICR項(xiàng)目使用頁面上可以獲取的文本信息為機(jī)器學(xué)習(xí)提供資源,不斷改進(jìn)特定網(wǎng)站的結(jié)構(gòu)信息獲取算法,效果較好。
3 GICR的研究與應(yīng)用
GICR作為一個規(guī)模巨大的網(wǎng)絡(luò)俄語語料庫,其構(gòu)建過程本身就是一個科學(xué)命題。首先,GICR的語料獲取、標(biāo)注和分類的整個過程都是通過軟件工具自動完成的,為了保證語料處理的準(zhǔn)確性和可靠性,就必須在獲取了原始語料之后,嚴(yán)格考察和研究自動標(biāo)注和詞形還原的方法,確保語料加工的成熟度,以便用于后期的應(yīng)用與拓展。其次,從網(wǎng)絡(luò)獲取的語料,數(shù)據(jù)噪聲大且無明晰分類,未分類語料對于語言特征研究、變體研究、社會語言學(xué)研究都存在障礙,因此語料自動分類問題也是需要研究的課題。針對上述問題,俄羅斯學(xué)界已經(jīng)開展了比較深入的研究,部分研究成果得到了較好地推廣和應(yīng)用,基于GICR的多方面研究也在順利開展。
第一,基于GICR語料庫的詞性標(biāo)注與詞形還原研究。為了處理大規(guī)模未標(biāo)注互聯(lián)網(wǎng)語料,文獻(xiàn)[9]討論了在不使用任何語言知識的情況下,使用機(jī)器學(xué)習(xí)及純統(tǒng)計方法處理俄文語料的粒度切分、詞形還原和自動標(biāo)注問題。在隨后的研究中,基于研究了形態(tài)自動消歧問題,測試了GICR語料詞法自動標(biāo)注工具及標(biāo)準(zhǔn)的可信度和有效程度。文獻(xiàn)[10]在GICR項(xiàng)目框架內(nèi)開發(fā)的面向社交網(wǎng)絡(luò)文本的語料自動形態(tài)分析和詞形還原工具,并在人工標(biāo)注的200萬詞現(xiàn)代社交網(wǎng)絡(luò)語料庫上進(jìn)行效果測試。文獻(xiàn)[11]認(rèn)為對俄語標(biāo)準(zhǔn)語的自動形態(tài)分析和詞形還原工具對于社交媒體的文本處理精度不夠,原因是存在大量書寫變體和錯誤書寫,使用GICR作為數(shù)據(jù)基礎(chǔ)語料修正了算法,提升了詞形還原和形態(tài)分析的水平。
第二,基于GICR語料庫的文本分類研究。文獻(xiàn)[12]研究了GICR語料庫中文本自動分類問題,初始以少量文本特征參數(shù)為基礎(chǔ),通過迭代的機(jī)器學(xué)習(xí)算法構(gòu)建分類框架,建立主體后用于后期的文本聚類;文獻(xiàn)[13]使用多維度分析手段對GICR語料庫的多樣化文本分類進(jìn)行了研究,以此方法尋找分類依據(jù)以及分類的維度特征,使用軟件工具識別出的一系列語言特征,研究結(jié)構(gòu)表明語言特征緯度對理解與處理俄語網(wǎng)絡(luò)語料的分類問題作用很大;文獻(xiàn)[14]研究了網(wǎng)絡(luò)語料的自動區(qū)域識別與分類問題,使用了GICR的Живой Журнал子庫,從文本特征詞匯、文本作者結(jié)構(gòu)信息中抽取的地域信息,通過機(jī)器學(xué)習(xí)訓(xùn)練特征集建立語料與地區(qū)的關(guān)聯(lián)。
第三,基于GICR語料庫的社會語言學(xué)研究。文獻(xiàn)[15]基于對GICR語料庫的研究,認(rèn)為面向大多數(shù)語言學(xué)和詞匯學(xué)研究來說,對語料庫進(jìn)行明晰的體裁及社會語言學(xué)劃分是十分必要的,而不應(yīng)該將基于少量數(shù)據(jù)的語言現(xiàn)象研究結(jié)果簡單地推廣到整個語言。在此基礎(chǔ)上,他們使用GICR語料庫開展文本元信息抽取研究,對文本作者信息進(jìn)行了抽取,研究了不同性別、不同地區(qū)的語言使用差異,包括不同性別作者在語句、搭配和成語使用方面的差異。
第四,基于GICR語料庫的俄文拼寫檢查與自動糾錯研究。在“Dialogue Evaluation”項(xiàng)目框架內(nèi)開展的俄文自動拼寫糾正評測——SpellRuEval主要是面向社交網(wǎng)絡(luò)文本的拼寫檢查與自動糾正研究,使用GICR的Живой Журнал子庫作為實(shí)驗(yàn)測試集。七個隊(duì)伍參加了評測,測試效果最好的隊(duì)伍使用了基于詞匯距離和語音相似度的候選詞查詢,隨后借助N元語法模型進(jìn)行排序后輸出結(jié)果。文獻(xiàn)[16]采用了一種基于混合方法的俄文拼寫檢查和自動糾正策略,綜合使用了黑名單、錯誤詞典、詞向量模型、N元語法模型和三重錯誤檢測的方法,同樣使用了GICR作為測試數(shù)據(jù)集。
第五,其他研究。文獻(xiàn)[17]基于GICR語料庫對俄語固定搭配進(jìn)行了研究,借助語料庫手段可以拓展固定搭配詞典,量化評估了固定搭配使用時對共時特點(diǎn)以及歷時形成特征。文獻(xiàn)[18]使用三個大型:俄語國家語料庫、GICR和包含詞句法關(guān)系和共現(xiàn)信息的語料庫(CoSyCo)研究了形容詞“гордий”在現(xiàn)代新聞文本中的使用問題,研究結(jié)果表明包含了清晰語料類型劃分和文本來源信息的語料庫對于詞匯研究更加有利。
4 結(jié)束語
網(wǎng)絡(luò)語料庫是大數(shù)據(jù)時代語料庫語言學(xué)研究和發(fā)展的必然產(chǎn)物,GICR語料庫的出現(xiàn)正是這一趨勢的有力證明。隨著該語料庫在語料規(guī)模、組織結(jié)構(gòu)、標(biāo)注精度、檢索方法等方面的不斷進(jìn)步,必將越來越廣泛地運(yùn)用到現(xiàn)代俄語語言學(xué)研究、翻譯研究、社會語言學(xué)研究等諸多領(lǐng)域,成為俄語語言現(xiàn)象量化研究、語言信息自動處理的重要數(shù)據(jù)支撐和依據(jù),未來研究潛力與應(yīng)用前景十分廣闊。
參考文獻(xiàn):
[1] Kilgarriff, A.&G. Grefenstette. Web as corpus[A]. Proceedings of Corpus Linguistics 2001. Corpus Linguistics[C]. Readings in a Widening Discipline, 2001.
[2] Baroni, M., S.Bernardini, A.Ferraresiet al. The WaCky wide web: a collection of very large linguistically processed web-crawled corpora [J]. Language resources and evaluation, 2009(43).
[3] Sch?fer, R. & F.Bildhauer Building Large Corpora from the Web Using a New Efficient Tool Chain[A] LREC-2012[C]. 2012.
[4] Ljube?i?, N. &T.Erjavec. hrWaC and slWaC: Compiling web corpora for Croatian and Slovene[A]. International Conference on Text, Speech and Dialogue[C]. Springer Berlin Heidelberg, 2011.
[5] Benko,V. Aranea: Yet another family of (comparable) web corpora[A]. International Conference on Text, Speech, and Dialogue[C]. Springer International Publishing, 2014.
[6] Jakubí?ek, M., A.Kilgarriff, V.Ková?et al. The tenten corpus family[A].7th International Corpus Linguistics Conference CL[C]. 2013.
[7] Sharoff, S. Creating general-purpose corpora using automated search engine queries[J]. WaCky Working Papers on the Web As Corpus Gedit, 2006.
[8] Беликов, В., П.Селегей, А.Шаров. Пролегомены к проекту Генерального интернет-корпуса русского языка (ГИКРЯ)[A]. Компьютерная лингвистика и интеллекту- альные технологии: По материалам ежегодной Международной конференции ?Диалог?[C], Бекасово, 2012.
[9] Sharoff, S.&J.Nivre. The proper place of men and machines in language technology: Processing {Russian} without any linguistic knowledge[A]. In Dialogue, Russian International Conference on Computational Linguistics[C] Bekasovo, 2011.
[10] Селегей, В., О.Шаврина, П.Селегейet al.Автоматическая морфоразметка корпусов русскоязычных социальных медиа: обучение и оценка качества[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Москва, 2016.
[11] ШавринаО.&А.Сорокин.Моделирование расширенной лемматизации для русского языка на основе морфологического парсера TnT-Russian[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Бекасово, 2015.
[12] Sorokin, A., V.Baytin, E.Galinskayaet al. SpellRuEval: the First Competition on Automatic Spelling Correction for Russian[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016”[C]. Moscow, 2016.
[13] Katinskaya, A. &S.Sharoff. Applying Multi-dimensional Analysis to a Russian Webcorpus: Searching for Evidence of Genres[A]. In Proc. of the Workshop on Balto-Slavic Natural Language Processing associated with the International Conference RANLP[C]. Hissar: Bulgaria, 2015.
[14] Сорокин, А.Автоматическая региональная классификация на основе словаря региональной лексики: пробное исследование[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C]. Бекасово, 2015.
[15] Беликов, И., Ю. Копылов, Ч. Пиперскиetal. Корпус как язык: от масштабируемости к дифференциальной полноте[A].Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C].Бекасово, 2013 (12).
[16] Dereza,V., A.Kayutenko, A.Marakasovaet al. A Complex Approach to Spellchecking and Autocorrection for Russian[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” [C],Moscow, 2016.
[17] Захаров, П.Сочетаемость через призму корпусов[A]. Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции ?Диалог?[C], Бекасово, 2015.
[18] Lukashevich, Y., S.Klyshinsky&M.Kobozeva. Lexical Research in Russian: are Modern Corpora Flexible Enough?[A]. Computational Linguistics and Intellectual Technologies: Proceedings of the International Conference “Dialogue 2016” [C]. Moscow, 2016.