江 荻, 龍從軍
(1. 江蘇師范大學(xué) 漢語和漢藏語研究中心,江蘇 徐州 221116;2. 中國社會科學(xué)院 民族學(xué)與人類學(xué)研究所,北京 100081; 3. 中國社會科學(xué)院大學(xué) 文學(xué)院,北京 100081)
民族語言屬于低資源語言,隨著社會經(jīng)濟(jì)的發(fā)展,其越來越成為一種稀缺資源。然而語言是文化的傳承載體,多樣的民族語言承載了多樣的文化類型。珍貴的民族語雙語對譯文本數(shù)據(jù)為民族語言文化傳承保護(hù)和跨學(xué)科研究提供了豐富的素材。
中華人民共和國成立以來,我國學(xué)者發(fā)表了大批民族語言研究成果,包括研究論文、個人專著、系列叢書和辭書?!睹褡逭Z文》是刊發(fā)民族語言研究成果的主要陣地。自1979年創(chuàng)刊到2023年3月刊發(fā)文章3528篇。一些大學(xué)學(xué)報、語言學(xué)期刊、論文集、零星出版的個人專著以及系列叢書是民族語言數(shù)據(jù)的重要來源。尤其需要強(qiáng)調(diào)的是民族語言學(xué)界5套規(guī)模宏大的叢書,分別是《中國少數(shù)民族語言簡志》叢書(57部)、《新發(fā)現(xiàn)語言研究》叢書(48部)、《中國瀕危語言志》少數(shù)民族語言系列叢書(20部)、《中國少數(shù)民族語言參考語法研究系列叢書》(13部)和《中國少數(shù)民族語言系列詞典叢書》(23種)。這些紙質(zhì)出版物中的數(shù)據(jù)大體都采用了隔行對譯方法,以民族語言和國家通用文字隔行對譯的方式呈現(xiàn)。然而,由于受民族語言文本自身特點(diǎn)以及民族語言信息技術(shù)發(fā)展緩慢和研究群體規(guī)模小等的條件限制,當(dāng)前對這些大規(guī)模數(shù)據(jù)進(jìn)行整理,制作成語料庫,實(shí)現(xiàn)自由檢索還存在較大困難。尤其是20世紀(jì)中后期大量民族語言專業(yè)文本以紙質(zhì)形式出版,后來有了PDF電子版,但是還未能滿足智慧檢索和二次開發(fā)條件。2015年開始實(shí)施的“中國語言保護(hù)工程”項(xiàng)目,實(shí)行按照隔行對照模式標(biāo)注和存儲民族語言數(shù)據(jù),具備了進(jìn)一步開發(fā)應(yīng)用的基礎(chǔ)。但到目前為止,長篇語料的隔行標(biāo)注文本還未見在線發(fā)布??梢?以國際音標(biāo)為轉(zhuǎn)寫形式的在線檢索的民族語言標(biāo)注文本數(shù)據(jù)資源十分缺乏。
隨著信息技術(shù)的發(fā)展,一些有傳統(tǒng)文字文獻(xiàn)的民族語言在線隔行標(biāo)注文本資源建設(shè)有一定的進(jìn)展。例如龍從軍等發(fā)布系列藏文古文獻(xiàn)隔行對照標(biāo)注語料庫,(1)中國社會科學(xué)院民族學(xué)與人類學(xué)研究所多文種隔行標(biāo)注語料庫[DB/OL].http://106.13.43.240.8021/,訪問時間:2023-06-03.該語料庫包括吐蕃時期的藏文金銘石刻27件文獻(xiàn)、《拔協(xié)》《韋協(xié)》《柱間史》《底吾史記》等著名典籍的全文隔行標(biāo)注語料。
在國際上,人類學(xué)和民族語言學(xué)者一直提倡和踐行民族語言隔行標(biāo)注語料的制作和使用。一些非營利的社會組織以在線形式,開展全世界民族語言資源積累,其中也有一部分隔行標(biāo)注文本,如SIL International(SIL)長期致力于世界上民族語言數(shù)據(jù)的收集、整理和研究,(2)Endangered Languages Project[DB/OL].https://www.sil.org/.,訪問時間:2023-06-03.馬克斯·普朗克人類認(rèn)知和神經(jīng)科學(xué)研究所為了給語言學(xué)家和研究人員提供各種語言學(xué)數(shù)據(jù)的資源庫,主持了The Language Archive(TLA)(3)The Language Archive [DB/OL].https://tla.mpi.nl/.,訪問時間:2023-06-03.和The Endangered Languages Project(4)Endangered Languages Project [DB/OL].https://www.endangeredlanguages.com/.,訪問時間:2023-06-03.等項(xiàng)目,這些研究促進(jìn)了民族語言隔行標(biāo)注文本制作,但是收錄的語種數(shù)量和文本規(guī)模還非常有限,尤其是涉及我國境內(nèi)民族語言的標(biāo)注文本就更少了。
互聯(lián)網(wǎng)技術(shù)改變了人們獲取資源的方式,“加快數(shù)字化發(fā)展,建設(shè)數(shù)字中國是國家信息化戰(zhàn)略的重要組成部分”(5)宋繼華,張曼,何春.教育數(shù)字化轉(zhuǎn)型與國際中文教育數(shù)字生態(tài)建設(shè)[J].云南師范大學(xué)學(xué)報(對外漢語教學(xué)與研究版),2023,(5).,檢索數(shù)據(jù)資源成為專家學(xué)者和普通使用者的一種期盼。結(jié)構(gòu)化在線語言數(shù)據(jù)又是基于大數(shù)據(jù)分析、人工智能的基礎(chǔ),傳統(tǒng)紙質(zhì)載體的民族語言數(shù)據(jù)逐漸會通過數(shù)字人文技術(shù)實(shí)現(xiàn)電子化和文本化。把具有規(guī)范化、標(biāo)準(zhǔn)化的民族語言標(biāo)注文本實(shí)現(xiàn)在線檢索,會對民族語言研究有極大的推動作用。由中國社會科學(xué)院民族學(xué)與人類學(xué)研究所主持完成的《中國民族語言語法標(biāo)注文本》叢書,以呈現(xiàn)長篇語料為核心,通過國際音標(biāo)轉(zhuǎn)寫原文,并按照原文行、標(biāo)注行、翻譯行3行對照的形式,對藏、彝、哈尼、納西、土家、白、壯、黎、水、維吾爾、佤、獨(dú)龍等民族的傳統(tǒng)口傳故事、族群起源傳說、日??谡Z對話、兒童或寓言故事文本進(jìn)行了語法標(biāo)注。這種語料處理范式對語言類型學(xué)、歷史語言學(xué)、區(qū)域語言學(xué)、語言接觸研究等資源依賴型學(xué)科有重要的價值,也為從事民族學(xué)、人類學(xué)、歷史學(xué)和自然語言處理的學(xué)者提供必備的資源。該叢書目前已出版兩集20部,其作為小語種低資源真實(shí)文本語料具有重要的研究價值和應(yīng)用價值,且規(guī)模已達(dá)千萬字?jǐn)?shù)以上,引起了國內(nèi)外廣泛重視。但紙質(zhì)版的語言資源是一種靜態(tài)資源,以著作形態(tài)呈現(xiàn),無法提供數(shù)據(jù)自由索引,不能實(shí)現(xiàn)文本多功能動態(tài)檢索和統(tǒng)計,因此實(shí)際使用效率較低。為解決這樣的現(xiàn)實(shí)問題,國家社會科學(xué)基金規(guī)劃辦組織專家開展論證,同意設(shè)立相應(yīng)選題破解這樣的難題,使珍稀的民族語言文化資源面向?qū)W術(shù)和社會,為更廣泛的語言知識、語言認(rèn)知、語言教學(xué)、語言文化認(rèn)同和語言信息處理等學(xué)科提供優(yōu)質(zhì)服務(wù)。(6)近年,學(xué)者們多角度提出少數(shù)民族語言的保護(hù)和應(yīng)用。參見:范俊軍.瀕危語言數(shù)字博物館建設(shè)綜論[J].博物館管理,2022,(4).本文著重討論這部分資源的應(yīng)用技術(shù)實(shí)現(xiàn)問題。
《中國民族語言語法標(biāo)注文本》叢書于2010年獲中國社會科學(xué)院重大課題立項(xiàng),2012年獲國家社會科學(xué)基金重大招標(biāo)課題支持,先后入選2015年度(第一批)和2019年度(第二批)國家出版基金資助項(xiàng)目,并被列為“十二五”“十三五”國家重點(diǎn)圖書出版規(guī)劃項(xiàng)目。參與該項(xiàng)目科研人員30余人,涉及國內(nèi)侗臺、苗瑤、藏緬、南亞、阿爾泰等多個語系語族語言和方言,目前已出版20部,具體是:藏語拉薩話、土家語龍山話、哈尼語綠春話、白語大理話、藏語甘孜話、嘉戎語卓克基話、壯語武鳴話、納木茲語木里話、水語苗草話、維吾爾語烏魯木齊話、哈尼語窩尼話、義都語西巴話、達(dá)讓語察隅話、多續(xù)語冕寧話、藏語噶爾話、彝語涼山話、獨(dú)龍語孔當(dāng)話、納西語大研鎮(zhèn)話、黎語白沙話、佤語巖帥話,總字?jǐn)?shù)約為1000萬字。(7)江荻.中國民族語言語法標(biāo)注文本叢書[M].北京:社會科學(xué)文獻(xiàn)出版社,2016;江荻,燕海雄,黃行.中國民族語言語法標(biāo)注文本叢書[M].北京:社會科學(xué)文獻(xiàn)出版社,2019.
該叢書的編撰思想和學(xué)術(shù)價值是多方面的,這是中華人民共和國成立以來第一次以大規(guī)模真實(shí)文本方式開展的語言調(diào)查研究,相當(dāng)程度上改變了數(shù)十年形成的語言調(diào)查和語法研究模式。按照項(xiàng)目設(shè)計方案,文本叢書的具體內(nèi)容包括民間傳統(tǒng)口傳故事、族群起源神話傳說、兒童或寓言故事、日??谡Z對話等。這些文本資源一方面有相當(dāng)高的口語性和真實(shí)性,同時也具有一定的文化積累性和相應(yīng)的文學(xué)水平,是相當(dāng)難得的民族性、文學(xué)性文化資源,對于從事民族學(xué)、社會學(xué)、人類學(xué)、歷史學(xué)、語言學(xué)和其他學(xué)術(shù)研究的學(xué)者都有重要參考價值。而項(xiàng)目記錄形式對語言學(xué)本體研究也十分重要,一是涉及語言廣泛,二是采用了國際通行的小語種隔行對照化標(biāo)注文本模式,其目的是為民族語言研究和創(chuàng)建中國語言理論提供豐富的基礎(chǔ)材料。叢書的學(xué)術(shù)價值和特征主要體現(xiàn)在以下3個方面。
1. 以標(biāo)注文本為核心的創(chuàng)新范式。中國民族語言領(lǐng)域內(nèi),以往傳統(tǒng)觀念總是把記錄語料作為語法著作的附錄,數(shù)量少且處于附屬地位。這套叢書直接將標(biāo)注文本作為正文主體,語音、詞匯和語法導(dǎo)論作為閱讀文本標(biāo)注體系的參考。這樣的設(shè)計甚至比時興的“參考語法”更為超前,目的就是讓語言概況或語法導(dǎo)論服務(wù)于大規(guī)模語法標(biāo)注資源,接受真實(shí)文本資源的測試和檢驗(yàn)。這種創(chuàng)新研制思路開拓了語言研究的新方向,跟學(xué)界倡導(dǎo)的記錄語言學(xué)不謀而合。(8)黃成龍,李云兵,王鋒.紀(jì)錄語言學(xué):一門新興交叉學(xué)科[J].語言科學(xué),2011,(3).更具價值的是,叢書作者所采錄的文本大多來自田野調(diào)查,或來自民間記錄故事,與以往的例句翻譯式調(diào)查或誘導(dǎo)式例句調(diào)查相比,這樣的語料從本源上避免了主觀性,甚至杜絕了母語人自身的內(nèi)省式語法案例。從方法論上看,如果以真實(shí)文本為語料的研究能推動學(xué)術(shù)界重視和形成描寫語言研究范式,這樣的創(chuàng)新是非常有價值的。
2. 以基本語法結(jié)構(gòu)為基礎(chǔ)標(biāo)準(zhǔn)的依據(jù)。建立語法描寫的基本標(biāo)準(zhǔn),這是基于項(xiàng)目為語言專題深度研究提供支撐的服務(wù)理念設(shè)計。我們從三方面加以說明。首先,我們認(rèn)為新近發(fā)展的一些語言分支學(xué)科具有資源依賴性質(zhì),例如語言類型學(xué)一般是跨語言或跨方言的,語言接觸研究也需要雙語或多語資源的支持。對于無文字語言,它們的語法化或詞匯化研究更需要親屬語言的相互印證。至于機(jī)器翻譯也一定是在雙語或多語語料相互對照條件下才能開展起來的。其次,叢書包含藏緬語言、侗臺語言、苗瑤語言、南亞語言以及阿爾泰語言,類型差異很大,譬如有的語言是SVO語序,有的則是SOV語序;有的是前置詞系統(tǒng),而有的則是后置詞(詞格)系統(tǒng)等等。特別是目前各語言研究的廣度和深度差異較大,采納的理論和研究的方法也不完全相同,為此,確定一個簡潔的基本結(jié)構(gòu)方法或描寫方法對文本進(jìn)行基礎(chǔ)語法標(biāo)注是合適的。其三,學(xué)有所長,術(shù)有專攻。真正利用這套叢書語料的學(xué)者未必熟悉各種語言,更不可能很快掌握這些陌生語言的語法體系,要求每個學(xué)者都調(diào)查多種語言、掌握多種語言并不現(xiàn)實(shí),也沒必要。在這個意義上,我們組織專業(yè)人員開發(fā)可供其他學(xué)者開展專題深入研究的文本資源,特別是熟語語料語法標(biāo)注文本就非常有價值。顯然,從以上敘述可以看出,基礎(chǔ)標(biāo)注就是無論某語言是何種類型,無論某語言研究的深度如何,這套叢書都以基本語法結(jié)構(gòu)框架來標(biāo)注各種語言的詞法形態(tài)和句法現(xiàn)象,例如“性、數(shù)、格、時、體、態(tài)”范疇,同時標(biāo)上通用語對譯詞語。值得提示的是,這套叢書的作者都是各自民族語言領(lǐng)域的專家,他們對語言的結(jié)構(gòu)描寫和基礎(chǔ)標(biāo)注為讀者提供了一個了解該語言的高起點(diǎn)平臺。
3. 適用于真實(shí)文本資源的科學(xué)體系。叢書具體處理方法上采用了兩種可行技術(shù),一是國際小語種通行的隔行對照(Interlinearization),即將民族語(小語種)跟通用語(如漢語或英語)分行書寫,同時又使兩種語言的詞語和語法符號之間分行對齊。這種方法是目前世界各國學(xué)者研究少數(shù)族群語言的主流方法,通過隔行對照化形成一種語言學(xué)家或語言學(xué)專業(yè)研究生都能讀懂的文本,即三行一體隔行對照化文本。(9)德國Lincom GmbH出版社連續(xù)多年資助出版世界各地小語種學(xué)術(shù)著作,其中特別設(shè)立Languages of the World/Text Collections系列,幫助語言調(diào)查者出版小語種標(biāo)注,即本文所說隔行對照化標(biāo)注文本。例如Tikaram Poudel 2006年出版了Rajbanshi Grammar and Interlinearized Text(尼泊爾和孟加拉的一種印度-亞利安語言);Karnakhar Khatiwada 2017年在Lincom: Europa公司出版了A Reference Grammar of Dhimal描寫著作,這是尼泊爾東南部一種瀕危的藏緬語;后又單獨(dú)出版了Interlinearized texts in Dhimal with Grammar notes(戴瑪語隔行對照化語法標(biāo)注文本)。迄今,該出版社已出版500余種小語種語言著作,包括部分隔行對照化語法標(biāo)注對齊技術(shù)的文本。例如嘉戎語(本例有韻律行,某些語言可能有文字行):
韻律行:161t?wam?e?e?ikoj原文行:t?wam?e?ê?ik?j分析行:t?-wam=?e?ê?ik?=j標(biāo)注行:N-熊=PL樹上=LOC
韻律行:162...t?wik?z??tipt?er?原文行:t?wik?za?tipt?êr?分析行:t?-wik?-za-?=tipt?êr?標(biāo)注行:N-橡實(shí)NMZL-吃1-2/3PL=TOP:OBL然后翻譯行:161~162老熊在樹上吃橡實(shí)的時候
觀察上述嘉戎語例句可知,韻律行包括輕重音、聲調(diào)或句調(diào)、停頓和延長等韻律要素,分析行可能將詞根、前后詞綴等切分出來呈現(xiàn),標(biāo)注行則采用通語文字和語法標(biāo)注符號逐詞逐符對分析行進(jìn)行標(biāo)注,翻譯行是全句的直譯,有時會包括多個韻律行短語小句。
語言學(xué)是世界通行的一門學(xué)術(shù)領(lǐng)域和體系,語言學(xué)研究水平表征著一個國家科學(xué)研究的軟實(shí)力。如果中國語言資源能獲得廣泛應(yīng)用,成為學(xué)術(shù)界和社會各界的公共產(chǎn)品,則必定推動中國語言學(xué)的進(jìn)步和發(fā)展,也凸顯出這類資源的價值和作用。這個目標(biāo)是我們推進(jìn)本項(xiàng)目資源檢索應(yīng)用的主要動力。
《中國民族語言語法標(biāo)注文本》叢書采用統(tǒng)一書稿體例,每冊內(nèi)容分3個部分:語法導(dǎo)論、文本標(biāo)注和索引詞表。考慮到文本標(biāo)注是隔行對照形式,雖然這3部分的內(nèi)容和格式可分別采用不同檢索策略,但在保持輸出風(fēng)格一致基礎(chǔ)上,主要檢索結(jié)果都將是基于Lucene原理(全文檢索引擎框架)的TXT與相應(yīng)PDF(非結(jié)構(gòu)化數(shù)據(jù))雙文本全文檢索技術(shù),即對TXT文本建立索引,又通過將TXT文本檢索實(shí)現(xiàn)為PDF顯示輸出方式。
圖1呈現(xiàn)了本文數(shù)據(jù)采錄、存儲、分析和輸出展示功能框架。數(shù)據(jù)庫部分用于存儲語法標(biāo)注文本中的語料資源,包括原始語料資源的處理過程以及存儲方式,也是整體框架里的數(shù)據(jù)錄入部分。數(shù)據(jù)分析部分則主要用于對存儲在數(shù)據(jù)庫內(nèi)的數(shù)據(jù)進(jìn)行分析,由于后續(xù)需要不斷擴(kuò)充此部分的功能,所以采用模塊化的方法,并且提供相應(yīng)的數(shù)據(jù)接口,供數(shù)據(jù)平臺調(diào)用。而用戶交互部分則可以理解為用戶所看到的界面。另外我們還會單獨(dú)設(shè)計一個數(shù)據(jù)展示平臺,在該部分中,靈活性和可擴(kuò)展性是我們主要考慮的問題。該部分主要用于顯示檢索到的數(shù)據(jù)內(nèi)容,同時對檢索到的內(nèi)容進(jìn)行分析并將分析結(jié)果以可視化的方式展示出來。
圖1 線上系統(tǒng)整體框架
按照叢書統(tǒng)一的存儲方式,也可以按照具體內(nèi)容來敘述文本的檢索方法。檢索結(jié)果以檢索詞的高亮方式顯示。
1. 語法知識檢索。該檢索針對“語法導(dǎo)論”部分,檢索輸入內(nèi)容是通用語的語音、詞匯、形態(tài)和語法術(shù)語,也可以是語法范疇或者語法特征標(biāo)記符號,例如“ASP”表示“體”范疇。也可以通過二級詞匯術(shù)語精準(zhǔn)檢索,例如“第三人稱單數(shù)”(3sg),或者“ASPPEF”(體已行體)。輸出結(jié)果一般是包含“語法導(dǎo)論”中該檢索詞條的文本行以及前后若干行文本。例如查找“韻律”得到數(shù)條結(jié)果:(10)局部摘取自:林幼菁.嘉戎語卓克基話語法標(biāo)注文本[M].北京:社會科學(xué)文獻(xiàn)出版社,2016:15.
2. 詞表檢索。每部標(biāo)注文本都帶有該語言所用民漢雙語對照詞匯表(民漢指民族語言和漢語),檢索設(shè)計上一般采用精確檢索方式,可以直接用漢語或者民族語言(音標(biāo)形式或文字的轉(zhuǎn)寫形式)進(jìn)行檢索,輸出包含被檢索項(xiàng)所在頁碼的原書PDF文本雙語對照詞匯表。
3. 文本注釋詞語和語法特征檢索。該部分內(nèi)容是項(xiàng)目最主要的研究對象。設(shè)置三類檢索對象:通語注釋詞語(漢語)、語法特征或語法標(biāo)注符號、民族語言詞形(音標(biāo)或轉(zhuǎn)寫形式)。輸出部分則是包含被檢索項(xiàng)所在頁碼的整頁隔行對照化標(biāo)注文本。
4. 瀏覽檢索。系統(tǒng)列出原書目錄,允許點(diǎn)擊直接切入目錄內(nèi)容頁碼處,然后上下翻頁瀏覽前后3~5頁內(nèi)容。該項(xiàng)功能也適用于知識檢索、詞表檢索和文本語法特征檢索,即在檢索所達(dá)頁面上下翻頁瀏覽。瀏覽檢索能使用戶在一定篇幅內(nèi)閱讀連續(xù)文本,擴(kuò)大信息獲取范圍。
采用雙文本檢索和輸出雖然是技術(shù)實(shí)現(xiàn)上的需求,但也有一定的語用需求因素。換句話說,對整體紙質(zhì)版形式文獻(xiàn)進(jìn)行檢索在一定程度上受到原件的應(yīng)用心理制約。紙質(zhì)版資源呈現(xiàn)的格式給使用者留下了穩(wěn)定可靠的心理印象,是格式不變且可以信賴的資源查驗(yàn)標(biāo)準(zhǔn)。為此,資源的這種存儲形式使檢索設(shè)計者不得不滿足用戶可能存在的這種心理,也就是既要能夠檢索還要能夠與原版文獻(xiàn)對照。根據(jù)這樣的要求,檢索結(jié)果必然以原版文獻(xiàn)形式呈現(xiàn)。例如嘉戎語文獻(xiàn)中檢索POSS(領(lǐng)屬格標(biāo)記),呈現(xiàn)的原文如下:(11)本套叢書都設(shè)計了語法標(biāo)注代碼,這套代碼在檢索系統(tǒng)中具有重要作用。以下標(biāo)注文本來源于林幼菁.嘉戎語卓克基話語法標(biāo)注文本[M].北京:社會科學(xué)文獻(xiàn)出版社,2016:219.
檢索結(jié)果與書稿文獻(xiàn)保持著一致性,滿足了用戶對資源提取可靠性的要求,也釋放了用戶核對原文的壓力。這樣的設(shè)計思路具有較高的人文關(guān)懷和友好意圖。
1. 檢索方法與技術(shù)實(shí)現(xiàn)
依據(jù)需求設(shè)計思路,項(xiàng)目在檢索處設(shè)置了資源范圍和檢索域。資源范圍以20部專著目錄列表作為選擇對象,一次可以選擇一種或多種專著資源,也就是多種語言,通過點(diǎn)擊目錄實(shí)現(xiàn)選擇。檢索域指著作資源的三大板塊:語法知識檢索、詞表檢索、文本和標(biāo)注檢索。檢索域的區(qū)分實(shí)際是為了實(shí)現(xiàn)快速指向和精準(zhǔn)檢索,避免三大板塊檢索詞的相互干擾。同時,由于原著檢索域格式的差異,分域檢索有利于檢索結(jié)果的呈現(xiàn)。
檢索結(jié)果以提示方式初步呈現(xiàn),用戶可進(jìn)入〈快速預(yù)覽〉直接查看包含該資源的原文形式,也可進(jìn)入〈查看原文〉瀏覽該檢索項(xiàng)所在原文頁碼及其上下多頁內(nèi)容(截圖略)。
檢索結(jié)果為用戶提供了接近于翻閱原書、同時又具備高度信息化功能的閱讀體驗(yàn)。展示頁面允許用戶縮放原書,位圖形成的頁面使原書在高度放大后也不會模糊;在展示中可以針對頁面文本進(jìn)行二次查找、標(biāo)記、注釋,在注冊權(quán)限通過的情況下,原文內(nèi)容也可以被選中和拷貝。最后還可以提到,查看原文實(shí)際上也實(shí)現(xiàn)了模糊檢索和上下文檢索的主要功能。
后臺的系統(tǒng)數(shù)據(jù)入庫時,會將數(shù)據(jù)按照分頁、分句、分詞的粒度逐步處理。分頁保障了用戶能夠根據(jù)關(guān)鍵字或指定數(shù)目找到與原書完全一致的頁面。分句一方面是分詞的基礎(chǔ),同時也是預(yù)覽頁面展示的內(nèi)容。分詞將原文拆成最小粒度的詞匯,在經(jīng)過停用詞處理后,選擇有意義、有價值、值得檢索的詞匯存入數(shù)據(jù)庫,同時也保存分句與頁面信息,以便關(guān)鍵詞檢索時使用。為實(shí)現(xiàn)目標(biāo),數(shù)據(jù)庫設(shè)計方面,我們舍棄了傳統(tǒng)的按照對象層級存儲信息的方式,選擇了扁平化的數(shù)據(jù)結(jié)構(gòu),即關(guān)鍵字、詞語統(tǒng)計、語法標(biāo)注、所在分句、書名、原書頁碼等信息壓縮在一個表中存儲。這樣的數(shù)據(jù)表具有非常多的行數(shù),但由于有效信息儲存在同一個記錄(Entry)中,因此減少了數(shù)據(jù)庫檢索次數(shù),主鍵的規(guī)律性使一次性快速檢索的速度和成功率相當(dāng)之高。
2. 數(shù)據(jù)統(tǒng)計
本檢索系統(tǒng)提供常用的統(tǒng)計信息,包括每本書標(biāo)注文本部分的詞頻、語法標(biāo)記符號的頻次。標(biāo)注文本采用了隔行對照形式,包括原文行、分析行、標(biāo)注行和意譯行,同時在每個隔行標(biāo)注故事之后還提供了全文翻譯。統(tǒng)計功能只針對文本標(biāo)注隔行對照部分內(nèi)容,忽略意譯行和全文翻譯部分的文字,例如下面圖書中常見的兩種材料格式:三行和兩行對照格式。
不管是三行還是兩行,民族語言詞條的統(tǒng)計以倒數(shù)第二行為準(zhǔn),對照漢語和語法標(biāo)記以倒數(shù)第一行為準(zhǔn);尤其是在以漢語為目標(biāo)詞條統(tǒng)計時,要忽略意譯行和篇翻譯文本,更不能把標(biāo)注文本之外的內(nèi)容統(tǒng)計進(jìn)來。這樣便于使用者準(zhǔn)確了解標(biāo)注文本的實(shí)際情況,對目標(biāo)語言的理解和把握更加精準(zhǔn)。
統(tǒng)計數(shù)據(jù)能從整體上了解一門語言的情況。隔行對照文本的特點(diǎn)是對真實(shí)口語文本的語法范疇和語法特征進(jìn)行標(biāo)記,在一定的文本數(shù)量的范圍內(nèi),標(biāo)記符號的數(shù)量能夠反映出該語言的語法大概情況?!吨袊褡逭Z言語法標(biāo)注文本》20本書的標(biāo)注文本數(shù)量多少不一,但大體保持在300頁左右,詞的總數(shù)量與語法標(biāo)記的比例關(guān)系可以揭示幾種事實(shí),一是這種語言中語法范疇和語法特征的豐富程度,但是需要讀者客觀看待,因?yàn)槊恳槐緯淖髡邔φZ法特征的分析粒度也反應(yīng)在語法標(biāo)記的數(shù)量上;二是可以反映每一種語法標(biāo)記在該語言中的分布狀況,有些標(biāo)記用得多,大體能說明該種語法現(xiàn)象普遍;有些標(biāo)記用得少,大體能說明該種語法現(xiàn)象稀疏。
下面以林幼菁《嘉戎語卓克基話語法標(biāo)注文本》為例來分析。作者在書的前面列示了50個縮略標(biāo)記符號。其中1、2、3表示第一、二、三人稱,實(shí)際上在文本中出現(xiàn)時,1、2、3總是和表示單數(shù)、復(fù)數(shù)的SG和PL共現(xiàn),因此在統(tǒng)計分析時,以1SG、1PL、2SG、2PL、3SG、3PL為統(tǒng)計對象。該書的語法標(biāo)記符號統(tǒng)計基本情況如表1所示。
表1 《嘉戎語卓克基話語法標(biāo)注文本》語法標(biāo)記統(tǒng)計表
從表1可以看出,嘉戎語卓克基話在文本中出現(xiàn)的語法范疇和語法特征的總體情況,數(shù)量排在前五的語法標(biāo)記分別是:NMZL(名詞化)、PFV(完整體)、TOP(話題)、POSS(領(lǐng)屬)、COP(系詞)。排在后五的語法標(biāo)記分別是:2PL(第二人稱復(fù)數(shù))、HAB(習(xí)慣體)、VLZR(動詞化標(biāo)記)、RECP(互相)、APPL(應(yīng)用標(biāo)記)。
再看看徐世璇的《土家語語法標(biāo)注文本》,作者提供的語法標(biāo)記符號23個,與嘉戎語卓克基話相比,數(shù)量上少了一半,表2是土語家語語法標(biāo)記統(tǒng)計情況。排在前五的語法標(biāo)記分別是:ASPP(體助詞)、STRP(結(jié)構(gòu)助詞)、TOP(話題語氣詞)、3sg(第三人稱單數(shù))、CASP(格助詞),排在后五位的分別是:HYPC(假設(shè)連詞)、CAUC(因果連詞)、COOC(并列連詞)、IMPM(祈使語氣)、1pl(第一人稱復(fù)數(shù))。
表2 《土家語語法標(biāo)注文本》語法標(biāo)記統(tǒng)計表
從表2的語法標(biāo)記符號體系和統(tǒng)計數(shù)據(jù)可以初步了解到土家語與嘉戎語的語法類型差別較大,不論從語法標(biāo)記的豐富程度還是不同類型的語法標(biāo)記的使用頻次,都表現(xiàn)出較大的差異性。
通過比較土家語與嘉戎語兩種語言的語法標(biāo)記符號,我們可以發(fā)現(xiàn),除了人稱標(biāo)記基本相同之外,只有TOP(話題標(biāo)記)是共有的。一方面說明語言類型的差異,但另一方面也能反映出不同作者在進(jìn)行文本標(biāo)注時,對某些相同、相似語法現(xiàn)象的認(rèn)識和看法不一致。因此,選擇語法標(biāo)記也就存在差別,這說明了我國民族語言的語法特征豐富,也說明在民族語言語法標(biāo)記選用的一致性方面還需要做很多工作。我們對20本書的共用語法標(biāo)記符號提取時,難以找到某一語法標(biāo)記在20種語言和方言中共用的實(shí)例。一些比較常見的語法特征標(biāo)記在某幾種語言中是共有的。語法標(biāo)記PFV(完整體)、LOC(位格)、ABL(從格)、ALL(向格)、COP(系詞)、DAT(與格)出現(xiàn)的情況如圖2所示。
PFV(完整體) LOC(位格) ABL(從格)
ALL(向格) COP(系詞) DAT(與格)
從這些關(guān)系圖可以清楚看到,不同語言中的相同語法標(biāo)記,這有利于揭示語言之間的共性特征,如果在統(tǒng)一規(guī)范的標(biāo)注前提下,有一定規(guī)模語料的支持,可以為語言之間的系屬關(guān)系研究提供新材料和新視角。當(dāng)然本文主要討論這種研究手段和方法,我們將另文深入討論一些語法特征的共性和語言關(guān)系親疏問題。
總之,基于大規(guī)模語法標(biāo)注文本,借助語料庫、計算語言學(xué)的方法理論和數(shù)字人文技術(shù),可以為中國語言學(xué)界提供豐富多樣的中國民族語言材料,通過知識關(guān)聯(lián)和可視化方法為大眾提供民族語言基礎(chǔ)知識,也為中國民族語言文化知識的普及傳播奠定良好的基礎(chǔ),從這一點(diǎn)看,大規(guī)模隔行對照文本數(shù)據(jù)庫構(gòu)建已經(jīng)體現(xiàn)出其重要的價值和意義。
《中國民族語言語法標(biāo)注文本》叢書出版以來,學(xué)界對叢書的評價很高,例如劉丹青(2022)(12)劉丹青.文本標(biāo)注的歷史性跨躍與改進(jìn)空間——以《中國民族語言語法標(biāo)注文本》叢書為例[C].中國民族語言學(xué)會語言類型學(xué)專業(yè)委員會第五屆學(xué)術(shù)年會,2022.。但對叢書更多的意見和建議是“難以查詢”。當(dāng)然,這正是本項(xiàng)目擬解決的主要問題。針對帶標(biāo)注和注釋的隔行對照化文本的對齊顯示,雖然可以采用不同檢索方式,本文采用的全文檢索引擎原理方案同時考慮了用戶對原著的信賴,同時也能提供上下文語境瀏覽功能。此外,以下5個方面也是本項(xiàng)目真正價值所在。第一,可檢索性。即克服紙質(zhì)文本資源應(yīng)用上的固化和不方便。第二,強(qiáng)功能性。紙質(zhì)文本是散裝形式,每部書之間雖有共性卻難以共用,而本項(xiàng)目可使所有專著資源關(guān)聯(lián)起來,以前很多無法開展的工作都可以實(shí)現(xiàn)。例如可以通過檢索趨向特征發(fā)現(xiàn)各種語言的趨向形式,形態(tài)關(guān)系,甚至淵源關(guān)系。第三,時效性。在線電子檢索系統(tǒng)徹底擯棄逐頁查看文本內(nèi)容方式,用戶可在短時間快速查看檢索結(jié)果,大幅提高效率。第四,可擴(kuò)展性。本套叢書目前僅出版了20部,相對上百種中國少數(shù)民族語言,還有極大的擴(kuò)充空間。我們相信,采用在線檢索方式有可能建立一種新的資源積累范式,加速中國(民族)語言文本資源的積累。第五,學(xué)術(shù)深度發(fā)展。本項(xiàng)目的成功一定會在某種程度上推動中國語言學(xué)的發(fā)展,即所謂大規(guī)模真實(shí)文本資源基礎(chǔ)上的深度研究。(13)丁石慶.中國語言資源保護(hù)工程語料資源的質(zhì)量、價值和效用——以少數(shù)民族語言材料為例[J].暨南學(xué)報(哲學(xué)社會科學(xué)版),2018,(10).
小語種低資源民族語言是語言學(xué)資源中很獨(dú)特的一個類型,值得學(xué)術(shù)界細(xì)心呵護(hù),精心培植,使其成為賡續(xù)中華文明和鑄牢中華民族共同體意識的重要一環(huán)。
云南師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)2023年6期