尕藏才讓
關(guān)鍵詞:NLP文本檢查藏文文法
計(jì)算機(jī)時(shí)代的到來(lái)開(kāi)啟了自然語(yǔ)言的自動(dòng)處理先河。早在二戰(zhàn)時(shí)期,就有美國(guó)數(shù)學(xué)家沃倫·韋弗指出“德語(yǔ)只是用密碼寫(xiě)成的英語(yǔ)而已”。他在戰(zhàn)后構(gòu)想的機(jī)器翻譯概念直接啟發(fā)和推動(dòng)了冷戰(zhàn)時(shí)期以英俄語(yǔ)翻譯為主的機(jī)器翻譯。自然語(yǔ)言處理從最初的基于規(guī)則的方法,到今天的基于深度學(xué)習(xí)的方法,技術(shù)得到了革命性變革。如今,NLP技術(shù)水平已不同往日,除了機(jī)器翻譯,其還被廣泛應(yīng)用在輿情檢測(cè)、自動(dòng)摘要、文本分類、語(yǔ)音識(shí)別、智能問(wèn)答和人工智能等眾多領(lǐng)域。
由于互聯(lián)網(wǎng)首先在英語(yǔ)國(guó)家發(fā)展成型,所有在現(xiàn)階段的英語(yǔ)處理水平基本上代表著國(guó)際最頂尖的NLP技術(shù)水平1)因?yàn)楦鱾€(gè)自然語(yǔ)言的文法規(guī)則有差別,導(dǎo)致各個(gè)語(yǔ)種之間的處理技術(shù)有一定的差異性,在進(jìn)行跨語(yǔ)種的NLP技術(shù)的研究時(shí),只能進(jìn)行淺層次的借鑒,而不能完全搬抄。甚至同語(yǔ)言不同方言的NLP技術(shù)都需要設(shè)計(jì)和采用不同的算法程序。本文以研究者較為熟練的藏漢兩種文字為例,從文本檢查的角度簡(jiǎn)要概述不同語(yǔ)言間,由不同的語(yǔ)言特性所帶來(lái)的NLP技術(shù)差異。
1漢藏NLP技術(shù)發(fā)展回顧
1.1漢文的NLP技術(shù)發(fā)展
漢文是不同于英文的表意字,在語(yǔ)法上與大部分拼音文字有巨大差別。恰如語(yǔ)言學(xué)家王力先生所言:“就句子的結(jié)構(gòu)而言,西洋語(yǔ)言是法治的,中國(guó)語(yǔ)言是人治的”。漢文的原始信息化處理開(kāi)拓極其艱難,早期計(jì)算機(jī)和互聯(lián)網(wǎng)在國(guó)內(nèi)的大范圍推廣應(yīng)用直接受制于“計(jì)算機(jī)漢化”工作進(jìn)度,這也是漢文字信息化處理工作要攻克的第一個(gè)難關(guān);1974年,經(jīng)有關(guān)部門(mén)批準(zhǔn)將748工程納入國(guó)家科技發(fā)展計(jì)劃,標(biāo)志著漢文字NLP技術(shù)攻關(guān)在國(guó)家層面得到了重視,其成果引發(fā)了印刷業(yè)的改革。其中,748工程又細(xì)分為精密中文編輯排版系統(tǒng)、中文情報(bào)檢索系統(tǒng)、中文通信系統(tǒng),三者直接為“計(jì)算機(jī)漢化”和中文互聯(lián)網(wǎng)生態(tài)的形成打下了堅(jiān)實(shí)的基礎(chǔ)。發(fā)展至今,“計(jì)算機(jī)漢化”問(wèn)題已基本解決,漢文NLP則更注重于“漢文計(jì)算機(jī)化”,即通過(guò)計(jì)算機(jī)來(lái)處理漢文,輔助甚至代替人類進(jìn)行翻譯、語(yǔ)言識(shí)別控制、情緒識(shí)別等。
相較其他自然語(yǔ)言,漢文NLP水平已走在世界前列,出現(xiàn)了一批優(yōu)秀的科研機(jī)構(gòu)和科技企業(yè),如清華大學(xué)、哈爾濱工業(yè)大學(xué)、科大訊飛、百度等。通過(guò)與知識(shí)圖譜的結(jié)合,可廣泛運(yùn)用于教育、醫(yī)療、養(yǎng)老、旅游等領(lǐng)域。此外,因漢文字所固有的語(yǔ)法復(fù)雜、結(jié)構(gòu)不穩(wěn)定等特性,使?jié)h文字的NLP技術(shù)發(fā)展遇到了瓶頸,影響了整個(gè)技術(shù)的發(fā)展速度。但這幾年隨著深度學(xué)習(xí)和大規(guī)模語(yǔ)料庫(kù)的加持,又使該技術(shù)得到了新的發(fā)展契機(jī)(見(jiàn)圖1)。
1.2藏文的NLP發(fā)展回顧
藏文是參考古印度梵文編制的拼音文字[1],其基本由30個(gè)輔音1)和4個(gè)元音2)組成,有相對(duì)穩(wěn)定和嚴(yán)格的文法體系,但又有別于西方流行的拉丁、日耳曼和斯拉夫等語(yǔ)系的左右橫向拼音排列,還具有從上到下的縱向疊加,對(duì)NLP技術(shù)的算法提出了更高的要求。20世紀(jì)80年代,改革開(kāi)放,百業(yè)初興。在國(guó)內(nèi)外的NLP技術(shù)大發(fā)展的背景下,藏文NLP技術(shù)研究工作也開(kāi)始起步[2]———最早見(jiàn)于報(bào)道的是張連生于1981年用計(jì)算機(jī)進(jìn)行的藏文詞匯排序工作,并于1983年采用李方桂先生提出的藏文羅馬轉(zhuǎn)寫(xiě)方案,實(shí)現(xiàn)了藏文最初的處理系統(tǒng),包括俞樂(lè)等人于1984年在VICTOR9000上設(shè)計(jì)的藏文處理系統(tǒng)和西北民族大學(xué)在WANGVS/80上實(shí)現(xiàn)的藏文字處理系統(tǒng)等。但上述藏文字處理系統(tǒng)缺乏宏觀層面的協(xié)調(diào)和國(guó)家統(tǒng)一標(biāo)準(zhǔn)的制訂,呈現(xiàn)了“各自為政,相互不通”的情況,嚴(yán)重制約了整個(gè)藏文信息處理研究的進(jìn)一步發(fā)展。不過(guò),1997年7月這種情況迎來(lái)了轉(zhuǎn)機(jī)———我國(guó)多部門(mén)、多地方、多高校聯(lián)合制訂的《信息技術(shù)交換用藏文編碼字符集基本集》通過(guò)第33屆SC2/WG2會(huì)議,藏文成為我國(guó)繼漢文后第二個(gè)進(jìn)入國(guó)際ISO/IEC10646標(biāo)準(zhǔn)編碼體系的文字。此項(xiàng)標(biāo)準(zhǔn)的制定也正式打開(kāi)了古老的藏文通向新時(shí)代的大門(mén)。這前后出現(xiàn)的蘭海藏文系統(tǒng)、TCE藏漢英文信息處理系統(tǒng)、北大方正藏文處理系統(tǒng)都呈現(xiàn)了高標(biāo)準(zhǔn)化的現(xiàn)象。此后,藏文NLP計(jì)算的研究對(duì)象越發(fā)廣泛,典型的有字詞頻統(tǒng)計(jì)、語(yǔ)料庫(kù)建設(shè)、自動(dòng)分詞、機(jī)器翻譯、字詞校對(duì)、文本識(shí)別等。
隨著相關(guān)領(lǐng)域的國(guó)家和省級(jí)重點(diǎn)實(shí)驗(yàn)室在西藏大學(xué)、青海師范大學(xué)等藏區(qū)高校落地,加快促進(jìn)了以計(jì)算語(yǔ)言學(xué)為核心的藏文信息處理技術(shù)的研究和各層次人才的培養(yǎng),使藏文信息化處理掀起了一個(gè)前所未有的發(fā)展熱潮。2016年8月,云藏搜索引擎在青海省海南藏族自治州正式上線(見(jiàn)圖2),代表著藏文互聯(lián)網(wǎng)和藏文處理技術(shù)形成了規(guī)模龐大的產(chǎn)業(yè)群。為該領(lǐng)域的產(chǎn)研結(jié)合、產(chǎn)教結(jié)合開(kāi)辟了先河。
2漢文與藏文NPL技術(shù)在文本檢查方法中的差異概述
從語(yǔ)言學(xué)的骨架語(yǔ)法角度來(lái)看,漢文屬于獨(dú)特的“孤立語(yǔ)”,其表義轉(zhuǎn)變主要依賴虛詞和詞序的變化。如“水溫”和“溫水”具有根本詞義上的區(qū)別,但因字之間相互孤立,無(wú)所謂字詞的錯(cuò)誤,而是根據(jù)用詞環(huán)境來(lái)界定。而藏文恰恰不同,其語(yǔ)法和表達(dá)方式帶有很強(qiáng)的“黏著語(yǔ)”的特點(diǎn)。即根據(jù)詞根的后綴或內(nèi)部(即藏文的一個(gè)字節(jié),以隔音符來(lái)界定)的變化實(shí)現(xiàn)語(yǔ)義的轉(zhuǎn)變,如“”和“”僅一個(gè)元音字母()之差帶來(lái)了語(yǔ)義的轉(zhuǎn)變[3]。本文將以漢文和藏文各自的語(yǔ)法差異為出發(fā)點(diǎn),從自然語(yǔ)言文本處理的四個(gè)層面;字、詞、句(上下文無(wú)關(guān))、篇(上下文有關(guān)),試述兩種文字NLP技術(shù)的具體差異。
2.1字層面的拼寫(xiě)檢查方法差異
字的處理是進(jìn)行自然語(yǔ)言文本處理的第一步和基礎(chǔ)。因漢文字本身的語(yǔ)法特點(diǎn),在這層面只需通過(guò)統(tǒng)一編碼的漢字庫(kù),就可以杜絕錯(cuò)別字(即不存在的別字)的出現(xiàn)?,F(xiàn)行的漢字顯示大都由基于Unicode編碼的漢文字機(jī)內(nèi)碼、交換碼、輸入碼、點(diǎn)陣碼、點(diǎn)陣圖來(lái)實(shí)現(xiàn),形成了龐大的具有6萬(wàn)余字的字庫(kù),編碼標(biāo)準(zhǔn)號(hào)為;GB2312?80。在此不做贅述。
不過(guò),藏文字層面的檢查和糾錯(cuò)機(jī)制則更為復(fù)雜[4],藏文由常用的30個(gè)輔音字母和10個(gè)非常用的輔音字母1)以及“”“”“”“”四種元音字符組成。而30個(gè)常用輔音字符中有分別分出10個(gè)后加字、5個(gè)前加字、2個(gè)再(后)加字、3個(gè)上加字、4個(gè)下加字。一個(gè)音節(jié)除了由40個(gè)常用和非常用輔音字母擔(dān)任基字外,還可以在基字上添加上、下、前、后、再加字以及元音字母。如果在拼寫(xiě)環(huán)節(jié)不對(duì)語(yǔ)法規(guī)則進(jìn)行限制,以現(xiàn)有的himalaya藏文輸入法為例,在限制字長(zhǎng)為7的前提下,能輸入48000組不同音節(jié)字符串,但實(shí)際符合藏文音節(jié)2)拼寫(xiě)規(guī)則的只有8000多組,盲打錯(cuò)誤率高達(dá)83%。所以,要采用一定的算法規(guī)則,去規(guī)避和糾正不符合語(yǔ)法的錯(cuò)誤音節(jié)的輸出。
下文將簡(jiǎn)單介紹三種較為可行的方法:一是利用形式語(yǔ)言與自動(dòng)機(jī)理論,構(gòu)造識(shí)別藏文字的有限狀態(tài)自動(dòng)機(jī),將藏文字作為有限自動(dòng)機(jī)進(jìn)行輸入,能夠被自動(dòng)機(jī)識(shí)別的藏文字的拼寫(xiě)則是正確的,否則可能是錯(cuò)誤的。此方法由西藏大學(xué)尼瑪扎西教授提出;二是對(duì)已輸入或正在輸入的藏文字按部件進(jìn)行分解和分析,并在語(yǔ)法上進(jìn)行規(guī)范,從而實(shí)現(xiàn)錯(cuò)別字的過(guò)濾。此辦法由青海民族大學(xué)安見(jiàn)才讓教授提出;三是使用向量模型取值設(shè)限去實(shí)現(xiàn)音節(jié)內(nèi)的拼寫(xiě)檢查,參照藏文語(yǔ)法,把藏文中七個(gè)部件抽象成向量元素,并以元素?cái)?shù)量設(shè)值,再用語(yǔ)法細(xì)則制定規(guī)則,從而制作向量模型,并將其與向量模型對(duì)照映射就可檢查該音節(jié)藏文字符語(yǔ)法的真值結(jié)果。此外,還有基于知識(shí)庫(kù)和產(chǎn)生式推理等處理方法,在此不做贅述。
如今,藏文字層面的拼寫(xiě)檢查理論研究趨于成熟,更多的研究應(yīng)該側(cè)重于實(shí)用化。以上部分的藏文語(yǔ)法以《字性組織法》理論為重點(diǎn)3)。
2.2詞層面的檢查方法差異
不管是孤立語(yǔ)還是屈折語(yǔ)和黏著語(yǔ),到詞層面都需要參照相應(yīng)的語(yǔ)法進(jìn)行書(shū)寫(xiě)檢查和糾錯(cuò)處理,藏漢文字亦如此。此外,藏漢文字有個(gè)不同于西方英、法、西等語(yǔ)言的顯著特點(diǎn)———詞與詞之間沒(méi)有分隔符。所以,分詞系統(tǒng)的設(shè)計(jì)在藏漢兩種語(yǔ)言的NPL技術(shù)中都同樣重要,是詞法分析的基礎(chǔ)性工作。
在深度學(xué)習(xí)之前,詞層面的處理不外乎基于語(yǔ)言學(xué)知識(shí)的規(guī)則約束和基于大規(guī)模語(yǔ)料庫(kù)的統(tǒng)計(jì)匹配。雖然藏漢兩種文字在這個(gè)層面的處理方式差異已經(jīng)變小,但因各自語(yǔ)法的特點(diǎn),也還有一定的差異。
藏文詞層面的處理偏向于語(yǔ)法規(guī)則的約束,此方法相較建設(shè)成本高昂的語(yǔ)料庫(kù)而言,有成本低、算法穩(wěn)定等優(yōu)點(diǎn)。但其對(duì)前期的語(yǔ)法規(guī)則知識(shí)歸納和算法設(shè)計(jì)要求較高。此外,隨著處理對(duì)象的變化,如譯詞、新專用詞以及未登錄詞等的出現(xiàn),必然會(huì)導(dǎo)致誤判情況發(fā)生。同時(shí),在區(qū)別近義詞和歧義詞的差別上不靈敏、細(xì)粒度不夠,往往需要語(yǔ)料庫(kù)的加持。現(xiàn)流行的一部分Android藏文輸入法帶有一定的聯(lián)想匹配功能,亦是在遵循上述原則上拓展實(shí)現(xiàn)的。
漢文詞層面的處理則偏重于語(yǔ)料庫(kù),通過(guò)細(xì)化和擴(kuò)展語(yǔ)料,特別是分詞和標(biāo)記等基礎(chǔ)工作,準(zhǔn)備大容量的熟詞語(yǔ)料庫(kù),加上詞表庫(kù)和每個(gè)詞運(yùn)用環(huán)境正確,再借助統(tǒng)計(jì)和匹配以判斷檢查對(duì)象詞的用法正確。到現(xiàn)在,隨著深度學(xué)習(xí)的使用以及預(yù)訓(xùn)練模型等的成熟運(yùn)用,傳統(tǒng)的語(yǔ)料運(yùn)用和建設(shè)變得更為簡(jiǎn)單。
2.3句子層面的檢查方法差異
句子層面自然語(yǔ)言處理比以上兩個(gè)層次更復(fù)雜、更抽象,而藏漢兩種文字的處理方法也進(jìn)一步趨同[5],但還是有一定的差別———比如,藏文在句法層面的處理就要考慮語(yǔ)法規(guī)則《三十頌》,而漢文字更注重考慮詞序和虛詞等語(yǔ)句構(gòu)件的結(jié)構(gòu)和排序。較為常見(jiàn)的方法體系有:短語(yǔ)結(jié)構(gòu)句法體系和依存結(jié)構(gòu)句法體系[6]。簡(jiǎn)單舉例如“我在拉薩八廓街?!?,按依賴關(guān)系標(biāo)記并寫(xiě)成樹(shù)狀圖(如圖3所示)。
依存結(jié)構(gòu)句法體系所運(yùn)用的表示形式簡(jiǎn)單且可讀性強(qiáng),方便設(shè)計(jì)算法。但不同語(yǔ)種都有各自的語(yǔ)法特色,所以剖析依賴關(guān)系時(shí)需要注意———比如,漢文字中的把字句、被字句;藏文字中的各類格詞和其他非自主副詞(在藏文字節(jié)之間,其表義和書(shū)寫(xiě)要遵循三十頌語(yǔ)法體系。其中,以格屬詞、格動(dòng)詞為主的非自主副在與前詞或整個(gè)語(yǔ)境結(jié)合時(shí),要嚴(yán)格遵循跨音節(jié)的拼寫(xiě)規(guī)則)的作用和使用規(guī)則,以免細(xì)微的差異帶來(lái)整體語(yǔ)句的變化,導(dǎo)致處理無(wú)效或錯(cuò)誤??梢哉f(shuō),藏語(yǔ)句義分析技術(shù)現(xiàn)階段還未成熟[7]。
2.4語(yǔ)義層面的檢查
語(yǔ)義層面的處理除了要檢查語(yǔ)法層面的真?zhèn)螁?wèn)題,還要結(jié)合上下文,即上下文有關(guān)文法;在語(yǔ)法正確的前提下,判斷整個(gè)篇章的語(yǔ)義統(tǒng)一性和邏輯連貫性。該層次的實(shí)現(xiàn)對(duì)算法要求極高,無(wú)法通過(guò)簡(jiǎn)單的規(guī)則推理和簡(jiǎn)單的語(yǔ)料庫(kù)匹配來(lái)完成,更多地需要借助人工智能的訓(xùn)練和學(xué)習(xí)來(lái)實(shí)現(xiàn)。如清華大學(xué)楊植麟團(tuán)隊(duì)就在近期提出一種不需要預(yù)訓(xùn)練模型的學(xué)習(xí)框架,并以此延伸出任務(wù)驅(qū)動(dòng)的語(yǔ)言模型,使訓(xùn)練模型能夠準(zhǔn)確地認(rèn)識(shí)語(yǔ)句中的細(xì)微差別,能明顯提高計(jì)算機(jī)的篇章級(jí)語(yǔ)言文字處理水平。以研究者角度來(lái)看,經(jīng)過(guò)字、詞、句層面,到這一環(huán)節(jié)漢藏文字處理方法基本一致[8~10],可相互借鑒使用。
3結(jié)語(yǔ)
除了程序員,計(jì)算機(jī)和人類之間大部分的交流無(wú)外乎通過(guò)各種各樣的自然語(yǔ)言來(lái)實(shí)現(xiàn)。而計(jì)算機(jī)作為當(dāng)今不可或缺的生活、辦公、學(xué)習(xí)工具,提升其對(duì)自然語(yǔ)言的識(shí)別和處理能力,不但可以提升某種工具的價(jià)值,更能使人類實(shí)現(xiàn)自我提升、自我解放。以研究者身邊的計(jì)算機(jī)和網(wǎng)絡(luò)環(huán)境為例,除了常用的漢文字外,還有一定的藏文數(shù)字信息存在,所以需要對(duì)這兩種文字NLP技術(shù)的發(fā)展予以關(guān)注。此外,在很多領(lǐng)域都有這樣的現(xiàn)象,如從事西方某國(guó)文字或歷史的專業(yè)研究,但不懂該國(guó)的語(yǔ)言文字,從而不能掌握一手資料,只能人云亦云,終究只能困守在一定的學(xué)術(shù)高度而不能出眾。在自然語(yǔ)言處理領(lǐng)域更是如此,進(jìn)行跨語(yǔ)種NLP技術(shù)鉆研的時(shí)候,第一步就應(yīng)該學(xué)習(xí)、掌握目標(biāo)語(yǔ)言的語(yǔ)法規(guī)則和運(yùn)用環(huán)境,而非脫離現(xiàn)實(shí),翻閱二手資料,先入為主。這樣,即使自身?yè)碛休^高的計(jì)算機(jī)水平,往往也因語(yǔ)法知識(shí)的局限而亦趨亦步,而不能向前。
跨語(yǔ)種的信息化處理的第一步應(yīng)該從目標(biāo)語(yǔ)言的語(yǔ)法知識(shí)開(kāi)始??傊?,不管是哪種文字,除了語(yǔ)法上的差別導(dǎo)致處理過(guò)程有一定的差異外,目標(biāo)都是一致的,就是能讓計(jì)算機(jī)咬文嚼字、又出口成章、代行百事,讓我們?yōu)檫@個(gè)目標(biāo)持續(xù)奮斗[11]。