拉巴頓珠 歐 珠 趙棟材
1(西藏大學藏文信息技術研究中心 西藏 拉薩 850000)2(西藏民族大學 陜西 咸陽 712082)
藏文自動分詞系統(tǒng)中虛詞識別算法研究
拉巴頓珠1歐 珠2趙棟材1
1(西藏大學藏文信息技術研究中心 西藏 拉薩 850000)2(西藏民族大學 陜西 咸陽 712082)
在分析現有藏文自動分詞方法的基礎上,針對藏文分詞系統(tǒng)中虛詞識別的難點進行深入研究。根據傳統(tǒng)藏文文法,描述了藏文虛詞在文本中不同的表現形式,用規(guī)則和統(tǒng)計相結合的方法,建立了較為全面的虛詞知識庫和規(guī)則庫,并給出切分用虛詞分塊算法,該方法在不同領域的3 200個較典型的藏文句子進行了測試,結果表明,該方法的虛詞識別率高達98%以上。
藏文自動分詞 藏文信息處理 虛詞識別 藏文虛詞
藏文自動分詞研究是藏文自然語言處理的前提,是藏文信息處理的一項不可缺少的基礎性工作,具有廣泛的應用前景。藏文自動分詞為詞性標注、藏文語料庫的建設、藏文文本校對、藏文字詞頻統(tǒng)計、搜索引擎的設計與實現、機器翻譯系統(tǒng)的開發(fā)、藏文拼寫檢查以及語句理解等方面的研究奠定良好的研究基礎。
1.1 虛詞的概述
在語言學中,詞分為實詞和虛詞兩大類,實詞指的是具有實際意義的詞,是藏文自動分詞中獨立運用而能夠表達一定意義的最小分詞單位。虛詞是與實詞相對而言的,在文本或者句子中不能表達任何意義,也不能獨立承擔句子的主要成分。虛詞本身沒有實在意義,也沒有詞性變化,但一個文本或句子中沒有虛詞就不能形成完整的語句,也不能表達出完整的含義。在自然語言處理中,藏語虛詞對詞法和句法結構起著至關重要的橋梁紐帶作用,虛詞的用途廣,在句子結構中用法和意義十分復雜,出現的頻率相當高。在實現藏文自動分詞系統(tǒng)中的主要難點之一,因此,信息處理用藏文虛詞識別研究很重要。
1.2 計算機識別藏文虛詞的難點
計算機識別藏文虛詞根據虛詞本身的特點和難點分析出發(fā),按照一定的先后順序進行判斷,首先通過虛詞兼類詞典、單字詞典、規(guī)則的不自由虛詞詞典庫等進行劃分,再識別緊縮詞并還原,最后結合中嵌否定詞、指人后綴來判斷藏文虛詞,如圖1所示。
圖1 文本中藏文虛詞的識別過程
2.1 藏文虛詞的識別過程
計算機識別虛詞的首要工作就是建立一個相對全面的詞典庫,為了提高詞典庫的質量,需要采用規(guī)則和統(tǒng)計相結合的方法,并進行大量的人工訓練和測試。另一方面,經實驗和研究發(fā)現,藏文虛詞在文本中表現形式相對復雜,單一形式的詞典不能滿足需求,因此要按照虛詞在文本中的不同表現形式,建立幾種不同的虛詞詞典(詞典命名為xcself)。
(3) 不自由虛詞詞典(xcself3):收錄需要根據不自由虛詞的接續(xù)規(guī)則識別的藏文虛詞,該詞典格式為:<虛詞—前導字符—后接字符>。
2.2 緊縮詞識別及還原
根據緊縮詞的變體性及特殊性,分兩種情況進行識別,分別是一般緊縮詞的識別和特殊緊縮詞的識別。
2.3 自由虛詞的識別方法
在藏文傳統(tǒng)文法中自由虛詞沒有變體性,而且不受前一個音節(jié)后置字的限制,可以自由使用,但自由虛詞也并不是不受任何限制而隨意使用,在文本中使用自由虛詞時也具有一定的接續(xù)特點。文中根據自由虛詞本身的接續(xù)特點和出現歧義的問題,提出了較簡單的自由虛詞識別方法。
3.1 測試結果
本文采用的測試語料包含了法律、新聞類、教育類、醫(yī)學類、詩歌類、文學類等各個領域。從中選擇了較典型的3 200句進行測試,同時還考慮了文獻的年代、地域等問題。對測試語料進行分詞,統(tǒng)計語料中虛詞出現的次數并計算準確率(準確率=正確識別的總次數/測試語料中出現的總次數×100%),同時對虛詞的兼類性、組合性、結合性、識別緊縮詞及還原。實驗結果表明,文中提出的方法使虛詞的識別率達到98.013 8%。
3.2 結果分析
藏文虛詞在文本中出現的頻率極高,其應用廣泛,表現形式復雜多變。本文基于不同的語境中虛詞的識別率和分詞的準確度,根據傳統(tǒng)的藏文文法,采用統(tǒng)計和規(guī)則相結合的方法,對較典型的3 200個語料句子進行了測試。實驗結果表明,所提出的方法使得虛詞的識別率有一定的提高。
[1] 格桑居冕.實用藏文文法[M].成都:四川民族出版社,1987.
[2] 卓瑪吉.藏文虛詞自動識別研究[D].青海:青海民族大學,2014.
[3] 高定國,扎西加,趙棟材.計算機識別藏語虛詞的方法研究[J].中文信息學報,2014(1):114-117.
[4] 關白.信息處理用藏文分詞單位研究[J].中文信息學報,2010(3):124-128.
[5] 趙棟材.基于虛詞切分的藏文分詞系統(tǒng)的設計與實現[J].西藏大學學報(自然科學版),2012(2):61-65.
[6] 才智杰.藏文自動分詞系統(tǒng)中緊縮詞的識別[J].中文信息學報,2009(1):35-37.
[7] 索南才讓.面向自然語言處理的藏語虛詞la格研究[J].西藏大學學報(自然科學版),2013(2):48-52.
[8] 李亞超.基于條件隨機場的藏語自動分詞方法研究與實現[J].中文信息學報,2013(4):52-58.
[9] 完么扎西.藏語自動分詞中的幾個關鍵問題的研究[J].中文信息學報,2014(4):132-139.
[10] 才讓三智,多拉.信息處理中藏語虛詞“na”和“l(fā)a”的標注研究[J].電腦知識與技術,2011,7(4):2441-2445.
RESEARCHONFUNCTIONWORDRECOGNITIONALGORITHMINTIBETANAUTO-SEGMENTATIONSYSTEM
Lhakpa Dondrub1Ngodrup2Zhao Dongcai11
(ResearchCenterofTibetanInformationTechnology,TibetUniversity,Lhasa850000,Tibet,China)2(XizangMinzuUniversity,Xianyang712082,Shaanxi,China)
By analyzing a literature review of present Tibetan Auto-Segmentation solutions, we study on the difficult points of Tibetan function words recognition. According to the traditional Tibetan grammar, we described the forms of Tibetan function words in different texts. A holistic function word dictionary and rules set had been created by a rules-statistics-combined method, and the function words segmentation algorithm had been implemented. We tested the algorithm on a sample corpus which contains 3 200 typical Tibetan sentences from different fields. The results show that the correct recognition rate of our system reaches up to 98%.
Tibetan auto-segmentation Tibetan information-processing Function words recognition Tibetan function words
TP391
A
10.3969/j.issn.1000-386x.2017.09.058
2016-11-08。2015年度西藏大學研究生高水平人才培養(yǎng)項目;2016年教育部人文社會科學研究項目(16XZJCZH 001);2016年西藏自治區(qū)自然科學基金項目(2016ZR-15-5)。拉巴頓珠,碩士生,主研領域:藏文信息處理。歐珠,教授。趙棟材,副教授。