王福釗 周雁
摘要:藏文分詞是進行藏文文本信息化處理的基礎,是一切工作的核心步驟。文中對最大前向匹配算法的藏文分詞進行了研究,并對該算法進行了改進。文中詳細敘述了改進的前向最大匹配算法思想,同時以同一藏文文本語料使用改進前后的前向最大匹配方法進行分詞實驗,并比較了兩者的分詞效率,最后結合實驗結果探討了該方法的優(yōu)點以及存在的問題。
關鍵詞:藏文;分詞;前向最大匹配;算法改進
中圖分類號:TP391.1? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)27-0195-03
Abstract: Tibetan participles are the basis for the informatization of Tibetan texts and are the core steps of all work. In this paper, the Tibetan word segmentation of the maximum forward matching algorithm is studied and the algorithm is improved. In this paper, the improved forward maximum matching algorithm is described in detail. At the same time, the forward-maximum matching method before and after the improvement of the same Tibetan text corpus is used to carry out the word segmentation experiment, and the word segmentation efficiency of the two is compared. Finally, the method is discussed with the experimental results. The advantages and problems.。
Key words: Tibetan; participle; forward maximum matching; algorithm improvement
1 引言
藏文是古老而歷史悠久的中華民族語言文字之一,是藏族文化傳播和弘揚的重要載體。在藏文信息化處理中,藏文分詞是最基礎且最重要的關鍵步驟。藏文分詞是進行藏文句子的生成、詞頻統(tǒng)計、句法分析、自動文摘、自動分類、電子詞典的建設、機器自動翻譯系統(tǒng)的開發(fā)和搜索引擎的設計與實現(xiàn)等研究的堅實基礎。從藏文的句子組成上看,藏文屬于藏漢語系,同漢文一樣與英文不同,英文句子由空格明顯隔開的詞與詞連接構成,而藏文句子和漢文句子一樣由沒有明顯的分割標記隔開的詞與詞連接構成[1]。在藏文中詞通過音節(jié)(也稱為字)組成,音節(jié)之間有明顯的分割標記隔音符“?”。雖然藏文分詞的研究已經(jīng)取得了一定的成果,但還存在分詞效果不理想以及受特定文本語料的限制問題,至今許多的研究者還在對分詞方法進行不斷的優(yōu)化和改進。在藏文信息處理中實現(xiàn)高效率、高準確率的自動分詞仍然是亟待解決的重要問題。
2 研究基礎
2.1 藏文結構
正藏文起源于吐蕃松贊干布時期,由吐蕃大臣吐彌桑布扎結合梵文創(chuàng)造而成。藏文屬于藏漢語系,同漢文一樣屬于拼音型文字,但與漢文不同的是藏文屬于拼寫一體,其書寫和拼讀皆通過30個輔音字母和5個元音字母(其中?a為省略不寫)構成[1]。藏文的輔音和元音字母如下表1,2所示。
藏文字形結構屬于縱向-橫向共同構成的平面結構,以基字(一個輔音字母)為核心?,F(xiàn)代藏字有一般結構和特殊結構。在一般結構中,藏字至少由一個輔音字母組成,最多可由七個字母組成,如藏字?和???????,其中元音不能單獨出現(xiàn),只能加在字?。v向疊加部分,如???)部分的上下位置[1]?,F(xiàn)在藏字的一般結構如下圖1所示。
在特殊結構中,有以下如包含再下加字???,???等、合并的藏字????,????等情況的出現(xiàn),這些特殊結構雖存在但使用較少。現(xiàn)代藏文文本通過由多個藏字以及藏字間的隔音符構成句子,句子與句子之間由單垂符或雙垂符分割構成段落[1]。
2.2 預處理
藏文文本的組成結構較為復雜,在文本中存在藏文符號以外的其他符號以及藏文詞語在詞法、語法上的一些變形。所謂預處理就是要將文本進行理論標準化,將句子常規(guī)表述轉換為理論程序能夠處理的一般形式。(1)在文本中會出現(xiàn)如逗號、引號、冒號等非藏文符號,在處理過程中首先需要進行符號歸一化;(2)在藏文文本中存在大量的縮略詞和虛詞使用,需要對縮略詞進行縮略還原處理,對虛詞進行消除歧義處理。藏文自動分詞需要特殊考慮藏文虛詞“??,??,??,??,?,?”前是否添加后加字?等緊縮詞的還原問題。如:對????????????? 這個句子進行自動分詞時,不能將句子中的???????分為一個詞,因為???????這詞最后兩個字符“??”屬于藏文格文法中的屬格助詞。也不能將???????直接分成?????/??,因為,??沒有后加字,違反了藏文傳統(tǒng)文法“字性組織法”的規(guī)則。正確的自動分詞結果為??????/?? ,在分詞過程中首先要將后加字?還原,再進行分詞[3-4]。
2.3 分詞原理
藏文自動分詞是將一個完整的藏文句子通過計算機程序自動切分為有具體意義的獨立的詞。在藏文分詞的方法上大致分為基于詞典匹配的分詞方法和基于機器學習的分詞方法兩種[3]。在本次研究中將對詞典匹配方法中的前向最大匹配方法進行改進,并對改進前后的前向最大匹配方法進行分詞效率比較。