多杰措,安見(jiàn)才讓
(青海民族大學(xué)計(jì)算機(jī)學(xué)院,西寧 810007)
隨著計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,Internet/Intranet引用在全球范圍內(nèi)的日益普及。當(dāng)今社會(huì)正快速向信息化社會(huì)前進(jìn),社會(huì)的信息總量以爆炸形式的指數(shù)增長(zhǎng),為了對(duì)應(yīng)信息帶來(lái)的嚴(yán)重挑戰(zhàn),緊迫性地需要一些自動(dòng)化的工具來(lái)幫助人們?cè)诖罅康男畔⒅刑崛∽约盒枰男畔?。目前?guó)內(nèi)有許多代表性的漢語(yǔ)句法分析系統(tǒng),不少已在實(shí)踐中取得了較好的成果。相反在藏語(yǔ)言中目前幾乎沒(méi)有句法分析方面的成果,為此,本文采用基于規(guī)則的線圖分析方法進(jìn)行句法分析,實(shí)現(xiàn)了句法分析系統(tǒng)的實(shí)現(xiàn)。
句法分析是自然語(yǔ)言處理領(lǐng)域的一個(gè)關(guān)鍵環(huán)節(jié),它研究如何通過(guò)計(jì)算機(jī)算法得到自然語(yǔ)言句子的句法結(jié)構(gòu),句法分析對(duì)機(jī)器翻譯、信息檢索、信息抽取等方面產(chǎn)生重要的推動(dòng)作用。
藏文的句法分析是藏文信息處理的基礎(chǔ),由于藏文在藏文在語(yǔ)法上有些獨(dú)特的特征,對(duì)藏文的句法分析造成了一定的影響。使我們不能照搬現(xiàn)有的英文、漢文句法分析的方法,要從藏文自身獨(dú)特的文法出發(fā),研究適合藏文的句法分析技術(shù)。對(duì)藏文句法分析的研究將對(duì)自然語(yǔ)言的各種問(wèn)題提供幫助,是解決自然語(yǔ)言處理的的重要手段之一。
線圖算法在句法分析中廣泛使用,線圖分析算法是最通用、簡(jiǎn)單、直觀的句法分析算法。線圖就是一組節(jié)點(diǎn)和邊的集合。簡(jiǎn)單地說(shuō),線圖分析算法是由日程表驅(qū)動(dòng)的不斷循環(huán)的過(guò)程。按照初始化策略對(duì)日程表(agenda)進(jìn)行初始化,若agenda為空,那么分析失敗,否則每次按照日程表組織策略,從日程表中取出一條邊。如果取出的邊是一條非活躍邊而且覆蓋整個(gè)句子,那么返回成功,將取出的邊加入到chart中,執(zhí)行基本策略和規(guī)則調(diào)用策略將產(chǎn)生的新邊又加入到agenda中。圖1是線圖算法的流程圖。
圖1 線圖分析算法的流程圖
圖2 用線圖分析算法對(duì)例句分析過(guò)程產(chǎn)生的線圖
本文中線圖句法分析系統(tǒng)由待分析的藏文句子,規(guī)則庫(kù),藏文句法分析模塊,句法分析過(guò)程表,生成樹等組成。待分析的藏文句子模塊是用已有的分詞系統(tǒng)進(jìn)行詞性標(biāo)注的結(jié)果。規(guī)則庫(kù)是實(shí)現(xiàn)基于規(guī)則的藏文句法分析。藏文句法分析模塊采用的是線圖分析算法,運(yùn)用一套藏文語(yǔ)法規(guī)則,實(shí)現(xiàn)基于規(guī)則的藏文句法分析,并且生成樹。
線圖句法分析系統(tǒng)經(jīng)過(guò)運(yùn)行后,得到如圖3線圖分析算法運(yùn)行后所示的界面以及生成的樹的界面。
圖3 線圖分析算法運(yùn)行后所示的界面以及生成的樹的界面
本文對(duì)藏語(yǔ)句子的結(jié)構(gòu)和語(yǔ)法規(guī)律進(jìn)行深入研究的基礎(chǔ)上,用線圖分析算法對(duì)藏文句子進(jìn)行句法分析,并且用計(jì)算機(jī)軟件來(lái)實(shí)現(xiàn)藏語(yǔ)句法分析,這對(duì)藏文句法分析分析的研究具有重要的意義,因?yàn)橐?guī)則庫(kù)的不完善,已實(shí)現(xiàn)的這個(gè)線圖句法分析系統(tǒng)只能處理一些簡(jiǎn)單的或者句型結(jié)構(gòu)相近的或者相類似的句子。離處理實(shí)際的文本或者句型復(fù)雜的句子還有一定的距離。因此還要在這一步的基礎(chǔ)上,繼續(xù)擴(kuò)充規(guī)則庫(kù)和復(fù)雜句型句子的研究。