格桑加措 趙棟材
摘要:論文在對藏語動詞隨時態(tài)的形態(tài)變化分析的基礎上,根據(jù)藏語語法對動詞隨時態(tài)形態(tài)變化的分類,建立了藏語動詞隨時態(tài)變化的詞典庫,提出基于詞典匹配的藏語動詞詞形還原方法。
關鍵詞:藏語動詞;動詞詞形還原;數(shù)據(jù)預處理
中圖分類號:TP311? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)28-0205-03
動詞(
1 藏語可變動詞的隨時態(tài)變化規(guī)律
1.1藏語動詞和英語動詞隨時態(tài)的形態(tài)變化上的比較
英語動詞的"時"有兩種,"體"有兩種,兩者可以互相結(jié)合構成8種動詞的時、體形式[2]。與英語的動詞詞形變化一樣,藏語動詞也有隨時態(tài)的形態(tài)變化。傳統(tǒng)語法中藏語動詞分為有形態(tài)變化的動詞和無形態(tài)變化的動詞,有形態(tài)變化的動詞有未來時、進行時、過去時、祈使式三時一式的形態(tài)變化。英語詞形還原技術已經(jīng)很成熟,主流還原方法均是利用語法規(guī)則或利用詞典匹配獲得詞的原形。nltk、Pattern、TextBlob等自然語言處理庫都有相關詞形還原的模塊[4]。由于藏語自然語言處理起步比較晚,雖然語言學家和學者們對動詞詞形變化的規(guī)律做了很多相關研究,但是很少見到詞性還原模塊相關的研究。在英語語法中,動詞的時態(tài)變化除了極少無規(guī)則的時態(tài)變化可以統(tǒng)計出來的外,其余都有明顯的后綴變化規(guī)律,比如(say, says,said,saying)。比起英語,藏語動詞隨時態(tài)變化規(guī)律比較復雜,藏文動詞的變化主要有前加字、后加字和再后加字的變化。有些特殊動詞,隨著其時態(tài)的變化,動詞的基字也會發(fā)生變化。瞿靄堂在《藏語動詞屈折形態(tài)的結(jié)構及其演變》中提到,藏語書面語中能發(fā)生時炙屈折變化的動詞約占整個單音動詞的70%左右,能發(fā)生語態(tài)屈折變化的動詞約占20%,而現(xiàn)代藏語中,發(fā)生語態(tài)屈折變化的動詞約占10%,發(fā)生時、式屈折變化的動詞,衛(wèi)藏方言約占30%,安多方言約占45%。在書面語中,動詞的屈折形態(tài)具有獨立表達語法意義的功能[3]。
藏語語法里,藏語動詞從形態(tài)變化上分有時態(tài)變化的動詞和無時態(tài)變化的動詞兩種。
3藏語動詞的詞形還原
詞形還原 (Lemmatization) ,是把一個任何形式的語言詞匯還原為一般形式,是數(shù)據(jù)預處理的一部分,是一種對詞的不同形態(tài)的統(tǒng)一歸并的過程。主要應用于信息檢索和文本、自然語言處理等方面[4]。它可以減少數(shù)據(jù)量,降低噪音,降低所占空間和提高實際信息提取任務的準確性提高文本處理的效率。藏文動詞作為句子中重要的組成部分,占數(shù)據(jù)總量的較大比例,還原藏語動詞各種形態(tài)作為藏文數(shù)據(jù)預處里的一部分,可以減少數(shù)據(jù)復雜度,提高藏文數(shù)據(jù)處理效率。本文在測試語料中隨便抽取了100個藏語長句進行了分析,其中平均100個音節(jié)字中包含動詞9個左右。其中一個動詞各種形態(tài)的重復率占所有動詞的13%左右。當然,所選的句子不同,動詞在句子中的比率和動詞各種形態(tài)的變化率差距也很大。詞形規(guī)范化將一個詞的不同形式統(tǒng)一為一種具有代表性的形態(tài),目標是將詞的屈折形態(tài)或派生形態(tài)簡化或歸并為原形的基礎形式。本文中將藏語動詞的現(xiàn)在時形態(tài)暫且定為一般形式,以將未來時、過去時、命令式詞形還原成一般(現(xiàn)在時)形式的方式進行還原。比如句子中出現(xiàn)
3.1語動詞的詞典庫建立
在藏語語法中,藏語動詞隨時態(tài)的形態(tài)變化提出了較完整的規(guī)律,但是用計算機來實現(xiàn),歧義較多,很難用規(guī)則來實現(xiàn)。本文依據(jù)《藏文動詞變化表》,按照藏語動詞的三種形態(tài)變化規(guī)則分別進行收集、建立藏語動詞詞庫,對文本中讀取出來的動詞進行還原。收集藏文動詞規(guī)則庫的方式為:首先以變形動詞的最基本的三個變形規(guī)則進行分開收集,然后從零散形藏語動詞中提取不變形動詞成為另一個分類,總共收集了常用的823個動詞,建立動詞詞典庫。格式如上。
3.2藏語動詞的還原
3.2.1藏語動詞還原原理
語言學中的詞形還原(Lemmatisation)是將單詞的變形形式組合在一起的過程,這樣同一單詞不同的幾個形態(tài)就可以作為單個項目進行分析。在許多語言中,單詞以幾種變形形式出現(xiàn)。例如,在英語中,動詞“to walk”可能表現(xiàn)為'walk', 'walked', 'walks', 'walking'??赡茉谧值渲胁檎业幕拘问健皐alk”被稱為單詞的原型[7]。藏語句子中,藏語動詞也會以變形形式出現(xiàn),文中以藏語的一般現(xiàn)在時詞形作為基本形式進行還原,在還原過程中不是現(xiàn)在時的動詞形態(tài)還原成現(xiàn)在時形態(tài)。比如騎馬(