摘要:分詞技術是中文所特有的計算機自然語言處理技術,而分詞規(guī)則是實現(xiàn)分詞技術的前提。彝文分詞規(guī)則的制定是彝文信息處理技術最重要的組成部分。本文詳細制定了彝文信息技術特殊詞類的分詞規(guī)則,為彝文信息處理向智能化階段邁進打好最堅實的基礎。
關鍵詞:分詞 彝文分詞 分詞規(guī)則
分詞技術是中文信息處理技術的基礎,先進的計算機自然語言處理技術要進入中文信息領域,首先要解決的就是分詞問題,計算機彝文信息處理同樣面臨這個問題。
在彝文信息技術領域,計算機在執(zhí)行彝文文本或語句的分詞程序命令時,都要遵循一定的規(guī)則,即是彝文分詞規(guī)則。彝文分詞規(guī)則的制定為彝文信息處理技術向智能化階段邁進提供了可能。
一、基本概念解釋
詞:能獨立運用的最小的語言單位。
詞組:由兩個或兩個以上的詞,按一定的語法規(guī)則組成、表達一定意義的語言單位。
彝文分詞:基于彝文信息處理的需要,按照一定的方法,對彝文按分詞單位進行切分的過程。
彝文分詞單位:用于彝文信息處理并具有明確的語義或者語法功能的基本的單位。
彝文分詞技術:基于彝文信息處理的需要,按照一定的方法,對彝文按分詞單位進行切分的技術。
二、彝文分詞規(guī)則概述
本規(guī)則以彝文分詞為目的,根據彝文的特點及規(guī)律,規(guī)定基于信息處理的彝文分詞原則。
1.標點符號或空格是計算機彝文分詞的最明顯的分隔標記。其包括:逗號“,”、句號“?!薄⒚疤枴埃骸?、頓號“、”、嘆號“!”、分號“;”、問號“?”、引號““””、括號“()”、破折號“——”、書名號“《》”、省略號“……”、間隔號“·”、正斜杠“/” 及連接號“-”等。
2.單音詞直接為分詞單位。如,名詞單音詞:“syr”(木)、“chyt”(山羊)、“jji”(蜜蜂)等;動詞單音詞:“ndup”(打)、“zze”(吃)、“ngop”(想)等;形容詞單音詞:“zhet”(可以)、“he”(好)、“vat”(好)等;數詞單音詞:“cyp”(一)、“ggu”(九)、“hxa”(百)、“dur”(千)等;代詞單音詞:“nga”(我)、“cy”(他)、“nop”(你們)、“xix”(什么)等;量詞單音詞:“jo”(圈)、“ji”(條)、“vit”(次)等。
3.雙音詞或三音詞,以及結合緊密、使用穩(wěn)定的雙音詞或三音詞詞組,一律為分詞單位。如:“pobbo”(旗子)、“bboxrre”(超過)、“kaxddi”(誰)、“gopchadax”(共產黨)、“vitcyjy”(洗衣機)等。
4.四音詞或四字成語以及結合緊密、使用穩(wěn)定的四字詞組,一律為分詞單位。如:“nyopbbopzaxie”(勞動)、“rremoplatma”(錢財)、“suopnyiesotnyie”(優(yōu)柔寡斷)、“coddiemujy”(人造衛(wèi)星)等。
5.五音或五音以上的格言、諺語等,切開后若沒違背原來組合之意義,則應予切分。如:“apshuggaapbbu,shuxneggaqujjip(不走無路,走了成大道)”等。
6.習慣用語、轉義后的詞(詞組)等,在轉義后的語境下一律為分詞單位。如:“ngaixgodadiepbburjyhxep”(我在家看電視)、“sihnimomyggurxpadur”(女人頂半邊天)、“ngaxlisypchuohmatmopyyssoxddegossoxddursu(我畢業(yè)于四川師范大學)”等。
7.略語一律為分詞單位。如:“sexwox”(省委)、“zhozhepfux”(州政府)、“getmonyop”(工農業(yè))等。
8.外來詞一律為分詞單位。如:“kafi”(咖啡)、“hoxche”(火車)等。
9.不同的語義環(huán)境中的同形異構現(xiàn)象,根據具體的語言環(huán)境的語義,按本規(guī)則進行靈活的切分。如:“muxqielotyijjyyi!”(木且的手很癢)、“muxqielotyizzipnditnjuo?!保厩掖髁穗p手套)等。
三、分詞規(guī)則在特殊詞類上的具體說明
1.專用名詞
(1)不能單獨存在且必須保持原有意義的地名,不予切分。如:“athxopnoyy”(安寧河)、“ndapssypbbo”(瀘山)等。
(2)有關時間的名詞或名詞詞組的分詞規(guī)則
<1>一年中的十二個月以及每周當中的七天,一律為分詞單位。如:“l(fā)yhlep”(四月)、“cixzyhlep”(十一月)、“muhlep”(馬月)、“netat”(周日)、“netatsuo”(周三)等。
<2>“年、日、時、分、秒”分別為分詞單位。如:“2008kut12hlep29nyip22ma20fi15mi”中的“kut”、“hlep”、“nyip”、“ma”、“fi”、“mi”為分詞單位。
<3>“miep(前)”、“l(fā)iexmiep(之前)”、“wa(后)”、“shoxmo” 、“nyiethxa” 等直接與時間名詞或量詞組合時,切分為獨立的分詞單位。如:“miepddiepkut”(前一年)、“waxddiepkut”(第二年)、“shoxmocypkur”(前年)等。
<4>“dduo”或“dduox”(上半月)和“yy”或“yyx”(下半月)加十五及以內的數字一律為分詞單位。如:“dduocypnyip”(月初一)、“dduoxngenyip”(月初五)等。
2.特殊動詞
(1)動詞重疊使用時,不作獨立切分。如:“hxephxex”(看看)、“ggepwu”(玩玩)、“mahxajjipwu”(下雨嗎)、“ddejjixwu”(知道嗎)等。
(2)動詞前的否定副詞一律單獨切分為分詞單位。如:“apmu”(不做)、“tatzhet”(別壓)等。
(3)以肯定加否定來表示疑問的詞組應以切分,省略的則不予切分。如:“zhetddapapzhet”(行不行)、“hmubiddaphmuapbi”(清不清楚);省略句也即是動詞的重疊使用,如“hxipwu”(說不說)、“njypwu”(信不信)等。
(4)結構緊密或使用穩(wěn)定的二字動補詞或詞組,不予切分。如:“yundox”(逮?。?、“shuzzi”(做得好)、“katsy”(開心)、“hxippie”(說明)等。
三字和三字以上的動補詞組一律切分。如:“zzenjixguo”(吃太快)、“ddiexhmozzi”(打扮得好)\"等。
(5)復合趨向動詞一律為分詞單位。如:“hxiyipyy”(回去)、“hxiyipli”(回去)、“bbopyy”(進去)等。
趨向動詞中間插入“ap”時應予切分。如:“kuxapla”(不進來)、“bbopapyy”(不去)、“mgotapla”(上不去)等。
3.形容詞
(1)形容詞的重疊形式ABB、AABB、ABAB、ABCB、ABAC一律為分詞單位。如:“kanratwu”(美麗無比)、“kaxguowu”(強大無比)、“aquwu”(白白)、“axnuowu”(黑漆漆)等。
(2)各自保持原有語義的并列形容詞或詞組,應予切分。如:“aquahni”(紅白)、“ietzyraxyy”(大?。?、“ajjyixjjy”(寬窄)、“axguoixnu”(軟硬)、“nryndonryyit”(喝酒醉酒)等。
(下轉第2頁)
(上接第3頁)
4.駢儷詞
現(xiàn)代彝文中的駢儷詞十分豐富,屬于彝文語詞中十分活躍的部分。這些詞與一般的詞匯相比,具有很多獨特的風格,所以我們規(guī)定駢儷詞一律為分詞單位。
(1)從音節(jié)數目來看,彝文駢儷詞有雙音和四音兩種。
<1>雙音駢儷詞舉例:“zzayy”(糧食)、“hxophmat”(教育)、“sithly”(殺戮)等。
<2>四音駢儷詞舉例:“vuplutvupga”(鄰居)、“bboxshoganzyt”(清潔)等。
(2)從語音形式上看,可分為AABB式、ABAC式、ABCB式、ABCD式、ABAB式等。
<1>AABB式駢儷詞舉例:“zzipwunyopwu”(剩余)、“nguoxwuxiewu”(規(guī)矩)等。
<2>ABAC式駢儷詞舉例:“syrxysyrlot”(樹枝)、“l(fā)ytcilytmop”(利息)、“axbbiala”(渣滓)、“mugumuhlit”(電閃雷鳴)等。
<3>ABCB式駢儷詞舉例:“muxddewaxdde”(土地)、“bbutcyhlurcy”(中草藥)、“ggupddieggaxddie”(修路)等。
<4>ABCD式駢儷詞舉例:“mupnyopvixke”(糾紛)、“nyopbbopzaxie”(勞動)、“hmubizazzyt”(清楚)等。
<5>ABAB式駢儷詞舉例:“voplevoxle”(猶豫不決)、“tiplitixli”(疙疙瘩瘩)等 。
四、結語
彝文信息處理起步于20世紀80年代初期,“沙馬拉毅輸入法”的問世打破千年的沉寂,使古老的彝文插上了信息化的翅膀。之后,彝文輸入系統(tǒng)被廣泛應用于出版社、報社、印刷廠、教學、科研、辦公自動化等領域,不斷地走向成熟和完善。彝文信息處理的下一步工作重點將轉移到詞、句和篇章的處理,信息處理用彝文特殊詞類分詞規(guī)則正是基于這個目標而制定的,但由于剛起步,有許多基礎性研究工作需要進一步展開,我們只有在實踐中不斷改進和完善這些規(guī)則,才能推動彝文信息處理研究領域向更深層次發(fā)展。
參考文獻:
[1]沙馬拉毅.計算機彝文信息處理[M].四川民族出版社,2000-03.
[2]劉開瑛.中文文本自動分詞和標注[M].商務印書館,2000-05.