玉素甫·艾白都拉 艾孜海爾江 祖力克爾江 艾孜爾古麗
摘要:該文以社會(huì)語言學(xué)和計(jì)算語言學(xué)相結(jié)合的角度,根據(jù)烏茲別克語言特點(diǎn)提出烏茲別克語“詞干(詞根)+詞綴+詞尾”的詞法結(jié)構(gòu)模型、構(gòu)詞模型及名詞構(gòu)形詞綴規(guī)律,為了計(jì)算機(jī)處理方便,將原來的六種格擴(kuò)充十種格,為下一步開展詞干提取、詞性標(biāo)注等烏茲別克語自然語言處理技術(shù)的研究提供基礎(chǔ)支撐。
關(guān)鍵詞:烏茲別克語;詞法結(jié)構(gòu)模型;構(gòu)詞模型;名詞構(gòu)形詞綴;詞干切分
中圖分類號(hào):TP312 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)20-0200-02
The Research of the Noun Affixe in Modern Uzbek for Natural Language Processing
Abaydula Yusup, Azhar, Zulkar, Azragul
(Xinjiang Normal University,Urumqi 830054,China)
Abstract:This paper takes the perspective of social linguistics and computational linguistics, according to the characteristics of Uzbek language Uzbek "stem (root) + affix and suffix" lexical structure model, the formation model and configuration of terms affix rules, convenient for computer processing, the original expansion of ten kinds of six frames. It will provide a basis for the further research on the processing technology of Uzbek natural language such as word stem extraction and word tagging.
Key words:Uzbek language; Lexical structure model; Word formation model; Noun conformation affixes; Stems segmentation
1 引言
為加強(qiáng)與“一帶一路”沿線國(guó)家交流,與沿線國(guó)家的語言文化融通,為建立“語言互聯(lián)網(wǎng)”發(fā)揮積極作用。本文利用信息化手段挖掘?yàn)跗潉e克語的語言現(xiàn)象和規(guī)律,為方便采取定性和定量相結(jié)合的方法研究,在現(xiàn)有的維吾爾語言文字信息化技術(shù)的研究基礎(chǔ)之上,根據(jù)烏茲別克語的特點(diǎn)提出烏茲別克語“詞干(詞根)+詞綴+詞尾”的詞法結(jié)構(gòu)模型、構(gòu)詞模型及名詞構(gòu)形詞綴規(guī)律,為了計(jì)算機(jī)處理方便,將原來的六種格擴(kuò)充十種格。為研究烏茲別克語語料庫構(gòu)建技術(shù)、構(gòu)建烏茲別克語言資源庫,建立“語言互聯(lián)網(wǎng)”提供語言基礎(chǔ)支撐。對(duì)及時(shí)了解語言生活狀況,建立語言監(jiān)測(cè)、分析和預(yù)警機(jī)制,正確引導(dǎo) “一帶一路”沿邊國(guó)家語言服務(wù)、社會(huì)語言生活的和諧發(fā)展打下基礎(chǔ),具有十分重要的意義。
2 烏茲別克語詞語研究
2.1 烏茲別克語詞法結(jié)構(gòu)模型
從傳統(tǒng)語言學(xué)角度考慮,烏茲別克語詞具有“詞根+詞綴+詞尾”的詞法結(jié)構(gòu),詞根、詞綴和詞尾的結(jié)合存在嚴(yán)格的次序規(guī)則,其中烏茲別克語中的詞綴有改變?cè)~義的功能,詞尾具有語法功能。烏茲別克語詞去除詞詞綴剩下的部分稱為詞干,因此烏茲別克語詞也是由詞干和詞尾構(gòu)成的,具體詞法結(jié)構(gòu)模型見圖1。
圖1中,A表示詞根,B表示詞綴,C表示詞尾,D表示詞干,W表示詞語。
一個(gè)烏茲別克文詞語是由零個(gè)或者一個(gè)前綴,一個(gè)詞根,零個(gè)或者多個(gè)后綴而組成。例如:
yordam(幫助)
yordam+lash = yordamlash(去幫忙)
yordam +lash + moq = yordamlashmoq (將幫助)。
2.2 烏茲別克語構(gòu)詞模型
“詞匯在句法信息作為詞匯形式出現(xiàn)的一種方式稱為語素”[1]。語素(morpheme)是語言中的最小語法單位,不能再分成其他有意義的成分[2]。語素可以分為兩種,分別是自由語素(free morpheme)和黏著語素(boundary morpheme)。自由語素指的是能夠獨(dú)立成詞的語素,具有詞匯意義,詞匯再不能進(jìn)行分割的語言單位,既通常叫作詞根(root) [3]。而黏著語素是不能夠單獨(dú)成詞的,它只能作為單詞的附加成分出現(xiàn)在詞根或者其他黏著語素的旁邊。黏著語素也會(huì)被叫作詞綴(affix),它有兩種形式,前綴(prefix) 和后綴(suffix),前綴鏈接在詞根前面,而后綴鏈接在詞根后面[4]。
烏茲別克語中的前綴可分為兩種,一種是構(gòu)詞(derivational)前綴,這種前綴是鏈接在詞根前面的,會(huì)給原詞根帶來語義上的(semantic)變化,即生成一個(gè)新的詞干,圖2構(gòu)詞前綴所示。
另外一種是強(qiáng)調(diào)性(imphatic)前綴,這種前綴是不會(huì)生成新詞,只會(huì)起強(qiáng)調(diào)原詞義的作用,圖3強(qiáng)調(diào)性前綴所示。
烏茲別克語中的后綴也分為兩種:一種是詞干鏈接構(gòu)詞后綴是產(chǎn)生語義變化的,也就是說它會(huì)生成新的一個(gè)詞干。另一種,詞干鏈接構(gòu)形后綴是不會(huì)生成新詞,只會(huì)更改單詞的形式和單詞在句子中的語法作。詞干后面綴接后綴的時(shí)候往往是先綴接構(gòu)詞后綴再綴接構(gòu)形后綴,圖4多種后綴鏈接綴所示[3]。
烏茲別克語中有很多構(gòu)詞附加成分,而且構(gòu)詞附加成分的構(gòu)詞能力是很強(qiáng)的,正是因?yàn)檫@樣,理論上說,烏茲別克語有無限的詞匯量。構(gòu)形附加成分對(duì)詞干的詞匯意義不會(huì)有任何影響,它表示的是詞語和詞語之間的語法關(guān)系。無論是構(gòu)詞附加成分還是構(gòu)形附加成分肯定語義發(fā)生變化[3]。
3 烏茲別克語構(gòu)形詞綴
3.1 名詞詞綴
烏茲別克語中有構(gòu)形詞綴的詞類有名詞、動(dòng)詞、代詞、形容詞、數(shù)詞[6]。,名詞詞綴包括名詞的1個(gè)復(fù)數(shù)詞綴和10個(gè)格詞綴。其中在烏茲別克語語法里只存在六種格,即主格、屬格、賓格、從格、向格、位格[3]。并沒有把“gacha,cha,chali,dagi,dek”等詞綴歸屬為格,而是把它們當(dāng)作單獨(dú)的詞綴來處理。但是這些詞綴的作用與格詞綴相同。本文根據(jù)計(jì)算語言學(xué)需求,增加了格的范圍,擴(kuò)充了“止格,gacha”,“圍特征格,dagi”,“量擬格,cha,chali”,“形擬格,dek”等4個(gè)格[5]。此外,烏茲別克語非人稱動(dòng)詞中的動(dòng)名詞也會(huì)受到以上格詞綴的影響。
3.2 名詞數(shù)詞綴
烏茲別克語名詞一般都是單數(shù)和復(fù)數(shù)兩種形式,單數(shù)沒有特殊標(biāo)志,烏茲別克語名詞的復(fù)數(shù)詞綴只有一種。名詞復(fù)數(shù)構(gòu)形附加成分lor 綴接在名詞后面以后就會(huì)形成烏茲別克語名詞復(fù)數(shù)形態(tài)。根據(jù)烏茲別克語的復(fù)數(shù)構(gòu)形附加成分連接規(guī)律,名詞詞干的后綴接復(fù)數(shù)詞綴,再在復(fù)數(shù)詞綴后連接其他詞綴的這種特征這對(duì)詞干提取研究帶來一定的方便。
3.3 人稱詞綴
烏茲別克語名詞的還有一個(gè)語法范疇是人稱。利用人稱詞綴來表達(dá)名詞所指的事物之間的隸屬關(guān)系。烏茲別克語名詞人稱范疇按照連接的人稱詞綴的不同,表達(dá)不同的領(lǐng)屬關(guān)系。包括能表達(dá)單數(shù)、復(fù)數(shù)的是第一人稱和第二人稱,第三人稱沒有復(fù)數(shù)標(biāo)志。例如:第一人稱(單、復(fù)數(shù))“m\im(miz\imiz)”,第二人稱(單、復(fù)數(shù))“ng\ing(ngiz\ingiz)”,第三人稱(復(fù)數(shù))“i\si” [3]。
4 結(jié) 論
本文主要從傳統(tǒng)語言學(xué)和計(jì)算語言學(xué)角度考慮烏茲別克語詞具有的“詞干(詞根)+詞綴+詞尾”的語法結(jié)構(gòu)規(guī)律,提出烏茲別克語詞法結(jié)構(gòu)模型。并以烏茲別克語詞法結(jié)構(gòu)模型作為基礎(chǔ),深入探索烏茲別克語語素,在此基礎(chǔ)上研究三種烏茲別克語構(gòu)詞模型,探討構(gòu)詞規(guī)律。為計(jì)算機(jī)處理方便,在現(xiàn)有的烏茲別克語6種格基礎(chǔ)上,擴(kuò)充10到種烏茲別克語格。分析了烏茲別克語名詞構(gòu)形詞綴情況,為下一步研究烏茲別克名詞分析和詞干提取提供科學(xué)依據(jù),對(duì)以后要開展的烏茲別克語自然語言處理方面有較好的應(yīng)用,是語言信息化中最基本和最重要的一項(xiàng)工作。
參考文獻(xiàn):
[1] 早克熱·卡德爾,艾山·吾買爾,吐爾根·依布拉音,帕里旦·吐爾遜,吳小川.混合策略的維吾爾語名詞詞干提取系統(tǒng)[J].計(jì)算機(jī)工程與應(yīng)用.2013,49(1).
[2] 塔依爾·阿不都外力,艾山·吾買爾,吐爾根·依布拉音,張健.基于標(biāo)注詞典和規(guī)則的維吾爾文動(dòng)詞詞干提取方法[J].新疆大學(xué)學(xué)報(bào),2013,30(1).
[3] 古麗巴努木·克拜吐里.烏孜別克語教程[M].北京:中央民族大學(xué)出版社,2016.
[4] 哈米提·鐵木爾.現(xiàn)代維吾爾語語法學(xué)[M].北京:民族出版社,2011.
[5] 哈米提·鐵木爾.關(guān)于維吾爾語名詞“格”的范疇[J].新疆大學(xué)學(xué)報(bào),1980(3).
[6] 高莉琴,阿不都許庫爾·艾山.關(guān)于維語的詞類劃分問題[J].新疆大學(xué)學(xué)報(bào),1987(3).