艾孜海爾江,祖力克爾江,艾孜爾古麗,玉素甫·艾白都拉
(1. 新疆師范大學(xué) 計算機科學(xué)技術(shù)學(xué)院,新疆 烏魯木齊 830054;2. 新疆師范大學(xué) 文學(xué)院,新疆 烏魯木齊 830054)
2013年中國國家主席習(xí)近平提出了包括“絲綢之路經(jīng)濟帶”和“21世紀(jì)海上絲綢之路”的一帶一路戰(zhàn)略。從此中國成為與新疆接壤的部分中亞國家最主要的貿(mào)易伙伴,并相繼成為哈薩克斯坦、烏茲別克斯坦、吉爾吉斯斯坦和塔吉克斯坦的第二大貿(mào)易伙伴。隨著中烏兩國政治、經(jīng)濟文化交流的發(fā)展,漢語和烏孜別克語之間交流頻繁,這兩種語言交流的重要性日益凸顯。烏孜別克語自然語言處理技術(shù)和漢—烏機器翻譯的實現(xiàn)對“一帶一路”戰(zhàn)略的實現(xiàn)發(fā)揮著重要的作用。
烏孜別克語屬黏著性語言,在詞法結(jié)構(gòu)上與維吾爾語相比存在著一定的區(qū)別。帕提古麗、玉素甫等人深入研究烏孜別克語中的語音變化現(xiàn)象,并提出音變現(xiàn)象的自動還原模型。該文分析烏孜別克語中發(fā)生語音變化的詞干本身的特征,設(shè)計音變現(xiàn)象的還原模型,并結(jié)合詞干庫配對方法來實現(xiàn)自動還原[1]。祖日古麗、玉素甫等人對烏孜別克語的音節(jié)結(jié)構(gòu)進行分析,在前者的研究基礎(chǔ)上,歸納了烏孜別克語詞匯的音節(jié)變化規(guī)律[2]。阿西穆·托合提提出了基于詞典和規(guī)則相結(jié)合的維吾爾語和烏孜別克語機器翻譯方法[3]。文獻[4]利用維吾爾語和烏孜別克語之間的這種相似關(guān)系,設(shè)計并實現(xiàn)了烏孜別克語-維吾爾語雙語語料庫構(gòu)建平臺。
本文構(gòu)建一定規(guī)模的烏孜別克語西里爾文生語料庫,將其轉(zhuǎn)換為對應(yīng)的拉丁文,結(jié)合烏孜別克語詞法特征,提出基于多策略的烏孜別克語名詞標(biāo)注方法,研究一種融合烏孜別克語形態(tài)特征的最大熵名詞標(biāo)注模型。烏孜別克語名詞識別技術(shù)可以廣泛應(yīng)用于烏孜別克語名詞短語分析、詞性標(biāo)注、機器翻譯等領(lǐng)域,并且能部分消解歧義。烏孜別克語信息化研究,對“一帶一路”戰(zhàn)略語言服務(wù)提供技術(shù)、方法及數(shù)據(jù)支持,具有一定的研究和應(yīng)用價值。
烏孜別克語共有29個字母,其中6個元音字母、23個輔音字母。
烏孜別克語元音字母如表1所示。
表1 烏孜別克語元音字母
烏孜別克語輔音字母如表2所示。
表2 烏孜別克語輔音字母
烏孜別克語詞由若干個音節(jié)組成。音節(jié)是人的聽覺能夠自然感受到的最小語音片段。以元音字母結(jié)尾的音節(jié)叫做開音節(jié),如u(他)、o-na(母親)、do-i-ra(范圍)。以輔音字母結(jié)尾的音節(jié)叫做閉音節(jié),如biz(我們),aql(智慧),gul(花)。
詞由一個或多個語音組成,每個音節(jié)由元音或元音與輔音字母組成。字母組合次序不同,導(dǎo)致音節(jié)結(jié)構(gòu)也不同。烏孜別克語具有九種類型的音節(jié)結(jié)構(gòu)。在音節(jié)結(jié)構(gòu)中“V”表示元音字母,“C”表示輔音字母,音節(jié)類型如表3所示。
表3 音節(jié)結(jié)構(gòu)類型
前六種烏孜別克語音節(jié)表示基本音節(jié)結(jié)構(gòu),后三種是借用外來詞描述的音節(jié)結(jié)構(gòu)。
烏孜別克語詞法包括詞的構(gòu)成、形態(tài)變化和詞的分類等內(nèi)容,語法學(xué)中主要研究詞的形態(tài)變化。烏孜別克語和維吾爾語都是黏著性語言,具有較為復(fù)雜的形態(tài)變化。
烏孜別克語詞分為虛詞、實詞、模擬詞、嘆詞等四大類。實詞包括形容詞、名詞、動詞、數(shù)詞、副詞、代詞,虛詞包括連詞、后置詞、語氣詞[5]。本文主要研究對象是烏孜別克語名詞,即用于表示人或事物的詞類的詞,如Alisher(艾力西爾),kitob(書),mushuk(貓)等。
烏孜別克語詞具有“詞根+詞綴+詞尾”的語法結(jié)構(gòu),詞根、詞綴和詞尾的結(jié)合存在嚴格的次序規(guī)則,其中烏孜別克語中的詞綴有改變詞義的功能,詞尾具有語法功能。烏孜別克語的詞去除詞尾后剩下的部分稱為詞干,因此烏孜別克語的詞也是由詞干和詞尾構(gòu)成的[6],具體構(gòu)詞方式如圖1所示。
圖1 烏孜別克語構(gòu)詞方式
圖1中,A表示詞根,B表示后詞綴,C表示詞尾,D表示詞干,B+表示前詞綴,W表示詞語。
烏孜別克語詞干的概念就是一個實詞在語言應(yīng)用過程中要求追加附加成分(詞綴)的一種詞語形式。例如,yo’linglar(你們的路) [yo’l+ing+lar ]。由此可見,對最后的復(fù)數(shù)詞綴“l(fā)ar”來說,詞形“yo’ling(你的路)”是詞干;對中間的單數(shù)第二人稱詞綴“ing”來說,詞形“yo’l(路)”是詞干。為此可以得出結(jié)論: 詞干不同于詞根。詞根是不可再切分的語義單位,是固定的。因此,它與構(gòu)形詞綴沒有直接關(guān)系;而詞干與構(gòu)形詞綴是有著直接的關(guān)系。根據(jù)語言實際運用的需求,一個實詞可以附加一個或兩個以上的構(gòu)形詞綴。對詞匯中的每一個構(gòu)形詞綴來說,該詞綴前面的部分就是詞干。因此,詞干是非固定的。需要進一步說明的一點是,派生詞對社會語言學(xué)來說是可以切分的。例如,
ish工作(名詞)+chi=ishchi工人(名詞)
osh飯(名詞)+xona=oshxona餐廳(名詞)
be (表示否定意義的前綴)+xabar消息(名詞)=bexabar沒有消息
烏孜別克語的格范疇有六種,即主格、屬格、賓格、從格、向格、位格。為方便從計算語言學(xué)的角度處理烏孜別克語,本研究還添加了從格、止格、范圍特征格、量似格、形似格。烏孜別克語名詞的復(fù)數(shù)附加成分有1個、格附加成分有10個、領(lǐng)屬附加成分有10個,總共有21個詞綴。
(1) 烏孜別克語的格范疇
名詞的格表示名詞與句子中其他詞之間的語法關(guān)系。烏孜別克語的名詞有以下10種形式:
① 主格,沒有詞綴符號,例: Kitob(書),said(人名)。
② 屬格,ning,例: kitobning(書的),ishekning(門的)。
③ 向格,ga/ka /qa,例: kitobga(向書),ishekka(向門)。
④ 賓格,ni,例: kitobni(把書),ishekni(把門)。
⑤ 位格,da,例: kitobda(在書上),ishekda(在門)。
⑥ 從格,dan,例: kitobdan(從書上),ishekdan(從門那里)。
⑦ 止格,gacha,例: kitobgacha(到書那里),ishekgacha(到門那里)。
⑧ 范圍特征格,dagi,例: kitobdagi(書里的),ishekdagi(門口的)。
⑨ 形似格,dek,例: kitobdek(像書一樣),ishekdek(像門一樣)。
⑩ 量似格,chali,例: kitobchali(和書相同),ishekchali(和門相同)。
從上10種烏孜別克語格可見,只有向格有三個變體,其他的格只有一種變體。
(2) 名詞的復(fù)數(shù)詞綴
名詞的復(fù)數(shù)范疇是表示人或事物跟數(shù)量的關(guān)系的語法范疇。烏孜別克語只有一種詞綴,如lar(復(fù)數(shù)詞綴)。
(3) 名詞的領(lǐng)屬詞綴
名詞的領(lǐng)屬范疇是表示人或事物屬于另一個事物的語法范疇。烏孜別克語里每個形式均有兩個變體。例如,
① 第一人稱:
單數(shù),mim,例: Aka-Akam,kitob-kitobim。
復(fù)數(shù),mizimiz,例: Akam-Akamiz,kitob-kitobimiz。
② 第二人稱:
一般,nging,例: Aka-Akang,kitob-kitobing。
尊稱,ngizingiz,例: Aka-Akangiz,kitob-kitobingiz。
③ 第三人稱:
i-si,例: Aka-Akasi,kitob-kitobi。
烏孜別克語自身具有獨特的形態(tài)特征。烏孜別克語中存在大量的構(gòu)形、構(gòu)詞詞綴,而且它們都有同形或兼類現(xiàn)象,在烏孜別克語中名詞、動詞、數(shù)詞、形容詞等詞類具有特定的構(gòu)形附加成分[5]。烏孜別克語名詞識別研究主要包括烏孜別克語語料采集、詞匯統(tǒng)計、詞干提取、詞性標(biāo)注等關(guān)鍵技術(shù)與方法。
烏孜別克語的詞干提取方法的設(shè)計與實現(xiàn),要求掌握語言的形態(tài)變化規(guī)則和理解應(yīng)用系統(tǒng)的需求。由于烏孜別克語的形態(tài)結(jié)構(gòu)與規(guī)則不同,因此本研究采用多策略詞干提取方法,其流程如圖2所示。
圖2 多策略詞干提取方法流程圖
熵是描述事物無序性的參數(shù),熵越大說明事物的無序性越強。Jaynes首次提出了最大熵模型,其基本原理如下: 對所有的已知事實建模,對未知不做任何假設(shè),也就是建模時選擇一個滿足約束的且熵盡可能大的概率模型。若將詞性標(biāo)注或者其他自然語言處理任務(wù)看作一個隨機過程,最大熵模型就是從所有符合條件的分布中,選擇最均勻的分布,此時熵值最大。最大熵方法通過將樣本數(shù)據(jù)中的已知知識轉(zhuǎn)化為特征來進行。特征可以定義為以下的二值特征函數(shù)[7]:
(1)
由最大熵理論可知,系統(tǒng)必須選擇能夠滿足所有的作用在特征值上的約束,表示為式(2)。
(2)
最大熵原理的主要思想描述為: 將已知事實作為制約條件,求得可使熵最大化的概率分布作為正確的概率分布,該模型的形式[8]如式(3)、式(4)所示。
其中,Zλ(x)為歸一化函數(shù);fi(x,y)∈(0,1)為特征函數(shù);λi是特征函數(shù)的權(quán)重,代表每個特征函數(shù)的重要性,每個λi對應(yīng)一個特征函數(shù)[8]。
本文提出一種融合烏孜別克語形態(tài)特征的最大熵名詞標(biāo)注模型。依據(jù)上文中提出的烏孜別克語構(gòu)詞特點,定義了上下文特征模板,提取其特征集,然后根據(jù)人工設(shè)置的規(guī)則篩選模板,并訓(xùn)練最大熵概率模型參數(shù)。實驗結(jié)果表明,使用該模型標(biāo)注烏孜別克語名詞能獲得較好的性能。本文依據(jù)烏孜別克語名詞本身的構(gòu)詞特點選擇了相應(yīng)的模型特征。根據(jù)烏孜別克語構(gòu)詞特點和統(tǒng)計結(jié)果,本文分別設(shè)計了詞內(nèi)部特征和前后依存詞特征。
詞內(nèi)部特征表現(xiàn)了一個詞的內(nèi)部變化,其中包括詞干信息和詞綴信息。烏孜別克語中的詞是通過在一個詞干之后連接不同的詞綴(構(gòu)詞詞尾)構(gòu)成的,詞綴信息表現(xiàn)詞性等語法意義,故本研究設(shè)計了詞干信息和詞綴信息兩個類型的詞內(nèi)部信息特征模板。
(1) 詞干信息
烏孜別克語構(gòu)形詞尾不影響整個詞的詞類信息,對于烏孜別克語詞干、詞根上連接構(gòu)形詞尾構(gòu)成的詞,只需要考慮該詞的詞干或詞根的標(biāo)注信息。比如,joyda是名詞,該詞由詞干joy加上詞綴da構(gòu)成,只需要考慮詞干joy的詞性即可,特征函數(shù)定義為式(5)。
(5)
表4 詞內(nèi)部信息特征模板
(2) 詞綴信息
盡管烏孜別克語的構(gòu)詞和構(gòu)形都是以詞根、詞干上連接不同詞尾來形成各類詞,但是詞尾信息是有限的,根據(jù)“烏孜別克語法信息詞干詞典”收錄為準(zhǔn)烏孜別克語詞綴中過濾的詞綴。設(shè)計例如,“da”等作為名詞詞綴的一些特征模板。特征函數(shù)可以定義為式(6)。
(6)
(3) 前后依存詞特征
前后依存詞特征體現(xiàn)一個句子中與當(dāng)前詞緊密聯(lián)系的詞之間的關(guān)系。使用前后依存詞相關(guān)信息可以解決一詞兼多個詞類的問題[5]。例如,句子1: Men otga minishni o’rgandim(我學(xué)會了騎馬)和句子2: Siz boshqa basketbol o’yinchilar otish(請你籃球扔給對方選手)中的“ot”有動詞和名詞兩種詞性,可以通過其前后詞的詞類特征進行消歧處理。本文設(shè)計的特征如表5所示。
表5 前后依存詞信息特征模板
(1) 開發(fā)文字統(tǒng)一轉(zhuǎn)換工具
本工具把烏孜別克語西里爾文文本轉(zhuǎn)換成烏孜別克語拉丁文,形成統(tǒng)一的拉丁文文本語料庫。文字轉(zhuǎn)換工具模塊,如圖3所示。
圖3 文字轉(zhuǎn)換模塊圖
(2) 研制烏孜別克語詞匯統(tǒng)計系統(tǒng)
在現(xiàn)有的維吾爾語統(tǒng)計技術(shù)基礎(chǔ)上,結(jié)合烏孜別克語特點,研發(fā)烏孜別克語統(tǒng)計系統(tǒng),總文本語料的70%作為封閉語料,構(gòu)建烏孜別克詞匯庫,共建立五萬多種詞匯,是烏孜別克語詞干庫的構(gòu)建及烏孜別克語詞類標(biāo)注的重要基礎(chǔ)。
(3) 烏孜別克語詞匯庫詞類標(biāo)注
以烏孜別克語詞匯庫為處理對象,對36 790篇文本中出現(xiàn)的68 750個詞匯進行詞類標(biāo)注,構(gòu)建68 750種烏孜別克語標(biāo)注詞匯庫,為建立烏孜別克語語法信息詞干詞典做準(zhǔn)備。
(4) 建立烏孜別克語法信息詞干詞典
以上研究基礎(chǔ)上,結(jié)合人機交互技術(shù)和人工參與的方法,對68 750種烏孜別克語標(biāo)注詞匯進行詞干提取,建立規(guī)模為17 064種的烏孜別克語語法信息詞干詞典。
實驗數(shù)據(jù)如表6所示。
表6 烏孜別克語語料結(jié)果概括表
表6的實驗結(jié)果表明,本方法可行、有效。在實驗結(jié)果中,有些綴接詞綴的動詞命令式、帶有屬性人稱的代詞等也被識別成名詞。為了提高識別效率,將要補充詞干庫,同時也需要進一步深入研究烏孜別克語的語法、語義特征。另外,還有一些不帶附加成分的未登錄詞,不在名詞庫中的人名、地名、專有名詞容易被忽略,需要豐富名詞詞干庫,彌補本詞庫的缺陷,提高名詞識別正確率及效率。
本文介紹了烏孜別克語名詞詞干識別的一些研究工作,重點陳述了烏孜別克語名詞的形態(tài)分析和在最大熵模型下的特征選擇。依據(jù)烏孜別克語的自身特點,以詞內(nèi)部詞干和詞綴、詞前后信息等形態(tài)信息為特征,提出了融合烏孜別克語形態(tài)特征的最大熵名詞標(biāo)注模型。實驗結(jié)果表明,利用該模型,能夠有效地利用上下文信息,可對烏孜別克語名詞標(biāo)注產(chǎn)生顯著效果。