• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      中亞語言自然語言處理綜述

      2018-06-14 07:46:38吐爾根依布拉音卡哈爾江阿比的熱西提艾山吾買爾買合木提買買提
      中文信息學(xué)報(bào) 2018年5期
      關(guān)鍵詞:哈薩克語詞法維吾爾語

      吐爾根·依布拉音,卡哈爾江·阿比的熱西提,艾山·吾買爾,買合木提·買買提

      (1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2. 新疆大學(xué) 新疆多語種信息技術(shù)實(shí)驗(yàn)室, 新疆 烏魯木齊 830046)

      1 中亞語言概述

      隨著“絲綢之路經(jīng)濟(jì)帶”戰(zhàn)略構(gòu)想的逐步實(shí)施,我國與沿線各國的經(jīng)濟(jì)貿(mào)易、互聯(lián)互通、區(qū)域合作、金融合作、文化交流與合作等更加密切,如何利用信息技術(shù)和新媒體手段,通過“信息絲綢之路”的建設(shè),進(jìn)一步深化我國與“絲綢之路經(jīng)濟(jì)帶”沿線國家的文化與信息交流,促進(jìn)區(qū)域合作、實(shí)現(xiàn)共同發(fā)展顯得十分必要。目前,我國對周邊中亞國家和地區(qū)在多語種信息處理和網(wǎng)絡(luò)內(nèi)容安全方面都存在著重大需求。因此,在中亞語言自然語言處理方面展開研究,具有重要意義。

      本文中的中亞語言是指“絲綢之路經(jīng)濟(jì)帶”沿線的中亞國家和地區(qū)所操語言,屬于阿爾泰語系突厥語族,其中包括我國維吾爾語、哈薩克語、柯爾克孜語和國外的哈薩克語(跨境)、吉爾吉斯語(跨境)、烏茲別克語、土耳其語、土庫曼語、阿塞拜疆語、韃靼語和巴什基爾語等,覆蓋 1.82 億人口,是我國“絲綢之路經(jīng)濟(jì)帶”戰(zhàn)略中具有重要地位的語言。其特點(diǎn)為語言現(xiàn)象互相接近,都屬于黏著性語言。具體來說,在語音方面,元音和諧;在詞法方面,詞干可以加多種附加成分;在句法方面,主語和謂語人稱詞綴要保持一致,因此主語可以省略,句型結(jié)構(gòu)為主語—賓語—謂語。

      開展中亞語言自然語言處理工作,對“絲綢之路經(jīng)濟(jì)帶”沿線國家及周邊地區(qū)多語言智能信息處理的關(guān)鍵問題提供解決方案和技術(shù)支撐,以“一帶一路,語言鋪路”來解決“絲綢之路經(jīng)濟(jì)帶”語言障礙問題,達(dá)到深化與沿線國家和周邊地區(qū)的科技文化信息交流、促進(jìn)區(qū)域合作及實(shí)現(xiàn)共同發(fā)展的目的。

      2 中亞自然語言處理現(xiàn)狀

      目前,中亞語言中土耳其語在詞法分析、句法分析、命名實(shí)體識別、機(jī)器翻譯等方面均有較大進(jìn)展。其中,維吾爾語、哈薩克語、韃靼語在自然語言處理方面也進(jìn)展較快,其他語種則尚處于初始研究階段。下面我們分別描述中亞語言在詞法分析、句法分析、命名實(shí)體識別、機(jī)器翻譯等方面的進(jìn)展,以及針對黏著語的通用語言處理技術(shù)的進(jìn)展。

      2.1 詞法分析

      2.1.1 土耳其語

      土耳其語在詞法分析方面的研究表現(xiàn)較為突出。Oflazer[1]在土耳其畢爾坎特大學(xué)(Bilkent University)時(shí),介紹了土耳其語形態(tài)的兩層描述。他對于黏著性詞的結(jié)構(gòu),利用2.3萬土耳其語詞干及22個(gè)兩層語音規(guī)則,分別針對動詞,名詞性詞語的詞形變化表構(gòu)建了有限狀態(tài)自動機(jī)。語音和形態(tài)方面的特殊情況都被考慮到該描述中,并通過PC-KIMMO 環(huán)境實(shí)現(xiàn)了基于兩層描述的形態(tài)分析器。該工作為土耳其語自然語言處理基礎(chǔ)研究做出了較大的貢獻(xiàn),此后的土耳其語詞法分析基本上都是在該工作的基礎(chǔ)上進(jìn)行。但該方法存在一些缺點(diǎn): ①為適合少數(shù)形態(tài)現(xiàn)象,需要修改規(guī)則,從而導(dǎo)致有限狀態(tài)自動機(jī)的狀態(tài)數(shù)劇增; ②該方法需要先確定詞干,因此搜索詞干過程提高了算法的時(shí)間復(fù)雜度。

      隨后Oflazer[2]進(jìn)一步提出基于容錯機(jī)制的有限狀態(tài)自動機(jī)識別算法,并將該算法用到詞法分析和校對任務(wù)上。該算法使得有限狀態(tài)識別器能夠識別輕度偏離基本正規(guī)集合的字符串。該算法的優(yōu)點(diǎn)是它可以用給定的有限狀態(tài)自動機(jī),且適用于模式眾多、匹配的字符串較短的場景。該算法與具體語言無關(guān),且較適合于形態(tài)復(fù)雜語言。該方法只需給出待分析語言包含各種形態(tài)變化的單詞表或描述該語言的整個(gè)形態(tài)現(xiàn)象的單個(gè)形態(tài)轉(zhuǎn)換器,就可以將該方法用到該語言的形態(tài)分析和校對任務(wù)上。作者將該算法用到土耳其語及歐洲的芬蘭語等10種語言的形態(tài)分析任務(wù)上,得到了較好的結(jié)果。但該算法本質(zhì)上是基于規(guī)則的,即依賴于描述待分析語言的有限狀態(tài)自動機(jī)或形態(tài)變化表。因此對不符合規(guī)則的未登錄詞,特別是對外來詞無法進(jìn)行處理。

      伊斯坦布爾技術(shù)大學(xué)的Eryigit和Adali[3]針對之前文獻(xiàn)[1]中存在的第二個(gè)問題,采用了詞綴剝離方法。在該方法中他們利用土耳其語的詞綴鏈接規(guī)則,將詞綴按照功能進(jìn)行分類,并對每一個(gè)類別構(gòu)建了描述該類別中的詞綴鏈接規(guī)則的有限狀態(tài)自動機(jī),并進(jìn)一步將每一種詞綴類的有限狀態(tài)自動機(jī)進(jìn)行結(jié)合,從而構(gòu)建了全局有限狀態(tài)自動機(jī)。該自動機(jī)從右到左對單詞進(jìn)行分析,不需要先確定詞干,因此也不需要詞干詞典。與Oflazer的方法相比,Eryigit等提出的方法速度更快,速度相對快,未登錄詞處理能力更強(qiáng),且不需詞干庫,只需要詞綴鏈接規(guī)律,適合于對速度的要求高、對詞法分析準(zhǔn)確率要求不高的應(yīng)用場景。該大學(xué)的Hakkani-Tür等人[4]為了解決基于規(guī)則的土耳其語詞法歧義消除方法中需要人工方式編寫規(guī)則、優(yōu)化困難等問題,采用了三元模型的統(tǒng)計(jì)方法進(jìn)行詞法歧義消除。然而統(tǒng)計(jì)方法面臨的困難是黏著語形態(tài)句法標(biāo)記集比英語等其他非黏著語大很多,因而導(dǎo)致數(shù)據(jù)稀疏問題。因此,針對該問題他們將形態(tài)句法標(biāo)記劃分為多個(gè)屈折詞素組(inflectional group),每一個(gè)屈折詞素組包括每一個(gè)派生形式的屈折特征,從而降低了需要處理的標(biāo)記集規(guī)模。利用該方法構(gòu)建的四種統(tǒng)計(jì)模型都比基線方法好,其中忽略單詞之內(nèi)的局部形態(tài)句法特征的簡單模型表現(xiàn)出最好的消歧效果。該方法在一定程度上緩解了數(shù)據(jù)稀疏問題。在詞法分析任務(wù)上準(zhǔn)確率為93.95%,在詞法分析任務(wù)中僅考慮詞性標(biāo)注時(shí),準(zhǔn)確率為95.07%,有較大的提升空間。

      美國俄亥俄州立大學(xué)的Kutlu和土耳其哈斯特帕大學(xué)(Hacettepe University)的Cicekli[9]進(jìn)一步針對土耳其語數(shù)據(jù)稀疏問題,提出了混合模型,即他們將統(tǒng)計(jì)方法、基于規(guī)則方法進(jìn)行結(jié)合,提高了土耳其語形態(tài)消歧系統(tǒng)的準(zhǔn)確率。他們的混合方法由串聯(lián)的五個(gè)模塊組成;具體包括: ①根據(jù)單詞標(biāo)記概率表選擇單詞的最有可能的標(biāo)記; ②通過有監(jiān)督標(biāo)記器進(jìn)行消歧,該消歧器由人工構(gòu)建的342條歧義消歧規(guī)則組成; ③根據(jù)后綴標(biāo)記概率表選擇后綴的最有可能的標(biāo)記; ④通過他們訓(xùn)練的Brill標(biāo)注器進(jìn)一步進(jìn)行消歧; ⑤后退啟發(fā)式方式進(jìn)一步進(jìn)行消歧。他們最終實(shí)驗(yàn)結(jié)果表明當(dāng)僅進(jìn)行詞性標(biāo)注時(shí)準(zhǔn)確率達(dá)到了96.9%,同時(shí)考慮詞性標(biāo)注和最終的形態(tài)分析結(jié)果時(shí)準(zhǔn)確率為94.1%。

      華為土耳其研究和發(fā)展中心(Huawei Turkey Research and Development Center)的Yildiz等人[10]提出了能夠?qū)W習(xí)形態(tài)豐富語言詞表示的深度學(xué)習(xí)框架。為了解決形態(tài)復(fù)雜語言的數(shù)據(jù)稀疏問題,他們通過Oflazer的方法進(jìn)行詞法分析,將單詞表層形式分解為詞根和形態(tài)特征集。在訓(xùn)練過程中先單獨(dú)學(xué)習(xí)詞根和形態(tài)特征的嵌入(embedding),單詞表層形式的嵌入則通過詞根和形態(tài)特征嵌入的連接得到,通過這種方式緩解了形態(tài)復(fù)雜語言面臨的數(shù)據(jù)稀疏問題。換句話說,該框架第一層利用的是詞根嵌入、形態(tài)特征嵌入構(gòu)建詞(表層形式)的嵌入。第二層將詞表示作為輸入合并上下文信息。最后一層是softmax層,該層將第二層的輸出作為輸入,輸出待分類分?jǐn)?shù)的結(jié)果。他們利用Viterbi算法從softmax出來的結(jié)果中找到了最優(yōu)的序列。他們將該框架用到土耳其語、法語和英語的歧義消除任務(wù)上,并在土耳其語詞法歧義消除任務(wù)上得到了最好的結(jié)果。為了提高消歧系統(tǒng)的準(zhǔn)確率,他們收集并建立了土耳其語迄今為止最大的語料庫,該語料庫包括11億的土耳其語單詞。用該框架訓(xùn)練消歧系統(tǒng)以后,通過該系統(tǒng)對語料庫進(jìn)行消歧,并提取了詞根。然后利用skip-gram模型得到了詞根表示。并用該詞根表示重新訓(xùn)練消歧系統(tǒng)。論文中沒有描述利用該語料之前的消歧結(jié)果。因此不能確定大規(guī)模語料為提高歧義消歧的貢獻(xiàn)程度。

      2.1.2 哈薩克語

      近年來,哈薩克斯坦哈薩克語詞法分析方面也取得了一定的進(jìn)展。土耳其法提赫大學(xué)(Fatih University)的Zafer,Tilki,Atakan Kurt以及伊斯坦布爾大學(xué)(Istanbul University)的Mehmet Kara等人圍繞著Dilma?機(jī)器翻譯框架開發(fā)了哈薩克語兩層形態(tài)分析器[11]。哈薩克斯坦列·尼·古米列夫歐亞國立大學(xué)(L.N. Gumilyov Eurasian National University)的Razakhova 、Yergesh等人在哈薩克語句法形式化*Formalization of syntactic rules of the Kazakh language, http://www.enu.kz/repository/repository2012/pdf/4.pdf(2017,1,10)、哈薩克語語義超圖表示[12]、形容詞的形式化模型構(gòu)建[13]等方面做了一定研究。

      哈薩克斯坦阿里-法拉比國立民族大學(xué)(al-Farabi Kazakh National University)的Tukeyev,Zhumanov以哈薩克語機(jī)器翻譯[14]為目標(biāo)做了哈薩克語鏈接語法方面的研究[15],并探索了適合俄語和哈薩克語基于規(guī)則的形態(tài)傳感器[16]。為開發(fā)英語—哈薩克語機(jī)器翻譯系統(tǒng),該大學(xué)的Kuandykova等人研究如何構(gòu)建100萬詞規(guī)模的英語—哈薩克語語料庫[17]。該大學(xué)的D Rakhimova等人開始研究哈薩克語—俄語機(jī)器翻譯[18]。該大學(xué)Bekbulatov等人研究形態(tài)分析對哈薩克語—英語機(jī)器翻譯系統(tǒng)的影響[19]。該大學(xué)的Kairakbay等人研究哈薩克語形態(tài)分析[20],并將其應(yīng)用到哈薩克文識別(OCR),研發(fā)了基于Web并行計(jì)算的哈薩克文識別系統(tǒng)[21-22]。

      土耳其哈斯特帕大學(xué)的Kessikbayeva等人以Xerox自動狀態(tài)機(jī)為工具開發(fā)了基于規(guī)則的哈薩克語詞法分析器[23],并進(jìn)一步研究了歧義消除方法[24]。

      納扎爾巴耶夫大學(xué)(Nazarbayev University)的Makhambetov,Makazhanov 等人對哈薩克語標(biāo)注語料庫的構(gòu)建[25]、自動校對[26]、自動詞性標(biāo)注[27-28]、歧義消除[29]等方面進(jìn)行研究。該大學(xué)的Yessenbayev等人對哈薩克語語音識別也進(jìn)行了初步研究[30-32]。

      新疆大學(xué)古麗拉等人通過有限狀態(tài)自動機(jī)[33]、HMM 方法[34-35]對哈薩克語開展了較為深入的研究。

      2.1.3 維吾爾語

      自20世紀(jì)90年代中期開始,學(xué)者們開始研究維吾爾語語言信息處理技術(shù)[36]。新疆師范大學(xué)玉素甫等人對詞類標(biāo)記的確定[37]、網(wǎng)絡(luò)用詞的切分[38]等多方面進(jìn)行研究。新疆大學(xué)吐爾根等人分別用基于有限自動狀態(tài)機(jī)的算法[39],基于最大熵和有限狀態(tài)自動機(jī)相結(jié)合的算法[40],基于CRF和有限狀態(tài)自動機(jī)相結(jié)合的算法[41],基于有向圖模型的算法[42-43],以及基于感知器算法[44]多種方法研究了維吾爾語詞干提取和詞性標(biāo)注。新疆大學(xué)艾斯卡爾等人用基于詞性和上下文的方法[45]、基于 CRF[46]的算法、無監(jiān)督和規(guī)則相結(jié)合的方法[47]等多種方法研究了維吾爾語詞干提取方法。中國科學(xué)院新疆理化所的Yung等人也用基于字符標(biāo)注的CRF方法[48]對維吾爾語詞語切分進(jìn)行了初步研究。中央民族大學(xué)王海波等人也對維吾爾語詞性標(biāo)注等方面做了研究[49]。中國科學(xué)院計(jì)算所張海波提出了基于聯(lián)合音變還原和形態(tài)切的方法對維吾爾語進(jìn)行了詞干提取[50]。

      通過以上的代表性工作比較(表1)可以看出,土耳其語詞法分析主要針對土耳其語的形態(tài)復(fù)雜性特點(diǎn),提出基于規(guī)則、統(tǒng)計(jì)及融合方法。最近也通過深度學(xué)習(xí)方法來做詞法分析和詞法歧義消除。有些方法通用性比較強(qiáng),不僅可以用到相似的中亞語言的詞法分析任務(wù)上,還可以用到芬蘭語等黏著語言的詞法分析任務(wù)上。維吾爾語、哈薩克語等其他語言也參考土耳其語、漢語、英語取得了相對較好的進(jìn)展。但是對于以上的詞法分析和歧義消除研究,各研究機(jī)構(gòu)都利用自己的訓(xùn)練和測試語料進(jìn)行測試,測試結(jié)果準(zhǔn)確率大致為85%~98%。由于沒有統(tǒng)一的評價(jià)和測試標(biāo)準(zhǔn),同時(shí)訓(xùn)練語料也由各研究機(jī)構(gòu)各自收集和標(biāo)注,因此難以客觀地比較各種算法之間性能差距。

      表1 詞法分析工作比較

      續(xù)表

      2.2 句法分析

      以上的句法分析工作與形態(tài)分析是串行進(jìn)行,即先獨(dú)立地進(jìn)行形態(tài)分析,并通過自動或人工的方式進(jìn)行歧義消除,各模塊不能互相交互。鑒于以上工作的不足,德國斯圖加特大學(xué)的Seeker[56]等人提出了基于圖模型的聯(lián)合形態(tài)切分和句法分析的格句法分析方法。該方法將詞語切分、形態(tài)分析及依存句法分析等問題劃分為幾個(gè)小問題,并通過對偶分解方法找到共同解決方案。他們將該方法用到土耳其語和希伯來語樹庫,結(jié)果超出前人方法。

      在句法分析方面,新疆大學(xué)探索了構(gòu)建維吾爾語句法樹庫[57]、語法信息詞典[58],制定了維吾爾語依存樹庫標(biāo)注體系[59],并利用標(biāo)注工具進(jìn)行了依存樹的標(biāo)注[60]。目前部分標(biāo)注句子[61]放到通用依存句法樹庫項(xiàng)目中*http://universaldependencies.org/#ug。

      通過以上工作可以看出,雖然對于土耳其語的句法分析有一定的基礎(chǔ),但相比英語、漢語等語言還是比較滯后,維吾爾語和哈薩克語句法分析剛起步,處于語料庫構(gòu)建階段。雖然CoNLL- X shared task在2006—2007年的依存樹分析任務(wù)中增加土耳其語依存分析任務(wù),但土耳其語句法分析還是被認(rèn)為比較難。比如Buchholz等人提到[62]“ 最難的數(shù)據(jù)集顯然是土耳其語。該數(shù)據(jù)集是相當(dāng)小的,與小的數(shù)據(jù)集阿拉伯語和斯洛文尼亞語相比更小,它涵蓋了八種類型,從而在測試集中導(dǎo)致高百分比的新的形態(tài)和詞根?!?/p>

      2.3 命名實(shí)體識別

      土耳其中東技術(shù)大學(xué)(Middle East Technical University)的Yavuz等人提出了結(jié)合貝葉斯方法和基于規(guī)則的混合方法。他們在土耳其語樹庫語料上對50篇新聞進(jìn)行標(biāo)注、測試。由于以往的標(biāo)注語料庫沒有公開因此無法與其他研究機(jī)構(gòu)進(jìn)行對比。他們在測試中對前人的工作用自己的測試集進(jìn)行了比較,其測試結(jié)果表明混合策略比單獨(dú)使用貝葉斯方法好,混合方法的F值為91.44%[65]。

      土耳其科學(xué)技術(shù)研究理事會(TüBiTAK ,Scientific and Technological Research Council of Turkey)能源研究所(TüBiTAK Energy Institute)的Kü?ük等人[66]針對土耳其語命名實(shí)體資源匱乏問題,提出了自動資源編篆方法。他們以維基百科中的文章標(biāo)題為原始語料,先隨機(jī)抽取部分語料,進(jìn)行命名實(shí)體人工標(biāo)注,構(gòu)建訓(xùn)練語料庫。將該標(biāo)注語料庫及命名實(shí)體識別規(guī)則作為依賴數(shù)據(jù)和規(guī)則,用K鄰近算法,對未標(biāo)注語料進(jìn)行自動編篆。通過該方法得到了為91.25%準(zhǔn)確率的編篆語料庫。他們將該語料庫作為原先的基于規(guī)則的方法的依賴庫,進(jìn)行命名實(shí)體抽取,結(jié)果比原先的基于規(guī)則的方法好,從而說明了該方法的優(yōu)越性。因?yàn)樗麄冇镁S基百科的多領(lǐng)域數(shù)據(jù),因此該方法在不同領(lǐng)域的效果比前人的方法好。但將自動編篆資源再進(jìn)行人工修正以后,效果進(jìn)一步提高,因此該方法還是在比較大的程度上依賴于人工標(biāo)注。該理事會的信息學(xué)和信息安全研究中心(TüBiTAK BiLGEM)的Demir 等人[67]針對形態(tài)復(fù)雜語言的語言處理技術(shù)主要依賴于與語言相關(guān)的特征,提出了基于半監(jiān)督神經(jīng)網(wǎng)絡(luò)的命名實(shí)體識別方法。該方法與具體語言無關(guān)且利用詞向量提高了土耳其語命名實(shí)體識別質(zhì)量。

      維吾爾語命名實(shí)體識別主要集中在人名上,其中有中科院與新疆大學(xué)共同合作研究基于詞典等傳統(tǒng)方法的基礎(chǔ)上運(yùn)用語言模型的維吾爾語中漢族人名識別方法[68]、新疆大學(xué)的基于CRF的維吾爾語人名識別方法[69]、基于統(tǒng)計(jì)和規(guī)則的維吾爾人名識別[70]、基于模糊匹配與音字轉(zhuǎn)換的維吾爾語人名識別方法[71],也有基于規(guī)則的機(jī)構(gòu)名[72]、地名[73]識別方面的研究。

      2.4 機(jī)器翻譯

      卡耐基梅隆大學(xué)卡塔爾分校的Oflazer介紹了土耳其語在自然語言處理方面面臨的挑戰(zhàn)并進(jìn)一步介紹了代表土耳其語自然語言處理方面的最好的詞法分析、歧義消除、依存分析器等工具、以及樹庫、篇章語料庫、土耳其語 WordNet和其他的語言資源[81]。荷蘭格羅寧根大學(xué)的C?ltekin介紹了土耳其語形態(tài)切分、詞干提取、未登錄詞識別、字—音轉(zhuǎn)換、連字、形態(tài)歧義方面的開源工具[82]。

      新疆大學(xué)吐爾根等人構(gòu)建了面向政府文獻(xiàn)的 20 萬漢維句子對齊語料庫,近 15 萬條漢維語短語搭配的漢維語短語庫[36];中國科學(xué)院新疆理化技術(shù)研究所周俊林等人開展?jié)h語、維吾爾語之間機(jī)器翻譯方法的研究[83],研究了機(jī)器翻譯中維吾爾語形態(tài)的處理[84]、調(diào)序方法[85]、預(yù)處理方法[86],翻譯中的未登錄詞處理[87]等方法。中國科學(xué)院計(jì)算所也在人名翻譯[68]、以維吾爾語為例的黏著語機(jī)器翻譯方法[88]等方面進(jìn)行了深入探索。新疆大學(xué)在基于實(shí)例的機(jī)器翻譯方法[89]、維漢機(jī)器語言模型構(gòu)建[90]、詞尾對翻譯的影響[91]等方面進(jìn)行了研究。

      中文信息學(xué)會主辦的全國機(jī)器翻譯評測(CWMT)2011年增加從維吾爾語、哈薩克語、柯爾克孜語到漢語的機(jī)器翻譯評測項(xiàng)目(CWMT2011)。CWMT2013、CWMT2015一直保留從維吾爾語到漢語的機(jī)器翻譯評測項(xiàng)目,對我國少數(shù)民族語言機(jī)器翻譯起了推動作用。

      2.5 其他中亞語言

      美國印第安納大學(xué)的Washington等人對吉爾吉斯語形態(tài)傳感器進(jìn)行了研究[92],并利用語言的相似性和俄羅斯喀山聯(lián)邦大學(xué)(Kazan Federal University)的Salimzyanov等人合作通過相同的方法對三種屬于欽察語言(Kypchak)分支的韃靼語、哈薩克語及庫梅克語(Kumyk language)的形態(tài)傳感器進(jìn)行了研究(morphological transducer)[93]。他們先構(gòu)造了韃靼語—巴什基爾語(俄羅斯的巴什科爾托斯坦共和國官方語言)機(jī)器翻譯原型系統(tǒng)[94],進(jìn)一步研制了開源的基于規(guī)則的哈薩克語—韃靼語機(jī)器翻譯系統(tǒng)[95]。

      日本名古屋大學(xué)的 Ogawa 等人利用日語—維吾爾語詞典通過音譯的方式擴(kuò)展了日語—烏茲別克語詞典[96]。京都大學(xué)的Wushouer等人以漢語作為中間語分別用啟發(fā)式方法[97]、以語義距離為優(yōu)化問題的約束方法[98]從漢語—哈薩克語、漢語—維吾爾語、漢語—柯爾克孜語詞典中導(dǎo)出了維吾爾語—哈薩克語、維吾爾語—柯爾克孜語詞典。

      俄羅斯科學(xué)院語言學(xué)研究所(Institute of Lingustics Russian Academy of Science)的Sheymovich等人構(gòu)建了形態(tài)標(biāo)注的哈卡斯語(哈卡斯共和國官方語言)語料庫、為哈卡斯語的形態(tài)分析器打下了基礎(chǔ)[99]。俄羅斯韃靼斯坦科學(xué)院(Tatarstan Academy of Sciences)的Galieva、Gatiatullin等人利用韃靼語和俄語解釋詞典、韃靼—俄語雙語詞典和俄語國家語料庫等資源開始研究構(gòu)建韃靼語言語義標(biāo)注語料庫方法[100]。該科學(xué)院的Suleymanov等人研究韃靼語和哈薩克語的共同模型[101]。

      新疆大學(xué)木合亞提、古麗拉等人在柯爾克孜語語料庫建設(shè)[54,102]和詞性標(biāo)注方面進(jìn)行了初步研究。

      2.6 形態(tài)復(fù)雜語言分析通用算法方面

      國際上,2005-2010 年針對形態(tài)比較復(fù)雜語言舉行了MorphoChallenge 評測*http://research.ics.aalto.fi/events/morphochallenge/。該評測由歐盟 PASCAL 項(xiàng)目組織。評測后期總共包括的語言分別為芬蘭語、土耳其語、德語以及阿拉伯語。評測任務(wù)包括形態(tài)分析如何影響詞語的切分、語音識別、信息抽取、機(jī)器翻譯的性能。雖然通過該評測形態(tài)分析算法研究得到了一定的進(jìn)展,如有了30 多種形態(tài)分析算法[103]。但是什么樣的算法是最好的,如何利用上下文信息、如何利用,監(jiān)督學(xué)習(xí)算法等問題留到以后再研究。此后研究人員利用該評測中的數(shù)據(jù)集進(jìn)行了進(jìn)一步研究。例如,捷克馬薩里克大學(xué)的 Baisa等人[104]從網(wǎng)上自動爬取了六種中亞語言語料,并進(jìn)行了無監(jiān)督的詞法分析。在 MorphoChallenge 2005 上的土耳其語數(shù)據(jù)集上得到了較好的結(jié)果。美國麻省理工學(xué)院的Narasimhan等人提出了基于無監(jiān)督的形態(tài)鏈方法,該方法在Morpho Challenge 2010 數(shù)據(jù)集上得到了最好的結(jié)果[105]。

      此外,捷克查理大學(xué)的Straková等人研究并實(shí)現(xiàn)了作為比較典型的屈折語捷克語的詞法分析、詞形還原以及命名實(shí)體識別工具,并討論了屈折語通用模型構(gòu)建的可能性[106],為中亞語言通用模型構(gòu)建提供了參考。 卡耐基梅隆大學(xué)的Faruqui 等人提出了基于神經(jīng)網(wǎng)絡(luò)的屈折變化生成模型,他們的模型對于芬蘭語的元音和諧生成得到了最好的結(jié)果[107],并進(jìn)一步通過基于圖的半監(jiān)督方法對于 11 種語言生成了形態(tài)—句法詞匯(Morpho-Syntactic Lexicon)[108]。

      加州大學(xué)伯克利分校的Durrett等人用有監(jiān)督的方法將 Wiktionary*http://en.wiktionary.org上的屈折表作為訓(xùn)練語料構(gòu)造了生成詞匯的形態(tài)變化模型[109]。瑞典哥德堡大學(xué)(University of Gothenburg)的Ahlberg 等人[110]提出了最長共同子序列(LCS)方式,用半監(jiān)督方法構(gòu)造了詞匯的形態(tài)變化模型并在此基礎(chǔ)上采用判別分類模型得到了較好的結(jié)果[111]。加拿大阿爾伯塔大學(xué)(University of Alberta)的Nicolai 等人對屈折表生成的規(guī)則進(jìn)行重新排序得到了較好的結(jié)果[112]。

      3 面臨的問題

      從以上的國內(nèi)外中亞自然語言處理研究進(jìn)展可以看出,國內(nèi)以維吾爾語、哈薩克語及柯爾克孜語為主在自然語言處理的各領(lǐng)域進(jìn)行了比較廣泛的研究。在國外,近年來美國、俄羅斯、土耳其、哈薩克斯坦等國在中亞諸語種的信息處理技術(shù)方面開展相關(guān)研究,取得了積極進(jìn)展。土耳其自然語言處理各領(lǐng)域取得了較好的進(jìn)展;哈薩克語在詞法、句法分析、共性語言模型的構(gòu)建方面也取得了一定的成果;吉爾吉斯語、韃靼語小語種在基本的自然語言處理技術(shù)上取得了一定進(jìn)步。但是相對于國際大語種的研究,差距仍然巨大。在科學(xué)研究方面,我的認(rèn)為中亞語言資源的開放、Wiktionary等開放數(shù)據(jù)平臺上的中亞語言稀缺,以及中亞語言研究機(jī)構(gòu)的前沿技術(shù)應(yīng)用的欠缺,可能是導(dǎo)致該差距的主要因素。

      在資源開放方面,據(jù)我們文獻(xiàn)調(diào)研,除了土耳其語有公開的詞語切分語料、依存樹庫、平行語料,德國萊比錫大學(xué)(Universit?t Leipzig)的通過爬蟲自動構(gòu)建的200多種語言的網(wǎng)絡(luò)爬蟲無標(biāo)注單語料庫*http://corpora.uni-leipzig.de,土耳其語的校對*http://zemberek.googlecode.com/、詞法分析工具、基于規(guī)則的哈薩克語—韃靼語機(jī)器翻譯系統(tǒng),以及我國CWMT中的從漢語到維吾爾語、哈薩克語、柯爾克孜語的平行語料以外,其他領(lǐng)域和語言幾乎很少有公開的加工語料和工具供給研究人員進(jìn)行進(jìn)一步研究。因此中亞語言資源及開源的語言處理工具還是很匱乏的,這在一定程度上限制了中亞語言自然語言處理技術(shù)的廣泛研究。

      非中亞語言國家和地區(qū)本土的研究機(jī)構(gòu)和研究者針對形態(tài)分析進(jìn)行研究,嘗試提出與語言無關(guān)的算法、模型或方法。但這些研究主要用 MorphoChallenge 和 Wiktionary的數(shù)據(jù)進(jìn)行研究。雖然 MorphoChallenge的數(shù)據(jù)比較可靠權(quán)威,但是僅覆蓋了四、五種語言。對于中亞語言來說,該評測只包含土耳其語。然而由志愿者來維護(hù)的Wiktionary上的相關(guān)的語言種類豐富,超過3 000種,但只有43種語言的詞條超過 1 萬(包括土耳其語),其他語言均小于 1 萬,且其他大部分語言的詞條都是幾百個(gè)、幾十個(gè),增長速度也很緩慢。2016 年 1 月 12 日的統(tǒng)計(jì)結(jié)果中,各中亞語言的詞條數(shù)分別為: 土庫曼語(609)、烏茲別克語(515)、哈薩克 語(464)、維吾爾語(460)、吉爾吉斯語(353)。2017 年 2 月 1 日的統(tǒng)計(jì)結(jié)果中: 土庫曼語(554)、烏茲別克語(477)、哈薩克語(496)、維吾爾語(501)、吉爾吉斯語(368)*https://en.wiktionary.org/wiki/Wiktionary: Statistics。因此開放數(shù)據(jù)平臺上中亞語言資源的稀缺阻礙了中亞語言自然語言處理的發(fā)展。

      中亞國家及我國少數(shù)民族區(qū)域研究機(jī)構(gòu)的研究方法中,主要采用相對過時(shí)的技術(shù)和方法,前沿理論、技術(shù)和方法的應(yīng)用力度不夠。這種現(xiàn)狀也可能是中亞語言自然語言處理技術(shù)和其他英語等其他語言相差比較大的原因之一。

      4 未來研究方向

      對于在本文第一部分提到中亞語言自身的語言復(fù)雜特點(diǎn),適用于大語種的研究方法并不能完全適用于這些語言的研究,因此針對中亞諸語言的特點(diǎn),在基本理論和計(jì)算模型上進(jìn)行創(chuàng)新性研究,探討適合中亞諸語言計(jì)算的模型是今后研究的思路。

      針對資源稀缺和前沿技術(shù)應(yīng)用欠缺的問題,在中亞語言資源方面具有優(yōu)勢的研究機(jī)構(gòu)和前沿技術(shù)研究方面具有優(yōu)勢的單位相互合作,發(fā)揮各自優(yōu)勢,在資源和技術(shù)的充分挖掘下,可以將資源和工具開放,吸引更多的研究機(jī)構(gòu)研究中亞語言處理,推動中亞自然語言處理發(fā)展。

      對于我國中亞語言研究而言,雖然目前我國維吾爾語、哈薩克語的資源建設(shè)已經(jīng)有了較好的基礎(chǔ),但是其他中亞諸多語言的資源建設(shè)和處理方面在國內(nèi)還沒有研究成果。因此,可以充分利用中亞諸多語言相似性,通過跨語言映射的方式為目標(biāo)語言獲取可用的標(biāo)注信息,從而建立中亞語言知識庫。并將維吾爾語、哈薩克語等少數(shù)民族語言和漢語之間的機(jī)器翻譯成果應(yīng)用到中亞語言,并進(jìn)一步在接近語言之間的機(jī)器翻譯和非接近語言之間的機(jī)器翻譯理論和方法上進(jìn)行創(chuàng)新,推動我國在中亞地區(qū)的影響力。

      5 結(jié)束語

      本文總結(jié)了到目前為止中亞自然語言處理在國內(nèi)外的研究現(xiàn)狀,分析了當(dāng)前所面臨的問題與困難,并針對問題的解決和未來的研究提出了建設(shè)性的建議。

      [1] Oflazer K. Two-level description of Turkish morphology [J]. Literary and Linguistic Computing, 1994, 9(2): 137-148.

      [2] Oflazer K. Error-tolerant finite-state recognition with applications to morphological analysis and spelling correction [J]. Computational Linguistics, 1996, 22(1): 73-89.

      [3] Eryigit G, Adali E. An affix stripping morphological analyzer for Turkish[C]//Proceedings of the IASTED international conference on artificial intelligence and applications, Vols 1and 2, Innsbruck, Austria: 2004, 299-304.

      [4] Hakkani-Tür D Z, Oflazer K, Tür G. Statistical morphological disambiguation for agglutinative languages [J]. Computers and the Humanities, 2002, 36(4): 381-410.

      [5] Sak H, Gungor T, Saraclar M. Morphological disambiguation of Turkish text with perceptron algorithm [M]. Computational linguistics and intelligent text processing, Gelbukh A, 2007: 107-118.

      [6] Sak H, Guengor T, Saraclar M. Turkish language resources: morphological parser, morphological disambiguator and web corpus[C]//Proceedings of the advances in natural language processing,2008. 417-427.

      [7] Sak H, Güng?r T, Sara?lar M. Resources for Turkish morphological processing [J]. Language Resources and Evaluation, 2011, 45(2): 249-261.

      [8] Dincer T, Karaoglan B, Kisla T. a suffix based part-of-speech tagger for Turkish[C]//Proceedings of the fifth international conference on information technology: New generations, USA: IEEE Computer Society, 2008: 680-685.

      [9] Kutlu M, Cicekli I. A hybrid morphological disambiguation system for Turkish[C]//Proceedings of the IJCNLP,2013: 1230-1236.

      [10] Yildiz E, Tirkaz C, Sahin H B, et al. A morphology-aware network for Morphological Disambiguation[C]//Proceedings of the 13th AAAI conference on artificial Intelligence, USA, 2016: 2863-2869.

      [11] Zafer H R, Tilki B, Kurt A, et al. Two-level description of Kazakh morphology [C]//Proceedings of 1st International Conference on Foreign Language Teaching and Applied Linguistics. Sarajevo,2011: 560-564.

      [12] Yergesh B, Mukanova A, Sharipbay A, et al. Semantic hyper-graph based representation of nouns in the Kazakh language [J]. Computación y Sistemas, 2014, 18(3): 627-635.

      [13] Mukanova A, Yergesh B, Sharipbay A, et al. Formal model of adjective in the Kazakh language [J]. TüRKiYE BiLiiM VAKFI BiLGiSAYAR BiLiMLERi ve MüDERGiSi, 2015, 8(8): 57-61.

      [14] Tukeyev U A, Zhumanov Z M, Rakhimova D R. Models and algorithms of translation of the Kazakh language sentences into English language with use of link grammar and the statistical approach[C]//Proceedings of the IV Congress of the Turkic World Mathematical Society, Baku,2011.

      [15] Zhumanov Z M. Understanding of Kazakh language with using of link grammar[C]//Proceedings of the 2012 Joint 6th International Conference on Soft Computing and Intelligent Systems and 13th International Symposium on Advanced Intelligent Systems(SCIS-ISIS 2012),IEEE, 2012: 1085-1088.

      [16] Tukeyev U A, Miosz M, Zhumanov Z M. Finite-state transducers with multivalued mappings for processing of rich inflectional languages [M].New trends in intelligent information and database systems. Springer International Publishing, Barbucha D, Nguyen N T, Batubara J. 2015: 271-280.

      [17] Kuandykova A, Kartbayev A, Kaldybekov T. English-Kazakh parallel corpus for statistical machine translation [J]. International Journal on Natural Language Computing(IJNLC), 2014, 3(3): 65-72.

      [18] Rakhimova D, Abakan M. Lexical selection in machine translation of Russian-to-Kazakh [J]. TüRKiYE BiLiiM VAKFI BiLGiSAYAR BiLiMLERi ve MüDERGiSi, 2015, 8(8): 97-102.

      [19] Bekbulatov E, Kartbayev A. A study of certain morphological structures of Kazakh and their impact on the machine translation quality[C]//Proceedings of the 2014 IEEE 8th International Conference on Application of Information and Communication Technologies(AICT), Kazakhstan,2014: 1-5.

      [20] Kairakbay B M. Finite state approach to the Kazakh nominal paradigm[C]//Proceedings of the Finite State Methods and Natural Language Processing, Scotland, 2013: 108.

      [21] Kairakbay B M, Nurseitov D B, Stolyarov Y Y, et al. Design and implementation of interactive web system for the Kazakh text recognition and correction with using of parallel computing[C]//Proceedings of the International Journal of New Computer Architectures and their Applications(IJNCAA),2013: 100-114.

      [22] Kairakbay B M, Nurseitov D B, Stolyarov Y Y, et al. Integrated high-performance and web-oriented system of the Kazakh language text Recognition[C]//Proceedings of the the 2nd International Conference on Informatics Engineering & Information Science(ICIEIS2013),The Society of Digital Information and Wireless Communication, 2013: 25-36.

      [23] Kessikbayeva G, Cicekli I. Rule Based Morphological Analyzer of Kazakh Language[C]//Proceedings of the 2014 Joint Meeting of SIGMORPHON and SIGFSM, USA: 2014, 46-54.

      [24] Kessikbayeva G, Cicekli I. A rule based morphological analyzer and a morphological disambiguator for Kazakh language [J].Linguistics and Literature Studies, 2016, 4(1): 96-104.

      [25] Makhambetov O, Makazhanov A, Yessenbayev Z, et al. Assembling the Kazakh language corpus [C]//Proceedings of 2013 Conference on Empirical Methods in Natural Language Processing. Seattle, Washington, USA; Association for Computational Linguistics.2013: 1022-1031.

      [26] Makazhanov A, Makhambetov O, Sabyrgaliyev I, et al. Spelling correction for Kazakh[C]//Proceedings of the computational linguistics and Intelligent text processing, Germeny: Springer Berlin Heidelberg, 2014: 533-541.

      [27] Makazhanov A, Yessenbayev Z, Sabyrgaliyev I, et al. On certain aspects of Kazakh part-of-speech tagging[C]//Proceedings of the 2014 IEEE 8th International Conference on Application of Information and Communication Technologies(AICT)Kazakhstan,2014: 1-4.

      [28] Makhambetov O, Makazhanov A, Yessenbayev Z, et al. Towards a data-driven morphological analysis of Kazakh language [J].TüRKiYE BiLiiM VAKFI BiLGiSAYAR BiLiMLERi ve MüDERGiSi, 2015, 8(8): 69-74.

      [29] Makhambetov O, Makazhanov A, Sabyrgaliyev I, et al. Data-driven morphological analysis and disambiguation for Kazakh [M]. Computational linguistics and Intelligent text processing. Springer International Publishing, Gelbukh A. 2015: 151-163.

      [30] Yessenbayev Z, Karabalayeva M, Shamayeva F. Towards building an intelligent voice system for Kazakh: Acoustic database and system design[C]//Proceedings of the 8th EUROSIM Congress on Modelling and Simulation(EUROSIM), United Kingdom,2013: 393-397.

      [31] Yessenbayev Z, Yapanel U. Perceptual mvdr-based unsupervised built-in speaker normalization for Kazakh speech recognition[C]//Proceedings of the 2014 IEEE 8th International Conference on Application of Information and Communication Technologies(AICT), Kazakhstan, 2014: 1-5.

      [32] Yessenbayev Z, Saparkhojayev N, Tibeyev T. Implementation of the intelligent voice system for Kazakh [J]. Journal of Physics: Conference Series, 2014, 495(1): 1-5.

      [33] 達(dá)吾勒·阿布都哈依爾, 古麗拉·阿東別克. 哈薩克語詞法分析器的研究與實(shí)現(xiàn) [J]. 計(jì)算機(jī)工程與應(yīng)用, 2008, 44(19): 146-149.

      [34] 侯呈風(fēng), 古麗拉·阿東別克. 改進(jìn)的HMM應(yīng)用于哈薩克語詞性標(biāo)注 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2010, 46(36): 147-149.

      [35] Altenbek G, Wang X, Haisha G. Identification of basic phrases for Kazakh language using maximum entropy model [C].//Proceedings of the 25th International Conference on Computational Linguistics(COLING 2014)Dublin, Ireland; Association for Computational Linguistics,2014: 1007-1014.

      [36] 吐爾根·依布拉音, 袁保社. 新疆少數(shù)民族語言文字信息處理研究與應(yīng)用 [J]. 中文信息學(xué)報(bào), 2011, 25(06): 149-156.

      [37] 玉素甫·艾白都拉, 張海軍, 艾孜爾古麗. 信息處理用現(xiàn)代維吾爾語詞干詞類標(biāo)記集研究 [J]. 信息技術(shù)與標(biāo)準(zhǔn)化, 2011(06): 45-48,63.

      [38] 玉素甫·艾白都拉, 艾孜爾古麗, 祖麗皮亞. 基于網(wǎng)站用詞調(diào)查的現(xiàn)代維吾爾語詞長研究 [J]. 計(jì)算機(jī)應(yīng)用與軟件, 2012, 29(05): 32-34.

      [39] Wumaier A, Tursun P, Kadeer Z, et al. Uyghur noun suffix finite state machine for stemming[C]//Proceedings of the 2nd IEEE International Conference on Computer Science and Information Technology, Beijing,China,2009: 161-164.

      [40] Wumaier A, Kadeer Z, Tursun P, et al. Maximum entropy combined FSM stemming method for Uyghur[C]//Proceedings of the 2009 Oriental COCOSDA International Conference on Speech Database and Assessments, Urumqi,China,2009: 51-55.

      [41] Wumaier A, Yibulayin T, Zaokere K, et al. Conditional random fields combined FSM stemming method for Uyghur[C]//Proceedings of the 2009 2nd IEEE International Conference on Computer Science and Information Technology, Beijing,China, 2009: 295-299.

      [42] 麥熱哈巴·艾力, 姜文斌, 王志洋, 等. 維吾爾語詞法分析的有向圖模型 [J]. 軟件學(xué)報(bào), 2012, 23(12): 3115-3129.

      [43] 麥熱哈巴·艾力, 姜文斌, 吐爾根·依布拉音. 維吾爾語詞法中音變現(xiàn)象的自動還原模型 [J]. 中文信息學(xué)報(bào), 2012, 26(01): 91-96.

      [44] 帕提古麗·依馬木一, 買合木提·買買提, 卡哈爾江·阿比的熱西提, 等. 基于感知器算法的維吾爾語詞性標(biāo)注研究 [J]. 中文信息學(xué)報(bào), 2014, 28(05): 358-362.

      [45] 賽迪亞古麗·艾尼瓦爾, 向露, 宗成慶, 等. 融合多策略的維吾爾語詞干提取方法 [J]. 中文信息學(xué)報(bào), 2015,(05): 204-210.

      [46] Mahmoud A, Pattar A, Hamdulla A. Uyghur stemming using conditional random fields [J]. International Journal of Signal Processing, Image Processing and Pattern Recognition, 2015, 8(8): 43-50.

      [47] Tohti T, Musajan W, Hamdulla A. Unsupervised learning and linguistic rule based algorithm for Uyghur word segmentation [J]. Journal of Multimedia, 2014, 9(5): 627-634.

      [48] Yang Y, Mi C, Ma B, et al. Character tagging-based word segmentation for Uyghur [M]. Machine translation. Shi X, Chen Y. Springer,2014: 61-69.

      [49] 王海波, 祖漪清, 力提甫·托乎提. 基于功能詞綴串的維吾爾語詞性標(biāo)注方法 [J]. 中文信息學(xué)報(bào), 2013, 27(05): 179-183.

      [50] 張海波, 蔡洽吾, 姜文斌, 等. 基于聯(lián)合音變還原和形態(tài)切分的形態(tài)分析方法 [J]. 中文信息學(xué)報(bào), 2014, 28(06): 9-17.

      [51] Atalay N B, Oflazer K, Say B. The annotation process in the turkish Treebank[C]//Proceedings of the 4th Intern Workshop on Linguistically Interpreteted Corpora(LINC),Citeseer, 2003.

      [54] 陳莉,古麗拉·阿東別克. 基于HMM的柯爾克孜語詞性標(biāo)注的研究 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2014, 50(15): 120-124.

      [57] 哈里旦木·阿布都克里木, 吐爾根·依布拉音, 帕力旦·吐爾遜, 等. 基于短語結(jié)構(gòu)語法的維吾爾語規(guī)則庫建設(shè) [J]. 現(xiàn)代計(jì)算機(jī)(專業(yè)版), 2010(5): 30-33.

      [58] Wushouer J, Abulizi W, Abiderexiti K, et al. Building contemporary Uyghur grammatical information dictionary[C]//Proceedings of the Worldwide Language Service Infrastructure, Kyoto, Japan: Springer International Publishing, 2016: 137-144.

      [59] Mamitimin S, Ibrahim T, Eli M. The annotation scheme for Uyghur dependency treebank[C]//Proceedings of the 2013 International Conference on Asian Language Processing(IALP), Urumqi, China, 2013: 185-188.

      [60] Aili M, Xialifu A, Maimaitimin S. Building Uyghur dependency Treebank: Design principles, annotation schema and tools[C]//Proceedings of the Worldwide Language Service Infrastructure, Kyoto, Japan: Springer, 2016: 124-136.

      [61] Aili M, Mushajiang W, Yibulayin T, et al. Universal dependencies for Uyghur[C]//Proceedings of the WLSI-OIAF4HLT 2016, Japan,2016: 44-50.

      [62] Buchholz S, Marsi E. Conll-X shared task on multilingual dependency parsing[C]//Proceedings of the 10th Conference on Computational Natural Language Learning,Association for Computational Linguistics, 2006: 149-164.

      [63] Tatar S, Cicekli I. Automatic rule learning exploiting morphological features for named entity recognition in Turkish [J]. Journal of Information Science, 2011, 37(2): 137-151.

      [65] Yavuz S, Kü?ük D, YazcA. Named entity recognition in Turkish with Bayesian learning and hybrid approaches [M]. Information sciences and systems 2013. Switzerland: Springer Gelenbe E, Lent R. International Publishing, 2013: 129-138.

      [66] Kü?ük D. Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles [J]. Computer Standards & Interfaces, 2015, 41: 1-9.

      [67] Demir H, Ozgur A. Improving named entity recognition for morphologically rich languages using word embeddings[C]//Proceedings of the 13th International Conference on Machine Learning and Applications(ICMLA), USA. IEEE, 2014: 117-122.

      [68] 李佳正, 劉凱, 麥熱哈巴·艾力, 等. 維吾爾語中漢族人名的識別及翻譯 [J]. 中文信息學(xué)報(bào), 2011,25(04): 82-87.

      [69] 艾斯卡爾·肉孜, 宗成慶, 姑麗加瑪麗·麥麥提艾力, 等. 基于條件隨機(jī)場的維吾爾人名識別方法 [J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2013(06): 873-877.

      [70] 加日拉·買買提熱衣木, 吐爾根·依布拉音, 艾山·吾買爾. 基于統(tǒng)計(jì)和規(guī)則混合策略的維吾爾人名識別研究 [J]. 新疆大學(xué)學(xué)報(bào)(自然科學(xué)版), 2014, 31(03): 319-324.

      [71] 熱合木·馬合木提, 于斯音·于蘇普, 張家俊, 等. 基于模糊匹配與音字轉(zhuǎn)換的維吾爾語人名識別 [J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2017(02): 188-196.

      [72] 麥合甫熱提, 米日姑·肉孜, 麥熱哈巴·艾力, 等. 基于語法語義知識的維吾爾文機(jī)構(gòu)名識別 [J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(08): 2944-2948.

      [73] 木合塔爾·艾爾肯, 艾斯卡爾·艾木都拉, 地里木拉提·吐爾遜. 基于規(guī)則的維吾爾文地名識別 [J]. 通信技術(shù), 2013(7): 103-105.

      [76] Tyers F M, Alperen M S. South-East European Times: A Parallel Corpus of Balkan Languages[C]//Proceedings of the LREC Workshop on Exploitation of Multilingual Resources and Tools for Central and(South-)Eastern European Languages, Valletta,Malta,2010: 49-53.

      [77] Mericli B S, Bloodgood M. Annotating cognates and etymological origin in Turkic languages[C]//Proceedings of the 1st Workshop on Language Resources and Technologies for Turkic Languages at LREC 2012, Turkey,2012: 47-50.

      [78] Eyig?z E, Gildea D, Oflazer K. Simultaneous word-morpheme alignment for statistical machine translation[C]//Proceedings of the NAACL-HLT 2013, USA,2013: 32-40.

      [81] Oflazer K. Turkish and its challenges for language processing [J]. Language Resources and Evaluation, 2014, 48(4): 639-653.

      [82] C?ltekin C. A set of open-source tools for Turkish natural language processing[C]//Proceedings of the 9th International Conference on Language Resources and Evaluation, Reykjavik, Iceland, 2014: 1079-1086.

      [83] 董興華, 周俊林, 郭樹盛, 等. 基于短語的漢維/維漢統(tǒng)計(jì)機(jī)器翻譯 [J]. 計(jì)算機(jī)工程, 2011, 37(9): 16-18,21.

      [84] 董興華, 陳麗娟, 周喜, 等. 漢維統(tǒng)計(jì)機(jī)器翻譯中的形態(tài)學(xué)處理 [J]. 計(jì)算機(jī)工程, 2011, 37(12): 150-152.

      [85] 陳麗娟, 張恒, 董興華, 等. 基于句法調(diào)序的漢維統(tǒng)計(jì)機(jī)器翻譯 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2011, 38(3): 169-171.

      [86] 艾孜孜·吐爾遜, 楊雅婷, 吐爾洪·吾司曼, 等. 維—漢統(tǒng)計(jì)機(jī)器翻譯中維吾爾語預(yù)處理研究 [J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(11): 4034-4039.

      [87] 米成剛, 王磊, 楊雅婷, 等. 維漢機(jī)器翻譯未登錄詞識別研究 [J]. 計(jì)算機(jī)應(yīng)用研究, 2013, 30(04): 1112-1115.

      [88] Wang Z, Lü Y, Sun M, et al. Stem translation with affix-based rule selection for agglutinative languages[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics, Sofia, Bulgaria. Association for Computational Linguistics, 2013, 364-369.

      [89] Abiderexiti K, Yao T, Yibulayin T, et al. Implementation of Chinese-Uyghur bilateral EBMT system[C]//Proceedings of the 2013 International Conference on Asian Language Processing(IALP), China,Urumqi, 2013: 87-90.

      [90] Xuehelaiti M, Liu K, Jiang W, et al. Uyghur language model with graphic structure [J]. Journal of Multimedia, 2014, 9(8): 1005-1010.

      [91] 米莉萬·雪合來提, 麥熱哈巴·艾力, 吐爾根·依布拉音, 等. 維吾爾語詞尾對漢維統(tǒng)計(jì)機(jī)器翻譯影響的研究 [J]. 計(jì)算機(jī)工程, 2014, 40(03): 224-227.

      [92] Washington J N, Ipasov M, Tyers F M. A finite-state morphological transducer for Kyrgyz[C]//Proceedings of the 8th International Conference on Language Resources and Evaluation(LREC'12), Turkey, 2012: 934-940.

      [93] Washington J N, Salimzyanov I, Tyers F M. Finite-state morphological transducers for three Kypchak Languages[C]//Proceedings of the Ninth International Conference on Language Resources and Evaluation, Iceland, 2014: 3378-3385.

      [94] Tyers F M, Washington J N, Salimzyanov I, et al. A prototype machine translation system for Tatar and Bashkir based on free/open-source components [C]//Proceedings of 1st Workshop on Language Resources and Technologies for Turkic Languages at LREC 2012. Turkey, 2012: 11-14.

      [95] Salimzyanov I, Washington J N, Tyers F M. A Free/Open-Source Kazakh-Tatar Machine Translation System[C]//Proceedings of the XIV Machine Translation Summit, Nice: 2013, 175-182.

      [96] Ogawa Y, Fukuda M, Toyama K. Transliteration from Uighur to Uzbek for expansion of Japanese translation dictionary[C]//Proceedings of the recent advances of asian language processing technologies,2008: 182-188.

      [97] Wushouer M, Ishida T, Lin D. A heuristic framework for pivot-based bilingual dictionary induction[C]//Proceedings of the 2013 International Conference on Culture and Computing(Culture Computing),IEEE, 2013: 111-116.

      [98] Wushouer M, Lin D, Ishida T, et al. A constraint approach to pivot-based bilingual dictionary induction [J]. ACM Transactions on Asian and Low-Resource Language Information Processing, 2015, 15(1): 1-26.

      [99] Sheymovich A V, Dybo A V. Towards a morphological annotation of the Khakass corpus[C]//Proceedings of 1st Workshop on Language Resources and Technologies for Turkic Languages at LREC 2012, 2012: 39-46.

      [100] Galieva A, Gatiatullin A, Nevzorova O, et al. Semantic annotation of Tatar verbs for linguistic applications [J]. TüRKiYE BiLiiM VAKFI BiLGiSAYAR BiLiMLERi ve MüDERGiSi, 2014, 8(8): 45-49.

      [101] Suleymanov D S, Gatiatullin A R, Almenova A B. Multifunctional model of morphemes in the Turkic group languages(on the Example of the Kazakh and Tatar Languages)[J]. TüRKiYE BiLiiM VAKFI BiLGiSAYAR BiLiMLERi ve MüDERGiSi, 2014, 8(8): 63-67.

      [102] 木合亞提·尼亞孜別克, 古力沙吾利·塔里甫, 達(dá)吾勒·阿布都哈依爾. 柯爾克孜語語料庫語言資源管理平臺的設(shè)計(jì)與開發(fā) [J]. 南昌大學(xué)學(xué)報(bào)(理科版), 2015(03): 247-250.

      [103] Kurimo M, Virpioja S, Turunen V, et al. Morpho Challenge Competition 2005—2010: Evaluations and Results[C]//Proceedings of the 11th Meeting of the ACL Special Interest Group on Computational Morphology and Phonology,2010: 87-95.

      [104] Baisa V, Suchomel V. Large corpora for Turkic languages and unsupervised morphological analysis[C]//Proceedings of the 8th Conference on International Language Resources and Evaluation(LREC’12), Istanbul, Turkey: European Language Resources Association(ELRA), 2012: 28-32.

      [105] Narasimhan K, Barzilay R, Jaakkola T. An unsupervised method for uncovering morphological chains [J]. Transactions of the Association for Computational Linguistics, 2015(3): 157-167.

      [107] Faruqui M, Tsvetkov Y, Neubig G, et al. Morphological inflection generation using character sequence to sequence learning [J/OL] 2015, arXiv preprint arXiv: 1512.06110v2.

      [108] Faruqui M, Mcdonald R, Soricut R. Morpho-syntactic lexicon generation using graph-based semi-supervised learning [J/OL] 2015, arXiv preprint arXiv: 1512.05030.

      [109] Durrett G, Denero J. Supervised learning of complete morphological paradigms[C]//Proceedings of the NAACL-HLT 2013, USA, 2013: 1185-1195.

      [110] Ahlberg M, Forsberg M, Hulden M. Semi-supervised learning of morphological paradigms and lexicons[C]//Proceedings of the 14th Conference of the European Chapter of the Association for Computational Linguistics, Sweden, 2014: 569-578.

      [111] Ahlberg M, Forsberg M. Paradigm classification in supervised learning of morphology[C]//Proceedings of the Main Conference HLT-NAACL 2015 Human Language Technology Conference of the North American Chapter of the Association of Computational Linguistics, USA, 2015: 1024-1029.

      [112] Nicolai G, Cherry C, Kondrak G. Inflection generation as discriminative string transduction[C]//Proceedings of the Main Conference HLT-NAACL 2015 Human Language Technology, USA, 2015: 922-931.

      猜你喜歡
      哈薩克語詞法維吾爾語
      詞法 名詞、代詞和冠詞
      應(yīng)用于詞法分析器的算法分析優(yōu)化
      統(tǒng)計(jì)與規(guī)則相結(jié)合的維吾爾語人名識別方法
      談對外漢語“詞法詞”教學(xué)
      維吾爾語話題的韻律表現(xiàn)
      哈薩克語附加成分-A
      維吾爾語詞重音的形式判斷
      語言與翻譯(2015年4期)2015-07-18 11:07:45
      哈薩克語比喻及其文化特征
      語言與翻譯(2014年2期)2014-07-12 15:49:28
      “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
      語言與翻譯(2014年2期)2014-07-12 15:49:13
      現(xiàn)代維吾爾語中“-0wat-”的進(jìn)行體特征
      語言與翻譯(2014年3期)2014-07-12 10:32:09
      长泰县| 武胜县| 茶陵县| 体育| 滦南县| 阿勒泰市| 绥江县| 兴安盟| 横峰县| 社旗县| 西和县| 礼泉县| 石林| 和静县| 平罗县| 湾仔区| 德令哈市| 凌海市| 赤城县| 西和县| 安溪县| 望奎县| 沁源县| 阿克陶县| 大方县| 怀集县| 潮州市| 西昌市| 博爱县| 大悟县| 会同县| 龙口市| 阜新| 雅江县| 宝应县| 乃东县| 句容市| 临泽县| 辽阳县| 北碚区| 疏勒县|