• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于統(tǒng)計(jì)專用字符的維、哈、柯文文種識(shí)別研究

    2015-04-21 09:44:34買買提依明哈斯木吾守爾斯拉木維尼拉木沙江努爾麥麥提尤魯瓦斯
    中文信息學(xué)報(bào) 2015年2期
    關(guān)鍵詞:維文文種柯文

    買買提依明·哈斯木,吾守爾·斯拉木,維尼拉·木沙江,努爾麥麥提·尤魯瓦斯

    (1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆多語種重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046;2. 和田師范??茖W(xué)校,計(jì)算機(jī)科學(xué)系,新疆 和田 848000)

    ?

    基于統(tǒng)計(jì)專用字符的維、哈、柯文文種識(shí)別研究

    買買提依明·哈斯木1,2,吾守爾·斯拉木1,維尼拉·木沙江1,努爾麥麥提·尤魯瓦斯1

    (1. 新疆大學(xué) 信息科學(xué)與工程學(xué)院,新疆多語種重點(diǎn)實(shí)驗(yàn)室,新疆 烏魯木齊 830046;2. 和田師范專科學(xué)校,計(jì)算機(jī)科學(xué)系,新疆 和田 848000)

    在Unicode編碼方案中維、哈、柯文字符安排在阿拉伯字符區(qū)域,三種語言中共享字符比較多,跟阿拉伯字符區(qū)域混在一起,沒有專用的語言ID。在信息檢索和自然語言處理領(lǐng)域?qū)S、哈、柯文的識(shí)別、處理帶來不便。該文首先分析并總結(jié)了維、哈、柯文三種語言中的專用字符、復(fù)合字符、某些字符在某種語言中出現(xiàn)形勢(shì)的獨(dú)特性等特征,然后在此基礎(chǔ)上設(shè)計(jì)了維、哈、柯文種識(shí)別算法。 實(shí)驗(yàn)結(jié)果表明該文提出的文種識(shí)別算法的正確率在文本多于70詞時(shí)達(dá)到96.67%以上。

    文種識(shí)別;專用字符;復(fù)合字符;維文;哈文;柯文;Unicode

    1 引言

    維吾爾語、哈薩克語、柯爾克孜語(下文簡稱維、哈、柯語)屬于阿爾泰語系突厥語族。雖然有Uyghur、Kazakh、Kyrgyz不同語言之分,但其字模,字符串構(gòu)成方式,語序以及句法和語法規(guī)則大體相通。另外,三種語言對(duì)應(yīng)字符串的Unicode編碼不僅內(nèi)容上大體相同,而且在表現(xiàn)形式上(斜體字部分)也較接近。在字母表中的大部分字母完全相同并非常相近阿拉伯語[1-2],所以在Unicode編碼方案中維、哈、柯文字符安排在阿拉伯字符區(qū)域(0600~06FF),跟阿拉伯字符區(qū)域混在一起,該區(qū)域中維、哈、柯共用一些字母,而且沒有語言ID。該區(qū)域中字母的順序符合阿拉伯字母表,維、哈、柯文字母的順序非?;靵y[3],所以在信息交換和自動(dòng)識(shí)別應(yīng)用中很難區(qū)分維、哈、柯文,且存在語言上的二義性。

    近年來隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,維、哈、柯文網(wǎng)站越來越多。如何按文種分類、整理維、哈、柯文互聯(lián)網(wǎng)信息資源是在維、哈、柯文信息檢索、輿情分析、在線機(jī)器翻譯中,首先需要解決的問題。專用字母識(shí)別是一種常用的文種識(shí)別技術(shù)。本論文研究通過統(tǒng)計(jì)維、哈、柯文三種語言各自獨(dú)有的專用字符、復(fù)合字符和有些字符在某種語言中出現(xiàn)形式的獨(dú)特性等特征來對(duì)維、哈、柯文進(jìn)行文種識(shí)別。

    2 相關(guān)技術(shù)

    文種識(shí)別技術(shù)是在信息檢索和在線機(jī)器翻譯領(lǐng)域使用的基礎(chǔ)技術(shù)之一,用來判斷某一個(gè)文本是由哪種語言來描述的[4-5]。文種識(shí)別技術(shù)中用各種各樣的特征來對(duì)文本進(jìn)行分析。它們包括專用字符、獨(dú)有詞集合和獨(dú)有N元字符序列等,分別有各自的優(yōu)缺點(diǎn)[6]?;诮y(tǒng)計(jì)專用字符的文種識(shí)別技術(shù)是最簡單的文種識(shí)別方法,對(duì)于大規(guī)模的文本文種識(shí)別性能非常好,但是對(duì)于處理小規(guī)模的文本(包含一個(gè)句子)性能較差[7]?;诮y(tǒng)計(jì)獨(dú)有詞集合的文種識(shí)別技術(shù)中選用獨(dú)有詞集合進(jìn)行識(shí)別時(shí),首先為每一個(gè)語種建立獨(dú)有詞庫,并統(tǒng)計(jì)每一個(gè)語言中獨(dú)有詞的出現(xiàn)頻率,這項(xiàng)工作較難實(shí)現(xiàn)[5,7]。這種方法不適合用于像英、維、哈、柯等粘性語言,因?yàn)檫@種語言中單詞的前后加上前綴或后綴來表示不同的語法現(xiàn)象,形態(tài)變化活躍。統(tǒng)計(jì)單詞的出現(xiàn)頻率必須要進(jìn)行分詞、詞法分析和詞干提取等預(yù)處理操作[6,8]。沒有指定文種之前無法對(duì)文本進(jìn)行以上預(yù)處理操作。而且大多數(shù)語言的詞法分析和詞干提取技術(shù)不公開,不容易實(shí)現(xiàn)。所以這種文種識(shí)別方案難度高,不可取。另一種文種識(shí)別方法是由Canver和Trencke提出的基于N元模型的文種識(shí)別方法,該方法的思想是根據(jù)每種語言中出現(xiàn)頻率組多的N元字符(連續(xù)字符序列)進(jìn)行文種識(shí)別[8]。

    在維、哈、柯文文種識(shí)別技術(shù)方面維尼拉·木沙江、吐爾地·托合提等人提出了基于靜態(tài)重定位的維、哈、柯文Unicode編碼方案,在該方案中,維、哈、柯文字母根據(jù)各自的字母表排序在三個(gè)不同的區(qū)域(仍然在0600~06FF),自動(dòng)獲取各自的語言表示信息,消除了語言上的二義性[3]。買爾旦·吾守爾用“維吾爾語-漢語”、“哈薩克語-漢語”和“柯爾克孜文-漢語”詞庫,分別統(tǒng)計(jì)以上詞庫中的維、哈、柯文專用字母和復(fù)合字母的出現(xiàn)頻率,采用統(tǒng)計(jì)學(xué)知識(shí)、理論和方法,使得三種語言之間的文種識(shí)別率達(dá)到58.18%[9]。薛亞平也提出了采用維、哈、柯文特有字母的字母和特殊的字母組合進(jìn)行文種識(shí)別的算法。在該算法中,如果該文件中只出現(xiàn)了維文特有的字母或字母組合,則可以判定該文為維文文件。同樣方法也可以判斷哈文文件。如果兩種語言的特殊字母或字母組合均有出現(xiàn),則可以判斷為維、哈文的混排文件[10]。但該工作沒有給出詳細(xì)的統(tǒng)計(jì)實(shí)驗(yàn)數(shù)據(jù)。倪耀群、曹鵬等人使用N元語法模型實(shí)現(xiàn)了維吾爾文的快速語種判別,準(zhǔn)確率超過98%[11]。

    3 基于統(tǒng)計(jì)字符的維、哈、柯文文種識(shí)別系統(tǒng)的設(shè)計(jì)

    3.1 維、哈、柯文Unicode字符介紹 Unicode字符編碼是一種使用16bits(兩個(gè)字節(jié))唯一表示一個(gè)字符、一共能夠表示65 536個(gè)字符的國際標(biāo)準(zhǔn)[11]。其中阿拉伯字母所有文字字符(包括維、哈、柯文)都集中在阿拉伯字母區(qū)域(0600~06FF),但是該區(qū)域中維、哈、柯文字符分布是不連續(xù)的,沒有分配語言ID,共用一些代碼位。0600~06FF范圍包括,在“中華人民共和國國家標(biāo)準(zhǔn)(GB 21669-2008)信息技術(shù)維吾爾文,哈薩克文,柯爾克孜文編碼字符集”中有制定的維、哈、柯文字母的42個(gè)名義字符形式和160個(gè)位于Arabic Presentation Forms的變形顯現(xiàn)形式[12]。而以上42個(gè)名義字符代碼位的大部分被三種語言共用。如表1~7中列出了三種語言中共用和獨(dú)用字符[6]。

    表1 維、哈、柯文共用字符名義形式及編碼

    表2 維吾爾文復(fù)合字符名義形式及編碼

    表3 哈、柯文共用名義字符及編碼

    表4 維吾爾文專用名義字符及編碼

    表5 維、哈文共用名義字符及編碼

    表6 哈薩克文專用名義字符及編碼

    表7 柯爾克孜文專用名義字符及編碼

    3.2 維文字符獨(dú)特特征分析

    維吾爾語中一共有32個(gè)字母,其中有8個(gè)元音字母和24個(gè)輔音字母。維文與哈文和柯文相比有以下三個(gè)特點(diǎn)。

    a) 維文元音字符的特點(diǎn)。有些元音字符的獨(dú)立形式、尾字符和首字形式由相應(yīng)的元音字符前加“”(編碼為0626,HAMZA ABOVE)來實(shí)現(xiàn),如表8中的帶下劃線的字符,在哈、柯文中不會(huì)出現(xiàn)這種形式的字符組合。

    c) 表4中的三個(gè)輔音字母是維文專用字符。

    根據(jù)維文的以上三個(gè)特征,通過統(tǒng)計(jì)維吾爾文專用字符和復(fù)合字符,能夠識(shí)別維吾爾文。

    表8 維文復(fù)合字符名義形式和變形顯現(xiàn)形式及編碼

    3.3 哈文字符獨(dú)特特征分析

    哈薩克語中一共有33個(gè)字母,其中有9個(gè)元音和24個(gè)輔音字母。目前哈薩克文網(wǎng)頁上的字符有如下特點(diǎn)。

    a) 理論上,根據(jù)表6中的哈薩克文專用字符可以識(shí)別出哈薩克文,但統(tǒng)計(jì)500篇哈薩克文網(wǎng)頁正文中出現(xiàn)的哈文字符,只出現(xiàn)了28個(gè)哈文字符,幾乎沒出現(xiàn)表9中的帶下劃線的四個(gè)元音字母,也沒出現(xiàn)哈文元音前置符“”(HIGH HAMZA, 編碼為

    表9 哈文專用名義字符形式和變形顯現(xiàn)形式及編碼

    表10 哈文錯(cuò)誤字符編碼統(tǒng)計(jì)結(jié)果

    3.4 柯文字符獨(dú)特特征分析

    柯爾克孜語中一共有30個(gè)字母,其中有8個(gè)元音字母,22個(gè)輔音字母??挛膶S米址腥缦绿攸c(diǎn)。

    a) 編碼為06C5和06C9及它們的變形顯現(xiàn)形式是柯文專用的,如表11所示。

    表11 柯文專用名義字符形式和變形顯現(xiàn)形式及編碼

    b) 編碼為0649的字母和它的變形顯現(xiàn)形式在維文和哈文中都出現(xiàn),所以從字符編碼角度上不能作為專用字符,如表8和10所示。

    c) 編碼為0626(HAMZA ABOVE)的字母在維文中也出現(xiàn),但出現(xiàn)時(shí)后面連接的字符必須是元音字符,如表8所示。在柯文中出現(xiàn)該字符的首字符形式和中字符形式時(shí)后面連接的是輔音字符,它的尾字符形式、獨(dú)立字符形式是柯文專用的。在維文中詞的最后不出現(xiàn)編碼為0626的字符,也不以獨(dú)立字符形式出現(xiàn),后面必須要連接維吾爾元音字符。

    d) 柯文中有同一個(gè)元音字符形式前后出現(xiàn)的現(xiàn)象,而在維文和哈文中的外來語中也會(huì)出現(xiàn),主要出現(xiàn)在外來語中,但出現(xiàn)頻率很低??挛闹械奶厥庠糇帜附M合如表12所示。

    表12 柯文中的特殊元音字母組合

    根據(jù)以上柯文的四個(gè)特征,通過統(tǒng)計(jì)柯文字符的獨(dú)特特征,能夠識(shí)別柯文。

    3.5 基于統(tǒng)計(jì)字符獨(dú)特特征的維、哈、柯文文種識(shí)別算法的設(shè)計(jì) 按照上述分析的維、哈、柯文專用字符、復(fù)合字符以及有些字符在某種語言中出現(xiàn)形式的獨(dú)特性,本文設(shè)計(jì)了維、哈、柯文文種識(shí)別算法。該算法的思路是首先分別統(tǒng)計(jì)文本中出現(xiàn)的屬于維、哈、柯三種語言的專用字符、復(fù)合字符、某種語言中出現(xiàn)的獨(dú)特的字符形式,然后判斷屬于哪種語言統(tǒng)計(jì)值最高,統(tǒng)計(jì)值最高的語種被判斷為該文本文種。因?yàn)榫S、哈、柯文是粘性語言,用戶的拼寫錯(cuò)誤導(dǎo)致文本中出現(xiàn)屬于其他語種的字符形式,有時(shí)候文本中也會(huì)引入其它語種描述的文本信息。所以為了避免文本中出現(xiàn)的其它文種的獨(dú)特特性對(duì)文種識(shí)別的干擾,要分別統(tǒng)計(jì)文本中出現(xiàn)的屬于三種語言的獨(dú)特特征。具體分析思路是: 首先要讀取文本,然后分析文本中的所有字符,判斷某個(gè)字符是否滿足如下條件:

    a) 該字符是否屬于某種語言的專用字符。

    b) 能不能跟它后面的字符組合,形成屬于某種語言的復(fù)合字符或特殊的元音字母的組合形式。

    c) 該字符的出現(xiàn)形式是否屬于該字符在某種語言的出現(xiàn)形式的獨(dú)特字符。

    按照上述的三個(gè)條件分別統(tǒng)計(jì)文本中出現(xiàn)的屬于三種語言字符的獨(dú)特特征。統(tǒng)計(jì)公式如下:

    Chracter(x)=

    (1)

    4 實(shí)驗(yàn)與分析

    4.1 實(shí)驗(yàn)數(shù)據(jù)的采集 維、哈、柯文到目前為止沒有公開的文種識(shí)別語料庫,本文設(shè)計(jì)了一個(gè)定向網(wǎng)頁數(shù)據(jù)采集系統(tǒng),在人民網(wǎng)、天山網(wǎng)、新華網(wǎng)和一些熱門的維、哈、柯文綜合網(wǎng)站中采集了相應(yīng)的文本數(shù)據(jù)。本文采集的三種語言的文本集規(guī)模如表13所示。目前柯爾克孜文網(wǎng)站的數(shù)量比維文和哈文網(wǎng)站少,所以測(cè)試語料庫中柯爾克孜文的數(shù)據(jù)比較少。

    表13 測(cè)試語料庫的規(guī)模

    4.2 統(tǒng)計(jì)三種語言的專用和復(fù)合字符的出現(xiàn)頻率

    為了驗(yàn)證基于統(tǒng)計(jì)專用字符和復(fù)合字符的維、哈、柯文文種識(shí)別技術(shù)的有效性,需要統(tǒng)計(jì)維、哈、柯三種語言中的專用字符和復(fù)合字符出現(xiàn)的頻率。在測(cè)試文本集中統(tǒng)計(jì)了第三節(jié)中總結(jié)出的三種語言的專用字符和復(fù)合字符的出現(xiàn)頻率。

    在表14~16中所示的數(shù)據(jù)分別為測(cè)試語料庫中的維、哈、柯文文本中出現(xiàn)的維、哈、柯文字符的獨(dú)

    表14 10 606篇維文文本中維文字符的獨(dú)特特性出現(xiàn)的文本數(shù)量

    字符網(wǎng)頁數(shù)字符網(wǎng)頁數(shù)063A102190626+,06C710073062E10460626+,06C684810698193206C898560626+,06271045006D010425626+,06D5101740626+,0649101000626+,06488623

    特特性。通過觀察可以判斷通過統(tǒng)計(jì)維、哈、柯文字符的獨(dú)特特性的方法來識(shí)別維、哈、柯文文種的有效性。

    表15 測(cè)試語料中哈文字符的獨(dú)特特性出現(xiàn)的文本數(shù)量

    表16 測(cè)試語料中柯文字符的獨(dú)特特性出現(xiàn)的文本數(shù)量

    在表15中幾乎沒有出現(xiàn)在表9中的帶下劃線的哈文專用字符,而代替出現(xiàn)了表10中的字符和字符的組合。出現(xiàn)以上錯(cuò)誤的原因是當(dāng)前使用的哈文輸入法沒有根據(jù)“中華人民共和國國家標(biāo)準(zhǔn)(GB 21669-2008)信息技術(shù)維吾爾文,哈薩克文,柯爾克孜文編碼字符集”設(shè)計(jì)的原因。所以不能在統(tǒng)計(jì)理論上的哈文專用字符的基礎(chǔ)上識(shí)別哈文,必須要借用實(shí)際出現(xiàn)編碼的特點(diǎn)來識(shí)別哈文。

    在表16中帶下劃線的數(shù)據(jù)是柯文文本中的特殊元音字母組合出現(xiàn)的文本數(shù)量。在表17中帶下劃線的數(shù)據(jù)是不考慮柯文雙元音字母組合時(shí)不同規(guī)模的柯文文本段的識(shí)別正確率,比較兩組數(shù)據(jù)可以得到結(jié)論,考慮特殊雙元音字母組合很大程度上提高了對(duì)柯文文種的識(shí)別準(zhǔn)確率。從表中的數(shù)據(jù)可以看出柯文中的特殊的元音字母組合可以作為特征來識(shí)別柯文。

    表17 測(cè)試雙元音字母特征對(duì)柯文文種識(shí)別印象

    在表18~20中所示的數(shù)據(jù)分別為測(cè)試語料庫中的維、哈、柯文文本中出現(xiàn)的其他文種的獨(dú)特特性。所以為了避免文本中出現(xiàn)的其他文種的獨(dú)特特性對(duì)文種識(shí)別的干擾,首先要分別統(tǒng)計(jì)文本中出現(xiàn)的各個(gè)文種字符的獨(dú)特特性,然后出現(xiàn)獨(dú)特特性最高的文種被指定為該文本的文種。

    表18 10 606篇維文本中出現(xiàn)其他文種獨(dú)特特性的文本數(shù)量

    表19 8 039篇哈文本中出現(xiàn)其他文種獨(dú)特特性的文本數(shù)量

    表20 1 503篇柯文本中出現(xiàn)其他文種獨(dú)特特性的文本數(shù)量

    4.3 性能測(cè)試

    為了驗(yàn)證本文研究的文種識(shí)別算法的準(zhǔn)確率,分別測(cè)試了語料中的識(shí)別率和包含不同字?jǐn)?shù)文本中的準(zhǔn)確率,實(shí)驗(yàn)結(jié)果如表21和表22所示。

    表21 在測(cè)試語料中的識(shí)別率

    通過分析表21中的數(shù)據(jù)可以總結(jié)出本文研究的維、哈、柯文文種識(shí)別算法對(duì)維文和柯文的識(shí)別性能是很理想的,哈文識(shí)別效果不如維、柯文,因?yàn)楣淖址莫?dú)特字符特征比維、柯文少得多。

    為了測(cè)試本文研究的文種識(shí)別算法在不同規(guī)模的文本中的性能,把測(cè)試語料庫中的文本分組成不同規(guī)模的文本段,在不同規(guī)模的文本段中測(cè)試文種識(shí)別算法的精確度。通過分析表22中的數(shù)據(jù)可以總結(jié)出文本中包含的詞總數(shù)70以上時(shí),它的識(shí)別效率是很理想的,準(zhǔn)確率高于96.67%。維、柯短文本的識(shí)別效率是很理想的,對(duì)包含詞數(shù)小于30的哈文段文本的識(shí)別效率不太理想。

    表22 包含不同詞數(shù)文本中的識(shí)別率

    5 結(jié)論

    本文研究的基于統(tǒng)計(jì)字符的維、哈、柯文文種識(shí)別技術(shù)對(duì)長文本性能非常好,文本包含的詞數(shù)多于70詞的時(shí)候準(zhǔn)確率達(dá)到96.67%以上。對(duì)維、柯文的識(shí)別率比哈文的識(shí)別率高,因?yàn)楣牡莫?dú)特字符特征比維、柯文少得多。在文本規(guī)模比較大時(shí)可以達(dá)到各領(lǐng)域?qū)嶋H應(yīng)用的目標(biāo)。

    [1] 吐爾根·依布拉音,袁保社.新疆少數(shù)民族語言文字信息處理研究與應(yīng)用[J].中文信息學(xué)報(bào),2011,25(6):150-156.

    [2] 王玲,達(dá)瓦·伊德木草,吾守爾·斯拉木.維哈柯及蒙語多文種語言相似性考查研究[J].中文信息學(xué)報(bào),2013,27(6):180-186.

    [3] 維尼拉·木沙江,吐爾地·托合提,吐爾洪·吾司曼。基于重定位的維、哈、柯文Unicode編碼及多文種索引技術(shù)研究[J].鄭州大學(xué)學(xué)報(bào)(理學(xué)版),2009,41(1):48-51.

    [4] R D Lins and P. Gon?alves. Automatic language identi_cation of written texts[C]//Proceedings of SAC-2004, the 2004 ACM symposium on Applied computing, ACM Press, 2004:1128-1133.

    [5] Chew Y Choong, Yoshiki Mikami, C A Marasinghe et al. Optimizing ngram Order of an ngram Based Language Identification Algorithm for 68 Written Languages[J]. The International Journal on Advances in ICT for Emerging Regions 2009,02 (02):21-28.

    [6] Bruno Martins, M rio J.Silva. Language Identification in Web Pages[C]//Proceedings of SAC’05 March, Santa Fe, New Mexico, USA:ACM, 2005: 13-17.

    [8] W B Cavnar and J.M.Trenkle. N-gram-based text categorization[C]//Proceedings of SDAIR-94, the 3rd Annual Symposium on Document Analysis and Information Retrieval, Las Vegas, Nevada, U.S.A, 1994: 161-175.

    [9] 買日旦·吾守爾,維尼拉·木沙江.多文種多向電子詞典軟件系統(tǒng)關(guān)鍵技術(shù)研究[J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(4):170-173.

    [10] 薛亞平,袁保社. 全文檢索系統(tǒng)中語種識(shí)別與索引技術(shù)研究[J].技術(shù)應(yīng)用,2009,12: 49-51.

    [11] 倪耀群,曹鵬,許洪波,唐慧豐,程學(xué)旗.網(wǎng)絡(luò)維吾爾文判別及其文本長度下界的探討[J].中文信息學(xué)報(bào),2012,26(6):109-115.

    [12] 中華人民共和國國家標(biāo)準(zhǔn)(GB 21669-2008)信息技術(shù)維吾爾文,哈薩克文,柯爾克孜文編碼字符集[C],2008-04-11發(fā)布,2008-09-01實(shí)施.

    Unique Character Based Statistical Language Identification for Uyghur, Kazak and Kyrgyz

    Maimaitiyiming Hasimu1,2, Wushouer Silamu1, Weinila Mushajiang1, Nuermaimaiti Youliwasi1

    (1. School of Information Science and Engineering, Xinjiang University, Multilingual Information Technology Laboratory of Xinjiang, Urumqi, Xinjiang 830046, China; 2. Department of Computer Science Hotan Teachers College, Hotan, Xinjiang 848000, China)

    In Unicode encoding consortium, Uyghur, Kazak and Kyrgyz characters are arranged in the Arabic characters area and mixed with Arabic characters. Some characters in these languages shares same code without language ID,which brings difficulty in information retrieval and natural language processing. After analyzing the unique characters, compound characters and the special features of some characters in certain language context, this paper designs a language identification algorithm of Uyghur, Kazak and Kyrgyz. The experimental results show that the accuracy achieves 96.67% for texts with 70 words or more.

    language identification, unique characters, compound characters, Uyghur text, Kazak text, Kyrgyz text, Unicode

    買買提依明·哈斯木(1980—),博士研究生,講師,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:mamtimin116@163.com吾守爾·斯拉木(1942—),中國工程院院士,本科,教授,博士生導(dǎo)師,主要研究領(lǐng)域?yàn)樽匀徽Z言處理。E?mail:wushour@xju.edu.cn維尼拉·木沙江(1960—),本科,教授,碩士生導(dǎo)師,主要研究領(lǐng)域?yàn)樾畔z索。E?mail:winira@xju.edu.cn

    1003-0077(2015)02-0111-07

    2014-03-17 定稿日期: 2014-04-25

    國家“973”重點(diǎn)基礎(chǔ)研究計(jì)劃(2014CB340506);國家自然科學(xué)基金(61262063,61363063)

    TP391

    A

    猜你喜歡
    維文文種柯文
    石維文
    書香兩岸(2020年3期)2020-06-29 12:33:45
    “知止”的天堂
    近代以來我國公文文種流變考述
    互聯(lián)網(wǎng)上的維語多文轉(zhuǎn)換機(jī)制的設(shè)計(jì)與實(shí)現(xiàn)
    一日輕裝范蠡舟
    飛魔幻A(2017年11期)2017-12-20 17:05:36
    寒冷的子宮
    從錯(cuò)用文種談規(guī)范公文寫作
    察合臺(tái)維文文獻(xiàn)《伊米德史》研究概況
    女人爽到高潮嗷嗷叫在线视频| 老司机午夜福利在线观看视频| 精品无人区乱码1区二区| 久久性视频一级片| 国产精品久久视频播放| 午夜精品在线福利| 美女 人体艺术 gogo| 99热6这里只有精品| 欧美一级毛片孕妇| 国产人伦9x9x在线观看| 国产99久久九九免费精品| 黑人操中国人逼视频| 韩国av一区二区三区四区| 91九色精品人成在线观看| 免费无遮挡裸体视频| 精品国产亚洲在线| 此物有八面人人有两片| 精品国产一区二区三区四区第35| 亚洲av美国av| 午夜福利免费观看在线| 色播亚洲综合网| 久久九九热精品免费| 亚洲va日本ⅴa欧美va伊人久久| 又黄又爽又免费观看的视频| 动漫黄色视频在线观看| 嫩草影视91久久| 精品国产一区二区三区四区第35| 亚洲精品色激情综合| 一个人免费在线观看的高清视频| 人成视频在线观看免费观看| 午夜精品在线福利| 国产精品亚洲av一区麻豆| 国产片内射在线| 99国产精品99久久久久| 成年版毛片免费区| 老司机靠b影院| 97人妻精品一区二区三区麻豆 | 久久亚洲精品不卡| 亚洲成av片中文字幕在线观看| 亚洲性夜色夜夜综合| 免费搜索国产男女视频| 精品熟女少妇八av免费久了| 婷婷丁香在线五月| 欧美一级a爱片免费观看看 | 侵犯人妻中文字幕一二三四区| 久久久久久九九精品二区国产 | 美女高潮喷水抽搐中文字幕| 欧美日韩亚洲综合一区二区三区_| 人成视频在线观看免费观看| 中文字幕人妻熟女乱码| 少妇的丰满在线观看| 黄色a级毛片大全视频| 国产成+人综合+亚洲专区| 国产视频一区二区在线看| 亚洲一区二区三区色噜噜| 久久久国产欧美日韩av| 宅男免费午夜| 久久香蕉国产精品| 欧美在线一区亚洲| 免费在线观看黄色视频的| 色av中文字幕| 精品国内亚洲2022精品成人| 欧美精品啪啪一区二区三区| 麻豆久久精品国产亚洲av| 人人妻,人人澡人人爽秒播| 国产一区在线观看成人免费| 深夜精品福利| 免费女性裸体啪啪无遮挡网站| 久久久久九九精品影院| 两人在一起打扑克的视频| 国产精品 欧美亚洲| 最新美女视频免费是黄的| 麻豆一二三区av精品| 国产黄片美女视频| 18禁观看日本| 一区二区日韩欧美中文字幕| 视频区欧美日本亚洲| 亚洲五月天丁香| 热99re8久久精品国产| 日本在线视频免费播放| 麻豆一二三区av精品| 欧美精品亚洲一区二区| www.自偷自拍.com| 少妇被粗大的猛进出69影院| 欧美性猛交黑人性爽| 视频在线观看一区二区三区| 很黄的视频免费| 91大片在线观看| 国产伦在线观看视频一区| 一区二区三区激情视频| 波多野结衣av一区二区av| 一二三四社区在线视频社区8| 欧美zozozo另类| 国产麻豆成人av免费视频| 欧美国产日韩亚洲一区| 人人妻人人看人人澡| 午夜两性在线视频| 国产男靠女视频免费网站| 88av欧美| 99国产精品一区二区蜜桃av| 女警被强在线播放| 高清在线国产一区| 无限看片的www在线观看| 黄网站色视频无遮挡免费观看| 久久久国产欧美日韩av| 哪里可以看免费的av片| 亚洲一码二码三码区别大吗| 女警被强在线播放| 亚洲天堂国产精品一区在线| av电影中文网址| 国产一区二区三区视频了| 国产一区在线观看成人免费| 女性生殖器流出的白浆| 麻豆av在线久日| 狂野欧美激情性xxxx| 看免费av毛片| 国产精品99久久99久久久不卡| 最好的美女福利视频网| 欧美黑人欧美精品刺激| 99国产精品一区二区蜜桃av| 在线看三级毛片| 黑人欧美特级aaaaaa片| 亚洲自偷自拍图片 自拍| 久热爱精品视频在线9| 精品少妇一区二区三区视频日本电影| 91成人精品电影| 哪里可以看免费的av片| 日韩大码丰满熟妇| 成人三级做爰电影| 亚洲av成人一区二区三| 亚洲一区二区三区色噜噜| 日韩欧美一区二区三区在线观看| 免费观看人在逋| 一卡2卡三卡四卡精品乱码亚洲| 国产又黄又爽又无遮挡在线| 欧美日韩瑟瑟在线播放| 99国产极品粉嫩在线观看| 欧美在线黄色| 欧美性猛交╳xxx乱大交人| 亚洲人成电影免费在线| 精品久久蜜臀av无| 一级毛片高清免费大全| 黄色成人免费大全| 午夜影院日韩av| 国产三级黄色录像| 高清毛片免费观看视频网站| 亚洲avbb在线观看| 女人爽到高潮嗷嗷叫在线视频| 午夜福利高清视频| 亚洲,欧美精品.| 国产成人精品久久二区二区91| 亚洲欧美激情综合另类| 黄色a级毛片大全视频| 在线观看66精品国产| 波多野结衣av一区二区av| 午夜福利免费观看在线| 麻豆国产av国片精品| 丰满人妻熟妇乱又伦精品不卡| 岛国在线观看网站| 久久精品人妻少妇| www.999成人在线观看| 一级片免费观看大全| 久久草成人影院| 久久久久免费精品人妻一区二区 | 国产黄a三级三级三级人| 高清毛片免费观看视频网站| 国产成人啪精品午夜网站| 一本大道久久a久久精品| 自线自在国产av| 欧美激情极品国产一区二区三区| 一本一本综合久久| 国产又黄又爽又无遮挡在线| 午夜激情av网站| 欧美成人午夜精品| 国产一级毛片七仙女欲春2 | 18美女黄网站色大片免费观看| 中亚洲国语对白在线视频| 日韩大码丰满熟妇| 真人一进一出gif抽搐免费| 欧美人与性动交α欧美精品济南到| 精品欧美国产一区二区三| 99精品久久久久人妻精品| av福利片在线| 亚洲一卡2卡3卡4卡5卡精品中文| cao死你这个sao货| 欧美激情高清一区二区三区| 中文字幕另类日韩欧美亚洲嫩草| 黄频高清免费视频| 免费人成视频x8x8入口观看| a级毛片在线看网站| 视频在线观看一区二区三区| 给我免费播放毛片高清在线观看| tocl精华| 一进一出抽搐动态| 97超级碰碰碰精品色视频在线观看| 国产精品亚洲av一区麻豆| 成人三级做爰电影| 天堂影院成人在线观看| 国产精品一区二区免费欧美| 在线十欧美十亚洲十日本专区| 2021天堂中文幕一二区在线观 | 黑人操中国人逼视频| 成人国产一区最新在线观看| 国产午夜精品久久久久久| 一级作爱视频免费观看| 黄色a级毛片大全视频| 亚洲精品国产区一区二| 亚洲av美国av| 大香蕉久久成人网| 日韩欧美国产在线观看| 精品不卡国产一区二区三区| 两个人免费观看高清视频| 亚洲国产精品成人综合色| 久久精品国产99精品国产亚洲性色| 91九色精品人成在线观看| 国产三级在线视频| 欧美性猛交╳xxx乱大交人| 日本撒尿小便嘘嘘汇集6| 中文字幕高清在线视频| 久久久久久人人人人人| 国产黄a三级三级三级人| 欧美日韩福利视频一区二区| 怎么达到女性高潮| 免费在线观看影片大全网站| 亚洲熟妇中文字幕五十中出| 国产精华一区二区三区| 观看免费一级毛片| 熟女电影av网| 亚洲精品美女久久久久99蜜臀| 国产av又大| 国产精品野战在线观看| 国产精品影院久久| 少妇裸体淫交视频免费看高清 | 成年人黄色毛片网站| 午夜免费鲁丝| 亚洲全国av大片| 黑丝袜美女国产一区| 国产成人欧美在线观看| 欧美日韩瑟瑟在线播放| 婷婷六月久久综合丁香| 在线观看午夜福利视频| 午夜久久久久精精品| 亚洲中文字幕一区二区三区有码在线看 | 国产精品爽爽va在线观看网站 | 老熟妇乱子伦视频在线观看| 国产高清激情床上av| 十八禁网站免费在线| 给我免费播放毛片高清在线观看| 一级毛片女人18水好多| 日韩欧美 国产精品| or卡值多少钱| 最新在线观看一区二区三区| 欧美国产精品va在线观看不卡| 啦啦啦免费观看视频1| 啪啪无遮挡十八禁网站| 国内久久婷婷六月综合欲色啪| 麻豆成人av在线观看| 亚洲成人国产一区在线观看| 大香蕉久久成人网| 啦啦啦韩国在线观看视频| 大型黄色视频在线免费观看| 黑丝袜美女国产一区| 久久草成人影院| av免费在线观看网站| 1024香蕉在线观看| 后天国语完整版免费观看| 国产精品电影一区二区三区| 自线自在国产av| 少妇裸体淫交视频免费看高清 | 18禁黄网站禁片午夜丰满| 99国产精品99久久久久| 在线观看66精品国产| 午夜福利在线在线| 18禁国产床啪视频网站| 听说在线观看完整版免费高清| 欧美成人一区二区免费高清观看 | 少妇熟女aⅴ在线视频| 亚洲精品在线美女| 人人妻人人澡欧美一区二区| 久久中文看片网| 国产精品av久久久久免费| 高清毛片免费观看视频网站| 性欧美人与动物交配| 午夜免费鲁丝| 欧美不卡视频在线免费观看 | 手机成人av网站| ponron亚洲| 久久久国产精品麻豆| 久久久国产成人精品二区| 黄色成人免费大全| 十八禁网站免费在线| 99热6这里只有精品| 中文资源天堂在线| 国产又爽黄色视频| 欧美黑人巨大hd| 午夜免费鲁丝| 人人妻人人澡欧美一区二区| 国产高清有码在线观看视频 | 欧美黄色淫秽网站| 国语自产精品视频在线第100页| 久久久久久久久久黄片| 人人妻人人澡人人看| 欧美 亚洲 国产 日韩一| 男人舔女人下体高潮全视频| 高清毛片免费观看视频网站| 丁香六月欧美| 搡老岳熟女国产| 俺也久久电影网| 看片在线看免费视频| 成人三级黄色视频| 18美女黄网站色大片免费观看| 成人一区二区视频在线观看| 村上凉子中文字幕在线| 精品久久久久久久末码| 可以在线观看毛片的网站| 亚洲欧美日韩无卡精品| 这个男人来自地球电影免费观看| 窝窝影院91人妻| 国产在线观看jvid| 禁无遮挡网站| 亚洲av片天天在线观看| 午夜福利欧美成人| 欧美成狂野欧美在线观看| 搡老熟女国产l中国老女人| 草草在线视频免费看| 国产熟女午夜一区二区三区| 亚洲一区二区三区不卡视频| 国产精品久久久人人做人人爽| 别揉我奶头~嗯~啊~动态视频| 亚洲专区字幕在线| 亚洲激情在线av| 久久久精品国产亚洲av高清涩受| 亚洲一区中文字幕在线| 天堂动漫精品| 国产97色在线日韩免费| 麻豆成人av在线观看| 色综合站精品国产| 亚洲欧美精品综合久久99| 黄网站色视频无遮挡免费观看| 视频区欧美日本亚洲| 午夜久久久在线观看| 国产精品综合久久久久久久免费| 制服丝袜大香蕉在线| 91大片在线观看| 国产三级在线视频| 日韩高清综合在线| 精品国产国语对白av| 午夜福利一区二区在线看| 免费在线观看黄色视频的| 色婷婷久久久亚洲欧美| 久久精品影院6| 91麻豆av在线| 久久精品91蜜桃| 叶爱在线成人免费视频播放| 最近最新中文字幕大全电影3 | 国产高清有码在线观看视频 | 欧美另类亚洲清纯唯美| 身体一侧抽搐| 最近最新中文字幕大全免费视频| 50天的宝宝边吃奶边哭怎么回事| 91成人精品电影| 青草久久国产| 亚洲va日本ⅴa欧美va伊人久久| 99精品欧美一区二区三区四区| 女人被狂操c到高潮| 亚洲精品在线美女| 亚洲av第一区精品v没综合| 免费观看精品视频网站| 久久狼人影院| 三级毛片av免费| 麻豆成人av在线观看| 欧美性猛交╳xxx乱大交人| 国产又黄又爽又无遮挡在线| 午夜福利18| 最近在线观看免费完整版| 成人国产综合亚洲| 国产一区二区激情短视频| 99热这里只有精品一区 | 操出白浆在线播放| 亚洲欧美精品综合一区二区三区| 99精品欧美一区二区三区四区| 免费看日本二区| 亚洲成人久久性| 国产精品 国内视频| 亚洲中文日韩欧美视频| 国产一卡二卡三卡精品| 亚洲一区高清亚洲精品| 国产99白浆流出| 精品免费久久久久久久清纯| 成人一区二区视频在线观看| 日韩欧美一区视频在线观看| 免费在线观看成人毛片| 在线观看www视频免费| av视频在线观看入口| 国产激情偷乱视频一区二区| 国产精品久久久人人做人人爽| 两人在一起打扑克的视频| 亚洲精品国产区一区二| 亚洲黑人精品在线| 中文资源天堂在线| 一二三四社区在线视频社区8| 99热这里只有精品一区 | 老司机午夜十八禁免费视频| 在线观看www视频免费| 99国产精品一区二区蜜桃av| 色播在线永久视频| 波多野结衣高清作品| √禁漫天堂资源中文www| 婷婷精品国产亚洲av在线| 国产亚洲av嫩草精品影院| 曰老女人黄片| 久久中文字幕人妻熟女| 可以在线观看毛片的网站| 免费电影在线观看免费观看| 91麻豆av在线| 午夜免费成人在线视频| 午夜精品在线福利| 国产精品一区二区精品视频观看| 久久人妻福利社区极品人妻图片| 国产精品电影一区二区三区| 一区福利在线观看| 午夜老司机福利片| 黑人巨大精品欧美一区二区mp4| 性色av乱码一区二区三区2| 成人欧美大片| 日韩欧美三级三区| 午夜久久久在线观看| 男女午夜视频在线观看| 欧美日韩福利视频一区二区| 国产亚洲精品久久久久久毛片| 日本a在线网址| 精品国产国语对白av| 99在线人妻在线中文字幕| 黄色丝袜av网址大全| 亚洲第一av免费看| 日本撒尿小便嘘嘘汇集6| 一区二区三区高清视频在线| 午夜免费激情av| 国产精品乱码一区二三区的特点| 亚洲中文av在线| 欧美一级a爱片免费观看看 | 成人亚洲精品一区在线观看| 国内精品久久久久精免费| 丰满的人妻完整版| 校园春色视频在线观看| 日韩成人在线观看一区二区三区| 国产麻豆成人av免费视频| 欧美亚洲日本最大视频资源| 久久久久九九精品影院| 老司机在亚洲福利影院| 搡老妇女老女人老熟妇| 亚洲精品av麻豆狂野| 国产精品二区激情视频| 国产av一区在线观看免费| 一a级毛片在线观看| √禁漫天堂资源中文www| 亚洲成人免费电影在线观看| av超薄肉色丝袜交足视频| 欧美国产精品va在线观看不卡| 国产精品精品国产色婷婷| 麻豆一二三区av精品| 亚洲精品美女久久av网站| 欧美大码av| 草草在线视频免费看| 成人三级做爰电影| 国产成人系列免费观看| 免费在线观看黄色视频的| 亚洲中文字幕一区二区三区有码在线看 | 色播在线永久视频| 欧美激情极品国产一区二区三区| 黄色a级毛片大全视频| 亚洲av美国av| 成人18禁高潮啪啪吃奶动态图| 黄色女人牲交| 色尼玛亚洲综合影院| 一区福利在线观看| 精品久久久久久成人av| av在线播放免费不卡| 欧美另类亚洲清纯唯美| 在线观看一区二区三区| 亚洲avbb在线观看| av欧美777| 99热这里只有精品一区 | 欧美中文综合在线视频| 国内揄拍国产精品人妻在线 | 欧美三级亚洲精品| 日韩大码丰满熟妇| 亚洲三区欧美一区| 高清毛片免费观看视频网站| 欧美成人午夜精品| 男人的好看免费观看在线视频 | www.熟女人妻精品国产| 精品不卡国产一区二区三区| 中出人妻视频一区二区| 男男h啪啪无遮挡| 国产成人系列免费观看| 成人av一区二区三区在线看| 午夜福利18| 久久精品夜夜夜夜夜久久蜜豆 | 国产精品免费视频内射| 91麻豆精品激情在线观看国产| 亚洲精华国产精华精| 欧美激情 高清一区二区三区| 后天国语完整版免费观看| 日日摸夜夜添夜夜添小说| 亚洲av日韩精品久久久久久密| 在线国产一区二区在线| 91成年电影在线观看| 国产精品野战在线观看| 久久人妻福利社区极品人妻图片| 少妇熟女aⅴ在线视频| 麻豆av在线久日| 久久精品91蜜桃| 成人手机av| 自线自在国产av| 国产视频内射| 国产又色又爽无遮挡免费看| 最近最新中文字幕大全电影3 | 欧美日韩亚洲国产一区二区在线观看| 婷婷六月久久综合丁香| 午夜久久久久精精品| 欧美黑人欧美精品刺激| 国产精品野战在线观看| 免费女性裸体啪啪无遮挡网站| 国产黄片美女视频| 后天国语完整版免费观看| 国产三级在线视频| 国产久久久一区二区三区| 亚洲精品色激情综合| 男男h啪啪无遮挡| 大型av网站在线播放| 日韩中文字幕欧美一区二区| 亚洲成人久久爱视频| 欧美日本亚洲视频在线播放| 日韩欧美在线二视频| 久久天堂一区二区三区四区| 免费一级毛片在线播放高清视频| or卡值多少钱| 亚洲午夜精品一区,二区,三区| 免费看十八禁软件| 国产成人欧美| 成人国语在线视频| 亚洲,欧美精品.| 男男h啪啪无遮挡| a级毛片在线看网站| 老汉色∧v一级毛片| e午夜精品久久久久久久| 国产高清激情床上av| 日本一本二区三区精品| a级毛片a级免费在线| 亚洲午夜精品一区,二区,三区| 国产真实乱freesex| 欧美av亚洲av综合av国产av| 国内久久婷婷六月综合欲色啪| 99在线人妻在线中文字幕| 国产伦在线观看视频一区| 午夜福利在线观看吧| 老熟妇仑乱视频hdxx| 成人国语在线视频| 亚洲男人天堂网一区| 50天的宝宝边吃奶边哭怎么回事| 99re在线观看精品视频| 免费在线观看亚洲国产| 国产精品国产高清国产av| 人妻久久中文字幕网| 精品久久久久久,| 老司机午夜十八禁免费视频| 午夜视频精品福利| 操出白浆在线播放| 伊人久久大香线蕉亚洲五| 真人一进一出gif抽搐免费| 亚洲专区国产一区二区| 欧美成人性av电影在线观看| 波多野结衣巨乳人妻| 女人高潮潮喷娇喘18禁视频| 国产亚洲av嫩草精品影院| 成年版毛片免费区| 欧美日韩乱码在线| 国产激情欧美一区二区| 18禁国产床啪视频网站| 特大巨黑吊av在线直播 | 久久天躁狠狠躁夜夜2o2o| 欧美绝顶高潮抽搐喷水| 亚洲人成77777在线视频| 国产激情偷乱视频一区二区| 亚洲av成人av| 精品国产乱子伦一区二区三区| 午夜免费观看网址| 午夜久久久久精精品| 草草在线视频免费看| 日本三级黄在线观看| 90打野战视频偷拍视频| 亚洲五月色婷婷综合| 两人在一起打扑克的视频| 精品乱码久久久久久99久播| 久久久久免费精品人妻一区二区 | 少妇熟女aⅴ在线视频| 可以在线观看的亚洲视频| 婷婷六月久久综合丁香| 亚洲午夜理论影院| 久久天躁狠狠躁夜夜2o2o| av中文乱码字幕在线| 久久热在线av| 中文字幕另类日韩欧美亚洲嫩草| 日韩中文字幕欧美一区二区| 精品午夜福利视频在线观看一区| 亚洲成av片中文字幕在线观看| 在线十欧美十亚洲十日本专区| 国产欧美日韩一区二区精品| 国产一区在线观看成人免费| 一级毛片精品| 免费人成视频x8x8入口观看| 嫩草影视91久久| 国产av一区在线观看免费| 19禁男女啪啪无遮挡网站|