• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于改進(jìn)KNN的哈薩克語文本分類

    2014-06-27 05:50:38古麗娜孜孫鐵利胡西旦伊力亞爾庫瓦特拜克
    關(guān)鍵詞:詞干哈薩克語語料

    古麗娜孜,孫鐵利,胡西旦,伊力亞爾,庫瓦特拜克

    (1.伊犁師范學(xué)院電子與信息工程學(xué)院,新疆伊寧835000;2.東北師范大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,吉林長春130117)

    一種基于改進(jìn)KNN的哈薩克語文本分類

    古麗娜孜1,2,孫鐵利2,胡西旦1,伊力亞爾1,庫瓦特拜克1

    (1.伊犁師范學(xué)院電子與信息工程學(xué)院,新疆伊寧835000;2.東北師范大學(xué)計(jì)算機(jī)與信息科學(xué)學(xué)院,吉林長春130117)

    將文本分類理論應(yīng)用于哈薩克語中,給出了哈薩克語文本預(yù)處理過程.介紹一種改進(jìn)的KNN算法,并結(jié)合自己構(gòu)建的哈薩克語料集實(shí)現(xiàn)基于改進(jìn)KNN算法的哈薩克語的文本分類.仿真實(shí)驗(yàn)數(shù)據(jù)表明,該方法在哈薩克語的文本分類上獲得了較好的效果.

    哈薩克語本分類;詞干提取;向量空間模型;相似度;KNN

    0 引言

    文本分類(Text Categorization)是一項(xiàng)基本的數(shù)據(jù)挖掘技術(shù),是依照實(shí)現(xiàn)定義好的特定類別,為語料集中的每篇文檔確定一個(gè)所屬類.在文檔的組織和管理、搜索引擎對(duì)網(wǎng)頁的排序、數(shù)字圖書館、郵件的過濾、文本過濾、信息安全保密、自動(dòng)文摘、分類新聞組等領(lǐng)域里文本分類發(fā)揮著重要的作用.

    在文本自動(dòng)分類技術(shù)方面,不同文種存在許多共性,但由于各語言語法結(jié)構(gòu)之間的差異,使得基于其他語言文本分類的研究成果,不能簡單地用于哈薩克文文本的分類問題上,絕大部分技術(shù)的工作原理只能作為參考,因此需要研究出適用于哈薩克語自己的文本分類理論體系.針對(duì)哈薩克語語法體系及其文本信息的獨(dú)有特性需要研究出適合哈薩克語文本的分類模型和方法,實(shí)現(xiàn)哈薩克語信息的智能挖掘.該研究對(duì)促進(jìn)地區(qū)哈薩克族的科研、文化教育、宣傳出版等工作具有重要的意義和實(shí)際應(yīng)用價(jià)值.將文本分類理論運(yùn)用到哈薩克語文本分類工作是我們開創(chuàng)性的特色研究.

    目前文本分類算法主要有支持向量機(jī)(SVM)、盡近鄰算法(KNN)、Naive Bayes算法等.在文本表示方法中向量空間模型(VSM)的文本表示格式較直觀,所以大部分包括以上幾類文本分類方法一般都利用VSM來表示文本.當(dāng)直接應(yīng)用這些傳統(tǒng)分類方法來解決問題時(shí)一般都會(huì)存在缺點(diǎn),因此大多數(shù)領(lǐng)域一般采取改進(jìn)方法或者混合方法來達(dá)到最終目標(biāo).比如,KNN方法就是一種無參、簡單、穩(wěn)定性較高的方法.但是,KNN算法設(shè)計(jì)原理本身就簡單,在具體應(yīng)用時(shí)往往露出其懶性缺點(diǎn).為了提高KNN方法效率,王煜、李楊、李榮陸等人對(duì)KNN方法進(jìn)行更深入地研究,并提出快速KNN算法、索引表快速方法和基于密度的修剪方法等一系列的改進(jìn)方法,并取得了較好的分類效果.本文提出通過減少樣本間相似度的計(jì)算量來解決KNN分類方法的巨大搜索空間困難的一種改進(jìn)KNN方法.[1-11]

    1 文本預(yù)處理

    文本分類工作當(dāng)中首先對(duì)文本進(jìn)行預(yù)處理,也就是讓計(jì)算機(jī)來表示出文本,之后才能對(duì)其進(jìn)行特征抽取.

    文本預(yù)處理主要是從文本中提取關(guān)鍵詞來表示文本的處理過程.在預(yù)處理過程中,首先要將連續(xù)的語句分隔為分散的有獨(dú)立意義的詞集,然后去除集合中的停用詞,獲得文本的關(guān)鍵詞集合.

    當(dāng)然,在書寫語法格式不同的語言文本中提取獨(dú)立意義的關(guān)鍵詞時(shí),很顯然要采取不同的切分、組合的提取技術(shù).例如,英文文本需要提取詞干、中文文本需要切分詞等.鑒于哈薩克文文本信息的特性,即哈薩克文文本中詞與詞之間已經(jīng)是以空格分開的,所以我們不需要對(duì)其進(jìn)行切分詞,但需對(duì)其進(jìn)行提取詞干.

    首先解決以下幾個(gè)重要問題:(1)由于各種語言語法體系結(jié)構(gòu)的不同,就不能簡單地套用以其他語言為背景建立的(如,英文,維文,蒙文等)文本詞干提取算法.我們必先研究實(shí)現(xiàn)適合哈薩克文語法體系的詞干提取算法.(2)為實(shí)現(xiàn)文本分類任務(wù)還需要一定規(guī)模的語料庫,但在哈薩克語言中到目前為止還沒有一個(gè)公認(rèn)的哈文語料庫,必需先建設(shè)構(gòu)建一定量的語料集,為分類算法提供數(shù)據(jù)平臺(tái).

    文本預(yù)處理是影響文本分類準(zhǔn)確度的關(guān)鍵因素之一,只有解決了上述2個(gè)問題,才能標(biāo)注樣本,之后選擇最合適的文本分類算法實(shí)現(xiàn)分類任務(wù).由于篇幅問題下面對(duì)這兩環(huán)節(jié)只進(jìn)行簡要介紹.

    1.1 哈文預(yù)處理

    哈薩克語的單詞都是通過單詞原形的后面或前面加附加成分構(gòu)成的,這就說明哈薩克語是一種典型的黏著語.因?yàn)檫@個(gè)特點(diǎn),可以讓一個(gè)哈薩克語單詞對(duì)應(yīng)多個(gè)字符串形式.例如,哈薩克語中詞根(月亮),在其后加等各種附加成分后,可以演變出等多詞.但是,任何一種詞典規(guī)模都是有限的,不可能收錄所有的語法演變形式.所以,在哈薩克語預(yù)處理工作時(shí),要找出單詞原形即詞干與相應(yīng)的多個(gè)字符串之間的連接對(duì)應(yīng)關(guān)系,也就是要找出文本中詞的原形.這就是哈薩克語詞的詞干提取過程.

    哈薩克語分詞中,有些構(gòu)形附加成分單獨(dú)還可以表示一定的意義,所以除了詞干提取以外有時(shí)對(duì)構(gòu)形附加成分還要進(jìn)行細(xì)切分,否則不能準(zhǔn)確領(lǐng)會(huì)整個(gè)單詞的含義,例如,詞“”中的“”就是一種附加成分,其含義是“山”的意思,而整詞“”是“火山”的意思;詞“”中的“”就是一種附加成分,其含義是“馬”的意思,而整詞“”是“平安”的意思.因此,對(duì)于哈薩克語詞干提取方法的研究應(yīng)和其構(gòu)形語素的分析同時(shí)進(jìn)行.與此同時(shí)還需考慮原詞干連接處的邊界字母有時(shí)會(huì)發(fā)生一些變化的情形,即根據(jù)哈薩克語語法規(guī)則,在有些詞干后面連接需要的附加成分時(shí),原詞干的連接處邊界字母會(huì)發(fā)生一些變化,如,;;;等,因而,在詞干表中找不到完全匹配的這些詞干,根據(jù)語法規(guī)則像這樣典型的情況還得加以分析并解決.在附加成分的切分和詞干提取過程中,出現(xiàn)歧義詞切分情況又是必然現(xiàn)象,所以本文算法同樣考慮到可能出現(xiàn)的幾種歧義詞現(xiàn)象并給出針對(duì)處理方法.

    哈薩克語中除了少數(shù)從外來語引進(jìn)的詞前綴以外,絕大部分單詞都是通過在原詞干的后面按一定規(guī)律連接各種詞綴構(gòu)成的.哈薩克語中的構(gòu)形附加成分之間也有嚴(yán)格的連接規(guī)則,這有助于對(duì)詞附加成分進(jìn)行正確切分.名詞、動(dòng)詞、形容詞、數(shù)詞、代詞和副詞中,名詞和動(dòng)詞是哈薩克語中數(shù)量最多的詞類,由此,可以引用有限狀態(tài)轉(zhuǎn)錄機(jī)(Finite State Machine,F(xiàn)SM)來較方便地為哈薩克語單詞建立詞干模型.

    本文在詞性有限狀態(tài)自動(dòng)機(jī)的基礎(chǔ)上利用雙向全切分和詞法分析相結(jié)合的改進(jìn)方法來實(shí)現(xiàn)了哈薩克語的詞干提取和構(gòu)形附加成分的細(xì)切分.通過采用改進(jìn)逐字母二分詞典查詢方法來搜索詞干表,提高詞干提取效率.在上述研究工作的基礎(chǔ)上,實(shí)現(xiàn)哈薩克語單詞的詞干提取,解決了哈薩克語文本的讀取預(yù)處理問題.程序運(yùn)行結(jié)果如圖1所示,圖1中很容易看到原詞及其切分后的詞干.

    本文研究對(duì)詞干切分所做實(shí)驗(yàn)的評(píng)測(cè)標(biāo)準(zhǔn)主要以附加成分切分的正確率(Precision1)和歧義詞切分排除率(Precision2)兩方面來進(jìn)行定性評(píng)價(jià)的.這2種評(píng)估指標(biāo)分別為:

    圖1 哈文詞干切分結(jié)果示例

    詞干提取正確率

    歧義詞切分正確率

    表1為本文詞干提取所做實(shí)驗(yàn)結(jié)果數(shù)據(jù)綜合分析表.

    表1 詞干提取實(shí)驗(yàn)結(jié)果綜合分析

    根據(jù)表1中的實(shí)驗(yàn)結(jié)果,我們可以得知本文提出的算法和處理方法具有較好的結(jié)果,達(dá)到了預(yù)期的研究目標(biāo).

    當(dāng)然,這一算法依賴于原始詞典(詞庫),詞典的內(nèi)容直接影響切分正確率.比如,由于有些新詞匯(流行詞)還未錄入到詞典里,詞典詞匯較舊,就會(huì)直接影響切分效果.因此,詞典的建立與維護(hù)非常重要.因模型參數(shù)的訓(xùn)練不足,歧義詞切分概率尚不理想,在今后的研究工作中,有待提高模型參數(shù)的可信度.

    為了達(dá)到如圖1所示的實(shí)驗(yàn)?zāi)繕?biāo)結(jié)果,我們還做出了以下2項(xiàng)主要的基礎(chǔ)性準(zhǔn)備工作.

    (1)以哈薩克語文本分類為主題.沿著實(shí)現(xiàn)哈薩克語詞干提取任務(wù)要求先籌備了對(duì)應(yīng)詞干表和附加成分表,而這表里已收錄了由新疆人民出版社出版的《哈薩克語詳解詞典》中的6萬多個(gè)哈薩克語詞干和438個(gè)哈薩克語附加成分.附加成分的詳細(xì)分類在附加成分切分階段進(jìn)行詞法分析時(shí)非常有用.哈薩克語語法體系規(guī)定將附加成分分為構(gòu)形附加成分和構(gòu)詞附加成分兩大類.其構(gòu)詞附加成分分為動(dòng)詞、形容詞、數(shù)詞和副詞附加成分等4種,而構(gòu)形附加成分分為謂語性人稱、格附加成分、領(lǐng)屬性人稱附加成分、復(fù)數(shù)附加成分等4種.

    (2)關(guān)鍵環(huán)節(jié)是哈薩克語料庫的建設(shè).實(shí)現(xiàn)任何分類任務(wù)首先應(yīng)具備一定規(guī)模的語料庫,考慮到目前還沒有一個(gè)公認(rèn)的哈薩克語料庫,為此本人通過翻譯中文公認(rèn)語料庫里的部分文章內(nèi)容來構(gòu)建由交通、體育、農(nóng)業(yè)、藝術(shù)、政治等5類共200篇文本組成的本文研究的語料集.這一些列研究不論從理論角度還是從應(yīng)用角度都是非常重要的,在實(shí)際應(yīng)用中具有重要意義.

    1.2 文本模型

    為了讓計(jì)算機(jī)能夠直接處理文本,首先要將文本由大量字符構(gòu)成的字符串形式表示出來.向量空間模型是將文本由特征項(xiàng)和特征項(xiàng)權(quán)重組成的向量(W1,W2,…,Wm)形式表示出來的最經(jīng)典的文本形式化表示方法,其中Wi為第i個(gè)特征項(xiàng)的權(quán)重.一般運(yùn)用以下TF-IDF公式[1]來計(jì)算特征權(quán)重.

    其中:W(t,dˉ)為詞t在文本dˉ中的權(quán)重;tf(t,dˉ)為詞t在文本dˉ中的詞頻;ni為訓(xùn)練文本集中出現(xiàn)t的文本數(shù);n為訓(xùn)練文本總數(shù).

    通過以上處理和計(jì)算,文檔集可由m行n列的詞-文檔矩陣(Term-Document Matrix)表示出來:

    式中:m為文檔集中所有不同詞的個(gè)數(shù);aij為第i個(gè)詞在第j個(gè)文檔中出現(xiàn)的權(quán)重.不同的詞對(duì)應(yīng)矩陣A的不同的一行,每個(gè)文檔則對(duì)應(yīng)矩陣A的一列.

    2 基于改進(jìn)的KNN分類算法

    2.1 KNN算法

    KNN算法是一種簡單、有效、無參數(shù)的監(jiān)督分類算法.KNN算法不需要特殊的數(shù)據(jù)來描述規(guī)則,其規(guī)則本身就是數(shù)據(jù)樣本.算法原理就是根據(jù)待分類樣本的k個(gè)最近鄰樣本來預(yù)測(cè)未知樣本的類別.所以要使用KNN算法,必須明確最近鄰樣本的數(shù)目k和測(cè)量相似性的距離函數(shù)這2個(gè)基本因素.常用的有曼哈頓距離、歐氏距離等.關(guān)于計(jì)算文本相似度,一般都采用余弦公式,公式為:

    其中Sim(di,dj)是文本di與dj之間的相似度,而wi,k是文本di中第k個(gè)特征的權(quán)重.

    在具體分類時(shí),先將待分類文本轉(zhuǎn)換成與訓(xùn)練樣本一致的向量空間模型;然后由公式(5)計(jì)算該文本與每個(gè)樣本之間的相似度;再取相似度最大的k個(gè)樣本,根據(jù)k個(gè)樣本由公式(6)來計(jì)算屬于每個(gè)類別的權(quán)重;最后將該文本歸屬到權(quán)重最大的那個(gè)類別中.

    其中Sim(di,d)表示文本d與其k個(gè)最近文本di之間的相似度.

    由以上公式可知,KNN算法先計(jì)算待測(cè)試文本與訓(xùn)練文本之間在該坐標(biāo)系中的Cosine距離,然后才依據(jù)測(cè)試文檔與訓(xùn)練文檔距離的遠(yuǎn)近來確定類別,這就說明KNN算法的實(shí)質(zhì)就是以特征屬性權(quán)值作為特征空間的坐標(biāo)系測(cè)度,由此不難給出分類問題的數(shù)學(xué)模型.

    KNN分類過程的數(shù)學(xué)描述:

    定義判別函數(shù)為

    分類的決策規(guī)則:

    如果

    則決策x∈Ci.其中:x為得分類文檔;n為總的類別數(shù)目;k為訓(xùn)練集中與x距離最近的文檔數(shù)(k≥1);

    Ci為訓(xùn)練集中類別;ki為屬于Ci類的文檔數(shù).

    2.2 改進(jìn)的KNN算法

    傳統(tǒng)的KNN分類算法要求計(jì)算要測(cè)試的樣本與其他所有訓(xùn)練樣本之間的相似度,因此,要處理大規(guī)模數(shù)據(jù),算法時(shí)效受影響[9-10].本文提出了一種改進(jìn)的KNN分類算法.該算法主要思想:最快速度找到n0個(gè)候選類別,然后將KNN算法應(yīng)用到這個(gè)由n0個(gè)候選類別為中心的新的數(shù)據(jù)區(qū)域里,這樣KNN算法的分類花的時(shí)間將會(huì)大大縮短.算法具體內(nèi)容可以下三大階段來描述.

    初始化:總的類別數(shù)目n;n0=0.

    第一階段 基礎(chǔ)工作——計(jì)算算法指標(biāo)

    step1:將每個(gè)類別的訓(xùn)練文本都表示成向量空間模型(即都以向量形式表示出來),分別求出各類別的均值向量,當(dāng)做各個(gè)類別各自的中心向量Ci;

    step2:求出訓(xùn)練文本與該類中心向量Ci的最小相似度Minsim,定為一個(gè)未知樣本是否屬于該類的閾值;

    step3:求出該類訓(xùn)練文本與該類中心向量Ci的平均相似度Avesim,當(dāng)做KNN分類選取代表樣本的參考依據(jù).

    第二階段 劃出中心數(shù)據(jù)區(qū)域——快速得到文本x的n0個(gè)候選類別,其余的類別將不再考慮.

    step4:取一個(gè)測(cè)試樣本x,計(jì)算該測(cè)試樣本與每個(gè)類別中心向量Ci之間的相似度Sim(x,Ci);

    step5:若Sim(x,Ci)≥Minsim,則認(rèn)為Ci對(duì)應(yīng)的類可當(dāng)做候選類別,否則放棄該類并不再對(duì)該類進(jìn)行處理;回到step4一直掃完所有測(cè)試樣本為止.

    第三階段 KNN分類——完成n0個(gè)類別中的最后文本所屬類別.

    改進(jìn)算法優(yōu)點(diǎn):經(jīng)過第二階段的處理,將會(huì)排除n-n0個(gè)類別,這樣測(cè)試樣本x就只能屬于n0個(gè)(n0≤n)個(gè)候選類別中一種,其目的就是快速排出明顯不是x所屬類別的那些訓(xùn)練樣本,減輕KNN的負(fù)擔(dān).

    3 實(shí)驗(yàn)結(jié)果及分析

    文本分類工作中訓(xùn)練文本的質(zhì)量直接影響分類器性能,因此選擇訓(xùn)練文本是關(guān)鍵.KNN訓(xùn)練文本過程見圖1.訓(xùn)練文本集合大多都是公認(rèn)的、經(jīng)人工分類的標(biāo)準(zhǔn)語料庫.但是,對(duì)于哈薩克語文本來說,到目前為止還沒有一個(gè)標(biāo)準(zhǔn)的語料庫,因此為了實(shí)現(xiàn)文本分類任務(wù),首先要做好哈薩克語語料的建設(shè)工作.考慮到語料集的魯棒性,通過人工翻譯公認(rèn)中文語料庫里部分文章來收集了本研究的語料集.所構(gòu)建的語料集由交通、體育、農(nóng)業(yè)、藝術(shù)、政治等5個(gè)類別的共200篇文本構(gòu)成,其中給每個(gè)類分別準(zhǔn)備了40篇文本.任意選取的120篇文本作為訓(xùn)練集,剩下80篇文本作為測(cè)試集.

    對(duì)文本分類效果進(jìn)行評(píng)估,其標(biāo)準(zhǔn)有查準(zhǔn)率、查全率:

    圖2 KNN訓(xùn)練文本過程示例

    這2個(gè)指標(biāo)能夠反映分類質(zhì)量的2個(gè)不同的方面,因此通過綜合考察這2項(xiàng)指標(biāo)可得一個(gè)新的評(píng)估指標(biāo)F1測(cè)試值,實(shí)驗(yàn)結(jié)果如表2所示.

    表2 綜合考察查準(zhǔn)率與查全率的實(shí)驗(yàn)結(jié)果

    實(shí)驗(yàn)的總體效果比起性能較好的分類軟件來說有一定的差距.但本文研究以此效果來說明哈薩克文文本分類問題的可行性比成熟的其他文本分類技術(shù)和所達(dá)到的精度而言,還需迎接一系列挑戰(zhàn).改進(jìn)算法在時(shí)效上也不是很理想,算法似乎以前期準(zhǔn)備階段所耗的時(shí)間代價(jià)來換來了較短的KNN分類時(shí)間,因而整體算法運(yùn)轉(zhuǎn)時(shí)間還是較長.除此之外影響算法精度的還有以下幾方面的問題:(1)對(duì)哈語單詞的切分處理,提取詞干的準(zhǔn)確度同樣直接影響分類效果.由于被提出的哈薩克語詞干提取規(guī)則還不夠細(xì)致,文本內(nèi)容的表示受到影響,從而導(dǎo)致特征選擇的誤差.(2)由于自制語料的質(zhì)量和數(shù)量都不如已公認(rèn)的標(biāo)準(zhǔn)語料集,會(huì)直接影響文本的最終分類.后續(xù)工作中有待增加文本數(shù)量,提高類別代表性.(3)所提出算法在劃出中心文本區(qū)域時(shí),避免不了類別邊界處樣本的誤分、漏分或具有潛在特征樣本的誤分現(xiàn)象,而影響算法整體效率.

    4 結(jié)論

    本文介紹了一種基于改進(jìn)KNN的哈薩克文文本分類的總體過程.在通過人工翻譯收集的哈薩克文語料集的基礎(chǔ)上編寫程序?qū)崿F(xiàn)了哈薩克文詞干解析提取,解決了哈薩克文文章的讀取預(yù)處理.用向量空間模型VSM來表示文本,基于改進(jìn)KNN算法的基礎(chǔ)上最終實(shí)現(xiàn)了哈薩克文文本分類任務(wù),但仍有一些地方需要完善,無論是哈薩克文詞干提取、語料集質(zhì)量,還是算法本身從性能、執(zhí)行效果上都有待于提高,在未來還需要進(jìn)一步研究.

    [1] 冷明偉,陳曉云,譚國律.基于小樣本集弱學(xué)習(xí)規(guī)則的KNN分類算法[J].計(jì)算機(jī)應(yīng)用研究,2011,28(3):915-917.

    [2] GUO G,WANG H,BELL D.KNN model based approach in classification[C].Berlin:Springer Verlag,2003:986-996.

    [3] GUO GONGDE,HUANG JIE,CHEN LIFEI.KNN model based incremental learning algorithim[J].Pattern Recognition Artificial Intelligence,2010,23(5):70l-707.

    [4] 王煜,白石,王正歐.用于Web文本分類的快速KNN算法[J].情報(bào)學(xué)報(bào),2007,26(1):60-64.

    [5] 李揚(yáng),曾海泉,劉慶華,等.基于KNN的快速Web文檔分類[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(4):725-729.

    [6] 李榮陸,胡運(yùn)發(fā).基于密度的KNN文本分類器訓(xùn)練樣本裁剪方法[J].計(jì)算機(jī)研究與發(fā)展,2004,41(4):539-544.

    [7] ZHANG BIN,SRIHARI S N.Fast k-nearest neighbor classification using cluster-based trees[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2004,26(4):525-528.

    [8] GHOSH A K,CHAUDHURI P,MURTHY C A.Multiscale classification using nearest neighbor density estimates[J].IEEE Transactions on Systems,2006,36(5):1139-1148.

    [9] 宋玲,馬軍,連莉,等.文檔相似度綜合計(jì)算研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,42(30):160-163.

    [10] 周靖,劉晉勝.基于分類貢獻(xiàn)有效值的增量刪N模型修剪研究[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(3):185-189.

    [11] 黃杰,郭躬得,陳黎飛.增量KNN模型的修剪策略研究[J].小型微型計(jì)算機(jī)系統(tǒng),2011,5(5):845-849.

    Textcategorization of Kazakh text based on improved KNN

    Gulnaz1,2,SUN Tie-li2,Hurxida1,Yiliyar1,Kuwatbek1
    (1.School of Electronics and Information Engineering,Yili Normal College,Yining 835000,China;2.School of Computer and Information Science,Northeast Normal University,Changchun 1300117,China)

    Appling the theory of text categorization to the study of kazakh text,given the kazakh text pre-processing,introduce a improved KNN algorithm,implemented the Kazakh text preprocessing that based on the improved KNN method on the their own built kazakh data sets.The experimental results show that can obtain better classification performance in the kazakh text classification.

    Kazakh text categorization;stemming;vector space model;similarity;KNN

    TP 391.1 [學(xué)科代碼] 520·30

    A

    (責(zé)任編輯:石紹慶)

    1000-1832(2014)02-0063-06

    10.11672/dbsdzk2014-02-013

    2013-09-01

    國家自然科學(xué)基金資助項(xiàng)目(61363066);教育部博士點(diǎn)基金資助項(xiàng)目(20110043110011);吉林省科技發(fā)展計(jì)劃項(xiàng)目(20120302);伊犁師范學(xué)院資助項(xiàng)目(2012YB017).

    古麗娜孜(1972—),女,講師,博士研究生,主要從事文本分類、模式識(shí)別、智能控制研究.

    猜你喜歡
    詞干哈薩克語語料
    論柯爾克孜語詞干提取方法
    維吾爾語詞綴變體搭配規(guī)則研究及算法實(shí)現(xiàn)
    基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
    華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
    哈薩克語附加成分-A
    融合多策略的維吾爾語詞干提取方法
    基于維吾爾語詞干詞綴粒度的漢維機(jī)器翻譯
    《苗防備覽》中的湘西語料
    哈薩克語比喻及其文化特征
    語言與翻譯(2014年2期)2014-07-12 15:49:28
    “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
    語言與翻譯(2014年2期)2014-07-12 15:49:13
    叶爱在线成人免费视频播放| 大陆偷拍与自拍| 久久人妻福利社区极品人妻图片| 国产精品偷伦视频观看了| 亚洲成a人片在线一区二区| 9色porny在线观看| 一边摸一边抽搐一进一出视频| 黄色怎么调成土黄色| 国产高清国产精品国产三级| 淫妇啪啪啪对白视频| 国产成人免费无遮挡视频| 国产单亲对白刺激| 中国美女看黄片| 精品福利永久在线观看| 欧美激情高清一区二区三区| 视频区欧美日本亚洲| 亚洲精品一二三| av欧美777| 国产不卡一卡二| 欧美日韩中文字幕国产精品一区二区三区 | 亚洲久久久国产精品| 亚洲aⅴ乱码一区二区在线播放 | 亚洲自偷自拍图片 自拍| 99久久人妻综合| 人人妻人人爽人人添夜夜欢视频| 嫁个100分男人电影在线观看| 欧美成人免费av一区二区三区 | 天天躁夜夜躁狠狠躁躁| 精品福利观看| 又黄又爽又免费观看的视频| av在线播放免费不卡| 亚洲性夜色夜夜综合| 精品熟女少妇八av免费久了| 精品卡一卡二卡四卡免费| 精品国产超薄肉色丝袜足j| 在线永久观看黄色视频| 国产成人精品无人区| 久久久久视频综合| 夜夜躁狠狠躁天天躁| 国产精品一区二区在线不卡| 黄色丝袜av网址大全| 久久久久久久久免费视频了| 美女福利国产在线| 国产99久久九九免费精品| 成人影院久久| 亚洲第一欧美日韩一区二区三区| 夜夜夜夜夜久久久久| 国产成人av激情在线播放| 国产视频一区二区在线看| 亚洲片人在线观看| 免费人成视频x8x8入口观看| 伦理电影免费视频| 国产精品99久久99久久久不卡| 村上凉子中文字幕在线| 久久国产精品大桥未久av| 国产成人一区二区三区免费视频网站| 王馨瑶露胸无遮挡在线观看| 91精品国产国语对白视频| 午夜免费观看网址| 婷婷精品国产亚洲av在线 | 欧美黑人欧美精品刺激| 亚洲精品一二三| 中文字幕人妻丝袜一区二区| 亚洲av美国av| 最近最新免费中文字幕在线| 黑人猛操日本美女一级片| 水蜜桃什么品种好| 国产高清激情床上av| 国产精品 国内视频| 国产精品亚洲av一区麻豆| 精品卡一卡二卡四卡免费| 99国产极品粉嫩在线观看| 国产男女超爽视频在线观看| 一级片'在线观看视频| 国产精品乱码一区二三区的特点 | 12—13女人毛片做爰片一| 黄色视频不卡| 夜夜夜夜夜久久久久| 久久精品亚洲精品国产色婷小说| 国产一区有黄有色的免费视频| 天天添夜夜摸| 婷婷丁香在线五月| 欧美日韩瑟瑟在线播放| 日韩 欧美 亚洲 中文字幕| 亚洲av欧美aⅴ国产| 大片电影免费在线观看免费| 亚洲欧美日韩另类电影网站| 深夜精品福利| 亚洲欧美激情综合另类| 一区二区三区国产精品乱码| 在线视频色国产色| 黄频高清免费视频| 成熟少妇高潮喷水视频| a级毛片黄视频| 成年动漫av网址| 夜夜爽天天搞| 我的亚洲天堂| 国产在线一区二区三区精| 精品国产一区二区三区久久久樱花| 日本撒尿小便嘘嘘汇集6| 咕卡用的链子| 欧美黑人精品巨大| 在线观看午夜福利视频| 欧美久久黑人一区二区| 国产成人欧美| 少妇裸体淫交视频免费看高清 | 国产aⅴ精品一区二区三区波| 精品少妇一区二区三区视频日本电影| 亚洲精品美女久久久久99蜜臀| 麻豆国产av国片精品| 啦啦啦在线免费观看视频4| 999久久久国产精品视频| 亚洲精品美女久久久久99蜜臀| 精品熟女少妇八av免费久了| 精品国产国语对白av| 亚洲欧美色中文字幕在线| 亚洲一码二码三码区别大吗| 国产精品 欧美亚洲| 国产亚洲精品久久久久久毛片 | 香蕉久久夜色| 精品视频人人做人人爽| 一边摸一边抽搐一进一小说 | 精品国产一区二区三区久久久樱花| 中出人妻视频一区二区| 欧美日韩av久久| 国产91精品成人一区二区三区| 成年人黄色毛片网站| 欧美最黄视频在线播放免费 | 国产真人三级小视频在线观看| 亚洲av欧美aⅴ国产| 最新美女视频免费是黄的| 欧美 日韩 精品 国产| 国产免费现黄频在线看| 性少妇av在线| 久久国产精品影院| 天堂动漫精品| 老司机午夜福利在线观看视频| 777久久人妻少妇嫩草av网站| 免费在线观看完整版高清| 在线观看免费午夜福利视频| a级毛片黄视频| 亚洲第一青青草原| 性色av乱码一区二区三区2| 免费不卡黄色视频| 中文字幕高清在线视频| 国产亚洲av高清不卡| 亚洲熟妇中文字幕五十中出 | 亚洲国产精品合色在线| 欧美午夜高清在线| 一区在线观看完整版| xxxhd国产人妻xxx| 婷婷精品国产亚洲av在线 | 亚洲欧美激情在线| 国产欧美亚洲国产| 亚洲免费av在线视频| 亚洲色图av天堂| 午夜福利,免费看| 操出白浆在线播放| 亚洲自偷自拍图片 自拍| 国产精品国产av在线观看| 国产色视频综合| 精品卡一卡二卡四卡免费| 日韩 欧美 亚洲 中文字幕| 亚洲五月婷婷丁香| 色综合婷婷激情| 啦啦啦免费观看视频1| 99riav亚洲国产免费| 精品国产乱子伦一区二区三区| 日本黄色视频三级网站网址 | aaaaa片日本免费| 亚洲精品久久午夜乱码| 欧美日韩黄片免| 国产男女超爽视频在线观看| 国产成人啪精品午夜网站| 久久久精品区二区三区| 国产精品一区二区在线观看99| 久久久国产一区二区| 麻豆乱淫一区二区| 亚洲av电影在线进入| 久久久国产一区二区| 身体一侧抽搐| 男女下面插进去视频免费观看| av一本久久久久| 免费日韩欧美在线观看| videos熟女内射| 亚洲片人在线观看| 俄罗斯特黄特色一大片| 国产熟女午夜一区二区三区| 手机成人av网站| 宅男免费午夜| 精品欧美一区二区三区在线| 自线自在国产av| 国产精品久久久久久人妻精品电影| 黑人欧美特级aaaaaa片| 国产精品综合久久久久久久免费 | 18禁美女被吸乳视频| 久久精品亚洲av国产电影网| 精品午夜福利视频在线观看一区| 国产成人精品久久二区二区免费| 在线永久观看黄色视频| x7x7x7水蜜桃| 建设人人有责人人尽责人人享有的| 国产一区二区激情短视频| 精品午夜福利视频在线观看一区| 一进一出抽搐gif免费好疼 | 成年女人毛片免费观看观看9 | 男女下面插进去视频免费观看| 人人妻人人添人人爽欧美一区卜| 丁香欧美五月| 一区二区三区精品91| 午夜91福利影院| 在线永久观看黄色视频| 老司机午夜十八禁免费视频| av免费在线观看网站| 19禁男女啪啪无遮挡网站| 精品欧美一区二区三区在线| 嫩草影视91久久| 亚洲av欧美aⅴ国产| 日日爽夜夜爽网站| 日韩精品免费视频一区二区三区| 日本wwww免费看| av免费在线观看网站| 90打野战视频偷拍视频| 夫妻午夜视频| 亚洲国产毛片av蜜桃av| 中亚洲国语对白在线视频| 久久国产亚洲av麻豆专区| 国产精品香港三级国产av潘金莲| 国产精品美女特级片免费视频播放器 | 亚洲人成伊人成综合网2020| 欧美日韩黄片免| 日本a在线网址| 怎么达到女性高潮| 久久狼人影院| 久久久久久亚洲精品国产蜜桃av| 亚洲中文字幕日韩| 国产有黄有色有爽视频| 欧美久久黑人一区二区| 国产xxxxx性猛交| 亚洲一卡2卡3卡4卡5卡精品中文| 国产精品一区二区精品视频观看| 51午夜福利影视在线观看| 精品国内亚洲2022精品成人 | 日本vs欧美在线观看视频| 国产精品免费视频内射| 黑丝袜美女国产一区| 搡老乐熟女国产| 精品亚洲成国产av| 久久香蕉激情| 久久久精品区二区三区| 满18在线观看网站| 国产成人免费无遮挡视频| 久久精品国产亚洲av香蕉五月 | avwww免费| bbb黄色大片| 国产精品亚洲一级av第二区| cao死你这个sao货| 亚洲av片天天在线观看| 亚洲,欧美精品.| 老司机午夜福利在线观看视频| 国产高清视频在线播放一区| 国产精华一区二区三区| 精品久久久精品久久久| 精品人妻熟女毛片av久久网站| 91麻豆av在线| 波多野结衣av一区二区av| 后天国语完整版免费观看| 女性被躁到高潮视频| 久久久国产精品麻豆| 搡老乐熟女国产| 久久国产精品男人的天堂亚洲| 视频区图区小说| 国产亚洲精品久久久久久毛片 | 国产亚洲一区二区精品| 亚洲欧美一区二区三区黑人| 国产在视频线精品| 日韩三级视频一区二区三区| 精品第一国产精品| 亚洲国产看品久久| 日本vs欧美在线观看视频| 身体一侧抽搐| 久久九九热精品免费| 国产精品乱码一区二三区的特点 | 亚洲精品一二三| 精品午夜福利视频在线观看一区| 久久国产乱子伦精品免费另类| 亚洲熟女精品中文字幕| av免费在线观看网站| 国产亚洲精品久久久久5区| 国精品久久久久久国模美| 美国免费a级毛片| 一进一出好大好爽视频| 老司机福利观看| 欧美+亚洲+日韩+国产| 欧美亚洲 丝袜 人妻 在线| 免费在线观看视频国产中文字幕亚洲| 成人亚洲精品一区在线观看| 91精品国产国语对白视频| 深夜精品福利| 国产在线精品亚洲第一网站| 国产精品免费一区二区三区在线 | 精品人妻1区二区| 亚洲五月婷婷丁香| av免费在线观看网站| 一夜夜www| 在线国产一区二区在线| 久久久水蜜桃国产精品网| 免费久久久久久久精品成人欧美视频| 国产真人三级小视频在线观看| 色婷婷av一区二区三区视频| 美女视频免费永久观看网站| 成年人黄色毛片网站| 一级黄色大片毛片| 欧美在线一区亚洲| 国产成+人综合+亚洲专区| 久久久国产精品麻豆| xxxhd国产人妻xxx| 美女高潮喷水抽搐中文字幕| 最新美女视频免费是黄的| 一区二区日韩欧美中文字幕| 欧美另类亚洲清纯唯美| av天堂在线播放| 麻豆国产av国片精品| 成人特级黄色片久久久久久久| 男女下面插进去视频免费观看| 亚洲一区二区三区不卡视频| av有码第一页| 亚洲成人手机| av有码第一页| 美女福利国产在线| 国产午夜精品久久久久久| 精品第一国产精品| 亚洲视频免费观看视频| 国产精品久久电影中文字幕 | 亚洲人成伊人成综合网2020| 黄网站色视频无遮挡免费观看| 亚洲av日韩精品久久久久久密| 成人国语在线视频| 亚洲av成人一区二区三| 国产无遮挡羞羞视频在线观看| 欧美黑人精品巨大| 麻豆国产av国片精品| 久久 成人 亚洲| 日本欧美视频一区| 人人妻人人澡人人爽人人夜夜| 极品人妻少妇av视频| 久久精品亚洲精品国产色婷小说| 乱人伦中国视频| 亚洲七黄色美女视频| 亚洲精品乱久久久久久| 又黄又爽又免费观看的视频| a级片在线免费高清观看视频| 大香蕉久久成人网| 男女高潮啪啪啪动态图| 国产精品乱码一区二三区的特点 | 日韩制服丝袜自拍偷拍| 日本一区二区免费在线视频| 乱人伦中国视频| 精品国产一区二区久久| 亚洲全国av大片| 操出白浆在线播放| 大型黄色视频在线免费观看| 国产成人av教育| 国产欧美日韩一区二区三区在线| 国产国语露脸激情在线看| 国产精品综合久久久久久久免费 | 成年人免费黄色播放视频| 亚洲情色 制服丝袜| 日韩欧美三级三区| 国产成人av激情在线播放| 人人妻人人爽人人添夜夜欢视频| 国产99久久九九免费精品| 欧美日本中文国产一区发布| 日日夜夜操网爽| 19禁男女啪啪无遮挡网站| 欧美最黄视频在线播放免费 | 性色av乱码一区二区三区2| 一本大道久久a久久精品| 性色av乱码一区二区三区2| 久久精品国产亚洲av涩爱 | e午夜精品久久久久久久| 午夜免费成人在线视频| xxxwww97欧美| 五月伊人婷婷丁香| 精品久久久久久成人av| 国产蜜桃级精品一区二区三区| 特大巨黑吊av在线直播| 午夜a级毛片| svipshipincom国产片| 久久亚洲精品不卡| 精品人妻一区二区三区麻豆 | 少妇的丰满在线观看| 亚洲成人中文字幕在线播放| 日本三级黄在线观看| 黄色女人牲交| 国产成人av激情在线播放| 老汉色av国产亚洲站长工具| 国产成人a区在线观看| 午夜福利欧美成人| 国产精品 欧美亚洲| 欧美午夜高清在线| 淫妇啪啪啪对白视频| 国产av不卡久久| 日日摸夜夜添夜夜添小说| 久久精品综合一区二区三区| 91九色精品人成在线观看| 日韩欧美免费精品| 少妇熟女aⅴ在线视频| 国产高清有码在线观看视频| 久久国产精品影院| 亚洲av免费高清在线观看| 日本成人三级电影网站| 十八禁人妻一区二区| 亚洲中文字幕日韩| 黄片大片在线免费观看| 成人av一区二区三区在线看| 国产日本99.免费观看| 日韩成人在线观看一区二区三区| 蜜桃久久精品国产亚洲av| 亚洲美女视频黄频| 黑人欧美特级aaaaaa片| 国产一区二区激情短视频| 午夜免费男女啪啪视频观看 | 亚洲专区国产一区二区| 亚洲成av人片免费观看| 老熟妇仑乱视频hdxx| 亚洲人与动物交配视频| 久久人人精品亚洲av| 成熟少妇高潮喷水视频| 香蕉av资源在线| 高潮久久久久久久久久久不卡| 成年女人永久免费观看视频| 又黄又粗又硬又大视频| 亚洲精华国产精华精| 欧美三级亚洲精品| 亚洲人与动物交配视频| 亚洲国产精品999在线| 亚洲男人的天堂狠狠| 国产精品免费一区二区三区在线| 免费一级毛片在线播放高清视频| 亚洲狠狠婷婷综合久久图片| 午夜福利视频1000在线观看| 少妇裸体淫交视频免费看高清| 亚洲精品亚洲一区二区| 嫁个100分男人电影在线观看| 欧美绝顶高潮抽搐喷水| 麻豆国产97在线/欧美| 亚洲国产精品久久男人天堂| 午夜影院日韩av| 日韩有码中文字幕| 成人特级黄色片久久久久久久| 亚洲精品影视一区二区三区av| 久久精品亚洲精品国产色婷小说| 亚洲精品国产精品久久久不卡| 国产又黄又爽又无遮挡在线| 亚洲片人在线观看| 99久久综合精品五月天人人| 一级a爱片免费观看的视频| 欧美极品一区二区三区四区| 欧美午夜高清在线| a级一级毛片免费在线观看| 超碰av人人做人人爽久久 | 中文字幕人成人乱码亚洲影| 黑人欧美特级aaaaaa片| 舔av片在线| 国产精品国产高清国产av| 国产精品久久久久久人妻精品电影| 一级黄色大片毛片| 女警被强在线播放| 国产一区二区在线观看日韩 | 少妇丰满av| 最近最新中文字幕大全电影3| 成年女人永久免费观看视频| 少妇熟女aⅴ在线视频| 一本久久中文字幕| 国产精品影院久久| 日本三级黄在线观看| 免费高清视频大片| 又黄又粗又硬又大视频| 午夜免费激情av| 97碰自拍视频| 欧洲精品卡2卡3卡4卡5卡区| 亚洲内射少妇av| 特级一级黄色大片| 18禁裸乳无遮挡免费网站照片| 久久久久久人人人人人| 欧美一级毛片孕妇| 国产成年人精品一区二区| 国产aⅴ精品一区二区三区波| 国产真实伦视频高清在线观看 | 欧美色欧美亚洲另类二区| 精品国产超薄肉色丝袜足j| 中亚洲国语对白在线视频| 成人高潮视频无遮挡免费网站| 噜噜噜噜噜久久久久久91| 真人做人爱边吃奶动态| 麻豆国产97在线/欧美| 夜夜躁狠狠躁天天躁| 国产精品,欧美在线| 日韩欧美国产在线观看| 一a级毛片在线观看| 中出人妻视频一区二区| 精品久久久久久,| 最新在线观看一区二区三区| 婷婷精品国产亚洲av在线| 一进一出抽搐动态| 一区二区三区高清视频在线| tocl精华| 日韩中文字幕欧美一区二区| 亚洲欧美日韩卡通动漫| 在线十欧美十亚洲十日本专区| 99国产综合亚洲精品| 色综合婷婷激情| 亚洲国产欧美人成| 岛国在线观看网站| 午夜精品久久久久久毛片777| 亚洲欧美日韩无卡精品| 高清在线国产一区| 亚洲av电影在线进入| 国产精品1区2区在线观看.| 日韩亚洲欧美综合| 一级a爱片免费观看的视频| 国产高清三级在线| 免费大片18禁| 精品一区二区三区视频在线观看免费| 色视频www国产| 久久中文看片网| 人人妻人人看人人澡| 91久久精品国产一区二区成人 | 亚洲五月天丁香| 国产乱人视频| 国产成人啪精品午夜网站| 女生性感内裤真人,穿戴方法视频| 欧美日韩瑟瑟在线播放| 别揉我奶头~嗯~啊~动态视频| 欧美在线黄色| 国产欧美日韩精品一区二区| 国产精品久久久久久人妻精品电影| 99久久久亚洲精品蜜臀av| 亚洲av不卡在线观看| 国产国拍精品亚洲av在线观看 | 亚洲av日韩精品久久久久久密| 亚洲色图av天堂| 一进一出抽搐动态| 黄色女人牲交| 欧美日本视频| 俺也久久电影网| 午夜福利18| 国产成人av激情在线播放| 搡老妇女老女人老熟妇| 1000部很黄的大片| 精品99又大又爽又粗少妇毛片 | 国产精品久久久人人做人人爽| 人人妻人人看人人澡| 18美女黄网站色大片免费观看| 亚洲精品在线观看二区| 欧美大码av| 欧美一区二区亚洲| 欧美日韩黄片免| 老司机福利观看| 久久久久久国产a免费观看| h日本视频在线播放| 午夜激情欧美在线| 精品国产美女av久久久久小说| 久久久久久久久中文| 性色avwww在线观看| 久久人人精品亚洲av| 亚洲在线观看片| 性色av乱码一区二区三区2| 1000部很黄的大片| 亚洲国产中文字幕在线视频| 国产精品日韩av在线免费观看| 国产精品99久久99久久久不卡| 国内精品久久久久久久电影| 97超视频在线观看视频| 伊人久久精品亚洲午夜| 日韩有码中文字幕| 丰满的人妻完整版| 久久精品亚洲精品国产色婷小说| 国产精品嫩草影院av在线观看 | 免费无遮挡裸体视频| 国产成人av教育| 色吧在线观看| 天天一区二区日本电影三级| 操出白浆在线播放| 亚洲激情在线av| 一个人看视频在线观看www免费 | 亚洲成人中文字幕在线播放| av专区在线播放| 国模一区二区三区四区视频| 日本与韩国留学比较| 日韩大尺度精品在线看网址| 99久久无色码亚洲精品果冻| 久久欧美精品欧美久久欧美| 国产色爽女视频免费观看| 两个人视频免费观看高清| 成人国产一区最新在线观看| 黄色丝袜av网址大全| 观看美女的网站| 两个人的视频大全免费| svipshipincom国产片| 国产一区二区三区在线臀色熟女| 亚洲精品在线美女| 国产v大片淫在线免费观看| 国产精品日韩av在线免费观看| 九九在线视频观看精品| 亚洲欧美精品综合久久99| 综合色av麻豆| 午夜福利在线观看免费完整高清在 | 日本撒尿小便嘘嘘汇集6| 99热只有精品国产| 欧美不卡视频在线免费观看| 欧美色欧美亚洲另类二区| 国产成年人精品一区二区| 精品福利观看|