• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    詞干單元和卷積神經(jīng)網(wǎng)絡(luò)的哈薩克短文本分類

    2020-09-07 01:49:42沙爾旦爾帕爾哈提米吉提阿不里米提艾斯卡爾艾木都拉
    小型微型計算機系統(tǒng) 2020年8期
    關(guān)鍵詞:詞干哈薩克語詞素

    沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉

    (新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)E-mail:sardar312@126.com

    1 引 言

    近年來,文本分類問題在許多實際應(yīng)用中得到了廣泛的研究和解決.尤其是隨著自然語言處理(NLP)和文本挖掘方面的技術(shù)突破,越來越多的研究人員開始對開發(fā)依賴于文本分類方法的應(yīng)用程序感興趣.文本分類是NLP領(lǐng)域的一個重要應(yīng)用.自動文本分類是根據(jù)文本的內(nèi)容或主題為文本自動分配一個或多個適當類別的方法[1-3].自動文本分類在情感分析[4],實時事件檢測[5],查找熱門話題[6]等信息檢索領(lǐng)域被廣泛應(yīng)用.文本分類中的一個關(guān)鍵問題是如何在計算機上有效地表示文本中的特征.

    哈薩克語是一種派生類語言.哈薩克語的句子由自然分開的詞組成.詞是由后綴所附的詞干構(gòu)成,因此,哈薩克語中構(gòu)詞和詞性變化較復(fù)雜,詞匯量巨大.其中,詞干是具有實際意義的詞匯單元,詞綴提供語義和語法功能,因此,通過對哈薩克文本的詞素切分以及詞干提取等預(yù)處理操作來我們可以保留有意義的和有效的文本特征,并能夠有效地降低特征的反復(fù)率和維數(shù).因此,詞干提取是哈薩克文本分類任務(wù)中重要的基礎(chǔ)性工作,如以下例子所示:

    (原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan jENespEn votte.

    (詞素切分后)jares+tajares+neN soNGejaresnomer+en al+ep,taNdawjares+tan jENespEn vot+te.

    以上句子中文意思是:在比賽中取得比賽的[比賽]終局分數(shù),勝利地通過了選賽.在中文中大括號[]里的‘比賽’這個詞一般不會出現(xiàn)的,但在以上哈薩克句子中對應(yīng)于這個詞的第四個詞jares是必不可少的.

    以上哈薩克句子中有10個詞,其中四個詞的詞干(被加粗部分)都是/jares/(比賽),將以上句子經(jīng)過詞素切分和詞干提取后,四個詞的主要意思能夠由一個詞干來表示,并且可以獲取四個詞特征,因此大幅降低特征的維數(shù),如表1所示.

    表1 哈薩克詞語變體

    哈薩克語形態(tài)結(jié)構(gòu)上的多種變化以及缺乏的語言資源是哈薩克語NLP中的主要問題之一,從互聯(lián)網(wǎng)上搜集的文本數(shù)據(jù)具有帶噪聲的拼寫以及不確定的編碼等特點,因此,對帶噪聲的哈薩克短文本可靠地進行提取和分類變得一種富有挑戰(zhàn)的任務(wù).然而,帶噪聲短文本數(shù)據(jù)的提取與分類是哈薩克語NLP必然的重要一環(huán).

    目前,部分學(xué)者提出了一些哈薩克文本詞干提取[7,8]和分類方法[7,8,10-12].文獻[7]用詞干和附加成分表對訓(xùn)練文本的詞語進行分割,并結(jié)合哈薩克語詞法規(guī)則來提取詞干.文獻[8]用詞法分析和雙向全切分相結(jié)合的方法對哈薩克文本進行詞綴切分和詞干提取,并與預(yù)先準備好的詞干表進行匹配,來試圖提高詞干提取的效率.以往的這些哈薩克文本詞干提取有關(guān)的研究大多基于簡單的詞法分析和一些人工收集的規(guī)則,因此存在歧義,尤其是對于短文本而言.哈薩克語詞干提取任務(wù)中一個特殊的問題是語音的和諧與不和諧,這個問題導(dǎo)致詞形的變化,這需要句子層面的語境分析來解決.我們提出的基于句子或較長上下文的詞素切分和詞干提取方法[9]能夠為整個哈薩克句子提供形態(tài)分析功能,能夠準確地預(yù)測到帶噪聲的哈薩克文本中的詞干與詞條,并且可以有效地降低文本中的歧義.

    文獻[11]用SVM分類器在包括五個類別的460篇哈薩克文本的語料庫上進行文本分類實驗,并得到87.6%的分類準確率,文中沒有提到被用到的文本表示和特征選擇方法.文獻[7]對詞頻和語言信息進行簡單的統(tǒng)計來選擇特征,在包括五個類別的296篇哈薩克文本的語料庫上進行文本分類實驗,該實驗把KNN選作為分類器,并得到84.98%的平均分類準確率.文獻[10]用向量空間文本表示模型提取哈薩克文本的特征,用文本頻率比值法(DFR-Document Frequency Ratio)進行特征選擇,以SVM和改進的KNN為分類器,在包括五個類別的200篇哈薩克文本的語料庫上進行文本分類實驗,并得到82.2%的分類準確率.文獻[12]用專屬于維吾爾語或者哈薩克語文字的特殊字符、維吾爾語和哈薩克語字母組合方式和詞綴的差異以及這兩種語言發(fā)音習(xí)慣的不同而產(chǎn)生的字母上的差異等啟發(fā)式特征對單詞數(shù)不超過14的維吾爾語和哈薩克語短文本進行文本語種分類實驗,并得到95.1%的精確率,該文沒有對語料庫文本內(nèi)容所屬的類別進行分類.文獻[8]用DFR方法對原始特征空間進行降維,把SVM和KNN分類器相結(jié)合,先用SVM確定每個類別的支持向量,然后用歐氏距離計算測試樣本和支持向量之間的距離,以此在包括八個類別的1400篇哈薩克文本的語料庫上進行文本分類實驗,并得到77.8%的平均分類精度,文中沒有提到文本特征表示所用的方法.在哈薩克文本分類中被使用的這些方法對詞的頻率進行簡單的統(tǒng)計,用傳統(tǒng)的特征表示方法(其中部分研究中用到的文本表示方法是未知的)來表示哈薩克文本特征以及對傳統(tǒng)的分類器做一些簡單的結(jié)合來實現(xiàn)分類器的改進.

    上述哈薩克文本分類方法是淺層的機器學(xué)習(xí),其中文本的語義含義不明確,忽略了文本較長的上下文信息,不能夠有效的捕獲詞語之間的語義關(guān)系,特征提取和選擇需要人工完成,分類準確率低.因此,哈薩克文本分類任務(wù)迫切需要一種有效特征提取和選擇的方法來提高其分類的效率.

    本文提出了基于詞干單元和word2vec_TFIDF以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)的哈薩克短文本分類方法.通過對齊的詞-詞素平行訓(xùn)練語料庫來訓(xùn)練統(tǒng)計模型,并從互聯(lián)網(wǎng)上收集的哈薩克短文本中高效地提取其詞干,用word2vec算法對詞干進行向量化,并使用詞頻-逆文檔頻率(TFIDF)算法對詞干向量進行加權(quán)處理,以此提取包含文本上下文之間語義關(guān)系的有效文本特征后,利用CNN作為特征選擇和文本分類算法,進行文本分類實驗.

    2 哈薩克文本表示和分類方法

    隨著神經(jīng)網(wǎng)絡(luò)的興起,許多適合自然語言的神經(jīng)網(wǎng)絡(luò)模型被提出[13,14].Bengio等人[13]2003年提出了一種基于神經(jīng)網(wǎng)絡(luò)的語言模型構(gòu)建方法.在此基礎(chǔ)上,Miklov等人[14]2013年提出了word2vec算法,并通過文本上下文信息來描述一個單詞的表示,得到了可以表示單詞之間的語義關(guān)系的低維的密集向量.

    2.1 哈薩克文本處理

    由廣泛的跨語言和跨文化交流所引起的書寫形式上的不確定性在給哈薩克文本帶來噪聲的同時,也導(dǎo)致新詞、新概念和新表達的持續(xù)出現(xiàn).這些新詞大多是借用新進的外來詞(OOV)或詞干,以及由于拼寫習(xí)慣的不同和方言的變形而引起的噪音整合而成.哈薩克語書寫系統(tǒng)在歷史上的變化是引起不確定的書寫形式的另外一個重要原因之一.現(xiàn)代社會的哈薩克語書寫形式也被這些書寫系統(tǒng)所影響,雖然在官方媒體出現(xiàn)的可能性不大,但是廣泛地在網(wǎng)上論壇和聊天工具中存在.

    我們實驗室開發(fā)的多語言詞素切分和詞干提取工具[16,17]將哈薩克語單詞分割成詞干和詞綴等詞匯單元.該工具根據(jù)哈薩克語的詞素與語音規(guī)則,從對齊的哈薩克詞-詞素平行句子中能夠自動地學(xué)習(xí)哈薩克語詞語的各種表面形式與聲學(xué)變化.哈薩克語具有詞素邊界上的音素根據(jù)語音和諧規(guī)則改變其表面形式的特點.在正確地表達詞語的發(fā)音時,文本中可以明顯地觀察到語音和諧.一個候選詞送入給該詞素切分器[16,17]的搜索模塊之后,通過根據(jù)哈薩克語的詞素規(guī)則準備的詞干和詞綴列表以及語音和諧與不和諧等語音規(guī)則來迭代地運用匹配方法對候選詞進行切分,該候選詞被逐漸切分,分別與詞干、詞綴列表以及詞的各種表面形式匹配,并導(dǎo)出所有可能的詞素切分形式.然后,這些切分結(jié)果送入給統(tǒng)計模塊,并計算所有切分結(jié)果的概率之后,從前N個最好的切分結(jié)果中選擇最佳詞素.該工具為有效地提取哈薩克語文本中的詞干提供了可靠的依據(jù),有效地改進了哈薩克短文本分類任務(wù),詞素切分流程如圖1所示.

    圖1 詞素切分流程

    本文中用該詞素切分工具[16,17]在5000個哈薩克詞-詞素平行訓(xùn)練句子上訓(xùn)練統(tǒng)計模型(其中80%的部分用于訓(xùn)練,剩余部分用于測試),并進行詞素切分與詞干提取實驗,最終得到95.87%的詞干提取準確率,如圖2所示.這是通過切分工具所得到的與人工切分的詞素完全匹配的結(jié)果.

    圖2 詞素切分結(jié)果

    通常,網(wǎng)上收集到的文本語料庫中不同文本所包含的單詞數(shù)是不一樣的.因此,為使語料庫中的文本詞數(shù)相等,以便生成隨后輸入到CNN網(wǎng)絡(luò)中的文本矩陣,我們對文本集執(zhí)行填充操作來修改文本中的詞數(shù).本文對語料庫每個原始文本中的單詞數(shù)量進行了統(tǒng)計,如圖3所示(圖3中,橫軸表示文本中的單詞數(shù)量,縱軸表示不同單詞數(shù)量對應(yīng)的文本數(shù)量).

    圖3 實驗文本詞長統(tǒng)計

    從圖3可以看出,文本集中的文本大概包含60到120個詞左右,其中詞數(shù)約在100個左右的文本數(shù)量最多.所以,本實驗中輸入給CNN的所有文本的標準詞數(shù)選為100.詞數(shù)不到100的文本,則后向補零處理.同理,從文本集中提取詞干,并形成詞干序列文本集之后,選擇了每篇文本中的前100個詞干為CNN的輸入,如果詞干數(shù)不到100,則后向補零處理,以生成CNN所需的輸入矩陣.

    2.2 基于word2vec_TFIDF的文本表示

    2.2.1 詞向量學(xué)習(xí)方法

    詞(詞干)嵌入是通過word2vec技術(shù)從訓(xùn)練語料庫中生成的以詞出現(xiàn)的上下文為基的實數(shù)向量[18].Word2vec訓(xùn)練所生成的詞干向量可以用作許多自然語言處理任務(wù).兩個詞干之間的語義相似度可以通過計算這兩個詞干的詞干向量之間的距離來容易地被判斷.Word2vec中有兩種主要的學(xué)習(xí)算法:CBOW(連續(xù)詞袋)算法[19]和Skip-gram算法[20].

    CBOW是根據(jù)上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c來預(yù)測當前的詞干st出現(xiàn)的概率p(st|st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c).CBOW模型通過c個上下文詞干來表示當前的詞干st,c是預(yù)選窗口的大小,用CBOW算法對文本進行訓(xùn)練后得到詞干st的詞干向量,如圖4所示.本文使用CBOW算法進行詞干向量的訓(xùn)練.

    圖4 CBOW模型結(jié)構(gòu)

    與之相反,Skip-gram 是根據(jù)當前詞干st來預(yù)測上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c的出現(xiàn)概率p(st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c|st).

    我們通過計算采用word2vec工具所形成的詞干向量之間的余弦距離來能夠判斷詞干之間的語義相似度.詞干向量之間的余弦距離值越大,則詞干的語義相似度越高;反之,語義相似度就越低,如表2所示.

    表2 詞干向量語義相似度

    從表2可以看出,通過詞干向量之間余弦值的計算,獲得的與哈薩克詞干vaqxa(人民幣)和 tor(網(wǎng)絡(luò))語義相似度最高的五個詞干.

    2.2.2TFIDF權(quán)重

    對于包M含個文本的集合D,其中Di(i=1,2,…,M),通過CBOW模型得到詞干向量.對于文本中的每個詞干,通過TF-IDF算法計算其權(quán)重值tfidf(t,D),它是指詞干t在文本Di(i=1,2,…,M)中的權(quán)重值.TF-IDF考慮單個文本中的詞干頻率tf和整個文本集的詞干頻率idf.TF-IDF的計算公式如公式(1)所示:

    (1)

    其中,tf(t,Di)是詞干t在第i個文本中的出現(xiàn)頻率,分母是歸一化因子.idf(f)是詞干t的逆文檔頻率,計算公式如公式(2)所示:

    (2)

    其中,M是訓(xùn)練集中文本總數(shù),nt是詞干t在訓(xùn)練集中的出現(xiàn)頻率.

    每個詞干的詞干向量被tfidf值加權(quán)來表示一個文本,如公式(3)所示:

    (3)

    vec(Di)指的是每個文本Di的詞干向量,wt表示詞干t的N維詞干向量,tfidf(t,Di)表示詞干t在文本Di中的TF-IDF權(quán)重值.

    2.3 卷積神經(jīng)網(wǎng)絡(luò)框架

    CNN是Lecun等人[21]提出的一種深度學(xué)習(xí)模型,Kim[22]首次把CNN用于文本分類.CNN可以在詞干向量的基礎(chǔ)上自動提取和學(xué)習(xí)句子的特征,從而減少了對人工選擇特征的依賴性,并優(yōu)化了特征選擇的效果.CNN在結(jié)構(gòu)上的主要特點是卷積層和最大池化層的交替累積.本文中用的CNN模型由4個不同的層組成,分別為:輸入層、兩個卷積層、兩個池化層和全連接層,如圖5所示.

    圖5 CNN框架

    1)輸入層.CNN的第一層是輸入層,其中輸入?yún)?shù)是文本預(yù)訓(xùn)練后得到的詞干向量.輸入矩陣的形式是(n,s,k),其中n是文本的數(shù)目,s是固定的文本長度(CNN輸入文本的長度需要相同),k是詞干向量的維數(shù).v(wi)∈Rk表示對應(yīng)于第i詞干wi的k維子詞干向量.在這種情況下,輸入文本可以表示為公式(4).其中,?是級聯(lián)運算符號.

    t1:s=v(w1)?v(w2)?…?v(ws)

    (4)

    2)卷積層.卷積層是網(wǎng)絡(luò)的核心部分.該層通過卷積核來對網(wǎng)絡(luò)前一層的特征圖進行卷積運算,以此生成新特征.卷積運算采用卷積矩陣窗口w∈Rk×h來生成一個新的特征圖.其中,k是詞干向量的維數(shù),h是窗口內(nèi)詞干的數(shù)目.每個新生成的特征值可以從公式(5)中獲得.

    ct=f(w·Wi:i+h-1+b)

    (5)

    在公式(5)中,ci是由一個窗口詞干wi:i+h-1所生成的一個新特征,b是偏置項,算子“·”是指卷積運算,f()是激活函數(shù).當卷積矩陣窗口移動一步時,所有輸入矩陣由窗口(w1:h,w2:h,…,ws-h+1:s)卷積,并生成相應(yīng)的特征映射c=(c1,c2,…,cs-h+1).

    3)池化層.池化層的輸入是在卷積層中生成的特征矩陣.池化層的功能是對由卷積層所生成的特征圖進行采樣.本文使用最大池化方法,因為它能夠使模型提取最突出的特征,如公式(6)所示.在公式(6)中,ci表示在卷積層中產(chǎn)生的特征圖,m是特征圖的數(shù)目.

    cmax=max(ci) 0

    (6)

    4)全連接層.CNN的最后一層是全連接層,它將所有的特征和輸出值連接到分類器.該層使用Softmax分類器對來自池化層的特征向量進行分類操作,并輸出最后的分類結(jié)果.

    對于文本集Di(i=1,2,…,N),利用CBOW模型對文本進行訓(xùn)練后得到文本向量vec(Di).然后,對所有得到的文本向量進行修改,以形成卷積神經(jīng)網(wǎng)絡(luò)處理所需的矩陣.CNN的輸入文本可以表示為公式(7).其中,T1:n表示所有的輸入文本,?是級聯(lián)運算符.

    T1:n=vec(D1)+vec(D2)+…vec(Dn)

    (7)

    3 實驗結(jié)果及分析

    因為哈薩克文本分類處于初級研究階段,沒有公開的哈薩克文本語料庫,所以構(gòu)建哈薩克文本語料庫需要從網(wǎng)上下載文本,才能進進行實驗.

    3.1 實驗語料庫

    本文通過爬蟲官方哈薩克文網(wǎng)(1)kazakh.people.com.cn,從網(wǎng)上下載哈薩克文本來建立實驗語料庫.該語料庫包含旅游、教育、科技、文華、經(jīng)濟、法律、娛樂和體育等8個類別,每個類別有900篇文本,共7200篇文本.本文用75%文本作為訓(xùn)練集,10%文本作為驗證集,其余部分作為測試集.

    哈薩克文本因受其它語言的影響以及個性化等原因,從網(wǎng)絡(luò)上下載的文本容易出現(xiàn)拼寫錯誤.所以我們編寫了哈薩克文字拼寫檢查程序.該程序是通過對哈薩克語音節(jié)的結(jié)構(gòu)形式和規(guī)則進行分析,從而能夠找到存在拼寫錯誤的大部分哈薩克詞匯和不規(guī)則的外來詞,這樣我們便能更正給定詞匯中的拼寫錯誤.拼寫檢查程序流程如圖6所示.

    圖6 哈薩克文本拼寫檢查程序流程

    盡管Unicode是默認的編碼方案,但不同的操作系統(tǒng)和組織仍在使用不同的編碼.因此,我們建立一個代碼映射表,將語料庫中的文本集從各種不同的編碼形式轉(zhuǎn)換成統(tǒng)一的拉丁文字母編碼形式,然后用詞干提取工具從所有的文本中提取詞干,以構(gòu)建詞干序列文本語料庫.基于統(tǒng)計模型的哈薩克文本詞干提取方法可以有效地減少文本特征空間的維數(shù),其中,除掉停用詞后(停用詞數(shù)為1085),詞干詞匯的數(shù)量明顯地下降到詞詞匯數(shù)量的30%左右,如表3所示.

    表3 詞干提取引起的特征空間維數(shù)的減少

    從語料庫的文本集中提取詞干后,通過CBOW算法對此進行訓(xùn)練,生成詞干向量;同時,對于語料庫的文本沒有進行詞素切分和詞干提取的情況下,通過CBOW算法直接在詞序列構(gòu)成的原始文本上進行訓(xùn)練,以此生成詞向量.在word2vec訓(xùn)練時,詞與詞干嵌入維度和訓(xùn)練窗口的尺寸都設(shè)置為默認值,即,分別是100和5,迭代次數(shù)設(shè)置為5,batch_word設(shè)置為10000.取得詞與詞干向量之后,用TFIDF算法分別對所取得的詞與詞干向量進行加權(quán).

    3.2 評價指標

    常用于評價文本分類器性能的指標有準確率、精確率、召回率和F1分數(shù)等,對于某一個類別Ci的分類結(jié)果而言,如果正確分為該類的文本數(shù)目是a,錯誤劃歸為該類的文本數(shù)目是b,將該類文本錯誤劃歸為其他類的文本數(shù)目是c,屬于其他類的文本正確分為所屬類的文本數(shù)為d,則可以得到這些指標的計算公式如下:

    (8)

    (9)

    (10)

    (11)

    本文使用準確率和宏F1分數(shù)評測了所提出方法的性能.宏F1分數(shù)是一個全局性指標,它同時兼顧了分類模型的精確率和召回率.計算宏F1分數(shù)時,先要計算每個類別的F1分數(shù),然后計算它們的算術(shù)平均值作為宏F1分數(shù).

    3.3 實驗結(jié)果及分析

    本文實驗使用Pytorch在具有GPU支持的Linux CentOS-7操作系統(tǒng)上實現(xiàn)CNN框架.本文將通過詞素切分工具對文本集進行切分,并提取其詞干之后,通過word2vec及TFIDF算法對詞干進行向量化和加權(quán),用KNN[7,8,10]、NB、SVM[7,8,11]和CNN等方法進行了比較實驗.其中,在KNN、NB、SVM等傳統(tǒng)方法中,通過x2特征選擇方法對文本的特征維數(shù)進行降維,并把x2值最大的前100到2000之間的詞干項選作為新的特征,以此分別進行了實驗,如表4所示.

    表4 基于傳統(tǒng)方法的分類結(jié)果

    基于CNN的方法中,本文用word2vec算法從文本集中分別生成100×100的詞與詞干兩種向量,并用TFIDF算法對此進行加權(quán)之后,輸入給CNN,做了基于詞與詞干的分類實驗.本文實驗了包括2個、4個和6個卷積層的多種CNN模型結(jié)構(gòu).從這些實驗中發(fā)現(xiàn),對本文的文本分類任務(wù)而言,最好的CNN模型結(jié)構(gòu)由兩組卷積層組成,每個卷積層后面跟著一個最大池化層.本文通過反復(fù)實驗來確定在每個卷積層上設(shè)計尺寸為5×100的128個卷積核的效果最好.在第二個最大池化層之后,用一個dropout策略來避免發(fā)生過擬合現(xiàn)象,其dropout值設(shè)置為0.5.然后,附加一個長度為64的全連接層,后面跟著第二個dropout策略,最后的全連接層有八個節(jié)點,代表八個類別,每個節(jié)點的輸出通過 softmax 函數(shù)后可以歸一化,softmax 輸出值可以理解為這八個類別的概率分布,如圖5所示.CNN通過迭代計算獲得權(quán)重,經(jīng)過多次迭代后得到理想的參數(shù),本次實驗中,本文做了150次迭代運算,實驗結(jié)果如表5所示.

    表5 基于CNN的分類結(jié)果

    從表4和表5可以看出,基于KNN、NB和SVM的分類準確率最高時分別達85.49%、92.07%和93.64%.基于CNN的實驗中,不論是基于詞單元還是基于詞干單元,其分類準確率都隨著迭代次數(shù)的增加而提高,并分別達到93.71%和95.39%后,大概收斂于93.4%和95.2%左右.本文提出的方法與傳統(tǒng)模型相比,分類準確率分別高出9.9%、3.32%和1.75%.基于詞干的分類準確率比基于詞的分類準確率高出1.68%,證明對于粘著性語言的文本分類任務(wù)而言,基于詞干的分類方法能夠提高其分類的效果.

    為了驗證本文中利用的word2vec_TFIDF融合特征表示方法在文本分類任務(wù)中的性能,本文在沒有對詞與詞干進行預(yù)訓(xùn)練和用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練情況下,將CNN作為分類器,分別在詞單元和詞干單元上進行了文本分類實驗,并與本文中提出的方法分類結(jié)果進行了比較.在CNN+rand方法中,CNN模型結(jié)構(gòu)保持不變,但沒有對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,而分別直接輸入給CNN,輸入的分布式特征將按高斯分布隨機初始化,然后在訓(xùn)練過程中被修改的;在CNN+word2vec方法中,CNN模型結(jié)構(gòu)還是保持不變,但將用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,并分別把訓(xùn)練所得到的詞與詞干向量輸入給CNN.本次實驗中,為了公平比較,本文用了150次迭代運算,比較實驗結(jié)果如表6所示.

    表6 基于不同文本表示方法的分類結(jié)果

    從表6可以看出,基于word2vec_TFIDF融合特征的詞與詞干單元文本表示方法所得到的分類準確率分別比基于沒有預(yù)訓(xùn)練的和基于word2vec預(yù)訓(xùn)練的詞與詞干單元分類準確率分別高出3.87%、4.16%和0.52%、0.44%.基于詞干和word2vec_TFIDF融合特征的分類損失值明顯地小于其它兩種方法的分類損失值.由此可知,基于word2vec_TFIDF的融合文本表示方法能夠在考慮詞頻重要度的基礎(chǔ)上有效地獲取文本上下文之間的語義信息,以提高文本的分類準確率.

    4 總 結(jié)

    文本分類已經(jīng)成為處理海量信息的主要手段,特別是對具有噪聲數(shù)據(jù)的低資源語言而言,可靠的文本分類方法至關(guān)重要.哈薩克語是一種粘著性派生類語言,詞是由多個后綴所附的詞干構(gòu)成,后綴提供語義與句法功能,這一性質(zhì)在理論上產(chǎn)生了無限的詞匯量.所以,詞素切分與詞干提取是哈薩克語NLP的必要途徑.Word2vec詞嵌入技術(shù)可以將語言單元映射成基于上下文的順序向量空間.從上下文信息中獲取和預(yù)測OOV是一種有效的方法.本文討論了一種基于詞素與語音規(guī)則的哈薩克文本詞干提取方法,以及一種基于word2vec_TFIDF融合特征和CNN的文本分類方法.本文中,哈薩克文本分類任務(wù)分別用不同的特征表示方法在不同的詞匯單元上實現(xiàn).實驗結(jié)果顯示,本文提出的基于詞干單元和融合特征表示以及卷積神經(jīng)網(wǎng)絡(luò)的方法可以獲得95.39%的分類準確率,與基于其它詞匯單元和文本表示的文本分類方法相比,本文的方法中分類性能顯著提高.可見,對于哈薩克語等派生類粘著性語言的自然語言處理任務(wù)而言,有效的詞素切分和詞干提取方法能夠提高其效率.

    猜你喜歡
    詞干哈薩克語詞素
    論柯爾克孜語詞干提取方法
    維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
    詞素配價理論與應(yīng)用
    亞太教育(2018年5期)2018-12-01 04:58:23
    從詞素來源看現(xiàn)代漢語詞素同一性問題
    辭書研究(2017年3期)2017-05-22 14:04:16
    哈薩克語附加成分-A
    詞素溶合與溶合詞素
    融合多策略的維吾爾語詞干提取方法
    基于維吾爾語詞干詞綴粒度的漢維機器翻譯
    哈薩克語比喻及其文化特征
    語言與翻譯(2014年2期)2014-07-12 15:49:28
    “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
    語言與翻譯(2014年2期)2014-07-12 15:49:13
    精品一区二区三区视频在线| 国产中年淑女户外野战色| 五月伊人婷婷丁香| 一本精品99久久精品77| 日本a在线网址| 大香蕉久久网| 欧美性感艳星| 尾随美女入室| 校园春色视频在线观看| 99久久精品热视频| 内射极品少妇av片p| 一级av片app| 日韩成人av中文字幕在线观看 | av在线观看视频网站免费| 中文字幕人妻熟人妻熟丝袜美| 欧美一区二区亚洲| 大型黄色视频在线免费观看| 久久精品91蜜桃| 男女那种视频在线观看| 国产三级中文精品| 日韩大尺度精品在线看网址| 精品一区二区三区视频在线| 长腿黑丝高跟| 亚洲自拍偷在线| 精品不卡国产一区二区三区| 亚洲专区国产一区二区| 99热全是精品| 女人十人毛片免费观看3o分钟| 国内揄拍国产精品人妻在线| 久久亚洲精品不卡| 国产一区二区在线观看日韩| 熟妇人妻久久中文字幕3abv| 99热全是精品| 日韩av在线大香蕉| 99热网站在线观看| 不卡一级毛片| 亚洲国产精品国产精品| 日本黄色片子视频| 97在线视频观看| 五月伊人婷婷丁香| 国产精品久久久久久久电影| 精品99又大又爽又粗少妇毛片| 亚洲av第一区精品v没综合| 久久亚洲精品不卡| 亚洲精品一区av在线观看| 亚洲一区二区三区色噜噜| 婷婷精品国产亚洲av| 欧美+日韩+精品| 成人精品一区二区免费| 国产高清三级在线| 国产69精品久久久久777片| 中文字幕精品亚洲无线码一区| 99riav亚洲国产免费| 精品久久久久久久末码| 女生性感内裤真人,穿戴方法视频| 欧美日韩在线观看h| 成人毛片a级毛片在线播放| 国产探花极品一区二区| 日日摸夜夜添夜夜添小说| 99久久成人亚洲精品观看| 亚洲四区av| 亚洲av第一区精品v没综合| 18禁在线播放成人免费| 亚洲av美国av| ponron亚洲| 赤兔流量卡办理| 欧美国产日韩亚洲一区| 少妇人妻精品综合一区二区 | 国产伦精品一区二区三区视频9| 永久网站在线| 欧美激情久久久久久爽电影| 在线播放无遮挡| 天堂网av新在线| 老司机福利观看| 国产色爽女视频免费观看| 热99re8久久精品国产| 久久天躁狠狠躁夜夜2o2o| 国产精品精品国产色婷婷| 精品久久国产蜜桃| 99热网站在线观看| 久久国产乱子免费精品| 国产精品综合久久久久久久免费| 免费av不卡在线播放| 国产亚洲精品综合一区在线观看| 国产又黄又爽又无遮挡在线| 桃色一区二区三区在线观看| 一本一本综合久久| 免费搜索国产男女视频| 久久综合国产亚洲精品| 国产成年人精品一区二区| 美女免费视频网站| 日韩一本色道免费dvd| 中文亚洲av片在线观看爽| 尾随美女入室| 日韩大尺度精品在线看网址| 日韩欧美国产在线观看| 干丝袜人妻中文字幕| 亚洲国产色片| 中国美女看黄片| 一区二区三区免费毛片| 亚洲七黄色美女视频| 久久综合国产亚洲精品| 中文字幕熟女人妻在线| 亚洲18禁久久av| 亚洲综合色惰| 黄片wwwwww| 日韩欧美精品v在线| 久久久午夜欧美精品| 一区二区三区高清视频在线| 精品一区二区三区视频在线观看免费| 白带黄色成豆腐渣| 一级黄色大片毛片| 国产高清不卡午夜福利| 婷婷亚洲欧美| 国内精品一区二区在线观看| 午夜精品一区二区三区免费看| 国产精品永久免费网站| 日本一本二区三区精品| 久久久精品大字幕| 国产精品野战在线观看| 男人和女人高潮做爰伦理| 久久久久久久午夜电影| 久久国产乱子免费精品| 搡老岳熟女国产| 精品福利观看| 亚洲不卡免费看| 国产单亲对白刺激| 精品久久久久久久久久久久久| 欧美另类亚洲清纯唯美| 真人做人爱边吃奶动态| 精品少妇黑人巨大在线播放 | 97热精品久久久久久| 久久精品夜色国产| 亚洲人成网站在线播| 男女那种视频在线观看| 中出人妻视频一区二区| 免费黄网站久久成人精品| 亚洲三级黄色毛片| 日韩欧美国产在线观看| 成年免费大片在线观看| 在线免费观看不下载黄p国产| 精品人妻熟女av久视频| 成年女人毛片免费观看观看9| 亚洲不卡免费看| 99久久成人亚洲精品观看| 大又大粗又爽又黄少妇毛片口| 亚洲成av人片在线播放无| 伊人久久精品亚洲午夜| 中文字幕人妻熟人妻熟丝袜美| 国产乱人偷精品视频| 国产又黄又爽又无遮挡在线| 欧美一级a爱片免费观看看| 大又大粗又爽又黄少妇毛片口| av专区在线播放| 波多野结衣巨乳人妻| 99久久九九国产精品国产免费| 精品少妇黑人巨大在线播放 | 变态另类丝袜制服| 久久久久久国产a免费观看| 亚洲欧美日韩卡通动漫| 麻豆成人午夜福利视频| 国产91av在线免费观看| 成人一区二区视频在线观看| 国产伦精品一区二区三区四那| 三级经典国产精品| 又黄又爽又免费观看的视频| 日韩精品中文字幕看吧| 大香蕉久久网| 成人亚洲欧美一区二区av| 欧美人与善性xxx| 国产精品不卡视频一区二区| 国产亚洲精品久久久久久毛片| 12—13女人毛片做爰片一| 国产精品亚洲一级av第二区| 伦理电影大哥的女人| 久久久久免费精品人妻一区二区| 成人av在线播放网站| 国产v大片淫在线免费观看| 免费看日本二区| 内地一区二区视频在线| 久久人妻av系列| 成人永久免费在线观看视频| 麻豆久久精品国产亚洲av| 夜夜看夜夜爽夜夜摸| 国产高潮美女av| 亚洲av.av天堂| 俄罗斯特黄特色一大片| 亚洲欧美日韩高清专用| 美女被艹到高潮喷水动态| 欧美高清成人免费视频www| 亚洲国产高清在线一区二区三| avwww免费| 日韩欧美免费精品| 最近的中文字幕免费完整| 老师上课跳d突然被开到最大视频| 91狼人影院| 三级国产精品欧美在线观看| 九九久久精品国产亚洲av麻豆| 亚洲av一区综合| 嫩草影院精品99| 国产黄色小视频在线观看| 日韩av在线大香蕉| 禁无遮挡网站| 免费看日本二区| 麻豆精品久久久久久蜜桃| 久久久国产成人精品二区| 99热这里只有是精品50| 搡老熟女国产l中国老女人| 看黄色毛片网站| 国产精品亚洲美女久久久| 在线播放无遮挡| 久久精品国产亚洲av涩爱 | 在线播放国产精品三级| 99热这里只有精品一区| 亚洲一区高清亚洲精品| 99久国产av精品| 99久久精品一区二区三区| 久久精品国产亚洲av涩爱 | 两性午夜刺激爽爽歪歪视频在线观看| 亚洲精品一卡2卡三卡4卡5卡| 国产精品久久久久久亚洲av鲁大| 国产真实伦视频高清在线观看| 国产精品免费一区二区三区在线| 少妇的逼好多水| 日韩欧美免费精品| 欧美日韩综合久久久久久| 欧美激情国产日韩精品一区| 亚洲专区国产一区二区| 国产爱豆传媒在线观看| 男女下面进入的视频免费午夜| 亚州av有码| 欧美日韩乱码在线| 亚洲精品国产av成人精品 | 小说图片视频综合网站| 日韩精品青青久久久久久| 一级a爱片免费观看的视频| 国产成年人精品一区二区| 日韩欧美免费精品| 简卡轻食公司| 欧洲精品卡2卡3卡4卡5卡区| 欧美高清性xxxxhd video| 十八禁国产超污无遮挡网站| 成人美女网站在线观看视频| 中文资源天堂在线| 精品熟女少妇av免费看| 日本色播在线视频| 国产国拍精品亚洲av在线观看| 91久久精品国产一区二区成人| 亚洲国产精品成人久久小说 | 观看美女的网站| 亚洲欧美日韩高清专用| av女优亚洲男人天堂| 麻豆乱淫一区二区| 亚洲av不卡在线观看| 国产精品人妻久久久久久| 不卡视频在线观看欧美| 亚洲精品日韩在线中文字幕 | 男人舔奶头视频| 最新中文字幕久久久久| 少妇被粗大猛烈的视频| 欧美精品国产亚洲| 噜噜噜噜噜久久久久久91| 亚洲最大成人av| 亚洲av熟女| 国产人妻一区二区三区在| 亚洲不卡免费看| 人人妻人人看人人澡| 我的老师免费观看完整版| 草草在线视频免费看| 色综合站精品国产| 听说在线观看完整版免费高清| 99久国产av精品国产电影| 精品人妻熟女av久视频| 免费在线观看成人毛片| 内地一区二区视频在线| 久久久久久久久久成人| 国产精品1区2区在线观看.| 国产精品av视频在线免费观看| 日韩av在线大香蕉| 成年免费大片在线观看| 亚洲性久久影院| 亚洲av中文av极速乱| 国产精品免费一区二区三区在线| 九九热线精品视视频播放| 深爱激情五月婷婷| 亚洲欧美日韩卡通动漫| 精品一区二区三区视频在线| 一卡2卡三卡四卡精品乱码亚洲| 亚洲国产精品国产精品| 中文字幕av在线有码专区| 亚洲av五月六月丁香网| 深夜a级毛片| 国产一区二区在线av高清观看| 天天躁日日操中文字幕| 午夜精品在线福利| 麻豆av噜噜一区二区三区| 久久草成人影院| 乱码一卡2卡4卡精品| 国产探花极品一区二区| 黄色配什么色好看| 久久精品91蜜桃| 九九久久精品国产亚洲av麻豆| 日韩强制内射视频| 亚洲欧美日韩高清专用| 午夜精品国产一区二区电影 | 深夜a级毛片| 狠狠狠狠99中文字幕| 欧美丝袜亚洲另类| 欧美最黄视频在线播放免费| 国产爱豆传媒在线观看| 欧美一区二区国产精品久久精品| 国产人妻一区二区三区在| 天堂av国产一区二区熟女人妻| 精品熟女少妇av免费看| 无遮挡黄片免费观看| 欧美精品国产亚洲| 久久精品夜色国产| 联通29元200g的流量卡| 亚洲精品亚洲一区二区| 亚洲国产欧洲综合997久久,| 午夜福利在线观看吧| 一卡2卡三卡四卡精品乱码亚洲| 亚洲无线观看免费| 久久热精品热| 亚洲熟妇熟女久久| 久久午夜亚洲精品久久| 日本三级黄在线观看| 国产精品国产高清国产av| 美女免费视频网站| 性插视频无遮挡在线免费观看| 久久精品国产亚洲网站| 国产探花在线观看一区二区| 你懂的网址亚洲精品在线观看 | 身体一侧抽搐| 一a级毛片在线观看| 欧美一区二区国产精品久久精品| 久久久色成人| av在线老鸭窝| 全区人妻精品视频| 国产伦精品一区二区三区视频9| 成人午夜高清在线视频| 国产精品伦人一区二区| 三级经典国产精品| 99久久精品热视频| 99久久无色码亚洲精品果冻| 老司机午夜福利在线观看视频| 欧美人与善性xxx| 精品人妻视频免费看| 国产精品女同一区二区软件| 国产视频内射| 天堂影院成人在线观看| 欧美日韩综合久久久久久| 色噜噜av男人的天堂激情| 免费搜索国产男女视频| 午夜福利成人在线免费观看| 久久久久久久久久成人| 亚洲成人中文字幕在线播放| 俄罗斯特黄特色一大片| 麻豆成人午夜福利视频| 亚洲三级黄色毛片| 悠悠久久av| 女生性感内裤真人,穿戴方法视频| 亚洲人与动物交配视频| 可以在线观看毛片的网站| 久久热精品热| 淫秽高清视频在线观看| 午夜激情福利司机影院| 国产亚洲精品综合一区在线观看| av中文乱码字幕在线| 综合色丁香网| 亚洲欧美精品综合久久99| 亚洲av五月六月丁香网| 久久精品国产亚洲av香蕉五月| 性插视频无遮挡在线免费观看| 日本在线视频免费播放| 国产老妇女一区| 91麻豆精品激情在线观看国产| 最近2019中文字幕mv第一页| 久久久久国产网址| 久久精品国产亚洲av香蕉五月| 给我免费播放毛片高清在线观看| 亚洲欧美日韩高清在线视频| 日韩精品青青久久久久久| 欧美性猛交╳xxx乱大交人| 啦啦啦啦在线视频资源| 成年版毛片免费区| 九色成人免费人妻av| 99热这里只有是精品在线观看| 伊人久久精品亚洲午夜| 国产蜜桃级精品一区二区三区| 亚洲最大成人手机在线| 联通29元200g的流量卡| 亚洲自拍偷在线| 亚洲五月天丁香| 老师上课跳d突然被开到最大视频| 亚洲电影在线观看av| 国国产精品蜜臀av免费| 欧美3d第一页| 少妇高潮的动态图| 97超视频在线观看视频| 久久久久性生活片| 免费无遮挡裸体视频| 久久久久久久久大av| 国产精品嫩草影院av在线观看| 在线播放无遮挡| 99久久精品热视频| 禁无遮挡网站| 在线播放无遮挡| 丰满的人妻完整版| 欧美xxxx性猛交bbbb| 精品福利观看| 欧美一区二区亚洲| 国产高清三级在线| 国产三级中文精品| 免费搜索国产男女视频| 中文字幕久久专区| 五月伊人婷婷丁香| 久久天躁狠狠躁夜夜2o2o| 观看免费一级毛片| 午夜福利高清视频| 18禁在线播放成人免费| 中文字幕人妻熟人妻熟丝袜美| 亚洲中文字幕一区二区三区有码在线看| 久久人人爽人人爽人人片va| 欧美另类亚洲清纯唯美| 悠悠久久av| 免费搜索国产男女视频| 可以在线观看毛片的网站| 国产一区二区在线观看日韩| 久99久视频精品免费| 大香蕉久久网| 国产欧美日韩精品亚洲av| 亚洲av不卡在线观看| av在线观看视频网站免费| 国内精品宾馆在线| 国产精品99久久久久久久久| 国产精品免费一区二区三区在线| 国产69精品久久久久777片| 男人舔女人下体高潮全视频| 亚洲国产欧洲综合997久久,| 夜夜夜夜夜久久久久| 日韩精品中文字幕看吧| 国产精品人妻久久久影院| 啦啦啦啦在线视频资源| 悠悠久久av| 中国美女看黄片| 一个人看视频在线观看www免费| 日本 av在线| 国产麻豆成人av免费视频| 在线观看免费视频日本深夜| a级毛片a级免费在线| 午夜精品国产一区二区电影 | 中国国产av一级| 最近最新中文字幕大全电影3| av天堂中文字幕网| 国产一区二区激情短视频| 中文字幕免费在线视频6| 97碰自拍视频| 一级毛片我不卡| 熟妇人妻久久中文字幕3abv| 国产精品一区二区三区四区久久| 欧美高清性xxxxhd video| 色在线成人网| 熟女人妻精品中文字幕| 日韩精品中文字幕看吧| 国产一区二区亚洲精品在线观看| 高清毛片免费看| 最好的美女福利视频网| 男人和女人高潮做爰伦理| 在线观看免费视频日本深夜| 国产高清有码在线观看视频| 在线播放无遮挡| 国产欧美日韩精品亚洲av| 国产在视频线在精品| 2021天堂中文幕一二区在线观| 别揉我奶头~嗯~啊~动态视频| 夜夜看夜夜爽夜夜摸| 亚洲国产精品成人综合色| 在线播放无遮挡| 丰满乱子伦码专区| 亚洲在线观看片| 少妇丰满av| 干丝袜人妻中文字幕| 国产午夜福利久久久久久| 一边摸一边抽搐一进一小说| 日韩,欧美,国产一区二区三区 | 秋霞在线观看毛片| 小说图片视频综合网站| 日本爱情动作片www.在线观看 | 国产精品国产三级国产av玫瑰| 成人鲁丝片一二三区免费| 人妻夜夜爽99麻豆av| 18禁在线无遮挡免费观看视频 | 国产黄a三级三级三级人| 亚洲不卡免费看| 亚洲成人中文字幕在线播放| 人妻少妇偷人精品九色| .国产精品久久| 精品免费久久久久久久清纯| 久久久久久久久中文| 十八禁网站免费在线| 最近最新中文字幕大全电影3| 热99在线观看视频| 91精品国产九色| 男人舔奶头视频| 亚洲av免费高清在线观看| 国产白丝娇喘喷水9色精品| a级毛片免费高清观看在线播放| 国产av一区在线观看免费| 亚洲国产精品sss在线观看| 一本一本综合久久| 在线a可以看的网站| 少妇裸体淫交视频免费看高清| 看片在线看免费视频| 一进一出好大好爽视频| 中出人妻视频一区二区| 国产精品福利在线免费观看| 精品一区二区三区视频在线| 一级黄色大片毛片| 丝袜美腿在线中文| 欧美激情国产日韩精品一区| 丰满乱子伦码专区| 亚洲三级黄色毛片| 国产精品,欧美在线| 老司机午夜福利在线观看视频| 神马国产精品三级电影在线观看| 国产黄色视频一区二区在线观看 | 美女内射精品一级片tv| 内射极品少妇av片p| 乱人视频在线观看| 18+在线观看网站| 欧美性猛交╳xxx乱大交人| 中文资源天堂在线| 日韩强制内射视频| 人人妻人人看人人澡| 久久久久久久午夜电影| 成人综合一区亚洲| 国产av不卡久久| 亚洲欧美日韩高清在线视频| 亚州av有码| 成人美女网站在线观看视频| 99热只有精品国产| 观看免费一级毛片| 日本 av在线| 蜜桃久久精品国产亚洲av| 精品人妻视频免费看| 免费看日本二区| 亚洲真实伦在线观看| 少妇人妻精品综合一区二区 | 又黄又爽又刺激的免费视频.| 久久精品久久久久久噜噜老黄 | 最新在线观看一区二区三区| 婷婷精品国产亚洲av在线| 亚洲一区高清亚洲精品| av国产免费在线观看| 成人亚洲精品av一区二区| 五月伊人婷婷丁香| 国产v大片淫在线免费观看| 久久精品久久久久久噜噜老黄 | 日韩欧美三级三区| 国产综合懂色| 我的女老师完整版在线观看| 亚洲人成网站在线播| 黄片wwwwww| 人妻久久中文字幕网| 看非洲黑人一级黄片| 女的被弄到高潮叫床怎么办| 一级a爱片免费观看的视频| 亚洲一区高清亚洲精品| 亚洲成人精品中文字幕电影| 欧美丝袜亚洲另类| 欧美又色又爽又黄视频| 一进一出抽搐动态| 此物有八面人人有两片| 一级黄片播放器| 亚洲真实伦在线观看| 99热这里只有是精品在线观看| 欧美日本亚洲视频在线播放| 欧美成人精品欧美一级黄| 亚洲成人中文字幕在线播放| 色av中文字幕| 亚洲精品成人久久久久久| 91精品国产九色| 色噜噜av男人的天堂激情| 日本三级黄在线观看| 午夜a级毛片| 中文在线观看免费www的网站| 美女黄网站色视频| 国产又黄又爽又无遮挡在线| 丰满人妻一区二区三区视频av| 国产 一区 欧美 日韩| 亚洲一级一片aⅴ在线观看| 淫妇啪啪啪对白视频| 国产av不卡久久| 麻豆一二三区av精品| 欧美性猛交╳xxx乱大交人| 国产精品国产高清国产av| 久久韩国三级中文字幕| 一级黄色大片毛片| 一本一本综合久久| 一进一出抽搐gif免费好疼| 狂野欧美白嫩少妇大欣赏| 婷婷精品国产亚洲av在线| 国产亚洲欧美98| 精华霜和精华液先用哪个| 欧美高清性xxxxhd video| 国产精品国产三级国产av玫瑰| 日韩大尺度精品在线看网址| 亚洲精品国产成人久久av| 搡老熟女国产l中国老女人| 嫩草影院新地址| 波野结衣二区三区在线| 18禁裸乳无遮挡免费网站照片| 国内精品美女久久久久久| 国产麻豆成人av免费视频|