• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    詞干單元和卷積神經(jīng)網(wǎng)絡(luò)的哈薩克短文本分類

    2020-09-07 01:49:42沙爾旦爾帕爾哈提米吉提阿不里米提艾斯卡爾艾木都拉
    小型微型計算機系統(tǒng) 2020年8期
    關(guān)鍵詞:詞干哈薩克語詞素

    沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉

    (新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)E-mail:sardar312@126.com

    1 引 言

    近年來,文本分類問題在許多實際應(yīng)用中得到了廣泛的研究和解決.尤其是隨著自然語言處理(NLP)和文本挖掘方面的技術(shù)突破,越來越多的研究人員開始對開發(fā)依賴于文本分類方法的應(yīng)用程序感興趣.文本分類是NLP領(lǐng)域的一個重要應(yīng)用.自動文本分類是根據(jù)文本的內(nèi)容或主題為文本自動分配一個或多個適當類別的方法[1-3].自動文本分類在情感分析[4],實時事件檢測[5],查找熱門話題[6]等信息檢索領(lǐng)域被廣泛應(yīng)用.文本分類中的一個關(guān)鍵問題是如何在計算機上有效地表示文本中的特征.

    哈薩克語是一種派生類語言.哈薩克語的句子由自然分開的詞組成.詞是由后綴所附的詞干構(gòu)成,因此,哈薩克語中構(gòu)詞和詞性變化較復(fù)雜,詞匯量巨大.其中,詞干是具有實際意義的詞匯單元,詞綴提供語義和語法功能,因此,通過對哈薩克文本的詞素切分以及詞干提取等預(yù)處理操作來我們可以保留有意義的和有效的文本特征,并能夠有效地降低特征的反復(fù)率和維數(shù).因此,詞干提取是哈薩克文本分類任務(wù)中重要的基礎(chǔ)性工作,如以下例子所示:

    (原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan jENespEn votte.

    (詞素切分后)jares+tajares+neN soNGejaresnomer+en al+ep,taNdawjares+tan jENespEn vot+te.

    以上句子中文意思是:在比賽中取得比賽的[比賽]終局分數(shù),勝利地通過了選賽.在中文中大括號[]里的‘比賽’這個詞一般不會出現(xiàn)的,但在以上哈薩克句子中對應(yīng)于這個詞的第四個詞jares是必不可少的.

    以上哈薩克句子中有10個詞,其中四個詞的詞干(被加粗部分)都是/jares/(比賽),將以上句子經(jīng)過詞素切分和詞干提取后,四個詞的主要意思能夠由一個詞干來表示,并且可以獲取四個詞特征,因此大幅降低特征的維數(shù),如表1所示.

    表1 哈薩克詞語變體

    哈薩克語形態(tài)結(jié)構(gòu)上的多種變化以及缺乏的語言資源是哈薩克語NLP中的主要問題之一,從互聯(lián)網(wǎng)上搜集的文本數(shù)據(jù)具有帶噪聲的拼寫以及不確定的編碼等特點,因此,對帶噪聲的哈薩克短文本可靠地進行提取和分類變得一種富有挑戰(zhàn)的任務(wù).然而,帶噪聲短文本數(shù)據(jù)的提取與分類是哈薩克語NLP必然的重要一環(huán).

    目前,部分學(xué)者提出了一些哈薩克文本詞干提取[7,8]和分類方法[7,8,10-12].文獻[7]用詞干和附加成分表對訓(xùn)練文本的詞語進行分割,并結(jié)合哈薩克語詞法規(guī)則來提取詞干.文獻[8]用詞法分析和雙向全切分相結(jié)合的方法對哈薩克文本進行詞綴切分和詞干提取,并與預(yù)先準備好的詞干表進行匹配,來試圖提高詞干提取的效率.以往的這些哈薩克文本詞干提取有關(guān)的研究大多基于簡單的詞法分析和一些人工收集的規(guī)則,因此存在歧義,尤其是對于短文本而言.哈薩克語詞干提取任務(wù)中一個特殊的問題是語音的和諧與不和諧,這個問題導(dǎo)致詞形的變化,這需要句子層面的語境分析來解決.我們提出的基于句子或較長上下文的詞素切分和詞干提取方法[9]能夠為整個哈薩克句子提供形態(tài)分析功能,能夠準確地預(yù)測到帶噪聲的哈薩克文本中的詞干與詞條,并且可以有效地降低文本中的歧義.

    文獻[11]用SVM分類器在包括五個類別的460篇哈薩克文本的語料庫上進行文本分類實驗,并得到87.6%的分類準確率,文中沒有提到被用到的文本表示和特征選擇方法.文獻[7]對詞頻和語言信息進行簡單的統(tǒng)計來選擇特征,在包括五個類別的296篇哈薩克文本的語料庫上進行文本分類實驗,該實驗把KNN選作為分類器,并得到84.98%的平均分類準確率.文獻[10]用向量空間文本表示模型提取哈薩克文本的特征,用文本頻率比值法(DFR-Document Frequency Ratio)進行特征選擇,以SVM和改進的KNN為分類器,在包括五個類別的200篇哈薩克文本的語料庫上進行文本分類實驗,并得到82.2%的分類準確率.文獻[12]用專屬于維吾爾語或者哈薩克語文字的特殊字符、維吾爾語和哈薩克語字母組合方式和詞綴的差異以及這兩種語言發(fā)音習(xí)慣的不同而產(chǎn)生的字母上的差異等啟發(fā)式特征對單詞數(shù)不超過14的維吾爾語和哈薩克語短文本進行文本語種分類實驗,并得到95.1%的精確率,該文沒有對語料庫文本內(nèi)容所屬的類別進行分類.文獻[8]用DFR方法對原始特征空間進行降維,把SVM和KNN分類器相結(jié)合,先用SVM確定每個類別的支持向量,然后用歐氏距離計算測試樣本和支持向量之間的距離,以此在包括八個類別的1400篇哈薩克文本的語料庫上進行文本分類實驗,并得到77.8%的平均分類精度,文中沒有提到文本特征表示所用的方法.在哈薩克文本分類中被使用的這些方法對詞的頻率進行簡單的統(tǒng)計,用傳統(tǒng)的特征表示方法(其中部分研究中用到的文本表示方法是未知的)來表示哈薩克文本特征以及對傳統(tǒng)的分類器做一些簡單的結(jié)合來實現(xiàn)分類器的改進.

    上述哈薩克文本分類方法是淺層的機器學(xué)習(xí),其中文本的語義含義不明確,忽略了文本較長的上下文信息,不能夠有效的捕獲詞語之間的語義關(guān)系,特征提取和選擇需要人工完成,分類準確率低.因此,哈薩克文本分類任務(wù)迫切需要一種有效特征提取和選擇的方法來提高其分類的效率.

    本文提出了基于詞干單元和word2vec_TFIDF以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)的哈薩克短文本分類方法.通過對齊的詞-詞素平行訓(xùn)練語料庫來訓(xùn)練統(tǒng)計模型,并從互聯(lián)網(wǎng)上收集的哈薩克短文本中高效地提取其詞干,用word2vec算法對詞干進行向量化,并使用詞頻-逆文檔頻率(TFIDF)算法對詞干向量進行加權(quán)處理,以此提取包含文本上下文之間語義關(guān)系的有效文本特征后,利用CNN作為特征選擇和文本分類算法,進行文本分類實驗.

    2 哈薩克文本表示和分類方法

    隨著神經(jīng)網(wǎng)絡(luò)的興起,許多適合自然語言的神經(jīng)網(wǎng)絡(luò)模型被提出[13,14].Bengio等人[13]2003年提出了一種基于神經(jīng)網(wǎng)絡(luò)的語言模型構(gòu)建方法.在此基礎(chǔ)上,Miklov等人[14]2013年提出了word2vec算法,并通過文本上下文信息來描述一個單詞的表示,得到了可以表示單詞之間的語義關(guān)系的低維的密集向量.

    2.1 哈薩克文本處理

    由廣泛的跨語言和跨文化交流所引起的書寫形式上的不確定性在給哈薩克文本帶來噪聲的同時,也導(dǎo)致新詞、新概念和新表達的持續(xù)出現(xiàn).這些新詞大多是借用新進的外來詞(OOV)或詞干,以及由于拼寫習(xí)慣的不同和方言的變形而引起的噪音整合而成.哈薩克語書寫系統(tǒng)在歷史上的變化是引起不確定的書寫形式的另外一個重要原因之一.現(xiàn)代社會的哈薩克語書寫形式也被這些書寫系統(tǒng)所影響,雖然在官方媒體出現(xiàn)的可能性不大,但是廣泛地在網(wǎng)上論壇和聊天工具中存在.

    我們實驗室開發(fā)的多語言詞素切分和詞干提取工具[16,17]將哈薩克語單詞分割成詞干和詞綴等詞匯單元.該工具根據(jù)哈薩克語的詞素與語音規(guī)則,從對齊的哈薩克詞-詞素平行句子中能夠自動地學(xué)習(xí)哈薩克語詞語的各種表面形式與聲學(xué)變化.哈薩克語具有詞素邊界上的音素根據(jù)語音和諧規(guī)則改變其表面形式的特點.在正確地表達詞語的發(fā)音時,文本中可以明顯地觀察到語音和諧.一個候選詞送入給該詞素切分器[16,17]的搜索模塊之后,通過根據(jù)哈薩克語的詞素規(guī)則準備的詞干和詞綴列表以及語音和諧與不和諧等語音規(guī)則來迭代地運用匹配方法對候選詞進行切分,該候選詞被逐漸切分,分別與詞干、詞綴列表以及詞的各種表面形式匹配,并導(dǎo)出所有可能的詞素切分形式.然后,這些切分結(jié)果送入給統(tǒng)計模塊,并計算所有切分結(jié)果的概率之后,從前N個最好的切分結(jié)果中選擇最佳詞素.該工具為有效地提取哈薩克語文本中的詞干提供了可靠的依據(jù),有效地改進了哈薩克短文本分類任務(wù),詞素切分流程如圖1所示.

    圖1 詞素切分流程

    本文中用該詞素切分工具[16,17]在5000個哈薩克詞-詞素平行訓(xùn)練句子上訓(xùn)練統(tǒng)計模型(其中80%的部分用于訓(xùn)練,剩余部分用于測試),并進行詞素切分與詞干提取實驗,最終得到95.87%的詞干提取準確率,如圖2所示.這是通過切分工具所得到的與人工切分的詞素完全匹配的結(jié)果.

    圖2 詞素切分結(jié)果

    通常,網(wǎng)上收集到的文本語料庫中不同文本所包含的單詞數(shù)是不一樣的.因此,為使語料庫中的文本詞數(shù)相等,以便生成隨后輸入到CNN網(wǎng)絡(luò)中的文本矩陣,我們對文本集執(zhí)行填充操作來修改文本中的詞數(shù).本文對語料庫每個原始文本中的單詞數(shù)量進行了統(tǒng)計,如圖3所示(圖3中,橫軸表示文本中的單詞數(shù)量,縱軸表示不同單詞數(shù)量對應(yīng)的文本數(shù)量).

    圖3 實驗文本詞長統(tǒng)計

    從圖3可以看出,文本集中的文本大概包含60到120個詞左右,其中詞數(shù)約在100個左右的文本數(shù)量最多.所以,本實驗中輸入給CNN的所有文本的標準詞數(shù)選為100.詞數(shù)不到100的文本,則后向補零處理.同理,從文本集中提取詞干,并形成詞干序列文本集之后,選擇了每篇文本中的前100個詞干為CNN的輸入,如果詞干數(shù)不到100,則后向補零處理,以生成CNN所需的輸入矩陣.

    2.2 基于word2vec_TFIDF的文本表示

    2.2.1 詞向量學(xué)習(xí)方法

    詞(詞干)嵌入是通過word2vec技術(shù)從訓(xùn)練語料庫中生成的以詞出現(xiàn)的上下文為基的實數(shù)向量[18].Word2vec訓(xùn)練所生成的詞干向量可以用作許多自然語言處理任務(wù).兩個詞干之間的語義相似度可以通過計算這兩個詞干的詞干向量之間的距離來容易地被判斷.Word2vec中有兩種主要的學(xué)習(xí)算法:CBOW(連續(xù)詞袋)算法[19]和Skip-gram算法[20].

    CBOW是根據(jù)上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c來預(yù)測當前的詞干st出現(xiàn)的概率p(st|st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c).CBOW模型通過c個上下文詞干來表示當前的詞干st,c是預(yù)選窗口的大小,用CBOW算法對文本進行訓(xùn)練后得到詞干st的詞干向量,如圖4所示.本文使用CBOW算法進行詞干向量的訓(xùn)練.

    圖4 CBOW模型結(jié)構(gòu)

    與之相反,Skip-gram 是根據(jù)當前詞干st來預(yù)測上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c的出現(xiàn)概率p(st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c|st).

    我們通過計算采用word2vec工具所形成的詞干向量之間的余弦距離來能夠判斷詞干之間的語義相似度.詞干向量之間的余弦距離值越大,則詞干的語義相似度越高;反之,語義相似度就越低,如表2所示.

    表2 詞干向量語義相似度

    從表2可以看出,通過詞干向量之間余弦值的計算,獲得的與哈薩克詞干vaqxa(人民幣)和 tor(網(wǎng)絡(luò))語義相似度最高的五個詞干.

    2.2.2TFIDF權(quán)重

    對于包M含個文本的集合D,其中Di(i=1,2,…,M),通過CBOW模型得到詞干向量.對于文本中的每個詞干,通過TF-IDF算法計算其權(quán)重值tfidf(t,D),它是指詞干t在文本Di(i=1,2,…,M)中的權(quán)重值.TF-IDF考慮單個文本中的詞干頻率tf和整個文本集的詞干頻率idf.TF-IDF的計算公式如公式(1)所示:

    (1)

    其中,tf(t,Di)是詞干t在第i個文本中的出現(xiàn)頻率,分母是歸一化因子.idf(f)是詞干t的逆文檔頻率,計算公式如公式(2)所示:

    (2)

    其中,M是訓(xùn)練集中文本總數(shù),nt是詞干t在訓(xùn)練集中的出現(xiàn)頻率.

    每個詞干的詞干向量被tfidf值加權(quán)來表示一個文本,如公式(3)所示:

    (3)

    vec(Di)指的是每個文本Di的詞干向量,wt表示詞干t的N維詞干向量,tfidf(t,Di)表示詞干t在文本Di中的TF-IDF權(quán)重值.

    2.3 卷積神經(jīng)網(wǎng)絡(luò)框架

    CNN是Lecun等人[21]提出的一種深度學(xué)習(xí)模型,Kim[22]首次把CNN用于文本分類.CNN可以在詞干向量的基礎(chǔ)上自動提取和學(xué)習(xí)句子的特征,從而減少了對人工選擇特征的依賴性,并優(yōu)化了特征選擇的效果.CNN在結(jié)構(gòu)上的主要特點是卷積層和最大池化層的交替累積.本文中用的CNN模型由4個不同的層組成,分別為:輸入層、兩個卷積層、兩個池化層和全連接層,如圖5所示.

    圖5 CNN框架

    1)輸入層.CNN的第一層是輸入層,其中輸入?yún)?shù)是文本預(yù)訓(xùn)練后得到的詞干向量.輸入矩陣的形式是(n,s,k),其中n是文本的數(shù)目,s是固定的文本長度(CNN輸入文本的長度需要相同),k是詞干向量的維數(shù).v(wi)∈Rk表示對應(yīng)于第i詞干wi的k維子詞干向量.在這種情況下,輸入文本可以表示為公式(4).其中,?是級聯(lián)運算符號.

    t1:s=v(w1)?v(w2)?…?v(ws)

    (4)

    2)卷積層.卷積層是網(wǎng)絡(luò)的核心部分.該層通過卷積核來對網(wǎng)絡(luò)前一層的特征圖進行卷積運算,以此生成新特征.卷積運算采用卷積矩陣窗口w∈Rk×h來生成一個新的特征圖.其中,k是詞干向量的維數(shù),h是窗口內(nèi)詞干的數(shù)目.每個新生成的特征值可以從公式(5)中獲得.

    ct=f(w·Wi:i+h-1+b)

    (5)

    在公式(5)中,ci是由一個窗口詞干wi:i+h-1所生成的一個新特征,b是偏置項,算子“·”是指卷積運算,f()是激活函數(shù).當卷積矩陣窗口移動一步時,所有輸入矩陣由窗口(w1:h,w2:h,…,ws-h+1:s)卷積,并生成相應(yīng)的特征映射c=(c1,c2,…,cs-h+1).

    3)池化層.池化層的輸入是在卷積層中生成的特征矩陣.池化層的功能是對由卷積層所生成的特征圖進行采樣.本文使用最大池化方法,因為它能夠使模型提取最突出的特征,如公式(6)所示.在公式(6)中,ci表示在卷積層中產(chǎn)生的特征圖,m是特征圖的數(shù)目.

    cmax=max(ci) 0

    (6)

    4)全連接層.CNN的最后一層是全連接層,它將所有的特征和輸出值連接到分類器.該層使用Softmax分類器對來自池化層的特征向量進行分類操作,并輸出最后的分類結(jié)果.

    對于文本集Di(i=1,2,…,N),利用CBOW模型對文本進行訓(xùn)練后得到文本向量vec(Di).然后,對所有得到的文本向量進行修改,以形成卷積神經(jīng)網(wǎng)絡(luò)處理所需的矩陣.CNN的輸入文本可以表示為公式(7).其中,T1:n表示所有的輸入文本,?是級聯(lián)運算符.

    T1:n=vec(D1)+vec(D2)+…vec(Dn)

    (7)

    3 實驗結(jié)果及分析

    因為哈薩克文本分類處于初級研究階段,沒有公開的哈薩克文本語料庫,所以構(gòu)建哈薩克文本語料庫需要從網(wǎng)上下載文本,才能進進行實驗.

    3.1 實驗語料庫

    本文通過爬蟲官方哈薩克文網(wǎng)(1)kazakh.people.com.cn,從網(wǎng)上下載哈薩克文本來建立實驗語料庫.該語料庫包含旅游、教育、科技、文華、經(jīng)濟、法律、娛樂和體育等8個類別,每個類別有900篇文本,共7200篇文本.本文用75%文本作為訓(xùn)練集,10%文本作為驗證集,其余部分作為測試集.

    哈薩克文本因受其它語言的影響以及個性化等原因,從網(wǎng)絡(luò)上下載的文本容易出現(xiàn)拼寫錯誤.所以我們編寫了哈薩克文字拼寫檢查程序.該程序是通過對哈薩克語音節(jié)的結(jié)構(gòu)形式和規(guī)則進行分析,從而能夠找到存在拼寫錯誤的大部分哈薩克詞匯和不規(guī)則的外來詞,這樣我們便能更正給定詞匯中的拼寫錯誤.拼寫檢查程序流程如圖6所示.

    圖6 哈薩克文本拼寫檢查程序流程

    盡管Unicode是默認的編碼方案,但不同的操作系統(tǒng)和組織仍在使用不同的編碼.因此,我們建立一個代碼映射表,將語料庫中的文本集從各種不同的編碼形式轉(zhuǎn)換成統(tǒng)一的拉丁文字母編碼形式,然后用詞干提取工具從所有的文本中提取詞干,以構(gòu)建詞干序列文本語料庫.基于統(tǒng)計模型的哈薩克文本詞干提取方法可以有效地減少文本特征空間的維數(shù),其中,除掉停用詞后(停用詞數(shù)為1085),詞干詞匯的數(shù)量明顯地下降到詞詞匯數(shù)量的30%左右,如表3所示.

    表3 詞干提取引起的特征空間維數(shù)的減少

    從語料庫的文本集中提取詞干后,通過CBOW算法對此進行訓(xùn)練,生成詞干向量;同時,對于語料庫的文本沒有進行詞素切分和詞干提取的情況下,通過CBOW算法直接在詞序列構(gòu)成的原始文本上進行訓(xùn)練,以此生成詞向量.在word2vec訓(xùn)練時,詞與詞干嵌入維度和訓(xùn)練窗口的尺寸都設(shè)置為默認值,即,分別是100和5,迭代次數(shù)設(shè)置為5,batch_word設(shè)置為10000.取得詞與詞干向量之后,用TFIDF算法分別對所取得的詞與詞干向量進行加權(quán).

    3.2 評價指標

    常用于評價文本分類器性能的指標有準確率、精確率、召回率和F1分數(shù)等,對于某一個類別Ci的分類結(jié)果而言,如果正確分為該類的文本數(shù)目是a,錯誤劃歸為該類的文本數(shù)目是b,將該類文本錯誤劃歸為其他類的文本數(shù)目是c,屬于其他類的文本正確分為所屬類的文本數(shù)為d,則可以得到這些指標的計算公式如下:

    (8)

    (9)

    (10)

    (11)

    本文使用準確率和宏F1分數(shù)評測了所提出方法的性能.宏F1分數(shù)是一個全局性指標,它同時兼顧了分類模型的精確率和召回率.計算宏F1分數(shù)時,先要計算每個類別的F1分數(shù),然后計算它們的算術(shù)平均值作為宏F1分數(shù).

    3.3 實驗結(jié)果及分析

    本文實驗使用Pytorch在具有GPU支持的Linux CentOS-7操作系統(tǒng)上實現(xiàn)CNN框架.本文將通過詞素切分工具對文本集進行切分,并提取其詞干之后,通過word2vec及TFIDF算法對詞干進行向量化和加權(quán),用KNN[7,8,10]、NB、SVM[7,8,11]和CNN等方法進行了比較實驗.其中,在KNN、NB、SVM等傳統(tǒng)方法中,通過x2特征選擇方法對文本的特征維數(shù)進行降維,并把x2值最大的前100到2000之間的詞干項選作為新的特征,以此分別進行了實驗,如表4所示.

    表4 基于傳統(tǒng)方法的分類結(jié)果

    基于CNN的方法中,本文用word2vec算法從文本集中分別生成100×100的詞與詞干兩種向量,并用TFIDF算法對此進行加權(quán)之后,輸入給CNN,做了基于詞與詞干的分類實驗.本文實驗了包括2個、4個和6個卷積層的多種CNN模型結(jié)構(gòu).從這些實驗中發(fā)現(xiàn),對本文的文本分類任務(wù)而言,最好的CNN模型結(jié)構(gòu)由兩組卷積層組成,每個卷積層后面跟著一個最大池化層.本文通過反復(fù)實驗來確定在每個卷積層上設(shè)計尺寸為5×100的128個卷積核的效果最好.在第二個最大池化層之后,用一個dropout策略來避免發(fā)生過擬合現(xiàn)象,其dropout值設(shè)置為0.5.然后,附加一個長度為64的全連接層,后面跟著第二個dropout策略,最后的全連接層有八個節(jié)點,代表八個類別,每個節(jié)點的輸出通過 softmax 函數(shù)后可以歸一化,softmax 輸出值可以理解為這八個類別的概率分布,如圖5所示.CNN通過迭代計算獲得權(quán)重,經(jīng)過多次迭代后得到理想的參數(shù),本次實驗中,本文做了150次迭代運算,實驗結(jié)果如表5所示.

    表5 基于CNN的分類結(jié)果

    從表4和表5可以看出,基于KNN、NB和SVM的分類準確率最高時分別達85.49%、92.07%和93.64%.基于CNN的實驗中,不論是基于詞單元還是基于詞干單元,其分類準確率都隨著迭代次數(shù)的增加而提高,并分別達到93.71%和95.39%后,大概收斂于93.4%和95.2%左右.本文提出的方法與傳統(tǒng)模型相比,分類準確率分別高出9.9%、3.32%和1.75%.基于詞干的分類準確率比基于詞的分類準確率高出1.68%,證明對于粘著性語言的文本分類任務(wù)而言,基于詞干的分類方法能夠提高其分類的效果.

    為了驗證本文中利用的word2vec_TFIDF融合特征表示方法在文本分類任務(wù)中的性能,本文在沒有對詞與詞干進行預(yù)訓(xùn)練和用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練情況下,將CNN作為分類器,分別在詞單元和詞干單元上進行了文本分類實驗,并與本文中提出的方法分類結(jié)果進行了比較.在CNN+rand方法中,CNN模型結(jié)構(gòu)保持不變,但沒有對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,而分別直接輸入給CNN,輸入的分布式特征將按高斯分布隨機初始化,然后在訓(xùn)練過程中被修改的;在CNN+word2vec方法中,CNN模型結(jié)構(gòu)還是保持不變,但將用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,并分別把訓(xùn)練所得到的詞與詞干向量輸入給CNN.本次實驗中,為了公平比較,本文用了150次迭代運算,比較實驗結(jié)果如表6所示.

    表6 基于不同文本表示方法的分類結(jié)果

    從表6可以看出,基于word2vec_TFIDF融合特征的詞與詞干單元文本表示方法所得到的分類準確率分別比基于沒有預(yù)訓(xùn)練的和基于word2vec預(yù)訓(xùn)練的詞與詞干單元分類準確率分別高出3.87%、4.16%和0.52%、0.44%.基于詞干和word2vec_TFIDF融合特征的分類損失值明顯地小于其它兩種方法的分類損失值.由此可知,基于word2vec_TFIDF的融合文本表示方法能夠在考慮詞頻重要度的基礎(chǔ)上有效地獲取文本上下文之間的語義信息,以提高文本的分類準確率.

    4 總 結(jié)

    文本分類已經(jīng)成為處理海量信息的主要手段,特別是對具有噪聲數(shù)據(jù)的低資源語言而言,可靠的文本分類方法至關(guān)重要.哈薩克語是一種粘著性派生類語言,詞是由多個后綴所附的詞干構(gòu)成,后綴提供語義與句法功能,這一性質(zhì)在理論上產(chǎn)生了無限的詞匯量.所以,詞素切分與詞干提取是哈薩克語NLP的必要途徑.Word2vec詞嵌入技術(shù)可以將語言單元映射成基于上下文的順序向量空間.從上下文信息中獲取和預(yù)測OOV是一種有效的方法.本文討論了一種基于詞素與語音規(guī)則的哈薩克文本詞干提取方法,以及一種基于word2vec_TFIDF融合特征和CNN的文本分類方法.本文中,哈薩克文本分類任務(wù)分別用不同的特征表示方法在不同的詞匯單元上實現(xiàn).實驗結(jié)果顯示,本文提出的基于詞干單元和融合特征表示以及卷積神經(jīng)網(wǎng)絡(luò)的方法可以獲得95.39%的分類準確率,與基于其它詞匯單元和文本表示的文本分類方法相比,本文的方法中分類性能顯著提高.可見,對于哈薩克語等派生類粘著性語言的自然語言處理任務(wù)而言,有效的詞素切分和詞干提取方法能夠提高其效率.

    猜你喜歡
    詞干哈薩克語詞素
    論柯爾克孜語詞干提取方法
    維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
    詞素配價理論與應(yīng)用
    亞太教育(2018年5期)2018-12-01 04:58:23
    從詞素來源看現(xiàn)代漢語詞素同一性問題
    辭書研究(2017年3期)2017-05-22 14:04:16
    哈薩克語附加成分-A
    詞素溶合與溶合詞素
    融合多策略的維吾爾語詞干提取方法
    基于維吾爾語詞干詞綴粒度的漢維機器翻譯
    哈薩克語比喻及其文化特征
    語言與翻譯(2014年2期)2014-07-12 15:49:28
    “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
    語言與翻譯(2014年2期)2014-07-12 15:49:13
    欧美国产精品va在线观看不卡| 国产一卡二卡三卡精品 | 波多野结衣一区麻豆| 国产精品免费大片| 美国免费a级毛片| 水蜜桃什么品种好| 青春草国产在线视频| 777久久人妻少妇嫩草av网站| 热re99久久国产66热| 在线观看免费高清a一片| 搡老乐熟女国产| 成人影院久久| 欧美久久黑人一区二区| 久久久久人妻精品一区果冻| 成人漫画全彩无遮挡| 丰满迷人的少妇在线观看| 国产成人免费无遮挡视频| 久久人人爽av亚洲精品天堂| 国产亚洲最大av| 国产人伦9x9x在线观看| av卡一久久| 亚洲精品中文字幕在线视频| 国产成人精品福利久久| 日韩制服骚丝袜av| 亚洲精品国产av成人精品| 高清在线视频一区二区三区| 国产免费现黄频在线看| 国产成人免费观看mmmm| 99久国产av精品国产电影| 国产亚洲精品第一综合不卡| 天天添夜夜摸| 18禁裸乳无遮挡动漫免费视频| 王馨瑶露胸无遮挡在线观看| av线在线观看网站| 中文字幕另类日韩欧美亚洲嫩草| 自拍欧美九色日韩亚洲蝌蚪91| 一级毛片我不卡| 韩国精品一区二区三区| 黑丝袜美女国产一区| 在线观看免费午夜福利视频| 色播在线永久视频| 亚洲美女搞黄在线观看| 国产伦人伦偷精品视频| xxx大片免费视频| 国语对白做爰xxxⅹ性视频网站| 丝瓜视频免费看黄片| 国产成人精品福利久久| 午夜老司机福利片| 免费在线观看视频国产中文字幕亚洲 | xxxhd国产人妻xxx| 嫩草影视91久久| 精品酒店卫生间| 亚洲一卡2卡3卡4卡5卡精品中文| 中文字幕高清在线视频| 国产一区有黄有色的免费视频| 欧美日韩亚洲综合一区二区三区_| 精品一区二区三区四区五区乱码 | 国产精品久久久久久精品电影小说| 国产一区有黄有色的免费视频| 在线天堂最新版资源| 最近最新中文字幕免费大全7| 婷婷色综合www| 久久久国产欧美日韩av| 欧美激情高清一区二区三区 | 亚洲精品一二三| 亚洲av中文av极速乱| 欧美另类一区| 亚洲精品中文字幕在线视频| 国产高清不卡午夜福利| 免费久久久久久久精品成人欧美视频| 韩国高清视频一区二区三区| 久久久国产精品麻豆| 亚洲欧洲国产日韩| 中文字幕精品免费在线观看视频| 亚洲欧美色中文字幕在线| 国产成人精品久久久久久| 大码成人一级视频| 亚洲国产精品成人久久小说| 熟女av电影| 黄片无遮挡物在线观看| 精品少妇久久久久久888优播| 亚洲国产成人一精品久久久| 女人久久www免费人成看片| 又大又黄又爽视频免费| 成年人午夜在线观看视频| 成年动漫av网址| 亚洲精品日韩在线中文字幕| 青青草视频在线视频观看| 999精品在线视频| 啦啦啦 在线观看视频| 免费在线观看黄色视频的| 精品少妇内射三级| 青春草视频在线免费观看| 久久久亚洲精品成人影院| 中国国产av一级| 国产无遮挡羞羞视频在线观看| 99国产精品免费福利视频| 少妇被粗大猛烈的视频| 我要看黄色一级片免费的| 亚洲国产看品久久| 1024视频免费在线观看| 日日爽夜夜爽网站| 亚洲国产精品国产精品| 母亲3免费完整高清在线观看| 亚洲欧洲精品一区二区精品久久久 | 久久久欧美国产精品| 大香蕉久久成人网| 国产免费一区二区三区四区乱码| 久久国产精品男人的天堂亚洲| 国产成人精品久久二区二区91 | 亚洲第一av免费看| 一级,二级,三级黄色视频| 成人18禁高潮啪啪吃奶动态图| 久久久精品区二区三区| 亚洲人成77777在线视频| 少妇的丰满在线观看| 欧美日韩精品网址| 啦啦啦 在线观看视频| 菩萨蛮人人尽说江南好唐韦庄| 国语对白做爰xxxⅹ性视频网站| 一级,二级,三级黄色视频| 国产精品一区二区在线不卡| 国产乱人偷精品视频| 制服丝袜香蕉在线| 国产乱来视频区| 18禁观看日本| 亚洲 欧美一区二区三区| 亚洲精品在线美女| 亚洲伊人色综图| 国产高清不卡午夜福利| 亚洲天堂av无毛| 精品一区在线观看国产| 成年人午夜在线观看视频| 欧美在线黄色| 成人亚洲欧美一区二区av| 汤姆久久久久久久影院中文字幕| 国产视频首页在线观看| 国产亚洲av高清不卡| 80岁老熟妇乱子伦牲交| 天天操日日干夜夜撸| 啦啦啦在线观看免费高清www| 日韩成人av中文字幕在线观看| 久久久久精品性色| 高清在线视频一区二区三区| 国产极品天堂在线| 咕卡用的链子| 成年动漫av网址| 国产黄频视频在线观看| 久久精品国产综合久久久| 国产xxxxx性猛交| 丝袜人妻中文字幕| 天天躁日日躁夜夜躁夜夜| 午夜福利乱码中文字幕| 国产精品一国产av| 久久久久网色| 国产av一区二区精品久久| 日本色播在线视频| 最近手机中文字幕大全| 男女床上黄色一级片免费看| 亚洲综合色网址| 在线免费观看不下载黄p国产| 成年人免费黄色播放视频| 国产97色在线日韩免费| 午夜激情av网站| 国产在线视频一区二区| 亚洲av男天堂| 另类精品久久| 久久99一区二区三区| 国产一区二区 视频在线| 嫩草影视91久久| 交换朋友夫妻互换小说| 91精品国产国语对白视频| 欧美av亚洲av综合av国产av | 国产片特级美女逼逼视频| 久久av网站| 亚洲av成人精品一二三区| 久久久久网色| 免费高清在线观看日韩| 国产成人av激情在线播放| 久久精品国产a三级三级三级| 国产成人精品无人区| 久久久久久久久免费视频了| 日韩 欧美 亚洲 中文字幕| 国产精品无大码| 咕卡用的链子| 精品少妇黑人巨大在线播放| 免费不卡黄色视频| 亚洲精品中文字幕在线视频| 国产成人精品久久久久久| 久久人人爽av亚洲精品天堂| 在线观看人妻少妇| 99国产综合亚洲精品| 日韩人妻精品一区2区三区| 一个人免费看片子| 国产一区二区三区综合在线观看| 在线观看免费日韩欧美大片| 欧美久久黑人一区二区| 狠狠精品人妻久久久久久综合| 老司机影院毛片| 国产国语露脸激情在线看| 91精品伊人久久大香线蕉| 91成人精品电影| 国产av码专区亚洲av| 狂野欧美激情性xxxx| 中文乱码字字幕精品一区二区三区| 99久久人妻综合| 建设人人有责人人尽责人人享有的| 在线观看人妻少妇| 久久久国产精品麻豆| 久久久亚洲精品成人影院| 亚洲av电影在线观看一区二区三区| netflix在线观看网站| 欧美日韩亚洲高清精品| 亚洲精品美女久久久久99蜜臀 | 国产不卡av网站在线观看| 国产福利在线免费观看视频| 亚洲av成人精品一二三区| 天堂8中文在线网| 国产日韩欧美视频二区| 成人免费观看视频高清| 国产精品女同一区二区软件| 一区二区日韩欧美中文字幕| 日日撸夜夜添| 久久久久久久国产电影| 国产黄频视频在线观看| 水蜜桃什么品种好| 亚洲欧美精品自产自拍| 亚洲精品久久午夜乱码| 蜜桃在线观看..| 一级毛片 在线播放| 精品国产超薄肉色丝袜足j| 在线天堂最新版资源| 天堂8中文在线网| 精品国产一区二区三区四区第35| bbb黄色大片| 久久久久国产精品人妻一区二区| 国产高清不卡午夜福利| 国产av国产精品国产| 欧美黑人精品巨大| 精品久久蜜臀av无| 亚洲国产精品国产精品| 日本一区二区免费在线视频| 国产无遮挡羞羞视频在线观看| 最近最新中文字幕大全免费视频 | 亚洲专区中文字幕在线 | 久久久久久人妻| 亚洲精品视频女| 在线观看免费高清a一片| 国产不卡av网站在线观看| 一本—道久久a久久精品蜜桃钙片| 老汉色∧v一级毛片| 美女大奶头黄色视频| 99久久99久久久精品蜜桃| a级片在线免费高清观看视频| 七月丁香在线播放| 自线自在国产av| 只有这里有精品99| 国产精品一区二区精品视频观看| 制服丝袜香蕉在线| 国产在视频线精品| 亚洲av电影在线进入| 女人精品久久久久毛片| 观看美女的网站| 国产又爽黄色视频| 亚洲av男天堂| 亚洲伊人色综图| 亚洲熟女精品中文字幕| 亚洲三区欧美一区| 午夜日本视频在线| 下体分泌物呈黄色| 你懂的网址亚洲精品在线观看| av在线播放精品| 亚洲人成网站在线观看播放| 啦啦啦在线观看免费高清www| 亚洲美女搞黄在线观看| 成人手机av| 国产精品99久久99久久久不卡 | 97精品久久久久久久久久精品| 中文字幕人妻丝袜制服| 美国免费a级毛片| 黄色视频不卡| av国产精品久久久久影院| 考比视频在线观看| 黑人猛操日本美女一级片| 少妇精品久久久久久久| 国产成人免费观看mmmm| 极品少妇高潮喷水抽搐| 日本vs欧美在线观看视频| 欧美成人精品欧美一级黄| 欧美在线一区亚洲| 亚洲精品国产av成人精品| 女人久久www免费人成看片| 久久热在线av| 欧美老熟妇乱子伦牲交| 激情五月婷婷亚洲| 亚洲精品久久成人aⅴ小说| 国产97色在线日韩免费| 国产野战对白在线观看| 操美女的视频在线观看| 丝瓜视频免费看黄片| 日本午夜av视频| 亚洲三区欧美一区| 一区二区三区精品91| a 毛片基地| 中文字幕另类日韩欧美亚洲嫩草| av电影中文网址| 国产免费现黄频在线看| 精品少妇内射三级| 久久女婷五月综合色啪小说| 国产成人a∨麻豆精品| 捣出白浆h1v1| 日本爱情动作片www.在线观看| 国产成人午夜福利电影在线观看| 国产视频首页在线观看| 1024香蕉在线观看| 成人18禁高潮啪啪吃奶动态图| 午夜福利乱码中文字幕| 亚洲欧洲日产国产| 午夜免费观看性视频| 色综合欧美亚洲国产小说| 久久久国产欧美日韩av| 亚洲免费av在线视频| 久久精品国产a三级三级三级| 欧美日韩福利视频一区二区| 亚洲专区中文字幕在线 | 丝袜喷水一区| 爱豆传媒免费全集在线观看| 一级爰片在线观看| 七月丁香在线播放| 波多野结衣av一区二区av| 日韩制服骚丝袜av| videos熟女内射| 亚洲国产av新网站| 日韩制服丝袜自拍偷拍| 性少妇av在线| videos熟女内射| 性少妇av在线| 丝袜喷水一区| 色综合欧美亚洲国产小说| 久久久国产欧美日韩av| 国产精品人妻久久久影院| 久久久国产欧美日韩av| 亚洲国产欧美在线一区| 一区福利在线观看| 高清av免费在线| 国产xxxxx性猛交| 成年女人毛片免费观看观看9 | 亚洲成人国产一区在线观看 | 另类精品久久| 别揉我奶头~嗯~啊~动态视频 | 麻豆精品久久久久久蜜桃| 日韩av在线免费看完整版不卡| 黄色视频在线播放观看不卡| 人成视频在线观看免费观看| 婷婷色综合www| 在线天堂最新版资源| 日韩欧美精品免费久久| 天堂中文最新版在线下载| 我要看黄色一级片免费的| 中文字幕另类日韩欧美亚洲嫩草| 国产精品嫩草影院av在线观看| 免费观看av网站的网址| 亚洲自偷自拍图片 自拍| 一级毛片黄色毛片免费观看视频| 老司机亚洲免费影院| 亚洲av日韩在线播放| 在线 av 中文字幕| 男女边摸边吃奶| 97精品久久久久久久久久精品| 久久天躁狠狠躁夜夜2o2o | 黄片小视频在线播放| 中国国产av一级| 久久av网站| 欧美日韩视频高清一区二区三区二| 午夜福利,免费看| 天堂8中文在线网| 91精品三级在线观看| 看免费av毛片| 国产精品一区二区在线观看99| 嫩草影院入口| 中文字幕另类日韩欧美亚洲嫩草| 国产片特级美女逼逼视频| 亚洲av欧美aⅴ国产| 国产精品99久久99久久久不卡 | 九九爱精品视频在线观看| 一区二区av电影网| videos熟女内射| 国产成人欧美在线观看 | 伊人亚洲综合成人网| 九色亚洲精品在线播放| av在线观看视频网站免费| 另类精品久久| 一区二区av电影网| 国产精品久久久av美女十八| √禁漫天堂资源中文www| 人妻 亚洲 视频| 一级毛片电影观看| 在线精品无人区一区二区三| 毛片一级片免费看久久久久| 国产有黄有色有爽视频| 久久久久精品性色| 只有这里有精品99| 亚洲精品国产av蜜桃| 精品久久久久久电影网| 欧美精品高潮呻吟av久久| 大片电影免费在线观看免费| 亚洲精品一二三| 观看美女的网站| av有码第一页| 我要看黄色一级片免费的| 国产成人精品久久二区二区91 | 国产成人精品久久久久久| 美女国产高潮福利片在线看| 天天躁夜夜躁狠狠久久av| 欧美成人午夜精品| 欧美日韩福利视频一区二区| 日本91视频免费播放| 一级片'在线观看视频| 精品人妻在线不人妻| 丰满乱子伦码专区| 亚洲成av片中文字幕在线观看| 啦啦啦在线免费观看视频4| 久久女婷五月综合色啪小说| 老司机影院成人| 久久久久久久久久久久大奶| 久久精品久久久久久久性| 亚洲一卡2卡3卡4卡5卡精品中文| av在线app专区| 又粗又硬又长又爽又黄的视频| 午夜免费观看性视频| 久久影院123| 在线天堂中文资源库| 精品卡一卡二卡四卡免费| 精品免费久久久久久久清纯 | 蜜桃在线观看..| 日本av手机在线免费观看| www.av在线官网国产| 好男人视频免费观看在线| 亚洲欧美一区二区三区黑人| 国产 精品1| 欧美精品一区二区免费开放| 国产深夜福利视频在线观看| 又粗又硬又长又爽又黄的视频| 国产成人午夜福利电影在线观看| 中文字幕av电影在线播放| 最近中文字幕2019免费版| 亚洲精品久久午夜乱码| 成人亚洲欧美一区二区av| 国产老妇伦熟女老妇高清| 亚洲一区二区三区欧美精品| 国产又爽黄色视频| 色综合欧美亚洲国产小说| 另类亚洲欧美激情| 看免费av毛片| av.在线天堂| 最近的中文字幕免费完整| 制服诱惑二区| 97在线人人人人妻| 午夜久久久在线观看| 亚洲,欧美,日韩| 亚洲婷婷狠狠爱综合网| 香蕉丝袜av| 一本久久精品| 亚洲精品自拍成人| 男人舔女人的私密视频| 777米奇影视久久| a级片在线免费高清观看视频| 中文字幕av电影在线播放| 香蕉丝袜av| 国产精品嫩草影院av在线观看| 亚洲精品久久久久久婷婷小说| 亚洲国产成人一精品久久久| xxx大片免费视频| 欧美老熟妇乱子伦牲交| 精品卡一卡二卡四卡免费| 国产女主播在线喷水免费视频网站| 国产精品一二三区在线看| 一区二区av电影网| 久久精品aⅴ一区二区三区四区| 国产成人av激情在线播放| 老司机影院毛片| 国产 精品1| 免费观看a级毛片全部| 国产亚洲精品第一综合不卡| 亚洲精品国产色婷婷电影| 岛国毛片在线播放| 国产精品熟女久久久久浪| 一区二区三区精品91| av线在线观看网站| 国产精品 欧美亚洲| 国产精品二区激情视频| 人妻人人澡人人爽人人| 国产精品国产三级专区第一集| 九九爱精品视频在线观看| 久久久国产一区二区| 99国产精品免费福利视频| 亚洲综合精品二区| 亚洲av国产av综合av卡| 纯流量卡能插随身wifi吗| 精品午夜福利在线看| 一本一本久久a久久精品综合妖精| 大片免费播放器 马上看| 伊人亚洲综合成人网| 女的被弄到高潮叫床怎么办| 久久久久视频综合| 一本一本久久a久久精品综合妖精| 亚洲国产最新在线播放| 18在线观看网站| 久久精品国产a三级三级三级| 亚洲欧洲日产国产| 日韩熟女老妇一区二区性免费视频| 男人爽女人下面视频在线观看| 日本色播在线视频| 国产又爽黄色视频| 久久99热这里只频精品6学生| 国产熟女欧美一区二区| 麻豆乱淫一区二区| 99久久精品国产亚洲精品| 久热这里只有精品99| 一区二区三区四区激情视频| 亚洲av日韩在线播放| 美女视频免费永久观看网站| 国产精品人妻久久久影院| 亚洲久久久国产精品| 欧美 亚洲 国产 日韩一| 黄片无遮挡物在线观看| 在线观看人妻少妇| 国产视频首页在线观看| 深夜精品福利| 亚洲精品久久午夜乱码| 国产日韩欧美在线精品| 久久精品人人爽人人爽视色| 亚洲,一卡二卡三卡| 国产成人精品在线电影| 欧美日韩国产mv在线观看视频| 久久精品国产亚洲av高清一级| 老司机在亚洲福利影院| 色精品久久人妻99蜜桃| 丰满饥渴人妻一区二区三| 汤姆久久久久久久影院中文字幕| 青春草国产在线视频| 老鸭窝网址在线观看| 麻豆精品久久久久久蜜桃| 亚洲精品久久久久久婷婷小说| 建设人人有责人人尽责人人享有的| 91aial.com中文字幕在线观看| 飞空精品影院首页| 亚洲熟女精品中文字幕| 成年av动漫网址| 国产成人免费观看mmmm| 精品国产一区二区三区四区第35| 国产精品免费大片| 国产av一区二区精品久久| 中国国产av一级| 在线天堂中文资源库| 9191精品国产免费久久| 亚洲第一区二区三区不卡| xxxhd国产人妻xxx| 免费看不卡的av| 美女扒开内裤让男人捅视频| 国产精品国产av在线观看| 亚洲精品久久午夜乱码| 国产男女超爽视频在线观看| 欧美 亚洲 国产 日韩一| 肉色欧美久久久久久久蜜桃| 免费日韩欧美在线观看| 亚洲欧美精品自产自拍| 色婷婷久久久亚洲欧美| 人成视频在线观看免费观看| 秋霞在线观看毛片| 99香蕉大伊视频| 亚洲图色成人| 亚洲美女视频黄频| 少妇精品久久久久久久| √禁漫天堂资源中文www| 欧美变态另类bdsm刘玥| 男女国产视频网站| 午夜福利一区二区在线看| 国产日韩一区二区三区精品不卡| 亚洲精品美女久久av网站| 国产1区2区3区精品| 国产精品.久久久| 亚洲自偷自拍图片 自拍| av网站免费在线观看视频| 亚洲欧美一区二区三区国产| 亚洲一区二区三区欧美精品| 热re99久久精品国产66热6| 日韩伦理黄色片| av在线老鸭窝| 激情五月婷婷亚洲| 精品人妻熟女毛片av久久网站| 丁香六月欧美| 天堂中文最新版在线下载| 一二三四在线观看免费中文在| 两性夫妻黄色片| 黑人巨大精品欧美一区二区蜜桃| 狂野欧美激情性xxxx| 免费看不卡的av| 亚洲精品av麻豆狂野| 国产精品av久久久久免费| 不卡av一区二区三区| 亚洲一区二区三区欧美精品| 悠悠久久av| 国产精品亚洲av一区麻豆 | 波多野结衣一区麻豆| 精品人妻一区二区三区麻豆| 日韩av免费高清视频| 黄片小视频在线播放| 嫩草影院入口| 满18在线观看网站| 亚洲三区欧美一区| 美女主播在线视频| 国产日韩欧美在线精品| 天堂8中文在线网| 国产在线免费精品|