• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    詞干單元和卷積神經(jīng)網(wǎng)絡(luò)的哈薩克短文本分類

    2020-09-07 01:49:42沙爾旦爾帕爾哈提米吉提阿不里米提艾斯卡爾艾木都拉
    小型微型計算機系統(tǒng) 2020年8期
    關(guān)鍵詞:詞干哈薩克語詞素

    沙爾旦爾·帕爾哈提,米吉提·阿不里米提,艾斯卡爾·艾木都拉

    (新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046)E-mail:sardar312@126.com

    1 引 言

    近年來,文本分類問題在許多實際應(yīng)用中得到了廣泛的研究和解決.尤其是隨著自然語言處理(NLP)和文本挖掘方面的技術(shù)突破,越來越多的研究人員開始對開發(fā)依賴于文本分類方法的應(yīng)用程序感興趣.文本分類是NLP領(lǐng)域的一個重要應(yīng)用.自動文本分類是根據(jù)文本的內(nèi)容或主題為文本自動分配一個或多個適當類別的方法[1-3].自動文本分類在情感分析[4],實時事件檢測[5],查找熱門話題[6]等信息檢索領(lǐng)域被廣泛應(yīng)用.文本分類中的一個關(guān)鍵問題是如何在計算機上有效地表示文本中的特征.

    哈薩克語是一種派生類語言.哈薩克語的句子由自然分開的詞組成.詞是由后綴所附的詞干構(gòu)成,因此,哈薩克語中構(gòu)詞和詞性變化較復(fù)雜,詞匯量巨大.其中,詞干是具有實際意義的詞匯單元,詞綴提供語義和語法功能,因此,通過對哈薩克文本的詞素切分以及詞干提取等預(yù)處理操作來我們可以保留有意義的和有效的文本特征,并能夠有效地降低特征的反復(fù)率和維數(shù).因此,詞干提取是哈薩克文本分類任務(wù)中重要的基礎(chǔ)性工作,如以下例子所示:

    (原型)jaresta jaresneN soNGe jares nomeren alep,taNdaw jarestan jENespEn votte.

    (詞素切分后)jares+tajares+neN soNGejaresnomer+en al+ep,taNdawjares+tan jENespEn vot+te.

    以上句子中文意思是:在比賽中取得比賽的[比賽]終局分數(shù),勝利地通過了選賽.在中文中大括號[]里的‘比賽’這個詞一般不會出現(xiàn)的,但在以上哈薩克句子中對應(yīng)于這個詞的第四個詞jares是必不可少的.

    以上哈薩克句子中有10個詞,其中四個詞的詞干(被加粗部分)都是/jares/(比賽),將以上句子經(jīng)過詞素切分和詞干提取后,四個詞的主要意思能夠由一個詞干來表示,并且可以獲取四個詞特征,因此大幅降低特征的維數(shù),如表1所示.

    表1 哈薩克詞語變體

    哈薩克語形態(tài)結(jié)構(gòu)上的多種變化以及缺乏的語言資源是哈薩克語NLP中的主要問題之一,從互聯(lián)網(wǎng)上搜集的文本數(shù)據(jù)具有帶噪聲的拼寫以及不確定的編碼等特點,因此,對帶噪聲的哈薩克短文本可靠地進行提取和分類變得一種富有挑戰(zhàn)的任務(wù).然而,帶噪聲短文本數(shù)據(jù)的提取與分類是哈薩克語NLP必然的重要一環(huán).

    目前,部分學(xué)者提出了一些哈薩克文本詞干提取[7,8]和分類方法[7,8,10-12].文獻[7]用詞干和附加成分表對訓(xùn)練文本的詞語進行分割,并結(jié)合哈薩克語詞法規(guī)則來提取詞干.文獻[8]用詞法分析和雙向全切分相結(jié)合的方法對哈薩克文本進行詞綴切分和詞干提取,并與預(yù)先準備好的詞干表進行匹配,來試圖提高詞干提取的效率.以往的這些哈薩克文本詞干提取有關(guān)的研究大多基于簡單的詞法分析和一些人工收集的規(guī)則,因此存在歧義,尤其是對于短文本而言.哈薩克語詞干提取任務(wù)中一個特殊的問題是語音的和諧與不和諧,這個問題導(dǎo)致詞形的變化,這需要句子層面的語境分析來解決.我們提出的基于句子或較長上下文的詞素切分和詞干提取方法[9]能夠為整個哈薩克句子提供形態(tài)分析功能,能夠準確地預(yù)測到帶噪聲的哈薩克文本中的詞干與詞條,并且可以有效地降低文本中的歧義.

    文獻[11]用SVM分類器在包括五個類別的460篇哈薩克文本的語料庫上進行文本分類實驗,并得到87.6%的分類準確率,文中沒有提到被用到的文本表示和特征選擇方法.文獻[7]對詞頻和語言信息進行簡單的統(tǒng)計來選擇特征,在包括五個類別的296篇哈薩克文本的語料庫上進行文本分類實驗,該實驗把KNN選作為分類器,并得到84.98%的平均分類準確率.文獻[10]用向量空間文本表示模型提取哈薩克文本的特征,用文本頻率比值法(DFR-Document Frequency Ratio)進行特征選擇,以SVM和改進的KNN為分類器,在包括五個類別的200篇哈薩克文本的語料庫上進行文本分類實驗,并得到82.2%的分類準確率.文獻[12]用專屬于維吾爾語或者哈薩克語文字的特殊字符、維吾爾語和哈薩克語字母組合方式和詞綴的差異以及這兩種語言發(fā)音習(xí)慣的不同而產(chǎn)生的字母上的差異等啟發(fā)式特征對單詞數(shù)不超過14的維吾爾語和哈薩克語短文本進行文本語種分類實驗,并得到95.1%的精確率,該文沒有對語料庫文本內(nèi)容所屬的類別進行分類.文獻[8]用DFR方法對原始特征空間進行降維,把SVM和KNN分類器相結(jié)合,先用SVM確定每個類別的支持向量,然后用歐氏距離計算測試樣本和支持向量之間的距離,以此在包括八個類別的1400篇哈薩克文本的語料庫上進行文本分類實驗,并得到77.8%的平均分類精度,文中沒有提到文本特征表示所用的方法.在哈薩克文本分類中被使用的這些方法對詞的頻率進行簡單的統(tǒng)計,用傳統(tǒng)的特征表示方法(其中部分研究中用到的文本表示方法是未知的)來表示哈薩克文本特征以及對傳統(tǒng)的分類器做一些簡單的結(jié)合來實現(xiàn)分類器的改進.

    上述哈薩克文本分類方法是淺層的機器學(xué)習(xí),其中文本的語義含義不明確,忽略了文本較長的上下文信息,不能夠有效的捕獲詞語之間的語義關(guān)系,特征提取和選擇需要人工完成,分類準確率低.因此,哈薩克文本分類任務(wù)迫切需要一種有效特征提取和選擇的方法來提高其分類的效率.

    本文提出了基于詞干單元和word2vec_TFIDF以及卷積神經(jīng)網(wǎng)絡(luò)(CNN)的哈薩克短文本分類方法.通過對齊的詞-詞素平行訓(xùn)練語料庫來訓(xùn)練統(tǒng)計模型,并從互聯(lián)網(wǎng)上收集的哈薩克短文本中高效地提取其詞干,用word2vec算法對詞干進行向量化,并使用詞頻-逆文檔頻率(TFIDF)算法對詞干向量進行加權(quán)處理,以此提取包含文本上下文之間語義關(guān)系的有效文本特征后,利用CNN作為特征選擇和文本分類算法,進行文本分類實驗.

    2 哈薩克文本表示和分類方法

    隨著神經(jīng)網(wǎng)絡(luò)的興起,許多適合自然語言的神經(jīng)網(wǎng)絡(luò)模型被提出[13,14].Bengio等人[13]2003年提出了一種基于神經(jīng)網(wǎng)絡(luò)的語言模型構(gòu)建方法.在此基礎(chǔ)上,Miklov等人[14]2013年提出了word2vec算法,并通過文本上下文信息來描述一個單詞的表示,得到了可以表示單詞之間的語義關(guān)系的低維的密集向量.

    2.1 哈薩克文本處理

    由廣泛的跨語言和跨文化交流所引起的書寫形式上的不確定性在給哈薩克文本帶來噪聲的同時,也導(dǎo)致新詞、新概念和新表達的持續(xù)出現(xiàn).這些新詞大多是借用新進的外來詞(OOV)或詞干,以及由于拼寫習(xí)慣的不同和方言的變形而引起的噪音整合而成.哈薩克語書寫系統(tǒng)在歷史上的變化是引起不確定的書寫形式的另外一個重要原因之一.現(xiàn)代社會的哈薩克語書寫形式也被這些書寫系統(tǒng)所影響,雖然在官方媒體出現(xiàn)的可能性不大,但是廣泛地在網(wǎng)上論壇和聊天工具中存在.

    我們實驗室開發(fā)的多語言詞素切分和詞干提取工具[16,17]將哈薩克語單詞分割成詞干和詞綴等詞匯單元.該工具根據(jù)哈薩克語的詞素與語音規(guī)則,從對齊的哈薩克詞-詞素平行句子中能夠自動地學(xué)習(xí)哈薩克語詞語的各種表面形式與聲學(xué)變化.哈薩克語具有詞素邊界上的音素根據(jù)語音和諧規(guī)則改變其表面形式的特點.在正確地表達詞語的發(fā)音時,文本中可以明顯地觀察到語音和諧.一個候選詞送入給該詞素切分器[16,17]的搜索模塊之后,通過根據(jù)哈薩克語的詞素規(guī)則準備的詞干和詞綴列表以及語音和諧與不和諧等語音規(guī)則來迭代地運用匹配方法對候選詞進行切分,該候選詞被逐漸切分,分別與詞干、詞綴列表以及詞的各種表面形式匹配,并導(dǎo)出所有可能的詞素切分形式.然后,這些切分結(jié)果送入給統(tǒng)計模塊,并計算所有切分結(jié)果的概率之后,從前N個最好的切分結(jié)果中選擇最佳詞素.該工具為有效地提取哈薩克語文本中的詞干提供了可靠的依據(jù),有效地改進了哈薩克短文本分類任務(wù),詞素切分流程如圖1所示.

    圖1 詞素切分流程

    本文中用該詞素切分工具[16,17]在5000個哈薩克詞-詞素平行訓(xùn)練句子上訓(xùn)練統(tǒng)計模型(其中80%的部分用于訓(xùn)練,剩余部分用于測試),并進行詞素切分與詞干提取實驗,最終得到95.87%的詞干提取準確率,如圖2所示.這是通過切分工具所得到的與人工切分的詞素完全匹配的結(jié)果.

    圖2 詞素切分結(jié)果

    通常,網(wǎng)上收集到的文本語料庫中不同文本所包含的單詞數(shù)是不一樣的.因此,為使語料庫中的文本詞數(shù)相等,以便生成隨后輸入到CNN網(wǎng)絡(luò)中的文本矩陣,我們對文本集執(zhí)行填充操作來修改文本中的詞數(shù).本文對語料庫每個原始文本中的單詞數(shù)量進行了統(tǒng)計,如圖3所示(圖3中,橫軸表示文本中的單詞數(shù)量,縱軸表示不同單詞數(shù)量對應(yīng)的文本數(shù)量).

    圖3 實驗文本詞長統(tǒng)計

    從圖3可以看出,文本集中的文本大概包含60到120個詞左右,其中詞數(shù)約在100個左右的文本數(shù)量最多.所以,本實驗中輸入給CNN的所有文本的標準詞數(shù)選為100.詞數(shù)不到100的文本,則后向補零處理.同理,從文本集中提取詞干,并形成詞干序列文本集之后,選擇了每篇文本中的前100個詞干為CNN的輸入,如果詞干數(shù)不到100,則后向補零處理,以生成CNN所需的輸入矩陣.

    2.2 基于word2vec_TFIDF的文本表示

    2.2.1 詞向量學(xué)習(xí)方法

    詞(詞干)嵌入是通過word2vec技術(shù)從訓(xùn)練語料庫中生成的以詞出現(xiàn)的上下文為基的實數(shù)向量[18].Word2vec訓(xùn)練所生成的詞干向量可以用作許多自然語言處理任務(wù).兩個詞干之間的語義相似度可以通過計算這兩個詞干的詞干向量之間的距離來容易地被判斷.Word2vec中有兩種主要的學(xué)習(xí)算法:CBOW(連續(xù)詞袋)算法[19]和Skip-gram算法[20].

    CBOW是根據(jù)上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c來預(yù)測當前的詞干st出現(xiàn)的概率p(st|st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c).CBOW模型通過c個上下文詞干來表示當前的詞干st,c是預(yù)選窗口的大小,用CBOW算法對文本進行訓(xùn)練后得到詞干st的詞干向量,如圖4所示.本文使用CBOW算法進行詞干向量的訓(xùn)練.

    圖4 CBOW模型結(jié)構(gòu)

    與之相反,Skip-gram 是根據(jù)當前詞干st來預(yù)測上下文詞干st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c的出現(xiàn)概率p(st-c,s(t-c)-1,…,st-1,st+1,st+2,…,st+c|st).

    我們通過計算采用word2vec工具所形成的詞干向量之間的余弦距離來能夠判斷詞干之間的語義相似度.詞干向量之間的余弦距離值越大,則詞干的語義相似度越高;反之,語義相似度就越低,如表2所示.

    表2 詞干向量語義相似度

    從表2可以看出,通過詞干向量之間余弦值的計算,獲得的與哈薩克詞干vaqxa(人民幣)和 tor(網(wǎng)絡(luò))語義相似度最高的五個詞干.

    2.2.2TFIDF權(quán)重

    對于包M含個文本的集合D,其中Di(i=1,2,…,M),通過CBOW模型得到詞干向量.對于文本中的每個詞干,通過TF-IDF算法計算其權(quán)重值tfidf(t,D),它是指詞干t在文本Di(i=1,2,…,M)中的權(quán)重值.TF-IDF考慮單個文本中的詞干頻率tf和整個文本集的詞干頻率idf.TF-IDF的計算公式如公式(1)所示:

    (1)

    其中,tf(t,Di)是詞干t在第i個文本中的出現(xiàn)頻率,分母是歸一化因子.idf(f)是詞干t的逆文檔頻率,計算公式如公式(2)所示:

    (2)

    其中,M是訓(xùn)練集中文本總數(shù),nt是詞干t在訓(xùn)練集中的出現(xiàn)頻率.

    每個詞干的詞干向量被tfidf值加權(quán)來表示一個文本,如公式(3)所示:

    (3)

    vec(Di)指的是每個文本Di的詞干向量,wt表示詞干t的N維詞干向量,tfidf(t,Di)表示詞干t在文本Di中的TF-IDF權(quán)重值.

    2.3 卷積神經(jīng)網(wǎng)絡(luò)框架

    CNN是Lecun等人[21]提出的一種深度學(xué)習(xí)模型,Kim[22]首次把CNN用于文本分類.CNN可以在詞干向量的基礎(chǔ)上自動提取和學(xué)習(xí)句子的特征,從而減少了對人工選擇特征的依賴性,并優(yōu)化了特征選擇的效果.CNN在結(jié)構(gòu)上的主要特點是卷積層和最大池化層的交替累積.本文中用的CNN模型由4個不同的層組成,分別為:輸入層、兩個卷積層、兩個池化層和全連接層,如圖5所示.

    圖5 CNN框架

    1)輸入層.CNN的第一層是輸入層,其中輸入?yún)?shù)是文本預(yù)訓(xùn)練后得到的詞干向量.輸入矩陣的形式是(n,s,k),其中n是文本的數(shù)目,s是固定的文本長度(CNN輸入文本的長度需要相同),k是詞干向量的維數(shù).v(wi)∈Rk表示對應(yīng)于第i詞干wi的k維子詞干向量.在這種情況下,輸入文本可以表示為公式(4).其中,?是級聯(lián)運算符號.

    t1:s=v(w1)?v(w2)?…?v(ws)

    (4)

    2)卷積層.卷積層是網(wǎng)絡(luò)的核心部分.該層通過卷積核來對網(wǎng)絡(luò)前一層的特征圖進行卷積運算,以此生成新特征.卷積運算采用卷積矩陣窗口w∈Rk×h來生成一個新的特征圖.其中,k是詞干向量的維數(shù),h是窗口內(nèi)詞干的數(shù)目.每個新生成的特征值可以從公式(5)中獲得.

    ct=f(w·Wi:i+h-1+b)

    (5)

    在公式(5)中,ci是由一個窗口詞干wi:i+h-1所生成的一個新特征,b是偏置項,算子“·”是指卷積運算,f()是激活函數(shù).當卷積矩陣窗口移動一步時,所有輸入矩陣由窗口(w1:h,w2:h,…,ws-h+1:s)卷積,并生成相應(yīng)的特征映射c=(c1,c2,…,cs-h+1).

    3)池化層.池化層的輸入是在卷積層中生成的特征矩陣.池化層的功能是對由卷積層所生成的特征圖進行采樣.本文使用最大池化方法,因為它能夠使模型提取最突出的特征,如公式(6)所示.在公式(6)中,ci表示在卷積層中產(chǎn)生的特征圖,m是特征圖的數(shù)目.

    cmax=max(ci) 0

    (6)

    4)全連接層.CNN的最后一層是全連接層,它將所有的特征和輸出值連接到分類器.該層使用Softmax分類器對來自池化層的特征向量進行分類操作,并輸出最后的分類結(jié)果.

    對于文本集Di(i=1,2,…,N),利用CBOW模型對文本進行訓(xùn)練后得到文本向量vec(Di).然后,對所有得到的文本向量進行修改,以形成卷積神經(jīng)網(wǎng)絡(luò)處理所需的矩陣.CNN的輸入文本可以表示為公式(7).其中,T1:n表示所有的輸入文本,?是級聯(lián)運算符.

    T1:n=vec(D1)+vec(D2)+…vec(Dn)

    (7)

    3 實驗結(jié)果及分析

    因為哈薩克文本分類處于初級研究階段,沒有公開的哈薩克文本語料庫,所以構(gòu)建哈薩克文本語料庫需要從網(wǎng)上下載文本,才能進進行實驗.

    3.1 實驗語料庫

    本文通過爬蟲官方哈薩克文網(wǎng)(1)kazakh.people.com.cn,從網(wǎng)上下載哈薩克文本來建立實驗語料庫.該語料庫包含旅游、教育、科技、文華、經(jīng)濟、法律、娛樂和體育等8個類別,每個類別有900篇文本,共7200篇文本.本文用75%文本作為訓(xùn)練集,10%文本作為驗證集,其余部分作為測試集.

    哈薩克文本因受其它語言的影響以及個性化等原因,從網(wǎng)絡(luò)上下載的文本容易出現(xiàn)拼寫錯誤.所以我們編寫了哈薩克文字拼寫檢查程序.該程序是通過對哈薩克語音節(jié)的結(jié)構(gòu)形式和規(guī)則進行分析,從而能夠找到存在拼寫錯誤的大部分哈薩克詞匯和不規(guī)則的外來詞,這樣我們便能更正給定詞匯中的拼寫錯誤.拼寫檢查程序流程如圖6所示.

    圖6 哈薩克文本拼寫檢查程序流程

    盡管Unicode是默認的編碼方案,但不同的操作系統(tǒng)和組織仍在使用不同的編碼.因此,我們建立一個代碼映射表,將語料庫中的文本集從各種不同的編碼形式轉(zhuǎn)換成統(tǒng)一的拉丁文字母編碼形式,然后用詞干提取工具從所有的文本中提取詞干,以構(gòu)建詞干序列文本語料庫.基于統(tǒng)計模型的哈薩克文本詞干提取方法可以有效地減少文本特征空間的維數(shù),其中,除掉停用詞后(停用詞數(shù)為1085),詞干詞匯的數(shù)量明顯地下降到詞詞匯數(shù)量的30%左右,如表3所示.

    表3 詞干提取引起的特征空間維數(shù)的減少

    從語料庫的文本集中提取詞干后,通過CBOW算法對此進行訓(xùn)練,生成詞干向量;同時,對于語料庫的文本沒有進行詞素切分和詞干提取的情況下,通過CBOW算法直接在詞序列構(gòu)成的原始文本上進行訓(xùn)練,以此生成詞向量.在word2vec訓(xùn)練時,詞與詞干嵌入維度和訓(xùn)練窗口的尺寸都設(shè)置為默認值,即,分別是100和5,迭代次數(shù)設(shè)置為5,batch_word設(shè)置為10000.取得詞與詞干向量之后,用TFIDF算法分別對所取得的詞與詞干向量進行加權(quán).

    3.2 評價指標

    常用于評價文本分類器性能的指標有準確率、精確率、召回率和F1分數(shù)等,對于某一個類別Ci的分類結(jié)果而言,如果正確分為該類的文本數(shù)目是a,錯誤劃歸為該類的文本數(shù)目是b,將該類文本錯誤劃歸為其他類的文本數(shù)目是c,屬于其他類的文本正確分為所屬類的文本數(shù)為d,則可以得到這些指標的計算公式如下:

    (8)

    (9)

    (10)

    (11)

    本文使用準確率和宏F1分數(shù)評測了所提出方法的性能.宏F1分數(shù)是一個全局性指標,它同時兼顧了分類模型的精確率和召回率.計算宏F1分數(shù)時,先要計算每個類別的F1分數(shù),然后計算它們的算術(shù)平均值作為宏F1分數(shù).

    3.3 實驗結(jié)果及分析

    本文實驗使用Pytorch在具有GPU支持的Linux CentOS-7操作系統(tǒng)上實現(xiàn)CNN框架.本文將通過詞素切分工具對文本集進行切分,并提取其詞干之后,通過word2vec及TFIDF算法對詞干進行向量化和加權(quán),用KNN[7,8,10]、NB、SVM[7,8,11]和CNN等方法進行了比較實驗.其中,在KNN、NB、SVM等傳統(tǒng)方法中,通過x2特征選擇方法對文本的特征維數(shù)進行降維,并把x2值最大的前100到2000之間的詞干項選作為新的特征,以此分別進行了實驗,如表4所示.

    表4 基于傳統(tǒng)方法的分類結(jié)果

    基于CNN的方法中,本文用word2vec算法從文本集中分別生成100×100的詞與詞干兩種向量,并用TFIDF算法對此進行加權(quán)之后,輸入給CNN,做了基于詞與詞干的分類實驗.本文實驗了包括2個、4個和6個卷積層的多種CNN模型結(jié)構(gòu).從這些實驗中發(fā)現(xiàn),對本文的文本分類任務(wù)而言,最好的CNN模型結(jié)構(gòu)由兩組卷積層組成,每個卷積層后面跟著一個最大池化層.本文通過反復(fù)實驗來確定在每個卷積層上設(shè)計尺寸為5×100的128個卷積核的效果最好.在第二個最大池化層之后,用一個dropout策略來避免發(fā)生過擬合現(xiàn)象,其dropout值設(shè)置為0.5.然后,附加一個長度為64的全連接層,后面跟著第二個dropout策略,最后的全連接層有八個節(jié)點,代表八個類別,每個節(jié)點的輸出通過 softmax 函數(shù)后可以歸一化,softmax 輸出值可以理解為這八個類別的概率分布,如圖5所示.CNN通過迭代計算獲得權(quán)重,經(jīng)過多次迭代后得到理想的參數(shù),本次實驗中,本文做了150次迭代運算,實驗結(jié)果如表5所示.

    表5 基于CNN的分類結(jié)果

    從表4和表5可以看出,基于KNN、NB和SVM的分類準確率最高時分別達85.49%、92.07%和93.64%.基于CNN的實驗中,不論是基于詞單元還是基于詞干單元,其分類準確率都隨著迭代次數(shù)的增加而提高,并分別達到93.71%和95.39%后,大概收斂于93.4%和95.2%左右.本文提出的方法與傳統(tǒng)模型相比,分類準確率分別高出9.9%、3.32%和1.75%.基于詞干的分類準確率比基于詞的分類準確率高出1.68%,證明對于粘著性語言的文本分類任務(wù)而言,基于詞干的分類方法能夠提高其分類的效果.

    為了驗證本文中利用的word2vec_TFIDF融合特征表示方法在文本分類任務(wù)中的性能,本文在沒有對詞與詞干進行預(yù)訓(xùn)練和用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練情況下,將CNN作為分類器,分別在詞單元和詞干單元上進行了文本分類實驗,并與本文中提出的方法分類結(jié)果進行了比較.在CNN+rand方法中,CNN模型結(jié)構(gòu)保持不變,但沒有對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,而分別直接輸入給CNN,輸入的分布式特征將按高斯分布隨機初始化,然后在訓(xùn)練過程中被修改的;在CNN+word2vec方法中,CNN模型結(jié)構(gòu)還是保持不變,但將用word2vec算法分別對詞與詞干進行預(yù)訓(xùn)練來表示文本特征,并分別把訓(xùn)練所得到的詞與詞干向量輸入給CNN.本次實驗中,為了公平比較,本文用了150次迭代運算,比較實驗結(jié)果如表6所示.

    表6 基于不同文本表示方法的分類結(jié)果

    從表6可以看出,基于word2vec_TFIDF融合特征的詞與詞干單元文本表示方法所得到的分類準確率分別比基于沒有預(yù)訓(xùn)練的和基于word2vec預(yù)訓(xùn)練的詞與詞干單元分類準確率分別高出3.87%、4.16%和0.52%、0.44%.基于詞干和word2vec_TFIDF融合特征的分類損失值明顯地小于其它兩種方法的分類損失值.由此可知,基于word2vec_TFIDF的融合文本表示方法能夠在考慮詞頻重要度的基礎(chǔ)上有效地獲取文本上下文之間的語義信息,以提高文本的分類準確率.

    4 總 結(jié)

    文本分類已經(jīng)成為處理海量信息的主要手段,特別是對具有噪聲數(shù)據(jù)的低資源語言而言,可靠的文本分類方法至關(guān)重要.哈薩克語是一種粘著性派生類語言,詞是由多個后綴所附的詞干構(gòu)成,后綴提供語義與句法功能,這一性質(zhì)在理論上產(chǎn)生了無限的詞匯量.所以,詞素切分與詞干提取是哈薩克語NLP的必要途徑.Word2vec詞嵌入技術(shù)可以將語言單元映射成基于上下文的順序向量空間.從上下文信息中獲取和預(yù)測OOV是一種有效的方法.本文討論了一種基于詞素與語音規(guī)則的哈薩克文本詞干提取方法,以及一種基于word2vec_TFIDF融合特征和CNN的文本分類方法.本文中,哈薩克文本分類任務(wù)分別用不同的特征表示方法在不同的詞匯單元上實現(xiàn).實驗結(jié)果顯示,本文提出的基于詞干單元和融合特征表示以及卷積神經(jīng)網(wǎng)絡(luò)的方法可以獲得95.39%的分類準確率,與基于其它詞匯單元和文本表示的文本分類方法相比,本文的方法中分類性能顯著提高.可見,對于哈薩克語等派生類粘著性語言的自然語言處理任務(wù)而言,有效的詞素切分和詞干提取方法能夠提高其效率.

    猜你喜歡
    詞干哈薩克語詞素
    論柯爾克孜語詞干提取方法
    維吾爾語詞綴變體搭配規(guī)則研究及算法實現(xiàn)
    詞素配價理論與應(yīng)用
    亞太教育(2018年5期)2018-12-01 04:58:23
    從詞素來源看現(xiàn)代漢語詞素同一性問題
    辭書研究(2017年3期)2017-05-22 14:04:16
    哈薩克語附加成分-A
    詞素溶合與溶合詞素
    融合多策略的維吾爾語詞干提取方法
    基于維吾爾語詞干詞綴粒度的漢維機器翻譯
    哈薩克語比喻及其文化特征
    語言與翻譯(2014年2期)2014-07-12 15:49:28
    “v+n+n”結(jié)構(gòu)的哈薩克語短語歧義分析與消解
    語言與翻譯(2014年2期)2014-07-12 15:49:13
    欧美成人午夜免费资源| 日韩在线高清观看一区二区三区| 国产xxxxx性猛交| 黄片小视频在线播放| 欧美最新免费一区二区三区| 国产有黄有色有爽视频| 2022亚洲国产成人精品| 国产欧美日韩综合在线一区二区| 亚洲欧美成人综合另类久久久| 国产精品国产三级专区第一集| 中文字幕人妻熟女乱码| 男人操女人黄网站| 黑人猛操日本美女一级片| 国产精品欧美亚洲77777| 久久久久久久精品精品| 一二三四中文在线观看免费高清| 亚洲国产色片| 18禁观看日本| 九九爱精品视频在线观看| 久久精品国产a三级三级三级| 久久久久久久大尺度免费视频| 国产精品久久久久久久久免| a级毛片黄视频| 韩国高清视频一区二区三区| 国产成人欧美| 九九爱精品视频在线观看| h视频一区二区三区| videosex国产| 纵有疾风起免费观看全集完整版| 欧美精品人与动牲交sv欧美| 看非洲黑人一级黄片| 亚洲伊人久久精品综合| 91久久精品国产一区二区三区| 免费在线观看黄色视频的| 国产精品亚洲av一区麻豆 | 秋霞伦理黄片| 欧美精品亚洲一区二区| 成年人午夜在线观看视频| 成人二区视频| 美国免费a级毛片| 精品少妇内射三级| 中文字幕精品免费在线观看视频| 少妇猛男粗大的猛烈进出视频| 性色avwww在线观看| 午夜福利视频精品| 久久久久人妻精品一区果冻| 久久久久国产一级毛片高清牌| av免费在线看不卡| 有码 亚洲区| 亚洲国产欧美在线一区| 久久精品国产自在天天线| 青草久久国产| av福利片在线| 日本午夜av视频| 欧美日韩亚洲国产一区二区在线观看 | 亚洲人成电影观看| 欧美日韩国产mv在线观看视频| 免费在线观看黄色视频的| 永久网站在线| 久久久欧美国产精品| 老汉色∧v一级毛片| 国产精品久久久久成人av| 国产日韩一区二区三区精品不卡| av免费观看日本| 国产熟女欧美一区二区| 国产xxxxx性猛交| 18禁动态无遮挡网站| 一边摸一边做爽爽视频免费| 日韩欧美一区视频在线观看| 老鸭窝网址在线观看| 99热网站在线观看| 久久精品久久精品一区二区三区| 狠狠精品人妻久久久久久综合| 国产又色又爽无遮挡免| 成人毛片60女人毛片免费| 日本wwww免费看| 人人澡人人妻人| 婷婷色av中文字幕| 国产精品二区激情视频| 91国产中文字幕| 两个人看的免费小视频| 午夜激情av网站| 精品人妻一区二区三区麻豆| 波野结衣二区三区在线| 精品午夜福利在线看| 嫩草影院入口| 国产野战对白在线观看| 你懂的网址亚洲精品在线观看| 日韩伦理黄色片| av卡一久久| 亚洲av综合色区一区| 赤兔流量卡办理| 国产精品国产三级专区第一集| 国产男女内射视频| 亚洲三区欧美一区| 18+在线观看网站| 成人毛片60女人毛片免费| 夫妻午夜视频| 久久精品夜色国产| 亚洲,欧美精品.| 国产精品无大码| 亚洲精品国产色婷婷电影| 一边摸一边做爽爽视频免费| 宅男免费午夜| 精品人妻偷拍中文字幕| 看免费av毛片| 老汉色∧v一级毛片| 国产精品.久久久| 欧美日韩视频精品一区| 在线观看国产h片| 欧美日韩精品网址| 亚洲三级黄色毛片| 国产一区二区三区av在线| 国产精品欧美亚洲77777| 99热全是精品| 国产午夜精品一二区理论片| 亚洲国产精品999| 巨乳人妻的诱惑在线观看| 精品人妻一区二区三区麻豆| 久久久久久久亚洲中文字幕| 三级国产精品片| a 毛片基地| 国产精品久久久久久久久免| 日韩精品免费视频一区二区三区| 一二三四在线观看免费中文在| 最近2019中文字幕mv第一页| 不卡av一区二区三区| 久久精品国产综合久久久| 啦啦啦中文免费视频观看日本| av卡一久久| 婷婷色综合www| 久久热在线av| 亚洲精品国产一区二区精华液| 亚洲一级一片aⅴ在线观看| 18在线观看网站| 视频在线观看一区二区三区| 久久99一区二区三区| 亚洲中文av在线| 久久久久精品人妻al黑| 汤姆久久久久久久影院中文字幕| 在线观看免费高清a一片| 香蕉精品网在线| www.av在线官网国产| 欧美人与性动交α欧美精品济南到 | 色吧在线观看| 麻豆乱淫一区二区| 熟女av电影| 最黄视频免费看| 久久99热这里只频精品6学生| 在线观看www视频免费| 色94色欧美一区二区| 菩萨蛮人人尽说江南好唐韦庄| 亚洲av免费高清在线观看| 国产精品久久久av美女十八| 电影成人av| 亚洲精品久久午夜乱码| 成人二区视频| 亚洲精品美女久久久久99蜜臀 | 一级毛片黄色毛片免费观看视频| av片东京热男人的天堂| 水蜜桃什么品种好| 国产精品二区激情视频| 国产欧美日韩综合在线一区二区| 国产成人aa在线观看| 久久这里有精品视频免费| 男人操女人黄网站| 高清不卡的av网站| 精品人妻一区二区三区麻豆| 亚洲av日韩在线播放| 一本色道久久久久久精品综合| 亚洲综合精品二区| 晚上一个人看的免费电影| 人妻一区二区av| 天天操日日干夜夜撸| 18禁裸乳无遮挡动漫免费视频| 免费在线观看视频国产中文字幕亚洲 | 99国产精品免费福利视频| 亚洲精品,欧美精品| 精品国产国语对白av| 新久久久久国产一级毛片| 欧美日韩综合久久久久久| 午夜久久久在线观看| 国产精品免费视频内射| 亚洲精品一二三| 国产黄色免费在线视频| av电影中文网址| 国产又爽黄色视频| 人成视频在线观看免费观看| 最近中文字幕高清免费大全6| 久久人人97超碰香蕉20202| 国产成人精品久久久久久| 免费久久久久久久精品成人欧美视频| 亚洲精品在线美女| 高清黄色对白视频在线免费看| www.精华液| 如何舔出高潮| 在线天堂最新版资源| av网站在线播放免费| 国产一级毛片在线| 在线天堂最新版资源| 制服人妻中文乱码| 国产精品久久久久久久久免| 寂寞人妻少妇视频99o| 亚洲欧洲精品一区二区精品久久久 | 两个人看的免费小视频| 伊人久久国产一区二区| 久久人妻熟女aⅴ| av网站在线播放免费| 97人妻天天添夜夜摸| 亚洲美女搞黄在线观看| 亚洲成人一二三区av| 天天躁夜夜躁狠狠躁躁| 国产成人午夜福利电影在线观看| 肉色欧美久久久久久久蜜桃| 亚洲精品aⅴ在线观看| 久久久精品国产亚洲av高清涩受| 成人漫画全彩无遮挡| 午夜福利影视在线免费观看| 欧美成人午夜精品| 波多野结衣av一区二区av| 大话2 男鬼变身卡| 视频区图区小说| 色吧在线观看| 青青草视频在线视频观看| √禁漫天堂资源中文www| 国产成人精品婷婷| 国产精品欧美亚洲77777| 中国国产av一级| 久久韩国三级中文字幕| 国产成人免费无遮挡视频| av卡一久久| av女优亚洲男人天堂| 欧美日韩亚洲高清精品| 欧美成人午夜免费资源| 精品人妻一区二区三区麻豆| 欧美97在线视频| 国产午夜精品一二区理论片| 久久久久久久久久人人人人人人| 国产精品成人在线| 国产成人av激情在线播放| 王馨瑶露胸无遮挡在线观看| 欧美精品亚洲一区二区| 亚洲精品一区蜜桃| 欧美av亚洲av综合av国产av | 人妻少妇偷人精品九色| 亚洲国产成人一精品久久久| 美女中出高潮动态图| 热99久久久久精品小说推荐| 中文字幕人妻丝袜一区二区 | 90打野战视频偷拍视频| 欧美少妇被猛烈插入视频| 亚洲av在线观看美女高潮| 这个男人来自地球电影免费观看 | 老女人水多毛片| 大香蕉久久成人网| 精品国产国语对白av| 欧美黄色片欧美黄色片| 国精品久久久久久国模美| h视频一区二区三区| 日韩一卡2卡3卡4卡2021年| 日韩 亚洲 欧美在线| 99精国产麻豆久久婷婷| 国产亚洲午夜精品一区二区久久| 精品人妻一区二区三区麻豆| 成人手机av| 下体分泌物呈黄色| 亚洲国产日韩一区二区| 亚洲综合色惰| 久久精品国产a三级三级三级| 成人毛片a级毛片在线播放| videossex国产| 一区二区日韩欧美中文字幕| 久久这里只有精品19| 老司机亚洲免费影院| 精品人妻在线不人妻| 日韩大片免费观看网站| 最近2019中文字幕mv第一页| 国产成人精品久久久久久| 久久人人爽av亚洲精品天堂| 97在线人人人人妻| 一级,二级,三级黄色视频| 激情五月婷婷亚洲| 天天躁狠狠躁夜夜躁狠狠躁| 亚洲美女黄色视频免费看| 水蜜桃什么品种好| 国产在线免费精品| 在线观看国产h片| 极品少妇高潮喷水抽搐| 日韩一本色道免费dvd| 好男人视频免费观看在线| 久久精品aⅴ一区二区三区四区 | 欧美精品亚洲一区二区| 国产成人午夜福利电影在线观看| 少妇人妻 视频| 丝袜脚勾引网站| 中文字幕人妻丝袜制服| 亚洲情色 制服丝袜| 久久精品熟女亚洲av麻豆精品| 欧美日韩视频精品一区| 侵犯人妻中文字幕一二三四区| 国产精品一区二区在线观看99| 免费av中文字幕在线| 黄色 视频免费看| 你懂的网址亚洲精品在线观看| 91精品国产国语对白视频| 日韩精品免费视频一区二区三区| 99香蕉大伊视频| 三级国产精品片| 精品国产乱码久久久久久男人| 美女福利国产在线| 久热这里只有精品99| 亚洲一级一片aⅴ在线观看| 妹子高潮喷水视频| 欧美日本中文国产一区发布| 久久综合国产亚洲精品| 国产精品麻豆人妻色哟哟久久| 精品一区二区三区四区五区乱码 | 亚洲欧美成人综合另类久久久| 9热在线视频观看99| 免费观看在线日韩| 黄色怎么调成土黄色| 久久久久久久亚洲中文字幕| 在线观看免费日韩欧美大片| 制服人妻中文乱码| 超碰成人久久| 国产成人欧美| 一级片免费观看大全| 91在线精品国自产拍蜜月| 欧美97在线视频| 久久精品久久久久久噜噜老黄| 久久精品国产综合久久久| 亚洲在久久综合| 精品久久久久久电影网| 国产一级毛片在线| 交换朋友夫妻互换小说| 看免费av毛片| 岛国毛片在线播放| www.熟女人妻精品国产| 久热这里只有精品99| 日韩一卡2卡3卡4卡2021年| 熟妇人妻不卡中文字幕| 亚洲精品自拍成人| 国产 精品1| 黑丝袜美女国产一区| 青青草视频在线视频观看| a级片在线免费高清观看视频| 久久久久久伊人网av| 久久精品国产亚洲av天美| 最新的欧美精品一区二区| 亚洲欧美精品综合一区二区三区 | 七月丁香在线播放| 高清在线视频一区二区三区| 香蕉国产在线看| 精品国产超薄肉色丝袜足j| 寂寞人妻少妇视频99o| 国产高清国产精品国产三级| 欧美97在线视频| 亚洲av成人精品一二三区| 久久久久久久大尺度免费视频| 国产成人精品无人区| 我要看黄色一级片免费的| 日本免费在线观看一区| 一本久久精品| 国产成人精品久久二区二区91 | 久久精品久久精品一区二区三区| 中文字幕人妻丝袜一区二区 | 日韩三级伦理在线观看| 欧美日韩亚洲高清精品| 午夜福利在线观看免费完整高清在| 午夜老司机福利剧场| 高清视频免费观看一区二区| 国产av国产精品国产| 男女无遮挡免费网站观看| 国产亚洲欧美精品永久| 久久精品国产亚洲av天美| 国产精品秋霞免费鲁丝片| 国产日韩欧美视频二区| 成人亚洲欧美一区二区av| av国产精品久久久久影院| 99久久人妻综合| 一级,二级,三级黄色视频| 少妇的丰满在线观看| 久久国产亚洲av麻豆专区| 国产精品蜜桃在线观看| 国产免费福利视频在线观看| 自拍欧美九色日韩亚洲蝌蚪91| 最近手机中文字幕大全| 久久精品国产亚洲av天美| 90打野战视频偷拍视频| 亚洲国产av影院在线观看| 99九九在线精品视频| 伊人久久国产一区二区| 精品国产乱码久久久久久男人| 午夜激情久久久久久久| 亚洲国产成人一精品久久久| 丝袜人妻中文字幕| 国产日韩欧美视频二区| 欧美日韩一区二区视频在线观看视频在线| 在线观看国产h片| 另类精品久久| 亚洲av日韩在线播放| 亚洲国产精品成人久久小说| 你懂的网址亚洲精品在线观看| 亚洲四区av| 女性生殖器流出的白浆| 久久精品国产综合久久久| 看免费成人av毛片| 丝袜美足系列| 少妇被粗大的猛进出69影院| 桃花免费在线播放| 欧美日韩成人在线一区二区| 成人国语在线视频| 国产免费福利视频在线观看| 午夜激情久久久久久久| 亚洲av在线观看美女高潮| 日韩一本色道免费dvd| 久久久久精品性色| 18+在线观看网站| 久久久精品国产亚洲av高清涩受| 精品少妇一区二区三区视频日本电影 | 美女中出高潮动态图| 欧美日韩一级在线毛片| 欧美日韩av久久| 伦理电影大哥的女人| 国产一区亚洲一区在线观看| 丝瓜视频免费看黄片| 一级,二级,三级黄色视频| xxxhd国产人妻xxx| 18+在线观看网站| 日本vs欧美在线观看视频| 一本大道久久a久久精品| 另类亚洲欧美激情| 国产精品偷伦视频观看了| 91精品国产国语对白视频| 国产av一区二区精品久久| 超色免费av| 亚洲综合精品二区| 成年动漫av网址| 亚洲精品视频女| 亚洲国产欧美网| 天天影视国产精品| 亚洲精品日韩在线中文字幕| 午夜91福利影院| 久久久久久久大尺度免费视频| 香蕉丝袜av| 亚洲内射少妇av| 国产野战对白在线观看| 亚洲av欧美aⅴ国产| 五月伊人婷婷丁香| videossex国产| 伊人久久国产一区二区| 日韩人妻精品一区2区三区| 久久久国产一区二区| 久久精品国产鲁丝片午夜精品| 中文字幕另类日韩欧美亚洲嫩草| 熟女少妇亚洲综合色aaa.| 久久久久久人妻| 日韩精品有码人妻一区| 啦啦啦啦在线视频资源| 91国产中文字幕| 天天躁夜夜躁狠狠躁躁| 街头女战士在线观看网站| 99久国产av精品国产电影| 男女啪啪激烈高潮av片| 亚洲欧美一区二区三区国产| 日本色播在线视频| 女的被弄到高潮叫床怎么办| 一级毛片 在线播放| 精品99又大又爽又粗少妇毛片| 中国三级夫妇交换| 国产又爽黄色视频| 亚洲情色 制服丝袜| 亚洲欧美成人精品一区二区| 精品少妇内射三级| 国产成人精品在线电影| 咕卡用的链子| 免费观看在线日韩| 国产精品一二三区在线看| 大香蕉久久成人网| 97在线人人人人妻| 免费不卡的大黄色大毛片视频在线观看| 午夜福利一区二区在线看| 精品一区在线观看国产| 国产成人精品福利久久| 日韩欧美精品免费久久| 亚洲精品日韩在线中文字幕| 在线免费观看不下载黄p国产| 看非洲黑人一级黄片| 欧美亚洲日本最大视频资源| 国产97色在线日韩免费| 国产免费又黄又爽又色| 久久综合国产亚洲精品| 日韩,欧美,国产一区二区三区| 一本久久精品| av在线观看视频网站免费| 韩国精品一区二区三区| 国产欧美日韩综合在线一区二区| 美女午夜性视频免费| 一级毛片电影观看| 久久亚洲国产成人精品v| 少妇猛男粗大的猛烈进出视频| 国产成人精品在线电影| 777久久人妻少妇嫩草av网站| 一级,二级,三级黄色视频| 三上悠亚av全集在线观看| 久久久精品国产亚洲av高清涩受| 一区福利在线观看| 男女国产视频网站| 女性生殖器流出的白浆| 性色avwww在线观看| 婷婷色麻豆天堂久久| 亚洲三区欧美一区| 少妇人妻久久综合中文| 日韩制服丝袜自拍偷拍| 男女边吃奶边做爰视频| 国产午夜精品一二区理论片| 午夜日韩欧美国产| 看十八女毛片水多多多| 国产在视频线精品| 国产黄频视频在线观看| 亚洲精品国产av蜜桃| 熟女少妇亚洲综合色aaa.| 少妇被粗大的猛进出69影院| 99久久综合免费| 久久精品人人爽人人爽视色| 777久久人妻少妇嫩草av网站| 日韩av不卡免费在线播放| 成年av动漫网址| 国产男人的电影天堂91| 考比视频在线观看| 一二三四中文在线观看免费高清| 在线天堂最新版资源| 亚洲精品成人av观看孕妇| 天天躁夜夜躁狠狠久久av| 亚洲一区中文字幕在线| 国产免费现黄频在线看| 午夜免费鲁丝| 男人添女人高潮全过程视频| 亚洲国产av影院在线观看| 久久人人97超碰香蕉20202| a级毛片在线看网站| 久久久久久久久免费视频了| 18+在线观看网站| 久久综合国产亚洲精品| 亚洲成av片中文字幕在线观看 | 亚洲欧洲精品一区二区精品久久久 | kizo精华| 日韩成人av中文字幕在线观看| 1024香蕉在线观看| 黄片播放在线免费| 日韩一区二区视频免费看| 国产成人免费观看mmmm| 少妇精品久久久久久久| 久久这里只有精品19| 狠狠精品人妻久久久久久综合| 成人手机av| 亚洲精品成人av观看孕妇| 大香蕉久久成人网| 精品少妇一区二区三区视频日本电影 | 又大又黄又爽视频免费| 青春草国产在线视频| 老鸭窝网址在线观看| 韩国精品一区二区三区| 免费久久久久久久精品成人欧美视频| 成人免费观看视频高清| a级毛片黄视频| 91aial.com中文字幕在线观看| 亚洲第一av免费看| av一本久久久久| 国产av码专区亚洲av| 97人妻天天添夜夜摸| 菩萨蛮人人尽说江南好唐韦庄| 亚洲三级黄色毛片| 精品少妇内射三级| 国产在线视频一区二区| 日韩 亚洲 欧美在线| 菩萨蛮人人尽说江南好唐韦庄| 免费少妇av软件| 黄色毛片三级朝国网站| 久久久久久久久久人人人人人人| 久久精品夜色国产| 亚洲av欧美aⅴ国产| 成年av动漫网址| 久久久a久久爽久久v久久| 久久影院123| 成人亚洲精品一区在线观看| 久久韩国三级中文字幕| 一级片免费观看大全| 亚洲欧美日韩另类电影网站| 亚洲国产av新网站| 国产精品久久久久久精品古装| 亚洲精品乱久久久久久| 日本欧美视频一区| 免费观看无遮挡的男女| 深夜精品福利| 亚洲精品国产av成人精品| 18在线观看网站| 婷婷色av中文字幕| xxx大片免费视频| 天天影视国产精品| 校园人妻丝袜中文字幕| 免费大片黄手机在线观看| 亚洲国产精品成人久久小说| 成人毛片60女人毛片免费| 久久人人97超碰香蕉20202| 亚洲熟女精品中文字幕| 成年动漫av网址| 啦啦啦视频在线资源免费观看| 久久女婷五月综合色啪小说| 在线免费观看不下载黄p国产| 欧美日韩成人在线一区二区| 一级爰片在线观看| 2018国产大陆天天弄谢| 国产精品.久久久| 我要看黄色一级片免费的|