• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于CNN和BiLSTM網(wǎng)絡(luò)特征融合的文本情感分析

      2018-12-14 05:26:24董紅斌
      計(jì)算機(jī)應(yīng)用 2018年11期
      關(guān)鍵詞:準(zhǔn)確率卷積向量

      李 洋,董紅斌

      (哈爾濱工程大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,哈爾濱 150001)(*通信作者電子郵箱852221609@qq.com)

      0 引言

      近年來(lái),隨著互聯(lián)網(wǎng)的高速發(fā)展,每天不斷地產(chǎn)生大量文本、音頻、圖片、視頻等數(shù)據(jù),其中文本信息的數(shù)據(jù)量最大,但文本信息雜亂無(wú)章,人工很難區(qū)分和整理,因此,對(duì)文本數(shù)據(jù)進(jìn)行分類(lèi)變得越來(lái)越重要。最初深度學(xué)習(xí)(Deep Learning)在圖像和語(yǔ)音識(shí)別領(lǐng)域取得了優(yōu)異成績(jī),而近年來(lái)深度學(xué)習(xí)在文本分類(lèi)中的應(yīng)用也越來(lái)越廣泛,與傳統(tǒng)的文本分類(lèi)方法,如樸素貝葉斯、K最近鄰(KNearest Neighbor,KNN)和支持向量機(jī)(Support Vector Machine, SVM)等算法相比,不需要人工設(shè)計(jì)特征[1],而是利用深度學(xué)習(xí)模型自動(dòng)提取文本特征,顯著提高了文本分類(lèi)的速度,并取得比傳統(tǒng)文本分類(lèi)更好的分類(lèi)效果。

      深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一條重要分支,深度學(xué)習(xí)是利用多重非線性變換結(jié)構(gòu)對(duì)數(shù)據(jù)進(jìn)行高階抽象的算法[2]。最近幾年,深度學(xué)習(xí)算法在自然語(yǔ)言處理領(lǐng)域取得了十分出色的成果,其中卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)充分利用多層感知器的結(jié)構(gòu),具備很好的學(xué)習(xí)復(fù)雜、高維和非線性映射關(guān)系的能力,在圖像識(shí)別任務(wù)和語(yǔ)音識(shí)別任務(wù)中得到廣泛的應(yīng)用[3-4],并取得很好的效果。Kalchbrenner等[5]提出把CNN應(yīng)用于自然語(yǔ)言處理,并設(shè)計(jì)了一個(gè)動(dòng)態(tài)卷積神經(jīng)網(wǎng)絡(luò)(Dynamic Convolution Neural Network, DCNN)模型,以處理不同長(zhǎng)度的文本; Kim[6]提出的英文文本分類(lèi)的模型,將經(jīng)過(guò)預(yù)處理的詞向量作為輸入,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)句子級(jí)別的分類(lèi)任務(wù)。雖然卷積神經(jīng)網(wǎng)絡(luò)在文本分類(lèi)中取得了巨大的突破,但是卷積神經(jīng)網(wǎng)絡(luò)更加關(guān)注局部特征而忽略詞的上下文含義,這對(duì)文本分類(lèi)的準(zhǔn)確率有一定的影響,所以本文利用雙向長(zhǎng)短時(shí)記憶(Bidirectional Long Short-Term Memory, BiLSTM) 網(wǎng)絡(luò)解決卷積神經(jīng)網(wǎng)絡(luò)模型忽略詞上下文含義的問(wèn)題。

      神經(jīng)網(wǎng)絡(luò)在特征的自動(dòng)學(xué)習(xí)和表達(dá)中發(fā)揮越來(lái)越重要的作用,對(duì)于序列化輸入,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)能夠把鄰近位置信息進(jìn)行有效整合[7-8],處理自然語(yǔ)言處理的各項(xiàng)任務(wù)。RNN的子類(lèi)長(zhǎng)短期記憶網(wǎng)絡(luò)模型(Long Short-Term Memory, LSTM)[9-10],對(duì)序列信號(hào)進(jìn)行建模的神經(jīng)網(wǎng)絡(luò)模型,可以作為復(fù)雜的非線性單元用來(lái)構(gòu)建大型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)能避免RNN的梯度消失問(wèn)題,具有更強(qiáng)的“記憶能力”,能夠很好地利用上下文特征信息和對(duì)非線性關(guān)系進(jìn)行擬合的能力,保留文本的順序信息。RNN有多種變種循環(huán)神經(jīng)網(wǎng)絡(luò)模型,主要應(yīng)用于文本分類(lèi)的有雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN)[11],由于文本中詞的語(yǔ)義信息不僅與詞之前的信息有關(guān),還與詞之后的信息有關(guān),兩個(gè)RNN左右傳播組合而成的雙向循環(huán)神經(jīng)網(wǎng)絡(luò)能進(jìn)一步提高文本分類(lèi)的準(zhǔn)確率。

      本文的主要貢獻(xiàn)如下:

      1) 利用BiLSTM代替?zhèn)鹘y(tǒng)RNN和LSTM,BiLSTM解決傳統(tǒng)RNN中梯度消失或梯度爆炸問(wèn)題;同時(shí)一個(gè)詞的語(yǔ)義與它之前信息和之后信息都有關(guān),而B(niǎo)iLSTM充分考慮詞在上下文的含義,克服了LSTM不能考慮詞之后信息的弊端。

      2) 將卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM進(jìn)行融合,既能利用卷積神經(jīng)網(wǎng)絡(luò)提取局部特征的優(yōu)勢(shì),又能利用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)兼顧文本序列全局特征的優(yōu)勢(shì),利用BiLSTM解決卷積神經(jīng)網(wǎng)絡(luò)在文本分類(lèi)中忽略詞的上下文含義的問(wèn)題,提高了特征融合模型在文本分類(lèi)的準(zhǔn)確率。

      1 詞向量

      1.1 詞嵌入

      深度學(xué)習(xí)方法進(jìn)行文本分類(lèi)的第一步是將文本向量化,利用詞向量表示文本,作為卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)模型的輸入。傳統(tǒng)的文本表示方法是基于向量空間模型或one-hot表示:向量空間模型中向量維度與詞典中詞的個(gè)數(shù)線性相關(guān),隨著詞數(shù)增多容易引起維度災(zāi)難;而one-hot雖然簡(jiǎn)單但忽略了詞之間的語(yǔ)義相關(guān)性。詞向量解決了向量空間模型和one-hot的問(wèn)題,將高維稀疏的特征向量映射為低維稠密的詞向量,有效避免了維度災(zāi)難的發(fā)生,且可以直接計(jì)算詞語(yǔ)之間的語(yǔ)義相關(guān)性。Bengio等[12]提出用神經(jīng)網(wǎng)絡(luò)概率語(yǔ)言模型(Neural network Probabilistic Language Model,NPLM)來(lái)處理文本信息。Mikolov等[13-14]基于NNLM(Neural Network Language Model)提出Word2vec模型,并給出了利用CBOW(Continuous Bag-Of-Words)和Skip-gram兩種模型構(gòu)建詞向量。與NNLM不同的是Word2vec不局限于利用前n-1個(gè)單詞來(lái)預(yù)測(cè)第n個(gè)單詞,而是以n為大小的窗口來(lái)計(jì)算窗口中心詞出現(xiàn)的概率,實(shí)現(xiàn)了利用上下文預(yù)測(cè)。CBOW和Skip-gram兩個(gè)都是以Huffman樹(shù)作為基礎(chǔ),Huffman樹(shù)中非葉子節(jié)點(diǎn)存儲(chǔ)的中間向量的初始化值是零向量,而葉子節(jié)點(diǎn)對(duì)應(yīng)詞的詞向量是隨機(jī)初始化的。CBOW是根據(jù)上下文預(yù)測(cè)一個(gè)詞,訓(xùn)練過(guò)程中由三部分構(gòu)成,如圖1所示,分別為:輸入層(input)、映射層(projection)和輸出層(output);輸入層為詞W(t)周?chē)膎-1個(gè)單詞的詞向量,如果n取5,則詞W(t)的前兩個(gè)詞為W(t-2),W(t-1),后兩個(gè)詞為W(t+1),W(t+2),它們對(duì)應(yīng)的向量記為V(W(t-2)),V(W(t-1)),V(W(t+1)),V(W(t+2)),從輸入層到映射層將4個(gè)詞的向量形式相加,而從映射層到輸出層需構(gòu)造Huffman樹(shù),從根節(jié)點(diǎn)開(kāi)始,映射層的值沿著Huffman樹(shù)進(jìn)行l(wèi)ogistic分類(lèi),并不斷修正各中間向量與詞向量,得到詞W(t)所對(duì)應(yīng)的詞向量V(W(t))。

      圖1 CBOW模型

      Skip-gram模型與CBOW剛好相反,如圖2所示,同樣由輸入層、映射層和輸出層構(gòu)成。Skip-gram輸入是當(dāng)前詞W(t)的向量形式,輸出是周?chē)~的向量形式,通過(guò)當(dāng)前詞來(lái)預(yù)測(cè)周?chē)脑~,如果上下文窗口大小設(shè)置為4,已知中間詞W(t)所對(duì)應(yīng)的向量形式為V(W(t)),利用V(W(t))預(yù)測(cè)出周?chē)?個(gè)詞所對(duì)應(yīng)的向量形式,Context(w)={V(W(t+2)),V(W(t+1)),V(W(t-1)),V(W(t-2))},Skip-gram模型計(jì)算周?chē)~向量是利用中間詞向量V(W(t))的條件概率值來(lái)求解,公式如下:

      P(V(W(i))|V(W(t)))

      (1)

      其中V(W(i))∈Context(w)。

      圖2 Skip-gram模型

      1.2 詞向量相似度

      通過(guò)將詞向量與向量空間模型和one-hot對(duì)比,發(fā)現(xiàn)詞向量維度由上千維稀疏向量變?yōu)榱说途S稠密的向量形式,同時(shí)詞向量中包含了自然語(yǔ)言中的語(yǔ)義和語(yǔ)法關(guān)系,通過(guò)Skip-gram模型訓(xùn)練得到的詞向量可以更加容易地計(jì)算詞語(yǔ)之間的語(yǔ)義相關(guān)性,利用詞向量之間余弦距離表示詞語(yǔ)之間的關(guān)系,余弦相似度值越大,詞語(yǔ)間關(guān)系越大,余弦相似度值越小,詞語(yǔ)間關(guān)系越小。如圖3所示是利用如家酒店3 000條評(píng)論分詞、去除停用詞等預(yù)處理后計(jì)算與“房間”這個(gè)詞最相關(guān)的10個(gè)詞及余弦相似度值。

      圖3 詞向量語(yǔ)義相似度

      2 CNN與BiLSTM特征融合模型

      2.1 卷積神經(jīng)網(wǎng)絡(luò)模型

      本文利用圖4所示的卷積神經(jīng)網(wǎng)絡(luò)模型提取局部特征。卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行文本分類(lèi)時(shí),首先將詞W(i)利用word2vec轉(zhuǎn)化為對(duì)應(yīng)的詞向量V(W(i)),并將由詞W(i)組成的句子

      映射為句子矩陣Sj。

      如圖4所示,其中V(W(i))∈Rk,代表句子矩陣Sj中第i個(gè)詞向量為K維詞向量,Sj∈Rm×k,m代表句子矩陣Sj中句子的個(gè)數(shù),句子矩陣Sj作為卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的嵌入層的向量矩陣。其中將句子矩陣表示為Sj={V(W(1)),V(W(2)),…,V(W(m))}。

      圖4 卷積神經(jīng)網(wǎng)絡(luò)模型示意圖

      卷積層用大小為r×k的濾波器對(duì)句子矩陣Sj執(zhí)行卷積操作,提取Sj的局部特征;

      ci=f(F·V(W(i:i+r-1))+b)

      (2)

      其中:F代表r×k的濾波器,b代表偏置量;f代表通過(guò)RELU進(jìn)行非線性操作的函數(shù);V(W(i:i+r-1))代表Sj中從i到i+r-1共r行向量;ci代表通過(guò)卷積操作得到的局部特征。隨著濾波器依靠步長(zhǎng)為1從上往下進(jìn)行滑動(dòng),走過(guò)整個(gè)Sj,最終得到局部特征向量集合C:

      C={c1,c2,…,cr-h+1}

      (3)

      對(duì)卷積操作得到的局部特征采用最大池化的方法提取值最大的特征代替整個(gè)局部特征,通過(guò)池化操作可以大幅降低特征向量的大小;

      di=maxC

      (4)

      最后將所有池化后得到的特征在全連接層進(jìn)行組合輸出向量U:

      U={d1,d2,…,dn}

      (5)

      最后將全連接層輸出的U輸入softmax分類(lèi)器中進(jìn)行分類(lèi),模型利用實(shí)際分類(lèi)中的標(biāo)簽,通過(guò)反向傳播算法進(jìn)行參數(shù)優(yōu)化。

      P(y|U,W,b)=softmax(F·U+b)

      (6)

      2.2 BiLSTM模型

      由于RNN能學(xué)習(xí)任意時(shí)間長(zhǎng)度序列的輸入,但隨著輸入的增多,難以學(xué)習(xí)到連接之間的關(guān)系,產(chǎn)生長(zhǎng)依賴(lài)問(wèn)題,即對(duì)前面時(shí)間的一些節(jié)點(diǎn)的感知力下降,進(jìn)而會(huì)發(fā)生梯度消失或者梯度爆炸現(xiàn)象。LSTM能解決RNN以上的問(wèn)題,其核心是利用記憶細(xì)胞記住長(zhǎng)期的歷史信息和用門(mén)機(jī)制進(jìn)行管理,門(mén)結(jié)構(gòu)不提供信息,只是用來(lái)限制信息量,加入門(mén)其實(shí)是一種多層次的特征選擇方式。如圖5所示,門(mén)機(jī)制中各個(gè)門(mén)和記憶細(xì)胞的表達(dá)式如下:

      LSTM遺忘門(mén)表達(dá)式:

      Zf=sigmoid(Wf·[V(W(i),ht-1]+bf)

      (7)

      LSTM輸入門(mén)表達(dá)式:

      Zi=sigmoid(Wi·[V(W(i)),ht-1]+bi)

      (8)

      Z=tanh(Wc·[V(W(i)),ht-1]+bc)

      (9)

      LSTM細(xì)胞更新表達(dá)式:

      Ct=Zf*Ct-1+Zi*Z

      (10)

      Zo=sigmoid(Wo·[V(W(i)),ht-1]+bo)

      (11)

      LSTM最后的輸出表達(dá)式:

      ht=Zo*tanh(Ct)

      (12)

      其中:Zf、Zi、Z、Zo分別代表遺忘門(mén),輸入門(mén),當(dāng)前輸入單元狀態(tài)和輸出門(mén);ht-1、ht分別代表前層隱層狀態(tài)和當(dāng)前隱層狀態(tài);Wf、Wi、Wc、Wo分別代表遺忘門(mén)的權(quán)重矩陣、輸入門(mén)的權(quán)重矩陣、當(dāng)前輸入單元轉(zhuǎn)態(tài)權(quán)重矩陣和輸出門(mén)的權(quán)重矩陣;bf、bi、bc、bo分別代表遺忘門(mén)偏置項(xiàng)、輸入門(mén)偏置項(xiàng)、當(dāng)前輸入單元偏置項(xiàng)和輸出門(mén)偏置項(xiàng)。

      圖5 LSTM單元結(jié)構(gòu)圖

      圖6所示為本文所用的BiLSTM模型。雖然LSTM解決了RNN會(huì)發(fā)生梯度消失或者梯度爆炸的問(wèn)題,但是LSTM只能學(xué)習(xí)當(dāng)前詞之前的信息,不能利用當(dāng)前詞之后的信息,由于一個(gè)詞的語(yǔ)義不僅與之前的歷史信息有關(guān),還與當(dāng)前詞之后的信息也有著密切關(guān)系,所以本文利用BiLSTM代替LSTM,既解決了梯度消失或者梯度爆炸的問(wèn)題,又能充分考慮當(dāng)前詞的上下文語(yǔ)信息。利用BiLSTM對(duì)句子矩陣Sj={V(W(1)),V(W(2)),…,V(W(m))}學(xué)習(xí),得到的文本特征具有全局性,充分考慮了詞在文本中的上下文信息。

      圖6 BiLSTM模型

      2.3 本文特征融合模型

      如圖7所示,本文的特征融合模型由卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短記憶網(wǎng)絡(luò)(BiLSTM)融合組成。卷積神經(jīng)網(wǎng)絡(luò)部分第一層是詞嵌入層,將詞嵌入層的句子矩陣作為輸入,矩陣的列是詞向量的維度,矩陣的行為sequence_length;第二層是卷積層,進(jìn)行卷積操作,提取局部特征,文獻(xiàn)[15]對(duì)基準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)參數(shù)進(jìn)行分析,當(dāng)詞向量100維時(shí),濾波器為3×100,4×100,5×100會(huì)取得較好的分類(lèi)效果,所以本文分別選用3×100,4×100,5×100大小濾波器各128個(gè),步長(zhǎng)stride大小設(shè)置為1,padding為VALID,進(jìn)行卷積運(yùn)算,通過(guò)卷積操作來(lái)提取句子的局部特征;第三層進(jìn)行最大池化操作,提取關(guān)鍵特征,舍棄冗余特征,生成固定維度的特征向量,將三個(gè)池化操作輸出的特征拼接起來(lái),作為第一層全連接層輸入特征的一部分。

      圖7 CNN與BiLSTM特征融合模型

      BiLSTM部分第一層是詞嵌入層,將嵌入層的句子矩陣作為輸入,每一個(gè)詞向量維度設(shè)置為100維;第二層、第三層均為隱藏層,隱藏層大小均為128,當(dāng)前輸入與前后序列都相關(guān),將輸入序列分別從兩個(gè)方向輸入模型,經(jīng)過(guò)隱含層保存兩個(gè)方向的歷史信息和未來(lái)信息,最后將兩個(gè)隱層輸出部分拼接,得到最后BiLSTM的輸出,代碼如下:

      output_blstm=rnn.static_bidirectional_rnn(fw,bw,inputs)

      利用BiLSTM模型提取詞的上下文語(yǔ)義信息,提取文本中詞的全局特征。本文在第一個(gè)全連接層(Fully Connected layers, FC)前,使用tensorflow框架中的concat()方法對(duì)CNN和BiLSTM輸出的特征進(jìn)行融合,融合代碼如下:

      output=tf.concat([output_cnn,output_blstm],axis=1)

      將融合后的特征保存在output中,作為第一個(gè)全連接層的輸入,在第一個(gè)全連接層與第二個(gè)全連接層之間引入dropout機(jī)制,每次迭代放棄部分訓(xùn)練好的參數(shù),使權(quán)值更新不再依賴(lài)部分固有特征,防止過(guò)擬合,最后輸入到softmax分類(lèi)器輸出分類(lèi)結(jié)果,本文softmax回歸中將x分類(lèi)為類(lèi)別j的概率為:

      (13)

      3 實(shí)驗(yàn)與分析

      3.1 實(shí)驗(yàn)環(huán)境

      本文實(shí)驗(yàn)環(huán)境如下:操作系統(tǒng)為Ubuntu16.04,CPU是Intel Core i5-7500,GPU為GeForce GTX 1050Ti,顯卡驅(qū)動(dòng)為NVIDIA-SMI 384.111,內(nèi)存大小為DDR3 8 GB,開(kāi)發(fā)環(huán)境為T(mén)ensorflow 1.2.1,開(kāi)發(fā)工具使用的是PyCharm。

      3.2 實(shí)驗(yàn)數(shù)據(jù)

      本文數(shù)據(jù)集分為兩個(gè)部分:第一部分實(shí)驗(yàn)數(shù)據(jù)為搜狗實(shí)驗(yàn)室的全網(wǎng)新聞數(shù)據(jù)(SogouCA),來(lái)自多家新聞?wù)军c(diǎn)近20個(gè)欄目的分類(lèi)新聞數(shù)據(jù),SogouCA數(shù)據(jù)為2012年6月— 7月期間國(guó)內(nèi)、國(guó)際、體育、社會(huì)、娛樂(lè)等18個(gè)頻道的新聞數(shù)據(jù),提供URL和正文信息,經(jīng)過(guò)預(yù)處理后,數(shù)據(jù)大小為2.3 GB左右,將其利用Skip-gram模型訓(xùn)練得到100維的詞向量; 第二部分?jǐn)?shù)據(jù)集是如家酒店的用戶評(píng)論數(shù)據(jù)集,正負(fù)樣本各3 000條。其中90%用作訓(xùn)練集,10%用作測(cè)試集。由于SogouCA語(yǔ)料庫(kù)規(guī)模足夠大能訓(xùn)練出高質(zhì)量的詞向量,所以本文利用訓(xùn)練SogouCA得到的100維詞向量去初始化第二部分的數(shù)據(jù)集,若第二部分?jǐn)?shù)據(jù)集中的詞在SogouCA數(shù)據(jù)中就將當(dāng)前詞利用SogouCA訓(xùn)練得到的詞向量表示,若沒(méi)有則采用隨機(jī)初始化方式表示。

      本文使用word Embedding將文本轉(zhuǎn)化為低維、稠密的詞向量。圖8是利用T-SNE(T-distributed Stochastic Neighbor Embedding)對(duì)如家酒店的用戶評(píng)論數(shù)據(jù)集中1 000個(gè)詞在低維空間中的可視化結(jié)果,低維空間可視化效果更直觀,相關(guān)性越大的數(shù)據(jù)距離越近,越會(huì)聚集在一塊。

      圖8 詞向量空間可視化

      3.3 實(shí)驗(yàn)參數(shù)

      實(shí)驗(yàn)參數(shù)的選取直接影響最后的實(shí)驗(yàn)結(jié)果,表1列出了本文融合模型的卷積部分和單CNN中的參數(shù)與對(duì)應(yīng)的參數(shù)值。表2列出了本文融合模型的雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)部分和單BiLSTM中的參數(shù)與對(duì)應(yīng)參數(shù)值。

      通過(guò)固定參數(shù)的方法,分別比較100維、200維的詞向量,滑動(dòng)窗口大小比較3、4、5、7,滑動(dòng)窗口數(shù)量分別取40、80、128進(jìn)行比較,dropout的比例對(duì)比了0.3、0.5、0.6,L2正則項(xiàng)λ比較了3、5、7對(duì)實(shí)驗(yàn)結(jié)果的影響,通過(guò)對(duì)比如上參數(shù)對(duì)模型準(zhǔn)確率的影響,當(dāng)取表1參數(shù)值時(shí)CNN模型取得了較好的分類(lèi)效果。

      表1 卷積神經(jīng)網(wǎng)絡(luò)參數(shù)

      BiLSTM的參數(shù)比較了100維、200維的詞向量,層數(shù)默認(rèn)取2層,隱藏層大小對(duì)比了128和256,最終發(fā)現(xiàn)詞向量100維、隱藏層大小為128時(shí)模型分類(lèi)準(zhǔn)確率最高。Adam通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)而為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率,不斷迭代更新網(wǎng)絡(luò)參數(shù),加快模型收斂,所以本文選取Adam作為優(yōu)化函數(shù)。

      3.4 實(shí)驗(yàn)結(jié)果及分析

      為驗(yàn)證本文提出的CNN和BiLSTM特征融合模型的分類(lèi)性能,分別將本文特征融合模型與單CNN模型、單BiLSTM模型、傳統(tǒng)機(jī)器學(xué)習(xí)SVM及其他深度學(xué)習(xí)模型進(jìn)行對(duì)比實(shí)驗(yàn)。

      本文首先在第二部分?jǐn)?shù)據(jù)集上將本文特征融合模型與單CNN模型和單模型BiLSTM進(jìn)行了對(duì)比,且特征融合模型中CNN和BiLSTM的參數(shù)與單CNN模型、單BiLSTM模型中的參數(shù)相同,均為表1、表2中的參數(shù)值,且學(xué)習(xí)率均設(shè)置為0.001。

      表2 BiLSTM模型參數(shù)

      圖9~10分別給出了單CNN模型、單BiLSTM模型和本文模型的準(zhǔn)確率和損失函數(shù)變化圖。

      圖9 3種模型準(zhǔn)確率比較

      由圖9對(duì)比發(fā)現(xiàn),融合模型在測(cè)試集上的收斂速度慢但準(zhǔn)確率均高于單CNN、單BiLSTM模型。對(duì)比圖10發(fā)現(xiàn),單CNN、單BiLSTM模型的loss值下降到穩(wěn)定值的速度比融合模型下降到穩(wěn)定值的速度快,但最終loss值都下降到了一個(gè)很低的穩(wěn)定值,模型都取得較好收斂效果。

      圖10 3種模型損失比較

      如表3所示,本文所提融合模型的分類(lèi)準(zhǔn)確率比單CNN[15]模型的分類(lèi)準(zhǔn)確率上提升了4.27%,比單BiLSTM模型[16]分類(lèi)準(zhǔn)確率提升3.31%。利用CNN提取文本局部特征,BiLSTM模型提取文本全局特征,將兩種互補(bǔ)模型進(jìn)行特征融合,取得了比單模型都好的分類(lèi)準(zhǔn)確率。

      表3 單模型和融合模型結(jié)果對(duì)比

      由于Sogou數(shù)據(jù)量過(guò)于龐大,本文從Sogou數(shù)據(jù)集中只選取了汽車(chē)和體育兩個(gè)類(lèi)別,且從每個(gè)類(lèi)別隨機(jī)抽取全部數(shù)據(jù)的一部分進(jìn)行實(shí)驗(yàn),本文利用Sogou新聞數(shù)據(jù)集中的汽車(chē)和體育兩類(lèi)數(shù)據(jù)集各3 000條,其中90%為訓(xùn)練集,10%為測(cè)試集。

      本文不僅與單模型進(jìn)行了對(duì)比,還與傳統(tǒng)的機(jī)器學(xué)習(xí)算法SVM及其他的深度學(xué)習(xí)模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表4所示。文獻(xiàn)[15]將文本特征提取、文本特征表示和歸一化后,輸入到SVM中學(xué)習(xí)分類(lèi)決策函數(shù),基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化,轉(zhuǎn)化為二次型尋優(yōu)問(wèn)題,求最優(yōu)值,雖然取得了較好的分類(lèi)效果,但本文融合模型分類(lèi)效果明顯優(yōu)于SVM;文獻(xiàn)[18]中提出的Attention Based LSTM模型,通過(guò)引入Attention model計(jì)算歷史節(jié)點(diǎn)對(duì)當(dāng)前節(jié)點(diǎn)的影響力權(quán)重,有效解決了信息丟失和信息冗余等長(zhǎng)期依賴(lài)問(wèn)題,探究了文本上下文對(duì)文本分類(lèi)的影響,提高了文本分類(lèi)的準(zhǔn)確性,但本文所提融合模型在分類(lèi)準(zhǔn)確率上取得了更好分類(lèi)結(jié)果;文獻(xiàn)[19]中Bag of Words文本分類(lèi)忽略了詞序、語(yǔ)法和句法信息,每個(gè)詞相互獨(dú)立,而文本模型充分利用了卷積神經(jīng)網(wǎng)絡(luò)模型提取局部特征和BiLSTM兼顧文本序列全局特征取得了優(yōu)于BOW文本分類(lèi)的效果, 并與文獻(xiàn)[20]中所提C-LSTM(CNN-LSTM)的CNN和LSTM統(tǒng)一模型相比較,C-LSTM首先通過(guò)使用CNN提取文本特征,然后將特征編碼輸入LSTM進(jìn)行分類(lèi),發(fā)現(xiàn)本文所提融合模型有效提高了文本分類(lèi)的準(zhǔn)確率。

      表4 融合模型與其他模型結(jié)果對(duì)比

      4 結(jié)語(yǔ)

      本文提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)和BiLSTM網(wǎng)絡(luò)的特征融合模型用于文本分類(lèi)研究,該模型既能利用卷積神經(jīng)網(wǎng)絡(luò)有效提取文本的局部特征,又可以利用BiLSTM兼顧文本的全局特征,充分考慮了詞的上下文語(yǔ)義信息。將本文所提融合模型與單CNN模型、單BiLSTM模型進(jìn)行了對(duì)比實(shí)驗(yàn),本文所提融合模型分類(lèi)準(zhǔn)確率優(yōu)于單CNN、單BiLSTM模型。此外本文還與傳統(tǒng)機(jī)器學(xué)習(xí)模型SVM及其他深度學(xué)習(xí)模型進(jìn)行了比較,結(jié)果表明本文所提特征融合模型在分類(lèi)準(zhǔn)確率上優(yōu)于對(duì)比的模型,本文融合模型有效地提升了文本分類(lèi)的準(zhǔn)確率。然而本文融合模型并未使用深度較深的卷積神經(jīng)網(wǎng)絡(luò),未來(lái)將研究深度較深的卷積神經(jīng)網(wǎng)絡(luò)融合BiLSTM模型對(duì)文本分類(lèi)準(zhǔn)確率的影響。

      猜你喜歡
      準(zhǔn)確率卷積向量
      向量的分解
      基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
      聚焦“向量與三角”創(chuàng)新題
      從濾波器理解卷積
      電子制作(2019年11期)2019-07-04 00:34:38
      高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
      基于傅里葉域卷積表示的目標(biāo)跟蹤算法
      向量垂直在解析幾何中的應(yīng)用
      垫江县| 黑水县| 万安县| 双牌县| 通州区| 北辰区| 兰溪市| 九江县| 安溪县| 金溪县| 德阳市| 吴忠市| 紫金县| 贞丰县| 蛟河市| 双鸭山市| 江阴市| 海城市| 潞城市| 彭阳县| 广州市| 咸宁市| 永修县| 庆阳市| 米易县| 临朐县| 宁乡县| 长岛县| 汾西县| 资中县| 萍乡市| 赞皇县| 涟源市| 穆棱市| 新和县| 虞城县| 城步| 英超| 大足县| 壶关县| 崇仁县|