吳瓊, 陳鍛生
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)
多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的情感分類技術(shù)
吳瓊, 陳鍛生
(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 福建 廈門 361021)
結(jié)合卷積神經(jīng)網(wǎng)絡(luò)對(duì)于特征提取的優(yōu)勢和循環(huán)神經(jīng)網(wǎng)絡(luò)的長短時(shí)記憶算法的優(yōu)勢,提出一種新的基于多尺度的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型,利用卷積神經(jīng)網(wǎng)絡(luò)中的多尺寸濾波器提取出具有豐富上下文關(guān)系的詞特征,循環(huán)神經(jīng)網(wǎng)絡(luò)中的長短時(shí)記憶算法將提取到的詞特征與句子的結(jié)構(gòu)聯(lián)系起來,從而完成文本情感分類任務(wù).實(shí)驗(yàn)結(jié)果表明:與多種文本情感分類方法相比,文中算法具有較高的精度.
文本情感分類; 卷積神經(jīng)網(wǎng)絡(luò); 循環(huán)神經(jīng)網(wǎng)絡(luò); 長短時(shí)記憶; 多尺度
從海量而龐雜的網(wǎng)絡(luò)評(píng)論信息中分析和挖掘用戶的興趣取向或公眾態(tài)度,已成為政府和業(yè)界關(guān)注的問題.網(wǎng)絡(luò)輿情文本的情感分類技術(shù)已經(jīng)成為自然語言處理的研究熱點(diǎn).目前,情感分類方法有多種.基于深度學(xué)習(xí)的分類方法,傳統(tǒng)的支持向量機(jī)、樸素貝葉斯的分類方法和基于句法分析的方法都有不錯(cuò)的效果.Wang等[1]提出多項(xiàng)樸素貝葉斯(MNB)模型和使用樸素貝葉斯特征的支持向量機(jī)模型(NBSVM).為了防止過擬合,Hinton等[2]提出dropout方法;Wang等[3]通過對(duì)dropout方法進(jìn)行改進(jìn),提出高斯dropout(G-dropout)和快dropout(F-dropout).Dong等[4]從另外一個(gè)角度,根據(jù)情感表達(dá)的方式,構(gòu)建統(tǒng)計(jì)分析器,得出句子的情感極性.卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)通過卷積濾波器提取特征[5].Kalchbrenner等[6]利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)句子進(jìn)行建模.Kim[7]利用一個(gè)簡單的單層卷積神經(jīng)網(wǎng)絡(luò),通過多種輸入特征與參數(shù)設(shè)置方式進(jìn)行對(duì)比實(shí)驗(yàn).Severyn等[8]使用與Kim相似的卷積網(wǎng)絡(luò)結(jié)構(gòu),但是參數(shù)初始化方式不同,完成對(duì)twitter文本的情感分析.Zhang等[9]針對(duì)Kim提出的卷積神經(jīng)網(wǎng)絡(luò),從多個(gè)角度對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行討論.另一種網(wǎng)絡(luò)結(jié)構(gòu)是循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)在梯度反向傳播過程中,可能會(huì)產(chǎn)生梯度消失現(xiàn)象.為了解決這個(gè)問題,Hochreiter等[10]提出了長短時(shí)記憶模型.可以看出,卷積神經(jīng)網(wǎng)絡(luò)可以方便地利用濾波器的尺寸,提取句子中每個(gè)詞與其上文和下文中的關(guān)系,而通過使用長短時(shí)記憶模型可以處理任意句子長度序列,還可以更好地體現(xiàn)句子語法規(guī)范.因此,為了更加方便靈活地提取詞的上下文特征,充分利用語言特性,本文提出了基于多尺度的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型.
提出的多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型,如圖1所示.它包含兩級(jí)結(jié)構(gòu):在卷積神經(jīng)網(wǎng)絡(luò)部分,使用Mikolov等[11]從谷歌新聞中訓(xùn)練出來的300維的詞向量作為每個(gè)詞對(duì)應(yīng)的特征,通過多尺度的卷積濾波器,提取多種具有豐富上下文的信息的特征;循環(huán)神經(jīng)網(wǎng)絡(luò)通過將得到的詞的上下文信息特征進(jìn)行組合,輸入到網(wǎng)絡(luò)中,最終的到情感分類結(jié)果.
圖1 多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型Fig.1 Model architecture with multiscale convolution recurrence neural network
1.1句子矩陣
xi表示一個(gè)句子的第i個(gè)詞所對(duì)應(yīng)的詞向量,每個(gè)詞向量的維度為300維.由于句子包含的單詞數(shù)量不等,通過補(bǔ)0的方式,將句子全部擴(kuò)充成相同的長度.那么,一個(gè)長度為n的句子可以表示為
式(1)中:+代表詞向量的縱向連接操作.那么,利用谷歌的詞向量,就可以將所有句子都轉(zhuǎn)換成大小相同的句子矩陣X1:n∈Rn×300,作為模型的輸入.
1.2卷積提取特征
對(duì)句子矩陣卷積操作時(shí),會(huì)涉及濾波器的選擇及初始化.一個(gè)濾波器W∈Rhk,其中,h代表每次卷積參與到的詞的數(shù)量,也就是濾波器的尺寸;k代表詞向量的維度,這樣一個(gè)濾波器通過與一個(gè)包含h個(gè)詞的字符串進(jìn)行卷積運(yùn)算后,就得到了一個(gè)標(biāo)量特征.如當(dāng)W濾波器卷積某一個(gè)字符串Xi:i+h-1時(shí),特征ci就產(chǎn)生了,其表達(dá)式為
式(2)中:b∈R是一個(gè)偏置項(xiàng);f是一個(gè)非線性激活函數(shù).那么,當(dāng)這個(gè)濾波器對(duì)整個(gè)句子矩陣進(jìn)行逐窗口{X1:h,X2:h+1,…,Xn-h+1:n}計(jì)算時(shí),就會(huì)產(chǎn)生一個(gè)特征圖C∈Rn-h+1,表示為
在特征圖產(chǎn)生后,并不對(duì)它進(jìn)行池化操作,因?yàn)榈玫降奶卣黜樞驅(qū)η楦蟹诸愑泻艽蟮淖饔?不難理解,句子之所以構(gòu)成句子,是因?yàn)樗窃~的有序組合,所以會(huì)產(chǎn)生語法和句法.因此,特征的順序?qū)τ诰渥咏Y(jié)構(gòu)的表示具有重要性.
以上描述了一種尺寸的濾波器對(duì)一個(gè)句子矩陣進(jìn)行操作的過程.文中模型使用多尺寸的濾波器,每種尺寸包含多個(gè)濾波器對(duì)輸入矩陣進(jìn)行操作.所以,在對(duì)句子矩陣進(jìn)行多尺寸的多個(gè)濾波器濾波后,每種尺寸的多個(gè)濾波器產(chǎn)生出多個(gè)特征圖.那么,通過某一尺寸的某個(gè)濾波器得到的特征圖C,變換成
式(4)中:i表示第i個(gè)尺寸的濾波器,實(shí)驗(yàn)采用3種尺寸的濾波器;j表示同一尺寸的第j個(gè)濾波器,由于卷積神經(jīng)網(wǎng)絡(luò)中的濾波器的參數(shù)是隨機(jī)生成的,同一尺寸包含的多個(gè)濾波器可以提取多種不同的特征,從而獲得同一尺寸下更豐富的特征,更精準(zhǔn)地分析句子情感.對(duì)得到的多個(gè)特征圖進(jìn)行組合,即
式(5),(6)中:i代表第i種濾波器尺寸;m代表每個(gè)尺寸濾波器的個(gè)數(shù).這樣,就得到輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入特征.
1.3循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)模型是長短時(shí)記憶的循環(huán)神經(jīng)網(wǎng)絡(luò)[10],其模型結(jié)構(gòu)如圖2所示.
圖2 RNN結(jié)構(gòu)圖Fig.2 Architecture of RNN
長短時(shí)記憶(long short-term memory,LSTM)算法引入了一個(gè)新的內(nèi)存單元的結(jié)構(gòu),它主要包含4個(gè)主要元素:輸入門、自連接的神經(jīng)元、忘記門和輸出門.輸入門控制輸入信號(hào)的多少;輸出門控制內(nèi)存單元輸出對(duì)其他神經(jīng)元的影響;忘記門控制自連接神經(jīng)元受多少之前狀態(tài)的影響.它的每一個(gè)內(nèi)存單元標(biāo)識(shí)為一個(gè)LSTM單元,每個(gè)LSTM單元按照下式,逐個(gè)時(shí)刻t進(jìn)行計(jì)算,即
式(7)~(12)中:σ表示sigmoid函數(shù);W*,U*表示隨機(jī)初始化的參數(shù),下標(biāo)i,c,f,o分別代表輸入門、自連接、忘記門和輸出門.
那么,通過將每種尺寸濾波器濾波得到的特征Mi,逐一輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中的對(duì)應(yīng)位置,從而得到對(duì)應(yīng)尺寸的狀態(tài)向量hi,最后,將每種尺寸濾波器得到的狀態(tài)向量拼接成一個(gè)狀態(tài)向量,送入softmax分類器進(jìn)行[0,1]分類,便可得到句子所對(duì)應(yīng)的情感分類.
1.4正則化
在訓(xùn)練模型的過程中,使用dropout方法和權(quán)重向量L2范數(shù)約束[2]這兩種方法防止過擬合現(xiàn)象的發(fā)生.dropout方法是通過人為設(shè)置的隨機(jī)概率,將一些單元設(shè)置為0,從而讓網(wǎng)絡(luò)中的有些節(jié)點(diǎn)不工作.對(duì)于不工作的那些節(jié)點(diǎn),可以暫時(shí)認(rèn)為不是網(wǎng)絡(luò)結(jié)構(gòu)的一部分,但是它的權(quán)重也要保留,因?yàn)檫@些節(jié)點(diǎn)的權(quán)重只是暫時(shí)不更新.當(dāng)下一批樣本輸入時(shí),它就有可能又要工作,那么當(dāng)訓(xùn)練模型的時(shí)候,相當(dāng)于每一次都在訓(xùn)練不同的網(wǎng)絡(luò),所以通過這樣的方法可以有效地防止過擬合現(xiàn)象的發(fā)生.而權(quán)重向量的L2范數(shù)約束是在梯度更新過程中,將權(quán)重的L2范數(shù)強(qiáng)制的約束在某一范圍中,使權(quán)重參數(shù)的元素值都很小,避免出現(xiàn)個(gè)別元素的值較大,對(duì)分類結(jié)果產(chǎn)生較大影響,從而有效地防止過擬合現(xiàn)象,提高模型的泛化能力.
為了測試文中模型,將提出的多尺度卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型與其他模型的情感分類實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析.實(shí)驗(yàn)使用的是預(yù)訓(xùn)練的詞向量,它來源于谷歌開源的word2vector工具,連續(xù)詞袋結(jié)構(gòu)從谷歌新聞中訓(xùn)練而來,向量的維度是300維[11].使用3種數(shù)據(jù)集進(jìn)行對(duì)比分析,一個(gè)是電影評(píng)論(MR)的數(shù)據(jù)集,每條數(shù)據(jù)是由一句話組成,總共包含5 331個(gè)消極評(píng)論和5 331個(gè)積極評(píng)論;一個(gè)是多種產(chǎn)品的顧客評(píng)論(CR),總共包含1 367條消極評(píng)論和2 406條積極評(píng)論;一個(gè)是觀點(diǎn)極性判斷的數(shù)據(jù)集(MRQA),一共包含7 293條消極觀點(diǎn)和3 311條積極評(píng)論.其中,MR數(shù)據(jù)集與CR數(shù)據(jù)集是評(píng)論數(shù)據(jù)集,它們的語句長度更長,而MRQA數(shù)據(jù)集主要是判斷觀點(diǎn)極性,所以數(shù)據(jù)集中的句子長度相對(duì)較短,甚至包含部分的單個(gè)單詞和單詞短語.3個(gè)數(shù)據(jù)集的標(biāo)簽都是采用0和1對(duì)情感極性進(jìn)行標(biāo)注,其中,0代表消極,1代表積極.
對(duì)于所有數(shù)據(jù)集,采用5折交叉驗(yàn)證;迭代次數(shù)為30次;L2范數(shù)的約束系數(shù)設(shè)置為3;每批訓(xùn)練的大小為50個(gè)句子;dropout設(shè)置為0.5;選擇3種濾波器尺寸,分別為5,7,9;特征圖選擇的數(shù)量為200.卷積前句子長度是對(duì)應(yīng)數(shù)據(jù)集中句子的最大長度,而當(dāng)輸入到LSTM模型時(shí),句子長度變?yōu)榫矸e前數(shù)據(jù)集中最大句子長度減去濾波器大小的長度,對(duì)應(yīng)每個(gè)單詞向量的維度變?yōu)樘卣鲌D的數(shù)量(即200維),LSTM模型最終的輸出為二維向量,分別代表其情感極性.對(duì)于句子長度較長的數(shù)據(jù)集,濾波器的尺寸選擇在一定范圍內(nèi)的增加可以提高準(zhǔn)確率;但是當(dāng)尺寸選擇過大、甚至超越句子的平均長度時(shí),準(zhǔn)確率就會(huì)降低很多.由于特征圖是用來盡可能提取豐富的特征,所以特征圖選的數(shù)量越多,會(huì)增加實(shí)驗(yàn)的準(zhǔn)確率;當(dāng)增加到一定程度時(shí),準(zhǔn)確率基本不變化;再繼續(xù)增大時(shí),反而會(huì)降低準(zhǔn)確率.隨著濾波器的尺寸和特征圖數(shù)量的增加,訓(xùn)練過程會(huì)變得相當(dāng)耗時(shí),且需要較大的內(nèi)存空間存儲(chǔ).因此,通過對(duì)比不同數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果,選擇對(duì)各個(gè)數(shù)據(jù)集都相對(duì)合適的參數(shù).
采用隨機(jī)梯度下降算法的Adadelta更新規(guī)則[12],該更新規(guī)則可以自適應(yīng)地調(diào)整學(xué)習(xí)率,減少人為指定學(xué)習(xí)率給更新帶來的影響.為了保證算法的魯棒性,避免隨機(jī)擾動(dòng)帶來的影響,實(shí)驗(yàn)結(jié)果是經(jīng)過多次實(shí)驗(yàn)求平均值的結(jié)果,從而使該方法有更好的魯棒性.情感分類結(jié)果準(zhǔn)確率(η),如表1所示.表1中:
表1 情感分類結(jié)果Tab.1 Sentiment classification results
M-CNN-RNN代表文中提出的模型.
選擇對(duì)比的模型都是近幾年比較經(jīng)典的模型,并且都在數(shù)據(jù)集中取得了不錯(cuò)的效果.通過對(duì)比實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),提出的模型獲得了很好的結(jié)果.通過卷積神經(jīng)網(wǎng)絡(luò)多種尺寸的濾波器,可以提取比一般三元語法特征更多更廣泛的上下文特征.在卷積神經(jīng)網(wǎng)絡(luò)后面連接循環(huán)神經(jīng)網(wǎng)絡(luò)分類器可以將詞與句子的語法關(guān)系更好地體現(xiàn)出來,而且可以充分地利用卷積濾波器所提取出來的特征.所以,文中模型可以超越幾乎所有的模型,也可以看出,提出的模型很適合情感分類任務(wù).但是在MR和CR數(shù)據(jù)集中,情感分類結(jié)果略低于CNN兩種模型結(jié)構(gòu)的準(zhǔn)確率.因?yàn)樵谠u(píng)論數(shù)據(jù)集中,通常句子主要是表達(dá)用戶及顧客的情感,然而卻并不注意句子的語法規(guī)范,所以語句中的重點(diǎn)很明顯,其他字詞起的作用不大.而恰好在CNN-not-static和CNN-multichannel兩種模型中,它們?cè)谶M(jìn)行卷積濾波操作后,對(duì)得到的特征進(jìn)行池化操作,會(huì)將卷積濾波后所提取到特征中的最顯著的特征保存下來,然后進(jìn)行分類.而文中模型是利用卷積濾波器得到的全部特征進(jìn)行情感分類,為了保證特征的完整性,并沒有進(jìn)行池化操作.因此,CNN兩種模型的準(zhǔn)確率會(huì)略高于文中模型.
通過結(jié)合深度學(xué)習(xí)領(lǐng)域中常用的兩種主流方法卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),提出基于多尺度的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型.該模型利用卷積神經(jīng)網(wǎng)絡(luò)中的多尺寸濾波器,提取出具有豐富上下文關(guān)系的詞特征,循環(huán)神經(jīng)網(wǎng)絡(luò)中的長短時(shí)記憶算法將提取到的詞特征與句子的結(jié)構(gòu)聯(lián)系起來,從而將句子的結(jié)構(gòu)與詞的相互依賴關(guān)系盡可能好地體現(xiàn)出來.通過實(shí)驗(yàn)對(duì)比分析,文中模型獲得了很好的實(shí)驗(yàn)結(jié)果,體現(xiàn)出該模型對(duì)情感分類的適用性.接下來,需要探索如何將注意力模型應(yīng)用到文中模型中,改進(jìn)網(wǎng)絡(luò)的結(jié)構(gòu),使它更適應(yīng)現(xiàn)實(shí)生活中的語言模型,提升文本情感分析的效果.
[1] WANG Sida,MANNING C D.Baselines and bigrams: Simple, good sentiment and topic classification[C]∥Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics.Stroudsburg:ACM,2012:90-94.
[2] HINTON G,SRIVASTAVA N,KRIZHEVSKY A,etal.Improving neural networks by preventing co-adaptation of feature detectors[J].Computer Science,2012,3(4):212-223.
[3] WANG Sida,MANNING C D.Fast dropout training[C]∥Proceedings of the 30 th International Conference on Machine Learning.Atlanta:JMLR,2013:118-126.
[4] LI Dong,WEI Furu,LIU Shujie,etal.A statistical parsing framework for sentiment classification[J].Computational Linguistics,2014,41(2):293-336.DOI:10.1162/COLI_a_00221.
[5] LECUN Y,BOTTOU L,BENGIO Y,etal.Gradient-based learning applied to document recognition[J].Proceedings of the IEEE,1998,86(11):2278-2324.DOI:10.1109/5.726791.
[6] KALCHBRENNER N,GREFENSTETTE E,BLUNSOM P.A convolutional neural network for modelling sentences[C]∥Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics.Baltimore:Eprint Arxiv,2014:655-665.DOI:10.3115/v1/P14-1062.
[7] KIM Y.Convolutional neural networks for sentence classification[C]∥Proceedings of Conferenceon Empirical Methods in Natural Language Processing.Doha:[s.n.],2014:1746-1751.DOI:10.3115/v1/d14-1181.
[8] SEVERYN A,MOSCHITTI A.Twitter sentiment analysis with deep convolutional neural networks[C]∥Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval.New York:ACM,2015:959-962.DOI:10.1145/2766462.2767830.
[9] ZHANG Ye,WALLACE B.A sensitivity analysis of (and practitioners′ guide to) convolutional neural networks for sentence classification[EB/OL].(2016-04-06)[2016-06-15].http://arxiv.org/pdf/1510.03820v4.pdf.
[10] HOCHREITER S,SCHMIDHUBER J.Long short-term memory neural computation[J].Neural Computation,1997,9(8):1735-1780.DOI:10.1162/neco.1997.9.8.1735.
[11] MIKOLOV T,SUTSKEVER I,CHEN Kai,etal.Distributed representations of words and phrases and their compositionality[C]∥Proceedings of Neural Information Processing Systems.South Lake Tahoe:Advances in Neural Information Processing Systems,2013:3111-3119.
[12] ZEILER M.Adadelta: An adaptive learning rate method[EB/OL].(2012-12-22)[2016-06-15].http://arxiv.org/pdf/1212.5701v1.pdf.
(責(zé)任編輯: 黃曉楠英文審校: 吳逢鐵)
SentimentClassificationWithMultiscaleConvolutionalRecurrentNeuralNetwork
WU Qiong, CHEN Duansheng
(College of Computer Science and Technology, Huaqiao University, Xiamen 361021, China)
Combining the advantages of convolution neural network (CNN) for feature extraction and recurrent neural network (RNN) for long shot-term memory, a new model based on multiscale convolutional recurrent neural network is proposed. This model utilize multi-size filter of CNN to extract word feature which contain a rich context information and use the long short-term memory algorithm of RNN to reflect the grammatical relations about the word and the sentence, and then completing the sentiment classification task. The experimental results show that: through comparing with many other sentiment classification, this new model has a high accuracy.
text sentiment classification; convolutional neural network; recurrent neural network; long short-term memory; multiscale
10.11830/ISSN.1000-5013.201606077
TP 391.4
A
1000-5013(2017)06-0875-05
2016-06-28
陳鍛生(1959-),男,教授,博士,主要從事計(jì)算機(jī)視覺與多媒體技術(shù)的研究.E-mail:dschen@hqu.edu.cn.
國家自然科學(xué)基金資助項(xiàng)目(61370006); 福建省科技計(jì)劃(工業(yè)引導(dǎo)性)重點(diǎn)項(xiàng)目(2015H0025)
華僑大學(xué)學(xué)報(bào)(自然科學(xué)版)2017年6期