◆李安昊 王亮
融合規(guī)則和統(tǒng)計(jì)的BAGGING情感分析
◆李安昊 王亮
(沈陽(yáng)化工大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 遼寧 110142)
文本情感分類主要分為基于規(guī)則和基于統(tǒng)計(jì),其中基于統(tǒng)計(jì)的文本情感分類以深度學(xué)習(xí)方法為主。但是深度學(xué)習(xí)高度依賴于大量高質(zhì)量的訓(xùn)練數(shù)據(jù),而現(xiàn)實(shí)生活中沒(méi)有大量的訓(xùn)練數(shù)據(jù)。基于規(guī)則詞典的文本情感分類又依賴于情感詞典的準(zhǔn)確度。所以本文提出了一種基于統(tǒng)計(jì)的Bert和卷積神經(jīng)網(wǎng)絡(luò)和雙向長(zhǎng)短時(shí)記憶(BILSTM)的混合神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)加基于規(guī)則詞典的BAGGING的方式進(jìn)行情感判別。經(jīng)過(guò)試驗(yàn)證明,結(jié)合規(guī)則與統(tǒng)計(jì)的方法與單獨(dú)使用詞典和單獨(dú)使用Bert相比,準(zhǔn)確率有所提高。
情感分析;BAGGING;深度神經(jīng)網(wǎng)絡(luò);規(guī)則詞典
基于規(guī)則的方法無(wú)需使用有標(biāo)注的數(shù)據(jù)就能進(jìn)行情感計(jì)算,但是該方法依賴情感詞典的準(zhǔn)確度,無(wú)法解決未登錄詞的問(wèn)題。而基于統(tǒng)計(jì)的方法存在依賴語(yǔ)料庫(kù)的質(zhì)量和所屬領(lǐng)域的問(wèn)題。因此,本文提出一種融合規(guī)則和統(tǒng)計(jì)的情感分析方法,分別使用自定義的規(guī)則與Bert - CNN - BILSTM的混合神經(jīng)網(wǎng)絡(luò)進(jìn)行情感分析最后使用BAGGING對(duì)結(jié)果集成,改善了僅使用一種方式的缺點(diǎn),實(shí)現(xiàn)對(duì)數(shù)據(jù)更準(zhǔn)確的分析。使用真實(shí)的作文數(shù)據(jù)集實(shí)驗(yàn)證明,比起單獨(dú)使用情感詞典,單獨(dú)使用Bert、情感詞典和Bert - BILSTM集成模型在此任務(wù)上的效果,本文提出的方法在情感分析準(zhǔn)確率上有所提升。
在基于情感詞典的情感分析方法中,情感詞典是分類的基礎(chǔ),情感詞典中包含大量的情感詞,利用每個(gè)情感詞都有情感極性和強(qiáng)度等實(shí)現(xiàn)情感極性的劃分[6]。對(duì)于情感詞典的構(gòu)造,國(guó)外起步早,Hassan[7]在2010年提出使用單詞相似度并利用馬爾可夫隨機(jī)游走的方法來(lái)判斷一個(gè)給定單詞的情感,生成全部單詞的情感詞典。2011年,Hassan等[8]提出了尋找外文單詞情感極性的方法,通過(guò)計(jì)算詞之間的語(yǔ)意相似度,構(gòu)建圖網(wǎng)絡(luò),通過(guò)計(jì)算圖網(wǎng)絡(luò)得到詞的情感極性進(jìn)而得到句子的情感極性。Turney[9]提出了互信息的方法即通過(guò)提出句子的特征,來(lái)計(jì)算這兩個(gè)句子的互信息的值,從而判斷詞的情感極性進(jìn)而判斷句子的情感極性。
而中文的情感詞典構(gòu)建的相關(guān)研究起步晚,比較落后,相應(yīng)的情感分析資源少。Feng[10]等通過(guò)大量的語(yǔ)料訓(xùn)練得到詞的向量表示,計(jì)算各個(gè)詞的皮爾森相關(guān)系數(shù)得到相似度從而得到詞的情感極性。到現(xiàn)在,主要的中文情感詞典有HowNet,大連理工大學(xué)情感詞典,等等。
有監(jiān)督的機(jī)器學(xué)習(xí)的方法是利用標(biāo)注好的數(shù)據(jù)訓(xùn)練一個(gè)模型去預(yù)測(cè)一句話的情感極性。常用的機(jī)器學(xué)習(xí)的方法主要有線性回歸(LR)[11]樸素貝葉斯(NB)[12],決策樹[13],支持向量機(jī)(SVM)等。
支持向量機(jī)(SVM)最初由Vapnik[14]提出,它通過(guò)尋求結(jié)構(gòu)化風(fēng)險(xiǎn)最小以提高學(xué)習(xí)機(jī)泛化能力,實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和置信范圍的最小化,從而達(dá)到在統(tǒng)計(jì)樣本量較少的情況下,亦能獲得良好統(tǒng)計(jì)規(guī)律的目的[15]。SVM占據(jù)了重要的地位,并且在很長(zhǎng)的時(shí)間段中效果拔群。但是有監(jiān)督需要高質(zhì)量的標(biāo)注數(shù)據(jù),但是依賴人工標(biāo)注,就難以排除人為主觀對(duì)數(shù)據(jù)的影響。
深度學(xué)習(xí)可以理解為人工神經(jīng)網(wǎng)絡(luò)(簡(jiǎn)稱神經(jīng)網(wǎng)絡(luò))。它可以用神經(jīng)網(wǎng)絡(luò)獲得更強(qiáng)的學(xué)習(xí)(表示)能力,深度學(xué)習(xí)使用多層非線性處理單元的級(jí)聯(lián)來(lái)進(jìn)行特征提取和轉(zhuǎn)換。接近數(shù)據(jù)輸入的較低的層學(xué)習(xí)簡(jiǎn)單的特征,而較高的層從較低的層特征中學(xué)習(xí)較復(fù)雜的特征,并且學(xué)習(xí)特征信息能力強(qiáng)大。深度學(xué)習(xí)在許多任務(wù)中取得了最優(yōu)的結(jié)果。現(xiàn)在深度學(xué)習(xí)的各種模型被用于情感分析中。Ji Young CNN[16]等人提出了通過(guò)詞以詞向量的方式作為輸入,卷積層對(duì)詞向量卷積然后池化經(jīng)過(guò)全連接層輸出情感極性,能有效地提取詞向量的局部特征。Zhang等人[17]呈現(xiàn)了一個(gè)字符水平CNN用于文本分類,分類精度得以顯著提高。Fu[18]等人使用了CNN和BILSTM混合神經(jīng)網(wǎng)絡(luò),通過(guò)CNN提取局部特征,BILSTM將局部特征串聯(lián)起來(lái)。
句子中的情感詞通常包含大量的情感信息,且情感詞是帶有不同強(qiáng)度情感傾向性的詞語(yǔ),對(duì)文本句子情緒識(shí)別非常的有效[19]?;谝?guī)則的情感分析是通過(guò)查找已有的情感詞典資源來(lái)判斷詞語(yǔ)的情感極性,也叫做中文文本數(shù)據(jù)的情緒計(jì)算。本文采用大連理工大學(xué)中文情感詞匯庫(kù)(如圖1所示),我們使用其中的7類對(duì)文本數(shù)據(jù)進(jìn)行情緒計(jì)算,該詞典在Ekman的基礎(chǔ)上,詞匯體對(duì)情感類別劃分得更為細(xì)致,詞匯本體中共有7個(gè)大類21個(gè)小類。情感強(qiáng)度有1,3,5,7,9五個(gè)檔,數(shù)越大代表情感強(qiáng)度越大,我們將21小類詞語(yǔ)歸于添加到的七大類的情感中來(lái)計(jì)算句子中的情感極性。
大型船舶均需由洋山港主航道進(jìn)出洋山港,期間經(jīng)過(guò)洋山港警戒區(qū)和筲其島附近交通流交會(huì)水域。[5]對(duì)上海港引航站洋山分站1 a的引航計(jì)劃進(jìn)行統(tǒng)計(jì)分析,2015年10月1日至2016年9月30日,洋山港共進(jìn)出大型船舶9 125艘次,平均每天25艘次,最多為38艘次,船型以大型集裝箱船舶為主,占總數(shù)的94%。由交通流統(tǒng)計(jì)分析,大型船舶與過(guò)往船舶在筲其島附近會(huì)遇次數(shù)日均約在50艘次,在金山航道南北段垂向交會(huì)警戒區(qū)水域交叉會(huì)遇則更為頻繁,另外還有往返于洋山港和舟山等島嶼的客滾船穿越主航道,進(jìn)一步增加了會(huì)遇的風(fēng)險(xiǎn)。[6]
圖1 大連理工大學(xué)中文情感詞匯庫(kù)
句子文本中使用哈工大的分詞LTP將句子分詞,通過(guò)使用一定的規(guī)則在大連理工大學(xué)的詞典中將句子中的情感詞提取出來(lái),通過(guò)情感詞在詞典中的情感極性進(jìn)行情感判斷。普通的基于詞典的文本挖掘如使用HowNet進(jìn)行文本挖掘,分析一句話是積極的還是消極的。給定一句已經(jīng)分好詞的文本,與詞典中的情感詞匹配,出現(xiàn)正向+1,負(fù)向-1,計(jì)算總得分判斷文本的情感極性,分?jǐn)?shù)為正是積極,分?jǐn)?shù)為負(fù)是消極,分?jǐn)?shù)為0是中性。此方法只適用于三分類而不適用于多分類。所以在本文中我們自己制定了多分類的規(guī)則,該方法是基于一句話情感詞的個(gè)數(shù)和詞典中詞的情感強(qiáng)度來(lái)判斷一句話的情感極性(如圖2所示)。分為三種情況:
(1)一句話中無(wú)情感詞
(2)一句話中某類別情感詞多于其他的類別情感詞
(3)一句話中所有類別的情感詞一樣多
圖2 基于詞典的情感挖掘流程
Bert - CNN - BILSTM模型,主要包含Bert[20]字嵌入層,CNN層和BILSTM層,其結(jié)構(gòu)如圖3所示
圖3 基于Bert - CNN - BILSTM的結(jié)構(gòu)模型圖
(1)輸入層
(2)卷積層
為了更好提取特征,我們?cè)诰矸e層使用不同大小的卷積核對(duì)輸入的向量進(jìn)行卷積操作,然后池化,本文是用了Max-Pooling提取局部特征,再使用BILSTM將提取的局部特征連起來(lái)形成全局特征。在NLP領(lǐng)域卷積核的寬和詞向量的維度一致,并且卷積核只會(huì)在EMBEDDING中向高處移動(dòng),每次卷積核滑動(dòng)過(guò)的都是含有全部信息的單詞。
將局部特征的組合作為時(shí)序序列輸入進(jìn)BILSTM當(dāng)中,BILSTM將局部特征串聯(lián)起來(lái),得到全局的語(yǔ)義信息。
(3)BILSTM層
RNN是序列模型,非常合適提取句子的特征,文檔中的單詞是按順序處理的,能很好理解句子的語(yǔ)意信息,但是RNN容易發(fā)生梯度消失和梯度爆炸,而LSTM和BILSTM是RNN的衍生,LSTM有三個(gè)門和記憶單元,一定程度上解決了RNN的梯度消失,但是LSTM不能識(shí)別后面單詞對(duì)前面單詞的影響。而BILSTM解決了這個(gè)問(wèn)題,因?yàn)锽ILSTM是雙向的,前向是從第一個(gè)單詞理解和處理到最后一個(gè)單詞,后向是從最后一個(gè)單詞到第一個(gè)單詞。有兩個(gè)相反的層,模型就可以更好地站在前向和后向的角度,會(huì)更多學(xué)習(xí)到上下信息。LSTM的計(jì)算過(guò)程如下:
其中tanh激活函數(shù)選擇將輸入歸一化到[-1,1]之間。為Sigmoid激活函數(shù),區(qū)間為[0,1],越接近1的越容易被記住,而靠近0的容易被遺忘。用來(lái)分別控制輸入門i輸入數(shù)據(jù)的選擇,遺忘門f遺忘上一狀態(tài)的state cell中一些狀態(tài),輸出門ot最終的輸出。
(4)基于改進(jìn)BAGGING集成的情感分析
集成學(xué)習(xí)是將許多個(gè)分類器集成之后形成一個(gè)新的分類器,集成算法可以保證各個(gè)分類器的多樣性,將一個(gè)不穩(wěn)定的弱分類器集合成一個(gè)較為穩(wěn)定的強(qiáng)分類器。BAGGING[20-21]為集成學(xué)習(xí)的一種,BAGGING又叫自舉匯聚法(Bootstrap Aggregating),Bootstrap抽樣有放回的抽樣,從原始樣本中抽取一定數(shù)量的樣本,計(jì)算采樣集數(shù)量,并重復(fù)上述過(guò)程,形成N個(gè)采樣集,但是Bootstrap采樣可能會(huì)導(dǎo)致原數(shù)據(jù)中20%~30%無(wú)法被丟棄,模型無(wú)法充分利用數(shù)據(jù),所以該模型使用全部的數(shù)據(jù)集作為每個(gè)模型的輸入數(shù)據(jù)集。
圖4 集成模型結(jié)構(gòu)圖
集成模型結(jié)構(gòu)如圖4所示,通過(guò)Bootstrap采樣方式對(duì)原始數(shù)據(jù)有放回的采樣,得到兩個(gè)采樣集,其中這兩個(gè)采樣集內(nèi)部可能會(huì)有重復(fù)的數(shù)據(jù),但是對(duì)外表現(xiàn)為相互獨(dú)立,該模型將基于規(guī)則詞典和統(tǒng)計(jì)Bert - CNN - BILSTM模型作為弱分類器,將其中采樣集1作為基于規(guī)則詞典的輸入,采樣集2作為基于統(tǒng)計(jì)模型輸入。改進(jìn)BAGGING規(guī)則是通過(guò)0,1投票(一致率)來(lái)進(jìn)行分類,如果規(guī)則和統(tǒng)計(jì)模型在BAGGING中得到了相同(情感)分類結(jié)果則置1,則輸出此情感。不同則置0,并計(jì)算句子中情感詞的強(qiáng)度的最大值,其中強(qiáng)度最大值情感的為本句的情感。
為了證明本文方法的有效性,我們從樂(lè)樂(lè)課堂作文數(shù)據(jù)中人工標(biāo)記出了4萬(wàn)條帶有情感的句子,并隨機(jī)加入2萬(wàn)條無(wú)情感的句子。其中的情感共有7類,分別是fear,happy,sadness,disgust,neutral,like,anger。為了保持樣本的均衡,類別數(shù)據(jù)在總數(shù)據(jù)中的占比為1:1:1:1:3:1:1。最終構(gòu)成訓(xùn)練數(shù)據(jù)。
作為測(cè)試,我們從真實(shí)的中學(xué)生的作文中隨機(jī)地抽取了30000條數(shù)據(jù),其中帶有7類情感的數(shù)據(jù)共有4832條。
其中在給予統(tǒng)計(jì)的模型當(dāng)中,我們分別比較了單獨(dú)使用情感詞典,單獨(dú)使用BERT,情感詞典和BERT+LSTM集成模型,與基于規(guī)則進(jìn)行BAGGING并輸出結(jié)果。表1為對(duì)比結(jié)果。
表1 實(shí)驗(yàn)對(duì)比結(jié)果
方法準(zhǔn)確率/% 情感詞典57.72% BERT86.91% 情感詞典+(BERT+BILSTM)集成模型88.34% 情感詞典+(BERT+CNN+BILSTM)集成模型89.65%
從表1中可以看出,單獨(dú)使用情感詞典效果與猜測(cè)的效果差不多,情感詞典是一個(gè)非常弱的分類器,高度依賴情感詞典。單獨(dú)使用Bert的準(zhǔn)確率大幅度提高,說(shuō)明深度學(xué)習(xí)具有更好獲取到句子深層的語(yǔ)意信息的能力。而深度學(xué)習(xí)的集成可以看出,對(duì)于情感詞典+BERT,加入BILSTM能雙向地提取詞向量的特征,準(zhǔn)確率提升了1.43%。CNN的加入彌補(bǔ)了BILSTM對(duì)局部特征提取能力弱的不足,本文模型的準(zhǔn)確率達(dá)到了最高。
針對(duì)作文領(lǐng)域的文本情感分析,通過(guò)對(duì)集成算法和深度學(xué)習(xí)網(wǎng)絡(luò)的深入探索和研究,發(fā)現(xiàn)集成算法可以有效提高情感識(shí)別的準(zhǔn)確率和精度。本文提出了一種基于規(guī)則和統(tǒng)計(jì)BAGGING的文本情感分析的方法,利用無(wú)監(jiān)督的基于詞典的方法直接計(jì)算出句子的情感極性并與深度學(xué)習(xí)網(wǎng)絡(luò)集成通過(guò)一致率預(yù)測(cè)出句子的情感極性。將無(wú)監(jiān)督和有監(jiān)督結(jié)合起來(lái)共同預(yù)測(cè)。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,發(fā)現(xiàn)該算法一定程度上提高了在文本情感極性分類中的準(zhǔn)確率,在未來(lái)我們希望更高效地將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)集成,加強(qiáng)對(duì)無(wú)監(jiān)督學(xué)習(xí)的研究。其次可以將注意力機(jī)制加入到模型當(dāng)中。
[1]Nasukawa T,Yi J.Sentiment analysis:Capturing Favorability Using Natural Language Processing [C]//in Proceedings of International Conference on Knowledge Capture. 2003:70-77.
[2]Joshi A,Balamurali A R,Bhatacharyya P,et al.C-Fel-It:A sentiment analyzer for micro-blogs[C]?Proc of the ACL-HLT 2011 System Demonstrations. Stroudsburg,PA:ACL,2011:127-132.
[3]Chesley P,Vincent B,Xu Li,et al.Using verbs andadjectives to automaticaly clasify blog sentiment[J]. Training,2006,580(263):233-235.
[4]Ye Qiang,Zhang Ziqiong,Law R.Sentiment clasification of online reviews to travel destinations by supervised machine learning approaches[J].Expert Systems with Applications,2009,36(3):6527-6535.
[5]Boiy E,Moens M F.A machine learning approach to sentiment analysis in multilingual Web texts[J].Information Retrieval,2009,12(5):526-558.
[6]Hassan A,Radev D.ldentifying text polarity using random walks[C]. In. Pro-ceedings of ACL,2010:395-403.
[7]HassanA,Abu-Jbara A,Radev D,et alldentifying the semantic orientation of foreign words[C]. In Proceedings of ACL,2011:592-597.
[8]Velikovich L,BJlair-Goldensohn S,Hanan Ket al The viabiliy of web-derive-d polarity lexicons[C] In Proceedings of NAACL.2010:777-785.
[9]Turney P D,Littman M L. Measuring Praise and Criticism:Inference of Se-mantic Orientation from Association[J].ACM Transactions on Information Systems,2003,21(4);315-346.
[10]馮超,梁循,李亞平,等.基于詞向量的跨領(lǐng)域中文情感詞典構(gòu)建方法數(shù)據(jù)采集與處理,2017,32(03): 579-587.
[11]Matthew Richardosn,Ewa Dominowska,Robert Ragno. Predicting clicks:esti-mating the click-through rate for new ads,2007:521-530.
[12]Langley P,Thompson K.An analysis of Bayesian classifiers[C]// Procedings of the Tenth National Conference onArtificial Inteligence. AAAI Pres,1992:223-228.
[13]Lewis D D,Info C F,Lang S,et al.A comparisonoftwo learning algor-ithms for text categorization[C]// Procedings of the Third Annual Symposium on Document Analysis and Information Retrieval,1994:81-93.
[14]VAPNK V.SVM method of estimating densty conditional probatility,and c-onditional densit(C]IEEE lntemnational Sympostum on Circuits and Systems,20074-752.
[15]Dong Fei,ZhangYue.Automatic features for essayscoring An empirical study [C]//Proceedings of the 2016 Conference:on Empirical Methods in NaturalLanguage Processing,2016:1072-1077.
[16]Ji Young Le,F Dernoncourt.Sequential Short-Text Clasification with Recur-ent and Convolutional Neural Networks[C]//Procedings of the Conference ofNAACL 2016,2016:515-520.
[17]ZhangX,ZhaoJB.Character-level convolutional networks for textclassification[C]//Advances in Neural Information Processing Systems. 2015:649-657.
[18]付瑞吉,王棟,王士進(jìn),等.面向作文自動(dòng)評(píng)分的優(yōu)美句識(shí)別[J].中文信息學(xué)報(bào),2018,32(06):88-97.
[19]曾雪強(qiáng),華鑫,劉平生,等.基于情感輪和情感詞典的文本情感分布標(biāo)記增強(qiáng)方法[J].計(jì)算機(jī)學(xué)報(bào),2021,44(06):1081-1084.
[20]Devlin J,Chang M W,Lee K,et al. BERT: Pre-training of Deep Bidirectio-nal Transformers for Language Understanding[J]. 2018.Leo Breiman. Baggi-ng predictors. Machine learning,1996,24(2):123-140.
[21]Leo Breiman. Random forests[J]. Machine Learning,2001,45(1):5-32.
國(guó)家工信部智能制造專項(xiàng)(項(xiàng)目編號(hào):工信函[2016]213號(hào))
網(wǎng)絡(luò)安全技術(shù)與應(yīng)用2022年4期