高 慧,荀亞玲,王林青
(太原科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030024)
互聯(lián)網(wǎng)平臺(tái)的迅速發(fā)展為用戶提供可以發(fā)表個(gè)人意見(jiàn)和觀點(diǎn)的場(chǎng)所,期間產(chǎn)生了大量帶有明顯情感傾向的文本數(shù)據(jù)。高效且準(zhǔn)確地識(shí)別出文本情感極性有助于平臺(tái)方了解用戶需求,提高用戶粘性,并有效地對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控[1-2]。
離散的文本數(shù)據(jù)無(wú)法被機(jī)器識(shí)別和處理,詞向量預(yù)訓(xùn)練技術(shù)是深度學(xué)習(xí)模型應(yīng)用于文本分析處理的關(guān)鍵前提[3]。靜態(tài)詞向量模型Word2vec[4]和Glove[5]預(yù)訓(xùn)練過(guò)程中缺乏詞的位置信息,無(wú)法識(shí)別相同詞在不同語(yǔ)境下的具體含義,導(dǎo)致詞向量語(yǔ)義表示準(zhǔn)確性不高。為克服靜態(tài)詞向量模型無(wú)法區(qū)分多義詞的問(wèn)題,結(jié)合詞的具體上下文進(jìn)行動(dòng)態(tài)向量調(diào)整的語(yǔ)言模型ELMO[6]和BERT[7]被相繼提出,其雙向特征學(xué)習(xí)架構(gòu)能夠解決一詞多義問(wèn)題。ChineseBERT[8]模型針對(duì)中文特性,引入符合漢字處理的掩碼策略,且將特有的字形和拼音信息加入到預(yù)訓(xùn)練過(guò)程,通過(guò)融合字符語(yǔ)義、字形和拼音特征信息,增強(qiáng)對(duì)語(yǔ)義和語(yǔ)法的理解能力。
文本情感分析的主要研究方式包括基于支持向量機(jī)、隨機(jī)森林和決策樹等的傳統(tǒng)機(jī)器學(xué)習(xí)方法,以及基于卷積模塊、循環(huán)網(wǎng)絡(luò)以及預(yù)訓(xùn)練模型等神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法。傳統(tǒng)機(jī)器學(xué)習(xí)方法[9-11]需要手動(dòng)構(gòu)建特征工程,具有明顯的主觀性,無(wú)法確保提取特征的有效性和準(zhǔn)確性,處理大規(guī)模的文本評(píng)論數(shù)據(jù)時(shí)效率十分低下,無(wú)法快速提取特征并識(shí)別文本情感極性。深度學(xué)習(xí)基礎(chǔ)模型如CNN和LSTM被大量應(yīng)用到文本情感分析處理任務(wù)。曾誠(chéng)等人[12]針對(duì)彈幕文本情感分析任務(wù),提出了ALBERT-CRNN模型,CRNN模塊缺乏對(duì)關(guān)鍵情感特征的識(shí)別能力。劉繼等[13]提出了基于BERT與BiLSTM的混合方法,在網(wǎng)絡(luò)輿情非平衡文本情感分析任務(wù)上取得了較好性能,但BiSLTM模塊受限于循環(huán)計(jì)算,并行計(jì)算速度較慢。楊森淇等[14]利用改進(jìn)后的DPCNN和BiGRU提取文本語(yǔ)義特征,提高了農(nóng)業(yè)新聞文本分類性能,但DPCNN和BiGRU模塊未能聚焦于對(duì)分類結(jié)果影響較大的重點(diǎn)特征。Vaswani A等[15]首次在機(jī)器翻譯領(lǐng)域提出注意力機(jī)制,并被廣泛應(yīng)用到與基礎(chǔ)模型的結(jié)合上。張軍等人[16]針對(duì)隱式情感分析任務(wù),提出了RoBERTa融合BiLSTM及注意力機(jī)制模型,BiLSTM模塊捕捉句子正反方向語(yǔ)義特征,但缺乏對(duì)局部特征的學(xué)習(xí)。李衛(wèi)疆等[17]提出了基于多通道特征和自注意力的情感分類方法(MFSA-BiLSTM),充分學(xué)習(xí)到句子中情感詞的相互依賴關(guān)系,自注意力加強(qiáng)情感特征信息。Bao Tong等人[18]提出了基于BERT-CNN和BiGRU-Attention混合特征網(wǎng)絡(luò)的短文本分類方法,解決了短文本中特征詞少的問(wèn)題,但BiGRU循環(huán)模塊訓(xùn)練效率較低,僅能捕捉上下文序列特征信息。
針對(duì)靜態(tài)詞向量語(yǔ)義表示不準(zhǔn)確,CNN,BiLSTM等基礎(chǔ)模塊特征提取能力不足,無(wú)法識(shí)別出對(duì)分類結(jié)果影響較大的關(guān)鍵特征,且近期表現(xiàn)優(yōu)秀的深度學(xué)習(xí)模型缺乏對(duì)不同尺度下的文本上下文語(yǔ)義特征的學(xué)習(xí)等問(wèn)題,該文提出了基于多通道融合特征網(wǎng)絡(luò)的文本情感分析模型。該模型采用針對(duì)漢字進(jìn)行預(yù)訓(xùn)練的ChineseBERT模型獲取文本動(dòng)態(tài)向量表征,提高詞向量語(yǔ)義表示準(zhǔn)確性,解決一詞多義問(wèn)題。構(gòu)建多通道融合特征網(wǎng)絡(luò)捕捉在不同尺度下的文本融合情感特征,增強(qiáng)模型特征表示能力。利用多尺度卷積網(wǎng)絡(luò)和雙向內(nèi)置注意力簡(jiǎn)單循環(huán)單元分別提取文本局部和上下文深層情感語(yǔ)義,軟注意力機(jī)制計(jì)算每個(gè)特征對(duì)結(jié)果的貢獻(xiàn)程度,識(shí)別出關(guān)鍵特征。在公開標(biāo)準(zhǔn)的SMP2020微博疫情相關(guān)情緒分類評(píng)測(cè)數(shù)據(jù)集、購(gòu)物評(píng)論數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集上驗(yàn)證了模型在文本情感分析任務(wù)上的有效性。
通過(guò)結(jié)合預(yù)訓(xùn)練語(yǔ)言模型ChineseBERT,并利用多通道融合特征網(wǎng)絡(luò)在文本語(yǔ)義表征和語(yǔ)義理解方面的優(yōu)勢(shì),提出了多通道融合特征網(wǎng)絡(luò)的文本情感分析模型,整體架構(gòu)如圖1所示。該模型主要由ChineseBERT模型、多通道融合特征網(wǎng)絡(luò)二次語(yǔ)義學(xué)習(xí)層和情感類別線性輸出層構(gòu)成。ChineseBERT模型通過(guò)結(jié)合當(dāng)前詞的上下文語(yǔ)境獲取語(yǔ)義表示準(zhǔn)確的動(dòng)態(tài)詞向量表示。
圖1 模型整體架構(gòu)
多通道融合特征網(wǎng)絡(luò)通過(guò)結(jié)合多個(gè)通道卷積網(wǎng)絡(luò)、內(nèi)置自注意力簡(jiǎn)單循環(huán)單元以及軟注意力機(jī)制,充分捕捉不同尺度下的文本高維情感特征,增強(qiáng)模型特征表示能力。其中,卷積模塊負(fù)責(zé)捕捉詞和短語(yǔ)級(jí)別的局部語(yǔ)義表示,針對(duì)不同通道的輸出,利用雙向內(nèi)置注意力簡(jiǎn)單循環(huán)單元(Bidirectional Built-in Attention Simple Recurrent Unit,BiBASRU)模塊同時(shí)捕捉序列特征和句子內(nèi)詞之間的依賴關(guān)系;將每個(gè)通道BiBASRU輸出的狀態(tài)特征與ChineseBERT模型輸出的向量表示進(jìn)行拼接,由軟注意力(Soft Attention,SA)機(jī)制負(fù)責(zé)識(shí)別出對(duì)情感分類結(jié)果貢獻(xiàn)大的關(guān)鍵特征。情感類別線性輸出層將多通道輸出特征拼接得到分類特征,由線性映射得到情感分類概率,歸一化操作后得到情感結(jié)果。
目前大規(guī)模預(yù)訓(xùn)練模型架構(gòu)多數(shù)為英文設(shè)計(jì)相應(yīng)的掩碼方式,不適用于有著特定語(yǔ)言特性的漢字建模。ChineseBERT模型為增強(qiáng)中文訓(xùn)練語(yǔ)料的建模能力,將存在部分語(yǔ)義信息的漢語(yǔ)字形和讀音信息加入預(yù)訓(xùn)練過(guò)程,并提出全詞掩碼和字掩碼訓(xùn)練策略,易于模型從不同的角度融合字詞語(yǔ)義、字體形狀、拼音信息以及序列上下文信息。經(jīng)多層Transformer編碼器動(dòng)態(tài)學(xué)習(xí)文本向量表示后得到T=(T1,T2,…,Tn),作為多通道融合特征網(wǎng)絡(luò)的輸入。
基礎(chǔ)深度學(xué)習(xí)模塊特征提取能力有限,無(wú)法全面捕捉文本語(yǔ)義特征表示。多通道融合特征網(wǎng)絡(luò)主要由多通道的卷積神經(jīng)網(wǎng)絡(luò)、雙向內(nèi)置注意力簡(jiǎn)單循環(huán)單元以及軟注意力機(jī)制組合而成,并使用殘差連接架構(gòu)以增強(qiáng)模型表達(dá)能力。
2.2.1 多尺度卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)通過(guò)設(shè)置不同尺寸大小的卷積核,捕獲詞和短語(yǔ)級(jí)別的局部語(yǔ)義。對(duì)ChineseBERT模型輸出的動(dòng)態(tài)特征表示進(jìn)行卷積操作,為降低語(yǔ)義損失,不加入池化操作,得到新的特征表示。計(jì)算過(guò)程如式(1)(2)所示。
ci=f(W?Ti:i+m-1+b)
(1)
C=(c1,c2,…,cn-m+1)
(2)
其中,W表示卷積核;b表示偏置項(xiàng);m表示滑動(dòng)窗口大小;?表示具體卷積操作;Ti:i+m-1表示文本特征矩陣中第i到i+m-1行的詞向量;f表示非線性激活函數(shù)。為提高模型擬合能力,該文采用SMU(Smooth Maximum Unit)[19]激活函數(shù)替代原先的RELU函數(shù),解決神經(jīng)元在訓(xùn)練期間死亡的問(wèn)題,且SMU平滑極大值技術(shù)有效地提升深層網(wǎng)絡(luò)訓(xùn)練效果,從而提高分類性能。相關(guān)計(jì)算過(guò)程如式(3)(4)所示。
SMU(x,ax;φ)=
(3)
(4)
設(shè)置卷積核尺寸為(2,3,4),經(jīng)卷積操作后得到不同尺度下的局部特征表示C2,C3,C4。
2.2.2 雙向內(nèi)置注意力簡(jiǎn)單循環(huán)單元
循環(huán)模塊LSTM[20]受限于循環(huán)計(jì)算依賴機(jī)制,當(dāng)前狀態(tài)計(jì)算需等待上一個(gè)時(shí)間步驟計(jì)算完成,難以充分利用顯卡資源加速訓(xùn)練,導(dǎo)致訓(xùn)練效率較低。簡(jiǎn)單循環(huán)單元[21]擺脫對(duì)前一個(gè)時(shí)間步驟輸出的依賴,任何維度和步驟中的矩陣乘法運(yùn)算均實(shí)現(xiàn)并行化。單層SRU前向計(jì)算過(guò)程如式(5)~(8)所示。
rt=σ(Wrxt+Vr*ct-1+br)
(5)
ct=ft*ct-1+(1-ft)*(Wxt)
(6)
ft=σ(Wfxt+Vf*ct-1+bf)
(7)
ht=rt*ct+(1-rt)*xt
(8)
其中,rt和ft分別表示重置門和遺忘門,控制當(dāng)前信息流傳入下一階段的程度;σ表示sigmoid()函數(shù),*表示相應(yīng)元素乘法操作;xt表示第t個(gè)字的語(yǔ)義向量;W,Wr和Wf表示可學(xué)習(xí)參數(shù)矩陣;bf和br表示偏置值。
為增強(qiáng)SRU模塊對(duì)句子內(nèi)部詞之間關(guān)系以及語(yǔ)法結(jié)構(gòu)特征的學(xué)習(xí),BASRU模塊計(jì)算過(guò)程如式(9)~(13)所示。
Q=WqXT
(9)
K=WkQ
(10)
V=WvQ
(11)
(12)
UT=Wo(Q+α·A)
(13)
其中,X表示文本表示向量;Wq,Wk,Wv均表示參數(shù)矩陣;AT表示注意力得分參數(shù)矩陣;α∈R表示可學(xué)習(xí)參數(shù);Wo表示權(quán)重參數(shù)矩陣;UT表示輸出向量。
將原始上下文文本語(yǔ)義向量T和卷積神經(jīng)網(wǎng)絡(luò)得到的局部特征C2,C3,C4分別輸入到BiBASRU網(wǎng)絡(luò),經(jīng)特征提取后得到多個(gè)通道特征表示H1,H2,H3和H4。
2.2.3 軟注意力機(jī)制
軟注意力機(jī)制能夠識(shí)別出對(duì)文本情感結(jié)果影響更大的關(guān)鍵特征,避免無(wú)關(guān)特征對(duì)結(jié)果造成干擾。將通道特征輸出H1,H2,H3和H4分別與原始ChineseBERT模型輸出的向量T進(jìn)行拼接,分別計(jì)算每個(gè)特征對(duì)應(yīng)的注意力得分ai,加權(quán)求和后得到每個(gè)通道注意力特征Vi。計(jì)算過(guò)程如式(14)~(16)所示。
(14)
(15)
(16)
其中,tanh()為非線性激活函數(shù);W為權(quán)重參數(shù)矩陣,b為偏置項(xiàng)。
該層將多個(gè)通道輸出的分類特征V1,V2,V3,V4進(jìn)行拼接得到注意力特征表示V,通過(guò)線性層轉(zhuǎn)換到情感分類空間,函數(shù)計(jì)算得到情感類別概率分布,函數(shù)取行最大值對(duì)應(yīng)的情感標(biāo)簽作為結(jié)果。計(jì)算過(guò)程如式(17)~(19)。
V=[V1,V2,V3,V4]
(17)
P=Softmax(WV+b)
(18)
Result=MaxIndex(P)
(19)
為驗(yàn)證基于多通道融合特征網(wǎng)絡(luò)的文本情感分析模型的有效性,采用公開標(biāo)準(zhǔn)的SMP2020微博疫情相關(guān)情緒分類評(píng)測(cè)數(shù)據(jù)集、購(gòu)物評(píng)論數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證,數(shù)據(jù)集描述如表1所示。
表1 數(shù)據(jù)集描述
SMP2020微博疫情相關(guān)情緒分類評(píng)測(cè)數(shù)據(jù)集存在積極、憤怒、悲傷、恐懼、驚奇和無(wú)情緒6種情緒表現(xiàn),數(shù)據(jù)集內(nèi)容是在疫情期間使用相關(guān)關(guān)鍵字篩選獲得的疫情相關(guān)微博,其內(nèi)容與新冠疫情相關(guān)。購(gòu)物評(píng)論數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集存在積極和消極2種情緒。
為更好地評(píng)價(jià)模型在文本情感分析任務(wù)上的性能表現(xiàn),實(shí)驗(yàn)采用分類任務(wù)常用評(píng)價(jià)指標(biāo)準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)。
深度學(xué)習(xí)模型參數(shù)量大,優(yōu)化過(guò)程需要耗費(fèi)大量的計(jì)算機(jī)資源。為驗(yàn)證方法的有效性,所有實(shí)驗(yàn)均在電腦配置為CPU:Intel(R) Xeon(R) CPU E5-2678 v3 @ 2.50 GHz,Memory:24 GB,操作系統(tǒng)為L(zhǎng)inux上基于Python3.7和Pytorch1.7.3實(shí)現(xiàn)。
模塊參數(shù)對(duì)模型訓(xùn)練精度影響較大,經(jīng)多次實(shí)驗(yàn)調(diào)整最優(yōu)參數(shù)后,總體參數(shù)設(shè)置如下:采用香儂科技發(fā)布的base版本中文預(yù)訓(xùn)練模型ChineseBERT,層數(shù)為12,隱藏層維度大小為768,自注意力頭數(shù)為12。雙向內(nèi)置注意力簡(jiǎn)單循環(huán)單元隱藏層大小為256,層數(shù)為3,投影層維度大小為512,卷積核組合大小設(shè)置為(2,3,4),特征圖數(shù)量大小均為100,軟注意力機(jī)制維度大小為256。實(shí)驗(yàn)的初始學(xué)習(xí)率為1e-5,優(yōu)化器類型為Ranger,損失函數(shù)為多分類交叉熵函數(shù),文本截?cái)嚅L(zhǎng)度為150字,訓(xùn)練輪次為8次,隨機(jī)失活因子設(shè)置為0.3。
為全面驗(yàn)證文中模型在文本情感識(shí)別任務(wù)上的有效性,分別從詞嵌入層對(duì)比、消融實(shí)驗(yàn)以及與近期性能優(yōu)越的深度學(xué)習(xí)模型對(duì)比方面進(jìn)行實(shí)驗(yàn)驗(yàn)證,且針對(duì)優(yōu)化器類型和卷積核組合對(duì)模型性能影響開展實(shí)驗(yàn)和分析討論。
3.3.1 詞嵌入層對(duì)比分析
為驗(yàn)證ChineseBERT模型作用于提取文本動(dòng)態(tài)語(yǔ)義向量表示的有效性,采用詞向量模型Word2Vec,ELMO,BERT和ERNIE2.0分別嵌入多通道融合特征網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)對(duì)比。其中,Word2Vec向量維度大小為300;ELMO模型層數(shù)為6,輸入維度大小為512;BERT和ERNIE2.0均為中文基礎(chǔ)版本,層數(shù)為12,輸入維度大小為768。詞嵌入層實(shí)驗(yàn)性能結(jié)果如表2所示。
表2 詞嵌入層性能對(duì)比
由表2的結(jié)果可知,提出的ChineseBERT-MCFFN模型在2個(gè)數(shù)據(jù)集上的F1分?jǐn)?shù)均最高,較Word2vec-MCFFN,ELMO-MCFFN,BERT-MCFFN和ERNIE2.0-MCFFN在SMP2020數(shù)據(jù)集上分別提高了4.28,1.94,0.73和0.61百分點(diǎn),在購(gòu)物評(píng)論數(shù)據(jù)集上分別提高了4.4,2.23,1.14和1.21百分點(diǎn),以及在酒店評(píng)論數(shù)據(jù)集上分別提高了1.97,1.51,0.85和0.83百分點(diǎn),證明了ChineseBERT通過(guò)針對(duì)漢字進(jìn)行掩碼優(yōu)化和融入字形和拼音信息,用作詞嵌入層時(shí)能提升模型分類性能,且具有較好的魯棒性。Word2vec為靜態(tài)詞向量模型,每個(gè)詞由唯一向量表示,無(wú)法識(shí)別出多義詞,導(dǎo)致語(yǔ)義表示不準(zhǔn)確,影響后續(xù)二次特征提取。ELMO采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)作為特征捕捉模塊,語(yǔ)義學(xué)習(xí)能力弱于Transformer編碼器,因此情感識(shí)別性能低于BERT和ERNIE2.0。
3.3.2 消融實(shí)驗(yàn)對(duì)比分析
為驗(yàn)證模型多通道融合特征網(wǎng)絡(luò)中各個(gè)功能模塊對(duì)情感識(shí)別性能的貢獻(xiàn)程度大小,設(shè)置消融實(shí)驗(yàn),ChineseBERT表示僅使最后一層Transformer編碼器輸出的句向量[CLS]連接線性層進(jìn)行分類;w/o MCNN表示在模型ChineseBERT-MCFFN的基礎(chǔ)上移除多尺度卷積模塊,w/o BiBASRU和w/o Attention同理。相關(guān)實(shí)驗(yàn)結(jié)果如表3所示。
表3 消融實(shí)驗(yàn)
由表3的結(jié)果可知,該文采用的MCNN,BiBASRU和Attention模塊對(duì)模型情感識(shí)別性能提升均有著積極作用,添加MCNN,BiBASRU和Attention模塊后在SMP2020數(shù)據(jù)集上F1分?jǐn)?shù)分別提高了0.8,1.18和1.05百分點(diǎn),在購(gòu)物數(shù)據(jù)集上分別提高了1.25,1.86和1.73百分點(diǎn),以及在酒店評(píng)論數(shù)據(jù)集上分別提高了1.47,2.04和1.16百分點(diǎn)。同時(shí),三者結(jié)合后模型F1分?jǐn)?shù)增長(zhǎng)幅度較大,與僅使用最后一層Transformer編碼器輸出的句向量[CLS]分類的模型ChineseBERT相比較,ChineseBERT-MCFFN在SMP2020數(shù)據(jù)集、購(gòu)物評(píng)論數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集上的F1分?jǐn)?shù)分別提升了2.43,3.17和1.88百分點(diǎn)。表明使用多通道融合特征網(wǎng)絡(luò)MCFFN進(jìn)行二次語(yǔ)義學(xué)習(xí),能夠更為全面地學(xué)習(xí)到高維的文本情感特征。
3.3.3 模型整體性能對(duì)比分析
為驗(yàn)證ChineseBERT-MCFFN的性能表現(xiàn),采用性能表現(xiàn)優(yōu)秀的深度學(xué)習(xí)模型ALBERT-CRNN[12],BERT-BiLSTM[13],ERNIE+DPCNN+BiGRU[14],RoBERTa-BiLSTM-Attention[16],MFSA-BiLSTM[17]和BERT-CNN-BiGRU-Attention[18]進(jìn)行對(duì)比,相關(guān)實(shí)驗(yàn)結(jié)果如表4所示。模型ChineseBERT-MCFFN在數(shù)據(jù)集SMP2020的驗(yàn)證集上損失值和F1分?jǐn)?shù)變化如圖2和圖3所示。
圖2 損失值的變化過(guò)程
圖3 F1分?jǐn)?shù)變化過(guò)程
由表4的結(jié)果可知,文中方法較模型ALBERT-CRNN,BERT-BiLSTM,ERNIE+DPCNN+BiGRU,RoBERTa-BiLSTM-Attention,MFSA-BiLSTM和BERT-CNN-BiGRU-Attention在SMP2020數(shù)據(jù)集上的F1分?jǐn)?shù)分別提高了2.21,2.44,1.41,1.12,0.8和0.57百分點(diǎn),在購(gòu)物評(píng)論數(shù)據(jù)集上分別提高了3.09,3.31,2.48,1.97,0.95和1.53百分點(diǎn),以及在酒店評(píng)論數(shù)據(jù)集上分別提高了2.1,1.83,1.49,1.57,0.83和0.95百分點(diǎn),證明了ChineseBERT預(yù)訓(xùn)練模型、多通道融合特征網(wǎng)絡(luò)結(jié)合的有效性,較大幅度地提升文本情感分類性能。
3.3.4 優(yōu)化器對(duì)情感識(shí)別準(zhǔn)確率影響分析
優(yōu)化器性能對(duì)模型訓(xùn)練效果有著重要影響。為驗(yàn)證該文采用的優(yōu)化器Ranger在文本情感分析任務(wù)上的有效性,將Ranger與RAdam,LookAhead,Adam和SGD優(yōu)化器在購(gòu)物評(píng)論情感分析任務(wù)驗(yàn)證集上進(jìn)行實(shí)驗(yàn)對(duì)比,保持模型其他參數(shù)一致,實(shí)驗(yàn)結(jié)果如圖4所示。
圖4 優(yōu)化器對(duì)模型性能影響結(jié)果
由圖4的性能結(jié)果可知,優(yōu)化器Ranger取得了最高的分類精度,相較于其他優(yōu)化策略,整體波動(dòng)較小,具有更好的穩(wěn)定性,模型訓(xùn)練性能更佳。證明了RAdam和LookAhead兩者結(jié)合的有效性,通過(guò)預(yù)熱步驟和自適應(yīng)調(diào)整學(xué)習(xí)率大小等優(yōu)化方法提高了模型訓(xùn)練效果,從而取得了更高的識(shí)別準(zhǔn)確率。
3.3.5 卷積核對(duì)情感識(shí)別準(zhǔn)確率影響分析
卷積核的數(shù)量和大小對(duì)模型性能表現(xiàn)有著重要影響,選擇合適的卷積核尤為關(guān)鍵。通過(guò)大量實(shí)驗(yàn)驗(yàn)證,過(guò)多的卷積核數(shù)量會(huì)導(dǎo)致運(yùn)算量激增,識(shí)別準(zhǔn)確率卻無(wú)明顯增長(zhǎng);該文設(shè)置卷積核數(shù)量為3,在此前提下,通過(guò)調(diào)整卷積核大小進(jìn)行實(shí)驗(yàn),驗(yàn)證其對(duì)模型性能表現(xiàn)的影響。相關(guān)結(jié)果如圖5所示。
圖5 卷積核大小對(duì)模型性能影響結(jié)果
由圖5的結(jié)果可知,卷積核參數(shù)對(duì)模型分類性能影響較大,當(dāng)設(shè)置為(2,3,4)時(shí)模型在文中實(shí)驗(yàn)數(shù)據(jù)集上性能均為最高,說(shuō)明了當(dāng)卷積核為(2,3,4)能夠更好地捕捉文本深層情感語(yǔ)義特征,從而提高模型特征表示能力。同時(shí)由于參數(shù)設(shè)定對(duì)模型識(shí)別性能影響較大,因此要依據(jù)不同任務(wù)的特定選擇不同參數(shù)設(shè)定。
以文本情感分析任務(wù)作為切入點(diǎn),針對(duì)目前研究方法的不足,該文提出了基于多通道融合特征網(wǎng)絡(luò)的文本情感分析模型,并在SMP2020微博情緒分類數(shù)據(jù)集、購(gòu)物評(píng)論數(shù)據(jù)集和酒店評(píng)論數(shù)據(jù)集驗(yàn)證了模型的有效性。預(yù)訓(xùn)練模型ChineseBERT融合漢字字形和拼音信息以及設(shè)計(jì)新的掩碼策略,用作詞嵌入層效果優(yōu)于其他詞向量模型。多通道融合特征網(wǎng)絡(luò)充分捕捉不同尺度下文本上下文和局部情感語(yǔ)義表示,各個(gè)模塊對(duì)模型性能提升有明顯正向作用,使情感語(yǔ)義特征提取更為全面。未來(lái)將考慮引入外部知識(shí)圖譜進(jìn)一步提升文本情感識(shí)別精度,并將模型應(yīng)用于其他文本分類領(lǐng)域。