摘要: 針對(duì)目前隱式情感語句中情感詞不明顯或較少、 表達(dá)方式委婉等問題, 提出一種基于語義特征提取的隱式情感分析方法.
該方法通過引入與隱式情感語句相關(guān)的事實(shí)信息作為輔助特征, 并利用RoBERTa預(yù)訓(xùn)練模型對(duì)文本及其輔助特征進(jìn)行深度語義交互, 以獲取全局特征;
同時(shí), 采用雙向門控循環(huán)單元(BiGRU)捕捉局部特征, 最后結(jié)合注意力池化技術(shù)計(jì)算情感權(quán)重, 從而更準(zhǔn)確地識(shí)別和理解隱含的情感信息. 在數(shù)據(jù)集Snopes和PolitiFact
上進(jìn)行仿真實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果表明, 該方法在隱式情感分析方面性能優(yōu)異, 不僅在多個(gè)評(píng)價(jià)指標(biāo)上超越了現(xiàn)有方法, 且整體性能得到顯著提升, 為更廣泛的情感分析應(yīng)用場(chǎng)景提供
了有效的解決方案, 特別是在處理復(fù)雜和間接表達(dá)的情感內(nèi)容時(shí), 具有重要的應(yīng)用價(jià)值和意義.
關(guān)鍵詞: 語義特征; 隱式情感分析; 雙向門控循環(huán)單元; 注意力池化
中圖分類號(hào): TP391.43" 文獻(xiàn)標(biāo)志碼: A" 文章編號(hào): 1671-5489(2025)01-0107-07
Implicit Sentiment Analysis Method Based onSemantic Feature Extraction
CONG Mou1, PENG Tao1,2, ZHU Beibei1
(1. College of Computer Science and Technology, Jilin University, Changchun 130012, China;
2. Key Laboratory of Symbolic Computation and Knowledge Engineering of Ministry of Education,Jilin University, Changchun 130012, China)
收稿日期: 2023-12-29.
第一作者簡(jiǎn)介: 叢 眸(1999—), 女, 漢族, 碩士研究生, 從事自然語言處理的研究, E-mail: congmou21@mails.jlu.edu.cn.
通信作者簡(jiǎn)介: 彭 濤(1977—), 男, 漢族, 博士, 教授, 博士生導(dǎo)師, 從事數(shù)據(jù)挖掘及Web挖掘、 信息檢索、 機(jī)器學(xué)習(xí)和自然語言處理的研究, E-mail: tpeng@jlu.edu.cn.
基金項(xiàng)目: 國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào): 61872163)和吉林省科技廳重點(diǎn)科技研發(fā)項(xiàng)目(批準(zhǔn)號(hào): 20210201131GX).
Abstract: Aiming at the problems of"" less obvious or fewer sentiment words and euphemistic expressions in current implicit sentiment statements,
we proposed an implicit sentiment analysis method based on semantic feature extraction. The method" introduced factual information related to implicit sentiment statements as auxiliary features,
and used RoBERTa pre-training model to perform deep semantic interaction between the text and its auxiliary features in order to obtain global features. At the same time, a bidirectional gated
recurrent unit (BiGRU) was used to capture local features, and finally, the sentiment weight was calculated by combining with attention pooling technique, so as to identify and understand the implicit
sentiment information more accurately. The simulation experiments were conducted on" Snopes and PolitiFact datasets, and the results show" that the method has excellent performance" in implicit sentiment analysis.
It not only surpasses existing methods in multiple evaluation metrics, but also significantly improves the overall performance, providing an effective solution for a wider range of sentiment analysis
application scenarios, especially when dealing with complex and indirectly expressed sentiment content, it has important application value and significance.
Keywords: semantic feature; implicit sentiment analysis; bidirectional gated recurrent unit; attention pooling
情感分析用于解決文本情感傾向性問題, 是自然語言處理中較熱門的研究領(lǐng)域[1]. 文本情感語句分為顯示情感語句和隱式情感語句[2], 其中隱式情感語句不含或含
有較少明顯的情感詞. 隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展, 海量信息的涌現(xiàn)使文本種類變多、 格式變得更復(fù)雜, 以至于難以被模型理解, 其中隱式情感語句起到了主導(dǎo)作用. 因此, 如何
對(duì)隱式情感語句進(jìn)行分析與特征提取成為自然語言處理中的一個(gè)難點(diǎn). 早期的情感分析方法主要包括基于情感詞典的方法和基于機(jī)器學(xué)習(xí)的方法[3]. 基于情感詞典
的方法使用情感詞典提取文本中的關(guān)鍵詞計(jì)算加權(quán), 但該方法需消耗大量人力和時(shí)間成本. 基于機(jī)器學(xué)習(xí)的方法使用特定的算法對(duì)文本中的關(guān)鍵詞進(jìn)行特征提取, 但該方法針對(duì)不同
領(lǐng)域的任務(wù)需人工調(diào)整算法, 無法實(shí)現(xiàn)自動(dòng)化情感分析.
目前主流方法是利用深度學(xué)習(xí)進(jìn)行情感分析, 實(shí)現(xiàn)自動(dòng)提取文本中的語義信息. Chen等[4]將軟注意力機(jī)制應(yīng)用于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN), 使其
能同時(shí)關(guān)注特定的獨(dú)特特征并捕捉信息隨時(shí)間的上下文變化; De Sarkar等[5]提出了一種分層注意力模型, 該模型在不使用手工特征的情況下選擇性地捕獲文檔中的關(guān)鍵句
子; Sun等[6]提出了一種基于雙向門控循環(huán)單元(bidirectional gated recurrent unit, BiGRU)的多變量時(shí)間序列預(yù)測(cè)方法——膠囊網(wǎng)絡(luò)模型, 引入了用戶角色的特征.
但僅考慮語句本身作為情感分析的數(shù)據(jù)來源并不夠, 因?yàn)楫?dāng)文本的語義較復(fù)雜時(shí), 除待分析的語句外還有很多與之相關(guān)的事實(shí)信息, 這些信息同樣重要. 針對(duì)上述問題, Zhi等[7]
采用Web和事實(shí)數(shù)據(jù)庫(kù), 可實(shí)時(shí)判斷實(shí)時(shí)查詢文本的真實(shí)性, 并以支持證據(jù)為其判斷提供依據(jù). Popat等[8]提出了一種基于雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(bidirectional
long short-term memory, BiLSTM)的端到端神經(jīng)網(wǎng)絡(luò), 用于聚合外部證據(jù). Rao等[9]使用兩級(jí)粒度注意力屏蔽雙向Transformer編碼器表示(bidirectional encoder representat
ions from transformers, BERT), 提出了一種層粒度的集成模型, 其中注釋作為重要的輔助特征, 可掩蓋淺層文本與文本之間的共同關(guān)注點(diǎn). 目前的情感分析研究主要集中于顯式
情感分析語句, 忽視了隱式情感分析的重要性. 而隱式情感語句在日常應(yīng)用場(chǎng)景十分常見, 目前針對(duì)隱式情感分析任務(wù)存在以下幾個(gè)問題: 1) 隱式情感語句缺乏通用性, 與
顯式情感語句相比和語境的關(guān)聯(lián)程度更大; 2)隱式情感語句不含或含有較少明顯的情感詞, 語言表達(dá)更委婉.
為解決上述問題, 本文提出一種基于語義特征提取的隱式情感分析方法. 該方法引入與隱式情感語句相關(guān)的事實(shí)信息作為外部證據(jù); 使用RoBERTa(robustly optimized BERT pretra
ining approach)對(duì)隱式情感語句和外部證據(jù)進(jìn)行預(yù)訓(xùn)練和全局的特征提取, 并進(jìn)行深度的語義交互; 為學(xué)習(xí)文本中的局部特征, 使用雙向門控循環(huán)單元(BiGRU)對(duì)文本進(jìn)行上下
文特征提取. 該方法針對(duì)隱式情感語句設(shè)計(jì)了不同的特征提取策略, 能更有效、 更完整地捕捉隱式情感語句中包含的情感特征, 在數(shù)據(jù)集Snopes和PolitiFact上的實(shí)驗(yàn)結(jié)果表明, 本文方法比現(xiàn)有方法效果更好、 性能更佳.
1 問題定義
情感分析任務(wù)是對(duì)情感語句進(jìn)行二分類(貶義、 褒義), 由于隱式情感語句的語義較復(fù)雜, 除語句本身外還有很多對(duì)分類任務(wù)有重要影響的事實(shí)信息. 因此, 本文在提取隱式情感
語句語義特征的同時(shí), 也對(duì)與之相關(guān)的事實(shí)信息進(jìn)行情感特征提取. 本文的分類任務(wù)可定義為: 對(duì)給定的任意隱式情感語句Sn和若干個(gè)與之相關(guān)的事實(shí)信息
Em,n進(jìn)行分類預(yù)測(cè)得到標(biāo)簽Ym,n, 表示其情感極性, 其中Ym,n=1表示褒義, Ym,n=0表示貶義. 本文隱式情感語句的分類任務(wù)可定義為
(Sn,Em,n)→Ym,n={0,1},(1)
2.1 嵌入層
由于易于微調(diào), BERT[10]和RoBERTa[11]被廣泛用于各種下游自然語言處理任務(wù)中. 本文選擇RoBERTa作為骨干網(wǎng)絡(luò), 因?yàn)樗切阅茌^好的基線. RoBE
RTa有3種嵌入編碼, 分別為標(biāo)記嵌入、 分割嵌入和位置嵌入, 其中標(biāo)記嵌入是基于WordPiece嵌入對(duì)模型進(jìn)行預(yù)訓(xùn)練得到的詞向量. 該模型在輸入文本時(shí), 除在單詞的開頭和結(jié)尾
插入特殊的標(biāo)志位(CLS和SEP)外, 還將每個(gè)單詞對(duì)應(yīng)到一個(gè)標(biāo)記嵌入向量上, 以分割句子. 使用WordPiece嵌入可比傳統(tǒng)的詞向量更好地處理未知詞和子詞的組合. 嵌入層結(jié)構(gòu)如圖2所示.
2.2 語義交互層
將Sn=(s1,s2,…,sn)視為n個(gè)隱式情感語句的序列, 將E
m,n=(e1,e2,…,em)視為與Sn相關(guān)的事實(shí)信息的序列. 在語
義交互層中, 采用12層的Transformer雙向編碼器提取情感語句中的特征. 首先, 隱式情感語句Sn和與之相關(guān)的事實(shí)信息Em,n交互, 計(jì)算公式為
Attention(Em,n,Sn,Sn)=Softmax
Em,n,STndSn,(2)
其中向量Em,n作為查詢(query), 向量Sn作為鍵(key)和值(value), 在Transformer編碼器中進(jìn)行深度語義交互, 鍵和值由不同的可學(xué)習(xí)線性層投影h次.
每個(gè)Transformer編碼器由兩個(gè)子層的模塊化單元組成: 多頭自關(guān)注和前饋網(wǎng)絡(luò). 輸出被連接并轉(zhuǎn)換為原始大小, 從而生成最終的輸出:
Z=concat(H1,H2,…,Hh)Wo,(3)
其中Hj=Attention(EWEj,SWSj,SWSj), 線性變換為WEj,
3.1 數(shù)據(jù)集
數(shù)據(jù)集PolitiFact和Snopes[12]是情感分析領(lǐng)域常用的數(shù)據(jù)集. 數(shù)據(jù)集PolitiFact包含了美國(guó)政治人物的言論; 數(shù)據(jù)集Snopes是由事實(shí)核查員從Snopes網(wǎng)站上手
動(dòng)驗(yàn)證和分類的信息數(shù)據(jù)集, 包含各種主題信息. 各數(shù)據(jù)集的具體信息列于表1.
3.2 參數(shù)設(shè)定
本文模型基于TensorFlow-gpu 2.5.0,Kerasbert 0.89,Keras 2.4.3實(shí)現(xiàn), GPU為RTX 4090 TI. 訓(xùn)練集和測(cè)試集劃分為8∶2. 學(xué)習(xí)率為1×10-5, 批量大小為128, 最大序列長(zhǎng)度為120.
3.3 對(duì)比模型
為評(píng)估本文方法在隱式情感語句分析任務(wù)上的性能, 選取多個(gè)基線模型進(jìn)行對(duì)比, 包括: 捕獲不同卷積窗口大小的語義模型(CNN)[13]; 用于學(xué)習(xí)和表示詞序列的語義模
型(LSTM)[14]; 使用注意力機(jī)制捕捉序列中不同位置之間關(guān)系的Transformer模型(Transformer)[15]; 采用多層雙向Transformer編碼器的BERT模型(BERT)[10]; 更健壯的BE
RT變體RoBERTa, 其中測(cè)試了重要的BERT設(shè)計(jì)選擇和訓(xùn)練策略(RoBERTa)[11]; 使用局部窗口注意力和任務(wù)驅(qū)動(dòng)的全局注意力融合模型(Longformer)[16].
3.4 評(píng)價(jià)指標(biāo)
為測(cè)試本文方法的性能, 選擇合適的評(píng)價(jià)指標(biāo)對(duì)分類結(jié)果進(jìn)行評(píng)價(jià). 精度在二元分類任務(wù)中應(yīng)用廣泛, 即使有少數(shù)樣本被錯(cuò)誤分類, 仍可得到很高的準(zhǔn)確
率. 因此, 為更全面評(píng)估基于語義特征提取的隱式情感分析方法的性能, 本文選擇準(zhǔn)確率(Accuracy)、 F1值(F1-score)、 精度(Precision)和召回率(Recall)作為評(píng)估指標(biāo), 計(jì)算公式分別如下:
Accuracy=TP+TNTP+FN+FP+TN,(10)F1-score=2×TP2×TP+FN+FP,(11)
Precision=TPTP+FP,(12)Recall=TPTP+FN,(13)
其中TP,TN,F(xiàn)P,F(xiàn)N分別為真陽性、 真陰性、 假陽性和假陰性樣本數(shù). 對(duì)所有的評(píng)估指標(biāo), 值越大性能越好.
3.5 實(shí)驗(yàn)結(jié)果
表2列出了在數(shù)據(jù)集PolitiFact和Snopes上本文模型和對(duì)比模型各評(píng)價(jià)指標(biāo)的結(jié)果.
由表2可見, 本文模型性能優(yōu)于選取的對(duì)比模型. 傳統(tǒng)的基于詞嵌入的CNN和LSTM模型的
分類性能最差, 因?yàn)檫@些方法常受限于淺層語義表示, 難以捕捉隱式情感語句中的復(fù)雜情感表達(dá). 當(dāng)從經(jīng)典的深度學(xué)習(xí)語言模型轉(zhuǎn)移到基于Transformer的模型時(shí), 兩個(gè)數(shù)據(jù)集的所有指標(biāo)均
有約8~13個(gè)百分點(diǎn)的改進(jìn). 在這些方法中, Longformer擅長(zhǎng)處理長(zhǎng)序列, 與經(jīng)典深度學(xué)習(xí)語言模型相比, 準(zhǔn)確率約提高15個(gè)百分點(diǎn). Longformer基于Transformer架構(gòu)的模型在處理
長(zhǎng)序列時(shí)具有明顯優(yōu)勢(shì), 這是因?yàn)樗鼈兛梢杂行Ь徑忾L(zhǎng)距離依賴問題, 從而提高了對(duì)較長(zhǎng)文本或復(fù)雜句子結(jié)構(gòu)的情感分析準(zhǔn)確性. BERT和RoBERTa在一般的文本分類任務(wù)上均較先進(jìn). 但與
這兩種方法相比, 本文模型在數(shù)據(jù)集Snopes上的準(zhǔn)確率約提高2.9個(gè)百分點(diǎn), 在數(shù)據(jù)集PolitiFact上的準(zhǔn)確率約提高3.4個(gè)百分點(diǎn). 從而證明了將BiGRU模塊組合到RoBERTa體系結(jié)構(gòu)中能更好地提取
隱式情感語句中的語義特征, BiGRU模塊的加入使模型能在RoBERTa提供的全局語義基礎(chǔ)上進(jìn)一步提煉局部特征. 這種組合方式不僅增強(qiáng)了對(duì)上下文的理解, 還特別適合處理那些情
感表達(dá)較隱晦、 需要結(jié)合前后文才能正確解讀的語句.
3.6 消融實(shí)驗(yàn)
為檢驗(yàn)本文模型各模塊的有效性, 進(jìn)行RoBERTa與LSTM、 GRU堆疊的消融實(shí)驗(yàn), 設(shè)計(jì)了“RoBERTa_LSTM/GRU_N”模塊, 以驗(yàn)證RoBERTa與LSTM、 GRU組合的可行性和有效性. 其中
N表示LSTM或GRU的迭代次數(shù), N=1,2,3." 在數(shù)據(jù)集Snopes上對(duì)應(yīng)的準(zhǔn)確率、 F1值、 精度以及召回率列于表3. 由表3可見, RoBERTa_ GRU_3性能最好.
綜上所述, 針對(duì)隱式情感分析中存在的語義不易理解等問題, 本文提出了一種基于語義特征提取的隱式情感分析方法. 該方法將RoBERTa融合BiGRU捕捉隱式情感語句中的語義特征, 捕獲句子之間的依賴關(guān)系, 以此對(duì)隱式情感語
句及其與之相關(guān)的事實(shí)信息同時(shí)進(jìn)行全局和局部的深層次特征提取. 在數(shù)據(jù)集Snopes和PolitiFact上的實(shí)驗(yàn)結(jié)果表明, 本文模型在各評(píng)價(jià)指標(biāo)上都性能良好. 與其他方法相比
, 本文模型架構(gòu)簡(jiǎn)單、 訓(xùn)練速度較快、 精確度高, 在隱式情感語句分析任務(wù)的整體性能上獲得了有效提升, 消融實(shí)驗(yàn)也驗(yàn)證了模型中的各模塊對(duì)最終結(jié)果都有貢獻(xiàn).
參考文獻(xiàn)
[1] 張銘泉, 周輝, 曹錦綱. 基于注意力機(jī)制的雙BERT有向情感文本分類研究 [J]. 智能系
統(tǒng)學(xué)報(bào), 2022, 17(6): 1220-1227. (ZHANG M Q, ZHOU H, CAO J G. A Study on Double
BERT Directed Sentiment Text Classification Based on Attention Mechanisms [J]. Journal of Intelligent Systems, 2022, 17(6): 1220-1227.)
[2] 張軍, 張麗, 沈凡凡, 等. RoBERTa融合BiLSTM及注意力機(jī)制的隱式情感分析 [J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(23): 142-150. (ZHANG Z, ZHANG L, SHEN F F, et al. Impl
icit Sentiment Analysis with RoBERTa Fusion BiLSTM and Attention Mechanisms [J]. Computer Engineering and Applications, 2022, 58(23): 142-150.)
[3] 武壯, 晁榮志, 陳湘國(guó), 等. 基于BERT-MSCNN的同行評(píng)議情感分類研究 [J]. 軟件導(dǎo)
刊, 2023, 22(8): 54-58. (WU Z, CHAO R Z, CHEN X G, et al. A Study on Peer-Reviewed Sentiment Classification Based on BERT-MSCNN [J]. Software Guide, 2023, 22(8): 54-58.)
[4] CHEN T, LI X, YIN H, et al. Call Attention to Rumors: Deep Attention Based Recurrent Neural Networks for Early Rumor D
etection [C]//Trends and Applications in Knowledge Discovery and Data Mining. Berlin: Springer International Publishing, 2018: 40-52.
[5] DE SARKAR S, YANG F, MUKHERJEE A. Attending Sentences to Detect Satirical Fake
News [C]//Proceedings of the 27th International Conference on Computational Linguistics. [S.l.]: ACL, 2018: 3371-3380.
[6] SUN X, WANG C, Lü Y W, et al. Rumour Detection Technology Based on the BiGRU_C
apsule Network [J]. Applied Intelligence, 2023, 53(12): 16246-16262.
[7] ZHI S, SUN Y C, LIU J Y, et al. ClaimVerif: A Real-Time Claim Verification System
Using the Web and Fact Databases [C]//Proceedings of the 2017 ACM on Conference on Information and Knowledge Management. New York: ACM, 2017: 2555-2558.
[8] POPAT K, MUKHERJEE S, YATES A, et al. Declare: Debunking Fake News and False C
laims Using Evidence-Aware Deep Learning [EB/OL]. (2018-09-17)[2023-09-10]. https://arxiv.org/abs/1809.06416.
[9] RAO D N, MIAO X, JIANG Z H, et al. STANKER: Stacking Network Based on Level-Grain
ed Attention-Masked BERT for Rumor Detection on Social Media[C]//Proceedings
of the 2021 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2021: 3347-3363.
[10] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of Deep Bidirectional T
ransformers for Language Understanding [EB/OL]. (2018-10-11)[2023-10-01]. https://arxiv.org/abs/1810.04805.
[11] LIU Y H, OTT M, GOYAL N, et al. Roberta: A Robustly Optimized Bert Pretraining A
pproach [EB/OL]. (2019-07-26)[2023-10-15]. https://arxiv.org/abs/1907.11692.
[12] POPAT K, MUKHERJEE S, STR?GEN J, et al. Where the Truth Lies: Explaining
the Credibility of Emerging Claims on the Web and Social Media [C]//Proceedings of the 26th International Conference on World Wide Web Companion. New York: ACM, 2017: 1003-1012.
[13] WANG W Y. “Liar, Liar Pants on Fire”: A New Benchmark Dataset for Fake News
Detection [EB/OL]. (2017-05-01)[2023-09-20]. https://arxiv.org/abs/1705.00648.
[14] RASHKIN H, CHOI E, JANG J Y, et al. Truth of Varying Shades: Analyzing Languag
e in Fake News and Political Fact-Checking [C]//Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. [S.l.]: ACL, 2017: 2931-2937.
[15] VASWANI A, SHAZEER N, PARMAR N, et al. Attention Is All You Need [C]//Procee
dings of the 31st International Conference on Neural Information Processing System. New York: ACM, 2017: 5998-6008.
[16] BELTAGY I, PETERS M E, COHAN A. Longformer: The Long-Document Transformer
[EB/OL]. (2020-04-10)[2023-10-20]. https://arxiv.org/abs/2004.05150.
(責(zé)任編輯: 韓 嘯)