摘 要:多模態(tài)模型構建是為了充分地利用文本、語音和視覺等多種信息源,進而提供更準確、全面的情感分析和理解能力。這在用戶情感理解、品牌口碑分析、輿情監(jiān)控等領域具有重要意義。為了提高多模態(tài)情感分析算法的準確率,首先通過研究文本、語音和視頻3種模態(tài)的情感特征提取以及實驗驗證,選擇更合適的音視頻特征。其次提出了多種多模態(tài)網(wǎng)絡結構,并使用雙層多模態(tài)融合網(wǎng)絡即結合LSTM和MLP進行驗證對比。實驗結果表明,與單模態(tài)相比,多模態(tài)模型在分類任務上具有顯著優(yōu)勢。該算法在二分類和三分類任務中的準確率分別達到了82.49%和70.9%,超過了其他算法。
關鍵詞:深度學習;多模態(tài);情感分析;神經(jīng)網(wǎng)絡;長短期記憶網(wǎng)絡;多層感知機;特征融合
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2024)11-00-05
0 引 言
情感是當一個人遇到一個特定的事件、人或?qū)嶓w時所產(chǎn)生的一種長期的情緒。情感分析[1-2]通常是基于文本或圖像等單一模態(tài)信息進行分析的。然而,單一模態(tài)因無法完整地表達情感信息,往往不能獲得理想的效果。近幾年,隨著深度學習技術的發(fā)展,通過多模態(tài)融合獲得具有一定價值的信息已經(jīng)成為一種趨勢。例如文獻[3]提出基于全局詞頻統(tǒng)計的詞表征模型,充分考慮了語義的相似性和共現(xiàn)相似性之間的關系。文獻[4]發(fā)布了在視頻序列中標注句子級情感標簽的MOSI數(shù)據(jù)集。文獻[5]和文獻[6]又先后提出了張量融合網(wǎng)絡與記憶融合網(wǎng)絡,從長短期記憶網(wǎng)絡與兩層全連接層網(wǎng)絡的結合變化為使用長短期記憶網(wǎng)絡對各模態(tài)單獨建模,做到更有效地反映情感信息。文獻[7]利用同一視頻中句子的上下文信息構建了一個層次模型,以輔助多模態(tài)情感的分類過程。文獻[8]通過在所有層中聯(lián)合調(diào)節(jié)上下文信息來預訓練深層的雙向表示,與傳統(tǒng)模型相比,其并行計算能力更強,模型中的自注意力機制也使得分類標簽能夠關注到更多詞與詞之間的離散特征。
然而,多模態(tài)情感分析領域仍有許多研究空白。故本文針對多模態(tài)領域的情感分類問題展開研究,通過對模態(tài)數(shù)據(jù)的分析和處理,利用深度學習方法搭建多模態(tài)情感分析模型,提高多模態(tài)情感分類的準確率。多模態(tài)情感分析算法的框架如圖1所示,大致將其分為特征提取和特征融合2個部分,首先對輸入視頻進行音視頻分離,再將視頻轉(zhuǎn)化為圖像后讓其分別進入不同的網(wǎng)絡中實現(xiàn)特征提??;然后輸入信息到融合網(wǎng)絡中,通過雙層網(wǎng)絡的第二層全連接網(wǎng)絡,生成最終結果;最后驗證本文使用算法的優(yōu)勢與效果。
1 特征提取
1.1 文本特征
多模態(tài)情感分析任務需要考慮文本以外的其他數(shù)據(jù)類型,如圖像、音頻或視頻。因此,在篩選特征時,需要確保其與其他模態(tài)數(shù)據(jù)的兼容性和一致性。
2019年,哈爾濱工業(yè)大學和科大訊飛公司聯(lián)合發(fā)表了一篇關于中文BERT-WWM模型[9]的論文。為了彌補BERT訓練中部分Wordpiece分詞方法的不足,在該模型中引入了全字掩蔽(WWM)方法。全字掩蔽是將文本中的每個字都進行掩蔽,而不是僅僅掩蔽單詞級別的Wordpiece,這使得BERT-WWM在中文文本處理任務中表現(xiàn)出更高的準確性和可靠性。
為克服獨熱編碼和詞嵌入[10-11]的限制,本文采用了基于Transformer[12]的BERT模型作為文本特征提取器,并引入適合于該領域的BERT-WWM模型進行實驗驗證。
1.2 視頻特征
視頻特征在情感分析中具有舉足輕重的作用,尤其是人物表情信息的影響不容忽視。
為此,本文采用多任務卷積神經(jīng)網(wǎng)絡(Multi-Task Convolutional Neural Network, MTCNN)[13]進行人臉檢測;又借助OpenFace工具,運用CE-CLM模型[14]進行人臉特征點檢測。這種基于模型的方法主要是通過卷積網(wǎng)絡對人臉的68個關鍵點進行精確定位,為特征點提供了正則化形式的形狀和外觀建模。
此外,本文還采用文獻[15]提出的算法來識別動作單元,通過逐幀提取每個視頻片段的特征,包括關鍵點坐標、面部動作單元、眼部關鍵點以及注視焦點等,并對特征序列在時間維度上取平均值,獲得對應視頻片段的綜合特征。
1.3 音頻特征
對于音頻特征,常見提取方法如下:
(1)過零率(Zero Crossing Rate, ZCR):是時域語音信號分析中最簡單且常用的特征之一。它指的是在特定時間段內(nèi)語音信號變化時穿過零點的次數(shù)。計算公式如下:
(1)
式中:N是1幀的采樣點數(shù);sgn[]為符號函數(shù),即:
(2)
通過計算語音信號在時間域上變化的過程中經(jīng)過零點的次數(shù),可以提取出過零率特征。
(2)線性預測編碼(Linear Prediction Coding, LPC):是一種被廣泛應用于語音信號處理過程的特征提取方法[16]。其目標是找到最佳的預測系數(shù),使得通過線性組合得到的預測樣本與實際語音樣本的誤差最小。
(3)恒定Q變換(Constant Q Transform, CQT):是一種將數(shù)據(jù)序列變換到頻域的方法[17],特別適用于音頻信號分析。
CQT變換在頻率軸上采用等比例劃分,將頻率范圍分為一系列帶寬不斷增大的子帶,不同的頻譜線采用不同長度的濾波窗,以適應不同頻率范圍的特性,這使得CQT在表示音頻信號的時域-頻域特征時具有更好的性能。
(4)梅爾頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCCs):通過將音頻信號轉(zhuǎn)換到梅爾頻率刻度,并進行離散余弦變換,提取出一組MFCCs特征,用于表征音頻的頻譜特征。
綜上,本文在提取音頻特征時,首先使用FFmpeg工具將每個視頻片段的音頻內(nèi)容分離,并且使用Librosa庫[18]以512的滑動間隔提取過零率、梅爾倒譜系數(shù)、恒定Q變換和線性預測編碼特征。然后,將這些特征在時間維度上求平均,最終得到該片段的音頻特征。
2 特征融合
2.1 基礎網(wǎng)絡
門控循環(huán)單元網(wǎng)絡(Gated Recurrent Units, GRU)是循環(huán)神經(jīng)網(wǎng)絡的一種,它是為解決反向傳播造成的梯度問題而存在的。
GRU只有兩個門:更新門zt和重置門rt。
(1)更新門zt:用來控制當前狀態(tài)ht需要從上一時刻狀態(tài)ht-1中保留多少信息(不經(jīng)過非線性變換),以及需要從候選狀態(tài)中接收多少信息;
(2)重置門rt:用來控制候選狀態(tài)的計算是否依賴上一時刻狀態(tài)ht-1。
(3)
(4)
(5)
(6)
通過分析上述公式可知,GRU直接利用更新門來平衡輸入和遺忘的權重。相比之下,長短期記憶網(wǎng)絡(Long Short-Term Memory, LSTM)的結構則顯得更為復雜。
LSTM通過引入3個門來控制信息的傳遞,分別是遺忘門ft、輸入門it和輸出門ot。相比于GRU,它的輸入門和遺忘門具有一定的冗余性。
3個門的作用分別如下:
(1)遺忘門ft控制上一時刻的內(nèi)部狀態(tài)ct-1需要遺忘多少信息;
(2)輸入門it控制當前時刻的候選狀態(tài)有多少信息需要保存;
(3)輸出門ot控制當前時刻的內(nèi)部狀態(tài)ct有多少信息需要輸出給外部狀態(tài)ht。
此外,本文還涉及到一個經(jīng)典網(wǎng)絡,多層感知機(Multi-Layer Perceptron, MLP),又被稱為前饋神經(jīng)網(wǎng)絡,由人工神經(jīng)元連接而成。該網(wǎng)絡結構中,各神經(jīng)元分別屬于不同的層。每一層的神經(jīng)元可以接收前一層神經(jīng)元的信號,并產(chǎn)生信號輸出到下一層。第0層叫輸入層,最后一層叫輸出層,其他中間層叫做隱藏層。整個網(wǎng)絡中無反饋,信號從輸入層向輸出層單向傳播。其結構如圖2所示。
2.2 網(wǎng)絡架構
基于以上分析,針對特征提取進行實驗后,進一步確定本文的網(wǎng)絡結構,即采用基于長短期記憶網(wǎng)絡[18]和多層感知機的雙層多模態(tài)網(wǎng)絡構建模型。
該模型是以雙層架構為基礎搭建而成的,框架如圖3所示,該網(wǎng)絡的輸入是上文從3種模態(tài)中提取出的各個特征,輸出則是表示情感狀態(tài)的標量。雙層結構的第一層由3種子網(wǎng)絡組成,它們負責將輸入特征轉(zhuǎn)換為表示情感的特征向量。第二層網(wǎng)絡以對各個子網(wǎng)絡的輸出特征拼接后的特征作為輸入,并輸出一個落在[-1,1]范圍內(nèi)的標量,作為最終識別結果。
對于第二層融合網(wǎng)絡,以MLP作為網(wǎng)絡結構,并通過網(wǎng)格搜索的方式選擇超參數(shù)。在這種方式下,用GridSearchCV方法自動對這些參數(shù)組合進行排列和測試評估,最終得到最優(yōu)的超參數(shù)配置結果。融合網(wǎng)絡的重點將集中在第一層中各子網(wǎng)絡的選取上,把三模態(tài)分類問題解決后,實現(xiàn)的網(wǎng)絡架構如圖4所示。
當輸入為文本特征序列時,可采取以下3種可行方案:
(1)將BERT_WWM提取的特征序列作為輸入,經(jīng)過LSTM網(wǎng)絡輸出最后狀態(tài),再經(jīng)過MLP網(wǎng)絡處理,得到特征向量作為子網(wǎng)絡的輸出。
(2)除將輸入數(shù)據(jù)經(jīng)過GRU網(wǎng)絡并輸出最后狀態(tài)外,其余與步驟(1)相同。
(3)對BERT_WWM進行微調(diào),并以BERT_WWM輸出序列的第一個值作為輸入,經(jīng)過MLP網(wǎng)絡處理,得到的特征向量作為子網(wǎng)絡的輸出。
當輸入為音頻和視頻特征時,同樣可提出3種候選方案:
(1)將對應特征序列作為輸入,經(jīng)過LSTM網(wǎng)絡輸出最后狀態(tài),再經(jīng)過MLP網(wǎng)絡處理,將得到的特征向量作為子網(wǎng)絡的輸出。
(2)除將輸入數(shù)據(jù)經(jīng)過GRU網(wǎng)絡并輸出最后狀態(tài)外,其余與步驟(1)相同。
(3)將對應的特征序列均值作為輸入,經(jīng)過批歸一化和MLP網(wǎng)絡處理,得到的特征向量作為子網(wǎng)絡的輸出。
顯然,除第三方案中的輸入序列加工方法不同外,三模態(tài)提取后的特征操作流程基本一致。后續(xù)實驗中,將針對上述方案進行排列組合,共計27種由3個子網(wǎng)絡組合而成的網(wǎng)絡。其中,第二層的全連接融合網(wǎng)絡結構相同,為3層
MLP,每層神經(jīng)元個數(shù)分別為32、32、1。輸出層使用Sigmoid激活函數(shù),其余層使用ReLU激活函數(shù)。
訓練過程中使用tensorboard記錄損失值的變化。此外,使用L1損失函數(shù)進行訓練,并采用小批量梯度下降的方式,批次大小為32。優(yōu)化器選擇Adam,學習率為0.002,其余參數(shù)保持默認值。為了防止過擬合,采用了權值衰減和提前停止的策略,權值衰減系數(shù)設置為0.000 1,提前停止的步長設為32。
結合以上內(nèi)容,總結整個算法流程如下:對于輸入的視頻數(shù)據(jù)文件使用FFmpeg工具進行音視頻分離,并將視頻轉(zhuǎn)換為逐幀圖片,在MTCNN網(wǎng)絡中對圖片進行人臉檢測并提取人臉部分;通過OpenFace工具對檢測到的人臉圖片進行特征提取,生成一個739維特征向量,并對每個視頻片段的特征序列求平均,作為該視頻片段的特征表示。使用Librosa庫提取視頻合適特征,對每個視頻片段的音頻特征序列求平均,并作為該片段的音頻特征。使用中文BERT_WWM對文本進行編碼,以生成文本特征序列。最后,將3種模態(tài)的信息輸入上文確定的雙層多模態(tài)融合網(wǎng)絡,3個子網(wǎng)絡將輸入特征轉(zhuǎn)換為統(tǒng)一的向量格式,然后將3個向量拼接,通過第二層的全連接網(wǎng)絡產(chǎn)生輸入。
3 實驗結果與分析
3.1 使用數(shù)據(jù)集與評價指標
本文使用的是CH-SIMS數(shù)據(jù)集[19],共有2 281個視頻片段,片段中只包含一張人臉,時長在1~10 s范圍內(nèi)。標注者依次根據(jù)單一模態(tài)信息、多模態(tài)信息進行標注。
后續(xù)實驗中將數(shù)據(jù)集按照3∶1∶1的比例劃分為訓練集、驗證集和測試集。為驗證文本特征提取的效果,防止模型過度擬合測試集數(shù)據(jù),本文在整體模型實驗中,全部使用圖5所示的部分數(shù)據(jù)集進行訓練。部分數(shù)據(jù)集是重新按照3∶1∶1的比例對整體數(shù)據(jù)集中的訓練集和測試集進行劃分而來。
此外,評價指標在多模態(tài)情感分析中也起著重要作用。其中二分類準確率(ACC2)是將情感按照模型輸出的值進行劃分,并根據(jù)標注值計算分類準確率。三分類準確率(ACC3)是將輸出區(qū)間劃分為積極、消極和中性,進而計算準確率。這2種指標的準確率都是越高越好;F1分數(shù)是召回率和精確率的調(diào)和平均值,綜合了模型的召回率和精確率,F(xiàn)1分數(shù)越大表示模型效果越好。平均絕對誤差(Mean Absolute Error, MAE)也可以作為評價指標,用于衡量維度情感建模的預測值與實際標注值之間的誤差,值越小越好。
后文的實驗中將利用上述4種指標評估模型的準確性和性能優(yōu)劣。
3.2 測試結果
在確定三模態(tài)時文本特征使用BERT_WWM編碼的詞向量,視頻特征使用OpenFace提取的全部特征,音頻特征則選取了過零率與10維MFCCs。本文對27個網(wǎng)絡進行了訓練,結果見表1。對于文本特征,使用LSTM和GRU直接進行微調(diào)效果更好。視頻和音頻特征則使用上文第三種方案效果更好。故選擇文本LSTM+視頻Mean+音頻Mean的組合作為主體網(wǎng)絡結構。
為分析多模態(tài)融合方式對于情感分析算法識別效果的影響,以及不同模態(tài)信息的重要性,本文設計了7組融合實驗,包括對各個模態(tài)的網(wǎng)絡單獨進行實驗(通過刪除整體網(wǎng)絡中的特定分支來實現(xiàn))、兩模態(tài)融合實驗、三模態(tài)融合實驗。所有網(wǎng)絡的訓練均在整體數(shù)據(jù)集的訓練集和驗證集上進行,其余參數(shù)不變。
最后在整體數(shù)據(jù)集的測試集上獲得了實驗結果。每組數(shù)據(jù)均為5次實驗的平均值,并使用了相同的5個隨機種子,以確保實驗的可重復性。得到的相應數(shù)據(jù)見表2。通過對比實驗數(shù)據(jù)可知,三模態(tài)融合的效果最佳。
最后,在CH-SIMS數(shù)據(jù)集上,將本文算法與TFN、LMF、MFN、EF_LSTM等算法進行了對比。所有對比算法都采用了它們的開源代碼實現(xiàn),且未進行任何參數(shù)調(diào)整,結果見表3。本文模態(tài)融合算法通過不同模態(tài)信息之間的相互補充,提高了算法的識別精度,且在各項評價指標上都優(yōu)于對比算法。
4 結 語
本文探討了多模態(tài)情感分析的優(yōu)勢和研究現(xiàn)狀,并從提高特征表達能力的角度,選擇3種特征提取方式,設計并對比了多種可行的網(wǎng)絡模型,最終確定并實現(xiàn)了一種基于LSTM和MLP的雙層多模態(tài)融合網(wǎng)絡,在CH-SIMS數(shù)據(jù)集上驗證了本文算法的有效性。未來針對多模態(tài)情感分析算法的研究還需要考慮到其他方面,如提升算法對各種模態(tài)數(shù)據(jù)的魯棒性以及豐富數(shù)據(jù)集等。
參考文獻
[1] HUDDAR M G, SANNAKKI S S, RAJPUROHIT V S. A survey of computational approaches and challenges in multimodal sentiment analysis [J]. International journal of computer sciences and engineering, 2019, 7(1): 876-883.
[2] RAFFEL C, SHAZEER N, ROBERTS A, et al. Exploring the limits of transfer learning with a unified text-to-text transformer [J]. Journal of machine learning research, 2019, 21: 1-67.
[3] PENNINGTON J, SOCHER R, CHRISTOPHER D M, et al. Glove: global vectors for word representation [C]// Conference on Empirical Methods in Natural Language Processing. [S.l.]: [s.n.], 2014.
[4] COWIE R, CORNELIUS R R. Describing the emotional states that are expressed in speech [J]. Speech communication, 2003, 40(1/2): 5-32.
[5] ZADEH A, CHEN M, PORIA S, et al. Tensor fusion network for multimodal sentiment analysis [C]// Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. [S.l.]: [s.n.], 2017: 1103-1114.
[6] ZADEH" A, LIANG P P, et al. Memory fusion network for multi-view sequential learning [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.]: AAAI, 2018.
[7] PORIA S, CAMBRIA E, HAZARIKA D, et al. Context-dependent sentiment analysis in user-generated videos [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.]: [s.n.], 2017.
[8] DEVLIN J, CHANG M W, LEE K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding [EB/OL].(2019-05-24). https: //doi.org/10.48550/arXiv.1810.04805.
[9] CUI Y, CHE W, LIU T, et al. Pre-training with whole word masking for Chinese BERT [J]. IEEE/ACM transactions on audio, speech, and language processing, 2021, 29: 3504-3514.
[10] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality [C]// Proceedings of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2013, 2: 3111-3119.
[11] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY, USA: Curran Associates Inc, 2017: 6000-6010.
[12] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas, NV, USA: IEEE, 2016: 770-778.
[13] ZADEH A, CHONG L Y, BALTRUSAITIS T, et al. Convolutional experts constrained local model for 3d facial landmark detection [C]// Proceedings of the IEEE International Conference on Computer Vision Workshops. Venice, Italy: IEEE, 2017: 2519-2528.
[14] BALTRU?AITIS T, MAHMOUD M, ROBINSON P. Cross-dataset learning and person-specific normalisation for automatic action unit detection [C]// 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG). Ljubljana, Slovenia: IEEE, 2015: 1-6.
[15] SCH?RKHUBER C, KLAPURI A. Constant-Q transform toolbox for music processing [C]// 7th Sound and Music Computing Conference. Barcelona, Spain: [s.n.], 2010: 3-64.
[16] MCFEE B, RAFFEL C, LIANG D, et al. Librosa: audio and music signal analysis in Python [C]// Proceedings of the 14th Python in Science Conference. [S.l.]: [s.n.], 2015: 18-25.
[17] HARA K, KATAOKA H, SATOH Y, et al. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and imagenet? [C]// Proceedings of the IEEE conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 6546-6555.
[18] HOCHREITER S, SCHMIDHUBER J. Long short-term memory [J]. Neural computation, 1997, 9(8): 1735.
[19] MIKOLOV T, CHEN K, DEAN J, et al. Efficient estimation of word representations in vector space [J]. International conference on learning representations, 2013: 5959482.
作者簡介:張潤桐(2000—),女,在讀碩士研究生,研究方向為圖像處理。
張鶴軒(1998—),男,碩士,研究方向為深度學習。
王紫玉(2000—),女,在讀碩士研究生,研究方向為文字識別。
葛曉康(1999—),男,在讀碩士研究生,研究方向為知識圖譜。
收稿日期:2023-11-10 修回日期:2023-12-11
基金項目:國家自然科學基金青年基金項目:基于紅外與可見光圖像的雙波段雙視場立體視覺關鍵問題研究(617013 44)