關(guān)鍵詞:多模態(tài)情感識別;層次化融合;多尺度融合;特征融合
中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2025)07-008-1978-08
doi:10. 19734/j.issn.1001-3695.2024.11.0487
Abstract:Multimodalemotionrecognitionhasrecentlybecomeanimportantresearchdirectioninafectivecomputing,aiming to moreaccuratelyrecognizeandunderstand human emotional states by integrating various modalitiessuchasspeechandtext. However,existingmethodslacktheprocessngofinter-modalcorelationsduringfeatureextractionandoverlook multi-scale emotionalcuesduring feature fusion.Toaddresstheseisues,thisstudyproposedadeepfeature interactionand hierarchical multimodal fusionemotionrecognition model(DFIHMF).Inthefeature extraction stage,themodel enhanced interactionsbetweendifferentmodalitiesandextractedmulti-scaleinformationbyintroducinglocalknowledgetokens(LKT)andcrosmodal interaction tokens(CIT).Inthefeature fusionstage,the model integratedcomplexmultimodalfeaturesandmulti-scaleemotionalcesusingahierarchical fusionstrategy.ExperimentalresultsontheMOSIandMOSEIdatasetsshow thatthemodel achieves accuracy rates of 45.6% and 53.5% on the ACC7 evaluation metric,demonstrating that the proposed method outperforms existing technologies in multimodal emotion recognition tasks.
Key Words:multimodal emotion recognition;hierarchical fusion;multi-scale fusion;feature fusion
0 引言
情感識別是自然語言處理(naturallanguageprocessing,NLP)中的一項核心任務(wù),其目標(biāo)在于分析和處理輸入文本,以估計對象的情緒狀態(tài)。傳統(tǒng)情感識別研究主要集中于文本模態(tài),然而,隨著多媒體平臺的迅速發(fā)展,包含文本、圖像、語音等多種形式的數(shù)據(jù)呈現(xiàn)出爆炸式增長,這使得情感識別的輸入不再局限于單一文本模態(tài)。音瀕與圖像模態(tài)也可以作為輸人,這些不同模態(tài)通過提供互補(bǔ)信息,能夠有效提升情感識別的精度。因此,近年來,多模態(tài)情感識別(multimodalemotionrecognition,MER)逐漸成為研究熱點,并在諸如人機(jī)交互、醫(yī)學(xué)監(jiān)測[和教育[3]等諸多領(lǐng)域得到了廣泛應(yīng)用。隨著多模態(tài)數(shù)據(jù)的不斷增加和處理技術(shù)的不斷進(jìn)步,如何高效地融合不同模態(tài)的信息以提升情感識別的性能,已成為該領(lǐng)域的重要研究方向。
近年來,大規(guī)模預(yù)訓(xùn)練語言模型4和音頻模型5取得了顯著進(jìn)展,推動了基于預(yù)訓(xùn)練模型的多模態(tài)融合方法迅速發(fā)展。在預(yù)訓(xùn)練模型的多層編碼器結(jié)構(gòu)中,低層編碼器主要負(fù)責(zé)捕捉輸入文本的淺層特征,包括詞匯的基本含義和語法結(jié)構(gòu),其側(cè)重于處理細(xì)粒度的信息,尤其是詞級別的具體細(xì)節(jié)。相對而言,高層編碼器則聚焦于抽象高級語義信息,能夠捕捉長距離依賴關(guān)系和復(fù)雜的語義特征,整合全局信息,處理句子語義和主題等宏觀內(nèi)容,從而表示輸入的粗粒度特征。例如,Xie等人[提出了一種基于多任務(wù)學(xué)習(xí)和預(yù)訓(xùn)練模型的多模態(tài)融合情感識別方法,該方法通過增強(qiáng)模態(tài)間的互動與情感表達(dá),顯著提高了情感識別的準(zhǔn)確性和泛化能力。然而,現(xiàn)有的多模態(tài)情感識別方法在特征提取階段普遍采用獨立模態(tài)處理的方式,即對不同模態(tài)的數(shù)據(jù)分別使用對應(yīng)的預(yù)訓(xùn)練模型單獨提取特征。每種模態(tài)在特征提取過程中相互獨立,缺乏模態(tài)之間的深度交互,從而忽視了不同模態(tài)之間潛在的互補(bǔ)信息與協(xié)同作用。例如, Hu 等人[提出了一種交互注意力方法來融合多模態(tài)信息以用于語音情感識別,其通過預(yù)訓(xùn)練模型與基于頻譜的模型分別獨立提取音頻特征與頻譜特征并進(jìn)行情感預(yù)測。這種處理方式導(dǎo)致提取的多模態(tài)特征信息不夠充分,進(jìn)而限制了后續(xù)多模態(tài)特征融合階段的效果,影響整體性能。
早期的多模態(tài)融合方法主要依賴于淺層特征融合,這些方法在整合多模態(tài)信息方面存在一定的局限性。具體來說,這些方法通常通過在決策層進(jìn)行簡單的拼接或加權(quán)融合來實現(xiàn)多模態(tài)的整合,但在處理復(fù)雜的多模態(tài)關(guān)系時,效果較為有限。例如,Poria等人[8提出了一種基于卷積多核學(xué)習(xí)的多模態(tài)情感識別模型,該模型通過不同的卷積核提取文本、音頻和視頻的特征,并將這些特征拼接后進(jìn)行情感預(yù)測。類似地,Sun等人[9提出了一種將文本、音頻和視頻特征向量簡單拼接的多模態(tài)融合方法,隨后通過深度典型相關(guān)分析進(jìn)一步學(xué)習(xí)這些模態(tài)之間的相關(guān)性,以提升情感預(yù)測性能。盡管這些方法能夠整合來自不同模態(tài)的信息,其表現(xiàn)仍然受到一定限制。這主要是因為情感表達(dá)通常涵蓋多個層次的信息,從具體的詞匯和語音特征到抽象的語義線索。例如, Wu 等人[10]提出了基于時間感知雙向多尺度網(wǎng)絡(luò)和多頭注意力機(jī)制的改進(jìn)型多模態(tài)情感識別模型,該模型不僅通過跨模態(tài)注意力機(jī)制加強(qiáng)了語音與文本模態(tài)之間的交互,還利用多尺度特征提取捕捉情感變化信息。然而,現(xiàn)有方法在特征融合時往往僅依賴預(yù)訓(xùn)練模型的最后一層輸出作為特征,并沒有利用到特征提取時原生存在的多層次語義信息。這種方式難以充分捕捉多層次信息,進(jìn)而限制了情感識別的準(zhǔn)確性和泛化能力。特別是在處理模態(tài)間互補(bǔ)信息時,簡單的淺層特征拼接方式難以有效展現(xiàn)不同模態(tài)特征之間的協(xié)同作用,從而限制了模型在復(fù)雜情感場景下的識別能力。
為了解決上述問題,本文提出了一種基于深度特征交互與層次化多模態(tài)融合的情感識別模型(deepfeatureinteractionandhierarchical multimodal fusionfor emotionrecognition,DFIHMF)。該模型首先引入兩種類型的額外令牌(token)作為預(yù)訓(xùn)練模型的中間輸入,分別為跨模態(tài)交互令牌(cross-modalinteractiontoken,CIT)和本地知識令牌(localknowledgetoken,LKT)。其中,CIT旨在增強(qiáng)模態(tài)間的交互性,通過動態(tài)特征映射機(jī)制在不同模態(tài)之間傳遞信息,捕捉模態(tài)間的互補(bǔ)特性與協(xié)同關(guān)系。不同模態(tài)(如文本和語音)的特征通常存在顯著的互補(bǔ)性,CIT通過跨模態(tài)特征交互機(jī)制,將一種模態(tài)的信息顯式映射到另一模態(tài)的特征空間,促進(jìn)模態(tài)間的深度協(xié)同與互補(bǔ),從而更好地揭示模態(tài)間的潛在聯(lián)系。例如,CIT在文本編碼器中通過非線性映射將文本的潛在特征空間映射到音頻特征空間,從而將文本模型中的知識傳遞到音頻模型,促進(jìn)跨模態(tài)的深度理解。而LKT用于在模態(tài)內(nèi)部捕捉多層次的情感線索,涵蓋局部細(xì)節(jié)與全局語義,并通過前向傳播學(xué)習(xí)與總結(jié)當(dāng)前模態(tài)與跨模態(tài)的融合表示。例如編碼器在接收到CIT傳遞的跨模態(tài)信息后,LKT逐步在預(yù)訓(xùn)練模型的不同層次中學(xué)習(xí)并表達(dá)層次化的語義信息,從局部到全局捕捉情感線索。這一設(shè)計不僅確保了每種模態(tài)的特征在進(jìn)入融合階段之前得到充分提取與總結(jié),還為后續(xù)的跨模態(tài)交互與融合提供了更高質(zhì)量的輸人,有效彌補(bǔ)了現(xiàn)有方法在多尺度特征捕獲上的不足。這種雙重令牌設(shè)計既增強(qiáng)了模態(tài)間的交互能力,又提升了模態(tài)內(nèi)部的特征提取質(zhì)量,為情感識別任務(wù)提供了更具表現(xiàn)力的特征表示。現(xiàn)有模型大多在特征提取完成后才進(jìn)行模態(tài)特征融合,忽視了在特征提取階段實現(xiàn)模態(tài)間交互的潛力。本文方法通過CIT在特征提取過程中動態(tài)融合模態(tài)間的信息,從源頭上強(qiáng)化了模態(tài)協(xié)同作用。此外,現(xiàn)有方法通常僅依賴于高層語義信息,未能充分利用特征提取過程中各層隱含的多層次情感線索。通過LKT,本文有效捕捉了模態(tài)內(nèi)部的局部細(xì)節(jié)和全局語義信息,使得多模態(tài)特征的表達(dá)更加全面,從而為情感識別提供了更高質(zhì)量的基礎(chǔ)特征。
進(jìn)一步地,本文設(shè)計了一種層次化融合模型,將預(yù)訓(xùn)練模型提取的高級特征與不同層次的LKT進(jìn)行融合,使得模型能夠在保留高級語義特征的同時,有效融合多尺度的語義特征。這種融合策略顯著提升了模型的泛化能力,使其在處理復(fù)雜情感場景時能夠表現(xiàn)得更加出色。大量實驗結(jié)果表明,DFIHMF在應(yīng)對多模態(tài)情感識別中的關(guān)鍵挑戰(zhàn)并提升多個數(shù)據(jù)集上的情感識別準(zhǔn)確性方面,展現(xiàn)出了顯著的效果。本文的主要貢獻(xiàn)總結(jié)如下:
a)提出了一個新型的多模態(tài)特征提取框架,通過引入兩種類型的額外令牌,促進(jìn)預(yù)訓(xùn)練模型的雙向同步融合,從而增強(qiáng)不同模態(tài)間基礎(chǔ)知識的交互。b)提出了層化融合模型,將高層語義信息與低層語義信息相結(jié)合,提升了模型對語義的全面理解以及對細(xì)粒度情感線索的關(guān)注能力,進(jìn)而增強(qiáng)了模型的泛化性。c)在CMU-MOSI和CMU-MOSEI數(shù)據(jù)集上進(jìn)行實驗,結(jié)果驗證了DFIHMF方法的有效性。
1相關(guān)工作
1.1 預(yù)訓(xùn)練模型
近年來,預(yù)訓(xùn)練模型(如BERT、wav2vec等)在自然語言處理領(lǐng)域取得了顯著進(jìn)展,并廣泛應(yīng)用于多模態(tài)情感識別任務(wù)中[1]。研究者們通過對多模態(tài)數(shù)據(jù)輸入應(yīng)用預(yù)訓(xùn)練模型進(jìn)行特征提取,以增強(qiáng)情感識別能力。例如,Li等人[12]提出了一種解耦與融合模型,該模型通過三種獨立的預(yù)訓(xùn)練模型進(jìn)行特征提取,并采用雙層解耦機(jī)制、貢獻(xiàn)感知融合機(jī)制以及上下文重融合機(jī)制,顯著提升了對話情感識別的性能。Fan等人[13]提出了一種名為AttA-NET的網(wǎng)絡(luò),利用預(yù)訓(xùn)練模型提取音頻和視覺特征,并通過注意力聚合模塊實現(xiàn)高效的多模態(tài)情感識別融合,從而顯著提高了識別精度。此外,張小艷等人[14]提出了一種三級聯(lián)合提示隱式情感分析方法,結(jié)合大語言模型與預(yù)訓(xùn)練模型,逐級推理目標(biāo)方面、潛在觀點和情感極性,有效解決了隱式情感特征缺失的問題。然而,這些研究在使用預(yù)訓(xùn)練模型提取特征時,往往忽視了不同模態(tài)預(yù)訓(xùn)練模型之間的信息交互?,F(xiàn)有的大多數(shù)方法通常獨立提取每個模態(tài)的特征,并在后續(xù)的融合階段對這些特征進(jìn)行特定的融合操作[15]。這種方式未能充分利用多模態(tài)之間的潛在互補(bǔ)信息,限制了模型在復(fù)雜情感場景中的表現(xiàn),尤其是在需要融合多種感知信號以進(jìn)行更準(zhǔn)確情感識別的情況下。因此,在預(yù)訓(xùn)練模型的特征提取階段引入跨模態(tài)的交互信息,已成為當(dāng)前研究中的一個重要挑戰(zhàn)和發(fā)展方向。
1.2多模態(tài)情感識別
在多模態(tài)情感識別領(lǐng)域,研究者主要關(guān)注如何有效融合多種模態(tài)數(shù)據(jù)(如文本、語音、視覺),以提升情感識別的準(zhǔn)確性和泛化性?,F(xiàn)有研究多集中于設(shè)計不同的融合機(jī)制,以綜合利用多模態(tài)信息。常見的融合方法包括特征級融合、決策級融合和模型級融合。首先,特征級融合是多模態(tài)情感識別中常見的方法之一,其核心思想是提取各模態(tài)特征并進(jìn)行融合,隨后輸入分類器或回歸模型。早期研究主要采用簡單的特征拼接,但此方法忽略了模態(tài)間的潛在交互信息。因此,近年來提出了許多改進(jìn)的方法。例如, ΔZhou 等人[17]提出了一種基于自注意力機(jī)制和雙線性池化與多級因式分解的特征級融合方法,用于多模態(tài)情感識別。Priyasad等人[18則提出了基于注意力驅(qū)動的多模態(tài)情感識別模型來融合文本和語音數(shù)據(jù)以進(jìn)行情感分類。其次,決策級融合方法首先對每種模態(tài)的數(shù)據(jù)進(jìn)行獨立建模,然后結(jié)合各模態(tài)的預(yù)測結(jié)果得到最終的情感識別結(jié)果。Zhang等人[19提出了一種基于生理信號的決策級融合算法,利用均值閾值來解決個體差異,融合多分類器以提升情感識別的準(zhǔn)確性。該方法的優(yōu)勢在于各模態(tài)的處理可以獨立進(jìn)行,適用于模態(tài)異構(gòu)性較大的場景。最后,模型級融合方法通過設(shè)計多模態(tài)聯(lián)合建模架構(gòu),直接捕捉不同模態(tài)間的深層次交互信息。例如,部分研究采用多模態(tài)Transformer架構(gòu),通過多頭自注意力機(jī)制實現(xiàn)模態(tài)間的交互[20]。李健等人[21]提出了一種連續(xù)情感識別方法,利用感知重采樣模塊去除冗余信息,壓縮關(guān)鍵特征,并通過交叉與自注意力機(jī)制實現(xiàn)多模態(tài)數(shù)據(jù)融合。此外,一些研究利用圖神經(jīng)網(wǎng)絡(luò)構(gòu)建模態(tài)間的圖結(jié)構(gòu),以更好地捕捉模態(tài)間的關(guān)系[22]。例如李紫荊等人[23]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)的多模態(tài)融合的語音情感識別模型,通過圖結(jié)構(gòu)優(yōu)化文本和聲學(xué)特征以提升多模態(tài)特征的融合效果,同時降低模型復(fù)雜度。
最近的研究逐漸將關(guān)注點聚焦于通過增強(qiáng)模態(tài)間交互來提升多模態(tài)情感識別的效果。例如, Hu 等人提出了一種基于交互注意力的聯(lián)合網(wǎng)絡(luò)方法,融合了預(yù)訓(xùn)練模型與頻譜模型的中間特征以進(jìn)行語音情感識別,并通過多分支訓(xùn)練策略進(jìn)一步優(yōu)化模型性能。與此同時,一些研究在強(qiáng)化模態(tài)交互的基礎(chǔ)上,還著力于提取多尺度的多模態(tài)信息,從而提升情感識別的準(zhǔn)確率。例如,Liu等人[2提出了一種結(jié)合自注意力機(jī)制與多尺度融合的多模態(tài)情感識別方法,利用自注意力LSTM和CNN分別提取語音與文本特征。類似地, Yu 等人[25]提出了一種基于多維特征提取與多尺度特征融合的語音情感識別方法,該方法通過多維卷積模塊和多尺度殘差卷積網(wǎng)絡(luò)提取多尺度信息,并借助全局特征融合模塊整合情感特征。然而,現(xiàn)有的研究多在特征提取后進(jìn)行模態(tài)融合,未能充分利用特征提取過程中模態(tài)間的潛在交互。盡管后融合策略提升了性能,但忽視了預(yù)訓(xùn)練模型中各層次編碼器層所蘊(yùn)涵的跨模態(tài)協(xié)同信息與原生多尺度信息,限制了模型在捕捉細(xì)粒度情感變化和多模態(tài)協(xié)同表達(dá)方面的能力。
2方法模型
如圖1所示,本文提出的DFIHMF模型可以分為深度交互特征提取、層次化特征融合以及情感預(yù)測三個階段。第一階段旨在實現(xiàn)多模態(tài)的雙向融合,并從文本與音頻數(shù)據(jù)中提取多模態(tài)特征。第二階段通過融合層次化特征,使模型能夠感知和捕捉多尺度的情感線索。第三階段,經(jīng)過多層融合后的綜合特征輸人至全連接層進(jìn)行最終的特征處理和融合,輸出為情感預(yù)測結(jié)果。這三個階段的細(xì)節(jié)將在下文中詳細(xì)闡述。
2.1 問題定義
在數(shù)據(jù)集 D 中,視頻被分割為連續(xù)的片段,每個片段包含一句話語 U 在本文中,采用文本與音頻兩個模態(tài)來進(jìn)行情感傾向識別,即 U={XT,XA} ,其中 X 為原始數(shù)據(jù)輸入, T 表示文本模態(tài),A表示音頻模態(tài)。本文目標(biāo)是使用多模態(tài)數(shù)據(jù)來識別視頻中個體的情感傾向。即通過給定話語 U ,將其分類為預(yù)定義的情感類別或被預(yù)測連續(xù)的情感強(qiáng)度值。
2.2深度交互特征提取
DFIHMF的輸入由文本 (T) 和音頻(A)兩種模態(tài)構(gòu)成,記為 Xm ,其中 m∈{T,A} 。首先,將文本和音頻的原始數(shù)據(jù)輸入到對應(yīng)的嵌人層(embeddinglayer),得到初始隱藏層特征表示 ,其中 s 表示特征長度, d 表示特征維度。
H0m=Embedding(Xm)m∈{T,A}
隨后,分別將 H0T 與 H0A 輸入至各自的單模態(tài)編碼器層(encoderlayer),以提取文本和音頻的基本特征。在此過程中,單模態(tài)編碼器層主要基于預(yù)訓(xùn)練模型的知識,通過多層自注意力機(jī)制捕捉各模態(tài)內(nèi)部的語義和時序信息。對于文本模態(tài),編碼器層能夠更好地理解句子的語法結(jié)構(gòu)、上下文依賴關(guān)系和語義線索。而對于音頻模態(tài),編碼器層則能有效提取語音信號中的韻律、頻譜變化和語音特征。通過這種方式,預(yù)訓(xùn)練模型的深層語義理解能力得以充分發(fā)揮,從每種模態(tài)中學(xué)習(xí)到更豐富、細(xì)致的特征表示,為后續(xù)的跨模態(tài)交互提供了有力的基礎(chǔ)信息支持。在本文中,基本特征提取層數(shù)設(shè)定為 f 基本特征提取步驟如式(2)所示。
Him=Lim(Hi-1m;θ)i=1,2,…,f-1
其中: Li 表示第 i 層編碼器層; θ 為對應(yīng)的預(yù)訓(xùn)練參數(shù); Hf-1m 即為所提取的基本特征。
在本文中,模型引入了跨模態(tài)交互令牌(CIT)和本地知識令牌(LKT),以促進(jìn)不同模態(tài)間的信息交換與深度融合。具體而言,CIT主要用于文本與音頻模態(tài)之間的交互,作為專門的學(xué)習(xí)單元,聚焦于捕捉和整合來自不同模態(tài)的互補(bǔ)信息。在每個交互層中,CIT通過非線性映射層從另一模態(tài)中提取相關(guān)上下文信息,使模型能夠跨越模態(tài)界限,獲得更豐富的聯(lián)合特征表示。同時,LKT用于總結(jié)各模態(tài)內(nèi)部的本地特征知識。在每個模態(tài)的編碼層中,LKT作為該模態(tài)特定信息的高度概括,能夠有效提煉該模態(tài)中的局部與全局信息。該機(jī)制確保每種模態(tài)在進(jìn)行跨模態(tài)交互前,已充分提取并精煉其內(nèi)部特征表達(dá)。通過這種雙重令牌機(jī)制,模型在捕捉模態(tài)間的交互信息時,保持了對各模態(tài)內(nèi)部特征的完整理解,從而為最終的情感識別提供更全面和細(xì)致的特征表示。
在提取完成基本特征之后,首先將初始化的CIT和LKT連接到基本特征 Hf-1m 上,連接后得到的輸人序列如下:
Hf-1m°ledastLKTf-1m°ledastClTf-1m
其中: 表示特征連接。隨后將連接后的序列輸入到單模態(tài)編碼器層,即
以文本編碼器為例,通過前向傳播學(xué)習(xí), 此時已包含文本模態(tài)的信息,并通過耦合函數(shù) F 投影到音頻潛空間中,從而確保兩種模態(tài)的協(xié)同作用,即
其中:耦合函數(shù)F由多層感知機(jī)(multilayerperceptron,MLP)實現(xiàn),負(fù)責(zé)將不同模態(tài)的CIT輸人映射至對方模態(tài)空間。具體來說,上一層的 CITi-1T 經(jīng)過文本編碼器層后的中間輸出 涵蓋了本層的文本語義信息,而耦合函數(shù)通過MLP將文本語義信息融入到音頻潛空間中,即以
為輸入,輸出 CITi4 作為對應(yīng)下一層的音頻輸人,從而促進(jìn)兩種模態(tài)交互。耦合函數(shù)作為兩種模態(tài)間的橋梁,促進(jìn)梯度的相互傳播。與獨立學(xué)習(xí)的令牌不同,CIT在兩種模態(tài)間的顯式交互,有助于在兩個分支的共享嵌入空間中學(xué)習(xí)共同知識,強(qiáng)化相互協(xié)同作用。通過多次重復(fù)上述過程 N(N=K-f) 次,以進(jìn)一步促進(jìn)模態(tài)融合,其中 K 表示預(yù)訓(xùn)練模型的最大層數(shù),即
最后, HKm 即為所提取的特征,用于后續(xù)融合。
2.3 層次化特征融合
為了融合提取的特征,本文提出了一種層次化融合模型(hierarchicalfusionmodel,HF),如圖2所示。該模型旨在整合不同層的LKT信息與多模態(tài)特征,以提升模型對語義理解的全面性和對細(xì)粒度情感線索的關(guān)注能力,從而增強(qiáng)模型的泛化性。由于不同層的LKT包含了不同尺度的信息,這種差異性賦予了模型在多模態(tài)特征融合中層次化的語義理解能力。具體而言,底層的LKT主要包含局部且細(xì)粒度的特征信息,例如文本中的具體詞匯語義或音頻中的低級聲學(xué)特征。隨著層數(shù)的增加,高層的LKT逐漸聚合并抽象出更高層次的語義信息,如句子結(jié)構(gòu)、上下文關(guān)系和情感傾向等。值得注意的是,該層次化融合模型的層數(shù)設(shè)計與深度特征提取中的融合層數(shù)一致。每一層的任務(wù)是融合對應(yīng)的LKT知識,旨在最大化利用每層編碼器中LKT的多尺度信息。
在該層次化融合模型中,輸入即為兩種模態(tài)的特征表示,即文本特征表示 Ti 與音頻特征表示 Ai(i=1,2,…,N) 。初始輸入為深度交互特征提取的表示 HKm ,即
由于LKT是在多模態(tài)數(shù)據(jù)環(huán)境下訓(xùn)練得到的,所以在融合LKT知識之前,本文先對文本特征輸入 Ti 與音頻特征輸入Ai 采用跨模態(tài)注意力(cross-modal attention,CA)單元進(jìn)行初步融合。該單元集成了兩種模態(tài)的特征,并結(jié)合了跨模態(tài)信息,旨在捕捉不同模態(tài)間的相互依賴關(guān)系,有助于更全面地理解數(shù)據(jù)。以文本模態(tài)為例,跨模態(tài)注意力可定義為
其中: WQ,WK,WV 為可學(xué)習(xí)的參數(shù); K′ 為 K 矩陣的轉(zhuǎn)置; p 表示
Q,K 的維度大?。?FiT 表示融合了音頻特征的文本特征,即初步融合特征。
隨后將初步融合 Fim 特征表示與LKT進(jìn)行融合,首先計算融合特征的強(qiáng)度分?jǐn)?shù) Sim=softmax(FC(Fim)) ,F(xiàn)C表示全連接層(fully-connected layer,F(xiàn)C)。 Sim 很好地體現(xiàn)了初步融合特征中的有益語義信息,同時忽略冗余信息。隨后,利用LKT進(jìn)行融合,通過LKT中的層次化語義強(qiáng)化初步融合特征中的重要部分,同時保留初步融合特征的原始語義,即
其中: ? 表示乘法。最后將 與
拼接起來,作為融合多尺度特征 Fi ,即
為了最大程度保證不同模態(tài)特征的獨特性并降低多模態(tài)
之間的冗余信息,本文將 Ti?Ai 與 Fi 進(jìn)行融合,既能整合層次化知識,又能確保預(yù)訓(xùn)練模型的基礎(chǔ)知識不丟失。以文本模態(tài)為例,融合方法如下:
最后,本文所提出的網(wǎng)絡(luò)包括一個額外的自注意編碼器(self-attentionencoder,SA)和一個前饋網(wǎng)絡(luò)(feedforwardnet-work,F(xiàn)FN)。自注意模塊用于對新特征表示的時間步長進(jìn)行建模,從而有效捕捉全局信息,而前饋網(wǎng)絡(luò)則進(jìn)一步精煉編碼后的特征表示。此外,通過結(jié)合使用殘差連接,模型在每次特征變換后能夠保持特征的穩(wěn)定性和一致性,同時保留重要的低層輸入信息,避免信息在深度網(wǎng)絡(luò)中逐層削弱。該設(shè)計有助于提高模型的表達(dá)能力和訓(xùn)練效率,從而增強(qiáng)情感識別模型在處理復(fù)雜輸人時的表現(xiàn)。以文本模態(tài)為例,以上流程如下:
重復(fù)上述過程 N 次,利用不同層LKT的信息多樣性和層次性,模型在多模態(tài)情感識別任務(wù)中能夠表現(xiàn)出更強(qiáng)的特征表達(dá)能力和更高的泛化性,即
Ti+1,Ai+1=HF(Ti,Ai)i=1,2,…,N
2.4情感預(yù)測
在獲得最終的多模態(tài)特征表示 后,首先將各模態(tài)的特征進(jìn)行拼接,作為統(tǒng)一的輸入。隨后,拼接后的特征被輸入至全連接層,以進(jìn)一步實現(xiàn)特征融合與處理。最終,通過全連接層輸出的結(jié)果用于情感識別任務(wù),從而對輸入內(nèi)容進(jìn)行情感分類或預(yù)測,即
y=FC(TN+1@AN+1)
其中: y 為預(yù)測的情感分類。
本文采用交叉熵?fù)p失函數(shù)作為任務(wù)損失,即
其中: 表示真實標(biāo)簽; B 表示一個批次中的樣本數(shù)量。
算法1詳細(xì)描述了DFIHMF模型的運行流程,包括深度交互特征提取、層次化特征融合以及情感預(yù)測三個階段。
算法1基于深度特征交互與層次化多模態(tài)融合的情感識別模型
輸人:數(shù)據(jù)集 D 中的話語片段 U={XT,XA} ,其中 XT 為原始文本輸入, XA 為原始音頻輸人。
輸出:每個話語 U 對應(yīng)的情感預(yù)測分?jǐn)?shù) y
H0m=Embedding(Xm) 三 m∈{T,A} //將原始輸入轉(zhuǎn)變?yōu)橄蛄勘硎?/p>
定義基本特征提取層數(shù) f, 預(yù)訓(xùn)練模型的最大層數(shù) K, 當(dāng)前編碼器層數(shù) i=1 、層次化融合層數(shù) N=K -f,初始化各層LKT、CIT
//階段1深度交互特征提取
while( iim=Lim(Hi-1m;-θ) ;//提取基本特征elseHi-1m°ledastLKTi-1m°ledastCITi-1m;// 將特征拼接上 CIT 與 LKT (204號//融合 CIT 與LKT
//耦合函數(shù)將音頻模態(tài)信息投影到文本潛空間中
//耦合函數(shù)將文本模態(tài)信息投影到音頻潛空間中
end while
//階段2層次化特征融合
T1=HKT,A1=HKA ;//獲得層次化融合的初始輸入
i=1 :
while( i //通過注意力機(jī)制初步融合文本特征 //通過注意力機(jī)制初步融合音頻特征Sim=softmax(FC(Fim) );//計算初步融合特征的強(qiáng)度分?jǐn)?shù)(204號
;//通過 LKT 增強(qiáng)初步融合特征
, 11 融合增強(qiáng)特征
//進(jìn)一步融合整合層次化知識,減少冗余信息
(20//通過自注意力對文本長距離依賴建模
;//獲取文本層次化融合輸出
(20號//通過自注意力對音頻長距離依賴建模
;//獲取音頻層次化融合輸出
end while
//階段3情感預(yù)測
TN+1,AN+1 ;//層次化融合特征最終輸出
y=FC(TN+1⊕AN+1) :
//全連接層作為分類頭進(jìn)行預(yù)測,輸出預(yù)測結(jié)果
turn y
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)集
本文在兩個公開的多模態(tài)情感數(shù)據(jù)集CMU-MOSI和CMU-MOSEI上進(jìn)行了實驗,數(shù)據(jù)集的詳細(xì)信息如表1所示。
CMU-MOSI[26]數(shù)據(jù)集是一個多模態(tài)情感分析基準(zhǔn)數(shù)據(jù)集,包含來自YouTube的93個視頻片段,共2199個子片段,涵蓋文本、音頻和視覺三種模態(tài)信息。每個片段均被標(biāo)注為-3到+3 的連續(xù)情感強(qiáng)度,表示從強(qiáng)烈負(fù)面到強(qiáng)烈正面的情感。該數(shù)據(jù)集被廣泛用于評估多模態(tài)情感分析模型,能夠有效驗證模型在融合文本、音頻與視覺信息方面的性能。
CMU-MOSEI[27]數(shù)據(jù)集是目前最大規(guī)模的多模態(tài)情感分析數(shù)據(jù)集之一,廣泛用于研究多模態(tài)情感識別與情感強(qiáng)度預(yù)測任務(wù)。該數(shù)據(jù)集包含來自1000多名不同說話者的近23500個在線視頻片段,覆蓋了文本、音頻和視覺三種模態(tài)信息,代表了真實世界中多樣化的情感表達(dá)。每個片段都被標(biāo)注了一個從-3到 +3 的連續(xù)情感強(qiáng)度值,反映出從強(qiáng)烈負(fù)面到強(qiáng)烈正面的情感。此外,CMU-MOSEI還包含六種基本情緒標(biāo)簽(開心、悲傷、憤怒、驚訝、恐懼和厭惡),使得情感分析任務(wù)更加全面和復(fù)雜。由于其大規(guī)模、多樣性和真實世界情感分布特性,CMU-MOSEI成為多模態(tài)情感分析和情感識別領(lǐng)域驗證模型性能與泛化性的關(guān)鍵數(shù)據(jù)集。
3.2 實驗配置
在所有實驗中,本文采用bert-base-uncased模型作為文本編碼器,data2vec模型作為音頻編碼器,所有預(yù)訓(xùn)練檢查點均來自HuggingFace。文中引入的額外令牌CIT和LKT采用高斯分布(均值為0,標(biāo)準(zhǔn)差為0.02)進(jìn)行初始化。
實驗基于PyTorch框架進(jìn)行模型搭建與運行,在訓(xùn)練過程中,所有的實驗使用AdamW優(yōu)化器,學(xué)習(xí)率設(shè)定為1E-5。模型中所有dropout層的隨機(jī)丟棄比例均設(shè)定為0.3。文本編碼器特征維度與音頻編碼器特征維度均為768。隨機(jī)種子設(shè)置為0。參數(shù)訓(xùn)練次數(shù)(epoch)設(shè)置為20,早停(earlystop)設(shè)置為5。批次大小 B 為 16 。文本編碼器與音頻編碼器默認(rèn)層數(shù)K 為12層。基本特征提取層數(shù) f 為4層,融合層數(shù) N 為8層。默認(rèn)CIT與LKT的長度均為16,耦合函數(shù)F隱藏層大小為2048維。
3.3 實驗結(jié)果
為了評估所提方法的有效性,本文將DFIHMF與當(dāng)前主流模型進(jìn)行比較,包括 TFN[28] ! LMF[29] 、 MFM[30] 、 MulT[31] MCTN[32]、ICCN[9]MISA[33]、SUGRM[34]、TMBL[35]
DFIHMF總體結(jié)果如表2所示。與當(dāng)前的先進(jìn)模型相比,DFIHMF表現(xiàn)出強(qiáng)大的性能,在CMU-MOSI與CMU-MOSEI數(shù)據(jù)集關(guān)鍵指標(biāo)上實現(xiàn)了最好的性能。具體而言,在CMU-MOSI數(shù)據(jù)集中,DFIHMF模型的二分類準(zhǔn)確率(ACC2)達(dá)到了84.9% ,比現(xiàn)有最優(yōu)模型提升了0.4百分點。同時,七分類準(zhǔn)確率(ACC7)提升至 45.6% ,相較于基線模型提升了7.8百分點。在CMU-MOSEI數(shù)據(jù)集中,DFIHMF模型的ACC2提升至85.5% ,同時ACC7則達(dá)到 53.5% ,相較于其他模型平均提升了2.2百分點。這些結(jié)果驗證了本文模型在多模態(tài)情感融合任務(wù)中具有更好的特征表達(dá)能力和情感傾向捕捉能力。這些性能提升得益于本文提出的跨模態(tài)交互令牌(CIT)和本地知識令牌(LKT)機(jī)制。CIT通過引入跨模態(tài)的上下文信息,促進(jìn)不同模態(tài)之間的深度交互,使得模型比傳統(tǒng)模態(tài)獨立訓(xùn)練的方法更有效地捕捉多模態(tài)間的潛在互補(bǔ)特性。例如,與SUGRM等模型的淺層注意力機(jī)制相比,CIT顯式構(gòu)建了跨模態(tài)的動態(tài)特征映射,在模態(tài)協(xié)同表達(dá)能力上更進(jìn)一步。而LKT則在特征提取階段引入多層次的本地語義總結(jié),使得模型能夠在融合過程中更好地保留和利用各模態(tài)內(nèi)部的細(xì)粒度特征。相比TMBL等依賴單一語義層的融合方法,LKT的引入大幅提升了模型對細(xì)節(jié)和全局信息的捕捉能力。此外,DFIHMF模型引入的層次化融合模塊在情感線索的多層次整合方面展現(xiàn)了顯著優(yōu)勢。不同于現(xiàn)有僅利用高層語義特征進(jìn)行簡單拼接的策略,層次化融合機(jī)制能夠在多模態(tài)信息的不同語義層次上進(jìn)行交互與整合,從具體詞匯到高級語義均能被有效建模。這種設(shè)計顯著增強(qiáng)了模型在復(fù)雜情感場景中的穩(wěn)健性和泛化能力,使其在多模態(tài)情感識別任務(wù)中的表現(xiàn)優(yōu)于基線模型。
3.4消融實驗
本節(jié)研究了不同因素對所提出融合策略的影響,并通過組件消融、令牌長度和融合深度三個方面驗證本文提出的令牌機(jī)制與層次化融合模型的有效性。
a)組件消融。組件消融實驗旨在驗證跨模態(tài)交互令牌(CIT)、本地知識令牌(LKT)和層次化融合模塊(HF)對整體模型性能的有效性,具體結(jié)果如表3所示。Base模型表示去除所有新增組件的情況,僅使用各模態(tài)所提取的特征進(jìn)行拼接的線性融合模型,作為對比基準(zhǔn)。與Base模型相比,引入CIT的模型在CMU-MOSI與CMU-MOSEI數(shù)據(jù)集上的ACC7指標(biāo)分別提升了 7.4% 和 15.6% 。這表明CIT能夠有效促進(jìn)不同模態(tài)特征間的交互,然而,由于未引入復(fù)雜的映射機(jī)制,其效果仍存在一定局限性。在此基礎(chǔ)上,進(jìn)一步引入非線性映射組件( ,相較于僅使用CIT的模型,其ACC2和ACC7分別進(jìn)一步提升了 14.8% 和 0.2% ,驗證了非線性映射能夠捕捉多模態(tài)特征間復(fù)雜的非線性關(guān)系,從而增強(qiáng)模型的情感信息提取能力。然而,單獨使用 CIT+F 時,模型未能充分融合多模態(tài)特征中的層次化情感線索。當(dāng)模型引人LKT和層次化融合模塊1 LKT+HF )后,性能在兩個數(shù)據(jù)集上均顯著提升,與Base模型相比,在ACC7指標(biāo)上分別提升了 22.7% 和 15.1% 。這表明LKT不僅能夠有效總結(jié)每個模態(tài)內(nèi)部特征的本地語義信息,還能夠在模態(tài)內(nèi)捕獲更豐富的局部與全局情感線索,并在HF模塊的多層次特征融合中實現(xiàn)更細(xì)致和全面的多尺度情感融合。因此, LKT+HF 模塊在多模態(tài)情感識別中進(jìn)一步提升了模型對復(fù)雜情感元素的捕捉與融合能力。
b)令牌長度。在對令牌長度(tokenlength)進(jìn)行的消融實驗中,本文嘗試了不同的令牌長度,分別為4、8、16等。實驗結(jié)果如圖3所示,當(dāng)令牌長度從1增加至16時,模型的 F1 指標(biāo)在CMU-MOSI數(shù)據(jù)集上從 81.98% 逐步提升至 83.84% ,而在CMU-MOSEI數(shù)據(jù)集上則從 83.63% 提高至 84.53% 。這一結(jié)果表明,適當(dāng)增加令牌長度有助于模型更好地捕捉多模態(tài)特征中的細(xì)粒度信息。然而,當(dāng)令牌長度進(jìn)一步增加至128時, F1 指標(biāo)在兩個數(shù)據(jù)集上均出現(xiàn)略微下降(分別為 82.75% 和84.18% ),這可能是由于過擬合導(dǎo)致的性能退化。因此,選擇令牌長度為16作為默認(rèn)設(shè)置,能夠在提升特征表達(dá)能力的同時有效控制模型復(fù)雜度。
c)融合深度。融合深度對多模態(tài)情感識別模型的性能有顯著影響,實驗結(jié)果如圖4所示,適度增加融合層數(shù)(例如增至8層)可以有效提升模型的情感識別準(zhǔn)確率。在CMU-MOSI與CMU-MOSEI數(shù)據(jù)集中,融合深度從1層增加到8層時, F1 指標(biāo)分別提高了約 3.1% 與 2.1% 。這種提升主要源于更多層次能夠捕捉從細(xì)粒度到高級語義的層次化信息,包括詞匯語義、句子結(jié)構(gòu)以及上下文關(guān)系。然而,當(dāng)融合層數(shù)超過8層后,性能提升趨于停滯,甚至可能出現(xiàn)下降。這種現(xiàn)象可能是由于模型復(fù)雜度的增加導(dǎo)致的過擬合。因此,本文選擇8層作為最佳融合深度,以在性能與復(fù)雜度之間實現(xiàn)有效平衡。
3.5 實驗樣例
為了全面展示本文方法的優(yōu)勢,本文設(shè)計了一個具有代表性的案例進(jìn)行深入分析,樣例識別結(jié)果如圖5所示。在這個例子中,本實驗選取了CMU-MOSI多模態(tài)數(shù)據(jù)集中ID為nb-WiPyCm4g0 的視頻作為研究對象。該視頻被劃分為10個視頻片段,即輸入 I={U1,U2,…,U10} 。其中每個視頻片段 Ui 均包含音頻與文本兩種模態(tài)信息。在情感強(qiáng)度標(biāo)注方面,樣本的標(biāo)簽即為連續(xù)情感強(qiáng)度,其從-3至 +3 表示從強(qiáng)烈負(fù)面到強(qiáng)烈正面的情感。而樣本的三個分類標(biāo)注! ΔVeg,Neu,Pos 用于分類任務(wù),分別代表消極、中立與積極。
從圖5中觀察到,模型在情感極性預(yù)測上表現(xiàn)出較高的準(zhǔn)確度,尤其是在判斷極性分類(Pos、Neg、Neu)時,預(yù)測結(jié)果與真實標(biāo)注基本一致。對于單一模態(tài)的預(yù)測,文本模態(tài)和音頻模態(tài)分別在某些視頻段落上存在預(yù)測偏差較大的情況。例如,在單一文本模態(tài)預(yù)測中,在 U5,U6 的預(yù)測上存在較大偏差,其平均誤差為0.33。而在單一音頻模態(tài)預(yù)測中,在 U4,U6 的預(yù)測與真實標(biāo)簽存在較大誤差,其平均誤差達(dá)到了0.43。相比之下,模態(tài)融合的預(yù)測結(jié)果表現(xiàn)更為優(yōu)越,其平均誤差降低至0.24,尤其是在 U6 (預(yù)測為Neu)等段落,模型通過融合文本和音頻信息,能更準(zhǔn)確地捕捉情感的變化,減少了單一模態(tài)的誤差。這些實驗結(jié)果充分證明了本文提出的特征提取框架和層次化融合模型的有效性。無論是在連續(xù)的情感強(qiáng)度預(yù)測任務(wù)還是離散的情感分類任務(wù)中,該方法都展現(xiàn)出了優(yōu)秀的性能和穩(wěn)定性。特別是在處理多模態(tài)數(shù)據(jù)時,模型能夠有效整合音頻和文本特征,從而作出更準(zhǔn)確的情感判斷。這個案例不僅驗證了方法的可行性,也為今后的多模態(tài)情感分析研究提供了有價值的參考。后續(xù)研究可以進(jìn)一步探索在更大規(guī)模數(shù)據(jù)集上的表現(xiàn),以及針對不同應(yīng)用場景的優(yōu)化方案。
4結(jié)束語
針對多模態(tài)情感識別中不同模態(tài)間交互不足、多尺度情感線索融合不充分的問題,本文提出了一種基于深度特征交互與層次化多模態(tài)融合的情感識別模型(DFIHMF)。通過引入跨模態(tài)交互令牌(CIT)和本地知識令牌(LKT),模型實現(xiàn)了預(yù)訓(xùn)練模型間的信息交互,有效捕捉了多模態(tài)的情感信息。層次化融合機(jī)制進(jìn)一步增強(qiáng)了多模態(tài)特征的綜合利用,提升了模型的情感識別性能。在CMU-MOSI和CMU-MOSEI數(shù)據(jù)集上的實驗結(jié)果表明,DFIHMF模型在準(zhǔn)確率和泛化性方面均取得了顯著提升,驗證了其在多模態(tài)情感融合任務(wù)中的有效性。然而,模型在復(fù)雜情感表達(dá)的泛化能力和模態(tài)間權(quán)重的自適應(yīng)分配上仍有改進(jìn)空間。未來研究可以進(jìn)一步優(yōu)化模態(tài)交互機(jī)制和權(quán)重動態(tài)分配策略,以提升模型在更多情感場景中的適應(yīng)性。
參考文獻(xiàn):
[1]La Mura M,Lamberti P.Human-machine interaction personalization:a reviewon gender and emotion recognition through speech analysis [C]//Proc of IEEE International Workshop on Metrology for Industry 4.0amp;IoT.Piscataway,NJ:IEEE Press,202O:319-323.
[2]Zhang Tao,Liu Minjie,Yuan Tian,etal.Emotion-aware and intelligent Internetof medical things toward emotion recognition during COVID19pandemic[J].IEEE Internet of Things Journal,2021,8(21): 16002-16013.
[3]Wang Weiqing,Xu Kunliang,Niu Hongli,et al.Retracted:emotion recognition of students based on facial expressions in online education based on the perspective of computer simulation[J].Complexity, 2020,2020(1) :4065207.
[4]Brown TB.Language models are few-shot learners[C]//Proc of the 34th Conference on Neural Information Processing.Red Hook,IVT: Curran Associates Inc.,2020:1877-1901.
[5]Schneider S,Baevski A,Collobert R,et al. wav2vec:unsupervised pretraining for speech recognition[EB/OL].(2019-09-11).https://arxiv.org/abs/1904.05862.
[6]Xie Jinbao,Wang Jiyu,Wang Qingyan,et al.Amultimodal fusion emotion recognition method based on multitask learning and attention mechanism[J].Neurocomputing,2023,556:126649.
[7]Hu Ying,Hou Shijing,YangHuamin,etal.A joint network based on interactiveattention forspeech emotion recognition[C]//Procof IEEE International Conference on Multimedia and Expo.Piscataway, NJ:IEEE Press,2023:1715-1720.
[8]Poria S,Chaturvedi I,Cambria E,et al.Convolutional MKL based multimodal emotion recognition and sentiment analysis[C]//Proc of the 16th IEEE International Conference on Data Mining.Piscataway,NJ: IEEE Press,2016:439-448.
[9]Sun Zhongkai,SarmaP,Sethares W,et al.Learning relationships between text,audio,and video via deep canonical correlation for multimodal language analysis[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2020:8992-8999.
[10]Wu Yuezhou,Zhang Siling,Li Pengfei. Improvement of multimodal emotion recognition based on temporal-aware bi-direction multi-scale network and multi-head attention mechanisms[J].Applied Sciences,2024,14(8):3276.
[11]ZhangEnshi,Trujillo R,Poellabauer C.The MERSA dataset anda transformer-based approach for speech emotion recognition[C]//Proc of the 62nd Annual Meeting of the Association for Computational Linguistics.2024:13960-13970.
[12]LiBobo,F(xiàn)eiHao,LiaoLizi,etal.Revisiting disentanglementand fusion on modality and context in conversational multimodal emotion recognition[C]//Proc of the 31st ACM International Conference on Multimedia.NewYork:ACMPress,2023:5923-5934.
[13]Fan Ruijia,Liu Hong,Li Yidi,et al. AuA-NET:attention aggregation network for audio-visual emotion recognition[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway,NJ:IEEE Press,2024:8030-8034.
[14]張小艷,閆壯.融合大語言模型的三級聯(lián)合提示隱式情感分析方 法[J].計算機(jī)應(yīng)用研究,2024,41(10):2900-2905.(Zhang Xiaoyan,Yan Zhuang.Three-level joint prompt-tuning implicit sentiment analysis method incorporating LLMs[J].Application Research of Computers,2024,41(10) :2900-2905.)
[15]Zhao Zhengdao,Wang Yuhua,Shen Guang,et al.TDFNet: Transformerbaseddeep-scale fusion network for multimodal emotion recognition [J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2023,31:3771-3782.
[16]HazarikaD,Gorantla S,Poria S,et al.Self-attentive feature-level fusion for multimodal emotion detection[C]//Proc of IEEE Conference on Multimedia Information Processing and Retrieval.Piscataway,NJ: IEEEPress,2018:196-201.
[17] Zhou Hengshun,Du Jun,Zhang Yuanyuan,et al. Information fusion in attention networks using adaptive and multi-level factorized bilinear pooling for audio-visual emotion recognition[J]. IEEE/ACM Trans on Audio,Speech,and Language Processing,2021,29 :2617-2629.
[18]Priyasad D,F(xiàn)ernando T,Denman S,et al.Attention driven fusion for multi-modal emotion recognition[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing. Piscataway, NJ:IEEE Press,2020:3227-3231.
[19] Zhang Qiuju,Zhang Hongtao,Zhou Keming,et al. Developing a physiological signal-based,mean threshold and decision-level fusionalgorithm (PMD)for emotion recognition[J].Tsinghua Science and Technology,2023,28(4) :673-685.
[20]Huang Jian,Tao Jianhua,Liu Bin,et al.Multimodal transformer fusion for continuous emotion recognition[C]//Proc of IEEE International Conference on Acoustics,Speech and Signal Processing.Piscataway, NJ:IEEE Press,2020:3507-3511.
[21]李健,張倩,陳海豐,等.基于感知重采樣和多模態(tài)融合的連續(xù)情 感識別[J].計算機(jī)應(yīng)用研究,2023,40(12):3816-3820.(Li Jian,Zhang Qian,Chen Haifeng,et al. Continuous emotion recognition based on perceiver resampling and multimodal fusion[J]. Application Research of Computers,2023,40(12) :3816-3820.)
[22]Lin Zijie,LiangBin,LongYunfei,et al.Modeling intra-and inter-modal relations:hierarchical graph contrastive learning formultimodal sentimentanalysis[C]//Proc of the29th International Conference on Computational Linguistics.Stroudsburg,PA:ACL Press,2022:7124-7135.
[23]李紫荊,陳寧.基于圖神經(jīng)網(wǎng)絡(luò)多模態(tài)融合的語音情感識別模型 [J].計算機(jī)應(yīng)用研究,2023,40(8):2286-2291,2310.(Li Zijing, Chen Ning.Speech emotion recognition based on multi-modal fusion of graph neural network[J].Application Research of Computers, 2023,40(8) :2286-2291,2310.)
[24]Liu Yang,Sun Haoqin,Guan Wenbo,et al. Multi-modal speech emotionrecognition using self-attention mechanism and multi-scale fusion framework[J].Speech Communication,2022,139:1-9.
[25]Yu Lingli,Xu Fengjun,Qu Yundong,et al.Speech emotion recognition basedon multi-dimensional feature extraction and multi-scale feature fusion[J].Applied Acoustics,2024,216:109752.
[26]ZadehA,ZellersR,PincusE,etal.Multimodal sentiment intensity analysis in videos:facial gesturesand verbal messages[J]. IEEE Intelligent Systems,2016,31(6) :82-88.
[27]Bagher Zadeh A,LiangPP,PoriaS,et al.Multimodal language analysisinthewild:CMU-MOSEI dataset and interpretable dynamic fusion graph[C]//Proc of the 56th Annual Meeting of the Association for Computational Linguistics.2018:2236-2246.
[28]Liu Zhun,Shen Ying,Lakshminarasimhan V δB,et al.Efficient lowrank multimodal fusion with modality-specific factors[C]//Proc of the 56th Annual Meeting of the Associationfor Computational Linguistics. Stroudsburg,PA:Association for Computational Linguistics,2018: 2247-2256.
[29]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg,PA:Association for Computational Linguistics,2017:1103-1114.
[30]TsaiYHH,LiangPP,ZadehA,et al.Learning factorized multimodal representations[EB/OL].(2018-06-16).htps://arxiv.org/abs/ 1806.06176.
[31]Tsai YH,Bai Shaojie,Liang PP,et al. Multimodal transformer for unaligned multimodal language sequences[C]//Proc of the 57th Annual Meeting of the Assciation for Computational Linguistics.Strondsburg, PA:Association for Computational Linguistics,2019:6558-6569.
[32]Pham H,Liang PP,Manzini T,et al.Found in translation:learning robust jointrepresentations bycyclic translationsbetween modalities [C]//Proc of AAAI Conference on Artificial Intellgence.Palo Alto, CA: AAAI Press,2019 :6892-6899.
[33]Hazarika D,Zimmermann R,Poria S.MISA: modality-invariant andspecific representations for multimodal sentiment analysis[C]//Proc of the28th ACM International Conference onMultimedia.NewYork: ACM Press,2020:1122-1131.
[34]Hwang Y,Kim JH. Self-supervised unimodal label generation strategy using recalibrated modality representations for multimodal sentiment analysis[C]//Findings of the Association for Computational Linguistics.Stroudsburg,PA:Association for Computational Linguistics, 2023:35-46.
[35]Huang Jiehui,Zhou Jun,Tang Zhenchao,et al. TMBL: Transformerbased multimodal binding learning model for multimodal sentiment analysis[J]. Knowledge-Based Systems,2024,285:111346.