doi:10.19734/j. issn.1001-3695.2024.12.0466
Multimodal dialogue emotion perception algorithm based on feature divergence
Ren Qinze a,b ,Yuan Yea,b,F(xiàn)u Ketinga,?,F(xiàn)u Junxiua,?,Xu Kanga,b,Liu Na,bt (a.Institutefcneelie,ooflheamp;,Ueitffoneamp;oi ,China)
Abstract:Multimodalemotion perceptioniscrucialfor monitoring personal healthand providing medicalcareinthe fieldof proactive health.Currnt multimodal dialogue emotionperceptiontechnologiesfacechallenges ifusing informationacross differentmodalities,particularlyincapturinglocalrelationshipsbetweenmodalies.Theproposedmultimodalfusionalgorithm basedonfeaturediversion,MEPAD(multimodalemotionperceptionalgorithmwith featurediversion),addressedthesechallenges bycapturing global information indialogues using graphneural networks and integrating homogeneous and specific features across modalities through thehypercomplex number system and pairwise feature fusion mechanisms.Experiments on he IEMOCAP and MOSEI datasets demonstratethat MEPAD significantlyoutperforms existing methodsin multimodal dialogue emotionperceptiontasks,highlightingitsefectiveessandpotentialinhandlingomplexemotionaldata.Thisresearchoffs newinsights for theapplication of multimodal emotion perception technology in proactive health.
Key words:multimodal emotionrecognition;graph neural networks;hypercomplex number system;pairwisefeature fusion; dialogue emotion perception
0 引言
情緒感知是人類交流中的一個(gè)關(guān)鍵組成部分,在主動(dòng)健康領(lǐng)域,對(duì)話者情緒變化也可以作為評(píng)估人類健康信息監(jiān)控的重要指標(biāo)[1]。主動(dòng)健康強(qiáng)調(diào)通過(guò)個(gè)體的主動(dòng)參與和自我管理來(lái)提升整體健康水平,而情緒感知在這一過(guò)程中發(fā)揮著重要作用。因此,為了更有效地進(jìn)行健康風(fēng)險(xiǎn)預(yù)警,分析對(duì)話中的情緒感知任務(wù)顯得尤為必要[2]
在人類交流過(guò)程中,表達(dá)情緒的方式多種多樣,包括面部表情、聲音、姿態(tài)、文本及圖像等。近年來(lái),對(duì)話中的情感識(shí)別(emotionrecognitioninconversations,ERC)任務(wù)逐漸受到關(guān)注,通過(guò)利用對(duì)話中的多模態(tài)信息來(lái)檢測(cè)說(shuō)話人的情緒狀態(tài),已經(jīng)吸引了廣泛的關(guān)注,并逐步應(yīng)用于健康監(jiān)控、醫(yī)療陪護(hù)、對(duì)話生成等多個(gè)實(shí)際場(chǎng)景。本研究聚焦于主動(dòng)健康理念下的醫(yī)療陪護(hù)場(chǎng)景應(yīng)用,通過(guò)多模態(tài)情緒識(shí)別技術(shù),致力于精準(zhǔn)地感知對(duì)話中的情緒信息,以此即可根據(jù)情緒變化提供相應(yīng)的對(duì)話信息,旨在全方位提升使用者的交互體驗(yàn)與心理舒適度,助力打造更加人性化、智能化的醫(yī)療陪護(hù)模式。具體的情緒對(duì)話示例如圖1所示。
目前,基于多模態(tài)的ERC任務(wù)已經(jīng)取得了顯著進(jìn)展。利用不同模態(tài)間的依賴性與互補(bǔ)性來(lái)提升情感識(shí)別精度已成為該領(lǐng)域的新趨勢(shì)。相比單模態(tài)ERC任務(wù),多模態(tài)情感識(shí)別能夠充分利用各個(gè)模態(tài)之間的互補(bǔ)信息,從而實(shí)現(xiàn)更高準(zhǔn)確性和魯棒性。然而,多模態(tài)數(shù)據(jù)引人后也帶來(lái)了新的挑戰(zhàn):如何有效融合不同模態(tài)特征,以及如何建立各個(gè)模態(tài)間的隱含聯(lián)系,成為多模態(tài)ERC任務(wù)亟待解決的問(wèn)題[3]
針對(duì)此問(wèn)題,已然提出了諸多研究方法:a)對(duì)于數(shù)據(jù)融合策略的研究。如文獻(xiàn)[4]使用深度玻爾茲曼機(jī)(DBM)來(lái)學(xué)習(xí)多模態(tài)輸人發(fā)現(xiàn)不同模態(tài)之間低層次特征的復(fù)雜非線性關(guān)系以及文獻(xiàn)[5]中的流式兩階段特征融合。b)對(duì)于對(duì)話中復(fù)雜關(guān)系的捕捉。如文獻(xiàn)[6,7]利用門控單元模擬說(shuō)話者自身的情感影響,以此檢測(cè)對(duì)話中的情緒;同時(shí)隨著圖神經(jīng)網(wǎng)絡(luò)(graphneuralnetwork,GNN)技術(shù)的興起,利用GNN捕獲對(duì)話中的全局信息已成為一個(gè)有前景的研究方向。如文獻(xiàn)[8,9]均利用圖來(lái)捕獲對(duì)話中復(fù)雜信息,文獻(xiàn)[10]提出了一種基于時(shí)序感知的多模態(tài)對(duì)話情緒感知模型(MTDAG),該模型利用有向無(wú)環(huán)圖(DAG)結(jié)構(gòu)來(lái)融合文本、語(yǔ)音和圖像三種模態(tài)的信息。然而,這些方法對(duì)于對(duì)話中各模態(tài)間不同特性的復(fù)雜信息捕捉往往并不理想,這限制了對(duì)不同模態(tài)間互補(bǔ)信息的充分利用,進(jìn)而影響了多模態(tài)情感表達(dá)的能力。
針對(duì)此問(wèn)題,本文提出了一種基于特性分流的特征提取結(jié)構(gòu)(multimodal emotion perception algorithm with feature diver-sion,MEPAD),該結(jié)構(gòu)的主要工作如下:
a)提出了一種新的復(fù)合圖結(jié)構(gòu),設(shè)計(jì)相應(yīng)的圖生成器,旨為對(duì)話雙方建立聯(lián)系,同時(shí)對(duì)一句話中多個(gè)模態(tài)的特征進(jìn)行關(guān)聯(lián)。通過(guò)這種圖結(jié)構(gòu),能夠捕捉和整合來(lái)自不同模態(tài)的豐富信息,如文本、聲音和面部表情。這些生成的圖數(shù)據(jù)隨后被輸入到圖卷積網(wǎng)絡(luò)中,以提取情緒對(duì)話中的全局信息。這種方法不僅提高了情緒感知的準(zhǔn)確性,而且通過(guò)圖結(jié)構(gòu)的引人,為理解對(duì)話中的復(fù)雜情感動(dòng)態(tài)提供了一種強(qiáng)大的工具。
b)在MEPAD結(jié)構(gòu)中引人超復(fù)數(shù)模塊。該模塊中借鑒了數(shù)學(xué)中超復(fù)數(shù)的概念,在特征融合過(guò)程中引入了復(fù)數(shù)的加法和乘法,以表示特征的疊加和變換。這種變換操作能夠更靈活地組合和調(diào)整不同模態(tài)的特征,從而提高特征融合的靈活性和效果[]
c)為了更好地捕獲多模態(tài)間的聯(lián)系,在MEPAD結(jié)構(gòu)中提出使用成對(duì)Transformer用于提取模態(tài)間的特異性特征,將提取的特征與超復(fù)數(shù)模塊結(jié)合使用以提取多模態(tài)特征。
d)在IEMOCAP和MOSEI兩個(gè)數(shù)據(jù)集上與其他模型基線相比較,進(jìn)行一系列的實(shí)驗(yàn)對(duì)比,證明本文提出的多模態(tài)融合結(jié)構(gòu)的有效性。
1相關(guān)工作
1.1對(duì)話中多模態(tài)情緒感知
對(duì)話中的情緒感知是指在對(duì)話交互過(guò)程中,通過(guò)分析和理解說(shuō)話人的多種信息,識(shí)別和理解對(duì)話參與者的情緒狀態(tài)。目前,關(guān)于多模態(tài)情緒感知中多個(gè)模態(tài)的研究有MMS2S的三單峰編碼器,使用多頭的方式進(jìn)行模態(tài)提取[12],以及TFN中利用矩陣運(yùn)算進(jìn)行特征融合[13]。此外,在對(duì)話中復(fù)雜信息的捕捉上,DialogueRNN[14]使用了三個(gè)門控循環(huán)單元(GRU)來(lái)建模對(duì)話中的情緒,DialogueGCN[15]與MMGCN[16]均通過(guò)建立圖結(jié)構(gòu)使用圖卷積來(lái)獲取對(duì)話中前后文的信息。本文中,出圖神經(jīng)網(wǎng)絡(luò)在對(duì)話的復(fù)雜信息提取方面展現(xiàn)出了較為優(yōu)秀的性能。
1.2多模態(tài)融合策略
多模態(tài)融合策略的研究已經(jīng)取得了豐富的成果,現(xiàn)如今關(guān)于多模態(tài)融合策略主要分為早期融合、中期融合和后期融合三種,各自具有不同的優(yōu)缺點(diǎn),如 OSF[17] 按順序一步步合并數(shù)據(jù),并且可以對(duì)不同類型的數(shù)據(jù)進(jìn)行選擇性加權(quán)。CMN[18]方法通過(guò)直接連接不同模態(tài)的特征。 ICON[6] 方法則提取多模態(tài)會(huì)話特征,并利用全局記憶分層來(lái)建模情緒影響,提高了話語(yǔ)視頻情感識(shí)別的性能。Lopez等人[19]提出了一種基于超復(fù)數(shù)的多模態(tài)架構(gòu),在超復(fù)數(shù)域中通過(guò)融合模塊一起處理,從而捕獲學(xué)習(xí)到的潛在特征之間的關(guān)系。本文進(jìn)一步探索了多模態(tài)融合中的方法應(yīng)用,多模態(tài)數(shù)據(jù)的使用會(huì)產(chǎn)生更多的噪聲。想要更好地提取到模態(tài)間的互補(bǔ)性特征,減少模態(tài)間噪聲造成的影響,本文提出了一種基于特性分流的多模態(tài)情緒感知算法,通過(guò)對(duì)多模態(tài)間的數(shù)據(jù)進(jìn)行分流特性提取,減少噪聲的影響。為此,引入數(shù)學(xué)中超復(fù)數(shù)方法,將特征信息輸人到復(fù)數(shù)數(shù)系中進(jìn)行融合,同時(shí)引人模態(tài)間特異性特征的概念,使用成對(duì)Transformer結(jié)構(gòu)對(duì)模態(tài)間的特異性信息進(jìn)行提取,兩者結(jié)合共同提取多模態(tài)特征。
1.3 圖結(jié)構(gòu)構(gòu)建
在利用圖神經(jīng)網(wǎng)絡(luò)進(jìn)行對(duì)話中信息的提取時(shí),需要考慮相應(yīng)圖結(jié)構(gòu)設(shè)計(jì),不同圖結(jié)構(gòu)的設(shè)計(jì)對(duì)于特征的提取存在著較大的影響。DialogueGCN使用圖卷積網(wǎng)絡(luò)來(lái)編碼對(duì)話中的上下文信息,MMGCN通過(guò)將每個(gè)話語(yǔ)的每個(gè)模態(tài)視為一個(gè)節(jié)點(diǎn)來(lái)構(gòu)建異構(gòu)圖,兩者均是對(duì)于對(duì)話中的不同數(shù)據(jù)特性而進(jìn)行的圖結(jié)構(gòu)設(shè)計(jì)。MTAG[20]能夠?qū)Ξ惒椒植嫉亩嗄B(tài)序列數(shù)據(jù)進(jìn)行融合和對(duì)齊。COGMEN[21]使用基于GNN的架構(gòu)來(lái)建模復(fù)雜的依賴關(guān)系,包括對(duì)話中的本地和全局信息。Chen等人[22]提出了一種 M3Net ,用來(lái)探索多模態(tài)數(shù)據(jù)和上下文之間的關(guān)系。但這些方法對(duì)于圖設(shè)計(jì)中模態(tài)間的數(shù)據(jù)考慮并不完善,為此Nguyen等人[23]提出了CORECT架構(gòu),建立圖結(jié)構(gòu)時(shí)將模態(tài)間的聯(lián)系也建立了連接,但單純?cè)黾訄D的復(fù)雜性卻并非最優(yōu)解,為了提取特定特性的特征,本文的圖結(jié)構(gòu)設(shè)計(jì)為一種復(fù)合圖結(jié)構(gòu),對(duì)模態(tài)間建立小型圖結(jié)構(gòu),并將結(jié)合的小型圖結(jié)構(gòu)作為圖節(jié)點(diǎn)建立復(fù)合圖,分別用于捕捉對(duì)話中上下文的時(shí)間特性以及不同模態(tài)間的交互特性。
2方法介紹
圖2展示了本文所設(shè)計(jì)的MEPAD結(jié)構(gòu)。該網(wǎng)絡(luò)主要由兩部分組成:首先,將輸入的三模態(tài)信息轉(zhuǎn)換為多模態(tài)特征,具體為對(duì)多模態(tài)數(shù)據(jù)集進(jìn)行預(yù)處理,分別提取語(yǔ)音、文本和視覺模態(tài)的特征;然后,這些特征被分別輸入到特征融合層中預(yù)定義的三種特性提取模塊,用于提取不同特性的交互特征。實(shí)現(xiàn)方法為,將圖神經(jīng)網(wǎng)絡(luò)中三個(gè)模態(tài)數(shù)據(jù)間的每個(gè)模態(tài)數(shù)據(jù)當(dāng)作一個(gè)節(jié)點(diǎn)建立一個(gè)無(wú)向圖,再將多條對(duì)話的多模態(tài)數(shù)據(jù)建立的圖當(dāng)作一個(gè)節(jié)點(diǎn),建立一個(gè)有向圖,最后將這些圖結(jié)構(gòu)建立相應(yīng)的邊類型并輸入RGCN圖卷積網(wǎng)絡(luò)中。在超復(fù)數(shù)網(wǎng)絡(luò)中,將多模態(tài)特征映射到復(fù)數(shù)域的不同部分,通過(guò)復(fù)數(shù)的乘法和加法規(guī)則進(jìn)行特征變換和提取。在成對(duì)模態(tài)特征融合模塊,將模態(tài)數(shù)據(jù)兩兩組合,利用反轉(zhuǎn)注意力機(jī)制提取模態(tài)間的特異性特征,從而實(shí)現(xiàn)多模態(tài)特征的有效融合和情緒識(shí)別。
對(duì)話中的每一個(gè)語(yǔ)句都會(huì)提取音頻、文本和圖像這三個(gè)模態(tài)的特征 ua,ut,uv 。將這三個(gè)模態(tài)的特征拼接起來(lái),作為圖神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)特征,用于建立圖神經(jīng)網(wǎng)絡(luò),進(jìn)而提取對(duì)話中的時(shí)間信息及交互全局信息。同時(shí)將 ua,ut,uv 拼接后的特征輸入到特征融合層中的超復(fù)數(shù)特征融合模塊以及成對(duì)Transformer模塊中,前者用于模擬超復(fù)數(shù)以提取多模態(tài)間隱藏的同質(zhì)性信息,后者用于建立三個(gè)模態(tài)間兩兩模態(tài)的對(duì)比關(guān)系,以提取模態(tài)間的特異性信息,最后將得到的兩組特征拼接后作為模態(tài)的局部特征信息。
2.1 圖神經(jīng)網(wǎng)絡(luò)
在情感識(shí)別(ERC)任務(wù)中,對(duì)話中的每句話的情緒是實(shí)時(shí)變化的,想要準(zhǔn)確地識(shí)別對(duì)話中的情感,就需要對(duì)對(duì)話進(jìn)行句子級(jí)別的特征劃分。在對(duì)話場(chǎng)景中,個(gè)體情緒的表達(dá)不僅受到語(yǔ)境信息的影響,還與說(shuō)話者間的關(guān)系和對(duì)話互動(dòng)中的情緒動(dòng)態(tài)緊密相關(guān)。因此,對(duì)對(duì)話參與者的特征進(jìn)行有效建模和融合,以捕捉其時(shí)間序列和關(guān)系屬性,成為了情感識(shí)別領(lǐng)域的一項(xiàng)重要挑戰(zhàn)。為了應(yīng)對(duì)這一挑戰(zhàn),對(duì)話固有的圖結(jié)構(gòu)特性為此提供了新的視角,圖神經(jīng)網(wǎng)絡(luò)因其在捕捉結(jié)構(gòu)化數(shù)據(jù)中的復(fù)雜依賴關(guān)系方面的能力,為理解和建模對(duì)話中的情緒動(dòng)態(tài)提供了一種創(chuàng)新的方法論。
為了從對(duì)話中提取時(shí)間特性,本文構(gòu)建了一個(gè)基于對(duì)話特征的關(guān)系圖網(wǎng)絡(luò)。在這個(gè)網(wǎng)絡(luò)中,節(jié)點(diǎn)代表對(duì)話中的個(gè)體,邊代表個(gè)體間的關(guān)系。同時(shí)為了更好地捕獲對(duì)話依賴的關(guān)系特征,本文對(duì)節(jié)點(diǎn)中的三個(gè)模態(tài)信息建立相應(yīng)的子圖,子圖的格式定義為 G={V,R,E} ,其中 分別代表圖神經(jīng)網(wǎng)絡(luò)的節(jié)點(diǎn)、邊以及邊所對(duì)應(yīng)的節(jié)點(diǎn)聯(lián)系。子圖中不同節(jié)點(diǎn) v1?v2?v3 為句子級(jí)別的三個(gè)模態(tài)特征 xa,xt,xv ,將不同模態(tài)間建立邊,并設(shè)定三種邊的類型如下:
其中:設(shè)定類型1為音頻與文本間的邊關(guān)系;類型2為圖像與文本間的邊關(guān)系;類型3為音頻與圖像間的邊關(guān)系。
將每段對(duì)話中提取的子圖特征視為對(duì)話圖結(jié)構(gòu)的節(jié)點(diǎn)。在此基礎(chǔ)上,構(gòu)建一個(gè)有向圖,通過(guò)在節(jié)點(diǎn)之間創(chuàng)建邊來(lái)捕捉對(duì)話的不同特征。為每輪對(duì)話構(gòu)建有向邊的目的在于捕捉對(duì)話中的多樣性特征,通過(guò)連接節(jié)點(diǎn)來(lái)強(qiáng)化時(shí)間上的聯(lián)系,同時(shí)考慮節(jié)點(diǎn)之間的時(shí)間序列和相互作用關(guān)系。這種構(gòu)建方法有助于更深入地理解和分析對(duì)話的結(jié)構(gòu)和動(dòng)態(tài)。
構(gòu)建有向圖時(shí),為了捕捉多個(gè)節(jié)點(diǎn)間的時(shí)間序列,通過(guò)設(shè)定一個(gè)確定大小的滑動(dòng)窗口,用于捕捉對(duì)話中的時(shí)間序列。通過(guò)設(shè)定圖中所有節(jié)點(diǎn)及鄰近節(jié)點(diǎn)信息作為時(shí)間步 τ 的更新值giτ 。外層求和確保每個(gè)節(jié)點(diǎn)都被考慮到,而內(nèi)層求和則確保每個(gè)節(jié)點(diǎn)的鄰居都被考慮到,從而實(shí)現(xiàn)節(jié)點(diǎn)狀態(tài)的更新。具體來(lái)說(shuō),對(duì)于任意的說(shuō)話節(jié)點(diǎn) V(i) ,需要通過(guò)節(jié)點(diǎn) i 的鄰近節(jié)點(diǎn)特征作為學(xué)習(xí)本節(jié)點(diǎn)輸入特征,則對(duì)于節(jié)點(diǎn) χi 的更新值 giτ 可以表示為
其中: R(i) 是節(jié)點(diǎn) i 的鄰近節(jié)點(diǎn); V 是指對(duì)于圖中的所有節(jié)點(diǎn)集合; Wr 與 W0 為圖特征網(wǎng)絡(luò)的學(xué)習(xí)參數(shù); xiτ 是節(jié)點(diǎn) χi 的特征向量;構(gòu)建節(jié)點(diǎn)間有向圖結(jié)構(gòu)如圖3所示。
為了更好地提取所構(gòu)建的圖特征,本文先將構(gòu)建好的圖結(jié)構(gòu)經(jīng)過(guò)RGCN進(jìn)行圖特征捕獲,對(duì)提取到的圖特征放進(jìn)graphTransformer模型中以獲取更豐富的特征表示[24]。graph Trans-former結(jié)合了Transformer模型的自注意力機(jī)制和圖神經(jīng)網(wǎng)絡(luò)的特點(diǎn),首先對(duì)其每個(gè)節(jié)點(diǎn)計(jì)算注意力得分,對(duì)于圖中的每一個(gè)節(jié)點(diǎn),為了更好地計(jì)算注意力得分,對(duì)當(dāng)前節(jié)點(diǎn)與其鄰近節(jié)點(diǎn)間計(jì)算注意力得分,并將其表示為
其中: W1?W2 為注意力機(jī)制可學(xué)習(xí)的參數(shù); 為節(jié)點(diǎn)的更新值。然后將注意力得分通過(guò)softmax激活函數(shù)計(jì)算歸一化:
其中: αi,jτ 為節(jié)點(diǎn)注意力得分; N(v) 為節(jié)點(diǎn)集。最后將獲取到的節(jié)點(diǎn)特征經(jīng)過(guò)聚合后加入到一個(gè)線性層中并進(jìn)行ReLU激活函數(shù)進(jìn)行非線性變換,將其表示為
a=ReLU(W3δ+b)
其中: W3 為線性層可學(xué)習(xí)的參數(shù); δ 為提取到的窗口節(jié)點(diǎn)特征集合: b 為偏置項(xiàng)。
2.2超復(fù)數(shù)特征融合
多模態(tài)特征的優(yōu)勢(shì)在于能夠從不同視角提供影響預(yù)測(cè)結(jié)果的信息。相較于單一模態(tài)情緒預(yù)測(cè),多模態(tài)特征融合了同質(zhì)性特征,其中不同模態(tài)(例如文本、音頻、視頻)提供了關(guān)于同一現(xiàn)象或事件的不同層次和視角的信息。為了充分利用這些特征,本文不僅提取了不同模態(tài)間的共性特征,還通過(guò)模態(tài)間的交互作用識(shí)別了它們之間的差異性特征。受此啟發(fā),本文在MEPAD結(jié)構(gòu)中采用了類似雙流網(wǎng)絡(luò)的提取規(guī)則[25],設(shè)計(jì)了超復(fù)數(shù)特征融合模塊來(lái)提取跨模態(tài)間的共性特征,利用超復(fù)數(shù)的乘法與加法規(guī)則可以分別表示特征的疊加和變換,這些變換操作可以更靈活地將不同模態(tài)的特征進(jìn)行組合和調(diào)整[19],從而提高了特征融合的靈活性和效果,以增強(qiáng)對(duì)多模態(tài)特征同質(zhì)性的捕捉能力。
對(duì)于給定的多模態(tài)數(shù)據(jù),本文將三個(gè)模態(tài)的融合特征xi(atv) 作為超復(fù)雜神經(jīng)網(wǎng)絡(luò)的輸入,將其輸入進(jìn)預(yù)定義的超復(fù)雜神經(jīng)網(wǎng)絡(luò)中,該神經(jīng)網(wǎng)絡(luò)根據(jù)數(shù)學(xué)中的超復(fù)數(shù)延申而來(lái),一般的超復(fù)數(shù)定義為
其中: h 為實(shí)數(shù): 為虛數(shù)單位。但由于特征的多維性,簡(jiǎn)單的超復(fù)數(shù)無(wú)法滿足特征的疊加及變換,所以便將特征的融合擴(kuò)展到超復(fù)數(shù)數(shù)系中執(zhí)行[26]。一般的超復(fù)數(shù)數(shù)系定義在 n∈2m 的預(yù)定義維度上,鑒于本文使用三模態(tài)特征,復(fù)數(shù)域設(shè)計(jì)為 {i,j |k| ,為此設(shè)計(jì)本網(wǎng)絡(luò)時(shí)采用 n=4 的四元Q域中進(jìn)行。對(duì)于輸入的特征 xi(atv) ,為了應(yīng)用于四元數(shù)數(shù)系的運(yùn)算規(guī)則,本文將輸人的特征劃分為四部分,需要將輸入的特征進(jìn)行維度的擴(kuò)展為{1,x1,x2,x3} ,以便于模擬復(fù)數(shù)的實(shí)現(xiàn)過(guò)程。在四元數(shù)數(shù)系中訓(xùn)練的權(quán)重矩陣也需要重新進(jìn)行定義,權(quán)重矩陣定義為
W=W0+W1x1+W2x2+W3x3
其中: W0、W1、W2、W3 為可訓(xùn)練參數(shù),代表實(shí)數(shù)域參數(shù) x1、x2、x3 為 x(atv) 劃分的三部分特征代替虛數(shù)部分特征。為此,對(duì)于四元域的定義,可將特征的映射關(guān)系定義為
此時(shí)的訓(xùn)練權(quán)重參數(shù) W 以及輸入特征 W0、W1、W2、W3 均被改變?yōu)樗枰乃脑仃嚕渲?W0、W1、W2、W3 為超復(fù)數(shù)域可學(xué)習(xí)的參數(shù), x1、x2、x3 為輸入特征劃分,1為常實(shí)數(shù)擴(kuò)展維度。通過(guò)矩陣的乘法來(lái)模擬在四元數(shù)數(shù)系的乘法與加法法則,從而捕獲多模態(tài)數(shù)據(jù)間的“同質(zhì)性”特征。同時(shí)由于使用的權(quán)重矩陣在輸人維度中是共享的,使得訓(xùn)練中的參數(shù)量也減少了1/4,在獲取多模態(tài)數(shù)據(jù)特征的同時(shí)進(jìn)行了輕量化處理[27]
2.3成對(duì)模態(tài)特征融合
捕捉多模態(tài)數(shù)據(jù)之間的差異性特征有利于提高模型對(duì)不同情感的差異敏感度,捕獲異構(gòu)性意味著能夠從每個(gè)模態(tài)中提取獨(dú)特的、互補(bǔ)的信息,有助于提高模型對(duì)數(shù)據(jù)的表達(dá)能力,這對(duì)于全面理解復(fù)雜現(xiàn)象至關(guān)重要。為了捕捉每個(gè)模態(tài)間的特異性,本文使用兩兩模態(tài)融合的特征提取方法來(lái)捕獲模態(tài)間的交互作用,因此對(duì)于輸入的多模態(tài)特征 xi(atv) ,本文對(duì)于三個(gè)模態(tài)的數(shù)據(jù)進(jìn)行兩兩自由組合為! xi(vt) xi(av) xi(at) ,將組合得出的三組特征分別放人預(yù)定義的Transformer中,Transformer代表一個(gè)多頭注意力機(jī)制,用于關(guān)注不同模態(tài)間不同特征的重要程度,從而增強(qiáng)對(duì)于不同模態(tài)信息的捕獲能力[28]
使用多頭注意力機(jī)制捕獲特異性特征原理如圖4所示,在一個(gè)多頭注意力機(jī)制中,本文對(duì)輸入兩個(gè)模態(tài)的數(shù)據(jù)執(zhí)行多頭注意力機(jī)制,為了關(guān)注到模態(tài)的特異性特征,在進(jìn)行注意力得分時(shí)考慮使用反轉(zhuǎn)注意力機(jī)制。文獻(xiàn)[29]證明了反轉(zhuǎn)注意力機(jī)制的有效性,為此對(duì)于輸入的兩模態(tài)特征 ,首先為每個(gè)注意力頭初始化一組
權(quán)重矩陣:
其中: Ψxi,xj 為兩種不同的模態(tài)特征; WQ,WK,WV 是可學(xué)習(xí)的權(quán)重矩陣,用于將原始特征映射到查詢、鍵和值空間。根據(jù) Zou 等人[30]的研究表明相比于語(yǔ)音和圖像模態(tài),文本模態(tài)在多模態(tài)任務(wù)中具有較強(qiáng)的特征表示能力。為此通過(guò)對(duì)一個(gè)模態(tài)的信息在另一個(gè)模態(tài)中計(jì)算注意力得分并歸一化,將三個(gè)模態(tài)注意力設(shè)計(jì)為
其中: 為兩種不同模態(tài)的查詢值;
為文本及視頻特征獲取的鍵值。最后將得到的注意力得分計(jì)算加權(quán)求和得到特異性特征,將其描述為
其中: Vt,Vv 為兩種不同模態(tài)的值。
3實(shí)驗(yàn)
3.1 實(shí)驗(yàn)準(zhǔn)備
a)數(shù)據(jù)集準(zhǔn)備。(a)IEMOCAP數(shù)據(jù)集是一個(gè)包含5男5女對(duì)話場(chǎng)景的大型多模態(tài)情感識(shí)別數(shù)據(jù)集。該數(shù)據(jù)集涵蓋了圖像、語(yǔ)音、文本和生理信號(hào)等多種模態(tài)信息,并針對(duì)每句話進(jìn)行了細(xì)致的情緒分類。實(shí)驗(yàn)重點(diǎn)在于對(duì)比分析IEMOCAP數(shù)據(jù)集在四分類(快樂(lè)、悲傷、憤怒、中性)和六分類(包括興奮和挫?。┣榫诚碌谋憩F(xiàn)。(b)MOSEI數(shù)據(jù)集是當(dāng)前最大的多模態(tài)情感分析和情緒識(shí)別數(shù)據(jù)集。其包含了來(lái)自1000名不同演講者的22852個(gè)帶注釋的視頻剪輯,覆蓋了廣泛的主題和情感表達(dá)。數(shù)據(jù)集是性別平衡的,所有句子都是從各種主題和獨(dú)白視頻中隨機(jī)選取的[31]
b)數(shù)據(jù)處理。本實(shí)驗(yàn)中采用兩個(gè)數(shù)據(jù)集的語(yǔ)音,文本以及視頻三個(gè)模態(tài)的特征,語(yǔ)音的處理使用OpenSmile進(jìn)行特征提取,文本特征通過(guò)sBERT進(jìn)行提取,視覺特征通過(guò)OpenFace提取。
c)評(píng)價(jià)標(biāo)準(zhǔn)。在本實(shí)驗(yàn)中,評(píng)估標(biāo)準(zhǔn)主要通過(guò)兩個(gè)指標(biāo)進(jìn)行量化:一方面,利用預(yù)測(cè)準(zhǔn)確性作為評(píng)價(jià)標(biāo)準(zhǔn);另一方面,綜合考慮精確度和召回率的加權(quán)調(diào)和平均值— ?F1 分?jǐn)?shù),作為衡量模型性能的關(guān)鍵指標(biāo)。
d)基線模型。本文對(duì)MEPAD結(jié)構(gòu)在IEMOCAP數(shù)據(jù)集的四分類與六分類任務(wù)中與特定模塊基線進(jìn)行比較,并對(duì)MOSEI數(shù)據(jù)集的七分類任務(wù)進(jìn)行比較。其中包括不同模塊組的實(shí)驗(yàn)對(duì)比,其中包括多模態(tài)融合模塊CHFusion、BPGT[32.33]同時(shí)本文將現(xiàn)有的多模態(tài)模型與本文的模型進(jìn)行比較,包括ICON、DialogueRNN、MMGCN、DialogueCRN、COGMEN以及CORECT[6,14,16,21,23,34] O
3.2 實(shí)驗(yàn)比較
本文在IEMOCAP數(shù)據(jù)集的四分類和六分類任務(wù),以及MOSEI數(shù)據(jù)集的七分類任務(wù)中,對(duì)不同模型進(jìn)行了廣泛的實(shí)驗(yàn)比較。這些實(shí)驗(yàn)旨在驗(yàn)證本文提出的特性分流提取結(jié)構(gòu)在多模態(tài)情感識(shí)別中的有效性。
在IEMOCAP數(shù)據(jù)集的六分類任務(wù)中,本文模型與對(duì)比模型進(jìn)行了比較。表1展示了實(shí)驗(yàn)結(jié)果,為了公平對(duì)比,COGMEN與CORECT結(jié)果為開源代碼重新運(yùn)行,其中加粗的數(shù)字表示在不同類別上取得的最佳 F1 得分。分析實(shí)驗(yàn)數(shù)據(jù)可以發(fā)現(xiàn),除了happy類別的 F1 得分低于CORECT,sad類別的 F1 得分略低于COGMEN外,其他所有類別的 F1 得分均優(yōu)于現(xiàn)有基線。這一優(yōu)勢(shì)可能源于本文在特征融合時(shí)不僅提取了多模態(tài)數(shù)據(jù)的共性特征,還通過(guò)兩兩模態(tài)融合提取了模態(tài)間的異構(gòu)性特征。這種方法有助于更精確地區(qū)分相似情緒,從而提高了模型對(duì)相似情緒的識(shí)別精度。在sad類別分類時(shí),由于相似情緒的區(qū)分度不夠,導(dǎo)致COGMEN的sad較高,frustrated類別識(shí)別度低。在happy類別分類時(shí),當(dāng)相似情緒感知更清晰時(shí),數(shù)據(jù)集不平衡問(wèn)題影響會(huì)增加導(dǎo)致happy類精度降低。
在IEMOCAP數(shù)據(jù)集的四分類問(wèn)題上,MEPAD同樣顯示出了其有效性,具體結(jié)果詳見表2。與三個(gè)現(xiàn)有模型相比,盡管基線模型已經(jīng)取得了較高的準(zhǔn)確率,MEPAD在精確度和 F1 分?jǐn)?shù)上分別提高了0.74和0.72百分點(diǎn)。盡管這一提升幅度不如在六分類問(wèn)題上的表現(xiàn)突出,但可能的原因是四分類問(wèn)題本身較為簡(jiǎn)單,因此在準(zhǔn)確率提升方面面臨更大的挑戰(zhàn)。
此外,本文還在MOSEI數(shù)據(jù)集的七分類問(wèn)題上開展了對(duì)比實(shí)驗(yàn),相關(guān)實(shí)驗(yàn)結(jié)果列于表3。此結(jié)果進(jìn)一步驗(yàn)證了本文模型在不同情感識(shí)別任務(wù)中的有效性和適應(yīng)性。
從表2、3可以觀察出,本模型在不同數(shù)據(jù)集上的提升存在部分差異性,造成數(shù)據(jù)提升差異的原因可能有以下兩點(diǎn):a)IEMOCAP數(shù)據(jù)集的任務(wù)是四分類問(wèn)題,相對(duì)較為簡(jiǎn)單,因此在精度提升上遇到了更大的挑戰(zhàn)。在IEMOCAP四分類數(shù)據(jù)集中,情緒的區(qū)分度較高,不同情緒之間的界限較為明確,這導(dǎo)致異構(gòu)性特征提取的作用不如在更復(fù)雜的情緒感知任務(wù)中那么顯著。b)MOSEI數(shù)據(jù)集由于其特定的錄制場(chǎng)景,情緒的區(qū)分度也較高,這可能使得MEPAD結(jié)構(gòu)的優(yōu)勢(shì)不如在IEMOCAP數(shù)據(jù)集中那樣明顯。MOSEI數(shù)據(jù)集的特點(diǎn)是其包含了來(lái)自1000名不同演講者的22852個(gè)帶注釋的視頻剪輯,覆蓋了廣泛的主題和情感表達(dá),這為情緒感知提供了豐富的情境信息,但同時(shí)也可能限制了模型在捕捉細(xì)微情緒差異方面的潛力。
3.3 消融實(shí)驗(yàn)
3.3.1主要模塊的作用
本文開展了一系列消融實(shí)驗(yàn),以展示特征模塊的作用。對(duì)三個(gè)分流特征提取模塊進(jìn)行了相應(yīng)的消融實(shí)驗(yàn);首先,對(duì)多模態(tài)融合中的GNN模塊進(jìn)行了簡(jiǎn)單的基線實(shí)驗(yàn)。隨后,利用Transformer進(jìn)行模態(tài)融合,并針對(duì)成對(duì)Transformer及超復(fù)數(shù)模塊進(jìn)行了消融實(shí)驗(yàn)。
在IEMOCAP六分類任務(wù)上,本文進(jìn)行了類似的實(shí)驗(yàn),結(jié)果有顯著提升,不同模塊對(duì)比結(jié)果如表4所示。當(dāng)僅使用簡(jiǎn)單GNN模塊進(jìn)行融合時(shí),模型預(yù)測(cè)精度顯著降低。實(shí)驗(yàn)證明,相較于疊加使用兩個(gè)模塊,不采用兩兩模塊融合時(shí)模型 F1 得分下降了1.94百分點(diǎn);而不使用超復(fù)數(shù)模塊時(shí),模型 F1 分?jǐn)?shù)同樣下降了1.81百分點(diǎn)。同時(shí),本研究注意到直接應(yīng)用Trans-former時(shí)模型 F1 分?jǐn)?shù)達(dá)到了 68.97% ,其主要原因在于直接利用Transformer能夠通過(guò)多頭注意力機(jī)制更好地關(guān)注重要數(shù)據(jù),從而提高預(yù)測(cè)效果,相反,當(dāng)使用成對(duì)Transformer時(shí),由于是對(duì)于三個(gè)模態(tài)的兩兩提取,導(dǎo)致三個(gè)模態(tài)特征并不能有效融合。
然而,當(dāng)將Transformer與超復(fù)數(shù)模塊結(jié)合時(shí),并未提升模型精度,原因可能是Transformer與超復(fù)數(shù)模塊的特征提取有重復(fù)。反而通過(guò)設(shè)計(jì)成對(duì)Transformer與超復(fù)數(shù)模塊,可以更有效地提取特征。這是因?yàn)槌蓪?duì)Transformer與超復(fù)數(shù)模塊能夠互補(bǔ)地提取多模態(tài)數(shù)據(jù)中不同性質(zhì)的特征,從而實(shí)現(xiàn)更優(yōu)的預(yù)測(cè)結(jié)果。
本文對(duì)特征分流模塊中提取同質(zhì)性與異構(gòu)性特征的融合策略進(jìn)行了相應(yīng)的消融實(shí)驗(yàn)。具體而言,本文探討了兩種模塊的使用方式,包括交叉使用、串行使用和并行使用。不同融合策略對(duì)比結(jié)果如表5所示,串行使用所獲得的 F1 得分最低,僅為 67.45% ;而交叉使用的 F1 得分為 68.41% ,并行使用則達(dá)到了 70.39% 。實(shí)驗(yàn)結(jié)果表明,采用并行融合方式能夠展現(xiàn)出模塊的最佳性能,其原因可能在于并行方式更有效地提取了多模態(tài)數(shù)據(jù)中的異構(gòu)性與同質(zhì)性信息。
3.3.2超復(fù)數(shù)模塊中參數(shù) n 的作用
本文對(duì)多模態(tài)特征輸人超復(fù)數(shù)系中的參數(shù) n 進(jìn)行了不同大小的實(shí)驗(yàn),通過(guò)改變參數(shù) n 分析其對(duì)模型的影響。正常超復(fù)數(shù)數(shù)系定義為 n∈2m 維度上,但對(duì)于 n=3 時(shí)本文使用克羅內(nèi)克積來(lái)模擬超復(fù)數(shù)乘法[35],使 n=3 也能進(jìn)行對(duì)比,不同參數(shù) n 對(duì)比結(jié)果如表6所示。從實(shí)驗(yàn)結(jié)果可以看出,相較于在 n=4 的四元數(shù)系中進(jìn)行特征融合,使用 n=3 與2的超復(fù)數(shù)模塊來(lái)進(jìn)行多模態(tài)的數(shù)據(jù)融合均有著不同程度的降低,分別下降了1.36和2.3百分點(diǎn)。原因可能是當(dāng) n=3 時(shí)使用克羅內(nèi)克積模仿超復(fù)數(shù)數(shù)系的乘法規(guī)則并不完美,當(dāng)使用 n=2 時(shí),由于只將輸入特征劃分為兩部分,且權(quán)重變換形式較為簡(jiǎn)單,導(dǎo)致這兩種參數(shù)的特征融合效果并不理想。
3.4誤差分析
本文為了探討實(shí)驗(yàn)中誤差所在原因,對(duì)兩個(gè)數(shù)據(jù)集中的三個(gè)分類任務(wù)進(jìn)行實(shí)驗(yàn),兩個(gè)數(shù)據(jù)集的混淆矩陣如圖5和6所示。
圖5展示了IEMOCAP數(shù)據(jù)集的兩組分類任務(wù)的混淆矩陣圖。分析顯示,造成實(shí)驗(yàn)出現(xiàn)誤差的原因之一是數(shù)據(jù)集不平衡,特別是某些類別的樣本數(shù)量遠(yuǎn)多于其他類別,這可能導(dǎo)致模型過(guò)度擬合于這些類別。同時(shí),相似情緒之間的分類誤差也對(duì)實(shí)驗(yàn)結(jié)果有影響,如六分類任務(wù)中happy與excited標(biāo)簽的結(jié)果所示,相似情緒的誤分類率較高,這可能是因?yàn)檫@些情緒在特征上具有較高的相似性,使得模型難以區(qū)分。
圖6展示了MOSEI數(shù)據(jù)集的分類任務(wù)的混淆矩陣圖。分析表明,造成實(shí)驗(yàn)出現(xiàn)誤差的主要原因也是數(shù)據(jù)集不平衡,盡管這種不平衡對(duì)模型性能的影響不如IEMOCAP數(shù)據(jù)集那么劇烈。此外,對(duì)于相似情緒的分類影響相對(duì)較小,例如在neu-tral類別中,weaknegative的分類數(shù)反而沒(méi)有negative的多,這可能表明模型在區(qū)分這些細(xì)微情緒差異方面具有一定的能力,但仍然存在挑戰(zhàn)。
3.5智能輪椅對(duì)話樣本算例及分析
為了更直觀地展示本文研究在主動(dòng)健康領(lǐng)域的應(yīng)用,尤其是針對(duì)智能輪椅的對(duì)話情感感知技術(shù),本文設(shè)計(jì)了一個(gè)具體的對(duì)話樣本案例,模擬智能輪椅在日常生活中的使用場(chǎng)景,并對(duì)該案例進(jìn)行了深入分析,具體對(duì)話樣本案例如表7所示。
在上述案例中,智能輪椅通過(guò)多模態(tài)情緒識(shí)別技術(shù)實(shí)時(shí)監(jiān)測(cè)用戶的情緒狀態(tài)。用戶輸入包括攝像頭識(shí)別到的圖像和麥克風(fēng)捕捉到的語(yǔ)音。當(dāng)用戶表達(dá)出開心的情緒時(shí),智能輪椅能夠準(zhǔn)確識(shí)別并生成相應(yīng)的積極回應(yīng)。具體實(shí)現(xiàn)流程如圖7所示,圖中步驟3正是本文模型發(fā)揮關(guān)鍵作用的區(qū)域。該算法精準(zhǔn)地識(shí)別和處理情緒相關(guān)的信息,確保系統(tǒng)能夠準(zhǔn)確地感知使用者的情緒變化,并據(jù)此生成針對(duì)性的響應(yīng)。這種主動(dòng)響應(yīng)不僅增強(qiáng)了用戶的積極情緒,還提升了用戶的生活質(zhì)量,體現(xiàn)了主動(dòng)健康的理念。
4結(jié)束語(yǔ)
在主動(dòng)健康領(lǐng)域,情緒感知技術(shù)的重要性日益凸顯,情感人工智能在醫(yī)療健康領(lǐng)域的應(yīng)用也在不斷深化。該技術(shù)通過(guò)情緒的識(shí)別、解釋與響應(yīng),優(yōu)化患者體驗(yàn),尤其在遠(yuǎn)程醫(yī)療需求不斷增長(zhǎng)的背景下。因此,本文聚焦于對(duì)話場(chǎng)景中的情緒感知問(wèn)題,并提出了一種創(chuàng)新的特征提取框架,目的是提升對(duì)多模態(tài)情緒信息的理解和識(shí)別能力。該框架由兩兩模態(tài)融合模塊、超復(fù)雜特征融合模塊和圖卷積模塊三個(gè)主要模塊組成。其中,兩兩模態(tài)融合模塊通過(guò)模態(tài)間的交互信息捕獲異構(gòu)性信息;超復(fù)雜特征融合模塊利用復(fù)數(shù)運(yùn)算法則在超復(fù)數(shù)域中提取模態(tài)間的隱性及共性信息;圖卷積模塊則構(gòu)建復(fù)合圖結(jié)構(gòu)以捕獲對(duì)話中的時(shí)序和關(guān)系信息。通過(guò)在IEMOCAP數(shù)據(jù)集上的四和六分類任務(wù)以及MOSEI數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn),以及對(duì)不同模塊間的消融實(shí)驗(yàn),驗(yàn)證了MEPAD框架的有效性。此外,通過(guò)消融實(shí)驗(yàn)和替換實(shí)驗(yàn),本文分析了框架中各組成部分的作用,并證明了MEPAD設(shè)計(jì)的合理性。
然而,本文存在一定的局限性。MEPAD結(jié)構(gòu)中的超復(fù)雜模塊對(duì)輸入數(shù)據(jù)模態(tài)的適用性受限于超復(fù)數(shù)數(shù)系的表現(xiàn),但研究中對(duì)于 m=2n 以外的其他維度參數(shù) m ,僅使用克羅內(nèi)克積來(lái)模擬復(fù)數(shù)的乘法,未能完全達(dá)到預(yù)期效果。此外,由于使用了圖神經(jīng)網(wǎng)絡(luò),本文無(wú)法實(shí)時(shí)捕捉對(duì)話中人物的情緒,主要原因是建立圖結(jié)構(gòu)時(shí)需要為當(dāng)前話語(yǔ)的后續(xù)對(duì)話也建立聯(lián)系,為此便需要后文信息,導(dǎo)致無(wú)法實(shí)現(xiàn)實(shí)時(shí)預(yù)測(cè)。未來(lái)通過(guò)設(shè)計(jì)更為合理的圖結(jié)構(gòu),僅利用前文對(duì)話信息建立圖結(jié)構(gòu)的邊關(guān)系,以實(shí)現(xiàn)對(duì)當(dāng)前情緒的實(shí)時(shí)預(yù)測(cè),從而使其能夠?qū)崟r(shí)應(yīng)用于各種對(duì)話場(chǎng)景。這種實(shí)時(shí)性的要求將是未來(lái)研究的一個(gè)重要方向,特別是在主動(dòng)健康領(lǐng)域,情緒感知技術(shù)的發(fā)展將為個(gè)性化健康管理提供更深層次的理解和支持,從而促進(jìn)全民健康水平的提高。
參考文獻(xiàn):
[1].Majumder N,Hazarika D,Gelbukh A,et al. Multimodal sentiment analysis using hierarchical fusion with context modeling[J].Knowledge-Based Systems,2018,161:124-133.
[2]Hasnul MA,Aziz NAA,Alelyani S,et al.Electrocardiogram-based emotion recognition systems and their applications in healthcare:a review[J].Sensors,2021,21(15):5015.
[3]Poria S,Majumder N,Mihalcea R,et al.Emotion recognition in conversation:research challenges, datasets, and recent advances [J].IEEE Access,2019,7:100943-100953.
[4]Pang Lei,Ngo C-W. Mutlimodal learning with deep Boltzmann machine for emotion prediction in user generated videos[C]// Proc of the 5th ACM on International Conference on Multimedia Retrieval. NewYork:ACM Press,2015:619-622.
[5]Zheng Wenjie,Yu Jianfei,Xia Rui,et al.A facial expression-aware multimodal multi-task learning framework for emotion recognition in multi-party conversations[C]//Proc of the 61st Annual Meeting of the Association for Computational Linguistics. 2023:15445-15459.
[6]Hazarika D,Poria S,Mihalcea R,et al.ICON: interactive conversational memory network for multimodal emotion detection[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2018:2594-2604.
[7]Ma Hui, Wang Jian,Qian Lingfei,et al. HAN-ReGRU: hierarchical atention network with residual gated recurrentunit for emotion recog nition in conversation [J].Neural Computing and Applications, 2021,33(7) :2685-2703.
[8]Li Jiang,Wang Xiaoping,Lyu Guoqing,et al. GraphMFT: a graph network based multimodal fusion technique for emotion recognition in conversation[J].Neurocomputing,2023,550:126427.
[9]Li Jiang,Wang Xiaoping,Lyu Guoqing,et al. GraphCFC: a directed graph based cross-modal feature complementation approach for multimodal conversational emotion recognition[J].IEEE Tran on Multimedia,2023,26:77-89.
[10]沈旭東,黃賢英,鄒世豪.基于時(shí)序感知DAG的多模態(tài)對(duì)話情 緒識(shí)別模型[J].計(jì)算機(jī)應(yīng)用研究,2024,41(1):51-58.(Shen Xudong,Huang Xianying,Zou Shihao.Multi-modal temporal-aware DAG for emotion recognition in conversation[J]. Application Research of Computers,2024,41(1):51-58.)
[11]Grassucci E,Sigillo L,Uncini A,et al. Hyper complex image-toimage translation[C]//Proc of International Joint Conferenceon Neural Networks. Piscataway,NJ: IEEE Press,2022:1-8.
[12] Zhang Dong,Ju Xincheng,Li Junhui,etal.Multi-modal multi-label emotion detection with modality and label dependence [C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2020: 3584-3593.
[13]Zadeh A,Chen Minghai,Poria S,et al.Tensor fusion network for multimodal sentiment analysis[C]//Proc of Conference on Empirical Methods in Natural Language Processing. 2017:1103-114.
[14]MajumderN,Poria S,Hazarika D,et al.DialogueRNN:an attentive RNN for emotion detection in conversations [C]// Proc of AAAI Conference on Artifial Intellgence.Palo Alto,CA:AAA Pres, 2019: 6818-6825.
[15] GhosalD,MajumderNPoria S,etal.DialogueGCN: agraphovo lutional neural network for emotion recognition in conversation [C]// Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. 2019:154-164.
[16]Wei Yinwei,Wang Xiang,Nie Liqiang,et al.MMGCN: multi-modal graph convolution network for personalized recommendation of microvideo[C]//Proc of the27th ACM International Conference on Multimedia.NewYork:ACMPress,2019:1437-1445.
[17]Labbaki S,MinaryP.Orthogonal sequential fusionin multimodal learning[C]//Proc of ICLR Conference.2024:submission No. 7815.
[18]Hazarika D,Poria S, Zadeh A,et al. Conversational memory network for emotion recognition in dyadic dialogue videos[C]//Proc of Conference Association for Computational Linguistics North American Chapter Meeting.2018:2122-2132.
[19]Lopez E,Chiarantano E,Grassucci E,et al.Hyper complex multimodal emotion recognition from EEG and peripheral physiological signals[C]//Proc ofIEEE International Conference on Acoustics, Speech,and Signal Processing Workshops. Piscataway,NJ: IEEE Press,2023:1-5.
[20]Yang Jianing,Wang Yongxin,Yi Ruitao,et al.MTAG:modaltemporal attentiongraph forunaligned human multimodal language sequences [C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.2021.
[21]Joshi A,Bhat A,Jain A,et al. COGMEN:contextualized GNN based multimodal emotion recognition[EB/OL].(2022). https:// arxiv.org/abs/2205.02455.
[22]Chen Feiyu,Shao Jie,Zhu Shuyuan,et al.Multivariate,multifrequency and multimodal:rethinking graph neural networks for emotion recognition in conversation [C]//Proc of IEEE/CVF Conference on ComputerVision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:10761-10770.
[23]Nguyen C VT,Mai A T,Le T S,et al. Conversation understanding using relational temporal graph neural networks with auxiliary crossmodality interaction[EB/OL].(2023).https://arxiv.org/abs/ 2311. 04507.
[24]Yun S,Jeong M,Kim R,et al. Graph Transformer networks[EB/ OL].(2019).https://arxiv.org/abs/1911.06455.
[25] Concha D T,De Almeida MH,Pedrini H,et al. Multi-stream convolutional neural networks for actionrecognition invideo sequences based on adaptive visual rhythms[C]//Proc of the 17th IEEE International Conference on Machine Learning and Applications.Piscataway,NJ:IEEE Press,2018: 473-480.
[26]Grassucci E, Zhang A,Comminiello D. PHNNs: lightweight neural networks via parameterized hyper complex convolutions [J]. IEEE Trans on Neural Networks and Learning Systems,2024,35 (6): 8293-8305.
[27]Zhang A,Tay Y, Zhang Shuai,et al.Beyond fuly-connected layers with quaternions:parameterization of hypercomplex multiplications with 1/n parameters[EB/OL].(2021).https://arxiv.org/abs/ 2102.08597.
[28]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need [EB/OL]. (2017).htps://arxiv.org/abs/1706.03762.
[29]Li Jian,Wang Jiawei,Lin Fengwu,et al. PRCNet: a paralel reverse convolutional attention network for colorectal polyp segmentation[J]. Biomedical Signal Processing and Control,2024,95:106336.
[30] Zou Shihao,Huang Xianying,Shen Xudong,et al.Improving multimodal fusion with main modal Transformer for emotion recognition in conversation [J].Knowledge-Based Systems,2022,258:109978.
[31]Yang Shuwen,Chang HJ,Huang Zili,et al.A large-scale evaluation of speech foundation models[J]. IEEE/ACM Trans on Audio, Speech,and Language Processing,2024,32:2884-2899.
[32]Huang Gexin,Wu Chenfei,Li Mingjie,et al.Predicting genetic mutation from whole slideimages via biomedical-linguistic knowledge enhanced multi-label classification[EB/OL]. (2024). https://arxiv. org/abs/2406.02990.
[33]Jin Biaojian,Nie Rencan,Cao Jinde,et al.CHFusion:a crossmodality high-resolution representation framework for infrared and visible image fusion[J/OL]. IEEE Trans on Multimedia.(2023-07- 12).https://doi.org/10.1109/TMM.2023.3294814.
[34]Hu Dou,Wei Lingwei,Huai Xiaoyong.DialogueCRN:contextual reasoning networks for emotion recognition in conversations[C]// Proc of the59th Annual Meeting of Association for Computational Linguistics and the11th International Joint Conference on Natural Language Processing. 2021:7042-7052.
[35]Leskovec J,Chakrabarti D,Kleinberg J,et al.Kronecker graphs:an approach to modeling networks [EB/OL].(2008). https://arxiv. org/abs/0812.4905.