關(guān)鍵詞:情感識別;視覺語言模型;情境感知;多模態(tài)融合
中圖分類號:TP391.41 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)07-007-1972-06
doi:10.19734/j.issn.1001-3695.2024.12.0497
Abstract:Context-based recognition of human emotions in images has becomean increasingly popular task in recentyears, withaplication value in manyfields.Most existing methodsonly encode thehuman subjectandthe background separately,extracting isolatedfeaturesforsimple interaction,lackinganefectivefeaturefusionmechanismbetweenthesubjectandthecontextualbackground.Aimedtoaddresstheisueoftheinteractionbetweencomplexbackgroundsandthehumansubject,thispaperproposedanewnetwork forhumanemotionrecognitioninimages basedontext-imagecontrastivefusion.Firstly,itdesigned promptwords toextracttextualdescriptionsoftheemotionalstatebetweenthecontextualbackgroundandthetargethumansubjectbyfullyutilizedtheextensivesocialcontext informationandreasoningcapabilitiesof largevisual-language models.Secondly,it proposedatext-imagecontrastivefusionmodule,which fusedthecroppedtargethumansubjectimagefeatureswithhe textdescriptionfeaturesobtainedbasedonthepromptwordsthrough thismodule.Finaly,thefusionalgorithmintroduceda contrastive lossfunction tounifytherepresentationof imageencodingand text encoding,allowing for more accuratecaptureof efectiveemotionalexpresions during fusion.Experimentalresultsshowthat thenetorkcanlearnmoreefectiveemotioalfeature representations,and the network achieves superior results on the EMOTIC dataset with an mAP of 37.30% . The proposed methodbetterintegratesthefeaturesof thehumansubjectandthebackgroundintheimage,therebyimprovingtheaccuracyof human emotion recognition in images.
Key words:emotion recognition;vision-language model;context awareness;multimodal fusion
0 引言
人物情感識別系統(tǒng)已經(jīng)應(yīng)用到醫(yī)療健康、智慧教育、人機交互等領(lǐng)域,潛移默化地影響著人們的生活,情感識別在真實場景中面臨著復(fù)雜多變的情況,如何根據(jù)情境線索識別人物情感具有重要意義。現(xiàn)有的大部分情感識別研究工作集中在基于人物面部表情特征[2],往往忽略了圖像背景等其他線索;且圖像中僅包含簡單的頭部姿態(tài)、光照等變化,與真實場景之間存在一定差距。在真實場景中,人類的情緒表達依賴于多種模式,包括社交關(guān)系、肢體動作、周圍環(huán)境等[3],要理解人物情感,就不能脫離人物所處情境。
情境感知情感識別(context-awareemotionrecognition,CAER)[4]近年來越來越受關(guān)注[56],這是一項復(fù)雜的任務(wù),需要從多種上下文線索中感知情緒。近年來研究者們進行了一些探索,Kosti等人構(gòu)建了一個無約束自然場景中的任務(wù)情感圖像數(shù)據(jù)集,并提出了一個雙分支情感識別CNN基線網(wǎng)絡(luò),裁剪目標(biāo)人物區(qū)域輸入一個分支,整張圖像輸入另一個分支,但這樣會導(dǎo)致非常粗糙的特征。Zhang等人[8使用區(qū)域提議網(wǎng)絡(luò)提取圖片中的元素,使用這些元素構(gòu)建情感圖,并基于圖神經(jīng)網(wǎng)絡(luò)推斷情感關(guān)系,然而這種方法只能處理構(gòu)圖簡單的圖像,且丟失了整體圖像的語義。Mittal等人[9分別從圖像中提取面部、姿態(tài)、背景、深度等信息,考慮多種情境解釋來識別情感。Yang等人[1通過構(gòu)建數(shù)據(jù)集的上下文字典進行因果建模,以去除上下文偏差引起的場景與情感的虛假相關(guān)性。Bose等人[11從圖像標(biāo)題中提取語義信息,作為圖像特征的補充。綜合來說,這些方法都是在建立不同的上下文結(jié)構(gòu),然而受限于數(shù)據(jù)集規(guī)模以及情感的模糊性,這些方法的效果仍有待提高。如何引入更廣泛的上下文信息,更好地結(jié)合人物與場景進行情感預(yù)測,是情境感知情感識別任務(wù)中需要解決的問題。
圖片中人物所處場景多種多樣,且可能存在復(fù)雜的干擾信息,已有的方法僅僅將圖片切分為不同部分,難以捕捉到上下文背景中的情感表達。本文使用視覺語言大模型來處理這種復(fù)雜性,不僅可以提取主要的情感表達信息,還能夠去除干擾信號。此外已有的方法在融合主體與上下文特征時只進行簡單拼接或基于注意力機制融合,這類淺層交互方法難以構(gòu)建出主體與上下文之間的情感特征表示,本文提出了圖文對比融合的方法進行深度交互。總的來說,本文提出了一種基于圖文對比融合的圖像人物情感識別網(wǎng)絡(luò),具體包括:
a)在情感上下文建模部分,針對現(xiàn)有方法中對情感上下文信息挖掘不足的局限性,對大模型應(yīng)用于本文任務(wù)進行了探索,編寫提示詞指示具有視覺語言能力的大模型從圖片中尋找能描述目標(biāo)人物的情感狀態(tài)的相關(guān)線索,將圖片信息轉(zhuǎn)換為抽象文本描述。充分利用大模型中廣泛的社會背景知識,構(gòu)建出上下文的情感文本描述,同時過濾無關(guān)的雜亂背景。
b)在特征提取部分,從圖像中裁剪出人物部分,其余部分丟棄,使用Transformer編碼器[12]分別從圖像和上下文的情感文本描述中提取特征向量。
c)在特征融合部分,提出了一種新的圖文對比融合算法,采用對比損失與BCEWithLogitsLoss損失相結(jié)合的方法,統(tǒng)一學(xué)習(xí)目標(biāo)人物主體與上下文的情感文本描述的聯(lián)合語義表示,使得模型同時關(guān)注分類任務(wù)與特征表示任務(wù),抽取更有效的情感表征。
總體網(wǎng)絡(luò)架構(gòu)
本文提出的網(wǎng)絡(luò)整體框架如圖1所示。從圖中可以看出,本文算法分為三個主要階段:情感上下文建模階段、特征提取階段與特征融合階段。在情感上下文建模階段,主要進行數(shù)據(jù)的預(yù)處理,一方面使用紅框標(biāo)識出圖像中的目標(biāo)人物,設(shè)計提示詞(prompt),令VLMs基于上下文背景生成與圖片中目標(biāo)人物情感狀態(tài)相關(guān)的文本描述,另一方面從原圖中裁剪出目標(biāo)人物主體。在特征提取階段,對于生成的文本描述和從原圖中裁剪出的目標(biāo)人物主體圖像,分別使用深度網(wǎng)絡(luò)來提取特征。在特征融合階段,設(shè)計了一個圖文模態(tài)融合模塊對特征信息進行深度融合,并引入了對比損失來優(yōu)化網(wǎng)絡(luò)。
1.1情感上下文建模
近年來隨著大型語言模型(LLM)的成功,學(xué)界興起了開發(fā)基于語言增強的視覺模型的熱潮,這類模型在開放視覺理解方面具有強大的能力[13]。研究者們已經(jīng)將VLMs應(yīng)用到多種視覺語言任務(wù)中,例如視覺問答[14]和圖像到文本檢索[15],在情感識別任務(wù)中已用于面部表情識別[16],Xenos等人[17]進行了初步探索,但缺乏有效的融合機制。LLaVA是目前最先進的開源視覺語言模型[18],它根據(jù)視覺輸人和文本指令生成文本描述,本文使用LLaVA-1.513B版本。本文使用紅色方框標(biāo)識出圖像中的目標(biāo)人物(見電子版),設(shè)計了一個prompt指示
LLaVA基于圖片中的多種上下文模式描述人物最可能的情感狀態(tài),如圖2所示,prompt指示的情感狀態(tài)包括以下四個部分:
a)面部表情:面部表情是情緒的主要指標(biāo)。微笑可以暗示快樂,皺眉可能表明憤怒或困惑,睜大眼睛可以表示驚訝,皺眉可能意味著悲傷或失望。
b)姿勢和動作:肢體語言可以傳達很多關(guān)于一個人的情緒狀態(tài)。一個直立的姿勢可能意味著自信或警覺,而無精打采可能表明疲勞或沮喪。交叉雙臂可能是一種防御或不適的跡象。
c)與人或物的互動:一個人如何與周圍環(huán)境和其他人互動可以反映情緒狀態(tài)。積極參與活動可能表明感興趣或興奮,而回避他人可能意味著不感興趣。
d)環(huán)境或社交場景:整體環(huán)境營造的氛圍可以影響或反映一個人的情緒。在一些社交場景如聚會或慶祝中,人們往往表現(xiàn)出更積極的情感。
實際場景是十分復(fù)雜的,例如可能會出現(xiàn)由于遮擋、模糊等導(dǎo)致人臉或身體姿勢不可見的情況,當(dāng)某些模式缺失時,可以從其他模式的線索推斷情感。圖2prompt中的class_name}代表數(shù)據(jù)集中所有類別的名稱列表,在prompt中提供情感類別列表可以幫助模型更清晰地理解數(shù)據(jù)集,生成與本文任務(wù)更相關(guān)的文本。為圖片生成文本描述的目的是利用大模型中編碼的廣泛的社會背景知識和大模型強大的推理能力[13],以構(gòu)建出融入了與情感表達相關(guān)的社會和文化背景因素且包含目標(biāo)人物情感狀態(tài)與背景信息的情感上下文。
從樣例中可以看出,LLaVA生成了與圖片主題、圖中可能發(fā)生的事件以及人物與場景的交互相關(guān)的文本描述。模型識別出了婚禮場景、小女孩對蛋糕的渴望以及它們與小女孩情感的關(guān)系,這種高度抽象的結(jié)構(gòu)化的語義是只抽取孤立視覺特征的情感識別模型所不能做到的,而大模型生成的文本描述構(gòu)建了人物與所處場景的交互關(guān)系,可以為情感識別提供這些更廣泛更豐富的語義信息。
1.2 特征提取
1.2.1 文本特征提取
本文采用了Long-CLIP[19]模型的文本編碼器來對文本數(shù)據(jù)進行特征提取,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。Long-CLIP是最新開源的模型,其能夠處理更長的文本以及更強的泛化能力。本文采用了Long-CLIP模型的預(yù)訓(xùn)練權(quán)重,這些權(quán)重在大規(guī)模的圖像和文本數(shù)據(jù)集上進行了預(yù)訓(xùn)練,使得編碼器能夠?qū)W習(xí)到豐富的、跨模態(tài)的語言表示。在實驗中,輸入文本經(jīng)過分詞處理并加入可學(xué)習(xí)[EOS]token后,將預(yù)處理后的文本輸入Long-CLIP的文本編碼器,通過嵌入層將它們轉(zhuǎn)換為一系列高維向量。隨后,這些向量經(jīng)過多層Transformer編碼器的處理,所有token被映射為一系列 M 維的特征向量。這些向量捕捉了文本的深層次語義特征。取出句子的[EOS]token對應(yīng)的隱藏狀態(tài)作為整個句子的特征表示,該向量編碼了整個輸入文本的語義信息。通過這種方式,能夠?qū)⑽谋緮?shù)據(jù)轉(zhuǎn)換為一種豐富的、可用于下游任務(wù)的數(shù)值表示,為后續(xù)的情感識別任務(wù)提供了強大的特征支持。
1. 2. 2 圖像特征提取
由于圖像的整體性語義信息已經(jīng)轉(zhuǎn)移到文本當(dāng)中,對于最終的情感識別任務(wù)來說,圖像中大部分信息是冗余的,甚至是干擾性的,所以本算法只保留目標(biāo)人物主體圖像,全局特征信息由文本中與情感相關(guān)的抽象語義提供,避免了繁雜的細節(jié)。本算法采用 ViT[12] 網(wǎng)絡(luò)提取目標(biāo)人物主體圖像的特征,ViT是一種基于Transformer架構(gòu)的視覺主干模型,其結(jié)構(gòu)如圖4所示。
在本文算法中,首先將圖片中的識別目標(biāo)裁剪出來并重塑為 H×H 的尺寸,然后將圖像分割成多個小塊,即通過一個卷積神經(jīng)網(wǎng)絡(luò)層將圖像token化,并自動學(xué)習(xí)位置編碼(patchandpositionembedding),最后將每個小塊展平為圖像向量送人12層的Transformer編碼器進行處理。這些編碼后的特征向量捕捉了圖像中的視覺信息,為情感識別提供了豐富的特征。與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)相比,ViT能夠更有效地捕捉圖像中的長距離依賴關(guān)系,這對于理解復(fù)雜的情感表達尤為重要。
1.3基于對比損失的特征融合
1.3.1對比特征融合模塊
由于圖像人物情感識別任務(wù)的復(fù)雜性與情感模式的高度抽象性,且模型需要關(guān)注圖像的所有信息,視覺上相似的圖像特征卻可能與完全不同的情感關(guān)聯(lián),反之同理,即網(wǎng)絡(luò)提取的特征與高維情感表示的不一致[20],導(dǎo)致模型難以識別背景信息對人物情感的影響模式。為解決這個問題,本文設(shè)計了一個新的圖文對比融合模塊。圖像人物情感識別中已有的方法通常只是將主體特征與上下文背景特征進行拼接和加權(quán),對比融合模塊引入了對比學(xué)習(xí)輔助特征融合的機制,利用對比學(xué)習(xí)強大的特征表示能力[2來學(xué)習(xí)主體特征與上下文背景特征之間的語義關(guān)聯(lián),對比損失函數(shù)使得模型能夠動態(tài)調(diào)整兩個部分的貢獻,將它們編碼為統(tǒng)一和更有效的特征表示。相比于其他特征融合方式,圖文對比融合方法更適合用于圖像人物情感識別任務(wù),實現(xiàn)了更深層的特征融合。其結(jié)構(gòu)如圖5所示。
該模塊首先通過兩個全連接層作為聯(lián)合表示頭,將M維的文本特征向量和 N 維圖像特征向量分別通過各自的全連接層映射到相同的維度,這一步驟旨在將這兩種模態(tài)的特征映射到一個共享的特征空間中。文本特征向量和圖像特征向量在求和后輸入到一個融合網(wǎng)絡(luò)中,該網(wǎng)絡(luò)由兩個全連接層、批量歸一化層組成,并使用GELU激活函數(shù),融合特征在激活之后,圖像特征向量經(jīng)過線性映射后的特征殘差連接。這一融合網(wǎng)絡(luò)的主要作用是整合融合的特征,并自適應(yīng)地提取特征,最終的特征通過全連接層映射到情感類別上。
該模塊的核心是統(tǒng)一表示頭,將利用大模型從圖像中提取的文本特征構(gòu)造為圖像的正樣本,一個batch中與圖像不對應(yīng)的其他文本特征則為負樣本,統(tǒng)一表示頭將圖像和文本特征映射到共享空間并進行融合,通過對比損失來優(yōu)化特征映射層,學(xué)習(xí)文本與圖像的統(tǒng)一表示,對比損失函數(shù)如式(1)所示。
其中: N 是批次中的樣本數(shù)量; xi 是第 χi 個樣本的圖像特征向量 σyi 是第 i 個樣本的文本特征向量; sin(xi,yj) 表示 xi 與 yj 之間的余弦相似度,用于衡量兩個特征向量之間的相似程度;損失函數(shù) Lctr 計算的即是一個批次中,圖像與本文特征向量兩兩計算的余弦相似度之和的平均值; τ 為可學(xué)習(xí)的溫度參數(shù),通過實驗調(diào)優(yōu),用于自適應(yīng)調(diào)整相似度分布的平滑度。將語義相似的特征在特征空間中拉近,而語義不相似的特征則相互遠離,同時融合圖像與文本中的互補特征,整個過程彌補了網(wǎng)絡(luò)提取的特征與高維情感表示的差距。本文使用 t-SNE[22] 降維可視化了幾類圖像和文本特征向量與融合后的特征向量的空間分布情況,如圖6所示。融合之前文本特征與圖像特征交錯分布,融合后同類數(shù)據(jù)分布更加有分辨性,更好地反映了情感空間中數(shù)據(jù)的局部臨近關(guān)系。
1.3.2優(yōu)化策略
此外,本文研究的是一個多標(biāo)簽分類任務(wù),每個樣本都有一個或多個標(biāo)簽,因此通過BCEWithLogitsLoss損失計算與真實值的損失,它結(jié)合了sigmoid層和二元交叉熵(binarycrossentropy,BCE)損失。在多標(biāo)簽分類中,每個樣本可能屬于多個類別,因此每個類別都有一個獨立的二元交叉熵損失。將每一個類別的損失相加作為總損失,從而將多分類問題轉(zhuǎn)換為二分類問題,其計算公式可以表示為
其中: σ(x) 是sigmoid函數(shù); pi 表示樣本被預(yù)測為正例的概率;
yi 表示樣本的真實標(biāo)簽。
不同的任務(wù)其反向傳播的梯度不同,對模型參數(shù)更新的影響不同,為了組合多任務(wù)優(yōu)化訓(xùn)練模型,本算法嘗試了兩種組合策略:第一種是使用動態(tài)權(quán)重平均(dynamicweightaverage,DWA)[23],DWA是一種在多任務(wù)學(xué)習(xí)中用于自適應(yīng)調(diào)整任務(wù)權(quán)重的方法,它通過計算每個任務(wù)損失的變化率來自動調(diào)整任務(wù)的重要性,從而幫助模型更好地平衡不同任務(wù)之間的學(xué)習(xí)進度;第二種是定義了一個總損失函數(shù),直接對不同任務(wù)的損失權(quán)重作調(diào)整,手動尋找經(jīng)驗參數(shù),其表示如式(3)所示。
其中 :Lcrs 代表BCEWithLogitsLoss損失,用于優(yōu)化輸出預(yù)測; Lctr 代表對比損失,用于優(yōu)化特征向量間的對齊; α 為平衡參數(shù),用于調(diào)整對比損失與分類損失之間的相對重要性。在反向傳播過程中,文本和圖像特征向量后的全連接層會接收到來自對比損失和分類損失的梯度,從而實現(xiàn)梯度的雙重累積。這種設(shè)計使得模型不僅能夠關(guān)注于分類任務(wù),還能夠關(guān)注到特征表示的學(xué)習(xí),從而有效地學(xué)習(xí)到人物主體與上下文背景特征的統(tǒng)一表示。
2.2實驗設(shè)置及訓(xùn)練細節(jié)
實驗基于PyTorch深度學(xué)習(xí)框架實現(xiàn)。大模型生成文本描述的最大token數(shù)設(shè)置為200提取的文本與圖像特征向量的維度 M 設(shè)為768,對于訓(xùn)練,使用AdamW優(yōu)化器,學(xué)習(xí)率設(shè)為1E-4,batchsize設(shè)為128,損失函數(shù)為用于多標(biāo)簽分類的BCEWithLogitsLoss和對比損失,平衡參數(shù)設(shè)為0.7,訓(xùn)練輪次為130輪。由于EMOTIC數(shù)據(jù)集較小,本算法模型后端使用了較大的全連接層,為防止過擬合,在全連接層后添加了dropout,概率為 0.6
2.3 實驗結(jié)果與分析
為了說明算法的有效性,本實驗選取了多種不同的典型算法進行比較,包括結(jié)合背景的多種語境解釋來識別情感的EmotiCon9網(wǎng)絡(luò)、基于關(guān)系區(qū)域分析和標(biāo)簽關(guān)系建模的RRLA[24]網(wǎng)絡(luò)、基于情感圖推理的 CAG[8] 網(wǎng)絡(luò)以及融合圖像標(biāo)題信息的 MCF[11] 網(wǎng)絡(luò),這些網(wǎng)絡(luò)都是場景情感識別任務(wù)中的代表性方法,實驗將本文算法與這些方法在EMOTIC數(shù)據(jù)集上的各類別AP與mAP進行比較,AP是對不同閥值下計算出的一系列精度和召回率的綜合度量,mAP是所有類別AP的平均值,實驗結(jié)果如表1所示。
2 實驗及結(jié)果分析
2.1 數(shù)據(jù)集
本文選用了EMOTIC[5]數(shù)據(jù)集作為實驗的基礎(chǔ),這是一個在自然環(huán)境條件下收集的大規(guī)模人物情感識別數(shù)據(jù)集。EMOTIC數(shù)據(jù)集由23571張圖像組成,共包含34320個經(jīng)過詳細注釋的人物實例,每個人物都根據(jù)其顯而易見的情緒狀態(tài)進行了精確標(biāo)注。該數(shù)據(jù)集的一個顯著特點是它涵蓋了26種不同的情感類別,每張圖像中的人物可能表現(xiàn)出其中的一個或多個情感狀態(tài),這為情感識別任務(wù)提供了豐富的標(biāo)簽信息。此外,數(shù)據(jù)集中還為每個人物提供了精確的邊界框標(biāo)注,這有助于模型更準(zhǔn)確地定位和識別圖像中的人物。
表1中列出了各個算法的每個類別上的AP精度以及mAP ,并突出顯示了最優(yōu)的結(jié)果??梢钥闯?,本文算法在絕大多數(shù)類別上的精度優(yōu)于CAG和RRLA,在近三分之二的類別上精度超過EmotiCon,在所有類別的平均 mAP 上,本文算法達到了 37.30% ,相比于CAG、RRLA和MCF分別提高了8.88、4.89和7.76百分點(由于Bose等人論文中并沒有給出每個類別的AP,所以這里只使用mAP來對比),相比于當(dāng)前mAP最優(yōu)的算法EmotiCon也有2.02百分點的提升。對單個類別進一步分析可以看到,相較于其他方法,本模型性能在大多數(shù)涉及與環(huán)境互動的情感類別上5\~8百分點的提升。例如Affec-tion(愛),愛在人際關(guān)系和社會互動中扮演著核心角色,通常與親密、溫暖和對他人的關(guān)懷相關(guān);Disapproval(不贊成),涉及對某人或某事的不同意或不認可;Surprise(驚訝),驚訝是一種復(fù)雜的情感,可以是積極的也可以是消極的,通常與意外的事件或信息相關(guān)。這說明模型更好地提取出了數(shù)據(jù)的上下文信息,人物主體特征與上下文背景特征進行了有效的組織和融合。
但模型同時也存在一些局限,例如在Anticipation和Peace類別上的性能低于已有方法,對于一些極端困難的情感類別如Aversion和Embarrassment,并未看到顯著的效果,對比學(xué)習(xí)可能無法捕捉到一些情感類別的細微差異,這受限于大模型生成的文本質(zhì)量以及對比損失的細粒度控制,這是后續(xù)工作的重點。
在表2當(dāng)中,本實驗對比了使用DWA[24]與自定義的多任務(wù)平衡損失公式使用不同的平衡參數(shù)對模型性能的影響。
從表中可以看出,本文的平衡公式多數(shù)情況下較DWA有一定提升,且使用不同的平衡參數(shù)對模型性能的波動較小,這一定程度上說明了模型的魯棒性,無須進行煩瑣的超參數(shù)搜索,只需給出大致范圍就能獲得較好的性能。
圖7中展示了不同方法在實例樣本上的識別結(jié)果,圖像中方框標(biāo)注的即為識別目標(biāo),使用者可以框定圖中人物作為目標(biāo)。GroundTruth列出了樣本的真實標(biāo)簽,是要識別的結(jié)果,后三列為不同方法的識別結(jié)果,CAG效果較差,而本文方法與EmotiCon效果接近,在某些類上有差異。這種情感識別系統(tǒng)可以用于非接觸式的醫(yī)療健康監(jiān)測、學(xué)生學(xué)習(xí)情況反饋等。
2.4 消融實驗
為了進一步驗證本文算法在圖像人物情感識別任務(wù)上的有效性,通過消融實驗評估了本文方法在不同條件下的性能。實驗結(jié)果如表3\~5所示。
相較于只從圖像中抽取特征,根據(jù)圖像生成文本描述和圖像來進行訓(xùn)練的模型性能總體性能更優(yōu),將圖像中人物主體裁剪出來進行融合性能優(yōu)于與全圖融合,只對圖像和文本簡單相加的融合方式就分別有2.40和4.05百分點的提升,證明了將圖像信息轉(zhuǎn)移到文本結(jié)構(gòu)之中比只使用圖像提取出了更好的上下文信息,且只保留人物主體與文本進行融合的做法去除了信息冗余,幫助模型找到了關(guān)鍵特征。在加人對比融合模塊之后,文本描述 + 整張圖像提升2.27百分點,文本描述 + 裁剪主體提升3.01百分點,性能均有較大提升,這說明對比損失對于上下文文本特征與主體圖像特征的融合產(chǎn)生了關(guān)鍵的增益,學(xué)習(xí)到了更好的用于情感分類的特征表示。
3結(jié)束語
本文提出了一個基于圖文對比融合的圖像人物情感識別網(wǎng)絡(luò),借助視覺語言大模型來抽取圖像的人物關(guān)系、自然背景、人與環(huán)境的交互等信息,構(gòu)建上下文語義,最后通過圖文對比融合模塊將兩個分支抽取到的特征進行融合。本文提出的研究方法在非受控圖像人物情感識別任務(wù)上準(zhǔn)確率有一定提升,但關(guān)于如何挖掘大模型能力以更好的適配本任務(wù),對比融合方法的深層次作用機制等問題,仍有待研究。
參考文獻:
[1]Guo Runfang,Guo Hongfei,Wang Liwen,et al.Development and application of emotion recognition technology—asystematic literaturereview[J].BMCPsychology,2024,12(1):95.
[2]Canal FZ,MullrTR,Matias JC,et al.A survey on facial emotion recognition techniques:a state-of-the-art literaturereview[J].InformationSciences,2022,582:593-617.
[3]Greenaway K H,Kalokerinos E K,Williams L A. Context is everything (in emotion research)[J]. Social and Personality Psychology Compass,2018,12(6) :e12393.
[4]Lee J,Kim S,Kim S,et al. Context-aware emotion recognition networks[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ: IEEE Press,2019:10142-10151.
[5]Ruan Shulan,Zhang Kun,Wang Yijun,et al.Context-aware generationbased net for multi-label visual emotion recognition[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ: IEEEPress,2020:1-6.
[6]Hoang M H,Kim S H,Yang HJ,et al.Context-aware emotion recognition based on visual relationship detection[J]. IEEE Access,2021, 9:90465-90474.
[7]Kosti R,Alvarez JM,Recasens A,etal.Context based emotion recognition using EMOTIC dataset[J]. IEEE Trans on Pattern Analysis andMachine Intelligence,2020,42(11):2755-2766.
[8]Zhang Minghui,Liang Yumeng,Ma Huadong. Context-aware affective graphreasoning for emotion recognition[C]//Proc of IEEE International Conference on Multimedia and Expo.Piscataway,NJ:IEEE Press,2019:151-156.
[9]Mittal T,Guhan P,Bhattacharya U,et al.EmotiCon:context-aware multimodal emotion recognition using Frege'sprinciple[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press,2020:14222-14231.
[10]YangDingkang,Chen Zhaoyu,Wang Yuzheng,et al.Context deconfounded emotion recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2023:19005-19015.
[11]Bose D,Hebbar R,Somandepalli K,et al.Contextually-rich human affect perception using multimodal scene information[C]//Proc of IEEEInternational Conference on Acoustics,Speechand Signal Processing.Piscataway,NJ:IEEEPress,2O23:1-5.
[12]DosovitskiyA,BeyerL,Kolesnikov A,et al.An image is worth 16×16 (20號 words:Transformers for image recognition at scale[EB/OL].(2021- 06-03)[2024-12-08]. http://doi.org/10. 48550/arXiv.2010. 11929.
[13]LiChunyuan,Gan Zhe,YangZhengyuan,etal.Multimodal foundation models:from specialists to general-purpose assstants[J].Foundationsand Trends@ in Computer Graphicsand Vision,2024,16 (1-2) :1-214.
[14] Li Junnan,Li Dongxu,Savarese S,et al.BLIP-2: bootstrapping language-image pre-training with frozen image encoders and large language models[C]//Proc of International Conference on Machine Learning.Cambridge,MA:PMLR,2023:19730-19742.
[15]Luo Ziyang,Zhao Pu,Xu Can,etal.LexLIP:lexicon-bottlenecked language-image pre-training for large-scale image-text sparse retrieval [C]//Proc of IEEE/CVF International Conference on ComputerVision.Piscataway,NJ:IEEE Press,2023:11172-11183.
[16]Zhao Zengqun,Patras I. Prompting visual-language models for dynamic facial expression recognition[EB/OL].(2024-11-26)[2024-12-08]. https://doi.org/10.48550/arXiv.2308.13382.
[17]Xenos A,F(xiàn)oteinopoulou NM,Ntinou 1,et al.VLLMs provide better context for emotion understanding through common sense reasoning [EB/OL].(2024-04-10)[2024-12-08].https://doi.org/10. 48550/arXiv.2404.07078.
[18]Liu Haotian,Li Chunyuan,Wu Qingyang,et al.Visual instruction tuning[C]//Proc of the 37th International Conference on Neural Information Processing Systems.Red Hook,NY: Curran Associates Inc., 2023: 34892-34916.
[19]Zhang Beichen,Zhang Pan,Dong Xiaoyi,et al.Long-CLIP:unlocking thelong-text capability of CLIP[C]//Proc of European Conference on Computer Vision. Cham :Springer,2024 :310-325.
[20] Zhao Sicheng,Jia Guoli,Yang Jufeng,et al.Emotion recognition from multiple modalities: fundamentalsand methodologies[J].IEEE SignalProcessingMagazine,2021,38(6) :59-73.
[21]Radford A,KimJW,Hallacy C,et al.Learning transferable visual models from natural language supervision[C]//Proc of International Conference on Machine Learning.Cambridge,MA:PMLR,2021: 8748-8763.
[22]Van der Maaten L,Hinton G.Visualizing data using t-SNE[J]. Journal ofMachine LearningResearch,2008,9(11) :2579-2605.
[23]Liu Shikun,JohnsE,DavisonAJ.End-to-end multi-task learning with attention[C]//Proc of IEEE/CVF Conference on Computer Vision andPattern Recognition.Piscataway,NJ: IEEE Press,2019:1871- 1880.
[24]Li Weixin,DongXuan,Wang Yunhong.Human emotion recognition withrelational region-level analysis[J].IEEE Trans on Affective Computing,2023,14(1) :650-663.