摘 要:針對微表情識別技術面臨的時間特征提取挑戰(zhàn)包括短暫性帶來的捕捉難題、時空信息融合的難點、數(shù)據(jù)稀疏性導致的過擬合問題、靜態(tài)特征提取方法的局限性、數(shù)據(jù)預處理對識別性能的影響,提出了一種基于改進3D ResNet的多模態(tài)微表情識別方法(IM3DR-MFER)。通過在傳統(tǒng)3D ResNet中融入了參數(shù)精簡策略和多尺度上下文感知融合策略改進3D ResNet18,在降低參數(shù)的同時提升對面部局部特征及其在廣泛上下文中的信息捕捉能力。通過融合面部全局特征與光流動態(tài)特征,構建了一個雙模態(tài)輸入框架,從而顯著提升了模型在不同維度上的特征表征能力。通過創(chuàng)新性地引入新型三維注意力機制(CASANet),自適應地識別并突出微表情序列中各個時間點的關鍵特征。經(jīng)過在CASME II、SAMM以及復合數(shù)據(jù)集(CD)上的實驗驗證結果表明,所提方法分別取得了93.2%、88.7%和84.6%的準確率,從而驗證了所提方法在人臉微表情識別任務中的有效性和先進性。
關鍵詞:微表情識別;3D ResNet18;雙模態(tài);CASANet
中圖分類號:TP931.4"" 文獻標志碼:A"" 文章編號:1001-3695(2025)03-034-0903-08
doi:10.19734/j.issn.1001-3695.2024.04.0216
Multimodal micro-expression recognition based on improved 3D ResNet18
Liang Yan,Huang Runcai,Lu Shicheng
(School of Electrical amp; Electronic Engineering,Shanghai University of Engineering amp; Technology,Shanghai 201600,China)
Abstract:
Addressing the challenges of temporal feature extraction in micro-expression recognition technology,including the difficulties in capturing due to their transience,the complexity of spatiotemporal information fusion,the overfitting problem caused by data sparsity,the limitations of static feature extraction methods,and the impact of data preprocessing on recognition performance,this paper proposed a multimodal micro-expression recognition method based on an improved 3D ResNet(IM3DR-MFER).By incorporating parameter reduction strategies and multi-scale context-aware fusion strategies into the traditional 3D ResNet network,it improved the 3D ResNet18,reducing parameters while enhancing the ability to capture facial local features and their information in a broad context.By integrating global facial features with optical flow dynamic features,it constructed a dual-modal input framework,significantly enhancing the model’s feature representation capabilities in different dimensions.By innovatively introducing a novel three-dimensional attention mechanism(CASANet),it adaptively identified and highlighted key features at each time point in the micro-expression sequence.Experimental results on CASME II,SAMM,and the composite dataset(CD)show that the proposed method achieves accuracy rates of 93.2%,88.7%,and 84.6%,respectively,thereby verifying the effectiveness and advancement of the proposed method in facial micro-expression recognition tasks.
Key words:micro-expression recognition;3D ResNet18;dual-modal;CASANet
0 引言
微表情短暫且微妙,難以自我控制,通常反映真實情感。微表情識別作為情感計算領域的前沿研究方向之一,因其復雜性和挑戰(zhàn)性廣受關注。近年來,學術界在數(shù)據(jù)集構建、特征提取、模型設計、注意力機制、遷移學習等方面取得了顯著進展。
特征提取是微表情識別技術的核心組成部分。目前使用最多的傳統(tǒng)特征提取方法為光流法。光流應變是基于光流計算得到的反映物體變形情況的特征[1],Shreve等人[2]計算人臉關鍵區(qū)域內的光流應變實現(xiàn)微表情的檢測。Hui等人[3]提出的輕量級光流估計卷積神經(jīng)網(wǎng)絡(lightweight convolutional neural network for optica flow estimation,LiteFlowNet),通過添加novel flow regularization layer改善異常值和模糊流邊界的情況。Liu等人[4]提出的EMR(expression magnification and reduction)利用遷移學習,獲取微表情起始幀與頂點幀之間的光流信息,通過域自適應策略達到較好的效果。李博凱等人[5]提出了結合光流窗口和利用微表情峰值幀光流信息的微表情識別方法,有效識別出微表情視頻中的分類。隨著CNN和RNN的發(fā)展,Tang等人[6]提出偽三維殘差模型學習微表情的時空特征。Pfister等人通過在野外環(huán)境中識別自發(fā)性,展示了循環(huán)神經(jīng)網(wǎng)絡在微表情識別中的潛力。賴振意等人[7]提出的結合空洞卷積和人臉自動校正算法實現(xiàn)實時微表情分類。Sun等人[8]提出了雙分支融合的微表情識別框架(dual expression fusion micro-expression recognition framework,DEF-Net),將深層次網(wǎng)絡提取的人臉全局特征與AU進行級聯(lián)以完成微表情識別。隨著注意力機制在計算機視覺方面的應用。Chen等人[9]提出在微表情識別網(wǎng)絡模型中引入CBAM模塊,從通道和空間進行雙重方向的關鍵信息捕捉。Wang等人[10]通過結合微注意力機制和殘差網(wǎng)絡,提高了模型在微表情識別中的性能。Zhang等人[11]通過結合Bottleneck Transformer和殘差網(wǎng)絡,在減少模型參數(shù)的同時避免了模型過擬合。趙明華等人[12]結合三流卷積網(wǎng)絡和卷積塊注意力模塊,抑制微表情特征不重要的信息,提高了識別性能。近年來,出現(xiàn)了聯(lián)合提取時間空間特征的方法和將CNN的空間域卷積拓展到時域的三維卷積神經(jīng)網(wǎng)絡(3D-CNN)算法。Khor等人[13]提出了ELRCN(enriched long-term recurrent convolutional network),該框架包含空間富集的信道疊加網(wǎng)絡ELRCN-SE和用于時間富集的特征疊加網(wǎng)絡ELRCN-TE兩個不同的網(wǎng)絡變體。Min等人[14]提出了使用雙流網(wǎng)絡DISCNN進行微表情識別。Xia等人[15]提出一種新的基于深度循環(huán)神經(jīng)網(wǎng)絡的微表情識別方法捕獲微表情的時空特征,即時空循環(huán)卷積神經(jīng)網(wǎng)絡。于洋等人[16]提出的多尺度時空注意力網(wǎng)絡準確檢測出微表情序列片段。Wang等人[17]利用1D+2D,即一維卷積加二維卷積分別提取空間和時間特征。Zhou等人[18]結合3DCNN和BERT提取微表情時空特征。現(xiàn)有的微表情分類識別網(wǎng)絡大部分都為單模態(tài)特征提取方法,無法充分捕捉小樣本數(shù)據(jù)集的不同信息的綜合特征,且忽略時序信息的重要性,導致識別精度受限。使用三維卷積的方法雖然能夠同時考慮空間和時間信息,但隨著網(wǎng)絡深度的增加,其計算復雜度顯著提升,訓練時間延長,并且對大規(guī)模數(shù)據(jù)集的依賴性更強,導致在實際應用中面臨計算資源和數(shù)據(jù)量的挑戰(zhàn)。
針對上述挑戰(zhàn),本文提出了一種多模態(tài)微表情識別方法,基于改進的3D ResNet架構。該方法創(chuàng)新性地引入了三維注意力機制,以捕獲關鍵的動態(tài)信息。通過融合雙模態(tài)特征,有效地解決了光照變化、遮擋和微弱表情的問題。此外,在3D ResNet中引入?yún)?shù)精簡模塊,成功地降低了模型的參數(shù)數(shù)量和計算開銷,提升了模型的效率。實驗結果顯示,改進后的3D ResNet模型在多個微表情數(shù)據(jù)集上均取得了出色的識別性能。
1 相關工作
1.1 ResNet
ResNet是一種深度卷積神經(jīng)網(wǎng)絡架構,其設計核心是針對隨著網(wǎng)絡層數(shù)的增加,訓練誤差反而上升的現(xiàn)象。ResNet采用了一種分層的架構設計,其中每一層都由多個殘差塊(residual block)組成。這些殘差塊的結構如圖1所示,其創(chuàng)新點在于通過引入shortcut connection(捷徑連接)來避免在網(wǎng)絡層數(shù)增加時出現(xiàn)的信息損失和梯度消失問題。每個殘差塊包含多個負責特征提取的卷積層、用于加速學習和提高訓練穩(wěn)定性的批量歸一化層(batch normalization),以及用于增加網(wǎng)絡的非線性表達能力的ReLU激活函數(shù)。
殘差學習單元是ResNet的核心思想,通添加跳躍連接來促進梯度反向傳播。殘差塊的基本結構如式(1)所示。
H(x)=F(x)+x
(1)
其中:H(x)是塊的輸出;F(x)是殘差映射;x是跳躍連接的輸入。這種設計允許網(wǎng)絡學習殘差映射而不是直接學習預期的輸出。
1.2 光流網(wǎng)絡
LiteFlowNet是一個高效的深度學習網(wǎng)絡,專為光流估計任務設計。它采用獨特的多級級聯(lián)架構,結合粗略估計和逐步細化策略,有效捕捉和處理各分辨率層級的運動信息。其輕量級設計與高性能光流估計相結合,使其特別適合實時視頻處理和小型數(shù)據(jù)集。LiteFlowNet包含卷積層和反卷積層,前者用于特征提取,后者用于特征重建和光流估計。該模型由NetC和NetE模塊組成:NetC通過多個卷積層級提取不同尺度的特征,NetE通過多層多級反卷積模塊從粗到細估計光流場,提高估計的準確性。
1.3 注意力機制
在圖像處理和計算機視覺任務中,SENet(squeeze-and-excitation networks)[19]、CBAM(convolutional block attention module)[20]和ECA-Net(efficient channel attention networks)[21]是三種廣泛采用的注意力機制模塊。SENet通過引入通道注意力機制對卷積塊的輸入通道進行加權,顯著提升了卷積神經(jīng)網(wǎng)絡的性能。然而,降維操作可能對通道注意力的預測產生不利影響,且效率不高。為此,Wang等人[21]提出了ECA模塊,通過避免降維操作,提高了通道間信息交互的效率和性能。CBAM進一步發(fā)展了注意力機制,順序集成通道和空間注意力機制,實現(xiàn)了對特征的雙重細化。這些注意力模塊的設計和集成,反映了深度學習模型在特征表示和任務性能上的優(yōu)化趨勢。
2 本文方法
針對微表情識別準確率低、特征提取困難及忽略視頻時序信息的問題,本文提出了一種多模態(tài)微表情分類識別框架,基于增強型3D ResNet18結構,如圖2所示??蚣芎诵脑谟陔p模態(tài)特征的提取和融合:LiteFlowNet獲得精確的光流估計以捕捉視頻中的動態(tài)變化,微表情視頻中提取全局人臉特征以表征靜態(tài)表情屬性。增強型3D ResNet集成了三維注意力機制(CASANet)、參數(shù)精簡策略(MPS)和多尺度上下文感知策略(MSCAF),在降低模型復雜度的同時捕捉微表情的關鍵特征。
2.1 CASANet結構
CASANet注意力機制結合了通道-時間維度(CAM)和空間-時間維度(SAM)進行特征提取。在通道-時間維度,CASANet通過自適應學習不同通道在各時間點的權重,強調重要特征并抑制不重要特征,有效捕捉微表情的細微變化并增強時序信息的利用能力。在空間-時間維度,CASANet綜合考慮空間局部信息和時間動態(tài)變化,更好地捕捉微表情的時空特性。輸入特征圖X∈Euclid Math TwoRApC×H×W×T,其中C是通道數(shù),T是時間維度,H×W為空間維度。CAM模塊和SAM模塊如圖3所示。
3 實驗
本文實驗在Ubuntu 20.04.3操作系統(tǒng)上進行,采用了NVIDIA GeForce RTX 3080Ti GPU、Python 3.8.10和PyTorch 1.10.2平臺。
3.1 實驗數(shù)據(jù)集和預處理操作
實驗數(shù)據(jù)集均為自發(fā)的數(shù)據(jù)集,包括SAMM[22]、CASME II[23]和復合數(shù)據(jù)集(CD)。CD由SAMM、CASME II和SMIC[24]三個數(shù)據(jù)集組成,數(shù)據(jù)集中樣本分布如表3所示。
本文采用了歐拉視頻放大(EVM)技術[25],并結合水平鏡像和旋轉策略對數(shù)據(jù)集進行十倍擴充。
算法5 數(shù)據(jù)預處理
輸入:原始微表情視頻幀序列。
輸出:擴充后的數(shù)據(jù)集。
a)EVM通過時間濾波和空間濾波放大面部肌肉。
b)數(shù)據(jù)集擴充,其中包括噪聲處理、旋轉、調整亮度和對比度等操作。
c)輸出擴充后的數(shù)據(jù)集保存在指定文件夾中。
擴充后的數(shù)據(jù)集如圖13所示。EVM通過放大面部肌肉動作,強化了對微表情特征的提取能力。計算公式如下:
3.2 實驗設置和性能指標
模型的訓練過程中,使用了交叉熵損失函數(shù)進行損失計算,并采用隨機梯度下降(SGD)進行參數(shù)優(yōu)化。學習率設置為0.01,批處理大小為16,總的訓練周期為100個epochs。模型采用了留一主體交叉驗證(LOSOCV)方法,用于評估模型的泛化性能。在性能評估中,使用準確度(ACC)和F1指數(shù),F(xiàn)1指標綜合考慮了準確度和召回率,提供了對算法更全面的評估。
3.3 實驗結果
本文設計了三維注意力機制來捕捉微表情關鍵特征,如圖3所示。表4列出了ResNet18插入不同注意力機制在ACC和參數(shù)量方面的性能。為了嚴謹性,實驗在網(wǎng)絡的相同位置插入注意力機制,在不同方法之間建立一致的比較基準。
實驗證明,相較于傳統(tǒng)注意力機制,本文CASANet在CASME II和SAMM具備更好的準確率,但是參數(shù)僅僅小幅度增加。因為CASME II數(shù)據(jù)集樣本量大且樣本分布比較均衡,所以取得更好的效果。
為了驗證不同深度的3D ResNet在微表情識別任務中的性能,本文對比了3D ResNet18、3D ResNet34等多種網(wǎng)絡結構,確定了最優(yōu)的網(wǎng)絡結構。同時,本文詳細評估了模型在不同訓練周期下的性能指標,驗證了模型的穩(wěn)定性和有效性。實驗結果如圖15所示。
實驗結果表明,在微表情識別任務中,經(jīng)過100個訓練周期后,3D ResNet18展現(xiàn)出了卓越的識別性能,同時,loss值穩(wěn)定在0.721左右。這一性能優(yōu)勢源于小樣本數(shù)據(jù)集難以充分訓練深層網(wǎng)絡,導致過擬合風險增加,并加劇了訓練周期延長和梯度消失或爆炸問題的嚴重性。
本文方法與基于手工特征提取的技術和當前的深度學習架構進行了綜合對比。表5列出了各方法在ACC和F1分數(shù)方面的表現(xiàn)。
結果顯示,深度學習驅動的特征提取顯著優(yōu)于基于動作單元(AU)的特征提取方法。本文方法與LBP-TOP相比,在CD、CASME II和SAMM數(shù)據(jù)集上的準確率分別提升了41.4、26.5和27.1百分點。特別是在CASME II數(shù)據(jù)集上,準確率和F1分數(shù)均達到最高,這一表現(xiàn)與該數(shù)據(jù)集較大的樣本量有關。相比之下,SAMM和CD中的SMIC數(shù)據(jù)集在微表情識別上更具挑戰(zhàn)性。SAMM數(shù)據(jù)集由于樣本量較小以及年齡和個性的不平衡分布,影響了數(shù)據(jù)集的代表性;SMIC數(shù)據(jù)集因幀率較低、面部區(qū)域分辨率不足以及手動標注引入的主觀性和誤差,增加了識別難度。
為了驗證上述分析,圖16展示了模型在各數(shù)據(jù)集上的混淆矩陣。混淆矩陣分析顯示,本文方法在CD和SAMM數(shù)據(jù)集上的表現(xiàn)較為接近,而在CASME II數(shù)據(jù)集上取得了最高的準確率。數(shù)據(jù)集中主導負面類別導致了類別不平衡,這可能是導致驚訝和負面樣本大多被預測為負面類別的關鍵因素。
為了直觀展示本文方法和其他方法的分類識別結果,通過真實驗證集和測試集中的貢獻最大關鍵幀生成了誤差熱力圖,如圖17所示。其中圖(a)表示所選取的樣本數(shù)據(jù)集中的頂點幀,頂點幀作為表情變化最明顯的時刻,包含的信息量最大。圖(b)~(e)分別為表5展示的三類中識別效果較好的方法誤差熱力圖,分別為本文方法、GACNN、MFAPLF和MDMO。MDMO基于雙模態(tài)特征進行分類識別,其與本文方法在特征提取策略上具有一定的相似性,可以形成有效的對比,評估本文方法的相對優(yōu)勢。MDMO通過提取運動和放大特征,能夠捕捉微表情的細微變化,其基于雙模態(tài)特征的方法為本文提供了一個有價值的比較基準。GACNN結合了全局和局部注意力機制,能夠在特征提取過程中有效關注關鍵區(qū)域和重要特征。通過對比GACNN,本文可以驗證所提注意力機制在提升微表情分類識別準確性方面的優(yōu)越性。GACNN的多層次注意力機制在捕捉微表情特征方面表現(xiàn)出色,為本文提供了一個理想的參照點。MFAPLF通過結合微表情的面部動作單元信息和姿勢特征,實現(xiàn)了多尺度的特征融合。與本文方法類似,MFAPLF注重特征的多樣性和融合策略,能夠全面捕捉微表情的動態(tài)變化。通過與MFAPLF的比較,本文可以評估所提方法在特征融合和多尺度分析方面的改進效果。
圖17表明,本文方法在定位關鍵幀和頂點幀時,相較于其他方法,高亮部分的差距可以忽略不計,說明模型可能已經(jīng)在訓練階段學習到了對微表情非常敏感的特征表示方式。這種特征表示方式更多地關注微小的運動模式或者微表情特有的面部區(qū)域變化,從而能夠幫助模型準確定位對分類貢獻最大的關鍵幀。
為了驗證以上分析,表6列出在以上四種網(wǎng)絡中輸入相同視頻序列的網(wǎng)絡特征提取信息熵比例和參數(shù)量,信息熵可以量化網(wǎng)絡提取的信息量,信息熵比例是模型信息熵和最大信息熵的比值。
從表6可以看出,MDMO取得的信息熵比例較低,僅為0.22,表明特征過于集中,提取的信息量不足。這是因為MDMO在選擇特征時可能存在偏向某些類型的特征,如運動或放大特征,而對其他類型的特征(如紋理、顏色等)的重視程度可能較低,這種偏向性可能導致提取的信息熵比例相對較小,因為未能全面覆蓋微表情的多樣性。MFAPLF和GACNN信息熵比例得到一定的提升,但MFAPLF涉及到特征融合和多尺度分析,其計算復雜度較高,并且GACNN對于大量標記數(shù)據(jù)的需求較大,特別是在微表情分類這種復雜的任務中,需要足夠多且質量高的數(shù)據(jù)來有效地訓練模型。相較于其他三種方式,本文方法信息熵比例最多增加了0.41,表明模型能夠捕捉不過于分散和集中且足夠多樣性的特征。這是因為,結合新型注意力機制和雙模態(tài)信息處理,有效增強了模型對關鍵信息的捕捉能力和對微表情特征的感知能力。同時,通過通道混洗和分組卷積技術,本文成功降低了模型的參數(shù)量,同時保持了其復雜度和計算效率的平衡。
為了驗證本文方法在引入新型注意力機制后提取面部關鍵特征的有效性,以及雙模態(tài)特征融合策略的效果,本文進行了一系列的消融實驗,結果如表7所示。
實驗1 采用3D ResNet18架構對面部特征進行提取。
實驗2 利用LiteFlowNet提取光流圖,并將光流圖輸入至3D ResNet18中進行光流特征提取。
實驗3 在實驗1的基礎上加入?yún)?shù)精簡和上下文感知融合策略對面部特征進行提取。
實驗4 在實驗3的基礎上分別提取面部特征和光流特征,隨后將這兩種特征進行融合,以應用于微表情識別任務。
實驗5 在實驗4的基礎上,集成CASANet注意力機制。
實驗6 在實驗5的基礎上,數(shù)據(jù)預處理過程中使用EVM。
4 結束語
本文開發(fā)了一種基于優(yōu)化的3D ResNet18的雙模態(tài)微表情識別模型,引入了新型注意力機制(CASANet)、參數(shù)精簡和多尺度上下文感知融合策略,有效應對了微表情識別中的時間敏感性和特征提取難題。模型通過放大面部肌肉細節(jié)和自適應特征選擇,全面捕獲微表情關鍵信息。雙模態(tài)輸入策略增強了時空特征表達,提升了識別性能。在公共數(shù)據(jù)集上,方法實現(xiàn)了84.1%的準確率和78.5%的F1分數(shù)。針對本文存在的問題,未來的研究工作將集中在以下方面:深入探索數(shù)據(jù)增強技術,包括對現(xiàn)有數(shù)據(jù)的增補、轉換和合成,以模擬更廣泛的場景和條件;致力于跨數(shù)據(jù)集的泛化研究,提高模型的通用性;通過在不同的數(shù)據(jù)集上進行訓練和測試,以評估模型在不同環(huán)境下的表現(xiàn),從而優(yōu)化其性能;探索更先進的深度學習架構,如Transformer系列,以進一步提高模型的特征提取能力和時空理解能力。這些工作的目標是進一步提高微表情識別性能,為更廣泛的應用場景提供支持。
參考文獻:
[1]Manohar V,Shreve M,Goldgof D,et al.Finite element modeling of facial deformation in videos for computing strain pattern[C]//Proc of the 19th International Conference on Pattern Recognition.Piscataway,NJ:IEEE Press,2008:1-4.
[2]Shreve M,Godavarthy S,Manohar V,et al.Towards macro-and micro-expression spotting in video using strain patterns[C]//Proc of Workshop on Applications of Computer Vision.Piscataway,NJ:IEEE Press,2009:1-6.
[3]Hui T W,Tang Xiaoou,Loy C C.LiteFlowNet:a lightweight convolutional neural network for optical flow estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:8981-8989.
[4]Liu Yuchi,Du Heming,Zheng Liang,et al.A neural micro-expression recognizer[C]//Proc of the 14th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2019:1-4.
[5]李博凱,吳從中,項柏楊,等.微表情峰值幀定位引導的分類算法[J].中國圖象圖形學報,2024,29(5):1447-1459.(Li Bokai,Wu Congzhong,Xiang Boyang,et al.Classification algorithms guided by micro-expression peak frame localization[J].Chinese Journal of Image and Graphics,2024,29(5):1447-1459.)
[6]Tang Hong,Zhu Longjiao,F(xiàn)an Sen,et al.Micro-expression recognition based on optical flow method and pseudo three-dimensional residual network[J].Journal of Signal Processing,2002,38(5):1075-1087.
[7]賴振意,陳人和,錢育蓉.結合空洞卷積的CNN實時微表情識別算法[J].計算機應用研究,2020,37(12):3777-3780,3835.(Lai Zhenyi,Chen Renhe,Qian Yurong.Real-time micro-expression recognition algorithm based on atrous convolutions for CNN[J].Application Research of Computers,2020,37(12):3777-3780,3835.)
[8]Sun Xiao,Lang Junjie,Zheng Shixing,et al.Dual expression fusion:a universal microexpression recognition framework[J].IEEE MultiMedia,2022,29(4):48-58.
[9]Chen Boyu,Zhang Zhihao,Liu Nian,et al.Spatiotemporal convolutio-nal neural network with convolutional block attention module for micro-expression recognition[J].Information,2020,11(8):article No.380.
[10]Wang Chongyang,Peng Min,Bi Tao,et al.Micro-attention for micro-expression recognition[J].Neurocomputing,2020,410:354-362.
[11]Zhang Jiahao,Liu Feng,Zhou Aimin.Off-TANet:a lightweight neural micro-expression recognizer with optical flow features and integrated attention mechanism[C]//Proc of Pacific Rim International Confe-rence on Artificial Intelligence.Cham:Springer,2021:266-279.
[12]趙明華,董爽爽,胡靜,等.注意力引導的三流卷積神經(jīng)網(wǎng)絡用于微表情識別[J].中國圖象圖形學報,2024,29(1):111-122.(Zhao Minghua,Dong Shuangshuang,Hu Jing,et al.Attention-guided three-stream convolutional neural network for micro-expression recognition[J].Chinese Journal of Image and Graphics,2024,29(1):111-122.)
[13]Khor H Q,See J,Phan R C W,et al.Enriched long-term recurrent convolutional network for facial micro-expression recognition[C]//Proc of the 13th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2018:667-674.
[14]Min Peng,Wang Chongyang,Chen Tong,et al.Dual temporal scale convolutional neural network for micro-expression recognition[J].Frontiers in Psychology,2017,8:1745.
[15]Xia Zhaoqiang,Hong Xiaopeng,Gao Xingyu,et al.Spatiotemporal recurrent convolutional networks for recognizing spontaneous micro-expressions[J].IEEE Trans on Multimedia,2020,22(3):626-640.
[16]于洋,孫芳芳,呂華,等.基于多尺度時空注意力網(wǎng)絡的微表情檢測方法[J].計算機工程,2024,50(6):228-235.(Yu Yang,Sun Fangfang,Lyu Hua,et al.Micro-expression detection based on multi-scale spatio-temporal attention network[J].Computer Engineering,2024,50(6):228-235.)
[17]Wang Sujing,He Ying,Li Jingting,et al.MESNet:a convolutional neural network for spotting multi-scale micro-expression intervals in long videos[J].IEEE Trans on Image Processing,2021,30:3956-3969.
[18]Zhou Ying,Song Yanxin,Chen Lei,et al.A novel micro-expression detection algorithm based on BERT and 3DCNN[J].Image and Vision Computing,2022,119:104378.
[19]Hu Jie,Shen Li,Sun Gang.Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:7132-7141.
[20]Tariq A,Rehman R A.CBAM:a controller based broadcast storm avoidance mechanism in SDN based NDN-IoTs[C]//Proc of the 3rd International Conference on Advancements in Computational Sciences.Piscataway,NJ:IEEE Press,2020:1-6.
[21]Wang Qilong,Wu Banggu,Zhu Pengfei,et al.ECA-Net:efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:11531-11539.
[22]Davison A K,Lansley C,Costen N,et al.SAMM:a spontaneous micro-facial movement dataset[J].IEEE Trans on Affective Computing,2016,9(1):116-129.
[23]Yan Wenjing,Li Xiaobai,Wang Sujing.CASME II:an improved spontaneous micro-expression database and the baseline evaluation[J].PLoS One,2014,9(1):e86041.
[24]Li Xiaobai,Pfister T,Huang Xiaohua,et al.A spontaneous micro-expression database:inducement,collection and baseline[C]//Proc of the 10th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,2013:1-6.
[25]Wu Haoyu,Rubinstein M,Shih E,et al.Eulerian video magnification for revealing subtle changes in the world[J].ACM Trans on Graphics,2012,31(4):article No.65.
[26]Pfister T,Li Xiaobai,Zhao Guoying,et al.Recognising spontaneous facial micro-expressions[C]//Proc of International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2011:1449-1456.
[27]He Ying,Wang S J,Li Jingting,et al.Spotting macro-and micro-expression intervals in long video sequences[C]//Proc of the 15th IEEE International Conference on Automatic Face and Gesture Recognition.Piscataway,NJ:IEEE Press,2020:742-748.
[28]Lei Ling,Li Jianfeng,Chen Tong,et al.A novel graph-TCN with a graph structured representation for micro-expression recognition[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:2237-2245.
[29]Lo L,Xie H X,Shuai H H,et al.MER-GCN:micro-expression recognition based on relation modeling with graph convolutional networks[C]//Proc of IEEE Conference on Multimedia Information Processing and Retrieval.Piscataway,NJ:IEEE Press,2020:79-84.
[30]Lei Ling,Chen Tong,Li Shigang,et al.Micro-expression recognition based on facial graph representation learning and facial action unit fusion[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops.Piscataway,NJ:IEEE Press,2021:1571-1580.
[31]Wang Yi,Zheng Shixin,Sun Xiao,et al.Micro-expression recognition with attention mechanism and region enhancement[J].Multimedia Systems,2023,29(5):3095-3103.
[32]Cen Shixin,Yu Yang,Yan Gang,et al.Multi-task facial activity patterns learning for micro-expression recognition using joint temporal local cube binary pattern[J].Signal Processing:Image Communication,2022,103:116616.
[33]Li Yante,Huang Xiaohua,Zhao Guoying.Joint local and global information learning with single apex frame detection for micro-expression recognition[J].IEEE Trans on Image Processing,2021,30:249-263.
[34]Quang N V,Chun J,Tokuyama T.CapsuleNet for micro-expression re-cognition[C]//Proc of the 14th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2019:1-7.
[35]Liong S T,Gan Y S,See J,et al.Shallow triple stream three-dimensional CNN(STSTNet)for micro-expression recognition[C]//Proc of the 14th IEEE International Conference on Automatic Face amp; Gesture Recognition.Piscataway,NJ:IEEE Press,2019:1-5.
[36]Rakesh Kumar A J,Bhanu B.Micro-expression classification based on landmark relations with graph attention convolutional network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition Workshops.Piscataway,NJ:IEEE Press,2021:1511-1520.
[37]陳妍,吳樂晨,王聰.基于多層級信息融合網(wǎng)絡的微表情識別方法[J].自動化學報,2024,50(7):1445-1457.(Chen Yan,Wu Lechen,Wang Cong.A micro-expression recognition method based on multi-level information fusion network[J].Acta Automatica Sinica,2024,50(7):1445-1457.)