李婧婷 東子朝 劉 燁,2 王甦菁,2 莊東哲
·研究構(gòu)想(Conceptual Framework)·
基于人類注意機制的微表情檢測方法*
李婧婷1東子朝1劉 燁1,2王甦菁1,2莊東哲3
(1中國科學(xué)院行為科學(xué)重點實驗室(中國科學(xué)院心理研究所), 北京 100101) (2中國科學(xué)院大學(xué)心理學(xué)系, 北京 100039)(3中國人民公安大學(xué)公共安全行為科學(xué)實驗室, 北京 100038)
微表情是一種持續(xù)時間極短、不易被察覺的面部動作, 揭示了個體的真實情緒, 可以被廣泛地應(yīng)用于謊言識別等領(lǐng)域。而微表情檢測的研究受到小樣本問題的限制。針對該問題, 本文結(jié)合計算機視覺技術(shù)與認知心理學(xué)實驗方法進行探索。首先, 結(jié)合眼動技術(shù)和呈現(xiàn)?判斷范式與閾下情緒啟動效應(yīng)的行為實驗范式, 考察微表情識別中選擇注意分配的認知機制, 細化人類識別微表情時的特征興趣區(qū)域。其次, 結(jié)合人類注意機制, 提出基于自監(jiān)督學(xué)習(xí)的多模態(tài)微表情檢測方法。通過理論和關(guān)鍵技術(shù)的突破, 為真實場景下微表情檢測的應(yīng)用奠定基礎(chǔ)。
微表情檢測, 小樣本問題, 人類注意機制, 自監(jiān)督學(xué)習(xí), 深度信息
微表情是一種持續(xù)時間極短、不易被察覺的面部動作, 往往會在高風(fēng)險情況下產(chǎn)生(Ekman & Friesen, 1969)。它由Haggard和Isaacs于1966年發(fā)現(xiàn)(Haggard & Isaacs, 1966), 之后由Ekman和Friesen命名。微表情的持續(xù)時間通常在1/25到1/5秒之間(Ekman & Friesen, 1969), 是非常重要的非語言交流線索, 它可以揭示真實的情緒和個人的心理狀態(tài)(Haggard & Isaacs, 1966)。作為謊言識別的重要線索之一, 微表情的有效性甚至顯著高于言語內(nèi)容、語音、語調(diào)、身體姿勢等其他線索(Owayjan et al., 2012), 可以被廣泛地應(yīng)用于國家安全、司法實踐、臨床診斷、學(xué)生教育、衛(wèi)生防疫等領(lǐng)域。例如微表情可以作為重要線索來幫助此次新冠疫情的排查工作, 包括甄別人員是否對旅行史、密切接觸情況以及發(fā)熱癥狀等有所隱瞞。
持續(xù)時間短和動作幅度低是微表情的主要特征。如圖1所示, 被試通過極其輕微的皺眉流露出厭惡的情緒, 但觀察者單純通過肉眼很難在視頻中捕捉人臉微表情。微表情的人工檢測和識別需要花費大量的人力物力, 并且參與分析的人員需要經(jīng)過專業(yè)的訓(xùn)練。Ekman在2002年開發(fā)了第一個微表情培訓(xùn)工具(Micro-Expression Training Tool, METT) (Ekman, 2003), 其目的是訓(xùn)練人類檢測和識別微表情。然而即使是經(jīng)過培訓(xùn)的專家, 其肉眼的識別率也低于50% (Ekman, 2003)。因此, 為了將微表情分析應(yīng)用到實際場景中, 對微表情智能檢測與識別的研究十分迫切。
本研究將通過計算機和心理學(xué)的交叉, 研發(fā)人臉微表情智能檢測系統(tǒng), 具有重要的理論意義和巨大的應(yīng)用價值。針對微表情小樣本問題, 首先在心理學(xué)領(lǐng)域, 研究面向微表情的注意力機制, 高效提取微表情特征, 提升系統(tǒng)對微表情動作的敏感度和可靠性。其次, 在計算機視覺技術(shù)領(lǐng)域, 針對小樣本問題, 除了進一步擴充數(shù)據(jù)容量, 在算法層面, 主要是通過將其余相似類型的數(shù)據(jù)特征進行遷移, 或者通過挖掘數(shù)據(jù)自身的特征信息進行學(xué)習(xí)(無監(jiān)督/自監(jiān)督學(xué)習(xí))?;谏鲜鲅芯糠椒? 本研究提出基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)模型, 實現(xiàn)微表情智能檢測, 進一步避免了小樣本問題對微表情研究的限制。此外, 為了增強網(wǎng)絡(luò)構(gòu)建自監(jiān)督信息的能力, 本研究利用包含場景深度信息的微表情樣本, 實現(xiàn)多模態(tài)的微表情分析。
圖1 微表情樣例:緊張情緒, 眉心處輕微向內(nèi)收攏, 持續(xù)時間約300 ms。(資料來源:CASME II數(shù)據(jù)庫, óXiaolan Fu)
近10年來, 微表情研究越來越受到科學(xué)領(lǐng)域和大眾媒體的重視, 如圖2所示, 研究人員試圖通過計算機科學(xué)與心理學(xué)的結(jié)合, 研發(fā)自動檢測和識別微表情的技術(shù), 以幫助人們更有效地利用微表情線索來識別謊言。微表情識別是對已知存在微表情的片段進行情感分類, 技術(shù)相對成熟(See et al., 2019)。反之, 微表情檢測是在長視頻中準確定位微小短暫的微表情片段, 任務(wù)十分具有挑戰(zhàn)性, 并且相關(guān)的論文數(shù)量仍然相對較少, 但其研究具有很高的實用價值。如果能在一段視頻中準確地檢測到某個時間點有微表情出現(xiàn), 那么就說明這個人在這個時刻可能會有異常。
由于微表情具有強度低和持續(xù)時間短的特點, 微表情相關(guān)特征很難提取, 這對微表情檢測造成了一定的困難。同時, 當(dāng)前微表情檢測算法的準確率不夠高, 即使是對嚴格控制的實驗環(huán)境中采集的微表情視頻進行檢測, 微小的面部運動也會導(dǎo)致誤檢。另外, 因為微表情樣本的人工標注十分困難, 目前只有6個公開的自發(fā)微表情數(shù)據(jù)庫, 包括中國科學(xué)院心理研究所發(fā)布的CASME系列(Qu et al., 2018; Yan et al., 2013, 2014), 芬蘭奧盧大學(xué)發(fā)布的SMIC (Li et al., 2017)、英國曼徹斯特城市大學(xué)發(fā)布的SAMM (Davison, Lansley, et al., 2018)和中國山東大學(xué)發(fā)布的MMEW (Ben et al., 2021), 視頻總量約1000個, 這是典型的小樣本問題。大數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)已經(jīng)在諸多領(lǐng)域獲得成功, 但是微表情小樣本問題限制了基于深度學(xué)習(xí)的微表情檢測研究。
因此, 本研究面向微表情檢測方法, 針對微表情小樣本問題, 分別從注意力機制、基于大量人臉和表情數(shù)據(jù)庫的自監(jiān)督學(xué)習(xí)和深度信息三方面來解決這一問題。本節(jié)將首先介紹微表情檢測的相關(guān)方法的研究現(xiàn)狀, 然后對本研究中應(yīng)用的模式識別技術(shù)理論和方法(即注意力機制、自監(jiān)督學(xué)習(xí)和深度信息)的國內(nèi)外研究現(xiàn)狀進行綜述。
圖2 基于計算機的微表情研究趨勢
2.1.1 微表情檢測的研究現(xiàn)狀
目前通過計算機技術(shù)對微表情進行分析成為了一個研究熱點, 國內(nèi)很多團隊都開展了相關(guān)的科研工作, 比如中國科學(xué)院心理研究所傅小蘭團隊, 清華大學(xué)劉永進團隊, 中國科學(xué)院自動化研究所陶建華團隊, 復(fù)旦大學(xué)張軍平團隊, 上海交通大學(xué)李生紅團隊, 東南大學(xué)鄭文明、宗源團隊, 西安交通大學(xué)洪曉鵬團隊, 山東大學(xué)賁晛燁團隊, 西北工業(yè)大學(xué)馮曉毅、夏召強團隊, 北京交通大學(xué)安高云團隊, 江西中醫(yī)藥大學(xué)申尋兵團隊, 西南大學(xué)陳通團隊, 北京科技大學(xué)馬惠敏團隊、謝侖團隊和支瑞聰團隊, 南京工程學(xué)院黃曉華團隊, 中國科學(xué)技術(shù)大學(xué)陳恩紅團隊, 江蘇大學(xué)毛啟容團隊, 北京師范大學(xué)孫波團隊, 合肥工業(yè)大學(xué)詹曙團隊, 南京曉莊學(xué)院鄭豪團隊, 江西師范大學(xué)鄢克雨團隊等。然而, 大部分團隊主要研究了微表情識別方法, 微表情檢測相關(guān)研究仍有待探索。
微表情檢測方法主要有兩種思路, 一種是通過比較幀間特征差異檢測微表情, 另一種是通過機器學(xué)習(xí)提取微表情的特征進而對微表情幀和非微表情幀進行分類。
目前大多數(shù)方法利用特征差異來檢測微表情, 主要流程是計算時間窗口中所提取特征的差異, 通過在整個視頻中設(shè)置閾值, 可以發(fā)現(xiàn)最明顯的臉部運動。常用的特征包括:芬蘭奧盧大學(xué)趙國英團隊使用的局部二值模式(LBP) (Moilanen et al., 2014), 馬來西亞多媒體大學(xué)的梁詩婷等人(Liong et al., 2015)、以及王甦菁團隊(Wang et al., 2016)使用的光流相關(guān)特征, 英國曼徹斯特城市大學(xué)Moi Hoon Yap團隊使用的3D-HOG (Davison, Merghani, et al., 2018)等。這些方法的主要優(yōu)點是能夠在基于微表情持續(xù)時間的滑動窗口內(nèi)進行幀之間的比較。然而, 通常情況下, 僅窗口中的第一幀和最后一幀被用于當(dāng)前幀的特征差計算, 這種方法沒有考慮到微表情的時間變化模式。特征差異方法的另一個缺點是無法區(qū)分微表情和其他類型的頭部運動, 尤其是在長視頻中, 特征差異方法會發(fā)現(xiàn)許多高于閾值的運動, 從而導(dǎo)致許多假陽性。
如今, 為了增強檢測方法區(qū)分微表情與其他面部運動的能力, 基于機器學(xué)習(xí)/深度學(xué)習(xí)的微表情檢測方法剛剛興起。目前只有十余篇相關(guān)論文發(fā)表, 例如Wang等人(2021)發(fā)表的MESNet、北京科技大學(xué)謝倫團隊提出的局部雙線卷積神經(jīng)網(wǎng)絡(luò)(Pan et al., 2020)、中國電子科技集團電子科學(xué)研究院謝海永團隊提出的基于光流和LSTM的檢測方法(Ding et al., 2019)、荷蘭埃因霍芬理工大學(xué)Vlado Menkovski團隊提出的結(jié)合光流和RNN的檢測方法(Verburg & Menkovski, 2019)、芬蘭奧盧大學(xué)趙國英團隊提出的LBP-TOP+SVM檢測方法(Tran et al., 2017)等、Li等人(Li, Soladie, et al., 2019; Li et al., 2020)提出具備微表情普適化的局部時域模式, 進而通過機器學(xué)習(xí)分類器檢測微表情。當(dāng)前基于深度學(xué)習(xí)的微表情檢測方法研究受到小樣本問題限制, 無法應(yīng)用到實際場景中。
2.1.2 相關(guān)模式識別中的技術(shù)理論和方法研究現(xiàn)狀
基于物體的注意力的神經(jīng)機制, 麻省理工學(xué)院Baldauf和Desimone于2014年在《Science》雜志上發(fā)表了其研究成果。注意力屬于認知過程的一部分, 是一種導(dǎo)致局部刺激的意識水平提高的知覺選擇性的集中, 是心理學(xué)中研究最熱門的主題之一。計算機領(lǐng)域中注意力機制的提出使得深度網(wǎng)絡(luò)能夠忽略無關(guān)信息而關(guān)注和捕捉重點特征。在圖像處理領(lǐng)域, 相關(guān)研究主要分為強注意力(hard attention)和軟注意力(soft attention)兩種類型, 其中強注意力關(guān)注每個點可能具備的注意力, 并且強調(diào)圖像的動態(tài)變化, 目前主要應(yīng)用在圖像裁剪領(lǐng)域(Mnih et al., 2014); 軟注意力則更關(guān)注區(qū)域或者通道, 并且通過網(wǎng)絡(luò)生成確定的注意力模塊, 該機制在深度網(wǎng)絡(luò)上得到了廣泛的應(yīng)用(Fu et al., 2019; Li et al., 2018)。由于微表情微小且短暫的特性, Wen等(2021)、Li等(2021)以及其他研究團隊嘗試引入注意力機制, 提升網(wǎng)絡(luò)針對微表情特征提取的能力。然而, 由于針對微表情自身的認知機制中注意力分配的研究較少, 微表情特征提取的有效性需要進一步提升。
2015年, LeCun、Bengio和Hinton聯(lián)合在《Nature》雜志發(fā)表了一篇深度學(xué)習(xí)的綜述文章(LeCun et al., 2015)。文章最后指出, 像人類視覺系統(tǒng)一樣的無監(jiān)督的深度學(xué)習(xí)是一個重要的方向。自監(jiān)督學(xué)習(xí)是無監(jiān)督學(xué)習(xí)的一種方法(Jing & Tian, 2020), 通過在大規(guī)模的無監(jiān)督數(shù)據(jù)中利用輔助任務(wù)挖掘自身的監(jiān)督信息, 并利用這種構(gòu)造的監(jiān)督信息對網(wǎng)絡(luò)進行訓(xùn)練, 從而可以學(xué)習(xí)到對下游任務(wù)有價值的特征信息。盡管單個的無標注樣本相較于已標注的樣本所包括的信息要少, 但是如果能獲取大量無監(jiān)督數(shù)據(jù), 并且算法可以有效地通過輔助任務(wù)獲取相應(yīng)的監(jiān)督信息, 那么相比大規(guī)模的耗時耗力的手工特征構(gòu)建和數(shù)據(jù)標注, 自監(jiān)督算法將有更好的效率和實用性。自監(jiān)督學(xué)習(xí)已經(jīng)在圖片Patch相對位置預(yù)測(Doersch et al., 2015)、圖像修復(fù)(Pathak et al., 2016)、圖片旋轉(zhuǎn)角度預(yù)測(Gidaris et al., 2018)、圖像色彩預(yù)測(Larsson et al., 2017)、視頻中目標檢測(Li, Liu, et al., 2019)、視頻順序預(yù)測(Fernando et al., 2017)等任務(wù)中實現(xiàn)利用無監(jiān)督數(shù)據(jù)構(gòu)造自身監(jiān)督信息,獲得了可以和監(jiān)督學(xué)習(xí)性能媲美的結(jié)果。
深度信息為圖像分析提供了更多的幾何信息,有助于提升人臉與表情識別的可靠性。國內(nèi)外對其展開了大量的研究, 例如Danelakis等(2016)提出了利用面部坐標的GeoTopo+特征, 以創(chuàng)建三個子特征來捕獲面部的拓撲和幾何信息; 國內(nèi)廈門大學(xué)雷蘊奇團隊提出了結(jié)合深度圖和SURF算法的3D人臉識別(Ma et al., 2017); 中國科學(xué)技術(shù)大學(xué)於俊團隊提出了基于深度圖的姿勢估計和人臉重構(gòu)(Luo et al., 2019)等。由于面部肌肉運動會引起其對應(yīng)深度信息的變化, 引入深度信息可以幫助系統(tǒng)更加靈敏地檢測到人臉表情的變化。通過借鑒結(jié)合深度圖的人臉表情研究(Cai et al., 2020), 將有助于開展結(jié)合深度信息的人臉微表情檢測的分析。
由于微表情是一種持續(xù)時間極短、不易被察覺的面部動作, 導(dǎo)致了微表情的誘發(fā)、采集和人工標注十分困難。樣本采集和標注往往需要大量的人力物力, 成本很高。這一情況限制了微表情數(shù)據(jù)庫的創(chuàng)建, 該小樣本問題桎梏了結(jié)合機器學(xué)習(xí)的微表情檢測方法的研究。如圖3所示, 本研究通過研究注意力機制增強網(wǎng)絡(luò)針對微表情特征提取能力, 以及通過自監(jiān)督學(xué)習(xí)的方法實現(xiàn)微表情檢測, 從而避免了小樣本問題的限制。此外, 由于微表情的特性, 現(xiàn)實生活中的很多視頻中存在大量未標注的微表情, 例如在訪談節(jié)目中, 當(dāng)被訪問者不想透露真實情緒時, 往往臉部會出現(xiàn)微表情。本研究提出的方法能夠通過在無標注視頻中挖掘微表情片段, 實現(xiàn)微表情樣本量的擴充, 從而解決微表情小樣本問題, 并促進傳統(tǒng)微表情檢測方法的性能提升。
圖3 本研究提出的微表情檢測方法與微表情小樣本問題關(guān)系圖
首先, 本研究開展基于心理學(xué)微表情認知機制中注意力資源的相關(guān)探索, 發(fā)現(xiàn)針對微表情特性的注意力機制, 從而有效、直接地使模型從輸入信息中就獲取微表情重要特征, 并通過網(wǎng)絡(luò)從多維度(時域、空間域和通道域)進一步生成相關(guān)注意力模塊, 在樣本量有限的情況下, 提升網(wǎng)絡(luò)對微表情特征的提取性能。
其次, 本研究提出基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)方法, 在預(yù)訓(xùn)練的過程中從大量無標注視頻中學(xué)習(xí)時空特征, 從而實現(xiàn)下游任務(wù)即微表情的檢測。這一方法避免了小樣本問題對傳統(tǒng)有監(jiān)督機器學(xué)習(xí)方法的限制, 并且該方法具有普適性, 為后續(xù)不同實際場景的微表情檢測提供了技術(shù)基礎(chǔ)。
最后, 目前的微表情發(fā)布數(shù)據(jù)均為視頻樣本, 并沒有包括相應(yīng)的深度信息。本研究將基于我們研究團隊正在創(chuàng)建的首個包含圖像深度信息的微表情數(shù)據(jù)庫, 開展基于深度信息的微表情檢測, 為自監(jiān)督學(xué)習(xí)微表情檢測模型的輔助任務(wù)提供更多信息。
本研究提出的基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)的微表情檢測方法, 避免了小樣本問題的限制, 使在國安審訊、醫(yī)療問診等復(fù)雜真實場景下微表情分析技術(shù)的應(yīng)用成為可能。
微表情檢測在謊言識別、醫(yī)療診斷等領(lǐng)域都有著廣闊的應(yīng)用前景。然而, 由于微表情樣本采集和標注困難, 造成小樣本問題, 限制了微表情檢測方法的研究。針對這一問題, 本研究從兩個方面開展研究, 首先通過人類注意機制的研究, 提升深度網(wǎng)絡(luò)對微表情特征提取能力; 其次, 利用無標注樣本訓(xùn)練自監(jiān)督模型, 構(gòu)建普適且高效的微表情檢測網(wǎng)絡(luò)。圖4展示了本研究的研究框架。
3.1.1 微表情識別的人類注意機制分析
(1)心理學(xué)認知微表情的注意力資源分配研究
首先, 在心理學(xué)層面, 面孔中的許多信息都會引導(dǎo)注意朝向?;谡J知心理學(xué)的行為實驗方法, 采用呈現(xiàn)?判斷范式, 考察人在進行微表情識別時的注視線索。實驗結(jié)論有助于細化微表情的特征興趣區(qū)域, 同時幫助解決微表情局部信息全局化的合理性。其次, 閾下情緒啟動效應(yīng)是情緒啟動效應(yīng)的一種經(jīng)典范式。利用微表情的表現(xiàn)方式與閾下情緒啟動方式一致這一特點, 將微表情識別分為無意識情緒啟動階段和情緒知覺理解階段, 并進行實驗驗證。前期無意識階段的研究可以提升系統(tǒng)局部特征提取的能力, 后期決策的研究可以幫助解決微表情特征全局空間整合的問題。
(2)針對微表情檢測的注意力機制設(shè)計
在計算機視覺層面, 利用針對微表情的注意朝向和大腦意識的認知階段, 幫助網(wǎng)絡(luò)從輸入信息中選擇重要的特征, 進而結(jié)合多維度的注意力機制, 從時域、空間域以及通道域構(gòu)建注意力模塊, 設(shè)計針對微表情局部特征提取和全局決策的注意力機制, 提升局部信息整體融合的有效性, 從算法層面優(yōu)化受限于小樣本問題的微表情檢測方法。
3.1.2 多分支自監(jiān)督學(xué)習(xí)的微表情檢測研究
針對微表情訓(xùn)練樣本少的問題, 我們提出通過構(gòu)建多分支自監(jiān)督學(xué)習(xí)模型, 設(shè)計輔助任務(wù), 使模型在大量包含人臉及發(fā)生面部表情的視頻中構(gòu)建自監(jiān)督信息, 提取微表情關(guān)鍵區(qū)域的時空特征, 最后通過微調(diào)將模型應(yīng)用到下游任務(wù)中。這種無監(jiān)督學(xué)習(xí)模型的設(shè)計可以避免小樣本問題對微表情檢測的限制, 并為適應(yīng)后續(xù)實際場景的微表情檢測提供可能。
除了傳統(tǒng)的彩色圖像(RGB)模態(tài), 深度信息是體現(xiàn)視點和場景對象表面之間距離的多模態(tài)信息, 直接反應(yīng)了可見表面的幾何形狀。由于微表情是臉部的微小運動, 深度信息的補充可以幫助提取微表情特征。本研究將結(jié)合深度信息進行微表情檢測方法的探索, 通過利用深度流和RGB圖像, 仿真生成深度圖來構(gòu)建輔助任務(wù), 提升自監(jiān)督學(xué)習(xí)提取監(jiān)督信息的能力, 從而增強算法檢測微表情的性能。
3.1.3 基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò)的微表情檢測
通過結(jié)合基于人類注意機制和多分支自監(jiān)督模型, 本研究創(chuàng)建了能夠高效提取針對微表情特征的無監(jiān)督微表情檢測方法, 克服微表情小樣本問題的限制, 并有助于無標注視頻中微表情樣本的檢測與時間標注(起始/終止幀), 從而實現(xiàn)微表情的樣本擴增。此外, 該自監(jiān)督模型的建立為復(fù)雜場景下微表情檢測的應(yīng)用奠定了基礎(chǔ)。
本研究融合了計算機視覺和認知心理學(xué), 屬于模式識別系統(tǒng)及應(yīng)用與認知心理學(xué)的跨學(xué)科交叉領(lǐng)域的研究。如圖5所示, 為了研究在小樣本問題限制下的微表情檢測方法, 本研究通過基于心理學(xué)認知的注意力機制研究, 優(yōu)化微表情特征提取過程, 并搭建基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)網(wǎng)絡(luò), 從而實現(xiàn)無監(jiān)督微表情檢測。
3.2.1 微表情認知的注意力機制分析
在注意力機制研究部分, 我們首先開展微表情識別的認知研究, 探索認知過程中的注意力資源變化。然后, 基于心理學(xué)原理和相關(guān)實驗結(jié)果, 結(jié)合計算機視覺技術(shù), 在樣本量有限的情況下, 搭建針對微表情的注意力模塊, 提升計算模型學(xué)習(xí)和整合微表情特征的能力。
圖4 基于小樣本問題的微表情檢測研究框架
圖5 基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)微表情檢測之技術(shù)框架
(1)心理學(xué)認知微表情的注意力資源分配研究
觀察者的注意力朝向受到面孔中的諸多信息的影響。腦成像研究表明, 與中性面孔相比, 情緒面孔前注意階段的加工可以導(dǎo)致視皮層激活增強, 反映了對情緒面孔注意朝向的增強。因此, 本研究基于認知心理學(xué)的行為實驗方法, 采用呈現(xiàn)?判斷范式, 考察人在進行微表情識別時的注視線索。同時, 通過眼動儀記錄被試識別微表情的視覺掃描特征。依據(jù)分析結(jié)果和AU單元, 劃分面孔刺激材料的興趣區(qū)域, 判斷微表情識別時重要的提取線索區(qū)域, 并進一步分析該區(qū)域的視覺掃描特征。
在微表情識別的加工過程中, 不同階段的注意朝向不同。我們通過借鑒閾下情緒啟動方式的研究來分析微表情識別的注意力變化機制。在研究過程中, 通過實驗驗證, 微表情識別被分為兩個階段, 分別為無意識情緒啟動階段和情緒知覺理解階段。采用ERP實驗, 探討在情緒不一致時微表情識別的腦加工機制。
通過以上的心理學(xué)理論研究和實驗, 我們可以獲得有效且細化的微表情認知過程中興趣區(qū)域變化過程, 以及大腦注意力機制的啟動和決策過程, 從而幫助微表情檢測系統(tǒng)實現(xiàn)全局→局部→全局的針對微表情注意力機制設(shè)計。
(2)針對微表情檢測的注意力機制設(shè)計
由于微表情特征是局部分布在人臉上的, 同時具備強度低和持續(xù)時間短的特點, 引入注意力機制將有助于系統(tǒng)對微表情特征的提取。特別是, 不同的微表情對應(yīng)的重點臉部區(qū)域可能會不同。例如, 已有研究表明對于高興的面部表情, 嘴部區(qū)域的動作更加重要; 而對于恐懼的表情, 眼睛區(qū)域的動作更加明顯(Eisenbarth & Alpers, 2011)。針對微表情的注意力機制模塊設(shè)計如圖6所示, 根據(jù)心理學(xué)的微表情認知機制, 從輸入信息中得到重點區(qū)域, 并由通道域的注意力機制進行重點關(guān)注, 隨后依次通過時空注意力模塊, 提取微表情的有效特征, 再依據(jù)心理學(xué)的決策機制, 最終得到合理的融合性全局特征。此外, 通過引入注意機制和無注意機制的對比實驗, 驗證微表情識別注意研究的可靠性。
3.2.2 多分支自監(jiān)督學(xué)習(xí)模型的微表情檢測研究
由于已標注的微表情樣本有限, 本研究提出在大量的無標注人臉及表情視頻中進行自監(jiān)督學(xué)習(xí), 通過構(gòu)建針對微表情特征的輔助任務(wù), 實現(xiàn)在下游的微表情檢測任務(wù)。微表情是一個短暫的局部面部動作, 除了空間特征, 其時域變化特征對微表情檢測也很重要。本研究通過構(gòu)建多分支自監(jiān)督學(xué)習(xí)模型, 提取視頻樣本的時空特征, 包括結(jié)構(gòu)信息、細節(jié)信息、動態(tài)變化模式和深度幾何信息, 從而實現(xiàn)無監(jiān)督的微表情檢測。
圖6 結(jié)合心理學(xué)認知與計算機視覺的微表情注意力模塊
1)受到心理學(xué)人類注意機制的啟發(fā), 針對人臉微表情局部分布的特征, 本研究設(shè)計了基于興趣區(qū)域視頻的排序及補全的類魔方輔助任務(wù), 分別在視頻中提取對應(yīng)心理學(xué)認知全局決策的結(jié)構(gòu)信息和對應(yīng)局部注意的細節(jié)信息。該類魔方輔助任務(wù)可以構(gòu)建具備提取視頻結(jié)構(gòu)和細節(jié)特征能力的自監(jiān)督網(wǎng)絡(luò), 并且優(yōu)化微表情檢測方法的全局?局部策略。如圖7所示, 首先將常見發(fā)生微表情的局部區(qū)域從人臉圖像中分離出來, 通過隨機排序規(guī)則, 使模型在大量的樣本訓(xùn)練中學(xué)習(xí)圖像的結(jié)構(gòu)信息。此外, 為了學(xué)習(xí)人臉動作在時間上的變化, 本文將人臉視頻按照時間窗口進行分割, 和空間的人臉局部區(qū)塊結(jié)合, 實現(xiàn)時空結(jié)構(gòu)特征的提取。其次, 在獲取人臉視頻結(jié)構(gòu)信息的同時, 通過補全視頻片段輔助任務(wù)來獲取人臉視頻的細節(jié)信息。我們通過隨機裁減掉一個興趣區(qū)域, 在網(wǎng)絡(luò)學(xué)習(xí)局部區(qū)域視頻結(jié)構(gòu)特征的同時, 利用自編碼器網(wǎng)絡(luò)對缺失視頻的重構(gòu)和補全來學(xué)習(xí)對應(yīng)區(qū)域的細節(jié)信息。
2)相同類型的表情, 由于個體差異(人種、年齡、性別等)、面部肌肉運動單元強度不同等因素, 存在不同的表現(xiàn)形式。受啟發(fā)于一維信號動態(tài)時間規(guī)整(Dynamic Time Warping, DTW)以及圖像的非監(jiān)督增強匹配技術(shù)在小樣本問題中的應(yīng)用, 本研究提出基于視頻的非監(jiān)督增強匹配網(wǎng)絡(luò)設(shè)計, 借助時空結(jié)構(gòu)保持的特性, 通過已知表情和新出現(xiàn)表情視頻樣本的對比, 實現(xiàn)跨表現(xiàn)形式的特征匹配。這樣的時空結(jié)構(gòu)匹配使得網(wǎng)絡(luò)具備提取視頻時空動態(tài)變化模式的能力, 并且與心理學(xué)微表情認知局部→全局匹配的過程相呼應(yīng)。
3)基于深度相機采集的深度圖, 我們獲取了針對微表情視頻樣本的深度信息。連續(xù)幀在同一區(qū)域的深度值變化體現(xiàn)了當(dāng)前區(qū)域的人臉幾何變化信息。并且基于心理學(xué)發(fā)現(xiàn), 人的深度視覺是人對物體認知的重要參考因素。同時, 在基于人類注意機制的人臉興趣區(qū)域中, 一方面, 深度信息將有區(qū)別于其他區(qū)域的更明顯的變化, 一方面, 檢測系統(tǒng)本身也會通過集中關(guān)注這些區(qū)域從而獲得更有效的微表情動作信息。因此, 本研究利用深度信息設(shè)計自監(jiān)督學(xué)習(xí)輔助任務(wù), 能夠提升模型捕捉運動信息的能力。
基于上述三種輔助任務(wù), 本研究搭建了一個基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)模型。通過在大量無標注視頻樣本進行三個輔助任務(wù)的訓(xùn)練, 使得模型具備在人臉視頻中提取興趣區(qū)域的結(jié)構(gòu)特征+細節(jié)特征(類魔方任務(wù))、視頻動態(tài)變化模式(非監(jiān)督增強匹配)和幾何信息(深度信息估計)的能力。由此, 如圖8所示, 本研究得到能夠提取時空特征的多分支自監(jiān)督學(xué)習(xí)模型, 結(jié)合針對基于微表情認知的注意力模塊, 通過微調(diào)和結(jié)合全局注意力機制的特征細化, 實現(xiàn)下游任務(wù)的微表情檢測。
圖7 基于類魔方輔助任務(wù)的自監(jiān)督網(wǎng)絡(luò)框架
圖8 結(jié)合人類注意機制的多分支自監(jiān)督學(xué)習(xí)的微表情檢測
本研究提出的自監(jiān)督學(xué)習(xí)模型通過三個并行的分支輔助任務(wù), 從平面結(jié)構(gòu)、平面細節(jié)、時空動態(tài)變化和運動集合信息的四個維度, 全面地提取了樣本時空特征, 從而實現(xiàn)下游任務(wù)的微表情檢測。同時, 在注意力機制部分, 每個自監(jiān)督網(wǎng)絡(luò)的分支通過結(jié)合本研究提出的人類注意機制模塊, 增強了微表情的特征提取性能和全局特征融合的能力, 并在最后通過注意力機制融合并細化的多分支特征, 得到最具表征性的微表情特征。
本研究提出的基于人類注意機制的多分支自監(jiān)督學(xué)習(xí)模型, 克服了小樣本問題對微表情研究的限制, 并為后續(xù)適應(yīng)不同場景的微表情檢測提供可能。
微表情檢測在深度學(xué)習(xí)領(lǐng)域的發(fā)展受到了小樣本問題的限制。本文將計算機視覺技術(shù)與認知心理學(xué)行為實驗方法相結(jié)合, 自主研發(fā)具有重要科學(xué)研究和實際應(yīng)用價值的微表情智能檢測系統(tǒng)。
(a)基于微表情認知過程, 通過對其注意力資源的研究, 探索了針對微表情局部短暫的時空特征的多維度注意力機制, 優(yōu)化了網(wǎng)絡(luò)特征提取的能力, 在受限于微表情樣本容量小的情況下, 增強了微表情檢測系統(tǒng)的敏感度和可靠性。
(b)首次將自監(jiān)督學(xué)習(xí)方法引入到微表情檢測模型構(gòu)建中, 通過在大量無監(jiān)督視頻中利用輔助任務(wù)構(gòu)建具備提取微表情時空特征的模型, 實現(xiàn)下游任務(wù)?微表情的檢測, 從而避免了標注樣本量小帶來的限制。此外, 無監(jiān)督微表情檢測系統(tǒng)的實現(xiàn)能夠在日常視頻中挖掘微表情樣本, 擴充數(shù)據(jù)量, 幫助解決小樣本問題。
(c) 首次結(jié)合深度信息對微表情分析進行研究, 并構(gòu)建結(jié)合深度圖的自監(jiān)督學(xué)習(xí)模型, 開展多模態(tài)微表情檢測研究。
Baldauf, D., & Desimone, R. (2014). Neural mechanisms of object-based attention.,(6182), 424–427.
Ben, X., Ren, Y., Zhang, J., Wang, S.-J., Kpalma, K., Meng, W., & Liu, Y.-J. (2021). Video-based facial micro- expression analysis: A survey of datasets, features and algorithms.. https://doi.org/10.1109/TPAMI.2021. 3067464
Cai, J., Xie, H., Li, J., & Li, S. (2020). Facial expression recognition with an attention network using a single depth image. In H. Yang, K. Pasupa, A. C.-S. Leung, J. T. Kwok, J. H. Chan, & I. King (Eds.),(pp. 222–231). Springer International Publishing.
Danelakis, A., Theoharis, T., Pratikakis, I., & Perakis, P. (2016). An effective methodology for dynamic 3D facial expression retrieval.,, 174–185.
Davison, A., Merghani, W., Lansley, C., Ng, C. C., & Yap, M. H. (2018, May). Objective micro-facial movement detection using facs-based regions and baseline evaluation. In(pp. 642?649). IEEE.
Davison, A. K., Lansley, C., Costen, N., Tan, K., & Yap, M. H. (2018). SAMM: A spontaneous micro-facial movement dataset.,(1), 116–129. https://doi.org/10.1109/TAFFC.2016.2573832
Ding, J., Tian, Z., Lyu, X., Wang, Q., Zou, B., & Xie, H. (2019, September). Real-time micro-expression detection in unlabeled long videos using optical flow and LSTM neural network. In(pp. 622?634). Springer- Verlag.
Doersch, C., Gupta, A., & Efros, A. A. (2015, December). Unsupervised visual representation learning by context prediction. In(pp. 1422?1430). IEEE.
Eisenbarth, H., & Alpers, G. W. (2011). Happy mouth and sad eyes: Scanning emotional facial expressions.,(4), 860–865. https://doi.org/10.1037/a0022758
Ekman, P. (2003).. St. Martin’s Griffin, New York.
Ekman, P., & Friesen, W. V. (1969). Nonverbal leakage and clues to deception., 32(1), 88–106.
Fernando, B., Bilen, H., Gavves, E., & Gould, S. (2017, July). Self-supervised video representation learning with odd-one-out networks. In(pp. 3636?3645). IEEE.
Fu, J., Liu, J., Tian, H., Li, Y., Bao, Y., Fang, Z., & Lu, H. (2019, June). Dual attention network for scene segmentation. In(pp. 3146–3154). IEEE.
Gidaris, S., Singh, P., & Komodakis, N. (2018). Unsupervised representation learning by predicting image rotations..
Haggard, E. A., & Isaacs, K. S. (1966). Micromomentary facial expressions as indicators of ego mechanisms in psychotherapy. In(pp. 154?165). Springer, Boston, MA.
Jing, L., & Tian, Y. (2020). Self-supervised visual feature learning with deep neural networks: A survey.,(11), 4037–4058.
Larsson, G., Maire, M., & Shakhnarovich, G. (2017). Colorization as a proxy task for visual understanding. In(pp. 6874?6883). IEEE.
LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning.,(7553), 436–444.
Li, H., Xiong, P., An, J., & Wang, L. (2018). Pyramid attention network for semantic segmentation..
Li, J., Soladie, C., & Seguier, R. (2020). Local temporal pattern and data augmentation for micro-expression spotting., pp.1–1. https://doi.org/10.1109/TAFFC.2020.3023821
Li, J., Soladie, C., Seguier, R., Wang, S. J., & Yap, M. H. (2019, May). Spotting micro-expressions on long videos sequences. In(pp. 1–5). IEEE.
Li, X., Hong, X., Moilanen, A., Huang, X., Pfister, T., Zhao, G., & Pietik?inen, M. (2017). Towards reading hidden emotions: A comparative study of spontaneous micro- expression spotting and recognition methods.(4), 563–577.
Li, X., Liu, S., de Mello, S., Wang, X., Kautz, J., & Yang, M.-H. (2019). Joint-task self-supervised learning for temporal correspondence.,.
Li, Y., Huang, X., & Zhao, G. (2021). Micro-expression action unit detection with spatial and channel attention.,, 221–231.
Liong, S.-T., See, J., Wong, K., Le Ngo, A. C., Oh, Y. H., & Phan, R. (2015, November). Automatic apex frame spotting in micro-expression database. In(pp. 665?669). IEEE.
Luo, C., Zhang, J., Yu, J., Chen, C. W., & Wang, S. (2019). Real-time head pose estimation and face modeling from a depth image.,(10), 2473–2481.
Ma, J., Zhang, H., & She, W. (2017, June). Research on robust face recognition based on depth image sets. In(pp. 223?227). IEEE.
Mnih, V., Heess, N., & Graves, A. (2014). Recurrent models of visual attention. In Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, & K. Q. Weinberger (Eds.),(Vol. 27). Curran Associates, Inc.
Moilanen, A., Zhao, G., & Pietik?inen, M. (2014, August). Spotting rapid facial movements from videos using appearance-based feature difference analysis. In(pp. 1722?1727). IEEE.
Owayjan, M., Kashour, A., Al Haddad, N., Fadel, M., & Al Souki, G. (2012, December). The design and development of a lie detection system using facial micro-expressions. In(pp. 33?38). IEEE.
Pan, H., Xie, L., & Wang, Z. (2020, November). Local bilinear convolutional neural network for spotting macro- and micro-expression intervals in long video sequences. In(pp. 749–753). IEEE.
Pathak, D., Kr?henbühl, P., Donahue, J., Darrell, T., & Efros, A. A. (2016, June). Context encoders: Feature learning by inpainting. In(pp. 2536–2544). IEEE.
Qu, F., Wang, S.-J., Yan, W.-J., Li, H., Wu, S., & Fu, X. (2018). CAS (ME)2: A database for spontaneous macro- expression and micro-expression spotting and recognition.,(4), 424– 436.
See, J., Yap, M. H., Li, J., Hong, X., & Wang, S. J. (2019, May). MEGC 2019–the second facial micro-expressions grand challenge. In(pp. 1–5). IEEE.
Tran, T.-K., Hong, X., & Zhao, G. (2017). Sliding window based micro-expression spotting: A benchmark. In J. Blanc-Talon, R. Penne, W. Philips, D. Popescu, & P. Scheunders (Eds.),(pp. 542–553). Springer International Publishing.
Verburg, M., & Menkovski, V. (2019, May). Micro- expression detection in long videos using optical flow and recurrent neural networks. In(pp. 1–6). IEEE.
Wang, S.-J., He, Y., Li, J., & Fu, X. (2021). MESNet: A convolutional neural network for spotting multi-scale micro-expression intervals in long videos.,, 3956–3969. https://doi.org/10.1109/TIP.2021.3064258
Wang, S. J., Wu, S., & Fu, X. (2016, November). A main directional maximal difference analysis for spotting micro-expressions. In C.-S. Chen, J. Lu, & K.-K. Ma (Eds.),(vol 10117, pp. 449–461). Springer, Cham.
Wen, J., Yang, W., Wang, L., Wei, W., Tan, S., & Wu, Y. (2020, December). Cross-database micro expression recognition based on apex frame optical flow and multi-head self- attention. In(pp. 128? 139). Springer, Singapore.
Yan, W.-J., Li, X., Wang, S.-J., Zhao, G., Liu, Y.-J., Chen, Y.-H., & Fu, X. (2014). CASME II: An improved spontaneous micro-expression database and the baseline evaluation.,(1), e86041.
Yan, W.-J., Wu, Q., Liu, Y.-J., Wang, S.-J., & Fu, X. (2013, April). CASME database: A dataset of spontaneous micro-expressions collected from neutralized faces. In(pp. 1?7). IEEE.
Micro-expression spotting method based on human attention mechanism
LI Jingting1, DONG Zizhao1, LIU Ye1,2, WANG Su-Jing1,2, ZHUANG Dongzhe3
(1CAS Key Laboratory of Behavioral Science, Institute of Psychology, Beijing 100101, China)(2Department of Psychology, University of Chinese Academy of Sciences, Beijing 100049, China)(3Public Security Behavioral Science Laboratory, People's Public Security University of China, Beijing 100038, China)
Micro-expressions are facial movements that are extremely short and not easily perceived, revealing the individual's hidden real emotions, and could be widely used in lies detection and other fields. The automatic research of micro-expression spotting is mainly limited by the small sample size. This project will address this problem by comprehensively using computer vision technology and cognitive psychology experimental methods. First, a behavioral-experimental paradigm combining eye-movement techniques and a presentation-judgment paradigm with subthreshold emotion priming effects was used to examine the cognitive mechanisms of selective attention allocation in micro-expression recognition and to refine the characteristic regions of interest in human recognition of micro-expressions. Second, based on the human attention mechanism, we propose a micro-expression spotting method based on a multi-branching self-supervised learning network, extracting structure-based, detail, spatio-temporal variation, and depth features of video samples. This research will achieve theoretical and technological breakthroughs in the field of automatic micro-expression spotting, and lay the foundation for the application of micro-expression spotting in realistic and complex scenarios.
micro-expression spotting, small sample problem, human attention mechanism, self-supervised learning, depth information
B842
2022-03-24
*國家自然科學(xué)基金項目(62106256、U19B2032)、中國人民公安大學(xué)公共安全行為科學(xué)實驗室開放課題(2020SYS12)和中國博士后科學(xué)基金項目(2020M680738)資助。
王甦菁, E-mail: wangsujing@psych.ac.cn;
莊東哲, E-mail: zdzfrued@126.com