王金偉,孫華志
(天津師范大學計算機與信息工程學院,天津300387)
情感識別是模式識別領(lǐng)域中的重要內(nèi)容,在人機交互、廣告、社交媒體傳播和認知科學等許多應(yīng)用中起著重要作用.鑒于人臉在情感表達和感知中的重要性,大多數(shù)情感識別研究都集中在對臉部表情進行分析. 著名心理學家Ekman 創(chuàng)建了面部動作編碼系統(tǒng)(facial action coding system,F(xiàn)ACS)以客觀測量臉部活動[1],使研究者意識到利用計算機視覺技術(shù)自動識別臉部表情的可能性.在過去的20 多年中,人們一直致力于改善臉部表情識別系統(tǒng),早期研究主要集中在識別人為表情的靜態(tài)臉部圖像,目前的研究重點已從人為表情轉(zhuǎn)為自發(fā)表情,從實驗室表情轉(zhuǎn)為無約束條件下的表情,從靜態(tài)圖像轉(zhuǎn)為動態(tài)視頻.
心理學研究表明[2-3],除臉部表情外,身體、姿勢和周圍環(huán)境等上下文信息也可以為情感感知提供重要線索,文獻[2-3]中提供的證據(jù)和實驗說明情感會受到上下文的影響.而且,在某些情況下,上下文對于情感交流是必不可少的.在計算機視覺的研究中也獲得了類似結(jié)果,文獻[4]的實驗表明,當同時使用上下文信息和臉部信息時,情感識別的準確率優(yōu)于僅使用其中一種信息.
目前,深度學習技術(shù)的性能已在完成各種具有挑戰(zhàn)性的任務(wù)中得到了顯著提升.常見的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的主要局限性在于其僅可以處理空間信息,這對于視頻的情感識別和靜態(tài)圖像的表情特征顯然是不夠的.一些研究[5-6]表明,圖像序列的臉部表情動態(tài)時空特征有助于提升識別性能.
本文基于時間分段網(wǎng)絡(luò)(temporal segment networks,TSN)[7],提出了一種融合上下文信息的視頻情感識別網(wǎng)絡(luò)模型.該模型由2 個并行的TSN 網(wǎng)絡(luò)組成,分別用于提取視頻中的臉部信息和上下文信息的時空特征并計算情感類別分數(shù),將2 個網(wǎng)絡(luò)的計算結(jié)果進行決策融合,最終得到整個視頻的情感類別.
目前大多數(shù)對視頻的情感識別方法主要集中于對臉部表情的研究,具體方法可分為2 類.
一類方法是使用各種深度網(wǎng)絡(luò)提取視頻的時空特征進行情感識別.常用的深度網(wǎng)絡(luò)有VGGFace(visual geometry group net-face)[8]、ResNet(residual network)[9]、LSTM(long short-term memory)、GRU(gate recurrent unit)和C3D(3D convolutional networks)[10],其中:VGGFace和ResNet 能夠提取視頻中每一幀圖像的臉部空間特征,LSTM、GRU 和C3D 用于提取圖像序列的時間特征.文獻[11]利用VGGFace-LSTM 和VGGFace-GRU 的組合模型進行視頻情感分類.文獻[12]組合了VGGFace-LSTM 和C3D-LSTM 模型用于情感識別. 文獻[13]將VGGFace-LSTM 模型提取的特征輸入到DNN(deep neuralnetworks)進行情感分類.文獻[14]融合了VGGFace-LSTM 和C3D 模型來判斷視頻情感類別.還有一些研究提出了新的模型,試圖獲得更好的識別性能.如:文獻[15]提出了一種MRE-CNN(multi-region ensemble CNN)框架,目的是通過捕獲人臉的多個子區(qū)域的全局和局部特征來增強CNN 模型的學習能力;文獻[16]提出的FAN(frame attention networks)模型包含特征嵌入模塊和幀關(guān)注模塊,試圖自動突出一些有類別區(qū)分力的幀.
另一類方法是將深度網(wǎng)絡(luò)特征和人工特征相結(jié)合進行情感識別.文獻[17]一方面從視頻中提取了LBPTOP(local binary patterns from three orthogonal planes)、HOG(histogram of oriented gradient)、Dense-SIFT(scaleinvariant feature transform)和HOG-LBP 等4 種人工特征,另一方面提取了AE(autoencode)和CNN 2 種深度網(wǎng)絡(luò)特征,使用RF(random forest)分類器進行分類,最后根據(jù)D-S(dempster-shafer)證據(jù)理論將分類結(jié)果進行融合得到情感類別.本課題組先前的研究[18]使用C3D 深度網(wǎng)絡(luò)從視頻中提取正面化的臉部表情時空特征,同時提取臉部幾何變化的人工特征作為輔助,來判斷情感類別.文獻[19]同時使用深度學習方法VGGNet-GRU 和傳統(tǒng)的機器學習方法LBP-TOP+SVM 對視頻進行情感識別.文獻[20]首先提取視頻中每幀圖像的臉部形狀、頭部姿態(tài)、眼睛注視方向和HOG 等人工特征以及VGGFace 深度網(wǎng)絡(luò)特征,然后用這些特征訓練HMM(hidden Markovmodel),最后用naiveBayesian 分類器進行情感分類. 文獻[21]提出DGNN(directed graph neural network)模型,通過提取視頻中每幀圖像的臉部特征點作為DGNN 的輸入獲得臉部結(jié)構(gòu)信息,同時結(jié)合C3D-GRU 進行情感分類.
本文提出的情感識別模型的流程圖見圖1,該模型可以分為3 個階段:預(yù)處理視頻、利用TSN 計算情感類別分數(shù)和預(yù)測情感類別.
首先從原始的視頻中提取出上下文圖像序列和臉部圖像序列.為了使上下文包含更多信息,使用整幀圖像作為上下文,其中包含了身體、姿勢和周圍環(huán)境等與情感相關(guān)的各類信息.然后對每幀圖像進行縮放以輸入到后續(xù)的TSN 網(wǎng)絡(luò)中.根據(jù)文獻[7],將上下文圖像的像素設(shè)置為340×256.
使用PyramidBox[22]進行人臉檢測,這是一種基于SSD(the single shot detector)的單階段人臉檢測器,它在6 個尺度的特征圖上進行不同層級的預(yù)測,并結(jié)合上下文信息,解決了困難人臉的檢測問題.通過人臉檢測獲取每幀的臉部圖像,如果沒有檢測到臉部則跳過該幀.
將上下文圖像序列和臉部圖像序列分別作為2個TSN 網(wǎng)絡(luò)的輸入,用于提取時空特征并計算情感類別分數(shù).
TSN 是視頻分類領(lǐng)域經(jīng)典的基于2D-ConvNet 的解決方案,主要用于解決視頻的行為判斷問題,其核心思想是:因為視頻的連續(xù)幀之間存在冗余,所以利用稀疏采樣視頻幀的方式代替稠密采樣,這樣既能捕獲視頻的全局信息,又能去除冗余,降低計算量.
將預(yù)處理后的圖像序列等時間地劃分成K 段{S1,S2,…,SK},TSN 的輸出可表示為
其中(T1,T2,…,TK)為一系列片段,每個片段Tk都是從其對應(yīng)的段Sk中隨機采樣得到的.每個片段Tk包含2 部分:一部分是從段Sk中隨機抽取的一幀圖像I 作為空間ConvNet 的輸入;另一部分是時間ConvNet的輸入,即計算圖像I 后L 個連續(xù)幀的稠密光流場的水平和垂直分量的堆疊,這樣共形成2L 個輸入通道,本文設(shè)L=5.F(Tk;W)表示具有參數(shù)W 的ConvNet 函數(shù),該函數(shù)以片段Tk作為輸入并輸出所有情感類別的得分.G 為一個段融合函數(shù),它將多個片段輸出的類別得分組合在一起,獲得每個情感類別的融合分數(shù),本文采用均值函數(shù)作為G,即將所有片段相同類別分數(shù)的算術(shù)平均值作為融合分數(shù).
圖1 融合上下文信息的情感識別模型Fig.1 Emotion recognition model fused with context information
基于TSN 輸出的情感類別分數(shù),整個視頻的情感類別可由下式計算其中:
TSNcs、TSNct、TSNfs和TSNft分別表示上下文空間、上下文時間、臉部空間和臉部時間ConvNet 輸出的情感類別分數(shù);M 為時空融合函數(shù),根據(jù)文獻[7],采用加權(quán)平均函數(shù)融合時間和空間的情感類別分數(shù),空間權(quán)重設(shè)為1,時間權(quán)重設(shè)為1.5;H 為類別預(yù)測函數(shù),用于生成上下文或臉部序列的每個情感類別的概率,本文采用Softmax 函數(shù)作為H;D 為決策融合函數(shù),這里采用最大值融合,即選擇情感類別概率中的最大值所對應(yīng)的類別作為整個視頻的情感類別.
實驗使用2 個數(shù)據(jù)庫:CHEAVD(Chinese natural audio-visual emotion database)2.0[23]和AFEW(acted facial expressions in the wild)[24].
CHEAVD2.0 包含從電影、電視劇和脫口秀節(jié)目中提取的7 030 個自發(fā)情感視頻片段,這些片段包含了各年齡段的中國人.將這7 030 個片段分為訓練集、驗證集和測試集,分別包含4 917、707 和1 406 個片段.CHEAVD2.0 包括憤怒、快樂、悲傷、擔心、焦慮、驚奇、厭惡和中立等8 種情感類別.
AFEW 包含從電影和電視中剪輯的含有情感的視頻片段,包含6 種基本情感(憤怒、快樂、悲傷、害怕、驚奇、厭惡)和中立情感.AFEW 是Emotion Recognition In The Wild Challenge(EmotiW)系列情感識別挑戰(zhàn)賽使用的數(shù)據(jù)庫,包含訓練集樣本773 個、驗證集樣本383個和測試集樣本653 個.由于AFEW 訓練集樣本較少,本文采用另外一個情感數(shù)據(jù)庫CAER(contextaware emotion recognition)[25]作為AFEW 訓練集的補充.CAER 包含從歐美電視劇中收集的13 201 個自發(fā)情感視頻片段,其情感標簽和AFEW 相同.本文將CAER 的所有視頻片段和AFEW 訓練集的視頻片段合并在一起,共13 974 個樣本,作為AFEW 新的訓練集.
由于CHEAVD 和AFEW 均未公開測試集標簽,本文采用2 個數(shù)據(jù)庫的訓練集和驗證集進行實驗.
圖2 為2 個數(shù)據(jù)庫訓練集的樣本分布.
圖2 CHEAVD 和AFEW 訓練集樣本分布Fig.2 Sample distribution of CHEAVD and AFEW training set
由圖2 可見這2 個訓練集的樣本分布是不平衡的.為減小分布不平衡的影響,本文采用類感知(classaware)[26]的采樣方法.具體地,使用2 個列表,一個是情感類別列表,另一個是每個類別的視頻列表.對于每次訓練迭代,首先在情感類別列表中隨機采樣一個類別,然后在該類別中隨機采樣一個視頻,當采樣到某類別視頻列表的末尾時,對該列表進行依次“洗牌”,當采樣到情感類別列表的末尾時也執(zhí)行“洗牌”.
將上下文圖像和臉部圖像都縮放為340×256 像素大小.TSN 將從{256,224,192,168}中隨機選擇元素作為裁剪區(qū)域的寬度和高度,再將這些裁剪區(qū)域的大小調(diào)整為224×224 像素,輸入網(wǎng)絡(luò)進行訓練.這種采樣方式不僅有縮放抖動還有縱橫比抖動.
空間和時間ConvNet 均采用ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)[9],具體見表1.首先,在輸入階段,通過一個含有64 個filter(每個filter 為7×7)、stride 為2 的卷積層進行特征提取,輸出圖像的長寬變?yōu)樵瓉淼?/2,再經(jīng)過一個最大池化層進一步降低分辨率.接下來的第1 到第4 階段使用重復的殘差塊提取特征,每個殘差塊包含1×1、3×3 和1×1 共3 層卷積,每一階段使輸入特征圖的通道數(shù)擴大為原來的2 倍,而長寬都變?yōu)樵瓉淼?/2.最后,網(wǎng)絡(luò)以全局平均池化層和N 路全連接層結(jié)束.N 為情感類別數(shù)量,對于CHEAVD 數(shù)據(jù)庫,N=8,對于AFEW 數(shù)據(jù)庫,N=7.
表1 ResNet50 網(wǎng)絡(luò)結(jié)構(gòu)Tab.1 Architecture for ResNet50
實驗使用在ImageNet 數(shù)據(jù)集上預(yù)訓練過的ResNet50 網(wǎng)絡(luò).對于空間網(wǎng)絡(luò),直接將預(yù)訓練后網(wǎng)絡(luò)的權(quán)重作為初始化參數(shù).對于時間網(wǎng)絡(luò),采用文獻[7]的交叉模態(tài)預(yù)訓練策略:首先通過線性變換將光流場離散到0 到255 區(qū)間,使光流場的范圍和RGB 圖像相同;然后求出RGB 通道上權(quán)重的平均值,并將該平均值復制到時間網(wǎng)絡(luò)輸入的各通道上;最后,再將預(yù)訓練網(wǎng)絡(luò)中其余層的權(quán)重復制到時間網(wǎng)絡(luò)中.將預(yù)訓練模型用CHEAVD 和AFEW 數(shù)據(jù)庫分別再訓練. 訓練時,batchsize 設(shè)為32,動量設(shè)為0.9,學習率初始化為0.001,每40 次迭代降低到其1/10,最大迭代數(shù)設(shè)為100.所有實驗均在百度AI Studio 云端平臺完成,該平臺的CPU 配置為Intel Xeon Gold 6271C,8 核心,主頻2.60 GHz,內(nèi)存32 GB,GPU 為NVIDIA Tesla v100,顯存16 GB.
對于CHEAVD 數(shù)據(jù)庫,選擇ACC(accuracy)和MAP(macro average precision)作為評價指標;對于AFEW數(shù)據(jù)庫,選擇ACC 作為評價指標.ACC 和MAP 的計算公式為
其中:S 為情感類別的數(shù)量,TPi和FPi分別為第i 個情感類別中正確分類的數(shù)量和錯誤分類的數(shù)量.
在TSN 中,最為關(guān)鍵的參數(shù)是分段數(shù)K.本文設(shè)K 為3、5、7,分別訓練模型. 表2 給出了在CHEAVD驗證集上的實驗結(jié)果,比較在不同分段數(shù)下,單獨使用臉部或上下文圖像序列以及它們組合的識別性能.由表2 可見,K=5 的性能優(yōu)于K=3 的情況,而當K從5 增加到7 時,性能趨于飽和甚至下降.因此,為了在識別性能和計算量之間取得平衡,后面的實驗將直接使用5 分段.
表2 模型采用不同分段數(shù)K 在CHEAVD 驗證集上的實驗結(jié)果Tab.2 Experimental results of different segment numbers K in the model on CHEAVD validation set
將本文模型(Face5+Context5)與現(xiàn)有方法[11-21]進行比較,各種方法在CHEAVD 和AFEW 驗證集上的比較結(jié)果分別見表3 和表4.由表3 和表4 可見,本文模型的性能明顯優(yōu)于2 個數(shù)據(jù)庫構(gòu)建者給出的Baseline,其中:CHEAVD 數(shù)據(jù)庫的ACC 和MAP 分別比Baseline 提高了48%和33%,達到了54.2%和45.6%;AFEW 數(shù)據(jù)庫的ACC 提高了39%,達到了53.8%.本文模型在AFEW 數(shù)據(jù)庫的MAP 為49.9%,由于AFEW的Baseline 和現(xiàn)有研究均未給出MAP,因此表4 只對比了ACC.另外,相比現(xiàn)有的使用深度網(wǎng)絡(luò)提取視頻時空特征的方法[11-16]以及將深度網(wǎng)絡(luò)特征和人工特征相結(jié)合的情感識別方法[17-21],本文模型的性能均有不同程度的提高.
表3 本文模型與現(xiàn)有方法在CHEAVD 驗證集上的實驗結(jié)果對比Tab.3 Comparison of experimental results of the proposed model with state-of-the-art methods on CHEAVD validation set
表4 本文模型與現(xiàn)有方法在AFEW 驗證集上的實驗結(jié)果對比Tab.4 Comparison of experimental results of the proposed model with state-of-the-art methods on AFEW validation set
本文模型在CHEAVD 和AFEW 驗證集上的混淆矩陣見圖3,矩陣對角線上的數(shù)值是每個類別的識別精度(%).由2 個混淆矩陣可見,快樂、悲傷、憤怒和中立4 種情感的識別精度都比較高,CHEAVD 可達50%以上,AFEW 也達到了48%以上.快樂是識別精度最高的情感,在2 個數(shù)據(jù)庫上分別達到75.2%和73.3%.對于CHEAVD,驚奇和厭惡的識別精度最低,對于AFEW,害怕和厭惡的識別精度明顯低于其他情感.造成某種情感識別精度低的原因可能有2 個:一是情感感知存在模糊性[19];二是數(shù)據(jù)庫中該情感的訓練樣本較少.圖2 數(shù)據(jù)顯示,CHEAVD 訓練集中驚奇和厭惡的樣本數(shù)以及AFEW 訓練集中害怕和厭惡的樣本數(shù)明顯少于其他情感,因此進一步改善模型并增加某些情感的樣本數(shù),可以期待獲得更好的性能.
圖3 本文模型在CHEAVD 和AFEW 驗證集上的混淆矩陣Fig.3 Confusion matrices of the proposed model on CHEAVD and AFEW validation set
本文提出了一種融合上下文和臉部信息的視頻情感識別模型,該模型首先對視頻樣本進行預(yù)處理,提取上下文和臉部的圖像序列,然后采用2 個并行的TSN 分別提取上下文和臉部圖像序列的時空特征并計算情感類別分數(shù),最后將2 個網(wǎng)絡(luò)的計算結(jié)果進行決策融合,得到整個視頻的情感類別. 模型在CHEAVD 和AFEW 視頻情感數(shù)據(jù)庫上訓練和測試,分別獲得了54.2%的ACC、45.6%的MAP 以及53.8%的ACC,明顯優(yōu)于2 個數(shù)據(jù)庫的基線性能,而且相比現(xiàn)有的其他方法均有不同程度的性能提升.情感識別仍然是一項艱巨的挑戰(zhàn),今后的工作將繼續(xù)改進模型,同時探索更有效的情感特征以及特征融合策略.