李倩倩 王衛(wèi)星 楊 勤 陳治灸 秦 晴
(貴州大學機械工程學院 貴陽 550025)
隨著移動設備的發(fā)展,圖像和視頻數(shù)據(jù)近年來呈爆炸式增長,這種現(xiàn)象使視覺媒體內(nèi)容的計算理解成為一個熱門話題。在傳統(tǒng)的研究中,研究者往往側(cè)重于對象檢測和場景識別等方向的研究。近年來,越來越多的研究者開始關注視頻中情感的識別,這是因為情感能夠引起觀眾強烈的共鳴,在觀看過程中起著至關重要的作用[1]。雖然近幾年視頻的情感識別研究取得了一些成果,但由于情感的復雜性和多樣性,以及視頻數(shù)據(jù)的異構性,國內(nèi)外在視頻情感識別方面的研究成果還是相對較少且識別率不高。傳統(tǒng)的情緒識別方法是基于某一時刻的靜態(tài)圖像手工設計的特征進行識別[2~4],缺點較為明顯,僅使用某一時刻的靜態(tài)圖像進行情感識別缺乏動態(tài)時域信息且準確率低。隨著大數(shù)據(jù)集的可用性,深度學習已經(jīng)成為機器學習的一種通用方法,在許多計算機視覺和自然語言處理任務中產(chǎn)生了最先進的結(jié)果[5]。早期深度學習技術在情感識別領域的研究主要集中在人臉表情識別方向[6~10]。近年來,一些研究開始將深度學習應用于視聽情感識別。Zhang S 等[11]提出了基于多模態(tài)深度卷積神經(jīng)網(wǎng)絡(DCNN)方法,在深度模型中融合語音和人臉數(shù)據(jù)進行視聽情感識別。D.S.Ortega 等[12]提出了一種基于遷移學習和多模態(tài)融合的視頻情感識別方法。通過預訓練的CNN 從視頻幀中提取面部特征,并將這些特征與從受試者的聲音中提取的特征相融合識別視頻情感。Zhang S[13]采用混合深度模型來進行情感識別任務,該模型首先利用CNN和3D-CNN 分別學習音頻和視覺特征,然后將視聽片段特征融合到深度信念網(wǎng)絡(DBNs)中進行視聽情感識別。Ma Y[14]提出了一種基于深度加權融合的多模態(tài)情感識別模型。用2DCNN 和3DCNN 分別提取語音和面部表情圖像的情感特征,然后利用DBN 對上述兩個特征提取器學習到的情感特征進行融合,最后利用支持向量機進行情感分類。Zhang Y[15]等引入因子分解雙線性池(FBP)來深度融合音頻和視頻的特征。通過嵌入的注意機制從不同的模式中選擇特征,得到音頻和視頻的情感相關特征。然后提取的特征融合到一個FBP塊中,預測最終的情感。
盡管通過深度學習挖掘視聽情感信息已經(jīng)取得了重大進展,但是現(xiàn)有的方法在視頻情感建模中表達的時間關系仍然不夠有效,并且大多視聽情感識別研究都是融合人臉和語音數(shù)據(jù),忽略了姿態(tài)的作用。因此本文采用多模型融合的混合神經(jīng)網(wǎng)絡來預測視頻情感,框架如圖1 所示。該模型可以概括為預處理、特征提取、特征融合和分類器四個部分。將視頻進行分離音頻、提取視頻幀等預處理后,使用VGG-LSTM 分別對預處理后的人臉序列圖像和姿態(tài)序列圖像的視覺特征與時序進行提取,使用opensmile 提取音頻特征,然后將提取的人臉、姿態(tài)和語音特征拼接并輸入DNN,由DNN 網(wǎng)絡進行多特征的拼接融合以及情感分類。利用GEMEP三模態(tài)情感數(shù)據(jù)集和Video Blooper 數(shù)據(jù)集測試該模型識別的準確率,以驗證其在情感識別任務中的性能。
圖1 VGG-LSTM多模態(tài)深度學習模型
在提取特征之前,通常需要對視頻進行一些預處理。常見的視頻預處理任務包括分離音頻、提取幀、識別人臉和姿態(tài)、裁剪人臉和姿態(tài)圖像、刪除背景等。
2.1.1 表情預處理
使用OpenCV 工具將視頻樣本轉(zhuǎn)變?yōu)橐曨l幀序列,檢測人臉并將圖像進行灰度化處理,最后使用Dlib 工具進行面部圖像尺寸歸一化到224×224大小。處理過程及結(jié)果如圖2所示。
圖2 人臉預處理處理
2.1.2 姿勢預處理
由于數(shù)據(jù)集的限制,本文姿態(tài)特征部分只使用兩個數(shù)據(jù)集都能可見的鼻子,耳朵,眼睛,脖子,肩膀和手臂關節(jié)。使用OpenPose 識別并輸出人體上半身骨骼點,然后以頸部關節(jié)為中心在過濾后的關節(jié)中繪制一個骨架,并將此骨架插入尺寸為224×224的黑色背景框架中。處理過程及結(jié)果如圖3所示。
圖3 姿態(tài)圖像預處理
2.1.3 語音預處理
要識別視頻中語音的情感,首先將視頻中的音頻提取出來進行預處理,對音頻信號的預處理包含以下步驟:預加重、分幀、加窗等。然后利用開源工具opensmile 從音頻中提取音頻特征,如響度、音高、基音頻率、基音范圍、共振峰、梅爾頻率倒譜系數(shù)、語音強度和語音速率等特征。
由于神經(jīng)網(wǎng)絡對不同類型數(shù)據(jù)的良好適用性,因此選擇VGG 網(wǎng)絡來實現(xiàn)圖像視覺特征的提取。為了更有效地提取人臉和姿態(tài)的視覺特征,設置了兩種VGG 網(wǎng)絡模型。針對人臉的特征提取,使用了VGGface 模型,此模型是在VGG16 的基礎上通過人臉數(shù)據(jù)集LFW(Labeled Faces In the Wild)訓練得到的,適用于人臉識別[16]。針對姿態(tài)特征提取使用了VGG16 網(wǎng)絡。VGG 模型只用于提取圖像的視覺特征,因此去掉了softmax 層。將經(jīng)過VGG 網(wǎng)絡提取的視頻圖像視覺特征按時間順序輸入到LSTM中以提取圖像序列的時序特征。
LSTM 在處理時序相關的輸入時,有著很大的優(yōu)勢[17]。LSTM 采用雙向循環(huán)卷積網(wǎng)絡的架構,對特征圖在時間軸前后的依賴關系進行建模。LSTM中引入三個門:輸入門it,輸出門ot,遺忘門ft。對輸入的信息做保留和篩選,具體式如下所示:
其中,xt、ht-1分別是指t 時刻的輸入和輸出,Ct-1是上一時間步的神經(jīng)元狀態(tài),C是輸入的中間狀態(tài),Ct表示利用Ct-1與C更新的得到的當前神經(jīng)元狀態(tài)信息。Wf、Wc、Wi、Wo、Uf、Uc、Ui、Uo分別指不同控制門的權重矩陣,σ指代sigmoid激活函數(shù);tanh指代雙曲正切激活函數(shù)。
深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)數(shù)據(jù)融合領域已經(jīng)有了較為廣泛的應用[18]。本文使用DNN 網(wǎng)絡進行多特征的拼接融合以及情感分類,圖4 給出了特征融合的網(wǎng)絡結(jié)構。將提取的人臉、姿態(tài)和語音特征進行拼接處理,輸入到DNN 網(wǎng)絡中進行預測。DNN 網(wǎng)絡有3層,包含兩個隱藏層和一個輸出層。分別含有1024、128、5 個神經(jīng)元。最后一層由softmax激活,其他層由Relu激活。
圖4 DNN特征融合網(wǎng)絡結(jié)構
1)GEMEP三模態(tài)情感數(shù)據(jù)集
該數(shù)據(jù)集是Automatic Face&Gesture Recognition and Workshops 在2011 年 的IEEE International Conference上提供的一個數(shù)據(jù)集[19]。整個集中包含有145 段長度為1s~2s 的視頻,每段視頻中都包含有表情、肢體動作、語音三個模態(tài)的信息。該數(shù)據(jù)集包含17種情感。手動將這17種情感類別歸類成了5種:高興、悲傷、害怕、厭惡、生氣。
2)Video Blooper 數(shù)據(jù)集
該數(shù)據(jù)集是通過使用諸如“bloopers”、“green screen”等關鍵字從YouTube 視頻中選擇包含視頻bloopers 的視頻構建的[20]。數(shù)據(jù)集分為訓練、測試和驗證集。
由于GEMEP三模態(tài)情感數(shù)據(jù)集視頻片段多在1s~2s,而Video Blooper 數(shù)據(jù)集中視頻的長度在1s~4s,因此將超過2s 的視頻剪輯為兩段,合并兩個數(shù)據(jù)集。最終得到的數(shù)據(jù)集有560 例,其中高興132例,悲傷111 例,害怕95 例,生氣117 例,厭惡105例。
本文模型在NVIDIA GTX 1080 ti 平臺上進行訓練及測試。在我們的實驗中,70%的樣本用作訓練集,15%的樣本用作驗證集,其余15%的樣本則用作測試集。在訓練過程中,模型的訓練采用Adam優(yōu)化器進行優(yōu)化,MSE設置為loss函數(shù)。偏置初始化為零,學習率設置為0.001,Dropout設置為0.5。
以準確率(Accuracy Rate,AR)作為深度學習網(wǎng)絡的視聽多模態(tài)情感識別模型的評價指標,表達式如下:
其中,TP 為被模型正確預測為正例的樣本數(shù)量。TN 為被模型正確預測為負例的樣本數(shù)量,F(xiàn)P 為被模型錯誤預測為正例的樣本數(shù)量,F(xiàn)N 為被模型錯誤預測為負例的樣本數(shù)量。
為了驗證本文模型的有效性,將本文模型與前人的研究以及幾種多模態(tài)融合模型進行對比,結(jié)果見表1。從實驗結(jié)果可以看出,只融合人臉圖像特征和語音特征進行視聽情感識別時,本文方法與文獻[21]、[15]、[23]相比,準確率有了一定的提升。與傳統(tǒng)學習模型SVM 相比,基于深度學習模型準確率更高。與LSTM-DNN 模型和CNN-DNN 模型相比,本文模型準確率最高,說明經(jīng)過VGG-LSTM提取人臉圖像的視覺特征和時序特征后融合語音特征進行視聽情感識別能獲得更高的識別準確率。最終,融合人臉圖像特征、姿態(tài)特征和語音特征后,SVM 模型、CNN-DNN 模型、LSTM-DNN 模型還有本文模型,準確率都分別提高了5.1%、4.7%、5.2%和6.1%,說明姿態(tài)在視聽情感識別中是有作用的。綜上所述,可以說明本文模型能夠有效地進行視聽情感識別分類,同時也說明了跨模態(tài)、跨時間的信息整合是提高視聽情感識別性能的一種有效方法。
表1 不同模型的分類精度
圖5 顯示了本文模型的混淆矩陣。該分類器的準確率為77.10%,高興和悲傷在五種情緒中的識別準確率最高,分別為87%和81%。而害怕的識別準確率較低,只達到65%。這可能是由于數(shù)據(jù)集中“害怕”樣本數(shù)量較少,導致模型無法充分學習害怕的特征進行情緒分類。但召回率基本都在60%以上。可以說明本文模型在視聽情感識別方面的有效性。
圖5 多模態(tài)深度學習模型混淆矩陣
本文從人臉表情、姿態(tài)和語音三個模態(tài)分析和識別了視頻的情感,強調(diào)了動態(tài)情感識別的重要性。與目前大部分視聽情感識別研究不同,本文還考慮了姿態(tài)的作用。未來的工作將考慮融合文字、生理信號等更多的模態(tài)來提高視頻情感識別模型的性能,以及調(diào)查視聽信息之間的相互關系。