張曉靜,蔣冬梅,F(xiàn)AN Ping,SAHLI Hichem
1.西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,西安 710072
2.陜西省語音與圖像信息處理重點(diǎn)實(shí)驗(yàn)室,西安 710072
3.布魯塞爾自由大學(xué)電子與信息系,比利時布魯塞爾 1050
基于改進(jìn)異步DBN模型的聽視覺融合情感識別
張曉靜1,2,蔣冬梅1,2,F(xiàn)AN Ping3,SAHLI Hichem3
1.西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,西安 710072
2.陜西省語音與圖像信息處理重點(diǎn)實(shí)驗(yàn)室,西安 710072
3.布魯塞爾自由大學(xué)電子與信息系,比利時布魯塞爾 1050
提出了一個改進(jìn)的三特征流聽視覺融合異步動態(tài)貝葉斯網(wǎng)絡(luò)情感模型(VVA_AsyDBN),采用面部幾何特征(GF)和面部主動外觀模型特征(AAM)作為兩個視覺輸入流,語音Mel倒譜特征(MFCC)作為聽覺輸入流,且視覺流的狀態(tài)和聽覺流的狀態(tài)可以存在有約束的異步。在eNTERFACE’05聽視覺情感數(shù)據(jù)庫上進(jìn)行了情感識別實(shí)驗(yàn),并與傳統(tǒng)的多流同步隱馬爾可夫模型(MSHMM),以及具有兩個聽覺特征流(語音MFCC和局域韻律特征LP)和一個視覺特征流的聽視覺異步DBN模型(T_AsyDBN)進(jìn)行了比較。實(shí)驗(yàn)結(jié)果表明,VVA_AsyDBN獲得了最高識別率75.61%,比視覺單流HMM提高了12.50%,比采用AAM、GF和MFCC特征的MSHMM提高了2.32%,比T_AsyDBN的最高識別率也提高了1.65%。
聽視覺融合;動態(tài)貝葉斯網(wǎng)絡(luò);主動外觀模型(AAM);異步約束
如果計(jì)算機(jī)能夠感知和響應(yīng)人類的情感,人機(jī)交互將會變得更加自然,因而情感識別逐漸成為多個領(lǐng)域的熱門研究課題,如心理學(xué)、認(rèn)知學(xué)以及計(jì)算機(jī)科學(xué)等,而大多數(shù)研究只關(guān)注單特征流信息,如聽覺上的語音韻律信息[1]或視覺上的面部表情信息[2]。近年來,出現(xiàn)了一些聽視覺融合多模態(tài)情感識別方法,所采用的融合策略包括特征層融合、決策層融合和模型層的融合。其中,特征融合[3]可能由于特征空間的擴(kuò)大,帶來維數(shù)災(zāi)難而導(dǎo)致識別率下降,而決策層融合[3-4]則忽略了聽覺和視覺信息之間的關(guān)聯(lián)關(guān)系。為了更加合理地融合聽覺和視覺的情感信息,文獻(xiàn)[5]提出了多流融合隱馬爾可夫模型(Multi-Fused HMM,MFHMM),其聽覺特征采用基頻、能量等韻律特征,面部表情特征采用人臉紋理特征,基于最大熵和最大互信息準(zhǔn)則,將聽覺情感和視覺情感的兩個HMM模型關(guān)聯(lián)起來。文獻(xiàn)[6]提出了三元HMM(triple HMM,THMM),允許特征流之間存在無限制的狀態(tài)異步,采用語音韻律特征、上半部人臉幾何特征和下半部人臉幾何特征作為三個輸入流進(jìn)行情感識別。
然而,由于HMM結(jié)構(gòu)的局限性,以上基于HMM的聽視覺融合不能合理地描述聽覺和視覺情感特征流之間的異步關(guān)系。為了更靈活地描述兩者之間可能存在的異步,在前期工作中[7],提出了異步可控的雙流動態(tài)貝葉斯網(wǎng)絡(luò)模型(Asy_DBN),采用語音感知線性預(yù)測系數(shù)(PLP)作為聽覺輸入流,視頻人臉的面部幾何特征為視覺輸入流,通過設(shè)置合理的聽視覺流狀態(tài)異步約束,Asy_DBN模型得到了比聽覺單流或視覺單流HMM以及狀態(tài)同步的多流HMM(MSHMM)都要高的識別率。在文獻(xiàn)[8]中,進(jìn)一步提出了三特征流混合的DBN模型(T_AsyDBN),以語音Mel倒譜特征(MFCC)和局部韻律特征(LP)作為兩個聽覺輸入流,面部幾何特征(GF)作為視覺輸入流,并且允許聽覺流和視覺流的狀態(tài)在一定范圍內(nèi)異步。實(shí)驗(yàn)結(jié)果表明,T_AsyDBN模型獲得了比MSHMM以及Asy_DBN更高的識別率。然而,由于每種情感的訓(xùn)練數(shù)據(jù)量有限,當(dāng)訓(xùn)練和測試數(shù)據(jù)集發(fā)生改變時,實(shí)驗(yàn)結(jié)論不是很穩(wěn)定。
考慮到在人類對于情感的感知中,從面部表情上獲得信息量占主要成分,為了進(jìn)一步提高情感識別的識別率以及魯棒性,本文除了采用面部幾何(GF)特征外,還另外提取了包含人臉形狀和紋理信息的主動外觀模型(AAM)特征[9]作為視覺特征流,同時對T_AsyDBN模型進(jìn)行了修正,構(gòu)建了包含兩個視覺特征流和一個語音特征流的情感識別模型(VVA_AsyDBN),使得GF特征和AAM特征這兩個視覺特征流在狀態(tài)層同步,而它們與語音MFCC特征流之間允許在狀態(tài)層異步。在eNTERFACE’05情感數(shù)據(jù)庫上進(jìn)行了聽視覺融合情感識別實(shí)驗(yàn),每種情感選取60句語句進(jìn)行模型訓(xùn)練,六種情感共135句作為測試數(shù)據(jù),并采用了Jack-Knife方法,以消除訓(xùn)練和識別樣本較少造成的影響。識別結(jié)果表明,VVA_ AsyDBN比Asy_DBN和T_AsyDBN模型的識別率有了進(jìn)一步提升,達(dá)到75.61%。
本文在eNTERFACE’05數(shù)據(jù)庫上進(jìn)行聽視覺情感識別實(shí)驗(yàn)。數(shù)據(jù)庫包含六種基本情感:生氣、高興、悲傷、厭惡、害怕和驚奇。
2.1 聽覺情感特征提取
(1)MFCC特征
對語音信號施加窗長為30 ms,幀移為10 ms的海明窗之后,用HTK工具包[10]提取14維MFCC及其一階差分和二階差分,得到42維的MFCC特征序列。
(2)基于基頻和短時能量的局域韻律特征(LP)
在對語音信號施加窗長為30 ms,幀移為10 ms的海明窗后,分別提取每幀語音的基頻和短時能量,然后以130 ms作為一個局部區(qū)域,計(jì)算該局域內(nèi)基于基頻和短時能量的韻律特征,包括其最大值、最小值、中值、均值、上升段斜率的最大值、下降段斜率的最小值,并以10 ms作為局部區(qū)域的位移,計(jì)算韻律特征的一階差分,得到28維局域韻律統(tǒng)計(jì)特征。為了降低數(shù)據(jù)的冗余度,對特征進(jìn)行了PCA降維,在本文實(shí)驗(yàn)中,最終得到了19維局部韻律特征。
2.2 視覺情感特征提取
(1)面部幾何特征(GF)
在本文前期工作中[8],采用有約束的貝葉斯切形狀模型(CSM)方法[11],檢測和跟蹤得到人臉圖像序列的83個特征點(diǎn)。如圖1(a)所示,83個特征點(diǎn)的標(biāo)識位置如圖1(b)所示。
圖1 面部特征點(diǎn)跟蹤結(jié)果及特征點(diǎn)標(biāo)識
在此基礎(chǔ)上,文獻(xiàn)[8]定義了將眉毛,眼睛和嘴巴考慮在內(nèi)的整個臉部的18維面部幾何特征,與其一階差分相結(jié)合形成了36維視覺特征[8]。經(jīng)過PCA降維之后,得到21維面部幾何特征。
為了進(jìn)一步提高對頭部運(yùn)動(旋轉(zhuǎn)、縮放和平移)的魯棒性,本文對文獻(xiàn)[8]提取的GF特征進(jìn)行了改進(jìn):(1)對每幀面部圖像應(yīng)用仿射變換,針對中性表情面部圖像進(jìn)行了歸一化操作。(2)考慮到特征點(diǎn)距離的動態(tài)變化,將每幀圖像與中性圖像的特征向量的差值作為新的面部幾何特征。
(2)主動外觀模型(AAM)特征
為了獲得更加豐富的面部表情信息,本文使用AAM工具包(http://bagpuss.smb.man.ac.uk/~bim/software/)提取包含面部形狀和紋理信息的AAM特征。在訓(xùn)練時從eNTERFACE’05數(shù)據(jù)庫中選取12個人的720幅面部圖像及其面部特征點(diǎn)來訓(xùn)練AAM參數(shù),設(shè)置特征向量的貢獻(xiàn)率為95%時,對每幀圖像提取了26維AAM特征??紤]到動態(tài)特性,采用AAM特征與中性圖像AAM特征的差值作為一幀圖像的特征向量。
最后,為了與聽覺特征的幀率100 frame/s相匹配,分別對幀率為25 frame/s的面部幾何特征和AAM特征進(jìn)行線性插值,將其內(nèi)插為幀率為100 frame/s的特征向量序列。
因此,當(dāng)一句音視頻語音結(jié)束之后,分別離線提取其聽覺情感特征和視覺情感特征,形成了同步的兩個(或三個)動態(tài)特征流,作為情感識別模型的輸入。
3.1 VVA_AsyDBN模型及參數(shù)
借用DBN靈活的結(jié)構(gòu)和強(qiáng)大的描述功能,考慮到情感識別中面部信息的優(yōu)越性,本文設(shè)計(jì)了異步可控的聽視覺三特征流DBN情感識別模型,以面部幾何特征和AAM特征作為兩個視覺輸入流,MFCC特征作為聽覺輸入流,而且兩個視覺流在狀態(tài)層同步,它們與聽覺特征流可以在狀態(tài)層異步。VVA_AsyDBN模型的結(jié)構(gòu)如圖2所示,包括三個部分:Prologue部分對模型進(jìn)行初始化,Chunk塊可以隨著時間序列進(jìn)行擴(kuò)展,Epilogue部分描述了模型的結(jié)束幀,連線表示結(jié)點(diǎn)之間的條件概率。VVA_AsyDBN模型結(jié)點(diǎn)含義描述如表1所示。
在這個模型中,聽覺狀態(tài)和視覺狀態(tài)能夠在各自狀態(tài)流內(nèi)進(jìn)行獨(dú)立轉(zhuǎn)移,但其異步程度由結(jié)點(diǎn)CA的值控制。CA表示聽覺流和視覺流狀態(tài)之間的距離,其條件概率分布為:
設(shè)音頻流和視頻流的最大狀態(tài)數(shù)分別為AN和VN,聽視覺流狀態(tài)之間的最大異步約束為M,則AS和VS的條件概率分布分別定義為:
圖2 VVA_AsyDBN模型結(jié)構(gòu)
表1 VVA_AsyDBN模型結(jié)點(diǎn)含義描述
上式表明,當(dāng)AS/VS沒有達(dá)到最大狀態(tài)數(shù)AN/VN,并且允許狀態(tài)轉(zhuǎn)移,同時異步程度在M的約束范圍之內(nèi)時,AS/VS可以發(fā)生狀態(tài)轉(zhuǎn)移,否則不允許轉(zhuǎn)移。
t時刻產(chǎn)生聽覺觀測向量和視覺觀測向量的聯(lián)合概率為:
j為聽視覺流的狀態(tài)組合,對每個特征流d,,和分別是狀態(tài)j的第n個高斯的權(quán)值、均值和方差陣,λd為三個特征流對應(yīng)的權(quán)重,在本文實(shí)驗(yàn)中均設(shè)置為1。
3.2 基于VVA_AsyDBN模型的情感識別
本文采用圖模型工具包GMTK[12]進(jìn)行DBN模型的訓(xùn)練和識別。在訓(xùn)練時,對每一種情感訓(xùn)練一組DBN參數(shù)。在本文實(shí)驗(yàn)中,聽覺最大狀態(tài)數(shù),視覺最大狀態(tài)數(shù)和混合高斯數(shù)分別設(shè)置為3、3和8。在識別階段,將一段視頻的MFCC特征、面部幾何特征和AAM特征輸入到模型中,將最大似然概率對應(yīng)的情感模型作為識別結(jié)果。
4.1 聽視覺情感數(shù)據(jù)庫
實(shí)驗(yàn)采用eNTERFACE’05聽視覺情感數(shù)據(jù)庫[13],該數(shù)據(jù)庫由來自14個不同國家的42個說話人,在純凈語音環(huán)境下用英語進(jìn)行錄制,包括生氣、高興、悲傷、厭惡、恐懼、驚訝6種基本情感。對每種情感隨機(jī)挑選60句作為訓(xùn)練數(shù)據(jù),其他各種情感共135句作為測試數(shù)據(jù)。由于實(shí)驗(yàn)數(shù)據(jù)量較少,為了保證實(shí)驗(yàn)結(jié)果的穩(wěn)定性,本文采用了Jack-Knife方法[14],對于每種情感,每次在訓(xùn)練集和測試集中分別選取10句進(jìn)行交換,循環(huán)3次,最終的情感識別結(jié)果是3次識別率的平均值。
表2 聽視覺單流和多流情感識別結(jié)果(%)
4.2 實(shí)驗(yàn)結(jié)果分析
聽覺/視覺單流HMM和聽視覺多流模型的情感識別結(jié)果如表2所示,AHMM,VHMM分別代表聽覺單流和視覺單流HMM,(n)表示聽視覺狀態(tài)之間的異步約束為n。
實(shí)驗(yàn)結(jié)果表明:
(1)視覺單流的情感識別率高于聽覺單流,這一結(jié)果符合人類對情感的感知。在視覺單流識別中,以AAM為特征的VHMM(AAM)模型的識別率最高達(dá)到63.11%,也說明了AAM特征對情感識別的有效性。
(2)跟單流HMM相比,狀態(tài)同步的雙流HMM(MSHMM_AAM_MFCC)的識別率達(dá)到72.08%,而異步約束為1時的Asy_DBN_AAM_MFCC(1)模型的識別率又進(jìn)一步提高到73.61%。
(3)對于三特征流模型,狀態(tài)同步的MSHMM_AAM_ GF_MFCC識別率為73.29%,有兩個音頻流(MFCC和LP)和一個視頻流(AAM)且異步約束為2的T_AsyDBN_ AAM_MFCC_LP(2)的情感識別率為73.94%,而本文提出的VVA_AsyDBN_AAM_GF_MFCC(2)模型在異步約束為2時,在所有模型中得到了最優(yōu)的識別結(jié)果,達(dá)到75.61%。
本文提出了一個改進(jìn)的聽視覺融合三特征流DBN情感識別模型(VVA_AsyDBN),以面部幾何特征和面部AAM特征作為視覺輸入流,語音MFCC特征作為聽覺輸入流,而且兩個視覺特征流在狀態(tài)級同步,聽覺特征流的狀態(tài)與視覺特征流的狀態(tài)之間可以存在有約束的異步。在eNTERFACE’05聽視覺情感數(shù)據(jù)庫上的情感識別實(shí)驗(yàn)結(jié)果表明,本文提出的VVA_AsyDBN模型,效果不僅優(yōu)于傳統(tǒng)的狀態(tài)同步的聽視覺雙流和聽視覺三流HMM,而且識別率比聽視覺雙流異步的Asy_DBN模型以及T_AsyDBN模型又有了進(jìn)一步提升,達(dá)到了75.61%。本文的不足之處在于:由于CSM算法不能實(shí)時跟蹤面部特征點(diǎn),導(dǎo)致視覺特征的提取不能實(shí)時,因此不能做到實(shí)時的聽視覺情感識別。在進(jìn)一步工作中,將嘗試應(yīng)用AAM進(jìn)行面部特征點(diǎn)跟蹤,以提高視覺情感特征提取的實(shí)時性。同時,還將擴(kuò)展在其他聽視覺情感數(shù)據(jù)庫中的情感識別實(shí)驗(yàn),以進(jìn)一步驗(yàn)證VVA_AsyDBN模型的有效性。
[1]Metze F,Polzehl T,Wagner M.Fusion of acoustic and linguistic features for emotion detection[C]//IEEE Int Conf on Semantic Computing(ICSC’09),2009:153-160.
[2]Yang Peng,Liu Qingshan,Metax D N.Boosting encoded dynamic features for facial expression recognition[J].Pattern Recognition Letters,2009,30(2):132-139.
[3]Busso C,Deng Z,Yildirim S,et al.Analysis of emotion recognition using facial expressions,speech and multimodal information[C]//ACM Int Conf on Multimodal Interfaces,2004:205-211.
[4]Zeng Z,Tu J,Liu M,et al.Audio-visual affect recognition[J].IEEE Trans on Multimedia,2007,9(2):424-428.
[5]Zeng Z,Tu J,Pianfetti,et al.Audio-visual affective expression recognition through multi-stream fused HMM[J].IEEE Transactions on Multimedia,2008,10(4):570-577.
[6]Song M,You M,Li N,et al.A robust multimodal approach for emotion recognition[J].Neurocomputing,2008,71(10/12):1913-1920.
[7]Chen D,Jiang D,Ravyse,et al.Audio-visual emotion recognition based on a DBN model with constrained asynchrony[C]//Proc Int Conf Image and Graphics(ICIG),2009:912-916.
[8]Jiang Dongmei,Cui Yulu,Zhang Xiaojing,et al.Audio visual emotion recognition based on triple-stream dynamic Bayesian network models[C]//LNCS 6974:Affective Computing and Intelligent Interaction,2011:609-618.
[9]Cootes T F,Edwards G J,Taylor C J,et al.Active appearance models[C]//LNCS 1407:Computer Vision,1998:484-498.
[10]Young S,Kershaw O D,Ollason J,et al.The HTK book[M]. Cambridge:Entropic Ltd,1999.
[11]Hou Y,Sahli H,Ravyse I,et al.Robust shape based head tracking[C]//LNCS 4678:Proc the Advanced Concepts for Intelligent Vision Systems,2007:340-351.
[12]Bilmes J,Zweig G.The graphical models toolkit:an open source software system for speech and time series processing[C]//Proc ICASSP,2002:3916-3919.
[13]Martin O,Kotsia I,Macq B,et al.The eNTERFACE’05 audio-visual emotion database[C]//Proc 22nd Int Conf on Data Engineering Workshops,2006.
[14]Wu C F J.Jackknife,Bootstrap and other resampling methods in regression analysis[J].The Annals of Statistics,1986,14(4):1261-1295.
ZHANG Xiaojing1,2,JIANG Dongmei1,2,FAN Ping3,SAHLI Hichem3
1.School of Computer Science,Northwestern Polytechnical University,Xi’an 710072,China
2.Shaanxi Provincial Key Laboratory on Speech and Image Information Processing,Xi’an 710072,China
3.Department of Electronics and Informatics,Vrije Universiteit Brussel,Brussel 1050,Belgium
This paper proposes a modified triple stream asynchronous DBN model(VVA_AsyDBN)for audio visual emotion recognition,with the two visual feature streams,facial geometric features(GF)and facial active appearance model features(AAM),synchronous at the state level,while they are asynchronous with the audio feature stream(Mel Filterbank Cepstrum Coefficients,MFCC)within controllable constraints.Emotion recognition experiments are carried out on the eNTERFACE’05 database,and results are compared with the traditional state synchronous Multi-Stream Hidden Markov Model(MSHMM),as well as the asynchronous DBN model(T_AsyDBN)with two audio feature streams(MFCC and local prosodic features LP)and one visual feature stream.Results show that VVA_AsyDBN obtains the highest performance up to 75.61%,which is 12.50%higher than the visual only HMM,2.32%higher than the MSHMM with MFCC,AAM and GF features,and 1.65%higher than the T_AsyDBN model with MFCC and LP features as well as AAM features.
audio visual fusion;Dynamic Bayesian Network(DBN);Active Appearance Model(AAM);asynchrony constraint
A
TP391.4
10.3778/j.issn.1002-8331.1211-0289
ZHANG Xiaojing,JIANG Dongmei,FAN Ping,et al.Audio visual emotion recognition based on modified asynchronous DBN models.Computer Engineering and Applications,2014,50(21):162-165.
國家自然科學(xué)基金(No.61273265);陜西省國際科技合作重點(diǎn)項(xiàng)目(No.2011KW-04)。
張曉靜(1988—),女,碩士研究生,主要研究方向:聽視覺融合的語音情感分析;蔣冬梅,女,教授,主要研究方向:語音處理、聽視覺融合的語音情感識別和面部動畫合成;FAN Ping,女,博士生;SAHLI Hichem,男,教授,主要研究方向:視頻與圖像處理。E-mail:jiangdm@nwpu.edu.cn
2012-11-23
2013-01-24
1002-8331(2014)21-0162-04
CNKI出版日期:2013-03-13,http://www.cnki.net/kcms/detail/11.2127.TP.20130313.0946.009.html