王傳昱,李為相,陳震環(huán)
南京工業(yè)大學(xué) 電氣工程與控制科學(xué)學(xué)院,南京 211816
識(shí)別情感一般有兩種方式,一是檢測(cè)生理信號(hào)(如心率、腦電、體溫等),另一種是檢測(cè)情感行為(如面部特征、語(yǔ)言特征、姿態(tài)等)[1]。按照準(zhǔn)確性排序,目前應(yīng)用于情感檢測(cè)的單模態(tài)主要有生理參數(shù)(腦電圖)、臉部表情、語(yǔ)音、肢體動(dòng)作;按照采集難度和實(shí)用性排序,則為語(yǔ)音、臉部表情、肢體動(dòng)作、生理參數(shù)(腦電圖)[2]。其中肢體動(dòng)作因?yàn)槠錅?zhǔn)確性較低、實(shí)用性一般,通常作為其他模態(tài)的輔助識(shí)別方式;而生理參數(shù)的識(shí)別準(zhǔn)確率雖然很高,但是由于采集需要配備專業(yè)設(shè)備,采集難度高,實(shí)用性一般,在實(shí)際場(chǎng)景中很少使用。而語(yǔ)音和人臉表情的采集難度中等,識(shí)別準(zhǔn)確率較高,是當(dāng)前研究的熱門(mén)。丁名都等[3]將卷積神經(jīng)網(wǎng)絡(luò)(CNN)和方向梯度直方圖(HOG)方法結(jié)合研究,提取更多的表情特征,在高興情感上取得了90%的識(shí)別準(zhǔn)確率;蘭凌強(qiáng)等[4]提出基于聯(lián)合策略(FRN+BN)識(shí)別人臉表情,在CK+數(shù)據(jù)集上提升了5.6%的識(shí)別準(zhǔn)確率;李田港等[5]將KNN、SVM、BPNN分類方法進(jìn)行集成,提高了語(yǔ)音情感識(shí)別率。隨著融合算法研究的深入,多模態(tài)情感識(shí)別取得了快速的發(fā)展[6]。多模態(tài)融合能夠提升識(shí)別率,且具有更好的魯棒性[7-8]。目前常見(jiàn)的多模態(tài)情感檢測(cè)方法主要有生理信號(hào)+情感行為組合,不同情感行為之間的組合。人臉表情和語(yǔ)音這兩個(gè)模態(tài)由于在視頻中直接可提取,所以具有數(shù)據(jù)采集方便、特征明顯、精度高等優(yōu)點(diǎn),是實(shí)際應(yīng)用中最廣泛的情緒識(shí)別方法。Zeng等[9]提出了隱馬爾科夫模型進(jìn)行雙模態(tài)情緒識(shí)別,使用最大熵原理和最大互信息準(zhǔn)則進(jìn)行了人臉表情和語(yǔ)音的模態(tài)融合,通過(guò)單模態(tài)和多模態(tài)情緒識(shí)別的對(duì)比實(shí)驗(yàn),驗(yàn)證雙模態(tài)情緒識(shí)別算法的合理性。Li等[10]用LSTM-RNN網(wǎng)絡(luò)模型進(jìn)行樣本訓(xùn)練,并使用條件注意融合策略完成人臉表情和語(yǔ)音的情緒識(shí)別研究,提高了情緒識(shí)別模型的實(shí)時(shí)性。多模態(tài)融合識(shí)別可以在信號(hào)、特征、決策層進(jìn)行,對(duì)不同模態(tài)信號(hào)可以采取不同的融合策略,以達(dá)到最佳的識(shí)別結(jié)果[11]。
心理學(xué)家Mehrabian[12]通過(guò)研究發(fā)現(xiàn),人們?nèi)粘=徽剷r(shí)文字體現(xiàn)7%的情感,聲音及其特征(例如語(yǔ)調(diào)、語(yǔ)速)體現(xiàn)了38%的情感,表情和肢體語(yǔ)言體現(xiàn)55%的情感。這說(shuō)明了在研究情感識(shí)別問(wèn)題上,面部表情和聲音傳達(dá)了主要信息。
本文使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)(LBPH+SAE+CNN)訓(xùn)練并測(cè)試fer2013數(shù)據(jù)集,完成視頻圖像通道的模型搭建,使用反向傳播算法(BP)改進(jìn)的長(zhǎng)短期記憶人工神經(jīng)網(wǎng)絡(luò)(DBM+LSTM)訓(xùn)練chaeavd2.0視頻情感數(shù)據(jù)庫(kù)的訓(xùn)練集語(yǔ)音信號(hào)搭建模型,并在決策層對(duì)識(shí)別結(jié)果進(jìn)行融合,輸出情感分類及在不同情感分類上的可能性。除了驗(yàn)證本文所提方法的有效性,本文還實(shí)現(xiàn)了對(duì)使用者情感的實(shí)時(shí)分析:通過(guò)調(diào)用攝像頭和麥克風(fēng)采集一段視頻和語(yǔ)音,用LBPH算法識(shí)別并鎖定人臉區(qū)域,再通過(guò)SAE+CNN神經(jīng)網(wǎng)絡(luò)模型分析使用者情感狀態(tài),完成對(duì)圖像通道的識(shí)別;使用Spleeter和FFmpeg分離工具分離背景音和人聲,經(jīng)過(guò)對(duì)語(yǔ)音信號(hào)的濾波和分幀加窗的預(yù)處理后,調(diào)用opensmile工具提取聲學(xué)特征并分類,完成對(duì)語(yǔ)音模態(tài)的識(shí)別,最后在決策層對(duì)兩種模態(tài)的分類結(jié)果進(jìn)行融合并輸出最終結(jié)果。實(shí)驗(yàn)結(jié)果表明,本文提出的研究方法可以提升識(shí)別的準(zhǔn)確性,且具備處理速度快,可移植性強(qiáng)的優(yōu)點(diǎn),有較強(qiáng)的使用推廣價(jià)值。
局部二值法(LBP)在1996年由Ojala等[13]提出。LBP算子定義在像素3×3的鄰域內(nèi),以鄰域中心像素為閾值,相鄰的8個(gè)像素的灰度值與中心進(jìn)行比較,若大于中心像素值,則該像素點(diǎn)的位置被標(biāo)記為1,否則為0。
圖像的尺度產(chǎn)生變化時(shí),LBP特征編碼在反映像素點(diǎn)周圍的紋理信息時(shí)會(huì)出現(xiàn)錯(cuò)誤。鑒于這種情況,本文使用Extended LBP特征,改進(jìn)后的方法使用圓形、可拓展的鄰域。圖像的尺度產(chǎn)生變化時(shí),LBP特征編碼在反映像素點(diǎn)周圍的紋理信息時(shí)會(huì)出現(xiàn)錯(cuò)誤。鑒于這種情況,本文使用Extended LBP特征,改進(jìn)后的方法使用圓形、可拓展的鄰域。對(duì)于給定中心點(diǎn)(xc,yc),其鄰域像素位置為(xp,yp),令p的值小于P,則(xp,yp)可以用公式(1)表示:
其中,R是采樣半徑,p是第p個(gè)取樣點(diǎn),P是總采樣數(shù)目。由于計(jì)算的值可能不是整數(shù),即計(jì)算的點(diǎn)不在圖像上,所以采用雙線性插值的方法來(lái)避免這種情況。公式(2)如下:
Ahonen等提出LBPH方法[14],將LBP特征圖像分成局部塊并提取直方圖,再依次將這些直方圖連接起來(lái)形成的統(tǒng)計(jì)直方圖即為L(zhǎng)BPH。本文所采用的LBPH算法添加了實(shí)時(shí)獲取人臉特征數(shù)據(jù)的功能,其流程如圖1所示。
圖1 LBPH算法流程圖Fig.1 LBPH algorithm flow chart
人臉表情的邊緣信息擁有豐富的情緒特征,本文加入了稀疏自動(dòng)編碼器(Sparse AutoEncoder,SAE)獲取圖像的情緒細(xì)節(jié)信息。稀疏自動(dòng)編碼器是一種3層的無(wú)監(jiān)督網(wǎng)絡(luò)模型,是將輸入圖像壓縮后進(jìn)行稀疏重構(gòu)。SAE的主要思想是對(duì)隱藏層施加稀疏性約束,迫使隱藏節(jié)點(diǎn)數(shù)量小于輸入節(jié)點(diǎn),從而使網(wǎng)絡(luò)能學(xué)習(xí)到圖像的關(guān)鍵特征。SAE網(wǎng)絡(luò)追求的是輸出數(shù)據(jù)約等于輸入數(shù)據(jù)x,并通過(guò)反向傳播計(jì)算網(wǎng)絡(luò)代價(jià)函數(shù)來(lái)訓(xùn)練模型。
稀疏自動(dòng)編碼器具體實(shí)現(xiàn)過(guò)程為首先計(jì)算第j個(gè)隱藏神經(jīng)元的平均活躍度,公式(3)如下所示:
式中,xi和n分別表示輸入層的樣本和數(shù)量,表示第j個(gè)隱藏神經(jīng)元的激活度。
因此,SAE網(wǎng)絡(luò)的總體代價(jià)函數(shù)為:
在式(5)中,γ表示稀疏性懲罰項(xiàng)的權(quán)重,W和b分別表示各層神經(jīng)元的權(quán)重和偏移量。
最后,通過(guò)訓(xùn)練調(diào)整SAE網(wǎng)絡(luò)的參數(shù),來(lái)最小化總代價(jià)函數(shù),從而可以捕捉輸入圖像的細(xì)節(jié)特征。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種包含卷積計(jì)算且有深度結(jié)構(gòu)的前饋型網(wǎng)絡(luò),神經(jīng)元之間存在局部連接并共享權(quán)值。其主要包括卷積層、池化層、全連接層和輸出層[15]。
增加神經(jīng)網(wǎng)絡(luò)模型的深度會(huì)得到更多特征[16],但獲得特征過(guò)多時(shí),由于全連接層上要與每一個(gè)特征建立連接,會(huì)消耗更多的時(shí)間且容易發(fā)生過(guò)擬合。為了攻克這一難題,本文使用了Global Average Pooling(GAP)層取代全連接層。GAP是對(duì)空間信息的求和,應(yīng)對(duì)空間變化具有更強(qiáng)的魯棒性。GAP方法簡(jiǎn)化了特征圖與分類的轉(zhuǎn)換過(guò)程,能夠有效地減少參數(shù)的數(shù)量。
假設(shè)卷積層的最后輸出是h×w×d的三維特征圖,具體大小為6×6×3,經(jīng)過(guò)GAP轉(zhuǎn)換后,變成了大小為1×1×3的輸出值,也就是每一層h×w會(huì)被平均化成一個(gè)值??梢钥闯鯣AP對(duì)降低模型復(fù)雜度起到很大的作用,其工作原理如圖2所示。
圖2 GAP工作原理示意圖Fig.2 GAP working principle diagram
除此之外,為減少參數(shù)的計(jì)算量,本文所用的卷積操作為深度可分離卷積。假設(shè)輸入特征圖的尺寸為DL×DL標(biāo)準(zhǔn)卷積層使用尺寸為DK×DK×M×N,其中DL代表輸入圖片的長(zhǎng)度,DK代表空間維數(shù),M為輸入通道數(shù),N為輸出通道數(shù)。令stride步長(zhǎng)為1,則輸出特征圖的計(jì)算量為DK×DK×M×N×DL×DL,深度可分離算法計(jì)算量則為DK×DK×M×DL×DL+M×N×DL×DL。將兩者進(jìn)行對(duì)比可以得到如下公式:
從此公式中不難看出,深度可分離卷積方法的計(jì)算量大幅度減少,這也就意味著處理相同數(shù)量參數(shù)的情況下網(wǎng)絡(luò)層數(shù)可以做得更深。本文神經(jīng)網(wǎng)絡(luò)如圖3所示。
圖3 改進(jìn)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of improved neural network
本文所設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)包在輸入層增加SAE層并包含6個(gè)卷積層,SAE層通過(guò)兩層卷積提取圖像的細(xì)節(jié)特征,filter過(guò)濾次數(shù)為8,并在CNN的第二層將特征輸入到網(wǎng)絡(luò)中;CNN前5個(gè)卷積層每一層進(jìn)行兩次卷積并歸一化,然后池化后連接下一層,其filter過(guò)濾次數(shù)由8到128遞增,最后一個(gè)卷積層進(jìn)行一次卷積后與GAP層連接,filter數(shù)為1,然后進(jìn)入輸出層得到分類結(jié)果。全局采用3×3的卷積核,選擇ReLU激活函數(shù);池化方法為最大池化,使用GAP代替全連接層,輸出層用Softmax做表情的分類。視頻圖像通道工作流程如圖4所示。
語(yǔ)音特征的提取需要先對(duì)視頻進(jìn)行處理實(shí)現(xiàn)音頻分離,目前有很多軟件可以實(shí)現(xiàn)該功能,本文選擇組合使用FFmpeg和Spleeter音頻分離工具,其中Spleeter可以將攝像頭采集到的視頻中的聲音信號(hào)抽離出來(lái),F(xiàn)Fmpeg則可以將音頻做進(jìn)一步處理,區(qū)分出人聲和背景音樂(lè)。兩款工具都可以使用python工具包調(diào)用。
圖4 視頻圖像模態(tài)工作流程圖Fig.4 Flow chart of video image modal operation
語(yǔ)音信號(hào)是一種時(shí)變信號(hào),其特征參數(shù)是不斷變化的,但從微觀的角度上看,很短時(shí)間的尺度上其特征可以保持一個(gè)穩(wěn)定的狀態(tài),這種短時(shí)間的語(yǔ)音片段成為幀,一般幀長(zhǎng)取10 ms到30 ms[17]。本文選用漢明窗函數(shù)ωn和語(yǔ)音信號(hào)sn1相乘得到加窗語(yǔ)音信號(hào)sω(n),完成分幀操作,漢明窗函數(shù)公式如下:
分幀處理完成后,即可對(duì)這些預(yù)處理的語(yǔ)音片段進(jìn)行特征提取。使用傳統(tǒng)特征(如韻律特征、音質(zhì)特征、譜特征、Mel頻率倒譜系數(shù))雖然在實(shí)驗(yàn)中取得了不錯(cuò)的識(shí)別效果[18-19],但是語(yǔ)音信號(hào)是不平穩(wěn)的信號(hào),只使用這些傳統(tǒng)的特征會(huì)出現(xiàn)識(shí)別效果受到局限的現(xiàn)象。因此本文選擇了韻律特征、梅爾倒譜系數(shù)(Mel),并引入了非線性屬性、非線性幾何特征在特征層進(jìn)行融合。具體用深度受限波爾茲曼機(jī)(Deep-restricted Boltzmann Machine,DBM)實(shí)現(xiàn)。
DBM是受限波爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)的一種。RBM包含一層可視層和一層隱藏層,在同一層的神經(jīng)元之間是彼此獨(dú)立的,但是不同層的神經(jīng)元之間存在雙向連接,在網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)信息在兩個(gè)方向上流動(dòng),且兩個(gè)方向上的權(quán)值相同。RBM是一種基于能量的概率分布模型。
多個(gè)RBM自下向上堆疊,下層輸出成為上層的輸入組成DBM,從而得到輸入特征的深層表示。本文采用三層RBM組成DBM,此時(shí)的能量函數(shù)如式(8):
聯(lián)合概率如式(9):
在給定可視層v/h的條件下,隱藏層第j個(gè)節(jié)點(diǎn)為1或者0的概率如式(10):
其損失函數(shù)如式(11):
其中,矩陣W表示信息在網(wǎng)絡(luò)中流動(dòng)的權(quán)值,hj和vj表示hidden layer與visible layer中第j個(gè)神經(jīng)元的狀態(tài),向量a和向量b表示偏置,h和v表示神經(jīng)元的狀態(tài)向量,θ表示由W、向量a和向量b組成的參數(shù)集合。
將樣本輸入RBM中后,根據(jù)隱藏層每個(gè)神經(jīng)元的激活概率P(hj=1|v)和期望E(hj=1|v)組成輸出特征向量。訓(xùn)練流程如圖5所示。
圖5 DBM訓(xùn)練過(guò)程圖Fig.5 DBM training process diagram
搭建三層DBM網(wǎng)絡(luò),將選取的四類特征在DBM中進(jìn)行融合,得到深度的融合特征。每層DBM都是由三層RBM組成。首先將特征輸入到DBM1層中進(jìn)行深度融合并降維,隱藏層輸出了特征1、特征2、特征3、特征4;將特征1、2,特征3、4線性拼接并輸入到DBM2層,經(jīng)過(guò)深度融合并降維后得到特征5和特征6;重復(fù)該過(guò)程,特征5、6在DBM3層中成為融合特征,也就是輸入特征的深層表示。該過(guò)程如圖6所示。
在使用DBM網(wǎng)絡(luò)得到融合特征之后,還需要對(duì)語(yǔ)音情感進(jìn)行分類。本文使用改進(jìn)的長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)。LSTM能存儲(chǔ)較長(zhǎng)一段時(shí)間的有用信息,且能優(yōu)化時(shí)間序列的分類任務(wù),在語(yǔ)音識(shí)別的應(yīng)用中,相較于傳統(tǒng)模型(時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)、隱馬爾科夫模型等),擁有更好的性能[20]。LSTM的優(yōu)勢(shì)在于當(dāng)前時(shí)刻的輸出受輸入和前一時(shí)刻的輸出的影響,可以考慮到特征的時(shí)序特性。使用的損失函數(shù)為交叉熵代價(jià)函數(shù),其表達(dá)式為:
圖6 DBM網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.6 DBM network structure diagram
其中,xi代表語(yǔ)音數(shù)據(jù),y(xi)表示xi對(duì)應(yīng)的標(biāo)簽,a代表數(shù)據(jù)的輸出值,a(xi)代表具體的xi對(duì)應(yīng)的輸出值,n是數(shù)據(jù)的總數(shù)量。交叉熵代價(jià)函數(shù)在誤差大時(shí)權(quán)重調(diào)整的速度更快,誤差小時(shí)則權(quán)重更新慢,有效地提升了系統(tǒng)的處理速度。
在DBM和LSTM網(wǎng)絡(luò)中使用了可變權(quán)值的反向傳播算法(Back Propagation,BP)進(jìn)行優(yōu)化。對(duì)語(yǔ)言通道的網(wǎng)絡(luò)中增加BP可以增加網(wǎng)絡(luò)的非線性映射能力,用于處理獲取的非線性特征。BP使用梯度下降法調(diào)整節(jié)點(diǎn)間的權(quán)值ωij和節(jié)點(diǎn)b閾值,函數(shù)表達(dá)式(13)為:
其中,η代表神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率,?代表偏微分運(yùn)算,E表示標(biāo)準(zhǔn)誤差,為了解決隨著迭代次數(shù)的增加學(xué)習(xí)率η會(huì)下降的問(wèn)題,改進(jìn)的BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率按照公式(14)進(jìn)行更新:
其中,m為迭代次數(shù),a為大于1小于2的常數(shù),s是迭代學(xué)習(xí)率的尋找范圍。
識(shí)別網(wǎng)絡(luò)部分由三層LSTM堆疊,相較于傳統(tǒng)應(yīng)用在語(yǔ)音識(shí)別中的兩層LSTM結(jié)構(gòu)網(wǎng)絡(luò)結(jié)構(gòu)更深,可以得到更多的特征,為了避免發(fā)生過(guò)擬合現(xiàn)象并提升處理的速度,用GAP層代替了全連接層,最后與softmax層連接。其輸入為DBM層處理后的融合特征,輸出為通過(guò)softmax層輸出的情感所屬分類與概率。語(yǔ)言通道神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
圖7 語(yǔ)言通道神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Neural network structure of language channel
本文選用fer2013圖像數(shù)據(jù)集[21]和Cheavd2.0視頻數(shù)據(jù)集[22]進(jìn)行實(shí)驗(yàn)。fer2013由35 886張人臉表情圖片組成,是目前涵蓋不同國(guó)家及年齡跨度最廣的人臉表情數(shù)據(jù)庫(kù),其樣本數(shù)量多且已經(jīng)經(jīng)過(guò)預(yù)處理,相比較從cheeavd2.0視頻中截取的圖片而言質(zhì)量更高,以此作為訓(xùn)練集可以使模型更加健壯,所以視頻圖像通道選用f2013數(shù)據(jù)集進(jìn)行訓(xùn)練,情感標(biāo)簽為angry生氣、disgust厭惡、scared擔(dān)心、happy開(kāi)心、sad傷心、surprised驚訝、natural自然。Cheavd2.0語(yǔ)音數(shù)據(jù)集由7 030個(gè)影視及綜藝情感視頻片段組成,涵蓋數(shù)據(jù)量大且接近真實(shí)環(huán)境,其平均長(zhǎng)度在3.3 s,情感標(biāo)簽為natural自然、angry生氣、happy快樂(lè)、sad悲傷、worried憂慮、anxious焦慮、surprise驚訝、disgust厭惡。兩者在情感分類上非常相似,在前期數(shù)據(jù)處理中將worried憂慮、anxious焦慮歸為scared擔(dān)心,使兩個(gè)數(shù)據(jù)庫(kù)在情感分類上保持一致,以便在決策層的融合。處理后的Cheavd2.0數(shù)據(jù)構(gòu)成如表1所示。
表1 Cheavd2.0數(shù)據(jù)集Table 1 Cheavd2.0 data set
不同通道采用不同的神經(jīng)網(wǎng)絡(luò)可以使單通道的識(shí)別率達(dá)到最高,而在決策層融合可以使識(shí)別結(jié)果的準(zhǔn)確率得到提升。本文對(duì)CNN和LSTM網(wǎng)絡(luò)進(jìn)行優(yōu)化,在視頻圖像通道使用SAE獲取圖像的細(xì)節(jié)特征并與CNN獲取的特征進(jìn)行融合,在語(yǔ)音通道的輸入中加入了非線性特征進(jìn)行特征層融合,并在決策層依據(jù)權(quán)值準(zhǔn)則對(duì)不同通道的識(shí)別結(jié)果進(jìn)行融合,輸出識(shí)別結(jié)果與在各個(gè)分類上的概率。權(quán)值準(zhǔn)則如下式所示:
其中,E為情感的類別,Pp為在視頻圖像通道上分類的概率,Pv為在語(yǔ)音通道上分類的概率,α和β分別為在兩個(gè)通道上的權(quán)值,本文取α=0.6,β=0.4。
表2統(tǒng)計(jì)了語(yǔ)音通道和視頻圖像通道的單模態(tài)改進(jìn)算法相較于其他算法的識(shí)別效果對(duì)比。在語(yǔ)言通道上統(tǒng)一使用柏林語(yǔ)言情感數(shù)據(jù)集(EMO-DB)進(jìn)行對(duì)比實(shí)驗(yàn),在視頻圖像通道上統(tǒng)一使用fer2013數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。
表2 單模態(tài)上識(shí)別效果對(duì)比Table 2 Comparison of identification results on single mode
由表2可知,在語(yǔ)音模態(tài)的對(duì)比中,本文所用方法優(yōu)于其余三種方法;在圖像模態(tài)的對(duì)比中,本文所用方法的識(shí)別準(zhǔn)確率僅略低于VGGNet+Focal Loss法,也取得了較好的識(shí)別效果。由此可知,本文提出的改進(jìn)CNN和LSTM在單模態(tài)上是能進(jìn)行有效識(shí)別的。
對(duì)于多通道融合的識(shí)別效果,本文用cheavd2.0的測(cè)試集進(jìn)行驗(yàn)證。由表3可知,圖像通道在使用SAE后可以提升識(shí)別準(zhǔn)確率,語(yǔ)言通道經(jīng)過(guò)DBM對(duì)特征融合后可提升識(shí)別的準(zhǔn)確率,多模態(tài)融合后取得更高的識(shí)別準(zhǔn)確率。由此可知多模態(tài)融合識(shí)別策略可以取得更好的識(shí)別效果。
表3 單模態(tài)與多模態(tài)識(shí)別效果對(duì)比Table 3 Comparison of single-mode and multi-mode recognition results
其在各類情感上的識(shí)別準(zhǔn)確率如表4所示,在測(cè)試集上各種分類上識(shí)別結(jié)果的混淆矩陣如圖8所示?;煜仃嚨臋M坐標(biāo)代表預(yù)測(cè)情感分類結(jié)果,縱坐標(biāo)代表樣本在不同情感上的實(shí)際分布情況。橫縱坐標(biāo)一致時(shí)代表正確識(shí)別,不一致時(shí)則說(shuō)明橫坐標(biāo)所指情感被錯(cuò)分到縱坐標(biāo)所指情感類型;混淆矩陣可視性更強(qiáng),可以看到樣本在所有情感類型上的分布情況,每個(gè)混淆矩陣代表一種識(shí)別結(jié)果,是對(duì)該識(shí)別統(tǒng)計(jì)表的補(bǔ)充。由表4和圖8可知在自然、開(kāi)心、憤怒、傷心等情感識(shí)別中能取得很好的效果,被分到錯(cuò)誤的情感類型上的樣本也較少,其中被錯(cuò)分到自然情感類型上的樣本較多;由于厭惡情感的樣本數(shù)量較少,導(dǎo)致其識(shí)別準(zhǔn)確率較低,只有59.5%,其中被錯(cuò)分到自然和憤怒情感類型上的樣本最多。整體的識(shí)別準(zhǔn)確率達(dá)到了74.9%,相較于傳統(tǒng)的單模態(tài)在識(shí)別精度上有所提升。
表4 Cheavd2.0測(cè)試集各類情感識(shí)別準(zhǔn)確率統(tǒng)計(jì)表Table 4 Cheavd2.0 test set all kinds of emotion recognition accuracy statistical table
圖8 多模態(tài)識(shí)別結(jié)果混淆矩陣Fig.8 Confusion matrix of multimodal recognition results
表5統(tǒng)計(jì)了在多模態(tài)上,增加在eNTERFACE’05視頻情感數(shù)據(jù)集上進(jìn)行的多模態(tài)情感識(shí)別對(duì)比實(shí)驗(yàn)。數(shù)據(jù)集中情感分類的數(shù)目不一致,eNTERFACE’05數(shù)據(jù)集相較于Cheacd2.0數(shù)據(jù)集缺少了一個(gè)“自然”情感類型,因此對(duì)本文所提方法做出分類數(shù)量變化及其相關(guān)修改后進(jìn)行實(shí)驗(yàn)。由表5可知,本文設(shè)計(jì)的算法識(shí)別準(zhǔn)確率在該數(shù)據(jù)集上也取得了較好的識(shí)別效果,僅略低于劉菁菁等[30]所提的基于Arousal-Valence Space法。
表5 多模態(tài)上識(shí)別效果對(duì)比Table 5 Comparison of identification results in multiple modes
本文實(shí)驗(yàn)在Python3.6上實(shí)現(xiàn),硬件平臺(tái)為Intel?Xeon?Silver 4210 CPU,主頻為2.2 GHz,內(nèi)存為32 GB,GPU為NVIDIA Quadro P4000(8 GB)。本文除了驗(yàn)證了所提方法在cheavd2.0數(shù)據(jù)集上的識(shí)別準(zhǔn)確率,還實(shí)現(xiàn)了對(duì)使用者的情感實(shí)時(shí)檢測(cè),實(shí)驗(yàn)效果如圖9所示。
圖9 實(shí)驗(yàn)效果展示Fig.9 Experimental effect display
本文提出一種基于視頻圖像和語(yǔ)音的多模態(tài)情感檢測(cè)方法并進(jìn)行相關(guān)實(shí)驗(yàn),結(jié)果顯示,與傳統(tǒng)單一模態(tài)相比,多模態(tài)融合策略可以顯著提升情感分類的準(zhǔn)確率;但是在某些情感分類上仍然較難,例如厭惡(disgust);由于這些情感的特征和其他情感相似,樣本的個(gè)數(shù)也較少,所以網(wǎng)絡(luò)需要進(jìn)一步改良來(lái)強(qiáng)化對(duì)相似特征的區(qū)分。此外,融合腦電信號(hào)和肢體動(dòng)作等對(duì)情感識(shí)別的準(zhǔn)確率也有較明顯的提升,獲取可靠的其他模態(tài)的數(shù)據(jù)集并搭建合理的融合模型將成為接下來(lái)工作中的研究重點(diǎn)。