陳景霞, 劉 洋, 張鵬偉, 雪 雯
(陜西科技大學(xué) 電子信息與人工智能學(xué)院, 陜西 西安 710021)
情感在我們?nèi)粘I钪械姆椒矫婷娑计鹬匾淖饔?隨著人工智能的出現(xiàn),1995年情感計(jì)算這一概念首次被Picard教授[1]提出,經(jīng)過幾十年的發(fā)展,如今情感人工智能已經(jīng)變成21項(xiàng)新興技術(shù)之一.就目前來看,情感計(jì)算還面臨著情感相關(guān)信息獲取困難,情感識(shí)別精度不高等諸多挑戰(zhàn).
人類的情感涉及主觀經(jīng)歷、生理反應(yīng)和行為反應(yīng),通過表情、言語和肢體動(dòng)作等多種模態(tài)進(jìn)行表達(dá).因此,情感識(shí)別也包含了多種模態(tài),即行為模式識(shí)別和生理模式識(shí)別[2].行為識(shí)別是通過攝像頭等設(shè)備采集人的面部表情和聲音等外部信息進(jìn)行情感識(shí)別,而生理模式識(shí)別是通過傳感器采集人的腦電、眼電和肌電等信息進(jìn)行情感識(shí)別.生理信號(hào)相比于外部行為信號(hào)具有不易偽裝,更真實(shí)可靠等特點(diǎn),因而用生理信號(hào)進(jìn)行情感識(shí)別更加客觀有效.
近年來,腦電波(electroencephalogram,EEG)已經(jīng)越來越多地用于情感識(shí)別并取得了很大的進(jìn)展.陳景霞等[3]曾提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的EEG情感識(shí)別方法,在效價(jià)和喚醒度上的情感二分類的性能都比傳統(tǒng)分類器有較大提升.Qiu等[4]提出了一種自監(jiān)督的神經(jīng)網(wǎng)絡(luò)GCC捕獲EEG腦網(wǎng)絡(luò)拓?fù)涮卣?該方法的分類精度最高可達(dá)到81.1%.Xing等[5]提出了一種多通道腦電情感識(shí)別框架,利用腦電特征序列的上下文相關(guān)性提高分類精度,該方法在DEAP數(shù)據(jù)集進(jìn)行情感二分類實(shí)驗(yàn)效價(jià)維度準(zhǔn)確率可達(dá)81.1%,喚醒度維度可達(dá)74.38%.
上述基于腦電等單一模態(tài)的情感識(shí)別方法雖然取得了較大的進(jìn)展,但單一模態(tài)的生理信息很容易受到各種噪聲的影響,很難完整的反映情感狀態(tài),識(shí)別精度不高,所以使用多種模態(tài)信息來進(jìn)行情感識(shí)別是很有必要的.早期的多模態(tài)情感識(shí)別大多是通過手工特征提取和傳統(tǒng)機(jī)器學(xué)習(xí)分類器進(jìn)行,近年來隨著深度學(xué)習(xí)的不斷發(fā)展,越來越多的研究人員將其應(yīng)用在多模態(tài)情感識(shí)別領(lǐng)域.
例如,Lu等[6]使用一種多模態(tài)情感識(shí)別框架分別在特征級(jí)和決策級(jí)對(duì)EEG數(shù)據(jù)和眼動(dòng)數(shù)據(jù)進(jìn)行融合,并通過實(shí)驗(yàn)證明了多模態(tài)情感識(shí)別準(zhǔn)確率相較于單一模態(tài)得到顯著提高.Qiu等[7]提出了一種相關(guān)注意網(wǎng)絡(luò)(CAN)的多模態(tài)情感識(shí)別模型,通過計(jì)算不同門控遞歸單元的相關(guān)性及引入注意力機(jī)制,將EEG和眼動(dòng)兩個(gè)模態(tài)數(shù)據(jù)進(jìn)行特征融合和深度學(xué)習(xí),實(shí)驗(yàn)結(jié)果表明,該方法在SEED數(shù)據(jù)集上情感三分類的平均準(zhǔn)確率為94.03%.Tzirakis等[8]提出了一種端對(duì)端的多模態(tài)情感識(shí)別模型,在語音和視頻兩種模態(tài)進(jìn)行訓(xùn)練,在效價(jià)和喚醒度兩個(gè)維度上都取得了很好的效果.Tan等[9]提出了一種用于人機(jī)交互(HRI)系統(tǒng)的多模態(tài)情感識(shí)別方法,將EEG數(shù)據(jù)和面部表情數(shù)據(jù)進(jìn)行融合,最終識(shí)別準(zhǔn)確率達(dá)到了83.33%.Wu等[10]提出一種關(guān)鍵子網(wǎng)絡(luò)選擇算法來研究腦功能特征,通過深度典型相關(guān)分析將腦電和其他生理信號(hào)相結(jié)合來進(jìn)行情感識(shí)別,最終識(shí)別平均準(zhǔn)確率可達(dá)到95.08%.Zhao等[11]提出了基于雙向LSTM和注意力機(jī)制的表情-腦電情感識(shí)別模型,采用雙線性卷積網(wǎng)絡(luò)融合表情和腦電兩個(gè)模態(tài)的特征,然后通過帶有注意力網(wǎng)絡(luò)的雙向LSTM進(jìn)行情感識(shí)別,在DEAP數(shù)據(jù)集效價(jià)和喚醒度上的準(zhǔn)確率分別為86.2%和86.8%.
盡管近年來研究者們提出了諸多多模態(tài)情感識(shí)別的研究方法,但依然存在兩個(gè)方面的問題需要改善:一是不同模態(tài)數(shù)據(jù)之間差異較大,如何選擇更有效的模態(tài)特征并將不同模態(tài)間的特征進(jìn)行有效的融合.二是如何構(gòu)建更加有效的深度模型來學(xué)習(xí)更具判別性的情感相關(guān)特征以提升情感分類精度.為解決這兩大問題,本文從不同模態(tài)的特征選擇、特征融合及深度模型構(gòu)建這三個(gè)方面提出了新的方法.
多模態(tài)特征融合分為數(shù)據(jù)級(jí)融合、特征級(jí)融合、決策級(jí)融合和模型級(jí)融合四種方式[12].其中,特征級(jí)融合分別提取不同單一模態(tài)的特征,使用貝葉斯決策理論、注意力機(jī)制等方法在特征層面進(jìn)行融合,能夠更好的實(shí)現(xiàn)不同特征間的交互,從而得到更多不同模態(tài)間的互補(bǔ)信息.本文從特征層面對(duì)多模態(tài)信息使用注意力機(jī)制進(jìn)行融合,并構(gòu)建基于注意力機(jī)制的雙向門控循環(huán)單元(Bi-directional Gated Recurrent Unit,BiGRU)模型,其具體結(jié)構(gòu)如圖1所示,對(duì)融合特征進(jìn)行深度學(xué)習(xí)與情感分類.
圖1 Mul-AT-BiGRU模型
1.1.1 多模態(tài)特征選擇和提取
本文采用三種在單一模態(tài)中情感分類性能較好的EEG特征:微分熵(Differential Entropy,DE)特征、功率譜密度(Power Spectral Density,PSD)特征及眼動(dòng)特征進(jìn)行多模態(tài)融合研究,這三種特征的特點(diǎn)及提取方法如下:
腦電DE特征提取:微分熵定義了連續(xù)隨機(jī)變量的熵,腦電DE特征重點(diǎn)分析腦電信號(hào)頻率和能量等信息.Duan等[13]發(fā)現(xiàn)DE特征更適合于情感識(shí)別任務(wù)且能夠很好的反映EEG信號(hào)的能量變化.通常,EEG信號(hào)可以分為五個(gè)不同的頻帶,即:θ(1-4 Hz)、θ(4-8 Hz)、α(8-13 Hz)、β(13-30 Hz)、γ(30-50 Hz).DE特征的提取將EEG信號(hào)特征由原始的時(shí)域轉(zhuǎn)到頻域,然后在以上各頻帶提取信號(hào)DE特征.
腦電PSD特征提取:功率譜密度定義了在時(shí)間序列上的信號(hào)數(shù)值隨頻率分布的規(guī)律,腦電PSD特征重點(diǎn)分析腦電活動(dòng)隨時(shí)間變化的特性,且PSD特征提取對(duì)信號(hào)穩(wěn)定性沒有太多要求,對(duì)腦電這一非平穩(wěn)信號(hào)十分友好.本文作者在之前的研究中[14]已經(jīng)驗(yàn)證了PSD特征在情感識(shí)別中具有較高的分類性能.本實(shí)驗(yàn)在上述5個(gè)頻帶提取PSD特征,獲得結(jié)果作為多模態(tài)EEG信號(hào)的另一種特征.
眼動(dòng)特征提取:除了EEG信號(hào)外,眼動(dòng)數(shù)據(jù)可以反映吸引人注意力的因素,觀察人的無意識(shí)行為.Bradley等[15]對(duì)眼動(dòng)信號(hào)和情感之間的關(guān)系的研究表明,當(dāng)處于不同的情感狀態(tài)下,人的眼球運(yùn)動(dòng)和瞳孔直徑等會(huì)發(fā)生不同的變化,具體提取的眼動(dòng)特征細(xì)節(jié)如表1所示.
表1 眼動(dòng)特征
1.1.2 基于注意力機(jī)制的多模態(tài)特征融合
并非所有模態(tài)特征在情感分類中都具有同等的相關(guān)性,為了優(yōu)先考慮更重要的模態(tài),本文使用在自然語言處理中應(yīng)用廣泛的AT融合注意力網(wǎng)絡(luò)[16],將腦電數(shù)據(jù)的DE特征、PSD特征及眼動(dòng)特征進(jìn)行融合.該網(wǎng)絡(luò)的具體結(jié)構(gòu)如圖1特征融合層所示.在將三種模態(tài)特征輸入該注意力網(wǎng)絡(luò)之前,使用了一個(gè)全連接層將其連接.使用X表示全連接層輸出數(shù)據(jù),輸入層中Xd表示DE特征,Xp表示PSD特征,Xe表示眼動(dòng)特征.然后將全連接層的輸出作為注意力網(wǎng)絡(luò)的輸入,注意力網(wǎng)絡(luò)中進(jìn)行的計(jì)算如下:
PF=tanh(WF·X)
(1)
(2)
(3)
式(1)~(3)中:αfuse表示注意權(quán)重特征向量,WF、ωF是注意力模型在訓(xùn)練中的投影參數(shù),F表示模型輸出即融合后的多模態(tài)特征向量.
在腦電和眼動(dòng)這兩種生理數(shù)據(jù)的采集過程中,都是基于時(shí)間線對(duì)數(shù)據(jù)進(jìn)行采集,因此數(shù)據(jù)在時(shí)序上存在密切的上下文聯(lián)系,本文采用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)對(duì)腦電和眼電時(shí)序特征進(jìn)行建模.GRU是一種特殊的RNN,它適合學(xué)習(xí)預(yù)測(cè)時(shí)間序列中間隔較長(zhǎng)的事件以及數(shù)據(jù)間的依賴信息.具體來說,它解決了傳統(tǒng)RNN梯度消失的問題,同時(shí)能夠?qū)﹂L(zhǎng)期依賴進(jìn)行建模.為了更好的學(xué)習(xí)時(shí)間前后上下文之間的聯(lián)系和簡(jiǎn)化計(jì)算,本文使用雙向GRU模型對(duì)融合后的多模態(tài)特征進(jìn)行深層特征提取與情感分類,其具體結(jié)構(gòu)如圖2所示,該模型同時(shí)受到先序信息所帶來的正向反饋和后序信息所帶來的逆向反饋,且更多的控制單元門的使用能夠更好的避免過擬合,并且更多信息的結(jié)合也更有利于提升模型的分類精度.使用x=[x1,x2,…,xt,…,xN]來表示GRU單元的輸入矩陣,其中N表示輸入樣本總數(shù),t的取值介于0-N之間.每個(gè)GRU單元計(jì)算公式如下:
(4)
zt=σ(Wz[ht-1·xt])
(5)
rt=σ(Wr·[ht-1·xt])
(6)
(7)
(8)
圖2 BiGRU模型結(jié)構(gòu)
為了進(jìn)一步提高分類精度,本文在雙向GRU的基礎(chǔ)上加入了注意力機(jī)制來強(qiáng)化輸入序列的主要特征,具體結(jié)構(gòu)如圖1中的深層特征提取層所示.該注意力網(wǎng)絡(luò)將上層雙向GRU單元的輸出作為該單元輸入,具體計(jì)算過程如下:
Pt=tanh(Wh[t]·H)
(9)
αt=soft max(ω[t]T·Pt)
(10)
(11)
式(9)~(11)中:H表示雙向GRU的輸出,αt表示注意力權(quán)重向量,Wh[t]和ωh[t]是注意力模型在訓(xùn)練中的投影參數(shù),rt為注意力層的輸出向量.最終,帶有注意力機(jī)制的雙向GRU層輸出如下:
(12)
經(jīng)過上述特征選擇、特征融合和深層特征提取之后,使用SoftMax層進(jìn)行最終的情感分類,具體計(jì)算如下:
(13)
(14)
為了防止過擬合,該模型還加入了Dropout層.模型采用的是AdaGrad優(yōu)化器,該優(yōu)化器能夠根據(jù)參數(shù)來調(diào)整學(xué)習(xí)率,有較好的魯棒性.該模型的損失函數(shù)采用交叉熵函數(shù),計(jì)算方式如下:
(15)
本文基于EEG多模態(tài)情感數(shù)據(jù)集SEED-IV[17]展開實(shí)驗(yàn)以驗(yàn)證所提出的Mul-AT-BiGRU模型的有效性.該數(shù)據(jù)集是由上海交通大學(xué)BCMI實(shí)驗(yàn)室相關(guān)團(tuán)隊(duì)開發(fā),包含EEG和眼動(dòng)信號(hào)這兩種生理信號(hào),它記錄了15個(gè)被試在不同時(shí)間觀看72個(gè)能誘發(fā)快樂、悲傷、恐懼、中性這四種不同情感的電影片段的腦電信號(hào)和眼動(dòng)信號(hào).72個(gè)電影片段被分成3次實(shí)驗(yàn),每次實(shí)驗(yàn)包含4種不同情感的電影片段各6個(gè),共24個(gè).
本實(shí)驗(yàn)需要從SEED-IV數(shù)據(jù)集中提取腦電和眼動(dòng)兩種模態(tài)的三種不同特征:腦電DE特征、PSD特征和眼動(dòng)特征.對(duì)于腦電特征來說,首先將數(shù)據(jù)集中62通道的EEG數(shù)據(jù)降采樣到200 Hz,為避免噪聲和消除偽跡,使用1~75 Hz的帶通濾波器進(jìn)行數(shù)據(jù)過濾,最后得到總時(shí)長(zhǎng)為63 s的EEG信號(hào).之后分別在五個(gè)頻帶使用窗長(zhǎng)為4 s的短時(shí)傅里葉變換提取DE及PSD兩種特征,最終,每個(gè)被試每次實(shí)驗(yàn)經(jīng)過降采樣和帶通濾波處理后的腦電DE和PSD特征的數(shù)據(jù)格式都為62(channels)×851(samples)×5(frequency bands).為了更好的學(xué)習(xí)通道間的特征,數(shù)據(jù)格式最終處理為4 225(samples)×62(channels)的數(shù)據(jù)格式.
對(duì)于眼動(dòng)特征的提取,就是根據(jù)不同的眼動(dòng)參數(shù)提取眼動(dòng)的各種特征,如表1所示.最終,對(duì)于每個(gè)被試每次實(shí)驗(yàn)提取到的眼動(dòng)特征,其數(shù)據(jù)格式為31(channels)×851(samples),單模態(tài)實(shí)驗(yàn)將其作為所提模型的輸入進(jìn)行深層特征提取;在多模態(tài)實(shí)驗(yàn)中,為了將眼動(dòng)特征和腦電特征五個(gè)頻帶分別進(jìn)行對(duì)齊,將眼動(dòng)特征擴(kuò)充一個(gè)頻帶維度,其格式轉(zhuǎn)換為31(channels)×851(samples)×5(frequency bands),其中每個(gè)頻帶都是復(fù)制同樣的31×851的眼動(dòng)特征.為了跟腦電特征格式保持一致,最終將眼動(dòng)特征的格式轉(zhuǎn)化為4 225(samples)×31(channels),其標(biāo)簽同樣處理為由{0,1,2,3}組成的大小為4 225×1的數(shù)組,這樣就將兩種模態(tài)數(shù)據(jù)的樣本數(shù)對(duì)齊.然后,將對(duì)齊的腦電和眼動(dòng)數(shù)據(jù)在通道維度上進(jìn)行Concat連接操作,得到最原始的多模態(tài)融合特征,其數(shù)據(jù)格式為4 225(samples)×93(channels).接下來基于上述三種特征進(jìn)行情感四分類實(shí)驗(yàn).
實(shí)驗(yàn)在GeForce GTX3090 GPU上基于tensorflow1.18框架實(shí)現(xiàn).實(shí)驗(yàn)首先驗(yàn)證了Mul-AT-BiGRU模型在多模態(tài)任務(wù)上的有效性,然后驗(yàn)證該模型在分類精度上較單層GRU、兩層同向堆疊GRU有較大提升.本文還通過交叉被試實(shí)驗(yàn)驗(yàn)證了所提模型的泛化能力.
首先,為了驗(yàn)證多模態(tài)融合特征的優(yōu)勢(shì),分別將腦電的DE特征和PSD特征、眼動(dòng)特征和三者經(jīng)過AT-fusion融合后的特征輸入基于多注意力機(jī)制的雙向GRU網(wǎng)絡(luò)進(jìn)行情感四分類實(shí)驗(yàn).實(shí)驗(yàn)首先在15個(gè)被試內(nèi)進(jìn)行,每個(gè)被試進(jìn)行一次實(shí)驗(yàn),每次實(shí)驗(yàn)取每個(gè)被試三次實(shí)驗(yàn)的所有數(shù)據(jù),其中30%作為測(cè)試集,其余70%數(shù)據(jù)作為訓(xùn)練集.經(jīng)過參數(shù)調(diào)優(yōu)后將模型的batch-size設(shè)置為32,epoch在單模態(tài)下設(shè)置為500,多模態(tài)下epoch設(shè)置為100,初始學(xué)習(xí)率設(shè)置為0.000 1,dropout系數(shù)設(shè)置為0.5.模型的結(jié)構(gòu)如圖1所示,單模態(tài)和多模態(tài)分類對(duì)比結(jié)果如圖3所示,被試內(nèi)分類具體結(jié)果如表2所示.
表2 被試內(nèi)Mul-AT-BiGRU模型分類結(jié)果
由表2可知,Mul-AT-BiGRU模型在多模態(tài)特征測(cè)試集平均分類準(zhǔn)確率為95.19%,最高的分類準(zhǔn)確率達(dá)到了98.41%.此外,從圖3可以看出,對(duì)于每一名被試,多特征融合后的分類精度明顯高于其他三種單一模態(tài)特征.多模態(tài)融合特征的分類精度相比于眼動(dòng)、腦電PSD、腦電DE三種單一模態(tài)特征分別提升20.22%、20.04%和17.5%.可見,多模態(tài)融合特征能夠捕獲不同模態(tài)的信息進(jìn)行相互補(bǔ)充,從而獲得更多的情感相關(guān)的信息.
圖3 Mul-AT-BiGRU模型測(cè)試集分類結(jié)果統(tǒng)計(jì)圖
圖4為第15名被試在單一模態(tài)腦電DE特征上的訓(xùn)練曲線圖.通過觀察可以得知,在訓(xùn)練過程中,隨著迭代輪數(shù)epoch的增加,訓(xùn)練準(zhǔn)確率acc整體不斷向1趨近,最終在0.93附近達(dá)到收斂.平均誤差loss雖然出現(xiàn)過幾次驟然上升又急速下降的情況,但整體呈現(xiàn)下降并不斷向0趨近的走向.epoch從0增至300期間,訓(xùn)練準(zhǔn)確率acc以螺旋梯度上升的方式,從0.26升至0.88,之后隨著迭代輪數(shù)的增加,逐漸向1收斂;而在此期間,平均誤差loss以螺旋梯度下降的方式,從1.55降低至0.28,隨后隨著迭代輪數(shù)的增加,逐漸向0收斂.在整個(gè)迭代過程中,loss在不斷收斂的同時(shí),也在不間斷的發(fā)生震蕩,在此期間出現(xiàn)了四次幅度較大的變化,同時(shí)也伴隨著acc發(fā)生大幅度變化.產(chǎn)生這一現(xiàn)象的原因可能是由于在參數(shù)訓(xùn)練過程中,模型產(chǎn)生了局部最優(yōu)解.在模型經(jīng)歷了大幅度的振蕩,隨著迭代次數(shù)的增加,AdaGrad優(yōu)化器不斷將參數(shù)進(jìn)行矯正,訓(xùn)練數(shù)據(jù)不斷更新,最終隨著epoch的增加,兩條曲線都趨于平穩(wěn),直至擬合完成.
圖4 sub15 DE特征訓(xùn)練過程示意圖
其他單模態(tài)特征的訓(xùn)練曲線類似于圖4腦電DE特征訓(xùn)練曲線,隨著迭代輪數(shù)的增加,loss逐漸向0趨近,acc逐漸向1趨近.
圖5為第15名被試在多模態(tài)融合特征上的訓(xùn)練過程曲線.由圖可知,此次訓(xùn)練共經(jīng)過了100多個(gè)epoch的迭代,平均訓(xùn)練誤差loss整體呈下降的趨勢(shì)并無限向0趨近,訓(xùn)練準(zhǔn)確率acc整體呈上升趨勢(shì)并不斷向1靠近.在訓(xùn)練期間,隨著epoch的增大,loss首先以螺旋梯度下降的速度逐漸向0逼近,隨著訓(xùn)練擬合到一定程度,loss下降速度變緩,最終收斂至0附近;而acc首先以螺旋梯度上升的速度逐漸向1逼近,隨著訓(xùn)練擬合到一定程度,acc上升速度變緩,最終收斂至1附近.
相比于單模態(tài)特征數(shù)據(jù),多模態(tài)特征數(shù)據(jù)收斂速度更快而且震蕩幅度較小,出現(xiàn)該現(xiàn)象的原因是單模態(tài)特征進(jìn)行訓(xùn)練時(shí),網(wǎng)絡(luò)輸入是原始的特征數(shù)據(jù),網(wǎng)絡(luò)訓(xùn)練所需時(shí)間更長(zhǎng),擬合速度相對(duì)緩慢;而多模態(tài)特征進(jìn)行訓(xùn)練時(shí),特征已經(jīng)經(jīng)過注意力機(jī)制的調(diào)整和學(xué)習(xí),故而網(wǎng)絡(luò)訓(xùn)練時(shí)間更短,擬合速度也就更快.
圖5 sub15 多模態(tài)特征訓(xùn)練過程示意圖
為了驗(yàn)證所提Mul-AT-BiGRU模型結(jié)構(gòu)的優(yōu)勢(shì),本文做了兩種所提模型的變種,分別叫做Mul-AT-GRU和Mul-AT-stackGRU.其中Mul-AT-GRU在循環(huán)網(wǎng)絡(luò)層使用單層GRU,Mul-AT-stackGRU在循環(huán)網(wǎng)絡(luò)層使用雙層同向堆疊的GRU.兩個(gè)模型中其余參數(shù)設(shè)置和Mul-AT-BiGRU相同,實(shí)驗(yàn)結(jié)果如表3所示.
表3 不同Mul-AT-BiGRU變種模型分類性能對(duì)比
由表3可知,與Mul-AT-GRU和Mul-AT- stackGRU相比,Mul-AT-BiGRU的分類精度分別提高了7.29%和4.71%.實(shí)驗(yàn)結(jié)果表明,所提模型的性能更優(yōu),這也證明了所提模型在結(jié)構(gòu)上的優(yōu)越性.從Mul-AT-GRU和Mul-AT-stackGRU的結(jié)果可以看出,兩層堆疊的GRU比單層GRU分類效果更好,原因是隨著網(wǎng)絡(luò)層數(shù)的加深,網(wǎng)絡(luò)能夠?qū)W習(xí)到更多的特征參數(shù)用于優(yōu)化網(wǎng)絡(luò).所提Mul-AT-BiGRU模型比使用堆疊GRU效果更好的原因是所提模型中雙向GRU的使用能更好的學(xué)習(xí)時(shí)間前后的依賴關(guān)系,從而更好的優(yōu)化模型參數(shù).
為了驗(yàn)證模型的泛化能力,本文采用十折被試交叉驗(yàn)證來評(píng)估所提方法在被試間的情感識(shí)別準(zhǔn)確率.具體來說,將15個(gè)被試數(shù)據(jù)分成十個(gè)大小相同的組,保證數(shù)據(jù)之間沒有交叉,每次實(shí)驗(yàn)取其中一份數(shù)據(jù)作為訓(xùn)練集,其余數(shù)據(jù)作為測(cè)試集,以上過程重復(fù)十次,直到所有被試數(shù)據(jù)都經(jīng)過測(cè)試.此次實(shí)驗(yàn)過程中,調(diào)優(yōu)以后的參數(shù)設(shè)置如下:epoch設(shè)置為200,batch-size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.000 1,dropout系數(shù)設(shè)置為0.5.圖6顯示了在此次十折交叉驗(yàn)證中單模態(tài)和多模態(tài)對(duì)比結(jié)果,表4為十折交叉驗(yàn)證每一折具體分類結(jié)果.
圖6 Mul-AT-BiGRU模型十折交叉驗(yàn)證結(jié)果統(tǒng)計(jì)圖
表4 Mul-AT-BiGRU模型十折交叉被試驗(yàn)證結(jié)果
由表4可知,本文提出的Mul-AT-BiGRU模型在被試間進(jìn)行十折交叉驗(yàn)證的平均分類準(zhǔn)確率達(dá)到了62.77%,且經(jīng)過特征融合后的分類精度明顯優(yōu)于單一模態(tài)特征.可見本文所提模型不僅在被試內(nèi)有著很高的分類準(zhǔn)確率,在被試間也有著較高的分類精度,同時(shí)也驗(yàn)證了本文所提模型在被試間的泛化性.
為了證明模型在交叉被試實(shí)驗(yàn)中的有效性,將5種現(xiàn)有的方法和本文提出的方法針對(duì)多模態(tài)特征的情感分類結(jié)果進(jìn)行對(duì)比,結(jié)果如表5所示.
表5 Mul-AT-BiGRU和其他模型分類性能對(duì)比
由表5可以看出,本文所提方法較傳統(tǒng)的機(jī)器學(xué)習(xí)分類算法SVM提升24.51%,較其它四種深度學(xué)習(xí)方法平均分類精度分別提高了9.68%,7.47%,11.73%,8.43%,本文所提Mul-AT-BiGRU方法達(dá)到了更優(yōu)的性能.出現(xiàn)此現(xiàn)象的原因可能是模型中兩次注意力機(jī)制的加入,第一層注意力機(jī)制能夠提取到更多不同模態(tài)間的互補(bǔ)信息,使得多模態(tài)融合特征含有更多的情感相關(guān)信息,第二層能夠捕捉特征序列時(shí)間前后的更多相關(guān)性,從而模型性能得以提升.
本文提出了一種基于雙向GRU的多模態(tài)腦電情感識(shí)別方法,將不同模態(tài)的多種特征使用注意力機(jī)制進(jìn)行融合,得到情感信息更加豐富的多模態(tài)特征,同時(shí)還采用帶有注意力機(jī)制的雙向GRU網(wǎng)絡(luò)來學(xué)習(xí)EEG等多模態(tài)數(shù)據(jù)深層上下文依賴關(guān)系,從而得到正負(fù)雙向反饋信息.本文在多模態(tài)公開數(shù)據(jù)集SEED-IV進(jìn)行情感四分類實(shí)驗(yàn),使用15名被試在腦電和眼動(dòng)兩個(gè)模態(tài)的數(shù)據(jù),來評(píng)估所提Mul-AT-BiGRU的性能,被試內(nèi)平均分類準(zhǔn)確率可達(dá)95.19%,表明本文所提方法能夠充分利用腦電和眼動(dòng)兩個(gè)模態(tài)的互補(bǔ)信息,提高了情感識(shí)別的準(zhǔn)確性.同時(shí)進(jìn)行交叉被試實(shí)驗(yàn),并與目前流行的深度模型進(jìn)行橫向?qū)Ρ?驗(yàn)證了該模型有著不錯(cuò)的準(zhǔn)確率和泛化能力,該模型為多模態(tài)情感識(shí)別腦-機(jī)接口應(yīng)用的開發(fā)提供了一種有效途徑.由于不同被試間差異較大,這也就造成了交叉被試情感四分類實(shí)驗(yàn)特征學(xué)習(xí)較為困難,分類準(zhǔn)確率也低于被試內(nèi)實(shí)驗(yàn).后續(xù)實(shí)驗(yàn)也會(huì)對(duì)融合特征及模型進(jìn)行優(yōu)化,縮小不同被試間的差異,進(jìn)一步提高模型準(zhǔn)確率和泛化能力.