陳景霞, 閔重丹, 林文濤, 郝 為, 劉 洋
(陜西科技大學(xué) 電子信息與人工智能學(xué)院, 陜西 西安 710021)
隨著人工智能的發(fā)展,如何讓機(jī)器具有類似于人類的感知功能、思維能力和行為功能已經(jīng)成為目前研究的熱點(diǎn)問題,而情感計(jì)算技術(shù)在實(shí)現(xiàn)智能化人機(jī)交互時(shí)起著至關(guān)重要的作用.過往的研究主要是針對面部表情或語音信號(hào)進(jìn)行情感識(shí)別,這些信號(hào)由于易于偽裝而不能確定其客觀性和有效性,且考慮到復(fù)雜的外部環(huán)境,機(jī)器不能夠?qū)窝b表情下的情緒進(jìn)行精準(zhǔn)識(shí)別.基于此,研究人員正努力嘗試?yán)蒙硇盘?hào)進(jìn)行研究,比如皮膚電流、呼吸反應(yīng)、眼電圖、腦電圖等等.相比于其他生理信號(hào),腦電圖信號(hào)(Electroencephalogram,EEG)能夠反應(yīng)中樞神經(jīng)系統(tǒng)的動(dòng)態(tài)變化且具有真實(shí)可靠的特點(diǎn),目前已經(jīng)被廣泛應(yīng)用于情感計(jì)算等研究領(lǐng)域.
在以往的研究中,許多研究者采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行情感識(shí)別,Kumar等[1]采用線性核最小二乘支持向量機(jī)(Linear kernel least squares support vector machines,LS-SVM)和反向傳播人工神經(jīng)網(wǎng)絡(luò)(Back propagation artificial neural network,BP-ANN),在效價(jià)與喚醒度模型上進(jìn)行二分類情感識(shí)別,準(zhǔn)確率分別達(dá)到61.17%和64.84%.Atkinson等[2]在標(biāo)準(zhǔn)腦電圖數(shù)據(jù)集上,結(jié)合高效的特征選擇方法和基于核的分類器對情緒進(jìn)行分類,在SVM分類器上效價(jià)和喚醒度上的準(zhǔn)確率分別達(dá)到了73.06%和73.14%.
目前,基于機(jī)器學(xué)習(xí)的情緒識(shí)別取得了一定成果,但由于傳統(tǒng)機(jī)器學(xué)習(xí)方法相對簡單,泛化能力不強(qiáng),許多研究者將深度學(xué)習(xí)引入情感識(shí)別研究中并取得了一定成果.陳景霞在之前的研究中也有了重大發(fā)現(xiàn),并提出了基于組合特征與深度卷積神經(jīng)網(wǎng)絡(luò)的腦電識(shí)別方法,比最佳的傳統(tǒng)分類器集成決策樹模型在效價(jià)和喚醒度上分別提高了3.58%和3.29%[3].還有研究者將深度學(xué)習(xí)與傳統(tǒng)方法相結(jié)合,來提升情緒識(shí)別的準(zhǔn)確率.
Wei等[4]提出了一種基于腦電圖的情緒識(shí)別系統(tǒng),用來識(shí)別積極、消極和中性三種情緒,該方法利用深度簡單循環(huán)單元(Deep Simple Recurrent Units,DSRU)處理時(shí)間序列數(shù)據(jù),解決了常規(guī)循環(huán)網(wǎng)絡(luò)中長期依賴的問題,并采用三種不同的集成策略來集成基本SRU模型對情感進(jìn)行分類,其分類精度達(dá)到了83.13%,比最佳的單個(gè)SRU模型高出了3.11%.
Nath等[5]分別采用了SVM和LSTM模型對腦電信號(hào)進(jìn)行情感分類,依賴于被試的情況下LSTM模型在效價(jià)和喚醒度上準(zhǔn)確率分別達(dá)到94.69%和93.13%,在獨(dú)立于被試情況下SVM模型表現(xiàn)最好,在效價(jià)和喚醒度上準(zhǔn)確率為72.19%和71.25%.
Pandey等[6]提出了一種基于腦電信號(hào)的被試獨(dú)立情感識(shí)別技術(shù),該方法利用變異模式分解(Variational Mode Decomposition,VMD)技術(shù)提取特征,利用深度神經(jīng)網(wǎng)絡(luò)作為分類器,從腦電信號(hào)中提取了與被試無關(guān)的腦電情感特征,實(shí)驗(yàn)結(jié)果表明,該方法在分類準(zhǔn)確率上提高了約6.4%.
Yixin等[7]提出了一種區(qū)域自適應(yīng)PSD矩陣網(wǎng)絡(luò)(daSPDnet),來捕捉不同主體之間共有的內(nèi)在情感關(guān)系,利用分布自適應(yīng)帶來的特征自適應(yīng)和質(zhì)心比對實(shí)現(xiàn)樣本自適應(yīng),并利用協(xié)方差矩陣計(jì)算PSD特征,該方法的情感分類準(zhǔn)確率達(dá)到了82.67%.
Meiyan等[8]提出一種新的腦電地形圖表示能量計(jì)算方法,用于解決來自多個(gè)主體和多個(gè)通道的高信噪比問題,使用卷積神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)大腦活動(dòng)的腦電圖模式,該分類方法的平均準(zhǔn)確率比最佳的最新分類方法高出10.11%.
Chao等[9]將每個(gè)通道的原始生理信號(hào)轉(zhuǎn)化為頻譜圖以獲取時(shí)間和頻率特征,再利用基于多模式注意力的BiLSTM從中自動(dòng)學(xué)習(xí)最佳時(shí)序特征并輸入到深度神經(jīng)網(wǎng)絡(luò)中,預(yù)測每個(gè)通道的情緒輸出概率,并取得了較高的準(zhǔn)確率.
盡管針對腦電情感識(shí)別的方法層出不窮,但是依然存在兩個(gè)重要問題需要深入研究:一是如何獲取腦電信號(hào)更優(yōu)的特征表示方法.目前的腦電特征一般都采用一維鏈?zhǔn)教卣鱽肀硎?,忽略了多通道EEG信號(hào)間空間分布的增益信息.二是如何構(gòu)建更有效的深層特征學(xué)習(xí)和情感分類的模型.傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)未考慮到各個(gè)通道之間以及不同區(qū)域之間的相關(guān)性和交互作用.為了解決這兩大問題,本文分別從特征表示和深度學(xué)習(xí)模型構(gòu)建這兩方面提出了新的方法.
一些研究人員發(fā)現(xiàn),在提取手工特征時(shí)保留EEG電極的位置信息可以為情感識(shí)別提供增益信息[10].因此,如果可以在提取的情緒相關(guān)特征中保留電極位置信息,將有可能獲得更好的識(shí)別性能.基于此,本文分別在頻域和時(shí)域兩個(gè)維度提取多個(gè)特征并進(jìn)行拼接和維度轉(zhuǎn)換,得到用3D矩陣表示的腦電特征,將其作為多維卷積神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)過多個(gè)不同維度的卷積級(jí)聯(lián)進(jìn)一步提取深度語義特征并進(jìn)行情感分類識(shí)別.具體過程如下:
首先提取時(shí)域特征,假設(shè)每個(gè)通道的原始EEG信號(hào)表示為s(t),t=1,2,3,…,T,其中T表示信號(hào)的時(shí)長,總共有32個(gè)電極通道.對原始EEG信號(hào)分別提取以下6種特征:均值(μs)、方差(σs)、標(biāo)準(zhǔn)差(τs)、一階差絕對值的平均值(δs)、二階差絕對值的平均值(γs)和近似熵(ApEn),計(jì)算公式分別如下:
(1)
(2)
(3)
(4)
(5)
近似熵(Approximate entropy,ApEn)[11]通常用一個(gè)非負(fù)的數(shù)字來量化時(shí)間序列的復(fù)雜性,其大小隨著EEG時(shí)間序列復(fù)雜度的增高而增大,并且能夠一定程度抑制噪聲.對于EEG信號(hào)s(t),定義閾值r用于相似度比較,然后確定子序列長度m(即窗口長度),其中m為整數(shù),r為實(shí)數(shù).m通常選m=2或m=3,r的選擇在很大程度取決于實(shí)際應(yīng)用場景,通常選擇r=0.2×std,其中std表示原序列的標(biāo)準(zhǔn)差,本文中設(shè)置m=2,r=0.2.
計(jì)算近似熵時(shí),首先重構(gòu)原始序列,將EEG信號(hào)s(t)轉(zhuǎn)換為一組長度為m的向量序列,得到X(i)={s(i),s(i+1),…,s(i+m-1)},其中i的取值范圍為1≤i≤T-m+1.D{X(i),X(j)}表示X(i)與X(j)任意分量之間的歐式距離,并將各個(gè)分量之間最大距離定義為最大貢獻(xiàn)成分距離,表示為:
D{X(i),X(j)}=max{s(i+k)-s(j+k)}
(6)
(7)
式(7)中:i滿足1,2,…,T-m+1.再對其取自然對數(shù),然后對所求的對數(shù)求其所有的i的平均值,用φm(r)表示:
(8)
ApEn=φm(r)-φm+1(r)
(9)
在提取頻域特征時(shí),本文先對原始EEG時(shí)序信號(hào)在Delta(1 Hz~4 Hz),Theta(4 Hz~8 Hz),Alpha(8 Hz~13 Hz),Beta(13 Hz~30 Hz)和Gamma(30 Hz以上) 五個(gè)頻帶上分別利用快速傅里葉變換提取頻域特征,利用窗長為0.5 s的漢明窗對數(shù)據(jù)進(jìn)行掃描,窗口挪動(dòng)的步長設(shè)置為0.25 s,每滑動(dòng)一次提取32個(gè)功率譜密度PSD特征,再將全頻帶上的PSD特征與五個(gè)分頻帶上的PSD特征進(jìn)行連接,可得到6種不同的頻域特征.由此,每個(gè)樣本的時(shí)域和頻域特征維度都是32(channels)×6.接下來,分別將時(shí)域與頻域的6種線性特征轉(zhuǎn)換成二維網(wǎng)狀特征.
為了提取更具判別性的腦電特征,本文將一維鏈?zhǔn)紼EG特征(即上述提取的多種時(shí)域和頻域特征)轉(zhuǎn)換為三維矩陣特征,該三維矩陣特征不僅獲取了EEG信號(hào)在時(shí)域、頻域的有效信息,更融合了不同電極間的空間位置相關(guān)信息,具體提取過程如下:
首先將一維腦電特征序列轉(zhuǎn)換為二維網(wǎng)狀結(jié)構(gòu).本文中使用32通道的EEG數(shù)據(jù),32個(gè)通道分別為Fp1、AF3、F7、F3、FC1、FC5、T7、C3、CP1、CP5、P7、P3、Pz、PO3、O1、Oz、O2、PO4、P4、P8、CP6、CP2、C4、T8、FC6、FC2、F4、F8、AF4、p2、Fz和Cz.不同通道之間的位置和區(qū)域不同對各種情感的影響也不相同,理論上越相鄰的兩個(gè)電極之間的腦電信號(hào)越趨于相似.
圖1 32通道腦電信號(hào)所對應(yīng)的二維網(wǎng)狀矩陣
圖1顯示了特征維度變換時(shí)的映射關(guān)系.由圖1可以看出,根據(jù)各個(gè)電極對應(yīng)位置將腦電圖映射成一個(gè)9×9的二維網(wǎng)狀矩陣.為了保證空間信息完整且不影響其功能,使用0來填充映射矩陣的其他位置,矩陣中非0值表示對應(yīng)通道的EEG特征值.將上述每種特征轉(zhuǎn)換成一個(gè)9×9×1的特征矩陣,再分別將每個(gè)樣本的6種時(shí)域特征和6種頻域特征在第三維進(jìn)行拼接,分別獲得9×9×6的3D時(shí)域和頻域特征矩陣,如圖2所示.
3D矩陣特征不僅包含每個(gè)EEG通道的時(shí)域和頻域特征,而且還保留了通道之間的空間相關(guān)信息,能夠更直接準(zhǔn)確地反映大腦皮層上EEG信號(hào)與情感相關(guān)的時(shí)空變化.
圖2 3D矩陣特征結(jié)構(gòu)圖
在深度學(xué)習(xí)方法中,卷積神經(jīng)網(wǎng)絡(luò)CNN在圖像相關(guān)任務(wù)中取得了突破[12],逐漸被越來越多地應(yīng)用于EEG的情緒識(shí)別當(dāng)中.Lin等[13]在網(wǎng)絡(luò)模型中首次引入了1×1的卷積核.Szegedy等[14]使用并行多尺度卷積濾波器學(xué)習(xí)輸入圖像的不同信息,以獲得更好的深層圖像表示.Liu等[15]提出了一種具有1×1卷積和多尺度卷積結(jié)構(gòu)的CNN模型,用于時(shí)間序列分類.在上述工作的啟發(fā)下,本文提出了多維卷積神經(jīng)網(wǎng)絡(luò)模型,即將單變量卷積與多元并行卷積相結(jié)合的CNN模型來對3D腦電特征進(jìn)行情感識(shí)別.
圖3 多維卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
本文使用的卷積神經(jīng)網(wǎng)絡(luò)將單元卷積與多元卷積相結(jié)合,并行提取深度特征并進(jìn)行情感分類,下文統(tǒng)稱該模型為MCNN.如圖3所示,MCNN網(wǎng)絡(luò)由四部分組成,分別為特征輸入層、單元卷積層、多元并行卷積層、全連接層和輸出層.該結(jié)構(gòu)的特點(diǎn)在于將單元卷積與多元并行卷積相融合來同步提取更具判別性的EEG多元深層時(shí)空特征.
輸入層:該層輸入的數(shù)據(jù)為三維EEG特征矩陣,每個(gè)樣本大小為9×9×特征數(shù).
單元卷積層:該層使用了大小為1×1的卷積核來掃描每個(gè)通道以增強(qiáng)模型的局部抽象能力并加深網(wǎng)絡(luò).在每進(jìn)行1×1卷積后,使用ReLU激活函數(shù)來獲得非線性結(jié)果.
多元卷積層:該層分別采用3×3、5×5和7×7大小的卷積核來提取不同視野下的局部腦電特征.該卷積核的大小取決于輸入層3D矩陣特征的表示形式.每個(gè)不同的卷積網(wǎng)絡(luò)都包含兩層,第一層將局部EEG通道分組在一起來學(xué)習(xí)通道間的局部相關(guān)性,第二層用來捕獲組與組之間的上下文相關(guān)信息,每個(gè)卷積層上使用相同的填充,相同地,在每次卷積運(yùn)算之后,使用ReLU激活函數(shù)獲取非線性輸出,接著將多元卷積的結(jié)果進(jìn)行連接.該多元卷積層保留了每組卷積的獨(dú)特功能,多層卷積級(jí)聯(lián)之后,再進(jìn)行一次卷積,該卷積核大小與輸入數(shù)據(jù)的大小相同,最后濾波器以不同的方式將每個(gè)張量壓縮成向量.
輸出層:該層的輸入是多元卷積層的輸出,為了防止過擬合,在該層后加入Dropout層,然后接入SoftMax層進(jìn)行分類.該模型的損失函數(shù)采用的是交叉熵函數(shù):
(10)
式(10)中:q(i)是估計(jì)的分布,而p(i)是真實(shí)的分布,使用初始學(xué)習(xí)率為0.000 1的自適應(yīng)矩估計(jì)優(yōu)化損失函數(shù).
與傳統(tǒng)CNN不同,所提出的MCNN模型針對多通道腦電信號(hào),考慮到了不同通道之間以及各個(gè)區(qū)域之間的相關(guān)性和交互作用,能更充分地挖掘3D腦電特征矩陣中與情感相關(guān)上下文語義特征,從而提高了情感識(shí)別的性能.
本文采用公開的大規(guī)模DEAP數(shù)據(jù)集[16]進(jìn)行實(shí)驗(yàn),以驗(yàn)證并評(píng)估所提方法的性能.該數(shù)據(jù)集記錄了32個(gè)被試觀看40個(gè)時(shí)長約為1分鐘的、帶有不同情感傾向的音樂視頻所誘發(fā)的腦電、心電、肌電等生理信號(hào),每位被試者對每次視頻在喚醒度、效價(jià)、喜好,優(yōu)勢度和熟悉度方面使用1~9的連續(xù)數(shù)值進(jìn)行評(píng)價(jià).取DEAP數(shù)據(jù)集中用BioSemi系統(tǒng)采集的每個(gè)被試32通道63秒的EEG信號(hào)作為研究對象,其電極按照10~20系統(tǒng)定位[17],采樣頻率降至128 Hz,為了消除直流噪聲、電源噪聲和其他偽跡,使用4~45 Hz的帶通濾波器進(jìn)行數(shù)據(jù)過濾,再采用盲源分離技術(shù)去除了眼電干擾.
本實(shí)驗(yàn)中,原始EEG信號(hào)表示為32(subs)×40(trials)×40(channel)×8 064(samples),其中8 064表示128(samples)×63(s),標(biāo)簽Labels表示為40(trials)×4.對該原始數(shù)據(jù)進(jìn)行預(yù)處理,從40個(gè)通道中提取所需的32個(gè)EEG通道的數(shù)據(jù),由于人類視覺上的延遲反應(yīng),本文將前3秒作為基準(zhǔn),提取后60秒的EEG信號(hào)作為實(shí)驗(yàn)數(shù)據(jù),預(yù)處理后的數(shù)據(jù)表示為32(subs)×40(trials)×32(channels)×7 680(samples).標(biāo)簽選取效價(jià)和喚醒度兩個(gè)維度,即40(trials)×2.
本文作者之前的實(shí)驗(yàn)發(fā)現(xiàn)[3],使用大于或小于1秒的窗長進(jìn)行分段都會(huì)降低分類的性能,這也許與人類大腦情感活動(dòng)的周期長度有關(guān).因此,本文仍采用1 s時(shí)長對EEG序列進(jìn)行不重疊分段,即樣本劃分,每次試驗(yàn)得到60個(gè)片段,每個(gè)片段包含128個(gè)采樣點(diǎn),每個(gè)采樣點(diǎn)包含32個(gè)通道,即每個(gè)被試的EEG數(shù)據(jù)可表示為40×128×60×32,對其進(jìn)行維度變換,得到2 400×32×128的腦電數(shù)據(jù),每個(gè)被試共有2 400個(gè)EEG片段,每個(gè)片段大小為32×128.對標(biāo)簽進(jìn)行相同維度的轉(zhuǎn)換,可表示為2 400×1.
接下來對該原始特征分別提取均值、方差、標(biāo)準(zhǔn)差、一階差的絕對值的平均值、二階差的絕對值的平均值、近似熵6種時(shí)域特征,然后按照第一章中的方法將32個(gè)通道的數(shù)據(jù)轉(zhuǎn)換成二維網(wǎng)狀結(jié)構(gòu),得到128×2 400×9×9的數(shù)據(jù)表示,6種特征進(jìn)行拼接后得到三維時(shí)域矩陣特征(3D_Time-domain_matrix features),其維度為307 200×9×9×6,即輸入深度模型的樣本數(shù)為307 200,對應(yīng)標(biāo)簽為307 200×1.
神經(jīng)科學(xué)和心理學(xué)的研究表明,EEG信號(hào)在delta(1 Hz~4 Hz),theta(4 Hz~8 Hz),alpha (8 Hz~13 Hz),beta(13 Hz~30 Hz)和gamma(30 Hz以上) 5個(gè)頻段上包含大量與情緒等心理活動(dòng)密切相關(guān)的節(jié)律信息[18].從本文作者發(fā)表的文獻(xiàn)[3]可知,EEG信號(hào)在4~45 Hz頻帶上的功率譜密度(power spectral density,PSD)特征在2D-CNN網(wǎng)絡(luò)上的分類性能明顯優(yōu)于時(shí)域上的特征,這也許是因?yàn)镻SD頻域特征的提取需要在較大連續(xù)采樣周期內(nèi)進(jìn)行,而情感腦電任務(wù)也是一種相對長時(shí)的大腦活動(dòng),所以頻域特征能夠捕獲更多情感相關(guān)的大腦動(dòng)態(tài).因此,本文在原始特征的基礎(chǔ)上,在4~45 Hz頻帶上利用快速傅立葉算法在1 s的EEG片段的每個(gè)通道上使用0.5 s的漢明窗無重疊地滑動(dòng)提取64個(gè)PSD特征,每個(gè)被試40次試驗(yàn)共提取PSD特征的維度是2 400×32×64,然后采用跟時(shí)域相同的方法進(jìn)行維度的轉(zhuǎn)換,將5個(gè)頻帶及全頻帶頻域特征進(jìn)行連接,得到三維頻域特征(3D_Freq-domain_matrix features),其維度為153 600×9×9×6,標(biāo)簽也隨之進(jìn)行一致性轉(zhuǎn)化,其維度為153 600×1.轉(zhuǎn)換以后EEG樣本包含了豐富的空間、時(shí)間與頻域上的信息.
為了驗(yàn)證3D時(shí)域與頻域融合特征的分類效果,本文將時(shí)域和頻域特征進(jìn)行組合,形成3D融合矩陣特征.為了降低計(jì)算復(fù)雜度,與頻域特征的數(shù)據(jù)格式保持統(tǒng)一,將6種時(shí)域特征降采樣至64,采用相同的樣本劃分方法,則3D融合特征維度為307 200×9×9×12,標(biāo)簽做同維度轉(zhuǎn)換,即得到3D時(shí)頻域融合特征的樣本數(shù)據(jù).
接下來處理每個(gè)EEG樣本的標(biāo)簽,基于被試對每個(gè)視頻在1~9范圍內(nèi)的評(píng)價(jià)值以中位數(shù)5作為閾值將效價(jià)和喚醒度上的評(píng)價(jià)值劃分為兩類,在某個(gè)維度上解決2分類問題時(shí),大于5代表高類或正性指標(biāo),用1表示;小于或等于5代表低類或負(fù)性指標(biāo),用0表示.
本文使用了DEAP 數(shù)據(jù)集中32名被試的腦電數(shù)據(jù)來訓(xùn)練和驗(yàn)證該方法的性能及泛化能力.所提模型是在基于tensorflow1.13,GeForce GTX 1080 GPU上實(shí)現(xiàn)的.實(shí)驗(yàn)采用十折被試交叉驗(yàn)證技術(shù)來評(píng)估所提方法在DEAP數(shù)據(jù)集中腦電信號(hào)的效價(jià)和喚醒度兩種維度下的兩類情感分類性能.具體而言,從32個(gè)被試中,每次提取四個(gè)被試的數(shù)據(jù)做測試集,其余隨機(jī)再取4個(gè)被試的數(shù)據(jù)做驗(yàn)證集,剩余數(shù)據(jù)做訓(xùn)練集.重復(fù)上述過程十次,直到測試完所有被試數(shù)據(jù).Bach_size大小設(shè)置為80,迭代輪數(shù)Epochs設(shè)置為200.本文選取情感分類的準(zhǔn)確率作為評(píng)價(jià)所提出方法性能的指標(biāo),最終分類準(zhǔn)確率取10次實(shí)驗(yàn)所得準(zhǔn)確率的平均值.
為進(jìn)行比較,本文還使用如下特征和目前較先進(jìn)的模型作為基準(zhǔn)方法在相同數(shù)據(jù)集上進(jìn)行相同條件下的EEG情感分類實(shí)驗(yàn),對比方法如下:
3種腦電特征:樣本熵特征(Sample Entropy)[19],改進(jìn)的微分熵特征(MD-DE)[20],二維網(wǎng)狀特征(2D-mesh-matrix)[21];
4種深度學(xué)習(xí)方法:深度LSTM遞歸神經(jīng)網(wǎng)絡(luò)[22],二維卷積神經(jīng)網(wǎng)絡(luò)(2D-CNN)[23],基于注意力機(jī)制的分層雙向GRU網(wǎng)絡(luò)(H-ATT-BGRU)[24],級(jí)聯(lián)卷積遞歸神經(jīng)網(wǎng)絡(luò)(Casc-CNN-LSTM)[21].
首先,為了驗(yàn)證3D頻域矩陣特征的優(yōu)勢,將3D時(shí)域矩陣特征、3D頻域矩陣特征和3D時(shí)頻融合矩陣特征分別輸入MCNN模型進(jìn)行效價(jià)和喚醒度兩個(gè)維度下的情感二分類實(shí)驗(yàn).MCNN模型的結(jié)構(gòu)和參數(shù)配置如本文1.3所述,實(shí)驗(yàn)結(jié)果如表1所示.
表1 不同三維矩陣特征在MCNN模型下的分類準(zhǔn)確率
從表1可以看出,基于頻域3D矩陣特征與多維卷積網(wǎng)絡(luò)(MCNN)的情感識(shí)別準(zhǔn)確率在喚醒度和效價(jià)上分別高達(dá)85.88%和87.32%,均高于時(shí)域矩陣特征和時(shí)頻融合矩陣特征,驗(yàn)證了本文情感識(shí)別方法的有效性.在喚醒度上,與融合特征和時(shí)域特征相比,頻域特征上識(shí)別準(zhǔn)確率分別提高了4.36%和1.05%,在效價(jià)上,頻域特征上識(shí)別準(zhǔn)確率分別提高了5.36%和2.13%.可見,頻域特征能夠有效捕獲更多情感相關(guān)的大腦動(dòng)態(tài),PSD特征相較于時(shí)域特征在情感分類任務(wù)中的準(zhǔn)確率更高.
3D時(shí)頻域融合特征也獲得了較好的結(jié)果,但還是略低于3D頻域矩陣特征和3D時(shí)域矩陣特征,原因可能是融合特征包含的信息太多,出現(xiàn)特征數(shù)據(jù)冗余,使有效特征不夠顯著,但是頻域與時(shí)域的融合特征也在一定程度上擴(kuò)充了數(shù)據(jù)量并提升了模型的泛化能力.
由于在效價(jià)維度下實(shí)驗(yàn)結(jié)果更好,本文選取效價(jià)維度下MCNN模型訓(xùn)練圖進(jìn)行對比分析,其中藍(lán)線表示平均誤差loss,紅線表示模型訓(xùn)練準(zhǔn)確率acc.
圖4為效價(jià)維度下3D時(shí)域特征的訓(xùn)練過程曲線.由圖4可知,隨著迭代輪數(shù)iteration的增加,平均誤差loss雖然出現(xiàn)幾次驟然上升又急速下降的情況,但整體依然呈現(xiàn)不斷向0趨近的態(tài)勢,訓(xùn)練準(zhǔn)確率acc整體向1趨近并最終收斂.
圖4 效價(jià)維度下3D時(shí)域特征的模型訓(xùn)練圖
效價(jià)維度下3D頻域特征的訓(xùn)練過程曲線如圖5所示.由圖5可知,整個(gè)過程經(jīng)過了20 000多次迭代,平均訓(xùn)練誤差loss呈下降趨勢.與此同時(shí),訓(xùn)練準(zhǔn)確率acc以同樣的趨勢螺旋上升,直至訓(xùn)練準(zhǔn)確率趨近于1.loss在不斷收斂的同時(shí),并在不間斷的進(jìn)行震蕩,在loss開始進(jìn)行大幅度震蕩時(shí),acc也同頻率的大幅度變化,這一現(xiàn)象可能是由于在參數(shù)訓(xùn)練過程中,梯度陷入了局部最優(yōu)解.經(jīng)過幾次大幅度的震蕩后,隨著訓(xùn)練數(shù)據(jù)的更新,Adam優(yōu)化器不斷將參數(shù)經(jīng)過偏置矯正,最終訓(xùn)練誤差曲線以螺旋下降的方式下降至0收斂,準(zhǔn)確率以同樣的趨勢螺旋上升向1靠近,直至擬合完成.
圖5 效價(jià)維度下3D頻域特征的模型訓(xùn)練圖
為了對比所提3D頻域矩陣特征的性能,本文選擇了3種目前用于情感識(shí)別性能較好的手工腦電特征在MCNN模型下進(jìn)行對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示.
表2 基準(zhǔn)特征在MCNN模型下的分類準(zhǔn)確率對比
從表2可以看出,頻域3D矩陣特征比改進(jìn)微分熵特征(MD-DE)在喚醒度和效價(jià)上的分類準(zhǔn)確率分別提高了8.73%和8.86%,比本文作者之前提出的二維網(wǎng)狀特征的識(shí)別準(zhǔn)確率提高了5.41%和5.69%.該結(jié)果很大程度上歸因于所提3D頻域矩陣特征不僅捕獲了不同腦電通道間的空間信息,還將多個(gè)頻帶PSD特征進(jìn)行級(jí)聯(lián),能夠更直接準(zhǔn)確地反應(yīng)大腦皮層EEG信號(hào)的空間相關(guān)性和時(shí)頻動(dòng)態(tài),表明3D頻域特征矩陣可以有效提高多通道EEG情感識(shí)別的性能.
為了驗(yàn)證三維特征的優(yōu)勢,本文還使用所提的MCNN模型對二維的時(shí)域和頻域特征進(jìn)行情感分類對比實(shí)驗(yàn).32通道的時(shí)域特征可以構(gòu)造32(channels)×6的2D特征矩陣.根據(jù)2D特征矩陣的大小,將多變量卷積層的濾波器大小分別設(shè)置為2×2、3×3和5×5,將級(jí)聯(lián)后的第二個(gè)卷積層的卷積核大小設(shè)置為32×6,Bach_size大小和迭代輪數(shù)也分別設(shè)置為80和200.
兩種特征的識(shí)別結(jié)果如表3所示.在時(shí)域上,與2D特征對比,3D矩陣特征在喚醒度和效價(jià)上的識(shí)別準(zhǔn)確率分別提高了12.38%和 11.5%;在頻域上,與2D特征相比,3D矩陣特征在喚醒度和效價(jià)上的識(shí)別準(zhǔn)確率提高了7.17%和 8.26%.使用二維特征也獲得了相對較好的結(jié)果,恰好驗(yàn)證了所提多維卷積神經(jīng)網(wǎng)絡(luò)的有效性.對比二維特征,三維矩陣特征中的增益信息可以更加明顯地提高情感識(shí)別準(zhǔn)確率.此外,3D時(shí)域矩陣比2D頻域矩陣的識(shí)別準(zhǔn)確率平均高出了6.1%,證明了3D腦電特征表征方法的優(yōu)勢.
表3 三維矩陣特征與二維特征在MCNN模型下分類準(zhǔn)確率對比
為了證明所提出MCNN模型結(jié)構(gòu)的優(yōu)勢,本文做了3種MCNN模型的變種,分別稱為模型MCNN-1、MCNN-2和MCNN-3.其中,MCNN-1在單變量卷積層中使用3×3卷積濾波器,而不是使用1×1卷積濾波器,用于驗(yàn)證MCNN中 1×1卷積層的優(yōu)勢.MCNN-2僅在多變量卷積層中使用帶有5×5濾波器的單向卷積,用于驗(yàn)證MCNN中多元卷積層的優(yōu)點(diǎn).MCNN-3同時(shí)在單變量卷積層中使用3×3卷積濾波器,在多變量卷積層中僅用5×5濾波器的單向卷積,來驗(yàn)證MCNN上述兩個(gè)結(jié)構(gòu)的優(yōu)點(diǎn).三個(gè)變種模型中的其他參數(shù)保持不變,10折交叉驗(yàn)證集也都保持不變.為了公平起見,將迭代輪數(shù)epoch和批量大小Bach_size分別設(shè)置為200和80.表4展示了效價(jià)和喚醒度兩個(gè)維度下3D特征矩陣特征在MCNN不同結(jié)構(gòu)變種模型上兩類情感分類結(jié)果.
表4 3D矩陣特征在不同MCNN變種模型下分類性能對比
由表4可知,與MCNN-1、MCNN-2和MCNN-3相比,MCNN在喚醒度上3D時(shí)域特征上的識(shí)別精度分別提高了17.22%、6.71%和17.35%,在3D頻域特征上的識(shí)別精度分別提高了14.47%、5.15%和17.45%;在效價(jià)維度上,MCNN在3D時(shí)域特征上的識(shí)別準(zhǔn)確率分別提高了15.25%、8.14%和17.81%,在3D頻域特征上的識(shí)別準(zhǔn)確率分別提高了16.54%、5.37%和17.48%.實(shí)驗(yàn)結(jié)果表明,所提出的MCNN的性能遠(yuǎn)優(yōu)于MCNN-1和MCNN-3.這證明了所提出的多維卷積模型MCNN在結(jié)構(gòu)上的優(yōu)越性.從MCNN-1和MCNN-2的結(jié)果可以看出,單變量卷積層對分類性能的影響比多變量卷積層的影響更明顯,原因是每個(gè)通道的時(shí)域和頻域特征提供了與情緒狀態(tài)密切相關(guān)的信息.這也表明,腦電通道之間的空間相關(guān)性以及區(qū)域之間的相關(guān)性可以有效提升情感識(shí)別的性能.
為了進(jìn)行比較,本文使用了4種基準(zhǔn)模型在相同的數(shù)據(jù)集上針對3D頻域矩陣特征進(jìn)行腦電情感分類實(shí)驗(yàn),對比結(jié)果如表5所示.由表5可以看出,所提MCNN模型達(dá)到了更優(yōu)的性能,比目前最優(yōu)的Casc-CNN-LSTM級(jí)聯(lián)卷積神經(jīng)網(wǎng)絡(luò)模型的分類準(zhǔn)確率在喚醒度和效價(jià)上分別高出3.52%和4.18%.究其原因可能是由于改進(jìn)后的MCNN卷積神經(jīng)網(wǎng)絡(luò)更加復(fù)雜,利用單元卷積增加了局部抽象能力,在多元卷積層中使用了雙層多維度級(jí)聯(lián)操作,使模型不僅能夠提取不同通道間的空間信息,還利用了不同區(qū)域之間的交互信息,聯(lián)合提取到了更具鑒別力的情感特征,從而獲得更多與情感相關(guān)的增益信息,提升了模型的性能.因此,根據(jù)具體的腦電特征表示形式構(gòu)建相應(yīng)結(jié)構(gòu)的深度學(xué)習(xí)模型是獲得可區(qū)分特征和更高情感識(shí)別性能的關(guān)鍵.
表5 多維卷積模型與其他深度模型性能對比
MCNN模型能夠從3D特征矩陣中提取每個(gè)EEG通道的深層特征以及通道之間的相關(guān)特征.為了進(jìn)一步證明該方法的有效性及泛化能力,將MCNN提取的高級(jí)特征輸入到經(jīng)典機(jī)器學(xué)習(xí)算法中進(jìn)行對比分析.將每個(gè)樣本的3D頻域特征矩陣都輸入到訓(xùn)練好的MCNN模型中,然后將完全連接層的最后一層中512個(gè)神經(jīng)元的輸出作為學(xué)習(xí)到的高級(jí)語義特征,送入常用經(jīng)典的機(jī)器學(xué)習(xí)算法進(jìn)行情感分類.這些算法包括帶線性核的支持向量機(jī)(SVM-linear)、決策樹(DT)、隨機(jī)決策森林(RDF)、K近鄰(KNN,neighbors=5).所用的10折交叉驗(yàn)證集在這里保持不變.
表6顯示了使用高級(jí)語義特征的經(jīng)典機(jī)器學(xué)習(xí)算法的分類性能.實(shí)驗(yàn)結(jié)果表明,SVM-linear分類效果最好,在喚醒維度上的最高平均識(shí)別準(zhǔn)確率為96.35%,在效價(jià)上的最高平均識(shí)別準(zhǔn)確率為96.74%,其他分類算法也獲得了令人滿意的效果.與使用SoftMax進(jìn)行分類相比,利用MCNN進(jìn)行高級(jí)特征學(xué)習(xí)和經(jīng)典的機(jī)器學(xué)習(xí)算法進(jìn)行分類可以顯著提高情感識(shí)別的性能.再次表明,充分利用每個(gè)EEG通道的深層語義特征以及通道之間的相關(guān)信息可以顯著提高情感識(shí)別的性能,本文所提MCNN模型能夠有效地從三維腦電特征表示中學(xué)習(xí)這些顯著特征.
表6 MCNN與機(jī)器學(xué)習(xí)算法融合的分類性能對比
情感在人類生活中起到至關(guān)重要的作用,近年來,人工智能領(lǐng)域越來越看重對情感識(shí)別的研究.本文利用三維矩陣表示了帶有時(shí)頻域增益信息的時(shí)空腦電特征,又利用多維卷積網(wǎng)絡(luò)增強(qiáng)模型的局部特征抽象能力,學(xué)習(xí)腦電圖大區(qū)域的對稱屬性和小區(qū)域的特殊屬性,提取了更具判別性的深層腦電特征并進(jìn)行情感分類,較大地提升了獨(dú)立于被試的兩類情感識(shí)別準(zhǔn)確率.
本文采用了多方對比實(shí)驗(yàn)來驗(yàn)證所提方法的有效性.為了驗(yàn)證3D頻域矩陣的有效性,分別與2D特征、時(shí)域特征、時(shí)頻融合特征以及其他較先進(jìn)的手工特征進(jìn)行了對比;為了驗(yàn)證MCNN模型的性能,構(gòu)建了多個(gè)MCNN變種模型,并且同目前較先進(jìn)的深度模型進(jìn)行橫向?qū)Ρ龋粸榱蓑?yàn)證MCNN模型的泛化能力,將該模型學(xué)習(xí)到的高級(jí)特征與經(jīng)典機(jī)器學(xué)習(xí)算法進(jìn)行融合比對,融合后的復(fù)雜模型在分類準(zhǔn)確率上都有較大的提升,驗(yàn)證了所提方法的可行性和可靠性.后續(xù)我們將對該方法進(jìn)行更深層的改進(jìn),結(jié)合遷移學(xué)習(xí)的方法開展跨領(lǐng)域獨(dú)立于被試的EEG情感分類研究,進(jìn)一步提高基于EEG的情感識(shí)別的性能.