王 璐,梁明晶,石慧宇,溫 昕,曹 銳
太原理工大學(xué) 軟件學(xué)院,太原 030024
情感是人類在某種特定環(huán)境下基于主觀經(jīng)驗(yàn)對(duì)事物的一種生理和心理反應(yīng),也是大腦高級(jí)認(rèn)知功能之一。情感識(shí)別作為情感研究中的核心內(nèi)容,現(xiàn)已成為計(jì)算機(jī)科學(xué)、心理學(xué)以及認(rèn)知科學(xué)等交叉學(xué)科的研究熱點(diǎn)。目前,大多數(shù)情感識(shí)別研究主要依靠人類面部表情、語音以及身體姿勢(shì)等非生理信號(hào)特征[1-2]。腦電信號(hào)作為中樞神經(jīng)生理信號(hào)能夠客觀反映不同情感狀態(tài)時(shí)大腦的活動(dòng)情況[3],近年來逐漸被引入到情感識(shí)別研究中。
常用的EEG 特征分析方法包括時(shí)域分析、頻域分析、空域分析等[4]。在時(shí)域分析方面,陳景霞等人[5]將原始時(shí)域特征按通道進(jìn)行歸一化處理,得到一種歸一化的時(shí)域特征NORM,在愉悅度和喚醒度上識(shí)別率分別達(dá)到65.51%和61.76%。Petrantonakis等人[6]提取了一種基于信號(hào)過零點(diǎn)統(tǒng)計(jì)的時(shí)間序列分析特征,在六種情緒(即高興、驚奇、憤怒、恐懼、厭惡和悲傷)識(shí)別中實(shí)現(xiàn)了單通道識(shí)別準(zhǔn)確率62.3%和多通道識(shí)別準(zhǔn)確率83.33%。隨著研究深入,研究人員發(fā)現(xiàn)EEG 信號(hào)具有較為突出的頻域特征,功率譜密度(power spectral density,PSD)是腦電信號(hào)研究領(lǐng)域應(yīng)用最廣泛的特征之一[7]。Liu等人[8]提取腦電PSD 特征并使用支持向量機(jī)(support vector machine,SVM)進(jìn)行情感五分類(即高興、中立、厭惡、悲傷、緊張)研究,分類結(jié)果達(dá)到93.31%。在空域分析方面,閆夢(mèng)夢(mèng)等人[9]提出了一種基于共同空間模式(common spatial pattern,CSP)的空域?yàn)V波算法,結(jié)果表明基于CSP的空域特征提取方法在三分類情感(即積極、中性、消極)識(shí)別中平均識(shí)別準(zhǔn)確率達(dá)到了87.54%。綜上,在目前的研究中,傳統(tǒng)腦電的情感識(shí)別研究主要關(guān)注的是時(shí)域、頻域和空域方面單一特征提取,而在多特征融合方面的研究較少。
近年來,深度學(xué)習(xí)在情感識(shí)別方面被廣泛地應(yīng)用。例如,Yang等人[10]在EEG不同頻段上計(jì)算微分熵(differential entropy,DE)構(gòu)成三維特征向量,使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)在DEAP 數(shù)據(jù)集對(duì)愉悅度和喚醒度兩個(gè)維度進(jìn)行情感識(shí)別,平均識(shí)別準(zhǔn)確率分別達(dá)到89.45%和90.24%。闞威等人[11]提出一種基于長短時(shí)記憶網(wǎng)絡(luò)(long short-term memory,LSTM)的情感識(shí)別模型,該模型在DEAP 數(shù)據(jù)上進(jìn)行喚醒度、愉悅度和喜歡度三個(gè)情緒維度的二分類,分類準(zhǔn)確率分別得到73.87%、73.50%和72.80%。Zheng等人[12]利用深度置信網(wǎng)絡(luò)(deep belief network,DBN),基于SEED 數(shù)據(jù)集從多通道EEG數(shù)據(jù)中提取DE特征進(jìn)行訓(xùn)練,得到了86.08%的平均分類準(zhǔn)確率。Li 等人[13]基于DEAP 數(shù)據(jù)集從多通道EEG中提取PSD特征并構(gòu)建了EEG多維特征圖像,采用CNN、LSTM 和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)構(gòu)建混合神經(jīng)網(wǎng)絡(luò)模型CLRNN進(jìn)行腦電情感識(shí)別,對(duì)每個(gè)受試者的平均情感分類準(zhǔn)確率達(dá)到75.21%。
傳統(tǒng)情感研究提取單一特征不足以描述EEG蘊(yùn)含的豐富信息,簡單的特征組合可能會(huì)使特征空間存在冗余特征,從而影響模型精度并增加模型復(fù)雜度[14]。因此本文提出一種多域特征融合的腦電情感識(shí)別新方法,提取EEG的時(shí)域、頻域和空域特征,將三域特征融合作為情感識(shí)別模型的輸入。首先計(jì)算EEG 不同時(shí)間窗在alpha、beta、gamma三個(gè)頻段的功率譜密度,并根據(jù)腦電電極空間信息構(gòu)成EEG 圖片,將其作為CNN-BLSTM模型的輸入,其中CNN負(fù)責(zé)提取EEG頻域和空域特征,BLSTM 負(fù)責(zé)提取EEG 時(shí)域特征,最后以融合后的三域特征訓(xùn)練模型,提高情感識(shí)別精度。本文提出的多域特征融合的腦電情感識(shí)別方法旨在充分利用腦電信號(hào)的時(shí)域、頻域、空域特征,有望為情感識(shí)別提供合理有效的思路和方法。
本文使用的是上海交大相關(guān)研究團(tuán)隊(duì)公開的SEED數(shù)據(jù)集[15]。該數(shù)據(jù)集使用15 個(gè)電影剪輯片段作為情感誘發(fā)素材,電影剪輯片段分為積極、中性、消極三種情感類別,每個(gè)電影片段時(shí)長為3~4 min。每次實(shí)驗(yàn)向被試放映這15 個(gè)電影剪輯片段,每個(gè)片段放映前提示時(shí)間為5 s,放映完畢反饋時(shí)間為45 s,休息時(shí)間為15 s,詳細(xì)實(shí)驗(yàn)流程如圖1所示。
圖1 實(shí)驗(yàn)流程圖Fig.1 Flowchart of experiment
實(shí)驗(yàn)共有15 名被試(7 男,8 女,平均年齡23.27 歲,標(biāo)準(zhǔn)差2.37),每名被試每隔約1周進(jìn)行一次實(shí)驗(yàn),共進(jìn)行3 次。當(dāng)被試觀看電影剪輯片段時(shí),使用62 電極的NeuroScan設(shè)備記錄被試腦電數(shù)據(jù),采樣頻率為1 000 Hz(預(yù)處理后降采樣至200 Hz),并采用0~75 Hz的帶通濾波器進(jìn)行濾波。為保持?jǐn)?shù)據(jù)格式統(tǒng)一,本研究將每個(gè)被試的3~4 min腦電數(shù)據(jù)截取前180 s,并將其劃分為10個(gè)18 s 片段。因此,每名被試共有450 樣本(15 個(gè)電影剪輯×10 個(gè)片段×3 次實(shí)驗(yàn)),且在三分類的情感識(shí)別任務(wù)中每種情感類別樣本數(shù)目相等。
功率譜密度能夠較好地表征腦電信號(hào)功率與頻率的關(guān)系,在EEG 情感識(shí)別中被廣泛使用。較為常見的計(jì)算功率譜密度方法有周期圖法、自相關(guān)函數(shù)法和Welch法。周期圖法直接利用時(shí)間序列的離散傅里葉變換系數(shù)幅值平方計(jì)算功率譜密度。自相關(guān)函數(shù)首先估算出信號(hào)x(n)的自相關(guān)函數(shù),然后經(jīng)過傅里葉變換求得信號(hào)的功率譜密度。Welch法使用信號(hào)重疊分段、加窗函數(shù)和FFT(fast Fourier transformation)算法計(jì)算信號(hào)序列的功率譜密度[16],可以有效地改善譜失真等現(xiàn)象[17]。本文為了減少功率譜估計(jì)偏差選用Welch 法計(jì)算功率譜密度。把腦電信號(hào)x(n)的N點(diǎn)觀察數(shù)據(jù)xN(n)視為有限信號(hào),并將xN(n)劃分成交疊的L段,每段包含M個(gè)數(shù)據(jù),第i段信號(hào)的功率譜記為pi(w),計(jì)算如式(1)所示:
本研究將三維電極坐標(biāo)信息投影到二維平面并結(jié)合計(jì)算所得的腦電特征生成三通道EEG圖片作為情感識(shí)別模型輸入。首先采用等距方位投影方法將電極三維空間信息投影到二維平面上,該方法可以保留投影到二維平面上的點(diǎn)到中心點(diǎn)距離,防止電極坐標(biāo)內(nèi)部信息的丟失。具體的投影過程如下,某電極的三維空間坐標(biāo)為(x,y,z),根據(jù)位置信息由式(3)、(4)、(5)可得電極的球坐標(biāo)參數(shù):
其中,r表示球坐標(biāo)半徑,e表示極角,a表示方位角。由式(6)、(7),根據(jù)球坐標(biāo)的參數(shù)計(jì)算確定該電極的二維笛卡爾坐標(biāo):
按照上述方法將62 個(gè)電極分別投影到二維平面,投影結(jié)果如圖2所示。
圖2 等距方位投影電極位置圖Fig.2 Azimuthal equidistant projection electrode location
獲得電極位置在二維平面的投影后,使用雙三次插值法根據(jù)各電極計(jì)算所得特征填充電極間空白區(qū)域特征。對(duì)于某一待插值像素點(diǎn)(x,y),通過式(8)計(jì)算待插值像素點(diǎn)數(shù)值:
其中,f(x,y)表示待插值像素點(diǎn)(x,y)的數(shù)據(jù)值,f(xi,yj)、W(x-xi)、W(y-yj)分別表示與位置(x,y)的像素點(diǎn)距離最近的16個(gè)像素點(diǎn)的數(shù)據(jù)值以及橫縱坐標(biāo)權(quán)值。根據(jù)BiCubic函數(shù)計(jì)算權(quán)值,如式(9)所示:
其中,a為常系數(shù),取值-0.5。
大量研究表明,腦電信號(hào)alpha(8~13 Hz)、beta(14~30 Hz)以及gamma(31~75 Hz)頻段與情緒心理活動(dòng)密切相關(guān)[18-19]。本文將18 s 預(yù)處理腦電數(shù)據(jù)以3 s 為時(shí)間窗劃分為6個(gè)子序列,并在3個(gè)頻段上分別計(jì)算62個(gè)電極功率譜密度值,利用雙三次插值法構(gòu)建三通道彩色圖片。具體流程如圖3所示。
圖3 腦電信號(hào)特征提取和轉(zhuǎn)化過程Fig.3 Feature extraction and transformation of EEG
本文首先構(gòu)造一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,由卷積層、池化層、全連接層和Softmax 分類層構(gòu)成。卷積神經(jīng)網(wǎng)絡(luò)具有稀疏連接和權(quán)值共享等特性,可以有效降低網(wǎng)絡(luò)的復(fù)雜度,減少網(wǎng)絡(luò)參數(shù),有利于網(wǎng)絡(luò)優(yōu)化和訓(xùn)練。EEG情感識(shí)別實(shí)驗(yàn)中模型參數(shù)設(shè)置與識(shí)別精度密切相關(guān),但目前參數(shù)設(shè)置只能通過人工多次實(shí)驗(yàn)來確定。本文為防止神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程出現(xiàn)過擬合問題,引入Dropout技術(shù)提高參數(shù)泛化能力,防止網(wǎng)絡(luò)參數(shù)對(duì)訓(xùn)練數(shù)據(jù)的重度依賴[20]。
本文評(píng)估不同的VGG 風(fēng)格的卷積神經(jīng)網(wǎng)絡(luò)配置,如表1所示,設(shè)置卷積核的大小為3×3,步長為1,激活函數(shù)為ReLU,參數(shù)設(shè)置學(xué)習(xí)速率為0.001,迭代次數(shù)為10次,Dropout值為0.5,采用池化窗口為2×2、步長為1的最大池化法進(jìn)行池化。在5 個(gè)模型中,模型A 將2 個(gè)卷積層疊加;模型B相對(duì)A增加了2個(gè)卷積層(Conv3-64);模型C在B的基礎(chǔ)上增加了1個(gè)卷積層(Conv3-128);模型D相較C在第一個(gè)最大池化層前提供了4層卷積(Conv3-32);模型E在D的基礎(chǔ)上在最后一個(gè)最大池化層前增加1個(gè)卷積層(Conv3-128)。最后的Softmax 層前是具有512個(gè)隱藏神經(jīng)單元的全連接層。本文還選用了Adam 算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。Adam算法將Momentum和RMSProp算法進(jìn)行結(jié)合,提供解決稀疏梯度和噪聲問題的優(yōu)化方法[21]。一階矩估計(jì)指數(shù)衰減率和二階矩估計(jì)指數(shù)衰減率分別設(shè)置為0.9和0.999。
表1 不同CNN模型的配置信息Table 1 Configuration information for different CNN models
針對(duì)傳統(tǒng)遞歸神經(jīng)網(wǎng)絡(luò)存在序列過長時(shí)梯度消失、爆炸等問題,LSTM既能保證較長時(shí)間序列的關(guān)鍵特征能夠輸入到下一時(shí)刻,又能選擇性地讓信息通過,防止過載。LSTM 包含有遺忘門、輸入門、輸出門和記憶單元,可以控制之前信息和當(dāng)前信息的記憶和遺忘程度,從而具備長期記憶功能。LSTM 模型運(yùn)算如式(10)、(11)、(12)、(13)、(14)所示:
式中,ft代表遺忘門;it代表輸入門;ot代表輸出門;ct代表記憶單元;ct-1代表前一時(shí)刻記憶單元;σ代表sigmoid激活函數(shù);W代表權(quán)重矩陣;X代表輸入向量;b代表偏置數(shù)值;tanh 為雙曲正切函數(shù);ht為輸出狀態(tài)。
BLSTM由兩層LSTM構(gòu)成,按時(shí)間方向分為前LSTM和后LSTM。經(jīng)CNN提取的深層特征進(jìn)入BLSTM獨(dú)立進(jìn)行學(xué)習(xí),將學(xué)習(xí)的特征統(tǒng)一送到輸出層,計(jì)算如式(15)所示:
其中,h1代表前向LSTM輸出狀態(tài);h2代表后向LSTM輸出狀態(tài);W1代表前向LSTM權(quán)重矩陣;W2代表后向LSTM權(quán)重矩陣。
本文所使用的CNN-LSTM(圖4(a))模型與CNNBLSTM(圖4(b))模型構(gòu)建步驟如下:將6 個(gè)子序列的EEG三通道腦電圖片分別輸入到CNN中獲取頻域和空域特征,再將CNN 網(wǎng)絡(luò)提取的深層特征向量輸入到LSTM 或BLSTM 中進(jìn)一步處理獲取時(shí)域特征。前后LSTM層的隱藏層單元數(shù)量均設(shè)置為128,學(xué)習(xí)率為0.001。將時(shí)、頻、空三域特征融合輸入全連接層,經(jīng)過Softmax分類器,得到情感識(shí)別結(jié)果。
圖4 融合模型示意圖Fig.4 Schematic diagram of fusion model
本文使用“留一法”評(píng)價(jià)模型的識(shí)別精度,即每次測(cè)試都將當(dāng)前被試數(shù)據(jù)作為測(cè)試集,從剩余數(shù)據(jù)中選取與測(cè)試集同等規(guī)模的數(shù)據(jù)作為驗(yàn)證集,最后剩余的數(shù)據(jù)作為訓(xùn)練集。共有15 名被試,每名被試的樣本數(shù)為450,因此實(shí)驗(yàn)中測(cè)試集、驗(yàn)證集和訓(xùn)練集樣本數(shù)分別為450、450和5 850,共進(jìn)行15次測(cè)試,最終取所有測(cè)試的平均值作為模型的識(shí)別精度。
一般來說,卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別精度隨著網(wǎng)絡(luò)結(jié)構(gòu)深度的增加而提高,但過深的網(wǎng)絡(luò)結(jié)構(gòu)由于過擬合,導(dǎo)致無法取得較好的識(shí)別效果。圖5展示了5種不同CNN模型的識(shí)別準(zhǔn)確率。模型A深度最淺,識(shí)別準(zhǔn)確率最差僅為73.31%(±9.10);模型B的識(shí)別準(zhǔn)確率達(dá)到了81.24%(±7.25);模型C 的識(shí)別準(zhǔn)確率達(dá)到了83.23%(±6.93);模型E 相較D 網(wǎng)絡(luò)深度更深,識(shí)別準(zhǔn)確率為76.94%(±7.36),低于模型D的識(shí)別準(zhǔn)確率88.55%(±6.48)。這是由于隨著網(wǎng)絡(luò)深度增加,網(wǎng)絡(luò)參數(shù)數(shù)量顯著增多,網(wǎng)絡(luò)訓(xùn)練和優(yōu)化的難度增加,而本實(shí)驗(yàn)中的訓(xùn)練集樣本數(shù)僅有5 850個(gè),容易出現(xiàn)過擬合現(xiàn)象,從而導(dǎo)致識(shí)別精度降低。
圖5 各類模型識(shí)別精度Fig.5 Recognition accuracy of various models
本文選用以上最優(yōu)的CNN模型D分別與LSTM和BLSTM 進(jìn)行融合構(gòu)建CNN-LSTM 和CNN-BLSTM 模型。圖5 表明CNN-LSTM 與CNN-BLSTM 相對(duì)于單一的CNN 模型識(shí)別精度均有提高,可能是由于單一的CNN 模型只提取了腦電信號(hào)的頻域和空域特征,忽視了EEG 的時(shí)域特征,而CNN-LSTM 與CNN-BLSTM 模型均考慮了EEG 信號(hào)的時(shí)域特征,表明充分提取EEG信號(hào)的時(shí)域特征能有效地提高情感識(shí)別精度,證明了本文構(gòu)建的模型的有效性,能夠充分學(xué)習(xí)EEG時(shí)域、頻域和空域特征。同時(shí)發(fā)現(xiàn)CNN-BLSTM 的識(shí)別準(zhǔn)確率為96.25%(±5.39),高于CNN-LSTM 的91.27%(±6.03),這是由于LSTM只能順序處理序列,而EEG具有雙向信息依賴特性,BLSTM將前向LSTM與后向LSTM結(jié)合,有利于腦電數(shù)據(jù)的處理。
將本文方法與其他相關(guān)使用情感數(shù)據(jù)集的分類研究進(jìn)行對(duì)比,結(jié)果如表2 所示。文獻(xiàn)[22]首先從腦電信號(hào)中提取18 種線性與非線性特征,再使用自動(dòng)特征選取方法選取與情感最相關(guān)的特征信息,利用SVM 進(jìn)行情感識(shí)別,在SEED 數(shù)據(jù)集上達(dá)到83.33%的識(shí)別率,在DEAP數(shù)據(jù)集上達(dá)到59.06%的平均識(shí)別準(zhǔn)確率。文獻(xiàn)[23]應(yīng)用加窗、預(yù)處理和歸一化操作后,使用原始EEG數(shù)據(jù)直接輸入預(yù)訓(xùn)練的CNN 模型,在SEED 數(shù)據(jù)集上達(dá)到78.34%的平均識(shí)別準(zhǔn)確率,在DEAP 數(shù)據(jù)集上達(dá)到72.81%的平均識(shí)別準(zhǔn)確率,在LUMED 數(shù)據(jù)集上達(dá)到81.80%的平均識(shí)別準(zhǔn)確率。文獻(xiàn)[24]基于SEED數(shù)據(jù)集利用小波包變化(wavelet packets transform,WPT)提取節(jié)點(diǎn)能量特征,并構(gòu)建6個(gè)不同深度的CNN 模型,采用加權(quán)平均法構(gòu)造集成模型達(dá)到93.12%的識(shí)別準(zhǔn)確率。文獻(xiàn)[25]在SEED數(shù)據(jù)集上提取被試腦電信號(hào)DE特征,通過DBN 的權(quán)重選擇關(guān)鍵電極,最終取得86.65%的識(shí)別準(zhǔn)確率。與上述基于腦電信號(hào)的情感識(shí)別方法相比,本文構(gòu)建的CNN-BLSTM 模型在積極、中性、消極的三分類情感識(shí)別上獲得最優(yōu)平均識(shí)別準(zhǔn)確率達(dá)96.25%。
表2 同類研究對(duì)比Table 2 Comparison with similar studies
本文使用SEED數(shù)據(jù)集中的腦電數(shù)據(jù)進(jìn)行研究,將每個(gè)被試的3~4 min腦電數(shù)據(jù)截取前180 s,并劃分為10個(gè)18 s片段,按照?qǐng)D3所示的方法,將18 s預(yù)處理腦電數(shù)據(jù)以3 s 為時(shí)間窗劃分為6 個(gè)子序列,并在alpha、beta、gamma 頻段上分別計(jì)算62 個(gè)電極功率譜密度,利用雙三次插值法構(gòu)建32×32 EEG圖片進(jìn)行情感識(shí)別。
實(shí)驗(yàn)結(jié)果表明,在SEED 數(shù)據(jù)集進(jìn)行情感識(shí)別實(shí)驗(yàn),利用CNN 提取EEG 的頻域和空域特征,然后利用BLSTM 提取EEG 的時(shí)域特征,采用的基于時(shí)、頻、空三域特征融合的CNN-BLSTM 識(shí)別模型相比傳統(tǒng)單一的特征分析方法和神經(jīng)網(wǎng)絡(luò)識(shí)別模型,在識(shí)別準(zhǔn)確率上有所提高,平均識(shí)別準(zhǔn)確率達(dá)96.25%。
此外,本文提出的多域特征融合模型可以為其他腦電信號(hào)的分類研究提供參考與幫助,值得后續(xù)深入研究。