陳 田,蔡從虎,袁曉輝,羅蓓蓓
(1.合肥工業(yè)大學(xué) 計算機與信息學(xué)院,合肥 230009;2.智能互聯(lián)系統(tǒng)安徽省實驗室,合肥 230009;3.情感計算與先進智能機器安徽省重點實驗室,合肥 230009;4.北德克薩斯大學(xué) 計算機科學(xué)與工程系,丹頓 76207)
情感對人類生活生產(chǎn)有巨大意義,隨著情感計算技術(shù)的不斷發(fā)展,使用情感計算輔助計算機理解和表達人類情感成為潛在需求[1]。人的生理信號是人在面對不同外部環(huán)境時產(chǎn)生的電信號,主要包括腦電(ElectroEncephaloGram,EEG)信號、心電(ElectroCardioGram,ECG)信號、眼動信號等。一方面,這些信號源自生理反應(yīng),無法被個體主觀掩飾,具有客觀性[2];另一方面,生理信號與情感的產(chǎn)生和表達具有相關(guān)性,數(shù)據(jù)包含大量情感相關(guān)信息,也易于采集,因此,基于生理信號的情感識別方法具有很大的研究價值和廣泛的應(yīng)用場景[3-4]。
腦電、心電和眼動等生理信號本身呈現(xiàn)非平穩(wěn)隨機信號的特點,普通的時頻域分析能得到的信息量較少,識別結(jié)果也存在準(zhǔn)確率低、跨個體泛化能力弱的問題。近年來,許多研究使用深度學(xué)習(xí)方法學(xué)習(xí)生理信號特征,以增強提升情感識別能力[5-6]。然而,以卷積為代表的深度學(xué)習(xí)方法存在參數(shù)量大、訓(xùn)練成本高的問題,導(dǎo)致方法的實用性低。不同生理信號在個體之間的特征和變化規(guī)律存在差異,因此Chen等[7]提出結(jié)合多種生理信號進行多模態(tài)生理信號的情感識別,以提高跨個體的情感識別能力?;跊Q策層融合的多模態(tài)方法需要構(gòu)建多個分類器,對不同的信號分別進行處理,這進一步加大了參數(shù)規(guī)模。使用統(tǒng)一模型進行數(shù)據(jù)訓(xùn)練和情感分類的特征層融合的方法有利于減小參數(shù)規(guī)模;然而多模態(tài)特征在融合時可能相互干擾,影響識別效果[8],因此需要進一步地研究有效的特征融合方法。
本文提出一種基于EEG、ECG 和眼動信號的特征層融合的多模態(tài)情感識別方法。首先通過適用于生理信號的1D-Inception(One-Dimensional-Inception)多尺度深度學(xué)習(xí)結(jié)構(gòu)對EEG、ECG 和眼動信號進行特征學(xué)習(xí)。1D-Inception 通過設(shè)置多尺度卷積核降低卷積參數(shù)規(guī)模,在有限的卷積層內(nèi)提取更高維度的情感相關(guān)特征。不僅如此,本文還通過自注意力(Self-Attention)機制將不同生理信號所提取的特征在特征層融合。本文所做的主要工作如下:
1)使用1D-Inception 結(jié)構(gòu)對生理信號進行特征學(xué)習(xí)。相較于傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN),該結(jié)構(gòu)更適合生理信號的特征學(xué)習(xí)。1D 卷積保證了不同生理信號單獨進行特征提取,排除其他模態(tài)的干擾。
2)使用自注意力和雙向長短期記憶(Bi-directional Long Short-Term Memory,Bi-LSTM)網(wǎng)絡(luò)對各生理信號的特征進行融合和分類。前者用于多模態(tài)特征融合,后者則通過時序特征學(xué)習(xí)對情感進行預(yù)測。
EEG、ECG 和眼動信號都具有非穩(wěn)態(tài)特點,并不具有特定的波形模式。有研究使用時頻域和統(tǒng)計學(xué)特征提取特征。Chen 等[9]使用了EEG 的Lempel-Ziv 復(fù)雜性和小波細節(jié)因子特征組成綜合特征進行情感識別;Katsigiannis 等[8]使用ECG中的波形統(tǒng)計特征,結(jié)合心率變異度(Heart Rate Variability,HRV)和功率譜密度(Power Spectral Density,PSD)等特征檢測情感。對于眼動信號,陳田等[10]使用眼球上下運動模式的波形相關(guān)性系數(shù)和作為特征,取得了一定的識別效果。
生理信號在個體間存在差異,傳統(tǒng)的時頻域和統(tǒng)計學(xué)特征的固定計算方法難以體現(xiàn)差異,通常存在識別率低、跨個體分類的泛化能力弱的問題[11]。隨著深度學(xué)習(xí)的發(fā)展,基于CNN 的特征學(xué)習(xí)方法成為研究熱點。CNN 通過堆疊網(wǎng)絡(luò)和調(diào)整參數(shù)自動學(xué)習(xí)特征表示,在面對不同個體差異時分類更具有可泛化性。Singson 等[12]使用ResNet 架構(gòu)的CNN 對實驗采集的ECG 數(shù)據(jù)進行特征學(xué)習(xí)和情感識別,取得了68.42%的識別準(zhǔn)確率。Chen 等[13]將EEG 原始數(shù)據(jù)和PSD特征組合,并使用CNN 進行分類,在DEAP 數(shù)據(jù)集[14]上取得了85.57%的準(zhǔn)確率。然而,傳統(tǒng)CNN 為了學(xué)習(xí)高維度特征需要累加多層網(wǎng)絡(luò),導(dǎo)致方法參數(shù)量大、訓(xùn)練成本高、可實用性低。
Inception[15]是一種更高效的卷積結(jié)構(gòu)。傳統(tǒng)卷積只考慮固定范圍內(nèi)的數(shù)據(jù),單層視野域有限,因此需要多層卷積疊加提升視野域范圍。而Inception 設(shè)置多個尺度的卷積核,使卷積過程中具備更多的視野域,既能考慮大范圍整體數(shù)據(jù),又能考慮小范圍的局部數(shù)據(jù)。相較于傳統(tǒng)卷積,Inception 單層卷積就能獲得信息量更豐富的特征,具有更強的特征學(xué)習(xí)能力和更低的參數(shù)代價。文獻[16-17]中分別使用2 維和3 維的卷積核搭建Inception 結(jié)構(gòu),用于EEG 的運動想象識別,取得了良好的識別效果,證明了Inception 結(jié)構(gòu)能有效學(xué)習(xí)生理信號特征。在多模態(tài)信號中采用多維卷積核會導(dǎo)致不同生理信號在卷積中相互干擾,因此,本文擬采取1D-Inception 的結(jié)構(gòu)進行特征學(xué)習(xí),既保留Inception 的優(yōu)勢,同時1 維卷積核又可以保證不同通道的信號之間彼此隔絕,避免信號互相干擾而導(dǎo)致特征的可識別性下降。
基于生理信號的情感識別通常受噪聲、個體差異的影響,而生理信號的多模態(tài)融合方法則可以讓各種生理信號達成信息互補,提高方法的識別效果。Kwon 等[18]融合EEG 和皮膚電反應(yīng)(Galvanic Skin Response,GSR)信號,在DEAP 數(shù)據(jù)集上取得了73.4%的情感識別率。Chen 等[7]將實驗采集的EEG 和ECG 數(shù)據(jù)分別使用支持向量機(Support Vector Machines,SVM)和長短期記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)進行分類,最終在決策層融合,取得了85.38%的準(zhǔn)確率。然而決策層融合需要訓(xùn)練多個分類器,會極大增加參數(shù)規(guī)模而降低實用性。在特征層融合的方法中,由于不同模態(tài)的異質(zhì)性,進行簡單的特征連接會造成模態(tài)相互干擾。Katsigiannis 等[8]分別使用EEG 的PSD 特征和ECG 的HRV 等特征在DREAMER 數(shù)據(jù)集[8]上訓(xùn)練分類器,結(jié)果表明特征層融合的多模態(tài)方法相較于單模態(tài)性能提升有限,一些情況下甚至遜于單模態(tài)。對于不同模態(tài)的特征融合,使用自注意力機制可能是一種有效的方法。自注意力通過學(xué)習(xí)特征之間的相關(guān)性,將相關(guān)性高的特征賦予高權(quán)重,低的則相反。因而每個模態(tài)的特征在融合后充分考慮了它與其他模態(tài)的相關(guān)性,能得到模態(tài)間干擾程度低、信息量豐富的融合特征。Chen 等[19]使用自注意力對EEG 多個通道特征進行學(xué)習(xí)融合,在DEAP 數(shù)據(jù)集的情感識別任務(wù)上取得了93.72%的準(zhǔn)確率,證明了自注意力特征融合方法的有效性。
本文基于EEG、ECG 和眼動信號,使用1D-Inception 特征學(xué)習(xí)模塊、自注意力模塊和Bi-LSTM 網(wǎng)絡(luò)組成骨干網(wǎng)絡(luò),對三種生理信號進行特征提取和融合,最終使用全連接層輸出預(yù)測概率。多模態(tài)情感識別方法的模型結(jié)構(gòu)如圖1 所示,主要由4 個模塊構(gòu)成。其中,頻帶注意力學(xué)習(xí)模塊對EEG 多個頻帶的數(shù)據(jù)進行處理,1D-Inception 特征學(xué)習(xí)模塊用于各種生理信號的特征學(xué)習(xí),自注意力模塊學(xué)習(xí)不同生理信號的各個特征之間的相互關(guān)系并為這些特征添加權(quán)重,最后使用Bi-LSTM 網(wǎng)絡(luò)提取時序信息,并通過全連接層(Fully Connection layer,F(xiàn)C)完成分類。
圖1 多模態(tài)情感識別方法的模型結(jié)構(gòu)Fig.1 Model architecture of multimodal emotion recognition method
EEG 不同于其他生理信號,它的頻率范圍被認為和情感高度相關(guān)[20],EEG 不同頻帶對應(yīng)的大腦活動如表1 所示(δ 頻段由于頻率過低,能采集的數(shù)據(jù)較少,因此不考慮采用)。不同頻帶的EEG 信號對應(yīng)不同的大腦活動,因此有必要對EEG 信號分頻;然而,高頻率的EEG 頻帶并不包含所有的情感信息,一些情感對應(yīng)的大腦活動并不是很激烈,因此只考慮單頻帶的EEG 也不妥。為了解決這個問題,本文提出對EEG 的頻帶數(shù)據(jù)使用注意力機制的方法。
表1 EEG不同頻帶對應(yīng)的大腦活動Tab.1 Brain activities corresponding to different frequency bands of EEG
注意力機制是一種為數(shù)據(jù)加權(quán)的自適應(yīng)方法,通過學(xué)習(xí)數(shù)據(jù)之間的關(guān)系來分配權(quán)重。注意力機制使得與情感高度相關(guān)的頻帶特征被強化,無關(guān)數(shù)據(jù)則被抑制。傳統(tǒng)人工賦予權(quán)值的方法無法考慮個體信號差異,導(dǎo)致方法跨個體分類性能不佳[9]。本文采用的自適應(yīng)的注意力機制可以綜合考慮數(shù)據(jù),根據(jù)不同個體的特征重要程度給出不同的權(quán)重配置。
在頻帶注意力學(xué)習(xí)模塊中,首先計算EEG 樣本中各個頻帶的平均值,結(jié)果表示為x=(x1,x2,…,xr),其中xi是頻帶的EEG 平均值,r是頻帶數(shù)。隨后采用兩個全連接層進行權(quán)值學(xué)習(xí),它們的作用不同:第一層是參數(shù)為W1和b1的升維層,第二層則是參數(shù)為W2和b2的降維層。升維使用tanh 作為固定激活函數(shù)增加注意力學(xué)習(xí)網(wǎng)絡(luò)的非線性,避免計算結(jié)果中出現(xiàn)過多線性組合。降維的激活函數(shù)選擇使用sigmoid,作用是將網(wǎng)絡(luò)計算的分數(shù)轉(zhuǎn)換為取值在0~1 的權(quán)值。如式(1)所示:
通過權(quán)值學(xué)習(xí),EEG 頻帶的重要性轉(zhuǎn)化為了頻帶的注意力a=(a1,a2,…,ar),其中ai是某一頻帶的注意力。依據(jù)式(2)對于不同的EEG 頻帶數(shù)據(jù)添加注意力:
其中:Di∈Rn×t(i=1,2,…,r)表示某頻帶EEG 數(shù)據(jù);n和t是EEG 信號通道數(shù)和時間維度;Ofreq為加權(quán)結(jié)果,顯然Ofreq∈Rn×t。經(jīng)過添加注意力的操作后,情感關(guān)鍵的頻帶數(shù)據(jù)被賦予了高權(quán)重,在分類模型中的作用會被強化。
在生理信號情感計算中,基于CNN 的特征學(xué)習(xí)方法是有效的[13]。然而CNN 存在的問題為:CNN 在一層卷積內(nèi),卷積核大小是固定不變的,因此單層卷積的視野域也是固定的。如果想要擴展卷積的視野域,就需要疊加多層的卷積,造成參數(shù)規(guī)模和訓(xùn)練代價上升,也容易造成過擬合。而Inception 結(jié)構(gòu)則是對CNN 的一種改進方案。Inception 結(jié)構(gòu)在一層卷積內(nèi)使用多個尺度的卷積核提供各種視野域,單層卷積就能得到信息量豐富的特征,且具有較小的參數(shù)規(guī)模。因此,本文對原始Inception 結(jié)構(gòu)進行改進,提出一種適合于生理信號特征學(xué)習(xí)的1D-Inception 結(jié)構(gòu)用于生理信號的多尺度卷積,如圖2 中的框內(nèi)部分所示。對于生理信號數(shù)據(jù),1D-Inception 的卷積操作包含3 個分支:第1 個分支首先使用寬度為1 的卷積核對原始數(shù)據(jù)進行升維,之后使用寬度為d的卷積核進行卷積;第2 個分支使用寬度為2d的卷積核,與第1 個分支相比,視野域擴大一倍;第3 個分支對原始數(shù)據(jù)進行池化采樣和升維,采樣寬度為1.5d,這個分支保留了原始的數(shù)據(jù)信息,并進行了通道映射。最后將3 個分支的卷積池化結(jié)果在通道維度上連接,計算結(jié)果既包含兩種尺度的卷積結(jié)果,又包含原始的數(shù)據(jù)特征,因此可以得到相較于一般卷積信息量更豐富的特征。
圖2 1D-Inception特征學(xué)習(xí)模塊的結(jié)構(gòu)Fig.2 Structure of 1D-Inception feature learning module
為進一步減少參數(shù)規(guī)模和降低訓(xùn)練代價,本文使用池化層和批標(biāo)準(zhǔn)化對1D-Inception 的卷積結(jié)果進行處理。采用平均池化將計算結(jié)果采樣后,使用批標(biāo)準(zhǔn)化將批次內(nèi)的特征調(diào)整到標(biāo)準(zhǔn)正態(tài)分布下,使損失函數(shù)更平坦,加速學(xué)習(xí)過程[21]。由于單層參數(shù)規(guī)模和訓(xùn)練代價并不高,因此本文將兩個1D-Inception 塊堆疊以增加模塊學(xué)習(xí)能力,中間使用池化采樣和批標(biāo)準(zhǔn)化進行連接,組成本文所使用的1D-Inception 特征學(xué)習(xí)模塊,如圖2 所示。模塊最終輸出的特征是維度為時間和通道的二維特征,通過特征展平最終輸出一維特征。在使用1D-Inception 特征學(xué)習(xí)模塊時,將EEG 的各個通道、ECG 信號和眼動信號分別單獨送入模塊提取特征避免不同模態(tài)之間的數(shù)據(jù)互相干擾。
對各生理信號完成特征學(xué)習(xí)后,需要對特征進行有效融合。如果只對不同模態(tài)的特征簡單拼接,由于不同生理信號的信號模式存在差異,特征可能會相互干擾,降低識別準(zhǔn)確率,因此,本文提出使用自注意力[22]進行不同生理信號的特征融合。自注意力機制可以學(xué)習(xí)特征向量之間的相關(guān)性,進而提高關(guān)鍵特征的權(quán)重,降低非關(guān)鍵特征對于結(jié)果的影響。
使用自注意力機制對多模態(tài)生理信號特征進行融合,自注意力模塊的結(jié)構(gòu)如圖3 所示。實驗采用的EEG 數(shù)據(jù)的通道數(shù)為32,因此首先分別訓(xùn)練32 個EEG 信號、1 個ECG 信號和1 個眼動信號總計34 個特征向量的query、key和value向量;然后通過計算不同特征之間的query與key向量的相關(guān)性來代表特征之間的相關(guān)性,通過softmax 標(biāo)準(zhǔn)化后,得到向量之間的注意力;最后將注意力值和各特征向量的value向量進行加權(quán)和,得到的新特征向量會根據(jù)學(xué)習(xí)的注意力值的不同,區(qū)別關(guān)注各輸入特征向量的信息。
圖3 自注意力模塊的結(jié)構(gòu)Fig.3 Structure of self-attention module
特征向量的query、key和value向量的計算方法如式(3)所示:
其中:ci∈Rt(i=1,2,…,34)為特征向量,34為多模態(tài)生理信號的特征向量數(shù),t為特征維度都是維度變換的參數(shù)矩陣,t' 是變換后維度,顯然之后,使用各特征的keyj和queryi的向量點積來計算特征之間彼此的注意力,如式(4)所示:
其中:atti,j代表特征i對特征j的注意力值,softmax 函數(shù)起到歸一化作用,使點積值映射到(0,1)區(qū)間內(nèi)形成權(quán)值。注意力值計算完成后,使用注意力值對各個輸入向量的valuej加權(quán)疊加,如式(5)所示:
其中mi即為特征i的加權(quán)后結(jié)果??煽闯龃诉^程中的每個特征綜合考慮了其他所有特征的相關(guān)性,對計算后的特征進行拼接可以減少不同模態(tài)信號之間的相互干擾。
生理信號是連續(xù)的生物電信號,因此信號的特征片段之間并非孤立,存在時序關(guān)系。而卷積網(wǎng)絡(luò)受制于其結(jié)構(gòu),不適合處理序列關(guān)系。LSTM 是一種常用于序列分析的網(wǎng)絡(luò)模型。生理信號的順序并不固定,從左到右或從右到左可能都存在時序信息[7],傳統(tǒng)的LSTM 網(wǎng)絡(luò)只能按一個順序?qū)W習(xí)分類,存在局限性。為了解決上述問題,本文采用Bi-LSTM 網(wǎng)絡(luò)對融合后的多模態(tài)生理信號特征進行時序特征學(xué)習(xí)。Bi-LSTM 網(wǎng)絡(luò)既可以學(xué)習(xí)正向的時序特征,考慮每個特征與后續(xù)特征之間的關(guān)系,又可以學(xué)習(xí)反向時序特征,考慮和前序特征的關(guān)系,與多模態(tài)生理信號的特點相匹配。
本文搭建的Bi-LSTM 網(wǎng)絡(luò)如圖4 所示,網(wǎng)絡(luò)由兩層的LSTM 單元構(gòu)成。LSTM 單元之間并非獨立存在,單元會考慮上一單元的輸出結(jié)果和輸出給下一單元的結(jié)果。LSTM 單元使用3 個門控函數(shù)實現(xiàn)這種功能,即:輸入門、遺忘門和輸出門。Bi-LSTM 網(wǎng)絡(luò)的各單元所作的計算如式(6)所示:
圖4 Bi-LSTM網(wǎng)絡(luò)的結(jié)構(gòu)和數(shù)據(jù)流向Fig.4 Structure and data flow of Bi-LSTM network
對于第T個時序片段xT∈R34t',將它和上一層的輸出向量hT-1進行拼接,分別使用4 組參數(shù)矩陣Wi、Wf、Wo、W和偏置向量bi、bf、bo、b計算輸入權(quán)重zi、遺忘權(quán)重zf、輸出權(quán)重zo和候選記憶狀態(tài)z。其中:輸入權(quán)重決定在多大程度上接受輸入數(shù)據(jù),遺忘權(quán)重決定在多大程度上考慮上一單元的輸出結(jié)果,輸出權(quán)重則決定將多少計算結(jié)果輸出給下一個單元,候選記憶狀態(tài)起到了標(biāo)準(zhǔn)化數(shù)據(jù)的作用。每一份LSTM 單元會根據(jù)所學(xué)習(xí)到的上下文序列信息計算自己的記憶狀態(tài),并提供給下一單元參考來體現(xiàn)網(wǎng)絡(luò)之中各個單元的接續(xù)性。
LSTM 單元進行的運算如式(7)所示。首先需要將遺忘權(quán)重zf和上一層的記憶狀態(tài)CT-1進行哈達瑪積運算(⊙),以決定保留多少上一層的記憶;然后將候選記憶狀態(tài)z和輸入權(quán)重zi作哈達瑪積,決定保留多少本單元的記憶;最后計算本單元的記憶狀態(tài)。這個記憶狀態(tài)綜合考慮了前序單元的記憶狀態(tài)和輸入向量,并考慮了它們之間的權(quán)重配置。第二層的反向LSTM 的計算方法相同,不同在于每個單元通過考慮后一個單元的輸出結(jié)果來決定自己的記憶狀態(tài)。最終Bi-LSTM 將兩個方向?qū)?yīng)的運算結(jié)果拼接并輸出為最終運算結(jié)果。這個結(jié)果包含了兩個方向上的時序特征學(xué)習(xí)的結(jié)果,相較于單向LSTM 時序,信息量更豐富,更適合生理信號的時序特征學(xué)習(xí)。
為了采集實驗所需要的生理信號數(shù)據(jù),本文進行了志愿者招募、情感激勵實驗和數(shù)據(jù)預(yù)處理等工作,多模態(tài)情感識別的總體實驗流程如圖5 所示。在情感激發(fā)的過程中,視頻激勵相較于音樂、圖像等激勵源具有更好的情感激發(fā)效果[23]。首先篩選了50 段備選視頻,招募了110 名觀眾在線上觀看視頻,并對各個視頻對情感的激勵程度打分。最終35段情感激發(fā)效果最好的視頻被選為實驗采用的情感激勵源,這些視頻經(jīng)過實驗證明可以有效激發(fā)積極和消極情感。
圖5 多模態(tài)情感識別的總體實驗流程Fig.5 Overall experimental flow of multimodal emotion recognition
數(shù)據(jù)采集實驗首先招募了15 名志愿者,其中男性8 人,女性7 人。他們均是年齡在19 歲到26 歲的在校學(xué)生,精神健康狀況良好且無精神疾病史。數(shù)據(jù)采集的流程如圖6 所示,每名實驗人員需要進行35 次實驗。在每次實驗中,實驗者有5 s 的時間閉眼進行情緒平復(fù),在此期間記錄個體不受情感激勵時的生理信號作為基線數(shù)據(jù)。之后實驗者需要觀看長度在60~242 s 的激勵視頻。觀看結(jié)束后實驗者有60 s時間對自己的情緒進行評分,包括效價維度(Valence)和喚醒度維度(Arousal)的1~9 分,鼓勵實驗者根據(jù)自己的真實情感打分。實驗工作通過了倫理委員會的許可,在參與者的知情和允許下進行。
圖6 數(shù)據(jù)采集的實驗流程Fig.6 Experimental flow of data acquisition
實驗采用3 種設(shè)備采集信號。Emotiv 的32 導(dǎo)電極帽用于采集EEG 數(shù)據(jù),電極按照國際10-20 系統(tǒng)均勻分布在頭皮上,如圖7 所示。實驗中還使用導(dǎo)電膏增強頭皮到電極的導(dǎo)電性?;贏D8232 芯片的雙電極傳感器用于采集ECG 信號,其中兩個電極佩戴在實驗者雙腕的脈搏處。Tobii 眼動追蹤儀用于采集眼動信號,追蹤儀可以實時采集實驗者眼球注視位置。EEG、ECG 和眼動信號設(shè)備的采樣頻率分別為128 Hz、500 Hz 和133 Hz。
圖7 實驗使用的32導(dǎo)設(shè)備的電極分布Fig.7 Electrode distribution of 32-channel devices used in experiment
標(biāo)簽處理方面,本文以5 為中間值,將標(biāo)簽在效價和喚醒度兩個維度上分為了高和低兩個類別,轉(zhuǎn)換為二分類任務(wù)和效價/喚醒度四分類任務(wù)。
原始的生理信號數(shù)據(jù)受噪聲和基線漂移影響較大,其中噪聲主要來源于人體皮膚電信號和采集設(shè)備本身的工頻信號,基線漂移則是因為實驗者在實驗過程中的運動幅度過大,導(dǎo)致信號整體參考水平發(fā)生變化。對于ECG 信號,采用小波變換將原始信號分解為不同頻率的子信號分量,再利用閾值去噪的方法設(shè)定一個噪聲閾值,只保留大于閾值的信號分量,再通過小波反變換還原去噪后的ECG 信號。噪聲閾值的計算方法如式(8)所示,這是一種基于魯棒估計的閾值去噪方法,可以有效去除信號中的高頻噪聲部分[24]:
其中:median(abs(signalECG))表示原始ECG 數(shù)據(jù)的絕對值的中位數(shù),L表示數(shù)據(jù)長度。
對于EEG 信號,首先使用乳突處電極的平均波形對原始信號進行重參考,之后使用獨立成分分析(Independent Component Analysis,ICA)刪除EEG 信號中的眼電信號(ElectroOculoGram,EOG)成分[25]。EOG 是眼球運動時產(chǎn)生的電信號,對于EEG 信號來說是干擾因素。在信號采集時會采集實驗者未受情感激發(fā)時的EEG 基線數(shù)據(jù),它記錄了大腦在平靜情況下產(chǎn)生的自然電位變化,可以利用基線信號解決EEG 的基線漂移問題。具體地,本文按照1 s 的寬度將原始信號分成若干段,求得基線信號各段的平均波形,再使用原始信號實驗部分的各數(shù)據(jù)段減去基線部分的平均波形,如式(9)所示:
其中:Xbase(i)代表第i段EEG 的基線數(shù)據(jù),l代表基線數(shù)據(jù)段數(shù),Xtrial(j)和分別代表處理前和處理后的受情感激勵的實驗部分EEG 分段。
本文實驗采用眼動信號記錄實驗者在屏幕上的注視點Y軸坐標(biāo)。這是因為X坐標(biāo)可能受實驗者閱讀字幕等的影響,而Y軸受影響較小。眼動數(shù)據(jù)受抖動的影響很大:一方面,傳感器記錄的位置會有微弱抖動;另一方面,人的眼睛長期看向某一點時,會下意識瞥向周圍,然后迅速回到原始點以緩解視覺疲勞。因此,需要對原始的眼動數(shù)據(jù)平滑處理,去除由于傳感器和人眼本身造成的抖動異常,本文方法使用高斯濾波器。具體地,利用窗口內(nèi)的數(shù)據(jù)加權(quán)平均值取代窗口內(nèi)中心點的值,可以有效過濾短時的高頻噪聲,達到平滑窗口內(nèi)曲線的目的。在計算加權(quán)平均值時,權(quán)值的計算如式(10)所示:
其中:w表示窗口內(nèi)的某個點到中心點的距離,σ是控制高斯濾波的參數(shù),G(w)為計算的權(quán)值。
預(yù)處理完成后,需要對處理后的數(shù)據(jù)進行分段,作為模型的訓(xùn)練測試數(shù)據(jù)。本文使用1 s 的寬度對數(shù)據(jù)進行切分,每1 s 切分出對應(yīng)的EEG 的32 導(dǎo)的數(shù)據(jù)、1 導(dǎo)的ECG 數(shù)據(jù)和1 導(dǎo)的眼動數(shù)據(jù)片段,共34 導(dǎo)的信號波形。為了統(tǒng)一3 種生理信號的維度,將3 種信號統(tǒng)一采樣至128 Hz,形成維度為(34,128)的數(shù)據(jù)單元。根據(jù)2.1 節(jié)的方法介紹,EEG 的數(shù)據(jù)還需要進行分頻處理,分為θ、α、β 和γ 這4 個頻段,δ 頻段EEG 在人清醒環(huán)境下很少會出現(xiàn)所以不使用。顯然分頻后的EEG 數(shù)據(jù)維度為(32,4,128)。
3.3.1 1D-Inception模塊的有效性驗證
為了證明1D-Inception 特征學(xué)習(xí)模塊相較于傳統(tǒng)特征提取方法和傳統(tǒng)CNN 的有效性,本文進行了有效性驗證實驗。首先使用信號的PSD 作為特征,使用SVM 作為分類器,高斯核作為核函數(shù)。之后搭建了一個3 層的簡單CNN 用于原始信號的直接分類。1D-Inception 特征學(xué)習(xí)模塊被單獨設(shè)置,在特征學(xué)習(xí)后直接進行分類,驗證三者的分類能力。實驗結(jié)果如表2 所示,ACC(Accuracy)和STD(STandard Deviation)是平均分類準(zhǔn)確率和準(zhǔn)確率標(biāo)準(zhǔn)差。1D-Inception 模塊取得了最高的分類準(zhǔn)確率,相較于前兩者在平均準(zhǔn)確率上提升了28.98 個百分點(效價)和30.05 個百分點(喚醒度)。個體之間的準(zhǔn)確率標(biāo)準(zhǔn)差也降低至8.77%(效價)和7.91%(喚醒度),且1D-Inception 模塊的參數(shù)規(guī)模要小于3 層CNN,說明本文模塊具有更小的參數(shù)代價和更高的特征學(xué)習(xí)性能,學(xué)習(xí)的特征可分類性更好,在不同個體之間的泛化能力更強。由此證明了本文提出的1D-Inception 特征學(xué)習(xí)模塊更適合于生理信號特征學(xué)習(xí)。
表2 1D-Inception與其他特征提取方法的準(zhǔn)確率對比 單位:%Tab.2 Accuracy comparison of 1D-Inception with other feature extraction methods unit:%
3.3.2 特征融合的有效性驗證
為了驗證本文采用的基于自注意力的特征融合方法的有效性,實驗使用特征直接融合方法、決策層融合方法和本文融合方法進行對比。在進行對比實驗之前,本文使用的Bi-LSTM 模塊使用的序列長度需要被確定,即模型在多大序列范圍內(nèi)提取時序特征。本文中針對這一問題嘗試了5 種序列長度:1、3、6、10 和15。實驗結(jié)果如表3 所示。當(dāng)6 作為序列長度時,模型取得了最好的分類效果;15 作為序列長度時盡管標(biāo)準(zhǔn)差略低,但是準(zhǔn)確率出現(xiàn)了大幅下降。
表3 不同的Bi-LSTM序列長度的實驗結(jié)果對比 單位:%Tab.3 Comparison of experimental results with different sequence lengths of Bi-LSTM unit:%
序列長度確定后,對三種融合策略進行了對比實驗,結(jié)果如表4 所示。直接融合方法是將特征提取模塊輸出的各個模態(tài)的特征直接進行向量拼接,再送入Bi-LSTM 網(wǎng)絡(luò)進行分類;決策層融合方法則是將不同模態(tài)的特征單獨送入獨立的Bi-LSTM 網(wǎng)絡(luò)進行單獨分類,再將分類結(jié)果通過最大值融合方法進行決策層融合。結(jié)果表明,自注意力融合方法在效價、喚醒度和效價喚醒度四分類任務(wù)上分別取得了90.29%、91.38%和83.53%的識別準(zhǔn)確率,個體的識別標(biāo)準(zhǔn)差降低至6.28%、6.02%和9.77%。相較于其他融合方法取得了最好的識別效果,證明了本文提出的自注意力融合方法對于多模態(tài)生理信號特征融合的有效性。
表4 自注意力融合方法和其他融合方法的準(zhǔn)確率對比 單位:%Tab.4 Accuracy comparison between self-attention-based fusion method and other fusion methods unit:%
3.3.3 多模態(tài)方法的有效性驗證
本文使用三種生理信號的單模態(tài)、EEG+ECG 雙模態(tài)、EEG+眼動雙模態(tài)和本文使用的三模態(tài)融合方法進行了對比。在實驗環(huán)境上,本文在Pytorch1.8.1 深度學(xué)習(xí)環(huán)境下搭建模型,使用的硬件加速設(shè)備和驅(qū)動版本分別為Nvidia 1660S 和CUDA11.1。在實驗設(shè)置上,使用交叉熵作為損失函數(shù),Adam 為優(yōu)化器,采用10 折交叉訓(xùn)練驗證的方法提升模型的情感識別能力。批大?。˙atch Size)設(shè)置為80,最大迭代次數(shù)為100。在算法的運行時間上,每位受試者的數(shù)據(jù)訓(xùn)練平均花費389.49 s,測試平均花費1.25 s。
實驗結(jié)果如表5 所示??梢钥闯鲈趩文B(tài)實驗中,EEG單模態(tài)相較于其他兩種生理信號取得了最優(yōu)的識別效果,效價喚醒度四分類準(zhǔn)確率高達76.42%,明顯高于ECG 的45.39%和眼動的39.28%。這說明相較于ECG 和眼動信號,EEG 更適合用于情感識別任務(wù)。
表5 多模態(tài)方法與單、雙模態(tài)方法的準(zhǔn)確率對比 單位:%Tab.5 Accuracy comparison between multimodal method with unimodal and bimodal methods unit:%
進行模態(tài)融合后,多模態(tài)方法相比EEG 單模態(tài)方法取得了更好的識別效果。EEG+ECG 雙模態(tài)的準(zhǔn)確率提升至89.37%(效價)、88.23%(喚醒度)和82.26%(效價喚醒度四分類),而且標(biāo)準(zhǔn)差更低,跨個體的識別準(zhǔn)確率更加穩(wěn)定。而三模態(tài)融合取得了最好的識別效果,在三個分類任務(wù)上分別取得了90.29%、91.38%和83.53%的識別準(zhǔn)確率。相較于EEG 單模態(tài)提升了3.46~7.11 個百分點,相比EEG+ECG 雙模態(tài)提升了0.92~3.15 個百分點,而且個體間準(zhǔn)確率的標(biāo)準(zhǔn)差降至最低。這說明三模態(tài)比EEG 單模態(tài)和雙模態(tài)的識別方法更加優(yōu)越,ECG 和眼動這兩個模塊的加入有效提升了基于EEG 情感識別的準(zhǔn)確率和跨個體識別的穩(wěn)定性。
表6 給出了本文方法和其他的生理信號情感識別方法的準(zhǔn)確率對比。其中文獻[18]方法融合了EEG 和皮膚電信號并使用CNN 進行情感識別。文獻[26]方法將腦磁圖、EOG 和ECG 等多種生理信號模態(tài)融合,構(gòu)建層次模塊化神經(jīng)網(wǎng)絡(luò)對情感進行分類。文獻[27]方法融合EEG 和眼動特征并使用深度典型相關(guān)分析進行多模態(tài)情感識別。文獻[7,28]方法均是EEG 和ECG 和雙模態(tài)融合,它們分別使用了時頻域特征計算和圖神經(jīng)網(wǎng)絡(luò)對生理信號進行特征提取。本文方法在喚醒度上取得了最好的識別準(zhǔn)確率,效價的準(zhǔn)確率也提升了3.68~13.73 個百分點。效價的準(zhǔn)確率雖然略低于文獻[28]方法,但是在喚醒度上提高了3.14 個百分點。
表6 與現(xiàn)存的基于生理信號情感識別方法的準(zhǔn)確率對比 單位:%Tab.6 Accuracy comparison with existing physiological signal-based emotion recognition methods unit:%
本文的多模態(tài)方法能取得優(yōu)秀的識別效果與多模態(tài)模型結(jié)構(gòu)有關(guān)。首先,1D-Inception 模塊的多尺度卷積方法能學(xué)習(xí)更穩(wěn)定、更高維度的生理信號特征;其次,頻帶注意力機制能有效放大EEG 中的關(guān)鍵頻帶中的數(shù)據(jù),而基于自注意力機制的特征融合也能增加多模態(tài)信號中的關(guān)鍵特征的權(quán)重,降低非關(guān)鍵特征對于分類結(jié)果的影響;最后,多模態(tài)的方法利用信號之間的互補性,各種生理信號之間相互補充情感信息,有效提升了分類準(zhǔn)確率,并且使得跨個體的識別效果更穩(wěn)定。
然而,本文方法仍有改進空間。需要注意到,實驗結(jié)果中識別準(zhǔn)確率的標(biāo)準(zhǔn)差盡管有所改進,但是跨個體的識別效果仍然存在一些波動。本文經(jīng)過分析認為標(biāo)簽的比例失衡可能是潛在原因,因為實驗采用的標(biāo)簽處理方法是以5 為界進行劃分,少數(shù)實驗者將大部分打分都打在5 以上,造成了反例數(shù)據(jù)的不足,導(dǎo)致識別效果下降。因此情感標(biāo)簽的處理方法可能需要進一步研究,以優(yōu)化樣本比例[29]。
本文提出了一種基于EEG、ECG 和眼動信號三種模態(tài)的特征層融合的情感識別方案,通過有效的特征學(xué)習(xí)和特征層融合方法提升了情感識別準(zhǔn)確率和跨個體的識別穩(wěn)定性。對于生理信號的特征提取,首先使用頻帶注意力處理EEG信號的多頻帶問題,通過自適應(yīng)添加權(quán)重的方法放大EEG中情感關(guān)鍵頻帶的數(shù)據(jù)。之后本文提出一種1D-Inception 模塊對數(shù)據(jù)進行多尺度卷積,提高模型識別準(zhǔn)確率和減小卷積參數(shù)規(guī)模。對于多個模態(tài)生理信號的特征融合,本文使用了自注意力機制在多模態(tài)特征之間進行注意力學(xué)習(xí),提高關(guān)鍵特征的權(quán)重并降低非關(guān)鍵特征對于結(jié)果的影響。最后,通過Bi-LSTM 網(wǎng)絡(luò)對融合后的特征進行時序特征學(xué)習(xí)和情感分類。實驗結(jié)果表明,本文方法在效價、喚醒度和效價/喚醒度四分類的識別任務(wù)上分別取得了90.29%、91.38% 和83.53%的識別準(zhǔn)確率,體現(xiàn)了多模態(tài)融合方法的有效性。未來的工作中,將結(jié)合更好的情感標(biāo)簽處理方法進行進一步的研究。