戴紫玉,馬玉良,3*,高云園,3,佘青山,3,孟 明,3,張建海
(1.杭州電子科技大學智能控制與機器人研究所,浙江 杭州310018;2.杭州電子科技大學計算機學院,浙江 杭州310018;3.浙江省腦機協(xié)同智能重點實驗室,浙江 杭州310018)
情緒是對一系列主觀認知經驗的通稱,是多種感覺、思想和行為綜合產生的心理和生理狀態(tài),在生活中扮演著非常重要的角色,情緒識別已經運用在檢測機械員工損傷、視頻游戲用戶體驗、協(xié)助醫(yī)護人員評估患者健康等各行各業(yè),圍繞它的領域正在持續(xù)增長。傳統(tǒng)的情緒識別主要是基于面部特征、肢體動作和語音的研究,這些外在特征容易偽裝,并不能反應出真實的情緒,腦電信號可以反映大腦在加工情緒時所伴隨的神經電生理活動,能夠很好的彌補傳統(tǒng)研究方法的缺陷。
傳統(tǒng)的人工提取情感特征結合機器學習相關算法取得了較好的發(fā)展,傳統(tǒng)的方法大都需要大量先驗知識尋找腦電信號的特征,構建特征工程,而腦電信號容易受到噪聲干擾,且不同被試之間的差異性,使得基于腦電信號人工特征選取耗費大量的時間和精力。近年來深度學習在腦電情緒識別分類方面的研究越來越多,并且取得了不錯的成果。深度學習的概念源于人工神經網絡的研究。含多隱層的多層感知器就是一種深度學習結構。深度學習通過組合底層特征形成更加抽象的高層表示屬性類別或特征,以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示。深度學習的概念由Hinton等人于2006年提出?;谏疃戎眯啪W絡(Deep Belief Network,DBN)提出非監(jiān)督貪心逐層訓練算法,為解決深層結構相關的優(yōu)化難題帶來希望,隨后提出多層自動編碼器深層結構[1]。此外LeCun等人提出的卷積神經網絡也是第一個真正多層結構學習算法,它利用空間相對關系減少參數(shù)數(shù)目以提高訓練性能。深度學習因其能夠深層挖掘數(shù)據(jù)更本質的特征,被很多研究者運用到腦電情緒分類上[2]。Jinpeng Li等人[3]將改進后的HCNN(hierarchical convolutional neural networks)網絡用于腦電情緒分類,在每個通道特定時間間隔內提取其微分熵特征,并且為了保持腦電信號的位置信息,他們將一維腦電的時域信息轉化成二維的微分熵頻域特征,以供后續(xù)HCNN訓練,并且比較了HCNN、SAE(Stacked autocoder)、KNN(K NearestNeighbor)、SVM(Support Vector Machine)之間的分類性能,實驗結果顯示HCNN的分類性能均優(yōu)于其他分類器,其分類準確度為88.2%;Zheng等人[4]為提高情緒識別系統(tǒng)性能,提出了一種新的基于深度信念網絡的關鍵通道和頻帶檢測方法,提取腦電信號的微分熵特征作為DBN的輸入,訓練DBN識別三種情緒(積極、中性、消極),并與 KNN、LR(Logistic Regression)、SVM等淺層模型進行比較,實驗結果顯示,DBN模型的平均分類準確率達到86.08%;田莉莉[5]等人針對傳統(tǒng)機器學習需要構建特征及其特征質量較低等問題,提出了一種基于一維卷積神經網絡的特征提取方法,用卷積層和下采樣層構成編碼器網絡提取腦電信號情感特征,采用隨機森林分類器進行情緒三分類,在公開數(shù)據(jù)集SEED上進行實驗,達到94.7%的情感分類準確率;文獻[6]使用機器學習來研究腦電情緒識別的穩(wěn)定性問題,在DEAP和SEED數(shù)據(jù)集上評價了各種流行的特征提取、特征選擇、特征平滑和模式分類方法的性能,采用判別圖正則化極限學習機對微分熵特征進行分類,在SEED數(shù)據(jù)集上準確率達到91.07%。
許多研究者已經將深度學習應用于情緒識別,并且取得了不錯的結果,為進一步提高腦電情緒分類準確率,本文在傳統(tǒng)CNN模型的基礎上進行改進,提出一種多尺度卷積核CNN模型,相比于傳統(tǒng)的CNN模型,多尺度卷積核CNN模型可以在卷積層設置多個不同尺寸的卷積核,同時提取數(shù)據(jù)不同維度的特征,而傳統(tǒng)的CNN模型只能提取單一維度的特征。本文采用多尺度卷積核CNN模型對腦電數(shù)據(jù)進行二次特征提取及分類,在國際公開數(shù)據(jù)集SEED上進行實驗,取得了不錯的分類效果。
微分熵擴展了香農熵的思想,并用于測量連續(xù)隨機變量的復雜性。對于固定長度的腦電信號,微分熵等效于某個頻帶內的對數(shù)能量譜[7]。設有腦電信號X i,其微分熵表達式為:
式中:f(x)是腦電信號的概率密度函數(shù),如果隨機變量服從高斯分布N(μ,σ2),則上式中的微分熵可通過以下公式簡單計算:
雖然原始的腦電信號不服從一定的固定分布,但經過2 Hz到44 Hz的帶通濾波后,每相隔2 Hz,腦電信號在連續(xù)子頻帶中服從高斯分布[8],從上式可知,我們只需要知道σ2就能得到X i的微分熵,正態(tài)分布N(μ,σ2)的方差計算公式為:
為過濾出與情緒狀態(tài)無關的成分,引入了LDS(linear dynamic systems)平滑特征的方法[9]。線性動力系統(tǒng)可以表示為:
式中:x t表示觀察變量,z t表示隱藏的情感變量,A為轉移矩陣,w t是均值為ˉw、方差為Q的高斯噪聲,v t表示為均值為ˉv、方差為R的高斯噪聲,上述方程也可以用高斯條件分布的形式表示:
傳統(tǒng)人工神經網絡包含輸入層、隱層、輸出層三種網絡結構,卷積神經網絡在其基礎上,隱層體現(xiàn)為全連接層,并在輸入層與全連接層之間增加卷積層與池化層兩種網絡類型。通過多層卷積,不斷提取更為抽象的信號特征,在增強有效信號特征的同時,也弱化了噪聲信號的特征[10]。一般CNN的卷積層采用的是單一尺寸的卷積核,為了提取信號更深層次的特征,需要構建多個卷積層,從而使網絡結構變得復雜,網絡層數(shù)的增加會使網絡參數(shù)成倍增長,不利于網絡的快速收斂,嚴重影響網絡性能。因此本文在經典CNN模型基礎上進行改進,在CNN的卷積層上增加不同尺度的卷積核,擴大了卷積層提取特征的維度,減少了卷積層層數(shù),降低了網絡復雜度,極大提高了網絡性能。
本文設計的多尺度卷積核CNN模型一共五層,第一層為輸入層,將腦電信號切割成M×N×1的大小作為多尺度卷積核CNN模型的輸入;第二層為卷積層,采用多尺度卷積核對輸入信號進行不同維度的特征提取,設置多尺度卷積核尺寸為:M×5×1,M×3×1,M×1×1,每個尺寸的卷積核各128個;第三層為池化層,采用空間金字塔池化;第四層為全連接層,將數(shù)據(jù)鋪平為分類做準備;第五層是輸出層,采用Softmax分類器,實現(xiàn)三分類。多尺度卷積核CNN結構如圖1所示。
圖1 多尺度卷積核CNN結構圖
1.3.1 損失函數(shù):
多尺度卷積核CNN通過前向傳播輸出卷積層中可學習卷積核與本層輸入的卷積作為下一層的輸入,通過誤差的反向傳播修正各層的網絡權值和偏置[11]。其前向傳播公式為:
損失函數(shù)表達式為:
式中:x i為輸入,j為單個樣本的預測結果,y i為真實類別的結果;W為權重參數(shù),f為激活函數(shù),此網絡模型采用Relu激活函數(shù),Δ為犯錯容忍度,為正則化懲罰項,其中λ為懲罰系數(shù),k、l分別為權重參數(shù)的行和列;
1.3.2 Softmax分類器
Softmax分類器表達式為:
式中:k為類別數(shù),z j表示第j個類別的線性預測概率,z k為k個類別的線性預測概率之和,f j(z)表示每一類的歸一化預測結果。反向傳播時,使用Adam梯度算法。
1.3.3 空間金字塔池化
卷積神經網絡的卷積層可以處理任意大小的圖片,而全連接層的特征數(shù)是固定的,所以在網絡輸入時,需要固定全連接層的輸入大小,空間金字塔池化[12-13]可以使任意大小的特征圖轉換成固定大小的特征向量。
本文采用國際公開數(shù)據(jù)集SEED進行實驗[14],被試者共15名(7名男性,8名女性,平均年齡23.27),每次實驗觀看15個電影片段(5個積極片段,5個消極片段,5個中性片段),因此每次實驗總共有15個試驗trials。在一個trial中,每個影片之前有5 s提示,電影播放時間4 min,自我評估為45 s,休息為15 s。實驗環(huán)境如圖2所示,實驗流程如圖3所示。影片放映過程中,針對同一情感的兩個影片剪輯不會連續(xù)顯示。每名志愿者進行三次實驗,每次實驗時間相隔一周,共45次實驗。
圖2 實驗環(huán)境
圖3 實驗流程圖
數(shù)據(jù)集包含了62個通道上記錄的腦電信號,根據(jù)國際10-20標準系統(tǒng)記錄,62通道電極分布如圖4所示。之后對采集的信號進行預處理,原始EEG數(shù)據(jù)(1 000 Hz)被降采樣到200 Hz,為了濾除噪聲和去除偽影,用0~75 Hz的帶通濾波器對EEG數(shù)據(jù)進行處理,提取了與每部電影的時長相對應的腦電圖片段,得到預處理數(shù)據(jù)集。
圖4 62通道電極分布圖
微分熵特征相對于其他特征而言更適合情緒識別[14],因此我們根據(jù)信號的持續(xù)時間將信號分成多個1 s段,在每一段中,使用256點非重疊漢寧窗短時傅里葉變換計算預處理后的數(shù)據(jù)五個頻段(δ:1 Hz~3 Hz,θ:4 Hz~7 Hz,α:8 Hz~13 Hz,β:14 Hz~30 Hz,γ:31 Hz~50 Hz)的微分熵特征。
本文選用15名被試的預處理數(shù)據(jù)集和特征提取后的數(shù)據(jù)集分別進行實驗。其數(shù)據(jù)格式如表1。
表1 數(shù)據(jù)格式說明表
本文在劃分數(shù)據(jù)集之前對每個被試的樣本進行隨機打亂操作,然后將其進行歸一化處理,本文采用零均值規(guī)范化,零均值規(guī)范化也稱標準差標準化,經過處理的數(shù)據(jù)的均值為0,標準差為1。轉化公式為:
式中:ˉx為原始數(shù)據(jù)的均值,σ為原始數(shù)據(jù)的標準差。腦電信號進行零均值規(guī)范化后可以使所有數(shù)據(jù)在相同的數(shù)量級上,以便后續(xù)分類處理。之后按照比例8∶2將數(shù)據(jù)集劃分成訓練集與測試集。
首先確定最佳的多尺度卷積核尺寸。參考文獻[11,15]結果,選取了三個不同尺寸的多尺度卷積核在被試15預處理后的數(shù)據(jù)上分別進行實驗,三個尺寸的多尺度卷積核分別是:[1,3,5],[1,2,3],[10,12,15],實驗結果如圖5所示,發(fā)現(xiàn)尺寸[1,3,5]和尺寸[1,2,3]的分類準確率均高于尺寸[10,12,15],說明較小的尺寸能更好的處理情緒腦電信號,且尺寸[1,3,5]的分類準確率是最高的,因此確定多尺度卷積核尺寸為[1,3,5]。其次驗證多尺度卷積核CNN的有效性,選用被試15、14、13、12預處理后的腦電數(shù)據(jù)進行實驗,分別采用單尺度卷積核1,3,5和多尺度卷積核[1,3,5]對其腦電信號進行分類,其余參數(shù)設置均相同,被試15迭代70次,被試14、13、12分別迭代600次。由圖6可知,其中圖a,b,c,d分別為被試15、14、13、12的實驗結果圖,被試13和14,單尺度卷積核[3]、[5]分類準確率幾乎相同,被試15單尺度卷積核[3]準確率高于卷積核[5],被試12單尺度卷積核[3]準確率低于卷積核[5],這從側面反應出腦電情緒具有個體差異性,四個被試實驗中,多尺度卷積核的分類準確率均高于其他三個單尺度卷積核,因為多個尺度卷積核中,卷積核較小的感知野較小,因此對于細節(jié)特征的檢測相對較好;大尺度卷積核考慮到了很大感知野的信息,因此可以忽略掉大量噪聲,對整體特征檢測較為精確,結果驗證了多尺度卷積核CNN的有效性與魯棒性。網絡相關參數(shù)設置見表2。
表2 多尺度卷積核CNN參數(shù)設置表
圖5 多尺度卷積核與多尺度卷積核分類準確率對比
圖6 單尺度卷積核與多尺度卷積核分類準確率對比
在實際應用中,使用較少的腦電通道來實現(xiàn)高精度的情感識別是非常重要的,因此我們使用SEED數(shù)據(jù)集的預處理后的數(shù)據(jù)探究了腦區(qū)和電極數(shù)量對情緒識別精度的影響。由于影響情緒的區(qū)域主要在腦區(qū)的顳葉、前額和前半腦區(qū)[4,16],圖7顯示了本文選取的五種情況下的通道:1)4通道(FT7、FT8、T7、T8);2)6通道(FT7、FT8、T7、T8、TP7、TP8);3)9通道(FP1、FPZ、FP2、FT7、FT8、T7、T8、TP7、TP8);4)15通道(FP1、FPZ、FP2、FT7、FT8、T7、T8、TP7、TP8、C5、C6、CP5、CP6、P7、P8);5)33通道(FT7、FT8、T7、T8、TP7、TP8、C5、C6、CP5、CP6、P7、P8、FP1、FPZ、FP2、AF3、AF4、F7、F5、F3、F1、FZ、F2、F4、F6、F8、FC5、FC3、FC1、FCZ、FC2、FC4、FC6)。
圖7 5種不同通道的頭皮電極分布
表3 顯示了每名被試在5種不同通道上的分類準確率,4通道、6通道、9通道、15通道及33通道的平均準確率分別為74.32%、78.99%、80.52%、83.36%、89.72%,從平均準確率可以看出,隨著通道數(shù)量的增加,分類準確率也在上升,而且33通道的準確率幾乎接近62通道的準確率,說明33通道包含了情感識別的大部分判別信息。此外使用33通道數(shù)據(jù)進行分類所用的時間比使用62通道數(shù)據(jù)降低了近80%,通道選擇能有效地去除冗余信息,用關鍵通道進行訓練可以提高分類效率。
表3 每名被試在4、6、9、15、33及62通道上的分類準確率 單位:%
通過通道選擇的實驗結果,選用SEED數(shù)據(jù)集中全部被試者提取微分熵特征后的33通道數(shù)據(jù)來進行情緒三分類實驗。首先將數(shù)據(jù)集轉變成適合作為多尺度卷積核CNN輸入的特征樣本,每名被試者共有10 182個樣本,在輸入網絡前先對樣本進行歸一化處理并進行樣本劃分,最后將樣本輸入多尺度卷積核CNN,CNN模型超參數(shù)設置分別如表4所示,最終取得了理想的分類結果,預處理數(shù)據(jù)集平均準確率達到89.72%,提取微分熵特征后的平均分類準確率達到98.19%,由圖8可知,提取微分熵特征后的分類準確率均高于預處理數(shù)據(jù),可見先對預處理數(shù)據(jù)提取微分熵特征,再輸入多尺度卷積核CNN模型進行二次特征提取后的特征更適合情緒分類,雖然不同被試之間存在個體差異性,但是不同被試經過二次特征提取后的分類準確率均高于90%,說明模型具有很好的泛化能力。
表4 提取微分熵特征數(shù)據(jù)多尺度卷積核CNN模型超參數(shù)設置
圖8 各被試原始數(shù)據(jù)與微分熵特征數(shù)據(jù)在33通道上的分類準確率結果及其對比圖
為了進一步驗證本文多尺度卷積核CNN模型特征提取與分類的科學性和優(yōu)越性,將與同樣采用SEED數(shù)據(jù)集的特征提取與分類方法進行對比分析。文獻[4]首先提取腦電信號的微分熵特征,結合深度信念網絡進行通道選擇,獲得86.08%的分類準確度;文獻[3]將一維腦電時域信息轉換成二維的微分熵頻域特征,結合分層卷積神經網絡做二次特征提取,獲得了88.20%的識別精度;文獻[6]提取了原始腦電信號的微分熵特征,通過判別圖正則化極限學習機進行分類,得到91.07%的平均準確率;文獻[5]采用CNN對腦電信號進行特征提取,用多種分類器進行分類比較,最終隨機森林分類器獲得最高準確率94.7%;本文首先用多尺度卷積核CNN模型直接對預處理數(shù)據(jù)集進行情緒分類,得到89.76%的平均準確率,高于文獻[3]與文獻[4],說明多個尺度卷積核能有效的提取出情緒特征,再次驗證了本文方法在特征提取方面的優(yōu)越性;此外,通過圖9可以看出,利用本文方法,對提取過微分熵特征后的數(shù)據(jù)集進行二次特征提取后的分類準確率比其他文獻方法都要高,說明本文方法在SEED數(shù)據(jù)集上取得的效果更好,在情緒識別方面具有一定價值。
圖9 同類研究結果對比圖
本文以情緒腦電信號作為特征提取對象,在經典CNN模型的基礎上進行改進,提出了多尺度卷積核CNN的情緒腦電特征提取與分類方法,并在國際公開數(shù)據(jù)集SEED上驗證了其有效性,取得了98.19%的平均分類準確率,與預處理數(shù)據(jù)集的分類準確率相比,高出近八個百分點,且高于同類研究結果。本研究證實了多尺度卷積核CNN模型能有效的提取情緒有關特征,且用關鍵通道進行情緒識別分類可以提高分類效率,也證實了二次特征提取能大大提高分類準確率,同時也表明基于腦電的情緒識別分類準確率與被試的腦電數(shù)據(jù)質量密切相關,存在個體差異性。雖然進行通道選擇后,數(shù)據(jù)量減少了,訓練時間縮短了將近80%,但相對其他方法而言,訓練時間還是過長,后續(xù)還需要進一步提升。總之,本文提出的模型在情感識別方面具有較好的研究潛力和應用背景。在未來工作中,我們打算在本文的基礎上,將眼動信號與腦電信號融合,設計出多模態(tài)卷積神經網絡用于情緒分類。