蔡靖,袁守國,李銳,徐夢輝
(吉林大學 儀器科學與電氣工程學院,吉林 長春 130061)
情緒是人們對客觀事物的一種反饋方式,更是人們情感的表現(xiàn)方式,故而情緒識別被廣泛應用于人工智能、心理學、情感計算、計算機視覺和醫(yī)學治療等領域[1]。生理信號是由人體內(nèi)的自主神經(jīng)系統(tǒng)活動而產(chǎn)生的,既不會受到人為意志的控制,也不會被偽裝,可以客觀地反映人體的生理和心理活動狀態(tài),因而可以作為一種能夠較準確判斷情緒狀態(tài)的依據(jù)。隨著科學技術的發(fā)展,基于生理信號(腦電、心電、脈搏、呼吸、皮溫、肌電、皮膚電導)的情緒識別的研究取得了大量的成果。文獻表明,與大腦活動最密切的EEG 信號可以最真實地反映出人的情緒狀態(tài)[2]。
近年來,基于腦電信號的情緒識別是當前關于情緒研究領域和人機交互領域的熱門課題。Pane 等人提出了一種將情緒側(cè)化和整體學習相結合的策略,對DEAP數(shù)據(jù)集采用隨機森林的方法進行分類,分類準確率為75.6%[3];Verma 等人基于DEAP 數(shù)據(jù)庫使用支持向量機(Support Vector Machine,SVM)進行多模態(tài)情緒識別[4];Kolodyazhniy 利用K-近鄰算法和交叉驗證的方法對34名參與者的數(shù)據(jù)集進行分析,對恐懼、悲傷及中性3 種情緒狀態(tài)的識別準確率最高達73.2%[5]。但這些方法識別情緒種類不多且準確率較低,對此,本文提出一種采用加權KNN 算法、基于DEAP 數(shù)據(jù)庫的5 折交叉驗證的方法實現(xiàn)對興奮(excited)、放松(relaxed)、沮喪(depressed)、憤怒(angry)4 種情緒的準確識別,識別準確率高達80%。
Koelstra 等人在2011 年建立DEAP 數(shù)據(jù)集[6],該數(shù)據(jù)集記錄32 名參與者的腦電圖和外周生理信號,每人觀看40 部長達一分鐘的音樂視頻片段,每個片段結束后,參與者都會進行自我評估。受試者對愉悅度(Valence)、喚醒度(Arousal)、支配性(Dominance)、喜歡程度(Liking)4個項目進行數(shù)字(1~9)打分。
在采集的40 個生理信號通道中,前32 個通道采集的為腦電信號,腦電通道按照國際10-20 系統(tǒng),選擇32個通道的位置,如圖1 所示。
Zheng Weilong 等人的研究中發(fā)現(xiàn),采用位于外側(cè)顳區(qū)的4 通道的最佳平均精度和標準差分別為82.88%、10.92%,略低于全62 個通道的83.99%的平均精度[7]。為了減小計算量,本文僅選用EEG 信號的左右對稱的14個通 道(AF3、F3、F7、FC5、T7、P7、O1、AF4、F4、F8、FC6、T8、P8、O2)的EEG信號進行分析。
本文采用喚醒度-愉悅度(Arousal-Valence)模型,將情緒映射到喚醒度和愉悅度組成的二維空間中,1.0~4.5 和4.5~9 的愉悅度分別映射為“消極”和“積極”,1.0~4.5 和4.5~9 的喚醒度分別映射為“平靜”和“活躍”。根據(jù)映射關系,可將情緒分為興奮、放松、沮喪、憤怒4類,如圖2 所示。
特征提取的主要任務是提取出能夠?qū)EG 信號映射到情緒狀態(tài)中的一些顯著特征?,F(xiàn)有的腦電特征主要分為時域特征、頻域特征、時頻域特征以及空間域特征4 類[9]。本文主要討論兩類特征,一類是基于時域的統(tǒng)計特征,另一類是基于頻域的功率譜(Power Spectral Density,PSD)和微分熵(Differential Entropy,DE)。
具體做法是:首先,設置一個寬度為6 s 的矩形窗,計算該時間窗內(nèi)的EEG 信號下面提到的所有特征;然后平滑移動時間窗前進2 s,即與上一組序列重疊4 s,直到將60 s 的信號全部計算完畢。
在時域上提取的特征包括信號統(tǒng)計量(均值、中位數(shù)、最大值、最小值、標準差、方差、峰值)、偏度(skewness)、峰度(kurtosis)、分形維數(shù)(FD)、Hjorth 復雜性、Hjorth移動性共12 種特征值。其中信號統(tǒng)計量特征計算方法比較簡單,故在此不做贅述,對其他的幾個特征展開詳細討論。
(1)偏度(skewness)
偏度是統(tǒng)計數(shù)據(jù)分布偏斜方向和程度的度量,是統(tǒng)計數(shù)據(jù)分布非對稱程度的數(shù)字特征。
其中,Xi表示第i 個信號值,μx表示一組信號的平均值,σx則表示標準差。
(2)峰度(又稱峰態(tài)系數(shù),kurtosis)
峰度表征了概率密度分布曲線在平均值處峰值的高低,即反映了數(shù)據(jù)的尖度。
(3)分形維數(shù)(Fractal Dimension,F(xiàn)D)[9]
分形維數(shù)可以用來表征時間域信號的復雜程度。本文利用Higuchi 算法來計算EEG 信號的分形維數(shù)FD。
(4)Hjorth 參數(shù)[10]
Hjorth 移動性(Mobility)給出關于幅度標準偏差的斜率標準偏差的度量,反映了時間序列的坡度變化程度。
式中,X'是X 的一階差分,σ2(X)為X 的方差。
Hjorth 復雜性(Complexity)給出有關正弦波的過度細節(jié)的度量,反映出一個振幅上有多少個標準的坡(slope)。
據(jù)現(xiàn)有的研究表明,腦電信號分為5 個頻段,考慮到成年人只在深度睡眠和無夢睡眠時腦電才會保持在Delta 頻段(1~4 Hz),故不考慮提取該波段的特征,而是提取了Theta 頻段(4~8 Hz)、Alpha 頻段(8~12 Hz)、Low Beta 頻段(12~16 Hz)、High Beta 頻段(16~25 Hz)和Gamma頻段(25~45 Hz),各個頻段下的時域波形如圖3 所示。由于Beta 包含了大量的有關興奮、恐懼、憤怒等強烈情緒的信息[11],因此對其進行細分。
(1)功率譜密度(PSD)
功率譜密度是用來表征信號功率與頻率的關系的物理量,計算公式如式(5)所示:
式中,fstop為頻段的截止位置頻率,fstart為頻段的起始位置頻率。
(2)微分熵(DE)
微分熵被用于測量連續(xù)隨機變量的復雜性。由于腦電圖數(shù)據(jù)具有較高的低頻能量,DE 具有區(qū)分低頻和高頻能量腦電圖模式的平衡能力,對于EEG 信號,其在數(shù)值上等于功率譜密度的對數(shù)[12]。
對于提取到的8 316 個特征,存在著大量相關關系,如果不進行降維處理就進行機器學習訓練,不僅會占用大量內(nèi)存,消耗更多的時間,而且極有可能面臨著過擬合的問題,所以必須對特征進行降維處理。本文采用的特征降維方法是主成分分析法(Principal Component Analysis,PCA)。主成分分析是一種使用正交變換將一組可能相關變量的觀察結果轉(zhuǎn)換為一組稱之為主成分的線性不相關變量的值的統(tǒng)計方法。具體計算過程如下:
輸入:特征數(shù)據(jù)集Dn×m={x1,x2,…,xm},每類特征xi=(xi1,xi2,…,xin)T是長度為n 的列向量,需要降維到低維空間的維度為k。
(1)中心化數(shù)據(jù):xi←xi-
(2)計算協(xié)方差矩陣:C=cov(D)=DDT
(3)計算特征值和特征向量:[V,M]=eig(C)
(4)前k 個的特征值構成向量Λ=(λ1,λ2,…,λk)T,所對應的特征向量組成投影矩陣 (也稱系數(shù)矩陣)W={w1,w2,…,wk}
輸出:降維后的數(shù)據(jù)An×k=Dn×m×W,原始特征在降維后數(shù)據(jù)中的貢獻率為P=W×Λ。
限定總解釋方差為95%,最終將輸入特征的數(shù)量從8 316 個減少到54 個。
在進行PCA 降維之前,需要對特征進行歸一化和標準化[8]。同時,為了研究降維前的各特征對主成分的貢獻率,分別對時域、頻域所有特征以及14 個通道進行討論。對這些特征進行權重分析,即將總權重設為100,通過PCA 分析計算了8 316 個特征各自對54 個主成分的貢獻率(也就是累加權重)。
K-近鄰(KNN)由Cover 和Hart 提出,是一種十分有效且方法簡單、易于理解、容易實現(xiàn)的非參數(shù)有監(jiān)督的學習分類器[14],如圖4 所示。
對于給定的測試樣本,使用一定的距離測量方法找到訓練集中最接近的k 個訓練樣本。然后,根據(jù)這k 個“鄰居”的信息對測試樣本進行預測。
設一個測試樣本x=(x1,x2,…,xs),則該樣本點與訓練集中某一樣本點xi之間的距離有兩種計算方法:
(1)歐式距離:
(2)曼哈距離:
對類別的判定同樣有兩種方法[15]:
(1)投票法:從K 個近鄰中選擇某個類別點數(shù)最多的那一類作為測試樣本的類別;
(2)加權投票法:根據(jù)距離遠近賦予權重,通常權重是距離平方的倒數(shù)。
本文采用歐式距離作為樣本間的距離,設f(xi)為樣本xi的類別標簽,其取值范圍為V={0,1,2,3},分別對應4 類情緒(沮喪、放松、憤怒、興奮)。具體實現(xiàn)方法如式(9)所示:
當a、b 為同一類時,則認為投同意票,記數(shù)將會加1;否則認為投反對票,記數(shù)不會加1。
但由于K 個距離大小不同,因此本文選擇加權投票法。以每個近鄰的距離的平方的倒數(shù)作為其權重,這樣一來,距離近的相似度更高,權重值也更大,這樣的KNN 算法稱為距離加權KNN 算法。具體實現(xiàn)方法如式(10)所示:
計算上述所有特征,圖5 為對通道F3 的EEG 信號提取的22 類特征,并進行了歸一化和標準化。
圖6 為12 類時域特征隨時間的變化曲線,其中分形維數(shù)FD、偏度及h2(Hjorth 移動性)隨時間變化波動程度較大,平均值、中位數(shù)、極值等特征則比較平穩(wěn)。
圖7 為頻域特征隨時間變化曲線,Alpha 頻段、Low Beta 頻段的PSD 和DE 都表現(xiàn)出較強平穩(wěn)性,其他頻段都有著一定的波動。
利用PCA 降維把8 316 維的原始數(shù)據(jù)降維到53維,并對時域各類特征、頻域各波段、14 個通道的權重進行討論。
時域各類特征權重如表1、圖8 所示。其中h1 和h2分別為Hjorth 復雜性和Hjorth 移動性。
表1 時域各類特征權重
在所有的12 個時域特征中,最大值、最小值以及差值、標準差、方差有著較高的權重,峰度和Hjorth 移動性權重較低。
頻域各波段權重如表2、圖9 所示。
表2 頻域各類特征權重
從圖9 中可以看出,Gamma 波段、Alpha 及Low Beta波段所占權重較大,High Beta 和Theta 權重較小。
14 個通道特征權重如圖10 所示。
可以看到14 個通道的貢獻率各不相同,除了F4 通道明顯高于F3 通道和F7 通道明顯高于F8 通道以外,其他左右對稱的兩通道差異都不是很大。同時還可以看到,每一通道的頻域特征權重都普遍大于時域特征的權重。其中表現(xiàn)最好的幾個通道為P7、F4、F7、AF3、AF4。
隨機選取80%數(shù)據(jù)進行訓練、20%數(shù)據(jù)進行測試,采用K=10 的加權KNN 算法,進行5 折交叉驗證,分類結果的混淆矩陣如圖11 所示??梢钥闯鰧? 類情緒的識別準確率都在72%以上,平均準確度為80%,其中,對第4 類情緒(興奮)識別準確率最高。4 種模型下的ROC曲線如圖12~圖15 所示。
本文基于DEAP 的數(shù)據(jù)庫,選用14 通道EEG 信號并對其進行時域特征和頻域特征提取,對各類特征權重加以分析發(fā)現(xiàn),時域特征中,最大值、最小值、極差、標準差、方差有著較高的權重;其次是偏度、Hjorth 復雜性、平均值、中位數(shù)以及分形維數(shù);峰度和Hjorth移動性權重較低。頻域特征中,Gamma 波段、Alpha 及Low Beta 波段所占權重較大,High Beta 和Theta 較小。尤其是Low Beta波段的PSD 權重遠高于DE,這與其他幾個波段相反。總體來看,14 個通道的頻域特征權重都高于時域特征,且各個通道的貢獻率也不相同,除了F4 通道明顯高于F3通道和F7 通道明顯高于F8 通道以外,其他左右對稱的兩通道差異都不是很大。通過PCA 主成分分析法對特征進行降維處理,利用加權KNN 算法進行5 折交叉驗證訓練,最終最對興奮(excited)、放松(relaxed)、沮喪(depressed)、憤怒(angry)4 種情緒的識別準確率達到了80%。