王忠民,馮 璁,賀 炎
(1.西安郵電大學 計算機學院,陜西 西安 710121;2.西安郵電大學 陜西省網(wǎng)絡(luò)數(shù)據(jù)分析與智能處理重點實驗室,陜西 西安 710121)
腦機接口(brain-computer interface,BCI)技術(shù)是一種利用在大腦內(nèi)部、皮質(zhì)表面、頭皮檢測到的生物電信號實現(xiàn)人類大腦與計算機或其它電子設(shè)備相互交流、通訊,從而允許使用者在沒有外圍神經(jīng)系統(tǒng)和肌肉組織參與的情況下進行有效通信的技術(shù)[1]。腦電信號(electroencephalogram,EEG)因其非侵入性、采集便捷、高時間分辨率等特性被廣泛用作腦機接口的源信號[2]。隨著科學技術(shù)的發(fā)展以及科研水平的不斷提高,研究者通過使用盡可能多的通道采集腦電信號,以提高情感識別精度、獲得較為準確的監(jiān)測效果。但是,使用較多的通道信號會產(chǎn)生降低可穿戴設(shè)備使用者的舒適度,增加信號處理過程中的計算負荷、成本等負面影響。為解決上述問題,通道選擇技術(shù)應(yīng)運而生,該技術(shù)通過結(jié)合實際應(yīng)用場景,去除與任務(wù)不相關(guān)的通道以簡化系統(tǒng),提高計算效率。
目前,在基于腦電信號的情感識別領(lǐng)域,研究者們提出了多種不同的通道選擇方法。Wu等[3]依據(jù)情感與大腦“前額葉區(qū)域腦電活動不對稱”這一特點之間的相關(guān)性,將國際10-20系統(tǒng)中Fp1和Fp2通道采集的數(shù)據(jù)作為腦電信號分析的輸入。Peng等[4]從多位被試的腦電信號中提取香農(nóng)熵、差分熵、第一差分等特征,通過Mean-ReliefF算法實現(xiàn)特征選擇,并依據(jù)特征權(quán)重進行通道排序,最終選擇較優(yōu)的通道子集?,F(xiàn)有的大多數(shù)通道選擇方法主要從已有的腦區(qū)功能劃分、特征選擇等角度進行研究分析,存在實驗結(jié)果依賴于前期特征提取是否合理、計算復(fù)雜度高等不足。為此,本文提出一種以腦電信號產(chǎn)生機制為理論基礎(chǔ)的通道選擇方法。
通過任意位于大腦皮層通道測得的被觀測腦電信號由多個象征不同精神活動誘發(fā)、不同腦部區(qū)域產(chǎn)生的相互獨立的腦電源成分疊加而成[5]。因此,本文對多通道腦電信號進行腦電源成分定量分析,選擇與情感誘發(fā)相關(guān)度較高的腦電源成分,最終通過反投影實現(xiàn)通道選擇。
如圖1所示,定量分析腦電源成分的通道選擇方法包括腦電源成分提取、腦電源成分定量分析、腦電源成分反投影3部分。
圖1 定量評估腦電源成分的通道選擇方法框
通常,腦電信號是由固定在頭皮上的采集通道感應(yīng)到大腦活動過程中微弱的電壓變化,通過差分放大、濾波、數(shù)模轉(zhuǎn)換等一系列手段獲得的一種非平穩(wěn)隨機信號,是腦神經(jīng)細胞在自發(fā)狀態(tài)或不同事件誘發(fā)下的電生理活動在大腦皮層或頭皮表面的總體反映。實際上,每個通道采集到的腦電信號都是大腦內(nèi)部多個活動源產(chǎn)生的電生理信號的疊加,是一種易受干擾的混合信號。把這些活動源產(chǎn)生的電生理信號從腦電信號中分離出來,對腦部疾病的臨床診斷、大腦認知功能研究、情感產(chǎn)生及傳導機理研究等具有重要意義。
腦電信號用矩陣形式可表示為X={x1(t),x2(t),x3(t),…,xn(t)}T,n表示采集腦電信號的通道數(shù)量,T為X的轉(zhuǎn)置表示。X由m個相互獨立的腦電源成分向量S={s1(t),s2(t),s3(t),…,sm(t)}T經(jīng)過矩陣W混合而成
X=WS
(1)
在上述模型中,通過腦電信號數(shù)據(jù)矩陣X得到源成分向量和混合矩陣,即
U=W-1X
(2)
其中,W-1被稱為解混矩陣,是混合矩陣W的逆矩陣,定義Wm=(w1m,w2m,…,wnm)T為矩陣W-1的列向量。
本文通過基于信息傳輸最大原則(information maximization,Infomax)算法[6]提取多個腦電源成分,即當輸入的腦電信號與輸出的多個腦電源成分的互信息越大,輸出的各腦電源成分間的冗余信息越小。由式(2)可知,各通道的腦電信號是各個腦電源成分與其對應(yīng)的wnm(m=1~n)線性加權(quán)的結(jié)果,因此,腦電源成分sm(t)對應(yīng)采集的腦電信號xn(t)中的變量wnm稱為sm(t)對xn(t)的權(quán)重,若權(quán)重越大,則代表該腦電源成分sm(t)在腦電信號xn(t)的所占比重就越大。因此,由矩陣W-1的列向量可以得知各個腦電源成分在腦電信號采集通道的分布情況。
Infomax算法得到的多個腦電源成分不僅包括與給予特定刺激相關(guān)的大腦活動信號,而且摻雜外界環(huán)境、其它生理電信號等引起的干擾信號。在本文中,為去除與情感識別任務(wù)不相關(guān)的腦電源成分,多個相互獨立的源成分經(jīng)維格納分布變換后得到相應(yīng)的時頻圖,使用盒計數(shù)法作為時頻圖所含信息的量化指標,從而優(yōu)選出與情感識別密切相關(guān)的腦電源成分。
1.2.1 維格納分布
時頻分析旨在將一維非平穩(wěn)信號通過二維的時間-頻率密度函數(shù)表示,以揭示包含在非平穩(wěn)信號中的頻率分量及其隨時間的變化規(guī)律。與傳統(tǒng)短時傅里葉變換相比,維格納分布是一種雙線性時頻分析方法,處理非平穩(wěn)連續(xù)信號時具有時間-頻率邊緣特性、能量集中性、高分辨率等特點[7]。因此,本文采用維格納分布對多個腦電源成分進行時頻分析,且任意腦電源成分S均為連續(xù)時間信號
(3)
通過式(3),任意腦電源成分均使用時-頻域表示,并以時頻圖形式輸出,以便通過盒計數(shù)法衡量腦電源成分的信息量。
1.2.2 盒計數(shù)法
分形維數(shù)技術(shù)是提取圖像隱藏特征較為有效的方法之一,運用分形維數(shù)不僅可以表征圖像的粗糙程度,而且可以表征其復(fù)雜程度。盒計數(shù)方法[8]是計算圖像分形維數(shù)的常用方法之一,本文將其作為多個腦電源成分的時頻圖所含信息的量化指標,從而優(yōu)選出與情感識別任務(wù)密切相關(guān)的腦電源成分。在應(yīng)用盒計數(shù)方法之前,需要先將灰度時頻圖轉(zhuǎn)換為二值圖像
TFI(pix(k))>thrd→1,TFI(pix(k)) (4) TFI表示任意腦電源成分的時頻圖,pix(k)表示第k個像素,thrd表示閾值。若像素值小于或等于閾值,則將該像素設(shè)置為0,否則為1。 進行二值化處理后的時頻圖表示為F,其分形維數(shù)計算如式(5)所示 (5) Dα為F的分形維數(shù)值,Nr(F)表示覆蓋F所需盒子的數(shù)目,r即為盒子的邊長。 本文采用分形維數(shù)量化各腦電源成分與情感識別任務(wù)的相關(guān)性后,使用反投影技術(shù)推導各腦電源成分在多通道腦電信號的強度、位置等信息,進而判斷其在大腦皮層所激活的區(qū)域,從而將篩選出來的與情感識別任務(wù)相關(guān)的腦電源成分映射到相應(yīng)的腦電信號通道。 腦電研究主要由腦電模型、腦電正問題、腦電逆問題3部分組成。腦電源成分反投影技術(shù)屬于腦電逆問題研究范疇,是指根據(jù)頭皮觀測到的電位來信號反演腦電活動源的信息。腦電逆問題研究方法主要包括基于邊界元、有限元等的腦電皮層電位成像技術(shù)和等價偶極子定位技術(shù)。使用偶極子解決腦電逆問題首先需要分別假設(shè)頭模型和源模型。通常,源模型包括單偶極子源、多偶極子源,頭模型包括球模型、橢球模型、真實頭模型。本文使用等價偶極子分析方法[9]實現(xiàn)腦電源成分反投影將任意腦電源成分視為一個電流偶極子,使用最小化殘余誤差確定電流偶極子的位置和強度等信息,如式(6)所示 (6) 其中,j為躍遷偶極矩,Z為導聯(lián)場矩陣。 本文基于DEAP公共情感數(shù)據(jù)集[10]驗證該通道選擇方法的可行性與有效性。DEAP數(shù)據(jù)集共32位被試,每位被試在觀看40段用于誘發(fā)情感狀態(tài)的音樂視頻的同時,被要求記錄其腦電信號、眼電信號、皮膚溫度等生理信號,其中22位被試被額外記錄了觀看視頻時的面部表情。觀看音樂視頻后,每位被試通過Arousal、Valance、likedislike、Dominance and Familiarity這4個維度對音樂視頻進行評價。由此可知,DEAP數(shù)據(jù)集是一個可用于分析人類情感狀態(tài)變化的多模態(tài)數(shù)據(jù)集。在本文實驗中,僅使用DEAP數(shù)據(jù)集中32位被試的32通道腦電信號,以及Arousal、Valance兩個維度的情感空間模型。 DEAP數(shù)據(jù)集中32位被試的32通道腦電信號已進行去噪處理,主要包括下采樣至256 Hz、使用腦電信號Lab工具箱以2 Hz截止頻率進行高通濾波,以及應(yīng)用盲源分離算法去除眼部偽影等。預(yù)處理后的32通道腦電信號被用于對4類情感狀態(tài)(high arousal-positive(HA-P)、low arou-sal-positive(LA-P)、high arousal-negative (HA-N)、low arousal-negative(LA-N))進行分類。 為增加訓練樣本數(shù)量,每個60 s實驗樣本被分為15個不重疊的4 s樣本,即每位被試共有600個樣本數(shù)據(jù)。每位被試的實驗數(shù)據(jù)均包含數(shù)據(jù)和標簽兩個數(shù)組。標簽數(shù)組表示每位被試對觀看的每個音樂視頻的評價級別,代表從1至9連續(xù)范圍內(nèi)的Arousal、Valance兩個維度的等級。每個維度取5為閾值,若視頻對應(yīng)標簽的評價級別大于或等于5,被認為是高級別,否則相反。 卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)概念的提出來源于生物學理論中的感受野機制。感受野是指大腦中的神經(jīng)只接受特定刺激區(qū)域內(nèi)的生理信號。目前的卷積神經(jīng)網(wǎng)絡(luò)主要是一種由輸入層、若干卷積層和池化層交叉堆疊而成的深層前饋神經(jīng)網(wǎng)絡(luò),通常使用多個反向傳播(back propagation,BP)算法進行訓練,使之以最高速度執(zhí)行分類任務(wù)。其中,卷積操作部分由多個濾波器完成,產(chǎn)生輸入數(shù)據(jù)的相應(yīng)特征;池化層主要實現(xiàn)特征降維任務(wù)。根據(jù)輸入數(shù)據(jù)的不同,卷積神經(jīng)網(wǎng)絡(luò)通??煞譃?-D、2-D、3-D卷積神經(jīng)網(wǎng)絡(luò),2-D卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于圖像識別領(lǐng)域,3-D卷積神經(jīng)網(wǎng)絡(luò)主要應(yīng)用于視頻流處理、行為識別領(lǐng)域。本文使用的1-D卷積神經(jīng)網(wǎng)絡(luò)通常被用于信號處理中,腦電信號正是通過位于頭皮通道采集的一維信號,符合1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入要求。將32通道腦電信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,通過適當?shù)赜柧?-D卷積神經(jīng)網(wǎng)絡(luò)以學習、提取不同情感狀態(tài)的特定特征,分類任務(wù)由Softmax回歸模型完成,最終達到情感識別的目的。 通常,在使用深度學習模型進行數(shù)據(jù)訓練時,需進行參數(shù)設(shè)置。在本文中,1-D卷積神經(jīng)網(wǎng)絡(luò)交替使用兩個雙卷積層和池化層,雙卷積層由兩個卷積層疊加構(gòu)成。卷積核的大小為3,池化層濾波器大小為2。4個卷積通道的大小分別為64、64、128、128。為防止過擬合,第二層池化層后使用Dropout層,其參數(shù)設(shè)置為0.6。Dropout層后使用全連接層,并在輸出層選擇Softmax激活函數(shù),用于對腦電信號實現(xiàn)四分類。 本文采用準確度(Accuracy)、特異度(Specificity)、敏感度(Sensitivity)這3個參數(shù)作為1-D卷積神經(jīng)網(wǎng)絡(luò)的分類性能衡量指標,計算公式分別如式(7)、式(8)、式(9)所示 (7) (8) (9) 其中,TP、TN、FP、FN均通過混淆矩陣來定義,見表 1。 表1 混淆矩陣 本文通過Infomax算法提取被觀測腦電信號的多個腦電源成分,采用維格納分布、盒計數(shù)法對腦電源成分進行量化評估,將含有與特定誘發(fā)刺激相關(guān)度較高的腦電源成分進行反投影以實現(xiàn)通道選擇?;贒EAP情感數(shù)據(jù)集,使用1-D卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)情感識別任務(wù),并通過情感識別準確率驗證本文提出的通道選擇方法的有效性。首先,將通道依照所含信息量從大到小依次作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,依據(jù)分類誤差率的變化確定最佳通道的數(shù)目。其次,將選出的通道子集與全通道、其它文獻方法的分類性能進行比較。最終,計算采用不同通道數(shù)量時時間復(fù)雜度的變化情況,驗證該通道選擇方法可以在基本不損失情感識別準確率的情況下,有效減少腦電信號處理的數(shù)據(jù)量。 具體實驗操作流程為: (1)在Python3.5環(huán)境下,完成多通道腦電信號的腦電源成分提取和定量分析。其中,腦電源成分提取采用Infomax算法,定量分析采用維格納時頻分布、盒計數(shù)法完成。 (2)在Matlab環(huán)境下,使用EEGLAB工具箱完成腦電源成分投影。其中,使用BEM作為頭部模型,通過DIPFIT2.2插件計算各個腦電源成分對應(yīng)的電流偶極子。 (3)通過步驟(1)、步驟(2),多通道腦電信號依據(jù)與情感的相關(guān)性由高到低進行排序;隨后,依次添加各通道腦電信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,完成情感識別任務(wù)。其中,1-D卷積神經(jīng)網(wǎng)絡(luò)在Python3.5環(huán)境下的Keras平臺實現(xiàn)。 DEAP數(shù)據(jù)集中32位被試的32通道腦電信號進行預(yù)處理之后,執(zhí)行Infomax算法,首先進行去中心、白化等預(yù)處理,目的在于去除各通道信號之間的關(guān)聯(lián)性、增強Infomax算法的收斂性。其次,分離出腦電源成分并且結(jié)合大腦地形圖分析各腦電源成分在腦部區(qū)域的活躍程度。如圖2所示,可知32位被試的32通道腦電信號依據(jù)Infomax算法可分離出32個腦電源成分,同時每個腦電源成分在各通道的權(quán)重即為腦電源成分在大腦皮層的空間分布情況(大腦地形圖)。大腦地形圖中不同的顏色深度代表某腦電源成分在不同腦部區(qū)域的活躍程度,顏色越深代表活躍程度越強。 圖2 32個腦電源成分地形 為衡量任意腦電源成分所含信息量,使用維格納分布將32個腦電源成分信號變換為時間-頻率圖像,并進一步轉(zhuǎn)換為二進制形式。將基于盒計數(shù)方法的分形維數(shù)應(yīng)用于每個時頻圖,32個腦電源成分對應(yīng)分形維數(shù)值見表2。 由表2知,任一腦電源成分的時頻圖包含的信息量不同,因此將32個腦電源成分根據(jù)所含信息量由大到小進行排序,繼而反投影實現(xiàn)通道選擇。實現(xiàn)反投影后依據(jù)所含信息量由高到低的前16個通道依次排序為:Fp1、PO3、F7、O1、FC2、F3、Pz、P3、FC5、AF3、C4、P7、CP5、CP6、AF4、FC6。如圖3所示,分類精度曲線是依據(jù)各通道在定量評估中所含信息量的權(quán)重進行依次添加得到的,首先添加所含信息量較大的通道。當通道數(shù)目低于8時,隨著通道數(shù)目的增加,分類誤差率迅速降低;當通道數(shù)目增至8以上,分類誤差率降低較為緩慢。 表2 腦電源成分的分形維數(shù)值 圖3 分類誤差率隨通道數(shù)目的變化情況 選擇Fp1、PO3、F7、O1、FC2、F3、Pz、P3通道的腦電信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,從而在使用較少通道的情況下達到較低的分類誤差率。其8通道的腦區(qū)分布如圖4所示。 圖4 最佳通道分布 為驗證該通道選擇方法的可靠性,本文對比了采用兩種不同通道集進行情感識別的結(jié)果:①利用本文提出的通道選擇方法選擇的通道子集;②全通道,即不進行通道選擇。 如圖5所示,使用本文提出的通道選擇方法所選通道子集采集的信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,其準確度、特異度、敏感度3個指標分別為67.2%,69.5%,71.4%。另一方面,不進行通道選擇而直接使用32通道腦電信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,其準確度、特異度、敏感度3個指標分別為70.4%,61.9%,74.1%。由此可知,與全通道的實驗結(jié)果相比,8通道采集的信號實現(xiàn)情感四分類僅犧牲較低的分類性能。 圖5 不同通道集合的分類性能比較 表3將本文通道選擇取得的分類結(jié)果與其它研究情感四分類的通道選擇文獻[12,13]的結(jié)果進行比較?,F(xiàn)有文獻提出的方法取得了65.04%、58.16%的平均準確度,均低于本文所用框架的結(jié)果。 上述實驗分別將所選通道的表現(xiàn)性能與全通道、其它相關(guān)文獻的結(jié)論進行比較,驗證了本文提出的方法在基于腦電信號通道選擇的情感識別中可獲得較高的識別準確率。 表3 與現(xiàn)有通道選擇文獻的性能比較 通道選擇旨在通過對各通道的腦電信號進行定量評估,去除冗余通道,提高可穿戴設(shè)備的使用便捷性、簡化后續(xù)的信號處理。在這一過程中,尋找與特定刺激相關(guān)的腦部區(qū)域?qū)τ诮⒁粋€高精度的腦機接口應(yīng)用系統(tǒng)至關(guān)重要。大腦主要由額葉區(qū)、頂葉區(qū)、枕葉區(qū)、顳葉區(qū)、中央5個區(qū)域構(gòu)成,不同區(qū)域負責不同的腦部活動,如:額葉區(qū)負責有意識地思考、顳葉區(qū)負責嗅覺與聽覺、頂葉區(qū)負責整合來自多個感官的感知信息、枕葉區(qū)負責視覺。 Soraia M等[14]提出在情感誘發(fā)過程中,與情感最相關(guān)的腦部區(qū)域主要是額葉和頂葉位置。如表4所示,DEAP數(shù)據(jù)集采集腦電信號的通道共32個,每個腦部區(qū)域分布不同數(shù)量的腦電信號通道。在情感識別研究中,通過本文提出的通道選擇方法選擇的Fp1、PO3、F7、O1、FC2、F3、Pz、P3通道主要位于額葉區(qū)域與頂葉區(qū)域,與上述理論研究相一致,驗證了選出的通道子集的合理性。 表4 DEAP公共情感數(shù)據(jù)集通道位置與腦部區(qū)域?qū)?yīng) 為驗證通道選擇的必要性,本文分別從通道數(shù)目與分類準確度、后續(xù)腦電信號處理時間變化兩個角度進行分析。從分類準確度進行分析,使用全通道腦電信號、8通道腦電信號實現(xiàn)情感識別的準確度分別為70.4%、67.2%,即使用本文提出的通道選擇方法進行通道選擇可將通道數(shù)目由32降到8,分類準確度僅降低3.2%。從后續(xù)腦電信號處理時間變化角度分析,通道數(shù)目的增加伴隨著計算時間的急劇提高。如圖6所示,當通道數(shù)目從32降至8時,1-D卷積神經(jīng)網(wǎng)絡(luò)的訓練時間可以節(jié)省1/4,大大降低計算復(fù)雜度。為通過可穿戴設(shè)備采集的數(shù)據(jù)實行實時性處理提供有效的參考價值。 圖6 計算時間隨通道數(shù)目的變化情況 如表5所示,分別示例5組通道數(shù)目下的情感識別準確度與計算時間,識別準確度與計算時間均隨著通道數(shù)目不斷變化。在實現(xiàn)情感識別任務(wù)時,按照各通道與情感刺激的相關(guān)性由高到低依次添加,選取Fp1、PO3、F7、O1、FC2、F3、Pz、P3這8個通道信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,計算時間為1.72 min,準確度為67.2%;選取Fp1、PO3、F7、O1、FC2、F3、Pz、P3、FC5這9個通道信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,計算時間為1.8 min,準確度為66.8%;選取Fp1、PO3、F7、O1、FC2、F3、Pz、P3、FC5、AF3、C4、P7、CP5、CP6、AF4、FC6這16個通道信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,計算時間為2.4 min,準確度為69.6%;選取所有的32個通道信號作為1-D卷積神經(jīng)網(wǎng)絡(luò)的輸入,計算時間為5.1 min,準確度為70.4%。當通道數(shù)目由8增至9時,準確度略有下降,該現(xiàn)象的原因可以認為是后續(xù)增加的通道信號對于前一階段的實驗數(shù)據(jù)造成干擾,無法達到更好的實驗效果。當通道數(shù)目增至8時,情感識別的準確度變化較為緩慢。因此,據(jù)分析可知,以犧牲分類性能的輕微降低為代價提高可穿戴設(shè)備的便捷性、簡化計算復(fù)雜度是值得的。 表5 準確度與計算時間隨著通道數(shù)目增加的變化情況 本文提出一種定量評估腦電源成分的通道選擇方法。DEAP數(shù)據(jù)集的32通道腦電信號作為該方法的輸入進行通道選擇,1-D卷積神經(jīng)網(wǎng)絡(luò)利用所選通道的腦電信號實現(xiàn)情感識別(HA-P、LA-P、HA-N、LA-N)任務(wù)。與全通道的分類識別率相比,以犧牲較低的分類精度為代價,將腦電信號的通道數(shù)目從32個減少到8個。另一方面,選擇的通道均位于大腦的額葉和枕葉,這與現(xiàn)有的神經(jīng)生理學理論相一致,驗證了通過該方法選擇的腦電信號通道的合理性。該研究為可穿戴設(shè)備的便捷性、舒適度方面的改善提供了較可靠的參考,并且可以簡化后續(xù)信號處理的復(fù)雜程度。1.3 腦電源成分反投影
2 數(shù)據(jù)集及實驗設(shè)置
2.1 DEAP公共情感數(shù)據(jù)集
2.2 1-D卷積神經(jīng)網(wǎng)絡(luò)
2.3 評價函數(shù)
3 通道選擇結(jié)果及分析
3.1 選擇的最佳通道分布
3.2 最佳通道的表現(xiàn)性能
3.3 通道選擇結(jié)果的論證
4 結(jié)束語