王夏霖,闞 秀,范藝璇
(上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海 201620)
大腦是人體高級神經(jīng)活動的中樞,負責(zé)處理神經(jīng)系統(tǒng)中的復(fù)雜信息。當(dāng)人進行思維活動時,信息在大腦皮層上數(shù)以億計的相互連接的神經(jīng)元之間傳遞,并產(chǎn)生微弱的電流。這種微電流現(xiàn)象于1928年被首次發(fā)現(xiàn),并被命名為腦電波(Electroencephalogram, EEG)[1]。一般情形下,這些信號通過外圍神經(jīng)或者肌肉組織的通道向身體各個部位傳輸指令。在重度殘疾病人中,正常信息傳輸通道受損,但通過傳感器可以對大腦思維活動進行監(jiān)控和表征,因此腦機接口技術(shù)的發(fā)展對于殘障人士的認知和行為表達具有十分重要的意義。在“十四五”規(guī)劃綱要中,腦科學(xué)與類腦研究作為重大項目排在第4位,具有良好的發(fā)展前景。
腦機接口技術(shù)是一種借助腦電信號實現(xiàn)人機交互的技術(shù)手段,能夠幫助肌肉萎縮病人控制輪椅,輔助語言障礙病人與外界交流[2]。事件相關(guān)電位是一種在外界刺激下,大腦區(qū)域產(chǎn)生的誘發(fā)腦電信號[3]。其中P300事件相關(guān)電位為小概率刺激發(fā)生后300 ms或400 ms范圍左右出現(xiàn)的一個正向波峰,與受試者的心理認知狀態(tài)密切相關(guān),被廣泛運用于腦機接口技術(shù)[4]。文獻[5]提出了最早的基于P300事件相關(guān)電位的字符拼寫系統(tǒng),促進了腦機交互技術(shù)的發(fā)展,其原理和實現(xiàn)方式引起了國內(nèi)外廣泛關(guān)注。設(shè)計字符拼寫系統(tǒng)的目的是使用數(shù)據(jù)處理和分類策略對P300事件相關(guān)電位進行有效識別。文獻[6]利用小波變換對P300信號進行去噪,有效去除了腦電信號中的噪聲。文獻[7]采用獨立成分分析(Independent Component Analysis,ICA)法,根據(jù)P300信號的時空域先驗知識,將誘發(fā)電位的分解信號與ICA分離,保留了P300信號的相關(guān)部分,有效增強了P300信號。文獻[8]選擇目標(biāo)波形明顯的導(dǎo)聯(lián),對P300信號濾波后,通過合適的時間窗獲得區(qū)分度更高的特征向量,并結(jié)合貝葉斯判別分析模型進行分類分析。針對小概率下誘發(fā)刺激造成的數(shù)據(jù)不平衡問題,文獻[9]結(jié)合合成少數(shù)類上采樣方法(Synthetic Minority Oversampling Technique,SMOTE)豐富含有目標(biāo)P300事件相關(guān)電位的少數(shù)類,并用線性判別分析模型分類不同腦電信號。
本文根據(jù)5位健康成年被試者的P300腦機接口實驗數(shù)據(jù),基于LSTM-Attention網(wǎng)絡(luò)對數(shù)據(jù)增強后的腦電數(shù)據(jù)建立了一個P300事件相關(guān)電位識別分類模型。本文首先闡述了數(shù)據(jù)處理階段的主要內(nèi)容;然后,基于LSTM(Long-Short Term Memory)網(wǎng)絡(luò)和Attention機制構(gòu)建了P300事件相關(guān)電位識別分類網(wǎng)絡(luò)LSTM-Attention;最后,對所提方法和網(wǎng)絡(luò)進行了性能評估。
本文數(shù)據(jù)集來源于5個健康成年被試者(平均年齡為20歲)的P300腦機接口實驗數(shù)據(jù)。在實驗中,每個被試者能夠觀察到一個由36個英文和數(shù)字字符組成的6行6列矩陣界面[10],界面如圖1所示。
圖1 6×6字符矩陣界面
被試者被要求注視字符矩陣中的某一隨機目標(biāo)字符,目標(biāo)字符由矩陣界面的行和列來定義。在被試者注視目標(biāo)字符時,字符矩陣進入閃爍模式,每次隨機閃爍字符矩陣的某一行或一列,閃爍時間為80 ms,間隔為80 ms。每輪實驗測試12個隨機目標(biāo)字符,當(dāng)所有行和列均閃爍一次后,一輪實驗結(jié)束,每個被試者共進行10次實驗。在理想情況下,當(dāng)目標(biāo)字符所在的行或列閃爍時,被試者收到視覺刺激,約300 ms后被試者腦電信號中會檢測到P300事件相關(guān)電位;當(dāng)其他行或列閃爍時,被試者腦電信號中不會存在P300事件相關(guān)電位。
本文實驗共采集被試者20個通道的腦電信號,采樣頻率為250 Hz,采樣通道位置如圖2所示。信號采樣設(shè)備設(shè)置了參考電極和接地電極,因此采集的腦電信號幅值為作用電極與參考電極之間的差值[11]。
圖2 采樣電極位置示意圖
在腦電信號采集過程中會受到其他生物電信號或一些外界因素的干擾,因此采集到的原始腦電數(shù)據(jù)中會混入與被試者真實意圖無關(guān)的噪聲,這將增加P300事件相關(guān)電位的識別分類難度。為了去除腦電信號中的無用噪聲,提高數(shù)據(jù)的信噪比并完成最終P300電位的識別分類,需要對采集到的原始腦電信號進行預(yù)處理。本文對原始腦電信號的處理流程如圖3所示。
圖3 原始腦電信號處理流程
腦電信號屬于一種非平穩(wěn)、不規(guī)則的時間序列信號,其本身具有某種內(nèi)在聯(lián)系,而噪聲在信號內(nèi)部聯(lián)系函數(shù)之上疊加了多項式趨勢信號,因此本文采用去趨勢化方法對原始腦電信號進行基線矯正,過濾原始腦電信號中各階趨勢成分,去除由于噪聲和信號的不穩(wěn)定性帶來的偽關(guān)聯(lián)干擾。
對于長度為N的腦電信號序列{x(t),t=1,2,3,…,N},計算其累計差值并轉(zhuǎn)換為新序列
(1)
(2)
y(t)=y(t)-yn(t),t=1,2,…,N
(3)
通過上述處理,去除了原始腦電信號的趨勢項,得到了基線矯正后的腦電信號數(shù)據(jù)。采集到的腦電信號中會出現(xiàn)工頻噪聲、隨機噪聲等不同頻段的噪聲,而P300事件相關(guān)電位只會出現(xiàn)在特定的頻段范圍內(nèi),因此需要對采集腦電信號進行濾波。本文選取10階巴特沃斯帶通濾波,對基線矯正后的腦電數(shù)據(jù)進行0.1~20 Hz的帶通濾波,濾除不在該頻率區(qū)間內(nèi)的信號噪聲。原始腦電信號和去趨勢濾波后腦電信號如圖4所示。
圖4 腦電信號
假設(shè)理想情況下,受試者不受其他干擾,當(dāng)不含有目標(biāo)字符的行或列閃爍時不會誘發(fā)出P300事件相關(guān)電位。考慮到在刺激發(fā)生后300~450 ms才會出現(xiàn)P300電位,因此基于每個目標(biāo)字符出現(xiàn)的采樣點選取信號片段時,應(yīng)能夠充分包含由刺激誘發(fā)出的P300電位。在該實驗中,腦電的采樣頻率為250 Hz,因此1 s中的采樣點數(shù)為250個。本文將每一個字符所在行或列閃爍后600 ms內(nèi),即150個采樣點的腦電數(shù)據(jù)作為一個樣本,對原始腦電信號進行切分處理。此外,將受試者腦電信號中與目標(biāo)字符閃爍時對應(yīng)的信號片段切割為正樣本集,即含有P300電位的樣本集,其余信號片段為負樣本集。對每個受試者進行訓(xùn)練時,目標(biāo)字符有12個,因此每個受試者腦電信號最終切分維120個正樣本和600個負樣本,每個樣本的特征維度為150×20。
通過基線校正、濾波處理以及信號片段切割后,獲得的每個被試者的訓(xùn)練集樣本存在明顯不平衡現(xiàn)象。其中,含有P300事件相關(guān)電位的樣本數(shù)遠少于無刺激情況下的腦電信號樣本。信息量過少則難以為后續(xù)識別分類算法提供有效的特征,且分類器的決策邊界會傾向于樣本數(shù)量更多的類別,無法識別并定位P300電位所在的信號片段,增加了后續(xù)識別分類的難度,因此需對正樣本數(shù)據(jù)集進行數(shù)據(jù)增強以擴增正樣本數(shù)量。本文利用SMOTE算法合成少數(shù)類樣本,但該操作會生成部分噪聲。為了提高合成數(shù)據(jù)分布的合理性,本文選擇基于樣本的分布密度剔除游離在高密度區(qū)域的噪聲點。
2.3.1 合成上采樣
SMOTE算法主要針對少數(shù)類中的每一個樣本,對其k近鄰任選一個樣本進行線性插值,從而生成分布較為均勻的少數(shù)類樣本。
對于少數(shù)類集合中的每一個樣本xi,任選其k近鄰樣本中任一個樣本xneighbor,其合成新樣本xnew的大小如式(4)所示。
xnew=xi+rand(0,1)×(xneighbor-xi)
(4)
根據(jù)樣本不平衡的比例,將采樣率設(shè)置為5,即對每一個少數(shù)類樣本合成過程重復(fù)5次,進而生成正負樣本平衡的訓(xùn)練集。
2.3.2 基于密度聚類的噪聲樣本去除
通過SMOTE方法,可以根據(jù)樣本的位置分布情況有效合成大量的少數(shù)類數(shù)據(jù),但新生成的樣本也有可能落在多數(shù)類樣本的區(qū)域中,遠離少數(shù)類樣本的密集區(qū)域。針對SMOTE算法生成的樣本,需要進一步根據(jù)密度剔除無關(guān)噪聲樣本。
具有噪聲的基于密度的聚類(Density-Based Spatial Clustering of Application with Noise,DBSCAN)方法能夠?qū)⒆銐蛎芏鹊臄?shù)據(jù)點劃分為簇,并且在具有噪聲的數(shù)據(jù)空間分布中發(fā)現(xiàn)任意形狀的簇[12]。在DBSCAN中,假設(shè)樣本的訓(xùn)練集為D=(x1,x2,x3,…,xm),參數(shù)(ε,MinPts)用來描述每個核心樣本鄰域的樣本分布緊密程度。若D中的任意一樣本xj,其ε鄰域中的樣本數(shù)量Nε(xj)至少包含MinPts個樣本,則該樣本xj為核心對象。具體的密度描述定義如下所示:
(1)密度直達。若xj為核心對象,樣本xi位于xj的ε鄰域中,則xi由xj密度直達;
(2)密度可達。對于xi和xj,若存在一系列的樣本序列(均為核心對象),后一個樣本可由前一個樣本密度直達,且第一個樣本為xj,最后一個樣本為xi,則xi由xj密度可達;
(3)密度相連。樣本xi和xj均可由一核心對象xk密度可達,則xi和xj密度相連。
基于以上原理,由樣本間密度可達關(guān)系能夠?qū)С龅淖畲竺芏认噙B的樣本集合為密度高的類簇,算法流程如圖5所示。
圖5 DBSCAN算法流程
通過DBSCAN的算法原理可知,一些樣本點不屬于任何核心對象的鄰域內(nèi)。這些游離的樣本點遠離密度高的區(qū)域,是會對分類結(jié)果產(chǎn)生混淆的噪聲樣本。對合成后的全部少數(shù)類樣本應(yīng)用DBSCAN算法,并剔除噪聲樣本,可進一步提高分類識別準(zhǔn)確度。
目前的LSTM網(wǎng)絡(luò)在處理時間序列較短的輸入信息時,由于模型的全連接特性,會得到較好的分類結(jié)果[13]。但當(dāng)輸入較長時間序列時,它的全連接特性反而會導(dǎo)致維度爆炸問題,此時模型的性能表現(xiàn)較差[14-15]。本文將LSTM網(wǎng)絡(luò)和Attention機制結(jié)合在一起,保留LSTM網(wǎng)絡(luò)對輸入腦電信號的輸出信息,并使用Attention機制給輸出信息附加權(quán)重,以此來提高分類識別結(jié)果的信息權(quán)重,減少無關(guān)信息的權(quán)重,使網(wǎng)絡(luò)能夠有選擇地學(xué)習(xí)P300事件相關(guān)電位特征,提高P300電位的分類識別準(zhǔn)確度。LSTM-Attention網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖6 LSTM-Attention網(wǎng)絡(luò)基本結(jié)構(gòu)
如圖6所示,網(wǎng)絡(luò)主要可以分為4個部分:輸入層、LSTM模塊、Attention層和輸出層。網(wǎng)絡(luò)的輸入為待識別的腦電信號序列樣本,每段樣本有150個采樣點長度,20個采樣通道,因此網(wǎng)絡(luò)的輸入維度為150×20。
網(wǎng)絡(luò)的第2部分為LSTM模塊,主要由3層LSTM層組成:第1層LSTM層有120個LSTM神經(jīng)元,第2層有64個LSTM神經(jīng)元,第3層有32個LSTM神經(jīng)元。
Attention層為網(wǎng)絡(luò)的第3部分,其可以對腦電信號的重要性進行評判,突出腦電信號中重要的信息,降低網(wǎng)絡(luò)對識別分類結(jié)果影響較小數(shù)據(jù)的敏感度。Attention層通過加權(quán)求和,找到P300信號識別分類中的關(guān)鍵信號段,提高了整個網(wǎng)絡(luò)對腦電信號的分類效率。
網(wǎng)絡(luò)的第4部分中,輸出層主要由Dropout層、Sigmoid層組成。在P300腦電信號識別分類中,由于訓(xùn)練樣本有限,網(wǎng)絡(luò)訓(xùn)練過程中容易出現(xiàn)過擬合現(xiàn)象,即各個神經(jīng)元之間表示的特征相互之間可能存在重復(fù)。因此,在第3層Attention層后加入Dropout層,在訓(xùn)練過程中,按照概率P=0.5隨機將神經(jīng)元從網(wǎng)絡(luò)中移除,以防止網(wǎng)絡(luò)過擬合,提高網(wǎng)絡(luò)的泛化能力[16]。本文將P300事件相關(guān)電位的識別分類問題簡化為一個二分類問題,即判斷輸入腦電信號序列中是否存在P300電位。因此本文使用Sigmoid激活函數(shù)將Dropout層輸出映射到0、1范圍內(nèi),如果Sigmoid函數(shù)的輸出大于0.5,則該腦電信號片段內(nèi)存在P300事件相關(guān)電位,反之不存在。
LSTM網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)的一個改良版本,其通過添加遺忘門(ft)、輸入門(it)和輸出門(Ot),使得神經(jīng)節(jié)點權(quán)重可以隨時間改變,解決了循環(huán)神經(jīng)網(wǎng)絡(luò)的長期依賴問題,有效避免了循環(huán)神經(jīng)網(wǎng)絡(luò)可能出現(xiàn)的梯度消失或梯度爆炸現(xiàn)象[17]。
LSTM網(wǎng)絡(luò)的前向計算過程為:
(1)首先通過遺忘門中的Sigmoid層來舍棄無用信息,Sigmoid 層將當(dāng)前單元輸入xt和上一時刻單元的隱藏層輸出ht-1作為輸入,并進行計算,獲取介于0、1之間的數(shù)。遺忘門的輸出如式(5)所示
ft=Sigmod(wf[xt,ht-1]+bf)
(5)
式中,wf和bf分別為遺忘門中的權(quán)重和偏置;
(2)通過遺忘門之后,當(dāng)前單元輸入xt和上一時刻單元的隱藏層輸出ht-1需要再經(jīng)過一個Sigmoid層來確定向當(dāng)前單元添加的新信息it,同時還要經(jīng)過一個tanh層來獲得一個新的狀態(tài)輸出Ct。it、Ct可表示為
it=Sigmod(wi[ht-1,xt]+bt)
(6)
(7)
(3)對遺忘門和輸入門的輸出結(jié)果進行聯(lián)合計算,得到當(dāng)前時刻的單元狀態(tài)值,如式(8)所示。
(8)
與此同時,對經(jīng)過tanh層的當(dāng)前單元狀態(tài)Ct和經(jīng)過Sigmoid層之后的數(shù)據(jù)ot進行如下計算,得到當(dāng)前單元的隱含層輸出ht。
ot=Sigmod(wo[ht-1,xt]+bo)
(9)
ht=ot×tanh(Ct)
(10)
Attention機制本質(zhì)上是一種權(quán)重再分配方法,其通過對影響分類識別結(jié)果的信息附加權(quán)重,同時減少無關(guān)信息的權(quán)重來模擬人腦注意力的資源分配機制。因此,它能提高模型的學(xué)習(xí)能力,優(yōu)化模型的訓(xùn)練過程,提高模型的分類識別準(zhǔn)確率[18]。Attention層網(wǎng)絡(luò)結(jié)構(gòu)如下圖所示,假設(shè)ht是第t個LSTM單元的輸出,則Attention機制中注意力分布的計算過程為
et=ustanh(wsht+bs)
(11)
(12)
式中,ws、bs和us為Attention機制的權(quán)重、偏置和時間序列矩陣。當(dāng)?shù)玫矫總€輸出的注意力概率分布后,進行求和再平均,計算特征向量v為
(13)
然后,根據(jù)v對LSTM模塊的不同輸出賦予不同的權(quán)重,使得存在P300腦電信號的片段得到網(wǎng)絡(luò)更多的關(guān)注,從而提高分類識別的準(zhǔn)確率。
本文使用的實驗平臺基于深度學(xué)習(xí)框架Pytorch搭建,網(wǎng)絡(luò)模型由NVIDA Quadro P4000(8G)進行訓(xùn)練,并結(jié)合Python 3.7完成P300腦電信號的識別分類。實驗采用Adam優(yōu)化器優(yōu)化訓(xùn)練過程,批處理樣本數(shù)為480。網(wǎng)絡(luò)的初始學(xué)習(xí)率被設(shè)置為0.000 1,并迭代訓(xùn)練200次。訓(xùn)練過程中模型的準(zhǔn)確率變化曲線如圖7所示。
圖7 訓(xùn)練集和驗證集準(zhǔn)確率變化曲線
由上圖可知,隨著迭代次數(shù)的增加,模型準(zhǔn)確率不斷上升,在60輪左右,網(wǎng)絡(luò)達到最優(yōu)狀態(tài),并將此時的網(wǎng)絡(luò)參數(shù)保存為最佳模型。
本文使用Dice系數(shù)和準(zhǔn)確率對P300事件相關(guān)電位分類識別結(jié)果進行評價。每個信號片段的分類結(jié)果可以劃分為真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN),根據(jù)上述4個指標(biāo)計算準(zhǔn)確率和Dice系數(shù),計算式分別如式(14)、式(15)所示。
(14)
(15)
為了證明本文方法的有效性,在同等實驗環(huán)境下使用被試者1的腦電數(shù)據(jù),對LSTM-Attention與SVM、RNN網(wǎng)絡(luò)進行對比實驗。表1列出了不同方法在相同實驗環(huán)境下的評價結(jié)果。
表1 LSTM-Attention和其他網(wǎng)絡(luò)的評價結(jié)果
通過表1可以看出,LSTM-Attention網(wǎng)絡(luò)對被試者1腦電數(shù)據(jù)中的P300電位識別分類準(zhǔn)確率和Dice系數(shù)分別達到了91.9%和91.7%,明顯高于采用其他兩個網(wǎng)絡(luò)的結(jié)果,說明LSTM-Attention網(wǎng)絡(luò)具有良好的P300事件相關(guān)電位的識別分類能力。
為了進一步驗證本文數(shù)據(jù)預(yù)處理方式的可行性,以及識別分類網(wǎng)絡(luò)中各個關(guān)鍵組件的有效性,本章節(jié)對本文方法數(shù)據(jù)增強階段和LSTM-Attention網(wǎng)絡(luò)進行消融實驗,以證明其正確性和必要性。
4.3.1 針對數(shù)據(jù)增強的消融實驗
在同等實驗條件下,選擇1號被試者的腦電數(shù)據(jù)進行消融實驗,實驗結(jié)果如表2所示。
表2 數(shù)據(jù)增強的消融實驗
由上表可知,當(dāng)數(shù)據(jù)集經(jīng)過數(shù)據(jù)增強后,LSTM-Attention網(wǎng)絡(luò)的Dice系數(shù)和準(zhǔn)確率分別提高了2.8%和2.9%, LSTM網(wǎng)絡(luò)的Dice系數(shù)和準(zhǔn)確率分別提高了1.2%和1.0%。這些改進表明,使用數(shù)據(jù)增強可以有效提高網(wǎng)絡(luò)的P300事件相關(guān)電位的識別分類準(zhǔn)確率。
4.3.2 針對LSTM-Attention網(wǎng)絡(luò)的消融實驗
為了研究LSTM-Attention網(wǎng)絡(luò)中Attention層和Dropout層的性能,本文以LSTM網(wǎng)絡(luò)為骨干網(wǎng)絡(luò),選擇1號被試者的腦電數(shù)據(jù)進行消融實驗,實驗結(jié)果如表3所示。
表3 LSTM-Attention的消融實驗
由上表可知,當(dāng)在LSTM網(wǎng)絡(luò)后僅加入Dropout層后,網(wǎng)絡(luò)的Dice系數(shù)和準(zhǔn)確率分別提高了0.4%和0.2%。當(dāng)在LSTM網(wǎng)絡(luò)后僅加入Attention層后,網(wǎng)絡(luò)的Dice系數(shù)和準(zhǔn)確率分別提高了2.4%和1.3%。這表明Dropout層和Attention層的加入都能改善網(wǎng)絡(luò)對P300事件相關(guān)電位的識別分類結(jié)果,當(dāng)將Dropout層和Attention層一起加入LSTM網(wǎng)絡(luò)后,LSTM-Attention網(wǎng)絡(luò)的識別分類精度達到最高。
為了研究實驗重復(fù)次數(shù)與P300事件相關(guān)電位識別分類準(zhǔn)確率之間的關(guān)系,并進一步驗證本文方法的泛化性能,本文在保證實驗條件不變的前提下,對所有被試者數(shù)據(jù)集進行了10次P300事件相關(guān)電位識別分類實驗,實驗結(jié)果如圖8所示。由圖可見,本文方法的平均準(zhǔn)確率在0.917左右,平均Dice系數(shù)在0.916左右,證明本文方法擁有良好的泛化性能。
(a) (b)
針對腦機接口系統(tǒng)中P300事件相關(guān)電位識別分類準(zhǔn)確率低的問題,本文提出了一種基于LSTM-Attention的P300事件相關(guān)電位識別分類方法。在數(shù)據(jù)處理階段,基于P300電位特征和腦電數(shù)據(jù)基線漂移以及噪聲問題,清洗原始數(shù)據(jù)并切分信號片段制作樣本,得到含有P300電位的正樣本數(shù)據(jù)集和負樣本數(shù)據(jù)集。然后,采用合成上采樣技術(shù)以及基于樣本的密度分布狀態(tài)去除無關(guān)噪聲樣本。與此同時,基于LSTM-Attention網(wǎng)絡(luò)建立P300事件相關(guān)電位識別分類模型,并設(shè)計了對比實驗和消融實驗來證明本文方法的有效性。本文所提出的研究提高了腦電信號中P300事件相關(guān)電位的識別分類準(zhǔn)確率,其在長時序腦電信號處理上相比傳統(tǒng)方法更具優(yōu)勢。但是,本文研究也存在著不足之處:本文使用的腦電數(shù)據(jù)集采集自5位成年被試者,數(shù)據(jù)來源不夠廣泛;本文的數(shù)據(jù)處理階段耗時較長,尚存在很大的優(yōu)化空間。在未來的工作中,可以嘗試更多的數(shù)據(jù)處理方法,使P300電位數(shù)據(jù)集分布更加合理,并拓展腦電數(shù)據(jù)來源,進一步提高方法的實用性。