沈俊杰, 曾 洪, 李 瀟, 宋愛國
(東南大學(xué) 儀器科學(xué)與工程學(xué)院,江蘇 南京 210096)
腦機接口(brain computer interface,BCI)是不依賴于大腦外周神經(jīng)和肌肉系統(tǒng),實現(xiàn)人腦與外部設(shè)備之間交流互動的通道[1]。隨著BCI技術(shù)的發(fā)展,國內(nèi)外一些學(xué)者開始對基于注視相關(guān)電位(fixation related potential,F(xiàn)RP)的BCI技術(shù)進行研究。FRP是一種反映了人腦在識別感興趣視覺目標(biāo)時的腦電活動[2](與事件相關(guān)電位(event related potential,ERP)類似),但由于其無需由BCI系統(tǒng)提供的Oddball刺激誘發(fā),因此,可更好地應(yīng)用在自然場景的探測、識別任務(wù)當(dāng)中,例如圖像目標(biāo)搜索、文本信息處理、安全檢查等領(lǐng)域[4~6]。
單試次腦電(electroencephalogram,EEG)信號分類是大多數(shù)BCI系統(tǒng)的重要環(huán)節(jié),其中,特征提取和分類方法對系統(tǒng)的最終輸出結(jié)果有著決定性作用。近年來,對單試次FRP信號分類的常規(guī)方法主要基于特征工程,即將原始FRP信號進行特征提取后再將特征值送入分類器進行分類[3~6]。這類方法的主要局限在于需要依靠研究人員的先驗知識進行復(fù)雜的數(shù)據(jù)預(yù)處理和特征提取,但由于EEG具有非平穩(wěn)性、隨機性,在預(yù)處理過程中容易剔除隱含的有用特征,導(dǎo)致分類結(jié)果的準確性和可靠性較低。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)由于其能從原始數(shù)據(jù)中自適應(yīng)學(xué)習(xí)有利于分類的特征,有效減少人為特征選擇造成的主觀性和不完備性的特點,在圖像處理、目標(biāo)跟蹤與檢測、人臉識等領(lǐng)域獲得巨大成功[7~9]。最近幾年,越來越多研究人員將目光投向卷積神經(jīng)網(wǎng)絡(luò),并嘗試運用該方法對EEG進行分類。例如Lawhern V J等人提出的EEGNet[10],Schirrmeister R T等人提出的DeepConvNet,ShallowConvNet[11]均驗證了卷積神經(jīng)網(wǎng)絡(luò)相比于傳統(tǒng)基于特征工程的學(xué)習(xí)方法對EEG的分類結(jié)果更佳。然而,這些研究雖然取得了一些成果,但由于網(wǎng)絡(luò)未能充分關(guān)注卷積濾波后各個卷積核輸出特征映射之間的重要性關(guān)系,對全局信息利用不夠充分,因此分類結(jié)果距離實際應(yīng)用仍有差距。
針對此問題,本文提出了基于改進卷積神經(jīng)網(wǎng)絡(luò)的單試次FRP分類方法。通過在DeepConvNet中嵌入特征通道權(quán)重分配模塊,自適應(yīng)學(xué)習(xí)各特征通道的重要程度,增強重要特征的權(quán)重并抑制不重要的特征,從而有望提升對單試次FRP分類的準確性。
共有10名志愿者參與本次實驗,其中包括4名女性,6名男性,年齡范圍在21~26歲之間,校正后視力正常。每位志愿者進行4輪共計1 000次視覺刺激實驗,每一輪實驗后可獲得時長約為10 min的休息時間。視覺刺激范式如圖1所示,首先,在刺激開始呈現(xiàn)之前,包含本輪實驗?zāi)繕?biāo)字母的提示語在屏幕上呈現(xiàn)3 s;其次,待觀察字母和引導(dǎo)圓圈呈現(xiàn)在屏幕之中,待觀察字母均勻呈現(xiàn)在屏幕中的固定位置,引導(dǎo)圓圈每秒移動一次并包圍一個待觀察字母。引導(dǎo)圓圈包含目標(biāo)字母的概率為12 %,志愿者需要判斷引導(dǎo)圓圈每次所包含字母是否為目標(biāo)字母,如果是目標(biāo)字母則用右手食指敲擊鍵盤上的指定按鍵。引導(dǎo)圓圈每移動 5次自動進入一次時長為2 s的黑屏放松間隔,當(dāng)刺激再次呈現(xiàn)時,屏幕上所有待觀察字母的位置將隨機打亂一次。
圖1 視覺刺激范式
由于FRP的潛伏期時鎖于注視起始時刻,因此在實驗中需要對志愿者的腦電與眼動數(shù)據(jù)進行同步記錄。本實驗數(shù)據(jù)采集系統(tǒng)主要由SR Research公司的Eyelink 1000眼動儀、Neuroscan 公司的SyncAmps2腦電記錄儀以及BrainProducts公司的ActiCap主動電極帽組成(如圖2所示)。
圖2 數(shù)據(jù)采集系統(tǒng)
實驗時選擇對19個電極的信號進行記錄(如圖3所示),參考電極為左側(cè)乳突,并將所有電極阻抗降至10 kΩ以下。在采集過程中,腦電與眼動數(shù)據(jù)通過并口定時發(fā)送上升電平保持同步,采樣頻率均為1 000 Hz。
圖3 所選電極分布
數(shù)據(jù)預(yù)處理環(huán)節(jié)利用MATLAB仿真軟件實現(xiàn),主要目的是提取FRP并提高其信噪比。首先,對眼動儀輸出的注視事件進行篩選,提取志愿者正確觀察字母后的第一次注視事件;其次,對腦電數(shù)據(jù)進行降采樣至128 Hz,獨立成分分析(independent component analysis,ICA)去偽跡和1~40 Hz的二階巴特沃茲帶通濾波;最后,以注視起始時刻為原點,向后截取1 s內(nèi)的腦電數(shù)據(jù),同時利用前0.2 s至前0.1 s的數(shù)據(jù)進行基線校正。經(jīng)數(shù)據(jù)預(yù)處理后,共從10位志愿者中提取到7 818個FRP數(shù)據(jù)樣本,其中,目標(biāo)(target,T)共有1 015個,非目標(biāo)NT(non-target,NT)共有6 803個(如表1所示)。
表1 各志愿者FRP數(shù)據(jù)樣本數(shù)
DeepConvNet是卷積神經(jīng)網(wǎng)絡(luò)在EEG信號中的典型應(yīng)用,在多數(shù)腦電分類任務(wù)中均獲得了較優(yōu)的結(jié)果。該網(wǎng)絡(luò)主要參考圖像分類經(jīng)典模型AlexNet[7]設(shè)計,利用多層卷積濾波實現(xiàn)特征提取并利用全連接層(fully connected layer,F(xiàn)C)實現(xiàn)分類,主要流程如圖4所示,其中Conv表示卷積層,Pooling表示池化層。
圖4 DeepConvNet分類流程
DeepConvNet主要由4個卷積模塊和全連接層組成。第1個卷積模塊由2個卷積核大小分別為1×5和Nc×1(其中Nc為腦電數(shù)據(jù)的通道數(shù))的卷積層對EEG數(shù)據(jù)進行時/空域卷積濾波,卷積核數(shù)量均為25。第2至第4卷積模塊各自均由卷積核大小為1×5的卷積層組成,卷積核數(shù)量分別為50,100和200。每個卷積模塊輸出的特征映射(feature map)均使用ELU函數(shù)進行非線性激活,并利用核大小為1×2的最大值池化函數(shù)進行降采樣。同時,為了加速網(wǎng)絡(luò)訓(xùn)練速率,減小過擬合程度,網(wǎng)絡(luò)對所有卷積層的輸出數(shù)據(jù)均進行批標(biāo)準化(batch normalization,BN)處理。卷積模塊對EEG的特征進行自適應(yīng)學(xué)習(xí)后,由全連接層將最后一個卷積模塊輸出的特征進行平壓(flatten),形成特征向量,最后利用SoftMax函數(shù)對各類別的預(yù)測概率進行計算。
DeepConvNet模型通過多層卷積濾波實現(xiàn)對EEG特征的自適應(yīng)學(xué)習(xí),相比于人為對數(shù)據(jù)進行處理的特征工程方法分類結(jié)果顯著提高,但仍然具有模型結(jié)構(gòu)未能充分關(guān)注到不同特征通道信息之間的關(guān)系,對全局信息利用不夠充分的缺點。
針對DeepConvNet的缺點做出如下改進:引入特征通道權(quán)重重分配模塊,充分利用各通道間的全局信息,重新分配各通道權(quán)重,通過整個網(wǎng)絡(luò)端到端訓(xùn)練,提升網(wǎng)絡(luò)的分類能力。改進后的網(wǎng)絡(luò)記為DeepConvNet-SE。
SENet[12](sequeeze-and-excitation network,SENet)是由Momenta公司的胡杰等人提出的新型網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)通過對各通道之間依賴關(guān)系建模,標(biāo)定各通道權(quán)重,以此對各特征通道權(quán)重進行重新分配,其結(jié)構(gòu)如圖5所示。
圖5 SENet結(jié)構(gòu)
圖5中,U為卷積層輸出的特征映射,F(xiàn)sq(·),F(xiàn)ex(·),F(xiàn)scale(·)分別為全局信息嵌入函數(shù)、自適應(yīng)校正函數(shù)、乘積函數(shù);為特征通道重分配后輸出的特征映射。SENet模塊計算過程主要分為兩步:1)全局信息嵌入Fsq(·),通過全局平均池化(global average pooling,GAP)對每個特征映射進行壓縮,使該描述子具有全局感受野,將W×H×C的特征數(shù)據(jù)壓縮為1×1×C的一維向量。2)自適應(yīng)校正Fex(·),該步驟捕捉通道之間的依賴關(guān)系,包含2個全連接層,ReLU和Sigmoid兩個非線性分類器,計算過程為
S=Fex(z,W)=σ(W2δ(W1z))
(1)
式中z為步驟(1)過程的輸出;σ為SigMoid函數(shù);δ為ReLU函數(shù);W1,W2為兩個全連接層的網(wǎng)路權(quán)重;S為模塊通過網(wǎng)絡(luò)訓(xùn)練學(xué)到的各通道重要性權(quán)重。最終經(jīng)通道權(quán)重分配后的特征可由U與S的乘積得到,即
(2)
將SENet模塊嵌入后得到的改進卷積層結(jié)構(gòu)記為Conv-SE,改進網(wǎng)絡(luò)DeepConvNet-SE的分類流程如圖6所示。
圖6 DeepConvNet-SE網(wǎng)絡(luò)
所有實驗均在配置為Intel i5—4460 3.2 GHz處理器,12 GB運行內(nèi)存,NIVIDA GeForce GTX 1060ti 6 GB的臺式機上運行。
在單試次分類實驗之前,首先對所有志愿者Fz,Cz,Pz電極兩個類別(T/NT)的FRP進行疊加平均。如圖7所示,兩類別疊加平均后的FRP,在離注視起始時刻后300~500 ms左右有明顯的區(qū)別,說明本文在數(shù)據(jù)獲取環(huán)節(jié)中成功誘發(fā)并提取了各志愿者的FRP腦電成分。
圖7 Fz、Cz、Pz電極FRP疊加平均結(jié)果
經(jīng)數(shù)據(jù)預(yù)處理后各志愿者的FRP數(shù)據(jù)可記為Xn∈R(Nc×Ns×Nt)(n=1,2,…,10),其中,Nc為腦電通道數(shù)(Nc=19),Ns為采樣點數(shù)(Ns=128),Nt為志愿者n提取到的FRP數(shù)據(jù)樣本數(shù)(見表1)。考慮到腦電數(shù)據(jù)具有個體差異性,本文選擇分別對每位志愿者的FRP進行單試次分類實驗。
為驗證提出方法有效性,在開源深度學(xué)習(xí)框架Keras中分別利用DeepConvNet-SE和DeepConvNet網(wǎng)絡(luò)對每位志愿者的FRP數(shù)據(jù)進行5折交叉驗證試驗。兩種網(wǎng)絡(luò)均在相同參數(shù)下訓(xùn)練,主要參數(shù)如表2所示,其中學(xué)習(xí),率設(shè)置為Keras框架中Adam函數(shù)的默認值。
表2 模型參數(shù)
由于FRP數(shù)據(jù)中兩個類別樣本數(shù)量不平衡(T︰NT≈1︰7),因此,本文在對分類結(jié)果進行評價時,使用對樣本類別比例不敏感的指標(biāo)AUC。實驗結(jié)果表明(如圖8所示),本文提出的DeepConvNet-SE網(wǎng)絡(luò)對大部分志愿者的FRP數(shù)據(jù)均獲得更好的分類結(jié)果,平均AUC(如表3所示)從0.901 8±0.030 0(均值±標(biāo)準差)提升至0.926 9±0.030 7(均值±標(biāo)準差),說明在DeepConvNet中融入SENet模塊后,通過計算不同特征通道的重要性權(quán)重并分配給各通道,提升了對單試次FRP分類重要的特征權(quán)重,抑制了不重要特征的權(quán)重。
圖8 各志愿者單試次FRP分類結(jié)果
表3 各志愿者單試次FRP平均分類結(jié)果
本文對單試次FRP的分類方法進行研究,以DeepConvNet為基礎(chǔ),學(xué)習(xí)SENet對特征進行權(quán)重重分配的思路,將SENet模塊引入DeepConvNet網(wǎng)絡(luò)之中,得到了能夠自適應(yīng)學(xué)習(xí)各通道特征的改進網(wǎng)絡(luò)。實驗結(jié)果表明:在本文采集的注視相關(guān)電位數(shù)據(jù)中,改進網(wǎng)絡(luò)對大多數(shù)志愿者取得了更好分類結(jié)果。