楊懷花,葉慶衛(wèi),羅慧艷,陸志華
(寧波大學 信息科學與工程學院,浙江 寧波 315211)
腦機接口(BCI,brain computer interface)是一種不依賴大腦外周神經與肌肉組成的正常輸出通路,通過對大腦活動產生的信號進行分析,提取其中包含的動作意圖,控制外部設備的新型人機交互方式[1]。腦機接口技術的研究對臨床康復[2]、信息交流[3]以及休閑娛樂等領域的發(fā)展均具有較高的價值。目前,腦機接口方向的研究眾多,運動想象腦電信號(MI-EEG,motor imagery electroenceph- alogram)作為自發(fā)性腦電一直以來受到研究學者的廣泛關注。MI-EEG信號是一種時變性很強的非平穩(wěn)信號,因此如何有效的對其進行特征提取和分類成為了目前研究的重點。
當前腦電信號特征提取的研究主要分為4個方面:時域、頻域、時頻域以及空間域等,常見的分析方法主要包括小波變換[4](WT,wavelet transform)、希爾伯特黃變換[5](HHT,hilbert-huang transform)、公共空間模式[6-8](CSP,common spatial pattern)、獨立分量分析[9](ICA,independent component analysis)等,常用的分類方法主要包括線性判別分析[10](LDA,linear discriminant analysis)、支持向量機[11](SVM,support vector machines)、貝葉斯線性回歸[12]、卷積神經網絡[13](CNN,convolutional neural networks)等。由于深度學習的快速發(fā)展,神經網絡成為了腦電信號識別分類的重要方法。
目前針對運動想象腦機接口系統(tǒng)中分類準確率低等問題,研究者們提出了很多改進方法。文獻[14]提出了一種基于滑動窗口信息極大化原則(Infomax,information maximization)算法的動態(tài)獨立分量分析方法。文獻[15]提出了一種優(yōu)化多球面支持向量數據(SVDD,support vector data description)的模糊聚類方法,并通過多個運動想象數據集的實驗,完成了對運動想象腦電信號數據的較好的表達。文獻[16]提出一種新的基于沃爾什哈達瑪變換的特征提取方法,將提取的特征通過人工神經網絡進行分類,得到較為準確的結果。文獻[17]提出將從腦電信號中提取的時間、頻率和位置信息,組合成2D信息輸入到卷積神經網絡(CNN,convolutional neural network)和堆棧自編碼器(SAE,stacked auto encoder)結合的深度網絡,得到較高的分類準確率。
基于以上的研究內容,本文提出一種3個權重共享子網絡構成的改進孿生網絡,將經小波變換結合經驗模態(tài)分解預處理后的信號輸入此網絡,實現(xiàn)對腦電信號的特征提取和分類。通過對兩個數據集的仿真,相比現(xiàn)有算法均取得更好的分類準確率,表明此方法能更好的應用到MI-EEG信號的分類識別,并具有一定普遍性。
經典孿生神經網絡由兩個子網絡構成,這兩個子網絡之間結構相同,并且共享權重和偏置等參數。若樣本(x1,x2)和標簽y輸入孿生神經網絡,其中輸入樣本類別相同標簽y為1,相反標簽為0,通過權重共享的子網絡提取樣本的低維特征,計算特征的距離度量樣本相似度。代價函數為對比損失函數公式如下:
L(w,(y,x1,x2))=
(1)
其中:DW為輸入樣本經過孿生神經網絡提取的低維特征之間的歐式距離,公式為DW(x1,x2)=‖f(x1)-f(x2)‖,f(x1)、f(x2)分別表示樣本x1、x2經過神經網絡映射出的低維特征,y為樣本標簽,max表示最大值,m為設定的閾值。
本文提出一種3個權重共享的子網絡孿生系統(tǒng)如圖1所示,其主要包括兩部分:特征提取和相似度計算。在特征提取部分,本文選取5層的全連接神經網絡。表1是網絡結構的詳細說明。為了防止過擬合現(xiàn)象,每層全連接層后使用dropout函數。對于大部分數據來說,ReLu 激活函數具有更好的擬合能力。因此隱藏層選取非線性的Relu作為激活函數,輸出層則使用sigmoid 激活函數,使得結果介于0到1。
表1 網絡結構
圖1 改進孿生網絡框架
當輸入腦電信號樣本組合x1、x2、x3時,通過3個共享權值的子網絡提取低維特征,計算樣本特征之間的平均距離來表示樣本之間的差異,最后利用這個距離進行相似度判斷。本文提出一種新的距離函數,如公式2所示:
DW(x1,x2,x3)=
(2)
其中:x1和x2、x3為輸入的樣本序列,f(x1)、f(x2)和f(x3)為經過神經網絡提取的低維特征,DW(x1,x2,x3)為特征之間的平均距離,采用公式(1)作為損失函數進行訓練。此距離函數消除了樣本因隨機選取產生的偶然性誤差,使分類系統(tǒng)更加穩(wěn)定,一定程度的提高了分類的準確度。
設預處理后的訓練集為Xtrain、Ytrain,其中Xtrain為預處理后的小波分量訓練集信號,Ytrain為訓練集樣本標簽。
(3)
3)令i=1,…,n,因此可以得到包含n個樣本組的學習樣本集。
設預處理后的測試集為Xtest、Ytest,其中:Xtest為預處理后的小波分量測試信號集,Ytest為測試集樣本標簽。
(4)
4)令i=1,…,l,其中l(wèi)為預測樣本長度。即依次對測試集Xtest中所有樣本進行上述操作,可得到Xtest的預測標簽。
腦電信號是一種非線性、非平穩(wěn)的信號,小波變換是在一種時頻域分析方法,更好的分析和處理了非平穩(wěn)信號,早在1996年就被應用于運動想象腦電信號的去噪處理。對信號x(t)進行分解,其離散小波函數表示為:
(5)
其中:ψj,k(t)為基本小波。
由于腦電信號的電壓普遍在μV量級,這一特點導致EEG信號極易受到眼動、肌電、高頻噪聲等干擾。因眼動干擾處于低頻段并與腦電信號重疊,使得其去除較為復雜,而肌電和高頻噪聲則處于高頻段。若將噪聲相關的頻段直接去除,則會導致一部分重要信息丟失,因此本文選取小波分量的最低頻段和最高頻段進行經驗模態(tài)分解(EMD,empirical mode decomposition),通過自相關函數將EEG信號與噪聲信號盡可能進行分離。
EMD分解是一種非線性濾波器,將信號分解為若干個IMF,其中IMF需要滿足以下兩個條件:
1)整個數據中,極值點和過零點數目相等或最多相差為1。
2)在任意一點,由局部極大值定義的包絡和由局部極小值定義的包絡的均值等于0。
自相關函數選取的是腦電自身信號與時延后的信號之間的相似度,其表達式為:
(6)
其中:x(t)為原始運動想象腦電信號,Δτ為延時長度,Cov表示協(xié)方差,var則為方差。干擾噪聲一般表現(xiàn)為低頻、高幅度,因此對于含噪聲成分較高的IMF分量,自相關函數較高。而腦電信號具有隨機性較強、時變復雜等特點,因此其值較低。通過設定自相關閾值,篩選出腦電信號相關的IMFs分量進行重構,得到“純凈”的小波系數。
算法流程如圖2所示,主要步驟為:
圖2 算法流程
1)將腦電信號進行預處理,然后經過5折交叉驗證法將信號集分成訓練數據和測試數據。
2)根據1.2節(jié)學習樣本集采樣算法構建三樣本組合學習樣本集,將其作為三權值共享的孿生神經網絡的輸入,根據對比損失函數,利用全連接神經網絡更新權值和偏置等參數。當模型收斂或者到達設定次數時,模型訓練結束,保存模型。
3)在測試過程中,根據1.3節(jié)依次對所有測試樣本構造正負測試樣本集,對比正負測試樣本集平均距離,選擇最小平均距離(即相似度最高)所對應的類別作為該待測樣本的類別號。
本文提出的方法得到來自The largest SCP data of Motor-Imagery和BCI Competition II Data set III兩個數據集的驗證,接下來對其進行介紹。
數據集1來自公開標準數據集BCI Competition II Data set III,該組數據是通過年齡為25歲的健康女性進行想象左右手實驗獲得的。本實驗共進行了7組,每組40次,共進行了280次試驗。每一次試驗持續(xù)時間為9秒, 在0~2秒時為休息時間;在第2秒時進行語音提示;第3秒開始屏幕上出現(xiàn)一個箭頭,同時要求受試者進行相應的運動想象。數據的采集電極放置在國際標準的10~20導聯(lián)系統(tǒng)c3、cz、c4位置,其中采樣頻率為128 Hz。實施示意圖如圖3所示。
圖3 實施示意圖
數據集2來自2018年提出的國際標準腦電信號數據庫The largest SCP data of Motor-Imagery中的CLA左右手運動想象數據集,此數據集是由7名健康受試者(S1~S7)面對圖形用戶界面(eGUI)的相應提示執(zhí)行左手、右手運動想象。數據的采集電極放置符合10~20導聯(lián)標準,每組數據包含21個通道的EEG信號,采樣頻率為200 Hz。實驗過程中,圖形用戶界面上顯示一個左右手兩類刺激信號,動作信號在屏幕上保持1秒,同時受試者執(zhí)行了一次相應的心理意象,隨后暫停1.5~2.5 s后結束單次試驗,每段記錄持續(xù)50~55分鐘。對于7名實驗對象采集的數據信息如表2所示。
表2 數據集信息
圖4分別為數據集1左右手運動想象時通道c3、cz、c4的平均能量。由圖(a)可知,cz通道的左右手想象運動能量幾乎沒有區(qū)別,由圖(b)和圖(c)可知c3、c4通道3.5~9時間段的平均能量差別較大,因此本文選取3.5~9時間段的c3、c4通道腦電信號進行小波變換。
圖 4 各通道的信號平均能量圖
在進行小波變換時,小波基[18-19]和自相關系數閾值的選取對腦電信號的處理影響較大。本文通過選取部分小波基用于離散小波變換,分別為dmey、db2、sym3、haar,經過多次實驗對比,發(fā)現(xiàn)選取demy小波基分類準確率更高,穩(wěn)定性更強。相關系數閾值是一個重要的參數,其值直接影響了偽跡與腦電信號的分離,在保持其他條件不變的情況下,采用不同閾值得到分類準確率。經過多次試驗當閾值等于0.9時,正確率高達90%以上,因此本文選取0.9為相關函數閾值。
數據集1選取腦電信號樣本3.5~9時間段的C3、C4通道腦電信號分別進行4層小波變換,其中選用demy為小波基,然后對小波分量的低頻部分A4和高頻段D1進行經驗模態(tài)分解,將IMFs分量的自相關函數值小于0.9的進行重構,得到“干凈”的小波分量,然后將各個通道的小波分量進行串接。
數據集2對21通道腦電信號進行5層小波變換,其中選用demy為小波基,然后對小波分量的低頻部分A4和高頻段D1進行經驗模態(tài)分解,將IMFs分量的自相關函數值小于0.9的進行重構,得到“干凈”的小波分量,然后將各個通道的小波分量進行串接。
分類精準度被用來直接衡量信號分類的準確率,其公式為:
(7)
其中:TP和TN為左右手想象信號正確識別樣本數量,F(xiàn)P和FN為左右手想象信號錯誤識別樣本數量。
Kappa值是一個信號分類一致性的評價指標,其公式為:
(8)
其中:p0是總的分類正確率。對于二分類而言,每一類實際樣本數為r1、r2,則每一個類別中預測樣本個數p1、p2,pe則為:
(9)
下面運用數據集1,對腦電信號進行預處理后,分別通過經典孿生神經系統(tǒng)和改進后的孿生神經網絡進行腦電信號特征提取和分類,同時得到兩種方法在測試集上的分類混淆矩陣如圖5所示。由圖5可知,改進孿生網絡在左右手想象信號相比經典孿生網絡均具有更好的可分性,測試集上的識別精度更高。
圖5 經典和改進后孿生網絡混淆矩陣
將本文的算法與目前性能較高的現(xiàn)有算法進行對比,其中用到對比算法主要有文獻[14]中基于滑動窗口Infomax算法的動態(tài)獨立分量分析方法,記為 ICA,文獻 [15]使用AR算法和優(yōu)化多球面支持向量數據的模糊聚類方法相結合的方法,記為AR-SVDD。文獻[16] 中基于快速沃爾什哈達瑪變換的特征提取方法,并結合ANN分類器進行分類,記為FWHT-ANN。文獻[17]中CNN結合SAE提出的一個新的深度網絡,記為CNN-SAE算法。文獻[20] 提出的Renyi熵特征提取方法,結合BLDS分類器對信號進行處理,記為Renyi-BLDA。將經過小波變換結合經驗模態(tài)分解預處理后的信號,輸入經典孿生神經網絡進行特征提取和分類的方法,記為WT_emd_siamese。分類結果如表3所示。
表3 不同特征提取算法的分類正確率
從表3可知,本文算法分類準確率均高于其他算法,其準確率提高了4.29~13.06%,表明所提算法能更好地實現(xiàn)腦電信號處理。WT_emd_siamese算法分類正確率到達87.50%,進一步證明了小波變換、經驗模態(tài)分解結合孿生網絡方法的可行性,這為運動想象腦電信號處理提供了一種新思路。
為了進一步驗證算法的有效性,對數據集2進行測試,并采用目前較為常用并取得較好結果的csp算法結合svm分類器辦法進行基準驗證,結果如表4所示。由結果可知,此方法平均分類正確率高達到90.36%,相對csp_svm分類性能提升了12.5%,且最高達到97.43%,去除數據集S2和S6實驗對象,平均分類準確率高達94.30%,進一步證明了此算法在腦電信號識別方面具有較好性能。此外,本文提出算法kappa值高達0.907,其具有較好的一致性,分類結果可靠。
表4 數據集2所有受試者分類正確率
圖6顯示了在數據集2上兩種算法測量的總分類混淆矩陣,如圖6中數據顯示,本文所提出的算法,相比csp_svm腦電信號處理辦法,無論在左手還是右手識別中精確度都得到極大地提升,其中左手識別精度到達96.7%,這也證明了本文算法在運動想象任務中發(fā)揮著積極地作用。
圖6 混淆矩陣
本文提出一種3個權重系數共享子網絡構成的改進孿生網絡腦電信號的分類方法。通過小波變換結合經驗模態(tài)分解,對信號進行預處理,然后將預處理的小波分量通過改進的孿生神經網絡系統(tǒng)進行特征提取和分類。將改進后的孿生網絡與經典孿生網絡相比,利用新的距離函數消除了偶然誤差性,提高了分類正確率,使分類系統(tǒng)更加穩(wěn)定,同時在特征提取部分選擇簡單的全連接神經網絡,在保證了分類性能的同時,極大地降低了系統(tǒng)的復雜性。通過對BCI Competition II Data set III數據集進行仿真,本文提出的算法取得了94.29%的分類準確率,與現(xiàn)有的研究結果進行對比,可以更有效地進行運動想象腦電信號的分類。利用The largest SCP data of Motor-Imagery數據集進一步驗證,結果表明本文提出的方法在相同的數據類型下依舊保持優(yōu)異的性能。因此在接下來的研究過程中,可將此方法應用到其他類型的腦電信號分析,這為腦電信號處理提供了一種新思路。