孫亞?wèn)|,徐曉濤,章 軍,陳 鵬
(1.安徽大學(xué) 電氣工程與自動(dòng)化學(xué)院,安徽 合肥 230601;2.安徽大學(xué) 互聯(lián)網(wǎng)學(xué)院 農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國(guó)家地方聯(lián)合工程研究中心,安徽 合肥 230601)
近年來(lái),腦機(jī)接口(brain-computer interface,BCI)在學(xué)術(shù)界和工業(yè)界引起了廣泛關(guān)注,它是一種使用腦電圖(electroencephalography,EEG)信號(hào)使人能夠與計(jì)算機(jī)或智能設(shè)備控制的人機(jī)交互技術(shù)[1]。EEG是一種獲取與步行或站立等各種運(yùn)動(dòng)相對(duì)應(yīng)的腦神經(jīng)元電信號(hào)有效的方法,當(dāng)受試者想象某些動(dòng)作(例如抬腿)時(shí),可以通過(guò)EEG信號(hào)分析這些動(dòng)作,表示其意圖[2]。
近年來(lái),深度學(xué)習(xí)已成功地應(yīng)用于圖像分類和目標(biāo)檢測(cè)等領(lǐng)域。與傳統(tǒng)算法相比,深度學(xué)習(xí)算法可以更加有效地學(xué)習(xí)EEG的潛在特征。為了提高分類性能,Schirrmeister R T等人使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對(duì)EEG信號(hào)進(jìn)行識(shí)別[3]??紤]到EEG信號(hào)為一維時(shí)間序列數(shù)據(jù),也可以在基于EEG信號(hào)的意圖識(shí)別中采用了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN),所以,Zhang D等人提出了一個(gè)7層RNN模型進(jìn)行識(shí)別[4]。
綜上所述,本文提出一種融合雙通道模型—深度注意力卷積長(zhǎng)短時(shí)期記憶(deep attention convolutional long short term memory,DACLSTM)網(wǎng)絡(luò),融合了CNN和RNN的優(yōu)勢(shì),可以對(duì)EEG信號(hào)有效地提取特征。特別地,由于EEG數(shù)據(jù)的不同特征在分類中起著不同的作用,受注意力(attention)網(wǎng)絡(luò)的啟發(fā)[5],可利用注意力機(jī)制關(guān)注重要的特征。使用正交矩陣進(jìn)行參數(shù)調(diào)節(jié),較傳統(tǒng)的超參數(shù)調(diào)整方法可節(jié)省98.4 %的時(shí)間;所提出的框架通過(guò)Eegmmidb的公共數(shù)據(jù)集進(jìn)行了廣泛評(píng)估,實(shí)驗(yàn)結(jié)果表明該框架明顯優(yōu)于現(xiàn)有技術(shù)。
本文提出的融合方法包含以下部分:深度特征學(xué)習(xí),注意力機(jī)制和意圖識(shí)別。
圖1說(shuō)明DACLSTM網(wǎng)絡(luò)的所涉及的不同流程。
圖1 DACLSTM網(wǎng)絡(luò)結(jié)構(gòu)
首先需要學(xué)習(xí)用戶的意圖信號(hào)表示形式,該信號(hào)是一維向量(在一個(gè)時(shí)間點(diǎn)中收集)。將單個(gè)EEG信號(hào)表示為Ei∈K,其中K是EEG信號(hào)的維數(shù)(文中K= 64),yi∈R并表示樣本Ei的類別。然后將Ei分別加入到給定的RNN和CNN結(jié)構(gòu),用于并行的時(shí)間和空間特征學(xué)習(xí)。
1)RNN特征學(xué)習(xí)
采用RNN的功能可以提取時(shí)序數(shù)據(jù)中的時(shí)間特征。本文使用的是一種特定的RNN,即雙向長(zhǎng)短時(shí)期記憶(bidirectional LSTM,BLSTM)。
(1)
(2)
(3)
式中W為權(quán)重矩陣,b為偏置向量,o為BLSTM的輸出。
2)CNN特征學(xué)習(xí)
CNN結(jié)構(gòu)由三部分組成:卷積層,池化層和全連接層。由圖1中CNN部分可知,按以下順序堆疊設(shè)計(jì)的CNN:輸入層,卷積層1(C1),池化層1(P1),卷積層2(C2),池化層2(P2),全連接(FC)層。
H=[h1,h2,…,hn]
(4)
在獲得樣本數(shù)據(jù)的BLSTM和CNN特征表達(dá)后,利用注意力機(jī)制獲得融合特征映射。注意力機(jī)制的結(jié)構(gòu)如圖2所示。注意力的計(jì)算方式描述如下
圖2 注意力機(jī)制模型結(jié)構(gòu)
(5)
(6)
(7)
在深度學(xué)習(xí)網(wǎng)絡(luò)中,SoftMax函數(shù)比其他激活函數(shù)更適合用于多分類問(wèn)題。SoftMax函數(shù)的輸出概率計(jì)算如下
p′=SoftMax(Ws·umap+bs)
(8)
損失函數(shù)使用交叉熵,并通過(guò)Adam Optimizer算法[7]進(jìn)行優(yōu)化。
本文使用由Eegmmidb提供的公共EEG數(shù)據(jù)集,該數(shù)據(jù)集使用BCI 2000系統(tǒng)對(duì)不同運(yùn)動(dòng)或者圖像任務(wù)的對(duì)象進(jìn)行操作,并記錄64個(gè)通道EEG數(shù)據(jù)[8]。本文使用了28,000個(gè)EEG信號(hào),每個(gè)樣本都是64個(gè)元素的一維向量。數(shù)據(jù)集被隨機(jī)分為兩部分:其中,70 %的樣本作為訓(xùn)練集,剩余30 %樣本用作測(cè)試集,將標(biāo)簽轉(zhuǎn)換為獨(dú)熱(one-hot)編碼進(jìn)行分類。選擇的EEG信號(hào)分為五類,每種意圖對(duì)應(yīng)的標(biāo)簽如圖1中意圖識(shí)別部分所示。
盡管深度學(xué)習(xí)算法可以在許多領(lǐng)域取得良好的性能,但是調(diào)整超參數(shù)非常耗時(shí),并且依賴于個(gè)人的經(jīng)驗(yàn)。本文采用正交矩陣(orthogonal array,OA)實(shí)驗(yàn)設(shè)計(jì)[9]來(lái)選擇超參數(shù),該方法比傳統(tǒng)的超參數(shù)調(diào)節(jié)方法要快得多。
OA是一種系統(tǒng)的統(tǒng)計(jì)方法,其原理是比較由自變量的不同組合產(chǎn)生的因變量。在此方法中,自變量稱為“因子”,因子的不同值稱為“水平”。例如,如果某方案具有3個(gè)因子,并且每個(gè)因子有3個(gè)水平,這些水平由27個(gè)結(jié)點(diǎn)的多維數(shù)據(jù)表示(每個(gè)結(jié)點(diǎn)代表一個(gè)超參數(shù)組合),則OA僅選擇9個(gè)代表性參數(shù)組合進(jìn)行優(yōu)化選擇。
為了獲得最佳的識(shí)別精度,本文采用OA實(shí)驗(yàn)方法來(lái)優(yōu)化超參數(shù),并選擇適用于本文的5個(gè)常見(jiàn)的超參數(shù),包括λ(2—范數(shù)的系數(shù)),lr(學(xué)習(xí)率),Ki(BLSTM隱藏神經(jīng)元大小),An注意力大小(即向量v在式(6)中的大小)和N(表示批數(shù)量。訓(xùn)練集和測(cè)試集的大小取決于nbs,因?yàn)榭倲?shù)據(jù)集是固定的,例如,如果nbs等于1,則將有14 000個(gè)訓(xùn)練數(shù)據(jù)集和14 000個(gè)測(cè)試數(shù)據(jù)集。如果nbs等于3,則有21 000個(gè)訓(xùn)練數(shù)據(jù)集和7 000個(gè)測(cè)試數(shù)據(jù)集),如表1所示。由于本次OA實(shí)驗(yàn)包含了5個(gè)因子和4個(gè)水平,因此由標(biāo)準(zhǔn)正交實(shí)驗(yàn)表可知,應(yīng)進(jìn)行16個(gè)實(shí)驗(yàn)優(yōu)化超參數(shù)。
表1 因子和水平
超參數(shù)的組合以及實(shí)驗(yàn)結(jié)果的范圍分析,如表2所示。通過(guò)OA實(shí)驗(yàn)調(diào)節(jié)可得最佳λ,lr,Ki,An,N參數(shù)分別是0.004,0.001,75,10,3。用窮舉法選擇5個(gè)因子和4個(gè)水平的參數(shù)需要1 024=45個(gè)組合,而使用OA實(shí)驗(yàn)分析則只需要16種組合,說(shuō)明節(jié)省了(1-16/1 024)=98.4 %的時(shí)間。本文選擇了OA實(shí)驗(yàn)調(diào)節(jié)后的最佳水平參數(shù)來(lái)訓(xùn)練模型,并獲得99.34%的準(zhǔn)確率。
表2 OA實(shí)驗(yàn)因子分析
為了驗(yàn)證所提出的融合模型實(shí)驗(yàn)的有效性,在基于TensorFlow的深度學(xué)習(xí)平臺(tái)上實(shí)現(xiàn)該模型,并與單一的CNN和BLSTM模型在同一數(shù)據(jù)集進(jìn)行對(duì)比實(shí)驗(yàn)。EEG數(shù)據(jù)的輸入形式是一個(gè)三維的張量(?, 1, 64),“?”表示訓(xùn)練時(shí)每批次輸入樣本的數(shù)量,即nbs。
在DACLSTM模型中,CNN通道的數(shù)據(jù)經(jīng)過(guò)1.1節(jié)分析可知輸出結(jié)果為(?,64),BLSTM通道的數(shù)據(jù)經(jīng)過(guò)一個(gè)輸出維度為50的BLSTM單元,取其隱藏層的輸出,結(jié)果為一個(gè)(?,64,50)的張量。將2個(gè)通道張量通過(guò)Attention層進(jìn)行融合,形狀變?yōu)??,1,50),即為EEG數(shù)據(jù)的融合特征表達(dá),再通過(guò)Dropout層(防止過(guò)擬合),最后由FC層激活輸出,輸出的維度為1,激活函數(shù)為SoftMax。
CNN模型和BLSTM模型分別與DACLSTM模型去掉Attention層的左、右通道類似。圖3表示各模型的ROC曲線,橫坐標(biāo)是假陽(yáng)率(分到正例中真實(shí)的負(fù)例占所有負(fù)例的比率)的對(duì)數(shù),縱坐標(biāo)為真陽(yáng)率(分到正例中真實(shí)的正例占所有正例的比率)??梢钥闯鰣D3(a)中DACLSTM模型比圖3(b)和圖3(c)更靠攏(0,1)點(diǎn),偏離45°對(duì)角線,靈敏度、特異性更大,效果更好。
圖3 各模型的ROC曲線
表3為所提出的模型與現(xiàn)有方法和基準(zhǔn)方法的性能比較?;鶞?zhǔn)方法中提及算法如下:KNN表示k最近鄰,SVM表示支持向量機(jī),RF表示隨機(jī)森林,LDA表示線性判別分析,各超參數(shù)為:KNN(k=3),SVM(c=1),RF(n=300),LDA(tol=10-4)和AdaBoost(n=500,lr=0.3)。綜上所述,所提出的模型優(yōu)于包括現(xiàn)有方法和基準(zhǔn)方法在內(nèi)的所有技術(shù),并將識(shí)別準(zhǔn)確率提高了1.06 %。
表3 與現(xiàn)有方法與基準(zhǔn)方法的性能比較
本文提出了一種融合深度網(wǎng)絡(luò),即DACLSTM,建立了基于EEG信號(hào)的意圖識(shí)別系統(tǒng)。在實(shí)驗(yàn)結(jié)果方面,DACLSTM模型實(shí)現(xiàn)了99.34 %的高識(shí)別率,證明模型意圖識(shí)別有效。此外,本文研究了有注意力和無(wú)注意力的CNN和BLSTM模型,以發(fā)現(xiàn)注意力模型的意義。另外使用OA實(shí)驗(yàn)調(diào)節(jié)參數(shù),可節(jié)省98.4 %的參數(shù)調(diào)節(jié)時(shí)間。為了使比較更加直觀,本文將提出的方法與同一數(shù)據(jù)集上的現(xiàn)有方法和基準(zhǔn)方法進(jìn)行了比較,均優(yōu)于以上方法。