丑遠(yuǎn)婷 邱天爽 鐘明軍
(大連理工大學(xué)電子信息與電氣工程學(xué)部,遼寧 大連 116024)
近年來(lái),基于P300事件相關(guān)電位的腦機(jī)接口(brain computer interface, BCI)系統(tǒng)得到廣泛的重視和應(yīng)用。它通過(guò)分析處理在不同視覺(jué)刺激下人體腦部產(chǎn)生的腦電(electroencephalography, EEG)數(shù)據(jù),檢測(cè)P300事件相關(guān)電位,進(jìn)而轉(zhuǎn)換成相應(yīng)的指令來(lái)實(shí)現(xiàn)對(duì)外部設(shè)備的操控。其中,P300事件相關(guān)電位的分類識(shí)別在BCI系統(tǒng)中占據(jù)著至關(guān)重要的地位。在字符拼寫腦機(jī)接口系統(tǒng)中,P300事件相關(guān)電位是人體接受視覺(jué)刺激后在腦部頭皮中可檢測(cè)到的潛伏期約300 ms左右的正向電位。由于其波幅小、信噪比低,常常淹沒(méi)在自發(fā)腦電和偽跡干擾中,因此P300事件相關(guān)電位不易被檢測(cè)。高效準(zhǔn)確地從EEG數(shù)據(jù)中分類識(shí)別出P300事件相關(guān)電位,對(duì)于BCI系統(tǒng)的正常運(yùn)作具有重要的意義。
近年來(lái),文獻(xiàn)中報(bào)道了較多P300事件相關(guān)電位的分類識(shí)別方法。其中,文獻(xiàn)[1]介紹了早期的分類方法,這些方法主要基于信號(hào)的時(shí)域特征來(lái)對(duì)信號(hào)進(jìn)行處理,通常將固定時(shí)間長(zhǎng)度窗口內(nèi)提取到的EEG波形的最大幅度差、波形面積以及待識(shí)別信號(hào)與P300事件相關(guān)電位模板信號(hào)的相關(guān)系數(shù)作為分類特征。早期研究方法僅僅考慮到時(shí)域信息而忽略頻域等方面的信息,分類方法比較簡(jiǎn)單,因而對(duì)于P300信號(hào)識(shí)別正確率僅有80%。更多的研究者致力于EEG信號(hào)的特征提取方式和分類模型的研究。Liu等利用頻帶功率和逐步判別分析(stepwise discriminant analysis,SWDA)計(jì)算的P300幅值共同作為分類特征,并使用受試者工作特征(receiver operating characteristic,ROC)曲線下的面積(area under curve,AUC)作為度量標(biāo)準(zhǔn)[2]。在自定義的刺激范式下,其AUC可達(dá)0.981;但由于計(jì)算頻帶功率需要的信號(hào)段較長(zhǎng),因此比較耗時(shí)。Kaper等提出了一種基于支持向量機(jī)(support vector machine, SVM)的P300信號(hào)識(shí)別方法,直接將采集到的EEG信號(hào)作為特征來(lái)訓(xùn)練支持向量機(jī),其P300電位的識(shí)別正確率可達(dá)84.5%[3]。為了提高單個(gè)支持向量機(jī)的字符識(shí)別正確率,Rakotomamonjy提出一種基于集成支持向量機(jī)的P300識(shí)別方法,雖然識(shí)別精度有所提高,但是計(jì)算復(fù)雜度高,加大了分類訓(xùn)練難度和時(shí)間[4]。Li將經(jīng)過(guò)獨(dú)立成分分析(independent component analysis, ICA)去除偽跡后的數(shù)據(jù)送入SVM分類器中提高分類效果[5],雖然經(jīng)過(guò)ICA預(yù)處理后的信號(hào)更容易準(zhǔn)確識(shí)別,但是在數(shù)據(jù)處理上需要消耗一定的時(shí)間。隨著人工智能的飛速發(fā)展,由于深度學(xué)習(xí)強(qiáng)大的特征提取能力,使其在圖像、語(yǔ)音、生物信號(hào)處理等領(lǐng)域中具有廣泛的應(yīng)用[6-7]。Cecotti首次實(shí)現(xiàn)了用深度學(xué)習(xí)對(duì)P300事件相關(guān)電位的分類[8],然而實(shí)驗(yàn)次數(shù)為10次時(shí),其字符的識(shí)別正確率還達(dá)不到90%。在此基礎(chǔ)之上,Liu在訓(xùn)練時(shí)加上batch normalization技巧[9],很大程度地提高了網(wǎng)絡(luò)對(duì)P300事件相關(guān)電位識(shí)別正確率。在實(shí)驗(yàn)次數(shù)為15次時(shí),字符識(shí)別正確率可達(dá)98%;但是在實(shí)驗(yàn)次數(shù)較少的時(shí)候,其識(shí)別結(jié)果仍有待提高。
綜上所述,目前大多數(shù)算法的P300事件相關(guān)電位分類正確率有待提高。筆者基于經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行研究改進(jìn),在網(wǎng)絡(luò)的第二層上用3個(gè)并行結(jié)構(gòu)的卷積層代替網(wǎng)絡(luò)中單個(gè)串行連接的卷積層來(lái)處理數(shù)據(jù),提取到數(shù)據(jù)的多樣化特征,進(jìn)而使用組合后的特征實(shí)現(xiàn)P300信號(hào)的分類,并同時(shí)改變對(duì)數(shù)據(jù)的預(yù)處理方式,使得字符識(shí)別的正確率得到一定提高。
1.1.1實(shí)驗(yàn)過(guò)程
P300事件相關(guān)電位通常采用oddball刺激范式誘發(fā)得到。在P300拼寫范式中,受試者面前有一個(gè)由36個(gè)字符組成的視覺(jué)刺激器(見(jiàn)圖1),它將常用的36個(gè)字符排列成一個(gè)6行×6列的矩陣。在實(shí)驗(yàn)前,受試者被告知視覺(jué)刺激器中某一指定字符為目標(biāo)字符,每次實(shí)驗(yàn)隨機(jī)指定字符。在實(shí)驗(yàn)過(guò)程中,受試者需要緊盯視覺(jué)刺激器中的目標(biāo)字符位置,同時(shí)視覺(jué)刺激器中的任意一行或列以固定頻率隨機(jī)閃爍。若目標(biāo)字符所在行或列發(fā)生閃爍時(shí),受試者會(huì)受到視覺(jué)刺激,并在接受刺激300 ms后在大腦頭皮中檢測(cè)到正向的P300事件相關(guān)電位(P300 event related potential, P300 ERP);若非目標(biāo)字符所在行或列發(fā)生閃爍,則在人腦頭皮中檢測(cè)到的EEG數(shù)據(jù)是非P300事件相關(guān)電位(Non-P300 event related potential, N-P300 ERP)。每次實(shí)驗(yàn)會(huì)將所有行和列隨機(jī)閃爍一次,共計(jì)12次,其中有2次包含目標(biāo)字符。為保證所獲取信號(hào)的質(zhì)量,每次實(shí)驗(yàn)之間都有一定的時(shí)間間隔,提供給受試者休息時(shí)間,以防產(chǎn)生視覺(jué)疲勞。在字符拼寫器完成字符識(shí)別的過(guò)程中,如果能夠確定當(dāng)前采集到的腦電信號(hào)是P300 ERP,再根據(jù)當(dāng)前EEG信號(hào)的所在行和列,就可以確定出目標(biāo)字符,進(jìn)而完成字符的拼寫,達(dá)到人體與外界溝通交流的目的。
1.1.2EEG數(shù)據(jù)
圖2 電極分布Fig.2 Electrode distribution
圖1 視覺(jué)刺激器Fig.1 Visual stimulator
實(shí)驗(yàn)數(shù)據(jù)源于Wadsworth研究中心NYS Department of Health 提供的 BCI Competition III A組競(jìng)賽數(shù)據(jù)。該實(shí)驗(yàn)使用的刺激范式簡(jiǎn)述如下:視覺(jué)刺激器以頻率5.7 Hz隨機(jī)閃爍其行或列,即每次閃爍持續(xù)100 ms,中間間隔75 ms進(jìn)入下一次閃爍,一次實(shí)驗(yàn)閃爍12次,每次實(shí)驗(yàn)對(duì)應(yīng)同一個(gè)目標(biāo)字符,持續(xù)時(shí)間2.5 s。每個(gè)目標(biāo)字符重復(fù)實(shí)驗(yàn)15次。實(shí)驗(yàn)通過(guò)一個(gè)簡(jiǎn)易便攜的腦機(jī)接口研究開(kāi)發(fā)平臺(tái)BCI2000獲取到EEG數(shù)據(jù),使用符合10/20國(guó)際標(biāo)準(zhǔn)的64導(dǎo)聯(lián)記錄EEG數(shù)據(jù),電極為 Ag/AgCl 材質(zhì),電極阻抗不超過(guò)5 kΩ,其放置位置如圖2所示。采集設(shè)備的采樣頻率為240 Hz,每個(gè)數(shù)據(jù)樣本都以刺激時(shí)刻0 ms開(kāi)始,到1000 ms結(jié)束。將獲取的EEG數(shù)據(jù)經(jīng)過(guò)0.1~60 Hz的帶通濾波處理后得到A組數(shù)據(jù),這樣每次刺激下的樣本數(shù)據(jù)的大小為240×64,其中240代表單個(gè)樣本數(shù)據(jù)時(shí)域上的采樣點(diǎn)數(shù),64代表單個(gè)樣本數(shù)據(jù)的通道數(shù)。競(jìng)賽中將A組數(shù)據(jù)分成訓(xùn)練集和驗(yàn)證集,其中分別含有85和100個(gè)字符,樣本量分別為15 300(12×15×85=15 300)和18 000(12×15×100=18 000)。關(guān)于數(shù)據(jù)的詳細(xì)介紹可參見(jiàn)文獻(xiàn)[10]。
1.2.1數(shù)據(jù)預(yù)處理
為了更好地分類識(shí)別P300 ERP,筆者在頻域和時(shí)域上對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。在頻域處理中,由于P300 ERP頻域特性主要分布在0.1~20 Hz,而采集到的EEG數(shù)據(jù)會(huì)受到工頻干擾和偽跡干擾的影響,因此將EEG數(shù)據(jù)先后通過(guò)一個(gè)3階截止頻率為0.1 Hz的高通濾波器和一個(gè)6階截止頻率為20 Hz的低通濾波器。在時(shí)域處理中,由于P300 ERP在視覺(jué)刺激300 ms后產(chǎn)生,故將EEG數(shù)據(jù)中的每通道數(shù)據(jù)都在時(shí)域上截?cái)?,取刺激?~667 ms數(shù)據(jù)(即數(shù)據(jù)長(zhǎng)度為160個(gè)采樣點(diǎn))來(lái)處理分析。這樣,每次刺激后得到的EEG數(shù)據(jù)可以看成一個(gè)160×64的矩陣。在BCI Competition Ⅲ的實(shí)驗(yàn)方案中,由于每次實(shí)驗(yàn)中所有行和列都會(huì)遍歷閃爍一次,而包含目標(biāo)字符的行與列只有2次,故EEG數(shù)據(jù)中含有P300 ERP和N-P300 ERP的樣本數(shù)據(jù)量分別為2 550(2×15×85=2 550)和12 750(10×15×85=12 750),這會(huì)造成訓(xùn)練數(shù)據(jù)中P300 ERP和N-P300 ERP的數(shù)據(jù)量不平衡。為了保持訓(xùn)練過(guò)程中兩類數(shù)據(jù)的平衡和多樣性,筆者參考文獻(xiàn)[11]中的處理技巧,依據(jù)誘發(fā)電位的鎖時(shí)特性,對(duì)現(xiàn)有的P300 ERP樣本數(shù)據(jù)量進(jìn)行一次疊加平均計(jì)算,合成新的用于訓(xùn)練的P300 ERP,這樣合成后P300 ERP與N-P300 ERP的數(shù)據(jù)量等同,總訓(xùn)練集樣本量為25 500。同時(shí),為了提高P300誘發(fā)電位識(shí)別正確率,對(duì)采集到的EEG腦電信號(hào)xij做零均值、單位方差的歸一化處理,得到
(1)
由于本研究采用有監(jiān)督的網(wǎng)絡(luò)訓(xùn)練方式,故需構(gòu)造與EEG數(shù)據(jù)相對(duì)應(yīng)的監(jiān)督信號(hào)y。針對(duì)一個(gè)二值分類的問(wèn)題,網(wǎng)絡(luò)輸出代表屬于P300 ERP信號(hào)的概率,因此按照下式確定監(jiān)督信號(hào)的取值,將(xij,y)代入設(shè)計(jì)的網(wǎng)絡(luò)進(jìn)一步訓(xùn)練,有
(2)
1.2.2卷積神經(jīng)網(wǎng)絡(luò)
作為一種多層神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)憑借其強(qiáng)大的特征提取能力,成功地應(yīng)用在計(jì)算機(jī)視覺(jué)、圖像處理等領(lǐng)域。隨著研究者的不斷革新,卷積神經(jīng)網(wǎng)絡(luò)由最初簡(jiǎn)單的LeNet5網(wǎng)絡(luò)[12]演變出各種強(qiáng)大的網(wǎng)絡(luò),如VGG、AlexNet、GoogleNet等。其中,Inception v1網(wǎng)絡(luò)是一種結(jié)構(gòu)與LeNet5網(wǎng)絡(luò)不同的卷積神經(jīng)網(wǎng)絡(luò)[13],圖3對(duì)比展示了兩者的部分結(jié)構(gòu)。Inception v1網(wǎng)絡(luò)是不同的卷積層以并聯(lián)的方式連接在一起,這樣在構(gòu)建網(wǎng)絡(luò)時(shí)會(huì)平衡網(wǎng)絡(luò)的深度和寬度,使得流入網(wǎng)絡(luò)的信息最大化,更有利于網(wǎng)絡(luò)特征的提取,因此在圖像分類問(wèn)題中具有更佳的效果。
圖3 網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比。 (a) Inception v1網(wǎng)絡(luò); (b) LeNet5網(wǎng)絡(luò)Fig.3 Comparison of network architecture. (a) Inception v1 network; (b) LeNet5 network
圖4 改進(jìn)的網(wǎng)絡(luò)架構(gòu)CNN-IEFig.4 The improved network architecture CNN-IE
1.2.3改進(jìn)的網(wǎng)絡(luò)架構(gòu)
本研究融合了Inception v1網(wǎng)絡(luò)和EEGNet網(wǎng)絡(luò)[14],提出了一種改進(jìn)的網(wǎng)絡(luò)架構(gòu)(命名為CNN-IE網(wǎng)絡(luò)),如圖4所示。
該網(wǎng)絡(luò)深度為7層,分別命名為L(zhǎng)1~L7,具體改進(jìn)的網(wǎng)絡(luò)架構(gòu)描述如下:
1) L1:輸入層,載入待識(shí)別的EEG腦電信號(hào)數(shù)據(jù),將xij在本研究的后續(xù)實(shí)驗(yàn)中取i=160,j=64,并以張量的形式傳遞給下層網(wǎng)絡(luò)。
2) L2:卷積層,由一個(gè)卷積核大小與信號(hào)通道數(shù)量相等的多個(gè)卷積核組成。這種操作相當(dāng)于對(duì)輸入信號(hào)的所有通道進(jìn)行空域?yàn)V波,類似于加權(quán)疊加平均和共同空間模式[15]等傳統(tǒng)的信號(hào)統(tǒng)計(jì)處理方法,可以有效提高信號(hào)的信噪比,除去信號(hào)在空間上的冗余信息。
3) L3:卷積層,由3個(gè)具有不同卷積核大小的卷積層并行排列組成,每個(gè)卷積層的卷積核數(shù)量相同。對(duì)同一輸入采用不同尺度的卷積核能提取到不同信息,增加特征的復(fù)雜度。本研究對(duì)L2層空域?yàn)V波后的信號(hào)進(jìn)行不同時(shí)間尺度上的時(shí)域?yàn)V波,相當(dāng)于在不同時(shí)間段內(nèi)提取數(shù)據(jù)特征,進(jìn)而提取多樣化信息。
4) L4:連接層,將L3層不同濾波器尺度下提取到的特征圖堆疊起來(lái),主要用于整合提取到的特征。
5) L5:池化層,由一個(gè)尺寸為2的池化濾波器組成特征池化層。本研究將L4層得到的特征圖在其數(shù)量上做最大池化。該池化操作有利于減小網(wǎng)絡(luò)的參數(shù),既可以加快計(jì)算,也可以防止小數(shù)量訓(xùn)練樣本過(guò)擬合的問(wèn)題。
6) L6:卷積層,是一個(gè)常用的普通卷積層。用10個(gè)大小為5的卷積核,對(duì)L5層得到的特征繼續(xù)進(jìn)行卷積濾波操作,提取更抽象深層且有利于分類的特征,同時(shí)減少最后連接全連接層的網(wǎng)絡(luò)參數(shù)。
7) L7:全連接層,輸出節(jié)點(diǎn)為1。將L6層提取的特征進(jìn)一步加權(quán)計(jì)算,得到當(dāng)前輸入信號(hào)被網(wǎng)絡(luò)判斷為P300 ERP的概率P,選定判別閾值為0.5,若當(dāng)前網(wǎng)絡(luò)輸出概率不小于0.5,則判別當(dāng)前信號(hào)為P300 ERP;否則,判別當(dāng)前信號(hào)為N-P300 ERP。其中,判斷結(jié)果E表示如下:
(3)
表1 網(wǎng)絡(luò)參數(shù)設(shè)置Tab.1 Network parameter settings
本研究采用二值交叉熵代價(jià)函數(shù)[16]作為損失函數(shù),用以衡量網(wǎng)絡(luò)的分類誤差。采用正則化思想[17],通過(guò)在損失函數(shù)中添加刻畫網(wǎng)絡(luò)復(fù)雜度的指標(biāo)來(lái)避免過(guò)擬合問(wèn)題。對(duì)L2層和L7層采用l2正則化方法,以降低過(guò)擬合的風(fēng)險(xiǎn),同時(shí)將l1正則化方法引入L2層,使得參數(shù)變得更加稀疏,達(dá)到類似特征選取的功能。其中,l1=0.001,l2=0.001。為使網(wǎng)絡(luò)獲得更好的魯棒性,網(wǎng)絡(luò)采用dropout策略[18]。在L1層和L5層后使用dropout訓(xùn)練技巧,將對(duì)應(yīng)層中的節(jié)點(diǎn)以固定概率P=0.2隨機(jī)丟棄,訓(xùn)練過(guò)程中相當(dāng)于多個(gè)網(wǎng)絡(luò)組合,以減輕網(wǎng)絡(luò)過(guò)擬合問(wèn)題。同時(shí),在設(shè)計(jì)網(wǎng)絡(luò)時(shí),通過(guò)對(duì)L3層中并行卷積層的數(shù)量以及卷積核的大小進(jìn)行增減,以確定最佳的網(wǎng)絡(luò)結(jié)構(gòu)。為驗(yàn)證L3層中并行卷積層的數(shù)量對(duì)字符識(shí)別正確率的影響,采用將并行卷積層的數(shù)量分別設(shè)定為2、3、4層。另外,在討論卷積核大小對(duì)字符識(shí)別正確率的影響時(shí),本研究設(shè)定了3組網(wǎng)絡(luò)。設(shè)定Ⅰ組網(wǎng)絡(luò)的L3層中并行卷積層的卷積核大小分別為(3,1),(5,1)以及(10,1),Ⅱ組網(wǎng)絡(luò)的L3層中并行卷積層的卷積核大小分別為(5,1),(10,1)以及(15,1),Ⅲ組網(wǎng)絡(luò)的L3層中并行卷積層的卷積核大小分別為(10,1),(15,1)以及(20,1)。
本研究對(duì)上述構(gòu)建的網(wǎng)絡(luò)進(jìn)行有監(jiān)督訓(xùn)練。網(wǎng)絡(luò)的主要參數(shù)設(shè)置如表1所示,其中批量處理數(shù)據(jù)樣本數(shù)batchsize為64。采用收斂速度快且優(yōu)化效果佳的Adam優(yōu)化方法[19]更新參數(shù),在默認(rèn)情況下,β1=0.9,β2=0.999,ε=10-8。每次實(shí)驗(yàn)中,所有行和列都會(huì)閃爍一次,產(chǎn)生相應(yīng)的EEG數(shù)據(jù),數(shù)據(jù)經(jīng)網(wǎng)絡(luò)計(jì)算輸出對(duì)應(yīng)的概率值。比較這些概率值大小,進(jìn)而判斷出誘發(fā)P300 ERP的行號(hào)和列號(hào)。然而實(shí)際中,一次實(shí)驗(yàn)并不能準(zhǔn)確地判斷目標(biāo)字符的位置。本研究累加n次實(shí)驗(yàn)中網(wǎng)絡(luò)的輸出概率P(k,i),其中k表示實(shí)驗(yàn)序號(hào),i是對(duì)應(yīng)的行號(hào)或列號(hào)。搜索概率最大的列和行即為目標(biāo)字符的位置(x,y),進(jìn)而計(jì)算網(wǎng)絡(luò)對(duì)字符的識(shí)別正確率,有
(4)
本研究使用競(jìng)賽中A組數(shù)據(jù),其中每個(gè)字符都進(jìn)行15次重復(fù)實(shí)驗(yàn)。選擇含有85個(gè)字符的EEG數(shù)據(jù)作為訓(xùn)練集進(jìn)行訓(xùn)練網(wǎng)絡(luò),含有100個(gè)字符的EEG數(shù)據(jù)作為測(cè)試集以驗(yàn)證算法。在驗(yàn)證時(shí),先將每次實(shí)驗(yàn)獲得的腦電數(shù)據(jù)輸入到網(wǎng)絡(luò)中,經(jīng)網(wǎng)絡(luò)計(jì)算輸出當(dāng)前實(shí)驗(yàn)輸入信號(hào)屬于P300 ERP的概率,然后依據(jù)式(4)來(lái)計(jì)算不同實(shí)驗(yàn)次數(shù)條件下相對(duì)應(yīng)的字符,并與目標(biāo)字符比較,計(jì)算其字符識(shí)別正確率如下:
字符識(shí)別正確率=正確預(yù)測(cè)的字符數(shù)/字符總數(shù)
(5)
為進(jìn)一步描述網(wǎng)絡(luò)對(duì)字符識(shí)別速度,采用計(jì)算信息傳輸率(information transfer rate, ITR)[20]來(lái)評(píng)價(jià),其定義為
(6)
式中:Pc為字符識(shí)別正確率;N表示待識(shí)別的字符種類數(shù),即視覺(jué)刺激器上的字符數(shù),總計(jì)36種;通常意義下,T是識(shí)別一個(gè)字符所需時(shí)間,min。
表2 不同實(shí)驗(yàn)次數(shù)下字符識(shí)別正確率Tab.2 Correct rate of character recognition under different experiment times %
圖5給出了當(dāng)并行卷積層的數(shù)量分別為2、3、4層時(shí),不同實(shí)驗(yàn)次數(shù)條件下的字符識(shí)別正確率??梢钥闯?,當(dāng)并行卷積層層數(shù)為3層時(shí),可取得更好的結(jié)果。初步分析,當(dāng)層數(shù)較少時(shí),網(wǎng)絡(luò)提取特征的能力有所欠缺;當(dāng)層數(shù)較多時(shí),網(wǎng)絡(luò)較為復(fù)雜,可能會(huì)造成一定程度的過(guò)擬合。
圖5 并行卷積層數(shù)量不同時(shí),字符識(shí)別正確率與實(shí)驗(yàn)次數(shù)關(guān)系Fig.5 The relation between correct character recognition rate and experiment times when the number of parallel convolution layers is different
針對(duì)卷積核大小的選擇問(wèn)題,一般來(lái)說(shuō),小的卷積核提取到的特征更加細(xì)膩,但是P300 ERP從產(chǎn)生到消失具有一定的時(shí)間范圍,故卷積核較小時(shí)網(wǎng)絡(luò)計(jì)算得到的時(shí)域特征意義不大,而較大的卷積核導(dǎo)致計(jì)算復(fù)雜度迅速增加。圖6給出了3組不同卷積核大小時(shí)對(duì)應(yīng)的字符識(shí)別正確率。綜合各種因素,進(jìn)而確定最佳的卷積層數(shù)與卷積核大小如表1所示。
圖6 并行卷積層卷積核大小不同時(shí),字符識(shí)別正確率與實(shí)驗(yàn)次數(shù)關(guān)系Fig.6 The relationship between correct character recognition rate and the number of experiments when convolution kernels′ size in the parallel convolution layer is different
表2展示相同字符在不同實(shí)驗(yàn)次數(shù)下利用CNN-IE網(wǎng)絡(luò)計(jì)算得到的字符識(shí)別正確率,并與文獻(xiàn)[9]中BN3網(wǎng)絡(luò)和文獻(xiàn)[8]中CNN-1網(wǎng)絡(luò)所得到的實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。可以看出,雖然在實(shí)驗(yàn)次數(shù)低于7次的情況下本研究的結(jié)果稍遜于文獻(xiàn)[9]的結(jié)果,但是在實(shí)驗(yàn)次數(shù)為7~15次時(shí),CNN-IE網(wǎng)絡(luò)的字符識(shí)別正確率的均值±方差為90%±6%,明顯優(yōu)于BN3和CNN-1的89%±7%和88%±7%的結(jié)果。在實(shí)驗(yàn)次大于11次時(shí),其字符識(shí)別正確率均在95%以上,表明了CNN-IE網(wǎng)絡(luò)具有優(yōu)良的識(shí)別正確率,可望在BCI系統(tǒng)應(yīng)用中得到較好的結(jié)果。
圖7給出了在不同實(shí)驗(yàn)次數(shù)下3種網(wǎng)絡(luò)計(jì)算得出信息傳輸速率。對(duì)比可以看出,雖然CNN-IE網(wǎng)絡(luò)在信息傳輸速率方面稍遜于BN3網(wǎng)絡(luò),但是在大部分實(shí)驗(yàn)次數(shù)條件下,都可以取得每分鐘10 bit以上的信息傳輸速率,具有一定的應(yīng)用價(jià)值。
圖7 不同實(shí)驗(yàn)次數(shù)下3種網(wǎng)絡(luò)的信息傳輸速率Fig.7 The information transmission rates of the three networks under different experiment times
本研究的主要內(nèi)容是利用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)BCI系統(tǒng)中P300事件相關(guān)電位的分類識(shí)別。不同于傳統(tǒng)的統(tǒng)計(jì)信號(hào)處理方式,本研究并沒(méi)有借助常用的EEG信號(hào)處理算法搜尋適合分類的特征,而是依據(jù)卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征提取和組合能力構(gòu)造性能較好的分類器,進(jìn)而在不同實(shí)驗(yàn)次數(shù)下提升字符識(shí)別正確率。而卷積神經(jīng)網(wǎng)絡(luò)的分類性能取決于數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)兩個(gè)方面,本研究的主要工作集中在數(shù)據(jù)預(yù)處理和網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上。在數(shù)據(jù)預(yù)處理中,充分利用競(jìng)賽中的訓(xùn)練數(shù)據(jù),采用一次疊加平均的方式擴(kuò)增訓(xùn)練樣本中數(shù)量較少的P300信號(hào),在保證擴(kuò)增的數(shù)據(jù)接近真實(shí)數(shù)據(jù)的基礎(chǔ)上使訓(xùn)練數(shù)據(jù)多樣化,避免網(wǎng)絡(luò)過(guò)擬合。在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)和參數(shù)設(shè)置上,在EEGNet網(wǎng)絡(luò)的基礎(chǔ)之上,將網(wǎng)絡(luò)中串行的第二個(gè)卷積層改成多個(gè)并行結(jié)構(gòu)的卷積層,即使用多尺度的卷積濾波器提取網(wǎng)絡(luò)底層的信息,提升網(wǎng)絡(luò)的特征提取能力。從表2中可以看出,相比文獻(xiàn)[8-9]所提出的多個(gè)卷積層串行連接的網(wǎng)絡(luò),本研究所使用的部分卷積層并行連接的結(jié)構(gòu)能在減少實(shí)驗(yàn)次數(shù)的條件下(實(shí)驗(yàn)次數(shù)為6~15次),提高字符的識(shí)別正確率。在實(shí)驗(yàn)次數(shù)為10次以上時(shí),其字符識(shí)別正確率均能達(dá)到90%以上,其性能均優(yōu)于BN3網(wǎng)絡(luò)和CNN-1網(wǎng)絡(luò)。在研究的過(guò)程中,為獲得分類性能較好的分類器,對(duì)不同參數(shù)設(shè)置的網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)。結(jié)果表明,在一定數(shù)量的訓(xùn)練樣本下,網(wǎng)絡(luò)識(shí)別正確率并不與網(wǎng)絡(luò)的復(fù)雜度成正比。單一的網(wǎng)絡(luò)可能存在欠擬合的情況,如在并行卷積網(wǎng)絡(luò)層數(shù)較少和濾波器參數(shù)較小時(shí),網(wǎng)絡(luò)不能夠很好地反映數(shù)據(jù)的特點(diǎn),造成訓(xùn)練和測(cè)試數(shù)據(jù)中字符識(shí)別正確率較低;而太復(fù)雜的網(wǎng)絡(luò)會(huì)造成過(guò)擬合的情況,如在并行卷積層數(shù)較多和濾波器參數(shù)較大時(shí),訓(xùn)練數(shù)據(jù)的分類情況好,但測(cè)試數(shù)據(jù)的泛化能力有所降低。通過(guò)大量的對(duì)比實(shí)驗(yàn),本研究確定最佳的網(wǎng)絡(luò)結(jié)構(gòu)。今后可利用更多可視化技術(shù)來(lái)輔助網(wǎng)絡(luò)的建模和優(yōu)化工作,力爭(zhēng)在實(shí)驗(yàn)次數(shù)較少時(shí)提高字符識(shí)別正確率。
雖然在滿足一定實(shí)驗(yàn)次數(shù)條件下,本研究的字符識(shí)別正確率有所提高,但是僅采用腦機(jī)接口競(jìng)賽數(shù)據(jù)進(jìn)行離線分析,而在線BCI系統(tǒng)中,信號(hào)采樣、處理和分析以及輸出控制都要求是實(shí)時(shí)實(shí)現(xiàn)的,系統(tǒng)的實(shí)時(shí)性取決于硬件和軟件算法的合理搭配以及實(shí)驗(yàn)范式的設(shè)計(jì)。本研究的主要工作是針對(duì)信號(hào)的處理和分析,因此在實(shí)驗(yàn)范式和軟硬件搭建系統(tǒng)固定的條件下,對(duì)信號(hào)的處理和分析所消耗的時(shí)間進(jìn)行了簡(jiǎn)單的分析。當(dāng)實(shí)驗(yàn)次數(shù)為15次時(shí),在裝有GTX1080顯卡的主機(jī)上,本算法分類識(shí)別100個(gè)字符約需2 s的時(shí)間,即判斷一個(gè)字符需要約20 ms的時(shí)間。另外,實(shí)驗(yàn)范式中產(chǎn)生一個(gè)字符的測(cè)試數(shù)據(jù)用時(shí)34 s,識(shí)別一個(gè)字符的時(shí)間遠(yuǎn)遠(yuǎn)小于產(chǎn)生相對(duì)應(yīng)數(shù)據(jù)的時(shí)間。故在特定的刺激范式和性能較好的系統(tǒng)硬件配置下,本研究提出的算法有望走向?qū)崟r(shí)在線腦機(jī)接口系統(tǒng)。筆者后續(xù)也將以如何減少樣本數(shù)據(jù)的通道數(shù)、進(jìn)而減少網(wǎng)絡(luò)規(guī)模和計(jì)算量為主要研究?jī)?nèi)容,提高網(wǎng)絡(luò)的運(yùn)行速度,使得本算法能夠應(yīng)用于在線系統(tǒng)中。
為提高P300事件相關(guān)電位的識(shí)別正確率,本研究結(jié)合經(jīng)典的卷積神經(jīng)網(wǎng)絡(luò),提出一種適用于EEG數(shù)據(jù)處理的網(wǎng)絡(luò)結(jié)構(gòu)CNN-IE。通過(guò)將傳統(tǒng)網(wǎng)絡(luò)結(jié)構(gòu)中的1個(gè)串行連接的卷積層改成3個(gè)并行連接的卷積層,實(shí)現(xiàn)在時(shí)域上對(duì)信號(hào)的多尺度分析,進(jìn)而提升網(wǎng)絡(luò)特征提取能力。同時(shí),結(jié)合數(shù)據(jù)擴(kuò)增和濾波等預(yù)處理操作,有效提高了該網(wǎng)絡(luò)對(duì)字符分類識(shí)別的正確率。后續(xù)的研究工作將探究本方法在實(shí)時(shí)在線腦機(jī)接口系統(tǒng)中的實(shí)現(xiàn)與應(yīng)用。