李健,郭冰,唐瑞陽,黃斌,張瀟,李奇
(長春理工大學(xué) 計算機科學(xué)技術(shù)學(xué)院,長春 130022)
腦機接口(Brain-Computer Interface,BCI)系統(tǒng)是一種使大腦能夠不依賴于外周神經(jīng)和肌肉通道,而與外部環(huán)境進行交互的系統(tǒng)[1],它旨在幫助由于神經(jīng)疾病或外傷(如嚴(yán)重脊髓損傷、完全癱瘓等)而產(chǎn)生永久感覺運動障礙的患者向外部傳送大腦指令,從而實現(xiàn)用戶與外部的有效交流?;赑300電位的腦機接口字符輸入系統(tǒng)(P300拼寫器)是一種普遍使用的腦機接口系統(tǒng)[2]。經(jīng)典的P300拼寫器呈現(xiàn)范式為一個6×6的字符矩陣,矩陣中每行或每列的字符進行隨機的閃爍,每行和每列只閃爍一次。當(dāng)用戶想輸入某個字符時就注視該字符,則包含該字符的行或列被閃爍的概率為1/6,為小概率事件。當(dāng)小概率事件出現(xiàn)300~500ms后,在大腦頂葉會誘發(fā)一個正的波峰,即P300電位[3]。通過P300電位出現(xiàn)的時間與行列閃爍的對應(yīng)關(guān)系就能判定被閃爍的行或列,則被確定的行和列的交叉字符即為用戶想要輸入的字符。
經(jīng)過近十多年的發(fā)展,P300拼寫器的識別準(zhǔn)確率和傳輸率有了一定的提高,但仍然達不到實際應(yīng)用的要求。許多研究者通過使用不同的分類算法對P300拼寫器進行了改進,如SWLDA,支持向量機等[4-6]。也有許多研究者通過改變呈現(xiàn)范式的參數(shù)來對P300拼寫器性能進行優(yōu)化,如改變矩陣大小、刺激頻率、刺激強度等[7-10]。這些呈現(xiàn)范式參數(shù)方面的研究與某種心理活動、認(rèn)知過程有一定的聯(lián)系。最近,一些基于人臉認(rèn)知的研究表明,熟悉的人臉能夠誘發(fā)出更大振幅的P300電位,除了P300電位還誘發(fā)了與人臉識別相對應(yīng)的事件相關(guān)電位(Event-Related Potential,ERP),如N170和N400f。假設(shè)將基于熟悉人臉的腦電特征應(yīng)用到傳統(tǒng)的P300拼寫器中,將進一步提高P300拼寫器的識別準(zhǔn)確率。因此,本研究設(shè)計和實現(xiàn)了基于熟悉人臉范式的P300腦機接口字符輸入系統(tǒng)。
本研究共有17名志愿者參加,其中有11名男性,6名女性,均為在校大學(xué)生和研究生,年齡在21~26歲之間,視力或矯正視力正常,右利手。實驗過程中被試需要精神放松,集中注意力,盡可能減少眨眼次數(shù)以及肢體動作。
在本研究中,針對傳統(tǒng)P300范式進行了改進,設(shè)計出基于熟悉人臉的P300腦機接口刺激范式。該范式為一個6×6的字符矩陣,矩陣中每個字符大小為1.5cm×1.5cm,矩陣大小為24cm×16.5cm,背景色為黑色,字符顏色為灰色,亮度為20cd/cm2。該范式被顯示在刷新率為60Hz的19英寸顯示器上。實驗開始后,矩陣中每行或每列的字符將進行隨機的閃爍。與傳統(tǒng)范式不同的是,行列閃爍時不再是單純的字符由灰色變?yōu)榘咨窃谧址细采w半透明的熟悉人臉圖像(英國著名球星貝克漢姆的頭像),閃爍間隔(Inter-Flashing Interval,IFI)為250ms,其中,字符覆蓋半透明的熟悉人臉頭像的持續(xù)時間為200ms,恢復(fù)為灰色字符的時間為50ms。在范式的上方有6個字符,前5個字符為本次實驗所要輸入的字符,最后一個在括號內(nèi)的字符為當(dāng)前要輸入的字符,如圖1所示。
圖1 熟悉人臉實驗范式示意圖
由于肖像權(quán)問題,本文中并沒有使用貝克漢姆的頭像,而是使用了本實驗室一名大四學(xué)生的頭像代替。
每名被試須進行6次實驗,每次實驗輸入5個目標(biāo)字符,共須輸入30個目標(biāo)字符。被試將在每兩次實驗之間休息2分鐘。把每次實驗定義為一個session,每輸入一個目標(biāo)字符定義為一個run,在輸入目標(biāo)字符的過程中,行或列閃爍一次定義為一個trial,其中包含目標(biāo)字符的行或列的閃爍為靶刺激trial,不包含目標(biāo)字符的行或列的閃爍為非靶刺激trial。對12個trial進行了編號,依次將從左向右的列閃爍trial分別定義為1~6號trial,依次將從上到下的行閃爍trial定義為7~12號trial。1~6號trial中有且僅有一個靶刺激trial,5個非靶刺激trial;7~12號trial中有且僅有一個靶刺激trial,5個非靶刺激trial。12個trial以隨機順序完全閃爍一次定義為一個sequence。15個sequence組成一個run,完成一個目標(biāo)字符的輸入如圖2所示。
被試坐在距顯示器正前方70cm的椅子上。在進行實驗前,被試有20秒的時間來熟悉范式。為了使被試能夠集中注意力,被試將被告知須在實驗過程中默數(shù)目標(biāo)字符所在的行或列閃爍的次數(shù)。
實驗開始前,屏幕上會出現(xiàn)3秒的提示語,告知被試實驗即將開始。在輸入每個目標(biāo)字符前,該字符會在字符矩陣中高亮顯示1秒,以提示被試該字母所在矩陣中的位置。然后恢復(fù)為灰色矩陣,經(jīng)過2秒后,范式開始行列閃爍,輸入完一個字符后,范式恢復(fù)為灰色字符矩陣,再經(jīng)過2秒開始下一個字符的輸入。在被試輸入完全部5個字符后,屏幕上會出現(xiàn)1秒鐘的提示語,告知被試實驗結(jié)束。
圖2 實驗設(shè)計
本研究采用Neuroscan放大器(SynAmps 2,Neuroscan Inc.,Abbotsford,Australia)采集了14個通道(Fz,F(xiàn)3,F(xiàn)4,F(xiàn)C1,F(xiàn)C2,Cz,C3,C4,Pz,P3,P4,Oz,O1,O2)的腦電信號(電極配置如圖3)。參考電極為左乳突,基準(zhǔn)電極為右乳突,腦電信號采集的過程中通過HEOG和VEOG電極記錄了被試的水平和垂直眼電信號。所有電極阻抗均保持在5kW以下,采樣率為250Hz。
圖3 選取的14個通道
使用Scan4.5軟件(Neuroscan Inc.)對數(shù)據(jù)進行預(yù)處理,采用0.1~30Hz的帶通濾波器對腦電信號進行濾波,通過回歸分析的方法去除腦電信號中的眼電成分。取每行或每列閃爍前100ms到閃爍后500ms對腦電信號進行分段,以-100~0ms作為基準(zhǔn)進行基線校正。將上述處理好的腦電信號保存為eeg格式,并用EEGLAB[11]轉(zhuǎn)換為mat格式,然后使用MATLAB軟件進行下一步的分類。
由于腦電信號信噪比較低,其中存在著許多噪聲和干擾,進而導(dǎo)致誘發(fā)出的P300電位不明顯,所以,采用疊加平均的方式來去除腦電信號中的噪聲和干擾,增強信噪比。由于在同一run中,無論哪個sequence,包含P300電位的trial編號均相同,因此我們對相同編號的trial的腦電信號進行疊加平均。
EEGk(i)表示第 i號 trial(1≤i≤12)在第 k(1≤i≤15)個sequence中的波形,EEGk(i)經(jīng)過 K(K≤15)次疊加平均后的波形為:
根據(jù)疊加平均時所用sequence數(shù)目的不同,得到了疊加1~15次共15種不同波形,隨著疊加次數(shù)的增多,腦電信號的噪聲越來越弱,ERP成分越來越明顯。
每個trial所對應(yīng)的腦電信號由14個通道采集,由于每個通道所在頭部位置的不同,所采集到的波形也不相同。針對每個通道,采用bior4.4將腦電波形進行三尺度小波分解,提取分解后的低頻系數(shù)作為當(dāng)前通道的特征向量,把全部14個通道的所有特征向量首尾相接,作為此trial的特征向量,將靶刺激trial對應(yīng)的特征向量稱為靶刺激特征向量。腦電波形進行疊加平均后,每個字符對應(yīng)12個特征向量(12個trial),30個字符共有360個特征向量。
在本研究中,使用集成支持向量機(Support Vector Machine Ensemble)作為分類算法,構(gòu)建了5個不同的子分類器,選取6個session中的5個作為子分類器的訓(xùn)練集,余下的一個session作為測試集。5個子分類器分別對測試集進行分類,得到5個不同的分類結(jié)果。
由于每輸出一個目標(biāo)字符對應(yīng)12個trial,即12個特征向量,任務(wù)是將這12個特征向量分為兩類:靶刺激特征向量和非靶刺激特征向量。F(Triali)為 i號trial所對應(yīng)的特征向量,labelj(F(Triali))為F(Triali)在第 j個子分類器中的分類結(jié)果,當(dāng)Triali為靶刺激 trial時,labelj(F(Triali))=1,當(dāng)Triali為非靶刺激trial時,labelj(F( Triali))=-1。將5個子分類器的分類結(jié)果進行累加,得到ri:
當(dāng)1≤i≤6時,取其中數(shù)值最大的ri所對應(yīng)的列作為目標(biāo)字符所在列,當(dāng)7≤i≤12時,取其中數(shù)值最大的的ri所對應(yīng)的行作為目標(biāo)字符所在行,而確定的行與列的交叉字符即為目標(biāo)字符。
由于被試往往在第一個session時精力充沛,隨著實驗時間的增加,被試將逐漸感到疲憊,因此α波將逐漸增加,影響實驗結(jié)果。為了保證分類結(jié)果的客觀性,依次取6個session中的一個作為測試集,其余5個作為訓(xùn)練集,這樣就有6種不同的測試方法,對應(yīng)著6個不同的分類結(jié)果,取這6個結(jié)果的平均值,即為認(rèn)為最接近實際應(yīng)用的分類結(jié)果。
實驗結(jié)果顯示,熟悉人臉范式在顳枕區(qū)160ms~260ms間誘發(fā)了ERP負(fù)成分,其峰值在180ms,在O2電極處峰值最大,值為-2.145mV;該ERP成分可以確定為N170波形,這個ERP成分與人臉識別相關(guān)[12-17]。由于大腦右半球的優(yōu)勢,與O1電極相比,O2電極記錄的N170波幅平均值更高。在額葉(Fz)處 180ms~380ms間發(fā)現(xiàn) Vpp波形,峰值在232ms,值為4.357mV;在刺激后364ms,P300波形出現(xiàn)在頂葉(Pz)處,值為3.178mV,如圖4所示。
圖4 熟悉人臉范式條件下,靶刺激與
經(jīng)過數(shù)據(jù)處理和分類后,我們得到了疊加1~15次的17個被試的字符輸入正確率,如表1所示。
表1 疊加1-15次17名被試字符輸入正確率及平均正確率
基于P300傳統(tǒng)范式,在字符上疊加半透明的熟悉人臉圖片,對P300腦機接口系統(tǒng)進行改進,設(shè)計并實現(xiàn)了基于熟悉人臉的P300腦機接口字符輸入系統(tǒng)。從17人的實驗結(jié)果來看,基于熟悉人臉的P300腦機接口字符輸入系統(tǒng)具有良好的性能,與以往使用傳統(tǒng)范式的P300腦機接口系統(tǒng)相比,具有較高的字符輸入正確率?;谑煜と四樀腜300腦機接口字符輸入系統(tǒng)具有較好的性能,但其仍不足以投入到實際應(yīng)用中,對于腦機接口系統(tǒng)仍需要大量的研究,相信經(jīng)過研究者們不斷的努力,腦機接口的時代一定會在不久的將來到來。
[1]高上凱.淺談腦-機接口的發(fā)展現(xiàn)狀與挑戰(zhàn)[J].中國生物醫(yī)學(xué)工程學(xué)報,2007,26(6):801-803.
[2]Farwell L A,Donchin E.Talking off the top of your head:Toward a mentalprosthesis utilizing event-related brain potentials[J].Electroencephalography and Clinical Neurophysiology,1988,70(6):510-523.
[3]Wolpaw J R,Birbaumer N,Mcfarland D J,et al.Brain-computer interface for communication and control[J].Clinical Neurophysiology,2002,113(6):767-791.
[4]Krusienski D J,Sellers E W,Cabestaing F,et al.A comparison of classification techniques for the P300 Speller[J].Journal of Neural Engineering,2006,3(4):299-305.
[5]Krusienski D J,Sellers E W,McFarland D J,et al.Toward enhanced P300 speller performance[J].JournalofNeuroscienceMethods,2008,167(1):15-21.
[6]Blankertz B,Lemm S,Treder M,et al.Single-trial analysisand classification ofERP components-A tutorial[J].NeuroImage,2011,56(2):814-825.
[7]Allison B Z,Pineda J A.ERPs evoked by different matrix sizes:implications for a brain computer interface(BCI)system[J].IEEE Transactions on Neural Systems and Rehabilitation Engineering,2003,11(2):110-1130.
[8]Sellers E W,Krusienski D J,McFarland D J,et al.A P300 event-related potential brain-computer interface(BCI):the effects of matrix size and inter stimulus interval on performance[J].Biological psychology,2006,73(3):242-252.
[9]Kaper M,Ritter H.Progress in P300-based braincomputer interfacing[C].IEEE International Workshop on Biomedical Circuits and Systems,Singapore,2004.
[10]Polich J,Ellerson P C,Cohen J.P300,Stimulus Intensity,Modality,and Probability[J].International Journal of Psychophysiology,1996,23(1-2):55-62.
[11]Delorme A,Makeig S.EEGLAB:an open source toolbox for analysis of single-trial EEG dynamics including independent component analysis[J].Journal of Neuroscience Methods,2004(134):9-21.
[12]Wolpaw J R,Birbaumer N,McFarland D J,et al.Brain-computerinterfacesforcommunication and control[J].Clinical Neurophysiology,2002,113(6):767-791.
[13]Miiller G,Neuper C,Pfurtscheller G,et al.An asynchronously controlled EEG-based virtual keyboard:improvement of the spelling rate[J].IEEE Trans Biomed Eng,2004,51(6):979-984.
[14]Birbaumer N,Ghanayim N,Hinterberger T,et al.A spelling device for the paralysed[J].Nature,1999.398:297-298.
[15]Kubler A,Kotchoubey B,Kaiser J,et al.Braincomputercommunication:unlockingthelocked in[J].Psychol Bull,2001,127(3):358-375.
[16]Nijboer F,Sellers E W,Mellinger J,et al.A P300-based brain-computer interface for people with amyotrophic lateral sclerosis[J].Clin Neurophysiol,2008,119(8):1909-1916.
[17]Bernat E,Shevrin H,Snodgrass M.Subliminal visual oddball stimuli evoke a P300 component[J].Clin Neurophysiol,2001,112(1):159-171.