張小內(nèi) 翟文鵬 侯惠讓 孟慶浩
(天津大學(xué)電氣自動(dòng)化與信息工程學(xué)院 天津 300072)
嗅覺(jué)是生物進(jìn)化史上最古老的感官功能,具有辨別氣味、識(shí)別環(huán)境和調(diào)控情緒等作用。大腦是神經(jīng)系統(tǒng)的最高級(jí)中樞,能夠評(píng)估來(lái)自各器官的刺激。近年來(lái),借助腦電(Electro Encephalo Gram,EEG)技術(shù)研究大腦對(duì)不同氣味的識(shí)別能力這一問(wèn)題因其具有重要的應(yīng)用價(jià)值而備受關(guān)注,如可用氣味刺激輔助診斷嗅覺(jué)功能障礙疾病,調(diào)控抑郁癥和精神病患者情緒等[1–3]。
在EEG信號(hào)的分類(lèi)研究中[2–6],為了獲取豐富的信息,通常使用多通道(如32導(dǎo)、64導(dǎo)、128導(dǎo)或256導(dǎo))電極采集EEG信號(hào)。然而,使用過(guò)多的電極一方面會(huì)增加設(shè)備的成本和試驗(yàn)操作的復(fù)雜度;另一方面會(huì)增加EEG信號(hào)數(shù)據(jù)處理的難度,不利于EEG信號(hào)的實(shí)時(shí)識(shí)別和非實(shí)驗(yàn)室環(huán)境的應(yīng)用。為了實(shí)現(xiàn)EEG信號(hào)采集的便攜性和識(shí)別的實(shí)時(shí)性,滿(mǎn)足眾多實(shí)際場(chǎng)景應(yīng)用的需要,研究如何選擇EEG通道顯得尤為重要。
針對(duì)EEG信號(hào)分類(lèi)中的通道選擇問(wèn)題,國(guó)內(nèi)外學(xué)者提出了不同的研究方法。例如,在基于EEG信號(hào)的運(yùn)動(dòng)想象研究中,單海軍等人[7]將Relief算法與順序后向選擇方法相結(jié)合,提出了Relief-SBS通道選擇算法。結(jié)果表明使用Relief-SBS算法篩選出的通道的分類(lèi)準(zhǔn)確率遠(yuǎn)高于使用所有通道和固定通道(Cz, C3, C4)的分類(lèi)準(zhǔn)確率。然而使用Relief-SBS算法獲得最優(yōu)通道的過(guò)程需要不斷計(jì)算不同通道組合的分類(lèi)準(zhǔn)確率,過(guò)程繁瑣耗時(shí)。Lan等人[8]提出了一種基于互信息最大化的EEG通道選擇方法。該方法雖然有較好的識(shí)別效果,但僅考慮了特征與類(lèi)別之間的關(guān)聯(lián),忽略了特征與特征之間的關(guān)聯(lián)。Lal等人[9]提出將基于支持向量機(jī)(Support Vector Machine, SVM)的遞歸特征消除和Fisher準(zhǔn)則相結(jié)合進(jìn)行通道選擇。這種方法依賴(lài)于特定分類(lèi)器,計(jì)算復(fù)雜并且可移植性較差。在基于EEG信號(hào)的情緒識(shí)別研究中,Zhang等人[10]提出了一種基于ReliefF特征權(quán)值均值的通道選擇(Mean-ReliefF Channel Selection, MRCS)算法,并將其用于情緒的分類(lèi)研究中。結(jié)果表明,MRCS通道選擇算法在使用一定數(shù)量通道的情況下可以提高分類(lèi)準(zhǔn)確率。Peng等人[11]研究了MRCS算法的穩(wěn)定性,指出MRCS算法在跨被試者的情緒識(shí)別時(shí),穩(wěn)定性較差。
ReliefF算法是一種原理簡(jiǎn)單、計(jì)算快速的過(guò)濾式特征選擇方法,在許多場(chǎng)景中有著廣泛的應(yīng)用[12]。目前基于ReliefF的通道選擇算法主要有以下兩種研究思路:(1)首先使用ReliefF算法計(jì)算每個(gè)通道的權(quán)值,然后設(shè)定權(quán)值閾值[13],去除權(quán)值小于閾值的通道,保留的通道即為所選通道(簡(jiǎn)稱(chēng)經(jīng)驗(yàn)選擇法);(2)首先使用ReliefF算法計(jì)算每個(gè)通道的權(quán)值,并按照權(quán)值從大到小的順序?qū)νǖ琅判颍缓髲呐判蚝蟮牡?個(gè)通道開(kāi)始不斷增加通道數(shù)目,同時(shí)使用特定分類(lèi)器計(jì)算每種通道數(shù)目下的分類(lèi)準(zhǔn)確率,最后根據(jù)分類(lèi)準(zhǔn)確率確定通道數(shù)目和所用通道[14](簡(jiǎn)稱(chēng)準(zhǔn)確率選擇法)。以上基于ReliefF的通道選擇算法均沒(méi)有考慮通道間的關(guān)聯(lián)性,所篩選出的通道往往存在大量的冗余通道。此外,在經(jīng)驗(yàn)選擇法中,閾值的選擇沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),需要依靠研究者的經(jīng)驗(yàn)確定,當(dāng)閾值變化時(shí)所選用的通道也將發(fā)生變化;在準(zhǔn)確率選擇法中,研究者需要計(jì)算每種通道下的分類(lèi)準(zhǔn)確率,通道數(shù)目越多,需要計(jì)算的次數(shù)就越多(如30通道需要計(jì)算30次),計(jì)算耗時(shí),并且通道選擇的結(jié)果依賴(lài)于所用的分類(lèi)器。
針對(duì)傳統(tǒng)基于ReliefF的通道選擇算法的不足,本文將ReliefF算法和Pearson相關(guān)系數(shù)[15]相結(jié)合,提出了一種新型的基于ReliefF-Pearson的通道選擇算法,并將其應(yīng)用于嗅覺(jué)EEG信號(hào)的通道選擇。本文所提算法考慮了通道之間的相關(guān)性,在進(jìn)行通道選擇時(shí)能夠剔除大量冗余通道保留主要通道,并且通道選擇的結(jié)果不依賴(lài)人為經(jīng)驗(yàn)和分類(lèi)器,具有較好的可操作性和推廣性。
本文共招募10名右利手健康受試者參加試驗(yàn),其中女性3名,男性7名,年齡在24~30歲,所有受試者均為在讀研究生。試驗(yàn)前,告知受試者試驗(yàn)?zāi)康摹⑦^(guò)程以及設(shè)備的無(wú)害性。該文試驗(yàn)經(jīng)天津醫(yī)科大學(xué)總醫(yī)院醫(yī)學(xué)倫理委員會(huì)批準(zhǔn),所有受試者試驗(yàn)前閱讀了試驗(yàn)說(shuō)明及注意事項(xiàng),并簽署了試驗(yàn)知情同意書(shū)。試驗(yàn)使用13種氣味作為嗅覺(jué)刺激劑:5種T&T嗅液(玫瑰味、焦糖味、腋臭味、桃子味、糞便味,濃度最高的嗅液稀釋10–2倍)和8種精油(薄荷、茶、咖啡、迷迭香、茉莉、檸檬、香草、薰衣草)。試驗(yàn)在安靜無(wú)干擾的環(huán)境下進(jìn)行,試驗(yàn)過(guò)程中要求受試者睜眼、放松、自然呼吸,并盡可能不要出現(xiàn)眨眼和肢體動(dòng)作。將32導(dǎo)(包含兩個(gè)參考電極)電極帽按照國(guó)際10-20標(biāo)準(zhǔn)配戴在受試者頭部,用塞雷布斯(Cerebus)多通道神經(jīng)信號(hào)采集系統(tǒng)(Cerebus,Blackrock Microsystems, 美國(guó))記錄EEG信號(hào),采樣頻率設(shè)置為1000 Hz。每位受試者分別經(jīng)歷13種氣味刺激,每種氣味重復(fù)測(cè)試35次。所以,對(duì)于每位受試者,試驗(yàn)共得到13×35=455個(gè)樣本,其中每個(gè)樣本包含30個(gè)通道的EEG信號(hào)(除去2個(gè)參考電極)。本試驗(yàn)的詳細(xì)過(guò)程可參見(jiàn)文獻(xiàn)[16]。
試驗(yàn)采集的EEG信號(hào)通常包含大量的冗余信息和噪聲,因此在特征提取前需要對(duì)EEG信號(hào)預(yù)處理。本文對(duì)10名受試者的EEG數(shù)據(jù)依次處理,針對(duì)每位受試者,首先將采樣頻率為1000 Hz的EEG信號(hào)降頻至128 Hz;然后利用4階巴特沃思濾波器對(duì)降頻后的EEG信號(hào)進(jìn)行4~64 Hz帶通濾波,并將其劃分為θ頻帶(4~8 Hz)、α頻帶(8~12 Hz)、β頻帶(12~30 Hz)和γ頻帶(30~64 Hz) 4個(gè)頻帶;最后,分別計(jì)算每個(gè)頻帶下30通道EEG信號(hào)的功率譜密度(Power Spectral Density, PSD),并將PSD的算術(shù)平均值作為EEG信號(hào)特征用于后續(xù)的氣味分類(lèi)。
3.2.1 ReliefF算法
Relief算法由Kira于1992年提出,主要用于解決二分類(lèi)中的特征選擇問(wèn)題,針對(duì)Relief算法無(wú)法處理多分類(lèi)的問(wèn)題,Kononenko對(duì)Relief算法進(jìn)行改進(jìn),提出了ReliefF算法[12]。ReliefF算法的核心是權(quán)值思想,即根據(jù)特征與類(lèi)別標(biāo)簽之間的相關(guān)性計(jì)算該特征的權(quán)值。該算法中特征和類(lèi)別標(biāo)簽的相關(guān)性是基于特征對(duì)近距離樣本的區(qū)分能力度量的。具體計(jì)算過(guò)程如下:對(duì)任意特征,首先從訓(xùn)練集中隨機(jī)選擇一個(gè)樣本Ri;然后從和Ri同類(lèi)(類(lèi)別標(biāo)簽相同)的樣本中選擇k個(gè)最近鄰樣本(與Ri距離最近),從與Ri不同類(lèi)(類(lèi)別標(biāo)簽不同)的樣本中選擇出k個(gè)最近鄰樣本;最后根據(jù)權(quán)值單次迭代式(1)不斷更新該特征對(duì)應(yīng)的權(quán)值,循環(huán)計(jì)算m次直至所有樣本依次計(jì)算完畢,得到單個(gè)特征的最終權(quán)值。權(quán)值單次迭代式為
k
其中,Wi(fl)為第i個(gè)樣本中第l個(gè)特征f的權(quán)值;Hj(j=1, 2, ···, k)為與Ri同類(lèi)的k個(gè)最近鄰樣本中的第j個(gè)樣本; P(C)為在訓(xùn)練樣本中屬于類(lèi)別C的樣本所占比值; P(label(Ri))為與Ri同類(lèi)的樣本占總樣本的比值,其中l(wèi)abel(Ri)為Ri的標(biāo)簽; Mj(C) (j=1,2, ···,k) 為與Ri不同類(lèi)的k個(gè)最近鄰樣本中的第j個(gè)樣本(類(lèi)別標(biāo)簽為C)。函數(shù)diff(f, R1, R2)的計(jì)算方法如式(2)所示
其中,diff(f, R1, R2)為樣本R1和R2在第f個(gè)特征上的歸一化距離,R1f和R2f分別為樣本R1和R2的第f個(gè)特征,max(f)和min(f)分別為所有樣本中對(duì)應(yīng)特征f的最大值和最小值。在本文研究中,令m為訓(xùn)練樣本的特征維數(shù)30, k取10。研究表明,當(dāng)k=10時(shí)[10],對(duì)大多數(shù)分類(lèi)任務(wù)最為可靠有效。
3.2.2 基于ReliefF-Pearson的通道選擇算法
本文所提基于ReliefF-Pearson的通道選擇算法主要分為以下3個(gè)步驟:
步驟 1 對(duì)每位受試者利用ReliefF算法計(jì)算每個(gè)通道的權(quán)值(本文每個(gè)通道對(duì)應(yīng)提取一個(gè)特征,即該通道信號(hào)PSD的算術(shù)平均值,因此用ReliefFPearson算法進(jìn)行特征選擇也就是通道選擇)。
步驟 2 將每位受試者所有通道的權(quán)值歸一化在[–1, 1],然后將所有受試者同一通道的權(quán)值相加,如式(3)所示,得到與受試者無(wú)關(guān)的每個(gè)通道的權(quán)值
其中,N為受試者人數(shù),W(ti)為受試者i的第t個(gè)通道歸一化后的通道權(quán)值。得到與受試者無(wú)關(guān)的通道權(quán)值后,對(duì)所有通道的權(quán)值由大到小進(jìn)行排序,并求取所有通道權(quán)值的平均值,將權(quán)值大于平均值的EEG通道作為初選通道。
步驟 3 依次計(jì)算初選通道中任意兩個(gè)通道之間的Pearson相關(guān)系數(shù),并根據(jù)相關(guān)強(qiáng)度(正相關(guān)值大于0.9)保留排序靠前的通道,去除排序靠后的通道。Pearson相關(guān)系數(shù)公式為
其中,ρX,Y為任意兩個(gè)通道X,Y 間的Pearson相關(guān)系數(shù),范圍為[–1, 1], E為數(shù)學(xué)期望,Xˉ是所有X的平均值,是所有Y的平均值。
本文研究的焦點(diǎn)是嗅覺(jué)EEG通道選擇方法,因此我們使用常用的k近鄰(K-Nearest Neighbor,KNN), SVM和隨機(jī)森林(Random Forest, RF)作為分類(lèi)器。該文KNN算法中的距離采用相關(guān)距離,最優(yōu)K值通過(guò)交叉驗(yàn)證法確定;SVM算法采用徑向基核函數(shù),懲罰參數(shù)c和核參數(shù)g使用網(wǎng)格搜索法獲取最優(yōu)值;RF算法采用分類(lèi)回歸樹(shù)(Classification And Regression Tree, CART)作為基分類(lèi)器,CART樹(shù)任意生長(zhǎng)不剪枝,森林大小設(shè)為100。
針對(duì)每位受試者,依次從每種(共13種)氣味35次試驗(yàn)數(shù)據(jù)中隨機(jī)選取20次試驗(yàn)數(shù)據(jù)作為訓(xùn)練樣本,剩余15次試驗(yàn)數(shù)據(jù)作為測(cè)試樣本,分別利用KNN, SVM和RF分類(lèi)器對(duì)13種氣味分類(lèi)。以上過(guò)程重復(fù)計(jì)算10次,將10次分類(lèi)結(jié)果的平均值作為該受試者的最終分類(lèi)準(zhǔn)確率。
表1提供了10名受試者氣味分類(lèi)準(zhǔn)確率的平均值和標(biāo)準(zhǔn)差。其中,全特征為θ, α, β和γ頻帶特征的融合。對(duì)比表1中不同頻帶的分類(lèi)結(jié)果,可以發(fā)現(xiàn)在3種分類(lèi)器中,γ頻帶的分類(lèi)準(zhǔn)確率均顯著高于其他頻帶。特別地,SVM分類(lèi)器中的γ頻帶分類(lèi)準(zhǔn)確率最高(92.61%)。該結(jié)果表明EEG信號(hào)的γ頻帶與氣味信息處理的大腦活動(dòng)密切相關(guān),這與已有研究結(jié)果[17]相一致。對(duì)于全特征,雖然它包含了θ, α,β和γ頻帶的所有特征,但與單獨(dú)使用γ頻帶特征相比,分類(lèi)準(zhǔn)確率并沒(méi)有得到提高。這可能是因?yàn)槿卣髦写嬖讦? α和β頻帶具有弱分類(lèi)能力的特征,這些弱分類(lèi)特征降低了分類(lèi)精度。此外,對(duì)比不同分類(lèi)器的分類(lèi)結(jié)果,可以發(fā)現(xiàn),每種分類(lèi)器的分類(lèi)性能與所用腦電信號(hào)的頻帶有關(guān):對(duì)于全特征,RF的分類(lèi)性能最好;對(duì)于θ和α頻帶特征,KNN分類(lèi)能力最好;而對(duì)于β和γ頻帶特征,SVM的分類(lèi)性能優(yōu)于KNN 和RF。其他研究者的實(shí)驗(yàn)結(jié)果也出現(xiàn)了類(lèi)似于上述分類(lèi)器的分類(lèi)性能在不同頻帶表現(xiàn)不一致的現(xiàn)象[18]。一種可能的解釋是不同頻帶特征的分布不同造成分類(lèi)器分類(lèi)性能的差異。
表1 基于全通道不同頻帶的PSD特征分類(lèi)準(zhǔn)確率(標(biāo)準(zhǔn)差)(%)
本文4.1節(jié)的研究發(fā)現(xiàn),γ頻帶的氣味分類(lèi)準(zhǔn)確率最高,因此本節(jié)使用γ頻帶的特征進(jìn)行嗅覺(jué)EEG通道選擇。為了驗(yàn)證本文所提算法的有效性,將本文算法得到通道的分類(lèi)準(zhǔn)確率和通道數(shù)目與基于ReliefF算法的兩種傳統(tǒng)通道選擇方法(經(jīng)驗(yàn)選擇法和準(zhǔn)確率選擇法)進(jìn)行對(duì)比,結(jié)果如表2所示。其中,經(jīng)驗(yàn)選擇法選取權(quán)值大于平均值的通道作為所選通道;準(zhǔn)確率選擇法將分類(lèi)準(zhǔn)確率達(dá)到最大值時(shí)所用的通道作為所選通道。
由表2可知,利用本文所提算法篩選出的6個(gè)通道最高可達(dá)到88.51%的分類(lèi)準(zhǔn)確率,而傳統(tǒng)的經(jīng)驗(yàn)選擇法和準(zhǔn)確率選擇法分別需要13個(gè)通道和8個(gè)通道方能達(dá)到最高91.15%和89.31%的分類(lèi)準(zhǔn)確率(分別僅比本文所提算法高2.64%和0.80%)。此外,準(zhǔn)確率選擇法雖然也用了較少的通道數(shù)量,但在進(jìn)行通道選擇時(shí)對(duì)分類(lèi)器依賴(lài)比較大。如圖1所示,使用不同分類(lèi)器,分類(lèi)準(zhǔn)確率達(dá)到最高時(shí)通道數(shù)量不同。此外,準(zhǔn)確率選擇法需要計(jì)算每種通道數(shù)目下的分類(lèi)準(zhǔn)確率,計(jì)算量較大。以上結(jié)果表明,本文所提的基于ReliefF-Pearson的通道選擇算法不僅能夠減少使用的通道數(shù)量,而且能夠保證較高的分類(lèi)準(zhǔn)確率。此外,本文所提算法在進(jìn)行通道選擇時(shí)不依賴(lài)研究者的經(jīng)驗(yàn)和分類(lèi)器,可操作性和實(shí)時(shí)性相對(duì)較好。
表2 基于γ頻帶的不同通道選擇算法的分類(lèi)準(zhǔn)確率(通道數(shù)目)(%)
圖1 PSD特征在不同分類(lèi)器中隨通道數(shù)增加分類(lèi)準(zhǔn)確率變化
圖2 是3種通道選擇法篩選出的通道示意圖。其中,圖2(a)是利用本文所提算法得到的6個(gè)通道;圖2(b)是利用經(jīng)驗(yàn)選擇法得到的13個(gè)通道;圖2(c)是KNN作為分類(lèi)器,利用準(zhǔn)確率選擇法得到的9個(gè)通道;圖2(d)是用SVM或RF作為分類(lèi)器,利用準(zhǔn)確率選擇法得到的8個(gè)通道。對(duì)比圖2中3種通道選擇法篩選出的通道,可以發(fā)現(xiàn),本文所提算法保留了經(jīng)驗(yàn)選擇法和準(zhǔn)確率選擇法選擇出的重要通道(FP1, FCZ, CZ, C4, TP8),并剔除了其中的大量冗余通道(FP2, FZ, T4, CP3, CPZ, CP4, P3)。此外,本文所選通道主要位于額葉、頂葉和顳葉位置,這與神經(jīng)生理學(xué)研究中的嗅覺(jué)相關(guān)腦區(qū)相一致。此結(jié)果進(jìn)一步證明了本文通道選擇算法的科學(xué)性和有效性。
圖2 通道選擇結(jié)果
本文提出了一種新型的基于ReliefF-Pearson的通道選擇算法,并將其應(yīng)用于嗅覺(jué)EEG通道的選擇。首先,通過(guò)試驗(yàn)采集由13種氣味誘發(fā)的多通道EEG數(shù)據(jù);隨后,計(jì)算每通道信號(hào)的PSD,并將其算術(shù)平均值作為特征;接著,基于每通道提取的特征,利用本文所提算法對(duì)嗅覺(jué)EEG通道進(jìn)行選擇;最后,基于所篩選出的通道對(duì)13種氣味進(jìn)行識(shí)別。實(shí)驗(yàn)結(jié)果表明,本文所提算法能夠在保證較高分類(lèi)準(zhǔn)確率(88.51%)的同時(shí)使用較少的通道(6通道)。與傳統(tǒng)基于ReliefF的通道選擇方法相比,本文算法考慮了通道之間的相關(guān)性,在通道選擇時(shí)可剔除大量冗余通道,并且通道選擇的結(jié)果獨(dú)立于研究者的經(jīng)驗(yàn)和分類(lèi)器。
目前,本文所提算法僅針對(duì)傳統(tǒng)基于ReliefF的通道選擇算法的不足而提出的。雖然與傳統(tǒng)基于ReliefF的通道選擇算法相比,本文所提算法可以剔除大量冗余通道,實(shí)現(xiàn)較為快速的通道選擇,但篩選出的通道仍可能存在冗余。在未來(lái)的工作中,將對(duì)本文所提算法進(jìn)行改進(jìn),研究如何在保證分類(lèi)精度和算法實(shí)時(shí)性的情況下選擇出最少通道,為基于EEG信號(hào)的氣味識(shí)別走向?qū)嶋H應(yīng)用提供參考。