張 茜, 耿曉中, 岳夢(mèng)哲, 汪林恩, 戶唯新
(1.吉林化工學(xué)院信息與控制工程學(xué)院, 吉林 吉林 132022;2.長(zhǎng)春工程學(xué)院計(jì)算機(jī)技術(shù)與工程學(xué)院, 吉林 長(zhǎng)春 130012)
腦機(jī)接口(Brain-Computer Interface,BCI)是一種將大腦與外部驅(qū)動(dòng)設(shè)備直接通信的創(chuàng)新技術(shù)[1-2]。在BCI系統(tǒng)中,常見(jiàn)特征提取方法有獨(dú)立分量分析、自回歸模型、經(jīng)驗(yàn)?zāi)B(tài)分解、功率譜密度及共空間模式[3]。常用分類方法包括線性判別分析、Adaboost、神經(jīng)網(wǎng)絡(luò)及支持向量機(jī)[3]。
目前,學(xué)者們提出了很多有用的識(shí)別方法改善腦機(jī)接口的分類精度,例如馬麗英等[4]提出基于局部均值分解(LMD)、共空間模式(CSP)及隨機(jī)森林的EEG分類方法,通過(guò)LMD算法將EEG分解成N個(gè)乘積函數(shù)(PF)分量,最佳頻段的PF分量會(huì)被CSP進(jìn)行特征選擇,最后輸入隨機(jī)森林中進(jìn)行分類,該方法側(cè)重提取差異性明顯的特征而忽視了其他有效特征。馮建奎[5]提出一種基于共空間模式算法(Common Spatial Patterns,CSP)和梯度提升決策樹(shù)(Gradient Boosting Decision Tree,GBDT)的運(yùn)動(dòng)想象腦電模式識(shí)別方法,首先利用CSP獲取EEG特征,其次通過(guò)Lasso算法選擇明顯的特征向量,最后利用梯度提升決策樹(shù)進(jìn)行識(shí)別分類,但該方法的分類準(zhǔn)確率不高。李麗君[6]提出基于運(yùn)動(dòng)想象的EEG特征提取及分類算法,首先利用CSP對(duì)腦電信號(hào)進(jìn)行特征提取,其次將提取的特征輸入決策樹(shù)支持向量機(jī)中分類。劉寶等[7]提出基于PSO-CSP-SVM的EEG特征提取及分類方法,首先通過(guò)粒子群優(yōu)化算法獲取EEG最佳時(shí)頻段,其次使用一對(duì)多CSP進(jìn)行特征提取,最后利用支持向量機(jī)對(duì)提取的特征進(jìn)行分類,但該方法得到的分類準(zhǔn)確率穩(wěn)定性不高。綜上所述,為解決上文分類準(zhǔn)確率不高等問(wèn)題,本文提出一種基于CSP與決策樹(shù)支持向量機(jī)法相融合的腦電信號(hào)分類方法,該方法能夠有效地提高腦電信號(hào)的分類準(zhǔn)確率。
共空間模式算法(Common Spatial Patterns,CSP)是用于腦電信號(hào)分類和特征提取的常用技術(shù),多被應(yīng)用于腦機(jī)接口系統(tǒng)中[8-9]。CSP算法旨在通過(guò)選擇投影矩陣,將腦電信號(hào)投影到一個(gè)新的空間,使得在新空間中不同類別的腦電信號(hào)的方差差異最大化,從而增強(qiáng)不同類別腦電信號(hào)的可分性,具體步驟如下。
(1)設(shè)每次實(shí)驗(yàn)運(yùn)動(dòng)想象數(shù)據(jù)為Ej,對(duì)左手和右手兩類運(yùn)動(dòng)想象數(shù)據(jù)分別計(jì)算對(duì)應(yīng)的協(xié)方差矩陣,分別用CK和CL表示,可得到標(biāo)準(zhǔn)的混合空間協(xié)方差:
(1)
C=CK+CL
(2)
(2)根據(jù)奇異值知識(shí)C可以表示如下:
C=AλA′
(3)
其中:矩陣A代表總協(xié)方差的特征向量,它表示數(shù)據(jù)特征的主要方向;而矩陣λ是一個(gè)對(duì)角矩陣,其中包含非零特征值,這些特征值按照遞減的順序排列在對(duì)角線上,反映了特征的重要性;在此基礎(chǔ)上,引入白化矩陣P:
(4)
(3)協(xié)方差矩陣可變換如下:
SK=PCKP′
(5)
SL=PCLP′
(6)
(4)因?yàn)镾K和SL有公共特征向量,設(shè):
(7)
其中:I為單位矩陣;D為特征向量,可以表示為D=[D1,D2,…,DN]。
(5)求出投影矩陣W,原始腦電信號(hào)經(jīng)過(guò)空域?yàn)V波器的投影獲取新的矩陣及特征向量:
(8)
其中:j=1,…,2n;Zj表示投影后得到的新矩陣;fj表示特征向量。
支持向量機(jī)(Support Vector Machine,SVM)是一種基于監(jiān)督學(xué)習(xí)的二分類模型,該模型在具有復(fù)雜決策邊界的數(shù)據(jù)集上的表現(xiàn)非常出色[10]。SVM的核心思想是找到一個(gè)最優(yōu)的超平面,可以有效地分開(kāi)不同類別的數(shù)據(jù)點(diǎn),同時(shí)最大化邊界(即兩個(gè)類別之間的最小距離)。zi∈{-1,1}表示分類標(biāo)簽,判別函數(shù)表示如下:
zi[(v·xi)+y]-1≥0,i=1,2,…,n
(9)
最優(yōu)問(wèn)題采用Lagrange乘子方法求解,則最佳決策函數(shù)如下:
(10)
其中:N為支持向量的個(gè)數(shù),αi為L(zhǎng)agrange乘子。
將松弛項(xiàng)ξi≥0添加到公式(10)中,則可變形如下:
zi(v·xi+y)-1-ξi≤0,i=1,…,n
(11)
利用二次規(guī)劃使目標(biāo)函數(shù)最小化,即
(12)
公式(12)中的C表示懲罰因子,將最小化后的目標(biāo)函數(shù)通過(guò)非線性知識(shí)轉(zhuǎn)換為求線性問(wèn)題,從而求得最優(yōu)分類面,最優(yōu)分類界面函數(shù)表達(dá)如下:
(13)
公式(13)中,K(xi,x)為內(nèi)核函數(shù),內(nèi)核函數(shù)必須滿足Mercer定理的要求。支持向量機(jī)選擇的內(nèi)核函數(shù)不同,會(huì)導(dǎo)致得到的分類效果不同。多項(xiàng)式核函數(shù)、徑向基核函數(shù)以及線性核函數(shù)常常被當(dāng)作支持向量機(jī)的內(nèi)核函數(shù),徑向基核函數(shù)如下:
K(xi,x)=exp(-η‖xi-x‖2)
(14)
核函數(shù)η及懲罰因子C是干擾支持向量機(jī)分類性能的兩個(gè)關(guān)鍵參數(shù)。
決策樹(shù)法(Decision Tree)是一種常見(jiàn)的機(jī)器學(xué)習(xí)算法,主要用于分類和回歸任務(wù),它是一種基于樹(shù)狀結(jié)構(gòu)的模型,通過(guò)對(duì)數(shù)據(jù)的特征進(jìn)行逐步劃分,最終生成一個(gè)可以用于決策的樹(shù)形結(jié)構(gòu)[11]。決策樹(shù)的基本思想是從根節(jié)點(diǎn)開(kāi)始,通過(guò)一系列的分支節(jié)點(diǎn)對(duì)數(shù)據(jù)進(jìn)行分類或預(yù)測(cè)。一個(gè)分支節(jié)點(diǎn)對(duì)應(yīng)一個(gè)特征,分支的不同路徑代表該特征的不同取值,而每一個(gè)葉節(jié)點(diǎn)則代表一個(gè)分類標(biāo)簽或回歸值。在構(gòu)建決策樹(shù)的過(guò)程中,算法會(huì)根據(jù)相應(yīng)準(zhǔn)則選擇最佳的特征和分割點(diǎn),使得數(shù)據(jù)在每個(gè)分支中盡可能地純凈(即同類別的樣本盡量聚集在一起)。信息增益(ID3)是決策樹(shù)用于衡量特征貢獻(xiàn)程度的算法。設(shè)一個(gè)集合為D,則第i類樣本占該集合的比例為pi(i=1,2,…,n),信息熵E(D)表示如下:
(15)
假設(shè)m是離散屬性b的結(jié)果,通過(guò)屬性b切分后,集合形成m個(gè)節(jié)點(diǎn),第m個(gè)節(jié)點(diǎn)標(biāo)記為Dm,則屬性m劃分集合D得到的信息增益G(D,b)如下:
(16)
其中,G(D,b)越大,代表劃分屬性的效果越好。
基于決策樹(shù)的SVM多類分類方法被認(rèn)為是目前解決多類識(shí)別問(wèn)題的最優(yōu)方法。支持向量機(jī)算法實(shí)際上是基于多個(gè)決策樹(shù)分類器的集成。在每個(gè)決策樹(shù)給出其分類結(jié)果后,采用簡(jiǎn)單投票法決定最終的輸出結(jié)果??蓪?duì)四類問(wèn)題(左手、右手、舌頭和腳)進(jìn)行分類,決策樹(shù)支持向量機(jī)算法結(jié)構(gòu)如圖1所示。
圖1 決策樹(shù)支持向量機(jī)算法結(jié)構(gòu)Fig.1 Algorithm structure of DTSVM
算法流程如下:①首先,對(duì)原始的訓(xùn)練特征集D執(zhí)行有放回的隨機(jī)選取,得到子數(shù)據(jù)集,標(biāo)記為b;②考慮到子數(shù)據(jù)集b含m個(gè)特性,每當(dāng)決策樹(shù)的節(jié)點(diǎn)需要?jiǎng)澐謺r(shí),就從這些特性中隨機(jī)選擇m個(gè)作為可能要?jiǎng)澐值膶傩?③從所選的m個(gè)屬性中,計(jì)算每一個(gè)屬性的信息增益,并選擇增益最高的屬性進(jìn)行劃分;④繼續(xù)按以上方法劃分每個(gè)節(jié)點(diǎn),直到?jīng)Q策樹(shù)能夠正確分類訓(xùn)練數(shù)據(jù)集D中的樣本,或者所有的屬性已經(jīng)被使用;⑤反復(fù)執(zhí)行以上流程,構(gòu)建一系列的決策樹(shù),最終組合成支持向量機(jī)模型。
實(shí)驗(yàn)采用的數(shù)據(jù)來(lái)自BCI Competition Ⅲ中的Datasets Ⅲa數(shù)據(jù)集。實(shí)驗(yàn)步驟如下:被測(cè)試人員坐在椅子上且保持安靜和放松狀態(tài),t=2 s時(shí),會(huì)給出一個(gè)警示鈴聲,并且電腦大屏上會(huì)顯現(xiàn)一個(gè)符號(hào)“+”,表示實(shí)驗(yàn)開(kāi)始,t=3 s時(shí),大屏上會(huì)隨機(jī)顯現(xiàn)向左、向右、向上或向下的箭頭,被測(cè)試者按照箭頭指示的方向依次進(jìn)行運(yùn)動(dòng)想象(左手、右手、舌頭或腳),直到t=7 s時(shí),“+”符號(hào)在大屏上消失。本次實(shí)驗(yàn)共安排了3名被測(cè)試者,共進(jìn)行240次實(shí)驗(yàn)。實(shí)驗(yàn)采集導(dǎo)聯(lián)為60個(gè)電極,250 Hz采樣,電極位置如圖2所示。
圖2 電極位置Fig.2 Position of electrodes
本文實(shí)驗(yàn)在Windows 11.0系統(tǒng)的MATLAB 2021a軟件平臺(tái)上進(jìn)行,利用EEGLAB軟件工具包對(duì)已有競(jìng)賽數(shù)據(jù)集進(jìn)行腦電信號(hào)的分析。
圖3為原測(cè)試運(yùn)動(dòng)想象信號(hào)(截取6~10.5 ms時(shí)間段的信號(hào))。
圖3 原測(cè)試運(yùn)動(dòng)想象信號(hào)Fig.3 Original test signal
通過(guò)CSP特征提取方法處理腦電信號(hào)數(shù)據(jù),并將數(shù)據(jù)在二維空間中進(jìn)行可視化以展示不同類別(左手和右手)之間的差異。橫坐標(biāo)和縱坐標(biāo)分別表示CSP特征空間中的兩個(gè)維度,原始腦電測(cè)試信號(hào)被CSP特征提取后轉(zhuǎn)變?yōu)槎S特征問(wèn)題,CSP特征提取圖如圖4所示。
圖4 CSP特征提取圖Fig.4 CSP feature extraction diagram
線性判別分析法(LDA)和自適應(yīng)增強(qiáng)分類法(Adaboost)是腦電信號(hào)分類常用的方法[12]。線性判別分析是一種基于監(jiān)督學(xué)習(xí)的降維方法,核心思想是分類間隔最大化,也就是將數(shù)據(jù)通過(guò)投影映射到低維樣本上,相同的類樣本靠近,不同的則遠(yuǎn)離。Adaboost算法屬于集成算法的一種,弱弱則強(qiáng)是其主要思想。
在本實(shí)驗(yàn)中,從240次實(shí)驗(yàn)中的每一類(左手、右手、舌頭和腳)中共選取90次作為測(cè)試樣本,剩余的150次實(shí)驗(yàn)作為訓(xùn)練樣本。決策樹(shù)的數(shù)量對(duì)支持向量機(jī)的分類結(jié)果有影響,為了提高腦電信號(hào)的分類準(zhǔn)確率,查看不同數(shù)目決策樹(shù)下的分類準(zhǔn)確率,決策樹(shù)與分類準(zhǔn)確率關(guān)系圖如圖5所示。
圖5 決策樹(shù)與分類準(zhǔn)確率關(guān)系圖Fig.5 Relationship diagram between decision tree and classification accuracy
從圖5中能夠看出,當(dāng)決策樹(shù)數(shù)量為50棵及更多時(shí),EEG的分類準(zhǔn)確率可以達(dá)到最優(yōu),由于腦電信號(hào)處理過(guò)程還受到算法運(yùn)算耗時(shí)等因素的影響,所以最終選用決策樹(shù)為50棵,后續(xù)實(shí)驗(yàn)也都采用這個(gè)結(jié)果。
在預(yù)處理及特征提取條件不變的情況下,同時(shí)對(duì)測(cè)試樣本進(jìn)行LDA、Adaboost及DTSVM分類法分類。分類準(zhǔn)確率的計(jì)算如下:
Accuracy=分類正確的實(shí)驗(yàn)次數(shù)/總實(shí)驗(yàn)次數(shù)
(17)
對(duì)被測(cè)試者K3b、K6b、L1b分別進(jìn)行DTSVM與LDA、Adaboost的分類,其分類準(zhǔn)確率結(jié)果如表1所示。
表1 不同分類方法的分類準(zhǔn)確率結(jié)果
通過(guò)對(duì)本文方法與LDA及Adaboost分類法進(jìn)行對(duì)比,從三種分類法的分類精度結(jié)果能夠看出,基于決策樹(shù)支持向量機(jī)法優(yōu)于線性判別分析法和自適應(yīng)增強(qiáng)分類法,并且其準(zhǔn)確率最高時(shí)可達(dá)到90%以上。
針對(duì)腦電信號(hào)采集易受干擾導(dǎo)致EEG分類準(zhǔn)確率不高的問(wèn)題,提出一種基于CSP與DTSVM的運(yùn)動(dòng)想象腦電信號(hào)分類方法。首先利用CSP算法對(duì)運(yùn)動(dòng)想象的EEG特征值進(jìn)行特征提取,其次利用決策樹(shù)支持向量機(jī)法對(duì)四類運(yùn)動(dòng)想象(左手、右手、舌頭和腳)特征值進(jìn)行分類。實(shí)驗(yàn)結(jié)果表明:CSP與決策樹(shù)支持向量機(jī)法融合后的分類準(zhǔn)確率最高可達(dá)92.52%,結(jié)果優(yōu)于傳統(tǒng)單一分類算法,為更進(jìn)一步研究腦電信號(hào)處理算法的多種融合提供了可能。