譚學(xué)敏,郭 超
1.成都信息工程大學(xué) 控制工程學(xué)院,成都610225
2.國(guó)網(wǎng)成都供電公司,成都610041
腦機(jī)接口(Brain Computer Interface,BCI)是一種能讓大腦和計(jì)算機(jī)或其他通訊設(shè)備之間進(jìn)行通訊的系統(tǒng)。1973年,Vidal[1]第一次提出了BCI這項(xiàng)技術(shù),是為了幫助有著嚴(yán)重運(yùn)動(dòng)障礙的患者能夠控制外部設(shè)備,實(shí)現(xiàn)與外部世界的交互。在BCI系統(tǒng)中獲得未標(biāo)記樣本是比較容易的,但是收集標(biāo)記樣本卻比較困難,因?yàn)闃?biāo)記樣本是耗時(shí)且昂貴的[2-3]。因此,在BCI競(jìng)賽III中,其中一個(gè)任務(wù)就是需要減少訓(xùn)練進(jìn)程。而且腦電信號(hào)的狀態(tài)也會(huì)隨著時(shí)間發(fā)生變化,使得分類難度進(jìn)一步升高。在本文中,使用了半監(jiān)督學(xué)習(xí)來解決運(yùn)動(dòng)想象腦電數(shù)據(jù)的分類問題。與監(jiān)督學(xué)習(xí)相比,半監(jiān)督學(xué)習(xí)只需要利用少量標(biāo)記樣本和大量未標(biāo)記樣本來訓(xùn)練分類器并提高分類器的性能,這樣很大程度上減少了標(biāo)記樣本所需要的時(shí)間和費(fèi)用。而且半監(jiān)督學(xué)習(xí)本身是一個(gè)自適應(yīng)的過程,有助于促進(jìn)BCI自適應(yīng)性的增強(qiáng)。近些年,半監(jiān)督學(xué)習(xí)逐漸成為了機(jī)器學(xué)習(xí)和模式識(shí)別領(lǐng)域重要的研究方向,并吸引著越來越多的學(xué)者研究和分析。目前主要的半監(jiān)督方法包括自訓(xùn)練算法[4]、協(xié)同訓(xùn)練算法[5]、生成式模型算法[6]和直推式支持向量機(jī)[7]等。
Deng等[8]提出半監(jiān)督學(xué)習(xí)的其中一個(gè)必要條件是從訓(xùn)練數(shù)據(jù)中提取出的特征需要有足夠的魯棒性。當(dāng)前,共空間模式(Common Spatial Pattern,CSP)和濾波帶寬共空間模式(Filter Bank Common Spatial Pattern,F(xiàn)BCSP)這兩種算法被廣泛應(yīng)用在BCI的特征提取中,尤其是CSP算法應(yīng)用最多。
Yuan等[9]證明了CSP特征具有足夠的魯棒性,是一種比較先進(jìn)的特征提取算法。這一算法的成功主要?dú)w功于事件相關(guān)同步/事件相關(guān)去同步(ERD/ERS)的神經(jīng)生理現(xiàn)象。雖然CSP和FBCSP算法在提取腦電信號(hào)方面已經(jīng)獲得很好的效果,但是只是經(jīng)驗(yàn)性地選取有用的數(shù)據(jù)段,沒有充分考慮腦電信號(hào)中所有有用的數(shù)據(jù)段。如果不適當(dāng)?shù)剡x擇數(shù)據(jù)段,那么很有可能遺漏有用的信息或加入不適當(dāng)?shù)男畔?,?dǎo)致分類性能的下降。因此,在本文中,提出了一種先進(jìn)的特征提取方法——分段重疊共空間模式(Segmented Overlapping Common Spatial Pattern,SOCSP),能夠獲得比CSP和FBCSP魯棒性更好的特征。
在半監(jiān)督學(xué)習(xí)的迭代過程中,分類器性能提高的兩個(gè)阻礙原因是:(1)標(biāo)記樣本過少導(dǎo)致訓(xùn)練不出可靠的初始模型;(2)誤標(biāo)記用來更新初始模型的未標(biāo)記樣本。因此,如何從未標(biāo)記樣本中找出置信度高的樣本是個(gè)需要解決的問題。Cuan等[10]提出了一種基于圖與瑞利系數(shù)最大化的半監(jiān)督算法,但此算法初始模型的準(zhǔn)確性不夠,隨著迭代的增加,初始模型不僅得不到優(yōu)化,反而將預(yù)測(cè)錯(cuò)誤向后傳播。Li等[11]在P-300的腦機(jī)接口系統(tǒng)中使用了一種基于SVM的半監(jiān)督算法,并且獲得了比較滿意的結(jié)果。此算法雖然保證了初始模型的準(zhǔn)確性,卻沒有考慮每次迭代未標(biāo)記樣本的置信度問題,增加了誤標(biāo)記未標(biāo)記樣本的概率,可能導(dǎo)致分類器性能的下降。為了解決這個(gè)問題,提出一種新的置信度評(píng)估準(zhǔn)則,從未標(biāo)記樣本中找到置信度高的樣本,提高分類器性能。
眾所周知,F(xiàn)isher線性判別分析(Fisher Linear Discriminant Analysis,F(xiàn)LDA)和支持向量機(jī)(Support Vector Machine,SVM)是常見的分類器。在本文中,選擇FLDA作為分類器,因?yàn)樵谙嗤闆r下FLDA能夠獲得與SVM相差不多的分類率,而且不需要像SVM一樣提前設(shè)定參數(shù)[12]。
因此,本文提出了一種基于SOCSP特征提取的自訓(xùn)練算法ST-SOCSP(Self-Training base Segmented Overlapping Common Spatial Pattern,ST-SOCSP),使用SOCSP作為特征提取方法,F(xiàn)LDA作為分類器,使用新的置信度準(zhǔn)則從未標(biāo)記的樣本中選擇信息量大的樣本添加到標(biāo)記樣本中重新訓(xùn)練分類器,將ST-SOCSP應(yīng)用到BCI競(jìng)賽的數(shù)據(jù)集Iva中驗(yàn)證算法的有效性,結(jié)果表明了提出的算法能有效提高運(yùn)動(dòng)想象腦電的分類率。本文創(chuàng)新之處在于提出了先進(jìn)的SOCSP特征提取算法與半監(jiān)督算法結(jié)合和新的置信度準(zhǔn)則避免未標(biāo)記樣本的錯(cuò)分。
為獲取最佳投影方向,使得兩類信號(hào)的區(qū)別最大,共空間模式(CSP)設(shè)計(jì)了最優(yōu)的空間濾波器。原理介紹如下:
其中,tr(·)為矩陣對(duì)角元素之和,兩類的平均協(xié)方差矩陣之和為:R=R1+R2,對(duì)R進(jìn)行特征值分解:R=UλUT,其中U和λ分別代表特征向量矩陣和對(duì)角矩陣。利用U構(gòu)造白化矩陣P后,R1和R2變換如下:
對(duì)S1和S2進(jìn)行特征值分解,且S1和S2對(duì)應(yīng)的特征值之和為1。
B表示S1和S2共有特征向量,而Λ1和Λ2分別代表S1和S2的特征值對(duì)應(yīng)的對(duì)角矩陣。矩陣S1的特征值在最大方向上時(shí),矩陣S2對(duì)應(yīng)的特征值最小,反之亦然,這時(shí)兩類信號(hào)的區(qū)別最大。投影矩陣W=BTP,通過投影,原始信號(hào)轉(zhuǎn)換成新的信號(hào)Z=WX。
實(shí)際應(yīng)用中,W的前m和后m行構(gòu)成最佳濾波器矩陣。對(duì)產(chǎn)生新信號(hào)做對(duì)數(shù)規(guī)范化處理后,可以得到特征:
實(shí)際應(yīng)用中,線性判別式分析(Linear Discriminant Analysis,LDA)作為一種常用的模式識(shí)別方法,需要根據(jù)實(shí)際情況尋找判別準(zhǔn)則函數(shù),使得在這個(gè)函數(shù)投影下的樣本在新空間中的類間離散度最大而類內(nèi)離散度最小[13-14]。線性判別函數(shù)的一般表達(dá)式如下:
x表示某個(gè)樣本特征向量,W為權(quán)向量,w0表示閾值權(quán)。根據(jù)函數(shù)y(x)的判別分?jǐn)?shù),兩類問題的決策規(guī)則如下:
y(x)=0定義了超平面,也叫決策面,超平面把屬于w1和w2的點(diǎn)分隔開,目的是為了找到最佳權(quán)向量W和閾值權(quán)w0。
Fisher準(zhǔn)則的最終目標(biāo)是將樣本投影到一維空間后,使得類內(nèi)離散度Sw減小,而類間離散度Sb增大,F(xiàn)isher判別準(zhǔn)則定義如下:
為了使分子最大化和分母最小化,需要求解向量W來使J(W)最大化。使用拉格朗日求解法求解上式,可得出:
根據(jù)投影方向向量W,將原空間向量投影到一維空間,w0一般利用先驗(yàn)知識(shí)求解,在這里w0=-WTm。
目前,有很多與BCI相關(guān)的文獻(xiàn)均引入了CSP和FBCSP算法,尤其是CSP算法。雖然CSP和FBCSP算法在提取腦電信號(hào)方面已經(jīng)獲得很好的效果,但是它們都只是經(jīng)驗(yàn)性地選取有用的數(shù)據(jù)段,沒有充分考慮腦電信號(hào)中所有有用的數(shù)據(jù)段。如果不適當(dāng)?shù)剡x擇數(shù)據(jù)段,那么很有可能遺漏有用的信息或加入不適當(dāng)?shù)男畔ⅲ瑢?dǎo)致分類性能的下降。為解決這個(gè)問題,本文提出一種新的特征提取方法——分段重疊選擇共空間模式(SOCSP)。在描述SOCSP算法之前,先介紹下Davis-Bouldin指標(biāo)(Davis-Bouldin Index,DBI)的概念。
DBI[15]目標(biāo)是從眾多特征中挑選出相似度最小的特征。通過計(jì)算類內(nèi)離散度(Wi和Wj)和類間離散度(Iij),可以衡量?jī)深愋盘?hào)的相似度。
xj和Ni分別表示第j個(gè)樣本的特征和聚類i包含的樣本數(shù)。ai=[a1i,a2i,…,ani]是聚類i的中心,n為樣本維度。各個(gè)特征對(duì)應(yīng)DBI的值為:
C表示聚類的類別數(shù),DBI值越小,聚類相似度越低,兩類分類效果越好。將所有特征對(duì)應(yīng)的DBI值按升序排列,最好的特征擁有最小的DBI值。
介紹完DBI概念后,提出了SOCSP算法,它能克服了CSP和FBCSP算法可能數(shù)據(jù)段選擇不當(dāng)導(dǎo)致分類率性能降低的缺點(diǎn)。SOCSP算法步驟描述如下:
(1)由于腦電信號(hào)的非平穩(wěn)性,將腦電信號(hào)時(shí)間長(zhǎng)度劃分為n個(gè)有重疊窗口的時(shí)間段。
(2)原始腦電信號(hào)經(jīng)過8~30 Hz的數(shù)字帶通濾波。
(3)為減少偽跡和噪聲,利用共同平均參考法(Common Average Reference,CAR)[16]對(duì)經(jīng)過濾波的腦電信號(hào)進(jìn)行預(yù)處理。
(4)使用CSP分別提取n個(gè)時(shí)間段腦電信號(hào)的特征。CSP轉(zhuǎn)換之后,使用投影矩陣W(見公式(8))的前兩行和后兩行提取規(guī)范化的特征,這樣各個(gè)時(shí)間段的腦電信號(hào)被提取了4個(gè)特征,那么n個(gè)時(shí)間段提取4n個(gè)特征。
風(fēng)俗畫作品不論是在中國(guó)還是西方,都在展現(xiàn)其審美價(jià)值的同時(shí)提供著超出審美意義本身的豐富的藝術(shù)價(jià)值。而對(duì)于中、西方風(fēng)俗畫作品來講,在某種意義上,他們也都具有提供特定社會(huì)階層生活細(xì)節(jié)的價(jià)值。
(5)計(jì)算4n個(gè)特征對(duì)應(yīng)的DBI值,選擇m個(gè)最小DBI值所對(duì)應(yīng)的特征。
為了更清晰地了解SOCSP算法,流程圖如圖1。
圖1 SOCSP算法流程圖
在半監(jiān)督學(xué)習(xí)的迭代過程中,兩個(gè)阻礙分類器性能提高的原因是:(1)標(biāo)記樣本過少導(dǎo)致訓(xùn)練不出可靠的初始模型;(2)誤標(biāo)記用來更新初始模型的未標(biāo)記樣本。因此,如何從未標(biāo)記樣本中找出置信度高的樣本是個(gè)需要解決的問題。提出了置信度評(píng)估準(zhǔn)則來找到這些樣本。
從公式(5)中可以看出,經(jīng)過FLDA分類器的訓(xùn)練,所有樣本都預(yù)測(cè)得到相應(yīng)的判別分?jǐn)?shù)。在本文的半監(jiān)督學(xué)習(xí)中,置信度高的未標(biāo)記樣本才能夠用來擴(kuò)展訓(xùn)練集。使用初始訓(xùn)練樣本訓(xùn)練FLDA分類器,得到標(biāo)記樣本(DI)和未標(biāo)記樣本(DF)的判別分?jǐn)?shù)。根據(jù)FLDA的原理,推斷得出與某類中心(mean1或mean2)有最小距離的同類預(yù)測(cè)未標(biāo)記樣本有更高的置信度。在這里:
其中mean1和mean2分別被稱為類中心1和類中心2,表示訓(xùn)練集DI中類別1和類別2的類中心。DI1和DI2分別表示訓(xùn)練集DI中屬于類別1和類別2的訓(xùn)練集。明顯地,DI=DI1?DI2。
通過分析DI和DF得到的FLDA判別分?jǐn)?shù),從DF中挑選置信度高的樣本。置信度評(píng)估準(zhǔn)則說明如下:
PF1和PF2分別表示預(yù)測(cè)結(jié)果屬于類別1和類別2的未標(biāo)記數(shù)量集,明顯地,DF=PF1∪PF2,預(yù)測(cè)結(jié)果為類別1的未標(biāo)記樣本的判別分?jǐn)?shù)f(xi)與訓(xùn)練樣本中的類中心1的距離d1(xi),表示預(yù)測(cè)為類別1的各個(gè)未標(biāo)記樣本的置信度,d2(xi)則表示預(yù)測(cè)為類別2的各個(gè)未標(biāo)記樣本的置信度。newd1(xi)和newd2(xi)分別表示d1(xi)和d2(xi)的升序結(jié)果,結(jié)果越小,置信度越高。
初始化:用SOCSP特征提取算法提取初始訓(xùn)練集DI和DF中所有樣本的特征。使用DI中樣本的特征和其對(duì)應(yīng)的標(biāo)簽訓(xùn)練FLDA分類器,并預(yù)測(cè)DF中所有樣本的判別分?jǐn)?shù),得出樣本類別,標(biāo)記為[yk(1),yk(2),…,yk(N2)]。k代表第k次迭代,這里k=1。
迭代步驟:步驟1到4描述了第k次迭代的過程(k=2,3,…,K0)。
步驟1(更新訓(xùn)練集)根據(jù)置信度評(píng)估準(zhǔn)則,當(dāng)?shù)趉-1次迭代時(shí),從擴(kuò)展訓(xùn)練集DF中挑選置信度高樣本,記作Qk,并預(yù)測(cè)標(biāo)簽。因此,第k次迭代中,初始訓(xùn)練集DI(已標(biāo)記)和Qk(預(yù)測(cè)標(biāo)簽)構(gòu)成了新的訓(xùn)練集
步驟2(重新提取特征)利用SOCSP重新訓(xùn)練再重新提取初始訓(xùn)練集DI和DF中所有樣本的特征。
步驟3(分類)根據(jù)新的訓(xùn)練集中提取出的所有樣本的特征和其對(duì)應(yīng)的標(biāo)簽,訓(xùn)練FLDA分類器,在DF上預(yù)測(cè)得出的判別分?jǐn)?shù)記作fk(x)(x∈DF),其對(duì)應(yīng)的類別記作[yk(1),yk(2),…,yk(N2)]。
步驟4(停止條件)當(dāng)k=K0時(shí),算法在第K0次迭代后終止,其中K0是迭代的次數(shù)。[yk(1),yk(2),…,yk(N2)]是擴(kuò)展訓(xùn)練DF最終預(yù)測(cè)類別。否則跳回步驟1執(zhí)行第k+1次迭代。
本文中,從預(yù)測(cè)為正類的未標(biāo)記樣本和預(yù)測(cè)為負(fù)類的未標(biāo)記樣本中分別挑選80%置信度高的樣本添加到標(biāo)記樣本中。
為了清晰地表示出提出的ST-SOCSP算法的過程,見流程圖2。
本文使用2005 BCI競(jìng)賽的數(shù)據(jù)集Iva[17],分析了想象右手運(yùn)動(dòng)和想象右腳運(yùn)動(dòng)兩類過程中,5個(gè)受試者的腦電數(shù)據(jù)。這次競(jìng)賽提供了5個(gè)受試者想象右手和右腳運(yùn)動(dòng)的數(shù)據(jù),總共包括280個(gè)樣本。所有算法在配置為2.9 GHz 8 GB電腦的2016 MATLAB上執(zhí)行。
在本文中,各個(gè)受試者前200個(gè)樣本作為訓(xùn)練集T,剩余80個(gè)樣本作為獨(dú)立測(cè)試集TS。訓(xùn)練集T由已標(biāo)記的初始訓(xùn)練集DI和未標(biāo)記的擴(kuò)展訓(xùn)練集DF組成,T=DI?DF。在訓(xùn)練集T上執(zhí)行ST-SOCSP,其中隨機(jī)選擇20(40,60,100)個(gè)樣本用作初始訓(xùn)練集DI,剩余180個(gè)(160,140,100)樣本用作擴(kuò)展訓(xùn)練集DF。然后將這200個(gè)訓(xùn)練樣本隨機(jī)排序,使ST-SOCSP總共進(jìn)行30次訓(xùn)練,獨(dú)立訓(xùn)練集TS用來測(cè)試分類器的性能。
圖2 基于分段重疊選擇共空間模式的自訓(xùn)練算法(ST-SOCSP)
對(duì)每個(gè)樣本數(shù)據(jù),根據(jù)國(guó)際10-20導(dǎo)聯(lián)系統(tǒng)的電極分布,選擇22通道(對(duì)應(yīng)想象運(yùn)動(dòng)區(qū)域,見圖3)的數(shù)據(jù)并分析每通道3.5 s運(yùn)動(dòng)想象數(shù)據(jù),然后使用SOCSP算法提取樣本特征。其中,將3.5 s運(yùn)動(dòng)想象數(shù)據(jù)劃分1 s的時(shí)間窗口,0.5 s的窗口重疊,導(dǎo)致有6個(gè)時(shí)間窗口數(shù)據(jù),24個(gè)CSP特征(每個(gè)時(shí)間窗口提取了4個(gè)CSP特征),然后使用DBI選擇6個(gè)對(duì)應(yīng)最小DBI值的特征。這里之所以選擇6個(gè)特征,是因?yàn)橹髸?huì)對(duì)CSP和SOCSP結(jié)合半監(jiān)督進(jìn)行比較,而對(duì)CSP算法來說,提取超過6個(gè)以上的特征不能夠有意義地提高分類表現(xiàn)[18],這樣選擇6個(gè)特征使得CSP與SOCSP結(jié)合半監(jiān)督算法的對(duì)比更加公平。
圖3 國(guó)際10-20導(dǎo)聯(lián)系統(tǒng)的電極分布
比較了靜態(tài)分類(屬于監(jiān)督學(xué)習(xí))(Static Classification,STC)和基于SOCSP的自訓(xùn)練算法(Self-Training based SOCSP,ST-SOCSP)在分類率上的表現(xiàn)。這兩種算法均使用SOCSP提取特征,也均在獨(dú)立測(cè)試集TS上測(cè)試各自的分類率。兩種算法不同之處在于,對(duì)于STC,僅僅使用初始訓(xùn)練集DI訓(xùn)練FLDA分類器;對(duì)于ST-SOCSP,首先利用初始訓(xùn)練集DI訓(xùn)練FLDA分類器,然后挑選擴(kuò)展訓(xùn)練集DF中80%預(yù)測(cè)置信度高的樣本,并且迭代地添加這些樣本到初始訓(xùn)練集中重新訓(xùn)練分類器。
BCI Iva數(shù)據(jù)集的STC和ST-SOCSP的仿真實(shí)驗(yàn)結(jié)果如表1所示。表1比較初始樣本分別為20、40、60、100的時(shí)候,各個(gè)受試者在STC、ST-SOCSP結(jié)束后所獲得的平均預(yù)測(cè)分類率。為了比較每個(gè)受試者獲得分類率的顯著性,表1中列出了具有統(tǒng)計(jì)學(xué)意義的p值(在表1中表現(xiàn)為p1)。當(dāng)p值小于0.05時(shí)說明對(duì)比具有顯著性意義。從表1中可以清楚地看到在初始樣本分別為20、40、60、100的情況下,大多數(shù)受試者的ST-SOCSP的分類率比STC有很大的提升,這意味著半監(jiān)督學(xué)習(xí)可以通過標(biāo)記相同數(shù)量的樣本達(dá)到比靜態(tài)學(xué)習(xí)更好的分類率。從表1中,也觀察到隨著未標(biāo)記樣本的加入,其他受試者的ST-SOCSP分類率是高于STC的,但被試3的表現(xiàn)卻不同,這可能是因?yàn)槌跏挤诸惼鞯姆诸愋阅芴?,?dǎo)致不能在置信度評(píng)估準(zhǔn)則的幫助下從擴(kuò)展訓(xùn)練集中選擇到置信度高的樣本來提高自身的表現(xiàn),反而給分類器的訓(xùn)練引入了噪聲,隨著迭代增加造成噪聲的積累,使得被試3的ST-SOCSP分類率低于STC。除此以外,從表1中的p1值可以觀察到,對(duì)大多數(shù)受試者來說,ST-SOCSP相比STC分類率是有顯著性提高的。
表1 不同初始樣本下STC和ST-SOCSP平均分類率
比較了三種特征提取方法結(jié)合半監(jiān)督算法得出的分類率。這三種特征提取算法分別是CSP、FBCSP和提出的SOCSP算法。稱這三種結(jié)合自訓(xùn)練的算法為ST-CSP、ST-FBCSP、ST-SOCSP,將這200個(gè)訓(xùn)練樣本隨機(jī)排序,這三種算法分別進(jìn)行了30次訓(xùn)練,獨(dú)立訓(xùn)練集TS用來測(cè)試分類器的性能。三種算法的訓(xùn)練過程同樣也使用了置信度評(píng)估準(zhǔn)則。
表2比較了在初始樣本分別是20、40、60、100的情況下,30次訓(xùn)練后,各個(gè)受試者在ST-CSP、ST-FBCSP、ST-SOCSP這三種算法上的平均分類率。從表2中可以看出,無(wú)論初始樣本是多少,對(duì)大多數(shù)受試者來說,ST-SOCSP比ST-FBCSP和ST-CSP能夠獲得更好的分類率,這充分證明了SOCSP特征提取算法的有效性。表2中也列出了具有統(tǒng)計(jì)學(xué)意義的p值、p2和p3分別表示ST-SOCSP和ST-CSP、ST-SOCSP和ST-FBCSP對(duì)比得出的p值,可以看出,對(duì)大多數(shù)受試者來說,ST-SOCSP相比ST-CSP和ST-FBCSP是有顯著性提高的。
另外,對(duì)ST-FBCSP,初始樣本為20和40的時(shí)候,除被試1(初始樣本40)外,其他受試者在ST-FBCSP上獲得的分類率比不上ST-CSP。但當(dāng)初始樣本達(dá)到60、100時(shí),ST-FBCSP和ST-CSP分類率相差不大。在表3中報(bào)告了初始樣本為200(訓(xùn)練樣本只有200個(gè),這種情況等同于監(jiān)督算法)時(shí),CSP、FBCSP、SOCSP作為特征提取方法,通過監(jiān)督方法訓(xùn)練出FLDA分類器,在獨(dú)立測(cè)試集上獲得的平均分類率??梢园l(fā)現(xiàn),當(dāng)訓(xùn)練集樣本的個(gè)數(shù)達(dá)到200個(gè)時(shí),F(xiàn)BCSP作為特征提取方法獲得的分類率是高于CSP的,但依然趕不上SOCSP。這說明了FBCSP這種方法對(duì)初始分類器是比較敏感的。樣本越多,訓(xùn)練出的初始分類器越好,F(xiàn)BCSP的表現(xiàn)越好。從表2中也能發(fā)現(xiàn),對(duì)ST-SOCSP來說,隨著初始訓(xùn)練樣本的增加,每個(gè)受試者的分類率是在逐步增加的,對(duì)STCSP和ST-FBSOCSP也有相同的規(guī)律。這說明了初始樣本的數(shù)量決定了初始分類器的好壞,初始分類器的表現(xiàn)決定了能否從未標(biāo)記樣本中選擇置信度高的樣本來進(jìn)一步改善分類器的表現(xiàn)。
表2 不同初始樣本下ST-CSP、ST-FBCSP、ST-SOCSP的平均分類率
表3 初始樣本為200時(shí)三種特征提取方法下的分類率%
眾所周知,在運(yùn)動(dòng)想象BCI的實(shí)驗(yàn)中,收集運(yùn)動(dòng)想象EEG是一個(gè)枯噪和疲憊的過程,訓(xùn)練花費(fèi)時(shí)間越少,越能減少令人感到枯噪和疲憊的訓(xùn)練時(shí)間。表4報(bào)告了在不同初始樣本的情況下,執(zhí)行ST-CSP、ST-FBCSP、ST-SOCSP所使用的平均時(shí)間。注意這里報(bào)告的時(shí)間是30次訓(xùn)練所使用的平均時(shí)間??梢园l(fā)現(xiàn),無(wú)論初始訓(xùn)練樣本多還是少,對(duì)各個(gè)受試者來說,ST-CSP所花費(fèi)的時(shí)間是最少的,其次是ST-SOCSP,花費(fèi)時(shí)間最多的是ST-FBCSP。對(duì)ST-SOCSP來說,雖然花費(fèi)的時(shí)間超過了ST-CSP,但從表1可以看出,ST-SOCSP獲得的分類率是遠(yuǎn)遠(yuǎn)高于ST-CSP的。但對(duì)ST-FBCSP來說,雖然展示了初始樣本達(dá)到60,100時(shí),它的分類率勉強(qiáng)能夠與STCSP持平,但是花費(fèi)的時(shí)間卻大大高于ST-CSP。
表4 不同初始樣本下ST-CSP、ST-FBCSP、ST-SOCSP的平均花費(fèi)時(shí)間 s
為了說明ST-SOCSP在置信度評(píng)估準(zhǔn)則上的有效性,表5也比較了在不同初始樣本情況下(20、40、60、100)使用置信度評(píng)估準(zhǔn)則的ST-SOCSP與沒有使用置信度評(píng)估準(zhǔn)則的ST-SOCSP的表現(xiàn)。未使用置信度評(píng)估準(zhǔn)則的ST-SOCSP算法每次迭代都是隨機(jī)從未標(biāo)記樣本中選擇80%的樣本,而使用置信度評(píng)估準(zhǔn)則STSOCSP算法每次迭代都是使用置信度評(píng)估準(zhǔn)則從未標(biāo)記樣本中選擇80%的樣本。顯而易見,不論初始樣本的尺寸,對(duì)大多數(shù)受試者來說使用置信度評(píng)估準(zhǔn)則的STSOCSP算法的表現(xiàn)是好于未使用置信度評(píng)估準(zhǔn)則的ST-SOCSP算法。這是因?yàn)殡S機(jī)選擇樣本會(huì)導(dǎo)致選擇未標(biāo)記樣本池中表現(xiàn)不好(置信度低)的樣本,這些樣本會(huì)破壞算法的性能。實(shí)驗(yàn)結(jié)果證明了提出的置信度評(píng)估準(zhǔn)則在提高分類率上的有效性。從表5的p4值可以看出,對(duì)大多數(shù)受試者來說,使用置信度評(píng)估準(zhǔn)則的STSOCSP算法相比未使用置信度評(píng)估準(zhǔn)則的ST-SOCSP算法是有顯著性提高的。
表5 置信度評(píng)估準(zhǔn)則對(duì)ST-SOCSP平均分類率的影響
本文提出了一種基于SOCSP的自訓(xùn)練算法(STSOCSP),創(chuàng)新點(diǎn)如下:提出了一種置信度評(píng)估準(zhǔn)則,使用FLDA得出的判別分?jǐn)?shù)來選擇置信度高的樣本,提出與某類中心(mean1或mean2)有最小距離的同類預(yù)測(cè)未標(biāo)記樣本有著更高的置信度。提出了一種先進(jìn)的特征提取算法SOCSP,并將其結(jié)合到自訓(xùn)練中獲得的更好的分類效果。將ST-SOCSP算法應(yīng)用到2005 BCI競(jìng)賽的數(shù)據(jù)集Iva的五個(gè)受試者上,ST-SOCSP的表現(xiàn)是超過了ST-FBCSP和ST-CSP,而花費(fèi)的時(shí)間只是略高于ST-CSP,但分類率遠(yuǎn)遠(yuǎn)高于ST-CSP。其次,使用置信度評(píng)估準(zhǔn)則的ST-SOCSP也比未使用置信度評(píng)估準(zhǔn)則的ST-SOCSP獲得更高的分類率。這都充分證明了SOCSP特征提取算法和置信度評(píng)估準(zhǔn)則的有效性,更是證明了提出的ST-SOCSP算法的有效性。