連召洋,段立娟*,陳軍成,喬元華
(1.北京工業(yè)大學(xué)信息學(xué)部,北京 100124;2.可信計算北京市重點實驗室,北京 100124;3.信息安全等級保護關(guān)鍵技術(shù)國家工程實驗室,北京 100124;4.北京工業(yè)大學(xué)應(yīng)用數(shù)理學(xué)院,北京 100124)
腦電波(EEG,electroencephalogram)是采集到的局部神經(jīng)元電活動的總和的腦電信號。近年來,隨著腦科學(xué)及人工智能的發(fā)展,腦電信號分析方法已經(jīng)成為人們研究的熱點問題。其中,因為對腦電信號進行分析可以了解病人病因和病理,更為癲癇、抑郁癥、老年癡呆等腦部疾病的診斷和治療提供詳細(xì)有效的參考,所以基于腦電信號的腦疾病輔助診斷方法引起研究人員的廣泛關(guān)注。
癲癇作為一種慢性神經(jīng)系統(tǒng)疾病,嚴(yán)重?fù)p害患者的身心健康。將癲癇腦電信號不同時期的檢測出來,能夠給醫(yī)生診斷病情帶來幫助。此外,如果能夠及時預(yù)測癲癇發(fā)作,則可以顯著改善癲癇患者的生活質(zhì)量,為癲癇疾病的防治開辟新的治療思路[1]。有效的特征提取方法成為不同時期的癲癇檢測及癲癇預(yù)測的關(guān)鍵[2]。
在特征提取方面,Gotman等人首次對腦電信號進行"半波"(Half-wave)分解,然后從中提取腦電特征,包括相對于背景的平均幅度、持續(xù)時間和變異系數(shù)等特征,并根據(jù)專家經(jīng)驗設(shè)定閾值,將這些特征參數(shù)與該閾值進行比較,以此來判斷是否為癲癇信號[3-5]。Nhan Duy Truong等人提出了一種自動電極選擇方法對顱內(nèi)癲癇數(shù)據(jù)做預(yù)處理,并在時域和頻域中提取特征,計算通道功率和通道對之間的相關(guān)性,以此來完成發(fā)作期和發(fā)作前期的區(qū)分[6]。但是這些特征提取方法需要專家經(jīng)驗和頻帶等方面的先驗知識。
盡管PCA(Principal Component Analysis)、LDA (Linear Discriminant Analysis)和NMF(Non-negative Matrix Factorization)等在特征提取應(yīng)用中的效果比較好,但是它們都是線性的模型,只能發(fā)現(xiàn)數(shù)據(jù)的全局的特征,并且LDA是有監(jiān)督的,并且訓(xùn)練時需要給定標(biāo)簽信息[7],但是在醫(yī)學(xué)領(lǐng)域有標(biāo)簽的數(shù)據(jù)很少,標(biāo)注的成本很高。近來,大量研究開始聚焦于腦電無監(jiān)督領(lǐng)域。不同領(lǐng)域的研究者發(fā)現(xiàn):高維空間中的數(shù)據(jù)點近似位于嵌入的低維空間中—個子流形上[7,8]。為了發(fā)現(xiàn)高維數(shù)據(jù)空間的非線性結(jié)構(gòu),有的研究者提出了核方法,但是,核方法的計算量大,也沒有考慮原始高維數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu)。而基于流形的方法可以有效的解決以上問題。在[9]中發(fā)現(xiàn)應(yīng)用t-SNE (t-distributed Stochastic Neighbor Embedding)算法對fMRI數(shù)據(jù)降維后的可視化效果明顯。
本文把不同的流形及降維方法應(yīng)用在醫(yī)療中癲癇的EEG公開數(shù)據(jù)上,對13主流的流行降算法(包括經(jīng)典的LLE(Locally Linear Embedding)[10]t-SNE[11,12]、LLSTA(Line Local Tangent Space Alignment)[13]以及較新的Manifold K-ELMC (K-Extreme Learning Machine Clustering)[23]等)無監(jiān)督情況下的降維聚類效果分別在2維和3維空間上可視化,并做對比分析。實驗結(jié)果表明L-ISOMAP(Landmark ISOMAP)的可視化效果明顯,有很好的聚類表現(xiàn)。當(dāng)樣本大小不同時,還能保持類似的數(shù)據(jù)流形結(jié)構(gòu),有一定的普適性。四組中L-ISOMAP都呈類似長條彗星狀的數(shù)據(jù)流形結(jié)構(gòu),保持癲癇間期的藍色樣本點在頭部集中,而癲癇發(fā)作期的紅色數(shù)據(jù)集在尾部,并且兩類樣本點的分類界限明顯。
ISOMAP[14]是一種可以保持全局特性的無監(jiān)督流形方法,是MDS(Multi-Dimensional Scaling)算法[15]在非線性特征提取上的推廣,ISOMAP算法用非線性的測地距離代替歐式距離作為樣本點之間的相似性度[16]。L-ISOMAP(Landmark ISOMAP)[17,18]算法是基于ISOMAP的改進算法,只計算每個樣本點到Landmark點的測地距離生成維矩陣,然后用LMDS (Landmark MDS)得到觀測數(shù)據(jù)的歐式嵌入。在本公開癲癇數(shù)據(jù)集中,經(jīng)過L-ISOMAP降維后癲癇數(shù)據(jù)集的分界比較明顯。
基于L-ISOMAP算法的癲癇降維可視化流程如圖1所示。
圖1 癲癇降維可視化流程
基于該思想的癲癇數(shù)據(jù)的降維算法可視化的具體步驟如下:
1)將數(shù)據(jù)集中癲癇病人的發(fā)作間期樣本和發(fā)作期樣本隨機打亂合并,組成N*4097維數(shù)據(jù),設(shè)定各種參數(shù)如k近鄰值、低維空間目標(biāo)維數(shù)等。
求N個全部樣本點與選取的n個點之間的歐式距離,得到矩陣d,其中dij代表樣本點xi和Landmark點xj之間的歐式距離。
3)構(gòu)建鄰域圖
k-NN方法:找出與每個樣本點最近的k個點;
其中,鄰接圖G中每條邊權(quán)重為dE(i,j)。
如果樣本點xi和xj在圖G中相連,則它們之間最短路徑的初始值為dG(i,j)=dE(i,j),否則dG(i,j)=∞。令q=1,2,…,N,N是樣本點的總數(shù)量,計算下面公式
dG(i,j)=min{dG(i,j),dG(i,q)+dG(q,j)}
(1)
由此可得所有樣本點對之間的測地距離組成測地距離矩陣DG={dG(i,j)}并計算最短路徑。
4)計算低維嵌入坐標(biāo)
將MDS算法應(yīng)用到測地距離矩陣DG,最小化下面的目標(biāo)函數(shù)得到樣本的紙維嵌入坐標(biāo)Y
(2)
本文對不同的流形及降維算法在癲癇數(shù)據(jù)上的降維效果進行可視化,并和本文提出的算法做對比分析。
數(shù)據(jù)集采用的是德國波恩大學(xué)對外公開的數(shù)據(jù)[20]。數(shù)據(jù)集一共由5個集合組成,每個集合里面有5個人,每個集合里面100個EEG數(shù)據(jù)段,每段數(shù)據(jù)的采樣點個數(shù)為4097,時長為23.6s。集合A和集合B里面分別是健康人的顱外EEG數(shù)據(jù);集合D里面是癲癇病人發(fā)作間期的數(shù)據(jù);集合E里面是癲癇病人發(fā)作時的數(shù)據(jù)。集合D來自癲癇區(qū)域,集合C遠離病灶。所有EEG信號的采樣頻率都是173.61Hz,頻段為0.5~85Hz。本文選擇了集合D和集合E,將這兩個數(shù)據(jù)集的200個EEG數(shù)據(jù)段隨機打亂,生成200個4096維的輸入數(shù)據(jù)。圖2是對打亂的200個癲癇間期和發(fā)作期的樣本中隨機抽出5個樣本的可視化。
圖2 隨機可視化5個樣本的癲癇腦電信號
為了對比降維后聚類的可視化效果,分別用MDS(Multi-Dimensional Scaling)、LLE(Locally Linear Embedding)、PCA(Principal Component Analysis)、KPCA(Kernel Principal Component Analysis)、Laplacian、SNE(Stochastic Neighbor Embedding)、t-SNE(t-distributed Stochastic Neighbor Embedding)、ISOMAP、L-ISOMAP、DM (Diffusion Maps)[21]、LLC(Locally Linear Coordination)、LLTSA(Line Local Tangent Space Alignment)多種主流的流形及降維工具[22]對生成的4096維輸入數(shù)據(jù)進行降維,分別得到對應(yīng)的2維和3維低維嵌入坐標(biāo)。并對降維后的數(shù)據(jù)進行了可視化。各算法在降維過程中均不提供標(biāo)簽,標(biāo)簽只在得到嵌入坐標(biāo)后可視化時用于標(biāo)記顏色。這幾種流形及降維方法對本數(shù)據(jù)集中原始EEG數(shù)據(jù)的降維后的可視化效果如圖3、圖4所示。隨后與較新的Manifold K-ELMC算法[23]在癲癇數(shù)據(jù)集上降維后的2維可視化效果做對比,如圖3所示。
圖3 不同經(jīng)典數(shù)據(jù)降維算法在癲癇數(shù)據(jù)中2維內(nèi)的可視化結(jié)果
圖中紅色代表癲癇病人發(fā)作期的樣本,藍色是代表癲癇病人發(fā)作間期的樣本。在平面或空間中的位置坐標(biāo)是4097維原始數(shù)據(jù)經(jīng)過不同算法降成2維或3維中的嵌入坐標(biāo)。從圖3、圖4中可以看出在12種經(jīng)典的流形及降維算法中,SNE、KPCA、LLE、LLTSA等方法的200個數(shù)據(jù)點分布散亂,并且嚴(yán)重重疊,沒有明顯特征和聚類,發(fā)作間期和發(fā)作期的數(shù)據(jù)點交叉混亂。Laplacian、DM等方法的200個數(shù)據(jù)點的分布成彗星狀,Laplacian方法的數(shù)據(jù)點交叉嚴(yán)重并且還有散點,DM方法的數(shù)據(jù)點分布比Laplacian方法的可視化效果好一些,但是也有交疊,LLC的數(shù)據(jù)點分布都集中在幾個零散的點,藍色的癲癇間期樣本點丟失嚴(yán)重。采用MDS和PCA方法降維后的可視化形狀比較相似,數(shù)據(jù)點呈星狀散射。采用ISOMAP方法的數(shù)據(jù)點可視化效果也一般。從圖5中可以看出采用較新的Manifold K-ELMC算法降維后呈長條狀,紅藍兩類樣本點重疊嚴(yán)重,并且在左上部有紅色散點出現(xiàn),而經(jīng)過L-ISOMAP方法降到低維空間后,在2維和3維空間的可視化效果都很明顯,其形狀像一顆彗星。頭部是癲癇病人發(fā)作間期的藍色樣本,數(shù)據(jù)點比較集中,尾部是癲癇病人發(fā)作期的紅色樣本,相對零散一些。發(fā)作間期藍色樣本點和發(fā)作期紅色樣本點分界明顯。
圖4 不同經(jīng)典數(shù)據(jù)降維算法在癲癇數(shù)據(jù)中3維內(nèi)的可視化結(jié)果
圖5 L-ISOMAP與Manifold K-ELMC在2維中可視化對比
為了進一步驗證L-ISOMAP方法在本癲癇數(shù)據(jù)集上的有效性,我們把隨機混合后的200個樣本中抽取分別隨機抽取50個、100個、150個、200個樣本,用L-ISOMAP分別對其降維生成每個樣本嵌入坐標(biāo),并在2維和3維空間上進行可視化分別如圖6、圖7所示,用L-ISOMAP算法對該數(shù)據(jù)集中不同樣本量的數(shù)據(jù)降維后可視化效果都很好,四組中都呈類似長條彗星狀的數(shù)據(jù)流形結(jié)構(gòu),保持癲癇間期的藍色樣本點在頭部集中,而癲癇發(fā)作期的紅色數(shù)據(jù)集在尾部,并且兩類樣本點的分類界限明顯。
圖6 樣本數(shù)不同時L-ISOMAP算法的2維中可視化結(jié)果
圖7 樣本數(shù)不同時L-ISOMAP算法的3維中可視化結(jié)果
本文將不同的流形及降維方法應(yīng)用在醫(yī)療中癲癇的EEG數(shù)據(jù)上,在此公開數(shù)據(jù)集上,基于L-ISOMAP的癲癇數(shù)據(jù)降維可視化方法在13種流形降維方法中的效果最好,癲癇間期和發(fā)作期的樣本點分界面明顯。通過調(diào)節(jié)不同的樣本大小,經(jīng)過L-ISOMAP降維后數(shù)據(jù)樣本點在2維和3維中的數(shù)據(jù)分布保持相似的呈長條彗星狀的數(shù)據(jù)流形結(jié)構(gòu),有一定的規(guī)律性。