王鳳琴,彭 旺,劉曉紅
(湖北師范大學 物理與電子科學學院,湖北 黃石 435002)
同步現(xiàn)象廣泛存在于大腦各區(qū)域及其相互作用過程當中,小到神經(jīng)元對之間,大到某個腦區(qū)內(nèi)部或者不同功能腦區(qū)之間。研究表明,對于認知功能受損的各種腦疾病而言,其往往呈現(xiàn)出與正常人不同的腦電同步模式[1, 2]。因此,評估腦電信號之間的同步模式,同時刻畫不同腦區(qū)之間的交互已經(jīng)成為理解腦功能與腦疾病內(nèi)在機制的重要研究方向。到目前為止,大量度量多變量數(shù)據(jù)間同步耦合強度方法在不同學科中有了長足發(fā)展,諸如特征提取[3]、復(fù)雜神經(jīng)震蕩網(wǎng)絡(luò)、神經(jīng)計算[1]和腦疾病學[2]。
關(guān)于腦電信號同步的早期研究專注于雙變量同步分析,諸如Pearson 相關(guān)系數(shù)、Spearman 秩相關(guān)、互信息以及最大信息系數(shù)。在這些方法中,互信息是一種最重要的信息獨立性度量[4],且在辨別以及抗噪聲能力上具有較優(yōu)的性能[1]。在度量二元變量關(guān)系上,最大信息系數(shù)(Maximal InformationCoefficient)被證明是最有效的關(guān)聯(lián)強度度量[5], 尤其是對非線性關(guān)系和受高噪聲污染數(shù)據(jù)的相關(guān)性度量上。近幾年,多變量同步分析方法有了長足發(fā)展,諸如相同步聚類分析(PSCA),S 估計子[6]和相關(guān)矩陣分析(CMA)[7]。其中,S 估計子能有效度量全局同步,但缺乏對變量間同步細節(jié)的度量;PSCA 可以獲取不同變量的拓撲細節(jié),但在全局同步信息度量方面存在明顯不足;而CMA 兼顧以上優(yōu)點。據(jù)我們所知,雖然這些方法可以有效度量雙變量同步模式或者全局同步模式,但是,一個重要問題被忽視了,那就是到底哪些通道(這些通道可能在同一腦區(qū),也有可能在不同腦區(qū))的同步模式的統(tǒng)一變化與腦疾病相關(guān)?特別的,癲癇是一種慢性的,由各種原因引起的腦部疾病,以腦部神經(jīng)元過度同步放電引起的突然反復(fù)和短暫的中樞神經(jīng)系統(tǒng)功能異常為特征。為理清癲癇發(fā)作期哪些通道會呈現(xiàn)同步特征同步增強或者減弱,本文設(shè)計一種多通道腦電同步增強或減弱度量方法,該方法能自動識別出多個通道在癲癇發(fā)作時的同步增強模式或者減弱模式。
關(guān)聯(lián)規(guī)則旨在發(fā)現(xiàn)數(shù)據(jù)間潛在的關(guān)聯(lián),主要手段是求取頻繁項集的支持度(support)、置信度(confidence)和提升度(lift)。支持度表征項在所有集合中出現(xiàn)的概率;置信度指兩個項中當?shù)谝粋€項出現(xiàn)時,第二個項同時出現(xiàn)的概率;提升度衡量關(guān)聯(lián)規(guī)則對于項出現(xiàn)頻率的影響,是關(guān)聯(lián)規(guī)則的有效性度量。常用的關(guān)聯(lián)規(guī)則算法包括:Apriori[8]、FP-Growth[9]和Eclat 算法[10]。Apriori 算法是現(xiàn)今研究關(guān)聯(lián)規(guī)則中最具代表性的算法,雖然之后有許多改進算法被提出,但大都依據(jù)此算法做改進或者延伸,其中FP-Growth 和Eclat 算法是最具有代表性的改進算法。FP-Growth 算法采用分而治之的策略將發(fā)現(xiàn)長頻繁模式轉(zhuǎn)換成遞歸地搜索較短模式的問題,其提供了好的選擇性,同時大大降低了搜索開銷。相比于Apriori 算法,該算法要快一個數(shù)量級。Eclat 算法是一種深度優(yōu)先算法,采用垂直數(shù)據(jù)表示形式,在概念格理論[11]基礎(chǔ)上利用基于前綴的等價關(guān)系將搜索空間(概念格)劃分為較小的子空間(概念子格),其有效提高了挖掘關(guān)聯(lián)規(guī)則的效率。雖然這些算法在挖掘變量間的關(guān)聯(lián)關(guān)系上有很多成功案例,這些變量的共同點是每個項都是離散變量且都賦予了一定的語義。對于連續(xù)的無語義的多通道腦電數(shù)據(jù)來說,如何離散化且賦予相應(yīng)的語義是首要急需解決的重要問題。
很多計算神經(jīng)科學研究人員致力于用關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法探索大腦數(shù)據(jù)的分類問題,很少用于理解大腦狀態(tài)的變化受到哪些通道同步的影響。針對這一問題,本文首先提出一種度量無語義腦電數(shù)據(jù)同步特征增強或減弱方法,再借助Eclat 關(guān)聯(lián)規(guī)則算法,挖掘受腦疾病(癲癇發(fā)作期)影響的多個通道同步特征增強或減弱模式。本文所給出的實驗結(jié)果是在CHB-MIT 公共數(shù)據(jù)集上進行驗證評估的,該方法可有效地驗證:在癲癇發(fā)作期間,相關(guān)通道同步特征會明顯增強。另外,因為其不僅具有抗噪聲和抗干擾能力,而且單一的時間窗口參數(shù)設(shè)置可大大減少由于參數(shù)設(shè)置不當而引發(fā)的各種錯誤,因此,其可被應(yīng)用于臨床應(yīng)用中輔助醫(yī)生預(yù)判癲癇發(fā)作期的病灶。其主要貢獻如下:
1)提出一種可以度量無語義連續(xù)隨機變量的關(guān)聯(lián)規(guī)則分析方法,并有效應(yīng)用于癲癇腦電數(shù)據(jù)多通道同步特征增強或減弱度量上。進一步的,很容易對其擴展到其它的無語義連續(xù)數(shù)據(jù)間的關(guān)聯(lián)分析;
2)針對受到強噪聲干擾的多維腦電數(shù)據(jù),設(shè)計一種提取同步演化模式的特征提取方法,同時應(yīng)用于癲癇信號的全局同步度量。
本文組織如下:第1節(jié)簡介了相關(guān)工作;第2節(jié)詳細敘述了本文所提出的方法;第3節(jié)運用該方法挖掘癲癇發(fā)作與通道之間的關(guān)聯(lián)關(guān)系,同時討論了癲癇發(fā)作時的全局同步;最后總結(jié)了本文的一些要點。
長期以來,理解復(fù)雜的大腦同步機制受到廣大科研工作者的關(guān)注,特別是在探索與研究諸如癲癇等腦疾病機理時。許多神經(jīng)科學研究人員致力于利用關(guān)聯(lián)規(guī)則挖掘方法進行病理狀態(tài)進行分類,出現(xiàn)這一方向的諸多顯著成果:
為提高研究人員對大腦激活模式的理解,Kalgotra 等人利用常用的關(guān)聯(lián)規(guī)則技術(shù)分析腦電數(shù)據(jù)[12]。基于10% 的最小置信度和4% 的最小支持度,該方法生成了199 個關(guān)聯(lián)規(guī)則。這些規(guī)則說明了大腦的哪一部分在處理社交網(wǎng)站信息時,大腦的哪些不同部分被激活。
為自動探測缺血性心跳,Exarchos 等人提出一種基于關(guān)聯(lián)規(guī)則的方法對心跳是否是缺血性心跳進行判別。該方法在European Society of CardiologyST-T 數(shù)據(jù)集上分別獲得了87% 的敏感度和93% 的特異度[13]。
為弄清老年癡呆癥與年齡之間的關(guān)系,Sabeti等提出一種基于關(guān)聯(lián)規(guī)則挖掘的分類方法,該方法首先提取自回歸系數(shù)、頻帶能量和分形維數(shù)(fractaldimension)等特征,再設(shè)計一種基于模糊精度的分類系統(tǒng)來提高產(chǎn)生的模糊關(guān)聯(lián)規(guī)則。其獲得了80%的分類精度[14]。
為解決時間序列的關(guān)聯(lián)規(guī)則挖掘問題,Schlüter等人應(yīng)用幾個直觀的關(guān)聯(lián)規(guī)則挖掘方法(序列模式、循環(huán)關(guān)聯(lián)規(guī)則和基于日歷的關(guān)聯(lián)規(guī)則)于兩個大型的數(shù)據(jù)庫,其顯示了不同參數(shù)的功能以及影響[15]。
為發(fā)現(xiàn)醫(yī)療傳感器數(shù)據(jù)庫中的混合多維關(guān)聯(lián)規(guī)則,Pradhan 等人提出時間序列模式挖掘方法,該方法可以挖掘同一個序列或者多個不同序列的相關(guān)性。其成功應(yīng)用于多變量EMG 數(shù)據(jù),同時可以加快在多維環(huán)境中尋找關(guān)聯(lián)規(guī)則的過程[16]。
與現(xiàn)有的方法相比,本文旨在尋找抗噪聲、高魯棒性的同步模式探測方法,同時利用該方法挖掘非平穩(wěn)同步模式之間的關(guān)聯(lián)規(guī)則,以探索腦疾病(諸如癲癇等)發(fā)生與腦電不同通道之間的關(guān)聯(lián)關(guān)系,借此以輔助醫(yī)護人員高效的定位病灶。
本節(jié)先給出總體設(shè)計,再討論了方法的技術(shù)細節(jié),主要包括:1)度量通道同步關(guān)系的最大信息系數(shù);2)全局同步特征度量方法;3)在癲癇發(fā)作期,度量通道同步特征的動力學模式(增強或者減弱);4)同步特征動力學模式的關(guān)聯(lián)規(guī)則算法(Eclat 算法)。
為有效地進行EEG 分析,本文試圖:1)最小化傳統(tǒng)EEG 預(yù)處理過程(去掉了傳統(tǒng)EEG 預(yù)處理中必須包含依賴足夠的先驗知識而進行的去噪、去干擾和去偽跡過程);2)最小化超參數(shù)的設(shè)置以方便臨床應(yīng)用。圖1表示了所提方法的整體設(shè)計,其主要包括如下三個階段:1)同步特征的特征提?。?)基于以上提出的特征進行有效分析,即通道之間同步信息的度量,全局同步信息度量以及通道間同步的關(guān)聯(lián)分析;3)對結(jié)果進行評估。
具體過程如下,原始EEG 數(shù)據(jù)被劃分為同等時間窗口大小的片段,對片段內(nèi)所有的通道計算相互之間的最大信息系數(shù)(同步值),根據(jù)通道位置將所有同步值組織成相關(guān)矩陣,構(gòu)成系統(tǒng)的特征矩陣。以癲癇發(fā)作期及其前后窗口度量:通道隨時間窗口的全局同步特征演化模式;不同通道同步特征同時變化模式。
最大信息系數(shù)是基于最優(yōu)劃分的互信息[5]。它能夠快速檢測數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,具有抗噪性、非線性以及有效性[4,5]。給定一個有限數(shù)據(jù)集D以及雙變量有序?qū)Α碭,Y〉, 在x-y平面將x與y分別劃分成若干個小網(wǎng)格,即x×y網(wǎng)格G(b1,b2,…,bm)。然后根據(jù)不同的劃分求取相應(yīng)的互信I(D/G)。對于所有的劃分,計算最大的互信息[5]:
I*(D,G(b1,b2,…,bm))=maxI(D/G)
(1)
其中,最大的互信息由劃分的網(wǎng)格所決定,也即G劃分下X與Y之間的最大互信息。
計算所有劃分下的特征矩陣[5]:
(2)
最后,計算雙變量X與Y之間的最大信息系數(shù)MIC[5]:
(3)
其中,ω(1) MIC 具有如下優(yōu)良特性: 對稱性:鑒于MIC 屬于互信息的范疇,而互信息是對稱的,故MIC 滿足對稱性; 有界性:MIC 的取值范圍是[0,1]. (4) 其中:MICij(i,j= 1, …,n)表示兩通道(i,j)之間的同步關(guān)系。依據(jù)MIC的性質(zhì),CMMIC是一個正定對稱矩陣:MICij≥0 &&MICij=MICji&&MICii= 1.存在一個極其特殊和稀少的情形:當所有通道之間滿足線性無關(guān)時,CMMIC退化為單位陣。CMMIC滿足如下性質(zhì): 非負性:所有的特征值都非負,即λ≥0; 跡不變性:由于通道個數(shù)相同,致使所有的CMMIC都具有相同的跡。即 MIC及其相關(guān)矩陣能度量腦電信號在時間維度上的同步演化模式(橫向),但是對于空間上的相互同步度量(縱向)存在不足。為此,需要設(shè)計方法,使其既能度量兩兩通道同步關(guān)系的空間上的局部關(guān)聯(lián)關(guān)系,也能刻畫癲癇病人的不同狀態(tài)隨通道同步特征同時變化的機制。眾所周知,癲癇可以導(dǎo)致不同腦區(qū)的同步放電,也即某些通道的同步特征會一同增強,而某些通道的同步特征會一同下降。給定一個預(yù)先標記好的樣本(總共10 個窗口),為消除非平衡樣本對分類性能的影響,對于每一個發(fā)作期,本文利用馬爾科夫鏈蒙特卡羅(MCMC)方法進行采樣(參見section 3.1),以獲取相同的發(fā)作期和發(fā)作間歇期時間窗口個數(shù)。本節(jié)的目標是刻畫在當前癲癇發(fā)作期,比較發(fā)作期和發(fā)作間歇期的同步特征的大小。 具體操作如下: 1)對于一次癲癇事件(包括發(fā)作期和前后發(fā)作間歇期),以時間序列的方式組織所有該癲癇事件的相關(guān)特征矩陣; 2)對于窗口內(nèi)每一個通道之間的同步特征,都構(gòu)造成一條時間序列向量。為減少奇點的影響,本文通過計數(shù)的方式度量通道同步特征的變化,而不是比較兩者的平均值。本文采樣策略(見section 3.1)致使一次癲癇事件中包含的發(fā)作期和發(fā)作間歇期的時間窗口個數(shù)相同。這種數(shù)據(jù)的平衡無法通過直接計數(shù)進行區(qū)分,為此,必須打破這種平衡,其主要策略是減少一個元素; 3)對于特征同步增強(減弱),需要去掉該度量序列的最小值(最大值); 4)統(tǒng)計一次癲癇事件內(nèi)所屬不同癲癇狀態(tài)(發(fā)作期或者發(fā)作間歇期)的頻率: (5) 其中,S表示某一種狀態(tài)(發(fā)作期或者發(fā)作間歇期),all表示一次癲癇事件內(nèi)所有時間窗口的個數(shù)。 5)計算某個通道同步特征增強(針對去掉最小值的序列)和減弱(針對去掉最大值的序列): (6) 關(guān)聯(lián)規(guī)則算法(Apriori 和FP-Growth)針對水平表示的數(shù)據(jù),不可避免的存在如下問題:1)數(shù)據(jù)庫掃描次數(shù)太多(FP-Growth 算法雖然只需2次掃描數(shù)據(jù)庫,但其需要遞歸的構(gòu)建和釋放條件FP-樹);2)產(chǎn)生的候選頻繁項集數(shù)目過大。隨著數(shù)據(jù)規(guī)模的不斷增大,傳統(tǒng)的算法不適應(yīng)時代的發(fā)展要求。Eclat[10]是一種典型的基于垂直數(shù)據(jù)的頻繁項目集挖掘算法,以深度優(yōu)先搜索為策略,基于概念格[11]理論,利用前綴等價關(guān)系劃分搜索空間。它只需掃描數(shù)據(jù)庫一次就能完成頻繁項目集求解,利用數(shù)據(jù)垂直表示形式的優(yōu)勢通過交叉計數(shù)來計算支持度,在實際應(yīng)用中收到了非常好的效果,也是一種非常優(yōu)秀的頻繁項集挖掘算法。Eclat 算法采用自下而上的頻繁項集搜索方法,通過前綴劃分等價類規(guī)模,將較大的分解為較小的,每個等價類都有一些原子項組成,再枚舉每一個等價類中所有原子項的交集來逐層求出所有的等價類。其偽代碼描述如下: Algorithm 1 Eclat 算法偽代碼 輸入: TDB:事務(wù)數(shù)據(jù)庫; minsuppTheshold:最小支持度閾值; 輸出: L:所有的候選頻繁頻集; 1: 第一次掃描數(shù)據(jù)庫, 得到頻繁1-項集L1; 2: Eclat(L1): 3: for all xi∈ L1do 4: for all xi∈L1, j 5: T idest(R)=T idest(xi)∩T idest(xj) 6: if count(T idest(R))≥minsuppT heshold then 7: L = L∪ R 8: Ti= Ti∪ R 9: if Ti≠ φthen 10: Eclat(Ti) 11: end if 12: end if 13: end for 14: end for 15: return L; 本實驗研究采用的是CHB-MIT 頭皮腦電數(shù)據(jù)庫,數(shù)據(jù)集采集自22 名由器質(zhì)性病變引起的嚴重癲癇病患者(5名男性,年齡段3~22;17名女性,年齡段1.5-19),數(shù)據(jù)通過23 個不同的雙極導(dǎo)連通道同時采集(FP1-F7, F7-T7, T7-P7, P7-O1,FP1-F3, F3-C3, C3-P3, P3-O1, FZ-CZ, CZ-PZ, FP2-F4, F4-C4, C4-P4, P4-O2, FP2-F8,F8-T8, T8-P8, P8-O2, P7-T7, T7-FT9, FT9-FT10, FT10-T8, T8-P8)。通過連接在(受試者)頭皮表面的19 個電極與1個接地電極以頻率256Hz 采集數(shù)據(jù),大多數(shù)數(shù)據(jù)文件中包括多次癲癇發(fā)作。為避免樣本不平衡的問題,利用馬爾可夫鏈蒙特卡羅(MCMC)方法采樣以平衡癲癇發(fā)作及癲癇間歇期的樣本。具體方法如下:(1)對于每個癲癇發(fā)作期,其發(fā)作總時間為S(seizure),該發(fā)作期的CMCMI個數(shù)為 count(seizure)=[S(seizure)/S(window)],其中 圖2 典型癲癇發(fā)作期通道同步值演化模式 S(window)為時間窗口;(2)對癲癇發(fā)作期之前的信號進行MCMC采樣,采樣個數(shù)為count(previous)=[(1/2×S(seizure)/S(window))];(3)對癲癇發(fā)作期之后的信號進行MCMC采樣,采樣個數(shù)為count(post)=count(seizure)-count(previous). 測量同步模式與癲癇發(fā)作期之間的關(guān)系是理解癲癇病理機制的有效手段,在癲癇發(fā)作期,通過度量通道相互作用與癲癇發(fā)作期之間的關(guān)聯(lián)。簡言之,就是要刻畫癲癇發(fā)作時,哪些通道之間會同步上升或下降。實驗結(jié)果表明,在癲癇發(fā)作期,eclat算法可以找到30% 的通道之間同步值下降,而70%的同步值會上升。圖2 顯示了癲癇發(fā)作期幾個典型通道同步值的演化。顯然地,癲癇發(fā)作時同步強度增強的概率遠高于同步強度降低的概率,這印證了癲癇發(fā)作的時候,大腦中存在大量神經(jīng)元同時放電。 本文旨在尋找一種抗噪聲、高魯棒性的同步模式檢測方法。同時利用該方法挖掘非平穩(wěn)同步模式之間的關(guān)聯(lián)規(guī)則,以探討腦疾病(如癲癇)的發(fā)生與腦電不同通道之間的關(guān)系,幫助醫(yī)務(wù)人員有效地定位病變。使用單一數(shù)據(jù)集意味著該實驗結(jié)果不能推廣到更廣泛的數(shù)據(jù)集,在以后的工作中,將創(chuàng)建多個數(shù)據(jù)集并驗證該方法。2.3 全局同步度量方法
2.4 通道同步特征的動力學模式度量方法
2.5 Eclat 算法
3 實驗
3.1 數(shù)據(jù)描述
3.2 實驗結(jié)果
4 討論與結(jié)論