李 棟,吳海鋒,2,保 涵,馬 佳,曾 玉,2
(1.云南民族大學(xué)電氣信息工程學(xué)院,昆明 650500;2.云南省高校智能傳感網(wǎng)絡(luò)及信息系統(tǒng)創(chuàng)新團(tuán)隊(duì),昆明 650500)
靜息態(tài)功能核磁共振成像(Rest-state functional magnetic resonance imaging,rs-fMRI)技術(shù)具有無(wú)輻射性和無(wú)創(chuàng)傷性,且采集時(shí)不需受試者做認(rèn)知任務(wù),因此廣泛應(yīng)用于腦科學(xué)研究中[1]。通常,大腦的工作是由不同腦區(qū)協(xié)作完成,即使在靜息態(tài)時(shí)也是如此。由于通過(guò)rs-fMRI 所得到的功能性連接(Functional connectivity,F(xiàn)C)可以表示腦區(qū)間相互作用強(qiáng)度,因此FC 可以適當(dāng)?shù)乇硎敬竽X的協(xié)同工作模式。已有研究[2-4]表明,一些精神類(lèi)疾病患者的腦區(qū)協(xié)同工作模式會(huì)發(fā)生改變,因此FC 對(duì)研究這些疾病診斷具有一定的現(xiàn)實(shí)意義。例如,輕度認(rèn)知障礙(Mild cognitive impairment,MCI)作為阿爾茲海默癥(Alzheime’s disease,AD)前期的必經(jīng)階段,已被證實(shí)其患者大腦的FC 和正常人具有顯著性差異[3-4]。
在rs-fMRI 信號(hào)中,有兩種較常見(jiàn)計(jì)算FC 的方法。一種是通過(guò)自動(dòng)解剖標(biāo)簽(Anatomical automatic labeling,AAL)的興趣區(qū)(Region of in terest,ROI)[5]提取血氧水平依賴(Blood oxygenation level dependent,BOLD)信號(hào),然后求其皮爾遜相關(guān)[6]。另外一種常見(jiàn)方法是對(duì)fMRI 信號(hào)進(jìn)行盲分離得到時(shí)間進(jìn)程(Time course,TC)[7-8],然后由靜息網(wǎng)絡(luò)(Resting state network,RSN)模板篩選出功能性腦區(qū),對(duì)腦區(qū)對(duì)應(yīng)的TC 求皮爾遜相關(guān)。由于大腦FC 會(huì)展現(xiàn)一些非平穩(wěn)性[9-10],但基于皮爾遜相關(guān)的FC 無(wú)法反映時(shí)變特性,因此可在TC 信號(hào)上加上若干時(shí)間窗口,在每個(gè)窗口內(nèi)求Person 相關(guān),得到動(dòng)態(tài)功能性連接(Dynamic FC,DFC)[11]。遺憾的是,人腦神經(jīng)元的放電頻率并不一定相同[12],DFC 方法雖能表現(xiàn)信號(hào)的時(shí)變性,但卻無(wú)法展現(xiàn)不同頻率上的FC 信息。小波變換是在時(shí)頻域上對(duì)信號(hào)進(jìn)行變換,近年來(lái)也被用于rs-fMRI 的FC 研究,其基本做法是對(duì)TC 信號(hào)做小波變換后再分析其相關(guān)特性,以此得到相應(yīng)的FC[13]。雖然小波的FC 方法可以得到頻率上的信息,但眾所周知,其相關(guān)值往往與選取的母函數(shù)相關(guān)。經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical model decomposition,EMD)是一種無(wú)需依賴母函數(shù)非平穩(wěn)信號(hào)處理方法,通過(guò)不斷迭代篩選將信號(hào)分解為有限個(gè)不同固有模態(tài)頻率(Intrinsic mode functions,IMF)信號(hào)和一個(gè)殘差信號(hào)[14],最近也被常用于fMRI 信號(hào)計(jì)算FC[15-16]。但是直接對(duì)信號(hào)做EMD 分解會(huì)出現(xiàn)端點(diǎn)效應(yīng)和模態(tài)混疊現(xiàn)象。為解決這個(gè)問(wèn)題,Huang等提出了集成經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical EMD,EEMD)[17],該方法是將原始信號(hào)加入幅度較小的白噪聲,再進(jìn)行分解,做多次試驗(yàn)求平均值。EEMD 分解在一定程度上緩解了端點(diǎn)效應(yīng)和模態(tài)混疊的問(wèn)題,但該方法以增加算法復(fù)雜度為代價(jià),需要做多次試驗(yàn)才能消除白噪聲帶來(lái)的影響。而且EMD 和EEMD 都是對(duì)受試者的每個(gè)TC 信號(hào)進(jìn)行獨(dú)立分解,會(huì)導(dǎo)致各TC的IMF 分量數(shù)和頻率各不相同,就難以計(jì)算各個(gè)層上的相關(guān)系數(shù)。多元經(jīng)驗(yàn)?zāi)B(tài)分解(Multivariate EMD,MEMD)[18-19]是一種多通道的經(jīng)驗(yàn)?zāi)B(tài)分解,可實(shí)現(xiàn)多個(gè)TC 時(shí)間序列的同步聯(lián)合分析,確保多個(gè)TC 信號(hào)的IMF 在時(shí)間和頻率上均保持匹配,從而利于在各層上做相關(guān)分析。但MEMD 仍然會(huì)存在模態(tài)混疊的問(wèn)題,因此,2011 年Rehman 等提出了噪音輔助的多元經(jīng)驗(yàn)?zāi)B(tài)分解(Noise assisted MEMD,NA-MEMD)算法,將額外的白噪聲通道拼接到輸入信號(hào)中,通過(guò)MEMD 分解后再舍棄白噪聲通道,保留原始信號(hào)的IMF 分量。NA-MEMD 結(jié)合了EEMD 和MEMD 的優(yōu)點(diǎn),可以多通道處理非平穩(wěn)信號(hào),并有效減少了模態(tài)混疊現(xiàn)象,而且相比于EEMD 算法無(wú)需做多次分解求平均,具有更低的計(jì)算復(fù)雜度,因此廣泛應(yīng)用于非平穩(wěn)信號(hào)的處理中。
目前還存在一類(lèi)利用無(wú)監(jiān)督聚類(lèi)來(lái)研究FC 動(dòng)態(tài)性的方法,它們可將DFC 表達(dá)為一系列時(shí)間狀態(tài)序列特征[20-22]或聚類(lèi)中心的線性組合的特征[23-25],通過(guò)分析這些特征表達(dá)來(lái)尋找疾病的顯著性差異,也可以采用隱馬爾科夫模型(Hidden Markov model,HMM)[26]和支持向量機(jī)(Support vector machine,SVM)[27]等分類(lèi)器對(duì)其分類(lèi)。然而,無(wú)論是顯著性差異的分析還是分類(lèi)器分類(lèi),其性能與聚類(lèi)結(jié)果緊密相關(guān),不同的聚類(lèi)結(jié)果將得到不同性能。在無(wú)監(jiān)督聚類(lèi)中,設(shè)定不同的聚類(lèi)數(shù)會(huì)得到不同的聚類(lèi)結(jié)果,現(xiàn)有的方法設(shè)定聚類(lèi)數(shù)大多采用經(jīng)驗(yàn)值,并根據(jù)類(lèi)內(nèi)距離和類(lèi)間距離評(píng)判聚類(lèi)數(shù)性能[28-30]。例如,在路易體癡呆的研究中Ma 等將聚類(lèi)數(shù)設(shè)為2[30],在自閉癥譜系障礙的研究中Guo 等將聚類(lèi)數(shù)設(shè)為5[31],在精神分裂癥的研究中Miller 等將聚類(lèi)數(shù)設(shè)為5[32],在睡眠質(zhì)量的研究中Zhou 等將聚類(lèi)數(shù)設(shè)為4[33],認(rèn)知任務(wù)下的AD 研究中Lee 等將聚類(lèi)數(shù)設(shè)為4[34]。合理的聚類(lèi)數(shù)應(yīng)設(shè)為多少,不同的聚類(lèi)數(shù)會(huì)得到什么樣的性能,以上文獻(xiàn)并沒(méi)有進(jìn)行詳細(xì)描述。另外,無(wú)監(jiān)督聚類(lèi)即使設(shè)置聚類(lèi)數(shù),但其初始聚類(lèi)中心隨機(jī)產(chǎn)生,聚類(lèi)結(jié)果仍具有隨機(jī)性,每一次聚類(lèi)結(jié)果都不盡相同。從多個(gè)聚類(lèi)結(jié)果中采用何種標(biāo)準(zhǔn)選用何種也會(huì)影響FC 的分析,比如根據(jù)狀態(tài)占有率(State occupancy rate,SOCR)[35-36]選取結(jié)果,根據(jù)正常對(duì)照(Normal control,NC)組、疾病組占有率[37]等參數(shù)評(píng)價(jià)結(jié)果。
本文將以MCI 與NC 的rs-fMRI 作為處理對(duì)象,關(guān)注動(dòng)態(tài)FC 中有關(guān)聚類(lèi)的相關(guān)問(wèn)題,不僅研究加窗的DFC 的聚類(lèi)性能,而且研究了固有頻率DFC(DFC of intrinsic frequencies,IF-DFC)的聚類(lèi)性能,該IF-DFC 通過(guò)噪音輔助的多元經(jīng)驗(yàn)?zāi)B(tài)分解和加窗皮爾遜算法得到。此外,利用提出的評(píng)判輔助聚類(lèi)方法(Evaluation assisted clustering,EA Clustering)對(duì)DFC 和IF-DFC 進(jìn)行聚類(lèi),以評(píng)價(jià)各種聚類(lèi)方式的性能。進(jìn)一步,本文還對(duì)比了由各種聚類(lèi)所得特征來(lái)進(jìn)行分類(lèi)的性能,包括時(shí)間狀態(tài)序列以及所提出的最小二乘(Least square,LS)擬合特征。另外本文引入K-means++算法[38],相比于傳統(tǒng)K-means 算法,K-means++通過(guò)優(yōu)化初始聚類(lèi)中心的選取,具有收斂更快、聚類(lèi)效果更好的優(yōu)點(diǎn)。
本實(shí)驗(yàn)采用(Alzheimer’s disease neuroimaging initiative,ADNI)數(shù)據(jù)庫(kù)提供的rs-fMRI 公開(kāi)數(shù)據(jù),其下載地址為http://adni.loni.usc.edu/,數(shù)據(jù)參數(shù)見(jiàn)表1。首先,利用數(shù)據(jù)處理和腦成像分析(Data processing &analysis of brain imaging,DPABI)工具箱[5]對(duì)所下載的數(shù)據(jù)進(jìn)行預(yù)處理,其下載地址為:http://rfmri.org/dpabi,具體過(guò)程如下:
表1 fMRI 數(shù)據(jù)相關(guān)參數(shù)Table 1 Parameters related to fMRI data
(1)對(duì)原始數(shù)據(jù)去除前10 幀圖像,保留130幀圖像;
(2)以第48 個(gè)切片為基準(zhǔn)對(duì)所有的切片進(jìn)行校準(zhǔn),使每個(gè)切片上的數(shù)據(jù)具有相同時(shí)間點(diǎn);
(3)對(duì)所有被試進(jìn)行頭動(dòng)校正,將頭動(dòng)校正到同一位置,并為接下來(lái)的圖像質(zhì)量控制提供數(shù)據(jù);
(4)將與rs-fMRI 數(shù)據(jù)匹配的MRI 數(shù)據(jù)進(jìn)行顱骨剝離,然后同功能圖像進(jìn)行配準(zhǔn),將MRI 數(shù)據(jù)變換到rs-fMRI 數(shù)據(jù)的空間,使得rs-fMRI 數(shù)據(jù)可以被分割成腦脊髓液、灰質(zhì)和白質(zhì)信號(hào);
(5)去除一些混淆因素,將6 個(gè)頭動(dòng)參數(shù)(包含3 個(gè)轉(zhuǎn)動(dòng)參數(shù)和3 個(gè)平動(dòng)參數(shù))、腦脊髓液和白質(zhì)信號(hào)被作為無(wú)關(guān)變量去除;
(6)評(píng)估被試者頭部的旋轉(zhuǎn)和平移,發(fā)現(xiàn)所有參與者都沒(méi)有表現(xiàn)出過(guò)度的頭部運(yùn)動(dòng);
(7)進(jìn)行歸一化和平滑,并將所有數(shù)據(jù)都過(guò)濾到一個(gè)頻率范圍(0.01~0.08 Hz)。
再次,采用GIFT(Group ICA of fMRI Toolbox)[7]軟件從預(yù)處理數(shù)據(jù)中提取功能區(qū),其下載地址為http://trendscenter.org/trends/software/gift/index.html。該軟件將fMRI 信號(hào)視為空間信息經(jīng)過(guò)時(shí)間進(jìn)程的混合,采用最小描述長(zhǎng)度(Minimum description length,MDL)準(zhǔn)則估計(jì)出獨(dú)立腦區(qū)成分個(gè)數(shù),通過(guò)獨(dú)立成分分析(Independent component analysis,ICA)算法分離出若干個(gè)獨(dú)立腦區(qū)。實(shí)驗(yàn)中,Gift 軟件分離算法選擇ICASSO 方法,重復(fù)做10 次實(shí)驗(yàn)選取每個(gè)腦區(qū)的最佳估計(jì),并與每個(gè)靜息態(tài)網(wǎng)絡(luò)(Resting state network,RSN)模板做空間多元回歸分析,篩選出回歸系數(shù)最大的53 個(gè)腦區(qū),其中RSN 模板下載地址為https://trendscenter.org/trends/data/neuromark/Neuromark_good.nii。該模板將RSN 分為7大類(lèi),分別為下皮層(Sub-cortical,SC)、聽(tīng)覺(jué)(Auditory,AUD)、感覺(jué)運(yùn)動(dòng)(Sensorimotor,SM)、視覺(jué)(Visual,VIS)、認(rèn)知控制(Cognitive-control,CC),默認(rèn)模式網(wǎng)絡(luò)(Default-mode network,DM)和小腦(Cerebellar,CB)。
本文采用NA-MEMD 來(lái)計(jì)算IF-DFC,其可表征不同頻率和時(shí)間的FC 強(qiáng)度,計(jì)算如圖1 所示。若每一個(gè)被試的TC 數(shù)為N,添加的噪音序列數(shù)為M,執(zhí)行N+M通道的MEMD 后,每個(gè)通道將得到Q個(gè)IMF,那么前N個(gè)通道的IMF 即為分解結(jié)果。對(duì)分解得到的IMF 劃分為若干個(gè)時(shí)間窗口,在每個(gè)窗口內(nèi)計(jì)算皮爾遜相關(guān),即可得到第i個(gè)序列和第j個(gè)序列在q層窗口w的IF-DFC 相關(guān)矩陣,有
圖1 IF-DFC 算法示意圖Fig.1 Schematic diagram of IF-DFC algorithm
式中:N取決于RSN 模板,本文采用的模板N為53;M為噪音序列數(shù),本文分別嘗試使用不同的噪音序列數(shù)做NA-MEMD 分解,得到M=5 時(shí)能取得較好的效果。
由于IF-DFC 相關(guān)矩陣為對(duì)稱(chēng)陣,因此取其上三角部分來(lái)聚類(lèi),得到IF-DFC 矢量,表示為
式中:d(q,w)∈RV×1;V=N×(N-1)/2。
采用EA Clustering 對(duì)該相關(guān)矢量進(jìn)行聚類(lèi),分別采用有監(jiān)督聚類(lèi)和無(wú)監(jiān)督聚類(lèi)兩種方式。對(duì)于有監(jiān)督聚類(lèi)方法,若聚2 類(lèi),第1 類(lèi)的聚類(lèi)中心為訓(xùn)練集所有MCI 受試者在某一層IF-DFC 矢量的組平均,第2 類(lèi)聚類(lèi)中心為訓(xùn)練集所有NC 受試者在某一層IF-DFC 矢量的組平均;若聚3 類(lèi),則第3 類(lèi)聚類(lèi)中心為訓(xùn)練集所有受試者在某一層IF-DFC 矢量的組平均。再將訓(xùn)練集和測(cè)試集所有被試IF-DFC 矢量分別與聚類(lèi)中心求歐氏距離,比較距離大小得到每個(gè)受試者在某一層的轉(zhuǎn)態(tài)矢量。無(wú)監(jiān)督方式對(duì)某一層所有被試的IF-DFC 矢量采用K 均值聚類(lèi),分別將聚類(lèi)數(shù)設(shè)為2、3、4 或5。為避免大部分矢量只聚到少量幾類(lèi)上,無(wú)監(jiān)督方式在運(yùn)行時(shí)還需設(shè)置最小SOCR,定義為
式中:n*=min{n1,n2,…,nK},k=1,2,…,+K為第k個(gè)類(lèi)上所聚的矢量數(shù),Ns=n1+n2+…+nK。無(wú)監(jiān)督聚類(lèi)的最小SOCR 的設(shè)置可參見(jiàn)表2。另外,通過(guò)聚類(lèi)結(jié)果還可得到一被試者IF-DFC 在第q層的狀態(tài)序列矢量,有
表2 EA Clustering 聚類(lèi)方式和參數(shù)設(shè)置Table 2 EA Clustering mode and parameter setting
式中,w=1,2,…,W表示為IF-DFC 在第w個(gè)窗口上所聚類(lèi)的對(duì)應(yīng)狀態(tài),用一系列數(shù)字表表示,即∈{1,2,…,K}。
EA Clustering 將嘗試不同的監(jiān)督方式、聚類(lèi)數(shù)和SOCR 來(lái)得到不同的聚類(lèi)結(jié)果,通過(guò)引入評(píng)判聚類(lèi)性能指標(biāo),聚類(lèi)時(shí)間t和MCI 與NC 占比差Δ等推斷聚類(lèi)的合理性,其中Δ定義為
式中δk為聚在第k個(gè)類(lèi)上MCI 組和NC 組矢量之差,越少的聚類(lèi)時(shí)間和越高的占比差視為較合理的聚類(lèi),該算法步驟如表3 所示。
表3 EA Clustering 算法步驟Table 3 Steps of EA Clustering algorithm
為進(jìn)一步評(píng)判EA Clustering 的聚類(lèi)性能并進(jìn)一步提取特征矢量,將每一被試在第q層上的IF-DFC矢量表達(dá)為聚類(lèi)中心的線性組合,通過(guò)LS 擬合求解該線性組合,所得擬合系數(shù)作為進(jìn)一步分類(lèi)的特征,較高分類(lèi)準(zhǔn)確率對(duì)應(yīng)的聚類(lèi)方式被推斷為有較好合理性,特征提取具體如下。
若一被試在第q層上第w個(gè)窗口的IF-DFC 矢量表示為聚類(lèi)中心矢量的線性組合,即
式中ξ(q,w)為誤差矢量,那么系數(shù)θ(q,w)可通過(guò)LS 擬合為
式中(·)?表示偽逆。最后將該被試W個(gè)窗口的擬合系數(shù)矢量合并,形成最終的特征矢量
上述計(jì)算步驟如表4 所示。
表4 LS 特征提取步驟Table 4 LS feature extraction steps
HMM 是常用于時(shí)間序列的分類(lèi)模型,由表3 可以得到一系列的時(shí)間狀態(tài)序列,因此本文采用HMM 對(duì)該狀態(tài)序列做分類(lèi),通過(guò)期望最大化算法分別對(duì)MCI 和NC 訓(xùn)練集受試者的時(shí)間狀態(tài)序列訓(xùn)練得到2 個(gè)HMM 模型,再分別求每個(gè)模型對(duì)測(cè)試集時(shí)間狀態(tài)序列的對(duì)數(shù)似然,比較其大小做分類(lèi)。從另外一個(gè)角度看,MCI 與NC 分類(lèi)實(shí)際上是一種二分類(lèi)過(guò)程,而SVM 通過(guò)尋找特征空間最優(yōu)決策超平面進(jìn)行分類(lèi),是目前應(yīng)用最為廣泛的二分類(lèi)模型,因此使用SVM 分類(lèi)器對(duì)表3 得到的轉(zhuǎn)態(tài)矢量和表4 得到的LS 特征做分類(lèi)。本文所采用的HMM 軟件下載地址為https://www.cs.ubc.ca/~murphyk/Software/HMM/hmm.html,SVM 采用MATLAB 自帶程序,分類(lèi)器的輸入選用了DFC 和IF-DFC 聚類(lèi)結(jié)果,即由式(6)得到的狀態(tài)序列矢量和由式(9)得到的LS 特征,以下是各分類(lèi)方法的具體說(shuō)明:
(1)UnHMM-DFC:由表3 對(duì)DFC 作無(wú)監(jiān)督聚類(lèi)得到轉(zhuǎn)態(tài)矢量,其作為HMM 的輸入進(jìn)行分類(lèi);其中,DFC 轉(zhuǎn)態(tài)矢量特征提取來(lái)自文獻(xiàn)[39],HMM 分類(lèi)方法來(lái)自文獻(xiàn)[40-41],注意到表3 算法的處理對(duì)象是IF-DFC,需將其替換為DFC,下面的分類(lèi)算法中若出現(xiàn)DFC,均是如此處理;
(2)SupHMM-DFC:由表3 對(duì)DFC 作有監(jiān)督聚類(lèi)得到轉(zhuǎn)態(tài)矢量,使用HMM 分類(lèi)。
(3)UnHMM-IF-DFC:由表3 對(duì)IF-DFC 作無(wú)監(jiān)督聚類(lèi)得到轉(zhuǎn)態(tài)矢量,使用HMM 分類(lèi)。
(4)SupHMM-IF-DFC:由表3 對(duì)IF-DFC 作有監(jiān)督聚類(lèi),使用HMM 分類(lèi)。
(5)UnSVM-DFC:由表3 對(duì)DFC 作無(wú)監(jiān)督聚類(lèi)得到轉(zhuǎn)態(tài)矢量,使用SVM 分類(lèi);其中,SVM 分類(lèi)模型與文獻(xiàn)[42]相同。
(6)SupSVM-DFC:由表3 對(duì)DFC 作有監(jiān)督聚類(lèi),使用SVM 分類(lèi)。
(7)UnSVM-IF-DFC:由表3 對(duì)IF-DFC 作無(wú)監(jiān)督聚類(lèi),使用SVM 分類(lèi)。
(8)SupSVM-IF-DFC:由表3 對(duì)IF-DFC 作有監(jiān)督聚類(lèi),使用SVM 分類(lèi)。
(9)SupLS-SVM-DFC:由表3 對(duì)DFC 作有監(jiān)督聚類(lèi),由表4 得到LS 特征,采用SVM 分類(lèi);同表3類(lèi)似,表4 中的IF-DFC 需替換為DFC,后面的算法也是如此。
(10)SupLS-SVM-IF-DFC:由表3 對(duì)IF-DFC 作有監(jiān)督聚類(lèi),由表4 得到LS 特征,采用SVM 分類(lèi)。
(11)UnLS-SVM-DFC:由表3 對(duì)DFC 作無(wú)監(jiān)督聚類(lèi),由表4 得到LS 特征,采用SVM 分類(lèi),其中,采用無(wú)監(jiān)督聚類(lèi),再表達(dá)為L(zhǎng)S 擬合特征方法來(lái)自于文獻(xiàn)[23],后面的算法也是如此。
(12)UnLS-SVM-IF-DFC:由表3 對(duì)IF-DFC 作無(wú)監(jiān)督聚類(lèi),由表4 得到LS 特征,采用SVM 分類(lèi)。
(13)UnLS-SVM-IF-DFC++:將表3 的K 均值方法替換為K-means++算法[38],再由表3 對(duì)IF-DFC 作無(wú)監(jiān)督聚類(lèi),由表4 得到LS 特征,采用SVM 分類(lèi)。
測(cè)試以上算法時(shí),均采用5 折交叉驗(yàn)證,把總數(shù)據(jù)樣本隨機(jī)分為5 組,1 組作為測(cè)試集,其他4 組作為訓(xùn)練集,5 組中每1 組都會(huì)作為1 次測(cè)試集。為了避免偶然性,實(shí)驗(yàn)中共做了10 次5 折交叉驗(yàn)證,因此最終分類(lèi)準(zhǔn)確率為50 次實(shí)驗(yàn)結(jié)果的平均值。另外,在上述的分類(lèi)算法中,無(wú)監(jiān)督聚類(lèi)方法對(duì)測(cè)試集和訓(xùn)練集的所有數(shù)據(jù)進(jìn)行聚類(lèi),有監(jiān)督聚類(lèi)算法僅對(duì)訓(xùn)練集數(shù)據(jù)進(jìn)行聚類(lèi)。
本節(jié)分別給出了EA Clustering 對(duì)DFC 和IF-DFC 的聚類(lèi)結(jié)果,主要是占比差Δ和聚類(lèi)時(shí)間,共獨(dú)立做了50 次實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果為50 次實(shí)驗(yàn)的均值。另外,本節(jié)還給出了聚類(lèi)中心所對(duì)應(yīng)的FC 矩陣,由于每一次聚類(lèi)結(jié)果,聚類(lèi)中心變化較大,因此該FC 矩陣為50 次實(shí)驗(yàn)中隨機(jī)選取的一次結(jié)果,僅為了顯示較直觀的結(jié)果。
表5 給出了DFC 的聚類(lèi)時(shí)間和占比差。從表5 可以看出,有監(jiān)督EA Clustering 聚類(lèi)時(shí)間要比無(wú)監(jiān)督聚類(lèi)時(shí)間低得多,且占比差也比無(wú)監(jiān)督大。對(duì)于無(wú)監(jiān)督聚類(lèi),其占比差從高到低排列為聚類(lèi)數(shù)5、4、3 和2,聚類(lèi)時(shí)間從高到低排列為聚類(lèi)數(shù)5、4、3 和2。該結(jié)果表明,無(wú)監(jiān)督設(shè)置的聚類(lèi)數(shù)多,聚類(lèi)中心間的差異越大。
表5 DFC EA Clustering 聚類(lèi)結(jié)果Table 5 DFC EA Clustering results
表6 給出了IF-DFC 的聚類(lèi)結(jié)果。其中,由于該聚類(lèi)需要在某一層的IMF 上進(jìn)行,因此表6 給出了IMF1、IMF3和IMF4層上的聚類(lèi)結(jié)果,選取原則是本文算法在這幾層IMF 分類(lèi)效果較好。從表5 可以看到有監(jiān)督聚類(lèi)時(shí)間仍然遠(yuǎn)少于無(wú)監(jiān)督,且占比差也高于無(wú)監(jiān)督。對(duì)于無(wú)監(jiān)督聚類(lèi),無(wú)論在何層IMF,其占比差從高到低大約為5 類(lèi)、4 類(lèi)、3 類(lèi)和2 類(lèi),聚類(lèi)時(shí)間4 和5 類(lèi)最長(zhǎng),3 類(lèi)次之,2 類(lèi)最少。該排列順序和表5 的結(jié)果類(lèi)似,但表6 中某些IMF 層上的占比差卻比表5 略有提升,例如表6 中IMF1層上4 類(lèi)的占比差高于表5。對(duì)于聚類(lèi)時(shí)間,表6 的某些IMF 層上的聚類(lèi)時(shí)間也略少于表5,例如IMF4 的5 類(lèi)。不過(guò),總體而言,表5,6 的占比差和聚類(lèi)時(shí)間還是比較接近。
表6 IF-DFC EA Clustering 聚類(lèi)結(jié)果Table 6 IF-DFC EA Clustering results
圖2和圖3分別給出了DFC 和IF-DFC 在IMF1層上各聚類(lèi)中心的FC 矩陣圖。與表5,6一致,有監(jiān)督聚類(lèi)中,MCI占比高和NC 占比高的聚類(lèi)中心間顯示的差異性更大。另外,還可以看到,NC 占比高的聚類(lèi)中心的連接性要強(qiáng)于MCI占比高的聚類(lèi)中心,這個(gè)結(jié)果與MCI被認(rèn)為是功能性喪失癥的理論是一致的。
圖2 DFC 在IMF1層上EA Clustering 聚類(lèi)結(jié)果圖Fig.2 Clustering result of DFC EA Clustering on IMF1 layer
圖3 IF-DFC 在IMF1層上EA Clustering 聚類(lèi)結(jié)果圖Fig.3 Clustering result of IF-DFC EA Clustering on IMF1 layer
本節(jié)將給出引入了LS 特征后的分類(lèi)結(jié)果,該LS 特征分別由DFC 和IF-DFC 利用EA Clustering 聚類(lèi)所得,并嘗試用SVM 分類(lèi)器做分類(lèi)。同時(shí),還將以上結(jié)果與僅用EA Clustering 聚類(lèi)后的狀態(tài)矢量的分類(lèi)結(jié)果進(jìn)行了對(duì)比。圖4 先給出了IF-DFC 用EA Clustering 聚類(lèi)的結(jié)果,該IF-DFC 選用NA-MEMD IMF1 的分類(lèi)結(jié)果,原因該層的分類(lèi)準(zhǔn)確率較高。從平均準(zhǔn)確率看,大部分引入LS 特征的分類(lèi)算法的準(zhǔn)確率要高于僅用轉(zhuǎn)態(tài)矢量的分類(lèi)準(zhǔn)確率。特別地,對(duì)于LS 特征,采用有監(jiān)督聚類(lèi)的分類(lèi)準(zhǔn)確率要高于無(wú)監(jiān)督的,無(wú)論是將聚類(lèi)數(shù)設(shè)為2 或3 均是如此,其準(zhǔn)確率已到達(dá)63%,而不再是接近50%。而從標(biāo)準(zhǔn)差看,大部分引入LS 特征的分類(lèi)標(biāo)準(zhǔn)差要小于僅用轉(zhuǎn)態(tài)矢量的標(biāo)準(zhǔn)差,這表明引入LS 特征再分類(lèi)要更具穩(wěn)定性。此外,對(duì)于無(wú)監(jiān)督的LS 算法,還將K-means++算法與傳統(tǒng)的K-means聚類(lèi)算法作比較,可以看出將聚類(lèi)數(shù)設(shè)為3,4 和5 時(shí),無(wú)論是分類(lèi)準(zhǔn)確率還是標(biāo)準(zhǔn)差,K-means++算法都要優(yōu)于K-means 算法,而將聚類(lèi)數(shù)設(shè)為2 時(shí),K-means++算法分類(lèi)效果略比K-means算法差。
圖4 IF-DFC 各算法分類(lèi)結(jié)果圖Fig.4 IF-DFC classification results of each algorithm
圖5 將分類(lèi)器的輸入由IF-DFC 換成了DFC??梢钥闯?,有監(jiān)督聚類(lèi)引入LS 特征的分類(lèi)算法的準(zhǔn)確率高于其他算法,而分類(lèi)標(biāo)準(zhǔn)差低于其他算法。除此之外,采用IF-DFC 的有監(jiān)督的LS 分類(lèi)準(zhǔn)確率已在63%左右,已超過(guò)采用DFC 分類(lèi)算法3 個(gè)百分點(diǎn)。
圖5 DFC 各算法分類(lèi)結(jié)果圖Fig.5 Classification results of each algorithm of DFC
圖4 給出的IF-DFC 的分類(lèi)結(jié)果是選取了具有較高準(zhǔn)確率的IMF 層,而圖6 給出了IF-DFC 在多個(gè)IMF 層的分類(lèi)結(jié)果。同樣地,將這些IMF 層上的IF-DFC 通過(guò)聚類(lèi)后計(jì)算LS 特征,再用SVM 進(jìn)行分類(lèi)。從圖中可以看到,IMF1、IMF2和IMF4層準(zhǔn)確率較高,IMF1、IMF2和IMF3層分類(lèi)標(biāo)準(zhǔn)差較低,因此這也是圖4 中有監(jiān)督LS-SVM 選取IMF1的原因。
圖6 LS-SVM 有監(jiān)督聚二類(lèi)IMF1~I(xiàn)MF6的分類(lèi)結(jié)果Fig.6 LS-SVM supervised clustering classification results of two classes IMF1—IMF6
本節(jié)將分別給出HMM 和SVM 采用式(9)中聚類(lèi)狀態(tài)序列矢量的分類(lèi)準(zhǔn)確率,該序列矢量分別由DFC 和IF-DFC 采用EA Clustering 獲得。圖7 給出DFC 和IF-DFC 在設(shè)置不同聚類(lèi)數(shù)時(shí),采用EA Clustering 聚類(lèi)后獲得的分類(lèi)準(zhǔn)確率,其中IF-DFC 選用的是IMF 層中較高準(zhǔn)確率的分類(lèi)結(jié)果。其中SupHMM-IF-DFC 是在IMF4的計(jì)算結(jié)果,UnHMM-IF-DFC 是在IMF1的計(jì)算結(jié)果,從圖7(a)給出的平均分類(lèi)準(zhǔn)確率看,平均分類(lèi)準(zhǔn)確率在47%~59%,難以將MCI 組和NC 組區(qū)分,但也應(yīng)看到IF-DFC 的分類(lèi)準(zhǔn)確率略高于傳統(tǒng)DFC,除聚類(lèi)數(shù)為5 的情況除外,而有監(jiān)督聚類(lèi)分類(lèi)準(zhǔn)確率都略高于無(wú)監(jiān)督聚類(lèi)。圖7(b~e)給出了10 次實(shí)驗(yàn)的分類(lèi)準(zhǔn)確率曲線。可以看出:將聚類(lèi)數(shù)設(shè)為2 和3 時(shí),分別有1 和2 次實(shí)驗(yàn)有監(jiān)督聚類(lèi)IF-DFC 分類(lèi)準(zhǔn)確率低于DFC;將聚類(lèi)數(shù)設(shè)為3 和4 時(shí),也僅有3 和2 次實(shí)驗(yàn)無(wú)監(jiān)督聚類(lèi)IF-DFC 分類(lèi)準(zhǔn)確率低于DFC。
圖8 給出了SVM 對(duì)DFC 和IF-DFC EA Clustering 無(wú)監(jiān)督聚類(lèi)后的分類(lèi)結(jié)果。與圖7 的結(jié)果類(lèi)似,IF-DFC 的分類(lèi)準(zhǔn)確率略高于DFC,除無(wú)監(jiān)督聚類(lèi)數(shù)為3 的情況除外,有監(jiān)督聚類(lèi)分類(lèi)準(zhǔn)確率略高于無(wú)監(jiān)督,除DFC 聚類(lèi)數(shù)為3 的情況除外。
圖8 SVM 算法分類(lèi)結(jié)果圖Fig.8 Classification results of the SVM algorithm
通過(guò)FC 研究MCI 與NC 差異是較常見(jiàn)技術(shù),因?yàn)镸CI 作為一種功能性連接喪失癥,其在FC 的表現(xiàn)與NC 組將有所區(qū)別。由于FC 的非平穩(wěn)性,對(duì)其分段加窗后聚類(lèi)也并不是種新技術(shù),但現(xiàn)有文獻(xiàn)似乎并未過(guò)多關(guān)心該技術(shù)中的聚類(lèi)方式,比如無(wú)監(jiān)督方式還是有監(jiān)督組平均,甚至聚類(lèi)數(shù)也各不相同,從2 類(lèi)到5 類(lèi)都有。本文試圖從聚類(lèi)本身所展示特性來(lái)評(píng)估聚類(lèi)的合理性,同時(shí)引入機(jī)器學(xué)習(xí)的分類(lèi)方法,從分類(lèi)準(zhǔn)確率進(jìn)一步評(píng)估聚類(lèi)方法的合理性,主要關(guān)心的仍是聚類(lèi)方式及聚類(lèi)數(shù)。
EA Clustering 引入聚類(lèi)參數(shù)來(lái)體現(xiàn)聚類(lèi)的合理性,例如SOCR,聚類(lèi)數(shù),聚類(lèi)時(shí)間,聚類(lèi)方式以及占比差等指標(biāo)。大部分無(wú)監(jiān)督聚類(lèi)中心指向并不明確,雖占比差超過(guò)0,但由于所聚的類(lèi)代表的簇既有MCI 被試也有NC 被試,因此其表現(xiàn)的特征歸為何組就不易斷定。同時(shí),無(wú)監(jiān)督聚類(lèi)還需設(shè)定最小SOCR 條件,否則所聚的矢量只會(huì)集中到少數(shù)幾類(lèi)中,極端時(shí)只集中到一類(lèi),這將給分析帶來(lái)極大困難。但是,設(shè)置SOCR 條件又會(huì)使聚類(lèi)時(shí)間增加,因?yàn)榫垲?lèi)結(jié)果不滿足SOCR 條件,算法只能重新開(kāi)始。這說(shuō)明若無(wú)監(jiān)督聚類(lèi)不受干預(yù),聚類(lèi)其實(shí)更傾向于聚較少類(lèi),而不是更多的類(lèi),由此可以猜測(cè)無(wú)監(jiān)督的自組織性存在一定欠缺。而通過(guò)組平均的方式得到的狀態(tài)指向更加明確,且其運(yùn)算只需要加法和除法而已,而無(wú)需像無(wú)監(jiān)督聚類(lèi)求歐氏距離并反復(fù)迭代,因此計(jì)算組平均的時(shí)間要遠(yuǎn)小于無(wú)監(jiān)督聚類(lèi)。
從另外一方面,利用組平均或無(wú)監(jiān)督聚類(lèi)結(jié)果,可以將動(dòng)態(tài)連接性看成一系列有限狀態(tài)序列,該有限狀態(tài)序列其實(shí)就是所聚的類(lèi)。因此,可以將該有限狀態(tài)序列作為特征輸入到分類(lèi)器中,但由于該方法的分類(lèi)準(zhǔn)確率均接近50%,即接近二分類(lèi)中1/2 的概率,因此考慮了另外一種特征提取的方法,把動(dòng)態(tài)功能性連接擬合為各有限狀態(tài)的線性組合,將該擬合系數(shù)作為分類(lèi)特征。采用這種方式的分類(lèi),同樣是采用組平均方式所得到的特征的分類(lèi)精度要高于無(wú)監(jiān)督聚類(lèi),且分類(lèi)準(zhǔn)確率可以達(dá)到63%。另外,本文在計(jì)算動(dòng)態(tài)FC 時(shí),考慮另外一種方式,即將TC 先經(jīng)EMD 分解后再計(jì)算動(dòng)態(tài)FC,這樣做的目的在于可以計(jì)算每一層固有頻率上的動(dòng)態(tài)FC。從實(shí)驗(yàn)結(jié)果看,在IMF 層上聚類(lèi)后,總有一些層上的分類(lèi)準(zhǔn)確率要高于未分層的動(dòng)態(tài)FC。一個(gè)可能的解釋是,分層以后會(huì)把一些MCI 組和NC 組的共同噪聲進(jìn)行分離,如原始fMRI 信號(hào)中來(lái)自于呼吸和心跳的共同噪聲[43-45],從而提高分類(lèi)準(zhǔn)確率。另外一個(gè)可能的解釋是,神經(jīng)元放電頻率并不一定相同,在不同的固有頻率上進(jìn)行聚類(lèi),以此尋找MCI 組與NC 組間的差異性應(yīng)該具有更好的合理性。當(dāng)然,本文在固有頻率上的研究并不充分。首先,IMF 信號(hào)聚類(lèi)在何層具有更好的性能,或者具有更好的分類(lèi)準(zhǔn)確率,需要進(jìn)一步分析。從實(shí)驗(yàn)結(jié)果看,利用LS 特征進(jìn)行分類(lèi)時(shí),最好的分類(lèi)準(zhǔn)確率在第1 層,第2 層和第4 層,均具有超過(guò)60%的分類(lèi)準(zhǔn)確率。然而,IMF信號(hào)僅能體現(xiàn)信號(hào)在一固有頻率的特征,該固有頻率僅僅是一個(gè)頻帶,因此只能得到在中低頻率上具有較好性能的結(jié)論,而無(wú)法具體到頻率點(diǎn)。下一步工作可采用希爾伯特變換計(jì)算IMF 信號(hào)的瞬時(shí)頻率,從而確定聚類(lèi)具體在何頻率帶進(jìn)行,這對(duì)完善IMF 聚類(lèi)具有積極意義。比如,本文現(xiàn)在采用的多通道EMD 僅能保證一個(gè)被試的各功能區(qū)在相同IMF 層上的固有頻率匹配,但被試與被試間在相同的層上匹配并不嚴(yán)格,因?yàn)樵摲纸馐仟?dú)立對(duì)每一個(gè)被試分別進(jìn)行。然而,計(jì)算出具體頻帶后,可根據(jù)該結(jié)果選擇被試與被試在何層具有最佳的頻率匹配。
最后需要強(qiáng)調(diào)的是,本文并未將重心放在如何提高M(jìn)CI 與NC 的分類(lèi)準(zhǔn)確率上。從以往的文獻(xiàn)看,大多對(duì)DFC 進(jìn)行聚類(lèi)的方法[30-34]主要也是分析疾病組與控制組間的顯著性差異,而較少地關(guān)心用其來(lái)進(jìn)行分類(lèi),有可能的一個(gè)原因在于用這種方法進(jìn)行分類(lèi)的準(zhǔn)確率并不高。從本文的實(shí)驗(yàn)結(jié)果也可以看到,其部分結(jié)果僅略超60%。因此,本文也僅僅將分類(lèi)準(zhǔn)確率作為一種評(píng)價(jià)聚類(lèi)性能的指標(biāo),而不是將聚類(lèi)看成是一種分類(lèi)方法。從該角度看,經(jīng)IMF 的有監(jiān)督聚類(lèi)后,分析MCI 組和NC 組間的顯著性差異的工作也是必要的,特別與加窗DFC 的方法相比,這種差異性有何不同,這部分研究也將是未來(lái)工作的重點(diǎn)之一。特別地,如果以提高分類(lèi)準(zhǔn)確率為目的來(lái)研究聚類(lèi)方法,在未來(lái)也可以考慮利用提取特征的方法,因?yàn)槟壳氨疚牡姆诸?lèi)準(zhǔn)確率未得到大幅提升的原因之一是FC 的維度太高,至少是一個(gè)相關(guān)陣的上三角部分,一些研究已經(jīng)表明,特征數(shù)多將產(chǎn)生較多的冗余信息。
MCI 與NC 在FC 上表現(xiàn)了較大的差異性,且FC 還具有一定的動(dòng)態(tài)特性。對(duì)FC 進(jìn)行聚類(lèi)后再研究其差異性是一種常用方法,遺憾的是現(xiàn)存方法并未過(guò)多討論聚類(lèi)方法本身。針對(duì)以上問(wèn)題,本文提出利用EA Clustering、IF-DFC 和LS 擬合特征等方法研究和評(píng)價(jià)聚類(lèi)的合理性,得出如下結(jié)論:(1)從聚類(lèi)時(shí)間和占比差等聚類(lèi)指標(biāo)看,有監(jiān)督聚類(lèi)比無(wú)監(jiān)督聚類(lèi)具有更好的合理性,因?yàn)槠渚垲?lèi)時(shí)間更少,占比差更高,且有監(jiān)督聚類(lèi)數(shù)可設(shè)為2 或3;(2)從分類(lèi)準(zhǔn)確率的實(shí)驗(yàn)結(jié)果看,實(shí)驗(yàn)結(jié)果仍支持有監(jiān)督聚類(lèi)所展示的差異性比無(wú)監(jiān)督聚類(lèi)更顯著,因?yàn)闊o(wú)論采用HMM 和SVM 的分類(lèi)器,還是采用聚類(lèi)所得到的狀態(tài)序列和LS 擬合特征,有監(jiān)督聚類(lèi)的分類(lèi)準(zhǔn)確率均高于無(wú)監(jiān)督聚類(lèi)。(3)仍從分類(lèi)準(zhǔn)確率看,將動(dòng)態(tài)FC 在不同固有頻率層上聚類(lèi),其顯著性差異要好于不劃分固有頻率的聚類(lèi),因?yàn)闊o(wú)論采用HMM 和SVM 的分類(lèi)器,還是采用聚類(lèi)所得到的狀態(tài)序列和LS 擬合特征,引入固有頻率的聚類(lèi)分類(lèi)準(zhǔn)確率要高于無(wú)固有頻率層上的聚類(lèi)。