李國豪,楊 豪,劉 彥,張俊然*
(1. 四川大學(xué)電氣工程學(xué)院,四川 成都 610065;2. 四川大學(xué)華西醫(yī)院,四川 成都 610065)
功能磁共振成像(Functional Magnetic Resonance Imaging,fMRI)技術(shù)由于具有無創(chuàng)性,可以研究大腦神經(jīng)元的自發(fā)活動(dòng)[1],能同時(shí)在宏觀層面對腦結(jié)構(gòu)和功能進(jìn)行研究等優(yōu)點(diǎn)成為目前腦科學(xué)主流研究手段之一。傳統(tǒng)的針對功能像MRI圖像分析的指標(biāo)提取和分析常采用ALFF(Amplitude of Low-Frequency Fluctuations)、ReHo(Regional Homogeneity)、FC(Functional Connectivity)等指標(biāo)分析方法進(jìn)行,通過統(tǒng)計(jì)學(xué)在局部、腦區(qū)連接和全腦的多種角度解釋其臨床意義[2]。最近的大量研究發(fā)現(xiàn)并指出了一些腦相關(guān)疾病患者在腦網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)存在差異[3],因此,可以使用復(fù)雜網(wǎng)絡(luò)理論對腦相關(guān)疾病患者和正常人腦功能網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)進(jìn)行研究。如文獻(xiàn)[4]利用慢性偏頭痛患者的靜息態(tài)功能磁共振(resting state-functional Magnetic Resonance Imaging,rs-fMRI)數(shù)據(jù)構(gòu)建腦功能拓?fù)浣Y(jié)構(gòu)網(wǎng)絡(luò),發(fā)現(xiàn)了患者與健康者的網(wǎng)絡(luò)屬性差異。文獻(xiàn)[5]利用糖尿病患者的rs-fMRI數(shù)據(jù),定義90個(gè)腦區(qū)為網(wǎng)絡(luò)節(jié)點(diǎn),Pearson相關(guān)系數(shù)為邊對健康者和患者進(jìn)行了復(fù)雜網(wǎng)絡(luò)屬性分析,發(fā)現(xiàn)患者與健康者的網(wǎng)絡(luò)拓?fù)鋵傩杂胁町?。以上這些研究針對腦網(wǎng)絡(luò)指標(biāo)進(jìn)行統(tǒng)計(jì)學(xué)分析進(jìn)而解釋了統(tǒng)計(jì)差異指標(biāo)的臨床意義。
目前,基于腦相關(guān)疾病的網(wǎng)絡(luò)屬性指標(biāo)在機(jī)器學(xué)習(xí)和疾病模式分類中發(fā)揮著越來越重要的作用[6-7],如文獻(xiàn)[8]利用90個(gè)腦區(qū)的Pearson相關(guān)系數(shù)矩陣,把相關(guān)系數(shù)作為特征值,利用F分?jǐn)?shù) 對4005維特征進(jìn)行選擇,采用支持向量機(jī)(Support Vector Machine,SVM)對癲癇病患者與健康者進(jìn)行分類。文獻(xiàn)[9]利用“小世界”網(wǎng)絡(luò)拓?fù)鋵傩詫︼D葉癲癇病患者的MRI數(shù)據(jù)進(jìn)行分析,通過選擇不同節(jié)點(diǎn)數(shù)來篩選特征并進(jìn)行分類。文獻(xiàn)[10]通過計(jì)算出網(wǎng)絡(luò)拓?fù)鋵傩詫σ钟舭Y患者進(jìn)行分析,采用雙樣本T檢驗(yàn)對特征進(jìn)行篩選并進(jìn)行分類。上述研究在特征獲得與選擇上,要么構(gòu)建了大量的針對節(jié)點(diǎn)的局部屬性;要么選擇某些網(wǎng)絡(luò)拓?fù)鋵傩宰鳛樘卣鬏斎脒M(jìn)行分類學(xué)習(xí)而沒有進(jìn)行有效的特征篩選。如何從不同維度選取特征指標(biāo)來表征腦相關(guān)疾病網(wǎng)絡(luò)特點(diǎn)的分類特征,進(jìn)而篩選出對疾病分類有用的特定特征指標(biāo)從而達(dá)到去除冗余特征的目的,在這方面的研究還較少。
本研究以糖尿病為例,擬通過圖論分析技術(shù)對糖尿病患者腦功能異常進(jìn)行檢測并構(gòu)建其靜息態(tài)腦功能網(wǎng)絡(luò)。針對上述研究的不足,在特征的提取上,本研究在多個(gè)尺度上利用腦相關(guān)矩陣和網(wǎng)絡(luò)拓?fù)鋵傩越Y(jié)果作對比;在特征的選擇上,本研究不僅利用經(jīng)典的Relief算法,還應(yīng)用近幾年提出的兩種衍生Relief算法對特征進(jìn)行有效的篩選后進(jìn)行模式分類。在構(gòu)建特征選擇模型時(shí),不但考慮局部的節(jié)點(diǎn)特征,也考慮全腦的網(wǎng)絡(luò)屬性指標(biāo)。最后將雙樣本T檢驗(yàn)與Relief系列方法在多尺度上進(jìn)行了特征選擇后分類效果的對比,并對結(jié)果進(jìn)行了簡單的分析。
一般來說傳統(tǒng)腦網(wǎng)絡(luò)分析方法的步驟分為:1)以一個(gè)特定模板定義腦網(wǎng)絡(luò)的節(jié)點(diǎn);2)計(jì)算Pearson相關(guān)系數(shù)作為邊,建立腦相關(guān)系數(shù)矩陣獲得特征;3)利用腦相關(guān)矩陣計(jì)算網(wǎng)絡(luò)拓?fù)渲笜?biāo)獲得特征;4)利用傳統(tǒng)統(tǒng)計(jì)學(xué)分析方法對實(shí)例進(jìn)行分析。
由于本研究重點(diǎn)不在網(wǎng)絡(luò)指標(biāo)的構(gòu)建和臨床指標(biāo)的分析,故對上述步驟進(jìn)行簡短的描述。
本文基于90個(gè)腦區(qū)的AAL(Anatomical Automatic Labeling)模板,腦區(qū)內(nèi)所有體素的時(shí)間序列進(jìn)行加權(quán)平均得到平均時(shí)間序列。腦區(qū)作為節(jié)點(diǎn),腦區(qū)之間的時(shí)間序列相關(guān)系數(shù)作為邊。然后計(jì)算所有節(jié)點(diǎn)兩兩之間Pearson相關(guān)系數(shù),得到一個(gè)90×90相關(guān)矩陣,即為該個(gè)體的相關(guān)系數(shù)矩陣。
對于所有的相關(guān)矩陣要選定一個(gè)閾值才能將相關(guān)矩陣換成二值矩陣,以相關(guān)系數(shù)是否超過某一閾值來判定節(jié)點(diǎn)之間是否存在邊,本文選取一個(gè)連續(xù)閾值范圍0.1~0.4,選這個(gè)閾值范圍是為了驗(yàn)證本研究的特征選擇算法在較寬泛的閾值是否有效(選擇0.1下限是因?yàn)楹芏嘌芯恳源碎撝甸_始取,選擇0.4上限是避免最短路徑長度存在無限大的可能)。設(shè)定步長為0.01,總共31個(gè)閾值點(diǎn)。
分別構(gòu)建1型糖尿病患者和健康者的腦網(wǎng)絡(luò),計(jì)算出來的拓?fù)渲笜?biāo)包括平均聚類系數(shù)(Clustering Coefficient,Cc)[11]、標(biāo)準(zhǔn)化平均路徑長度(Lambda)、標(biāo)準(zhǔn)化聚類系數(shù)(Gamma)、平均路徑長度(Shortest Path Length,Lp)、局部效率(Local Efficiency,Le)[12]、全局效率(Global Efficiency,Ge)[13]、平均度中心性(Degree Centrality,Dc)[14]以及小世界性(σ)[15]。
Relief(Relevant Features)算法是一種過濾式特征選擇方法,最早是由Kira提出[16],可以解決多分類問題以及回歸問題,是公認(rèn)的效果較好的特征評估算法[17]。
近幾年Relief的衍生算法在經(jīng)典的Relief算法上做出一些改進(jìn)。文獻(xiàn)[18]在Relief算法基礎(chǔ)上提出一種多階段Relief算法MS-Relief(Multi-Stages Relief)從橫縱兩個(gè)維度對特征集進(jìn)行降維處理。解決了Relief算法一是未考慮到多個(gè)特征聯(lián)合對分類的影響。文獻(xiàn)[19]針對Relief算法在數(shù)學(xué)定義形式比較抽象,性質(zhì)難以解釋,且對噪聲和野點(diǎn)魯棒性較差的缺陷,提出了基于兩類數(shù)據(jù)的Relief特征加權(quán)算法LIE-Relief(Local consistency Information Entropy-Relief algorithm)。
Relief算法的每個(gè)特征向量對不同樣本有不同區(qū)分能力,該算法借助這種區(qū)分能力來估計(jì)特征權(quán)值和該特征的重要程度。具體算法如下:
1)從訓(xùn)練集S中隨機(jī)抽取一個(gè)樣本xn(1≤n≤N)并記錄該樣本的類目。
2)選取距樣本xn距離最近的同類樣本NH(xn)和距離最近的異類樣本NM(xn)。如果在某一特征上,同類樣本到樣本xn的距離小于異類樣本到xn的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,反之則說明該特征對區(qū)分同類和不同類的最近鄰是起負(fù)面作用的。
3)按照如下規(guī)則更新每個(gè)特征的權(quán)重w,如式(1)、式(2)所示
(1)
(2)
文獻(xiàn)[18]的算法如下:
1)從所有特征中隨機(jī)挑選兩個(gè)特征組成聯(lián)合特征對,重復(fù)2/n次操作得到不重復(fù)的特征對。按照式(3)得到所有特征對的差異度
|max(x(i))-min(x(i))|·|max(x(j))-min(x(j))|
(3)
2)計(jì)算聯(lián)合特征對的協(xié)方差,式(4)所示消除特征對中一個(gè)特征。
Cov(i,j)=E[(i-μi)(j-μj)]
(4)
式中,μ表示特征的數(shù)學(xué)期望。
文獻(xiàn)[19]引入間距最大化的特征加權(quán)信息熵,方法如下:
1)給定二類數(shù)據(jù)集一個(gè)初始權(quán)值w(0)=1/K,其中K代表特征個(gè)數(shù)。
2)根據(jù)式(5)~(7)重新計(jì)算差異性度量。根據(jù)式(8)引入信息熵理論使得熵和樣本在屬性域上的分布呈正比
(5)
(6)
式中,η表示j維特征的模糊隸屬功度公式,δ表示模糊隸屬度參數(shù)。
(7)
其次引入信息熵理論公式如式(8)所示
(8)
3)定義LIE-Relief算法的目標(biāo)函數(shù)如式(9)
(9)
式中,ρn(w)函數(shù)表示間距最大化,λJ(wj)函數(shù)表示特征加權(quán)的信息熵。
本文算法框架迭代5次即N=5,每次會隨機(jī)抽取30個(gè)樣本xn即m=30,每個(gè)樣本計(jì)算同類別樣本和不同類別樣本數(shù)分別是10即k=10,取模糊隸屬度參數(shù)δ=2。
本研究每個(gè)閾值下的網(wǎng)絡(luò)有其網(wǎng)絡(luò)屬性,為了簡化計(jì)算,選取了具有代表性的閾值點(diǎn)作為特征選擇的實(shí)驗(yàn)條件。采用SPSS22.0軟件對兩類樣本不同閾值下的網(wǎng)絡(luò)屬性進(jìn)行雙樣本T檢驗(yàn),以期得到每個(gè)指標(biāo)存在顯著差異的閾值范圍。依據(jù)具有顯著差異的指標(biāo)數(shù)量多少得到具有代表性閾值點(diǎn),在得到具體閾值點(diǎn)之后,使用Relief及其最新系列算法在該閾值點(diǎn)下對特征進(jìn)行權(quán)重計(jì)算,采用10折交叉訓(xùn)練得到訓(xùn)練集不同特征權(quán)重占比(表1~3給出了其中5組實(shí)驗(yàn)權(quán)重占比),其中訓(xùn)練集與測試集的數(shù)據(jù)比為9:1,依據(jù)得出來的特征權(quán)重,設(shè)定權(quán)重占比閾值為10%對特征進(jìn)行篩選作為分類器輸入考察分類效果;作為對比,本文利用雙樣本T檢驗(yàn)的傳統(tǒng)特征選擇方法在不同維度(4005維、8維)也進(jìn)行了特征篩選并進(jìn)行分類學(xué)習(xí)。
圖1 本文模型流程
本實(shí)驗(yàn)共收集四川大學(xué)華西醫(yī)院數(shù)據(jù)庫的41名1型糖尿病患者和41名健康者,被試信息如下:采用西門子公司的3.0T特斯拉超導(dǎo)型MRI成像系統(tǒng)(Siemens Magnctom Trio Tim 3.0TMR)進(jìn)行掃描。掃描參數(shù)如下所示:重復(fù)時(shí)間(Repetition Time,TR)為2,000ms;回波時(shí)間(Echo Time,TE)為30 ms;掃描層數(shù)為33;翻轉(zhuǎn)角(Flip Angle,F(xiàn)A)為 90度;層厚(Slice Thickness,ST)為4mm;掃描視野(Field of View,F(xiàn)OV)為240mm×240mm;掃描矩陣(Data Matrix)大小為64×64;體素大小(Voxel Size)為 3.75×3.75×4.00 mm3,采集的時(shí)間點(diǎn)數(shù)為210。
采用DPARSF(http://rfmri.org/DPARSF)軟件對數(shù)據(jù)進(jìn)行預(yù)處理(包括:時(shí)間層矯正、頭動(dòng)校正、空間標(biāo)準(zhǔn)化、平滑處理、低頻濾波)和功能網(wǎng)絡(luò)構(gòu)建、分析。
經(jīng)過多次Relief算法和另外兩種衍生算法進(jìn)行特征權(quán)重計(jì)算,得到8個(gè)拓?fù)渲笜?biāo)權(quán)重占比或被算法篩選出的特征組合。三種算法計(jì)算的各個(gè)拓?fù)渲笜?biāo)權(quán)重占比如表1、表2、表3所示。
表1 Relief權(quán)重占比
表2 LIE-Relief權(quán)重占比
表3 MS-Lelief特征篩選
本研究驗(yàn)證屬性特征對分類的有效性和特征選擇算法性能,在8種拓?fù)鋵傩灾笜?biāo)在有代表性的3種相關(guān)性閾值(閾值0.27、0.34、0.40分別代表在所選腦區(qū)相關(guān)系數(shù)閾值范圍經(jīng)雙樣本T檢驗(yàn)后健康者與患者的Lambda;Lambda、Lp;Lambda、Ge指標(biāo)存在顯著差異)下使用SVM對算法篩選的特征進(jìn)行分類效果考察,采用十折交叉驗(yàn)證最后得到測試集分類準(zhǔn)確率如表4所示。
表4 分類準(zhǔn)確率
本次實(shí)驗(yàn)針對節(jié)點(diǎn)特征進(jìn)行比較,也在宏觀層面(拓?fù)渲笜?biāo))進(jìn)行比較,利用不同尺度的特征、不同特征選擇的方法,采用SVM在節(jié)點(diǎn)相關(guān)性為0.40閾值條件下進(jìn)行對比分析。
表5 多尺度分類結(jié)果
從表4分類結(jié)果分析,在達(dá)到同樣精度時(shí),Relief算法篩選出了6個(gè)特征作為分類輸入,而LIE-Relief篩選出最少的4個(gè)特征,并輸入分類得到最高的準(zhǔn)確率89.02%。可以看出,經(jīng)過Relief算法和Relief衍生算法篩選的特征達(dá)到了好的分類效果并去除了冗余特征,分析顯示:加入最大間距的信息熵加權(quán)Relief算法有更好的特征選擇效果。
從構(gòu)建網(wǎng)絡(luò)的閾值層面分析,分類精度隨著閾值的升高都有一定的提升。其次,在不同閾值條件下,特征選擇方法依然發(fā)揮作用,不同的特征選擇方法都會隨著閾值增高其分類效果有增高的趨勢,原因可能是由于不同閾值造成了拓?fù)浣Y(jié)構(gòu)由弱至強(qiáng)的性質(zhì)帶來的,而與特征選擇關(guān)系不大。
其次,當(dāng)利用Relief系列算法和雙樣本T檢驗(yàn)篩選的指標(biāo)進(jìn)行分類比較時(shí),Relief算法篩選出的特征分類效果更好。最后實(shí)驗(yàn)結(jié)果表明,無論是以腦相關(guān)網(wǎng)絡(luò)的4005維特征還是拓?fù)鋵傩蕴卣髯鳛榉诸愝斎耄琑elief系列算法相比于雙樣本T檢驗(yàn)從最后分類精度、計(jì)算量和計(jì)算時(shí)間上都效果更好。
利用之前的一些在特征選擇和分類研究上,本文對比文獻(xiàn)[8]、文獻(xiàn)[9],具體效果如表6所示。
表6 不同模型分類準(zhǔn)確度比較
為了高效去除腦網(wǎng)絡(luò)計(jì)算過程中產(chǎn)生的冗余指標(biāo),本研究以糖尿病腦影像數(shù)據(jù)作為研究對象,比較了多個(gè)尺度層面下腦網(wǎng)絡(luò)指標(biāo)在運(yùn)用不同特征選擇方法后篩選出的特征及其分類效果。結(jié)果表明:
1)針對4005維腦相關(guān)系數(shù)特征,Relief算法與雙樣本T檢驗(yàn)均表現(xiàn)不錯(cuò)的分類效果,但計(jì)算量和消耗時(shí)常比較大;針對具備全腦信息的拓?fù)渲笜?biāo),雙樣本T檢驗(yàn)的分類精度不高,而Relief算法及其衍生算法可以有效地對特征進(jìn)行篩選。
2)在分類結(jié)果上,本研究應(yīng)用的3種Relief系列算法篩選出來的特征得到的分類效果均優(yōu)于雙樣本T檢驗(yàn)選擇后的分類效果。其次LIE-Relief算法使用最少特征得到最高的89.02%分類準(zhǔn)確率。
3)由于本次研究樣本數(shù)量偏少,可能導(dǎo)致研究演過存在選擇性偏倚,如果進(jìn)一步的擴(kuò)大樣本量,建立更完善的指標(biāo)數(shù)據(jù)庫,可以獲得更加可靠更加穩(wěn)定的結(jié)果。