劉茜,王瑜,付常洋,肖洪兵,邢素霞
北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京100048
阿爾茨海默?。ˋlzheimer's disease,AD)是一種多發(fā)于65周歲以上老年人的常見疾病,其特征是潛伏性認(rèn)知能力下降和記憶功能障礙[1-2]。國際老年癡呆協(xié)會(huì)研究指出,2050年全球AD患病人數(shù)將增加到13 200萬[3],隨著人口老齡化的加劇,AD逐漸成為困擾社會(huì)和家庭的重大問題。目前對(duì)于AD尚無治療手段,僅可通過早期發(fā)現(xiàn)以及干預(yù)治療減慢病情的發(fā)展。由于AD確診前無明顯臨床表現(xiàn),沒能在患病初期及時(shí)發(fā)現(xiàn),從而造成病情的延誤,最終發(fā)展為AD。因此如何更早地發(fā)現(xiàn)AD病癥,并給出合理的治療方案是目前研究的重點(diǎn)。
目前醫(yī)學(xué)上對(duì)AD的診斷主要依靠患者的臨床表現(xiàn),同時(shí)結(jié)合影像學(xué)檢查、腦脊液檢查和腦電圖等[4]。磁共振成像技術(shù)(Magnetic Resonance Imaging,MRI)由于具有無損傷性、圖像對(duì)比度高、可任意方位斷層等優(yōu)勢被廣泛應(yīng)用于AD檢查。隨著計(jì)算機(jī)技術(shù)的飛速發(fā)展,機(jī)器學(xué)習(xí)輔助AD診斷方法層出不窮,周文等[5]使用核主成分分析(Kernel Principal Component Analysis,KPCA)提取AD患者和正常被試(Normal Control,NC)的MRI重點(diǎn)切片特征對(duì)AD進(jìn)行診斷。劉衛(wèi)芳等[6]使用灰度共生矩陣和游程長矩陣提取胼胝體的三維紋理特征,并對(duì)AD進(jìn)行診斷。楊晨暉等[7]使用主成分分析(Principal Component Analysis,PCA)和線性鑒別分析(Linear Discriminant Analysis,LDA)融合的方法提取特征,并采用最近鄰分類算法進(jìn)行AD分類。上述方法雖然都獲得了很好的結(jié)果,但是文獻(xiàn)[5]和文獻(xiàn)[6]沒能充分利用MRI圖像全腦信息,文獻(xiàn)[7]中的PCA受數(shù)據(jù)分布(方差)影響大,存在降維后可能不利于分類的情況。
特征的選擇和提取對(duì)分類結(jié)果有著重要的影響,通過機(jī)器學(xué)習(xí)算法可以提取更有利于分類的特征,在訓(xùn)練樣本不足的情況下提高分類準(zhǔn)確率,適用于類似本研究樣本較少的情況。本研究提出一種基于支持向量機(jī)遞歸特征消除(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)和LDA 的AD 輔助診斷方法,研究AD、主觀記憶衰退(Subjective Memory Complaints,SMC)和NC 間兩兩分類輔助診斷,其中SMC 被認(rèn)為是輕度認(rèn)知障礙(Mild Cognitive Impairment,MCI)的前段,極易發(fā)展為MCI,甚至AD。如果能在AD 發(fā)展最早期的階段SMC 達(dá)到較好的輔助診斷率,就能及時(shí)遏制病情的發(fā)展,為患者帶來最佳的治療效果。本研究利用SVM-RFE 從全腦90 個(gè)腦區(qū)的灰質(zhì)體積中篩選出對(duì)分類有重要影響的特征,避免忽視差異較弱特征和夸大方差影響,然后通過LDA 將類間離散度擴(kuò)大、類內(nèi)離散度縮小,進(jìn)一步提高分類準(zhǔn)確率。
本研究使用來自于ADNI數(shù)據(jù)庫的共110個(gè)MRI數(shù)據(jù)。其中AD組平均年齡73.29歲,共34名被試(男18名,女16名);SMC組平均年齡72.50歲,共26名被試(男14 名,女12 名);NC 組平均年齡76.4 歲,共50名被試(男28名,女22名)。采用根據(jù)MPRAGE協(xié)議采集的T1加權(quán)三維MRI圖像作為實(shí)驗(yàn)數(shù)據(jù),大小為256×256×170,層厚為1.2 mm。
大腦灰質(zhì)是信息處理中心,AD患者較NC的腦部結(jié)構(gòu)出現(xiàn)灰質(zhì)萎縮,且各腦區(qū)萎縮程度不同,同一腦區(qū)在AD不同階段萎縮程度也不相同,因此本研究使用大腦90個(gè)腦區(qū)的灰質(zhì)體積作為分類特征,通過SPM8和dpabi兩個(gè)軟件對(duì)原始圖像做預(yù)處理,在SPM8中選用DARTEL[8]腦圖像預(yù)處理方法,將圖像配準(zhǔn)到MNI空間(Montreal Neurological Institute,根據(jù)一系列正常人腦磁共振圖像建立的坐標(biāo)系統(tǒng)),然后通過dpabi提取90個(gè)腦區(qū)灰質(zhì)體積,預(yù)處理共分為4步[9]:(1)分割。將原始圖像分割為灰質(zhì)c1、白質(zhì)c2、腦脊液c3圖像,以及經(jīng)DARTEL計(jì)算得到的灰質(zhì)rc1和白質(zhì)rc2圖像。(2)生成特異性模板。使用50名NC大腦灰質(zhì)rc1和白質(zhì)rc2生成特異性模板,做6次迭代,生成6個(gè)模板,選取最為精準(zhǔn)的template 6 模板作為配準(zhǔn)使用的特異性模板。(3)每名被試的灰質(zhì)圖像通過DARTEL配準(zhǔn)到特異性模板,生成名為u_rc1的流動(dòng)場。(4)使用流動(dòng)場和template 6模板將每個(gè)被試配準(zhǔn)到MNI空間,并進(jìn)行體積調(diào)制,保留各個(gè)腦區(qū)的體積信息,其中平滑參數(shù)設(shè)置為[8,8,8]。在dpabi軟件中對(duì)預(yù)處理得到的圖像做體積計(jì)算,使用目前廣泛應(yīng)用的標(biāo)準(zhǔn)腦AAL模板獲得大腦90個(gè)腦區(qū)的灰質(zhì)體積。詳見圖1。
圖1 圖像預(yù)處理步驟示意圖Fig.1 Diagram of image preprocessing
SVM-RFE 由Guyon 等[10]提出,用于癌癥分類中基因的選擇,通過基于SVM 的分類準(zhǔn)則對(duì)分類特征做重要性排序,逐步消去評(píng)分最低的特征,并進(jìn)行反復(fù)迭代,獲取最優(yōu)特征子集[11]。此方法在自閉癥識(shí)別[12]、前列腺組織病理學(xué)分級(jí)[13]等醫(yī)學(xué)方面得到有效應(yīng)用。
SVM-RFE 評(píng)價(jià)準(zhǔn)則采用SVM 分類器訓(xùn)練得到超平面權(quán)向量的平方值,特征集合S中第i個(gè)特征的評(píng)分通過式(1)計(jì)算。
其中,wi為特征i對(duì)應(yīng)的權(quán)向量。
初始化特征集合S,設(shè)定最優(yōu)特征子集的維度為N,使用特征集合S訓(xùn)練SVM 分類器,由式(1)找出評(píng)分最低的特征e= argminci,在特征集合S中除去此特征S=[S-e],重復(fù)此過程直至S的維度滿足最優(yōu)特征子集設(shè)定的維度N。SVM-RFE 可以保留更有益于SVM 分類器分類的特征,消除類間干擾和重要性低的特征,提高分類準(zhǔn)確率。
LDA 是一種經(jīng)典的線性學(xué)習(xí)方法,廣泛應(yīng)用于降維和模式分類領(lǐng)域[14-16],旨在利用降維的思想,將高維數(shù)據(jù)降維至類別區(qū)分最顯著的空間[17]。欲使同類樣本投影點(diǎn)盡可能接近,異類樣本的投影點(diǎn)盡可能遠(yuǎn)離,可以使同類樣本協(xié)方差矩陣盡可能小、不同類別類中心距離盡可能大,得到如下目標(biāo)函數(shù):
其中,w為由原始空間到類別區(qū)分最顯著空間的投影矩陣;μ0、μ1分別為第1 類和第2 類樣本的均值向量;wTμ0和wTμ1是兩類樣本的中心在直線上的投影;wT∑0w和wT∑1w是兩類樣本投影后的協(xié)方差。目標(biāo)函數(shù)J取得最大值時(shí),通過投影矩陣w可將原始空間的數(shù)據(jù)投影到類別區(qū)分最顯著的空間,此時(shí)類內(nèi)離散度矩陣最小、類間離散度矩陣Sb=(μ0-μ1)(μ0-μ1)T最大,對(duì)S-1w Sb做奇異值分解,即可獲得投影矩陣w,并進(jìn)行降維操作。
SVM-RFE 和LDA 都是有監(jiān)督的特征提取算法,使用了標(biāo)簽類別特征。通過SVM-RFE 獲取線性SVM 上評(píng)分最高的N個(gè)特征,然后利用LDA 使RFE選擇出來的特征映射到數(shù)據(jù)類別區(qū)分大的空間,使得數(shù)據(jù)更加容易被區(qū)分,分類更加準(zhǔn)確。通過RFE的特征選擇,移除一部分分類弱的相關(guān)特征,能有效減弱或避免LDA 過擬合的影響,使分類準(zhǔn)確率較單獨(dú)使用LDA更高。
SVM-FRE 與LDA 的特征選擇算法具體步驟如下:
(1)對(duì)訓(xùn)練集大腦90 個(gè)腦區(qū)灰質(zhì)體積做標(biāo)準(zhǔn)化處理,使用常見的最大最小值標(biāo)準(zhǔn)化方法,將特征歸一化為同樣的量綱,然后將測試集數(shù)據(jù)做相同的標(biāo)準(zhǔn)化。初始化特征集合S為訓(xùn)練集標(biāo)準(zhǔn)化后大腦90個(gè)腦區(qū)的灰質(zhì)體積。
(2)在集合S上通過式(1)評(píng)估各個(gè)特征在SVM分類器上的重要性,消去最不重要的特征并迭代,直至集合S的維度等于N,選取在線性SVM分類器上評(píng)分最高的N維特征S,同時(shí)篩選出測試集中對(duì)應(yīng)的特征。
(3)使用LDA,以式(2)為目標(biāo)函數(shù),對(duì)S-1w Sb做奇異值分解獲得投影矩陣w,將特征集S降維到類別區(qū)分最顯著的空間。
本研究使用上述方法提取特征訓(xùn)練SVM分類器作為分類模型。SVM 分類器以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則,在圖像識(shí)別[18]、文檔分類[19]、故障檢測[20-21]等方面得到廣泛應(yīng)用。SVM 分類器決策邊界是學(xué)習(xí)樣本的最大邊界超平面,此區(qū)間邊界之間有足夠的空間來容納測試樣本[22],使得分類器在訓(xùn)練樣本數(shù)量較少時(shí)仍具有良好的分類性能,適用于本實(shí)驗(yàn)數(shù)據(jù)集。
由于每次實(shí)驗(yàn)隨機(jī)按比例劃分訓(xùn)練集和測試集,造成劃分結(jié)果不同,以致模型評(píng)估結(jié)果有所區(qū)別,單次實(shí)驗(yàn)的評(píng)估結(jié)果往往不夠穩(wěn)定可靠。為獲得穩(wěn)定性和保真性強(qiáng)的實(shí)驗(yàn)結(jié)果,選用10 折交叉驗(yàn)證法評(píng)估模型性能。將數(shù)據(jù)集劃分為10個(gè)大小相似的互斥子集,每個(gè)子集盡可能保持?jǐn)?shù)據(jù)分布一致,每次選取一個(gè)子集作為測試集,余下的子集作為訓(xùn)練集,確保每個(gè)子集做一次測試集,進(jìn)行10次訓(xùn)練和測試,最終評(píng)估結(jié)果為10次測試結(jié)果的均值。
本實(shí)驗(yàn)采用的數(shù)據(jù)集包括34 名AD 患者、26 名SMC 患者以及50 名NC 的MRI圖像,對(duì)每名被試的MRI圖像先做預(yù)處理,獲得90 個(gè)腦區(qū)的灰質(zhì)體積作為分類特征,然后使用SVM-RFE和LDA進(jìn)行特征選擇,最后用SVM分類器實(shí)現(xiàn)AD、SMC、NC的分類。
為了橫向驗(yàn)證SVM-RFE 和LDA 結(jié)合算法的有效性,將本文算法和單純使用SVM-RFE或LDA的實(shí)驗(yàn)結(jié)果做對(duì)比,準(zhǔn)確率來自10折交叉驗(yàn)證,均由對(duì)應(yīng)特征提取方法提取特征,然后使用SVM分類器分類。為保證對(duì)比的公平性,每折均使用網(wǎng)格搜索法調(diào)參,保留最優(yōu)分類結(jié)果,除核函數(shù)為線性核函數(shù)外,實(shí)驗(yàn)參數(shù)如表1所示。實(shí)驗(yàn)結(jié)果如表2所示,表2中還包括文獻(xiàn)[7]和文獻(xiàn)[23]兩種特征選擇算法獲得的結(jié)果,可證明SVM-RFE和LDA結(jié)合算法的優(yōu)勢。
表1 實(shí)驗(yàn)參數(shù)Tab.1 Experimental parameters
表2 5種特征提取算法的分類結(jié)果(%)Tab.2 Classification results of 5 feature extraction algorithms(%)
由表2的實(shí)驗(yàn)結(jié)果可以看出,本文算法在AD/NC、AD/SMC 和SMC/NC 平均分類準(zhǔn)確率分別為94.0%、100.0%和93.6%,證明了本文算法的有效性,主要原因在于,在LDA過程前加入SVM-RFE可以有效避免LDA 過擬合,在RFE 過程后增加LDA 能使特征分布更有益于分類器分類。通過本文算法和對(duì)比算法的10折交叉驗(yàn)證準(zhǔn)確率最低值和最高值發(fā)現(xiàn)本文算法有更高的準(zhǔn)確率和相對(duì)更好的魯棒性和穩(wěn)定性,證明了本文算法的優(yōu)越性。
本研究對(duì)AD、NC、SMC 的MRI圖像進(jìn)行分析,提出一種SVM-RFE 和LDA 結(jié)合的AD 輔助診斷算法。首先利用AAL 模板獲得90 個(gè)大腦腦區(qū)的灰質(zhì)體積,然后使用SVM-RFE和LDA相結(jié)合的方式進(jìn)行特征選擇,最后利用SVM 分類器進(jìn)行分類。進(jìn)行AD、SMC、NC 間的兩兩分類,結(jié)果顯示AD/NC、AD/SMC 和NC/SMC 的平均準(zhǔn)確率分別為94.0%、100.0%和93.6%,本文算法優(yōu)于單獨(dú)使用SVM-RFE或LDA,同時(shí),也與經(jīng)典方法PCA 和PCA-LDA 進(jìn)行對(duì)比,證明了本文算法在AD 輔助診斷方面的可行性和有效性。未來的研究工作重點(diǎn)是分析多模態(tài)數(shù)據(jù)融合在AD 輔助診斷中的作用,如將結(jié)構(gòu)MRI數(shù)據(jù)與功能MRI數(shù)據(jù)特征融合,觀察能否獲得更好的結(jié)果。