范炤,李彩
1.山西醫(yī)科大學(xué)轉(zhuǎn)化醫(yī)學(xué)中心,山西太原 030001;2.山西醫(yī)科大學(xué)基礎(chǔ)醫(yī)學(xué)院,山西太原 030001; *通訊作者 范炤fanzhao316@163.com
阿爾茨海默?。ˋlzheimer's disease,AD)是一種起病隱匿、慢性神經(jīng)系統(tǒng)的退行性病變,其病因及發(fā)病機制尚不清楚,且病情多樣,目前臨床診斷主要依靠對患者的 MRI圖像分析以及神經(jīng)量表評分判斷病情,這種方式具有很強的主觀性,耗時費力,且存在誤診的風(fēng)險[1]。AD的進(jìn)展是不可逆的,但治療AD的早期階段輕度認(rèn)知障礙(mild cognitive impairment,MCI)可延緩病情進(jìn)程[2]。因此,如何準(zhǔn)確區(qū)分正常認(rèn)知(normal cognitive,NC)、MCI和AD,早期診斷疾病處于哪個階段,以便進(jìn)行干預(yù)輔助治療,在臨床實踐中至關(guān)重要。
支持向量機(support vector machine,SVM)是目前AD領(lǐng)域機器學(xué)習(xí)的熱點,隨機森林(random forest,RF)在很多領(lǐng)域表現(xiàn)出優(yōu)勢。目前針對NC、MCI、AD進(jìn)行分類的研究較多,本研究以期識別更早期的MCI患者,將MCI進(jìn)程分為早期輕度認(rèn)知障礙(early mild cognitive impairment,EMCI)和晚期輕度認(rèn)知障礙(late mild cognitive impairment,LMCI)。本文基于SVM和RF的方法,利用結(jié)構(gòu)性磁共振(structural magnetic resonance imaging,sMRI)數(shù)據(jù),分別構(gòu)建AD病程分類預(yù)測模型,然后對這兩種模型進(jìn)行比較,選擇出更好的AD分類模型應(yīng)用于臨床輔助診斷工具。
1.1 數(shù)據(jù)來源 本研究所用數(shù)據(jù)來源于美國大型 AD公共數(shù)據(jù)庫 ADNI(Alzheimer Disease Neuroimaging Initiative)編號為4018~5210的數(shù)據(jù)。共543例受檢者,其中NC組139例、EMCI組220例、LMCI組108例、AD組76例。選用數(shù)據(jù)庫中Philips 3.0T MRI掃描儀的sMRI圖像,成像參數(shù):TR 6.8 ms,TE 3.1 ms,F(xiàn)A 9°,視野:L=204 mm/AP=240 mm/FH=256 mm,體素1 mm×1 mm×1.2 mm,層厚1.2 mm,共170層。數(shù)據(jù)庫用 Freesurfer工具箱對 sMRI圖像進(jìn)行經(jīng)空間標(biāo)準(zhǔn)化、圖像平滑、分割、調(diào)制的預(yù)處理后,每一例受檢者的 sMRI圖像資料轉(zhuǎn)化為 272個 sMRI數(shù)據(jù),包括海馬各亞區(qū)體積16個、皮層體積69個、皮層表面積70個、皮層下體積49個、皮層厚度68個。
1.2 特征提取方法 采用SPSS 22.0軟件,首先對NC、EMCI、LMCI、AD 4組sMRI數(shù)據(jù)進(jìn)行正態(tài)性和方差齊性檢驗。其次,若滿足正態(tài)性、方差齊條件,采用單因素方差分析[3],將 4組間總體有統(tǒng)計學(xué)差異的數(shù)據(jù),兩組間再采用最小顯著性差異檢驗[4]進(jìn)行比較,其中有顯著性差異的數(shù)據(jù)形成特征組的一部分,記為A。如果不滿足正態(tài)性和方差齊性,則應(yīng)用完全隨機設(shè)計多個樣本比較的 Kruskal-Wallis H檢驗[5],將 4組間總體有統(tǒng)計學(xué)差異的數(shù)據(jù)用多個獨立樣本兩兩比較的Nemenyi檢驗[6]進(jìn)行組間比較,其中有顯著性差異的數(shù)據(jù)組成特征組的另一部分,記為B。將A和B整合起來的特征作為訓(xùn)練模型的輸入特征。P<0.05表示差異有統(tǒng)計學(xué)意義。
1.3 SVM和RF分類模型
1.3.1 SVM 分類模型 該模型廣泛應(yīng)用于臨床分類診斷且表現(xiàn)出良好的效果[7],其目的是找到一個最優(yōu)分類超平面,該超平面既滿足分類要求,又能確保分類精度,還能滿足超平面兩側(cè)的空白區(qū)域最大化。SVM的判定函數(shù)見公式(1)。
其中,sgn{}表示符號函數(shù),Sl(d)表示特征選擇后的特征集,d=1,2,3,…,28;yi∈{-1,1}表示樣本類別,即代表NC與EMCI、NC與LMCI、NC與AD、EMCI與LMCI、EMCI與AD、LMCI與AD組的判別;K[ ]為核函數(shù)。
1.3.2 RF分類模型 該模型在處理高維非線性的生物數(shù)據(jù)方面有很大優(yōu)勢,有很高的預(yù)測準(zhǔn)確率[8],在分類精度、泛化誤差、算法強度等性能方面較決策樹等單分類器有較大的提升[9]。RF的決策函數(shù)見公式(2)。
其中,H(X)為組合分類模型,hi為單個決策樹的分類模型,Y為目標(biāo)變量,經(jīng)過k輪訓(xùn)練投票選出最多決策樹支持的類別。
本研究選擇 10-折交叉驗證訓(xùn)練模型,可以確保小樣本訓(xùn)練結(jié)果無偏差估計,從而確保測試精確度。即機器分類模型自動隨機將兩組待分類的數(shù)據(jù)分成10份,抽取其中9份組成訓(xùn)練集,剩余1份作為測試集,每次訓(xùn)練SVM、RF模型后都得到一個訓(xùn)練和測試準(zhǔn)確率,重復(fù)10次,將10次訓(xùn)練和測試結(jié)果的平均值作為SVM和RF模型最終的分類準(zhǔn)確率。用受試者工作特征(ROC)曲線得到的敏感度和特異度評價兩種分類模型的分類效能,通過曲線下面積(AUC)評價SVM、RF分類準(zhǔn)確率效果,AUC值越大,表示分類正確率越高。
機器學(xué)習(xí)算法流程(圖1):①從ANDI數(shù)據(jù)庫獲取經(jīng)預(yù)處理的sMRI數(shù)據(jù);②282項sMRI經(jīng)統(tǒng)計學(xué)分析選出特征集作為訓(xùn)練模型的輸入特征;③采用函數(shù)映射,將 sMRI數(shù)據(jù)映射到[0,1],進(jìn)行歸一化處理;④將數(shù)據(jù)集進(jìn)行 10-折交叉驗證劃分訓(xùn)練集與測試集,訓(xùn)練SVM和RF模型;⑤綜合模型的準(zhǔn)確率、特異度、敏感度、AUC值評價模型性能。
圖1 SVM和RF模型構(gòu)建流程
2.1 特征選擇結(jié)果 272項 sMRI特征值經(jīng)統(tǒng)計學(xué)分析,獲得有統(tǒng)計學(xué)意義(P均<0.01)的28項特征,包括左顳下回皮層體積、左顳上回皮層厚度、左側(cè)腦室下角表面積、左海馬CA2-3區(qū)體積、左海馬下托回皮層厚度、右海馬CA1區(qū)體積、右顳中回皮層厚度、左海馬前下托體積、左杏仁核表面積、右顳下回皮層體積、左海馬表面積、右內(nèi)嗅皮層厚度、右海馬CA4-DG區(qū)體積、右海馬表面積、右顳下回皮層厚度、右側(cè)腦室下角表面積、右海馬前下托體積、左顳極皮層厚度、左海馬CA4-DG區(qū)體積、右杏仁核表面積、右顳極皮層厚度、右海馬CA2-3區(qū)體積、左內(nèi)嗅皮層厚度、右內(nèi)嗅皮層體積和左顳下回皮層體積。
2.2 SVM、RF分類模型結(jié)果 對4組(NC、EMCI、LMEI、AD)兩兩分類,根據(jù)10-折交叉驗證進(jìn)行分類預(yù)測分析,獲得SVM和RF分類模型的準(zhǔn)確率。基于28項sMRI特征的RF預(yù)測模型準(zhǔn)確率均高于SVM(表1)。
表1 SVM和RF模型分類在不同組間的準(zhǔn)確率比較(%)
SVM和RF高預(yù)測準(zhǔn)確率均集中在NC與 AD組、EMCI與AD組和NC與LMCI組,其中RF和SVM分類器均在NC與AD組表現(xiàn)出最高的準(zhǔn)確率,分別為96.45%和90.90%。RF和SVM在NC與EMCI組、EMCI與LMCI組均表現(xiàn)出較低的準(zhǔn)確率,分別為65.28%和77.78%、81.82%和70.91%,其中RF和SVMNC與EMCI組準(zhǔn)確率最低。
SVM、RF兩種分類模型的分類效果比較見表2。RF分類模型的 AUC值在每一組分類模型中均最大(表2)。基于28項sMRI特征的RF分類器在NC與EMCI、NC與LMCI、NC與AD兩兩分類預(yù)測中整體表現(xiàn)優(yōu)于SVM分類器。
表2 SVM和RF模型分類效果比較
sMRI可檢測出MCI患者早期局灶性萎縮,有研究[10]通過提取腦部特征用于AD、MCI的分類,如果使用全腦特征過于冗余,會影響分類效果[11],因此本文先對特征進(jìn)行提取后再進(jìn)行模型構(gòu)建。特征提取在AD病程的臨床診斷中有重要意義,僅檢測觀察對病情影響大的主要指標(biāo),剔除對病情影響微小的指標(biāo),不但能減少診斷程序、降低患者診斷經(jīng)濟(jì)成本和醫(yī)院診斷的時間成本,還具有較好的分類預(yù)測效果,并且提供影響診斷的主要因素,為臨床提供參考依據(jù)。
本文特征選取的指標(biāo)與多數(shù)文獻(xiàn)報道一致,其中杏仁核表面積、海馬CA4-DG區(qū)體積、海馬前下托體積、海馬表面積、顳極皮層厚度、顳下回皮層體積、內(nèi)嗅皮層厚度、海馬下托體積、海馬CA2-3區(qū)體積、顳下回皮層厚度、腦室下角表面積在左右半腦均有明顯差異,表明這11對指標(biāo)在疾病發(fā)展中變化明顯,建議在臨床觀察中對上述指標(biāo)進(jìn)行全面分析,尤其是對比左、右腦的數(shù)值變化。同時,其余指標(biāo)的明顯變化發(fā)生在單側(cè)大腦,建議臨床上重點關(guān)注這些單側(cè)指標(biāo)的特異性變化,有助于準(zhǔn)確診斷。
本研究通過構(gòu)建SVM、RF模型,分別對NC與EMCL、NC與LMCI、NC與AD、EMCI與LMCI、EMCI與AD、LMCI與AD組進(jìn)行分類識別預(yù)測。與SVM相比,RF在6組分類中,特別是對病情很相似的 LMCI、EMCI的分類預(yù)測中均表現(xiàn)更為優(yōu)秀。有研究[12]應(yīng)用不同的機器學(xué)習(xí)方法對NC與AD進(jìn)行分類,準(zhǔn)確率均低于本研究采用的RF對NC與AD分類的準(zhǔn)確率(96.45%);還有研究[13-16]報道對NC與MCI、MCI與AD的分類準(zhǔn)確率也低于本文應(yīng)用RF分類模型的準(zhǔn)確率。進(jìn)一步得出,基于28項sMRI特征的RF分類預(yù)測模型可用于臨床進(jìn)行NC、EMCI、LMCI與AD的分類識別。本文提出的RF分類預(yù)測模型根據(jù)客觀測量數(shù)據(jù)進(jìn)行分類診斷,比現(xiàn)有的診斷依據(jù)即通過有經(jīng)驗的醫(yī)師閱片觀測判斷更為客觀、合理和準(zhǔn)確。
RF和SVM分類模型在NC-AD組識別中預(yù)測準(zhǔn)確率最高,其原因可能是正常老年人和AD患者腦部結(jié)構(gòu)差異很大、認(rèn)知功能、行為活動差異明顯、易于識別。RF和SVM在NC與EMCI組、EMCI與LMCI組識別的準(zhǔn)確率低于NC與AD組,其中NC與EMCI組分類識別中準(zhǔn)確率最低,可能與EMCI和正常人難以區(qū)分,常被忽視有關(guān)。EMCI與LMCI組較低的預(yù)測率可能因為兩組在多維信息上有差別,且無公認(rèn)的理論解釋這一現(xiàn)象。
sMRI是AD進(jìn)行分類研究的基礎(chǔ),本研究后續(xù)將通過增加認(rèn)知評價、人口統(tǒng)計學(xué)資料、正電子發(fā)射型計算機斷層顯像、功能磁共振成像、腦脊液檢查等數(shù)據(jù)類型形成多模態(tài)數(shù)據(jù),同時加大實驗數(shù)據(jù)量,以獲得更高精度、更穩(wěn)定的分類器用于預(yù)測AD病程分類,以期延緩疾病進(jìn)展,提高患者的生活質(zhì)量,減輕國家和個人負(fù)擔(dān)。