摘" 要: 阿爾茨海默病是老年癡呆癥中最普遍的一種,目前大量國內(nèi)外老年人的生活受其困擾。然而,目前阿爾茨海默病在我國仍然處于就診率低、誤診率高、治療率低的局面,因此亟需探索阿爾茨海默病的早期診斷方案,以及時發(fā)現(xiàn)潛在病患并進行干預(yù)治療。當(dāng)前,計算機輔助診斷十分流行,能幫助醫(yī)生快速、高效地進行疾病診斷。因此,文中提出基于低秩學(xué)習(xí)的阿爾茨海默病診斷方法(LRL)。該方法利用MRI圖像數(shù)據(jù)提取多模板特征并進行融合;然后針對MRI數(shù)據(jù)樣本數(shù)量少、特征維度高的特點,采用低秩學(xué)習(xí)方法進行特征選擇,得到最具代表性的特征子集;最后將選擇后的特征輸入到支持向量機(SVM)分類器,執(zhí)行三分類和四分類任務(wù)。實驗結(jié)果表明,提出的LRL模型優(yōu)于其他幾種經(jīng)典的特征選擇方法。在兩個主要評價指標(biāo)準(zhǔn)確率ACC和[F1]上,LRL模型在三分類實驗中分別達(dá)到了74.94%和75.80%,在四分類實驗中分別達(dá)到了63.88%和59.99%。
關(guān)鍵詞: 阿爾茨海默病; MRI圖像; 低秩學(xué)習(xí); 支持向量機; 多分類; 計算機輔助診斷
中圖分類號: TN911.73?34; TP391" " " " " " " " " 文獻標(biāo)識碼: A" " " " " " " " " "文章編號: 1004?373X(2024)11?0099?06
Alzheimer′s disease diagnosis method based on low?rank learning
ZHANG Jun, LI Yubin
(School of Information Engineering, East China University of Technology, Nanchang 330013, China)
Abstract: Alzheimer′s disease is the most common one of senile dementias, which currently affects a significant number of elderly individuals both in China and around the world. However, Alzheimer′s disease is still characterized by low diagnosis rate, high rate of misdiagnosis, and limited treatment efficacy in China. Therefore, there is an urgent need to explore early diagnostic solutions for Alzheimer′s disease to detect potential patients promptly and provide intervention and treatment. At present, computer?aided diagnosis (CAD) is very popular, enabling healthcare professionals to efficiently and rapidly diagnose diseases. Hence, an Alzheimer′s disease diagnostic method based on low?rank learning (LRL) is proposed. In this method, MRI image data is utilized to extract multiple template features and fused them. To address the challenge of the limited samples and the high feature dimension in MRI data, the LRL approach is employed for feature selection to obtain the most representative feature subset. Subsequently, the selected features are input into a support vector machine (SVM) classifier for both three?class and four?class classification tasks. Experimental results demonstrate that the proposed LRL model outperforms the other classical feature selection methods. On both primary evaluation index accuracy (ACC) and [F1] score, the LRL model achieves 74.94% and 75.80% in the three?class classification task, and 63.88% and 59.99% in the four?class classification task, respectively.
Keywords: Alzheimer′s disease; MRI image; LRL; SVM; multi?classification; CAD
0" 引" 言
阿爾茨海默?。ˋlzheimer's Disease, AD)屬于中樞神經(jīng)系統(tǒng)退行性疾病[1],是老年癡呆中最普遍的一種。近年來,AD的患病率持續(xù)增長,并且越來越趨于年輕化,對患者生活和整個社會造成重大影響。在全球AD患者中,中國患者人數(shù)就占了[14],人數(shù)總量居世界第一[2]。因此,推進AD的診斷治療對醫(yī)學(xué)領(lǐng)域與整個社會都具有重大的意義。此外,AD隱秘性高,早期癥狀并不明顯,而且其相關(guān)普及和教育還不足,很多患者因前期沒有加以重視錯過了最佳診療時機。目前,AD在我國依然處于就診率低、誤診率高、治療率低的局面。基于這一現(xiàn)狀,為了及時發(fā)現(xiàn)潛在病患并進行干預(yù)治療,探索AD的診斷方案勢在必行。
MRI圖像是檢查AD的常用神經(jīng)影像手段,它能發(fā)現(xiàn)患者腦區(qū)的神經(jīng)解剖學(xué)和功能性變化[3]。目前,許多研究人員采用計算機輔助診斷方法實現(xiàn)基于MRI圖像的AD自動分類。例如,文獻[4]提出腦網(wǎng)絡(luò)特征識別算法,基于MRI圖像精準(zhǔn)識別AD患者。然而,大多數(shù)方法只關(guān)注正常組和患病組的分類,對于更細(xì)致的早期階段的識別工作較少。因此,本文考慮采用支持向量機(Support Vector Machine, SVM)[5]對阿爾茨海默病進行三分類和四分類,即根據(jù)患病嚴(yán)重程度分別分為三組和四組。
MRI大腦影像數(shù)據(jù)具有樣本數(shù)量少、特征維度高的特點,在高度依賴數(shù)據(jù)信息的機器學(xué)習(xí)中容易造成過擬合。因此,在進行分類前通常需要通過特征選擇等方法對MRI影像數(shù)據(jù)進行降維[6?7]。例如,文獻[8]考慮了特征空間的全局信息和局部信息進行特征選擇,實現(xiàn)了AD的自動分類。與此同時,低秩學(xué)習(xí)(Low?rank Learning, LRL)也廣泛應(yīng)用于特征選擇[9?11],本文將其用于MRI數(shù)據(jù)的特征降維。
針對MRI數(shù)據(jù)樣本數(shù)量少、特征維度高的特點,本文提出基于低秩學(xué)習(xí)的阿爾茨海默病診斷方法(LRL)。該方法首先對提取的高維度特征通過低秩學(xué)習(xí)進行特征選擇,然后通過SVM分類器進行AD的三分類和四分類。結(jié)果表明,本文的LRL方法在AD診斷中獲得了良好的性能。
1" 數(shù)據(jù)預(yù)處理
對于獲取的MRI原始圖像數(shù)據(jù),需要通過數(shù)據(jù)預(yù)處理操作進行特征的提取。MRI數(shù)據(jù)的預(yù)處理流程如圖1所示。
所有的MRI圖像最初都需要經(jīng)過初篩,剔除無法使用的圖像,然后進行前連合?后連合(AC?PC)矯正;接著,使用統(tǒng)計參數(shù)映射(Statistical Parametric Mapping, SPM)矯正幾何失真和頭部運動;之后,進行顱骨剝離;接下來,對圖像進行分割和標(biāo)準(zhǔn)化,即根據(jù)大腦的解剖結(jié)構(gòu)將特定區(qū)域的組織提取出來。本文將組織分割為灰質(zhì)(Gray Matter, GM)、白質(zhì)(White Matter, WM)和腦脊液(Cerebrospinal Fluid, CSF),它們在大腦里具有不同的功能,需要各自提取特征,再進行單獨或聯(lián)合分析。最后,需要基于腦區(qū)模板提取特征。通過自動解剖標(biāo)記(AAL)在GM、WM和CSF中分別獲得90個感興趣區(qū)域(Region of Interest, ROI)和116個感興趣區(qū)域,通過空間一致性約束譜聚類圖獲得200個感興趣區(qū)域,將每個區(qū)域的平均組織密度值作為特征。
2" LRL方法
MRI數(shù)據(jù)經(jīng)過預(yù)處理后,GM、WM和CSF三種物質(zhì)都能分別獲得對應(yīng)的90 ROIs、116 ROIs和200 ROIs三種模板的特征,之后,需將這些特征輸入到本文提出的LRL模型中進行AD的分類。LRL模型的框架如圖2所示??梢钥吹?,獲得三種模板的特征后,需通過線性連接的方式融合在一起,然后通過低秩學(xué)習(xí)進行特征選擇,最終將選擇的特征輸入到SVM分類器進行三分類和四分類。
2.1" 低秩學(xué)習(xí)
樣本量小、維度高一直是MRI神經(jīng)影像學(xué)分析的瓶頸。為了解決這個問題,需要對高維特征進行降維。本文基于低秩學(xué)習(xí)進行特征選擇,以去除對診斷沒有價值的特征,獲取最具判別性和相關(guān)性的特征。同時,低秩學(xué)習(xí)也能有效解決因維度過高導(dǎo)致的數(shù)據(jù)過擬合問題,提高分類性能。
在本文的多分類任務(wù)中,有多個響應(yīng)變量,且這些變量可能是相關(guān)的,因此,有必要添加低秩約束來考慮這些性質(zhì)。通過提取特征矩陣的低秩結(jié)構(gòu)以尋找最具代表性的特征子集,并將其用于訓(xùn)練SVM多分類器。低秩結(jié)構(gòu)可代表特征空間的內(nèi)在固有結(jié)構(gòu),具體來說,是矩陣中線性不相關(guān)的部分。在AD的多分類任務(wù)中,提取這一內(nèi)在固有結(jié)構(gòu)可選擇出最具判別性的特征,實現(xiàn)特征選擇的功能。低秩學(xué)習(xí)的具體實現(xiàn)過程如下。
對于向量[X∈Rn],其[l2]范式表示為:
[X2=i=1nx2i] (1)
對于矩陣[X∈Rn×m],其Frobenius范式表示為:
[XF=iX22] (2)
對于矩陣[W∈Rn×m],其跡范數(shù)由奇異值之和給出,公式如下:
[W*=iσi(W)] (3)
若[X∈R{n×d}×t]為輸入細(xì)胞數(shù)組,[Y∈R{n×l}×t]為輸出標(biāo)簽細(xì)胞數(shù)組,[W∈Rd×t]為模型矩陣,那么低秩學(xué)習(xí)的目標(biāo)函數(shù)如下:
[minWi=1tWTiXi-Yi2F+ρ1W*] (4)
式中:[Xi]代表第[i]個任務(wù)的輸入矩陣;[Yi]代表相應(yīng)的輸出標(biāo)簽矩陣;[Wi]代表任務(wù)[i]的模型;正則化參數(shù)[ρ1]控制[W]的秩。
在公式(4)中,[ρ1W*]項代表低秩約束,未添加它時,目標(biāo)函數(shù)只是一個簡單并且直接的線性回歸模型,沒有受到任何變量的約束。這意味著沒有考慮權(quán)重矩陣的性質(zhì),忽略了變量之間可能的相關(guān)性。添加低秩約束后,考慮了相應(yīng)變量和不同特征之間的關(guān)系,可以篩除掉一些在診斷中可能沒用的特征,最終選擇出最具有判別性的特征子集,即特征矩陣的低秩結(jié)構(gòu)。這對提升模型的分類性能具有重要意義。
2.2" SVM分類器
SVM通常用于解決非線性樣本數(shù)據(jù)的分類問題,具有簡單有效和泛化能力好的優(yōu)點,能夠有效避免樣本數(shù)量小的問題,適合MRI神經(jīng)影像數(shù)據(jù)的分類訓(xùn)練。
SVM的基本思想是:在整個樣本數(shù)據(jù)空間中找到一個可以將兩類樣本數(shù)據(jù)劃開的超平面,使得所有數(shù)據(jù)樣本到這個超平面的距離最短。如圖3所示,若在二維空間,SVM希望找到一條直線[H],使得距離最近的不同類別樣本離它最遠(yuǎn),直線[H]即為超平面。
若將超平面[H]表示為:
[wTx+b=0] (5)
式中:[w]為法向量,決定超平面的方向;[b]為位移項,決定超平面與原點之間的距離。若有訓(xùn)練樣本[(xi,yi)∈D],其中[xi]表示樣本特征,[yi]表示對應(yīng)類別,[D]是大小為[N]的訓(xùn)練樣本集合,那么SVM的目標(biāo)函數(shù)可表示為:
[minw,b12w2s.t." " yi(wTxi+b)≥1," " i=1,2,…,N] (6)
SVM本身是一種典型的二元分類器,本文需將SVM進一步推廣到多分類。此外,在大多數(shù)實際問題中,樣本數(shù)據(jù)是非線性可分的,針對該問題需通過核函數(shù)將數(shù)據(jù)映射到更高維的空間,使其變得線性可分,本文選擇高斯核作為核函數(shù)。
3" 實驗與分析
為了驗證本文提出的LRL方法的有效性,設(shè)計了多組對比實驗,進行了三分類和四分類任務(wù),并對相關(guān)實驗結(jié)果進行了展示和分析。
3.1" 數(shù)據(jù)集
本文使用的數(shù)據(jù)來自ADNI(阿爾茨海默病神經(jīng)影像學(xué)計劃)數(shù)據(jù)庫,整個數(shù)據(jù)集包含814條MRI圖像數(shù)據(jù)。根據(jù)患者病癥嚴(yán)重程度粗略將數(shù)據(jù)分為三類:正常對照組(Normal Control, NC)、輕度認(rèn)知障礙組(Mild Cognitive Impairment, MCI)和阿爾茨海默病組(AD),分別包含220、402和192條數(shù)據(jù),此時可進行三分類任務(wù)。對于MCI,還可進一步細(xì)分為輕度MCI組(Light MCI, lMCI)和穩(wěn)定MCI(Stable MCI, sMCI)組,兩者分別具有146條和256條數(shù)據(jù)。此時數(shù)據(jù)標(biāo)簽有四種:NC、lMCI、sMCI和AD,此時可進行四分類任務(wù)。
3.2" 評價指標(biāo)
本文實驗采用4個指標(biāo)來評價模型性能,分別為:準(zhǔn)確率ACC、精確率[P]、召回率[R]以及[F1]值,它們的計算公式如式(7)~式(10)所示[12]。
準(zhǔn)確率ACC為正確預(yù)測結(jié)果占所有預(yù)測結(jié)果的比例,其計算公式如下:
[ACC=TP+TNTP+TN+FP+FN] (7)
精確率[P]為所有預(yù)測為正的樣本中正確預(yù)測結(jié)果所占的比例,其計算公式如下:
[P=TPTP+FP] (8)
召回率[R]為所有實際為正的樣本中正確預(yù)測結(jié)果所占的比例,其計算公式如下:
[R=TPTP+FN] (9)
[F1]綜合衡量了[P]和[R],被計算為兩者的調(diào)和平均數(shù),具體計算公式如下:
[F1=2×P×RP+R] (10)
式中:[TP]、[TN]、[FP]和[FN]分別表示真正例、真負(fù)例、假正例和假負(fù)例。
3.3nbsp; 實驗環(huán)境
本文的實驗平臺為Matlab軟件。為了實現(xiàn)SVM,采用可執(zhí)行多分類任務(wù)的免費開源工具箱libsvm,版本為2.91。此外,為了對MRI圖像進行標(biāo)準(zhǔn)化、圖像分割等預(yù)處理操作,還采用了基于Matlab的SPM工具箱。
實驗過程中,采用[k]折交叉驗證法評估模型的性能,其中[k]設(shè)置為5。對于SVM分類器的懲罰參數(shù)[C]和核函數(shù)[G]的選擇,均通過網(wǎng)格搜索選擇[{2-10,2-9,…,29,210}]中使模型性能最優(yōu)的參數(shù)。對于低秩學(xué)習(xí)的參數(shù)[ρ1],在三分類實驗中設(shè)置為2.7,在四分類實驗中設(shè)置為2.3。
3.4" 對比方法
為了驗證本文的LRL模型在阿爾茨海默病診斷任務(wù)中的有效性,將LRL模型與其他幾種經(jīng)典的特征選擇方法進行了比較,包括Lasso、Elastic net和M3T。簡要描述如下:
Lasso[13]:采用了[L1]正則化的一種線性回歸方法,能夠通過特征選擇達(dá)到緩解數(shù)據(jù)過擬合的目的。
Elastic net[14]:使用[L1]正則化和[L2]正則化的線性回歸模型,同時保留兩種正則化屬性,通常應(yīng)用于多個特征和另一個特征相關(guān)的場景。
M3T[15]:同時選擇與所有任務(wù)相關(guān)的特征子集,有利于抑制單個變量的噪聲。
3.5" 實驗結(jié)果與分析
為了驗證基于低秩學(xué)習(xí)的阿爾茨海默病診斷方法的有效性,本文進行了廣泛的實驗,包括三分類實驗NC vs. MCI vs. AD和四分類實驗NC vs. lMCI vs. sMCI vs. AD。還將本文模型與采用其他三種特征選擇的模型進行性能比較。此外,為了證明本文采用的多模板特征比只使用單一模板特征更優(yōu),還進行了相關(guān)的三分類對比實驗。
3.5.1" 三分類實驗
阿爾茨海默病的三分類(AD3)實驗NC vs. MCI vs. AD的結(jié)果如表1所示,粗體表示性能最佳??梢钥吹?,三分類任務(wù)中,本文的LRL模型在所有指標(biāo)上都達(dá)到了最優(yōu)。其中, ACC、[P]、[R]和[F1]分別達(dá)到了74.94%、78.55%、73.28%和75.80%。
為了更加清楚直觀地觀察和對比各個模型的性能,本文還根據(jù)表1繪制了AD3實驗結(jié)果的柱形圖,如圖4所示。可以看到,三分類任務(wù)中Elastic net的總體性能最低,Lasso的性能反而更高一些。這是因為Elastic net中的[L2]正則化在不拋棄任何一個特征的情況下縮小了回歸系數(shù),使模型的特征保留得特別多,模型解釋性差。此外,M3T的性能次優(yōu),M3T能夠同時選擇與所有任務(wù)相關(guān)的特征子集,這對AD的診斷相當(dāng)重要,因為每個分類變量基本上由相同的患病大腦區(qū)域決定。
3.5.2" 四分類實驗
阿爾茨海默病的四分類(AD4)實驗NC vs. lMCI vs. sMCI vs. AD的結(jié)果如表2所示,粗體表示性能最佳??梢钥吹剑姆诸惾蝿?wù)中LRL模型也在所有指標(biāo)上都達(dá)到了最優(yōu)。其中,ACC、[P]、[R]和[F1]分別達(dá)到了63.88%、60.41%、59.83%和59.99%。
為了更加直觀地觀察和對比各個模型的四分類性能,本文還根據(jù)表2繪制了AD4實驗結(jié)果的柱形圖,結(jié)果如圖5所示。在四分類任務(wù)中,除了LRL方法之外,其余三種方法的性能相差并不大??傮w而言,Lasso方法的綜合性能在三者中最好,它在ACC、SEN和[F1]分?jǐn)?shù)三個指標(biāo)上的得分都比其余兩種方法更高。這說明在四分類任務(wù)中,使用Lasso方法能夠選擇到相對較好的特征子集。
此外,對比三分類和四分類的實驗結(jié)果,可以觀察到三分類和四分類之間的差異。三分類的準(zhǔn)確率ACC可以達(dá)到74.94%,而在四分類任務(wù)中只能達(dá)到63.88%,兩者之間的差距達(dá)到了9%左右。這表明將樣本分為更多的類別時,模型的預(yù)測難度會增加,這會導(dǎo)致模型性能的大幅度下降。
3.5.3" 多模板分析
為了證明結(jié)合90 ROIs、116 ROIs和200 ROIs三種模板的多模板特征能使模型的性能達(dá)到最優(yōu),并分析哪種模板的特征最適合用于分類,本文還采用多模板和單一模板特征進行了三分類實驗,結(jié)果如表3所示。其中,Multi?ROIs表示多模板特征。
實驗結(jié)果表明,Multi?ROIs在除[P]以外的評價指標(biāo)上都達(dá)到了最優(yōu),這表明使用多模板特征時總體性能達(dá)到了最優(yōu)。此外,116 ROIs上的性能是除Multi?ROIs外最優(yōu)的,它在所有指標(biāo)上都達(dá)到了次優(yōu)。這表明116 ROIs模板提供了最適合識別阿爾茨海默病的大腦區(qū)域數(shù)量。而200 ROIs的總體性能最差,這是因為200 ROIs模板的某些列的特征值在找不到特征的情況下會變?yōu)?,即因為劃分的區(qū)域太小,某些代表性的特征卻提取不出來。綜上,腦區(qū)劃分的區(qū)域數(shù)量需合適,過多會導(dǎo)致劃分的區(qū)域太小而提取不了某些代表性的特征;過少會導(dǎo)致特征數(shù)量少而無法提供更為精確的特征。
4" 結(jié)" 語
為了實現(xiàn)阿爾茨海默病早期診斷與預(yù)測,實現(xiàn)早發(fā)現(xiàn)、早治療的目的,本文利用MRI神經(jīng)影像數(shù)據(jù),通過機器學(xué)習(xí)方法實現(xiàn)了阿爾茨海默病的自動分類。針對MRI數(shù)據(jù)樣本數(shù)量少、特征維度高的特點,本文采用低秩學(xué)習(xí)方法進行特征選擇,以獲得最具代表性的特征子集;之后,通過SVM分類器進行三分類和四分類實驗。結(jié)果表明,本文提出的LRL模型優(yōu)于采用其他特征選擇方法的模型。此外,本文采用的多模板特征效果比只使用單一模板特征的更好。
注:本文通訊作者為李鈺彬。
參考文獻
[1] SCH?LL M. Advances in Alzheimer′s disease [J]. Brain connectivity, 2023, 13(5): 266?268.
[2] REN R, QI J, LIN S, et al. The China Alzheimer report 2022 [J]. General psychiatry, 2022, 35(1): e100751.
[3] FAISAL F U R, KWON G R. Automated detection of Alzheimer′s disease and mild cognitive impairment using whole brain MRI [J]. IEEE access, 2022, 10: 65055?65066.
[4] 朱琳,于海濤,雷新宇,等.基于MRI圖像的阿爾茨海默癥患者腦網(wǎng)絡(luò)特征識別算法[J].計算機應(yīng)用,2020,40(8):2455?2459.
[5] 喬風(fēng)娟,郭紅利,李偉,等.基于SVM的深度學(xué)習(xí)分類研究綜述[J].齊魯工業(yè)大學(xué)學(xué)報,2018,32(5):39?44.
[6] DIVYA R, KUMARI R S S. Genetic algorithm with logistic regression feature selection for Alzheimer′s disease classification [J]. Neural computing and applications, 2021, 33(14): 8435?8444.
[7] CUI L, ZHANG L, BAI L, et al. Alzheimer′s brain network analysis using sparse learning feature selection [C]// IAPR International Workshops on Structural and Syntactic Pattern Recognition. [S.l.: s.n.], 2020: 181?194.
[8] ZHU X, SUK H I, SHEN D. Low?rank dimensionality reduction for multi?modality neurodegenerative disease identification [J]. World wide web, 2019, 22(2): 907?925.
[9] LIM H. Low?rank learning for feature selection in multi?label classification [J]. Pattern recognition letters, 2023, 172: 106?112.
[10] FANG X, HAN N, WU J, et al. Approximate low?rank projection learning for feature extraction [J]. IEEE transactions on neural networks and learning systems, 2018, 29(11): 5228?5241.
[11] SHAKEEL M S, LAM K M. Deep low?rank feature learning and encoding for cross?age face recognition [J]. Journal of visual communication and image representation, 2022, 82: 103423.
[12] LI Q, PENG H, LI J, et al. A survey on text classification: From traditional to deep learning [J]. ACM transactions on intelligent systems and technology, 2022, 13(2): 1?41.
[13] ZHANG Z, CHEN J, MAO Y. Ridge regression and lasso regression based least squares algorithm for a time?delayed rational model via redundant rule [J]. International journal of modelling: Identification and control, 2022, 40(1): 11?17.
[14] SU M, WANG W. Elastic net penalized quantile regression model [J]. Journal of computational and applied mathematics, 2021, 392: 113462.
[15] SARKERN H, RAHMAN M S. Forward diffusion guided reconstruction as a multi?modal multi?task learning scheme [C]// 2023 IEEE International Conference on Image Processing. New York: IEEE, 2023: 3180?3184.
作者簡介:張" 軍(1978—),男,湖南常德人,博士,教授,主要研究方向為自然語言處理、大數(shù)據(jù)技術(shù)原理與應(yīng)用、處理器/存儲器性能功耗優(yōu)化。
李鈺彬(1998—),女,廣東韶關(guān)人,碩士研究生,研究方向為醫(yī)學(xué)圖像處理、自然語言處理。