郝小可,譚麒豪,李家旺,郭迎春,于 明
(河北工業(yè)大學人工智能與數據科學學院,天津 300401)
阿爾茨海默?。ˋlzheimer’s disease,AD)是最常見的癡呆形式,是一種隱匿的進行性神經退行性疾病,主要影響人體大腦的認知和記憶功能,甚至可能導致死亡[1]。AD 不僅給醫(yī)療保健系統帶來了巨大的經濟壓力,而且使得患者及其家人經歷了巨大的心理和情感壓力。目前還沒有能夠逆轉AD 進展的治療方法,但及時診斷和治療AD 對于延緩疾病進展仍具有重要的意義[2]。
近幾十年來,基于結構磁共振成像(Structural magnetic resonance imaging,sMRI)的縱向數據被廣泛用于預測認知狀態(tài),縱向數據研究通常采用患者在不同時間點的檢測數據。目前許多認知測量方法被設計用來評估認知衰退,例如,簡易精神狀態(tài)評分量表(Mini-mental state examination,MMSE)和阿爾茨海默病評估量表認知亞量表(Alzheimer’s disease assessment scale cognitive subscale,ADAS-Cog),它們可以用來揭示AD 的進展。據報道,MMSE 與潛在的AD 病理和神經退行性機制相關[3],而ADAS-Cog 是AD 認知功能評估試驗的金標準[4]。
目前已經存在一些專門用于AD 疾病進展建模的特征選擇工作,這些工作已被證實是反映多個時間點預測任務之間關聯的有效方法。這些方法一般可分為兩類:單任務學習和多任務學習(Multi-task learning,MTL)。單任務學習通常分別估計不同時間點的AD 疾病進展情況。也就是說,在單任務學習中,既沒有探索成像特征與時間點之間的關聯,也沒有探索不同預測時間點之間的相關性。例如,Duchesne 等[5]提出使用線性回歸模型從基線sMRI 數據中預測一年的MMSE 變化,并發(fā)現基線數據與一年的認知變化高度相關;Wang 等[6]開發(fā)了一個線性相關的向量回歸模型來預測連續(xù)的臨床變量。由于單任務學習將每個時間點視為一個獨立的任務,不考慮不同預測時間點之間的內在關聯,因此它在預測腦疾病進展方面的表現并不理想。
作為另一個努力方向,MTL[7]不僅可以發(fā)現不同預測時間點之間的潛在關系,而且還可以提高模型的泛化能力。MTL 已被廣泛用于腦疾病分析領域的認知狀態(tài)預測[8-11]?;谙∈枵T導規(guī)范的多任務特征學習(Multi-task feature learning,MTFL)能夠選擇來自sMRI 特征的鑒別特征子集,摒棄一些對于模型學習沒用的特征。例如,Zhou 等[8]提出將時間平滑性整合到MTL 模型中,用于預測疾病進展和選擇疾病進展的生物標志物;Jie 等[11]開發(fā)了一種用于縱向數據分析的時間約束的組稀疏學習方法,反映了相鄰時間點的數據之間的平滑變化;Nie 等[10]設計了一種新的多源多任務學習方法,利用源一致性和時間平滑性的先驗知識來評估疾病狀態(tài),并驗證了其對AD 患者進展預測的有效性?,F有的方法就是將一些有效的框架進行應用,如Cao 等[12]提出了一種具有L2,1范數和G2,1范數的稀疏多任務學習方法,考慮了多個神經成像測量之間的協方差結構,可以識別與AD 認知相關的腦區(qū)域;Jiang 等[13]考慮了相關感知的稀疏和低秩約束正則化,能夠準確預測患者在不同時間點的認知得分。
現有的MTL 方法通過學習多個相關時間點的影像數據,并引入特定的正則化項來建模。在預測認知分數時,通常希望融合不同模態(tài)或不同時間點的影像數據,以此發(fā)現不同時間點之間的共性。因此L2,1范數和G2,1范數在縱向數據分析中廣泛使用,對參數矩陣施加結構稀疏[10-11],能夠發(fā)現不同時間點之間的共享特征。然而,大多數現有的模型在建模疾病進展時沒有考慮到相鄰預測時間點對于疾病發(fā)展的必然聯系,并且現有方法在集中于對不同時間點共享特征的探索時,忽略了其中包含的噪聲對預測性能的影響。
基于以上分析,本文提出了一種基于參數分解和關系誘導的多任務學習方法。該方法通過參數分解計算不同參數相關權值,以此識別多個時間點中包含的噪聲和共享特征,將摒棄噪聲后的共享特征用于預測能夠更好地提高性能。此外,為了自動學習不同預測時間點之間的關系,本文在模型中使用關系誘導[14]。吸收了多任務學習、參數分解以及關系誘導的優(yōu)點,MTL 框架能夠集成多個時間節(jié)點的sMRI 數據,參數分解對不同的參數施加不同的正則化項,這是非常有意義的,而關系誘導能夠引導關系信息的學習。
本文方法主要有以下3 點貢獻:
(1)MTL 框架:能夠集成多個時間點的影像數據,提高模型的泛化能力。
(2)參數分解:可以對不同的參數矩陣施加不同的正則化項,以不同的方式懲罰不同時間點的噪聲和共享特征。
(3)關系誘導:能夠有效地從數據中引入關系信息,以此來指導知識傳遞,能夠發(fā)現不同預測時間點之間的潛在聯系。
在縱向數據研究中,MTL 模型常用于結合不同時間點的影像數據,能夠發(fā)現不同時間點之間的潛在關聯,提高模型的泛化能力。多任務學習模型可表示為
式中:Xt∈RN×d,假設訓練對象的數量為N,每個受試者在T個不同時間有對應的d維成像數據;Yt∈RN×1,表示受試者在T個不同時間點對應的評分量表?;贚2,1范數的多任務學習是同時解決回歸和稀疏性問題的有效方法之一,在縱向數據研究中,L2,1范數常用于尋找不同任務之間最具鑒別性的特征;W∈Rd×T,式中||W||2,1定義為范數保證了模型的稀疏性,L2范數保證了所有時間點之間的相似性模式,確保相同的腦區(qū)被選中。
在MTL 模型的基礎上,本文對式(1)中的標準權重W進行參數分解,即能夠去除不同時間點的噪聲影響,從而進一步提高模型對魯棒特征的分析能力。模型可以表述為
在模型中,標準權重W被分解為兩部分,即W=Z+V,其中Z是不同時間點的共享權重,V是噪聲權重,式中α、β為非負參數,式中Z∈Rd×T,V∈Rd×T。得益于參數分解,可以針對不同的組成部分施加不同的懲罰。
本文定義了公式(3),這有助于保證不同時間點的相似模式,能夠選擇不同時間點之間一致性的共為享特征。
本文定義了公式(4),在識別不同時間點噪聲的同時,能夠對噪聲進行稀疏。
到目前為止,基于參數分解的模型已經能夠識別噪聲和不同時間點一致性的共享特征。此外,為了自動學習不同預測任務之間的關系,本文在提出的模型中使用關系誘導項[14],定義如下
式中:tr(·)表示方陣的跡,Ω-1表示矩陣的逆,定義為任務協方差矩陣,在縱向數據分析中誘導正確的關系,這有利于不同權重的學習。不同時間點臨床評分之間的相關性有助于反映來自相鄰時間點數據之間的平滑變化。用Ω≥0 來將Ω限制為半正定矩陣,用tr(Ω)=1 懲罰Ω的復雜度。
通過合并在等式中定義的關系誘導項(式(5)和式(2)),目標函數可表示為
式中:α、β、γ為正則化參數,以控制參數分解和關系誘導正則化之間的平衡;Ω由不同時間點的共享權重Z來引導。在下一節(jié)中,將開發(fā)一個有效的優(yōu)化算法來求解在等式中定義的目標函數。
基于參數分解和關系誘導的多任務學習框架如圖1 所示,采用受試者在BL、M06、M12、M24 這4 個時間點的sMRI 數據作為輸入,4 個時間點對應的認知評分(MMSE、ADAS-Cog)作為輸出。模型中優(yōu)化的參數為Z、V、Ω,參數分解將權重W分解為V和Z,其中Z代表不同時間點的共享權重,V代表噪聲權重,Ω代表不同預測時間點之間的相關性權重,它由共享權重Z引導。
圖1 基于參數分解和關系誘導的多任務學習框架Fig.1 Multi-task learning framework based on parameter decomposition and relation induction
本文的目標是求解噪聲權重V、共享權重Z以及不同預測時間點的相關性權重Ω。目標函數(式6)是一個凸優(yōu)化問題,建議使用交替算法來求解。首先用固定值V、Ω優(yōu)化Z,然后用固定值Z、Ω優(yōu)化V,同理優(yōu)化Ω。
更新Z:
如果V和Ω固定為常數,式(6)可以簡化為
首先在式(7)中展開二次項
因此,很容易得到了式(7)的上界,即
當Z和V固定時,Ω的優(yōu)化問題可以表述為
根據文獻[13,14],通過取式(11)的偏導數,可以得到Ω的閉形解為
算法基于參數分解和關系誘導的多任務學習算法流程
輸入:sMRI 數據Xt∈Rn×d,認知評分Yt∈Rn×1,t=1,…,T,正則化參數α、β、γ。
輸出:不同時間點的共享權重Z,噪聲權重V,不同預測時間點之間的相關性權重Ω。
(1)初始化權重Z、V和Ω;
(2)while 不收斂do
(3)更新Z;
(4)通過式(9)求解Z,Z∈Rd×T;
(5)更新V;
(6)通過式(10)求解V,V∈Rd×T;
(7)更新Ω;
(8)通過式(11)求解Ω,Ω∈RT×T;
(9)end while
為了評估所提模型的有效性,本文使用ADNI 數據集中550 個受試者在4 個不同的時間點(即基線、6 個月、12 個月和24 個月)的sMRI 數據和相應的認知評分(即MMSE 和ADAS-Cog)進行實驗。實驗中,分別預測了MMSE 和ADAS-Cog 評分。受試者有3 種診斷類別,即健康對照(Healthy control,HC)、輕度認知障礙(Mild cognitive impairment,MCI)和AD。
將本文方法與一些現有的主流方法進行比較,其中包括Lasso[15]、MTFL[16]、多任務關系學習(Multi-task relationship learning,MTRL)[14,17]和參數分解的多任務特征學習(Parametric decomposition multi-task feature learning,PDMTFL)[18-19]等方法。整個數據集劃分為10 個大小大致相同的子集,選擇1 個子集進行測試,剩下的9 個子集進行訓練,根據測試數據的結果評估方法性能。
使用支持向量回歸器(Support vector regression,SVR)默認參數(即C=1)[5]進行回歸預測。為了選擇最優(yōu)參數,使用5 折交叉驗證,使用{10-5,10-4,…,105}來選擇參數。經過交叉驗證后,選擇在訓練數據上性能最好的參數進行測試。為了避免數據集分區(qū)時的隨機性,重復該過程10 次,以展示重復交叉驗證結果平均后的性能。
(1)Lasso:通過L1范數進行正則化,進行變量選擇以提高預測和回歸性能。它通過對不同時間點的認知評分分別建模進行回歸預測,是估計未來疾病狀態(tài)最廣泛的方法之一。
(2)MTFL:對權重矩陣施加L2,1范數,能夠從多個任務中選擇共享特征,它鼓勵多個任務共享相似的稀疏模式。
(3)MTRL:在正則化框架下學習任務關系矩陣,它是對單任務學習正則化框架的一種新的推廣,不同時間點的關系矩陣和模型參數可以進行迭代學習。
(4)PDMTFL:針對不同的權重施加不同的懲罰項,鼓勵不同的稀疏結構,這是非常有意義的。
對回歸模型進行性能評估時,通常采用均方根誤差(Root mean squared error,rMSE)、歸一化均方根誤差(Normalized mean squared error,nMSE)指標進行評判。nMSE 常應用于MTL 研究中[20],即均方誤差除以真實值的方差。rMSE 廣泛用于測量預測和實際臨床評分之間的回歸和關聯分析性能[21]。對于nMSE 和rMSE 而言,值越小,性能越好。本文實驗采用rMSE、nMSE 以及不同預測時間點的相關性矩陣Ω作為評價指標。
不同方法的對比實驗結果如表1 所示,其中最好的結果用粗體顯示。
表1 不同方法實驗對比Table 1 Experimental comparison of different methods
結果表明,本文方法在nMSE 和rMSE 評判標準上均優(yōu)于其他比較方法,證明了該方法在聯合預測認知評分方面的有效性。對于所有方法,都采用10 折交叉驗證來估計預測性能。由于參數值過小會導致處罰不足,參數值過大會導致處罰過度,所以調整α、β、γ范圍{10-5,10-4,…,105}。通過表1 中評價指標,可以得出以下觀察結果:首先,與單任務學習方法Lasso 相比,使用多個時間點進展信息的學習方法明顯都能取得更好的表現。這說明,多個時間點的進展信息有利于預測疾病的進展,同時多個時間點的影像數據包含更多的疾病漸進信息。其次,本文方法能夠自動建模不同預測時間點的內在關系,在nMSE、rMSE 以及不同預測時間點的相關性方面始終優(yōu)于4 種競爭方法。本文方法在估計MMSE和ADAS-Cog 分數時的平均(即4 個時間點)nMSE 分別為0.537 5 和0.586 4,這些結果是有效的。對表1 實驗結果進行了可視化,結果如圖2 和3 所示,其中Baseline 表示基線,M06、M12 和M24 分別表示基線后6、12 和24 個月。從圖2 和3 中可更為直觀地看出,本文方法的性能均優(yōu)于其他方法。
圖2 不同方法在rMSE 下的比較Fig.2 Comparison of different methods under rMSE
實驗估計了MTRL 和本文方法分別在MMSE 和ADAS-Cog 中學到的任務關系,結果如圖4、5 所示,它們是對Ω的可視化。需要注意的是,每個回歸任務都對應于一個時間點,BL 表示基線;M06、M12 和M24 分別表示基線后6、12 和24 個月。其中顏色條中的黃色表示一個較高的相關系數。從圖中可以看出回歸任務在4 個時間點的相關性存在顯著差異,采用不同的評分量表,MTRL 在不進行特征選擇的情況下,4 個時間點學習到的關系都較低,這與多個時間點往往發(fā)揮相似的作用相悖。通常認為多個時間點往往扮演相似的角色,它們的相關性應該是較高的。本文方法在通過等式中的正則化項,在摒棄不同時間點存在的噪聲特征之后,識別到的不同時間點的共享特征能夠更好地提高個體回歸變量的學習表現,學習到不同時間點之間的真實關系。實驗結果中,也可以發(fā)現相鄰時間點的相關性與樣本數量有很大的關系,相鄰時間點中樣本數量多的相關性通常是較高的。
圖3 不同方法在nMSE 下的比較Fig.3 Comparison of different methods under nMSE
圖4 MTRL 方法學習的4 個回歸任務之間的相關矩陣Fig.4 Correlation matrix among four regression tasks learned by MTRL method
圖5 本文方法學習的4 個回歸任務之間的相關矩陣Fig.5 Correlation matrix among four regression tasks learned by the proposed method
識別與AD 進展高度相關的生物標志物子集非常有意義。因此,展示了由本文方法所確定的前10個大腦區(qū)域。值得注意的是,由于在每個10 折交叉驗證中被選擇的大腦區(qū)域是不同的,所以選擇累積絕對權重作為大腦區(qū)域在回歸任務中的貢獻的指標。圖6 為所提方法識別的前10 個重要腦區(qū),所選出的腦區(qū)名稱如表2 所示。從表2 可以看出,兩個回歸任務所選擇的腦區(qū)都包括信息最豐富的大腦區(qū)域海馬體和杏仁核,相同區(qū)域的腦區(qū)被選中,這也證實了本文方法識別的一致性。通過AD 建模和測量認知結果,證實了兩者在識別大腦狀況方面發(fā)揮著重要作用,與阿爾茨海默病高度相關。海馬體[22]與陳述性記憶密切相關,而杏仁核[23]在記憶情感重大經歷中起著重要作用。選定的腦區(qū)中顳葉和顳中區(qū)[8]也對AD 診斷敏感,在以往的研究中能夠觀察到。綜上所述,所識別的成像標記物對跟蹤AD 的進展具有高度的提示性和有效性,與現有的研究結果非常一致。
表2 由本文方法識別出的最重要的10 個感興趣區(qū)域Table 2 The most important ten regions of interest identified by the proposed method
圖6 估計臨床評分時由本文方法識別的重要腦區(qū)Fig.6 Important brain regions identified by the proposed method when estimating clinical scores
本文提出了一種基于參數分解和關系誘導的多任務學習方法,利用多個時間點的sMRI 數據以及對應時間的認知評分進行預測。具體來說,通過多任務學習模型能夠更好地集成多個時間節(jié)點的影像數據,發(fā)現不同時間點間的潛在聯系。利用參數分解對不同權重施加不同的正則化項,能夠識別去除噪聲后的共享特征,提高不同時間點共享特征的魯棒性,進而提高模型的預測性能。關系誘導能夠更好地引導知識信息的學習,幫助我們認識到不同時間點之間的真實關系。在數據集上驗證了本文方法的有效性,提出的模型與多種主流模型對比均表現出極佳的性能,獲得了更出色的結果。本文還對實驗結果進行了可視化,并選擇影響AD 進展中前10 個最重要的腦區(qū)。如何解決縱向數據中存在的數據缺失問題是下一步工作需要繼續(xù)研究的重點。