張淼,陳宏濤
(太原理工大學(xué)信息與計(jì)算機(jī)學(xué)院,山西晉中 030600)
ADHD[1]是一種以多動(dòng)、注意力不集中和行為沖動(dòng)為特點(diǎn)的精神障礙,在兒童和青少年中常被診斷出來(lái),并且最近有記錄證明其可能會(huì)持續(xù)到成年期,這種疾病在男孩中更為普遍。通常,ADHD 的診斷是基于使用不同版本的精神疾病診斷和統(tǒng)計(jì)手冊(cè)(Diagnostic and Statistical Manual of mental disorders,DSM)或國(guó)際疾病分類(lèi)(International Classification of Diseases,ICD)的標(biāo)準(zhǔn)進(jìn)行的,由于診斷是通過(guò)教師、家長(zhǎng)和行為科學(xué)家進(jìn)行的主觀觀察來(lái)完成的,因此尋找有助于診斷ADHD 的定量技術(shù)已經(jīng)引起人們的關(guān)注。
近些年來(lái),靜息態(tài)功能磁共振成像(resting statefunctional Magnetic Resonance Image,rs-fMRI)因其無(wú)創(chuàng)、無(wú)輻射、時(shí)空分辨率高且不需要被試完成復(fù)雜的任務(wù),已經(jīng)被廣泛地用于精神疾病的研究[2]。已有許多在fMRI 上使用機(jī)器學(xué)習(xí)來(lái)研究ADHD,杜海鵬等人[3]提出一種基于多目標(biāo)支持向量機(jī)的分類(lèi)模型,經(jīng)過(guò)對(duì)比,其準(zhǔn)確率顯著提高,達(dá)到了75.3%。但是由于傳統(tǒng)的機(jī)器學(xué)習(xí)模型大多是淺層模型,對(duì)于高維fMRI 數(shù)據(jù)的擬合效果并不理想,并且大多需要人工進(jìn)行特征選擇,一些相關(guān)性較弱的體素會(huì)被忽視。所以,深度學(xué)習(xí)逐漸被引入相關(guān)研究,2017 年毛振宇、蘇怡等人[4]基于靜息態(tài)fMRI 數(shù)據(jù),提出了一種基于4-D CNN 的深度學(xué)習(xí)模型用于ADHD 的分類(lèi),得到實(shí)驗(yàn)結(jié)果準(zhǔn)確率為71.3%,AUC 為0.8;2020 年張濤、李存波等人[5]通過(guò)將分離通道卷積神經(jīng)網(wǎng)絡(luò)(SC-CNN)與基于注意力的網(wǎng)絡(luò)(SC-CNN-attention)相結(jié)合,提出了一種新的兩階段網(wǎng)絡(luò)結(jié)構(gòu),以大規(guī)模區(qū)分ADHD 和健康控制多站點(diǎn)數(shù)據(jù)庫(kù),分類(lèi)結(jié)果為68.6%。
“深度空間”的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)和“時(shí)間深度”的遞歸神經(jīng)網(wǎng)絡(luò)(Recursive Neural Network,RNN)是兩個(gè)經(jīng)典的深度學(xué)習(xí)分支。RNN 模型(例如長(zhǎng)短期記憶(Long Short Term Memory,LSTM)[6])和門(mén)控循環(huán)單元(Gated Recurrent Unit,GRU[7])已被大量用于精神疾病的識(shí)別與分類(lèi),例如使用fMRI 識(shí)別孤獨(dú)癥譜系障礙[8]和阿茲海默癥[9]等。
文中提出了將字典學(xué)習(xí)和長(zhǎng)短期記憶網(wǎng)絡(luò)相結(jié)合的方法對(duì)rs-fMRI 數(shù)據(jù)進(jìn)行處理,最終用來(lái)預(yù)測(cè)ADHD 患者和正常人。
ICA(Independent Component Algorithm)由于其可以很好地處理稀疏分量[10]被廣泛應(yīng)用于rs-fMRI 數(shù)據(jù)的處理,但是由于其具有一定的限制和局限性。字典學(xué)習(xí)算法有著更為稀疏的表示,因此受到學(xué)者們的重視[11]。
首先利用ADHD 和正常被試數(shù)據(jù)相結(jié)合,基于FastICA 初始化的在線字典學(xué)習(xí)獲取ROI 時(shí)間序列,結(jié)合LSTM 對(duì)于序列類(lèi)數(shù)據(jù)處理的優(yōu)勢(shì),再將獲得的時(shí)間序列輸入提出的LSTM 模型中進(jìn)行訓(xùn)練,然后進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)流程如圖1 所示。
圖1 實(shí)驗(yàn)流程
在線字典學(xué)習(xí)算法可以在線解決字典學(xué)習(xí)矩陣分解問(wèn)題,通過(guò)求解式(1)找到用于近似數(shù)據(jù)矩陣的最佳字典和相應(yīng)的稀疏編碼。
式中,V是字典,U是稀疏編碼,Z是數(shù)據(jù)矩陣,α為正則化參數(shù)。顯然,式(1)的第一項(xiàng)是希望很好地重構(gòu)Z,第二項(xiàng)則是希望U盡量稀疏,k為字典V的行索引。
在線字典學(xué)習(xí)需要獲得稀疏編碼和學(xué)習(xí)字典矩陣,文中采用交替優(yōu)化的策略來(lái)求解式(1),包括稀疏編碼和更新字典兩個(gè)階段,其中,利用最小角度回歸法來(lái)解決Lasso 問(wèn)題,迭代次數(shù)設(shè)為100,批量大小為η(值為3),通過(guò)批量處理可以加快算法的收斂速度。在在線字典學(xué)習(xí)開(kāi)始之前,已經(jīng)通FastICA 結(jié)合嶺回歸獲得了字典初始化矩陣,以此來(lái)初始化式(1)中的V。在之后的每次迭代順序循環(huán)選擇3 行數(shù)據(jù)進(jìn)行計(jì)算。
1)稀疏編碼與更新輔助變量
創(chuàng)建矩陣A以及矩陣B來(lái)保存輔助變量(零矩陣),方便后續(xù)的迭代更新。Ut的計(jì)算如式(3)所示:
式(3)中,t為第幾次迭代,k即為設(shè)定的成分?jǐn)?shù)目,每次迭代過(guò)程都選擇數(shù)據(jù)中的η行。
2)字典更新
字典更新開(kāi)始時(shí)使用Vt-1進(jìn)行熱啟動(dòng)。Vt的計(jì)算如式(4)所示:
在字典更新中循環(huán)k次,k為成分?jǐn)?shù),即字典的行數(shù)。
長(zhǎng)短期記憶(Long Short Term Memory)模型屬于一種特殊的RNN 模型,它的提出是為了解決RNN 模型梯度彌散的問(wèn)題,由重復(fù)的單元組成,這些單元接收來(lái)自前一個(gè)單元的輸入以及當(dāng)前時(shí)間步長(zhǎng)t的數(shù)據(jù)輸入xt。每個(gè)LSTM 單元包含一個(gè)單元狀態(tài)ct和隱藏狀態(tài)ht,它們由控制進(jìn)出單元存儲(chǔ)器的信息流的4 個(gè)神經(jīng)網(wǎng)絡(luò)層進(jìn)行調(diào)制??刂芁STM 的方程為:
具體來(lái)說(shuō),輸入門(mén)控制輸入xt和ht-1對(duì)當(dāng)前存儲(chǔ)單元的影響程度(式(5));遺忘門(mén)ft控制前一個(gè)存儲(chǔ)單元ct-1對(duì)當(dāng)前存儲(chǔ)單元ct的影響程度(式(6));輸出門(mén)控制當(dāng)前單元ct對(duì)隱藏狀態(tài)單元ht的影響程度(式(7));存儲(chǔ)單元ct是兩個(gè)分量的總和:前一個(gè)存儲(chǔ)單元ct-1由ft和gt調(diào)制(式(8)),輸入門(mén)it調(diào)制的當(dāng)前輸入和先前隱藏狀態(tài)進(jìn)行加權(quán)組合(式(9));同樣,用輸出門(mén)ot過(guò)濾單元狀態(tài),用于隱藏狀態(tài)更新,這是LSTM 單元的最終輸出(式(10))。
選擇NeuroBureau 為ADHD-200 競(jìng)賽發(fā)布的北京大學(xué)站點(diǎn)預(yù)處理后的數(shù)據(jù)。該數(shù)據(jù)由rs-fMRI 數(shù)據(jù)以及每個(gè)被試的不同表型信息(非成像數(shù)據(jù))組成。其中,訓(xùn)練集中有144 個(gè)被試,測(cè)試集中有50 個(gè)被試,所有被試都是右利手。數(shù)據(jù)集信息如表1所示。
表1 數(shù)據(jù)集信息
數(shù)據(jù)是基于NIAK 管道預(yù)處理的,使用了MINC工具包和自定義Matlab/Octave 腳本[12]。預(yù)處理步驟包括去除前3 個(gè)時(shí)間點(diǎn)、時(shí)間層校正、頭動(dòng)校正、校正時(shí)間漂移和生理噪聲,將功能數(shù)據(jù)配準(zhǔn)到3×3×3 mm3分辨率的蒙特利爾神經(jīng)病學(xué)研究所(Montreal Neurological Institute,MNI)的標(biāo)準(zhǔn)空間模板,最后采用6 mm 全寬半高(Full Width at Half Maximum,F(xiàn)WHM)高斯核空間對(duì)圖形進(jìn)行平滑化處理。在后續(xù)的實(shí)驗(yàn)中,學(xué)習(xí)大腦ROI 是在訓(xùn)練集上進(jìn)行的,防止過(guò)擬合[13]。
ROI 的常見(jiàn)確定方法:一種是基于各種大腦模板圖譜的自動(dòng)解剖標(biāo)記(Automated Anatomical Labeling,AAL),這是一個(gè)大腦結(jié)構(gòu)圖譜,包括116 個(gè)ROI。穩(wěn)定集群自舉分析(Bootstrap Analysis of Stable Clusers,BASC)是一個(gè)多尺度的功能圖譜,具有不同數(shù)量ROI 圖譜的選擇,包括36、64、122、197、325 和444。另一種是通過(guò)數(shù)據(jù)驅(qū)動(dòng)的方式來(lái)獲取ROI,包括k-means、ward 和最近提出的ReNA 聚類(lèi)算法[14],以及ICA 方法和字典學(xué)習(xí)方法,后兩者在fMRI 數(shù)據(jù)上表現(xiàn)比前者更好?;诖竽X圖譜的方法在獲取被試的大腦網(wǎng)絡(luò)時(shí)可能存在一定的偏差,選擇數(shù)據(jù)驅(qū)動(dòng)的方法來(lái)獲取所需的ROI 時(shí)間序列。與經(jīng)典批處理算法相比,在線字典學(xué)習(xí)有著更好的性能,且能獲得更好的字典,文中提出將FastICA 應(yīng)用到在線字典學(xué)習(xí)的初始化環(huán)節(jié),使得分類(lèi)效果有所提升。
3.1.1 計(jì)算字典初始值
除了比較常見(jiàn)的利用SVD 來(lái)構(gòu)建初始化字典,還可以通過(guò)已知的腦網(wǎng)絡(luò)來(lái)獲取初始化的字典[15]。文中利用FastICA 算法獲取相應(yīng)的腦網(wǎng)絡(luò)并計(jì)算出字典初始值。每個(gè)被試的rs-fMRI 數(shù)據(jù)是形如(49,58,47,232)的四維圖像,其中第四維是時(shí)間點(diǎn),前三維構(gòu)成了包含3D 大腦的立方體。
在對(duì)rs-fMRI 圖像預(yù)處理之后,利用訓(xùn)練集所有被試的圖像獲得共同的大腦掩模,大腦掩??梢蕴崛?D 立方體空間中只屬于大腦內(nèi)部的體素,結(jié)合大腦掩模將每個(gè)被試的rs-fMRI 圖像轉(zhuǎn)換為形如(28 546,232)的二維時(shí)間序列,28 546 為體素個(gè)數(shù)。對(duì)每個(gè)被試的體素時(shí)間序列進(jìn)行PCA 降維,再將所有被試降維后的數(shù)據(jù)疊加到一起形成了組成級(jí)別分析所需的數(shù)據(jù)Z,如(28 546,n*60),其中n為被試個(gè)數(shù),60 為指定的降維數(shù)目。在對(duì)數(shù)據(jù)Z進(jìn)行標(biāo)準(zhǔn)化以及典型相關(guān)分析之后,利用FastICA 算法即可獲取相應(yīng)的腦網(wǎng)絡(luò)成分,即獨(dú)立成分。
利用FastICA 獲取的腦網(wǎng)絡(luò)成分(即獨(dú)立成分)和數(shù)據(jù)Z結(jié)合嶺回歸即可獲取相應(yīng)的回歸系數(shù),使之作為字典初始值。嶺回歸相比最小二乘法獲得的回歸系數(shù)更切合實(shí)際、更可靠,通過(guò)對(duì)回歸系數(shù)增加懲罰項(xiàng)來(lái)實(shí)現(xiàn)。
3.1.2 在線字典學(xué)習(xí)
實(shí)驗(yàn)中對(duì)字典更新迭代100 次便得到了更新后的字典V,結(jié)合數(shù)據(jù)Z可以計(jì)算得到所需要的稀疏編碼U,即在線字典學(xué)習(xí)腦網(wǎng)絡(luò)成分。在線字典學(xué)習(xí)獲取的眾多成分中每一個(gè)都可以稱為腦網(wǎng)絡(luò),并且所有腦網(wǎng)絡(luò)可以被概念化為腦功能圖譜,如圖2 所示。獲取的時(shí)間序列如圖3 所示。
圖2 使用字典學(xué)習(xí)獲得的ROI圖譜
圖3 獲取的時(shí)間序列
依據(jù)訓(xùn)練集學(xué)習(xí)到的功能圖譜,對(duì)被試相應(yīng)ROI 區(qū)域內(nèi)體素時(shí)間序列求平均值即可獲得被試的ROI 時(shí)間序列。
在得到每個(gè)受試者的平均時(shí)間序列之后,為了得到更多的輸入樣本防止過(guò)擬合,選擇提取長(zhǎng)度T=30 的一系列子時(shí)間序列[16-17],從每個(gè)被試的時(shí)間序列里截取10 個(gè)長(zhǎng)度為T(mén)的序列,這樣我們就得到了原來(lái)數(shù)據(jù)10 倍的時(shí)間序列,總共1 940 個(gè)數(shù)據(jù)作為模型的輸入。
文中提出了一種LSTM 體系結(jié)構(gòu),該體系結(jié)構(gòu)將功能磁共振成像即上面所獲得的1 940 個(gè)時(shí)間序列作為輸入。
提出的LSTM 模型總共有4 層,采用最基本的框架,如圖4 所示。在給定來(lái)自前一個(gè)時(shí)間點(diǎn)T的時(shí)間序列數(shù)據(jù)的情況下,預(yù)測(cè)在時(shí)間T+1 時(shí)的fMRI 時(shí)間序列數(shù)據(jù)。測(cè)試數(shù)據(jù)被輸入到LSTM 層,最后一層輸出被送到完全連接層。使用Kears 對(duì)LSTM 進(jìn)行了相應(yīng)的訓(xùn)練和測(cè)試,并且使用了自適應(yīng)矩估計(jì)(Adam)優(yōu)化器來(lái)最小化真實(shí)標(biāo)簽和預(yù)測(cè)標(biāo)簽之間的損失值,將batch size 設(shè)置為32,學(xué)習(xí)率從0.001開(kāi)始,并在每個(gè)時(shí)期后以10-2的衰減率衰減,損失函數(shù)為交叉熵?fù)p失。
圖4 模型結(jié)構(gòu)
為了提高模型的泛化性能并克服過(guò)度擬合,還使用了dropout(dropout=0.5)和L1,2-范數(shù)正則化(L1=0.000 5,L2=0.000 5)來(lái)調(diào)節(jié)模型參數(shù)。當(dāng)驗(yàn)證損失停止減少50 個(gè)epoch 或執(zhí)行了最大epoch(1 000 個(gè)epoch)時(shí),訓(xùn)練過(guò)程就停止了,顯著性檢驗(yàn)采用雙尾配對(duì)t檢驗(yàn),α=0.05。
為了對(duì)模型進(jìn)行評(píng)估,文中使用了10 倍的交叉驗(yàn)證,對(duì)數(shù)據(jù)集進(jìn)行了分割,對(duì)25%進(jìn)行測(cè)試,75%進(jìn)行訓(xùn)練。
根據(jù)交叉驗(yàn)證的結(jié)果,選擇了靈敏度(sensitivity)、特異性(specificity)以及分類(lèi)準(zhǔn)確率(accuracy)3 個(gè)分類(lèi)結(jié)果評(píng)估指標(biāo)。指標(biāo)計(jì)算方法如下:
式中,TP為真正例,F(xiàn)N為假反例,F(xiàn)P為假正例,TN為真反例,SN為靈敏度,SP為特異性,ACC為分類(lèi)準(zhǔn)確率,F(xiàn)PR為假陽(yáng)性率,ROC 曲線下的面積可以反映分類(lèi)器的性能,面積越大分類(lèi)器的性能越好。
除了使用文中所提出的基于在線字典學(xué)習(xí)的方式提取時(shí)間序列之外,傳統(tǒng)方式還可以通過(guò)各種腦區(qū)模板來(lái)對(duì)時(shí)間序列進(jìn)行提取。為了驗(yàn)證方法的有效性,通過(guò)使用概率圖譜(MSDL)、自動(dòng)解剖標(biāo)簽(AAL)和史密斯地圖集(Smith Atlas)3 種模板來(lái)提取時(shí)間序列,并和提出的方法做對(duì)比,不同模板提取時(shí)間序列結(jié)果比較如表2 所示。
表2 不同模板提取時(shí)間序列結(jié)果比較
通過(guò)實(shí)驗(yàn)可知,基于已知模板的方式直接提取相應(yīng)時(shí)間序列,該方式與文中提出的基于FastICA 初始化的在線字典學(xué)習(xí)算法提取前期的ROI 相比,文中方式在準(zhǔn)確率上達(dá)到了79.01%,在靈敏度和特異性方面也分別達(dá)到了62.70%和88.90%,很明顯Di-LSTM 方法得到的大腦ROI 圖譜更加穩(wěn)定和精確,分類(lèi)效果也較優(yōu)。
目前,對(duì)于ADHD 分類(lèi)的研究,很多方法是基于功能連接結(jié)合機(jī)器學(xué)習(xí)的算法。為了驗(yàn)證方法的有效性,基于ADHD-200 數(shù)據(jù)集設(shè)計(jì)了3 個(gè)對(duì)比實(shí)驗(yàn):對(duì)基于多尺度SVM、SC-CNN-Attention、Di-DNN 3種分類(lèi)方法結(jié)果作對(duì)比。
Di-DNN 將字典學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,利用ADHD 和正常被試數(shù)據(jù)結(jié)合基于FastICA 初始化的在線字典學(xué)習(xí)獲取ROI 時(shí)間序列,之后結(jié)合深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)算法進(jìn)行分類(lèi),得到的分類(lèi)結(jié)果為另一組對(duì)比實(shí)驗(yàn),表3 是文獻(xiàn)中方法與Di-DNN 以及Di-LSTM 方法進(jìn)行對(duì)比的結(jié)果。深度神經(jīng)網(wǎng)絡(luò)由4 層全連接層構(gòu)成,每層的神經(jīng)元個(gè)數(shù)分別為512、256、128、2,每個(gè)全連接層之后均有一個(gè)dropout 層,且前三層的激活函數(shù)為L(zhǎng)eakyReLU(alpha=0.05),最后一層為softmax。
表3 不同方法分類(lèi)對(duì)比結(jié)果
由表3可知,Di-LSTM算法準(zhǔn)確率達(dá)到了79.01%,而相應(yīng)的ROC 圖如圖5 所示,達(dá)到了0.88,整體表現(xiàn)較好。
圖5 使用Di-LSTM方法分類(lèi)ROC圖
文獻(xiàn)[3]使用多目標(biāo)支持向量機(jī)對(duì)ADHD 進(jìn)行分類(lèi),準(zhǔn)確率為75.30%;文獻(xiàn)[5]使用了帶有注意力網(wǎng)絡(luò)的分離通道卷積神經(jīng)網(wǎng)絡(luò)(SC-CNN-Attention),處理了基于AAL 模板提取的時(shí)間序列信號(hào),最后得到的準(zhǔn)確率為68.6%;字典學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)(DNN)相結(jié)合達(dá)到的分類(lèi)結(jié)果準(zhǔn)確率為70.1%;Di-LSTM 用字典學(xué)習(xí)和LSTM 相結(jié)合的方法對(duì)ADHD疾病進(jìn)行預(yù)測(cè)分類(lèi),最終得到的平均準(zhǔn)確率達(dá)到了79.01%,分類(lèi)的結(jié)果分別比文獻(xiàn)[3]、文獻(xiàn)[5]、字典學(xué)習(xí)和DNN 結(jié)合的方法提高了3.71%、10.41%、8.91%。實(shí)驗(yàn)結(jié)果驗(yàn)證了Di-LSTM 算法在ADHD 疾病領(lǐng)域分類(lèi)的可用性。
文中提出了一種基于在線字典學(xué)習(xí)和LSTM 的方法對(duì)多動(dòng)癥進(jìn)行功能磁共振成像分類(lèi)。文中的時(shí)間序列利用FastICA 初始化的在線字典學(xué)習(xí)算法獲取被試數(shù)據(jù)的稀疏表示,其次使用LSTM 模型對(duì)所獲得的時(shí)間序列進(jìn)行訓(xùn)練。由此產(chǎn)生的網(wǎng)絡(luò)實(shí)現(xiàn)了在注意力缺陷多動(dòng)癥ADHD-200 數(shù)據(jù)集上對(duì)典型個(gè)體和注意力缺陷多動(dòng)癥患者進(jìn)行分類(lèi)的先進(jìn)性能。在未來(lái),定位注意力缺陷多動(dòng)癥的典型腦運(yùn)動(dòng)模式,并構(gòu)建更深入的學(xué)習(xí)模型,以用于注意力缺陷多動(dòng)癥和其他精神障礙的診斷,將是一個(gè)有意義的方向。