郭磊,王駿,丁維昌,潘祥,鄧趙紅,施俊,王士同
(1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122;2.上海大學(xué) 通信與信息工程學(xué)院,上海 200444)
自閉癥(autism spectrum disorder,ASD)是一種廣泛性發(fā)展障礙類疾病,也是一種具有生物基礎(chǔ)的發(fā)育障礙類疾病。該病癥發(fā)病時(shí)間不等,大部分發(fā)病于兒童時(shí)期并伴隨一生。其主要癥狀表現(xiàn)在社會(huì)交流障礙、語言交流障礙、情感缺陷等方面。這就導(dǎo)致了患者在日常的生活、交流和學(xué)習(xí)中有很大的障礙。因此,自閉癥的預(yù)測(cè)分類研究一直備受廣大研究者的關(guān)注。研究者已經(jīng)發(fā)現(xiàn)ASD 患者與正常人(typically developing individuals,TD)在大腦的功能連接上有明顯的差異[1]。
靜息態(tài)功能磁共振成像(resting state functional magnetic resonance image,rs-fMRI)通過在靜息狀態(tài)下采集血氧水平依賴信號(hào),對(duì)信號(hào)去噪[2]后,使用多層同時(shí)掃描技術(shù)[3]對(duì)功能磁共振全腦影像快速采集,以此來獲得時(shí)間分辨率和空間分辨率較高的圖像,獲得rs-fMRI 后,關(guān)鍵問題是如何從中有效提取特征。對(duì)于傳統(tǒng)的特征提取方法,以相關(guān)分析法為例,即選取ROI 種子點(diǎn)并計(jì)算它的平均時(shí)間序列,然后與全腦所有體素的時(shí)間序列進(jìn)行計(jì)算,或者兩個(gè)腦區(qū)之間的平均時(shí)間序列計(jì)算,得到相關(guān)系數(shù),以此來反映不同腦區(qū)神經(jīng)活動(dòng)模式之間的時(shí)間相關(guān)性[4]。作為圖像的預(yù)處理階段,該方法對(duì)ROI 異常敏感,種子點(diǎn)選取的位置、大小差異都可能導(dǎo)致較大的數(shù)據(jù)分析結(jié)果差異。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)在醫(yī)學(xué)圖像分類任務(wù)中取得了非常好的效果,隨著結(jié)構(gòu)的不斷優(yōu)化,誕生了多種成熟的網(wǎng)絡(luò)模型。2017 年,Dvornek 等[5]使用具有Long Short-Term Memory 的遞歸神經(jīng)網(wǎng)絡(luò)直接從靜態(tài)fMRI 的時(shí)間序列上對(duì)具有ASD 的個(gè)體進(jìn)行分類。但是,從fMRI 的感興趣區(qū)域中提取平均時(shí)間序列作為輸入數(shù)據(jù)無法兼顧全局信息,易造成信息缺失;2018 年,Yu 等[6]開發(fā)了一種全自動(dòng)的3D 卷積神經(jīng)網(wǎng)絡(luò)框架,用以識(shí)別和分類不同類型的功能性腦網(wǎng)絡(luò)。但是,腦網(wǎng)絡(luò)在訓(xùn)練前需要花費(fèi)大量的時(shí)間進(jìn)行手動(dòng)標(biāo)記,不可避免地會(huì)出現(xiàn)人工標(biāo)簽錯(cuò)誤和標(biāo)簽間的差異;2018 年,Li 等[7]為了在fMRI 中同時(shí)利用空間和時(shí)間信息,研究了使用滑動(dòng)窗口隨時(shí)間測(cè)量時(shí)間統(tǒng)計(jì)量(均值和標(biāo)準(zhǔn)差) 以及使用3D 卷積神經(jīng)網(wǎng)絡(luò)(CNN)捕獲空間特征的潛在好處。模型雖然在高維數(shù)據(jù)上獲得了良好的空間識(shí)別性能,但是在時(shí)間維度上的表現(xiàn)并不明顯;2019 年,Khosla 等[8]提出了一種新穎的3D 卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法來實(shí)現(xiàn)集成學(xué)習(xí)策略,提出的CNN 方法利用了rs-fMRI 數(shù)據(jù)的全分辨率3D 空間結(jié)構(gòu),并擬合了非線性預(yù)測(cè)模型。但是,將rs-fMRI 預(yù)處理后的多通道3D 圖像作為CNN 的輸入忽視了隱含在時(shí)間軸上的信息。對(duì)于以上提出的深度學(xué)習(xí)方法,網(wǎng)絡(luò)只能處理維數(shù)小于或等于3 的灰度或RGB 圖像,并且在對(duì)圖像進(jìn)行預(yù)處理過程中,很可能會(huì)丟失部分信息,使得出的結(jié)果不具有全局性。對(duì)于功能磁共振圖像而言,如果將每個(gè)時(shí)間點(diǎn)上的3D 圖像視為一個(gè)通道進(jìn)行3D 卷積,那么根據(jù)預(yù)處理后的數(shù)據(jù)集特性,網(wǎng)絡(luò)生成的通道數(shù)目會(huì)隨著時(shí)間的推移而增多,從而使得網(wǎng)絡(luò)寬度過大,可能會(huì)造成傳播過程中信息丟失,影響網(wǎng)絡(luò)的表達(dá)能力[9]。另一方面,可以將每個(gè)樣本多個(gè)時(shí)間點(diǎn)上的3D 圖像視為一個(gè)圖像立方體輸入到3D-CNN中,但是這種處理會(huì)增加大量的參數(shù),忽略靜息態(tài)功能像隨時(shí)間變化的趨勢(shì)信息,并且性能表現(xiàn)不佳??偠灾?,有必要尋找一種有效的方法從rs-fMRI的時(shí)間和空間信息中提取特征。
本文提出了4D 卷積神經(jīng)網(wǎng)絡(luò),通過rs-fMRI對(duì)ASD 進(jìn)行分類,所提出的4D 卷積操作從功能磁共振圖像中提取空間和時(shí)間上的特征,可以得到功能磁共振圖像隨時(shí)間變化的信息。與幾個(gè)流行的網(wǎng)絡(luò)相比,例如AlexNet[10]、3D-CNN[11]、2CC3D[7]、T3D[12],所提出的網(wǎng)絡(luò)能夠有效地從功能磁共振圖像中提取與ASD 密切相關(guān)的時(shí)間空間特征,較之以往的3D 卷積神經(jīng)網(wǎng)絡(luò),4D-CNN對(duì)含有時(shí)空特性的數(shù)據(jù)具有更好的適應(yīng)性,可以實(shí)現(xiàn)更好的分類效果。
深度學(xué)習(xí)是一類通過多層處理,逐漸將初始的低層特征表示轉(zhuǎn)化為高層特征表示的特征學(xué)習(xí)方法。這樣的方法可以被訓(xùn)練用于監(jiān)督或無監(jiān)督學(xué)習(xí),由此產(chǎn)生的復(fù)雜模型已經(jīng)被廣泛用于視覺物體識(shí)別、人類行為識(shí)別、自然語言處理、音頻分類、腦機(jī)交互、人體跟蹤、圖像恢復(fù)、去噪、分割等任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)是一種深度模型,在這種模型中,輸入層、隱藏層和輸出層組成基本的網(wǎng)絡(luò)結(jié)構(gòu),其中隱藏層通常包括卷積層、池化層和全連接層。卷積層中卷積核相當(dāng)于特征提取器,每個(gè)卷積核對(duì)整幅圖像數(shù)據(jù)進(jìn)行有規(guī)律地掃描并依次計(jì)算各局部區(qū)域的特征值以匹配某種模式;池化層對(duì)卷積層結(jié)果進(jìn)行特征選擇和信息過濾,實(shí)現(xiàn)一定程度的平滑壓縮;全連接層通常搭建在隱藏層的最后,對(duì)卷積層和池化層的結(jié)果進(jìn)行分類。
1998 年,紐約大學(xué)的Lecun 等[13]正式提出了卷積神經(jīng)網(wǎng)絡(luò)LeNet-5,確立了CNN 的現(xiàn)代結(jié)構(gòu),并在圖像處理領(lǐng)域獲得了極大成功。之后研究人員發(fā)現(xiàn)當(dāng)神經(jīng)網(wǎng)絡(luò)飽和之后模型會(huì)產(chǎn)生過擬合現(xiàn)象,直到2012 年,Krizhevsky 等[10,14]在提出的Alexnet 中采用Dropout 和數(shù)據(jù)增強(qiáng)的方法來防止網(wǎng)絡(luò)過擬合,并使用非線性激活函數(shù)ReLU(rectified linear unit)提高網(wǎng)絡(luò)收斂速度。2014 年,Simonyan 等[15]采用小卷積堆疊的方式搭建VGGNet,證明了更深的網(wǎng)絡(luò)能更好地提取特征,值得一提的是,雖然VGGNet 比AlexNet 的參數(shù)多,但只需要更少的迭代次數(shù)就能收斂。此外,在設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)時(shí),除了考慮網(wǎng)絡(luò)的深度,還會(huì)考慮網(wǎng)絡(luò)的寬度。同年,Szegedy 等[16]提出的Inception v1 網(wǎng)絡(luò),通過改變傳統(tǒng)的卷積層設(shè)計(jì)思路,在加大網(wǎng)絡(luò)深度和寬度的同時(shí)減少了參數(shù)量,并且增加了網(wǎng)絡(luò)對(duì)尺度的適應(yīng)性。隨后,通過對(duì)Inception v1 網(wǎng)絡(luò)結(jié)構(gòu)的不斷改進(jìn),誕生了Inception v2[17]、Inception v3[18]、Inception v4[19]。在VGG 網(wǎng)絡(luò)中,當(dāng)網(wǎng)絡(luò)深度達(dá)到一定界限的時(shí)候,就會(huì)產(chǎn)生梯度消失現(xiàn)象,2016 年,He 等[20]在提出的ResNet 中引入了跳躍連接結(jié)構(gòu)來解決梯度消失的問題,進(jìn)而可以進(jìn)一步加大網(wǎng)絡(luò)深度。2017 年,Huang 等[21]受ResNet 和Inception 的影響,提出了DenseNet,不同于ResNet 的是,DenseNet 模型建立的是前面所有層與后面層的密集連接,通過特征重用和旁路設(shè)置,既緩解了梯度消失問題,又大幅度減少了網(wǎng)絡(luò)的參數(shù)量,實(shí)現(xiàn)了比ResNet 更優(yōu)的性能。
根據(jù)卷積核結(jié)構(gòu)的不同,CNN 可分為一維卷積、二維卷積與三維卷積。一維卷積通常用于序列數(shù)據(jù)分析,如從rs-fMRI 的感興趣區(qū)域中提取時(shí)間序列矩陣并輸入到一維卷積神經(jīng)網(wǎng)絡(luò)中對(duì)自閉癥進(jìn)行分類[22];二維卷積被廣泛用于計(jì)算機(jī)視覺的圖像數(shù)據(jù)分析,如具有代表性的網(wǎng)絡(luò)LeNet-5 識(shí)別手寫數(shù)字圖片[13];而三維卷積則可用于時(shí)空數(shù)據(jù)的分析,如3D-CNN 識(shí)別視頻中的人類動(dòng)作[11]。CNN 的卷積層通過卷積操作提取輸入的特征,低層卷積提取低級(jí)特征,隨著網(wǎng)絡(luò)結(jié)構(gòu)的加深,更高層的卷積層提取更高級(jí)的特征。在卷積層中每個(gè)卷積核在對(duì)輸入圖像進(jìn)行掃描時(shí),僅處理其投影在圖像上的感受野的數(shù)據(jù),且卷積核權(quán)重保持不變,此即為卷積核的局部連接性與權(quán)值共享性。由于卷積核的局部連接特性,模型可以計(jì)算區(qū)域特征,充分利用局部區(qū)域內(nèi)的空間信息;由于卷積核的權(quán)值共享特性,在模型訓(xùn)練時(shí)卷積層所需參數(shù)要遠(yuǎn)小于全連接層。因此CNN 適用于特征維度較大、具有位置信息的圖像數(shù)據(jù)的分析。
本文研究了4D-CNN 在醫(yī)學(xué)圖像分類任務(wù)中對(duì)自閉癥的功能核磁共振圖像進(jìn)行分類的應(yīng)用,通過用4D 卷積核將多個(gè)連續(xù)的三維圖像堆疊在一起,可實(shí)現(xiàn)4D 卷積。在降采樣層中,通過在上一層特征圖上的局部領(lǐng)域上合并來降低特征圖的分辨率,從而去除冗余信息,提高網(wǎng)絡(luò)效率。最后通過全連接層將特征映射到樣本標(biāo)記空間實(shí)現(xiàn)分類任務(wù)。
本文的技術(shù)路線如圖1 所示,其中涉及原始數(shù)據(jù)的預(yù)處理、數(shù)據(jù)增強(qiáng)、模型訓(xùn)練和使用訓(xùn)練好的模型進(jìn)行測(cè)試。
圖1 用于自閉癥輔助診斷的4D-CNN 流程Fig.1 4D-CNN procedure for the auxiliary diagnosis of autism
本文實(shí)驗(yàn)基于ABIDE(autism brain imaging data exchange)數(shù)據(jù)庫,其中包括來自多個(gè)數(shù)據(jù)中心的1112 名ASD 患者和TD 的rs-fMRI 數(shù)據(jù)。在本文中,考慮從ABIDE 的NYU、UM_1 和USM 這3 個(gè)成像中心中獲得rs-fMRI,其中各個(gè)數(shù)據(jù)中心的ASD 組和TD 組樣本數(shù)如表1 所示。使用DPARSF[23]對(duì)rs-fMRI 數(shù)據(jù)進(jìn)行預(yù)處理。具體而言,將每個(gè)受試者的前10 個(gè)獲得的rs-fMRI丟棄。然后,執(zhí)行時(shí)間層校正(slice timing)和頭部運(yùn)動(dòng)校正(realign)。每個(gè)人的大腦尺寸大小、形狀和位置差異較大,無法將結(jié)果按照統(tǒng)一的標(biāo)準(zhǔn)進(jìn)行分析,因此需要把不同人的大腦影射在同一空間內(nèi),本文使用EPI(echo-planar image)模板將數(shù)據(jù)統(tǒng)一到蒙特利爾神經(jīng)學(xué)研究所(montreal neurological institute,MNI)制定的標(biāo)準(zhǔn)空間中,從而完成對(duì)功能性進(jìn)行空間標(biāo)準(zhǔn)化(normalize)處理。為了提高配準(zhǔn)效果和增大圖像的信噪比,需要對(duì)圖像進(jìn)行空間平滑(smooth)。經(jīng)過預(yù)處理后,本文得到了每個(gè)被試在單個(gè)時(shí)間點(diǎn)上尺寸大小為61×73×61 的rs-fMRI 數(shù)據(jù)。為了驗(yàn)證模型的泛化能力,在數(shù)據(jù)預(yù)處理后將其分為訓(xùn)練集和測(cè)試集,在不同成像中心下的具體數(shù)據(jù)分布如表2所 示。
表1 3 個(gè)成像中心的樣本分布Table 1 Sample distribution of the three imaging centers
表2 3 個(gè)成像中心訓(xùn)練和測(cè)試的樣本數(shù)量Table 2 Sample size for training and testing at the three imaging centers
由于每個(gè)被試采集的圖像具有不同的時(shí)間長(zhǎng)度,同時(shí),也為了擴(kuò)大數(shù)據(jù)集的規(guī)模,避免因訓(xùn)練樣本過少而引發(fā)的模型過擬合問題,本文對(duì)訓(xùn)練集應(yīng)用數(shù)據(jù)增強(qiáng)策略。具體而言,針對(duì)每個(gè)被試的rs-fMRI,在保證時(shí)間序列的前提下,對(duì)時(shí)間點(diǎn)上的圖像進(jìn)行隨機(jī)選取。為了保證數(shù)據(jù)的有效性和一致性,選取70 個(gè)時(shí)間點(diǎn)上的圖像作為一個(gè)時(shí)間序列,每個(gè)被試隨機(jī)生成5 組,并標(biāo)上相應(yīng)的標(biāo)簽。通過把所有被試原始訓(xùn)練集中的rs-fMRI 經(jīng)過上述過程的處理,得到了一個(gè)新的訓(xùn)練集。
在三維卷積神經(jīng)網(wǎng)絡(luò)中,當(dāng)應(yīng)用于時(shí)間序列上連續(xù)的二維特征圖時(shí),三維卷積從空間和時(shí)間兩個(gè)維度計(jì)算特征,通過將1 個(gè)三維核與多個(gè)相鄰二維圖疊加而成的立方體進(jìn)行卷積來實(shí)現(xiàn)的,在這種構(gòu)造中,卷積層中的特征圖被連接到前一層中的多個(gè)相鄰圖像,從而獲得二維特征圖的連續(xù)信息。在功能磁共振圖像數(shù)據(jù)中,時(shí)間序列上呈現(xiàn)的是三維空間結(jié)構(gòu),本文應(yīng)用四維卷積核與多個(gè)相鄰的三維圖疊加而成的四維特征進(jìn)行卷積,用于處理在時(shí)間序列上呈現(xiàn)三維空間結(jié)構(gòu)的數(shù)據(jù),從而在空間和時(shí)間兩個(gè)維度上計(jì)算特征。四維卷積過程如圖2 所示。其中,卷積核在時(shí)間維度上的大小為3,連接采用顏色編碼,相同的顏色權(quán)重共享。將相同的4D 內(nèi)核應(yīng)用于連續(xù)的3D 立方塊中,通過移動(dòng)步長(zhǎng)提取前一層整個(gè)時(shí)間序列上的特征。
圖2 4D 卷積過程Fig.2 4D convolution process
圖1 給出了用于rs-fMRI 的4D-CNN 結(jié)構(gòu),它由1 個(gè)輸入層、3 個(gè)卷積層、1 個(gè)全連接層和1 個(gè)輸出層組成。最后使用softmax 函數(shù)將輸出結(jié)果轉(zhuǎn)換為概率表示,以便更好地實(shí)現(xiàn)分類。每個(gè)卷積層由1 個(gè)大小為P×Q×R×T(空間維度為P×Q×R,時(shí)間維度為T)的四維過濾器內(nèi)核,1 個(gè)激活單元和1 個(gè)池化單元組成。卷積操作通過在輸入圖像或前一層卷積層的輸出中對(duì)內(nèi)核進(jìn)行卷積來生成特征圖,并設(shè)置ReLU 作為激勵(lì)函數(shù)擬合網(wǎng)絡(luò)的非線性映射,防止網(wǎng)絡(luò)梯度消失和加快訓(xùn)練速度。池化單元起到二次提取特征的作用,經(jīng)過最大池化采樣,將高維特征轉(zhuǎn)換成低維代表性特征,有利于在連續(xù)多層的網(wǎng)絡(luò)中進(jìn)行更深層次的表示。最后,通過反向傳播算法[24],使來自損失函數(shù)的信息通過網(wǎng)絡(luò)傳遞,計(jì)算梯度來訓(xùn)練網(wǎng)絡(luò)。
具體而言,由于數(shù)據(jù)集中每個(gè)樣本采集圖像的時(shí)間長(zhǎng)短有所差異,為了獲得相同的輸入規(guī)模,本文將統(tǒng)一選取每個(gè)被試的前M個(gè)時(shí)間點(diǎn),每一個(gè)時(shí)間點(diǎn)上特征圖大小為X×Y×Z的fMRI作為特征輸入到4D-CNN 中。該網(wǎng)絡(luò)由6 層結(jié)構(gòu)組成,每層都包括可訓(xùn)練的參數(shù)。輸入層包含M個(gè)通道,每個(gè)通道大小為X×Y×Z的四維fMRI 數(shù)據(jù)。對(duì)輸入層應(yīng)用大小為3×3×3×3 (空間維度為3×3×3,時(shí)間維度為3)的核進(jìn)行4D 卷積,卷積完成后得到M1個(gè)特征圖,每個(gè)特征圖大小為X1×Y1×Z1。S2 層是由M1個(gè)大小為X2×Y2×Z2的特征圖組成的降采樣層,由C1 層經(jīng)過 2×2×2×1的最大池化得到。卷積層C3 是用大小為 5×5×5×3(空間維度為 5×5×5,時(shí)間維度為3)的4D 卷積核對(duì)S2 層進(jìn)行卷積得到,規(guī)模為X2×Y2×Z2×M2(空間維度為X2×Y2×Z2,時(shí)間維度為M2)。S4 層是由M2個(gè)大小為X3×Y3×Z3的特征圖組成的降采樣層,由C3 層經(jīng)過4×4×4×1 的最大池化得到。根據(jù)S4 層數(shù)據(jù)規(guī)模,采用7×8×7×3(空間維度為7×8×7,時(shí)間維度為3)的卷積核對(duì)S4 層進(jìn)行卷積,得到了C5 層,規(guī)模為X4×Y4×Z4×M3(空間維度為X4×Y4×Z4,時(shí)間維度為M3)。輸出層由與分類任務(wù)類別數(shù)量相同的特征組成,每個(gè)特征都與C5 層中的X4×Y4×Z4×M3個(gè)特征完全連接。通過多層卷積和池化,將一個(gè)被試在時(shí)間序列上連續(xù)的功能磁共振圖像轉(zhuǎn)換為一個(gè)X4×Y4×Z4×M3維的特征向量。相比較以往處理功能磁共振圖像的方法,在卷積的過程中,蘊(yùn)含著連續(xù)的時(shí)間信息。在本設(shè)計(jì)中,本文最終在X4×Y4×Z4×M3維特征向量上應(yīng)用一個(gè)線性分類器進(jìn)行分類。本文設(shè)計(jì)并評(píng)估了其他在不同階段結(jié)合多個(gè)信息通道的4D-CNN 架構(gòu),結(jié)果表明該架構(gòu)的性能最佳。
在本節(jié)中,在ASD 數(shù)據(jù)集上驗(yàn)證本文提出的4D-CNN 模型,通過對(duì)影響模型性能的超參數(shù)進(jìn)行尋優(yōu),來獲得最佳的網(wǎng)絡(luò)結(jié)構(gòu)。為了驗(yàn)證4DCNN 在ASD 分類上的優(yōu)越性,進(jìn)一步在ASD 的多個(gè)成像中心上比較了多種對(duì)比方法。
為了體現(xiàn)測(cè)試數(shù)據(jù)集上分類模型的有效性,選取精確度(ACC)、AUC 值、敏感度(SEN)和特異性(SPE)作為實(shí)驗(yàn)的性能指標(biāo)。表3 和式(1)~(3)用于計(jì)算相應(yīng)的性能指標(biāo):
表3 混淆矩陣中的元素Table 3 Elements in the confusion matrix
在本節(jié)中,通過4D-CNN 來執(zhí)行ASD 診斷,將預(yù)處理后的rs-fMRI 作為網(wǎng)絡(luò)的輸入數(shù)據(jù)。本文將ASD 組標(biāo)記為1,將健康對(duì)照組標(biāo)記為0,將ASD 診斷視為二分類問題。為了找到適合ASD診斷的4D-CNN 的最佳架構(gòu),本文進(jìn)行了架構(gòu)搜索[25]策略,即探索基于4D-CNN 架構(gòu)的最佳超參數(shù)配置。
對(duì)于卷積神經(jīng)網(wǎng)絡(luò),輸入幀序列的時(shí)間深度在活動(dòng)識(shí)別任務(wù)中起著關(guān)鍵作用[12],為了實(shí)現(xiàn)新架構(gòu)的最佳配置,本文對(duì)網(wǎng)絡(luò)輸入數(shù)據(jù)的時(shí)間深度進(jìn)行了一系列測(cè)試,表4 列出了在不同時(shí)間深度下模型的測(cè)試性能。為尋求4D-CNN 的最佳配置,基于上述研究的結(jié)果進(jìn)行了實(shí)驗(yàn),并采用4D卷積核(多個(gè)連續(xù)的三維權(quán)值矩陣)在卷積層之間建立更有效的時(shí)空連接,便于最大限度地從fMRI中傳遞與自閉癥相關(guān)的時(shí)間、空間特征,以此改善網(wǎng)絡(luò)提取特征的能力。其中,為了選取使4DCNN 具有最佳性能的卷積核,本文對(duì)4D 卷積核在時(shí)間維度上的深度進(jìn)行了驗(yàn)證。根據(jù)前一層特征圖的規(guī)模,選取不同尺寸的參數(shù)矩陣作為單個(gè)時(shí)間點(diǎn)上的權(quán)值矩陣,并默認(rèn)卷積過程中卷積核的平移步長(zhǎng)為1,表5 列出了在不同卷積核規(guī)模下4D-CNN 的測(cè)試性能。
表4 不同時(shí)間深度下4D-CNN 模型的評(píng)估結(jié)果Table 4 Evaluation results of the 4D-CNN models at different time depths
表5 不同卷積核規(guī)模下4D-CNN 模型的評(píng)估結(jié)果Table 5 Evaluation results of the 4D-CNN models underdifferent convolution kernel scales
在訓(xùn)練階段,使用隨機(jī)梯度下降(SGD)進(jìn)行誤差反向傳播更新參數(shù),經(jīng)過驗(yàn)證,將學(xué)習(xí)率設(shè)置為0.01,可避免在訓(xùn)練過程中收斂速度過慢或陷入局部最優(yōu)。此外,將最大迭代次數(shù)設(shè)置為150。
結(jié)果顯示,卷積核規(guī)模過小,只能提取單個(gè)時(shí)間點(diǎn)或單個(gè)時(shí)間段上的特征;隨著卷積核時(shí)間維度加深,網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)量呈指數(shù)上升,迭代更新參數(shù)速度減緩,并出現(xiàn)過擬合現(xiàn)象,帶來的后果就是網(wǎng)絡(luò)的泛化能力大大降低。所以,本文選取時(shí)間維度上深度為3 的卷積核作為4D-CNN架構(gòu)的特征提取器。
將提出的網(wǎng)絡(luò)與基于ROI(regions of interest)構(gòu)建腦功能網(wǎng)絡(luò)(ROI-net)方法進(jìn)行ASD 分類性能比較,此外,幾個(gè)經(jīng)典的網(wǎng)絡(luò)對(duì)本文中用到的數(shù)據(jù)集進(jìn)行診斷,包括T3D、AlexNet、2CC3D、3D-CNN 以驗(yàn)證4D-CNN 的有效性。表6 將對(duì)比方法進(jìn)行了介紹。
表6 用于比較的方法Table 6 Methods used for comparison
本文所用的數(shù)據(jù)集具有四維特性,無法直接將數(shù)據(jù)集用于比較的三維卷積神經(jīng)網(wǎng)絡(luò)方法中,因此采用系統(tǒng)抽樣的方式對(duì)數(shù)據(jù)集進(jìn)行處理,以便對(duì)比方法能更好地適用于本文中的數(shù)據(jù)集。具體而言,對(duì)每個(gè)被試的功能磁共振圖像在時(shí)間軸上進(jìn)行等距劃分,即從第一個(gè)時(shí)間點(diǎn)開始,每連續(xù)10 個(gè)時(shí)間點(diǎn)上的圖像為一組,故前50 個(gè)時(shí)間點(diǎn)上的圖像隨之分為5 組,然后每組隨機(jī)選出一個(gè)時(shí)間點(diǎn)上的圖像作為卷積網(wǎng)絡(luò)的輸入,以此,每個(gè)被試選出5 個(gè)圖像分別進(jìn)行3D 卷積處理,輸出5 個(gè)分類結(jié)果,并將結(jié)果中占比高的類別作為本次輸出結(jié)果。
表7、8、9 分別展示了提出的4D-CNN 與其他方法在NYU、UM_1 和USM 數(shù)據(jù)集上的分類結(jié)果??梢钥闯?,4D-CNN 使用四維卷積核對(duì)自閉癥的功能磁共振圖像進(jìn)行時(shí)空特征學(xué)習(xí),可以取得比T3D、AlexNet、2CC3D 及3D-CNN 等經(jīng)典的三維卷積神經(jīng)網(wǎng)絡(luò)更好的性能。表7 的實(shí)驗(yàn)結(jié)果表明提出的4D-CNN 在NYU 數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于其他方法,分類精度達(dá)到了70.49%,并且呈現(xiàn)出良好的敏感性和特異性。歸結(jié)原因在于,本文所提出的4D 卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)直接從預(yù)處理后的功能磁共振圖像中提取時(shí)空特征,既充分保留了圖像的全局信息,又很好地避免了圖像經(jīng)傳統(tǒng)方法預(yù)處理后帶來的誤差和冗余信息。進(jìn)一步驗(yàn)證了從fMRI 中提取四維特征對(duì)自閉癥分類任務(wù)的有效性。在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果說明了本文所提的網(wǎng)絡(luò)對(duì)含有時(shí)間和空間特性的數(shù)據(jù)具有適用性。
表7 不同方法在自閉癥分類中的性能比較(NYU)Table 7 Comparison of the performances of different methods for autism classification (NYU)
此外,用ROC 曲線來更加直觀地鑒別模型優(yōu)劣,ROC 曲線能很容易地查出任意界限值時(shí)模型對(duì)疾病的識(shí)別能力,圖3、4、5 分別顯示了在NYU、UM_1 和USM 這3 個(gè)數(shù)據(jù)集上不同方法所獲得的R O C 曲線。可以看出,4 D-C N N 的ROC 曲線在整體上優(yōu)于其他方法,說明本文的方法對(duì)自閉癥有更好的識(shí)別能力。ROC 曲線下的面積即為AUC 值,AUC 值能很好地描述模型整體性能的高低,從圖3 可以看出,在NYU 數(shù)據(jù)集上4D-CNN 的AUC 值為0.7846,明顯高于其他方法。在圖4、5 中,4D-CNN 的AUC 值也高于大多數(shù)方法。
表8 不同方法在自閉癥分類中的性能比較(UM_1)Table 8 Comparison of the performances of different methods for autism classification (UM_1)
表9 不同方法在自閉癥分類中的性能比較(USM)Table 9 Comparison of the performances of different methods for autism classification (USM)
圖3 不同方法的ROC 曲線(NYU)Fig.3 ROC curve of different methods (NYU)
圖4 不同方法的ROC 曲線(UM_1)Fig.4 ROC curve of different methods(UM_1)
圖5 不同方法的ROC 曲線(USM)Fig.5 ROC curve of different methods (USM)
本文提出了一個(gè)四維的卷積神經(jīng)網(wǎng)絡(luò)對(duì)自閉癥的功能磁共振圖像進(jìn)行分類。具體來說,首先對(duì)所有的fMRI 進(jìn)行預(yù)處理,然后通過提出的模型直接對(duì)圖像進(jìn)行訓(xùn)練。根據(jù)不斷的迭代更新參數(shù),得到了一個(gè)具有顯著識(shí)別能力的4D-CNN。在提出的網(wǎng)絡(luò)中,訓(xùn)練過程完全保留了受試者的全局特征和連續(xù)的時(shí)間特征,從而獲得了較好的實(shí)驗(yàn)結(jié)果。對(duì)來自不同數(shù)據(jù)集的受試者實(shí)驗(yàn)表明,所提出的4D-CNN 方法可以使用fMRI 數(shù)據(jù)有效地對(duì)腦疾病進(jìn)行診斷。