吳雪揚(yáng),張 煜,張 華,鐘 濤
南方醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院//廣東省醫(yī)學(xué)圖像處理重點(diǎn)實(shí)驗(yàn)室,廣東 廣州510515
對(duì)研究對(duì)象的腦部磁共振(MRI)圖像開展精準(zhǔn)的處理與分析,對(duì)推動(dòng)神經(jīng)科學(xué)研究的發(fā)展至關(guān)重要。獼猴作為一種被廣泛應(yīng)用于科學(xué)研究的動(dòng)物模型,與人類在各方面有著高度的系統(tǒng)相似性。所以,針對(duì)獼猴大腦開展研究對(duì)了解人類大腦的發(fā)育和衰老機(jī)制,探索腦疾病的發(fā)病機(jī)制和驗(yàn)證臨床技術(shù)以及藥物的有效性等方面起到不可或缺的作用[1,2]。雖然人類腦影像學(xué)研究進(jìn)展迅速,但獼猴腦影像學(xué)研究稍顯落后,究其原因,一方面是獼猴的飼養(yǎng)需要較高成本和適宜的環(huán)境,導(dǎo)致獼猴醫(yī)學(xué)影像數(shù)據(jù)較少。另一方面是數(shù)據(jù)分析方面的挑戰(zhàn),缺乏針對(duì)獼猴腦影像定制的分析工具。由于人類和獼猴的大腦在解剖結(jié)構(gòu)和功能上存在一定差異,導(dǎo)致大部分根據(jù)人腦定制參數(shù)和校準(zhǔn)的腦影像分析工具不適用于獼猴。因此,獼猴腦影像分析是一個(gè)需要迫切發(fā)展的領(lǐng)域。而全腦分割是腦影像分析的關(guān)鍵前置任務(wù),通過對(duì)全腦的精細(xì)劃分,可以進(jìn)一步專注于特定目標(biāo)或感興趣區(qū)域,對(duì)研究與分析腦部解剖結(jié)構(gòu)以及腦部疾病至關(guān)重要[3,4]。
目前,在獼猴腦影像分割研究領(lǐng)域,基于圖譜的方法是獼猴全腦分割最常用的手段之一[5],其核心是利用配準(zhǔn)算法把腦圖譜的分割先驗(yàn)遷移到待處理樣本上,然后使用標(biāo)簽轉(zhuǎn)換等技術(shù)完成后續(xù)的全腦分割,例如圖像配準(zhǔn)軟件(ANTs)[6]和近期發(fā)布的利用NIMH Macaque Template(NMT v2)[7]開發(fā)的獼猴腦影像處理工具CIVET-Macaque[8]和PREEMACS[9]。然而,一方面基于圖譜配準(zhǔn)的全腦分割手段較依賴圖譜本身的精確度以及圖譜和待處理樣本之間的契合度。發(fā)育期獼猴大腦的低組織對(duì)比度和動(dòng)態(tài)發(fā)育,包括不同組織的灰度強(qiáng)度和對(duì)比度、大腦尺寸等的劇烈變化,給圖譜的選擇以及配準(zhǔn)算法的準(zhǔn)確度帶來了挑戰(zhàn);另一方面,圖譜與MRI圖像間的迭代配準(zhǔn),往往需要花費(fèi)較長的計(jì)算時(shí)間。因此基于圖譜的獼猴全腦分割速度和精度都存在較大的局限性。
全腦分割作為諸多醫(yī)學(xué)圖像分割任務(wù)中的一種,從數(shù)據(jù)輸入角度可以簡單的劃分為單一模態(tài)輸入和多模態(tài)輸入兩種。其中多模態(tài)輸入可以利用不同模態(tài)之間豐富的特征為模型的決策提供更多的信息,降低信息的不確定性,從而提高模型預(yù)測結(jié)果的精準(zhǔn)度。受文獻(xiàn)[10-12]的啟發(fā),在本次研究中,我們使用T1-weighted(T1-w)圖像和T2-weighted(T2-w)圖像作為多模態(tài)輸入,提出基于雙編碼器、雙模態(tài)輸入、注意力多模態(tài)特征融合的獼猴腦MRI圖像全腦分割網(wǎng)絡(luò)(DDAM)。與現(xiàn)有的圖像分割網(wǎng)絡(luò)相比,我們將U-Net[13]編碼器部分改變?yōu)殡p編碼器結(jié)構(gòu),并在解碼器中加入注意力多模態(tài)特征融合模塊,通過提取和融合更豐富的多模態(tài)特征,從而提升網(wǎng)絡(luò)分割性能。
考慮到腦部MRI圖像中可觀察到的皮層區(qū)域和皮層下區(qū)域之間的不同位置和解剖結(jié)構(gòu)差異,且二者都存在較多的標(biāo)簽類別(36 類cortical label 和34 類subcortical label),因此我們將全腦分割任務(wù)分離為皮層區(qū)域分割和皮層下區(qū)域分割兩個(gè)任務(wù),分別訓(xùn)練了專注于皮層區(qū)域的分割模型和專注于皮層下區(qū)域的分割模型,降低了任務(wù)復(fù)雜度和增強(qiáng)了網(wǎng)絡(luò)適應(yīng)訓(xùn)練數(shù)據(jù)的能力,進(jìn)而提高分割的精確度。
本文實(shí)驗(yàn)資料來自 UNC-Wisconsin Neurodevelopment Rhesus Database[14]公開的獼猴數(shù)據(jù)集。所使用的數(shù)據(jù)集由68例年齡均勻分布于13~36月的樣本組成,每個(gè)掃描樣本均采集T1-w圖像和T2-w圖像(圖1A)。參數(shù)如下:T1-w圖像矩陣為256×256,分辨率為0.5469 mm×0.5469 mm×0.8 mm;T2-w圖像矩陣為256×256,分辨率為0.6016 mm×0.6016 mm×0.6 mm。在圖像預(yù)處理方面,使用FSL(5.0版)[15]軟件的圖像配準(zhǔn)工具(FLIRT)將每個(gè)T2-w圖像與其對(duì)應(yīng)的T1-w圖像嚴(yán)格對(duì)齊,然后將所有圖像重采樣至各向同性分辨率為0.5469 mm。我們采用DIKA-Nets[16]方法去除腦顱骨,以及N4偏置性校正[17]對(duì)圖像進(jìn)行強(qiáng)度不均勻性校正。與此同時(shí),為了獲取T1-w圖像和T2-w圖像對(duì)應(yīng)的標(biāo)簽,我們使用ANTs軟件的SyN算法將NMT v2獼猴大腦模板[18,19]與當(dāng)前所有實(shí)驗(yàn)樣本進(jìn)行配準(zhǔn)得到對(duì)應(yīng)的轉(zhuǎn)換矩陣,并通過轉(zhuǎn)換矩陣將NMT v2對(duì)應(yīng)的全腦分割標(biāo)簽轉(zhuǎn)換為每例樣本對(duì)應(yīng)的精細(xì)結(jié)構(gòu)標(biāo)簽,包括皮層區(qū)域共36類和皮層下區(qū)域共34類(圖1B),最后由經(jīng)驗(yàn)豐富的影像專家使用ITK-SNAP軟件[20]進(jìn)行手工校正。
圖1 獼猴腦不同年齡段MRI圖像及分割真實(shí)標(biāo)簽Fig.1 MRI images of macaques at different ages (A) and parcellation ground truth and 3D rendering,including 36 categories of cortical labels and 34 categories of subcortical labels(B).
本研究選用U-Net作為Backbone,包含編碼器和解碼器兩部分,并且其輸入模態(tài)分別為T1-w和T2-w。其中,編碼器部分采用獨(dú)立的雙編碼路徑,每個(gè)編碼器路徑包含用于特征提取的4個(gè)由雙卷積模塊和最大池化層組成的下采樣層。解碼器部分為單解碼路徑,由4個(gè)上采樣層和4個(gè)特征融合模塊組成,通過對(duì)特征進(jìn)行上采樣并輸出原尺寸大小的分割結(jié)果。對(duì)兩個(gè)獨(dú)立編碼器的同一級(jí)下采樣層進(jìn)行特征拼接,并通過跳躍連接傳入解碼器的對(duì)應(yīng)上采樣層的特征融合模塊。其中,特征融合模塊可以有效地融合多模態(tài)的低級(jí)特征與高級(jí)特征并獲取更多的特征信息,從而提高分割結(jié)果的準(zhǔn)確度(圖2)。
圖2 網(wǎng)絡(luò)框架Fig.2 Overview of the proposed 3D parcellation framework based on dual-encoder with dual-modality inputs and Attentional Multi-modality feature fusion block (DDAM).The blue and orange blocks represent the encoders of T1-w and T2-w,respectively.The green blocks represent the common decoder.The patches of preprocessed T1-w and T2-w are the input of the network.
本研究提出注意力多模態(tài)特征融合模塊(AMFF)。AMFF 可分為前后兩部分:低級(jí)特征放大(LFA)(圖3A)和深層特征融合(LFF)(圖3B),二者均采用注意力機(jī)制。
圖3 注意力多模態(tài)特征融合模塊Fig.3 Architecture of the proposed Attentional Multi-modality Feature Fusion block(AMFF).Specifically,the input X2 is the up-sampling feature,and the input X1 is the down-sampling features after concatenation.A:LFA;B:LFF.
對(duì)于輸入尺寸為C×H×W×D的特征圖X1,X2,X1為跳躍連接傳入的多模態(tài)拼接特征,X2為上采樣特征,可轉(zhuǎn)換為元素表示為:
tk壓縮了Xn第k個(gè)通道內(nèi)的所有空間信息。然后先讓T通過一個(gè)全連接層和ReLU,此時(shí)再通過第二個(gè)全連接層復(fù)原T∈RC×1×1×1。最后通過sigmoid層將每個(gè)元素進(jìn)行歸一化得到通道權(quán)重系數(shù)σ(tk)并與特征圖逐元素相乘得到d1,
σ(tk)代表了第k個(gè)通道的重要性。另一方面,通過壓縮空間信息來獲得空間權(quán)重系數(shù)。與LFA類似,先將Xn在元素重新表示為然后通過1×1×1卷積壓縮空間信息得到q4,q4=Y4*Xn。最后將其歸一化獲得空間權(quán)重系數(shù),并在空間區(qū)域上對(duì)特征圖Xn重新校準(zhǔn),得到d2,
σ表示了空間元素的重要性。最后整合空間特征與通道特征,得到融合特征:
本次實(shí)驗(yàn)共使用68例獼猴腦MRI樣本,并采用4折交叉驗(yàn)證,所有實(shí)驗(yàn)均基于Pytorch1.13.0實(shí)現(xiàn),并在Ubuntu 18.04 系統(tǒng)中使用24GB GPU(NVIDIA RTX 4090)進(jìn)行。在模型訓(xùn)練前,將所有樣本去除冗余背景,并經(jīng)過裁剪使大小變?yōu)?60×160×160,然后按步長32重采樣成64×64×64的切塊。模型訓(xùn)練時(shí),采用Adam優(yōu)化器,批大小為4,最大迭代為120,前60個(gè)迭代的學(xué)習(xí)速率固定0.0002,后60個(gè)迭代的學(xué)習(xí)速率逐漸遞減至0。損失函數(shù)包括骰子相似(Dice)損失函數(shù)和交叉熵(CE)損失函數(shù),可用公式表示為:
其中,N為每例樣本中的元素集合,yi表示模型預(yù)測值的第i個(gè)元素,表示真實(shí)標(biāo)簽的第i個(gè)元素,平滑值ε=1e-5用于防止計(jì)算時(shí)出現(xiàn)分母為0的情況。C為每例樣本中的類別數(shù),yj表示第j個(gè)類別的模型預(yù)測值,表示第j個(gè)類別的真實(shí)標(biāo)簽的獨(dú)熱編碼(onehot)。在模型測試階段,將結(jié)果所得的切塊進(jìn)行滑動(dòng)拼接,相鄰切塊之間的重疊部分取平均值,重建為160×160×160大小并進(jìn)行結(jié)果評(píng)估。
為驗(yàn)證所構(gòu)建模塊對(duì)Backbone(即U-Net)的改進(jìn)作用,我們基于單模態(tài)輸入(T1-w)和雙模態(tài)輸入(T1-w、T2-w)對(duì)各組成部分進(jìn)行消融實(shí)驗(yàn)分析。具體包括:U-Net+單模態(tài)輸入(SS),U-Net+雙模態(tài)輸入(SD),雙編碼器U-Net+雙模態(tài)輸入(DD),雙編碼器U-Net+雙模態(tài)輸入+AMFF模塊(DDAM)。為了客觀對(duì)四個(gè)不同網(wǎng)絡(luò)模型的分割結(jié)果進(jìn)行評(píng)估,本文將分割結(jié)果與專家校正的真實(shí)標(biāo)簽進(jìn)行比較,同時(shí)選用骰子相似系數(shù)(DSC)和平均表面距離(ASD)作為評(píng)估標(biāo)準(zhǔn)。
為了避免實(shí)驗(yàn)結(jié)果的偶然性,我們使用配對(duì)t檢驗(yàn)比較了不同方法分割結(jié)果的Dice值,顯著性水平設(shè)定為0.05。將各組分割結(jié)果的DSC分?jǐn)?shù)作為獨(dú)立樣本分別計(jì)算t值,再通過t值得到P值并與設(shè)定的顯著性水平0.05進(jìn)行比較,當(dāng)P<0.05時(shí)認(rèn)為差異存在統(tǒng)計(jì)學(xué)意義。
針對(duì)本文方法的消融實(shí)驗(yàn)分析以及量化結(jié)果顯示(表1)。在Backbone的基礎(chǔ)上(SS)增加額外模態(tài)輸入T2-w(SD)后并沒有分割性能上的優(yōu)勢。在此基礎(chǔ)上針對(duì)T2-w增加編碼器(DD)后分割精度明顯提升,皮層區(qū)域DSC分?jǐn)?shù)提升約0.027且ASD分?jǐn)?shù)降低約0.048,皮層下區(qū)域DSC 分?jǐn)?shù)提升約0.038 且ASD 分?jǐn)?shù)降低約0.075。在雙編碼器的基礎(chǔ)上引入AMFF模塊(DDAM)后,分割精度進(jìn)一步提升。從DSC和ASD分?jǐn)?shù)的表現(xiàn)可以看出,方法DDAM明顯優(yōu)于其他三種方法,證明了多編碼器和AMFF模塊對(duì)Backbone的有效改進(jìn)。此外,圖4展示了以上4個(gè)模型在同一樣本的全腦分割的可視化結(jié)果。從圖中可以清晰地看到,相較于其它3種方法,DDAM在皮層區(qū)域和皮層下區(qū)域分割結(jié)果都更接近與真實(shí)標(biāo)簽,特別是在皮層下區(qū)域,避免了常見的分割空洞問題,并保留了更多的解剖細(xì)節(jié)。
表1 多組消融實(shí)驗(yàn)結(jié)果對(duì)比Tab.1 Quantitative comparison of different ablation settings
圖4 皮層區(qū)域和皮層下區(qū)域分割可視化結(jié)果Fig.4 Representative results of parcellation of cortical and subcortical by DDAM and other settings.The green squares indicate some spots,where DDAM successfully segmented the true labels while other settings failed.Some inaccurate regions are indicated by arrows.SS:Single-encoder with Single-modality input.SD:Single-encoder with Dual-modality input.DD:Dual-encoder with Dual-modality input.DDAM:Dual-encoder with Dual-modality inputs and Attentional Multi-modality feature fusion block.
本研究將方法DDAM與其它3種方法的4折交叉驗(yàn)證結(jié)果的DSC分?jǐn)?shù)進(jìn)行配對(duì)t檢驗(yàn),得出每組配對(duì)t檢驗(yàn)P<0.05。另外,匯總4折交叉實(shí)驗(yàn)結(jié)果,在任意年齡段中,代表方法DDAM的綠色曲線無論在皮層區(qū)域或是皮層下區(qū)域均表現(xiàn)出更高的分割精度(圖5)。
圖5 不同年齡段測試結(jié)果Fig.5 Evaluation results of cortical and subcortical macaque brain at different month groups.The results of the 4 methods are represented by curves of different colors,respectively.
比較消融實(shí)驗(yàn)的4種方法結(jié)果(表2),方法DDAM在對(duì)全腦不同結(jié)構(gòu)的分割方面,DSC分?jǐn)?shù)和ASD分?jǐn)?shù)仍優(yōu)于其它3種方法。將方法DDAM與其它3種方法分別進(jìn)行配對(duì)t檢驗(yàn),計(jì)算得出(P<0.05,表2)。
表2 全腦結(jié)構(gòu)化細(xì)分結(jié)果對(duì)比Tab.2 Comparison results of macaque brain fine division
在神經(jīng)科學(xué)研究中利用獼猴作為動(dòng)物模型具有非常重要的意義,因其在生物學(xué)上與人類具有很高的相似性,特別是在大腦結(jié)構(gòu)和認(rèn)知功能方面。研究獼猴全腦分割為進(jìn)行靈長類動(dòng)物實(shí)驗(yàn)提供了獨(dú)特的研究機(jī)會(huì),能夠揭示其與人類神經(jīng)生物學(xué)潛在適用性之間的信息對(duì)比。盡管獼猴動(dòng)物模型在促進(jìn)人們對(duì)大腦功能的理解方面發(fā)揮著關(guān)鍵作用,但致力于獼猴全腦分割的相關(guān)工作仍然存在的空缺。同時(shí),準(zhǔn)確描繪大腦區(qū)域是神經(jīng)科學(xué)研究的基礎(chǔ),缺乏全面的分割研究表明了該領(lǐng)域的一個(gè)重大局限性[21]。Wang等[22]提出全局到局部的端對(duì)端方法,準(zhǔn)確地對(duì)低對(duì)比度、高噪聲的人類嬰兒大腦MRI圖像進(jìn)行全腦分割。但由于人類大腦與獼猴大腦在解剖結(jié)構(gòu)、皮層分布、尺寸等方面存在較大的差異,人類大腦的分割方法并不適用于獼猴大腦。目前,關(guān)于獼猴的全腦分割方法絕大部分是通過模板進(jìn)行配準(zhǔn)[8,9,23],這存在一定的局限性。首先,對(duì)配準(zhǔn)模板的精準(zhǔn)度和適配性有很高的要求;其次,可能導(dǎo)致較低分辨率的圖像在配準(zhǔn)過程中丟失解剖學(xué)信息的部分內(nèi)容;此外,配準(zhǔn)過程通常需要較長的計(jì)算時(shí)間,這不利于對(duì)大規(guī)模圖像數(shù)據(jù)的高效處理。
本次研究基于卷積神經(jīng)網(wǎng)絡(luò)開展全腦分割實(shí)驗(yàn)。我們從如何更有效地融合多模態(tài)特征的角度出發(fā),對(duì)傳統(tǒng)U-Net結(jié)構(gòu)進(jìn)行改進(jìn),提出嵌入AMFF模塊的雙編碼器網(wǎng)絡(luò)結(jié)構(gòu)DDAM。其中,AMFF模塊為方法的核心部分,由低級(jí)特征放大LFA和潛在特征融合LFF組成,前者能夠?qū)⑻S連接傳入的低級(jí)特征的感興趣區(qū)域進(jìn)行放大;后者則結(jié)合空間與通道關(guān)系,充分利用模態(tài)間的互補(bǔ)性,捕捉融合特征更深層的信息。相比于Roy等[12]提出的結(jié)合空間和通道注意力機(jī)制的scSE模塊,AMFF模塊在其基礎(chǔ)上進(jìn)行改進(jìn)并增加前置特征初步融合,用以篩選多模態(tài)特征的淺層信息,為后續(xù)更有效地融合深層特征做鋪墊。
與僅使用單一模態(tài)數(shù)據(jù)相比,在生物醫(yī)學(xué)研究中利用多模態(tài)數(shù)據(jù)的優(yōu)勢在于,可以為醫(yī)學(xué)圖像分析與處理提供更多有幫助的信息。具體而言,每種模態(tài)都具備獨(dú)特的優(yōu)缺點(diǎn),將多模態(tài)數(shù)據(jù)集成有助于彌補(bǔ)單模態(tài)數(shù)據(jù)源的局限性[24,25]。然而,處理多模態(tài)數(shù)據(jù)可能會(huì)帶來一些挑戰(zhàn),例如需要預(yù)處理、模態(tài)融合以及考慮不同模式之間復(fù)雜的關(guān)系等。因此,在本次實(shí)驗(yàn)中設(shè)計(jì)了消融實(shí)驗(yàn),包括方法SS、SD以及DD。相較于單一T1-w輸入的方法SS,方法SD將T1-w與T2-w進(jìn)行通道拼接后作為輸入,這樣雖然增加了T2-w的語義信息,但從皮層區(qū)域和皮層下區(qū)域的分割結(jié)果來看,方法SD的DSC和ASD分?jǐn)?shù)都要略低于方法SS。原因可能是單編碼器結(jié)構(gòu)對(duì)于提取多模態(tài)特征存在一定的困難,具體來說,可能是不同模態(tài)提供的特征信息存在錯(cuò)位或不一致,導(dǎo)致網(wǎng)絡(luò)難以有效學(xué)習(xí)多模態(tài)特征信息;或是T2-w提供了不相關(guān)的信息,引入噪聲阻礙了網(wǎng)絡(luò)的學(xué)習(xí)[10]。此外,將方法DD與方法SD結(jié)果進(jìn)行比較,得出雙模態(tài)輸入的雙編碼器結(jié)構(gòu)對(duì)于雙模態(tài)輸入的單編碼器結(jié)構(gòu),分割效果有著顯著提升。分析原因可能是由于多編碼器相較于單編碼器,可以更有針對(duì)性地提取不同模態(tài)的特征信息,并且對(duì)于淺層信息的捕獲也更為充分和高效,從而能有效地提高網(wǎng)絡(luò)分割精度[25]。方法DDAM的分割精度高于DD,表明在多編碼器的基礎(chǔ)上,增加注意力機(jī)制來融合多模態(tài)特征,可以更深層地考慮模態(tài)間的復(fù)雜關(guān)系,使模態(tài)間的互補(bǔ)信息得到更充分地利用,并且通過在空間和通道上對(duì)多模態(tài)特征進(jìn)行篩選,使得網(wǎng)絡(luò)更加關(guān)注重要特征信息[11,12],從而提升網(wǎng)絡(luò)性能。綜上消融實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的魯棒性以及網(wǎng)絡(luò)結(jié)構(gòu)的優(yōu)越性,可以實(shí)現(xiàn)全腦的精確分割。
為了進(jìn)一步提升全腦分割網(wǎng)絡(luò)模型的性能,在接下來的工作中,我們將進(jìn)一步展開以下工作:嘗試組合不同的注意力方法,并對(duì)解碼器部分進(jìn)行改進(jìn),通過增加對(duì)融合后特征的處理,使其得到更充分地還原,從而有效提升網(wǎng)絡(luò)性能;針對(duì)嬰兒期獼猴開展研究,增強(qiáng)網(wǎng)絡(luò)對(duì)低組織對(duì)比度圖像的處理能力;嘗試加入更多的深度學(xué)習(xí)方法,如遷移學(xué)習(xí)、深監(jiān)督學(xué)習(xí)等,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。
南方醫(yī)科大學(xué)學(xué)報(bào)2023年12期