竇猛,陳哲彬,王辛,周繼陶,姚宇*
基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)圖像分割綜述
竇猛1,2,陳哲彬1,2,王辛3,周繼陶3,姚宇1,2*
(1.中國科學(xué)院 成都計算機應(yīng)用研究所,成都 610213; 2.中國科學(xué)院大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,北京 100049; 3.四川大學(xué)華西醫(yī)院 腹部腫瘤科,成都 610041)( ? 通信作者電子郵箱 Casitmed2022@163.com)
多模態(tài)醫(yī)學(xué)圖像可以為臨床醫(yī)生提供靶區(qū)(如腫瘤、器官或組織)的豐富信息。然而,由于多模態(tài)圖像之間相互獨立且僅有互補性,如何有效融合多模態(tài)圖像并進行分割仍是亟待解決的問題。傳統(tǒng)的圖像融合方法難以有效解決此問題,因此基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)圖像分割算法得到了廣泛的研究。從原理、技術(shù)、問題及展望等方面對基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)圖像分割任務(wù)進行了綜述。首先,介紹了深度學(xué)習(xí)與多模態(tài)醫(yī)學(xué)圖像分割的一般理論,包括深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基本原理與發(fā)展歷程,以及多模態(tài)醫(yī)學(xué)圖像分割任務(wù)的重要性;其次,介紹了多模態(tài)醫(yī)學(xué)圖像分割的關(guān)鍵概念,包括數(shù)據(jù)維度、預(yù)處理、數(shù)據(jù)增強、損失函數(shù)以及后處理等;接著,對基于不同融合策略的多模態(tài)分割網(wǎng)絡(luò)進行綜述,對不同方式的融合策略進行分析;最后,對醫(yī)學(xué)圖像分割過程中常見的幾個問題進行探討,并對今后研究作了總結(jié)與展望。
深度學(xué)習(xí);多模態(tài);醫(yī)學(xué)圖像;圖像融合;圖像分割
在多模態(tài)醫(yī)學(xué)成像技術(shù)不斷發(fā)展的背景下,多模態(tài)醫(yī)學(xué)圖像分割方法也被廣泛研究。多模態(tài)醫(yī)學(xué)圖像分割指融合多模態(tài)圖像的信息以提高分割性能[1]。常見的醫(yī)學(xué)圖像主要有計算機斷層掃描(Computed Tomography, CT)、磁共振成像(Magnetic Resonance Imaging, MRI)和正電子發(fā)射斷層掃描(Positron Emission computed Tomography, PET)等。相較于單模態(tài)醫(yī)學(xué)圖像,多模態(tài)醫(yī)學(xué)圖像可以為醫(yī)生提供豐富的互補信息。其中,CT圖像是肌肉及骨骼疾病,如骨腫瘤、骨折等疾病的常用診斷成像,MRI圖像能提供較好的軟組織對比度[2]。功能性影像(例如PET)缺乏解剖特征,但能提供疾病的定量代謝和功能信息。多模態(tài)MRI(圖1)還可根據(jù)采集參數(shù)的差異提供補充信息,包括T1加權(quán)成像(T1 weighted imaging, T1w)、對比增強T1加權(quán)成像(T1 weighted contrast enhanced imaging, T1ce)、T2加權(quán)成像(T2 weighted imaging, T2w)以及流體衰減反轉(zhuǎn)恢復(fù)(Fluid attenuated inversion recovery, Flair)圖像。以腦腫瘤為例,T2w與Flair適用于顯示瘤周水腫腫瘤,T1w圖像與T1ce圖像適用于腫瘤核心無瘤周水腫腫瘤。因此應(yīng)用多模態(tài)圖像進行分割能降低信息不確定性,提高臨床診斷與分割精度[3]。
圖1 不同模態(tài)的醫(yī)學(xué)圖像示例
如何從多模態(tài)醫(yī)學(xué)圖像中自動、有效地融合不同模態(tài)圖像的信息完成分割任務(wù),是多模態(tài)醫(yī)學(xué)圖像分割任務(wù)的關(guān)鍵。早在20世紀(jì)90年代,就有很多圖像融合策略被國內(nèi)外研究者[4]提出,其中最重要的有:基于概率論的融合[5]、基于復(fù)雜性理論的融合[6-7]、基于置信函數(shù)的融合[8-9]和基于機器學(xué)習(xí)的融合[10-13]。對于上述方法,不同模態(tài)的圖像的統(tǒng)計特性存在差異,使淺層模型建模較為困難,性能也難以得到保證。從2012年開始,深度學(xué)習(xí)開始應(yīng)用于計算機視覺領(lǐng)域,研究人員先后提出了AlexNet (Alex Network)[14]、VGG-Net (Visual Geometry Group Network )[15]、GoogleNet[16]、殘差網(wǎng)絡(luò)(Residual Network, ResNet)[17]、密集連接網(wǎng)絡(luò)(Densely connected Network, DenseNet)[18]、全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Neural Network, FCNN)[19]與U-Net[20]等網(wǎng)絡(luò)模型,不僅在圖像分類、分割、目標(biāo)檢測與跟蹤等任務(wù)中獲得了最佳性能,也為多模態(tài)醫(yī)學(xué)圖像分割問題提供了新思路。
隨著深度學(xué)習(xí)的成功,國內(nèi)外研究者致力于利用深度學(xué)習(xí)方法實現(xiàn)包括腦[21-23]、肺[24]、胰腺[25-26]、前列腺[27]和多器官[28-29]在內(nèi)的醫(yī)學(xué)圖像分割。醫(yī)學(xué)圖像分割作為醫(yī)學(xué)圖像分析的一個重要的研究領(lǐng)域,對于診斷、檢測、治療都非常重要,目的在于給圖像的每一個像素賦予一個標(biāo)簽?;谏疃葘W(xué)習(xí)的方法已經(jīng)在醫(yī)學(xué)圖像分割任務(wù)上獲得了比傳統(tǒng)方法更好的表現(xiàn)。為了得到更加精確的分割結(jié)果以便更好地診斷,融合多模態(tài)醫(yī)學(xué)圖像進行分割已經(jīng)成了研究熱點。
深度學(xué)習(xí)模型一般指由多層非線性處理單元組成的神經(jīng)網(wǎng)絡(luò)模型,各個層以上一層的輸出為輸入,通過多層非線性處理單元的堆疊,可以從海量數(shù)據(jù)中抽取復(fù)雜特征信息[30]。近幾年,深度學(xué)習(xí)已經(jīng)在圖像分類、識別、目標(biāo)檢測以及醫(yī)學(xué)圖像分析等領(lǐng)域得到顯著發(fā)展,并獲得與人類專家不相上下甚至更優(yōu)越的性能。計算機視覺領(lǐng)域中最成功的算法為卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)模型。2012年,AlexNet[14]問世,并獲得ImageNet挑戰(zhàn)賽冠軍,top-5錯誤率由26%下降至16.4%。在隨后的幾年中,多個經(jīng)典的基于CNN的架構(gòu)被相繼提出,包括VGG-Net[15]、GoogleNet[16]、ResNet[17]和DenseNet[18],極大推動了相關(guān)研究的發(fā)展。
深度學(xué)習(xí)技術(shù)在醫(yī)學(xué)圖像分割領(lǐng)域也得到了廣泛的應(yīng)用。其中,F(xiàn)CNN將CNN中的全連接層替換為卷積層,同時通過反卷積實現(xiàn)上采樣,從而實現(xiàn)像素級別的分類,但FCNN沒有考慮到像素之間的對應(yīng)關(guān)系,對于圖像細(xì)節(jié)的分割結(jié)果不理想。U-Net在FCNN的基礎(chǔ)上增加上采樣的次數(shù)及跳躍,通過跳躍連接實現(xiàn)了網(wǎng)絡(luò)中高維語義特征與低維語義特征的融合,提升了分割精度。U-Net(圖2[20])是應(yīng)用最廣泛的深度學(xué)習(xí)分割模型,且作為其他研究的基準(zhǔn)模型進行改進,達(dá)到了更優(yōu)的表現(xiàn)。
圖2 U-Net結(jié)構(gòu)
然而,由于CNN中卷積核大小有限,它對遠(yuǎn)程信息建模的性能不是最佳的,這可能導(dǎo)致對大小可變的目標(biāo)分割存在缺陷。另一方面,Transformer模型在自然語言處理和計算機視覺等多個領(lǐng)域的長距離信息建模方面表現(xiàn)出了卓越的能力。Hatamizadeh等[31]提出了一種新穎的分割模型Swin UNETR。具體地,該模型將多模態(tài)輸入數(shù)據(jù)投影到1D嵌入序列中,并用作Swin UNETR編碼器的輸入;Swin UNETR編碼器利用移位窗口計算自注意力來提取5種不同分辨率的特征,并通過跳躍連接在每個分辨率下連接到基于卷積的解碼器。該模型在BraTS 2021分割挑戰(zhàn)賽中躋身表現(xiàn)最佳的方法之列。
由于分割目標(biāo)在尺寸、形狀、位置等方面具有較大的差異,因此醫(yī)學(xué)圖像分割在醫(yī)學(xué)圖像分析領(lǐng)域中具有非常高的挑戰(zhàn)性。目前,已經(jīng)提出的分割網(wǎng)絡(luò)架構(gòu)多種多樣,但是很難比較不同算法的性能,這是因為大多數(shù)算法都是在不同的數(shù)據(jù)集上評估并以不同的指標(biāo)進行評價。為公平地比較不同方法的表現(xiàn),先后公布了多個公開數(shù)據(jù)集,例如腦腫瘤分割(Brain Tumor Segmentation, BraTS)數(shù)據(jù)集[21]、缺血性中風(fēng)病變分割(Ischemic Stroke LEsion Segmentation, ISLES)數(shù)據(jù)集、MR腦圖像分割(MR Brain image Segmentation, MRBrainS)數(shù)據(jù)集[32]、新生兒腦分割(Neonatal Brain Segmentation, NeoBrainS)數(shù)據(jù)集[33]、組合(CT-MR)腹部器官分割(Combined CT-MR Healthy Abdominal Organ Segmentation, CHAOS)數(shù)據(jù)集、嬰兒腦MRI分割(6-month Infant brain MRI segmentation, Iseg)數(shù)據(jù)集[34]和多模態(tài)MR圖像自動椎間盤定位分割(automatic InterVertebral Disc localization and segmentation from 3D MR images, IVDM3Seg)數(shù)據(jù)集。詳細(xì)資料見表1。
數(shù)據(jù)預(yù)處理對后續(xù)分割任務(wù)有重要影響;尤其對多模態(tài)醫(yī)學(xué)圖像進行分割時,由于圖像具有強度不一、對比度各異、噪聲較大等特點,為使圖像像素值分布更統(tǒng)一、網(wǎng)絡(luò)訓(xùn)練更平滑,需要將圖像經(jīng)過預(yù)處理操作后再送入分割網(wǎng)絡(luò)。如圖3所示,典型的預(yù)處理技術(shù)主要有圖像配準(zhǔn)、偏置場校正、圖像重采樣、強度值歸一化等。針對BraTS數(shù)據(jù)集,研究人員在公開數(shù)據(jù)集之前進行了圖像配準(zhǔn),同時利用N4ITK對MRI圖像進行偏置場校正。強度歸一化就是用圖像像素強度的平均值減去標(biāo)準(zhǔn)偏差來獨立地標(biāo)準(zhǔn)化每個患者的每個模態(tài)。
表1 多模態(tài)醫(yī)學(xué)圖像分割領(lǐng)域常用數(shù)據(jù)集
醫(yī)學(xué)圖像分割任務(wù)很難得到訓(xùn)練用的大量有標(biāo)簽數(shù)據(jù)。對數(shù)據(jù)進行標(biāo)注的過程通常需要本領(lǐng)域?qū)<襾硗瓿?,成本高且費時。在利用小樣本數(shù)據(jù)對深度學(xué)習(xí)模型進行訓(xùn)練的過程中往往存在過擬合的問題。數(shù)據(jù)增強就是通過提高訓(xùn)練數(shù)據(jù)量來降低過擬合[43]。如圖4,數(shù)據(jù)增強通過對訓(xùn)練數(shù)據(jù)集中的圖像進行變換(旋轉(zhuǎn)、平移、縮放、翻轉(zhuǎn)、扭曲以及加入某些噪聲如高斯噪聲等),增加了可用的訓(xùn)練數(shù)據(jù)。數(shù)據(jù)增強技術(shù)在醫(yī)學(xué)圖像的分割任務(wù)中有著廣泛的應(yīng)用。
圖3 預(yù)處理方式可視化
圖4 數(shù)據(jù)增強方式可視化
損失函數(shù)是用來度量模型的預(yù)測值()與真實值的差異程度的運算函數(shù)。在模型的訓(xùn)練階段,每個批次的訓(xùn)練數(shù)據(jù)送入模型后,通過前向傳播輸出預(yù)測值,然后損失函數(shù)會計算出預(yù)測值和真實值之間的差異值,也就是損失值。得到損失值之后,模型通過反向傳播去更新模型參數(shù),來降低真實值與預(yù)測值之間的差異,從而達(dá)到學(xué)習(xí)的目的。在多模態(tài)醫(yī)學(xué)圖像分割中用到的損失函數(shù)與單模態(tài)醫(yī)學(xué)圖像分割中所用的損失函數(shù)大致相同,有以下幾種:
1)交叉熵?fù)p失(Cross-Entropy loss, CE)函數(shù):交叉熵?fù)p失是最常用的損失函數(shù)之一,對每個像素的類別預(yù)測進行單獨評估,然后對所有像素點進行平均,通過式(1)計算。Long等[19]提出對不同類別的損失進行加權(quán),以緩解類不平衡問題。
2)加權(quán)交叉熵?fù)p失(Weighted Cross-Entropy loss, WCE)函數(shù):在醫(yī)學(xué)圖像分割任務(wù)中由于大部分像素點屬于背景類,因此在計算損失時對不同類別的像素點賦予不同的權(quán)重是合理的,并可以緩解類別不平衡問題,定義如式(2):
3)骰子損失(DICE loss):骰子損失同樣是醫(yī)學(xué)圖像分割中常用的損失函數(shù)之一。它可以衡量預(yù)測結(jié)果和真實結(jié)果之間重合度,通過式(3)計算:
數(shù)據(jù)后處理通常被用來校正分割網(wǎng)絡(luò)預(yù)測結(jié)果。3D模型分割過程中常常存在部分誤分割像素,而分割結(jié)果中的最大體素塊通常是最滿足要求的?;诖饲疤幔捎眯螒B(tài)學(xué)方法去除誤分割像素和保留最大體素塊,并可依據(jù)檢測區(qū)域結(jié)構(gòu)設(shè)計若干后處理技術(shù)。文獻[40]中將3D全連接條件隨機場應(yīng)用到后處理中,有效去除錯誤分割像素,細(xì)化分割結(jié)果。
近年來,研究人員已經(jīng)提出了多種基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)圖像分割方法,如FCNN和U-Net。根據(jù)融合策略,這些方法可以分為輸入級融合網(wǎng)絡(luò)、中間級融合網(wǎng)絡(luò)、決策級融合網(wǎng)絡(luò)。對于每種融合網(wǎng)絡(luò),本文分別進行了總結(jié),如圖5所示。
輸入級融合網(wǎng)絡(luò)通常將不同的多模態(tài)圖像在像素級別通過拼接操作得到多通道圖像,輸入多模態(tài)分割網(wǎng)絡(luò)進行訓(xùn)練。現(xiàn)有的多模態(tài)醫(yī)學(xué)圖像分割網(wǎng)絡(luò)大多為輸入級融合網(wǎng)絡(luò)[44-47],直接將多模態(tài)圖像在原始輸入空間進行融合。圖6描述了輸入層融合分割網(wǎng)絡(luò)的通用網(wǎng)絡(luò)架構(gòu)。本文以多模態(tài)MRI圖像作為輸入,CNN作為分割網(wǎng)絡(luò),腦腫瘤分割作為分割任務(wù)進行說明。通過使用輸入級融合策略,可以在神經(jīng)網(wǎng)絡(luò)的所有層中充分利用來自不同模態(tài)的豐富特征信息。這種融合通常使用五種技術(shù),多任務(wù)分割、多視圖分割、多尺度分割、生成對抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)和Transformer網(wǎng)絡(luò)。
圖5 融合策略的通用分類
在BraTS數(shù)據(jù)集上,Wang等[39]提出了一種級聯(lián)全卷積神經(jīng)網(wǎng)絡(luò)(圖7[39]),將腦腫瘤劃分為3個子區(qū)域,包括整體腫痛、腫瘤核心和增強腫瘤核心。該模型將4種模態(tài)MRI圖像(T1、T1c、T2和Flair)直接集成到多通道輸入中,再根據(jù)子區(qū)域?qū)哟伟讯囝惙指顔栴}分解成3個連續(xù)的二分類分割問題:1)分割整體腫痛;2)利用分割結(jié)果包圍盒分割腫瘤核心;3)根據(jù)腫瘤核心的分割結(jié)果包圍盒對增強腫瘤核心進行分割。
此外,為了利用3D上下文信息,對于每個單獨的任務(wù),通過平均單個任務(wù)的Softmax輸出融合來自3個不同正交視圖(水平位、冠狀位、矢狀位)的分割結(jié)果。在BraTS 2017測試集上的實驗結(jié)果表明,該方法在增強腫瘤核心、整體腫痛和腫瘤核心方面的平均DICE得分分別為0.783、0.874和0.775,在BraTS 2017挑戰(zhàn)賽中獲得第二名。多任務(wù)分割把多類分割中復(fù)雜的任務(wù)分解為多個較簡單的分割任務(wù),同時利用腫瘤子區(qū)域?qū)哟谓Y(jié)構(gòu)提高了分割精度。
級聯(lián)策略雖然表現(xiàn)良好,但是會導(dǎo)致系統(tǒng)復(fù)雜性增加,且忽略模型間相關(guān)性。為了克服這些缺陷,Zhou等[47]提出了注意力機制指導(dǎo)下的多任務(wù)分割網(wǎng)絡(luò),將輸入空間中的多模態(tài)MRI圖像逐通道地進行融合,然后將腦腫瘤的分割分解成三個不同卻又相互聯(lián)系的工作,每項工作具有單獨的卷積層、分類層、損失層、輸入數(shù)據(jù)各不相同。為更加有效地優(yōu)化網(wǎng)絡(luò),他們還設(shè)計了跨任務(wù)指導(dǎo)注意力的模塊,通過沿用以往任務(wù)給出的預(yù)測結(jié)果引導(dǎo),該模塊能夠根據(jù)具體類統(tǒng)計數(shù)據(jù)對通道特征響應(yīng)進行自適應(yīng)再標(biāo)定。該方法在BraTS 2015測試集上排名第一,在BraTS 2017數(shù)據(jù)集上取得了最好的性能。
由于地域文化差異和社會發(fā)展水平的不同,外來訂單影響了廣彩的色彩傾向,逐漸成為熱烈華麗的釉上彩。十八世紀(jì)的廣彩受到歐洲古典畫派的影響,迎合當(dāng)時盛行的洛可可風(fēng)格,表達(dá)出溫馨、歡快的情調(diào)。1784年,美國的“中國皇后”號抵達(dá)廣州港,開始大批量的貿(mào)易活動,至此美國也成為外銷瓷的主要市場。此后的廣彩瓷愈加濃烈奔放,以紅、綠、金、藍(lán)等色彩為主,描繪出一幅幅熱鬧的景象,特點鮮明并影響至今。
為了對腦腫瘤進行更加精確且快速的分割與重建,Zhao等[48]提出Multi-View Pointwise U-Net模型,該方法沿用編碼器-解碼器的結(jié)構(gòu),且該結(jié)構(gòu)中的3D卷積被3個2D多視點卷積代替(圖8[48]),這些卷積接收3個正交視圖以學(xué)習(xí)空間特征并通過1個逐點卷積以學(xué)習(xí)通道方向特征。在BraTS 2020測試集中,對于增強腫瘤核心、整體腫痛和腫瘤核心,該方法的平均DICE得分分別為0.715、0.839和0.768。
為了進一步利用這些數(shù)據(jù)集中嵌入的3D信息,Ding等[49]提出了一種多視角動態(tài)融合框架,以提高腦腫瘤分割的性能,該框架由3個關(guān)鍵部分組成。首先提出一種含有多個學(xué)習(xí)網(wǎng)絡(luò)的多視點深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來對腦腫瘤進行不同視角的分割;其次使用動態(tài)融合方法對多角度分割結(jié)果進行融合;再次,提出多視點融合損失(由分割損失、過渡損失、決策損失等構(gòu)成),保證分割結(jié)果與醫(yī)生標(biāo)注在外觀和空間上的一致性。在BraTS 2015和BraTS 2018測試集上,該方法以更高效率達(dá)到較好的分割效果。
圖6 輸入級融合網(wǎng)絡(luò)結(jié)構(gòu)
圖7 多任務(wù)分割網(wǎng)絡(luò)結(jié)構(gòu)
圖8 多視角卷積模塊
在分割醫(yī)學(xué)圖像中的不同區(qū)域時,可能需要不同大小的感受野。大尺寸目標(biāo)可能需要全局信息,而小目標(biāo)可能需要高分辨率的局部信息。因此,Qin等[50]提出了自動聚焦卷積層以增強神經(jīng)網(wǎng)絡(luò)的多尺度處理能力。自動聚焦卷積層根據(jù)處理后的上下文自適應(yīng)地改變感受野的大小,并結(jié)合了一種注意力機制來學(xué)習(xí)最佳的感受野尺度。該方法在盆腔CT中的多器官分割和MRI中的腦腫瘤分割等具有挑戰(zhàn)性的任務(wù)中取得了可喜的表現(xiàn)。Lin等[51]則提出了路徑聚合U-Net(Path Aggregation U-Net, PAU-Net)模型,該模型包含一個自底向上的路徑聚合(Path Aggregation, PA)編碼器、增強型解碼器(Enhanced Decoder, ED)和有效特征金字塔(Effective Feature Pyramid, EFP)組成的路徑聚合U-Net,在MRI影像的腦腫瘤分割中取得了較好的性能。
生成對抗網(wǎng)絡(luò)[52]包含生成器和鑒別器兩個子網(wǎng)絡(luò),其中生成器生成圖片并輸入鑒別器,由鑒別器判斷輸入圖片是標(biāo)簽圖還是生成圖,二者基于對抗性過程進行訓(xùn)練。Yang等[53]通過融合多模態(tài)圖像作為多通道輸入,訓(xùn)練了兩個獨立的網(wǎng)絡(luò):以U-Net為基干的生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò),生成器網(wǎng)絡(luò)用于預(yù)測分割結(jié)果,而鑒別器網(wǎng)絡(luò)將區(qū)分分割掩膜是模型預(yù)測結(jié)果還是真實值。該方法(圖9[53])在BraTS 2018測試集上進行了評估并取得了有競爭力的結(jié)果,說明在對抗訓(xùn)練中加入額外的約束可以改進原始分割結(jié)果。Huo等[54]使用Patch-GAN[55]作為額外的鑒別器來監(jiān)督網(wǎng)絡(luò)的訓(xùn)練過程?;贕AN的方法由于判別器的額外約束可以獲得更加魯棒的分割結(jié)果,但是訓(xùn)練額外的判別器需要更多的內(nèi)存。
鑒于Transformer結(jié)構(gòu)在自然語言處理領(lǐng)域所取得的成功[56],研究人員將它遷移到計算機視覺領(lǐng)域,并先后提出了Vision Transformer (ViT)[57]和Swin Transformer[58],在圖像分類任務(wù)上獲得了良好的性能。部分研究人員根據(jù)多模態(tài)醫(yī)學(xué)影像的特點,將Transformer結(jié)構(gòu)引入到多模態(tài)醫(yī)學(xué)圖像分割任務(wù)中,取得了優(yōu)異的表現(xiàn)[59-63]。其中,Wang等[61]將CNN和Transformer結(jié)構(gòu)相結(jié)合以更好地對局部信息和全局信息進行建模(圖10[61])。為了獲取局部的3D上下文信息,編碼器首先利用3D CNN提取特征圖,然后送入Transformer進行全局特征建模,解碼器利用Transformer輸出的特征并結(jié)合上采樣來預(yù)測分割圖。在BraTS 2019和2020測試集上的實驗結(jié)果表明,該方法均取得了最優(yōu)的結(jié)果。
圖9 生成對抗分割網(wǎng)絡(luò)結(jié)構(gòu)
圖10 Trans-BTS結(jié)構(gòu)
輸入級融合策略可以最大限度地保留原始圖像信息并學(xué)習(xí)圖像的內(nèi)在特征。使用CNN與不同的策略相結(jié)合,例如多任務(wù)、多視圖、多尺度、GAN和Transformer等,可以充分利用多模態(tài)圖像的特征表示。
中間級融合網(wǎng)絡(luò)將不同模態(tài)的圖像分別作為分割網(wǎng)絡(luò)的輸入,再將所學(xué)特征融入網(wǎng)絡(luò)各層,最后,融合結(jié)果傳輸?shù)經(jīng)Q策層,獲得最終分割結(jié)果。中間級融合網(wǎng)絡(luò)能夠有效地集成并充分利用多模態(tài)圖像[64-66]。圖11是中間級融合網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)。
圖11 中間級融合網(wǎng)絡(luò)結(jié)構(gòu)
圖12 超密集連接網(wǎng)絡(luò)結(jié)構(gòu)
盡管中間級融合網(wǎng)絡(luò)已經(jīng)取得了令人鼓舞的表現(xiàn),但特征融合通常是利用簡單的求和或拼接來實現(xiàn),這限制了模型性能的提升。Li等[67]提出了一種有監(jiān)督的圖像融合方法,通過注意力模塊可以選擇性地融合來自不同模態(tài)的有效信息并抑制各自的噪聲信號(圖13[67]),并通過注意力機制從不同的模態(tài)中選擇對結(jié)果貢獻最大的一種模態(tài)作為主模態(tài),監(jiān)督其他輔助模態(tài)的信息選擇。該方法在乳房腫塊分割實驗中驗證了有效性,與其他先進的方法相比,獲得了更好的分割結(jié)果。此外,基于注意力機制進行不同模態(tài)之間的特征融合也被應(yīng)用于肝臟腫瘤分割[68]。
圖13 注意力融合網(wǎng)絡(luò)結(jié)構(gòu)
研究提取不同模態(tài)圖像間的跨模態(tài)信息,并將它們應(yīng)用到多模態(tài)圖像分割中,同樣受到較多關(guān)注[69-70]。Dou等[69]提出了CT和MRI多模態(tài)分割的模型Chilopod-net,通過CT和MRI之間共享所有的卷積核來共享特征,同時,通過與模態(tài)相關(guān)的批歸一化(Batch Normalization, BN)層,減小了不同模態(tài)數(shù)據(jù)之間的差別。通過對心臟結(jié)構(gòu)分割和腹部器官分割這兩個任務(wù)進行實驗,結(jié)果顯示該方案總是比單模態(tài)訓(xùn)練及以往多模態(tài)分割方法效果更好。
總之,中間級融合網(wǎng)絡(luò)中如何有效地實現(xiàn)特征的融合是一個關(guān)鍵的問題。密集連接應(yīng)用最廣泛,該方法有利于提高全網(wǎng)信息流及梯度并減輕梯度消失。基于注意力機制的特征融合在近年來也得到了廣泛的研究,這種方法能夠有效地融合不同模式下的有用信息,并且對噪聲具有抑制作用。最后通過對跨模態(tài)信息的學(xué)習(xí),為多模態(tài)圖像融合提供一種創(chuàng)新方法,與前述方法相比能有效降低模型的復(fù)雜度。
決策級融合網(wǎng)絡(luò)與中間級融合網(wǎng)絡(luò)相同,都是把不同模態(tài)的醫(yī)學(xué)圖像分別送入相應(yīng)的分割網(wǎng)絡(luò)進行訓(xùn)練。單個網(wǎng)絡(luò)能較好地利用對應(yīng)模態(tài)的特征信息,接著融合各網(wǎng)絡(luò)的輸出,得到最終分割結(jié)果。決策級融合網(wǎng)絡(luò)的目的是自主地學(xué)習(xí)不同模態(tài)下的互補信息,這是因為不同圖像采集技術(shù)使多模態(tài)圖像很少有直接互補信息存在于各自原始圖像空間。圖14是決策級融合分割網(wǎng)絡(luò)的一般網(wǎng)絡(luò)架構(gòu)。
圖14 決策級融合網(wǎng)絡(luò)結(jié)構(gòu)
例如,為了有效地利用來自T1、T2和分?jǐn)?shù)階各向異性圖像的多模態(tài)特征信息,Nie等[38]提出了一種新的多FCN結(jié)構(gòu),應(yīng)用于嬰兒腦組織分割的對象是:白質(zhì)(White Matter WM)、灰質(zhì)(Grey Matter, GM)、腦脊液(Cerebro-Spinal Fluid, CSF)等。這種方法并不將從輸入空間中獲取到的3個模態(tài)數(shù)據(jù)進行簡單結(jié)合,而是對每一個模態(tài)的影像單獨訓(xùn)練一個分割網(wǎng)絡(luò),再將從各個網(wǎng)絡(luò)獲取到的結(jié)果進行加權(quán)。結(jié)果表明,所建模型的精度明顯高于以往方法。
關(guān)于決策級融合網(wǎng)絡(luò)的融合策略,研究者們進行了諸多研究[71],如基于平均投票的融合策略、多數(shù)投票等。在平均策略方面,Kamnitsas等[72]分別對3個網(wǎng)絡(luò)進行訓(xùn)練,再針對每個網(wǎng)絡(luò)的輸出取平均值,以該平均值作為融合網(wǎng)絡(luò)輸出結(jié)果。對大多數(shù)投票策略而言,體素的最終標(biāo)簽為各個網(wǎng)絡(luò)的投票結(jié)果中占多數(shù)的標(biāo)簽。
不同模態(tài)圖像在統(tǒng)計屬性上有差別,導(dǎo)致單個模型難以對跨模態(tài)特征進行直接研究。因此,在決策級融合分割網(wǎng)絡(luò)中可以訓(xùn)練多個分割網(wǎng)絡(luò)以充分利用多模態(tài)特征,充分發(fā)揮多模態(tài)特征的優(yōu)勢。Aygün等[73]研究了腦腫瘤分割問題的不同融合方法在計算資源和模型性能等方面的差異,提出了一種新的腦腫瘤分割方法。從資源占用的角度來看,決策級融合策略對資源占用的要求較高;但從性能上看,由于各模態(tài)圖像由獨立的網(wǎng)絡(luò)提取特征,決策級融合網(wǎng)絡(luò)能夠取得較好的效果,比輸入級融合網(wǎng)絡(luò)能夠?qū)W習(xí)到復(fù)雜而又相互補充的特征信息。
基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像分割面臨的主要問題如下:
1)多模態(tài)醫(yī)學(xué)圖像融合的復(fù)雜性。不同模態(tài)的醫(yī)學(xué)圖像蘊含著具有互補性的特征,設(shè)計合適的模型充分利用不同模態(tài)的醫(yī)學(xué)圖像信息并進行融合是需要解決、也是研究人員正在努力攻克的首要難題。目前主流的融合方式包括:輸入級融合、中間層融合以及決策級融合,這三種方式都能夠捕獲不同模態(tài)的醫(yī)學(xué)圖像特征,利用不同模態(tài)之間的互補信息。但是,這三種方式各有優(yōu)缺點:輸入級融合模型結(jié)構(gòu)簡單,但是無法充分發(fā)現(xiàn)模態(tài)之間的互補信息;中間層融合以及決策級融合網(wǎng)絡(luò)模型較復(fù)雜,對計算設(shè)備的要求較高。這些問題導(dǎo)致現(xiàn)有模型距離實際臨床應(yīng)用仍存在較大距離。因此,后續(xù)研究可以繼續(xù)探索不同模態(tài)圖像的有效融合方式,尤其是針對中間層融合,將它與網(wǎng)絡(luò)結(jié)構(gòu)搜索技術(shù)結(jié)合,使模型能夠自動學(xué)習(xí)最優(yōu)的特征融合方式,即在哪個階段及采用何種方式進行融合。
2)多模態(tài)醫(yī)學(xué)圖像分割的類別不均衡問題。在醫(yī)學(xué)圖像分析中,另一個難題就是數(shù)據(jù)類別不均。比如對腦腫瘤或者白質(zhì)病變進行劃分時正常腦區(qū)域要比病變區(qū)域大得多,利用類不平衡數(shù)據(jù)訓(xùn)練將造成分割網(wǎng)絡(luò)的不穩(wěn)定性,使網(wǎng)絡(luò)更傾向于對像素分配多數(shù)類的標(biāo)簽。例如在BraTS 2017數(shù)據(jù)集上,訓(xùn)練集中正類像素與負(fù)類像素的比例是1∶99,背景素占據(jù)了絕大部分,所以損失函數(shù)選取對于分割網(wǎng)絡(luò)來說非常關(guān)鍵。前文介紹了目前醫(yī)學(xué)圖像分割網(wǎng)絡(luò)普遍采用的單獨或聯(lián)合應(yīng)用的幾類損失函數(shù)。在數(shù)據(jù)層面上,類別不平衡問題可通過重新采樣解決,主要包括三種采樣方法:負(fù)類欠采樣、正類過采樣[74]與人工少數(shù)類過采樣法(Synthetic Minority Over-sampling TEchnique, SMOTE)[75]。這些方法雖然易于實施,但是可能刪除某些重要的數(shù)據(jù)或者在訓(xùn)練集中加入冗余的數(shù)據(jù)?;谘a丁塊(patch)的采樣方式也能減輕數(shù)據(jù)不平衡。比如Kamnitsas等[40]提出的平衡策略用50%的概率從病變或者健康體素中抽取訓(xùn)練補丁以減輕數(shù)據(jù)不平衡;Clèrigues等[76]采用了以病灶為核心的策略,在該策略中,訓(xùn)練補丁全部來自病灶體素核心區(qū)域。此外將隨機偏移加入采樣以避免病變像素始終位于patch的中心位置同樣會有利于部分?jǐn)?shù)據(jù)的增強。
本文總結(jié)了當(dāng)前較先進的基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)圖像分割網(wǎng)絡(luò),并展示在表2中。
目前用于醫(yī)學(xué)圖像分割任務(wù)的公開可用的多模態(tài)醫(yī)學(xué)圖像數(shù)據(jù)集還很少,其中最常用的BraTS數(shù)據(jù)集還是2012年開始提出的。2022年表現(xiàn)最好的方法是文獻[61]中提出的,模型使用輸入級融合策略直接整合輸入空間中的不同模態(tài),同時為了獲取局部的3D上下文信息,首先利用3D CNN提取特征圖,然后,將特征圖送入Transformer進行全局特征建模,解碼器利用Transformer輸出的特征并結(jié)合上采樣來預(yù)測分割圖。在BraTS 2019和2020數(shù)據(jù)集上的實驗結(jié)果表明,該方法均取得了最優(yōu)的結(jié)果。與之前的工作相比,文獻[61]中證明了Transformer結(jié)構(gòu)的引入能夠?qū)W習(xí)全局語義相關(guān)性從而提升網(wǎng)絡(luò)性能。為定量比較不同融合策略的性能,表2同時比較了使用三種不同策略的網(wǎng)絡(luò)模型的性能。在BraTS 2018數(shù)據(jù)集上,本文列舉了采用三種不同融合策略的網(wǎng)絡(luò)模型,從分割精度來看使用輸入級融合的模型取得了最優(yōu)的表現(xiàn),優(yōu)于中間級融合以及決策級融合;決策級融合模型在增強腫瘤核心時,分割精度達(dá)到0.831,但是在分割腫瘤核心時,分割性能最差;中間級融合網(wǎng)絡(luò)的分割性能整體低于輸入級融合網(wǎng)絡(luò),與決策級融合網(wǎng)絡(luò)差異不大。
對于多模態(tài)醫(yī)學(xué)圖像分割,融合策略對于網(wǎng)絡(luò)模型的性能起著至關(guān)重要的作用。傳統(tǒng)的圖像融合策略通過學(xué)習(xí)圖像的統(tǒng)計特性實現(xiàn),由于不同模態(tài)的圖像具有不同的統(tǒng)計特性,導(dǎo)致使用淺層模型難以對圖像進行建模。為此,基于深度學(xué)習(xí)的方法進行多模態(tài)圖像分割開始受到關(guān)注。基于深度學(xué)習(xí)的方法主要有三點優(yōu)勢:第一,基于深度學(xué)習(xí)的網(wǎng)絡(luò)可以針對多模態(tài)圖像學(xué)習(xí)復(fù)雜而抽象的特征表示,克服了手動特征設(shè)計的困難;第二,基于深度學(xué)習(xí)的網(wǎng)絡(luò)可以通過使用不同的網(wǎng)絡(luò)層來呈現(xiàn)不同模態(tài)之間的復(fù)雜關(guān)系,例如中間層融合策略;第三,傳統(tǒng)融合策略中的圖像融合策略可以通過訓(xùn)練深度學(xué)習(xí)模型實現(xiàn),這樣就可以研究一些潛在的深度學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)來設(shè)計有效的圖像融合策略。因此,基于深度學(xué)習(xí)的方法具有比傳統(tǒng)方法產(chǎn)生更好融合結(jié)果的巨大潛力。
如何選擇有效的深度學(xué)習(xí)融合策略仍然是困擾學(xué)界的難題。在2013—2020 BraTS挑戰(zhàn)中,所有表現(xiàn)優(yōu)秀的方法都使用了輸入級融合策略,將輸入網(wǎng)絡(luò)的不同MRI圖像直接融合,以保留圖像的固有特征,并專注于后續(xù)的分割網(wǎng)絡(luò)架構(gòu)設(shè)計,例如多任務(wù)、多視圖、多尺度、基于GAN的策略和基于Transformer的策略。對于中間級融合,典型的融合策略往往以DenseNet作為基礎(chǔ)網(wǎng)絡(luò),通過密集連接的方式捕獲模態(tài)內(nèi)部與不同模態(tài)之間的復(fù)雜關(guān)系,這可以幫助分割網(wǎng)絡(luò)學(xué)習(xí)更多有價值的信息并獲得比輸入層融合模型更好的性能。對于決策級融合策略,與輸入級融合相比,每種模態(tài)的圖像分別輸入不同的網(wǎng)絡(luò)以學(xué)習(xí)獨立的特征表示,這需要大量的內(nèi)存和計算時間。由此可見,雖然目前這些表現(xiàn)優(yōu)秀的方法大多是基于輸入級融合策略,但是中間級融合以及決策級融合仍有待進一步探索。
表2 不同融合方式的比較
盡管基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)圖像分割已經(jīng)取得了極大的進展,但是仍有一些關(guān)鍵問題需要解決。眾所周知,多模態(tài)融合網(wǎng)絡(luò)在分割任務(wù)中通常比單模態(tài)網(wǎng)絡(luò)表現(xiàn)更好,關(guān)鍵問題是如何融合不同模態(tài)的圖像以獲得更加精確的分割結(jié)果,如在哪一層融合以及采用何種方式融合等。網(wǎng)絡(luò)結(jié)構(gòu)搜索(Network Architecture Search, NAS)允許網(wǎng)絡(luò)從預(yù)定義好的網(wǎng)絡(luò)空間中學(xué)習(xí)出最優(yōu)的子空間[77],如果將NAS技術(shù)與多模態(tài)圖像融合技術(shù)相結(jié)合,使模型可以自動學(xué)習(xí)最優(yōu)的圖像融合方式將是一個極富前景的探索方向。
其他問題主要涉及數(shù)據(jù)問題。首先,由于標(biāo)注成本較高導(dǎo)致大規(guī)模數(shù)據(jù)集獲取比較困難,有限的訓(xùn)練數(shù)據(jù)很容易導(dǎo)致過度擬合問題。為了解決這個問題,降低網(wǎng)絡(luò)架構(gòu)的復(fù)雜性或增加訓(xùn)練數(shù)據(jù)已被證明可以緩解該問題。其次,使用類別不平衡數(shù)據(jù)進行訓(xùn)練會導(dǎo)致分割網(wǎng)絡(luò)不穩(wěn)定,尤其是對于小病變或小目標(biāo)分割。
近年來,基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)圖像分割方法被廣泛研究,并取得了很多很好的成果。本文介紹了深度學(xué)習(xí)和多模態(tài)醫(yī)學(xué)圖像分割等基本概念,概括了多模態(tài)醫(yī)學(xué)圖像分割過程中涉及的數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強、數(shù)據(jù)后處理等技術(shù),總結(jié)了三種目前主流的多模態(tài)圖像分割方法,并進一步對這些方法進行了細(xì)粒度的劃分和概括,概述了不同方法的優(yōu)劣;本文同時還闡述了基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像分割面臨的主要問題,其中的小樣本性和復(fù)雜性使現(xiàn)有研究距離實際應(yīng)用仍有一定距離;最后,本文在分析現(xiàn)有模型不足的基礎(chǔ)上,總結(jié)了現(xiàn)有的前沿的研究結(jié)果,并展望了未來的研究方向。研究基于深度學(xué)習(xí)的多模態(tài)醫(yī)學(xué)影像分割方法具有非常重要的意義,通過該方法可以實現(xiàn)更加精準(zhǔn)的病變和目標(biāo)分割,有助于減輕臨床醫(yī)生的負(fù)擔(dān),提升診斷的精度和速度,這將是未來需要關(guān)注的重要研究領(lǐng)域。
[1] 范立南,王晶,王銀玲.多模態(tài)醫(yī)學(xué)圖像融合技術(shù)綜述[J].沈陽大學(xué)學(xué)報,2009,21(3):96-100.(FAN L N, WANG J, WANG Y L. A summary of multimodality medical image fusion technology[J]. Journal of Shenyang University, 2009, 21(3): 96-100.)
[2] 鄒誠實,岑婷.腹部CT及MRI圖像融合配準(zhǔn)在臨床中的應(yīng)用[J].上海醫(yī)學(xué)影像,2002,11(4):250-253.(ZOU C S, CEN T. Abdomen CT and MRI image fusion technique and its clinical application [J]. Shanghai Medical Imaging, 2002,11(4): 250-253.)
[3] GUO Z, LI X, HUANG H, et al. Deep learning-based image segmentation on multimodal medical imaging [J]. IEEE Transactions on Radiation and Plasma Medical Sciences, 2019, 3(2): 162-169.
[4] KHALEGHI B, KHAMIS A, KARRAY F O, et al. Multisensor data fusion: a review of the state-of-the-art [J]. Information Fusion, 2013, 14(1): 28-44.
[5] 趙澄東,王旭輝,楊靜宇.一種基于改進的概率圖像融合方法[J].計算機工程與應(yīng)用,2012,48(8):182-184.(ZHAO C D, WANG X H, YANG J Y. Method of image fusion based on improved probability theory [J]. Computer Engineering and Applications, 2012, 48(8): 182-184.)
[6] DAS S, KUNDU MK. A neuro-fuzzy approach for medical image fusion [J]. IEEE Transactions on Biomedical Engineering, 2013, 60(12): 3347-3353.
[7] BALASUBRAMANIAM P, ANANTHI V P. Image fusion using intuitionistic fuzzy sets [J]. Information Fusion, 2014, 20: 21-30.
[8] SMETS P. The combination of evidence in the transferable belief model [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1990, 12(5): 447-458.
[9] LIAN C, RUAN S, DEN?UX T, et al. Joint tumor segmentation in PET-CT images using co-clustering and fusion based on belief functions [J]. IEEE Transactions on Image Processing, 2018, 28(2): 755-766.
[10] VáZQUEZ-REINA A, GELBART M, HUANG D, et al. Segmentation fusion for connectomics [C]// Proceedings of the 2011 International Conference on Computer Vision. Piscataway: IEEE, 2011: 177-184.
[11] 肖兒良,周瑩,簡獻忠.遷移學(xué)習(xí)與GAN結(jié)合的醫(yī)學(xué)圖像融合模型[J].小型微型計算機系統(tǒng),2020,41(9):1972-1978.(XIAO E L, ZHOU Y, JIAN X Z. Medical image fusion model combining transfer learning and generative adversarial network [J]. Journal of Chinese Computer Systems,2020,41(9):1972-1978.)
[12] 李鴻,鄒俊穎,譚茜成,等.面向醫(yī)學(xué)圖像分割的多注意力融合網(wǎng)絡(luò)[J].計算機應(yīng)用,2022,42(12):3891-3899.(LI H, ZOU J Y, TAN X C, et al. Multi-attention fusion network for medical image segmentation [J]. Journal of Computer Applications, 2022, 42(12): 3891-3899.)
[13] ZHANG N, RUAN S, LEBONVALLET S, et al. Kernel feature selection to fuse multi-spectral MRI images for brain tumor segmentation [J]. Computer Vision and Image Understanding, 2011, 115(2): 256-269.
[14] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks [J]. Communications of the ACM, 2017, 60(6): 84-90.
[15] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2023-04-24]. https://arxiv.org/pdf/1409.1556.pdf.
[16] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 1-9.
[17] HE K, ZHANG X, REN S, et al. Identity mappings in deep residual networks [C]// Proceedings of the 2016 European Conference on Computer Vision, LNIP 9908. Cham:Springer, 2016: 630-645.
[18] HUANG G, LIU Z, MAATEN L van der, et al. Densely connected convolutional networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 2261-2269.
[19] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3431-3440.
[20] RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation [C]// Proceedings of 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[21] MENZE B H, JAKAB A, BAUER S, et al. The multimodal brain tumor image segmentation benchmark (BRATS) [J]. IEEE Transactions on Medical Imaging, 2015, 34(10): 1993-2024.
[22] PEREIRA S, PINTO A, ALVES V, et al. Brain tumor segmentation using convolutional neural networks in MRI images [J]. IEEE Transactions on Medical Imaging, 2016, 35(5): 1240-1251.
[23] HAVAEI M, DAVY A, WARDE-FARLEY D, et al. Brain tumor segmentation with deep neural networks [J]. Medical Image Analysis, 2017, 35: 18-31.
[24] KALINOVSKY A, KOVALEV V. Lung image segmentation using deep learning methods and convolutional neural networks [C]// Proceedings of the 13th International Conference on Pattern Recognition and Information Processing. Berlin: Springer, 2016: 21-24.
[25] ROTH H R, LU L, FARAG A, et al. DeepOrgan: multi-level deep convolutional networks for automated pancreas segmentation [C]// Proceedings of 18th International Conference on Medical Image Computing and Computer-Assisted Intervention, LNIP 9349. Cham: Springer, 2015: 556-564.
[26] FU M, WU W, HONG X, et al. Hierarchical combinatorial deep learning architecture for pancreas segmentation of medical computed tomography cancer images [J]. BMC Systems Biology, 2018, 12: No.56.
[27] YU L, YANG X, CHEN H, et al. Volumetric ConvNets with mixed residual connections for automated prostate segmentation from 3D MR images [C]// Proceedings of the 31st AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2017: 66-72.
[28] ZHOU X, TAKAYAMA R, WANG S, et al. Deep learning of the sectional appearances of 3D CT images for anatomical structure segmentation based on an FCN voting method [J]. Medical Physics, 2017, 44(10): 5221-5233.
[29] STOYANOV D, TAYLOR Z, CARNEIRO G, et al. Deep learning in medical image analysis and multimodal learning for clinical decision support [C]// Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, DLMIA 2018, and 8th International Workshop, ML-CDS 2018, Held in Conjunction with MICCAI 2018, LNCS 11045. Cham: Springer, 2018: 3-11.
[30] ZHOU T, RUAN S, CANU S. A review: deep learning for medical image segmentation using multi-modality fusion [J]. Array, 2019, (3/4): No.100004.
[31] HATAMIZADEH A, NATH V, TANG Y, et al. Swin UNETR: Swin transformers for semantic segmentation of brain tumors in MRI images [C]// Proceedings of the 7th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2021, Held in Conjunction with MICCAI 2021, LNCS 12962. Cham: Springer, 2022: 272-284.
[32] MENDRIK A M, VINCKEN K L, KUIJF H J, et al. MRBrainS challenge: online evaluation framework for brain image segmentation in 3T MRI scans [J]. Computational Intelligence and Neuroscience, 2015, 2015: No.813696.
[33] I?GUM I, BENDERS M J N L, AVANTS B, et al. Evaluation of automatic neonatal brain segmentation algorithms: the NeoBrainS12 challenge [J]. Medical Image Analysis, 2015, 20(1): 135-151.
[34] WANG L, NIE D, LI G, et al. Benchmark on automatic six-month-old infant brain segmentation algorithms: the iSeg-2017 challenge [J]. IEEE Transactions on Medical Imaging, 2019, 38(9): 2219-2230.
[35] DOLZ J, GOPINATH K, YUAN J, et al. HyperDense-Net: a hyper-densely connected CNN for multi-modal image segmentation [J]. IEEE Transactions on Medical Imaging, 2019, 38(5): 1116-1126.
[36] CUI S, MAO L, JIANG J, et al. Automatic semantic segmentation of brain gliomas from MRI images using a deep cascaded neural network [J]. Journal of Healthcare Engineering, 2018, 2018: No.4940593.
[37] DOLZ J, DESROSIERS C, BEN AYED I. IVD-Net: intervertebral disc localization and segmentation in MRI with a multi-modal UNet [C]// Proceedings of 5th International Workshop and Challenge, CSI 2018, Held in Conjunction with MICCAI 2018, LNCS 11397. Cham: Springer, 2019: 130-143.
[38] NIE D, WANG L, GAO Y, et al. Fully convolutional networks for multi-modality isointense infant brain image segmentation[C]// Proceedings of 2016 IEEE International Symposium on Biomedical Imaging. Piscataway: IEEE, 2016: 1342-1345.
[39] WANG G, LI W, OURSELIN S, et al. Automatic brain tumor segmentation using cascaded anisotropic convolutional neural networks [C]// Proceedings of the Third International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2017, Held in Conjunction with MICCAI 2017, LNCS 10670. Cham: Springer, 2018: 178-190.
[40] KAMNITSAS K, LEDIG C, NEWCOMBE V F J, et al. Efficient multi-scale 3D CNN with fully connected CRF for accurate brain lesion segmentation [J]. Medical Image Analysis, 2017, 36: 61-78.
[41] ZHAO X, WU Y, SONG G, et al. A deep learning model integrating FCNNs and CRFs for brain tumor segmentation [J]. Medical Image Analysis, 2018, 43: 98-111.
[42] MLYNARSKI P, DELINGETTE H, CRIMINISI A, et al. 3D convolutional neural networks for tumor segmentation using long-range 2D context [J]. Computerized Medical Imaging and Graphics, 2019, 73: 60-72.
[43] WANG J, PEREZ L. The effectiveness of data augmentation in image classification using deep learning [EB/OL]. [2022-05-09]. http://vision.stanford.edu/teaching/cs231n/reports/2017/pdfs/300.pdf.
[44] ISENSEE F, KICKINGEREDER P, WICK W, et al. Brain tumor segmentation and radiomics survival prediction: Contribution to the BraTS 2017 challenge [C]// Proceedings of the Third International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2017, Held in Conjunction with MICCAI 2017, LNCS 10670. Cham: Springer, 2018: 287-297.
[45] ISENSEE F, KICKINGEREDER P, WICK W, et al. No new-net [C]// Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2018, Held in Conjunction with MICCAI 2018, LNCS 11384. Cham: Springer, 2019: 234-244.
[46] MYRONENKO A. 3D MRI brain tumor segmentation using autoencoder regularization [C]// Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2018, Held in Conjunction with MICCAI 2018, LNCS 11384. Cham: Springer, 2019: 311-320.
[47] ZHOU C, DING C, WANG X, et al. One-pass multi-task networks with cross-task guided attention for brain tumor segmentation [J]. IEEE Transactions on Image Processing, 2020, 29: 4516-4529.
[48] ZHAO C, ZHAO Z, ZENG Q, et al. MVP U-Net: multi-view pointwise U-net for brain tumor segmentation [C]// Proceedings of the 6th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2020, Held in Conjunction with MICCAI 2020, LNCS 12659. Cham: Springer, 2021: 93-103.
[49] DING Y, ZHENG W, GENG J, et al. MVFusFra: a multi-view dynamic fusion framework for multimodal brain tumor segmentation [J]. IEEE Journal of Biomedical and Health Informatics, 2021, 26(4): 1570-1581.
[50] QIN Y, KAMNITSAS K, ANCHA S, et al. Autofocus layer for semantic segmentation [C]// Proceedings of 21th International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 11072. Cham: Springer, 2018: 603-611.
[51] LIN F, WU Q, LIU J, et al. Path aggregation U-Net model for brain tumor segmentation [J]. Multimedia Tools and Applications, 2021, 80(15): 22951-22964.
[52] GOODFELLOW I, POUGET-ABADIE J, MIRZA M, et al. Generative adversarial networks [J]. Communications of the ACM, 2020, 63(11): 139-144.
[53] YANG H-Y, YANG J. Automatic brain tumor segmentation with contour aware residual network and adversarial training[C]// Proceedings of the 4th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2018, Held in Conjunction with MICCAI 2018, LNCS 11384. Cham: Springer, 2019: 267-278.
[54] HUO Y, XU Z, BAO S, et al. Splenomegaly segmentation on multi-modal MRI using deep convolutional networks [J]. IEEE Transactions on Medical Imaging, 2019, 38(5): 1185-1196.
[55] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 5967-5976.
[56] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need [C]// Proceedings of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[57] DOSOVITSKIY A, BEYER L, KOLESNIKOV A, et al. An image is worth 16x16 words: Transformers for image recognition at scale [EB/OL]. [2023-04-24]. https://arxiv.org/pdf/2010.11929.pdf.
[58] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: hierarchical vision Transformer using shifted windows [C]// Proceedings of the 2021 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2021: 10012-10022.
[59] JIA Q, SHU H. BiTr-Unet: a CNN-Transformer combined network for MRI brain tumor segmentation [C]// Proceedings of the 7th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2021, Held in Conjunction with MICCAI 2021, LNCS 12963. Cham: Springer, 2022: 3-14.
[60] CHEN J, LU Y, YU Q, et al. TransUnet: Transformers make strong encoders for medical image segmentation [EB/OL]. [2023-04-25]. https://arxiv.org/pdf/2102.04306.pdf.
[61] WANG W, CHEN C, DING M, et al. TransBTS: multimodal brain tumor segmentation using transformer [C]// Proceedings of the 24th International Conference on Medical Image Computing and Computer Assisted Intervention, LNIP 12901. Cham: Springer, 2021: 109-119.
[62] HATAMIZADEH A, NATH V, TANG Y, et al. Swin UNETR: Swin Transformers for semantic segmentation of brain tumors in MRI images [C]// Proceedings of the 7th International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2021, Held in Conjunction with MICCAI 2021, LNCS 12962. Cham: Springer, 2022: 272-284.
[63] JIANG Y, ZHANG Y, LIN X, et al. SwinBTS: a method for 3D multimodal brain tumor segmentation using Swin Transformer [J]. Brain Sciences, 2022, 12(6): No.797.
[64] CHEN L, WU Y, DSOUZA A M, et al. MRI tumor segmentation with densely connected 3D CNN [C]// Proceedings of the 2018 Medical Imaging: Image Processing, SPIE 10574. Bellingham, WA: SPIE, 2018: 357-364.
[65] CHEN Y, CHEN J, WEI D, et al. OctopusNet: a deep learning segmentation network for multi-modal medical images [C]// Proceedings of the First International Workshop on Multiscale Multimodal Medical Imaging, LNCS 11977. Cham: Springer, 2020: 17-25.
[66] YUE M, DAI Z, HE J, et al. MRI-guided automated delineation of gross tumor volume for nasopharyngeal carcinoma using deep learning[C]// Proceedings of the 35th IEEE International Symposium on Computer-Based Medical Systems. Piscataway: IEEE, 2022: 292-296.
[67] LI C, SUN H, LIU Z, et al. Learning cross-modal deep representations for multi-modal MR image segmentation [C]// Proceedings of the 22nd International Conference on Medical Image Computing and Computer Assisted Intervention, LNCS 11765. Cham: Springer, 2019: 57-65.
[68] ZHANG Y, YANG J, TIAN J, et al. Modality-aware mutual learning for multi-modal medical image segmentation [C]// Proceedings of the 24th International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 12901. Cham: Springer, 2021: 589-599.
[69] DOU Q, LIU Q, HENG P A, et al. Unpaired multi-modal segmentation via knowledge distillation [J]. IEEE Transactions on Medical Imaging, 2020, 39(7): 2415-2425.
[70] WANG H, ZHANG J, CHEN Y, et al. Uncertainty-aware multi-modal learning via cross-modal random network prediction[C]// Proceedings of the 17th European Conference on Computer Vision, LNCS 13697. Cham: Springer, 2022: 200-217.
[71] ROKACH L. Ensemble-based classifiers [J]. Artificial Intelligence Review, 2010, 33(1/2): 1-39.
[72] KAMNITSAS K, BAI W, FERRANTE E, et al. Ensembles of multiple models and architectures for robust brain tumour segmentation [C]// Proceedings of the Third International Workshop on Brainlesion: Glioma, Multiple Sclerosis, Stroke and Traumatic Brain Injuries, BrainLes 2017, Held in Conjunction with MICCAI 2017, LNCS 10670. Berlin: Springer, 2018: 450-462.
[73] AYGüN M, ?AHIN Y H, ünal G. Multi modal convolutional neural networks for brain tumor segmentation [EB/OL]. [2023-04-24]. https://arxiv.org/pdf/1809.06191.pdf.
[74] DOUZAS G, BACAO F. Effective data generation for imbalanced learning using conditional generative adversarial networks [J]. Expert Systems with Applications, 2018, 91(C): 464-471.
[75] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: synthetic minority over-sampling technique [J]. Journal of Artificial Intelligence Research, 2002, 16(1): 321-357.
[76] CLèRIGUES A, VALVERDE S, BERNAL J, et al. Acute and sub-acute stroke lesion segmentation from multimodal MRI [J]. Computer Methods and Programs in Biomedicine, 2020, 194: No.105521.
[77] HE Y, YANG D, ROTH H, et al. DiNTS: differentiable neural network topology search for 3D medical image segmentation [C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2021: 5841-5850.
[78] CHANG P D. Fully convolutional neural networks with hyperlocal features for brain tumor segmentation [C]// Proceedings of the 19th International Conference on Medical Image Computing and Computer-Assisted Intervention. Berlin: Springer, 2016: 4-9.
[79] ZHOU T, RUAN S, VERA P, et al. A tri-attention fusion guided multi-modal segmentation network [J]. Pattern Recognition, 2022, 124(C): No.108417.
[80] ZHANG D, HUANG G, ZHANG Q, et al. Cross-modality deep feature learning for brain tumor segmentation [J]. Pattern Recognition, 2021, 110: No.107562.
Review of multi-modal medical image segmentation based on deep learning
DOU Meng1,2, CHEN Zhebin1,2, WANG Xin3, ZHOU Jitao3, YAO Yu1,2*
(1,,610213,;2,,100049,;3,,610041,)
Multi-modal medical images can provide clinicians with rich information of target areas (such as tumors, organs or tissues). However, effective fusion and segmentation of multi-modal images is still a challenging problem due to the independence and complementarity of multi-modal images. Traditional image fusion methods have difficulty in addressing this problem, leading to widespread research on deep learning-based multi-modal medical image segmentation algorithms. The multi-modal medical image segmentation task based on deep learning was reviewed in terms of principles, techniques, problems, and prospects. Firstly, the general theory of deep learning and multi-modal medical image segmentation was introduced, including the basic principles and development processes of deep learning and Convolutional Neural Network (CNN), as well as the importance of the multi-modal medical image segmentation task. Secondly, the key concepts of multi-modal medical image segmentation was described, including data dimension, preprocessing, data enhancement, loss function, and post-processing, etc. Thirdly, different multi-modal segmentation networks based on different fusion strategies were summarized and analyzed. Finally, several common problems in medical image segmentation were discussed, the summary and prospects for future research were given.
deep learning; multi-modal; medical image; image fusion; image segmentation
1001-9081(2023)11-3385-11
10.11772/j.issn.1001-9081.2022101636
2022?11?04;
2023?04?26;
國家自然科學(xué)基金資助項目(82073338); 四川省科技計劃項目重點研發(fā)項目(2022YFS0217)。
竇猛(1993—),男,山東濱州人,博士研究生,主要研究方向:醫(yī)學(xué)圖像分析、深度學(xué)習(xí); 陳哲彬(1993—),男,貴州遵義人,博士研究生,主要研究方向:醫(yī)學(xué)圖像分析、深度學(xué)習(xí); 王辛(1977—),女,四川成都人,教授,博士,主要研究方向:直腸腫瘤診斷與治療; 周繼陶(1985—),女,四川成都人,主治醫(yī)師,博士,主要研究方向:直腸腫瘤診斷與治療; 姚宇(1980—),男,四川宜賓人,教授,博士,主要研究方向:醫(yī)學(xué)圖像分析、機器學(xué)習(xí)。
TP183
A
2023?05?04。
This work is partially supported by National Natural Science Foundation of China (82073338), Key Research and Development Project of Sichuan Science and Technology Plan (2022YFS0217).
DOU Meng, born in 1993, Ph. D. candidate. His research interests include medical image analysis, deep learning.
CHEN Zhebin, born in 1993, Ph. D. candidate. His research interests include medical image analysis, deep learning.
WANG Xin, born in 1977, Ph. D., professor. Her research interests include diagnosis and treatment of rectal tumors.
ZHOU Jitao, born in 1985, Ph. D., attending physician. Her research interests include diagnosis and treatment of rectal tumors.
YAO Yu,born in 1980, Ph. D., professor. His research interests include medical image analysis, machine learning.