宋建麗,呂曉琪,2*,谷宇
(1.內(nèi)蒙古科技大學(xué) 信息工程學(xué)院,內(nèi)蒙古 包頭市 014010;2.內(nèi)蒙古工業(yè)大學(xué) 信息工程學(xué)院,內(nèi)蒙古 呼和浩特 010051)
腦腫瘤是顱內(nèi)腫瘤的簡稱,由腦部非正常增長的神經(jīng)細(xì)胞組成,相較于其他腫瘤具有更高的致命性。腦膠質(zhì)瘤是所有腦腫瘤中最常見、最具有侵襲性的惡性腫瘤[1]。據(jù)世界衛(wèi)生組織報(bào)道,根據(jù)其顯微圖像和腫瘤行為可分為四個(gè)等級[2],Ⅰ,Ⅱ級為低級別膠質(zhì)瘤(Low Gliomas grade,LGG),Ⅲ級和Ⅳ級為高級別膠質(zhì)瘤(High Gliomas grade,HGG),級別越高,致命性越強(qiáng)。磁共振成像(Magnetic Resonance Imaging,MRI)作為一種高性能的軟組織成像手段,能夠顯示不同模態(tài)的信息,現(xiàn)已成為腦腫瘤檢測和診斷的重要工具[3]。
在臨床實(shí)驗(yàn)中,腦腫瘤的精細(xì)分割主要依靠經(jīng)驗(yàn)豐富的醫(yī)生,注意力不集中、疲勞以及缺乏相關(guān)工作經(jīng)驗(yàn)等因素會影響分割結(jié)果[4]。盡管研究人員已經(jīng)進(jìn)行了深入研究,但是由于腦腫瘤的位置、大小和形狀具有不確定性,病變組織和正常組織之間的低質(zhì)量成像和邊界模糊使得在實(shí)際操作中難以獲得足夠的分割精度,腦腫瘤分割仍然面臨很大挑戰(zhàn)[5]。近年來,深度學(xué)習(xí)技術(shù)廣泛應(yīng)用于圖像分析與處理、語音識別等領(lǐng)域,并取得突破性進(jìn)展,現(xiàn)已成為腦腫瘤圖像分割的主要技術(shù)手段[6]。
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)因其強(qiáng)大的特征提取能力,廣泛應(yīng)用于圖像處理領(lǐng)域[7]。Ronneberger等[8]在全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[9]的基礎(chǔ)上首次提出UNet 模型,實(shí)現(xiàn)了端到端的自動(dòng)分割,已成為醫(yī)學(xué)圖像分割領(lǐng)域的主流網(wǎng)絡(luò)。?i?ek等[10]將UNet 擴(kuò)展到3D UNet,改進(jìn)后的網(wǎng)絡(luò)能夠更好地學(xué)習(xí)MRI 圖像不同維度的信息,并且各項(xiàng)指標(biāo)的參數(shù)均優(yōu)于二維的UNet 網(wǎng)絡(luò)。MultiResUNet[11]作為UNet 的增強(qiáng)版本,利用具有學(xué)習(xí)能力的殘差塊代替簡單的跳躍連接,能同時(shí)對3D 和2D 圖像產(chǎn)生更好的分割效果,尤其是對多模態(tài)數(shù)據(jù)集的處理。隨著注意力機(jī)制有效性被證實(shí),研究者們嘗試將注意力機(jī)制引入卷積神經(jīng)網(wǎng)絡(luò),Oktay等[12]通過將注意力門控機(jī)制嵌入跳躍連接,實(shí)現(xiàn)了對特定目標(biāo)結(jié)構(gòu)的自動(dòng)學(xué)習(xí)。Wang[13]和Jiang[14]將基于自注意力機(jī)制 的Transformer 和SwinTransformer 與UNet 融合,進(jìn)一步實(shí)現(xiàn)了對腦腫瘤的精確分割。
現(xiàn)有模型在獲得高級語義信息時(shí)會損失重要的邊緣和細(xì)節(jié)信息,楊堅(jiān)華等[15]構(gòu)建了并行多路徑網(wǎng)絡(luò),使用同時(shí)進(jìn)行特征提取和融合策略減少語義信息丟失;梁禮明等[16]通過在編碼部分級聯(lián)高分辨率網(wǎng)絡(luò)減少特征缺失,增強(qiáng)病變像素傳遞,但是過多的卷積操作導(dǎo)致網(wǎng)絡(luò)結(jié)構(gòu)冗余復(fù)雜。Huang 等人[17]在編碼階段設(shè)置并行路徑,在下采樣的同時(shí)融合細(xì)節(jié)信息,從輸入端降低采樣造成的信息損失,但忽視了不同層級的語義信息差。Aboelenein等[18]針對腫瘤形式和大小差異性,設(shè)計(jì)層數(shù)不同、卷積核大小不同的雙軌道UNet 結(jié)構(gòu),降低了小尺度特征在訓(xùn)練中的損失,但缺少對邊緣細(xì)節(jié)信息的關(guān)注。Lu等[19]則利用多層的DenseNet 實(shí)現(xiàn)特征重用,保留低級信息。
針對傳統(tǒng)卷積帶來的模型參數(shù)量大,計(jì)算消耗高等問題,Chen等[20]提出DMFNet 網(wǎng)絡(luò),使用多纖維單元構(gòu)成基礎(chǔ)卷積層,利用不同擴(kuò)張率的空洞卷積獲取多尺度特征表達(dá),顯著降低了參數(shù)量和計(jì)算量,但是過多空洞卷積造成了圖像特征丟失。Luo等[21]通過對標(biāo)準(zhǔn)卷積進(jìn)行跨信道和空間域的分層解耦,提出了一種輕量級的偽3D 模型HDCNet,在減少信息冗余的同時(shí)完成對空間上下文信息的學(xué)習(xí),極大地降低了參數(shù)量和計(jì)算復(fù)雜度,但是對增強(qiáng)區(qū)域分割欠佳。Zhou等[22]利用計(jì)算效率較高的3D ShuffleNetV2 作為編碼器,利用逐點(diǎn)卷積和通道重排,降低計(jì)算復(fù)雜度和內(nèi)存消耗,不足之處是忽略了解碼器對模型效率和精度的影響。
由上述研究內(nèi)容可知,通過簡單地疊加模型結(jié)構(gòu),增加額外路徑或者多尺度融合等方法,無法很好地緩解因網(wǎng)絡(luò)層次加深導(dǎo)致的信息損失問題,同時(shí)還會造成網(wǎng)絡(luò)自身的復(fù)雜度提高。為更好地解決特征信息損失和模型復(fù)雜度過高的問題,本文提出了一種輕量級的雙重注意力特征對齊網(wǎng)絡(luò)(Dual Attention Feature Align Net,DAFANet)。首先,在網(wǎng)絡(luò)解碼階段使用特征對齊單元減少上采樣造成的信息損失,改變傳統(tǒng)分割模型對上采樣階段特征恢復(fù)的直接操作,顯示地學(xué)習(xí)不同層級之間存在的語義流差異性,校正語義信息差,實(shí)現(xiàn)更準(zhǔn)確的特征恢復(fù)。其次,針對腦腫瘤圖像的三維數(shù)據(jù)形式,將2D 期望最大化注意力機(jī)制擴(kuò)展為3D 變體,分別作用于特征對齊單元和級聯(lián)路徑,有助于網(wǎng)絡(luò)更好地利用圖像的體素信息,同時(shí)促進(jìn)網(wǎng)絡(luò)對全局依賴關(guān)系的獲取,雙路徑形式能更好地減少輸入噪聲,降低輸入特征的差異性,強(qiáng)化特征恢復(fù)過程。最后,使用廣義Dice 損失函數(shù)提升數(shù)據(jù)不平衡條件下的分割精度,加快網(wǎng)絡(luò)收斂。
本文提出的DAFANet 模型是基于實(shí)時(shí)分割網(wǎng)絡(luò)DMFNet 改進(jìn),其網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。4通道對應(yīng)腦腫瘤的四個(gè)模態(tài)。模型采用U 型編碼解碼結(jié)構(gòu),在編碼階段首先采用步長為2 的3×3×3 卷積初步采樣,使用如圖2 所示的多纖維(Multi-Fiber,MF)單元和擴(kuò)張多纖維(Dilated Multi-Fiber,DMF)單元作為卷積塊,并在下采樣中設(shè)置組卷積數(shù)為16,其中擴(kuò)張多纖維單元用于解決在分辨率較低時(shí)感受野較小的問題,可學(xué)習(xí)的權(quán)重系數(shù)ω1,ω2,ω3分配給每個(gè)擴(kuò)張分支,最后三個(gè)分支相加。多纖維結(jié)構(gòu)通過使用3 個(gè)并行的纖維單元將具有Cin通道的輸入分為三組,將復(fù)雜的神經(jīng)網(wǎng)絡(luò)切片替換成由多個(gè)纖維組成的集合,結(jié)合具有通道變換功能的多路復(fù)用器,極大地提高模型的效率,最終形成輕量級的3D 網(wǎng)絡(luò)結(jié)構(gòu)。其中多路復(fù)用器的具體結(jié)構(gòu)如圖2(b)所示,由兩層1×1×1 卷積組成,用于不同纖維塊之間的信息交互。
圖1 DAFANet 整體結(jié)構(gòu)圖Fig.1 Overall network architecture of our DAFANet model
圖2 多纖維單元和擴(kuò)張多纖維單元結(jié)構(gòu)圖Fig.2 Structural diagram of Multi-Fiber unit and Dilated Multi-Fiber unit
解碼階段由特征對齊(Feature Align,F(xiàn)A)單元和多纖維單元構(gòu)成,最后經(jīng)過一層1×1×1 卷積和softmax 層得到最后的分割圖。特征圖在執(zhí)行上采樣和級聯(lián)操作之前,特征對齊單元會顯示地學(xué)習(xí)編碼階段和解碼階段特征映射之間的語義信息差,利用信息差形成第一層采樣層,隨后和上采樣特征相加,最后和編碼路徑的信息級聯(lián)生成最后的特征信息。第三采樣層在跳躍連接路徑和特征對齊路徑融入3D 期望最大化注意力機(jī) 制(Expectation-Maximization Attention,EMA),用于獲取上下文信息,降低輸入噪聲。
特征對齊單元將特征的逐層傳遞抽象為“流”的形式,語義信息流可以簡單概述為具有語義差的特征在減少錯(cuò)位問題時(shí)信息流動(dòng)所形成的差值域,其核心思想是用深層語義信息彌補(bǔ)淺層語義信息的缺失。通過學(xué)習(xí)不同分辨率之間的語義信息,動(dòng)態(tài)地建立特征圖之間的位置對應(yīng)關(guān)系,降低相鄰級別特征圖的語義信息差,促使網(wǎng)絡(luò)得到更加豐富的空間和語義信息。特征對齊單元以不同層級的特征信息作為輸入,通過評估不同層級之間的特征差異得到合適的語義流場,該流場會自動(dòng)調(diào)整兩層之間的差異,給出有效的特征對齊信息。網(wǎng)絡(luò)構(gòu)成如圖3 所示。
圖3 特征對齊單元Fig.3 Feature align unit
多次遞歸使用下采樣操作,導(dǎo)致上采樣的特征映射與對應(yīng)層的特征映射存在可預(yù)測的空間錯(cuò)位,通過簡單地元素添加或者通道融合都會損害目標(biāo)邊界的預(yù)測。特征對齊單元通過動(dòng)態(tài)學(xué)習(xí)特征映射之間的語義信息差,進(jìn)而減少空間錯(cuò)位的產(chǎn)生,實(shí)現(xiàn)更準(zhǔn)確的特征恢復(fù)。整體流程可分為如下兩步:(1)獲取顯著映射區(qū)域;(2)特征重采樣。
實(shí)現(xiàn)特征對齊的關(guān)鍵是尋找兩個(gè)相鄰特征層之間的對應(yīng)點(diǎn),由于腦腫瘤圖像前景和背景之間像素極不平衡,實(shí)際分割區(qū)域在腦腫瘤圖像占比不足,那么特征圖中的絕大多數(shù)顯著區(qū)域可以當(dāng)做信息傳播的關(guān)鍵點(diǎn),也是實(shí)現(xiàn)特征對齊的關(guān)鍵信息。
其中:cat(·)代表級聯(lián)操作,conv3×3×3代表卷積核3×3×3 的卷積操作。
經(jīng)過Ω流域的預(yù)測,F(xiàn)l所處的空間灰度域中的每一個(gè)位置pl都可以被映射到高級語義信息層的點(diǎn)ph上,最后將Fh和Ω經(jīng)過warp 操作得到最后的特征映射。對于矯正之后的深層特征,Li等人[23]采用與淺層特征信息融合的方式來獲取最終的結(jié)果。但是對于像腦腫瘤這種實(shí)際分割占比不足而且分割區(qū)域呈現(xiàn)嵌套形式的圖像數(shù)據(jù),當(dāng)學(xué)習(xí)到的語義信息具備的對齊效果不佳時(shí),會影響各個(gè)子區(qū)域的邊界分割效果。為此,本文采用模板匹配的方式,通過生成與Fh同樣大小的灰度規(guī)則網(wǎng)格grid,將Ω中對應(yīng)坐標(biāo)點(diǎn)的像素賦值到grid 的相應(yīng)位置,基于語義相似度將低分辨率特征圖的樣本提升到高分辨率的大小,實(shí)現(xiàn)對高級語義信息的重采樣。Warp 核心是通過使用學(xué)習(xí)到的關(guān)鍵位置點(diǎn)和偏移量調(diào)整卷積核中每個(gè)采樣點(diǎn)的位置,實(shí)現(xiàn)將上采樣的特征映射對齊到一組特征映射grid 中去,最后輸出的特征圖F將會有特征對齊的特性。在數(shù)學(xué)上,可以通過公式(2)描述:
在像素級別的腦腫瘤圖像分割過程中,詳細(xì)的上下文信息對分割任務(wù)至關(guān)重要,而卷積操作只能獲取卷積核區(qū)域內(nèi)像素的相鄰關(guān)系,無法建立與其他像素之間的聯(lián)系。自注意力機(jī)制通過計(jì)算像素點(diǎn)之間的特征加權(quán)和獲取特征表示,以此捕獲遠(yuǎn)程信息。傳統(tǒng)自注意力機(jī)制需要在所有位置上計(jì)算所需的注意力圖,導(dǎo)致較高的計(jì)算復(fù)雜度。Li 等人[24]從期望最大化迭代(Expectation-Maximization,EM)算法的角度對自注意力機(jī)制優(yōu)化,使用EM 算法迭代得到一組緊湊的基,在基上計(jì)算權(quán)重,從而降低計(jì)算量。這一過程主要通過E 步更新注意力圖,M 步更新這組基實(shí)現(xiàn),其中E、M 需要交替執(zhí)行,直至收斂。本文在原有的注意力機(jī)制基礎(chǔ)上進(jìn)行改進(jìn),將其擴(kuò)展為3D 形式,以更好地適應(yīng)腦腫瘤的三維圖像模式,使其能夠更好地捕獲全面的空間信息。
EMA 的具體流程可以描述為,對于給定的輸入大小為C×D×H×W的特征圖X,首先將其重塑為N×C大小,其中N=D×H×W,選擇初始基μ∈RK×C(K為基的個(gè)數(shù)),E 步估計(jì)隱變量Z∈RN×K,Z表示每個(gè)基對像素的權(quán)責(zé),則第K個(gè)基對第n個(gè)像素xn的權(quán)責(zé)可以計(jì)算為:
其 中:1≤k≤K,1≤n≤N,內(nèi)核P(a,b)選擇exp(aTb)的形式。則第t次迭代中的步驟E 可以表示為:
其中,λ作為超參數(shù)控制的分布。
用M 步更新基μ,μ被計(jì)算作為X的加權(quán)平均,則第k個(gè)基被更新為:
EMA 算法交替執(zhí)行E 步和M 步算法T次之后,近似收斂的μ和Z對X進(jìn)行重估計(jì)得公式為:
其主要流程如圖4 所示,對于輸入的特征圖X,交替執(zhí)行E 步、M 步直至收斂,使用收斂的μ和生成的注意力圖Z對X進(jìn)行特征重構(gòu)得到Xˉ,兩個(gè)1×1×1 卷積分別用于變換輸入的值域和將估計(jì)值Xˉ映射到殘差空間,最后經(jīng)由殘差運(yùn)算得到加強(qiáng)后的特征信息。
圖4 期望最大化注意力機(jī)制整體架構(gòu)Fig.4 Structure of expectation-maximization attention
腦腫瘤的病變區(qū)域占整個(gè)輸入空間的一小部分,存在目標(biāo)區(qū)域和背景區(qū)域分布占比不平衡的問題,而傳統(tǒng)的Dice 損失函數(shù)不利于小目標(biāo)區(qū)域的分割,小目標(biāo)區(qū)域部分像素的錯(cuò)誤預(yù)測會引起Dice 系數(shù)大幅度波動(dòng),不利于模型收斂。為此,本文選擇使用廣義Dice 損失函數(shù)(Generalized Dice Loss,GDL)緩解小目標(biāo)區(qū)域預(yù)測效果不佳時(shí)對模型的影響。GDL 在Dice Loss 的基礎(chǔ)上引入權(quán)重以改善對小目標(biāo)檢測不利的情況,同時(shí)將多個(gè)類別預(yù)測情況下的結(jié)果進(jìn)行整合,使用一個(gè)指標(biāo)作為分割結(jié)果的預(yù)測指標(biāo)。腦腫瘤圖像分割作為對健康組織和病灶的二分類任務(wù),此時(shí)廣義Dice 損失函數(shù)如公式(7)所示:
其 中:m為類別數(shù),rij為類別i在第j個(gè)像素處的標(biāo)準(zhǔn)值,pij為類別數(shù)i在第j個(gè)像素處的預(yù)測值,ω為每個(gè)類別的權(quán)重,由類別中的像素個(gè)數(shù)決定,具體如式(8)所示:
本文所用實(shí)驗(yàn)環(huán)境為:CPU:15 vCPU AMD EPYC 7543 32-Core Processor,GPU:RTX 3090(24 GB)* 1;ubuntu18.04 操作系統(tǒng),Pytorch 深度學(xué)習(xí)框架。
實(shí)驗(yàn)數(shù)據(jù)集使用腦腫瘤(BraTS)分割挑戰(zhàn)賽BraTS2018 和BraTS2019 數(shù)據(jù)集,數(shù)據(jù)集的數(shù)據(jù)構(gòu)成如表1 所示,其中使用BraTS2019 做主要實(shí)驗(yàn),BraTS2018 用于不同數(shù)據(jù)集的泛化驗(yàn)證。每個(gè)病例都有四種模態(tài),包括T1 加權(quán)(T1)、T2加權(quán)(T2)、T1 對比(T1ce)和液體衰減向內(nèi)恢復(fù)(FLARE)序列,每種模態(tài)的圖像大小都是240×240×155。所有訓(xùn)練集均有標(biāo)簽,驗(yàn)證集沒有標(biāo)簽,病例的真實(shí)標(biāo)簽均有多位經(jīng)驗(yàn)豐富的醫(yī)師標(biāo)注。論文中的所有結(jié)果均在BraTS 挑戰(zhàn)賽的在線評估服務(wù)器進(jìn)行測評,驗(yàn)證算法的有效性。圖5 為同一病例不同模態(tài)的腦腫瘤圖像和真實(shí)分割標(biāo)簽。
表1 數(shù)據(jù)集構(gòu)成Tab.1 Datasets composition
圖5 不同模態(tài)的腦腫瘤圖像與真實(shí)分割標(biāo)簽Fig.5 Brain tumor image and real segmentation tags with different modalities
為對分割結(jié)果進(jìn)行有效評估,采用多指標(biāo)綜合評判方法。選擇Dice 相似系數(shù)、靈敏度(Sensitivity)、特異性(Specificity)和豪斯多夫距離(Hausdorff95 distance)對腦腫瘤的浮腫(Whole Tumor,WT)區(qū)域、壞疽(Tumor Core,TC)區(qū)域和增強(qiáng)腫瘤(Enhance Tumor,ET)區(qū)域進(jìn)行評價(jià)。其中Dice 相似系數(shù)用來計(jì)算分割結(jié)果和圖像真實(shí)標(biāo)簽的相似程度,取值范圍為[0,1],Dice值越大說明分割精度越高。計(jì)算公式為:
靈敏度和特異性用于衡量結(jié)果和真實(shí)值之間的體素重疊程度,具體計(jì)算方式為:
其中:TP表示真陽性,F(xiàn)P為假陽性,F(xiàn)N為假陰性。
Hausdorff95 距離用來評估模型的分割結(jié)果和真實(shí)標(biāo)簽邊界之間的距離,是分割結(jié)果邊界中的某個(gè)點(diǎn)到真實(shí)標(biāo)簽邊界中的最近點(diǎn)的最大值,距離越小說明分割精度越高。計(jì)算公式為:
其中:sup(·)用于尋找集合下確界,inf(·)尋找集合上確界,d(x,y)表示x,y兩點(diǎn)之間的歐式距離,X和Y分別為網(wǎng)絡(luò)預(yù)測的腦腫瘤區(qū)域和真實(shí)標(biāo)簽區(qū)域的體素集,x,y分別為兩個(gè)體素點(diǎn)的距離。
實(shí)驗(yàn)過程中使用自適應(yīng)矩陣估計(jì)(Adam)進(jìn)行訓(xùn)練,設(shè)置初始學(xué)習(xí)率為10-3,使用衰減率為10-5的L2 范數(shù)作為正則化系數(shù);使用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充數(shù)據(jù)集,包括將圖像從240×240×155 隨機(jī)剪裁為128×128×128,以0.5 的概率沿任意軸向?qū)D片進(jìn)行隨機(jī)鏡像翻轉(zhuǎn),對剪裁后的圖像在[-10°,10°]范圍內(nèi)隨機(jī)旋轉(zhuǎn)等操作。在EMA模塊中設(shè)置基集數(shù)k的值為64,迭代次數(shù)T為3,超參數(shù)λ為1。根據(jù)實(shí)驗(yàn)設(shè)備資源情況,設(shè)置批處理大小為4,訓(xùn)練500 輪基本收斂。
為更好地證明所提模塊的有效性和泛化性,分別在DMFNet、HDCNet 和3D UNet 網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),結(jié)果如表2 所示。實(shí)驗(yàn)結(jié)果表明,結(jié)合FA單元后的三個(gè)基礎(chǔ)網(wǎng)絡(luò)綜合性能均得到提升,其中Dice 相似系數(shù)的效果最為明顯,表明經(jīng)過處理之后的特征映射具備信息對齊的效果,證明了特征對齊單元在減少特征錯(cuò)位問題上的有效性。尤其是改進(jìn)后的3D UNet 在Dice 系數(shù)和靈敏度指標(biāo)上較原網(wǎng)絡(luò)都有大幅提升,嵌入FA 的3D UNet 在ET,WT 和TC 三個(gè)區(qū)域的Dice 相似系數(shù)分別提升了1.97%,1.03%,1.74%,靈敏度分別提升了4.13%,1.06%,3.23%。DMFNet 在TC 區(qū)域的Dice 相似系數(shù)增加了0.79%,HDCNet 在WT 區(qū)域的Dice 精度增加了0.41%,在其他區(qū)域的精度也都有小幅提升。同時(shí)改進(jìn)后的三個(gè)網(wǎng)絡(luò)在特異性和Hausdorff95 距離方面也有不同程度的改善,充分證明了特征對齊單元的有效性和泛化性。
表2 不同模型使用FA 后的效果Tab.2 Comparison of effects of different models using FA
為驗(yàn)證本文所提模塊的有效性,在DMFNet網(wǎng)絡(luò)的基礎(chǔ)上分別使用特征對齊單元(FA),期望最大化注意力機(jī)制(EMA),對比不同網(wǎng)絡(luò)結(jié)構(gòu)下Dice 相似系數(shù)和Hausdorff95 距離,驗(yàn)證不同模塊對分割結(jié)果的有效性,結(jié)果如表3 所示。
表3 DAFANet 模型的消融實(shí)驗(yàn)Tab.3 Ablation experiment of DAFANet model
表中的“up”和“down”分別表示在特征對齊路徑和跳躍連接路徑使用EMA,“2EMA”表示在兩條路徑同時(shí)使用EMA。結(jié)果表明,不同結(jié)構(gòu)下的Dice 相似系數(shù)較基礎(chǔ)網(wǎng)絡(luò)都有不同程度的提升,本文提出的DAFANet 模型Dice 相似系數(shù)達(dá)到了78.11%,90.10%,82.21%,對比原網(wǎng)絡(luò)分別提升了1.43%,1.63%,2.02%。Hausdorff95 距離在ET 和WT 區(qū)域均有減少,但在TC 區(qū)域略有增加;引入EMA 之后的效果更佳,尤其是在ET 和TC 區(qū)域的分割,對跳躍連接和特征對齊引導(dǎo)路徑同時(shí)使用EMA 的綜合效果優(yōu)于單獨(dú)使用EMA。為進(jìn)一步驗(yàn)證EMA 位置對模型整體的影響,分別在網(wǎng)絡(luò)第一層、第二層和第三層使用EMA,驗(yàn)證其位置對分割精度和模型參數(shù)的影響,結(jié)果如表4 所示。由表4 可以看出,在第三層使用EMA 的分割效果優(yōu)于在其他位置的分割值,同時(shí)計(jì)算量低于其他位置,此時(shí)模型的整體性能達(dá)到最優(yōu)。
表4 EMA 位置的消融實(shí)驗(yàn)Tab.4 Ablation experiment of EMA position
基集的初始值會影響EMA 收斂到全局最大值的進(jìn)程,在迭代過程中尤為重要。為更好地發(fā)揮算法性能,本文針對k的取值做如表5 所示的對比實(shí)驗(yàn),驗(yàn)證k 取不同數(shù)值的分割效果,Dice 系數(shù)的顯式對比如圖6 所示。結(jié)果表明,分割效果隨k的取值表現(xiàn)出明顯的差異性,k=16和k=64優(yōu)于k=32 的分割效果,特別地,當(dāng)k=64 時(shí),在TC 區(qū)域的分割精度值較k=32 增加了2%,能夠?qū)崿F(xiàn)整體效果最佳。
表5 超參數(shù)k 的對比實(shí)驗(yàn)Tab.5 Comparative experiment of superparameter k
圖6 k 取不同值的對比圖Fig.6 Comparison chart of different values of k
本文的DAFANet 模型與3D UNet、注意力UNet、DMFNet 等經(jīng)典腦腫瘤分割模型的性能指標(biāo)對比結(jié)果如表6 所示,從表中可知DAFANet網(wǎng)絡(luò)的整體分割效果優(yōu)于其他六個(gè)模型,Dice 分割精度有不同程度提高,Hausdorff95 距離也有不同程度減少。在參數(shù)量和計(jì)算量(每秒浮點(diǎn)運(yùn)算次數(shù))上,DAFANet 的整體參數(shù)量為4.23 M,比原網(wǎng)絡(luò)和3D ESPNet 略有增加,遠(yuǎn)小于注意力UNet 和TransBTS,約為注意力UNet 和Trans-BTS 參數(shù)的1/8,約為3DUNet 參數(shù)的1/3,較HDCNet 增加了3.94 M;在計(jì)算量上,約為TransBTS 的1/11,約為3D UNet 的1/6,約為注意力UNet 和3D ESPNet 的1/2。相較于HDCNet,DMFNet 和3D ESPNet,DAFANet能夠在較少增加計(jì)算量或者參數(shù)量的基礎(chǔ)上,分割精度得到有效提升。
表6 與經(jīng)典模型的分割結(jié)果對比Tab.6 Comparison of segmentation results with classical models
為更好地顯示數(shù)據(jù)分散性,對DAFANet 和DMFNet 的Dice 相似系數(shù)做箱線圖比較。圖7中最上方和最下方的線段分別代表最大值和最小值,箱體自上而下分別代表第三四分位數(shù)、中位數(shù)和第一四分位數(shù)。由圖7 可知DAFANet 整體數(shù)據(jù)的平均水平較高,在ET 和TC 區(qū)域的Dice 相似系數(shù)穩(wěn)定性高于DMFNet,離散數(shù)據(jù)值更接近第一四分位數(shù)值。綜合而言,DAFANet相對于DMFNet 能夠在保持分割穩(wěn)定性的同時(shí)擁有更好的分割效果。
圖7 DAFANet 和DMFNet 的箱線圖對比Fig.7 Comparison of box diagram between DAFANet and DMFNet
為驗(yàn)證該模型在其他數(shù)據(jù)集上的效果,基于BraTS2018 驗(yàn)證集開展進(jìn)一步實(shí)驗(yàn),在三個(gè)區(qū)域最終的Dice 分割精度分別達(dá)到80.44%,90.07%,84.57%,對應(yīng)的Hausdorff95 距離分別達(dá)到2.75 mm,4.70 mm,5.49 mm。將兩個(gè)數(shù)據(jù)集的分割結(jié)果和當(dāng)前流行方法進(jìn)行比較,結(jié)果如表7 所示。本文所提算法在兩個(gè)數(shù)據(jù)集ET 區(qū)域的分割幾乎都可以獲得可觀的Dice 精度,側(cè)面驗(yàn)證了算法對細(xì)小區(qū)域分割的有效性。相對最新的Liu等[29]和Chang等[30]的 模型,DAFANet 的結(jié)果雖然在TC或者WT的分割值略低,但在其他區(qū)域都有不同程度的提升,進(jìn)一步說明在獲取細(xì)節(jié)和邊緣輪廓信息上有一定的可行性。綜合對比,本文的綜合效果更佳。
表7 不同數(shù)據(jù)集下的Dice 系數(shù)和Hausdorff95 距離同其他模型的結(jié)果對比Tab.7 Comparison of Dice coefficient and Hausdorff95 distance with other models under different datasets
為更直觀地顯示分割效果,對部分分割結(jié)果進(jìn)行可視化,如圖8 所示(彩圖見期刊電子版)。本文DAFANet 網(wǎng)絡(luò)相比其他網(wǎng)絡(luò)更接近真實(shí)值,能顯著減少分類錯(cuò)誤。DMFNet、注意力UNet 和UNet 的分割結(jié)果圖比較光滑,但是丟失了許多細(xì)節(jié)信息,導(dǎo)致輪廓分割模糊。3D ESPNet 雖然對小目標(biāo)區(qū)域有一定優(yōu)勢,但在分割子區(qū)域的重疊部分會產(chǎn)生較多錯(cuò)誤分類,HDCNet 和TransBTS 的分割效果雖然優(yōu)于其他網(wǎng)絡(luò),但是在處理小目標(biāo)區(qū)域以及核心區(qū)域細(xì)節(jié)部分上仍有不足。DAFANet相對于其他網(wǎng)絡(luò),對腫瘤的小目標(biāo)區(qū)域識別更加細(xì)膩,輪廓分割也更加準(zhǔn)確,尤其是在紅色ET 區(qū)域的分割效果,優(yōu)于其他網(wǎng)絡(luò)。
圖8 分割結(jié)果的可視化對比Fig.8 Visual comparison of segmentation result
為了獲取更加豐富的細(xì)節(jié)信息,降低臨床操作中因邊緣模糊導(dǎo)致的分割失誤,本文通過對語義信息流概念的深入分析,設(shè)計(jì)了能夠減少因多次采樣造成信息損失的特征對齊引導(dǎo)單元,在探索特征對齊單元可行性的基礎(chǔ)上,提出了一種輕量級融合注意力的特征對齊引導(dǎo)網(wǎng)絡(luò)DAFANet。首先使用特征對齊單元緩解因網(wǎng)絡(luò)層次加深造成的信息退化,減少了網(wǎng)絡(luò)上采樣過程中的信息損失,使得模型本身能夠兼顧特征的深度獲取和細(xì)節(jié)保留;其次,在跳躍連接和特征對齊路徑中融入3D 期望最大化注意力機(jī)制,既能獲取全局依賴關(guān)系,又能降低輸入噪聲。最后,利用廣義Dice 損失函數(shù)降低類別不均衡對分割精度的影響。實(shí)驗(yàn)結(jié)果顯示,本文所提方法在BraTS2018 和BraTS2019 數(shù)據(jù)集的平均分割精度達(dá)到了85.03%,83.47%,表明DAFANet 模型具有一定的優(yōu)越性和較高的臨床價(jià)值,能夠更好地幫助醫(yī)生診斷病情。而特征對齊單元作為一種即用即改的模塊,目前主要在U 型網(wǎng)絡(luò)進(jìn)行測試,未來會嘗試將其應(yīng)用到其他網(wǎng)絡(luò)架構(gòu)和其他醫(yī)學(xué)圖像數(shù)據(jù)集。