姜璐璐,李思聰,曹加旺,孫司琦,馮 瑞,,鄒海東,4
1(復(fù)旦大學(xué) 工程與應(yīng)用技術(shù)研究院,上海 200433)
2(上海交通大學(xué)附屬第一人民醫(yī)院,上海 200080)
3(復(fù)旦大學(xué) 計算機科學(xué)技術(shù)學(xué)院,上海 200433)
4(蘇州市產(chǎn)業(yè)技術(shù)研究院,蘇州 215011)
血管系統(tǒng)是視網(wǎng)膜的基本結(jié)構(gòu),其形態(tài)學(xué)和拓?fù)浣Y(jié)構(gòu)的變化可以用來識別和分類系統(tǒng)性代謝和血液疾病的嚴(yán)重程度,例如糖尿病和高血壓[1].糖尿病性視網(wǎng)膜病變 (DR)是糖尿病的一種常見并發(fā)癥,是由視網(wǎng)膜微血管滲漏和阻塞導(dǎo)致的一系列眼底病變.DR 可引起新血管的生長,是否有異常新生血管也是判斷增殖性DR 與非增殖性DR 的標(biāo)準(zhǔn)[2].高血壓視網(wǎng)膜病變 (HR)是另一種常見的由高血壓引起的視網(wǎng)膜疾病[3].在高血壓患者中,可以觀察到血管彎曲度增加或血管狹窄[4].通過視網(wǎng)膜血管獲得的血管形狀和分叉的信息,可以增強對DR 或者HR 的監(jiān)測.因此,分割視網(wǎng)膜血管對于一些嚴(yán)重疾病的早期診斷與治療具有重要意義.
現(xiàn)有的眼底視網(wǎng)膜成像技術(shù)有以下幾類: 彩色眼底照相 (FP)技術(shù)、眼底熒光素血管造影 (FFA)、光學(xué)相干斷層掃描 (OCT)以及眼底相干光層析血管成像(OCTA).彩色眼底照相是最常用的視網(wǎng)膜成像技術(shù),其優(yōu)點是獲取方式簡單、圖像易于觀察.
傳統(tǒng)的無監(jiān)督方法一般包括: 濾波匹配法、區(qū)域生長、血管跟蹤、閾值分割和圖像形態(tài)學(xué)處理等.這些傳統(tǒng)的無監(jiān)督方法不需要人工標(biāo)注,但這些方法依賴于手工提取特征進行血管表示與分割.此外,此類算法存在分割精度不夠、泛化性較差等局限性.
與傳統(tǒng)的無監(jiān)督方法相比,深度卷積神經(jīng)網(wǎng)絡(luò)方法具有更強大的特征表征和學(xué)習(xí)能力,在醫(yī)學(xué)圖像分割任務(wù)中取得了最高水平[5].自2015年引入U-Net[6]以來,它已成為醫(yī)學(xué)影像分割中最具影響力的深度學(xué)習(xí)框架[7-10].其整體網(wǎng)絡(luò)采用編碼器-解碼器的結(jié)構(gòu),通過“跳躍連接”將不同分辨率的特征圖進行通道融合產(chǎn)生較好的分割效果.盡管U-Net 具有良好的表示能力,但它依賴于多級級聯(lián)卷積神經(jīng)網(wǎng)絡(luò).這種方法在重復(fù)提取低層特征時會導(dǎo)致計算資源的過度和冗余使用[11].
注意力機制被提出用于解決以上問題,其模仿了人類視覺所特有的大腦信號處理機制,令網(wǎng)絡(luò)從大量信息中重點關(guān)注對任務(wù)結(jié)果更重要的區(qū)域,而抑制其他不重要的部分[12].在視網(wǎng)膜血管分割任務(wù)中,背景像素占比較大,而血管像素的占比小,因此可以采用注意力機制關(guān)注血管區(qū)域.卷積神經(jīng)網(wǎng)絡(luò)可以利用不同類型的注意力機制以關(guān)注重要的區(qū)域或者特征通道[13-18].例如,空間注意力機制[11,18]利用特征的空間關(guān)系生成空間注意力圖從而使網(wǎng)絡(luò)關(guān)注具有豐富信息的區(qū)域,通道注意力機制[13]通過顯式建模通道間的依賴關(guān)系來提高模型的性能.空間注意力和通道注意力的融合[15]也已成功地應(yīng)用于醫(yī)學(xué)分割領(lǐng)域.
然而,這些常用的方法是一階注意力機制,難以提取圖像中一些更為抽象的高階語義信息且不能充分利用到全圖像的信息,導(dǎo)致在處理形狀和結(jié)構(gòu)復(fù)雜的目標(biāo)時發(fā)生退化[19].尤其在視網(wǎng)膜血管分割任務(wù)中,由于血管形態(tài)結(jié)構(gòu)多變,以上方法仍欠缺對復(fù)雜和高階特征信息的捕獲能力.
本文提出了一種基于多尺度高階注意力機制的視網(wǎng)膜圖像分割方法(MHA-Net),可以明顯提高視網(wǎng)膜血管的分割精度.該方法采用改進的U-Net 結(jié)構(gòu),并引入多尺度高階注意力模塊,對編碼器提取到的深層特征進一步處理,聚焦于圖像的高階語義信息,從而改進模型處理醫(yī)學(xué)圖像分割時尺度不變的缺陷.經(jīng)過在DRIVE[20]數(shù)據(jù)集上的實驗證明,該方法有效地提高了分割的精度,同時對細(xì)小血管的分割也更為精細(xì).
空洞卷積(dilated convolution)[21,22]通過在卷積核相鄰兩個元素之間插入零值,在不增加參數(shù)量和計算成本的同時擴大了感受野.受空洞空間金字塔池化(ASPP)[23]在語義圖像分割中的應(yīng)用啟發(fā),空洞卷積在醫(yī)學(xué)圖像分割中同樣得到了廣泛的應(yīng)用[17,24].但是,基于空洞卷積的分割方法都存在一個共同問題,稀疏采樣會造成詳細(xì)信息的丟失,從而導(dǎo)致像素級分類不準(zhǔn)確.D-LinkNet[25]利用“短路連接(shortcut)”結(jié)合了文獻[21]的級聯(lián)模型與文獻[1]的并行模型.
之前的研究主要集中在通過增加在不同尺度特征圖上的感受野,從而直接提高分割網(wǎng)絡(luò)的性能.我們的工作與上述方法不同,我們利用空洞卷積對不同尺度的特征圖進行采樣,并通過聚合這些多尺度的特征圖產(chǎn)生高階注意力圖,從而進一步使網(wǎng)絡(luò)聚焦于更加抽象和全面的語義信息.
注意力機制的思想核心是通過計算權(quán)重矩陣而使網(wǎng)絡(luò)有選擇地關(guān)注具有重要信息的部分[12].Okty 等人[11]提出了用于醫(yī)療影像分割的注意力門控(attention gate,AG)模型,該模型可以自動學(xué)習(xí)區(qū)分目標(biāo)的外形和尺寸,在小目標(biāo)分割任務(wù)中效果尤其顯著.不同于在跳躍連接中添加注意力門控(AG)的方法,SA-UNet[14]引入了一個空間注意力模塊,通過在空間維度計算注意力權(quán)重矩陣并與輸入的特征圖相乘,實現(xiàn)自適應(yīng)地細(xì)化特征.該方法是注意力模塊在U 形分割網(wǎng)絡(luò)降采樣后的深層特征圖上的一種應(yīng)用.Chen 等[19]首先提出了高階注意力模型,并將其應(yīng)用于行人重識別建模.該模型利用注意機制中形成的復(fù)雜高階統(tǒng)計量,捕捉行人之間的細(xì)微差異,從而產(chǎn)生區(qū)別性的關(guān)注建議.Ding 等[26]利用圖的傳遞閉包進一步優(yōu)化高階注意力模塊,在此基礎(chǔ)上提出具有自適應(yīng)感受野和動態(tài)權(quán)重的high-order attention (HA)模塊.HA 模塊通過圖的傳遞閉包構(gòu)建注意力圖,從而捕獲高階的上下文相關(guān)信息.
之前的一些工作(如文獻[13])通過在U 型網(wǎng)絡(luò)的底部引入注意力機制來進一步挖掘深層次的特征.然而,這些網(wǎng)絡(luò)更多地關(guān)注了局部信息,而忽略深層特征中的全局信息.這導(dǎo)致盡管在提取深層特征時添加了幾種不同類型的注意力模塊,也不能有效地提高醫(yī)學(xué)圖像分割任務(wù)的性能.相反,模型的性能甚至?xí)杂邢陆?
本文的工作是在上述注意力機制[14,19,26]上的改進.在U 形網(wǎng)絡(luò)的多個降采樣塊之后所得的深層特征的噪聲相對較小,因此注意力模塊需要盡可能地挖掘深層特征中的全局信息.另一方面,與淺層特征相比,在深層特征中引入噪聲會對整個模型造成更大的損害.因此,本文設(shè)計了多尺度高階注意力(MHA)模塊,其在不引入噪聲的前提下引導(dǎo)網(wǎng)絡(luò)提取深層特征中的更為全局的信息,有效提高了視網(wǎng)膜血管中分割性能.
圖1 給出了基于多尺度高階注意力機制的視網(wǎng)膜圖像分割方法(MHA-Net)的網(wǎng)絡(luò)架構(gòu),其遵循了編碼器-解碼器的U 型結(jié)構(gòu).編碼器包含若干個下采樣塊和MHA 模塊,其中每個下采樣塊由1 個3×3 的卷積層、1 個批處理規(guī)范化層和一個ReLU 激活函數(shù)層組成,3 個下采樣塊連接在一起后緊跟一個2×2 的最大池化操作.在下采樣完成之后,將提取到的圖像深層次特征輸入到MHA 模塊進行細(xì)化,MHA 模塊的位置放置于網(wǎng)絡(luò)底部,即U 型收縮路徑和擴張路徑之間.在此處加入attention 模塊的原因是在靠前位置采集到的為低層次結(jié)構(gòu)信息,包含有許多噪聲.此外,加權(quán)的shortcut 被引入以保留原本的上下文信息.最后,經(jīng)過融合得到的特征圖通過編碼器產(chǎn)生最終的分割結(jié)果.解碼器部分使用反卷積[27]進行上采樣操作.
圖1 MHA-Net 架構(gòu)圖
本文提出的多尺度高階注意力模塊如圖2 所示.在編碼器的底部,原始的特征圖Xin∈RH×W×C通過并行的共享權(quán)重的空洞卷積(膨脹率r分別為1,2,4,8),產(chǎn)生新的多尺度特征圖分為為Xr(r=1,2,4,8),通過1×1 卷積得到的特征圖為X*.將這些多尺度特征圖使用式(1)計算得到融合的多尺度注意力矩陣:
圖2 多尺度高階注意力(MHA)模塊
其中,1/C是用來控制數(shù)值爆炸的縮放因子.之后,利用圖的傳遞閉包計算了多尺度高階注意力矩陣A,m∈{1,2,···,n}.具體計算的細(xì)節(jié)將在第3.3 節(jié)討論.最后,將特征圖X*與歸一化的高階注意力矩陣相乘得到細(xì)化的特征圖Xm,如式(2):
Γθ代表1×1 卷積.在多尺度高階注意力模塊之后,將細(xì)化后的特征圖Xm乘上自適應(yīng)因子 α以抵消縮放因子1/C的偏移影響,如式(3):
深層特征圖在通過多尺度高階注意力模塊之后,提取了更加高階抽象的語義特征,也更具有區(qū)分力,從而更聚焦于血管的分割.之后,再通過解碼器模塊,逐漸從低分辨率重構(gòu)至高分辨率.
根據(jù)文獻[26],最初的多尺度注意力融合矩陣可以看做圖的鄰接矩陣,圖中的邊表示連接的兩個節(jié)點屬于同一類.如圖3 所示,給定注意力圖,通過閾值化刪去低置信度的邊后形成下采樣的圖如式(4):
圖3 三階高階注意力傳播原理圖: 以黃色點為中心點通過圖的傳遞閉包進行傳播
其中,δ代表閾值,設(shè)置為0.5.如圖4 所示,根據(jù)圖的傳遞閉包,可以通過鄰接矩陣自乘m-1 次得到:
其中,m表示鄰接矩陣冪次的整數(shù),代表注意力傳播的階數(shù).因此,不同層次的注意力信息通過解耦成不同的注意圖并得到高度相關(guān)的鄰居.生成的高階注意圖用于聚合多層次的上下文信息.
本文使用的數(shù)據(jù)集是DRIVE (digital retinal image for vessel extraction)[20].該數(shù)據(jù)集包含40 張圖像像素尺寸為584×565 的彩色眼底圖像,其中訓(xùn)練集與測試集各20 張.為擴充數(shù)據(jù),避免訓(xùn)練樣本過少可能造成的過擬合問題,我們對訓(xùn)練樣本隨機采樣256×256 的patch.此外,使用隨機翻轉(zhuǎn)、隨機旋轉(zhuǎn)、彈性形變等方法進行數(shù)據(jù)增強.本文使用PyTorch 框架[28],批量設(shè)置為 16,采用Adam 算法[29]優(yōu)化模型,學(xué)習(xí)率設(shè)置為0.000 1.動量和權(quán)重衰減因子分別設(shè)置為0.9 和0.999.
為了對實驗結(jié)果進行客觀的定量分析,選取以下指標(biāo)進行計算: Dice 系數(shù)(DSC)、準(zhǔn)確率(ACC)、敏感度(SE)、特異性(SP)和ROC 曲線下面積AUC.AUC 的范圍在0-1 之間,AUC 越逼近 1,其模型預(yù)測能力越高.評價指標(biāo)的計算方式如下:
其中,X代表金標(biāo)準(zhǔn),Y代表預(yù)測結(jié)果.真陽性TP為正確分類的血管像素個數(shù),真陰性TN正確分類的背景點像素個數(shù),假陽性FP為背景像素誤分成血管像素的個數(shù),假陰性FN為血管像素誤分成背景像素的個數(shù).
本文算法性能在DRIVE 數(shù)據(jù)集上評估,圖4 展示了部分分割結(jié)果.圖4(a)為原始圖像,圖4(b)為金標(biāo)準(zhǔn)圖像,圖4(c)為本文算法的分割結(jié)果,從結(jié)果可以看出,本文算法整體分割效果良好,平滑度也優(yōu)于金標(biāo)準(zhǔn).同時,本文算法細(xì)節(jié)上表現(xiàn)優(yōu)秀,保持了微血管的連通性,說明本文中采取的注意力機制能夠關(guān)注到重要的血管區(qū)域.
圖4 DRIVE 數(shù)據(jù)集分割結(jié)果
為了驗證本文所提出的模型性能的優(yōu)越性,表1將本文算法與近兩年最先進的血管分割算法的各項指標(biāo)進行對比,其中加粗字體部分為每項最優(yōu)指標(biāo).
表1 DRIVE 數(shù)據(jù)集上不同算法分割性能比較
結(jié)果表明,本文提出的多尺度高階注意力方法MHA-Net 取得了優(yōu)異的表現(xiàn),其Dice 系數(shù)、靈敏度和AUC 分別達到了0.826 6、0.831 2 和0.988 3,在所有方法中表現(xiàn)最優(yōu).本文算法在保證高準(zhǔn)確率的同時,有著良好的敏感度,這意味著分割結(jié)果盡可能地保留血管信息,分割得到的血管連續(xù)完整.綜上所述,本文算法整體性能優(yōu)于現(xiàn)有算法.
為了證明提出的多尺度高階注意力(MHA)模塊的有效性,在DRIVE 數(shù)據(jù)集上還進行了消融實驗.表2展示了U-Net、U-Net+MHA、Backbone、Backbone+HA 以及MHA-Net 的分割性能.其中U-Net+MHA 表示在U-Net 基礎(chǔ)上引入MHA 模塊的網(wǎng)絡(luò),Backbone表示在本文使用的骨干網(wǎng)絡(luò),Backbone+HA 表示與本文相同的骨干網(wǎng)絡(luò)上引入原始的高階注意力HA 模塊,MHA-Net 為本文算法,相當(dāng)于Backbone+MHA,即在本文使用的骨干網(wǎng)絡(luò)上引入多尺度高階注意力MHA 模塊.
表2 DRIVE 數(shù)據(jù)集上的消融實驗
結(jié)果表明: (1)U-Net+MHA 比U-Net 有更好的性能,準(zhǔn)確率提高0.07%,敏感度提高1.56%,AUC 提高0.20%,這證明了本文提出的多尺度高階注意(MHA)模塊的有效性.(2)MHA-Net 在準(zhǔn)確率、靈敏度和AUC 指標(biāo)上都優(yōu)于Backbone+HA,這表明多尺度高階注意力模塊對多尺度上下文特征信息捕捉能力更強,對復(fù)雜結(jié)構(gòu)的血管圖像有更強的特征提取能力.(3)本文提出的MHA-Net 在大多數(shù)指標(biāo)上都表現(xiàn)最好,在視網(wǎng)膜血管分割領(lǐng)域全面優(yōu)于U-Net,說明該網(wǎng)絡(luò)模型的合理性和優(yōu)越性.
此外,對實驗結(jié)果進行了可視化分析,如圖5 所示,從左至右依次是原始圖、金標(biāo)準(zhǔn)、U-Net 分割結(jié)果、Backbone+HA 分割結(jié)果以及MHA-Net (本文)分割結(jié)果.我們放大了微血管,本文提出的MHA-Net 分割結(jié)果更加精細(xì),在血管末也未出現(xiàn)粘連或者斷裂的情況.
圖5 DRIVE 數(shù)據(jù)集分割結(jié)果對比
本文針對視網(wǎng)膜血管分割任務(wù)中血管粗細(xì)不勻、形狀多變、微小血管易斷裂等問題,本文提出多尺度高階注意力(MHA)機制以自適應(yīng)地挖掘深層次特征.MHA-Net 以端到端方式進行視網(wǎng)膜血管分割訓(xùn)練,并通過MHA 模塊學(xué)習(xí)到具有鑒別性的特征.在DRIVE上的實驗表明,本文提出的算法取得了優(yōu)越的分割性能.同時,MHA 模塊可以即插即用,在各種醫(yī)學(xué)影像分割任務(wù)中適用.后續(xù)的工作將嘗試把多尺度高階注意力機制運用到三維的影像分割中.