楊知橋,張 瑩,2+,王新杰,張東波,2,王 玉
1.湘潭大學(xué) 自動化與電子信息學(xué)院,湖南 湘潭411105
2.機(jī)器人視覺感知與控制技術(shù)國家工程實驗室,長沙410082
糖尿病性視網(wǎng)膜病變是全世界適齡工作人群最主要的致盲眼病之一,隨著病情的不斷加深會引發(fā)許多并發(fā)癥。為了防止病情惡化和有效預(yù)防失明,對糖尿病性視網(wǎng)膜病變的早期診斷和及時治療是很有必要的。臨床上以是否出現(xiàn)視網(wǎng)膜新生血管為分界,將糖尿病性視網(wǎng)膜病變分為非增殖性糖尿病視網(wǎng)膜病變(non-proliferative diabetic retinopathy,NPDR)和增殖性糖尿病視網(wǎng)膜病變(proliferative diabetic retinopathy,PDR)5 個病變等級。主要病灶區(qū)為滲出物、出血點(diǎn)、微血管瘤等。
眼底視網(wǎng)膜血管的形狀、尺度、分叉、分支角度、延伸程度等結(jié)構(gòu)特征可以通過儀器直接觀察,醫(yī)生通過觀測血管形態(tài)以及滲出物、出血點(diǎn)等主要病變特征來判斷病變程度。目前主要通過經(jīng)驗豐富的眼科專家人工標(biāo)注的方式進(jìn)行視網(wǎng)膜血管以及病灶區(qū)的分割,分割過程費(fèi)時費(fèi)力且容易受到主觀因素的影響,無法達(dá)到短時高效的效果。因此,采用計算機(jī)輔助醫(yī)療對眼底視網(wǎng)膜血管以及病灶區(qū)進(jìn)行自動分割具有重要的臨床醫(yī)學(xué)意義。
深度學(xué)習(xí)方法已廣泛應(yīng)用于醫(yī)學(xué)圖像分割領(lǐng)域。U-Net 網(wǎng)絡(luò)憑借其出色的實用性表現(xiàn)以及在少量數(shù)據(jù)中的學(xué)習(xí)能力,在近幾年的醫(yī)學(xué)圖像分割領(lǐng)域得到了廣泛應(yīng)用。鐘思華等人在U-Net 網(wǎng)絡(luò)的卷積層間加入密集連接融合網(wǎng)絡(luò)上下層特征信息,在肺結(jié)節(jié)分割上取得良好的分割結(jié)果。錢寶鑫等人基于U-Net 網(wǎng)絡(luò),結(jié)合多尺度輸入、空洞空間金字塔池化和注意力機(jī)制,提高了肺分割性能。CE-Net 網(wǎng)絡(luò)以U-Net 網(wǎng)絡(luò)為基礎(chǔ),提出了上下文特征提取模塊,在眼底視網(wǎng)膜血管和視盤分割中,取得了較好的效果。Pang 等人基于CE-Net 網(wǎng)絡(luò),將上下文特征編碼模塊加入到各尺度跳躍連接,獲取不同尺度的上下文信息,從而提高肝臟腫瘤的分割性能。Wang等人將三維卷積輸入層與CE-Net網(wǎng)絡(luò)相結(jié)合,解決帶有時序信息的冠狀動脈分割問題。針對眼底視網(wǎng)膜血管以及病灶區(qū)分割,相關(guān)分割對象很細(xì)小的特點(diǎn),提出一種混合注意力機(jī)制(hybrid attention mechanism,HAM),讓網(wǎng)絡(luò)更加關(guān)注于貢獻(xiàn)大的特征,減小噪聲對細(xì)微血管以及細(xì)小病灶區(qū)特征的影響,提高分割效果。針對CE-Net 編碼階段所生成的高級別特征圖,稠密空洞卷積模塊(dense atrous convolution,DAC)獲取高級別的上下文特征的感受野不夠豐富,殘差多尺度池化模塊(residual multi-kernel pooling,RMP)的最大池化操作會損失部分特征信息的不足,提出采取豐富感受野以及平均池化的方法進(jìn)行改進(jìn)。
改進(jìn)U型網(wǎng)絡(luò)以CE-Net為骨干網(wǎng)絡(luò)(Backbone),由混合注意力特征編碼模塊、上下文提取編碼模塊和特征解碼模塊三部分組成,如圖1 所示?;旌献⒁饬μ卣骶幋a模塊由4 個特征編碼塊和4 個混合注意力機(jī)制模塊組成,每個編碼塊采用殘差網(wǎng)絡(luò)(ResNet)塊作為主干。在特征編碼塊進(jìn)行特征提取之后,通過混合注意力機(jī)制模塊進(jìn)行特征加權(quán),將加權(quán)后的特征圖送入最大池化層以增加感受野,從而更好地提取全局特征。然后,將混合注意力特征編碼模塊所提取的高級別特征輸入到所改進(jìn)的上下文提取編碼模塊中,以獲取并整合豐富的上下文信息,最后利用特征解碼模塊恢復(fù)高級別語義特征的尺寸,輸出與原始輸入尺寸相同的分割結(jié)果。特征解碼模塊采用逐層向上恢復(fù)高級語義特征圖的尺寸的方式,每一層都采用跳躍連接,將編碼器中經(jīng)過混合注意力機(jī)制模塊產(chǎn)生的特征圖加入解碼模塊,為解碼模塊提供帶有權(quán)重的特征信息。每一層的解碼塊以ResNet 殘差塊作為主干,由一個1×1 卷積、3×3 反卷積和1×1卷積構(gòu)成,通過參數(shù)反傳來自動學(xué)習(xí)參數(shù),從而能夠更好地恢復(fù)特征表示。通過特征解碼器,網(wǎng)絡(luò)能在最后恢復(fù)到與輸入圖像相同尺寸的預(yù)測圖。
圖1 改進(jìn)U 型網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Improved U-shaped network structure diagram
上下文提取編碼模塊由稠密空洞卷積模塊(DAC)和殘差多尺度池化模塊(RMP)組成,通過提取上下文語義信息獲得高級別特征圖,提高醫(yī)學(xué)圖像分割性能。
CE-Net 的稠密空洞卷積模塊通過四個級聯(lián)空洞卷積分支來捕獲多尺度的語義特征,四個級聯(lián)空洞卷積分支的感受野分別為3、7、9、19。相對于14×14的輸入特征圖來說,其在小尺度感受野比較豐富,能有效獲取局部上下文信息,但是視網(wǎng)膜血管、出血點(diǎn)病灶區(qū)通常分布于整張眼底視網(wǎng)膜圖像,該模塊對此類特征的上下文信息提取有限,會漏掉很多特征信息,因此需要豐富大尺度感受野,以獲取更全面的上下文特征信息。連續(xù)的空洞卷積能夠擴(kuò)大感受野,獲取更豐富的特征信息。但是不恰當(dāng)?shù)呐蛎浡蔬x擇會產(chǎn)生“網(wǎng)格化”現(xiàn)象,丟失掉大部分的信息,如圖2(a)所示。為了克服“網(wǎng)格化”現(xiàn)象,覆蓋更豐富的特征信息,采用“鋸齒化”的膨脹率設(shè)計,如圖2(b)所示,對于連續(xù)空洞卷積膨脹率設(shè)計為[,,…,r,…,r],需滿足式(1):
圖2 “網(wǎng)格化”現(xiàn)象示意圖Fig.2 “Grid”phenomenon schematic
式中,M=r。
改進(jìn)后的稠密空洞卷積模塊結(jié)構(gòu)圖如圖3 所示,感受野分別為3、7、9、13、17、19,增加的13、17 大尺度感受野能獲取更全面的上下文特征信息。
圖3 改進(jìn)稠密空洞卷積模塊Fig.3 Improved dense atrous convolution module
CE-Net 的殘差多尺度池化模塊是基于空間金字塔池化,對從稠密空洞卷積模塊獲取的上下文特征信息進(jìn)行多尺度的特征整合編碼。由于高級特征圖的所有特征信息是特征編碼網(wǎng)絡(luò)所提取出來的信息,最大池化無法充分利用全局的語義信息,會造成一定程度的信息損失。本文提出運(yùn)用多尺度最大池化和平均池化相結(jié)合的方式,小尺度采取最大池化(2×2、3×3),大尺度采取平均池化(5×5、6×6),以編碼更豐富的上下文特征信息,結(jié)構(gòu)如圖4 所示。
圖4 改進(jìn)殘差多尺度池化模塊Fig.4 Improved residual multi-kernel pooling module
為減少噪聲的干擾,使網(wǎng)絡(luò)能更加關(guān)注于眼底視網(wǎng)膜微小血管以及病灶區(qū)特征,本文提出在特征編碼模塊加入混合注意力機(jī)制(HAM),有利于對輸入特征圖的特征信息進(jìn)行充分加權(quán),從而全面突出有效特征對網(wǎng)絡(luò)的貢獻(xiàn)?;旌献⒁饬C(jī)制模塊結(jié)構(gòu)如圖5所示,由通道注意力和空間注意力組成。對于輸入特征圖∈R,經(jīng)過HAM模塊后生成通道注意力權(quán)重∈R和空間注意力權(quán)重∈R。輸出特征圖的計算過程由式(2)和式(3)所示:
圖5 混合注意力機(jī)制模塊Fig.5 Hybrid attention mechanism module
式中,?表示逐元素相乘。
通道注意力機(jī)制模塊首先采用最大池化和全局平均池化來整合不同的空間特征信息,最大池化保留了紋理特征,全局平均池化保留了整體的數(shù)據(jù)特征,再通過兩層全連接層生成通道注意力權(quán)重,然后對兩種權(quán)重進(jìn)行融合以及歸一化,從而生成最終的注意力權(quán)重。通道注意力機(jī)制結(jié)構(gòu)如圖6 所示。
圖6 通道注意力機(jī)制Fig.6 Channel attention mechanism
對于輸入特征圖∈R,分別通過最大池化和全局平均池化操作來整合空間特征信息,得到的兩種空間上下文描述分別表示為∈R和∈R。最終的注意力權(quán)重計算如式(4)所示:
空間注意力利用特征間的空間關(guān)系生成注意力權(quán)重主要側(cè)重于信息部分。本文采用文獻(xiàn)[14]提出的方法,在通道方向上分別采用最大池化和平均池化來整合通道信息,以有效地突出空間信息區(qū)域,再將兩種特征信息拼接后通過卷積層生成最后的空間注意力權(quán)重。結(jié)構(gòu)如圖7 所示。
圖7 空間注意力機(jī)制Fig.7 Spatial attention mechanism
對于經(jīng)過通道注意力生成的帶有通道注意力權(quán)重的特征圖′∈R,在其通道上分別運(yùn)用最大池化和平均池化操作后分別生成兩種二維特征信息圖,表示為∈R和∈R,再拼接起來進(jìn)行卷積操作以生成空間注意力權(quán)重。計算公式如式(5)所示:
式中,表示Sigmoid 函數(shù),表示卷積核大小為7×7 的卷積操作。
本文訓(xùn)練和測試的平臺是Ubuntu 16.04 系統(tǒng),配有Nvidia GeForce Titan RTX 顯卡,內(nèi)存為24 GB。改進(jìn)U 型網(wǎng)絡(luò)編碼階段采用基于ImageNet 上預(yù)訓(xùn)練的ResNet,采用PyTorch 深度學(xué)習(xí)框架進(jìn)行實驗。在訓(xùn)練過程中,采用了批量大小為8、動量為0.9、權(quán)重衰減為0.000 1 的隨機(jī)梯度下降(stochastic gradient descent,SGD)進(jìn)行優(yōu)化,初始學(xué)習(xí)率設(shè)置為0.001,并對學(xué)習(xí)率采取poly 學(xué)習(xí)率策略。
為防止過擬合,對樣本數(shù)據(jù)集使用數(shù)據(jù)增強(qiáng)策略。在訓(xùn)練階段,對每張圖像進(jìn)行水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和對角翻轉(zhuǎn),每張圖像被擴(kuò)充為8 張圖像。在測試階段,也對每張圖像進(jìn)行水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和對角翻轉(zhuǎn),取其平均值作為最終的預(yù)測圖。
本文采取的定量指標(biāo)分別為準(zhǔn)確率(AC)、靈敏度(SE)、特異性(SP)和AUC 值。準(zhǔn)確率(AC)為所有正確分割的像素點(diǎn)占總像素點(diǎn)的比例,靈敏度(SE)為正確分割的血管點(diǎn)或病灶點(diǎn)占總血管點(diǎn)或病灶點(diǎn)的比例,特異性(SP)為正確分割的背景點(diǎn)占總背景點(diǎn)的比例,計算如式(6)~式(8)所示:
式中,,真陽性,分割正確的血管點(diǎn)或病灶點(diǎn);,假陽性,非血管點(diǎn)或病灶點(diǎn)被錯誤分割為血管點(diǎn)或病灶點(diǎn);,真陰性,分割正確的背景點(diǎn);,假陰性,被錯誤分割為背景點(diǎn)。
眼底視網(wǎng)膜血管分割實驗所采用的數(shù)據(jù)集為DRIVE 數(shù)據(jù)集,由40 張彩色眼底視網(wǎng)膜圖像組成,分辨率為565×584,每一張圖像都有兩位專家人工標(biāo)注的像素級標(biāo)簽,并提供了對應(yīng)的掩膜。官方將其均勻地分為20 張訓(xùn)練集和20 張測試集。
改進(jìn)U 型分割網(wǎng)絡(luò)的眼底視網(wǎng)膜血管分割結(jié)果如圖8 所示。從左到右依次為原始眼底圖像、U-Net網(wǎng)絡(luò)分割結(jié)果、CE-Net 網(wǎng)絡(luò)分割結(jié)果、本文方法分割結(jié)果和Ground-Truth 結(jié)果??梢钥吹奖疚姆椒▽?xì)微且形態(tài)復(fù)雜的血管的分割效果更好,包括對于細(xì)微血管的分叉或者端點(diǎn)處都有著良好的分割效果,較之前的方法有良好的提升效果,能夠更好地輔助醫(yī)生來進(jìn)行診斷及進(jìn)一步的觀測。
圖8 眼底視網(wǎng)膜血管分割結(jié)果Fig.8 Results of retinal blood vessel segmentation
定量的評價指標(biāo)結(jié)果如表1 所示。AUC 值為ROC 曲線下方與坐標(biāo)軸圍成的面積大小,值越大代表算法的準(zhǔn)確性越高,用來衡量算法診斷的準(zhǔn)確性。
表1 不同方法分割性能對比(眼底視網(wǎng)膜血管)Table 1 Comparison of segmentation performance of different methods(fundus retinal blood vessels)
由表1 可知,改進(jìn)U 型網(wǎng)絡(luò)分割效果最好。本文比較了在骨干網(wǎng)絡(luò)的基礎(chǔ)上對上下文提取編碼模塊中的稠密空洞卷積模塊(Backbone+New DAC)和殘差多尺度池化模塊(Backbone+New RMP)分別進(jìn)行改進(jìn)的分割效果,得知?dú)埐疃喑叨饶K改進(jìn)后效果提升更好,對于視網(wǎng)膜血管、出血點(diǎn)病灶區(qū)分布于整張眼底視網(wǎng)膜圖像的特征,能有效促進(jìn)網(wǎng)絡(luò)對高級別上下文特征信息的利用,從而提升網(wǎng)絡(luò)分割效果。在骨干網(wǎng)絡(luò)的基礎(chǔ)上本文對上下文提取編碼模塊進(jìn)行改進(jìn)后(Backbone+New DAC+New RMP),效果有進(jìn)一步的提升。由此可知,對于高級別的特征進(jìn)行更全面的整合利用對于網(wǎng)絡(luò)效果提升有很好的促進(jìn)作用,可以提高整體的分割效果,但是AUC 值提升不明顯,可知對細(xì)微血管分割的能力提升一般。在骨干網(wǎng)絡(luò)的基礎(chǔ)上,本文提出在特征編碼的各尺度階段加入混合注意力機(jī)制模塊(Backbone+HAM),AUC 值提升明顯,可知加入混合注意力機(jī)制模塊對有效特征信息的加權(quán),對細(xì)微血管特征信息的利用更充分,有助于網(wǎng)絡(luò)對血管和背景信息進(jìn)行區(qū)分。
糖尿病性視網(wǎng)膜病變病灶區(qū)分割實驗采用DIARETDB1 數(shù)據(jù)集,由89 張彩色醫(yī)學(xué)眼底圖像組成,分辨率為1 500×1 152,官方提供了滲出物、出血點(diǎn)等糖尿病性視網(wǎng)膜病變主要病灶區(qū)人工標(biāo)注的像素級標(biāo)簽。本文按照7∶3的比例分為訓(xùn)練集和測試集。
對DIARETDB1數(shù)據(jù)集進(jìn)行滲出物、出血點(diǎn)實驗,分割結(jié)果如圖9、圖10 所示。從左到右依次為原始眼底圖像、U-Net網(wǎng)絡(luò)、CE-Net網(wǎng)絡(luò)、本文方法和Ground-Truth 的分割結(jié)果??梢钥闯霰疚姆椒▽τ跐B出物、出血點(diǎn)等病灶區(qū)的分割效果較好,能夠準(zhǔn)確地分割出分布零散的病灶區(qū),并且邊界清晰,準(zhǔn)確性有較好的提升,在不同的光照條件下也能有效地分割出病灶區(qū),魯棒性良好,為醫(yī)生診斷提供了很好的輔助作用。
圖9 滲出物分割結(jié)果Fig.9 Exudate segmentation results
圖10 出血點(diǎn)分割結(jié)果Fig.10 Bleeding point segmentation results
糖尿病性視網(wǎng)膜病變病灶區(qū)分割的定量評價指標(biāo)如表2、表3 所示。
表3 不同方法分割性能對比(出血點(diǎn))Table 3 Comparison of segmentation performance of different methods(bleeding point)
由表2可知,針對邊界不明顯的滲出物病灶區(qū),本文提出對上下文提取編碼模塊進(jìn)行改進(jìn)(Backbone+New DAC+New RMP),分割效果有提升,說明對高級別特征的上下文之間的特征信息進(jìn)行整合利用,網(wǎng)絡(luò)能夠更好地提取病灶特征信息,有利于病灶區(qū)的邊界分割。在特征編碼階段加入混合注意力機(jī)制后(Backbone+HAM),算法分割準(zhǔn)確性、AUC 值都有所提升,說明帶權(quán)特征信息能夠很好地減小噪聲信息的影響,對此類病灶區(qū)分割效果起到良好的促進(jìn)作用。
表2 不同方法分割性能對比(滲出物)Table 2 Comparison of segmentation performance of different methods(exudate)
由表3 可知,改進(jìn)U 型網(wǎng)絡(luò)的上下文提取編碼模塊(Backbone+New DAC+New RMP)能夠?qū)α闵⒌某鲅c(diǎn)病灶區(qū)特征進(jìn)行整合,相互之間的特征信息交流讓網(wǎng)絡(luò)更好地提取出小而散的出血點(diǎn)病灶特征,從而提高分割效果。混合注意力機(jī)制(Backbone+HAM)有效地突出了病灶區(qū)特征對網(wǎng)絡(luò)的貢獻(xiàn),減小了噪聲與背景類的干擾,使得分布零散的出血點(diǎn)病灶區(qū)能夠更好地分割出來。
針對糖尿病性視網(wǎng)膜病變相關(guān)分割任務(wù),眼底視網(wǎng)膜血管以及病灶區(qū)特征分布廣泛而零散,需要獲取更豐富的高級別特征上下文信息以進(jìn)行更好的特征表征。本文通過改進(jìn)上下文提取編碼模塊,在網(wǎng)絡(luò)特征編碼模塊的不同維度加入所提出的混合注意力機(jī)制模塊,對視網(wǎng)膜血管以及病灶區(qū)特征加權(quán)以突出其對網(wǎng)絡(luò)的貢獻(xiàn),提高細(xì)微血管分叉、端點(diǎn)處以及細(xì)小而零散的病灶區(qū)的分割性能。實驗結(jié)果表明,改進(jìn)U 型網(wǎng)絡(luò)僅需要很少的附加參數(shù),計算量相較于骨干網(wǎng)絡(luò)僅增加2.03%,能有效區(qū)分前景與背景信息,提升細(xì)微血管的分叉、端點(diǎn)處以及病灶區(qū)的分割效果,分割性能更精確和更精細(xì),對醫(yī)生的輔助診斷有積極的促進(jìn)作用,對將來實現(xiàn)糖尿病的計算機(jī)輔助診斷有重要意義。