蔣 蕓,劉文歡,梁 菁
(西北師范大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,甘肅 蘭州 730070)
醫(yī)學(xué)圖像分割是發(fā)展醫(yī)療診斷和治療系統(tǒng)的重要前提之一。青光眼、糖尿病視網(wǎng)膜病變、老年性黃斑變性和眼底視網(wǎng)膜病變等均是眼科領(lǐng)域的常見(jiàn)疾病,其中糖尿病視網(wǎng)膜病變是致盲的主要誘因[1]。將患者眼底圖像的血管和背景像素準(zhǔn)確分割對(duì)眼部疾病的初步篩選、后續(xù)診斷和治療具有重要作用。視網(wǎng)膜血管又是血液循環(huán)系統(tǒng)中唯一可以直接和無(wú)創(chuàng)地觀察的深層微血管,其具有極其豐富的血管特征信息[2]。由此,研究人員常通過(guò)分割視網(wǎng)膜血管獲得視網(wǎng)膜血管的相關(guān)形態(tài)學(xué)信息。但是,觀察圖1所示的視網(wǎng)膜圖像發(fā)現(xiàn),圖1a中有視神經(jīng)、黃斑和血管等;圖1b視網(wǎng)膜上有出血和滲出物;圖1c的視盤(pán)和視杯中間的神經(jīng)視網(wǎng)膜邊緣帶比較窄;圖1d垂直杯直徑與垂直盤(pán)直徑的比值比較小??梢?jiàn),視網(wǎng)膜血管結(jié)構(gòu)相當(dāng)復(fù)雜,血管薄厚不一且血管之間連接緊密。此外,視網(wǎng)膜血管分割還受到眼底圖像低照明度、噪聲干擾及眼底圖像血管區(qū)域和背景之間的差異不突出等問(wèn)題的影響。隨著近年來(lái)深度學(xué)習(xí)的進(jìn)步,自動(dòng)分割技術(shù)逐漸成為視網(wǎng)膜血管分割的主流技術(shù),通過(guò)視網(wǎng)膜血管的自動(dòng)分割技術(shù)協(xié)助眼科醫(yī)生檢測(cè)眼部疾病對(duì)于眼科疾病的臨床診斷和治療具有相當(dāng)重要的意義。關(guān)于視網(wǎng)膜血管自動(dòng)分割的任務(wù)流程如圖2所示。
Figure 1 Retinal images圖1 視網(wǎng)膜圖像
Figure 2 Flow chart of retinal vascular segmentation圖2 視網(wǎng)膜血管分割流程圖
近年來(lái),已有大量的視網(wǎng)膜血管分割方法被提出,它們大致可分為無(wú)監(jiān)督方法和有監(jiān)督方法?,F(xiàn)有的無(wú)監(jiān)督方法主要包括靜脈跟蹤[3]、匹配濾波[4]、形態(tài)學(xué)特征[5]、多尺度分析[6]和基于模型的算法等。研究人員大多使用B-COSFIRE濾波器[7]、Gabor小波[8]和高斯濾波器[9]響應(yīng)進(jìn)行視網(wǎng)膜血管分割。然而,這些方法的實(shí)現(xiàn)需要研究人員仔細(xì)調(diào)整算法的超參數(shù),很大程度上限制了這些方法在臨床實(shí)踐中的便捷性。研究人員還提出了一些其它方法用于視網(wǎng)膜圖像的分割,比如區(qū)域增長(zhǎng)算法、最大熵期望最大化算法[10]和混合主動(dòng)輪廓模型[11]等,但對(duì)于精確分割視網(wǎng)膜血管,其效果還需進(jìn)一步改進(jìn)。
隨著近年來(lái)深度學(xué)習(xí)的進(jìn)步,基于深度卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)的方法已成功地打破傳統(tǒng)手工提取特征方法的瓶頸,特別是全卷積神經(jīng)網(wǎng)絡(luò)FCN(Fully Convolutional Network)[12]、U-Net[13]以及U-Net的變體。Alom等人[14]提出基于U-Net的遞歸卷積神經(jīng)網(wǎng)絡(luò)RCNN(Recurrent Convolutional Neural Network)以及基于U-Net的遞歸殘差卷積神經(jīng)網(wǎng)絡(luò)RRCNN(Recurrent Residual Convolutional Neural Network)模型實(shí)現(xiàn)視網(wǎng)膜血管分割、皮膚癌分割和肺部病變分割。Jin等人[15]提出了可變形的U-Net DUNet(Deformable U-Net),在網(wǎng)絡(luò)結(jié)構(gòu)中引入可變形卷積并且感受野根據(jù)血管的變化自適應(yīng)地調(diào)節(jié)。Wang等人[16]設(shè)計(jì)了3個(gè)解碼器組成的硬注意力網(wǎng)絡(luò)模型HANet(Hard Attention Net),1個(gè)解碼器旨在動(dòng)態(tài)分析圖像的“硬”和“易”區(qū)域,另外2個(gè)解碼器負(fù)責(zé)分割“硬”和“易”區(qū)域中的視網(wǎng)膜血管。Atli等人[17]提出先應(yīng)用上采樣捕獲薄型血管特征,再利用下采樣捕獲厚型血管特征的模型Sine-Net。Huang等人[2]提出了改進(jìn)的U-Net網(wǎng)絡(luò),由23個(gè)卷積層、4個(gè)池化層、4個(gè)上采樣層、2個(gè)dropout層及SE(Squeeze和Excitation)塊組成。
上述方法進(jìn)展都不錯(cuò),但基于FCN的U形網(wǎng)絡(luò)框架存在分辨率低的問(wèn)題。除此之外,由于眼底圖像的結(jié)構(gòu)復(fù)雜以及成像環(huán)境要求較高,圖像中存在不同規(guī)模的噪聲、不平衡的照明、低對(duì)比度和空間分辨率,大多數(shù)方法選擇采用CNN卷積核有限的感受野關(guān)注局部特征,以很好地彌補(bǔ)血管分割中精細(xì)的空間細(xì)節(jié)。設(shè)計(jì)用于序列到序列預(yù)測(cè)的Transformer[17]也緩解了這一局限性,其不僅對(duì)全局信息的提取能力很強(qiáng)大,且在大規(guī)模的預(yù)訓(xùn)練下對(duì)下游任務(wù)表現(xiàn)出了卓越的可轉(zhuǎn)移性[18]。Transformer的特性有利于U形架構(gòu)上采樣階段恢復(fù)圖像的全局特征[19],這大大提高了網(wǎng)絡(luò)捕獲眼底圖像局部細(xì)小血管和全局上下文特征的能力。綜上所述,本文提出了聯(lián)合注意力和Transformer的視網(wǎng)膜血管分割網(wǎng)絡(luò),稱(chēng)為JAT-Net(Joint Attention and Transformer Network)。本文的主要工作如下:
(1)提出JAT-Net用于視網(wǎng)膜血管自動(dòng)分割。JAT-Net通過(guò)跳過(guò)連接將編碼階段精細(xì)的高分辨率空間信息和底部Transformer編碼的全局上下文信息送至解碼階段,減少了網(wǎng)絡(luò)不同層間的特征冗余。
(2)在編碼階段,JAT-Net采用聯(lián)合注意力模塊增強(qiáng)編碼過(guò)程中感興趣的目標(biāo)表示,為緩解連續(xù)下采樣造成的位置信息損失,將特征的位置信息和通道信息進(jìn)行聯(lián)合關(guān)注,提高了網(wǎng)絡(luò)對(duì)血管特征的敏感度。
(3)JAT-Net通過(guò)Transformer將編碼器輸出的特征圖進(jìn)行序列化處理,以此緩解編碼階段和解碼階段在建模長(zhǎng)期依賴(lài)方面表現(xiàn)出的局限性,實(shí)現(xiàn)了更高的視網(wǎng)膜血管分割精度。
Figure 3 Structure of joint attention and Transformer network圖3 聯(lián)合注意力和Transformer的視網(wǎng)膜血管分割網(wǎng)絡(luò)
本文針對(duì)視網(wǎng)膜血管分割任務(wù)設(shè)計(jì)了一種聯(lián)合注意力和Transformer的視網(wǎng)膜血管分割網(wǎng)絡(luò)JAT-Net。首先,JAT-Net使用側(cè)輸入來(lái)構(gòu)建圖像金字塔,其融合了不同層次的圖像特征,提高了編碼器提取特征信息的能力。然后,將48×48,24×24,12×12,6×6和3×3像素的視網(wǎng)膜血管特征圖依次輸入到5個(gè)側(cè)輸入分支中,每個(gè)分支與上一分支的特征相加,逐步融合生成5個(gè)不同分辨率的特征圖。圖3是本文的JAT-Net架構(gòu),它主要包含編碼器路徑和解碼器路徑。在JAT-Net的底部加入Transformer用于提取特征圖的全局上下文信息。最后,經(jīng)過(guò)卷積操作和Softmax運(yùn)算得到視網(wǎng)膜血管分割結(jié)果。
在網(wǎng)絡(luò)結(jié)構(gòu)中引入恒等映射捷徑使深層網(wǎng)絡(luò)更容易優(yōu)化且不會(huì)產(chǎn)生更高的訓(xùn)練錯(cuò)誤率,甚至還能降低分割錯(cuò)誤率[20]。由此,在編碼階段利用恒等映射捷徑的思想將原始輸入特征圖與經(jīng)過(guò)2個(gè)串行3×3卷積、批規(guī)范化BN(Batch Normalization)層和ReLU激活的特征相加,然后將編碼器輸出的特征圖送至聯(lián)合注意力模塊,以更好地關(guān)注局部血管特征的細(xì)節(jié)。最后,對(duì)聯(lián)合注意力模塊輸出的特征圖進(jìn)行最大池化操作,并將池化后的特征送至下一層編碼器。
在解碼階段,為最大程度地還原眼底圖像的全局上下文信息,將JAT-Net底部Transformer的輸出特征圖作為解碼器的輸入。每個(gè)解碼階段使用步長(zhǎng)為2,卷積核為 2×2的反卷積恢復(fù)特征尺寸。與編碼器模塊一樣,解碼器模塊也是采用2個(gè)串行3×3卷積、批規(guī)范化和ReLU激活對(duì)特征信息進(jìn)行解碼。編碼器和解碼器的結(jié)構(gòu)如圖4所示。
Figure 4 Structure of encoder and decoder圖4 編碼器和解碼器結(jié)構(gòu)
為了提取到高質(zhì)量的血管特征,不僅要對(duì)特征圖的通道間信息進(jìn)行編碼,而且還不能忽略特征的位置信息。聯(lián)合注意力模塊受到SENet(Squeeze-and-Excitation Networks)[21]提出的SE模塊的啟發(fā),其聯(lián)合關(guān)注了特征圖通道和位置維度的特征信息。為了做到既捕獲特征的空間信息又保留位置信息,聯(lián)合注意力利用平均池化操作將輸入特征圖(維度為C×H×W)分別從垂直和水平方向構(gòu)建了2個(gè)新的位置特征圖(維度為C×H×1和C×1×W),具體操作如式(1)所示:
(1)
(2)
其中,c為通道,h為高度,w為寬度,xc代表輸入特征圖。然后,通過(guò)1×1的卷積和BN+ReLU層將拼接后的2個(gè)位置特征圖(維度為C′×1×(W+H))重新編碼生成2個(gè)像素注意力掩碼(維度為C×H×1和C×1×W),其過(guò)程如式(3)~式(5)所示:
F=σ(fBN(Conv1×1(fh,fw)))
(3)
Gh=σ(fBN(Conv1×1(Fh)))
(4)
Gw=σ(fBN(Conv1×1(Fw)))
(5)
Figure 5 Structure of the joint attention module圖5 聯(lián)合注意力模塊結(jié)構(gòu)
其中,F(xiàn)表示拼接后的特征圖,Gh表示水平方向特征圖,Gw表示垂直方向特征圖,σ代表ReLU激活函數(shù),fBN(·)表示批規(guī)范化操作,Conv1×1(·)表示1×1卷積。最后,將生成的注意力圖與輸入特征圖相加,再經(jīng)過(guò)1×1卷積、批規(guī)范化和ReLU,與輸入特征圖相乘,以進(jìn)一步增強(qiáng)特征圖的表示能力,具體實(shí)現(xiàn)如式(6)所示:
yc=σ(Conv1×1(xc+σ((fBN[Gh,Gw]))))×xc
(6)
其中,yc表示聯(lián)合注意力最終輸出,+表示像素逐元素相加,×表示像素逐元素相乘。聯(lián)合注意力模塊的結(jié)構(gòu)如圖5所示。在JAT-Net的編碼階段,將聯(lián)合注意力模塊的輸出作為下一層編碼器模塊的輸入。
由于U型架構(gòu)對(duì)提取全局信息存在局限性,因此本文在JAT-Net中引入Transformer,Transformer的結(jié)構(gòu)如圖6所示。具體來(lái)講,Transformer利用JAT-Net底層語(yǔ)義特征之間的全局相互作用,對(duì)特征圖所有位置的值進(jìn)行加權(quán)求和,由此編碼特征信息獲得整個(gè)特征圖的上下文信息,從而在JAT-Net解碼器中實(shí)現(xiàn)精細(xì)的空間恢復(fù)。
Figure 6 Structure of Transformer圖6 Transformer網(wǎng)絡(luò)結(jié)構(gòu)
首先,Transformer對(duì)輸入的圖像進(jìn)行圖像序列化處理,獲得切片x=[x1,x2,…,xN]∈RN×(P×P)×C,其中,切片的數(shù)量N=HW/P2,每個(gè)切片大小為P×P,C是通道數(shù)。然后,通過(guò)可訓(xùn)練線性映射將向量化的切片xN映射到潛在的D維嵌入空間,產(chǎn)生對(duì)應(yīng)的切片嵌入投影Epatch∈R(P×P×C)×D。通過(guò)編碼切片空間信息,學(xué)習(xí)特定的位置并保留位置信息,將切片的位置嵌入到Epos∈RN×D相加,輸出相應(yīng)像素級(jí)的標(biāo)簽特征圖,具體操作如式(7)所示:
z0=[x1Epatch,…,xNEpatch]+Epos
(7)
其中,z0表示第0層像素級(jí)的標(biāo)簽特征圖,Epatch為切片嵌入投影,Epos為位置嵌入投影。隨后,將嵌入切片輸入到由L層多頭自注意力MSA(Multi-headed Self-Attention)和多層感知機(jī)塊MLP(Multi Layer Perception)組成的Transformer模塊,在每個(gè)模塊之前應(yīng)用歸一化層,在每個(gè)模塊之后添加殘差連接。Transformer第l層的輸出計(jì)算如式(8)和式(9)所示:
z′l=MSA(LN(zl-1))+z
(8)
zl=MLP(LN(z′l))+z
(9)
其中,z′l是第l層MSA模塊切片的輸出,zl是第l層切片圖像的表示,MSA(·)表示多頭自注意力,LN(·)表示歸一化操作,MLP(·)表示多層感知機(jī)塊。為了防止過(guò)擬合,Transformer中的MSA模塊集成多個(gè)獨(dú)立的注意力機(jī)制,注意力函數(shù)由3個(gè)點(diǎn)對(duì)點(diǎn)(Q,K,V)的線性層組成,每個(gè)注意力機(jī)制函數(shù)只負(fù)責(zé)最終輸出序列中一個(gè)子空間,而且互相獨(dú)立。MSA表示如式(10)所示:
(10)
其中,WQ∈RN×d,WK∈RN×d,WV∈RN×d,d為輸出維度。最后,通過(guò)MLP對(duì)MSA的輸出進(jìn)行轉(zhuǎn)化,并通過(guò)殘差連接將MLP的輸出與輸入相加得到Transformer最終的輸出。
本節(jié)在用于血管提取的數(shù)字視網(wǎng)膜圖像數(shù)據(jù)集DRIVE[22]和CHASE(CHASE_DB1)[23]眼底數(shù)據(jù)集上驗(yàn)證本文所提方法的有效性。
DRIVE 數(shù)據(jù)集來(lái)自荷蘭的糖尿病視網(wǎng)膜病變篩查計(jì)劃,由40幅視網(wǎng)膜眼底血管圖像、對(duì)應(yīng)的真實(shí)標(biāo)記圖像及相應(yīng)的masks圖像組成,每幅圖像的大小為565×584。詳細(xì)信息請(qǐng)參考http://www.isi.uu.nl/Research/Databases/DRIVE/。
CHASE數(shù)據(jù)集由14名學(xué)生的左眼和右眼視網(wǎng)膜圖像、對(duì)應(yīng)的真實(shí)標(biāo)記圖像及相應(yīng)的masks圖像組成,每幅圖像的分辨率為1280×960。詳細(xì)信息請(qǐng)參考https://blogs.kingston.ac.uk/retinal/chasedb1/。
基于Retinex理論的多尺度Retinex顏色恢復(fù)MSRCR(MultiScale Retinex with Color Restoration)方法[24]對(duì)眼底圖像中的視神經(jīng)盤(pán)、眼底血管及病灶等整體信息進(jìn)行增強(qiáng)。該方法在幾個(gè)測(cè)試場(chǎng)景和一百多幅圖像上對(duì)多尺度視網(wǎng)膜進(jìn)行廣泛的測(cè)試,以適度稀釋色彩一致性為代價(jià),解決了灰度級(jí)圖像的缺陷。第1步,通過(guò)MSRCR方法對(duì)眼底圖像整體進(jìn)行增強(qiáng),接下來(lái)關(guān)注眼底圖像中最重要的血管結(jié)構(gòu)。鑒于單通道灰度圖像比RGB圖像能更好地顯示血管與背景之間的對(duì)比度,所以第2步將MSRCR方法處理過(guò)的RGB眼底圖像轉(zhuǎn)換成單通道灰度圖像。將眼底圖像進(jìn)行適當(dāng)?shù)念A(yù)處理,利用增強(qiáng)后的三通道灰度圖像作為網(wǎng)絡(luò)訓(xùn)練的輸入。
JAT-Net的實(shí)驗(yàn)環(huán)境為基于深度學(xué)習(xí)開(kāi)源框架PyTorch[25],Linux操作系統(tǒng),Intel(R) Xeon(R) Gold 5218 2.30 GHz CPU和NVIDIA Quardro RTX 6000 24 GB GPU,運(yùn)行內(nèi)存為187 GB。在訓(xùn)練階段,使用Adam[26]函數(shù)作為網(wǎng)絡(luò)優(yōu)化器,參數(shù)默認(rèn)設(shè)置為β1=0.9,β2=0.999和ε=1e-8。通過(guò)Plateau方法對(duì)學(xué)習(xí)率進(jìn)行衰減,學(xué)習(xí)率lr初始化設(shè)為0.001,權(quán)重衰減系數(shù)為0.000 5。為了規(guī)避過(guò)擬合風(fēng)險(xiǎn),同時(shí)提升模型性能,對(duì)DRIVE和CHASE數(shù)據(jù)集的訓(xùn)練圖像和標(biāo)簽圖像采取隨機(jī)動(dòng)態(tài)提取小批量補(bǔ)丁訓(xùn)練網(wǎng)絡(luò),動(dòng)態(tài)提取的補(bǔ)丁數(shù)量為10 480,補(bǔ)丁大小為48像素,批量初始化為32,訓(xùn)練周期為200。動(dòng)態(tài)提取補(bǔ)丁主要通過(guò)隨機(jī)生成補(bǔ)丁的中心點(diǎn)位置,圍繞中心點(diǎn)從訓(xùn)練集和標(biāo)簽中截取尺寸大小為48的補(bǔ)丁圖像和標(biāo)簽補(bǔ)丁圖像,最后將提取到的補(bǔ)丁圖像輸入到訓(xùn)練好的模型中得到最終補(bǔ)丁圖像的分割結(jié)果。由于2個(gè)數(shù)據(jù)集的圖像大小不同,因此對(duì)原圖進(jìn)行補(bǔ)丁切片處理時(shí)需要用黑色像素補(bǔ)充,以確保從每幅圖像中都能提取到整數(shù)倍個(gè)補(bǔ)丁。本文模型使用交叉熵?fù)p失函數(shù),如式(11)所示:
L(pi,qi)=
(11)
其中,pi表示真實(shí)標(biāo)簽值,qi表示預(yù)測(cè)值。
在訓(xùn)練過(guò)程中,DRIVE數(shù)據(jù)集的20幅圖像用于訓(xùn)練,20幅圖像用于測(cè)試;CHASE數(shù)據(jù)集的20幅圖像用于訓(xùn)練,8幅圖像用于測(cè)試[27]。
為評(píng)估本文方法和現(xiàn)有其他方法對(duì)視網(wǎng)膜血管分割的有效性,本文通過(guò)5個(gè)常用的指標(biāo)來(lái)客觀地評(píng)估視網(wǎng)膜血管分割的性能,包括準(zhǔn)確率(Accuracy)、敏感性(Sensitivity)、特異性(Specificity)、ROC曲線面積(AUC)和F1分?jǐn)?shù)(F1-score),各指標(biāo)計(jì)算如式(12)~式(17)所示:
(12)
(13)
(14)
(15)
(16)
(17)
其中,TP是正確分割的血管像素?cái)?shù)量,F(xiàn)P是血管像素錯(cuò)誤地被分割為背景像素的數(shù)量,TN是正確分割的背景像素?cái)?shù)量,F(xiàn)N是背景像素錯(cuò)誤地被分割為血管像素的數(shù)量。
為驗(yàn)證JAT-Net中聯(lián)合注意力模塊和Transformer對(duì)視網(wǎng)膜血管分割任務(wù)的有效性,在相同的實(shí)驗(yàn)環(huán)境下,以U型網(wǎng)絡(luò)為基線分別在DRIVE和CHASE數(shù)據(jù)集上進(jìn)行視網(wǎng)膜血管分割實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表1和表2所示,表中Basic表示U型網(wǎng)絡(luò)模型,Basic+JAM表示在基線網(wǎng)絡(luò)的基礎(chǔ)上添加聯(lián)合注意力模型,Basic+Transformer表示引入Transformer的模型,JAT-Net表示本文提出的視網(wǎng)膜血管分割網(wǎng)絡(luò)。表中結(jié)果是由數(shù)據(jù)集中所有測(cè)試圖像的實(shí)驗(yàn)指標(biāo)數(shù)據(jù)和除以測(cè)試圖像個(gè)數(shù)獲得的平均值。
從表1可以看出,首先,以U型網(wǎng)絡(luò)作為整個(gè)實(shí)驗(yàn)的基礎(chǔ),加入聯(lián)合注意力模塊后,所有指標(biāo)結(jié)果都高于Basic模型的,其中F1分?jǐn)?shù)提高了3.44%,敏感性提高了4.99%;從敏感性指標(biāo)來(lái)看,加入聯(lián)合注意力后網(wǎng)絡(luò)捕獲血管特征的能力明顯提高,證明其具有幫助網(wǎng)絡(luò)提升分割效果的作用;加入Transformer后的模塊比Basic有更高的敏感性和F1分?jǐn)?shù),其中F1分?jǐn)?shù)提高了3.31%,敏感性提高了5.6%,這得益于Transformer能有效地將編碼器階段的全局眼底圖像特征傳遞給解碼器,并且緩解連續(xù)下采樣造成血管信息損失的問(wèn)題;最后,JAT-Net與Basic進(jìn)行對(duì)比,其敏感性提高了5.9%,F(xiàn)1分?jǐn)?shù)提高了3.78%。
Table 1 Experimental results of the improved models on DRIVE dataset表1 DRIVE數(shù)據(jù)集上模型改進(jìn)的實(shí)驗(yàn)結(jié)果對(duì)比
在CHASE數(shù)據(jù)集的實(shí)驗(yàn)上,首先采用MSRCR方法增強(qiáng)CHASE的原始圖像緩解了圖像中大范圍動(dòng)脈狹窄和對(duì)比度低的問(wèn)題,為血管分割創(chuàng)造了良好的前提條件。從表2可以看出,加入聯(lián)合注意力后的模型比Basic的實(shí)驗(yàn)結(jié)果更優(yōu);JAT-Net比單一的引入聯(lián)合注意力或Transformer的分割結(jié)果更好;與基線網(wǎng)絡(luò)相比,JAT-Net的敏感性提高了4.18%,F(xiàn)1分?jǐn)?shù)提高了6.85%。通過(guò)對(duì)DRIVE和CHASE數(shù)據(jù)集進(jìn)行同樣的消融實(shí)驗(yàn)發(fā)現(xiàn),JAT-Net的評(píng)估指標(biāo)相比基線網(wǎng)絡(luò)的都有很大的提高,這也進(jìn)一步說(shuō)明了JAT-Net對(duì)視網(wǎng)膜血管分割的有效性。
Table 2 Experimental results of the improved models on CHASE dataset表2 CHASE數(shù)據(jù)集上模型改進(jìn)的實(shí)驗(yàn)結(jié)果對(duì)比
圖7是消融實(shí)驗(yàn)在DRIVE和CHASE數(shù)據(jù)集上的分割結(jié)果的可視化比較。圖8中第1列是原始視網(wǎng)膜圖像,第2列是人工分割的標(biāo)注圖,第3~6列分別是Basic、Basic+JAM、Basic+Transformer和JAT-Net的分割結(jié)果。總的來(lái)說(shuō),在消融實(shí)驗(yàn)結(jié)果對(duì)比中,模型分割結(jié)果的準(zhǔn)確性逐漸提高,噪聲明顯降低,血管的邊界部分和毛細(xì)血管部分都被分割得更加精確和清晰,圖中標(biāo)注的區(qū)域?qū)Ρ扔葹槊黠@。
Figure 7 Segmentation results of ablation experiments圖7 消融實(shí)驗(yàn)的分割結(jié)果
Figure 8 ROC and PR curves of ablation experiments圖8 消融實(shí)驗(yàn)的ROC曲線和PR曲線
本文還通過(guò)計(jì)算并可視化展示了消融實(shí)驗(yàn)結(jié)果的ROC曲線和PR曲線,如圖8所示。圖8中的ROC曲線反映了假陽(yáng)性樣本和真陽(yáng)性樣本之間的關(guān)系。當(dāng)真陽(yáng)性樣本與假陽(yáng)性樣本的比例較大時(shí),PR曲線能更好地反映分類(lèi)的真實(shí)性能。在DRIVE數(shù)據(jù)集和CHASE數(shù)據(jù)集上,JAT-Net網(wǎng)絡(luò)模型的ROC曲線和PR曲線下的面積都是最大的,說(shuō)明該模型在視網(wǎng)膜血管分割任務(wù)中比其他消融實(shí)驗(yàn)?zāi)P偷男阅芨谩?/p>
本節(jié)與現(xiàn)有的部分無(wú)監(jiān)督和有監(jiān)督視網(wǎng)膜血管分割方法進(jìn)行對(duì)比實(shí)驗(yàn),同時(shí)將對(duì)比實(shí)驗(yàn)的視網(wǎng)膜血管分割結(jié)果進(jìn)行可視化。表3和表4分別顯示了DRIVE和CHASE數(shù)據(jù)集上不同方法的視網(wǎng)膜血管分割結(jié)果,可以看出,JAT-Net分割視網(wǎng)膜血管的準(zhǔn)確率更高。
圖9是不同無(wú)監(jiān)督方法的可視化血管分割結(jié)果。從圖9可以看出,大部分無(wú)監(jiān)督方法的可視化結(jié)果存在噪聲且血管分割不完整。文獻(xiàn)[4]方法利用二維高斯核的匹配濾波器比文獻(xiàn)[9]利用高斯低通濾波器和高斯高通濾波器的分割效果更佳。文獻(xiàn)[10]采用無(wú)監(jiān)督方法中最大熵期望最大化算法提取視網(wǎng)膜血管,其分割結(jié)果的敏感性在DRIVE數(shù)據(jù)集上達(dá)到了最優(yōu),從可視化方面看出其比前2種方法分割的血管輪廓更完整,但該方法分割的血管存在嚴(yán)重的斷裂且分割結(jié)果伴隨大量噪聲。與無(wú)監(jiān)督方法的血管分割結(jié)果對(duì)比,JAT-Net去除掉了大部分噪聲對(duì)分割造成的干擾且對(duì)細(xì)小血管的分割也更完整。
Table 3 Comparison of the proposed methods and other methods on DRIVE dataset
Table 4 Comparison of the proposed method and other methods on CHASE dataset
Figure 9 Visualization comparison of results of unsupervised retinal vessel segmentations on DRIVE dataset圖9 DRIVE數(shù)據(jù)集上無(wú)監(jiān)督方法視網(wǎng)膜血管分割結(jié)果可視化對(duì)比
圖10是不同有監(jiān)督方法的可視化實(shí)驗(yàn)結(jié)果。與U-Net相比,Sine-Net采取先上采樣的方式提取血管特征。除此之外,HAnet和文獻(xiàn)[2]方法同樣是改進(jìn)的U形網(wǎng)絡(luò),不同的是HAnet設(shè)計(jì)多個(gè)解碼器關(guān)注不同區(qū)域的特征。雖然HAnet不如文獻(xiàn)[2]方法的分割準(zhǔn)確性高,但其分割的血管連續(xù)性比后者更強(qiáng),且更多關(guān)注細(xì)小血管的特征,其特異性達(dá)到了最優(yōu)值0.984 9。與其他方法相比,JAT-Net基于聯(lián)合注意力從局部角度關(guān)注血管的特征且利用Transformer建立特征的長(zhǎng)依賴(lài)關(guān)系,提升了網(wǎng)絡(luò)對(duì)眼底圖像中血管主干和末端以及毛細(xì)血管的提取能力。JAT-Net在DRIVE數(shù)據(jù)集上分割的準(zhǔn)確率達(dá)到了0.970 6,F(xiàn)1分?jǐn)?shù)達(dá)到了0.843 3。從可視化的角度來(lái)看,JAT-Net在修復(fù)血管分割斷裂方面也有明顯改善且減少了一些細(xì)節(jié)錯(cuò)分割情況,盡可能地避免了以上情況的發(fā)生,對(duì)一些眼科疾病的診斷也是有益的。
在CHASE數(shù)據(jù)集上,文獻(xiàn)[6]方法基于現(xiàn)有的移位濾波器組合 COSFIRE(Combination Of Shifted FIlter REsponse)增加了選擇性響應(yīng)操作,由于其選擇性是在一個(gè)自動(dòng)配置過(guò)程中從血管原始模樣中確定的,這使得該方法存在一定的限制性。文獻(xiàn)[8]方法利用不同的濾波器獲得對(duì)應(yīng)的低頻和高頻圖像,用于后續(xù)對(duì)應(yīng)特征的提取,從表4的評(píng)估指標(biāo)也能發(fā)現(xiàn),該方法相比文獻(xiàn)[6]方法在準(zhǔn)確性方面有較大的提高,對(duì)血管的敏感性也更強(qiáng)。通過(guò)比較無(wú)監(jiān)督和有監(jiān)督視網(wǎng)膜血管分割方法的分割效果,觀察CHASE數(shù)據(jù)集上視網(wǎng)膜血管分割可視化結(jié)果(如圖11所示)可以看出,對(duì)于同一幅視網(wǎng)膜血管圖像,利用有監(jiān)督方法HAnet和JAT-Net明顯比無(wú)監(jiān)督方法文獻(xiàn)的分割更精準(zhǔn),一些毛細(xì)血管的連續(xù)性也更完整,其F1分?jǐn)?shù)達(dá)到最高值0.819 1。
圖12是CHASE數(shù)據(jù)集上各有監(jiān)督方法分割結(jié)果的可視化,R2U-Net和DUNet在細(xì)小血管的分割效果上優(yōu)于U-Net。但是,R2U-Net 和DUNet在實(shí)現(xiàn)更高準(zhǔn)確性的同時(shí)也引入了噪聲,并存在將背景區(qū)域分割為血管的情況。上述問(wèn)題同樣出現(xiàn)在了Sine-Net的分割結(jié)果中,其分割圖像中的噪聲更加嚴(yán)重,不利于眼科專(zhuān)家診斷疾病。為了有效地使用來(lái)自不同訓(xùn)練階段的特征信息,F(xiàn)ANet[28]利用每個(gè)訓(xùn)練周期的特征來(lái)修剪后續(xù)過(guò)程的預(yù)測(cè)特征圖,但仍未達(dá)到最佳效果。從可視化效果來(lái)看,JAT-Net沒(méi)有其他方法分割產(chǎn)生的噪聲多且對(duì)細(xì)小血管末端的處理更干凈,分割的主要血管主干也沒(méi)有受到過(guò)多背景因素的影響。JAT-Net在CHASE數(shù)據(jù)集上的準(zhǔn)確率、敏感性、特異性指標(biāo)都有所提高,其中,準(zhǔn)確率和特異性分別達(dá)到了0.977 4和0.988 6。通過(guò)在DRIVE和CHASE數(shù)據(jù)集上對(duì)本文方法進(jìn)行消融實(shí)驗(yàn)以及與現(xiàn)有視網(wǎng)膜血管方法進(jìn)行對(duì)比實(shí)驗(yàn),表明本文方法可以實(shí)現(xiàn)精準(zhǔn)有效的視網(wǎng)膜血管分割。
Figure 10 Visualization comparison of results of supervised retinal vessel segmentation on DRIVE dataset圖10 DRIVE數(shù)據(jù)集上有監(jiān)督視網(wǎng)膜血管分割結(jié)果可視化對(duì)比
Figure 12 Visualization comparison of results of supervised retinal vessel segmentation on CHASE dataset圖12 CHASE數(shù)據(jù)集上有監(jiān)督方法視網(wǎng)膜血管分割結(jié)果可視化對(duì)比
Figure 11 Visualization comparison of retinal vessel segmentation results on CHASE dataset圖11 CHASE數(shù)據(jù)集上視網(wǎng)膜血管分割結(jié)果可視化對(duì)比
致力于提高視網(wǎng)膜血管分割網(wǎng)絡(luò)的分割精度,同時(shí)本文工作還有以下不足之處:(1) 為了提高網(wǎng)絡(luò)的分割精度,利用Transformer以更多的時(shí)間和存儲(chǔ)交換模型的高準(zhǔn)確性,這使得網(wǎng)絡(luò)模型對(duì)硬件要求很高,各模型具體的參數(shù)和時(shí)間復(fù)雜度如表5所示。(2) 所有實(shí)驗(yàn)使用的數(shù)據(jù)集仍限于DRIVE和CHASE 2個(gè)公共數(shù)據(jù)集,沒(méi)有在更多更大的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),所以后續(xù)將嘗試在更多的數(shù)據(jù)集上驗(yàn)證本文方法的優(yōu)越性能。(3) 盡管某些結(jié)果優(yōu)于目前的一些方法,但在強(qiáng)噪聲的數(shù)據(jù)集上,使用噪聲較小的數(shù)據(jù)集和焦點(diǎn)區(qū)域得到的訓(xùn)練模型的分割結(jié)果還不如預(yù)期。
Table 5 Number of parameters and time costs of different models表5 不同模型的參數(shù)數(shù)量和時(shí)間成本
基于以上不足之處,未來(lái)的工作方向有:首先,通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),提高網(wǎng)絡(luò)模型的分割速度,以及優(yōu)化網(wǎng)絡(luò)模型的泛化能力,使其有可能用于生產(chǎn)和臨床應(yīng)用;其次,現(xiàn)有公開(kāi)的眼底圖像數(shù)據(jù)集的數(shù)量有限,對(duì)模型的訓(xùn)練有很大的制約,在后續(xù)的研究工作中,可以利用合適數(shù)量的Ground truth圖像來(lái)監(jiān)督網(wǎng)絡(luò)訓(xùn)練,以解決由于數(shù)據(jù)量小而導(dǎo)致模型訓(xùn)練不足的情況;最后,由于采集設(shè)備的不同,臨床診斷中使用的視網(wǎng)膜血管圖像往往存在差異,利用新的預(yù)處理方法解決由光照等引起的差異,建立具有更強(qiáng)泛化能力的網(wǎng)絡(luò)模型,在臨床應(yīng)用中具有重要意義。
視網(wǎng)膜血管的準(zhǔn)確分割對(duì)于幫助醫(yī)生篩查和診斷眼部疾病具有重要的實(shí)際意義。本文提出了融入聯(lián)合注意力和Transformer的網(wǎng)絡(luò)模型(JAT-Net)進(jìn)行視網(wǎng)膜血管分割。JAT-Net不僅利用聯(lián)合注意力有效地關(guān)注局部血管特征,而且通過(guò)Transformer將圖像特征視為序列來(lái)編碼強(qiáng)大的全局眼底圖像特征。JAT-Net在DRIVE和CHASE眼底圖像數(shù)據(jù)集上的視網(wǎng)膜血管分割結(jié)果表明,JAT-Net對(duì)于視網(wǎng)膜血管分割是有效的,且JAT-Net的性能優(yōu)于目前最先進(jìn)的現(xiàn)有其它方法,如DUNet、Sine-Net和FANet。未來(lái)的研究將致力于JAT-Net在三維網(wǎng)絡(luò)中的應(yīng)用以及利用JAT-Net完成其他醫(yī)學(xué)圖像視覺(jué)任務(wù),如CT或MRI圖像。