劉然,劉建霞,王海翼
(太原理工大學(xué)信息與計算機學(xué)院,山西晉中 030600)
青光眼是造成不可逆致盲的最主要因素[1]。據(jù)有關(guān)數(shù)據(jù)統(tǒng)計,截止到2020 年,全球青光眼患病人數(shù)已經(jīng)超過了8 000 萬人。為了預(yù)防青光眼疾病的發(fā)生及加重,眼部疾病的早期診斷工作有著非常重要的意義。
深度學(xué)習(xí)技術(shù)在近年來被證明可以產(chǎn)生高區(qū)分度的精度,并在許多計算機視覺任務(wù)上取得了很好的效果。因此將深度學(xué)習(xí)運用到青光眼視盤(Optic Disc,OD)和視杯(Optic Cup,OC)分割方面具有很高的研究價值。在該文中,將青光眼的視盤和視杯分割作為一個多標(biāo)簽任務(wù)來解決,對原始U-net++[2]進行改進優(yōu)化,設(shè)計了一種融合可變形卷積和注意力機制,并使用極坐標(biāo)輸入的PDAU-net++網(wǎng)絡(luò)結(jié)構(gòu),從而達到更好的分割性能。
該文所提的PDAU-net++算法在數(shù)據(jù)預(yù)處理階段使用了極坐標(biāo)變換,較好地平衡了直角坐標(biāo)系中視杯比例不平衡的問題;將網(wǎng)絡(luò)結(jié)構(gòu)關(guān)鍵層的常規(guī)卷積替換為可變形卷積并引入注意力機制SE 模塊,解決了常規(guī)卷積不能很好地處理物體形變的問題并使得模型更加專注于待分割的關(guān)鍵區(qū)域;運用了一種基于Dice 系數(shù)的多標(biāo)簽損失函數(shù),較好地處理了眼底圖像按像素分割時多標(biāo)簽和數(shù)據(jù)不平衡的問題。該方法的結(jié)構(gòu)示意圖如圖1 所示。
圖1 PDAU-net++網(wǎng)絡(luò)結(jié)構(gòu)示意圖
在傳統(tǒng)的U-net中,Skip connection(跳躍連接)是一種通過進行特征拼接來提高神經(jīng)網(wǎng)絡(luò)性能的技術(shù),在一定程度上,使用該技術(shù)可以將粗細粒度的特征進行融合,但是之后又會產(chǎn)生一種關(guān)于語義鴻溝的問題。為了解決Skip connection 引起的語義鴻溝,文獻[2]提出了如圖2 所示的U-net++架構(gòu),該架構(gòu)是一種基于嵌套密集跳躍連接的分割體系結(jié)構(gòu),它將多個不同層次的U 型網(wǎng)絡(luò)進行了集合,從而使得整個架構(gòu)可以在不同的層次分別提取各自層次的特征,然后再將這些不同層次的特征結(jié)合在一起。在圖2 中,最外側(cè)一層是原始的U-net網(wǎng)絡(luò),中間圓圈部分均表示在Skip connection上的密集卷積塊,每個圓圈都代表兩個連續(xù)的卷積操作,上方表示深監(jiān)督(deep supervision)。用xi,j來表示單個節(jié)點Xi,j的輸出,i為網(wǎng)絡(luò)中所在的層數(shù),j為新添加的卷積塊,如式(1)所示:
圖2 U-net++示意圖
其中,函數(shù)H()· 表示帶有激活函數(shù)的卷積操作,U()· 表示上采樣操作。[]表示級聯(lián)。
由于標(biāo)準(zhǔn)卷積中固定卷積核的存在,使得其并不能很好地適應(yīng)物體的形變。為了解決或者減輕標(biāo)準(zhǔn)卷積中存在的局限性,文獻[3]提出了一種新的方法,將一個偏移的變量分別添加在標(biāo)準(zhǔn)卷積核中各個采樣點的位置,通過添加變量,卷積核就不會再局限于標(biāo)準(zhǔn)卷積中的規(guī)則格點采樣,這樣添加偏移變量后的卷積操作被稱為可變形卷積。如圖3 所示,展示了3×3 大小的卷積核的兩種不同采樣方式,(a)為標(biāo)準(zhǔn)卷積核的規(guī)則采樣,(b)、(c)、(d)均為可變形卷積核的采樣,添加了一個位移變量(箭頭)。
圖3 常規(guī)卷積核和可變形卷積核
一般的卷積過程可以表示為式(2):
其中,pi為輸入特征圖中的感受野,pi={p1,p2,…,pn},w(pi) 表示不同卷積核的不同權(quán)重。在可變形卷積中,偏置變量Δpi會通過一個新的常規(guī)卷積操作來生成,并被添加到式(2)中得到式(3):
Attention(注意力機制)是20 世紀90 年代被部分科學(xué)家在研究視覺時發(fā)現(xiàn)的一種信號的處理機制,近年來被引入到人工智能領(lǐng)域內(nèi)并取得了成功。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積層是其核心所在,由于在不同空間或通道內(nèi)所含有的各類信息重要程度也不相同,所以常規(guī)的卷積操作將空間和通道的各類信息進行無差別地融合就會成為新的問題。2017 年ImageNet的分類比賽冠軍SE(Squeeze and Excitation)模塊[4]的效果得到了廣泛的認可,如圖4 所示,該模塊主要由Squeeze和Excitation兩個操作構(gòu)成。用X來表示輸入特征圖,用RH×W×C來表示維度,H、W和C分別為高度、寬度和通道數(shù)目。Squeeze操作即全局平均池化,經(jīng)過Squeeze 操作后輸入特征圖會被壓縮為1×1×C的向量[5]。而Excitation 操作由兩個全連接層(Full Connection)構(gòu)成,其中r是一個可以用來縮放的參數(shù),可以控制該模塊計算量的大小,不同大小的r會對網(wǎng)絡(luò)性能造成不同的影響。最后會生成一個R1×1×C維度的向量,再通過Scale操作,得到輸出結(jié)果Y。
圖4 SE模塊
該文采用了一種多標(biāo)簽損失函數(shù)來進行OD、OC 的聯(lián)合分割[6],并將OD 和OC 分割作為一個多標(biāo)簽問題。由于在OD 和OC 的分割中,OD 區(qū)域覆蓋了OC 區(qū)域,即標(biāo)記為OC 的像素也有著OD 的標(biāo)簽。此外,由于青光眼患者OC 的不斷擴大,導(dǎo)致OD 和OC之間的像素不斷減少,造成了非常失衡的不同區(qū)域類。因此為了解決上述問題,將OD 和OC 看作兩個相互獨立的二分類器,并使用了一種新的多標(biāo)簽損失函數(shù),如式(4)所示:
其中,N表示圖像中像素的個數(shù),p(k,i)∈[0,1]和g(k,i)∈[0,1]分別表示k類的預(yù)測概率和二元標(biāo)注真實標(biāo)簽。K表示類別數(shù),∑kωk=1 表示類別權(quán)重值,對于OD 和OC 分割任務(wù),K設(shè)置為2。ωk是控制OD和OC 的權(quán)衡權(quán)重,設(shè)為0.5。
Drishti-GS1 數(shù)據(jù)集包含了101 幅眼底圖像,所有圖像都在馬杜雷的阿拉文德眼科醫(yī)院收集,由四名具有不同臨床經(jīng)驗的眼科專家進行標(biāo)記。選定的患者年齡在40~80 歲之間,男性和女性人數(shù)大致相等。所有圖像都以O(shè)D 為中心,其視野(FOV)為30度,尺寸為2 896 ×1 944 像素,PNG 未壓縮圖像格式。圖5 中(a)為原始眼底圖像,(b)、(c)為專家手工分出的視盤和視杯的標(biāo)注(Groundtruth),為了防止血管、病變區(qū)域等對視盤視杯分割結(jié)果的影響,使用普通的U-net 網(wǎng)絡(luò)和相應(yīng)的OD 標(biāo)簽進行訓(xùn)練并對數(shù)據(jù)集進行OD 預(yù)測[7],然后將預(yù)測的OD 映射回原始圖像,并根據(jù)預(yù)測OD 的中心從整張圖中裁剪出大小為512×512 像素的區(qū)域,如圖5(d),同理,將視杯和視盤標(biāo)注進行融合后也裁剪為512×512 像素的區(qū)域,如圖5(e)所示。
圖5 數(shù)據(jù)集圖像
在初始的眼底圖像中,OD 和OC 的邊界相對而言并不是很明顯,對比度比較低,使用CLAHE來預(yù)處理眼底圖像可以改善眼底的對比度和光照情況,如圖6 所示,并以此來提高網(wǎng)絡(luò)分割的性能。
圖6 CLAHE前后圖像
由于目前公開的青光眼數(shù)據(jù)集較少,為了獲取更好的結(jié)果,訓(xùn)練模型之前將數(shù)據(jù)集中的圖像通過多角度的旋轉(zhuǎn)及水平、垂直和鏡像翻轉(zhuǎn)擴充到原來的12 倍。
在該文方法中,引入了極坐標(biāo)變換來改善視盤和視杯的分割性能。像素級別的極坐標(biāo)變換將原始眼底圖像從直角坐標(biāo)轉(zhuǎn)換到極坐標(biāo)。圖7(a)中,點O為視盤中心點,p(u,v)為任一點,θ和r分別表示該點的方向角和到圓心的距離,由此便可以得到該點在極坐標(biāo)的對應(yīng)點,即圖7(c)中p′(θ,r)。
極坐標(biāo)和直角坐標(biāo)之間的轉(zhuǎn)換公式如式(5)所示:
極坐標(biāo)變換主要具有以下特性:
1)空間約束:極坐標(biāo)變換可以將原始圖像中OC與OD 的幾何約束轉(zhuǎn)換為如圖7(d)所示的有序的空間層次結(jié)構(gòu)。
2)平衡視杯比例:在原始眼底圖像中,視盤所占整個圖像的區(qū)域較小,視杯所占比例更加失衡。在經(jīng)過極坐標(biāo)變換之后,如圖7(d)所示,擴大了視杯的區(qū)域比例,比原始圖像更加平衡。
圖7 不同坐標(biāo)系下的圖像
實驗硬件配置:Intel(R) Xeon(R) Gold 5120 CPU@2.20 GHz 處理器,顯卡為NVIDATeslaP4,內(nèi)存容量為128G[8]。
實驗軟件配置:python 編程語言,pycharm 編譯器,Pytorch 框架,batch size 設(shè)置為32,Adam 優(yōu)化器,learning rate 為0.001,SE 模塊的r設(shè)置為8。
該文將青光眼視杯視盤分割結(jié)果與數(shù)據(jù)集中專家手工標(biāo)注作比較,可以看出算法的優(yōu)越性。采用Dice 系數(shù)d(A,B)來作為算法的評價指標(biāo),其取值范圍是0~1,越接近1,算法效果越好,計算公式如式(6)所示:
其中,A是得到的分割結(jié)果,B表示相對應(yīng)的標(biāo)注。
此外,該文還使用oe來表示真實杯盤比(CDR)值與預(yù)測杯盤比值之間的誤差,誤差越小,表示算法分割的結(jié)果越接近專家手工分割結(jié)果。oe和CDR的計算如式(7)所示,其中,CDRp表示預(yù)測的CDR,CDRg表示真實CDR,SDcup表示視杯面積,SDdisc表示視盤面積。
表1 直觀地展示了七種不同模型在Drishti-GS1數(shù)據(jù)集視杯視盤分割任務(wù)上的性能指標(biāo)。為了更好地對比該文所添加模塊的效果,增加了多組對比模型,其中DU-net++表示使用可變形卷積代替關(guān)鍵層的傳統(tǒng)卷積;DAU-net++表示使用可變形卷積代替關(guān)鍵層的傳統(tǒng)卷積并添加注意力模塊。通過表1 中的各個實驗的對比分析,證明所添加模塊的有效性,其中,Dicecup表示OC 的Dice 系數(shù);Dicedisc表示OD的Dice 系數(shù);oe表示真實CDR值與預(yù)測得到的CDR之間的誤差。對比U-net[9]、DRIU[10]、M-net[11]和Unet++四種基礎(chǔ)網(wǎng)絡(luò)模型可以發(fā)現(xiàn),U-net++模型無論是在視杯視盤的Dice 系數(shù)得分還是在oe誤差上都較前三種模型分割性能更好。對比DU-net++和U-net++可以驗證引入可變卷積塊代替關(guān)鍵層的傳統(tǒng)卷積塊后,視杯和視盤的Dice 系數(shù)分別提升了0.009 4和0.011 9,oe誤差降低了0.001 8。對比DAUnet++和DU-net++可以驗證引入注意力機制后,視杯和視盤的Dice 系數(shù)分別提升了0.013 1 和0.001 3,oe誤差降低了0.003 08。對比DAU-net++和PDAUnet++可以驗證使用極坐標(biāo)輸入后,視杯和視盤的Dice 系數(shù)分別提升了0.023 8 和0.012 4,oe誤差減少了0.001 68。PDAU-net++較原始框架U-net++視杯和視盤的Dice 系數(shù)分別提升了0.046 3 和0.025 6,oe誤差降低了0.006 56。
表1 算法改進前后與經(jīng)典分割網(wǎng)絡(luò)的性能指標(biāo)
如圖8 所示,從多種模型分割結(jié)果中發(fā)現(xiàn)該文方法的分割效果比其余對比方法更精準(zhǔn)。由于眼底圖像中血管和部分病變區(qū)域的影響,U-net、DRIU 和M-net 在分割時容易受到干擾,不能準(zhǔn)確地分割出視杯和視盤的邊界,U-net++分割的效果較為理想。相對來說,該文提出的PDAU-net++網(wǎng)絡(luò)可以更好地分割出視杯和視盤區(qū)域,分割結(jié)果也更加接近于專家的實際手工標(biāo)注結(jié)果。
圖8 不同網(wǎng)絡(luò)模型的分割結(jié)果
為了進一步證明該文算法在青光眼視盤視杯分割領(lǐng)域的性能,將該文算法與近期文獻結(jié)果進行了比較,結(jié)果如表2 所示?;贒rishti-GS1 數(shù)據(jù)集進行對比,該文方法的視杯Dice 系數(shù)達到了0.925 3,視盤Dice 系數(shù)達到了0.985 0,oe誤差為0.061 58,均優(yōu)于上述文獻中的算法。
表2 Drishti-GS1數(shù)據(jù)集不同算法的性能指標(biāo)
綜上所述,該文改進的PDAU-net++網(wǎng)絡(luò),可以獲得比較好的分割性能指標(biāo),具有較高的穩(wěn)定性和抗干擾能力,不僅保證了一定的高準(zhǔn)確率,還降低了杯盤比的誤差,具有一定的先進性。
該文提出一種PDAU-net++網(wǎng)絡(luò)分割模型。以U-net++網(wǎng)絡(luò)架構(gòu)為基礎(chǔ),先將關(guān)鍵層的傳統(tǒng)卷積替換為可變形卷積,又引入了SE 模塊,增大模型對感興趣區(qū)域的分割,并引入了一種多標(biāo)簽的損失函數(shù)來解決分類中的類不平衡問題,此外還引入了極坐標(biāo)變換來平衡視杯和視盤所占圖片的比例,進而提升分割性能。最后通過一系列的對比實驗證明了該文方法的有效性。