李蘭蘭,張孝輝,牛得草,胡益煌,趙鐵松,王大彪
1.福州大學(xué) 物理與信息工程學(xué)院 福建省媒體信息智能處理與無(wú)線傳輸重點(diǎn)實(shí)驗(yàn)室,福州350116
2.福州大學(xué) 機(jī)械工程及自動(dòng)化學(xué)院,福州350116
3.廣東省第二人民醫(yī)院,廣州510317
在2019 年10 月,根據(jù)世界衛(wèi)生組織發(fā)布的一份世界宣明會(huì)報(bào)告,世界范圍內(nèi)超過(guò)4.18 億人患有青光眼、糖尿病視網(wǎng)膜病變(diabetic retinopathy,DR)、老年性黃斑變性(age-related macular degeneration,AMD)或其他可導(dǎo)致失明的眼部疾病[1]。許多眼底病變都會(huì)發(fā)生在血管的周?chē)?,視網(wǎng)膜眼底圖像中包含豐富的視網(wǎng)膜血管特征[2-3]。分析視網(wǎng)膜血管長(zhǎng)、寬、彎曲度、分叉模式等結(jié)構(gòu)特性可以得到眼底疾病的臨床病理特征,對(duì)這些疾病的預(yù)防和治療具有重要意義[4-5]。如用于微動(dòng)脈瘤檢測(cè)的薄血管和厚血管的直徑都是糖尿病視網(wǎng)膜病變?cè)\斷的重要生物標(biāo)志物[6-7]。視網(wǎng)膜血管分割是獲取這些結(jié)構(gòu)特性的必要的步驟,良好的分割結(jié)果將使后續(xù)特征提取和異常檢測(cè)分析更加高效、準(zhǔn)確[8-9]。由于視網(wǎng)膜血管復(fù)雜的樹(shù)狀結(jié)構(gòu),人工視網(wǎng)膜血管分割存在易出錯(cuò)、費(fèi)時(shí)、乏味等問(wèn)題[10-11]。自動(dòng)分割算法能夠幫助醫(yī)生分析復(fù)雜的眼底圖像,且精度在逐步提升,近年來(lái)引起了較多的關(guān)注[3]。
視網(wǎng)膜血管準(zhǔn)確自動(dòng)分割難度較大,原因在于:(1)視網(wǎng)膜血管的尺度變換大,其中有非常微小的毛細(xì)血管,最小直徑僅有1~2個(gè)像素寬,對(duì)比度也比視網(wǎng)膜血管的主要?jiǎng)用}和靜脈低[12];(2)視網(wǎng)膜血管具有和樹(shù)相似的復(fù)雜結(jié)構(gòu),比如分叉、交叉結(jié)構(gòu)[13];(3)部分的視網(wǎng)膜血管存在微動(dòng)脈瘤、滲出物等病變,增加了分割的難度[13]。
在傳統(tǒng)算法中,通常將人工設(shè)計(jì)的紋理、顏色、形狀這些底層特征作為血管分割的依據(jù)[14-15]。如Vlachos 等人[16]提出了多尺度的線性跟蹤程序應(yīng)用于視網(wǎng)膜血管的分割和血管的提取,在DRIVE 數(shù)據(jù)集上得到分割的準(zhǔn)確性達(dá)到92.9%。Zhao 等人[17]提出了基于Retinex 理論的圖像不均勻性校準(zhǔn),基于局部相位的血管增強(qiáng)和基于圖分割的主動(dòng)輪廓分割三者結(jié)合的算法用于血管的分割,在DRIVE 數(shù)據(jù)集上的準(zhǔn)確性為95.3%。盡管這些方法在特定的環(huán)境下取得了好的分割結(jié)果,但是人工設(shè)計(jì)的特征不能夠充分地表達(dá)視網(wǎng)膜血管復(fù)雜的特征,在相對(duì)大的數(shù)據(jù)集中,算法就不能適應(yīng)復(fù)雜的環(huán)境[14]。而且傳統(tǒng)自動(dòng)分割方法用時(shí)不能達(dá)到實(shí)時(shí)檢測(cè)的效果,比如Fraz等人[18]的研究每分割一張圖片需要100 s。
近年來(lái)很多研究者嘗試將深度學(xué)習(xí)引入到醫(yī)學(xué)圖像處理領(lǐng)域,相較于傳統(tǒng)自動(dòng)分割算法,深度學(xué)習(xí)有很大的優(yōu)勢(shì):首先,深度學(xué)習(xí)是一種端到端的學(xué)習(xí)方式,不需要手動(dòng)設(shè)計(jì)統(tǒng)計(jì)特征,可以自動(dòng)提取圖像的底層、中層和高層特征,避免了傳統(tǒng)算法人工設(shè)計(jì)特征不能完全表征圖像的特征的缺陷。其次,深度學(xué)習(xí)應(yīng)用到醫(yī)學(xué)圖像處理領(lǐng)域表現(xiàn)出優(yōu)秀的學(xué)習(xí)能力和潛力,性能接近或超過(guò)傳統(tǒng)方法,比如,Li等人[19]將分割任務(wù)重新塑造為從視網(wǎng)膜圖像到血管圖的跨模態(tài)數(shù)據(jù)轉(zhuǎn)換問(wèn)題,在DRIVE 數(shù)據(jù)集上準(zhǔn)確性為95.27%。Gu 等人[20]基于編碼解碼結(jié)構(gòu)提出了語(yǔ)義編碼網(wǎng)絡(luò)(context encoder network,CE-Net)分割算法,在DRIVE 數(shù)據(jù)集上準(zhǔn)確性為95.45%。Zhou 等人[21]基于生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network,GAN)[22]提出的對(duì)稱(chēng)均衡生成對(duì)抗網(wǎng)絡(luò)(symmetric equilibrium generative adversarial network,SEGAN),在DRIVE 數(shù)據(jù)集上準(zhǔn)確性為95.63%。
正因?yàn)樯疃葘W(xué)習(xí)在視網(wǎng)膜血管分割任務(wù)上巨大潛力,表現(xiàn)出較好的臨床應(yīng)用上前景,近年來(lái)吸引了大量的國(guó)內(nèi)外研究。本文對(duì)近年來(lái)基于深度學(xué)習(xí)的視網(wǎng)膜分割研究進(jìn)行總結(jié)回顧,主要包括視網(wǎng)膜圖像數(shù)據(jù)庫(kù)建立、圖像預(yù)處理方法及血管分割算法三方面。在此基礎(chǔ)上探討當(dāng)前研究仍存在的不足,分析可以改進(jìn)的措施,并展望未來(lái)較有潛力的研究方向。
Table 1 Fundus image databases表1 眼底圖像數(shù)據(jù)庫(kù)
深度學(xué)習(xí)本質(zhì)上是基于數(shù)據(jù)驅(qū)動(dòng)的算法,高質(zhì)量的圖片數(shù)據(jù)庫(kù)對(duì)深度學(xué)習(xí)算法的性能極為重要。世界上許多研究機(jī)構(gòu)建立并公開(kāi)了其眼底圖像數(shù)據(jù)庫(kù),以期推進(jìn)深度學(xué)習(xí)技術(shù)在視網(wǎng)膜血管分割上的發(fā)展。其中影響較大的有荷蘭的DRIVE 數(shù)據(jù)庫(kù)、美國(guó)的STARE 數(shù)據(jù)庫(kù),此外還有英國(guó)的CHASE_DB1數(shù)據(jù)庫(kù)、捷克的HRF 數(shù)據(jù)庫(kù)等。表1 是眼底圖像開(kāi)源數(shù)據(jù)庫(kù)的綜合信息。
這些開(kāi)源數(shù)據(jù)庫(kù)對(duì)分割算法的進(jìn)步起到了很好的推動(dòng)作用,然而目前數(shù)據(jù)集建立的工作仍存在一些不足:首先,目前的不同數(shù)據(jù)庫(kù)圖片差異性較大,拍攝圖片使用的設(shè)備、數(shù)據(jù)的維度等方面各不相同,這對(duì)深度學(xué)習(xí)模型的泛化性能影響較大。其次,數(shù)據(jù)庫(kù)里面的數(shù)據(jù)較少,比如常用的DRIVE 和STARE數(shù)據(jù)庫(kù)只有幾十張圖片,而深度學(xué)習(xí)在自然圖片中一般要求數(shù)萬(wàn)量級(jí)的圖片量。相對(duì)而言,眼底視網(wǎng)膜數(shù)據(jù)庫(kù)的數(shù)據(jù)量很少,這也是醫(yī)學(xué)圖像處理領(lǐng)域目前存在的普遍性問(wèn)題。因此加快建立標(biāo)準(zhǔn)統(tǒng)一和具有一定規(guī)模的數(shù)據(jù)庫(kù)是推進(jìn)深度學(xué)習(xí)今后在視網(wǎng)膜血管分割中應(yīng)用的一項(xiàng)重要工作。此外,目前眼底圖像數(shù)據(jù)庫(kù)建立工作主要是在歐美等發(fā)達(dá)國(guó)家進(jìn)行,我國(guó)在這方面的研究還較少。
由于數(shù)據(jù)集的缺乏,采用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)圖像數(shù)量進(jìn)行提高是一項(xiàng)必備的工作。使用數(shù)據(jù)增強(qiáng)技術(shù)可以降低模型過(guò)擬合的概率,有利于模型的收斂,可以提升模型的泛化性能[23]。目前在視網(wǎng)膜血管分割研究中被使用的數(shù)據(jù)增強(qiáng)技術(shù)主要有水平和垂直翻轉(zhuǎn)[2,6,24-28]、調(diào)整大小[6,25-26,28]、添加隨機(jī)噪聲[25]、隨機(jī)旋轉(zhuǎn)[6,24,26,28]、調(diào)整對(duì)比度[6]等。不同的研究會(huì)根據(jù)實(shí)際需要選擇一種或者多種圖像增強(qiáng)技術(shù),圖像增強(qiáng)技術(shù)在部分研究中的使用情況見(jiàn)表2??傮w上看,水平或豎直翻轉(zhuǎn)是最廣泛使用的增強(qiáng)操作,而增強(qiáng)對(duì)比度則較少使用。
Table 2 Data enhancement of fundus images表2 眼底圖像的數(shù)據(jù)增強(qiáng)操作
圖像預(yù)處理操作可以讓圖像的特征完全地表征出來(lái),神經(jīng)網(wǎng)絡(luò)更容易提取圖像不同的特征,有助于提高模型性能。目前在視網(wǎng)膜血管分割任務(wù)中常用的圖像預(yù)處理方法主要有圖像灰度化[2,6,13,24-25,27,29-31]、圖像標(biāo)準(zhǔn)化[2,10,24,27-28,30,32]、對(duì)比度受限的自適應(yīng)直方圖均衡化(contrast limited adaptive histogram equalization,CLAHE)算法[2,10,13,27,29,32]、提取圖像的綠色通道圖片[6,25,30-31,33-34]、伽馬校準(zhǔn)[2,10,28-30,32]。不同研究根據(jù)模型需要選取一種或多種預(yù)處理方法,近年研究使用的預(yù)處理方法統(tǒng)計(jì)見(jiàn)表3,總體上看圖像灰度化和標(biāo)準(zhǔn)化是使用較多的預(yù)處理技術(shù)。
Table 3 Data preprocessing of fundus image表3 眼底圖像的圖像預(yù)處理
為了減輕模型的計(jì)算負(fù)荷并獲取更多的圖像的細(xì)節(jié)特征,許多研究還會(huì)對(duì)眼底圖像進(jìn)行切片處理。圖像切片是將一張完整的眼底圖像分割成小尺寸的圖像補(bǔ)丁。不同的尺寸對(duì)模型帶來(lái)的計(jì)算負(fù)擔(dān)不同,同時(shí)對(duì)于圖像的細(xì)節(jié)和全局特征把握也不同。分割尺寸的大小沒(méi)有客觀標(biāo)準(zhǔn),定性來(lái)看,尺寸越小對(duì)模型提取細(xì)節(jié)特征越有利,而尺寸越大對(duì)模型提取全局特征越有利。目前常用的圖像切片的尺寸有9×9[31]、48×48[2,29,30,32]、64×64[27-28,35]、128×128[6,25,29,33]。圖像切片尺寸的匯總?cè)绫?。
Table 4 Image slice size for retinal vessel segmentation表4 視網(wǎng)膜血管分割的圖像切片尺寸
在數(shù)據(jù)相關(guān)操作完成后,需要通過(guò)分割算法將視網(wǎng)膜血管從背景中分割出來(lái)。早期使用的醫(yī)學(xué)圖像分割神經(jīng)網(wǎng)絡(luò)主要為全卷積神經(jīng)網(wǎng)絡(luò)和編碼解碼網(wǎng)絡(luò),在這些網(wǎng)絡(luò)基礎(chǔ)上發(fā)展了很多不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。本文從網(wǎng)絡(luò)架構(gòu)的角度對(duì)近年來(lái)用于視網(wǎng)膜血管分割的神經(jīng)網(wǎng)絡(luò)進(jìn)行歸類(lèi)總結(jié),主要分為級(jí)聯(lián)結(jié)構(gòu)、多路徑、多尺度類(lèi)型的神經(jīng)網(wǎng)絡(luò),介紹了各類(lèi)神經(jīng)網(wǎng)絡(luò)的特點(diǎn),并對(duì)比各種分割模型在現(xiàn)有研究中達(dá)到的性能,同時(shí)對(duì)比了算法的復(fù)雜度。從算法現(xiàn)實(shí)部署的角度介紹了部分研究。目前分割算法中常見(jiàn)的性能指標(biāo)見(jiàn)表5。
Table 5 Performance metrics of retinal vessel segmentation表5 視網(wǎng)膜血管分割性能指標(biāo)
Long 等人[36]提出全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)用于圖像的語(yǔ)義分割,如圖1[36]。作者通過(guò)修改經(jīng)典的CNN(convolutional neural networks)網(wǎng)絡(luò)結(jié)構(gòu),將全連接層都轉(zhuǎn)換為卷積層,來(lái)管理非固定尺寸的輸入和輸出。模型前幾層的特征圖通過(guò)上采樣和最后一層的特征圖進(jìn)行融合產(chǎn)生一個(gè)精確細(xì)致的分割圖。該模型在PASCAL VOC、NYUDv2和SIFT Flow 上進(jìn)行了測(cè)試,取得了較好的分割效果。在圖像分割領(lǐng)域,F(xiàn)CN 被認(rèn)為是里程碑式的進(jìn)步,證明了深度神經(jīng)網(wǎng)絡(luò)可以在變化的圖像上以端到端的形式訓(xùn)練進(jìn)行圖像分割。
Fig.1 Fully convolutional networks圖1 全卷積神經(jīng)網(wǎng)絡(luò)
編碼解碼模型也可以用于圖像的分割,大部分的深度學(xué)習(xí)的分割網(wǎng)絡(luò)都是用的編碼解碼網(wǎng)絡(luò)。有一些專(zhuān)門(mén)為醫(yī)學(xué)圖像分割而開(kāi)發(fā)的模型,比如受到FCN啟發(fā)的U-Net網(wǎng)絡(luò)[37]和V-Net網(wǎng)絡(luò)[38]。Ronneberger 等人[37]提出的U-Net 如圖2[37]所示,該網(wǎng)絡(luò)包含兩個(gè)路徑,壓縮路徑主要用來(lái)捕獲上下文的語(yǔ)義,對(duì)稱(chēng)的擴(kuò)張路徑主要關(guān)注像素位置信息。下采樣和收縮路徑和FCN 網(wǎng)絡(luò)具有類(lèi)似的結(jié)構(gòu),都是使用3×3的卷積核來(lái)提取數(shù)據(jù)的特征。對(duì)于上采樣和擴(kuò)張路徑部分使用轉(zhuǎn)置卷積,在減少它們特征圖數(shù)量的同時(shí)增加特征圖的維度。通過(guò)將網(wǎng)絡(luò)下采樣部分的特征圖復(fù)制到上采樣部分避免模式信息的丟失。在UNet基礎(chǔ)上,Milletari等人設(shè)計(jì)了V-Net[38]用于3D 醫(yī)學(xué)圖像的分割,同時(shí)引入了一個(gè)基于Dice 系數(shù)的目標(biāo)函數(shù),通過(guò)這種目標(biāo)函數(shù)能夠使模型處理前景和背景中像素嚴(yán)重不匹配的情況。
近期提出的視網(wǎng)膜血管分割算法主要是基于全卷積神經(jīng)網(wǎng)絡(luò)。從網(wǎng)絡(luò)架構(gòu)上,全卷積神經(jīng)網(wǎng)絡(luò)可劃分為編碼解碼結(jié)構(gòu)和多尺度神經(jīng)網(wǎng)絡(luò)。編碼解碼結(jié)構(gòu)是級(jí)聯(lián)結(jié)構(gòu)和多路徑網(wǎng)絡(luò)的基礎(chǔ)架構(gòu),網(wǎng)絡(luò)之間的關(guān)系如圖3 所示。下面將詳細(xì)介紹每種網(wǎng)絡(luò)的特點(diǎn)、最近研究,并且對(duì)算法的性能、復(fù)雜度、缺點(diǎn)進(jìn)行對(duì)比、分析。
Fig.2 U-Net used for biomedical image segmentation圖2 U-Net:用于生物醫(yī)學(xué)圖像分割
Fig.3 Relationship between algorithms圖3 算法之間的關(guān)系
2.2.1 級(jí)聯(lián)結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)
級(jí)聯(lián)結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)由兩個(gè)相似網(wǎng)絡(luò)間串聯(lián)而成。前一級(jí)網(wǎng)絡(luò)產(chǎn)生了血管分割圖,后一級(jí)網(wǎng)絡(luò)可以在前一級(jí)網(wǎng)絡(luò)的輸出血管分割圖基礎(chǔ)上對(duì)血管分割結(jié)果的結(jié)構(gòu)進(jìn)行細(xì)化,對(duì)血管像素的預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化,典型結(jié)構(gòu)見(jiàn)圖4[2]。這種網(wǎng)絡(luò)對(duì)于視網(wǎng)膜血管的空間結(jié)構(gòu)的預(yù)測(cè)能力優(yōu)勢(shì)明顯。如Wu 等人[2]設(shè)計(jì)了名為NFN+w/o Ics級(jí)聯(lián)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),前向網(wǎng)絡(luò)將輸入轉(zhuǎn)換為粗血管分割圖,后一級(jí)網(wǎng)絡(luò)調(diào)整粗血管分割圖分類(lèi)錯(cuò)誤的像素,重新優(yōu)化了血管的空間結(jié)構(gòu)?;A(chǔ)模型和NFN+w/o Ics 模型(級(jí)聯(lián)結(jié)構(gòu),無(wú)跳躍連接結(jié)構(gòu))在DRIVE 數(shù)據(jù)集上設(shè)計(jì)對(duì)比實(shí)驗(yàn),NFN+w/o Ics 模型在AUC、AUPR、ACC 等指標(biāo)上分別上升了0.3%、0.79%、0.12%,體現(xiàn)了級(jí)聯(lián)結(jié)構(gòu)在模型中改善了分割血管的連通性,提升了結(jié)構(gòu)預(yù)測(cè)的能力,提升了模型的性能。Wu等人[12]提出的多尺度跟蹤網(wǎng)絡(luò)(multiscale network followed network,MS-NFN)包含NFN 模塊。每個(gè)NFN 模塊由兩個(gè)子網(wǎng)絡(luò)(uppool 網(wǎng)絡(luò)或者pool-up 網(wǎng)絡(luò))形成了級(jí)聯(lián)結(jié)構(gòu)。對(duì)兩個(gè)不同路徑的NFN 模塊網(wǎng)路生成的血管分割圖進(jìn)行平均得到最后的血管分割結(jié)果。Lian 等人[13]提出了基于全局和局部增強(qiáng)圖片的殘差U-net 網(wǎng)絡(luò),其中用于粗分割的WUN(weighted U-net)模塊和用于細(xì)化的WRUN(weighted Res-Unet)模塊組成了級(jí)聯(lián)結(jié)構(gòu)。全局增強(qiáng)眼底圖的圖像切片作為WUN 的輸入生成粗分割血管圖,局部增強(qiáng)的圖像切片、相應(yīng)金標(biāo)準(zhǔn)的圖像切片以及前一級(jí)網(wǎng)絡(luò)的粗分割血管圖作為WRUN 的聯(lián)合輸入來(lái)訓(xùn)練網(wǎng)絡(luò)。這個(gè)模型能夠很好地處理光照、硬性區(qū)域視盤(pán)、病變區(qū)、邊緣區(qū)、視盤(pán)區(qū)等異常噪聲區(qū)域。同時(shí)該模型能夠很好地分割細(xì)小血管,又能保持視網(wǎng)膜血管的幾何連接。
2.2.2 多路徑神經(jīng)網(wǎng)絡(luò)
Fig.4 NFN+neural network structure圖4 NFN+神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)圖
多路徑神經(jīng)網(wǎng)絡(luò)是兩個(gè)及以上不同路徑的神經(jīng)網(wǎng)絡(luò)并行組成的網(wǎng)絡(luò)架構(gòu)(圖5[39]),每條路徑關(guān)注圖像不同特征的信息,比如一個(gè)路徑關(guān)注全局特征,另一個(gè)路徑就關(guān)注局部特征,最后將兩個(gè)路徑的產(chǎn)生的特征圖進(jìn)行整合得到最后的結(jié)果。這種神經(jīng)網(wǎng)絡(luò)可以整合更多的語(yǔ)義信息,同時(shí)對(duì)于感興趣的區(qū)域有更好的針對(duì)性,有利于毛細(xì)血管和薄血管的分割,多路徑神經(jīng)網(wǎng)絡(luò)對(duì)于圖像分割領(lǐng)域來(lái)說(shuō)是一個(gè)新的嘗試。如Tian 等人[39]模擬了初級(jí)視覺(jué)皮層對(duì)多路徑信息處理的神經(jīng)編碼機(jī)制,提出了多路徑卷積神經(jīng)網(wǎng)絡(luò)[39]分割方法,兩個(gè)路徑分別為高頻特征提取路徑和低頻特征提取路徑,其中高頻提取路徑關(guān)注圖像的局部信息,低頻特征提取路徑關(guān)注圖像的全局信息。Yan 等人[6]提出的深度學(xué)習(xí)模型分為厚血管分割、細(xì)血管分割和血管特征融合三個(gè)階段。對(duì)粗血管和細(xì)血管進(jìn)行分離分割可以獲得更好的鑒別特征,因此最大限度地減少了粗細(xì)血管比例不平衡所帶來(lái)的負(fù)面影響,血管融合階段通過(guò)進(jìn)一步識(shí)別非血管像素來(lái)改善血管整體厚度一致性細(xì)化了結(jié)果。Wang 等人[30]提出的DEU-Net 網(wǎng)絡(luò)有兩種編碼路徑:一種是帶有大核的空間路徑以保留空間信息;另一種是帶有多尺度卷積塊的上下文路徑以捕獲更多語(yǔ)義信息。Wu 等人[32]提出的Vessel-Net網(wǎng)絡(luò),在模型優(yōu)化過(guò)程中引入了傳統(tǒng)的監(jiān)管路徑、豐富特征的監(jiān)管路徑和兩種多尺度的監(jiān)管路徑。Khan 等人[40]提出的網(wǎng)絡(luò)其中一條路徑提取目標(biāo)清晰的邊緣,另一條通過(guò)空間金字塔池化模塊將幾種不同的分辨率的特征進(jìn)行匯集去提取顯著的語(yǔ)義信息。
2.2.3 多尺度神經(jīng)網(wǎng)絡(luò)
Fig.5 Multi-path convolutional neural network designed by Tian et al圖5 Tian 等人設(shè)計(jì)的多路徑卷積神經(jīng)網(wǎng)絡(luò)
Fig.6 Neural network integrating multiple layers of semantics designed by Song et al圖6 Song 等人設(shè)計(jì)的整合多層語(yǔ)義的神經(jīng)網(wǎng)絡(luò)
多尺度神經(jīng)網(wǎng)絡(luò)是對(duì)不同尺度大小的特征圖進(jìn)行整合,典型結(jié)構(gòu)見(jiàn)圖6[35],考慮到高層特征和底層特征不同的優(yōu)勢(shì),高層特征有助于像素的分類(lèi),底層特征可以幫助像素的定位[35]。將不同層級(jí)的語(yǔ)義相互整合可以獲得更加全面的信息。如Song 等人[35]提出的神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)以圖像切片作為輸入,每個(gè)模塊創(chuàng)建固定大小的特征圖,然后將這些不同尺度的特征圖組合成一個(gè)單獨(dú)的特征圖。Feng 等人[35]提出一種交叉連接卷積神經(jīng)網(wǎng)絡(luò)(cross-connected convolutional network,CcNet),主路徑和次路徑之間的交叉連接融合了多層次的特征,根據(jù)學(xué)習(xí)到的特征預(yù)測(cè)像素的類(lèi)別。Hu 等人[41]提出基于改進(jìn)的交叉損失函數(shù)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行多尺度特征圖的整合,并且引入了全連通條件隨機(jī)場(chǎng)(fully connected conditional random fields,F(xiàn)ully CRFs)來(lái)消除特征圖噪聲和邊緣模糊的問(wèn)題來(lái)細(xì)化特征圖,從而得到最后的分割結(jié)果。Guo 等人[26]提出的BTS-DSN 網(wǎng)路引入了bottomtop short connections 和top-bottom short connections的連接方式,bottom-top short connections 將底層的語(yǔ)義信息傳遞給高層,細(xì)化了高層側(cè)輸出的結(jié)果,緩解了由于降采樣操作高層側(cè)輸出糊化的問(wèn)題,topbottom short connections 將高層的結(jié)構(gòu)信息傳遞給底層,優(yōu)化了底層側(cè)輸出的結(jié)構(gòu)信息,減少了底層側(cè)輸出的噪聲。Zhang 等人[28]提出了基于全卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu),將相鄰的卷積層提取的特征融合在一起,可以將底層的信息盡可能地傳輸?shù)巾攲印M瑫r(shí)引入文獻(xiàn)[27]中的Atrous Convolution 來(lái)取代常規(guī)的卷積操作。Xu 等人[29]采用不同膨脹率的并行放大卷積濾波器設(shè)計(jì)多尺度聚合塊,并嵌入網(wǎng)絡(luò)中,充分探索利用多尺度信息。在CHASE-DB1 和HRF 中的性能體現(xiàn)了文中提出方法的有效性,解決了毛細(xì)血管尺度變化大,不利于分割的問(wèn)題。
2.2.4 算法的性能對(duì)比
表6 是關(guān)于近期視網(wǎng)膜血管分割算法的性能對(duì)比表格,其中標(biāo)黑的部分是在相應(yīng)的指標(biāo)排名前三的性能分?jǐn)?shù)。通過(guò)性能的對(duì)比發(fā)現(xiàn),Lian 等人[13]提出的級(jí)聯(lián)結(jié)構(gòu)+跳躍連接+加權(quán)注意機(jī)制和Wang 等人[14]提出的特征金字塔級(jí)聯(lián)模塊在SP、ACC 上取得了較好的性能。Wu 等人[2]提出的級(jí)聯(lián)結(jié)構(gòu)+跳躍連接在AUC 上性能突出。級(jí)聯(lián)結(jié)構(gòu)的第一級(jí)可以確定視網(wǎng)膜血管的形狀和大概位置,級(jí)聯(lián)網(wǎng)絡(luò)的第二級(jí)對(duì)分類(lèi)錯(cuò)誤的像素重新進(jìn)行預(yù)測(cè),以及對(duì)血管結(jié)構(gòu)進(jìn)行優(yōu)化。在單獨(dú)SE 上,Tian 等人[39]提出的多路徑網(wǎng)絡(luò)的SE=86.39%取得了最高的性能。在單獨(dú)SP 上,Lian等人[13]提出的級(jí)聯(lián)結(jié)構(gòu)+跳躍連接+加權(quán)注意機(jī)制網(wǎng)絡(luò)達(dá)到了最優(yōu)的性能SP=98.61%。在單獨(dú)ACC 上,Lian 等人[13]的工作也是最優(yōu)的,ACC=96.92%。在單獨(dú)AUC 上,Wu 等人[12]提出的多路徑+級(jí)聯(lián)結(jié)構(gòu)和Gridach[46]提出的ResNet 預(yù)訓(xùn)練網(wǎng)絡(luò)+金字塔擴(kuò)張模塊達(dá)到了最優(yōu)AUC 分別為98.70%、98.74%。多路徑神經(jīng)網(wǎng)絡(luò)通過(guò)不同的路徑關(guān)注視網(wǎng)膜血管的不同的信息,可以獲得更加有利于細(xì)小血管分割的特征,也較利于血管的分割。
2.2.5 算法的復(fù)雜度分析
如表7 中所示,在上述算法實(shí)施的平臺(tái)主要是英偉達(dá)的顯卡,可以滿(mǎn)足現(xiàn)實(shí)部署的實(shí)施。Feng 等人[34]、Wei 等人[48]設(shè)計(jì)的算法推斷時(shí)間都是處于毫秒級(jí)的,可以滿(mǎn)足現(xiàn)實(shí)中的算法需要的推斷時(shí)間。Laibacher等人[47]、Jin等人[10]、Wei等人[48]的計(jì)算參數(shù)數(shù)量分別為0.55×106、0.88×106、0.27×106,計(jì)算的代價(jià)也比較小。Laibacher 等人[47]、Wei 等人[48]中模型的大小分別只有2.2 MB 和1.2 MB,具備了嵌入在設(shè)備上的潛力。因此近些年提出的基于深度學(xué)習(xí)的視網(wǎng)膜血管分割算法具有實(shí)際應(yīng)用的潛力。
2.2.6 算法的缺點(diǎn)分析
雖然目前的視網(wǎng)膜血管分割算法取得了很好的結(jié)果,但在SE 這一指標(biāo)上始終沒(méi)有突破90.00%,因此分割算法還是有待提升。列舉了目前最優(yōu)的視網(wǎng)膜血管分割算法解決的問(wèn)題,并總結(jié)出最優(yōu)算法存在的不足。
在文獻(xiàn)[13]中設(shè)計(jì)了級(jí)聯(lián)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),在網(wǎng)絡(luò)第二級(jí)采用了對(duì)圖像切片進(jìn)行增強(qiáng)的方法,通過(guò)對(duì)局部圖像的增強(qiáng),獲得了豐富的局部信息,有利于薄血管的分割。級(jí)聯(lián)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)在網(wǎng)絡(luò)的第二級(jí)優(yōu)化了第一級(jí)網(wǎng)絡(luò)的分割結(jié)果,對(duì)于血管的結(jié)構(gòu)又進(jìn)行了優(yōu)化。在文獻(xiàn)[2]中級(jí)聯(lián)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)后一級(jí)網(wǎng)絡(luò)可以?xún)?yōu)化血管的結(jié)構(gòu),前一級(jí)網(wǎng)絡(luò)預(yù)測(cè)錯(cuò)誤的像素,可以通過(guò)后一級(jí)網(wǎng)絡(luò)重新預(yù)測(cè)。同時(shí)作者利用兩級(jí)網(wǎng)絡(luò)間的跳躍連接以及網(wǎng)絡(luò)內(nèi)的跳躍連接將底層的特征傳輸?shù)礁邔?,有利于薄血管的分割。在文獻(xiàn)[39]中設(shè)計(jì)了多路徑卷積神經(jīng)網(wǎng)絡(luò),能夠有效抑制噪聲,保證血管分割后的連續(xù)性。同時(shí)作者利用高斯低通濾波器和高斯高通濾波器對(duì)圖像進(jìn)行處理分別得到包含全局特征信息的低頻圖像和包含局部特征信息的高頻圖像,通過(guò)多路徑整合了更加全面的信息,其中關(guān)于局部特征的信息更加有利于薄血管的分割。在文獻(xiàn)[12]中提出的多尺度的跟隨網(wǎng)絡(luò)用于視網(wǎng)膜血管分割,其中提出的NFN 模塊,在一定程度上遏制了預(yù)測(cè)血管斷裂的問(wèn)題。但是沒(méi)有考慮細(xì)小血管的分割,以及有病變區(qū)域圖像的分割。在文獻(xiàn)[14]中提出的RVSeg-Net網(wǎng)絡(luò)中包含了特征金字塔級(jí)聯(lián)模塊(feature pyramid cascade module,F(xiàn)PC),這個(gè)模塊能夠捕獲多尺度的特征,解決視網(wǎng)膜血管尺寸變化大的問(wèn)題,同時(shí)聚合了局部和全局語(yǔ)義信息解決了不連續(xù)的問(wèn)題。在文獻(xiàn)[32]中作者提出了Vessel-Net 網(wǎng)絡(luò)用于視網(wǎng)膜血管分割。其中整合了Inception 和residual模塊改善了特征表示。提出的多路徑監(jiān)督方法保留了多尺度特征,對(duì)于血管的結(jié)構(gòu)預(yù)測(cè)起到了很大的作用。
Table 6 Performance comparison of retinal vessel segmentation methods表6 視網(wǎng)膜血管分割方法的性能對(duì)比
Table 7 Analysis of algorithm complexity表7 算法復(fù)雜度的分析
在文獻(xiàn)[2,13,39]中都考慮了對(duì)于薄血管分割的問(wèn)題,在文獻(xiàn)[2,13,32]中都考慮了血管結(jié)構(gòu)預(yù)測(cè)的問(wèn)題,在文獻(xiàn)[12,14,39]中都考慮了血管分割結(jié)果中血管不連續(xù)的問(wèn)題,在文獻(xiàn)[14]中考慮了血管尺度變化大的問(wèn)題。對(duì)于這些最新的相關(guān)研究關(guān)注的問(wèn)題都只是解決了某一個(gè)或者兩方面的問(wèn)題,而沒(méi)有解決所有的問(wèn)題。
總的來(lái)說(shuō),目前視網(wǎng)膜血管分割算法對(duì)于一些模糊小血管的分割存在著困難,雖然目前有一些針對(duì)這個(gè)問(wèn)題的算法,但是敏感性始終維持在83%左右,還存在著很大的提升空間,同時(shí)這些模糊小血管還是造成分割結(jié)果中血管斷裂的主要因素;對(duì)于分叉交叉這些血管的連接處,算法的分割可能會(huì)出現(xiàn)斷裂的問(wèn)題;對(duì)于視網(wǎng)膜中存在病變區(qū)域的血管分割還是存在著問(wèn)題,且相關(guān)研究較少。
在移動(dòng)設(shè)備硬件資源不足的情況下,包含大量參數(shù)的神經(jīng)網(wǎng)絡(luò)的現(xiàn)實(shí)部署就會(huì)存在一些限制。一方面神經(jīng)網(wǎng)絡(luò)不能超過(guò)設(shè)備的存儲(chǔ)和計(jì)算大小的極限,另一方面還要滿(mǎn)足一定的性能要求。在視網(wǎng)膜血管分割任務(wù)中,相關(guān)人員探索了輕量級(jí)的卷積神經(jīng)網(wǎng)絡(luò)。如Hajabdollahi 等人[31]提出了一種基于量化和剪枝相結(jié)合的神經(jīng)網(wǎng)絡(luò)。其中全連接層被量化,卷積層被修剪,網(wǎng)絡(luò)的參數(shù)減少了60%。在STARE數(shù)據(jù)集上SE=75.99%,SP=97.57%,ACC=95.81%,算法在SE和SP 的指標(biāo)上獲得了當(dāng)前接近最優(yōu)的性能,證明了簡(jiǎn)化CNN 有作為便攜式視網(wǎng)膜診斷設(shè)備中血管自動(dòng)分割方法的潛力。隨后,Laibacher等人[47]提出了M2UNet網(wǎng)絡(luò)的參數(shù)只有0.55×106,相較于U-Net網(wǎng)絡(luò)31.03×106的參數(shù)來(lái)說(shuō)明顯降低。在Rockchip RK3399平臺(tái)上進(jìn)行測(cè)試時(shí),M2U-Net的推斷時(shí)間只需要5 870.0 ms,而U-Net的推斷時(shí)間則需要8 460 000.0 ms,證明了網(wǎng)絡(luò)實(shí)時(shí)分割的潛力。Li 等人[3]沿用U 型網(wǎng)絡(luò)的結(jié)構(gòu)并整合了注意力機(jī)制模塊,模塊提升了中間層的利用率,適當(dāng)?shù)販p少模型的深度,最深的特征圖僅僅只有128 通道,模型總共只有0.4×106的參數(shù)。Wei 等人[48]考慮到人工設(shè)計(jì)神經(jīng)網(wǎng)絡(luò)是非常費(fèi)時(shí)的,因此基于遺傳算法自動(dòng)設(shè)計(jì)一個(gè)輕量級(jí)的U 型網(wǎng)絡(luò),網(wǎng)絡(luò)對(duì)于每張圖片的推斷時(shí)間只有27.5 ms,網(wǎng)絡(luò)參數(shù)僅有0.27×106。Atli 等人[49]提出了一種新穎的全卷積神經(jīng)網(wǎng)絡(luò),利用上采樣和下采樣的方式構(gòu)建了形狀類(lèi)似正弦波的網(wǎng)絡(luò),網(wǎng)絡(luò)的每張圖片的推斷時(shí)間為350.0 ms。表8是近些年關(guān)于輕量化網(wǎng)絡(luò)的總結(jié)。
通過(guò)以上總結(jié)可以看到神經(jīng)網(wǎng)絡(luò)具有落地應(yīng)用的潛力。在移動(dòng)設(shè)備硬件資源局限的情況下,設(shè)計(jì)一個(gè)性能達(dá)標(biāo)并且參數(shù)盡可能小的神經(jīng)網(wǎng)絡(luò)是一個(gè)值得探索的方向。
生成對(duì)抗網(wǎng)絡(luò)一般用于生成圖像數(shù)據(jù)[51],由鑒別器和生成器兩個(gè)網(wǎng)絡(luò)組成。當(dāng)鑒別器試圖區(qū)分生成器的生成圖像和金標(biāo)準(zhǔn)圖像時(shí),生成器試圖生成鑒別器無(wú)法區(qū)分的圖像。近些年來(lái)也有人將生成對(duì)抗網(wǎng)絡(luò)(GAN)用于圖像的分割,比如Son 等人[24]將GAN 用于視網(wǎng)膜血管的分割,并且在DRIVE 數(shù)據(jù)庫(kù)上AUC=98.03%,接近當(dāng)前Gridach[46]AUC=98.74%的最優(yōu)性能。雖然直接使用GAN 網(wǎng)絡(luò)可以獲得較好的分割結(jié)果,但GAN 的鑒別器較少有相關(guān)結(jié)構(gòu)的研究,盡管鑒別器不直接生成圖像,但是它也需要足夠的能力去識(shí)別生成圖像和真實(shí)標(biāo)簽之間細(xì)節(jié)的差別。為了保證鑒別器能夠提取高分辨率的細(xì)節(jié)信息,Zhou 等人[21]在GAN[22]網(wǎng)絡(luò)的生成器和鑒別器上都使用U-Net 作為基礎(chǔ)網(wǎng)絡(luò),構(gòu)建出對(duì)稱(chēng)平衡體系,保證了鑒別器有能力提取高分辨率的信息。同時(shí)在生成器中嵌入了多尺度特征細(xì)化塊(multi-scale features refine block,MSFRB),MSFRB 優(yōu)化了高分辨率的淺層特征和高層語(yǔ)義特征,并且促進(jìn)了它們的融合。在MSFRB 分支中加入了注意力機(jī)制(attention mechanism,AM)抑制了不重要的特征。提出的對(duì)稱(chēng)均衡生成對(duì)抗網(wǎng)絡(luò)(symmetric equilibrium generative adversarial network,SEGAN)在DRIVE數(shù)據(jù)集上AUC=98.30%。GAN 網(wǎng)絡(luò)的鑒別器可以鑒別生成分割圖和真實(shí)標(biāo)簽之間的差異,相對(duì)于全卷積和編碼解碼類(lèi)型的網(wǎng)絡(luò)多了一個(gè)校正錯(cuò)誤的老師,不斷促使生成器去生成接近真實(shí)標(biāo)簽的血管分割圖,并且相關(guān)研究結(jié)果表現(xiàn)出較好的性能。因此將GAN 系列網(wǎng)絡(luò)用于視網(wǎng)膜血管的分割是一個(gè)有潛力的研究方向。
Table 8 Performance and parameter comparison of light-weight networks表8 輕量級(jí)網(wǎng)絡(luò)的性能以及參數(shù)對(duì)比
在深度學(xué)習(xí)中損失函數(shù)決定模型最后收斂的區(qū)域。設(shè)計(jì)一個(gè)針對(duì)特定任務(wù)的損失函數(shù)有助于模型的收斂。Yan 等人[25]設(shè)計(jì)了一個(gè)針對(duì)視網(wǎng)膜血管分割任務(wù)的聯(lián)合損失函數(shù),它是由分段級(jí)損失和像素級(jí)損失組成的,這種損失讓厚薄血管在損失計(jì)算中的重要性更加均衡,在一定程度上解決了厚血管和薄血管分布不均勻的問(wèn)題,在DRIVE 上SP=98.18%,接近當(dāng)前Lian 等人[13]SP=98.61%的最優(yōu)性能。因此設(shè)計(jì)一個(gè)針對(duì)視網(wǎng)膜血管分割任務(wù)的損失函數(shù)是值得探索的研究方向。
視網(wǎng)膜眼底圖像提供了豐富的病理變化信息,可用于黃斑變性、糖尿病視網(wǎng)膜病變、青光眼等眼病的診斷。在眼底圖像的各種特征中,視網(wǎng)膜血管特征起著至關(guān)重要的作用。為了提取視網(wǎng)膜血管的特征,生成一個(gè)精確的視網(wǎng)膜血管分割是必要的。本文對(duì)近年來(lái)基于深度學(xué)習(xí)的視網(wǎng)膜血管分割方法的研究進(jìn)行回顧總結(jié),得到的結(jié)論及下一步的研究方向如下:
(1)總結(jié)了5 個(gè)常見(jiàn)的眼底圖像數(shù)據(jù)庫(kù),其中在研究中使用最多的是DRIVE 數(shù)據(jù)庫(kù)。這些開(kāi)源數(shù)據(jù)庫(kù)有效推進(jìn)了深度學(xué)習(xí)在眼底視網(wǎng)膜血管分割方面的應(yīng)用,然而現(xiàn)有眼底圖像數(shù)據(jù)庫(kù)建立工作仍存在一些不足,主要表現(xiàn)在數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)并不統(tǒng)一和數(shù)據(jù)庫(kù)的數(shù)據(jù)較少等方面。建立有一定數(shù)據(jù)規(guī)模的高質(zhì)量眼底圖像數(shù)據(jù)庫(kù),是下一步研究的重要工作內(nèi)容。
(2)數(shù)據(jù)增強(qiáng)、圖像預(yù)處理及圖像切片處理,常用在視網(wǎng)膜血管分割任務(wù)中,在現(xiàn)有研究中使用較多的數(shù)據(jù)增強(qiáng)技術(shù)為水平或豎直翻轉(zhuǎn),使用較多的圖像預(yù)處理方法為圖像灰度化和標(biāo)準(zhǔn)化。
(3)從網(wǎng)絡(luò)架構(gòu)的角度可將視網(wǎng)膜血管分割網(wǎng)絡(luò)分為級(jí)聯(lián)結(jié)構(gòu)、多路徑和多尺度神經(jīng)網(wǎng)絡(luò)。級(jí)聯(lián)結(jié)構(gòu)網(wǎng)絡(luò)的第一級(jí)可以確定視網(wǎng)膜血管形狀和大概位置,第二級(jí)對(duì)第一級(jí)網(wǎng)絡(luò)的分割結(jié)果進(jìn)行優(yōu)化,這種結(jié)構(gòu)適用于結(jié)構(gòu)復(fù)雜的視網(wǎng)膜血管的分割。多路徑神經(jīng)網(wǎng)絡(luò)通過(guò)整合不同路徑的信息就可以得到更加全面的信息,避免了神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程中過(guò)度關(guān)注某一方面的信息,而忽略了其他重要的信息,多路徑神經(jīng)網(wǎng)絡(luò)在視網(wǎng)膜血管分割任務(wù)中就可以一定程度上避免神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí)對(duì)粗血管的依賴(lài)程度過(guò)高,而忽略細(xì)血管的問(wèn)題。
(4)部分先進(jìn)網(wǎng)絡(luò)推斷時(shí)間可以達(dá)到毫秒級(jí),計(jì)算消耗在兆以下,網(wǎng)絡(luò)的大小在10 MB 以下。這些性能良好的網(wǎng)絡(luò)具有實(shí)際應(yīng)用的潛力。
(5)對(duì)于薄血管,病變區(qū)域的分割以及對(duì)于血管結(jié)構(gòu)的預(yù)測(cè),還是存在困難,而且分割中可能會(huì)出現(xiàn)血管斷裂的情況。目前的算法只是針對(duì)單一問(wèn)題做出了相關(guān)研究,并沒(méi)有同時(shí)解決所有的問(wèn)題。
(6)目前用于視網(wǎng)膜血管分割任務(wù)綜合最優(yōu)的神經(jīng)網(wǎng)絡(luò)是級(jí)聯(lián)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),網(wǎng)絡(luò)達(dá)到的敏感性、特異性、準(zhǔn)確性分別為82.78%、98.61%和96.92%。
(7)在移動(dòng)設(shè)備硬件資源限制的情況下,網(wǎng)絡(luò)輕量化是值得探索的方向。GAN 系列網(wǎng)絡(luò)用于視網(wǎng)膜血管分割及設(shè)計(jì)針對(duì)視網(wǎng)膜血管任務(wù)的損失函數(shù)是未來(lái)有潛力的研究方向。