艾星芳,謝鑫鵬
(1.江門職業(yè)技術(shù)學(xué)院信息工程學(xué)院,江門529090;2.深圳市騰訊計(jì)算機(jī)系統(tǒng)有限公司,深圳518000)
糖尿病視網(wǎng)膜病變(簡稱糖網(wǎng))是一種嚴(yán)重的眼睛損傷,可導(dǎo)致視力喪失或失明[1]。據(jù)世界衛(wèi)生組織統(tǒng)計(jì),全世界大約有2.2億人受到糖尿病的影響[2],視網(wǎng)膜病變則依據(jù)患者的患病程度以及時(shí)間而有所不同。因此,糖網(wǎng)的早期檢測(cè)對(duì)及時(shí)控制病情和提高患者的生活質(zhì)量有著重要的意義。糖網(wǎng)在眼底圖像中表現(xiàn)為微動(dòng)脈瘤(MA)、出血(HE)、硬滲出物(EX)和軟滲出物(SE)等。滲出物是由受損血管在視網(wǎng)膜表面沉積的蛋白質(zhì)或脂質(zhì),通常呈黃色[3]。硬性滲出物的存在是眼底損傷的明顯標(biāo)志,可以幫助早期發(fā)現(xiàn)糖網(wǎng)(DR)和糖尿病性黃斑水腫(DME)等疾病。在臨床實(shí)踐中,需要對(duì)圖像中的異常區(qū)域進(jìn)行檢測(cè)和分割,從而幫助醫(yī)生進(jìn)行診斷和病情評(píng)估。然而目前臨床上采用的手動(dòng)分割方法消耗了醫(yī)生的大量時(shí)間和精力,迫切需要一種智能算法來輔助醫(yī)生進(jìn)行異常區(qū)域的標(biāo)注。
近年來,在眼底圖像異常區(qū)域檢測(cè)和分割領(lǐng)域已有大量工作。然而主要集中于血管的分割工作[4-6],在病變區(qū)域分割方面仍不成熟。早期工作基于圖像中異常區(qū)域的邊緣、紋理等特征,采用邊緣檢測(cè)、紋理分類和形態(tài)學(xué)等操作來實(shí)現(xiàn)異常區(qū)域的分割。Esmaeili等人[7]提出利用Curvelet小波對(duì)眼底圖像中的視盤和硬滲出物進(jìn)行分割。Singh等人[8]提出了強(qiáng)度閾值和形態(tài)運(yùn)算的策略組合。Walter等人[9]首先采用圖像增強(qiáng)、陰影校正和圖像歸一化作為預(yù)處理。然后,該研究應(yīng)用自動(dòng)閾值方案來檢測(cè)MA的候選區(qū)域。然后利用特征提取方法將候選區(qū)域分為MA和non-MA。Quellec等人[10]采用了一種基于最優(yōu)小波變換的模板匹配技術(shù)來檢測(cè)視網(wǎng)膜圖像中的MA。還提出了一種多尺度幅度-頻率調(diào)制方法來區(qū)分正常和病理視網(wǎng)膜圖像[11]。近年來,隨著深度學(xué)習(xí)算法的發(fā)展,越來越多的醫(yī)學(xué)圖像分析工作開始采用深度學(xué)習(xí)算法。Hornero等人[12]利用神經(jīng)網(wǎng)絡(luò)分類器檢測(cè)視網(wǎng)膜圖像中的硬性滲出物。Tan等人[13]設(shè)計(jì)了一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)來自動(dòng)分割硬性滲出、出血和微動(dòng)脈瘤。Mo等人[14]設(shè)計(jì)了一種用于硬滲出物分割的全卷積殘差網(wǎng)絡(luò)(FCRN)。FCRN只需一次前向掃描就可以生成眼底圖像的滲出概率圖。然而,F(xiàn)CRN是一個(gè)單一的病灶分割模型,對(duì)DR和DME的診斷只能提供有限的幫助。Guo等人[15]提出了一種基于L-seg網(wǎng)絡(luò)的多任務(wù)分割模型,實(shí)現(xiàn)了同一網(wǎng)絡(luò)對(duì)EX、HE、MA和SE的分割。
雖然近年來在眼底圖像病變分割方面已經(jīng)做了大量的工作,但是仍然需要更精確和更有效的算法來對(duì)不同種類的眼底(視網(wǎng)膜)圖像中的病變進(jìn)行分割。在這項(xiàng)工作中,我們提出了一種基于區(qū)域的多分辨率融合卷積神經(jīng)網(wǎng)絡(luò)對(duì)糖尿病視網(wǎng)膜病變相關(guān)的多個(gè)病變進(jìn)行像素級(jí)分割。利用多分辨率(MSM)卷積融合模塊來提取圖像中的底層特征,并設(shè)計(jì)了網(wǎng)絡(luò)嵌套模塊(NIN)來檢測(cè)圖像的高層特征。
實(shí)驗(yàn)數(shù)據(jù)集來自ISBI 2018會(huì)議競賽提供的印度糖尿病視網(wǎng)膜病變圖像數(shù)據(jù)集(IDRiD)。該數(shù)據(jù)集包括眼底影像143張,其中視網(wǎng)膜病變54張,正常89張。視網(wǎng)膜病變圖像包含一個(gè)或多個(gè)視網(wǎng)膜病變,如微動(dòng)脈瘤(MA)、出血(HE)、硬滲出物(EX)和軟滲出物(SE),如圖1所示。圖像的分辨率為4288×2848像素,并以jpg文件格式存儲(chǔ)。每個(gè)圖像的大小約為800kb。
我們對(duì)數(shù)據(jù)進(jìn)行了隨機(jī)訓(xùn)練集和測(cè)試集劃分,其中80%的圖像作為訓(xùn)練集,其余20%作為測(cè)試集。具體劃分情況見表1。由于不是每張圖像都包含所有4種病變,在數(shù)據(jù)劃分時(shí),盡量保證每種病變都按照相同的比例被劃分在訓(xùn)練和測(cè)試數(shù)據(jù)集中。
圖1視網(wǎng)膜病變:微動(dòng)脈瘤(MA)、出血(HE)、硬滲出物(EX)和軟滲出物(SE)
表1 訓(xùn)練與測(cè)試數(shù)據(jù)劃分
在這項(xiàng)工作中,我們提出了一種基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)對(duì)糖尿病視網(wǎng)膜病變相關(guān)的多個(gè)病變進(jìn)行像素級(jí)分割。所謂基于區(qū)域的深度網(wǎng)絡(luò)是將原始圖像劃分為多個(gè)相同尺寸的小區(qū)域,利用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)提取出的小區(qū)域進(jìn)行分類,分類結(jié)果作為該區(qū)域中心像素的標(biāo)簽,從而實(shí)現(xiàn)圖像的像素級(jí)分割。由于圖像中病變區(qū)域相對(duì)較小,因此這種基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(patch-based CNN)比常用的全卷積網(wǎng)絡(luò)(FCN)和Unet更加適合。在使用基于區(qū)域的CNN時(shí),可以通過patch選擇來解決數(shù)據(jù)不平衡的問題。此外,較淺的CNN網(wǎng)絡(luò)可以保證病變區(qū)域的特征不會(huì)在較深的網(wǎng)絡(luò)層中消失。
在這項(xiàng)工作中,數(shù)據(jù)庫中80%的圖像用于訓(xùn)練,20%用于測(cè)試。對(duì)于每幅圖像,我們提取了32×32像素的區(qū)域(patch),并將中心像素的標(biāo)簽分配給它們。采樣間隔為8個(gè)像素,如圖2所示。訓(xùn)練集包含227294個(gè)patch圖像。約50%的patch為正常,其余patch為病變。四個(gè)病灶的patch數(shù)目相同。
圖2區(qū)域提取算法示意圖
在這項(xiàng)工作中,我們提出了一個(gè)多分辨率特征融合網(wǎng)絡(luò)來分割視網(wǎng)膜病變。CNN結(jié)構(gòu)如圖3所示。該網(wǎng)絡(luò)包括一個(gè)常規(guī)卷積層,三個(gè)多分辨率特征提取模塊(MSM),一個(gè)網(wǎng)絡(luò)嵌套模塊(NIN)和一個(gè)全連接層。利用3×3常規(guī)卷積層和三個(gè)MSM來提取patch的底層特征。并設(shè)計(jì)了一個(gè)NIN模塊來檢測(cè)patch中的高級(jí)特征。CNN使用patch進(jìn)行訓(xùn)練。在進(jìn)行分割時(shí),則對(duì)測(cè)試圖像進(jìn)行逐像素patch提取,CNN的預(yù)測(cè)結(jié)果作為中心像素的標(biāo)簽。為了解決邊界效應(yīng),我們?cè)诿總€(gè)邊界處擴(kuò)展圖像18個(gè)像素,并用零填充擴(kuò)展的邊界。
圖3多分辨率融合卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
由于淺層特征圖的分辨率高于深層特征圖,而不同分辨率的特征適用于不同尺度的目標(biāo)檢測(cè)。因此,針對(duì)常規(guī)卷積層無法同時(shí)檢測(cè)多尺度目標(biāo)的問題,本文提出了一種適用于淺層的多分辨率特征提取模塊(MSM),結(jié)構(gòu)如圖4所示。該模塊包含3條支路,采用空洞卷積的思想進(jìn)行設(shè)計(jì),每條支路的空洞半徑不同:分別為1、2和3個(gè)像素。各支路提取不同分辨率的圖像特征,再由特征拼接層進(jìn)行特征融合。
圖4多分辨率特征提取模塊示意圖
網(wǎng)絡(luò)嵌套模塊(NIN)主要是為了更好地融合MSM提取的特征。與淺層不同,深層特征圖的尺寸較小。因此,單一的卷積核就足以進(jìn)行特征提取,在兩個(gè)連續(xù)的3×3卷積之間放置1×1卷積層以進(jìn)行特征融合。
本文所提出的框架是使用Keras工具箱實(shí)現(xiàn)的。網(wǎng)絡(luò)使用GPU(NVIDIA GeForce GTX TITAN X,12GB RAM)進(jìn)行訓(xùn)練,batch size設(shè)置為64。初始學(xué)習(xí)率設(shè)置為0.00001。用Adam代替?zhèn)鹘y(tǒng)的隨機(jī)梯度下降(SGD)作為優(yōu)化算法,并根據(jù)訓(xùn)練數(shù)據(jù)迭代更新神經(jīng)網(wǎng)絡(luò)權(quán)值。網(wǎng)絡(luò)在70個(gè)訓(xùn)練周期后收斂。
我們利用ROC曲線下的面積AUC來對(duì)分割結(jié)果進(jìn)行評(píng)價(jià),見表2。其中MSM+INI表示本文提出的多分辨率融合網(wǎng)絡(luò),MSM表示去掉網(wǎng)絡(luò)嵌套模塊的網(wǎng)絡(luò)。可以看到增加INI模塊可以明顯的提高網(wǎng)絡(luò)的性能。另外,我們也和ISBI 2018參賽的隊(duì)伍前5名隊(duì)伍的網(wǎng)絡(luò)和同樣利用IDRiD數(shù)據(jù)進(jìn)行測(cè)試的L-seg網(wǎng)絡(luò)性能進(jìn)行了比較。表3括號(hào)中的數(shù)值表示該網(wǎng)絡(luò)在所有參與比較的網(wǎng)絡(luò)中的性能排名。本文所提出的多分辨率融合網(wǎng)絡(luò)所有7個(gè)網(wǎng)絡(luò)中排名中上,其中對(duì)于出血(HE)分割的效果排名最高(2/7),軟滲出(SE)分割的排名最差(4/6)。
表2 不同網(wǎng)絡(luò)對(duì)4種異常的分割性能比較
與其他類相比,所有方法在EX和MA的分割上分別表現(xiàn)最好和最差。從圖像中分析,EX表現(xiàn)為高亮且邊緣清晰的異常區(qū)域,在4中異常中最易分辨;而MA表現(xiàn)為較小的暗紅色斑點(diǎn),通常與血管交疊,分割難度最大。與其他方法相比,本文提出的網(wǎng)絡(luò)在HE分割上處于前列,其他3種異常的分割上處于中間。整體分割性能較好,能夠兼顧各種異常的分割性能,沒有明顯的短板。
基于區(qū)域的算法在訓(xùn)練中可以得到很好地效果,準(zhǔn)確率在90%以上,然而由于區(qū)域的標(biāo)記僅基于中心像素的標(biāo)簽,導(dǎo)致在訓(xùn)練過程中,很接近的兩個(gè)區(qū)域可能被分配了不同的類標(biāo)簽,對(duì)網(wǎng)絡(luò)的訓(xùn)練產(chǎn)生了負(fù)面的影響。而在測(cè)試中,基于區(qū)域的網(wǎng)絡(luò)會(huì)傾向于把所有包含異常的區(qū)域都劃分為異常(即使其中心像素是正常的),從而導(dǎo)致異常的分割區(qū)域偏大。
本文提出了一種基于區(qū)域的多分辨率融合卷積神經(jīng)網(wǎng)絡(luò)對(duì)糖尿病視網(wǎng)膜病變相關(guān)的多個(gè)病變進(jìn)行像素級(jí)分割。多分辨率特征提取層被用來提取區(qū)域圖像中的底層特征,網(wǎng)絡(luò)嵌套模塊來檢測(cè)圖像中的高層特征。實(shí)驗(yàn)結(jié)果表明,該網(wǎng)絡(luò)可以有效地分割眼底圖像中的多種病變。