李凈,鐘元芾,李曉凱,王振華
1. 上海交通大學(xué)附屬第六人民醫(yī)院 紀(jì)檢監(jiān)察處,上海 201306;2. 上海海洋大學(xué) 信息學(xué)院,上海 201306
黃斑水腫(Macular Edema,ME)是糖尿病視網(wǎng)膜病變、老年性黃斑變性和視網(wǎng)膜靜脈阻塞等眼部疾病患者視力下降的常見原因之一。ME在臨床上被定義為視網(wǎng)膜內(nèi)的血清液積聚和視網(wǎng)膜中央厚度增加[1]。ME的早期檢測對視網(wǎng)膜病變的治療和視力損害的預(yù)防具有重要意義。光學(xué)相干斷層成像(Optical Coherence Tomography,OCT)是一種低相干光干涉技術(shù)的無創(chuàng)、無接觸的成像方法[2],在眼科臨床上有著廣泛的應(yīng)用。OCT圖像可提供視網(wǎng)膜組織信息,醫(yī)療工作者可通過OCT圖像中的視網(wǎng)膜內(nèi)液/囊腫區(qū)域圖來評估ME的嚴(yán)重程度,以此輔助疾病治療方案的決策,可見ME區(qū)域的準(zhǔn)確分割對臨床診斷具有重要[3-5]。
由訓(xùn)練有素的眼科醫(yī)生來對ME區(qū)域進(jìn)行手工標(biāo)注一直被認(rèn)為是“黃金標(biāo)準(zhǔn)”。但手工標(biāo)注存在以下問題:① 耗時(shí)長、效率低,醫(yī)生需要耗費(fèi)大量的時(shí)間和精力來完成病變區(qū)域的標(biāo)注工作;② 存在主觀性,不同醫(yī)生由于經(jīng)驗(yàn)不同,對同一病人ME區(qū)域的標(biāo)注結(jié)果存在差異;③ 圖像信息利用率低、可重復(fù)性低。近年來,計(jì)算機(jī)輔助算法被應(yīng)用于ME的臨床診斷,如閾值分割[6]、區(qū)域分割[7]、圖模型[8]和滑動(dòng)輪廓分割[9]等。He等[10]將圖像去噪預(yù)處理與改進(jìn)水平集模型相結(jié)合,分割并計(jì)算了水腫區(qū)域的面積。張?zhí)鞓虻萚11]將高斯濾波器與水平集方法相結(jié)合,提出了基于多分辨率及水平集的黃斑圖像分割方法。
計(jì)算機(jī)輔助算法提高了OCT圖像中ME分割的效率,但這些算法因高度依賴于OCT圖像的質(zhì)量和專業(yè)的先驗(yàn)領(lǐng)域知識而限制了其普適性。深度學(xué)習(xí)因其對圖像特征的提取能力和對復(fù)雜問題的擬合能力,在醫(yī)療和醫(yī)學(xué)圖像分析中受到了極大的關(guān)注。許多學(xué)者將深度學(xué)習(xí)用于醫(yī)學(xué)OCT圖像中病變部位的分割。如Xu等[12]將U-net神經(jīng)網(wǎng)絡(luò)與殘差網(wǎng)絡(luò)理念結(jié)合,提出了一種對糖尿病視網(wǎng)膜病變的分割模型。Hu等[13]提出了改進(jìn)的空間金字塔池化模塊,并與深度卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,對視網(wǎng)膜下積液和內(nèi)液進(jìn)行分割。Lu等[14]結(jié)合神經(jīng)網(wǎng)絡(luò)模型與隨機(jī)森林模型,對視網(wǎng)膜積液進(jìn)行由粗到細(xì)的分割。由上述文獻(xiàn)可以看出,面向OCT圖像的深度學(xué)習(xí)算法已廣泛應(yīng)用于醫(yī)學(xué)病變部位的分割,但仍存在以下幾點(diǎn)問題:① 現(xiàn)有神經(jīng)網(wǎng)絡(luò)的參數(shù)量大且計(jì)算時(shí)間較長,醫(yī)學(xué)疾病診斷的強(qiáng)時(shí)效性對神經(jīng)網(wǎng)絡(luò)分割的效率提出了挑戰(zhàn);② OCT圖像的質(zhì)量參差不齊,黃ME域尺度差異大且紋理識別難度高,異質(zhì)的OCT圖像質(zhì)量對神經(jīng)網(wǎng)絡(luò)分割的精度提出了挑戰(zhàn)。針對上述問題,本文聯(lián)合Dilated U-net和全連接條件隨機(jī)場(Conditional Random Field,CRF)提出了一種ME全自動(dòng)分割模型。
本文提出的ME全自動(dòng)分割模型包括:① 采用孔洞卷積代替原始卷積增大網(wǎng)絡(luò)感受野,改進(jìn)U-net神經(jīng)網(wǎng)絡(luò)(Dilated U-net),實(shí)現(xiàn)ME區(qū)域的粗分割;② 將粗分割結(jié)果作為初始輪廓曲線,利用全連接CRF實(shí)現(xiàn)ME區(qū)域邊界優(yōu)化,圖1所示為ME全自動(dòng)分割模型架構(gòu)圖。
圖1 ME自動(dòng)分割模型架構(gòu)圖
U-net[15]神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)簡單,參數(shù)量少,其特點(diǎn)是將分割目標(biāo)的底層信息和高層信息結(jié)合用于目標(biāo)像素點(diǎn)的定位。但U-net網(wǎng)絡(luò)使用傳統(tǒng)卷積和池化操作提取眼底OCT圖像的特征,此方法對圖像中的小尺度目標(biāo)不敏感,導(dǎo)致小尺度ME區(qū)域空間信息丟失,故此較難提取OCT圖像的深層特征。同時(shí),像素級別的分割方法忽視了ME的空間一致性,無法兼顧像素間的關(guān)系。因此,直接利用U-net網(wǎng)絡(luò)模型進(jìn)行ME區(qū)域分割其精確不高。
本文采用孔洞卷積代替原始卷積增大網(wǎng)絡(luò)感受野,改進(jìn)了U-net神經(jīng)網(wǎng)絡(luò),見圖2。Dilated U-net網(wǎng)絡(luò)模型由左側(cè)下采樣收縮路徑和右側(cè)上采樣擴(kuò)張路徑組成,收縮路徑中使用孔洞卷積替代原始卷積,增大了深層特征圖的感受野,提高了對小尺度ME特征的提取能力。
圖2 Dilated U-net網(wǎng)絡(luò)模型框架
理論上感受野增加的同時(shí)其卷積核增大,而大卷積核亦增加了參數(shù)量和計(jì)算復(fù)雜度,對硬件計(jì)算能力要求較高且不利于模型的收斂。針對此問題,Dilated U-net網(wǎng)絡(luò)模型在原始卷積中插入孔洞卷積(權(quán)重參數(shù)為0)??锥淳矸e保證了卷積層在不降低空間維度和不增加計(jì)算參數(shù)的情況下增大卷積的感受野。
孔洞卷積核大小計(jì)算公式為式(1)所示。
其中,r為膨脹系數(shù),當(dāng)r=1時(shí)即為原始卷積。fh fw為原始卷積核高和寬;Fh Fw為孔洞卷積核高和寬。
為了加速網(wǎng)絡(luò)訓(xùn)練,Dilated U-net網(wǎng)絡(luò)模型在網(wǎng)絡(luò)結(jié)構(gòu)中添加了批歸一化層(Batch Normalization,BN)。在網(wǎng)絡(luò)訓(xùn)練中,深層數(shù)據(jù)隨前一層參數(shù)的變化而變化,須使用一個(gè)小的學(xué)習(xí)率以及對參數(shù)進(jìn)行良好的初始化,這使得網(wǎng)絡(luò)收斂變得緩慢。BN層通過公式(2)將數(shù)據(jù)分布?xì)w一化到均值為μB,方差為的分布基礎(chǔ)上。
其中,μB和分別代表整個(gè)數(shù)據(jù)集的均值和方差,ε為平滑因子避免分母為0,xi為輸入數(shù)據(jù),為歸一化后數(shù)據(jù),γ和β為可學(xué)習(xí)重構(gòu)參數(shù),yi為網(wǎng)絡(luò)下一層的輸入值。與將xi直接輸入網(wǎng)絡(luò)下一層相比,進(jìn)行BN處理后無需網(wǎng)絡(luò)后層再調(diào)整學(xué)習(xí)以適應(yīng)xi分布,達(dá)到加快網(wǎng)絡(luò)模型收斂的效果。
利用Dilated U-net網(wǎng)絡(luò)模型對ME區(qū)域進(jìn)行分割,克服了網(wǎng)絡(luò)參數(shù)過多導(dǎo)致的數(shù)據(jù)量要求高和欠擬合現(xiàn)象;同時(shí),Dilated U-net網(wǎng)絡(luò)模型對低層形態(tài)特征具有更高的敏感性,適用于語義簡單和結(jié)構(gòu)固定的醫(yī)學(xué)圖像。
為克服Dilated U-net網(wǎng)絡(luò)模型僅考慮區(qū)域像素特征,缺乏全局空間上下文信息,以及邊緣細(xì)節(jié)分割能力不強(qiáng)等問題,本節(jié)引入全連接CRF對Dilated U-net網(wǎng)絡(luò)模型的分割結(jié)果進(jìn)行優(yōu)化。
全連接CRF是一種概率圖模型[16],被廣泛應(yīng)用于圖像分割[17-18]。CRF模塊將分割過程抽象為能量最小化問題。
定義一副圖像I包含n個(gè)像素點(diǎn),X={X1,X2,X3…Xn}為圖像I在標(biāo)簽空間L={0,1}上的觀測量,其中1代表目標(biāo)類別,0代表背景類別,則(X,I)構(gòu)成CRF,其概率分布服從Gibbs分布,見式(3)。
通過最小化能量函數(shù)E(X|I)可獲得最大后驗(yàn)概率P(X|I),即式 (5)。
其中,μ(Xi,Xj)為標(biāo)簽兼容函數(shù),用于懲罰相互連接的相似像素被標(biāo)記為不同的類別。k(m)(fi(m),fi(m))是高斯核函數(shù),ω(m)為每個(gè)高斯核對應(yīng)的權(quán)重。高斯核函數(shù)的表示為式(8)。
fi和fj分別為相連隨機(jī)觀測量Xi和Xj的特征向量,Pi和Pj分別為相連隨機(jī)觀測量Xi和Xj的坐標(biāo)向量。θα和θβ是高斯核中重要的尺度參數(shù),用于控制觀測量Xi和Xj之間的接近度和相似性。
CRF考慮了圖像的空間上下文信息,反映了觀測變量之間的依賴關(guān)系,可剔除較小的誤分割區(qū)域和細(xì)化分割,實(shí)現(xiàn)ME區(qū)域分割邊界的優(yōu)化。
實(shí)驗(yàn)數(shù)據(jù)為200幅OCT圖像(100名女性和100名男性),圖像大小為400×700像素。將200幅OCT圖像分為三組:140幅訓(xùn)練集,30幅驗(yàn)證集,30幅測試集。為了提高訓(xùn)練樣本的多樣性,降低訓(xùn)練過程中因樣本不足帶來的過擬合問題,增強(qiáng)模型的魯棒性。將訓(xùn)練集OCT圖像(140幅)進(jìn)行水平翻轉(zhuǎn)處理,并在ME區(qū)域附近裁剪出一個(gè)256×256的新圖像(圖3),將訓(xùn)練集擴(kuò)增為280幅圖像。
圖3 圖像水平旋轉(zhuǎn)、裁剪處理
實(shí)驗(yàn)運(yùn)行的硬件環(huán)境為32G Intel(R) Core(TM) i7-9850H CPU和6G NVIDIA Quadro RTX3000 GPU。Dilated U-net網(wǎng)絡(luò)模型由開源框架Pytorch構(gòu)建,網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.0001,通過“poly”優(yōu)化方法對學(xué)習(xí)率進(jìn)行動(dòng)態(tài)更新?;陔S機(jī)梯度下降算法對整體訓(xùn)練進(jìn)行網(wǎng)絡(luò)參數(shù)優(yōu)化,使用交叉熵函數(shù)為損失函數(shù)Cross-Entropy loss,定義為式(9)。
其中,x是批次輸入X中的每一個(gè)輸入,t(x)是預(yù)測對象的真實(shí)值,p(x)是網(wǎng)絡(luò)輸出結(jié)果通過Softmax函數(shù)預(yù)測的值。Softmax函數(shù)將輸入結(jié)果作映射,映射所有類別的輸出范圍為[0,1],且和為1,其定義為式(10)。
其中,pi表示第i類輸出,k表示求和時(shí)來自所有類別K的第k類。本文實(shí)驗(yàn)中K的取值為2,即將輸入圖像分為非ME類別和ME類別。
從圖4可以看出,對比網(wǎng)絡(luò)訓(xùn)練loss以及在驗(yàn)證集中測試的Dice相似系數(shù),本文提出的Dilated U-net網(wǎng)絡(luò)模型比U-net網(wǎng)絡(luò)模型更快達(dá)到收斂。
圖4 Dilate U-net網(wǎng)絡(luò)模型訓(xùn)練
本文引入了精確率(Precision)、召回率(Recall)和Dice相似系數(shù)三個(gè)性能參數(shù)對Dilated U-net網(wǎng)絡(luò)模型進(jìn)行性能調(diào)控[20-22]。各評估度量標(biāo)準(zhǔn)的計(jì)算公式為式(11)~(13)。
其中,Vs為模型分割的病變區(qū)域像素個(gè)數(shù),Vg為目視解譯的病變區(qū)域像素個(gè)數(shù)。三個(gè)性能參數(shù)亦可用于不同分割模型的性能比較。
全連接CRF含兩個(gè)參數(shù):θα和θβ,分別用于控制觀測量Xi和Xj之間的接近度和相似性。將經(jīng)過Dilated U-net網(wǎng)絡(luò)分割得到的30幅驗(yàn)證集粗分割結(jié)果圖作為全連接CRF的輸入,通過網(wǎng)格搜索和交叉驗(yàn)證方法獲取CRF成對項(xiàng)中參數(shù)θα和θβ的最優(yōu)取值。首先,固定參數(shù)θα的取值為1,考慮參數(shù)θβ的影響:設(shè)置參數(shù)θβ的取值為1~20,步長為1。根據(jù)驗(yàn)證集OCT圖像,繪制出θα=1,評價(jià)指標(biāo)Dice相似系數(shù)基于參數(shù)θβ不同取值變化的曲線。改變參數(shù)θα的值,取值范圍為1~20,步長為1。根據(jù)驗(yàn)證集數(shù)據(jù),繪制出不同θα取值,評價(jià)指標(biāo)Dice相似系數(shù)基于θβ取值變化的曲線,如圖5所示。
從圖5中可看出,CRF的Dice相似系數(shù)隨參數(shù)值變化有較小波動(dòng),但整體相對穩(wěn)定。當(dāng)θα取值為10,θβ取值為14,CRF可獲取最佳分割性能。
圖5 CRF參數(shù)敏感性測試
將本文模型與C-V[23]和SBG等[7]傳統(tǒng)分割算法進(jìn)行比較,圖6為不同分割模型的ME區(qū)域分割結(jié)果比較。表1為不同分割模型的分割結(jié)果性能參數(shù)比較,包括精確率、召回率、Dice相似系數(shù)及單幅OCT圖像分割耗時(shí)。
圖6 本文模型與C-V、SBG分割模型的分割結(jié)果比較
表1 不同模型分割結(jié)果的精度評價(jià)(±s)
表1 不同模型分割結(jié)果的精度評價(jià)(±s)
模型 精確率/% 召回率/% Dice/% 耗時(shí)/s C-V 34.17±4.67 52.89±20.35 36.51±9.13 2068.3 SBG 46.99±3.34 96.06±0.79 61.07±3.72 33.2本模型 95.94±0.11 95.67±0.72 95.52±0.28 0.9
由圖6可看出:① 本文模型的分割結(jié)果與目視解譯具有更高的相似度,且其抗噪聲干擾能力強(qiáng),受OCT圖像質(zhì)量影響較小,能準(zhǔn)確區(qū)分ME和視網(wǎng)膜組織;② C-V、SBG分割模型抗噪聲干擾能力弱,受OCT圖像質(zhì)量的影響易把噪聲區(qū)域識別為ME區(qū)域;如OCT2、OCT3所示;③ SBG分割模型的分割結(jié)果中,網(wǎng)膜組織區(qū)域被錯(cuò)誤分割為了ME區(qū)域。
由表1可看出:① 本文模型具有最高的精確率和Dice相似系數(shù),分別為95.94%和95.52%,這說明本文模型較C-V和SBG而言,克服了圖像噪音等圖像質(zhì)量因素對分割結(jié)果的影響;② 本文模型分割單幅OCT圖像所需時(shí)間僅為0.9 s,遠(yuǎn)低于C-V和SBG分割模型的分割耗時(shí)。
將本文模型與 FCN[24]、PSPNet[25]、Deeplab[5]和 U-net等網(wǎng)絡(luò)模型進(jìn)行比較,分割結(jié)果如圖7所示。表2為不同網(wǎng)絡(luò)模型的分割結(jié)果性能參數(shù)比較,包括精確率、召回率、Dice相似系數(shù)及單幅OCT圖像分割耗時(shí)。
圖7 本文模型與FCN、PSPNet、Deeplab網(wǎng)絡(luò)模型的分割結(jié)果比較
表2 不同網(wǎng)絡(luò)模型的精度評價(jià)(±s)
表2 不同網(wǎng)絡(luò)模型的精度評價(jià)(±s)
模型 精確率/% 召回率/% Dice/% 耗時(shí)/s FCN 73.85±3.66 83.23±1.48 77.01±3.14 2.6 PSPNet 81.28±0.77 83.01±1.15 82.05±0.94 3.1 Deeplab 86.81±0.64 87.30±1.06 86.87±0.75 3.2 U-net 75.45±5.46 97.49±0.24 83.04±3.49 0.8本模型 95.94±0.11 95.67±0.72 95.52±0.28 0.9
從圖7可看出:① 本文模型對小尺度病變區(qū)域亦有較好的敏感性,且受OCT圖像質(zhì)量影響較小,分割結(jié)果與目視解譯結(jié)果具有更高的相似度;② FCN網(wǎng)絡(luò)模型的分割結(jié)果中,如OCT1、OCT3存在錯(cuò)誤分割現(xiàn)象;PSPNet網(wǎng)絡(luò)模型對小尺度象識別敏感性較差,如OCT2、OCT3中小尺度ME區(qū)域未被正確分割;Deeplab網(wǎng)絡(luò)模型對ME區(qū)域邊界的分割過于平滑;U-net網(wǎng)絡(luò)模型易把OCT圖像中的斷帶識別為ME區(qū)域,圖像邊界存在錯(cuò)誤分割現(xiàn)象。
由表2可看出:① 本文提出的分割模型具有最高的Dice相似系數(shù)95.52%;② 召回率得分僅低于U-net網(wǎng)絡(luò)模型的97.49%。這是因?yàn)榫_率和召回率是處于動(dòng)態(tài)平衡的兩個(gè)指標(biāo),某一指標(biāo)上升的同時(shí)另一指標(biāo)會(huì)下降,而Dice相似系數(shù)是一個(gè)由精確率和召回率共同決定的平衡指標(biāo),均衡的反映了模型的分割精準(zhǔn)性;③ 本文模型分割單幅圖像僅需0.9 s,低于FCN、PSPNet和Deeplab等網(wǎng)絡(luò)模型的分割耗時(shí),計(jì)算耗時(shí)僅次于U-net網(wǎng)絡(luò)模型。
本文提出了一種Dilated U-net網(wǎng)絡(luò)與全連接CRF相結(jié)合的ME全自動(dòng)分割模型。通過與傳統(tǒng)分割算法和不同分割網(wǎng)絡(luò)模型進(jìn)行比較,證明本文模型在保證了分割準(zhǔn)確性的同時(shí),提高了分割的時(shí)效性,可協(xié)助眼科醫(yī)生進(jìn)行ME區(qū)域檢測,提高病變部位診斷的效率。由于現(xiàn)有的訓(xùn)練樣本有限,深度學(xué)習(xí)模型的普適性可能會(huì)受到一定影響,隨著未來數(shù)據(jù)集的積累,視網(wǎng)膜OCT圖像ME區(qū)域分割任務(wù)的準(zhǔn)確性和通用性將進(jìn)一步提高。