梁禮明,董 信,李仁杰,何安軍
江西理工大學(xué)電氣工程與自動化學(xué)院,江西 贛州 341000
糖尿病視網(wǎng)膜病變(Diabetic retinopathy,DR)是糖尿病一個(gè)常見的急性階段,可引起視網(wǎng)膜的視功能異常,如果不及早發(fā)現(xiàn)治療進(jìn)而會導(dǎo)致失明。因此,盡早診斷和治療DR 將極大地減少失明的機(jī)率[1]。在醫(yī)學(xué)臨床實(shí)踐中,對DR 診斷主要通過眼科醫(yī)生分辨眼底照相機(jī)拍攝的二維(2D)彩色眼底圖片的方式進(jìn)行,但需要經(jīng)驗(yàn)豐富的眼科醫(yī)生才能較為準(zhǔn)確地判斷。而我國具有這樣高水準(zhǔn)的眼科醫(yī)生群體較小,滿足不了國內(nèi)龐大的DR 患者群體需求。因此借助計(jì)算機(jī)輔助診斷技術(shù)實(shí)現(xiàn)DR 自動分級極具研究價(jià)值[2]。
近年來,DR 分級智能診斷研究一直是醫(yī)學(xué)圖像處理領(lǐng)域中熱門話題。隨著深度學(xué)習(xí)的高質(zhì)量發(fā)展,利用深度神經(jīng)網(wǎng)絡(luò)算法對DR 圖像處理進(jìn)行智能診斷的技術(shù)受到廣泛應(yīng)用。但目前的DR 分級智能診斷過程中還存在以下兩點(diǎn)局限:①DR 圖像中微血管瘤、硬性滲出物以及出血點(diǎn)等微小病變特征與視網(wǎng)膜周圍環(huán)境差異小,特征提取不充分;② 醫(yī)學(xué)領(lǐng)域公開的數(shù)據(jù)集各類樣本分布不均衡。針對這些問題,國內(nèi)外學(xué)者開展了相關(guān)研究,如 Zhou 等人[3]提出一種多單元和多任務(wù)結(jié)構(gòu),該結(jié)構(gòu)采用多個(gè)網(wǎng)格結(jié)構(gòu)對不同眼底輸入增加網(wǎng)絡(luò)的深度來進(jìn)一步對眼底圖片特征提取,同時(shí)引入均方差損失函數(shù)最小化標(biāo)簽值和預(yù)測值的差異,提高預(yù)測精度。Du 等人[4]提出一種漸進(jìn)式訓(xùn)練策略和隨機(jī)拼圖補(bǔ)丁生成器來有效融合不同粒度的特征和學(xué)習(xí)潛在特定粒度特征,解決微小病變差異小提取不充分問題,但網(wǎng)絡(luò)推理時(shí)間長而效率不高。鄭雯等人[5]采用多種數(shù)據(jù)增強(qiáng)策略并對數(shù)據(jù)集進(jìn)行無偏修正來解決樣本分布不均衡問題,在ResNext50 殘差網(wǎng)絡(luò)下引入空洞卷積解決圖片分辨率降低、信息丟失等問題,再融合空間和通道注意力機(jī)制淡化圖像中無用信息,加強(qiáng)對病灶區(qū)域的關(guān)注,最后采用遷移學(xué)習(xí)模式進(jìn)一步學(xué)習(xí)病灶的細(xì)節(jié)特征。顧婷菲等[6]提出一種基于多通道注意力選擇機(jī)制的細(xì)粒度分級算法,該算法結(jié)合細(xì)粒度分類方法和多通道注意力選擇機(jī)制來獲取局部特征,并引入排序損失以及優(yōu)化每層通道信息量,得到更多具有信息量的局部區(qū)域。
但以上方法在準(zhǔn)確定位病灶區(qū)域等方面仍然具有一定的局限性。針對上述問題,本文提出了一種基于注意力機(jī)制多特征融合算法來對DR 進(jìn)行有效地診斷分級。該算法主要改進(jìn)內(nèi)容如下:
1) 通過多尺度特征增強(qiáng)模塊(multi-scale features boosting module,MSFB)來獲取更大的感受野,解決訓(xùn)練過程中下采樣引起的圖像分辨率降低和特征提取不充分的問題,并且模塊中空間和通道注意力機(jī)制可以加強(qiáng)對病變區(qū)域的關(guān)注,優(yōu)化模型性能;
2) 再通過圖形特征融合模塊(graphic feature fusion module,GFFM)進(jìn)行信息融合,不同階段的局部特征圖兩兩融合加強(qiáng)病變區(qū)域的權(quán)重,提高模型對病變區(qū)域識別準(zhǔn)確率;
3) 最后利用中心損失和焦點(diǎn)損失的加權(quán)組合緩解數(shù)據(jù)集類間差異小難以區(qū)分和數(shù)據(jù)集樣本分布不平衡等問題,進(jìn)一步提升DR 分級效果。
本文使用基于ResNet 改進(jìn)的殘差網(wǎng)絡(luò)ResNeSt(Split-Attention Networks)作為主干網(wǎng)絡(luò)。ResNeSt 網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)分割的注意力模塊,可以實(shí)現(xiàn)跨通道注意力。ResNeSt 網(wǎng)絡(luò)保留了完整的ResNet 結(jié)構(gòu),以ResNet 樣式堆疊分割的注意力塊,其基數(shù)組沿著通道的維度進(jìn)行連接:V=Concat{V1,V2,···VK}。與標(biāo)準(zhǔn)殘差塊相同,如果輸入和輸出的特征圖形狀相同,則其他分割的注意力塊產(chǎn)生的最終輸出Y通過快捷的連接方式:Y=V+X。對于跨步殘差塊,將通過適當(dāng)?shù)剞D(zhuǎn)換τ(·)后再進(jìn)行快捷的連接方式:Y=V+τ(X)。例如,τ(·)可以是跨步卷積或者卷積與池化的共同操作[7]。ResNeSt 塊的結(jié)構(gòu)如圖1 所示。
圖1 ResNeSt 塊結(jié)構(gòu)Fig.1 Structure of the ResNeSt block
引入空洞卷積策略通常是在不損失原始分辨率的情況下來擴(kuò)展接收域,該策略可以在不增加算法參數(shù)復(fù)雜度的情況下增大網(wǎng)絡(luò)的感受野,從而提高網(wǎng)絡(luò)捕捉特征信息的能力[8]。相比原來的標(biāo)準(zhǔn)卷積,空洞卷積多了一個(gè)超參數(shù)稱之為擴(kuò)張率,指的是卷積核各點(diǎn)之前的間隔數(shù)量。例如擴(kuò)張率為1 時(shí)的卷積核,相當(dāng)于網(wǎng)絡(luò)進(jìn)行3×3 卷積操作;擴(kuò)張率為2 時(shí),相當(dāng)于進(jìn)行正常的5×5 卷積操作;擴(kuò)張率為3 時(shí),進(jìn)行7×7 的卷積操作。給定輸入特征圖,空洞卷積數(shù)學(xué)定義為
其中,x為當(dāng)前正在處理的像素位置,k為內(nèi)核大小,c為擴(kuò)張率,W為濾波器,y為空洞卷積的輸出。本文使用三個(gè)空洞卷積(即d1,d2,d3),并保持濾波器權(quán)重不變,輸入的特征圖經(jīng)過空洞卷積的輸出如下:
其中,H為擴(kuò)張的卷積結(jié)果D()和維度映射結(jié)果M()的串聯(lián)。我們將串聯(lián)結(jié)果表示為。維度映射操作M是對輸入特征圖進(jìn)行1×1 卷積操作,以保證通道對空洞卷積結(jié)果的一致性,同時(shí)保持輸入的原始特征信息。
為了對空洞卷積的結(jié)果進(jìn)行細(xì)化,找出更為關(guān)鍵的特征信息,在卷積結(jié)果后添加了通道和空間兩個(gè)維度的注意力機(jī)制計(jì)算特征圖的注意力權(quán)重。它首先通過一個(gè)全局池化操作擠壓,然后通過一個(gè)1×1 卷積層激活減少特征映射[9]。通道注意力激活數(shù)學(xué)表達(dá)式為
其中,Pavg和W1×1分別表示全局池化和卷積操作。通道注意力輸出Fch()是對重新加權(quán)的一維向量。該網(wǎng)絡(luò)更加關(guān)注了子通道中的病變區(qū)域精確尺度響應(yīng)。由通道注意力得到的重新加權(quán)特征圖可以寫成:
其中,?是對矩陣中元素進(jìn)行乘法運(yùn)算。本文再對重新加權(quán)的特征圖進(jìn)行空間維度上的計(jì)算來增加網(wǎng)絡(luò)對中病變區(qū)域反應(yīng)的注意,先使用最大池化操作擠壓,然后進(jìn)行3×3 卷積操作??臻g注意力激活過程為
其中,Pmax和W3×3分別表示最大池化和卷積操作。空間注意力是一個(gè)單通道特征圖,用于過濾掉的無關(guān)信息。因此,網(wǎng)絡(luò)會將注意力集中在病變區(qū)周圍。由空間注意力得到的加強(qiáng)特征圖映射可以表示為
其中,?表示矩陣元素乘法運(yùn)算。MSFB 結(jié)構(gòu)如圖2所示。
圖2 多尺度特征增強(qiáng)模塊Fig.2 Multi-scale feature boosting module
2.3.1 圖形輪廓投影
給定區(qū)域特征圖ψ∈RN×C和等值線圖φ∈RN×C,空間分辨率為N=H×W,C為通道數(shù)。本文通過將ψ 映射到一個(gè)由 φ引導(dǎo)的圖的頂點(diǎn)來建立一個(gè)投影矩陣P。具體來說,首先在特征空間中對 ψ進(jìn)行1×1 卷積操作降低維數(shù),結(jié)果為τ(ψ);其次為了便于計(jì)算,將等值線圖φ 置于同一維度中,并將τ(ψ)與 φ進(jìn)行哈達(dá)瑪積(Hadamard product)運(yùn)算,使得輪廓信息融入到投影矩陣中,通過哈達(dá)瑪積運(yùn)算為輪廓像素的特征賦予權(quán)重,這樣輪廓像素的特征就更大;最后采用平均池化操作獲取圖像中頂點(diǎn)的錨點(diǎn),這些錨點(diǎn)表示每個(gè)像素區(qū)域的中心,本文使用τ(ψ)和錨點(diǎn)的乘積來學(xué)習(xí)每個(gè)像素和錨點(diǎn)之間的相似性[10]。投影矩陣P可定義為
其中,⊙表示哈達(dá)瑪積運(yùn)算。得到投影矩陣之后,將區(qū)域像素特征圖 ψ投影到圖域上可表示為
其中,?(·)是一個(gè)1×1 的卷積層。這種投影操作將具有相似特征的像素聚集到相同的節(jié)點(diǎn)上,每個(gè)頂點(diǎn)本質(zhì)上表示目標(biāo)圖像的一個(gè)子區(qū)域[11]。因此,本文通過引入輪廓引導(dǎo)的圖投影將相似的像素和每個(gè)區(qū)域聯(lián)系起來。
2.3.2 圖形推理
本文從ψG中提取頂點(diǎn)之間的連通性,即輪廓特征和區(qū)域特征之間的關(guān)系。同時(shí),通過在頂點(diǎn)之間傳播信息來學(xué)習(xí)更高層次的語義信息,從而推斷出這些潛在的關(guān)系。該策略可以通過單層圖卷積網(wǎng)絡(luò)(GCN)來實(shí)現(xiàn)[12-13]。具體來說,將頂點(diǎn)特征 ψG輸入到頻譜圖卷積的一階近似中。γG為輸出特征圖,其數(shù)學(xué)表達(dá)式如下:
其中,A表示對目標(biāo)圖進(jìn)行編碼學(xué)習(xí)連通性的鄰接矩陣,WG為GCN 的權(quán)重,I為單位矩陣,δ[·]表示ReLU 激活函數(shù)。
2.3.3 特征投影融合
為了將改進(jìn)的圖表示映射回原來的2D 像素坐標(biāo)空間,本文將提取的頂點(diǎn)特征重新投影到圖域的原始像素網(wǎng)格中。考慮到學(xué)習(xí)圖表示的目的是為了計(jì)算一個(gè)將 γG映射到像素空間的矩陣Z,理論上Z可以認(rèn)為是投影矩陣P的逆,由于P不是方陣,計(jì)算比較復(fù)雜。為了解決這個(gè)問題,本文將重投影矩陣[14]認(rèn)為是一個(gè)轉(zhuǎn)置矩陣PT,重投影后再經(jīng)過1×1 卷積運(yùn)算將特征通道添加到輸入?yún)^(qū)域特征ψ 中,最后將輸入的區(qū)域特征與重投影精細(xì)化后的特征融合作為最終輸出。對應(yīng)的像素級特征圖M可以定義為
其中,θ(·)表示1×1 卷積層。在GFFM 中,輸入的區(qū)域特征圖是由MSFB 得到的三個(gè)尺度一致的局部特征輸出,三個(gè)局部特征在GFFM 中分別作為原始區(qū)域特征和等值線特征圖兩兩融合。GFFM 結(jié)構(gòu)如圖3所示。
圖3 圖形特征融合模塊Fig.3 Graphic feature fusion module
由于DR 數(shù)據(jù)集樣本存在分布不均的問題會對分級的結(jié)果造成影響,并且DR 各級別樣本之間特征差異比其他圖像分類特征差異更加的精細(xì),這使得傳統(tǒng)的交叉熵?fù)p失函數(shù)很難區(qū)分DR 各個(gè)類別。為了解決以上問題,本文提出一種焦點(diǎn)損失(focal loss,F(xiàn)L)函數(shù)和中心損失(center loss,CL)函數(shù)組合的損失函數(shù)。FL 損失函數(shù)是為了緩解樣本分布不均對DR 分級造成的影響,且FL 損失函數(shù)動態(tài)縮放交叉熵?fù)p失函數(shù),在正確類別增加時(shí),縮放因子下降為0,直觀地,這個(gè)縮放因子能自動地降低在訓(xùn)練期間簡單樣本貢獻(xiàn)的權(quán)重和迅速關(guān)注模型中的困難樣本[15]。FL 損失函數(shù)計(jì)算式為
其中,r為加權(quán)誤差調(diào)制系數(shù)(縮放因子);pt為標(biāo)簽預(yù)測概率。
CL 損失函數(shù)用于擴(kuò)大類間差異來解決糖尿病視網(wǎng)膜病變分級中不同類別差異小難以區(qū)分的問題。CL 損失函數(shù)主要是在softmax loss 的基礎(chǔ)上,通過對訓(xùn)練集的每個(gè)類別在特征空間分別維護(hù)一個(gè)類中心,在訓(xùn)練過程,增加樣本經(jīng)過網(wǎng)絡(luò)映射后在特征空間與類中心的距離約束,從而兼顧了類內(nèi)聚合與類間分離,即:
其中,N表示分類的類別,xi表示全連接層之前的特征,ci表示第i個(gè)類別的特征中心。
最終通過將CL 損失與FL 損失進(jìn)行加權(quán)求和,實(shí)現(xiàn)整體的分類任務(wù)學(xué)習(xí)。其形式如下:
其中,μ為超參數(shù),設(shè)為0.001。
相比較其他的細(xì)粒度圖像分類任務(wù),DR 分級由于各級別樣本的特征差異小、樣本數(shù)量分布不均衡現(xiàn)象嚴(yán)重和存在不完整或噪聲嚴(yán)重的無效圖片等問題變得更具有挑戰(zhàn)性。本文提出的注意力機(jī)制多特征融合(attention mechanism multi-feature fusion,AMMF)網(wǎng)絡(luò)由ResNeSt 主干網(wǎng)絡(luò)、多尺度特征增強(qiáng)模塊(MSFB)和圖形特征融合模塊(GFFM)三部分組成。其中ResNeSt 主干網(wǎng)絡(luò)采用ImageNet 數(shù)據(jù)集訓(xùn)練的權(quán)重作為模型的初始參數(shù),這樣有效地避免由于訓(xùn)練數(shù)據(jù)少而難以提高模型精度和過擬合的問題。首先取ResNeSt 骨干網(wǎng)絡(luò)中最后三層作為輸出,不同尺度輸出經(jīng)過MSFB 模塊,利用擴(kuò)張率不同的空洞卷積增大感受野,通道和空間融合的注意力機(jī)制加強(qiáng)區(qū)域特征的權(quán)重,過濾掉無關(guān)信息來提高模型對任務(wù)處理的效率和準(zhǔn)確性[16]。其次將不同分支輸出的增強(qiáng)局部特征圖在GFFM 中兩兩融合進(jìn)行信息互補(bǔ)為最終輸出。最后采用FL 和CL 組合損失函數(shù)對梯度優(yōu)化。本文算法整體框架如圖4 所示。
圖4 算法整體框架Fig.4 Overall framework of the algorithm
本文采用的數(shù)據(jù)集來自國際醫(yī)學(xué)影像頂級會議ISBI 舉辦的IDRID (印度糖尿病視網(wǎng)膜病變圖像數(shù)據(jù)集)眼底圖分析競賽中開源數(shù)據(jù)集和Eye-PACS 數(shù)據(jù)集[17]進(jìn)行實(shí)驗(yàn)。IDRID 數(shù)據(jù)集包含516 張視網(wǎng)膜眼底圖像,圖像分辨率為4288×4288。Eye-PACS 數(shù)據(jù)集中包含35126 張眼底圖片,圖像分辨率為256×256。兩個(gè)數(shù)據(jù)集分辨率差異較大,對IDRID 數(shù)據(jù)集圖像進(jìn)行下采樣處理,對Eye-PACS 數(shù)據(jù)集圖像進(jìn)行上采樣處理,輸入時(shí)統(tǒng)一分辨率為512×512。專家根據(jù)醫(yī)療領(lǐng)域的分級標(biāo)準(zhǔn)將每幅圖像都被診斷為從0 到4共5 個(gè)DR 階段,標(biāo)記為{0,1,2,3,4},分別表示為健康、輕度、中度、重度和增殖性DR。
用于實(shí)驗(yàn)的兩個(gè)數(shù)據(jù)集中的病變圖像的背景與病變區(qū)域?qū)Ρ炔幻黠@,因此訓(xùn)練前需要對眼底圖像進(jìn)行高斯濾波等形態(tài)學(xué)預(yù)處理,具體過程如下:
1) 原始圖像存在有大量黑色背景,對其先進(jìn)行灰度化,再設(shè)定閾值進(jìn)行掩膜處理,為了突出眼底圖像中小病變區(qū)域特征,最后將原始圖像與進(jìn)行高斯濾波操作后的圖像加權(quán)融合。其計(jì)算公式為
其中,α、β、ε為加權(quán)系數(shù),其值分別設(shè)定為4、-4、128;Gσ是標(biāo)準(zhǔn)差為 σ的二維高斯核,*表示為濾波操作,Id為加權(quán)融合后的圖像。IDRID 數(shù)據(jù)集不同DR階段眼底圖像預(yù)處理前后結(jié)果對比如圖5 所示。
圖5 不同DR 階段眼底圖像預(yù)處理前后對比。(a) 原圖;(b) 預(yù)處理后圖像Fig.5 Comparison of fundus images before and after preprocessing in different DR stages.(a) Original image;(b) Preprocessed image
2) 本文對IDRID 小樣本數(shù)據(jù)集訓(xùn)練時(shí),為了避免過擬合,采取了翻轉(zhuǎn)、旋轉(zhuǎn)、像素值標(biāo)準(zhǔn)化和歸一化的在線數(shù)據(jù)增強(qiáng)操作。相比較IDRID 數(shù)據(jù)集,Eye-PACS 中樣本數(shù)量大幅度提升,避免了小數(shù)據(jù)集實(shí)驗(yàn)結(jié)果的隨機(jī)性,且Eye-PACS 數(shù)據(jù)集眼底圖像分辨率較低,也可驗(yàn)證模型在不同數(shù)據(jù)集中的泛化性能。
本文算法實(shí)驗(yàn)設(shè)備配置采用Intel?Core?i7-6700H CPU,16 GB 內(nèi)存,NVIDA GeForce GTX 2070 GPU,64 位Win10 操作系統(tǒng)?;赑ytorch1.5 框架建模,仿真平臺為Pycharm。在訓(xùn)練中,設(shè)定batch size 為4,學(xué)習(xí)率為0.002。本文算法在IDRID 數(shù)據(jù)集上網(wǎng)絡(luò)的一輪更新平均訓(xùn)練時(shí)間為44 s/輪,測試時(shí)間為2 s/輪;在Eye-PACS 數(shù)據(jù)集上網(wǎng)絡(luò)的一輪更新平均訓(xùn)練時(shí)間為43 min/輪,測試時(shí)間為5 min/輪。
為了準(zhǔn)確評估本文所提算法在IDRID 和Eye-PACS 數(shù)據(jù)集上的表現(xiàn),對于不同數(shù)據(jù)集評判指標(biāo)的差異性,IDRID 數(shù)據(jù)集使用了靈敏度(sensitivity,Se)、特異性(specificity,Sp)、準(zhǔn)確率(accuracy,Acc)以及二次加權(quán)一致性檢驗(yàn)系數(shù)(quadratic weighted kappa,QWK,在公式中用ηQWK表示)等指標(biāo)來評估本文算法分級的性能。其中ηQWK范圍在-1 到1 之間,值越大,一致性就越高。這些指標(biāo)計(jì)算公式分別如下:
其中,TP和FP分別表示模型正確識別樣本為正樣本數(shù)和模型錯誤識別樣本為正樣本數(shù)。TN表示模型正確識別樣本為負(fù)樣本數(shù)。FN表示模型錯誤識別樣本為正樣本數(shù)。i和j代表預(yù)測類別和標(biāo)簽類別,Wi,j表示每一對(i,j)的懲罰權(quán)重,Qi,j表示第i類識別為j類的數(shù)量,Ei,j表示第i類總數(shù)×第j類總數(shù)/總樣本數(shù)。同時(shí)在Eye-PACS 數(shù)據(jù)集上驗(yàn)證評估采用Acc、Se、Sp以及ROC 曲率下方的面積(area under curve,AUC)等指標(biāo)對模型進(jìn)行評判。
觀察AMMF 整體網(wǎng)絡(luò)模型的特征熱圖,從而可知提出的網(wǎng)絡(luò)模型是否對DR 各類間的微小病理特征和關(guān)鍵的病理特征進(jìn)行了更多關(guān)注。從圖6 可知,AMMF 整體網(wǎng)絡(luò)模型確實(shí)對DR 的微小病理和關(guān)鍵病理特征進(jìn)行了學(xué)習(xí)關(guān)注,圖6 中藍(lán)色方框?yàn)闃?biāo)注的部分病理特征,紅色方框?yàn)榫W(wǎng)絡(luò)學(xué)習(xí)關(guān)注效果。這表明了AMMF 網(wǎng)絡(luò)模型能讓微小的病理特征分配到足夠的權(quán)重,讓網(wǎng)絡(luò)自動學(xué)習(xí)識別這些病理特征,驗(yàn)證了網(wǎng)絡(luò)整體的有效性。
圖6 AMMF 網(wǎng)絡(luò)特征熱圖Fig.6 AMMF network feature heatmap
本文算法在IDRID 和Eye-PACS 數(shù)據(jù)集上訓(xùn)練過程損失趨勢如圖7 所示。訓(xùn)練損失值下降迅速,兩數(shù)據(jù)集上損失基本上維持在0.1 左右,且波動幅度小,則表明網(wǎng)絡(luò)已趨于收斂。
圖7 在IDRID 和Eye-PACS 數(shù)據(jù)集上的訓(xùn)練損失曲線Fig.7 Training loss curves on IDRID and Eye-PACS datasets
為了更加直觀地表現(xiàn)AMMF 網(wǎng)絡(luò)模型中各個(gè)模塊的效果,對模型進(jìn)行消融實(shí)驗(yàn)。本文設(shè)計(jì)了五組對照實(shí)驗(yàn):①M(fèi)1:只保留模型算法的骨干網(wǎng)絡(luò)ResNeSt;② M2:將模型AMMF 的組合損失函數(shù)改為交叉熵?fù)p失函數(shù);③M3:僅去掉AMMF 算法中的MSFB 模塊;④ M4:只去掉AMMF 算法中的GFFM 模塊;⑤ 本文所提完整的AMMF 模型算法。結(jié)果如表1 所示。
表1 消融實(shí)驗(yàn)在IDRID 數(shù)據(jù)集中的表現(xiàn)Table 1 Performance of ablation experiments in the IDRID dataset
由表1 中 M1 和AMMF 兩組實(shí)驗(yàn)可知,多尺度特征增強(qiáng)模塊、圖形特征融合模塊和組合的損失函數(shù)能夠使二次加權(quán)一致性系數(shù)、準(zhǔn)確率、靈敏度和特異性這些指標(biāo)分別提升5.55%、6.8%、7.17%、2.94%,說明本文網(wǎng)絡(luò)中相應(yīng)模塊對視網(wǎng)膜病變具有較高的捕獲能力;M2 在AMMF 模型中使用傳統(tǒng)的交叉熵?fù)p失函數(shù),可以看出特異性比AMMF 模型高出2.94%,但其他指標(biāo)都遠(yuǎn)低于AMMF 網(wǎng)絡(luò)模型,說明了組合的加權(quán)損失函數(shù)對視網(wǎng)膜病變分級精度上的有效性;由M3 和AMMF 實(shí)驗(yàn)對比可知各項(xiàng)指標(biāo)均較大幅度的提升,說明多尺度增強(qiáng)模塊可以有效地指導(dǎo)不同層次的特征,以增大網(wǎng)絡(luò)感受野提高網(wǎng)絡(luò)捕捉特征信息的能力;而M4 和AMMF 實(shí)驗(yàn)可以看出圖形特征融合模塊使得靈敏度降低了0.45%,但其他指標(biāo)都有一定程度上的提升,說明了圖形特征融合模塊能夠有效地提升DR 性能。上述實(shí)驗(yàn)整體表明,本文算法具有一定的有效性和合理性。
為了充分說明本文算法對糖尿病視網(wǎng)膜病變分級的性能,表2 和表3 分別給出了本文算法模型與其他DR 分級算法模型在IDRID 和Eye-PACS 數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對比。
表3 不同模型在Eye-PACS 數(shù)據(jù)集中的表現(xiàn)Table 3 Performance of different models in the Eye-PACS dataset
如表2 所示,本文在IDRID 數(shù)據(jù)集上對比主流細(xì)粒度分類和近幾年其他的糖尿病視網(wǎng)膜分級算法的分類結(jié)果,其QWK、Se 和Sp 均低于本文所提算法。文獻(xiàn)[18]采用深度神經(jīng)網(wǎng)絡(luò)提取眼底圖像的特征,并與機(jī)器學(xué)習(xí)方法結(jié)合而有效地提高了DR 分級性能,比本文算法準(zhǔn)確率高0.82%,但Se 和Sp 指標(biāo)都遠(yuǎn)低于本文算法。文獻(xiàn)[19]先采用粗粒度網(wǎng)絡(luò)去判定眼底圖像是否發(fā)生病變,再利用細(xì)粒度網(wǎng)絡(luò)對粗粒度網(wǎng)絡(luò)的預(yù)測結(jié)果進(jìn)一步分級預(yù)測,增強(qiáng)了病變特征并在一定程度上解決了患病樣本與正常樣本之間的分布不均衡問題,但分級效果與本文算法仍有一定差距。文獻(xiàn)[20]提出了一種特征增強(qiáng)、抑制和多樣化信息融合的細(xì)粒度圖像分類模型,對其進(jìn)行復(fù)現(xiàn),但分級結(jié)果還是弱于本文算法。文獻(xiàn)[21]利用提出一種多階段遷移的方法對特征學(xué)習(xí)和分類過程中進(jìn)行獨(dú)立訓(xùn)練,該方法有效緩解了樣本分布不均的影響,進(jìn)而提高分級的性能,準(zhǔn)確率高出本文算法0.42%,但最終結(jié)果整體上依然弱于本文所提算法。由分類結(jié)果可知,本文所提算法在IDRID 數(shù)據(jù)集上達(dá)到了不錯的效果。為進(jìn)一步清晰展示本文實(shí)驗(yàn)結(jié)果,圖8 給出部分混淆矩陣對比結(jié)果,本文算法混淆矩陣對角線樣本分布更為集中,且大多數(shù)誤分類樣本都被分成相鄰類別,而在文獻(xiàn)[20]的混淆矩陣中樣本分布效果沒有本文算法好。
圖8 混淆矩陣。(a) 文獻(xiàn)[20];(b) 本文方法Fig.8 Confusion matrix.(a) Ref.[20];(b) Ours
表2 不同模型在IDRID 數(shù)據(jù)集中的表現(xiàn)Table 2 Performance of different models in the IDRID dataset
如表3 所示,近幾年糖尿病視網(wǎng)膜病變分級算法在Eye-PACS 數(shù)據(jù)集中與本文算法結(jié)果對比??梢钥闯鲈诜诸惖臏?zhǔn)確率上,本文所提算法比其他算法具有更好的結(jié)果,達(dá)到了84.41%,比其中效果最好的Wu等[19]高出了1.31%。AUC 和Sp 的結(jié)果也優(yōu)于其他算法。本文算法的五分類平均AUC 值高達(dá)90.36%,這表明了本文算法的分類效果最好。但是靈敏度較文獻(xiàn)[23]低2.15%,而Acc、AUC 和Sp 比其分別高出10.41%、10.36%和32.05%。這也表明本文算法在Eye-PACS 數(shù)據(jù)集上依然具有一定的泛化能力。本文所提算法的受試者工作特征曲線下的面積(AUC),如圖9(a)所示。
從圖9(a)中可知,輕度病變(DR:0)情況最難分類,其他病變等級分類效果都較為理想。根據(jù)DR 各類別的受試者工作特征曲線下的面積可以計(jì)算出整體分類的平均AUC 值為90.36%。由圖9(b)繪制的各指標(biāo)對比的柱狀圖可以更加清晰地表明本文算法優(yōu)于其他算法。
圖9 對比趨勢圖。(a) DR 各類別AUC 值;(b) 各指標(biāo)對比柱狀圖Fig.9 Comparison trend graph.(a) AUC value of each category of DR;(b) Comparison of each indicator bar chart
本文提出了一個(gè)新的注意力機(jī)制多特征融合的糖尿病視網(wǎng)膜病變分級模型,其整體結(jié)構(gòu)由ResNeSt 主干網(wǎng)絡(luò)、多尺度特征增強(qiáng)模塊和圖形特征融合模塊組成,并引入組合的加權(quán)損失函數(shù)來緩解樣本分布不均衡和類間差異小難以區(qū)分的問題。實(shí)驗(yàn)結(jié)果證明,本文所提算法能夠有效地對DR 各類間微小特征差異進(jìn)行分級判斷,且與同類型病變分級網(wǎng)絡(luò)進(jìn)行了比較,驗(yàn)證了本文所提算法模型優(yōu)于其他網(wǎng)絡(luò)模型,在DR領(lǐng)域具有較大的臨床應(yīng)用價(jià)值。由于本文網(wǎng)絡(luò)整體參數(shù)量較大,部分網(wǎng)絡(luò)還有精簡的空間,網(wǎng)絡(luò)的參數(shù)大和復(fù)雜性增加了訓(xùn)練時(shí)間,因此下一步研究重心將去對網(wǎng)絡(luò)模型進(jìn)行輕量化,減少參數(shù)精簡化來縮短訓(xùn)練時(shí)間,進(jìn)一步提升糖尿病視網(wǎng)膜病變分級的精度。