• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合注意力機(jī)制與多任務(wù)學(xué)習(xí)的DR分級(jí)模型

    2021-12-21 13:54:54徐常轉(zhuǎn)黃自萌
    關(guān)鍵詞:多任務(wù)注意力損失

    徐常轉(zhuǎn),吳 云,藍(lán) 林,黃自萌

    貴州大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,貴陽550025

    糖尿病視網(wǎng)膜病變是糖尿病最常發(fā)生的并發(fā)癥,也是導(dǎo)致失明的主要原因[1]。不受控制的糖尿病及其并發(fā)癥最終導(dǎo)致DR[2]。DR的臨床診斷需要眼科醫(yī)生仔細(xì)檢查患者的彩色眼底圖像,然后對(duì)嚴(yán)重程度進(jìn)行分級(jí)。診斷的準(zhǔn)確性和時(shí)間對(duì)治療非常重要,如果能夠準(zhǔn)確且足夠早地檢測到DR,通過一些保健措施可以有效地延遲視力損害的進(jìn)展。根據(jù)最新的英國國家標(biāo)準(zhǔn),DR可分為五個(gè)階段,嚴(yán)重程度逐漸增加:正常、輕度、中度、嚴(yán)重和增生(為簡單起見,也分別使用0到4來表示這些類別)。圖1顯示了DR不同階段的彩色眼底圖像。DR的分類涉及對(duì)患者的彩色眼底圖像中呈現(xiàn)的幾種病理的視覺特征加權(quán)[3]。這些病理特征包括微動(dòng)脈瘤、出血、硬性滲出物、軟性滲出物、新血管形成等。如微動(dòng)脈瘤這一病理特征十分微小,這些微小難發(fā)現(xiàn)的病理使得眼科醫(yī)生的臨床診斷困難且耗時(shí)。隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺的發(fā)展,如果對(duì)分類模型進(jìn)行訓(xùn)練,計(jì)算機(jī)可以快速準(zhǔn)確地對(duì)DR進(jìn)行分類。

    幾十年中,DR的自動(dòng)分類研究一直是醫(yī)學(xué)圖像處理中較為活躍的領(lǐng)域。許多研究人員提出了不同的方法來分類DR。根據(jù)不同的分類標(biāo)準(zhǔn),這些方法主要分為三種類型:第一類是二元分類,即有或沒有DR;第二種是正常,非增殖或增殖性DR的三級(jí)分類;第三種是目前最廣泛使用的標(biāo)準(zhǔn),即是第一部分中所提及的五級(jí)分類。

    對(duì)于二元分類,Gardner等[4]使用像素強(qiáng)度作為神經(jīng)網(wǎng)絡(luò)的輸入特征,并且在約200幅圖像的小數(shù)據(jù)集上分別獲得88.4%和83.5%的靈敏度和特異性結(jié)果。Roychowdhury等[5]提出了一種兩步分層分類方法,它結(jié)合了高斯混合模型(GMM),k-最近鄰(kNN),支持向量機(jī)(SVM)和AdaBoost四種機(jī)器學(xué)習(xí)算法,并實(shí)現(xiàn)了100%敏感性、53.16%特異性和0.904 AUC。Priya等[6]將帶有DR的眼底圖像分類為增殖性或非增殖性DR,它們首先提取血管、出血和滲出物的特征,然后將這些特征輸入到概率神經(jīng)網(wǎng)絡(luò)(PNN),貝葉斯分類器的三個(gè)分類模型中。支持向量機(jī)(SVM)分別達(dá)到89.6%、94.4%和97.6%的準(zhǔn)確率;至于三級(jí)分類,Nayak等[7]提取了諸如滲出物區(qū)域和血管區(qū)域以及紋理等特征,并將其輸入到神經(jīng)網(wǎng)絡(luò)。

    近年來的大多數(shù)方法都集中在五級(jí)分類上。Acharya等[8]使用高階譜方法提取特征,并使用SVM對(duì)圖像進(jìn)行分類。Adarsh等[9]使用了病變區(qū)域和紋理特征和訓(xùn)練有素的多類SVM進(jìn)行分類。隨著近年來出現(xiàn)的深度學(xué)習(xí),Pratt等[3]提出使用13層CNN對(duì)DR進(jìn)行分類,并評(píng)估其網(wǎng)絡(luò)在大型Kaggle數(shù)據(jù)集上的性能表現(xiàn)。在多任務(wù)學(xué)習(xí)方面,Zhou等[10]提出了一個(gè)多單元結(jié)構(gòu),用于針對(duì)不同眼底圖像輸入大小來增加網(wǎng)絡(luò)深度,同時(shí)提出多任務(wù)學(xué)習(xí)來平衡不同階段眼底圖像嚴(yán)重程度不同的距離。Borys等[11]提出了融合多個(gè)模型,并在最后同時(shí)使用了回歸、分類以及元原始模型輸出的結(jié)果進(jìn)行融合。而注意力機(jī)制方面,Zhao等[12]最新提出了為了解決微小病理特征難以檢測的問題,由注意力機(jī)制和線性模型組成的BiRA-Net。

    然而,由于DR圖像的特點(diǎn),目前使用深度學(xué)習(xí)的DR診斷依舊面臨兩個(gè)重要問題:(1)DR圖像的分辨率通常大于2 048×3 072像素,明顯高于一般圖像ImageNet基準(zhǔn)上的469×387像素。高分辨率圖像可以更好地檢測到微小病理特征,但高分辨率圖像在網(wǎng)絡(luò)訓(xùn)練中會(huì)非常耗時(shí),且單純的下采圖像無法獲取微小病理特征。(2)一般圖像分類,如果一個(gè)圖像分類錯(cuò)誤,它的損失是固定的且與圖像被分為哪種類別無關(guān)。對(duì)于DR檢測,一方面,希望圖像分類正確;另一方面,將類別錯(cuò)分為其他不同階段的損失P也是不同的。即:

    因此,希望預(yù)測的標(biāo)簽盡可能接近真實(shí)標(biāo)簽,使用分類的softmax的損失函數(shù)(CE)和回歸中的均方誤差(MSE)損失來診斷DR都不是最佳的。

    因此本文在DR分類網(wǎng)絡(luò)的三個(gè)方面做出了創(chuàng)新:(1)提出了一個(gè)注意力機(jī)制模塊,使得深度學(xué)習(xí)網(wǎng)絡(luò)能夠提取到細(xì)粒度病理特征,增加了分級(jí)準(zhǔn)確度。(2)提出了加權(quán)的多任務(wù)學(xué)習(xí)策略,縮短預(yù)測標(biāo)簽與真實(shí)標(biāo)簽之間的差異和。(3)提出了一種針對(duì)DR分類的全新網(wǎng)絡(luò)架構(gòu)-融合注意力機(jī)制與多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)FAMT,在DR診斷領(lǐng)域提出將多任務(wù)學(xué)習(xí)與注意力機(jī)制結(jié)合的新思路,以解決上述兩個(gè)問題。

    1 FAMT網(wǎng)絡(luò)

    本文的方法稱為融合注意力機(jī)制的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò),簡稱FAMT,其中F是融合(Fusing)過程,A代表注意力(Attention)機(jī)制,MT代表多任務(wù)學(xué)習(xí)(Multi-Tasking)模塊。FAMT的整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。首先利用BaseNet(橙色卷積層)對(duì)圖像特征不斷提取,得到小分辨率且具有高語義信息的32倍視野特征圖z∈RH×W×C,對(duì)z進(jìn)行BatchNorm(藍(lán)色BN層),注意力單元(黃色)對(duì)特征圖的特征融合通道信息,然后運(yùn)算操作(綠色)對(duì)特征權(quán)重進(jìn)行重分配。最后使用多任務(wù)的總損失進(jìn)行優(yōu)化。網(wǎng)絡(luò)包括三個(gè)模塊:(1)基礎(chǔ)網(wǎng)絡(luò)BaseNet,采用的是EfficientNet[13]等高效率網(wǎng)絡(luò),負(fù)責(zé)對(duì)圖像進(jìn)行下采和特征提取;(2)注意力機(jī)制模塊,設(shè)計(jì)的注意力機(jī)制是先將通道信息提取,得到與分級(jí)相關(guān)的通道信息權(quán)重后再與輸入的特征圖進(jìn)行融合,然后利用除操作去除非關(guān)鍵信息;(3)多任務(wù)學(xué)習(xí)模塊,將注意力機(jī)制的輸出做輸入,使用圖像分類和回歸對(duì)DR圖像進(jìn)行分級(jí),設(shè)計(jì)了加權(quán)融合這兩個(gè)任務(wù)的損失函數(shù)來均衡單任務(wù)損失函數(shù)的缺點(diǎn),并加入正則項(xiàng)來防止過擬合。

    圖2 FAMT網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 FAMT network structure

    1.1 基礎(chǔ)網(wǎng)絡(luò)BaseNet

    本文中的BaseNet采用的是Google在2019年提出EfficientNet網(wǎng)絡(luò)[13],網(wǎng)絡(luò)對(duì)寬度、深度以及分辨度三者對(duì)卷積神經(jīng)網(wǎng)絡(luò)的影響進(jìn)行重新思考,網(wǎng)絡(luò)模塊基于移動(dòng)倒置瓶頸(Mobile inverted Bottleneck MBConv)和squeeze-and-excitation優(yōu)化進(jìn)行建立。最后利用算法搜索尋找最合適的深度和寬度加入到算法中,該網(wǎng)絡(luò)在ImageNet數(shù)據(jù)集上的top1準(zhǔn)確率達(dá)到了84.4%。Efficient-Net網(wǎng)絡(luò)不僅準(zhǔn)確率高,同時(shí)參數(shù)量小,速度快,是目前最優(yōu)的圖像分類網(wǎng)絡(luò)。EfficientNet網(wǎng)絡(luò)包括了B0~B7,它們的差異是深度和寬度不同,隨著數(shù)字增大,深度和寬度增加,對(duì)圖像分類的準(zhǔn)確度逐漸提高。

    1.2 注意力模塊

    眼底圖像中含有多個(gè)結(jié)構(gòu),包括正常的眼底血管、黃斑等,這些特征對(duì)于糖尿病視網(wǎng)膜的分級(jí)診斷會(huì)造成決策干擾。在DR分級(jí)中,微小的病理特征如微動(dòng)脈瘤等類別之間差異小的細(xì)粒度圖像對(duì)預(yù)測至關(guān)重要。注意力機(jī)制在特征提取時(shí)會(huì)使網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)到需要關(guān)注的特征,忽視不重要的特征,從而去模仿醫(yī)生在診斷時(shí)專注于關(guān)鍵特征,提高速度和準(zhǔn)確度。全局平均池化(Global Average Pool,GAP)[14]能夠?qū)⒖臻g信息壓縮,對(duì)輸入的空間變化的魯棒性更強(qiáng)。但一個(gè)區(qū)域里的特征相關(guān)性遠(yuǎn)大于與其他區(qū)域的,全局平均池化過于簡單,無法完成這些相關(guān)性的信息提取。

    因此,建立了一個(gè)全新的注意力機(jī)制,通過融合特征圖原本的特征信息與注意力單元得到的通道信息,為微小特征增加了網(wǎng)絡(luò)的權(quán)重,再使用除操作去除特征圖中的冗余信息,得到注意力機(jī)制映射。

    注意力單元由圖3中的結(jié)構(gòu)組成。其中Conv 1×1表示為核為1×1的卷積,feature map為基礎(chǔ)網(wǎng)絡(luò)提取的特征圖。由BaseNet一系列卷積得到的特征向量z:

    其中,Φ為激活函數(shù),Np為圖像的大小H×W,X為輸入,W為權(quán)重,b為偏置。特征進(jìn)入如圖3所示的注意力單元后,由4個(gè)1×1的卷積進(jìn)行通道信息的提取,并學(xué)習(xí)得到權(quán)重Wk,經(jīng)過sigmoid激活函數(shù)后與輸入的特征進(jìn)行融合,生成圖像的掩碼T。

    圖3 注意力單元Fig.3 Attention_cell

    為了減少網(wǎng)絡(luò)的參數(shù)和避免過擬合,在圖像掩碼T和注意力映射之后都使用GAP,并利用除操作來篩除非關(guān)鍵特征,得到重新分配的權(quán)重。其中注意力機(jī)制原理如圖4所示,其中Wk代表了注意力單元里1×1卷積的權(quán)重,×和÷都是指代元素相乘和相除,其目的是融合上層的特征。H×W×C指代是輸入的高×寬×通道。注意力機(jī)制的輸出O可以表示為:

    圖4 簡化的注意力機(jī)制Fig.4 Simplify attention mechanism

    最后的注意力機(jī)制的輸出大小為1×1×C,作為回歸任務(wù)和分類任務(wù)的輸入。本文的注意力機(jī)制在學(xué)習(xí)關(guān)鍵特征信息時(shí),并未增加太多參數(shù),這也保證了網(wǎng)絡(luò)訓(xùn)練時(shí)間。

    1.3 多任務(wù)學(xué)習(xí)

    多任務(wù)學(xué)習(xí)模塊中,加入了圖像分類和回歸兩個(gè)任務(wù),圖像分類這一任務(wù)最后預(yù)測結(jié)果是預(yù)測標(biāo)簽為5個(gè)分類的概率,選擇了使用了圖像多分類中最常用的交叉熵?fù)p失(Cross Entropy Loss,CE)函數(shù)。交叉熵輸出使用了softmax激活函數(shù)得到預(yù)測標(biāo)簽的概率。

    m表示輸入的數(shù)量,k為分類的類別,tj表示真實(shí)標(biāo)簽是第j類,probi表示經(jīng)過激活函數(shù)的預(yù)測標(biāo)簽概率。如之前所說,單獨(dú)使用CE損失函數(shù)會(huì)忽視錯(cuò)分的代價(jià)。所以,加入均方誤差損失函數(shù)來對(duì)總體損失函數(shù)進(jìn)行平衡?;貧w任務(wù)中均方誤差損失可表示為:

    y為輸出的分?jǐn)?shù)。MSE損失主要考慮是預(yù)測標(biāo)簽與真實(shí)標(biāo)簽的差距,但MSE中存在一個(gè)問題:難以優(yōu)化。當(dāng)輸出值很大時(shí),權(quán)重更新的步幅會(huì)比較小,但在此時(shí),網(wǎng)絡(luò)誤差較大且需快速調(diào)整,這就導(dǎo)致網(wǎng)絡(luò)收斂變慢;而在輸出值小時(shí),權(quán)重更新幅度變大,這時(shí)候網(wǎng)絡(luò)的預(yù)測值正好在真實(shí)值的邊緣,太大的步幅也會(huì)導(dǎo)致網(wǎng)絡(luò)的震蕩,這與人們希望網(wǎng)絡(luò)優(yōu)化不一致,即能像人一樣,錯(cuò)誤越大,改正的幅度越大,從而學(xué)習(xí)得越快;而錯(cuò)誤越小,改正的幅度小一點(diǎn),從而穩(wěn)定的越快。

    提出了將MSE損失和CE損失進(jìn)行加權(quán)整合。MSE損失通過計(jì)算真實(shí)標(biāo)簽和預(yù)測標(biāo)簽的距離來完善CE損失,同時(shí)整合后的損失函數(shù)能夠更好地進(jìn)行優(yōu)化,提出的損失函數(shù)定義為:

    其中,α,β分別表示的是MSE損失和CE損失在總損失所占的比重,用于平衡單個(gè)損失函數(shù)占比太大而導(dǎo)致難以優(yōu)化的問題。Lr表示正則損失,也稱為權(quán)重衰減,用于避免過擬合。

    2 實(shí)驗(yàn)

    為了驗(yàn)證基礎(chǔ)網(wǎng)絡(luò)EfficientNet與ResNet,VGG對(duì)眼底圖像的訓(xùn)練效果差異,設(shè)置了實(shí)驗(yàn)1——BaseNet網(wǎng)絡(luò)模型評(píng)估;為了驗(yàn)證提出的網(wǎng)絡(luò)FAMT在驗(yàn)證集上的QWK與其他模型的差異,以及注意力機(jī)制和多任務(wù)學(xué)習(xí)模塊的必要性,設(shè)置了實(shí)驗(yàn)2——FAMT模型評(píng)估。

    2.1 實(shí)驗(yàn)環(huán)境

    數(shù)據(jù)。實(shí)驗(yàn)數(shù)據(jù)來自kaggle2015競賽和2019年競賽[15],由Aravind Eye Hospital提供。2019年數(shù)據(jù)共有3 662張訓(xùn)練圖片和1 928張測試圖片;2015年的訓(xùn)練數(shù)據(jù)35 126張,包括了左右眼的數(shù)據(jù)。圖片均大小不同,圖片共有5個(gè)標(biāo)簽,為0、1、2、3、4,分別DR患病的不同級(jí)別?;跓o法得知真實(shí)的測試標(biāo)簽,為了驗(yàn)證實(shí)驗(yàn)1,將2019年的訓(xùn)練數(shù)據(jù)按照60%、20%、20%進(jìn)行劃分,即測試集為2 197張圖片,732張圖片為驗(yàn)證集,733張圖片為測試集;為了驗(yàn)證實(shí)驗(yàn)2的實(shí)際效果,將2015年競賽的訓(xùn)練數(shù)據(jù)做FAMT網(wǎng)絡(luò)的訓(xùn)練數(shù)據(jù),把2019年的訓(xùn)練數(shù)據(jù)作為測試集對(duì)本文的方法進(jìn)行評(píng)價(jià)。

    數(shù)據(jù)處理。為了處理數(shù)據(jù)集圖像視覺差異,按照如下的順序?qū)?shù)據(jù)集進(jìn)行了預(yù)處理:(1)截取感興趣區(qū)域,去除黑色無用的背景;(2)圖像尺寸調(diào)整,將數(shù)據(jù)集中3 000×3 000的圖片調(diào)整為224×224左右;(3)顏色和亮度歸一化,在一定程度上消除這些噪聲對(duì)網(wǎng)絡(luò)分類性能的潛在影響。在網(wǎng)絡(luò)在網(wǎng)絡(luò)訓(xùn)練時(shí),為了避免過擬合,采取了翻轉(zhuǎn),旋轉(zhuǎn)和像素值歸一化的在線數(shù)據(jù)增強(qiáng)措施。圖像處理效果如圖5所示。

    圖5 DR數(shù)據(jù)圖片F(xiàn)ig.5 DR data images

    評(píng)價(jià)指標(biāo)。準(zhǔn)確率(accuracy),準(zhǔn)確率為測試正確數(shù)量占總測試數(shù)量的比例,AP[16]表示平均準(zhǔn)確度;xi,j表示真實(shí)屬于第i類的圖像,被分類網(wǎng)絡(luò)預(yù)測為第j類的數(shù)量。

    敏感度(sensitivity)。敏感度表示實(shí)際患病且被正確地診斷出來的比例:

    特異性(specificity)。特異性表示正常樣本且被標(biāo)記為正常結(jié)果的比例:

    二次加權(quán)Kappa(Quadratic Weighted Kappa,QWK)。二次加權(quán)Kappa系數(shù)不僅衡量了兩個(gè)等級(jí)之間的關(guān)系,同時(shí)也考慮了真實(shí)標(biāo)簽與預(yù)測標(biāo)簽之間的距離。其中wi,j為懲罰權(quán)重,Ei,j代表了真實(shí)類別頻數(shù)與預(yù)測類別頻數(shù)的列聯(lián)表。

    實(shí)驗(yàn)設(shè)置。實(shí)驗(yàn)1設(shè)置,基于已有的EfficientNet和ResNet的網(wǎng)絡(luò)框架,重新設(shè)計(jì)了全連接層的輸出。將ImageNet預(yù)訓(xùn)練網(wǎng)絡(luò)參數(shù)初始化為初訓(xùn)練的參數(shù)。采用了均方誤差作為損失函數(shù)[17],共迭代30次,基礎(chǔ)學(xué)習(xí)率為0.001,批大小為32,5次迭代后減小為原來得到10倍,權(quán)重衰減為0.000 01,采用Adam[18]算法進(jìn)行優(yōu)化求解目標(biāo)函數(shù)。

    實(shí)驗(yàn)2設(shè)置,以ImageNet上訓(xùn)練的參數(shù)對(duì)BaseNet進(jìn)行初始化,以設(shè)計(jì)的總損失作為損失函數(shù),α和β設(shè)置為1,共迭代11次,Adam初始學(xué)習(xí)率為1E-3,采用Cyclical Learning Rates(CLR)[19]來動(dòng)態(tài)調(diào)整學(xué)習(xí)率,其中基礎(chǔ)學(xué)習(xí)率為1E-4,最大學(xué)習(xí)率為3E-3,步長因子為6。批大小為32,采用基于pytorch的自動(dòng)混合精度訓(xùn)練加速包amp對(duì)訓(xùn)練進(jìn)行加速。

    2.2 模型評(píng)估

    2.2.1 BaseNet網(wǎng)絡(luò)模型評(píng)估

    首先,為了驗(yàn)證圖片預(yù)處理對(duì)網(wǎng)絡(luò)性能的影響,分別對(duì)比了ResNet的101層和EfficientNet_B0是否預(yù)處理圖片的結(jié)果。其中a表示未處理圖片,b表示預(yù)處理了圖片。從表1可知,EfficientNet在預(yù)處理照片上的數(shù)據(jù)集上表現(xiàn)更好,四個(gè)指標(biāo)均有較大提升。說明了EfficientNet對(duì)于噪聲很敏感,主要原因是因?yàn)镋fficientNet通道數(shù)和深度都比其他兩個(gè)網(wǎng)絡(luò)更深,所以特征信息捕捉更多,網(wǎng)絡(luò)將噪聲誤認(rèn)為特征進(jìn)行提取,從而使得結(jié)果有了很大的差異。

    為了驗(yàn)證輸入圖像大小對(duì)于EfficientNet的分類性能影響,使用了512×512的輸入圖像,利用EfficientNet進(jìn)行DR分級(jí),從表1結(jié)果可知EfficientNet對(duì)于更大尺寸的眼底圖像,效果沒有得到明顯的提升(僅準(zhǔn)確度提高了0.1%)。從而證明了將輸入圖像尺寸選為224×224更加合理。表1結(jié)果說明了EfficientNet網(wǎng)絡(luò)在眼底圖像上分類性能強(qiáng)于ResNet和VGG網(wǎng)絡(luò)以及Pratt提出的針對(duì)DR圖像的深度卷積神經(jīng)網(wǎng)絡(luò);EfficientNet對(duì)于輸入的尺寸不敏感,相對(duì)較小的輸入大小也能夠得到更佳的驗(yàn)證結(jié)果,但對(duì)于噪聲敏感,需要對(duì)圖像進(jìn)行預(yù)處理。這也是本文將BaseNet選為EfficientNet網(wǎng)絡(luò)的原因。

    表1 EfficientNet與其他網(wǎng)絡(luò)在驗(yàn)證集上的對(duì)比Table 1 Comparison of EfficientNet and other network on validation set

    2.2.2 BaseNet網(wǎng)絡(luò)模型評(píng)估

    觀察FAMT網(wǎng)絡(luò)中的注意力機(jī)制的特征熱圖,從而去了解提出的注意力機(jī)制是否給予了微小病理特征和關(guān)鍵病理特征更多關(guān)注。從圖6可以看出,注意力機(jī)制的確學(xué)習(xí)到了東西,熒光色指代了網(wǎng)絡(luò)正在關(guān)注的特征位置,注意力機(jī)制使得網(wǎng)絡(luò)把注意力集中在病理區(qū)域所在的位置,即使微小的微動(dòng)脈分配了足夠的權(quán)重,讓網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)到關(guān)鍵特征的權(quán)重。

    圖6 注意力機(jī)制模塊的特征熱圖Fig.6 Attention mechanism module features heat maps

    為了驗(yàn)證多任務(wù)學(xué)習(xí)模塊和注意力機(jī)制的有效性,基于基礎(chǔ)網(wǎng)絡(luò)為EfficientNet_b0下,隨機(jī)選取了一個(gè)訓(xùn)練集為1 280張圖片,測試集為640張圖片的小數(shù)據(jù)集,設(shè)計(jì)了一組對(duì)照實(shí)驗(yàn)。

    從表2中可以看出,僅使用多任務(wù)學(xué)習(xí)模塊是無法提高DR分級(jí)的加權(quán)Kappa系數(shù)值,甚至表現(xiàn)還不如沒有使用多任務(wù)學(xué)習(xí)的基礎(chǔ)模型。而在加入注意力模塊后,以回歸值進(jìn)行驗(yàn)證的結(jié)果高出BaseNet近3%,這證明了注意力機(jī)制和多任務(wù)學(xué)習(xí)模塊相互作用,能大大提升DR分級(jí)的準(zhǔn)確度。主要原因是因?yàn)樽⒁饬C(jī)制能使得網(wǎng)絡(luò)提取到更多微小特征,如微動(dòng)脈瘤,而微動(dòng)脈瘤是區(qū)別等級(jí)0和1的主要特征,從而提升了準(zhǔn)確度。同時(shí)也驗(yàn)證了FAMT模型更適合以回歸進(jìn)行驗(yàn)證。

    表2 各階段模型的QWK驗(yàn)證結(jié)果Table 2 Stages QWK verification results of model

    FAMT_b0_512表示使用FAMT使用B0的基礎(chǔ)網(wǎng)絡(luò),驗(yàn)證集圖片大小為512×512。FAMT_b3_512表示使用FAMT使用B3的基礎(chǔ)網(wǎng)絡(luò)。從圖7可以看出,F(xiàn)AMT網(wǎng)絡(luò)收斂速度快,可以在5次迭代中就達(dá)到最優(yōu)解,同時(shí)迭代穩(wěn)定,這證明了本文的多任務(wù)損失的確可以達(dá)到易于優(yōu)化的目的。

    圖7 FAMT模型驗(yàn)證QWK對(duì)比Fig.7 FAMT model validation QWK

    從圖8可知,在訓(xùn)練總迭代次數(shù)為131 760時(shí),雖然增加了注意力機(jī)制和多任務(wù)學(xué)習(xí)模塊,但是訓(xùn)練總時(shí)間僅增加4 min。同時(shí)驗(yàn)證了在增加驗(yàn)證集圖片大小時(shí),F(xiàn)AMT性能的變化。從圖7的結(jié)果中發(fā)現(xiàn)了FAMT網(wǎng)絡(luò)在圖片尺寸變大時(shí)QWK有所下降,但使用更深的B3網(wǎng)絡(luò)時(shí),F(xiàn)AMT的QWK有所增加。這說明FAMT網(wǎng)絡(luò)對(duì)于尺寸變化的魯棒性取決于基礎(chǔ)網(wǎng)絡(luò)的深度。

    圖8 FAMT模型驗(yàn)證時(shí)間對(duì)比Fig.8 FAMT model validation time

    比較了FAMT網(wǎng)絡(luò)與其他在kaggle競賽中使用深度學(xué)習(xí)取得良好成績的DR分級(jí)模型,如在競賽中取得排名第二的Wang等人提出Zoom-in-Net[20],其中M2CNN[10](排名第三)同樣也使用多任務(wù)學(xué)習(xí),但因?yàn)榧尤肓俗⒁饬C(jī)制,且權(quán)衡了兩者損失,使得FAMT網(wǎng)絡(luò)表現(xiàn)更好。在2020年提出的BiRA-Net則是僅使用注意力機(jī)制的分類網(wǎng)絡(luò)。從表3的結(jié)果可知,F(xiàn)AMT在QWK、準(zhǔn)確度以及敏感度都優(yōu)于其他網(wǎng)絡(luò)。

    表3 FAMT與其他網(wǎng)絡(luò)模型的比較Table 3 Comparison of FAMT and other network model

    3 總結(jié)

    提出一種全新的DR分級(jí)模型,稱為融合注意力機(jī)制的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)(FAMT)。該網(wǎng)絡(luò)結(jié)構(gòu)考慮到微小病理特征難以檢測和單任務(wù)的缺點(diǎn),設(shè)計(jì)了注意力機(jī)制模塊和多任務(wù)學(xué)習(xí)模塊,并在kaggle的糖尿病視網(wǎng)膜眼底圖像數(shù)據(jù)集上驗(yàn)證了FAMT的有效性和穩(wěn)定性。而且與同類型的網(wǎng)絡(luò)進(jìn)行了比較,說明FAMT性能優(yōu)于其他網(wǎng)絡(luò)。本文的模型證明了注意力機(jī)制和多任務(wù)學(xué)習(xí)的融合在DR領(lǐng)域的可用性。

    猜你喜歡
    多任務(wù)注意力損失
    少問一句,損失千金
    讓注意力“飛”回來
    胖胖損失了多少元
    基于中心化自動(dòng)加權(quán)多任務(wù)學(xué)習(xí)的早期輕度認(rèn)知障礙診斷
    玉米抽穗前倒伏怎么辦?怎么減少損失?
    “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
    A Beautiful Way Of Looking At Things
    基于判別性局部聯(lián)合稀疏模型的多任務(wù)跟蹤
    電測與儀表(2016年5期)2016-04-22 01:13:46
    一般自由碰撞的最大動(dòng)能損失
    齐齐哈尔市| 繁昌县| 常州市| 上思县| 辰溪县| 思茅市| 南召县| 烟台市| 吉林市| 云梦县| 贵阳市| 广西| 乌恰县| 青岛市| 永德县| 子洲县| 奇台县| 青神县| 揭西县| 淮阳县| 许昌市| 太和县| 普陀区| 滦平县| 前郭尔| 自治县| 沅陵县| 武功县| 鹤壁市| 宜兴市| 永川市| 宁波市| 仁布县| 清流县| 库尔勒市| 珠海市| 文安县| 绵阳市| 东城区| 潜山县| 都昌县|