章曉慶,肖尊杰,趙宇航,巫 曉,東田理沙,3,劉 江,4
1.南方科技大學(xué) 計(jì)算機(jī)科學(xué)與工程系,廣東 深圳 518055
2.南方科技大學(xué) 斯發(fā)基斯可信自主系統(tǒng)研究院,廣東 深圳 518055
3.Tomey公司,日本 名古屋4 510051
4.南方科技大學(xué) 廣東省類腦智能計(jì)算重點(diǎn)實(shí)驗(yàn)室,廣東 深圳 518055
白內(nèi)障是中國(guó)乃至全球排名首位的致盲性眼病[1],也是一種年齡相關(guān)性眼病。根據(jù)2018年屈光性白內(nèi)障手術(shù)新進(jìn)展國(guó)際會(huì)議報(bào)告數(shù)據(jù)顯示,中國(guó)白內(nèi)障患者人數(shù)接近2億。隨著社會(huì)人口結(jié)構(gòu)的老齡化進(jìn)程加快,白內(nèi)障患者人數(shù)將會(huì)顯著增長(zhǎng)。在臨床上,白內(nèi)障表現(xiàn)為眼睛的晶狀體區(qū)域出現(xiàn)混濁癥狀,從而導(dǎo)致視力受損甚至失明。根據(jù)混濁癥狀在眼睛晶狀體區(qū)域中出現(xiàn)的位置,白內(nèi)障又可分為三種類型:核性白內(nèi)障(nuclear cataract,NC)、皮質(zhì)性白內(nèi)障(cortical cataract,CC)、后囊性白內(nèi)障(posterior subcapsular cataract,PSC)[2]。核性白內(nèi)障是一種最常見(jiàn)的白內(nèi)障類型,其臨床癥狀表現(xiàn)為晶狀體核性區(qū)域出現(xiàn)混濁。根據(jù)臨床診斷實(shí)際需求和晶狀體混濁分類系統(tǒng)(lens opacities classification system III,LOCS III)[3-5],核性白內(nèi)障的發(fā)展可分為三個(gè)階段:正常(normal)、輕度(mild)和重度(severe)。在實(shí)際診斷過(guò)程中,眼科醫(yī)生通?;谧陨斫?jīng)驗(yàn)診斷患者的核性白內(nèi)障嚴(yán)重程度,但這種診斷方式具有較強(qiáng)的主觀性且與醫(yī)生自身經(jīng)驗(yàn)、接受的臨床訓(xùn)練以及領(lǐng)域知識(shí)有關(guān),容易出現(xiàn)誤診。因此,有必要開(kāi)發(fā)智能計(jì)算機(jī)輔助診斷技術(shù)提高眼科醫(yī)生診斷結(jié)果的精準(zhǔn)性。
近年來(lái),深度神經(jīng)網(wǎng)絡(luò)模型已經(jīng)被廣泛用于眼科疾病輔助診斷包括白內(nèi)障疾病。國(guó)內(nèi)學(xué)者李建強(qiáng)等基于眼底圖像提出了一個(gè)深度神經(jīng)網(wǎng)絡(luò)模型用于白內(nèi)障自動(dòng)篩查[6]。Xu 等[7]在眼底圖像下構(gòu)建了一個(gè)總體-局部集成卷積神經(jīng)網(wǎng)絡(luò)模型用于白內(nèi)障分類。劉振宇等[8]在裂隙燈圖像下提出了一個(gè)神經(jīng)網(wǎng)絡(luò)用于核性白內(nèi)障分級(jí)。然而,現(xiàn)有用于白內(nèi)障篩查與分級(jí)的神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)主要出發(fā)點(diǎn)是提升白內(nèi)障篩查與分級(jí)性能,鮮有研究工作關(guān)注神經(jīng)網(wǎng)絡(luò)模型的可解釋性。
相較于其他常用于白內(nèi)障臨床診斷的眼科影像模態(tài)如裂隙燈圖像和眼底圖像,眼前節(jié)光學(xué)相干斷層成像(anterior segment optical coherence tomography,ASOCT)是一種新型的眼科影像,其能清楚地獲取晶狀體核性區(qū)域。近年來(lái),研究人員已經(jīng)在AS-OCT影像下分析了核性白內(nèi)障嚴(yán)重級(jí)別與臨床特征之間相關(guān)關(guān)系,比如像素均值和最大值,臨床統(tǒng)計(jì)結(jié)果表明它們與核性白內(nèi)障嚴(yán)重級(jí)別之間存在強(qiáng)相關(guān)性[9]且相關(guān)性系數(shù)大小不同。這兩個(gè)臨床特征及其相關(guān)系數(shù)大小是眼科醫(yī)生診斷白內(nèi)障嚴(yán)重級(jí)別的重要參考,可以當(dāng)作一種臨床先驗(yàn)知識(shí)。
注意力機(jī)制(attention mechanism)[10-12]已經(jīng)在計(jì)算機(jī)視覺(jué)任務(wù)中證明其能提升卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的性能。擠壓激勵(lì)注意力機(jī)制(squeeze-and-excitation attention mechanism,SE)[12]是一個(gè)具有代表性的注意力機(jī)制方法,它由擠壓和激勵(lì)操作符組成。在擠壓操作符中,SE 采用全局平均池化方法(global average pooling,GAP)從每個(gè)通道中提取特征圖(feature map)的全局均值特征表示信息,可以認(rèn)為AS-OCT 影像下白內(nèi)障的像素均值的另一種特征表示方式。類似的,其他特征圖的全局特征表示(最大值)也可以通過(guò)其他的池化方法(最大池化方法)提取[13]。
鑒于特征圖的全局特征表示和白內(nèi)障的臨床特征如像素均值和最大值之間聯(lián)系,本文提出是否可以將這兩種臨床特征及其相關(guān)性系數(shù)轉(zhuǎn)化為特征圖的全局特征表示和特征表示權(quán)重,再將它們?nèi)谌氲阶⒁饬C(jī)制網(wǎng)絡(luò)模型設(shè)計(jì)中,以此來(lái)提升核性白內(nèi)障分類結(jié)果和增強(qiáng)神經(jīng)網(wǎng)絡(luò)模型決策過(guò)程的可解釋性。為此,本文基于AS-OCT 影像提出了一個(gè)基于臨床特征校準(zhǔn)注意力網(wǎng)絡(luò)(clinical feature recalibration attention network,CFANet)模型自動(dòng)地識(shí)別核性白內(nèi)障嚴(yán)重級(jí)別,如圖1所示。在提出的CFANet 中,本文構(gòu)造了一個(gè)臨床特征校準(zhǔn)注意力模塊(clinical feature recalibration attention block,CFA),它對(duì)兩種特征圖的全局特征表示類型:均值和最大值進(jìn)行動(dòng)態(tài)地加權(quán)融合;隨后采用softmax函數(shù)作為門控操作符來(lái)突出了重要的通道,從而實(shí)現(xiàn)對(duì)每個(gè)特征圖的重要性校準(zhǔn)。為了更好地了解CFANet的決策過(guò)程,本文采用可視化技術(shù)來(lái)分析臨床特征的權(quán)重分布和通道的權(quán)重分布。另外,本文還探索了其他影響CFANet 分類性能的因素,比如門控操作符種類和臨床特征表示的加權(quán)方式。本文的主要貢獻(xiàn)為以下三個(gè)方面:
圖1 基于CFANet的自動(dòng)白內(nèi)障分類框架Fig.1 Automatic cataract classification framework based on CFANet
(1)本文提出了一個(gè)臨床特征校準(zhǔn)注意力網(wǎng)絡(luò)框架自動(dòng)地識(shí)別核性白內(nèi)障嚴(yán)重級(jí)別。在提出的CFANet中,本文引入了一個(gè)臨床特征校準(zhǔn)注意力模塊對(duì)臨床特征表示:均值和最大值進(jìn)行自適應(yīng)地加權(quán)融合,并應(yīng)用門控操作符來(lái)突出重要的通道和抑制不重要的通道,以此來(lái)提高核性白內(nèi)障嚴(yán)重級(jí)別預(yù)測(cè)結(jié)果的準(zhǔn)確性。
(2)在一個(gè)臨床AS-OCT數(shù)據(jù)集和公開(kāi)OCT數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明CFANet 的性能明顯優(yōu)于先進(jìn)的注意力機(jī)制網(wǎng)絡(luò)和已發(fā)表的研究工作。
(3)本文不僅分析了CFA中臨床特征表示權(quán)重和通道權(quán)重的相對(duì)分布,同時(shí)還對(duì)比了CFA、SE、ECA、SRM的權(quán)重分布,以此來(lái)增強(qiáng)模型決策過(guò)程的可解釋性。同時(shí)也設(shè)計(jì)了有關(guān)消融實(shí)驗(yàn)探索影響模型性能的因素。
AS-OCT 是一種OCT 成像技術(shù),它具有速度快、用戶友好、非侵入、高分辨率、定量化測(cè)量等特點(diǎn)。近年來(lái),眼科醫(yī)生和研究人員已經(jīng)基于AS-OCT影像對(duì)多種眼科疾病進(jìn)行臨床診斷和科學(xué)研究如角膜疾病、青光眼和白內(nèi)障。文獻(xiàn)[14-15]在AS-OCT 影像下利用深度分割神經(jīng)網(wǎng)絡(luò)對(duì)角膜結(jié)構(gòu)進(jìn)行分割,并得到不錯(cuò)的分割結(jié)果。Fu等[16-17]在AS-OCT影像下設(shè)計(jì)了一個(gè)多尺度神經(jīng)網(wǎng)絡(luò)對(duì)開(kāi)閉角青光眼進(jìn)行自動(dòng)篩查,并在一個(gè)臨床AS-OCT 數(shù)據(jù)集上取得了超過(guò)92%的準(zhǔn)確率。在白內(nèi)障診斷方面,AS-OCT影像與其他眼科影像相比例如裂隙燈影像,它能獲取完整的晶狀體結(jié)構(gòu)信息,如囊性區(qū)域、皮質(zhì)性區(qū)域和核性區(qū)域,這是診斷不同類型白內(nèi)障的重要基礎(chǔ),這也引起了研究人員的關(guān)注和興趣。Chen等[18]在LOCS III 分級(jí)系統(tǒng)上研究核性白內(nèi)障級(jí)別與AS-OCT影像中均值特征的相關(guān)關(guān)系,臨床統(tǒng)計(jì)結(jié)果分析顯示兩者存在較強(qiáng)相關(guān)性。
文獻(xiàn)[19-21]在AS-OCT 影像下利用斯皮爾曼等級(jí)相關(guān)系數(shù)方法分析了像素均值和最大值與核性白內(nèi)障嚴(yán)重程度之間相關(guān)性,統(tǒng)計(jì)分析結(jié)果顯示這兩種像素特征均與核性白內(nèi)障級(jí)別存在較強(qiáng)相關(guān)性但它們的相關(guān)系數(shù)大小不同。以上基于AS-OCT 影像的核性白內(nèi)障臨床研究工作為核性白內(nèi)障的自動(dòng)分類工作提供了臨床支持和依據(jù)。文獻(xiàn)[22]使用深度分割網(wǎng)絡(luò)模型對(duì)ASOCT影像的晶狀體結(jié)構(gòu)進(jìn)行自動(dòng)分割,得到晶狀體的核性區(qū)域、皮質(zhì)性區(qū)域和囊性區(qū)域,可用于輔助醫(yī)生基于AS-OCT 影像診斷不同類型白內(nèi)障。Zhang 等[23]基于AS-OCT 影像提出了一個(gè)GraNet 網(wǎng)絡(luò)模型用于核性白內(nèi)障自動(dòng)分類,但準(zhǔn)確率沒(méi)有達(dá)到60%。章曉慶等[24]設(shè)計(jì)了一個(gè)AS-OCT影像下的核性白內(nèi)障自動(dòng)分類框架,它包括三個(gè)階段:核性區(qū)域提取、像素特征提取、特征重要性分析和分類,取得了75.53%的準(zhǔn)確率。Xiao等[25]提出了一個(gè)門控通道注意力網(wǎng)絡(luò)(gated channel attention network,GCANet)用于白內(nèi)障的分類并取得了不錯(cuò)的分類結(jié)果。
注意力機(jī)制已經(jīng)證明其能作為卷積神經(jīng)網(wǎng)絡(luò)重要組成部分且能有效地提升卷積神經(jīng)網(wǎng)絡(luò)模型在各種學(xué)習(xí)任務(wù)中的性能[26-29]。擠壓激勵(lì)注意力(SE)是一個(gè)被廣泛應(yīng)用的通道注意力機(jī)制方法,它通過(guò)壓縮和激勵(lì)操作符來(lái)重構(gòu)不同通道之間關(guān)系并輸出通道權(quán)重值。Wang 等[30]提出了一個(gè)高效通道注意力方法(efficient channel attention,ECA)來(lái)構(gòu)建通道之間的鄰近關(guān)系以此來(lái)提升卷積神經(jīng)網(wǎng)絡(luò)性能。Lee等[31]構(gòu)造了一個(gè)風(fēng)格校準(zhǔn)模塊(style-based recalibration module,SRM)通過(guò)融合風(fēng)格遷移先驗(yàn)知識(shí)來(lái)提高計(jì)算機(jī)視覺(jué)分類任務(wù)性能。卷積塊注意力組件(convolutional block attention module,CBAM)[26]和瓶頸注意力組件(bottleneck attention module,BAM)[32]將通道注意力和空域注意力結(jié)合進(jìn)一步增強(qiáng)神經(jīng)網(wǎng)絡(luò)的特征表示。
從現(xiàn)有有關(guān)研究工作調(diào)研可知,已有不少基于ASOCT 影像的核性白內(nèi)障研究工作和注意力機(jī)制模塊設(shè)計(jì)研究工作。然而,缺乏相關(guān)研究工作將白內(nèi)障的臨床特征及其相關(guān)系數(shù)作為臨床先驗(yàn)知識(shí)融入到注意力機(jī)制方法模塊設(shè)計(jì)中。為此,本文提出了一個(gè)新穎的臨床特征校準(zhǔn)注意力模塊,其中將核性白內(nèi)障的臨床診斷特征及其相關(guān)系數(shù)作為臨床先驗(yàn)知識(shí)注入到注意力機(jī)制模塊設(shè)計(jì)中,用以提升核性白內(nèi)障嚴(yán)重級(jí)別的分類結(jié)果和改進(jìn)神經(jīng)網(wǎng)絡(luò)模型決策過(guò)程的可解釋性。
本文提出的臨床特征注意力模塊(clinical feature attention block,CFA)由Avg-Max 操作符和特征融合(feature fusion)操作符構(gòu)成,如圖2(a)所示。在Avg-Max 操作符中,本文使用全局平均池化(global average pooling,GAP)和全局最大池化(global maximum pooling,GMP)兩種池化方法分去別提取每個(gè)通道的全局均值特征表示和全局最大值特征表示當(dāng)作臨床特征表示。對(duì)于任一個(gè)卷積層輸出的特征圖張量表達(dá)X=[x1,x2,…,xc]∈RN×C×H×W(其中,N代表批量大小,C代表通道數(shù)量,H和W代表特征圖的高和寬),提取到的臨床特征表示T∈RN×C×2可通過(guò)以下公式得到:
其中,Rij、Avgc、Maxc,和tc∈R2分別表示特征圖的區(qū)域大小、第c個(gè)特征圖中提取得到的全局均值特征表示、全局最大特征表示以及兩個(gè)臨床特征表示的集合。
緊隨Avg-Max操作符之后是特征融合操作符,它由通道全連接(channel fully connected,CFC)操作符和門控操作符組成。CFC 操作符作用是將臨床特征表示進(jìn)行自適應(yīng)加權(quán)融合并轉(zhuǎn)化為臨床特征編碼表示。CFC操作符首先對(duì)兩個(gè)臨床特征表示的集合進(jìn)行動(dòng)態(tài)加權(quán)融合,得到融合的臨床特征表示;隨后構(gòu)建通道之間的依懶性,以上兩個(gè)步驟可通過(guò)以下公式得到:
其中,wc∈RC×2表示每個(gè)通道的可學(xué)習(xí)的權(quán)重參數(shù),可以認(rèn)為是臨床特征的相關(guān)系數(shù)另一種表達(dá);vc∈RC×1表示臨床特征編碼表示。
在門控操作符選擇方面,為了更好突出通道之間的差異性以此實(shí)現(xiàn)對(duì)特征圖的重要性校準(zhǔn)。本文采用softmax函數(shù)作為門控單元來(lái)輸出每個(gè)通道的注意力權(quán)重,其定義為:
gc表示每個(gè)通道注意力權(quán)重。在消融實(shí)驗(yàn)中,本文將會(huì)對(duì)比Softmax 作為門控單元與其他函數(shù)如Sigmoid 和Tanh作為門控單元對(duì)CFA性能的影響。
最后將每個(gè)原始特征圖與通道分配權(quán)重相乘,得到加權(quán)校準(zhǔn)后的特征圖Y=[y1,y2,…,yc]∈RN×C×H×W可用以下公式表達(dá):
其中,yc表示第c個(gè)加權(quán)特征圖,?表示矩陣相乘運(yùn)算。
為了驗(yàn)證批量歸一化層(batch normalization layer,BN)[33]是否能提升本文CFA 模塊的性能。在CFA 模塊中,本文加了一個(gè)BN 層在CFC 操作符后面并命名為CFA-Variant,如圖2(b)所示。
討論:CBAM[26]已經(jīng)從每個(gè)通道中提取了全局均值和最大特征表示來(lái)構(gòu)建通道注意力機(jī)制和采用共享多層感知機(jī)(shared multilayer perception,S-MLP)來(lái)構(gòu)建不同通道之間的關(guān)系,但忽略了不同特征表示類型的相對(duì)重要程度。Lee 等[31]提出的SRM 模塊考慮了不同特征表示類型的相對(duì)重要程度,但沒(méi)有重構(gòu)通道之間的相關(guān)性。不同于已發(fā)表的注意力機(jī)制模塊設(shè)計(jì)工作,本文提出的通道全連接操作符既考慮了兩個(gè)特征表示類型的相對(duì)重要程度,也重構(gòu)了通道之間的相關(guān)關(guān)系。另外本文還采用Softmax函數(shù)作為門控單元突出重要通道和抑制不重要的通道。
本文主要目的是將白內(nèi)障的臨床特征及其相關(guān)系數(shù)作為先驗(yàn)知識(shí)注入到注意力機(jī)制模塊設(shè)計(jì)中,以此來(lái)提高核性白內(nèi)障的分類結(jié)果和改善神經(jīng)網(wǎng)絡(luò)模型的可解釋性。本文采用ResNet[34]作為網(wǎng)絡(luò)骨架(Backbone),因?yàn)楝F(xiàn)有很多注意力機(jī)制方法都采用它作為Backbone,可以全面地驗(yàn)證本文提出的方法性能。本文將提出的CFA 模塊插入到殘差模塊中構(gòu)成殘差臨床先驗(yàn)特征注意力組件(Residual-CFA module),如圖1 下半部分所示。本文的網(wǎng)絡(luò)框架是由多個(gè)殘差臨床特征注意力組件堆疊而成并命名為CFANet,如圖1 上半部分所示。本文選擇Softmax 作為分類器,因?yàn)槠湟呀?jīng)被廣泛地應(yīng)用在深度神經(jīng)網(wǎng)絡(luò)模型作為分類器;另外本文還選擇經(jīng)典的交叉熵?fù)p失函數(shù)(cross entropy loss function,CE)為損失函數(shù)。
在實(shí)驗(yàn)中,本文使用了兩個(gè)眼科圖像數(shù)據(jù)集來(lái)比較:一個(gè)核性白內(nèi)障的臨床AS-OCT影像數(shù)據(jù)集和一個(gè)公開(kāi)OCT影像數(shù)據(jù)集。
(1)臨床AS-OCT 影像數(shù)據(jù)集。AS-OCT 影像數(shù)據(jù)集來(lái)自一本地三甲醫(yī)院,數(shù)據(jù)采集眼科設(shè)備是日本Tomey公司的眼前節(jié)OCT 儀器CASIA2。所有受試者知情數(shù)據(jù)用途并對(duì)受試者個(gè)人信息進(jìn)行脫敏處理。數(shù)據(jù)集包含543名受試者(左右眼的數(shù)量分別為422和440),平均年齡為61.30±18.65。每個(gè)受試者采集了24 張影像,在經(jīng)驗(yàn)豐富的眼科醫(yī)生幫助下剔除了4 487張受眼瞼干擾影像,本文最終得到16 201張可用的AS-OCT影像。由于沒(méi)有基于AS-OCT影像的白內(nèi)障分類標(biāo)準(zhǔn),所有受試者的AS-OCT 影像的核性白內(nèi)障標(biāo)簽是通過(guò)裂隙燈圖像映射得到的。即每一名受試者都拍攝了AS-OCT 影像和裂隙燈圖像,并由三名眼科醫(yī)生基于LOCS III 給出每個(gè)受試者的裂隙燈圖像下核性白內(nèi)障嚴(yán)重程度,保證核性白內(nèi)障嚴(yán)重級(jí)別標(biāo)簽的質(zhì)量和可靠性。
考慮到同一個(gè)受試者兩只眼的白內(nèi)障嚴(yán)重程度相近,本文以受試者為基本單位將數(shù)據(jù)集拆分為訓(xùn)練集(training dataset)、驗(yàn)證集(validation dataset)和測(cè)試集(testing dataset)。表1 為訓(xùn)練集、驗(yàn)證集和測(cè)試集的三種嚴(yán)重程度的核性白內(nèi)障的AS-OCT影像數(shù)量分布。
表1 三種核性白內(nèi)障嚴(yán)重級(jí)別分布Table 1 Distribution of three NC severity levels
(2)公開(kāi)OCT數(shù)據(jù)集[35]。公開(kāi)OCT數(shù)據(jù)集也稱作加利福尼亞大學(xué)圣地亞哥分校數(shù)據(jù)集(University of California San Diego dataset,UCSD),它是由加利福尼亞大學(xué)圣地亞哥分校眼科中心采集并公開(kāi)的。數(shù)據(jù)集包含5 319個(gè)病人,由訓(xùn)練集和測(cè)試集組成。其中,訓(xùn)練集包含4種不同標(biāo)記的OCT圖像:11 348張?zhí)悄虿↑S斑水腫疾?。╠iabetic macular edema,DME)影像、37 205張脈絡(luò)膜新生血管性疾病(choroidal neovascularization,CNV)影像、8 617 張黃斑玻璃疣疾?。╠rusen)影像,以及26 315 正常人影像。在測(cè)試集中,四種類別的OCT 圖像都為250 張,詳細(xì)數(shù)據(jù)集介紹見(jiàn)文獻(xiàn)[35]。在實(shí)驗(yàn)中,本文采用與已發(fā)表的文獻(xiàn)中相同的數(shù)據(jù)預(yù)處理方法,保證實(shí)驗(yàn)結(jié)果對(duì)比的公平性[35-36]。
參考文獻(xiàn)[37-38],本文選擇準(zhǔn)確率(accuracy,ACC)、敏感度(sensitivity,Sen)、精確率(precision,PR)、F1 指標(biāo)),以及kappa系數(shù)五種評(píng)價(jià)指標(biāo)來(lái)評(píng)估方法的總體性能。準(zhǔn)確率是用來(lái)衡量算法預(yù)測(cè)正確的樣本數(shù)目占總樣本數(shù)的比例,敏感度是算法預(yù)測(cè)正確的正例樣本的比例;精確率是算法預(yù)測(cè)為正例的樣本中實(shí)際為正例的比例;F1指標(biāo)是精確率和召回率的調(diào)和均值。準(zhǔn)確率、敏感度、精確率和F1 等評(píng)價(jià)指標(biāo)可以通過(guò)公式(7)~(10)來(lái)表示:
其中,TP表示真陽(yáng)性,TN為真陰性,F(xiàn)P為假陽(yáng)性,F(xiàn)N為假陰性。
本文通過(guò)以下對(duì)比實(shí)驗(yàn)全面驗(yàn)證提出模型的性能:
(1)先進(jìn)的通道注意力機(jī)制方法。本文采用擠壓激勵(lì)注意力(SE)、高效通道注意力(ECA)、風(fēng)格校準(zhǔn)模塊(SRM)作為基準(zhǔn)注意力模塊來(lái)驗(yàn)證CFA 模塊的有效性,因?yàn)楸疚奶岢龅姆椒ê腿N對(duì)比注意力機(jī)制方法都屬于通道注意力機(jī)制。
(2)基準(zhǔn)方法。本文采用機(jī)器學(xué)習(xí)方法和卷積神經(jīng)網(wǎng)絡(luò)模型驗(yàn)證本文模型的優(yōu)越性。機(jī)器學(xué)習(xí)方法:參考文獻(xiàn)[21],本文也從晶狀體核性區(qū)域提取17個(gè)像素特征并借助機(jī)器學(xué)習(xí)方法進(jìn)行自動(dòng)分類,如支持向量機(jī)(support vector machine,SVM)、決策樹(decision tree,DT)、隨機(jī)森林(random forest,RF)[24]、GradientBoost 和Adaboost。卷積神經(jīng)網(wǎng)絡(luò)模型:ResNet、GraNet[23]、VGG[39]、ECANet、SRM、GCANet[25]、CBAM等先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型和注意力機(jī)制網(wǎng)絡(luò)模型被選擇作為對(duì)比方法。
本文使用Pytorch、Python、Pandas、scikit-learn 和OpenCV等軟件包來(lái)實(shí)現(xiàn)本文模型和基準(zhǔn)模型。所有深度學(xué)習(xí)模型使用隨機(jī)梯度下降優(yōu)化器(stochastic gradient descent,SGD)作為優(yōu)化器,訓(xùn)練周期(epoch)設(shè)置為150,批量大?。╞atch size)設(shè)置為32、初始化學(xué)習(xí)率(learning rate,lr)設(shè)置為0.035,每30 epochs 學(xué)習(xí)率減小5 倍。原始晶狀體核性區(qū)域的AS-OCT 影像高和寬分別864±50和386±30,本文將所有影像的高和寬都縮放為224×224,作為神經(jīng)網(wǎng)絡(luò)模型的輸入。機(jī)器學(xué)習(xí)的提取特征來(lái)自原始晶狀體核性區(qū)域的AS-OCT 影像。實(shí)驗(yàn)硬件環(huán)境配置為1 張Nvidia Titan GPU,DDR 12 GB 內(nèi)存,操作系統(tǒng)為Ubuntu。
表2為本文的CFA與其他三種先進(jìn)的通道注意力機(jī)制方法和基準(zhǔn)模型(baseline是指ResNet18和ResNet34)在AS-OCT影像數(shù)據(jù)集上的分類準(zhǔn)確率結(jié)果對(duì)比。從實(shí)驗(yàn)結(jié)果對(duì)比分析可見(jiàn),本文提出的CFA 和CFA-Variant優(yōu)于其他三種注意力機(jī)制和基準(zhǔn)模型。其中,CFA基于兩個(gè)網(wǎng)絡(luò)骨架都取得了最高的分類準(zhǔn)確率,分別達(dá)到96.05%和95.29%,比其他三種通道注意力方法和基準(zhǔn)模型至少提高了3.54個(gè)百分點(diǎn)。
表2 不同注意力機(jī)制方法在AS-OCT數(shù)據(jù)集上結(jié)果對(duì)比Table 2 Result comparison of different attention methods on AS-OCT dataset
相較于CFA-Variant,CFA的分類準(zhǔn)確率提升了2.61個(gè)百分點(diǎn)以上,因?yàn)镾oftmax可以當(dāng)作一種歸一化方法,其作用與BN 沖突,從而導(dǎo)致網(wǎng)絡(luò)模型的分類性能下降。除了SRM 以外,其他注意力機(jī)制方法ResNet18 的分類結(jié)果優(yōu)于它們基于ResNet34 的分類結(jié)果。因此,在下文消融實(shí)驗(yàn)中,選用ResNet18 作為CFA 和其他三種注意力機(jī)制方法的骨架網(wǎng)絡(luò)模型。
表3 為CFANet 與基準(zhǔn)方法在AS-OCT 影像數(shù)據(jù)集上的核性白內(nèi)障分類結(jié)果對(duì)比??梢钥闯?,本文模型在五個(gè)評(píng)價(jià)指標(biāo)都取得了最好性能,分別為96.05%、95.82%、95.97%、95.81%和92.64%。它比先進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)模型(已發(fā)表的文獻(xiàn)中GraNet)和具有代表性的注意力機(jī)制方法(SENet)在五個(gè)評(píng)價(jià)指標(biāo)上至少分別提升了3 和2 個(gè)百分點(diǎn);與經(jīng)典的機(jī)器學(xué)習(xí)方法的分類結(jié)果相比,本文模型提升了5個(gè)百分點(diǎn)以上。
表3 本文方法與基準(zhǔn)方法AS-OCT數(shù)據(jù)集上結(jié)果對(duì)比Table 3 Result comparison of proposed method and baselines on AS-OCT dataset 單位:%
相比于CBAM和SRM,CFANet的核性白內(nèi)障總體分類性能有著顯著提升,其中準(zhǔn)確率至少提高了2.4 個(gè)百分點(diǎn),這也驗(yàn)證了本文模型考慮不同特征表示的相對(duì)重要作用和重構(gòu)通道之間的依賴關(guān)系的有效性。深度神經(jīng)網(wǎng)絡(luò)模型的總體核性白內(nèi)障分類結(jié)果優(yōu)于機(jī)器學(xué)習(xí)方法,說(shuō)明了深度神經(jīng)網(wǎng)絡(luò)模型能夠更有效地提取有用的特征表示信息。
表4 列出了CFANet、對(duì)比方法、已發(fā)表的工作在UCSD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比。實(shí)驗(yàn)結(jié)果表明,CFANet在三個(gè)評(píng)價(jià)指標(biāo)上都優(yōu)于對(duì)比方法和已發(fā)表的工作并至少提升了1個(gè)百分點(diǎn),證明了本文模型的泛化能力。
表4 本文方法與基準(zhǔn)方法在UCSD數(shù)據(jù)集上結(jié)果對(duì)比Table 4 Result comparison of proposed method and baseline on UCSD dataset 單位:%
5.3.1 討論不同池化方式對(duì)分類結(jié)果的影響
為了驗(yàn)證本文提出的Avg-Max池化方式對(duì)CFANet分類結(jié)果的影響,本文基于CFA模塊單獨(dú)采用全局平均池化(GAP)方式和全局最大池化(GMP)方式與Avg-Max 操作符進(jìn)行比較,實(shí)驗(yàn)結(jié)果如圖3 所示??梢钥闯觯珹vg-Max 操作符的分類結(jié)果優(yōu)于GAP 和GMP 池化方法。由此說(shuō)明,全局均值和最大值特征表示在CFA模塊中扮演不同角色,且兩者組合能提高核性白內(nèi)障分類結(jié)果。在下文將會(huì)詳細(xì)地討論這兩種特征表示的權(quán)重分布來(lái)解釋它們的相對(duì)重要作用。
圖3 三種池化方法結(jié)果對(duì)比Fig.3 Result comparison of three pooling methods
5.3.2 討論不同臨床特征融合方式對(duì)分類結(jié)果的影響
為了驗(yàn)證通道全連接(CFC)方法在本文的CFA 模塊中有效性,本文將已發(fā)表的文獻(xiàn)中多層感知機(jī)(multilayer perception,MLP)、共享多層感知機(jī)(shared multilayer perception,S-MLP)、通道獨(dú)立連接(independent channel connection,ICC)[26]與本文的CFC 方法做作對(duì)比,Backbone 是ResNet18。實(shí)驗(yàn)結(jié)果如表5 所示,可以看出,CFC的分類結(jié)果優(yōu)于MLP、S-MLP以及ICC,它的準(zhǔn)確率、F1 和Kappa 分別達(dá)到了96.05%、95.81%和92.64%,比其他三種連接對(duì)比方法在三個(gè)評(píng)價(jià)指標(biāo)上最小提升和最高提升分別為1.1 和8.09 個(gè)百分點(diǎn)。因?yàn)镸LP 和S-MLP 僅重構(gòu)了通道之間的依懶關(guān)系,但忽略了不同特征表示在同一個(gè)通道中具有不同的重要性。ICC 考慮了不同特征表示類型在單個(gè)通道中起著不同的作用,但沒(méi)有重構(gòu)通道之間的依賴關(guān)系。本文的CFC方法不僅考慮到了通道依賴關(guān)系的構(gòu)建,也考慮了在一個(gè)通道中不同特征表示類型的重要性不同,從而證明了CFC方法的有效性。
表5 不同特征表示融合方式的結(jié)果對(duì)比Table 5 Result comparison of different feature representation fusion methods 單位:%
5.3.3 討論不同門控操作符對(duì)分類結(jié)果的影響
為了探究門控操作符對(duì)本文的CFA 模塊性能的影響,本文對(duì)比了四種不同的門控操作符在CFA模塊上的分類結(jié)果:ReLU、Sigmoid、Tanh、和Softmax,Backbone是ResNet18。根據(jù)表6 的實(shí)驗(yàn)結(jié)果分析可見(jiàn),Softmax取得了最好的分類結(jié)果,在三個(gè)評(píng)價(jià)指標(biāo)上都比其他三種門控操作符至少提高了1.36個(gè)百分點(diǎn)。Sigmoid、Tanh以及ReLU只考慮到單個(gè)通道的權(quán)重沒(méi)有其他通道的權(quán)重影響,而Softmax 不僅考慮到單個(gè)通道的權(quán)重還考慮了不同通道權(quán)重的相互影響。這也解釋了為什么采用Softmax作為門控操作符的CFA模塊的分類結(jié)果最好。
表6 不同門控操作符的結(jié)果對(duì)比Table 6 Result comparison of different gated operators 單位:%
5.4.1 特征權(quán)重可視化
為了探索Avg 和Max 這兩個(gè)臨床特征表示在CFA模塊中的相對(duì)重要作用,本文分析了不同深度殘差CFA模塊中這兩個(gè)臨床特征表示的相對(duì)權(quán)重分布(可以當(dāng)作是臨床特征相關(guān)系數(shù)的另一種表示),Backbone 是ResNet18。本文將神經(jīng)網(wǎng)絡(luò)模型基于深度可分為三個(gè)階段:淺層、中間層以及深層。參考文獻(xiàn)[34],本文將Conv_2_2 當(dāng)作淺層,Conv_3_2 和Conv_4_2 當(dāng)作中間層、Conv_5_2當(dāng)作深層。圖4為在AS-OCT影像數(shù)據(jù)集上不同階段的Avg 和Max 兩個(gè)特征表示的權(quán)重分布箱型圖??梢钥闯?,在不同深度的卷積層,與Avg 相比,CFA 模塊傾向賦予Max 相對(duì)較大的權(quán)重值。這表明在核性白內(nèi)障分類任務(wù)中Avg 和Max 這兩種特征表示類型的作用不同,對(duì)應(yīng)這兩種臨床特征與白內(nèi)障嚴(yán)重程度具有不同的相關(guān)系數(shù)。其中,Max主要突出特征圖的顯著特征表示;而Avg傾向于強(qiáng)調(diào)特征圖的全局均值特征表示。以上結(jié)果證明了本文提出的CFA 模塊能動(dòng)態(tài)地調(diào)整這兩個(gè)特征表示類型的相對(duì)權(quán)重,以此來(lái)提高分類性能和增強(qiáng)模型的決策過(guò)程的可解釋性。
圖4 臨床特征表示在三個(gè)不同階段的權(quán)重可視化Fig.4 Clinical feature representation weight visualization in three stage levels
5.4.2 通道權(quán)重可視化
圖5 為本文的CFA 與其他三種通道注意力機(jī)制方法的通道權(quán)重分布圖,與其他注意力方法相比:SE、ECA、SRM 和CFA 的相對(duì)較大權(quán)重值主要集中在少數(shù)通道上。因?yàn)椴煌ǖ缹?duì)應(yīng)的特征圖代表著不同特征表示,但在同一個(gè)卷積層的不是所有特征圖的特征都起著相同的作用,只有一部分特征圖的特征表示信息有用。因此,圖5的通道權(quán)重分布結(jié)果說(shuō)明CFA能較好地突出重要的通道和抑制不重要的通道,從而提高網(wǎng)絡(luò)模型的分類性能。
圖5 CFA與其他注意力機(jī)制方法的通道權(quán)重分布Fig.5 Channel weight distributions of CFA and other attention methods
5.4.3 基于類激活映射方法的可視化結(jié)果
本文采用類激活映射(class activation mapping,CAM)[41]方法對(duì)AS-OCT圖像的核性白內(nèi)障分類結(jié)果進(jìn)行可視化,它能突出神經(jīng)網(wǎng)絡(luò)模型在推理過(guò)程中關(guān)注圖像哪些區(qū)域,以此來(lái)增強(qiáng)預(yù)測(cè)結(jié)果的可解釋性。圖6為本文的SENet、ECANet、SRM、CFANet 的具有代表性的三種核性白內(nèi)障嚴(yán)重級(jí)別的類激活圖。其中,第一列是三種核性白內(nèi)障嚴(yán)重級(jí)別的AS-OCT影像;第二列到第五列分別是SENet、ECANet、SRM 和本文的CFANet 的類激活圖。第一行是正常的AS-OCT 影像及各種方法的類激活圖;以此類推,第二行是輕度核性白內(nèi)障的AS-OCT影像及各種方法的類激活圖;第三行是重度核性白內(nèi)障的AS-OCT 影像及各種方法的類激活圖??梢钥闯?,在正常的AS-OCT 影像上,三種對(duì)比注意力機(jī)制模型與CFANet 都關(guān)注整個(gè)核性區(qū)域,因?yàn)檎H说暮诵詤^(qū)域沒(méi)有出現(xiàn)混濁癥狀,像素分布十分均勻;對(duì)于輕度和重度核性白內(nèi)障的AS-OCT影像,本文的模型更關(guān)注核性區(qū)域的中間與下半部分與對(duì)比注意力方法模型相比,臨床研究發(fā)現(xiàn)也指出這兩個(gè)部分混濁程度比上半部分更明顯[42],它們是臨床診斷核性白內(nèi)障嚴(yán)重程度的重要參考,也解釋了本文模型的核性白內(nèi)障性能優(yōu)于其他對(duì)比模型的主要原因。
本文提出了一種基于臨床特征校準(zhǔn)注意力網(wǎng)絡(luò)(CFANet)模型,實(shí)現(xiàn)AS-OCT 影像下核性白內(nèi)障嚴(yán)重級(jí)別自動(dòng)精準(zhǔn)預(yù)測(cè)。在CFANet 中,本文設(shè)計(jì)了一個(gè)臨床特征校準(zhǔn)注意力模塊通過(guò)引入白內(nèi)障臨床先驗(yàn)知識(shí)對(duì)不同特征表示進(jìn)行動(dòng)態(tài)加權(quán)融合并突出通道權(quán)重的差異性。消融實(shí)驗(yàn)驗(yàn)證了本文模型對(duì)基于AS-OCT 影像的核性白內(nèi)障嚴(yán)重程度識(shí)別任務(wù)的有效性。模型的可視化結(jié)果分析表明,不同特征表示在本文模型具有不同重要的作用且本文模型采用softmax函數(shù)更能突出重要的通道;模型結(jié)果的可視化結(jié)果還顯示,與其他先進(jìn)的注意力機(jī)制模型先比,本文模型更關(guān)注白內(nèi)障的病理區(qū)域,與臨床研究發(fā)現(xiàn)保持一致性。
然而,如何從理論上來(lái)證明本文模型的可解釋性有待進(jìn)一步研究;能否引入更多的臨床特征作為臨床先驗(yàn)知識(shí)注入到神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)中來(lái)提高模型的分類結(jié)果,以及如何基于通道權(quán)重對(duì)模型進(jìn)行剪枝來(lái)構(gòu)建輕量級(jí)網(wǎng)絡(luò)并部署到眼科醫(yī)療設(shè)備中,是需要進(jìn)一步探索和解決的問(wèn)題。