周 濤 葉鑫宇 陸惠玲 常曉玉 劉赟璨
肺是人體氣體交換必不可缺的器官,但肺部疾病對(duì)人體健康造成嚴(yán)重威脅,常見的肺炎因其病因錯(cuò)綜復(fù)雜,并且難以在早期進(jìn)行精準(zhǔn)檢測(cè),導(dǎo)致全球每年約有7%的人口受到肺炎影響[1].胸腔X光片由于成本較低、易于獲取[2]等原因,成為全球肺炎檢測(cè)常用的方式之一.
X光片中肺炎與多余液體等其它肺部異常具有相似的不透明度,肺炎X光片計(jì)算機(jī)診斷技術(shù)并不發(fā)達(dá),導(dǎo)致目前診斷還主要依賴醫(yī)師,不僅增大醫(yī)師的工作量,而且使肺炎檢測(cè)水平很大程度上依賴醫(yī)師的診斷水平,診斷結(jié)果的可靠性也面臨巨大挑戰(zhàn).顯然,更精準(zhǔn)的計(jì)算機(jī)診斷肺炎模型可以減少醫(yī)生工作量和提高診斷的可靠性.
深度學(xué)習(xí)方法可以提取X光片中復(fù)雜而豐富的特征,確保有效的識(shí)別結(jié)果.隨著最大的胸腔X光片數(shù)據(jù)集ChestX-ray14[2]被不斷深入研究,學(xué)者們不斷提出眾多高性能的針對(duì)肺炎識(shí)別的深度學(xué)習(xí)方法,用于減少醫(yī)生工作量.Sharma等[3]使用VGG16,在6 436幅X光片中識(shí)別肺炎,獲得95.4%的準(zhǔn)確率.Bhandary等[4]采用支持向量機(jī)改進(jìn)AlexNet,檢測(cè)X光片和CT中的肺炎.Banerjee等[5]在肺炎X光片上使用MobileNet進(jìn)行計(jì)算機(jī)輔助診斷,獲得優(yōu)于傳統(tǒng)機(jī)器學(xué)習(xí)模型的性能.Afshar等[6]結(jié)合卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)和膠囊層,提出COVID-CAPS,捕獲肺炎X光片中疾病細(xì)節(jié),實(shí)時(shí)診斷肺炎.Liu等[7]提出多分支融合輔助學(xué)習(xí)方法,在肺炎X光片中獲得96.80%的準(zhǔn)確率.
DenseNet(Dense Convolutional Network)[8]是深度學(xué)習(xí)的一個(gè)重要模型,在肺炎分類識(shí)別上具有廣泛應(yīng)用.Hammoudi等[9]在肺炎X光片數(shù)據(jù)集上訓(xùn)練深度學(xué)習(xí)模型,DenseNet169獲得最優(yōu)性能.Qin等[10]利用兩個(gè)平行的三維密集網(wǎng)絡(luò)提取不同模態(tài)的細(xì)粒度特征,通過擠壓激勵(lì)(Squeeze-and-Excita-tion, SE)和空間注意門控對(duì)特征進(jìn)行增強(qiáng)并聚集.
目前,在肺炎識(shí)別分類任務(wù)上,研究人員嘗試結(jié)合DenseNet與其它技術(shù).Chen等[11]并行多個(gè)密集塊,使用SE對(duì)特征圖通道進(jìn)行重新校準(zhǔn),保證多個(gè)塊訓(xùn)練穩(wěn)定性的同時(shí)提高分類精度.Zhang等[12]通過注意力機(jī)制將密集塊內(nèi)全部層加權(quán)后進(jìn)行連接,提取更緊湊和重要的特征用于分類.Park等[13]利用DenseNet提取肺炎X光片中的特征,將特征嵌入Transformer模型,最終在肺炎診斷任務(wù)中獲得較優(yōu)性能.Ukwuoma等[14]融合DenseNet和Transformer,提出Hybrid Model,實(shí)現(xiàn)混合工作流,提取X光片特征并集成,在肺炎識(shí)別任務(wù)上獲得99.21%準(zhǔn)確率.
近年來(lái),注意力機(jī)制中的自注意力Transformer取得一系列新的進(jìn)展,在肺炎識(shí)別任務(wù)中應(yīng)用廣泛.Okolo等[15]提出用于肺炎X光片識(shí)別的輸入增強(qiáng)Transformer,獲得98.48%的精度,平均精度提升4.67%.Uparkar等[16]基于Transformer檢測(cè)X光片肺炎,隨著內(nèi)部層增加和補(bǔ)丁大小減少,準(zhǔn)確率提升明顯.Peng等[17]提出Comformer,在肺炎CT數(shù)據(jù)集上分類精度較優(yōu).
自注意力在肺炎分類任務(wù)上取得優(yōu)異性能,但肺炎病灶在X光片中存在影像學(xué)特征不明顯、淺層特征包含圖像細(xì)節(jié)信息、深層特征包含圖像語(yǔ)義信息、現(xiàn)有模型難以獲取深淺層多分辨率特征圖中的豐富信息、難于對(duì)深淺層進(jìn)行合理融合等問題.Zhao等[18]指出沒有上下文語(yǔ)義關(guān)系和淺層細(xì)節(jié)信息的局部特征可能導(dǎo)致分類錯(cuò)誤.
此外,病灶與周圍組織存在對(duì)比不明顯、邊緣模糊等問題,由于部分通道并不包含肺炎特征,病灶的空間信息缺乏,在深淺層融合中也會(huì)導(dǎo)致病灶特征難以被捕獲,僅使用通道或空間注意力也難以消除噪聲相關(guān)的特征.
因此,本文提出基于多分辨率注意密集網(wǎng)絡(luò)(Multi-resolution Attention Dense Network, MADense-Net)的肺炎分類識(shí)別方法.首先,將包含圖像細(xì)節(jié)信息的淺層特征向網(wǎng)絡(luò)深層傳遞,實(shí)現(xiàn)淺層定位信息與深層語(yǔ)義信息的深度融合.然后,針對(duì)病灶與周圍組織對(duì)比不明顯、邊緣模糊等問題,設(shè)計(jì)坐標(biāo)頻率注意力,以方向和位置互補(bǔ)的方式增強(qiáng)肺炎特征的表達(dá).最后,構(gòu)造多分辨率空間注意力門,生成空間權(quán)重并進(jìn)行語(yǔ)義式交互增強(qiáng),并在多分辨率深淺層信息中建立病灶信息的相互依賴關(guān)系,在關(guān)注病灶區(qū)域的同時(shí)降低特征提取過程中的噪聲.
本文設(shè)計(jì)基于多分辨率注意密集網(wǎng)絡(luò)(MA-DenseNet)的肺炎分類識(shí)別方法.MADenseNet整體框架如圖1所示.將坐標(biāo)頻率注意力引入DenseNet中,設(shè)計(jì)坐標(biāo)頻率密集塊和坐標(biāo)頻率過渡層.此外,將淺層特征圖向深層特征進(jìn)行逐層傳遞,從而實(shí)現(xiàn)網(wǎng)絡(luò)輸入與密集塊的深淺層密集連接.在深淺層密集連接中構(gòu)造多分辨率空間注意力門,該門由深淺層交互式空域增強(qiáng)的空間注意力門和用于建立病灶遠(yuǎn)程依賴關(guān)系的交叉注意操作構(gòu)成.
圖1 MADenseNet整體框架圖Fig.1 Overall structure of MADenseNet
ResNet通過殘差連接擬合殘差項(xiàng),對(duì)當(dāng)前層與前續(xù)層特征進(jìn)行相加,在實(shí)現(xiàn)網(wǎng)絡(luò)模型加深的同時(shí)提高性能.DenseNet[8]中每層向網(wǎng)絡(luò)增加特征且保持其它特征不變,以更少參數(shù)量和計(jì)算量獲得更好的收斂率和更高的性能,這是由于密集連接方式可以明確區(qū)分輸入特征和新特征,不會(huì)導(dǎo)致信息流被破壞,進(jìn)一步緩解梯度消失和網(wǎng)絡(luò)退化問題.
但DenseNet最終決策僅利用最終密集塊特征,具有豐富定位信息的淺層特征并不能充分傳遞到最終決策層,并且采用單一下采樣容易造成信息丟失,導(dǎo)致難以識(shí)別影像中影像學(xué)特征不明顯的肺炎特征.為此,本文設(shè)計(jì)深淺層密集連接,在下采樣同時(shí)將網(wǎng)絡(luò)輸入特征與密集塊特征進(jìn)行密集連接,對(duì)不同分辨率的深層語(yǔ)義信息與淺層定位信息進(jìn)行深度融合,獲取多分辨率特征圖中的豐富信息,并防止丟失一些圖像的細(xì)節(jié)信息,這在一定程度上彌補(bǔ)肺炎病灶的影像學(xué)信息不明顯的缺陷,跨層密集連接還實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)的隱式深度監(jiān)督,改善網(wǎng)絡(luò)中的信息流和梯度,在降低參數(shù)的同時(shí)避免過擬合,提高網(wǎng)絡(luò)的特征表征能力.
X光片中存在肺炎病灶與周圍組織對(duì)比不明顯的問題,通道注意力機(jī)制可以增強(qiáng)肺炎相關(guān)的特征通道,全局平均池化(Global Average Pooling, GAP)是頻域分析中一種特例的特征分解,等價(jià)于離散余弦變換(Discrete Cosine Transform, DCT)的最低頻率分量,但GAP取均值也難以表達(dá)出整個(gè)空間信息.例如:SE使用空間維度壓縮后的特征向量對(duì)特征通道進(jìn)行增強(qiáng),這樣會(huì)忽略同一通道上特征的空間信息.為此,本文設(shè)計(jì)坐標(biāo)頻率注意力(Coordinate Frequency Attention, CFA),框架如圖2所示.DCT替代GAP,利用卷積運(yùn)算在x方向空間信息中建立特征間依賴關(guān)系,同時(shí)在y方向空間中保留精確的位置信息,以空間方向和位置相互補(bǔ)充的方式增強(qiáng)感興趣目標(biāo)的表達(dá).此外,建模整個(gè)空間多頻率分量中的通道相互關(guān)系,并以殘差學(xué)習(xí)方式與兩個(gè)方向的空間多頻率分量信息進(jìn)行融合,提高穩(wěn)定性和魯棒性.
圖2 CFA框架圖Fig.2 Structure of CFA
設(shè)定H、W分別為輸入特征圖U的高、寬,C為通道數(shù).DCT基本參數(shù)為:
其中,
h∈{0,1,…,(H-1)(C-1)},
i∈{0,1,…,H-1},
w∈{0,1,…,(W-1)(C-1)},
j∈{0,1,…,W-1}.
令h=w=0,DCT最低頻分量為:
GAP(U),
可以看出相比SE,DCT應(yīng)用的最低頻分量GAP(U)包含更多頻率分量信息.引入其它分量:
本文設(shè)計(jì)的DCT可以沿整個(gè)空間方向提取多頻率的通道分量信息Fc,以及沿空間的x方向與y方向分別提取多頻率的通道空間分量信息Fm與Fn,即
合并多頻率分量信息Fm和Fn,然后利用卷積運(yùn)算(Conv)和分割(Split),生成2個(gè)二維特征矩陣:
Dm,Dn=Split(Relu(BN(conv(Fm?Fn)))),
其中,?為拼接,Relu(·)為激活函數(shù),BN(·)為批量歸一化.Fc通過全連接層(FC)生成,將其與2個(gè)二維特征矩陣相加,生成注意力權(quán)重:
Wm=φ(conv(Dm+fc(Relu(fc(Fc))))),
其中φ(·)為Sigmoid函數(shù).最后對(duì)兩個(gè)空間方向上生成的二維權(quán)重Wm和Wn進(jìn)行加權(quán).
密集塊和過渡層中引入坐標(biāo)頻率注意力,MADenseNet包含4個(gè)不同深度的坐標(biāo)頻率密集塊,深度和密集單元個(gè)數(shù)相同,分別為6、12、24、16,可以自適應(yīng)地突出有價(jià)值的肺炎特征,提高網(wǎng)絡(luò)的表征能力,融合不同分辨率深淺層信息.
肺炎病灶與周圍組織間存在邊緣模糊問題,盡管采用坐標(biāo)頻率注意力增強(qiáng)肺炎特征,可以更好地識(shí)別病灶類別,但部分空間信息保留只能關(guān)注到整個(gè)通道的類別,難以充分學(xué)習(xí)病灶的空間信息,從而導(dǎo)致網(wǎng)絡(luò)分類決策受到潛在背景和噪聲的影響,這種現(xiàn)象更容易在淺層定位信息與深層語(yǔ)義信息融合中發(fā)生.
此外,深淺層特征直接融合網(wǎng)絡(luò)難以精準(zhǔn)關(guān)注病灶區(qū)域,需要同時(shí)關(guān)注肺炎的類別信息和空間位置信息.
為此,本文在多分辨率深淺層信息中,構(gòu)造由空間注意力門和交叉注意操作組成的多分辨率空間注意力門,充分利用深淺層特征提升網(wǎng)絡(luò)學(xué)習(xí)肺炎特征的能力.其中空間注意力門對(duì)不同分辨率的淺層特征和深層特征進(jìn)行融合,利用包含空間位置信息的淺層和包含上下文信息的深層生成空間權(quán)重,進(jìn)行語(yǔ)義式交互增強(qiáng).空間注意力門結(jié)構(gòu)如圖3所示.
圖3 空間注意力門結(jié)構(gòu)圖Fig.3 Structure of spatial attention gate
此外,設(shè)計(jì)如圖4所示的交叉注意操作,進(jìn)一步交叉相乘,在語(yǔ)義式交互增強(qiáng)的深淺層特征中,建立病灶信息的相互依賴關(guān)系.
圖4 交叉注意操作流程圖Fig.4 Flowchart of cross attention operation
首先在淺層特征圖、深層特征圖和融合后特征圖中分別利用1×1卷積生成3個(gè)矩陣Q、K、V.然后利用K乘Q和KT乘Q,以K·Q+KT·Q的相加方式進(jìn)行疊加,可以表示淺層特征和深層特征之間的相關(guān)程度.最后使用Sigmoid函數(shù)(φ(·))生成空間注意權(quán)重,對(duì)V加權(quán)并使用殘差學(xué)習(xí),獲得交叉注意操作最終輸出:
US2=φ(K·Q+KT·Q)·V+US1.
MADenseNet有4個(gè)多分辨率空間注意力門,深淺層特征圖通道數(shù)分別為128、256、512、512,對(duì)深淺層特征進(jìn)行語(yǔ)義式交互增強(qiáng),建立病灶信息的相互依賴關(guān)系,使網(wǎng)絡(luò)精準(zhǔn)關(guān)注病灶區(qū)域,并減少特征提取中的噪聲.
實(shí)驗(yàn)采用如下4個(gè)數(shù)據(jù)集.1)廣州市婦幼保健中心的肺炎X光片ChestXRay2017[19],共1 583幅正常圖像和4 273幅肺炎圖像.2)文獻(xiàn)[20]的肺炎相關(guān)X光片數(shù)據(jù)集,共234幅正常圖像和221幅新冠肺炎圖像.3)文獻(xiàn)[21]的肺炎相關(guān)X光片數(shù)據(jù)集,共8 552幅正常圖像、5 674幅肺炎圖像和7 598幅新冠肺炎陰性圖像.4)文獻(xiàn)[22]的肺炎相關(guān)X光片數(shù)據(jù)集,共6 845幅正常圖像、10 192幅肺炎圖像和7 660幅新冠肺炎圖像.此外,本文合并1)、3)、4)數(shù)據(jù)集上正常圖像和肺炎圖像,使用較大的樣本量進(jìn)行進(jìn)一步研究和可視化對(duì)比.
實(shí)驗(yàn)環(huán)境為Windows Server 2019系統(tǒng),256 GB內(nèi)存,搭載2塊3 GHz的36核處理器,并采用2塊泰坦第V代顯卡,基于GPU的Pytorch框架搭建網(wǎng)絡(luò),使用隨機(jī)梯度下降(Stochastic Gradient Descent, SGD)優(yōu)化器進(jìn)行優(yōu)化,采用0.01的初始學(xué)習(xí)率和每10個(gè)周期0.9的衰減策略,設(shè)置權(quán)重衰減值為1e-4,訓(xùn)練周期為250,訓(xùn)練批處理大小為48.
根據(jù)模型預(yù)測(cè)結(jié)果分類錯(cuò)誤個(gè)數(shù)和正確個(gè)數(shù),得到真正類(True Positive, TP)、假正類(False Positive, FP)、假負(fù)類(False Negative, FN)、真負(fù)類(True Negative, TN).準(zhǔn)確率(Accuracy)為全部類預(yù)測(cè)正確的比例,精確率(Precision)為正類且模型預(yù)測(cè)正確占所有正類的比例,召回率(Recall)為模型預(yù)測(cè)的正類占所有正類的比例,F1分?jǐn)?shù)如下:
ROC(Receiver Operating Characteristic)曲線是以敏感度即真正類率(True Positive Rate, TPR)為縱軸、假正類率(False Positive Rate, FPR)為橫軸進(jìn)行繪制.將ROC曲線下面積定義為AUC(Area Under Curve),越靠近左上角AUC值越大,表示模型的排序和分類性能越優(yōu).評(píng)價(jià)指標(biāo)均是值越大表示模型越優(yōu).TPR值等于召回率,FPR和TNR(True Negative Rate)定義如下:
為了評(píng)估坐標(biāo)頻率注意力的有效性,在深淺層密集連接的基礎(chǔ)上,與4種通道注意力機(jī)制進(jìn)行對(duì)比,結(jié)果如表1所示.
表1 各注意力機(jī)制的指標(biāo)值對(duì)比結(jié)果Table 1 Index comparison of different attentions
從表1可以看出,高效通道注意力使用一維卷積替換擠壓激勵(lì)注意力中的全連接層,參數(shù)量增加最少,但在肺炎識(shí)別上表現(xiàn)略差.坐標(biāo)注意力獲得更高的性能提升,在高效通道注意力基礎(chǔ)上沿兩個(gè)空間方向聚合特征,可以較好地保留部分空間信息.相比深淺層密集連接,高斯上下文自注意力的準(zhǔn)確率和AUC值分別提升1.43%和2.53%,在Transfor-mer基礎(chǔ)上利用高斯方程計(jì)算注意權(quán)重,學(xué)習(xí)上下文特征間的相互依賴關(guān)系,AUC值提升明顯,具有較優(yōu)的肺炎識(shí)別能力.相比深淺層密集連接,坐標(biāo)頻率注意力的準(zhǔn)確率和AUC值分別提升2.17%和3.49%,對(duì)深淺層特征提取空間x、y方向和通道的多頻率分量信息,在空間多頻率分量信息中建立特征間依賴關(guān)系的同時(shí)保留精確的位置信息,以通道間相互關(guān)系、方向和位置互補(bǔ)的方式增強(qiáng)感興趣目標(biāo)的表達(dá),在肺炎識(shí)別中獲得最優(yōu)性能和最佳魯棒性.
為了評(píng)估MADenseNet結(jié)構(gòu)的有效性,進(jìn)行5組選擇,基礎(chǔ)模型為DenseNet121.1)網(wǎng)絡(luò)1.縮減部分通道數(shù).2)網(wǎng)絡(luò)2.在部分通道數(shù)縮減的基礎(chǔ)上進(jìn)行整個(gè)網(wǎng)絡(luò)的深淺層密集連接.3)網(wǎng)絡(luò)3.在深淺層密集連接DenseNet121中引入坐標(biāo)頻率注意力.4)網(wǎng)絡(luò)4.在網(wǎng)絡(luò)3基礎(chǔ)上,對(duì)深淺層特征引入交叉注意操作.5)網(wǎng)絡(luò)5.在網(wǎng)絡(luò)4基礎(chǔ)上,在深淺層密集連接的連接處引入空間注意力門,即MADenseNet.
最終各網(wǎng)絡(luò)的消融實(shí)驗(yàn)結(jié)果如表2所示,DenseNet121、網(wǎng)絡(luò)2和網(wǎng)絡(luò)5的熱力圖結(jié)果如圖5所示,紅色程度越深表示網(wǎng)絡(luò)對(duì)這個(gè)區(qū)域的關(guān)注度越高.
表2 5組實(shí)驗(yàn)消融的結(jié)果Table 2 Results of 5 sets of ablation experiments
(a)原始圖像(a)Original images
(b)DenseNet121
(c)網(wǎng)絡(luò)2(c)Network 2
(d)網(wǎng)絡(luò)5(d)Network 5圖5 各網(wǎng)絡(luò)的熱力圖Fig.5 Heat maps of different networks
由表2可見,相比DenseNet121,網(wǎng)絡(luò)1的參數(shù)量下降明顯,但準(zhǔn)確率和AUC值降低2.33%和2.71%.網(wǎng)絡(luò)2的參數(shù)量減少42.17%,訓(xùn)練時(shí)間降低40.84%,而整體性能僅略微降低,表明采用深淺層密集連接可大幅提高模型效率.由圖5(c)可見,網(wǎng)絡(luò)2關(guān)注區(qū)域主要集中在胸腔內(nèi)部,較好地避免關(guān)注外部區(qū)域所導(dǎo)致的識(shí)別誤差,淺層定位信息與深層語(yǔ)義信息進(jìn)行深度融合,可獲得更多圖像細(xì)節(jié)信息,進(jìn)一步學(xué)習(xí)肺炎影像學(xué)特征.網(wǎng)絡(luò)3以較少參數(shù)量獲得近2%的性能提升,表明坐標(biāo)頻率注意力在對(duì)比低的X光片中,能自適應(yīng)地增強(qiáng)包含病灶信息的通道,提高網(wǎng)絡(luò)表征能力.相比網(wǎng)絡(luò)3,網(wǎng)絡(luò)4的準(zhǔn)確率和AUC值分別提高1.07%和1.58%,對(duì)病灶信息建立遠(yuǎn)程依賴關(guān)系,可以較好識(shí)別肺炎.
相比網(wǎng)絡(luò)4,網(wǎng)絡(luò)5的準(zhǔn)確率和AUC值分別提高1.58%和2.54%,空間注意力門對(duì)淺層特征與深層特征進(jìn)行語(yǔ)義式交互增強(qiáng),利用淺層細(xì)節(jié)信息和深層語(yǔ)義信息,可以更好地聚焦到肺炎特征.肺炎病灶特征不明顯且對(duì)比度較低,網(wǎng)絡(luò)容易關(guān)注到其它類似肺炎的特征,而提取較多的無(wú)用信息.由圖5(d)可見,網(wǎng)絡(luò)關(guān)注區(qū)域更集中,識(shí)別無(wú)錯(cuò)誤,可看出更多具有區(qū)分性的特征被學(xué)習(xí),表明語(yǔ)義式交互深淺層特征可以更集中和更精準(zhǔn)地定位到病灶區(qū)域,同時(shí)降低特征提取過程中的噪聲.
相比DenseNet121,網(wǎng)絡(luò)5在準(zhǔn)確率和AUC值上分別提高4.14%和6.57%,訓(xùn)練時(shí)間降低29.02%,在性能和效率上均提升明顯.
本節(jié)選擇如下對(duì)比網(wǎng)絡(luò):1)CNN網(wǎng)絡(luò).VGG19[3]、ResNet101[4]、密集擠壓激勵(lì)網(wǎng)絡(luò)(Dense Squeeze-and-Excitation Network, DSENet)[23]、REG-NETX-3.2GF[24]、ConvNeXt-B[25].2)Transformer網(wǎng)絡(luò).Swin Transformer-B[26]、PoolFormer-B[27].3)CNN結(jié)合Transformer網(wǎng)絡(luò).Conformer-B[17]、Next-Vit-B[28].在ChextXRay2017數(shù)據(jù)集上,各網(wǎng)絡(luò)的具體分類結(jié)果如表3所示.
表3 各網(wǎng)絡(luò)在ChestXRay2017數(shù)據(jù)集上的對(duì)比結(jié)果Table 3 Result comparison of different networks on ChestXRay2017 dataset
由表3可知,ResNet101通過殘差連接重構(gòu)學(xué)習(xí)過程和重定向網(wǎng)絡(luò)信息流,相比VGG19,性能和效率得到提升.基于架構(gòu)搜索的REGNETX-3.2GF以較少參數(shù)量獲得更優(yōu)性能.DSENet利用SE和非對(duì)稱卷積改進(jìn)DenseNet121,性能獲得明顯提升.相比ResNet101,ConvNeXt-B使用較大的7×7卷積核,準(zhǔn)確率和AUC值分別提升2.55%和3.51%.相比5個(gè)CNN網(wǎng)絡(luò),MADenseNet以較高計(jì)算效率獲得明顯的性能提升.
Swin Transformer-B獲得與REGNETX-3.2GF相近的肺炎識(shí)別性能.相比Swin Transformer-B,Pool-Former-B采用更通用的模型結(jié)構(gòu),準(zhǔn)確率和AUC值分別提升1.24%和1.06%.相比這2個(gè)Transformer模型,MADenseNet采用近10%參數(shù)量獲得較大的性能提升.Conformer-B采用雙分支并行,以交互方式融合局部特征和全局特征,以較大的模型參數(shù)量獲得較高的肺炎識(shí)別能力.工業(yè)部署場(chǎng)景中設(shè)計(jì)的CNN-Transformer混合架構(gòu)Next-Vit-B,以Confor-mer-B近1/3參數(shù)量獲得小幅性能提升.相比Next-Vit-B,MADenseNet的參數(shù)量和AUC值分別提升1.05%和1.54%.
MADenseNet可以提取更多的有效特征,具有最高識(shí)別率和最好特征表征能力,對(duì)X光片肺炎樣本的識(shí)別能力最優(yōu).
各網(wǎng)絡(luò)的ROC曲線如圖6所示.由圖可見,MADenseNet具有明顯的優(yōu)勢(shì)和魯棒性.
圖6 各網(wǎng)絡(luò)在ChestXRay2017數(shù)據(jù)集上的ROC曲線Fig.6 ROC curves of different networks on ChestXRay2017 dataset
各網(wǎng)絡(luò)的PR曲線如圖7所示,圖中準(zhǔn)確率越高,召回率越低,越向上方凸出、包圍面積就越大,表示網(wǎng)絡(luò)效果越優(yōu).由圖可看出,MADenseNet性能明顯最優(yōu),能更好地識(shí)別肺炎.
圖7 各網(wǎng)絡(luò)在ChestXRay2017數(shù)據(jù)集上的PR曲線Fig.7 PR curves of different networks on ChestXRay2017 dataset
在2.1節(jié)描述的合并數(shù)據(jù)集上,將MADenseNet與性能較優(yōu)的ConvNeXt、PoolFormer和Next-Vit進(jìn)行對(duì)比,并對(duì)比X光片上融合DenseNet和Trans-former的混合模型Hybrid Model[14].各網(wǎng)絡(luò)的具體分類結(jié)果如表4所示,PR曲線如圖8所示.選擇8例肺炎較難識(shí)別的患者,各網(wǎng)絡(luò)生成的熱力圖和分類錯(cuò)誤結(jié)果對(duì)比如圖9所示.
表4 各網(wǎng)絡(luò)在合并數(shù)據(jù)集上的結(jié)果對(duì)比Table 4 Result comparison of different networks on merged dataset
圖8 各網(wǎng)絡(luò)在合并數(shù)據(jù)集上的PR曲線Fig.8 PR curves of different networks on merged dataset
(a)ConvNet
(b)PoolFormer
(c)Hybrid model
(d)MADenseNet圖9 各網(wǎng)絡(luò)在8例圖像上的熱力圖Fig.9 Heat maps of different networks for 8 example images
由表4、圖8和圖9可以看出,MADenseNet計(jì)算效率和識(shí)別性能最佳.
從圖9可看出,ConvNeXt在圖像II、III、IV、VI、VII上判錯(cuò),PoolFormer在圖像I、II、V、VI上判錯(cuò).Hybrid在圖像IV、VII上判錯(cuò),MADenseNet在圖像VII上判錯(cuò).相比PoolFormer,ConvNeXt關(guān)注區(qū)域相對(duì)更大,雖然關(guān)注區(qū)域形狀更貼合胸腔輪廓,但難以捕獲可區(qū)分特征,說明識(shí)別區(qū)域大但識(shí)別能力不足.PoolFormer識(shí)別肺炎相關(guān)特征和背景的能力不強(qiáng),會(huì)出現(xiàn)關(guān)注到胸腔外部的情況(見圖像I),且關(guān)注區(qū)域較易出現(xiàn)規(guī)則的矩形形狀(見圖像V、VI).Hybrid Model利用全局信息和局部信息學(xué)習(xí)更豐富特征,總體識(shí)別準(zhǔn)確率更高,網(wǎng)絡(luò)也能更好地關(guān)注胸腔區(qū)域,但還是會(huì)出現(xiàn)關(guān)注無(wú)病灶區(qū)域和肺炎病灶難以識(shí)別(見圖像IV)的問題.MADenseNet在多分辨率深淺層信息中建立病灶信息的相互依賴關(guān)系,具有最佳的肺炎識(shí)別能力.
為了驗(yàn)證MADenseNet的魯棒性和泛化能力,在2.1描述的第2個(gè)、第3個(gè)和第4個(gè)公開的肺炎相關(guān)X光片數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),選擇如下對(duì)比網(wǎng)絡(luò):VGG19[3]、COVID-CAPS[6]、Crawling+GSEN(Gray-Scale Spatial Exploitation Net)[20]、ViT-B32[21]、DenseNet and DLMNN(Deep Learning Modified Neural Network)[22]、E-DiCoNet[29]、CoroNet[30].
各網(wǎng)絡(luò)在3個(gè)公開數(shù)據(jù)集上的對(duì)比結(jié)果如表4~表6所示.由表可見,MADenseNet均取得較優(yōu)性能.
表5 各網(wǎng)絡(luò)在第1個(gè)公開數(shù)據(jù)集上的對(duì)比結(jié)果Table 5 Result comparison of different networks on public dataset 1)
表6 各網(wǎng)絡(luò)在第2個(gè)公開數(shù)據(jù)集上的對(duì)比結(jié)果Table 6 Result comparison of different networks on public dataset 2)
表7 各網(wǎng)絡(luò)在第3個(gè)公開數(shù)據(jù)集上的對(duì)比結(jié)果Table 7 Result comparison of different networks on public dataset 3)
本文提出基于多分辨率注意密集網(wǎng)絡(luò)(MA-DenseNet)的肺炎分類識(shí)別方法,密集連接融合深層與淺層多分辨率特征,以方向和位置互補(bǔ)的方式融合通道間相互關(guān)系,并建立肺炎病灶的相互依賴關(guān)系.在5個(gè)肺炎數(shù)據(jù)集上進(jìn)行對(duì)比和消融實(shí)驗(yàn),MADenseNet在各項(xiàng)評(píng)估指標(biāo)上達(dá)到較優(yōu)性能,以較高效率獲得99.15%準(zhǔn)確率和98.82%AUC值,能較好地識(shí)別肺炎疾病,在肺炎的診斷評(píng)估中具有很大潛力,為醫(yī)生的輔助診斷、術(shù)前術(shù)后檢查工作提供有效幫助.
消融實(shí)驗(yàn)結(jié)果表明淺層特征的引入有助于提升方法的識(shí)別性能,但是目前的研究只是在網(wǎng)絡(luò)中間特征圖之間進(jìn)行交互,原始圖像在數(shù)據(jù)預(yù)處理中進(jìn)行的尺寸壓縮可能會(huì)丟失關(guān)鍵信息,尤其是高分辨率醫(yī)學(xué)圖像中像素?cái)?shù)還較少的病灶信息.因此,在未來(lái)的工作中,考慮使用基于數(shù)據(jù)特性設(shè)計(jì)恰當(dāng)?shù)纳顪\層注意力機(jī)制,并兼顧局部和全局交互式學(xué)習(xí),設(shè)計(jì)滿足醫(yī)學(xué)高精度識(shí)別和低誤診率要求的模型.此外,還可考慮使用訓(xùn)練可視化對(duì)比實(shí)驗(yàn)中的模型熱力圖,指導(dǎo)后續(xù)批次的數(shù)據(jù)預(yù)處理,盡可能高效和魯棒地學(xué)習(xí)原始圖中更清晰的病灶特征.