文章編號(hào)" 1000-5269(2024)01-0094-09
DOI:10.15958/j.cnki.gdxbzrb.2024.01.15
收稿日期:2022-12-05
基金項(xiàng)目:貴州省科學(xué)技術(shù)基金資助項(xiàng)目(黔科合基礎(chǔ)-ZK[2021]重點(diǎn)001)
作者簡(jiǎn)介:張吉友(1998—),男,在讀碩士,研究方向:計(jì)算機(jī)視覺(jué)、醫(yī)學(xué)圖像處理,E-mail:1916537869@qq.com.
*通訊作者:張榮芬,E-mail: rfzhang@gzu.edu.cn.
摘" 要:目前許多肺炎圖像分類(lèi)網(wǎng)絡(luò)大多采用單分支網(wǎng)絡(luò)對(duì)輸入圖像進(jìn)行特征提取,這在一定程度上忽略了圖像不同維度的特征信息。為了優(yōu)化這種問(wèn)題,提出一種融入注意力機(jī)制的雙分支肺炎圖像分類(lèi)網(wǎng)絡(luò),利用VGG16網(wǎng)絡(luò)和加入可分離卷積以及融入卷積注意力模塊(convolution block attention module, CBAM)的CNN卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行雙分支特征提取,能夠關(guān)注到肺炎圖像不同層次的特征信息,將2種網(wǎng)絡(luò)分支的特征進(jìn)行不同維度的融合,最后輸入全連接層進(jìn)行分類(lèi)判決。結(jié)果表明,該網(wǎng)絡(luò)在正常肺部、病毒性肺炎、新型冠狀病毒肺炎(COVID-19)X-ray圖像組成的測(cè)試集上取得了95%的平均準(zhǔn)確率。經(jīng)過(guò)消融試驗(yàn)證明,該網(wǎng)絡(luò)加入的可分離卷積模塊、注意力模塊和特征融合對(duì)減少網(wǎng)絡(luò)參數(shù)、提高網(wǎng)絡(luò)分類(lèi)的準(zhǔn)確率起到明顯作用。與其他網(wǎng)絡(luò)的性能對(duì)比也表明該網(wǎng)絡(luò)在肺炎圖像分類(lèi)上表現(xiàn)出較高的準(zhǔn)確率和較強(qiáng)的魯棒性。
關(guān)鍵詞:新冠肺炎;肺炎圖像分類(lèi);注意力機(jī)制;雙分支特征提取和融合
中圖分類(lèi)號(hào):TP391.41
文獻(xiàn)標(biāo)志碼:A
新型冠狀病毒肺炎(COVID-19),簡(jiǎn)稱(chēng)“新冠肺炎”??ㄊ綗晒釶CR法是快速確診新冠肺炎的方法[1],但是這種方法采集新冠病毒核酸存在檢測(cè)結(jié)果有效期短、靈敏度較低等缺點(diǎn),需要重復(fù)檢測(cè)才能確診。對(duì)于防治新冠肺炎和阻止疫情的有效方法是能夠及時(shí)發(fā)現(xiàn)病人并快速隔離。借助X線(xiàn)(X-ray)胸片圖像和電子計(jì)算機(jī)斷層掃描(CT)圖像確診新冠肺炎是一種快速、方便、準(zhǔn)確率高的有效方法。但是,由于新冠肺炎傳染力強(qiáng),許多地區(qū)的防疫形式嚴(yán)峻,導(dǎo)致醫(yī)生識(shí)別新冠肺炎醫(yī)學(xué)圖像的工作量增大。為了對(duì)醫(yī)學(xué)圖像進(jìn)行分類(lèi)和找出病灶部位,新冠肺炎爆發(fā)以來(lái),采用深度學(xué)習(xí)對(duì)X-ray圖像進(jìn)行分類(lèi)成為熱點(diǎn)研究方向。例如,宋瑤等[2]改進(jìn)U-net網(wǎng)絡(luò)以對(duì)新冠肺炎的CT圖像進(jìn)行分割。ICEK等 [3]把所有的2D卷積換成3D卷積塊,采用批量標(biāo)準(zhǔn)化防止梯度爆炸。冉健雨[4]利用遷移學(xué)習(xí),運(yùn)用VGG19,ResNet50和CheXNet這幾種卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi)并比較網(wǎng)絡(luò)的分類(lèi)效果。
雖然很多專(zhuān)家和學(xué)者利用遷移學(xué)習(xí)和已有的網(wǎng)絡(luò)結(jié)構(gòu)在分類(lèi)方面取得了不錯(cuò)的效果,但是許多網(wǎng)絡(luò)存在網(wǎng)絡(luò)層數(shù)較多,容易造成過(guò)擬合,而且采用單分支網(wǎng)絡(luò)提取圖像特征的效果不好。為解決上述問(wèn)題,本文提出了一種基于并行雙分支結(jié)構(gòu)進(jìn)行特征提取,在卷積網(wǎng)絡(luò)融入可分離卷積和注意力模塊,注重各類(lèi)肺炎圖像的有用特征信息,然后利用兩路網(wǎng)絡(luò)提取到的特征進(jìn)行特征融合,從而實(shí)現(xiàn)對(duì)肺炎圖像進(jìn)行高效分類(lèi),以期借助深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型智能識(shí)別肺炎圖像,將其作為新冠肺炎預(yù)防的一種輔助診斷手段。
1" 融入注意力模塊的雙分支多分類(lèi)網(wǎng)絡(luò)
基于文獻(xiàn)[5],本文提出了一種融入注意力機(jī)制的雙分支肺炎圖像分類(lèi)網(wǎng)絡(luò),其結(jié)構(gòu)示意如圖1所示。雙分支網(wǎng)絡(luò)的一個(gè)分支是VGG16遷移學(xué)習(xí)網(wǎng)絡(luò),另一個(gè)分支網(wǎng)絡(luò)則包括5個(gè)卷積塊。每個(gè)卷積塊中依次加入卷積層、激活層、正則化層和池化層。為了增強(qiáng)網(wǎng)絡(luò)對(duì)各種肺炎圖像的特征提取,在卷積網(wǎng)絡(luò)的第3、4、5個(gè)模塊中分別加入了卷積注意力模塊(convolution block attention module, CBAM),并將其輸出和第一個(gè)分支網(wǎng)絡(luò)的輸出在Concatenate模塊實(shí)現(xiàn)特征融合,然后將融合層的輸出送入到4層全連接層進(jìn)行分類(lèi)。
由圖1可見(jiàn):采用雙分支網(wǎng)絡(luò)并且加入注意力模塊突破了單分支提取特征的局限,可以提高模型處理數(shù)據(jù)和提取高質(zhì)量特征的能力;而將2個(gè)分支網(wǎng)絡(luò)提取到的不同特征進(jìn)行特征融合,在一定程度上獲取了更多不同種類(lèi)肺炎圖像的特征。其中,選擇第3個(gè)卷積塊的輸出加入CBAM模塊作為融合源,能從全局上把握數(shù)據(jù)的分布情況并進(jìn)行特征提取。所得特征有助于模型提取淺層特征信息,利用淺層特征信息進(jìn)行圖像分類(lèi)。此外,將第4個(gè)和第5個(gè)卷積塊的輸出作為注意力機(jī)制模塊特征融合的一個(gè)信息源,以獲得更深層次的特征信息。經(jīng)過(guò)幾次卷積和注意力模塊的添加,網(wǎng)絡(luò)獲取到的信息是輸入數(shù)據(jù)更深層次的信息,使得網(wǎng)絡(luò)對(duì)深層次的信息更加關(guān)注。同時(shí),網(wǎng)絡(luò)中的特征融合模塊能對(duì)不同維度的特征信息進(jìn)行整合,有利于網(wǎng)絡(luò)結(jié)合淺層特征和深層特征進(jìn)行分類(lèi)。
1.1" CBAM
注意力機(jī)制在人類(lèi)的感官中扮演著重要的角色。人類(lèi)視覺(jué)在處理視野里面的所有對(duì)象時(shí)相對(duì)困難,但是能夠抓住視野里面一些對(duì)象的主要特征進(jìn)行學(xué)習(xí),而再次遇見(jiàn)類(lèi)似對(duì)象時(shí)則能抓住其主要特征進(jìn)行識(shí)別。這一效應(yīng)運(yùn)用到計(jì)算機(jī)視覺(jué)領(lǐng)域,可以讓深度學(xué)習(xí)模型注重輸入的有用特征信息,忽略無(wú)關(guān)信息以便能更好地進(jìn)行分類(lèi)識(shí)別。
CBAM于2018年提出。在深度學(xué)習(xí)中加入CBAM注意力機(jī)制,不僅使得網(wǎng)絡(luò)知曉應(yīng)該注意哪里,而且還能提高興趣區(qū)域的特征表示能力[6]。而CBAM注意力機(jī)制本質(zhì)是一個(gè)簡(jiǎn)單而有效的前饋卷積神經(jīng)網(wǎng)絡(luò)注意力模塊。CBAM計(jì)算量比較小,是輕量的通用模塊,因此可以加入到任何卷積神經(jīng)網(wǎng)絡(luò)中。本文將其添加到卷積網(wǎng)絡(luò)中,幫助網(wǎng)絡(luò)學(xué)習(xí)到各類(lèi)X-ray圖像的特征信息。
圖2[7]是CBAM中通道注意力模塊和空間注意力模塊生成特征圖的示意圖。CBAM可以生成一維通道注意力特征圖Mc(記作Mc)和二維空間注意力特征圖Ms(記作Ms)。數(shù)據(jù)輸入(記作I)依次經(jīng)過(guò)通道注意力(數(shù)據(jù)輸出記作I1)和空間注意力模塊的篩選,生成新的注意力特征圖(記作O)。該過(guò)程強(qiáng)調(diào)重要特征,壓縮不重要特征,可用公式表示為:
I1=McΘI(1)
O=MsΘI1(2)
1.2" 可分離卷積模塊
可分離卷積最早由Google的MobileNet提出[8],其本質(zhì)是把完整卷積運(yùn)算分解成2步卷積進(jìn)行。第一步是在每個(gè)通道上進(jìn)行卷積運(yùn)算,不會(huì)改變輸入的通道數(shù)目,通常稱(chēng)其為深度卷積部分。第二步是將深度卷積得到的特征圖進(jìn)行逐點(diǎn)卷積,最后得到輸出特征圖。普通卷積和可分離卷積運(yùn)算的過(guò)程分別如圖3和圖4所示。
對(duì)于普通卷積而言,假設(shè)輸入為C通道的特征圖,卷積核大小為M×M,輸出為C1通道,特征圖大小為m×m,則此時(shí)普通卷積的運(yùn)算量CC表示為
CC=M×M×C×m×m×C1(3)
對(duì)于深度卷積而言,在逐層卷積階段,輸入的C通道的特征圖和C個(gè)大小為M×M濾波器分別各自進(jìn)行逐層卷積,最后輸出C個(gè)特征圖。隨后逐層卷積輸出的特征圖和C1個(gè)1×1×C的濾波器通過(guò)逐點(diǎn)卷積操作得到輸出為C1通道,大小為m×m的特征圖,則可分離卷積的運(yùn)算量CS表示為
CS=M×M×C×m×m+m×m×C×C1(4)
對(duì)比兩者運(yùn)算量:
CSCC=M×M×C×m×m+m×m×C×C1M×M×C×m×m×C1
=1C1+1M2(5)
本文使用的卷積核大小M=3,1M2為1/9,C1為輸出通道數(shù),一般比較大,因此C1通??梢院雎圆挥?jì)。根據(jù)式(5)計(jì)算結(jié)果,利用普通卷積的運(yùn)算量大概是利用可分離卷積的8至9倍[8]。但是,根據(jù)后續(xù)實(shí)驗(yàn)表明,利用可分離卷積實(shí)現(xiàn)的網(wǎng)絡(luò),其精度下降非常小。
1.3" 特征融合模塊
特征融合模塊的功能是對(duì)相同的輸入圖像,分別利用2種以上的網(wǎng)絡(luò)進(jìn)行不同的特征提取,最后將所提取到的特征進(jìn)行不同維度的融合。假設(shè)Π是含有m個(gè)被標(biāo)記的訓(xùn)練樣本空間,記為Rn,ζ是其中的一個(gè)訓(xùn)練樣本,則
Π=[ζ|ζ∈Rn](6)
若特征向量A,B,…,N滿(mǎn)足:
A=[x|x∈R1]
B=[y|y∈R2]
N=[n|n∈Rk](7)
那么從不同的圖像所得到的特征融合向量空間
Df=cat(A,B,…,N) (8)
式中:A,B,…,N為對(duì)于相同的輸入通過(guò)不同的訓(xùn)練分支提取的特征向量;cat為按向量維度進(jìn)行拼接。
2" 實(shí)驗(yàn)準(zhǔn)備及模型訓(xùn)練
2.1" 數(shù)據(jù)集
由于醫(yī)學(xué)圖像不易獲取,而且肺炎X-ray圖像需要相關(guān)的專(zhuān)家才能進(jìn)行標(biāo)注,所以本次實(shí)驗(yàn)的數(shù)據(jù)集來(lái)源于Kaggle公開(kāi)競(jìng)賽數(shù)據(jù)集。該數(shù)據(jù)集是卡塔爾多哈的卡塔爾大學(xué)和孟加拉國(guó)的達(dá)卡大學(xué)的研究人員,以及巴基斯坦和馬來(lái)西亞的合作者與醫(yī)生共同構(gòu)建的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)中新冠肺炎圖像包含了新冠肺炎不同階段的圖像,不同階段的特征又不相同,這對(duì)于深度學(xué)習(xí)網(wǎng)絡(luò)提出了更加嚴(yán)峻的考驗(yàn)。我們?cè)跀?shù)據(jù)集中隨機(jī)挑選了正常肺部(Normal)、病毒性肺炎(Viral pneumonia)、新冠肺炎(COVID-19)的X-ray圖像各300張,采用等比例的訓(xùn)練集,防止深度學(xué)習(xí)模型對(duì)某一類(lèi)較多的圖像有較強(qiáng)的識(shí)別能力。在實(shí)驗(yàn)中將900張圖像按照8∶2的比例劃分為訓(xùn)練集和驗(yàn)證集。
2.2" 圖像預(yù)處理
原始數(shù)據(jù)集中的圖像來(lái)自不同的醫(yī)院,尺寸大小各不相同,尺寸太大不能作為輸入,因此在網(wǎng)絡(luò)的訓(xùn)練過(guò)程中將圖像變?yōu)?50×150;并且為了提高網(wǎng)絡(luò)訓(xùn)練的效果,采取隨機(jī)改變圖像的亮度、對(duì)比度,對(duì)圖像的視野進(jìn)行縮放,對(duì)角度進(jìn)行翻轉(zhuǎn)等操作來(lái)拓展數(shù)據(jù)的輸入形式。圖像預(yù)處理的參數(shù)設(shè)置見(jiàn)表1。
2.3" 實(shí)驗(yàn)環(huán)境和評(píng)價(jià)指標(biāo)
本文基于TensorFlow2.8.0架構(gòu)開(kāi)展實(shí)驗(yàn),利用Python3.8進(jìn)行編程,所有程序在 Ubuntu16.04 LTS 64-bit 系統(tǒng)上運(yùn)行,CPU 為 Intel(R) Core(TM) i7-7800X CPU@3.50GHz,GPU為雙卡 NVIDIA GTX 1080Ti。
評(píng)價(jià)標(biāo)準(zhǔn)采用準(zhǔn)確率A、精度S、召回率P、F1度量F1來(lái)進(jìn)行評(píng)價(jià),其計(jì)算公式如下:
A=TP+TNTP+TN+FP+FN×100%(9)
S=TPTP+FN×100%(10)
P=TPTP+FP×100%(11)
F1=2×S×PS×P×100%(12)
式中:TP為被正確預(yù)測(cè)為正類(lèi);TN為被正確預(yù)測(cè)為負(fù)類(lèi);FP為被錯(cuò)誤預(yù)測(cè)為正類(lèi);FN為被錯(cuò)誤預(yù)測(cè)為負(fù)類(lèi)。
2.4" 模型訓(xùn)練
在模型訓(xùn)練時(shí),訓(xùn)練集數(shù)據(jù)采用shuffle data方法并隨機(jī)打亂,再根據(jù)batch size的大小輸入打亂順序的訓(xùn)練數(shù)據(jù),這樣操作有效地避免了模型對(duì)某一類(lèi)圖像產(chǎn)生過(guò)擬合。在特征提取網(wǎng)絡(luò)中,深度可分離卷積的卷積核大小為3×3,每一層都采用了最大池化,池化核大小設(shè)置為2×2,以突出每一類(lèi)圖像的局部特征,有利于注意力模塊學(xué)習(xí)。采用輸入批量歸一化的方式規(guī)范輸入到CBAM模塊和下一層卷積層的數(shù)據(jù)。在特征融合模塊之后,分別設(shè)置了4層全連接層,其神經(jīng)元個(gè)數(shù)分別為518,128,64和3。經(jīng)過(guò)調(diào)參,最終將第1、2、3層丟棄率都設(shè)置為0.2。全連接層的前三層采用Relu函數(shù)作為激活函數(shù),其表達(dá)式為
f(x)=max(0,x)(13)
由于f(x)小于0無(wú)值,大于0才有值,減少了參數(shù)之間的相互依賴(lài)性,可以減少過(guò)擬合[9]。最后一層采用Softmax函數(shù)作為激活函數(shù),其表達(dá)式為
si=ej∑nj=1ej(14)
式中:si為SoftMax層的輸出概率值, ej為SoftMax層的輸入值;n為SoftMax層的輸入值個(gè)數(shù)。
本文模型采用動(dòng)態(tài)學(xué)習(xí)率調(diào)整。如果模型在學(xué)習(xí)過(guò)程中發(fā)現(xiàn)驗(yàn)證集的損失函數(shù)在訓(xùn)練2個(gè)epoch后不下降,則將學(xué)習(xí)率降低為原來(lái)學(xué)習(xí)率的一半。訓(xùn)練模型原始學(xué)習(xí)率設(shè)為1.0×10-3,最小學(xué)習(xí)率設(shè)為1.0×10-8。另外,為了防止模型產(chǎn)生過(guò)擬合的問(wèn)題,在實(shí)驗(yàn)中設(shè)置了早停機(jī)制。如果在訓(xùn)練中超過(guò)10個(gè)epoch的驗(yàn)證集損失函數(shù)沒(méi)有下降趨勢(shì),則讓模型停止訓(xùn)練。由于模型設(shè)立了早停機(jī)制和學(xué)習(xí)率下降機(jī)制,經(jīng)過(guò)多次調(diào)試實(shí)驗(yàn),設(shè)置epoch為25時(shí)的模型準(zhǔn)確率比較穩(wěn)定。若epoch設(shè)置過(guò)大,會(huì)產(chǎn)生早停;若epoch設(shè)置過(guò)小,則模型準(zhǔn)確率比較低。網(wǎng)絡(luò)的超參數(shù)設(shè)置如表2所示。
訓(xùn)練過(guò)程中,訓(xùn)練集和驗(yàn)證集損失函數(shù)變化和準(zhǔn)確率變化分別如圖5和圖6所示。由圖5和圖6可知:第9~11個(gè)epoch,由于驗(yàn)證集的準(zhǔn)確率不斷下降,連續(xù)2個(gè)epoch的驗(yàn)證集損失函數(shù)升高;模型快速調(diào)整學(xué)習(xí)率,第12個(gè)epoch,驗(yàn)證集的準(zhǔn)確率開(kāi)始提升,驗(yàn)證集的損失函數(shù)開(kāi)始下降;第20~25個(gè) epoch,無(wú)論是訓(xùn)練集還是驗(yàn)證集的損失函數(shù)波動(dòng)都很小,說(shuō)明模型訓(xùn)練已經(jīng)接近穩(wěn)定。
3" 實(shí)驗(yàn)及分析
3.1" 分類(lèi)實(shí)驗(yàn)
為了驗(yàn)證網(wǎng)絡(luò)的魯棒性,測(cè)試集選用的圖像數(shù)
據(jù)和訓(xùn)練集來(lái)源不同,其中每一類(lèi)的圖像均為250張。表3給出了該測(cè)試集在預(yù)測(cè)后的預(yù)測(cè)結(jié)果。本文網(wǎng)絡(luò)對(duì)新冠肺炎、病毒性肺炎的肺部圖像分類(lèi)能力不如正常肺部,在測(cè)試過(guò)程中容易把部分帶有疾病的肺部圖像識(shí)別為正常的肺部圖像。
3.2" 消融實(shí)驗(yàn)
為了證明CBAM、特征融合的有效性和驗(yàn)證可分離卷積減少參數(shù)對(duì)分類(lèi)指標(biāo)影響微弱,選擇4種網(wǎng)絡(luò)(網(wǎng)絡(luò)A、B、C、D)和本文網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn)。消融實(shí)驗(yàn)的所有參數(shù)都是實(shí)驗(yàn)環(huán)境所用的架構(gòu)自動(dòng)計(jì)算出來(lái)的參數(shù)量。表4給出了消融實(shí)驗(yàn)的5種網(wǎng)絡(luò)參數(shù)量、消融模塊的對(duì)比。 5種網(wǎng)絡(luò)對(duì)3類(lèi)圖像分類(lèi)的準(zhǔn)確率、精度、召回率、F1度量的對(duì)比見(jiàn)表5。
對(duì)于網(wǎng)絡(luò)A和網(wǎng)絡(luò)B而言,由于結(jié)構(gòu)簡(jiǎn)單,需要擬合的參數(shù)少,其各項(xiàng)分類(lèi)指標(biāo)明顯低于其他的網(wǎng)絡(luò)。其中,網(wǎng)絡(luò)A的網(wǎng)絡(luò)相對(duì)比較深,訓(xùn)練參數(shù)比較多,擬合效果好,所以其各項(xiàng)分類(lèi)指標(biāo)相比網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單的網(wǎng)絡(luò)B有一定程度的提升。并行雙分支融合后,網(wǎng)絡(luò)的非訓(xùn)練參數(shù)量等于2種單分支未并行前的非訓(xùn)練參數(shù)量之和,但是融合后涉及到全連接層的權(quán)重參數(shù),融合后的訓(xùn)練參數(shù)量并不等于融合前兩并行分支的參數(shù)量之和。而參數(shù)增加使得分類(lèi)準(zhǔn)確率明顯上升,所以雙分支網(wǎng)絡(luò)對(duì)三類(lèi)圖像分類(lèi)的準(zhǔn)確率相比單分支網(wǎng)絡(luò)都相對(duì)較高,證明了并行特征融合的有效性。對(duì)比網(wǎng)絡(luò)C和網(wǎng)絡(luò)D,雖然網(wǎng)絡(luò)D比網(wǎng)絡(luò)C的總參數(shù)量多了約21萬(wàn)個(gè),但是網(wǎng)絡(luò)D對(duì)于Normal和COVID-19的準(zhǔn)確率都有一定提升,對(duì)于Viral pneumonia略有下降但仍然高達(dá)91.2%。證明了CBAM模塊在該網(wǎng)絡(luò)中的有效性。對(duì)比網(wǎng)絡(luò)D和本文網(wǎng)絡(luò),雖然運(yùn)用可分離卷積構(gòu)建的網(wǎng)絡(luò)在各類(lèi)別的平均準(zhǔn)確率比運(yùn)用普通卷積構(gòu)建的網(wǎng)絡(luò)低0.004,但是訓(xùn)練參數(shù)大約少了20萬(wàn)個(gè),在運(yùn)算量上少8~9倍,很大程度上減少了網(wǎng)絡(luò)訓(xùn)練時(shí)間。
對(duì)比5種網(wǎng)絡(luò)的準(zhǔn)確率,Viral pneumonia的分類(lèi)準(zhǔn)確率均低于Normal和COVID-19。 Viral pneumonia包含多種病毒導(dǎo)致的肺炎,癥狀各有不同,對(duì)應(yīng)的肺炎圖像也各不相同,導(dǎo)致各種模型對(duì)其分類(lèi)準(zhǔn)確率較低。綜上所述,雙分支網(wǎng)絡(luò)模型可以從不同尺度提取到3種類(lèi)別圖像的特征信息,其中,CBAM模塊可以進(jìn)一步關(guān)注3種圖像的關(guān)鍵信息,特征融合模塊能對(duì)2種分支網(wǎng)絡(luò)獲取的特征進(jìn)行整合。通過(guò)消融實(shí)驗(yàn)證明本文提出的各個(gè)模塊對(duì)于提高肺炎圖像分類(lèi)的準(zhǔn)確率是有效的。
3.3" 橫向?qū)Ρ葘?shí)驗(yàn)
為了進(jìn)一步體現(xiàn)本文網(wǎng)絡(luò)各個(gè)模塊的有效性,和其他13種肺炎圖像分類(lèi)網(wǎng)絡(luò)的指標(biāo)進(jìn)行對(duì)比,如表6所示。根據(jù)原文獻(xiàn),實(shí)驗(yàn)測(cè)試集的各個(gè)類(lèi)別數(shù)量大多不相等,為了避免測(cè)試樣本不均衡問(wèn)題,選取測(cè)試集時(shí)將3種類(lèi)別的肺炎圖像數(shù)量設(shè)置相同。
由表6可知:文獻(xiàn)[10]的準(zhǔn)確率99.3%最高,本文算法94.9%次之;相較于文獻(xiàn)[11] 和文獻(xiàn)[12]運(yùn)用Densnet201 和CNN的經(jīng)典分類(lèi)網(wǎng)絡(luò),本文算法的準(zhǔn)確率分別提高了0.03和0.01,因此驗(yàn)證了本文模型對(duì)肺炎圖像分類(lèi)的可行性。此外,本文網(wǎng)絡(luò)比其他13種網(wǎng)絡(luò)在對(duì)肺炎圖像分類(lèi)方面的4個(gè)指標(biāo)準(zhǔn)確率、精度、召回率、F1度量均有一定的優(yōu)勢(shì),因此本文提出的網(wǎng)絡(luò)模型在進(jìn)行肺炎圖像分類(lèi)具有一定的可靠性。最后,對(duì)測(cè)試集的3個(gè)測(cè)試類(lèi)別進(jìn)行樣本均衡,獲得約95%的準(zhǔn)確率,說(shuō)明模型具有較好的泛化能力和良好的魯棒性。
3.4" 顯著性圖實(shí)驗(yàn)
為了讓人們直觀理解深度學(xué)習(xí)是通過(guò)輸入圖片的哪些重要視覺(jué)特征進(jìn)行分類(lèi)判決,1987年,KOCH等引入顯著性圖來(lái)描述這些重要的視覺(jué)特征[23]。從一種角度來(lái)看,這是對(duì)模型的解釋?zhuān)粡牧硪环N角度來(lái)看,顯著性圖即輸入圖片的特征圖,能夠反映圖像中的像素點(diǎn)對(duì)圖像分類(lèi)結(jié)果的影響[24]。顯著性圖的計(jì)算原理如下:設(shè)圖片中的像素點(diǎn)為{x1,x2,…,xk},經(jīng)過(guò)網(wǎng)絡(luò)模型后的特征圖記yk。若某個(gè)像素點(diǎn)k改變,改變的像素點(diǎn)為{x1,x2,…,xk+dx},輸出特征圖為y+dy,計(jì)算導(dǎo)數(shù)dy/dx,得到的值越大表示該點(diǎn)的顯著性越強(qiáng)。
為了驗(yàn)證本文網(wǎng)絡(luò)中CBAM對(duì)圖像特征信息的關(guān)注度,在3種圖像類(lèi)別中隨機(jī)選擇一張肺部圖像進(jìn)行特征融合處理后的顯著性圖,如圖7所示。在顯著性圖中,像素點(diǎn)越亮表示該點(diǎn)對(duì)于整個(gè)網(wǎng)絡(luò)模型越具有吸引力,這對(duì)于網(wǎng)絡(luò)模型針對(duì)不同的圖像進(jìn)行特征提取以及進(jìn)行分類(lèi)判決具有一定的幫助。對(duì)比融入CBAM和未融入CBAM的網(wǎng)絡(luò)對(duì)應(yīng)的顯著性圖,其像素點(diǎn)對(duì)分類(lèi)結(jié)果的影響分布大致差不多。但是,通過(guò)對(duì)比顯著性圖中紅框部分,無(wú)論是否融入CBAM,Normal、Viral pneumonia和COVID-19對(duì)應(yīng)顯著性圖中重要特征點(diǎn)分布大致都在相同部位。值得注意的是,對(duì)于Viral pneumonia和COVID-19,添加了CBAM的網(wǎng)絡(luò)對(duì)應(yīng)的顯著性圖中紅色框內(nèi)的發(fā)亮的像素點(diǎn)比未加入CBAM的多,表明添加了CBAM的網(wǎng)絡(luò)對(duì)肺部的關(guān)注度較為明顯,也證明了CBAM注意到了該部分的顯著特征。由此可見(jiàn),并行雙分支網(wǎng)絡(luò)和注意力模塊關(guān)注到了肺部X-ray圖像有用的特征信息,從而提升了模型檢測(cè)準(zhǔn)確率。
在實(shí)際應(yīng)用中,將該網(wǎng)絡(luò)模型搭載小程序或網(wǎng)頁(yè),通過(guò)顯著性圖里的相關(guān)特征點(diǎn)可以輔助醫(yī)生從視覺(jué)上關(guān)注該類(lèi)別圖像的特征信息,有助于醫(yī)生臨床診斷。
4" 結(jié)論
本文提出了一種雙分支肺炎圖像分類(lèi)網(wǎng)絡(luò),在卷積神經(jīng)網(wǎng)絡(luò)中融入CBAM加強(qiáng)特征提取,利用特征融合模塊融合2個(gè)子分支提取的特征,采用Kaggle公開(kāi)競(jìng)賽數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),完成了對(duì)正常肺部、病毒性肺炎、新冠肺炎3類(lèi)肺部X-ray圖像的分類(lèi)任務(wù)。該網(wǎng)絡(luò)主要包括雙分支網(wǎng)絡(luò)(VGG16網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò))、可分離卷積、CBAM和特征融合模塊。通過(guò)在卷積神經(jīng)網(wǎng)絡(luò)不同層中添加注意力機(jī)制,使得注意力模塊能夠關(guān)注輸入圖像的深層特征信息并將這些信息進(jìn)行不同維度的特征整合。驗(yàn)證結(jié)果顯示:運(yùn)用可分離卷積模塊減少了運(yùn)算量,加快了網(wǎng)絡(luò)訓(xùn)練;特征提取和特征融合模塊具有提高準(zhǔn)確率的作用;同時(shí),對(duì)測(cè)試集各類(lèi)圖像進(jìn)行類(lèi)別均衡,證明了該模型較強(qiáng)的泛化能力和較好的魯棒性。本文網(wǎng)絡(luò)對(duì)于當(dāng)前深度學(xué)習(xí)作為醫(yī)療輔助手段診斷新冠肺炎具有一定的參考價(jià)值,在醫(yī)院面臨大量新冠肺炎患者的時(shí)候可以考慮運(yùn)用分類(lèi)網(wǎng)絡(luò)作為框架搭載網(wǎng)頁(yè)或小程序?qū)σ伤菩鹿诘牟∪诉M(jìn)行檢測(cè)。
參考文獻(xiàn):
[1]YE Z, ZHANG Y, WANG Y, et al. Chest CT manifestations of new coronavirus disease 2019 (COVID-19): a pictorial review [J]. European Radiology, 2020, 30(8): 4381-4389.
[2] 宋瑤, 劉俊. 改進(jìn)U-Net的新冠肺炎圖像分割方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2021, 57(19): 243-251.
[3] ICEK , ABDULKADIR A, LIENKAMP S S, et al. 3D U-Net: learning dense volumetric segmentation from sparse annotation[C]// 2016 International Conference on MEDICAL Image Computing and Computer-assisted Intervention. Cham: Springer, 2016: 424-432.
[4] 冉健雨. 基于深度學(xué)習(xí)的新冠肺炎X光片分類(lèi)和可視化研究[D]. 河北: 燕山大學(xué), 2021.
[5] ABDAR M, FAHAMI M A, CHAKRABARTI S, et al. BARF: a new direct and cross-based binary residual feature fusion with uncertainty-aware module for medical image classification[J]. Information Sciences, 2021, 577: 353-378.
[6] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// 2018 Proceedings of the European Conference on Computer Vision (ECCV). Cham: Springer, 2018: 3-19.
[7] WANG S H, FERNANDES S, ZHU Z Q, et al. AVNC: attention-based VGG-style network for COVID-19 diagnosis by CBAM[J]. IEEE Sensors Journal, 2021, 22(18): 17431-17438.
[8] KALENICHENKO A G H M, ADAM W W T W, INC G. Mobilenets: efficient convolutional neural networks for mobile vision applications[DB/OL]. (2017-04-17)[2022-12-05].https://arxiv.org/abs/1704.04861v1.
[9] 張煥, 張慶, 于紀(jì)言. 激活函數(shù)的發(fā)展綜述及其性質(zhì)分析[J]. 西華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2021, 40(4): 1-10.
[10]TOGAAR M, ERGEN B, CMERT Z. COVID-19 detection using deep learning models to exploit social mimic optimization and structured chest X-ray images using fuzzy color and stacking approaches[J]. Computers in Biology and Medicine, 2020, 121: 103805.1-103805.12.
[11]ELASNAOUI K, CHAWKI Y. Using X-ray images and deep learning for automated detection of coronavirus disease[J]. Journal of Biomolecular Structure and Dynamics, 2021, 39(10): 3615-3626.
[12]SARKI R, AHMED K, WANG H, et al. Automated detection of COVID-19 through convolutional neural network using chest X-ray images [J]. Plos One, 2022, 17(1): e0262052.1- e0262052.26.
[13]DE MOURA J, GARCA L R, VIDAL P F L, et al. Deep convolutional approaches for the analysis of COVID-19 using chest X-ray images from portable devices[J]. IEEE Access, 2020, 8: 195594-195607.
[14]ZHANG J P, XIE Y T, PANG G S, et al. Viral pneumonia screening on chest X-rays using confidence-aware anomaly detection [J]. IEEE Transactions On Medical Imaging, 2020, 40(3): 879-890.
[15]KHAN A I, SHAH J L, BHAT M M. CoroNet: a deep neural network for detection and diagnosis of COVID-19 from chest X-ray images[J]. Computer methods and programs in biomedicine, 2020, 196: 105581.1-105581.9.
[16]OZTURK T, TALO M, YILDIRIM E A, et al. Automated detection of COVID-19 cases using deep neural networks with X-ray images[J]. Computers in biology and medicine, 2020, 121: 103792.1-103792.11.
[17]MAHMUD T, RAHMAN M A, FATTAH S A. CovXNet: a multi-dilation convolutional neural network for automatic COVID-19 and other pneumonia detection from chest X-ray images with transferable multi-receptive feature optimization[J]. Computers in Biology and Medicine, 2020, 122: 103869.1-103869.10.
[18]MURUGAN R, GOEL T. E-DiCoNet: extreme learning machine based classifier for diagnosis of COVID-19 using deep convolutional network[J]. Journal of Ambient Intelligence and Humanized Computing, 2021, 12(9): 8887-8898.
[19]HEIDARI M, MIRNIAHARIKANDEHEI S, KHUZANI A Z, et al. Improving the performance of CNN to predict the likelihood of COVID-19 using chest X-ray images with preprocessing algorithms[J]. International Journal of Medical Informatics, 2020, 144: 104284.1-104284.9.
[20]RAHIMZADEH M, ATTAR A. A modified deep convolutional neural network for detecting COVID-19 and pneumonia from chest X-ray images based on the concatenation of Xception and ResNet50V2[J]. Informatics in Medicine Unlocked, 2020, 19: 100360.1-100360.9.
[21]PEREIRA R M, BERTOLINI D, TEIXEIRA L O, et al. COVID-19 identification in chest X-ray images on flat and hierarchical classification scenarios[J]. Computer methods and programs in biomedicine, 2020, 194: 105532.1-105532.18.
[22]CHANDRA T B, VERMA K, SINGH B K, et al. Coronavirus disease(COVID-19) detection in chest X-ray images using majority voting based classifier ensemble[J]. Expert Systems with Applications, 2021, 165: 113909.1-113909.13.
[23]KOCH C, ULLMAN S. Shifts in selective visual attention: towards the underlying neural circuitry[M]//Matters of Intelligence: Conceptual Structures in Cognitive Neuroscience. Dordrecht: Springer Netherlands, 1987: 115-141.
[24]HONG S, YOU T, KWAK S, et al. Online tracking by learning discriminative saliency map with convolutional neural network[C]// 2015 International conference on machine learning. New York: PMLR, 2015: 597-606.
(責(zé)任編輯:周曉南)
Double Branch Pneumonia Image Classification Network
Based on Attention Mechanism
ZHANG Jiyou, ZHANG Rongfen*, LIU Yuhong
(College of Big Data and Information Engineering, Guizhou University, Guiyang 550025, China)
Abstract:
At present, most pneumonia image classification networks use single branch network to extract features from input images, which to some extent ignores the feature information of different dimensions of images. In order to optimize this problem, this paper adopts double branch network with VGG16 network and convolutional neural network added separable convolution and CBAM for feature extraction respectively. The two networks can pay attention to feature information of pneumonia images at different dimensions. Then, the features of the two networks are fused and input into the full connection layer for classification decision. Experiments show that the network achieves 95% accuracy in the test set of normal lung, viral pneumonia and COVID-19 X-ray images. The ablation experiments prove that the feature fusion module and attention module added to the network play a significant role in reducing network parameters and improving the accuracy of network classification. The result by comparing the performance with other networks also shows that this network has higher accuracy and stronger robustness in pneumonia image classification.
Key words:
COVID-19; pneumonia image classification; attention mechanism; double branch network feature extraction and fusion
貴州大學(xué)學(xué)報(bào)(自然科學(xué)版)2024年1期