蒲秋梅,田景龍,邢容暢,趙麗娜
(1.中央民族大學(xué)信息工程學(xué)院,北京 100081;2.中國科學(xué)院高能物理研究所多學(xué)科研究中心,北京 100049)
X光胸片(簡稱胸片)在臨床上應(yīng)用廣泛,是目前肺炎診斷的常用方法,也是用于判斷肺炎的重要標(biāo)準(zhǔn).肺炎患者的胸片中會(huì)因毛細(xì)血管的擴(kuò)張與充血而顯示出更多的肺部紋理,表現(xiàn)出透亮的支氣管影以及一些片狀的白色斑點(diǎn),嚴(yán)重者會(huì)出現(xiàn)磨玻璃影或肺部實(shí)變[1].醫(yī)生能夠通過胸片了解患者病情并制定治療方案,人工閱片要求醫(yī)生具有豐富的診斷經(jīng)驗(yàn),具有一定的主觀性,容易發(fā)生誤診或漏診,因此使用計(jì)算機(jī)進(jìn)行自動(dòng)讀片診斷具有重要的意義.基于深度學(xué)習(xí)的X光胸片疾病檢測很早就已有相關(guān)研究,2016年Hwang等[2]通過弱監(jiān)督方法與遷移學(xué)習(xí)實(shí)現(xiàn)了X光胸片圖像ROI區(qū)域的提取與分類.2017年Kumar等[3]提出了一種基于深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的模型能夠通過X光胸片對(duì)14種疾病進(jìn)行分類.許多學(xué)者認(rèn)為可以使用大量數(shù)據(jù)訓(xùn)練的深度學(xué)習(xí)模型準(zhǔn)確檢測出X光胸片中的各種異常,能夠?yàn)槿蚍派鋵W(xué)工作流程和公共健康篩查帶來巨大的價(jià)值[4].2019年末新型冠狀病毒感染疫情暴發(fā)后,越來越多的國內(nèi)外研究人員投入到基于X光芯片的肺炎診斷研究中,Asnaoui等[5]通過實(shí)驗(yàn)對(duì)比了多種卷積神經(jīng)網(wǎng)絡(luò)模型,發(fā)現(xiàn)Resnet50[6]、MobileNet_V2[7]和Inception_Resnet_V2[8]的微調(diào)版本在X光胸片肺炎二分類任務(wù)中準(zhǔn)確率超過96%,表現(xiàn)出非常令人滿意的性能.肺炎二分類即通過X光胸片區(qū)分是否為肺炎陽性,復(fù)雜度相對(duì)較低.Rahman等[9]通過深度卷積神經(jīng)網(wǎng)絡(luò)與遷移學(xué)習(xí)實(shí)現(xiàn)了肺炎的三分類預(yù)測,即區(qū)分正常、病毒性肺炎與細(xì)菌性肺炎,準(zhǔn)確率達(dá)到93.3%,三分類相較于二分類更加復(fù)雜,正常樣本與肺炎樣本在圖像上具有明顯區(qū)別,而病毒性肺炎與細(xì)菌性肺炎區(qū)別較小,因此對(duì)肺炎種類進(jìn)行細(xì)分相對(duì)困難.肺炎四分類任務(wù)(正常、普通病毒性肺炎、新型冠狀病毒感染、其他肺部感染)相較于三分類任務(wù)復(fù)雜度更高,但新型冠狀病毒感染相較于其他肺炎具有更強(qiáng)的傳染性,能夠通過X光實(shí)現(xiàn)肺炎類別的準(zhǔn)確檢測不論是對(duì)疫情防控還是對(duì)于制定詳細(xì)的治療方案都具有重要意義,因此有必要對(duì)四分類X光肺炎檢測進(jìn)行深入研究.如何提升卷積網(wǎng)絡(luò)對(duì)于不同類別肺炎的分類效果,在保持肺炎識(shí)別準(zhǔn)確度的前提下提升肺炎種類的細(xì)分能力是本文關(guān)注與研究的重點(diǎn).
傳統(tǒng)的機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)分類任務(wù)需要先通過人類的先驗(yàn)知識(shí)對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理與特征提取,再對(duì)提取到的特征進(jìn)行分類預(yù)測,因此特征提取的結(jié)果將直接影響最終的預(yù)測結(jié)果,甚至特征選取的好壞比采用的算法更為重要.卷積神經(jīng)網(wǎng)絡(luò)可自動(dòng)提取數(shù)據(jù)特征而不需要人工干預(yù),是目前圖像分類任務(wù)最常用的架構(gòu),卷積神經(jīng)網(wǎng)絡(luò)由卷積層、池化層以及全連接層組成.一個(gè)卷積層中可包含多個(gè)卷積核用于提取圖像特征,原始圖像輸入后經(jīng)卷積層獲得多個(gè)特征圖,可通過調(diào)節(jié)卷積核的尺寸、填充寬度、卷積步長以及卷積核數(shù)量控制輸出圖像的尺寸與通道數(shù).在卷積層后通常會(huì)使用池化層對(duì)圖像進(jìn)行下采樣降低圖像的分辨率,常用方法為最大池化與平均池化,池化層可有效降低數(shù)據(jù)維度,減少參數(shù)量與運(yùn)算量,并在一定程度上防止過擬合.卷積層與池化層主要用于提取圖像特征與降低數(shù)據(jù)維度,全連接層作為分類器主要用于對(duì)提取到的特征進(jìn)行分類,通過組合卷積層、池化層以及全連接層可實(shí)現(xiàn)端到端的圖像分類.
2014年Szegedy等[10]提出一種新的深度學(xué)習(xí)結(jié)構(gòu)GoogLeNet,該網(wǎng)絡(luò)由Inception模塊堆疊而成,與早期的AlexNet[11]、VGG[1]等網(wǎng)絡(luò)相比能夠更加高效地利用計(jì)算資源,以相同的計(jì)算量提取到更多有效的特征從而提升訓(xùn)練效果,在ImageNet大規(guī)模視覺識(shí)別挑戰(zhàn)賽ILSVRC-2014中獲得分類與檢測任務(wù)的冠軍.Inception體系結(jié)構(gòu)的主要特點(diǎn)是提高了網(wǎng)絡(luò)內(nèi)計(jì)算資源的利用率.
增加網(wǎng)絡(luò)的深度能夠使模型具有更強(qiáng)的非線性表達(dá)能力,從而能夠表達(dá)更復(fù)雜的特征,因此適當(dāng)加深網(wǎng)絡(luò)能夠在一定程度上提升模型性能,但因網(wǎng)絡(luò)的加深引發(fā)的梯度消失或梯度爆炸等問題容易導(dǎo)致淺層網(wǎng)絡(luò)參數(shù)更新困難.針對(duì)上述問題文獻(xiàn)[12]提出深度殘差網(wǎng)絡(luò)ResNet,利用殘差連接人為跳過網(wǎng)絡(luò)中的某些層以減輕網(wǎng)絡(luò)退化.殘差連接結(jié)構(gòu)能夠在不增加過多計(jì)算量的前提下提升網(wǎng)絡(luò)性能,且整合到其他網(wǎng)絡(luò)模型中相對(duì)容易,目前已在眾多領(lǐng)域得到廣泛應(yīng)用,如?;莸萚13]使用改進(jìn)的殘差網(wǎng)絡(luò)實(shí)現(xiàn)了鐵路隧道裂縫檢測.莫琦嵐等[14]利用ResNet50神經(jīng)網(wǎng)絡(luò)模型檢測新生兒肺炎,在驗(yàn)證集上分類準(zhǔn)確率達(dá)到91.18%.
人類的視覺系統(tǒng)可選擇加強(qiáng)重要的信息并忽略次要信息而免受干擾,卷積神經(jīng)網(wǎng)絡(luò)通過融合每層局部感受野內(nèi)的空間與通道信息以構(gòu)建信息特征,在卷積神經(jīng)網(wǎng)絡(luò)中引入注意力機(jī)制對(duì)輸入的特征圖添加權(quán)重能夠加強(qiáng)重要的特征,從而提升網(wǎng)絡(luò)性能,卷積神經(jīng)網(wǎng)絡(luò)中常用的注意力機(jī)制主要可分為通道注意力機(jī)制與空間注意力機(jī)制.2019年Hu等[15]提出Squeeze-and-Excitation Networks(SENet),通過Squeeze-and-Excitation(SE)模塊顯示了建模通道之間的相互依賴關(guān)系,使網(wǎng)絡(luò)能夠自適應(yīng)地校準(zhǔn)各通道的特征響應(yīng),以微小的計(jì)算成本極大地提升了網(wǎng)絡(luò)性能,取得ILSVRC 2017分類競賽的第一名.空間注意力模型的本質(zhì)是一種自適應(yīng)的空間區(qū)域選擇機(jī)制,定位圖像中包含重要信息的區(qū)域并對(duì)其進(jìn)行變換或賦加權(quán)重,如Google DeepMind提出的Spatial Transformer Network(STN)[16]與Oktay等[17]提出的注意力門控單元(Attention Gate,AG),前者通過顯式的過程學(xué)習(xí)對(duì)平移、旋轉(zhuǎn)、縮放等不變性,后者專注于目標(biāo)區(qū)域同時(shí)抑制無關(guān)區(qū)域的特征激活.
有許多研究嘗試將兩種注意力機(jī)制相結(jié)合,如GCNet[18]、CBAM[19]等,但存在計(jì)算量大、網(wǎng)絡(luò)收斂困難等問題.2021年文獻(xiàn)[20]在CNN中引入了一種輕量的注意力模塊Shuffle Attention(SA模塊),該模塊將輸入的特征圖劃分為多個(gè)組進(jìn)行分組卷積以降低運(yùn)算量,使用Shuffle單元將通道注意力與空間注意力集成到每一組中,并借鑒ShuffleNet[21]的通道混洗(Channel Shuffle)實(shí)現(xiàn)不同組間的信息交換.
AlexNet最早引入分組卷積,通過將卷積網(wǎng)絡(luò)分布在兩個(gè)GPU上并行運(yùn)算以解決早期GPU內(nèi)存資源不足的問題,每個(gè)GPU分配一半數(shù)量的卷積核進(jìn)行卷積運(yùn)算.網(wǎng)絡(luò)多數(shù)層以同一個(gè)GPU上的特征圖作為輸入,僅有部分層同時(shí)輸入兩個(gè)GPU上的特征圖進(jìn)行運(yùn)算實(shí)現(xiàn)組間的信息交流,而具體在何處整合兩個(gè)GPU上的信息需要通過多次實(shí)驗(yàn)確定.常規(guī)卷積的卷積核維度與輸入特征圖維度相同,卷積核數(shù)量等于輸出特征圖通道數(shù),分組卷積通常將特征圖在通道維度上劃分為g組,同時(shí)將卷積核也劃分為g組,每個(gè)卷積核僅與所在組內(nèi)的特征圖進(jìn)行運(yùn)算.分組卷積可降低卷積核維度從而減少網(wǎng)絡(luò)參數(shù)量,但同時(shí)會(huì)因組間的特征圖相互隔離而導(dǎo)致網(wǎng)絡(luò)缺乏組間信息交換,進(jìn)而可能導(dǎo)致網(wǎng)絡(luò)性能下降.ShuffleNet提出通道混洗機(jī)制打亂特征圖通道順序.如圖1所示,使得再次進(jìn)行分組時(shí)每個(gè)組中能夠同時(shí)包含前一次分組卷積中不同組的特征圖,從而實(shí)現(xiàn)組間的信息交流.
圖1 分組卷積及通道混洗示意圖
本文主要對(duì)基于Inception-v3網(wǎng)絡(luò)的改進(jìn)模型在X光胸片圖像四分類任務(wù)上的性能進(jìn)行了研究,總體流程如圖2所示.由于Inception模塊特殊的結(jié)構(gòu)有利于整合不同感受野特征圖的信息.本文選擇了Inception-v3為主干網(wǎng)絡(luò),并針對(duì)不同類別肺炎之間差異較小難以區(qū)分的問題在主干網(wǎng)絡(luò)的基礎(chǔ)上引入了注意力機(jī)制模塊用于增強(qiáng)關(guān)鍵信息,提升了模型性能.與原始模型相比在整合后的數(shù)據(jù)集上本文使用的改進(jìn)方法具有更高的準(zhǔn)確率與召回率.
圖2 總體流程圖
2.2.1 改進(jìn)Inception模塊與殘差連接
最初的Inception模型也被稱為GoogLeNet,引入Inception模塊通過同時(shí)使用不同尺寸的卷積核以便更好地捕捉圖像中不同尺寸物體的特征.Inception-v2在最初的Inception模型基礎(chǔ)上進(jìn)行了改進(jìn),采用了分支網(wǎng)絡(luò)結(jié)構(gòu),先將特征圖通過不同的分支進(jìn)行處理后將輸出在通道維度上進(jìn)行拼接,此外還引入了Batch Normalize技術(shù)用于提升網(wǎng)絡(luò)收斂速度.Inception-v3進(jìn)行了進(jìn)一步的改進(jìn),主要關(guān)注如何減小模型容量與計(jì)算成本,使用多層小尺寸的卷積核和非對(duì)稱卷積替代大尺寸的卷積以達(dá)到減少參數(shù)量的效果,并在網(wǎng)絡(luò)中引入了輔助分類器計(jì)算梯度幫助更新淺層網(wǎng)絡(luò)的參數(shù),進(jìn)一步提升網(wǎng)絡(luò)性能.此外還有如Inception-v4、Inception-ResNet等改進(jìn)模型[22]對(duì)Inception的基本模塊的結(jié)構(gòu)進(jìn)行了改進(jìn),如修改卷積核尺寸、添加殘差結(jié)構(gòu)等.
Inception模塊中采用了不同大小的卷積核使得同一層的特征圖具有不同大小的感受野,通過拼接可實(shí)現(xiàn)不同尺度特征的融合.Inception-v3網(wǎng)絡(luò)中共使用了3種不同的Inception模塊,如圖3所示.通過修改Inception模塊中的卷積核尺寸與數(shù)量能夠得到更多的改進(jìn)結(jié)構(gòu)以適應(yīng)不同的任務(wù)需求,本文在網(wǎng)絡(luò)中共使用了5種不同結(jié)構(gòu)的Inception模塊,如圖4所示.其中圖4c和4e兩種結(jié)構(gòu)分別與圖3b和3c相同,其他3種結(jié)構(gòu)為Inception-v4中的部分組件,與原Inception模塊結(jié)構(gòu)相似,也采用了非對(duì)稱卷積進(jìn)行卷積核分解以減少參數(shù)量,本文使用這5種Inception模塊搭建與torchvision提供的Inception-v3網(wǎng)絡(luò)相同的結(jié)構(gòu)作為主干網(wǎng)絡(luò)以便使用預(yù)訓(xùn)練參數(shù)以提升性能.
圖3 3種不同的Inception模塊
圖4 5種改進(jìn)Inception模塊
隨著網(wǎng)絡(luò)加深淺層模型容易出現(xiàn)梯度消失與梯度爆炸問題使得網(wǎng)絡(luò)淺層的參數(shù)難以更新,導(dǎo)致模型過擬合,針對(duì)這個(gè)問題改進(jìn)的模型在Inception模塊的基礎(chǔ)上引入了殘差連接結(jié)構(gòu),改進(jìn)后的殘差模塊Residual Block結(jié)構(gòu)如圖5所示.在Inception模塊的基礎(chǔ)上添加一條支路使用尺寸為1×1的卷積核對(duì)輸入特征圖進(jìn)行處理,使通道數(shù)與原始Inception模塊的輸出結(jié)果通道數(shù)一致后相加作為最終輸出.與Inception-v3類似,Residual Block也具有5種不同的結(jié)構(gòu),通過將模塊中Inception部分替換為圖3中不同的結(jié)構(gòu)得到.
圖5 引入殘差連接的Inception模塊
2.2.2 SA模塊
圖6 SA模塊
(1)
(2)
(3)
2.2.3 改進(jìn)模型
使用帶殘差連接結(jié)構(gòu)的Residual Block模塊替換主干網(wǎng)絡(luò)Inception-v3中的Inception模塊,并在每個(gè)Residual Block模塊后添加SA模塊用于加強(qiáng)特征圖中的關(guān)鍵信息,改進(jìn)后的總體網(wǎng)絡(luò)結(jié)構(gòu)如表1所示.網(wǎng)絡(luò)淺層使用普通卷積層用于提取圖像的基本特征,深層使用Residual Block與AS模塊處理高級(jí)語義信息,最終使用全連接層作為分類器輸出分類結(jié)果.
表1 改進(jìn)的模型結(jié)構(gòu)
交叉熵?fù)p失函數(shù)(Cross Entropy Loss)由KL散度導(dǎo)出,可以衡量分布之間的不相似程度,是分類任務(wù)常用的損失函數(shù),其計(jì)算公式為
(4)
本實(shí)驗(yàn)在Windows10操作系統(tǒng)上使用Python編程語言進(jìn)行相關(guān)實(shí)驗(yàn),實(shí)驗(yàn)基于PyTorch深度學(xué)習(xí)框架搭建網(wǎng)絡(luò)結(jié)構(gòu),硬件配置:6核Xeon Gold 6142、1塊 RTX 3080,10.5 GB顯存.
使用Kaggle公開數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),訓(xùn)練集、驗(yàn)證集與測試集按8∶1∶1的比例進(jìn)行隨機(jī)劃分,實(shí)驗(yàn)通過設(shè)置隨機(jī)種子數(shù)確保每次實(shí)驗(yàn)數(shù)據(jù)集各類別樣本數(shù)量比例相同,控制單一變量對(duì)改進(jìn)算法進(jìn)行消融實(shí)驗(yàn)并對(duì)比分析實(shí)驗(yàn)結(jié)果.實(shí)驗(yàn)數(shù)據(jù)設(shè)定輸入圖片尺寸為299×299像素,并通過隨機(jī)水平翻轉(zhuǎn)與小幅度隨機(jī)旋轉(zhuǎn)(±20°)進(jìn)行數(shù)據(jù)增強(qiáng),模型采用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,批量大小設(shè)定為50,迭代次數(shù)為50次,訓(xùn)練過程中使用早停止策略并動(dòng)態(tài)調(diào)整學(xué)習(xí)率,每輪訓(xùn)練完成后使用驗(yàn)證集進(jìn)行驗(yàn)證,若驗(yàn)證集損失連續(xù)3輪不下降則將學(xué)習(xí)率降低為原來的10%,若超過10輪驗(yàn)證集損失不下降則停止訓(xùn)練.
3.2.1 數(shù)據(jù)獲取及處理
本文所用于實(shí)驗(yàn)與分析的肺炎四分類數(shù)據(jù)均來自于Kaggle,由公開數(shù)據(jù)集COVID-19 Radiography Database[23]與CoronaHack-Chest X-Ray-Dataset[24]構(gòu)成.COVID-19 Radiography Database數(shù)據(jù)集包含10 192份正常樣本、1 345份病毒感染樣本、3 616份新型冠狀病毒感染樣本以及6 012份其他肺部感染樣本.CoronaHack-Chest X-Ray-Dataset數(shù)據(jù)集包含正常樣本1 576份,感染樣本4 334份,其中感染樣本根據(jù)感染類型可細(xì)分為普通病毒性感染1 497份,新冠病毒感染58份以及其他類型感染2 779份.新型冠狀病毒感染也屬于病毒性肺炎,但數(shù)據(jù)集中新冠感染與其他病毒感染樣本比例不均衡,考慮到數(shù)據(jù)不均衡可能對(duì)實(shí)驗(yàn)效果產(chǎn)生影響,本文將兩個(gè)數(shù)據(jù)集的數(shù)據(jù)相結(jié)合以減少這兩類樣本數(shù)量的差距,如表2所示.
表2 本文所用數(shù)據(jù)集 份
3.2.2 評(píng)價(jià)指標(biāo)
為定量分析各模型的性能,本文主要對(duì)于各類別分類結(jié)果的準(zhǔn)確率(A)與召回率(P)進(jìn)行了對(duì)比.A為
(5)
其中:TTP表示真陽性樣本數(shù),TFP表示假陽性樣本數(shù),A計(jì)算值越接近1表示分類效果越好.
R為實(shí)際為真的樣本中被預(yù)測正確的樣本數(shù)所占的比例,能夠反映漏檢比例,該值越接近1表明漏檢的樣本越少性能越好,計(jì)算公式為
(6)
其中:TTP表示真陽性樣本數(shù),TFP表示假陰性樣本數(shù).
F1計(jì)算公式如式7所示,為A與R兩個(gè)指標(biāo)的調(diào)和平均,能夠綜合考慮兩個(gè)評(píng)價(jià)指標(biāo),對(duì)于多分類問題Macro-F1度量為F1的推廣,即各類別F1的平均數(shù),公式為
(7)
3.2.3 實(shí)驗(yàn)結(jié)果分析
使用原始Inception-v3網(wǎng)絡(luò)作為Baseline與改進(jìn)網(wǎng)絡(luò)進(jìn)行對(duì)比測試并設(shè)計(jì)了消融實(shí)驗(yàn)以驗(yàn)證改進(jìn)網(wǎng)絡(luò)的有效性,在基線網(wǎng)絡(luò)的基礎(chǔ)上使用了預(yù)訓(xùn)練模型參數(shù),添加殘差連接、SA模塊進(jìn)行實(shí)驗(yàn),表3—5所示為消融實(shí)驗(yàn)各項(xiàng)指標(biāo),消融實(shí)驗(yàn)各階段測試集混淆矩陣如圖7所示.混淆矩陣對(duì)角線上元素即為各類別預(yù)測正確的樣本數(shù),并使用顏色深淺表示數(shù)量大小,預(yù)測正確樣本越多對(duì)角線顏色越深.從圖7中可以看出基于Inception-v3網(wǎng)絡(luò)的各模型混淆矩陣都集中于對(duì)角線上,因此大部分樣本都能被準(zhǔn)確分類,但改進(jìn)模型相比原始網(wǎng)絡(luò)有更多的預(yù)測正確樣本,表明改進(jìn)后各類別的識(shí)別精度均有所提升.從實(shí)驗(yàn)結(jié)果表3與4中可知,使用預(yù)訓(xùn)練模型參數(shù)與SA注意力模塊后的模型總體上準(zhǔn)確率最高,相比Baseline準(zhǔn)確率從90.31%提升至94.64%,對(duì)于病毒性肺炎Baseline+預(yù)訓(xùn)練參數(shù)準(zhǔn)確率最高,但召回率較低,表明該模型雖然能夠正確區(qū)分病毒性肺炎與其他肺炎,但容易產(chǎn)生漏診病例,而在使用預(yù)訓(xùn)練模型參數(shù)并同時(shí)引入殘差連接與SA模塊后各類別的召回率均得到不同程度的提升,尤其對(duì)于肺炎類別的細(xì)分(包含病毒性肺炎、新型冠狀病毒感染以及其他類別肺部感染)提升明顯,召回率分別提升了7.20%,2.48%與6.25%,且與不引入SA模塊的其他改進(jìn)方法(如使用預(yù)訓(xùn)練與殘差連接)相比各類別的召回率也更高,發(fā)生漏診的概率較低.綜合考慮模型對(duì)于各類別的準(zhǔn)確率與召回率對(duì)比見表5.由表5可知,添加SA模塊后的模型各類別的F1指標(biāo)均高于不添加該模塊的模型,因此使用SA模塊的改進(jìn)模型對(duì)于肺炎四分類任務(wù)的總體效果更優(yōu).上述實(shí)驗(yàn)結(jié)果表明在網(wǎng)絡(luò)中同時(shí)引入通道注意力與空間注意力機(jī)制后有助于更好地捕獲不同類別肺炎之間的細(xì)微差異,提升了分類精度.
表3 不同模型肺炎識(shí)別準(zhǔn)確率的對(duì)比 %
表4 不同模型肺炎識(shí)別召回率的對(duì)比 %
表5 不同模型肺炎識(shí)別F1的對(duì)比
圖7 各模型測試集混淆矩陣
為進(jìn)一步驗(yàn)證改進(jìn)方法的有效性以及探究注意力機(jī)制發(fā)揮的具體作用,使用梯度加權(quán)類激活映射技術(shù)(Grad-CAM)[25]可視化了模型網(wǎng)絡(luò)在學(xué)習(xí)過程中重點(diǎn)關(guān)注的區(qū)域,如圖8所示.
第一列為X光胸片原圖像,第二至六列為本文實(shí)驗(yàn)所用網(wǎng)絡(luò)的可視化結(jié)果,圖8中顏色偏紅區(qū)域即網(wǎng)絡(luò)較為關(guān)注的區(qū)域,可以看出不論是否使用預(yù)訓(xùn)練參數(shù),在不使用SA模塊的情況下Baseline網(wǎng)絡(luò)的關(guān)注區(qū)域都相對(duì)分散,無法聚焦于肺部區(qū)域,而使用SA模塊的網(wǎng)絡(luò)關(guān)注區(qū)域更加集中聚焦于肺部患病區(qū)域,因此在網(wǎng)絡(luò)中添加注意力機(jī)制后有利于提高網(wǎng)絡(luò)對(duì)病灶區(qū)域細(xì)節(jié)特征的提取能力,從而更有效地學(xué)習(xí)病灶區(qū)域特征,提高對(duì)不同類別肺炎識(shí)別的準(zhǔn)確性,消融實(shí)驗(yàn)的各項(xiàng)指標(biāo)也證明了該改進(jìn)方法的有效性.
本文針對(duì)X光胸片肺炎診斷問題嘗試在Inception-v3網(wǎng)絡(luò)中同時(shí)引入通道注意力機(jī)制與空間注意力機(jī)制進(jìn)行改進(jìn)以提升肺炎診斷的準(zhǔn)確率.改進(jìn)方法在Inception-v3主干網(wǎng)絡(luò)的卷積層中添加SA-Net模塊對(duì)網(wǎng)絡(luò)中提取到的特征圖進(jìn)行處理,引導(dǎo)網(wǎng)絡(luò)聚焦于胸片中的病灶位置以便更好地區(qū)分不同類別肺炎胸片之間的細(xì)微差異,同時(shí)主干網(wǎng)絡(luò)Inception模塊使用不同尺寸的卷積核獲取具有不同感受野大小的特征圖,有利于整合局部與全局信息,提升網(wǎng)絡(luò)分類性能.經(jīng)實(shí)驗(yàn)測試,引入注意力機(jī)制的改進(jìn)方法對(duì)于不同類別的肺炎診斷具有更好的效果.