盛承光
(深圳信息職業(yè)技術(shù)學(xué)院應(yīng)用外語學(xué)院,深圳 518172)
X 光穿透照射圖像(X 光片)與計(jì)算機(jī)斷層掃描(computed tomography, CT)是診斷肺炎的常用手段,其中CT 檢查技術(shù)雖然比較先進(jìn),但價(jià)格昂貴,在實(shí)際使用過程中受到一定程度的限制,而X 光片以其成本低、輻射少等優(yōu)點(diǎn),已成為國內(nèi)外應(yīng)用最為廣泛的影像學(xué)檢查手段之一,這可以協(xié)助醫(yī)生快速診斷患者是否患有肺炎。但仍需要有專業(yè)經(jīng)驗(yàn)的醫(yī)生進(jìn)行仔細(xì)閱片與診斷,非常費(fèi)時(shí)費(fèi)力[1]。計(jì)算機(jī)輔助診斷(computeraided diagnosis, CAD)技術(shù)是解決這一問題的有效手段之一。
傳統(tǒng)的CAD 系統(tǒng)大多使用基于手工提取特征的機(jī)器學(xué)習(xí)技術(shù),盡管在肺炎X 光片的檢測任務(wù)中取得了一些成果,但仍存在嚴(yán)重依賴人工設(shè)計(jì)特征、檢測精度較低等問題。近年來,深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域發(fā)展迅速、表現(xiàn)不俗,其利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)可以在不同的層次上自動(dòng)學(xué)習(xí)低級(jí)到高級(jí)的圖像特征的優(yōu)勢,克服了傳統(tǒng)機(jī)器學(xué)習(xí)方法需要人工提取特征的局限,成為肺炎X光片CAD系統(tǒng)的主流手段。其中,Ozturk等[2]提出了Dark-Net算法,基于肺部X光圖像自動(dòng)檢測COVID-19 患者,并在COVID-19 和普通肺炎的分類中取得了98.08%的準(zhǔn)確率,在COVID-19陽性、普通肺炎、正常三類實(shí)驗(yàn)中,準(zhǔn)確率為87.02%。Wang 等[3]基于遷移學(xué)習(xí)的思想和CNN算法提出了COVIDNet,對(duì)胸部X 光片進(jìn)行分類,得到93.3%的準(zhǔn)確率。
本文提出了一種融合注意力機(jī)制與Dense-Net的胸部X 光片肺炎檢測算法,可以高效準(zhǔn)確地對(duì)正常胸片和攜帶不同肺炎的患者胸片進(jìn)行檢測和分類,其利用注意力機(jī)制關(guān)注圖像重要病變區(qū)域而忽視無關(guān)的背景信息,以獲取更顯著的和有識(shí)別力的圖像特征。
近年來,注意力機(jī)制廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,其可以幫助網(wǎng)絡(luò)聚焦圖像的重要特征,抑制不必要的區(qū)域響應(yīng)?;诖?,本文將通道-空間注意力[4]和DenseNet121[5]進(jìn)行整合用于胸部X光片肺炎檢測,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,主要是由DenseNet121 和通道-空間注意力模塊這兩部分組成。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)
給定一張X 光片圖像,利用DenseNet121 的強(qiáng)大特征提取能力學(xué)習(xí)到的高級(jí)圖像特征圖F∈RC×H×W,作為注意力機(jī)制模塊的輸入。通道-空間注意力模塊在通道和空間兩個(gè)維度上序列化地生成注意力特征圖,即1D 通道注意力特征圖Wc∈RC×1×1與2D 空間注意力特征圖Ws∈R1×H×W。然后,這兩種注意力特征圖在與之前原輸入特征圖F進(jìn)行相乘進(jìn)行自適應(yīng)特征修正,輸出最后的注意力特征F′′。上述過程可以描述如下:
其中,°表示點(diǎn)積,中間采用廣播機(jī)制進(jìn)行維度變換與匹配。
通道注意力機(jī)制特征圖的每個(gè)通道都用來被視作一個(gè)特征檢測器,通過學(xué)習(xí)特征內(nèi)部之間的關(guān)系以聚焦和區(qū)分圖像中有用的信息。具體實(shí)現(xiàn)是通過平均池化與最大池化方法壓縮特征圖的空間維度計(jì)算通道注意力特征,產(chǎn)生了兩種不同的空間上下文信息:平均池化特征和最大池化特征。然后,將這兩種池化特征輸入到一個(gè)共享的多層感知機(jī)(multi-layer perceptron,MLP)以生成通道注意力特征圖Wc:
通過建模特征圖空間內(nèi)部的關(guān)系來產(chǎn)生空間注意力特征圖。不同于通道注意力,空間注意力聚焦于特征圖上的有效信息所在區(qū)域。為了計(jì)算空間注意力,首先在通道維度平均池化和最大池化,然后將他們產(chǎn)生的特征圖拼接起來。在拼接后的特征圖上,使用卷積操作來產(chǎn)生最終的空間注意力特征圖。類似于通道注意力,使用兩種池化方法生成2D 特征圖:∈R1×H×W和∈R1×H×W,最終這個(gè)過程的公式如下:
最后,所提取到注意力特征用于胸部X 光片肺炎分類。
本文實(shí)驗(yàn)基于PyTorch1.6.0 深度學(xué)習(xí)框架,采用Python3.6.8 語言在Jupyter notebook 代碼編輯器上完成搭建。選取由Kaggle 網(wǎng)站提供的21165 張肺部X 光圖像數(shù)據(jù)集(https://www.kaggle.com/datasets/tawsifurrahman/covid19-radiographydatabase)進(jìn)行模型訓(xùn)練和測試,該肺炎數(shù)據(jù)集包括四個(gè)類別:3616 張COVID-19、6012 張Lung_Opacity、1345 張Viral Pneumonia 和10192張Normal,具體劃分方法見表1。在訓(xùn)練過程中,輸入網(wǎng)絡(luò)的X 光胸片大小設(shè)置為224×224,采用ADAM[6]作為優(yōu)化器,批量大小設(shè)置為64,學(xué)習(xí)率為0.001,共訓(xùn)練100個(gè)epoch。
表1 數(shù)據(jù)集具體劃分
本文采用準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)和F1-score 作為胸部X 光片肺炎檢測任務(wù)的評(píng)價(jià)指標(biāo),具體計(jì)算方式如下:
式中:TP為正確分類的正樣本數(shù);TN為正確分類的負(fù)樣本數(shù);FP是錯(cuò)誤分類的正樣本數(shù);FN是錯(cuò)誤分類負(fù)樣本的數(shù)量。
為驗(yàn)證本文所提出方法的有效性,將其與現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)分類模型進(jìn)行比較,包括VGG16[7]、VGG19[7]、ResNet34[8]和ResNet50[8]。從表2可以看出,所提出方法的各項(xiàng)評(píng)價(jià)指標(biāo)都展現(xiàn)了良好的性能,優(yōu)于其他模型,其準(zhǔn)確率、召回率、精確率和F1-score 值分別為94.40%、95.09%、95.42%和95.23%,相比于ResNet50,分別提升了0.61、0.88、0.41 和0.63 個(gè)百分點(diǎn)。此外,繪制了混淆矩陣直觀地觀察網(wǎng)絡(luò)對(duì)四個(gè)類別的分類效果,如圖2 所示。在混淆矩陣中,對(duì)角線上的數(shù)字代表每個(gè)類別正確分類的樣本個(gè)數(shù),對(duì)角線上數(shù)值越大說明分類越準(zhǔn)確。實(shí)驗(yàn)結(jié)果證實(shí)了所提出算法能夠利用通道-空間注意力機(jī)制,提升網(wǎng)絡(luò)的特征表達(dá)能力,使網(wǎng)絡(luò)更能關(guān)注到圖像中的具有辨識(shí)性的病變區(qū)域,達(dá)到了更高的識(shí)別效果。
表2 實(shí)驗(yàn)結(jié)果對(duì)比
圖2 混淆矩陣
本文提出了一種基于融合注意力機(jī)制與DenseNet 的X 光片肺炎檢測算法,該算法使用DenseNet121 提取的高級(jí)圖像特征圖作為注意力模塊的輸入,然后采用注意力機(jī)制學(xué)習(xí)通道-空間注意力權(quán)重,并將其應(yīng)用于所提取的特征圖,以聚焦圖像的重要特征、抑制不必要的區(qū)域響應(yīng),促使網(wǎng)絡(luò)關(guān)注病變區(qū)域,增強(qiáng)網(wǎng)絡(luò)模型對(duì)不同肺炎差異特征的提取和識(shí)別能力。實(shí)驗(yàn)結(jié)果表明,與其他分類算法相比,本文所提出算法能夠?qū)Ψ窝准膊∵M(jìn)行高效識(shí)別,具有更高的識(shí)別性能。