黃冕 劉順有 楊林海
(云南國土資源職業(yè)學(xué)院 云南昆明 652501)
根據(jù)2020年全球癌癥統(tǒng)計(jì)數(shù)據(jù),肺癌的死亡率(18.0%)高居第一,發(fā)病率(11.4%)位居第二,僅次于乳癌(11.7%),肺癌已嚴(yán)重威脅人類的身體健康。隨著近年來深度學(xué)習(xí)的興起,在計(jì)算機(jī)輔助診斷這一領(lǐng)域,深度學(xué)習(xí)同樣有著突出的貢獻(xiàn)。在這一大背景下,近年來的肺結(jié)節(jié)檢測方法均采用深度學(xué)習(xí)有關(guān)的網(wǎng)絡(luò)。宋尚玲[1]等人在提出一種大樣本條件下的基于Faster-RCNN 的肺結(jié)節(jié)檢測算法,給出一種通用的隨著樣本數(shù)量增加肺結(jié)節(jié)檢測率持續(xù)提升的策略。Zhu[2]等人提出了一個3Dfaster-RCNN 算法,使用雙路徑模塊和基于語義的編碼解碼結(jié)構(gòu)學(xué)習(xí)肺結(jié)節(jié)特征。李新征[3]等人提出一種基于非對稱卷積核YOLO V2 網(wǎng)絡(luò)的CT影像肺結(jié)節(jié)檢測方法。席孝倩[4]等人提出一套將閾值分割算法和數(shù)字形態(tài)學(xué)處理相結(jié)合的肺實(shí)質(zhì)CT 影像處理流程。王波等人[5]提出一個以YOLO 算法為基礎(chǔ),結(jié)合Darknet-53網(wǎng)絡(luò)和Densenet網(wǎng)絡(luò)的思想,在多尺度間具有緊密連接的深度卷積神經(jīng)網(wǎng)絡(luò)。王乾梁[6]等人提出基于改進(jìn)YOLO V3的肺結(jié)節(jié)檢測方法,首先進(jìn)行重采樣和肺實(shí)質(zhì)分割等預(yù)處理操作,然后修改YOLO V3的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。
本文方法主要聚焦在有效性和肺結(jié)節(jié)檢測效率上,為此,選擇YOLOV4作為本方法的主干網(wǎng)絡(luò)。方法分為兩步:第一步,在模型設(shè)計(jì)階段,為了提示肺結(jié)節(jié)的檢測的有效性,在YOLOV4主干網(wǎng)絡(luò)的基礎(chǔ)上,結(jié)合了CT圖像的特性和現(xiàn)在一些先進(jìn)的方法,設(shè)計(jì)一個高精度的模型,稱為YOLO-DCF,結(jié)構(gòu)如圖1所示。第二步,為了提升檢測器的效率,把YOLO-DCF 模型的一些多余的通道裁剪了,減少了模型的參數(shù),提升了檢測器的效率。
圖1 改進(jìn)YOLOV4網(wǎng)絡(luò)結(jié)構(gòu)圖
深度學(xué)習(xí)方法對圖像特征的提取主要源自卷積操作,如果對卷積層進(jìn)行改進(jìn),可以大幅提升檢測性能。DO-Conv 層(Depthwiseover-parameterizedconvolutional layer)結(jié)合了傳統(tǒng)卷積和深度卷積,提升了整個卷積層的性能。在深度卷積過程中,對每個輸入通道都使用不同的二維深度卷積核進(jìn)行操作,并且兩種卷積的結(jié)合使用提升了參數(shù)的可學(xué)習(xí)性,因此,對整個網(wǎng)絡(luò)的特征提取能力和語義代表性都有著重要的意義。在主干網(wǎng)絡(luò)殘差塊中加入DO-Conv,不僅可以很好地表現(xiàn)真肺結(jié)節(jié)特性,還可以降低錯誤率。DO-Conv 如式(1)所示:
在深度學(xué)習(xí)網(wǎng)絡(luò)中,現(xiàn)在很多方法都將不同大小的特征圖進(jìn)行融合以提升網(wǎng)絡(luò)的性能。隨著網(wǎng)絡(luò)越來越深,肺結(jié)節(jié)的位置和語義信息也越容易丟失,造成不同大小特征圖融合效果不理想。為了解決上述問題,在主干網(wǎng)絡(luò)中加入了3 種卷積注意模塊(convolutional block attention module),其中,通道注意模塊和空間注意模塊增加了網(wǎng)絡(luò)中肺結(jié)節(jié)的空間信息和語義信息。不同于一般的特征圖融合方法,本文的方法更加集中在提升肺結(jié)節(jié)信息的注意力機(jī)制。
通道注意模塊如式(2)所示:
空間注意模塊如式(3)所示:
在CT圖像中,由于肺結(jié)節(jié)在圖像中非常的小而且數(shù)量也很少,會導(dǎo)致正樣本中有一個致命的缺點(diǎn)。在YOLOV4 網(wǎng)絡(luò)訓(xùn)練時,大部分的候選邊界框會被分為負(fù)樣本,這樣極度不平衡的正負(fù)樣本分布會使置信度損失的梯度更新方向總是為負(fù)樣本,從而導(dǎo)致網(wǎng)絡(luò)很難學(xué)習(xí)到肺結(jié)節(jié)的信息。YOLOV4中使用的交叉熵?fù)p失函數(shù)很難避免這個問題,所以在交叉熵?fù)p失函數(shù)基礎(chǔ)上加入focal loss。新的損失函數(shù)如式(4)、式(5)所示。
在實(shí)驗(yàn)過程中,設(shè)置λ=0.5,α=0.25,?=1.5。
本文方法合理減少了通道數(shù),以保證網(wǎng)絡(luò)的有效性和效率達(dá)到平衡。本網(wǎng)絡(luò)會通過權(quán)重和η評估通道的重要性(importance of the channels),然后設(shè)置不同的修剪通道比例,獲得更加有效率的網(wǎng)絡(luò)。
整個實(shí)驗(yàn)的訓(xùn)練和測試都是使用NVIDIA Tesla K80 GPU。數(shù)據(jù)集使用的是LIDC-IDRI 數(shù)據(jù)集。網(wǎng)絡(luò)輸入圖像大小為512 × 512,批大小為4,梯度優(yōu)化函數(shù)為momentum-SGD。FPS用于評價(jià)網(wǎng)絡(luò)速度,precision、recall 和AP用于評價(jià)網(wǎng)絡(luò)性能,如式(6)、式(7)、式(8)所示:
本網(wǎng)絡(luò)precision 為0.936,recall 為0.954,ap 為0.937。實(shí)驗(yàn)結(jié)果表明,DO-Conv 增強(qiáng)了特征提取和整個網(wǎng)絡(luò)的代表性,多尺度特征圖融合增強(qiáng)了網(wǎng)絡(luò)的肺結(jié)節(jié)語義和位置信息。focal loss使得網(wǎng)絡(luò)了解更多肺結(jié)節(jié)信息通過調(diào)整肺結(jié)節(jié)圖像正、負(fù)樣本比例。上述3個對YOLOV4網(wǎng)絡(luò)的改進(jìn)以獲得性能最好的網(wǎng)絡(luò),與YOLOv4相比,AP 總增加了4.9%。為了平衡有效性和效率,選擇對網(wǎng)絡(luò)的冗余通道進(jìn)行修剪。當(dāng)修剪比率為0.7 時,AP 為90.5%,參數(shù)為6.318M,最后結(jié)果表明網(wǎng)絡(luò)的性能沒有受到減少通道數(shù)的影響。
針對在實(shí)際場景中可能數(shù)據(jù)有限且硬件有限,本文提出了一種平衡有效性和效率的實(shí)用肺結(jié)節(jié)方法。首先,基于YOLOv4算法和根據(jù)肺結(jié)節(jié)在CT圖像中的特點(diǎn),逐步采用DO Conv、CBAM 和focal loss 這3 個改進(jìn)方法,以獲得高精度的肺結(jié)節(jié)檢測網(wǎng)絡(luò)。然后,設(shè)置一個合適的修剪比率來減少網(wǎng)絡(luò)中冗余通道,并獲得更高性。實(shí)驗(yàn)證明,此方法在保證了性能的情況下也有很好的檢測速度,比其他方法更適合實(shí)際場景,如在醫(yī)院部署。