時(shí)永剛 李 祎 周治國(guó) 張 岳 夏卓巖
(北京理工大學(xué)信息與電子學(xué)院 北京 100081)
結(jié)直腸癌是臨床上最常見和致命的癌癥之一,通常由結(jié)腸息肉引起。息肉最初是良性的,但如果不及時(shí)治療,隨著時(shí)間的推移,它們可能會(huì)變成惡性[1]。在所有結(jié)直腸癌患者中,早期患者的比例非常低,很多患者在確診時(shí)就已經(jīng)發(fā)生了肝臟轉(zhuǎn)移。因此,早期篩查結(jié)直腸癌對(duì)于提高生存率非常重要。盡管結(jié)腸鏡檢查被認(rèn)為是最有效的篩查和診斷方法[2],但很大程度上依賴醫(yī)生的經(jīng)驗(yàn),息肉的漏診率很高[3]。結(jié)腸息肉的自動(dòng)分割在結(jié)直腸癌的預(yù)防和治療中起著至關(guān)重要的作用。然而,這是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù)。息肉通常表現(xiàn)出不同的形狀、質(zhì)地和大小。在結(jié)腸鏡檢查中,早期息肉與周圍黏膜的對(duì)比度較低,息肉的邊界幾乎無(wú)法區(qū)分。同時(shí)由過(guò)度曝光區(qū)域引起的偽影也可能會(huì)影響息肉分割。
人們?cè)诮Y(jié)腸息肉分割方面做了很多研究。早期的大部分研究都是基于手工制作的方法,使用顏色、形狀和紋理等低級(jí)特征,或通過(guò)組合這些特征來(lái)分析圖像。這些方法通常會(huì)訓(xùn)練一個(gè)分類器來(lái)區(qū)分息肉和正常粘液。然而,傳統(tǒng)方法分割精度不高。近年來(lái),使用深度學(xué)習(xí)的圖像分割和檢測(cè)變得流行。Tashk 等人[4]和Wang等人[5]分別使用UNet和SegNet來(lái)實(shí)現(xiàn)像素級(jí)息肉分割。Sornapudi等人[6]使用目標(biāo)檢測(cè)神經(jīng)網(wǎng)絡(luò)掩碼區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask Region Convolutional Neural Network,Mask R-CNN)進(jìn)行息肉分割。Fan等人[7]提出了一種并行反向注意網(wǎng)絡(luò)(Parallel reverse attention Network, PraNet)用于結(jié)腸鏡圖像中的息肉分割。Feng等人[8]提出一種階梯型網(wǎng)絡(luò),快速分割息肉圖像。Ji等人[9]提出一種新穎的漸進(jìn)歸一化自注意力網(wǎng)絡(luò)分割息肉圖像。Lin等人[10]和Zhang等人[11]結(jié)合了深度自注意變換網(wǎng)絡(luò)(transformers)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)對(duì)息肉圖像進(jìn)行分割。這些方法對(duì)于大部分的息肉可以獲得很高的分割準(zhǔn)確度,但仍然存在問(wèn)題,例如過(guò)度曝光區(qū)域分割精度低、分割邊界外部有偽影、分割圖像內(nèi)部不連續(xù)等。
本文提出的階梯結(jié)構(gòu)的U-Net網(wǎng)絡(luò)能夠分割不同場(chǎng)景下的結(jié)腸息肉,而不受方向、形狀、紋理和大小的影響。階梯結(jié)構(gòu)的U-Net網(wǎng)絡(luò)( Stair-structured U-Net, SU-Net)使用了U-Net的U型結(jié)構(gòu),利用Kronecker乘積來(lái)擴(kuò)展標(biāo)準(zhǔn)空洞卷積核,構(gòu)成Kronecker 空洞卷積下采樣模塊進(jìn)行下采樣以擴(kuò)大感受野,彌補(bǔ)傳統(tǒng)空洞卷積丟失的細(xì)節(jié)特征。應(yīng)用具有階梯結(jié)構(gòu)的融合模塊,遵循擴(kuò)展和堆疊原則有效地編碼多尺度特征。解碼器引入卷積重構(gòu)上采樣模塊生成像素級(jí)預(yù)測(cè),捕獲雙線性插值上采樣中缺少的精細(xì)信息。在Kvasir-SEG數(shù)據(jù)集[12]和CVCEndoSceneStill數(shù)據(jù)集[13]上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明本文所提方法優(yōu)于其他息肉分割方法,改善了過(guò)度曝光和低對(duì)比度導(dǎo)致的分割精度低的問(wèn)題,且邊界外部不存在圖像偽影、不存在圖像內(nèi)部不連貫的現(xiàn)象。
近年來(lái),卷積神經(jīng)網(wǎng)絡(luò)由于其強(qiáng)大的特征提取能力,在計(jì)算機(jī)視覺(jué)領(lǐng)域取得了最好的性能。在醫(yī)學(xué)圖像分割領(lǐng)域,U-Net占據(jù)了主導(dǎo)地位。空洞卷積可以在不增加參數(shù)量和模型復(fù)雜度的條件下,指數(shù)倍地?cái)U(kuò)大視覺(jué)感受野的大小。本文使用U-Net的U型結(jié)構(gòu),編碼器部分采用Kronecker空洞卷積下采樣模塊,利用階梯結(jié)構(gòu)的融合模塊進(jìn)一步提取特征,引入卷積重構(gòu)上采樣模塊生成像素級(jí)預(yù)測(cè),最終實(shí)現(xiàn)對(duì)結(jié)腸息肉圖像的高效分割。模型的具體結(jié)構(gòu)將在下面進(jìn)行詳細(xì)描述。
SU-Net的整體框架如圖1所示。網(wǎng)絡(luò)使用與UNet[14]類似的結(jié)構(gòu),左側(cè)是編碼器,右側(cè)是解碼器。使用編碼器提取輸入圖像的語(yǔ)義信息,使用卷積重構(gòu)上采樣模塊作為解碼器恢復(fù)特征圖的分辨率,并且使用跳層連接將編碼器和解碼器同一層次的特征圖拼接在一起,融合了網(wǎng)絡(luò)的淺層信息,同時(shí)加速了網(wǎng)絡(luò)收斂。本文使用Kronecker空洞卷積下采樣模塊擴(kuò)大感受野以提取詳細(xì)的上下文信息而不額外增加參數(shù)量。同時(shí)在編碼器和解碼器之間加入階梯結(jié)構(gòu)的融合模塊,捕獲上下文信息并從多個(gè)尺度聚合特征。
圖1 SU-Net整體框架
最近,在全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional neural Networks, FCN)[15]的某些層中常常使用空洞卷積代替標(biāo)準(zhǔn)卷積,從而擴(kuò)大感受野。但在空洞卷積中,相鄰像素來(lái)自獨(dú)立的子集,彼此之間缺乏依賴性。本文使用 Kronecker 乘積來(lái)擴(kuò)展標(biāo)準(zhǔn)空洞卷積核,可在不引入額外參數(shù)的情況下擴(kuò)大濾波器的感受野,并捕獲被標(biāo)準(zhǔn)空洞卷積忽略的結(jié)構(gòu)信息[16]。
假設(shè)A為m×n大小的矩陣,B為r×s大小的矩陣,則A ?B所表示的Kronecker乘積為大小mr×ns的矩陣,公式為
圖2(a)從左到右所代表的卷積核依次為標(biāo)準(zhǔn)的3×3卷積核、擴(kuò)張系數(shù)r=4的空洞卷積核和擴(kuò)張因子r1=4,有效因子r2=3的Kronecker空洞卷積核。其中黑框表示一個(gè)卷積核,黑框中的單元格表示特征向量,紅色和綠色單元格代表計(jì)算中涉及的特征向量。與簡(jiǎn)單插入零來(lái)擴(kuò)展卷積核的空洞卷積相比,Kronecker空洞卷積通過(guò)Kronecker乘積來(lái)擴(kuò)展卷積核,加強(qiáng)了相鄰像素之間的依賴性,在一定程度上避免了棋盤效應(yīng)。擴(kuò)張因子r1控制卷積核的擴(kuò)張率。當(dāng)r1變大時(shí),卷積核變大,感受野相應(yīng)擴(kuò)大。有效因子r2控制有效區(qū)域的大小,使每個(gè)Kronecker空洞卷積都具有聚合r2×r2子區(qū)域中的特征的能力,捕獲被空洞卷積忽略的局部上下文信息和相鄰像素之間的關(guān)系。由于T僅包含1和0的值,因此在Kronecker空洞卷積中沒(méi)有引入更多參數(shù)。
在本文中,利用Kronecker空洞卷積構(gòu)成類似于Xception[17]輸入流的Kronecker空洞卷積下采樣(Kronecker Atrous Convolution Downsampling,KACD)模塊對(duì)圖像進(jìn)行特征提取,進(jìn)一步擴(kuò)大感受野,如圖2(b)所示。第1個(gè)Kronecker空洞卷積步長(zhǎng)為1,利用第2個(gè)Kronecker空洞卷積對(duì)圖像進(jìn)行下采樣,而不是使用Xception中的最大池化層。經(jīng)過(guò)Kronecker空洞卷積提取到的圖像特征與經(jīng)過(guò)步長(zhǎng)為2的1×1卷積提取到的圖像特征進(jìn)行殘差連接[18],加快網(wǎng)絡(luò)收斂速度。
圖2 不同類型卷積核和KACD模塊
階梯結(jié)構(gòu)的融合模塊(Stair-structured Fusion Module, SFM)可以在復(fù)雜場(chǎng)景中捕獲多尺度上下文信息,如圖3所示。模塊的輸入是編碼器提取的高級(jí)特征,遵循擴(kuò)展和堆疊原則以有效編碼多尺度特征[16]。圖3(b)為2層階梯示意圖,輸入特征被復(fù)制到兩個(gè)分支,一個(gè)分支保留當(dāng)前尺度的特征信息,另一個(gè)分支遵循擴(kuò)展原則探索更大范圍內(nèi)的空間依賴性。擴(kuò)展分支中的一支經(jīng)3×3卷積提取特征,其余分支采用相同大小組合(r1,r2)的Kronecker空洞卷積,每個(gè)Kronecker空洞卷積和3 × 3 卷積后面都緊跟一個(gè)批量歸一化層和線性整流函數(shù)(Rectified Linear Unit, ReLU)層,最后將所有分支的信息堆疊合并后經(jīng)空間注意力模塊(Spatial Attention Module, SAM)過(guò)濾無(wú)用信息,整個(gè)模塊遵循殘差結(jié)構(gòu)[18]。以2層階梯為例,擴(kuò)展和堆疊原則可以表述為
其中,In-1(x)是SFM的輸入特征,In(x)是SFM的輸出特征,fn(x)表示擴(kuò)展分支對(duì)輸入特征處理后進(jìn)行融合的函數(shù),SAM(x)表示空間注意力模塊的處理函數(shù)。
圖3(a)為n層階梯操作示意圖。本文采用具有4個(gè)擴(kuò)展分支,一個(gè)復(fù)制分支的SFM模塊。為了在計(jì)算復(fù)雜度和模型能力之間進(jìn)行權(quán)衡,假設(shè)輸入特征圖具有C個(gè)通道,每個(gè)分支的輸出通道減少為C/4。
圖3 階梯結(jié)構(gòu)的融合模塊
遵循上述擴(kuò)展和堆疊規(guī)則,SFM形成了階梯狀的分層結(jié)構(gòu),可以有效地捕獲上下文信息并從多個(gè)尺度聚合特征。此外,從前面步驟中學(xué)到的特征可以在后續(xù)步驟中重新探索,這優(yōu)于現(xiàn)有的具有多個(gè)獨(dú)立分支的并行結(jié)構(gòu)。整個(gè)模塊遵循線性殘差連接,提高分割準(zhǔn)確性和加快收斂速度。
傳統(tǒng)的上采樣操作一般采用雙線性插值法和反卷積,然而雙線性插值法不具有可學(xué)習(xí)性,反卷積網(wǎng)絡(luò)在卷積前需要添加額外的零,并且很容易產(chǎn)生“不均勻重疊”現(xiàn)象。為此,本文引入卷積重構(gòu)上采樣(Convolutional Reshaped Upsampling, CRU)模塊,在經(jīng)過(guò)卷積處理后的輸入特征圖上應(yīng)用周期篩選(periodic shuffling)操作[19]進(jìn)行維度的重構(gòu),以獲得密集的像素級(jí)預(yù)測(cè)圖。
低分辨率的特征圖作為CRU模塊的輸入,像素級(jí)語(yǔ)義分割的目標(biāo)是生成大小為H×W的標(biāo)簽圖,其中每個(gè)像素都標(biāo)有類別標(biāo)簽。假設(shè)輸入特征圖的維數(shù)為B×C×H′×W′,其中H′=H/s,W′=W/s,s是下采樣因子。則通過(guò)1×1卷積層后,輸出特征圖變?yōu)锽×(C×s2)H′×W′。然后使用周期篩選操作將輸出特征圖重構(gòu)為B×C×H×W,通過(guò)3×3卷積層再進(jìn)行后續(xù)的操作。圖4(a)以一張圖片為例,描繪了C=1,s=1時(shí)的CRU網(wǎng)絡(luò)架構(gòu),圖4(b)描繪了通用情況下的CRU網(wǎng)絡(luò)架構(gòu)。
圖4 卷積重構(gòu)上采樣模塊
為了評(píng)估模型的性能,使用Kvasir-SEG和CVC-EndoSceneStill數(shù)據(jù)集來(lái)驗(yàn)證算法的有效性。CVC-EndoSceneStill數(shù)據(jù)集包含了CVC-ColonDB和CVC-ClinicDB兩部分。其中CVC-ColonDB包含300張574像素×500像素的結(jié)腸鏡圖像。CVC-ClinicDB包含612張384像素×288像素的結(jié)腸鏡圖像。為了方便處理,將CVC-EndoSceneStill數(shù)據(jù)集的圖像統(tǒng)一為384像素×288像素的分辨率。Kvasir-SEG數(shù)據(jù)集包含了1000張結(jié)腸鏡圖像和標(biāo)準(zhǔn)分割結(jié)果,此數(shù)據(jù)集圖片之間的分辨率存在很大差異,為了便于模型訓(xùn)練,將Kvasir-SEG數(shù)據(jù)集的圖像統(tǒng)一為320像素×320像素的分辨率。兩個(gè)數(shù)據(jù)集都分別按照6:2:2的比例分割為訓(xùn)練集、驗(yàn)證集和測(cè)試集3個(gè)部分。為了使得模型學(xué)習(xí)到更細(xì)膩的特征表現(xiàn),本文對(duì)兩個(gè)數(shù)據(jù)集中的圖片及與之對(duì)應(yīng)的標(biāo)簽執(zhí)行相同的數(shù)據(jù)增強(qiáng)操作,包括隨機(jī)水平翻轉(zhuǎn)、隨機(jī)垂直翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)、隨機(jī)縮放和隨機(jī)裁剪。
實(shí)驗(yàn)部分,所有模型的設(shè)置都保持相同。所有已知模型都是基于PyTorch 1.6 框架,并在Intel Xeon E5-2680 v4 處理器和NVIDIA GeForce RTX 2080 Ti(11 GB 內(nèi)存)的設(shè)備上訓(xùn)練了150個(gè)epoch。使用Dice-loss與二分類交叉熵?fù)p失函數(shù)的加權(quán)和作為損失函數(shù),當(dāng)驗(yàn)證集的損失經(jīng)過(guò)5個(gè)epoch仍然不下降時(shí),觸發(fā)早停法。網(wǎng)絡(luò)訓(xùn)練過(guò)程中采用小批次訓(xùn)練迭代,batch size設(shè)置為8。使用自適應(yīng)矩估計(jì)(Adaptive moment estimation, Adam)優(yōu)化算法[20]優(yōu)化模型參數(shù),初始學(xué)習(xí)率為1e-3,權(quán)重衰減為1e-4。
實(shí)驗(yàn)中使用了多個(gè)醫(yī)學(xué)圖像分割領(lǐng)域常用的評(píng)價(jià)指標(biāo),下面給出這些指標(biāo)的具體定義。
召回率(Recall)表示在所有正類別樣本中,被正確識(shí)別為正類別的比例,如式(4)所示
交并比(Intercection of Union, IoU)旨在根據(jù)模型輸出的分割結(jié)果和標(biāo)準(zhǔn)分割圖像的重疊區(qū)域來(lái)衡量分割的精度,式(8)表示前景的IoU,式(9)表示背景的IoU,式(10)表示前景和背景的平均IoU
為評(píng)價(jià)Kronecker空洞卷積和階梯結(jié)構(gòu)融合模塊對(duì)實(shí)驗(yàn)結(jié)果的影響,設(shè)計(jì)從原始baseline逐漸過(guò)渡到SU-Net的消融實(shí)驗(yàn),以隔離模型中每個(gè)單獨(dú)組件的影響,如表1所示。
根據(jù)表1的消融實(shí)驗(yàn)設(shè)置,分別構(gòu)建出相對(duì)應(yīng)的網(wǎng)絡(luò)模型,采用相同的模型參數(shù)對(duì)模型進(jìn)行訓(xùn)練,得到各消融實(shí)驗(yàn)在EndoSceneStill數(shù)據(jù)集和Kvasir-SEG數(shù)據(jù)集上的結(jié)果如表2、表3所示。
表1 SU-Net消融實(shí)驗(yàn)列表
分析表2、表3的消融實(shí)驗(yàn)結(jié)果可知,實(shí)驗(yàn)2在原始baseline的基礎(chǔ)上將空洞卷積替換為Kronecker空洞卷積,Dice指標(biāo)在EndoSceneStill數(shù)據(jù)集和Kvasir-SEG數(shù)據(jù)集上分別上升了0.95%, 0.47%。實(shí)驗(yàn)3在實(shí)驗(yàn)2的基礎(chǔ)上用Kronecker空洞卷積下采樣模塊進(jìn)行下采樣,使得Dice指標(biāo)分別上升了0.94%,0.47%。實(shí)驗(yàn)4在實(shí)驗(yàn)3的基礎(chǔ)上加入階梯結(jié)構(gòu)的融合模塊,Dice指標(biāo)分別上升了0.86%, 0.35%。實(shí)驗(yàn)5在實(shí)驗(yàn)4的基礎(chǔ)上加入卷積重構(gòu)上采樣模塊,Dice指標(biāo)進(jìn)一步上升了0.56%和0.62%。
表2 在EndoSceneStill數(shù)據(jù)集上各實(shí)驗(yàn)的量化結(jié)果
表3 在Kvasir-SEG數(shù)據(jù)集上各實(shí)驗(yàn)的量化結(jié)果
為證明所提模型的有效性,與幾個(gè)具有代表性的模型進(jìn)行了比較:U-Net[14], Attention unet[21],TKCN[16], Xception[17], DeepLabV3+[22]和PraNet[7],得到不同模型預(yù)測(cè)輸出結(jié)果的各種量化指標(biāo)。在Kvasir-SEG數(shù)據(jù)集中的評(píng)估結(jié)果如表4所示,在EndoSceneStill數(shù)據(jù)集中的評(píng)估結(jié)果如表5所示。
由表4、表5可以看出,本文所提SU-Net在所有的評(píng)估標(biāo)準(zhǔn)上都要優(yōu)于其他方法,在Dice指標(biāo)和IoU指標(biāo)上均達(dá)到了最高。表4顯示,在Endo-SceneStill數(shù)據(jù)集中,SU-Net在Dice指標(biāo)和IoU指標(biāo)上分別為82.30%和85.64%,比U-Net網(wǎng)絡(luò)的結(jié)果分別提高了11.17%和6.5%。與PraNet相比,這兩個(gè)指標(biāo)分別提高了2.14%和0.84%。表5顯示,在Kvasir-SEG數(shù)據(jù)集中,SU-Net在Dice指標(biāo)和IoU指標(biāo)上達(dá)到了87.51%和88.75%,比U-Net網(wǎng)絡(luò)的結(jié)果分別提高了7.34%和6.60%。
表4 不同模型在EndoSceneStill數(shù)據(jù)集中的量化評(píng)估結(jié)果
表5 不同模型在Kvasir-SEG數(shù)據(jù)集中的量化評(píng)估結(jié)果
圖5、圖6分別顯示了所提SU-Net與其他分割模型在EndoSceneStill數(shù)據(jù)集和Kvasir-SEG數(shù)據(jù)集上的分割結(jié)果對(duì)比。其中圖5(a)和圖6(a)是原始輸入圖像,圖5(b)和圖6(b)是對(duì)應(yīng)的真實(shí)標(biāo)簽圖,圖5(c)—圖5(i)、圖6(c)—圖6(i)依次是U-Net, Attention unet, TKCN, Xception, DeepLabV3+,PraNet和SU-Net的分割結(jié)果。
由圖5和圖6可以看出,KACD模塊能有效擴(kuò)大感受野,學(xué)習(xí)到更高級(jí)的語(yǔ)義信息,同時(shí)還彌補(bǔ)了傳統(tǒng)空洞卷積丟失的細(xì)節(jié)特征,SU-Net與其他模型相比,分割能力更強(qiáng),分割結(jié)果更精確,對(duì)于息肉與周圍黏膜對(duì)比度非常低的圖像,依然能準(zhǔn)確分割出息肉的邊界,如圖5第3行和圖6第4行所示。對(duì)于過(guò)度曝光區(qū)域,SU-Net能夠通過(guò)SFM過(guò)濾特征信息,有效捕獲上下文信息并從多個(gè)尺度聚合,因此很好地應(yīng)對(duì)過(guò)度曝光的情況,在過(guò)度曝光區(qū)域沒(méi)有產(chǎn)生假陽(yáng)性區(qū)域,如圖5第4行和圖6第5行所示。同時(shí)CRU模塊具有可學(xué)習(xí)性,允許直接在輸入特征圖和輸出特征圖之間應(yīng)用卷積操作,能夠捕獲和恢復(fù)雙線性插值操作中缺少的精細(xì)信息,因此,SU-Net具有更加清晰的邊界表現(xiàn)和更好的圖像連貫性。圖5和圖6顯示了SU-Net強(qiáng)大的分割效果,在邊界處與標(biāo)準(zhǔn)分割結(jié)果更為接近,且在邊界外部不存在圖像偽影,不存在圖像內(nèi)部不連貫的現(xiàn)象,SU-Net模型可以聚合不同尺度的信息,抑制無(wú)關(guān)信息、突出重要信息以取得更接近標(biāo)準(zhǔn)分割結(jié)果的預(yù)測(cè)輸出。
圖5 SU-Net與其他分割模型在EndoSceneStill數(shù)據(jù)集上的分割結(jié)果
圖6 SU-Net與其他分割模型在Kvasir-SEG數(shù)據(jù)集上的分割結(jié)果
本文提出一種基于階梯結(jié)構(gòu)的U-Net分割網(wǎng)絡(luò),用于結(jié)腸鏡圖像的息肉自動(dòng)分割,減小了方向、形狀、紋理和大小對(duì)結(jié)果的影響。SU-Net使用U-Net網(wǎng)絡(luò)U型結(jié)構(gòu),編碼器采用Kronecker空洞卷積下采樣模塊,利用Kronecker空洞卷積捕獲更多結(jié)構(gòu)細(xì)節(jié)信息并增加濾波器的感受野,而無(wú)須額外增加參數(shù)。模型結(jié)合階梯結(jié)構(gòu)的融合模塊,遵循擴(kuò)展和堆疊原則能有效捕獲上下文信息并從多個(gè)尺度聚合特征。引入卷積重構(gòu)上采樣模塊捕獲雙線性插值上采樣中缺少的精細(xì)信息,生成密集的像素級(jí)預(yù)測(cè)圖。在Kvasir-SEG和EndoSceneStill數(shù)據(jù)集上對(duì)提出的SU-Net進(jìn)行了評(píng)估,并且與其他已有的代表性方法進(jìn)行分析比較。實(shí)驗(yàn)結(jié)果表明,SUNet的準(zhǔn)確率優(yōu)于其他方法,對(duì)過(guò)度曝光圖像也有很好的處理效果,對(duì)息肉與周圍黏膜對(duì)比度非常低的圖像,也能準(zhǔn)確分割出息肉的邊界,且在邊界外部不存在圖像偽影,具有很好的圖像連貫性。