楊真真 孫雪 邵靜 楊永鵬,3
(1.南京郵電大學(xué)寬帶無線通信與傳感網(wǎng)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,江蘇南京 210003;2.南京郵電大學(xué)理學(xué)院,江蘇南京 210023;3.南京信息職業(yè)技術(shù)學(xué)院網(wǎng)絡(luò)與通信學(xué)院,江蘇南京 210023)
深度學(xué)習(xí)在圖像分類、語義分割和目標(biāo)檢測(cè)等許多場景都實(shí)現(xiàn)了非常成功的應(yīng)用[1]。醫(yī)學(xué)圖像分割以其獨(dú)特的應(yīng)用場景受到研究者的廣泛關(guān)注,其數(shù)據(jù)需要專業(yè)人士進(jìn)行標(biāo)注,數(shù)據(jù)集的獲取相對(duì)困難,提升了醫(yī)學(xué)圖像分割的難度。隨著深度學(xué)習(xí)的迅猛發(fā)展,研究者設(shè)計(jì)了各種網(wǎng)絡(luò)來提高醫(yī)學(xué)圖像分割的性能。Ronneberger等[2]提出U-Net 網(wǎng)絡(luò),首次使用U 型網(wǎng)絡(luò)結(jié)構(gòu)對(duì)醫(yī)學(xué)圖像進(jìn)行分割,取得了很好的性能,其特有的U 型結(jié)構(gòu)很好的傳遞了提取的特征信息,非常適合小數(shù)據(jù)集的醫(yī)學(xué)圖像分割。
為了進(jìn)一步提高分割性能,研究者相繼提出了一些U-Net 網(wǎng)絡(luò)的改進(jìn)網(wǎng)絡(luò),這些網(wǎng)絡(luò)主要通過增加參數(shù)和計(jì)算量獲得更深更寬的網(wǎng)絡(luò)來增強(qiáng)特征提取能力。針對(duì)U-Net 只能對(duì)二維圖像進(jìn)行分割,但臨床診斷的圖片大都是三維的問題,V-Net網(wǎng)絡(luò)[3]提出了一種基于體積、全卷積神經(jīng)網(wǎng)絡(luò)的三維圖像分割方法,并引入一個(gè)新的目標(biāo)函數(shù),對(duì)訓(xùn)練過程進(jìn)行優(yōu)化。V-Net結(jié)構(gòu)與U-Net幾乎沒有差別,分割精度上沒有太大提升;為了避免U-Net 網(wǎng)絡(luò)編碼部分提取出的淺層特征信息被每一層的池化操作損耗,Zhou等[4]提出了一種新的嵌套結(jié)構(gòu)U-Net++,該網(wǎng)絡(luò)關(guān)注深淺層特征信息的融合,對(duì)U-Net 跳躍連接部分進(jìn)行改進(jìn),改進(jìn)后的網(wǎng)絡(luò)將編碼部分每一層提取出的信息傳遞給對(duì)應(yīng)的解碼部分,并使用剪枝操作平衡過量的參數(shù)和網(wǎng)絡(luò)深度之間的關(guān)系。但是U-Net++忽略了編碼部分提取信息的重要性,只是利用嵌套和密集連接的跳躍結(jié)構(gòu)加強(qiáng)對(duì)已有信息的傳遞過程。為了進(jìn)一步提高網(wǎng)絡(luò)分割精度,Huang等[5]又提出了UNet 3+網(wǎng)絡(luò),該網(wǎng)絡(luò)利用全尺度跳躍連接和深度監(jiān)督融合不同尺度不同層次的特征信息,在圖像分割領(lǐng)域得到了更好的性能,但同時(shí)產(chǎn)生了遠(yuǎn)超U-Net和深度監(jiān)督的網(wǎng)絡(luò)結(jié)構(gòu)的參數(shù)量。
殘差網(wǎng)絡(luò)(Residual Network,ResNet)[6]的出現(xiàn)為U-Net 的改進(jìn)帶來了另一種思路,該網(wǎng)絡(luò)首次將殘差連接嵌入到卷積神經(jīng)網(wǎng)絡(luò),使堆積層在輸入特征的基礎(chǔ)上學(xué)習(xí)到新的特征,在一定程度上改善了網(wǎng)絡(luò)層數(shù)增加帶來的梯度消失問題;上下文編碼網(wǎng)絡(luò)(Context Encoder Network,CE-Net)[7]提出了一種上下文編碼模塊,將殘差連接與擴(kuò)展卷積相結(jié)合,捕獲更多高級(jí)信息并保留空間信息,使編碼部分獲取到更全面的特征信息。此外,在殘差連接的基礎(chǔ)上,又出現(xiàn)了多尺度殘差U-Net(Multi-scale Residual U-Net,MultiResUNet)[8]和多尺度深度連接UNet(Multi-scale Densely connected U-Net,MDU-Net)[9]。MultiResUNet 提出了一個(gè)MultiRes 模塊與U-Net 結(jié)合,MultiRes 模塊是殘差連接的擴(kuò)展,該模塊將3 個(gè)3×3 卷積后的結(jié)果拼接起來作為一個(gè)組合特征圖,再與輸入特征圖經(jīng)過1×1卷積后的結(jié)果相加得到最后的輸出特征圖;MDU-Net 與MultiResUNet 非常類似,除了利用多尺度特征融合采集更多語義信息以外,都通過建立殘差連接提高網(wǎng)絡(luò)分割精度。但CE-Net、MultiResUNet 和MDU-Net 中殘差連接的使用直接導(dǎo)致了網(wǎng)絡(luò)計(jì)算量的急劇增加,限制了改進(jìn)后的網(wǎng)絡(luò)的使用環(huán)境。
此外,隨著深度學(xué)習(xí)在圖像處理領(lǐng)域的進(jìn)一步深入研究,注意力模塊在Seq2Seq網(wǎng)絡(luò)[10]翻譯模型中首次被提出以后,就得到了快速發(fā)展和廣泛應(yīng)用。多尺度注意力U-Net(Multi-scale and Attention U-Net,MA-Unet)[11]將注意力模塊和多尺度特征融合結(jié)合起來,通過完善編碼部分的特征提取提升網(wǎng)絡(luò)性能,但依舊在一定程度上增加了該網(wǎng)絡(luò)的計(jì)算開銷。
U-Net 網(wǎng)絡(luò)的主要特點(diǎn)是輕量級(jí)網(wǎng)絡(luò)[12],而現(xiàn)有改進(jìn)的U-Net 大都是通過加寬加深網(wǎng)絡(luò)來獲得更好的分割性能,這些網(wǎng)絡(luò)對(duì)內(nèi)存的高要求和高的計(jì)算量嚴(yán)重限制了深度學(xué)習(xí)在醫(yī)學(xué)圖像分割領(lǐng)域的應(yīng)用。如何在保持令人滿意的分割性能的同時(shí)減少所需計(jì)算資源成為研究者新的關(guān)注點(diǎn)。基于此,本文提出了一種新的多尺度偶數(shù)卷積注意力U-Net(Multiscale Even Convolution Attention U-Net,MECAUNet)網(wǎng)絡(luò)[13]。該網(wǎng)絡(luò)通過利用偶數(shù)卷積降低分割所需參數(shù)以減少額外計(jì)算開銷[14],再利用卷積注意力模塊(Convolutional Block Attention Module,CBAM)[15]和新增的4×4 卷積層來取得更好的分割性能,其創(chuàng)新性如下:
(1)提出了一種新的多尺度偶數(shù)卷積方法。針對(duì)現(xiàn)有的改進(jìn)U-Net醫(yī)學(xué)圖像分割網(wǎng)絡(luò)產(chǎn)生參數(shù)爆炸的問題,為了更好地平衡計(jì)算開銷和分割性能,MECAU-Net 網(wǎng)絡(luò)將關(guān)注點(diǎn)放在了卷積運(yùn)算上。卷積運(yùn)算是整個(gè)分割網(wǎng)絡(luò)最常用的運(yùn)算之一,也是能否合理的降低卷積計(jì)算量的關(guān)鍵因素。MECAUNet的編碼部分將3×3 卷積換成2×2 偶數(shù)卷積,通過降低卷積核的大小,將卷積運(yùn)算計(jì)算量盡可能降低。同時(shí)借鑒多尺度的思想,MECAU-Net還在編碼端建立了一條與2×2 偶數(shù)卷積平行的4×4 偶數(shù)卷積通路,將得到的信息直接傳遞給編碼網(wǎng)絡(luò)的主體2×2 偶數(shù)卷積部分,提供在更大感受野內(nèi)提取特征信息,以保證在獲取更全面的圖像信息的同時(shí)減少額外計(jì)算開銷。同時(shí)還采用對(duì)稱填充解決偶數(shù)卷積提取信息過程中產(chǎn)生的偏移問題。
(2)卷積過程嵌入了一種注意力模塊。針對(duì)大多數(shù)的分割網(wǎng)絡(luò)對(duì)圖片的所有像素進(jìn)行無差別處理,而整張圖片只有較小區(qū)域包含有用信息,計(jì)算產(chǎn)生極大浪費(fèi)的問題,為了更有效的分割出醫(yī)學(xué)圖像中的目標(biāo)區(qū)域,MECAU-Net 網(wǎng)絡(luò)在2×2 偶數(shù)卷積模塊后嵌入了卷積注意力模塊,通過增加注意力模塊來關(guān)注有用的特征信息,在提取更豐富的信息的同時(shí)幾乎不增加額外開銷。該模塊先通過通道注意力和空間注意力這兩個(gè)模塊提取出有用的特征信息,再和通過偶數(shù)卷積塊提取出的特征信息融合,傳遞到下一卷積層繼續(xù)提取更深層的特征信息。
Ronneberger 等在全卷積神經(jīng)網(wǎng)絡(luò)[16]的基礎(chǔ)上,不再使用全連接層,避免產(chǎn)生過多參數(shù),提出了專注于解決醫(yī)學(xué)圖像分割的U-Net網(wǎng)絡(luò)。該網(wǎng)絡(luò)分為編碼部分、解碼部分和為編解碼之間信息傳遞提供通路的跳躍連接三部分。編碼部分的功能是通過卷積和池化等一系列操作提取圖像的特征信息,該部分包含四個(gè)子模塊,每個(gè)子模塊包含兩個(gè)3×3 的卷積層,每個(gè)子模塊之后是通過最大池化實(shí)現(xiàn)的下采樣層,依次采集到更深層次的語義信息;解碼部分同樣包含四個(gè)子模塊,每個(gè)子模塊由上采樣和解碼實(shí)現(xiàn),解碼時(shí)通過上采樣恢復(fù)分辨率,直到與輸入圖像的分辨率一致;跳躍連接將特征提取的每一層編碼得到的語義信息及時(shí)傳遞給對(duì)應(yīng)的解碼端,完整的保留了前三層編碼獲取到的圖像特征。
現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)主要通過深度卷積、擴(kuò)展通道和復(fù)雜的拓?fù)浣Y(jié)構(gòu)來提高性能,這加劇了訓(xùn)練過程的復(fù)雜度。此外,在這些網(wǎng)絡(luò)中,3×3卷積核占主導(dǎo)地位,而偶數(shù)大小的卷積核很少被采用。Wu等[13]提出了采用2×2偶數(shù)卷積可以進(jìn)一步減少網(wǎng)絡(luò)參數(shù)。但偶數(shù)卷積核具有不對(duì)稱的感受野,導(dǎo)致在生成的特征圖中產(chǎn)生像素偏移。當(dāng)堆疊多個(gè)卷積時(shí),位置偏移會(huì)累積,從而嚴(yán)重的侵蝕空間信息。為了解決這一問題,Wu等[13]提出使用偶數(shù)大小的卷積核的同時(shí)在特征圖的每一層使用對(duì)稱填充,不僅很好的消除了移位問題,而且擴(kuò)展了偶數(shù)卷積核的感受野,從而在降低參數(shù)的同時(shí)取得相當(dāng)甚至更好的性能。通過偶數(shù)卷積和對(duì)稱填充,提取出的特征信息相當(dāng)于3×3 卷積的感受野,利用更小的計(jì)算開銷獲取相同大小感受野內(nèi)的信息,達(dá)到在獲得相當(dāng)甚至更好的性能的同時(shí),減少卷積的參數(shù)量。
現(xiàn)有的大多數(shù)改進(jìn)U-Net網(wǎng)絡(luò)都是通過加深網(wǎng)絡(luò)來獲取更多特征信息,網(wǎng)絡(luò)性能雖得到了一定的提升,但很大一部分計(jì)算量用來分析圖像的背景部分,而醫(yī)學(xué)圖像的背景部分占比較大,且一般都不包含有用信息,如何有針對(duì)性的利用有限的計(jì)算量提取醫(yī)學(xué)圖像的有用信息是很重要的。注意力模塊是一種能讓模型對(duì)重要信息重點(diǎn)關(guān)注并充分吸收學(xué)習(xí)的技術(shù)[17],它可以幫助網(wǎng)絡(luò)快速鎖定待處理部分,減少不必要的計(jì)算損耗,是一種非常有用的降低網(wǎng)絡(luò)計(jì)算量的方法。大量實(shí)驗(yàn)證明注意力模塊的加入提升了圖像分割網(wǎng)絡(luò)的分割性能[18]。壓縮激勵(lì)網(wǎng)絡(luò)(Squeeze-and-Excitation Networks,SENet)[19]以考慮特征通道之間的關(guān)系為出發(fā)點(diǎn),提出了SE 注意力模塊,使用全局上下文對(duì)通道權(quán)值進(jìn)行重新標(biāo)定,調(diào)整特征通道之間的依賴關(guān)系,但SE注意力模塊沒有充分利用全局上下文信息。CBAM 是一種輕量級(jí)注意力模塊[15],它將注意力分為通道注意力和空間注意力兩個(gè)過程,在給定一個(gè)中間特征圖后,沿著通道和空間兩個(gè)維度依次推斷出注意力權(quán)重,然后與原特征圖相乘來對(duì)特征進(jìn)行自適應(yīng)調(diào)整。和其他注意力模塊相比,CBAM 可以更好的嵌入到卷積模塊中,并且不會(huì)給原有網(wǎng)絡(luò)帶來過多計(jì)算開銷。
醫(yī)學(xué)圖像分割較之普通圖像分割更困難,因其可供訓(xùn)練網(wǎng)絡(luò)模型的圖片很難獲取,所以人們?cè)跇?gòu)建醫(yī)學(xué)圖像分割網(wǎng)絡(luò)時(shí),都會(huì)格外注意特征獲取部分[20]。U-Net 在編碼、解碼過程中只采用3×3 卷積和反卷積來提取或恢復(fù)圖像特征,其改進(jìn)分割網(wǎng)絡(luò)也都在延用3×3 卷積的基礎(chǔ)上利用更大尺度的5×5卷積核獲取到更大感受野內(nèi)的內(nèi)容,這些網(wǎng)絡(luò)的性能雖都有一定的提升,但是大的卷積核也導(dǎo)致了計(jì)算速度更慢,參數(shù)量更多。U-Net 分割網(wǎng)絡(luò)雖然取得了不錯(cuò)的分割結(jié)果,但是之后的改進(jìn)網(wǎng)絡(luò)都在以計(jì)算量為代價(jià)提升分割精度,違背了U-Net 的輕量級(jí)網(wǎng)絡(luò)的本質(zhì)。為此,本文提出以利用較少的計(jì)算量實(shí)現(xiàn)更好的分割結(jié)果為目的的網(wǎng)絡(luò),采用CBAM注意力模塊鎖定圖像的特征信息,用2×2 偶數(shù)卷積替換3×3 卷積降低參數(shù)量,再通過新增一層4×4 偶數(shù)卷積核,代替多尺度特征融合在更大感受野內(nèi)采集特征信息,再將采集到的特征信息傳遞給網(wǎng)絡(luò)主體部分。
卷積操作在整個(gè)計(jì)算過程中所占計(jì)算開銷最大,所以考慮從卷積的角度來降低整個(gè)網(wǎng)絡(luò)的計(jì)算量。現(xiàn)有改進(jìn)U-Net 網(wǎng)絡(luò)仍是以3×3 的卷積作為網(wǎng)絡(luò)主體進(jìn)行特征提取。在多尺度編碼部分,也都選擇使用更大尺度的5×5等奇數(shù)卷積核獲取大感受野內(nèi)的信息。大卷積核的感受野更大,提取特征的性能更好,但是其計(jì)算速度更慢,參數(shù)量更多。此外,多尺度特征融合通常可以給網(wǎng)絡(luò)帶來更好的性能,但也通常會(huì)引起的參數(shù)爆炸。為了解決這兩個(gè)問題,提出了如圖1 所示的多尺度偶數(shù)卷積U-Net 模塊。采用更小的卷積核對(duì)降低計(jì)算量非常有幫助,但1×1 的卷積核幾乎沒辦法提取出像素的位置信息,為了降低計(jì)算損耗,本文采用2×2偶數(shù)卷積核對(duì)輸入特征圖中的信息進(jìn)行提取。Szegedy 等人[21]在Inception-v3 中提出采用兩個(gè)連續(xù)3×3 卷積組成的小網(wǎng)絡(luò)來代替一個(gè)5×5 卷積,在保持感受野的同時(shí)降低參數(shù)量。借鑒類似思想,提出采用兩個(gè)2×2 卷積組合代替一個(gè)3×3 卷積,以此來降低卷積部分的參數(shù)量。此外,為了避免像素偏移問題,提出的網(wǎng)絡(luò)延用了Wu等[13]提出的對(duì)稱填充的方法,在消除了偶數(shù)卷積帶來的像素偏移的同時(shí)擴(kuò)大感受野。
圖1 多尺度偶數(shù)卷積U-Net模塊Fig.1 Multi-scale even convolution U-Net module
感受野的大小直接影響到圖像特征信息和圖像空間信息的提取,為了增強(qiáng)圖像信息的提取能力,常用多尺度特征融合的方式平衡特征信息和位置信息兩者之間的關(guān)系。多尺度特征融合通??梢越o網(wǎng)絡(luò)帶來更好的性能,常見的多尺度特征融合是在3×3 卷積的網(wǎng)絡(luò)中引入5×5 卷積,以此來獲得更大感受野內(nèi)的圖像信息[22],但是多尺度特征融合會(huì)在網(wǎng)絡(luò)中引入過多的參數(shù)和復(fù)雜度??紤]到參數(shù)增長的問題,在分割網(wǎng)絡(luò)的主體部分以外的編碼部分新增了一層4×4 偶數(shù)卷積編碼網(wǎng)絡(luò),利用額外的分支單獨(dú)對(duì)圖像信息進(jìn)行提取,相比于常見的3×3 和5×5 組合形式的多尺度特征融合,其計(jì)算開銷又得到了降低。也就是說多尺度偶數(shù)卷積核使得網(wǎng)絡(luò)在額外計(jì)算開銷增加較少的情況下,有效提升了分割性能。首先,采用更大尺度的4×4 偶數(shù)卷積核對(duì)圖像信息進(jìn)行提取,為了避免偶數(shù)卷積帶來的像素偏移問題,同樣在每一層對(duì)待分割的特征圖進(jìn)行對(duì)稱填充,再將獲取到的信息通過拼接的方式傳遞給對(duì)應(yīng)的主體網(wǎng)絡(luò)進(jìn)行下一步池化。通過這種方式獲取更全面的圖像信息也避免了多尺度特征融合帶來的參數(shù)爆炸問題。
為了提升網(wǎng)絡(luò)的分割精度,研究者采用各種方法設(shè)計(jì)了新的分割網(wǎng)絡(luò),常見的方法有殘差連接[7]、密集連接[23]等,大多數(shù)的改進(jìn)都是通過增加卷積塊內(nèi)的操作對(duì)圖片的每一個(gè)部分信息進(jìn)行進(jìn)一步的提取,這種特征提取方式通常是將全局內(nèi)的信息無差別的進(jìn)行再一次的提取,雖然包含了一部分有用的信息,但多余的無用信息也產(chǎn)生了大量額外的計(jì)算開銷。注意力模塊通過增加某一位置的權(quán)重,有針對(duì)性的提取目標(biāo)位置的圖像特征,不僅提供了大量的有用信息,也節(jié)省了不必要的計(jì)算開銷。
CBAM 是一個(gè)輕量級(jí)的通用模塊,非常適合在特征提取的過程中使用,不會(huì)占用太多的額外開銷,所以提出將CBAM 嵌入到編碼部分的每一層卷積中進(jìn)行更深層次的特征提取。提出的網(wǎng)絡(luò)將2×2卷積后的特征圖作為輸入,通過CBAM 對(duì)每一層卷積提取出的特征圖進(jìn)行進(jìn)一步的處理。經(jīng)過處理后的編碼層會(huì)得到更精確的特征信息,每一編碼層都將卷積和兩路注意力提取出的結(jié)果加權(quán),得出本層最終提取出的特征,有利于后續(xù)更好的提取圖片中的特征信息。
U-Net 以其獨(dú)特的U 形和通過跳躍連接融合編解碼兩側(cè)信息的結(jié)構(gòu)在醫(yī)學(xué)圖像分割領(lǐng)域取得了很好的性能[24],受到了研究者的廣泛關(guān)注,對(duì)基于U-Net 的醫(yī)學(xué)圖像分割網(wǎng)絡(luò)進(jìn)行改進(jìn),一般都是以提高計(jì)算復(fù)雜度為代價(jià)獲得更好的分割性能。為了平衡計(jì)算量和網(wǎng)絡(luò)性能之間的關(guān)系,本文對(duì)UNet 進(jìn)行改進(jìn),提出了一種新的基于MECAU-Net 網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割方法,主要對(duì)U-Net 的編碼部分進(jìn)行改進(jìn),其結(jié)構(gòu)圖如圖2 所示。該網(wǎng)絡(luò)從上到下共五層,網(wǎng)絡(luò)主體延用U-Net 網(wǎng)絡(luò)的U 形結(jié)構(gòu)和跳躍連接,在編碼部分采用更小的2×2的偶數(shù)卷積核、嵌入CBAM 注意力模塊以及在主體外新增一層4×4偶數(shù)卷積的特征提取,在稍微增加計(jì)算成本的情況下,取得了更好的分割效果。
圖2 MECAU-Net網(wǎng)絡(luò)Fig.2 The overall architecture of MECAU-Net
MECAU-Net網(wǎng)絡(luò)的具體改進(jìn)如下:
(1)在網(wǎng)絡(luò)主體部分采用兩個(gè)大小為2×2 的偶數(shù)卷積核代替3×3卷積核,提取圖像中的信息,卷積核變小,卷積部分需要的計(jì)算開銷降低。同時(shí),借鑒多尺度的思想,在編碼端建立了一條與2×2 偶數(shù)卷積平行的4×4 偶數(shù)卷積通路,將得到的信息直接傳遞給編碼網(wǎng)絡(luò)的主體部分,在更大感受野內(nèi)提取特征信息,融合不同感受野內(nèi)的特征信息,以保證在獲取更全面的圖像信息的同時(shí)減少額外計(jì)算開銷。此外,為了解決偶數(shù)卷積核帶來的像素偏移問題,借鑒Wu等[13]的思想,在卷積之前對(duì)圖像特征進(jìn)行對(duì)稱填充,在消除偏移的同時(shí)擴(kuò)展了偶數(shù)卷積核的感受野,從而達(dá)到降低參數(shù)的同時(shí)取得相當(dāng)甚至更好性能的目的。
(2)為了更有效的分割出醫(yī)學(xué)圖像中的目標(biāo)區(qū)域,在2×2 偶數(shù)卷積模塊后嵌入了CBAM 注意力模塊,沿通道和空間兩個(gè)不同維度依次推斷注意力圖,然后將注意力圖和特征圖融合后得到最后的結(jié)果。通過增加CBAM 注意力模塊來關(guān)注有用的特征信息,在提取更豐富的信息的同時(shí)幾乎不增加額外開銷。
在實(shí)驗(yàn)中選擇DRIVE[25]和CHAOS[26]數(shù)據(jù)集作為分割對(duì)象。DRIVE 是眼底血管分割數(shù)據(jù)集,包含40 張圖片,其中7 張圖片顯示早期輕度糖尿病視網(wǎng)膜病變的跡象。該數(shù)據(jù)集中有很多待分割的細(xì)小血管,所以對(duì)DRIVE 數(shù)據(jù)集來說最重要的是如何在圖像中提取盡可能多的細(xì)節(jié)信息。CHAOS 是醫(yī)學(xué)圖像分割中很有代表性的數(shù)據(jù)集,該數(shù)據(jù)集中的圖片以肝腎脾的橫截面為主,在分割過程中的側(cè)重點(diǎn)是如何將邊緣信息準(zhǔn)確的分割出來。本次實(shí)驗(yàn)選取DRIVE 和CHAOS 作為實(shí)驗(yàn)數(shù)據(jù)集,通過對(duì)比各種網(wǎng)絡(luò)分割性能,驗(yàn)證了提出的MECAU-Net網(wǎng)絡(luò)在醫(yī)學(xué)圖像分割的優(yōu)越性。
為了更清晰、更直觀地定量評(píng)價(jià)提出的MECAUNet 網(wǎng)絡(luò)的性能,在仿真實(shí)驗(yàn)中選取像素準(zhǔn)確率(Pixel Accuracy,PA)、交并比(Intersection over Union,IOU)和平均交并比(Mean Intersection over Union,MIoU)作為性能好壞的評(píng)價(jià)指標(biāo)[27],選取參數(shù)量(單位為MB)和預(yù)測(cè)時(shí)間(單位為秒(s))作為計(jì)算量的評(píng)價(jià)指標(biāo)。PA 是預(yù)測(cè)類別正確的像素?cái)?shù)占總像素?cái)?shù)的比例,IOU 是某一類別預(yù)測(cè)值與真實(shí)值的交集和并集之比,MIoU是對(duì)每一類預(yù)測(cè)值與真實(shí)值的交集和并集之比求和再求平均。PA、IOU 和MIoU 這三個(gè)評(píng)價(jià)指標(biāo)的取值都在0 到1 之間,在區(qū)間內(nèi)的值越大表明網(wǎng)絡(luò)的分割性能越好。
由于圖像大小并不完全相同,為了方便后續(xù)分割,先將圖像大小調(diào)成統(tǒng)一的值。此外,為了緩解過擬合問題,在圖像處理過程中加入圖像增強(qiáng)步驟,先將圖像橫向和縱向翻轉(zhuǎn)90°,再用彈性變換對(duì)數(shù)據(jù)集中的圖像進(jìn)行處理,擴(kuò)充數(shù)據(jù)集。為了進(jìn)一步避免訓(xùn)練過程中產(chǎn)生的過擬合問題,并合理評(píng)估MECAU-Net 網(wǎng)絡(luò)的分割性能,采用10 倍交叉驗(yàn)證來優(yōu)化整個(gè)網(wǎng)絡(luò)。在訓(xùn)練過程中將驗(yàn)證集的比例設(shè)置為0.1,抽取數(shù)據(jù)集中的10%作為測(cè)試集。此外,為了達(dá)到更好的分割結(jié)果,在對(duì)測(cè)試集進(jìn)行分割前也做了圖像增強(qiáng)。
將U-Net 網(wǎng)絡(luò)中的3×3 卷積替換成2×2 偶數(shù)卷積,稱這種方法為偶數(shù)卷積U-Net;在偶數(shù)卷積UNet網(wǎng)絡(luò)的基礎(chǔ)上再添加4×4偶數(shù)卷積,稱為多尺度偶數(shù)卷積U-Net;在U-Net網(wǎng)絡(luò)編碼部分的卷積中添加CBAM 模塊,稱此網(wǎng)絡(luò)為注意力U-Net。為了驗(yàn)證提出的偶數(shù)卷積、多尺度和CBAM 注意力模塊的有效性,對(duì)DRIVE 數(shù)據(jù)集進(jìn)行消融實(shí)驗(yàn),其結(jié)果如表1所示。
表1 消融實(shí)驗(yàn)Tab.1 The ablation experimental results
如表1 所示,偶數(shù)卷積U-Net 分割圖像的IOU、MIoU、PA 和參數(shù)量分別為0.752、0.748、0.9275 和5.43 MB,雖然分割性能提升并不明顯,但由于使用了2×2 偶數(shù)卷積,有效降低了U-Net 的參數(shù)量,降低后的參數(shù)量只有4.87 MB;同時(shí)采用2×2和4×4偶數(shù)卷積構(gòu)成的多尺度偶數(shù)卷積U-Net 分割圖像的IOU、MIoU、PA 和參數(shù)量分別為0.771、0.769、0.9470 和5.61 MB,相比U-Net 和偶數(shù)卷積U-Net 分割性能都有了顯著提升。雖然多尺度會(huì)不可避免的增加網(wǎng)絡(luò)的參數(shù)量,但由于使用更小的偶數(shù)卷積核,網(wǎng)絡(luò)的參數(shù)量維持在5.61 MB。與U-Net 相比,參數(shù)量幾乎不變的情況下,注意力U-Net 的分割圖像的IOU、MIoU 和PA 都有一定程度的提升,改進(jìn)的編碼部分提高了網(wǎng)絡(luò)的性能,這是因?yàn)樵黾恿薈BAM 注意力模塊后,在分割過程中通過通道和空間注意力模塊,更有針對(duì)性地提取出有用的特征信息,進(jìn)而提高了網(wǎng)絡(luò)的性能,由于CBAM 本身是輕量的注意力機(jī)制,所以加入了CBAM 注意力機(jī)制的U-Net 網(wǎng)絡(luò)參數(shù)只增長到5.52 MB,與U-Net 相比,只增加了0.09 MB??偟膩碚f,多尺度偶數(shù)卷積UNet和注意力U-Net相比,在分割性能方面多尺度偶數(shù)卷積U-Net 更占優(yōu)勢(shì),但其所需的計(jì)算開銷也會(huì)略大于注意力U-Net的計(jì)算開銷。
為了驗(yàn)證提出的MECAU-Net 網(wǎng)絡(luò)的有效性和優(yōu)越性,在DRIVE 和CHAOS 數(shù)據(jù)集上進(jìn)行分割實(shí)驗(yàn)并與U-Net、V-Net、MA-Net、MDU-Net、MultiResUNet和CE-Net進(jìn)行對(duì)比,同時(shí),為保證實(shí)驗(yàn)結(jié)果的公平性,本文在相同的實(shí)驗(yàn)環(huán)境下分別運(yùn)行這六個(gè)對(duì)比網(wǎng)絡(luò),其視覺效果如圖3和圖4所示。
圖3 是各種網(wǎng)絡(luò)在DRIVE 數(shù)據(jù)集上的分割效果圖,第一行和第三行圖片分別為在兩張示例圖片上各個(gè)網(wǎng)絡(luò)的分割結(jié)果圖,第二行和第四行分別給出了對(duì)應(yīng)的紅色框內(nèi)的細(xì)節(jié)部分,放大的細(xì)節(jié)部分都是兩張圖片中包含細(xì)節(jié)信息最多的位置。由細(xì)節(jié)部分可以看出U-Net、V-Net、MA-Net 和MDU-Net都只分割出了主體部分較粗的血管,U-Net 的分割圖中幾乎沒有分割出細(xì)節(jié)部分的血管,MultiResUNet 和CE-Net 對(duì)細(xì)節(jié)部分的處理結(jié)果稍好一點(diǎn),但提出的MECAU-Net 成功的分割出了最多的細(xì)節(jié)信息,分割效果最好。圖4是各種網(wǎng)絡(luò)在CHAOS 數(shù)據(jù)集上的分割效果,第一行和第三行為完整的分割結(jié)果圖,第二行和第四行分別給出了放大的紅色框內(nèi)部分的分割細(xì)節(jié)圖,可以看到U-Net、V-Net、MANet、MDU-Net和MultiResUNet 在分割過程中都發(fā)生了不同程度的誤判,CE-Net 的分割結(jié)果相對(duì)精確,但是提出的MECAU-Net 網(wǎng)絡(luò)對(duì)邊緣部分的處理優(yōu)于CE-Net,取得了最好的分割性能。
圖3 各種網(wǎng)絡(luò)在DRIVE數(shù)據(jù)集上的分割效果Fig.3 The visual segmentation results on the DRIVE dataset
圖4 各種網(wǎng)絡(luò)在CHAOS數(shù)據(jù)集上的分割效果Fig.4 The visual segmentation results on the CHAOS dataset
為了定量評(píng)價(jià)提出的MECAU-Net網(wǎng)絡(luò)的性能,分別對(duì)DRIVE 和CHAOS 數(shù)據(jù)集進(jìn)行分割實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果分別如表2和3所示。
表2 各種網(wǎng)絡(luò)在DRIVE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.2 The experimental results of different networks on the DRIVE dataset
從表2 可以看出,對(duì)DRIVE 數(shù)據(jù)集,U-Net 網(wǎng)絡(luò)的IOU、MIoU 和PA 分別為0.748、0.740 和0.9202,參數(shù)量為5.43 MB,預(yù)測(cè)時(shí)間為17 s,提出的MECAUNet 網(wǎng)絡(luò)的IOU、MIoU 和PA 分別為0.777、0.786 和0.9491,參數(shù)量為5.89 MB,預(yù)測(cè)時(shí)間需要19 s,和U-Net 相比,提出的MECAU-Net 的IOU、MIoU 和PA分別提升了2.89%、4.6%和2.9%,但是參數(shù)量只增長了0.46 MB,所需的預(yù)測(cè)時(shí)間也只增加了2 s。V-Net、MA-Net、MDU-Net、MultiResUNet 和CE-Net的參數(shù)量分別為8.93 MB、10.57 MB、12.33 MB、12.45 MB、15.24 MB,所需預(yù)測(cè)時(shí)間也呈遞增趨勢(shì),他們的參數(shù)量都遠(yuǎn)超過U-Net 網(wǎng)絡(luò)和提出的MECAU-Net網(wǎng)絡(luò),并且其IOU、MIoU 和PA 與V-Net、MA-Net、MDU-Net、MultiResUNet 相比都有了明顯增長,IOU、MIoU和PA分別最多提升了1.3%、3.1%和2.1%。
由表3 可以看出,對(duì)CHAOS 數(shù)據(jù)集,U-Net 的參數(shù)量為5.79 MB,預(yù)測(cè)時(shí)間為22 s,IOU、MIoU 和PA分別為0.743、0.741 和0.9172;V-Net、MA-Net、MDUNet、MultiResUNet 和CE-Net 的IOU、MIoU、PA 相較U-Net 都有提升,但MECAU-Net 網(wǎng)絡(luò)的IOU、MIoU和PA 都最高。此外,提出的MECAU-Net 的參數(shù)量相比于CE-Net 低了11.61 MB,預(yù)測(cè)時(shí)間低了65 s,但是達(dá)到了更好的分割性能。綜上所述,提出的MECAU-Net網(wǎng)絡(luò)相對(duì)于U-Net在稍微增加計(jì)算成本的情況下,分割性能取得了較大的提升,并且比其他對(duì)比算法取得了更好的分割性能的同時(shí)還降低了參數(shù)量。
表3 各種網(wǎng)絡(luò)在CHAOS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.3 The experimental results of different networks on the CHAOS dataset
本文提出了一種以更低復(fù)雜度得到更好分割性能的MECAU-Net醫(yī)學(xué)圖像分割網(wǎng)絡(luò),首先為了降低參數(shù)量引入兩個(gè)2×2 偶數(shù)卷積代替尺度更大的3×3 卷積,并且在卷積的填充部分利用對(duì)稱填充解決偏移問題。同時(shí)為了進(jìn)一步提高分割精度,借鑒多尺度思想,在整體網(wǎng)絡(luò)使用2×2 偶數(shù)卷積的基礎(chǔ)上,增加了4×4偶數(shù)卷積的分支,作為單獨(dú)通路向提出的MECAU-Net 網(wǎng)絡(luò)主體傳輸在更大感受野內(nèi)提取到的特征信息;此外,在編碼部分的卷積層嵌入CBAM 注意力模塊,進(jìn)一步提取通道和空間兩個(gè)方向上的特征圖信息,與卷積提取出的特征信息進(jìn)行融合,得到加權(quán)后的特征圖,方便更精確的提取出后續(xù)的特征信息。最后,為了進(jìn)一步驗(yàn)證提出的MECAU-Net 網(wǎng)絡(luò)的分割性能,將其和其他幾個(gè)UNet 的改進(jìn)圖像分割網(wǎng)絡(luò)在醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行分割實(shí)驗(yàn)。與其他改進(jìn)的U-Net 分割網(wǎng)絡(luò)相比,提出的MECAU-Net 網(wǎng)絡(luò)用更少的計(jì)算量得到了更好的分割結(jié)果。