王楓 呂澤均
摘? 要: 隨著人工智能和醫(yī)學(xué)大數(shù)據(jù)的發(fā)展,基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割技術(shù)因具有重要的應(yīng)用價(jià)值和前景,已經(jīng)成為目前的研究熱點(diǎn)。為了增強(qiáng)特征圖的語(yǔ)義信息,在U-net網(wǎng)絡(luò)的基礎(chǔ)上引入通道注意力機(jī)制,對(duì)U-net生成的特征逐通道進(jìn)行壓縮,將壓縮后的特征逐通道計(jì)算權(quán)重,然后將該權(quán)重與原始特征相乘得出最終的特征。通過在兩個(gè)不同器官的醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),Dice系數(shù)相較于原始U-net網(wǎng)絡(luò)分別提高了2.7%和1.8%,驗(yàn)證了該方法的可行性和有效性。
關(guān)鍵詞: 深度學(xué)習(xí); U-net網(wǎng)絡(luò); 通道注意力機(jī)制; 醫(yī)學(xué)圖像分割
中圖分類號(hào):TP391? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A? ? ?文章編號(hào):1006-8228(2021)05-64-04
Medical image segmentation method based on channel attention mechanism and U-net
Wang Feng, Lv Zejun
(College of Computer Science (College of Software), Sichuan University, Chengdu, Sichuan 610000, China)
Abstract: With the development of artificial intelligence and medical big data, medical image segmentation technology based on deep learning, for its important application value and prospects, has become a current research hotspot. In order to enhance the semantic information of the feature map, a channel attention mechanism is introduce for U-net network to compress the features generated by U-net channel by channel, calculate the weights of the compressed features channel by channel, and then get the final features by multiplying the weights by the original features. The experiment on medical image data set of two different organs show that the Dice coefficient is increased by 2.7% and 1.8% respectively compared with the original U-net network, which verifies the feasibility and effectiveness of the method.
Key words: deep learning; U-net network; channel attention mechanism; medical image segmentation
0 引言
醫(yī)學(xué)圖像分割是醫(yī)學(xué)圖像分析領(lǐng)域的關(guān)鍵步驟,它將醫(yī)學(xué)圖像中具有特殊含義的部分分割出來并提取相關(guān)特征,目的是為臨床診斷提供參考數(shù)據(jù),輔助醫(yī)生做出更加準(zhǔn)確的診斷和治療方案[1]。由于醫(yī)學(xué)圖像具有不均勻、模糊、差異性等特點(diǎn),對(duì)醫(yī)學(xué)圖像分割帶來了較大的困難和挑戰(zhàn)。因此,研究并找出更好的醫(yī)學(xué)圖像分割方法,提升醫(yī)學(xué)圖像分割技術(shù)水平,對(duì)于整個(gè)醫(yī)療領(lǐng)域和人工智能領(lǐng)域都具有重要的意義,對(duì)社會(huì)的發(fā)展和進(jìn)步也具有不可替代的作用。
近年來,隨著深度學(xué)習(xí)方法的迅速發(fā)展,基于深度學(xué)習(xí)的圖像分割算法在醫(yī)學(xué)圖像分割任務(wù)中取得顯著的成就。全卷積神經(jīng)網(wǎng)絡(luò)FCN是第一次將端到端的卷積網(wǎng)絡(luò)推廣到了語(yǔ)義分割的任務(wù)當(dāng)中,隨后被廣泛使用和研究。例如Zhang等人[2]利用原始大腦的 MR 圖像訓(xùn)練粗糙分割的FCN模型,檢測(cè)出腫瘤的整體區(qū)域,再使用腫瘤區(qū)域作為訓(xùn)練樣本訓(xùn)練最終分割得到腦腫瘤的內(nèi)部結(jié)構(gòu)。但由于FCN模型忽略了像素與像素之間的關(guān)系,使其檢測(cè)結(jié)果不夠精細(xì)。而U-Net模型是在此基礎(chǔ)上對(duì)FCN的改進(jìn),比如Vittikop等人[3]使用U-Net網(wǎng)絡(luò)對(duì)腦腫瘤MR圖像進(jìn)行分割,通過跳躍連接融合了淺層和深層的圖像特征信息,取得較好的效果,提高了分割精度。U-Net對(duì)經(jīng)過多次下采樣得到的低分辨率信息和從編碼器直接傳遞到同高度解碼器上的高分辨率信息結(jié)合起來,可以更好的適用于邊界模糊、梯度復(fù)雜的醫(yī)學(xué)圖像。然而該方法平等對(duì)待輸出特征的每一個(gè)通道,從而缺少處理不同類型信息的靈活度。
為了解決上述問題,本文在U-net網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上引入通道注意力機(jī)制。研究表明[4],注意力機(jī)制能夠加強(qiáng)網(wǎng)絡(luò)對(duì)重要特征的關(guān)注度,增強(qiáng)特征圖的語(yǔ)義信息,在復(fù)雜度和計(jì)算量不變的基礎(chǔ)上可以有效提高網(wǎng)絡(luò)的分割精度。本文中的通道注意力機(jī)制主要分為三個(gè)部分,首先是特征壓縮部分,該部分將U-Net輸出的特征逐通道進(jìn)行壓縮;其次是通道權(quán)重模塊,通過兩層全連接層計(jì)算特征各個(gè)維度的權(quán)重,對(duì)應(yīng)原始特征各個(gè)通道的權(quán)重;最后通過殘差機(jī)制,將各個(gè)通道的權(quán)重與原始特征逐通道相乘。通過上述機(jī)制,將原始的特征逐通道根據(jù)通道權(quán)重進(jìn)行區(qū)別對(duì)待,從而增加特征中的所包含的語(yǔ)義信息,提高U-Net網(wǎng)絡(luò)的性能。經(jīng)過在不同器官的醫(yī)學(xué)圖像分割數(shù)據(jù)集3Dircadb[5]和Bound-archieve中的實(shí)驗(yàn),結(jié)果表明,本文方法的性能高于原始U-net網(wǎng)絡(luò)的性能。
1 基于U-net的和通道注意力機(jī)制醫(yī)學(xué)圖像分割技術(shù)
1.1 U-net網(wǎng)絡(luò)
為了充分利用高分辨信息用于精準(zhǔn)分割以及分割目標(biāo)在人體圖像中的分布很具有規(guī)律,簡(jiǎn)單明確的語(yǔ)義信息,Olaf Ronneberger等人[6]提出了U-net網(wǎng)絡(luò)結(jié)構(gòu),通過U形網(wǎng)絡(luò)結(jié)構(gòu)和跳級(jí)連接實(shí)現(xiàn)語(yǔ)義信息與圖像高分辨率信息進(jìn)行融合,能夠很好的適用于醫(yī)學(xué)圖像任務(wù)。文獻(xiàn)[7]中使用基于改進(jìn)后的3D-Unet醫(yī)學(xué)圖像處理模型對(duì)上一步驟生成的結(jié)果進(jìn)行分類,剔除假陽(yáng)性的候選,保留真正的結(jié)節(jié),實(shí)現(xiàn)對(duì)輸入的胸部CT圖像進(jìn)行肺結(jié)節(jié)檢測(cè)。文獻(xiàn)[8]利用U-net網(wǎng)絡(luò)對(duì)直腸癌CT影像進(jìn)行智能分割,同時(shí)加入圖像增強(qiáng)、批歸一化等方法緩解過擬合現(xiàn)象,最終在驗(yàn)證集上的Dice系數(shù)達(dá)到0.9329,驗(yàn)證了U-net的具有優(yōu)越的圖像分割效果。
U-net網(wǎng)絡(luò)包括兩部分,收縮路徑和擴(kuò)張路徑。收縮路徑用來獲取上下文信息,減少特征圖的空間維度,增加特征通道數(shù)量。分為四個(gè)階段,每一階段接受一個(gè)輸入后經(jīng)過兩個(gè)3*3的卷積層,并且使用修正線性單元激活函數(shù)進(jìn)行激活,然后進(jìn)行下采樣,經(jīng)過步長(zhǎng)為2的2*2的最大池化操作。每個(gè)階段后,特征通道的數(shù)量都會(huì)加倍。擴(kuò)張路徑是網(wǎng)絡(luò)的核心,用來對(duì)任務(wù)目標(biāo)的精確定位。與左邊對(duì)稱同樣分為四個(gè)階段,使用上采樣來恢復(fù)目標(biāo)細(xì)節(jié)和空間維度。每個(gè)階段過后特征圖的大小加倍,特征數(shù)量減半。最后通過一個(gè)1*1的卷積操作,將64通道的特征圖轉(zhuǎn)換成類別數(shù)為2的特征圖,再經(jīng)過 sigmoid 函數(shù)輸出一個(gè)概率值,該值反映預(yù)測(cè)結(jié)果的可能性,概率越大則可能性越大[9]。
1.2 通道注意力機(jī)制
在計(jì)算能力有限情況下,注意力機(jī)制是解決信息超載問題的主要手段的一種資源分配方案,將計(jì)算資源分配給更重要的任務(wù)。通過注意力機(jī)制[4]可以加強(qiáng)網(wǎng)絡(luò)對(duì)重要特征的關(guān)注度,在復(fù)雜度和計(jì)算量不變的基礎(chǔ)上可以提高網(wǎng)絡(luò)的分割精度,在特征提取、分類、檢測(cè)、分割等處理中廣泛應(yīng)用。文獻(xiàn)[10]通過顯式地建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道的特征響應(yīng),該方法思想簡(jiǎn)單,易于實(shí)現(xiàn),并且很容易可以加載到現(xiàn)有的網(wǎng)絡(luò)模型框架中。文獻(xiàn)[11]依次應(yīng)用通道和空間注意模塊,強(qiáng)調(diào)空間和通道這兩個(gè)維度上的有意義特征,提高關(guān)注點(diǎn)的表示。通過針對(duì)不同尺度的圖像動(dòng)態(tài)生成卷積核的方式,文獻(xiàn)[12]在超分辨率任務(wù)上有很大提升,并且在分類任務(wù)中也有很好的表現(xiàn)。
文獻(xiàn)[10]中提出了一種新的架構(gòu)單元,“Squeeze-and-Excitation”(SE)塊,通過顯式地建模通道之間的相互依賴關(guān)系,自適應(yīng)地重新校準(zhǔn)通道式的特征響應(yīng),通過這種機(jī)制可以學(xué)習(xí)使用全局信息來選擇性地強(qiáng)調(diào)信息特征并抑制冗余的信息特征。受此啟發(fā),本文設(shè)計(jì)了一種新的通道注意力機(jī)制,具體的結(jié)構(gòu)如圖1所示。首先輸入網(wǎng)絡(luò)提取的圖像特征[f∈Rc×h×w],然后經(jīng)全局特征提取后,將特征的形狀轉(zhuǎn)換為[f1∈Rc×1×1],其次經(jīng)過通道權(quán)值計(jì)算模塊計(jì)算[f1]中每個(gè)元素的權(quán)值,該權(quán)值即為輸入特征通道的權(quán)值,最后將該權(quán)值與輸入特征逐通道相乘,計(jì)算出最終加權(quán)后的特征[f3∈Rc×h×w],為輸出的特征。
為了計(jì)算特征通道的依賴關(guān)系,需要統(tǒng)計(jì)輸入特征中的每個(gè)通道矩陣最具代表性的描述,使該描述能夠保留該特征的全局信息,因此提出了全局特征模塊,該模塊形式化表示為公式⑴,其中,[pool?]為全局特征提取函數(shù),這里采用池化函數(shù)實(shí)現(xiàn),包括最大池化和平均池化。其中平均池化能夠最大限度的保留特征的全局信息,而最大池化能夠提取最具代表性的特征。
[f1=poolf] ⑴
為了充分利用特征壓縮后的信息,接下來需要計(jì)算特征通道之間的相關(guān)性,該操作分為兩個(gè)步驟,首先對(duì)特征[f1]進(jìn)行公式⑵的計(jì)算,得出壓縮后的特征[f2]:
[f2=h1w1*f1+b1]? ⑵
其中,[h1]為relu激活函數(shù),使特征值限制在(0,1)范圍內(nèi)。[w1∈RC×C/r],[b1∈RC/r],其中r為衰減系數(shù)。然后需要對(duì)特征[f2],進(jìn)行公式⑶計(jì)算,得出通道權(quán)重atte:
[atte=h2w2*f2+b2]? ⑶
其中,[h2]為sigmoid激活函數(shù),[w2∈RC/r×C],[b2∈RC]。最終通過公式(4)得出輸出特征[f3],其中c表示[f3]的第c個(gè)通道。
[f3c,:,:=attec*f2c,:,:]? ⑷
1.3 整體框架
圖2顯示的即為本文所設(shè)計(jì)的網(wǎng)絡(luò)結(jié)構(gòu)圖,將U-net的每一層提取的特征,送入通道注意力模塊,得出混合通道之間依賴關(guān)系的特征。加入注意力機(jī)制的U-net網(wǎng)絡(luò)可以在特征提取的過程中把注意力集中在關(guān)鍵特征上,抑制其他無關(guān)特征,將U-net輸出的特征逐通道進(jìn)行壓縮,然后計(jì)算每個(gè)通道的權(quán)重再將權(quán)重與原始特征通道相乘,由此區(qū)別對(duì)待不同的特征通道,增強(qiáng)了特征中的語(yǔ)義信息,從而提高醫(yī)學(xué)圖像的分割效果。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集
本次實(shí)驗(yàn)將使用兩個(gè)不同器官的醫(yī)學(xué)圖像數(shù)據(jù)集進(jìn)行驗(yàn)證實(shí)驗(yàn),以檢測(cè)本文提出的模型在不同數(shù)據(jù)集上的表現(xiàn)效果。第一個(gè)數(shù)據(jù)集是3D-IRCADb-01數(shù)據(jù)庫(kù)[5],包含20例肝臟三維CT掃描圖像男女各10例),其中75%為患有肝腫瘤的患者。部分患者病例的相關(guān)信息如圖3所示。第二個(gè)數(shù)據(jù)集是一組肺部的CT影像,包含ID從000到266總共267位患者的肺部影像。每個(gè)圖片的具體信息如圖4所示。
2.2 實(shí)驗(yàn)結(jié)果與分析
本文的實(shí)驗(yàn)在肝臟3Dircadb和肺部Bound-archieve兩個(gè)數(shù)據(jù)集中進(jìn)行,將數(shù)據(jù)集中的每張圖像的尺寸resize為256×256,數(shù)據(jù)集的前80%作為訓(xùn)練集來訓(xùn)練模型,后20%作為測(cè)試集驗(yàn)證模型。實(shí)驗(yàn)所用的設(shè)備為CPU: Intel Core i7-9700K,GPU: GTX 1080Ti,RAM:16GB。使用Python3.6,Pytorch1.1.0實(shí)現(xiàn)。為了驗(yàn)證本文所提出的方法的有效性,本文稱加入通道注意力機(jī)制的模型為(Ours),與原始模型U-net進(jìn)行了對(duì)比實(shí)驗(yàn),采用SGD優(yōu)化網(wǎng)絡(luò),初始學(xué)習(xí)率為0.001,進(jìn)行10次迭代后,學(xué)習(xí)率衰減為原來的百分之一,同時(shí)本文模型的衡量指標(biāo)采用較為通用的Dice系數(shù),經(jīng)過上述訓(xùn)練過程,實(shí)驗(yàn)結(jié)果如表1所示。
表1中,Ours-avgpool表示公式(1)中使用的pool操作為平均池化,Ours-maxpool表示公式(2)中使用的pool為最大池化。由表1所示,在肝臟數(shù)據(jù)集中U-net的精度為0.8456,而對(duì)加入了注意力機(jī)制模塊的本文模型精度來說,使用平均池化操作的精度為0.8725,使用最大池化操作的精度為0.8726;在肺部數(shù)據(jù)集中U-net的精度為0.8925,而對(duì)于本文模型的精度來說,使用平均池化操作的精度為0.9082,使用最大池化操作的精度為0.9098。由此得出,本文方法的精度均明顯高于原始U-net網(wǎng)絡(luò),另外最大池化操作的精度略高于平均池化,由此可以驗(yàn)證本文方法相比于原始U-net網(wǎng)絡(luò)具有更加良好的分割效果,達(dá)到了預(yù)期優(yōu)化目標(biāo)。
為了展示更明顯的效果,圖5顯示了部分分割樣例。從圖中可以看出,利用本文方法進(jìn)行分割得到的預(yù)測(cè)結(jié)果相比于數(shù)據(jù)集中由醫(yī)生手工標(biāo)注的結(jié)果,在整體形狀和位置上都已十分接近,且相對(duì)于手工標(biāo)注的邊界更為圓滑,對(duì)于局部的圖像信息也展現(xiàn)的較為詳細(xì)和清晰,線條相對(duì)逼真和準(zhǔn)確,基本能夠達(dá)到和醫(yī)生手工標(biāo)注同樣的效果,能夠?qū)︶t(yī)療診斷起到一定的輔助作用。
3 結(jié)束語(yǔ)
本文在U-net的基礎(chǔ)上,提出了引入注意力機(jī)制模塊的基于U-net網(wǎng)絡(luò)的醫(yī)學(xué)圖像分割算法,借助神經(jīng)注意力機(jī)制專注輸入子集的能力,選擇特定的輸入,在計(jì)算能力有限的情況下,將計(jì)算資源分配給較為重要的任務(wù)。與此同時(shí)在兩個(gè)不同的醫(yī)學(xué)圖像數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明本文提出的方法可以更好地對(duì)醫(yī)學(xué)圖像分割進(jìn)行處理操作,相比于基本的U-net網(wǎng)絡(luò),圖像分割效果更好,精度更高,訓(xùn)練速度相對(duì)較快,同時(shí)也具有一定的通用性,對(duì)于以后用于臨床輔助診斷也有一定的參考價(jià)值。但實(shí)驗(yàn)中也存在一些不足,預(yù)測(cè)的器官輪廓不夠細(xì)致,且模型容易出現(xiàn)過擬合,主要因?yàn)橛舍t(yī)生標(biāo)記好的醫(yī)學(xué)圖像數(shù)據(jù)較少,導(dǎo)致模型的訓(xùn)練樣本量不夠大,以后將增加樣本數(shù)據(jù)量,并使用圖像增強(qiáng)技術(shù),優(yōu)化模型。
參考文獻(xiàn)(References):
[1] Patil D D, Deore S G. Medical Image Segmentation: AReview[J]. International Journal of Computer Science & Mobile Computing,2013.2(1).
[2] ZHANG C, FANG M, NIE H. Brain tumor segmentationusing fully convolutional networks from magnetic resonance imaging[J]. Journal of Medical Imaging and Health Informatics,2018.8:1546-1553
[3] VITTIKOP B S, DHOTRE S R. Automatic segmentation ofMRI images for brain tumor using unet[C]//2019 1st International Conference on Advances in Information Technology (ICAIT). Chikmagalur, India, IEEE,2019:507-511
[4] Snyder D, Garcia-Romero D, Povey D, et al. Deep neuralnetwork embeddings for text- independent speaker verification[C]//Conference of the International Speech Communication Association. Interspeech,2017:999-1003
[5]張睿,吳水才,周著黃等.基于增強(qiáng)CT圖像的肝臟血管三維分割方法研究[J].中國(guó)醫(yī)療設(shè)備,2017.32(11):48-54
[6] Ronneberger 0. Invited Talk: U-Net ConvolutionalNetworks for Biomedical? Image Segmentation[J].2015,9351:234-241
[7] 陳星宇.基于改進(jìn)后的3D-Unet肺結(jié)節(jié)圖像檢測(cè)研究[J].科技資訊,2020.18(24):217-219
[8] 譚俊杰,鐘妤,黃澤斌.基于U-net的直腸癌智能分割[J].計(jì)算機(jī)時(shí)代,2020.8:18-20,26
[9] 魏小娜,邢嘉祺,王振宇,王穎珊,石潔,趙地,汪紅志.基于改進(jìn)U-Net網(wǎng)絡(luò)的關(guān)節(jié)滑膜磁共振圖像的分割[J].計(jì)算機(jī)應(yīng)用,2020:1-7
[10] Hu J, Shen L, Sun G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018:7132-7141
[11] Woo S, Park J, Lee J Y, et al. Cbam: Convolutional blockattention module[C]//Proceedings of the European conference on computer vision (ECCV),2018:3-19
[12] Li X, Wang W, Hu X, et al. Selective kernel networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2019:510-519