黃 莉,何美玲*
(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.湖北省智能信息處理與實(shí)時(shí)工業(yè)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430065)
腦膠質(zhì)瘤是最為多見(jiàn)的原發(fā)性腦腫瘤,絕大多數(shù)屬惡性,具有很高的致死率,早發(fā)現(xiàn)與早治療往往能夠延長(zhǎng)患者的平均壽命。在臨床中,核磁共振成像(Magnetic Resonance Imaging,MRI)技術(shù)是最常用的腦腫瘤診斷技術(shù),可以準(zhǔn)確描繪腫瘤區(qū)域。但是由于病人MRI圖像數(shù)量巨大,醫(yī)生手動(dòng)標(biāo)注腦腫瘤區(qū)域耗時(shí)且效率低下,因此基于深度學(xué)習(xí)的自動(dòng)腦腫瘤分割方法在輔助醫(yī)生診斷及確定治療手段等方面具有重要意義。
醫(yī)學(xué)圖像分割[1-4]作為圖像分割的一類,是計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向。其主要研究?jī)?nèi)容是通過(guò)計(jì)算機(jī)把圖像分成若干個(gè)特定的、具有獨(dú)特性質(zhì)的區(qū)域[5-7]。傳統(tǒng)的圖像分割算法主要包括圖像預(yù)處理、圖像特征提取和目標(biāo)區(qū)域分割三個(gè)步驟,其中圖像特征提取是圖像分割算法中最核心的部分,該部分所提取的特征的優(yōu)劣直接影響到圖像分割的性能。傳統(tǒng)的圖像分割算法在特征提取模塊提取的特征對(duì)目標(biāo)邊界區(qū)域具有較大的冗余性和不精確性,從而會(huì)導(dǎo)致分割不精準(zhǔn),并且也不具有很好的泛化能力,因此研究者們提出了許多神經(jīng)網(wǎng)絡(luò)模型來(lái)解決上述問(wèn)題。
一種方法是引入自注意力機(jī)制,通過(guò)在特征圖提取階段引入自注意力,網(wǎng)絡(luò)能夠更好地關(guān)注與圖像類別相關(guān)的區(qū)域,捕獲目標(biāo)的邊界空間信息。但是僅依靠自注意力機(jī)制,網(wǎng)絡(luò)缺乏對(duì)于邊界細(xì)節(jié)信息的學(xué)習(xí)。另一種是引入多尺度策略,由于圖像經(jīng)過(guò)多層卷積和池化操作,丟失了大量的細(xì)節(jié)信息,從而導(dǎo)致卷積網(wǎng)絡(luò)及其改進(jìn)模型所提取的特征往往表征能力不足。因此引入多尺度策略,用來(lái)最大程度地保留細(xì)節(jié)信息。但是僅依靠多尺度策略,網(wǎng)絡(luò)缺乏對(duì)于目標(biāo)邊界空間信息的學(xué)習(xí)。
因此,該文提出了一種基于自注意力機(jī)制和多尺度策略的U-Net來(lái)解決上述問(wèn)題。該方法將編碼器模塊每層卷積得到的特征圖保留,對(duì)其計(jì)算通道注意力來(lái)獲得自注意力圖,然后將得到的自注意力圖通過(guò)設(shè)計(jì)的尺度融合模塊組成多尺度特征圖,替代網(wǎng)絡(luò)原本的特征圖,提高神經(jīng)網(wǎng)絡(luò)模型的特征提取能力,從而提高分割性能。在BRATS2017數(shù)據(jù)集上的實(shí)驗(yàn)證明了該模型的有效性。
人類會(huì)選擇性地使用數(shù)據(jù)中的重要部分來(lái)做出決策,類似地,人類在查看一張圖像時(shí),往往只會(huì)關(guān)注其中最重要的部分,而不是關(guān)注圖像整體,此過(guò)程稱之為注意力機(jī)制。自注意力機(jī)制是注意力機(jī)制的改進(jìn),其減少了對(duì)外部信息的依賴,更擅長(zhǎng)捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性,現(xiàn)階段被廣泛應(yīng)用于大量計(jì)算機(jī)視覺(jué)任務(wù)中[8-11]。文獻(xiàn)[12]提出了DANET,將自注意力機(jī)制用于場(chǎng)景分割,在特征的空間維度和通道維度分別抓取特征之間的全局依賴關(guān)系,增強(qiáng)特征的表達(dá)能力,然而它由兩個(gè)并列的注意力模塊組成,因此計(jì)算量較大。文獻(xiàn)[13]針對(duì)自注意力占用GPU內(nèi)存大和計(jì)算量大的問(wèn)題提出了CCNET,它只關(guān)注每個(gè)像素點(diǎn)所在的行與列的權(quán)重,循環(huán)兩次后便能達(dá)到與自注意力機(jī)制一樣的效果,進(jìn)而能減少計(jì)算量,但因?yàn)橹魂P(guān)注了所在行與列從而忽略了部分空間信息。除此之外,文獻(xiàn)[14]提出的ISSA采用交錯(cuò)機(jī)制與自注意力機(jī)制結(jié)合的方式來(lái)獲得任意兩個(gè)位置的依賴關(guān)系,其主要思想是將密集相似矩陣分解為兩個(gè)稀疏相似矩陣的乘積。文獻(xiàn)[15-17]采用通道注意力機(jī)制,通過(guò)建模各個(gè)特征通道的重要程度,然后針對(duì)不同任務(wù)來(lái)增強(qiáng)或抑制不同的通道。在計(jì)算量與模型復(fù)雜度一樣的情況下,使用通道級(jí)注意力的方法在所有注意力的方法中達(dá)到了最好效果,因而文獻(xiàn)[18]采用通道級(jí)的注意力獲得自注意力圖來(lái)增強(qiáng)邊界空間信息進(jìn)而提升目標(biāo)定位精度。
目前大多數(shù)語(yǔ)義分割網(wǎng)絡(luò)都采用的是編碼器-解碼器結(jié)構(gòu),傳統(tǒng)的U-Net[19]將圖像輸入到編碼器,獲取編碼器中最后一層的特征圖后,輸入到解碼器中進(jìn)行解碼。雖然最后一層的特征圖含有最豐富的語(yǔ)義信息,但其缺少相應(yīng)的細(xì)節(jié)信息,導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)不充分,進(jìn)而出現(xiàn)過(guò)分割和欠分割的問(wèn)題。為了解決這一問(wèn)題,Relay-NET[20]通過(guò)引入跳連接機(jī)制來(lái)保證關(guān)鍵位置信息的保存,進(jìn)而提升分割性能,但對(duì)于目標(biāo)邊界信息仍會(huì)有丟失。為了解決目標(biāo)邊界信息會(huì)丟失的問(wèn)題,文獻(xiàn)[21-23]通過(guò)在傳統(tǒng)網(wǎng)絡(luò)中引入多尺度策略來(lái)增強(qiáng)目標(biāo)邊界信息的特征提取,進(jìn)而提升任務(wù)精度。全監(jiān)督方法[24]證明通過(guò)引入較低級(jí)別的特征可以進(jìn)一步加強(qiáng)細(xì)節(jié)特征與邊界特征的獲取。隨著多尺度的進(jìn)一步研究,多尺度特征融合策略引入了上下文相關(guān)的組合,以共同探索高級(jí)特征和低級(jí)特征的優(yōu)勢(shì)。文獻(xiàn)[25]合并了多尺度特征進(jìn)行語(yǔ)義分割,獲得了更準(zhǔn)確的結(jié)果。文獻(xiàn)[26]將多尺度策略成功應(yīng)用到類激活圖中,在編碼部分采用多尺度策略來(lái)獲得精確的顯著性圖。
由此,該文將自注意力機(jī)制和多尺度策略相結(jié)合,提出了一種新的U-Net,借助自注意力機(jī)制獲取目標(biāo)邊界空間信息,在編碼器部分采用多尺度策略使輸入到解碼器的特征圖包含邊界細(xì)節(jié)信息,從而提高圖像分割的性能。
提出的U-Net-AMS(U-Net with Attention and Multiple Scale)模型是基于U-Net[19]的改進(jìn)模型。主要改進(jìn)是使用自注意力機(jī)制處理每層編碼器得到的特征圖,然后將特征圖通過(guò)多尺度融合模塊進(jìn)行融合作為解碼器輸入,增強(qiáng)編碼器對(duì)分割目標(biāo)邊界信息的特征表達(dá)能力,提高分割準(zhǔn)確度。
U-Net-AMS模型整體呈U型結(jié)構(gòu),如圖1所示。主要分為三步:多尺度特征圖的獲取、特征圖信息加強(qiáng)、特征圖的融合。多尺度特征圖的獲取是通過(guò)保留編碼器的所有特征圖實(shí)現(xiàn)的,來(lái)最大程度地捕獲分割目標(biāo)的邊界細(xì)節(jié)信息;特征圖信息加強(qiáng)是采用自注意力模塊SAM(Self Attention Module)實(shí)現(xiàn)的,SAM模塊采用通道注意力機(jī)制計(jì)算特征圖的自注意力圖,使用sigmoid激活函數(shù)來(lái)加強(qiáng)分割目標(biāo)邊界的空間信息。特征圖融合模塊是通過(guò)尺度融合模塊SDS(Scaling and Downsampling)實(shí)現(xiàn)的,對(duì)特征圖的尺度和通道進(jìn)行歸一化,基于通道進(jìn)行融合。
從上述過(guò)程可知,U-Net-AMS使用自注意力機(jī)制和特征圖融合獲取了包含豐富細(xì)節(jié)和語(yǔ)義信息的特征圖,最終將融合特征圖作為解碼器的輸入來(lái)提升目標(biāo)分割精度。
(1)
其中,i表示縱向的位置,j表示橫向的位置,Hn×Wn表示Fn中每個(gè)通道特征圖的所有像素?cái)?shù)量,un表示第n張?zhí)卣鲌D的像素集合。
(2)
(3)
其中,?表示逐元素相乘,經(jīng)過(guò)上述過(guò)程,特征圖邊緣區(qū)域的差別更加明顯,可以更好地提取空間信息特征,從而提高邊緣區(qū)域的分割效果。
文中方法是通過(guò)將編碼器的所有特征圖保留,采用自注意力模塊處理,來(lái)加強(qiáng)對(duì)邊界信息的提取能力,進(jìn)而使用SDS模塊歸一化特征圖的尺度與通道數(shù),最后將處理后的特征圖基于通道進(jìn)行融合,最大程度保留分割目標(biāo)的邊界信息。設(shè)計(jì)的整個(gè)流程可以看作是特征融合的操作,其目的是使輸入到解碼器中的特征圖包含豐富的分割目標(biāo)邊界信息。
實(shí)驗(yàn)在一個(gè)高性能服務(wù)器集群上運(yùn)行,管理平臺(tái)為kubesphere工作站,核心服務(wù)器配置為linux,操作系統(tǒng)為centos,工作站配備Intel(R) Xeon(R) CPU E5-2660 v4處理器,主頻2.00 GHz,內(nèi)存32G。實(shí)驗(yàn)使用Pytorch深度學(xué)習(xí)框架,使用的IDE為JetBrains公司的Pycharm,編程語(yǔ)言為Python。Pytorch是由Facebook公司開(kāi)發(fā)的一個(gè)開(kāi)源的Python深度學(xué)習(xí)庫(kù),通過(guò)使用Pytorch搭建平臺(tái),用戶可以調(diào)用相關(guān)的第三方開(kāi)源函數(shù)工具包。
該文采用BRATS2017腦腫瘤分割數(shù)據(jù)集[27],該數(shù)據(jù)集提供了帶注釋的低等級(jí)神經(jīng)膠質(zhì)瘤(Low Grade Gliomas,LGG)和高等級(jí)神經(jīng)膠質(zhì)瘤(High Grade Glioblastomas,HGG)。BRATS2017由210個(gè)HGG和75個(gè)LGG病例組成,圖像尺寸為256×256。BRATS2017數(shù)據(jù)集采用的MRI圖像來(lái)自19家研究機(jī)構(gòu),并通過(guò)不同的磁場(chǎng)強(qiáng)度和MRI掃描儀獲得,由四位專家進(jìn)行手動(dòng)標(biāo)注。
3.1.1 預(yù)處理
為了改善圖像的質(zhì)量,避免對(duì)網(wǎng)絡(luò)性能造成影響,使用中值濾波(median filter)去噪算法進(jìn)行預(yù)處理。通過(guò)把圖像中的某一點(diǎn)用它鄰域中各點(diǎn)值的中值進(jìn)行替換,讓該點(diǎn)周圍的像素值盡可能地接近真實(shí)值,從而去除多余的噪聲點(diǎn),最大程度地減少噪聲對(duì)圖像的干擾。圖4中顯示了預(yù)處理前后的腦腫瘤圖像。
3.1.2 數(shù)據(jù)增強(qiáng)
為了使網(wǎng)絡(luò)更好地學(xué)習(xí)目標(biāo)的所有特征,并同時(shí)增強(qiáng)網(wǎng)絡(luò)的魯棒性,引入數(shù)據(jù)增強(qiáng)到網(wǎng)絡(luò)的訓(xùn)練中。該文采用隨機(jī)水平翻移和隨機(jī)旋轉(zhuǎn)兩種圖像增強(qiáng)方法處理訓(xùn)練集中的圖像和圖像掩碼。訓(xùn)練集包含665張?jiān)紙D像和圖像掩碼;測(cè)試集包含332張?jiān)紙D像和圖像掩碼;所有圖像大小統(tǒng)一為256×256,并且都經(jīng)過(guò)相同的數(shù)據(jù)預(yù)處理。
在腦腫瘤的分割中,若模型分割的結(jié)果(A)與專家標(biāo)注的圖像區(qū)域(B)相同則該像素點(diǎn)為真陽(yáng)性(TP),反之為假陽(yáng)性(FP);對(duì)于圖像背景區(qū)域,若分割結(jié)果的像素點(diǎn)與標(biāo)注圖像相同則該像素點(diǎn)為真陰性(TN),反之為假陰性(FN)。
為了定量分析網(wǎng)絡(luò)模型的分割結(jié)果并且更好地與其他方法進(jìn)行對(duì)比,該文采用Dice、靈敏度(SE)和特異性(SP)這三個(gè)通用指標(biāo)來(lái)客觀評(píng)價(jià)模型對(duì)腦腫瘤的分割效果。以上指標(biāo)計(jì)算公式如下:
(4)
(5)
(6)
優(yōu)化方法采用隨機(jī)梯度下降(Stochastic Gradient Descent,SGD),訓(xùn)練批次設(shè)定為200,測(cè)試批次設(shè)定為50,學(xué)習(xí)率初始化0.002,編碼器卷積層數(shù)N設(shè)置為4,采用Dice損失函數(shù)訓(xùn)練網(wǎng)絡(luò)。
3.4.1 消融實(shí)驗(yàn)
為了證明多尺度策略和自注意力機(jī)制的有效性和必要性,進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表1所示,表明提出的模型的分割能力和自注意力機(jī)制以及多尺度策略相關(guān)。
表1 是否添加SAM模塊和SDS模塊的消融實(shí)驗(yàn)
3.4.2 不同分割方法的分析
為了驗(yàn)證提出的 U-Net-AMS模型的有效性,與RelayNet[20]、U-Net[19]、ResUNet[28]和SGNet[29]四種分割網(wǎng)絡(luò)進(jìn)行對(duì)比實(shí)驗(yàn)。采用相同的網(wǎng)絡(luò)訓(xùn)練參數(shù),利用驗(yàn)證集對(duì)訓(xùn)練好的模型性能進(jìn)行測(cè)試。采用Dice系數(shù)進(jìn)行分割效果評(píng)估,列出了三種病變Dice值以及平均Dice值,實(shí)驗(yàn)結(jié)果如表2所示。
表2 U-Net-AMS與其他網(wǎng)絡(luò)分割性能的對(duì)比 (Dice)
其中,Lesion1表示水腫區(qū)域,Lesion2表示增強(qiáng)腫瘤區(qū)域,Lesion3表示壞死腫瘤區(qū)域。所提方法在三種病變組織的Dice上均有提升,并且在平均Dice上取得了最高值。實(shí)驗(yàn)表明,文中模型通過(guò)引入自注意力機(jī)制和多尺度策略,能最大程度地保留分割目標(biāo)的邊界信息,有效提升網(wǎng)絡(luò)對(duì)輸入圖像特征的提取能力,進(jìn)而提高分割精準(zhǔn)度。
圖5選擇5個(gè)不同的腦腫瘤圖像分割結(jié)果進(jìn)行展示,從左到右依次是原始圖像、專家標(biāo)注、U-Net-AMS、RelayNet、ResUNet、SGNet和U-Net的分割結(jié)果圖像??梢钥闯?,對(duì)比第二列的專家標(biāo)注,文中方法的分割結(jié)果與其更加接近。這表明通過(guò)引入自注意力機(jī)制和多尺度策略能夠有效提升網(wǎng)絡(luò)對(duì)目標(biāo)的分割精度。
針對(duì)醫(yī)學(xué)影像分割特點(diǎn)和腦腫瘤分割不精準(zhǔn)的問(wèn)題,提出了一種融合自注意力機(jī)制和多尺度策略的方法,確保分割目標(biāo)的邊界信息最大程度地保留。在BRATS2017數(shù)據(jù)集上通過(guò)實(shí)驗(yàn)證實(shí),該方法可以更大程度地提高神經(jīng)網(wǎng)絡(luò)模型對(duì)目標(biāo)的分割精度。在今后的工作中,進(jìn)一步提高網(wǎng)絡(luò)分割性能,同時(shí)減少網(wǎng)絡(luò)模型對(duì)計(jì)算資源的需求還有待研究。