謝娟英,夏 琴
(陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院, 陜西 西安 710119)
2019年12月新型冠狀病毒肺炎(corona virus disease 2019,COVID-19)疫情暴發(fā),感染人數(shù)迅速增長(zhǎng)[1]。截至2021年9月,全球累計(jì)確診新冠肺炎人數(shù)達(dá)2.2億,其中死亡人數(shù)達(dá)458萬(wàn),確診和死亡人數(shù)呈現(xiàn)持續(xù)快速增長(zhǎng)趨勢(shì)[2-3]。依據(jù)《新型冠狀病毒肺炎診療方案(試行第七版)》[4],肺部影像的診斷結(jié)果可作為新冠肺炎患者的評(píng)判標(biāo)準(zhǔn),新冠肺炎患者肺部影像早期呈現(xiàn)多發(fā)小斑片影及間質(zhì)改變,進(jìn)而發(fā)展為雙肺多發(fā)浸潤(rùn)影、磨玻璃影,嚴(yán)重的患者出現(xiàn)胸腔積液少見(jiàn)、肺實(shí)變等。放射科醫(yī)生通過(guò)查看肺部影像,結(jié)合臨床信息,發(fā)現(xiàn)異常之處,從而診斷出新冠肺炎患者。
作為一種常見(jiàn)的醫(yī)學(xué)放射成像方式,計(jì)算機(jī)斷層掃描(computed tomography,CT)是醫(yī)生診斷肺炎的重要手段[5]。醫(yī)生通過(guò)查看肺部CT圖像,判斷是否存在新冠肺炎患者特征,包括毛玻璃影結(jié)節(jié)、肺纖維化、胸腔積液以及多發(fā)性病變等[6-8],從而做出診斷。然而,診斷結(jié)果常常取決于放射科醫(yī)師經(jīng)驗(yàn),人為因素影響很大,診斷困難且耗時(shí)。因此,利用計(jì)算機(jī)輔助醫(yī)生對(duì)肺部CT圖像病變區(qū)域進(jìn)行診斷,定量評(píng)估治療前后效果,不僅能提高醫(yī)生的醫(yī)學(xué)影像判讀效率,而且能加強(qiáng)醫(yī)生的臨床診療能力,提高患者治愈率、減少病人等待時(shí)間。隨著深度學(xué)習(xí)技術(shù)的蓬勃發(fā)展,出現(xiàn)了基于深度學(xué)習(xí)的安全、準(zhǔn)確、高效的計(jì)算機(jī)輔助診斷手段[9-12],在醫(yī)學(xué)圖像分析領(lǐng)域取得顯著效果。
醫(yī)學(xué)圖像分割是依據(jù)頻域、灰度、紋理等特征對(duì)2D或3D圖像進(jìn)行分割。在全球新冠肺炎疫情暴發(fā)后,許多研究者開(kāi)展了基于深度學(xué)習(xí)的新冠肺炎CT圖像分割研究。Rajamani等提出DDANet模型,運(yùn)用動(dòng)態(tài)可變形交叉注意力機(jī)制,在新冠肺炎CT圖像數(shù)據(jù)集COVID-SemiSeg的Dice指標(biāo)達(dá)到79.1%[13]。Budak等在SegNet模型基礎(chǔ)上使用注意門控機(jī)制自動(dòng)分割新冠肺炎CT圖像的病變區(qū)域,在473張新冠肺炎CT圖像數(shù)據(jù)集的Dice指標(biāo)達(dá)到89.61%[14-15]。Kumar等提出LungINFseg模型[16],該模型使用接受域感知(receptive-field-aware,RFA)模塊,在不丟失任何信息的情況下擴(kuò)大分割模型的接受域,提高模型學(xué)習(xí)能力,在新冠肺炎CT圖像數(shù)據(jù)集COVID19Seg的Dice指標(biāo)達(dá)到80.34%。Fan等提出用于新冠肺炎肺部感染分割的Inf-Net模型[17],并行部分解碼器來(lái)聚合高層特征,用隱性反向注意力和顯性邊緣注意力針對(duì)病灶邊界進(jìn)行建模,提出了一種基于隨機(jī)選擇傳播策略的半監(jiān)督分割框架,在新冠肺炎CT圖像數(shù)據(jù)集COVID-SemiSeg的Dice指標(biāo)達(dá)到73.9%。使用深度學(xué)習(xí)方法可以自動(dòng)精確地對(duì)新冠肺炎CT圖像分割病變區(qū)域,為醫(yī)生診斷提供輔助意見(jiàn),提高診斷效率。
深度學(xué)習(xí)模型不僅需要大量訓(xùn)練樣本,且往往比較費(fèi)時(shí),為此本文提出輕量化的新冠肺炎肺部CT圖像分割模型COVIDSeg。首先,提出輕量化的壓縮-擴(kuò)展通道注意力模塊SECA(squeeze and extend channel attention block),降低模型參數(shù),提高計(jì)算效率,通過(guò)跳層連接緩解模型退化問(wèn)題,加入通道注意力子模塊增強(qiáng)特征表達(dá)能力;其次,提出殘差多尺度注意力模塊RMSCA(residual multi-scale channel attention block),通過(guò)多分支結(jié)構(gòu)捕獲多尺度信息,增大模型感受野;同時(shí),將SECA模塊和RMSCA模塊作為編碼器子網(wǎng)絡(luò)的主要組成模塊,通過(guò)雙通路結(jié)構(gòu)連接各模塊,通路內(nèi)特征逐層傳遞,通路間多級(jí)特征交互,促進(jìn)不同層級(jí)有效信息的傳遞和表達(dá)。
圖像分割是計(jì)算機(jī)視覺(jué)領(lǐng)域的重點(diǎn)研究方向,深度學(xué)習(xí)技術(shù)使得圖像分割研究得到空前發(fā)展,尤其卷積神經(jīng)網(wǎng)絡(luò)(CNN)[18]為提取圖像特征帶來(lái)了全新解決方案。Shelhamer等以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),提出全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[19],用卷積層代替了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)模型中的全連接層,對(duì)圖像進(jìn)行像素級(jí)別的分類,解決了語(yǔ)義級(jí)別的圖像分割問(wèn)題。2015年的ISBI Challenge比賽上,Ronneberger等提出U-Net模型[20],用級(jí)聯(lián)操作將編碼器與解碼器融合,編碼器對(duì)輸入圖像進(jìn)行編碼,用卷積進(jìn)行下采樣,提取圖像特征,解碼器采用反卷積進(jìn)行上采樣,將編碼信息映射為對(duì)應(yīng)的二值分割掩模;與FCN模型對(duì)比,該模型可以在較少樣本量上完成網(wǎng)絡(luò)訓(xùn)練并實(shí)現(xiàn)圖像分割。隨后,大量研究人員在U-Net模型基礎(chǔ)上進(jìn)行改進(jìn),Zhou等2018年提出U-Net++模型[21],在解碼器和編碼器間增加了細(xì)粒度信息,重新設(shè)計(jì)了跳躍連接;Oktay等提出Attention U-Net模型[22],在拼接編碼器和解碼器對(duì)應(yīng)特征圖之前使用注意力機(jī)制,抑制了無(wú)關(guān)區(qū)域的特征,提高了分割準(zhǔn)確度。
注意力機(jī)制是深度學(xué)習(xí)常用的數(shù)據(jù)處理方法,是對(duì)人類認(rèn)知功能的模擬[23],利用有限的注意力資源從海量信息中快速篩選高價(jià)值的信息。注意力機(jī)制快速掃描全局圖像,發(fā)現(xiàn)重點(diǎn)關(guān)注的目標(biāo)區(qū)域,對(duì)該區(qū)域投入更多注意力,以獲取更多細(xì)節(jié)信息,抑制其他無(wú)用信息。
通道注意力機(jī)制通過(guò)捕獲通道間依賴關(guān)系,強(qiáng)調(diào)或弱化通道間特征響應(yīng),提高網(wǎng)絡(luò)表達(dá)能力。Hu等提出的SENet(squeeze-and-excitation networks)模型中的SE模塊是一種典型的通道域注意力機(jī)制[24]。Wang等在SENet模型基礎(chǔ)上,提出一種不降維的局部跨信道交互策略,用于圖像分割[25]。其他基于通道注意力的模型還包括GCNet[26]、DANet[27]等。本文擬將SE模塊融入提出的新模型,以增強(qiáng)特征表達(dá)能力。
近年來(lái),隨著深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺(jué)領(lǐng)域的崛起,涌現(xiàn)出許多高效模型。但隨著網(wǎng)絡(luò)層數(shù)的加深,會(huì)出現(xiàn)信號(hào)和梯度消失現(xiàn)象,為此出現(xiàn)了跳層連接模型。Schraudolph等最早提出跳層連接思想[28]。Raiko等研究了跳層連接對(duì)模型性能的影響,發(fā)現(xiàn)跳層連接不僅提高了隨機(jī)梯度下降算法的學(xué)習(xí)能力,而且提高了模型的泛化能力[29]。Srivastava等借鑒LSTM模型的控制門思想提出了殘差結(jié)構(gòu)[30]。ResNet模型借助跳層連接,訓(xùn)練更深網(wǎng)絡(luò)[31]。DenseNet模型[32]在跳層連接基礎(chǔ)上,建立前、后層的密集連接,使各層間都有連接,每一層都以前面所有層的輸出為其輸入,提高了模型的信息提取能力。
多尺度是對(duì)信號(hào)不同粒度的采樣,在不同尺度下可以觀察到不同特征,完成不同任務(wù)。卷積神經(jīng)網(wǎng)絡(luò)通過(guò)逐層抽象方式來(lái)提取目標(biāo)特征,感受野太小,只能觀察到局部特征,感受野太大,則會(huì)獲取過(guò)多無(wú)效信息,因此大量多尺度特征融合模型被提出。多尺度特征融合模型分為并行多分支模型和串行多分支模型,二者均在不同感受野下進(jìn)行特征提取。常見(jiàn)的并行多分支模型有Inception[33]、DeepLabv3[34]、PSPNet[35]和Big-Little Net[36]等。并行多分支模型結(jié)構(gòu)能夠在同一層級(jí)獲取不同感受野的特征,融合后傳遞到下一層,可以更好地平衡計(jì)算量,有利于壓縮模型。串行多分支模型通過(guò)跳層連接來(lái)完成特征組合,這種模型結(jié)構(gòu)在圖像分割中很常見(jiàn),如FCN[19]、U-Net[20]等模型。串行多分支模型結(jié)構(gòu)將不同抽象層級(jí)的特征進(jìn)行融合,對(duì)于邊界敏感的圖像分割任務(wù)不可缺少。
本文提出的壓縮-擴(kuò)展通道注意力模塊(squeeze and extend channel attention block,SECA)遵循輕量化、跳層連接、注意力增強(qiáng)原則。其中:輕量化有助于降低模型參數(shù),提高計(jì)算效率;跳層連接有助于緩解模型退化問(wèn)題;通道注意力子模塊有助于增強(qiáng)特征表達(dá)能力。具體結(jié)構(gòu)如圖1所示。
圖1 壓縮-擴(kuò)展通道注意力模塊SECA
首先,將輸入特征圖X經(jīng)過(guò)1×1卷積,輸出特征圖F1,其通道數(shù)變少、分辨率不變,有助于減少后續(xù)操作的計(jì)算量,如式(1)所示。
(1)
然后,將生成的特征圖F1經(jīng)過(guò)3×3卷積,進(jìn)一步提取特征,輸出特征圖F2與輸入特征圖尺寸保持一致,如式(2)所示。
(2)
接著,將生成特征圖F2經(jīng)過(guò)1×1卷積,使輸出特征圖的通道數(shù)變多、分辨率不變,與輸入的原始特征圖X尺寸大小一致;然后和輸入的原始特征圖X逐元素相加,即圖1的跳層連接,再進(jìn)行批歸一化BN處理,之后輸入給激活函數(shù)PReLU,如式(3)~(4)所示。
(3)
(4)
最后,將生成的特征圖F4經(jīng)過(guò)通道注意力模塊,增強(qiáng)輸入特征的表達(dá)能力,輸出最終的特征圖
(5)
本文提出的殘差多尺度注意力模塊RMSCA(residual multi-scale channel attention block)遵循多尺度、跳層連接、注意力增強(qiáng)原則。通過(guò)多分支結(jié)構(gòu)捕獲多尺度信息,增大模型感受野;跳層連接避免信息消失,提升模型提取信息能力和泛化能力;注意力增強(qiáng)提升模型的特征表達(dá)能力。RMSCA模塊的具體結(jié)構(gòu)如圖2所示。
圖2 殘差多尺度注意力模塊RMSCA
假定輸入特征圖為X∈RC×H×W。一方面,經(jīng)過(guò)3×3卷積來(lái)提取特征,由于殘差多尺度注意力模塊在COVIDSeg模型中的不同位置,因此經(jīng)過(guò)3×3卷積后輸出特征圖的通道數(shù)和分辨率可能改變,也可能與輸入特征圖尺寸保持一致。當(dāng)輸出特征圖通道數(shù)和分辨率發(fā)生變化時(shí),3×3卷積的步長(zhǎng)stride為3;當(dāng)輸出特征圖與輸入特征圖尺寸一致時(shí),3×3卷積的步長(zhǎng)stride為1,該操作如式(6)所示。
(6)
另一方面,經(jīng)過(guò)1×1卷積提取特征,該卷積的步長(zhǎng)與上述3×3卷積的步長(zhǎng)相同,其輸出特征圖F2與特征圖F1尺寸大小一致,如式(7)所示。
(7)
3×3卷積和1×1卷積對(duì)同一輸入特征圖在不同尺度上提取特征,2種特征在后續(xù)操作中通過(guò)逐元素相加進(jìn)行有效融合。
另外,將特征圖F1經(jīng)過(guò)3×3卷積,輸出與F1尺寸大小一致的特征圖
(8)
接著,特征圖F1、F2和F3逐元素相加進(jìn)行特征融合,其中F1和F2的相加可看做不同尺度下的特征融合,F(xiàn)1和F3的相加屬于殘差特征融合,如式(9)~(10)所示。
F4=F1⊕F2⊕F3,
(9)
F5=PReLU(BN(F4))。
(10)
最后,將生成的特征圖F5經(jīng)過(guò)通道注意力模塊,增強(qiáng)輸入特征的表達(dá)能力,輸出最終生成的特征圖
(11)
卷積下采樣模塊CDS(convolution down sampling)位于編碼子網(wǎng)絡(luò)中,該模塊執(zhí)行下采樣任務(wù),具體結(jié)構(gòu)如圖3所示。
圖3 卷積下采樣模塊CDS
其中,輸入特征圖通過(guò)3×3卷積提取特征,然后經(jīng)過(guò)批歸一化BN和激活函數(shù)PReLU后輸出特征圖。經(jīng)過(guò)卷積下采樣模塊后輸出特征圖的通道數(shù)增加,分辨率降低。
特征聚合模塊FFM[37](feature fusion module)是解碼器子網(wǎng)絡(luò)的主要組成部分,將解碼子網(wǎng)絡(luò)中上一Stage層的輸出特征進(jìn)行多尺度特征提取,具體結(jié)構(gòu)如圖4所示。
圖4 特征聚合模塊FFM
輸入特征圖先經(jīng)過(guò)1×1卷積提取特征,再分2路分別經(jīng)過(guò)空洞率為2的3×3空洞卷積和空洞率為1的3×3空洞卷積,然后將2路特征圖逐元素相加,最后經(jīng)過(guò)批歸一化BN操作,輸出特征圖。經(jīng)過(guò)特征聚合模塊后輸出特征圖的通道數(shù)減少,分辨率不變。
COVIDSeg模型(圖5)包含COVIDSeg-Base模型和在COVIDSeg-Base模型基礎(chǔ)上擴(kuò)展而出的COVIDSeg-Large模型,2種模型結(jié)構(gòu)一致,其中的模塊類型相同,數(shù)量不同。圖5a是COVIDSeg-Base模型,圖5b是COVIDSeg-Large模型,2種模型在本文統(tǒng)稱為COVIDSeg模型。
COVIDSeg模型包括編碼子網(wǎng)絡(luò)和解碼子網(wǎng)絡(luò)兩部分,每部分分別包含4個(gè)Stage層,如圖5所示的Stage1-Stage4。編碼子網(wǎng)絡(luò)由雙通路結(jié)構(gòu)構(gòu)成,即圖5的Left Path和Right Path通路,這些通路連接各個(gè)模塊,通路內(nèi)特征逐層傳遞,通路間多級(jí)特征交互,從而促進(jìn)不同層級(jí)有效信息的傳遞和表達(dá)。編碼子網(wǎng)絡(luò)的SECA模塊匯聚了不同通路的特征,并在不同通路間傳遞。解碼子網(wǎng)絡(luò)是一個(gè)簡(jiǎn)單有效的多尺度特征解碼網(wǎng)絡(luò),各Stage層逐層進(jìn)行特征上采樣,并融合編碼子網(wǎng)絡(luò)對(duì)應(yīng)Stage層的特征圖。下面以圖5a展示的模型COVIDSeg-Base為例詳細(xì)闡述COVIDSeg模型的網(wǎng)絡(luò)結(jié)構(gòu)。
圖5a所示COVIDSeg-Base模型的編碼子網(wǎng)含有左通路(left path)和右通路(right path),從上到下4個(gè)Stage層,各Stage層輸出特征的通道數(shù)依次增加,分辨率依次減小。每個(gè)Stage層包括一個(gè)SECA模塊、一個(gè)CDS模塊和3個(gè)RMSCA模塊,每個(gè)Stage層最上面的RMSCA和CDS模塊輸出特征圖的通道數(shù)和分辨率均發(fā)生改變,其他模塊輸入特征圖與輸出特征圖的尺寸保持一致,因此給另外2個(gè)RMSCA模塊間添加跳層鏈接,融合2個(gè)RMSCA模塊的輸出。編碼子網(wǎng)絡(luò)的左通路負(fù)責(zé)特征的聚合與分發(fā),先將CDS模塊和RMSCA模塊輸出的特征逐元素相加實(shí)現(xiàn)多通路特征聚合,而后經(jīng)過(guò)SECA模塊實(shí)現(xiàn)特征提取,最后將提取的特征分發(fā)到右通路的相應(yīng)模塊,以實(shí)現(xiàn)特征增強(qiáng),并傳遞到下一個(gè)Stage層;編碼子網(wǎng)絡(luò)的右通路是主干分支,負(fù)責(zé)主要特征的提取和傳遞。
COVIDSeg-Base模型的解碼子網(wǎng)絡(luò)由Stage1-Stage4共4個(gè)Stage層構(gòu)成,依次對(duì)應(yīng)編碼子網(wǎng)絡(luò)的Stage4-Stage1,各Stage層輸出特征圖的通道數(shù)依次減少,分辨率依次增加。解碼子網(wǎng)絡(luò)的各Stage層以上一Stage層的輸出經(jīng)過(guò)FFM模塊進(jìn)行特征聚合,然后與編碼子網(wǎng)絡(luò)對(duì)應(yīng)Stage層的輸出經(jīng)過(guò)1×1卷積和批歸一化BN操作后,進(jìn)行逐元素相加,作為該Stage層的輸入。解碼子網(wǎng)絡(luò)的各Stage層包括1×1卷積、線性插值、FFM 3種主要模塊。其中,與編碼子網(wǎng)絡(luò)連接的1×1卷積不改變特征圖的通道數(shù)和分辨率,實(shí)現(xiàn)了跨通道信息整合;與模型輸出連接的1×1卷積將特征圖的通道數(shù)變?yōu)?,分辨率不改變。圖中的2×、4×、8×表示線性插值,經(jīng)過(guò)該操作后特征圖的通道數(shù)不變,分辨率增加相應(yīng)倍數(shù)。FFM模塊的多尺度特征聚合,提高了網(wǎng)絡(luò)的特征表達(dá)能力。
圖5b的COVIDSeg-Large模型是在COVIDSeg-Base模型基礎(chǔ)上進(jìn)行進(jìn)一步改進(jìn)獲得,其框架與COVIDSeg-Base模型一致,只是COVIDSeg-Large模型編碼子網(wǎng)絡(luò)的每個(gè)Stage層中增加了1個(gè)SECA模塊和2個(gè)RMSCA模塊。COVIDSeg-Large模型通過(guò)復(fù)用SECA模塊和RMSCA模塊,以及保持相似的模塊連接,來(lái)增強(qiáng)模型的表達(dá)能力。
圖5 本文提出的COVIDSeg模型結(jié)構(gòu)圖
以CONVIDSeg-Base模型為例,假設(shè)輸入圖像為3×512×512,即3通道、512寬、512高的圖像,編碼子網(wǎng)絡(luò)4個(gè)Stage層的輸出特征則依次為8×256×256、24×128×128、32×64×64、64×32×32。CONVIDSeg-Base模型每個(gè)Stage層內(nèi)各模塊輸出特征圖的相關(guān)信息如表1所示。
表1 COVIDSeg-Base模型結(jié)構(gòu)細(xì)節(jié)(輸入為3×512×512)
目前,針對(duì)新冠肺炎肺部CT圖像分割的研究主要分為2類:第1類旨在圖像中分割出肺部區(qū)域[38-39],這是新冠肺炎研究的第一步;第2類旨在圖像中直接分割出肺部感染病變區(qū)域[37,40-42]。本文屬于第2類研究,我們采用有肺部感染區(qū)域標(biāo)記的數(shù)據(jù)集,用提出的COVIDSeg模型分割圖像病變區(qū)域,測(cè)試模型的分割結(jié)果與標(biāo)記是否一致。由于新冠肺炎肺部CT圖像數(shù)據(jù)來(lái)源、分割標(biāo)準(zhǔn)、病變標(biāo)注類型各不同,難以組合成一個(gè)統(tǒng)一的CT圖像分割數(shù)據(jù)集[40,43-44]。因此,本文利用2020年發(fā)布的4個(gè)廣泛使用的COVID-19 CT圖像分割公開(kāi)數(shù)據(jù)集測(cè)試提出的模型COVIDSeg。4個(gè)公開(kāi)數(shù)據(jù)集分別是:COVID-19 CT Segmentation Dataset中的2個(gè)子數(shù)據(jù)集[45]、COVID-19 CT Lung and Infection Segmentation Dataset[41]和MosMedData[46]。為方便起見(jiàn),本文將這些數(shù)據(jù)集分別命名為COVID-19-A[45]、COVID-19-B[45]、COVID-19-C[41]、COVID-19-D[46],其基本信息如表2所示。
表2 實(shí)驗(yàn)用COVID-19 CT數(shù)據(jù)集圖像數(shù)量統(tǒng)計(jì)
表2顯示,COVID-19-A數(shù)據(jù)集包含來(lái)自約60個(gè)不同病例的共100張軸向二維CT切片,均為感染了新冠肺炎的CT切片;該數(shù)據(jù)集的CT圖像來(lái)自意大利醫(yī)學(xué)和介入放射學(xué)會(huì),放射科醫(yī)生使用不同標(biāo)簽來(lái)標(biāo)識(shí)CT圖像的肺部感染區(qū)域,提供了毛玻璃(ground glass)、結(jié)石(consolidation)和胸腔積液(pleural effusion)3種病變標(biāo)簽,本文將3種標(biāo)簽合并為病變標(biāo)簽。COVID-19-B數(shù)據(jù)集包含來(lái)自Radiopaedia的9個(gè)不同病例共829張軸向二維CT切片,放射科醫(yī)師將其中的373張切片評(píng)估為新冠肺炎切片,并進(jìn)行圖像分割標(biāo)示,數(shù)據(jù)為NIFTI格式。COVID-19-C數(shù)據(jù)集包含來(lái)自Coronacases Initiative和Radiopaedia的20個(gè)不同病例共1 844張CT切片,所有圖像均為感染了新冠肺炎的CT切片,圖像由有經(jīng)驗(yàn)的放射科醫(yī)生標(biāo)記。COVID-19-D數(shù)據(jù)集包含來(lái)自俄羅斯莫斯科市立醫(yī)院1 110個(gè)病例的肺部CT圖像,診斷和遠(yuǎn)程醫(yī)療技術(shù)專家對(duì)其中50個(gè)病例圖像進(jìn)行標(biāo)注,共包含785張確診新冠肺炎的CT圖像,該數(shù)據(jù)集提供了毛玻璃(ground glass)、結(jié)石(consolidation)2種病變標(biāo)簽,本文將2種標(biāo)簽合并為病變標(biāo)簽。
4種數(shù)據(jù)集的部分圖像如圖6所示,第1行表示原始CT圖像,第2行表示Mask標(biāo)記圖像。其中,圖6a來(lái)自COVID-19-A數(shù)據(jù)集,圖6b來(lái)自COVID-19-B數(shù)據(jù)集,圖6c為COVID-19-C數(shù)據(jù)集的示例,圖6d為COVID-19-D數(shù)據(jù)集的示例。
圖6 COVID CT數(shù)據(jù)集部分CT圖像
本文實(shí)驗(yàn)操作系統(tǒng)為Ubuntu 16.04,在單個(gè)型號(hào)為NVIDIA GeForce RTX 2080的GPU上訓(xùn)練模型?;赑yTorch 1.4.0深度學(xué)習(xí)框架構(gòu)建COVID-19圖像分割網(wǎng)絡(luò),CUDA版本9.0。利用Adam優(yōu)化器來(lái)更新網(wǎng)絡(luò)模型權(quán)重,初始學(xué)習(xí)率是0.001,學(xué)習(xí)率衰減值為0.000 1,beta_1參數(shù)為0.9,beta_2參數(shù)為0.999。使用poly學(xué)習(xí)策略更新學(xué)習(xí)率。使用交叉熵?fù)p失函數(shù),batch size為5,最大訓(xùn)練次數(shù)為80,保留最后一輪訓(xùn)練結(jié)果模型。
使用醫(yī)學(xué)圖像分割領(lǐng)域常用的5種評(píng)價(jià)指標(biāo)來(lái)定量評(píng)價(jià)提出的新冠肺炎CT圖像分割模型COVIDSeg的性能。5種評(píng)價(jià)指標(biāo)包括:平均交并比(mean intersection over union,MIoU)、靈敏度(sensitivity,SEN)、特異度(specificity,SPE)、Dice相關(guān)性系數(shù)(Dice similarity coefficient,DSC)以及豪斯多夫距離(Hausdorff distance,HD)。各指標(biāo)分別定義如下。
MIoU(式中簡(jiǎn)記為MIoU)表示平均每一類的預(yù)測(cè)值和真實(shí)值的交集與并集的比值,計(jì)算公式為
(12)
式中:k為類別數(shù);TP為正確預(yù)測(cè)為第i類的樣本數(shù);FP表示錯(cuò)誤預(yù)測(cè)為第i類的樣本數(shù);FN表示錯(cuò)誤預(yù)測(cè)為不是第i類的樣本數(shù)。
本文實(shí)驗(yàn)只有病變區(qū)域和背景區(qū)域,我們用TP表示正確分割為肺部病變區(qū)域的真陽(yáng)性像素?cái)?shù),F(xiàn)P表示錯(cuò)誤分割為肺部病變區(qū)域的假陽(yáng)性像素?cái)?shù),TN表示正確分割為背景區(qū)域的真陰性像素?cái)?shù),F(xiàn)N表示錯(cuò)誤分割為背景區(qū)域的假陰性像素?cái)?shù),則考慮算法對(duì)病灶區(qū)域和背景區(qū)域綜合分割性能的MIoU為
(13)
Sensitivity(式中簡(jiǎn)記為Sp)也稱為True positive rate,在二分類問(wèn)題中表示正類(即本文的病變區(qū)域)的識(shí)別率。因此,本文用Sensitivity衡量算法正確分割出肺部病變區(qū)域的能力,定義為正確分割為肺部病變區(qū)域與真實(shí)肺部病變區(qū)的比率。靈敏度的值越接近1,說(shuō)明肺部病變區(qū)域像素點(diǎn)被錯(cuò)誤分割成背景區(qū)域像素點(diǎn)越少,其分割性能越好。計(jì)算公式為
(14)
Specificity(式中簡(jiǎn)記為Sn)也稱為True negative rate,在二分類問(wèn)題中表示負(fù)類(即本文CT圖像的背景區(qū)域)的識(shí)別率,表達(dá)了真實(shí)負(fù)類被正確預(yù)測(cè)為負(fù)類的比例。本文用Specificity表示算法正確分割為真實(shí)背景區(qū)域的比率,衡量算法正確分割出背景區(qū)域像素點(diǎn)的能力。計(jì)算公式為
(15)
DSC是集合相似性的度量指標(biāo),計(jì)算2個(gè)集合的相似度,值域?yàn)閇0, 1];最好時(shí)為1,表示2個(gè)集合完全相似;最差時(shí)為0,表示2個(gè)集合沒(méi)有任何相似性。在圖像分割問(wèn)題中,DSC(式中簡(jiǎn)記為DSC)用來(lái)度量算法的分割結(jié)果與真實(shí)結(jié)果的相似性。計(jì)算公式為
(16)
式中:X和Y分別表示真實(shí)結(jié)果和算法分割結(jié)果;X∩Y表示X和Y的交集。
HD描述2組點(diǎn)集間的相似度,對(duì)分割邊界敏感。計(jì)算公式為
(17)
(18)
HD(A,B)=max(h(A,B),h(B,A))。
(19)
式中:‖·‖是距離范式;h(A,B)和h(B,A)分別為從點(diǎn)集A到點(diǎn)集B和從點(diǎn)集B到點(diǎn)集A的單向豪斯多夫距離;式(19)是豪斯多夫距離的最基本形式,稱作雙向豪斯多夫距離。雙向豪斯多夫距離HD(A,B)是單向距離h(A,B)和h(B,A)中的較大者,它度量了2個(gè)點(diǎn)集間的最大不匹配程度,其值越小越好。
另外,還將比較本文COVIDSeg模型與現(xiàn)有模型的參數(shù)量和時(shí)間效率,即模型的時(shí)間復(fù)雜度和空間復(fù)雜度。
本文采用5-折交叉驗(yàn)證實(shí)驗(yàn),測(cè)試提出的COVIDSeg模型。為了保證數(shù)據(jù)輸入的一致性,圖像大小統(tǒng)一調(diào)整為512×512。采用歸一化(Normalize)、成比例縮放圖像大小(Scale)、隨機(jī)裁剪并調(diào)整大小(RandomCropResize)、隨機(jī)翻轉(zhuǎn)(RandomFlip)共4種數(shù)據(jù)預(yù)處理方式。其中,歸一化操作Normalize( )對(duì)輸入的RGB圖像3個(gè)維度分別計(jì)算平均值和方差,并逐維度進(jìn)行歸一化處理;成比例縮放圖像大小操作Scale(w,h)分別用雙線性插值和最近鄰插值改變輸入圖像和Mask標(biāo)記圖像的尺寸至寬高分別為w和h的圖像;隨機(jī)裁剪并調(diào)整大小操作RandomCropResize(n)以0.5的概率隨機(jī)選取圖像,沿圖像外圍在最大為n的范圍內(nèi)裁剪,裁剪后圖像以最近鄰插值方式恢復(fù)至輸入圖像大小;隨機(jī)翻轉(zhuǎn)操作RandomFlip( )以0.5的概率水平或豎直翻轉(zhuǎn)圖像。
本文實(shí)驗(yàn)組合上述4種數(shù)據(jù)預(yù)處理策略,得到如表3所示的5種不同數(shù)據(jù)預(yù)處理方法。其中,訓(xùn)練集在一輪訓(xùn)練中依次采用#1-#4方法進(jìn)行數(shù)據(jù)預(yù)處理,共訓(xùn)練80輪;測(cè)試集用#5方法進(jìn)行預(yù)處理。
表3 數(shù)據(jù)預(yù)處理方法
本文將在不同圖像分割數(shù)據(jù)集測(cè)試提出的COVIDSeg(COVIDSeg-Base和COVIDSeg-Large)模型,并與其他10種主流分割模型進(jìn)行性能比較。這里選擇了2種類型的主流圖像分割模型,一種是分割模型參數(shù)量大、計(jì)算復(fù)雜度高的模型,如U-Net[20]、U-Net++[21]、Attention U-Net[22]、SegNet[15]、 DeepLabv3[34]、DeepLabv3+[47];另一種是分割模型參數(shù)量小、計(jì)算復(fù)雜度低的輕量化模型,如ENet[48]、ESPNet[49]、CGNet[50]、EDANet[51]等。表4列出了各模型的參數(shù)量(parameter)和浮點(diǎn)運(yùn)算次數(shù)(floating-point operations, FLOPs),分別從空間占用和時(shí)間消耗兩方面衡量模型性能,即比較模型的時(shí)間和空間復(fù)雜度。
表4 各模型的參數(shù)量和FLOPs
各模型5-折交叉驗(yàn)證實(shí)驗(yàn)的結(jié)果如表5所示,加粗表示最優(yōu)結(jié)果,下劃線表示本文提出的COVIDSeg模型性能在所有比較算法中位居前三,但非最優(yōu)結(jié)果。從表4可以看出,與10種主流分割模型相比,本文提出的2種模型參數(shù)量較少,因此能夠有效避免小數(shù)據(jù)在大模型上的過(guò)擬合問(wèn)題。另外,本文提出的2種模型的FLOPs值較小,表明模型的時(shí)間效率高、計(jì)算速度較快、時(shí)間消耗較低。
表5 各模型的5折交叉驗(yàn)證實(shí)驗(yàn)結(jié)果
下劃線表示本文提出的COVIDSeg模型性能位居前三。
表5實(shí)驗(yàn)結(jié)果可見(jiàn),提出的COVIDSeg模型在COVID-19-C數(shù)據(jù)集的性能最優(yōu),然后依次是在COVID-19-D、COVID-19-A、COVID-19-B數(shù)據(jù)集的性能??傮w來(lái)看,本文提出的COVIDSeg模型是所有比較模型中性能最優(yōu)的。對(duì)比模型DeepLabv3在COVID-19-A數(shù)據(jù)集的MIoU、DSC和HD指標(biāo)取得最優(yōu)值,與參數(shù)量類似的輕量化模型相比,本文提出的COVIDseg模型性能優(yōu)越性更加明顯。
另外,對(duì)比提出的2個(gè)模型的5-折交叉驗(yàn)證實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),COVIDSeg-Large模型的性能更優(yōu)。除了COVID-19-D數(shù)據(jù)集,其在COVID-19-A、COVID-19-B和COVID-19-C數(shù)據(jù)集的MIoU、DSC和HD指標(biāo)都優(yōu)于提出的COVIDSeg-Base模型;但其在COVID-19-D數(shù)據(jù)集SEN和SPE指標(biāo)優(yōu)于提出的COVIDSeg-Base模型。
3.5.1 主要模塊測(cè)試
為了分析提出的SECA和RMSCA模塊對(duì)模型性能的影響,以COVIDSeg-Base模型為例使用COVID-19-B數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),通過(guò)MIoU、SEN、SPE、DSC和HD量化分析指標(biāo),驗(yàn)證SECA和RMSCA模塊對(duì)提出COVIDSeg模型的作用。實(shí)驗(yàn)結(jié)果如表6所示,其中model-1是COVIDSeg-Base模型中有SECA模塊沒(méi)有RMSCA模塊的結(jié)果,model-2是COVIDSeg-Base模型中有RMSCA模塊但沒(méi)有SECA模塊的結(jié)果,model-3是完整的COVIDSeg-Base模型,加粗表示最好結(jié)果。
表6 不同模塊對(duì)模型性能的影響
實(shí)驗(yàn)結(jié)果顯示,同時(shí)擁有SECA和RMSCA模塊的COVIDSeg-Base模型在MIoU、SPE、DSC和HD 4個(gè)指標(biāo)上均取得最優(yōu)值,較各指標(biāo)最差值分別提升2.83%、0.39%、3.54%和12.88%,在SEN指標(biāo)上取得了次優(yōu)結(jié)果,model-1的SEN值最優(yōu)。這表明完整的COVIDSeg-Base模型對(duì)新冠肺炎肺部CT圖像的分割效果最好。model-1在SEN指標(biāo)上取得最優(yōu)結(jié)果,在SPE指標(biāo)上取得最差結(jié)果,這說(shuō)明model-1會(huì)將較多的非病變區(qū)域(背景)誤識(shí)為病變區(qū)域。分析原因是,真實(shí)的Mask標(biāo)記圖像中病變區(qū)域往往存在較多微小的非病變區(qū)域,這些微小的非病變區(qū)域被預(yù)測(cè)為病變區(qū)域,導(dǎo)致對(duì)病變區(qū)域識(shí)別能力高(SEN指標(biāo)最優(yōu)),對(duì)非病變區(qū)域識(shí)別能力差(SPE指標(biāo)最差)。model-1與model-2相比發(fā)現(xiàn),后者在MIoU、SPE、DSC、HD 4個(gè)指標(biāo)上均取得了更優(yōu)結(jié)果,說(shuō)明提出的RMSCA模塊對(duì)于新冠肺炎CT圖像的正確分割非常重要。
3.5.2 雙通路結(jié)構(gòu)測(cè)試
為了分析COVIDSeg雙通路結(jié)構(gòu)對(duì)模型性能的影響,依然以COVIDSeg-Base模型為例,在COVIDSeg-Base基礎(chǔ)上,設(shè)計(jì)2個(gè)單通路編碼器結(jié)構(gòu),測(cè)試雙通路結(jié)構(gòu)的性能,實(shí)驗(yàn)結(jié)果如表7所示。右通路是指僅保留編碼子網(wǎng)絡(luò)雙通路結(jié)構(gòu)中的右通路,并取消左右通路間的信息交互操作;同理,左通路是指僅保留雙通路結(jié)構(gòu)中的左通路,取消左右通路間的信息交互操作,同時(shí)用左通路的輸出代替右通路的輸出與相應(yīng)的解碼器Stage層交互;雙通路是指本文提出的帶有雙通路結(jié)構(gòu)的COVIDSeg-Base。表中加粗指標(biāo)值表示模型在同一指標(biāo)下的最優(yōu)結(jié)果。
表7 雙通路結(jié)構(gòu)對(duì)模型性能的影響
表7實(shí)驗(yàn)結(jié)果顯示,與2種單通路結(jié)構(gòu)相比,雙通路結(jié)構(gòu)在MIoU、SPE、DSC 3項(xiàng)指標(biāo)上均取得了最優(yōu)結(jié)果,與表7中各指標(biāo)的最差值相比,分別提升4.91%、0.72%和6.32%;另外,雙通路結(jié)構(gòu)分別在SEN、HD指標(biāo)上取得次優(yōu)結(jié)果。比較右通路和左通路模型發(fā)現(xiàn),左通路模型在除了HD的其他4個(gè)量化指標(biāo)上均優(yōu)于右通路模型,說(shuō)明左通路對(duì)模型COVIDSeg的性能貢獻(xiàn)大于右通路。因?yàn)樽笸返闹饕K是SECA模塊,這說(shuō)明提出的SECA模塊有很強(qiáng)的特征提取能力。
另外,左通路模型本質(zhì)上相當(dāng)于表6中去掉RMSCA模塊的model-1模型,但左通路模型除了包含SECA模塊,還包含卷積下采樣模塊CDS。因此,表6中去掉SECA模塊的model-2模型比右通路模型多了卷積下采樣模塊CDS以及通路間的信息交換。表6中model-2模型的MIoU、SEN、SPE和DSC指標(biāo)比右通路模塊更優(yōu),這說(shuō)明COVIDSeg模型左通路的卷積下采樣模塊CDS和左右通路間的信息交互對(duì)整個(gè)模型COVIDSeg的性能提升不可或缺。
與表5中的10種主流模型相比,表7的左通路和右通路模型在多項(xiàng)指標(biāo)上也取得了不錯(cuò)的結(jié)果,這不僅表明本文提出的左、右單個(gè)通路結(jié)構(gòu)的有效性,也說(shuō)明本文提出的SECA和RMSCA模塊的有效性。
通過(guò)提出的COVIDSeg-Base模型和COVIDSeg-Large模型在COVID-19-A、COVID-19-B、COVID-19-C和COVID-19-D數(shù)據(jù)集部分實(shí)驗(yàn)結(jié)果的可視化,來(lái)展示提出的COVIDSeg模型的分割性能,實(shí)驗(yàn)結(jié)果如圖7所示。圖7a來(lái)自COVID-19-A數(shù)據(jù)集,圖7b來(lái)自COVID-19-B數(shù)據(jù)集,圖7c來(lái)自COVID-19-C數(shù)據(jù)集,圖7d來(lái)自COVID-19-D數(shù)據(jù)集。
圖7 COVIDSeg模型分割結(jié)果的可視化
從圖7可以看出,提出的COVIDSeg-Base模型和COVIDSeg-Large模型在4個(gè)數(shù)據(jù)集的分割結(jié)果與圖像的真實(shí)Mask標(biāo)記大致相同,能夠較好地對(duì)肺部CT圖像進(jìn)行分割。同時(shí),提出的模型能夠?qū)T圖像的整體病變輪廓進(jìn)行很好分割,尤其是能較好地分割較大的病變區(qū)域,但對(duì)于微小病變區(qū)域的分割效果仍然有值得改進(jìn)的空間。另外,COVIDSeg-Large模型的分割結(jié)果比COVIDSeg-Base模型的分割結(jié)果更精確。
基于深度學(xué)習(xí)的醫(yī)學(xué)圖像分割在計(jì)算機(jī)輔助診斷中有著廣泛應(yīng)用價(jià)值和重要研究意義。本文基于輕量化模型設(shè)計(jì)原則,提出了針對(duì)COVID-19肺部CT圖像分割的輕量化模型COVIDSeg。該模型采用雙通路結(jié)構(gòu),包括提出的通道注意力模塊SECA和提出的具有多尺度、殘差連接等設(shè)計(jì)思想的注意力模塊RMSCA,以及復(fù)雜的跳層連接和通道間信息交互連接,能捕獲豐富的上下文信息,在多個(gè)新冠肺炎肺部CT圖像數(shù)據(jù)集取得了良好的分割效果。
然而,本文提出的COVIDSeg模型各模塊間的連接存在太多人為設(shè)計(jì)痕跡,不能保證所得模型是最優(yōu)模型。如何自動(dòng)搜索設(shè)計(jì)最優(yōu)的模塊連接方式,使模型性能達(dá)到最優(yōu),仍然有待進(jìn)一步研究。