高鐘宇,禹 龍,田生偉,吳衛(wèi)東,張德志
(1.新疆大學(xué) 軟件學(xué)院,新疆 烏魯木齊 830091;2.新疆大學(xué) 網(wǎng)絡(luò)中心,新疆 烏魯木齊 830046;3.新疆維吾爾自治區(qū)人民醫(yī)院,新疆 烏魯木齊 830000)
全卷積神經(jīng)網(wǎng)絡(luò)在醫(yī)學(xué)圖像分類(lèi)、分割和檢測(cè)方面表現(xiàn)出卓越的性能.其中具有編碼解碼結(jié)構(gòu)的U-Net[1]網(wǎng)絡(luò)在醫(yī)學(xué)圖像處理方面表現(xiàn)出色,多種基于U-Net[1]網(wǎng)絡(luò)結(jié)構(gòu)的變體網(wǎng)絡(luò)也都在此基礎(chǔ)上獲得了性能提升.Fu等[2]改進(jìn)網(wǎng)絡(luò)監(jiān)督策略,提出多尺度深度監(jiān)督策略用于U型網(wǎng)絡(luò)的訓(xùn)練,提升了網(wǎng)絡(luò)訓(xùn)練效果.CE-Net[3]將密集空洞卷積(DAC)和剩余多核池(RMP)集成到U-Net結(jié)構(gòu)中,從而獲取到更多具有高級(jí)特征的上下文信息.R2Unet[4]使用殘差循環(huán)卷積模塊替換U-Net中基礎(chǔ)卷積模塊,提升了網(wǎng)絡(luò)特征提取的能力.U-Net++[5]通過(guò)在編碼器和解碼器之間引入嵌套、密集的跳躍路徑序列,來(lái)解決編碼器和解碼器之間的語(yǔ)義鴻溝問(wèn)題.盡管這些工作都取得了不錯(cuò)的結(jié)果,但仍存在著下述問(wèn)題:現(xiàn)有的模型中多尺度特征提取、融合多集中在模塊內(nèi)部,對(duì)于多尺度通道融合的方法研究較少.單模態(tài)數(shù)據(jù)通常使用單通道模型進(jìn)行處理,這不僅要求單通道模型對(duì)多尺度信息敏感,而且模型設(shè)計(jì)是一個(gè)巨大的挑戰(zhàn).受啟發(fā)于Transform[6]中并行多通道模式,本文構(gòu)建了多通道網(wǎng)絡(luò),將復(fù)雜的分割任務(wù)進(jìn)行拆解,使單通道處理工作分?jǐn)偟蕉嗤ǖ乐羞M(jìn)行,不僅使各通道處理任務(wù)時(shí)更加專(zhuān)一,而且可以獲得更多的不同尺度的特征表示.對(duì)比單通道模型,多通道模型在每個(gè)通道之中都可以產(chǎn)生豐富的尺度特征.通過(guò)將不同通道中的多尺度特征進(jìn)行結(jié)合,可以克服單通道成像技術(shù)的局限性.
為了解決上述問(wèn)題,本文設(shè)計(jì)了一種自適應(yīng)動(dòng)態(tài)卷積模塊(Dynamic Selective Kernel Module,DSC)來(lái)構(gòu)建多通道并行U型網(wǎng)絡(luò).DSC模塊具有兩種模式:發(fā)散模式(Dynamic Selective Kernel Module Branch Model,DSC BM)與集束模式(Dynamic Selective Kernel Module Aggregation Model,DSCAM).在網(wǎng)絡(luò)編碼階段通過(guò)DSCBM模塊提取輸入特征中不同尺度的特征信息,再將相應(yīng)尺度信息發(fā)送到對(duì)應(yīng)通道中進(jìn)行處理,從而形成不同尺度的處理通道.在解碼階段通過(guò)逐層收集這些不同尺度通道中所產(chǎn)生的低維特征與上采樣得到的高維語(yǔ)義特征,通過(guò)DSC AM模塊逐級(jí)解碼,完成語(yǔ)義分割.
所設(shè)計(jì)的多通道并行U型網(wǎng)絡(luò)(MCPU-Net)的網(wǎng)絡(luò)架構(gòu)如圖1所示.MCPU-Net遵循U-Net[1]的編碼解碼結(jié)構(gòu),主要由編碼階段與解碼階段組成.在編碼階段內(nèi)部,網(wǎng)絡(luò)通過(guò)多通道逐層卷積將輸入圖片編碼成高維特征,解碼階段利用這些高維特征通過(guò)逐層解碼生成像素級(jí)的分割掩碼.同時(shí),通過(guò)引入跳躍連接將淺層的語(yǔ)義特征輸送到后續(xù)層中補(bǔ)充因多層卷積而丟失的細(xì)節(jié)信息.因此,網(wǎng)絡(luò)結(jié)構(gòu)主要由兩個(gè)部分組成:3個(gè)并行的4級(jí)編碼器和5個(gè)解碼器,共9個(gè)階段,每個(gè)階段都使用DSC BM或DSC AM進(jìn)行填充.
圖1 網(wǎng)絡(luò)總體架構(gòu)
動(dòng)態(tài)卷積模塊由三個(gè)部分組成:多路分裂、壓縮和選擇分散或選擇聚合.多路分裂操作將輸入特征映射到不同核大小的路徑,這些路徑由不同大小的卷積核處理得到.壓縮操作將這些不同路徑的信息進(jìn)行聚合,獲得具有全局信息的特征表示.選擇分散或選擇聚合操作根據(jù)所獲得的全局特征進(jìn)行分散或聚合不同大小內(nèi)核處理得到的特征圖.為了敘述方便,在1.2.1節(jié)與1.2.2節(jié)使用雙分支結(jié)構(gòu)舉例說(shuō)明,所設(shè)計(jì)的動(dòng)態(tài)卷積模塊很容易擴(kuò)展到多分支情況.
1.2.1 動(dòng)態(tài)卷積-發(fā)散模式(SC_BM)
在發(fā)散模式中主要將輸入特征拆解為不同尺度的特征信息,再輸送到相應(yīng)通道中進(jìn)行處理,具體過(guò)程如圖2所示.
圖2 動(dòng)態(tài)卷積-發(fā)散模式
多路分裂:對(duì)給定的輸入特征X∈RW×H×C,通過(guò)F 1與F 2操作F 1:X→X1∈RW×H×C、F 2:X→X2∈RW×H×C得到特征X1與X2.F 1、F 2操作由分組卷積、BatchNorm和ReLU操作組成.分組卷積的卷積核都為擴(kuò)張卷積,卷積核大小為3,擴(kuò)張率為2i(i=0,2,4···).通過(guò)這種方式得到2個(gè)不同尺度的特征圖X1與X2.
壓縮操作:為使模塊具有拆解功能,需要匯總所有分支中的特征信息生成全局信息,使用全局信息來(lái)指導(dǎo)對(duì)各路徑中特征的加強(qiáng)操作.具體過(guò)程如下:首先,通過(guò)逐元素相加操作F 3融合各分支的結(jié)果得到特征X3.
其次,通過(guò)全局平均池化操作生成各分支的信道級(jí)統(tǒng)計(jì)數(shù)據(jù)作為各分支的全局信息X1→Xavg1∈R1×1×C、X2→Xavg2∈R1×1×C、X3→Xavg3∈R1×1×C.Xavg中第C個(gè)元素的計(jì)算方法是通過(guò)計(jì)算Xavg中第C個(gè)通道上所有W×H個(gè)值的平均值得到的:
將得到的特征Xavg1、Xavg2和Xavg3在W維度上進(jìn)行合并得到特征Favg,并用卷積核大小為(3×1)的卷積對(duì)其處理得到特征S:
式中:Conv表示卷積核為(k×1)大小的卷積操作,k為分支個(gè)數(shù),Cont表示在W維度上進(jìn)行合并操作.
最后,通過(guò)使用Z∈R1×1×L特征來(lái)更精確地指導(dǎo)模塊進(jìn)行選擇性強(qiáng)化.計(jì)算方法如下:
式中:δ是ReLU操作,β是BatchNorm操作,f c表示全連接操作.模塊對(duì)于維度縮放比例進(jìn)行了控制,L表示輸出通道數(shù),由以下方法計(jì)算得到:
式中:C表示輸入的通道數(shù),k表示分支個(gè)數(shù),d默認(rèn)為32.
選擇分散:在全局特征Z的引導(dǎo)下,通過(guò)一個(gè)跨通道的軟注意力來(lái)選擇性地強(qiáng)化不同路徑中的特征.具體方法為:Z特征通過(guò)全連接操作得到描述各分支特征的注意力圖A,B∈R1×1×C,并對(duì)得到的每個(gè)注意力圖在通道方向上使用了Softmax運(yùn)算.
式中:f c表示全連接操作,a與b為經(jīng)過(guò)Sof tmax運(yùn)算的分別描述F 1與F2的注意力特征圖.Ac與Bc表示的是在通道方向上A特征的第c個(gè)數(shù)值和在通道方向上B特征的第c個(gè)數(shù)值,在雙分支的情況下ac+bc=1.特征圖Fout1與Fout2是F 1與F2通過(guò)和各自的注意力特征圖a與b逐元素相乘得到的:
式中:Fout1=[Fout11,···,Fout1C],F(xiàn)out2=[Fout21,···,Fout2C],{Fout1c,Fout2c}∈RW×H,“×”表示逐元素相乘.
1.2.2 動(dòng)態(tài)卷積-集束模式(SC_AM)
集束模式主要用來(lái)調(diào)整卷積模塊的感受野大小,其中多路分裂、壓縮操作與SC_BM類(lèi)似.通過(guò)多路分裂獲取具有不同頻射大小的特征圖,再通過(guò)壓縮操作獲取關(guān)于所有分支的全局信息,最后通過(guò)選擇聚合將不同分支中的特征圖非線(xiàn)性地聚合在一起.由于多路分裂與壓縮操作與SC_BM相同,這里只介紹選擇聚合操作,如圖3所示.
圖3 動(dòng)態(tài)卷積-集束模式
選擇聚合:由Z特征通過(guò)全連接操作得到描述各分支的注意力圖A,B∈R1×1×C.在多分支的情況下,多路獲取的特征之間存在冗余,通過(guò)跨通道的軟注意力來(lái)適應(yīng)性地選擇不同分支中的信息進(jìn)行融合.對(duì)得到的每個(gè)注意力圖在通道方向上使用了Sof tmax運(yùn)算.
式中:f c為全連接操作,a與b為經(jīng)過(guò)Softmax運(yùn)算的分別描述F 1與F 2的注意力特征圖.Ac與Bc表示的是在通道方向上A特征的第c個(gè)數(shù)值和在通道方向上B特征的第c個(gè)數(shù)值,在雙分支的情況下ac+bc=1.特征圖Fout1與Fout2是F1與F 2通過(guò)和各自的注意力特征圖a與b逐元素相乘得到的,最后將Fout1與Fout2逐元素相加得到Fout:
式中:Fout=[Fout1,Fout2,···,Foutc],F(xiàn)outc∈RW×H,“+”表示逐元素相加.
醫(yī)學(xué)圖像數(shù)據(jù)中病變區(qū)域的尺寸可能存在極大的變化,因?yàn)閿?shù)據(jù)的多樣性,選擇一個(gè)固定的卷積內(nèi)核變來(lái)處理數(shù)據(jù)是不合適的.因此,本文選擇IVD-Net[7]中擴(kuò)展的卷積模塊來(lái)獲取全局信息與局部信息.通過(guò)在這種擴(kuò)展的卷積模塊之后串聯(lián)所設(shè)計(jì)的動(dòng)態(tài)卷積模塊來(lái)實(shí)現(xiàn)自適應(yīng)動(dòng)態(tài)卷積模塊.
1.3.1 自適應(yīng)動(dòng)態(tài)卷積-發(fā)散模式(DSC BM)
通過(guò)在擴(kuò)展卷積模塊之后串聯(lián)SC_BM模塊以實(shí)現(xiàn)自適應(yīng)動(dòng)態(tài)卷積-發(fā)散模式.如圖4所示,對(duì)于任意輸入特征X∈RW×H×C,首先,經(jīng)過(guò)(3×3,dil=1)卷積操作,得到特征Conv1∈RW×H×C,3×3是指卷積核大小為3,dil=1是指卷積擴(kuò)張率為1.其次,將得到的Conv1特征輸入到多個(gè)并行的擴(kuò)充卷積中分別進(jìn)行運(yùn)算得到不同尺度的特征.卷積模塊的參數(shù)分別為(1×1,dil=1)、(3×3,dil=1)、(5×5,dil=1)、(3×3,dil=2)和(3×3,dil=4).然后將這些多尺度特征在通道方向進(jìn)行合并得到Conv3∈RW×H×5C,并使用(1×1,dil=1)卷積對(duì)Conv3的通道進(jìn)行壓縮得到Conv4∈RW×H×C.將Conv4輸入到SC_BM模塊中得到分別描述不同尺度的信息特征Conv51,Conv52,Conv53∈RW×H×C.為了緩解因網(wǎng)絡(luò)過(guò)深導(dǎo)致梯度消失的問(wèn)題,在每個(gè)路徑上都進(jìn)行殘差連接.將特征Conv1分別與每個(gè)路徑中的特征Conv51,Conv52與Conv53逐元素相加得到Conv61,Conv62,Conv63∈RW×H×C.最后,將這些特征分別送到卷積(3×3,dil=1)中運(yùn)算,得到各路徑的輸出特征Conv71,Conv72,Conv73∈RW×H×C.值得注意的是,在整個(gè)模塊內(nèi)部,除了合并操作使特征Conv3的通道數(shù)達(dá)到輸入特征通道數(shù)的5倍,其余運(yùn)算所得到的特征尺寸都與輸入特征X∈RW×H×C的尺寸相同.各運(yùn)算過(guò)程公式如下:
圖4 自適應(yīng)動(dòng)態(tài)卷積-發(fā)散模式
式中:conv(N×N,dil=k)表示卷積操作,N表示卷積核大小,k表示擴(kuò)張率,SC_BM表示動(dòng)態(tài)卷積 發(fā)散模塊,“+”表示逐元素相加.
1.3.2 自適應(yīng)動(dòng)態(tài)卷積-集束模式(DSC_AM)
通過(guò)在擴(kuò)展卷積模塊之后串聯(lián)SC_AM模塊以實(shí)現(xiàn)自適應(yīng)動(dòng)態(tài)卷積-集束模式,如圖5所示.首先,通過(guò)與DSC_BM相同的方式獲得特征Conv4,與之前不同的是使用SCAM來(lái)對(duì)Conv4進(jìn)行處理,得到輸出Conv5∈RW×H×C.然后,在此通道上使用殘差結(jié)構(gòu)得到Conv6∈RW×H×C,再經(jīng)過(guò)卷積(3×3,dil=1),得到最終輸出Conv7∈RW×H×C.
圖5 自適應(yīng)動(dòng)態(tài)卷積-集束模式
式中:SC_AM表示動(dòng)態(tài)卷積集束模塊.
多尺度特征融合技術(shù)在語(yǔ)義分割領(lǐng)域運(yùn)用十分頻繁,因?yàn)椴煌叨鹊奶卣鲗?duì)于不同尺寸的目標(biāo)具有不同的敏感程度.具有大感受野的特征對(duì)于尺寸規(guī)模大的目標(biāo)識(shí)別度更好,小感受野的特征對(duì)于小尺寸目標(biāo)處理更精準(zhǔn)[8?9].網(wǎng)絡(luò)中處于不同深度的特征其抽象語(yǔ)義信息也是不同的,淺層特征注重提取紋理、顏色等細(xì)節(jié)信息,深層特征注重提取高級(jí)的語(yǔ)義信息[10].因此,充分利用不同深度的特征并將它們進(jìn)一步融合處理,對(duì)于提高網(wǎng)絡(luò)性能是十分必要的.本文設(shè)計(jì)了一種多通道并行網(wǎng)絡(luò)架構(gòu),將傳統(tǒng)的單通道特征提取過(guò)程擴(kuò)展到多通道中進(jìn)行.由于通道固有的深度與復(fù)雜的結(jié)構(gòu),可以很好地完成特征提取任務(wù).通過(guò)使用DSC_BM模塊將輸入特征當(dāng)中不同尺度的特征進(jìn)行分流,從而減輕單一通道處理多尺度特征的壓力,再將不同尺度的特征輸入到相應(yīng)的通道中進(jìn)行處理,這樣復(fù)雜的多尺度特征處理問(wèn)題就轉(zhuǎn)移到通道中進(jìn)行解決.由于每個(gè)通道都只對(duì)同一種尺度的特征進(jìn)行表示學(xué)習(xí),通道的專(zhuān)一性與任務(wù)相關(guān)性就得到提升,從而會(huì)獲得更加優(yōu)秀的特征表達(dá).最后將這些多尺度特征從各個(gè)通道中獲取,在解碼階段與上采樣特征融合以獲取更準(zhǔn)確的分割掩碼.
1.4.1 網(wǎng)絡(luò)編碼階段
如圖6所示,網(wǎng)絡(luò)編碼部分劃分為5個(gè)階段.本文使用通道1來(lái)舉例說(shuō)明各階段內(nèi)模塊的輸入輸出格式以及網(wǎng)絡(luò)內(nèi)部的連接方式.其余通道的輸入輸出格式以及內(nèi)部連接方式與通道1類(lèi)似.
圖6 多通道并行架構(gòu)
Stage1:輸入為原始圖片,使用Input表示.其中黃綠藍(lán)表示三個(gè)不同尺度的通道.在通道1中輸入Input經(jīng)過(guò)DSC_BM模塊得到3種不同尺度的特征,使用F 3、F 5和F 7表示,不同顏色代表所屬不同模塊.在階段末尾收集在第一階段內(nèi)產(chǎn)生的3個(gè)F 3尺度的特征并用逐元素相加的方式進(jìn)行組合.將組合后的特征使用最大池化(MP)操作進(jìn)行處理作為本階段通道1的輸出.第一階段內(nèi)的各通道輸出通用公式如下:
式中:Stage1-Out1th表示第一階段通道1的輸出,MP表示最大池化操作,F(xiàn) 3[N]表示來(lái)自通道N的F 3特征,N與通道數(shù)相同.值得注意的是,網(wǎng)絡(luò)的通道數(shù)是由DSC BM模塊分支數(shù)決定的,如果要構(gòu)建多通道網(wǎng)絡(luò),就要使用對(duì)應(yīng)分支數(shù)的DSC BM模塊進(jìn)行構(gòu)建.
Stage2:通道1的輸入為Stage1-Out1th,經(jīng)過(guò)DSCBM模塊后得到3個(gè)不同尺度的特征F 3、F5和F7.與上一階段相似,收集本階段內(nèi)部所有的F 3特征進(jìn)行逐元素相加.將相加后的特征與Stage1-Out1th在通道方向上進(jìn)行合并,并將合并后的特征使用最大池化操作進(jìn)行處理作為本階段通道1的輸出.第二階段內(nèi)的各通道輸出通用公式如下:
式中:Cont表示在通道方向上進(jìn)行合并.
Stage3:通道1的輸入為Stage2-Out1th,與之前處理類(lèi)似,Stage2-Out1th經(jīng)過(guò)DSCBM模塊后得到3個(gè)不同尺度的特征F3、F 5和F 7,收集相同尺度特征并進(jìn)行逐元素相加,將相加后的特征與Stage2Out1th在通道方向上進(jìn)行合并,最后將合并后的特征使用最大池化操作進(jìn)行處理作為本階段通道1的輸出.第三階段的各通道輸出通用公式如下:
Stage4:通道1的輸入為Stage3Out1th,本階段主要將各通道獲得的多尺度特征進(jìn)行融合,故使用DSCAM對(duì)輸入特征進(jìn)行處理.將融合后的各多尺度特征T 1、T 2和T 3逐元素相加,并與上階段各通道的輸出特征在通道方向上進(jìn)行合并,最后將合并后的特征使用最大池化操作進(jìn)行處理作為本階段的輸出.第四階段的輸出通用公式如下:
Stage5:將Stage4Out輸入到DSCAM模塊中進(jìn)行處理得到各尺度融合特征,并將其上采樣作為本階段的輸出特征F 5.
1.4.2 網(wǎng)絡(luò)解碼階段
解碼階段主要將編碼階段產(chǎn)生的各尺度特征進(jìn)行收集,并通過(guò)逐層解碼獲得最終的分割掩碼.本節(jié)以Stage6為例,舉例說(shuō)明第六階段內(nèi)的輸入輸出格式,其余階段輸入輸出格式與Stage6類(lèi)似.在Stage6中首先獲取與解碼階段對(duì)應(yīng)深度的編碼階段Stage4中各DSC AM模塊輸出特征F 4 3、F 4 5和F 47,然后將其逐元素相加后與Stage5階段的輸出F5在通道方向上進(jìn)行合并,并將合并后的結(jié)果使用DSCAM模塊處理,最后將處理后的特征進(jìn)行上采樣作為本階段的輸出.輸入輸出公式為:
式中:DSC AM表示DSCAM處理模塊,UP為上采樣操作.特別注意的是,由于在Stage7、Stage8和Stage9中,與之對(duì)應(yīng)的編碼階段的處理模塊為DSCBM,所以在獲取多尺度特征時(shí),需要先將DSCBM模塊中各分支所有的輸出特征進(jìn)行相加作為本模塊的輸出特征,再將各通道特征進(jìn)行融合.
本文在ISIC2017數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)[11],并對(duì)所提方法進(jìn)行評(píng)估.通過(guò)與目前先進(jìn)的網(wǎng)絡(luò)模型進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明:MCPU-Net在ISIC2017數(shù)據(jù)集上具有更好的分割結(jié)果.在接下來(lái)的章節(jié)中,將首先對(duì)數(shù)據(jù)集和評(píng)估指標(biāo)進(jìn)行介紹.然后通過(guò)一系列的消融實(shí)驗(yàn),驗(yàn)證所提出的動(dòng)態(tài)卷積模塊、多通道并行架構(gòu)的有效性.最后與一些先進(jìn)的網(wǎng)絡(luò)模型進(jìn)行比較,驗(yàn)證所提模型的有效性.
本文使用ISIC2017挑戰(zhàn)數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練和測(cè)試.該數(shù)據(jù)集取自2017年舉辦的Kaggle皮膚損傷分割競(jìng)賽.該數(shù)據(jù)集共由2 750張圖像組成.包括2 000張訓(xùn)練圖像、150張驗(yàn)證圖像和600張測(cè)試圖像.ISIC2017數(shù)據(jù)集中的所有皮膚鏡圖像已被皮膚科醫(yī)生分類(lèi)為良性痣、脂溢性角化病或黑色素瘤.此外,ISIC2017數(shù)據(jù)集提供了原始皮膚鏡圖像及其真實(shí)二值掩模,這些圖像均由皮膚科醫(yī)生手動(dòng)標(biāo)注.?dāng)?shù)據(jù)集中圖像分辨率范圍從540×722到4 499×6 748像素不等.由于醫(yī)學(xué)皮膚鏡圖像的大小變化,大多數(shù)ISIC2017數(shù)據(jù)集的長(zhǎng)寬比為3︰4.為了評(píng)估所提出的方法的性能,采用了ISIC推薦的幾個(gè)指標(biāo),即準(zhǔn)確性(Acc)、敏感性(SE)、特異性(SP)、Jaccard指數(shù)(JI)和骰子系數(shù)(Dice).它們的計(jì)算公式分別為:
式中:TP和FP分別代表真陽(yáng)性和假陽(yáng)性;TN和FN分別代表真陰性和假陰性.
本文通過(guò)PyTorch(深度學(xué)習(xí)框架)框架搭建所提模型,通過(guò)在NVIDIA Tesla V100 GPU上進(jìn)行訓(xùn)練來(lái)實(shí)現(xiàn)所設(shè)計(jì)的方法.實(shí)驗(yàn)數(shù)據(jù)統(tǒng)一縮放至224×224大小,優(yōu)化器選擇Adam,學(xué)習(xí)率設(shè)置為2×10?4.同時(shí),將批處理大小設(shè)置為5,并在網(wǎng)絡(luò)末端采用多損失函數(shù)融合的方法(IoU loss+交叉熵混合損失函數(shù)).在被監(jiān)測(cè)的指標(biāo)沒(méi)有進(jìn)一步的顯著變化之前(至少50個(gè)epoch),保存訓(xùn)練的最佳參數(shù),并預(yù)測(cè)測(cè)試數(shù)據(jù).最后,以0.5的閾值對(duì)所有預(yù)測(cè)結(jié)果進(jìn)行閾值化.
2.3.1 自適應(yīng)動(dòng)態(tài)卷積模塊消融實(shí)驗(yàn)
為了驗(yàn)證自適應(yīng)動(dòng)態(tài)卷積模塊的有效性,通過(guò)構(gòu)建具有不同通道數(shù)的MCPU-Net進(jìn)行消融實(shí)驗(yàn).由于MCPUNet中通道個(gè)數(shù)由DSC BM模塊的分支數(shù)決定,所以在編碼階段使用DSC BM-2、DSC BM-3與DSCBM-4分別來(lái)構(gòu)建2通道MCPU-Net-2網(wǎng)絡(luò)、3通道MCPU-Net-3網(wǎng)絡(luò)和4通道MCPU-Net-4網(wǎng)絡(luò)的編碼部分.在解碼階段由于使用DSCAM模塊來(lái)融合多尺度特征,而DSCAM模塊內(nèi)部具有多分支結(jié)構(gòu),故也對(duì)其分支數(shù)進(jìn)行了消融.使用DSCAM-1、DSC AM-2與DSC AM-3分別表示1分支DSC AM、2分支DSC AM和3分支DSCAM.將具有不同分支數(shù)的DSCBM與DSCAM模塊進(jìn)行組合構(gòu)建具有不同通道數(shù)的MCPU-Net,并在ISIC2017數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如表1所示.
表1 通道數(shù)與分支數(shù)消融對(duì)比
如表1所示,選擇不同分支數(shù)的自適應(yīng)動(dòng)態(tài)卷積模塊來(lái)構(gòu)建網(wǎng)絡(luò),所獲得的網(wǎng)絡(luò)性能差異是明顯的.通過(guò)增加自適應(yīng)動(dòng)態(tài)卷積模塊的分支數(shù),模型的性能呈上升趨勢(shì),并在使用DSC BM-3與DSCAM-3組合時(shí)JI指標(biāo)達(dá)到最大.
固定DSCBM分支數(shù)時(shí),DSC AM不同分支數(shù)對(duì)模型性能有不同程度的影響.如表1所示,DSCBM分支數(shù)固定的情況下,與DSCAM-1分支比較,隨著分支數(shù)的增加,模型的JI指標(biāo)分別增加0.005與0.008(DSC BM-2)、0.005與0.009(DSC BM-3)、0.003與0.008(DSC BM-4).這說(shuō)明增加DSCAM模塊的分支數(shù),模型區(qū)分病變區(qū)域與正常皮膚的準(zhǔn)確度得到提升.在DSCAM模塊內(nèi)部通過(guò)融合更大尺度的特征,使網(wǎng)絡(luò)在空間維度上注意到跨度更大的像素點(diǎn)之間的聯(lián)系,從而更好地區(qū)分病變與非病變區(qū)域.同時(shí),對(duì)具有不同分支結(jié)構(gòu)的MCPU-Net分割結(jié)果進(jìn)行了可視化表示,以便直觀(guān)地表現(xiàn)不同分支結(jié)構(gòu)的組合對(duì)分割結(jié)果產(chǎn)生的影響.如圖7所示,Image表示原始皮膚鏡圖片,GT表示對(duì)應(yīng)分割標(biāo)簽,N-n表示使用DSC BM-N與DSCAM-n的組合所構(gòu)建的MCPU-Net網(wǎng)絡(luò).如圖7第3行3-1、3-2和3-3所示,隨著DSCAM分支數(shù)的增加,模型對(duì)病變區(qū)域識(shí)別范圍逐步擴(kuò)大.通過(guò)增加DSC AM分支數(shù),模型對(duì)病變區(qū)域的識(shí)別準(zhǔn)確性得到提高,識(shí)別范圍擴(kuò)大.
固定DSC AM分支數(shù)時(shí),隨著DSCBM分支數(shù)的增加,模型的性能也在逐步上升,并在分支數(shù)為3時(shí)達(dá)到最大.在DSCAM分支數(shù)為3的情況下,使用DSC BM-3比DSC BM-2的模型JI指標(biāo)增加0.007.在DSCAM分支數(shù)為2的情況下,使用DSCBM-3比DSC BM-2的模型JI指標(biāo)增加0.006.在DSCAM分支數(shù)為1的情況下,使用DSCBM-3比DSC BM-2的模型JI指標(biāo)增加0.006.這說(shuō)明增加DSCBM模塊的分支數(shù),網(wǎng)絡(luò)中不同尺度特征的數(shù)量增加,模型區(qū)分正負(fù)樣本的準(zhǔn)確性得到提升,這對(duì)于具有挑戰(zhàn)性的數(shù)據(jù)集來(lái)說(shuō)是必要的.如圖7第1行2-1與3-1所示,增加DSCBM模塊的分支數(shù),模型在恢復(fù)分割邊界時(shí),將正常皮膚與病變區(qū)域難以區(qū)分的邊界進(jìn)行準(zhǔn)確恢復(fù).這是由于模型通道數(shù)不同,在解碼階段所融合的淺層特征的數(shù)量也是不同的.3-1通過(guò)融合更多的淺層細(xì)節(jié)信息,在恢復(fù)邊界信息時(shí)比2-1更加準(zhǔn)確.通過(guò)實(shí)驗(yàn)證明,本文設(shè)計(jì)的自適應(yīng)動(dòng)態(tài)卷積模塊對(duì)網(wǎng)絡(luò)性能的提升是有效的.
圖7 消融模型實(shí)驗(yàn)結(jié)果
值得注意的是,自適應(yīng)動(dòng)態(tài)卷積模塊的分支數(shù)并不是越多越好.將DSC BM模塊的分支數(shù)擴(kuò)展到4時(shí),模型性能出現(xiàn)大幅下降,這可能是淺層信息中所包含的噪音導(dǎo)致的.模型通道數(shù)的增加導(dǎo)致在解碼階段引入更多的噪音,從而影響最終的分割結(jié)果.
2.3.2 網(wǎng)絡(luò)架構(gòu)消融實(shí)驗(yàn)與DSCAM對(duì)比實(shí)驗(yàn)
在多模態(tài)領(lǐng)域,多數(shù)網(wǎng)絡(luò)同樣使用具有多通道架構(gòu)的網(wǎng)絡(luò)來(lái)處理圖像.例如HyperDense-Net[12]通過(guò)改變各通道輸出數(shù)據(jù)順序的方式來(lái)構(gòu)建多通道網(wǎng)絡(luò),其方法如圖8所示.為了將所提多通道網(wǎng)絡(luò)架構(gòu)與傳統(tǒng)多通道網(wǎng)絡(luò)架構(gòu)進(jìn)行比較,將使用HyperDense-Net的方式構(gòu)建的網(wǎng)絡(luò)與使用本文所設(shè)計(jì)的DSC BM模塊構(gòu)建的網(wǎng)絡(luò)進(jìn)行比較.由于使用DSC BM模塊搭建網(wǎng)絡(luò)會(huì)使網(wǎng)絡(luò)中參數(shù)量增加,從而影響對(duì)比結(jié)果.為了降低干擾,本文使用HyperDense-Net的方式構(gòu)建網(wǎng)絡(luò)時(shí),在編碼階段將DSC BM模塊全部替換為DSCAM模塊,所構(gòu)建的網(wǎng)絡(luò)記為HyNet,并將MCPU-Net網(wǎng)絡(luò)中解碼階段的DSCAM模塊全部去除,記為MCP-AM.實(shí)驗(yàn)結(jié)果表明:本文所提出的網(wǎng)絡(luò)架構(gòu)優(yōu)于傳統(tǒng)多通道網(wǎng)絡(luò)架構(gòu).如表2所示,MCP-AM與HyNet相比,JI指標(biāo)提高0.003,Acc指標(biāo)提高0.002.為了進(jìn)一步對(duì)網(wǎng)絡(luò)架構(gòu)進(jìn)行對(duì)比,還將HyNet在解碼階段也插入DSC AM模塊記為HyNet+AM,與MCPU-Net相比除了在編碼階段MCPU-Net使用DSC BM構(gòu)建網(wǎng)絡(luò),HyNet+AM使用HyperDense-Net的方式構(gòu)建網(wǎng)絡(luò)之外,其余網(wǎng)絡(luò)部分完全相同.由表2可知,MCPU-Net與HyNet+AM相比,JI指標(biāo)提高0.005,Dice指標(biāo)提高0.004,SE指標(biāo)提高0.012.同時(shí)實(shí)驗(yàn)結(jié)果也證明了DSC AM模塊的有效性,MCPU-Net網(wǎng)絡(luò)去除DSCAM模塊后,JI指標(biāo)下降0.011,Acc指標(biāo)下降0.003.HyNet+AM在去除DSCAM模塊后,JI指標(biāo)下降0.009,Acc指標(biāo)下降0.006.
為了證明DSC AM模塊可以方便地插入到網(wǎng)絡(luò)中提高模型性能,將DSCAM模塊、傳統(tǒng)通道注意力模塊、傳統(tǒng)相關(guān)注意力模塊、傳統(tǒng)通道與相關(guān)注意力模塊的組合分別插入到U-Net[13]網(wǎng)絡(luò)所有的跳躍連接中,并分別記為U-Net+AM、U-Net+C、U-Net+R和U-Net+C+R進(jìn)行比較,傳統(tǒng)注意力模塊結(jié)構(gòu)如圖8所示.結(jié)果如表2所示,所提出的DSCAM模塊對(duì)于U-Net網(wǎng)絡(luò)性能的提升是巨大的,U-Net網(wǎng)絡(luò)在插入DSCAM模塊后,JI指標(biāo)提升0.020,Acc指標(biāo)提升0.009,Dice指標(biāo)提升0.015.與傳統(tǒng)的注意力模塊相比,U-Net網(wǎng)絡(luò)插入DSCAM模塊比插入傳統(tǒng)的通道注意力模塊在JI指標(biāo)上提高0.005、Acc指標(biāo)上提高0.006、Dice指標(biāo)上提高0.003;插入DSC AM模塊比插入傳統(tǒng)相關(guān)注意力模塊在JI指標(biāo)上提高0.009、Acc指標(biāo)上提高0.005、Dice指標(biāo)上提高0.005;插入DSC AM模塊比插入傳統(tǒng)注意力模塊與相關(guān)注意力模塊的組合在JI指標(biāo)上提高0.001、Dice指標(biāo)上提高0.002.上述實(shí)驗(yàn)充分證明了本文所提出的網(wǎng)絡(luò)架構(gòu)與DSC AM模塊的有效性.
表2 分支結(jié)構(gòu)消融與DSC AM模塊消融結(jié)果
圖8 HyperDense-Net連接方式與傳統(tǒng)注意力模塊
2.3.3 不同分割模型對(duì)比實(shí)驗(yàn)
將MCPU-Net與現(xiàn)有的一些分割方法進(jìn)行了比較,結(jié)果如表3所示.所評(píng)估的模型包括CENet[3]、DANet[14]、Deeplabv3+[9]、DoubleU-net[15]、HRNet[16]、Unet++[5]、PSPNet[17]、R2Unet[4]、ResUNet[4]、SCSEUNet[18]、Seg Net[19]和IVD-Net[7],所有的對(duì)比網(wǎng)絡(luò)均參考了原論文的配置進(jìn)行實(shí)現(xiàn).此外,由于IVD-Net是多模態(tài)模型,在實(shí)驗(yàn)中為使模型能夠訓(xùn)練,將各模態(tài)數(shù)據(jù)替換為多個(gè)相同的輸入圖片進(jìn)行訓(xùn)練.
表3 與一些分割模型比較結(jié)果
如表3所示,以往的模型對(duì)于復(fù)雜度高和具有挑戰(zhàn)性的數(shù)據(jù)集,如ISIC2017數(shù)據(jù)集并沒(méi)有得到很好的分割效果.這些模型中CENet的JI指標(biāo)達(dá)到0.760、Acc指標(biāo)達(dá)到0.934,這是由于CENet使用了優(yōu)秀的上下文提取模塊,并且使用大量的跳躍連接為網(wǎng)絡(luò)提供豐富淺層細(xì)節(jié)信息,這也證明了融合淺層信息的重要性.DANet通過(guò)使用雙通道并行注意力模塊跨空間建模像素之間的聯(lián)系,有效解決局部感受野的問(wèn)題,其JI指標(biāo)達(dá)到0.761.R2Unet使用循環(huán)卷積模塊作為基本的處理模塊,并使用U-Net架構(gòu)構(gòu)建網(wǎng)絡(luò),其JI指標(biāo)達(dá)到0.760.相比之下,MCPUNet不僅使用并行的多通道編碼器為網(wǎng)絡(luò)提供充足的淺層特征,而且使用DSC AM模塊更好地融合這些特征,使所提模型在復(fù)雜和具有挑戰(zhàn)性的ISIC2017數(shù)據(jù)集中取得最好的結(jié)果.
為了更好地展現(xiàn)網(wǎng)絡(luò)的分割效果,本文將各網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行了可視化表示,如圖9所示.Image為輸入皮膚鏡圖像,GroundTruth為對(duì)應(yīng)分割標(biāo)簽,其余列為不同模型分割結(jié)果.在這些分割模型中,CENet的分割結(jié)果與MCPU-Net十分相似,但是對(duì)病變區(qū)域的邊界及中等大小目標(biāo)的處理不如MCPU-Net,這可能與MCPUNet中引入更大感受野的卷積結(jié)構(gòu)有關(guān).在小目標(biāo)處理上,DANet容易將與膚色相近的像素誤認(rèn)為病變區(qū)域(如圖9第5行第5列),這可能是由于淺層信息不足,導(dǎo)致網(wǎng)絡(luò)未能準(zhǔn)確地對(duì)病變區(qū)域邊界的陰性與陽(yáng)性進(jìn)行區(qū)分.在R2UNet模型中,由于自定義的高效處理模塊,在正負(fù)樣本差異大時(shí)表現(xiàn)良好,但在病變區(qū)域與正常皮膚區(qū)分度小的區(qū)域,病變區(qū)域的邊界處理模糊.
圖9 不同分割模型的分割結(jié)果
為了進(jìn)一步對(duì)網(wǎng)絡(luò)中各通道輸出特征進(jìn)行分析,將MCPU-Net編碼部分中步驟2與步驟3的各分支輸出特征進(jìn)行了可視化表示,如圖10所示.顏色亮度高代表激活數(shù)值大,顏色亮度低代表激活數(shù)值?。渲校旱?列表示輸入與預(yù)測(cè)結(jié)果,第2~4列為第一通道中DSC BM各分支輸出特征,第5~7列為第二通道中DSCBM各分支輸出特征,第8~10列為第三通道中DSCBM各分支輸出特征.
圖10 特征圖可視化結(jié)果
如圖10所示,對(duì)比第1行中各通道輸出特征圖發(fā)現(xiàn),第一通道各分支主要關(guān)注與任務(wù)相關(guān)的紋理信息,而第二、第三通道各分支主要對(duì)病變區(qū)域的邊界信息感興趣.對(duì)比第3行中各通道輸出特征圖發(fā)現(xiàn),第一通道各分支主要關(guān)注全局紋理信息,而第二、第三通道各分支主要關(guān)注病變區(qū)域的紋理信息.這證明了多通道并行架構(gòu)中,不同通道對(duì)于處理任務(wù)具有不同的關(guān)注點(diǎn).并且在同一個(gè)通道中,不同分支所關(guān)注的特征也是有差異的.在第1行通道一中,第一分支由于具有小感受野,對(duì)于全局紋理有較高的響應(yīng)度;第二分支具有中等感受野,對(duì)圖中偏左部分響應(yīng)度高;第三分支具有大感受野,對(duì)圖中偏右部分響應(yīng)度高.同樣的情形,在第3行通道一中也有體現(xiàn).由于不同分支具有不同的響應(yīng)區(qū)域,故各分支所提取的特征存在差異,這些具有差異的特征信息,確實(shí)可以增加網(wǎng)絡(luò)中特征信息的種類(lèi)與數(shù)量.
提出了一種多通道并行的網(wǎng)絡(luò)架構(gòu)用于皮膚癌病變區(qū)域分割,它可以增加網(wǎng)絡(luò)當(dāng)中特征信息的總量.具體來(lái)講,本文設(shè)計(jì)了DSC BM模塊用來(lái)構(gòu)建多通道并行網(wǎng)絡(luò),多通道網(wǎng)絡(luò)可以增加網(wǎng)絡(luò)中特征信息的總量,為解碼階段提供大量?jī)?yōu)質(zhì)的淺層特征,在解碼階段使用DSC AM模塊融合獲取的淺層特征,從而獲取更加精準(zhǔn)的分割結(jié)果.同時(shí)通過(guò)大量實(shí)驗(yàn)證明,使用DSC BM模塊構(gòu)建網(wǎng)絡(luò)的方法與DSC AM模塊的有效性.所提出的DSC AM模塊可以有效地嵌入到各種端到端網(wǎng)絡(luò)中以提升網(wǎng)絡(luò)總體性能.