梁秀滿(mǎn),薛文強(qiáng)+,牛福生,張晉霞
(1.華北理工大學(xué) 電氣工程學(xué)院,河北 唐山 063210; 2.華北理工大學(xué) 礦業(yè)工程學(xué)院,河北 唐山 063210)
工藝礦物學(xué)工作人員操作顯微鏡鑒定礦石對(duì)專(zhuān)業(yè)知識(shí)和實(shí)踐經(jīng)驗(yàn)要求很高,方法原始且工作耗時(shí)長(zhǎng),使用計(jì)算機(jī)快速分割出礦石顯微圖像中成分對(duì)工藝礦物學(xué)的科研人員有著重大意義,因此逐漸受到學(xué)者們的關(guān)注,如呼和等[1]、朱磊等[2]分別采用超像素和模糊C均值聚類(lèi)算法在砂巖圖像分割上取得良好的效果,但是由于顯微鏡下礦石圖像顏色及紋理特征復(fù)雜多樣[3],一些礦物采用傳統(tǒng)圖像處理方法很難將其分割,隨著近幾年深度學(xué)習(xí)語(yǔ)義分割的發(fā)展,此類(lèi)礦物分割成為了可能,如Filippo M P等[4]采用語(yǔ)義分割網(wǎng)絡(luò)對(duì)反射光顯微鏡圖像中環(huán)氧樹(shù)脂不透明和非透明礦物進(jìn)行分割,本文算法的分割任務(wù)是在磁鐵礦石顯微圖像下分割石英,屬于二分類(lèi)任務(wù)。
在過(guò)去的幾年中語(yǔ)義分割的二分類(lèi)分割方案逐漸成熟,如學(xué)者們?cè)赨-net的基礎(chǔ)上進(jìn)行改進(jìn)分別提出了U-Net++[5]和U-Net3+[6],Gu等[7]在U型網(wǎng)絡(luò)中引入空洞卷積和金字塔池化,使得分割精度進(jìn)一步提升。然而一塊礦石光薄片尺寸為3.5×3.5 cm,在50倍物鏡的顯微鏡下需要拍攝上千張照片才能拍完全貌,采用上述分割策略對(duì)這些照片分割需要花費(fèi)大量的時(shí)間。
實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)通過(guò)平衡神經(jīng)網(wǎng)絡(luò)的運(yùn)行速度和分割精度推動(dòng)了語(yǔ)義分割網(wǎng)絡(luò)更廣泛的應(yīng)用[8-11],本文受到實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)DFANet[11]中所提出的特征復(fù)用結(jié)構(gòu)的啟發(fā),對(duì)U型網(wǎng)絡(luò)的解碼器進(jìn)行改進(jìn),提出了多特征融合解碼器結(jié)構(gòu),并采用輕量化ResNet-34[12]為編碼器設(shè)計(jì)了MA-net網(wǎng)絡(luò),因其在運(yùn)行過(guò)程中不斷進(jìn)行特征補(bǔ)充,網(wǎng)絡(luò)通道數(shù)可以極大縮減,進(jìn)而提高實(shí)時(shí)性,在磁鐵礦石顯微圖像數(shù)據(jù)集上取得了良好分割效果。
本文分割任務(wù)為在磁鐵礦顯微圖像下分割石英,如圖1中標(biāo)簽白色區(qū)域?yàn)槭?,考慮到磁鐵礦顯微圖像語(yǔ)義信息不復(fù)雜,人工標(biāo)注成本過(guò)高,制作的數(shù)據(jù)集中訓(xùn)練數(shù)據(jù)集80張,測(cè)試數(shù)據(jù)集20張,采用垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、隨機(jī)旋轉(zhuǎn)n個(gè)90°、仿射變換和隨機(jī)平移等策略的組合對(duì)圖像進(jìn)行增強(qiáng)。
在采用以上數(shù)據(jù)增強(qiáng)的情況下為了進(jìn)一步提高數(shù)據(jù)的多樣性,并且降低訓(xùn)練過(guò)程過(guò)擬合現(xiàn)象,本文提出了一種區(qū)域克隆數(shù)據(jù)集增強(qiáng)方法,在訓(xùn)練過(guò)程中從數(shù)據(jù)集中隨機(jī)克隆另外一張圖片的部分區(qū)域到索引圖像,同時(shí)標(biāo)簽也執(zhí)行相同操作。此種方法應(yīng)用到礦物顯微圖像數(shù)據(jù)集中增加了數(shù)據(jù)集豐富度,本文實(shí)驗(yàn)部分有對(duì)該方法的驗(yàn)證。如圖2所示為區(qū)域克隆數(shù)據(jù)增強(qiáng)方法。
本文網(wǎng)絡(luò)的整體結(jié)構(gòu)為編碼解碼結(jié)構(gòu),傳統(tǒng)的編碼器和解碼器采用單一路徑的方式下采樣和上采樣,各個(gè)過(guò)程聯(lián)系不緊密,并且深層特征圖很難在解碼的過(guò)程中恢復(fù)細(xì)節(jié)信息, U型網(wǎng)絡(luò)采用跳躍連接的方法將編碼器中淺層的細(xì)節(jié)信息放到解碼器中進(jìn)行特征補(bǔ)充,但是粗糙的融合必然會(huì)導(dǎo)致許多細(xì)節(jié)信息的丟失,因此網(wǎng)絡(luò)的各個(gè)階段需要有較多的通道數(shù)以保證可以提取到更多的信息,這樣導(dǎo)致模型參數(shù)多,計(jì)算成本增加。文獻(xiàn)[11]提出了一種階段性特征復(fù)用結(jié)構(gòu),將編碼器部分拆分成多個(gè)階段,前一階段的最終輸出特征圖放大后作為下一階段的輸入,每個(gè)階段特征提取的過(guò)程中融合前一階段的特征圖,該方法使得網(wǎng)絡(luò)聯(lián)系更加緊密,由于該結(jié)構(gòu)在各個(gè)階段中均有多個(gè)階段的特征圖對(duì)空間信息進(jìn)行補(bǔ)充,相比于傳統(tǒng)結(jié)構(gòu)可以極大壓縮特征圖通道數(shù),從而縮減參數(shù)量,然而DFANet相比于U型網(wǎng)絡(luò)在二分類(lèi)任務(wù)中推理速度慢,并且對(duì)于連續(xù)下采樣造成的空間損失恢復(fù)能力較差[13],U型網(wǎng)絡(luò)和階段性特征復(fù)用結(jié)構(gòu)如圖3所示。
本文結(jié)合文獻(xiàn)[11]提出的特征復(fù)用結(jié)構(gòu)和編碼解碼結(jié)構(gòu)提出了一種聚合多個(gè)階段特征的解碼器結(jié)構(gòu),該策略在反復(fù)進(jìn)行編碼和解碼操作過(guò)程中融合所有同尺度的特征圖,編碼器特征圖和解碼器特征圖融合后再一次進(jìn)行編碼可增加感受野使得對(duì)大目標(biāo)分割更全面,同時(shí)可以進(jìn)一步學(xué)習(xí)到融合特征圖的相關(guān)性,使得融合更恰當(dāng)。該策略既具有U型網(wǎng)絡(luò)恢復(fù)空間信息的能力,又具有特征復(fù)用結(jié)構(gòu)特征圖聯(lián)系緊密的特點(diǎn),本文采用多特征融合解碼器結(jié)構(gòu)和輕量化ResNet-34搭建了MA-net如圖4所示。
在深度卷積神經(jīng)網(wǎng)絡(luò)中,往往淺層的特征圖尺寸較大,計(jì)算量受通道數(shù)影響也更加的敏感,因此本文第一個(gè)卷積層采用了16通道,編碼器參數(shù)和輸出通道數(shù)見(jiàn)表1,其中“/2”表示2倍下采樣,“×N”表示模塊個(gè)數(shù),“(N1,N2)”分別表示卷積層輸入通道數(shù)和輸出通道數(shù),同時(shí)借鑒了LinkNet[9]的解碼器結(jié)構(gòu),將第一個(gè)卷積核輸出通道數(shù)縮減為輸入的1/4,并將此作為第二個(gè)卷積層的輸入,這樣每個(gè)解碼器塊的輸入和輸出通道不變的情況下參數(shù)量極大減少,解碼器結(jié)構(gòu)參數(shù)見(jiàn)表2,其中“*2”表示2倍上采樣。
表1 編碼器模塊參數(shù)
注意力機(jī)制可以使用深層的信息來(lái)指導(dǎo)前饋網(wǎng)絡(luò),并建立遠(yuǎn)程依賴(lài)關(guān)系[14],首先進(jìn)行全局平均池化以保持最大的感受野,再通過(guò)對(duì)每個(gè)特征圖的通道分配可學(xué)習(xí)的權(quán)值,通過(guò)訓(xùn)練可以使模型更加關(guān)注于分類(lèi)的主要物體[15]。BiSeNet[10]、DFN[16]都引入了通道注意力機(jī)制,使得分割任務(wù)達(dá)到了世界先進(jìn)水平,注意力機(jī)制在不斷發(fā)展中出現(xiàn)了多個(gè)版本,本文采用文獻(xiàn)[10]中提出的ARM模塊,如圖5所示。
表2 解碼器模塊參數(shù)
在MA-net網(wǎng)絡(luò)的末尾引入了在文獻(xiàn)[7]中提出的殘差多內(nèi)核池化(residual multi-kernel pooling,RMP),它主要依靠多個(gè)有效的視野來(lái)檢測(cè)不同大小的對(duì)象[7],該模塊使用4個(gè)不同大小的池化內(nèi)核收集上下文信息以豐富高級(jí)語(yǔ)義信息,然后通過(guò)雙線(xiàn)性插值獲得與原始特征圖相同大小的特征并通過(guò)1×1卷積將維度縮減為1,最后,將原始特征與上采樣的特征圖合并通道,該RMP結(jié)構(gòu)可以應(yīng)對(duì)圖像中對(duì)象尺寸的巨大變化。該模塊引入的參數(shù)較少,僅為388個(gè)參數(shù),雖然會(huì)導(dǎo)致計(jì)算成本稍有增加,但是獲得的準(zhǔn)確率提升更加重要。如圖6所示為RMP模塊。
本文使用濾波器響應(yīng)歸一化(filter response normalization,F(xiàn)RN)[17]取代(batch normalization,BN),同時(shí)使用對(duì)應(yīng)的激活層閾值線(xiàn)性單元(thresholded linear unit,TLU)代替ReLU[18],F(xiàn)RN可表示為
(1)
(2)
其中,x為一個(gè)N維度(H×W)的向量,可以看到其并沒(méi)有對(duì)batch的依賴(lài)。γ和β為可學(xué)習(xí)的參數(shù),與BN層減去均值然后除以標(biāo)準(zhǔn)差的歸一化方法不同的是FRN減去二次范數(shù)的平均值。此方法可消除卷積和非線(xiàn)性激活帶來(lái)的尺度問(wèn)題,有助于模型訓(xùn)練。公式里的是一個(gè)很小的正常量,以防止除0。
為了解決ReLU激活產(chǎn)生0值的問(wèn)題,同時(shí)在文獻(xiàn)[17]提出FRN之后采用的閾值化的ReLU,即TLU對(duì)訓(xùn)練性能提升很重要。TLU表達(dá)式如下,其中τ是一個(gè)可學(xué)習(xí)參數(shù)
zi=max(yi,τ)=ReLU(yi-τ)+τ
(3)
實(shí)驗(yàn)采用的評(píng)估指標(biāo)為Dice系數(shù),并且不對(duì)測(cè)試集進(jìn)行任何的增強(qiáng),例如多尺度或者多角度以使得預(yù)測(cè)結(jié)果質(zhì)量更高[11]。Dice系數(shù)是一種集合相似度度量函數(shù),通常用于計(jì)算兩個(gè)樣本的相似度,值的范圍為0到1,分割最好時(shí)值為1,最差時(shí)為0,Dice表達(dá)式如式(4)所示,其中TP、FP和FN分別代表真陽(yáng)性、假陽(yáng)性和假陰性的數(shù)量
(4)
實(shí)驗(yàn)操作系統(tǒng)是Arch,Pytorch深度學(xué)習(xí)框架,批處理(batch size)為8,Adam優(yōu)化器,采用Dice系數(shù)損失函數(shù)[19],輸入圖像尺寸均為512×512。
編碼器輸出層通道數(shù)是網(wǎng)絡(luò)加速的主要限制之一,本次實(shí)驗(yàn)采用ResNet-18為編碼器基準(zhǔn)網(wǎng)絡(luò)在磁鐵礦顯微圖像數(shù)據(jù)集上對(duì)3組通道數(shù)組合進(jìn)行實(shí)驗(yàn),見(jiàn)表3,可以看到隨著編碼器每個(gè)層輸出的通道數(shù)增多,計(jì)算量明顯增加,通道數(shù)策略2的分割精度比策略1有較大的提升,策略3相比于策略2分割精度近乎不變,我們認(rèn)為分割任務(wù)不復(fù)雜,過(guò)多的參數(shù)只會(huì)產(chǎn)生冗余,并且網(wǎng)絡(luò)結(jié)構(gòu)限制了其提取語(yǔ)義信息的能力。
為了進(jìn)一步探索MA-net編碼器基準(zhǔn)網(wǎng)絡(luò)深度對(duì)網(wǎng)絡(luò)性能的影響,并選擇合適的編碼器網(wǎng)絡(luò),本實(shí)驗(yàn)采用通道策略2,在磁鐵礦顯微圖像數(shù)據(jù)集上對(duì)比輕量化ResNet-18,ResNet-34的分割表現(xiàn),為了驗(yàn)證網(wǎng)絡(luò)深度和通道數(shù)同時(shí)增加對(duì)分割性能的影響,增加一組采用原始參數(shù)ResNet-34的對(duì)照實(shí)驗(yàn),用ResNet-34-B表示,表4展示了3種編碼器基準(zhǔn)網(wǎng)絡(luò)的分割表現(xiàn)和運(yùn)算量,可以發(fā)現(xiàn)網(wǎng)絡(luò)加深對(duì)模型分割性能有一定的提升,過(guò)深的網(wǎng)絡(luò)和過(guò)多的通道數(shù)作用不大,計(jì)算量反而急劇增加。之后實(shí)驗(yàn)均采用輕量化ResNet-34,通道數(shù)策略2。
表3 MA-net通道數(shù)對(duì)比實(shí)驗(yàn)
表4 MA-net基準(zhǔn)網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)
本文在磁鐵礦顯微圖像數(shù)據(jù)集上進(jìn)行了MA-net消融實(shí)驗(yàn),分析各模塊性能,其Dice系數(shù)、參數(shù)量、計(jì)算量見(jiàn)表5,可以看出注意力機(jī)制ARM對(duì)模型分割精度有一定的作用,采用殘差多內(nèi)核池化RMP對(duì)模型的精度提升較大,但是增加的運(yùn)算量是最少的,引入FRN歸一化方法分割精度也稍有提升,同時(shí)計(jì)算量反而降低。
表5 MA-net在礦物分割數(shù)據(jù)集上的消融實(shí)驗(yàn)
采用本文提出的MA-net和U-net,Ce-net在磁鐵礦顯微圖像數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見(jiàn)表6,可以看到MA-net分割精度都超過(guò)其余兩個(gè)網(wǎng)絡(luò),同時(shí)參數(shù)量和計(jì)算量是最小的。
表6 磁鐵礦顯微圖像數(shù)據(jù)集上模型對(duì)比實(shí)驗(yàn)
圖7為分割效果對(duì)比圖,可以看到Ce-net在分割效果上遠(yuǎn)低于MA-net,Ce-net分割圖像中容易被一些高光部分干擾,雖然整體輪廓分割效果較好,但是圖像內(nèi)部存在大量的孔洞,而MA-net很少出現(xiàn)此種情況,Ce-net雖然在編碼器末端加入了空洞卷積和多內(nèi)核池化增加了感受野,但是編碼器特征圖和解碼器特征圖采用了簡(jiǎn)單相加的方式融合,在上采樣的過(guò)程中必然會(huì)發(fā)生損失信息和融合不當(dāng)?shù)那闆r,MA-net所采用的多特征融合解碼策略能夠充分提取深層特征與淺層特征的信息,學(xué)習(xí)其相關(guān)性來(lái)處理分割結(jié)果中的大目標(biāo),極大克服了上采樣過(guò)程中信息損失和融合質(zhì)量差的問(wèn)題,同時(shí)每次融合淺層的特征圖后均進(jìn)行下采樣,擴(kuò)大感受野有利于大目標(biāo)的空間信息補(bǔ)充。
為了更公平分析模型性能,實(shí)驗(yàn)另外增加兩個(gè)標(biāo)準(zhǔn)公開(kāi)數(shù)據(jù)集對(duì)模型性能進(jìn)行測(cè)試,分別是LUNA挑戰(zhàn)賽提供的肺部分割數(shù)據(jù)集,包含267個(gè)2D樣本,本文采用其中的80%用于訓(xùn)練,20%用于測(cè)試;DRIVE數(shù)據(jù)集,分割任務(wù)是視網(wǎng)膜檢測(cè),在DRIVE中包含40張圖片,分為20張用于訓(xùn)練,20張用于測(cè)試。兩個(gè)數(shù)據(jù)集中LUNA數(shù)據(jù)集的分割目標(biāo)較大。
我們將提出的MA-net和先進(jìn)的算法在兩個(gè)數(shù)據(jù)集上進(jìn)行比較,如表7所示在LUNA數(shù)據(jù)集上超越了其余兩者,而在DRIVE數(shù)據(jù)集下分割精度遠(yuǎn)低于其余網(wǎng)絡(luò),分析原因可能是MA-net網(wǎng)絡(luò)為了降低計(jì)算量第一次下采樣未參與跳躍連接,同時(shí)通道數(shù)極大縮減導(dǎo)致分割微小目標(biāo)能力較差。
首先進(jìn)行小目標(biāo)的分割能力分析,如圖8所示為在DRIVE數(shù)據(jù)集下分割眼底血管對(duì)比結(jié)果,DRIVE數(shù)據(jù)集中圖像語(yǔ)義信息簡(jiǎn)單,但是分割微小目標(biāo)是難點(diǎn),從圖中可以看出U-net分割微小目標(biāo)的效果最好,Ce-net和MA-net可將比較大的目標(biāo)分割出,MA-net忽略了絕大多數(shù)的微小目標(biāo),分析原因,在深度神經(jīng)網(wǎng)絡(luò)中,淺層特征圖細(xì)節(jié)信息多,深層特征圖全局信息較多,U型網(wǎng)絡(luò)在解碼過(guò)程中直接融合淺層的特征圖進(jìn)行細(xì)節(jié)恢復(fù),而MA-net在解碼的過(guò)程中對(duì)淺層的特征圖再次進(jìn)行了一次下采樣,增加了大目標(biāo)的權(quán)重,導(dǎo)致了對(duì)微小目標(biāo)的檢測(cè)能力降低。
表7 不同數(shù)據(jù)集上模型對(duì)比實(shí)驗(yàn)結(jié)果
接下來(lái)進(jìn)行大目標(biāo)分割能力分析,如圖9所示為在LUNA下MA-net和Ce-net的分割效果圖,可以看出MA-net分割效果更加接近于真實(shí)標(biāo)簽,Ce-net分割圖像中存在一些孤立的像素點(diǎn),而MA-net很少出現(xiàn)此種情況,相比于Ce-net,MA-net在融合淺層特征圖后進(jìn)行了多次的卷積操作,特征表示能力更強(qiáng),多個(gè)特征的融合效果更好,極大避免了孤立像素點(diǎn)的出現(xiàn),從在LUNA數(shù)據(jù)集中的表現(xiàn)可以看出MA-net在分割較大目標(biāo)時(shí)通道數(shù)減少導(dǎo)致的影響更小。
對(duì)所提到的區(qū)域克隆數(shù)據(jù)增強(qiáng)方法進(jìn)行對(duì)比實(shí)驗(yàn),采用的數(shù)據(jù)集分別是LUNA、DRIVE和礦物顯微圖像數(shù)據(jù)集,結(jié)果見(jiàn)表8,可以看出在LUNA數(shù)據(jù)集上區(qū)域克隆數(shù)據(jù)增強(qiáng)方法有明顯的負(fù)數(shù)作用,對(duì)于其余兩個(gè)數(shù)據(jù)集則有一定的效果。因?yàn)長(zhǎng)UNA數(shù)據(jù)集圖像分割目標(biāo)與周?chē)男畔⒕哂休^強(qiáng)的相關(guān)性,隨意的替換信息可能會(huì)導(dǎo)致圖片語(yǔ)義信息破壞,造成標(biāo)簽和原圖語(yǔ)義信息不匹配,從而在訓(xùn)練時(shí)給模型造成干擾。而DRIVE數(shù)據(jù)集和礦物顯微圖像主要是靠色彩分割,而且目標(biāo)分布比較隨機(jī),采用此方法可以豐富數(shù)據(jù),優(yōu)化模型學(xué)習(xí)效果。
為了進(jìn)一步分析該數(shù)據(jù)增強(qiáng)方法的效果,在DRIVE數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),如圖10所示為采用該數(shù)據(jù)增強(qiáng)方法和未采用時(shí)在測(cè)試集上的分割效果對(duì)比,從曲線(xiàn)中可以看到采用該數(shù)據(jù)增強(qiáng)方法時(shí)Dice系數(shù)波動(dòng)較小,并且最終獲得了較高的分割效果,分析原因,采用區(qū)域克隆數(shù)據(jù)增強(qiáng)方法將兩個(gè)圖片的信息組合,可以有效降低圖片之間的差異進(jìn)而降低數(shù)據(jù)的方差,由于是隨機(jī)圖片,隨機(jī)位置進(jìn)行組合,每次訓(xùn)練輸入的圖片都不相同,模型很難在某一類(lèi)圖片上過(guò)擬合,同時(shí)不同圖片之間的組合豐富了數(shù)據(jù),因此該數(shù)據(jù)增強(qiáng)方法可以有效提升模型的訓(xùn)練結(jié)果。
表8 區(qū)域克隆數(shù)據(jù)增強(qiáng)方法對(duì)比實(shí)驗(yàn)
本文提出了一種多特征融合的解碼器結(jié)構(gòu),并結(jié)合輕量化的ResNet-34搭建了MA-net網(wǎng)絡(luò),在編碼器末尾添加殘差多內(nèi)核池化增強(qiáng)對(duì)多種尺寸目標(biāo)的分割效果,增加通道注意力機(jī)制提高分割精度,采用FRN消除了訓(xùn)練過(guò)程中網(wǎng)絡(luò)對(duì)batch的依賴(lài),同時(shí)由于網(wǎng)絡(luò)相比于單一路徑的解碼器結(jié)構(gòu)增加了下采樣過(guò)程,在編碼和解碼的過(guò)程中聚合了多階段的特征信息,使得MA-net與其它幾種U型網(wǎng)絡(luò)比較,網(wǎng)絡(luò)特征圖之間聯(lián)系緊密,通道數(shù)極大縮減,減少參數(shù)的同時(shí),分割精度也有保證。
通過(guò)在LUNA、DRIVE和磁鐵礦顯微圖像數(shù)據(jù)集上測(cè)試分析得出,MA-net在分割較大目標(biāo)時(shí)表現(xiàn)突出,不擅長(zhǎng)于對(duì)微小目標(biāo)的分割,在小目標(biāo)分割方面需要優(yōu)化和改進(jìn)。將MA-net用于在磁鐵礦石中分割石英的任務(wù),Dice系數(shù)達(dá)到了0.963。
為了使用少量訓(xùn)練樣本數(shù)據(jù)而獲得較高的分割效果,本文采用隨機(jī)克隆數(shù)據(jù)集中另外一張圖片的部分區(qū)域到索引圖像的方法進(jìn)行數(shù)據(jù)增強(qiáng),經(jīng)過(guò)驗(yàn)證分析,發(fā)現(xiàn)此方法可應(yīng)用于DRIVE和礦石顯微圖像等分割目標(biāo)空間位置比較隨機(jī)的分割任務(wù)中,可有效降低過(guò)擬合并提高分割精度。