張 漢,張德祥,陳 鵬,章 軍,王 兵
1.安徽大學(xué) 電氣工程與自動(dòng)化學(xué)院,合肥230601
2.安徽大學(xué) 農(nóng)業(yè)生態(tài)大數(shù)據(jù)分析與應(yīng)用技術(shù)國家地方聯(lián)合工程研究中心,互聯(lián)網(wǎng)學(xué)院,合肥230601
3.安徽工業(yè)大學(xué) 電氣與信息工程學(xué)院,安徽 馬鞍山201804
語義分割技術(shù)已經(jīng)成為計(jì)算機(jī)視覺領(lǐng)域的重要研究方向,其目標(biāo)是對圖像中的每個(gè)像素進(jìn)行分類,將圖像分割成具有相同語義的區(qū)域塊,以進(jìn)行圖像的分析與理解。語義分割的重要性在于越來越多的應(yīng)用需要利用圖像進(jìn)行理解推斷,包括人機(jī)交互、自動(dòng)駕駛、醫(yī)學(xué)影像、計(jì)算攝影、虛擬現(xiàn)實(shí)、缺陷檢測等領(lǐng)域[1]。對于傳統(tǒng)的分割方法,文獻(xiàn)[2]依據(jù)圖像的顏色或灰度值不同設(shè)置中間閾值進(jìn)行分割,文獻(xiàn)[3]利用區(qū)域間特征的不連續(xù)性將檢測的邊緣點(diǎn)連接成閉合曲線實(shí)現(xiàn)區(qū)域分割,文獻(xiàn)[4-5]分別通過定義生長準(zhǔn)則和以數(shù)學(xué)形態(tài)學(xué)為基礎(chǔ)進(jìn)行分割,CRF-RNN[6]、DPN[7]則分別引入條件隨機(jī)場、馬爾可夫隨機(jī)場模型改善分割效果。這些傳統(tǒng)的分割方法沒有深層次的網(wǎng)絡(luò)結(jié)構(gòu),因而計(jì)算復(fù)雜度不高,對實(shí)際的設(shè)備需求也較低,但由于此類方法多是根據(jù)圖像的低級(jí)視覺特征而沒有利用中高級(jí)語義信息以及像素間的相關(guān)性,在遇到相對復(fù)雜的實(shí)際場景往往得不到令人滿意的分割效果。
隨著深度學(xué)習(xí)的快速發(fā)展與廣泛應(yīng)用,基于卷積神經(jīng)網(wǎng)絡(luò)的分割算法在分割技術(shù)上取得了突破性進(jìn)步。文獻(xiàn)[8]將任意尺寸的圖像作為輸入、標(biāo)簽作為監(jiān)督信息,設(shè)計(jì)出一種端到端的全卷積網(wǎng)絡(luò)。自此,語義分割進(jìn)入了一個(gè)全新的發(fā)展階段,同時(shí)也奠定了使用深度網(wǎng)絡(luò)解決語義分割的基本框架。全卷積網(wǎng)絡(luò)通過重復(fù)的卷積池化組合提取特征,再結(jié)合跳級(jí)結(jié)構(gòu)上采樣至輸入尺寸進(jìn)行像素分類。這種模型在許多簡單場景理解都取得了較好應(yīng)用,但隨著場景的復(fù)雜化、多樣化以及對精度的高要求,這種簡單的模型因?yàn)橄虏蓸釉斐删植啃畔⒌膩G失以及不能從全局視野下利用像素的相關(guān)性問題而不能滿足實(shí)際需求,因而一系列改進(jìn)算法應(yīng)運(yùn)而生。
為了減少局部信息的丟失,文獻(xiàn)[9-10]設(shè)置多尺寸輸入,融合不同尺寸的輸入信息,文獻(xiàn)[11-12]擴(kuò)大卷積核尺寸,減少下采樣層數(shù),文獻(xiàn)[13-17]設(shè)置不同空洞率的空洞卷積和不同尺寸的池化核進(jìn)行多尺度特征融合,文獻(xiàn)[18-21]在上采樣時(shí)逐層融合低水平特征。盡管這些工作有助于減少局部信息的丟失,改善分割效果,但作為一種局部手段的卷積操作,仍難以獲得全局信息以及在全局視野下利用像素間的相關(guān)性對目標(biāo)進(jìn)行分析判斷,因此這些方法在一些特定場景中對于分割的改善是有局限的。
為了捕獲全局信息以及從全局視野下利用像素間的相關(guān)性,文獻(xiàn)[22]通過學(xué)習(xí)到的注意力圖自適應(yīng)聚合遠(yuǎn)距離上下文信息,文獻(xiàn)[23-24]采用一種非局部操作捕獲特征圖上任意位置特征間相關(guān)性,文獻(xiàn)[25]搭建了一個(gè)有向無環(huán)圖的遞歸神經(jīng)網(wǎng)絡(luò)捕獲豐富的上下文依賴關(guān)系,文獻(xiàn)[26-28]將注意力機(jī)制應(yīng)用在通道、位置、類別不同角度以捕獲具有依賴的全局信息。這些策略也都相應(yīng)地促進(jìn)了分割效果,但全局信息傾向于從全局視野下對目標(biāo)進(jìn)行分類而缺乏必要的空間信息以致上采樣時(shí)不能準(zhǔn)確恢復(fù)像素位置。因此,融合必要的局部信息更有利于優(yōu)化分割結(jié)果。
由此,提出了一種融合了局部注意力和全局注意力的網(wǎng)絡(luò)模型,該模型在捕獲豐富的局部信息同時(shí)從全局視野下對分割目標(biāo)進(jìn)行判斷。局部注意力模塊分編碼和解碼兩個(gè)階段,編碼階段通過設(shè)置不同尺寸的卷積核依次下采樣特征圖以獲得更大的感受野,解碼階段則在上采樣時(shí)融合相同尺寸的下采樣特征圖以減小下采樣造成的局部信息的丟失,同時(shí)實(shí)現(xiàn)多尺寸的局部信息融合。全局注意力模塊從全局視野下學(xué)習(xí)輸入特征圖的全局描述,輸出特征圖中每個(gè)位置的特征是輸入特征圖中所有位置特征的加權(quán)和且權(quán)重由輸入特征圖中特征間相關(guān)性決定,越相似的特征相關(guān)性則越大。兩個(gè)注意力模塊的融合有效改善了分割效果。此外,由于語義分割是一種像素級(jí)分類,下采樣的特征圖需要上采樣為輸入尺寸,而雙線性插值法作為最常用的上采樣方法是在像素四周進(jìn)行水平和垂直方向的兩次插值以確定目標(biāo)像素,其沒有考慮到標(biāo)簽像素間的相關(guān)性,因而可能會(huì)得到次優(yōu)分割結(jié)果。采用一種數(shù)據(jù)相關(guān)的上采樣方法[29]代替常規(guī)的雙線性插值法并且有效改善了分割結(jié)果。在樣本分布不均衡時(shí),樣本量少的類別特征過少,網(wǎng)絡(luò)很難從中提取規(guī)律并且容易過度依賴有限的數(shù)據(jù)樣本而產(chǎn)生過擬合問題。因此,針對數(shù)據(jù)集的不平衡問題,采用Dice Loss[30]損失函數(shù)并在類別損失前加入權(quán)重系數(shù)有效緩解了由于數(shù)據(jù)不平衡引起的分割誤差,進(jìn)一步改善了分割效果。
(1)語義分割
語義分割是計(jì)算機(jī)視覺領(lǐng)域研究的基本話題。FCN[8]率先采用全卷積網(wǎng)絡(luò)實(shí)現(xiàn)圖像的像素級(jí)分類。隨后,基于FCN的改進(jìn)算法在語義分割領(lǐng)域取得了重大突破。為了減少局部信息的丟失,改善分割效果,U-Net[18]、SegNet[20]使用編碼-解碼結(jié)構(gòu)將低水平特征與高水平特征進(jìn)行融合,RefineNet[9]采用RefineNet塊的同時(shí)融合不同尺寸的輸入特征,DPC[31]使用結(jié)構(gòu)搜素技術(shù)創(chuàng)建多尺寸結(jié)構(gòu),DeepLab V3[14]、DeepLab V3+[15]使用不同空洞率的空洞卷積并行多尺度特征提取,文獻(xiàn)[32]、PSPNet[16]采用不同尺寸的卷積核、池化核并行實(shí)現(xiàn)多尺寸目標(biāo)學(xué)習(xí)。
(2)自注意力機(jī)制
注意力機(jī)制是生物視覺行為的仿生,即模擬生物在觀察目標(biāo)時(shí)將注意力集中在關(guān)鍵特征而忽略其他不相關(guān)信息。自注意力機(jī)制是注意力機(jī)制的改進(jìn),其減少對外部信息的依賴,強(qiáng)調(diào)與自身特征的相關(guān)性。因自注意機(jī)制可以捕獲長距離依賴關(guān)系,在自然語言處理、圖像、視頻等領(lǐng)域都受到了廣泛關(guān)注。文獻(xiàn)[33]首次將注意力機(jī)制用于機(jī)器翻譯中并取得了顯著效果,EncNet[34]引入上下文編碼模塊捕獲全局上下文信息和突出與場景相關(guān)聯(lián)的類別信息,SENet[26]采用全局平局池化模擬全局特征并將其作為通道權(quán)重學(xué)習(xí)通道相關(guān)性,OCNet[35]提出目標(biāo)文本模塊并嵌入到金字塔和空洞空間金字塔結(jié)構(gòu)中,DANet[27]將注意力機(jī)制同時(shí)應(yīng)用在通道和位置上并將各自提取特征進(jìn)行融合,CCNet[36]采用一種串聯(lián)的十字交叉的注意力網(wǎng)絡(luò)捕獲全局信息,HMANet[28]進(jìn)一步擴(kuò)大注意力應(yīng)用范圍,除通道、位置注意力外,文章引入類別注意力重新校準(zhǔn)類別信息。
鑒于以上語義分割方法和自注意力機(jī)制的成功使用,從減少局部信息的丟失以及捕獲具有長范圍依賴的全局信息出發(fā),提出了一種局部和全局注意力融合的卷積神經(jīng)網(wǎng)絡(luò)以改善分割效果。局部注意力通過編碼-解碼結(jié)構(gòu)的設(shè)置將高水平特征與低水平特征進(jìn)行多尺度融合,全局注意力學(xué)習(xí)特征間相關(guān)性并將其作為權(quán)重捕獲具有全局依賴的全局信息。此外,采用一種數(shù)據(jù)相關(guān)的上采樣方法代替常規(guī)的雙線性插值法并針對數(shù)據(jù)集的不平衡問題,采用Dice Loss 損失函數(shù)并在類別損失前加入權(quán)重系數(shù)以緩解由于數(shù)據(jù)不平衡引起的分割誤差。
模型整體結(jié)構(gòu)如圖1所示,首先,采用修改的Resnet-50作為主干網(wǎng)絡(luò)學(xué)習(xí)輸入圖像特征。隨后,局部和全局注意力兩個(gè)并行模塊分別對主干網(wǎng)絡(luò)輸出的特征進(jìn)一步提取并將各自提取的特征進(jìn)行像素級(jí)融合,為減小下采樣丟失的有效局部信息,采用自適應(yīng)最大池化下采樣高分辨特征圖與注意力模塊融合的特征圖進(jìn)行特征聚合。最后采用數(shù)據(jù)相關(guān)的上采樣策略恢復(fù)聚合的特征圖至輸入尺寸,實(shí)現(xiàn)像素分類。
圖1 模型整體結(jié)構(gòu)Fig.1 Overall structure of model
計(jì)算特征圖上兩個(gè)位置特征間相關(guān)性需統(tǒng)計(jì)特征圖上任意特征與其所在特征圖上所有特征的相關(guān)性,假設(shè)特征圖通道數(shù)、寬、高分別為C、W、H,則得到注意力圖需要的計(jì)算量為C×H×W×H×W。因此,主干網(wǎng)絡(luò)的輸出特征圖不宜過大以減輕計(jì)算注意力圖時(shí)巨大的計(jì)算開銷。另一方面,圖2給出了輸出相關(guān)性對應(yīng)不同感受野的輸入相關(guān)性。
圖2 輸出相關(guān)性對應(yīng)不同感受野的輸入相關(guān)性Fig.2 Output correlation corresponds to input correlation of different receptive fields
由圖2可知,主干網(wǎng)絡(luò)輸出特征圖中每個(gè)特征對應(yīng)某一范圍的輸入圖像,計(jì)算公式如式(1):
lk-1是第k-1 層的感受野大小,fk-1 是當(dāng)前層的卷積核大小,si是第i層的步長。
由等式(1)可知,隨著網(wǎng)絡(luò)的加深,感受野不斷加大,然而過大的感受野則不能準(zhǔn)確反映輸入圖像中區(qū)域間的相關(guān)性(藍(lán)色:相同種類的區(qū)域很少,相關(guān)性低,紅色:相同種類區(qū)域增大,相關(guān)性增大)。鑒于此,主干網(wǎng)絡(luò)的輸出特征圖不宜過小以減少過大的感受野不能準(zhǔn)確反映區(qū)域間的相關(guān)性。
綜上所述,采用Resnet-50 的前三個(gè)分塊作為主干網(wǎng)絡(luò)并將第三個(gè)分塊的步長設(shè)置為1 以權(quán)衡輸出特征圖尺寸和局部感受野問題,這樣得到的特征圖尺寸是輸入圖像的1/8,輸入圖像尺寸歸一化為224×224像素,因此,經(jīng)主干網(wǎng)絡(luò)的特征提取輸出特征圖的尺寸為28×28像素。
由2.2 節(jié)主干網(wǎng)絡(luò)模塊討論知,在統(tǒng)計(jì)特征間的相關(guān)性時(shí)需減少感受野以更準(zhǔn)確反映輸入圖像區(qū)域間的相關(guān)性。然而由數(shù)據(jù)集測試結(jié)果可視化可見,輸入圖像中目標(biāo)尺寸不一,為實(shí)現(xiàn)多尺寸目標(biāo)分割,則需進(jìn)行不同感受野的特征融合。隨著網(wǎng)絡(luò)的加深,感受野不斷增大,由于下采樣層的增多則會(huì)造成更多局部信息的丟失。因此,為實(shí)現(xiàn)多尺度特征融合時(shí)減少局部信息的丟失,鑒于U-Net、SegNet等編碼-結(jié)構(gòu)的成功應(yīng)用,提出了如圖3所示的局部注意力網(wǎng)絡(luò)。
圖3 局部注意力模塊Fig.3 Module of local attention
局部注意力網(wǎng)絡(luò)是一種U型結(jié)構(gòu),分編碼和解碼兩個(gè)階段。輸入圖像經(jīng)主干網(wǎng)絡(luò)的特征提取后,輸出特征圖的通道數(shù)為1 024,從圖3 知,解碼階段特征圖上采樣時(shí)與相同尺寸的下采樣特征圖進(jìn)行像素級(jí)融合,融合的特征圖需要有相同的通道數(shù),如式(2):
其中,Kh、Kw表示卷積核高寬,Cin、Cout表示輸入、輸出通道數(shù),Hout、Wout表示輸出特征圖高寬。
由式(2)可知,卷積層的計(jì)算量與卷積核的寬高以及輸出通道數(shù)成正比。因此,為了減少計(jì)算量,首先采用1×1的卷積層減少通道數(shù)為512。為實(shí)現(xiàn)多尺寸特征提取,鑒于最大池化下采樣操作只保留池化核范圍內(nèi)很少的一部分信息而造成巨大的局部信息丟失以及主干網(wǎng)絡(luò)輸出特征圖的尺寸為28×28像素,在編碼階段采用具有3 級(jí)的金字塔結(jié)構(gòu)并用7×7、5×5、3×3 的卷積核依次下采樣得到14×14、7×7、4×4的局部特征圖,為了增大局部感受野,在下采樣之后設(shè)置相同尺寸的卷積核進(jìn)一步特征提取。編碼階段可表示為:
因?yàn)橄虏蓸訒r(shí)感受野不同,解碼階段在上采樣時(shí)與相同尺寸的編碼特征圖進(jìn)行融合從而實(shí)現(xiàn)了多尺寸的局部特征融合。解碼階段可以表示為:
這種局部注意力模塊通過編碼-解碼結(jié)構(gòu)的設(shè)計(jì),在下采樣時(shí)通過卷積操作增大感受野,并在上采樣時(shí)逐級(jí)融合下采樣特征,低水平的局部信息對高水平的特征進(jìn)行了補(bǔ)充,不同感受野的局部信息融合時(shí)減少了局部信息的丟失。由后期實(shí)驗(yàn)表明,局部注意力模塊有效改善了分割效果。同時(shí),特征圖的分辨率和通道數(shù)較小,因此不會(huì)帶來計(jì)算上的壓力。
隨著網(wǎng)絡(luò)的加深,感受野逐漸增大。但卷積是一種局部操作,仍難以得到全局信息,全局平局池化將所有特征相加進(jìn)行融合,這種簡單的融合方法沒有考慮到像素間的依賴性,因而對于分割效果的提升是有限的。隨著自注意力機(jī)制的廣泛應(yīng)用,捕獲長范圍具有依賴性特征越來越成為全局特征提取的重要方法。由文獻(xiàn)[23]知,在計(jì)算機(jī)視覺任務(wù)中,全局注意力機(jī)制操作的定義為:
C(x)是歸一化系數(shù),i、j分別表示輸入特征圖x中的某個(gè)空間位置,f是一個(gè)計(jì)算特征圖中兩個(gè)特征的相關(guān)性函數(shù),g(xj)表示j位置特征的映射。由公式(5),設(shè)計(jì)了如圖4所示的全局注意力模塊。
圖4 全局注意力模塊Fig.4 Module of global attention
全局注意力模塊可分3個(gè)階段。首先,采用特征值相乘法模擬特征間相關(guān)性,即:
對于通道數(shù)為C,高寬分別為H、W的特征圖需要的計(jì)算量為C×H×W×H×W。因此,在計(jì)算特征間相關(guān)性時(shí)為了減輕計(jì)算壓力除減少特征圖尺寸外,還可以相應(yīng)程度地減少特征圖通道數(shù)。如圖4所示,經(jīng)殘差網(wǎng)絡(luò)的特征提取,首先對輸入特征圖x∈RH×W×C引入1×1 卷積并隨之轉(zhuǎn)換為多通道向量,N=H×W,隨后對轉(zhuǎn)置后的A和B執(zhí)行矩陣乘法,最后通過Softmax歸一化得到注意力圖D∈RN×N,即:
在第二階段中,通過矩陣乘法將第一階段得到的特征間相關(guān)性作為權(quán)重加在相應(yīng)的特征前。首先采用1×1 卷積用以減少通道數(shù)并隨之轉(zhuǎn)換為多通道向量C∈,隨后對注意力圖D進(jìn)行轉(zhuǎn)置并與多通道向量C執(zhí)行矩陣乘法并轉(zhuǎn)換為H×W×C2的特征圖。最后在第三階段中通過1×1 卷積恢復(fù)特征圖尺寸并與輸入特征圖x執(zhí)行像素級(jí)融合,即:
α是一個(gè)初始化為0的可學(xué)習(xí)因子并在學(xué)習(xí)過程中得到更大的權(quán)重[37]。由等式(8)知,經(jīng)全局注意力后,輸出特征圖尺寸和輸入特征圖相同,并且輸出特征圖中的每一個(gè)像素是輸入特征圖上的相應(yīng)像素與其所在特征圖上所有像素的加權(quán)和,且權(quán)重由兩個(gè)像素的相關(guān)性決定,由此捕獲了具有像素依賴關(guān)系的全局信息。
雙線性插值是在像素四周進(jìn)行水平和垂直方向的兩次插值以確定目標(biāo)像素,其沒有考慮到標(biāo)簽像素間的相關(guān)性,因而可能會(huì)得到次優(yōu)分類結(jié)果。一個(gè)重要發(fā)現(xiàn)是標(biāo)簽中的像素是非獨(dú)立分布的,像素間包含著結(jié)構(gòu)信息。因此可以將標(biāo)簽近乎無損壓縮到后再解壓至L1,然后將解壓過程中學(xué)習(xí)的重建矩陣W用于上采樣,L2與最終聚合特征圖維度相同。
可將標(biāo)簽L1壓縮到L2可分為4個(gè)階段。首先將L1分塊成H2×W2個(gè)r×r子窗口,,然后將每個(gè)子窗口轉(zhuǎn)化為向量,{0,1}表示標(biāo)簽經(jīng)過one-hot編碼處理,N1=r×r×C1,接著將向量V壓縮成,最后水平、垂直壓縮其他子窗口。對于第三階段,采用線性壓縮方法:
圖5 r=2 時(shí)標(biāo)簽L1 壓縮至特征圖尺寸L2 過程Fig.5 Process of groundtruth L1 compressed to resulting feature map L2 which r=2
首先選擇Dice Loss作為損失函數(shù)是因?yàn)榉指畹恼鎸?shí)目標(biāo)是最大化預(yù)測結(jié)果與標(biāo)簽的交并比,而在給定優(yōu)化指標(biāo)本身與代理損失函數(shù)選擇時(shí),最優(yōu)選擇是指標(biāo)本身[38]。由文獻(xiàn)[30]知Dice Loss損失函數(shù)形式如等式(10):
L是類別總數(shù),N為輸入圖像分辨率,pln表示像素點(diǎn)屬于類別l的概率,rln表示像素點(diǎn)是l類的類別標(biāo)簽,平滑因子λ用于防止計(jì)算時(shí)分母為0。
在樣本分布不均衡時(shí),樣本量少的類別特征過少,網(wǎng)絡(luò)很難從中提取規(guī)律并且容易過度依賴有限的數(shù)據(jù)而產(chǎn)生過擬合問題。由文獻(xiàn)[17,39-40]知,樣本量多的類別特征容易學(xué)習(xí)是因?yàn)榇罅康臉颖窘档湍P偷恼w損失,模型在訓(xùn)練時(shí)更偏向于容易樣本的特征學(xué)習(xí)而對于樣本量少的困難樣本的關(guān)注度降低。網(wǎng)絡(luò)的輸出是與類別數(shù)相同的多通道矩陣,矩陣中的值經(jīng)Softmax 歸一化后表示此像素屬于各類別的概率且概率值相加為1。對于簡單樣本,概率值p值更接近于1,困難樣本的概率值更接近于0,為了增大困難樣本在損失中的比重,文獻(xiàn)[39]在損失前加入權(quán)重系數(shù)(1-p)γ(γ是一個(gè)取值0-1的超參數(shù)),可知對于簡單樣本,輸出概率值p越大,(1-p)γ則會(huì)越小。相反,困難樣本的輸出概率p越小,(1-p)γ則越大,這樣在訓(xùn)練時(shí),困難的樣本的損失被放大,模型會(huì)更加關(guān)注困難樣本。同樣,文獻(xiàn)[40]根據(jù)訓(xùn)練時(shí)的不同階段,采用漸增方式對超參數(shù)γ進(jìn)行調(diào)節(jié)。受之啟發(fā),為了平衡各類別樣本損失,本文希望所有類別的樣本在訓(xùn)練中對于分類器同等重要,即希望加大少數(shù)樣本損失權(quán)重。與之不同的是,沒有從輸出概率角度增大困難樣本的損失而是根據(jù)各類樣本的數(shù)量重新縮放分類損失大小。如等式(11):
其中
在類別損失前引入權(quán)重系數(shù),對于二分類分割,損失可表示為:
w0、w1表示背景、前景類別權(quán)重,p0n、p1n表示像素分類為背景、前景的概率,r0n、r1n表示背景與前景標(biāo)簽。因?yàn)閳D像標(biāo)簽經(jīng)one-hot 編碼,因此r0n=0、r1n=1 且等式(13)可表示為:
由等式(14)知GDLb即為前景損失與總損失之比,由等式(12)知權(quán)重系數(shù)與此類別像素個(gè)數(shù)的平方成反比。樣本越不平衡,越小,對背景的調(diào)節(jié)將會(huì)越大。這樣,前景損失在總損失的比重增大,在訓(xùn)練時(shí)模型將會(huì)提高對樣本量少的困難樣本的關(guān)注度。由后期實(shí)驗(yàn)可看出此方法有效緩解了因?yàn)闃颖静黄胶庠驅(qū)е孪袼囟嗟臉颖緭p失占比過大而傾向此類別學(xué)習(xí)的問題。
為評估提出模型的可行性及泛化能力,在藥丸污點(diǎn)、藥丸缺損和走廊三個(gè)數(shù)據(jù)集上進(jìn)行了綜合性實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果以及和其他模型的比較表明,提出的模型具備很好的實(shí)施性同時(shí)兼有很強(qiáng)的泛化能力。接下來將介紹數(shù)據(jù)集和實(shí)施細(xì)節(jié),然后詳細(xì)介紹在污點(diǎn)數(shù)據(jù)集上的消融和對比實(shí)驗(yàn),最后呈現(xiàn)在缺損和走廊數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果以及三個(gè)數(shù)據(jù)集預(yù)測結(jié)果的可視化。
3.1.1 數(shù)據(jù)集
(1)藥丸污點(diǎn)和藥丸缺損數(shù)據(jù)集
污點(diǎn)和缺損數(shù)據(jù)集均來自HALCON 軟件,兩種數(shù)據(jù)集具有相似的特點(diǎn),因此將其放在一起說明。因?yàn)橥粡垐D像中最多包含兩類,即完好和污點(diǎn)、完好和缺損、完好,所以兩個(gè)數(shù)據(jù)集都是二分類分割。污點(diǎn)數(shù)據(jù)集有968張圖片,缺損數(shù)據(jù)集有946張,兩種數(shù)據(jù)集均有632×320、300×300、429×320 像素三種尺寸且都有高質(zhì)量的像素標(biāo)簽。
(2)走廊數(shù)據(jù)集
走廊數(shù)據(jù)集來自CMU實(shí)驗(yàn)室,包含967張圖像,尺寸為240×320 像素,實(shí)驗(yàn)時(shí)分割出走廊區(qū)域,因此也是二分類問題。
3.1.2 實(shí)施細(xì)節(jié)
模型基于開源框架PyTorch 實(shí)現(xiàn)并采用GeForce GTX 1080 Ti GPU 加速訓(xùn)練。對于三種數(shù)據(jù)集,隨機(jī)劃分訓(xùn)練集為75%,測試集為25%。通過實(shí)驗(yàn)精調(diào),污點(diǎn)數(shù)據(jù)集初始學(xué)習(xí)率設(shè)置為0.3,缺損和走廊數(shù)據(jù)集為0.5,污點(diǎn)數(shù)據(jù)集訓(xùn)練80 個(gè)周期且在區(qū)間[20,40,50,70]衰減,減因子為0.5,缺損和走廊數(shù)據(jù)集訓(xùn)練30個(gè)周期且每隔10個(gè)周期衰減一半。污點(diǎn)和缺損批量設(shè)為8,走廊為16,動(dòng)量和衰減因子分別設(shè)為0.95 和0.000 1。三種數(shù)據(jù)集均采用隨機(jī)梯度下降算法作為優(yōu)化器訓(xùn)練網(wǎng)絡(luò)。
3.2.1 污點(diǎn)數(shù)據(jù)集消融實(shí)驗(yàn)
將修改的ResNet-50作為主干網(wǎng)絡(luò)并通過局部注意力和全局注意力兩個(gè)并行模塊強(qiáng)化特征學(xué)習(xí)以改善分割效果。為了驗(yàn)證主干網(wǎng)絡(luò)和兩個(gè)注意力模塊的有效性,在污點(diǎn)數(shù)據(jù)集上進(jìn)行了全面的消融及對比實(shí)驗(yàn)。實(shí)驗(yàn)時(shí),以雙線性插值上采樣方法恢復(fù)特征圖至輸入尺寸、Dice Loss作為損失函數(shù)、平均交并比(MIoU)作為評價(jià)指標(biāo)。
如表1 所示,從實(shí)驗(yàn)1、2、3 可看出局部注意力和全局注意力模塊在主干網(wǎng)絡(luò)基礎(chǔ)上分別提升了6.62 和6.73個(gè)百分點(diǎn)的平均交并比結(jié)果,當(dāng)將兩個(gè)注意力模塊融合時(shí)得到了94.02%的良好結(jié)果,由此可得知在網(wǎng)絡(luò)中融入局部注意力和全局注意力模塊對藥丸污點(diǎn)分割的有效性,而這種有效性則歸功于局部注意力模塊通過不同尺寸的卷積核下采樣局部特征圖,并在上采樣時(shí)逐層融合不同感受野的下采樣特征圖捕獲的豐富局部信息以及全局注意力模塊從全局視野下利用像素間的相關(guān)性捕獲的全局信息。為了驗(yàn)證分級(jí)的局部注意力對特征提取的必要性,實(shí)驗(yàn)5 中,采用和局部注意力相同的7×7、5×5、3×3的卷積核并行多尺度提取特征,由實(shí)驗(yàn)結(jié)果可見,采用這種方法也能相應(yīng)程度改善分割效果,但相比于局部注意力有著1.24 個(gè)百分點(diǎn)的平均交并比差距,造成這樣的差距可能是因?yàn)?×5、3×3卷積支路在增大感受野時(shí)需要增大步幅而有大量的局部性信息的丟失。實(shí)驗(yàn)6 中因?yàn)槿制骄鼗且环N簡單的特征融合,其沒有考慮到像素間的相關(guān)性因而實(shí)驗(yàn)效果不及全局注意力模塊。此外,實(shí)驗(yàn)7中采用標(biāo)準(zhǔn)的Resnet-50 作為主干網(wǎng)絡(luò),然而相比于修改的Resnet-50 有著0.58 個(gè)百分點(diǎn)的差距,標(biāo)準(zhǔn)的Resnet-50 增加了第四個(gè)分塊,感受野相應(yīng)增大,增大的感受野不能很好反映輸入圖像區(qū)域間的相關(guān)性,標(biāo)準(zhǔn)的Resnet-50 相比于修改的主干網(wǎng)絡(luò)增加了兩個(gè)下采樣層也會(huì)造成局部信息的丟失,此外,統(tǒng)計(jì)了使用兩個(gè)主干網(wǎng)絡(luò)在參數(shù)量和計(jì)算量的差距,修改的Resnet-50 的參數(shù)量、計(jì)算量分別為8.97×107、2.997×1010,標(biāo)準(zhǔn)的Resnet-50 因?yàn)樵黾恿说谒膫€(gè)分塊以及上采樣層參數(shù)量和計(jì)算量分別增加了3.723×107、2.92×109。實(shí)驗(yàn)8、9 中將主干網(wǎng)絡(luò)替換為VGG-16和Xception-65,由實(shí)驗(yàn)結(jié)果可推測使用VGG-16實(shí)驗(yàn)效果不佳是因?yàn)槎鄬拥南虏蓸釉斐删植啃畔⒌牟粩鄟G失以及重復(fù)的卷積池化操作對特征提取的局限性,而Xception-65則可能因?yàn)榫W(wǎng)絡(luò)過于復(fù)雜以及連續(xù)的空洞卷積造成的局部信息的丟失。
表1 污點(diǎn)數(shù)據(jù)集消融實(shí)驗(yàn)Table 1 Ablation experiments of contamination dataset
3.2.2 雙線性插值和數(shù)據(jù)相關(guān)上采樣比較
雙線性插值上采樣方法是在待插入像素點(diǎn)四周的四個(gè)已知像素點(diǎn)進(jìn)行水平和垂直方向的兩次線性插值,這種過于簡單的上采樣方法在像素分類時(shí)可能會(huì)得到次優(yōu)結(jié)果。采用一種數(shù)據(jù)相關(guān)的上采樣方法代替此方法,為了證明數(shù)據(jù)相關(guān)上采樣方法能夠很好的恢復(fù)原始信息,在實(shí)驗(yàn)4 基礎(chǔ)上進(jìn)一步實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2 所示,當(dāng)采用數(shù)據(jù)相關(guān)上采樣方法時(shí),實(shí)驗(yàn)得到了94.68%的平均交并比結(jié)果,相較于雙線性插值法有了0.66個(gè)百分點(diǎn)的提升。
表2 上采樣方法比較Table 2 Comparison of upsampling methods
3.2.3 損失函數(shù)比較
由污點(diǎn)測試結(jié)果可視化可見,數(shù)據(jù)集存在樣本不平衡問題,訓(xùn)練時(shí)將會(huì)加大模型對于樣本少的特征的學(xué)習(xí)難度。在Dice Loss類別損失前加入類別權(quán)重系數(shù)(GDL)使得網(wǎng)絡(luò)的學(xué)習(xí)更專注于樣本量少的類別。為了說明GDL能夠緩解由于樣本不平衡造成樣本量少的類別分割效果不佳問題,對每類的交并比進(jìn)行統(tǒng)計(jì)。在數(shù)據(jù)相關(guān)上采樣實(shí)驗(yàn)的基礎(chǔ)上實(shí)驗(yàn)結(jié)果如表3,可看出GDL損失函數(shù)相較于Dice Loss損失函數(shù)有了1.71個(gè)百分點(diǎn)的提高且多因?yàn)槲埸c(diǎn)類別的交并比結(jié)果的提升。由此說明了GDL 損失函數(shù)可以相應(yīng)程度解決樣本不平衡問題,改善分割結(jié)果。
表3 損失函數(shù)比較Table 3 Comparison of loss functions
3.2.4 與現(xiàn)有流行方法比較
首先簡要介紹HALCON 軟件。HALCON 是一個(gè)廣泛應(yīng)用于機(jī)器視覺領(lǐng)域的圖像處理庫,類似于計(jì)算機(jī)視覺庫OpenCV,HALCON內(nèi)部包含豐富的圖像處理算子。為了縮短開發(fā)周期,HALCON 自帶開發(fā)環(huán)境HDevelop以供開發(fā)者快速進(jìn)行程序設(shè)計(jì)并可將程序?qū)С鰹镃、C++、C#等語言以進(jìn)行更大程序的設(shè)計(jì)。隨著深度學(xué)習(xí)的快速發(fā)展,最近版本的HALCON 也逐漸支持深度學(xué)習(xí)并不斷進(jìn)行功能完善,在接下來的HALCON 實(shí)驗(yàn)就是在此基礎(chǔ)上實(shí)現(xiàn)的。
實(shí)驗(yàn)時(shí)以語義分割最常用的像素準(zhǔn)確率(PA)和平均交并比(MIoU)作為分割評價(jià)指標(biāo)。幾種常用分割方法的實(shí)驗(yàn)結(jié)果如表4 所示,HALCON 實(shí)驗(yàn)時(shí)保留了對污點(diǎn)數(shù)據(jù)集分割的原有算法,并精調(diào)實(shí)驗(yàn)超參數(shù)以達(dá)到最優(yōu)分割效果。從表4實(shí)驗(yàn)1可見,HALCON在此數(shù)據(jù)集上取得了93.10%的平均交并比結(jié)果,此結(jié)果優(yōu)于FCN-16s、DeepLab V3+和DANet三種常用模型。然而,由實(shí)驗(yàn)結(jié)果1、5 可知,提出的模型平均交并比結(jié)果比HALCON還要高出3.29個(gè)百分點(diǎn)。由此說明提出模型在污點(diǎn)數(shù)據(jù)集上能夠得到很好的分割效果。
表4 與現(xiàn)有流行方法比較Table 4 Comparison with existing popular methods
為了進(jìn)一步評估提出模型的有效性,在缺損數(shù)據(jù)上也進(jìn)行了實(shí)驗(yàn)。同樣,實(shí)驗(yàn)以像素準(zhǔn)確率(PA)和平均交并比(MIoU)作為評價(jià)指標(biāo)評估分割效果。實(shí)驗(yàn)結(jié)果如表5所示,HALCON實(shí)驗(yàn)時(shí)同樣采用默認(rèn)的分割算法并精調(diào)實(shí)驗(yàn)超參數(shù),由實(shí)驗(yàn)1、5 可見,提出模型在像素準(zhǔn)確率、特別是平均交并比都取得了很大的提升。與此同時(shí),利用幾個(gè)現(xiàn)有流行模型進(jìn)行了實(shí)驗(yàn),由實(shí)驗(yàn)2、3、4、5表明,提出的模型在藥丸缺損數(shù)據(jù)集上有著先進(jìn)的分割能力。
表5 缺損數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 5 Experimental results of crack dataset
為了觀察提出的模型是否具備很好的泛化能力,在走廊數(shù)據(jù)集上進(jìn)行了對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表6所示,文獻(xiàn)[41]運(yùn)用簡單的AlexNet作為主干網(wǎng)絡(luò)然后上采樣融合低水平特征進(jìn)行分割,因而實(shí)驗(yàn)效果不佳。所以,在這里本文模型和文獻(xiàn)[41]的實(shí)驗(yàn)結(jié)果作定性比較而不作定量比較。然而從實(shí)驗(yàn)5可以看到,提出的模型得到了98.53%的像素準(zhǔn)確率和96.28%的平均交并比結(jié)果,這兩個(gè)結(jié)果特別是平均交并比顯著高于其他幾個(gè)模型。因此可以說明提出的模型不僅可以有效改善分割效果同時(shí)具備很好的泛化能力。
表6 走廊數(shù)據(jù)集實(shí)驗(yàn)結(jié)果Table 6 Experimental results of corridor dataset
保存訓(xùn)練時(shí)的最優(yōu)模型進(jìn)行實(shí)際部署,實(shí)際預(yù)測結(jié)果如圖6 所示(第一行:待測圖像,第二行:標(biāo)簽,第三行:預(yù)測結(jié)果),由圖6 污點(diǎn)數(shù)據(jù)集可視化結(jié)果可以看到,提出的網(wǎng)絡(luò)不僅能在邊緣較為平滑(第三列)和變化突兀的目標(biāo)上(第一列)取得非常好的預(yù)測結(jié)果,對于樣本不平衡且非連通的目標(biāo)上(第二列)也能得到很好的預(yù)測。因此,可以推斷網(wǎng)絡(luò)對污點(diǎn)特征具有很強(qiáng)的學(xué)習(xí)能力。同樣在缺損數(shù)據(jù)集可視化中可以發(fā)現(xiàn)網(wǎng)絡(luò)也得到了很好的分割結(jié)果。在走廊數(shù)據(jù)集的可視化中可以看到預(yù)測結(jié)果棱角分明,很好地識(shí)別出邊角區(qū)域。在與標(biāo)簽的對比中發(fā)現(xiàn),網(wǎng)絡(luò)準(zhǔn)確分割出走廊區(qū)域,同時(shí)也驗(yàn)證了模型具有很強(qiáng)的泛化能力。此外,如圖7污點(diǎn)數(shù)據(jù)集訓(xùn)練、測試時(shí)損失及平均交并比變化曲線可見訓(xùn)練過程處于平穩(wěn)狀態(tài),沒有出現(xiàn)過大和反復(fù)的震蕩現(xiàn)象,且訓(xùn)練10個(gè)周期左右,網(wǎng)絡(luò)快速收斂,實(shí)驗(yàn)時(shí)繼續(xù)訓(xùn)練至80周期以盡可能得到最優(yōu)模型。
圖6 污點(diǎn)、缺損、走廊數(shù)據(jù)集預(yù)測結(jié)果可視化Fig.6 Visualization of prediction results of contamination,crack and corridor datasets
圖7 損失及平均交并比變化曲線Fig.7 Changing curves of loss and MIoU
呈現(xiàn)了一種新的語義分割方法:以修改的ResNet-50作為主干網(wǎng)絡(luò)提取特征后輸入給局部注意力和全局注意力兩個(gè)并行模塊,局部注意力模塊采用編碼-解碼結(jié)構(gòu)多尺度融合局部信息而全局注意力模塊從全局視野下利用像素間的相關(guān)性捕獲具有依賴的全局信息。通過兩個(gè)注意力模塊的融合有效的進(jìn)行特征的學(xué)習(xí);此外,采用一種數(shù)據(jù)相關(guān)的上采樣方法恢復(fù)特征圖至輸入尺寸;針對數(shù)據(jù)集不平衡問題在Dice Loss 類別損失前加入權(quán)重系數(shù)。從藥丸污點(diǎn)、藥丸缺損以及走廊數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果中體現(xiàn)了提出的模型不僅具有很好的實(shí)施性,同時(shí)具備很強(qiáng)的泛化能力。