任莎莎,劉 瓊
(華南理工大學校軟件學院,廣東廣州 511436)
在場景解析中準確感知與理解圖像內(nèi)容,對于人工智能領(lǐng)域的計算機視覺至關(guān)重要[1].近年來,深度卷積神經(jīng)網(wǎng)絡,特別是VGG[2]、GoogleNet[3]、ResNet[4]等在目標識別方面取得了較大的成功,但對于神經(jīng)網(wǎng)絡的圖像分割算法,其大多都由圖像分類領(lǐng)域遷移而來,未能滿足密集圖像分類或分割等任務對網(wǎng)絡特征表征能力強度的要求.對邊緣、小目標等細節(jié)其語義類別關(guān)注較少.分類網(wǎng)絡中頻繁的池化操作與卷積步長的設置降低了空間分辨率[5,6],導致諸如交通信號等很多小目標被丟失.由于空間細節(jié)的丟失,又導致分割性能降低.
本文在交通場景中研究類別像素數(shù)相對占比小于百分之一的小目標時發(fā)現(xiàn),在復雜的現(xiàn)實世界中隨著智能系統(tǒng)的應用與普及,這類小目標識別和分割需要重視.例如,在自動駕駛的高分辨街景圖像中其小目標很難被準確分割.這嚴重影響了自動駕駛?cè)蝿盏陌踩旭?小目標分割難度在于目標小、亮度和邊緣等特征淺、語義信息少、小目標和背景之間尺寸不均衡等;用較小的感受野關(guān)注其特征,很難提取全局語義信息;用較大感受野關(guān)注背景信息,小目標的特征會丟失.在圖像分割領(lǐng)域中人們做了大量工作.雖取得了較好的成績,但還不能滿足對分割性能的需要.
早期為了提高小目標分割精度,采用一些基于上下文的后處理矯正方法.比如Chen 與Krahenbuhl 等人[7,8]在FCN 網(wǎng)絡之后構(gòu)建基于MRF(Markov Random Field)與CRF(Conditional Random Field)的上下文關(guān)系來矯正分割結(jié)果,提高小目標分割精度.然而這些后處理方法無法參與訓練過程,且網(wǎng)絡不能根據(jù)預測結(jié)果調(diào)整權(quán)重.為了保持圖像分辨率,Pohlen 等人[9]提出全分辨率殘差網(wǎng)絡,在常用的網(wǎng)絡旁并行設計一條不帶有池化和步長大于1的分支,兩條網(wǎng)絡在前向傳播過程中交互融合,保持小目標和邊緣特征分辨率的同時獲取語義信息,但是高分辨特征會帶來宏大的計算開銷.Guo 等人[10]提出在分割網(wǎng)絡后設計新的損失函數(shù)增大網(wǎng)絡對小目標的關(guān)注,該損失函數(shù)通過增加一個基于類間邊界共享的ISBMetric 指標,該指標通過測量目標類別間的空間相鄰性,來緩解尺度帶來的損失偏差,改善小目標分割.由于他們定義的小目標類別有限,雖然設計的損失函數(shù)能提高網(wǎng)絡對一些小目標類別的關(guān)注度,提高整體分割性能.但均未能解決所有小目標訓練樣本不均衡問題.Yang 等人提出用合成圖像來實現(xiàn)小目標數(shù)據(jù)增強方法,提高小目標分割精度[11].該方法主要通過建立合成的小目標數(shù)據(jù)與分割數(shù)據(jù)集共同參與訓練.增強了模型對小目標的訓練,提高了模型對小目標的表征能力.由于合成的小目標類別有限(取決于人為定義),仍未能解決未定義小目標分割問題.因此,我們對網(wǎng)絡高層特征首先進行空洞卷積池化金字塔ASPP(Atrous Spatial Pyramid Pooling)處理,用得到的全局語義信息指導淺層的高分辨圖像特征進行訓練.在少量增加計算開銷的情況下,保持了淺層特征的分辨率與語義信息.再通過建模提取所有小目標特征,最后訓練學習矯正小目標類別,來提高小目標分割精度并取得了更好地效果.
對邊緣分割的處理是場景分割任務中的關(guān)鍵技術(shù)之一.由于網(wǎng)絡自身問題(步長與池化)導致許多信息被丟失,特別是目標輪廓存在不連續(xù)、易混淆模糊、邊緣信息甚至被丟失等現(xiàn)象.先前一些工作[12,13]提出用CRF 之類的結(jié)構(gòu)來改善分割性能,尤其是圍繞目標邊界.Zhao等人[14~16]提出構(gòu)建特征金字塔池化結(jié)構(gòu),該結(jié)構(gòu)通過聚合多個尺度的特征來獲得多尺度上下文,以優(yōu)化目標邊界細節(jié)信息.Bertasius和Cheng 等人[17,18]提出同時學習分割與邊界特征的檢測網(wǎng)絡,恢復池化層丟失的高分辨率特征.而在工作[19,20]中提出通過學習邊界特征作為中間表征來輔助分割.Takikawa[21]在已有分割網(wǎng)絡中通過增加一個由門控網(wǎng)絡構(gòu)成的邊緣形狀學習分支網(wǎng)絡來捕獲圖像中的邊緣特征,在網(wǎng)絡中引進多任務的損失函數(shù)來監(jiān)督網(wǎng)絡的訓練過程,同時引入多任務的正則化項來防止過擬合.由于該網(wǎng)絡良好的邊界特征學習能力,在小目標的分割精度上有大幅度提高.不同于在網(wǎng)絡中通過增強邊緣特征來優(yōu)化目標邊界的方法,Ding 等人[22]提出了一種邊界感知的特征傳播網(wǎng)絡,該網(wǎng)絡把邊緣設定為一種附加類,學習圖像中的邊緣得分,根據(jù)其得分在邊緣像素點內(nèi)進行特征信息的傳播等.以上工作取得了較好的成果但存在兩個不足,一是雖然增強了網(wǎng)絡特征中已有的邊緣特征,但較小的目標細節(jié)沒有得到恢復.二是未區(qū)分目標大小,對所有大小目標使用相同的邊緣增強準則.為此,我們設計了一個強化外輪廓、弱化內(nèi)輪廓的帶有矯正的邊緣增強模塊,通過建模提取所有邊緣特征,最后訓練學習矯正邊緣類別,來獲得目標邊界信息.提高邊緣分割精度較明顯.
在本文中,我們旨在保證其他類別分割精度的基礎上,提高了小目標和邊緣等目標分割精度.本文的貢獻主要包含以下幾個方面.(1)設計了一種像素空間注意力模塊(PAM),可以獲得具有較強語義的像素空間.(2)設計了一種新的小目標特征提取方法(Tiny Target Extraction module,TTE),并且獲取的小目標特征含有語義類別信息.(3)設計了一種目標邊緣特征的提取方法(Edge Extraction Module,EEM),該方法獲取的邊緣特征含有語義類別信息.(4)設計了一種新的損失函數(shù),在監(jiān)督圖像,小目標,邊緣三者訓練任務的同時,矯正了邊緣與小目標類別,也達到了增強邊緣與小目標特征的任務.最后實驗結(jié)果表明我們的方法顯著提高了細小目標的分割精度,總體分割精度(mIoU)與先進算法比較,提高了2個百分點.
將多尺度特征納入深度卷積神經(jīng)網(wǎng)絡DCNNs(Deep Convolutional Neural Networks)是使語義分割達到最優(yōu)性能的關(guān)鍵因素之一.Chen 等人[7,16]提出了一種多尺度特征提取方案,通過ASPP 來擴展空間接收場.ASPP 結(jié)構(gòu)一般由不同膨脹率的空洞卷積并行組成.空洞卷積是一種常見的信號優(yōu)化算法,由Holschneider 等人在文獻[23,24]中為實現(xiàn)非抽樣小波變換的高性能和高效計算而提出.設二維圖像信號經(jīng)過主干網(wǎng)絡后,每一個位置i上的輸入特征x,經(jīng)過卷積濾波器w得到對應的輸出特征y,對特征圖x上進行空洞卷積的具體過程為:
其中r為空洞卷積的膨脹率,它表示對輸入信號采樣的步幅大小.當r=1 時為標準常規(guī)卷積.通過修改r的值來獲得適合不同尺度的目標感受野.主干網(wǎng)絡輸出的特征,經(jīng)過帶不同膨脹率卷積的ASPP 模塊處理,增強了網(wǎng)絡的感知能力,輸出具有較高的上下文語義信息.再與淺層特征融合,不僅能增加部分細節(jié)信息,獲得滿足不同尺度目標的語義信息,還在一定程度上緩解了膨脹卷積帶來的柵格效應.
在目前的圖像語義分割模型中,由DCNNs 輸出高層圖像特征具有較高的語義信息,但缺少細節(jié)信息,而淺層的圖像特征細節(jié)信息豐富但缺少語義信息,高層特征與低層特征簡單融合很難使分割精度提高.為此Deeplabv3[16]和PSPNet[14]使用多尺度特征提取方案來擴展空間接受場.這些方案只關(guān)注局部特征關(guān)系,產(chǎn)生的上下文語義信息有限.近期,CCNet[25]和EMANet[26]采用空間稀疏注意力機制得到上下文信息,在不降低網(wǎng)絡性能的前提下,降低了模型的計算復雜度,也提高了空間上下文語義信息.Zhong等人[27]提出一個高效的壓縮注意力網(wǎng)絡結(jié)構(gòu)(SANet),通過增強網(wǎng)絡表征能力,使網(wǎng)絡關(guān)注更多的細節(jié).然而,他們也沒有考慮到像素和類別之間的關(guān)系來直接構(gòu)建空間上下文信息.而這些關(guān)系不僅有助于降低上下文中的噪聲信息,還能使空間上下文更具解釋性.因此,這些基于空間上下文的方法在表征學習中如果未考慮有效通道信息,就不能獲得較好語義信息.為了得到像素空間具有較強的語義信息,我們設計了一種把空間注意力和通道注意力有機結(jié)合的像素空間注意力模塊.
本文算法結(jié)構(gòu)如圖1 所示.在主干網(wǎng)絡ResNet101輸出到ASPP 模塊,采取不同膨脹率的卷積來獲得不同尺度的特征圖.很明顯ASPP輸出雖然可以得到較好的語義信息,但是最后一層網(wǎng)絡特征圖無法恢復丟失的所有信息.所以我們把它輸入到我們設計的一種像素空間注意力模塊PAM,可以得到適應不同尺度下的特征映射和具有較強的語義關(guān)系的像素空間特征.使其輸出到邊緣特征提取模塊EEM 得到具有類別信息的邊緣特征yedge,并用邊緣實況圖對此特征進行監(jiān)督學習.同時輸出另一路到小目標提取模塊TTE 得到具有類別信息的小目標特征ytiny,并用小目標實況圖對此特征進行監(jiān)督學習.并設計專門的損失函數(shù).最后,將得到地小目標特征ytiny、邊緣特征yedge、ASPP 特征輸出yASPP與主干網(wǎng)絡淺層特征yres1融合輸出,經(jīng)過反復的監(jiān)督學習和訓練修正,我們可以在不降低其他類別性能的前提下,提高邊緣和小目標的分割性能.具體公式如下:
圖1 本文算法整體流程圖
對特征yres1、yASPP、yedge、ytiny都使用了1×1 的卷積進行降維,使所有特征維度與低層特征yres1輸出維度一致.與此同時,對所有特征進行上采樣,恢復到統(tǒng)一分辨率,再進行像素級疊加.
在目前的增強特征表征能力與優(yōu)化空間細節(jié)的語義分割算法中,由于邊緣和小目標特征的丟失,導致小目標和邊緣很難被準確分割.為此,我們設計了一種把空間注意力和通道注意力有機結(jié)合在一起的像素空間注意力模塊(PAM).來獲得具有較強語義信息的圖像特征.即通過把高層輸出具有較強的語義信息的特征反饋至淺層,在PAM 中高層特征指導淺層特征訓練,使得淺層特征即具有更多的細節(jié)信息,又具有更多語義信息.最終得到像素空間具有更多的語義信息,它在一定程度上解決了在模型中淺層圖像特征不具有像素空間語義信息的問題.具體原理如下.
在圖2中將經(jīng)過ASPP模塊處理后的高層特征經(jīng)過全局池化得到全局上下文信息作為淺層特征的指導信息,再經(jīng)過并行avg&max 輕量級池化,來加強全局類別的空間細節(jié)的注意力.具體地說,從ASPP 模塊處理后的高層次特征依次經(jīng)過全局池化、批量歸一化(Batch Normalization,BN)和非線性變換、1×1 卷積等操作生成具有全局上下文信息的特征,然后再與低層次特征相乘,獲得圖像的通道語義關(guān)系.再采用avg&max 并行輕量級池化加強空間注意力.最后與高層次特征及帶有全局上下文信息的通道特征融合輸出.不同于文獻[28,29]中的工作,我們設計的PAM 模塊不僅可以處理不同大小的特征映射,還可以引導低層的特征學習更多語義信息,它輸出的特征中像素空間具有較強的語義關(guān)系.
圖2 像素空間注意力模塊(PAM)
不同膨脹率ASPP 輸出的yASPP∈RW×H×C和主干網(wǎng)絡的yres1∈RW×H×C作為輸入,C表示通道維數(shù),W×H表示空間分辨率,并使輸入yASPP與yres1特征分辨率一致.yASPP每個通道經(jīng)過全局平均池化(average pooling)和最大池化(max-pooling),然后經(jīng)過兩個全連接層以及多層感知結(jié)構(gòu)(Multi-Layer Perception,MLP)產(chǎn)生通道注意力映射圖.為了減少網(wǎng)絡參數(shù),隱含層激活函數(shù)尺度設置為.r為通道降低率,然后通過元素求和,最后合并兩個輸出為:
?為外積運算.為了獲得特征圖的空間注意力信息,對YC再進行全局池化(avg&max)操作,得到2 個維度的特征,分別為,然后經(jīng)過合并,輸入到單層感知網(wǎng)絡(single Layer Perception,LP).具體過程如下:
其中,符號||表示卷積拼接操作.最后對yASPP、YC和YS進行特征融合,融合特征經(jīng)過歸一化BN輸出.
這里,符號+表示像素級相加.
為了增強網(wǎng)絡中邊緣特征和邊緣語義信息,我們利用argmax 對PAM 模塊輸出的特征圖yp∈RW×H×K進行優(yōu)化,優(yōu)化后的特征輸出為[M1,M2,…,Mk],然后利用梯度變換操作對優(yōu)化后的特征進行處理,得到K個邊緣掩膜版[?M1,?M2,…,?Mk],經(jīng)歸一化和正則化處理后,與特征yp相乘,輸出K個類別的邊緣特征圖yedge∈RW×H×K,如圖3 所示.由于PAM 模塊輸出的特征具有語義關(guān)系,故得到的邊緣像素含有類別信息.由于使用了sigmoid 函數(shù)對得到的邊緣進行處理,本文在一定程度上緩解工作[30,31]中存在的分割邊緣粗糙和稀疏的問題.
圖3 邊緣增強特征提取模塊
其中δ為sigmoid函數(shù).同理,可以得到邊緣實況圖.
如圖4 所示,在PAM 模塊經(jīng)argmax 優(yōu)化后輸出的特征M中,對每一個目標像素數(shù)numk進行統(tǒng)計分析并進行排序,定義tv 為目標像素數(shù)numk與最大目標像素數(shù)nummax的比值,本文設置tv 小于等于0.01 時(可調(diào))為特征圖的小目標.然后得到小目標掩膜版,輸出的小目標掩膜版與K個通道的特征圖相乘,可以得到小目標特征圖ytiny.由于PAM 模塊輸出的特征中像素具有較強的語義關(guān)系,因此獲得的小目標特征含有類別信息.同理,可以得到小目標實況圖.
圖4 小目標提取模塊(TTM)
我們不僅對主干網(wǎng)絡最后的分割特征圖進行損失函數(shù)監(jiān)督計算,且對提取的邊緣和小目標特征輸出進行監(jiān)督計算.為此,我們增加了邊緣損失函數(shù)和小目標損失函數(shù)來監(jiān)督語義邊緣和語義小目標學習過程.考慮到邊緣與小目標位置像素也具有語義類別信息,為了更好地對他們進行監(jiān)督,我們選擇使用交叉熵損失函數(shù)對其進行監(jiān)督,定義如下:
其中Cφ(xj|z)為像素j處預測標簽xj的概率分布,yj為GT標簽.網(wǎng)絡建模中的總損失表示為:
其中?1,?2,?3為網(wǎng)絡超參數(shù).分別為分割損失、小目標損失、邊緣損失的權(quán)重系數(shù).
首先,我們敘述了實驗環(huán)境與評價標準,然后我們比較了本文算法和當前最先進的方法在Cityscapes 數(shù)據(jù)集上的實驗結(jié)果并進行了一系列消融實驗,對結(jié)果進行了分析.最后,又在PASCAL VOC、ADE20K和Camvid 數(shù)據(jù)集上進行實驗結(jié)果對比分析.四個數(shù)據(jù)集上實驗表明我們的算法不低于其他算法.
本實驗硬件環(huán)境CPU為因特爾E5-2650V4,GPU為微星NVIDIA GeForce RTX 2080Ti.Cityscapes 數(shù)據(jù)集來源于50個不同城市的街道場景,總共5 000張精細標注(精標),2 975 張訓練圖,500 張驗證圖和1 525 張測試圖.在標注像素類別中有8 個大類,每個大類中包含若干子類,共為30個小類,除去一些出現(xiàn)像素頻率較小的類別,用19 個類作為評估.使用mIoU(mean Intersection over Union)來評估預測分割精度[32~34],其計算公式為:
pji為真值為j,預測結(jié)果為i的像素數(shù),K+1 是類別個數(shù)(包含背景類).pjj是真實值.pji為j,被預測為i的像素數(shù),即假正.pij則表示真實值為i,被預測為j的數(shù)量,即假負.
損失函數(shù)設置:我們分別使用了多類交差熵OHEM(Online Hard Example Mining)與二進制交差熵損失函數(shù)分別對訓練過程進行監(jiān)督,邊緣分支與小目標分支損失系數(shù)分別設置為1.
Cityscapes 訓練策略設置:為了進一步排除實驗的偶然性,在訓練過程中對所有網(wǎng)絡進行相同設置.優(yōu)化器:為了保證訓練過程中參數(shù)更新的準確率和運行時間的開銷,我們選擇使用SGD(Stochastic Gradient Descent)[35]作為網(wǎng)絡訓練的優(yōu)化器,初始網(wǎng)絡學習率為0.01,并采用ploy衰減策略.訓練過程中,使用4塊顯卡(GPU),每個GPU 批尺寸設置2.數(shù)據(jù)增強使用隨機翻轉(zhuǎn),隨機調(diào)整大小,隨機裁剪等手段,其中隨機調(diào)整大小的范圍為(0.5,2.0),隨機裁剪尺度為512×1 024.此外,驗證時我們使用尺度為0.5、1.0和2.0的多尺度方案且在訓練過程中未使用粗標注數(shù)據(jù)集.
PASCAL VOC、ADE20K 與Camvid 數(shù)據(jù)集訓練策略設置:我們的訓練協(xié)議參考文獻[36].在訓練過程中,我們采用多項式衰減策略,初始學習率為0.01,并使用裁剪采樣作為預處理,裁剪大小512×512,批標準化參數(shù)在訓練過程中進行了微調(diào),迭代次數(shù)16萬.
為了進一步證明本文提出方法的有效性,在Cityscapes數(shù)據(jù)上我們與以下最新算法進行實驗對比分析:FCN[37]、PSPNet[14]、Deeplabv3+[16]、GSCNN[21]、DSNet[38]、EAMNet[26]、PSANet[39]、DANet[40]、Maskformer[41].其實驗結(jié)果如表1 所示.從這些分割結(jié)果可以看出,我們提出的方法在一些比較復雜的場景中能得到更好的分割效果.
從表1中可以看出,在Cityscapes 驗證集上,我們對Cityscape 上的每一類的IoU 進行了測試,每一個類別的分割性能,我們的方法幾乎都略優(yōu)于其他方法.與Deeplabv3+分割結(jié)果相比,在柱子、交通燈、騎車的人、摩托車以及自行車等分割性能我們的方法分別提高2.0%、2.1%、3.9%、3.3%、1.8%.與GSCNN 比,本文算法可以在不降低其他類別(樹干,摩托車等)的分割性能下,提升柱子,交通信號燈,騎車的人等小目標分割精度.對圖像中公共汽車等大目標,其精度相對FCN也有提高.在Deeplabv3+中路面邊緣我們的方法精度提升0.3%.當我們的方法與DSNet在基線模型為Deeplabv3+,主干網(wǎng)絡為ResNet50 時,我們又進行了對比實驗,DSNet 分割性能只有81.5%mIoU,我們的方法是82.8%mIoU,如表1.我們的算法著重于加強小目標與邊緣的特征,而DSNet 著重增強主體與邊緣的特征,因此在柱子,交通燈,騎車的人,摩托車以及自行車等類別分割性能我們的方法分別提高1.3%、3.1%、2.1%、2.4%、1.7%.在文獻[40]中DSNet 用8 張32 GB 的v-100 GPU 上訓練并以Wide-ResNet[42]作為主干網(wǎng)絡可以達到83.7%的分割性能,雖然使用更深和更寬的網(wǎng)絡可以提高分割性能,但是需要較大的計算開銷.
表1 在Cityscapes驗證集上的各個類別分割結(jié)果
可視化分析:從圖5的特征圖的可視化結(jié)果可以看出,與FCN 相比,我們平滑了大目標內(nèi)部紋理,所以對公交車和汽車等大型物體的分割性能有很大改進.與Deeplabv3+相比,我們主要改進了對場景中遠處的行人等小目標的分割效果.因為ASPP模塊可以很好地對上下文聚合,從而緩解內(nèi)部不一致現(xiàn)象.但是ASPP 模塊是在網(wǎng)絡輸出端得到的語義信息來聚合上下文,它的小目標及邊緣等細節(jié)信息已經(jīng)殘缺,所以我們添加了帶有矯正的邊緣增強模塊,一方面緩解邊緣噪聲,另一方面提高對部分小目標物體的分割效果.但是小目標與邊緣所占整體像素的比例很小,所以即使提高了這些細節(jié)分割效果,但是整體分割性能也不會有太大提高.這和我們上面實驗結(jié)果一致.從上面圖6和圖7 可視化結(jié)果中,我們方法能很好處理FCN 方法中的大目標上下存在不一致的地方,如圖6中的黃色框標注的地方,我們的方法緩解了大尺寸公交車內(nèi)部紋理不一致.與此同時,如圖7 中紅色框標注的地方,我們的算法矯正了交通信號燈以及路面邊緣像素類別,抑制了非邊緣位置像素類別,很好地處理了Deeplabv3+中的小目標并緩解了邊緣噪聲.
圖5 FCN、Deeplabv3+與本文分割算法可視化結(jié)果
圖6 FCN與本文分割算法邊緣可視化結(jié)果
圖7 Deeplabv3+與本文分割算法邊緣可視化結(jié)果
各分支可視化結(jié)果展示;為了更直觀的對我們提出的模塊效果進行分析,我們可視化了本文算法中各個模塊輸出特征,如圖8中(a)為原圖,(b)到(d)分別對應PAM,EEM,TTE 各個模塊特征圖可視化結(jié)果.可以看出,圖(b)中包含了大量的空間結(jié)構(gòu)信息,圖(c)中含有物體輪廓信息,可以很好的增強物體邊緣特征,圖(d)中含交通信號燈以及遠處的行人等小目標信息.最后圖(e)為融合輸出特征,物體輪廓明顯增強,遠處物體特征也比較明顯.
圖8 本文算法網(wǎng)絡中各個模塊可視化結(jié)果
為了更直觀的對我們提出的PAM 模塊進行分析,我們對PAM 中高層次特征、通道特征、空間特征和最后融合輸出特征進行了可視化,分別對應圖9 中(b)到(e),圖9(a)為輸入圖像.我們可以看到(b)中包含了大量抽象的高層語義信息.圖(c)為高層通道相關(guān)性加到低層特征的可視化結(jié)果圖,包含大量空間細節(jié)的同時又有豐富的語義信息.圖(d)中包含了大量空間結(jié)構(gòu)信息.圖(d)為最后融合輸出特征可視化結(jié)果.
圖9 PAM中各個特征可視化結(jié)果
主干網(wǎng)絡上的提升:我們選擇應用全卷積FCN 主干網(wǎng)絡分別使用ResNet50和ResNet101作為主干網(wǎng)絡,設計了消融實驗.如表2 所示,當使用ResNet50,作為骨干網(wǎng)絡時,原FCN 的mIoU 為71.4%,帶有ASPP 模塊的FCN 精度為76.6%,當嵌入我們的模型時,分割精度分別提升3.5%.當以ResNet101 為我們的骨干網(wǎng)時,分割精度分別提升3.3%.基于ResNet50 的模型比ResNet101的模型僅高出了0.7%,說明網(wǎng)絡達到一定層數(shù)時,其性能的提升和網(wǎng)絡層的深度未成正比.
表2 以FCN作為基線Cityscape驗證集上的消融實驗
與相近方法比較:表3為我們的方法與當前最相近方法的性能比較.我們選取了在近期工作中與我們方法最相近的四個方法包括:DCN[43]、GSCNN[23]、DSNet[38]、STLNet[44].上述實驗結(jié)果表明,與以上前三種最相近方法相比,本文方法的增益分別為2.6%、3.0%、0.7%,我們的模塊性能最優(yōu).即使與國際最新工作STLNet相比,本文的算法性能也具有可比性.
表3 與最相近方法的消融實驗
監(jiān)督消融實驗:在表4中對本文方法的損失函數(shù)進行了消融實驗.如果僅用邊緣損失函數(shù)對基線網(wǎng)絡進行監(jiān)督,分割性能提升0.2%,邊緣增強可以去除目標邊緣噪聲,但是目標邊緣像素占目標比例極少,所以僅對邊界進行監(jiān)督其分割性能提升極小.但是對邊緣和分割主體同時進行監(jiān)督,分別用二進制損失函數(shù)和OHEM,分割精度提升1.0%,3.5%.說明綜合損失函數(shù)能更好的挖掘基于邊界形狀位置的像素類別信息,且邊緣與主體部分存在正交性.
表4 以FCN為基線關(guān)于損失函數(shù)監(jiān)督消融實驗
各部分消融實驗:表5 為各個模塊的消融實驗.為了驗證我們提出的算法對網(wǎng)絡性能的影響,分別去掉TTE和EEM模塊.如果不使用我們提出的TTE模塊,引入EEM,mIoU 提高到79.0%.同時,使用TTE和EEM 后,我們的mIoU分別從77.5%提高到80.8%.
表5 以FCN為基線我們方法各部分的消融實驗
為了進一步驗證我們提出算法的通用性,我們還在VOC2012、ADE20K和Camvid 其他場景分割數(shù)據(jù)上進行了本算法實驗驗證.VOC 的訓練集有2 913張圖片共6 929 個物體,20 個類(不含背景)用來作為評估標準.本文分別以ResNet50和ResNet101 為骨干網(wǎng),分割性能提高了1.2%和1.9%左右.ADE20K 數(shù)據(jù)集中,訓練集包含20 210 張圖像,測試集3 489 張圖像,驗證集2 000張圖像,其中我們用150個類別作為評估.Camvid也是城市街景數(shù)據(jù),在該數(shù)據(jù)集中包含802張精標圖像,其中選擇32 個語義類別作為評估.從表6、表7和表8中可以看出,在其它幾個分割數(shù)據(jù)上,本算法都有性能提升.
表6 VOC 2012數(shù)據(jù)集實驗結(jié)果(輸入圖片大小512×512)
表7 ADE20K數(shù)據(jù)集實驗結(jié)果(輸入圖片大小512×512)
表8 Camvid數(shù)據(jù)集實驗結(jié)果(輸入圖片大小512×512)
從以上實驗結(jié)果來看,與Deeplabv3+等方法對比,本文方法在一定程度上提高了對小目標圖像的分割精度.比如,從圖5和圖8的可視化結(jié)果來看,遠處的行人細節(jié)信息有明顯增加,網(wǎng)絡輸出特征中包含了大量空間細節(jié)和豐富的語義信息.與相近方法[21,22]相比,由于本文提取地邊緣及小目標具有語義類別信息,且對邊緣及小目標像素類別又進行了訓練校正,所以它們能與主網(wǎng)絡圖像特征更好地交互融合.這不僅提高了小目標的分辨率,改善了對邊緣的分割效果,同時也使大目標輪廓更加清晰,緩解了邊緣附近的毛躁與混淆現(xiàn)象,提高了大目標分割精度.
本文算法與以往方法的不同之處主要存在以下三個方面.首先,我們設計了一個新的輕量級注意力模塊PAM,該模塊使帶有豐富細節(jié)的低層獲得了高層語義信息;然后分別對該模塊輸出特征進行邊緣與小目標建模,提取小目標及邊緣特征.最后對建模提取結(jié)果分別設置相應的損失函數(shù)進行監(jiān)督訓練.由于是在網(wǎng)絡底層PAM 模塊中提取得小目標及邊緣特征,因此其具有豐富細節(jié)和語義類別信息.訓練后的特征與ASPP輸出的特征、主干網(wǎng)絡第一層特征融合,使得小目標特征、邊緣特征、主網(wǎng)絡圖像特征三者之間進行交互.在增強了小目標與邊緣特征的同時,也矯正了圖像像素的類別標簽,提高了圖像的分割精度.