孫紅,袁巫凱,趙迎志
引入反饋注意力的并行式多分辨率語義分割算法
孫紅,袁巫凱,趙迎志
(上海理工大學 光電信息與計算機工程學院,上海 200093)
為了進一步提升語義分割精度,解決當前語義分割算法中特征圖分辨率低下,低級信息特征隨意丟棄,以及上下文重要信息不能顧及等問題,文中嘗試提出一種融合反饋注意力模塊的并行式多分辨率語義分割算法。該算法提出一種并行式網(wǎng)絡(luò)結(jié)構(gòu),在其中融合了高低分辨率信息,盡可能多地保留高維信息,減少低級信息要素的丟失,提升分割圖像的分辨率。同時還在主干網(wǎng)絡(luò)中嵌入了帶反饋機制的感知注意力模塊,從通道、空間、全局3個角度獲得每個樣本的權(quán)重信息,著重加強樣本之間的特征重要性。在訓練過程中,還使用了改進的損失函數(shù),降低訓練和優(yōu)化難度。經(jīng)實驗表明,文中的算法模型在PASCAL VOC2012、Camvid上的MIOU指標分別為77.78%、58.67%,在ADE20K上的也有42.52%,體現(xiàn)了出較好的分割性能。文中的算法模型效果相較于之前的分割網(wǎng)絡(luò)有一定程度的提升,算法中的部分模塊嵌入別的主干網(wǎng)絡(luò)依舊表現(xiàn)出較好的性能,展現(xiàn)了文中算法模型具備一定的有效性和泛化能力。
圖像語義分割;反饋式注意力;多分辨率
近年來,隨著互聯(lián)網(wǎng)人工智能的迅猛發(fā)展,計算機視覺不斷地被應(yīng)用于人們生活的方方面面,并持續(xù)地為人們帶來各種便捷。圖像語義分割則在計算機視覺的下游任務(wù)中占據(jù)十分重要的一環(huán),可以說沒有語義分割,計算機視覺的發(fā)展就不會有這么浩瀚宏大。圖像語義分割簡而言之,就是對圖像中的像素點進行細致地分類處理,分成不同的區(qū)塊代表著不同的語義[1]。
圖像語義分割[2]也一路發(fā)展而來也并不是一帆風順,以前傳統(tǒng)的方法利用閾值法[3]和區(qū)域法等關(guān)注RGB、紋理這些低級特征[4]從而限制了分割精度的提升。自從全卷積神經(jīng)網(wǎng)絡(luò)[5](Fully Convolutional Networks,F(xiàn)CN)被提出以后,語義分割至此進入了新階段。VGG[6]由Simonyan等提出,通過不斷堆疊3*3卷積核提升模型性能;2015年何凱明及其團隊[7]提出的ResNet,借以在輸入和輸出之間增加殘差連接,以提供恒等映射,這樣改變信息傳導(dǎo)的方式以至于后來的很多語義分割模型都以此為網(wǎng)絡(luò)主干強化特征提取;同年Ronneberger等[8]提出了影響廣泛的U–Net網(wǎng)絡(luò),它采用“U型”結(jié)構(gòu),在編碼層上通過接連不斷地下采樣,壓縮圖像獲取語義信息,在解碼層恢復(fù)信息,取得了較好的效果,后來很多研究工作在編解碼器上進行迭代和修改,目前被大范圍地應(yīng)用于各類醫(yī)學圖像分割。Chen等[9]創(chuàng)新性地提出了DeepLab,使用空洞卷積擴展感受野,搭配以完全連接的條件隨機場(CRF),提高了模型捕獲細節(jié)的能力;之后DeepLab相繼推出V2、V3等,極大地提升了獲得上下文關(guān)鍵信息的能力,分割性能節(jié)節(jié)攀升,但是這些方式也依舊帶來了問題,即各種復(fù)雜的池化下采樣操作不斷降低特征圖分辨率,過大的卷積核明顯增加了網(wǎng)絡(luò)復(fù)雜度,訓練起來費時費力。
伴隨著SENet[10]的興起,越來越多的科研人員開始將注意力機制引入圖像語義分割中企圖可以生成密集的上下文信息。比如十字交叉注意力模塊CCNet[11],著重關(guān)注空間維度上的信息建模,同時考慮一個像素和全局像素之間的關(guān)系[12],該算法也有效降低了時間和空間復(fù)雜度;之后各種注意力模塊被相繼提出,比如自注意力模塊,疊加了通道和局部空間的雙注意力,甚至多頭注意力[13]等,對特征圖的重要信息把握更加準確有效。
另外影響圖像的語義分割的精度還在于對邊緣信息的把控,也有諸多科研人員在這方面做了工作,即若存在某一個像素點與相鄰像素點的灰度值產(chǎn)生較大的差異,那么該像素可能處于邊緣地帶。有人通過加強邊緣輪廓部分的像素,來改善分割的效果。在常用的邊緣檢測中,借助微分算子進行卷積實現(xiàn)分割,簡單且高效,并且不同的任務(wù),可選擇的邊緣檢測算子一般也是不同的,如Canny檢測算子[14]等。還有很多諸如此類的將傳統(tǒng)的分割手段和深度學習方式混合在一起的,這種定義方式有利于得到較好的分割效果,但是定義的過程也較為煩瑣[15]。
盡管當前語義分割算法已經(jīng)取得了一些較好的效果,但是由于算法設(shè)計過程中特征圖分辨率低,信息特征丟失,上下文信息顧及不全的問題依然存在,導(dǎo)致最后的分割效果不太理想。文中提出一種新的并行式網(wǎng)絡(luò)結(jié)構(gòu),并在其中融合了高低分辨率信息,盡可能多地保留高維信息,減少低級信息要素的丟失。同時還在主干網(wǎng)絡(luò)中嵌入了帶反饋機制的全維感知注意力模塊,以此來獲得每個樣本的權(quán)重信息,著重加強樣本之間的特征重要性。在訓練過程中,還采用融合損失函數(shù),降低訓練和優(yōu)化難度。經(jīng)實驗表明,文中的算法模型具有較好的分割性能。
文中提出的網(wǎng)絡(luò)模型整體框架見圖1,主要是由并行式結(jié)構(gòu)、多分辨率融合模塊、下采樣模塊和反饋注意力模塊4個部分組成。分上下2部分來看,在上半部分,輸入的特征圖先經(jīng)過并行式多分辨率融合的主干網(wǎng)絡(luò),輸出得到O1;在下半部分,輸入的特征圖經(jīng)過反饋注意力模塊,輸出得到O2,然后O1和O2在通道維度上進行concatenate拼接后經(jīng)過線性分類器得到最終的輸出Output。
圖1 網(wǎng)絡(luò)框架
并行式多分辨率的融合保證了高分辨率的圖像信息完全保留,不像其他語義分割算法忽略低分辨率的圖像信息特征,反饋注意力模塊也保證了關(guān)注重要特征信息,這樣的方式更加有利于圖像分割的效果。
在當下這個時間點,語義分割算法對輸入圖的分辨率要求越來越高。VGGNet的網(wǎng)絡(luò)結(jié)構(gòu)導(dǎo)致它最終得到的特征圖(Feature Map)分辨率很低,空間的結(jié)構(gòu)信息損失比較嚴重。此外,很多主干網(wǎng)絡(luò)提升圖像分辨率的方式都是先降低分辨率,再升分辨率,典型的有U–Net(見圖2),或者通過引入編解碼器(Encoder & Decoder)的結(jié)構(gòu),比如SegNet[16](見圖3)等。文中獨特的并行式多分辨率網(wǎng)絡(luò)摒棄了傳統(tǒng)的串聯(lián)卷積層的堆疊,以高低分辨率的并聯(lián)輔以改進過的下采樣模塊和融合模塊,很好地兼顧了高低維的特征信息。
圖2 U–net網(wǎng)絡(luò)
圖3 SegNet網(wǎng)絡(luò)
1.2.1 并行式網(wǎng)絡(luò)結(jié)構(gòu)
并行式網(wǎng)絡(luò)結(jié)構(gòu)(Parallel Network Structure,PNS)與傳統(tǒng)串聯(lián)式特征圖堆疊不同但效果更好是因為在編碼結(jié)構(gòu)中,高分辨率轉(zhuǎn)為低分辨率會造成像素信息的丟失和不完整。
在文中網(wǎng)絡(luò)結(jié)構(gòu)中,給出了3個stage,第個stage就包含行并列的分辨率不同的channel map。把每個stage的每行稱為一個block。在2個stage之間,會產(chǎn)生一個分支的擴展,同分辨率的會直接進行平移復(fù)制到下一個stage,不同分辨率之間會進行融合模塊的相互作用,并且任何一個較低分辨率圖都來源于前一個高分辨率圖的下采樣(該模塊后面會詳述)和同分辨率圖的平移復(fù)制。
第1個stage由高分辨率的特征圖構(gòu)成,里面擁有著豐富的語義信息,將保留的高維信息直接平移轉(zhuǎn)到第2個stage,形成一個block分支,同時經(jīng)過改進過的下采樣模塊,將高分辨率的channel map生成次分辨率的特征圖和第2個block分支,而后在第2個stage中重復(fù)一樣的操作,再生成更次分辨率,即更低分辨率的特征圖。整個網(wǎng)絡(luò)結(jié)構(gòu)有3個stage,不僅能很好地保留高維信息,減少高分辨率圖像像素的恢復(fù)過程,也不會隨意丟棄低頻像素的淺層特征(這恰恰是目前圖像語義分割算法所忽略的),并且這樣做減少了一定參數(shù)量的上升,由后續(xù)實驗結(jié)果也可以看出,并行式網(wǎng)絡(luò)結(jié)構(gòu)相較于多層次編解碼器式的串聯(lián)結(jié)構(gòu)運算量有一定的下降。
1.2.2 多分辨率融合模塊
多分辨率融合模塊(Multi Resolution Fusion Module,MRFM)特征結(jié)構(gòu)見圖4,它的作用就在于高分辨率圖像[17]融合了更多的邊界信息和空間位置信息,可以用于對低分辨率圖像進行信息指導(dǎo)[18]和抽取,因此,不好好利用低分辨率信息甚至隨意丟棄,對分割效果將會產(chǎn)生較大的影響。
與別的融合模塊[19]不同的是,先對輸入的高分辨率圖和低分辨率圖在通道維度上進行concatenate拼接,再進入Channel shuffle操作,為的是保證特征通信的作用,即不同組之間強化信息交流,提升特征提取能力,這里不采用密集逐點卷積(Dense Pointwise Convolution)的原因是模型計算較為復(fù)雜,帶來了復(fù)雜度的上升,“交流能力”也并不突出。再采用全局平均池化(Global Average Pooling,GAP)取代全連接層實現(xiàn)降維,對其在通道維度上進行壓縮,避免了全連接層出現(xiàn)過擬合,進一步提升網(wǎng)絡(luò)的泛化能力,見式(1)。
(1)
式中:op為全局平均池化輸出的函數(shù);c為輸入feature map的第個通道;和為輸入的高和寬2個維度。
圖4 多分辨率融合模塊
接著左中右經(jīng)過卷積層分別接續(xù)歸一化(Batch Normalization)操作和激活函數(shù)。最后再經(jīng)過1*1的卷積層和Swish激活函數(shù)生成分辨率較高的圖像。這里選用Swish激活函數(shù)還是有一些好處的。它的表達式見式(2)。
1.2.3 下采樣模塊
下采樣模塊主要用于高分辨率向低分辨率轉(zhuǎn)換的過程中,模塊細化見圖5。
一般在深層網(wǎng)絡(luò)中,過多的下采樣操作會不斷壓縮特征圖,進而丟失重要的語義信息,這也是諸如編解碼結(jié)構(gòu)式網(wǎng)絡(luò)普遍出現(xiàn)的問題。文中使用的下采樣模塊可以盡可能減少下采樣帶來的缺陷。首先,輸入的高分辨率的圖像經(jīng)過平均池化(Average Pooling),卷積層,再進行歸一化操作。另外,最右側(cè)加了一層連接分支,添加了一個與卷積并行的單層SE(Squeeze and Excitation)模塊,它包括2D均值池化和卷積層,以此來獲取更大的感受野,壓縮與激活操作對重要的信息賦予了更多的權(quán)重。最后,經(jīng)過矩陣相乘,依舊通過Swish激活函數(shù)輸出低分辨率圖。這樣的下采樣模塊在降低分辨率的同時,還能實現(xiàn)多尺度處理。
圖5 下采樣模塊
在進行一次的端到端的訓練過程中,后面的信息無法對前面的信息采集過程進行干預(yù)和指導(dǎo),當前面出現(xiàn)偏差時,后面也只能“將錯就錯”,難以修正,對輸出結(jié)果造成一定的影響,此時反饋機制[17]應(yīng)運而生。它最初的靈感來源于人腦會將眼前看到的信息回傳到大腦,再通過大腦判斷和預(yù)測后進行下一步動作。為了更好地留住空間與通道上的重要信息,文中創(chuàng)造性地提出了反饋注意力模塊(Feedback attention module,F(xiàn)AM),見圖6,意在將反饋機制引入空間注意力之中。
式中:O為經(jīng)過歸一化后的輸出;為最終的輸出特征;x為輸入的樣本特征圖。
整個APM(見圖7)中主要包含了3個種類的注意力分別是通道注意力機制(Channel Attention),帶反饋的局部空間注意力(Local Spatial Attention with Feedback,LSAF)和全局空間注意力機制(Global Spatial Attention)。從通道到空間一體化的注意力機制對重要信息的把控更為專注,大幅提高網(wǎng)絡(luò)特征信息提取的效率。以下詳細敘述3種注意力機制的內(nèi)部細節(jié)。
圖6 反饋注意力模塊
圖7 注意力感知模塊圖
式中:BN()為Batch Normalization;FC()為全卷積層;GAP()為全局池化操作。
2)帶反饋的局部空間注意力(見圖9)。這部分包含一個由密集連接(Dense connection)、上采樣和下采樣構(gòu)成的反饋塊。反饋機制中穿插了很多deconv層和conv層,以每個deconv層的輸入是前面所有conv層的輸出(紅線),每個conv層的輸入是前面所有deconv層的輸出(紫線)來做concatenate拼接。其次,除了第1個group以外,在每個conv之前都加了1*1的卷積層,每個deconv之前也都增加了1*1卷積層,也即每次concatenate之后都要1*1的卷積來調(diào)整。最后,為了使輸出更好一些,結(jié)合了所有conv層的輸出(綠線)后,在2個1*1的卷積層之間串聯(lián)一個3*3的卷積,以此來聚合局部的空間信息。另外在最前面的1*1卷積后引出一條跳躍連接(Skip Connection),使得未經(jīng)過任何操作的圖像的低級特征被引入其中,再疊加經(jīng)過反饋機制后的高級特征,可以取得更好的效果。
式中:()為Batch Normalization;為卷積操作,右上角的標代表卷積核的大小。反饋機制嵌入局部空間注意力之中,可以更加有效地增加信息的“重吸收”功能,更好地聚集空間的局部信息。
3)全局空間注意力(見圖10)??臻g注意力是對局部空間注意力的補充。運用的是1*1的卷積層和reshape函數(shù)的并行,用softmax調(diào)整輸出大小尺度,重新reshape之后輸出。
1.4.1 關(guān)于交叉熵損失
交叉熵損失(Cross Entropy Loss)在計算機視覺中的應(yīng)用是極其廣泛的,尤其在下游的分類與分割任務(wù)中。交叉熵損失在單標簽任務(wù)(二分類問題也包含在其中)中,即每個樣本只能有1個標簽,比如ImageNet(1個用于圖像識別的數(shù)據(jù)集)圖像分類任務(wù),每張圖片只能有1個固定的標簽。
對于單個樣本,假設(shè)真實分布為,網(wǎng)絡(luò)輸出分布為*,總的類別數(shù)為,則在這種情況下,交叉熵損失函數(shù)的計算方法見式(8)。在多分辨率融合模塊中添加交叉熵損失函數(shù)可以較為準確地衡量Ⅰ區(qū)域和Ⅱ區(qū)域之間的相似性,從而抑制偏差,一定程度上減小了該模塊訓練的成本花銷,有利于低分辨率的信息提取。
整個模型的損失函數(shù)由多分辨率融合模塊和最終的輸出組成,損失函數(shù)見式(9)。
其中(1)和(2)分別是多分辨率融合損失和最終的輸出損失,和是權(quán)重系數(shù),用于調(diào)節(jié)2種損失之間的權(quán)重比例,在后續(xù)實驗過程中可以進行針對性的優(yōu)化與調(diào)整使得分割效果更為精細,則交叉熵損失的公式為:
圖10 空間注意力
式中:y為經(jīng)過one–hot獨熱編碼的向量表示;*為預(yù)測輸出的概率分布。
本質(zhì)上來說,交叉熵損失函數(shù)是一種類與類之間的競爭機制,善于關(guān)注并且學習類間信息,但是也存在問題,即它總是只關(guān)注正確標簽預(yù)測正確的準確性,而對沒有正確預(yù)測的就忽略了,這樣學習的特征可能并不完善,后續(xù)也打算繼續(xù)嘗試修改交叉熵損失。
1.4.2 標簽平滑
在分類與分割問題中(一般二分類問題中),把標簽的one–hot編碼(把對應(yīng)類別的值編碼為1,其他為0)和交叉熵損失結(jié)合起來調(diào)整參數(shù)時,過分信任標簽會帶來問題。對一個數(shù)據(jù)集來說,由于大家的目標任務(wù)和想法不同,標注的準則可能存在些許的偏差,一些對像素要求較高的如邊緣信息的任務(wù)甚至會出現(xiàn)標注出錯。模型對標簽充分信任帶來的后果就是有可能不同類別輸出的分數(shù)差異很大,較容易造成過擬合。
將標簽平滑機制引入交叉熵損失之中,即損失函數(shù)轉(zhuǎn)化為:
式中:()為標準的交叉熵損失;為一個常數(shù);為類的個數(shù);為預(yù)測正確的類;為類的個數(shù)。
標簽平滑這個手段本質(zhì)上就是嘗試在標簽中加入適當?shù)脑肼?,給模型“放松”,改善模型過度“自信”的表現(xiàn)進而盡力規(guī)避模型發(fā)生過擬合。經(jīng)過實驗,當將值調(diào)整到0.34左右,并且剔除部分標簽指標,觀察可以得到較好的分割效果。
該模型所需要的實驗設(shè)備及環(huán)境參數(shù)見表1。
表1 設(shè)備環(huán)境及參數(shù)
根據(jù)圖像語義分割對分辨率的要求和場景,文中數(shù)據(jù)集選擇的是Camvid、PASCAL VOC2012和ADE20K。
Camvid數(shù)據(jù)集是由劍橋大學發(fā)布的具有目標類別圖片數(shù)據(jù)集合,他是從駕駛汽車的角度拍攝的,駕駛場景的復(fù)雜性顯著增加了所需觀察目標的多樣性和差異性。PASCAL VOC2012也是語義分割常用公開數(shù)據(jù)集,包括人、動物、交通工具等,是由訓練集、驗證集和測試集3部分組成。ADE20K是MIT提出的,包括了室內(nèi)室外、自然場景、單張場景等多種類別的場景數(shù)據(jù)集。
圖像語義分割算法的評價指標,文中采用平均交并比(Mean Intersection over Union,MIoU)和參數(shù)量(Parameters)這2個指標。前者用于衡量算法模型的分割效果,后者則是用來計算該網(wǎng)絡(luò)結(jié)構(gòu)所需要的運算量,用于參考模型復(fù)雜度。
文中的算法模型在用于分割網(wǎng)絡(luò)之前,先用于分類網(wǎng)絡(luò)進行預(yù)訓練,即最后的輸出僅包含高分辨率特征而不在通道維度上進行concatenate拼接的多分辨率融合操作。在訓練過程中,把已經(jīng)處理好的圖片和標簽送入到數(shù)據(jù)集(3種數(shù)據(jù)集)中進行訓練,初始學習率(Learning Rate)為0.000 1,訓練迭代次數(shù)設(shè)置為300。當損失函數(shù)的值越來越小,相應(yīng)的學習率也逐漸變小。采用Poly學習率策略進行調(diào)整,當模型的損失函數(shù)波動越來越小,趨于穩(wěn)定時結(jié)束訓練,記錄此刻模型的參數(shù)和結(jié)果。
2.4.1 模型中模塊對比實驗
文中實驗?zāi)P椭饕怯刹⑿惺蕉喾直媛嗜诤吓c交互、反饋注意力機制等模塊組成。為了驗證上述2個主要模塊對于圖像分割效果的作用,利用Cityscapes數(shù)據(jù)集,在文中網(wǎng)絡(luò)模型的基礎(chǔ)上添加或者刪除2個模塊并對比分割效果。
表2中序號1代表僅采用并行式網(wǎng)絡(luò)結(jié)構(gòu),并且head輸出僅是高分辨率特征,與預(yù)訓練的分類模型類似,序號2則是在采用并行式網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,高低分辨率融合,最后在通道維度上進行concatenate拼接,以高分辨率特征進行輸出。序號3是在2的基礎(chǔ)上加入文中的多分辨率融合模塊(MRFM);序號4則是在3上加入反饋注意力機制模塊(FAM)。可以發(fā)現(xiàn),在輸出時疊加了各個通道維度的信息以后,對分割的效果是有提升的,同時,在引入了多分辨率融合模塊后,分割效果的漲點也很明顯,在參數(shù)量上有一定的增加,但是參數(shù)量的小幅增長是在可接受范圍內(nèi)的。另外發(fā)現(xiàn)反饋注意力機制能明顯聚合通道信息和全局信息,在MIOU指標上有較大的提升,并且此時參數(shù)量增加也不多,是一個“性價比”很高的模塊。
表2 模塊數(shù)據(jù)對比
為了進一步驗證反饋注意力模塊(FAM)的泛化能力、可移植性和性能表現(xiàn),抓住反饋注意力模塊的“重點關(guān)注高級特征通道和空間信息”的特點,嘗試將該模塊引入主流的一些主干網(wǎng)絡(luò)中。文中選取了2個主干網(wǎng)絡(luò)分別是使用最廣泛的ResNet(2015)和VGG式家族性能較好的RepVGG(2021)。將主干網(wǎng)絡(luò)首先在ImageNet上進行預(yù)訓練,利用動態(tài)學習率進行迭代后在Cityscapes上進行測試,表現(xiàn)效果見表3。
表3 反饋注意力模塊實驗
FAM在2個主干網(wǎng)絡(luò)上都取得了較好的效果,具備較高的可移植性。在ResNet中,性能表現(xiàn)很好,即使面對輕量的CBAM模塊,在參數(shù)量增加不多的情況下,卻可以有效提升MIOU指標,原因是反饋模塊的嵌入對被遺棄的低級信息進行“廢料利用”很到位。再者,在面對RepVGG本身獨特的卷積操作和訓練技巧面前,反饋式注意力模塊依舊可以有效漲點。
2.4.2 數(shù)據(jù)集下網(wǎng)絡(luò)模型對比
為進一步驗證文中提出的算法模型在圖像語義分割算法上的有效性,分別在PASCAL VOC2012、Camvid和ADE20K數(shù)據(jù)集上與其他公開的算法模型進行了對比實驗。將MIOU作為評價指標,觀察統(tǒng)計效果,見表4。
表4 模型對比
從表4可以明顯看出,在MIOU指標上文中模型相較于其他模型都有比較明顯的漲點,在PASCAL、Camvid、ADE20K三大數(shù)據(jù)集上分別達到了77.78%、58.67%、42.52%。著重對比DeepLab V3和DMNet在VOC 2012和Camvid上的效果,文中模型相較于DeepLab V3有接近2%和3.2%的提升,對比DMNet也有3.32%和0.84%的漲幅。另外在面對ADE20K這個場景數(shù)據(jù)集下,文中模型、PASCAL和Camvid的指標成績都不是特別好,但是文中模型依然有一定程度的提升,反映出文中模型具有很高的有效性和可行性。
為了更加清楚地說明文中模型在分割效果上的提升,將分割圖、標注圖、原圖進行展示,并將文中模型分別與FCN、SegNet等網(wǎng)絡(luò)模型的進行細節(jié)對比,對比效果見圖11。圖11中圈出來的即為效果顯著的地方。
如圖11所示,文中分別選取了FCN、SegNet、DeepLab V3、PSPNet這些網(wǎng)絡(luò)與文中模型進行分割效果對比。在第1行中,文中模型左側(cè)的垃圾桶、遠處的藍色自行車、右側(cè)汽車輪胎部分以及邊上的行人都分割得更加精細;在第3行中,汽車底部的輪胎和遠處紅色區(qū)域的黃色窗戶也進行了有效的還原;第4行的模型勝在第2輛車的輪廓以及右上角樹枝樹干,展現(xiàn)出了部分細節(jié)的優(yōu)勢。
為了展現(xiàn)室內(nèi)復(fù)雜場景下文中算法的優(yōu)越性與可行性,在PASCAL VOC2012數(shù)據(jù)集上選取了人像和靜物擺件2類圖,見圖12,分別與各大主流分割網(wǎng)絡(luò)進行對比。第1張圖中,F(xiàn)CN人像與桌子邊緣破碎,右上角盆栽和電視邊緣也出現(xiàn)分割還原不清楚,后面的幾組網(wǎng)絡(luò)均存在類似問題,而文中網(wǎng)絡(luò)在桌子的邊緣、綠黃2人的中間、盆栽底部以及電視正下方展現(xiàn)出較好的效果。對于第2行電腦桌面場景,SegNet甚至出現(xiàn)水杯沒有分割出來的情況,其余網(wǎng)絡(luò)模型也存在電腦周邊分割不到位的地方,尤其是電腦底座難以分割還原完整,分辨率較低。這兩者均被文中算法較為明顯地分割出來(見圖12中圓圈標注),邊緣處已大幅度完整平滑,達到了原圖90%的水準。由此可見,在文中算法中,維持高分辨率和反饋模塊對分割效果起到了積極作用。
圖11 部分分割效果對比圖
圖12 室內(nèi)復(fù)雜場景分割效果對比
文中對當下圖像語義分割中存在的分辨率低導(dǎo)致的分割精度不夠準確的問題,提出了并行式多分辨率融合的模型,專注以高分辨率信息指導(dǎo)低分辨率信息,減少像素信息的丟失,同時引入帶反饋的注意力機制,注重通道和局部空間語義信息,保留更重要的特征信息。經(jīng)過部分實驗表明,文中模型在PASCAL VOC2012、Camvid等數(shù)據(jù)集上取得了較好的提升效果,實驗效果優(yōu)于DeepLab V3等常用分割網(wǎng)絡(luò),顯著好于FCN、SegNet等網(wǎng)絡(luò),證明文中模型對語義分割存在一定的有效性和泛化能力。
盡管文中模型取得了較好的性能效果,但是依然存在一些問題,還有較大的提升空間。在一個好的圖像語義分割算法中,分割精度高只是一方面,分割過程中的速度也尤為重要。關(guān)于分割速度,以后可以嘗試使用輕量型網(wǎng)絡(luò),減少深層嵌套的卷積神經(jīng)網(wǎng)絡(luò),盡可能在性能不衰減、效果不打折扣的同時減少參數(shù)量和網(wǎng)絡(luò)深度。另外,在訓練基礎(chǔ)網(wǎng)絡(luò)過程中容易忽略或者解決不好loss,因此在接下來的工作主要是嘗試將輕量型網(wǎng)絡(luò)應(yīng)用到現(xiàn)有的模型中,減少參數(shù)量和模型復(fù)雜度,并且在模型的各個重要位置添加損失函數(shù)繼續(xù)降低訓練和優(yōu)化難度。
[1] 張燦. 基于卷積神經(jīng)網(wǎng)絡(luò)的圖像語義分割算法研究[D]. 武漢: 華中科技大學, 2017: 5-10.
ZHANG Can. Research on Image Semantic Segmentation Algorithm Based on Convolutional Neural Network[D]. Wuhan: Huazhong University of Science and Technology, 2017: 5-10.
[2] 曾孟蘭, 楊芯萍, 董學蓮, 等. 基于弱監(jiān)督學習的圖像語義分割方法綜述[J]. 科技創(chuàng)新與應(yīng)用, 2020(8): 7-10.
ZENG Meng-lan, YANG Xin-ping, DONG Xue-lian, et al. Review of Image Semantic Segmentation Methods Based on Weakly Supervised Learning[J]. Technology Innovation and Application, 2020(8): 7-10.
[3] 劉碩. 閾值分割技術(shù)發(fā)展現(xiàn)狀綜述[J]. 科技創(chuàng)新與應(yīng)用, 2020(24): 129-130.
LIU Shuo. Overview of Threshold Segmentation Technology Development[J]. Technology Innovation and Application, 2020(24): 129-130.
[4] 吳世燃, 嚴國平, 楊小俊. 紙塑復(fù)合袋表面缺陷圖像分割算法的設(shè)計與實現(xiàn)[J]. 包裝工程, 2021, 42(1): 244-249.
WU Shi-ran, YAN Guo-ping, YANG Xiao-jun. Design and Implementation of Image Segmentation Algorithm for Surface Defects of Paper Plastic Composite Bag[J]. Packaging Engineering, 2021, 42(1): 244-249.
[5] LONG J, SHELHAMER E, DARRELL T. Fully Convolutional Networks for Semantic Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC: IEEE Computer Society, 2015: 3431-3440.
[6] SIMONYAN K, ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[EB/OL]. (2015-04-10)[2021-05-15]. https://arxiv. org/pdf/1409. 1556.pdf.
[7] HE K M, ZHANG X Y, REN S Q, et al. Deep Residual Learning for Image Recognition[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 770-778.
[8] RONNEBERGER O, FISCHER P, BROX T. U-Net: Convolutional Networks for Biomedical Image Segmentation[C]// Lecture Notes in Computer Science, Cham: Springer International Publishing, 2015: 234-241.
[9] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFS[EB/OL]. (2014-12-22) [2021-05-15]. https://arxiv.org/abs/1412.7062
[10] HU Jie, SHEN Li, SUN Gang. Squeeze-and-excitation networks[C]// 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA. IEEE : 7132-7141.
[11] HUANG Z L, WANG X G, HUANG L C, et al. CCNet: Criss-Cross Attention for Semantic segmentation[C]// Proceedings of the IEEE International Conference on Computer Vision, NJ, IEEE Press, 2019: 603-612
[12] ZHONG Z L, LIN Z Q, BIDART R, et al. Squeeze- and-Attention Network for Semantic Segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Washington, DC, IEEE Computer Society, 2020: 13062-13071.
[13] LI X, ZHONG Z S, WU J L, et al. ExpectationMaximization Attention Networks for Semantic Segmentation[C]// Proceedings of the IEEE International Conference on Computer Vison, Piscataway, NJ, IEEE Press, 2019: 9166-9175.
[14] 田貝樂, 牛宏俠, 劉義健. 一種優(yōu)化的Canny邊緣檢測算法[J]. 鐵路計算機應(yīng)用, 2021(10): 14-18.
TIAN Bei-le, NIU Hong-xia, LIU Yi-jian. Optimized Canny Edge Detection Algorithm[J]. Railway Computer Application, 2021, 30(10): 14-18.
[15] GAO You-wen, ZHOU Ben-jun, HU Xiao-fei. Research on Convolution Neural Network Image Recognition Based on Data Enhancement[J].Computer Technology and Development, 2018, 28(8): 62-65
[16] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[17] LI QILEI, LI ZHEN, LU LU, et al. Gated Multiple Feedback Network for Image Super-Resolution[EB/OL].[2021-0416]. http://arxiv.org/abs/1907.04253
[18] MA Ning-ning, ZHANG Xiang-yu, ZHENG Hai-tao, et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design[EB/OL]. 2018: arXiv: 1807.11164. https://arxiv.org/abs/1807.11164
[19] 盧印舉, 郝志萍, 戴曙光. 融合雙特征的玻璃缺陷圖像分割算法[J]. 包裝工程, 2021, 42(23): 162-169.
LU Yin-ju, HAO Zhi-ping, DAI Shu-guang. Glass Defect Image Segmentation Algorithm Fused with Dual Features[J]. Packaging Engineering, 2021, 42(23): 162-169.
[20] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]// Computer Vision - ECCV 2018, Cham, Springer International Publishing, 2018: 3-19.
Parallel Multi-resolution Semantic Segmentation Algorithm with Feedback Attention
SUN Hong,YUAN Wu-kai,ZHAO Ying-zhi
(School of Optical-Electrical and Computer Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China)
The work aims to propose a parallel multi-resolution semantic segmentation algorithm integrating feedback attention module, in order to further improve the accuracy of semantic segmentation and solve the problems of low resolution of feature map, random discarding of low-level information features and failure to take into account important contextual information in the current semantic segmentation algorithm. The algorithm exhibited a parallel network structure, which integrated high and low resolution information, retained high-dimensional information as much as possible, reduced the loss of low-level information elements, and improved the segmentation resolution. At the same time, a perceptual attention module with feedback mechanism was embedded in the backbone network to obtain the weight information of each sample from the perspectives of channel, space and global, focusing on strengthening the importance of characteristics among samples. In the training process, the improved loss function was also used to reduce the difficulty of training and optimization. Experiments showed that the proposed algorithm model achieved 77.78% and 58.67% MIOU indexes on Pascal voc2012 and Camvid respectively, and 42.52% on ADE20K, reflecting better segmentation performance. Compared with the previous segmentation network, the algorithm model has a certain degree of improvement. Some modules embedded in other backbone networks still show good performance, which shows that the algorithm model has certain effectiveness and generalization ability.
image semantic segmentation; feedback attention; multi-resolution
TP391
A
1001-3563(2023)01-0141-10
10.19554/j.cnki.1001-3563.2023.01.016
2021–12–29
國家自然科學基金(61472256,61170277,61703277)
孫紅(1964—),女,博士,副教授,主要研究方向為大數(shù)據(jù)與云計算、控制科學與工程、模式識別與智能系統(tǒng)。
責任編輯:曾鈺嬋