朱 浩,谷小婧,藍 鑫,顧幸生
(華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
語義分割是計算機視覺領(lǐng)域的一個熱點研究方向,已廣泛應(yīng)用于機器人,醫(yī)學(xué)以及自動駕駛等領(lǐng)域[1-5]。開發(fā)可靠的自動駕駛應(yīng)用是一個具有挑戰(zhàn)性的任務(wù),因為無人車輛需要對周圍環(huán)境進行感知、預(yù)測,然后計劃并進行決策。僅利用可見光圖像進行語義分割無法確保自動駕駛系統(tǒng)的魯棒性,因為可見光圖像的成像會受到周圍環(huán)境的影響,例如大霧等能見度低的場景、夜間等光照亮度低的場景或強曝光的光照度過高的場景。因此,結(jié)合多模態(tài)的信息來提升分割的魯棒性逐漸受到人們的關(guān)注[6-8]。
近年來,部分研究者引入紅外圖像以彌補僅使用可見光圖像造成的缺陷。可見光的波長范圍在0.4~0.76 μm之間而紅外線的波長范圍在0.1~100 μm之間,補充了絕大部分可見光之外的信息,并且在光照條件較差的情況下,可見光捕捉到的信息將會很少,而紅外圖像根據(jù)高于絕對零度的目標(biāo)發(fā)射的熱輻射強度成像,在各種不同的光照條件下都能提供較完整的信息,加入紅外圖像作為可見光圖像的補充可以增加在各種光照干擾條件下輸入信息的完整性。因此,基于可見光-紅外雙波段圖像實現(xiàn)語義分割有望提高自動駕駛系統(tǒng)的魯棒性。
然而,更多模態(tài)意味著更多的信息[4],這其中既有互補的信息也有冗余的信息,將什么信息進行融合,何時進行融合,以及如何進行融合是目前RGB-IR雙波段語義分割問題面臨的挑戰(zhàn)。根據(jù)何時融合,可以把當(dāng)前工作的網(wǎng)絡(luò)結(jié)構(gòu)分為三類:解碼端融合,編碼端融合,以及編碼-解碼器端融合。解碼端融合的工作包括:Ha等[9]提出的MFNet,網(wǎng)絡(luò)在下采樣的過程中用跳躍連接融合了兩個模態(tài)的特征,并采用具有空洞卷積的mini-inception模塊構(gòu)建獨立的編碼器來處理可見光和紅外圖像,隨后在解碼器部分進行特征融合,由于未采用預(yù)訓(xùn)練模型,雖然速度具有優(yōu)勢,但是精度較低。Lyu等[10]的FuNNet在解碼過程中融合了兩個波段的信息并使用分組卷積,減少了模型的參數(shù)量。Liu[11]等提出的PSTNet引入全局語義信息來增強分割效果。編碼端融合的工作包括:Sun等[12]提出的RTFNet使用預(yù)訓(xùn)練的ResNet[13]作為編碼器。Zhou[14]提出的MFFENet使用DenseNet[15]來更好地提升模型精度。Xu[16]提出的AFNet在編碼器的底部對兩個波段的特征圖進行融合,大大減少了模型的參數(shù)量。編碼端-解碼端融合的工作包括:Sun[17]提出的FuseSeg在編碼器中將兩個波段的特征圖相加,并且將對應(yīng)的特征圖和解碼端的特征圖進行融合,使得下采樣的信息不被丟失。
本文提出了一種基于多尺度輪廓增強的RGB-IR雙波段圖像語義分割算法。該算法首先在編碼器之間通過各個尺度的融合特征預(yù)測不同尺度的目標(biāo)輪廓,再利用多尺度輪廓信息來逐步增強特征圖的輪廓信息。在融合了多階段多尺度特征圖的信息之后,我們通過位置注意力和通道注意力來獲得更有價值的像素和通道并對特征進行增強。在公開數(shù)據(jù)庫上取得了57.2的最高Miou,在自建數(shù)據(jù)庫上也取得了最好的分割精度。
語義分割模型有多種形式[9,12-14,17-18]。由于含有紋理信息的低層特征在語義分割中起著至關(guān)重要的作用,本文考慮在整個下采樣過程中提取不同尺度的語義輪廓信息并進行監(jiān)督。通過將更精確的語義輪廓信息有效地和特征圖進行融合,提高物體輪廓的精確度。整體架構(gòu)如圖1所示。
圖1 模型整體架構(gòu)Fig.1 The architecture of the model
本文模型使用兩個獨立的DenseNet121作為特征提取器,DenseNet[15]網(wǎng)絡(luò)中的每一層都直接與其前面的層相連,實現(xiàn)特征的重復(fù)利用,同時每一層都非常窄即只學(xué)習(xí)非常少的特征圖以達到降低冗余性的目的,DenseNet相比于Resnet達到相同精度參數(shù)量更小[17]。考慮到RGB圖像的特征比IR圖像的特征更豐富,因此我們采用不對稱網(wǎng)絡(luò)結(jié)構(gòu),一條支路單獨提取RGB波段的特征,另一條支路提取IR和融合波段的特征。我們提取骨干網(wǎng)絡(luò)每個DenseBlock的輸出特征,并分別標(biāo)記為(FRGB,i,i=1,2,3,4),(FIR,i,i=1,2,3,4),相比于輸入圖像分別有(4,8,16,32)的下采樣率。我們將雙波段特征融合之后送入語義輪廓增強模塊(EEFM)來預(yù)測并增強融合特征的輪廓。對于最頂層的特征圖,我們使用空洞空間卷積池化金字塔[19](1、6、12,18,24的膨脹系數(shù))來擴大感受野,在較小分辨率的特征圖上提取對整個圖像有指導(dǎo)意義的信息。Fconcat由各個階段不同尺度的特征圖上采樣到相同大小之后級聯(lián)在一起獲得,它同時包含有較低層的輪廓信息,較高層的整體語義信息。隨后SAC模塊從像素維度和通道維度對Fconcat進行增強。最后通過四倍的參數(shù)可學(xué)習(xí)的轉(zhuǎn)置卷積來把特征圖上采樣到原圖大小。
語義分割模型需要分割出不同目標(biāo),但當(dāng)不同目標(biāo)具有相似顏色或外觀時,通常不能很好地將其分割。因此,如何準(zhǔn)確地分割出目標(biāo)輪廓是分割問題面臨的一個挑戰(zhàn)。
基于以上動機,本節(jié)提出語義輪廓增強模塊,結(jié)構(gòu)如圖2所示。利用網(wǎng)絡(luò)預(yù)測各個尺度的輪廓信息,并通過輪廓標(biāo)簽進行監(jiān)督,從而顯式地讓網(wǎng)絡(luò)學(xué)習(xí)輪廓信息,以約束不同尺度融合特征的輪廓。
圖2 輪廓預(yù)測模塊Fig.2 Edge enhance fusion module
首先輸入雙波段融合之后的特征圖,通過3×3卷積處理兩個波段融合的特征,增加感受野,接著使用1×1卷積得到一個一通道的特征圖,該特征是否為輪廓的概率由Sigmoid激活函數(shù)計算得到。得到的語義輪廓信息與輸入的融合特征圖進行像素點乘來增強特征圖的輪廓,最后將輪廓增強后的特征圖與輸入的特征圖相加形成一個殘差連接來避免信息丟失。
預(yù)測得到的輪廓通過真實輪廓標(biāo)簽進行監(jiān)督,輪廓標(biāo)簽可以利用語義標(biāo)簽得到,語義輪廓監(jiān)督損失函數(shù)使用二元交叉熵,公式如式(1)所示:
(1)
使用這種設(shè)計具有兩種好處:(1)通過交叉熵損失進行監(jiān)督,顯式約束輪廓信息,利用梯度反向傳播優(yōu)化編碼器的特征。(2)重建后的特征包含有增強過的語義輪廓信息,并且不會丟失特征圖原有的特有信息。
目前有許多研究工作開始從輪廓信息入手通過約束物體的輪廓來改善分割精度。Li[20]等人在提取特征的過程中提取輪廓信息并進行融合,輪廓提取采用預(yù)訓(xùn)練好的輪廓網(wǎng)絡(luò),提取的輪廓并未用標(biāo)簽進行監(jiān)督,計算量大。Fan[21]等人在提取特征的過程中,通過標(biāo)簽對輪廓進行監(jiān)督,但不重新將提取的輪廓與特征進行融合。J Fontinele[22]等人將輪廓信息作為一條完整的信息支路來傳遞并與特征進行融合,參數(shù)量為一條支路的兩倍,計算量大。Zhou[14]等人在輸出層對輪廓進行約束??紤]到經(jīng)過約束的輪廓含有更準(zhǔn)確的輪廓信息,因此可以將其用于增強融合特征的輪廓。與上述文獻不同的是,本文在下采樣過程中預(yù)測不同尺度融合特征的輪廓信息并將其送回網(wǎng)絡(luò),對圖像特征的輪廓進行多次增強,以此來提高網(wǎng)絡(luò)對物體輪廓的分割精度,并且提出了一個非常輕量的輪廓預(yù)測模塊。
注意力機制可以看作一種特征重加權(quán)的方式,不僅可以在通道上進行重加權(quán),也可以在空間位置上進行加權(quán)[10],從而令網(wǎng)絡(luò)更加注意權(quán)重大的區(qū)域。
為了提高多尺度融合特征圖的精確度,本文受SENet[23]啟發(fā),從位置和通道兩個方面來對特征圖進行加權(quán),提出了一種新的位置和通道注意力模塊SAC來增強多尺度融合特征圖,如圖3所示。
圖3 位置和通道注意力模塊Fig.3 Spatial and channel module
在圖3中,前端網(wǎng)絡(luò)產(chǎn)生的特征圖首先會通過位置注意力模塊。位置注意力分為兩條支路,上方的支路提煉信息并直接將通道數(shù)降到輸入特征圖通道數(shù)的1/4。另一條支路先將通道數(shù)降到輸入特征圖的1/2再通過卷積變?yōu)檩斎胩卣鲌D通道數(shù)的1/4并通過Sigmoid函數(shù)來體現(xiàn)出空間位置上更應(yīng)該被關(guān)注的地方,得到位置信息的權(quán)重。隨后將位置信息的權(quán)重與上方支路的結(jié)果進行點乘來增強特征圖的空間位置信息。同時我們考慮不同的通道所含有的信息應(yīng)該受到不同程度的關(guān)注,因此我們將位置信息增強過后的特征圖送入通道注意力模塊。首先對特征圖進行平均池化來獲得一個大感受野里的代表性信息,之后將其通道數(shù)提煉到原有通道數(shù)的一半,使用Relu激活函數(shù)增加其非線性特性,再通過1×1的卷積重新將通道數(shù)增加到原有的數(shù)量并通過Sigmoid函數(shù)來獲得不同通道的權(quán)重分布,最后使用得到的通道權(quán)重對通道進行加權(quán)。
本章實驗主要在兩個可見光-紅外語義分割數(shù)據(jù)集上展開。第一個數(shù)據(jù)集是文獻[4]中發(fā)布的一個公開可用的數(shù)據(jù)集,以下稱為PublicDataset。該數(shù)據(jù)集包含1569對可見光和紅外圖像,其中包含白天拍攝的820對圖像,夜間拍攝的749對圖像。包括八類物體被標(biāo)注,即汽車,人,自行車,路沿,汽車站,護欄,路障,和障礙物。未標(biāo)記的像素占所有像素的大部分。數(shù)據(jù)集的圖像分辨率為480×640。實驗中遵循文獻[4]中提出的數(shù)據(jù)集分配方案,50 %的圖像用于訓(xùn)練,25 %的圖像用于驗證,其余圖像用于測試。
第二個數(shù)據(jù)集是自建數(shù)據(jù)集,以下稱為EcustDataset,這是課題組自行構(gòu)建的包含541對圖像的數(shù)據(jù)。它是在夜間拍攝的城市街景圖像的數(shù)據(jù)集,所用的可見光拍攝設(shè)備為索尼A6000微型單反,FLIR Tau2336紅外熱像儀相機。圖像的分辨率為300×400。該數(shù)據(jù)集中有13個類被標(biāo)記,即汽車、自行車、人、天空、樹、交通燈、道路、人行道、建筑物、欄桿、交通標(biāo)志、柱子和公共汽車。對于場景中不屬于上述物體或難以辨識的物體,將其設(shè)置為空類,即不進行標(biāo)注。在模型訓(xùn)練與評估的過程中不包括空類。實驗中將EcustDataset分為兩部分。訓(xùn)練數(shù)據(jù)集由400對圖像組成,其他141對圖像被分為測試數(shù)據(jù)集。
本文實驗環(huán)境的基本配置是Intel i7-8700 CPU,一張NVIDIA GTX 2080Ti顯卡,系統(tǒng)為Ubuntu16.04,構(gòu)建模型使用的PyTorch版本為1.2,CUDA使用10.0版本,cuDNN使用7.6版本。使用PyTorch提供的預(yù)訓(xùn)練權(quán)重DenseNet121來訓(xùn)練網(wǎng)絡(luò)。訓(xùn)練階段使用帶動量的SGD優(yōu)化器,該優(yōu)化算法更容易跳出局部最優(yōu)值或梯度為零的鞍點處。文中所有模型包括對比算法的訓(xùn)練超參數(shù)采用統(tǒng)一的設(shè)置,訓(xùn)練批大小設(shè)為4,動量和權(quán)重衰減分別設(shè)為0.9和0.0005。初始學(xué)習(xí)率r0=0.01,訓(xùn)練周期設(shè)為tSmax=100。采用“poly”學(xué)習(xí)策略來逐步降低學(xué)習(xí)率,如公式(2)所示:
(2)
在訓(xùn)練過程中,每個訓(xùn)練周期之前輸入的圖片被隨機打亂。使用隨機水平翻轉(zhuǎn)和隨機裁剪來進行數(shù)據(jù)增強。EcustDataset的輸入圖像通過鏡像填充擴大到320×410,PublicDataset的輸入分辨率為原始分辨率。
網(wǎng)絡(luò)的主損失函數(shù)是交叉熵損失函數(shù),如公式(3)所示:
(3)
Ltotal=Lce+λLedge
(4)
其中,λ表示輪廓監(jiān)督損失函數(shù)的權(quán)重。
本文實驗采用平均交并比(mIoU)來評估語義分割的性能。它的計算公式如下:
(5)
其中,N是類的數(shù)量,Pij是屬于第i類被預(yù)測為第j類的像素數(shù)。對于PublicDataset,將未標(biāo)記的像素也考慮到計算指標(biāo)中。以上評價指標(biāo)在分割結(jié)果中的得分越高,代表算法分割精度越好。
3.3.1 先進算法對比及分析
本文先對比分析了不同先進算法的實驗結(jié)果,對比算法包括本文提出的算法、MFNet[9]、PSTNet[11]、RTFNet[12]、FuNNet[10]和FuseSeg[17]和MFFENet[14]。表1和表2展示了不同網(wǎng)絡(luò)在PublicDataset和EcustDataset測試的定量結(jié)果。
表1 不同分割算法在PublicDataset上的對比結(jié)果Tab.1 Results of different algorithm tested on PublicDataset
表2 不同分割算法在EcustDataset上的對比結(jié)果Tab.2 Results of different algorithm tested on EcustDataset
相比于采用了DenseNet161的FuseSeg,本文算法使用參數(shù)量更小的DenseNet121在EcustDataset和PublicDataset上取得了具有競爭力的預(yù)測結(jié)果。我們的模型在“廣告牌”、“自行車”和“建筑物”“圍欄”等輪廓特征較明顯的類別上具有較好的預(yù)測能力。對于“路標(biāo)”等小類別,采用輪廓增強的方法也有助于模型進行分割。其他類別上我們模型的分割結(jié)果也具有競爭力。語義分割中常用的評價指標(biāo)mIoU在所有算法中達到了最高水平。
圖4展示了算法在PublicDataset數(shù)據(jù)集上的定性結(jié)果。第一列中汽車頂部的輪廓更加接近真實標(biāo)簽,第二列中錯分的像素較少,第三列路障的直線邊緣不合理的彎曲更少,第四列人的頭部輪廓更加合理。圖5展示了算法在EcustDataset數(shù)據(jù)集上的定性結(jié)果。圖中第一列錯分的像素相比其他模型明顯較少,車的輪廓精確,路邊圍欄的輪廓也更加合理,第三列中“自行車”的輪廓最完整,行走路人的腳部細節(jié)也被較好的分割出來。第四列中“汽車”的分界也較為明確,證明了輪廓增強的有效性。很顯然我們的模型在分割具有顯著輪廓的物體時,例如路錐的傾斜直線輪廓,汽車的頂部,汽車的輪胎,自行車的輪胎等,具有明顯的分割優(yōu)勢。
圖4 不同算法在PublicDataset上的定性結(jié)果Fig.4 The qualitative results of different algorithm tested on PublicDataset
圖5 不同算法在EcustDataset上的定性結(jié)果Fig.5 The qualitative results of different algorithm tested on EcustDataset
在兩個數(shù)據(jù)庫上比較的具體結(jié)果顯示在表1及表2中。對比算法中,MFFENet[14]包含有兩種模型,MFFENet(S)是指只使用語義標(biāo)注進行監(jiān)督的結(jié)果,MFFENet(M)是指使用語義標(biāo)注,語義輪廓標(biāo)注,顯著性標(biāo)注同時進行監(jiān)督的結(jié)果。實驗中發(fā)現(xiàn),PublicDataset中“護欄”一類有一些0.0的mIoU結(jié)果并且結(jié)果普遍偏低,正如文獻[9]中討論的一樣,數(shù)據(jù)集中的類是非常不平衡的?!白o欄”類所占的像素最少,因此可以認(rèn)為是由于訓(xùn)練數(shù)據(jù)不足,導(dǎo)致模型對該類不熟悉。從表1及表2中可以看出,我們的模型使用了較少的語義標(biāo)注達到了較好的分割水平。“擋車器”、“路錐”和“障礙物”等邊緣較為平直的物體的分割性能相較不使用語義輪廓信息的模型提升明顯,其他類別也能取得有競爭力的結(jié)果,評價指標(biāo)mIoU在所有算法中也達到了最高水平。
3.3.2 模型消融實驗及分析
為了評估本文提出的各個模塊,本節(jié)進行了消融實驗,通過移除網(wǎng)絡(luò)的不同部分來驗證模塊的有效性。
表3展示了消融實驗結(jié)果,我們選擇在PublicDataset上進行消融實驗來驗證我們設(shè)計的模塊的有效性。基線模型是一個簡單的U-net形網(wǎng)絡(luò),兩個獨立的DenseNet121提取的特征相加之后直接通過卷積和轉(zhuǎn)置卷積上采樣到原圖大小。
表3 PublicDataset上的模型消融實驗Tab.3 Ablation studies on PublicDataset
首先研究本文提出的輪廓預(yù)測模塊,輪廓預(yù)測模塊帶來了大約2.5 %的mIoU提升,可以看出,輪廓監(jiān)督損失函數(shù)通過梯度反向傳播改善了編碼器的特征,提升了網(wǎng)絡(luò)性能。然后研究本文提出的位置和通道注意力模塊,通過位置注意力和通道注意力加權(quán),模型性能由54.3 % mIoU提升至56.3 % mIoU。同時我們也探究了只使用位置注意力或通道注意力對模型分割能力的影響,注意力機制不完善使得精度提升不明顯。圖6中我們給出了實驗對比的各個算法的參數(shù)量和mIoU的直觀圖示,顯然我們的模型在綜合性能上具有優(yōu)勢,在相對較少的參數(shù)量下取得了最好的分割精度。
圖6 不同算法參數(shù)量和mIoU對比Fig.6 The compare of different algorithm on mIoU and parameters
3.3.3 損失函數(shù)權(quán)重影響分析
由于本文實驗使用了多個損失進行監(jiān)督,因此設(shè)計對比實驗驗證損失函數(shù)權(quán)重對算法的影響。實驗中保持分割損失權(quán)重為1,改變輪廓監(jiān)督權(quán)重λ。觀察不同輪廓監(jiān)督權(quán)重對分割精度的影響,從而得到合理的輪廓監(jiān)督權(quán)重設(shè)置。實驗結(jié)果如表4所示。通過表4數(shù)據(jù)可知,當(dāng)輪廓監(jiān)督權(quán)重過小或過大時,模型分割性能都會有不同程度的下降,可能的原因是權(quán)重過小時損失對模型影響不夠充分,權(quán)重過大時影響了主任務(wù)(分割任務(wù))提取的特征,因此,當(dāng)有多個損失函數(shù)時,相互之間的權(quán)重需要找到一個權(quán)衡,才能使得模型性能最優(yōu)。
表4 損失函數(shù)權(quán)重λ對比實驗Tab.4 Comparison of different weights of λ
針對雙波段圖像語義分割目標(biāo)輪廓易混淆的問題,本文提出了一種基于多尺度輪廓增強的RGB-IR雙波段圖像語義分割算法,在不同尺度的特征圖上預(yù)測不同尺度的輪廓,利用預(yù)測的輪廓信息來加權(quán)特征圖,增強了雙波段融合特征的輪廓。最后將多尺度融合的特征進行位置信息和通道信息的加權(quán),來獲得更準(zhǔn)確地分割結(jié)果。通過實驗證明了本文算法的有效。在較小的參數(shù)量下在公開數(shù)據(jù)庫中取得了57.2 %的最優(yōu)mIoU,綜合性能最優(yōu)。設(shè)計的不同的消融實驗驗證了所提出模塊的有效性。通過改變損失函數(shù)權(quán)重,分析了分割監(jiān)督與輪廓監(jiān)督不同權(quán)重下,算法性能的變化。