張吉友,張榮芬,劉宇紅,袁文昊
(貴州大學(xué) 大數(shù)據(jù)與信息工程學(xué)院,貴州 貴陽 550025)
夜間場景語義分割作為計算機視覺的一項基本任務(wù),在自動駕駛方面有著廣泛的應(yīng)用[1]。由于天氣、光照等原因,自動駕駛面臨的比較嚴峻的問題是環(huán)境的多樣性。現(xiàn)有的大多數(shù)基于深度學(xué)習(xí)的語義分割網(wǎng)絡(luò)處理的都是RGB 圖像。在光照正常的情況下,RGB 圖像分辨率高,其顏色、紋理和細節(jié)信息豐富[2],圖像成像清晰且圖像內(nèi)的各個物體邊緣分明,這有利于語義分割網(wǎng)絡(luò)學(xué)習(xí)圖像的顏色、紋理和細節(jié)等特征[3]。但是RGB 圖像容易受光照影響,在夜間場景下由于可見度和強曝光等問題,導(dǎo)致RGB 圖像提供的信息不能很好地被計算機利用[4]。因此,利用RGB 圖像訓(xùn)練的語義分割網(wǎng)絡(luò)在夜間場景的極端環(huán)境下會產(chǎn)生分割不準確的問題[5]。
為了解決只利用RGB 圖像對某些極端環(huán)境下進行語義分割效果不好的問題,需要采用多模態(tài)圖像來進行圖像信息的融合從而利于網(wǎng)絡(luò)獲得更多的特征信息[6]。熱(Thermal)紅外圖像存在邊緣模糊、無顏色紋理信息等缺點,但是其成像原理是基于熱輻射,幾乎不受光照影響,即使在煙霧、強光等能見度較低等極端環(huán)境下也能獲得熱紅外圖像。這對于極端環(huán)境下的語義分割網(wǎng)絡(luò)顯得尤為重要。研究表明,RGB-Thermal(RGB-T)多模態(tài)圖像將RGB 圖像和熱紅外圖像組合,無論光照條件如何,其含有兩種模態(tài)圖像的特征信息,有利于語義分割模型從兩種模態(tài)中提取特征信息并進行特征級信息融合從而提升極端環(huán)境下的語義分割性能[7]。此外,隨著熱成像技術(shù)的發(fā)展和成熟,熱紅外圖像采集越來越容易。將熱成像相機生成的熱紅外圖像作為RGB圖像的信息補充,即使在極端天氣下,熱成像相機也能獲得熱紅外圖像作為RGB 圖像的補充信息源[7]。因此,結(jié)合熱紅外圖像特征訓(xùn)練更加穩(wěn)定的RGB-T 多模態(tài)語義分割網(wǎng)絡(luò)成為應(yīng)對夜間場景下精準語義分割問題的主流方法。
近年來,語義分割算法備受研究者青睞。在單模態(tài)圖像分割領(lǐng)域,楊云等人將循環(huán)分割對抗網(wǎng)絡(luò)算法運用到醫(yī)療圖像分割領(lǐng)域?qū)σ暰W(wǎng)膜血管進行分割,獲得了很好的分割效果[8]。趙戰(zhàn)民等人在模糊C 均值框架基礎(chǔ)上設(shè)計新算法,即使圖像呈現(xiàn)出灰度分布不均衡的狀況,該算法模型也能快速有效地分割無損檢測圖像[9]。趙為平等人通過在DeepLabv3+編碼器中加入深度可分離卷積后融入改進的池化模塊同時改進其解碼器,有效降低了模型復(fù)雜度并提升了分割精度[10]。任莎莎等人在DeepLabv3+的編碼器和解碼器中增加了多級像素空間注意模塊、邊緣提取模塊和小目標提取模塊對熱紅外圖像進行語義分割,提高了邊緣相交區(qū)域像素和小目標物體的預(yù)測精度[11]。熊海濤等人[7]設(shè)計了一種包含多級上下文特征修正模塊和多級邊緣特征增強模塊的算法對熱紅外圖像進行分割,使得分割邊緣更清晰。在RGB-T 多模態(tài)語義分割領(lǐng)域,受到FuseNet[12]的兩個對稱編碼器和語義分割解碼器[13]的啟發(fā),MFNet[14]運 用 兩 個 對 稱 編 碼 器 同 時 對RGB 和 熱紅外圖像做特征提取,再進行上采樣后進行語義分 割。RTFNet[15]運 用ResNet[16]提 取RGB 和 熱紅外圖像兩種模態(tài)的特征并進行融合,最后通過不同的兩種上采樣模塊不斷恢復(fù)分辨率和重構(gòu)其特征。FuseSeg[17]利用DenseNet[18]作為編碼器的特征提取網(wǎng)絡(luò),分別對RGB 圖像和熱紅外圖像兩種模態(tài)圖像進行特征提取后通過相加進行融合,而且在解碼器階段通過上采樣后將其與編碼器下采樣得到的相同大小的特征圖進行拼接。FEANet[19]在RTFNet[15]的 基 礎(chǔ) 上 加 入了FEAM注意力模塊,以互補的方式融合RGB 和熱紅外圖像信息。
雖然各種RGB-T 語義分割網(wǎng)絡(luò)在不同程度上都對夜間語義分割場景做出了一定貢獻,但也存在以下問題:(1)由于多層次特征提取和合并策略不考慮層次之間的差異,導(dǎo)致模態(tài)特征進行融合時會產(chǎn)生模態(tài)沖突;(2)如何同時利用好高級的語義信息和低級的細節(jié)信息是語義分割的一大難題。為了更好地提取兩種模態(tài)圖像的特征和充分利用好高級的語義信息和低級的細節(jié)信息,本文主要貢獻如下:
(1) 利用RGB 圖像和熱紅外圖像搭建了一種穩(wěn)定的多模態(tài)雙編碼器-解碼器語義分割網(wǎng)絡(luò),將RESNet-152 作為特征提取網(wǎng)絡(luò),經(jīng)過5 層提取后得到的特征圖包含高級的語義信息,分階段上采樣并拼接不同階段的語義特征圖可以兼顧細節(jié)信息和語義信息。
(2) 提出了一種輕量化的注意力模塊并將該注意力模塊添加到編碼器的各層中,將熱紅外編碼器提取到的特征圖和RGB 編碼器提取到的特征圖通過相加進行融合從而實現(xiàn)多模態(tài)信息的特征融合和互補特征提取。
(3) 在解碼器階段,在相應(yīng)的每層解碼器中,通過上采樣從上一層解碼器中對特征圖進行上采樣,將得到的特征圖和編碼器提取到的相同大小的特征圖進行拼接融合,再通過兩層卷積對融合的特征圖進行特征提取,然后繼續(xù)進行上采樣,通過5 次上采樣后還原成為原圖像大小相同的特征圖。通過融合編碼器階段的特征圖和上采樣的特征圖,解碼層能利用多尺度信息更好地進行語義分割。
本文的總體架構(gòu)包含兩個編碼器流和一個輸出解碼器流。編碼器流和解碼器流都包含5 個層(Layer 0-Layer 4)和(Upsampling1-Upsampling5)。為了從RGB 圖像和熱紅外圖像中充分挖掘信息線索,本文提出了一種輕量化注意力模塊,并將其有效添加至編碼器中,從而增強多層次特征以獲得更好的分割性能。
如圖1 所示,本文所提出的架構(gòu)主要包括兩個結(jié)構(gòu)一致的編碼器流和一個解碼器流,編碼器流用于從RGB 圖像和熱紅外圖像中進行特征提取和融合,解碼器流用于進行特征提取和逐漸恢復(fù)分辨率。
編碼器流的特征提取框架是ResNet-152,其結(jié)構(gòu)可以大致分為5 個提取層(Layer 0-Layer 4),在每一層之后都加入了輕量化注意力模塊。在特征提取階段,熱紅外圖像編碼器流從單通道熱紅外圖像中提取相關(guān)特征,RGB 圖像編碼器流從三通道的RGB 圖像中進行特征提取。兩個編碼器流的各特征提取層將提取到的特征圖通過輕量化注意力模塊細化細節(jié)特征。在特征融合階段,各特征提取層中對應(yīng)的RGB 特征圖和熱紅外特征圖通過元素求和聚合到RGB 編碼器流中。
解碼器流中主要包括3 個模塊:一個上采樣模塊,主要用于逐步還原圖像的分辨率;一個特征圖拼接模塊,主要用于拼接上采樣過后的特征圖和相應(yīng)的編碼器層產(chǎn)生的特征圖;一個特征提取模塊,主要用于提取拼接后的特征圖的特征信息,將得到的特征圖用于上采樣。
隨著編碼器流的深度不斷加深,所提取到的特征為高級的語義特征,高級語義特征對于捕獲全局上下文起著重要作用,但也會丟失圖像細節(jié)特征。解碼器的上采樣運算是對高級語義特征圖進行上采樣,而其缺乏細節(jié)信息,輸出的預(yù)測邊界將會變得很模糊。所以為了提高輸出預(yù)測邊界圖的清晰度,引入輕量化的注意力模塊,使編碼器在下采樣時注重兩種模態(tài)的細節(jié)信息,在最終的輸出層輸出相對密集的輸出預(yù)測。此外,為了能同時兼顧高級的語義信息和低級的細節(jié)信息,通過拼接模塊將上采樣的特征圖和相應(yīng)大小的編碼器階段的特征圖進行拼接后通過兩個卷積層進行特征提取,通過拼接的方式使得解碼器在不斷恢復(fù)分辨率時能兼顧語義信息和細節(jié)信息[2],有利于最后預(yù)測邊界圖的輸出,從而優(yōu)化語義分割的分割結(jié)果。
在編碼器中,熱紅外圖像編碼器和RGB 編碼器結(jié)構(gòu)幾乎相同,然而ResNet-152 是為了三通道的圖像而設(shè)計的,不適用于單通道的熱紅外圖像,于是將Layer 0 中的第一個卷積層中的通道數(shù)改為單通道以便適用于熱紅外圖像,該編碼器的其余結(jié)構(gòu)與三通道的RGB 編碼器具有相同的結(jié)構(gòu)。
在編碼器中熱紅外圖像編碼器只從熱紅外圖像中提取特征信息,而RGB 編碼器還需要提取將RGB 特征圖和熱紅外特征圖通過元素求和聚合到RGB 編碼器的相關(guān)特征。為了更有效地提取兩種不同模態(tài)的特征信息和減少參數(shù),源于文獻[19]和文獻[20]的啟發(fā),引入了輕量化注意力模塊并將其添加到兩個模態(tài)編碼器的Layer 0-Layer 4 的每個卷積層之后。
輕量化注意力模塊包括通道注意力和空間注意力運算,其運算過程如圖2 所示。通道注意力實現(xiàn)了一種不降維的局部跨通道交互策略,避免因通道維度減少而影響特征提取,而其中的局部跨通道交互的覆蓋范圍k由通道數(shù)C決定,兩者之間的關(guān)系可表達為[20]:
圖2 注意力模塊運算示意圖Fig.2 Schematic diagram of attention module operation
其中:|t|odd表示離t最近的偶數(shù);γ和b為超參數(shù),分別設(shè)為2 和1[20]。通道注意力通過局部跨通道關(guān)注卷積層提取到的特征,更加注重全局特征,而空間注意力則關(guān)注全局區(qū)域,注重細小的物體。兩種注意力結(jié)合在一起既能夠把握全局特征又能夠注意細節(jié)信息。
解碼器流中主要包括3個模塊:一個上采樣模塊、一個特征圖拼接模塊和一個特征提取模塊。上采樣模塊有兩個卷積塊,其運算示意圖如圖3所示,特征圖通過第一個卷積塊后,其分辨率和通道均無變化。在第二個卷積塊中,CONV1 將保持特征圖的分辨率不變但是通道數(shù)變?yōu)樵瓉淼?/2,TRANSCONV1 將特征圖的分辨率變?yōu)樵瓉淼? 倍但是保持通道數(shù)不變,TRANSCONV2將特征圖通道數(shù)減半且分辨率變?yōu)樵瓉淼? 倍。拼接模塊通過編程實現(xiàn)按通道進行拼接。特征提取模塊依次包含兩個卷積層、正則化層、激活層。解碼器中各模塊的詳細配置如表1 所示。
表1 解碼器中各模塊配置Tab.1 Each module configuration in the decoder
圖3 上采樣模塊中的兩個卷積塊運算示意圖Fig.3 Schematic diagram of two convolution block operations in the upsampling module
通過兩個編碼器的5 層提取后得到了RGB和熱紅外圖像進行相加融合后的最終特征圖S0,此時特征圖的大小為2 048×15×20。在解碼器中,Upsampling1 部分首先對S0通過上采樣模塊進行2 倍上采樣得到上采樣的特征圖S1,其通道數(shù)和分辨率與Layer 3 輸出的特征圖S2相同,大小為1 024×30×40。然后通過特征圖拼接模塊將S1和S2進行拼接融合。融合后的特征圖S3相比于S1和S2分辨率不變,但是通道數(shù)變?yōu)? 倍。隨后通過特征提取模塊對S3進行特征提取得到相應(yīng)特征圖S4,其大小和通道數(shù)與S1和S2相同。通過Upsampling1 部分后,特征圖的大小為1 024×30×40,Upsampling 2~Upsampling 4 也 是 同 樣的運算方式。經(jīng)過3 次相同的運算后,得到的特征圖的大小變?yōu)?4×240×320,最后輸出層進行2 倍上采樣,同時將輸出通道變?yōu)?,隨后添加了一個softmax 層,得到分割結(jié)果的概率圖。通過不斷地拼接具有高級語義信息和低級細節(jié)信息的特征圖進行特征提取后,利用多尺度特征進行上采樣可以使最終的語義分割邊界圖更清晰,分割效果更好。
本文中所運用的數(shù)據(jù)集是MFNet[14]所發(fā)布的數(shù)據(jù)集,其使用INFEREC R500 攝像機拍攝城市街道場景,該數(shù)據(jù)集不僅包括RGB 圖像,還包括熱紅外圖像,比較適用于夜間場景下的語義分割,主要包含了8 個手動標記類別(汽車、行人、自行車、車道線、停車位、護欄、色錐、地面凸起物)和一個背景類共計9 類,其中820 幅拍攝于白天,749 幅拍攝于夜間,其RGB 圖像和熱紅外圖像的分辨率都是480×640。為了更好地訓(xùn)練語義分割模型,訓(xùn)練集由50%的白天圖像和夜間圖像組成,驗證集由25%的白天和夜間圖像組成,剩余的所有圖像用作測試集。
本文基于pytorch1.10.2 架構(gòu)開展了所有的實驗,利用Python3.8 進行編程,所有程序在Ubuntu16.04 LTS 64-bit 系 統(tǒng) 上 運 行,CPU 為Intel(R) Core(TM) i7-7800X CPU@ 3.50 GHz,GPU 為單卡NVIDIA GeForce 3090Ti。Cuda版本為11.4,cuDNN 版本為8.2,顯卡內(nèi)存為24 GB。
為了加快訓(xùn)練速度,在實驗時使用了pytorch提供的ResNet-152 的預(yù)訓(xùn)練權(quán)重來訓(xùn)練本文所提出的模型。由于ResNet-152 的預(yù)訓(xùn)練權(quán)重適用于三通道圖像,而熱紅外圖像是單通道數(shù)據(jù),所以熱紅外編碼器的第一個卷積層沒有使用預(yù)訓(xùn)練權(quán)重。編碼器的第一卷積層以及解碼器中的卷積層和轉(zhuǎn)置卷積層使用Xavier 方案初始化。在訓(xùn)練中,選擇隨機梯度相加優(yōu)化器(SGD)進行優(yōu)化,動量和權(quán)重衰減分別設(shè)置為0.9 和0.005,初始學(xué)習(xí)率設(shè)為0.05,且采用指數(shù)衰減的方案來逐漸降低學(xué)習(xí)率,訓(xùn)練epoch 設(shè)置為100。為了更好地訓(xùn)練模型,利用翻轉(zhuǎn)操作進行了數(shù)據(jù)增強,同時在每一個epoch 開始之前將所有數(shù)據(jù)集隨機打亂。
訓(xùn)練模型時,損失函數(shù)選用Diceloss[21]和Soft-CrossEntropyloss[22]進行加權(quán)作為損失函數(shù)[19],其損失函數(shù)可表示為:
Diceloss 損失函數(shù)可表示為:
其中:N表示圖片總像素點個數(shù),pi表示像素點的預(yù)測值,gi表示像素點的真實標簽值。
SoftCrossEntropyloss 損失函數(shù)可表示為:
其中:n表示batchsize 的大小,在實驗中該數(shù)值為5;c表示分類的類別數(shù);若像素點i被正確分類,則表示為1,否則其為0;表示像素點i的歸一化概率。
為了評價本文模型的好壞,引入了準確率(Accuracy,Acc)和交并比(Intersection over Union,IoU)兩個評價指標,其中Acc表示預(yù)測正確的像素點占總像素點的比例,IoU 表示每個類別的真實標簽與預(yù)測結(jié)果的交集。為了更直觀地反映模型的效果,通常會計算平均準確率(mean Accuracy,mAcc)和平均交并比(mean Intersection over Union,mIoU),其計算公式如式(5)、式(6)所示:
其中:nii表示預(yù)測正確的像素點個數(shù),nij表示真實類別為i但是預(yù)測為j類的像素點,nji表示真實類別為j但是預(yù)測為i類的像素點,N表示類別數(shù)。
為了更直觀地反映出該模型的實驗結(jié)果,將本 文 提 出 的 網(wǎng) 絡(luò) 和FuseSeg[17]復(fù)現(xiàn)的MFNet[14]、FuseNet[12]、DepthAwareCNN[23]、RTFNet[15]進行了 對 比,同 時 對 比 了FuseSeg[17]和FEANet[19]等相對前沿模型的實驗結(jié)果,表2 是系列網(wǎng)絡(luò)在MFNet 測試集上的mAcc 和mIoU 的結(jié)果對比。由表2 可知,本文所提出的分割網(wǎng)絡(luò)在mAcc 和mIoU 兩個指標都取得了最好值,該網(wǎng)絡(luò)模型在停車位和地面凸起物檢測上的效果有一定的提升。對于色錐類別,其分割結(jié)果雖然略遜色于FEANet[19]網(wǎng)絡(luò),但是效果也很好,其主要得益于注意力機制比較關(guān)注圖像中遠景的細小物體,證明了在特征提取網(wǎng)絡(luò)融入注意力機制的有效性。對于近景中汽車、行人兩類大尺度目標,得益于RGB 圖像和熱紅外圖像的融合,實驗中所有模型均取得了較好的分割效果。雖然注意力機制對于遠景的小物體效果比較好,但其也有局限性,對于近景的自行車類別,其外觀類似于聚簇結(jié)合體,分割效果相對于其他兩類大尺度物體略差。而FuseSeg[17]使 用 稠 密 連 接 的DenseNet161[18]作為特征提取網(wǎng)絡(luò),對于自行車的分割效果相對于其他網(wǎng)絡(luò)模型比較好。對于車道線類別,由于其通常呈現(xiàn)白色,而熱紅外相機在夜晚對于白色物體成像略差,所以其總體分割結(jié)果相比其他類別物體相對較差。而對于護欄類別,各個網(wǎng)絡(luò)模型的分割效果都不是很好,其原因應(yīng)該是測試集中缺少樣本所導(dǎo)致,因為在測試集的393 對圖像中,只有4 對圖片圖像出現(xiàn)了護欄這個類別。而且訓(xùn)練集中該類物體在總的像素點中占比也很小,在特征提取過程中,經(jīng)過多次卷積層提取導(dǎo)致了特征丟失從而影響分割結(jié)果。
表2 系列網(wǎng)絡(luò)模型在MFNet 測試集上的結(jié)果對比Tab.2 Comparison of results of serial network models on MFNet test set
為了進一步研究網(wǎng)絡(luò)模型對于不同場景下的分割效果,將MFNet 測試集的圖像拆分為白天圖像測試集和夜間圖像測試集,對比了幾種網(wǎng)絡(luò)模型分別在白天和夜間測試集上的實驗結(jié)果。由表3 可知,所有的網(wǎng)絡(luò)模型在夜間取得了相對好的分割結(jié)果,其原因是RGB 和熱紅外圖像之間存在模態(tài)沖突,白天場景的RGB 編碼器和熱紅外圖像編碼器都能從相應(yīng)模態(tài)的圖像中提取到很好的特征,將其融合時,兩種模態(tài)數(shù)據(jù)之間會產(chǎn)生時間或空間的信息偏差。但是在夜間場景下,由于沒有豐富的RGB 信息,所提取到的特征圖沒有太多的顏色、紋理和細節(jié)信息,引入熱紅外圖像在很大程度上補充了RGB 圖像信息,進行信息融合時模態(tài)之間的偏差大幅減小,所以在夜間場景的語義分割效果更好[17,19]。
表3 系列模型晝夜測試集上的性能對比Tab.3 Performance comparison of a series of models on a day-night test set
分析圖4 可知,對于白天的圖像(前三列),無論任何一個網(wǎng)絡(luò)模型其分割效果都比較好。后四列的夜間圖像的分割效果得益于熱紅外圖像對于RGB 圖像的信息補充[24]。本文所提出的網(wǎng)絡(luò)對于近景的行人和遠景的行人,其分割結(jié)果和真實的標簽都非常接近,分割邊界比較清晰。并且,在第六列中只有本文提出的網(wǎng)絡(luò)對于行人背后的護欄進行了精準的分割,其余網(wǎng)絡(luò)都未對護欄進行分割。這主要是因為在語義分割特征提取網(wǎng)絡(luò)中引入注意力機制,使得網(wǎng)絡(luò)注重遠景細小物體。其次,拼接高維語義特征圖和低維細節(jié)特征圖利用多尺度特征信息進行特征提取,利于分割網(wǎng)絡(luò)輸出分割邊界圖。
圖4 部分網(wǎng)絡(luò)模型的分割結(jié)果可視化對比Fig.4 Visual comparison of segmentation results of some network models
為了驗證所提出的注意力模塊在編碼器中的作用,將注意力模塊從RGB 編碼器流和熱紅外編碼器中都移除,稱其為對照組A;將注意力模塊從熱紅外編碼器中移除,稱其為對照組B;將將注意力模塊從RGB 編碼器中移除,稱其為對照組C;同時設(shè)置了將解碼器中的拼接融合變?yōu)橄嗉尤诤?,稱其為對照組D;將編碼器中的相加融合用拼接融合取代,并通過一個1×1 卷積來改變通道數(shù),稱其為對照組E。各個對照組的模塊設(shè)置以及實驗結(jié)果如表4 所示。
表4 對照組實驗配置詳情及結(jié)果Tab.4 Control group experimental configuration details and results
分析消融實驗結(jié)果可知,如果從編碼器中移除注意力機制,其mACC 和mIOU 都呈現(xiàn)了下降趨勢。對比對照組B 和對照組C 發(fā)現(xiàn),在RGB 編碼器和熱紅外編碼器中分別移除注意力模塊,其mACC 和mIoU 都會呈現(xiàn)一定程度的下降,說明在該語義分割架構(gòu)中,熱紅外圖像的特征和RGB圖像的特征確實對語義分割結(jié)果起到了至關(guān)重要的作用。而相比于對照組A,只要編碼器中任何一個模態(tài)有注意力機制存在,相對于編碼器中兩種模態(tài)都沒有注意力機制的對照組,其mIoU 都會有很大提升,說明注意力機制對語義分割的某些物體定位有著重要的作用。對比對照組D 和本文提出的網(wǎng)絡(luò),說明將各層編碼器提取出具有細節(jié)信息的特征圖和具有高級語義信息的特征圖進行拼接后再進行多尺度特征提取能有效兼顧圖像的細節(jié)信息和語義信息。對比對照組E 和本文提出的網(wǎng)絡(luò)可知,通過相加融合更能夠整合兩種模態(tài)圖片的特征信息,所以其分割效果也會更好,選擇相加融合來整合兩種模態(tài)的特征信息相比于使用拼接融合更有效。
本文利用ResNet-152 作為編碼器的特征提取網(wǎng)絡(luò)分別對RGB 和熱紅外兩種模態(tài)的數(shù)據(jù)進行特征提取,旨在實現(xiàn)白天和夜間場景下的語義分割,以應(yīng)對極端環(huán)境下語義分割的基本要求。通過在兩種模態(tài)中的各個特征提取層中添加本文提出的注意力機制后,通過相加將兩種模態(tài)數(shù)據(jù)的特征進行融合能有效融合多模態(tài)特征信息。在解碼器部分,一般的語義分割網(wǎng)絡(luò)通過不斷采用上采樣來恢復(fù)分辨率,而本文提出的模型試圖兼顧高維的語義特征和低維的細節(jié)特征,將兩種特征圖先進行拼接后進行特征提取再進行上采樣來還原分辨率。實驗結(jié)果表明,本文提出的網(wǎng)絡(luò)在相應(yīng)的測試集上獲得了平均準確率為76.0%,平均交并比為55.7%,獲得了較好的語義分割性能。
本文提出的網(wǎng)絡(luò)針對語義分割的編碼器加入了注意力機制并對解碼器結(jié)構(gòu)進行了優(yōu)化。雖然取得了不錯的效果,但是如何進一步提升多模態(tài)RBG-T 圖像語義分割的效果還需要更深入的研究,如在語義分割網(wǎng)絡(luò)中融入邊緣檢測算法提取兩種模態(tài)的邊緣細節(jié)特征從而進一步優(yōu)化分割邊界,以及結(jié)合多標簽監(jiān)督對損失函數(shù)進行優(yōu)化加速網(wǎng)絡(luò)訓(xùn)練收斂等。