余 娜,劉彥,魏雄炬,萬源
(武漢理工大學(xué)理學(xué)院,武漢 430070)
圖像語義分割是計(jì)算機(jī)視覺研究中的一個(gè)重要課題,其目標(biāo)是為圖像中的每個(gè)像素分配一個(gè)類別標(biāo)簽,并預(yù)測每個(gè)像素的位置與形狀,以此提供對場景的完整理解[1]。圖像語義分割在自動(dòng)駕駛、機(jī)器人傳感、目標(biāo)檢測、圖像檢索等領(lǐng)域有著廣泛應(yīng)用[2]。對于室內(nèi)場景語義分割問題,由于室內(nèi)場景存在光照不均勻、遮擋關(guān)系復(fù)雜等因素,如何降低這些因素的影響、提高室內(nèi)場景語義分割精度是一個(gè)巨大的挑戰(zhàn)。
目前,圖像語義分割算法分為傳統(tǒng)語義分割算法和基于深度學(xué)習(xí)的語義分割算法兩類算法。傳統(tǒng)語義分割算法利用圖像的手工特征,使用基于邊緣[3]、區(qū)域[4]、圖論[5]、聚類[6]等分割方法獲取圖像的關(guān)鍵信息,提高語義分割的效率,但在處理較復(fù)雜的分割任務(wù)時(shí)無法帶來良好的分割效果。深度學(xué)習(xí)技術(shù)的出現(xiàn)彌補(bǔ)了傳統(tǒng)語義分割方法的不足。2015年Long 等[7]提出全卷積網(wǎng)絡(luò)(Fully Convolutional Network,F(xiàn)CN)架構(gòu),該網(wǎng)絡(luò)將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),如AlexNet(Alex Network)[8]、VGGNet(Visual Geometry Group Network)[9]、GoogLeNet(Google Inception Network)[10]等最后的全連接層替換為反卷積層,實(shí)現(xiàn)“端到端”的RGB 彩色圖像語義分割輸出,并加入上池化層和跳躍連接,解決了位置特征丟失問題。Badrinarayanan 等[11]基 于FCN 提出了SegNet(Segmentation Network),該網(wǎng)絡(luò)采用“編碼器-解碼器”結(jié)構(gòu),解碼器層使用最大池化對特征圖進(jìn)行上采樣,增強(qiáng)圖像邊界定位的準(zhǔn)度,有效解決了FCN 中存在的輸出圖像分辨率降低等問題。Zhao 等[12]基 于ResNet(Residual Network)[13]提 出PSPNet(Pyramid Scene Parsing Network),該網(wǎng)絡(luò)引入金字塔融合模塊,依賴場景中上下文的先驗(yàn)知識,融合不同尺度的特征信息,成功解決了FCN 中存在的空間信息丟失等問題。
由于室內(nèi)場景復(fù)雜度、光照不均和色彩紋理重復(fù)性高,上述基于RGB 彩色圖像的語義分割方法存在物體邊緣誤分割、類別誤分類等問題,無法實(shí)現(xiàn)智能體對環(huán)境語義信息的精確理解。近幾年研究發(fā)現(xiàn),與基于普通RGB 彩色圖像的方法相比,基于RGB-D 方法可以利用場景中額外的Depth 深度信息,該信息受光照影響小;同時(shí)可以反映出物體之間的位置關(guān)系,且和RGB 彩色信息互補(bǔ)。Couprie 等[14]發(fā)現(xiàn)輔助Depth 深度信息可以降低具有相似深度、外觀、位置信息的物體分割錯(cuò)誤率。
隨著Kinect[15]等深度攝像機(jī)的出現(xiàn)與發(fā)展,人們很容易獲取到圖像的Depth 深度信息。然而找到RGB 彩色信息與Depth 深度信息的融合方式,挖掘兩者之間的互補(bǔ)性一直是一個(gè)具有挑戰(zhàn)性的問題。一些簡單方法[16-18]將其堆棧到RGB 彩色通道,并在假設(shè)有4 個(gè)通道輸入的RGB-D 數(shù)據(jù)上訓(xùn)練網(wǎng)絡(luò)。但是直接將Depth 深度信息作為第4 通道融合并不能完全利用其所編碼的場景結(jié)構(gòu)信息。Gupta 等[19]提出HHA(Horizontal disparity,Height above ground,Angle of the surface normal)深度信息表示方法,將深度圖像轉(zhuǎn)換為三種不同的通道(水平差異、對地高度、表面法向量的角度),但HHA 只強(qiáng)調(diào)每個(gè)通道數(shù)據(jù)之間的互補(bǔ)信息而忽略了各個(gè)通道的獨(dú)立性,且計(jì)算量大。Hazirbas 等[20]提出一種新的融合深度信息架構(gòu)FuseNet(Fusion Network)融合網(wǎng)絡(luò),將互補(bǔ)Depth 深度信息融合到語義分割框架,提高了分割精度,但沒有實(shí)現(xiàn)多尺度的融合。Hu 等[21]提 出ACNet(Attention Complementary Features Network),設(shè)計(jì)注意力輔助模塊平衡特征的分布,使網(wǎng)絡(luò)更關(guān)注于圖像的有效區(qū)域,在保持原有RGB-D 特征分支的同時(shí),充分利用RGB 信息與Depth 信息融合后的特征。
上述方法仍然存在著兩個(gè)問題:1)一些分割方法直接將Depth 深度信息作為第4 通道融合,沒有充分利用RGB 彩色信息與Depth 深度信息的互補(bǔ)性;2)現(xiàn)有方法無法有效地推斷上下文關(guān)系,存在不同尺度信息特征丟失等問題,然而對于室內(nèi)場景語義分割任務(wù)而言,多尺度信息特征的提取能提高場景中小尺度物體的分割精度。
針對上述語義分割中存在的問題,本文提出一種新的基于注意力機(jī)制和金字塔多模態(tài)融合的RGB-D 室內(nèi)場景圖像語義分割網(wǎng)絡(luò)結(jié)構(gòu),以提高室內(nèi)場景語義分割的精度。該網(wǎng)絡(luò)為“編碼器-解碼器”結(jié)構(gòu),并為其設(shè)計(jì)了注意力機(jī)制融合模塊(Attention Mechanism Fusion Module,AMFM)與金字塔融合模塊(Pyramid Fusion Module,PFM)兩個(gè)新的模塊。注意力機(jī)制融合模塊充分挖掘RGB 特征和Depth 特征的互補(bǔ)性,有利于提取到更多的RGB-D 室內(nèi)圖像語義信息。金字塔融合模塊利用四種不同的池化核,融合多尺度特征,提取圖像語境信息,其編碼器網(wǎng)絡(luò)以ResNet-50[13]卷積層的拓?fù)浣Y(jié)構(gòu)為基準(zhǔn),包含3 個(gè)分支,并去掉ResNet-50 的平均池化層和全連接層。網(wǎng)絡(luò)中有兩個(gè)分支分別提取圖像中的RGB 彩色特征和Depth 深度特征;同時(shí)逐層傳入到注意力機(jī)制融合模塊中進(jìn)行特征融合;第三個(gè)分支用于處理上述融合后的特征。接著,采用金字塔融合模塊融合局部與全局信息,使用解碼器網(wǎng)絡(luò)連續(xù)對上述特征進(jìn)行五次上采樣,并進(jìn)行跳躍連接,逐步恢復(fù)高分辨率的圖像,輸出語義分割結(jié)果。
本文的主要工作如下:
1)提出了一種新的基于注意力機(jī)制和金字塔融合的網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)在編碼器部分采用預(yù)訓(xùn)練的三分支ResNet-50 卷積結(jié)構(gòu),相較于現(xiàn)有的雙分支網(wǎng)絡(luò)而言,結(jié)合注意力機(jī)制融合模塊的三分支網(wǎng)絡(luò)充分利用RGB 特征與Depth 特征的協(xié)同互補(bǔ)性,根據(jù)前向誤差學(xué)習(xí)特征權(quán)重,得到信息含量更高的多模態(tài)融合特征。
2)在編碼器部分采用金字塔融合模塊,利用不同大小的池化核,提取不同尺度下的特征信息,并進(jìn)行融合,增強(qiáng)網(wǎng)絡(luò)場景分析的性能。
實(shí)驗(yàn)結(jié)果表明,本文提出的網(wǎng)絡(luò)結(jié)構(gòu)能夠利用到場景中更豐富的信息,在兩個(gè)公開的RGB-D 數(shù)據(jù)集SUN RGB-D[22]和NYU Depth v2[23]對APFNet(Attention Mechanism and Pyramid Fusion Network)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,結(jié)果表明本文所提出的RGB-D 室內(nèi)場景圖像語義分割算法在像素精度(Pixel Accuracy,PA)、平均像素精度(Mean Pixel Accuracy,MPA)、平均交并比(Mean Intersection over Union,MIoU)上均比現(xiàn)有先進(jìn)算法有所提升,充分體現(xiàn)了該模型在室內(nèi)語義分割任務(wù)中的有效性。
2015 年Long 等[7]提出全卷積網(wǎng)絡(luò)FCN,可以輸入任意尺寸的圖像,并采用反卷積層進(jìn)行上采樣,還原圖像分辨率,實(shí)現(xiàn)“端到端”輸出也即像素級分割。FCN 的出現(xiàn)被譽(yù)為語義分割領(lǐng)域的里程碑,其第一次使用深度學(xué)習(xí)技術(shù)處理語義分割任務(wù)。隨后,Badrinarayanan 等[11]等提出SegNet,該網(wǎng)絡(luò)在FCN 的基礎(chǔ)上提出池化索引功能,在上采樣過程中定向恢復(fù)相應(yīng)的索引值,保持高頻特征的完整性,提高了語義分割的準(zhǔn)度。Paszke 等[24]簡化傳統(tǒng)的“編碼器-解碼器”結(jié)構(gòu),采用大型編碼器和小型解碼器,減少參數(shù)量。Wang 等[25]基于ResNet[13]提出 LEDNet(Lightweight Encoder-Decoder Network),改進(jìn)深度殘差學(xué)習(xí)模塊,提高圖像語義分割的實(shí)時(shí)性。另外,一些學(xué)者[26-28]提出了基于RNN(Recurrent Neural Networks)[29]的方法記憶歷史信息,易于利用局部和全局信息。
注意力感知機(jī)制[30]與人類的視覺注意力感知機(jī)制類似,其原理是聚焦場景中更加有用的信息,忽略場景中的無用信息,有利于取得特征圖全局的上下文信息,提高語義分割的精度。
近年來,在計(jì)算機(jī)視覺領(lǐng)域注意力感知機(jī)制有著廣泛應(yīng)用。Fu 等[31]提出DANet(Dual Attention Network),該網(wǎng)絡(luò)將位置注意力模塊和通道注意力模塊并行連接,采用自注意機(jī)制整合圖像的局部特征,編碼上下文的依賴關(guān)系。Hu 等[32]提出SENet(Squeeze and Excitation Network)架構(gòu),設(shè)計(jì)通道注意力模塊,學(xué)習(xí)各通道的依賴程度,并據(jù)此對特征圖進(jìn)行調(diào)整。Huang 等[33]提出CCNet(Criss Cross Network),自主設(shè)計(jì)縱橫交叉注意力機(jī)制模塊,該模塊通過特征加權(quán)捕獲垂直方向和水平方向的全局信息,得到像素與像素之間的上下文依賴關(guān)系,并減少了參數(shù)量。Wang 等[34]提出融合空間域注意力和通道域注意力,并提出殘差注意力學(xué)習(xí),不僅在當(dāng)前網(wǎng)絡(luò)的特征層加入掩碼,還把上一層的特征傳遞到下一層。本文為了充分利用RGB 彩色信息與Depth 深度信息的互補(bǔ)性,提出注意力機(jī)制融合模塊,分別提取RGB 特征和Depth特征的注意力分配權(quán)重,提高物體邊界輪廓的分割精度。
在計(jì)算機(jī)視覺領(lǐng)域中,極小尺度與極大尺度物體往往都會(huì)影響深度學(xué)習(xí)模型的性能,如何融合圖像中多尺度的特征信息也是一個(gè)具有挑戰(zhàn)性的任務(wù)。Zhang 等[35]提出MTCCN(Multi-Task Cascaded Convolutional Network)人臉檢測算法,使用多個(gè)尺度的圖像金字塔輸入,獲取更強(qiáng)的特征表示;Zhao 等[12]基于ResNet[13]提出PSPNet,該網(wǎng)絡(luò)引入金字塔池化模塊,使用不同大小的池化操作來控制感受野,融合多尺度特征;Fu 等[36]提出Big-Little Net(Big Little Network),采用不同的尺度對信息進(jìn)行處理,對分辨率大的分支使用更少的卷積通道,充分利用通道信息;Chen 等[37]基于DeepLab V1 提出DeepLab V2[38],并提出帶孔金字塔池化(Atrous Spatial Pyramid Pooling,ASPP)模塊,該模塊結(jié)合空洞卷積與金字塔池化模塊,獲取不同尺度的特征,并將其融合實(shí)現(xiàn)多尺度信息的處理;Lin 等[39]提出特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN),將高層的特征添加到相鄰的低層,組合新的特征,再對每一層進(jìn)行預(yù)測,解決了目標(biāo)檢測中小尺度物體的性能不佳問題。本文為了提高室內(nèi)場景分割中小尺度物體分割的性能,設(shè)計(jì)金字塔融合模塊提取場景語境,融合多尺度信息。
本章首先介紹本文所提出的APFNet 室內(nèi)場景語義分割網(wǎng)絡(luò)的整體架構(gòu),接著講述兩個(gè)創(chuàng)新型模塊:注意力機(jī)制融合模塊和金字塔融合模塊,最后闡明網(wǎng)絡(luò)模型訓(xùn)練中所使用的損失函數(shù)。
網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖1 所示。
圖1 基于注意力機(jī)制和金字塔融合的RGB-D語義分割A(yù)PFNet網(wǎng)絡(luò)模型整體架構(gòu)Fig.1 Overall architecture of RGB-D semantic segmentation APFNet model based on attention mechanism and pyramid fusion
本文的網(wǎng)絡(luò)模型中設(shè)計(jì)了兩個(gè)創(chuàng)新型的模塊:注意力機(jī)制融合模塊和金字塔融合模塊,即分別將編碼器網(wǎng)絡(luò)中4 個(gè)同級的RGB 彩色特征(APF-RGB1~APF-RGB4)和Depth 深度特征(APF-D1~APF-D4)輸入到注意力機(jī)制融合模塊中,通過前向誤差得到兩種特征的注意力權(quán)重,并利用權(quán)重增強(qiáng)語義信息合并得到富含彩色信息與空間位置信息的特征表示,同時(shí)將合并后的特征輸入到第3 個(gè)分支,即特征整合分支中。之后,將特征整合分支的最后一層特征輸入到金字塔融合模塊,利用四種不同金字塔尺度的特征,融合局部和全局的信息,提高對圖像全局特征的利用率。最后將金字塔融合模塊的輸出特征輸入到解碼器網(wǎng)絡(luò),對其進(jìn)行5 次連續(xù)的上采樣,恢復(fù)圖像特征,其結(jié)構(gòu)上與編碼器相對稱。經(jīng)過每一次上采樣,特征圖尺寸增大1 倍,通道數(shù)減少1/2。另一方面特征整合分支輸出的編碼特征,通過對應(yīng)位置元素相加的跳躍連接方式,與對應(yīng)尺寸的解碼特征融合,每一次跳躍連接包含一個(gè)1×1 卷積層。為對梯度消失現(xiàn)象進(jìn)行深層監(jiān)督,本文在解碼過程中分別提取五個(gè)上采樣層的輸出特征,并輸入到1×1 卷積層中,減少特征的通道數(shù)至37;最后采用Softmax 函數(shù)對像素進(jìn)行分類。解碼器的輸出就是最終室內(nèi)場景語義分割結(jié)果,實(shí)現(xiàn)“端到端”的輸出。
由于室內(nèi)場景復(fù)雜度高、光照不均勻,物體邊界和類別判分過程中出現(xiàn)難分和錯(cuò)分的情況,導(dǎo)致算法語義分割精度較低。而場景中的深度信息因其受光照影響小、能夠反映位置關(guān)系且與RGB 信息互補(bǔ)等特性,與RGB 信息結(jié)合后可以降低相似外觀、相近位置物體分割的錯(cuò)誤率。因此,本文提出一種注意力機(jī)制融合模塊(AMFM),充分利用RGB 信息和Depth 信息之間的協(xié)同互補(bǔ)性,網(wǎng)絡(luò)根據(jù)前向誤差學(xué)習(xí)特征權(quán)重,得到信息特征含量更高的多模態(tài)融合特征,使其能夠更精確地判別物體邊界,提高分割精度。
注意力機(jī)制融合模塊的結(jié)構(gòu)如圖2 所示。
圖2 注意力機(jī)制融合模塊Fig.2 Attention mechanism fusion module
將編碼器網(wǎng)絡(luò)第i個(gè)層級的RGB 特征和Depth 特征分別設(shè)為,并輸入到注意力機(jī)制融合模塊中,其中c表示通道數(shù),h和w分別表示特征映射的高度和寬度。首先分別對兩種特征進(jìn)行池化操作:
其中:AvePool 為自適應(yīng)平均池化(Adaptive Average Pooling)操作,該操作能在指定輸出特征的尺寸后,自動(dòng)選擇步長和池化核的大??;為經(jīng)過平均池化后得到的特征,特征的通道個(gè)數(shù)和尺寸分別為c和1×1。接下來將兩種特征輸入1×1 卷積層:
其中:f1×1表示卷積核大小為1×1 的卷積操作;分別表示卷積結(jié)果。經(jīng)過該卷積操作后的RGB 特征和Depth 特征尺寸和通道大小不變,且該卷積層能夠挖掘通道間的相關(guān)性,從而得到這些通道間合適的權(quán)重分布。然后使用Sigmoid 激活函數(shù)對的權(quán)重值進(jìn)行歸一化:
最后,注意力機(jī)制融合模塊的融合特征Yi由式(9)計(jì)算得到:
其中:concat 表示在通道維度的拼接操作,BN(Batch Normalization)表示批量標(biāo)準(zhǔn)化操作,ReLU(Rectified Linear Unit)為線性整流激活函數(shù)。通過該操作得到和輸入相同通道個(gè)數(shù)和尺寸的多模態(tài)融合特征。該特征既具有原始的RGB 特征和Depth 特征,又能在后續(xù)網(wǎng)絡(luò)中利用合并后的特征。
上一節(jié)中,利用注意力機(jī)制融合模塊已充分融合圖片的RGB 特征與Depth 特征,然而在室內(nèi)場景分割的實(shí)驗(yàn)過程中,發(fā)現(xiàn)許多分類錯(cuò)誤,如外觀相似物品沒有得到正確分類、小尺度物體沒有識別等,這些問題與不同感受野的語境關(guān)系和整體信息有關(guān)。在深度神經(jīng)網(wǎng)絡(luò)中,感受野的大小可以表示使用語境信息的程度,因此具有合適感受野大小的深度網(wǎng)絡(luò)可以大大增強(qiáng)場景分析的性能。為了對得到的多模態(tài)特征進(jìn)行增強(qiáng),使模型更有效地利用上下文信息,進(jìn)一步避免丟失表征不同子區(qū)域之間關(guān)系的語境信息,本文提出了一種包含不同尺度、不同子區(qū)域間關(guān)系的分層全局信息的金字塔融合模塊(PFM),結(jié)合不同金字塔尺度下的特征信息,融合局部與全局的信息,使得對上下文信息的使用程度大大提高。
金字塔融合模塊的結(jié)構(gòu)如圖3 所示。
圖3 金字塔融合模塊Fig.3 Pyramid fusion module
由于在室內(nèi)語義分割中,上下文信息丟失及物體混淆問題主要出現(xiàn)在小物體分割上,因此將輸入的融合特征Y5池化后,分成4 個(gè)尺度,圖3 中最小尺度的金字塔池化層表示最粗糙的特征圖為全局池,用以生成單個(gè)特征輸出。下面三種金字塔池化層表示分別將特征圖劃分為若干個(gè)不同的子區(qū)域,并對每個(gè)子區(qū)域進(jìn)行池化,得到不同的特征表示Tk(k={1,2,3,4}):
其中:AvePoolj×j表示自適應(yīng)平均池化,將不同子區(qū)域池化后的特征組合起來,輸出為尺寸為j×j(j={1,2,3,6})的子區(qū)域特征。而在金字塔融合模塊中不同層次的輸出包含不同大小的特征圖,為了保持全局特征的權(quán)重,在不同尺度的池化操作后使用1×1 的卷積核,得到相應(yīng)的卷積結(jié)果:
然后直接對低維特征映射進(jìn)行上采樣,通過雙線性插值得到與原始特征映射相同大小的特征。最后,將不同級別的特征串聯(lián)起來,作為最終的金字塔融合特征,融合特征W由以下計(jì)算得到:
其中,concat 表示在通道維度的拼接操作,通過該操作得到通道個(gè)數(shù)和尺寸分別為c和h×w的多模態(tài)融合特征。
金字塔級別的數(shù)量和每個(gè)級別的大小可根據(jù)輸入金字塔池化層的特征圖大小改變。不同的金字塔融合模型,采用不同大小的池化核,以不同的速度提取不同的感受野。本文的金字塔融合模塊是一個(gè)四級的模塊,其大小分別為1×1、2×2、3×3 和6×6。
由于本文模型的最后一層使用的是Softmax 函數(shù)對像素進(jìn)行分類,所以使用深層監(jiān)督的方法并采用交叉熵函數(shù)來訓(xùn)練網(wǎng)絡(luò)模型參數(shù),提升梯度的收斂速度。即將語義標(biāo)簽圖分別進(jìn)行4 次下采樣到解碼器的前4 層對應(yīng)尺寸,并分別計(jì)算其與網(wǎng)絡(luò)模型中上采樣5 次預(yù)測特征輸出的交叉熵函數(shù)。則第d(d={1,2,…,5})層交叉熵函數(shù)為:
其中:m、n為像素坐標(biāo),S為標(biāo)簽類別,S*為輸出特征的分類概率,Nd為第d層輸出特征的像素個(gè)數(shù)。
再將5 層的交叉熵函數(shù)相加,作為網(wǎng)絡(luò)模型的損失函數(shù):
同時(shí),本文使用跳躍連接的方式,將注意力機(jī)制融合模塊中的特征對應(yīng)輸入到解碼器網(wǎng)絡(luò)中。該方式可以解決網(wǎng)絡(luò)模型中存在的梯度消失問題,并有助于梯度的反向傳播,加快訓(xùn)練進(jìn)程。
本章在兩個(gè)常用公共數(shù)據(jù)集SUN RGB-D[22]和NYU Depth v2[23]上與現(xiàn)有的基于RGB-D 圖像的語義分割算法進(jìn)行對比實(shí)驗(yàn),并對模型中兩個(gè)模塊的作用進(jìn)行實(shí)驗(yàn)分析,最后對算法復(fù)雜度進(jìn)行評估。
3.1.1 數(shù)據(jù)集
SUN RGB-D 該數(shù)據(jù)集共包含10 335 張不同室內(nèi)場景的RGB-D 圖像,每幅圖像的每個(gè)像素都被標(biāo)注一個(gè)語義類別標(biāo)簽,共包含37 個(gè)語義類別標(biāo)簽。本文使用795 個(gè)實(shí)例進(jìn)行訓(xùn)練,654 個(gè)實(shí)例進(jìn)行測試。
NYU Depth v2 該數(shù)據(jù)集共包含由Kinect[15]采集的1 449 張室內(nèi)場景的RGB-D 圖像,共包含40 類語義類別標(biāo)簽。在該數(shù)據(jù)集上本文使用795 個(gè)實(shí)例進(jìn)行訓(xùn)練,654 個(gè)實(shí)例進(jìn)行測試。
3.1.2 評估指標(biāo)
本文采用三種常見的圖像語義分割評估指標(biāo)來評估算法的性能,分別是像素精度(PA)、平均像素精度(MPA)、平均交并比(MIoU)。
PA 為一張圖片中分類正確的像素點(diǎn)數(shù)和所有像素點(diǎn)數(shù)的比值,定義如下:
其中:pii表示分類正確的像素?cái)?shù)量,pij表示本屬于類i卻被預(yù)測為類j的像素?cái)?shù)量。
MPA 為每個(gè)類內(nèi)分類正確的像素點(diǎn)數(shù)和所有像素點(diǎn)數(shù)的比值的平均值,定義如下:
其中k表示類別數(shù)。
MIoU 為真實(shí)值與預(yù)測值兩個(gè)集合的交集和并集的比值的平均值,定義如下:
在深度學(xué)習(xí)框架PyTorch0.4.1[40]上訓(xùn)練本文所提出的網(wǎng)絡(luò)模型,輸入為640×480 的RGB-D 圖像并使用深層監(jiān)督的方法并采用交叉熵函數(shù)來訓(xùn)練網(wǎng)絡(luò)模型參數(shù),提升梯度的收斂速度。計(jì)算標(biāo)簽圖5 次下采樣的輸出與網(wǎng)絡(luò)模型中五次上采樣預(yù)測特征輸出的交叉熵函數(shù),并將5 層的交叉熵函數(shù)相加,作為網(wǎng)絡(luò)模型的損失函數(shù)。本文使用預(yù)訓(xùn)練的三分支的ResNet-50[13]初始化編碼器的權(quán)重參數(shù),并在4 個(gè)NVIDIA GeForce RTX 2080 GPU 上訓(xùn)練本文網(wǎng)絡(luò)模型。初始學(xué)習(xí)率設(shè)置為0.002,批處理大小設(shè)置為2,每100 次迭代乘以0.8減小學(xué)習(xí)率;動(dòng)量系數(shù)設(shè)置為0.9,權(quán)值衰減系數(shù)設(shè)置為0.0001。
3.3.1 與其他算法的對比結(jié)果
1)在SUN-RGBD 數(shù)據(jù)集上的對比結(jié)果。本文分別將SUN-RGBD 數(shù)據(jù)集代入到所提算法與現(xiàn)有算法中進(jìn)行對比實(shí)驗(yàn)(如表1 所示)。
表1 各算法在SUN-RGBD上PA、MPA、MIoU比較 單位:%Tab.1 PA,MPA and MIoU comparison of different algorithms on SUN-RGBD unit:%
實(shí)驗(yàn)結(jié)果顯示,本文算法在像素精度、平均像素精度、平均交并比三種評估指標(biāo)上均優(yōu)于現(xiàn)有算法,具體數(shù)值分別為81.9%、61.2%、50.9%。一方面,將APFNet 與其他三分支編碼器-解碼器架構(gòu)算法相比,如與最先進(jìn)的SGNet 算法相比,本文算法在像素精度、平均像素精度、平均交并比上分別提高0.9 個(gè)百分點(diǎn)、1.4 個(gè)百分點(diǎn)、3.4 個(gè)百分點(diǎn);與ACNet 算法相比,本文算法的平均交并比提高了2.8 個(gè)百分點(diǎn),這得益于編碼器端中加入了注意力機(jī)制融合模塊的三分支網(wǎng)絡(luò),使得模型對RGB 信息和Depth 信息有更佳的融合效果。另一方面,雖然APFNet 的編碼器網(wǎng)絡(luò)為ResNet-50,但相較于編碼器網(wǎng)絡(luò)為ResNet-152 網(wǎng)絡(luò)的算法而言,在編碼器層數(shù)從152 層降低到50 層的情況下,本文算法在3 個(gè)指標(biāo)上均有提升,如與RDF-152 算法相比,APFNet 在像素精度、平均像素精度、平均交并比上分別提高了0.4 個(gè)百分點(diǎn)、1.1 個(gè)百分點(diǎn)、3.2 個(gè)百分點(diǎn);與CFN-152 算法相比,APFNet 的平均交并比提升了2.8 個(gè)百分點(diǎn),這歸功于金字塔融合模塊對多尺度特征的融合使得模型對小尺度物體和邊緣信息有更精確的判別;同時(shí)使得APFNet 不需要很深層的編碼器結(jié)構(gòu)就可得到更好的分割性能。
2)在NYU Depth v2 數(shù)據(jù)集上的對比結(jié)果。本文在NYU Depth v2 數(shù)據(jù)集上將所提出的算法與現(xiàn)有算法進(jìn)行對比實(shí)驗(yàn),結(jié)果如表2 所示。本文算法在像素精度、平均像素精度、平均交并比上均優(yōu)于現(xiàn)有算法。
表2 各算法在NYU Depth v2上PA、MPA、MIoU比較 單位:%Tab.2 PA,MPA and MIoU comparison of different algorithms in NYU Depth v2 unit:%
具體而言,本文算法在NYU Depth v2 數(shù)據(jù)集的三種評估指標(biāo)分別為76.9%、63.2%、52.3%。一方面,與同是三分支編碼器-解碼器架構(gòu)的RGB-D 語義分割算法對比,相較于ACNet 算法,本文算法在平均交并比上提升了4 個(gè)百分點(diǎn);與新穎的TSNet 算法相比,APFNet 在像素精度、平均像素精度、平均交并比上分別提升了3.4 個(gè)百分點(diǎn)、3.6 個(gè)百分點(diǎn)、6.2個(gè)百分點(diǎn)。另一方面,與同是使用ResNet-50 作為編碼器架構(gòu)的算法對比:相較于RDF-50,本文算法的像素精度、平均像素精度、平均交并比分別提高了2.1 個(gè)百分點(diǎn)、2.8 個(gè)百分點(diǎn)、4.6 個(gè)百分點(diǎn);相較于CTNet,本文算法的像素精度、平均交并比分別提高了0.6個(gè)百分點(diǎn)、1.7個(gè)百分點(diǎn)。上述實(shí)驗(yàn)結(jié)果表明本文算法在不同的數(shù)據(jù)集上都有較良好的性能體現(xiàn),說明APFNet能適應(yīng)各種各樣的類別和場景。
3)結(jié)果分析。本節(jié)進(jìn)一步在NYU Depth v2 數(shù)據(jù)集上分析本文所提出的算法在各個(gè)類別的交并比精度,分別與RDF-101 和RDF-152 兩個(gè)RGB-D 室內(nèi)場景語義分割算法進(jìn)行比較,以更清晰地分析APFNet 在40 個(gè)類別上的分類情況。如表3 所示,所有40 個(gè)類別中,本文算法在26 個(gè)類別上的交并比精度都有優(yōu)于這兩種算法的表現(xiàn)。一方面,本文算法提高了易分辨物體的語義分割精度:與RDF-101 相比,APFNet在“木板(board)”“浴缸(bathtub)”“馬桶(toilet)”“天花板(ceiling)”的分割精度上分別提升了26.0 個(gè)百分點(diǎn)、12.8 個(gè)百分點(diǎn)、9.2 個(gè)百分點(diǎn)、6.2 個(gè)百分點(diǎn),得益于注意力融合模塊中的Depth 信息能夠反映物體的位置關(guān)系,增強(qiáng)物體邊緣的分割精度;另一方面,本文算法提高了小尺度物體的語義分割精度:與RDF-152 算法相比,APFNet 在“燈(lamp)”“地毯(mat)”“箱子(box)”“報(bào)紙(paper)”的分割精度上分別提升了3.4 個(gè)百分點(diǎn)、3.3 個(gè)百分點(diǎn)、3.0 個(gè)百分點(diǎn)、2.1 個(gè)百分點(diǎn),這歸功于本文設(shè)計(jì)的金字塔融合模塊能融合局部與全局的信息,增強(qiáng)物體的細(xì)節(jié)特征。注意力機(jī)制融合模塊和金字塔融合模塊的結(jié)合使用使得本文算法有更好的分割效果。
表3 NYU Depth v2數(shù)據(jù)集中40個(gè)類的IoU的比較結(jié)果 單位:%Tab.3 Comparison of IoU results of 40 classes in NYU Depth v2 dataset unit:%
3.3.2 兩個(gè)融合模塊的性能分析
本節(jié)分析本文提出的兩個(gè)融合模塊:注意力機(jī)制融合模塊(AMFM)和金字塔融合模塊(PFM)對語義分割結(jié)果的影響。通過去除模型中的兩個(gè)融合模塊,對比驗(yàn)證邊緣劃分和小尺度物體分割的精度,在NYU Depth v2 數(shù)據(jù)集上進(jìn)行測試,對比結(jié)果如表4 所示。本文首先測試采用等權(quán)值拼接操作代替兩個(gè)融合模塊后的網(wǎng)絡(luò)性能,并用concat 表示此網(wǎng)絡(luò),其三個(gè)評估指標(biāo)分別為73.7%、57.5%、46.9%,與本文算法APFNet 相比分別降低了3.2 個(gè)百分點(diǎn)、5.7 個(gè)百分點(diǎn)、5.36 個(gè)百分點(diǎn),表明本文提出的兩個(gè)融合模塊顯著提升了最終的分割精度。接下來,將采取同樣的方法分別去除注意力機(jī)制融合模塊和金字塔融合模塊,并測試去除后的網(wǎng)絡(luò)模型性能。
表4 兩個(gè)融合模塊對算法模型PA、MPA、MIoU的影響 單位:%Tab.4 Impact of two fusion modules on PA,MPA and MIoU unit:%
1)注意力機(jī)制融合模塊。去除了APFNet 算法中的注意力機(jī)制融合模塊網(wǎng)絡(luò)的語義分割結(jié)果如表4 第3 行所示,網(wǎng)絡(luò)像素精度、平均像素精度、平均交并比分別降低了1.5、1.8、2.76 個(gè)百分點(diǎn)。
圖4 呈現(xiàn)了去除注意力機(jī)制融合模塊前后的分割結(jié)果變,可以看出,使用注意力機(jī)制融合模塊的網(wǎng)絡(luò)對物體輪廓的分割更加精細(xì)。對于由于光線較暗影響判別的物體,如第1 行的“天花板”和第2 行的“桌子(desk)”,經(jīng)過學(xué)習(xí)特征權(quán)重,結(jié)合不受光線影響的Depth 信息,得到的富含空間位置信息的融合特征更能準(zhǔn)確編碼到光線較暗處的物體輪廓信息,網(wǎng)絡(luò)的邊緣分割能力有效增強(qiáng),物體輪廓更加精細(xì)。
圖4 注意力機(jī)制融合模塊的對比結(jié)果Fig.4 Comparison results of attention mechanism fusion module
2)金字塔融合模塊。去除網(wǎng)絡(luò)模型中的金字塔融合模塊,結(jié)果如表4 所示,去除網(wǎng)絡(luò)模型中的金字塔融合模塊使得像素精度、平均像素精度、平均交并比降低了1.8 個(gè)百分點(diǎn)、2.3 個(gè)百分點(diǎn)、1.96 個(gè)百分點(diǎn)。
圖5 展示了在網(wǎng)絡(luò)模型中去除金字塔融合模塊前后的語義分割結(jié)果。對比結(jié)果表明,使用金字塔融合可以對小尺度物體實(shí)現(xiàn)正確的語義分割,例如第1 行的“相片(picture)”“桌子”等,第2 行的“臺燈”“枕頭(pillow)”等。說明金字塔融合模塊能有效融合局部與全局信息,提高網(wǎng)絡(luò)模型對圖像全局特征的利用率。
圖5 金字塔融合模塊的對比結(jié)果Fig.5 Comparison results of pyramid fusion module
圖6 展示了本文網(wǎng)絡(luò)模型在NYU Depth v2 數(shù)據(jù)集上的可視化結(jié)果,其中RDF-101 算法對易分辨的大物體的分割精度較高,如第2 行的“冰箱(refridge)”、第3 行的“相片”等。本文的網(wǎng)絡(luò)模型也能達(dá)到上述效果,如第1 行和第4 行的“門(door)”、第2 行和第4 行的“桌子”、第3 行的“窗戶(window)”等;同時(shí)本文模型對一些小尺寸物體,以及和周圍環(huán)境顏色相近的物體能得到較好的分割結(jié)果,如第3 行的“柜子(counter)”、第4 行的“水槽(sink)”、第5 行的“相片”等。這些說明本文網(wǎng)絡(luò)模型的注意力機(jī)制融合模塊和金字塔融合模塊能有效利用RGB 特征和Depth 特征的互補(bǔ)性,融合局部與全局信息,提高RGB-D室內(nèi)場景語義分割精度。
圖6 本文網(wǎng)絡(luò)模型在NYU Depthv2數(shù)據(jù)集的分割結(jié)果可視化對比Fig.6 Visualization comparison of segmentation results of APFNet model in NYU Depth v2 dataset
本文算法的三分支編碼器和單分支解碼器均為ResNet-50 架構(gòu),共為200 層3×3 卷積和400 層1×1 卷積。注意力機(jī)制融合模塊共含有15 層1×1 卷積,金字塔融合模塊共含有4層1×1 卷積,跳層連接共含有4 層1×1 卷積。相對于編碼器網(wǎng)絡(luò)的參數(shù)量,兩個(gè)融合模塊和跳層連接的參數(shù)量明顯較少,因此本文算法的時(shí)間復(fù)雜度和空間復(fù)雜度主要受編碼器網(wǎng)絡(luò)參數(shù)量與計(jì)算量的影響。對于同是采用ResNet-50 架構(gòu)的室內(nèi)場景語義分割算法而言,其時(shí)間復(fù)雜度相同。表5 展示了不同RGB-D 語義分割算法的占用內(nèi)存和預(yù)測時(shí)間,可以看到由于注意力機(jī)制融合模塊和金字塔融合模塊參數(shù)量較少,其對占用內(nèi)存和預(yù)測時(shí)間的影響較小,但兩個(gè)模塊能夠有效提高語義分割精度。相對于RDFNet-50 和TSNet,本文算法在預(yù)測時(shí)間與內(nèi)存消耗上有小幅度增加,但增加的幅度均不超過5 個(gè)百分點(diǎn)。
表5 不同算法的占用內(nèi)存和運(yùn)行時(shí)間對比Tab.5 Comparison of model size and operation time for different algorithms
為了提高對室內(nèi)場景中外貌特征相似物體與小尺度物體的語義分割精度,本文提出了一種基于注意力機(jī)制和金字塔多模態(tài)融合的RGB-D 室內(nèi)場景圖像語義分割網(wǎng)絡(luò)模型APFNet,其主體為“編碼器-解碼器”架構(gòu),在編碼器網(wǎng)絡(luò)中構(gòu)建三條網(wǎng)絡(luò)分支,分別處理RGB 特征、深度特征以及融合特征。注意力機(jī)制融合模塊利用RGB 特征和Depth特征的互補(bǔ)性,平衡兩種特征的分布并進(jìn)行融合,使網(wǎng)絡(luò)更關(guān)注于圖像的有效區(qū)域。金字塔融合模塊通過融合多尺度信息,增強(qiáng)細(xì)節(jié)特征,獲取更高質(zhì)量的上下文語境信息。在解碼器網(wǎng)絡(luò)中采用跳躍連接和深層監(jiān)督的方法,提高了梯度的收斂速度和模型的訓(xùn)練效果。本文算法在SUN RGB-D 和NYU Depth v2兩個(gè)公開數(shù)據(jù)集上進(jìn)行了大量的對比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,算法整體提高了邊緣輪廓和小尺寸物體分割的能力,可以有效解決室內(nèi)場景語義分割問題。