溫靜,楊潔
(山西大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,太原 030006)
深度估計(jì)被廣泛應(yīng)用于自動(dòng)駕駛、無(wú)人機(jī)導(dǎo)航等各種智能任務(wù)。EIGEN等[1]提出利用深度學(xué)習(xí)進(jìn)行深度估計(jì)的方法,該方法相較于傳統(tǒng)方法的估計(jì)性能得到顯著提升。LIU等[2]為簡(jiǎn)化訓(xùn)練過(guò)程并增強(qiáng)細(xì)節(jié)信息,提出一種新的深度估計(jì)算法,該算法將深度卷積神經(jīng)網(wǎng)絡(luò)與連續(xù)條件隨機(jī)場(chǎng)相結(jié)合進(jìn)行深度估計(jì)。LI等[3]在文獻(xiàn)[2]的基礎(chǔ)上,提出一種多尺度方法,結(jié)合超像素與像素來(lái)優(yōu)化深度估計(jì)的預(yù)測(cè)性能。LAINA等[4]結(jié)合殘差網(wǎng)絡(luò)的優(yōu)點(diǎn),提出一種殘差學(xué)習(xí)的全卷積網(wǎng)絡(luò)架構(gòu),獲得較優(yōu)的估計(jì)結(jié)果。GARG等[5]提出一種類似于自動(dòng)編碼機(jī)的深度估計(jì)算法,利用立體圖像對(duì)代替深度標(biāo)簽,從而實(shí)現(xiàn)無(wú)監(jiān)督單目深度估計(jì)的目的。該方法雖然能夠訓(xùn)練單目深度估計(jì)模型,但是依賴基于立體信息的訓(xùn)練數(shù)據(jù)。GODARD等[6]提出一種新的自監(jiān)督單目深度估計(jì)方法,該方法不依賴基于立體信息的訓(xùn)練數(shù)據(jù)。信息損失是深度估計(jì)任務(wù)中的主要問(wèn)題。GUIZILINI等[7]基于GODARD等[6]的工作,提出一種新的卷積網(wǎng)絡(luò)結(jié)構(gòu),稱為PackNet。針對(duì)深度估計(jì)方法的精度低、網(wǎng)絡(luò)臃腫復(fù)雜的問(wèn)題,王亞群等[8]設(shè)計(jì)了密集卷積網(wǎng)絡(luò)。
針對(duì)深度估計(jì)任務(wù)中相鄰深度邊緣細(xì)節(jié)模糊以及對(duì)象缺失的問(wèn)題,本文提出一種基于場(chǎng)景對(duì)象注意機(jī)制與加權(quán)深度圖融合的深度估計(jì)算法。利用卷積網(wǎng)絡(luò)計(jì)算特征圖任意位置之間的相似度向量,以增大網(wǎng)絡(luò)的感受野并增強(qiáng)特征圖的上下文信息,有效解決對(duì)象缺失的問(wèn)題。將不同網(wǎng)絡(luò)層的深度圖進(jìn)行融合,在融合之前利用權(quán)重生成器為每一個(gè)深度圖賦予權(quán)重,提高深度圖的預(yù)測(cè)精度。
自監(jiān)督單目深度估計(jì)是深度估計(jì)算法研究的主流。GODARD等[6]提出的Monodepth2 模型具有較優(yōu)的深度估計(jì)性能。為進(jìn)一步提升算法的性能,GUIZILINI等[7]提出一種新的自監(jiān)督單目深度估計(jì)模型,該模型由獨(dú)特的卷積網(wǎng)絡(luò)結(jié)構(gòu)PackNet 組成,當(dāng)傳統(tǒng)編碼器-解碼器恢復(fù)原分辨率時(shí),PackNet中的打包解包模塊可以有效地解決信息量丟失問(wèn)題。
近年來(lái),注意力機(jī)制在計(jì)算機(jī)視覺(jué)領(lǐng)域具有重要作用。文獻(xiàn)[9]提出將注意力機(jī)制引入計(jì)算機(jī)視覺(jué)中。文獻(xiàn)[10]在圖像分類模型中使用空間注意力,顯著提高分類任務(wù)的準(zhǔn)確率。HU等[11]提出一種通道注意力機(jī)制,該機(jī)制賦予各通道不同的權(quán)重,不同的權(quán)值代表不同的關(guān)注程度。WOO等[12]采用級(jí)聯(lián)和并行的方式連接不同的注意力。YANG等[13]結(jié)合非局部均值與注意力機(jī)制的基本原理,提出一種可以捕獲特征圖中像素點(diǎn)間的長(zhǎng)距離依賴關(guān)系模塊,文獻(xiàn)[14-15]詳細(xì)介紹了該模塊的的原理及應(yīng)用。
HE等[16]提出一種全新的池化層,該池化層使用多個(gè)卷積窗口對(duì)特征圖進(jìn)行池化。ZHAO等[17]提出金字塔場(chǎng)景解析網(wǎng)絡(luò)PSPNet,該網(wǎng)絡(luò)采用步長(zhǎng)和池化尺寸均不同的平均池化層進(jìn)行池化。LIU等[18]提出ParseNet,通過(guò)全局池化提取圖像的全局特征,并將全局特征與局部特征相融合。
WU等[19]提出一種多級(jí)上下文與多模態(tài)融合網(wǎng)絡(luò)MCMFNet,用于融合多尺度多級(jí)上下文特征映射關(guān)系,并從深度信息中學(xué)習(xí)對(duì)象邊緣。文獻(xiàn)[20]提出低分辨率的深度圖,在深度信息預(yù)測(cè)方面具有較優(yōu)的性能。文獻(xiàn)[21]提出的低分辨率深度圖沒(méi)有場(chǎng)景的空間信息和對(duì)象信息,在高分辨率深度圖中存在豐富的場(chǎng)景信息和細(xì)節(jié)信息,但不含任何深度信息。文獻(xiàn)[22]通過(guò)融合不同尺度的深度圖得到包含深度信息和場(chǎng)景對(duì)象信息的深度圖。本文基于以上原理,提出加權(quán)深度圖融合模塊。
本文結(jié)合場(chǎng)景對(duì)象注意機(jī)制和加權(quán)深度圖融合模塊,提出一種自監(jiān)督單目深度估計(jì)算法,通過(guò)場(chǎng)景對(duì)象注意機(jī)制有效地解決深度圖中明顯的對(duì)象缺失問(wèn)題。加權(quán)深度圖融合模塊提高深度預(yù)測(cè)的準(zhǔn)確度,同時(shí),相鄰深度邊緣細(xì)節(jié)模糊的問(wèn)題也得到有效解決。
本文所提自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)模型的基線是PackNet,用于解決信息丟失問(wèn)題。圖1 所示為自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。
圖1 本文網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of the proposed network
本文網(wǎng)絡(luò)基于傳統(tǒng)的編碼器-解碼器結(jié)構(gòu),在編碼器-解碼器中加入場(chǎng)景對(duì)象注意機(jī)制和加權(quán)深度圖融合模塊。輸入圖片首先經(jīng)過(guò)一個(gè)5×5 的卷積層,通過(guò)編碼器獲取高維特征。深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)將不同層的深度圖輸入到加權(quán)深度圖融合模塊中進(jìn)行融合。編碼器模塊Enc_Block 的結(jié)構(gòu)如圖2 所示,該結(jié)構(gòu)由三個(gè)Conv2D 3×3 的卷積層、場(chǎng)景對(duì)象注意模塊和PackingBlock 模塊[7]順序連接組成。
圖2 Enc_Block 網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of Enc_Block network
解碼器模塊主要由Dec_Block 組成,Dec_Block的結(jié)構(gòu)如圖3 所示。從圖3 可以看出:Dec_Block 由UnpackingBlock 模塊、場(chǎng)景對(duì)象注意模塊和Conv2D 3×3 組成。
模型中采用反向映射原理合成目標(biāo)圖像,根據(jù)目標(biāo)圖像的二維像素點(diǎn)坐標(biāo),利用相機(jī)內(nèi)參矩陣和位姿網(wǎng)絡(luò)得到的變換矩陣進(jìn)行坐標(biāo)變換,進(jìn)而計(jì)算出與原圖像對(duì)應(yīng)的坐標(biāo),根據(jù)得到的坐標(biāo)在原圖像中進(jìn)行采樣,將采樣值作為目標(biāo)圖像對(duì)應(yīng)位置的像素值。整體過(guò)程如式(1)所示:
其中:t′為源圖像;t為目標(biāo)圖像;It′→t為利用深度和相機(jī)位姿對(duì)源圖像進(jìn)行采樣的圖像為采樣符號(hào);Dt為深度信息;K為相機(jī)內(nèi)參;Tt→t′為旋轉(zhuǎn)矩陣;proj()為依據(jù)深度投影到源圖像It′上的二維坐標(biāo)。
在得到合成目標(biāo)圖像后,結(jié)合原目標(biāo)圖像計(jì)算整體光度損失,整體光度重投影誤差[6]如式(2)所示:
其中:pe 為單張光度重投影誤差。其表達(dá)式如式(3)所示:
因圖片邊緣信息的重要性,本文利用邊緣感知平滑損失LS來(lái)改善邊緣預(yù)測(cè)結(jié)果,如式(4)所示[20]:
其中:為平均歸一化逆深度。
本文參考文獻(xiàn)[7],將高于合成目標(biāo)圖相應(yīng)未扭曲的光度損失像素進(jìn)行移除操作,通過(guò)這種方式來(lái)掩蓋靜態(tài)像素。自動(dòng)遮罩會(huì)移除外觀在幀之間不發(fā)生變換的像素,使得本文實(shí)驗(yàn)具有場(chǎng)景和場(chǎng)景對(duì)象較小的光度損失。移除操作過(guò)程如式(5)所示:
如果不對(duì)相機(jī)位姿進(jìn)行約束,那么會(huì)導(dǎo)致估計(jì)深度的準(zhǔn)確率降低。因此,本文使用瞬時(shí)速度對(duì)估計(jì)出相機(jī)位姿中的平移分量進(jìn)行約束。速度監(jiān)督損失如式(6)所示[7]:
其中:為位姿網(wǎng)絡(luò)預(yù)測(cè)的位姿平移分量;v為瞬時(shí)速度;ΔTt→t′為目標(biāo)幀與源幀之間的時(shí)間差。
2D 和3D 卷積只能處理局部像素領(lǐng)域的圖像信息,無(wú)法探索全局環(huán)境上下文信息。本文所提的場(chǎng)景對(duì)象注意機(jī)制可以學(xué)習(xí)到上下文中具有相似語(yǔ)義的特征組及其之間的關(guān)系,因此,能夠更加充分地利用全局上下文信息。當(dāng)使用標(biāo)準(zhǔn)卷積時(shí),由于這些信息可能位于卷積無(wú)法到達(dá)的非連續(xù)位置,因此模型未得到用于預(yù)測(cè)像素深度的正確上下文信息。
此外,光照、姿態(tài)、紋理、形變、前后遮擋等信息的處理都與上下文信息密切相關(guān)。場(chǎng)景對(duì)象注意機(jī)制能增強(qiáng)屬于同一對(duì)象的像素相關(guān)性,以確保同一對(duì)象深度具有一致性、連續(xù)性,從而提高深度估計(jì)的準(zhǔn)確性,減少對(duì)象缺失的視覺(jué)錯(cuò)誤。
場(chǎng)景對(duì)象注意模塊的結(jié)構(gòu)如圖4 所示。利用1×1 卷積層調(diào)整特征圖通道數(shù),再將特征圖的維度進(jìn)行變換,使得特征圖矩陣符合矩陣點(diǎn)乘的維度要求,通過(guò)激活函數(shù)處理特征圖矩陣點(diǎn)乘后的結(jié)果,進(jìn)而得到全局任意兩個(gè)元素之間的依賴關(guān)系。
圖4 場(chǎng)景對(duì)象注意模塊結(jié)構(gòu)Fig.4 Structure of scene object attention module
在深度學(xué)習(xí)中,高層網(wǎng)絡(luò)的語(yǔ)義信息表達(dá)能力較強(qiáng),但是幾何信息的表達(dá)能力較弱,并缺乏空間幾何特征細(xì)節(jié)信息。由于低層網(wǎng)絡(luò)的特征圖具有與高層網(wǎng)絡(luò)特征圖互補(bǔ)的特點(diǎn),因此本文將不同尺度的特征圖相融合,得到具有較優(yōu)的語(yǔ)義表達(dá)能力和多種空間特征細(xì)節(jié)信息的融合特征。該融合特征有助于深度網(wǎng)絡(luò)學(xué)習(xí)更準(zhǔn)確的深度,緩解相鄰深度的細(xì)節(jié)模糊問(wèn)題。
本文基于多尺度特征圖融合的優(yōu)點(diǎn),設(shè)計(jì)加權(quán)深度圖融合的網(wǎng)絡(luò)結(jié)構(gòu)。從深度估計(jì)網(wǎng)絡(luò)模型中可以得到不同分辨率的深度圖,每一個(gè)不同分辨率的深度圖都有不同的細(xì)節(jié)特征,通過(guò)融合不同分辨率的深度圖,不僅有助于網(wǎng)絡(luò)模型估計(jì)出更精確的深度信息,還可以得到具有豐富輪廓信息的深度圖。
在融合深度圖之前,本文所提的網(wǎng)絡(luò)結(jié)構(gòu)給每個(gè)深度圖賦予權(quán)值,即給深度圖中每一個(gè)像素級(jí)單位一個(gè)權(quán)值。加權(quán)深度圖融合網(wǎng)絡(luò)模型通過(guò)對(duì)不同分辨率的深度圖調(diào)整分辨率大小,使用Resize 模塊將三種不同大小分辨率的深度圖調(diào)整到相同分辨率,利用深度圖計(jì)算權(quán)值。為保證賦予深度圖的每個(gè)權(quán)值都是非負(fù)數(shù),且滿足三個(gè)權(quán)值和為1,本文在上述卷積層后增加一個(gè)Softmax 函數(shù)。在得到權(quán)值后與深度圖進(jìn)行逐元素相乘,得到加權(quán)后的深度圖,最后把三幅加權(quán)深度圖進(jìn)行逐元素相加,得到最終的深度圖。加權(quán)深度圖融合模塊如圖5 所示,圖中D_A 表示深度圖,D_A1 表示調(diào)整分辨率后的深度圖,DepthMap 表示最終得到的加權(quán)深度圖。
圖5 加權(quán)深度圖融合模塊結(jié)構(gòu)Fig.5 Structure of weighted depth map fusion module
為增強(qiáng)特征之間的空間信息和通道信息的依賴性,本文在加權(quán)深度圖融合網(wǎng)絡(luò)模型中加入CBAM模塊[11]。
本文實(shí)驗(yàn)采用的數(shù)據(jù)集是KITTI[23]和DDAD[7]。KITTI 數(shù)據(jù)集是自動(dòng)駕駛場(chǎng)景下最大的計(jì)算機(jī)視覺(jué)算法評(píng)測(cè)數(shù)據(jù)集。本文采用EIGEN 等使用的訓(xùn)練協(xié)議,并使用文獻(xiàn)[24]所提的預(yù)處理去除靜態(tài)幀,使用39 810 張圖像用于訓(xùn)練,4 424 張用于驗(yàn)證。
DDAD 數(shù)據(jù)集包含單目視頻和準(zhǔn)確的地面深度,這些深度是由安裝在自動(dòng)駕駛汽車車隊(duì)上的高密度LiDAR生成的。本文實(shí)驗(yàn)使用兩組指標(biāo)來(lái)評(píng)估模型[25]:第一組指標(biāo)分別是絕對(duì)相對(duì)誤差(AbsRel)、平均相對(duì)誤差(SqRel)、均方根誤差(RMSE)、對(duì)數(shù)均方根誤差(RMSElog);第二組指標(biāo)是精確度σ1、σ2、σ3。第一組指標(biāo)的數(shù)值越小表明模型性能越好,則第二組指標(biāo)相反,其數(shù)值越大表明網(wǎng)絡(luò)模型的性能越優(yōu)。評(píng)估指標(biāo)如下:
其中:N表示像素總數(shù);Di表示第i個(gè)像素的深度估計(jì)值;表示第i個(gè)像素真實(shí)深度值。
本文網(wǎng)絡(luò)模型的輸入圖片大小為640×192 像素,深度估計(jì)網(wǎng)絡(luò)模型首先將一個(gè)卷積核大小設(shè)置為5×5,調(diào)整輸入圖片的維度,然后將調(diào)整維度后的圖片輸入到編碼器中。編碼器中的殘差塊是由3 個(gè)2D 卷積組成的序列,2D 卷積層的卷積核大小均為3。Packing 模塊中卷積層的卷積核大小為3×3,場(chǎng)景對(duì)象注意模塊中卷積層的卷積核大小為1×1,3×3,其中1×1 卷積的作用是修改特征圖的通道大小并增加非線性。解碼器模塊由Unpacking 模塊、卷積層和場(chǎng)景對(duì)象注意機(jī)制網(wǎng)絡(luò)模塊組成。Unpacking 模塊和卷積層的卷積核大小均為3×3。在加權(quán)深度圖融合模塊中有兩種不同大小的卷積,分別是1×1和3×3。以上網(wǎng)絡(luò)模型的超參數(shù)都是通過(guò)實(shí)驗(yàn)手動(dòng)進(jìn)行調(diào)參,得到的最優(yōu)參數(shù)。
本文在開(kāi)源的深度學(xué)習(xí)框架PyTorch 上實(shí)現(xiàn)并訓(xùn)練所提的網(wǎng)絡(luò)模型,并在兩個(gè)NVIDIA1080 TI 上訓(xùn)練模型。在實(shí)驗(yàn)過(guò)程中使用Adam 優(yōu)化器,指數(shù)衰減率β1=0.9,β2=0.999,初始深度和姿態(tài)網(wǎng)絡(luò)學(xué)習(xí)率分別為2×10-4和5×10-4。每40個(gè)迭代次數(shù)學(xué)習(xí)率會(huì)衰減1/2,SSIM 中權(quán)重值α=0.85。批處理大小設(shè)置為4,訓(xùn)練的最大迭代次數(shù)設(shè)置為100。本文每經(jīng)過(guò)一個(gè)迭代次數(shù)測(cè)試一次模型的預(yù)測(cè)性能,依據(jù)當(dāng)前測(cè)試結(jié)果和之前的測(cè)試結(jié)果對(duì)網(wǎng)絡(luò)模型的參數(shù)進(jìn)行調(diào)整。
本文的基線網(wǎng)絡(luò)PackNet 利用深度估計(jì)網(wǎng)絡(luò)來(lái)估計(jì)目標(biāo)圖像逐像素點(diǎn)的深度信息,采用姿態(tài)網(wǎng)絡(luò)估計(jì)相機(jī)旋轉(zhuǎn)和平移的分量,通過(guò)變換關(guān)系建立自監(jiān)督關(guān)系,從而實(shí)現(xiàn)訓(xùn)練與收斂。相比之前的自監(jiān)督單目深度估計(jì)算法,基線算法具有較優(yōu)的性能。
在數(shù)據(jù)集DDAD 上不同算法的評(píng)價(jià)指標(biāo)對(duì)比如表1 所示,加粗表示最優(yōu)數(shù)據(jù)。從表1 可以看出:本文算法的評(píng)估指標(biāo)優(yōu)于現(xiàn)有算法的評(píng)估指標(biāo)。
表1 在數(shù)據(jù)集DDAD 上不同算法的評(píng)價(jià)指標(biāo)對(duì)比 Table 1 Evaluation indicators comparison among different algorithms on dataset DDAD
在數(shù)據(jù)集KITTI 上不同算法的評(píng)價(jià)指標(biāo)對(duì)比如表2 所示,M 表示使用單目圖像,M+v 表示附加速度的弱監(jiān)督模式,K 表示在數(shù)據(jù)集KITTI 上進(jìn)行訓(xùn)練,CS+K 表示使用CityScapes 和KITTI 數(shù)據(jù)集進(jìn)行訓(xùn)練。從表2 可以看出:本文算法的平均相對(duì)誤差明顯優(yōu)于對(duì)比算法。
表2 在數(shù)據(jù)集KITTI 上不同算法的評(píng)價(jià)指標(biāo)對(duì)比 Table 2 Evaluation indicators comparison among different algorithms on dataset KITTI
圖6 所示為在KITTI 數(shù)據(jù)集上不同算法的可視化結(jié)果對(duì)比。從圖6 可以看出:本文算法能夠捕捉更加清晰的結(jié)構(gòu),改善相鄰深度邊緣細(xì)節(jié)模糊的問(wèn)題,有效地解決場(chǎng)景對(duì)象缺失的問(wèn)題。本文所提的自監(jiān)督單目深度估計(jì)算法預(yù)測(cè)的深度圖具有更加完整的場(chǎng)景對(duì)象輪廓和精確的深度信息。
圖6 不同算法的深度預(yù)測(cè)結(jié)果對(duì)比Fig.6 Depth prediction results comparison among different algorithm
本文所提的場(chǎng)景對(duì)象注意機(jī)制通過(guò)計(jì)算非連續(xù)位置的相似特征向量,利用相似特征向量增強(qiáng)場(chǎng)景中對(duì)象之間的相關(guān)性,以有效解決場(chǎng)景對(duì)象缺失的問(wèn)題。場(chǎng)景對(duì)象注意機(jī)制對(duì)預(yù)測(cè)結(jié)果的影響如圖7所示。
圖7 場(chǎng)景對(duì)象注意機(jī)制對(duì)預(yù)測(cè)結(jié)果的影響Fig.7 Influence of scene object attention mechanism on prediction results
以第一行的三幅圖為例,在文獻(xiàn)[7]算法預(yù)測(cè)結(jié)果中第三幅圖像缺失了路邊的路標(biāo),而本文算法預(yù)測(cè)的深度圖能夠清晰展現(xiàn)出路標(biāo)。此外,相比文獻(xiàn)[7]算法,本文算法在第三行的第一幅圖中預(yù)測(cè)的廣告牌形狀更符合原圖廣告牌的形狀。
加入和未加入速度的弱監(jiān)督模式下的消融實(shí)驗(yàn)結(jié)果分別如表3 和表4 所示。從表3 和表4 可以看出:場(chǎng)景對(duì)象注意機(jī)制和加權(quán)深度圖融合模塊能有效改進(jìn)現(xiàn)有深度估計(jì)網(wǎng)絡(luò)的預(yù)測(cè)性能。加權(quán)深度圖融合模塊的加入對(duì)模型的預(yù)測(cè)性能有所改善,但場(chǎng)景對(duì)象注意機(jī)制的加入對(duì)模型性能的改進(jìn)效果更加明顯。
表3 加入速度的弱監(jiān)督模式下消融實(shí)驗(yàn)結(jié)果 Table 3 Results of ablation experiment under weak supervision mode with speed
表4 弱監(jiān)督模式下消融實(shí)驗(yàn)結(jié)果 Table 4 Results of ablation experiment under weak supervision mode
為對(duì)比不同網(wǎng)絡(luò)模型的細(xì)節(jié)信息保留能力,本文設(shè)計(jì)3 組圖像重建實(shí)驗(yàn):第1 組是由最大池化和雙線性上采樣構(gòu)成的網(wǎng)絡(luò)模型;第2 組是由編碼塊和解碼塊組成的網(wǎng)絡(luò)模型;第3 組是由編碼塊和解碼塊結(jié)合場(chǎng)景對(duì)象注意網(wǎng)絡(luò)結(jié)構(gòu)組成的模型。3 組實(shí)驗(yàn)的損失函數(shù)均采用L1 損失函數(shù)。第1~3 組網(wǎng)絡(luò)的圖像重建結(jié)果如圖8~圖10 所示。
圖8 最大池化與雙線性上采樣構(gòu)成網(wǎng)絡(luò)模型的重建結(jié)果Fig.8 Reconstruction results of the network model composed of maximized pooling and bilinear upsampling
圖9 編碼塊與解碼塊構(gòu)成網(wǎng)絡(luò)模型的重建結(jié)果Fig.9 Reconstruction results of network model composed of encoding block and decoding block
圖10 編碼塊與解碼塊結(jié)合場(chǎng)景對(duì)象注意結(jié)構(gòu)的重建結(jié)果Fig.10 Reconstruction results of encoding block and decoding block combining scene object attention structure
第1 組實(shí)驗(yàn)最終的損失值為0.040 8。第2 組網(wǎng)絡(luò)模型的最終圖像重建損失值為0.006 9,第3 組實(shí)驗(yàn)的圖像重建損失值為0.006 1。
在模型訓(xùn)練過(guò)程中,本文所提模型的損失函數(shù)值在訓(xùn)練迭代次數(shù)中會(huì)逐漸減小至穩(wěn)定值,未出現(xiàn)損失函數(shù)不下降或劇烈抖動(dòng)的現(xiàn)象。因此,本文所提模型具有較優(yōu)的收斂性。
為對(duì)比模型的執(zhí)行效率,本文對(duì)不同網(wǎng)絡(luò)的測(cè)試時(shí)間和預(yù)測(cè)性能進(jìn)行對(duì)比,預(yù)測(cè)性能指標(biāo)選取均方根誤差(RMSE)。在KITTI 數(shù)據(jù)集上不同網(wǎng)絡(luò)的測(cè)試時(shí)間與均方根誤差的對(duì)比如圖11 所示。從圖11 可以看出:本文網(wǎng)絡(luò)的計(jì)算時(shí)間遠(yuǎn)低于文獻(xiàn)[6,28]網(wǎng)絡(luò),雖然本文網(wǎng)絡(luò)單張圖像的測(cè)試時(shí)間略高于文獻(xiàn)[7]網(wǎng)絡(luò),但是本文網(wǎng)絡(luò)的均方根誤差最小,且遠(yuǎn)小于其他網(wǎng)絡(luò)的均方根誤差。因此,基于場(chǎng)景對(duì)象注意機(jī)制和加權(quán)深度圖融合的深度估計(jì)模型具有更高的執(zhí)行效率。
圖11 不同網(wǎng)絡(luò)的測(cè)試時(shí)間與均方根誤差對(duì)比Fig.11 Test time and root mean square error comparison among different networks
本文提出一種基于場(chǎng)景對(duì)象注意機(jī)制與深度圖融合的深度估計(jì)算法。利用場(chǎng)景對(duì)象注意機(jī)制來(lái)增強(qiáng)圖像、深度和場(chǎng)景語(yǔ)義之間的相關(guān)性,增強(qiáng)上下文信息與屬于同一對(duì)象的像素相關(guān)性。通過(guò)相似深度區(qū)域的上下文信息來(lái)指導(dǎo)自監(jiān)督單目深度估計(jì)網(wǎng)絡(luò)中的幾何表示學(xué)習(xí),解決場(chǎng)景對(duì)象缺失的問(wèn)題。此外,本文提出加權(quán)深度圖融合模塊,有助于網(wǎng)絡(luò)預(yù)測(cè)包含豐富目標(biāo)信息的深度圖。在KITTI 和DDAD 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,相比Monodepth2 和PackNet-SfM 算法,本文算法的絕對(duì)相對(duì)誤差和平均相對(duì)誤差均較低。后續(xù)將通過(guò)增強(qiáng)語(yǔ)義信息來(lái)提高預(yù)測(cè)精度,在保證預(yù)測(cè)精度的前提下,減少網(wǎng)絡(luò)模型的參數(shù)和縮短模型的訓(xùn)練時(shí)間。