任克宇 仝明磊
(上海電力大學(xué)電子與信息工程學(xué)院 上海 201306)
近年來,深度圖像估計精準(zhǔn)度大幅度提高,使得其在機器人導(dǎo)航、自動駕駛、3D重建任務(wù)中的作用變得舉足輕重。圖像是立體場景的投影映射,投影只是獲取了平面信息。通過相機或者合成圖像獲取場景中的立體相對深度信息,即為深度預(yù)測。雙目相機可以利用匹配視差幾何的方法求解深度,但是容易受到場景、攝像機矯正系數(shù)、幾何約束條件的影響,為了克服這些局限性,人們越來越關(guān)注單目圖像的深度預(yù)測。
人們使用相機可直接獲取真實場景的圖像,但圖像是立體場景的投影映射,即只是獲取了該場景的平面信息。深度預(yù)測卻可以從圖像中獲取場景中的立體信息,以滿足信息的需求,其從本質(zhì)上是一個模棱兩可的偽科學(xué)問題。在利用神經(jīng)網(wǎng)絡(luò)進行單目深度估計的領(lǐng)域中,最為經(jīng)典的是:Eigen等[1-2]使用深層網(wǎng)絡(luò)堆棧來解析單個圖形與深度關(guān)系,進行全局粗略預(yù)測和本地細化預(yù)測,實現(xiàn)了無須超像素化即可匹配詳細的深度邊界,證明了單目深度估計的可實現(xiàn)性。Liu等[3]結(jié)合CRF隨機場,根據(jù)深度值的區(qū)域連續(xù)性特點,提出了深度卷積神經(jīng)場模型,可以有效解決預(yù)測深度的映射問題。Kuznietsov等[4]則提出一種半監(jiān)督單目圖像深度估計的方法,使用稀疏的真實深度監(jiān)督神經(jīng)網(wǎng)絡(luò)。
上述方法都是從網(wǎng)絡(luò)結(jié)構(gòu)層次對深度估值進行分析,通過使用不同的方法提高深度估計圖的準(zhǔn)確性。從單一的場景圖片得出深度信息圖,在物體遮擋以及不同深度區(qū)域邊界的問題上未表現(xiàn)出良好的估計效果,同時將本身深度值的不平衡數(shù)據(jù)歸一化處理后,不能有效地預(yù)測相鄰像素深度的落差。近年深度學(xué)習(xí)領(lǐng)域涌現(xiàn)出融合多任務(wù)的聯(lián)合框架,利用多任務(wù)之間的強相關(guān)性和一致性,對深度圖進行預(yù)測優(yōu)化,增加更多的細粒度特征。例如,Zhou等[5]提出了以無標(biāo)記的單目圖像序列作為訓(xùn)練集,采用無監(jiān)督的方式訓(xùn)練并進行單目深度估計的方法,使用深度估計網(wǎng)絡(luò)和相機位姿網(wǎng)絡(luò)對訓(xùn)練集進行訓(xùn)練。將深度網(wǎng)絡(luò)估計出的深度信息與相機位姿網(wǎng)絡(luò)結(jié)合,通過最小化損失函數(shù)使網(wǎng)絡(luò)收斂。Zou等[6]提出單目深度估計與光流預(yù)測的聯(lián)合網(wǎng)絡(luò),利用視頻流前后幀圖片變化進行光流預(yù)測和深度預(yù)測,保證光流和深度的共同有效區(qū)域盡可能一致,作為主要約束條件來進行訓(xùn)練。Jiao等[7]結(jié)合語義信息和注意力驅(qū)動損失,設(shè)計協(xié)同估計網(wǎng)絡(luò)和橫向共享單元,來優(yōu)化網(wǎng)絡(luò)對不同深度值區(qū)域的預(yù)測效果。這些方法從多角度出發(fā),設(shè)計深層融合網(wǎng)絡(luò),有效地減少邊界模糊問題,提升了全局輪廓性和深度估計細化特征,但存在復(fù)雜程度高、計算成本大等問題。
綜上所述,本文考慮從減少邊界模糊、提高細化特征和降低參數(shù)量兩個方面出發(fā),提出一種融合全景分割[8]與深度圖估計的深度學(xué)習(xí)模型。主要貢獻如下:(1) 提出一種網(wǎng)絡(luò)架構(gòu),使用MobileNet-v2作為輕量型編碼器,將MobileNetv2[9]與殘差網(wǎng)絡(luò)[10]融合降低參數(shù),提高計算效率。(2) 解碼端提出融合全景分割和深度估計的多任務(wù)知識共享策略,設(shè)計一種多任務(wù)融合模塊,包括多尺度映射單元和子任務(wù)融合模塊,多尺度映射單元分解不同感受野的特征圖。子任務(wù)融合模塊融合兩種任務(wù)多重感受野信息,進行融合處理。促進深度估計對全景分割信息的吸收,在提高準(zhǔn)確度的同時,也降低了模型參數(shù)。(3) 使用公開數(shù)據(jù)集NYUdepth[11]數(shù)據(jù)集來訓(xùn)練和測試本文方法,并從編碼端、解碼端和邊界效果分析等方面進行充足的實驗,來驗證本文模型的輕量性和準(zhǔn)確性。實驗表明本文方法可有效降低物體邊界深度的誤差。
本節(jié)構(gòu)建了深度網(wǎng)絡(luò)模型,提出參數(shù)共享和子任務(wù)網(wǎng)絡(luò)層融合策略,并設(shè)計多任務(wù)損失函數(shù)。設(shè)計的網(wǎng)絡(luò)架構(gòu)主要為編碼器-解碼器結(jié)構(gòu),模型由三部分組成,包括用于提取特征的共享主干編碼器網(wǎng)絡(luò)和子任務(wù)融合網(wǎng)絡(luò),以及分別用于全景分割和深度圖提取的兩個單任務(wù)分支網(wǎng)絡(luò)。此外,設(shè)計兩個跳躍連接層[8],分別將編碼器不同層次特征信息與解碼器的對應(yīng)上采樣層融合,以提高對原始圖片在不同深度層時紋理信息的理解。考慮到圖像場景邊緣信息在特征圖下采樣過程中容易丟失,設(shè)計兩任務(wù)之間參數(shù)共享策略優(yōu)化,即兩個多任務(wù)網(wǎng)絡(luò)融合模塊M1和M2,其網(wǎng)絡(luò)架構(gòu)如圖1所示。最終結(jié)果輸出的深度圖和全景分割圖進行反向傳播。
圖1 多任務(wù)單目深度估計網(wǎng)絡(luò)模型框架
如圖1所示,編碼器結(jié)構(gòu)將網(wǎng)絡(luò)輸入分辨率為224×224的低維RGB圖片編碼為分別率為7×7的高維特征信息圖,將3通道數(shù)輸入提取為1 024通道數(shù)的輸出端。提取抽象高級語義信息的過程已被大量的研究學(xué)者深入研究,例如VGG-16、VGG19[12]、ResNet50和ResNet101[13]等經(jīng)典熱門編碼器網(wǎng)絡(luò)結(jié)構(gòu),特征信息提取較為完整,普遍存在復(fù)雜度高、計算延遲等問題。本文經(jīng)過實驗嘗試了不同的編碼器網(wǎng)絡(luò)結(jié)構(gòu)模型,為了有效提高運算速度和降低延遲,最終選擇近年被提出的M-obileNet-v2[7]網(wǎng)絡(luò)結(jié)構(gòu),作為網(wǎng)絡(luò)首選編碼器。Mobil-eNet-v2的核心層改變傳統(tǒng)卷積為深度可分離卷積[14],該卷積方法可以分解為深度卷積核尺寸為1×1的逐點卷積組合。
根據(jù)圖2,傳統(tǒng)卷積核K包含了Dk×Dk×M×N的參數(shù),其中:Dk為卷積核大小;M為輸入圖片通道數(shù)N為卷積核個數(shù)。深度可分離卷積核K的參數(shù)為Dk×Dk×M,由此可看出相對于標(biāo)準(zhǔn)卷積來說,這種深度可分離卷積參數(shù)減少N倍,在計算上實現(xiàn)更高效的運行速度,在保證計算精度不變的基礎(chǔ)之上,通過改變卷積核數(shù)量大小來減少網(wǎng)絡(luò)的參數(shù)量和計算量。
(a) 標(biāo)準(zhǔn)卷積濾波器
編碼器網(wǎng)絡(luò)的每層都會逐漸降低圖片的空間分辨率,來獲取高級特征信息,而解碼是從低分辨率信息恢復(fù)高分辨率圖。圖1所示網(wǎng)絡(luò)框架中,在解碼器部分加入了跳躍連接操作[8],即編碼器的后層與解碼器的前層進行連接,將淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)進行疊加,提高了網(wǎng)絡(luò)對不同深層信息的融合。該解碼器網(wǎng)絡(luò)使用雙線性插值上采樣操作,解決在跳躍連接后,出現(xiàn)通道比例不一致的問題。
1.2.1硬參數(shù)共享
硬參數(shù)共享是多任務(wù)學(xué)習(xí)的常用模型,在多種任務(wù)之間具有強相關(guān)時,硬參數(shù)共享就更加適用。由于全景分割的目的是分割出不同的目標(biāo),深度圖預(yù)測在本質(zhì)上也是根據(jù)像素分割不同的深度信息,可以斷定全景分割和深度預(yù)測之前具有一定強相關(guān)性,因此兩種任務(wù)之間選擇使用參數(shù)硬共享策略,來有效地優(yōu)化多任務(wù)網(wǎng)絡(luò)學(xué)習(xí)。具體而言,多任務(wù)網(wǎng)絡(luò)將輸入RGB圖像經(jīng)過的編碼器網(wǎng)絡(luò)層與解碼器前四層上采樣網(wǎng)絡(luò)層作為權(quán)重共享層,共享特征提取信息,然后融合全景分割信息,將其一分為二,然后分別經(jīng)過相同結(jié)構(gòu)的任務(wù)特定網(wǎng)絡(luò)層,輸出深度預(yù)測圖和全景分割圖。
本文設(shè)計解碼器經(jīng)過四層卷積核大小為3×3的深度反卷積層Deconv1、Deconv2、Deconv3、Deconv4,每層卷積核總數(shù)為前一層輸出通道數(shù)的一半,最終將編碼端輸出的1 024通道的7×7特征圖轉(zhuǎn)為128通道的56×56特征圖,為了更好地融合全景分割的特征信息,該部分反卷積層采用硬共享參數(shù),共享方式如圖3所示,通過硬共享方式降低過擬合風(fēng)險,同時提高輔助網(wǎng)絡(luò)對主干網(wǎng)絡(luò)的優(yōu)化提升。在實驗中提出了分別共享不同層時對準(zhǔn)確率的影響。在其后,使用兩個反卷積層特定任務(wù)層來進行分支處理,其結(jié)構(gòu)與硬共享參數(shù)層一致。
圖3 解碼器多任務(wù)硬參數(shù)共享模型
1.2.2子任務(wù)網(wǎng)絡(luò)融合策略
基于文獻[15]提出的組交互層平滑擴張卷積和文獻[16]多任務(wù)同步精餾網(wǎng)絡(luò),本文構(gòu)造了如圖4所示的子任務(wù)網(wǎng)絡(luò)融合模塊。該模塊包含兩個單元:多尺度映射單元和多任務(wù)融合單元。
圖4 多任務(wù)子網(wǎng)絡(luò)融合模塊示意圖
(1) 多尺度映射單元。為了使網(wǎng)絡(luò)能夠全局感受不同尺度結(jié)構(gòu)信息,融合兩種網(wǎng)絡(luò)的多尺度特征信息,加入多尺度映射單元來有效地感知分層特征的信息提取。該單元通過應(yīng)用深度空洞卷積,獲得較大感受野的同時,也減少了網(wǎng)絡(luò)參數(shù)量。在分割類別網(wǎng)絡(luò)中,感受野的大小程度可絕對性地影響獲取的全局結(jié)構(gòu)信息質(zhì)量。多尺度映射單元旨在細化區(qū)分提取多個大小不同的感受野特征圖,分解經(jīng)過深度反卷積層后的輸出圖片。其單元具體方式為:將輸入經(jīng)過四個卷積核為3×3、擴張率分別為r=1,2,3,4的深度空洞卷積,分解為4個通道數(shù)縮減為原來二分之一的與輸入分辨率相同的不同尺度信息的特征圖,具體框架如圖4(a)和圖4(b)所示。
(2) 多任務(wù)融合單元。為了有效地融合深度估計主任務(wù)與全景分割輔助任務(wù)的特征信息,將兩任務(wù)經(jīng)過多尺度映射單元的輸出分組拼接,其拼接結(jié)果為分辨率不變、通道數(shù)為64且感受層次不同的F1、F2、F3和F4,如圖4(c)所示,將不同尺度下的兩任務(wù)輸入進行疊加融合,能夠更加有效地促進輔助任務(wù)中的信息與主干任務(wù)信息的融合效果。最后拼接F1、F2、F3和F4特征圖,經(jīng)過兩個卷積核為1×1的標(biāo)準(zhǔn)卷積,來調(diào)整輸出通道數(shù)。將兩任務(wù)拆分不同膨脹率空洞卷積,可以有效拆分不同感受野下的場景信息,進一步將融合兩任務(wù)不同膨脹率下的特征圖進行疊加,這樣既能夠有效地吸收場景分割邊緣的信息,融合場景分割特征信息要素,從而解決邊界模糊等問題,又能夠減輕空洞卷積帶來的網(wǎng)格效果。
多任務(wù)學(xué)習(xí)中需要融合各個任務(wù)的損失函數(shù)進行梯度反向傳播,以達到優(yōu)化權(quán)重的效果。Ma等[17]提出通過實驗驗證,L1范數(shù)損失在深度估計方面上具有更好的收斂效果,因此,選擇L1范數(shù)作為深度預(yù)測網(wǎng)絡(luò)損失函數(shù),如式(1)所示。
式中:ygt為標(biāo)定值;ypre為預(yù)測值。
L2范數(shù)為全景分割網(wǎng)絡(luò)損失函數(shù),如式(2)所示。
常用多任務(wù)損失都是對各項任務(wù)設(shè)置固定且不同權(quán)重比例進行求和。本文中為了防止輔助子任務(wù)占梯度下降的主導(dǎo)地位,進而影響主任務(wù)梯度下降方向,在多任務(wù)損失函數(shù)中,引入噪聲σ[18],并對各任務(wù)損失L(ω)進行正則化約束。多任務(wù)中每一個任務(wù)的改進損失函數(shù)為:
因此,設(shè)計多任務(wù)總損失函數(shù)L中兩項任務(wù)的損失分別為Ld和Lp,公式為:
首先采用1.1節(jié)所述的深度估計網(wǎng)絡(luò)模型對數(shù)據(jù)集進行深度訓(xùn)練,并對結(jié)果進行分析,同時,闡述對NYUdepth-v2數(shù)據(jù)集中缺少全景分割樣本的相關(guān)設(shè)計方法和處理決策,然后針對其實驗結(jié)果進行消融實驗。
2.1.1數(shù)據(jù)集及數(shù)據(jù)處理
本次實驗選用的NYUdepth-v2數(shù)據(jù)集作為訓(xùn)練和測試的數(shù)據(jù)集,包含來自3個城市464個新場景的46 000幅圖片。其中:45 355幅圖片作為訓(xùn)練集;645幅圖片用于評估。每幅圖像的分辨率為640×480,在數(shù)據(jù)輸入處理時將分辨率改為224×224。
由于該數(shù)據(jù)集僅有2.8 GB的數(shù)據(jù)擁有分割標(biāo)簽,而其他大量的數(shù)據(jù)并沒有全景分割標(biāo)簽。因此本文借用Detectron2[19]開源項目中以Mask R-CNN[20]為基低,構(gòu)建全景分割網(wǎng)絡(luò),將現(xiàn)有的已標(biāo)注全景分割標(biāo)簽的NYU數(shù)據(jù)進行預(yù)訓(xùn)練,以適應(yīng)本文多任務(wù)網(wǎng)絡(luò)需要使用的全景分割標(biāo)簽數(shù)據(jù)集。
此外,隨機對訓(xùn)練樣本進行平面內(nèi)旋轉(zhuǎn)([-5°,+5°])、色彩抖動(對圖像原有像素值加入輕微噪聲)、翻轉(zhuǎn)(顏色深度分割圖同時進行50%概率翻轉(zhuǎn))等操作,以達到數(shù)據(jù)擴充[21]的目的。
2.1.2評價指標(biāo)
為了評價所提出的深度估計方法的有效性,選擇目前主流的4種定量評價指標(biāo),即絕對相對誤差(AbsRel)、均方根誤差(RMS)、常用對數(shù)誤差(lg)和閾值誤差(δ),表達式分別為:
式中:N為像素總數(shù);ypred為第i個像素的估計深度;ygt為第i個像素的對應(yīng)真實深度。
2.1.3實驗環(huán)境
本文使用PyTorch 1.0框架,在GPU內(nèi)存為24 GB的NVIDIA Tesla M40計算機上進行實驗,設(shè)置初始學(xué)習(xí)率為0.001,固定數(shù)據(jù)迭代20次,保持批量大小batchsize為8,最終訓(xùn)練時間為32 h。
如表1所示,本文將提出的單目深度估計方法與近年來其他深度學(xué)習(xí)單目深度估計方法在NYUdepth-v2數(shù)據(jù)集上進行對比。其中文獻[5]、文獻[3]、文獻[1]和本文方法使用卷積神經(jīng)網(wǎng)絡(luò)預(yù)測深度信息;Xu等[22]通過CRF優(yōu)化網(wǎng)絡(luò)模型;Laina等[23]在解碼端采用新型上采樣方法優(yōu)化效果;Wofk等[24]提出上投影連接進行優(yōu)化。對比上述所提網(wǎng)絡(luò)的結(jié)果表明,在誤差RMS指標(biāo)上低于Diana等提出的快速深度估計網(wǎng)絡(luò)7.2%,在準(zhǔn)確率δ1<1.25的指標(biāo)上高于其5.4%,與Xu等提出的結(jié)構(gòu)注意力引導(dǎo)網(wǎng)絡(luò)比較提高0.007。綜上,本文方法在各項指標(biāo)中都達到了較優(yōu)性能。
表1 與其他算法對比
將本文方法與文獻[23]和文獻[25]方法參數(shù)進行對比,由表2可以看出,從參數(shù)上較文獻[23]相比,參數(shù)量減少42.7%,在結(jié)果上RMS提升了2.2%,準(zhǔn)確率δ1<1.25的指標(biāo)上高出0.002結(jié)合表1、表2可以看出,本文方法與文獻[23]相比具有更低的網(wǎng)絡(luò)參數(shù)量,準(zhǔn)確率也較優(yōu)于其網(wǎng)絡(luò)結(jié)構(gòu);與文獻[24]的方法相比,本文模型參數(shù)多19.7%。文獻[24]的方法使用SOT的算法NetAdapt對網(wǎng)絡(luò)模型進行網(wǎng)絡(luò)剪枝壓縮,提高運算效率。但從評價指標(biāo)上,本文方法的RMS和δ1<1.25分別降低7.2%和提高5.4%,在增加6 MB的參數(shù)量為代價的情況下大幅度提高準(zhǔn)確率,以滿足更廣范圍的適用需求。
表2 不同算法參數(shù)對比
在計算效率上本文方法與其他方法進行對比,結(jié)果如圖5所示,其中橫軸代表δ1<1.25(閾值誤差),縱軸為測試集測試單幅圖片時的處理時間,分別用不同顏色不同符號代表不同的模型方法。本文方法較其他方法相比,δ1<1.25均為最優(yōu)結(jié)果的同時,在計算效率上比文獻[22]方法提升47.5%,與文獻[23]方法相比,計算性能提升37%。綜上,本文提出的融合全景分割的單目深度估計網(wǎng)絡(luò)在評價指標(biāo)和網(wǎng)絡(luò)參數(shù)規(guī)模上都具有相應(yīng)的優(yōu)勢。
圖5 不同算法計算效率對比
本節(jié)主要從網(wǎng)絡(luò)編碼器端主干網(wǎng)絡(luò)分別使用不同網(wǎng)絡(luò)的輸出結(jié)果和參數(shù)規(guī)模;將預(yù)訓(xùn)練后的MobileNetv2模型作為編碼器主干網(wǎng)絡(luò),解碼器端不同子任務(wù)融合模塊對結(jié)果的影響;最后采用不同策略的可視化分析進行對比實驗。
2.3.1編碼器網(wǎng)絡(luò)實驗
本文編碼器主干特征提取網(wǎng)絡(luò)嘗試了VGG16、ResNet18、ResNet34、ResNet50和本文選用的MobileNetv2網(wǎng)絡(luò)模型,并且選用其在ImageNet[25]上預(yù)訓(xùn)練后的模型參數(shù)進行實驗。具體實驗結(jié)果如表3所示,為適應(yīng)不同的網(wǎng)絡(luò)模型能夠匹配解碼器網(wǎng)絡(luò),在結(jié)構(gòu)上作部分的結(jié)構(gòu)調(diào)整,主要去掉這些預(yù)訓(xùn)練網(wǎng)絡(luò)模型的分類層,以及相應(yīng)保持圖片尺寸大小一致的網(wǎng)絡(luò)層操作。同時,除編碼器端主干網(wǎng)絡(luò)外,其他網(wǎng)絡(luò)結(jié)構(gòu)與圖1保持一致。
表3 不同編碼器網(wǎng)絡(luò)對比
對比不同編碼器結(jié)構(gòu)網(wǎng)絡(luò)實驗,結(jié)果表明,用MobileNetv2作為編碼端主干網(wǎng)絡(luò)模型在各項指標(biāo)較優(yōu),在網(wǎng)絡(luò)模型總體參數(shù)量大幅度明顯減少,分別比VGG16、ResNet18、ResNet34、ResNet50低78.4%、30.9%、40.6%、47.0%。同時,在rel、精確率δ1、δ2、δ3都達到了最優(yōu)指標(biāo)。
2.3.2解碼器網(wǎng)絡(luò)實驗
針對解碼器網(wǎng)絡(luò),本文結(jié)合全景分割領(lǐng)域,提出深度估計和全景分割的子任務(wù)網(wǎng)絡(luò)融合模塊,促進多任務(wù)數(shù)據(jù)融合,以提高主干網(wǎng)絡(luò)的學(xué)習(xí)效果。本節(jié)從輔助任務(wù)和子任務(wù)融合模塊兩個方面進行實驗以驗證提出的兩種策略的必要性和提升效果。如表4所示,(1) 為不加入全景分割輔助任務(wù),單任務(wù)端到端直接輸出深度預(yù)測圖;(2) 結(jié)合全景分割,加入硬共享參數(shù),加入編解結(jié)構(gòu)跳躍連接共享方式調(diào)整網(wǎng)絡(luò)結(jié)構(gòu);(3) 為在(1)和(2)所提結(jié)構(gòu)后,加入一個子任務(wù)融合模塊,包括兩個尺度映射單元和一個多任務(wù)融合單元;(4) 為結(jié)合(3)中所提改變,再加入一個子任務(wù)融合模塊,即本文最終所選方案。
表4 不同解碼端策略對比
可以看出解碼器端結(jié)合全景分割方法能有效優(yōu)化深度估計性能,方法(2)較方法(1)有明顯提升,誤差降低率分別為3.9%、8.4%、1.31%;在δ1<1.25準(zhǔn)確率指標(biāo)上提升2.8%。當(dāng)加入了本文提出的子任務(wù)融合模塊時,性能進一步提升,具體如表4中方法(3)所示。方法(4)中加入兩個子任務(wù)融合模塊后進一步提升效果,其中rms提升幅度較大約1.9%。綜上分析,本文所提出的多任務(wù)結(jié)合全景分割輔助深度估計策略和融合子任務(wù)模塊能夠有效地提升網(wǎng)絡(luò)精度。
2.3.3邊界深度效果分析
選擇使用2.3.2節(jié)中提出的方法(1)和方法(4)來分析其圖片中對物體邊緣深度估計情況,即為不加入全景分割輔助網(wǎng)絡(luò)模型和本文提出的最終網(wǎng)絡(luò)模型,結(jié)果如圖6所示。對比隨機抽取的5幅圖片,分析結(jié)果如下:在未加入全景分割輔助網(wǎng)絡(luò)時,場景A中近景的椅子僅顯示出來椅子的模糊深度,并沒有顯現(xiàn)出輪廓外形;在場景B中,深度連續(xù)性沒有很好地體現(xiàn)出來;在場景D中,沙發(fā)的邊界處產(chǎn)生了大量的偽影,沒有體現(xiàn)出不同遮擋物體之間的深度落差。
圖6 深度圖預(yù)測對比結(jié)果
當(dāng)加入全景分割輔助任務(wù)和提出的參數(shù)共享和子任務(wù)融合模塊后,場景圖C中在邊界處的模糊像素明顯減少,在不同遮擋物體之間深度差距較為明顯,物體的輪廓也逐漸清晰。從場景圖E中,同樣可以明顯看出在圖片存在深度差較大的部分,深度畫面邊界分割更加細致。
最終結(jié)合所提出的網(wǎng)絡(luò)結(jié)構(gòu),融合全景分割輔助任務(wù)以及子任務(wù)融合模塊,效果進一步提升,在圖片無遮擋物體上的邊緣細節(jié)體現(xiàn)更加突出,在遮擋物體之間的深度落差上明顯提高。尤其可以從圖D及圖E上看出,網(wǎng)絡(luò)在分割輔助策略的基礎(chǔ)上加入?yún)?shù)共享策略后,物體的分割效果顯著提高,邊界深度落差體現(xiàn)明顯,紋理突出。
根據(jù)單目深度估計中在物體遮擋情況時難以有效地估計邊界深度等問題,提出一種優(yōu)化方法:在網(wǎng)絡(luò)結(jié)構(gòu)中,選擇使用MobileNetv2作為編碼器,著重在解碼器上加入全景分割多任務(wù)學(xué)習(xí)、硬參數(shù)共享策略,以及多任務(wù)之間提出的子任務(wù)參數(shù)融合策略,即子任務(wù)融合模塊。本文方法主要解決了因物體邊界深度估計不準(zhǔn)確而產(chǎn)生的邊界連續(xù)和模糊的問題,并且使深度估計的結(jié)果更加清晰,邊界模糊問題有所減弱。同時,在保證精度的情況下,減少參數(shù)量,以適應(yīng)更廣泛的應(yīng)用場景。最后,在NYUdepth-v2數(shù)據(jù)集上驗證了本文優(yōu)化方法的可行性,并且與目前單目深度估計優(yōu)化算法相比,結(jié)果較好。