• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    語(yǔ)義導(dǎo)向多尺度多視圖深度估計(jì)算法

    2022-01-25 18:55:08贠璟揚(yáng)李學(xué)華
    關(guān)鍵詞:視圖尺度語(yǔ)義

    贠璟揚(yáng),李學(xué)華,向 維

    1.北京信息科技大學(xué) 信息與通信工程學(xué)院,北京 100101

    2.詹姆斯庫(kù)克大學(xué) 科學(xué)與工程學(xué)院,昆士蘭 凱恩斯 4878

    作為計(jì)算機(jī)視覺(jué)中的重要任務(wù)之一,圖像物體深度信息的獲取具有重要意義,并可被應(yīng)用在自動(dòng)駕駛、導(dǎo)航和三維重建等領(lǐng)域。相比利用深度傳感器和激光,從圖片中依據(jù)光度一致性原則進(jìn)行匹配并獲取深度信息的方法,因其高時(shí)效和對(duì)硬件消耗的低需求從而獲得了人們的青睞。其中,光度一致性約束是人們常常應(yīng)用在圖片深度估計(jì)中的重要幾何約束之一。在傳統(tǒng)的立體匹配中,半全局匹配法(semi-global method,SGM)[1]和局部匹配法[2]通過(guò)滑動(dòng)窗口和光度一致性約束,找到最佳匹配視差從而得到物體的深度信息。更進(jìn)一步,研究人員將雙目立體匹配遷移到多視圖深度估計(jì)中,比如:通過(guò)平面掃描法(plane-sweep algorithm)[3-4]和PatchMatch[5]對(duì)任意視角照片進(jìn)行深度信息的獲取,不僅可以解決相機(jī)位置不固定情況下的視角匹配問(wèn)題并且能夠被有效地用于目標(biāo)物體的三維重建。

    然而,傳統(tǒng)的深度估計(jì)方法無(wú)法解決遮擋區(qū)域的匹配問(wèn)題,對(duì)物體邊界或紋理較弱的地方不敏感,同時(shí)易受光照強(qiáng)度等外界因素的影響,無(wú)法獲得高質(zhì)量的深度圖片。與此同時(shí),深度學(xué)習(xí)在很多計(jì)算機(jī)領(lǐng)域取得了重大成就并遠(yuǎn)超傳統(tǒng)算法,比如:圖片分類(lèi)[6]、語(yǔ)義分割[7]和目標(biāo)檢測(cè)[8]等。通過(guò)不斷地迭代學(xué)習(xí)和優(yōu)化,神經(jīng)網(wǎng)絡(luò)能夠利用提取特征中的抽象語(yǔ)義信息來(lái)解決傳統(tǒng)方法無(wú)法處理的問(wèn)題。因此,研究人員開(kāi)始利用卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖片中的物體進(jìn)行深度信息的預(yù)測(cè)。對(duì)于多視圖深度估計(jì),利用人工設(shè)計(jì)的權(quán)重共享的特征提取層,對(duì)輸入的參考圖片(reference image)和目標(biāo)圖片序列(target images)進(jìn)行語(yǔ)義信息挖掘并構(gòu)建基于光度一致性原則的匹配網(wǎng)絡(luò),采用監(jiān)督學(xué)習(xí)的方式對(duì)其進(jìn)行深度值的回歸預(yù)測(cè)。早期的研究者[9-10]基于2D卷積神經(jīng)網(wǎng)絡(luò),利用提取的圖片特征圖進(jìn)行逐像素匹配,取得了比傳統(tǒng)方法更高的預(yù)測(cè)精度。然而,由于其網(wǎng)絡(luò)未采用端到端的結(jié)構(gòu),因此網(wǎng)絡(luò)的性能受到了極大的限制。同時(shí),人們發(fā)現(xiàn)利用平面掃描法[3]來(lái)構(gòu)建深度匹配空間CostVolume更高效,比如MVSNet[11]和DPSNet[12],通過(guò)端到端的3D卷積網(wǎng)絡(luò)進(jìn)行訓(xùn)練。相比于前兩者,能達(dá)到更高的預(yù)測(cè)精度。但另一方面,由于構(gòu)建的Cost-Volume(與傳統(tǒng)的Disparity Space Image[13]相似)是一個(gè)五維的空間匹配張量(B×CH×W×H×D,其中B代表batch size,CH代表特征通道數(shù),W代表寬度,H代表高度,D代表深度平面數(shù)),因此需要采用3D卷積進(jìn)行運(yùn)算,同時(shí)也需要更多的硬件資源和更久訓(xùn)練時(shí)間,一定程度上限定了網(wǎng)絡(luò)模型的泛華。因此,如何設(shè)計(jì)一個(gè)高精度的輕量型網(wǎng)絡(luò)對(duì)于基于深度學(xué)習(xí)的多視圖深度估計(jì)具有重要研究意義。

    在本文中,提出了一個(gè)新穎的端到端網(wǎng)絡(luò)模型用于多視圖深度估計(jì),語(yǔ)義導(dǎo)向多尺度多視圖深度估計(jì)模型(smantic-guidance multic-scale neural network for multiview stereo,SMSNet)。對(duì)比現(xiàn)今state-of-art方法,本文模型可以達(dá)到更高的精度,同時(shí)減少了基于3D卷積的硬件消耗。為了有效提升網(wǎng)絡(luò)特征提取層對(duì)于物體邊界和紋理較弱區(qū)域的有效響應(yīng),利用了層級(jí)SPP(spatial pyramid pooling)[14]模塊對(duì)多尺度圖片特征信息進(jìn)行聚合。同時(shí),設(shè)計(jì)了語(yǔ)義導(dǎo)向模塊對(duì)構(gòu)建的多尺度CostVolume進(jìn)行語(yǔ)義優(yōu)化約束,引入更多的全局信息來(lái)增強(qiáng)網(wǎng)絡(luò)的魯棒性能。另外,設(shè)計(jì)了一個(gè)多尺度CostVolume的自適應(yīng)融合模塊來(lái)充分利用CostVolume訓(xùn)練過(guò)程中的多尺度上下文信息。

    綜上,本文的主要貢獻(xiàn)點(diǎn)有:

    (1)一個(gè)新穎的基于3D卷積的輕量型端到端多視圖深度估計(jì)網(wǎng)絡(luò)。

    (2)一個(gè)基于語(yǔ)義信息的多尺度CostVolume正則化結(jié)構(gòu)。利用提取特征中的語(yǔ)義信息作為鄰域約束,本文的語(yǔ)義導(dǎo)向結(jié)構(gòu)能夠有效地處理遮擋、物體邊緣和紋理較弱等區(qū)域。

    (3)自適應(yīng)的多尺度融合策略,可以更有效地利用多尺度上下文信息,改善CostVolume中的深度概率信息分布,達(dá)到更好的預(yù)測(cè)精度。

    1 相關(guān)工作

    現(xiàn)今,隨著深度學(xué)習(xí)的興起,各種各樣的網(wǎng)絡(luò)模型被用于單目(monocular)、雙目(binocular或stereo)和多視圖(multi-view stereo)深度估計(jì)中。本章首先將簡(jiǎn)要介紹基于深度學(xué)習(xí)的單目深度估計(jì),著重說(shuō)明端到端的雙目及多視圖深度估計(jì)網(wǎng)絡(luò)架構(gòu)組成和多尺度信息Cross-Scale融合網(wǎng)絡(luò)結(jié)構(gòu)。

    1.1 基于深度學(xué)習(xí)的端到端深度估計(jì)網(wǎng)絡(luò)架構(gòu)

    1.1.1 單目深度估計(jì)

    由于無(wú)法通過(guò)光度一致性原則進(jìn)行匹配,傳統(tǒng)方法無(wú)法對(duì)單張圖片物體進(jìn)行深度估計(jì)。借助深度學(xué)習(xí)網(wǎng)絡(luò),Eigen等[15]首先提出了基于深度學(xué)習(xí)的單視圖深度估計(jì),解決了傳統(tǒng)方法和理論無(wú)法解決的單視圖深度估計(jì)問(wèn)題。但該網(wǎng)絡(luò)模型采用的是AlexNet架構(gòu),網(wǎng)絡(luò)深度較淺,提取的圖像特語(yǔ)義征信息不足,且其并非完整的端到端網(wǎng)絡(luò),同時(shí)輸出結(jié)果分辨率有一定程度的損失,因此網(wǎng)絡(luò)效果較差。隨后,Laina等[16]開(kāi)始采用更深的VGGNet作為輸入圖片的特征提取層,并針對(duì)提取特征進(jìn)行特定的信息處理以獲取準(zhǔn)確的深度信息,最后通過(guò)逆卷積或上采樣恢復(fù)到原始圖片分辨率大小。隨著卷積網(wǎng)絡(luò)的發(fā)展,人們逐漸采用全卷積網(wǎng)絡(luò)構(gòu)建單視圖深度估計(jì)網(wǎng)絡(luò)模型。比如,夏夢(mèng)琪等[17]采用全卷積編解碼網(wǎng)絡(luò)輸入稀疏深度樣本和RGB圖像并計(jì)算預(yù)測(cè)深度圖,可以有效地估計(jì)出原始圖片尺寸大小的深度圖,無(wú)需后續(xù)額外尺度恢復(fù)處理。劉香凝等[18]則在全卷機(jī)編解碼網(wǎng)絡(luò)的基礎(chǔ)上引入自注意力機(jī)制(self-attention),通過(guò)網(wǎng)絡(luò)自適應(yīng)權(quán)重學(xué)習(xí)提升預(yù)測(cè)精度。雖然通過(guò)卷積神經(jīng)網(wǎng)絡(luò)可以解決單視圖深度估計(jì)問(wèn)題,但是仍有一些問(wèn)題存在于該任務(wù)中。

    Dijk等[19]提出了一些關(guān)于單目深度估計(jì)中存在的問(wèn)題。由于缺乏幾何約束(比如光度一致性約束等),單目深度估計(jì)的網(wǎng)絡(luò)容易受到一些外界條件的影響。比如物體所在圖片的位置可以影響網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果,視角相機(jī)的旋轉(zhuǎn)角度也會(huì)對(duì)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果產(chǎn)生一定的影響。同時(shí),上述問(wèn)題在有限的訓(xùn)練數(shù)據(jù)量的前提下無(wú)法得到有效的解決,即使通過(guò)一定的數(shù)據(jù)增強(qiáng)方法也無(wú)法有效改善,使得單目深度估計(jì)網(wǎng)絡(luò)模型的泛華能力較為有限。因此,單目深度估計(jì)網(wǎng)絡(luò)更像是一種實(shí)驗(yàn)性質(zhì)的網(wǎng)絡(luò),還需要更多的理論基礎(chǔ)增加可行性,或是引入稀疏深度信息(激光、雷達(dá)等)作為先驗(yàn)信息。

    1.1.2 雙目及多視圖深度估計(jì)

    雙目立體匹配與多視圖深度估計(jì)相似,利用基線幾何信息約束進(jìn)行光度一致性匹配,通過(guò)構(gòu)建CostVolume從而尋求最佳匹配像素點(diǎn)來(lái)求解深度信息。與雙目立體匹配在水平基線尋求最佳匹配像素不同,多視圖深度估計(jì)采用了基于單應(yīng)性矩陣的平面掃描法[3]來(lái)構(gòu)建CostVolume,因此可以利用目標(biāo)圖像序列求解參考圖片的深度信息,增強(qiáng)了網(wǎng)絡(luò)模型的穩(wěn)定性并提高了預(yù)測(cè)精度,同時(shí)也解決了不同視角相機(jī)參數(shù)不同的問(wèn)題。

    隨著端到端的網(wǎng)絡(luò)架構(gòu)興起,雙目及多視圖深度估計(jì)網(wǎng)絡(luò)架構(gòu)主要由以下幾部分組成:輸入圖片特征提取、匹配CostVolume構(gòu)建、CostVolume正則化(優(yōu)化)、逐像素深度值計(jì)算和后優(yōu)化網(wǎng)絡(luò)。其中CostVolume的構(gòu)建和優(yōu)化則是雙目及多視圖深度估計(jì)的重中之重。相比于傳統(tǒng)的雙目立體匹配流程[20],基于深度學(xué)習(xí)的算法在原有基礎(chǔ)上做了一定的自適應(yīng)拓展,如:逐層次多尺度的特征提?。ㄒ话銓?duì)于輸入圖片序列采用權(quán)重共享策略)增加物體抽象語(yǔ)義信息感知,網(wǎng)絡(luò)的迭代優(yōu)化(利用Adam等梯度下降算法)等,使得算法模型能夠獲得更高的預(yù)測(cè)精度,并有效改善遮擋、紋理較弱等傳統(tǒng)方法無(wú)法得到較高預(yù)測(cè)精度的區(qū)域。其中,特征提取部分多采用訓(xùn)練好的ResNet網(wǎng)絡(luò)或其他相似網(wǎng)絡(luò)結(jié)構(gòu),利用深層次卷積充分提取圖片特征信息,同時(shí)可結(jié)合不同層級(jí)特征進(jìn)行融合。對(duì)于輸入的參考圖片(reference image)和目標(biāo)圖片(target image)或序列,一般設(shè)定特征層權(quán)重共享以便模型泛化;在經(jīng)過(guò)前端特征提取后,通常用參考圖片特征和目標(biāo)圖片(或序列)特征構(gòu)建深度匹配空間CostVolume,其原理與傳統(tǒng)方法中的視差空間圖像(disparity space image)[20]類(lèi)似。在基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型中,研究人員設(shè)計(jì)了不同的方法進(jìn)行CostVolume的構(gòu)建,使得網(wǎng)絡(luò)模型能夠進(jìn)行端到端的訓(xùn)練。早期Zbontar等[21]計(jì)算逐圖像塊之間的像素塊相似度從而計(jì)算最佳視差,但是需要先對(duì)圖像之間的像素塊進(jìn)行匹配,增加了網(wǎng)絡(luò)復(fù)雜性,降低了網(wǎng)絡(luò)性能。Mayer等[22]參考光流預(yù)測(cè)網(wǎng)絡(luò)FlowNet[23],設(shè)計(jì)了基于相關(guān)性計(jì)算的CostVolume構(gòu)建方法,將提取的圖片特征在不同視差空間上相乘計(jì)算相似度,并聚合不同視差上的相似性張量矩陣構(gòu)建CostVolume,通過(guò)網(wǎng)絡(luò)自身直接逐像素回歸深度值。與前者不同,GC-Net[24]采用了隱式的構(gòu)建方法,在視差范圍上通過(guò)拼接參考圖片和目標(biāo)圖片的特征來(lái)構(gòu)建CostVolume,因此最終的CostVolume由于多了視差維度需要采用3D卷積計(jì)算。同時(shí),GC-Net[24]設(shè)計(jì)了Soft-Argmin方法計(jì)算逐像素深度值,使得網(wǎng)絡(luò)能夠從離散的視差范圍回歸出連續(xù)的深度值。相比采用2D卷積的方法優(yōu)化CostVolume,3D卷積增加了網(wǎng)絡(luò)復(fù)雜度和計(jì)算量,但有效地提升了網(wǎng)絡(luò)預(yù)測(cè)精度。PSMNet[25]則在此基礎(chǔ)上通過(guò)多尺度的卷積網(wǎng)絡(luò)優(yōu)化達(dá)到了2018年的最佳預(yù)測(cè)結(jié)果。另一方面,由于構(gòu)建CostVolume時(shí)存在大量的稀疏編碼,因此初始的CostVolume存在著大量的噪聲,Poggi等[26]引入了稀疏的雷達(dá)圖作為先驗(yàn)深度信息來(lái)提升網(wǎng)絡(luò)精度。Zhang等[27]通過(guò)遷移傳統(tǒng)的半全局匹配SGM[2]思想,利用鄰域的信息約束降低噪聲,但是相應(yīng)的硬件需求則比PSMNet[25]提高了一倍。

    與雙目立體匹配類(lèi)似,多視圖立體匹配也采用類(lèi)似的CostVolume構(gòu)建方式,如MVSNet[11]采用顯示的相關(guān)計(jì)算量而DPSNet[12]則采用了GC-Net[24]的方式。但同樣,基于3DCNN的方法對(duì)于硬件需求大,比如:DPSNet需要至少4塊1 080ti顯卡才能運(yùn)行計(jì)算。因此,如何保證現(xiàn)有精度的前提下降低硬件運(yùn)算需求是現(xiàn)有研究的一個(gè)重點(diǎn)問(wèn)題。

    1.2 多尺度Cross-Scale結(jié)構(gòu)

    由參考圖片和目標(biāo)圖片(序列)構(gòu)建的CostVolume自身存在著大量的噪聲,因此需要通過(guò)算法進(jìn)行優(yōu)化。參考傳統(tǒng)方法和其他計(jì)算機(jī)視覺(jué)任務(wù),多尺度Cross-Scale能夠有效地利用多尺度上下文信息,提升網(wǎng)絡(luò)預(yù)測(cè)結(jié)果的魯棒性。比如,MVSNet[11]采用了3DU-Net結(jié)構(gòu)對(duì)CostVolume進(jìn)行正則化優(yōu)化。圖1給出了基礎(chǔ)的U-Net架構(gòu)示意圖。

    圖1 U-Net結(jié)構(gòu)圖Fig.1 U-Net structure chart

    PSMNet[25]則設(shè)計(jì)了更復(fù)雜的多尺度信息優(yōu)化模塊stacked Hourglass,通過(guò)不同尺度CostVolume的信息融合,減少噪聲的影響。與前兩者類(lèi)似,本文同樣采用了多尺度的網(wǎng)絡(luò)結(jié)構(gòu),并引入語(yǔ)義導(dǎo)向模塊和多尺度自適應(yīng)融合模塊增強(qiáng)網(wǎng)絡(luò)性能。

    2 網(wǎng)絡(luò)架構(gòu)

    本文提出的語(yǔ)義導(dǎo)向多視圖深度估計(jì)模型基于傳統(tǒng)的多視圖匹配和深度學(xué)習(xí)方法。本文網(wǎng)絡(luò)由5部分組成:特征提取、CostVolume構(gòu)建、CostVolume正則化、深度值計(jì)算和深度圖后優(yōu)化。本章首先簡(jiǎn)要介紹模型的前兩個(gè)組成部分,本文的重點(diǎn)貢獻(xiàn)放在第3章著重說(shuō)明。本文的網(wǎng)絡(luò)架構(gòu)如圖2所示。

    圖2 網(wǎng)絡(luò)架構(gòu)圖Fig.2 Architecture of SMSNet

    2.1 特征提取和CostVolume構(gòu)建

    對(duì)于輸入的參考圖片I0和目標(biāo)圖片序列,本文采用了權(quán)重共享的7層固定CNN來(lái)提取特征。為了更好地捕捉圖片細(xì)節(jié)信息,采用了SPP(spatial pyramid pooling)[14]模塊對(duì)提取的特征進(jìn)行多尺度池化感知。SPP最早被用于解決目標(biāo)檢測(cè)中多尺度圖片輸入問(wèn)題,隨后被PSMNet[25]用于提取特征的多尺度全局信息感知。在本文中,采用了4個(gè)固定大小的池化層(32×32,16×16,8×8,4×4),不同尺寸的池化層可以應(yīng)對(duì)不同大小的物體及細(xì)節(jié)區(qū)域。然而,池化操作會(huì)減小特征尺寸,因此在每一個(gè)池化層后面添加了上采樣,將其恢復(fù)到原始特征尺寸。最后,通過(guò)將不同池化層下的特征拼接并通過(guò)CNN聚合,得到最終的圖片特征。表1列出了特征提取層的網(wǎng)絡(luò)結(jié)構(gòu)。

    表1 特征層結(jié)構(gòu)Table 1 Parameter of feature extraction

    在獲取了參考圖片特征F0和目標(biāo)序列圖片特征后,采用傳統(tǒng)的平面掃描法[25]構(gòu)建CostVolume。采用平面掃描法可以通過(guò)單應(yīng)性矩陣將不同相機(jī)參數(shù)的目標(biāo)圖片特征投影到參考圖片的深度范圍上,幫助通過(guò)光度一致性原則進(jìn)行逐像素深度計(jì)算。在實(shí)驗(yàn)中,將參考圖片的深度范圍人為劃分成一系列深度平面,其Z軸方向單位向量為:

    沿Z軸方向,可以計(jì)算出深度采樣平面的具體數(shù)值:

    其中,N為劃分的平面數(shù),Dmin為相機(jī)離物體的最近距離。實(shí)驗(yàn)中設(shè)置深度平面數(shù)N為64,最近距離0.5 m。同時(shí),實(shí)驗(yàn)采用的DeMoN[9]數(shù)據(jù)集提供了圖片對(duì)應(yīng)相機(jī)的內(nèi)參矩陣Ki,外參矩陣旋轉(zhuǎn)參數(shù)Ri和平移參數(shù)ti(對(duì)于第i個(gè)圖片)。

    對(duì)于第dn個(gè)深度平面,可以將目標(biāo)圖片特征進(jìn)行如下轉(zhuǎn)換:

    為了加快模型訓(xùn)練,在訓(xùn)練時(shí)采用單目標(biāo)圖片輸入進(jìn)行CostVolume構(gòu)建。在測(cè)試時(shí),可以采用任意數(shù)目的目標(biāo)圖片序列。

    2.2 CostVolume正則化

    初始構(gòu)建的CostVolume存在著大量噪聲,無(wú)法直接逐像素深度值求解,因此,需要采用一系列卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行正則化處理。正則化網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

    圖3 正則化網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Semantic-based Cost volume regularization encod-er-decoder

    2.2.1 基于語(yǔ)義信息的多尺度正則化網(wǎng)絡(luò)結(jié)構(gòu)

    在其他計(jì)算機(jī)視覺(jué)領(lǐng)域,比如:目標(biāo)檢測(cè)[28-29]、語(yǔ)義分割[7]中,多尺度網(wǎng)絡(luò)架通過(guò)多尺度上下文信息的融合,具有更高的準(zhǔn)確性、穩(wěn)定性和普適性。因此,首先采用了一個(gè)多尺度網(wǎng)絡(luò)作為CostVolume正則化優(yōu)化的基礎(chǔ)網(wǎng)絡(luò)架構(gòu),如圖3上圖所示。

    雖然多尺度網(wǎng)絡(luò)結(jié)構(gòu)可以利用多分辨率信息并結(jié)合卷積鄰域信息增強(qiáng)網(wǎng)絡(luò)魯棒性,同時(shí)通過(guò)前后層的殘差連接[30]增強(qiáng)網(wǎng)絡(luò)間的相互關(guān)聯(lián),但是仍有一些問(wèn)題需要解決:

    (1)理論上多層級(jí)的神經(jīng)網(wǎng)絡(luò)能夠擁有足夠大的感受域,但實(shí)際上網(wǎng)絡(luò)對(duì)于全局信息的感知有限,因此無(wú)法有效聚合鄰域和全局信息,且各層級(jí)網(wǎng)絡(luò)之間的噪聲會(huì)因此疊加。因此,設(shè)計(jì)了語(yǔ)義導(dǎo)向模塊,將參考圖片特征作為先驗(yàn)信息,通過(guò)一系列特定卷積進(jìn)行全局信息感知并過(guò)濾CostVolume,減少噪聲影響。

    (2)傳統(tǒng)的多尺度融合多為直接相加(如:FPN[29]網(wǎng)絡(luò))或是類(lèi)似U-Net中的拼接,但是CostVolume中包含了額外的各個(gè)深度平面的概率信息,因此本文認(rèn)為,直接相加的方法會(huì)破壞原本各個(gè)尺度CostVolume中的深度信息。所以設(shè)計(jì)了一個(gè)自適應(yīng)融合模塊用于多尺度CostVolume融合,能夠更有效地聚合多尺度深度信息。

    2.2.2 語(yǔ)義導(dǎo)向模塊

    為了提升網(wǎng)絡(luò)的全局信息感知和鄰域信息的利用,減少CostVolume中的噪聲影響,引入了語(yǔ)義導(dǎo)向模塊。如圖3中左下所示,語(yǔ)義導(dǎo)向模塊由自適應(yīng)增強(qiáng)單元和空間語(yǔ)義導(dǎo)向?yàn)V波兩部分組成。對(duì)于通過(guò)參考圖片和目標(biāo)圖片構(gòu)建的初始CostVolume,采用了2層3×3×3卷積對(duì)其進(jìn)行隱式匹配信息聚合,同時(shí)減少特征通道數(shù)來(lái)減輕模型計(jì)算量。隨后通過(guò)一系列多尺度編碼器生成不同分辨率大小的CostVolume,具體由步長(zhǎng)為2的多層CNN網(wǎng)絡(luò)組成。

    參考SE-Net[31]在特征通道選擇的應(yīng)用,自適應(yīng)增強(qiáng)單元被設(shè)計(jì)用于自適應(yīng)優(yōu)化CostVolume自身的深度概率信息P(d|C)。在多尺度網(wǎng)絡(luò)結(jié)構(gòu)中,由于采用多層CNN生成多尺度CostVolume,也可以看做層級(jí)多尺度編碼過(guò)程。實(shí)驗(yàn)中,將自適應(yīng)增強(qiáng)單元作用在層級(jí)編碼器的輸出上。一方面經(jīng)過(guò)層級(jí)編碼的深層網(wǎng)絡(luò)包含更豐富的抽象語(yǔ)義信息;另一方面作用在低分辨率CostVolume不會(huì)過(guò)多增加模型的參數(shù)計(jì)算量。首先,通過(guò)CNN聚合CostVolume特征通道信息并求得歸一化深度概率權(quán)重:

    其中,g為Sigmoid激活函數(shù),這里作為門(mén)控單元可以對(duì)CostVolume逐深度平面求得歸一化概率值。隨后將求得的歸一化概率值作用到CostVolume上:

    通過(guò)殘差連接,將增強(qiáng)后的CostVolume與原始編碼器輸出相結(jié)合,一并作為空間語(yǔ)義導(dǎo)向?yàn)V波模塊的輸入。受到傳統(tǒng)視覺(jué)中的導(dǎo)向?yàn)V波[32]啟發(fā),設(shè)計(jì)了空間語(yǔ)義導(dǎo)向?yàn)V波模塊,在對(duì)CostVolume的逐個(gè)深度平面進(jìn)行濾波優(yōu)化的同時(shí)聚合鄰域和全局語(yǔ)義特征信息。對(duì)于自適應(yīng)增強(qiáng)后的CostVolume中的每個(gè)深度平面特征,將參考圖片特征與其拼接,并采用了一組權(quán)重共享的空洞卷積作為自適應(yīng)濾波核對(duì)其進(jìn)行濾波。一方面前端特征提取網(wǎng)絡(luò)提取的參考圖片特征中包含了充足的物體抽象信息,如:物體的邊緣等,可以有效地針對(duì)遮擋、弱紋理等區(qū)域去噪;另一方面,權(quán)重共享的多尺度空洞卷積核保證了模型能夠充分利用參考圖片中逐像素的鄰域信息并作用在不同深度平面特征上,同時(shí)不同尺寸大小的空洞卷積核增加了網(wǎng)絡(luò)的全局信息感知。

    訓(xùn)練過(guò)程中,由于參考圖片特征尺寸與自適應(yīng)增強(qiáng)單元輸出的CostVolume尺寸不同,所以采用自適應(yīng)池化縮小參考圖片特征,保證其與輸入CostVolume分辨率大小相同,方便后續(xù)語(yǔ)義導(dǎo)向模塊計(jì)算。空洞卷積參數(shù)如表2所示。

    表2 空洞卷積組結(jié)構(gòu)Table 2 Parameters of dilation convolution

    2.2.3 自適應(yīng)多尺度融合

    在多尺度網(wǎng)絡(luò)結(jié)構(gòu)中,認(rèn)為高分辨率CostVolume包含了更多的局部細(xì)節(jié)信息,而深層的低分辨率CostVolume由于經(jīng)過(guò)步長(zhǎng)為2的卷積下采樣,聚合了更多的鄰域信息,因此也包含了更多的較大物體的抽象語(yǔ)義信息,這與卷積網(wǎng)絡(luò)自身提取特征時(shí)的特性是保持一致的(淺層的特征層包含了細(xì)節(jié)信息,如邊緣等,而深層特征包含了抽象語(yǔ)義信息)。先前的研究者對(duì)于多尺度CostVolume通常采用直接相加或是拼接的方式進(jìn)行融合,但認(rèn)為這樣會(huì)破壞各個(gè)尺度CostVolume的深度概率分布。為了更好地利用多尺度層級(jí)信息,設(shè)計(jì)了自適應(yīng)融合模塊,通過(guò)利用各個(gè)層級(jí)CostVolume自身攜帶的先驗(yàn)深度概率信息P(d|C),進(jìn)行多尺度歸一化權(quán)重計(jì)算及融合。

    針對(duì)不同分辨率大小的CostVolume,首先通過(guò)三線性采樣提升小尺度CostVolume。隨后通過(guò)對(duì)特征維度的平均計(jì)算求出不同尺度CostVolume對(duì)應(yīng)的DepthVolume用于計(jì)算各自的深度概率分布。對(duì)于高分辨率CostVolume定義其深度概率信息為P(d|CH),低分辨率CostVolume的為P(d|CL)。隨后將二者拼接,并通過(guò)CNN網(wǎng)絡(luò)進(jìn)行融合,最終通過(guò)Sigmoid門(mén)控單元輸出歸一化融合權(quán)重λ。具體操作如下:

    其中,Wi和Wj對(duì)應(yīng)著不同尺度CostVolume的深度信息融合權(quán)重。根據(jù)計(jì)算出的歸一化權(quán)重,可以融合不同尺度的CostVolume。

    2.3 深度值回歸計(jì)算

    傳統(tǒng)的深度計(jì)算方法采用在逐深度平面中選取最佳深度值,即:

    但是直接選取最佳深度值的方法無(wú)法求導(dǎo),因此無(wú)法通過(guò)梯度下降法在CNN中使用。這里采用了GC-Net[24]提出的soft-Argmin方法,不僅可以使得網(wǎng)絡(luò)有效地進(jìn)行反向傳播并且能夠計(jì)算出各個(gè)離散深度平面之間的連續(xù)子值。對(duì)網(wǎng)絡(luò)輸出的CostVolume,利用3×3×3卷積聚合特征信息成DepthVolume,并利用softmax計(jì)算各個(gè)深度片面之間的歸一化概率,隨后通過(guò)soft-Argmin計(jì)算逐像素最佳深度平面的索引標(biāo)簽:

    d′為預(yù)測(cè)的深度平面對(duì)應(yīng)的索引標(biāo)簽。在soft-Argmin中,假定了網(wǎng)絡(luò)能夠在正確的深度平面上進(jìn)行響應(yīng),因此其余深度平面的概率理論上為0,因此可以通過(guò)加權(quán)的方法求得最佳深度平面的索引值。之后通過(guò)索引值和求得各個(gè)深度平面值的公式求出對(duì)應(yīng)的深度值:

    2.4 后優(yōu)化

    盡管卷積神經(jīng)網(wǎng)絡(luò)能夠有效地預(yù)測(cè)圖片深度信息,但是初始的預(yù)測(cè)深度圖可能存在著過(guò)度平滑,導(dǎo)致物體的邊緣存在模糊等情況。因此,采用了Khamis等[33]的方法,將初始深度圖與原始RGB圖像拼接后的張量作為輸入,通過(guò)一組由CNN和批歸一化組成的卷積網(wǎng)絡(luò)進(jìn)行后優(yōu)化處理并輸出最終的預(yù)測(cè)深度圖。

    在訓(xùn)練時(shí),將初始深度圖和后優(yōu)化深度圖分別與標(biāo)簽數(shù)據(jù)進(jìn)行比對(duì)和訓(xùn)練。假設(shè)θ為網(wǎng)絡(luò)的訓(xùn)練參數(shù),dθ和dθ′分別代表了初始深度圖和后優(yōu)化深度圖,因此訓(xùn)練loss可以表示為:

    其中,L為PyTorch中的SmoothL1損失函數(shù)。

    3 實(shí)驗(yàn)過(guò)程及結(jié)果分析

    本章對(duì)本文提出的深度估計(jì)網(wǎng)絡(luò)模型在公開(kāi)數(shù)據(jù)集DeMoN[9]數(shù)據(jù)集和ETH3D[34]數(shù)據(jù)集上的進(jìn)行測(cè)試,并對(duì)現(xiàn)有方法結(jié)果進(jìn)行比較分析。

    3.1 實(shí)驗(yàn)數(shù)據(jù)集

    本次實(shí)驗(yàn)選用的DeMoN[9]數(shù)據(jù)集,由四個(gè)子數(shù)據(jù)集組成,分別是:MVS、SUN3D、Scenes11、RGBD。除Scenes11為合成數(shù)據(jù)集,其余子數(shù)據(jù)集均為現(xiàn)實(shí)世界采集而來(lái)。每個(gè)子數(shù)據(jù)集的圖片分辨率均為640×480。

    由于DeMoN[9]數(shù)據(jù)集在測(cè)試時(shí)僅有成對(duì)的測(cè)試圖片序列,因此采用了ETH3D[32]數(shù)據(jù)集作為模型額外的評(píng)估標(biāo)準(zhǔn)和多輸入圖片測(cè)試。

    3.2 實(shí)驗(yàn)步驟

    訓(xùn)練時(shí),將DeMoN[9]數(shù)據(jù)集分為測(cè)試和訓(xùn)練數(shù)據(jù)集,為了加快計(jì)算,將原始640×480的圖片尺寸統(tǒng)一隨機(jī)下采樣到320×240,測(cè)試時(shí)則保持原始分辨率。同時(shí),設(shè)定物體距離相機(jī)的最近距離為0.5 m,深度平面數(shù)為64。

    訓(xùn)練時(shí)使用的DeMoN[9]總共有15 038對(duì)訓(xùn)練圖片。本模型采用Adam算法(β1=0.1,β2=0.999)[35],可以有效地更新網(wǎng)絡(luò)權(quán)重。10個(gè)訓(xùn)練周期,每個(gè)周期的批處理數(shù)量為12。初始8個(gè)epoch學(xué)習(xí)率設(shè)置為2E-4,后2個(gè)epoch將學(xué)習(xí)率減小為2E-5對(duì)模型進(jìn)行微調(diào)。訓(xùn)練服務(wù)器為T(mén)eslaV100 x 2,采用PyTorch進(jìn)行模型搭建,訓(xùn)練周期為4~5天。

    3.3 實(shí)驗(yàn)結(jié)果與分析

    本節(jié)重點(diǎn)對(duì)比了本文的多視圖深度估計(jì)算法與其他現(xiàn)行算法的預(yù)測(cè)結(jié)果。同時(shí),對(duì)于本文提出的算法模型,進(jìn)行了消融實(shí)驗(yàn)加以說(shuō)明算法可行性。

    3.3.1 算法評(píng)價(jià)標(biāo)準(zhǔn)及結(jié)果對(duì)比

    算法效果評(píng)價(jià)指標(biāo)采用了公開(kāi)的評(píng)價(jià)標(biāo)準(zhǔn):平均絕對(duì)誤差(mean absolute error,MAE),平方絕對(duì)誤差(square relative error,SqRel)和log均方根誤差(logroot mean square error,LRMSE)。假設(shè)ypred和ygt分別表示預(yù)測(cè)結(jié)果和標(biāo)簽GroundTruth,則上述評(píng)價(jià)指標(biāo)可以表示如下:

    表3~5給出了在公開(kāi)DeMoN[9]數(shù)據(jù)集上的對(duì)比結(jié)果,其中COLMAP[36]為傳統(tǒng)計(jì)算機(jī)視覺(jué)方法,DeMoN[9]、DeepMVS[10]和DPSNet[12]為當(dāng)前基于深度學(xué)習(xí)的深度估計(jì)算法。其中DPSNet由于采用了3DCNN對(duì)CostVolume進(jìn)行優(yōu)化,其效果為之前最優(yōu)算法。

    表3 MAE指標(biāo)結(jié)果對(duì)比Table 3 Comparision of MAE

    同時(shí),可視化了本文提出的算法在DeMoN[9]數(shù)據(jù)集上的預(yù)測(cè)結(jié)果,如圖4,為了更好地說(shuō)明算法效果,同樣可視化了DPSNet[12]的預(yù)測(cè)結(jié)果并進(jìn)行了對(duì)比。可以看出,本文算法在圖像細(xì)節(jié)部分,如:物體邊緣(RGBD測(cè)試數(shù)據(jù)中的玩具熊底座部位)、遮擋(MVS數(shù)據(jù)集植物部分)或是紋理嬌弱(SUN3D中的地面等光滑物體表面)等區(qū)域擁有更好的預(yù)測(cè)結(jié)果。

    圖4 DeMoN數(shù)據(jù)集對(duì)比可視化圖Fig.4 Visualization of comparision on DeMoN datasets

    為了更好地說(shuō)明本文提出的算法在多視圖深度估計(jì)中的應(yīng)用,進(jìn)行了額外數(shù)據(jù)集ETH3D[34]的測(cè)試比較。在測(cè)試時(shí),設(shè)定多視圖圖片數(shù)為4張,每張810×540分辨率,算法對(duì)比結(jié)果如表6所示。

    表4 LRMSE指標(biāo)結(jié)果對(duì)比Table 4 Comparision of LRMSE

    表6 ETH3D數(shù)據(jù)集指標(biāo)結(jié)果對(duì)比Table 6 Comparision of index results of ETH3D

    3.3.2 深度平面劃分及硬件GPU消耗

    在端到端的基于深度學(xué)習(xí)的網(wǎng)絡(luò)模型中,CostVolume的分辨率大小和深度平面數(shù)是網(wǎng)絡(luò)模型硬件消耗關(guān)鍵影響因素。由于采用了3D卷積來(lái)提升網(wǎng)絡(luò)精度,在實(shí)驗(yàn)時(shí),限定初始CostVolume的精度為1/4原始圖片尺寸大小,以降低模型復(fù)雜度和計(jì)算時(shí)間。另一方面,深度平面數(shù)的增加也會(huì)增加模型復(fù)雜度,但更多的深度平面數(shù)量并不一定能提升網(wǎng)絡(luò)預(yù)測(cè)精度。為此,本文提出的語(yǔ)義導(dǎo)向模塊和自適應(yīng)融合模塊能夠有效地提升網(wǎng)絡(luò)性能,在深度平面數(shù)更少的情況下?lián)碛懈叩念A(yù)測(cè)精度,減少了模型硬件需求。表7對(duì)比了當(dāng)前最好算法DPSNet[12]在相同深度平面劃分情況下的預(yù)測(cè)精度。表8說(shuō)明了本文提出的基于3D卷積的多視圖深度估計(jì)算法是一種更加輕量型的網(wǎng)絡(luò)模型。

    表5 Sq Rel指標(biāo)結(jié)果對(duì)比Table 5 Comparision of Sq Rel

    表8 模型顯存對(duì)比Table 8 Comparision on GPU consumption

    表7、8說(shuō)明了相同深度平面數(shù)情況下,本文提出的算法能夠達(dá)到更高的精度,占用更少的GPU資源,擁有更快的計(jì)算速度。

    表7 深度平面數(shù)結(jié)果對(duì)比Table 7 Comparision with different depth planes

    3.3.3 語(yǔ)義導(dǎo)向及自適應(yīng)融合模塊分析

    本小節(jié)中,對(duì)提出的模塊進(jìn)行了一些消融實(shí)驗(yàn)來(lái)驗(yàn)證提出模型的可行性,包括了基礎(chǔ)的多尺度網(wǎng)絡(luò)、語(yǔ)義導(dǎo)向模塊、自適應(yīng)融合模塊。網(wǎng)絡(luò)各模塊消融實(shí)驗(yàn)對(duì)比如表9所示。

    表9 模型消融實(shí)驗(yàn)對(duì)比Table 9 Comparision with ablation study

    通過(guò)上述表格對(duì)比,可以看出本文提出的模塊算法對(duì)于原始的多尺度網(wǎng)絡(luò)有了顯著提升。同時(shí),如圖5所示,針對(duì)語(yǔ)義導(dǎo)向模塊,進(jìn)行了語(yǔ)義特征可視化來(lái)說(shuō)明網(wǎng)絡(luò)對(duì)于圖片全局及鄰域信息的感知。由左至右分別為基礎(chǔ)網(wǎng)絡(luò)、參考圖片特征信心、添加語(yǔ)義導(dǎo)向模塊后的網(wǎng)絡(luò)模型、完整的網(wǎng)絡(luò)模型。通過(guò)基礎(chǔ)網(wǎng)絡(luò)和語(yǔ)義導(dǎo)向模塊的對(duì)比,可以看出,在光滑物體的表面(如RGBD數(shù)據(jù)集中的桌面),物體變邊緣等細(xì)節(jié)(如SUN3D中的椅子),本文提出的網(wǎng)絡(luò)模型能夠做出更好的預(yù)測(cè)結(jié)果。

    圖5 語(yǔ)義導(dǎo)向模塊比可視化結(jié)果圖Fig.5 Visualization of semantic-based model

    對(duì)于自適應(yīng)融合模塊,本文假設(shè)的前提為:通過(guò)利用不同尺度CostVolume之間的深度概率信息,計(jì)算自適應(yīng)融合權(quán)重。因此,對(duì)模型計(jì)算了最終CostVolume的部分像素點(diǎn)的深度平面歸一化概率值,如圖6所示。其中紅線addition代表了常用的多尺度相加,綠色虛線代表了標(biāo)簽真實(shí)值,藍(lán)色fusion為本文提出的自適應(yīng)多尺度融合算法。可以看出,常用的多尺度相加方法的預(yù)測(cè)結(jié)果與真實(shí)值相差較大,而本文提出的方法能夠有效地解決不同尺度之間的融合問(wèn)題,提升預(yù)測(cè)精度。

    圖6 自適應(yīng)融合模塊Fig.6 Viusalization of adaptive fusion model

    3.3.4 多視圖輸入分析

    理論上多視圖的輸入能夠帶來(lái)更多的匹配信息,并且能夠解決部分圖片中物體遮擋等問(wèn)題,一定程度上提升網(wǎng)絡(luò)的預(yù)測(cè)精度。在ETH3D[32]數(shù)據(jù)集上做了測(cè)試,如圖7所示,其中上半部分為隨著輸入目標(biāo)圖片數(shù)量(從2張到5張)的增加,網(wǎng)絡(luò)對(duì)于參考圖片的預(yù)測(cè)誤差,下半部分對(duì)應(yīng)不同輸入圖片數(shù)時(shí)的測(cè)試結(jié)果可視化。在圖7上的誤差圖中,當(dāng)輸入的目標(biāo)圖片數(shù)增加時(shí),分別計(jì)算模型對(duì)于參考圖片的預(yù)測(cè)結(jié)果和與真實(shí)值比對(duì)的誤差信息,其中紅色的為第一張測(cè)試結(jié)果,藍(lán)色的為第二張測(cè)試圖結(jié)果??梢钥闯?,隨著輸入圖片的增加,網(wǎng)絡(luò)預(yù)測(cè)結(jié)果有提升。

    圖7 多視圖輸入結(jié)果對(duì)比Fig.7 Visualization of multiple-view input

    4 總結(jié)

    本文提出了一個(gè)輕量型的基于3D卷積的多視圖深度估計(jì)網(wǎng)絡(luò),通過(guò)提出的語(yǔ)義導(dǎo)向模塊和多尺度自適應(yīng)融合方法擴(kuò)展了基礎(chǔ)的多尺度CostVolume優(yōu)化網(wǎng)絡(luò),在提升高精度預(yù)測(cè)結(jié)果的前提下降低了網(wǎng)絡(luò)對(duì)于GPU硬件的消耗,提升了計(jì)算速度。在公開(kāi)的數(shù)據(jù)集上能夠達(dá)到最優(yōu)結(jié)果。

    猜你喜歡
    視圖尺度語(yǔ)義
    財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
    語(yǔ)言與語(yǔ)義
    5.3 視圖與投影
    視圖
    Y—20重型運(yùn)輸機(jī)多視圖
    SA2型76毫米車(chē)載高炮多視圖
    宇宙的尺度
    太空探索(2016年5期)2016-07-12 15:17:55
    “上”與“下”語(yǔ)義的不對(duì)稱(chēng)性及其認(rèn)知闡釋
    認(rèn)知范疇模糊與語(yǔ)義模糊
    9
    紫云| 中西区| 贡觉县| 泸西县| 永靖县| 东阿县| 桦川县| 朝阳区| 黔西县| 东光县| 长沙市| 丁青县| 泗水县| 麻阳| 穆棱市| 莱芜市| 万宁市| 武定县| 油尖旺区| 平遥县| 铅山县| 江门市| 大安市| 都昌县| 井研县| 雅安市| 县级市| 晋宁县| 丹巴县| 建始县| 桓台县| 江山市| 陈巴尔虎旗| 南皮县| 霍林郭勒市| 东宁县| 齐河县| 滦南县| 汉源县| 昌乐县| 大同县|