何培玉,黃勁松
聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)改進方法
何培玉,黃勁松
(武漢大學測繪學院,武漢 430079)
立體匹配是自主移動平臺獲取周圍環(huán)境深度信息的主要方式之一。針對在低紋理、前景物體難以與背景區(qū)分等場景下,經(jīng)典立體匹配算法性能下降明顯這一問題,圍繞將語義信息引入立體匹配網(wǎng)絡(luò)開展研究,對現(xiàn)有聯(lián)合語義信息的立體匹配網(wǎng)絡(luò)進行整合抽象,并針對現(xiàn)有方法的缺陷提出了聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)改進方法,結(jié)合殘差結(jié)構(gòu)設(shè)計,更充分地利用語義信息的同時保證了算法的實時性。實驗結(jié)果表明,聯(lián)合語義信息對立體匹配網(wǎng)絡(luò)整體精度有所提升,并對病態(tài)區(qū)域中的結(jié)果有所改善,同時驗證了本文方法相較于其他聯(lián)合語義信息方法的優(yōu)越性。
深度學習;立體匹配;語義信息;語義分割;多任務(wù)網(wǎng)絡(luò)
雙目立體匹配旨在通過對雙目圖像中的同名點進行匹配,根據(jù)匹配點對的視差來恢復(fù)圖像中物體的深度信息。根據(jù)獲得的深度信息,可以進一步提取出場景中的障礙物,恢復(fù)物體的3維信息,廣泛地應(yīng)用在例如無人駕駛車輛等自主移動平臺的環(huán)境感知模塊以及3維重建等領(lǐng)域。
相較于文獻[1-2]中傳統(tǒng)的立體匹配方法,端到端的方法在估計精度和計算速度等方面得到了極大的提升[3]。在傳統(tǒng)方法中,人為設(shè)計的視覺特征魯棒性較差,難以適應(yīng)多種復(fù)雜環(huán)境,而端到端的方法憑借其強大的學習能力在多種場景下實現(xiàn)了快速且準確的立體匹配[4]。早期,例如文獻[5-6]中的一些方法使用卷積神經(jīng)網(wǎng)絡(luò)來替代傳統(tǒng)立體匹配方法中的部分步驟。2016年文獻[7]提出了視差網(wǎng)絡(luò)(disparity network, DispNet),基于編碼器-解碼器的框架首次實現(xiàn)了端到端的立體匹配網(wǎng)絡(luò)。文獻[8]中基于幾何和上下文的深度回歸網(wǎng)絡(luò)(geometry and context network, GCNet)首次將 3維(3-dimentional, 3D)卷積引入了立體匹配網(wǎng)絡(luò)構(gòu)建中,保留了更多的特征信息。除此以外,在GCNet中提出了使用可微的最值函數(shù)(soft argmax)來實現(xiàn)最后的視差回歸(regression)。自此,在基于深度學習的立體匹配方法中,基于3D卷積和soft argmax的方法逐漸成為主流。
但對于低紋理、前景物體不明顯等復(fù)雜區(qū)域,端到端的立體匹配網(wǎng)絡(luò)雖然相較于傳統(tǒng)方法有一定程度的改善,但是仍然難以得到十分準確的視差結(jié)果[9]。為了進一步提高立體匹配網(wǎng)絡(luò)精度,文獻[10-12]中的各種網(wǎng)絡(luò)通過增加代價體規(guī)?;驍?shù)量的方式提高對上下文信息的利用,有效提高了立體匹配的整體精度,但上述方式極大地增加了內(nèi)存消耗,同時需要大量的計算。例如文獻[10]中的金字塔立體匹配網(wǎng)絡(luò)(pyramid stereo matching network, PSM),一次前向計算需要進行數(shù)千億次浮點運算,參數(shù)量也達到了數(shù)百萬個,難以進行實時推斷。
針對上述問題,文獻[13-16]均是基于多任務(wù)網(wǎng)絡(luò)框架,以聯(lián)合語義特征圖的形式在立體匹配分支中引入語義信息,以較小的代價有效提高立體匹配網(wǎng)絡(luò)精度,同時獲得其他相關(guān)信息。但是上述聯(lián)合語義信息的方法基于不同的立體匹配網(wǎng)絡(luò)框架,在模型構(gòu)建上具有其特異性,同時訓練方式也有很大差別,因此無法依據(jù)上述論文的結(jié)果對不同的聯(lián)合方式進行說明和比對,對研究如何合理、有效地在立體匹配網(wǎng)絡(luò)中聯(lián)合語義信息造成了阻礙。
本文在統(tǒng)一的立體匹配網(wǎng)絡(luò)框架中實現(xiàn)了已有的聯(lián)合語義信息的方法,同時提出了一種結(jié)合語義代價體和殘差結(jié)構(gòu)的聯(lián)合方法,并在國際上最大的自動駕駛場景下的計算機視覺算法評測數(shù)據(jù)集(KITTI)中的雙目數(shù)據(jù)集(KITTI Stereo)上驗證聯(lián)合語義信息對立體匹配算法整體精度的提升以及對病態(tài)區(qū)域視差估計結(jié)果的改善,對上述多種聯(lián)合語義信息的方式進行了比較。KITTI數(shù)據(jù)集是由德國卡爾斯魯厄理工學院(Karlsruhe Institute of Technology, KIT)和豐田工業(yè)大學芝加哥分校(Toyota Technological Institute at Chicago, TTIC)聯(lián)合創(chuàng)辦,利用組裝的設(shè)備齊全的采集車輛對實際交通場景進行數(shù)據(jù)采集獲得的公開數(shù)據(jù)集。
本文采用的統(tǒng)一的立體匹配網(wǎng)絡(luò)框架如圖1所示。網(wǎng)絡(luò)結(jié)構(gòu)可分為特征提取、構(gòu)建代價體、正則化代價體及視差回歸4個部分。雙目圖像同時輸?shù)教卣魈崛∧K以獲取雙目特征圖;隨后使用雙目特征圖構(gòu)建代價體,以此表示雙目特征在待估計視差范圍內(nèi)的匹配關(guān)系;再通過3D卷積層對代價體進行正則化處理,最后使用soft argmax操作對正則化后的特征圖進一步回歸,得到預(yù)測的視差圖。
圖1 立體匹配網(wǎng)絡(luò)框架
在具體的網(wǎng)絡(luò)設(shè)計中,特征提取部分采用簡單的編碼器-解碼器結(jié)構(gòu);同時,為了獲取豐富的上下文信息,在上采樣過程中通過文獻[17]中提出的跳連操作將底層特征和深層特征融合。代價體的構(gòu)建則采用了單通道方式,即在通道維度上求解范數(shù)作為匹配代價值,以此減小3D卷積層的計算量。
立體匹配網(wǎng)絡(luò)和語義分割網(wǎng)絡(luò)在結(jié)構(gòu)上具有很大程度的相似性,且均是稠密的、像素級別的輸出。語義分割網(wǎng)絡(luò)框架如圖2所示。語義分割網(wǎng)絡(luò)在編碼器-解碼器結(jié)構(gòu)的特征提取器后添加若干層二維卷積以及歸一化指數(shù)函數(shù)(softmax)操作以構(gòu)建語義分割分支,對特征圖進行進一步處理并將特征圖轉(zhuǎn)換為語義標簽的概率分布。
圖2 語義分割網(wǎng)絡(luò)框架
從算法流程和特征類型上看,立體匹配網(wǎng)絡(luò)中主要借助局部的、低語義的底層特征進行左右目間的同名點匹配,而語義分割網(wǎng)絡(luò)中主要依靠更大感受野、包含更多語義信息的特征進行語義標簽的預(yù)測,二者的信息存在互補的關(guān)系。除此以外,根據(jù)語義分割獲得的語義信息,可以提高低紋理、遮擋等區(qū)域的立體匹配結(jié)果的準確性。因此可通過聯(lián)合語義信息提升立體匹配的精度。
1.2.1 聯(lián)合語義分割任務(wù)
考慮到立體匹配和語義分割均是稠密的像素級預(yù)測任務(wù),其特征提取模塊存在共用的可能性,因此可直接在已有的立體匹配網(wǎng)絡(luò)基礎(chǔ)上添加語義分割分支,以多任務(wù)網(wǎng)絡(luò)形式聯(lián)合語義信息,具體框架如圖3所示。
圖3 立體匹配和語義分割的多任務(wù)網(wǎng)絡(luò)框架
其中特征提取部分完全共享,生成的特征圖可以同時輸入立體匹配分支和語義分割分支中,分別進行語義分割結(jié)果和視差圖的估計。而語義分割分支與立體匹配分支的設(shè)計與1.1節(jié)中保持一致。
以多任務(wù)的形式聯(lián)合語義信息可豐富原本立體匹配任務(wù)中的特征類型,但僅僅是通過反向傳播影響底層特征提取模塊。因此在多任務(wù)的基礎(chǔ)上,已有的研究考慮了更多樣的聯(lián)合方法,加強 2個子任務(wù)的聯(lián)系。
1.2.2 聯(lián)合語義特征圖
聯(lián)合語義特征圖是指在多任務(wù)網(wǎng)絡(luò)基礎(chǔ)上將語義分割分支中產(chǎn)生的特征圖引入立體匹配分支中,參與到視差估計的過程中。目前文獻[13-16]中的已有研究均是通過該方式將語義信息添加到立體匹配網(wǎng)絡(luò)中,但根據(jù)引入語義特征圖的位置不同可分為特征圖級聯(lián)、代價體融合和細化視差 3種聯(lián)合模式。其中文獻[13]提出的語義分割的立體匹配網(wǎng)絡(luò)(semantic segmentation stereo matching network, SegStereo)是在進入立體匹配分支前,將2個任務(wù)的特征圖級聯(lián),共同構(gòu)建代價體,也即特征圖級聯(lián)的聯(lián)合方式;文獻[14]中基于金字塔代價體的語義立體匹配網(wǎng)絡(luò)(semantic stereo matching network with pyramid cost volumes, SSPCV-Net)在代價體進入3D卷積模塊之前利用代價體聚合模塊將原有的代價體和語義代價體融合,采用的是代價體融合的聯(lián)合方式;而文獻[15]中的語義輔助的視差網(wǎng)絡(luò)(disparity estimation network with semantics, DispSegNet)和文獻[16]中的實時語義立體匹配網(wǎng)絡(luò)(real-time semantic stereo matching network, RST2Net)則是在立體匹配分支生成視差圖后,聯(lián)合語義特征圖對已有的預(yù)測結(jié)果進行細化,是細化視差的聯(lián)合方式。
特征圖級聯(lián)的聯(lián)合方式將雙目的語義特征圖和輸入立體匹配分支的原始特征圖在通道維上進行級聯(lián),替代原有的特征圖來進行代價體的構(gòu)建和后續(xù)的視差計算。具體網(wǎng)絡(luò)框架如圖4所示。
圖4 特征圖級聯(lián)的聯(lián)合網(wǎng)絡(luò)框架
代價體融合的聯(lián)合方式是利用語義特征構(gòu)成新增的代價體,再與立體匹配分支中原有的代價體進行融合,共同輸入3D卷積模塊中進行代價體的正則化。在代價體融合的過程中,首先要進行語義代價體的構(gòu)建,然后要建立代價體的融合模塊,將語義代價體和原有的特征代價體進行融合,再將融合后的代價體輸入3D卷積層中進行處理。整體網(wǎng)絡(luò)框架如圖5所示,其中的代價體融合模塊與SSPCV-Net中設(shè)計一致。
除了上述2種聯(lián)合方式,還可以將已有的視差估計結(jié)果與語義特征圖在通道維上級聯(lián),再將級聯(lián)的結(jié)果輸入簡單的、由多個2D卷積堆疊起來的細化模塊,利用語義信息細化原有的視差估計結(jié)果。細化視差的聯(lián)合網(wǎng)絡(luò)結(jié)構(gòu)如圖6所示。
圖5 代價體融合的聯(lián)合網(wǎng)絡(luò)框架
圖6 細化視差的聯(lián)合網(wǎng)絡(luò)框架
特征圖級聯(lián)的聯(lián)合網(wǎng)絡(luò)使用級聯(lián)后的特征圖進行代價體的構(gòu)建,但是在通道維上級聯(lián)的融合方式過于簡單,且在構(gòu)建單通道代價體過程中存在較大的信息損失。同樣地,代價體融合的聯(lián)合方式如果基于單通道代價體進行融合會存在較大的信息損失,但如果使用多通道的代價體則計算量過大。而細化視差的聯(lián)合網(wǎng)絡(luò)僅僅使用了單目的語義特征,沒有用到雙目語義特征的匹配信息。因此考慮將以上3種聯(lián)合方式結(jié)合起來,本文提出利用單獨的語義代價體對已有的視差結(jié)果進行細化。該方法首先使用語義特征和已有的視差結(jié)果構(gòu)建規(guī)模較小的語義代價體,然后通過堆疊的3D卷積對語義代價體進行處理,最后利用估計視差殘差(residual)的方式來實現(xiàn)視差細化。具體網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。
圖7 聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)框架
聯(lián)合語義代價體的方法首先利用已有的視差結(jié)果將右目的語義特征投影(warping)到左目,再將得到的投影結(jié)果與原本的左目語義特征圖用于構(gòu)建語義代價體。通過正則化代價體和視差回歸過程,網(wǎng)絡(luò)得到相較于已有視差結(jié)果的殘差值,將該殘差值與原有的視差結(jié)果相加即可得到經(jīng)過細化后的視差結(jié)果。不同于立體匹配分支中原本的代價體構(gòu)建方式,此處語義代價體的構(gòu)建利用了已有的視差結(jié)果,在視差殘差的范圍上構(gòu)建語義代價體,很大程度上減小了語義代價體的規(guī)模。
構(gòu)建單獨的語義代價體的方式既能夠利用到單目語義特征來引導(dǎo)物體邊緣部分的視差估計,也能夠通過語義特征之間的匹配關(guān)系進一步完善原本特征難以匹配的區(qū)域,更完整、充分地利用到語義信息。同時殘差結(jié)構(gòu)的設(shè)計減小了語義代價體的規(guī)模,進而減少了處理語義代價體所需要的計算消耗,保證了算法的實時性。
1)CityScapes。城市場景數(shù)據(jù)集(CityScapes)是語義分割中常用的數(shù)據(jù)集,采集于真實的駕駛場景,包含了50個不同城市的街道場景中記錄的立體視頻序列,包含了5000幀的高質(zhì)量像素級語義標注。數(shù)據(jù)集中的視差圖是通過半全局匹配算法(semi-global matching,SGM)算法獲得,精度很低且存在大量的空洞,難以作為準確的立體匹配訓練數(shù)據(jù)。該數(shù)據(jù)集主要用于對網(wǎng)絡(luò)進行預(yù)訓練。
2)KITTI Stereo。該數(shù)據(jù)集同樣采集于真實的駕駛場景,其中視差信息來源于激光雷達的點云數(shù)據(jù),是稀疏的、更為準確的視差標注。但是數(shù)據(jù)集規(guī)模較小,僅有約400對訓練立體圖像對,因此主要用于對模型進行微調(diào)及后續(xù)評估。
3)評估指標。立體匹配常常采用-像素誤差(-pixel error,PE)評估視差估計結(jié)果的準確性,計算方式為
本文采用平滑的最小絕對值偏差損失函數(shù)(smooth l1 loss)進行視差分支的訓練,在語義分割任務(wù)中則采用交叉熵函數(shù)(crossentropy loss)進行訓練。
定義視差損失函數(shù)為
語義分割損失函數(shù)定義為
聯(lián)合語義信息的立體匹配網(wǎng)絡(luò)的整體損失函數(shù)為
為了說明聯(lián)合語義信息后對立體匹配算法整體精度的提升,以及對多種聯(lián)合語義信息的方式進行比對,進行了多組實驗對不同的網(wǎng)絡(luò)結(jié)構(gòu)生成的視差結(jié)果進行評估。
在表1中,對單獨的立體匹配網(wǎng)絡(luò)、多任務(wù)網(wǎng)絡(luò)、特征圖級聯(lián)的聯(lián)合網(wǎng)絡(luò)、代價體融合的聯(lián)合網(wǎng)絡(luò)、細化視差的聯(lián)合網(wǎng)絡(luò)以及基于語義代價體細化視差的聯(lián)合網(wǎng)絡(luò)的浮點運算次數(shù)(floating point operations, FLOPs)、參數(shù)量和推斷時間進行了統(tǒng)計和比對。
表1 不同網(wǎng)絡(luò)結(jié)構(gòu)的計算效率統(tǒng)計
從表1可以看出,相較于單獨的立體匹配網(wǎng)絡(luò),聯(lián)合語義信息的各個網(wǎng)絡(luò)計算量和參數(shù)量僅存在少量的增長,但即使是其中最復(fù)雜的結(jié)合語義代價體和殘差結(jié)構(gòu)的聯(lián)合網(wǎng)絡(luò),其浮點運算數(shù)和參數(shù)量亦均比PSMNet低1個數(shù)量級,且能保證實時的推斷速度。
從KITTI Stereo的訓練集中隨機分離出40張圖片作為驗證集,不參與模型的訓練。在訓練結(jié)束后使用驗證集對模型進行整體精度的評估,評估結(jié)果如表2所示。
表2 不同網(wǎng)絡(luò)結(jié)構(gòu)在KITTI Stereo上的表現(xiàn)
從表2中的評估結(jié)果可以看出,聯(lián)合語義信息有效提高了立體匹配結(jié)果的整體精度。單以多任務(wù)的形式聯(lián)合語義信息,在整體精度的提升上并不明顯;而在不同的聯(lián)合語義信息的網(wǎng)絡(luò)結(jié)構(gòu)中,聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)對于結(jié)果的整體精度提升最高。
圖8和圖9中分別選取了包含了大部分低紋理區(qū)域的圖像1和前景物體不明顯的圖像2作為測試圖像,對各個網(wǎng)絡(luò)產(chǎn)生的視差預(yù)測結(jié)果以及預(yù)測誤差進行可視化。預(yù)測結(jié)果可視化結(jié)果中亮度越大表示視差值越大,也即距離越近。在預(yù)測誤差可視化結(jié)果中,亮度越大表示誤差值越大。
從圖8和圖9可以看出,僅僅聯(lián)合語義分割任務(wù)難以對病態(tài)區(qū)域有明顯的改善,而聯(lián)合語義特征圖和聯(lián)合語義代價體的方式相較于單一的立體匹配網(wǎng)絡(luò)在低紋理區(qū)域能進行更為準確、完整的視差估計;對于低紋理區(qū)域以及從色彩上難以分辨的前景物體,例如電線桿、樹木等,聯(lián)合語義的網(wǎng)絡(luò)也獲得了更準確的視差結(jié)果。另在表3中統(tǒng)計了圖像1和圖像2在多種網(wǎng)絡(luò)結(jié)構(gòu)中預(yù)測結(jié)果的3-像素誤差值,從指標上說明了聯(lián)合語義特征圖和聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)在低紋理區(qū)域以及前景物體處視差結(jié)果的明顯改善。
圖8 圖像1的預(yù)測結(jié)果和預(yù)測誤差可視化
圖9 圖像2的預(yù)測結(jié)果和預(yù)測誤差可視化
表3 圖像1和圖像2的視差結(jié)果3-像素誤差統(tǒng)計 %
上述實驗從1/3-像素誤差的定量評估和部分復(fù)雜場景的可視化2個方面證實了聯(lián)合語義分割的立體匹配網(wǎng)絡(luò)相較于單獨的立體匹配網(wǎng)絡(luò)在整體精度上的提升以及復(fù)雜區(qū)域上的改善。同時,各種聯(lián)合語義信息的立體匹配網(wǎng)絡(luò)均在計算量和參數(shù)量上都保持了合理的增長,在實驗設(shè)備上維持了實時的推算。其中,本文提出的聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)因為構(gòu)建了單獨的語義代價體,既能夠利用到單目語義特征來引導(dǎo)物體邊緣部分的視差估計,也能夠通過語義特征之間的匹配關(guān)系進一步完善原本特征難以匹配的區(qū)域,更為完整、合理地應(yīng)用了語義信息,雖然在計算量和參數(shù)量上增長較大,但是在整體精度的提升和對復(fù)雜區(qū)域結(jié)果的改善2個方面都取得了最佳的效果。
本文對已有的聯(lián)合語義信息的方法進行了抽象整合,針對現(xiàn)有方法利用語義信息不足的缺陷,提出了一種聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)改進方法,以殘差形式構(gòu)建視差細化模塊,充分利用語義信息的同時減小了語義代價體的規(guī)模和后續(xù)的計算消耗。實驗結(jié)果表明,本文提出的聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)改進方法在15毫秒每幀的推斷效率下達到4.31%的3-像素誤差,相較于已有的聯(lián)合方式,更大程度地改善了立體匹配結(jié)果,且不影響算法的實時性。
[1] SCHARSTEIN D, SZELISKI R. A taxonomy and evaluation of dense two-frame stereo correspondence algorithms[J]. International Journal of Computer Vision, 2002, 47(1): 7-42.
[2] BROWN M Z, BURSCHKA D, HAGER G D. Advances in computational stereo[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2003, 25(8): 993-1008.
[3] 劉振國,李釗,宋滕滕,等.可變形卷積與雙邊網(wǎng)格結(jié)合的立體匹配網(wǎng)絡(luò)[J].計算機工程,2022(5):1-9.
[4] LAGA H, JOSPIN L V, BOUSSAID F, et al. A survey on deep learning techniques for stereo-based depth estimation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[5] ZBONTAR J, LECUN Y. Computing the stereo matching cost with a convolutional neural network[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1409.4326.pdf.
[6] ZBONTAR J, LECUN Y. Stereo matching by training a convolutional neural network to compare image patches[J]. J. Mach. Learn. Res., 2016, 17(1): 2287-2318.
[7] MAYER N, ILG E, HAUSSER P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1512.02134.pdf.
[8] KENDALL A, MARTIROSYAN H, DASGUPTA S, et al. End-to-end learning of geometry and context for deep stereo regression[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1703.04309.pdf.
[9] 鄭秋梅,溫陽,王風華.基于多卷積核通道特征加權(quán)雙目立體匹配算法[J].計算機與數(shù)字工程,2021,49(10):2113-2117.
[10] CHANG J R, CHEN Y S. Pyramid stereo matching network[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1803. 08669.pdf.
[11] 張錫英,王厚博,邊繼龍.多成本融合的立體匹配網(wǎng)絡(luò)[J].計算機工程,2022,48(2):186-193.
[12] ZHU Z, HE M, DAI Y, et al. Multi-scale cross-form pyramid network for stereo matching[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1904.11309.pdf.
[13] YANG G, ZHAO H, SHI J, et al. Segstereo: exploiting semantic information for disparity estimation[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1807.11699.pdf.
[14] WU Z, WU X, ZHANG X, et al. Semantic stereo matching with pyramid cost volumes[EB/OL]. [2022-05-06].https://openaccess.thecvf.com/content_ICCV_2019/papers/Wu_Semantic_Stereo_Matching_With_Pyramid_Cost_Volumes_ICCV_2019_paper.pdf.
[15] ZHANG J, SKINNER K A, VASUDEVAN R, et al. Dispsegnet: leveraging semantics for end-to-end learning of disparity estimation from stereo imagery[J]. IEEE Robotics and Automation Letters, 2019, 4(2): 1162-1169.
[16] DOVESI P L, POGGI M, ANDRAGHETTI L, et al. Real-time semantic stereo matching[EB/OL]. [2022-05-06]. https://arxiv.org/pdf/1910.00541.pdf.
[17] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[EB/OL]. [2022-05-06].https://arxiv.org/pdf/1505.04597.pdf.
An improved method of stereo matching network combined with semantic cost volume
HE Peiyu, HUANG Jingsong
(School of Geodesy and Geomatics, Wuhan University, Wuhan 430079, China)
Stereo matching is one of the main ways for autonomous mobile platforms to obtain the depth information of the surrounding environment. Aiming at the problem that the performance of the classic stereo matching algorithm is obviously degraded in the scenes with low texture and the foreground objects are difficult to distinguish from the background, this paper focuses on introducing semantic information into the stereo matching network. This paper integrates and abstracts the existing stereo matching network combined with semantic information, and then proposes an improved method for stereo matching network combined with semantic cost volume in view of the shortcomings of the existing methods. Combined with residual structure, it can make full use of semantic information while ensuring that the real-time inference. The experimental results show that the joint semantic information improves the overall accuracy of the stereo matching network as well as the improvement in ill-conditioned regions, and at the same time verifies the superiority of the proposed method compared with other methods to combine semantic information.
deep learning; stereo matching; semantic information; semantic segmentation; multi-task network
P228
A
2095-4999(2022)06-0157-08
何培玉,黃勁松.聯(lián)合語義代價體的立體匹配網(wǎng)絡(luò)改進方法[J].導(dǎo)航定位學報, 2022, 10(6): 157-164.(HE Peiyu,HUANG Jingsong.An improved method of stereo matching network combined with semantic cost volume[J]. Journal of Navigation and Positioning, 2022, 10(6): 157-164.)
10.16547/j.cnki.10-1096.20220621.
2022-05-26
何培玉(1997—),女,重慶長壽人,碩士研究生,研究方向為深度學習。
黃勁松(1969—),男,湖南長沙人,博士,副教授,研究方向為自主移動機器人技術(shù)。