張偉, 黃娟, 顧寄南, 黃則棟, 李興家, 劉星
(江蘇大學(xué)機(jī)械工程學(xué)院, 鎮(zhèn)江 212000)
立體匹配是計(jì)算立體彩色圖像對(duì)的對(duì)應(yīng)點(diǎn)偏差以獲得密集視差圖的過程。它廣泛應(yīng)用于雙目測(cè)距[1]、自動(dòng)駕駛[2]、三維重建[3]、機(jī)器人導(dǎo)航等領(lǐng)域。作為雙目視覺系統(tǒng)的核心技術(shù),立體匹配精度決定著整個(gè)系統(tǒng)的性能。傳統(tǒng)算法將立體匹配過程分為代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算和視差優(yōu)化四個(gè)步驟。但隨著深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的廣泛應(yīng)用與快速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的端到端立體匹配算法逐漸代替了傳統(tǒng)算法。相比于傳統(tǒng)算法,立體匹配算法有著更高的匹配精度且不需要繁雜的手動(dòng)操作步驟。
Mayer等[4]提出Disp-Net(disparity network),構(gòu)造了第一個(gè)端到端的立體匹配網(wǎng)絡(luò),提出用卷積代替WTA(winner take all)直接回歸視差。Kendall等[5]提出GC-Net(geometry and context network),第一次利用3D卷積的概念去獲得更多的上下文信息,并采用回歸的方法去預(yù)測(cè)視差值。Chang等[6]]提出PSM-Net(pyramid stereo matching network),首次引入了金字塔池化模塊[7]將全局環(huán)境信息結(jié)合到圖像特征中并提出了一個(gè)堆疊的沙漏3D CNN來擴(kuò)展匹配代價(jià)卷中的上下文信息。Guo等提出Gwc-Net(group-wise correlation stereo network)[8],在構(gòu)建代價(jià)體時(shí)采用分組相關(guān)和通道拼接兩種方法,組成聯(lián)合代價(jià)提并簡(jiǎn)化3D聚合網(wǎng)絡(luò)。此時(shí)立體匹配網(wǎng)絡(luò)的匹配精度達(dá)到最高。
上述方法均致力于研究聚合更多上下文信息,解決反射、弱紋理等不適定區(qū)域的匹配精度問題。但隨著3D聚合網(wǎng)絡(luò)的提出,使得深度學(xué)習(xí)立體匹配網(wǎng)絡(luò)參數(shù)量劇增,模型運(yùn)行時(shí)間長(zhǎng)。因此,Xu等[9]提出的AA-Net(adaptive aggregation network)用同尺度聚合模塊(intra-scale cost aggregation,ISA)和跨尺度聚合模塊(cross-scale cost aggregation,CSA)代替原網(wǎng)絡(luò)模型中的3D卷積聚合模塊;Xiao等[10]將輕量化shuffle net應(yīng)用于3D聚合網(wǎng)絡(luò),提出了一種高效的輕量級(jí)體系結(jié)構(gòu)。最近的研究趨勢(shì)偏向于輕量級(jí)立體匹配網(wǎng)絡(luò),但帶來的問題是其匹配精度也隨之減低。
針對(duì)上述問題,現(xiàn)嵌入聯(lián)合注意力機(jī)制和空洞金字塔池化(atrous spatial pyramid pooling,ASPP)[11]模塊,用3D深度可分離卷積代替標(biāo)準(zhǔn)3D卷積,提出一種新的輕量級(jí)高精度算法CAS-Net。嵌入的卷積塊注意力機(jī)制先將提取特征在空間和通道維度進(jìn)行加權(quán),從而提高重要特征的表征能力并抑制不必要的特征,在利用空洞金字塔池化(ASPP)模塊選擇不同膨脹率的空洞卷積來擴(kuò)大感受野,提取多尺度的上下文信息。最終將多尺度特征通過組相關(guān)和級(jí)聯(lián)的方式形成聯(lián)合代價(jià)體,送入新的輕量級(jí)特征聚合網(wǎng)絡(luò)對(duì)聯(lián)合代價(jià)體進(jìn)行學(xué)習(xí)。從而生成一個(gè)性能更好的特征提取網(wǎng)絡(luò)和更加輕量的特征聚合網(wǎng)絡(luò)。
本文所提出的CSA-Net算法以Gwc-Net為基準(zhǔn),此模型在特征提取部分運(yùn)用二維標(biāo)準(zhǔn)卷積,在3D聚合網(wǎng)絡(luò)部分運(yùn)用三維深度可分離卷積。根據(jù)參數(shù)量計(jì)算原理:F×F×F×Cin×Cout(F為卷積核大小,Cin為輸入通道,Cout為輸出通道),本模型運(yùn)用三維深度可分離卷積,在模型復(fù)雜度上優(yōu)于基準(zhǔn)網(wǎng)絡(luò)。
算法模型如圖1(a)所示。整體網(wǎng)絡(luò)模型分為4個(gè)部分:特征提取,構(gòu)建代價(jià)體,特征聚合,視差回歸。具體算法流程為:將兩張左右RGB圖像輸入特征提取網(wǎng)絡(luò)進(jìn)行權(quán)重共享特征提取,隨后在視差維度整合左右特征,利用級(jí)聯(lián)(Concat)和組相關(guān)(Group-wise correlation)的方式形成聯(lián)合4D匹配代價(jià)體(cost volume),再將4D匹配代價(jià)體送入特征聚合網(wǎng)絡(luò),聚合空間和通道維度的信息,學(xué)習(xí)匹配成本(cost)估計(jì),最后將學(xué)習(xí)到的cost進(jìn)行上采樣恢復(fù)原圖大小后通過SoftMax回歸預(yù)測(cè)視差,輸出最終視差圖。
圖1 網(wǎng)絡(luò)模型結(jié)構(gòu)圖Fig.1 Network model structure diagram
鑒于很多立體匹配算法的特征提取網(wǎng)絡(luò)并未對(duì)輸入圖像的通道和空間維度進(jìn)行加權(quán)關(guān)注與抑制,且對(duì)于現(xiàn)實(shí)場(chǎng)景中的反射和遮擋等不適定區(qū)域,原網(wǎng)絡(luò)并未能夠提供多尺度的上下文信息。因此本文所提出的網(wǎng)絡(luò)針對(duì)上述問題上加入了聯(lián)合注意力機(jī)制[圖2(a)]與空洞金字塔池化(ASPP)模塊[圖2(b)]。
聯(lián)合注意力機(jī)制如圖2(a)所示,由通道注意力[12]和空間注意力[13]組成。聯(lián)合注意力機(jī)制根據(jù)空間和通道的兩個(gè)維度分別計(jì)算相應(yīng)的特征圖,從而引導(dǎo)模型更加關(guān)注圖像中最具辨別力的區(qū)域,以提高模型任務(wù)的準(zhǔn)確性。通道注意力模塊Mc提取對(duì)目標(biāo)具有高貢獻(xiàn)的通道注意力圖,空間注意力模塊Ms以級(jí)聯(lián)方式提取空間注意力圖,以獲得最終輸出。全局最大池化操作可以獲得目標(biāo)之間最多樣的特征,這有助于推斷更精確的渠道注意力。因此,同時(shí)對(duì)于空間和通道注意力均同時(shí)使用全局平均池化[14]和全局最大池化[14]。對(duì)于大小為C×H×W(C為通道數(shù),H為特征圖高,W為特征圖寬)的特征圖F,經(jīng)過最大池化層和平均池化層,將特征圖在空間維度壓縮為C×1×1,然后經(jīng)過共享全連接模塊得到兩個(gè)結(jié)果并進(jìn)行相加,再通過一個(gè)sigmoid激活函數(shù)得到通道注意力的輸出結(jié)果Mc,表達(dá)式為
Mc=?{FC[max(F)]+FC[avg(F)]}
(1)
式(1)中:FC為全連接操作;?()為sigmoid函數(shù);max()和avg()為最大池化和平均池化操作。最后將輸出結(jié)果乘以輸入特征F得到F′,即
F′=McF
(2)
并作為空間注意力的輸入。F′通過全局最大池化和全局平均池化得到兩個(gè)1×H×W的特征圖,然后經(jīng)過拼接操作對(duì)兩個(gè)特征圖進(jìn)行拼接,通過7×7卷積變?yōu)橥ǖ罃?shù)為1的特征圖,再經(jīng)過一個(gè)sigmoid得到空間注意力的輸出結(jié)果Ms,即
圖2 聯(lián)合注意力機(jī)制和空間金字塔池化模塊Fig.2 Joint attention mechanism and spatial pyramid pooling module
Ms=?{conv7×7[max(F′);avg(F′)]}
(3)
式(3)中:conv7×7為大小為7×7的卷積操作。最后乘以空間注意力的輸入F′得到聯(lián)合注意力的最終輸出特征圖F″,即
F″=MsF′
(4)
空洞金字塔池化(ASPP)模塊如圖2(b)所示,對(duì)輸入特征圖以擴(kuò)張率分別為1、6、12、18的空洞卷積同時(shí)進(jìn)行稀疏采樣,然后將采樣得到的特征圖在通道維度進(jìn)行拼接,擴(kuò)大通道數(shù);最后通過1×1的卷積將通道數(shù)調(diào)整為理想輸出通道數(shù)??斩淳矸e在不引入額外參數(shù)的情況下設(shè)置卷積擴(kuò)張率,增大卷積的感受野可以捕獲多尺度上下文信息,進(jìn)一步利用學(xué)到的上下文來提高特征的可辨識(shí)度。
特征提取網(wǎng)絡(luò)如圖1(b)所示,先通過一個(gè)由3組3×3卷積+BN層+ReLU組成的first conv 進(jìn)行左右圖像特征預(yù)提取,隨后將得到的特征輸入聯(lián)合注意力機(jī)制進(jìn)行不同維度的加權(quán)操作,關(guān)注不同維度的有效特征。經(jīng)過聯(lián)合注意力機(jī)制加權(quán)后的特征圖將被送入4組類ResNet[15]網(wǎng)絡(luò)進(jìn)行深度特征提取,將最后3組特征圖在通道維度進(jìn)行拼接得到320通道的特征圖,將320通道的特征圖輸入空洞金字塔模塊進(jìn)行多尺度上下文信息的提取,最終的輸出特征圖保持320通道。
許多其他計(jì)算機(jī)視覺問題需要3D卷積來對(duì)4D數(shù)據(jù)進(jìn)行操作,最近出現(xiàn)了使用3D卷積進(jìn)行立體匹配的前景,其中3D卷積用于處理4D成本數(shù)據(jù)。但是3D卷積的使用會(huì)造成網(wǎng)絡(luò)參數(shù)量激增,例如一個(gè)2D卷積的參數(shù)量為F×F×Cin×Cout,而一個(gè)3D卷積的參數(shù)量為F×F×F×Cin×Cout(F為卷積核大小,Cin為輸入通道,Cout為輸出通道)。因此相同情況下一個(gè)3D卷積的參數(shù)量為2D卷積的F倍,這導(dǎo)致了網(wǎng)絡(luò)模型復(fù)雜化,運(yùn)行時(shí)間長(zhǎng)。
在本文中,構(gòu)建的匹配代價(jià)體(cost volume)在C×H×W的基礎(chǔ)上增加了深度維度,即為一個(gè)C×D×H×W的4D數(shù)據(jù),因此也需要用3D卷積聚合網(wǎng)絡(luò)來處理4D匹配代價(jià)體數(shù)據(jù)。3D聚合網(wǎng)絡(luò)如圖1(c)所示,該網(wǎng)絡(luò)由一個(gè)預(yù)沙漏模塊(4個(gè)標(biāo)準(zhǔn)卷積)和3個(gè)堆疊的3D沙漏網(wǎng)絡(luò)組成。本文主要目的是將立體匹配網(wǎng)絡(luò)輕量化,運(yùn)用標(biāo)準(zhǔn)3D卷積構(gòu)成沙漏模塊會(huì)增加網(wǎng)絡(luò)模型參數(shù)量,所以本文提出將2D輕量級(jí)深度可分離卷積[16]提升到3D,代替原來聚合網(wǎng)絡(luò)沙漏模塊中的標(biāo)準(zhǔn)3D卷積從而降低參數(shù)量減少運(yùn)行時(shí)間。
2D深度可分離卷積如圖3(a)所示,3D深度可分離卷積如圖3(b)所示。由于輸入卷積操作的數(shù)據(jù)由3D變?yōu)?D,因此其卷積核大小也由原來的F×F變?yōu)镕×F×F。3D深度可分離卷積由一個(gè)3D深度卷積和一個(gè)3D點(diǎn)卷積組成。首先,利用深度卷積在通道維度進(jìn)行逐一特征卷積,其次利用一個(gè)點(diǎn)卷積實(shí)現(xiàn)通道維度的特征信息融合,且通過一個(gè)1×1×1的卷積降低參數(shù)量。3D深度可分離卷積的參數(shù)量為F×F×F×Cin+1×1×1×Cin×Cout(F為卷積核大小,Cin為輸入通道,Cout為輸出通道)。假設(shè)F=3,Cin=32,Cout=16,將數(shù)據(jù)代入上述標(biāo)準(zhǔn)3D卷積與3D深度可分離卷積,可得標(biāo)準(zhǔn)3D卷積參數(shù)量為13 824,3D深度可分離卷積參數(shù)量為1 376。因此可知在相同輸入與輸出的情況下,3D深度可分離卷積參數(shù)量?jī)H約為3D標(biāo)準(zhǔn)卷積參數(shù)量的1/10,基于此實(shí)現(xiàn)網(wǎng)絡(luò)的輕量化。
圖3 2D和3D可分離卷積Fig.3 2D and 3D depth separable convolution
4D匹配代價(jià)體(cost volume)由特征聚合網(wǎng)絡(luò)聚合后得到匹配代價(jià)cost,將匹配代價(jià)送入視差回歸模塊,通過兩個(gè)標(biāo)準(zhǔn)3D卷積將通道維度壓縮至1通道, 在使用進(jìn)行上采樣操作將視差圖恢復(fù)到原圖大小。由網(wǎng)絡(luò)結(jié)構(gòu)圖可看出本網(wǎng)絡(luò)共輸出4個(gè)預(yù)測(cè)視差圖,通過SoftMax函數(shù)運(yùn)算預(yù)測(cè)匹配代價(jià),計(jì)算在最大視差范圍內(nèi)每個(gè)視差值的概率。本文采用soft-Argmin 回歸方法得到預(yù)測(cè)視差圖,即每個(gè)視差圖的預(yù)測(cè)視差Dpre被計(jì)算為每個(gè)視差d的總和,由其概率加權(quán)表示為
(5)
式(5)中:Dpre為預(yù)測(cè)視差;Dmax為最大視差值;d為范圍內(nèi)視差值;Pd為d的概率。
本文采用平均絕對(duì)誤差L1[17]來評(píng)估視差預(yù)測(cè)效果。與均方誤差L2相比,平均絕對(duì)誤差L1的魯棒性更強(qiáng),對(duì)異常點(diǎn)不敏感,所以使用L1的模型的誤差會(huì)比使用L2的模型對(duì)異常點(diǎn)敏感度更低。平均絕對(duì)誤差L1計(jì)算公式為
(6)
式(6)中:smoothL1(·)為損失函數(shù);x為函數(shù)變量。每個(gè)輸出視差圖的平滑損失L1可表示為
(7)
式(7)中:N為視差圖像素總數(shù);Dt,i為第i個(gè)像素的視差真值;Dpre,i為第i個(gè)像素預(yù)測(cè)視差值。為了充分利用輸出的4個(gè)預(yù)測(cè)視差圖,在計(jì)算損失時(shí)對(duì)每個(gè)輸出視差圖output 0,1,2,3分別分配不同的權(quán)重,則加權(quán)之后的模型總損失表示為
本文以CNKI為數(shù)據(jù)來源,在高級(jí)檢索中選擇“期刊檢索”,以“網(wǎng)絡(luò)信息行為”為檢索詞進(jìn)行主題檢索,共檢索到322篇文獻(xiàn),剔除不符合研究主題或者重復(fù)的文獻(xiàn),共得到310篇文獻(xiàn)。
(8)
式(8)中:Kj為賦予預(yù)測(cè)視差圖的權(quán)重,j=0,1,2,3。
依據(jù)本實(shí)驗(yàn)室現(xiàn)有硬件環(huán)境,本文實(shí)驗(yàn)操作系統(tǒng)為Ubantu18.04,GPU型號(hào)為個(gè) NVIDIA RTX 2080Ti,顯存大小為11 GB。算法在 Python3.8,Pytorch1.8框架下訓(xùn)練,模型在訓(xùn)練時(shí)采用Adam優(yōu)化器(β1=0.9,β2=0.999)進(jìn)行梯度下降。為了驗(yàn)證本文所提算法的性能,將算法在兩個(gè)常用數(shù)據(jù)集SceneFlow和KITTI上進(jìn)行訓(xùn)練測(cè)試驗(yàn)證。
本文模型先使用SceneFlow數(shù)據(jù)集作為網(wǎng)絡(luò)的預(yù)訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,設(shè)置訓(xùn)練迭代輪次為10輪。依據(jù)GPU顯存大小設(shè)置批量大小為2,初始學(xué)習(xí)率為0.001,當(dāng)網(wǎng)絡(luò)迭代到第4輪和第6輪時(shí),學(xué)習(xí)率分別下降一半,防止訓(xùn)練過程中學(xué)習(xí)率過高導(dǎo)致模型過擬合。SceneFlow預(yù)訓(xùn)練完成之后,得到的預(yù)訓(xùn)練權(quán)重用于訓(xùn)練KITTI數(shù)據(jù)集。對(duì)于KITTI數(shù)據(jù)集,設(shè)置訓(xùn)練輪次為300輪,批量大小為2,初始學(xué)習(xí)率為0.001。當(dāng)訓(xùn)練到200輪后,網(wǎng)絡(luò)學(xué)習(xí)率下降為原來的10倍。參數(shù)設(shè)置完成后加載預(yù)訓(xùn)練權(quán)重對(duì)KITTI數(shù)據(jù)集進(jìn)行訓(xùn)練。
2.2.1 SceneFlow
SceneFlow[18]數(shù)據(jù)集是一個(gè)大型的合成數(shù)據(jù)集,用來訓(xùn)練立體匹配網(wǎng)絡(luò)。由Flyingthings3D、Driving和Monkaa三部分組成,共有35 454張訓(xùn)練圖像和4 370張測(cè)試圖像,圖像大小為960×540。SceneFlow有Finalpass和Cleanpass兩個(gè)版本,在本文方法中使用Finalpass進(jìn)行預(yù)訓(xùn)練,因?yàn)樗嗟倪\(yùn)動(dòng)模糊和散焦,比Cleanpass更接近真實(shí)世界。在深度學(xué)習(xí)立體匹配網(wǎng)絡(luò)中SceneFlow由于其樣本數(shù)量足夠大,通常被當(dāng)作預(yù)訓(xùn)練數(shù)據(jù)集增強(qiáng)網(wǎng)絡(luò)泛化性,以用于后期真實(shí)數(shù)據(jù)集的訓(xùn)練。
2.2.2 KITTI12&15
KITTI 2012[19]和KITTI 2015數(shù)據(jù)集是一個(gè)面向自動(dòng)駕駛場(chǎng)景的室外真實(shí)數(shù)據(jù)集。KITTI 2012提供194個(gè)訓(xùn)練和195個(gè)測(cè)試圖像對(duì),KITTI 2015提供200個(gè)訓(xùn)練和200個(gè)測(cè)試圖像配對(duì),圖像大小均為1 240×376。在訓(xùn)練KITTI數(shù)據(jù)集錢前,需先將圖片在空間維度進(jìn)行補(bǔ)“0”操作,將圖片大小擴(kuò)充為1 248×384在訓(xùn)練時(shí),將訓(xùn)練集按照80%和20%的比例劃分為訓(xùn)練集和驗(yàn)證集。
對(duì)于SceneFlow數(shù)據(jù)集,評(píng)估指標(biāo)通常是端點(diǎn)誤差(end-point-error,EPE),即像素中的平均視差誤差,EPE可表示為
(9)
對(duì)于KITTI 2012,報(bào)告了非遮擋(noc)區(qū)域像素和所有(all)像素的預(yù)測(cè)誤差值超過設(shè)定閾值像素占像素百分比。對(duì)于KITTI 2015,針對(duì)背景(bg)、前景(fg)和所有(all)像素評(píng)估視差異常值D1的百分比(異常值D1即為誤差大于初定誤差閾值的預(yù)測(cè)視差。)本文中對(duì)于KITTI12誤差閾值設(shè)置均為2像素、3像素、5像素,KITTI15誤差閾值設(shè)置為3像素,以利于與其他算法進(jìn)行實(shí)驗(yàn)結(jié)果對(duì)比。
為了驗(yàn)證CSM模塊、ASPP模塊和3D深度可分離卷積對(duì)于網(wǎng)絡(luò)匹配精度和運(yùn)行速度的影響,在KITTI12和KITTI15數(shù)據(jù)集上測(cè)試3像素的誤差率,以此進(jìn)行消融實(shí)驗(yàn)。
如表1所示,當(dāng)分別使用CSM模塊和ASPP模塊時(shí),模型在兩個(gè)測(cè)試數(shù)據(jù)集上的匹配精度均比同時(shí)使用的精度低,且CSM模塊對(duì)匹配精度的影響較大。由表中運(yùn)行時(shí)間可看出,CSM模塊和ASPP模塊對(duì)模型運(yùn)行速度影響較小。
表1 不同模塊對(duì)網(wǎng)絡(luò)性能的影響Table 1 The impact of different modules on network performance
當(dāng)使用本文所提出的3D深度可分離卷積時(shí),模型匹配精度并未明顯降低,但是運(yùn)行時(shí)間比使用標(biāo)準(zhǔn)3D卷積快了1/3。
本文旨在于在不損失網(wǎng)絡(luò)模型匹配精度的情況下降低網(wǎng)絡(luò)的參數(shù)量,減少網(wǎng)絡(luò)的運(yùn)行時(shí)間。為驗(yàn)證本文方法的有效性,分別利用KITTI12和KITTI15測(cè)試集在網(wǎng)絡(luò)訓(xùn)練模型上進(jìn)行測(cè)試得到預(yù)測(cè)視差圖。由于KITTI數(shù)據(jù)集官方未向使用者提供視差真值,所以將KITTI12的195張預(yù)測(cè)視差圖與KITTI15的200張預(yù)測(cè)視差圖上傳至KITTI官方得到匹配誤差值。
如表1所示,本文模型在KITTI15測(cè)試集上測(cè)試時(shí),在全部像素(all)區(qū)域,背景異常值(D1,bg)相較于基準(zhǔn)網(wǎng)絡(luò)模型GwcNet降低了0.05%,前景異常值(D1,fg)降低了0.49%。在非遮擋像素(noc)區(qū)域,背景異常值(D1,bg)降低了0.02%,前景異常值(D1,fg)降低了0.05%其可視化結(jié)果如圖4所示,從預(yù)測(cè)視差圖可看出對(duì)于如石桿、廣告牌等細(xì)節(jié)部位有較好的匹配精度。如表2所示,本文模型在KITTI12測(cè)試集上測(cè)試時(shí),在誤差閾值為2 px和3 px時(shí),其誤差率均優(yōu)于GwcNet,且在本文對(duì)比算法中達(dá)到最低。
如表3所示,本文模型的參數(shù)量相比于GwcNet大大減少,3D聚合網(wǎng)絡(luò)的參數(shù)量?jī)H約為原算法的5/13,模型總參數(shù)量?jī)H約為原算法的3/4。如表4所示,在運(yùn)行時(shí)間上,本文模型訓(xùn)練KITTI15數(shù)據(jù)集的一個(gè)迭代的時(shí)間約為1.01 s,原算法運(yùn)行一個(gè)迭代的時(shí)間約為1.47 s,降低了約1/3,在訓(xùn)練總時(shí)間上也減少了2.8 h,由此可看出本文所提出的算法相較于原算法實(shí)現(xiàn)了輕量化的目的。
圖4 KITTI15可視化結(jié)果Fig.4 Visualization Results of KITTI15
表2 不同方法在KITTI 15測(cè)試集上的結(jié)果比較Table 2 Comparison of results of different methods on KITTI 15 test set
表3 不同算法在KITTI 12測(cè)試集上的結(jié)果比較Table 3 Comparison of results of different algorithms on KITTI 12 test set
表4 不同算法模型參數(shù)量與運(yùn)行時(shí)間的結(jié)果比較Table 4 Comparison of parameters and running time of different algorithm models
本文提出了基于聯(lián)合注意力(CSM)、空洞金字塔池化(ASPP)和3D深度可分離卷積的立體匹配算法來估計(jì)雙目圖像對(duì)的視差圖。通過實(shí)驗(yàn)得出以下結(jié)論。
(1)由于在特征提取網(wǎng)絡(luò)引入聯(lián)合注意力可以在空間和通道兩個(gè)維度進(jìn)行加權(quán)關(guān)注,且空洞金字塔池化(ASPP)利用不同膨脹率的卷積來擴(kuò)大感受野,提取對(duì)尺度上下文信息,這提升了網(wǎng)絡(luò)對(duì)于不適定區(qū)域特征提取能力,進(jìn)而將模型在KITTI 2012和2015數(shù)據(jù)集上在三像素匹配誤差率提高為1.44%和2.24%。
(2)在特征聚合網(wǎng)絡(luò)利。用3D深度可分離卷積代替標(biāo)準(zhǔn)卷積降低了網(wǎng)絡(luò)的參數(shù)量,減少了運(yùn)行時(shí)間。通過最終利用網(wǎng)絡(luò)模型在不同數(shù)據(jù)集上測(cè)試的實(shí)驗(yàn)結(jié)果表明,本文所提出的算法在不減少精度的情況下減少了模型參數(shù)量,運(yùn)行時(shí)間降低了近1/3,解決了高精度與輕量化不能共存的問題。