劉侍剛,張 同,楊建功,葛 寶
(1.陜西師范大學(xué) 現(xiàn)代教學(xué)技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,陜西 西安 710062;2.陜西師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710119;3.陜西師范大學(xué) 物理學(xué)與信息技術(shù)學(xué)院,陜西 西安 710119)
隨著計(jì)算機(jī)視覺鄰域技術(shù)的不斷進(jìn)步,獲取圖像中某一場(chǎng)景的具體信息成為了圖像研究中的重要部分,其中圖像深度信息的獲取是一個(gè)關(guān)鍵技術(shù)。雙目立體匹配通過相機(jī)獲取同一場(chǎng)景的左、右兩幅圖像,然后對(duì)該圖像對(duì)進(jìn)行校正,保證兩張圖像對(duì)應(yīng)的匹配點(diǎn)在同一行上。對(duì)獲取的同一場(chǎng)景的左、右圖像對(duì)進(jìn)行初始化處理后,通過相似三角原理求出圖像的視差信息。由于圖像的視差信息與其深度信息之間存在反比關(guān)系,當(dāng)獲取到視差信息時(shí),就可進(jìn)一步獲取圖像的深度信息,因此雙目立體匹配廣泛地應(yīng)用于測(cè)量、三維重建、虛擬現(xiàn)實(shí)以及自動(dòng)駕駛等多種領(lǐng)域。
雙目立體匹配一直以來(lái)都是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)基礎(chǔ)性的研究。傳統(tǒng)的立體匹配網(wǎng)絡(luò)主要包括4個(gè)步驟,分別是代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算和視差優(yōu)化。傳統(tǒng)立體匹配網(wǎng)絡(luò)大多是在損失計(jì)算和視差優(yōu)化上進(jìn)行改進(jìn)優(yōu)化,但這些網(wǎng)絡(luò)的整體設(shè)計(jì)過程中人工干預(yù)因素過多,且對(duì)于一些病態(tài)區(qū)域(如弱紋理區(qū)域)通常表現(xiàn)不佳。隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)在計(jì)算機(jī)視覺領(lǐng)域的突破性進(jìn)展,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的雙目立體匹配網(wǎng)絡(luò)是立體匹配的重要研究熱點(diǎn)。早期使用卷積神經(jīng)網(wǎng)絡(luò)的立體匹配網(wǎng)絡(luò)[1-4],如ZBONTAR等[4]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的立體匹配代價(jià)網(wǎng)絡(luò)(stereo Matching Cost with CNN,MC-CNN)首次把卷積神經(jīng)網(wǎng)絡(luò)用于匹配代價(jià)計(jì)算,利用卷積神經(jīng)網(wǎng)絡(luò)從一對(duì)圖像中提取出更加穩(wěn)健的特征,并計(jì)算出二者相似性作為匹配代價(jià),但是在一些病態(tài)區(qū)域仍然很難找到準(zhǔn)確的匹配點(diǎn)。在最新提出的端到端的學(xué)習(xí)整體上對(duì)網(wǎng)絡(luò)進(jìn)行了優(yōu)化[5-12],輸入端直接輸入圖像對(duì),輸出端直接獲取視差圖。這種網(wǎng)絡(luò)架構(gòu)使得整個(gè)網(wǎng)絡(luò)在訓(xùn)練過程中更大程度地減少了人工干預(yù)設(shè)計(jì),提高了網(wǎng)絡(luò)的整體性能。MAYER等[5]提出的基于卷積網(wǎng)絡(luò)的視差設(shè)計(jì)(Convolutional Networks for Disparity,DispNetC)第一次將端對(duì)端網(wǎng)絡(luò)用于立體匹配研究。該網(wǎng)絡(luò)把傳統(tǒng)立體匹配的4個(gè)步驟直接整合在一個(gè)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)訓(xùn)練過程中無(wú)需人工干預(yù),從整體上實(shí)現(xiàn)了立體匹配網(wǎng)絡(luò)的優(yōu)化。CHANG等[6]提出的金字塔立體匹配網(wǎng)絡(luò)(Pyramid Stereo Matching Network,PSMNet)在特征提取階段采用了金字塔模型,通過提取并融合多尺度特征信息,利用語(yǔ)義上下文信息獲取更多的特征信息,但是該網(wǎng)絡(luò)過于臃腫。WANG等[12]提出的實(shí)時(shí)立體圖像深度估計(jì)網(wǎng)絡(luò)(Anytime stereo image depth estimation Network,AnyNet)提出了一種輕量化網(wǎng)絡(luò),實(shí)現(xiàn)實(shí)時(shí)深度估計(jì)的目標(biāo),但其以減少網(wǎng)絡(luò)深度為代價(jià),會(huì)導(dǎo)致精度的降低。針對(duì)這些問題,筆者提出的遞進(jìn)式空洞殘差深度雙目立體匹配網(wǎng)絡(luò)(Progressive Dialtion Residual Network for deep binocular stereo matching,PDR_Net)結(jié)合了空洞卷積與殘差網(wǎng)絡(luò),并引入通道注意力機(jī)制模型(Channel Attention Model,CAM)。其在網(wǎng)絡(luò)復(fù)雜度、參數(shù)量和準(zhǔn)確度等性能上都優(yōu)于上述網(wǎng)絡(luò)。
筆者提出的PDR_Net網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。在獲取圖像多尺度空間信息部分使用空洞卷積來(lái)獲取不同感受野下圖像特征的信息。同時(shí)在每個(gè)分支上引入殘差網(wǎng)絡(luò),分支之間采用遞進(jìn)式的結(jié)構(gòu)來(lái)進(jìn)行級(jí)聯(lián),各分支之間的空間信息形成互補(bǔ)。在三維卷積網(wǎng)絡(luò)模塊中使用堆疊沙漏模型(即編碼解碼結(jié)構(gòu)),并在編碼與解碼之間引入通道注意力機(jī)制模型如圖2所示。筆者提出的三維卷積網(wǎng)絡(luò)模塊在視差維度上加入了通道注意力機(jī)制,使得該網(wǎng)絡(luò)能夠更加精準(zhǔn)地學(xué)習(xí)到代價(jià)量中每個(gè)通道各個(gè)視差條件下不同特征圖之間的關(guān)系,有效提升了代價(jià)聚合模塊的效果。
圖1 PDR_Net網(wǎng)絡(luò)結(jié)構(gòu)示意圖
圖2 三維卷積模塊網(wǎng)絡(luò)結(jié)構(gòu)示意圖
筆者提出的PDR_Net網(wǎng)絡(luò)主要由3個(gè)網(wǎng)絡(luò)模塊構(gòu)成:特征提取、三維卷積以及視差回歸。該網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。該網(wǎng)絡(luò)在特征提取上結(jié)合了空洞卷積和殘差網(wǎng)絡(luò),實(shí)現(xiàn)了多尺度特征的提取。同時(shí)提出了遞進(jìn)式的級(jí)聯(lián)方式將各尺度特征信息逐一融合,既減少了特征信息的損失,也降低了網(wǎng)絡(luò)的參數(shù)量與復(fù)雜度。然后在特征向量的基礎(chǔ)上增加視差維度,形成了四維代價(jià)量(Cost Volume),通過三維卷積網(wǎng)絡(luò)模塊對(duì)四維代價(jià)量進(jìn)行代價(jià)聚合生成視差圖。在三維卷積模塊上,采用堆疊沙漏模型(Stacked Hourglass),并在視差維度嵌入通道注意力機(jī)制以加深各視差間的聯(lián)系。在視差回歸模塊上對(duì)代價(jià)聚合模塊形成的視差圖做進(jìn)一步優(yōu)化,形成最終的視差圖。
在特征提取模塊,筆者提出了一種復(fù)雜度低且能夠保留更豐富空間信息特征的網(wǎng)絡(luò)結(jié)構(gòu),其結(jié)合空洞卷積和殘差網(wǎng)絡(luò)能夠在擴(kuò)大感受野的同時(shí),保證參數(shù)量不增加。在該模塊起始部分使用2組普通卷積得到初始特征圖,實(shí)現(xiàn)對(duì)輸入圖像的下采樣以及對(duì)圖像通道維度數(shù)目的調(diào)整。在尺度分支部分,針對(duì)金字塔特征提取模型對(duì)參數(shù)量要求過高的不足,在該部分采用空洞卷積來(lái)實(shí)現(xiàn)多尺度特征提取。通過改變空洞卷積的擴(kuò)張率來(lái)獲取多尺度特征信息,最終構(gòu)建了4個(gè)分支,每個(gè)分支都使用2組空洞卷積來(lái)獲取圖像的不同尺度特征信息。同時(shí)各分支采用殘差網(wǎng)絡(luò)結(jié)合上下文信息,保證了在獲取多尺度特征信息的同時(shí)保留更多空間信息。由于空洞卷積的稀疏性特點(diǎn),利用4個(gè)不同擴(kuò)張率的空洞卷積分別在4個(gè)分支上進(jìn)行卷積操作后,采用遞進(jìn)的方式將各分支經(jīng)過空洞卷積后的特征圖進(jìn)行級(jí)聯(lián),使得各分支的特征圖之間形成互補(bǔ),解決了空洞卷積因其稀疏性導(dǎo)致的部分信息丟失的問題。與直接將各分支的特征圖元素級(jí)聯(lián)的方法相比,筆者提出的遞進(jìn)式級(jí)聯(lián)方法所融合的特征信息更加精細(xì)。在獲取融合特征圖后,將其與初始特征圖進(jìn)行級(jí)聯(lián),進(jìn)一步增強(qiáng)圖像的特征信息。
在三維卷積模塊,引入了堆疊沙漏模型,其能夠聚合并規(guī)則化代價(jià)量所包含的視差信息和空間特征信息。該模型主要由3個(gè)編碼解碼結(jié)構(gòu)模塊堆疊而成,每個(gè)子模塊分為編碼器和解碼器兩個(gè)部分。編碼器部分進(jìn)行下采樣,解碼器部分使用反卷積來(lái)恢復(fù)代價(jià)量的尺寸,其中下采樣和反卷積的步長(zhǎng)都為2。在下采樣和反卷積的過程中,代價(jià)量部分空間信息的損失是不可避免的。為了減少這種損失,將3個(gè)子模塊中相同尺寸的代價(jià)量進(jìn)行跳躍式連接,同時(shí)也將初始代價(jià)量與其經(jīng)過3個(gè)子模塊所生成的代價(jià)量進(jìn)行級(jí)聯(lián),加深了代價(jià)量上下文信息的結(jié)合程度。這種連接方式在解碼部分既能夠補(bǔ)充丟失的空間信息,又能夠從更底層的代價(jià)量中獲取到更多的細(xì)節(jié)信息。在此基礎(chǔ)上,在代價(jià)量的視差維度上嵌入通道注意力機(jī)制,對(duì)每個(gè)通道中不同視差下的特征圖之間的依賴關(guān)系進(jìn)行預(yù)處理,并根據(jù)依賴性大小給每個(gè)特征圖賦予權(quán)重值,再對(duì)其進(jìn)行卷積聚合。筆者提出的網(wǎng)絡(luò)模型通過在視差維度上引入通道注意力機(jī)制,加深了代價(jià)量中各視差間的關(guān)聯(lián)性,有效提升了視差估計(jì)的效果。該模塊共有3個(gè)輸出,其目的是為了方便了解整個(gè)三維卷積網(wǎng)絡(luò)模塊的學(xué)習(xí)過程。每個(gè)輸出計(jì)算一次損失,總共生成3個(gè)損失(Loss_1、Loss_2、Loss_3)。損失函數(shù)的具體計(jì)算方法在節(jié)2.4中有描述。
視差回歸是對(duì)代價(jià)聚合模塊得到的初始視差圖進(jìn)行優(yōu)化,使視差圖更加平滑。采用基于幾何和上下文的深度立體回歸網(wǎng)絡(luò)(Geometry and Context for deep stereo regression Network,GC-Net)[9]中提出的視差回歸函數(shù)來(lái)估計(jì)視差,該函數(shù)具有魯棒性且得到的視差圖更加平滑,即
(1)
基于平滑的L1損失函數(shù)具有較強(qiáng)的魯棒性和對(duì)離群值的低敏感性的特點(diǎn),使用平滑的L1損失函數(shù)來(lái)訓(xùn)練所提出的PDR_Net網(wǎng)絡(luò),即
(2)
主要展示PDR_Net網(wǎng)絡(luò)在KITTI 2015數(shù)據(jù)集上的訓(xùn)練和測(cè)試結(jié)果。
對(duì)PDR_Net網(wǎng)絡(luò)的各個(gè)結(jié)構(gòu)進(jìn)行消融分析,并針對(duì)不同損失權(quán)重對(duì)實(shí)驗(yàn)結(jié)果的影響進(jìn)行分析研究,并在KITTI 2015數(shù)據(jù)集上對(duì)文中所提網(wǎng)絡(luò)進(jìn)行評(píng)估。在KITTI 2015數(shù)據(jù)集的驗(yàn)證集上采用3像素誤差E3px表示匹配的準(zhǔn)確率,即
(3)
首先,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)模塊進(jìn)行消融實(shí)驗(yàn),具體結(jié)果如表1所示。在實(shí)驗(yàn)中,主要對(duì)PDR_Net網(wǎng)絡(luò)中的特征提取和代價(jià)聚合兩個(gè)模塊進(jìn)行消融對(duì)比。在代價(jià)聚合模塊再次細(xì)分為引入CAM模型和未引入CAM模型的堆疊沙漏網(wǎng)絡(luò)結(jié)構(gòu)。首先,結(jié)合筆者提出的特征提取網(wǎng)絡(luò)模塊和PSMNet網(wǎng)絡(luò)中的堆疊沙漏模型并與PSMNet網(wǎng)絡(luò)相比較,其在KITTI 2015數(shù)據(jù)集上的誤差小于PSMNet網(wǎng)絡(luò)。實(shí)驗(yàn)表明,筆者提出的遞進(jìn)式空洞殘差(Progressive Dialtion Residual,PDR)特征提取網(wǎng)絡(luò)模塊在誤差精度上優(yōu)于PSMNet網(wǎng)絡(luò)的空間金字塔特征提取網(wǎng)絡(luò)模塊(Spatial Pyramid Pooling,SPP)[6]。接著在代價(jià)聚合模塊中引入CAM模型,與引入之前的結(jié)果相比較,實(shí)驗(yàn)誤差進(jìn)一步減少。這表明筆者提出的代價(jià)聚合網(wǎng)絡(luò)模型在誤差精度上優(yōu)于傳統(tǒng)的堆疊沙漏模型。從整個(gè)實(shí)驗(yàn)結(jié)果來(lái)看,筆者提出的特征提取模塊與代價(jià)聚合模塊在網(wǎng)絡(luò)的精度性能上均有了顯著提升。
表1 網(wǎng)絡(luò)模塊的消融實(shí)驗(yàn)結(jié)果 %
除了對(duì)網(wǎng)絡(luò)結(jié)構(gòu)模塊的消融對(duì)比外,還對(duì)損失函數(shù)的損失權(quán)重做了消融實(shí)驗(yàn)對(duì)比。在代價(jià)聚合模塊中共有3個(gè)輸出和損失結(jié)果,在訓(xùn)練階段,總的損失函數(shù)結(jié)果是3個(gè)損失結(jié)果的加權(quán)求和。為了測(cè)試這3個(gè)損失結(jié)果對(duì)最終損失結(jié)果的影響大小,實(shí)驗(yàn)中分別對(duì)這3個(gè)損失賦予不同的權(quán)重值。最終實(shí)驗(yàn)結(jié)果表明,當(dāng)3個(gè)損失的權(quán)重分別設(shè)置為0.5、0.7、1.0時(shí),實(shí)驗(yàn)結(jié)果最優(yōu)。與PSMNet網(wǎng)絡(luò)結(jié)果對(duì)比,在最佳權(quán)重設(shè)置下,文中的實(shí)驗(yàn)結(jié)果優(yōu)于PSMNet網(wǎng)絡(luò)。
將實(shí)驗(yàn)結(jié)果放到KITTI評(píng)測(cè)網(wǎng)站進(jìn)行評(píng)估,并與其他網(wǎng)絡(luò)進(jìn)行比較,結(jié)果如表2所示,其中,“All”指圖像的整個(gè)區(qū)域,“Noc”指未遮擋區(qū)域。根據(jù)評(píng)估結(jié)果,筆者所提網(wǎng)絡(luò)的總體3像素誤差是2.25%,而PSMNet網(wǎng)絡(luò)的誤差為2.32%,iResNet(改進(jìn)的基于殘差網(wǎng)絡(luò)的立體匹配網(wǎng)絡(luò),improved Residual Network for stereo matching network)的誤差是2.36%,CRL(級(jí)聯(lián)殘差學(xué)習(xí),Cascade Residual Learning)網(wǎng)絡(luò)的誤差為2.67%,GG-Net網(wǎng)絡(luò)的誤差為2.87%。同時(shí)筆者所提網(wǎng)絡(luò)在參數(shù)量與網(wǎng)絡(luò)運(yùn)行時(shí)間上與PSMNet網(wǎng)絡(luò)相比較,減少了約50%。
表2 KITTI 2015立體匹配排行榜
近年來(lái),三維卷積神經(jīng)網(wǎng)絡(luò)發(fā)展迅猛,基于三維卷積的雙目深度立體匹配研究也取得了不錯(cuò)的成績(jī)。筆者提出的PDR_Net網(wǎng)絡(luò)是基于三維卷積的端對(duì)端的網(wǎng)絡(luò)結(jié)構(gòu),在特征提取模塊,利用空洞卷積的特性在不增加參數(shù)量的同時(shí)能夠增加卷積層感受野的大小,并且采用了遞進(jìn)式的特征融合網(wǎng)絡(luò)結(jié)構(gòu)將各尺度特征信息逐層融合生成特征圖。在代價(jià)聚合模塊中通過在視差維度上加入通道注意力機(jī)制,加深了各視差之間的聯(lián)系性,提高了匹配的準(zhǔn)確率。筆者提出的PDR_Net深度立體匹配網(wǎng)絡(luò)與PSMNet、GC-Net等網(wǎng)絡(luò)相比,網(wǎng)絡(luò)層數(shù)和參數(shù)量個(gè)數(shù)減少,網(wǎng)絡(luò)的處理速度及匹配的準(zhǔn)確率提高。實(shí)驗(yàn)表明,PDR_Net網(wǎng)絡(luò)具有較高的預(yù)測(cè)精度。