摘 要:在單目深度估計(jì)領(lǐng)域,雖然基于CNN和Transformer的模型已經(jīng)得到了廣泛的研究,但是CNN全局特征提取不足,Transformer則具有二次計(jì)算復(fù)雜性。為了克服這些限制,提出了一種用于單目深度估計(jì)的端到端模型,命名為DepthMamba。該模型能夠高效地捕捉全局信息并減少計(jì)算負(fù)擔(dān)。具體地,該方法引入了視覺狀態(tài)空間(VSS)模塊構(gòu)建編碼器-解碼器架構(gòu),以提高模型提取多尺度信息和全局信息的能力。此外,還設(shè)計(jì)了MLPBins深度預(yù)測(cè)模塊,旨在優(yōu)化深度圖的平滑性和整潔性。最后在室內(nèi)場(chǎng)景NYU_Depth V2數(shù)據(jù)集和室外場(chǎng)景KITTI數(shù)據(jù)集上進(jìn)行了綜合實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明:與基于視覺Transformer架構(gòu)的Depthformer相比,該方法網(wǎng)絡(luò)參數(shù)量減少了27.75%,RMSE分別減少了6.09%和2.63%,驗(yàn)證了算法的高效性和優(yōu)越性。
關(guān)鍵詞:?jiǎn)文可疃裙烙?jì);Vmamba;Bins深度預(yù)測(cè);狀態(tài)空間模型
中圖分類號(hào):TP18"" 文獻(xiàn)標(biāo)志碼:A"" 文章編號(hào):1001-3695(2025)03-039-0944-05
doi:10.19734/j.issn.1001-3695.2024.05.0226
DepthMamba:multi-scale VisionMamba architecture for monocular depth estimation
Xu Zhibin,Zhang Sunjie
(School of Optical-Electrical amp; Computer Engineering,University of Shanghai for Science amp; Technology,Shanghai 200093,China)
Abstract:
In the field of monocular depth estimation,researchers have extensively studied models based on CNN and Transformer.However,CNN struggle with inadequate extraction of global features,while Transformer exhibit quadratic computational complexity.To overcome these limitations,this paper proposed an end-to-end model DepthMamba for monocular depth estimation.The model was able to capture global information efficiently and reduce the computational burden.Specifically,the method introduced a visual state space(VSS)module to construct an encoder-decoder architecture to improve the model’s ability to extract multi-scale information and global information.Additionally,this paper designed an MLPBins depth prediction module to ensure smoother and cleaner generated depth maps.This paper conducted comprehensive experiments on indoor scenes using the NYU_Depth V2 dataset and outdoor scenes using the KITTI dataset.Compared with the Depthformer architecture based on vision Transformer,this method reduced network parameters by 27.75% and decreases the RMSE by 6.09% and 2.63%,respectively,which validates the algorithm’s efficiency and superiority.
Key words:monocular depth estimation;Vmamba;Bins depth prediction;state space model
0 引言
深度估計(jì)是眾多高層任務(wù)的基石,且在場(chǎng)景感知中占據(jù)重要地位,其結(jié)果廣泛運(yùn)用于自動(dòng)駕駛、三維重建、虛擬現(xiàn)實(shí)等領(lǐng)域[1,2]。傳統(tǒng)方法通常依賴激光雷達(dá)或深度相機(jī)來(lái)獲取稠密且精確的深度圖,但這些設(shè)備成本高昂,限制了其廣泛應(yīng)用。然而,使用深度學(xué)習(xí)的方法,根據(jù)單張RGB圖像端到端輸出場(chǎng)景深度信息,無(wú)須昂貴的設(shè)備,應(yīng)用空間更加廣泛。因此,基于深度學(xué)習(xí)的單目深度估計(jì)日益受到研究學(xué)者的關(guān)注。
隨著卷積神經(jīng)網(wǎng)絡(luò)(CNN)的發(fā)展,眾多學(xué)者開始探索其在單目深度估計(jì)中的應(yīng)用。Eigen等人[3]率先提出使用卷積神經(jīng)網(wǎng)絡(luò)解決深度估計(jì)問題,他們?cè)O(shè)計(jì)的網(wǎng)絡(luò)由全局粗略尺度網(wǎng)絡(luò)(global coarse-scale network)和局部精細(xì)網(wǎng)絡(luò)(local fine-scale network)組成,這為單目深度估計(jì)的快速發(fā)展奠定了基礎(chǔ)。由于網(wǎng)絡(luò)層次較淺,感受野有限,對(duì)深層次的特征提取不夠顯著,導(dǎo)致深度信息的提取效果不佳。Liu等人[4]將深度卷積神經(jīng)網(wǎng)絡(luò)與連續(xù)條件隨機(jī)場(chǎng)結(jié)合,提出深度卷積神經(jīng)場(chǎng),實(shí)現(xiàn)了深度信息的結(jié)構(gòu)化學(xué)習(xí)。盡管這一方法相較于之前有所提升,但引入條件隨機(jī)場(chǎng)增加了計(jì)算復(fù)雜性,且在訓(xùn)練過(guò)程中梯度計(jì)算更加困難,容易出現(xiàn)梯度消失的問題。張競(jìng)瀾等人[5]提出DSPP模塊用于單目深度估計(jì)模型,雖然相比于傳統(tǒng)方法擴(kuò)大了感受野,但其模塊作用有限,缺乏全局信息的提取。AdaBins[6]將EfficientNet B5[7]作為編解碼模型骨干,同時(shí)提出將深度估計(jì)問題轉(zhuǎn)換為有序回歸問題,顯著提高了深度估計(jì)的精度和性能。但EfficientNet基于卷積操作,只能捕捉到有限范圍的特征。學(xué)者們提出了一系列基于CNN的單目深度估計(jì)模型。然而這些模型均受限于卷積操作的局部性,難以捕捉輸入圖像的長(zhǎng)距離依賴關(guān)系,導(dǎo)致對(duì)全局信息的感知不足,成為性能提升的瓶頸。
為解決CNN對(duì)全局信息感知不足的問題,學(xué)者們將Transformer[8]引入到了單目深度估計(jì)領(lǐng)域。Transformer在單目深度估計(jì)任務(wù)中展現(xiàn)出了卓越性能,成功克服了CNN在全局信息感知方面的局限。例如,DPT-Hybrid[9]將視覺Transformer作為骨干網(wǎng)絡(luò)。Depthformer[10]進(jìn)一步提出將Transformer作為編碼器,CNN作為解碼器,融合全局特征與局部特征,得到多尺度特征圖,最后預(yù)測(cè)深度。由于Transformer自注意力機(jī)制作用,使模型在每個(gè)階段提取特征時(shí)有效減少了網(wǎng)絡(luò)底層語(yǔ)義的丟失。兩者在利用Transformer完成端到端的單目深度估計(jì)任務(wù)中取得了不錯(cuò)的進(jìn)展。然而,Transformer自注意力機(jī)制的計(jì)算復(fù)雜度與輸入長(zhǎng)度呈平方關(guān)系,面對(duì)較高分辨率圖像時(shí)計(jì)算開銷很大。
為解決Transformer自注意力機(jī)制二次計(jì)算復(fù)雜性問題,以曼巴(Mamba)[11]為代表的狀態(tài)空間模型(SSM)已成為一種很有前景的方法。它們不僅擅長(zhǎng)對(duì)遠(yuǎn)程交互進(jìn)行建模,還保持線性計(jì)算復(fù)雜性。VMamba[12]在視覺任務(wù)中不僅計(jì)算復(fù)雜度降至線性,同時(shí)保留了Transformer的優(yōu)點(diǎn)。受此啟發(fā),本文提出一種基于Vision Mamba的編解碼架構(gòu)模型,命名為DepthMamba。旨在結(jié)合全局信息感知能力和局部細(xì)節(jié)特征提取能力,同時(shí)保持計(jì)算復(fù)雜性的線性增長(zhǎng)。具體而言,本文引入了視覺狀態(tài)空間(VSS)模塊構(gòu)建了編碼器-解碼器的架構(gòu),有效融合特征信息,并在解碼器后端采用多元感知機(jī)(MLP)預(yù)測(cè)深度區(qū)域中心,與圖片每個(gè)像素處的softmax得分作為線性組合得到最后深度圖,從而使深度圖更平滑。本文模型能夠提取豐富的全局特征,且相比于Transformer模型具有較少的參數(shù)量,能夠?qū)φ麄€(gè)圖片場(chǎng)景有綜合的理解,為了驗(yàn)證DepthManba的有效性,本文在兩個(gè)典型的深度估計(jì)基準(zhǔn)上進(jìn)行了廣泛的實(shí)驗(yàn),一個(gè)是室外駕駛數(shù)據(jù)集KITTI[13],另一個(gè)是室內(nèi)場(chǎng)景數(shù)據(jù)集NYU_Depth V2[14]。
總而言之,本文貢獻(xiàn)如下:a)提出一個(gè)基于狀態(tài)空間模型(SSM)的模型DepthMamba,為單目深度估計(jì)在SSM的模型建立上提供見解,為開發(fā)更高效的SSM方法提供基礎(chǔ);b)采用具有VSS模塊的編碼器-解碼器結(jié)構(gòu),提高模型提取多尺度信息和全局信息的能力,在單目深度估計(jì)中具有潛在應(yīng)用;c)采用2D選擇性掃描操作和MLPBins深度預(yù)測(cè)模塊,模型具有較少的參數(shù)量且易于訓(xùn)練,相比基于Transformer的單目深度估計(jì),得到更好的結(jié)果。
1 DepthMamba網(wǎng)絡(luò)架構(gòu)
1.1 設(shè)計(jì)過(guò)程
本文模型可以分為編碼器、解碼器和MLPBins三部分。大多數(shù)SOTA(state-of-the-art)模型均基于編碼器和解碼器的結(jié)構(gòu)。編碼器通常是使用ImageNet[15]訓(xùn)練的圖像分類網(wǎng)絡(luò),通過(guò)逐層抽象,將輸入數(shù)據(jù)壓縮為蘊(yùn)涵主要特征及上下文信息的高維向量。解碼器則負(fù)責(zé)對(duì)這些高維向量進(jìn)行重構(gòu),以恢復(fù)輸入數(shù)據(jù)的原始形態(tài),便于模型傳遞關(guān)鍵特征信息,并實(shí)現(xiàn)輸入信息的有效傳遞和還原。在編碼器和解碼器之間使用跳躍連接實(shí)現(xiàn)多尺度信息的融合。設(shè)計(jì)這種結(jié)構(gòu)能夠同時(shí)捕捉局部和全局特征,增強(qiáng)模型的表現(xiàn)力。編碼器和解碼器均集成了視覺狀態(tài)空間(visual state space,VSS)模塊。該模塊源自VMamba,能夠保留Transformer全局信息的感知能力,同時(shí)將計(jì)算復(fù)雜度降至線性。相比于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò),VSS模塊能夠更有效地捕捉長(zhǎng)距離依賴關(guān)系,增強(qiáng)全局特征的提取和融合。MLPBins模塊則借鑒了AdaBins[6]和Depthformer[10]的方法,將深度估計(jì)建模為一個(gè)有序回歸任務(wù)。為了簡(jiǎn)化結(jié)構(gòu)、減少參數(shù)量并提升計(jì)算效率,本文將AdaBins和Depthformer基于Transformer的設(shè)計(jì)替換為更簡(jiǎn)單的MLP結(jié)構(gòu)。具體而言,每個(gè)像素點(diǎn)的最終深度由該像素處的概率分?jǐn)?shù)與圖像深度中心的線性組合。這一方法巧妙結(jié)合了分類和回歸的優(yōu)勢(shì),生成平滑和整潔的深度圖。本文模型在保證全局信息感知能力的同時(shí),降低了計(jì)算復(fù)雜度,并通過(guò)多尺度信息的融合和有序回歸任務(wù)的設(shè)置,提高了深度估計(jì)的精度和性能。為了驗(yàn)證本文的設(shè)計(jì)選擇,進(jìn)行了多項(xiàng)實(shí)驗(yàn),結(jié)果表明,DepthMamba模型在深度估計(jì)任務(wù)中具有顯著優(yōu)勢(shì)。
1.2 整體網(wǎng)絡(luò)架構(gòu)
DepthMamba網(wǎng)絡(luò)整體采用編碼器-解碼器結(jié)構(gòu),如圖1所示,在編碼器階段,給定輸入圖片大小為H×W×3,首先patch embedding層對(duì)圖像分塊,得到尺寸為(H/4,W/4,C)的特征圖E1,其中C為96。然后將其輸入到網(wǎng)絡(luò),經(jīng)過(guò)3個(gè)VSS模塊和Patch Merging層后,特征圖的分辨率分別縮減為[1/8,1/16,1/32],通道數(shù)分別增加到[2C,4C,8C],得到不同尺度的特征圖E2、E3、E4。E4經(jīng)過(guò)VSS模塊后直接傳入解碼器。在解碼器階段,將不同層次的特征融合并恢復(fù)到原尺寸。為保證模型參數(shù)共享并使訓(xùn)練更容易,本文設(shè)計(jì)與編碼器鏡像的解碼網(wǎng)絡(luò),同時(shí)使用patch expanding上采樣和跳躍連接將尺寸恢復(fù)到(H/2,W/2,C)。跳躍連接僅執(zhí)行簡(jiǎn)單的加法操作。之后通過(guò)卷積將通道數(shù)擴(kuò)展到128,得到輸出特征圖。最后,對(duì)輸出特征圖進(jìn)行深度區(qū)域中心的預(yù)測(cè),并計(jì)算每個(gè)像素處的softmax得分,將它們線性組合得到最終深度圖。
1.3 視覺狀態(tài)空間模塊
本文使用視覺狀態(tài)空間(visual state space,VSS)模塊作為網(wǎng)絡(luò)的核心,它源于VMamba[12]。VSS模塊通過(guò)2D選擇性掃描操作(SS2D),有效促進(jìn)了全局感受野和長(zhǎng)距離依賴的建立,并減少了計(jì)算量。將它分層設(shè)計(jì),使它不同于卷積網(wǎng)絡(luò),避免丟失語(yǔ)義信息,能夠提供豐富的全局信息,這對(duì)于生成高精度的深度圖而言至關(guān)重要。為保證網(wǎng)絡(luò)鏡像對(duì)稱,本文在編碼器四個(gè)階段設(shè)置的n值分別為2、2、27、2,在解碼器四個(gè)階段設(shè)置的n值分別為2、27、2、2。第三層提取的特征具有較高的語(yǔ)義層次,代表了圖像中更復(fù)雜的語(yǔ)義信息,所以在第三層設(shè)計(jì)27個(gè)VSS模塊能夠更好地捕獲這些復(fù)雜的信息。
解碼器第二層設(shè)計(jì)為27個(gè)VSS模塊,是為了與編碼器結(jié)構(gòu)形成對(duì)稱,在同一尺度下恢復(fù)信息。VSS模塊如圖1所示,特征圖經(jīng)過(guò)歸一化處理后進(jìn)入兩個(gè)分支,分支一依次通過(guò)線性層、深度可分離卷積、SiLU激活函數(shù)[16],再經(jīng)過(guò)2D選擇性掃描操作和歸一化操作,所得輸出與分支二分別經(jīng)過(guò)線性層和SiLU激活函數(shù)輸出的元素進(jìn)行相乘,合并結(jié)果經(jīng)過(guò)線性層與初始輸入元素相加,最后輸出結(jié)果。2D選擇性掃描操作主要分為三步,如圖2所示,首先,圖像塊沿四條不同路徑經(jīng)過(guò)交叉掃描。接著,展平后由并行的S6模塊進(jìn)行處理,確保掃描來(lái)自不同方向的信息,得到豐富的特征。最后,將輸出從四個(gè)方向進(jìn)行交叉合并,即對(duì)序列進(jìn)行求和合并,恢復(fù)到原尺寸,從而完成整個(gè)掃描過(guò)程。
2 實(shí)驗(yàn)與分析
2.1 數(shù)據(jù)集與評(píng)估
為驗(yàn)證模型的有效性、魯棒性和泛化能力,在兩個(gè)常用的公開數(shù)據(jù)集NYU_Depth V2和KITTI進(jìn)行實(shí)驗(yàn)。NYU_Depth V2數(shù)據(jù)集包含了大量由Microsoft Kinect攝像頭捕獲的室內(nèi)場(chǎng)景RGB圖像和對(duì)應(yīng)的深度圖像,分辨率為640×480。這些圖像覆蓋了464種室內(nèi)環(huán)境,如臥室、客廳、廚房等,并包含了各種物體和復(fù)雜的場(chǎng)景布局。按照Eigen等人[3]構(gòu)建該數(shù)據(jù)集的方法,訓(xùn)練集包含了249個(gè)場(chǎng)景的24 231張圖片和對(duì)應(yīng)標(biāo)簽,測(cè)試集包含了215個(gè)場(chǎng)景的654張圖片和對(duì)應(yīng)標(biāo)簽。本文在訓(xùn)練時(shí)將圖片隨機(jī)裁剪為分辨率576×448。KITTI數(shù)據(jù)集是由安裝在行駛車輛頂端的攝像頭和多個(gè)傳感器捕獲,包含61個(gè)場(chǎng)景下的圖像和激光雷達(dá)掃描圖像,分辨率為1241×376。同樣采用Eigen等人的方法對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練集和測(cè)試集的拆分,訓(xùn)練集包含了32個(gè)場(chǎng)景的23 158張圖片和對(duì)應(yīng)標(biāo)簽,測(cè)試集包含了29個(gè)場(chǎng)景的652張圖片和對(duì)應(yīng)標(biāo)簽。在訓(xùn)練時(shí)將圖片分辨率隨機(jī)裁剪為704×352。為了評(píng)估測(cè)試集,本文遵循Garg等人[19]定義的裁剪區(qū)域來(lái)裁剪圖像。
本文使用Eigen等人提出的三個(gè)閾值精度,三個(gè)誤差衡量本文的模型,給定預(yù)測(cè)深度i和標(biāo)簽深度yi,其計(jì)算方法如下:
2.2 方法實(shí)現(xiàn)
為了實(shí)現(xiàn)本文的模型,在PyTorch深度學(xué)習(xí)平臺(tái),使用在ImageNet-1k上訓(xùn)練好的Vmamba權(quán)重初始化模型參數(shù)。利用權(quán)重衰減為0.01的AdamW優(yōu)化器[20],學(xué)習(xí)率最大值為0.000 1,采用余弦退火訓(xùn)練策略,在訓(xùn)練的前50%迭代中,學(xué)習(xí)率從最大學(xué)習(xí)率的30%線性上升到最大學(xué)習(xí)率。該方法的目的是在訓(xùn)練初期讓模型逐漸適應(yīng)較高的學(xué)習(xí)率,從而更平穩(wěn)地進(jìn)行優(yōu)化。在余弦退火階段,學(xué)習(xí)率會(huì)按照余弦函數(shù)的形狀從最大值逐漸降低到最大學(xué)習(xí)率的30%。余弦退火策略可以讓學(xué)習(xí)率在訓(xùn)練過(guò)程中更平滑地調(diào)整。硬件配置為單張48 GB顯存的L20,訓(xùn)練25輪。本文網(wǎng)絡(luò)輸出的是一半原始大小的圖片,再通過(guò)雙線性插值調(diào)整為全分辨率。
2.3 NYU_Depth V2數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表1和圖3是本文方法(DepthMamba)在NYU_Depth V2數(shù)據(jù)集上獲得的定量和定性結(jié)果。在沒有額外的訓(xùn)練數(shù)據(jù)情況下,與骨干為Transformer架構(gòu)的Depthformer相比,如表1所以,本文在參數(shù)量減少了27.75%情況下,多項(xiàng)指標(biāo)均有提升,其中RMSE減少了6.09%,σ1提升了1.51%。如圖3所示,所得的深度圖整體上沒有太大的差別,質(zhì)量都很高。然而,由于Transformer本身無(wú)法動(dòng)態(tài)調(diào)整對(duì)不同特征的關(guān)注度,且在解碼階段普通卷積的感受野有限,導(dǎo)致在較遠(yuǎn)深度的細(xì)節(jié)信息丟失。VMamba本身設(shè)計(jì)就依賴于卷積,在保證關(guān)注細(xì)節(jié)的同時(shí),捕獲圖像中較長(zhǎng)的距離依賴關(guān)系。例如第一行書柜場(chǎng)景的圖片中,本文方法保留了更遠(yuǎn)處的木架輪廓信息,Depthformer幾乎沒有保留信息。第二行的窗戶信息,以及第三行的架子輪廓信息,都比Depthformer保留得更加完整,且Depthformer容易產(chǎn)生橫向條紋偽影,而本文生成的深度圖更加干凈。
2.4 KITTI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
本文在戶外場(chǎng)景KITTI數(shù)據(jù)集中進(jìn)行了相關(guān)實(shí)驗(yàn),其定量和定性的結(jié)果如表2和圖4所示。本文方法RMSE比AdaBins和Depthformer分別降低了5.72%、2.63%。鑒于近年來(lái)數(shù)據(jù)集性能的逐漸飽和,這種模型性能的提升是顯著的。在圖4的可視化結(jié)果中,可以觀察到第一行的海報(bào)版欄桿、第二行遠(yuǎn)處柱子,以及第三行的標(biāo)識(shí)牌,本文方法保留了更多的細(xì)節(jié)信息。本文認(rèn)為,Depthformer在解碼階段僅簡(jiǎn)單地進(jìn)行了上采樣操作,并沒有充分考慮前景和背景之間的連續(xù)性,這導(dǎo)致前景對(duì)象和背景之間的過(guò)渡顯得過(guò)于迅速,從而未能有效捕獲物體的細(xì)粒度深度變化。相比之下,DepthMamba采用鏡像對(duì)稱的網(wǎng)絡(luò)結(jié)構(gòu)則確保了特征表示能力、空間感知能力以及上下文感知能力,優(yōu)化了前景和背景之間的連續(xù)性。DepthMamba則能夠更清晰地勾勒出其深度輪廓,使得生成的深度圖在邊緣保持和細(xì)節(jié)恢復(fù)方面表現(xiàn)更出色。
2.5 消融實(shí)驗(yàn)
本節(jié)首先使用NYU_Depth V2和KITTI數(shù)據(jù)集對(duì)模型網(wǎng)絡(luò)層次進(jìn)行消融實(shí)驗(yàn)。模型參數(shù)量對(duì)比如表3所示。本文采用相同的初始化權(quán)重、映射到網(wǎng)絡(luò)中的初始通道數(shù)、訓(xùn)練輪次和訓(xùn)練方法,唯一改變的是網(wǎng)絡(luò)層次,分別構(gòu)建了為大、中、小三種規(guī)模的模型。具體而言,大模型編碼器使用VSS層數(shù)分別為2、2、27、2;中模型為2、2、16、2;小模型為2、2、9、2。結(jié)果如表4所示,更深層的網(wǎng)絡(luò)在室內(nèi)數(shù)據(jù)集上的提升較為明顯,這主要?dú)w因于室內(nèi)環(huán)境更加多樣化,在顏色變化和紋理特征更加復(fù)雜,包含了許多深度無(wú)關(guān)的信息。隨著網(wǎng)絡(luò)層次的增加,模型對(duì)紋理等細(xì)節(jié)特征的提取能力得到了增強(qiáng)。
此外,由于VMamba還提供更大版本的訓(xùn)練權(quán)重VMamba-B[10],本文針對(duì)權(quán)重配置對(duì)模型影響進(jìn)行了實(shí)驗(yàn)。采用VMamba-B作為預(yù)訓(xùn)練權(quán)重,并將網(wǎng)絡(luò)中的初始通道數(shù)設(shè)置為128,結(jié)合表4的中規(guī)模模型VSS層數(shù),在NYU_Depth V2數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。表5中的實(shí)驗(yàn)結(jié)果表明,這種VMamba-B配置相較于VMamba-S初始化權(quán)重展現(xiàn)出了更好的性能,證明了調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的有效性。
為了明確并強(qiáng)化MLPBins深度預(yù)測(cè)模塊在模型中的有效性,本文進(jìn)行了一項(xiàng)對(duì)比實(shí)驗(yàn)。在實(shí)驗(yàn)中,本文采用表4的中規(guī)模模型,相同訓(xùn)練方式僅移除了MLPBins模塊,并相應(yīng)地將解碼器網(wǎng)絡(luò)輸出的最后一層特征圖通道數(shù)設(shè)置為1,以此作為基準(zhǔn)模型,在NYU_Depth V2數(shù)據(jù)集上直接預(yù)測(cè)深度圖。此外,本文還使用AdaBins模塊替換MLPBins模塊。實(shí)驗(yàn)結(jié)果如表6所示。本文發(fā)現(xiàn),具有MLPBins模塊的模型在性能上優(yōu)于沒有深度預(yù)測(cè)模塊的模型,且與參數(shù)量較大的AdaBins模塊性能幾乎相當(dāng)。這一結(jié)果清晰地證明了MLPBins模塊對(duì)于提升模型預(yù)測(cè)深度圖的準(zhǔn)確性具有重要作用。
3 結(jié)束語(yǔ)
針對(duì)Transformer可擴(kuò)展性在很大程度上受到注意力計(jì)算二次復(fù)雜度的限制,導(dǎo)致許多基于Transformer的單目深度估計(jì)訓(xùn)練困難。本文首次提出了基于SSM的單目深度估計(jì)模型,該模型對(duì)比Transformer架構(gòu)的模型Depthformer,在應(yīng)對(duì)細(xì)節(jié)紋理特征、較遠(yuǎn)深度信息、生成深度圖質(zhì)量等方面都具有優(yōu)勢(shì)。該模型在參數(shù)量減少了27.75%情況下,NYU_Depth V2和KITTI數(shù)據(jù)集的RMSE分別減少了6.09%,2.63%。這表明基于SSM模型的單目深度估計(jì)相比于基于Transformer的模型在未來(lái)有更多的性能提升,也具有更多潛在研究的意義。
參考文獻(xiàn):
[1]江俊君,李震宇,劉賢明.基于深度學(xué)習(xí)的單目深度估計(jì)方法綜述[J].計(jì)算機(jī)學(xué)報(bào),2022,45(6):1276-1307.(Jiang Junjun,Li Zhen-yu,Liu Xianming.Deep learning based monocular depth estimation:a survey[J].Chinese Journal of Computers,2022,45(6):1276-1307.)
[2]王銘敏,佃松宜,鐘羽中.一種在線更新的單目視覺里程計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2024,41(7):2209-2214.(Wang Mingmin,Dian Songyi,Zhong Yuzhong.Online-updating monocular visual odometry[J].Application Research of Computers,2024,41(7):2209-2214.)
[3]Eigen D,Puhrsch C,F(xiàn)ergus R.Depth map prediction from a single image using a multi-scale deep network[M].Cambridge,MA:MIT Press,2014.
[4]Liu Fayao,Shen Chunhua,Lin Guosheng.Deep convolutional neural fields for depth estimation from a single image[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2015:5162-5170.
[5]張競(jìng)瀾,魏敏,文武.基于DSPP的單目圖像深度估計(jì)[J].計(jì)算機(jī)應(yīng)用研究,2022,39(12):3837-3840.(Zhang Jinglan,Wei Min,Wen Wu.Monocular depth estimation based on DSPP[J].Application Research of Computers,2022,39(12):3837-3840.)
[6]Bhat S F,Alhashim I,Wonka P.AdaBins:depth estimation using adaptive bins[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:4009-4018.
[7]Tan M,Le Q.EfficientNet:rethinking model scaling for convolutional neural networks[C]//Proc of International Conference on Machine Learning.New York:ACM Press,2019:6105-6114.
[8]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[C]//Advances in Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2017:6000-6010.
[9]Ranftl R,Bochkovskiy A,Koltun V.Vision Transformers for dense prediction[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:12179-12188.
[10]Agarwal A,Arora C.Depthformer:multiscale vision Transformer for monocular depth estimation with global local information fusion[C]//Proc of IEEE International Conference on Image Processing.Pisca-taway,NJ:IEEE Press,2022:3873-3877.
[11]Gu A,Dao T.Mamba:linear-time sequence modeling with selective state spaces[EB/OL].(2023-12-01).https://arxiv.org/abs/2312.00752.
[12]Liu Yue,Tian Yunjie,Zhao Yuzhong,et al.VMamba:visual state space model[EB/OL].(2024-01-18).https://arxiv.org/abs/2401.10166.
[13]Geiger A,Lenz P,Stiller C,et al.Vision meets robotics:the KITTI dataset[J].The International Journal of Robotics Research,2013,32(11):1231-1237.
[14]Silberman N,Hoiem D,Kohli P,et al.Indoor segmentation and support inference from RGBD images[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2012:746-760.
[15]Russakovsky O,Deng Jia,Su Hao,et al.ImageNet large scale visual recognition challenge[J].International Journal of Computer Vision,2015,115:211-252.
[16]Elfwing S,Uchibe E,Doya K.Sigmoid-weighted linear units for neural network function approximation in reinforcement learning[J].Neural Networks,2018,107:3-11.
[17]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16×16 words:Transformers for image recognition at scale[EB/OL].(2020-10-22).https://arxiv.org/abs/2010.11929.
[18]Lee J H,Han M K,Ko D W,et al.From big to small:multi-scale local planar guidance for monocular depth estimation[EB/OL].(2019-07-24).https://arxiv.org/abs/1907.10326.
[19]Garg R,Bg V K,Carneiro G,et al.Unsupervised CNN for single view depth estimation:geometry to the rescue[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2016:740-756.
[20]Loshchilov I,Hutter F.Decoupled weight decay regularization[EB/OL].(2017-11-14).https://arxiv.org/abs/1711.05101.
[21]Fu Huan,Gong Mingming,Wang Chaohui,et al.Deep ordinal regression network for monocular depth estimation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2018:2002-2011.
[22]Yang Guanglei,Tang Hao,Ding Mingli,et al.Transformer-based attention networks for continuous pixel-wise prediction[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:16269-16279.
[23]Song M,Lim S,Kim W.Monocular depth estimation using Laplacian pyramid-based depth residuals[J].IEEE Trans on Circuits and Systems for Video Technology,2021,31(11):4381-4393.