摘要:針對農(nóng)機自動駕駛環(huán)境感知在行駛邊緣病態(tài)區(qū)域存在誤匹配的問題,提出一種基于邊緣檢測和多尺度代價體的立體匹配網(wǎng)絡(luò)。首先,在特征提取階段設(shè)計邊緣分支網(wǎng)絡(luò)和視差分支網(wǎng)絡(luò),利用邊緣分支網(wǎng)絡(luò)有效提取細小物體的幾何輪廓信息,并將輪廓作為結(jié)構(gòu)信息嵌入到視差分支網(wǎng)絡(luò)中;其次,在構(gòu)建匹配代價階段設(shè)計一種多尺度代價體,不同代價體之間相互約束能夠提高匹配像素與候選像素的相關(guān)性,同時融合多個代價體能夠捕獲更多的全局上下文信息進行正則化;最后,在Scene Flow、KITTI 2015以及Middlebury v.3立體數(shù)據(jù)集進行試驗。結(jié)果表明,與EdgeStereo算法相比,提出的網(wǎng)絡(luò)模型在Scene Flow、KITTI 2015以及Middlebury v.3數(shù)據(jù)集的視差精度分別提高45.8%、14.8%和41.2%,為農(nóng)業(yè)自動駕駛環(huán)境感知提供技術(shù)參考。
關(guān)鍵詞:農(nóng)業(yè)自動駕駛;立體匹配;邊緣檢測;多尺度代價體;視差優(yōu)化
中圖分類號:S24; TM391" " " 文獻標(biāo)識碼:A" " " 文章編號:2095?5553 (2025) 04?0074?07
Research on stereo matching network based on agricultural automatic driving environment perception
Huang Ying Yang Xiaowei
(1. School of Information Engineering, Guizhou Open University, Guiyang, 550023, China;
2. Guizhou Tea Research Institute, Guiyang, 550006, China; 3. Tea Processing and Mechanical
Function Laboratory, Guizhou Tea Industry Technology System, Guiyang, 550006, China)
Abstract: Aiming at the problem of mismatched disparity estimates around object edges in binocular depth estimation algorithms for agricultural machinery's autonomous driving systems, a binocular depth estimation network based on edge detection and multi?scale cost volume was proposed. In the feature extraction stage, the edge branch network and disparity estimation branch network were designed. The edge branch network extracted image features and embedded learned edge geometric features into the disparity estimation branch network to enhance edge?aware disparity estimation. During the cost volume construction stage, a multi?scale cost volume was designed. By imposing mutual constraints between different cost volumes, the approach improved the correlation between matching pixels and candidate pixels. Additionally, the merging of multiple cost volumes captured richer global context information, thereby enhancing regularization performance. The proposed method was evaluated on standard stereo datasets, including Scene Flow, KITTI 2015 and Middlebury v.3. The experimental results showed that the disparity accuracy of the proposed network in Scene Flow, KITTI 2015 and Middlebury v.3 datasets is improved by 45.8%, 14.8% and 41.2%, respectively, compared to the EdgeStereo algorithm. These results highlight the network's effectiveness and provide a valuable reference for advancing autonomous driving technologiesyin agricultural machinery.
Keywords: agricultural automatic driving; stereo matching; edge detection; multi?scale cost volume; disparity refinement
0 引言
農(nóng)業(yè)自動駕駛主要是結(jié)合計算機、傳感器、自動控制、人工智能等技術(shù),兼顧統(tǒng)籌環(huán)境感知、定位導(dǎo)航、路徑規(guī)劃及決策控制等功能[1]。環(huán)境感知是智慧農(nóng)機在復(fù)雜農(nóng)田環(huán)境中安全可靠作業(yè)的保障[2],研究精確的環(huán)境感知系統(tǒng)對于提高農(nóng)業(yè)自動駕駛具有重要意義。
與毫米波雷達、激光雷達等傳感器相比,雙目視覺具有成本低、圖像信息豐富、便于部署等優(yōu)點,被廣泛應(yīng)用于農(nóng)業(yè)無人機領(lǐng)域[3]。張振乾等[4]研究了基于雙目視覺的香蕉園巡檢路徑提取方法。繆亞倫[5]使用雙目相機搭建立體視覺系統(tǒng),利用左右圖像中同一百香果二維坐標(biāo)點進行立體匹配,并通過視差原理計算出該百香果的三維形心點。生明超[6]采用雙目相機作為機器人傳感器實現(xiàn)糧倉機器人與糧堆的測距和定位。嚴(yán)鑫[7]通過搭建雙目立體視覺系統(tǒng),完成目標(biāo)圖像的采集和目標(biāo)果實的定位,然后利用目標(biāo)識別算法獲取果實的中心點,再通過三維重建原理計算出目標(biāo)果實的三維空間坐標(biāo)。魏建勝等[8]提出基于雙目視覺的農(nóng)業(yè)機械障礙物感知系統(tǒng),提高智能化農(nóng)業(yè)機械在自主導(dǎo)航中的安全可靠性。閆成功等[9]提出基于雙目視覺的葡萄園變量噴霧控制系統(tǒng),提高了噴霧裝備的精準(zhǔn)化和農(nóng)藥利用率。
隨著計算機視覺和卷積神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,相比于傳統(tǒng)算法,基于深度學(xué)習(xí)的雙目立體匹配算法在推理速度和視差精度方面有很大提升,但在復(fù)雜的非結(jié)構(gòu)化農(nóng)業(yè)場景的邊緣區(qū)域,仍存在誤匹配,導(dǎo)致視差預(yù)測精度低,影響農(nóng)業(yè)機器人作業(yè)的可靠性。因此,本文從農(nóng)業(yè)自動駕駛環(huán)境感知的立體匹配網(wǎng)絡(luò)開展研究,提出利用邊緣檢測和多尺度代價體來提高視差估計精度,為農(nóng)業(yè)自動駕駛環(huán)境感知提供理論依據(jù)和技術(shù)參考。
1 改進網(wǎng)絡(luò)方法
RDNet網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
基本流程為:(1)將左右輸入視圖輸入到邊緣分支網(wǎng)絡(luò)和權(quán)值共享的視差分支網(wǎng)絡(luò)進行特征提取,并將提取的邊緣特征連接到視差分支網(wǎng)絡(luò)中。(2)利用特征提取階段的輸出特征構(gòu)建多尺度代價體。(3)利用分層代價聚合網(wǎng)絡(luò)將多個不同尺度代價體進行融合,并通過視差回歸方式得到初始視差。(4)引入左右一致性檢測和不同擴張率卷積進一步優(yōu)化初始視差。
1.1 特征提取
特征提取網(wǎng)絡(luò)分為視差分支網(wǎng)絡(luò)和邊緣檢測分支網(wǎng)絡(luò),殘差網(wǎng)絡(luò)將輸入信息直接傳輸至輸出端,有效減少信息丟失,避免模型產(chǎn)生梯度爆炸和梯度消失,采用多個殘差塊構(gòu)建視差分支網(wǎng)絡(luò)的主干網(wǎng)絡(luò)。由于第1個和第4個殘差塊中的第1個卷積步長為2,其余卷積步長均為1,因此,視差分支特征提取網(wǎng)絡(luò)的輸出大小為初始輸入圖像大小的1/4。邊緣檢測網(wǎng)絡(luò)各分支的輸入特征均為視差分支網(wǎng)絡(luò)中的卷積和不同殘差塊的輸出特征,通過1×1卷積操作降低通道維度為1,再通過反卷積操作將特征大小恢復(fù)到原始圖像大小(不包括input0),將各分支輸出特征進行歸一化處理后,將通道維度拼接,利用1×1卷積降低融合特征的通道維度為1,將其作為邊緣分支網(wǎng)絡(luò)的輸出。將邊緣檢測網(wǎng)絡(luò)的輸出與視差分支網(wǎng)絡(luò)中不同殘差塊的輸出在通道維度方向連接,將通道連接后的特征作為RDNet網(wǎng)絡(luò)模型特征提取階段的輸出特征。邊緣分支網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。在特征提取階段都是全卷積操作,可以直接進行端到端的網(wǎng)絡(luò)訓(xùn)練和測試。
1.2 多尺度代價體構(gòu)建
由于不同圖像分辨率中同一像素的匹配代價是一致的,不同尺度代價體之間能夠相互制約提高像素匹配的準(zhǔn)確性,因此,將融合的最終低代價體連續(xù)使用2個3×3×3進行下采樣,最終構(gòu)建3種不同尺度的代價體。
1.3 分層代價聚合
在構(gòu)建代價體降采樣過程中模型會存在信息丟失,但不同分辨率代價體之間能夠覆蓋更多的全局上下文內(nèi)容,引導(dǎo)模型學(xué)習(xí)更多的特征信息;同時為減少網(wǎng)絡(luò)模型的計算量和復(fù)雜度,并沒有直接對不同分辨率的代價體計算視差。首先,設(shè)計分層代價聚合網(wǎng)絡(luò),將不同尺度代價體利用不同沙漏結(jié)構(gòu)以及上采樣操作進行特征融合,然后,級聯(lián)多個編碼解碼結(jié)構(gòu)對融合代價體進行正則化,其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。代價聚合網(wǎng)絡(luò)有4個輸出特征,首先分別使用2個3×3×3卷積將每個輸入特征通道維度降低為1,然后使用雙線性上采樣將輸出特征尺寸恢復(fù)到原始輸入圖像大小,最后使用視差回歸函數(shù)計算初始視差。模型引入視差優(yōu)化階段,因此,在網(wǎng)絡(luò)模型的整個訓(xùn)練和測試過程中,這4個輸出特征只進行中間監(jiān)督學(xué)習(xí)。
1.4 視差優(yōu)化
為進一步提高視差估計精度,將左右一致性檢測引入到視差優(yōu)化網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
1.5 視差回歸和損失函數(shù)
同時將提取的邊緣特征嵌入到視差分支網(wǎng)絡(luò)中,為代價體正則化提供先驗的場景信息和細粒度表示??倱p失函數(shù)還引入二值交叉熵損失函數(shù)Le和邊緣平滑損失函數(shù)Lsm來計算邊緣分支特征提取網(wǎng)絡(luò)的輸出特征,其計算如式(8)所示。
2 試驗與分析
2.1 試驗數(shù)據(jù)集
采用Scene Flow、KITTI 2015和Middlebury v.3 數(shù)據(jù)集對提出的模型進行訓(xùn)練和測試。
Scene Flow[10]是一個人工渲染合成數(shù)據(jù)集,由3個子數(shù)據(jù)集Monkaa、FlyingThings3D和Driving構(gòu)成,總共包含35 454對訓(xùn)練圖像和4 370對測試圖像,所有立體圖像都具有稠密的視差圖,圖像分辨率大小為540像素×960像素。對于Scene Flow數(shù)據(jù)集,采用端點錯誤率end?point?error(EPE)來評估。
KITTI 2015[11]是由數(shù)據(jù)采集平臺獲取的自動駕駛真實的雙目數(shù)據(jù)集,包含不同光照環(huán)境和遮擋條件下的車輛、行人等街景數(shù)據(jù),總共200對訓(xùn)練圖像和200對測試圖像,所有立體圖像對具有稀疏視差圖,圖像分辨率大小為1 240像素×376像素。對于KITTI 2015數(shù)據(jù)集,采用三像素錯誤率(Three?pixel?error)來評估。
Middlebury v.3[12]是傳統(tǒng)雙目立體匹配使用的立體數(shù)據(jù)集,是由明德學(xué)院收集并提供在線測試網(wǎng)站,包含28對訓(xùn)練圖像(其中13對是附加的訓(xùn)練圖像)和15對測試圖像,但是測試圖像并沒有提供真實視差圖。對于Middlebury數(shù)據(jù)集,采用視差圖錯誤閾值2.0像素進行評估。
2.2 創(chuàng)建邊緣數(shù)據(jù)
目前沒有同時包含邊緣標(biāo)簽和視差標(biāo)簽的公開雙目立體匹配數(shù)據(jù)集,為能夠同時訓(xùn)練視差和邊緣檢測,首要任務(wù)就是創(chuàng)建邊緣數(shù)據(jù)集。鑒于RGB圖中含有大量的噪聲,傳統(tǒng)的邊緣檢測算法計算出來的邊緣效果較差,采用canny算法對Scene Flow中的實例分割數(shù)據(jù)集進行處理,利用OpenCV中的二值化函數(shù)將閾值大于0的像素直接作為物體結(jié)構(gòu)的邊緣標(biāo)簽,檢測效果如圖5所示。
2.3 試驗設(shè)置
試驗軟件環(huán)境:Ubuntu 16.04、CUDA 10.1、PyTorch 1.2.0和Python 3.7.12;硬件環(huán)境:CPU Intel(R) Xeon(R) Gold 5118、GPU PowerEdge T640和RAM 128 G。采用Adam優(yōu)化器(β1=0.9, β2=0.999)訓(xùn)練模型,Batch size為16,對數(shù)據(jù)集進行非對稱遮擋和非對稱彩色增強方法預(yù)處理,圖像輸入大小為256像素×512像素。
首先,在Scene Flow數(shù)據(jù)集對邊緣分支網(wǎng)絡(luò)和視差網(wǎng)絡(luò)訓(xùn)練36個epoch,初始學(xué)習(xí)率為10-3,從17個epoch開始每訓(xùn)練6個epoch學(xué)習(xí)率降低1/2;然后,將邊緣檢測分支網(wǎng)絡(luò)權(quán)重鎖死,在KITTI 2015和Middlebury數(shù)據(jù)集上對模型進行微調(diào);最后,將微調(diào)后的模型分別在不同測試集中進行推理預(yù)測,將預(yù)測視差圖分別提交到KITTI vision Benchmark Suite和Middlebury評測網(wǎng)站進行在線測試。
2.4 消融試驗
為驗證多尺度代價體和邊緣檢測的有效性,設(shè)計不同的網(wǎng)絡(luò)結(jié)構(gòu)在相同的軟硬件以及訓(xùn)練策略進行消融試驗,采用端點錯誤EPE對視差估計進行評價。消融試驗結(jié)果如表1所示,其中“√”表示模型使用該模塊。
由表1可知,基礎(chǔ)網(wǎng)絡(luò)在Scene Flow測試集中的EPE為0.75像素;模型融合多尺度代價體后,其端點誤差為0.64像素,視差估計精度提高14.7%。在模型特征提取階段,邊緣檢測分支網(wǎng)絡(luò)學(xué)習(xí)到的幾何輪廓信息嵌入到視差分支網(wǎng)絡(luò)中,同時提出的模型損失函數(shù)中引入邊緣損失函數(shù)和邊緣平滑損失函數(shù),試驗結(jié)果表明,引入邊緣檢測方法可以有效提高物體邊緣區(qū)域的立體匹配精度;在視差優(yōu)化階段,還引入左右一致性檢測,最終模型在Scene Flow測試集中的端點誤差為0.58像素。
2.5 與其他算法對比
與其他先進的深度估計網(wǎng)絡(luò)模型在Scene Flow測試集中進行比較,定量對比結(jié)果如表2所示。與利用語義分割來輔助立體匹配SegStereo相比,改進的模型端點誤差降低0.87像素;與利用邊緣檢測來輔助立體匹配EdgeStereo相比,改進的模型端點誤差降低0.16像素;與PSMNet相比,深度估計性能提高45.8%。結(jié)果表明,RDNet在立體匹配精度方面具有一定競爭力。
表3為RDNet與其他基于卷積神經(jīng)網(wǎng)絡(luò)的立體匹配算法在KITTI 2015測試集的定量對比結(jié)果??梢钥闯觯倪M的模型在全部區(qū)域和非遮擋區(qū)域的平均錯誤率最低,分別為1.75%、1.61%。圖6為改進的模型在KITTI 2015測試集上部分預(yù)測視差效果,從預(yù)測視差圖中能夠看出,無論是前景區(qū)域還是背景區(qū)域,改進模型都能預(yù)測出精確的立體匹配效果。圖7為與其他先進立體匹配算法的定性對比。所有預(yù)測視差圖都來自KITTI評測網(wǎng)站,誤差圖在相應(yīng)預(yù)測視差圖的下方。從誤差圖黃色方框中可以看出,在交通標(biāo)識、行駛汽車以及立桿等區(qū)域,改進的模型引入邊緣檢測和邊緣平滑損失,改善物體邊緣區(qū)域的視差效果,視差精度更加準(zhǔn)確。
表4為在Middlebury數(shù)據(jù)集上與其他算法的定量對比,其中標(biāo)準(zhǔn)大小數(shù)字表示在非遮擋區(qū)域的錯誤率(錯誤閾值為2.0像素)。改進模型取得最低的平均錯誤率和最好的平均算法排名。與PSMNet_2000和EdgeStereo相比,RDNet平均錯誤率分別降低20.8%和8.4%。
圖8為與其他基于卷積神經(jīng)網(wǎng)絡(luò)的立體匹配算法在Middlebury測試集上的定性對比結(jié)果。預(yù)測視差圖下方標(biāo)出在非遮擋區(qū)域的錯誤率,視差圖錯誤閾值設(shè)為2.0像素。與其他算法相比,提出的RDNet模型能夠預(yù)測出更多的邊緣結(jié)構(gòu)信息,取得更高的匹配精度。
3 結(jié)論
針對農(nóng)業(yè)自動駕駛病態(tài)邊緣區(qū)域視差估計,提出基于邊緣檢測和多尺度代價體的立體匹配模型,在公共的立體數(shù)據(jù)集上對該模型進行訓(xùn)練測試。
1) 在特征提取階段將幾何結(jié)構(gòu)信息嵌入視差估計網(wǎng)絡(luò)中,模型預(yù)測的視差圖能夠恢復(fù)更多的細節(jié)信息,在Scene Flow測試集上的端點誤差降低6.3%。
2) 引入多尺度匹配代價體,增大候選像素與匹配像素之間的相關(guān)性,在代價聚合階段融合不同分辨率匹配代價體,模型能夠?qū)W到更多的全局上下文場景信息。
3) 試驗結(jié)果表明,視差優(yōu)化能夠有效提升復(fù)雜環(huán)境下的立體匹配的視差準(zhǔn)確率,改進后的最終模型在KITTI 2015測試集上全部區(qū)域和非遮擋區(qū)域的像素誤差率分別為1.75%和1.61%。
目前改進的模型還沒有應(yīng)用到實際的農(nóng)業(yè)場景中,未來將繼續(xù)優(yōu)化算法并將算法移植到嵌入式硬件平臺上,滿足農(nóng)業(yè)自動駕駛定位和避障的感知算法要求。
參 考 文 獻
[ 1 ] 楊肖委. 自動駕駛場景的雙目深度估計研究[D]. 貴陽: 貴州大學(xué), 2022.
[ 2 ] 徐廣飛, 陳美舟, 金誠謙, 等. 拖拉機自動駕駛關(guān)鍵技術(shù)綜述[J]. 中國農(nóng)機化學(xué)報, 2022, 43(6): 126-134.
Xu Guangfei, Chen Meizhou, Jin Chengqian, et al. A review of key technology of tractor automatic driving [J]. Journal of Chinese Agricultural Mechanization, 2022, 43(6): 126-134.
[ 3 ] 林中豪, 高曉陽, 邵世祿, 等. 葡萄園田間機器人雙目測距系統(tǒng)設(shè)計[J]. 中國農(nóng)機化學(xué)報, 2019, 40(4): 179-183.
Lin Zhonghao, Gao Xiaoyang, Shao Shilu, et al. Design of the binocular ranging system in vineyard robot [J]. Journal of Chinese Agricultural Mechanization, 2019, 40(4): 179-183.
[ 4 ] 張振乾, 李世超, 李晨陽, 等.基于雙目視覺的香蕉園巡檢機器人導(dǎo)航路徑提取方法[J]. 農(nóng)業(yè)工程學(xué)報, 2021, 37(21): 9-15.
Zhang Zhenqian, Li Shichao, Li Chenyang, et al. Navigation path detection method for a banana orchard inspection robot based on binocular vision [J]. Transactions of the Chinese Society of Agricultural Engineering, 2021, 37(21): 9-15.
[ 5 ] 繆亞倫. 基于深度學(xué)習(xí)及雙目視覺的百香果檢測與定位技術(shù)研究[D]. 南寧: 廣西大學(xué), 2023.
[ 6 ] 生明超. 基于雙目視覺的螺旋式糧面機器人平糧作業(yè)測距與目標(biāo)識別定位研究[D]. 長春: 吉林農(nóng)業(yè)大學(xué), 2023.
[ 7 ] 嚴(yán)鑫. 基于雙目視覺的溫室采摘機器人目標(biāo)識別[D]. 天津: 天津農(nóng)學(xué)院, 2023.
[ 8 ] 魏建勝, 潘樹國, 田光兆, 等. 農(nóng)業(yè)車輛雙目視覺障礙物感知系統(tǒng)設(shè)計與試驗[J]. 農(nóng)業(yè)工程學(xué)報, 2021, 37(9): 55-63.
[ 9 ] 閆成功, 徐麗明, 袁全春, 等. 基于雙目視覺的葡萄園變量噴霧控制系統(tǒng)設(shè)計與試驗[J]. 農(nóng)業(yè)工程學(xué)報, 2021, 37(11): 13-22.
[10] Mayer N, Ilg E, Hausser P, et al. A large dataset to train convolutional networks for disparity, optical flow, and scene flow estimation [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4040-4048.
[11] Menze M, Geiger A. Object scene flow for autonomous vehicles [C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3061-3070.
[12] Scharstein D, Szeliski R. A taxonomy and evaluation of dense two?frame stereo correspondence algorithms [J]. International Journal of Computer Vision, 2002, 47(1): 7-42.
[13] Yang G, Zhao H, Shi J, Deng Z, et al. Segstereo: Exploiting semantic information for disparity estimation [C]. Proceedings of the European Conference on Computer Vision, 2018: 636-651.
[14] Song X, Zhao X, Fang L, et al. Edgestereo: An effective multi?task learning network for stereo matching and edge detection [J]. International Journal of Computer Vision, 2020, 128(4): 910-930.
[15] 劉建國, 馮云劍, 紀(jì)郭, 等. 一種基于PSMNet改進的立體匹配算法[J]. 華南理工大學(xué)學(xué)報(自然科學(xué)版), 2020, 48(1): 60-69, 83.
[16] Pang J, Sun W, Ren J S, et al. Cascade residual learning: A two?stage convolutional neural network for stereo matching [C]. Proceedings of the IEEE International Conference on Computer Vision Workshops, 2017: 887-895.
[17] Xu H, Zhang J. Aanet: Adaptive aggregation network for efficient stereo matching [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 1959-1968.
[18] Wu Z, Wu X, Zhang X, et al. Semantic stereo matching with pyramid cost volumes [C]. Proceedings of the IEEE/CVF International Conference on Computer Vision, 2019: 7484-7493.
[19] Kendall A, Martirosyan H, Dasgupta S, et al. End?to?end learning of geometry and context for deep stereo regression [C]. Proceedings of the IEEE International Conference on Computer Vision, 2017: 66-75.
[20] 陳舒雅. 基于深度學(xué)習(xí)的立體匹配技術(shù)研究[D]. 杭州: 浙江大學(xué), 2022.
[21] Bao W, Wang W, Xu Y, et al. InStereo2K: A large real dataset for stereo matching in indoor scenes [J]. Science China Information Sciences, 2020, 63(11): 1-11.
[22] Gu X, Fan Z, Zhu S, et al. Cascade cost volume for high?resolution multi?view stereo and stereo matching [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020: 2495-2504.