龍 燕,高 研,張廣犇
基于改進HRNet的單幅圖像蘋果果樹深度估計方法
龍 燕,高 研,張廣犇
(1.西北農(nóng)林科技大學(xué)機械與電子工程學(xué)院,楊凌 712100;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點實驗室,楊凌 712100;3. 陜西省農(nóng)業(yè)信息感知與智能服務(wù)重點實驗室,楊凌 712100)
針對蘋果自動采收獲取深度信息的實際需求,以及目前單幅圖像深度估計算法存在的空間分辨率低和邊緣模糊問題,提出一種基于改進高分辨率網(wǎng)絡(luò)(High-Resoultion Net, HRNet)的單幅圖像蘋果果樹深度估計模型。首先基于HRNet構(gòu)建多分支并行的編碼器網(wǎng)絡(luò),提取多尺度特征,并通過引入密集連接機制強化特征傳遞過程中的連續(xù)性;為了減少冗余特征造成的噪聲干擾,使用卷積注意力模塊在通道及像素層級對融合特征進行重標(biāo)定,強化特征圖結(jié)構(gòu)信息。在解碼器網(wǎng)絡(luò)中,使用條紋細化模塊自適應(yīng)地優(yōu)化特征圖的邊界細節(jié)信息,突出邊緣特征,改善邊緣模糊問題,最后經(jīng)上采樣生成深度圖。在NYU Depth V2公共數(shù)據(jù)集和果樹深度數(shù)據(jù)集上進行試驗。試驗結(jié)果表明,引入密集連接機制,添加卷積注意力模塊、條紋細化模塊均能提升模型性能。提出的改進HRNet網(wǎng)絡(luò)在果樹深度數(shù)據(jù)集上的平均相對誤差、均方根誤差、對數(shù)平均誤差、深度邊緣準確誤差和邊緣完整性誤差分別為0.123、0.547、0.051、3.90和10.59,在1.25、1.252、1.253閾值下的準確率分別達到了0.850、0.975、0.993;在主觀視覺上,改進HRNet網(wǎng)絡(luò)生成的深度圖有清晰的邊緣以及較多的紋理細節(jié)。該方法在客觀指標(biāo)和主觀效果上均有良好的表現(xiàn)。
圖像處理;深度學(xué)習(xí);蘋果果樹;單幅圖像深度估計;密集連接機制;卷積注意力模塊;條紋細化模塊
在蘋果的機械化采收中,深度信息的獲取是實現(xiàn)果實精準定位、機械臂避障采收和機器人自主作業(yè)的關(guān)鍵[1-3]。傳統(tǒng)方法獲取深度信息常利用激光雷達等深度傳感器,但這類傳感器易受環(huán)境和自身零部件干擾,得到稠密而準確的深度圖成本過高,無法廣泛應(yīng)用[4]?;趫D像的深度估計方法利用輸入RGB圖像的紋理、形狀和空間關(guān)系特征直接估計場景深度,無需昂貴的儀器設(shè)備和專業(yè)人員,就能獲得高精度深度信息,應(yīng)用前景更加廣闊[5]?;趫D像的深度估計方法根據(jù)輸入圖像數(shù)量的不同又分為多幅圖像深度估計和單幅圖像深度估計[6]。其中,基于多幅圖像的深度估計包括立體視覺匹配和運動恢復(fù)結(jié)構(gòu)等,這些方法都是建立在多視點特征對應(yīng)上,需要圖像對或圖像序列作為輸入,對輸入有較強的限制且預(yù)測結(jié)果受光照變化和物體紋理的影響較大,標(biāo)定過程復(fù)雜、計算時間較長[7]。相比之下,基于單幅圖像的深度估計對設(shè)備和環(huán)境要求較低且易于實現(xiàn),因此具有更加廣泛的應(yīng)用價值。
近年來,隨著深度學(xué)習(xí)的迅速發(fā)展,基于深度學(xué)習(xí)的單幅圖像深度估計算法也得到了廣泛的研究[8-11]。Eigen等[12]首次將卷積神經(jīng)網(wǎng)絡(luò)用于深度估計,通過構(gòu)建粗、細兩個尺度的深度預(yù)測模型,分別提取圖像的全局信息和局部信息,再將兩者融合得到深度圖,但由于網(wǎng)絡(luò)層數(shù)較少,預(yù)測的深度圖分辨率較低,僅為原圖大小的四分之一。Laina等[13]提出一種基于殘差學(xué)習(xí)的全卷積網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)更深,得到了分辨率更高的深度圖,但在特征傳遞過程中丟失了較多的細節(jié)信息,物體邊緣模糊問題未得到解決。Alhashim等[14]設(shè)計了一種簡單的編解碼器網(wǎng)絡(luò),使用在圖像分類任務(wù)下效果較好的預(yù)訓(xùn)練模型作為編碼器,相較于復(fù)雜的多網(wǎng)絡(luò)結(jié)構(gòu)得到了更精確的深度圖,驗證了遷移學(xué)習(xí)方法在單幅圖像深度估計任務(wù)中的有效性。Xue等[15]提出一種邊界誘導(dǎo)和場景聚合網(wǎng)絡(luò),考慮到最遠區(qū)域和邊界線索在深度估計中的重要性,設(shè)計了深度相關(guān)編碼器、自底向上邊界融合模塊和條紋細化模塊,生成的深度圖擁有較多的紋理細節(jié),但是對某些單一大平面組成的場景往往存在性能退化和深度失真情況。Fu等[16]將深度估計從回歸任務(wù)轉(zhuǎn)換為分類任務(wù),但離散化深度難度較大,導(dǎo)致深度圖復(fù)雜區(qū)域出現(xiàn)明顯失真。Bhat等[17]設(shè)計了Adabins模塊,將深度范圍劃分為256個不同區(qū)間,取每個區(qū)間的中心值作為該區(qū)間像素深度值,最終深度為區(qū)間中心深度值的線性組合,分類任務(wù)中的深度離散問題也得到解決。溫竣文[18]提出一種基于多尺度注意力導(dǎo)向網(wǎng)絡(luò)的深度估計算法,通過引入殘差通道注意力和空間注意力機制,優(yōu)化場景結(jié)構(gòu)、增強邊界細節(jié),生成的深度圖質(zhì)量得到提高,物體輪廓信息更加細致?;糁怯碌萚19]利用多尺度結(jié)構(gòu)相似度損失和尺度不變梯度匹配損失組成聯(lián)合損失,對相對深度點對進行排序?qū)崿F(xiàn)單幅圖像深度估計,生成的深度圖具有更加準確的幾何形狀,邊緣也更加清晰。
上述算法極大地促進了深度估計技術(shù)的發(fā)展,但仍存在以下兩個問題:1)傳統(tǒng)對稱性網(wǎng)絡(luò)對全局特征提取能力較差,采用跳躍連接逐級融合低層特征時容易引入背景噪聲,導(dǎo)致場景深度估計準確性不高;2)現(xiàn)有深度估計網(wǎng)絡(luò)對場景中紋理等幾何信息解析能力不足,導(dǎo)致深度圖細節(jié)不足,邊緣模糊。
針對以上兩個問題,本研究提出一種基于改進HRNet的單幅圖像蘋果果樹深度估計模型。首先基于HRNet構(gòu)建多分支并行的編碼器網(wǎng)絡(luò),提取包含更多上下文信息的多尺度特征,并通過引入密集連接機制強化特征傳遞過程中的連續(xù)性;使用卷積注意力模塊在通道及像素層級對融合特征進行重標(biāo)定,減少冗余特征造成的噪聲干擾,強化特征圖結(jié)構(gòu)信息,提高模型深度特征提取能力。在解碼器網(wǎng)絡(luò)中,使用條紋細化模塊對水平與垂直正交方向的邊界像素進行聚集,突出邊緣特征,優(yōu)化特征圖細節(jié),改善物體邊緣深度預(yù)測失真問題,最后經(jīng)上采樣生成深度圖。
1.1.1 果樹深度數(shù)據(jù)集
搭建蘋果果樹圖像采集平臺,由一臺Azure Kinect DK相機和一臺帶有8 GB內(nèi)存、Win 10操作系統(tǒng)和配套軟件程序的計算機組成,其中深度相機采用NFOV 非裝箱模式,分辨率大小640×576像素,深度范圍為0.5~3.86 m,彩色相機分辨率大小為1 920×1 080像素。在相機配準的過程中,深度圖經(jīng)超分辨率、viewpoint 轉(zhuǎn)換與彩色圖像對齊。
圖像數(shù)據(jù)于2021年8-10月采集自陜西省咸陽市乾縣宏霖農(nóng)業(yè)蘋果園,采集時,始終保持相機的中心線與果樹垂直,在不同的時間段內(nèi)進行順光和逆光采集,以使圖像數(shù)據(jù)集更具多樣性。同時,為方便模型訓(xùn)練,將采集到的圖像進行中心裁剪,獲得對齊后大小為640×480像素的RGB彩色圖像和深度圖,共1 285對圖像,包含順光632對,逆光653對。其中,深度圖為單通道灰度圖像,利用著色算法對深度圖進行填充后,使用Python中matplotlib.pyplot包著色,進行可視化處理。數(shù)據(jù)集部分圖像如圖1所示。
將采集到的1 285對圖像按照6∶4的比例分為訓(xùn)練集(771對)和測試集(514對),為豐富圖像數(shù)據(jù)集,避免過擬合,增強模型泛化能力,使用以下3種方式對訓(xùn)練集進行數(shù)據(jù)增強:1)水平鏡像,彩色圖像和深度圖同時水平翻轉(zhuǎn),概率設(shè)置為50%;2)色彩抖動,將彩色圖像的亮度、對比度和飽和度按照比例因子c∈[0.7,1.3]進行隨機縮放;3)隨機旋轉(zhuǎn),彩色圖像和深度圖在角度范圍∈[-6°,6°]內(nèi)同時旋轉(zhuǎn),最后共獲得2 860對圖像。
圖1 Kinect相機采集的蘋果果樹深度數(shù)據(jù)集示例
1.1.2 NYU Depth V2公共數(shù)據(jù)集
NYU Depth V2是最常用的深度數(shù)據(jù)集之一,紐約大學(xué)的Silberman等利用微軟的Kinect V2相機,采集了464個不同室內(nèi)場景的RGB圖和深度圖,共407 024幀RGBD圖像對構(gòu)建數(shù)據(jù)集[20]。數(shù)據(jù)集中圖像大小為640×480像素,深度范圍為0~10 m,本文在其包含訓(xùn)練集50 688幅、測試集654幅圖像的子集上進行研究。
為了取得更好的魯棒性與泛化能力,基于深度學(xué)習(xí)的單幅圖像深度估計要求訓(xùn)練數(shù)據(jù)必須有更多的數(shù)量和類型,但數(shù)據(jù)采集是一項耗時耗力的任務(wù),因此,遷移學(xué)習(xí)得到越來越多的關(guān)注。遷移學(xué)習(xí)將源任務(wù)中學(xué)習(xí)到的特征應(yīng)用到新的目標(biāo)任務(wù)中,利用預(yù)訓(xùn)練模型學(xué)到的豐富特征,可以在數(shù)據(jù)量有限的條件下,大幅提高網(wǎng)絡(luò)的訓(xùn)練效率和預(yù)測精度[21]。因此,本文基于遷移學(xué)習(xí)思想,首先在公共數(shù)據(jù)集NYU Depth V2上對網(wǎng)絡(luò)模型進行預(yù)訓(xùn)練,再將預(yù)訓(xùn)練模型權(quán)重遷移到果樹深度數(shù)據(jù)集上訓(xùn)練微調(diào)參數(shù)。
本文基于HRNet構(gòu)建編碼器提取多尺度特征,使用密集連接機制強化特征傳遞的連續(xù)性;添加卷積注意力模塊進行特征重標(biāo)定,強化結(jié)構(gòu)信息,提高深度特征提取能力;在解碼器網(wǎng)絡(luò)中添加條紋細化模塊突出邊緣特征、改善邊緣模糊,最終生成高質(zhì)量深度圖。
1.2.1 改進HRNet網(wǎng)絡(luò)結(jié)構(gòu)
單幅圖像深度估計的本質(zhì)是構(gòu)建一個關(guān)聯(lián)圖像信息和深度信息的模型[22],在規(guī)定的范圍內(nèi)對圖像中每一個像素進行深度預(yù)測,需要綜合特征圖分辨率、多尺度信息融合等多方面因素。傳統(tǒng)的對稱性編解碼器網(wǎng)絡(luò)往往先經(jīng)卷積池化得到低分辨率深度特征,再逐步上采樣增加特征圖的分辨率得到深度圖。但是簡單的上采樣往往會丟失較多的全局信息,采用跳躍連接逐級融合低層特征時又容易引入背景噪聲。中科大和微軟亞洲研究院提出的高分辨率網(wǎng)絡(luò)[23](High-Resoultion Net, HRNet)在整個特征提取的過程中始終保持高分辨率的特征圖,而多尺度信息則通過在高分辨率特征圖主分支上逐漸并行加入低分辨率的特征子分支的方式來獲取,強化上下文語義特征提取能力的同時,最大限度地保留圖像信息,能夠更好地滿足單幅圖像深度估計任務(wù)需求,因此本文采用HRNet作為基礎(chǔ)框架。
本研究提出的改進HRNet的多分支深度估計網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,主要由基于HRNet多尺度特征提取的編碼器和恢復(fù)特征圖尺寸的解碼器網(wǎng)絡(luò)組成。將卷積神經(jīng)網(wǎng)絡(luò)相鄰兩個降采樣模塊間的卷積過程稱為一個階段(Stage),基于HRNet的多分支編碼器網(wǎng)絡(luò)共4個階段,Stage1只包含一個最高分辨率分支,從Stage2開始,每個階段依次增加一個平行分支,將前一階段個分支的輸出作為后一階段+1個分支的輸入,新增分支為前一階段最低分辨率分支的一半,通道數(shù)則提升兩倍。編碼器最終輸出4個尺度的特征圖,通道數(shù)分別為64、128、256、512,圖像分辨率則分別為原圖的1/4、1/8、1/16、1/32。為了提高特征傳遞過程中的連續(xù)性,引入密集連接機制,使用denseblock模塊替換Stage1中原Bottleneck模塊及后續(xù)新增分支中的basicblock模塊。不同分辨率特征統(tǒng)一尺寸后進行通道拼接,實現(xiàn)不同分支間的特征交互,再經(jīng)卷積注意力模塊(Convolutional Block Attention Module, CBAM),在通道及像素層級對融合特征進行重標(biāo)定,減少噪聲干擾。在解碼器中使用條紋細化模塊(Stripe Refinement Module, SRM)自適應(yīng)地學(xué)習(xí)特征圖邊界信息,細化高分辨率深度,最后經(jīng)上采樣生成深度圖,實現(xiàn)單幅圖像深度估計。
注:d為denseblock模塊;B為Bottleneck模塊;b為basicblock模塊;虛線框內(nèi)為網(wǎng)絡(luò)模塊調(diào)整,使用denseblock模塊替換原Bottleneck模塊或basicblock模塊;CBAM為卷積注意力模塊;SRM為條紋細化模塊。
1.2.2 使用密集連接機制改善網(wǎng)絡(luò)結(jié)構(gòu)
原HRNet網(wǎng)絡(luò)中的basicblock模塊、Bottleneck模塊是通過像素級相加,建立層與層之間的短路連接,這有助于訓(xùn)練過程中梯度的反向傳播,從而訓(xùn)練出更深的網(wǎng)絡(luò),但以相加的方式無法反推原來的輸入特征,導(dǎo)致訓(xùn)練參數(shù)量大、過程復(fù)雜[24]。而本文改進HRNet網(wǎng)絡(luò)中的denseblock模塊則是在通道維度進行拼接,建立前層與后面所有層之間的密集連接[25],能夠較好地保留原有特征,實現(xiàn)和加強了特征重用,有效減少了參數(shù)量,效率也得到提高。它的缺點在于對顯存占用量較大,所以僅在每一階段產(chǎn)生新分支特征圖時使用。basicblock模塊、Bottleneck模塊、denseblock模塊如圖3所示。
1.2.3 添加卷積注意力模塊提升模型精度
由于深度估計任務(wù)主要是對編碼器網(wǎng)絡(luò)產(chǎn)生的特征圖進行逐像素預(yù)測,特征圖中每個像素的位置對于輸出結(jié)果的影響也應(yīng)被充分考慮。同時,在編碼器網(wǎng)絡(luò)中不同分辨率特征的多次融合可能會引入噪聲,造成信息冗余。因此,本研究將注意力機制應(yīng)用在每個stage特征融合過程及編碼器網(wǎng)絡(luò)最終輸出特征上。
首先對編碼器網(wǎng)絡(luò)中低分辨率特征圖進行上采樣或高分辨率特征圖進行下采樣獲得統(tǒng)一分辨率特征圖并進行通道拼接,然后采用卷積注意力模塊(CBAM)在通道以及像素層級對融合特征圖進行特征重標(biāo)定。CBAM模塊由通道注意力模塊(Channel Attention Module, CAM)和空間注意力模塊(Spatial Attention Module, SAM)串聯(lián)組成[26]。對于給定特征圖,CBAM模塊會沿著通道和空間這兩個獨立的維度依次推斷注意力圖,然后將注意力圖與輸入特征圖相乘以進行自適應(yīng)特征優(yōu)化,CBAM結(jié)構(gòu)如圖4所示。由于CBAM是輕量級的通用模塊,因此可以忽略該模塊的開銷而將其無縫集成到解碼器網(wǎng)絡(luò)架構(gòu)中,并且可以與基礎(chǔ)網(wǎng)絡(luò)一起進行端到端訓(xùn)練。
1.2.4 添加條紋細化模塊突出邊緣特征
機械采收時果實目標(biāo)的三維定位和枝干避障都需要精準的深度信息,單目圖像深度估計常見的邊緣模糊問題容易對機器人自主作業(yè)造成干擾。Xue等在2021年提出的條紋細化模塊(Stripe Refinement Module, SRM)如圖5所示,將條紋細化模塊應(yīng)用到解碼器中,首先使用卷積核大小為3×11和11×3的條紋卷積,對水平與垂直正交方向的邊界像素進行聚集[15],再經(jīng)后續(xù)的特征融合與卷積可以較好的突出邊緣特征,改善邊緣模糊問題。
圖3 三種模塊結(jié)構(gòu)
注:特征圖大小為H×W,通道數(shù)為N;d為降維系數(shù);Conv為卷積;Pool為池化;Softmax為歸一化指數(shù)函數(shù);Reshape為特征圖重塑。
圖5 條紋細化模塊
1.2.5 損失函數(shù)
為了訓(xùn)練所提出的網(wǎng)絡(luò),將預(yù)測深度p與真實深度g間的損失定義為3個損失函數(shù)的加權(quán)和:
=l+l+l(1)
式中l為像素深度值損失,l為梯度損失,l為表面法向量損失。
因為果樹主要集中在深度較淺區(qū)域,深度較深區(qū)域在圖像中較少,所以使用深度差的對數(shù)作為損失函數(shù)以降低背景等較深區(qū)域?qū)︻A(yù)測結(jié)果的影響,l計算公式為
式中為圖像像素數(shù)。
考慮到場景深度通常離散,且在邊界位置容易發(fā)生突變,定義l改善邊緣失真:
對于細微結(jié)構(gòu)誤差,通過計算法向量夾角來減少物體表面波動對深度估計的影響,l計算公式為
1.2.6 模型性能評價指標(biāo)
本文采用深度精度指標(biāo)來評價深度預(yù)測的準確性,使用深度邊界誤差(Depth Boundary Error,DBE)來評價預(yù)測深度圖中邊緣的完整性和準確性。
1)深度精度指標(biāo)
深度精度由平均相對誤差(MRE)、均方根誤差(RMS)、對數(shù)平均誤差(log10)和不同閾值(thr)下準確率()4個指標(biāo)組成,各指標(biāo)表達式如下:
式中為測試集中所有圖像像素點總個數(shù)。
深度精度評價指標(biāo)中,REL、RMSlog10的值越小越好,不同閾值下準確率()的值越大越好。
2)深度邊界誤差
1.2.7 試驗環(huán)境與參數(shù)設(shè)置
本文模型基于Tensorflow框架實現(xiàn),在深度學(xué)習(xí)工作站上進行訓(xùn)練,其配置為AMDW-2245@3.90GHz×12,內(nèi)存64 GB和顯存11 GB的NVIDIA GeForce RTX 2080 Ti,操作系統(tǒng)為Win10,安裝CUDA和CUDNN,python版本為3.7,tensorflow版本為2.2。首先在NYU Depth V2公共數(shù)據(jù)集上進行訓(xùn)練,之后利用遷移學(xué)習(xí),在果樹深度數(shù)據(jù)集上訓(xùn)練微調(diào)參數(shù)。使用Adam(自適應(yīng)估計)優(yōu)化器進行優(yōu)化,設(shè)置初始學(xué)習(xí)率為0.000 1,優(yōu)化器超參數(shù)1=0.9,2=0.999,每4個epoch降低10%。網(wǎng)絡(luò)共訓(xùn)練60個epoch,步長為4。
為了驗證本文算法的有效性,對不同改進程度的HRNet網(wǎng)絡(luò)進行試驗。僅使用密集連接機制模塊的網(wǎng)絡(luò)記為HRNet-A,僅使用卷積注意力模塊記為HRNet-B,僅使用條紋細化模塊的網(wǎng)絡(luò)記為HRNet-C,同時進行以上所有改進的記為改進HRNet。在NYU Depth V2公共數(shù)據(jù)集和果樹深度數(shù)據(jù)集上對以上模型進行測試,REL、RMS、log10、不同閾值下準確率和深度邊界定位誤差結(jié)果如表1所示。同時,為了更直觀地體現(xiàn)不同改進對網(wǎng)絡(luò)預(yù)測結(jié)果的影響,在果樹深度數(shù)據(jù)集上進行主觀比較,深度圖對比如圖6所示。
表1 不同改進網(wǎng)絡(luò)評價指標(biāo)對比
從表1可以看出使用密集連接機制,添加卷積注意力模塊,引入條紋細化模塊都能不同程度提升網(wǎng)絡(luò)的性能。
圖6中,與真實深度圖相比,原HRNet網(wǎng)絡(luò)生成的深度圖比較粗糙,有比較嚴重的深度失真、細節(jié)模糊問題。HRNet-A網(wǎng)絡(luò)生成的深度圖模糊問題得到改善;HRNet-B網(wǎng)絡(luò)生成的深度圖能較好地呈現(xiàn)圖像深度信息,分辨率得到提高;HRNet-C網(wǎng)絡(luò)和改進HRNet網(wǎng)絡(luò)生成的深度圖輪廓清晰,棱角分明,一些小尺寸物體的深度信息也得到了展現(xiàn);改進HRNet網(wǎng)絡(luò)生成的深度圖整體效果最好,更接近真實深度圖。
圖6 不同改進網(wǎng)絡(luò)在果樹深度數(shù)據(jù)集上的估計結(jié)果
將本文算法與當(dāng)前主流的網(wǎng)絡(luò)進行試驗對比,包括文獻[14]中算法(稱為DenseDepthNet)、文獻[15]中算法(稱為BSNet)、文獻[17]中算法(稱為AdaBinsNet),進一步驗證本文算法的先進性??陀^評價指標(biāo)結(jié)果如表2所示,網(wǎng)絡(luò)模型參數(shù)量及平均預(yù)測時間如表3所示。
表2 不同算法評價指標(biāo)對比
表3 不同算法模型參數(shù)量及平均預(yù)測時間
從表中可以看出,本文算法的深度精度和邊界誤差指標(biāo)都優(yōu)于DenseDepthNet、BSNet;與AdaBinsNet相比深度精度指標(biāo)和深度邊緣準確誤差指標(biāo)結(jié)果較差,但邊緣完整性誤差、模型參數(shù)量大小和平均預(yù)測時間都較小,有一定優(yōu)勢。
果樹深度數(shù)據(jù)集上不同算法主觀效果對比如圖7所示,改進HRNet網(wǎng)絡(luò)生成的深度圖具有更加精確的空間分辨率和更豐富的邊界細節(jié)信息。與真實深度圖相比,DenseDepthNet生成的深度圖比較模糊,部分物體連在一起,很難進行分辨;BSNet、AdaBinsNet和改進HRNet網(wǎng)絡(luò)生成的深度圖物體邊界都較為清晰,但改進HRNet網(wǎng)絡(luò)深度圖連續(xù)性更好,保留了更多細節(jié)信息,物體形狀更完整,主觀效果最好。
圖7 不同算法在果樹深度數(shù)據(jù)集上的估計結(jié)果
1)本文提出了一種基于改進HRNet的單幅圖像蘋果果樹深度估計模型?;贖RNet構(gòu)建4個分支并行的編碼器網(wǎng)絡(luò),通過使用密集連接機制、添加卷積注意力模塊,改進編碼器性能,強化特征圖結(jié)構(gòu)信息,實現(xiàn)多尺度特征的有效提?。辉诮獯a器中引入條紋細化模塊提高對小物體深度估計的準確性,深度圖邊緣模糊問題得到改善。
2)在公共數(shù)據(jù)集和果樹深度數(shù)據(jù)集上進行試驗,改進HRNet網(wǎng)絡(luò)在主觀評價和客觀指標(biāo)上綜合表現(xiàn)最優(yōu),在果樹深度數(shù)據(jù)集上的平均相對誤差、均方根誤差、對數(shù)平均誤差、深度邊緣準確誤差和邊緣完整性誤差分別為0.123、0.547、0.051、3.90和10.59,在1.25、1.252、1.253閾值下的準確率分別達到了0.850、0.975、0.993,驗證了本文算法的有效性。
但由于在編碼器中需要進行多次特征融合,導(dǎo)致算法參數(shù)量和計算量較大,后續(xù)考慮對網(wǎng)絡(luò)進行輕量化處理,以便移植到嵌入式設(shè)備。
[1] 王丹丹,宋懷波,何東健. 蘋果采摘機器人視覺系統(tǒng)研究進展[J]. 農(nóng)業(yè)工程學(xué)報,2017,33(10):59-69.
Wang Dandan, Song Huaibo, He Dongjian. Research advance on vision system of apple picking robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017, 33(10): 59-69. (in Chinese with English abstract)
[2] 周云成,鄧寒冰,許童羽,等. 基于稠密自編碼器的無監(jiān)督番茄植株圖像深度估計模型[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(11):182-192.
Zhou Yuncheng, Deng Hanbing, Xu Tongyu, et al. Unsupervised deep estimation modeling for tomato plant image based on dense convolutional auto-encoder[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(11): 182-192. (in Chinese with English abstract)
[3] 張勤,陳建敏,李彬,等. 基于RGB-D信息融合和目標(biāo)檢測的番茄串采摘點識別定位方法[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(18):143-152.
Zhang Qin, Chen Jianmin, Li Bin, et al. Method for recognizing and locating tomato cluster picking points based on RGB-D information fusion and target detection[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 143-152. (in Chinese with English abstract)
[4] 郭繼峰, 白成超, 郭爽. 基于深度學(xué)習(xí)的單目視覺深度估計研究綜述[J]. 無人系統(tǒng)技術(shù),2019,2(2):12-21.
Guo Jifeng, Bai Chengchao, Guo Shuang. A review of monocular depth estimation based on deep learning[J]. Unmanned Systems Technology, 2019, 2(2): 12-21. (in Chinese with English abstract)
[5] 李陽,陳秀萬,王媛,等. 基于深度學(xué)習(xí)的單目圖像深度估計的研究進展[J]. 激光與光電子學(xué)進展,2019,56(19):9-25.
Li Yang, Chen Xiuwan, Wang Yuan, et al. Progress in deep learning based monocular image depth estimation[J]. Laser & Optoelectronics Progress,2019, 56(19): 9-25. (in Chinese with English abstract)
[6] Zhao C, Sun Q, Zhang C, et al. Monocular depth estimation based on deep learning: an review[J]. Science China Technological Sciences, 2020, 63(9): 1612-1627.
[7] 黃軍,王聰,劉越,等. 單目深度估計技術(shù)進展綜述[J]. 中國圖象圖形學(xué)報,2019,24(12):2081-2097.
Huang Jun, Wang Cong, Liu Yue, et al. The progress of monocular depth estimation technology[J]. Journal of Image and Graphics, 2019, 24(12): 2081-2097. (in Chinese with English abstract)
[8] 宋巍,朱孟飛,張明華,等. 基于深度學(xué)習(xí)的單目深度估計技術(shù)綜述[J]. 中國圖象圖形學(xué)報,2022,27(2):292-328.
Song Wei, Zhu Mengfei, Zhang Minghua, et al. A review of monocular depth estimation techniques based on deep learning[J]. Journal of Image and Graphics, 2022, 27(2): 292-328. (in Chinese with English abstract)
[9] Faisal K, Saqib S, Hossein J. Deep learning-based monocular depth estimation methods: A state-of-the-art review[J]. Sensors, 2020, 20(8): 2272-2272.
[10] Masoumian A, Rashwan H A, Cristiano J, et al. Monocular depth estimation using deep learning: A review[J]. Sensors, 2022, 22(14): 5353-5377.
[11] 江俊君,李震宇,劉賢明. 基于深度學(xué)習(xí)的單目深度估計方法綜述[J]. 計算機學(xué)報,2022,45(6):1276-1307.
Jiang Junjun, Li Zhenyu, Liu Xianming. Deep learning based monocular depth estimation: A survey[J]. Chinese Journal of Computers, 2022, 45(6): 1276-1307. (in Chinese with English abstract)
[12] Eigen D, Puhrsch C, Fergus R. Depth map prediction from a single image using a multi-scale deep network[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal: MIT Press, 2014. 2366-2374.
[13] Laina I, Rupprecht C, Belagiannis V, et al. Deeper depth prediction with fully convolutional residual networks[C]// Proceedings of the 4th International Conference on 3D Vision. New York: IEEE Press, 2016. 239-248.
[14] Alhashim I, Wonka P. High quality monocular depth estimation via transfer learning[EB/OL]. (2018-12-31) [2021-07-21]. https://arxiv.org/abs/1812.11941.
[15] Xue F, Cao J, Zhou Y, et al. Boundary-induced and scene-aggregated network for monocular depth prediction[J]. Pattern Recognition, 2021, 115: 1-38.
[16] Fu H, Gong M, Wang C, et al. Deep ordinal regression network for monocular depth estimation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2018.2002-2011.
[17] Bhat S F, Alhashim I, Wonka P. AdaBins: Depth estimation using adaptive bins[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2021: 4008-4017.
[18] 溫竣文. 單目圖像深度估計算法研究[D]. 廣州:華南理工大學(xué),2021.
Wen Junwen. Research on Monocular Image Depth Estimation Algorithm[D]. Guangzhou: South China University of Technology, 2021. (in Chinese with English abstract)
[19] 霍智勇,喬璐. 基于結(jié)構(gòu)化損失的單目深度估計算法研究[J]. 電子科技大學(xué)學(xué)報,2021,50(5):728-733.
Huo Zhiyong, Qiao Lu. Research on monocular depth estimation algorithm based on structured loss[J]. Journal of University of Electronic Science and Technology of China, 2021, 50(5): 728-733. (in Chinese with English abstract)
[20] Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from RGBD images[C]//Proceedings of the 12th European Conference on Computer Vision (ECCV), Florence, Italy. Berlin: Springer Press, 2012: 746-760.
[21] 劉佳濤,張亞萍,楊雨薇. 基于遷移學(xué)習(xí)的高效單目圖像深度估計[J]. 激光與光電子學(xué)進展,2022,59(16):236-244.
Liu Jiatao, Zhang Yaping, Yang Yuwei. Efficient monocular image depth estimation based on transfer learning[J]. Laser & Optoelectronics Progress, 2022, 59(16): 236-244. (in Chinese with English abstract)
[22] 羅會蘭,周逸風(fēng). 深度學(xué)習(xí)單目深度估計研究進展[J]. 中國圖象圖形學(xué)報,2022,27(2):390-403.
Luo Huilan, Zhou Yifeng. Review of monocular depth estimation based on deep learning[J]. Journal of Image and Graphics, 2022, 27(2): 390-403. (in Chinese with English abstract)
[23] Sun K, Xiao B, Liu D, et al. Deep high-resolution representation learning for human pose estimation[C]//IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2019: 5686-5696.
[24] 龍潔花,趙春江,林森,等. 改進Mask R-CNN的溫室環(huán)境下不同成熟度番茄果實分割方法[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(18):100-108.
Long Jiehua, Zhao Chunjiang, Lin Sen, et al. Segmentation method of the tomato fruits with different maturities under greenhouse environment based on improved Mask R-CNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 100-108. (in Chinese with English abstract)
[25] Huang G, Liu Z, Vander M, et al. Densely connected convolutional networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2017: 4700-4708.
[26] Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision(ECCV). Berlin: Springer Press, 2018: 3-19.
Depth estimation of apple tree in single image using improved HRNet
Long Yan, Gao Yan, Zhang Guangben
(1.712100,; 2.712100,; 3.712100,)
An accurate and rapid estimation of apple tree depth can be widely applied to the precise fruit positioning and robot autonomous harvesting in recent years. In this study, an improved High-Resolution Network (HRNet) was proposed to estimate the monocular depth of apple tree in the real scene. The actual requirements of the depth were obtained from a single RGB image for the apple mechanized picking. Firstly, a multi-branch parallel encoder network was constructed to extract the multi-scale features using the HRNet. A dense connection mechanism was introduced to enhance the continuity in the feature transfer process. Secondly, the Convolutional Block Attention Module (CBAM) was used to recalibrate the fused feature maps at the channel and pixel levels, in order to reduce the noise interference that caused by redundant features. Furthermore, the different weight distributions of the feature maps were effectively learned to enhance the structure information. In the decoder network, the Stripe Refinement Module (SRM) was used to gather the boundary pixels in the horizontal and vertical orthogonal directions. The boundary details of the feature map were adaptively optimized to highlight the edge features. As such, the blurry edge was reduced in the predicted images. Finally, the up-sampling was utilized to generate the prediction depth images of the same size as the RGB images. An image acquisition platform was constructed to collect the RGB and depth images of apple orchards at different times. The data was then enhanced using horizontal mirroring, color jitter, and random rotation. After data enhancement, the 3374 orchard RGB and depth images were obtained for the depth datasets. A series of experiments were also conducted on the NYU Depth V2 dataset and the orchard depth dataset. Ablation experiments were firstly performed on the HRNet networks with different degrees of improvement. The predictive performance of different improved networks was improved significantly, compared with the traditional HRNet network. It indicated that the dense connection mechanism, CBAM, and SRM were added to improve the model performance. Secondly, the mean relative error (MRE), root mean square error (RMS), logarithmic mean error, depth edge accuracy error, and edge integrity error of the improved HRNet network on the orchard depth dataset were 0.123, 0.547, 0.051, 3.90 and 10.59, respectively, compared with the current mainstream networks. The accuracy reached 0.850, 0.975 and 0.993 at different thresholds, respectively. More accurate spatial resolution was achieved in the depth map that generated by the improved HRNet network, in terms of subjective vision. The improved network can be expected to better present the depth information distribution of the image, particularly with the clear edges and more texture details. More importantly, the depth information of some small-sized objects was also displayed, indicating the best overall effect closer to the real depth map. The ablation analysis demonstrated the higher effectiveness of depth estimation using the improved network, compared with the subjective and objective ones. The experiment also verified that the proposed network was outperformed for both visual quality and objective measurement on the NYU Depth V2 and the orchard depth dataset. The finding can provide a new idea to obtain depth information in the apple automatic picking machine.
image processing; deep learning; apple tree; single image depth estimation; dense connection mechanism; convolutional block attention module; stripe refinement module
10.11975/j.issn.1002-6819.2022.23.013
S24; S126
A
1002-6819(2022)-23-0122-08
龍燕,高研,張廣犇. 基于改進HRNet的單幅圖像蘋果果樹深度估計方法[J]. 農(nóng)業(yè)工程學(xué)報,2022,38(23):122-129.doi:10.11975/j.issn.1002-6819.2022.23.013 http://www.tcsae.org
Long Yan, Gao Yan, Zhang Guangben. Depth estimation of apple tree in single image using improved HRNet[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2022, 38(23): 122-129. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2022.23.013 http://www.tcsae.org
2022-09-26
2022-11-26
陜西省重點研發(fā)計劃一般項目—農(nóng)業(yè)領(lǐng)域(2020NY-144)
龍燕,副教授,博士,研究方向為農(nóng)業(yè)電子與自動化技術(shù)、數(shù)字農(nóng)業(yè)與農(nóng)業(yè)信息化工程。Email:longyan@nwsuaf.edu.cn