周宏平 ,金壽祥 ,周 磊 ,郭自良 ,孫夢夢
(南京林業(yè)大學(xué)機(jī)械電子工程學(xué)院,南京 210037)
油茶是中國重要的木本油料作物,主要分布于中國南方低山丘陵和山區(qū),是中國栽培面積最大、分布最廣的經(jīng)濟(jì)樹種之一[1-3]。油茶是一種花果同期作物,導(dǎo)致采收難度較大,振動式和梳齒式采收的方法會導(dǎo)致部分茶花脫落,導(dǎo)致來年產(chǎn)量下降[4-5]。搖枝式采收是目前較為合適的一種油茶果果實(shí)采收方法,其具有振動式采收速度快的優(yōu)點(diǎn),并且對茶花傷害較小,所以準(zhǔn)確識別油茶果,判斷果實(shí)疏密區(qū)域從而確定振動頭夾持位置是實(shí)現(xiàn)自動搖枝采收方法的重要步驟[6-7],因而解決自然場景中油茶果果實(shí)準(zhǔn)確、高效的識別難題對實(shí)現(xiàn)油茶果自動化采收具有重大意義。
自然環(huán)境中生長的油茶樹枝葉茂密,加之油茶果果實(shí)較小,因此存在著大量果實(shí)重疊、果實(shí)被枝葉遮擋的情況,另外受光照條件變化的影響,易出現(xiàn)背光、強(qiáng)光等不利因素,給識別造成困難[8-10]。目前針對果實(shí)識別問題主要是基于RGB圖像的識別方法,陳志健等[11]為了實(shí)現(xiàn)重疊油茶果的定位,將RGB圖像經(jīng)過閾值分割、形態(tài)學(xué)操作和最小二乘法擬合的方法確定圖像中油茶果的位置,單張圖像平均耗時0.52 s。陳斌等[12]將Faster RCNN深度學(xué)習(xí)模型用于油茶果的識別之中,油茶果識別準(zhǔn)確率達(dá)到98.92%,平均每幅圖像識別時間為0.2 s。為了提高識別速度,宋懷波等[13]使用YOLOv5s模型進(jìn)行油茶果果實(shí)識別,平均檢測精度達(dá)到了98.71%,單幅圖像檢測時間僅為12.7 ms,與YOLOv4-tiny和RetinaNet模型相比,檢測時間分別減少了96.39%和96.25%。
當(dāng)前國內(nèi)外學(xué)者使用RGB圖像對果實(shí)進(jìn)行識別進(jìn)行了充分的研究,取得了大量的成果,但大部分集中在模型結(jié)構(gòu)優(yōu)化與改進(jìn),提高檢測速度與精度上[14-17],缺少對多模態(tài)數(shù)據(jù)使用的研究。隨著消費(fèi)級RGB-D相機(jī)的普及,其正在被越來越多的應(yīng)用于果實(shí)的識別與定位研究中[18-20],如王文杰等[21]提出基于RGB-D信息融合的番茄識別方法,該方法將RGB圖像、深度圖像和紅外圖像融合成5通道的融合圖像,并輸入Mask RCNN模型進(jìn)行訓(xùn)練,果實(shí)識別準(zhǔn)確率為98.3%,高出只使用RGB圖像訓(xùn)練的Mask RCNN模型2.9個百分點(diǎn)。WANG等[22]為提高遮擋番茄識別效果,提出一種集合深度信息與彩色圖像信息的改進(jìn)SSD模型,該模型在后端融合彩色特征與深度特征進(jìn)行預(yù)測。結(jié)果表明,該方法的平均識別精度高于只使用RGB圖像或深度圖像。但是,由于消費(fèi)級RGB-D相機(jī)傳感器精度與成像原理的限制,導(dǎo)致深度圖像的質(zhì)量不高,存在一些深度值為零的像素點(diǎn)組成的深度孔。而且在室外果園環(huán)境中獲取的深度圖像上難以直接分辨果實(shí)與葉片,簡單的將其與RGB圖像進(jìn)行融合,會忽略不同模態(tài)和區(qū)域?qū)z測結(jié)果的影響,且更容易在深度圖像噪聲區(qū)域產(chǎn)生過擬合現(xiàn)象。
本文為了更好地利用多模態(tài)數(shù)據(jù),提出一種雙主干特征提取網(wǎng)絡(luò),分別提取彩色特征與深度特征,并在特征層的維度進(jìn)行多尺度特征融合。為了降低雙主干模型大小,本文在YOLOv5模型主干的基礎(chǔ)上,結(jié)合Inception-Res模塊,提出了一種輕量化的特征提取網(wǎng)絡(luò)。同時,針對深度圖像中存在空洞,圖像質(zhì)量不高的問題,本文使用一種基于卷積注意力機(jī)制的特征融合方法,增加可能存在果實(shí)區(qū)域的特征權(quán)重,在特征融合過程中降低深度噪聲的影響,提高果實(shí)檢測精度率。最后通過試驗(yàn)驗(yàn)證所提出模型對自然環(huán)境中油茶果果實(shí)的識別效果,以期為實(shí)現(xiàn)油茶果的自動化采收提供技術(shù)支持。
本次試驗(yàn)數(shù)據(jù)采集地位于南京市江寧區(qū)南京金航油茶合作社(31°68'19″,118°89'34″),油茶果顏色多為黃褐色與紅色,部分品種為青綠色,形狀為圓球形、橢球形或橄欖型,如圖1所示,果實(shí)之間形態(tài)差異大,遮擋情況嚴(yán)重,給識別帶來了困難。本次試驗(yàn)研究的數(shù)據(jù)采集于2022年10月2日至15日,采集設(shè)備是Intel Real-Sense d435f深度相機(jī),用于采集RGB-D圖像,每組RGB-D圖像由一張RGB圖像和對應(yīng)的深度圖像組成。數(shù)據(jù)采集工作在Windows10平臺上進(jìn)行,通過Intel Real-Sense官方提供的pyrealsense2函數(shù)庫在python3.8環(huán)境中進(jìn)行編程和程序運(yùn)行,采集油茶果RGB-D圖像,并通過函數(shù)庫中的align函數(shù)保證RGB圖像與深度圖像之間的保持對應(yīng)。
為確保數(shù)據(jù)的多樣性與可靠性,分別采集了遠(yuǎn)景、近景、遮擋、重疊、強(qiáng)光、背光和密集等場景中的油茶果RGB-D圖像,共采集到8 000組分辨率為1 280×720的RGB-D圖像。
從最初的8 000組RGB-D圖像中剔除重復(fù)、拖影、無果實(shí)的圖像后,剩余1 040組RGB-D圖像作為原始數(shù)據(jù)集。為符合模型輸入端640×640的尺寸要求,在每組圖像上隨機(jī)生成10個640×640的方框?qū)? 280×720的原始圖像進(jìn)行裁剪,生成10 400組RGB-D圖像。再次篩選掉其中相似、無果實(shí)的圖像后,得到1 379組RGBD圖像作為試驗(yàn)數(shù)據(jù)集,命名為MCOTDD(multi-modal Camellia oleifera target detection dataset,多模態(tài)油茶果目標(biāo)檢測數(shù)據(jù)集)。另外將1 379組RGB-D圖像中的RGB圖像取出建立RGB單模態(tài)數(shù)據(jù)集,命名為COTDD(Camellia oleifera target detection dataset,油茶果目標(biāo)檢測數(shù)據(jù)集),在比較不同輸入對模型檢測效果的影響時使用。
同時為了降低深度圖像中可能存在的遠(yuǎn)景處過大的深度值對模型訓(xùn)練產(chǎn)生的不利影響[23],將深度值大于1.20 m的像素點(diǎn)的數(shù)值置為0,效果如圖2所示。本試驗(yàn)使用YOLO格式的數(shù)據(jù)集,采用LabelImg圖像標(biāo)注工具在RGB圖像上進(jìn)行標(biāo)注。由于本次研究目的僅是油茶果果實(shí)的識別,因此在標(biāo)記時僅有油茶果一類目標(biāo),其余未標(biāo)注部分由LabelImg默認(rèn)為背景。標(biāo)記過程中對被嚴(yán)重遮擋的、遠(yuǎn)處目標(biāo)過小的果實(shí)不予標(biāo)記,防止模型訓(xùn)練出現(xiàn)錯誤,最終共標(biāo)記了8 419個果實(shí)。將標(biāo)記好的圖像按照4:1的比例劃分成訓(xùn)練集與驗(yàn)證集,其中訓(xùn)練集圖像1 104組,驗(yàn)證集圖像275組。
圖2 油茶果RGB-D數(shù)據(jù)的可視化示例Fig.2 Visual example of camellia oleifera RGB-D data
為提高自然環(huán)境中油茶果小目標(biāo)識別精度,使用多模態(tài)的RGB-D圖像作為數(shù)據(jù)源,提出了一種雙主干的油茶果目標(biāo)識別模型YOLO-DBM(YOLO- dual backbone model),結(jié)構(gòu)如圖3所示。該模型的核心思想是使用兩個輕量化的特征提取網(wǎng)絡(luò)作為RGB-D圖像的特征提取器,分別用來提取RGB-D圖像中的顏色特征與深度特征,避免模型在特征提取過程中,由于不同模態(tài)數(shù)據(jù)性質(zhì)不同而發(fā)生干擾。其次,為了更好的融合多模態(tài)特征,提出了一種基于注意力機(jī)制的特征融合模塊,來對雙主干特征提取網(wǎng)絡(luò)提取到的不同模態(tài)特征進(jìn)行逐級融合,降深度孔的不利影響,并使不同特征層之間融合更充分。最后,使用FPN(feature pyramid network,特征金字塔網(wǎng)絡(luò))作為頸網(wǎng)絡(luò),對經(jīng)過特征融合后的不同特征層進(jìn)行多尺度融合,提高對油茶果小目標(biāo)的識別能力。
圖3 YOLO-DBM網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of YOLO-DBM network
另外,為比較本文提出的雙主干模型YOLO-DBM的有效性,提出了一種與其對應(yīng)的單主干網(wǎng)絡(luò)模型YOLOIR(YOLO-InceptionRes),該模型在YOLO-DBM的基礎(chǔ)上,移除了特征融合模塊和一支特征提取網(wǎng)絡(luò),僅使用一支主干網(wǎng)絡(luò)作為特征提取單元,其他結(jié)構(gòu)不變,為后續(xù)消融試驗(yàn)提供參照。
YOLOv5s是目前較為常用的一階段目標(biāo)檢測算法,其在保證較高的檢測精度的同時還能保持較快的檢測速度,在果實(shí)識別領(lǐng)域被大量應(yīng)用[24-28]。因此,本文在YOLOv5s模型的主干網(wǎng)絡(luò)CSP-Darknet53的基礎(chǔ)上進(jìn)行了一些輕量化改進(jìn),設(shè)計(jì)了一種輕量化的特征提取網(wǎng)絡(luò),結(jié)構(gòu)如表1所示。首先,使用InceptionRes特征提取模塊替代CSP-Darknet53中的第一個和最后一個C3(concentrated-comprehensive convolution block)特征提取模塊,引入多尺度信息。其次,控制網(wǎng)絡(luò)每層輸出的通道數(shù),縮小網(wǎng)絡(luò)寬度,減少冗余的參數(shù)。另外,由于使用的InceptionRes模塊已經(jīng)引入了多尺度信息,所以將CSP-Darknet53中的SPPF(spatial pyramid pooling-fast,快速空間金字塔池化)多尺度融合模塊移除,降低結(jié)構(gòu)復(fù)雜度。
InceptionRes模塊[29]如圖4所示,由4條不同尺度的分支組合而成。其先利用1×1卷積將左邊3個通道降至c,降低后續(xù)計(jì)算量,再分別使用3個等效5×5、3×3和1×1卷積進(jìn)行特征提取,再添加一條3×3最大池化并配合1×1卷積降低通道維度,得到4個通道數(shù)為c的不同尺度的特征層。然后,經(jīng)過Concat拼接操作,恢復(fù)到原始通道數(shù)4c,實(shí)現(xiàn)多尺度信息融合,提高網(wǎng)絡(luò)對不同尺度目標(biāo)的感知能力。最后,添加殘差結(jié)構(gòu)防止深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程出現(xiàn)梯度爆炸或梯度消失的現(xiàn)象。
圖4 InceptionRes模塊結(jié)構(gòu)Fig.4 InceptionRes module structure
為了更充分地利用多模態(tài)數(shù)據(jù),使用特征融合是必要的[30-31]。RGB圖像包含顏色、形狀、紋理等二維平面信息,而深度圖像更多的表示目標(biāo)物的空間距離信息,兩者包含的信息意義不同,能實(shí)現(xiàn)一定程度的信息互補(bǔ),有助于提升識別效果。然而,由于目前深度圖像的質(zhì)量問題以及不同模態(tài)對檢測結(jié)果作用的占比不同,簡單的將彩色特征與深度特征進(jìn)行相加或疊加操作是不合適的。因此,本文提出了一種注意力融合模塊,如圖5所示。注意力機(jī)制可以使模型增加對關(guān)鍵或通道的關(guān)注度,過濾一些噪聲干擾,提高模型檢測精度。
圖5 注意力特征融合模塊結(jié)構(gòu)Fig.5 Attention feature fusion module structure
在圖5所示的注意力特征融合模塊中,F(xiàn)RGB與Fdepth分別代表同一尺度的RGB與深度特征層,高、寬和通道數(shù)分別為H、W和C,F(xiàn)RGB通過最大池化和平均池化操作后,得到大小為H×W×1的ws-max最大特征圖與ws-avg平均特征圖,將兩者相加得到FRGB的空間權(quán)重ws。通過上述操作,增大了FRGB中可能存在目標(biāo)區(qū)域的權(quán)重,將ws與Fdepth相乘,強(qiáng)調(diào)對深度特征中重要區(qū)域的學(xué)習(xí)。之后,將調(diào)整后的深度特征層與原始FRGB進(jìn)行拼接操作,得到大小為H×W×2C的RGB-D特征層FRGB-D,通過全局最大池化與平均池化操作,得到長度為2C的一維向量wc-max和wc-avg,相加后得到FRGB-D的通道權(quán)重wc,將其與FRGB-D相乘后,強(qiáng)調(diào)了重要通道貢獻(xiàn),削弱無效通道,得到。最后,利用1×1卷積對進(jìn)行降維,得到大小為H×W×C的特征層,作為模型的預(yù)測特征層。
本次試驗(yàn)使用戴爾 Precision 7 750工作站進(jìn)行深度學(xué)習(xí)部分的訓(xùn)練與驗(yàn)證,硬件配置包括:中央處理器為Intel(R) Core(TM) i7-10875H CPU @2.30 GHz,運(yùn)行內(nèi)存為64GB,圖形處理器為NVIDIA Quadro RTX A4000 mobile 8GB版本,1T固態(tài)硬盤。軟件運(yùn)行在Windows 10(22H2)操作系統(tǒng),所有程序在Pytorch1.12深度學(xué)習(xí)框架下用python語言編寫,并使用NVIDIA CUDA11.6并行運(yùn)算驅(qū)動加速訓(xùn)練。
經(jīng)過多次調(diào)整參數(shù)、測試后,最終確定訓(xùn)練時批處理(batchsize)大小為16,初始學(xué)習(xí)率為0.01,衰減系數(shù)為0.01,動量為0.9,最大迭代次數(shù)為1 000。為了防止模型在訓(xùn)練初期出現(xiàn)大幅波動,在訓(xùn)練過程使用了熱身訓(xùn)練,將前20輪的學(xué)習(xí)率變?yōu)閺?.000 5逐步增加到原來第20輪的學(xué)習(xí)率,使模型從較小的學(xué)習(xí)率開始學(xué)習(xí),學(xué)習(xí)率變化如圖6所示。另外,為了提高模型的魯棒性,在模型訓(xùn)練過程中使用了馬賽克數(shù)據(jù)增強(qiáng)[32],通過隨機(jī)裁剪、縮放、翻轉(zhuǎn)、色彩變化等圖像增強(qiáng)操作后,再隨機(jī)拼接成一張圖片進(jìn)行訓(xùn)練,豐富數(shù)據(jù)的多樣性。
圖6 學(xué)習(xí)率曲線Fig.6 Learning rate curve
為了比較模型的性能,設(shè)置一些評價指標(biāo)是必要的,考慮到該模型是針對油茶果識別進(jìn)行設(shè)計(jì)的,識別精度與識別速度是衡量識別效果好壞的重要指標(biāo),因此使用召回率(recall,R)、精確率(precision,P),平均精度(average precision,AP)和每秒檢測圖像幀數(shù)(frames per second,F(xiàn)PS)作為評價指標(biāo)。具體計(jì)算方法如下:
式中TP表示模型將正樣本識別為正樣本,即正確識別出目標(biāo)果實(shí)的情況,F(xiàn)P表示模型將正樣本識別為負(fù)樣本,即未被識別到目標(biāo)的情況,F(xiàn)N表示負(fù)樣本被識別為正樣本,即背景被錯誤認(rèn)為是目標(biāo)的情況。
為了驗(yàn)證本文設(shè)計(jì)的輕量化特征提取網(wǎng)絡(luò)的有效性,使用COTTD數(shù)據(jù)集進(jìn)行訓(xùn)練與測試。從表2中可以看出,使用輕量化特征提取網(wǎng)絡(luò)的YOLO-IR與YOLOv5s相比,模型文件大小減少了69.27%,模型浮點(diǎn)運(yùn)算量降低了70.88%,而模型的平均精度AP僅下降了0.2個百分點(diǎn)。改進(jìn)后的模型在略微損失一些檢測進(jìn)度的情況下,大幅降低了模型的計(jì)算量和參數(shù)量,說明了輕量化特征提取網(wǎng)絡(luò)的有效性,為輕量化的雙主干網(wǎng)絡(luò)構(gòu)建提供了保障。
表2 YOLO-IR與YOLOv5s模型的檢測效果對比Table 2 Comparison of detection effects between YOLO-IR and YOLOv5s models
為了證明雙主干模型YOLO-DBM在多模態(tài)數(shù)據(jù)應(yīng)用中的優(yōu)勢,本文進(jìn)行了4組對比試驗(yàn),結(jié)果見表3。其中YOLO-DBM(Concat)模型是將YOLO-DBM模型中的注意力融合模塊替換為Concat拼接模塊,其余結(jié)構(gòu)不變。因此,下文中的YOLO-DBM默認(rèn)代表使用注意力融合的情況。
表3 不同圖像類型和融合策略的檢測效果對比Table 3 Comparison of detection effects of different image types and fusion strategies
結(jié)果如表3所示,在同樣使用YOLO-IR模型的情況下,使用RGB-D圖像作為模型輸入的檢測效果反而低于只使用RGB圖像作為輸入的情況,模型平均精度AP從98.1%下降到了96.8%。與一些類似的研究結(jié)果產(chǎn)生了差異,使用多模態(tài)數(shù)據(jù)并沒有提高檢測精度,反而導(dǎo)致檢測精度下降。上述現(xiàn)象的主要原因可能在于本次試驗(yàn)的油茶果園環(huán)境復(fù)雜,枝葉茂密、遮擋嚴(yán)重,使得所獲取的深度圖像質(zhì)量較差,存在大量深度孔,簡單的將其在輸入端融合會給模型帶來噪聲,導(dǎo)致模型學(xué)習(xí)困難。
在同樣使用RGB-D數(shù)據(jù)作為輸入的情況下,YOLODBM模型的檢測效果明顯好于數(shù)據(jù)層融合的YOLO-IR模型,模型的精確率P、召回率R和平均精度AP分別增加了2.9、1.1和1.6個百分點(diǎn),而模型大小僅為6.31MB,每幅圖片檢測速度達(dá)到了0.016 s。而YOLO-DBM(Concat)模型與YOLO-IR相比,精確率有所提高,主要是由于深度圖像包含的距離、輪廓等物理信息,使得模型減少了對背景的誤判,但是,模型召回率卻有所降低,主要原因是深度孔的存在,簡單的特征拼接反而會降低深度孔區(qū)域的整體權(quán)重,導(dǎo)致漏檢情況增多。在同樣使用特征層融合的情況下,基于注意力機(jī)制的特征融合方法的檢測效果要優(yōu)于直接使用拼接融合的方法,精確率與召回率分別提升了0.2與1.6個百分點(diǎn),證明了本文提出的注意力融合機(jī)制的有效性。
與YOLO-IR相比,本文所提出的YOLO-DBM的檢測效果較好,模型精確率P、召回率R和平均精度AP分別高出1.7、0.1和0.3個百分點(diǎn)。與單主干模型相比,雙主干模型使用兩個特征提取網(wǎng)絡(luò)分別提取彩色特征與深度特征,避免了特征提取階段彩色特征信息與深度特征信息的干擾,并通過注意力融合模塊將深度特征與彩色特征相融合,強(qiáng)調(diào)了深度特征中有效的信息,而不是簡單的特征層疊加或相加。試驗(yàn)結(jié)果表明,正確的使用多模態(tài)數(shù)據(jù),可以提高以單模態(tài)數(shù)據(jù)為基礎(chǔ)的目標(biāo)檢測模型的檢測效果。
為了比較本文所提出的基于多模態(tài)數(shù)據(jù)的油茶果識別網(wǎng)絡(luò)YOLO-DBM的檢測效果,將其與YOLOv3、YOLOv5s以及YOLO-IR模型識別效果對比,其中YOLO-DBM與YOLO-DBM(Concat)模型使用的是RGB-D圖像,其余模型使用的是RGB圖像,對比結(jié)果如圖7所示。在圖7背光的情況下,YOLOv3和YOLOv5s將樹葉縫隙中的黃色背景誤識別為果實(shí),而YOLO-DBM可以避免這種誤檢;在圖7光照正常的情況下,YOLOv3與YOLOv5s漏檢了一些圖像邊緣的小目標(biāo)果實(shí),而使用InceptionRes結(jié)構(gòu)的YOLO-IR與YOLO-DBM可以提高小目標(biāo)的置信度,但同樣使用該結(jié)構(gòu)的YOLO-DBM(Concat)由于深度孔的存在,對邊緣小目標(biāo)也出現(xiàn)了漏檢現(xiàn)象;在圖7的果實(shí)密集的情況下,準(zhǔn)確識別圖中每個果實(shí)是困難的,除了 YOLODBM模型檢測到了場景中所有果實(shí),其余模型都出現(xiàn)了漏檢現(xiàn)象。綜上所述,本文所提出的YOLO-DBM模型可以較好的利用顏色與深度信息的互補(bǔ)作用,減少對果實(shí)和背景的誤判,可以準(zhǔn)確定位密集生長與被遮擋的油茶果果實(shí)。
圖7 不同場景下模型檢測效果對比Fig.7 Comparison of model detection effects in different scenarios
模型的定量比較分析如表4所示,其中YOLODBM使用的是MCOTDD數(shù)據(jù)集,其余模型使用的是COTDD數(shù)據(jù)集。YOLOv3與YOLOv5s都是較為常用并且先進(jìn)的目標(biāo)檢測模型,精確率P和召回率R都達(dá)到了90%以上,而改進(jìn)后的單主干模型YOLO-IR在體積大幅減小的情況下,取得了98.1%的平均精度,比YOLO-v3模型高2.6個百分點(diǎn),僅比YOLOv5s模型下降了0.2個百分點(diǎn),在保證檢測進(jìn)度的情況下實(shí)現(xiàn)了模型的輕量化。但是3個模型的精確率均低于召回率,表明模型對相鄰果實(shí)容易出現(xiàn)誤判。雙主干模型YOLO-DBM在測試集上的精確率P、召回率R和平均精度AP分別達(dá)到了94.8%、94.6%和98.4%,對比YOLOv5s、YOLO-IR,該模型的精確率分別高1.1和1.7個百分點(diǎn)。YOLODBM模型的文件大小不足YOLOv5s的二分之一,浮點(diǎn)運(yùn)算量下降了55.7%。
表4 不同檢測模型的檢測效果對比Table 4 Comparison of detection effects of different detection models
1)本文基于YOLOv5s主干網(wǎng)絡(luò)提出了改進(jìn)的特征提取網(wǎng)絡(luò),應(yīng)用該網(wǎng)絡(luò)的YOLO-IR模型對自然環(huán)境下油茶果識別的精確率P為93.1%,召回率R為94.5%,平均精度為98.1%,單張圖片平均檢測耗時僅為0.015 s,模型僅有4.21MB。相比于YOLOv5s模型,YOLO-IR雖然在檢測性能上略有下降,但模型大小與計(jì)算量都有了大幅下降,為搭建輕量化雙主干網(wǎng)絡(luò)提供基礎(chǔ)。
2)探討了多源圖像在油茶果識別中的可行性。在多源圖像的利用上,本文提出了一種雙主干網(wǎng)絡(luò)YOLODBM,用來分別進(jìn)行彩色特征與深度特征的提取。相較于只使用彩色特征的YOLOv5s模型,YOLO-DBM模型在檢測精確率P和平均精度上分別提升1.1和0.1個百分點(diǎn),模型大小卻降低了53.9%,可有效識別重疊、被遮擋與背光處的目標(biāo)果實(shí),同時減少誤檢。
3)在同樣使用單主干網(wǎng)絡(luò)模型進(jìn)行比較的時候發(fā)現(xiàn),使用RGB-D融合圖像的檢測效果相比只使用RGB圖像的平均檢測精度下降了1.3個百分點(diǎn)。與先驗(yàn)知識相違背,更豐富的數(shù)據(jù)并不能保證檢測效果的提升。在后續(xù)研究中可以深入探索不同階段進(jìn)行特征融合對模型檢測效果的影響。
本文提出的YOLO-DBM網(wǎng)絡(luò)模型實(shí)現(xiàn)了在實(shí)際復(fù)雜的果園環(huán)境中對油茶果實(shí)高精度識別的目標(biāo),平均精度達(dá)到了98.4%。且模型大小僅為6.31MB,可在戶外嵌入式設(shè)備部署,具備實(shí)際應(yīng)用能力。