中圖分類號:S126;TP391.41 文獻(xiàn)標(biāo)志碼:A 文章編號:1002-1302(2025)11-0209-11
酥梨作為一種美味可口且營養(yǎng)豐富的水果,含有豐富的礦物質(zhì)、維生素以及其他對人體有益的營養(yǎng)成分,被譽為百果之宗,在人們?nèi)粘o嬍持械闹匾圆豢珊鲆?。隨著人們對健康飲食的追求和對高品質(zhì)水果需求的增加,酥梨的生產(chǎn)和貿(mào)易逐漸成為農(nóng)業(yè)領(lǐng)域的關(guān)鍵產(chǎn)業(yè)之一[1]。然而,傳統(tǒng)的梨果采摘方式仍然依賴于人工,存在采摘效率低、成本高、勞動強度大等問題。梨樹成熟期短,若未及時采摘,不僅會導(dǎo)致果實過熟腐爛,還可能帶來嚴(yán)重的經(jīng)濟損失。因此,實現(xiàn)梨的自動化采摘成為提高產(chǎn)量、降低成本的緊迫需求。
果實檢測在果園采摘機器人的自主作業(yè)中扮演著至關(guān)重要的角色。當(dāng)前,研究人員已經(jīng)運用機器學(xué)習(xí)的技術(shù),尤其是依賴顏色特征的方法,對那些與背景顏色差異顯著的水果進(jìn)行檢測。司永勝等提出了一種基于紅綠差分分離的方法,該方法利用水果形狀形成的輪廓來分離紅色蘋果和綠色背景;然而,當(dāng)目標(biāo)與背景顏色相近時,該方法失效,因為一些水果(如某些蘋果和芒果品種)在成熟時仍然呈現(xiàn)綠色[2]。項榮等采用重疊番茄邊界線的曲率來檢測帶有陰影的番茄,但在處理大陰影區(qū)域時準(zhǔn)確率僅為 76.9%[3] 。與近年來飛速發(fā)展的深度學(xué)習(xí)技術(shù)相比,傳統(tǒng)的機器學(xué)習(xí)方法表現(xiàn)出諸多限制,包括速度較慢、檢測精度低、適用性差等。此外,這些傳統(tǒng)算法只能單一目標(biāo)檢測。就計算機而言,機器學(xué)習(xí)所使用的底層特征難以提取深層語義信息,因此在果園復(fù)雜多變的環(huán)境中,傳統(tǒng)機器學(xué)習(xí)方法不適用于在線設(shè)備和果實檢測[4]
近年來,深度學(xué)習(xí)技術(shù)在果園目標(biāo)檢測方面取得了顯著的進(jìn)展,主要分為2個算法類型:以R-CNN、Fast-RCNN、Faster-RCNN等為代表的兩階段檢測算法和以SSD、YOLO系列等為代表的一階段檢測算法[5-9]
由于兩階段算法在準(zhǔn)確性方面表現(xiàn)出色,因此在農(nóng)業(yè)領(lǐng)域得到了廣泛研究。例如岳有軍等通過在MaskRCNN網(wǎng)絡(luò)的基礎(chǔ)上增加邊界加權(quán)損失函數(shù),使檢測蘋果的 AP 值達(dá)到 92.62% [10];周云成等在Fast-RCNN的基礎(chǔ)上提出了雙卷積鏈方法,融合RGB和灰度圖像特征,使檢測番茄器官的 mAP 值提高了 2.56%[11] ;朱旭等在FasterR-CNN的基礎(chǔ)上,通過卷積神經(jīng)網(wǎng)絡(luò)、區(qū)域候選網(wǎng)絡(luò)、感興趣區(qū)域池化和分類網(wǎng)絡(luò)來實現(xiàn)藍(lán)莓圖像背景消除及果實識別,使平均識別準(zhǔn)確率達(dá)到 94.67%[12] 。盡管兩階段算法具有高精度的優(yōu)勢,但由于需要先生成候選區(qū)域,再對候選區(qū)域內(nèi)的目標(biāo)進(jìn)行分類識別,致使參數(shù)龐大,計算成本增加,檢測速度降低,因此在實時檢測任務(wù)中面臨一定挑戰(zhàn)。
一階段檢測算法是一種端到端的檢測方法,通過深度神經(jīng)網(wǎng)絡(luò)直接預(yù)測圖像中的目標(biāo)位置和類別,在保證檢測精度的情況下,大大提高了識別速度,更適用于在線實時檢測。劉芳等針對番茄果實的識別,在YOLO網(wǎng)絡(luò)模型的基礎(chǔ)上通過融合多尺度檢測和設(shè)計含有殘差模塊的darknet-20主干網(wǎng)絡(luò),使檢測精度達(dá)到 97.13% [13];武星等在YOLOv3模型的基礎(chǔ)上,通過簡化檢測特征圖尺度,引入深度可分離卷積等方式,使檢測蘋果果實的精度達(dá)到94.69% [14];針對柑橘果實識別問題,李善軍等在SSD模型的基礎(chǔ)上改進(jìn)柑橘檢測方法,通過對比大量試驗,挑選出較為合適的特征圖,最終算法 mAP 達(dá)到了87.90%[15]
目前的果實檢測研究主要針對蘋果、番茄、柑橘等水果進(jìn)行,對于酥梨的檢測鮮有相關(guān)研究,基于此現(xiàn)狀和上述文獻(xiàn)的啟發(fā),本研究以YOLOv8n目標(biāo)檢測網(wǎng)絡(luò)為基礎(chǔ),針對自然果園環(huán)境下的酥梨檢測,提出了一種改進(jìn)的YOLOv8n酥梨檢測算法。本研究主要貢獻(xiàn)如下:(1)將原算法中的大、中、小檢測層改為中小、微小檢測層,提高網(wǎng)絡(luò)模型對酥梨小目標(biāo)的檢測能力,降低小目標(biāo)的漏檢率;(2)利用KernelWarehouse動態(tài)卷積的思想,設(shè)計了KWC2f模塊,在不增加網(wǎng)絡(luò)深度的情況下,提升模型的表達(dá)能力;(3)設(shè)計了DmixerP模塊插入到主干網(wǎng)絡(luò)中,使酥梨檢測模型在保持強大歸納偏差的同時擴大網(wǎng)絡(luò)的感受野,能夠在更廣闊的范圍內(nèi)感知和理解酥梨的環(huán)境背景和特征,從而提高果園酥梨檢測的準(zhǔn)確性和泛化能力;(4)將原始YOLOv8的頭部替換為整合了DyHead的檢測頭。通過將尺度、空間和任務(wù)3種注意力機制結(jié)合統(tǒng)一,進(jìn)一步提升了模型的檢測性能
試驗結(jié)果表明,改進(jìn)后的算法在酥梨目標(biāo)檢測圖像數(shù)據(jù)集上召回率、精確率和平均精確率均優(yōu)于原算法,且也比原算法占用存儲空間更小,同時比目前的其他主流算法擁有著最高的精度。
1材料與方法
1.1 數(shù)據(jù)集
本研究所使用的數(shù)據(jù)集是由吳洪偉等在2022年1月19日發(fā)布于科學(xué)數(shù)據(jù)銀行平臺上的公開酥梨目標(biāo)檢測圖像數(shù)據(jù)集,該數(shù)據(jù)集收集整理了晴天和陰天、白天和夜晚、順光和逆光、是否套袋、運動模糊等果園自然條件下的高質(zhì)量酥梨圖像數(shù)據(jù)3 488張[16]。本研究將其按照 4:1 的比例隨機劃分為訓(xùn)練集和測試集,其中訓(xùn)練集2790張、測試集697張。
1.2 YOLO v8n 模型
YOLOv8是一種先進(jìn)的一階段目標(biāo)檢測算法,根據(jù)網(wǎng)絡(luò)的寬度和深度,從小到大依次分為YOLO 和YOLO v8x 本研究選用YOLO v8n 作為基準(zhǔn)模型,其擁有最快的檢測速度和最小的體積,同時仍然保持著較高的精度。
YOLO v8n 模型主要由3個核心網(wǎng)絡(luò)組成:主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)。主干網(wǎng)絡(luò)負(fù)責(zé)從輸入圖像中提取豐富的語義特征,以便準(zhǔn)確地捕捉目標(biāo)的形狀、紋理和上下文信息。頸部網(wǎng)絡(luò)的任務(wù)是將不同尺度的特征圖融合在一起,以便更有效地檢測各種大小和尺度的目標(biāo)。最后將融合后的特征圖傳遞給頭部網(wǎng)絡(luò)進(jìn)行最終的目標(biāo)檢測。YOLOv8n的整體結(jié)構(gòu)圖如圖1所示。
在標(biāo)簽分配和損失函數(shù)方面,YOLOv8n不再依賴于傳統(tǒng)的基于錨框的思想,而是轉(zhuǎn)向了更先進(jìn)的無錨框方法。它引入了TaskAlignmentLearning(TAL)動態(tài)分配策略,以確保分類和回歸任務(wù)之間的高度一致性。此外,YOLOv8n采用了DFLLoss結(jié)合CIoULoss作為回歸損失函數(shù),這一結(jié)合使得模型在回歸任務(wù)上表現(xiàn)更出色。這種綜合損失函數(shù)的運用進(jìn)一步提升了模型的性能和穩(wěn)定性。
1.3 模型改進(jìn)
原模型對小目標(biāo)的檢測效果不佳,故本研究修改小目標(biāo)檢測層提高網(wǎng)絡(luò)模型對遠(yuǎn)處酥梨的檢測效果;原模型使用的是標(biāo)準(zhǔn)卷積,特征表達(dá)能力有限,本研究使用KWC2f模塊替換原先的C2f模塊,在不增加網(wǎng)絡(luò)深度的情況下,提升模型對酥梨的表達(dá)能力;原模型通過卷積操作實現(xiàn)了優(yōu)秀的局部感知能力,然而,由于有限的感受野,無法捕捉到全局范圍內(nèi)的相關(guān)信息,故本研究在主干網(wǎng)絡(luò)末端添加一個DmixerP模塊,使模型保持強大歸納偏差的同時擴大網(wǎng)絡(luò)的感受野,從而提高果園酥梨檢測的準(zhǔn)確性和泛化能力;為進(jìn)一步提升輸出酥梨特征圖在3個不同角度(尺度、空間和任務(wù))的表達(dá)能力,引入DyHead檢測頭,將尺度、空間和任務(wù)3種注意力機制結(jié)合統(tǒng)一,進(jìn)一步提升模型的檢測性能。改進(jìn)后的YOLOv8n結(jié)構(gòu)見圖2。
1.3.1檢測層果園是一個復(fù)雜且多樣化的區(qū)域,與攝像機的距離遠(yuǎn)近影響著識別目標(biāo)在圖像中的尺寸,為了衡量果園場景中待檢測目標(biāo)的尺寸大小,本研究對所使用的果園酥梨場景數(shù)據(jù)集進(jìn)行分析,繪制了訓(xùn)練集標(biāo)簽相對于整幅圖寬高比的分布圖,由圖3可知,0.2以下的小目標(biāo)占據(jù)了相當(dāng)比例。YOLO v8n 模型輸入圖片尺寸默認(rèn)為 640× 640,經(jīng)過主干網(wǎng)絡(luò)中5次下采樣后,分別將尺寸為 的特征圖用于頸部特征融合和頭部回歸預(yù)測,不同尺寸分別對應(yīng)小目標(biāo)( 8× 8)、中目標(biāo)( 16×16 、大目標(biāo)( 32×32) 的檢測,所以YOLO v8n 模型對圖片中像素點小于8的微小目標(biāo)的檢測效果并不好,目前比較通用的做法是在頸部網(wǎng)絡(luò)第15層之后繼續(xù)添加1個上采樣模塊并與主中的第7和第8層,減少1次下采樣次數(shù),并將原本連接到頸部的第4層和第6層的輸出特征圖,改為將第2層和第4層輸出特征圖分別連接到頸部進(jìn)行多尺度特征融合,讓頸部原本的
的輸出特征圖,變?yōu)楝F(xiàn)今的
40輸出特征圖,加強遠(yuǎn)處酥梨微小目標(biāo)的檢測能力,降低漏檢率。
干網(wǎng)絡(luò)第2層進(jìn)行拼接得到1個 160×160 的微小目標(biāo)檢測層,增強對微小目標(biāo)的檢測能力,但此種方法由于添加了多層網(wǎng)絡(luò),會增加大量參數(shù),考慮到在果園環(huán)境中酥梨都是中小目標(biāo),原本的大目標(biāo)檢測層起到的作用微乎其微,故本研究重新優(yōu)化設(shè)計了主干網(wǎng)絡(luò)和之后的相關(guān)參數(shù),刪去了主干網(wǎng)絡(luò)
1.3.2KWC2f模塊由于果園環(huán)境復(fù)雜多變,而采摘機器人的硬件性能有限,較低的計算預(yù)算限制了網(wǎng)絡(luò)模型性能和表達(dá)能力,為了提高網(wǎng)絡(luò)模型對果園酥梨的表達(dá)能力,同時不顯著增加模型大小和計算量,利用KernelWarehouse動態(tài)卷積思想,設(shè)計KWC2f模塊更換原先的C2f模塊。
卷積神經(jīng)網(wǎng)絡(luò)在計算機視覺任務(wù)中取得了前所未有的成功,但如果想要進(jìn)一步提升其性能,更多的是采取增大模型尺寸和容量的方式,可模型尺寸的增大會急劇加大計算量,進(jìn)一步加大優(yōu)秀模型的部署難度,為了解決這些問題,動態(tài)卷積應(yīng)運而生[7]。在標(biāo)準(zhǔn)卷積中,輸人與輸出的關(guān)系如公式(1)所示,在動態(tài)卷積中,輸人與輸出的關(guān)系如公式(2)所示。此處為了簡潔起見,省略了激活函數(shù)和偏置。
y=Wx;
y=(α1W1+…+αnWn)x
式中: W,W1,…,Wn 為卷積核參數(shù); x 為輸人特征; y 為輸出特征; α1,…,αn 為通過訓(xùn)練得到的加權(quán)系數(shù)。由此可見,對于標(biāo)準(zhǔn)卷積而言,卷積核參數(shù)經(jīng)訓(xùn)練并確定后對所有輸人樣本便是一視同仁的,因此表達(dá)能力有限,動態(tài)卷積針對不同的輸人特征有著不同的加權(quán)系數(shù),卷積核等價于 n 個靜態(tài)卷積核的線性組合,推理時每個參數(shù)僅需1次乘加,故能在增加少量計算量的情況下,達(dá)到和提升網(wǎng)絡(luò)容量同等的效果。
但是動態(tài)卷積由于是 n 個靜態(tài)內(nèi)核的線性組合,這也導(dǎo)致了卷積參數(shù)的數(shù)量增加了 n 倍,對此,Li等提出了KernelWarehouse這種更一般的動態(tài)卷積形式,通過巧妙的內(nèi)核分區(qū)和倉庫共享增強了同一層內(nèi)和相鄰層之間的卷積參數(shù)依賴性,它可以在參數(shù)效率和表示能力之間取得良好的權(quán)衡,其整體結(jié)構(gòu)如圖4所示[18]
簡而言之,KernelWarehouse首先對標(biāo)準(zhǔn)卷積核進(jìn)行劃分,核劃分的基本思想是通過顯式增強同一卷積層內(nèi)的參數(shù)依賴關(guān)系來減小核維,增加核數(shù)。將標(biāo)準(zhǔn)卷積層的靜態(tài)核 W 依次劃分為 m 個不相交的部分 w1,…,wn ,稱之為核單元,它們具有相同的尺寸。核單元 w1,…,wm 與靜態(tài)核 W 的關(guān)系可表達(dá)為公式(3)所示。
wj,i=0 。 (3)
在劃分完標(biāo)準(zhǔn)卷積核之后,定義包含 n 個內(nèi)核單元的倉庫 E={e1,…,en} ,其中 e1,…,en 與w1,…,wm 具有相同的維數(shù),然后在同一個卷積層中共享倉庫 E,m 個核單元 w1,…,wm 的具體參數(shù)則由e1,…,en 線性組合得到,如下所示。
w1=αi1e1+…+αinen,i∈{1,…,m},
式中: αi1,…,αin 是由注意力模塊以輸入 x 為條件生成的加權(quán)系數(shù)。最后,將標(biāo)準(zhǔn)卷積層中的靜態(tài)內(nèi)核W 替換為按順序組裝其對應(yīng)的 ∣m∣ 個核單元的線性組合。
用KernelWarehouse思想改造網(wǎng)絡(luò)中的C2f模塊的Bottleneck,可以使模型更好地提取酥梨特征,具體結(jié)構(gòu)如圖5所示。KernelWarehouse改造的C2f模塊主要用KWBottleneck替換原模塊中的Bottleneck。在KWBottleneck中,采用2個KWConv卷積模塊,在輸入和輸出之間進(jìn)行殘差連接。C2f中的所有KWBottleneck中的KWConv卷積模塊共用1個核倉庫 {e1,…,en} ,KWConv卷積模塊的卷積核由 m 個核單元按順序拼接而成,而核單員由核倉庫 {e1,…,en} 線性組合得到。
1.3.3DmixerP模塊CNN模型通過卷積操作實現(xiàn)了優(yōu)秀的局部感知能力,能夠有效地捕獲圖像等數(shù)據(jù)中的局部結(jié)構(gòu)和特征,然而,由于有限的感受野,無法捕捉到全局范圍內(nèi)的相關(guān)信息。相比之下,Transformer通過自注意力機制能夠有效地處理長距離依賴關(guān)系,表現(xiàn)了出色的全局關(guān)注能力。但是,Transformer缺乏CNN那種對局部結(jié)構(gòu)的敏感性,在處理局部相關(guān)性強的數(shù)據(jù)時表現(xiàn)不佳。
因此本研究在結(jié)合了CNN和Transformer優(yōu)點的雙動態(tài)令牌混合器D-Mixer的基礎(chǔ)上設(shè)計了DmixerP模塊插入到主干網(wǎng)絡(luò)中,使酥梨檢測模型在保持強大歸納偏差的同時擴大網(wǎng)絡(luò)的感受野,能夠在更廣闊的范圍內(nèi)感知和理解酥梨的環(huán)境背景和特征,從而提高果園酥梨檢測的準(zhǔn)確性和泛化能力。
雙動態(tài)令牌混合器(D-Mixer),能夠以一種依賴輸入的方式聚合全局信息和局部細(xì)節(jié),由圖6-a可知,D-Mixer通過分別在均勻分割的特征片段上應(yīng)用有效的全局注意力模塊和輸人依賴的深度卷積,使網(wǎng)絡(luò)具有強大的歸納偏差和擴大的有效感受野[19] C
本研究在D-Mixer的基礎(chǔ)上進(jìn)行改進(jìn),提出了DmixerP,由圖6-b可知,原先的D-Mixer模塊由于是采用沿通道直接一分為二的方式,使得提取全局信息的OSRA全局自注意模塊和提取局部細(xì)節(jié)的IDConv動態(tài)深度卷積模塊都各自缺少了另一半的特征信息,因此本研究決定將特征信息同時送入OSRA全局自注意模塊和IDConv深度卷積模塊,具體地說,對于一個特征圖 ,為了更好地提取全局信息和局部細(xì)節(jié),本研究先不對特征圖在通道上進(jìn)行均勻分割,而是先通過一個 1×1 卷積模塊壓縮特征圖,壓縮比例為 r ,得到壓縮后的特征圖X′ ,之后將 X′ 同時送到OSRA全局自注意模塊和IDConv深度卷積模塊,產(chǎn)生相應(yīng)的具有全局信息和局部信息的特征圖 {X1,X2}∈RC/r×H×W ,為了更好地聚合全局信息和局部信息,此處不是直接簡單地將X1 和 X2 拼接或相加,而是利用了SCConv中SRU模塊中的交叉重構(gòu)思想[20],將 X1,X2 分別沿通道維度均勻地劃分為2個子特征圖,記為 {X11,X12} 和(204 {X21,X22}∈RC/2r×H×W ,接著將 X11 與 X22,X12 與 X21 (204交叉相加后再進(jìn)行拼接,得到初步聚合了全局信息與局部細(xì)節(jié)的特征圖 X′′∈RC/r×H×W 。最后,采用擠壓令牌增強器(STE)進(jìn)行有效的本地令牌聚合??偟膩碚f,所提出的DmixerP模塊可表示為:
X′=Conv(X)
X1=OSRA(X′)
X2=IDConv(X′)
X11,X12=Spilt(X1)
X21,X22=Spilt(X2)
Y=STE(X′′)o
1.3.4DyHead 模塊YOLO v8n 模型是將輸入圖像通過主干網(wǎng)絡(luò)提取特征,然后通過頸部網(wǎng)絡(luò)進(jìn)行特征融合,得到大、中、小3種尺度的特征圖,然后再經(jīng)過DetectionHead進(jìn)行目標(biāo)檢測、分類,得到預(yù)測結(jié)果。在果園復(fù)雜環(huán)境下檢測酥梨,離攝像頭較遠(yuǎn)處的酥梨和樹葉顏色大小相近,不易于區(qū)分,需要較高的檢測精度,研究面臨許多問題挑戰(zhàn)。首先,隨著距離攝像頭遠(yuǎn)近的不同,拍攝到的酥梨大小不同,會使多尺度不同的酥梨出現(xiàn)在同幅圖像上,需要檢測器具有較高的多尺度感知能力。其次,隨著攝像頭的移動,酥梨的檢測位置易發(fā)生變化,檢測器需要空間感知酥梨在不同空間位置之間的關(guān)系。最后,檢測器需要具有任務(wù)感知能力,因為酥梨檢測有不同的表征(例如:邊界框、中心和角點),這些表征具有完全不同的目標(biāo)和約束。為了提高酥梨檢測精度,本研究引人DyHead提高目標(biāo)檢測模型頭部的表示能力,DyHead檢測范式如圖7所示[21]
一般為了實現(xiàn)注意力功能,采用全連接層來實現(xiàn),但是由于張量的維度太高,直接在所有維度上應(yīng)用注意力函數(shù),所需的計算量太大,所以DyHead將注意功能分解為3個連續(xù)串聯(lián)起來的注意,每個注意只關(guān)注1個角度,DyHead的注意力函數(shù)如下所示:
W(F)=πc{πs[πL(F)?F]?F}?F
式中: πL(???) 是用于尺度感知的注意函數(shù),其表達(dá)式如公式(7)所示,其中 f(???) 是通過1個 1×1 卷積層形成的線性函數(shù), σ(?) 是一個hard-sigmoid激活函數(shù)。
πs(?) 是用于空間感知的注意函數(shù),因為空間中的維數(shù)較高,故將此模塊分為2個步驟進(jìn)行,首先通過可變形卷積使注意力學(xué)習(xí)稀疏化,然后在相同的空間位置跨層聚焦特征,其表達(dá)式如公式(8)所示,其中 K 是稀疏采樣位置的個數(shù), 為自學(xué)習(xí)的空間偏移量
所移動的位置, Δmk 為自學(xué)習(xí)的位置 pk 的重要標(biāo)量。
πc(?) 是用于任務(wù)感知的注意函數(shù),它可以動態(tài)地切換功能的ON和OFF通道,以支持不同的任務(wù),其表達(dá)式如公式(9)所示。其中 Fc 是指特征圖的第 ∣c∣ 個通道, [α1,α2,β1,β2]T=θ(α?α) 是學(xué)習(xí)激活閾值的超函數(shù), θ(?) 首先在LxS維上進(jìn)行全局平均池化以降低維數(shù),接著使用2個全連接層和1個歸一化層,最后使用移位的sigmoid函數(shù)將輸出歸一化到[-1,1]區(qū)間上。
Fc+β2(F). 1 (9)
本研究在原模型檢測頭的前面首先通過1個1×1 卷積進(jìn)行特征壓縮,然后串聯(lián)2個DyHead模塊以加強模型3個不同角度(尺度、空間和任務(wù))的表達(dá)能力。
2 結(jié)果與分析
2.1 試驗環(huán)境
本研究訓(xùn)練使用的系統(tǒng)為Windows10操作系統(tǒng),CPU 型號為Intel@ CoreTM i9 -9900@3.10 HZ,GPU配置為 NVIDIA GeForce RTX 2O70 SUPER,8GB顯存,框架選用pytorch2.0.1,并使用CUDA11.8進(jìn)行加速訓(xùn)練。本研究在進(jìn)行試驗時,將初始學(xué)習(xí)率設(shè)置為0.01,動量設(shè)置為0.937,批量大小設(shè)置為8,迭代次數(shù)為300,優(yōu)化器使用隨機梯度下降法(SGD)。此次試驗于2024年4月23號在江西理工大學(xué)電氣工程與自動化學(xué)院315人工智能實驗室完成。
2.2 試驗評價指標(biāo)
為了客觀評價模型改進(jìn)后的性能,本研究將精確率 (P) 、召回率 (R) 、平均精確率 (AP) 作為評價指標(biāo)。
精確率 (P) 是在所有預(yù)測為正樣本(即本研究果園中的酥梨)的目標(biāo)中,真正為正樣本的比例,其計算公式如下:
召回率 (R) 是指在所有實際正樣本中,模型正確識別為正樣本的比例,其計算公式如下:
式中: TP 為模型正確識別的酥梨數(shù)量, FP 為將背景識別為酥梨的數(shù)量, FN 為已標(biāo)識為酥梨但未識別到的數(shù)量。
平均準(zhǔn)確率 (AP) 是一種用于綜合評估檢測模型性能的指標(biāo)。通過計算出不同閾值下的精確率(P) 和召回率 (R) ,然后通過對這些值進(jìn)行插值得到 AP ,其計算公式如下:
本研究以 AP50 和 AP50:95 作為平均準(zhǔn)確率的評價指標(biāo),其中 AP50 是指定位時只有預(yù)測框和真實框的交并比(IoU)大于 50% 時才算作定位上的正樣本; AP50:95 是 AP 閾值為 50%~95% 之間,每間隔5百分點,取1個值,共10個值,然后取這10個值的平均值。
2.3模型訓(xùn)練
模型訓(xùn)練過程的圖像如圖8所示,當(dāng)訓(xùn)練輪次達(dá)到120左右時,原模型和本研究改進(jìn)后的模型開始收斂,且都觸發(fā)了早停機制,最終停在230輪左右。其中藍(lán)色曲線為改進(jìn)前的訓(xùn)練過程圖像,橙色曲線為改進(jìn)后的訓(xùn)練過程圖像,觀察訓(xùn)練過程圖像可以看出,精確率 (P) 改進(jìn)前后模型相差不大,但改進(jìn)后模型召回率 (R) 、平均準(zhǔn)確率 AP50 和 AP50:95 與原模型相比均有較大提升,表明本研究的改進(jìn)模型是切實有效的。
2.4D-Mixer和DmixerP對比分析
為驗證模塊改進(jìn)的有效性,將D-Mixer模塊和DmixerP模塊分別插入到Y(jié)OLO v8n 主干網(wǎng)絡(luò)末端,從表1中可以看出,兩者相比于原模型均有提升,但相比于D-Mixer的先分離再提取特征拼接操作,DmixerP先壓縮提取特征再交叉相加的操作可以更好地幫助模型融合酥梨的全局信息和局部細(xì)節(jié),有著更高的召回率和平均精確率。
2.5 消融試驗
為了驗證本研究所提出的改進(jìn)對果園酥梨檢測的效果,本研究進(jìn)行了一系列消融試驗,將修改檢測層、添加DmixerP模塊、更換KWC2f模塊和引入DyHead檢測頭分別作用于網(wǎng)絡(luò)模型中,來驗證不同模塊對果園酥梨檢測模型的性能提升,具體提升效果詳見表2。
由表2可知,通過修改檢測層后,精確率 (P) 下降了0.3百分點,但召回率 (R) 和平均精確率(204號 (AP50:95) 分別提升了2.5百分點和1.4百分點;添加DmixerP模塊后,精確率 (P) 下降0.1百分點,召回率 (R) 和平均精確率( (AP50:95) 均提高了0.9百分點;更換KWC2f模塊后,精確率 (P) 下降0.2百分點,召回率 (R) 和平均精確率( AP50:95) 均提高了0.5百分點;引入DyHead檢測頭后,精確率 (P) 召回率 (R) 和平均精確率( AP50:95) 分別提高了0.4、0.3、0.4百分點。將所有改進(jìn)方案整合到一個模型后,最終改進(jìn)的模型與原模型相比精確率 (P) 、召回率 (R) 和平均精確率( AP50:95) 分別上漲了0.3、2.8、3.5百分點,可見本研究改進(jìn)的算法對于果園酥梨檢測的效果的提升是有效的。
2.6檢測結(jié)果可視化分析
為了直觀地看出本研究改進(jìn)算法的檢測性能,隨機從測試集中選擇1張圖片進(jìn)行測試。酥梨檢測測試效果如圖9所示,圖9-a為原始圖像,圖9-b是原始YOLO v8n 算法的檢測結(jié)果,圖9-c為本研究改進(jìn)后的檢測結(jié)果。通過對比圖9-b和圖9-c可以看出,對于近距離且和未受到明顯遮擋的目標(biāo),原YOLO v8n 模型和本研究改進(jìn)后的模型均能正確檢測出,但本研究改進(jìn)后的模型普遍比原YOLOv8n模型的置信度更高;對比圖中白色圓圈處可知,對于遠(yuǎn)距離的酥梨小目標(biāo),原YOLO v8n 模型容易發(fā)生漏檢,而本研究改進(jìn)后的模型能正確檢測出;對比圖中黃色橢圓圈出來處可以看出,原模型把背景誤檢測為酥梨,而本研究改進(jìn)后的模型沒有發(fā)生誤檢。綜上所述,本研究改進(jìn)后的模型在果園酥梨的檢測、漏檢和誤檢方面均優(yōu)于原YOLOv8n模型。
2.7 不同算法對比分析
為進(jìn)一步驗證改進(jìn)算法的有效性,本研究在相同的試驗條件下,包括試驗設(shè)備和訓(xùn)練策略,不改變參數(shù)和數(shù)據(jù)集,使用 P,R,AP50、AP50:95 和模型大小作為評價指標(biāo),將改進(jìn)后的算法與目前主流的目標(biāo)檢測算法FasterR-CNN、SSD、YOLO ΔV3 、YOLOv4、YOLO v5和 YOLO v7 進(jìn)行比較,結(jié)果詳見表3。
由表3可知,本研究改進(jìn)后的算法無論在精確率、召回率還是平均精確率上都遠(yuǎn)高于目前其他主流目標(biāo)檢測算法,有著更好的性能,而在模型大小上,僅比YOLOv5n略大,適合部署在嵌入式設(shè)備、小型移動機器人等內(nèi)存較小的設(shè)備上。
3討論與結(jié)論
本研究提出了一種改進(jìn)YOLO v8n 的果園酥梨檢測算法,解決了原始YOLO v8n 算法在果園酥梨檢測任務(wù)中存在的問題。首先通過在主干網(wǎng)絡(luò)減少1次下采樣次數(shù)及重新優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),使原本的大、中、小檢測層變?yōu)橹行?、微小檢測層,提高網(wǎng)絡(luò)模型對酥梨小目標(biāo)的檢測能力,降低小目標(biāo)的漏檢率;其次利用KernelWarehouse動態(tài)卷積的思想,設(shè)計了KWC2f模塊,在不增加網(wǎng)絡(luò)深度的情況下,提升模型的表達(dá)能力;設(shè)計了DmixerP模塊插入到主干網(wǎng)絡(luò)中,使酥梨檢測模型在保持強大歸納偏差的同時擴大網(wǎng)絡(luò)的感受野,能夠在更廣闊的范圍內(nèi)感知和理解酥梨的環(huán)境背景和特征,從而提高果園酥梨檢測的準(zhǔn)確性和泛化能力;最后,將原始
YOLOv8的頭部替換為DyHead檢測頭,通過將尺度、空間和任務(wù)3種注意力機制結(jié)合統(tǒng)一,進(jìn)一步提升了模型的檢測性能。試驗結(jié)果表明,改進(jìn)后的算法相比于原算法在酥梨目標(biāo)檢測圖像數(shù)據(jù)集上召回率、精確率、平均精確率分別上漲了0.3、2.8、3.5百分點,同時,實際檢測效果表明改進(jìn)后的算法在小目標(biāo)果園酥梨檢測、精度、漏檢率和誤檢率等方面均優(yōu)于原算法。
參考文獻(xiàn):
[1]郭文場,劉佳賀.中國梨的產(chǎn)業(yè)現(xiàn)狀、存在問題及改進(jìn)措施[J].特種經(jīng)濟動植物,2019,22(3):47-49.
[2]司永勝,喬軍,劉剛,等.蘋果采摘機器人果實識別與定位方法[J].農(nóng)業(yè)機械學(xué)報,2010,41(9):148-153.
[3]項榮,應(yīng)義斌,蔣煥煜,等.基于邊緣曲率分析的重疊番茄識別[J].農(nóng)業(yè)機械學(xué)報,2012,43(3):157-162.
[4]ArrietaA B,Diaz-Rodriguez N,Del SerJ,et al.Explainableartificial intelligence(XAI) : concepts,taxonomies,opportunities andchallenges toward responsible AI[J].InformationFusion,2O20,58:82-115.
[5]GirshickR,DonahueJ,DarrellT,etal.Richfeaturehierarchiesforaccurate object detection and semantic segmentation[C]//2014IEEEConference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014:580-587.
[6]GirshickR.FastR-CNN[C]//2O15IEEEInternationalConferenceonComputerVision(ICCV).Santiago,Chile:IEEE,2015:1440-1448.
[7]RenSQ,HeKM,GirshickR,etal.FasterR-CNN:towardsreal-time object detection with region proposal networks[J].IEEETransactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[8]LiuW,AnguelovD,Erhan D,et al.SSD:singleshot MultiBoxdetector[M]//Computer vision-ECCV2016.Cham:SpringerInternational Publishing,2016:21-37.
[9]RedmonJ,DivvalaS,GirshickR,etal.You only look once:unified,real-time object detection[C]//2O16 IEEE ConferenceonComputer Vision andPattern Recognition(CVPR). LasVegas,NV,USA:IEEE,2016:779-788.
[10]岳有軍,田博凱,王紅君,等.基于改進(jìn)Mask RCNN的復(fù)雜環(huán)境下蘋果檢測研究[J].中國農(nóng)機化學(xué)報,2019,40(10):128-134.
[11]周云成,許童羽,鄧寒冰,等.基于雙卷積鏈FastR-CNN的番茄關(guān)鍵器官識別方法[J].沈陽農(nóng)業(yè)大學(xué)學(xué)報,2018,49(1):65 -74.
[12]朱旭,馬誤,姬江濤,等.基于FasterR-CNN的藍(lán)莓冠層果實檢測識別分析[J].南方農(nóng)業(yè)學(xué)報,2020,51(6):1493-1501.
[13]劉芳,劉玉坤,林森,等.基于改進(jìn)型YOLO的復(fù)雜環(huán)境下番茄果實快速識別方法[J].農(nóng)業(yè)機械學(xué)報,2020,51(6):229 -237.
[14]武星,齊澤宇,王龍軍,等.基于輕量化YOLOv3卷積神經(jīng)網(wǎng)絡(luò)的蘋果檢測方法[J].農(nóng)業(yè)機械學(xué)報,2020,51(8):17-25.
[15]李善軍,胡定一,高淑敏,等.基于改進(jìn)SSD 的柑橘實時分類檢測[J].農(nóng)業(yè)工程學(xué)報,2019,35(24):307-313.
[16]Wu HW,Luo Q,Wan TY,etal.A dataset of multimodal pearimages for target detection[DS/OL]. (2022-01-19)[2024-05-02]. https://doi. org/10.11922/sciencedb.01449.
[17]YangB,BenderG,LeQV,etal.CondConv:conditionallyparameterized convolutions for efficient inference[EB/OL].(2019-04 -10)[2024-05-02].htps://arxiv.org/abs/1904.04971v3.
[18]Li C,Yao A B.KernelWarehouse:towards parameter-efficientdynamic convolution[EB/OL].(2023-08-16)[2024-05-02].http://export. arxiv. org/abs/2308.08361.
[19]Lou M,Zhang S,Zhou HY,et al. TransXNet:learning both globaland local dynamics with a dual dynamic token mixer for visualrecognition[EB/OL].(2023-10-30)[2024-05-02].https://arxiv.org/abs/2310.19380v3.
[20]Li JF,Wen Y,HeL H. SCConv :spatial and channel reconstructionconvolution forfeatureredundancy[C]//2023IEEE/CVFConference on Computer Vision and Patern Recognition(CVPR).Vancouver,BC,Canada:IEEE,2023:6153-6162.
[21]DaiXY,ChenYP,Xiao B,etal.Dynamic head:unifying objectdetection heads with attentions[C]//2021 IEEE/CVF Conferenceon Computer Visionand Pattern Recognition(CVPR).Nashville,TN,USA:IEEE,2021:7369-7378.