摘要:
目標(biāo)果實(shí)檢測精度直接影響果園智能作業(yè)的效率,當(dāng)前以卷積神經(jīng)網(wǎng)絡(luò)為代表的特征提取網(wǎng)絡(luò)僅從局部感受野中提取特征用于目標(biāo)檢測,果實(shí)受枝葉遮擋或果實(shí)間重疊時存在一定的局限性,導(dǎo)致檢測精度偏低。為提升被遮擋目標(biāo)果實(shí)的檢測精度,提出抗遮擋的FoveaBox果實(shí)檢測優(yōu)化模型。首先,新模型引入Swin Transformer作為骨干網(wǎng)絡(luò),通過計算塊間的相似度,打破傳統(tǒng)卷積僅從局部區(qū)域提取特征的限制,從而增強(qiáng)特征映射的表征能力;其次,采用特征金字塔網(wǎng)絡(luò),通過橫向連接和自頂向下結(jié)構(gòu)聚合淺層高分辨率特征與高層語義信息,輸出金字塔型特征映射;然后,將金字塔型特征映射輸入Fovea頭部網(wǎng)絡(luò)中,利用分類子網(wǎng)絡(luò)與邊界框子網(wǎng)絡(luò)進(jìn)行檢測目標(biāo);最后,通過焦點(diǎn)損失函數(shù)Focal Loss與Smooth L1對模型進(jìn)行迭代尋優(yōu),直至模型收斂。驗證表明,優(yōu)化模型在IoU為0.5閾值下的平均精確度可達(dá)86.3%,優(yōu)于FCOS、TOOD與LAD等先進(jìn)模型。提出的抗遮擋的FoveaBox可在一定程度上提升被遮擋目標(biāo)的檢測精確度。
關(guān)鍵詞:被遮擋蘋果檢測;多粒度特征感知;FoveaBox;Swin Transformer;區(qū)域相似度計算
中圖分類號:S126
文獻(xiàn)標(biāo)識碼:A
文章編號:2095-5553 (2025) 03-0182-06
收稿日期:2024年7月8日" 修回日期:2024年10月28日*
基金項目:國家自然科學(xué)基金面上項目(62372278);山西省高等學(xué)??萍紕?chuàng)新項目(2024L386);山東省自然科學(xué)基金(ZR2020MF076)
第一作者:任晶晶,女,1986年生,山西汾陽人,碩士,講師;研究方向為計算機(jī)視覺。E-mail: 511924532@qq.com
通訊作者:賈偉寬,男,1982年生,山東鄆城人,博士,副教授;研究方向為人工智能、智慧農(nóng)業(yè)。E-mail: jwk_1982@163.com
Enhanced FoveaBox with multi-granularity feature perception for green apple occlusion detection
Ren Jingjing1, Zhang Xiaoyong1, Jia Weikuan2
(1. Department of Intelligence and Information Engineering, Taiyuan University, Taiyuan, 030032, China;
2. School of Information Science and Engineering, Shandong Normal University, Jinan, 250358, China)
Abstract:
Fruit detection is a crucial sub-task in smart agriculture, as its accuracy significantly impacts the performance of various operational tasks. However, current feature extraction networks, particularly convolutional neural networks, primarily extract features from local receptive fields. This limitation hinders the detection of fruits occluded by branches and leaves, and fruits overlapped, ultimately culminating in suboptimal detection accuracy. To improve the detection precision of occluded targets, in this study, an enhanced FoveaBox target detection model is proposed. First, the Swin Transformer is employed as the backbone network, enabling the extraction of multi-granularity hierarchical features from a global receptive field. This approach overcomes the constraints of traditional convolutional networks, which only extract features from local regions, thereby improving the representational capacity of feature mapping. Next, the Feature Pyramid Network is utilized to aggregate shallow, high-resolution features with high-level semantic information through lateral connections and a top-down structure. This aggregation enhances the model’s ability to detect occluded objects. The pyramidal features are then fed into the Fovea head network, which consists of a classification sub-network and a bounding box sub-network for object detection. Finally, the method is iteratively optimized using Focal Loss and the Smooth L1 function until the model converges. Experimental results demonstrate that the proposed occlusion-resistant FoveaBox detection model, its average precision can reach 86.3% under the IoU threshold of 0.5, which is superior to advanced models such as FCOS, TOOD and LAD. It significantly improves the detection accuracy of occluded targets.
Keywords:
occluded apple detection; multi-granularity feature perception; FoveaBox; Swin Transformer; area similarity calculation
0 引言
果實(shí)檢測是智慧農(nóng)業(yè)中的一項關(guān)鍵任務(wù)[1],旨在通過圖像處理技術(shù)確定果實(shí)的類別和位置信息。該任務(wù)為果蔬產(chǎn)量預(yù)測[2]、智能采摘[3]以及果實(shí)生長周期的全面監(jiān)測[4]等智能化作業(yè)提供基礎(chǔ)。
當(dāng)前,在果實(shí)視覺檢測領(lǐng)域,主要存在兩類算法:基于機(jī)器學(xué)習(xí)的目標(biāo)檢測算法和基于深度學(xué)習(xí)的目標(biāo)檢測算法。傳統(tǒng)的基于機(jī)器學(xué)習(xí)的目標(biāo)檢測算法,借助數(shù)字圖像處理技術(shù)[5]實(shí)現(xiàn)特征提取、融合與分類。這類方法雖然在目標(biāo)識別速度上表現(xiàn)優(yōu)越,但在特征提取階段主要依賴人工選擇,極大地增加勞動力成本。隨著圖像處理單元與深度學(xué)習(xí)技術(shù)[6]的出現(xiàn),以卷積神經(jīng)網(wǎng)絡(luò)[7]為代表的深度學(xué)習(xí)算法為目標(biāo)檢測帶來新的突破。典型的目標(biāo)檢測算法可根據(jù)是否需要提出候選區(qū)域,劃分為以RetinNet、SSD以及YOLOv1、YOLOv2、YOLOv3為代表的一階段法與以Fast R—CNN、Faster R—CNN與Mask R—CNN為代表的二階段法。其中,一階段法又可以根據(jù)是否使用錨框分為有錨框法和無錨框法。這些基于一階段法和二階段法的變體已被廣泛應(yīng)用于果實(shí)識別。然而,這些方法均采用深度卷積神經(jīng)網(wǎng)絡(luò)提取特征,但由于卷積和池化運(yùn)算中卷積核和池化核大小的限制,所捕獲的特征僅限于局部感受野,未能考慮目標(biāo)的上下文細(xì)粒度特征和全局信息。
Vaswani等[8]提出Transformer模型,其利用多頭自注意力機(jī)制從多個視角融合全局特征,突破卷積操作僅能感知卷積核大小特征的局限性。Woo等[9]提出一種輕量級的通用模塊卷積注意力模塊,該模塊可以從空間與通道兩個維度融合全局特征,將注意力映射乘以輸入特征圖進(jìn)行自適應(yīng)特征細(xì)化,獲得全局特征信息。雖然Transformer具有聚合全局特征的優(yōu)點(diǎn),但未能兼顧到局部細(xì)粒度信息。為兼顧全局粗粒度與局部細(xì)粒度特征,Yang等[10]提出焦點(diǎn)Transformer,其通過不同尺度的窗口注意力機(jī)制融合全局粗粒度與局部細(xì)粒度信息。盡管焦點(diǎn)Transformer聚合多粒度特征,但其計算開銷因其使用多粒度的窗口大小而成倍增加。為使Transformer適用于高分辨率的特征映射,Liu等[11]提出一個視覺骨干網(wǎng)絡(luò)Swin Transformer,其通過可偏移的窗口注意力機(jī)制打破非重疊窗口的局限,允許跨窗口的特征融合,從而帶來更高的計算效率。此外,Swin Transformer在特征提取時運(yùn)用Patch,從區(qū)域角度提取全局特征,為被遮擋的目標(biāo)果實(shí)的特征提取提供新的思路。
本文以FoveaBox[12]為模型基線,采用Swin Transformer作為模型的骨干網(wǎng)絡(luò),利用局部區(qū)域特征預(yù)測整體目標(biāo)果實(shí)特征;引入金字塔結(jié)構(gòu),在特征金字塔的基礎(chǔ)上,引入自底向上的結(jié)構(gòu),雙向的增強(qiáng)特征,從而獲得增強(qiáng)后的金字塔型多粒度特征映射;運(yùn)用FoveaBox頭檢測目標(biāo),輸出目標(biāo)的類別與定位信息。
1 數(shù)據(jù)來源
為便于評估優(yōu)化模型的有效性,構(gòu)造1個綠色蘋果數(shù)據(jù)集,以驗證真實(shí)復(fù)雜果園環(huán)境下優(yōu)化模型對部分遮擋目標(biāo)識別精度的有效性。為使模型適應(yīng)蘋果采摘機(jī)器人的非結(jié)構(gòu)化復(fù)雜多樣的作業(yè)場景,運(yùn)用手機(jī)型號為Vivo Z5x,采集不同天氣條件、光照條件以及同一場景不同視角的果實(shí)圖像,包含重疊、遮擋多種形態(tài)的目標(biāo)果實(shí),如圖1所示。圖像采集時間為6:00—22:00,采集地點(diǎn)為山東省煙臺市福山區(qū)龍王山蘋果生產(chǎn)基地,蘋果的品種為嘎啦果,果實(shí)與鏡頭間的距離為0.4~5 m。
采集的圖像經(jīng)篩選后,共保留分辨率為4 608像素×3 456像素的975張圖像。對采集圖像進(jìn)行處理,先調(diào)整圖像分辨率為640像素×480像素,并利用圖像標(biāo)注工具Labelme沿果實(shí)邊界標(biāo)注多邊形蘋果實(shí)例,將標(biāo)記好的圖像按照7∶3的比例隨機(jī)劃分訓(xùn)練集與測試集。
2 抗遮擋的FoveaBox蘋果檢測模型
以標(biāo)準(zhǔn)的FoveaBox為基線,構(gòu)造抗遮擋的FoveaBox模型,其優(yōu)化在于采用基于Transformer編碼器的Swin Transformer為骨干網(wǎng)絡(luò)。Swin Transformer打破了卷積神經(jīng)網(wǎng)絡(luò)僅從局部感受野中提取特征的局限性,有效減少目標(biāo)上下文特征的損失,融合不同粒度層級的區(qū)域級特征。該優(yōu)化模型的核心組件是多頭自注意力機(jī)制,通過計算各區(qū)域的相似度,實(shí)現(xiàn)非完整目標(biāo)果實(shí)的識別??拐趽醯腇oveaBox仍遵循“特征提取—特征融合—檢測”范式,其整體流程共包含Swin Transformer、FPN與FoveaBox檢測3個部分,如圖2所示。其中,采用Swin Transformer作為骨干網(wǎng)絡(luò)提取特征,利用特征金字塔網(wǎng)絡(luò)融合多尺度特征,運(yùn)用Fovea頭識別目標(biāo)分類與定位。
2.1 Swin Transformer骨干網(wǎng)絡(luò)
抗遮擋的FoveaBox采用基于可偏移窗口自注意力的Swin Transformer來提取全局特征信息,借助Patch間的相似度計算進(jìn)行特征融合,從而實(shí)現(xiàn)對部分被遮擋目標(biāo)果實(shí)的精準(zhǔn)檢測。Swin Transformer在使用非重疊的窗口注意力(W—MSA)與可偏移窗口注意力(SW—MSA)進(jìn)行捕獲全局特征,其中,可偏移窗口注意力能夠有效緩解非重疊窗口注意力未能關(guān)注Patch之間的關(guān)聯(lián)關(guān)系,從而有效輔助被遮擋目標(biāo)的檢測。
Swin Transformer共包含4個階段,在第1個階段前,利用Patch劃分模塊將輸入圖像劃分為Patch;將Patch依次輸入到Swin Transformer的4個階段。Swin Transformer的4個階段均由Swin Transformer塊構(gòu)成,其中,第1個階段的Swin Transformer塊前使用線性嵌入拉伸,后3個階段使用Patch合并模塊來融合相鄰的Patch。這樣做是為了降采樣,以構(gòu)造分層多粒度表征特征。此外,每個Swin Transformer塊均由W—MSA與SW—MSA成對使用。Swin Transformer的結(jié)構(gòu)如圖3所示。
假定輸入圖像H×W×3,首先,利用Patch劃分模塊將圖像劃分為4×4的Patch,展平后得到維度為48,即Patch劃分模塊的輸出大小為H/4×W/4×48的特征C0。其次,將C0輸入到第1個階段Stage 1中,經(jīng)過線性嵌入與Swin Transformer塊處理后,得到第1階段的輸出特征C1,其大小為H/4×W/4×D,D為輸出特征的通道數(shù)。然后,將C1輸入第2個階段Stage 2中,經(jīng)過Patch合并與Swin Transformer塊,輸出大小為H/8×W/8×2D的特征C2。最后,第3階段Stage 3和第4個階段Stage 4與Stage 2結(jié)構(gòu)相同依次輸出C3和C4,對應(yīng)特征大小分別為H/16×W/16×4D與H/32×W/32×8D。其中,Patch合并模塊是將相鄰的2×2個Patch拼接起來,以降低Patch的數(shù)量,從而實(shí)現(xiàn)降采樣的作用。
對于任意階段的Swin Transformer塊,均有多個成對的W—MSA與SW—MSA組成。Swin Transformer塊結(jié)構(gòu)如圖4所示。與標(biāo)準(zhǔn)Transformer結(jié)構(gòu)相比,左側(cè)將多頭自注意力機(jī)制優(yōu)化為非重疊的窗口自注意力機(jī)制,右側(cè)則將多頭自注意力機(jī)制優(yōu)化為可偏移的窗口自注意力機(jī)制。此處,右側(cè)采用可偏移的窗口注意力是因為左側(cè)的窗口注意力采用非重疊的方式劃分Patch,這導(dǎo)致Patch之間相互獨(dú)立,未能考慮到Patch特征之間的關(guān)聯(lián)關(guān)系。為在提升Transformer計算效率的同時兼顧窗口之間的聯(lián)系,優(yōu)化右側(cè)的Transformer結(jié)構(gòu)為偏移窗口自注意力。具體如下,假定左側(cè)窗口注意力的窗口位于左上角,窗口大小為M×M。對應(yīng)地,右側(cè)的可偏移的窗口注意力窗口分別向右、向下偏移|M/2|個像素,再進(jìn)行窗口注意力運(yùn)算,這樣可以兼顧到不同窗口之間的關(guān)聯(lián)關(guān)系。對于任意成對的W—MSA與SW—MSA,假定W—MSA的輸入為xl-1,輸出為xl,SW—MSA的輸入為xl,輸出為xl+1,Swin Transformer塊計算如式(1)~式(4)所示。
x^l=W—MSA(LN(xl-1))+xl-1
(1)
xl=FFN(LN(x^l))+x^l
(2)
x^l+1=SW—MSA(LN(xl))+xl
(3)
xl+1=FFN(LN(x^l+1))+x^l+1
(4)
式中: W—MSA(·)——窗口注意力機(jī)制;
LN(·)——層歸一化;
FFN(·)——前饋網(wǎng)絡(luò);
SW—MSA(·)——偏移窗口注意力機(jī)制;
x^l——
第l個Swin Transformer塊中窗口注意力機(jī)制模塊的輸出;
x^l+1——
第l個Swin Transformer塊中偏移窗口注意力機(jī)制模塊的輸出。
2.2 特征金字塔網(wǎng)絡(luò)
標(biāo)準(zhǔn)的骨干網(wǎng)絡(luò)僅經(jīng)Swin Transformer的最后階段輸出最高層特征映射用于目標(biāo)檢測,這些特征具有低分辨率和高判別性的特點(diǎn)。然而,被遮擋目標(biāo)的果實(shí)所占面積相比于未被遮擋的目標(biāo)面積極小,因此,在經(jīng)過一系列特征提取后,被遮擋目標(biāo)的特征信息相對較少。
為融合多粒度的被遮擋目標(biāo)的特征信息,從而緩解特征提取過程中可能發(fā)生的特征損失,受到特征金字塔網(wǎng)絡(luò)聚合多尺度特征的啟發(fā),首先,通過橫向連接和自頂向下結(jié)構(gòu),將不同層級的多分辨率特征進(jìn)行逐元素加和,輸出金字塔型特征映射。然后,將這些富含語義信息的金字塔型特征輸入檢測器進(jìn)行目標(biāo)檢測。優(yōu)化模型中,將Swin Transformer 4個階段輸出特征作為特征金字塔網(wǎng)絡(luò)的輸入{Fi}(i=1,…,4),經(jīng)最近鄰上采樣的自頂向下結(jié)構(gòu),輸出增強(qiáng)后的金字塔型特征{Pi}(i=1,…,4)。
2.3 Fovea頭部網(wǎng)絡(luò)
Fovea頭部網(wǎng)絡(luò)是1個無錨框的目標(biāo)檢測器,由1個分類子網(wǎng)絡(luò)與1個邊界框子網(wǎng)絡(luò)組成。盡管在結(jié)構(gòu)上Fovea頭部網(wǎng)絡(luò)與RetinaNet檢測器相似,但其核心思想有所不同。分類子網(wǎng)絡(luò)在訓(xùn)練過程中采用的正負(fù)樣本分配策略為:定義目標(biāo)區(qū)域為正樣本區(qū)域,正樣本之外的區(qū)域為負(fù)樣本區(qū)域。在進(jìn)行圖像樣本的分類時,該子網(wǎng)絡(luò)借鑒了全卷積網(wǎng)絡(luò)中語義分割的思想,進(jìn)行逐像素分類。分類器的輸出通道數(shù)等于目標(biāo)類別的數(shù)量。分類子網(wǎng)絡(luò)結(jié)構(gòu)為:分類子網(wǎng)絡(luò)由4個帶有ReLU激活函數(shù)且卷積核為3×3、通道數(shù)為256的卷積層Conv1與1個卷積核為3×3、通道數(shù)為K的卷積層Conv2構(gòu)成。
邊界框子網(wǎng)絡(luò)與RetinaNet的邊界框回歸子網(wǎng)絡(luò)有所不同,其核心思想是在任意像素單元上直接預(yù)測目標(biāo)的邊界??紤]到直接預(yù)測目標(biāo)邊界時,因目標(biāo)邊界大小尺度不一導(dǎo)致的不穩(wěn)定性,邊界框預(yù)測會根據(jù)特征金字塔的數(shù)量對目標(biāo)尺寸進(jìn)行劃分,并給每個金字塔定義1個基本的尺度rl。金字塔層l的目標(biāo)矩形框的有效比例范圍計算為[rl/η,rl·η],η表示每個金字塔層上控制尺度范圍的經(jīng)驗值。在這一設(shè)置中,目標(biāo)不在矩形框范圍內(nèi)的將不參與訓(xùn)練。網(wǎng)絡(luò)結(jié)構(gòu)上邊界框子網(wǎng)絡(luò)與分類子相同,其不同點(diǎn)在于:最后1個邊界框預(yù)測層Conv2的通道數(shù)為4,以表示所預(yù)測矩形框的位置信息。
2.4 損失函數(shù)
抗遮擋的FoveaBox由Swin Transformer骨干網(wǎng)絡(luò)、特征金字塔網(wǎng)絡(luò)與Fovea頭部網(wǎng)絡(luò)組成,首先,優(yōu)化網(wǎng)絡(luò)通過前向傳播算法將輸入圖像傳入抗遮擋的FoveaBox中,以生成預(yù)測結(jié)果。其次,分類子網(wǎng)絡(luò)和邊界框子網(wǎng)絡(luò)分別計算預(yù)測結(jié)果與真實(shí)值之間的損失函數(shù),以評估預(yù)測值與真實(shí)值之間的誤差;然后,利用反向傳播算法不斷調(diào)整優(yōu)化模型參數(shù),以降低預(yù)測結(jié)果與真實(shí)值之間的誤差。
在訓(xùn)練階段,正樣本區(qū)域內(nèi)的每個像素都會被標(biāo)注上相應(yīng)的目標(biāo)類標(biāo)簽。負(fù)樣本區(qū)域是除正樣本區(qū)域外的整個特征圖,因此,正樣本區(qū)域通常只占整個特征映射的一小部分。為平衡正負(fù)樣本的不平衡問題,采用Focal Loss作為分類子網(wǎng)絡(luò)的損失函數(shù)FL(·),其表達(dá)式如式(5)所示。
FL(pt)=-αt(1-pt)γlog(pt)
(5)
式中: pt——訓(xùn)練樣本的預(yù)測置信度;
αt、γ——超參數(shù)。
因此,分類損失函數(shù)Lcls計算如式(6)所示。
Lcls=FL(pt)
(6)
矩形框損失是指預(yù)測邊界框與真實(shí)邊界框之間的相對偏移量,利用Smooth L1 Loss來計算。假定真實(shí)邊界框的邊界框信息為GT=(x1,y1,x2,y2),預(yù)測矩形框的位置信息為t=(tx1,ty1,tx2,ty2),邊界框回歸損失Lbox計算如式(7)所示。
Lbox=∑α∈{x1,y1,x2,y2}SmoothL1(tα-α)
(7)
SmoothL1(x)=
0.5x2ifxlt;1
x-0.5otherwise
(8)
3 試驗與分析
為驗證優(yōu)化FoveaBox模型對被遮擋蘋果檢測的有效性,進(jìn)行以下試驗。首先,介紹試驗運(yùn)行平臺、試驗數(shù)據(jù)與試驗細(xì)節(jié);其次,挑選最優(yōu)的訓(xùn)練模型權(quán)重,并在測試集上評估優(yōu)化模型并分析試驗數(shù)據(jù);然后,分別對標(biāo)準(zhǔn)的FoveaBox模型與抗遮擋的FoveaBox模型進(jìn)行訓(xùn)練,分析區(qū)域相似度計算對提升目標(biāo)檢測性能的有效性;最后,將當(dāng)前最先進(jìn)的目標(biāo)檢測模型與抗遮擋FoveaBox模型進(jìn)行比較,分別從精確度和效率兩個方面分析優(yōu)化后的FoveaBox模型在被遮擋果實(shí)識別上的有效性。
3.1 試驗平臺與參數(shù)設(shè)置
服務(wù)器的配置環(huán)境為Ubuntu 18.04操作系統(tǒng)、10G的GeForce GTX 3080Ti顯卡與11.0的CUDA環(huán)境。所有模型均使用Python與PyTorch庫。此外,試驗均借助MMDetection框架進(jìn)行開展。
試驗參數(shù)設(shè)置:設(shè)置初始化學(xué)習(xí)率與權(quán)重衰減分別為0.000 1與10-4;設(shè)置隨機(jī)梯度下降為模型的優(yōu)化器,迭代次數(shù)iter最大值設(shè)為3000;定義批大小與epoch分別為2與12;采用骨干網(wǎng)絡(luò)在ImageNet上的預(yù)訓(xùn)練權(quán)重初始化權(quán)重參數(shù)。訓(xùn)練階段的模型分類損失、邊界框損失與總損失的曲線變化如圖5所示。其中,藍(lán)色、橘色、綠色曲線分別表示模型訓(xùn)練分類損失、邊界框損失與總損失。訓(xùn)練結(jié)束后繪制模型的mAP變化曲線,如圖6所示。
3.2 評價指標(biāo)
為衡量優(yōu)化FoveaBox模型在真實(shí)非結(jié)構(gòu)果園場景下被遮擋蘋果檢測的性能,采用交并比IoU在[0.5,0.95]閾值下平均精確率AP作為模型性能的評價指標(biāo)。假定在某一特定IoU下,某一類別的精確率、召回率可用式(9)、式(10)表示。
Precision=TPTP+FP
(9)
Recall=TPTP+FN
(10)
式中: TP——真實(shí)值為正且預(yù)測為正的數(shù)目;
FP——真實(shí)值為負(fù)且預(yù)測也為負(fù)的數(shù)目;
FN——真實(shí)值為負(fù)但預(yù)測為正的數(shù)目;
FP——真實(shí)值為正而預(yù)測為負(fù)的數(shù)目。
AP、AR分別表示為樣本中某一類別的平均精確率與平均召回率。
此外,為更全面地評估模型,還采用Params衡量模型的參數(shù)量,即模型的空間復(fù)雜度,M;運(yùn)用浮點(diǎn)運(yùn)算數(shù)FLOPs衡量模型的時間復(fù)雜度,G。
3.3 模型檢測結(jié)果
為評估優(yōu)化模型的性能,在數(shù)據(jù)集上驗證模型,首先,訓(xùn)練并測試標(biāo)準(zhǔn)的FoveaBox模型,然后,訓(xùn)練優(yōu)化模型,結(jié)果如表1所示。
試驗結(jié)果表明,優(yōu)化模型的平均精確度優(yōu)于模型基線,優(yōu)化模型在IoU為0.5閾值下AP@0.50可達(dá)86.3%。同時,還與其他一些先進(jìn)的目標(biāo)檢測模型包括Faster R—CNN、Dynamic R—CNN、PISA、TOOD以及LAD進(jìn)行對比,可以得出,優(yōu)化模型可以通過融合全局多粒度感知特征提升目標(biāo)的檢測精確度。
3.4 模型復(fù)雜度分析
為更全面地分析模型,通過評估模型Param和FLOPs分析模型的復(fù)雜度,優(yōu)化模型及其對比模型的評估結(jié)果如表2所示??梢钥闯?,優(yōu)化模型在引入Transformer后,參數(shù)量和時間復(fù)雜度均有所增加。這表明,優(yōu)化模型性能的提升是以犧牲效率和增加計算資源消耗為代價的。綜合考慮模型的精確度和復(fù)雜度,優(yōu)化模型在檢測被遮擋蘋果方面仍表現(xiàn)出一定的優(yōu)勢。
3.5 可視化結(jié)果
為更直觀地觀測優(yōu)化模型的效果,呈現(xiàn)4個測試樣例在不同模型下的可視化結(jié)果,如圖7所示。可以看出,優(yōu)化模型對提升部分遮擋目標(biāo)果實(shí)檢測精度上具有一定的效果,從而驗證優(yōu)化模型對遮擋目標(biāo)檢測結(jié)果的有效性。
4 結(jié)論
1) 針對非結(jié)構(gòu)化果園環(huán)境中的遮擋問題,以一階段無錨框的目標(biāo)檢測模型FoveaBox為基線,引入骨干網(wǎng)絡(luò)Swin Transformer與特征金字塔網(wǎng)絡(luò),提出抗遮擋的FoveaBox蘋果檢測模型。優(yōu)化模型引入Swin Transformer,運(yùn)用可遷移窗口注意力機(jī)制,聚合窗口之間的關(guān)聯(lián)關(guān)系以減少果實(shí)識別對于目標(biāo)整體特征的依賴,融合多粒度區(qū)域級特征以及區(qū)域特征間的關(guān)系,提升模型的抗遮擋能力。
2) 試驗結(jié)果表明,在綠色蘋果數(shù)據(jù)集上,優(yōu)化模型的平均精度可達(dá)86.3%,優(yōu)化模型優(yōu)于其他先進(jìn)模型。優(yōu)化的抗遮擋的FoveaBox蘋果檢測模型精確度高,在復(fù)雜非結(jié)構(gòu)環(huán)境下識別被遮擋的目標(biāo)有一定的優(yōu)勢,進(jìn)一步驗證模型在應(yīng)對復(fù)雜環(huán)境下的魯棒性和抗遮擋能力。
參 考 文 獻(xiàn)
[1] 張晨一, 張曉乾, 任振輝. 基于改進(jìn)YOLOv3的自然場景中未成熟青蘋果識別研究[J]. 中國農(nóng)機(jī)化學(xué)報, 2024, 45(7): 243-248.
Zhang Chenyi, Zhang Xiaoqian, Ren Zhenhui. Research on recognition of immature green apples in natural scenes based on improved YOLOv3 [J]. Journal of Chinese Agricultural Mechanization, 2024, 45(7): 243-248.
[2] 羅翔, 曹曉林, 藥林桃, 等.基于無人機(jī)影像的井岡蜜柚果樹樹形信息提取及產(chǎn)量估測[J]. 中國農(nóng)機(jī)化學(xué)報, 2024, 45(5): 161-167.
Luo Xiang, Cao Xiaolin, Yao Lintao, et al. Extracting Jinggang pomelo tree information and estimating yield based on Unmanned Aerial Vehicle (UAV) imageries [J]. Journal of Chinese Agricultural Mechanization, 2024, 45(5): 161-167.
[3] Jia W, Zhang Y, Lian J, et al. Apple harvesting robot under information technology: A review [J]. International Journal of Advanced Robotic Systems, 2020, 17(3): 25310.
[4] 楊濤, 孫付春, 黃波, 等. 果園作業(yè)平臺關(guān)鍵技術(shù)研究進(jìn)展[J]. 中國農(nóng)機(jī)化學(xué)報, 2024, 45(1): 152-159.
Yang Tao, Sun Fuchun, Huang Bo, et al. Research progress on key technologies of orchard operating platform [J]. Journal of Chinese Agricultural Mechanization, 2024, 45(1): 152-159.
[5] 王寶聚, 蘭玉彬, 陳蒙蒙, 等. 機(jī)器學(xué)習(xí)在無人農(nóng)場中的應(yīng)用現(xiàn)狀與展望[J]. 中國農(nóng)機(jī)化學(xué)報, 2021, 42(10): 186-192, 217.
Wang Baoju, Lan Yubin, Chen Mengmeng, et al. Application status and prospect of machine learning in unmanned farm [J]. Journal of Chinese Agricultural Mechanization, 2021, 42(10): 186-192, 217.
[6] LeCun Y, Bengio Y, Hinton G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[7]
Li Z, Liu F, Yang W, et al. A survey of convolutional neural networks: Analysis, applications, and prospects[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(12): 6999-7019.
[8] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [C]. The Thirty-first Annual Conference on Neural Information Processing Systems, 2017.
[9] Woo S, Park J, Lee JY, et al.CBAM: Convolutional block attention module [C]. 16th European Conference on Computer Vision, 2018.
[10] Yang J, Li C, Zhang P, et al. Focal self-attention for local-global interactions in vision transformers [J]. arXiv preprint arXiv:2107.00641, 2021.
[11] Liu Z, Lin Y, Cao Y, et al. SwinTransformer: Hierarchical vision transformer using shifted windows [C]. 2021 IEEE International Conference on Computer Vision, 2021.
[12]
Kong T, Sun F, Liu H, et al. FoveaBox: Beyoundanchor-based object detection [J]. IEEE Transactions on Image Processing, 2020, 29: 7389-7398.