摘要:為實(shí)現(xiàn)溫室復(fù)雜環(huán)境中草莓的快速、精確檢測(cè),提出一種基于改進(jìn)YOLOv8的多階段草莓檢測(cè)算法。首先,針對(duì)溫室環(huán)境下采集到的草莓?dāng)?shù)據(jù)集,使用LabelImg對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注;其次,針對(duì)草莓體積小、環(huán)境復(fù)雜等問題,在主干網(wǎng)絡(luò)中融入BiFormer動(dòng)態(tài)注意力機(jī)制,實(shí)現(xiàn)更加靈活的計(jì)算分配和特征感知,使網(wǎng)絡(luò)模型更加關(guān)注小目標(biāo)檢測(cè),并提高其在復(fù)雜環(huán)境下的果實(shí)檢測(cè)能力;最后,在Neck部分引入VanillaNet模塊,以降低模型計(jì)算量,進(jìn)一步提高對(duì)草莓的識(shí)別精度。試驗(yàn)結(jié)果表明,相較傳統(tǒng)的YOLOv8,改進(jìn)后的YOLOv8的平均精度均值mAP提升4.6%,達(dá)到93.8%。改進(jìn)后的YOLOv8具有更高的檢測(cè)精度,同時(shí)在小目標(biāo)檢測(cè)方面表現(xiàn)出色,為后續(xù)的采摘機(jī)器人實(shí)時(shí)小目標(biāo)檢測(cè)提供支撐。
關(guān)鍵詞:深度學(xué)習(xí);草莓檢測(cè);YOLOv8;注意力機(jī)制;數(shù)據(jù)增強(qiáng)
中圖分類號(hào):TP391" " " 文獻(xiàn)標(biāo)識(shí)碼:A" " " 文章編號(hào):2095?5553 (2024) 10?0274?07
A multi?stage strawberry detection algorithm based on improved YOLOv8
Zhang Pu, Qiao Bo, Chen Yiming
(College of Information and Intelligence, Hunan Agricultural University, Changsha, 410128, China)
Abstract: In order to achieve fast and accurate detection of strawberries in complex greenhouse environments, a multi?stage strawberry detection algorithm based on an improved YOLOv8 was proposed. Firstly, the strawberry dataset, collected in greenhouse environments, was initially annotated by using LabelImg. Subsequently, in order to address issues such as the small size of strawberries and the complexity of the environment, a BiFormer dynamic attention mechanism was integrated into the backbone network. This integration allowed for more flexible computational allocation and feature perception, focusing the network model more on small object detection and enhancing its fruit detection capabilities in complex environments. Finally, a VanilaNet module was introduced in the Neck component to reduce the computational complexity of the model and further improve its strawberry recognition accuracy. Experimental results demonstrated that the improved YOLOv8, in comparison to the traditional YOLOv8, increased the mAP by 4.6%, reaching 93.8%. The improved YOLOv8 not only has higher detection accuracy, but also performs well" in small target detection, which can provide support for the subsequent real?time small target detection of picking robots.
Keywords: deep learning; strawberry detection; YOLOv8; attention mechanism; data enhancement
0 引言
中國(guó)是全球最大的草莓生產(chǎn)國(guó),產(chǎn)值達(dá)50億美元,是第二大草莓生產(chǎn)國(guó)美國(guó)的3倍多[1]。草莓是中國(guó)農(nóng)民增收致富的重要經(jīng)濟(jì)作物,草莓成熟度的識(shí)別對(duì)于智能管理中的灌溉、施肥和環(huán)境控制等決策具有重要意義。由于草莓體積小、自然環(huán)境復(fù)雜等特點(diǎn),使得草莓的檢測(cè)比較困難。目前,草莓的識(shí)別主要依靠人工觀測(cè),工作效率低[2]。傳統(tǒng)的人工采摘和生長(zhǎng)觀測(cè)對(duì)于小型植株和果實(shí)來說耗時(shí)且費(fèi)力,可能導(dǎo)致高額的人工成本,并且無法滿足實(shí)時(shí)、快速的監(jiān)測(cè)需求。
近年來,國(guó)內(nèi)外在果實(shí)精確識(shí)別和成熟度分類方面的研究已取得顯著進(jìn)展。傳統(tǒng)機(jī)器學(xué)習(xí)方法利用顏色、質(zhì)地、形狀等淺層特征,結(jié)合不同化學(xué)和物理性質(zhì)的測(cè)量參考值,或結(jié)合光譜成像等數(shù)據(jù)來識(shí)別水果對(duì)象。Munera等[3]使用VIS-NIR高光譜反射成像實(shí)現(xiàn)對(duì)油桃成熟度檢測(cè)。Malik等[4]基于改進(jìn)的(HSV)色彩空間和增強(qiáng)的分水嶺分割算法檢測(cè)成熟番茄。馬惠玲等[5]利用近紅外高光譜圖像技術(shù)結(jié)合KNN計(jì)算對(duì)蘋果品種進(jìn)行快速鑒別,取得了較高的檢測(cè)精度。Indrabayu等[6]等使用采用徑向基函數(shù)(RBF)核函數(shù)的多類支持向量機(jī)(SVM)對(duì)草莓成熟度進(jìn)行分類,準(zhǔn)確率高達(dá)85.64%。傳統(tǒng)圖像識(shí)別方法在精確度方面表現(xiàn)出色。然而,傳統(tǒng)機(jī)器學(xué)習(xí)技術(shù)的局限性往往依賴于手工設(shè)計(jì)的特征提取方法,意味著在復(fù)雜背景下水果目標(biāo)檢測(cè)的特征表達(dá)能力會(huì)受到一定程度限制。因此,基于圖像的水果檢測(cè)技術(shù)需要進(jìn)一步深入研究,以更好地適應(yīng)復(fù)雜場(chǎng)景下的檢測(cè)需求。
隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)技術(shù)的發(fā)展,尤其是在2012年Krizhevsky等[7]推出AlexNet之后,深度學(xué)習(xí)技術(shù)已經(jīng)快速發(fā)展并廣泛應(yīng)用于各個(gè)領(lǐng)域。許多研究已經(jīng)證明基于 CNN 的水果檢測(cè)技術(shù)具有潛力。Appe等[8]提出了一種基于改進(jìn)YOLO的目標(biāo)檢測(cè)算法,即CAM-YOLO算法。該算法結(jié)合了YOLOv5目標(biāo)識(shí)別和卷積注意力模塊(CBAM),并應(yīng)用非極大值抑制和距離交并集(DIoU)來增強(qiáng)對(duì)圖像中重疊物體的識(shí)別。試驗(yàn)結(jié)果表明,CAM-YOLO算法在重疊番茄和小番茄的檢測(cè)效率上達(dá)到了88.1%。Zhou等[2]提出了一種基于Faster R-CNN的草莓檢測(cè)方法,平均檢測(cè)精度達(dá)到86%。張小花等[9]提出了基于EfficientDet-D1的草莓快速檢測(cè)及分類方法,該方法結(jié)合了EfficientNet網(wǎng)絡(luò)的快速歸一化特征加權(quán)融合特點(diǎn),針對(duì)成熟和未成熟草莓的檢測(cè)任務(wù),平均精度達(dá)到了96.71%,有較好的泛化性和魯棒性。孫俊等[10]提出一種基于改進(jìn)YOLOv4-Tiny的草莓檢測(cè)模型,采用輕量型網(wǎng)絡(luò)GhostNet作為特征提取網(wǎng)絡(luò),并在GhostBottleneck結(jié)構(gòu)中嵌入卷積注意力模塊,實(shí)現(xiàn)輕量化的同時(shí)將草莓的識(shí)別精度提升至92.62%。
與傳統(tǒng)的圖像方法相比,卷積神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的特征提取能力、準(zhǔn)確性以及魯棒性和泛化能力[11]。然而,現(xiàn)有研究大多側(cè)重于紅熟期草莓的檢測(cè),對(duì)草莓多階段的研究有限,且實(shí)際的草莓檢測(cè)應(yīng)用環(huán)境中,由于草莓體積小且密集分布,其外觀特征與周圍背景非常相似,導(dǎo)致檢測(cè)困難。在檢測(cè)過小的草莓目標(biāo)方面,目前缺乏有效的算法來獲得準(zhǔn)確的結(jié)果?,F(xiàn)有算法在檢測(cè)過程中可能會(huì)遇到誤檢、漏檢等問題。為解決上述問題,設(shè)計(jì)一種基于改進(jìn)YOLOv8的多階段草莓檢測(cè)算法,采用BiFormer[12]動(dòng)態(tài)注意力機(jī)制與輕量級(jí)結(jié)構(gòu)VanillaNet[13]相結(jié)合,從而提升對(duì)小目標(biāo)的檢測(cè)性能和效率。
1 材料與方法
1.1 數(shù)據(jù)集的采集與構(gòu)建
本試驗(yàn)所采集的數(shù)據(jù)來自浙江衢州蓮花基地,其采用溫室內(nèi)高架栽培模式,種植場(chǎng)景如圖1所示。草莓的品種為紅顏,試驗(yàn)使用的圖像采集設(shè)備為手機(jī)后置攝像頭。試驗(yàn)通過采集動(dòng)態(tài)視頻數(shù)據(jù),并使用Python對(duì)采集到的視頻進(jìn)行幀處理,共采集了溫室環(huán)境中的草莓圖像463張,為提高數(shù)據(jù)集的容量,使用Python腳本從網(wǎng)上隨機(jī)爬取并針對(duì)性地篩選了小目標(biāo)等影響下的草莓圖像345張,總數(shù)共計(jì)808張?jiān)紙D像。本試驗(yàn)使用的標(biāo)記工具為L(zhǎng)abelImg圖像處理軟件,并通過人工手動(dòng)對(duì)草莓位置進(jìn)行標(biāo)記。將識(shí)別數(shù)據(jù)分為未成熟、半成熟和成熟草莓3種樣本,按8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
Mosaic方法是YOLOv4論文中提出的一種基于圖像變換的數(shù)據(jù)增強(qiáng)方法。它通過一系列方法來拼接多個(gè)原始圖像,從而創(chuàng)建一個(gè)合成圖像。合成圖像融合了多個(gè)圖像的內(nèi)容,包含了更多的信息,有助于訓(xùn)練模型更好地適應(yīng)各種復(fù)雜場(chǎng)景。
為了增強(qiáng)模型的泛化性能,本文在訓(xùn)練過程中應(yīng)用Mosaic技術(shù)。該技術(shù)通過隨機(jī)選取4張圖片,并對(duì)它們進(jìn)行隨機(jī)裁剪、翻轉(zhuǎn)、縮放和色域變化,然后將它們拼接在一起,作為輸入傳入模型中。具體的圖像處理方法和參數(shù)如表1所示。
1.2 方法
1.2.1 YOLOv8網(wǎng)絡(luò)模型
YOLOv8由Ultralytics于2023年1月發(fā)布[14]?;谇耙幌盗衁OLO模型的成功,YOLOv8引入了新的功能和改進(jìn),這使其在目標(biāo)檢測(cè)方面表現(xiàn)出更高的效率,同時(shí)仍然保持高精度。YOLOv8的架構(gòu)如圖2所示,主要可分為骨干特征提取網(wǎng)絡(luò)(Backbone)、特征融合網(wǎng)絡(luò)(Neck)和檢測(cè)頭(Head)三部分。YOLOv8包含五種模型,分別是YOLOv8n、YOLOv8s、YOLOv8m、YOLOv8l和YOLOv8x。其中YOLOv8s在檢測(cè)性能和模型大小之間取得了最佳平衡。因此,本文采用一階段檢測(cè)算法YOLOv8s作為基線模型。
YOLOv8 使用CSPDarknet53作為骨干網(wǎng)絡(luò),它是YOLOv7中使用的Darknet53網(wǎng)絡(luò)的改進(jìn)版本[15]。相較于YOLOv5,YOLOv8采用了更輕量化的c2f模塊,取代了YOLOv5中的C3模塊,這一改進(jìn)在保持模型輕量化的同時(shí),提供了更豐富的梯度流信息,有助于提高檢測(cè)性能。在骨干網(wǎng)絡(luò)末端,則仍使用最流行的空間金字塔快速池化(SPPF)模塊,SPPF是SPP[16]的變體,它是一種更高效且邊緣設(shè)備友好的信息融合模塊。在特征融合網(wǎng)絡(luò)部分,YOLOv8使用PAN-FPN結(jié)構(gòu)進(jìn)行特征融合,與YOLOv5和YOLOv7 模型相比,YOLOv8在PAN 結(jié)構(gòu)中去除了上采樣后的卷積運(yùn)算,以實(shí)現(xiàn)輕量化,并保持原有性能。在最后的檢測(cè)頭部分(Head),采用目前主流的解耦頭結(jié)構(gòu)(Decoupled Head)。與YOLOv6和YOLOX類似。綜上所述,YOLOv8引入了諸多改進(jìn),這使得它在目標(biāo)檢測(cè)任務(wù)中具有較高的性能
1.2.2 YOLOv8算法的改進(jìn)
YOLOv8在眾多方面表現(xiàn)出色,然而在復(fù)雜場(chǎng)景中對(duì)小目標(biāo)的識(shí)別仍存在不足之處。為了更好地應(yīng)對(duì)草莓檢測(cè)任務(wù)的需求,對(duì)原始的YOLOv8結(jié)構(gòu)進(jìn)行了優(yōu)化,改進(jìn)了對(duì)小目標(biāo)的檢測(cè)效果,并進(jìn)一步提高了整體的檢測(cè)精度。改進(jìn)YOLOv8的多階段草莓檢測(cè)算法結(jié)構(gòu)如圖3所示。
1) 為了使模型能夠更好地關(guān)注草莓的細(xì)節(jié)特征,在YOLOv8骨干網(wǎng)絡(luò)部分,引入CVPR2023的最新成果BiFormer注意力機(jī)制,替換原有的C2 f模塊,從而提升模型對(duì)小目標(biāo)的檢測(cè)性能。
2) 為了進(jìn)一步提高對(duì)草莓的識(shí)別精度,在Neck部分,引入了VanillaNet模塊,以降低模型計(jì)算量,使得模型能夠在提高性能的同時(shí)減少計(jì)算資源的消耗,從而提高模型的效率和實(shí)用性。
如圖3所示,改進(jìn)后的YOLOv8引入了BiFormer注意力機(jī)制和VanillaNet模塊,相比于其他常用的目標(biāo)檢測(cè)算法(如YOLOv5、YOLOv7、SSD[17]和Faster R-CNN[18]),在整體精度上更高,并且得益于BiFormer注意力機(jī)制對(duì)于小目標(biāo)草莓的檢測(cè)性能也更好。在GFLOPs方面,改進(jìn)后的YOLOv8其計(jì)算復(fù)雜度遠(yuǎn)低于YOLOv7、SSD和Faster R-CNN,然而,盡管引入VanillaNet模塊成功降低了BiFormer注意力機(jī)制帶來的計(jì)算量問題,但改進(jìn)后的YOLOv8仍然引入了一定的計(jì)算量。
1.2.3 BiFormer注意力機(jī)制
BiFormer基于Transformer[19]模型架構(gòu)設(shè)計(jì),在多個(gè)任務(wù)上表現(xiàn)優(yōu)異,包括圖像分類、目標(biāo)檢測(cè)、實(shí)例分割和語(yǔ)義分割等。從BiFormer在COCO2017數(shù)據(jù)集上的試驗(yàn)結(jié)果來看,BiFormer注意力機(jī)制在處理小目標(biāo)和密集檢測(cè)方面尤為突出。草莓生長(zhǎng)環(huán)境復(fù)雜,檢測(cè)過程中常出現(xiàn)漏檢和誤檢問題。這是因?yàn)椴葺仓旰凸麑?shí)較小且密集分布,導(dǎo)致對(duì)其進(jìn)行準(zhǔn)確檢測(cè)具有挑戰(zhàn)性。為了解決這些問題,引入了BiFormer機(jī)制,以便檢測(cè)模型過濾掉大部分與目標(biāo)無關(guān)的信息,更好地聚焦于待檢測(cè)目標(biāo)。與傳統(tǒng)注意力相比,BiFormer大幅減少了計(jì)算量和內(nèi)存需求,同時(shí)又保留了全局建模能力,實(shí)現(xiàn)性能和效率之間的平衡。BiFormer注意力機(jī)制的結(jié)構(gòu)如圖4所示。
從圖4可以看出,BiFormer首先劃分輸入特征[X∈RH×W×C]為[S×S]個(gè)不同區(qū)域,即[Xr∈RS2×HWS2×C],以此確保每個(gè)區(qū)域都包含一定數(shù)量的特征信息。劃分后,利用線性映射,通過權(quán)值矩陣[Wq]、[Wk]和[Wv]獲得[Q,K,V∈RS2×HWS2×C],計(jì)算如式(1)所示。
[Q=XrWq,K=XrWk,V=XrWv] (1)
其中,Q,K,V分別為查詢向量、鍵向量和值向量。
隨后,對(duì)于每個(gè)劃分區(qū)域,計(jì)算查詢向量Q和鍵向量K的平均值。即[Qr,Kr∈RS2×C]。并以此構(gòu)建鄰接矩陣[Ar],計(jì)算區(qū)域間語(yǔ)義相關(guān)性。
[Ar=Qr(Kr)T] (2)
不同于傳統(tǒng)注意力機(jī)制,BiFormer通過索引矩陣只選擇與查詢區(qū)域最相關(guān)的前k個(gè)區(qū)域,以此避免冗余計(jì)算。
[Ir=topkIndex(Ar)] (3)
由于與查詢區(qū)域最相關(guān)的區(qū)域分散在整個(gè)特征圖當(dāng)中,直接計(jì)算會(huì)導(dǎo)致內(nèi)存利用率較低,因此BiFormer收集分散的鍵向量和值向量,并在收集的鍵值對(duì)中應(yīng)用細(xì)粒度的token?to?token注意力機(jī)制,即[Kg,Vg∈RS2×kHWS2×C]。
[Kg=Gather(K,Ir),Vg=Gather(V,Ir)] (4)
最終得到BiFormer注意力機(jī)制式如式(5)所示。
[O=Attention(Q,Kg,Vg)+LCE(V)] (5)
其中,LCE(Local Context Enhancement)[20]是基于深度卷積的局部上下文增強(qiáng)函數(shù)。
傳統(tǒng)的注意力機(jī)制中,會(huì)對(duì)所有的鍵值對(duì)進(jìn)行全局計(jì)算,這導(dǎo)致了計(jì)算復(fù)雜度較高的問題。然而,在BiFormer中,引入了雙層路由注意力機(jī)制,來優(yōu)化這個(gè)問題。雙層路由注意力機(jī)制的關(guān)鍵思想是只關(guān)注與查詢區(qū)域最相關(guān)的前k個(gè)區(qū)域。通過選擇與查詢最相關(guān)的k個(gè)區(qū)域,可以避免在最不相關(guān)的區(qū)域進(jìn)行冗余計(jì)算,從而大幅減少計(jì)算量。這種做法充分利用了稀疏性,使得計(jì)算更加高效。另外,BiFormer注意力機(jī)制還針對(duì)GPU進(jìn)行了優(yōu)化,僅使用適用于GPU的密集矩陣乘法運(yùn)算。這種優(yōu)化進(jìn)一步提高了計(jì)算效率,同時(shí)減少了內(nèi)存占用。
1.2.4 VanillaNet模塊
VanillaNet是一種基于極簡(jiǎn)主義設(shè)計(jì)的神經(jīng)網(wǎng)絡(luò)模型,由華為諾亞和悉尼大學(xué)的研究者共同提出。該模型旨在應(yīng)對(duì)復(fù)雜神經(jīng)網(wǎng)絡(luò)部署所面臨的挑戰(zhàn),它以極簡(jiǎn)主義的設(shè)計(jì)理念為基礎(chǔ),舍棄了過多的深度、shortcut以及self?attention等復(fù)雜的操作,簡(jiǎn)化了網(wǎng)絡(luò)結(jié)構(gòu),提供了在資源有限環(huán)境下高效的解決方案,并在計(jì)算機(jī)視覺任務(wù)中取得了令人滿意的結(jié)果。因此,本文在Neck部分引入VanillaNet模塊來提高模型的精度,并減少由BiFormer注意力機(jī)制引入的模型計(jì)算量。VanillaNet其框架如圖5所示,包括主干、主體和全連接層三部分。其借鑒AlexNet和VGG等傳統(tǒng)深度網(wǎng)絡(luò)的結(jié)構(gòu)設(shè)計(jì),輸入特征的大小被向下采樣,而通道在每個(gè)階段被加倍。以6層的網(wǎng)絡(luò)結(jié)構(gòu)為例,主干部分采用了步長(zhǎng)為4的4×4×3×C卷積進(jìn)行特征變換;對(duì)于主體部分的每個(gè)階段,采用MaxPool進(jìn)行特征下采樣以減小尺寸和特征圖,且為了保留特征圖主要信息的同時(shí),實(shí)現(xiàn)最小的計(jì)算成本,采用一個(gè)1×1卷積進(jìn)行特征處理,并且在每個(gè)1×1卷積層之后應(yīng)用激活函數(shù)。此外,在每一層之后還添加了BN[21]來簡(jiǎn)化網(wǎng)絡(luò)的訓(xùn)練過程。需要注意的是,第5層卷積層不增加通道數(shù),并使用平均池化層。對(duì)于全連接層部分,用于進(jìn)行分類處理。
2 試驗(yàn)結(jié)果與分析
2.1 試驗(yàn)環(huán)境以及參數(shù)設(shè)置
本文試驗(yàn)均在同一硬件環(huán)境下運(yùn)行,具體包括:CPU為Intel(R) Xeon(R) Silver 4214 R CPU@2.40 GHz,GPU為NVIDIA GeForce RTX3080 Ti,顯存為12 GB。試驗(yàn)所采用的操作系統(tǒng)環(huán)境為L(zhǎng)inux Ubuntu,深度學(xué)習(xí)框架為PyTorch 2.0.0,Python版本為3.8,Cuda版本為11.8。
試驗(yàn)中使用的輸入圖像大小為640像素×640像素,優(yōu)化器為Adam,權(quán)重衰減率為0.000 5,初始學(xué)習(xí)率為0.001,批尺寸為16,訓(xùn)練200個(gè)輪次(Epoch)。此外,為了增強(qiáng)模型泛化性,本文還采用了Mosaic數(shù)據(jù)增強(qiáng)方法。模型訓(xùn)練結(jié)束后,使用保存的權(quán)重在測(cè)試集上對(duì)模型進(jìn)行性能評(píng)估。
2.2 評(píng)價(jià)指標(biāo)
本次試驗(yàn)的模型性能評(píng)估指標(biāo)包括mAP@0.5和mAP@0.5:0.95兩項(xiàng),同時(shí)針對(duì)模型改進(jìn)引入的計(jì)算量問題,引入GFLOPs參數(shù)作為模型計(jì)算效率指標(biāo)。GFLOPs越低,表明模型的計(jì)算效率就越高。平均精度均值mAP是目標(biāo)檢測(cè)中最常用的評(píng)價(jià)指標(biāo)之一,它反映了模型的整體精度。mAP越大,則表示模型的整體精度越高。
[P=TPTP+FP] (6)
[R=TPTP+FN] (7)
[AP=01P(R)dR] (8)
[mAP=i=1KAPi/K] (9)
式中: P——精度;
R——召回率;
TP——真正例;
FN——假反例;
FP——假正例;
AP——不同召回率下準(zhǔn)確率的平均值;
K——總類別數(shù)。
2.3 消融試驗(yàn)
為驗(yàn)證本文所提出的改進(jìn)方法的有效性和準(zhǔn)確性,進(jìn)行消融試驗(yàn),如表2所示。以YOLOv8s作為基線模型,逐步融入BiFormer注意力機(jī)制和VanillaNet模塊,并逐一對(duì)比分析改進(jìn)點(diǎn)。從表2可知,使用BiFormer替換YOLOv8骨干網(wǎng)絡(luò)(Backbone)當(dāng)中的C2f模塊后,mAP@0.5提高了3.2%,mAP@0.5∶0.95提高了4.7%,證明了引入BiFormer注意力機(jī)制改善YOLOv8對(duì)小目標(biāo)檢測(cè)性能不足的可行性。此外,在Neck部分引入VanillaNet模塊,相比于基線模型,mAP@0.5提高了2.4%,mAP@0.5:0.95提高了5.2%。并且,因?yàn)槠錁O簡(jiǎn)的設(shè)計(jì),GFLOPs相比于基線模型降低了16%。在融入BiFormer的基礎(chǔ)上,引入VanillaNet模塊后,不僅mAP@0.5達(dá)到了93.8%,提高了1.4%,而且緩解了融入注意力機(jī)制帶來的計(jì)算量問題,使模型GFLOPs降低了14%,進(jìn)一步證明了引入VanillaNet減少計(jì)算量、提高精度的可行性。
2.4 對(duì)比試驗(yàn)
將改進(jìn)后的YOLOv8算法與其他常用的目標(biāo)檢測(cè)算法(包括YOLOv5、YOLOv7、SSD和Faster R-CNN)進(jìn)行比較,以進(jìn)一步驗(yàn)證改進(jìn)算法的有效性和其在檢測(cè)性能方面的出眾表現(xiàn)。試驗(yàn)采用了相同的數(shù)據(jù)集劃分,并在相同的試驗(yàn)平臺(tái)上進(jìn)行。
如表3所示,改進(jìn)后的YOLOv8相比基線模型,mAP@0.5提高了4.6%,mAP@0.5:0.95提高了5%。相比于其他的單階段算法YOLOv7、YOLOv5和SSD,mAP@0.5也分別提高了16.4%、3.2%和5%。此外,與兩階段算法Faster R-CNN相比,改進(jìn)后的YOLOv8在mAP@0.5上提高了5.8%。在GFLOPs方面,改進(jìn)后的YOLOv8比起YOLOv7、SSD和Faster R-CNN,具有更低的計(jì)算復(fù)雜度。相比YOLOv5和基線模型,改進(jìn)后的YOLOv8雖然引入了一定的計(jì)算量,但能夠提供更可靠和精確的檢測(cè)結(jié)果。相比當(dāng)前主流算法,本文提出的算法顯然有更出色的檢測(cè)性能。
2.5 檢測(cè)效果對(duì)比
為了更好地觀察本文提出的算法的檢測(cè)效果,從數(shù)據(jù)集中選取部分圖片進(jìn)行測(cè)試。如圖6所示,展示了測(cè)試集人工標(biāo)注圖像和改進(jìn)前后的檢測(cè)結(jié)果??梢钥闯?,基線模型YOLOv8對(duì)于小目標(biāo)草莓的檢測(cè)效果存在一定不足,存在漏檢和誤檢現(xiàn)象。改進(jìn)后的算法擁有更出色的檢測(cè)性能,得益于BiFormer注意力機(jī)制,改進(jìn)后的算法對(duì)小目標(biāo)的檢測(cè)效果得到了有效提升,能在復(fù)雜背景的干擾下準(zhǔn)確的識(shí)別小目標(biāo)草莓。
3 結(jié)論
1) 針對(duì)溫室環(huán)境下采集的草莓?dāng)?shù)據(jù)集,使用LabelImg對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注;針對(duì)YOLOv8在小目標(biāo)檢測(cè)方面存在的不足,在YOLOv8骨干網(wǎng)絡(luò)(Backbone)部分融入BiFormer注意力機(jī)制,來替換原骨干部分中的C2f模塊,使其對(duì)于草莓檢測(cè)中的小目標(biāo)更加敏感,并有效降低漏檢和誤檢情況的發(fā)生;最后,在Neck部分,引入VanillaNet模塊,進(jìn)一步提高算法的整體檢測(cè)精度,并降低融入BiFormer注意力機(jī)制所帶來的計(jì)算量問題。
2) 通過消融試驗(yàn)來看,在YOLOv8 s的基礎(chǔ)上分別引入BiFormer與VanillaNet,mAP@0.5分別提高3.2%和2.4%,在融入BiFormer的基礎(chǔ)上,再引入VanillaNet模塊,mAP@0.5提高1.4%,并且使模型GFLOPs降低14%,驗(yàn)證本文提出的改進(jìn)方案的有效性。
3) 對(duì)比試驗(yàn)表明,相比YOLOv8,改進(jìn)后的算法在mAP@0.5和mAP@0.5:0.95上分別提升4.6%和5%。相比其他的檢測(cè)算法YOLOv7、YOLOv5、SSD和Faster R-CNN,mAP@0.5也分別提高16.4%、3.2%、5%和5.8%。本文提出的算法具備更加出色的檢測(cè)性能,并且能夠有效提升對(duì)小目標(biāo)的檢測(cè)效果。
4) 改進(jìn)后的YOLOv8算法在整體精度上表現(xiàn)更好,并且對(duì)于小目標(biāo)草莓的檢測(cè)性能也更出色,這是與其他常用目標(biāo)檢測(cè)算法(例如YOLOv5、YOLOv7、SSD和Faster R-CNN)相比的優(yōu)勢(shì)。然而,改進(jìn)后的YOLOv8具有一定的計(jì)算量。因此,在后續(xù)的工作中,應(yīng)繼續(xù)降低算法的計(jì)算復(fù)雜度,使其更適用于嵌入式設(shè)備,且減少計(jì)算資源的需求。此外,還應(yīng)進(jìn)一步增加更多具有復(fù)雜場(chǎng)景的草莓圖像,以豐富訓(xùn)練數(shù)據(jù)集,從而進(jìn)一步提升算法的泛化性和實(shí)用性。
參 考 文 獻(xiàn)
[ 1 ] Hernández?Martínez N R, Blanchard C, Wells D, et al. Current state and future perspectives of commercial strawberry production: A review [J]. Scientia Horticulturae, 2023, 312: 111893.
[ 2 ] Zhou C, Hu J, Yue J, et al. A novel greenhouse?based system for the detection and plumpness assessment of strawberry using an improved deep learning technique [J]. Frontiers in Plant Science, 2020, 11: 559.
[ 3 ] Munera S, Amigo M J, Blasco J, et al. Ripeness monitoring of two cultivars of nectarine using VIS-NIR hyperspectral reflectance imaging [J]. Journal of Food Engineering, 2017, 214: 29-39.
[ 4 ] Malik H M, Zhang T, Li H, et al. Mature tomato fruit detection algorithm based on improved HSV and watershed algorithm [J]. IFAC Papersonline, 2018, 51(17): 431-436.
[ 5 ] 馬惠玲, 王若琳, 蔡騁, 等. 基于高光譜成像的蘋果品種快速鑒別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào), 2017, 48(4): 305-312.
Ma Huiling, Wang Ruolin, Cai Cheng, et al. Rapid identification of apple varieties based on hyperspectral imaging [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(4): 305-312.
[ 6 ] Indrabayu I, Arifin N, Areni I S. Strawberry ripeness classification system based on skin tone color using multi?class support vector machine [C]. 2019 International Conference on Information and Communications Technology (ICOIACT), 2019: 191-195.
[ 7 ] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks [J]. Advances in Neural Information Processing Systems, 2012, 25.
[ 8 ] Appe S N, Arulselvi G, Balaji G N. CAM-YOLO: tomato detection and classification based on improved YOLOv5 using combining attention mechanism [J]. Peerj Computer Science, 2023, 9: e1463.
[ 9 ] 張小花, 李浩林, 李善軍, 等. 基于EfficientDet-D1的草莓快速檢測(cè)及分類[J]. 華中農(nóng)業(yè)大學(xué)學(xué)報(bào), 2022, 41(6): 262-269.
Zhang Xiaohua, Li Haolin, Li Shanjun, et al. Rapid detection and classification of strawberries based on EfficientDet-D1 [J]. Journal of Huazhong Agricultural University, 2022, 41(6): 262-269.
[10] 孫俊, 陳義德, 周鑫, 等. 快速精準(zhǔn)識(shí)別棚內(nèi)草莓的改進(jìn)YOLOv4-Tiny模型[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2022, 38(18): 195-203.
Sun Jun, Chen Yide, Zhou Xin, et al. Fast and accurate recognition of the strawberries in greenhouse based on improved YOLOv4-Tiny model [J]. Transactions of the Chinese Society of Agricultural Engineering, 2022, 38(18): 195-203.
[11] Bharman P, Saad A S, Khan S, et al. Deep learning in agriculture: A survey [J]. Asian Journal of Research in Computer Science, 2022, 13: 28-47.
[12] Zhu L, Wang X, Ke Z, et al. BiFormer: Vision transformer with bi?level routing attention [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2023: 10323-10333.
[13] Chen H, Wang Y, Guo J, et al. VanillaNet: The power of minimalism in deep learning [J]. Advances in Neural Information Processing Systems, 2024, 36.
[14] Terven J, Córdova?Esparza D M, Romero?González J A. A comprehensive review of yolo architectures in computer vision: From YOLOv1 to YOLOv8 and YOLO-NAS [J]. Machine Learning and Knowledge Extraction, 2023, 5(4): 1680-1716.
[15] Soylu E, Soylu T. A performance comparison of YOLOv8 models for traffic sign detection in the robotaxi?full scale autonomous vehicle competition [J]. Multimedia Tools and Applications, 2023, 83(8): 25005-25035.
[16] He K, Zhang X, Ren S, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[17] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector [C]. Computer Vision-ECCV 2016: 14th European Conference, 2016: 21-37.
[18] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real?time object detection with region proposal networks [J]. Advances in Neural Information Processing Systems, 2015, 28.
[19] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Advances in Neural Information Processing Systems, 2017, 30.
[20] Ren S, Zhou D, He S, et al. Shunted self?attention via multi?scale token aggregation [C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022: 10853-10862.
[21] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift [C]. International Conference on Machine Learning. Pmlr, 2015: 448-456.