易 詩,李俊杰,張 鵬,王丹丹
基于特征遞歸融合YOLOv4網(wǎng)絡(luò)模型的春見柑橘檢測與計數(shù)
易 詩1,2,李俊杰1,張 鵬1,王丹丹1
(1. 成都理工大學(xué)機電工程學(xué)院,成都 610059;2. 重慶郵電大學(xué)工業(yè)互聯(lián)網(wǎng)與網(wǎng)絡(luò)化控制教育部重點實驗室,重慶 400065)
春見柑橘個體小、單株果樹柑橘密集、柑橘之間的形態(tài)與顏色相似度高且易被樹葉嚴(yán)重遮擋,這些特點給春見柑橘檢測與計數(shù)帶來了較大困難。該研究以實際春見果園環(huán)境中的春見柑橘作為檢測與計數(shù)對象,提出了一種以春見柑橘為檢測目標(biāo)的基于特征遞歸融合YOLOv4網(wǎng)絡(luò)模型(YOLOv4 network model based on recursive fusion of features,F(xiàn)R-YOLOv4)。針對春見柑橘尺寸小的特點,F(xiàn)R-YOLOv4網(wǎng)絡(luò)模型的主干特征提取網(wǎng)絡(luò)采用了感受野更小的CSPResNest50網(wǎng)絡(luò),降低了小尺寸目標(biāo)的特征圖傳不到目標(biāo)檢測器中的可能性;針對春見柑橘被遮擋和密集分布的情況,采用了遞歸特征金字塔(Recursive Feature Pyramid,RFP)網(wǎng)絡(luò)來進行特征遞歸融合,提高了對果園環(huán)境下春見柑橘的檢測精度。試驗結(jié)果表明:FR-YOLOv4網(wǎng)絡(luò)模型對于果園環(huán)境中春見柑橘的平均檢測精度為94.6%,視頻檢測幀率為51幀/s。FR-YOLOv4網(wǎng)絡(luò)模型相比于YOLOv4、單次多框檢測器(Single Shot Multi-Box Detector,SSD)、CenterNet和更快速卷積神經(jīng)網(wǎng)絡(luò)(Faster- Region-Convolutional Neural Networks,F(xiàn)aster R-CNN)的平均檢測精度分別提高了8.9、29.3、14.1和16.2個百分點,視頻檢測幀率分別比SSD、Faster R-CNN提高了17和33幀/s。FR-YOLOv4網(wǎng)絡(luò)模型對于實際果園環(huán)境中春見柑橘的檢測精度高,具備檢測實時性,適用于春見果園中春見柑橘檢測與計數(shù)。
機器視覺;圖像處理;模型;檢測;春見柑橘;YOLOv4
隨著農(nóng)業(yè)智能化與自動化的普及,種植園果實的檢測與計數(shù)是近年來的研究熱點。春見柑橘為晚熟雜柑品種,是日本有發(fā)展前途的雜交柑良種。由于其產(chǎn)量高、肉質(zhì)脆嫩、化渣、清甜,少籽與無籽、品質(zhì)優(yōu)的特點,被廣泛種植于四川、重慶等地[1-2]。春見柑橘果園環(huán)境復(fù)雜,且單株果樹產(chǎn)量高,柑橘之間遮擋嚴(yán)重,在人工勞動力緊張條件下,實現(xiàn)春見柑橘的精準(zhǔn)檢測與計數(shù)對春見柑橘的經(jīng)濟價值評估與機械自動化果實采摘具有廣闊應(yīng)用前景與重大現(xiàn)實意義。
基于深度學(xué)習(xí)的目標(biāo)檢測算法具有強大的學(xué)習(xí)能力和特征表示能力,在對存在遮擋、尺度變換和背景切換的目標(biāo)檢測效果上比傳統(tǒng)的檢測算法更具優(yōu)勢?;谏疃葘W(xué)習(xí)的目標(biāo)檢測主要包括三類,第一類是基于區(qū)域生成的卷積網(wǎng)絡(luò)結(jié)構(gòu),代表網(wǎng)絡(luò)為區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Region-Convolutional Neural Networks,RCNN)、更快速卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-Convolutional Neural Networks,F(xiàn)aster R-CNN)[3-4];第二類是把目標(biāo)位置的檢測視作回歸問題,直接利用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)進行圖像處理,同時預(yù)測出目標(biāo)的類別和位置,代表網(wǎng)絡(luò)有單次多框檢測器(Single Shot Multi-Box Detector,SSD)、單次檢測器(You Only Look Once,YOLO)[5-6];第三類是檢測器采用目標(biāo)的關(guān)鍵點以估計目標(biāo)中心點,再回歸到其他目標(biāo)屬性的無錨點目標(biāo)檢測方法,代表網(wǎng)絡(luò)有用于目標(biāo)檢測的關(guān)鍵三元組(CenterNet)[7]。在農(nóng)作物目標(biāo)檢測方面,薛月菊等[8]采用了改進型的YOLOv2檢測方法實現(xiàn)了對未成熟芒果的識別。武星等[9]采用了殘差塊串聯(lián)的輕量化YOLOv3檢測算法實現(xiàn)了對蘋果的識別。呂石磊等[10]采用了改進的YOLOv3-LITE輕量級神經(jīng)網(wǎng)絡(luò)實現(xiàn)了對柑橘的識別。李善軍等[11]采用了改進的SSD檢測方法實現(xiàn)了對柑橘的實時分類檢測。張領(lǐng)先等[12]等采用非極大值抑制的卷積神經(jīng)網(wǎng)絡(luò)檢測方法對冬小麥麥穗進行計數(shù)。鮑文霞等[13]等采用擁擠場景識別網(wǎng)絡(luò)(Congested Scene Recognition Network,CSRNet)對田間麥穗進行麥穗密度估計及計數(shù)。Yu等[14]采用了基于掩膜的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask Region-based Convolutional Neural Network,Mask R-CNN)提高了草莓采摘機器人果實檢測的性能。Tian等[15]采用了改進的YOLOv3檢測方法實現(xiàn)了對果園不同生長階段的蘋果的識別。Anami等[16]設(shè)計了一個深度卷積神經(jīng)網(wǎng)絡(luò)對稻谷各階段進行了檢測。Neupane等[17]利用無人飛行器結(jié)合深度學(xué)習(xí)的方法對香蕉進行檢測和計數(shù)。Khaki等[18]將卷積神經(jīng)網(wǎng)絡(luò)與非最大抑制結(jié)合對玉米籽粒進行計數(shù)。H?ni等[19]結(jié)合深度學(xué)習(xí)方法和基于高斯混合模型的半監(jiān)督方法對蘋果進行了高精度的檢測和計數(shù)。Afonso等[20]利用Mask R-CNN對西紅柿進行了像素級檢測。Rahnemoonfar等[21]設(shè)計了一種基于Inception-ResNet的改進型算法對水果進行了有效的計數(shù)。Qureshi等[22]利用深度學(xué)習(xí)對芒果紋理進行分割后對芒果進行計數(shù)。黃豪杰等[23]利用基于SSD改進模型對蘋果進行檢測。Wu等[24]采用了改進的YOLOv4網(wǎng)絡(luò)模型實現(xiàn)了對蘋果花的識別。但以上方法未涉及復(fù)雜特定條件下的果實檢測與計數(shù),本研究以YOLOv4網(wǎng)絡(luò)模型為基礎(chǔ),以遮擋等復(fù)雜特定條件為背景,以春見柑橘為檢測與計數(shù)對象進行研究。其中YOLOv4網(wǎng)絡(luò)模型具有檢測速度快、檢測精度高、模型泛化能力強等優(yōu)點,但對復(fù)雜果園環(huán)境中的春見柑橘進行檢測還存在以下問題:1)對小尺寸春見柑橘的檢測精度需進一步提高;2)對重疊和遮擋下的春見柑橘檢測精度需進一步提高;3)對各種不同光照等復(fù)雜環(huán)境下的密集春見柑橘目標(biāo)檢測精度需進一步提高。
綜上,本研究針對復(fù)雜果園環(huán)境中的春見柑橘特點,在YOLOv4目標(biāo)檢測網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)上,提出了一種基于特征遞歸融合YOLOv4網(wǎng)絡(luò)模型(YOLOv4 network model based on recursive fusion of features,F(xiàn)R-YOLOv4)。該網(wǎng)絡(luò)模型根據(jù)復(fù)雜果園環(huán)境中春見柑橘的尺寸小、密度大、易遮擋等特點,將原始YOLOv4的主干特征提取網(wǎng)絡(luò)換為感受野更小的CSPDarknet53網(wǎng)絡(luò)[25],以此提高對小尺寸春見柑橘的檢測能力,特征融合層采用遞歸特征金字塔(Recursive Feature Pyramid,RFP)[26],以提高對不同環(huán)境下密集遮擋目標(biāo)的檢測精度。
為進行對春見柑橘的精確檢測與計數(shù),需根據(jù)果園環(huán)境的多樣性進行春見柑橘數(shù)據(jù)采集,本研究數(shù)據(jù)采集于四川省蒲江縣春見果園,使用4K攝像頭(AT-C0320X2-REV1.1,索尼)、4K高清相機(FDR-AX700,索尼)等多種設(shè)備實時采集圖像與視頻,采集距離為1~3 m,采集時間為1月中上旬,采集環(huán)境包括陰天、雨天、晴天、遮擋等,共拍攝得到時長為15~600 s的多段視頻。為增強模型泛化能力和保證春見柑橘數(shù)據(jù)的多樣性,通過網(wǎng)絡(luò)爬蟲得到春見柑橘圖像200張。經(jīng)過圖像和視頻數(shù)據(jù)處理,共得到900張不同環(huán)境下的高清春見柑橘數(shù)據(jù)集圖像。
為提高模型的泛化能力,采用OpenCV軟件工具對數(shù)據(jù)集進行增廣,包括亮度變化、加入高斯噪聲、45°~60°方向的隨機旋轉(zhuǎn)。對原始數(shù)據(jù)集中900張圖像進行上述3種方式的數(shù)據(jù)增強,最終得到了3 600張圖像的增強數(shù)據(jù)集。對增強數(shù)據(jù)集使用LabelImg軟件工具對春見柑橘進行標(biāo)注。按7∶3劃分訓(xùn)練集與測試集,其中訓(xùn)練集包括2 520張圖像,測試集包括1 080張圖像,數(shù)據(jù)集樣本中春見柑橘圖像樣本如圖1所示。數(shù)據(jù)集中不同情況數(shù)量具體分布如表1所示。
表1 春見柑橘數(shù)據(jù)集數(shù)量分布
YOLO系列目標(biāo)檢測網(wǎng)絡(luò)模型由于其速度與檢測精度的優(yōu)勢,被廣泛用于工業(yè)與科研領(lǐng)域,YOLOv4是YOLO系列目標(biāo)檢測網(wǎng)絡(luò)模型之一,其特點在于訓(xùn)練成本低、檢測速度快、檢測精度高。YOLOv4網(wǎng)絡(luò)模型由主干特征提取網(wǎng)絡(luò)(CSPDarknet53)、YOLOv3目標(biāo)檢測器[27]、路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)[28]、基于距離交并比的非極大值抑制(Distance Intersection over Union Non Maximum Suppression,DIoU_NMS)[29]4 個部分組成,YOLOv4結(jié)構(gòu)如圖2所示,其中卷積殘差層CSPRes_X結(jié)構(gòu)如圖3所示。YOLOv4模型輸入圖像分辨率為608×608,其主干特征提取網(wǎng)絡(luò)采用CSPDarknet53網(wǎng)絡(luò),經(jīng)主干特征提取網(wǎng)絡(luò)得到大小為19×19的深層特征圖,利用空間金字塔池化(Spatial Pyramid Pooling,SPP)[30]對最后得到的特征進行不同尺寸的最大值池化。將經(jīng)過空間金字塔池化得到的特征進行拼接和處理后送入PANet網(wǎng)絡(luò)。PANet網(wǎng)絡(luò)在進行特征融合的同時減少了淺層特征的丟失,有助于提高模型的準(zhǔn)確率。YOLOv3目標(biāo)檢測器對不同尺寸的特征進行回歸分析,得到目標(biāo)位置和分類置信度,DIoU_NMS算法在剔除冗余的檢測框的同時,不僅提高了模型的收斂速度,而且使目標(biāo)框回歸更加穩(wěn)定,使目標(biāo)位置信息更準(zhǔn)確,置信度更高。
YOLOv4雖在COCO數(shù)據(jù)集[31]上取得了較好的檢測效果,但由于YOLOv4網(wǎng)絡(luò)模型的主干特征提取網(wǎng)絡(luò)CSPDarknet53感受野太大,小目標(biāo)信息不易傳到Y(jié)OLOv4的目標(biāo)檢測器中,易造成小目標(biāo)丟失。此外特征融合方式不利于檢測遮擋環(huán)境下、光照變化條件下的密集春見柑橘目標(biāo)。因此需要對YOLOv4網(wǎng)絡(luò)模型做出改進,進一步提高復(fù)雜果園環(huán)境中春見柑橘的檢測精度。
YOLOv4網(wǎng)絡(luò)模型中,在主干特征提取網(wǎng)絡(luò)中采用了多個3×3卷積層,并未充分考慮到小尺寸目標(biāo)的特征圖向后傳遞過程中會因為感受野過大而出現(xiàn)信息丟失嚴(yán)重的問題,并且在特征融合層中采用的路徑聚合網(wǎng)絡(luò)(PANet)只是單純保留了更多的淺層信息,然而忽視了對于復(fù)雜環(huán)境單次提取的特征不足的問題和特征金字塔(Feature Pyramid Network,F(xiàn)PN)[31]的表示能力不足以應(yīng)對遮擋和不同光照等復(fù)雜問題。為提高YOLOv4網(wǎng)絡(luò)模型對實際復(fù)雜果園環(huán)境中具有遮擋、不同光照、不同尺寸的春見柑橘目標(biāo)檢測精度,同時保證檢測的實時性。本研究提出了特征遞歸融合YOLOv4網(wǎng)絡(luò)模型。特征遞歸融合YOLOv4網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示,在YOLOv4網(wǎng)絡(luò)模型基礎(chǔ)上采用了一種感受野更小的特征提取網(wǎng)絡(luò)CSPResNext50,并將原始YOLOv4網(wǎng)絡(luò)模型中的特征融合層FPN換為遞歸特征金字塔(Recursive Feature Pyramid,RFP)。該改進提高了對小尺寸目標(biāo)的特征提取能力,增強了網(wǎng)絡(luò)對特征的學(xué)習(xí)能力,有利于提升其目標(biāo)檢測性能,提升實時性。
小尺寸目標(biāo)檢測困難是由于隨著卷積神經(jīng)網(wǎng)絡(luò)中卷積層數(shù)的增加,特征圖的尺寸會不斷縮小,導(dǎo)致小尺寸目標(biāo)的特征圖傳不到目標(biāo)檢測器中。FR-YOLOv4網(wǎng)絡(luò)模型使用了主干特征提取網(wǎng)絡(luò)CSPResNext50,主干特征提取網(wǎng)絡(luò)CSPResNext50在ResNext50網(wǎng)絡(luò)[32]的基礎(chǔ)之上引入了CSPNet結(jié)構(gòu)。與ResNext50網(wǎng)絡(luò)相比,CSPResNext50網(wǎng)絡(luò)的計算量減少了47%左右[33],有利于提高檢測速度,并且ResNext50網(wǎng)絡(luò)的殘差單元中采用了組卷積,大大降低了參數(shù)量,模型因此更輕量化,便于部署在移動嵌入式設(shè)備上。FR-YOLOv4網(wǎng)絡(luò)模型的主干特征提取網(wǎng)絡(luò)主要由3個卷積歸一化層(Conv_BN_Leaky)、1個最大池化層(MaxPooling)、4個跨階段卷積殘差層(CSPResx_X)組成,跨階段卷積殘差層(CSPResx_X)結(jié)構(gòu)如圖5所示。其中4個跨階段卷積殘差層中的殘差單元的數(shù)量分別為3、4、6、3。在最后3個跨階段卷積殘差層中輸出19×19、38×38、76×76大小的特征圖,19×19大小的特征圖用于檢測大尺寸目標(biāo),38×38大小的特征圖用于檢測中尺寸目標(biāo),76×76大小的特征圖用于檢測小尺寸目標(biāo),在遞歸特征金字塔RFP中,以3個尺寸的特征圖進行特征融合,提升檢測精度。
RFP結(jié)構(gòu)主要思想是在特征提取網(wǎng)絡(luò)和特征金字塔網(wǎng)絡(luò)之間加入了若干條反饋連接,該反饋連接可以將FPN中的特征信息再送給特征提取網(wǎng)絡(luò)進行2次甚至多次提取。在反饋連接之前首先會采用1×1的卷積來處理FPN中需要進行反饋的特征,使反饋特征的維度與主干網(wǎng)絡(luò)提取的特征維度適配。該方法既能增強主干特征提取網(wǎng)絡(luò)提取特征的能力,也能增強FPN對特征的表示能力,極大地提高了檢測性能。
主干特征提取網(wǎng)絡(luò)第層輸出的特征圖x計算如式(1)所示。
式中B表示主干特征提取網(wǎng)絡(luò)的第層,表示主干特征提取網(wǎng)絡(luò)總共的層數(shù),x表示主干特征提取網(wǎng)絡(luò)第層所提取的特征圖。
特征金字塔網(wǎng)絡(luò)(FPN)第層輸出的特征圖f計算如式(2)所示。
式中F表示特征金字塔FPN中的第次特征融合操作,f表示同時擁有主干特征提取網(wǎng)絡(luò)和FPN的網(wǎng)絡(luò)中FPN所輸出的第層特征圖。
在RFP中,采用R來表示特征在反饋到主干特征提取網(wǎng)絡(luò)之前進行的特征轉(zhuǎn)換,則x的計算如式(3)所示,RFP中輸出的第層特征圖f計算如式(4)所示。
由此構(gòu)成一個遞歸特征金字塔,輸出特征f可以不斷地通過遞歸特征金字塔送回到主干網(wǎng)絡(luò)反復(fù)進行特征提取,有助于網(wǎng)絡(luò)對于復(fù)雜特征的理解。采用來表示RFP中的第次遞歸,則第次遞歸過程中x的計算公式如式(5)所示,RFP中輸出的第層特征圖f計算公式如式(6)所示。
由于遞歸特征金字塔RFP會增加整個網(wǎng)絡(luò)的計算成本,為保證實時性要求,在本試驗中,取最大遞歸次數(shù)為2。如再增加遞歸次數(shù),對本試驗配置而言,不僅會造成視頻處理幀率下降,平均精度也不會顯然提高。因此在本文試驗中,保持最大遞歸次數(shù)為2,這能以較少的計算成本換取較高的檢測精度,實現(xiàn)對果園環(huán)境中具有不同光照和遮擋程度的春見柑橘目標(biāo)進行高精度與高實時性檢測。
FR-YOLOv4網(wǎng)絡(luò)模型的損失函數(shù)繼續(xù)沿用原始YOLOv4網(wǎng)絡(luò)模型中的損失函數(shù),總的損失函數(shù)主要分為邊界框回歸損失值(BBOX)、分類損失值(Class)、置信度損失值(Pre)三部分[27],其計算如式(7)所示。
與YOLOv3網(wǎng)絡(luò)模型相比,YOLOv4網(wǎng)絡(luò)模型只在邊界框回歸損失值(BBOX)上做了改進,邊界框回歸損失采用了完全交并比損失值(Complete Intersection over Union loss,CIoU)[32],CIoU考慮了邊界框回歸中被忽略的3個幾何因素,即重疊面積、中心距離、寬高比。因而CIoU能夠更好地描述邊界框回歸,同時CIoU 損失的收斂速度更快,性能更優(yōu)越。完全交并比損失值(CIoU)的相關(guān)定義如式(8)和式(9)所示。
式中IoU為交并比,為預(yù)測框,為真實框,ctr為預(yù)測框的中心坐標(biāo),ctr為真實框的中心坐標(biāo),為歐氏距離,表示和的最小包圍框的對角線長度,為長寬比的懲罰項,其中和的相關(guān)定義分別如式(10)和式(11)所示。
式中g(shù)t、gt分別為真實框的寬和高,、分別為預(yù)測框的寬和高,為正參數(shù),用以調(diào)節(jié)寬高比,衡量了邊界框?qū)捀弑鹊囊恢滦?。主要用來使預(yù)測框的寬高比與真實框的寬高比盡可能接近,當(dāng)預(yù)測框的寬高比與真實框的寬高比相等時,值為0,CIoU減小,進一步使邊界框的回歸效果更精確,與真實框更接近。
綜上,使用CIoU損失可以直接最小化預(yù)測框和真實框的中心距離,有利于提高FR-YOLOv4網(wǎng)絡(luò)模型的收斂速度以及邊界框的回歸精度,進一步提高對復(fù)雜果園環(huán)境中春見柑橘的平均檢測精度與檢測實時性。
本試驗采用硬件設(shè)備配置為Core i5-10600kf 4.1Ghz處理器,內(nèi)存為16 GB,Geforce GTX 1080ti 8 GB顯卡,軟件試驗配置環(huán)境為:Win10操作系統(tǒng),配置安裝tensorflow1.13.1,Python3.6和Opencv4.4。對FR-YOLOv4網(wǎng)絡(luò)模型訓(xùn)練時,優(yōu)化器采用隨機梯度下降算法(Stochastic Gradient Descent,SGD)[34],訓(xùn)練集圖像分辨率為608×608的圖像,初始學(xué)習(xí)率設(shè)置為0.000 1,動量設(shè)置為0.95,訓(xùn)練迭代次數(shù)設(shè)置為5 000,每次訓(xùn)練喂入網(wǎng)絡(luò)的批量樣本數(shù)為8,每迭代100次保存模型,最終選取在測試集上損失最小的模型為本研究試驗?zāi)P蚚21-24]。
本試驗采用精確率(Precision,)、召回率(Recall,)、平均精度均值(mean Average Precision,mAP)、幀率(Frames Per Seconds,F(xiàn)PS,幀/s)作為評價指標(biāo)。試驗采用動態(tài)視頻采樣,以置信度分數(shù)高于0.6的目標(biāo)數(shù)量作為本網(wǎng)絡(luò)所檢測到的春見柑橘數(shù)量。、和mAP的相關(guān)計算如式(12)、式(13)和式(14)所示。
式中TP為被模型預(yù)測為正類的正樣本,F(xiàn)P為被模型預(yù)測為正類的負樣本,F(xiàn)N為被模型預(yù)測為負類的正樣本。
為驗證本研究提出的FR-YOLOv4網(wǎng)絡(luò)對實際果園環(huán)境中的春見柑橘檢測的優(yōu)勢,試驗采用改進前的YOLOv4網(wǎng)絡(luò)模型、主干特征提取網(wǎng)絡(luò)為CSPResNext50的YOLOv4網(wǎng)絡(luò)模型、特征融合層為RFP的YOLOv4網(wǎng)絡(luò)模型、特征遞歸融合YOLOv4網(wǎng)絡(luò)模型(FR-YOLOv4)進行對比。試驗采用相同數(shù)據(jù)集和相同參數(shù)訓(xùn)練各個模型,并且采用相同測試集來評估模型。在實際果園環(huán)境中,春見柑橘體積偏小,柑橘密度大,柑橘之間、柑橘與樹葉之間遮擋嚴(yán)重。因此首先選取測試集中在此類情況下出現(xiàn)的春見柑橘目標(biāo)進行檢測,其檢測結(jié)果如圖6所示。
對比小目標(biāo)測試結(jié)果圖,對主干特征提取網(wǎng)絡(luò)進行改進前,YOLOv4網(wǎng)絡(luò)不能檢測出矩形框中小尺寸春見柑橘。對主干特征提取網(wǎng)絡(luò)進行改進后,矩形框中小尺寸春見果實目標(biāo)能夠被檢測到,春見柑橘邊界框回歸也更精準(zhǔn)。因此,采用感受野更小的CSPResNext50特征提取網(wǎng)絡(luò),可防止小尺寸目標(biāo)特征信息丟失,利于小尺寸目標(biāo)的檢測,提高了小尺寸春見果實的平均檢測精度。
對比遮擋目標(biāo)測試結(jié)果圖和密集目標(biāo)測試結(jié)果圖,對特征融合層改進前,YOLOv4網(wǎng)絡(luò)對于密集春見柑橘目標(biāo)的識別能力不足,并且由于春見果樹單株產(chǎn)量高,YOLOv4網(wǎng)絡(luò)不足應(yīng)對春見柑橘之間遮擋和樹葉遮擋情況。采用遞歸特征金字塔RFP作為YOLOv4的特征融合網(wǎng)絡(luò)后,改進的YOLOv4網(wǎng)絡(luò)能夠順利識別到遮擋目標(biāo)測試圖中矩形框標(biāo)注的兩處遮擋春見柑橘和密集目標(biāo)測試圖中矩形框標(biāo)注的一處密集春見柑橘。因此,該改進提高了YOLOv4網(wǎng)絡(luò)在復(fù)雜果園環(huán)境中的識別力,提高了對遮擋春見柑橘與密集情況下的春見柑橘檢測精度。對于FR-YOLOv4網(wǎng)絡(luò),RFP特征融合網(wǎng)絡(luò)彌補了由于CSPResNext50網(wǎng)絡(luò)深度不夠而帶來的識別能力不足的問題,CSPResNext50特征提取網(wǎng)絡(luò)也彌補了RFP對小尺寸目標(biāo)特征融合不足的問題。最終測試效果(圖6)顯示FR-YOLOv4網(wǎng)絡(luò)模型能夠?qū)崿F(xiàn)對實際果園環(huán)境中小尺寸、高密度、重疊遮擋等不同環(huán)境下春見柑橘的精準(zhǔn)識別。
經(jīng)完整測試后,對上述4個目標(biāo)檢測網(wǎng)絡(luò)檢測春見柑橘目標(biāo)的準(zhǔn)確率、召回率、平均精度均值mAP、視頻處理幀率進行統(tǒng)計。由表2可知,對于春見柑橘檢測平均精度,本研究提出的FR-YOLOv4網(wǎng)絡(luò)模型比原始的YOLOv4目標(biāo)檢測網(wǎng)絡(luò)模型高出了8.9個百分點,分別比只改進特征提取網(wǎng)絡(luò)為CSPResNext50的YOLOv4網(wǎng)絡(luò)模型與只改進特征融合層為RFP的YOLOv4網(wǎng)絡(luò)模型高出7.3與2.3個百分點,因此FR-YOLOv4網(wǎng)絡(luò)模型對于實際果園環(huán)境下的春見柑橘檢測效果最精確。FR-YOLOv4網(wǎng)絡(luò)模型的視頻處理幀率分別比原始YOLOv4網(wǎng)絡(luò)模型和CSPResNext50-YOLOv4網(wǎng)絡(luò)模型降低了6和9幀/s,比RFP-YOLOv4網(wǎng)絡(luò)模型提高了5幀/s。雖然RFP網(wǎng)絡(luò)會增加YOLOv4網(wǎng)絡(luò)模型的計算量,造成了幀率的下降,但對于春見柑橘檢測與計數(shù)任務(wù),該幀率足以保證春見柑橘檢測的高實時性。
表2 不同YOLOv4網(wǎng)絡(luò)模型識別春見柑橘的結(jié)果對比
為了驗證本研究提取的方法相對于其他目標(biāo)檢測方法在檢測復(fù)雜果園環(huán)境中春見柑橘的優(yōu)勢,本研究采用FR-YOLOv4與目前具有代表性的目標(biāo)檢測網(wǎng)絡(luò)Faster R-CNN[4]、SSD[5]、CenterNet[7]、YOLOv4[27]進行對比,試驗采用相同數(shù)據(jù)集和相同參數(shù)進行訓(xùn)練,采用相同測試集進行模型評價。在測試時,主要測試小尺寸、遮擋、密集3種情況下春見柑橘的檢測情況,各個模型的檢測情況如圖7所示。
首先,選擇遠距離拍攝的春見柑橘圖像進行測試,此類圖像春見柑橘目標(biāo)尺寸較小,測試結(jié)果如圖7小目標(biāo)結(jié)果圖所示。由圖7小目標(biāo)測試結(jié)果,F(xiàn)R-YOLOv4網(wǎng)絡(luò)檢測精度最高。YOLOv4網(wǎng)絡(luò)能夠檢測大尺寸春見柑橘,對小尺寸識別精度不足。SSD目標(biāo)檢測網(wǎng)絡(luò)模型只檢測到了3處春見柑橘,CenterNet和Faster R-CNN檢測效果居于SSD和YOLOv4之間。
在實際的果園環(huán)境中,由于春見樹葉茂盛,果實產(chǎn)量高,春見柑橘通常被樹葉和果實遮擋,這對檢測與計數(shù)造成了相當(dāng)大的難度。因此再選取測試集中具有遮擋效果的春見柑橘圖像進行測試,測試結(jié)果如圖7遮擋結(jié)果圖所示。由圖7遮擋結(jié)果圖所示,F(xiàn)R-YOLOv4網(wǎng)絡(luò)模型對遮擋春見柑橘目標(biāo)的檢測數(shù)量最多,YOLOv4、CenterNet、Faster R-CNN對弱遮擋目標(biāo)的檢測有一定效果,SSD對遮擋春見柑橘的檢測效果最差。由結(jié)果可知,F(xiàn)R-YOLOv4網(wǎng)絡(luò)模型對遮擋春見柑橘的檢測最精準(zhǔn)。
在春見果園中,春見柑橘常以小尺寸且多遮擋的密集狀態(tài)出現(xiàn),對春見柑橘的精確檢測有一定程度上的影響。因而最后選取測試集中密集狀態(tài)下的春見柑橘目標(biāo)進行測試,檢測結(jié)果如圖7密集結(jié)果圖所示。由圖7密集結(jié)果圖,F(xiàn)R-YOLOv4檢測到的春見柑橘數(shù)量最多,對密集狀態(tài)下各種復(fù)雜遮擋的小尺寸春見柑橘檢測精度最高。YOLOv4網(wǎng)絡(luò)檢測數(shù)量低于FR-YOLOv4,高于SSD、CenterNet、Faster R-CNN這3種目標(biāo)檢測網(wǎng)絡(luò)模型,僅對輕遮擋目標(biāo)有較好的檢測效果。
經(jīng)完整測試后,對上述5個目標(biāo)檢測網(wǎng)絡(luò)檢測春見柑橘目標(biāo)的準(zhǔn)確率、召回率、平均精度均值mAP、視頻處理幀率進行統(tǒng)計。由表3可知,本研究提出的FR-YOLOv4網(wǎng)絡(luò)模型,對實際果園環(huán)境中的春見柑橘目標(biāo)檢測精度最高,分別高于YOLOv4、SSD、CenterNet、Faster R-CNN網(wǎng)絡(luò)模型8.9、29.3、14.1、16.2個百分點。在檢測實時性上,由于RFP網(wǎng)絡(luò)會增加計算時間,因而FR-YOLOv4網(wǎng)絡(luò)模型分別比YOLOv4網(wǎng)絡(luò)模型、CenterNet網(wǎng)絡(luò)模型降低了6和11幀/s,分別比SSD網(wǎng)絡(luò)模型、Faster R-CNN網(wǎng)絡(luò)模型提高了17和33幀/s。對于春見柑橘目標(biāo)檢測與計數(shù)任務(wù),51幀/s的處理速度足以保證任務(wù)的實時性檢測。綜上所述,基于特征遞歸融合YOLOv4網(wǎng)絡(luò)模型(FR-YOLOv4)的春見柑橘檢測方法,是一種精度高、處理速度快的目標(biāo)檢測方法。
表3 不同網(wǎng)絡(luò)模型識別春見柑橘的結(jié)果對比
1)本研究針對實際春見果園環(huán)境中春見柑橘檢測與計數(shù)提出了一種特征遞歸融合YOLOv4網(wǎng)絡(luò)模型(YOLOv4 network model based on recursive fusion of feature,F(xiàn)R-YOLOv4),該網(wǎng)絡(luò)模型具有較高的準(zhǔn)確率,試驗結(jié)果表明,模型平均精度均值達到了94.6%,平均檢測速度達到了51幀/s。
2)針對春見果園中出現(xiàn)的春見柑橘目標(biāo)特點,本研究對YOLOv4網(wǎng)絡(luò)模型結(jié)構(gòu)做出改進,首先將主干特征提取網(wǎng)絡(luò)換為CSPResNext50網(wǎng)絡(luò),降低了原始主干特征網(wǎng)絡(luò)的感受野,提高了小目標(biāo)檢測精度;然后將路徑聚合網(wǎng)絡(luò)(Path Aggregation Network,PANet)換為遞歸特征金字塔(Recursive Feature Pyramid,RFP),提高了網(wǎng)絡(luò)對具有密集遮擋的小尺寸春見柑橘的檢測精度。
3)對實際果園環(huán)境下的春見柑橘檢測測試中,本研究所提出的FR-YOLOv4網(wǎng)絡(luò)模型是一種精度高、處理速度快的目標(biāo)檢測網(wǎng)絡(luò)模型。平均檢測率高于改進前YOLOv4目標(biāo)檢測網(wǎng)絡(luò)8.9個百分點,分別高于單次多框檢測器(Single Shot Multi-Box Detector,SSD)、CenterNet、更快速卷積神經(jīng)網(wǎng)絡(luò)(Faster Region-Convolutional Neural Networks,F(xiàn)aster R-CNN)29.3、14.1、16.2個百分點。對于檢測速度,F(xiàn)R-YOLOv4網(wǎng)絡(luò)的幀率為51幀/s,分別比SSD網(wǎng)絡(luò)模型、Faster R-CNN網(wǎng)絡(luò)模型快了17和33幀/s,滿足實際春見果園環(huán)境下對春見柑橘的檢測與計數(shù)要求。
[1] 鐘德民. 高糖型柑桔新品種“春見”的生物學(xué)特性與栽培要點初報[J]. 中國南方果樹,2005,34(5):6-7.
Zhong Demin. Preliminary report on biological characteristics and cultivation key points of a new citrus variety “Chunjian” with high sugar content[J]. Fruit Science in South China, 2005, 34(5): 6-7. (in Chinese with English abstract)
[2] 林媚,姚周麟,王天玉,等. 8個雜交柑橘品種的糖酸組分含量及特征研究[J]. 果樹學(xué)報,2021,38(2):202-211.
Lin Mei, Yao Zhoulin, Wang Tianyu, et al. Study on the content and characteristics of sugar and acid components in 8 hybrid citrus cultivars[J]. Journal of Fruit Science, 2021, 38(2): 202-211. (in Chinese with English abstract)
[3] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Colombia: IEEE, 2014.
[4] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, Montreal: NIPS Foundation, 2015: 91-99.
[5] Liu W, Anguelov D, Erhan D, et al. SSD: Single shot multibox detector[C]//European Conference on Computer Vision, Amsterdam: Springer, 2016.
[6] Redmon J, Divvala S, Girshick R, et al. You only look once: Unified, real-time object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas: IEEE, 2016.
[7] Duan K W, Bai S, Xie L X, et al. CenterNet: Keypoint triplets for object detection[C]//Proceedings of the IEEE International Conference on Computer Vision, Seoul: IEEE, 2019.
[8] 薛月菊,黃寧,涂淑琴,等. 未成熟芒果的改進 YOLOv2 識別方法[J]. 農(nóng)業(yè)工程學(xué)報,2018,34(7):173-179.
Xue Yueju, Huang Ning, Tu Shuqin, et al. Improved YOLOv2 identification method for immature mango[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(7): 173-179. (in Chinese with English abstract)
[9] 武星,齊澤宇,王龍軍,等. 基于輕量化YOLOv3卷積神經(jīng)網(wǎng)絡(luò)的蘋果檢測方法[J]. 農(nóng)業(yè)機械學(xué)報,2020,51(8):17-25.
Wu Xing, Qi Zeyu, Wang Longjun, et al. Apple detection method based on lightweight YOLOv3 convolutional neural network[J]. Transactions of the Chinese Society for Agricultural Machinery, 2020, 51(8): 17-25. (in Chinese with English abstract)
[10] 呂石磊,盧思華,李震,等. 基于改進YOLOv3-LITE輕量級神經(jīng)網(wǎng)絡(luò)的柑橘識別方法[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(17):205-214.
Lü Shilei, Lu Sihua, Li Zhen, et al. Citrus recognition method based on improved YOLOv3-LITE lightweight neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(17): 205-214. (in Chinese with English abstract)
[11] 李善軍,胡定一,高淑敏,等. 基于改進SSD的柑橘實時分類檢測[J]. 農(nóng)業(yè)工程學(xué)報,2019,35(24):307-313.
Li Shanjun, Hu Dingyi, Gao Shumin, et al. Real-time classification and detection of citrus based on improved SSD[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2019, 35(24): 307-313. (in Chinese with English abstract)
[12] 張領(lǐng)先,陳運強,李云霞,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的冬小麥麥穗檢測計數(shù)系統(tǒng)[J]. 農(nóng)業(yè)機械學(xué)報,2019,50(3):144-150.
Zhang Lingxian, Chen Yunqiang, Li Yunxia, et al. Convolutional neural network based winter wheat spike detection and counting system[J]. Transactions of the Chinese Society for Agricultural Machinery, 2019, 50(3): 144-150. (in Chinese with English abstract)
[13] 鮑文霞,張鑫,胡根生,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的田間麥穗密度估計及計數(shù)[J]. 農(nóng)業(yè)工程學(xué)報,2020,36(21):186-193.
Bao Wenxia, Zhang Xin, Hu Gensheng, et al. Estimation and counting of field wheat ear density based on deep convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2020, 36(21): 186-193. (in Chinese with English abstract)
[14] Yu Y, Zhang K L, Yang Li, et al. Fruit detection for strawberry harvesting robot in non-structural environment based on Mask-RCNN[J]. Computers and Electronics in Agriculture, 2019, 163(32): 104846.
[15] Tian Y, Yang G, Wang Z, et al. Apple detection during different growth stages in orchards using the improved YOLO-V3 model[J]. Computers and Electronics in Agriculture, 2019, 157(15): 417-426.
[16] Anami B S, Malvade N N, Palaiah S. Deep learning approach for recognition and classification of yield affecting paddy crop stresses using field images[J]. Artificial Intelligence in Agriculture, 2020, 4(24): 12-20.
[17] Neupane B, Horanont T, Hung N D. Deep learning based banana plant detection and counting using high-resolution Red-Green-Blue (RGB) images collected from Unmanned Aerial Vehicle (UAV)[J/OL]. PloS one, 2019, 14(10), [2019-10-17], https://doi.org/10.1371/journal.pone.0223906.
[18] Khaki S, Pham H, Han Y, et al. Convolutional neural networks for image-based corn kernel detection and counting[J]. Sensors, 2020, 20(9): 2721.
[19] H?ni N, Roy P, Isler V. A comparative study of fruit detection and counting methods for yield mapping in apple orchards[J]. Journal of Field Robotics, 2020, 37(2): 263-282.
[20] Afonso M, Fonteijn H, Fiorentin F S, et al. Tomato fruit detection and counting in greenhouses using deep learning[J]. Frontiers in Plant Science, 2020, 11: 1759.
[21] Rahnemoonfar M, Sheppard C. Deep count: Fruit counting based on deep simulated learning[J]. Sensors, 2017, 17(4): 905.
[22] Qureshi W S, Payne A, Walsh K B, et al. Machine vision for counting fruit on mango tree canopies[J]. Precision Agriculture, 2017, 18(2): 224-244.
[23] 黃豪杰,段先華,黃欣辰. 基于深度學(xué)習(xí)水果檢測的研究與改進[J]. 計算機工程與應(yīng)用,2020,56(3):127-133.
Huang Haojie, Duan Xianhua, Huang Xinchen. Research and improvement of fruit detection based on deep learning[J]. Computer Engineering and Applications, 2020, 56(3): 127-133. (in Chinese with English abstract)
[24] Wu D, Lv S, Jiang M, et al. Using channel pruning-based YOLO v4 deep learning algorithm for the real-time and accurate detection of apple flowers in natural environments[J]. Computers and Electronics in Agriculture, 2020, 178: 105742.
[25] Wang C Y, Liao H Y M, Wu Y H, et al. CSPNet: A new backbone that can enhance learning capability of CNN[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle: IEEE, 2020.
[26] Qiao S, Chen L C, Yuille A. Detectors: Detecting objects with recursive feature pyramid and switchable atrous convolution[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, Malaysia: IEEE, 2021.
[27] Bochkovskiy A, Wang C Y, Liao H Y M. Yolov4: Optimal speed and accuracy of object detection[J/OL]. Computer Science, (2020)[2021-3-17]. https://arxiv.org/abs/2004. 10934.
[28] Wang K X, Liew J H, Zou Y T, et al. Panet: Few-shot image semantic segmentation with prototype alignment[C]// Proceedings of the IEEE International Conference on Computer Vision, Seoul: IEEE, 2019.
[29] Zheng Z H, Wang Ping, Liu Wei, et al. Distance-IoU Loss: Faster and Better Learning for Bounding Box Regression[C]// Proceedings of the AAAI Conference on Artificial Intelligence. A Virtual, Online-only Conference: AAAI, 2020.
[30] He K M, Zhang X Y, Ren S Q, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[31] Lin T Y, Dollár P, Girshick R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017.
[32] Xie S N, Girshick R, Dollár P, et al. Aggregated residual transformations for deep neural networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Hawaii: IEEE, 2017.
[33] Wang C Y, Bochkovskiy A, Liao H Y M. Scaled-yolov4: Scaling cross stage partial network[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, Kuala Lumpur, Malaysia: IEEE, 2021.
[34] Bottou L. Stochastic Gradient Descent Tricks[M]. Berlin: Springer, 2012.
Detecting and counting of spring-see citrus using YOLOv4 network model and recursive fusion of features
Yi Shi1,2, Li Junjie1, Zhang Peng1, Wang Dandan1
(1.,,610059,; 2.,,,400065,)
Automatic fruit picking has widely been popular for the intelligent estimation of orchard economic harvest in the field of smart agriculture. Object detection using deep learning has presented broad application prospects for spring-see citrus detection and counting. But, it is still a very challenging task to detect and count spring-see fruits, due mainly to the small size of spring-see citrus, the high density of fruit on a single spring-see tree, the similar shape and color of fruits, and the tendency to be heavily shaded by foliage. In this study, a YOLOv4 network model was proposed using a recursive fusion of features (FR-YOLOv4) for spring-see citrus detection. CSPResNext50 network with a smaller receptive field was also selected to detect small targets with higher accuracy. As such, the feature extraction in the original YOLOv4 object detection network model was replaced with the CSPResNext50 network, particularly for the small size of spring-see citrus. Therefore, the difficulty was reduced to greatly improve the detection accuracy of small-scale spring-see citrus, where the feature map of small-scale objects was easily transmitted to the object detector. In addition, the Recursive Feature Pyramid (RFP) network was used to replace the original YOLOv4 Path Aggregation Network (PANet), because of the fuzzy and dense distribution of spring-seeing citrus. Correspondingly, RFP networks significantly enhanced the feature extraction and characterization capabilities of the entire YOLOv4 network at a small computational cost. More importantly, the detection accuracy of the YOLOv4 network was improved for spring-see citrus in a real orchard environment. Additionally, a dataset was collected using images and videos of spring-see citrus captured in various environments in spring-see orchards. Subsequently, three data augmentation operations were performed using OpenCV tools to add Gaussian noise, luminance variation and rotation. The dataset was obtained with a total of 3 600 images, of which the training dataset consisted of 2 520 images and the test dataset consisted of 1 080 images. The experimental results on this test dataset showed that the average detection accuracy of FR-YOLOv4 was 94.6% for spring-see citrus in complex orchard environments, and the frame rate of video detection was 51 frames/s. Specifically, the average detection accuracy increased by 8.9 percentage points, whereas, the frame rate of video detection was only 6 frames/s lower, compared with YOLOv4 before the improvement. Consequently, the FR-YOLOv4 presented an average detection accuracy of 29.3, 14.1, and 16.2 percentages higher than that of Single Shot Multi-Box Detector (SSD), CenterNet, and Faster Region-Convolutional Neural Networks (Faster-RCNN), respectively. The frame rate of video detection was 17 and 33 frames/s higher than SSD and Faster-RCNN, respectively. Anyway, the YOLOv4 network model using a recursive fusion of features (FR-YOLOv4) can widely be expected to detect and count spring citrus suitable for actual complex environments in orchards, indicating a higher detection accuracy with real-time performance.
machine vision; image processing; models; detection; spring-see citrus; YOLOv4
易詩,李俊杰,張鵬,等. 基于特征遞歸融合YOLOv4網(wǎng)絡(luò)模型的春見柑橘檢測與計數(shù)[J]. 農(nóng)業(yè)工程學(xué)報,2021,37(18):161-169.doi:10.11975/j.issn.1002-6819.2021.18.019 http://www.tcsae.org
Yi Shi, Li Junjie, Zhang Peng, et al. Detecting and counting of spring-see citrus using YOLOv4 network model and recursive fusion of features[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2021, 37(18): 161-169. (in Chinese with English abstract) doi:10.11975/j.issn.1002-6819.2021.18.019 http://www.tcsae.org
2021-02-22
2021-04-02
國家自然科學(xué)基金項目(61771096);成都理工大學(xué)2020年研究生質(zhì)量工程教育教學(xué)改革項目(人工智能圖像處理可視化綜合實驗平臺建設(shè));工業(yè)物聯(lián)網(wǎng)與網(wǎng)絡(luò)化控制教育部重點實驗室開放基金(2020FF06)
易詩,高級實驗師,研究方向為人工智能、紅外圖像處理、信號處理、嵌入式系統(tǒng)開發(fā)。Email:549745481@qq.com
10.11975/j.issn.1002-6819.2021.18.019
S126
A
1002-6819(2021)-18-0161-09