摘要:針對(duì)蘋(píng)果果實(shí)在自然環(huán)境條件下易受到枝干、樹(shù)葉等障礙物的遮擋,導(dǎo)致識(shí)別準(zhǔn)確率降低的問(wèn)題,引入了一種融合生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)的蘋(píng)果果實(shí)檢測(cè)方法。使用Faster RCNN模型對(duì)蘋(píng)果果實(shí)和遮擋物進(jìn)行檢測(cè),對(duì)受遮擋的蘋(píng)果果實(shí)圖像添加掩碼,然后用生成對(duì)抗網(wǎng)絡(luò)對(duì)受遮擋的蘋(píng)果果實(shí)圖像進(jìn)行修復(fù),最后將修復(fù)的圖像傳輸給目標(biāo)檢測(cè)模型進(jìn)行識(shí)別定位。結(jié)果表明,融合生成對(duì)抗網(wǎng)絡(luò)的GAN-Faster RCNN聯(lián)合模型,對(duì)大面積遮擋的蘋(píng)果果實(shí),在測(cè)試集上的平均精度均值(Mean average precision,mAP)達(dá)73.62%,較原模型提高了8.76個(gè)百分點(diǎn);對(duì)小面積遮擋的蘋(píng)果果實(shí),在測(cè)試集上的平均精度均值達(dá)90.67%,較原模型提高了9.54個(gè)百分點(diǎn),解決了傳統(tǒng)目標(biāo)檢測(cè)方法在遮擋條件下蘋(píng)果果實(shí)識(shí)別準(zhǔn)確率低的問(wèn)題。
關(guān)鍵詞:蘋(píng)果;目標(biāo)檢測(cè);遮擋;Faster RCNN;生成對(duì)抗網(wǎng)絡(luò)(GAN)
中圖分類(lèi)號(hào):S661.1;TP391.41" " " " "文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):0439-8114(2024)08-0047-07
DOI:10.14088/j.cnki.issn0439-8114.2024.08.009 開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
Apple fruit detection method based on generative adversarial networks
under occlusion conditions
LIU Shuai,XIAO Yi-tong,ZHANG Wu-ping,LI Fu-zhong,WANG Huan-chen
(School of Software, Shanxi Agricultural University, Taigu" 030801, Shanxi,China)
Abstract: Aiming at the problem that apple fruit was easily blocked by branches, leaves, and other obstacles in the natural environment, which led to the reduction of recognition accuracy, a method of apple fruit detection based on the fusion of generative adversarial networks (GAN) was introduced. The Faster RCNN model was used to detect the apple fruit and occlusion, mask the occluded apple fruit image, and then repair the occluded apple fruit image with the generative adversarial networks. Finally, the repaired image was transmitted to the target detection model for identification and positioning. The results showed that the combined model of GAN-Faster RCNN, which fused generative adversarial networks, had an mAP of 73.62% on the test set for apple fruits with a large area of occlusion, which was 8.76 percentage points higher than the original model; for the apple fruit with a small area of occlusion, the average precision on the test set was 90.67%, which was 9.54 percentage points higher than the original model. It solved the problem of low accuracy of apple fruit recognition under occlusion conditions with traditional target detection methods.
Key words: apple; target detection; occlusion; Faster RCNN; generative adversarial networks(GAN)
中國(guó)是全球蘋(píng)果生產(chǎn)第一大國(guó),蘋(píng)果生產(chǎn)在中國(guó)的果業(yè)中占據(jù)著重要地位[1,2]。采摘作為蘋(píng)果產(chǎn)業(yè)中重要的環(huán)節(jié)之一,具有勞動(dòng)強(qiáng)度需求高和受時(shí)間限制的特點(diǎn)[3]。傳統(tǒng)的人工采摘的精度高,但同時(shí)耗時(shí)長(zhǎng),效率低,高度依賴密集勞動(dòng),難以適應(yīng)市場(chǎng)發(fā)展的需求。果樹(shù)采摘機(jī)器人的應(yīng)用可以大幅度提高蘋(píng)果采摘效率,減少對(duì)密集勞動(dòng)的依賴。
視覺(jué)系統(tǒng)作為蘋(píng)果采摘機(jī)器人的重要組成部分之一,對(duì)采摘點(diǎn)的識(shí)別和定位直接影響采摘機(jī)器人的采摘效率和準(zhǔn)確性[4]。自然環(huán)境中的蘋(píng)果果實(shí)通常會(huì)受到枝葉和其他障礙物的遮擋,其他目標(biāo)對(duì)蘋(píng)果果實(shí)的遮擋會(huì)在很大程度上提高視覺(jué)系統(tǒng)識(shí)別蘋(píng)果果實(shí)的難度。因此,提高蘋(píng)果果實(shí)在遮擋情況下的識(shí)別率對(duì)中國(guó)蘋(píng)果機(jī)械化采摘具有重要的理論價(jià)值和實(shí)際意義。
對(duì)果實(shí)的目標(biāo)檢測(cè),現(xiàn)多采用機(jī)器學(xué)習(xí)和圖像處理的方法。Jia等[5]在掩膜區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(Mask-RCNN)檢測(cè)模型的基礎(chǔ)上,通過(guò)殘差網(wǎng)絡(luò)與密接卷積網(wǎng)絡(luò)相結(jié)合,實(shí)現(xiàn)了蘋(píng)果的檢測(cè)。張恩宇等[6]提出一種基于SSD深度學(xué)習(xí)算法與圖像處理結(jié)合的方法,用于識(shí)別自然條件下的青蘋(píng)果,解決了青蘋(píng)果與背景顏色相似導(dǎo)致的識(shí)別困難問(wèn)題。傅隆生等[7]提出一種基于LeNet卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識(shí)別方法,在單個(gè)果實(shí)和果實(shí)重疊的情況下具有較高的識(shí)別準(zhǔn)確率,但當(dāng)果實(shí)被遮擋時(shí)準(zhǔn)確率會(huì)有所下降。Lawal[8]采用改進(jìn)的YOLOv3模型對(duì)復(fù)雜環(huán)境中的番茄進(jìn)行檢測(cè),對(duì)少量遮擋的番茄檢測(cè)效果顯著,面對(duì)遮擋較多的番茄,識(shí)別準(zhǔn)確率還有待提高。對(duì)于在遮擋條件下的目標(biāo)檢測(cè)研究,傳統(tǒng)目標(biāo)檢測(cè)算法對(duì)受障礙物遮擋目標(biāo)的有效檢測(cè)還比較困難,Hinterstoisser等[9]提出的LineMod算法采用分塊匹配的方法,提高對(duì)被遮擋物體的打分,在一定程度上解決了目標(biāo)遮擋識(shí)別困難的問(wèn)題,但是識(shí)別準(zhǔn)確率低,無(wú)法從根本上解決遮擋問(wèn)題。Chen等[10]針對(duì)行人檢測(cè)中的遮擋問(wèn)題,總結(jié)了傳統(tǒng)遮擋處理方法和深度學(xué)習(xí)方法,并對(duì)各方法模型的主要思想和核心問(wèn)題進(jìn)行了分析和討論。Zhang等[11]提出了一種新的基于空間金字塔魯棒稀疏編碼的圖像分類(lèi)方法,通過(guò)尋找稀疏編碼問(wèn)題的最大似然估計(jì)解來(lái)增強(qiáng)對(duì)遮擋等干擾的魯棒性。
通過(guò)上述分析可知,傳統(tǒng)的機(jī)器學(xué)習(xí)和圖像處理方法難以滿足采摘機(jī)器人的技術(shù)需求?,F(xiàn)階段對(duì)蘋(píng)果果實(shí)的檢測(cè)研究主要針對(duì)完整蘋(píng)果果實(shí)進(jìn)行目標(biāo)檢測(cè),對(duì)受到遮擋的蘋(píng)果果實(shí)檢測(cè)研究較少,采集的圖像數(shù)據(jù)基于良好的蘋(píng)果培育環(huán)境,避免了環(huán)境遮擋因素,因此能得到更高的目標(biāo)識(shí)別率;當(dāng)試驗(yàn)圖像環(huán)境切合自然蘋(píng)果培育環(huán)境時(shí),由于受到障礙物、強(qiáng)光等復(fù)雜的自然因素的影響,以上模型針對(duì)蘋(píng)果的識(shí)別率會(huì)大幅度降低。
為解決遮擋蘋(píng)果果實(shí)的識(shí)別問(wèn)題,本研究引入一種將生成對(duì)抗網(wǎng)絡(luò)與目標(biāo)檢測(cè)算法結(jié)合的聯(lián)合模型,采用無(wú)遮擋蘋(píng)果果實(shí)圖像訓(xùn)練生成對(duì)抗網(wǎng)絡(luò),使生成對(duì)抗網(wǎng)絡(luò)生成器具備還原無(wú)遮擋蘋(píng)果果實(shí)圖像的能力。本研究將使用目標(biāo)檢測(cè)模型對(duì)自然環(huán)境下的蘋(píng)果圖像進(jìn)行檢測(cè),對(duì)有障礙物遮擋的蘋(píng)果果實(shí)圖像,在遮擋處添加掩碼,將帶掩碼的圖像傳入生成器,利用生成對(duì)抗網(wǎng)絡(luò)生成器對(duì)圖像進(jìn)行修復(fù),去除障礙物遮擋,并將修復(fù)的蘋(píng)果果實(shí)圖像傳入蘋(píng)果檢測(cè)模型,從而提高蘋(píng)果果實(shí)在遮擋情況下的識(shí)別率。最后,通過(guò)多方面的對(duì)比試驗(yàn)分析了該方法在遮擋條件下對(duì)蘋(píng)果果實(shí)的識(shí)別準(zhǔn)確率以及方法魯棒性等。
1 材料與方法
1.1 試驗(yàn)數(shù)據(jù)集
本研究使用的蘋(píng)果數(shù)據(jù)集采集地為山西農(nóng)業(yè)大學(xué)果樹(shù)研究所,采集時(shí)間為2022年9—10月,蘋(píng)果品種為紅富士蘋(píng)果、紅星蘋(píng)果。在采集過(guò)程中,模擬蘋(píng)果采摘機(jī)器人采摘流程,在果樹(shù)單邊固定位置放置相機(jī),從樹(shù)冠外圍距離果實(shí)30~50 cm處進(jìn)行拍攝,使用數(shù)碼相機(jī)拍攝自然光照下的蘋(píng)果,圖像分辨率為3 072×4 096,為了充分反映蘋(píng)果采摘環(huán)境的復(fù)雜性,拍攝不同光照、不同角度下的蘋(píng)果圖像,共計(jì)635張圖像,包括無(wú)遮擋圖像、葉片遮擋圖像、枝干遮擋圖像、混合遮擋圖像,部分原始圖像如圖1所示。
為了提高試驗(yàn)數(shù)據(jù)集的豐富度,使檢測(cè)模型具有更好的泛化性,對(duì)原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)來(lái)擴(kuò)大訓(xùn)練樣本,使用翻轉(zhuǎn)、變化對(duì)比度、旋轉(zhuǎn)和Mosaic數(shù)據(jù)增強(qiáng)方法進(jìn)行數(shù)據(jù)增強(qiáng),最后將635張圖像擴(kuò)充至2 740張,數(shù)據(jù)增強(qiáng)方法如圖2所示。
對(duì)采集到的圖像使用開(kāi)源工具Labelimg進(jìn)行標(biāo)注處理,標(biāo)注完成后按照Pascal VOC數(shù)據(jù)集和COCO數(shù)據(jù)集格式對(duì)數(shù)據(jù)集進(jìn)行劃分(表1)。將2 740張圖像的數(shù)據(jù)集按照9∶1的比例隨機(jī)劃分為訓(xùn)練集(2 466張)和測(cè)試集(274張)。
1.2 對(duì)遮擋蘋(píng)果果實(shí)的目標(biāo)檢測(cè)方法
為解決遮擋蘋(píng)果果實(shí)識(shí)別率低的問(wèn)題,本研究引入融合生成對(duì)抗網(wǎng)絡(luò)的蘋(píng)果果實(shí)檢測(cè)方法,如圖3所示。對(duì)蘋(píng)果果實(shí)圖像進(jìn)行目標(biāo)檢測(cè),對(duì)比在無(wú)遮擋、少量遮擋、大量遮擋情況下蘋(píng)果果實(shí)檢測(cè)結(jié)果,選擇檢測(cè)效果最好的模型,對(duì)蘋(píng)果果實(shí)圖像進(jìn)行遮擋檢測(cè)分類(lèi),對(duì)無(wú)遮擋的蘋(píng)果果實(shí)圖像直接進(jìn)行識(shí)別定位,對(duì)有障礙物遮擋的蘋(píng)果果實(shí)圖像,在遮擋處添加掩碼,然后利用生成對(duì)抗網(wǎng)絡(luò)對(duì)圖像進(jìn)行修復(fù)、去除遮擋,提高蘋(píng)果果實(shí)被障礙物遮擋時(shí)的檢測(cè)準(zhǔn)確度。最后對(duì)聯(lián)合模型進(jìn)行測(cè)試評(píng)估,與目標(biāo)檢測(cè)模型檢測(cè)結(jié)果進(jìn)行比較。
1.3 Faster RCNN總體架構(gòu)
目標(biāo)檢測(cè)算法主要分為單階段(One stage)目標(biāo)檢測(cè)與雙階段(Two stage)目標(biāo)檢測(cè),F(xiàn)aster RCNN為雙階段目標(biāo)檢測(cè)算法,單階段的目標(biāo)檢測(cè)算法不需要候選區(qū)域生成(Region proposal,RP),直接在網(wǎng)絡(luò)中提取特征來(lái)預(yù)測(cè)目標(biāo)的類(lèi)別和位置,雙階段目標(biāo)檢測(cè)算法在處理檢測(cè)目標(biāo)時(shí),需要先進(jìn)行候選區(qū)域生成,候選區(qū)可能包含待檢測(cè)的目標(biāo),然后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行樣本分類(lèi)。與單階段目標(biāo)檢測(cè)算法相比,F(xiàn)aster RCNN具有更高的精度,在小目標(biāo)檢測(cè)上表現(xiàn)效果更好。
Faster RCNN的總體架構(gòu)分為4個(gè)模塊,如圖4所示,特征提取網(wǎng)絡(luò)(Conv layers)負(fù)責(zé)提取圖像特征;區(qū)域候選網(wǎng)絡(luò)(Region proposal network,RPN)生成候選區(qū)域和利用邊框回歸算法修正錨框獲得精確的候選區(qū);興趣域池化層(Rol pooling)收集RPN生成的候選區(qū),從特征圖和候選區(qū)中提取候選區(qū)特征圖傳送給全連接層判定目標(biāo)類(lèi)別;分類(lèi)和回歸層(Classification and regression)利用候選區(qū)特征圖計(jì)算出具體類(lèi)別,同時(shí)再用邊框回歸算法獲得檢測(cè)框最終的精確位置。
RPN網(wǎng)絡(luò)使用Conv layers提取特征圖,整個(gè)網(wǎng)絡(luò)使用的損失函數(shù)包括[Lcls](Softmax loss)和[Lreg](Smooth L1 loss)兩個(gè)loss,[Lcls]用于分類(lèi)錨框?qū)儆谇熬斑€是背景,[Lreg]用于修正錨框。損失函數(shù)如下。
[Lpi,ti=1NclsiLclspi,p?i+][λ1Nregip?iLreg][(ti,t?i)] " (1)
式中,[pi]表示網(wǎng)絡(luò)預(yù)測(cè)出第i個(gè)錨框是目標(biāo)的概率;[p?i]表示對(duì)應(yīng)的真實(shí)框,若第i個(gè)錨框與某個(gè)真實(shí)目標(biāo)的交并比IoU大于0.7,則[p?i]=1,交并比IoU小于0.3,則[p?i]=0,其余情況的錨框不參與訓(xùn)練;[ti]表示參數(shù)化坐標(biāo)向量,表示預(yù)測(cè)框和錨框之間的偏移;[t?i]表示對(duì)應(yīng)的真實(shí)框,表示真實(shí)框和錨框之間的偏移;[Ncls]設(shè)置為mini-batch的大??;[Nreg]設(shè)置為錨框位置的數(shù)量(特征圖的大?。?。[Lreg]使用的Smooth L1 loss計(jì)算公式如下。
[Lreg(ti,t?i)=i∈{x,y,w,?}smoot?L1(ti-t?i)] (2)
[smoot?L1x=0.5x2" " " " " " " " " "ifxlt;1x-0.5" " " " " "ot?erwise] (3)
Faster RCNN在RCNN和Fast RCNN的基礎(chǔ)上進(jìn)行了改進(jìn),提出RPN網(wǎng)絡(luò)并對(duì)RPN網(wǎng)絡(luò)與Fast RCNN同時(shí)進(jìn)行訓(xùn)練,RPN網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)共享卷積特征圖,從而解決區(qū)域建議算法的計(jì)算瓶頸,使得Faster RCNN的檢測(cè)性能得到大幅度提高。
1.4 生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)
生成對(duì)抗網(wǎng)絡(luò)(Generative adversarial networks,GAN)是一種無(wú)監(jiān)督學(xué)習(xí)的深度學(xué)習(xí)模型。生成對(duì)抗網(wǎng)絡(luò)模型中包含兩大模塊:生成模型(Generative model)和判別模型(Discriminative model),通過(guò)生成模型和判別模型的相互博弈學(xué)習(xí)從而產(chǎn)生更好的輸出。
在生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)(圖5)中,包括生成器(Generator)和鑒別器(Discriminator),生成器負(fù)責(zé)生成假數(shù)據(jù)樣本并嘗試欺騙鑒別器,鑒別器負(fù)責(zé)區(qū)分真假數(shù)據(jù),生成器和鑒別器在訓(xùn)練階段相互競(jìng)爭(zhēng),不斷重復(fù)上述步驟,從而增強(qiáng)各模塊功能。
在生成對(duì)抗網(wǎng)絡(luò)中,生成模型捕獲數(shù)據(jù)的分布,以最小化判別器出錯(cuò)的方式進(jìn)行訓(xùn)練,判別模型通過(guò)計(jì)算自身獲得的樣本來(lái)自訓(xùn)練數(shù)據(jù)而非來(lái)自生成器的概率。在訓(xùn)練過(guò)程中,判別器會(huì)試圖最小化其獎(jiǎng)勵(lì)[V(D,G)],生成器試圖最大化判別器的損失,可用式(4)在數(shù)學(xué)上描述。
[minGmaxD" V(D,G)] (4)
[VD,G=Ex~pdataxlogDx+Ez~pz(z)[log (1-D(G(z)))]] " (5)
式中,[D]為判別器;[G]為生成器;[pdatax]為真實(shí)數(shù)據(jù)的分布;[pz(z)]為生成器的分布;[x]為[pdatax]的樣本;[z]為[pz(z)]的樣本;[Dx]為鑒別器網(wǎng)絡(luò);[G(z)]為生成器網(wǎng)絡(luò)。
1.5 圖像修復(fù)方法
使用邊緣對(duì)抗學(xué)習(xí)模型(EdgeConnect)對(duì)圖像進(jìn)行修復(fù),EdgeConnect模型結(jié)構(gòu)如圖6所示。EdgeConnect是一個(gè)二階生成對(duì)抗模型,包括邊緣生成器和圖像補(bǔ)全網(wǎng)絡(luò)。邊緣生成器對(duì)圖像的缺失域進(jìn)行邊緣修補(bǔ),圖像補(bǔ)全網(wǎng)絡(luò)以修復(fù)的邊緣作為先驗(yàn)條件補(bǔ)全缺失區(qū)域,為了確保生成的邊緣和缺失區(qū)域的RGB像素值在視覺(jué)上具有連續(xù)性和平滑性,兩個(gè)階段都使用生成對(duì)抗網(wǎng)絡(luò)完成。
邊緣生成器和圖像補(bǔ)全網(wǎng)絡(luò)都使用包含基于深度特征的損失函數(shù),邊緣生成器損失函數(shù)如下。
[Ladv,1=E(Cgt,Igray)logD1(Cgt,Igray)+EIgraylog [1-D1(Cpred,Igray)]] " (6)
[LFM=Ei=1L1NiDi1(Cgt-Di1(cpred))1] (7)
式中,[Ladv,1]為邊緣生成器對(duì)抗損失;[LFM]為邊緣生成器特征損失;[Igray]為真實(shí)圖片的灰度值;[Cgt]為真實(shí)圖片的輪廓圖;[cpred]為邊緣生成器的預(yù)測(cè)結(jié)果;[L]為判別器的最后一層卷積層;[Ni]為判別器第i層的激活結(jié)果。
圖像補(bǔ)全網(wǎng)絡(luò)損失函數(shù)如下。
[Ladv,2=E(Igt,Ccomp)logD2(Igt,Ccomp)+ECcomplog [1-D2(Ipred,Ccomp)]] " (8)
[Lprec=Ei1Ni?i1(Igt-?i1(Ipred))1] (9)
式中,[Ladv,2]為圖像補(bǔ)全網(wǎng)絡(luò)對(duì)抗損失;[Lprec]為圖像補(bǔ)全網(wǎng)絡(luò)感知損失;[Ccomp]為合成輪廓圖;[Igt]為真實(shí)圖像;[Ipred]為圖像補(bǔ)全網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果。
2 結(jié)果與分析
2.1 試驗(yàn)平臺(tái)搭建
試驗(yàn)硬件環(huán)境為 GeForce RTX 2060 GPU, 16G顯存,利用CUDA11.4和CUDNN加快GPU運(yùn)算。軟件運(yùn)行環(huán)境為Windows操作系統(tǒng),采用基于Pytorch1.8的深度學(xué)習(xí)目標(biāo)檢測(cè)框架,訓(xùn)練過(guò)程分為凍結(jié)階段和解凍階段,使用凍結(jié)訓(xùn)練加速訓(xùn)練過(guò)程,凍結(jié)階段訓(xùn)練次數(shù)epoch設(shè)置為50,增加學(xué)習(xí)率為0.001幫助模型跳出最優(yōu)解,解凍階段訓(xùn)練次數(shù)epoch設(shè)置為100,降低學(xué)習(xí)率為0.000 1保證模型訓(xùn)練的穩(wěn)定性,優(yōu)化器選擇適應(yīng)性矩估計(jì)算法adam,采用余弦退火cos學(xué)習(xí)率下降的方式調(diào)整學(xué)習(xí)率,每5次迭代保存1次權(quán)值。
2.2 模型性能的評(píng)價(jià)指標(biāo)
本研究采用目標(biāo)檢測(cè)算法中常用的4個(gè)性能評(píng)價(jià)指標(biāo)進(jìn)行模型評(píng)估,分別為:精確率(Precision,P)、召回率(Recall,R)、平均精度(Average precision,AP)、平均精度均值(Mean average precision,mAP)。并在同一硬件環(huán)境下的檢測(cè)速率幀每秒(Frame per second,fps)來(lái)衡量模型檢測(cè)速率。P、R、AP、mAP計(jì)算公式如下。
[P=TPTP+FP×100%] (10)
[R=TPTP+FN×100%] (11)
[AP=01PRdR] (12)
[mAP=i=1nPANC] (13)
式中,[n]表示檢測(cè)目標(biāo)的類(lèi)別數(shù)量;[TP]表示正樣本被正確識(shí)別為正樣本;[FP]表示正樣本被錯(cuò)誤識(shí)別為負(fù)樣本;[TN]表示負(fù)樣本被正確識(shí)別為負(fù)樣本;[FN]表示負(fù)樣本被錯(cuò)誤識(shí)別為正樣本;[PA]表示第[i]個(gè)的[AP]值;[NC]表示總類(lèi)別數(shù),混淆矩陣如表2所示。
2.3 試驗(yàn)結(jié)果與分析
分別使用YOLOv3、YOLOv4、YOLOv5和 Faster RCNN模型在測(cè)試集上進(jìn)行目標(biāo)檢測(cè),mAP值如表3所示??梢园l(fā)現(xiàn),在對(duì)無(wú)遮擋、少量遮擋、大量遮擋的蘋(píng)果檢測(cè)中,F(xiàn)aster RCNN模型的平均精度均高于其他模型,但是檢測(cè)速度低于其他模型,檢測(cè)速度可以通過(guò)降低檢測(cè)頻率,捕捉關(guān)鍵幀檢測(cè)等方式彌補(bǔ)。綜合考慮,選用Faster RCNN目標(biāo)檢測(cè)模型對(duì)蘋(píng)果進(jìn)行遮擋圖像分類(lèi)和識(shí)別定位。
在目標(biāo)檢測(cè)模型將蘋(píng)果分為無(wú)遮擋蘋(píng)果與遮擋蘋(píng)果后,對(duì)受遮擋的蘋(píng)果圖像進(jìn)行處理,在遮擋處添加白色掩碼,利用EdgeConnect中的生成器對(duì)遮擋蘋(píng)果圖像進(jìn)行圖像修復(fù)、去除遮擋,結(jié)果如圖8所示。
對(duì)聯(lián)合模型進(jìn)行測(cè)試評(píng)估,F(xiàn)aster RCNN模型和聯(lián)合模型R-P曲線如圖9所示,精確率P和召回率R是一對(duì)矛盾的變量,精確率高時(shí),召回率往往偏低;精確率低時(shí),召回率往往偏高。圖中曲線與橫、縱坐標(biāo)圍成的區(qū)域面積為該類(lèi)別檢測(cè)的準(zhǔn)確率,可以看出,聯(lián)合模型GAN-Faster RCNN的識(shí)別準(zhǔn)確率高于Faster RCNN模型。
Faster RCNN模型與GAN-Faster RCNN聯(lián)合模型在無(wú)遮擋、少量遮擋、大量遮擋蘋(píng)果圖像上的mAP如表4所示。融合了生成對(duì)抗網(wǎng)絡(luò)的GAN-Faster RCNN聯(lián)合模型在對(duì)遮擋蘋(píng)果的識(shí)別準(zhǔn)確率有明顯提高,對(duì)少量遮擋的蘋(píng)果圖像,mAP提高了9.54個(gè)百分點(diǎn),對(duì)大量遮擋的蘋(píng)果圖像,mAP提高了8.76個(gè)百分點(diǎn)。
3 結(jié)論與討論
本研究以蘋(píng)果為研究對(duì)象,針對(duì)受障礙物遮擋的蘋(píng)果果實(shí),在Faster RCNN目標(biāo)檢測(cè)模型的基礎(chǔ)上,使用生成對(duì)抗網(wǎng)絡(luò)對(duì)遮擋圖像進(jìn)行圖像修復(fù)、去除遮擋,搭建蘋(píng)果檢測(cè)模型并進(jìn)行試驗(yàn)分析和評(píng)價(jià)。結(jié)論如下。
對(duì)蘋(píng)果數(shù)據(jù)集的檢測(cè)測(cè)試中,F(xiàn)aster RCNN模型的檢測(cè)平均精度均值高于YOLOv3、YOLOv4、YOLOv5模型,檢測(cè)速度低于YOLO模型,F(xiàn)aster RCNN為雙階段的目標(biāo)檢測(cè)模型,輸入的圖像先經(jīng)過(guò)候選框生成網(wǎng)絡(luò),再經(jīng)過(guò)分類(lèi)網(wǎng)絡(luò),相對(duì)于YOLO模型,F(xiàn)aster RCNN在檢測(cè)速度上沒(méi)有優(yōu)勢(shì),但是檢測(cè)準(zhǔn)確率高于YOLO模型。
融合生成對(duì)抗網(wǎng)絡(luò)的GAN-Faster RCNN聯(lián)合模型在遮擋蘋(píng)果果實(shí)檢測(cè)中,對(duì)少量遮擋的蘋(píng)果果實(shí)圖像,mAP提高了9.54個(gè)百分點(diǎn),對(duì)大量遮擋的蘋(píng)果果實(shí)圖像,mAP提高了8.76個(gè)百分點(diǎn)。試驗(yàn)證明,融合了生成對(duì)抗網(wǎng)絡(luò)的Faster RCNN檢測(cè)模型對(duì)遮擋蘋(píng)果果實(shí)檢測(cè)準(zhǔn)確率有大幅度提高。
本研究方法可類(lèi)推于其他受障礙物遮擋的目標(biāo)檢測(cè),利用生成對(duì)抗網(wǎng)絡(luò)對(duì)遮擋圖像的修復(fù)填充,可以在一定程度上還原缺失的圖像信息。但是隨著缺失區(qū)域的增大,對(duì)圖像修復(fù)的難度也會(huì)大幅度提升,解決大規(guī)模圖像修復(fù)的重點(diǎn)在于足夠的圖像生成能力,未來(lái)將針對(duì)大規(guī)模遮擋圖像進(jìn)行研究,并對(duì)模型進(jìn)行輕量化處理,提高模型對(duì)大規(guī)模遮擋目標(biāo)的識(shí)別準(zhǔn)確率,使模型更好地應(yīng)用于復(fù)雜環(huán)境中的檢測(cè)任務(wù)。
參考文獻(xiàn):
[1] 馬小琴.山西省蘋(píng)果產(chǎn)業(yè)發(fā)展趨勢(shì)及其旅游價(jià)值分析[J].中國(guó)果樹(shù),2022(10):99-103.
[2] 王 璇,劉軍弟,邵礫群,等.我國(guó)蘋(píng)果產(chǎn)業(yè)年度發(fā)展?fàn)顩r及其趨勢(shì)與建議[J].中國(guó)果樹(shù),2018(3):101-104,108.
[3] 陳 磊,陳帝伊,馬孝義.果蔬采摘機(jī)器人的研究[J].農(nóng)機(jī)化研究,2011,33(1):224-227,231.
[4] LI J, KARKEE M, ZHANG Q, et al. Characterizing apple picking patterns for robotic harvesting[J]. Computers and electronics in agriculture, 2016, 127: 633-640.
[5] JIA W K, TIAN Y Y, LUO R, et al. Detection and segmentation of overlapped fruits based on optimized mask R-CNN application in apple harvesting robot[J]. Computers and electronics in agriculture, 2020, 172: 105380.
[6] 張恩宇,成云玲,胡廣銳,等.基于SSD算法的自然條件下青蘋(píng)果識(shí)別[J].中國(guó)科技論文,2020,15(3):274-281.
[7] 傅隆生,馮亞利, TOLA E,等.基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識(shí)別方法[J].農(nóng)業(yè)工程學(xué)報(bào),2018,34(2):205-211.
[8] LAWAL M O. Tomato detection based on modified YOLOv3 framework[J]. Scientific reports, 2021, 11(1): 1447.
[9] HINTERSTOISSER S, LEPETIT V, ILIC S, et al. Technical demonstration on model based training, detection and pose estimation of texture-less 3D objects in heavily cluttered scenes[A]. European conference on computer vision[C]. Springer, Berlin, Heidelberg, 2012.593-596.
[10] CHEN N,L M L,YUAN H,et al. Survey of pedestrian detection with occlusion[J]. Complex amp; intelligent systems,2021,7:577-587.
[11] ZHANG C, WANG S, HUANG Q, et al. Image classification using spatial pyramid robust sparse coding[J]. Pattern recognition letters, 2013.DOI:10.1016/J.PATREC.2013.02.013.
基金項(xiàng)目:國(guó)家重點(diǎn)研發(fā)計(jì)劃項(xiàng)目(2021YFD1901101);山西省基礎(chǔ)研究計(jì)劃項(xiàng)目(202103021224123);山西省科技重大專項(xiàng)計(jì)劃“揭牌掛帥”項(xiàng)目(202101140601026)
作者簡(jiǎn)介:劉 帥(1998-),男,山西呂梁人,在讀碩士研究生,研究方向?yàn)橹腔坜r(nóng)業(yè)、機(jī)器視覺(jué),(電話)15122126785(電子信箱)975354266@qq.com;通信作者,張吳平(1973-),男,山西長(zhǎng)治人,教授,研究生導(dǎo)師,博士,主要從事植物表型學(xué)、旱作有機(jī)農(nóng)業(yè)等領(lǐng)域的研究,(電話)15935664481(電子信箱)zwping@126.com。