中圖分類號(hào):S24 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-5553(2025)07-0153-11
Abstract:Fortheneesofinteligent managementof peach pickingtourismorchards,adeep learning-based picking recognitionmethodis proposed.Themethod usesmachine visionand deep learning technologies tointegratea lightweight humanposture estimationalgorithmLightweight OpenPose,atarget detectionalgorithmYOLOv5s,andatarget tracking algorithm DeepSORT to develop a peach picking behavior detection approach.It can be divided into three steps according tothefunctional order:the picking posture determination method basedonthehuman body joint angles,the pickingtargetdeterminationmethodbasedonnearest neighborretrievaland itsoptimization,andthepicking targetdetection failure solution method based onthesetstatus flags.A dataset is established basedonthe actual peach picking videos for performance tests.Comparing the method based on the angle of human joints proposed in thispaper with the traditionalmethodof using bounding boxesenclosinghuman joints,the methodinthispapercanimprove theprecision of determination rate of hand-raising action by 16% .For the problem of determining the picking target,the nearest neighbor retrieval approach outperforms both thetraditional method basedonthe comparison of distanceand reference size and the method based on the comparison of IoU and thresholds,with an increased P rate by at least 11% . The picking target detection failure solution method basedonsetstatus flags efectivelysolves the influenceof handoclusionon the detection results,substantially improving the P rateby 39% .On this basis,an experimental system is designed to test the proposedmethod under real-world conditions.Theresultsshow that the proposed peach picking recognition method achieves effective and accurate recognition of picking actions in actual orchard environments. Keywords:smart agriculture;agritourism; peach;picking recognition;deep learning; human postures
0 引言
桃子是我國重要的果樹品種,也是農(nóng)業(yè)采摘園中常見的果樹之一[1]。相比于大棚環(huán)境下的果樹種植,桃樹通常采取露天栽培方式。在采摘園區(qū)內(nèi),游客的分布呈現(xiàn)較為分散的特點(diǎn)。游客的采摘行為往往與其采摘興趣等個(gè)人偏好密切相關(guān),通過對(duì)游客采摘?jiǎng)幼鞯谋O(jiān)督與分析,可以間接評(píng)估其采摘興趣等。然而,近年來隨著人工成本不斷攀升等因素影響,依靠大量人力對(duì)游客行為進(jìn)行監(jiān)督分析的策略已變得不切實(shí)際。因此,亟須采用新的農(nóng)業(yè)技術(shù)對(duì)桃子采摘果園進(jìn)行科學(xué)高效管理。
深度學(xué)習(xí)技術(shù)在家禽家畜個(gè)體與姿態(tài)識(shí)別、農(nóng)作物及雜草識(shí)別、農(nóng)作物病蟲害檢測(cè)等農(nóng)業(yè)領(lǐng)域應(yīng)用廣泛[2,3]。如李菊霞等[4]采用YOLOv4 模型對(duì)豬只飲食行為進(jìn)行檢測(cè),試驗(yàn)結(jié)果表明,該方法在不同視角、不同遮擋程度以及不同光照下均能實(shí)時(shí)有效地檢測(cè)豬只飲食行為。胡志偉等5在特征金字塔網(wǎng)絡(luò)FPN中引入融合通道注意力與空間注意力的雙重注意力單元,實(shí)現(xiàn)對(duì)復(fù)雜場(chǎng)景中生豬實(shí)例的精確檢測(cè)。彭明霞等[6]將特征金字塔網(wǎng)絡(luò)FPN融人FasterR—CNN,并選用殘差卷積網(wǎng)絡(luò)提取圖像特征,使模型在田間復(fù)雜條件下快速、準(zhǔn)確識(shí)別棉花與雜草。劉莫塵等采用融合帶色彩恢復(fù)的多尺度視網(wǎng)膜增強(qiáng)算法對(duì)YOLOv4—tiny模型進(jìn)行改進(jìn),實(shí)現(xiàn)在復(fù)雜實(shí)際場(chǎng)景中對(duì)玉米苗和雜草的高效準(zhǔn)確分類。鮑文霞等8采用基于多路卷積神經(jīng)網(wǎng)絡(luò)的方法,對(duì)大田環(huán)境下麥穗赤霉病的識(shí)別精度高達(dá) 100% 。甘雨等引入注意力模塊CA對(duì)EfficientNet網(wǎng)絡(luò)進(jìn)行改進(jìn),構(gòu)造出CA—EfficientNet模型。該模型有效提高了作物害蟲的識(shí)別準(zhǔn)確率,并大幅減少模型參數(shù)量,使其易于部署到移動(dòng)端。Dyrmann等[10]提出了一種基于DetectNet網(wǎng)絡(luò)實(shí)現(xiàn)復(fù)雜環(huán)境條件下對(duì)麥田中雜草的檢測(cè)方法。Amara等[11對(duì)LeNet架構(gòu)進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)現(xiàn)實(shí)場(chǎng)景中的香蕉樹葉片進(jìn)行高魯棒性疾病檢測(cè)。Veeraballi等12提出了一種改進(jìn)的ResNet50網(wǎng)絡(luò)對(duì)木瓜植物的葉片疾病進(jìn)行識(shí)別和分類。上述研究表明,利用深度學(xué)習(xí)技術(shù)可以較好地對(duì)農(nóng)業(yè)領(lǐng)域的動(dòng)、植物等生物對(duì)象及其行為進(jìn)行識(shí)別。
具體到果園場(chǎng)景中,深度學(xué)習(xí)的應(yīng)用主要集中在對(duì)果樹病蟲害識(shí)別以及對(duì)果樹各個(gè)部位的識(shí)別(如識(shí)別果實(shí),進(jìn)而進(jìn)行果實(shí)計(jì)數(shù)、果實(shí)自標(biāo)跟蹤等問題的研究)。彭紅星等[13將經(jīng)典SSD深度學(xué)習(xí)模型中的VGG16輸人模型替換為ResNet—101模型,解決了重疊和受遮擋果實(shí)的目標(biāo)檢測(cè)問題。穆龍濤等[14]采用改進(jìn)的AlexNet作為FasterR—CNN的特征提取層,降低了網(wǎng)絡(luò)復(fù)雜度,減少了計(jì)算量,并且具有較高的檢測(cè)精度。劉芳等[15]將其設(shè)計(jì)的含有殘差模塊的DarkNet—20網(wǎng)絡(luò)替換YOLO的主干網(wǎng)絡(luò),并融合多尺度檢測(cè)模塊,更好地實(shí)現(xiàn)特征提取。Rahnemoonfar等[16]提出一種基于改進(jìn)Inception—ResNet架構(gòu)的方法獲取多尺度特征,用于實(shí)現(xiàn)果實(shí)的準(zhǔn)確計(jì)數(shù)以及產(chǎn)量估計(jì),實(shí)現(xiàn)了 91% 的準(zhǔn)確性,而原始Inception—ResNet的準(zhǔn)確性為 76% 。Koirala等[1基于YOLO檢測(cè)框架設(shè)計(jì)了MangoYOLO,該架構(gòu)比YOLOvl更深,但比YOLOv3更淺,用于芒果果實(shí)檢測(cè)任務(wù)中的內(nèi)存和速度優(yōu)化,并且模型對(duì)水果遮擋及可變照明條件等問題具有魯棒性。Kestur等[18提出了深度全卷積神經(jīng)網(wǎng)絡(luò)MangoNet來分割圖像中的芒果果實(shí),通過連接對(duì)象對(duì)圖像中的果實(shí)進(jìn)行計(jì)數(shù),該網(wǎng)絡(luò)的F1達(dá)0.84,較傳統(tǒng)目標(biāo)檢測(cè)網(wǎng)絡(luò)有顯著提高。
本文重點(diǎn)研究在觀光采摘果園中識(shí)別游客等對(duì)象的采摘行為,該采摘行為不僅涉及對(duì)人體姿態(tài)的檢測(cè),也需要結(jié)合對(duì)果實(shí)空間位置變化的檢測(cè)。采摘過程中,人體姿態(tài)動(dòng)態(tài)變化,果實(shí)位置也會(huì)發(fā)生較大位移。以往的研究中,對(duì)果園情境中人體姿態(tài)識(shí)別的研究較為不足,多側(cè)重于對(duì)果實(shí)及其位置進(jìn)行識(shí)別與跟蹤的研究工作,目的大多是為了進(jìn)行產(chǎn)量估計(jì),檢測(cè)過程中果實(shí)位移量不大。此外,采摘行為的識(shí)別還需要對(duì)人體與果實(shí)接觸情況進(jìn)行判定,目前關(guān)于這方面的研究也有所不足。
考慮到對(duì)樹上果實(shí)的采摘行為進(jìn)行識(shí)別的任務(wù)涉及對(duì)人體動(dòng)作以及果實(shí)位置兩個(gè)方面的判斷,因此,需要引人人體姿態(tài)估計(jì)算法和目標(biāo)檢測(cè)算法作為采摘識(shí)別任務(wù)的基礎(chǔ)算法。由于采摘行為是一個(gè)動(dòng)態(tài)過程,因而還需要結(jié)合目標(biāo)跟蹤算法對(duì)不同幀之間的果實(shí)進(jìn)行關(guān)聯(lián)。因此,本文融合基于人體姿態(tài)估計(jì)算法、目標(biāo)檢測(cè)算法和目標(biāo)跟蹤算法,針對(duì)現(xiàn)實(shí)場(chǎng)景中的具體問題對(duì)上述算法模型進(jìn)行優(yōu)化,構(gòu)建基于深度學(xué)習(xí)的果樹采摘識(shí)別架構(gòu),從而實(shí)現(xiàn)對(duì)果實(shí)采摘結(jié)果的準(zhǔn)確判定。
1果實(shí)采摘行為檢測(cè)網(wǎng)絡(luò)架構(gòu)
1.1 網(wǎng)絡(luò)架構(gòu)YOLOv5
YOLOv5是一種單階段目標(biāo)檢測(cè)算法,該算法在前幾代YOLO算法的基礎(chǔ)上進(jìn)行改進(jìn),使其在檢測(cè)速度與精度方面得到較大提升[19]。YOLOv5在主干網(wǎng)絡(luò)中采用原創(chuàng)的Focus模塊,將信息從寬高維度集中到通道維度,提高每個(gè)點(diǎn)的感受野,有效減少參數(shù)量和計(jì)算量,提升推理速度。并且采用C3模塊替換原來主干網(wǎng)絡(luò)中的BottleneckCSP模塊,使模型在性能不下降的情況下精簡(jiǎn)網(wǎng)絡(luò)結(jié)構(gòu),減少計(jì)算量,降低模型推理時(shí)間。此外,將原本SPP模塊中3個(gè)并行的最大池化層替換為串行結(jié)構(gòu)的SPPF模塊,大大減少前向計(jì)算和反向計(jì)算的時(shí)間。由于YOLOv5集成了各種高效模塊,使其獲得高精度和高實(shí)時(shí)性的檢測(cè)效果。因此,若將其應(yīng)用于果實(shí)采摘識(shí)別任務(wù)中,可望實(shí)現(xiàn)對(duì)果實(shí)檢測(cè)目標(biāo)的快速準(zhǔn)確定位,為采摘目標(biāo)判斷以及果實(shí)采摘位移過程中跟蹤果實(shí)目標(biāo)提供穩(wěn)定準(zhǔn)確的位置信息。相比于YOLOv5其他版本,YOLOv5s結(jié)構(gòu)最為簡(jiǎn)潔,模型小、計(jì)算量小、速度快,特別適用于本文的應(yīng)用情景。
1.2Lightweight OpenPose網(wǎng)絡(luò)
Lightweight OpenPose是在OpenPose基礎(chǔ)上提出的一種輕量版[20]。OpenPose網(wǎng)絡(luò)可根據(jù)輸入圖片生成一個(gè)部分置信圖(PCM)和一個(gè)部分親和場(chǎng)(PAF)。前者生成用來預(yù)測(cè)關(guān)鍵點(diǎn)位置的熱力圖(Heatmap);后者是在關(guān)鍵點(diǎn)之間建立的一個(gè)向量場(chǎng),描述肢體的方向。獲得熱力圖和部分親和場(chǎng)后,使用二分圖最大權(quán)匹配算法來對(duì)關(guān)鍵點(diǎn)進(jìn)行局部關(guān)聯(lián),并用匈牙利算法(HungarianAlgorithm)求得相連關(guān)鍵點(diǎn)最優(yōu)匹配,從而組合成人體骨架,描述人體姿態(tài)。LightweightOpenPose的流程與OpenPose基本一致,但在OpenPose的基礎(chǔ)上做了以下改進(jìn):將OpenPose的主干網(wǎng)絡(luò)VGG19替換為輕量型網(wǎng)絡(luò)Mobilevl,大幅減少模型參數(shù)量。在此基礎(chǔ)上,把生成keypoints和PAFs的兩個(gè)網(wǎng)絡(luò)合并成一個(gè),并將 7×7 卷積換成 3×3 和 1×1 的卷積。這些操作共同作用使得LightweightOpenPose在檢測(cè)速度方面的性能大幅提升,并且在參數(shù)量只有OpenPose的 15% 的情況下,保持較高的檢測(cè)精度。因此,若將其應(yīng)用于采摘識(shí)別模型當(dāng)中,可以使其減少對(duì)高性能計(jì)算機(jī)的依賴,擴(kuò)大模型的應(yīng)用范圍,并且可以保持較好的實(shí)時(shí)性。
1.3 DeepSORT網(wǎng)絡(luò)
DeepSORT 的前身是 SORT 算法[21]。SORT算法通過目標(biāo)檢測(cè)器在第一幀檢測(cè)到的結(jié)果創(chuàng)建對(duì)應(yīng)的軌跡。將卡爾曼濾波的運(yùn)動(dòng)變量初始化,通過卡爾曼濾波獲得軌跡在下一幀的預(yù)測(cè)框。在下一幀中將目標(biāo)檢測(cè)框和軌跡預(yù)測(cè)框進(jìn)行IoU匹配,再通過匹配結(jié)果計(jì)算其代價(jià)矩陣。將其輸入匈牙利算法,可以得到3種不同的線性匹配結(jié)果。第1種是Tracks(代表軌跡信息)失配,將失配的Tracks刪除;第2種是Detections(代表通過目標(biāo)檢測(cè)算法獲得的檢測(cè)框)失配,將其初始化為一個(gè)新的Track;第3種是目標(biāo)檢測(cè)框和卡爾曼濾波預(yù)測(cè)框匹配成功,說明前一幀和后一幀追蹤成功,將其對(duì)應(yīng)的Detections通過卡爾曼濾波更新到對(duì)應(yīng)的Tracks變量。然而SORT算法在物體發(fā)生遮擋時(shí),存在容易丟失ID的問題。DeepSORT算法是SORT算法的改進(jìn)版本,在SORT算法的基礎(chǔ)上增加新軌跡的狀態(tài)確認(rèn)和級(jí)聯(lián)匹配。
在新軌跡的狀態(tài)確認(rèn)方面,將Tracks分為確認(rèn)態(tài)(Confirmed)和不確認(rèn)態(tài)(Unconfirmed)。新產(chǎn)生的Tracks屬于不確認(rèn)態(tài);不確認(rèn)態(tài)的Tracks必須和Detections連續(xù)匹配一定的次數(shù)(默認(rèn)3次)才可以轉(zhuǎn)化成確認(rèn)態(tài)。確認(rèn)態(tài)的Tracks必須和Detections連續(xù)失配一定次數(shù)(默認(rèn)30次),才會(huì)被刪除。在級(jí)聯(lián)匹配方面,根據(jù)卷積神經(jīng)網(wǎng)絡(luò)提取到的目標(biāo)物體的外觀特征和運(yùn)動(dòng)特征對(duì)確認(rèn)態(tài)的Tracks與Detections進(jìn)行級(jí)聯(lián)匹配。通過計(jì)算前后兩幀目標(biāo)之間的匹配程度,實(shí)現(xiàn)軌跡關(guān)聯(lián),并為每個(gè)追蹤到的目標(biāo)分配ID。通過DeepSORT,可以高效準(zhǔn)確地通過視頻數(shù)據(jù)追蹤果園場(chǎng)景中的對(duì)象,實(shí)現(xiàn)對(duì)采摘過程中的目標(biāo)追蹤檢測(cè)。
2果實(shí)采摘行為檢測(cè)方法研究
2.1果實(shí)采摘行為檢測(cè)方法
對(duì)樹上果實(shí)的采摘行為定義為舉起手、手接觸果實(shí)、摘下果實(shí)3個(gè)環(huán)節(jié)的一個(gè)過程,因此,將果樹采摘行為的識(shí)別等效為對(duì)以上3個(gè)環(huán)節(jié)進(jìn)行判定。若采用深度學(xué)習(xí)方法對(duì)這3個(gè)環(huán)節(jié)進(jìn)行判定,即涉及自標(biāo)檢測(cè)技術(shù)、人體姿態(tài)估計(jì)技術(shù)和目標(biāo)跟蹤技術(shù)的應(yīng)用。然而直接采用原始算法,難以滿足實(shí)際場(chǎng)景的需求,所以在前述算法的基礎(chǔ)上針對(duì)采摘識(shí)別情景做出3處重要適配改進(jìn)。算法結(jié)構(gòu)如圖1所示。
2.2基于人體關(guān)節(jié)角度的采摘姿態(tài)判定方法
對(duì)采摘舉手的判定涉及人體姿態(tài),而與采摘時(shí)的舉手動(dòng)作最緊密相關(guān)的部位是人的前臂。人的前臂是由手肘關(guān)節(jié)和手腕關(guān)節(jié)相連,可以通過對(duì)手肘關(guān)節(jié)和手腕關(guān)節(jié)的位置檢測(cè),分析前臂的活動(dòng)情況。對(duì)于舉起手這個(gè)動(dòng)作,可以通過前臂與水平線之間的夾角 θ 進(jìn)行判定。如圖2所示,以左手采摘?jiǎng)幼鳛槔?,分析夾角 θ 與左手肘和左手腕關(guān)節(jié)點(diǎn)坐標(biāo)之間的關(guān)系。手肘和手腕關(guān)節(jié)點(diǎn)坐標(biāo)可以通過LightweightOpenPose模型給出。
通過圖2中對(duì)應(yīng)關(guān)系可以得出夾角 θ 的正弦值以及 θ 的角度大小,如式(1)和式(2)所示。
圖2夾角 θ 與手肘和手腕關(guān)節(jié)點(diǎn)坐標(biāo)之間的關(guān)系 Fig.2 Relationship between the angle θ and the coordinates of the elbow and wrist joint points
由于在采摘場(chǎng)景中還存在許多抬起前臂但并未進(jìn)行采摘的動(dòng)作,如圖3所示。因此,不能簡(jiǎn)單地根據(jù)前臂拾起(即 sinθgt;0 這一條件來判定采摘時(shí)的舉手動(dòng)作,需要進(jìn)一步區(qū)分采摘?jiǎng)幼髋c采摘干擾動(dòng)作。
圖3干擾動(dòng)作示例 Fig.3Interference action example
通過對(duì)數(shù)據(jù)集的觀察,發(fā)現(xiàn)采摘?jiǎng)幼髋c其他干擾動(dòng)作前臂抬起的幅度大小有明顯差異。因此,對(duì)數(shù)據(jù)集中不同動(dòng)作的前臂抬起幅度進(jìn)行統(tǒng)計(jì)。采用sinθ的值來衡量前臂抬起幅度大小。對(duì)視頻數(shù)據(jù)集中不同動(dòng)作的 sinθ(θgt;0) 進(jìn)行統(tǒng)計(jì)得到表1。
表1數(shù)據(jù)統(tǒng)計(jì)表Tab.1 Statisticaltable of data
注: max(sinθi)(i∈n,n 為一個(gè)視頻包含的幀數(shù))表示某一類動(dòng)作在某一個(gè)視頻中的最大 sinθi 值,代表視頻中此類動(dòng)作的角度正弦峰值。max(max(sinθi)) D 為數(shù)據(jù)集中此類視頻的數(shù)量)與min(maxj(sinθi) )表示在數(shù)據(jù)集所有視頻中該類動(dòng)作的角度最大正弦值波動(dòng)范圍。
由表1可知,可以通過設(shè)置閾值為0.6,將采摘舉手動(dòng)作和干擾動(dòng)作區(qū)分。據(jù)此劃分不同區(qū)間,并通過設(shè)置采摘舉手標(biāo)志PickPutup對(duì)不同區(qū)間進(jìn)行表示。當(dāng)前臂擺動(dòng)幅度滿足 sinθgt;0.6 時(shí),視為采摘舉手動(dòng)作,以此作為采摘舉手的判定條件。此時(shí)可以繼續(xù)進(jìn)行后續(xù)的采摘相關(guān)檢測(cè)。而對(duì)摘下果實(shí)的判定條件為:若在手放下狀態(tài)時(shí)采摘目標(biāo)果實(shí)的檢測(cè)框中心點(diǎn)位置比手腕關(guān)節(jié)點(diǎn)低,即視為果實(shí)被摘下。
2.3基于最近鄰檢索的采摘目標(biāo)確定方法及其優(yōu)化
在果實(shí)采摘識(shí)別的環(huán)節(jié)中還有一個(gè)是對(duì)手接觸果實(shí)的判定。傳統(tǒng)對(duì)人手接觸物體的判定方法有兩種:(1)當(dāng)手腕關(guān)節(jié)點(diǎn)與目標(biāo)物體中心的距離小于預(yù)設(shè)參照物的尺寸時(shí),判定人手接觸該物體。預(yù)設(shè)參照物一般取人手的長(zhǎng)度,以往多采用前臂長(zhǎng)度的1/2代表人手的長(zhǎng)度;(2)利用交并比(IoU)算法,以手腕關(guān)節(jié)點(diǎn)為中心自設(shè)矩形框,邊長(zhǎng)為手長(zhǎng)的2倍。當(dāng)手腕矩形框與目標(biāo)物體的交并比值超過設(shè)定閾值時(shí)可判定人手接觸該物體。
由于對(duì)人手是否接觸果實(shí)進(jìn)行判定是為了確定采摘目標(biāo),以便在下一步的摘下果實(shí)判定環(huán)節(jié)對(duì)相應(yīng)果實(shí)的位置進(jìn)行比對(duì)。說明判定手是否接觸果實(shí)問題可以進(jìn)一步轉(zhuǎn)化為確定采摘目標(biāo)問題,但是需要保證結(jié)果的唯一性。
關(guān)于基于手腕與目標(biāo)物體之間的距離或交并比這兩種方法,當(dāng)有多個(gè)果實(shí)距離人手較近時(shí),滿足條件的果實(shí)可能不唯一,如圖4所示,這樣就難以保證確定采摘目標(biāo)的唯一性。
圖4傳統(tǒng)方法檢測(cè)效果示例
Fig.4Example of the effect of traditional methodsofdetection
利用最近鄰檢索方法找出距離手腕關(guān)節(jié)點(diǎn)最近的果實(shí)目標(biāo)中心點(diǎn)。其對(duì)應(yīng)的果實(shí)目標(biāo)具有唯一性,可用于進(jìn)行采摘目標(biāo)的判定。圖5為某一幀中查找距離手腕關(guān)節(jié)點(diǎn)最近果實(shí)的流程。
此處確定的果實(shí)目標(biāo)只是在某一時(shí)刻距離手腕最近,顯然不足以被判定為采摘目標(biāo)。采摘目標(biāo)對(duì)應(yīng)的果實(shí)必然是在一段時(shí)間內(nèi)多次距離手腕關(guān)節(jié)點(diǎn)最近的果實(shí),那么便需要解決此處時(shí)間長(zhǎng)短的問題。在視頻中一般用連續(xù)的幀數(shù)來反映一段時(shí)間的長(zhǎng)度,因此,問題就轉(zhuǎn)化為選取合適的檢測(cè)幀數(shù)。
圖5某一幀中查找距離手腕關(guān)節(jié)點(diǎn)最近果實(shí)的流程圖 Fig.5Flowchart forfinding the closest fruit to awristnodeinagiven frame
為此,在數(shù)據(jù)集上進(jìn)行多輪試驗(yàn)與驗(yàn)證,發(fā)現(xiàn)當(dāng)取20幀作為連續(xù)檢測(cè)幀數(shù)的范圍時(shí),本方法檢測(cè)采摘目標(biāo)的準(zhǔn)確性最高。但是依然存在小部分沒有準(zhǔn)確檢測(cè)出采摘目標(biāo)的情況。通過對(duì)檢測(cè)失敗的視頻進(jìn)行分析,發(fā)現(xiàn)檢測(cè)錯(cuò)誤的情況主要分為兩種:一種是如圖6(a)所示的采摘目標(biāo)與其他果實(shí)到手腕關(guān)節(jié)點(diǎn)的距離差不多的情況;另一種是如圖6(b)所示,手越過近處果實(shí)未采摘而采摘較遠(yuǎn)處的果實(shí)。
圖6未準(zhǔn)確檢測(cè)出采摘目標(biāo)的情況示例 Fig.6Example of a situation where the picking targetwasnotaccuratelydetected
讀取圖6中的采摘目標(biāo)錯(cuò)檢情況所對(duì)應(yīng)的20幀數(shù)據(jù),結(jié)果如表2所示。在圖6所示的情況中,雖然被錯(cuò)檢為采摘目標(biāo)是連續(xù)20幀中最多次距離手腕關(guān)節(jié)點(diǎn)最近的果實(shí),但并非是在檢測(cè)范圍的最后幾幀中檢測(cè)到最近的果實(shí)。說明此時(shí)手腕關(guān)節(jié)點(diǎn)已經(jīng)遠(yuǎn)離該果實(shí),該果實(shí)不應(yīng)該被判斷為采摘目標(biāo)。
由此說明,根據(jù)前述條件并不足以確保對(duì)采摘目標(biāo)的準(zhǔn)確檢測(cè)。因此,需要對(duì)確定采摘目標(biāo)的條件進(jìn)行優(yōu)化,對(duì)其補(bǔ)充條件進(jìn)行進(jìn)一步約束。
通過觀察數(shù)據(jù)集中的采摘?jiǎng)幼鳎梢园l(fā)現(xiàn)在手接觸到采摘目標(biāo)前的一小段時(shí)間內(nèi),采摘目標(biāo)一直是距離手腕關(guān)節(jié)點(diǎn)最近的果實(shí)。將其轉(zhuǎn)化為以下約束條件:對(duì)連續(xù)20幀這一檢測(cè)范圍進(jìn)行劃分,找出前 n 幀中與手腕關(guān)節(jié)點(diǎn)距離最近的頻率最高的果實(shí),將其視為潛在采摘目標(biāo)。在后面的 20-n 幀中,當(dāng)其連續(xù)滿足成為潛在采摘目標(biāo)的條件,則判定為采摘目標(biāo)。采摘目標(biāo)的檢測(cè)流程如圖7所示。
表2圖6所示場(chǎng)景的檢測(cè)數(shù)據(jù) Tab.2Detection data for the scenario shownin figure6
2.4基于設(shè)定狀態(tài)標(biāo)志的采摘目標(biāo)檢測(cè)失效解決方法
通過數(shù)據(jù)集中的視頻數(shù)據(jù)可以發(fā)現(xiàn),在采摘過程中,當(dāng)人手觸及果實(shí)時(shí)往往會(huì)對(duì)果實(shí)造成遮擋,使目標(biāo)檢測(cè)算法無法檢測(cè)出采摘目標(biāo),如圖8(a)所示,進(jìn)而導(dǎo)致丟失對(duì)采摘目標(biāo)的跟蹤,如圖8(b)所示。
圖8采摘目標(biāo)丟失檢測(cè)與跟蹤示例
Fig.8Example of picking target loss detection and tracking
如果繼續(xù)采用前述算法進(jìn)行采摘目標(biāo)的判斷,那此時(shí)檢測(cè)到的距離手腕關(guān)節(jié)點(diǎn)最近的果實(shí)并非采摘目標(biāo),這將導(dǎo)致采摘目標(biāo)檢測(cè)錯(cuò)誤,并將影響到后續(xù)對(duì)摘下果實(shí)進(jìn)行判定的準(zhǔn)確性。
通過對(duì)模型功能需求的分析,發(fā)現(xiàn)在后續(xù)環(huán)節(jié)中只需用到采摘目標(biāo)id這一參數(shù),因此,沒有必要在確定采摘目標(biāo)后繼續(xù)對(duì)其進(jìn)行檢測(cè)。針對(duì)這一問題,設(shè)定不進(jìn)行采摘目標(biāo)檢測(cè)的標(biāo)志Nodetect,以避免模型對(duì)采摘目標(biāo)的誤檢測(cè)。Nodetect值為O時(shí),表示當(dāng)前需要對(duì)采摘目標(biāo)id(即pick_id)進(jìn)行檢測(cè),值為1時(shí)則相反。將Nodetect初始值設(shè)為O。當(dāng)檢測(cè)出pick_id后,將Nodetect的值置為1,表示在本次采摘?jiǎng)幼鬟^程中對(duì)pick_id的檢測(cè)結(jié)束,不再進(jìn)行檢測(cè)。當(dāng)一次采摘?jiǎng)幼鹘Y(jié)束,則將Nodetect的值置O,恢復(fù)到初始狀態(tài),為新一次的采摘?jiǎng)幼鳈z測(cè)做準(zhǔn)備。圖9為在一次采摘行為過程中Nodetect取值的變化情況。
圖9一次采摘行為過程中Nodetect取值的變化情況 Fig.9Changesin Nodetect valuesduring one pickingbehavior
3試驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集制作
由于果實(shí)采摘識(shí)別主要涉及對(duì)人體動(dòng)作以及果實(shí)位置變化的分析,因此,為滿足模型訓(xùn)練的需要,不僅需要建立用于采摘?jiǎng)幼鳈z測(cè)的游客行為視頻數(shù)據(jù)集,還需要構(gòu)建用于果實(shí)目標(biāo)檢測(cè)的果實(shí)圖像數(shù)據(jù)集。
試驗(yàn)果園位于閔行區(qū)浦江鎮(zhèn),以當(dāng)?shù)貜V泛種植的桃子作為研究對(duì)象,采集游客在園中進(jìn)行的采摘等行為活動(dòng)的視頻數(shù)據(jù)。在此基礎(chǔ)上截取桃子圖像,制作桃子圖像數(shù)據(jù)集。
1)采摘園中游客行為視頻數(shù)據(jù)集。試驗(yàn)中,在園中選取不同合適位置設(shè)立支架,搭載攝像機(jī)拍攝以采摘桃子為主的園中游客行為活動(dòng)的視頻。共拍攝120段視頻,其中包含采摘行為的視頻有78段。每段視頻時(shí)長(zhǎng)30s左右,視頻幀率為30幀/s,保存為
MP4格式。為彌補(bǔ)場(chǎng)地的單一性對(duì)人的行為活動(dòng)多樣性造成的限制,在網(wǎng)上搜集合適的視頻對(duì)數(shù)據(jù)集進(jìn)行補(bǔ)充。在網(wǎng)上下載281個(gè)在采摘果園環(huán)境中的包含游客的視頻。通過人工挑選,篩除鏡頭切換太頻繁導(dǎo)致單一個(gè)體出鏡時(shí)間太短無法判斷其行為以及個(gè)體雙手全被遮擋無法判斷手部活動(dòng)等情況的視頻。保留符合要求的有效視頻數(shù)據(jù)89個(gè)。此視頻數(shù)據(jù)集共包含209個(gè)視頻,部分視頻示例如圖10所示,其中包含采摘行為的有126個(gè),采摘?jiǎng)幼鞴灿?jì)278次。其他不包含采摘行為的視頻大致分類及對(duì)應(yīng)數(shù)量如下:走路視頻32個(gè),整理東西視頻21個(gè),其他行為視頻30個(gè)。
圖10視頻數(shù)據(jù)集中部分視頻示例 Fig.10Selected video examples from the video dataset
2)桃子圖像數(shù)據(jù)集。首先,從以上視頻數(shù)據(jù)集中截取包含桃子的圖像,得到果園環(huán)境中桃子圖像1268幅。然后,使用LabelImg軟件對(duì)這些圖像中的桃子果實(shí)位置進(jìn)行標(biāo)注。標(biāo)注時(shí),對(duì)于肉眼無法清楚判斷是否存在果實(shí)的模糊像素點(diǎn)不進(jìn)行標(biāo)注。標(biāo)注后得到的xml文件包含桃子果實(shí)的中心坐標(biāo)、寬、高信息。為增加圖像的多樣性,避免模型在訓(xùn)練時(shí)發(fā)生過擬合的情況,采用數(shù)據(jù)增強(qiáng)的方式對(duì)圖像進(jìn)行擴(kuò)增。采用水平翻轉(zhuǎn)、旋轉(zhuǎn)角度、隨機(jī)顏色、對(duì)比度增強(qiáng)和顏色增強(qiáng)的數(shù)據(jù)增強(qiáng)方法,效果如圖11所示。
圖11數(shù)據(jù)集數(shù)據(jù)增強(qiáng)示例Fig.1l Example of dataset data enhancement
采用數(shù)據(jù)增強(qiáng)方式擴(kuò)增后得到7608幅圖像及其對(duì)應(yīng)的 xml 文件。由于YOLO系列算法在訓(xùn)練時(shí)需要txt格式的標(biāo)注文件,因此,通過python編程將 xml 文件轉(zhuǎn)化為txt文件。將其與對(duì)應(yīng)的圖像作為本試驗(yàn)的桃子圖像數(shù)據(jù)集,并按照 8:2 的比例將其劃分成訓(xùn)練集與測(cè)試集。
3.2試驗(yàn)平臺(tái)與評(píng)價(jià)指標(biāo)
試驗(yàn)硬件環(huán)境:CPU為i7一12700H,GPU為NVIDIARTX3060。操作系統(tǒng)為Windows10,基于PyTorch1.7平臺(tái)實(shí)現(xiàn)對(duì)模型的構(gòu)建與訓(xùn)練。軟件工具為PyCharm2021,編程語言為Python3.7。并在Anaconda虛擬環(huán)境中安裝OpenCV等依賴庫,搭建試驗(yàn)環(huán)境。
對(duì)采摘行為識(shí)別模型最重要的評(píng)價(jià)標(biāo)準(zhǔn)是算法識(shí)別的準(zhǔn)確性,并且針對(duì)已有模型的改進(jìn)方法也是為了提高對(duì)采摘行為識(shí)別的準(zhǔn)確性。因此,在試驗(yàn)中以算法識(shí)別的準(zhǔn)確性作為主要評(píng)價(jià)標(biāo)準(zhǔn),評(píng)估提出方法的有效性。在采摘識(shí)別問題中可以用查準(zhǔn)率 P 、查全率R 兩個(gè)指標(biāo)來衡量識(shí)別結(jié)果的準(zhǔn)確性。查準(zhǔn)率 P 和查全率 R 計(jì)算如式(3)和式(4)所示。
式中: TP 一 實(shí)際為正樣本且被檢測(cè)為正樣本的數(shù)量;FP 實(shí)際為負(fù)樣本但被檢測(cè)為正樣本的數(shù)量;FN 實(shí)際為正樣本但被檢測(cè)為負(fù)樣本的數(shù)量。
提出的方法按照功能順序分別為基于人體關(guān)節(jié)角度的采摘姿態(tài)判定方法(用于采摘姿態(tài)識(shí)別)、基于最近鄰檢索的采摘目標(biāo)確定方法及其優(yōu)化(用于判定采摘目標(biāo))、基于設(shè)定狀態(tài)標(biāo)志的采摘目標(biāo)檢測(cè)失效解決方法(人手遮擋誤檢測(cè)抑制)3個(gè)功能步驟。為驗(yàn)證提出的方法在實(shí)際采摘果園應(yīng)用場(chǎng)景中的使用效果,按照功能步驟。
3.3識(shí)別采摘姿態(tài)的不同方法比較
試驗(yàn)對(duì)采用不同方法識(shí)別采摘姿態(tài)的準(zhǔn)確性進(jìn)行對(duì)比。傳統(tǒng)上對(duì)人體姿態(tài)進(jìn)行識(shí)別是根據(jù)人體關(guān)節(jié)點(diǎn)外接矩形框的寬高比值范圍對(duì)人體姿態(tài)進(jìn)行判定?;谧灾茢?shù)據(jù)集對(duì)采摘姿態(tài)的人體框?qū)捀弑戎颠M(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)對(duì)于采摘姿態(tài)該值范圍為(0.38,0.45),寬高比算法可以達(dá)到最佳效果,因而,在試驗(yàn)中以此作為寬高比算法采摘姿態(tài)的判定條件。提出的方法為采用基于關(guān)節(jié)點(diǎn)角度的方法對(duì)采摘姿態(tài)進(jìn)行判定,當(dāng)前臂與水平線夾角的正弦值 sinθgt;0.6 時(shí),則判定為采摘姿態(tài)。
采用視頻數(shù)據(jù)集中的全部視頻進(jìn)行試驗(yàn),以查準(zhǔn)率 P 和查全率 R 作為衡量不同方法識(shí)別準(zhǔn)確性的指標(biāo)。在試驗(yàn)中將 TP 定義為實(shí)際為采摘姿態(tài)且被識(shí)別為采摘姿態(tài)的次數(shù), FP 定義為實(shí)際為其他姿態(tài)但被識(shí)別為采摘姿態(tài)的次數(shù), FN 定義為實(shí)際為采摘姿態(tài)但未被識(shí)別為采摘姿態(tài)的次數(shù)。結(jié)果如表3所示。
表3采用不同方法識(shí)別采摘姿態(tài)的結(jié)果Tab.3Results ofusingdifferent methodstoidentify picking gestures
由表3可知,采用人體框?qū)捀弑确椒ㄗR(shí)別采摘姿態(tài)的查準(zhǔn)率 P 顯著低于本文方法。結(jié)合式(3)與表3可知,此處查準(zhǔn)率 P 較低,主要是由 FP 較高引起的。而FP 較高,說明該方法將許多其他姿態(tài)誤識(shí)別為采摘姿態(tài)。圖12(a)~圖12(c展示了采用人體框?qū)捀弑确椒ǘ`將其他姿態(tài)判定為采摘姿態(tài)的例子。從這3個(gè)錯(cuò)誤示例可以看出,僅根據(jù)人體關(guān)節(jié)點(diǎn)外接矩形的寬高比這一條件不足以界定采摘姿態(tài),因?yàn)檫€有許多其他姿態(tài)也可以對(duì)應(yīng)到采摘姿態(tài)的人體關(guān)節(jié)點(diǎn)外接矩形寬高比范圍中。說明該方法的判定條件難以有效區(qū)分采摘?jiǎng)幼髋c其他動(dòng)作。另外,現(xiàn)實(shí)情況下往往存在設(shè)備未能完整采集到人體圖像的問題,如圖12(c)所示,嚴(yán)重干擾到此種方法的檢測(cè)結(jié)果,說明該方法難以應(yīng)用到復(fù)雜的實(shí)際場(chǎng)景中。
圖12不同方法對(duì)采摘姿態(tài)的識(shí)別結(jié)果對(duì)比 Fig.12 Comparison of the recognition results of different methods for picking gesture
圖12(d)~圖12(f展示本方法在相應(yīng)視頻上的識(shí)別結(jié)果。結(jié)果顯示,對(duì)于采用人體框?qū)捀弑确椒ㄎ茨軠?zhǔn)確判定的姿態(tài),本方法均可正確判定。相比之下,本文基于關(guān)節(jié)點(diǎn)角度的判定方法與采摘姿態(tài)的契合度更強(qiáng),因而,在查準(zhǔn)率和查全率指標(biāo)上的表現(xiàn)更佳。
3.4判定采摘目標(biāo)的不同方法比較
試驗(yàn)對(duì)采用不同方法進(jìn)行采摘目標(biāo)判定的準(zhǔn)確性進(jìn)行對(duì)比。采摘自標(biāo)的判定問題實(shí)質(zhì)上是判定人手是否接觸物體問題的延伸。以往對(duì)人手接觸物體的判定方法主要有基于手腕與目標(biāo)物體之間的距離與交并比這兩種。將其應(yīng)用到判定人手是否接觸果實(shí)的問題上,以上兩種方法可以進(jìn)一步描述:前者是當(dāng)手腕關(guān)節(jié)點(diǎn)與目標(biāo)物體中心的距離小于預(yù)設(shè)參照物的尺寸時(shí),判定人手接觸該物體;后者以手腕關(guān)節(jié)點(diǎn)為中心自設(shè)矩形框,當(dāng)手腕矩形框與目標(biāo)物體的交并比值超過設(shè)定閾值時(shí),判定人手接觸該物體。所提出的方法是基于最近鄰檢索算法找出距離手腕關(guān)節(jié)點(diǎn)最近的果實(shí),在此基礎(chǔ)上進(jìn)行人手接觸果實(shí)的判定。
采用兩種傳統(tǒng)方法進(jìn)行試驗(yàn)時(shí),需要對(duì)其涉及的參數(shù)設(shè)定合適參數(shù)值。采用距離與參照物尺寸進(jìn)行對(duì)比的方法需要選取參照物并確定其尺寸,沿用以往方法中以人手作為參照物并取前臂長(zhǎng)度的一半來代表人手長(zhǎng)度的做法。采用交并比值與閾值對(duì)比方法需要選取自設(shè)矩形框的邊長(zhǎng)和交并比的閾值,自設(shè)矩形框的邊長(zhǎng)可沿用以往方法選定為手長(zhǎng)的2倍,而交并比的閾值則需要結(jié)合實(shí)際統(tǒng)計(jì)來進(jìn)行選取。為此,通過在數(shù)據(jù)集上進(jìn)行試驗(yàn)與統(tǒng)計(jì),發(fā)現(xiàn)在采摘行為中,以手腕關(guān)節(jié)點(diǎn)為中心的自設(shè)矩形框與目標(biāo)果實(shí)的檢測(cè)框二者的交并比值一般大于0.9。因此,選取0.9作為該方法的交并比閾值。
以上討論的是判定手是否接觸果實(shí)問題的3種方法,應(yīng)進(jìn)一步轉(zhuǎn)化使其可應(yīng)用于解決采摘目標(biāo)判定問題。采用3種方法進(jìn)行采摘目標(biāo)判定的具體試驗(yàn)方案:以發(fā)生采摘舉手動(dòng)作作為采摘行為的開端,在此基礎(chǔ)上進(jìn)行采摘目標(biāo)的確定。以發(fā)生采摘舉手動(dòng)作后的連續(xù)20幀作為采摘目標(biāo)檢測(cè)范圍,3種方法各自對(duì)應(yīng)采摘目標(biāo)的判定條件如表4所示。
表4不同方法對(duì)采摘目標(biāo)的判定條件Tab.4Judgment conditions of different methods forpicking targets
由表5可知,采用前兩種方法對(duì)采摘目標(biāo)的判定都存在查全率高而查準(zhǔn)率低的問題。通過追溯采用這兩種方法而未被正確判定采摘目標(biāo)的視頻,對(duì)查準(zhǔn)率低的原因進(jìn)行分析。圖13選取試驗(yàn)采取的不同方法在2個(gè)典型場(chǎng)景下的檢測(cè)結(jié)果進(jìn)行展示。這2個(gè)場(chǎng)景的最大差別在于果實(shí)目標(biāo)大小以及人的手臂長(zhǎng)短。在第1個(gè)場(chǎng)景中,采用方法1,有兩個(gè)果實(shí)滿足判定條件,這是因?yàn)檫@兩個(gè)果實(shí)距離手腕關(guān)節(jié)點(diǎn)都比較近;而采用方法2和方法3都只確定了1個(gè)果實(shí)目標(biāo)。在第2個(gè)場(chǎng)景中,采用方法2,有2個(gè)果實(shí)滿足判定條件,這是由于在此場(chǎng)景中果實(shí)目標(biāo)較小而且人的手臂較長(zhǎng),使交并比的值較大,易達(dá)到設(shè)定閾值。而采用方法1和方法3都只確定1個(gè)果實(shí)目標(biāo)。
表5采用不同方法判定采摘目標(biāo)的試驗(yàn)結(jié)果 Tab.5Experimental results ofusingdifferent methods to determine picking targets
圖13不同方法在兩種典型場(chǎng)景下的試驗(yàn)結(jié)果 Fig.13Experimental resultsof different methods in two typical scenarios
通過以上分析可知,若采用前兩種方法,無論如何選取參照物與閾值,在真實(shí)場(chǎng)景下都可能存在不止1個(gè)果實(shí)滿足此條件。結(jié)合到本文具體問題,這樣就容易將其他果實(shí)誤判為采摘目標(biāo)。說明手接觸果實(shí)的判定問題在轉(zhuǎn)化為采摘目標(biāo)的確定問題時(shí),還需要考慮檢測(cè)結(jié)果的唯一性這一因素。相比之下,本文提出的基于最近鄰檢索的方法,使每幀滿足條件的果實(shí)對(duì)象具有唯一性,有效彌補(bǔ)了前述方法的不足,更有利于準(zhǔn)確檢測(cè)采摘目標(biāo)。表5從數(shù)據(jù)方面驗(yàn)證本文方法的檢測(cè)準(zhǔn)確性較高,在查準(zhǔn)率和查全率上的表現(xiàn)較好。
3.5模型Nodetect狀態(tài)標(biāo)志對(duì)采摘目標(biāo)檢測(cè)的影響設(shè)定Nodetect狀態(tài)標(biāo)志是為避免人手遮擋導(dǎo)致模型對(duì)采摘目標(biāo)的誤檢測(cè)。為驗(yàn)證該方法的有效性,在試驗(yàn)中對(duì)Nodetect狀態(tài)標(biāo)志設(shè)定與否對(duì)模型檢測(cè)采摘目標(biāo)的準(zhǔn)確性進(jìn)行對(duì)比。
由于試驗(yàn)要考察的也是采摘目標(biāo)檢測(cè)的準(zhǔn)確性,因此,試驗(yàn)的視頻范圍、參數(shù)定義以及評(píng)價(jià)指標(biāo)皆與3.4節(jié)中的試驗(yàn)設(shè)定相同。由表6可知,若不設(shè)定Nodetect狀態(tài)標(biāo)志,即使模型可以檢測(cè)出每個(gè)視頻中正確的采摘目標(biāo),但也會(huì)將許多非采摘對(duì)象的果實(shí)誤識(shí)別為采摘目標(biāo)。即在一次采摘過程中,模型可能會(huì)檢測(cè)出多個(gè)采摘目標(biāo),將嚴(yán)重影響到后續(xù)果實(shí)摘下判定環(huán)節(jié)的正確執(zhí)行。
表6設(shè)定狀態(tài)標(biāo)志與否對(duì)采摘目標(biāo)檢測(cè)的影響 Tab.6Effect of setting status flags or not on pickingtarget detection
圖14展示以上2種方法在采摘目標(biāo)受遮擋的同一視頻上的試驗(yàn)結(jié)果。圖14(a)反映采用不設(shè)定Nodetect狀態(tài)標(biāo)志方法時(shí),當(dāng)2號(hào)采摘目標(biāo)受到人手遮擋丟失目標(biāo)檢測(cè)與目標(biāo)跟蹤后,模型將3號(hào)果實(shí)錯(cuò)判為采摘目標(biāo)。圖14(b)反映采用設(shè)定Nodetect狀態(tài)標(biāo)志的方法時(shí),當(dāng)檢測(cè)出采摘目標(biāo)后就不再對(duì)其進(jìn)行檢測(cè),可以有效避免對(duì)采摘目標(biāo)誤判的情況,確保采摘行為識(shí)別后續(xù)環(huán)節(jié)可以讀取到正確的采摘目標(biāo)信息以進(jìn)行下一步操作。
圖14設(shè)定狀態(tài)標(biāo)志與否的試驗(yàn)結(jié)果對(duì)比 Fig.14 Comparison of experimental results with and without setting status flags
4系統(tǒng)設(shè)計(jì)及現(xiàn)場(chǎng)測(cè)試
為進(jìn)一步在真實(shí)情境中對(duì)上述方法進(jìn)行實(shí)際使用效果測(cè)試,并實(shí)現(xiàn)對(duì)采摘園中的游客采摘行為的智能化監(jiān)督管理,基于上述采摘識(shí)別模型,設(shè)計(jì)桃子采摘園智慧監(jiān)管系統(tǒng)。
該系統(tǒng)由螢石監(jiān)控?cái)z像頭(CS一H5)、螢石云平臺(tái)和上位機(jī)三部分組成。監(jiān)控?cái)z像頭負(fù)責(zé)采集采摘園現(xiàn)場(chǎng)圖像數(shù)據(jù),通過Wi-Fi或有線網(wǎng)絡(luò)將圖像數(shù)據(jù)輸送到云平臺(tái);云平臺(tái)可以實(shí)現(xiàn)攝像頭與上位機(jī)端的圖像數(shù)據(jù)傳輸;上位機(jī)端向云端發(fā)送請(qǐng)求獲取視頻數(shù)據(jù),采用訓(xùn)練好的采摘識(shí)別算法對(duì)獲取的視頻圖像進(jìn)行檢測(cè)。本系統(tǒng)的網(wǎng)絡(luò)拓?fù)鋱D如圖15所示。當(dāng)系統(tǒng)識(shí)別出采摘行為后,將采摘信息(如人數(shù)、采摘次數(shù)等)與檢測(cè)后的視頻圖像展示在系統(tǒng)用戶界面上,并將采摘信息數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫中,以便管理人員進(jìn)行數(shù)據(jù)分析。
圖15系統(tǒng)網(wǎng)絡(luò)拓?fù)鋱DFig.15 System network topology diagram
由于現(xiàn)實(shí)場(chǎng)景中存在對(duì)歷史和實(shí)時(shí)2種形式視頻文件中采摘行為的檢測(cè)需求,因此,該系統(tǒng)在工作流程方面提供2種選擇,如圖16所示。
圖16系統(tǒng)功能實(shí)現(xiàn)流程Fig.16Flow chart of system function implementation
選擇一,系統(tǒng)通過運(yùn)用云平臺(tái)的人像告警功能,使上位機(jī)端訪問云平臺(tái)獲取告警視頻。待用戶需要時(shí)可選取相應(yīng)的歷史告警視頻進(jìn)行采摘識(shí)別檢測(cè)。選擇二,如果用戶需要實(shí)時(shí)監(jiān)控現(xiàn)場(chǎng)是否發(fā)生采摘行為,則上位機(jī)系統(tǒng)通過訪問攝像頭在螢石云平臺(tái)的直播源地址獲取實(shí)時(shí)視頻流,通過采摘識(shí)別算法對(duì)捕獲到的視頻流進(jìn)行檢測(cè)。系統(tǒng)將檢測(cè)到的采摘行為信息展示在系統(tǒng)用戶界面上,并連同其他相關(guān)信息一同存人數(shù)據(jù)庫。
在閔行區(qū)某桃子采摘園進(jìn)行系統(tǒng)功能測(cè)試。首先,對(duì)兩種不同視頻輸入源的系統(tǒng)檢測(cè)效果進(jìn)行測(cè)試。當(dāng)監(jiān)控區(qū)域有人出現(xiàn)時(shí),云平臺(tái)向用戶端發(fā)送告警信息,并且對(duì)該監(jiān)控區(qū)域錄像。而錄像視頻的保存名稱為視頻錄制的起始時(shí)間。當(dāng)用戶收到有人進(jìn)入監(jiān)控區(qū)域的告警消息后,用戶可根據(jù)實(shí)際需求,在上位機(jī)應(yīng)用上選擇歷史視頻中相應(yīng)的視頻文件。然后,選擇模型權(quán)重文件,點(diǎn)擊界面的運(yùn)行按鈕,系統(tǒng)將展示檢測(cè)后的視頻圖像、視頻文件信息和檢測(cè)結(jié)果。圖17為歷史視頻的檢測(cè)結(jié)果展示。如果用戶想要實(shí)時(shí)監(jiān)控現(xiàn)場(chǎng)是否發(fā)生采摘行為,則點(diǎn)擊用戶界面上的實(shí)時(shí)視頻對(duì)想要查看的監(jiān)控區(qū)域?qū)?yīng)的攝像頭編號(hào)進(jìn)行選擇,其他操作同上。圖18為實(shí)時(shí)視頻的檢測(cè)結(jié)果。
對(duì)基于果樹采摘行為識(shí)別方法的采摘園智慧監(jiān)管系統(tǒng)的識(shí)別準(zhǔn)確性進(jìn)行測(cè)試。在攝像頭視場(chǎng)范圍內(nèi)進(jìn)行500次隨機(jī)動(dòng)作的果樹果實(shí)采摘行為及200次隨機(jī)采摘干擾動(dòng)作(如整理東西、隨意走動(dòng)等)。測(cè)試結(jié)果表明,除有3次因?yàn)殓R頭被飛蟲等遮擋導(dǎo)致系統(tǒng)未能讀取到清晰完整畫面,因而未能識(shí)別采摘行為之外,剩余采摘行為都被成功識(shí)別。而200次采摘干擾動(dòng)作都沒有被誤判為采摘?jiǎng)幼鳌?/p>
5結(jié)論
1)將深度學(xué)習(xí)技術(shù)引入到農(nóng)業(yè)環(huán)境中對(duì)人體姿態(tài)進(jìn)行識(shí)別,基于深度學(xué)習(xí)技術(shù)的采摘行為識(shí)別中存在3個(gè)重要的判定環(huán)節(jié),分別是采摘姿態(tài)判別、采摘目標(biāo)的判定和果實(shí)摘下判定。
2)傳統(tǒng)對(duì)人體姿態(tài)判別方法的研究主要考慮人體骨架的整體變化情況。對(duì)于采摘果園場(chǎng)景中的采摘行為,對(duì)采摘姿態(tài)的判別應(yīng)考慮選擇更有針對(duì)性的約束條件。針對(duì)樹上果實(shí)的采摘行為,采摘姿態(tài)明顯不同于其他姿態(tài),因此,應(yīng)找到有效區(qū)分采摘姿態(tài)與其他姿態(tài)的判別方法。通過設(shè)定關(guān)節(jié)角度的方法,對(duì)游客不同活動(dòng)的關(guān)節(jié)角度變化情況進(jìn)行分析,提出一種通過關(guān)節(jié)角度判定采摘姿態(tài)的方法。通過與傳統(tǒng)人體姿態(tài)判別方法的試驗(yàn)對(duì)比可知,基于人體關(guān)節(jié)角度的姿態(tài)判別方法能夠更準(zhǔn)確地識(shí)別采摘姿態(tài),查準(zhǔn)率提高 16% 。
3)采摘目標(biāo)的判定實(shí)質(zhì)上是一個(gè)對(duì)人手與果實(shí)位置關(guān)系進(jìn)行考量的問題。傳統(tǒng)對(duì)人手與物體接觸情況的研究主要基于手腕與目標(biāo)物體之間的距離或交并比的方法進(jìn)行衡量。對(duì)于采摘識(shí)別場(chǎng)景中的果實(shí)目標(biāo),采摘目標(biāo)的確定應(yīng)著重考慮唯一性,因此,應(yīng)找到一種可以在每一幀的檢測(cè)中匹配到唯一果實(shí)的約束條件。針對(duì)采摘行為中人手與果實(shí)的位置關(guān)系,提出一種新型基于手腕與果實(shí)之間距離關(guān)系的采摘目標(biāo)確定方法。針對(duì)現(xiàn)實(shí)場(chǎng)景中的手腕與果實(shí)的復(fù)雜位置關(guān)系,對(duì)該方法進(jìn)行優(yōu)化。通過與傳統(tǒng)對(duì)人手接觸物體對(duì)象的判別方法對(duì)比可知,優(yōu)化后基于距離的新型方法能夠更準(zhǔn)確地判定采摘目標(biāo),查準(zhǔn)率提高 11% 。
4)在以上采摘目標(biāo)的判定環(huán)節(jié)中,還存在人手遮擋導(dǎo)致采摘目標(biāo)錯(cuò)檢的問題,該問題將影響后續(xù)果實(shí)摘下判定環(huán)節(jié)的正確判定??紤]通過設(shè)定狀態(tài)標(biāo)志的方法,避免由于果實(shí)目標(biāo)檢測(cè)失效影響到最后的采摘行為判定結(jié)果。試驗(yàn)結(jié)果表明,該狀態(tài)標(biāo)志的設(shè)定可有效避免對(duì)采摘目標(biāo)的誤判,查準(zhǔn)率提高 39% 。
參考文獻(xiàn)
[1]徐磊,陳超.中國桃產(chǎn)業(yè)經(jīng)濟(jì)分析與發(fā)展趨勢(shì)[J].果樹學(xué)報(bào),2023,40(1):133—143.
[2]滕光輝,冀橫溢,莊晏榕,等.深度學(xué)習(xí)在豬只飼養(yǎng)過程的應(yīng)用研究進(jìn)展[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(14):235—249.TengGuanghui,Ji Hengyi,Zhuang Yanrong,etal.Research progress of deep learning in the process of pigfeeding[J].Transactions ofthe Chinese SocietyofAgriculturalEngineering,2022,38(14):235—249.
[3]翟肇裕,曹益飛,徐煥良,等.農(nóng)作物病蟲害識(shí)別關(guān)鍵技術(shù)研究綜述[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(7):1-18.Zhai Zhaoyu,Cao Yifei,Xu Huanliang,et al. Reviewof key techniques for crop disease and pest detection [J].Transactions of the Chinese Society for AgriculturalMachinery,2021,52(7):1-18.
[4]李菊霞,李艷文,牛帆,等.基于YOLOv4 的豬只飲食行為檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(3):251—256.Li Juxia, Li Yanwen, Niu Fan, etal. Pig dietbehavior detection method based on YOLOv4 [J].Transactions of the Chinese Society for AgriculturalMachinery,2021,52(3):251-256.
[5]胡志偉,楊華,婁甜田.采用雙重注意力特征金字塔網(wǎng)絡(luò)檢測(cè)群養(yǎng)生豬[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37(5):166-174.Hu Zhiwei,Yang Hua,Lou Tiantian.Instance detectionof group breeding pigs using a pyramid network withdual attention feature [J]. Transactions of the Chinese Societyof Agricultural Engineering,2021,37(5):166—174.
[6]彭明霞,夏俊芳,彭輝.融合FPN的FasterR—CNN復(fù)雜背景下棉田雜草高效識(shí)別方法[J].農(nóng)業(yè)工程學(xué)報(bào),2019,35(20):202—209.Peng Mingxia,Xia Junfang,Peng Hui. Efficient recognitionofcotton and weed in field based on Faster R—CNN byintegrating FPN [J].Transactions of the Chinese Society ofAgricultural Engineering,2019,35(20):202—209.
[7]劉莫塵,高甜甜,馬宗旭,等.基于MSRCR—YOLOv4一tiny的田間玉米雜草檢測(cè)模型[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2022,53(2):246—255,335.Liu Mochen, GaoTiantian, Ma Zongxu,etal.Target detection model of corn weeds in field environmentbased on MSRCR algorithm and YOLOv4—tiny [J].Transactions of the Chinese Society for AgriculturalMachinery,2022,53(2):246—255,335.
[8]鮑文霞,孫慶,胡根生,等.基于多路卷積神經(jīng)網(wǎng)絡(luò)的大田小麥赤霉病圖像識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2020,36(11):174—181.Bao Wenxia,Sun Qing,Hu Gensheng,et al.Imagerecognition of fieldwheat scab based onmulti-wayconvolutional neural network [J]. Transactions of theChinese Society of Agricultural Engineering,2020, 36(11):174—181.
[9]甘雨,郭慶文,王春桃,等.基于改進(jìn)EfficientNet 模型的作物害蟲識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2022,38(1):203—211.GanYu,GuoQingwen,WangChuntao,etal.Recognizing crop pestsusing an improvedEfficientNetmodel [J]. Transactions of the Chinese Society of AgriculturalEngineering,2022,38(1):203—211.
[10] Dyrmann M,Jorgensen R N,Midtiby H S. Roboweed support detectionof weed locations in leafoccluded cerealcropsusinga fullyconvolutionalneural network [J]. Advances in Animal Biosciences,2017,8(2): 842-847.
[11] Amara J,Bouaziz B,Algergawy A. A deep learningbased approach for banana leaf diseases classification [C].Datenbanksysteme Iur Business, Technologie und Web(BTW 2Ol7)-Workshopband.Gesellschaft fur InformatikeV,2017:79-88.
[12]VeeraballiRK,Nagugari M S,et al.Deep learningbased approach for classification and detection of papayaleaf diseases [C]. 18th International Conference onIntelligent Systems Design and Applications, 2020.
[13]彭紅星,黃博,邵園園,等.自然環(huán)境下多類水果采摘目標(biāo)識(shí)別的通用改進(jìn) SSD模型[J].農(nóng)業(yè)工程學(xué)報(bào),2018,34(16):155—162.Peng Hongxing,Huang Bo,Shao Yuanyuan,et al.Generalimproved SSD model forpickingobjectrecognition of multiple fruits in natural environment [J].Transactions of the Chinese Society of AgriculturalEngineering,2018,34(16):155-162.
[14]穆龍濤,高宗斌,崔永杰,等.基于改進(jìn) AlexNet 的廣域復(fù)雜環(huán)境下遮擋獼猴桃目標(biāo)識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2019,50(10):24—34.MuLongtao,GaoZongbin, CuiYongjie, etal.Kiwifruit detection offar-view and occluded fruit basedon improved AlexNet [J].Transactions of the Chinese Societyfor Agricultural Machinery,2019,50(10):24-34.
[15]劉芳,劉玉坤,林森,等.基于改進(jìn)型 YOLO的復(fù)雜環(huán)境下番茄果實(shí)快速識(shí)別方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(6):229-237.LiuFang, Liu Yukun, Lin Sen, etal. Fastrecognitionmethod for tomatoes undercomplexenvironments based on improved YOLO [J].Transactions of the Chinese Society for AgriculturalMachinery,2020,51(6):229-237.
[16] Rahnemoonfar M, Sheppard C. Deep count:Fruitcounting based on deep simulated learning [J]. Sensors,2017,17(4):905.
[17] Koirala A,Walsh K B,Wang Z,et al. Deep learningforreal-time fruit detection and orchard fruit loadestimation:Benchmarking of‘MangoYOLO’[J].Precision Agriculture,2019,20(6):1107—1135.
[18] Kestur R,Meduri A,Narasipura O. MangoNet: Adeep semantic segmentation architecture for a methodto detect and count mangoes in an open orchard [J].Engineering Applications of Artificial Intelligence,2019,77:59-69.
[19] Redmon J, Farhadi A. YOLOv3: An incrementalimprovement [J]. Computer Science,2018,4(1): 1-6
[20] Cao Z,Hidalgo G, Simon T, etal.OpenPose:Realtime multi-person 2D pose estimation using part affinityfields [J]. IEEE Transactions on Pattern AnalysisandMachine Intellgence,2021,43(1):172—186.
[21] Wojke N, Bewley A, Paulus D. Simple online andrealtime tracking with a deep association metric [C].IEEE International Conference on Image Processing,2018:3645-3649.