張軍凱,李 欣,韓俊先,趙 娟,程龍雪
(河北機電職業(yè)技術(shù)學(xué)院 電氣工程系,河北 邢臺 054000)
蘋果作為一種深受大眾喜愛的水果,在我國種植面積廣泛,但由于蘋果生長位置較高,需要進行登高采摘,勞動強度較大[1-2]。隨著城鎮(zhèn)化進程的加劇,大量的農(nóng)村勞動力涌入城鎮(zhèn)就業(yè),從事農(nóng)業(yè)生產(chǎn)的人口規(guī)模逐漸減小[3],故缺乏勞動力和高強度的蘋果采摘勞動形成了一對鮮明的矛盾,而實現(xiàn)蘋果采摘自動化成為解決該矛盾的有效手段。目前,蘋果采摘系統(tǒng)廣泛采用圖像識別技術(shù)。傳統(tǒng)的圖像識別需要將圖像進行灰度化處理和圖像分割,進而確定蘋果位置[4-5];但不同天氣的光照強度直接影響著圖像分割精度,故傳統(tǒng)的圖像識別技術(shù)不能有效適應(yīng)所有地形和天氣情況。本系統(tǒng)基于改進型深度學(xué)習(xí)網(wǎng)絡(luò),具有很強的環(huán)境適應(yīng)能力[6-7],同時改進型深度學(xué)習(xí)網(wǎng)絡(luò)可以有效降低學(xué)習(xí)樣本量,提高識別經(jīng)度;采用單目視覺系統(tǒng)和激光測距器可實現(xiàn)蘋果定位,采用雙反饋系統(tǒng)對采摘機械臂進行控制。測試結(jié)果表明,系統(tǒng)具有良好的圖像識別精度和采摘機械手控制精度。
為了實現(xiàn)蘋果的自動化采摘,基于深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計了蘋果自動采摘系統(tǒng),如圖1所示。其中,電瓶為整個系統(tǒng)供電,中央控制器完成行走系控制、機械臂控制和深度圖像識別與目標蘋果定位。中央控制器通過后輪驅(qū)動器和前輪驅(qū)動器控制后驅(qū)動輪和前驅(qū)動輪,實現(xiàn)采摘系統(tǒng)的移動;機械臂通過水平舵機實現(xiàn)水平轉(zhuǎn)動,大臂舵機和小臂舵機實現(xiàn)采摘機械臂的關(guān)節(jié)運動,小臂伸長氣缸實現(xiàn)采摘終端的前后移動,采摘終端配有采摘器、攝像頭和激光測距器。
工作時,攝像頭采集蘋果圖像,在中央控制器完成深度學(xué)習(xí),識別圖像中蘋果區(qū)域;激光測距器完成距離測定,進而實現(xiàn)目標蘋果圖像坐標向空間坐標的轉(zhuǎn)換;根據(jù)視覺定位系統(tǒng)得到的目標蘋果空間坐標位置,中央控制器調(diào)整機械臂舵機與氣缸伸長量,完成采摘終端向目標蘋果的轉(zhuǎn)移,實現(xiàn)采摘;中央控制器控制行走底盤,向下一處采摘地點轉(zhuǎn)移。
圖1 系統(tǒng)組成Fig.1 Structure of system
CCD攝像頭采集圖像是進行整個分析過程的基礎(chǔ),但由于光照強度及天氣等原因會對采集到的圖像造成干擾,因此需要對CCD攝像頭采集的圖像進行濾波處理,降低自然環(huán)境因素對于圖像的影響。
CCD攝像頭采集到的蘋果枝頭的圖像如圖2(a)所示。由于光照的影響,在蘋果葉片邊緣出現(xiàn)模糊,同時蘋果的果實上出現(xiàn)葉片影子的暗區(qū)域以及陽光直射造成的明亮區(qū)域。采用目前的主流降噪方法(即均值濾波、高斯濾波和中值濾波)對圖像進行預(yù)處理,均值濾波[8]結(jié)果如圖2(b)所示。由圖2(b)可知:整張圖片明顯發(fā)亮,對于蘋果果實上的暗區(qū)域和亮區(qū)域調(diào)整效果明顯,但整張圖像趨于模糊。高斯濾波[9]結(jié)果如圖2(c)所示。由圖2(c)可知:葉片邊界趨于清晰,果實整體色調(diào)趨于統(tǒng)一。中值濾波[10]結(jié)果如圖2(d)所示。由圖2(d)可知:葉片邊緣出現(xiàn)模糊情況,同時果實存在色調(diào)、亮度不統(tǒng)一問題。因此,選用高斯濾波作為圖像預(yù)處理算法。
圖2 圖像預(yù)處理Fig.2 The preprocessing for image
傳統(tǒng)的圖像識別技術(shù)是將圖像灰度化處理后進行圖像分割,進而得到圖像的邊界信息,整個過程采用灰度化算法、二值化算法和邊界算法固定,對環(huán)境變化的適應(yīng)能力差;深度學(xué)習(xí)的圖像識別技術(shù)是在全彩色狀態(tài)下對圖像進行分析,具有自主識別的特點,深度學(xué)習(xí)算法具有適應(yīng)能力強、準確度高的特點。因此,本系統(tǒng)在經(jīng)典VGG16深度學(xué)習(xí)網(wǎng)絡(luò)[11-12]上進行優(yōu)化,以提高識別速度和精度。
傳統(tǒng)卷積深度學(xué)習(xí)網(wǎng)絡(luò)分為卷積層、池化層、全連接層等。其中,卷積層作用為輸入圖像和卷積核進行卷積運算得到的結(jié)果,在池化層完成圖像降維,實現(xiàn)特征的提取;卷積層、池化層進行多次重復(fù)設(shè)置,最終實現(xiàn)圖像特征提取,在全連接層特征圖像得到整合,進而完成圖像特征提取[13-14]。
建立整個網(wǎng)絡(luò)的損失函數(shù),用來表征預(yù)測值與實際值的差距。輸入圖像從輸入層進入網(wǎng)絡(luò),經(jīng)歷多個卷積層和池化層后,在全連接層實現(xiàn)圖像特征提取,同時計算損失函數(shù),完成正向?qū)W習(xí)過程;利用損失函數(shù)對每個卷積層參量進行梯度計算,得到結(jié)果用于優(yōu)化卷積層參量,完成逆向?qū)W習(xí)。
目前,主流的深度學(xué)習(xí)網(wǎng)絡(luò)為VGG16網(wǎng)絡(luò),其網(wǎng)絡(luò)特點為卷積層和池化層結(jié)構(gòu)單一,由16層結(jié)構(gòu)相同的卷積層和池化層組成。其中,卷積層中卷積核大小為3×3,填充量為1;池化層窗口為3×3,步幅為2。由于將圖像進行統(tǒng)一卷積處理,造成學(xué)習(xí)周期較長,因此在其基礎(chǔ)上進行改進,改進后深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。由圖3可知:在VGG16最后一層卷積池化層后,增加區(qū)域推薦網(wǎng)絡(luò);將區(qū)域推薦學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)得到的特征圖和VGG16得到的卷積特征圖,在Roi Pooling池化層進行融合,完成特征圖像大小的格式統(tǒng)一,而后進入全連接層,完成特征圖像的邊界框預(yù)測和類別預(yù)測。整個優(yōu)化學(xué)習(xí)網(wǎng)絡(luò)的核心為區(qū)域推薦學(xué)習(xí)網(wǎng)絡(luò)和Roi Pooling池化層。
圖3 基于VGG16的深度學(xué)習(xí)優(yōu)化網(wǎng)絡(luò)Fig.3 The deep learning optimization network based on VGG16
區(qū)域推薦網(wǎng)絡(luò)的卷積層填充數(shù)為1,通道數(shù)為256;以每個像素為中心,建立大小不同的方形區(qū)域(即建立錨框),每個錨框具有256個通道。建立背景分類器,原理如下:①計算每個錨框預(yù)測概率p,按照預(yù)計概率p由大到小將此類錨框進行排列,得到一次向量L;②將預(yù)測概率p最大的錨框與其他本類錨框進行交并比計算,將大于閾值的非基準錨框剔除;③按照步驟②方法,將預(yù)測概率p第2大的錨框與本類錨框進行交并比計算,將大于閾值的非基準錨框剔除;④重復(fù)步驟②和步驟③,直到向量L中的所有錨框的交并比均小于閾值為止,剩下的錨框即為預(yù)測錨框。區(qū)域推薦網(wǎng)絡(luò)的損失函數(shù)為
(1)
VGG16學(xué)習(xí)網(wǎng)絡(luò)得到的卷積特征圖像,經(jīng)過區(qū)域推薦網(wǎng)絡(luò)后大小發(fā)生變化;Roi Pooling池化層的作用為實現(xiàn)不同大小的圖像融合,即完成VGG16學(xué)習(xí)網(wǎng)絡(luò)特征圖像并和經(jīng)過區(qū)域推薦網(wǎng)絡(luò)的特征圖像的融合。Roi Pooling池化層原理如下:假定輸入前圖像大小為16×16,輸出標準大小為8×8,過程為將16×16平均分為2×2的8個區(qū)域,每個區(qū)域取最大特征值,進而構(gòu)成大小為8×8的標準圖像。
對改進型學(xué)習(xí)算法和VGG16學(xué)習(xí)網(wǎng)絡(luò)進行比較,測試兩種深度學(xué)習(xí)網(wǎng)絡(luò)達到穩(wěn)定預(yù)測值所需要的樣本容量和穩(wěn)定預(yù)測值精度,采用AP值來表征穩(wěn)定預(yù)測精度,即
(2)
其中,P為預(yù)測準確度;R為預(yù)測樣本召回度。
改進型學(xué)習(xí)算法和VGG16學(xué)習(xí)網(wǎng)絡(luò)穩(wěn)定預(yù)測值及所需樣本量如圖4所示。
圖4 改進型學(xué)習(xí)算法性能對比Fig.4 The performance comparison for improved learning algorithm
其中,VGG16網(wǎng)絡(luò)達到的穩(wěn)定準確率AP值為0.855,穩(wěn)定所需樣本量為13;改進型學(xué)習(xí)網(wǎng)絡(luò)能達到的穩(wěn)定準確率為0.92,穩(wěn)定所需樣本量為11。結(jié)果表明:改進型學(xué)習(xí)網(wǎng)絡(luò)在學(xué)習(xí)速度和準確率上均優(yōu)于VGG16網(wǎng)絡(luò)。
攝像頭采集的圖像通過改進型深度學(xué)習(xí)網(wǎng)絡(luò),得到蘋果的特征邊界。采用圖像定位的方法,根據(jù)圖像中蘋果位置,計算實際環(huán)境中蘋果的位置坐標,進而控制采摘機械臂,完成蘋果的采摘。其中,蘋果定位系統(tǒng)采用單目圖像定位系統(tǒng)配合激光測距方案[15],采摘機械臂采用雙反饋控制系統(tǒng)。
蘋果視覺定位系統(tǒng)如圖5所示。圖5中,蘋果空間坐標P(X,Y,Z)在成像平面內(nèi),已知整個圖像的中心坐標為O(u0,v0),P點在成像平面的投影點為P1(u,v),則投影平面內(nèi)P1點到O點的坐標增量為Δu和Δv,則
(3)
其中,du和dv為水平方向和豎直方向像素點間距對應(yīng)的實際距離(mm/pixel)。
圖5 蘋果視覺定位Fig.5 The visual positioning for apple
由相似三角關(guān)系可知,蘋果空間坐標P的水平坐標和豎直坐標與成像平面水平坐標和豎直坐標增量的關(guān)系,即
(4)
其中,f為攝像頭焦距;Z為攝像頭鏡頭到蘋果位置之間的距離,由激光測距儀檢測得到。
通過視覺系統(tǒng)計算目標蘋果的空間位置坐標P,機器人控制器比對目標蘋果位置坐標和采摘終端位置坐標,通過逆運動學(xué)方程調(diào)整機械臂各關(guān)節(jié)舵機和小臂伸長氣缸,完成機械臂采摘機構(gòu)向蘋果移動,進而實現(xiàn)采摘。
機械臂控制系統(tǒng)如圖6所示。其中,上控制閉環(huán)實現(xiàn)機械臂采摘控制、機器人動作控制器、計算機械臂逆運動學(xué)方程、機器人各關(guān)節(jié)舵機調(diào)整,伸長氣缸調(diào)整、進而控制采摘機械臂完成采摘作業(yè);下控制閉環(huán)CCD攝像頭采集蘋果圖像,通過改進型深度學(xué)習(xí)算法提取蘋果特征信息,進而確定蘋果在成像平面上的坐標增量,通過機器視覺控制器實現(xiàn)圖像位置向空間位置坐標的轉(zhuǎn)化。整個系統(tǒng)工作過程為CCD攝像頭采集蘋果圖像,通過深度學(xué)習(xí)算法提取蘋果圖像特征,輸入信號在機器視覺控制器內(nèi)進行分析,將蘋果圖像坐標轉(zhuǎn)化為蘋果空間距坐標;采摘端坐標和目標蘋果坐標在機器人控制器進行比對,通過機器人逆運動學(xué)方程調(diào)整機器人關(guān)節(jié)舵機和小臂氣缸,改變采摘終端位置,直到完成蘋果的采摘。
圖6 采摘機械臂控制系統(tǒng)Fig.6 The control system for picking manipulator
為了實現(xiàn)蘋果采摘的自動化,基于深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計了蘋果圖像自動識別技術(shù);采用單目視覺系統(tǒng)配合測距儀的方案,實現(xiàn)了圖像坐標向空間坐標的轉(zhuǎn)移,通過控制機械臂采摘終端,最終實現(xiàn)了機械臂向蘋果移動,完成采摘任務(wù)。本系統(tǒng)兩大關(guān)鍵環(huán)節(jié)為圖像識別和機械臂控制,現(xiàn)對二者進行測試,結(jié)果如圖7所示。
對深度學(xué)習(xí)網(wǎng)絡(luò)蘋果識別精度進行測試,進行8組試驗,對比圖像中蘋果個數(shù)與識別個數(shù),結(jié)果如圖7(a)中實線及偏差棒所示。圖像中蘋果個數(shù)區(qū)間為20~27,偏差分布區(qū)間為0~2,在第6組和第7組時出現(xiàn)最大偏差;相對誤差分布如圖7(a)中虛線所示,分布區(qū)間為0~7.8%。測試結(jié)果表明,深度學(xué)習(xí)網(wǎng)絡(luò)具有較高的識別精度。
對采摘機械手進行動作精度測試,測試方法為指定采摘終端移動距離,控制機械手移動,得到實際移動距離,計算二者之間的誤差,測試結(jié)果如圖7(b)所示。其中,數(shù)據(jù)點為實際移動距離,偏差棒為實際移動距離和設(shè)置距離之間的偏差,實際移動距離分布區(qū)間為[895mm, 1414mm],偏差分布區(qū)間為[-10mm, 12mm]。測試結(jié)果表明:機械手具有較高的控制精度,偏差分布區(qū)間可以滿足蘋果采摘要求。
圖7 系統(tǒng)測試Fig.7 The test for system
為了實現(xiàn)蘋果采摘的自動化,基于改進型深度學(xué)習(xí)網(wǎng)絡(luò)設(shè)計了視覺采摘系統(tǒng)。首先,對攝像頭采集的蘋果圖像進行高斯濾波處理;其次,在VGG16深度學(xué)習(xí)網(wǎng)絡(luò)基礎(chǔ)上增加區(qū)域推薦網(wǎng)絡(luò),將區(qū)域推薦學(xué)習(xí)網(wǎng)絡(luò)學(xué)習(xí)得到的特征圖和VGG16得到的卷積特征圖在Roi Pooling池化層進行融合,完成圖片大小的格式統(tǒng)一。測試結(jié)果表明:改進型網(wǎng)絡(luò)在所需樣本量為11,小于VGG16網(wǎng)絡(luò)所需的13個樣本量,同時改進型學(xué)習(xí)網(wǎng)絡(luò)能達到的穩(wěn)定準確率為0.92,優(yōu)于VGG16深度學(xué)習(xí)網(wǎng)絡(luò)的0.855;基于單目視覺系統(tǒng)和激光測距器,可實現(xiàn)目標蘋果由圖像坐標向空間坐標的轉(zhuǎn)化。測試結(jié)果表明:蘋果識別相對誤差小于7.8%,機械臂實際移動距離分布區(qū)間為[895mm,1414mm],偏差分布區(qū)間為[-10mm, 12mm],表明機械臂具有較高的控制精度。