賈偉寬,孟 虎,馬曉慧,趙艷娜,Ji Ze,鄭元杰※
(1.山東師范大學(xué)信息科學(xué)與工程學(xué)院,濟(jì)南 250358;2.機(jī)械工業(yè)設(shè)施農(nóng)業(yè)測(cè)控技術(shù)與裝備重點(diǎn)實(shí)驗(yàn)室,鎮(zhèn)江 212013;3.卡迪夫大學(xué)工程學(xué)院,卡迪夫 CF24 3AA,英國(guó))
農(nóng)業(yè)生產(chǎn)中,機(jī)器視覺(jué)已經(jīng)廣泛應(yīng)用于果蔬產(chǎn)量預(yù)測(cè)[1-2]、自動(dòng)采摘[3-4]、病蟲(chóng)害識(shí)別[5-6]等領(lǐng)域,目標(biāo)檢測(cè)的精度和效率成為制約作業(yè)裝備性能的關(guān)鍵。當(dāng)前,對(duì)于靜態(tài)目標(biāo)果實(shí)[7-8]、動(dòng)態(tài)目標(biāo)果實(shí)[9-10]、遮擋或重疊目標(biāo)果實(shí)[11-12]的檢測(cè)已取得可喜成果。現(xiàn)有的檢測(cè)模型大都是基于傳統(tǒng)的機(jī)器學(xué)習(xí)、新興的深度網(wǎng)絡(luò)模型?;跈C(jī)器學(xué)習(xí)的檢測(cè)方法,主要依賴于目標(biāo)果實(shí)特征,如顏色、形狀等,與背景差別較大的目標(biāo),其檢測(cè)效果越好,然而遇到綠色目標(biāo)果實(shí)時(shí),果實(shí)與背景顏色相近,檢測(cè)效果相對(duì)較差?;谏疃葘W(xué)習(xí)的檢測(cè)方法,訓(xùn)練目標(biāo)網(wǎng)絡(luò)過(guò)度依賴樣本數(shù)量,在實(shí)際果園環(huán)境中,有些果園難以獲得足夠量的樣本,無(wú)法訓(xùn)練得到精準(zhǔn)的檢測(cè)模型。在復(fù)雜的果園環(huán)境下,目標(biāo)果實(shí)的姿態(tài)千變?nèi)f化,有些目標(biāo)果實(shí)為綠色,且部分環(huán)境數(shù)據(jù)采集困難造成樣本數(shù)量不足,這些因素均給目標(biāo)精準(zhǔn)檢測(cè)帶來(lái)巨大挑戰(zhàn),吸引著諸多學(xué)者的關(guān)注。
基于傳統(tǒng)機(jī)器學(xué)習(xí)的目標(biāo)檢測(cè)方法,在果蔬檢測(cè)領(lǐng)域積累了大量的研究成果,Li等[13]提出基于均值漂移和稀疏矩陣原理的改進(jìn)譜聚類算法,均值漂移去除大量背景像素減少計(jì)算量,圖像特征信息映射到稀疏矩陣,最后實(shí)現(xiàn)重疊綠色蘋果的識(shí)別。黃小玉等[14]針對(duì)自然光照條件下綠色目標(biāo)果實(shí)的識(shí)別問(wèn)題,提出DRFI算法的基礎(chǔ)上,結(jié)合顏色、紋理、形狀等特征,實(shí)現(xiàn)綠色桃子的識(shí)別,該方法先用基于圖的分割算法將圖像分割成多層,再計(jì)算各層的顯著圖,通過(guò)線性組合器得到DRFI顯著圖。Lv等[15]針對(duì)套袋青蘋果設(shè)計(jì)提取果實(shí)正常光照區(qū)域和突出光照區(qū)域相結(jié)合的分割方法,利用CLAHE和R-B色差對(duì)比增強(qiáng),分別提取正常光照區(qū)域和高亮區(qū)域特征,得到完整目標(biāo)果實(shí)區(qū)域。Qureshi等[16]利用視覺(jué)技術(shù)提出 2種芒果樹(shù)冠圖像自動(dòng)計(jì)數(shù)方法,基于紋理的密度分割方法和基于形狀的水果檢測(cè)方法,并在夜間圖像上測(cè)試算法精度和魯棒性。這些方法在識(shí)別精度和效率上均取得較好的效果,為果園目標(biāo)果實(shí)識(shí)別提供了重要的理論支撐。然而這些方法大多依賴于果實(shí)顏色、紋理、形狀特征,在復(fù)雜的果園環(huán)境下,目標(biāo)果實(shí)特征不夠明顯,給此類檢測(cè)方法帶來(lái)較大挑戰(zhàn)。
近幾年,隨著軟硬件技術(shù)的發(fā)展和深度學(xué)習(xí)理論的興起,在目標(biāo)識(shí)別過(guò)程中,可實(shí)現(xiàn)端到端的檢測(cè),大幅提升目標(biāo)的檢測(cè)精度以及模型的魯棒性,廣泛應(yīng)用于目標(biāo)檢測(cè)和圖像分割領(lǐng)域[17-18]。受此啟發(fā),深度學(xué)習(xí)已逐漸滲入農(nóng)業(yè)生產(chǎn)領(lǐng)域,在此基礎(chǔ)上,優(yōu)化出眾多目標(biāo)檢測(cè)和圖像分割模型應(yīng)用于目標(biāo)果實(shí)識(shí)別[19-20],以輔助實(shí)現(xiàn)智慧果園生產(chǎn)的科學(xué)管理。Biffi等[21]提出了一種基于ATSS深度學(xué)習(xí)的蘋果果實(shí)檢測(cè)方法,用以處理受遮擋目標(biāo)果實(shí),該方法只標(biāo)注物體的中心點(diǎn),在果園密度大的情況下比邊界標(biāo)注更實(shí)用。Li等[22]提出一種適于樣本不足的 U-Net綠色蘋果分割模型,此方法融合殘差塊和門限卷積獲取目標(biāo)圖像的邊界語(yǔ)義信息,利用atrus卷積技術(shù)保留更多尺度上下文信息,實(shí)現(xiàn)目標(biāo)果實(shí)的分割。Wang等[23]提出一種輕量級(jí)卷積神經(jīng)網(wǎng)絡(luò) YOLOv4-LITE火龍果檢測(cè)方法,用此方法替換主干網(wǎng)絡(luò) MobileNet-v3提高檢測(cè)速度,設(shè)置上采樣特征融合提高小目標(biāo)檢測(cè)精度。武星等[24]針對(duì)復(fù)雜果樹(shù)背景下蘋果檢測(cè),提出輕量級(jí)YOLOv3模型,采用融合均方誤差損失和交叉熵?fù)p失的多目標(biāo)損失函數(shù),在工作站和嵌入式開(kāi)發(fā)板上的檢測(cè)速度為116.96浮點(diǎn)/秒(f/s)和7.59 f/s,準(zhǔn)確率可達(dá)90%以上。上述方法在大都是特定情況下完成,檢測(cè)效果相對(duì)較好,然而在復(fù)雜環(huán)境下檢測(cè)綠色目標(biāo)果實(shí),尤其面對(duì)樣本數(shù)量不足的情況時(shí),現(xiàn)有模型的檢測(cè)性能受到一定的挑戰(zhàn)。
針對(duì)復(fù)雜果園環(huán)境下采集到的綠色果實(shí)數(shù)據(jù),為提高檢測(cè)綠色目標(biāo)果實(shí)精度與效率,本研究借助Transformer網(wǎng)絡(luò),引入重采樣法和遷移學(xué)習(xí)理論,提出基于優(yōu)化 Transformer網(wǎng)絡(luò)的綠色目標(biāo)果實(shí)高效檢測(cè)模型。該方法首先重采樣法擴(kuò)充樣本,以解決因樣本數(shù)量不足導(dǎo)致網(wǎng)絡(luò)模型的欠學(xué)習(xí);其次借助遷移學(xué)習(xí)加快網(wǎng)絡(luò)訓(xùn)練的收斂,減少訓(xùn)練時(shí)間;最后在匈牙利損失函數(shù)的基礎(chǔ)上重新構(gòu)建損失函數(shù),提高網(wǎng)絡(luò)的訓(xùn)練精度。最后在綠色蘋果和柿子數(shù)據(jù)集上驗(yàn)證該模型的有效性。
1.1.1 圖像采集
本研究以綠色目標(biāo)果實(shí)精準(zhǔn)檢測(cè)為目標(biāo),以綠色蘋果圖像、綠色柿子圖像為研究對(duì)象,因綠色目標(biāo)果實(shí)與背景顏色相近致使檢測(cè)難度加大,極易造成目標(biāo)果實(shí)的漏檢或枝葉混檢,給檢測(cè)帶來(lái)較大挑戰(zhàn)。
采集圖像地點(diǎn):蘋果采自山東省煙臺(tái)市福山區(qū)龍王山蘋果生產(chǎn)基地(山東師范大學(xué)農(nóng)業(yè)信息技術(shù)實(shí)驗(yàn)基地),柿子采集于山東師范大學(xué)(長(zhǎng)清湖校區(qū))后山和濟(jì)南南部山區(qū)。
采集圖像對(duì)象:未成熟柿子(綠色),品種包括牛心柿、蓋柿和紅柿等;綠色蘋果,品種為煙嘎1號(hào)。
采集圖像設(shè)備:佳能EOS 80D單反相機(jī),相機(jī)采用CMOS圖像傳感器。圖像分辨率為6 000像素×4 000像素,保存為.jpg格式,24位彩色圖像。
采集圖像環(huán)境:采集過(guò)程中充分考慮實(shí)際果園復(fù)雜場(chǎng)景,采集圖像包括多時(shí)間、多天氣、多光照、多角度、多距離圖像。多時(shí)間包括春季、夏季以及冬季大棚拍攝;多天氣環(huán)境包括晴天、陰天、雨天;多光照環(huán)境包括白天自然光和夜間人工補(bǔ)光環(huán)境,其中白天重點(diǎn)在順光與逆光2個(gè)條件下進(jìn)行拍攝,夜晚環(huán)境以LED燈補(bǔ)光拍攝;多角度拍攝包括仰視45度角拍攝,水平拍攝,360度環(huán)顧拍攝;多距離拍攝包括遠(yuǎn)景拍攝、近景拍攝。在上述環(huán)境下,拍攝得到果實(shí)重疊、枝葉遮擋等多種情況的綠色果實(shí)圖片。
共采集553張綠色柿子圖像和268張綠色蘋果圖像,圖1所示,包括夜間、重疊、逆光、順光、遮擋,雨后等多種情況。如逆光圖像目標(biāo)果實(shí)表面光線較弱,目標(biāo)果實(shí)與背景之間區(qū)別不明顯;目標(biāo)果實(shí)間相互重疊、枝葉遮擋果實(shí)輪廓往往難以區(qū)分;果實(shí)表現(xiàn)陰影或雨滴干擾等,再由于目標(biāo)果實(shí)與背景顏色十分相近,給目標(biāo)果實(shí)精準(zhǔn)檢測(cè)造成了一定的困難。
1.1.2 重采樣法數(shù)據(jù)擴(kuò)充
檢測(cè)模型訓(xùn)練大多基于足夠的樣本量,然而在實(shí)際果園環(huán)境中,部分樣本采集相對(duì)比較困難,由于樣本量不足,在訓(xùn)練過(guò)程中容易出現(xiàn)過(guò)擬合現(xiàn)象,且模型泛化能力較差。為進(jìn)一步提高檢測(cè)模型的精度,可先嘗試數(shù)據(jù)集優(yōu)化,擴(kuò)充樣本數(shù)據(jù)集。對(duì)采集到的 268張綠色蘋果圖像,采用重采樣法[25],解決樣本數(shù)量不足問(wèn)題,擴(kuò)充圖片數(shù)量,促進(jìn)訓(xùn)練時(shí)模型的收斂與擬合。
重采樣法(bootstrapping)就是利用有限的樣本資料經(jīng)由多次重復(fù)抽樣,重新建立起足以代表母體樣本分布之新樣本。假設(shè)抽取的樣本大小為n,在原樣本中有放回的抽樣,抽取n次。每抽一次形成一個(gè)新的樣本,重復(fù)操作,形成很多新樣本,通過(guò)這些樣本就可以計(jì)算出樣本的一個(gè)分布。本研究將原始數(shù)據(jù)多次重復(fù)抽樣,擴(kuò)充數(shù)據(jù),滿足本研究網(wǎng)絡(luò)在訓(xùn)練時(shí)對(duì)樣本的需求,解決樣本數(shù)量不足問(wèn)題。借助重采樣法將 268張綠色蘋果圖像擴(kuò)充為511張按照7∶3的比例,分為訓(xùn)練集388張圖像,測(cè)試集123張圖像。將553張綠色柿子圖像按照7∶3的比例,分為訓(xùn)練集388張圖像,測(cè)試集165張圖像。
1.1.3 數(shù)據(jù)集制作
本研究采用 LabelMe軟件標(biāo)注綠色球形果實(shí)圖像制作COCO格式數(shù)據(jù)集。用LabelMe將綠色目標(biāo)果實(shí)的邊緣輪廓使用標(biāo)注點(diǎn)標(biāo)注出來(lái),并給出標(biāo)注標(biāo)簽。標(biāo)注點(diǎn)將圖像分為 2部分,標(biāo)注點(diǎn)內(nèi)部為綠色目標(biāo)果實(shí),其余為背景。所有的標(biāo)注信息如標(biāo)注標(biāo)簽、標(biāo)注點(diǎn)坐標(biāo)等將會(huì)保存到與原圖像對(duì)應(yīng)的json文件中。之后將json文件使用LabelMe轉(zhuǎn)換成COCO格式數(shù)據(jù)集。
實(shí)際果園所采集的圖像,受光照和枝葉影響,目標(biāo)果實(shí)往往會(huì)枝葉遮擋、相互重疊、枝葉背景相對(duì)復(fù)雜,且由于目標(biāo)果實(shí)顏色與背景顏色十分相近,綠色目標(biāo)果實(shí)的高效精準(zhǔn)檢測(cè)是個(gè)難題。另外,檢測(cè)模型受樣本數(shù)量不足的影響,樣本學(xué)習(xí)不充分,易出現(xiàn)過(guò)擬合現(xiàn)象,從而導(dǎo)致目標(biāo)果實(shí)檢測(cè)精度降低,難以滿足在實(shí)際作業(yè)機(jī)械的裝配需求。
針對(duì)綠色目標(biāo)果實(shí)的高效精準(zhǔn)識(shí)別問(wèn)題,本研究提出基于Transformer優(yōu)化檢測(cè)模型,如圖2所示。首先利用 CNN結(jié)構(gòu)提取圖像特征,然后將提取的特征輸入到Transformer編碼器-解碼器,借助前饋神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)目標(biāo)果實(shí)邊界框,最后經(jīng)二值匹配損失處理邊界框,實(shí)現(xiàn)綠色目標(biāo)果實(shí)檢測(cè)。在訓(xùn)練過(guò)程中,采用二值匹配損失使用唯一的真值框進(jìn)行分配預(yù)測(cè),沒(méi)有匹配的預(yù)測(cè)會(huì)產(chǎn)生“無(wú)目標(biāo)”(?)類預(yù)測(cè),進(jìn)一步提高綠色目標(biāo)果實(shí)檢測(cè)精度。實(shí)際果園環(huán)境遠(yuǎn)比預(yù)想的情況復(fù)雜,尤其是在樣本數(shù)量不足時(shí),僅使用卷積神經(jīng)網(wǎng)絡(luò),難以有效檢測(cè)綠色目標(biāo)果實(shí)。本研究引入 Transformer,可一次預(yù)測(cè)所有目標(biāo),在預(yù)測(cè)目標(biāo)與真實(shí)目標(biāo)之間進(jìn)行二值匹配,得出預(yù)測(cè)結(jié)果。
1.2.1 優(yōu)化模型網(wǎng)絡(luò)結(jié)構(gòu)
基于Transformer的綠色目標(biāo)果實(shí)優(yōu)化檢測(cè)模型的結(jié)構(gòu)由三分部組成:基于CNN的頭部網(wǎng)絡(luò)結(jié)構(gòu)用于圖像特征提取,Transformer編碼器-解碼器用于處理圖像特征,前饋網(wǎng)絡(luò)(FFN)結(jié)構(gòu)用于邊框預(yù)測(cè)。
頭部:為更好實(shí)現(xiàn)圖像特征提取的并行處理,選用CNN作為Transformer網(wǎng)絡(luò)的頭部結(jié)構(gòu)。與其他提取特征方式相比,CNN可與Transformer框架更好的切合,并行處理特征,減少訓(xùn)練時(shí)間。從初始圖像ximg∈R3×H0×W0的三個(gè)顏色通道開(kāi)始,生成一個(gè)低分辨率的激活映射特征f ∈其中使用的特征值為C=2048,H,W=H0/32,W0/32。
Transformer編碼器:經(jīng) CNN網(wǎng)絡(luò)得到多維序列特征,然而編碼器的期望輸入的是一個(gè)序列,因此,將激活特征映射f的通道維度從C降低到更小的維度d,建立一個(gè)新的維度z0= Rd×H0×W0,并將z0的空間維度壓縮成一維,從而產(chǎn)生一個(gè)編碼器可接受的d×HW的特征映射。編碼器由一個(gè)多頭自注意力模塊以及一個(gè)前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成,如圖3a所示:編碼器輸入是一個(gè)經(jīng)過(guò)壓縮后得到的序列,處理時(shí)會(huì)產(chǎn)生損失,本研究使用固定位置編碼來(lái)彌補(bǔ)損失,在每個(gè)模塊當(dāng)中,添加位置編碼,優(yōu)化編碼器結(jié)構(gòu),解決壓縮損失。
Transformer解碼器:使用多種注意力機(jī)制構(gòu)建Transformer解碼器,對(duì)尺寸為d的N個(gè)對(duì)象嵌入進(jìn)行轉(zhuǎn)換,如圖3b所示。為了提高檢測(cè)綠色目標(biāo)果實(shí)效率,本研究對(duì)N個(gè)對(duì)象同時(shí)進(jìn)行解碼工作,效率高,精度好。編碼器特征處理后,生成大小各不相同的輸出,經(jīng)解碼器結(jié)算,預(yù)測(cè)結(jié)果時(shí)可產(chǎn)生遠(yuǎn)遠(yuǎn)大于實(shí)際對(duì)象數(shù)量的邊界框,避免綠色目標(biāo)果實(shí)漏識(shí)。經(jīng)過(guò)解碼器學(xué)習(xí)到的位置編碼,與編碼器相同,將其添加到解碼器的每一個(gè)模塊中,優(yōu)化解碼器結(jié)構(gòu)。最后經(jīng)過(guò)前饋神經(jīng)網(wǎng)絡(luò)獨(dú)立解碼為框坐標(biāo)和類標(biāo)簽,從而產(chǎn)生N個(gè)最終預(yù)測(cè)。使用編碼器-解碼器對(duì)這些嵌入進(jìn)行處理,并充分考慮目標(biāo)對(duì)象之間的成對(duì)關(guān)系,并使用整個(gè)圖像上下文信息,以此更好的適應(yīng)樣本數(shù)量不足的情況,優(yōu)化輸出結(jié)果。
前饋神經(jīng)網(wǎng)絡(luò):為了防止網(wǎng)絡(luò)退化,提高檢測(cè)效果,前饋神經(jīng)網(wǎng)絡(luò)使用一個(gè)帶有ReLU激活函數(shù)、隱藏維數(shù)為d的3層感知器和一個(gè)線性投影層來(lái)計(jì)算結(jié)果。前饋神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)歸一化的中心坐標(biāo)、邊界框的高度和寬度,通過(guò)線性層使用softmax函數(shù)預(yù)測(cè)類標(biāo)簽。最終的結(jié)果會(huì)產(chǎn)生兩種結(jié)果,一種是有果實(shí)的邊界框,另一種是沒(méi)有果實(shí)的空值,使用?代替,這樣可以確保將所有的果實(shí)進(jìn)行預(yù)測(cè),沒(méi)有漏識(shí)的果實(shí)。
綜上,綠色目標(biāo)果實(shí)圖像經(jīng)上述 3部分結(jié)構(gòu)連續(xù)工作:CNN提取目標(biāo)果實(shí)特征,經(jīng)位置補(bǔ)碼處理后輸入到Transformer編碼器-解碼器中,通過(guò)前饋神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)最終結(jié)果,產(chǎn)生邊界框,最終完成綠色目標(biāo)果實(shí)檢測(cè),如圖4所示。
1.2.2 損失函數(shù)構(gòu)建
該模型在訓(xùn)練過(guò)程中,產(chǎn)生N個(gè)預(yù)測(cè)邊界框,如何對(duì)這些預(yù)測(cè)結(jié)果進(jìn)行評(píng)分,篩選出最優(yōu)結(jié)果,成為訓(xùn)練的難點(diǎn)之一。本研究嘗試構(gòu)建最優(yōu)二值匹配損失函數(shù),使用此函數(shù)進(jìn)行二值匹配預(yù)測(cè),并優(yōu)化目標(biāo)對(duì)象的邊界框損失。
用y表示真值集,用表示預(yù)測(cè)集。假設(shè)N大于圖像中對(duì)象個(gè)數(shù),則y數(shù)量也大于圖像中對(duì)象個(gè)數(shù)(當(dāng)無(wú)對(duì)象時(shí),用?填充)。為了找到這兩個(gè)集合之間的最優(yōu)二值匹配,使用σ∈代表N個(gè)元素的排列,如公式1所示。
其中 Lmatch(yi,yσ(i))是真值yi與預(yù)測(cè)序列σ(i)之間的二值匹配損失,此優(yōu)化算法在以匈牙利算法[26]基礎(chǔ)上進(jìn)行的工作
第一步,構(gòu)建匹配損失函數(shù),在構(gòu)建匹配損失時(shí),需要同時(shí)考慮類預(yù)測(cè)、相似預(yù)測(cè)和真值框。真值集的每個(gè)元素i可以用yi= (ci,bi)來(lái)表示,其中ci表示目標(biāo)類標(biāo)簽(可能為?),bi∈[0,4]4,是一個(gè)定義真值框中心坐標(biāo)及其相對(duì)于圖像大小的高度和寬度的矢量。對(duì)于預(yù)測(cè)序列σ(i),用概率定義類ci,用定義預(yù)測(cè)框。定義如下
該匹配過(guò)程與目前流行的匹配機(jī)制相比,如匹配建議和對(duì)真值進(jìn)行錨框定位的啟發(fā)式分配規(guī)則是大體是相同的。他們之間最主要的區(qū)別是需要為其中沒(méi)有重復(fù)的預(yù)測(cè)集找出一對(duì)一的匹配。
第二步是計(jì)算損失函數(shù),即前一步中二值匹配時(shí),所有配對(duì)的匈牙利損失。對(duì)損失的定義類似于普通對(duì)象檢測(cè)器的損失,即類預(yù)測(cè)的負(fù)對(duì)數(shù)似然值和后面定義的盒損失的線性組合
邊界框損失:與其他邊界框預(yù)測(cè)不一致的是,本研究方法經(jīng)過(guò)前饋神經(jīng)網(wǎng)絡(luò)處理后,直接預(yù)測(cè)。對(duì)于最常用的?1損失函數(shù)來(lái)說(shuō),即使是在不同的邊界框尺度上,其相對(duì)誤差也十分相似。為了解決這問(wèn)題,將?1損失函數(shù)與 GLOU損失函數(shù) Liou(·,·)在尺度不變的基礎(chǔ)上相結(jié)合,構(gòu)建邊界框損失函數(shù)
其中λiou,λL1∈?是超參數(shù)。這兩個(gè)超參數(shù)通過(guò)批處理中的對(duì)象數(shù)量進(jìn)行規(guī)范化。
輔助損失函數(shù):在訓(xùn)練過(guò)程中在解碼器中使用輔助損耗[27]對(duì)優(yōu)化模型有所幫助,特別是幫助模型輸出每個(gè)類對(duì)象的正確預(yù)測(cè)。因此,在編碼器與解碼器每一層中,增加了前饋神經(jīng)網(wǎng)絡(luò)和匈牙利損失函數(shù)。所有的前饋神經(jīng)網(wǎng)絡(luò)共享它們生成的參數(shù),并通過(guò)一個(gè)額外的共享層來(lái)標(biāo)準(zhǔn)化來(lái)自不同解碼器層的前饋神經(jīng)網(wǎng)絡(luò)的輸入。
1.2.3 遷移學(xué)習(xí)優(yōu)化收斂
從頭開(kāi)始訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)通常來(lái)說(shuō)代價(jià)非常大,訓(xùn)練網(wǎng)絡(luò)并使網(wǎng)絡(luò)收斂需要足夠大的數(shù)據(jù)集,以及需要足夠長(zhǎng)的訓(xùn)練時(shí)間等?;谝陨显颍趯?shí)際應(yīng)用時(shí),需要消耗較大的空間與較多的時(shí)間。即使有足夠多的數(shù)據(jù)集,達(dá)到收斂所花費(fèi)的時(shí)間也較長(zhǎng),不利于農(nóng)業(yè)機(jī)器人實(shí)時(shí)作業(yè),因此使用預(yù)先訓(xùn)練的權(quán)值代替隨機(jī)初始化的權(quán)值就有十分重要的意義。利用遷移學(xué)習(xí)中的繼續(xù)訓(xùn)練過(guò)程,微調(diào)網(wǎng)絡(luò)之中的權(quán)值可以減少訓(xùn)練所花費(fèi)的時(shí)間,節(jié)約時(shí)間與空間成本。
Long等人[28]的研究結(jié)果表明,特征的可轉(zhuǎn)移性隨著預(yù)訓(xùn)練任務(wù)與目標(biāo)任務(wù)的差異減少而增大,證明即使是從與目標(biāo)任務(wù)差異很大的任務(wù)進(jìn)行特征遷移,也是比初始化訓(xùn)練參數(shù)要好。在實(shí)際應(yīng)用遷移學(xué)習(xí)技術(shù)時(shí),需要考慮預(yù)訓(xùn)練模型是否滿足目標(biāo)框架約束以及怎樣進(jìn)行微調(diào)等細(xì)節(jié)。因此,首先使用不相似任務(wù)的模型作為預(yù)訓(xùn)練模型,分別訓(xùn)練綠色柿子與綠色蘋果模型,使用綠色蘋果為數(shù)據(jù)集訓(xùn)練得到的模型為模型a,使用綠色柿子為數(shù)據(jù)集訓(xùn)練得到的模型為模型b,然后使用模型a作為訓(xùn)練綠色柿子模型的預(yù)訓(xùn)練模型,預(yù)訓(xùn)練模型 b作為訓(xùn)練綠色蘋果模型的預(yù)訓(xùn)練模型,在不影響模型精度的前提下,交叉進(jìn)行遷移學(xué)習(xí),對(duì)比遷移訓(xùn)練前后訓(xùn)練時(shí)間。
本實(shí)驗(yàn)算法處理平臺(tái)為個(gè)人計(jì)算機(jī),處理器為 Intel i5-7400,8 GB內(nèi)存。顯卡為NVIDIA GTX 1080 Ti。軟件環(huán)境為 Linux系統(tǒng),編程語(yǔ)言為 Python,構(gòu)建解碼器與編碼器各6層,在服務(wù)器上搭建PyTorch深度學(xué)習(xí)框架,實(shí)現(xiàn)綠色果實(shí)目標(biāo)檢測(cè)的訓(xùn)練和測(cè)試。
本研究的綠色果實(shí)檢測(cè)模型訓(xùn)練過(guò)程具體步驟如下:
1)在果園環(huán)境下使用佳能EOS 80D單反相機(jī)采集豐富的綠色果實(shí)圖像。
2)重采樣法(bootstrapping)擴(kuò)充樣本。
3)使用LabelMe軟件對(duì)圖像進(jìn)行標(biāo)注,標(biāo)注時(shí),將每個(gè)目標(biāo)果實(shí)標(biāo)注為一個(gè)獨(dú)立的連通域,制作成 COCO格式數(shù)據(jù)集。
4)將數(shù)據(jù)集輸入卷積神經(jīng)網(wǎng)絡(luò)提取特征。
5)構(gòu)建Transformer網(wǎng)絡(luò)框架,訓(xùn)練模型。
6)進(jìn)行遷移學(xué)習(xí),加快模型收斂,減少訓(xùn)練時(shí)間。
7)輸入測(cè)試樣本,使用評(píng)估指標(biāo)評(píng)價(jià)獲得的綠色果實(shí)檢測(cè)模型的檢測(cè)結(jié)果,根據(jù)評(píng)估結(jié)構(gòu)調(diào)整模型的參數(shù)。
8)重復(fù)訓(xùn)練改進(jìn)模型,直至獲得最優(yōu)網(wǎng)絡(luò)模型。
為評(píng)估本模型對(duì)綠色目標(biāo)果實(shí)檢測(cè)的效果,本研究采用召回率(%)、精確度(%)以及訓(xùn)練時(shí)間3項(xiàng)指標(biāo)對(duì)模型進(jìn)行評(píng)估,召回率、精確度的取值范圍均為[0,1]。
式中TP是真實(shí)的正樣本數(shù)量,F(xiàn)P是虛假的正樣本數(shù)量,F(xiàn)N是虛假的負(fù)樣本數(shù)量。
試驗(yàn)時(shí),充分考慮實(shí)際應(yīng)用環(huán)境,模擬復(fù)雜果園環(huán)境下數(shù)據(jù)難以采集的情景,首先使用不相似任務(wù)模型遷移學(xué)習(xí),將訓(xùn)練完成得到的模型作為新的預(yù)訓(xùn)練模型,再次遷移學(xué)習(xí),對(duì)比訓(xùn)練時(shí)間。使用不相似任務(wù)的模型遷移學(xué)習(xí)后,訓(xùn)練綠色柿子圖像使用 6小時(shí)28分鐘55秒,訓(xùn)練綠色蘋果圖像使用6小時(shí)23分鐘41秒,使用相似的模型遷移學(xué)習(xí)后,訓(xùn)練綠色柿子使用5小時(shí)37分鐘07秒,訓(xùn)練綠色蘋果圖像使用5小時(shí)28分鐘43秒,訓(xùn)練效率提高 13%以上。通過(guò)對(duì)比時(shí)間可以看到,使用相似類別模型進(jìn)行遷移學(xué)習(xí),實(shí)際訓(xùn)練模型所需要的時(shí)間更少,且速度更快。充分說(shuō)明了特征的可轉(zhuǎn)移性隨著預(yù)訓(xùn)練任務(wù)與目標(biāo)任務(wù)的差異減少而增大,增加了檢測(cè)速度與效率。
試驗(yàn)采集的圖像充分考慮到果園的真實(shí)復(fù)雜場(chǎng)景,包括不同光照、不同角度影響,如順光、逆光、相互重疊、枝葉遮擋、夜間等混合干擾下的圖像,本研究所構(gòu)建的Transformer的綠色目標(biāo)果實(shí)優(yōu)化檢測(cè)模型,柿子和蘋果的檢測(cè)效果圖如圖5、圖6所示,檢測(cè)評(píng)估結(jié)果列于表1。
蘋果圖像有較多遠(yuǎn)景圖像,果實(shí)比較密集,數(shù)目較多,柿子圖像采集環(huán)境明顯比蘋果圖像采集環(huán)境復(fù)雜,所以柿子圖像的召回率與準(zhǔn)確率相比之下略高。重疊、逆光、夜間和遮擋條件對(duì)果實(shí)檢測(cè)造成了一定影響,檢測(cè)效果稍微略差。順光和雨后下的果實(shí)檢測(cè)效果相對(duì)較好,不存在遮擋和重疊情況的獨(dú)立果實(shí)檢測(cè)效果最好。綜上,該方法的泛化能力和魯棒性較好。
為了進(jìn)一步分析算法性能,將本研究方法與具有代表性的 Mask r-cnn[29]、Mask scoring r-cnn[30]、Faster r-cnn[31]和Retinanet[32]方法進(jìn)行對(duì)比,試驗(yàn)結(jié)果列于表1。
試驗(yàn)采集綠色柿子圖像553張,由表1可知,檢測(cè)綠色柿子準(zhǔn)確率為93.27%,試驗(yàn)精度較好,使用原始綠色蘋果圖像訓(xùn)練網(wǎng)絡(luò),準(zhǔn)確率為90.70%,精度較差,故將綠色蘋果圖像使用重采樣法擴(kuò)充樣本,有效解決因樣本不足致使網(wǎng)絡(luò)擬合較差問(wèn)題,使用重采樣后,檢測(cè)綠色蘋果準(zhǔn)確率為91.35%,召回率為88.38%。Mask r-cnn、Mask scoring r-cnn以及 Faster r-cnn分別為 90.03%,89.52%和89.11%,較未使用重采樣法前,精度有所提升。Retinanet方法面對(duì)樣本數(shù)量不足時(shí)檢測(cè)精度為87.82%,使用重采樣法后精度為88.59%。
表1 5種方法性能比較召回率和準(zhǔn)確度Tabel 1 Performance comparison of five methods by recall rate and precision rate %
經(jīng)過(guò)上述分析,通過(guò)目標(biāo)檢測(cè)精度來(lái)看,使用重采樣法后,精度有所提升,可更好的滿足果園智能測(cè)產(chǎn)和自動(dòng)化采摘要求,提高模型泛化能力。
由表1可知,盡管存在誤識(shí)和漏識(shí)現(xiàn)象,但與其他方法相比,本研究方法檢測(cè)性能最好,可較為準(zhǔn)確地檢測(cè)出圖像中綠色目標(biāo)果實(shí)。本研究檢測(cè)綠色柿子準(zhǔn)確率分別為93.27%,召回率為89.75%。其中Mask r-cnn、Mask scoring r-cnn以及Faster r-cnn都采用r-cnn結(jié)構(gòu),其遵循序列處理特征原則,在處理并行問(wèn)題上,效果表現(xiàn)不佳,而本研究方法使用Transformer框架處理圖片,可并行處理特征,優(yōu)化最終結(jié)果。Retinanet方法檢測(cè)效果比Faster r-cnn略差。
經(jīng)過(guò)上述分析,通過(guò)目標(biāo)檢測(cè)精度來(lái)看,本研究方法取得了不錯(cuò)的效果,基本可以達(dá)到實(shí)時(shí)性的要求,具有很強(qiáng)的泛化能力和魯棒性。
1)通過(guò)重采樣處理,可有效擴(kuò)充樣本數(shù)量,提高檢測(cè)模型學(xué)習(xí)能力,有效解決因樣本數(shù)量不足引起的網(wǎng)絡(luò)模型欠學(xué)習(xí)。
2)模型訓(xùn)練引入遷移學(xué)習(xí),有效提高模型的訓(xùn)練效率和加速網(wǎng)絡(luò)收斂,從實(shí)驗(yàn)結(jié)果看,訓(xùn)練效率提升 13%以上。
3)新模型可有效實(shí)現(xiàn)復(fù)雜果園環(huán)境下多姿態(tài)、多光照、多場(chǎng)景的目標(biāo)識(shí)別,新模型的泛化能力和魯棒性較好。試驗(yàn)結(jié)果表明,檢測(cè)綠色柿子與綠色蘋果時(shí),精度分別為93.27%和91.35%。