周云成,許童羽,鄧寒冰,苗 騰
(沈陽(yáng)農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,沈陽(yáng) 110866)
因用途不同需要選擇性收獲不同成熟度的番茄果實(shí)[1]。為提高座果率,常在花的不同發(fā)育時(shí)期通過(guò)蘸花、涂花、噴灑花穗等手段用生長(zhǎng)素處理番茄花蕾。為減低藥物用量,番茄生產(chǎn)中需要根據(jù)主莖稈進(jìn)行精確對(duì)靶施藥[2]。采摘、對(duì)靶施藥等番茄生產(chǎn)自動(dòng)化的前提條件之一是實(shí)現(xiàn)多種形態(tài)的花、果、莖器官的有效識(shí)別,屬于典型的計(jì)算機(jī)視覺(jué)問(wèn)題。從AlexNet[3]開(kāi)始,卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)在計(jì)算機(jī)視覺(jué)上的應(yīng)用越來(lái)越普遍。為了取得更高的精度,CNN的深度不斷增加,結(jié)構(gòu)也變得越來(lái)越復(fù)雜[4],但這與模型大小和計(jì)算速度之間產(chǎn)生了矛盾。由于農(nóng)業(yè)機(jī)器人等智能裝備的存儲(chǔ)和計(jì)算資源受限,在保證精度可靠的前提下,更小的模型和更高的識(shí)別速度至關(guān)重要。
基于顏色空間特征的圖像分割法[5]和基于特征描述子的模式識(shí)別法常被用于目標(biāo)檢測(cè)識(shí)別。李寒等[6]用Otsu算法選取歸一化紅綠色差圖像的閾值,對(duì)番茄進(jìn)行分割提取,使用局部極大值法對(duì)番茄個(gè)數(shù)進(jìn)行估計(jì)。梁喜鳳等[7]用圖像灰度均衡化法增強(qiáng)圖像,用基于形態(tài)學(xué)梯度的邊緣檢測(cè)器提取番茄果實(shí)串邊緣。Wang等[2]借助紅色吊蔓繩用基于 HIS顏色模型的閾值分割法檢測(cè)番茄主莖。熊俊濤等[8]在夜間LED光照下,用YIQ顏色模型進(jìn)行荔枝果實(shí)識(shí)別。由于果實(shí)成熟度的差異、花齡的不同,番茄器官顏色在生長(zhǎng)期內(nèi)變化頻繁,基于顏色空間特征的圖像分割法識(shí)別目標(biāo)較單一,難以勝任不同類(lèi)型、不同形態(tài)番茄器官的同時(shí)檢測(cè)。Zhao等[9]用Haar-like提取滑動(dòng)窗內(nèi)番茄植株圖像特征,通過(guò)訓(xùn)練好的AdaBoost分類(lèi)器識(shí)別成熟番茄,并進(jìn)一步用平均像素值消除錯(cuò)誤識(shí)別的目標(biāo)。Zhu等[10]用尺度不變特征變換算子(scaleinvariant feature transform, SIFT)提取小麥圖像塊的稠密特征,并用 Fisher向量對(duì)特征進(jìn)行編碼,經(jīng)線(xiàn)性支持向量機(jī)分類(lèi)實(shí)現(xiàn)圖像塊內(nèi)麥穗的識(shí)別。由于特征提取的非實(shí)時(shí)性[11],基于特征描述子的模式識(shí)別法很難實(shí)現(xiàn)植株器官的實(shí)時(shí)檢測(cè)。近幾年,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,CNN在圖像識(shí)別領(lǐng)域受到越來(lái)越多的重視。孫俊等[12]在PlantVillage圖片集上使用CNN分類(lèi)網(wǎng)絡(luò)實(shí)現(xiàn)植株葉片病害識(shí)別。傅隆生等[13]利用CNN網(wǎng)絡(luò)對(duì)田間多簇獼猴桃圖像進(jìn)行識(shí)別,單個(gè)果實(shí)識(shí)別時(shí)間為 0.27 s。周云成等[14]借鑒Fast R-CNN,設(shè)計(jì)了一個(gè)番茄主要器官檢測(cè)器,識(shí)別一張圖像需要0.357 s,該方法識(shí)別速度還無(wú)法滿(mǎn)足實(shí)時(shí)性要求。CNN是一種數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法,通過(guò)優(yōu)化設(shè)計(jì)[15]和大量樣本訓(xùn)練,具有實(shí)時(shí)識(shí)別多種目標(biāo)類(lèi)型的能力。
鑒于此,本文針對(duì)農(nóng)業(yè)機(jī)器人等智能裝備對(duì)實(shí)時(shí)性視覺(jué)識(shí)別的需求及問(wèn)題,以番茄器官實(shí)時(shí)檢測(cè)為例,借鑒已有研究成果,提出一種基于CNN的番茄主要器官實(shí)時(shí)識(shí)別網(wǎng)絡(luò)模型,以特征統(tǒng)計(jì)可分性、計(jì)算速度、模型大小等為判據(jù),分析典型CNN網(wǎng)絡(luò)在番茄器官圖像處理上的性能,并采用啟發(fā)式設(shè)計(jì)策略?xún)?yōu)化設(shè)計(jì)識(shí)別網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu)。通過(guò)樣本擴(kuò)增訓(xùn)練改善基礎(chǔ)網(wǎng)絡(luò)的特征提取能力。以提高識(shí)別精度、召回率、識(shí)別速度,降低模型大小為目標(biāo),設(shè)計(jì)篩選識(shí)別網(wǎng)絡(luò)總體架構(gòu),并在番茄植株圖像上驗(yàn)證其有效性。
試驗(yàn)供試圖像數(shù)據(jù)于2017年8月—12月采集自沈陽(yáng)農(nóng)業(yè)大學(xué)實(shí)驗(yàn)基地某遼沈IV型節(jié)能日光溫室,番茄品種為“瑞特粉娜”,采用吊蔓式栽培方法。用分辨率為1 600×1 200 pixel的Logitech CC2900E高清攝像頭采集花、果、莖3種器官RGB圖像,構(gòu)建番茄器官圖像數(shù)據(jù)集。通過(guò)拍攝時(shí)調(diào)整角度、距離和焦距以及后期裁剪,使每幅圖像只包含一種器官,并占據(jù)圖像的主要幅面。采集過(guò)程中考慮器官的形態(tài)和果實(shí)成熟度,對(duì)現(xiàn)蕾、開(kāi)花和座果期的花,未熟、轉(zhuǎn)色、半熟、成熟和完熟期的果[1],以及莖蔓的上、中、下部等不同形態(tài)的番茄器官進(jìn)行成像,分別采集了花、果、莖圖像4 100、3 850和3 812幅,每類(lèi)器官的各形態(tài)圖像均勻分布。番茄器官圖像數(shù)據(jù)集主要用于目標(biāo)識(shí)別網(wǎng)絡(luò)的基礎(chǔ)結(jié)構(gòu)模型參數(shù)的訓(xùn)練與測(cè)試,每次試驗(yàn)隨機(jī)選擇數(shù)據(jù)集中70%的樣本作為訓(xùn)練集,10%作為驗(yàn)證集,剩余20%作為測(cè)試集。
同時(shí)采集了2 250幅番茄植株圖像,為增加樣本多樣性,用搜索引擎在互聯(lián)網(wǎng)上搜集了750幅番茄植株圖像,共同構(gòu)成番茄植株圖像數(shù)據(jù)集,該數(shù)據(jù)集主要用于目標(biāo)識(shí)別網(wǎng)絡(luò)的微調(diào)與測(cè)試,每次試驗(yàn)隨機(jī)選擇 90%的樣本用于網(wǎng)絡(luò)微調(diào),剩余10%用于網(wǎng)絡(luò)測(cè)試。
綜合借鑒Faster R-CNN[16]錨盒的概念和YOLO[15]、YOLOv2[17]目標(biāo)回歸預(yù)測(cè)的思想,設(shè)計(jì)了一個(gè)完全基于CNN的番茄主要器官目標(biāo)識(shí)別網(wǎng)絡(luò)(圖1所示),以下簡(jiǎn)稱(chēng)為Y2TNet。該網(wǎng)絡(luò)通過(guò)圖像特征預(yù)測(cè)番茄主要器官的邊界及類(lèi)型。Y2TNet將輸入圖像均勻劃分為 Sr×Sc個(gè)網(wǎng)格,并為每個(gè)網(wǎng)格輸出B個(gè)預(yù)測(cè)器(B組預(yù)測(cè)值)。如果圖像中 1個(gè)待檢測(cè)目標(biāo)的中心點(diǎn)落入某個(gè)網(wǎng)格,則由該網(wǎng)格對(duì)應(yīng)的預(yù)測(cè)器來(lái)負(fù)責(zé)檢測(cè)該目標(biāo)。每個(gè)預(yù)測(cè)器輸出1個(gè)邊界框(預(yù)測(cè)框 b),由與 b中心點(diǎn)偏移相關(guān)的 tx、ty和尺寸相關(guān)的tw、th共4個(gè)數(shù)值構(gòu)成。預(yù)測(cè)器同時(shí)輸出b中包含待檢測(cè)目標(biāo)的置信度(由與置信度相關(guān)的數(shù)值 to表示),以及在b包含目標(biāo)的條件下該目標(biāo)分別屬于C種分類(lèi)(所有待識(shí)別的目標(biāo)類(lèi)型的數(shù)量)的類(lèi)別得分,由C個(gè)數(shù)值tci,i=1,2,…,C表示。因此,Y2TNet的CNN部分輸出特征圖的維數(shù)應(yīng)為[B×(5+C)]×Sr×Sc,B表示預(yù)測(cè)器層數(shù),B×(5+C)為特征圖的通道數(shù),Sr×Sc表示高×寬。此處稱(chēng)Sr、Sc和B為Y2TNet的網(wǎng)絡(luò)超參數(shù)。
圖1 番茄主要器官目標(biāo)識(shí)別網(wǎng)絡(luò)(Y2TNet)架構(gòu)Fig.1 Architecture of tomato main organs recognition network (Y2TNet)
預(yù)測(cè)器通過(guò)輸出預(yù)測(cè)框b中心點(diǎn)(用bx, by表示)相對(duì)于對(duì)應(yīng)圖像網(wǎng)格左上角坐標(biāo)(cx, cy)的位置偏移來(lái)實(shí)現(xiàn)位置預(yù)測(cè),用歸一化值描述該偏移,即偏移范圍為0~1,通過(guò)用Sigmoid函數(shù)σ使σ(tx)、σ(ty)落入該范圍。每層預(yù)測(cè)器關(guān)聯(lián)1種預(yù)定義尺寸(用pw、ph表示寬和高)的錨盒,錨盒尺寸的計(jì)算方法與YOLOv2相同。預(yù)測(cè)器通過(guò)預(yù)測(cè) b相對(duì)于關(guān)聯(lián)錨盒的非線(xiàn)性縮放因子來(lái)間接計(jì)算 b的寬和高(用 bw, bh表示),采用 λwσ ( tw)、 λhσ ( th)形式作為橫縱方向上的縮放因子,λw、λh表示輸入圖像和最小錨盒的橫縱比值。網(wǎng)格的左上角坐標(biāo)用網(wǎng)格編號(hào)表示,錨盒尺寸用相對(duì)于輸入圖像的歸一化尺寸表示,則 b的歸一 化 坐 標(biāo) 可 通 過(guò) bx= ( σ(tx) + cx) /Sc、 by=(σ( ty) + cy)/Sr、 bw=pwλwσ (tw)、bh=phλhσ (th)計(jì)算得出。
預(yù)測(cè)器輸出的置信度定義為 P (obj)×IoU(b, obj),其中P(obj)表示預(yù)測(cè)框b中包含目標(biāo)obj的概率,IoU(b, obj)表示b的精度,IoU(intersection over union)指交集面積比上并集面積,反映了預(yù)測(cè)框和目標(biāo)真實(shí)框的吻合程度。若b中無(wú)檢測(cè)目標(biāo),P(obj)=0,否則P(obj)=1,即置信度范圍為 0~1,Y2TNet用 σ函數(shù)使 σ(to)落入該范圍,即P(obj)×IoU(b, obj) = σ (to)。當(dāng) P(obj)=1時(shí),Y2TNet用Softmax函數(shù)將類(lèi)別得分 tci轉(zhuǎn)換為條件類(lèi)別概率P( ci|obj) = Softmax(tci),然后用式(1)計(jì)算 b包含 ci類(lèi)型目標(biāo)的置信度 P ( ci)×IoU(b, obj)。
通過(guò)最小化多目標(biāo)損失函數(shù)實(shí)現(xiàn) Y2TNet參數(shù)的優(yōu)化訓(xùn)練。設(shè)= 1 表示在1幅圖像上第j個(gè)目標(biāo)真實(shí)框gj的中心點(diǎn)落入第i個(gè)單元格,且與i的第k個(gè)預(yù)測(cè)器的關(guān)聯(lián)錨盒最佳匹配,即gj與該錨盒的IoU最大,則單元格i的預(yù)測(cè)器k負(fù)責(zé)預(yù)測(cè)真實(shí)目標(biāo)j。網(wǎng)絡(luò)訓(xùn)練的目標(biāo)之一是使k輸出的預(yù)測(cè)框逼近gj,該目標(biāo)用如下的損失函數(shù)表示
式中M為當(dāng)前圖像的實(shí)際目標(biāo)數(shù);λs表示比例調(diào)整因子,由 gj的歸一化尺寸(,表示寬、高)決定,即2 -,該因子會(huì)對(duì)小目標(biāo)的預(yù)測(cè)偏差施加更大的懲罰,使預(yù)測(cè)框能精確覆蓋小目標(biāo);、、、表示單元格 i的預(yù)測(cè)器 k輸出的邊界框預(yù)測(cè)值; σ ()、σ()是gj中心點(diǎn)相對(duì)于單元格i左上角坐標(biāo)的歸一化偏移, σ ()、 σ)是k的關(guān)聯(lián)錨盒到gj的非線(xiàn)性縮放因子的組成部分。
網(wǎng)絡(luò)訓(xùn)練的另一目標(biāo)是使= 1 的預(yù)測(cè)器的置信度輸出趨近于1,該目標(biāo)對(duì)應(yīng)的損失函數(shù)如下
式中表示單元格i的預(yù)測(cè)器k輸出的置信度預(yù)測(cè)值。
同時(shí),= 1 的預(yù)測(cè)器輸出的條件類(lèi)別概率的預(yù)測(cè)值訓(xùn)練目標(biāo)用如下?lián)p失函數(shù)表示
式中 P| o bj) 是預(yù)測(cè)器 k輸出的概率預(yù)測(cè)值;P| o bj)表示目標(biāo)j的實(shí)際類(lèi)別概率,如j的類(lèi)別為n,則 P| o bj) =1,否則 P| o bj) = 0 。
設(shè)= 1表示 i的第 k個(gè)預(yù)測(cè)器沒(méi)有需要預(yù)測(cè)的對(duì)象,如k輸出的置信度表明其預(yù)測(cè)出了對(duì)象,則是有問(wèn)題的,因此另一訓(xùn)練目標(biāo)是使k輸出的置信度趨近于0。如果k的預(yù)測(cè)框與某個(gè)目標(biāo)真實(shí)框的IoU大于一定閾值(本文取0.6),則設(shè) pik= 0 ,否則 pik= 1。通過(guò) pik= 0 保留k輸出的置信度,用以說(shuō)明其輸出的預(yù)測(cè)框有一定的概率包含對(duì)象。該訓(xùn)練目標(biāo)用如下?lián)p失函數(shù)表示
對(duì)于= 1的預(yù)測(cè)器k,為避免其輸出的預(yù)測(cè)框與關(guān)聯(lián)錨盒偏差過(guò)大,以提高目標(biāo)召回率,使預(yù)測(cè)框中心趨近于k對(duì)應(yīng)單元格i的中心,尺寸趨近于k的關(guān)聯(lián)錨盒的尺寸。該目標(biāo)用如下?lián)p失函數(shù)描述
Y2TNet的多目標(biāo)損失函數(shù)L由上述5項(xiàng)構(gòu)成。
式中{ti}表示網(wǎng)絡(luò)預(yù)測(cè)值集合;λ2、λ5表示權(quán)重系數(shù)。L各項(xiàng)所占比重不同,由于= 1 的預(yù)測(cè)器數(shù)量有限,且置信度對(duì)于表示目標(biāo)是否存在至關(guān)重要,因此設(shè)置λ2=5。因= 1的預(yù)測(cè)器占大多數(shù),且相對(duì)于其他目標(biāo), L的5重要性較低,如果λ5較大的話(huà),將使整個(gè)訓(xùn)練結(jié)果傾向于 L5,因此設(shè)置 λ5= 0 .01。
Y2TNet的特征提取器(圖1虛線(xiàn)框)直接遷移自其他分類(lèi)CNN網(wǎng)絡(luò)的模型參數(shù)。通過(guò)把已經(jīng)訓(xùn)練好的分類(lèi)CNN網(wǎng)絡(luò)的模型參數(shù)遷移到新的識(shí)別網(wǎng)絡(luò)中,并通過(guò)微調(diào)實(shí)現(xiàn)識(shí)別任務(wù)[15-17],即遷徙學(xué)習(xí),可加快并優(yōu)化識(shí)別網(wǎng)絡(luò)的學(xué)習(xí)效率。因此分類(lèi)CNN網(wǎng)絡(luò)特征提取能力和分類(lèi)性能的提升,也能促進(jìn)識(shí)別網(wǎng)絡(luò)性能的提升[18]。Y2TNet的實(shí)時(shí)性由其CNN部分的計(jì)算速度決定。本文首先用計(jì)算速度和特征提取能力等指標(biāo)篩選、設(shè)計(jì)分類(lèi)CNN網(wǎng)絡(luò)并通過(guò)遷移將其作為Y2TNet的基礎(chǔ)結(jié)構(gòu)。
分類(lèi)CNN網(wǎng)絡(luò)的分類(lèi)依據(jù)主要是深層卷積提取的圖像語(yǔ)義特征[19]。語(yǔ)義特征可分性越高,語(yǔ)義越明確,分類(lèi)錯(cuò)誤率也會(huì)越低。top-1、top-5分類(lèi)錯(cuò)誤率常作為評(píng)判網(wǎng)絡(luò)分類(lèi)性能的指標(biāo)。由于不同CNN網(wǎng)絡(luò)使用的分類(lèi)器不同,且分類(lèi)器通常不會(huì)被遷移到識(shí)別網(wǎng)絡(luò)中,所以分類(lèi)性能不能完全反映網(wǎng)絡(luò)的特征提取能力。本文同時(shí)采用特征的統(tǒng)計(jì)可分性來(lái)度量網(wǎng)絡(luò)的特征提取能力。類(lèi)對(duì)間的可分性由 2個(gè)類(lèi)別的特征在特征空間中的重疊程度決定[20],而重疊程度和特征分布之間的統(tǒng)計(jì)距離相關(guān),距離越大可分性越強(qiáng)。本文用J-M距離(Jeffries-Matusita distance)和巴氏距離(Bhattacharyya distance)表征類(lèi)間的統(tǒng)計(jì)可分性。設(shè)類(lèi)別 i、j樣本特征屬正態(tài)分布,則二者的J-M距離(Jij)如下
式中Bij表示i、j間的巴氏距離,其定義如下
式中μi、μj表示類(lèi)別i、j的樣本特征均值向量;Σi、Σj表示i、j樣本特征分布的協(xié)方差矩陣; Σ = ( Σi+ Σj)/2。Jij> 1 .38表示i、j間的統(tǒng)計(jì)可分性強(qiáng)。
J-M距離在巴氏距離較大時(shí)會(huì)趨于飽和,此時(shí)巴氏距離可作為 J-M距離的補(bǔ)充。對(duì)于任意類(lèi)別的圖像樣本,輸入分類(lèi)CNN網(wǎng)絡(luò),將分類(lèi)器之前的最后一個(gè)輸出特征圖作為樣本的特征向量,然后計(jì)算不同類(lèi)別樣本特征向量間的 J-M距離和巴氏距離,以分析類(lèi)別間的統(tǒng)計(jì)可分性,進(jìn)而度量CNN網(wǎng)絡(luò)的特征提取能力。
AlexNet[3]、VGGNet[21]、ResNet[22]、Inception[18,23-25]、Darknet[17]、Xception[26]、IGCNet[27]、DenseNet[28]、MobileNet[4]等是近幾年提出的幾種典型分類(lèi) CNN網(wǎng)絡(luò)類(lèi)型,其中Xception、MobileNet可看作IGCNet的特例,DenseNet是 ResNet的進(jìn)一步發(fā)展。因此,本文選擇AlexNet、VGG-16[21]、Inception v2[24]、Darknet-19、IGCNet、DenseNet共6種網(wǎng)絡(luò)在番茄器官圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練與測(cè)試,分析滿(mǎn)足Y2TNet需求的基礎(chǔ)結(jié)構(gòu)網(wǎng)絡(luò)特點(diǎn)?;谖④浬疃葘W(xué)習(xí)計(jì)算框架CNTK2.4[29],用Python實(shí)現(xiàn)這6種網(wǎng)絡(luò)。
樣本多樣性對(duì)提高CNN特征提取能力和避免網(wǎng)絡(luò)過(guò)擬合至關(guān)重要[3]。由于番茄器官圖像數(shù)據(jù)集只有 3種類(lèi)型,為提高網(wǎng)絡(luò)特征提取能力,需要對(duì)樣本進(jìn)行擴(kuò)增,方法為用其他圖像數(shù)據(jù)集并上番茄器官圖像數(shù)據(jù)集構(gòu)成圖像合集,用合集對(duì)分類(lèi)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。Caltech256的類(lèi)型和樣本數(shù)量適中[30],選用該數(shù)據(jù)集和番茄器官圖像數(shù)據(jù)集構(gòu)成具有 259個(gè)類(lèi)型的圖像合集。為驗(yàn)證樣本擴(kuò)增訓(xùn)練法的有效性,也便于與 Zeiler等[31]的卷積核可視化結(jié)果進(jìn)行對(duì)比,分別用番茄器官圖像數(shù)據(jù)集和圖像合集對(duì)AlexNet進(jìn)行訓(xùn)練和測(cè)試,網(wǎng)絡(luò)輸入為224×224 pixel的RGB圖像,訓(xùn)練中采用的數(shù)據(jù)增廣和預(yù)處理方法同文獻(xiàn)[14]。在一臺(tái)配有1路Intel Xeon E5-2640 CPU、1塊Tesla K40c GPU和16GB內(nèi)存的服務(wù)器上開(kāi)展訓(xùn)練和測(cè)試試驗(yàn),共進(jìn)行5次交叉留存驗(yàn)證(下同),AlexNet的2種訓(xùn)練與測(cè)試結(jié)果如表1。
表1 樣本多樣性對(duì)AlexNet的影響Table 1 Effect of sample diversity on AlexNet
由表1可知,用圖像合集訓(xùn)練的AlexNet比只用番茄器官圖像數(shù)據(jù)集訓(xùn)練的結(jié)果在巴氏距離上有極顯著提高(P<0.01),top-1錯(cuò)誤率也有所下降,說(shuō)明經(jīng)樣本擴(kuò)增訓(xùn)練的AlexNet所提取的特征具有更高的統(tǒng)計(jì)可分性。對(duì)2種訓(xùn)練結(jié)果的AlexNet網(wǎng)絡(luò)的第1層96個(gè)卷積核進(jìn)行可視化,結(jié)果如圖2。
圖2 卷積核可視化Fig.2 Visualization of convolution kernels
經(jīng)過(guò)訓(xùn)練的CNN網(wǎng)絡(luò)會(huì)學(xué)習(xí)出具有方向選擇性和頻率選擇性的卷積核[3,31]。圖 2a表明,經(jīng)番茄器官圖像數(shù)據(jù)集訓(xùn)練的AlexNet的第1層卷積核,除少量外,大部分卷積核沒(méi)有表現(xiàn)出選擇性,說(shuō)明網(wǎng)絡(luò)沒(méi)有得到充分的訓(xùn)練,未能學(xué)習(xí)出有效的過(guò)濾器(filter)來(lái)提取多樣性的低層圖像特征。圖2b是經(jīng)圖像合集訓(xùn)練的卷積核,與Zeiler等[31]的研究結(jié)果相近,AlexNet有更多的卷積核表現(xiàn)出了選擇性特征,這些選擇性核可能與圖像的邊緣或方向特征的提取有關(guān)。表1和圖2都表明增加樣本的多樣性可顯著提高網(wǎng)絡(luò)的特征提取能力,能夠更好地提取番茄主要器官的特征。
用圖像合集分別對(duì)AlexNet、VGG-16等6種網(wǎng)絡(luò)進(jìn)行訓(xùn)練,方法和環(huán)境同前,記錄各網(wǎng)絡(luò)CNTK模型文件大小。各網(wǎng)絡(luò)在番茄器官圖像測(cè)試集上的特征可分性、計(jì)算速度等結(jié)果如表2所示。
由表2可知,6種網(wǎng)絡(luò)的輸出特征的J-M距離都已飽和,說(shuō)明各網(wǎng)絡(luò)提取的器官特征均具有高可分性。從巴氏距離可以看出,IGCNet特征提取能力最強(qiáng),VGG-16最低,其余 4種網(wǎng)絡(luò)的特征提取能力也有顯著差異。除VGG-16的top-1錯(cuò)誤率稍高外,其他5種網(wǎng)絡(luò)的錯(cuò)誤率都相對(duì)較低。智能農(nóng)業(yè)裝備的計(jì)算和存儲(chǔ)資源有限,AlexNet和VGGNet由于權(quán)重參數(shù)多,模型大,很難用在存儲(chǔ)資源有限的設(shè)備上,也難以實(shí)現(xiàn)遠(yuǎn)程升級(jí)更新[32]。IGCNet的特征提取能力強(qiáng),但計(jì)算速度慢,實(shí)時(shí)性低。DenseNet速度為38 幀/s左右,在目標(biāo)識(shí)別任務(wù)中,輸入圖像通常大于224×224 pixel,計(jì)算量更大,因此其不適合作為Y2TNet實(shí)時(shí)識(shí)別的基礎(chǔ)結(jié)構(gòu)。綜合以上分析,本文選擇Inception v2、Darknet-19作為Y2TNet的備選基礎(chǔ)結(jié)構(gòu)。
由表2可知,IGCNet模型大小是Darknet-19的6.37%,但在番茄器官特征提取能力上顯著高于后者,說(shuō)明其網(wǎng)絡(luò)參數(shù)更有效。相較于全連接卷積結(jié)構(gòu)的 Darknet-19,IGCNet由交錯(cuò)組卷積(interleaved group convolution,IGC)塊構(gòu)成,通過(guò)面向通道的IGC塊降低了網(wǎng)絡(luò)參數(shù)數(shù)量。Inception v2也采用了面向通道的設(shè)計(jì)思想。Darknet-19比VGG-16更深、更寬,但通過(guò)使用1×1卷積核使網(wǎng)絡(luò)在增加深度的同時(shí)降低了參數(shù)數(shù)量,模型大小遠(yuǎn)小于VGG-16,特征提取能力和分類(lèi)性能也顯著高于后者。受這些思想的啟發(fā),本文設(shè)計(jì)了1種面向通道分組卷積模塊(channel wise group convolutional, CWGC),如圖3所示。
表2 各網(wǎng)絡(luò)在番茄器官圖像數(shù)據(jù)集上的性能比較Table 2 Performance comparison of each network on image dataset of tomato organs
圖3 卷積模塊Fig.3 Convolutional block
圖3 a所示的CWGC模塊包括4組等寬卷積組,每組由3層標(biāo)準(zhǔn)卷積層構(gòu)成,第一層采用1×1卷積核,以壓縮參數(shù)數(shù)量并增加網(wǎng)絡(luò)表達(dá)能力[32],用 2層等寬的 3×1和1×3卷積核表達(dá)3×3卷積核,用來(lái)增加網(wǎng)絡(luò)的深度和語(yǔ)義特征提取能力[18,25]。多個(gè)獨(dú)立卷積組輸出特征圖合并(Concat)后,經(jīng)ReLU激活,并由Batch Normalization(BN)[24]歸一化后作為CWGC塊的輸出,其中BN用于加快網(wǎng)絡(luò)的訓(xùn)練速度。與全連接卷積相比,在寬度和深度相同的前提下,CWGC模塊可有效降低參數(shù)數(shù)量?;贑WGC模塊設(shè)計(jì)了一個(gè)CWGCNet分類(lèi)網(wǎng)絡(luò)(圖4),除CWGC模塊外,網(wǎng)絡(luò)的前兩層卷積采用Conv-ReLU- BN結(jié)構(gòu)[27],用圖像合集對(duì)其進(jìn)行訓(xùn)練,在番茄器官圖像數(shù)據(jù)測(cè)試集上的測(cè)試結(jié)果如表3。
圖4 基于CWGC模塊的分類(lèi)網(wǎng)絡(luò)(CWGCNet)Fig.4 CWGC-based classification network (CWGCNet)
表3 CWGCNet網(wǎng)絡(luò)在番茄器官圖像數(shù)據(jù)集上的性能Table 3 CWGCNet performance on image dataset of tomato organs
對(duì)比表2、表3,CWGCNet在輸出特征的統(tǒng)計(jì)可分性上介于Inception v2和Darknet-19之間,模型大小只有后兩者的39.7%和20.7%,且速度是后兩者的1.9和1.8倍,說(shuō)明CWGCNet在番茄器官圖像數(shù)據(jù)集上有良好的圖像特征提取能力和計(jì)算速度,該網(wǎng)絡(luò)在可分性、模型大小、計(jì)算速度等方面有較好的平衡,和 Inception v2、Darknet-19共同作為Y2TNet的備選基礎(chǔ)結(jié)構(gòu)。
分別將完成訓(xùn)練的 Inception v2、Darknet-19和CWGCNet的分類(lèi)器部分去除,將卷積部分的模型參數(shù)遷移到Y(jié)2TNet作為基礎(chǔ)結(jié)構(gòu),并通過(guò)微調(diào)實(shí)現(xiàn)目標(biāo)識(shí)別。Redmon等[17]研究表明,在遷移其他分類(lèi)CNN模型參數(shù)基礎(chǔ)上添加新的卷積層(附加層),可提高網(wǎng)絡(luò)性能。本文采用 2種添加方案,一種和 YOLOv2相同,用 3個(gè)conv3×3-1024/1卷積層作為附加層,另一種方案是增加一個(gè)dropout-CWGC塊(圖3b所示),塊的配置為CWGC-128-256-256×4,dropout丟棄率設(shè)置為50%,以避免網(wǎng)絡(luò)過(guò)擬合。設(shè)置Y2TNet的網(wǎng)絡(luò)超參數(shù)Sr=Sc=13,B=5。網(wǎng)絡(luò)主要識(shí)別番茄植株圖像中的花、果、莖目標(biāo),即C=3,此時(shí) Y2TNet的輸出特征圖維數(shù)為 40×13×13。這要求Y2TNet的CNN部分的最后一個(gè)卷積層通道數(shù)應(yīng)為40,因此額外增加一個(gè) conv1×1-40/1結(jié)構(gòu)的卷積層作為輸出層。由此Y2TNet的CNN部分由基礎(chǔ)結(jié)構(gòu)、附加層、輸出層3部分構(gòu)成。根據(jù)Y2TNet的總體結(jié)構(gòu),當(dāng)輸出特征圖尺寸為13×13時(shí),其輸入圖像大小為416×416 pixel。
Y2TNet在基礎(chǔ)結(jié)構(gòu)(遷移模型參數(shù))基礎(chǔ)上添加了額外的卷積層,需要用番茄植株圖像數(shù)據(jù)集通過(guò)最小化多目標(biāo)損失函數(shù)L來(lái)進(jìn)一步進(jìn)行微調(diào)。基于CNTK2.4,用Python實(shí)現(xiàn)YOLOv2和5種結(jié)構(gòu)的Y2TNet(表4所示)。采用手工方式對(duì)番茄植株圖像數(shù)據(jù)集進(jìn)行標(biāo)注,用矩形圈選出器官的邊界(真實(shí)框)并標(biāo)注相應(yīng)類(lèi)型及形態(tài)。隨機(jī)選擇 90%的植株圖像作為訓(xùn)練集,并用帶動(dòng)量因子的批量梯度下降法[18]訓(xùn)練各結(jié)構(gòu)識(shí)別網(wǎng)絡(luò)。每批量樣本數(shù)為32,動(dòng)量因子為0.9,初始學(xué)習(xí)率為0.01,每過(guò)20代迭代訓(xùn)練,將學(xué)習(xí)率降低10倍,直到學(xué)習(xí)率降低到10-6,經(jīng)過(guò)120代迭代訓(xùn)練,各結(jié)構(gòu)網(wǎng)絡(luò)損失均收斂到穩(wěn)定值。
表4 不同結(jié)構(gòu)的Y2TNet識(shí)別網(wǎng)絡(luò)Table 4 Y2TNet network with different structures
用其余 10%的番茄植株圖像測(cè)試各結(jié)構(gòu)網(wǎng)絡(luò),運(yùn)行環(huán)境同前。網(wǎng)絡(luò)的多個(gè)預(yù)測(cè)器可能會(huì)預(yù)測(cè)同一個(gè)目標(biāo),用非極大值抑制算法[33]合并預(yù)測(cè)結(jié)果。用召回率和AP(average precision)、mAP(mean of AP)[34]作為網(wǎng)絡(luò)性能評(píng)價(jià)指標(biāo)。對(duì)于一幅植株圖像,如果網(wǎng)絡(luò)輸出的目標(biāo)預(yù)測(cè)框和目標(biāo)真實(shí)框的IoU大于一定閾值(本文取0.5)且類(lèi)型相同,即認(rèn)為目標(biāo)被召回,被召回的目標(biāo)數(shù)與實(shí)際目標(biāo)數(shù)的比值為召回率。結(jié)果如表5。
表5 不同結(jié)構(gòu)的Y2TNet和YOLOv2網(wǎng)絡(luò)識(shí)別性能比較Table 5 Recognition performance comparison between Y2TNet networks with different structures and YOLOv2
由表5可知,5種結(jié)構(gòu)的Y2TNet都具有實(shí)時(shí)或準(zhǔn)實(shí)時(shí)的處理速度,且具有較高的識(shí)別精度。Y2TNet-A和Y2TNet-B的基礎(chǔ)結(jié)構(gòu)相同,區(qū)別在附加層,前者的3×{conv3×3-1024/1}附加層參數(shù)量達(dá) 2.7×107個(gè),網(wǎng)絡(luò)過(guò)擬合的風(fēng)險(xiǎn)較高,Y2TNet-B的dropout-CWGC參數(shù)量為1.625×106,且用dropout來(lái)避免過(guò)擬合,因此Y2TNet-B的模型大小比 Y2TNet-A小 101.5MB,識(shí)別速度顯著提高,精度也高于后者,Y2TNet-B在花、果、莖的召回率上也都顯著高于Y2TNet-A,即Y2TNet-B具有更高的泛化效果。相似結(jié)果也表現(xiàn)在Y2TNet-C和Y2TNet-D上,說(shuō)明相較于 YOLOv2的附加層方案,用 dropout-CWGC做附加層的改進(jìn)是有效的。
表5的6種結(jié)構(gòu)中,Y2TNet-A和YOLOv2的CNN部分完全相同,區(qū)別在錨盒非線(xiàn)性縮放因子形式和多目標(biāo)損失函數(shù)上,為說(shuō)明Y2TNet的縮放因子和損失函數(shù)對(duì)訓(xùn)練過(guò)程的影響,對(duì)這 2種網(wǎng)絡(luò)的訓(xùn)練誤差降落過(guò)程進(jìn)行了比較(圖 5),結(jié)果表明,在學(xué)習(xí)率相同的情況下,Y2TNet-A在訓(xùn)練初始階段的誤差降落速度快于YOLOv2,說(shuō)明Y2TNet-A更容易收斂。同時(shí)由表5可知,這 2種網(wǎng)絡(luò)的模型大小、召回率、識(shí)別精度和速度無(wú)顯著差異,表明Y2TNet的縮放因子和多目標(biāo)損失函數(shù)是可行的。
圖5 YOLOv2和Y2TNet-A訓(xùn)練誤差比較Fig.5 Comparison of training errors between YOLOv2 and Y2TNet-A
由表 5可知,在番茄器官識(shí)別任務(wù)上,6種網(wǎng)絡(luò)中Y2TNet-D模型文件最小,識(shí)別精度最高,對(duì)花、果、莖的識(shí)別精度分別達(dá)到96.52%、97.85%和82.62%,識(shí)別速度最快,達(dá)62 幀/s,對(duì)花、果、莖的召回率分別為77.39%、69.33%和64.23%,召回率與Y2TNet-E相比無(wú)顯著差異。Y2TNet-D在實(shí)時(shí)性、精度、模型大小上均有好的體現(xiàn),與YOLOv2相比,Y2TNet-D的mAP提高了2.51個(gè)百分點(diǎn),召回率提高了14.03個(gè)百分點(diǎn),因此本文選擇該結(jié)構(gòu)模型作為Y2TNet的最終結(jié)構(gòu),用其分別在番茄植株測(cè)試圖像和采樣頻率為60 幀/s的視頻幀上進(jìn)行測(cè)試,效果如圖6。
由圖6可知,Y2TNet-D可有效識(shí)別番茄植株圖像中的花、果、莖器官,其輸出的預(yù)測(cè)框(圖 6中包圍器官的矩形框)能較好的覆蓋所識(shí)別的目標(biāo)對(duì)象,且預(yù)測(cè)框內(nèi)為對(duì)象的概率均在0.54以上。也可以看出,Y2TNet-D不但能夠識(shí)別近景目標(biāo),對(duì)遠(yuǎn)景目標(biāo)和部分被遮擋的器官也具有一定的識(shí)別效果。對(duì)于采樣頻率為60 幀/s的視頻幀,Y2TNet-D也能夠?qū)崟r(shí)處理。用與表5相同的番茄植株測(cè)試圖像分析 Y2TNet-D對(duì)不同形態(tài)器官的識(shí)別效果,結(jié)果如表6。
圖6 Y2TNet-D的識(shí)別結(jié)果示例Fig.6 Y2TNet-D recognition results example
表6 Y2TNet-D對(duì)不同形態(tài)番茄器官的識(shí)別效果Table 6 Recognition effect of Y2TNet-D on different forms of tomato organs
由表6可知,Y2TNet-D可同時(shí)識(shí)別不同形態(tài)的番茄器官,且均具有較高的識(shí)別精度。番茄器官的形態(tài)、成熟度對(duì)識(shí)別精度有一定影響,其中開(kāi)花期的花、完熟期的果和下部莖稈識(shí)別效果最好。網(wǎng)絡(luò)可召回不同形態(tài)的番茄器官,其中對(duì)開(kāi)花期的花檢測(cè)效果最好,對(duì)完熟期的果也具有較高的召回率。
本文提出一種基于面向通道分組卷積網(wǎng)絡(luò)的番茄主要器官實(shí)時(shí)目標(biāo)識(shí)別網(wǎng)絡(luò)模型,以統(tǒng)計(jì)可分性、計(jì)算速度等為判據(jù),結(jié)合樣本擴(kuò)增訓(xùn)練,篩選并設(shè)計(jì)識(shí)別網(wǎng)絡(luò)基礎(chǔ)結(jié)構(gòu),經(jīng)番茄植株圖像和實(shí)時(shí)視頻幀識(shí)別試驗(yàn),結(jié)果表明:
1)在番茄器官圖像數(shù)據(jù)集上,用Caltech256對(duì)基礎(chǔ)結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)行樣本擴(kuò)增訓(xùn)練,可顯著提高網(wǎng)絡(luò)的特征提取能力。
2)面向通道的分組卷積模塊能夠顯著提高識(shí)別網(wǎng)絡(luò)的召回率、識(shí)別速度和精度,并能大幅降低模型大??;Sigmoid形式的非線(xiàn)性縮放因子和相應(yīng)多目標(biāo)損失函數(shù)使識(shí)別網(wǎng)絡(luò)更容易收斂。
3)所設(shè)計(jì)的番茄器官識(shí)別網(wǎng)絡(luò)能識(shí)別不同成熟度和不同形態(tài)的番茄器官,對(duì)花、果、莖的識(shí)別精度分別達(dá)到96.52%、97.85%和82.62%,召回率分別達(dá)到77.39%、69.33%和64.23%,在Tesla K40c GPU上的計(jì)算速度達(dá)62 幀/s,具有實(shí)時(shí)識(shí)別能力。
4)與 YOLOv2相比,該文識(shí)別網(wǎng)絡(luò)召回率提高了14.03個(gè)百分點(diǎn),識(shí)別精度提高了2.51個(gè)百分點(diǎn)。
[1] 尹建軍,毛罕平,王新忠,等. 自然條件下番茄成熟度機(jī)器人判別模型[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2009,40(10):146-150.Yin Jianjun, Mao Hanping, Wang Xinzhong, et al. Judgement method on maturity of harvesting-tomato for robot under natural conditions[J]. Transactions of the Chinese Society for Agricultural Machinery, 2009, 40(10): 146-150. (in Chinese with English abstract)
[2] Wang Xinzhong, Han Xu, Mao Hanping. Vision-based detection of tomato main stem in greenhouse with red rope[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 135-141. (in English with Chinese abstract)王新忠,韓旭,毛罕平. 基于吊蔓繩的溫室番茄主莖稈視覺(jué)識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2012,28(21):135-141.
[3] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J].Communications of the ACM, 2012, 60(6): 84-90.
[4] Howard A G, Zhu M, Chen B, et al. MobileNets: Efficient convolutional neural networks for mobile vision applications[EB/OL]. [2018-01-28] https: //arxiv.org/pdf/1704.04861.pdf.
[5] 趙杰文,劉木華,楊國(guó)彬. 基于HIS顏色特征的田間成熟番茄識(shí)別技術(shù)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2004,35(5):122-124.Zhao Jiewen, Liu Muhua, Yang Guobin. Discrimination of mature tomato based on HIS color space in natural outdoor scenes[J]. Transactions of the Chinese Society for Agricultural Machinery, 2004, 35(5): 122-124. (in Chinese with English abstract)
[6] 李寒,王庫(kù),曹倩,等. 基于機(jī)器視覺(jué)的番茄多目標(biāo)提取與匹配[J]. 農(nóng)業(yè)工程學(xué)報(bào),2012,28(5):168-172.Li Han, Wang Ku, Cao Qian, et al. Tomato targets extraction and matching based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE), 2012, 28(5): 168-172. (in Chinese with English abstract)
[7] 梁喜鳳,章艷. 串番茄采摘點(diǎn)的識(shí)別方法[J]. 中國(guó)農(nóng)機(jī)化學(xué)報(bào),2016,37(11):131-134,149.Liang Xifeng, Zhang Yan. Recognition method of picking point for tomato cluster[J]. Journal of Chinese Agricultural Mechanization, 2016, 37(11): 131-134, 149. (in Chinese with English abstract)
[8] 熊俊濤,林睿,劉振,等. 夜間自然環(huán)境下荔枝采摘機(jī)器人識(shí)別技術(shù)[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2017,48(11):28-34.Xiong Juntao, Lin Rui, Liu Zhen, et al. Visual technology of picking robot to detect litchi at nighttime under natural environment [J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(11): 28-34. (in Chinese with English abstract)
[9] Zhao Y, Gong L, Zhou B, et al. Detecting tomatoes in greenhouse scenes by combining AdaBoost classifier and colour analysis[J]. Biosystems Engineering, 2016, 148(8):127-137.
[10] Zhu Y, Cao Z, Lu H, et al. In-field automatic observation of wheat heading stage using computer vision[J]. Biosystems Engineering, 2016, 143: 28-41.
[11] 陳天華,王福龍. 實(shí)時(shí)魯棒的特征點(diǎn)匹配算法[J]. 中國(guó)圖象圖形學(xué)報(bào),2016,21(9):1213-1220.Chen Tianhua, Wang Fulong. Real-time robust feature-point matching algorithm[J]. Journal of Image and Graphics, 2016,21(9): 1213-1220. (in Chinese with English abstract)
[12] 孫俊,譚文軍,毛罕平,等. 基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多種植物葉片病害識(shí)別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(19):209-215.Sun Jun, Tan Wenjun, Mao Hanping, et al. Recognition of multiple plant leaf diseases based on improved convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(19): 209-215. (in Chinese with English abstract)
[13] 傅隆生,馮亞利,Elkamil Tola,等. 基于卷積神經(jīng)網(wǎng)絡(luò)的田間多簇獼猴桃圖像識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2018,34(2):205-211.Fu Longsheng, Feng Yali, Elkamil Tola, et al. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2018, 34(2): 205-211. (in Chinese with English abstract)
[14] 周云成,許童羽,鄭偉,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的番茄主要器官分類(lèi)識(shí)別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(15):219-226.Zhou Yuncheng, Xu Tongyu, Zheng Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(15): 219-226. (in Chinese with English abstract)
[15] Redmon J, Divvala S, Girshick R, et al. You only look once:Unified, real-time object detection[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016: 779-788.
[16] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[17] Redmon J, Farhadi A. YOLO9000: Better, faster,stronger[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 6517-6525.
[18] Szegedy C, Vanhoucke V, Ioffe S, et al. Rethinking the inception architecture for computer vision[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016: 2818-2826.
[19] Lin T Y, Dollar P, Girshick R, et al. Feature pyramid networks for object detection[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:936-944.
[20] 王長(zhǎng)耀,劉正軍,顏春燕. 成像光譜數(shù)據(jù)特征選擇及小麥品種識(shí)別實(shí)驗(yàn)研究[J]. 遙感學(xué)報(bào),2006,10(2):249-255.Wang Changyao, Liu Zhengjun, Yan Chunyan. An experimental study on imaging spectrometer data feature selection and wheat type identification[J]. Journal of Remote Sensing, 2006, 10(2): 249-255. (in Chinese with English abstract)
[21] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL].[2018-01-28] https: //arxiv.org/abs/1409.1556.
[22] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 770-778.
[23] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// Computer Vision and Pattern Recognition.IEEE, 2015: 1-9.
[24] Ioffe S, Szegedy C. Batch normalization: Accelerating deep network training by reducing internal covariate shift[C]// In Proceedings of the 32nd International Conference on Machine Learning, 2015: 448-456.
[25] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4,Inception-ResNet and the impact of residual connections on learning[C]// Proceedings of Thirty-First AAAI Conference on Artificial Intelligence(AAAI-17), 2017.
[26] Chollet F. Xception: Deep learning with depthwise separable convolutions[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017: 1800-1807.
[27] Zhang T, Qi G J, Xiao B, et al. Interleaved group convolutions for deep neural networks[EB/OL]. [2018-01-28]https: //arxiv.org/abs/1707.02725.
[28] Huang G, Liu Z, Weinberger K Q, et al. Densely connected convolutional networks[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017:2261-2269.
[29] Agarwal A, Akchurin E, Basoglu C, et al. An introduction to computational networks and the computational network toolkit[EB/OL]. [2018-01-28] https: //www.microsoft.com/en-us/research/wp-content/uploads/2014/08/CNTKBook-201 6027.pdf.
[30] Griffin G, Holub A D, Perona P. The Caltech 256[EB/OL].[2018-01-28] http: //www.vision.caltech.edu/Image_Datasets/Caltech256/
[31] Zeiler M D, Fergus R. Visualizing and understanding convolutional networks[C]// European Conference on Computer Vision. Springer, Cham, 2014: 818-833.
[32] Iandola F N, Han S, Moskewicz M W, et al. SqueezeNet:AlexNet-level accuracy with 50x fewer parameters and<0.5MB model size[EB/OL]. [2018-01-28] https: //arxiv.org/abs/1602. 07360.
[33] Neubeck A, Gool L V. Efficient non-maximum suppression[C]// International Conference on Pattern Recognition. IEEE Computer Society, 2006: 850-855.
[34] Everingham M, Gool L V, Williams C K I, et al. The pascal,visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.