鄧寒冰,許童羽※,周云成,苗 騰,3,張聿博,徐 靜,金 莉,陳春玲
(1. 沈陽農(nóng)業(yè)大學(xué)信息與電氣工程學(xué)院,沈陽 110866;2. 遼寧省農(nóng)業(yè)信息化工程技術(shù)研究中心,沈陽 110866;3. 北京農(nóng)業(yè)信息技術(shù)研究中心,北京 100097)
現(xiàn)代肉牛養(yǎng)殖業(yè)是中國大力扶植和發(fā)展的產(chǎn)業(yè),從目前的牛肉需求來看,中國牛肉需求有望從2008年的608萬t上漲到2020年的828萬t[1],而與此對應(yīng)的是國內(nèi)牛肉供應(yīng)增長乏力,這就要求養(yǎng)殖戶要通過更科學(xué)的手段進(jìn)行肉牛養(yǎng)殖以提高牛肉產(chǎn)量。
在集約飼養(yǎng)的條件下,肉牛異常行為的出現(xiàn)經(jīng)常是隨機(jī)的、短暫的,因此如果不能長時(shí)間連續(xù)觀察,很難引起飼養(yǎng)人員的重視,這往往會延長對肉牛疾病的發(fā)現(xiàn)時(shí)間,給飼養(yǎng)人員造成巨大的經(jīng)濟(jì)損失[2]?,F(xiàn)代研究發(fā)現(xiàn),肉牛異常行為是由于多種因素綜合引起的,包括環(huán)境因素、飼料營養(yǎng)、激素、心理和遺傳等[3]。所以,引起牛的行為異常原因很復(fù)雜,不同性別、不同生長階段表現(xiàn)也有所不同,因此需要對肉牛進(jìn)行長時(shí)間連續(xù)細(xì)致觀察才能及時(shí)發(fā)現(xiàn)和預(yù)防。
隨著大規(guī)模圖像數(shù)據(jù)的產(chǎn)生及計(jì)算硬件(GPU等)的飛速發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的相關(guān)方法在各應(yīng)用領(lǐng)域取得了突破性的成果[4-7]。在深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network, DCNN)方面,將自動化圖像特征提取與分類過程融合,并實(shí)現(xiàn)自主學(xué)習(xí)。國內(nèi)外研究人員在DCNN的基礎(chǔ)理論[8]、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)[9-14]、圖像流處理[15]上開展了很多研究。特別是在目標(biāo)識別等領(lǐng)域已經(jīng)得到越來越多的認(rèn)可,例如微軟公司設(shè)計(jì)的ResNet(大于1 000層)在圖像分類、目標(biāo)檢測和語義分割等各個(gè)方面都取得了很好的成績[16]。自 2014年 Ross Girshick等提出利用RCNN[17](regions with CNN feature)方法實(shí)現(xiàn)目標(biāo)識別以后,深度卷積神經(jīng)網(wǎng)絡(luò)的已經(jīng)成為實(shí)時(shí)目標(biāo)識別的主要方法,其性能和精度都遙遙領(lǐng)先于當(dāng)時(shí)最優(yōu)的DPM(deformable parts model)方法。此后,在實(shí)時(shí)檢測方面,分別出現(xiàn)了基于區(qū)域推薦和基于預(yù)測邊界框的 2類核心方法:其中區(qū)域推薦方法普遍采用滑動窗口來實(shí)現(xiàn),對像素尺寸較小的目標(biāo)比較敏感,但對圖像整體內(nèi)容沒有進(jìn)行關(guān)聯(lián)分析,如 Fast R-CNN[18]、Faster R-CNN[19]、HyperNet[20]等;而預(yù)測邊界框方法通常使用預(yù)設(shè)區(qū)域,識別速度快,但會影響圖像背景中的小尺寸物體識別精度,如YOLO[21]、SSD[22]等。
隨著各類方法的不斷更新和優(yōu)化,深度神經(jīng)網(wǎng)絡(luò)在各研究領(lǐng)域發(fā)揮的作用也越來越明顯。其中,在農(nóng)業(yè)科研領(lǐng)域深度卷積神經(jīng)網(wǎng)絡(luò)已經(jīng)從理論研究向?qū)嶋H應(yīng)用轉(zhuǎn)移。在溫室環(huán)境下已經(jīng)出現(xiàn)了基于CNN的植物花、葉、果實(shí)等自動識別原型系統(tǒng)[23-26];在病蟲害識別方面,已經(jīng)出現(xiàn)對害蟲分類,病害分類分級的方法[27-31]。目前,針對家禽、水產(chǎn)等大型動物的實(shí)時(shí)圖像處理分析逐漸成為研究熱點(diǎn),文獻(xiàn)[32]提出用視頻分析方法提取奶牛軀干圖像,用卷積神經(jīng)網(wǎng)絡(luò)準(zhǔn)確識別奶牛個(gè)體方法;文獻(xiàn)[33]從水產(chǎn)動物視覺檢測的圖像采集、輪廓提取、特征標(biāo)定與計(jì)算等方面提出了改進(jìn)措施,對基于計(jì)算機(jī)視覺測量的動物疾病診斷和分類進(jìn)行探討和總結(jié);文獻(xiàn)[34]采用改進(jìn)分水嶺分割算法實(shí)現(xiàn)運(yùn)動對群養(yǎng)豬運(yùn)動軌跡進(jìn)追蹤。隨著多類型信息化設(shè)備在現(xiàn)代養(yǎng)殖業(yè)的使用,數(shù)據(jù)的多模態(tài)特性逐漸成為研究的關(guān)注點(diǎn),利用多模態(tài)數(shù)據(jù)間的內(nèi)容關(guān)聯(lián)實(shí)現(xiàn)算法性能提升和過程優(yōu)化,已經(jīng)成為深度學(xué)習(xí)的一條重要研究方向[35]。特別是在如何利用多模態(tài)數(shù)據(jù)來提高目標(biāo)識別的精度與速度方面,仍有很多亟待解決的問題。
為此,本文以肉牛為研究對象,擬通過深度卷積神經(jīng)網(wǎng)絡(luò)來實(shí)現(xiàn)面向多模態(tài)數(shù)據(jù)(深度與 RGB)的肉牛形體部位快速識別。在分類網(wǎng)絡(luò)的基礎(chǔ)上,利用多模態(tài)數(shù)據(jù)對網(wǎng)絡(luò)部分層中的參數(shù)進(jìn)行精調(diào)(fine-tuning),同時(shí)利用多模態(tài)數(shù)據(jù)間的映射原理(可用于去除圖像背景),降低候選區(qū)域的個(gè)數(shù),進(jìn)而加快網(wǎng)絡(luò)對形體部位的識別速度,以期實(shí)現(xiàn)對運(yùn)動時(shí)肉牛的形體部位的定位與識別。
由于本文中需要識別的類型較少(頭、軀干、腿、尾),因此為了避免過擬合問題,提高樣本的多樣性,本試驗(yàn)分別于2016年5月–2017年3月期間在遼寧省法庫縣牛場進(jìn)行數(shù)據(jù)采集。其中訓(xùn)練集和驗(yàn)證集是通過 4種不同像素的數(shù)碼相機(jī)進(jìn)行采集約 10 000幅肉牛完整圖像,然后通過人工處理形成約40 000幅包括肉牛頭部、軀干、尾部、腿部及背景 5種類型的彩色圖像用于網(wǎng)絡(luò)的訓(xùn)練(80%)和驗(yàn)證(20%);而對于測試集,本試驗(yàn)利用可采集景深數(shù)據(jù)的視頻設(shè)備,采集約10組完整視頻文件(連續(xù)圖像序列)。
1)設(shè)備選?。罕疚囊晕④浌镜腒inect作為測試集圖像采集的設(shè)備,該設(shè)備能夠相同時(shí)間維度上采集拍攝范圍內(nèi)的彩色數(shù)據(jù)(RGB)和深度數(shù)據(jù)(Depth,即拍攝對象與攝像頭的距離值)。其中 RGB數(shù)據(jù)是通過高清攝像頭獲取的,而深度數(shù)據(jù)是通過紅外線收發(fā)裝置測距來獲取的。因此通過 Kinect可以在同一時(shí)間維度上獲取 2種模態(tài)的圖像數(shù)據(jù)。
2)場景布置:為了提高采樣過程中圖像樣本的質(zhì)量,避免由于肉牛之間的相互重疊而造成的局部特征信息丟失,本試驗(yàn)在測試集采樣過程中,每次取樣限定對 1頭牛進(jìn)行拍攝。根據(jù)官方給出的Kinect參數(shù)[36],攝像頭的水平拍攝視角為57°,垂直拍攝視角為43°,垂直方向的傾斜范圍±27°,有效拍攝范圍約為0.5~4.5 m。由于肉牛的平均高度大約為1.5~1.7 m,為了減少樣本圖像中的物體形變,將攝像頭的垂直高度設(shè)置為1.6 m。
利用Kinect(20~30幀/s)采集測試樣本,平均每小時(shí)將會產(chǎn)生72 000~108 000幅圖像,其中大部分屬于“低價(jià)值”數(shù)據(jù)(即未出現(xiàn)肉牛以及肉牛長時(shí)間靜止)。為了在測試集中減少這類數(shù)據(jù),同時(shí)保證肉牛動作序列的連續(xù)性和完整性,本文提出一種隨機(jī)最近鄰像素比較法(random nearest neighbor pixel comparison, RNNPC),按照時(shí)間順序,在原始樣本序列中按序取出相鄰2幅RGB圖像,分別在 2幅圖像中抽取具有相同坐標(biāo)和面積的圖像區(qū)域,并計(jì)算該區(qū)域RGB三通道的像素差值和,通過比較每組像素差值和與預(yù)先設(shè)定閾值間的大小關(guān)系,來預(yù)測圖像中的該區(qū)域關(guān)聯(lián)的物體是否出現(xiàn)位移,進(jìn)而篩選保留較為完整連續(xù)的動作序列。
為了實(shí)現(xiàn)RNNPC方法,本文將測試集中原圖像序列樣本分為3種類型(如圖1所示):1)靜態(tài)序列(static sequence, SS):在連續(xù)圖像序列中,肉牛處于靜止?fàn)顟B(tài)或肉牛移出拍攝范圍;2)細(xì)微動作序列(micro-action sequence, MAS):在連續(xù)圖像序列中,肉牛有細(xì)微的動作變化,但沒有明顯的水平或垂直移動,例如出現(xiàn)咀嚼、搖晃尾巴、轉(zhuǎn)頭等;3)明顯動作序列(obvious-action sequence, OAS):在連續(xù)圖像序列中,肉牛有明顯的水平或垂直移動,例如行走、臥躺、進(jìn)食等。
圖1 三類測試樣本Fig.1 Test samples of three types
考慮攝像頭在采集樣本過程中是靜止的,因此光照變化和肉牛動作是導(dǎo)致圖像像素變化的主要原因。根據(jù)這一特點(diǎn),RNNPC方法的具體實(shí)現(xiàn)如下:
由于Mt1與Mt2是在不同時(shí)間點(diǎn)獲得的圖像像素矩陣,理論上 Mt1≠M(fèi)t2,因此本文為像素距離)設(shè)計(jì)了階躍函數(shù)Hθ
式中θ表示像素距離閾值,利用函數(shù)Hθ可以統(tǒng)計(jì)相鄰像素矩陣間d值超過閾值θ的像素點(diǎn)總數(shù)N
式中MH表示像素矩陣的行數(shù)(對應(yīng)圖像高度),MW表示像素矩陣的列數(shù)(對應(yīng)圖像寬度);為了使隨機(jī)位置獲取的圖像區(qū)域能夠盡量捕捉到目標(biāo)移動,這里設(shè)隨機(jī)參數(shù)rand∈(0.5,1),即該方法可以從相鄰圖像中選取至少rand×MH×MW個(gè)起始位置隨機(jī)但空間連續(xù)的像素點(diǎn)進(jìn)行差值計(jì)算。此外,本文將像素矩陣中的每個(gè)位置都賦予一個(gè)隨機(jī)數(shù)?,且?∈[0,1],對于不同位置的?不相等,即? (x1, y1)≠?(x2, y2)?;趓and值設(shè)置命中函數(shù)Tr
利用式(1)~(4)就可以計(jì)算相鄰圖像之間的相似度
可以看出s(Mt1, Mt2)∈(0,1),當(dāng)s(Mt1, Mt2)趨近于1,表示相鄰圖像相似度高,反之表示相似度低。
本文從Kinect獲取的RGB圖像樣本中選取3組序列(分別為靜態(tài)序列、細(xì)微動作序列、明顯動作序列)。在給定Δt = 50 ms的條件下,通過設(shè)置θ值來獲取每組圖像序列的相似度曲線。分別將圖 1中 3組圖像序列作為RNNPC方法的輸入,通過計(jì)算得到的相似度曲線如圖2所示??梢妼τ诓煌臉颖绢愋停嗨贫惹€呈現(xiàn)出不同的特點(diǎn)。從3組序列的曲線分布來看,隨著θ值的增加,SS的相似度從30%左右(圖2a)提高到97%左右(圖2c),隨著θ值的增加,由光照造成的像素差異明顯減少;在θ=0時(shí),3類曲線的差異不明顯(圖2a),而隨著θ值增加,曲線分布差異逐漸增大,然而當(dāng) θ≥10時(shí),這種差異又出現(xiàn)減小的趨勢(對比圖2b與圖2c)??梢宰C明隨著θ的增大,可以將3種不同類型曲線分布差異擴(kuò)大,但當(dāng) θ超過一定限度時(shí),這差異又出現(xiàn)減弱的趨勢,這表明當(dāng) θ增加到一定程度,由目標(biāo)移動所產(chǎn)生的像素變化將不再明顯。因此,考慮減少光照影響,同時(shí)擴(kuò)大相似度曲線分布差異,本文選擇θ=5作為像素距離閾值。
圖2d是由RNNPC方法獲取的一段完整的圖像序列樣本的相似度曲線。設(shè)smax為曲線最大值,s為曲線值的均值,Smax為曲線局部極大值集合,為局部極大值均值,Smin為曲線局部極小值集合,為局部極小值均值
圖2 不同像素距離閾值θ下的圖像序列相似度曲線Fig.2 Similarity curve of image sequence of different pixel distance thresholds θ
為了檢驗(yàn) RNNPC方法對于完整視頻數(shù)據(jù)處理的有效性,試驗(yàn)選用10段視頻進(jìn)行處理(每段視頻30 min左右)。根據(jù)視頻信息的幀率,可以計(jì)算出每段視頻將產(chǎn)生約3.6萬幀圖像。將自動保留下來的圖像序列與人工篩選保留的序列進(jìn)行比較,結(jié)果如表1所示。
表1 隨機(jī)最近鄰像素比較法產(chǎn)生明顯動作序列的結(jié)果Table 1 Results of obvious-action sequence by random nearest neighbor pixel comparison(RNPPC)
從試驗(yàn)結(jié)果可以看到,利用RNNPC方法采集連續(xù)圖像樣本可以節(jié)省72%左右的存儲空間,而剩余38%樣本的有效率在94%左右,樣本質(zhì)量和數(shù)量可以滿足樣本要求。
由于本文采用區(qū)域推薦原理來生成目標(biāo)候選框,因此如何利用深度圖像來減少連續(xù)RGB圖像序列在測試過程中的產(chǎn)生的候選框數(shù)量是本節(jié)主要解決的問題。
為了將深度信息進(jìn)行可視化處理,本文用灰度值來表示深度信息
式中i(x, y)表示位于深度值矩陣Id中(x, y)位置的深度值;g(x, y)表示與i(x, y)對應(yīng)的灰度值;dmax表示最遠(yuǎn)拍攝距離;dmin表示最近拍攝距離。深度值小于dmin的像素點(diǎn)灰度值設(shè)為0,而深度值大于dmax的像素點(diǎn)灰度值設(shè)為255。圖3是利用Kinect在同一時(shí)刻采集的肉牛RGB圖像以及利式(7)計(jì)算得到的深度圖像。
圖3 相同時(shí)間維度的RGB圖像和深度圖像Fig.3 RGB and depth images with same temporal dimension
由于Kinect的彩色相機(jī)和紅外相機(jī)存在平移距離差,因此在同一時(shí)刻采集的原始RGB圖像與深度圖像在內(nèi)容上無法實(shí)現(xiàn)關(guān)聯(lián)。如果能夠在目標(biāo)識別之前盡量去除原圖像中的背景信息,就能縮短區(qū)域推薦算法的運(yùn)行時(shí)間。所以,需要實(shí)現(xiàn)深度圖像與RGB圖像間主要區(qū)域的像素點(diǎn)映射。
本文首先利用微軟公司提供的開源方法對空間上存在關(guān)聯(lián)的像素點(diǎn)進(jìn)行標(biāo)注,然后將深度像素點(diǎn)投影到RGB圖像上,由于深度圖像的大小與分辨率都小于RGB圖像,因此在處理像素點(diǎn)關(guān)聯(lián)的過程中會損失RGB圖像部分邊緣信息。圖4c給出了映射效果(只保留映射部分),其中深度圖像中的肉牛與RGB圖像中的肉牛的外沿輪廓幾乎完全重合。實(shí)現(xiàn)像素點(diǎn)映射就可以建立RGB圖像與深度圖像在內(nèi)容上的關(guān)聯(lián),這為下一步去除圖像背景信息提供了有效的支持。
利用目標(biāo)檢測算法(Selective Search[37])來處理原始RGB圖像,會生成大量的候選區(qū)域(2×103以上),其中90%以上都是無效或重疊候選區(qū)域。為了減少無效的候選區(qū)域數(shù)目,本文利用深度信息將原始RGB圖像中的背景慮除,并且保證肉牛形體圖像的完整。
對于深度圖像序列,過濾背景需要在圖像序列中找到肉牛移動過程中的灰度區(qū)間,同時(shí)將區(qū)間外的像素信息都過濾掉。然而由于肉牛是移動的,因此其灰度區(qū)間也是動態(tài)變化的。本文首先要獲得被拍攝對象運(yùn)動時(shí)的動態(tài)平均灰度值。在1.2節(jié)中,利用RNNPC方法可以用于計(jì)算相鄰圖像的相似度,而相似度是通過像素差值來得到的,因此可以利用RNNPC方法間接獲得最鄰近圖像間的像素變化區(qū)域,這里設(shè)置為RC,對區(qū)域內(nèi)全部像素點(diǎn)做均值計(jì)算,可以得到均值灰度ρ
圖4 深度圖像和彩色圖像映射結(jié)果及在結(jié)果對應(yīng)的候選框Fig.4 Results of depth and color images mapping and corresponding bounding boxes
式中|RC|為RC集合中像素點(diǎn)個(gè)數(shù),gi為RC集合中第i個(gè)像素點(diǎn)的灰度值?;讦阎悼梢栽O(shè)定一個(gè)區(qū)間系數(shù)δ。對于深度圖像M,g(x,y)為圖像中(x, y)處像素點(diǎn)的灰度值,利用式(9)對全部像素進(jìn)行處理,則[ρ?δ, ρ+δ]區(qū)間內(nèi)的像素將被保留下來。
然而經(jīng)過式(9)處理后,仍會殘留很多無效像素點(diǎn),為了去掉更多的無效信息,本文利用改進(jìn)后的正態(tài)分布函數(shù),對式(9)的結(jié)果圖像進(jìn)行二次灰度處理。將ρ值作為正態(tài)分布函數(shù)的期望,通過調(diào)整方差 σ和自定義系數(shù)φ來改變函數(shù)形態(tài)
其中期望值μ = ρ,方差σ和自定義系數(shù)φ為人工設(shè)定參數(shù)。本文這里將對灰度進(jìn)行兩種類型的處理:對于RC集合中的像素點(diǎn)盡量保留原始灰度信息,令式(10)中的σ=4,φ=15,這樣可以保證灰度值在[ρ-δ, ρ+δ]內(nèi)的像素點(diǎn)不被降低像素值;對于不在RC集合內(nèi)的像素點(diǎn),要將這些區(qū)域的灰度調(diào)低至0值附近,因此令式(10)中的σ=1,φ=0.5,這樣可以令灰度值在[ρ-δ, ρ+δ]區(qū)間之外的像素點(diǎn)的像素值趨近于0。從圖4d中可以看到,式(10)可以將深度圖像中的背景信息過濾掉,同時(shí)最大程度保留了肉牛整體形體信息。
基于上述方法,可以將過濾后的深度圖像中的黑色像素位置標(biāo)識出來,并將RGB圖像中相同坐標(biāo)位置的像素值設(shè)為0,本文將這種過濾背景信息的圖像稱為DRGB圖像。圖4e是利用Selective Search算法處理DRGB圖像而產(chǎn)生的結(jié)果。經(jīng)過統(tǒng)計(jì),候選區(qū)域的數(shù)量約為 200個(gè)左右,與原始圖像的處理結(jié)果相比,候選區(qū)域數(shù)量降低了一個(gè)數(shù)量級,這會使網(wǎng)絡(luò)測試過程中減少候選框的生成數(shù)量,從輸入源頭減少了區(qū)域推薦和候選邊框回歸等過程的運(yùn)行時(shí)間。
訓(xùn)練集和驗(yàn)證集主要用于訓(xùn)練分類網(wǎng)絡(luò)模型,是實(shí)現(xiàn)目標(biāo)識別的前提。為了提高樣本多樣性,在采集圖像過程中分別在牛棚內(nèi)、牛棚外進(jìn)行拍攝,同時(shí)針對肉牛形體大小、形狀特點(diǎn)、毛皮顏色以及不同姿態(tài)等分別進(jìn)行拍攝。最后將整體圖像進(jìn)行人工裁剪和標(biāo)注,形成測試集和驗(yàn)證集,過程如圖5所示。
圖5 訓(xùn)練集和驗(yàn)證集樣本生成過程Fig.5 Generation process of training and validation samples set
AlexNet[38]是Image LSVRC-2102大賽中的冠軍模型,是一種典型的卷積神經(jīng)網(wǎng)絡(luò),如圖 6所示。其中的卷積層主要作用是提取特征,包含一組可以自動更新的卷積核,針對不同的特征提取密集度,卷積核用固定大小的卷積步長(Stride)與來自上一層的圖像或特征圖作卷積運(yùn)算,經(jīng)由激活函數(shù)(ReLU)變換后構(gòu)成卷積特征圖,代表對輸入圖像特征的響應(yīng)。
AlexNet設(shè)計(jì)的結(jié)構(gòu)及訓(xùn)練策略是基于 ImageNet[39]數(shù)據(jù)集,主要適用于廣義的物體識別。若將AlexNet直接用于肉牛關(guān)鍵部位的定位和識別,會因數(shù)據(jù)規(guī)模小、數(shù)據(jù)類別間的紋理差異小而出現(xiàn)損失函數(shù)收斂效果差和過擬合等風(fēng)險(xiǎn)[40]。同時(shí),隨著網(wǎng)絡(luò)寬度和深度的增加,其學(xué)習(xí)能力也會相應(yīng)的提高,但是訓(xùn)練成本也會呈指數(shù)增長。特別是對于固定分類問題,當(dāng)網(wǎng)絡(luò)層數(shù)過多后,會出現(xiàn)性能下降的問題,因此需要針對具體問題調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和樣本。
首先,肉牛的關(guān)鍵部位的表象通常大小、形狀各異,比如軀干的成像面積遠(yuǎn)大于頭、腿和尾部,腿和尾部的成像寬度比頭和軀干要窄。為此,本文采用均值像素填充的方式來將不同大小的圖像轉(zhuǎn)換為 227×227 大小的RGB圖像作為網(wǎng)絡(luò)輸入(圖7),避免由于拉抻造成的圖像形變。
圖6 AlexNet網(wǎng)絡(luò)架構(gòu)Fig.6 AlexNet framework
圖7 利用均值像素填充原始圖片F(xiàn)ig.7 Fill original image with mean pixels
針對頭、軀干、腿、尾和背景的5分類問題,將AlexNet的FC3層的神經(jīng)元數(shù)量調(diào)整為5個(gè)。未改進(jìn)的AlexNet的參數(shù)個(gè)數(shù)達(dá)到6 000萬個(gè),是為了解決大規(guī)模圖像分類而設(shè)計(jì)的,而本試驗(yàn)在類型數(shù)量和樣本數(shù)量上都相對很少。為了提高網(wǎng)絡(luò)訓(xùn)練效果,在保持AlexNet基本結(jié)構(gòu)不改變的前提下,本文配置了8種類型分類網(wǎng)絡(luò)(表2),每種網(wǎng)絡(luò)需要訓(xùn)練的參數(shù)總數(shù)量隨著網(wǎng)絡(luò)層數(shù)的遞減而遞減。其中在全連接層參數(shù)不變的前提下,減少卷積層參數(shù)對參數(shù)總量影響較?。ū?中網(wǎng)絡(luò)I、II、III比較);而全連接層對參數(shù)總量的影響較大(表2中網(wǎng)絡(luò)IV和V)。
本文使用的深度學(xué)習(xí)框架主要基于Tensorflow平臺實(shí)現(xiàn)(convolutional architecture for fast feature embedding)[41],計(jì)算平臺采用單塊型號為NVDIA Tesla K40 的圖形處理器(支持PCI-E 3.0,核心頻率為745 MHz,顯存12 GB,顯存頻率6 GHz,帶寬288 GB/s)[42]。由于支持PCI-E 3.0,這使得K40與CPU之間的帶寬從8 GB/s提高到15.75 GB/s。
采用小批量隨機(jī)梯度下降法對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,在首次訓(xùn)練時(shí)只將batch數(shù)目設(shè)置為32,在每輪訓(xùn)練結(jié)束后再將batch值提高到原來的2倍進(jìn)行下一次訓(xùn)練,一直增加到256。采用均值為0、標(biāo)準(zhǔn)偏差為0.01的高斯分布為網(wǎng)絡(luò)所有層的權(quán)重進(jìn)行隨機(jī)初始化,偏置(bias)均初始化為0,學(xué)習(xí)速率(lr)設(shè)置為0.01,在訓(xùn)練過程中學(xué)習(xí)率 的變化率為0.1。
表2 基于AlexNet的8種分類網(wǎng)絡(luò)配置Table 2 Eight kinds of network configuration based on AlexNet
在batch偏小時(shí)(如圖8a所示),在訓(xùn)練的過程中會遇到非常多的局部極小點(diǎn),在步長和卷積方向的共同作用下,雖然 loss值呈現(xiàn)不斷減小的趨勢,但在整個(gè)過程仍然會出現(xiàn)loss值跳變的情況。迭代在60 000次到70 000次之間出現(xiàn)了較大的loss值震蕩,在80 000次迭代之后,loss值趨于平穩(wěn)。
圖8 訓(xùn)練AlexNet訓(xùn)練時(shí)損失值loss收斂情況Fig.8 Convergence of loss from training AlexNet
為降低 loss值出現(xiàn)跳變的幾率,本文將從以下幾個(gè)方面對網(wǎng)絡(luò)進(jìn)行優(yōu)化:首先將lr調(diào)節(jié)到0.02,相當(dāng)于間接增加了卷積的步長,在一定程度上可以避免訓(xùn)練產(chǎn)生的震蕩,越過局部極小點(diǎn)繼續(xù)向更大的極值點(diǎn)方向進(jìn)行訓(xùn)練;對于每一層的偏置項(xiàng)從0設(shè)置為0.1,限制激活閾值的大小,這樣就降低了出現(xiàn)過大誤差的概率,避免迭代方向出現(xiàn)較大的變化;繼續(xù)增大batch的值,提高每次訓(xùn)練樣本的覆蓋率。
通過調(diào)整學(xué)習(xí)率和偏置項(xiàng),網(wǎng)絡(luò)訓(xùn)練的收斂性得到了很好的改善,但會帶來整體收斂速度過慢的問題,因此需要增加最大迭代的次數(shù)。圖8b是batch=256時(shí)的loss值分布情況,loss值在40 000次迭代是就出現(xiàn)明顯的收斂趨勢且沒有出現(xiàn)loss值跳變。因此,本文選擇batch=256訓(xùn)練分類網(wǎng)絡(luò)。
根據(jù)預(yù)先準(zhǔn)備的5分類40 000幅肉牛關(guān)鍵部位圖像數(shù)據(jù)做樣本,其中訓(xùn)練集32 000幅,測試集8 000幅,針對表2中8種網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行試驗(yàn)。參考ILSVRC的評判標(biāo)準(zhǔn),使用top-1錯(cuò)誤率(沒有被網(wǎng)絡(luò)正確分類的圖像數(shù)與樣本集圖像總數(shù)的比例)評價(jià)個(gè)網(wǎng)絡(luò)的性能。其中8中網(wǎng)絡(luò)的top-1錯(cuò)誤率(%)分別為0.312(網(wǎng)絡(luò)I)、0.608(網(wǎng)絡(luò) II)、0.763(網(wǎng)絡(luò) III)、0.453(網(wǎng)絡(luò) IV)、0.598(網(wǎng)絡(luò) V)、0.795(網(wǎng)絡(luò) VI)、1.276(網(wǎng)絡(luò) VII)、6.641(網(wǎng)絡(luò)VIII)。
網(wǎng)絡(luò)I和網(wǎng)絡(luò)IV具有較高的分類精度,而網(wǎng)絡(luò)VIII的性能最差。在網(wǎng)絡(luò)寬度相同的前提下,層數(shù)越多分類精度越高(如網(wǎng)絡(luò)I的精度要高于網(wǎng)絡(luò)II,網(wǎng)絡(luò)II的精度高于網(wǎng)絡(luò) III);在網(wǎng)絡(luò)深度相同時(shí),通過增加網(wǎng)絡(luò)寬度,會使分類精度有所提高(網(wǎng)絡(luò)I、IV、V、VI、VII、VIII的精度遞減),這是由于寬度增加使每個(gè)卷積層的卷積核數(shù)量也會增加,這樣可以從輸入圖像中提取更多的特征,以此來提高網(wǎng)絡(luò)分類性能。但層數(shù)越多(特別是全連接層),網(wǎng)絡(luò)越寬,參數(shù)總量就越大,訓(xùn)練時(shí)間就越長,因此根據(jù)分類數(shù)量和樣本數(shù)量來調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),本文為了綜合精度和訓(xùn)練時(shí)間,選擇網(wǎng)絡(luò)VI作為本試驗(yàn)的分類網(wǎng)絡(luò)。
目標(biāo)識別過程,除了要對目標(biāo)對象進(jìn)行分類,更重要的是找到目標(biāo)對象的正確位置。因此在獲得高精度分類網(wǎng)絡(luò)后,需要根據(jù)識別對象的特征對分類網(wǎng)絡(luò)進(jìn)行參數(shù)微調(diào)(fine-tuning),同時(shí)根據(jù)真值區(qū)域(ground truth)的位置,對所有候選區(qū)域(region proposals)進(jìn)行合并或刪除操作,最終保留概率最大的邊框(bounding-box)作為該對象的識別位置。
本文參考了 Fast R-CNN的實(shí)現(xiàn)方法,利用 RoI(Region of Interesting)池化取代分類網(wǎng)絡(luò)的最后一個(gè)池化層,設(shè)計(jì)出針對肉牛形體部位(頭、軀干、腿、尾)的識別網(wǎng)絡(luò),如圖9所示。通過卷積-池化層對輸入的整幅圖像進(jìn)行特征提取,并生成特征圖;利用 Selective Search在DRGB圖像上生成候選區(qū)域(如圖9中的矩形候選區(qū)域?qū)?yīng)的肉牛頭部信息);RoI池化層根據(jù)候選區(qū)域到特征圖的坐標(biāo)投影,從特征圖上獲取候選區(qū)域特征,歸一化為大小固定的輸出特征,最終由全連接層和softmax分類器進(jìn)行分類和識別,由bounding box回歸器來進(jìn)行邊框位置定位。由于該識別網(wǎng)絡(luò)對整幅圖像只進(jìn)行一次連續(xù)卷積操作,因此可以做到端到端處理,提高了該模型處理實(shí)時(shí)目標(biāo)識別問題的能力。
本文選擇網(wǎng)絡(luò) VI作為圖 9的基本網(wǎng)絡(luò)結(jié)構(gòu),利用RoI池化層替換網(wǎng)絡(luò)VI的最后一個(gè)池化層。在fine-tuning前,選擇1 000幅DRGB作為參與精調(diào)的訓(xùn)練集,通過人工標(biāo)注肉牛頭部、軀干、腿部和尾部等部位的真實(shí)區(qū)域(ground truth regions,GTRs),利用 Selective search 在每幅 DRGB上獲取 200個(gè)左右的目標(biāo)候選區(qū)域(object region proposals,ORPs),利用 IoU(intersection over union)來計(jì)算ORP與GTR的重疊程度,其中IoU=ORP∩GTR ORP ∪ GTR,如果 IoU≥0.5,則該候選區(qū)域被標(biāo)記為對應(yīng)真實(shí)區(qū)域的類型(正例),否則被標(biāo)記為背景(負(fù)例)。由于識別網(wǎng)絡(luò)中負(fù)責(zé)特征提取部分與網(wǎng)絡(luò)IV的結(jié)構(gòu)一致,可以復(fù)用網(wǎng)絡(luò)VI的卷積層進(jìn)行圖像特征提取,因此識別網(wǎng)絡(luò)可以共享網(wǎng)絡(luò)VI的所有權(quán)重參數(shù),包括全部卷積層和 3個(gè)全連接層。將肉牛圖像的正、負(fù)例區(qū)域圖像截取出來混入網(wǎng)絡(luò)VI的訓(xùn)練樣本,繼續(xù)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,利用再次訓(xùn)練好的網(wǎng)絡(luò)VI初始化識別網(wǎng)絡(luò)。
圖9 基于FR-CNN的肉牛關(guān)鍵部位識別網(wǎng)絡(luò)Fig.9 Recognition network for cattle key parks based on Fast R-CNN(FR-CNN)
為驗(yàn)證DRGB圖像序列對網(wǎng)絡(luò)識別性能的提升,本文同樣利用Fast RCNN模型對RGB 圖像序列進(jìn)行識別處理,并比較2次測試的平均精度[43](average precision,AP)、全局平均精度mAP(mean AP)[43]以及識別速度,結(jié)果如表3所示。測試結(jié)果證明,F(xiàn)R-CNN+DRGB 在檢測速度(4.32幀/s)上遠(yuǎn)遠(yuǎn)高于FR-CNN+RGB的檢測速度(0.5幀/s),而且前者的mAP(75.88%)也高于后者的mAP(68.07%)。其中,F(xiàn)R-CNN+DRGB網(wǎng)絡(luò)對肉牛頭部的檢測效果最好(86.32%),對尾部的檢測效果最差(61.25%)。這是由于頭部的形狀比較單一,而且特征相比于其他部位更加明顯;而尾部與腿部存在形狀、紋理、顏色的相似性,因此特征相似。利用 FR-CNN+DRGB 網(wǎng)絡(luò)對一段連續(xù)圖像序列進(jìn)行目標(biāo)識別處理,截取其中一段的識別效果如圖10 所示,從對連續(xù)幀處理的結(jié)果上看,在肉牛行走過程中牛腿、牛頭、牛身都可以很清晰的識別出來,而牛尾本身在行走過程中可能會隱藏在牛腿間,而且形態(tài)特征類似于牛腿,因此會在個(gè)別圖像中沒有成功識別,但這并不影響肉牛整體形態(tài)的識別。而通過觀察可以看出,每個(gè)識別的目標(biāo)基本可以與肉牛形體關(guān)鍵部位對應(yīng),實(shí)現(xiàn)了對運(yùn)動中肉牛關(guān)鍵位置的識別。
表3 肉牛關(guān)鍵部位檢測速度和平均精度Table 3 Detection speed and average precision of cattle key parts
圖10 部分運(yùn)動中的肉牛形態(tài)部位識別結(jié)果Fig.10 Partly body shape parts recognition results of moving cattle
本文利用Kinect在相同時(shí)間維度下采集肉牛運(yùn)動過程的2種模態(tài)信息(Depth and RGB,DRGB),并針對2種模態(tài)信息進(jìn)行相應(yīng)的處理,試驗(yàn)結(jié)果表明:利用隨機(jī)最近鄰像素比較法(random nearest neighbor pixel comparison, RNNPC)來自動獲取運(yùn)動中肉牛連續(xù)幀圖像,可以減少 72%的無效幀數(shù)據(jù),且平均有效幀比率約為94%;將RGB圖像與Depth圖像進(jìn)行像素點(diǎn)映射,并利用Depth圖像中動態(tài)變化區(qū)域的均值深度來過濾RGB圖像背景,生成DRGB圖像,經(jīng)Selective Search算法測試,目標(biāo)候選區(qū)域可以減少一個(gè)約數(shù)量級;基于AlexNet設(shè)計(jì)出 8種分類網(wǎng)絡(luò),通過調(diào)整深度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)變化策略,可以提高這 8類分類網(wǎng)絡(luò)練時(shí)的收斂速度,同時(shí)參照Fast-RCNN構(gòu)造了最終目標(biāo)識別網(wǎng)絡(luò)。利用DRGB樣本訓(xùn)練后的識別網(wǎng)絡(luò)在識別平均分類精度可以達(dá)到75.88%,識別速度可以達(dá)到4.32幀/s,而利用RGB樣本訓(xùn)練后的原Fast RCNN網(wǎng)絡(luò)在分類精度上可以達(dá)到68.07%,識別速度可以達(dá)到0.5幀/s,因此基于DRGB的識別網(wǎng)絡(luò)要優(yōu)于原生 Fast RCNN。綜合上述方法,最終可以實(shí)現(xiàn)對運(yùn)動時(shí)肉牛關(guān)鍵部位的識別。
[1] 國家統(tǒng)計(jì)局. 2016年國民經(jīng)濟(jì)和社會發(fā)展統(tǒng)計(jì)公報(bào)[EB/OL].http://www.stats.gov.cn/tjsj/zxfb/201702/t20170228_1467424.html.
[2] 羅錫文,廖娟,胡煉,等. 提高農(nóng)業(yè)機(jī)械化水平促進(jìn)農(nóng)業(yè)可持續(xù)發(fā)展[J]. 農(nóng)業(yè)工程學(xué)報(bào),2016,32(1):1-11.Luo Xiwen, Liao Juan, Hu Lian, et al. Improving agricultural mechanization level to promote agricultural sustainable development[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2016,32(1): 1-11. (in Chinese with English abstract)
[3] 何東健,孟凡昌,趙凱旋,等. 基于視頻分析的犢牛基本行為識別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2016,47(9):294-300.He Dongjian, Meng Fanchang, Zhao Kaixuan, et al.Recognition of calf basic behaviors based on video analysis[J]. Transactions of the Chinese Society for Agricultural Machinery, 2016, 47(9): 294-300. (in Chinese with English abstract)
[4] Yann Lecun, Yoshua Bengio, Geoffrey Hinton. Deep Learning[J]. Nature, 2015, 521: 436-444.
[5] Dahl G E, Yu D, Deng L, et al. Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(1): 504-507.
[6] Hinton G E, Salakhutdinov R R. Reducing the dimensionality of data with neural networks[J]. Science, 2006, 313(5786):504-507.
[7] Gawehn E, Hiss J A, Schneider G. Deep learning in drug discovery[J]. Molecular Informatics, 2016, 35(1): 3-14.
[8] Lecun Y, Boser B, Denker J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.
[9] Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[C]//International Conference on Neural Information Processing Systems. Curran Associates Inc, 2012: 1097-1105.
[10] Szegedy C, Liu W, Jia Y, et al. Going deeper with convolutions[C]// Computer Vision and Pattern Recognition.IEEE, 2015: 1-9.
[11] Srivastava R K, Greff K, Schmidhuber J. Highway networks[EB/OL]. https: //arxiv.org/abs/1505.00387.
[12] Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[C]// International Conference on Learning Representations (ICLR), 2015.
[13] He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society, Las Vegas, NV, United States, 2016.
[14] Redmon J, Farhadi A. YOLO9000: Better, Faster,Stronger[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR). IEEE Computer Society, Honolulu, Hawaii, United States, 2017.
[15] Deng J, Berg A, Satheesh S, et al. ImageNet large scale visual recognition competition 2012(ILSVRC2012) [EB/OL].http: //www.image-net.org/challeges/ISVRC/2012/.
[16] Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2013, 35(8): 1915-1929.
[17] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2014.
[18] Girshick R. Fast R-CNN[C]// IEEE International Conference on Computer Vision (ICCV), 2015.
[19] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Annual Conference on Neural Information Processing Systems (NIPS), 2015.
[20] Tao Kong, Anbang Yao, Yurong Chen, et al. HyperNet:Towards Accurate Region Proposal Generation and Joint Object DetectionTao Kong[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.
[21] Redmon, J, Divvala, S, Girshick, R, et al. A: You only look once unified, real-time object detection[C]// Proceedings of IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2016.
[22] Wei Liu, Dragomir Anguelov, Dumitru Erhan, et al. SSD:Single Shot MultiBox Detector[C]// European Conference on Computer Vision (ECCV), 2016.
[23] 田有文,程怡,王小奇,等. 基于高光譜成像的蘋果蟲傷缺陷與果梗/花萼識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(4):325-331.Tian Youwen, Cheng Yi, Wang Xiaoqi, et al. Recognition method of insect damage and stem/calyx on apple based on hyperspectral imaging[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(4): 325-331. (in Chinese with English abstract)
[24] 周云成,許童羽,鄭偉,等. 基于深度卷積神經(jīng)網(wǎng)絡(luò)的番茄主要器官分類識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(15):219-226.Zhou Yuncheng, Xu Tongyu, Zheng Wei, et al. Classification and recognition approaches of tomato main organs based on DCNN[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(15): 219-226. (in Chinese with English abstract)
[25] 賈偉寬,趙德安,劉曉樣,等. 機(jī)器人采摘蘋果果實(shí)的K-means和 GA-RBF-LMS神經(jīng)網(wǎng)絡(luò)識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(18):175-183.Jia WeiKuan, Zhao Dean, Liu Xiaoyang, et al. Apple recognition based on K-means and GA-RBF-LMS neural network applicated in harvesting robot[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(18): 175-183. (in Chinese with English abstract)
[26] 趙源深,貢亮,周斌,等. 番茄采摘機(jī)器人非顏色編碼化目標(biāo)識別算法研究[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2016, 47(7): 1-7.Zhao Yuanshen, Gong Liang, Zhou Bin, et al. Object recognition algorithm of tomato harvesting robot using non-color coding approach[J]. Transactions of the Chinese Society for Agricultural Engineering, 2016, 47(7): 1-7. (in Chinese with English abstract)
[27] 楊國國,鮑一丹,劉子毅. 基于圖像顯著性分析與卷積神經(jīng)網(wǎng)絡(luò)的茶園害蟲定位與識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(6):156-162.Yang Guoguo, Bao Yidan, Liu Ziyi. Localization and recognition of pests in tea plantation based on image saliency analysis and convolutional neural network[J]. Transactions of the Chinese Society of Agricultural Engineering(Transactions of the CSAE),2017, 33(6): 156-162. (in Chinese with English abstract)
[28] 譚文學(xué),趙春江,吳華瑞,等. 基于彈性動量深度學(xué)習(xí)的果體病例圖像識別[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(1):20-25.Tan Wenxue, Zhao Chunjiang, Wu Huarui, et al. A deep learning network for recognizing fruit pathologic images based on flexible momentum[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015, 46(1): 20-25. (in Chinese with English abstract)
[29] 王獻(xiàn)鋒,張善文,王震,等. 基于葉片圖像和環(huán)境信息的黃瓜病害識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2014,30(14):148-153.Wang Xianfeng, Zhang Shanwen, Wang Zhen, et al.Recognition of cucumber diseases based on leaf image and environmental information[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2014, 30(14): 148-153. (in Chinese with English abstract)
[30] 王新忠,韓旭,毛罕平. 基于吊蔓繩的溫室番茄主莖稈視覺識別[J]. 農(nóng)業(yè)工程學(xué)報(bào),2012,28(21):135-141.Wang Xinzhong, Han Xu, Mao Hanping. Vision-based detection of tomato main stem in greenhouse with red rope[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2012, 28(21): 135-241. (in Chinese with English abstract)
[31] 郭艾俠,熊俊濤,肖德琴,等. 融合Harris與SIFT算法的荔枝采摘點(diǎn)計(jì)算與立體匹配[J]. 農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(12): 11-17. (in Chinese with English abstract)Guo Aixia, Xiong Juntao, Xiao Deqin, et al. Computation of picking point of litchi and its binocular stereo matching based on combined algorithms of Harris and SIFT[J]. Transactions of the Chinese Society for Agricultural Machinery, 2015,46(12): 11-17. (in Chinese with English abstract)
[32] 趙凱旋,何東鍵. 基于卷積神經(jīng)網(wǎng)絡(luò)的奶牛個(gè)體身份識別方法[J]. 農(nóng)業(yè)工程學(xué)報(bào),2015,31(5):181-187.Zhao Kaixuan, He Dongjian. Recognition of individual dairy cattle based on convolutional neural networks[J].Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015, 31(5): 181-187. (in Chinese with English abstract)
[33] 段延娥,李道亮,李振波,等. 基于計(jì)算機(jī)視覺的水產(chǎn)動物視覺特征測量研究綜述[J]. 農(nóng)業(yè)工程學(xué)報(bào), 2015,31(15):1-11.Duan Yan’e, Li Daoliang, Li Zhenbo, et al. Review on visual characteristic measurement research of aquatic animals based on computer vision[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2015,31(15): 1-11. (in Chinese with English abstract)
[34] 高云,郁厚安,雷明剛,等. 基于頭尾定位的群豬運(yùn)動軌跡追蹤[J]. 農(nóng)業(yè)工程學(xué)報(bào),2017,33(2): 220-226.Gao Yun, Yu Hou’an, Lei Minggang, et al. Trajectory tracking for group housed pigs based on locations of head/tail[J]. Transactions of the Chinese Society of Agricultural Engineering (Transactions of the CSAE), 2017,33(2): 220-226. (in Chinese with English abstract)
[35] Nitish Srivastava, Ruslan Salakhutdinov. Multimodal learning with deep Boltzmann machines[C]// International Conference on Neural Information Processing System (NIPS),2012: 2222-2230.
[36] Microsoft. Developing with Kinect for Windows[EB/OL].https://developer.microsoft.com/en-us/windows/kinect/develop.
[37] Uijlings J, Vandesande K, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision. 2013, 104(2): 154-171.
[38] Alex Krizhevsky, Ilya Sutskever, Geoffrey E Hinton.ImageNet classification with deep convolutional neural networks[C]// Proceedings of the 25thInternational Conference on Neural Information Processing Systems.2012-12-03, 1097-1105.
[39] Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2014, 115(3): 211-252.
[40] He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[EB/OL]. https://arxiv.org/abs/1512.03385.
[41] Abadi M, Barham P, Chen J, et al. TensorFlow: A system for large-scale machine learning[C]//Usenix Conference on Operating Systems Design & Implementation, 2016.
[42] Nvidia. Nvidia Tesla K40[EB/OL]. www.nvidia.cn/object/t esla_product_literature_cn.html.
[43] Everingham M, Gool L V, Williams C K I, et al. The pascal visual object classes (VOC) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.