黃豪杰,段先華,黃欣辰
江蘇科技大學(xué) 計(jì)算機(jī)學(xué)院,江蘇 鎮(zhèn)江212000
隨著近年來(lái)人工智能技術(shù)的應(yīng)用越來(lái)越多,計(jì)算機(jī)科學(xué)技術(shù)在日常生產(chǎn)活動(dòng)中的應(yīng)用越來(lái)越多,如無(wú)人車技術(shù)、智能監(jiān)控系統(tǒng)、人臉識(shí)別[1]等應(yīng)用領(lǐng)域,這些利用計(jì)算機(jī)圖像處理技術(shù)對(duì)目標(biāo)進(jìn)行檢測(cè)和監(jiān)控越來(lái)越流行。目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)的基本問(wèn)題,但在自然環(huán)境中,水果的目標(biāo)檢測(cè)存在以下挑戰(zhàn):水果被枝葉遮擋或分割,果實(shí)之間相互重疊,光照不均勻帶來(lái)的一系列影響。近年來(lái),許多研究已經(jīng)提出了許多水果檢測(cè)和識(shí)別算法來(lái)解決上述問(wèn)題。
Wshcs等[2]利用彩色相機(jī)來(lái)獲取果樹上綠色蘋果的彩色圖像,然后利用熱圖像來(lái)分析特征組合實(shí)現(xiàn)檢測(cè),但是利用熱圖像的方法只能在陽(yáng)光直射的情況下進(jìn)行;Si等[3]通過(guò)利用基于面積特征和極線的匹配算法實(shí)現(xiàn)了蘋果目標(biāo)的定位,但是果實(shí)的震蕩具有隨機(jī)性和復(fù)雜性,將會(huì)導(dǎo)致識(shí)別與定位的準(zhǔn)確性降低;Ji等人[4]采用支持向量機(jī)對(duì)紅蘋果進(jìn)行識(shí)別,識(shí)別率高達(dá)97%,但為了得到更好的模型,需要使用監(jiān)督學(xué)習(xí)提取有效樣本;Rocha等[5]完善了IBM團(tuán)隊(duì)開發(fā)的果蔬識(shí)別系統(tǒng),采用監(jiān)督學(xué)習(xí)方法,利用水果的顏色特征和分類器結(jié)合技術(shù),識(shí)別率很高但是只對(duì)15類水果取樣。水果在自然環(huán)境下檢測(cè)的難度不僅是水果圖像獲得困難,分析提取水果圖像中組合特征也有固定性,因此上述傳統(tǒng)水果檢測(cè)方法不被廣泛使用,實(shí)用價(jià)值不大[6]。
隨著云時(shí)代的到來(lái),卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[7]架構(gòu)出現(xiàn)了分類和識(shí)別,對(duì)圖像識(shí)別精度做出了標(biāo)志性貢獻(xiàn)。Liu等人[8]提出了一種基于CNN的SSD(Single Shot Detector)方法,用于深度學(xué)習(xí)對(duì)象的識(shí)別和檢測(cè),在保證準(zhǔn)確性的同時(shí)實(shí)時(shí)性也得到了加強(qiáng)。本文以蘋果、橘子、荔枝三種水果作為研究對(duì)象,對(duì)自然環(huán)境下水果識(shí)別檢測(cè)進(jìn)行研究,將SSD訓(xùn)練使用的VGG16網(wǎng)絡(luò)替換為深度殘差網(wǎng)絡(luò)ResNet-101[9],并利用FPN[10]將高層特征通過(guò)上采樣與低層特征進(jìn)行自頂向下的連接,且每一層都會(huì)獨(dú)立預(yù)測(cè),以此來(lái)提升自然環(huán)境下水果識(shí)別的精度和魯棒性。
SSD是一個(gè)基于前向傳播CNN網(wǎng)絡(luò),從Conv4_3開始利用多級(jí)特征圖的組合作為分類和回歸的依據(jù),以此達(dá)到多尺度特征預(yù)測(cè)的效果。SSD模型最開始主網(wǎng)絡(luò)是由VGG16[11]中部分卷積層組成并將最后兩層的Conv6和Conv7換成全連接層,用于圖像分類。隨后添加4個(gè)額外卷積層,卷積層大小遞減,完成多尺度下預(yù)測(cè)。SSD300框架如圖1所示,輸入圖像為300×300。
SSD中的默認(rèn)框和Faster-rcnn錨(anchors)機(jī)制[12]類似,對(duì)不同尺度的特征圖使用不同大小和橫縱比的默認(rèn)框。假設(shè)本文以m個(gè)特征圖做預(yù)算,那么默認(rèn)框的大小計(jì)算公式:
式中,smin=0.2;smax=0.95,表示最底層的大小為0.2,最高層的大小為0.95。
同時(shí),SSD采用默認(rèn)框機(jī)制,對(duì)于同一特征層上的特征單元采取幾個(gè)不同的縱橫比,增強(qiáng)模型對(duì)不同物體形狀的魯棒性,記為ar={1,2,3,1/2,1/3},對(duì)于縱橫比等于1這一類,它的。對(duì)于Conv4_3,Conv10_2,Conv11_2不使用3,1/3的縱橫比,則:
圖1 SSD模型結(jié)構(gòu)
圖2 改進(jìn)的SSD模型結(jié)構(gòu)設(shè)計(jì)
其中(cx,cy)為第k層特征層上某一個(gè)默認(rèn)框的中心坐標(biāo);(wfeature,hfeature)為特征層上的寬和高;(wimg,himg)為原始圖像的寬和高。(xmin,xmax),(ymin,ymax)分別是該默認(rèn)框?qū)?yīng)到原圖上的目標(biāo)框的左上角和右下角坐標(biāo)。每個(gè)默認(rèn)框需要預(yù)測(cè)c個(gè)類別的得分(score)和4個(gè)物體位置相對(duì)于邊界框的偏移量(offset),設(shè)一個(gè)特征圖的大小是m×n,則每個(gè)默認(rèn)框表示類別的概率的置信度有c×k×m×n個(gè)輸出,;每個(gè)默認(rèn)框回歸后坐標(biāo)有4×k×m×n個(gè)輸出,那么這個(gè)特征圖一共有(c+4)×k×m×n個(gè)輸出。
經(jīng)典的SSD模型無(wú)法完全提取圖像目標(biāo)的特征。當(dāng)特征層進(jìn)行融合時(shí),VGG16網(wǎng)絡(luò)結(jié)構(gòu)的Conv4_3卷積層用于進(jìn)行特征融合以預(yù)測(cè)小目標(biāo)。以這種方式,會(huì)出現(xiàn)包含在低級(jí)卷積特征層中的語(yǔ)義信息不夠的問(wèn)題。隨著網(wǎng)絡(luò)深度的加深,提取的特征不足,精度降低。為了克服SSD模型本身的缺陷,本文將基礎(chǔ)網(wǎng)絡(luò)模型替換為深度殘差網(wǎng)絡(luò)Resnet101并利用FPN將高層特征通過(guò)上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合,改進(jìn)后檢測(cè)模型結(jié)構(gòu)如圖2所示。
為減少網(wǎng)絡(luò)深度增加帶來(lái)的梯度彌散或梯度爆炸以及網(wǎng)絡(luò)層數(shù)增加引起的訓(xùn)練集精確率下降等影響,本文將經(jīng)典SSD模型中的VGG基礎(chǔ)訓(xùn)練網(wǎng)絡(luò)替換為深度殘差網(wǎng)絡(luò)ResNet101,解決隨著網(wǎng)絡(luò)加深準(zhǔn)確性下降的問(wèn)題。
假定某段神經(jīng)網(wǎng)絡(luò)的輸入的是X,期望輸出是H(X),直接將輸入X傳到輸出作為初始結(jié)果,此時(shí)需要學(xué)習(xí)的目標(biāo)是F(X)=H(X)-X。如圖3所示,是深度殘差網(wǎng)絡(luò)的一個(gè)殘差學(xué)習(xí)單元,相當(dāng)于將學(xué)習(xí)目標(biāo)改變,不再是學(xué)習(xí)一個(gè)完整輸出H(X),只是輸入和輸出的差別H()X-X,即殘差。簡(jiǎn)言之就是增加一個(gè)恒等映射,把原始所需要學(xué)習(xí)的H(X)轉(zhuǎn)化成F(X)+X。深度殘差網(wǎng)絡(luò)的核心思想是將一個(gè)復(fù)雜多元的問(wèn)題拆分成多個(gè)尺度直接的殘差問(wèn)題,對(duì)網(wǎng)絡(luò)模型的訓(xùn)練起到很好的優(yōu)化加速效果,即使網(wǎng)絡(luò)不斷加深,準(zhǔn)確率也不會(huì)下降。
圖3 殘差學(xué)習(xí)單元
殘差單元通過(guò)恒等映射的引入在輸入和輸出之間建立了一條直聯(lián)通道,從而使得有參層集中學(xué)習(xí)輸入和輸出之間的殘差。用F( )X,Wi來(lái)表示殘差映射,當(dāng)輸入和輸出維道相同時(shí),那么輸出即為Y=F( )
X,Wi+X。當(dāng)輸入維度與輸出維度不相同時(shí),需要添加一個(gè)線性投影Ws來(lái)匹配維度,如下式所示:
在引入ResNet101網(wǎng)絡(luò)之后,為避免經(jīng)典SSD模型中低層網(wǎng)絡(luò)語(yǔ)義信息不夠而導(dǎo)致提取的特征使用不充分,對(duì)小物體檢測(cè)效果較差這一問(wèn)題,本文利用特征金字塔網(wǎng)絡(luò)(FPN)來(lái)搭建檢測(cè)模型。FPN是將高層特征通過(guò)上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合,網(wǎng)絡(luò)的每個(gè)層都是獨(dú)立測(cè)試的。圖4展示了傳統(tǒng)SSD模型和改進(jìn)的SSD模型的利用特征形式。
圖4 特征形式比較圖
本文使用的主要網(wǎng)絡(luò)是Resnet101,將特征金字塔分成三個(gè)部分,一個(gè)自底向上的路徑、一個(gè)自頂向下的路徑和中間連接的部分,如圖5所示。
圖5 特征金字塔路徑結(jié)構(gòu)圖
自底向上的路徑:自底向上的路徑是卷積網(wǎng)絡(luò)的前饋計(jì)算,該算法計(jì)算由不同比例的特征映射組成的特征層級(jí)。具體到這個(gè)改進(jìn)網(wǎng)絡(luò),本文使用conv3_x這個(gè)原始resnet101中的卷積層和后面擴(kuò)展的三層SSD卷積層,將這些特征輸出表示為{C3,C6,C7,C8}。
自頂向下的路徑:自頂向下的路徑是將高層網(wǎng)絡(luò)上的更強(qiáng)的語(yǔ)義特征通過(guò)上采樣的方式來(lái)強(qiáng)化低層網(wǎng)絡(luò)上高分辨率的特征圖。接著通過(guò)橫向連接自底向上的路徑,增強(qiáng)高層特征。每個(gè)橫向連接自底向上路徑和自頂向下路徑的特征圖具有相同的尺寸。將低分辨率的特征圖做2倍上采樣(為了簡(jiǎn)單起見,使用最近鄰上采樣)。然后通過(guò)按元素相加,將上采樣映射與相應(yīng)的自底而上映射合并。這個(gè)過(guò)程是迭代的,直到生成最終的分辨率圖。
為了開始迭代,只需在C8上附加一個(gè)1×1卷積層來(lái)生成低分辨率圖P8。最后,為了減少上采樣引起的混疊效應(yīng),需要在每個(gè)合并的圖上額外添加一個(gè)3×3卷積來(lái)生成最終的特征映射。這個(gè)最終的特征映射集稱為{P3,P6,P7,P8},分別對(duì)應(yīng)于{C3,C6,C7,C8},它們具有相同的尺寸。
本文實(shí)驗(yàn)是在深度學(xué)習(xí)架Caffe[13]框架下進(jìn)行的,因此首先是對(duì)電腦的運(yùn)行環(huán)境完成配置。實(shí)驗(yàn)所需要的環(huán)境以及相對(duì)應(yīng)的軟硬件設(shè)備:采用Ubuntu 16.04、Caffe、CPU為Intel Core i9-6700、GPU使用的是NVIDIA GeForce GTX 1080、顯存12 GB、內(nèi)存128 GB、CUDA 8.0版本以及對(duì)應(yīng)的CUDNN 5.1版本的深度神經(jīng)網(wǎng)絡(luò)加速庫(kù)。
實(shí)驗(yàn)所需要的水果圖片是由部分網(wǎng)上下載的圖片和在果園實(shí)地拍攝的圖片,為減小深度學(xué)習(xí)訓(xùn)練運(yùn)行時(shí)龐大計(jì)算量,先對(duì)實(shí)驗(yàn)圖片進(jìn)行預(yù)處理縮放后,在簡(jiǎn)單縮放中,本文的目的是通過(guò)對(duì)數(shù)據(jù)的每一個(gè)維度的值進(jìn)行重新調(diào)節(jié)(這些維度可能是相互獨(dú)立的),使得最終的數(shù)據(jù)向量落在[0,1]或[-1,1]的區(qū)間內(nèi),然后按照PASCAL VOC[14]數(shù)據(jù)集格式制作,分成互斥的訓(xùn)練集、測(cè)試集和驗(yàn)證集三部分,如表1所示。數(shù)據(jù)集制作過(guò)程中使用labelImg來(lái)標(biāo)注圖片,每張圖片標(biāo)注完成后會(huì)生成.xml文件20,生成的文件中包含標(biāo)注框中四個(gè)角的真實(shí)坐標(biāo)位置,可以表示為感興趣區(qū)域四元組參數(shù)(xmin,ymin,xmax,ymax),部分?jǐn)?shù)據(jù)仿真圖如圖6所示。
表1 水果數(shù)據(jù)集
圖6 數(shù)據(jù)集制作圖
在評(píng)估模型的準(zhǔn)確性時(shí),根據(jù)輸出框和標(biāo)簽框的符合率確定匹配分?jǐn)?shù),為網(wǎng)絡(luò)模型提供預(yù)定義的輸出。一般來(lái)說(shuō),一個(gè)比較成功的神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù)。神經(jīng)網(wǎng)絡(luò)的許多參數(shù)都是數(shù)以百萬(wàn)計(jì)的,這些參數(shù)可以正確工作,需要大量的數(shù)據(jù)進(jìn)行訓(xùn)練。在實(shí)際情況中,數(shù)據(jù)并沒(méi)有實(shí)際想象的那么多。因此通過(guò)使用額外的合成對(duì)數(shù)據(jù)進(jìn)行修改,并訓(xùn)練所需的神經(jīng)網(wǎng)絡(luò)。常用的數(shù)據(jù)增強(qiáng)方法包括裁剪、平移、顏色抖動(dòng)和水平翻轉(zhuǎn)等。本文因數(shù)據(jù)采集較少,采用水平翻轉(zhuǎn)的數(shù)據(jù)增強(qiáng)方法來(lái)驗(yàn)證改進(jìn)SSD模型的泛化能力。
本文采用的是端到端的檢測(cè)模型,用于自然環(huán)境下的水果識(shí)別檢測(cè)中,因?yàn)榇?xùn)練的數(shù)據(jù)集較小并且與ImageNet[15]數(shù)據(jù)集相似,利用遷徙學(xué)習(xí)[16]來(lái)訓(xùn)練該檢測(cè)模型,這樣大大節(jié)省了新模型損失值收斂時(shí)間。為了更加直觀顯示深度卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)作,本文將特征提取層做可視化操作,圖7所示是根據(jù)經(jīng)典SSD512模型得到的卷積Conv4_3層。Conv4_3層是該模型特征提取的第一層,可以看出檢測(cè)水果的外貌特征,經(jīng)過(guò)多層的卷積語(yǔ)義表達(dá)之后可以得到水果的目標(biāo)區(qū)域。
4.2.1 實(shí)驗(yàn)?zāi)P驮O(shè)計(jì)
實(shí)驗(yàn)中,經(jīng)典SSD512模型檢測(cè)效果并不理想,和預(yù)期的識(shí)別精度相差較多,出現(xiàn)漏框和誤框等情況。精度不高,泛化性不強(qiáng)是經(jīng)典SSD模型出現(xiàn)的問(wèn)題針對(duì)以上問(wèn)題,本文按照之前的改進(jìn)方法,將VGG輸入模型替換為ResNet-101,并按照特征金字塔網(wǎng)絡(luò)搭建網(wǎng)絡(luò),并對(duì)數(shù)據(jù)增強(qiáng)后進(jìn)行精度對(duì)比。
4.2.2 實(shí)驗(yàn)?zāi)P陀?xùn)練參數(shù)設(shè)置
圖7 SSD512檢測(cè)實(shí)例圖
為了節(jié)省訓(xùn)練時(shí)間及加快收斂速度,本文將與預(yù)訓(xùn)練好的SSD網(wǎng)絡(luò)的底層結(jié)構(gòu)權(quán)值參數(shù)共享。使用隨機(jī)梯度下降算法,學(xué)習(xí)動(dòng)量設(shè)為0.9,初始學(xué)習(xí)率設(shè)為10-3,權(quán)重衰減為5×10-4,批處理尺寸為32。前5×104次迭代學(xué)習(xí)率不變,后5×104次迭代學(xué)習(xí)率設(shè)為10-4。將訓(xùn)練得到的權(quán)重作為本文初始權(quán)重。
在訓(xùn)練過(guò)程中,正樣本的數(shù)量遠(yuǎn)遠(yuǎn)小于負(fù)樣本數(shù)量,導(dǎo)致訓(xùn)練出的分類器效果不好。因此使用困難樣本挖掘(Hardnegative mining)[17],將其中得分較高的假陽(yáng)(false positive)負(fù)樣本挖掘出,放入網(wǎng)絡(luò)再次訓(xùn)練,提高分類器判別假陽(yáng)性的能力。
4.2.3 評(píng)價(jià)指標(biāo)
目標(biāo)檢測(cè)模型中常用的度量指標(biāo)mAP[18](mean Average Precision),是用來(lái)評(píng)估模型檢測(cè)精度。計(jì)算mAP之前,首先要計(jì)算數(shù)據(jù)集里每個(gè)類別的平均精度,即
式中,T為數(shù)據(jù)集中含有所需檢測(cè)類別的所有圖像數(shù)目,k表示數(shù)據(jù)集中目標(biāo)對(duì)象的總數(shù)量。若第n個(gè)目標(biāo)是所檢測(cè)目標(biāo)對(duì)象,則Mn為1,反之則Mn為0。Tn表示為前n張圖像中所含檢測(cè)目標(biāo)對(duì)象的個(gè)數(shù)。
得到所有類別的平均精度后,求它們的平均值,即mAP。mAP值越大,代表模型檢測(cè)精度越高,相反則越低。
為了證明特征金字塔的效果,本文將以下三種網(wǎng)絡(luò)進(jìn)行比較,分別是刪除自上而下路徑的網(wǎng)絡(luò)(低層特征)、刪除了橫向連接的網(wǎng)絡(luò)(上采樣特征)以及采用生成的最后一層做預(yù)測(cè),本文以SSD512座位區(qū)基礎(chǔ)網(wǎng)絡(luò)模型,mAP(平均精度)作為評(píng)判標(biāo)準(zhǔn),基于本文的水果數(shù)據(jù)集作為實(shí)驗(yàn)對(duì)象,在C8上附加一個(gè)1×1卷積層來(lái)生成低分辨率圖P8的網(wǎng)絡(luò)即刪除自上而下連接采用最后一層與預(yù)測(cè);每個(gè)合并的圖上額外添加一個(gè)3×3卷積來(lái)生成最終的特征映射即完整路徑下的FPN網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表2所示。
表2 FPN網(wǎng)絡(luò)實(shí)驗(yàn)對(duì)比
FPN是將高層特征通過(guò)上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合,上采樣特征、低層特征、特征融合部分仿真結(jié)果如圖8所示。
圖8 特征預(yù)測(cè)對(duì)比
表3和圖9為本文提出不同網(wǎng)絡(luò)SSD模型檢測(cè)得到的對(duì)比結(jié)果。從表中得到的數(shù)據(jù)可以看出,經(jīng)典SSD模型的檢測(cè)精度不如改進(jìn)后SSD模型。從實(shí)驗(yàn)得到的結(jié)果圖來(lái)看,經(jīng)典SSD模型在對(duì)小物體進(jìn)行檢測(cè)時(shí)容易出現(xiàn)漏框,誤框等情況,而改進(jìn)后的模型相較于經(jīng)典SSD模型有較為顯著的提升。
表3 不同SSD網(wǎng)絡(luò)模型檢測(cè)對(duì)比%
同時(shí)本文也繼續(xù)對(duì)改進(jìn)模型的收斂性做出驗(yàn)證,在數(shù)據(jù)集上進(jìn)行損失分析。損失(Loss)函數(shù)隨迭代次(Steps)數(shù)的變化曲線如圖10所示。通過(guò)比較經(jīng)典SSD和改進(jìn)SSD的損失曲線圖可以看出,雖然改進(jìn)SSD在起始階段損失值略微大于SSD,但是隨著迭代次數(shù)的增加其模型迅速收斂,并隨著迭代的進(jìn)行而穩(wěn)步降低直到趨于穩(wěn)定。
圖9 改進(jìn)前后SSD512模型檢測(cè)對(duì)比
圖10 損失曲線圖
經(jīng)典SSD模型對(duì)小目標(biāo)不能取得較好檢測(cè)結(jié)果的原因SSD是一種基于全卷積的網(wǎng)絡(luò)的檢測(cè)器,使用不同網(wǎng)絡(luò)層來(lái)提取不同大小物體的特征。這中間有個(gè)矛盾,低層網(wǎng)絡(luò)的特征圖大,但語(yǔ)義不夠;高層網(wǎng)絡(luò)的語(yǔ)義夠了,但經(jīng)過(guò)模型中較多降維的池化層,使得獲得的特征圖變小。要檢測(cè)小物體,需要在網(wǎng)絡(luò)模型中充分使用較低層網(wǎng)絡(luò),獲得更充分的特征來(lái)實(shí)現(xiàn)在特征圖上完成更加精密的采樣,同時(shí)也需要高層網(wǎng)絡(luò)的語(yǔ)義信息來(lái)完成對(duì)檢測(cè)目標(biāo)的特征描述。而改進(jìn)后的模型將基礎(chǔ)網(wǎng)絡(luò)模型替換為深度殘差網(wǎng)絡(luò)ResNet-101并利用FPN將高層特征通過(guò)上采樣與低層網(wǎng)絡(luò)提取的特征進(jìn)行融合,充分利用低層網(wǎng)絡(luò)的特征提取和高層網(wǎng)絡(luò)的語(yǔ)義信息,通過(guò)改進(jìn)來(lái)提高小目標(biāo)檢測(cè)精度。
深度學(xué)習(xí)算法需要大量的訓(xùn)練數(shù)據(jù),由于受特定背景環(huán)境和實(shí)驗(yàn)設(shè)備帶來(lái)的限制,本文并沒(méi)有收集不到太多的數(shù)據(jù)源。為了增加實(shí)驗(yàn)的泛化性和魯棒性,沿著水平方向翻轉(zhuǎn)圖像,擴(kuò)大數(shù)據(jù)集。數(shù)據(jù)集經(jīng)數(shù)據(jù)增強(qiáng)[19]后,將原有的圖像數(shù)據(jù)沿水平方向翻轉(zhuǎn),擴(kuò)展了數(shù)據(jù)集數(shù)量,圖11是在水果訓(xùn)練集和測(cè)試集上訓(xùn)練得到的損失曲線圖,通過(guò)實(shí)驗(yàn)觀察,測(cè)試集從起始階段就具有較低的損失,同時(shí)隨著迭代的進(jìn)行,雖然測(cè)試集上的損失值始終略低于訓(xùn)練集。但是測(cè)試集和訓(xùn)練集的損失曲線具有相同的趨勢(shì),且最終穩(wěn)定在一定區(qū)域。可見改進(jìn)SSD模型在保持了檢測(cè)精度和收斂性能的同時(shí)具有較高的魯棒性。
圖11 訓(xùn)練/測(cè)試損失曲線圖
該操作后的檢測(cè)結(jié)果如表4中所示。由表中數(shù)據(jù)所示,經(jīng)數(shù)據(jù)增強(qiáng)后的數(shù)據(jù)集,對(duì)網(wǎng)絡(luò)的檢測(cè)精度都有提升。改進(jìn)后SSD300模型檢測(cè)精度提高了0.24%,SSD512模型檢測(cè)精度提高了0.21%。數(shù)據(jù)增強(qiáng)后的改進(jìn)模型平均檢測(cè)精度可達(dá)至83.29%和84.45%,有效減少了網(wǎng)絡(luò)過(guò)擬合的問(wèn)題,通過(guò)數(shù)據(jù)增強(qiáng)這一技巧獲得的網(wǎng)絡(luò)模型泛化能力更強(qiáng),能更好實(shí)現(xiàn)相關(guān)應(yīng)用場(chǎng)景下的適用。
表4 數(shù)據(jù)增強(qiáng)后不同SSD模型檢測(cè)對(duì)比%
提出了一種基于改進(jìn)SSD深度學(xué)習(xí)模型水果檢測(cè)的研究。本文以蘋果、橙子、荔枝作為研究對(duì)象,自然環(huán)境為下研究背景。首先將經(jīng)典SSD模型中的基礎(chǔ)訓(xùn)練網(wǎng)絡(luò)VGG替換成能隨著網(wǎng)絡(luò)加深精度不下降的ResNet-101網(wǎng)絡(luò),接著在改進(jìn)底層語(yǔ)義信息的方法利用特征金字塔網(wǎng)絡(luò)的方式搭建網(wǎng)絡(luò)模型,進(jìn)而將在大數(shù)據(jù)集上(ImageNet數(shù)據(jù)集)訓(xùn)練好的權(quán)重參數(shù)賦值給改進(jìn)的模型,完成對(duì)目標(biāo)水果檢測(cè)模型的訓(xùn)練。最后通過(guò)數(shù)據(jù)增強(qiáng)的技巧,將檢測(cè)精度提再次提升。實(shí)驗(yàn)數(shù)據(jù)表明:改進(jìn)的SSD300和SSD512兩個(gè)模型在精度上比經(jīng)典SSD模型提高了2.47%和3.41%,驗(yàn)證了本文提出的改進(jìn)方法的有效性。接下去要對(duì)已改善的模型進(jìn)行更大數(shù)據(jù)集的訓(xùn)練與時(shí)效性的實(shí)驗(yàn),希望對(duì)水果的自動(dòng)采摘化進(jìn)行進(jìn)一步的研究。