李頎 陳哲豪
摘要: 為實(shí)現(xiàn)果面缺陷冬棗實(shí)時(shí)檢測(cè),并解決缺陷的尺寸與位置不同影響檢測(cè)精度的問(wèn)題,提出一種基于改進(jìn)單次多目標(biāo)檢測(cè)器(Single shot multibox detector,SSD)的果面缺陷冬棗實(shí)時(shí)檢測(cè)方法。以陜西大荔冬棗中的蟲(chóng)蛀、輪紋和木質(zhì)化3種缺陷果和正常果為研究對(duì)象,在數(shù)據(jù)采集設(shè)備下采集實(shí)際分揀圖像,然后通過(guò)數(shù)據(jù)增強(qiáng)由400張擴(kuò)充至2 000張。改進(jìn)SSD,建立MobileNetV3-SSD模型,為實(shí)時(shí)檢測(cè)奠定基礎(chǔ);引入改進(jìn)感受野塊(RFB)可實(shí)現(xiàn)模型多尺寸提取冬棗缺陷特征的能力;用空間注意力模塊(SAM)代替擠壓和激勵(lì)通道注意力模塊(SE)增強(qiáng)模型定位冬棗缺陷特征的能力。試驗(yàn)結(jié)果表明,本研究模型在果面缺陷冬棗數(shù)據(jù)集上的表現(xiàn)均優(yōu)于目前先進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò)模型(RetinaNet和EfficientDet-D0),該模型對(duì)4類(lèi)冬棗的整體檢測(cè)精準(zhǔn)性(mAP)達(dá)到91.89%,檢測(cè)速度達(dá)到1 s 40.85幀。因此本研究模型較好地平衡了實(shí)時(shí)性和精準(zhǔn)性,可應(yīng)用于果面缺陷冬棗分揀流水線。
關(guān)鍵詞: 冬棗;果面缺陷;實(shí)時(shí)檢測(cè);單次多目標(biāo)檢測(cè)器;多尺寸;空間注意力模型
中圖分類(lèi)號(hào): TP391.4 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1000-4440(2022)01-0119-10
Abstract: In order to realize the real-time surface defect detection of winter jujube and solve the problems that different sizes and positions affected the detection accuracy, a real-time surface defect detection method of winter jujube based on improved single shot multibox detector (SSD) was proposed. Three kinds of defective winter jujubes(worm, wheel-pattern and lignification) and normal winter jujubes from Dali(Shaanxi province) were taken as the research objects. The actual sorting images were collected by data acquisition equipment, and then expanded from 400 to 2 000 by data enhancement. The SSD was improved, and MobileNetV3-SSD model was established to lay the foundation for real-time detection. The introduction of improved receptive field block (RFB) could realize the ability of model to extract the defect feature of winter jujube at multiple scales. Spatial attention module (SAM) was used to replace squeeze-and-excitation (SE) block, so the ability of the model to locate the defect feature of winter jujube was enhanced. The test results showed that the performance of the proposed model on the dataset of defective winter jujube was better than the current advanced target detection network models (RetinaNet and EfficientDet-D0). The averall detection accuracy of the model for four types of winter jujube was 91.89%, and the detection speed was 40.85 frames per second. Therefore, the model established in this study can balance the real-time performance and accuracy, and can be applied to sorting pipeline of winter jujube with surface defect.
Key words: winter jujube;surface defect;real-time detection;single shot multibox detector;multi-scale;spatial attention module
2020年陜西大荔冬棗產(chǎn)量超5×105 t[1]。龐大的產(chǎn)量帶來(lái)了巨大的果面缺陷冬棗分揀量,而人工應(yīng)對(duì)巨大分揀量時(shí)精度驟降且效率低下[2-3]。此外采后冬棗常溫下易失水的缺點(diǎn)會(huì)導(dǎo)致其品質(zhì)受損,所以需要盡快完成分揀以冷藏保鮮,可見(jiàn)實(shí)現(xiàn)果面缺陷冬棗實(shí)時(shí)檢測(cè)至關(guān)重要[4-5]。
常規(guī)的果面缺陷檢測(cè)方法包括傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)兩類(lèi)。Lu等[6]使用主成分分析獲得蘋(píng)果第一主成分圖像,基于類(lèi)內(nèi)方差法分割圖像,根據(jù)非零像素判斷蘋(píng)果損傷,準(zhǔn)確率為84.20%。孫世鵬等[7]利用降維算法確定冬棗損傷處一致的特征波長(zhǎng),經(jīng)處理獲得一致波長(zhǎng)灰度圖,并用支持向量機(jī)分類(lèi),檢測(cè)準(zhǔn)確率為81.80%。
顯然傳統(tǒng)機(jī)器學(xué)習(xí)的精度與所提取的果面缺陷特征息息相關(guān)。但是冬棗果面缺陷尺寸不一且位置隨機(jī),傳統(tǒng)機(jī)器學(xué)習(xí)的精度也會(huì)因特征提取難度的升高而下降[8]。然而深度學(xué)習(xí)能夠挖掘到人類(lèi)難以發(fā)現(xiàn)的有效特征,從而在果面缺陷檢測(cè)任務(wù)中脫穎而出。
薛勇等[9]使用GoogLeNet自動(dòng)提取蘋(píng)果果面缺陷特征,對(duì)測(cè)試樣本檢測(cè)準(zhǔn)確率達(dá)91.91%。費(fèi)琦琪等[10]利用CNN自主提取冰糖橙缺陷特征,對(duì)測(cè)試樣本檢測(cè)準(zhǔn)確率達(dá)96.67%。李小占等[11]通過(guò)改進(jìn)VGG網(wǎng)絡(luò)訓(xùn)練哈密瓜表面缺陷檢測(cè)模型,檢測(cè)準(zhǔn)確率為93.50%,靜態(tài)下處理單幅圖像需0.7 s。雖然深度學(xué)習(xí)在上述任務(wù)中表現(xiàn)出色,但是卷積神經(jīng)網(wǎng)絡(luò)的巨大計(jì)算量導(dǎo)致模型實(shí)時(shí)性受限。因此果面缺陷目標(biāo)檢測(cè)模型的實(shí)時(shí)性和精準(zhǔn)性的平衡問(wèn)題亟待解決。
綜上所述,本研究以產(chǎn)自陜西大荔的蟲(chóng)蛀、輪紋和木質(zhì)化3種果面缺陷冬棗和正常冬棗為試驗(yàn)材料,提出基于改進(jìn)單次多目標(biāo)檢測(cè)器(Single shot multibox detector,SSD)的果面缺陷冬棗實(shí)時(shí)檢測(cè)模型,對(duì)缺陷果和正常果進(jìn)行實(shí)時(shí)檢測(cè),使檢測(cè)模型兼具實(shí)時(shí)性和精準(zhǔn)性。
1 果面缺陷冬棗實(shí)時(shí)檢測(cè)模型
1.1 SSD目標(biāo)檢測(cè)網(wǎng)絡(luò)
單位時(shí)間內(nèi)檢測(cè)果面缺陷冬棗個(gè)數(shù)是決定模型實(shí)時(shí)性的主要因素之一,這就要求選擇的網(wǎng)絡(luò)能應(yīng)用于圖中存在多個(gè)冬棗目標(biāo)的檢測(cè)任務(wù),因此果面缺陷冬棗實(shí)時(shí)檢測(cè)模型應(yīng)選擇目標(biāo)檢測(cè)網(wǎng)絡(luò)。目前目標(biāo)檢測(cè)網(wǎng)絡(luò)分為單階段檢測(cè)網(wǎng)絡(luò)和雙階段檢測(cè)網(wǎng)絡(luò)。雙階段檢測(cè)網(wǎng)絡(luò)原理是先獲得若干個(gè)建議框,最后在建議框中篩選出預(yù)測(cè)框。而單階段檢測(cè)網(wǎng)絡(luò)則跳過(guò)獲得建議框的階段,直接獲得預(yù)測(cè)框。因此單階段網(wǎng)絡(luò)相較于雙階段網(wǎng)絡(luò)的實(shí)時(shí)性有一定提升。Liu等[12]學(xué)習(xí)YOLO的回歸理念,提出先驗(yàn)框預(yù)測(cè)機(jī)制,使SSD具有出色的實(shí)時(shí)性和精準(zhǔn)性。
1.2 MobileNetV3主干網(wǎng)絡(luò)
VGG16的計(jì)算量高達(dá)14.2 G FLOPs,因此VGG16作為主干網(wǎng)絡(luò)與SSD搭配存在計(jì)算量過(guò)大的缺點(diǎn),這會(huì)減緩果面缺陷冬棗實(shí)時(shí)檢測(cè)模型的檢測(cè)速度[13]。但是檢測(cè)果面缺陷冬棗的速度是決定模型實(shí)時(shí)性的另一個(gè)主要因素,為了進(jìn)一步加強(qiáng)模型的實(shí)時(shí)性,本研究用MobileNetV3代替VGG16作為主干網(wǎng)絡(luò)與SSD搭配。
一方面MobileNetV3通過(guò)使用深度可分離卷積代替大量標(biāo)準(zhǔn)卷積,有效壓縮了果面缺陷冬棗實(shí)時(shí)檢測(cè)模型的計(jì)算量,因而模型的實(shí)時(shí)性得到加強(qiáng)[14]。
深度可分離卷積與標(biāo)準(zhǔn)卷積的區(qū)別是,前者將后者的卷積操作分為2步來(lái)執(zhí)行:
(1)對(duì)輸入特征圖各通道應(yīng)用一個(gè)濾波器進(jìn)行深度卷積但不合成特征圖。
(2)利用逐點(diǎn)卷積計(jì)算輸入特征圖的線性組合構(gòu)建輸出特征圖。
深度可分離卷積由深度卷積和逐點(diǎn)卷積兩部分組成[15]。深度卷積和逐點(diǎn)卷積的計(jì)算量分別如公式(1)和公式(2)所示。
NDepthwise=DK×DK×M×DF×DF(1)
式中NDepthwise是深度卷積計(jì)算量,DK是輸入特征圖大小,M是輸入特征圖通道數(shù),DF是輸出特征圖大小。
另一方面,MobileNetV3通過(guò)使用倒殘差模塊,提高模型學(xué)習(xí)冬棗果面特征的效率,減少模型冗余計(jì)算。
倒殘差模塊由擴(kuò)張層、深度可分離卷積層和投影層組成。其設(shè)計(jì)思路是:為了深度可分離卷積層在高維度特征圖中學(xué)習(xí)到更多冬棗果面缺陷特征,通過(guò)使擴(kuò)張層中的擴(kuò)張系數(shù)factor=6升高特征圖維度,為了有效降低模型向下傳遞特征圖時(shí)的計(jì)算量,又通過(guò)投影層壓縮特征圖維度。
本研究將MobileNetV3的池化層及其之后的卷積層刪除,然后與SSD拼接組成MobileNetV3-SSD。MobileNetV3-SSD將第13個(gè)倒殘差模塊和池化層之前的卷積層的輸出作為預(yù)測(cè)特征層,最后通過(guò)預(yù)測(cè)特征層和SSD附加層得到預(yù)測(cè)結(jié)果(圖1)。
1.3 改進(jìn)感受野塊
本研究借助OpenCV庫(kù)的ContourArea函數(shù)計(jì)算冬棗果面缺陷面積與果面總面積的比例來(lái)分析冬棗果面缺陷尺寸。由圖2可以看出,蟲(chóng)蛀、輪紋和木質(zhì)化的尺寸位于6個(gè)區(qū)間內(nèi),分別是(0,0.05],(0.05,0.10],(0.10,0.15],(0.15,0.20],(0.20,0.25]和(0.25,0.30],然而單尺寸感受野無(wú)法勝任提取不同尺寸冬棗果面缺陷特征的任務(wù)[16]。
針對(duì)上述問(wèn)題,本研究將改進(jìn)的感受野塊(Receptive field block,RFB)引入果面缺陷冬棗實(shí)時(shí)檢測(cè)模型,讓模型從3個(gè)尺寸提取冬棗果面缺陷特征,旨在提高模型分類(lèi)果面缺陷冬棗的精度[17]。
RFB是一種模仿人眼群體感受野(Population receptive field,pRF)的仿生卷積結(jié)構(gòu),該結(jié)構(gòu)通過(guò)標(biāo)準(zhǔn)卷積和空洞卷積模擬pRF尺寸與偏心率的正相關(guān)實(shí)現(xiàn)特征圖感受野[18-19]。為了獲得3種尺寸的冬棗果面缺陷特征,引入模型的RFB設(shè)置為3個(gè)分支卷積結(jié)構(gòu),其中每個(gè)分支由卷積核大小不同的標(biāo)準(zhǔn)卷積和膨脹率不同的空洞卷積組成,前者用于模擬不同尺寸的pRF,后者用于模擬不同偏心率的pRF。由圖3可以看出,空洞卷積核的膨脹率隨著標(biāo)準(zhǔn)卷積核的尺寸增大而增大,兩者的變化關(guān)系則復(fù)現(xiàn)了pRF的尺寸與偏心率的關(guān)系。最后RFB各分支輸出的特征圖都將疊加到一起,以實(shí)現(xiàn)多尺寸果面缺陷特征融合。
為了減輕引入RFB對(duì)模型實(shí)時(shí)性的影響,本研究對(duì)RFB進(jìn)行改進(jìn):將3×3標(biāo)準(zhǔn)卷積拆分成并聯(lián)的1×3標(biāo)準(zhǔn)卷積和3×1標(biāo)準(zhǔn)卷積;將5×5標(biāo)準(zhǔn)卷積拆分成串聯(lián)的1×5標(biāo)準(zhǔn)卷積和5×1標(biāo)準(zhǔn)卷積;同時(shí)用深度可分離卷積代替標(biāo)準(zhǔn)卷積實(shí)現(xiàn)空洞卷積,最后得到改進(jìn)的RFB模塊(圖4)。由于在淺層特征圖中更容易提取到尺寸普遍偏小的冬棗果面缺陷特征,本研究將改進(jìn)RFB模塊嵌入MobilenetV3-SSD的第13個(gè)倒殘差模塊和分類(lèi)定位預(yù)測(cè)層之間。
1.4 空間注意力模塊
通過(guò)觀察圖5中3類(lèi)果面缺陷出現(xiàn)的位置,發(fā)現(xiàn)缺陷可能處于果面邊緣,也可能處于果面中央,甚至遍布果面。針對(duì)缺陷在冬棗果面上任意分布的問(wèn)題,本研究引入空間注意力機(jī)制幫助果面缺陷冬棗實(shí)時(shí)檢測(cè)模型確定果面缺陷的位置,繼而提高模型定位冬棗果面缺陷位置的精度。
倒殘差模塊中采用了擠壓和激勵(lì)模塊(Squeeze-and-Excitation,SE),SE屬于通道注意力機(jī)制,該機(jī)制利用各通道特征圖之間的關(guān)系來(lái)提取冬棗果面缺陷特征,最后生成基于果面缺陷特征的通道注意力特征圖。可見(jiàn)通道注意力機(jī)制有利于提高模型提取果面缺陷特征的能力[20]。但是冬棗果面缺陷位置不確定影響了模型定位果面缺陷冬棗的精度。解決這個(gè)問(wèn)題需要增強(qiáng)模型定位冬棗果面缺陷的能力,而空間注意力機(jī)制恰好能改善模型的定位能力,因此本研究用卷積層注意力模塊(CBAM)中的空間注意力模塊(SAM)取代SE[21-23]。
如圖6所示,本研究將倒殘差模塊中深度可分離卷積層的輸出作為SAM的輸入特征圖,SAM首先通過(guò)F推導(dǎo)出空間注意力特征圖MS(F),然后MS(F)與F進(jìn)行哈達(dá)瑪積運(yùn)算,求得輸出特征圖F′,最后SAM的輸出作為投影層的輸入。
式中F′是輸出特征圖, MS(F)是空間注意力特征圖,F(xiàn)是輸入特征圖。
執(zhí)行哈達(dá)瑪積運(yùn)算的目的是為F中出現(xiàn)冬棗果面缺陷特征的位置分配相應(yīng)的關(guān)注度。
如圖7所示,為了推導(dǎo)MS(F),首先需要通過(guò)最大池化和平均池化整合F的通道信息,生成平均池化特征圖(FSavg)和最大池化特征圖(FSmax),2種池化操作的目的是凸顯冬棗果面缺陷部位特征[24];然后疊加FSavg和FSmax,生成疊加特征圖FSconcat;最后FSconcat依次經(jīng)過(guò)7×7標(biāo)準(zhǔn)卷積和sigmoid激活函數(shù)處理生成空間注意力特征圖[MS(F)]。
式中MS(F)是空間注意力特征圖,F(xiàn)是輸入特征圖,F(xiàn)Savg是平均池化特征圖,F(xiàn)Smax是最大池化特征圖。
2 果面缺陷冬棗實(shí)時(shí)檢測(cè)模型訓(xùn)練
2.1 果面缺陷冬棗數(shù)據(jù)集建立
2.1.1 數(shù)據(jù)采集 采集時(shí)間為2020年7-11月,采集地點(diǎn)為陜西中農(nóng)厚樸農(nóng)業(yè)科技有限公司。果面缺陷冬棗數(shù)據(jù)集以陜西大荔冬棗為數(shù)據(jù)采集對(duì)象。數(shù)據(jù)集由3類(lèi)果面缺陷冬棗和正常冬棗組成。如圖8所示,數(shù)據(jù)集通過(guò)數(shù)據(jù)采集設(shè)備完成采集工作,其中電荷耦合器件(Charge coupled device,CCD)工業(yè)相機(jī)使用杭州??低晹?shù)字技術(shù)股份有限公司生產(chǎn)的MV-CE013-50UC相機(jī),最大分辨率為1 280×960,即1.30×1010像素。采集時(shí)冬棗隨機(jī)擺放,同時(shí)CCD工業(yè)相機(jī)在自然光照下以俯視視角采集圖像。
2.1.2 數(shù)據(jù)集預(yù)處理及生成 原始數(shù)據(jù)集共400張圖像,本研究使用LabelImg標(biāo)注數(shù)據(jù),標(biāo)注文件格式參照Pascal VOC。
為了提高果面缺陷冬棗實(shí)時(shí)檢測(cè)模型的檢測(cè)精度和泛化能力,本研究使用Python庫(kù)函數(shù)Imgaug對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)[25]。考慮到圖像內(nèi)的冬棗果面特征不會(huì)因觀察方向的變化而改變,并且為了增強(qiáng)模型在不同光照下的魯棒性,本研究使用上下翻轉(zhuǎn)、左右翻轉(zhuǎn)、鏡像翻轉(zhuǎn)和亮度增減4種方法實(shí)現(xiàn)數(shù)據(jù)增強(qiáng)。在Imgaug的幫助下,標(biāo)注框會(huì)隨著數(shù)據(jù)增強(qiáng)而變換,避免再次繪制。
經(jīng)過(guò)增強(qiáng),數(shù)據(jù)集共2 000張圖像,按8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2.2 試驗(yàn)環(huán)境
試驗(yàn)硬件環(huán)境選擇Inter(R) Xeon(R) CPU E5-2637 @3.50 Hz和NVIDIA GeForce RTX2070 SUPER 8 G;操作系統(tǒng)為Windows Server 2008 R2 Enterprise 64bit;軟件環(huán)境選擇Python3.6.7和Keras 2.1.5。
2.3 模型訓(xùn)練
本研究模型訓(xùn)練運(yùn)用遷移學(xué)習(xí)策略,需要在Pascal VOC07+12數(shù)據(jù)集上訓(xùn)練得到預(yù)訓(xùn)練模型。鑒于豐富的Pascal VOC07+12數(shù)據(jù)集中必然有數(shù)據(jù)與本研究數(shù)據(jù)存在關(guān)聯(lián),因此遷移學(xué)習(xí)能把學(xué)到的模型參數(shù)應(yīng)用于本研究數(shù)據(jù)集訓(xùn)練,達(dá)到加快并優(yōu)化訓(xùn)練的目的,避免人工初始化參數(shù)直接在數(shù)據(jù)集上訓(xùn)練,導(dǎo)致模型表現(xiàn)不佳[26]。
另外模型訓(xùn)練還運(yùn)用了凍結(jié)訓(xùn)練策略,即主干網(wǎng)絡(luò)MobileNetV3的模型參數(shù)不會(huì)隨著模型訓(xùn)練而更新。凍結(jié)訓(xùn)練可以有效避免模型過(guò)擬合。本研究將前50次訓(xùn)練設(shè)為凍結(jié)訓(xùn)練階段,輸入圖像大小統(tǒng)一修改為300×300,批數(shù)據(jù)量為16,學(xué)習(xí)率為0.000 5。第50次以后訓(xùn)練進(jìn)入解凍訓(xùn)練階段,批數(shù)據(jù)量減半,學(xué)習(xí)率降為0.000 1。其中學(xué)習(xí)率下降以驗(yàn)證損失為標(biāo)準(zhǔn),當(dāng)驗(yàn)證損失經(jīng)過(guò)3次訓(xùn)練不下降,學(xué)習(xí)率減半。訓(xùn)練使用自適應(yīng)矩估計(jì)優(yōu)化器,β1=0.900,β2=0.999。Adam優(yōu)化器可預(yù)防學(xué)習(xí)步長(zhǎng)過(guò)小導(dǎo)致模型收斂緩慢的問(wèn)題。
2.4 模型性能評(píng)價(jià)指標(biāo)
由于果面缺陷目標(biāo)檢測(cè)模型在實(shí)際應(yīng)用中需要平衡實(shí)時(shí)性和精準(zhǔn)性,因此試驗(yàn)中模型性能的優(yōu)劣以這2個(gè)性能為衡量標(biāo)準(zhǔn)。每秒幀數(shù)(FPS)可表示模型對(duì)果面缺陷冬棗檢測(cè)的實(shí)時(shí)性,平均精度(AP)可表示模型對(duì)各類(lèi)冬棗檢測(cè)的精準(zhǔn)性,mAP可表示模型對(duì)4類(lèi)冬棗的整體檢測(cè)精準(zhǔn)性。因此本研究將FPS、AP和mAP作為評(píng)價(jià)指標(biāo)。
計(jì)算AP需求得精度(p)和召回率(r),p和r計(jì)算公式如公式(7)和公式(8)所示。
p=TPTP+FP(7)
r=TPTP+FN(8)
式中TP表示分類(lèi)正確的正樣本數(shù),F(xiàn)P表示分類(lèi)錯(cuò)誤的正樣本數(shù),F(xiàn)N表示分類(lèi)錯(cuò)誤的負(fù)樣本數(shù)。
AP和mAP的計(jì)算公式如公式(9)和公式(10)所示。
AP=∫10p(r)dr(9)
mAP=∑ni=1AP(i)n(10)
式中n表示冬棗果面類(lèi)別數(shù),故n=4;AP(i)表示第i類(lèi)冬棗果面的平均精度。
3 結(jié)果與分析
3.1 不同主干網(wǎng)絡(luò)對(duì)模型性能的影響
為了分析MobileNetV3對(duì)模型檢測(cè)冬棗果面缺陷速度的影響,本研究對(duì)SSD分別搭配VGG16和MobileNetV3的性能進(jìn)行比較試驗(yàn)。由表1可知,當(dāng)主干網(wǎng)絡(luò)由VGG16更換為MobileNetV3后,模型計(jì)算量減少了43.16 MFLOPs。龐大計(jì)算量的減少優(yōu)化了模型性能,mAP僅損失1.98%,F(xiàn)PS獲得81.22%的提升,達(dá)到41.30。因此將MobileNetV3作為主干網(wǎng)絡(luò)可為果面缺陷冬棗實(shí)時(shí)檢測(cè)模型的實(shí)際應(yīng)用奠定基礎(chǔ)。
3.2 不同尺寸感受野對(duì)模型性能的影響
為了分析應(yīng)用多尺寸感受野對(duì)模型分類(lèi)冬棗果面缺陷精度的影響,并避免MobileNetV3作為主干網(wǎng)絡(luò)對(duì)試驗(yàn)的干擾,本研究對(duì)VGG16-SSD的引入是否改進(jìn)RFB的性能進(jìn)行試驗(yàn),即試驗(yàn)SSD分別應(yīng)用多尺寸感受野和單尺寸感受野對(duì)模型性能的影響。試驗(yàn)結(jié)果如表2所示,改進(jìn)的RFB后,模型對(duì)正常冬棗、蟲(chóng)蛀冬棗、輪紋冬棗和木質(zhì)化冬棗的AP分別提升了0.39、2.23、2.06、1.32個(gè)百分點(diǎn),mAP提升了1.50個(gè)百分點(diǎn)。同時(shí)改進(jìn)的RFB為輕量級(jí)卷積塊,將其引入模型后,模型計(jì)算量?jī)H增加2.75%,F(xiàn)PS僅下降3.20%,說(shuō)明模型的實(shí)時(shí)性基本不受影響。
此外多尺寸感受野的應(yīng)用對(duì)于正常冬棗的分類(lèi)精度提高不明顯,原因是相對(duì)于果面缺陷冬棗,正常冬棗的果面不存在多尺寸果面特征,因此多尺寸感受野更適用于提取不同尺寸的冬棗果面缺陷特征。
如圖9所示,應(yīng)用單尺寸感受野的模型忽略了果面上存在小尺寸輪紋的冬棗,導(dǎo)致分類(lèi)錯(cuò)誤。而應(yīng)用多尺寸感受野的模型可以從多個(gè)尺寸提取冬棗果面缺陷特征,因此對(duì)果面上存在不同尺寸缺陷的冬棗分類(lèi)無(wú)誤。
3.3 不同注意力模塊對(duì)模型性能的影響
為了分析應(yīng)用空間注意力機(jī)制對(duì)模型定位冬棗果面缺陷精度的影響,本研究對(duì)MobileNetV3-SSD使用不同注意力模塊進(jìn)行比較試驗(yàn)。試驗(yàn)結(jié)果(表3)表明,當(dāng)注意力模塊由SE更換為SAM后,模型對(duì)正常冬棗、蟲(chóng)蛀冬棗、輪紋冬棗和木質(zhì)化冬棗的AP分別提升了2.63、2.27、3.34、3.18個(gè)百分點(diǎn),mAP提升了2.85個(gè)百分點(diǎn)。同時(shí)由于刪減掉CBAM中屬于通道注意力機(jī)制的CAM,僅將SAM引入模型,模型計(jì)算量降低了42.58%,F(xiàn)PS提升了3.70%。
模型對(duì)正常冬棗的AP提升的原因是正常冬棗的果面特征單一且分布規(guī)律,易被模型定位,因此SAM可提高模型定位正常冬棗的精度。
如圖10所示,應(yīng)用通道注意力模塊的模型無(wú)法定位輪紋特征,導(dǎo)致輪紋冬棗定位不準(zhǔn)確。而應(yīng)用空間注意力模塊的模型具備定位輪紋特征的能力,因此對(duì)輪紋冬棗定位無(wú)誤。
3.4 不同改進(jìn)組合對(duì)模型性能的影響
本研究分別從主干網(wǎng)絡(luò)、感受野尺寸以及注意力模塊3個(gè)方面對(duì)SSD進(jìn)行改進(jìn)。SSD為表4中的模型1。在上述試驗(yàn)中不同改進(jìn)單獨(dú)與SSD的組合分別記作表4中的模型2至模型4。如表5所示,模型1~模型4 4個(gè)模型的性能較好,為了分析所有改進(jìn)與SSD組合對(duì)模型的影響,本研究將所有改進(jìn)與SSD組成的模型記作模型5,并與其他4個(gè)模型進(jìn)行性能比較試驗(yàn)。
由表5可知,模型5表現(xiàn)出眾,該模型以MobileNetV3為主干網(wǎng)絡(luò),同時(shí)引入改進(jìn)RFB并選擇SAM取代SE完成組合。在實(shí)時(shí)性上,模型5的FPS達(dá)40.85,僅與檢測(cè)速度最快的模型4相差1.98。在精準(zhǔn)性上,模型5的mAP位列各模型之首,達(dá)到91.89%。模型5有效平衡了模型的實(shí)時(shí)性與精準(zhǔn)性之間的關(guān)系,足見(jiàn)所有改進(jìn)共同作用的有效性,因此本研究將表現(xiàn)最優(yōu)的模型5作為本研究提出的冬棗果面缺陷實(shí)時(shí)檢測(cè)模型。
圖11為本研究模型在測(cè)試集上的表現(xiàn)。
3.5 本研究模型與目前先進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò)性能對(duì)比
為了分析本研究模型的性能,本研究將所提出的模型與目前先進(jìn)的目標(biāo)檢測(cè)網(wǎng)絡(luò)RetinaNet和EfficientDet-D0在果面缺陷冬棗數(shù)據(jù)集上進(jìn)行比較試驗(yàn)。為保證比較試驗(yàn)的可靠性,2種比較模型均按本研究模型訓(xùn)練方式進(jìn)行訓(xùn)練。由表6可知,本研究模型的mAP和FPS均排在首位,其中比EfficientDet-D0的mAP和FPS分別高出3.65個(gè)百分點(diǎn)和7.15。經(jīng)分析,EfficientDet-D0采用雙向特征金字塔網(wǎng)絡(luò)(BiFPN)結(jié)合特征加權(quán)策略,這有利于模型重視與冬棗果面缺陷尺寸相符的特征,忽略冗余特征,EfficientDet-D0的性能略?xún)?yōu)于RetinaNet[27]。
從圖12可知,各模型在訓(xùn)練過(guò)程中收斂迅速,且驗(yàn)證損失均在第70次訓(xùn)練中便趨于穩(wěn)定,這得益于遷移學(xué)習(xí)策略和Adam優(yōu)化器的應(yīng)用。同時(shí)由于訓(xùn)練中使用凍結(jié)訓(xùn)練策略,各模型訓(xùn)練趨于穩(wěn)定時(shí)驗(yàn)證損失與訓(xùn)練損失相近,第100次訓(xùn)練的驗(yàn)證損失均低于訓(xùn)練損失,未出現(xiàn)過(guò)擬合現(xiàn)象。
4 結(jié)論
本研究針對(duì)實(shí)時(shí)檢測(cè)在果面缺陷冬棗分揀中的重要性以及果面缺陷尺寸不一、分布隨機(jī)影響檢測(cè)精度的問(wèn)題,對(duì)SSD進(jìn)行改進(jìn):SSD通過(guò)搭配MobileNetV3,從檢測(cè)速度方面提高本研究模型的實(shí)時(shí)性;SSD通過(guò)引入改進(jìn)RFB和SAM從分類(lèi)和定位兩方面提高本研究模型的精準(zhǔn)性。通過(guò)對(duì)比試驗(yàn),本研究模型的有效性得到驗(yàn)證,mAP達(dá)到91.89%,F(xiàn)PS達(dá)到40.85。在組合不同改進(jìn)的模型中,本研究模型平衡實(shí)時(shí)性和精準(zhǔn)性的能力最強(qiáng)。在與目前先進(jìn)目標(biāo)檢測(cè)網(wǎng)絡(luò)模型的對(duì)比中,本研究模型比EfficientDet-D0的mAP和FPS分別高出3.65個(gè)百分點(diǎn)和7.15,比RetinaNet的mAP和FPS分別高出4.52個(gè)百分點(diǎn)和12.75 。因此本研究模型可以為果面缺陷冬棗實(shí)時(shí)檢測(cè)提供技術(shù)支持。經(jīng)實(shí)測(cè),本研究模型 1 h分揀量可達(dá)4 t。
參考文獻(xiàn):
[1] 王春煥,王 瑩,張夢(mèng)輝. 大荔縣冬棗產(chǎn)業(yè)發(fā)展建議[J].陜西林業(yè)科技,2021,49(2):97-99.
[2] 侯鵬帥,劉玉樂(lè),宋 欣,等. 基于智能視覺(jué)識(shí)別的冬棗分選檢測(cè)系統(tǒng)設(shè)計(jì)[J].中國(guó)農(nóng)機(jī)化學(xué)報(bào),2020,41(3):109-114.
[3] GENG L,XU W,ZHANG F,et al. Dried jujube classification based on a double branch deep fusion convolution neural network[J].Japanese Society for Food Science and Technology,2018,24(6):1007-1015.
[4] NTURAMBIRWE J F I, OPARA U L. Machine learning applications to non-destructive defect detection in horticultural products[J].Biosystems Engineering,2020,189:60-83.
[5] BHARGAVA A, BANSAL A. Fruits and vegetables quality evaluation using computer vision: a review[J].Journal of King Saud University-Computer and Information Sciences,2021,33(3):243-257.
[6] LU Y, LU R. Development of a multispectral structured illumination reflectance imaging (SIRI) system and its application to bruise detection of apples[J].Transactions of the ASABE,2017,60(4):1379-1389.
[7] 孫世鵬,彭 俊,李 瑞,等. 基于近紅外高光譜圖像的冬棗損傷早期檢測(cè)[J].食品科學(xué),2017,38(2):301-305.
[8] JU J, ZHENG H, XU X,et al. Classification of jujube defects in small data sets based on transfer learning[DB/OL].(2021-01-30)[2022-01-15].https://link.springer.com/article/10.1007/s00521-021-05715-2.
[9] 薛 勇,王立揚(yáng),張 瑜,等. 基于GoogLeNet深度遷移學(xué)習(xí)的蘋(píng)果缺陷檢測(cè)方法[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(7):30-35.
[10]費(fèi)琦琪,施 杰,夏 敏,等. 基于CNN的冰糖橙分級(jí)系統(tǒng)[J].江蘇農(nóng)業(yè)學(xué)報(bào),2020,36(2):513-519.
[11]李小占,馬本學(xué),喻國(guó)威,等. 基于深度學(xué)習(xí)與圖像處理的哈密瓜表面缺陷檢測(cè)[J].農(nóng)業(yè)工程學(xué)報(bào),2021,37(1):223-232.
[12]LIU W, ANGUELOV D, ERHAN D, et al.SSD: single shot multibox detector[M]. Amsterdam,The Netherlands:Proceedings of the European Conference on Computer Vision,2016.
[13]徐先峰,趙萬(wàn)福,鄒浩泉,等. 基于MobileNet-SSD的安全帽佩戴檢測(cè)方法[J].計(jì)算機(jī)工程,2021,47(10):298-305,313.
[14]HOWARD A, SANDLER M, CHU G, et al. Searching for mobilenetv3[M]. Soual,Korea:International Conference on Computer Vision,2019.
[15]CHOLLET F. Xception: deep learning with depthwise separable convolutions[M]. Hawaii,United States:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017.
[16]黃林生,羅耀武,楊小冬,等. 基于注意力機(jī)制和多尺度殘差網(wǎng)絡(luò)的農(nóng)作物病害識(shí)別[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2021,52(10):264-271.
[17]王春山,周 冀,吳華瑞,等. 改進(jìn)Multi-scale ResNet的蔬菜葉部病害識(shí)別[J].農(nóng)業(yè)工程學(xué)報(bào),2020,36(20):209-217.
[18]LIU S, HUANG D, WANG Y. Receptive field block net for accurate and fast object detection[M]. Munich,Germany:Proceedings of the European Conference on Computer Vision,2018.
[19]WANDELL B, WINAWER J. Computational neuroimaging and population receptive fields[J].Trends in Cognitive Sciences,2015,19(6):349-357.
[20]HU J, SHEN L, SUN G, et al. Squeeze-and-excitation networks[M]. Salt Lake City,United States:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2018.
[21]高欽泉,黃炳城,劉文哲,等. 基于改進(jìn)CenterNet的竹條表面缺陷檢測(cè)方法[J].計(jì)算機(jī)應(yīng)用,2021,41(7):1933-1938.
[22]WOO S, PARK J, LEE J, et al. CBAM: convolutional block attention module[M]. Munich,Germany:Proceedings of the European Conference on Computer Vision,2018.
[23]CHEN L, ZHANG H, XIAO J, et al. SCA-CNN: spatial and channel-wise attention in convolutional networks for image captioning[M]. Hawaii,United States:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2017.
[24]ZAGORUYKO S, KOMODAKIS N. Paying more attention to attention: improving the performance of convolutional neural networks via attention transfer[M]. Paris,F(xiàn)rance:International Conference on Learning Representations,2017.
[25]TSUCHIYA H, FUKUI S, IWAHORI Y, et al. A method of data augmentation for classifying road damage considering influence on classification accuracy[J].Procedia Computer Science,2019,159:1449-1458.
[26]余小東,楊孟輯,張海清,等. 基于遷移學(xué)習(xí)的農(nóng)作物病蟲(chóng)害檢測(cè)方法研究與應(yīng)用[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2020,51(10):252-258.
[27]TAN M , PANG R , LE Q V. EfficientDet: scalable and efficient object detection[M]. Virtual:Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2020.
(責(zé)任編輯:陳海霞)
2707500783266
江蘇農(nóng)業(yè)學(xué)報(bào)2022年1期