李 麗,王燕妮
(西安建筑科技大學(xué)信息與控制工程學(xué)院,陜西 西安 710055)
機(jī)器視覺被稱為智能制造的“智慧之眼”,為智能制造打開了新的“視”界,是實(shí)現(xiàn)工業(yè)自動(dòng)化和智能化的必要手段。傳統(tǒng)的工業(yè)制造中,通過人工對(duì)零部件特征提取,該方法勞動(dòng)強(qiáng)度大,效率低,且依賴于人的經(jīng)驗(yàn)等。計(jì)算機(jī)視覺的發(fā)展,為工業(yè)檢測(cè)速度和準(zhǔn)確率以及智能化程度做出很大貢獻(xiàn),視覺系統(tǒng)取代人工檢測(cè)是智能制造發(fā)展的必然趨勢(shì)[1]。視覺檢測(cè)如何克服復(fù)雜的工業(yè)生產(chǎn)環(huán)境,減少人工干預(yù),提高檢測(cè)算法準(zhǔn)確率和檢測(cè)實(shí)時(shí)性是很大的挑戰(zhàn)[2]。
零件識(shí)別和定位是工業(yè)機(jī)器人視覺任務(wù)的重要工作基礎(chǔ),傳統(tǒng)的視覺識(shí)別算法中通常采用人工提取工件形態(tài)特征和模式識(shí)別方法相結(jié)合。文獻(xiàn)[3]使用Snake算法從復(fù)雜背景中提取零件輪廓,通過邊緣特征識(shí)別目標(biāo)。文獻(xiàn)[4]提出基于局部雙線性插值的提取梯度直方圖特征,對(duì)零部件細(xì)小缺陷檢測(cè)。文獻(xiàn)[5]對(duì)低紋理信息的零件檢測(cè),提出了CL2D(color line2D)快速匹配算法,得到了較好的檢測(cè)效率。傳統(tǒng)算法在檢測(cè)任務(wù)中準(zhǔn)確度有一定的提升,但是對(duì)檢測(cè)環(huán)境要求極高,只適應(yīng)某些特定的條件,容易受圖像旋轉(zhuǎn)、縮放的影響,導(dǎo)致檢測(cè)效率不高甚至失敗。而工業(yè)檢測(cè)環(huán)境復(fù)雜,受光照和相機(jī)位姿變化的影響,識(shí)別精度受到很大影響。
近年來,深度學(xué)習(xí)算法在圖像檢測(cè)方面有優(yōu)越的表現(xiàn),深度卷積神經(jīng)網(wǎng)絡(luò)能夠完善分類器自主學(xué)習(xí)提取抽象的高級(jí)特征?;谏疃葘W(xué)習(xí)的檢測(cè)算法在工業(yè)領(lǐng)域也取得了顯著成果。文獻(xiàn)[6]從改進(jìn)聚類生成方案角度出發(fā),提升發(fā)動(dòng)機(jī)零件表面缺陷的檢測(cè)準(zhǔn)確率。文獻(xiàn)[7]在SSD(single shot multibox detector)網(wǎng)絡(luò)中融入Inception預(yù)測(cè)結(jié)構(gòu),對(duì)模擬生產(chǎn)環(huán)境下的裝配零件訓(xùn)練,提高了檢測(cè)準(zhǔn)確率。文獻(xiàn)[8]在殘差網(wǎng)絡(luò)基礎(chǔ)上引入特征拼接,同時(shí)引入注意力機(jī)制,融合不同特征通道信息提高對(duì)列車底部零件的檢測(cè)精度。
目前應(yīng)用于工業(yè)零件的檢測(cè)精度不斷提高,但是實(shí)際應(yīng)用環(huán)境噪聲大,視覺算法受到光照不均勻、相機(jī)位姿變化、工件形態(tài)等因素影響,導(dǎo)致檢測(cè)精度下降,同時(shí)工控機(jī)設(shè)備一般性能不高,沒有強(qiáng)大的圖形處理器。為了滿足工業(yè)領(lǐng)域?qū)α慵臋z測(cè)精度和實(shí)時(shí)性的要求,提出一種增強(qiáng)感受野的輕量化零件檢測(cè)方法。
本文借鑒YOLOv5(you only look once)網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)是由Ultralytics團(tuán)隊(duì)設(shè)計(jì)的目標(biāo)檢測(cè)網(wǎng)絡(luò),根據(jù)深度和寬度的不同,有YOLOv5s,YOLOv5m,YOLOv5l,YOLOv5x四個(gè)版本, YOLOv5s的模型最小,輸入端采用Mosaic數(shù)據(jù)增強(qiáng)方式,隨機(jī)縮放、隨機(jī)裁剪、隨機(jī)排布的方式進(jìn)行拼接,可以提高對(duì)小目標(biāo)的檢測(cè)效果,訓(xùn)練之前通過聚類算法計(jì)算設(shè)置初始錨框,對(duì)原始圖像能夠自適應(yīng)圖片縮放。主干借鑒了CSPNet(cross stage partial network)設(shè)計(jì)思路,在主干網(wǎng)絡(luò)中設(shè)計(jì)CSP模塊增強(qiáng)網(wǎng)絡(luò)特征提取,為了更好地提取融合特征,頸部網(wǎng)絡(luò)使用FPN+PAN結(jié)構(gòu),FPN(feature pyramid networks)[10]層自頂向下生成高語(yǔ)義信息的特征圖,PAN(path aggregation network)[11]層自底向上生成強(qiáng)定位特征,從不同的主干層對(duì)檢測(cè)模塊進(jìn)行特征融合。結(jié)構(gòu)圖如圖1所示。
圖1 YOLOv5s網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 YOLOv5s network structure
本文提出有效增強(qiáng)感受野的輕量級(jí)工業(yè)零部件目標(biāo)檢測(cè)網(wǎng)絡(luò),使用ShuffleNetv2輕量化網(wǎng)絡(luò)作為主干,網(wǎng)絡(luò)模型對(duì)輸入層的不同特征圖進(jìn)行分組卷積,可以大幅度降低卷積的計(jì)算量,同時(shí)為解決不同組的特征信息不通信的問題,分組卷積之后采用shuffle技術(shù)對(duì)通道均勻地打亂。隨著網(wǎng)絡(luò)加深,語(yǔ)義信息更加復(fù)雜,本文構(gòu)造了并行空洞金字塔輕量級(jí)模塊,通過對(duì)輸入特征圖不同比例的空洞卷積,提取更加豐富的多尺度語(yǔ)義信息,擴(kuò)大感受野,豐富特征信息。在特征融合模塊,從輕量化的角度出發(fā),采用深度可分離卷積可能因?yàn)榫W(wǎng)絡(luò)參數(shù)量減少而影響特征融合能力,本文在特征融合模塊使用GSConv(group-shuffle strategy convolution)[14]替換普通卷積,并設(shè)計(jì)了GSCSP(group-shuffle strategy cross stage partial)模塊,提高了網(wǎng)絡(luò)融合能力。網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖2 本文網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 The proposed network structure
YOLOv5主干特征提取網(wǎng)絡(luò)采用了CSPDarknet53結(jié)構(gòu),為了滿足在邊緣設(shè)備上高效運(yùn)行深層卷積網(wǎng)絡(luò)的同時(shí)保持精度的需求,本文采用ShuffleNet搭建主干網(wǎng)絡(luò),該模型基本單元通過分組卷積、通道重排技術(shù)提高特征提取能力,并使用深度可分離卷積降低網(wǎng)絡(luò)計(jì)算量。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)中大量堆疊的卷積操作會(huì)產(chǎn)生冗余特征圖,為了平衡網(wǎng)絡(luò)模型的速度和精度,通過設(shè)置模塊輸出通道數(shù)來控制網(wǎng)絡(luò)模型。網(wǎng)絡(luò)參數(shù)如表1所示。
表1 網(wǎng)絡(luò)參數(shù)維度Tab.1 Dimensions of network parameters
在工業(yè)環(huán)境中,工件特征的長(zhǎng)寬比和大小受相機(jī)位姿變化的影響,相機(jī)旋轉(zhuǎn)和相機(jī)傾斜等位姿變化幅度不同,其工件特征尺寸可以任意變化。而YOLO網(wǎng)絡(luò)是根據(jù)聚類算法提前設(shè)定錨框,工件的特征長(zhǎng)寬比與聚類結(jié)果差距很大,則會(huì)影響網(wǎng)絡(luò)的定位信息。為增強(qiáng)網(wǎng)絡(luò)對(duì)多尺度特征的提取能力,提高對(duì)工件的檢測(cè)準(zhǔn)確率,在網(wǎng)絡(luò)中設(shè)計(jì)并行空洞金字塔輕量級(jí)結(jié)構(gòu)。
空洞卷積(atrous convolution, AConv)是在卷積核的像素直接插入“洞”,以提高像素分別率,擴(kuò)大感受野,捕獲特征信息。深度可分離卷積將普通卷積分成兩步,通道卷積(depthwise convolution, DWConv)和逐點(diǎn)卷積(pointwise convolution, PWConv),這個(gè)過程獨(dú)立地查看卷積層的通道相關(guān)性和空間相關(guān)性。受ASPP(atrous spatial pyramid pooling)網(wǎng)絡(luò)[12]和文獻(xiàn)[13]的啟發(fā),文中設(shè)計(jì)了并行空洞金字塔通道(parallel atrous spatial pyramid path, PASPP),該結(jié)構(gòu)采用空洞卷積和深度可分離卷積相結(jié)合構(gòu)成特征融合通道,空洞卷積以棋盤方式提取特征,會(huì)丟失很大一部分信息,為避免局部信息丟失,使用不同的擴(kuò)張率提取特征進(jìn)行融合,膨脹系數(shù)設(shè)置地合理可以提高網(wǎng)絡(luò)獲取多尺度信息的能力,避免空洞卷積造成的局部信息丟失,使得模型對(duì)不同尺度的特征提取能力更強(qiáng),信息更加豐富。
圖3展示了空洞卷積與通道卷積結(jié)合的方式,輸入特征層以獨(dú)立通道采用空洞卷積,每個(gè)通道分別以3×3卷積核,擴(kuò)張率r=2進(jìn)行空洞卷積,然后對(duì)輸出通道進(jìn)行融合??斩淳矸e可以任意擴(kuò)大感受野提取特征信息,通道卷積對(duì)輸入層的每個(gè)通道進(jìn)行卷積,可以減少參數(shù)量。這個(gè)過程并不會(huì)改變通道數(shù)。
圖3 空洞卷積和通道卷積結(jié)合Fig.3 Combination structure of DWConv and AConv
PASPP結(jié)構(gòu)如圖4所示,將輸入特征通過1×卷積減少通道數(shù),1×1Conv框模塊包含三個(gè)組成部分:卷積層,批歸一化層,激活層。通道輸出結(jié)果被映射到四路分支。第一路分支以卷積核大小為3×3,擴(kuò)張率為2,經(jīng)過通道卷積,有效減少參數(shù)量;第二路分支是卷積核大小為3×3,擴(kuò)張率r=5的空洞卷積和通道卷積相結(jié)合;第三路分路擴(kuò)張率最大r=9,能夠獲得更多全局性的上下文信息增強(qiáng)推理能力;第四路保留了原來的特征信息。然后將不同空洞率的卷積信息進(jìn)行特征融合,使得網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的適應(yīng)性更強(qiáng)。由于深度卷積缺少通道信息之間的交流,引入Channel Shuffle進(jìn)行通道重排,弱化通道之間的獨(dú)立性。最后通過1×1的卷積降維和通道間編碼。
圖4 PASPP結(jié)構(gòu)圖Fig.4 Structure of PASPP
目標(biāo)檢測(cè)任務(wù)中,為了增強(qiáng)網(wǎng)絡(luò)的學(xué)習(xí)能力,頸部網(wǎng)絡(luò)對(duì)骨干網(wǎng)絡(luò)提取不同尺度特征進(jìn)行融合,提取更精細(xì)的細(xì)節(jié)進(jìn)行圖像識(shí)別。YOLOv5s模型的Neck層采用FPN+PAN結(jié)合方式,通過自上而下采樣與深層特征信息進(jìn)行融合,增強(qiáng)了深層網(wǎng)絡(luò)的語(yǔ)義信息。利用淺層的精準(zhǔn)定位信息,采用自下而上的路徑增強(qiáng)方法與深層網(wǎng)絡(luò)融合,縮短了信息路徑,增強(qiáng)了特征金字塔。YOLOv5s在上采樣和下采樣操作中采用C3模塊,減少了模型參數(shù)量,保證準(zhǔn)確的同時(shí),提高了網(wǎng)絡(luò)速度。
本文從輕量化程度和網(wǎng)絡(luò)的特征提取能力出發(fā),引入文獻(xiàn)[14]中新的卷積方式GSConv卷積替代普通卷積。為了使網(wǎng)絡(luò)更加輕量化,一般會(huì)采用深度可分離卷積(depthwise separable convolution, DSC)替換普通卷積(standard convolution, SC),但DSC特征提取和特征融合的能力低很多。圖像特征提取過程中,每一次特征圖的空間壓縮和通道擴(kuò)張會(huì)導(dǎo)致語(yǔ)義信息的丟失,通道卷積將每層特征獨(dú)立卷積,割斷了通道之間的連接,GSConv最大限度地保留了它們之間的連接,特征圖進(jìn)入頸部網(wǎng)絡(luò)時(shí),通道維度達(dá)到最大,空間維度最小,適合在頸部網(wǎng)絡(luò)中使用GSConv。其網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 GSConv結(jié)構(gòu)圖Fig.5 Structure of GSConv
結(jié)合GSConv卷積設(shè)計(jì)了GSCSP模塊,結(jié)構(gòu)如圖6所示。該模塊先使用卷積減少通道數(shù),其中一個(gè)分支經(jīng)過N個(gè)使用ResNet(residual network)[15]連接方式的GSBottleneck模塊。另一分支保留了上層輸入的特征映射,將兩路特征融合后,經(jīng)過1×1卷積進(jìn)行降維和通道編碼。GSCSP模塊減少冗余重復(fù)信息,提高了模型的表達(dá)能力,很大程度上減少了計(jì)算量。
圖6 GSCSP結(jié)構(gòu)圖Fig.6 Structure of GSCSP
在工業(yè)領(lǐng)域樣本少,沒有開發(fā)的公共數(shù)據(jù)集,本文使用的數(shù)據(jù)集是汽車生產(chǎn)線上工業(yè)相機(jī)拍攝的圖像。對(duì)數(shù)據(jù)集展開了兩項(xiàng)工作:1) 以車間工人經(jīng)驗(yàn)區(qū)分機(jī)艙類型的特征區(qū)作為標(biāo)簽,制作標(biāo)簽文件;2) 針對(duì)工業(yè)生產(chǎn)環(huán)境對(duì)檢測(cè)精度影響因素,對(duì)數(shù)據(jù)集進(jìn)行數(shù)據(jù)增強(qiáng)處理。如圖7所示為兩種型號(hào)相似度很高的汽車機(jī)艙。
圖7 機(jī)艙架原始圖Fig.7 Original image of engine compartment
在工業(yè)環(huán)境中獲取原始圖像2 000張,圖片大小為2 048×1 536像素,其中A類型發(fā)動(dòng)機(jī)艙圖片1 000張,B類型汽車機(jī)艙圖片1 000張。在實(shí)際環(huán)境中不容易獲取大量樣本,為了避免光照因素和相機(jī)位姿變化影響網(wǎng)絡(luò)識(shí)別的精度,擴(kuò)大數(shù)據(jù)集。實(shí)驗(yàn)中通過模擬相機(jī)位姿變化,對(duì)樣本集進(jìn)行數(shù)據(jù)增強(qiáng)。通過分析,實(shí)際工廠環(huán)境中相機(jī)可能存在的動(dòng)作有相機(jī)傾斜、相機(jī)旋轉(zhuǎn)、相機(jī)抖動(dòng)。針對(duì)三類動(dòng)作,分別設(shè)計(jì)對(duì)應(yīng)的圖像處理方式。其中相機(jī)傾斜為特征區(qū)域在圖片中的大小變化;相機(jī)旋轉(zhuǎn)為將圖像進(jìn)行一定角度的旋轉(zhuǎn);相機(jī)抖動(dòng)為特征區(qū)域在圖像中的位置變化。同時(shí)因光照補(bǔ)充原因,采集的圖像會(huì)因光線太亮產(chǎn)生反光或光照不足等情況,為了消除光照帶來的影響,對(duì)圖像進(jìn)行了亮度變化操作。數(shù)據(jù)增強(qiáng)的結(jié)果如圖8所示。
圖8 數(shù)據(jù)增強(qiáng)Fig.8 Data enhancement
從工業(yè)環(huán)境中獲取原始圖像,通過7∶1∶2的比例劃分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。充分考慮工業(yè)生產(chǎn)中的復(fù)雜環(huán)境,對(duì)數(shù)據(jù)集進(jìn)行不同范圍的數(shù)據(jù)增強(qiáng)。圖像旋轉(zhuǎn)是以原始圖像在[-90°,90°]范圍內(nèi)隨機(jī)旋轉(zhuǎn)角度生成一組數(shù)據(jù)集。圖像偏移是以原始圖像在(-200,200)像素點(diǎn)范圍內(nèi)在X軸和Y軸方向上進(jìn)行隨機(jī)偏移生成一組數(shù)據(jù)集,偏移像素的顆粒大小為50。圖像縮放是以原始圖像在(0.6,1)范圍內(nèi)隨機(jī)按比例縮小圖像生成一組數(shù)據(jù)集。圖像亮度是以原始圖像調(diào)整圖像亮度生成一組數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集大小如表2所示。
表2 訓(xùn)練數(shù)據(jù)集Tab.2 Training datasets
為了對(duì)比本文改進(jìn)算法性能,使用精準(zhǔn)率(precision),召回率(recall),平均精度(mAP),運(yùn)算浮點(diǎn)數(shù)(FLOPs),參數(shù)量(parameters)、模型大小(model size)和每秒幀數(shù)(frame per second, FPS)作為目標(biāo)檢測(cè)網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo)。mAP體現(xiàn)目標(biāo)檢測(cè)網(wǎng)絡(luò)的綜合性能。
本文中所有的實(shí)驗(yàn)都是在實(shí)驗(yàn)室服務(wù)器上搭建的pytorch環(huán)境下進(jìn)行的,其中訓(xùn)練機(jī)的主要硬件參數(shù):Intel(R) Core(TM) i5-4590 CPU @ 3.30 GHz;16.00 GB內(nèi)存;NVIDIA TITAN Xp。軟件參數(shù):Windows 10系統(tǒng);Python3.7;Pytorch1.9框架;cuda11.1、cudnn11.1。
為了驗(yàn)證改進(jìn)目標(biāo)網(wǎng)絡(luò)對(duì)工業(yè)零部件的檢測(cè)能力,實(shí)驗(yàn)中使用200張?jiān)紙D像作為測(cè)試集,通過圖像旋轉(zhuǎn)、圖像縮放、圖像偏移、圖像調(diào)整亮度數(shù)據(jù)增強(qiáng)操作生成800張的數(shù)據(jù)集,工業(yè)環(huán)境中相機(jī)位姿和光照條件的影響是隨機(jī)變化的,為了驗(yàn)證網(wǎng)絡(luò)的魯棒性,對(duì)測(cè)試數(shù)據(jù)集做更大幅度的數(shù)據(jù)增強(qiáng),以 [-120°,120°]范圍內(nèi)進(jìn)行圖像旋轉(zhuǎn),圖像縮放在(0.4,1)范圍內(nèi)隨機(jī)縮小圖像,圖像亮度是在其他三種操作基礎(chǔ)上改變圖像亮度。
3.4.1目標(biāo)檢測(cè)網(wǎng)絡(luò)消融實(shí)驗(yàn)
針對(duì)工業(yè)環(huán)境下對(duì)汽車零部件的目標(biāo)檢測(cè),本實(shí)驗(yàn)的改進(jìn)主要為使用ShuffleNetv2作為主干網(wǎng)絡(luò),引入PASPP模塊,在頸部網(wǎng)絡(luò)使用GSCSP模塊替換C3模塊。為了定量分析各模塊的檢測(cè)性能,在工業(yè)機(jī)艙零件數(shù)據(jù)集上進(jìn)行了消融實(shí)驗(yàn),結(jié)果如表3所示。
表3 不同模塊的性能對(duì)比Tabl.3 Comparison results of different modules
從表3中可以看出:不加任何改進(jìn)模塊的情況下,主干網(wǎng)絡(luò)使用ShuffleNetv2提取特征的YOLOv5-1.0,其mAP值只有92.8%;添加輕量化PASPP模塊的YOLOv5-PASPP模型,相比YOLOv5-1.0精度提高了1.3%,有效增加網(wǎng)絡(luò)感受野;提出的GSCSP模塊替換C3模塊,模型大小基本保持不變,增強(qiáng)了網(wǎng)絡(luò)融合信息的能力。本文算法對(duì)比YOLOv5s網(wǎng)絡(luò),參數(shù)量減少了60.3%,保持了較高的精度。本文提出的網(wǎng)絡(luò)結(jié)構(gòu)在減少網(wǎng)絡(luò)參數(shù)量和計(jì)算量,輕量化程度最高的情況下,保證網(wǎng)絡(luò)精度,在精度和速度上都達(dá)到了令人滿意的結(jié)果。
為了驗(yàn)證輕量化PASPP模塊中使用深度可分離卷積的有效性,實(shí)驗(yàn)如表4所示。YOLOv5-SC實(shí)驗(yàn)中PASPP模塊使用的是普通卷積,精度沒有明顯提升,添加的PASPP模型能夠提取更多上下文特征信息,且降低了參數(shù)量;YOLOv5-DSC將聚合網(wǎng)絡(luò)中的普通卷積替換為深度可分離卷積,降低了網(wǎng)絡(luò)計(jì)算量,但融合能力很低,影響網(wǎng)絡(luò)精度;提出的GSCSP結(jié)構(gòu)保留了更多通道相關(guān)性,解決了因DSC產(chǎn)生的特征豐富性過差的問題。
表4 不同卷積方式的實(shí)驗(yàn)結(jié)果Tab.4 Comparison results of different convolution modes
3.4.2網(wǎng)絡(luò)對(duì)比實(shí)驗(yàn)
為了驗(yàn)證本文算法對(duì)汽車零部件檢測(cè)的針對(duì)性,與其他主流算法進(jìn)行了對(duì)比實(shí)驗(yàn),包括SSD[16], YOLOv3-tiny[17],YOLOv4-tiny[18],YOLOv5s,實(shí)驗(yàn)結(jié)果如表5所示。
表5 模型性能對(duì)比Tab.5 Comparison of model performance
從上述實(shí)驗(yàn)結(jié)果分析可知,由于SSD模型在規(guī)模上較大,所需計(jì)算量多,在推理速度上表現(xiàn)最差。本文算法模型上最小,模型大小只有4.3 MB,比YOLOv5s的檢測(cè)速度高24幀/s,精度基本保持一致。本文算法對(duì)工業(yè)汽車零部件的檢測(cè)效果表現(xiàn)優(yōu)異。圖9為各種場(chǎng)景下的樣本檢測(cè)結(jié)果,在模擬遮擋、過曝光、旋轉(zhuǎn)等復(fù)雜條件下,驗(yàn)證不同網(wǎng)絡(luò)的檢測(cè)能力。由于光照因素,往往會(huì)出現(xiàn)識(shí)別特征減少的情況,比如識(shí)別目標(biāo)區(qū)域曝光或者失光,檢測(cè)較為困難,YOLOv3-tiny網(wǎng)絡(luò)對(duì)這類目標(biāo)不敏感有漏檢的情況。當(dāng)圖像旋轉(zhuǎn),特征區(qū)域的長(zhǎng)寬比發(fā)生變化,本文算法提出的多尺度空洞金字塔模塊,使得模型更能學(xué)習(xí)到這些樣本特征。
圖9 各場(chǎng)景檢測(cè)結(jié)果Fig.9 The results of various samples detect
3.4.3實(shí)驗(yàn)結(jié)果
為了驗(yàn)證本文算法對(duì)汽車零部件的分類能力,實(shí)驗(yàn)中選擇兩種輕量化網(wǎng)絡(luò)ShuffleNetv2,MobileNetv3[19]和兩種經(jīng)典網(wǎng)絡(luò)EfficientNetv2[20],ResNet50[15]分別對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練。測(cè)試數(shù)據(jù)集包括800張圖像,實(shí)驗(yàn)結(jié)果如表6所示。本文提出的算法檢測(cè)速度最快,可以達(dá)到實(shí)時(shí)檢測(cè)要求,其準(zhǔn)確率也表現(xiàn)較好。實(shí)驗(yàn)過程中發(fā)現(xiàn),當(dāng)測(cè)試數(shù)據(jù)集在訓(xùn)練范圍內(nèi)進(jìn)行增強(qiáng)操作,其網(wǎng)路表現(xiàn)效果良好,當(dāng)超出訓(xùn)練范圍,加大測(cè)試集難度,本文算法依然可以有較好的分類結(jié)果,因此本文提出的算法能夠更好地應(yīng)對(duì)復(fù)雜的工業(yè)環(huán)境,提高檢測(cè)能力。
表6 模型對(duì)比結(jié)果Tab.6 Comparison of model performance
針對(duì)工業(yè)環(huán)境中光照條件、相機(jī)位姿變化等因素影響檢測(cè)精度下降問題,提出一種適用性更強(qiáng)的輕量化網(wǎng)絡(luò)。為提高網(wǎng)路速度,使用ShuffleNetv2網(wǎng)絡(luò)結(jié)構(gòu)作為主干,并設(shè)計(jì)PASPP模塊提高網(wǎng)絡(luò)對(duì)不同尺度目標(biāo)的特征提取;為提升網(wǎng)絡(luò)精度,結(jié)合GSConv設(shè)計(jì)GSCSP網(wǎng)絡(luò)模塊,在不增加參數(shù)的情況下提高模型精度。實(shí)驗(yàn)結(jié)果表明,相比YOLOv5s網(wǎng)絡(luò),參數(shù)量大幅減少60.8%,mAP為96.1%,算法優(yōu)勢(shì)突出,對(duì)工業(yè)零部件具有較好的檢測(cè)能力,具有更快的推理速度,能夠滿足實(shí)際生產(chǎn)中零部件檢測(cè)需求。