錢(qián) 雪,李 軍,唐 球,錢(qián)曉雨
(1.北京信息科技大學(xué) 信息管理學(xué)院,北京100192;2.華北計(jì)算機(jī)系統(tǒng)工程研究所,北京100083)
近幾年深度學(xué)習(xí)技術(shù)在機(jī)器視覺(jué)方面有很大突破,而利用其進(jìn)行工業(yè)產(chǎn)品表面缺陷檢測(cè)也逐漸成為工業(yè)界研究的熱點(diǎn)。在真實(shí)復(fù)雜的工業(yè)環(huán)境下,表面缺陷檢測(cè)面臨諸多挑戰(zhàn),例如在藥品檢測(cè)過(guò)程中,存在缺陷成像與背景差異小、對(duì)比度低、缺陷尺度變化大且類(lèi)型多樣等情形。近些年來(lái),隨著以卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)為代表的深度學(xué)習(xí)模型在諸多計(jì)算機(jī)視覺(jué)(Computer Vision,CV)領(lǐng)域成功應(yīng)用,國(guó)內(nèi)外學(xué)者也展開(kāi)了基于深度學(xué)習(xí)技術(shù)的表面缺陷檢測(cè)的研究。同時(shí),一些公司也開(kāi)發(fā)出多種基于深度學(xué)習(xí)的商用工業(yè)表面缺陷檢測(cè)軟件。全球傳統(tǒng)工業(yè)視覺(jué)及其部件的市場(chǎng)規(guī)模將于2025年達(dá)到192億美元且年平均增長(zhǎng)率為14%[1-2]。因此,基于深度學(xué)習(xí)的表面缺陷檢測(cè)方法不僅具有重要的學(xué)術(shù)研究?jī)r(jià)值,同時(shí)有非常廣闊的市場(chǎng)應(yīng)用前景。
然而,深度學(xué)習(xí)技術(shù)在實(shí)際工業(yè)場(chǎng)景中的應(yīng)用存在一些難題,針對(duì)藥品檢測(cè)來(lái)說(shuō)一是生產(chǎn)過(guò)程中缺陷樣本過(guò)少,不利于神經(jīng)網(wǎng)絡(luò)的特征提取;二是產(chǎn)品的缺陷尺度不同,有上千個(gè)像素的缺粒缺陷,也有幾十個(gè)像素的黑點(diǎn)異物缺陷等。實(shí)際生產(chǎn)過(guò)程中用于訓(xùn)練的缺陷樣本數(shù)量少,細(xì)微缺陷在沒(méi)有突出缺陷區(qū)域的情況下容易被其他區(qū)域的信息所掩蓋。而且,隨著神經(jīng)網(wǎng)絡(luò)的深入以及卷積和池化等操作,一些特征層信息被丟失。YOLOV5是目前最優(yōu)的目標(biāo)檢測(cè)模型之一,其在精確度、檢測(cè)速度和所需存儲(chǔ)空間上都表現(xiàn)優(yōu)異,十分適用于工業(yè)產(chǎn)品的缺陷檢測(cè)。
針對(duì)以上問(wèn)題,本文提出了一種檢測(cè)速度快、泛化能力強(qiáng)、針對(duì)小缺陷擁有更好檢測(cè)效果的藥品缺陷檢測(cè)方法——RDD_YOLOV5:
(1)在數(shù)據(jù)預(yù)處理方面,利用Sobel算子提取原始圖像RGB三通道的淺層特征得到特征圖像,形成多通道樣本圖增加有效訓(xùn)練樣本數(shù),提升模型泛化能力,緩解樣本少的問(wèn)題。
(2)在YOLOV5模型中引入通道注意力機(jī)制ECANet,對(duì)不同通道的特征進(jìn)行權(quán)重調(diào)整。ECA模塊旨在適當(dāng)捕獲局部跨道信息交互。該方案在增加少量參數(shù)的情況下在泛化能力與小缺陷檢測(cè)精度方面獲得明顯的性能增益。
(3)在預(yù)測(cè)層之前加入了自適應(yīng)空間特征融合(ASFF),充分利用高層特征的語(yǔ)義信息和底層特征的細(xì)粒度特征,利于實(shí)際工業(yè)場(chǎng)景中缺陷尺度大幅度變化的樣本識(shí)別。
目前,基于深度學(xué)習(xí)的目標(biāo)檢測(cè)網(wǎng)絡(luò)主要分為單階段與兩階段。單階段模型在進(jìn)行特征提取后直接獲取缺陷的位置和類(lèi)別,如SSD[3]或YOLO[4];兩階段模型需要首先生成可能包含缺陷的候選框然后再進(jìn)行預(yù)測(cè),如Fast-RCNN[5],其在實(shí)時(shí)性方面稍顯不足。在YOLO系列中,YOLOV2[6]在PASCAL VOC 2007數(shù)據(jù)集[7]上可以實(shí)現(xiàn)高達(dá)78.6%的mAP,檢測(cè)速度為40 FPS。較為經(jīng)典的YOLOV3[8],通過(guò)在YOLOV2的基礎(chǔ)上增加一個(gè)特征金字塔結(jié)構(gòu),并使用自上而下的多級(jí)預(yù)測(cè)進(jìn)一步提高了檢測(cè)小對(duì)象的能力。
在基于深度學(xué)習(xí)的缺陷檢測(cè)網(wǎng)絡(luò)研究中,大部分研究針對(duì)于金屬表面、橋梁、PCB板等物體[9],由于數(shù)據(jù)獲取等原因針對(duì)藥品的檢測(cè)較少。Liu[10]等人提出了一種多通道輸入的網(wǎng)絡(luò)結(jié)構(gòu)并使用多尺度圖像塊檢測(cè)策略對(duì)紐扣表面進(jìn)行檢測(cè),檢測(cè)精度超過(guò)96%mAP,并在DSP上檢測(cè)速度為5 FPS。Liu[11]等人使用MobileNet作為骨干網(wǎng)絡(luò)用于高鐵接觸網(wǎng)支撐組定位,其在測(cè)試的數(shù)據(jù)集上的檢測(cè)效果達(dá)到25 FPS和94.3%mAP。Zhang[12]等人以YOLOV3為基礎(chǔ)采用了像素疊加的數(shù)據(jù)增強(qiáng)方式,并引入特征金字塔池化層以及自底向上的路徑增強(qiáng)方法檢測(cè)交通標(biāo)志,達(dá)到了23.81 FPS以及86%mAP。Zhang[13]等人同樣將YOLOV3應(yīng)用于橋梁表面缺陷定位,為提高準(zhǔn)確率在原來(lái)網(wǎng)絡(luò)的基礎(chǔ)上引入預(yù)訓(xùn)練權(quán)重、批再規(guī)范化和Focal loss。YOLO系列檢測(cè)如今發(fā)展到Y(jié)OLOV5,通過(guò)不同的改進(jìn)適用于不同的檢測(cè)場(chǎng)景。
YOLOV5檢測(cè)方法與較為經(jīng)典的YOLOV3相比,其數(shù)據(jù)增強(qiáng)使用Mosaic擴(kuò)充數(shù)據(jù)集,同時(shí)還可以進(jìn)行翻轉(zhuǎn)、亮度調(diào)整、剪裁等操作。對(duì)于數(shù)據(jù)量較少的樣本集,可以有效地進(jìn)行數(shù)據(jù)擴(kuò)充。骨干網(wǎng)絡(luò)使用CSP-Darknet(Cross Stage Partial Networks Darknet)與空間金字塔池化(Spatial Pyramid Pooling,SPP)結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)。該結(jié)構(gòu)通過(guò)將梯度變化集成到特征圖的方式減少了模型的參數(shù)量和浮點(diǎn)運(yùn)算數(shù)值,在縮小了模型尺度的同時(shí)仍能保證準(zhǔn)確率和速度,所以被廣泛使用。在YOLOV5檢測(cè)流程中,以YOLOV5s為例(其結(jié)構(gòu)圖如圖1所示),網(wǎng)絡(luò)首先將訓(xùn)練集中的每個(gè)圖像分成S×S(S=19,38,76)個(gè)網(wǎng)格,每個(gè)網(wǎng)格通過(guò)自適應(yīng)錨框計(jì)算后都有不同大小的候選框,由物體中心所在的網(wǎng)格負(fù)責(zé)檢測(cè)物體;然后,通過(guò)骨干網(wǎng)絡(luò)的卷積層提取特征;最后,預(yù)測(cè)層用于多尺度預(yù)測(cè)。負(fù)責(zé)預(yù)測(cè)的特征圖有多個(gè)尺度,可以預(yù)測(cè)大小不同的物體,由特征金字塔結(jié)構(gòu)進(jìn)行多尺度特征圖融合而得。每個(gè)網(wǎng)格預(yù)測(cè)B個(gè)錨框、置信度得分以及C類(lèi)條件概率。
圖1 YOLOV5s結(jié)構(gòu)圖
實(shí)際藥品生產(chǎn)過(guò)程中對(duì)良品率有嚴(yán)格要求,導(dǎo)致真實(shí)缺陷樣本數(shù)據(jù)很少,根據(jù)鄰近風(fēng)險(xiǎn)最小化原則,可以通過(guò)創(chuàng)建與用于數(shù)據(jù)擴(kuò)充的訓(xùn)練樣本相似的樣本增加學(xué)習(xí)過(guò)程中的監(jiān)督信息,來(lái)提高泛化能力。本文使用Sobel算子對(duì)樣本的缺陷部分進(jìn)行一階梯度處理,使處理后的缺陷部分更加明顯?;诖瞬捎肧obel算子先對(duì)同一圖像的RGB三通道圖像進(jìn)行處理,得到處理后的RGB三通道底層特征圖像。再將原圖RGB三通道圖像與特征圖RGB三通道圖像作為YOLOV5網(wǎng)絡(luò)的輸入形成多通道輸入圖像。以此來(lái)提升模型的泛化能力與緩解樣本不均衡的問(wèn)題,如圖2所示。
圖2 Sobel算子處理后的RGB三通道底層特征圖
由于藥品缺陷尺度變化較大,一些細(xì)微缺陷如黑點(diǎn)、細(xì)絲異物等特征很容易被忽略。因此,通過(guò)骨干網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取后,在骨干網(wǎng)絡(luò)的SPP層末端加入通道注意力機(jī)制ECA-Net[14],對(duì)不同通道的特征權(quán)重進(jìn)行加權(quán)調(diào)整,增強(qiáng)網(wǎng)絡(luò)提取跨通道信息特征的能力,提升小缺陷檢測(cè)精度。注意力機(jī)制是改善目標(biāo)檢測(cè)性能的重要方法。ECA注意力機(jī)制解決了SENet等傳統(tǒng)注意力機(jī)制降維后為后續(xù)預(yù)測(cè)帶來(lái)的副作用,旨在獲取通道間的依賴(lài)關(guān)系,增強(qiáng)特征的表達(dá)能力。該模塊利用一種通過(guò)一維卷積有效實(shí)現(xiàn)不降維的局部跨信道交互策略以及一種自適應(yīng)選擇一維卷積核大小的方法,來(lái)確定局部跨信道交互的覆蓋率。在不降低維度的情況下輸入特征圖x,然后將所有通道進(jìn)行全局平均池化操作,再通過(guò)可共享權(quán)重的l維卷積進(jìn)行學(xué)習(xí),并在學(xué)習(xí)過(guò)程中考慮每個(gè)通道與其k個(gè)鄰居來(lái)捕獲跨通道交互。k代表l維卷積的內(nèi)核大小,通過(guò)跨通道信息交互作用的覆蓋范圍(即一維卷積的內(nèi)核大小k)與通道維數(shù)C的正比關(guān)系,得出式(1),自適應(yīng)確定k的取值。式中γ=2,b=1,C為通道維數(shù)。
該模塊避免了權(quán)重分配過(guò)程中的降維操作,并能有效捕捉跨通道交互信息。如圖3所示,ECA-Net在沒(méi)有降維的通道式全局平均池化之后,通過(guò)考慮每個(gè)通道的k個(gè)鄰居來(lái)捕獲本地跨通道交互信息。這種方法在效果和效率上都有明顯優(yōu)勢(shì)。通過(guò)在YOLOV5的骨干網(wǎng)絡(luò)末端引入ECA-Net模塊,在提取跨通道的交互信息特征過(guò)程中,重點(diǎn)關(guān)注缺陷特征,提升檢測(cè)精度。
圖3 ECA-Net結(jié)構(gòu)圖
在YOLOV5網(wǎng)絡(luò)中,特征金字塔結(jié)構(gòu)融合不同層次的特征圖以改善模型性能,底層的特征圖尺度較大,包含較多的紋理、顏色、細(xì)節(jié)等信息,深層特征圖的語(yǔ)義性更強(qiáng),更具有全局特征,但是對(duì)細(xì)節(jié)的表示能力較差。所以,在特征金字塔融合過(guò)程中,采用自適應(yīng)空間特征融合(Adaptively Spatial Feature Fusion,ASFF)方法[15]。AFSS是一種新的基于數(shù)據(jù)驅(qū)動(dòng)的金字塔特征融合策略,其通過(guò)自適應(yīng)地學(xué)習(xí)權(quán)重參數(shù)來(lái)融合不同空間特征層特征,在幾乎不引入其他開(kāi)銷(xiāo)的前提下提高特征的尺度不變性,有利于提高不同尺度小的缺陷識(shí)別精度。將ASFF添加到模型的DetectLayer中,形成DetectASFFLayer,可以保證在不改變配置文件的基礎(chǔ)上,將DetectLayer直接替換為DetectASFFLayer,可適用于不同網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)即插即用。
在特征融合過(guò)程中,以3層特征層為例,如圖4所示,將YOLOV5最后生成的3層金字塔特征層的每一層與其他兩層乘上對(duì)應(yīng)權(quán)重后再相加,得到三層自適應(yīng)空間特征融合層ASFF-3。設(shè)xl表示水平l的分辨率特征,首先通過(guò)上下采樣和插值法等,將另一個(gè)級(jí)別n的特征xn調(diào)整為與xl形狀相同。再設(shè)xn→lij表示在位置(i,j)處的特征向量從n映射到l級(jí),對(duì)應(yīng)的l級(jí)特征如下:
圖4 在YOLOV5中加入ASFF特征融合方法
權(quán)重參數(shù)公式如下:
為了評(píng)估本文方法,數(shù)據(jù)集使用藥品實(shí)際工廠(chǎng)生產(chǎn)過(guò)程中工業(yè)相機(jī)采樣的大小為1 700×1 100的圖片。樣本中藥片內(nèi)部異物/破損30張,藥板異物27張,藥板藥片有折痕、劃痕16張,鋁箔藥板發(fā)生破損10張,藥片內(nèi)部發(fā)生破損41張,空粒39張。
實(shí)驗(yàn)配置與參數(shù)如表1所示。
表1 實(shí)驗(yàn)參數(shù)
本實(shí)驗(yàn)基于YOLOV5s模型進(jìn)行改進(jìn),選取由混淆矩陣衍生的目標(biāo)檢測(cè)常用的準(zhǔn)確率(Accuracy)、精確率(Precision)、平均精確率(mean Average Precision,mAP)、召回率(Recall)、PR曲線(xiàn)等對(duì)模型進(jìn)行評(píng)估。其中:
實(shí)驗(yàn)精確率曲線(xiàn)如圖5所示,mAP0.5曲線(xiàn)如圖6所示,表2為本文方法與YOLOV5s對(duì)比實(shí)驗(yàn)結(jié)果。
圖5 精確率曲線(xiàn)
圖6 mAP0.5曲線(xiàn)
表2 對(duì)比實(shí)驗(yàn)結(jié)果
由表2及圖5、圖6可知,以YOLOV5s為基礎(chǔ),同一數(shù)據(jù)集下RDD_YOLOV5檢測(cè)框架對(duì)于藥品缺陷的檢測(cè)可達(dá)0.966 mAP,精確率達(dá)到0.976。其檢測(cè)速度可達(dá)32 FPS,平均檢測(cè)一張圖僅需約31 ms,極大地提升了工業(yè)生產(chǎn)現(xiàn)場(chǎng)的檢測(cè)效率,可以滿(mǎn)足實(shí)時(shí)檢測(cè)的需求。
部分缺陷檢測(cè)效果圖如圖7、圖8所示。由檢測(cè)結(jié)果圖可知,本文提出的檢測(cè)方法可精準(zhǔn)檢測(cè)藥品表面尺度不同的缺陷以及細(xì)微缺陷。
圖7 內(nèi)部異物缺陷檢測(cè)結(jié)果示例
圖8 空粒缺陷檢測(cè)結(jié)果示例
對(duì)于工業(yè)生產(chǎn)數(shù)據(jù)缺陷的檢測(cè),使用基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法YOLOV5并在此基礎(chǔ)上增加了注意力機(jī)制與特征融合機(jī)制,一定程度上緩解了樣本數(shù)量少以及細(xì)微缺陷識(shí)別精度有限的問(wèn)題,在準(zhǔn)確度較高的情況下檢測(cè)速度極快,滿(mǎn)足實(shí)時(shí)性要求。本研究為工業(yè)產(chǎn)品表面缺陷檢測(cè)提供了可行的研究方法。
網(wǎng)絡(luò)安全與數(shù)據(jù)管理2021年12期