何思銳,張孫杰,王永雄
(上海理工大學 光電信息與計算機工程學院,上海 200093)
在現(xiàn)代工業(yè)自動化生產(chǎn)中,連續(xù)大批量生產(chǎn)過程中都會產(chǎn)生一定的次品,這極大地影響了后續(xù)的工業(yè)生產(chǎn)和應(yīng)用.例如,織物表面的變形、臟污、劃傷等缺陷,將極大地破壞服裝的美觀和價值;鋼軌的裂紋缺陷會影響列車的運行,造成嚴重的安全事故[1];在生產(chǎn)流水線上,產(chǎn)品的表面缺陷,如孔洞、邊裂等,可能造成嚴重的生產(chǎn)事故.因此,及時發(fā)現(xiàn)和消除瑕疵和殘次品至關(guān)重要.
早期的人工檢測方法效率低,工作環(huán)境受限,檢測水平不穩(wěn)定.隨著照相機和計算機技術(shù)的飛速發(fā)展,基于視覺的檢測方法應(yīng)用廣泛,該方法主要由圖像采集、圖像處理以及缺陷檢測3部分組成,能夠避免操作條件和主觀因素對檢測結(jié)果的影響,提高檢測效率.該方法主要分為傳統(tǒng)檢測方法和深度學習檢測方法[1].傳統(tǒng)檢測方法利用直方圖均衡化、濾波、灰度二值化等方法,對照相機獲得的圖像進行預處理,然后利用方向梯度直方圖(Histogram of Oriented Gradien,HOG)特征[2]、形態(tài)學理論等方法進行特征提取和檢測.Zhao等[3]根據(jù)圖像不同區(qū)域灰度值的分布,利用HOG特征對圖像進行特征提取,并利用支持向量機進行分類,檢測出缺陷區(qū)域.Zhu[4]等通過改進的霍夫變換方法提取圓形電阻片位置,利用濾波方法獲得候選區(qū)域,最后利用形態(tài)學方法分析電阻片的表面缺陷.
由于傳統(tǒng)檢測方法需要人工提取特征,泛化性能差等缺點,近年來,基于深度學習的表面缺陷檢測成為研究熱點之一.Tao等[5]利用分割的思想,設(shè)計了一種用于缺陷分割的級聯(lián)自動編碼器結(jié)構(gòu).該模型根據(jù)編碼器對正常區(qū)域和缺陷區(qū)域的不同響應(yīng),對缺陷區(qū)域進行定位.Xu等[6]通過特征金字塔網(wǎng)絡(luò)[7]對提取到的布匹圖像特征進行過濾,以提高檢測精度.Chen等[8]通過級聯(lián)SSD(Single Shot MultiBox Detector)[9],YOLO(You Only Look Once)[10],深度卷積神經(jīng)網(wǎng)絡(luò)[11]等模型,在復雜環(huán)境下可以得到較好的檢測效果.然而,深層網(wǎng)絡(luò)通常模型較大,運算復雜,不能滿足實時缺陷檢測的需要.此外,工業(yè)缺陷圖像與自然場景相比,更關(guān)注紋理信息,過深的網(wǎng)絡(luò)可能會淹沒細粒度缺陷特征,因此不適合使用較深的網(wǎng)絡(luò)模型.
針對上述問題,本文提出了一個單階段缺陷檢測模型,用于對工業(yè)場景中產(chǎn)品的表面缺陷進行快速檢測.該模型在訓練階段采用多種類型的卷積核提取多尺度信息,加強對紋理特征的提取;在推理階段進行卷積核的融合,使單個卷積核學習到不同卷積核的知識,同時減少計算量,保證推理速度;針對不同的預測目標,設(shè)計差異化的檢測頭部;此外,設(shè)計輕量級聯(lián)合注意力模塊用于加強特征表示,進一步提升模型檢測能力.
目標檢測是計算機視覺以及圖像處理領(lǐng)域的一個基本問題,其主要任務(wù)是對圖像中的目標進行準確分類和定位,給出類別名稱及位置信息,因此能夠應(yīng)用到缺陷檢測領(lǐng)域.
當前所流行的深度學習目標檢測方法主要分為兩類,雙階段法和單階段法.雙階段法代表方法有R-CNN[12]、Fast R-CNN[13]、Faster R-CNN[14]等.此類方法首先通過選擇性搜索[15]或區(qū)域選擇網(wǎng)絡(luò)進行采樣,得到稀疏的感興趣區(qū)域,然后進行分類和邊界框回歸.雙階段目標檢測算法通過復雜的模型,感興趣區(qū)域的提取、背景區(qū)域的過濾等方法,可以達到較好的檢測效果.其中, Faster R-cnn作為高精度的雙階段檢測模型,也被應(yīng)用于缺陷檢測領(lǐng)域.Wang等[16]利用Faster R-cnn算法,首先通過滑動窗口方法對原始圖像進行采樣,然后對采樣后的區(qū)域進行分類.但是在雙階段模型中,篩選出候選區(qū)域的過程需要大量的計算,因此達不到實時檢測的要求.
單階段目標檢測算法沒有區(qū)域篩選步驟,直接在整張?zhí)卣鲌D上進行分類和回歸,可以達到較高的速度.代表性算法有YOLO系列,SSD等.YOLO首先將輸入圖像尺寸歸一化,劃分成S×S個網(wǎng)格;然后通過一系列卷積操作進行特征提取,每個網(wǎng)格單元預測B個邊界框,通過對邊界框的回歸直接得到最后的檢測結(jié)果,產(chǎn)生分類結(jié)果和位置信息.該算法具有較高的檢測速度,但是只有單層特征輸出,且由于網(wǎng)絡(luò)結(jié)構(gòu)簡單,不能獲得較高的精度.SSD通過利用不同層次的特征圖,進行多尺度預測輸出,可以提升對不同尺寸目標的檢測效果;但是,由于SSD需要利用深層網(wǎng)絡(luò)進行預測,因此,對小目標檢測效果較差.近年來,YOLO算法通過引入錨進一步加快推理速度[17]、參考特征金字塔網(wǎng)絡(luò)進行多尺度預測[18]、采用更復雜的骨干網(wǎng)絡(luò)[19]等方法,大大提升了檢測性能,發(fā)展出一系列基于YOLO的算法.
其中,Yolov3應(yīng)用最為廣泛.該網(wǎng)絡(luò)基本模塊是由3×3卷積(Convolution)、批歸一化(Batch Normalization)和Leaky-relu構(gòu)成的CBL(Convolution+ Batch Normalization+Leaky-relu)模塊,卷積層提取圖像特征,批歸一化操作對每層的輸入進行處理,使輸入分布均勻,加快網(wǎng)絡(luò)收斂速度,減輕過擬合, Leaky-relu激活函數(shù)增加網(wǎng)絡(luò)的非線性,同時能夠避免梯度消失和梯度爆炸.骨干網(wǎng)絡(luò)通過串聯(lián)的CBL逐步進行特征提取,并通過殘差連接[20]避免網(wǎng)絡(luò)退化,最后利用特征金字塔結(jié)構(gòu)使用3種不同大小的特征圖來檢測大、中、小對象,獲得多尺度的預測輸出.
Yolov3-Tiny是Yolov3的簡化版本,它包含了Yolov3的基本功能,體積更小,速度更快.但是由于網(wǎng)絡(luò)層數(shù)的減少,不能學習到足夠的特征,因此精度較低.針對工業(yè)缺陷檢測任務(wù),本文對Yolov3-Tiny進行改進,通過多尺度信息融合增強模型提取特征的能力,并通過注意力模塊對特征進行處理.
為了滿足工業(yè)檢測中的速度需要,本文采用Yolov3-Tiny進行表面缺陷檢測.本文通過加強骨干網(wǎng)絡(luò),引入注意力機制等策略,對Yolov3-Tiny進行改進,改進后的網(wǎng)絡(luò)結(jié)構(gòu)見圖1.其中PCBL(Parallel Convolution+Batch Normalization+Leaky-relu)代表由平行卷積和批歸一化及激活函數(shù)構(gòu)成的平行卷積模塊.C代表拼接(Concat)操作,將特征按照通道維度進行疊加,U代表上采樣.
圖1 Wide-Yolo網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Network structure of Wide-Yolo
本文將只包含單個3×3卷積的CBL模塊替換為由多個不同卷積構(gòu)成的組合,并結(jié)合對網(wǎng)絡(luò)寬度的研究,提出了平行卷積組合模塊,輸入圖像進行一系列平行卷積,獲得具有多尺度信息的特征圖;同時,通過聯(lián)合注意力對特征重要性進行學習,最后通過檢測頭部輸出多尺度檢測結(jié)果.
對于卷積神經(jīng)網(wǎng)絡(luò)的每一層,每個通道代表一種特征,通道數(shù)越多代表信息越豐富[21].本文通過通道的疊加增加網(wǎng)絡(luò)寬度,增強對紋理特征的學習與提取.由于不同尺寸的卷積核具有不同的感受野,可以使網(wǎng)絡(luò)學習到多尺度特征,因此,在網(wǎng)絡(luò)寬度增加的部分采用與原始卷積平行的1×1卷積,即逐點卷積,增強對細粒度特征的學習,同時,3×3學習大尺寸特征,使網(wǎng)絡(luò)對不同尺寸的物體都能保持較好的檢測效果.平行卷積模塊見圖2.
除此之外,Ding等[22]指出,卷積具有可加性,其定義為公式(1):
I×k1+I×k2=I×(k1+k2)
(1)
其中I是輸入特征,k代表卷積核,即多個不同的卷積核對同一輸入進行卷積,其結(jié)果相加等于先將卷積核進行融合,再進行卷積.
基于以上原理,本文將原網(wǎng)絡(luò)中的3×3卷積替換為由1×3,3×3,3×1構(gòu)成的非對稱卷積組合,通過結(jié)合對稱的3×3卷積和非對稱卷積,提取到更豐富的特征.值得注意的是,平行卷積方式僅用于訓練階段.在推理過程中,通過在3×3卷積核中加入非對稱卷積的參數(shù),將卷積核進行融合.因此,該結(jié)構(gòu)不增加推理時間.通過這種方法,可以建立一個更強大的檢測模型,和使用單一的卷積核相比,能夠提取更豐富的特征.
圖2 平行卷積模塊Fig.2 Parallel convolution module
在這一部分中,本文將原始骨干網(wǎng)絡(luò)中的CBL模塊替換為由不同尺寸的平行卷積組合,同時引入了殘差連接.在訓練階段,除了逐點卷積之外,模型采用由3個不同卷積構(gòu)成的非對稱卷積組合,共4個卷積層對前一層特征進行處理,在推理階段,將非對稱卷積進行融合,僅利用3×3和逐點卷積進行預測.因此,推理階段的模型和原始模型相比只增加了一個逐點卷積,但可以捕捉到不同類型的多尺度特征,性能可以獲得較大的提升.
卷積神經(jīng)網(wǎng)絡(luò)的注意力機制主要分為通道注意力和空間注意力兩個方面,能夠從復雜信息中選擇對當前任務(wù)更為關(guān)鍵的信息.Hu等[23]提出了通道注意力,對于一個H×W的特征圖,通過在每個通道上添加權(quán)重來表示信息的重要性,權(quán)重越大,通道和關(guān)鍵信息之間的相關(guān)性越高.空間注意力[24]認為,同一層特征圖上的不同像素對網(wǎng)絡(luò)學習也具有不同的貢獻,因此需要學習特征圖上每一個像素的重要性,以進一步提高準確性.此外,Woo等[25]結(jié)合通道和空間注意力來綜合評價信息,比單一維度的注意力機制取得了更好的效果.
圖3 注意力模塊Fig.3 Attention module
受文獻[25]的啟發(fā),本文設(shè)計了結(jié)合通道和空間的聯(lián)合注意力模塊,對骨干網(wǎng)絡(luò)輸出的特征進行有選擇地學習,以充分考慮通道間以及像素的重要性.注意力模塊如圖3所示,分為通道注意力圖3(a)和空間注意力圖3(b)兩部分.其中,代表sigmoid計算.
文獻[23]通過Squeeze壓縮特征圖,通過Excitation學習通道間的相關(guān)性,為了減少計算量,通過全連接層對通道進行降維.文獻[26]指出,通道降維會影響模型的學習能力.同時,學習所有通道的相關(guān)性是不必要的,而且會增加計算復雜度.
基于上述理論,本文對得到的特征圖,首先通過全局平均池化(Global Average Pooling)進行壓縮,得到融合了每層空間信息的1維輸出,然后通過ki×ki的卷積核學習局部通道之間的相關(guān)性,實現(xiàn)跨通道信息交互,其中ki代表學習的局部信息覆蓋的通道數(shù)量,本文設(shè)置為5.通過sigmoid得到各個通道的激活值,即權(quán)重系數(shù).最后,將得到的系數(shù)與原特征圖相乘,產(chǎn)生具有不同重要性的特征圖.計算過程見公式(2):
Fout=Fin·σ(fki(GAP(Fin))
(2)
其中,Fin為輸入特征,Fout為輸出特征,σ為sigmoid激活函數(shù),fki為局部卷積操作,GAP為全局平均池化.
該模塊不需要全連接層進行降維,直接進行快速卷積,可以極大地減少計算量,提高運算速度,局部卷積結(jié)果直接反映了各通道之間的相關(guān)性,同時帶來精度的提升.
經(jīng)過通道注意力模塊的處理,網(wǎng)絡(luò)已經(jīng)學習到不同通道的重要性,將此時產(chǎn)生的特征圖作為空間注意力模塊的輸入,進一步學習空間上的相關(guān)性.首先在通道維度進行全局最大池化和全局平均池化,獲得具有差異化的全局信息,然后將兩個特征圖分別進行卷積,學習到空間相關(guān)信息,將特征圖進行拼接后再次通過卷積進行降維,sigmoid激活函數(shù)得到特征圖上每個像素的激活值,即像素的權(quán)重系數(shù).最后,將得到的系數(shù)與原特征圖相乘,產(chǎn)生注意力模塊的最終輸出.實驗證明,經(jīng)過雙重學習的空間注意力圖,能夠有針對性地學習到不同情況下的空間信息.計算過程見公式(3):
Fout=Fin·σ(f(f(GAP(Fin))+f(GMP(Fin))))
(3)
其中,σ為sigmoid激活函數(shù),f為卷積操作,+為通道拼接操作,GMP為全局最大池化(Global Max Pooling).
目標檢測算法通過骨干網(wǎng)絡(luò)提取特征,檢測頭部產(chǎn)生分類結(jié)果和位置信息.Yolov3檢測頭部通過多層卷積后進行預測輸出.Yolov3-tiny的檢測頭部只采用單個3×3卷積.為了進一步提高精度,本文對檢測頭部進行設(shè)計.
圖4 檢測頭部結(jié)構(gòu)Fig.4 Structure of head
為了保證推理速度,本文不直接采用多層卷積疊加的級聯(lián)結(jié)構(gòu),而是設(shè)計并行結(jié)構(gòu),分別輸出分類結(jié)果和位置信息,通過多任務(wù)學習提高檢測精度;同時,在檢測頭部中,首先利用1×1卷積進行降維,在之后的卷積中也加入1×1卷積,逐步減少模型計算量.在Yolov3-tiny中,有兩個尺度的預測輸出,大尺度特征圖分辨率較低,具有更強的語義信息,小尺度特征圖分辨率較高,可以提取到豐富的紋理特征.本文針對兩個檢測頭部設(shè)計不同的結(jié)構(gòu),以充分利用多尺度信息,見圖4.
為了加快收斂速度,YOLO系列算法通過對COCO數(shù)據(jù)集進行聚類,得到一組長寬比和尺寸不同的錨(anchor),使算法從預設(shè)的尺度開始進行回歸.本文針對缺陷檢測任務(wù),對3個不同的缺陷數(shù)據(jù)集進行訓練和測試,如果將通過對COCO數(shù)據(jù)集聚類后的錨直接用于缺陷檢測工作,一些不合適的框會產(chǎn)生較差的檢測結(jié)果.因此,為了獲得更具針對性的先驗錨,本文采用k均值聚類算法針對3個數(shù)據(jù)集進行重新聚類,以進一步提高模型的精度.
本文實驗基于Pytorch深度學習框架,使用兩個8G的NVIDIA GTX1080 GPU,操作系統(tǒng)為ubuntu16.04.本文使用隨機梯度下降優(yōu)化器,迭代次數(shù)為1500,批大小設(shè)置為8,初始學習率為0.001,動量設(shè)置為0.9,權(quán)值衰減率為0.0005,在迭代1200次和1350次后依次衰減10倍學習率.訓練時,輸入圖像尺寸在320×320-608×608的范圍內(nèi)隨機縮放,以提高對不同大小圖像的魯棒性.
實驗采用準確率P(Precision),召回率R(Recall),平均精度均值mAP(mean Average Precision),幀速率FPS(Frames Per Second),參數(shù)量,計算量作為評價指標,指標定義見公式(4)~公式(7):
P=TP/(TP+FP)
(4)
R=TP/(TP+FN)
(5)
(6)
(7)
在機器學習中,TP(True Positive)、FP(False Positive)、TN(True Negative)、FN(False Negative)分別代表真陽性、假陽性、真陰性、假陰性樣本的個數(shù).式(4)代表精確率,表示檢測出的正樣本中實際為正樣本的比例,式(5)代表召回率,表示有多少正樣本被檢出.AP表示在測試集上對某一類別檢測的平均精度,通過式(6)計算.對所有類別的AP求均值得到平均精度均值mAP,見式(7),是目標檢測中的綜合評價指標.
本文在DAGM[27]、NEU-DET[28]、PCB[29]數(shù)據(jù)集上進行實驗,它們分別針對紋理、熱軋鋼帶和印刷電路板等領(lǐng)域.
DAGM是由人工生成的用于在紋理表面上進行檢測的數(shù)據(jù)集,共包含10類缺陷,每個圖像包含一個缺陷,每個圖像分辨率為512×512.數(shù)據(jù)集提供橢圓形的二值掩碼標簽.NEU-DET是由東北大學提供的熱軋鋼帶表面缺陷檢測數(shù)據(jù)集,共包含6類缺陷,即軋制氧化皮,斑塊,開裂,點蝕表面,內(nèi)含物和劃痕,每類缺陷分別提供300張圖片,每個圖片中包含多個缺陷,每個圖像的原始分辨率為200×200.數(shù)據(jù)集提供VOC格式的標注.北京大學提供的PCB缺陷檢測數(shù)據(jù)集,包含6類缺陷,即缺孔,鼠咬,開路,短路,雜散,偽銅,數(shù)據(jù)集共1386張圖片,提供VOC格式的標注.
圖5 數(shù)據(jù)增強Fig.5 Data augmentation
為了減輕過擬合,增強模型的表達能力,本文使用旋轉(zhuǎn),裁剪,隨機拼接4張圖像等方法進行數(shù)據(jù)增強,數(shù)據(jù)集處理方法如圖5所示.訓練集,驗證集,測試集的設(shè)置見表1.對提供掩碼的數(shù)據(jù)集,訓練前將其轉(zhuǎn)化為YOLO所用的標注格式,即包含類別和邊界框坐標的5維標注信息.對于提供VOC標注形式的NEU-DET和PCB數(shù)據(jù)集,同樣轉(zhuǎn)化成YOLO格式的標簽.
表1 數(shù)據(jù)集設(shè)置Table 1 Setting of Datasets
本文以Yolov3-tiny作為基線網(wǎng)絡(luò),針對所提出的改進方法,分別在3個公共數(shù)據(jù)集上進行實驗,并通過定性分析與定
圖6 算法效果比較Fig.6 Comparison of algorithm effects
量分析,驗證所提出方法的有效性.不同算法針對3個數(shù)據(jù)集的檢測結(jié)果見圖6所示,從上到下依次為DAGM、NEU-DET、PCB的檢測結(jié)果.從圖6可以看出,Yolov3-tiny在3個數(shù)據(jù)集上的檢測置信度較低,此外,對于印刷電路板中檢測物體密集,缺陷較小等情況,出現(xiàn)漏檢的現(xiàn)象,不能完整識別出所有缺陷.針對多個缺陷目標,Wide-Yolo可以有效檢測出全部缺陷,改善原模型中誤檢、漏檢等問題;同時,能夠有效提升紋理表面的檢測精度;由于針對數(shù)據(jù)集重新聚類,可以進一步提升預測框的置信度.
表2~表4對結(jié)果進行定量分析,針對3個數(shù)據(jù)集,分別在本文方法、原模型Yolov3-tiny、單階段檢測模型Yolov3、Yolov5[30]以及雙階段檢測模型Faster R-CNN上進行訓練并比較,從精度、精確率、召回率等方面驗證所提出方法的有效性.
表2 不同算法的檢測結(jié)果對比(DAGM)Table 2 Comparison of detection results of different algorithms(DAGM)
表3 不同算法的檢測結(jié)果對比(NEU-DET)Table 3 Comparison of detection results of different algorithms(NEU-DET)
由表中結(jié)果可以看出,由于采用了更寬的骨干網(wǎng)絡(luò)和檢測頭部,同時引入了雙重學習的聯(lián)合注意力模塊,本文的改進模型和原模型相比,在DAGM、NEU-DET、PCB數(shù)據(jù)集上分別獲得了11.6%、10.4%、9.5%的精度提升,此外,在3個數(shù)據(jù)集上都獲得了準確率和召回率的提升.同時,在人工生成的紋理表面缺陷數(shù)據(jù)集DAGM,和鋼軌表面缺陷數(shù)據(jù)集NEU-DET上,本文模型獲得了較高的精度提升,表明更寬的網(wǎng)絡(luò)能夠提取到更豐富的細粒度信息,利用多尺度特征融合能夠有效增強紋理特征的提取與學習.與Yolov3相比,本文模型在NEU-DET上的精度有所下降,但在DAGM上可獲得與Yolov3相當?shù)木?在PCB上獲得0.4%的精度提升.與雙階段檢測方法Faster R-CNN相比,Wide-Yol的精度都有所提高,召回率有小幅提高或下降,本文認為這是由于Yolo系列算法產(chǎn)生的預測框較少,且Yolov3-tiny通過2個預測頭部產(chǎn)生2個尺度的輸出,導致召回率相對較低.
表5 不同算法的性能對比Table 5 Performance comparison of different algorithms
表5為輸入圖像尺寸在416×416時不同模型的參數(shù)量、計算量以及速度比較,以比較模型的性能.從表中可以看出,Wide-Yolo由于將骨干網(wǎng)絡(luò)和檢測頭部的寬度進行擴充,同時引入了具有雙重學習的聯(lián)合注意力模塊,參數(shù)量和計算量相比原模型都有所增加.但是,即使Wide-Yolo的寬度為原模型的2倍,網(wǎng)絡(luò)整體參數(shù)量僅增加15%,計算量增加24%,且都遠遠小于其他模型.在檢測速度方面,雖然與原模型相比有所降低,但仍然可以達到64FPS,可以滿足實時應(yīng)用的需求.在表2~表4中,Yolov5在3個數(shù)據(jù)集上都獲得了最佳的檢測效果,本文模型與之相比,雖然精度有所降低,但模型大小僅為Yolov5的1/2,且計算量大幅減少,可以滿足輕量化部署的需求.此外,與兩階段算法相比,Wide-Yolo的參數(shù)量和計算量都有大幅降低.
為了進一步了解本文提出的不同方法對模型性能上的影響,進行了消融實驗,結(jié)果見表6.
表6 消融實驗Table 6 Ablation experiments
從表6可以看出,本文提出的平行卷積組合模塊PCBL,在3個數(shù)據(jù)集上分別獲得7.8%、6.5%、6.3%的精度提升,證明不同類型的卷積核能夠?qū)W習到更豐富的多尺度特征,使得較淺的網(wǎng)絡(luò)也能捕獲足夠的信息,增強網(wǎng)絡(luò)的學習能力.對于DAGM和NEU-DET數(shù)據(jù)集,有較大的提升,表明該模塊能夠增強對紋理特征的學習.
通過增加聯(lián)合注意力模塊.利用輕量化通道注意力和雙重學習的空間注意力,使網(wǎng)絡(luò)學習到不同特征的重要性,可以分別獲得3.8%、3.3%、4.7%的精度提升,并且不會帶來參數(shù)量和計算量的明顯增加.
利用不同結(jié)構(gòu)的檢測頭部,可以有效地利用深層網(wǎng)絡(luò)學習到的語義信息來檢測大目標,同時不損失淺層網(wǎng)絡(luò)的紋理信息,更好地檢測小目標.
在本文中,由于PCBL模塊增加了網(wǎng)絡(luò)寬度,所以會帶來模型大小的增長;聯(lián)合注意力模塊不會明顯改變模型大小;由于在檢測頭部的第一層首先采用1×1卷積,大大減少了計算量,并在之后的卷積層中加入1×1卷積,進一步降低模型大小.因此,與只增加PCBL模塊相比,Wide-Yolo的計算量和參數(shù)量有所下降.通過上述方法,本文模型能夠在不明顯影響單階段檢測算法的速度的情況下達到精度的有效提升,表明通過更強的骨干網(wǎng)絡(luò)學習到的特征能夠在注意力模塊的幫助下進一步提升網(wǎng)絡(luò)性能.
本文針對缺陷檢測任務(wù),設(shè)計了一個輕量化實時檢測模型Wide-Yolo.該模型基于Yolov3-tiny的基礎(chǔ)網(wǎng)絡(luò),在訓練階段利用卷積組合模塊提取多尺度特征,在推理階段進行卷積核的融合,在不增加推理代價的基礎(chǔ)上實現(xiàn)精度提升;并通過注意力模塊將提取到的特征進行過濾,高效利用有效信息;設(shè)計多結(jié)構(gòu)檢測頭部進行預測.實驗表明,本文在3個數(shù)據(jù)集上分別獲得了11.6%、10.4%、9.5%的精度提升,并具有較高的檢測速度.今后的工作,將關(guān)注于進一步提升檢測精度,將該算法應(yīng)用于其他檢測領(lǐng)域.