吳則舉,宋麗君,冀 楊
青島理工大學(xué) 信息與控制工程學(xué)院,山東 青島 266520
子午線輪胎是機動車輛的重要部件,輪胎損壞而導(dǎo)致的公共交通意外事件占總交通事故率的75%[1],因此輪胎生產(chǎn)質(zhì)量直接關(guān)系到行車人員的生命安全。在輪胎工業(yè)生產(chǎn)領(lǐng)域,缺陷檢測是保證產(chǎn)品質(zhì)量的重要步驟[2]。因此,針對輪胎生產(chǎn)線開發(fā)自動化視覺缺陷檢測系統(tǒng)成為業(yè)界的主要任務(wù)。近年,針對輪胎X光缺陷圖像檢測的研究主要分為基于傳統(tǒng)機器學(xué)習(xí)的方法和基于深度學(xué)習(xí)的方法。
利用機器學(xué)習(xí)的輪胎缺陷檢測常使用統(tǒng)計方法。文獻(xiàn)[3]統(tǒng)計簾線數(shù)量后,通過雙閾值法判斷缺陷的存在。文獻(xiàn)[4]統(tǒng)計簾線寬度值,根據(jù)簾線間距的不同占比判斷胎側(cè)開跟的存在。以上方法有兩點不足:(1)只對有規(guī)律的胎側(cè)部位紋理類缺陷起作用,而不適合處理胎冠這種背景復(fù)雜部位的缺陷。(2)每種方法只能檢測一類缺陷,而輪胎缺陷種類是多樣的。
深度學(xué)習(xí)方法擅長高效率地從缺陷圖像中學(xué)習(xí)復(fù)雜的結(jié)構(gòu)和關(guān)系[5],能夠?qū)崟r處理不同類型的缺陷。文獻(xiàn)[6]使用無監(jiān)督方式對正常樣本訓(xùn)練來重構(gòu)圖像,根據(jù)重構(gòu)殘差的大小進(jìn)行分類。Zheng等[7]設(shè)計了無監(jiān)督深度卷積稀疏編碼結(jié)構(gòu),分類精確率達(dá)到96.8%。以上對輪胎缺陷分類的方法能滿足工廠對精確度和實時性要求,但無法確定缺陷的具體位置。
基于目標(biāo)檢測的輪胎缺陷檢測算法彌補了分類算法對缺陷位置檢測的缺失。文獻(xiàn)[8]以Yolov4為基礎(chǔ)網(wǎng)絡(luò),使用FPN(feature pyramid networks)進(jìn)行特征融合,全類平均精度達(dá)到92.94%。文獻(xiàn)[9]使用帶有FPN結(jié)構(gòu)的Faster R-CNN提取樣本特征,Siamese網(wǎng)絡(luò)作為分類器,有效提高了召回率。由此可知,帶有FPN 的檢測網(wǎng)絡(luò)對多種輪胎缺陷都具有優(yōu)良的檢測性能。因此,本文使用帶有FPN結(jié)構(gòu)[10]的Faster R-CNN網(wǎng)絡(luò)作為基線檢測網(wǎng)絡(luò)。
原始FPN以自頂而下方式進(jìn)行特征層融合,卻未在下層特征圖對上層的影響方面進(jìn)行探究,導(dǎo)致上層特征圖缺少下層特征的細(xì)節(jié)信息[11]。因此,傳統(tǒng)的FPN結(jié)構(gòu)不能完全滿足本文對精度的要求。近年來,眾多FPN的變體結(jié)構(gòu)被提出。文獻(xiàn)[12]中,BiFPN 實現(xiàn)了雙向跨尺度的特征圖快速融合。GraphFPN[13]在超像素層次生成多層次特征交互的新型特征金字塔拓?fù)浣Y(jié)構(gòu)。文獻(xiàn)[14]構(gòu)建了特征分組的新式特征金字塔。但是,以上新式FPN直接跨層融合特征圖,忽視了各級特征層之間不同的語義信息和相異的感受野尺寸。
為進(jìn)一步提高對輪胎缺陷的檢測精度,以滿足工業(yè)安全性要求。同時,考慮到輪胎特有的復(fù)雜各向異性多紋理背景,以及缺陷與背景極易混淆的特點,對網(wǎng)絡(luò)進(jìn)行如下改進(jìn):
(1)針對FPN頂層和底層特征存在語義和感受野差距的問題,設(shè)計了感受野模擴增模塊(receptive field amplification module,RFAM),能夠在輕量計算的前提下擴大感受野,捕獲豐富的上下文信息。
(2)針對FPN 頂層特征圖信息缺失嚴(yán)重的問題,設(shè)計了BE-FPN結(jié)構(gòu),將底層特征圖經(jīng)過RFAM模塊嵌入頂層,以增強網(wǎng)絡(luò)檢測精度。
(3)為進(jìn)一步提升網(wǎng)絡(luò)檢測性能,引入激活函數(shù)Meta-ACON,自適應(yīng)控制各卷積層的非線性程度[15],優(yōu)化模型結(jié)構(gòu)。
(4)針對無公共輪胎缺陷圖像數(shù)據(jù)集的問題,在工廠輪胎生產(chǎn)線上挑選缺陷圖像,通過降噪處理、圖像裁剪與擴充、手工標(biāo)注等步驟制作了輪胎X光缺陷圖像數(shù)據(jù)集。
池化操作和增大卷積核是增大感受野的兩種方式。但是池化操作會導(dǎo)致圖像細(xì)節(jié)缺失,增大卷積核會造成卷積過程中計算量的大幅增加??斩淳矸e能夠在保證圖像精度的前提下,以不增大計算量的方式擴充感受野??斩淳矸e通過在普通卷積核中填充d-1 個零值來實現(xiàn)感受野的擴增,d為空洞卷積的擴張率。使用擴張率后的卷積核計算公式為:
其中,k為普通卷積核的尺寸,k′是空洞卷積核的大小。當(dāng)擴張率d=2 且普通卷積核尺寸k=3 時,空洞卷積的卷積核k′=5。由圖1 中(a)與(b)的對比可見,與普通卷積相比,在同樣的參數(shù)量下,空洞卷積的感受野得到有效擴增。
圖1 普通卷積和空洞卷積Fig.1 Regular convolution and dilated convolution
在傳統(tǒng)卷積的過程中,濾波器同時對圖像的所有通道進(jìn)行運算,因此存在計算量冗余的問題。深度可分離卷積可以降低卷積過程中的參數(shù)量,從而減少計算時間。深度可分離卷積首先按照逐層卷積對每個特征圖的通道進(jìn)行單個濾波器卷積,然后按照逐點卷積來創(chuàng)建逐深度卷積層的線性組合。
進(jìn)行逐層卷積和的逐點卷積計算量為:
式(2)中K是卷積核長度,M為輸入通道數(shù),N是卷積核個數(shù),F(xiàn)是輸入特征圖的尺寸。而當(dāng)以上參數(shù)都相同時,深度可分離卷積與普通全卷積的計算量之比為:
由式(3)可知,深度可分離卷積將傳統(tǒng)的乘法運算變?yōu)橄瘸撕蠹拥倪\算,計算量只有普通全卷積計算量的,這將有效降低網(wǎng)絡(luò)運行復(fù)雜度。
Faster R-CNN 網(wǎng)絡(luò)是經(jīng)典的二階目標(biāo)檢測網(wǎng)絡(luò),F(xiàn)PN結(jié)構(gòu)能夠?qū)崿F(xiàn)高精度多尺度的檢測,因此常被作為Faster RCNN的基礎(chǔ)網(wǎng)絡(luò)結(jié)構(gòu)。在此基礎(chǔ)上,本研究考慮到輪胎X 光缺陷圖像紋理復(fù)雜、缺陷尺度多變的特點,對帶有FPN 結(jié)構(gòu)的Faster R-CNN 網(wǎng)絡(luò)做出改進(jìn)后成為輪胎缺陷檢測網(wǎng)絡(luò)TDDN(tire defect detection network)。
圖2展示了TDDN模型結(jié)構(gòu)。首先,特征提取網(wǎng)絡(luò)采用ResNet-50[16],為了讓網(wǎng)絡(luò)學(xué)習(xí)性地選擇神經(jīng)元激活與否,ResNet-50網(wǎng)絡(luò)引入了新的激活函數(shù)Meta-ACON來替代block中3×3卷積后的激活函數(shù)ReLU。然后,將ResNet-50 第二層到第五層所提取的特征圖送入改進(jìn)的特征金字塔BE-FPN模塊進(jìn)行融合,得到五個不同尺度的特征圖。將融合后的特征圖輸入到區(qū)域建議網(wǎng)絡(luò)(region proposal networks,RPN)中,并篩選出候選框,映射到原始圖像獲得相應(yīng)的特征矩陣。再通過ROI Align層按大小7×7合并,送入兩個全連接層,一個全連接層上進(jìn)行分類,另一個全連接層進(jìn)行回歸。TDDN的損失函數(shù)由分類損失和回歸損失兩部分組成。分類函數(shù)為二值交叉熵?fù)p失函數(shù),回歸損失函數(shù)采用平滑L1損失。
圖2 輪胎缺陷檢測網(wǎng)絡(luò)框架圖Fig.2 Tire defect detection network diagram
FPN中淺層特征圖具有較高分辨率,但是感受野較小,且上下文信息不足,需要感受野擴增模塊。增加池化層或使用連續(xù)多層卷積可以增大感受野[17],但是前者會造成信息損失,后者會導(dǎo)致參數(shù)量的上升。受RFB[18]模塊的啟發(fā),本文提出了一種輕量化的感受野擴增模塊RFAM,能夠在增大感受野的同時降低網(wǎng)絡(luò)的計算壓力。
如圖3 所示,RFAM 模塊具有四個并行分支和一個殘差分支。為降低模型運行壓力,對于輸入的特征圖先進(jìn)行通道分離操作,即將輸入特征圖分為通道減半的兩個特征向量S1和S2,兩向量分別輸入1×1卷積分支和殘差分支。1×1 卷積實現(xiàn)特征圖通道的數(shù)降維,再次降低計算復(fù)雜度。然后四個并行分支分別使用擴張率為1、3、5、7 的空洞-深度可分離卷積(dilated-depthwise separable convolution,DDS)擴增感受野,并提取特征圖中的多尺度信息。
圖3 感受野擴增模塊Fig.3 Receptive field amplification module
空洞-深度可分離卷積是將空洞卷積和深度可分離卷積結(jié)合后的輕量化卷積。其原理是在深度可分離卷積的深度卷積部分使用空洞卷積進(jìn)行計算,能夠在擴大感受野的前提下,顯著降低所提出模型的計算復(fù)雜度。
將四個空洞-深度可分離卷積組成的并行結(jié)構(gòu)進(jìn)行拼接并送入1×1 卷積層,卷積后的特征圖記作A。A并不具有最優(yōu)的特征表示,因為空洞-深度可分離卷積中的深度卷積部分是對輸入圖像的每個通道進(jìn)行分組卷積,其通道之間缺少信息交互,從而導(dǎo)致對A的特征提取難度上升[19]。為增強特征向量通道間的通信,對特征圖A進(jìn)行通道混洗(channel shuffle)。通道混洗過程如圖4 所示,對圖像通道亂序化排布,完成通道信息互通。通道混洗后的特征圖記為A1。A1與殘差分支相融合成為本模塊的最終輸出。殘差分支含有輸入圖像的細(xì)粒度信息,能夠在保持圖像分辨率的同時緩解梯度消失問題。
圖4 通道混洗Fig.4 Channel shuffle
本文將RFAM與RFB模塊做了比較。首先,RFAM模塊具有更多的分支和擴張率更高的空洞卷積,因此獲得了更大的感受野與更多的全局特征細(xì)節(jié)信息。其次,RFAM 模塊中的通道分離操作和空洞-深度可分離卷積,使該模塊參數(shù)量相較于傳統(tǒng)的RFB模塊更少,模型效率提高。最后,通道混洗緩解了引入深度可分離卷積所導(dǎo)致的通道交互障礙現(xiàn)象,提高了圖的特征表達(dá)能力。
本研究中的輪胎X 光缺陷圖像簾線排列十分復(fù)雜,并且圖像整體灰度值低、目標(biāo)與背景對比度差異小。因此,在輪胎X 光缺陷檢測任務(wù)中,特征圖的背景分辨率和紋理清晰度至關(guān)重要。使用傳統(tǒng)FPN 結(jié)構(gòu)融合輪胎X 光圖像的特征圖時,雖然FPN 頂層特征圖具有更多的上下文信息,然而其分辨率過小,且在多次自下向上多層的卷積中信息損失嚴(yán)重[20],從而缺少圖像的細(xì)節(jié)信息,不利于對紋理復(fù)雜的輪胎X 光圖像進(jìn)行缺陷檢測。
FPN 底層特征圖分辨率高且具有豐富的紋理信息和細(xì)節(jié)信息,將底層特征圖注入頂層即可彌補頂層特征圖的信息缺失。但是,底層特征圖感受野受限,直接注入頂層會導(dǎo)致感受野尺寸與分配到頂層錨框尺寸無法匹配,影響缺陷特征的提取能力。另一方面,底層特征圖的上下文信息不足,與頂層特征圖之間存在巨大的語義差異。如果直接將二者融合,則易有混疊效應(yīng),減弱網(wǎng)絡(luò)的識別能力。為增強頂層特征圖細(xì)節(jié)信息并解決底層感受野與頂層錨框的匹合問題,本文對原始的FPN結(jié)構(gòu)做了如下改進(jìn)。
改進(jìn)后的FPN 結(jié)構(gòu)稱為BE-FPN,結(jié)構(gòu)如圖5 所示。首先,設(shè)計了RFAM 模塊來擴大底層特征圖L2的感受野,并生成底層特征圖所缺少的上下文信息。經(jīng)過RFAM模塊的特征圖L2new同時具有較大的感受野和高分辨率的背景紋理信息。L2new經(jīng)過下采樣之后,與P5融合生成P5new特征圖。
圖5 BE-FPN結(jié)構(gòu)Fig.5 Structure of BE-FPN
考慮到輸入特征L2new和P5具有不同的感受野和分辨率,需要對輸入特征圖有所偏重,本研究使用快速歸一化操作FNF(fast normalized fusion)將L2new與P5融合。FNF的公式為:
式(4)中,λi是可學(xué)習(xí)的權(quán)重,代表不同輸入特征圖Ii的重要性。網(wǎng)絡(luò)在訓(xùn)練過程中會不斷調(diào)整λi數(shù)值,并在每次調(diào)整數(shù)值后對λi進(jìn)行ReLU操作,使權(quán)重值λi始終不小于0。O為融合后的特征圖。ε=0.000 1,加入分母中可避免等式數(shù)值不穩(wěn)定。融合后的特征圖P5new的表達(dá)式為:
式(5)中,P5new是融合后的特征圖,Resize(L2new)是對特征圖L2new進(jìn)行下采樣操作,使L2new與P5尺寸相同。λ1和λ2是兩個特征圖各自對應(yīng)的權(quán)重。對特征圖進(jìn)行FNF操作,能夠使網(wǎng)絡(luò)在訓(xùn)練中動態(tài)地學(xué)習(xí)不同特征層的重要性,并通過多次學(xué)習(xí)結(jié)果來調(diào)整權(quán)重,從而達(dá)到特征層融合的最佳狀態(tài),能夠提升網(wǎng)絡(luò)檢測精度。
綜上所述,使用BE-FPN 模塊時,底層到高層的信息縮短路徑,減少了頂層特征圖中因自下而上層層卷積導(dǎo)致的細(xì)節(jié)丟失。新的高層特征圖P5new同時擁有了清晰紋理信息和充足的上下文信息,更適合輪胎X光缺陷的檢測任務(wù)。
ResNet-50 中常使用ReLU 作為激活函數(shù)。然而,ReLU函數(shù)無法在網(wǎng)絡(luò)的訓(xùn)練過程動態(tài)地判斷是否激活相應(yīng)神經(jīng)元。針對這個問題,本文使用Meta-ACON 函數(shù)控制網(wǎng)絡(luò)神經(jīng)元激活時的可選擇性,根據(jù)網(wǎng)絡(luò)訓(xùn)練情況能動地調(diào)節(jié)ResNet-50 模型線性和非線性化程度,從而提高網(wǎng)絡(luò)的運行效率和動態(tài)自適應(yīng)性。下面是對Meta-ACON函數(shù)原理的詳細(xì)闡述。
首先,對極值函數(shù)max(x1,x2,…,xn)求取平滑可微近似:
式(6)中xi是極大值函數(shù)內(nèi)的元素,n為元素個數(shù),β是激活因子經(jīng)過一個小型網(wǎng)絡(luò)結(jié)構(gòu)訓(xùn)練生成,即顯式地學(xué)習(xí)不同樣本的激活程度,不同的樣本有不同的激活因子。對式(6)進(jìn)行推導(dǎo)后可知:當(dāng)β→∞,Sβ→max,則Sβ處于非線性的激活狀態(tài)。當(dāng)β→0,Sβ→mean,則Sβ處于線性的非激活狀態(tài)??紤]到許多激活函數(shù)內(nèi)的元素可以用ηa(x)和ηb(x)這樣的線性函數(shù)表示,于是對式(6)取近似表示計算公式:
為了在網(wǎng)絡(luò)訓(xùn)練的過程中使用參數(shù)動態(tài)調(diào)節(jié),令ηa(x)=p1x,ηb(x)=p2x且p1x≠p2x,式(7)可寫作:
式(8)中的激活因子β可以調(diào)節(jié)函數(shù)的線性和非線性,即控制函數(shù)的激活狀態(tài)。σ是sigmoid 函數(shù),p1和p2是在模型運行過程中可動態(tài)學(xué)習(xí)的參數(shù)。對式(8)求一階導(dǎo)數(shù)可推理得:
為了計算一階導(dǎo)數(shù)的上邊界和下邊界,需要對式(8)求二階導(dǎo)數(shù),令二階導(dǎo)數(shù)等于0 后可求得一階導(dǎo)數(shù)的上邊界和下邊界:
由式(10)和(11)可知,式(8)中一階導(dǎo)數(shù)的上邊界和下邊界是動態(tài)學(xué)習(xí)參數(shù)p1和p2調(diào)控的。Meta-ACON 函數(shù)具有可學(xué)習(xí)的上下邊界。激活因子β可以控制神經(jīng)元激活與否。為了使β根據(jù)樣本特征動態(tài)調(diào)節(jié),基于通道級β的表達(dá)式根據(jù)特征圖X∈RC×H×W設(shè)計為:
式(12)中,W1∈RC×C/r和W2∈RC/r×C分別對應(yīng)兩次卷積操作,r是控制計算量的縮減因子,常設(shè)置為16。實際計算過程如圖6所示,首先對輸入特征圖X從水平維度和垂直維度上求得均值,然后通過兩個1×1的卷積層,即式(12)中的W1和W2,W1是將通道數(shù)由C降為,W2是將通道數(shù)恢復(fù)到原始維度。最后使用sigmoid 函數(shù)得到歸一化后的β,同一通道的所有像素之間能夠共享同樣的激活因子。這種通過的小型學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練出的β用于控制神經(jīng)元是否激活。
圖6 通道級的β 計算過程Fig.6 Calculation process of β at channel wise
此外,還有基于層級設(shè)計的β的表達(dá)式:
即對特征圖X∈RC×H×W依次在水平維度、垂直維度和通道維度求均值,最后將均值送入激活函數(shù)sigmoid 進(jìn)行歸一化。除此之外,還有基于像素級設(shè)計的β表達(dá)式:
即對特征圖X∈RC×H×W直接sigmoid 歸一化。本文中后續(xù)Meta-ACON默認(rèn)采用式(12)中基于通道級的小型網(wǎng)絡(luò)生成β,在本文3.4 節(jié)的表3 將會通過實驗結(jié)果顯示通道級β生成方式的優(yōu)良性能。
β值直接由樣本數(shù)據(jù)的結(jié)構(gòu)特征決定,不同的樣本數(shù)據(jù)會產(chǎn)生不同的β值,因此加入Meta-ACON 的ResNet-50能夠根據(jù)數(shù)據(jù)集中不同樣本特性選擇性地激活網(wǎng)絡(luò)神經(jīng)元。這種能夠根據(jù)樣本特性改變神經(jīng)元激活狀態(tài)的功能,是Meta-ACON 函數(shù)相較于ReLU 函數(shù)的最大優(yōu)勢。因為ReLU函數(shù)存在神經(jīng)元壞死情況,即當(dāng)神經(jīng)元輸入的加權(quán)和為負(fù)時,則梯度將完全為零,導(dǎo)致網(wǎng)絡(luò)無法反向傳播和節(jié)點更新,導(dǎo)致該神經(jīng)元失效。Meta-ACON通過網(wǎng)絡(luò)訓(xùn)練動態(tài)產(chǎn)生β值來控制非線性程度,有效改善了ReLU 函數(shù)造成的神經(jīng)元壞死現(xiàn)象,從而優(yōu)化網(wǎng)絡(luò)特性。
在工廠生產(chǎn)線上收集的20 000張圖片里,挑選出含有開跟、氣泡、胎側(cè)雜質(zhì)和胎冠雜質(zhì)這四類缺陷的樣本,收集到的缺陷圖像共1 054張。
輪胎圖像尺寸較大,為減少訓(xùn)練內(nèi)存的占用以及優(yōu)化網(wǎng)絡(luò)識別效果,將輪胎圖像裁剪到300×300~600×600像素的范圍內(nèi)。隨機選取814 張圖片進(jìn)行數(shù)據(jù)擴充后做數(shù)據(jù)集,另外240 張用于最后計算正判率、漏判率和誤判率。數(shù)據(jù)集中開跟圖像267張,氣泡圖像147張,胎側(cè)雜質(zhì)圖像300 張,胎冠雜質(zhì)100 張。使用LabelImg 軟件參考PascalVOC2007 數(shù)據(jù)集格式對輪胎缺陷圖像進(jìn)行人工標(biāo)記。
為了避免訓(xùn)練網(wǎng)絡(luò)時出現(xiàn)過擬合問題[21-22],將圖片旋轉(zhuǎn)10°、20°和180°以進(jìn)行數(shù)據(jù)擴充。除此之外,對擴充后的數(shù)據(jù)集進(jìn)行隨機選取,按照7∶3的比例分為訓(xùn)練集、驗證集。訓(xùn)練集用于訓(xùn)練模型的參數(shù),驗證集用于評估每批訓(xùn)練和調(diào)優(yōu)超參數(shù)后模型的泛化能力。
實驗平臺的軟件環(huán)境是ubuntu16.04 LTS 64 位系統(tǒng)。編程語言選用Python 3.8,深度學(xué)習(xí)框架選用Pytorch 1.10,使用NVIDIA GeForce GTX A4000 GPU。
實驗中使用自己構(gòu)建的輪胎X 光缺陷圖像數(shù)據(jù)集進(jìn)行訓(xùn)練,選擇隨機梯度下降(SGD)。初始學(xué)習(xí)率設(shè)置為0.005,學(xué)習(xí)率衰減的周期為3,學(xué)習(xí)率衰減的乘法因子0.33,動量因子為0.9,權(quán)值衰減系數(shù)為0.000 5。此外,使用ResNet-50 在COCO 數(shù)據(jù)集上預(yù)先訓(xùn)練的參數(shù)模型進(jìn)行網(wǎng)絡(luò)遷移學(xué)習(xí),訓(xùn)練25 個輪次確保模型收斂。每個實驗訓(xùn)練10 次,求取10 次實驗結(jié)果的平均值作為最終結(jié)果。由于GPU 顯存資源限制,批大小設(shè)置為8,使用混合精度訓(xùn)練[23]。
本文使用每類平均檢測精度AP、平均檢測精度均值mAP、檢測時間、正判率、漏判率和誤判率作為TDDN模型的性能評價指標(biāo)。
AP 值由準(zhǔn)確率(Precision)和召回率(Recall)計算得出,準(zhǔn)確率和召回率分別定義為:
上式中,TP是正確檢測的輪胎缺陷的樣本數(shù)量,F(xiàn)P是沒有缺陷卻誤檢為缺陷圖像的樣本數(shù)量,F(xiàn)N 是含有缺陷的圖像卻沒有被檢測出來的樣本數(shù)量。每類平均檢測精度AP是Precision和Recall與坐標(biāo)軸圍成的面積。平均檢測精度均值mAP 是對每類平均檢測精度AP 進(jìn)行算數(shù)求和后除以類別數(shù)的均值。
為了進(jìn)一步分析改進(jìn)后網(wǎng)絡(luò)的性能,本研究選擇區(qū)別于數(shù)據(jù)集以外的240張缺陷圖像,統(tǒng)計了樣本的正判個數(shù)、漏判個數(shù)和誤判個數(shù),并且分別除以總圖像數(shù)來計算出正判率、漏判率和誤判率。其中正判是將缺陷樣本正確地檢測為缺陷圖像,漏判是指對缺陷圖像未曾檢出,誤判是指將某類缺陷錯誤地判定為另一種缺陷,例如將開跟錯誤地判定為氣泡。
另外,為了計算模型的檢測速度,本文引入檢測時平均每張圖像的處理時間Time(單位:s)來評估模型速度。Time的值越小,說明網(wǎng)絡(luò)檢測速度越快。
為展示本文提出的輪胎缺陷檢測網(wǎng)絡(luò)的良好性能,本研究在自制的輪胎X光缺陷圖像數(shù)據(jù)集上,以平均精度均值mAP和每張圖片在網(wǎng)絡(luò)中的檢測時間作為評價標(biāo)準(zhǔn),與SSD300[24]、YOLOv3[25]、YOLOv4[26]、CenterNet2[27]、CenterNet++[28]、YOLOv6-s[29]、YOLOv6-L、YOLOv7-tiny[30]和YOLOv7 算法進(jìn)行對比,對比結(jié)果如表1 所示:以上九種算法的mAP分別比本文的方法低11.67、8.95、6.76、7.55、12.09、17.64、4.64、14.87 和3.70 個百分點,本文算法的檢測精度最高,說明本文算法在輪胎缺陷圖像檢測的準(zhǔn)確性方面遠(yuǎn)遠(yuǎn)優(yōu)于以上算法。本文算法的參數(shù)量與精度位于第二的YOLOv7 算法相比多出2.358×107,但比其高出3.70個百分點檢測精度。從測試時間上看,本文算法所用時間最長,但本文15.38 的FPS 值和0.065 s 的檢測時間已經(jīng)能夠滿足工廠檢測的實時性要求。綜上所述,本文算法同時滿足生產(chǎn)線的檢測精度要求和檢測時長要求。
表1 對比實驗Table 1 Contrast experiment
為展示本文提出的BE-FPN的良好性能,將BE-FPN與GraphFPN[31]、AugFPN[32]、CE-FPN[33]、AC-FPN[34]等新型特征金字塔結(jié)構(gòu),分別加入Faster RCNN+ResNet-50框架中訓(xùn)練,訓(xùn)練結(jié)果如表2所示。從參數(shù)量上看,BE-FPN參數(shù)量最低,僅比原始FPN多出2.64×106,證明BE-FPN復(fù)雜度較低。從檢測精度上看,BE-FPN 的mAP 值最高,比精度位于第二的GraphFPN 高出1.48 個百分點。從檢測時間上看,BE-FPN 用時最短,僅為GraphFPN 用時的34.91%,且比AC-FPN 少0.011 s,說明BE-FPN 比以上特征金字塔具有更好的實時性。綜上所述,與以上新型特征金字塔結(jié)構(gòu)相比,BE-FPN 具有輕量化、高精度、速度快的優(yōu)點,是最適合進(jìn)行輪胎缺陷圖像檢測的特征金字塔結(jié)構(gòu)。
表2 FPN對比實驗Table 2 Contrast experiment about FPN
為得到激活因子β的最優(yōu)計算方法,將β的基于層級生成方式、基于通道級生成方式和基于像素級的生成方式在Faster RCNN+ResNet-50+FPN 框架上進(jìn)行對比實驗。表3中,GAP表示全局平均池化操作,fc為全連接層,σ為激活函數(shù)sigmoid。對比mAP值可知,基于通道級生成的激活因子加入ACON 后,由Meta-ACON比ACON多使用了由樣本特征決定的β,準(zhǔn)確率提升了0.74 個百分點,驗證了Meta-ACON 函數(shù)中樣本特征動態(tài)調(diào)節(jié)的準(zhǔn)確性。與加入了層級和像素級生成激活因子的Meta-ACON 相比,加入通道級生成激活因子的Meta-ACON 在mAP 上高出0.46 和0.61 個百分點,充分印證了通道級激活因子β的優(yōu)良性能。
表3 β 生成方式的對比實驗Table 3 Contrast experiment of generation method of β
為對比Meta-ACON 與其他激活函數(shù)的性能,以原始的Faster R-CNN為框架,和DY-ReLU、FReLU、ReLU、Swish 等常見激活函數(shù)做了對比實驗,實驗結(jié)果如表4所示。使用Meta-ACON 函數(shù)的網(wǎng)絡(luò)較使用FReLU 函數(shù)的網(wǎng)絡(luò)參數(shù)多3.7×105,但mAP值高出0.91個百分點,在精度方面明顯優(yōu)于FReLU 函數(shù),且時間上與FReLU僅0.001 s 之差。使用Meta-ACON 函數(shù)的網(wǎng)絡(luò)較使用DY-ReLU函數(shù)的網(wǎng)絡(luò)參數(shù)少6.3×105,且mAP值高出0.8個百分點,在參數(shù)量、精度、速度上都優(yōu)于DY-ReLU 函數(shù)。所以,Meta-ACON 能夠同時兼顧精度速度兩個方面,優(yōu)于其他激活函數(shù)。
表4 激活函數(shù)對比Table 4 Contrast experiment of activation function
為了驗證每個模塊對模型的改進(jìn)效果,以在原始的Faster R-CNN 作為基線網(wǎng)絡(luò),在輪胎X 光缺陷圖像數(shù)據(jù)集上進(jìn)行了消融實驗。實驗結(jié)果如表5所示,使用基線檢測的平均精度均值mAP 值為89.57%。使用了BE-FPN 后,mAP 值增加了3.04 個百分點,而參數(shù)量僅增加2.64×106,證明底層特征圖經(jīng)感受野增大模塊注入到金字塔頂層特征圖后,底層的多紋理信息與頂層的高語義信息進(jìn)行了有效融合,且模型的復(fù)雜度并未大幅增加。此外,ResNet-50 的激活函數(shù)改為Meta-ACON 后,mAP值提升了1.46個百分點,而參數(shù)量僅增加1.6×105,檢測模型被有效優(yōu)化。整體改進(jìn)后的檢測模型比基線高4.5個百分點,模型對輪胎缺陷圖像的檢測能力有效增強。從時間和幀率上看,加入BE-FPN 和Meta-ACON后僅增加0.009 s,幀率僅下降2.48 FPS,證明本文的改進(jìn)方法在大幅提高精度的同時并未造成運行時間上的負(fù)擔(dān)。
表5 消融實驗Table 5 Ablation experiment
為驗證RFAM模塊中空洞-深度可分離卷積組對模型性能影響以及運算輕量化方面的優(yōu)勢,本文在BE-FPN結(jié)構(gòu)中,對RFAM模塊進(jìn)行消融實驗。RFAM-base模塊是將RFAM模塊中的空洞-深度可分離卷積全部替換為普通的3×3 卷積,并且去除通道分離和通道混洗操作。RFAM-base+DC是在RFAM-base模塊基礎(chǔ)上將普通3×3 卷積組換為空洞卷積組(DS),RFAM-base+DDS 是在Base模塊基礎(chǔ)上將普通3×3卷積組換為空洞-深度可分離卷積組(DDS),RFAM 是在RFAM-base+DDS 的基礎(chǔ)上增加了通道分離和通道混洗操作。實驗結(jié)果如表6所示。
表6 RFAM模塊消融實驗Table 6 Ablation experiment of RFAM
由表6 中數(shù)據(jù)可知,RFAM-base+DC 將RFAM-base中的普通卷積更換為空洞卷積后,平均精度均值mAP提升了2.49個百分點,而模型速度無明顯變化。這證明使用空洞卷積擴增底層特征圖感受野后,其上下文信息得到增強,能夠在注入頂層特征圖后有效提高模型精度,且無額外的計算開銷。RFAM-base+DDS的mAP值比單獨使用空洞卷積時下降了0.21個百分點,但模型速度提升了0.009 s??芍疃瓤煞蛛x卷積的通道獨立計算方式會造成小幅度的精度損失,但可以顯著提升網(wǎng)絡(luò)運行速度。RFAM模塊是在RFAM-base+DDS的基礎(chǔ)上增加了通道分離和通道混洗操作,其mAP 值增加了0.38 個百分點,運行時間節(jié)約了0.004 s。由此可知,通道分離可以使網(wǎng)絡(luò)具有更快的推理速度,通道混洗可以通過特征圖通道亂序化排列,減少深度可分離卷積帶來的信道間通信障礙。綜上所述,RFAM模塊具有優(yōu)良的實時性和感受野擴增性能。
為驗證RFAM 模塊和底層特征圖注入不同特征層后對網(wǎng)絡(luò)性能的影響,以原始的Faster R-CNN 為框架做了消融實驗,結(jié)果如表7 所示。將底層特征圖未經(jīng)RFAM 模塊注入P5后,比基線網(wǎng)絡(luò)精度高1.88 個百分點的精度,這說明底層特征圖加入P5后彌補了頂層特征圖細(xì)節(jié)特征,減少了頂層的信息缺失。經(jīng)過RFAM模塊注入P5后比未經(jīng)RFAM 模塊注入P5的方法高1.16個百分點的精度,證明RFAM模塊可以擴大感受野并豐富上下文信息,減少底層與頂層融合時語義差距,從而有明顯的精度提升。經(jīng)RFAM 模塊注入P4以及P3的精度分別比基線高0.78和0.35個百分點,但比經(jīng)RFAM模塊注入P5的方法在精度上少2.26 和2.69 個百分點,說明P4和P3信息損失較小,故加入底層特征后精度提升不明顯。綜上所述,經(jīng)過RFAM 模塊注入P5的方法是BE-FPN最佳結(jié)構(gòu)。
表7 BE-FPN消融實驗Table 7 Ablation experiment of BE-FPN
為了展示每一類輪胎缺陷在網(wǎng)絡(luò)改進(jìn)前后的檢測效果,對開跟、氣泡、胎側(cè)雜質(zhì)和胎冠雜質(zhì)的AP 值進(jìn)行統(tǒng)計,結(jié)果如表8 所示。網(wǎng)絡(luò)改進(jìn)之后,開跟、氣泡、胎側(cè)雜質(zhì)和胎冠雜質(zhì)的AP 值分別提升了2.54、4.57、6.01和6.68個百分點。氣泡、胎側(cè)雜質(zhì)和胎冠雜質(zhì)這三類小目標(biāo)檢測精度提升較多,是因為BE-FPN能在頂層特征圖中融合底層細(xì)節(jié),減少了原來特征提取時自下向上層層卷積的信息損失。從改進(jìn)后的AP 值來看,胎側(cè)雜質(zhì)和胎冠雜質(zhì)取得了較好的檢測精度,分別達(dá)到了98.04%和98.93%。而氣泡的檢測精度為84.71%,仍有待提高,但已能夠達(dá)到工廠的檢測精度要求。究其原因是,胎側(cè)雜質(zhì)和胎冠雜質(zhì)目標(biāo)清晰邊緣清楚,且與背景對比度較大,較易辨別。而氣泡與背景對比度不明顯,且沒有較為清晰的邊緣,是歷來輪胎缺陷檢測中的難點。
表8 每類缺陷的檢測結(jié)果Table 8 Test results of each type of defect
在工業(yè)檢測領(lǐng)域,正判率、錯判率和漏判率是檢測性能的重要標(biāo)準(zhǔn)。本研究隨機抽取64 張開跟圖像,48張氣泡圖像,72張?zhí)?cè)雜質(zhì)圖像和56張?zhí)ス陔s質(zhì)圖像,并在這240張缺陷圖片上對正判個數(shù)、錯判個數(shù)和漏判個數(shù)進(jìn)行了統(tǒng)計,最后計算出正判率、錯判率和漏判率,結(jié)果如表9和表10所示。在基線網(wǎng)絡(luò)上,開跟、氣泡、胎側(cè)雜質(zhì)和胎冠雜質(zhì)的錯判及漏判現(xiàn)象嚴(yán)重,能夠正確檢出的缺陷占比較低。在網(wǎng)絡(luò)改進(jìn)之后,四種缺陷的正判率均大范圍上升,錯判及漏判現(xiàn)象得到有效改善,證明了本文所提出的TDDN 網(wǎng)絡(luò)在對輪胎缺陷檢測方面的有效性。
表9 正判個數(shù)、錯判個數(shù)和漏判個數(shù)Table 9 Number of correct judgments,error judgments and missed judgments
表10 正判率、錯判率和漏判率Table 10 Rate of correct judgments,error judgments and missed judgments
圖7是輪胎X光缺陷檢測結(jié)果的可視化對比。圖7(a)分別是開跟、氣泡、胎側(cè)雜質(zhì)和胎側(cè)雜質(zhì)的原始圖像,圖7(b)是基線網(wǎng)絡(luò)對圖7(a)圖片的檢測結(jié)果,圖7(c)是改進(jìn)后網(wǎng)絡(luò)對圖7(a)圖片的檢測結(jié)果。圖中字母表示缺陷類別,百分比代表置信系數(shù),即判定為該類別的概率。從圖中可觀察到,對同樣的圖片檢測時,改進(jìn)后的網(wǎng)絡(luò)檢測時置信系數(shù)更高,檢測精度更好,證明了本研究所做出改進(jìn)的有效性。
為實現(xiàn)對輪胎X光圖像缺陷的高精度目標(biāo)檢測,本文在以帶有FPN結(jié)構(gòu)的Faster R-CNN的基礎(chǔ)上做了改進(jìn)。首先,設(shè)計了帶有感受野擴增模塊的新型特征金字塔結(jié)構(gòu)BE-FPN,通過底層信息與頂層信息的融合,加強對缺陷中小目標(biāo)的檢測。此外,本文使用可學(xué)習(xí)的激活函數(shù)Meta-ACON動態(tài)地控制ResNet-50的激活程度,網(wǎng)絡(luò)得到有效優(yōu)化。在自制的輪胎缺陷數(shù)據(jù)集上,改進(jìn)后網(wǎng)絡(luò)的檢測精度明顯優(yōu)于SSD300、YOLOv3和YOLOv4,且正判率大幅度上升,錯判率和漏判率明顯下降。改進(jìn)后的網(wǎng)絡(luò)雖然檢測能力大幅提升,但是檢測速度略遜于一階檢測網(wǎng)絡(luò),在未來的工作中將進(jìn)一步研究如何提高檢測速度。綜合來看,本文所提算法能夠?qū)崿F(xiàn)工廠生產(chǎn)線對精度與速度的要求。