何國歡,朱江平
WT-U-Net++:基于小波變換的表面缺陷檢測網(wǎng)絡(luò)
何國歡,朱江平*
(四川大學(xué) 計算機學(xué)院,成都 610065)( ? 通信作者電子郵箱zjp16@scu.edu.cn)
針對傳統(tǒng)機器視覺算法在表面缺陷檢測中精度低、無法適應(yīng)環(huán)境變化和噪聲影響的問題,提出一種基于小波變換(WT)的改進UNet++——WT-U-Net++。首先,由WT獲取缺陷圖像的高頻與低頻分量,再通過多尺度模塊MCI(Mix-Conv Inception)提取高、低頻分量的細節(jié)特征;其次,將MCI模塊提取到的細節(jié)特征與原始圖像融合,并將融合結(jié)果作為改進UNet++的輸入;再次,在UNet++的下采樣階段引入通道注意力模塊,從而使網(wǎng)絡(luò)在捕獲更多上下文語義信息的同時提高跨層特征級聯(lián)的質(zhì)量,而在上采樣階段采用反卷積恢復(fù)更多的缺陷細節(jié)信息;最后,從UNet++的多個輸出中選擇最佳結(jié)果作為檢測結(jié)果。在鐵軌、磁瓦、硅鋼油污這3個公開缺陷數(shù)據(jù)集上的實驗結(jié)果表明,相較于次優(yōu)的UNet++,WT-U-Net++的交并比(IoU)分別提高了7.98%、4.63%和8.74%,相似度度量指標(biāo)(DSC)分別提高了4.26%、2.99%和4.64%。
UNet++;表面缺陷檢測;小波變換;通道注意力;反卷積
目前我國制造業(yè)持續(xù)快速發(fā)展,缺陷檢測是把控質(zhì)量的關(guān)鍵環(huán)節(jié)。傳統(tǒng)的人工缺陷檢測效率低,檢測結(jié)果易受人為因素干擾,不能滿足現(xiàn)代工業(yè)檢測場景需求。因此,非接觸式的高精度、高效率的缺陷檢測對工業(yè)生產(chǎn)制造有著重大的意義。
根據(jù)不同的圖像特征,可以將傳統(tǒng)的機器視覺缺陷檢測算法分為3類:基于紋理特征、顏色特征和形狀特征的算法。紋理特征反映圖像的同質(zhì)性現(xiàn)象,通過像素點及其鄰近空間鄰域的灰度分布表征圖像組織結(jié)構(gòu)和排列屬性,常見的算法有局部二值模式(Local Binary Pattern, LBP)[1-2]、線性尺度微分(Linear Scale-space Differential, LSD)[3]法和小波變換(Wavelet Transform, WT)[4]等?;陬伾卣鞯姆椒ㄓ嬎懔啃。⑶也皇軋D像尺寸、方向、視角等因素的限制,魯棒性強,典型的算法有顏色直方圖(Color Histogram, CH)[5]、色矩(Color Moment, CM)[6]法。形狀特征屬于中間層特征,主要描述圖像的輪廓和區(qū)域特征,如傅里葉形狀描述子(Fourier Shape Descriptor, FSD)[7]、霍夫變換(Hough Transform, HT)[8]。傳統(tǒng)缺陷檢測算法特別依賴缺陷特征和圖像質(zhì)量,它的特征提取算子需人為設(shè)計,多針對單一場景,無法適應(yīng)背景、光照等環(huán)境變化和噪聲影響,檢測精度較低。
近年來,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在缺陷檢測領(lǐng)域取得飛速發(fā)展,為實現(xiàn)高精度、高效率的表面缺陷檢測提供了新方法。基于CNN的表面缺陷檢測算法大致分為分類網(wǎng)絡(luò)、檢測網(wǎng)絡(luò)和分割網(wǎng)絡(luò)?;贑NN的分類網(wǎng)絡(luò)已成為表面缺陷檢測最常用的算法,Soukup等[9]首先采集光度立體圖像訓(xùn)練CNN,實現(xiàn)軌道表面缺陷分類。Deitsch等[10]將改進的VGG19(Visual Geometry Group 19)網(wǎng)絡(luò)應(yīng)用于太陽能電池板缺陷檢測,并證明該算法優(yōu)于尺度不變特征變換(Scale-Invariant Feature Transform, SIFT)和支持向量機(Supported Vector Machine, SVM)分類器。檢測網(wǎng)絡(luò)可分為兩階段網(wǎng)絡(luò)(如Faster R-CNN[11-12])和單階段網(wǎng)絡(luò)(如SSD(Single Shout multibox Detector)[13]、YOLO[14])。兩階段網(wǎng)絡(luò)具有更好的精度,而單階段網(wǎng)絡(luò)具有更快的速度。分類網(wǎng)絡(luò)僅能夠判斷缺陷是否存在和不同缺陷類別,但是無法定位缺陷,因此在實際應(yīng)用場景中存在一定的局限性;檢測網(wǎng)絡(luò)通過預(yù)測框可以直接定位缺陷位置,且檢測算法已趨向成熟,算法精度較高,在工業(yè)缺陷檢測中廣泛應(yīng)用,但它只能定位缺陷位置,無法準(zhǔn)確描述缺陷的輪廓。
分割網(wǎng)絡(luò)通過區(qū)分缺陷與正常區(qū)域,將表面缺陷檢測任務(wù)轉(zhuǎn)換為語義分割或者實例分割問題,不僅可以精細分割缺陷區(qū)域,還可以獲取缺陷的位置、類別和相應(yīng)的幾何屬性。典型的分割網(wǎng)絡(luò)包括全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN)[15]、SegNet[16-17]系列和U-Net[18]系列。U-Net是一種典型的編碼解碼結(jié)構(gòu),與FCN相比,U-Net的跳層連接將編碼器與解碼器的特征跨層融合,有利于恢復(fù)圖像細節(jié)。U-Net在醫(yī)學(xué)圖像處理取得了矚目的成績,而工業(yè)缺陷圖像與醫(yī)學(xué)圖像相似,它們的語義信息簡單、結(jié)構(gòu)固定,且通常為小規(guī)模數(shù)據(jù)集。針對工業(yè)缺陷圖像檢測模型過大、參數(shù)過多容易導(dǎo)致過擬合的問題,U-Net系列編碼器?解碼器這一從低分辨到高分辨的輕量網(wǎng)絡(luò)結(jié)構(gòu)完美契合了工業(yè)缺陷圖像的特性。
在編碼階段,U-Net的下采樣通過擴大感受野提取深層的圖像特征,這些深層特征有助于判斷圖像是否存在缺陷;但是在下采樣的過程中,圖像的分辨率也隨之下降,導(dǎo)致圖像丟失一些細節(jié)信息,如顏色、形狀等。UNet++[19]是U-Net的變體網(wǎng)絡(luò),UNet++在解碼階段采用多解碼器設(shè)計,多解碼器通過從編碼器不同層解碼,能夠同時捕獲深層特征和淺層特征,融合深、淺層特征以獲取豐富的多尺度信息,加強網(wǎng)絡(luò)性能,提高泛化能力。因此,本文將UNet++應(yīng)用于表面缺陷檢測。另外,深度學(xué)習(xí)方法雖然在提取特征的能力上相較于傳統(tǒng)算法有著明顯優(yōu)勢,但由于它的“黑盒”屬性,難以針對具體場景調(diào)參。相反,傳統(tǒng)算法雖然對背景、光照等環(huán)境變化和噪聲干擾適應(yīng)性差,但它的計算復(fù)雜度低,可以提取并應(yīng)用圖像的一些底層特征?;诖耍疚奶岢鲆环N基于小波變換[20]的改進UNet++——WT-U-Net++,用于工業(yè)場景下的表面缺陷檢測。
本文主要工作如下:
1)提出一種基于小波變換的表面缺陷檢測網(wǎng)絡(luò)WT-U-Net++,通過小波變換獲取圖像的高、低頻分量,增加缺陷特征的豐富度;
2)引入MCI(Mix-Conv Inception)模塊,對高、低頻分量提取多尺度特征,使它更好地融入檢測網(wǎng)絡(luò);
3)改進UNet++,在下采樣階段引入通道注意力增強網(wǎng)絡(luò)的檢測性能,在上采樣階段使用反卷積加強網(wǎng)絡(luò)細節(jié)恢復(fù)能力。
WT-U-Net++的整體結(jié)構(gòu)如圖1所示,網(wǎng)絡(luò)由MCI模塊和改進UNet++構(gòu)成。首先,將待檢測三通道(RGB)缺陷圖像輸入網(wǎng)絡(luò),經(jīng)過小波變換提取特征,得到近似分量(CA)、水平分量(CH)、垂直分量(CV)和對角分量(CD)這4個單通道分量;其次,將4個分量融合,作為MCI模塊的輸入,使小波變換得到的特征更好地融入網(wǎng)絡(luò);最后,與原始輸入融合,作為檢測網(wǎng)絡(luò)改進UNet++的輸入。其中,經(jīng)過MCI模塊得到的特征首先經(jīng)過改進UNet++的編碼器提取下采樣特征,對缺陷定位與分割;同時,在編碼器階段,引用注意力機制獲取更多的上下文語義信息,增強網(wǎng)絡(luò)性能。其次,通過解碼器上采樣恢復(fù)缺陷形狀,解碼器中采用反卷積上采樣模塊(D-Up)增強缺陷細節(jié)恢復(fù)能力。最后,經(jīng)過檢測網(wǎng)絡(luò)預(yù)測得到多個輸出,選擇最優(yōu)輸出作為網(wǎng)絡(luò)的輸出。
圖1 所提網(wǎng)絡(luò)的整體結(jié)構(gòu)
1.2.1小波變換
小波變換將空域信息轉(zhuǎn)換到小波域進行特征提取,通過縮放、平移等操作函數(shù)對圖像進行多尺度細化分析,其次將圖像分解為不同的特征向量。通過哈爾小波變換(Haar Wavelet Transform, HWT)將輸入圖像分解成1個低頻分量與3個高頻分量,計算公式為:
1.2.2MCI模塊
為了使小波變換得到的分量都能夠提供有效的缺陷信息,本文構(gòu)建了MCI模塊,從分量中提取有效特征,減少噪聲干擾。為了避免不同分量的相互影響,首先將4個分量通過concat操作在通道上疊加,其次經(jīng)過兩個3×3卷積塊提取粗特征:
卷積核的大小表征著不同的特征提取能力,大核卷積更容易捕獲全局信息,而小核卷積提取局部特征的能力更強。大部分的缺陷圖像語義信息簡單,所占圖像面積比例較小,因而缺陷是一種局部特征?;诖耍疚臉?gòu)建一種小核卷積的Inception結(jié)構(gòu)[21],即MCI,如圖2所示。
圖2 MCI模塊
表1 卷積層的組成
1.3.1UNet++
WT-U-Net++以UNet++為基礎(chǔ),如圖3所示,UNet++主要由編碼器與解碼器兩部分組成:編碼器負責(zé)下采樣,壓縮缺陷圖像并提取特征;解碼器通過上采樣恢復(fù)圖像尺寸和缺陷細節(jié)信息。通常,對于不同應(yīng)用場景,網(wǎng)絡(luò)的最佳深度取決于數(shù)據(jù)集的大小和難度,而UNet++將多個不同深度的U-Net統(tǒng)合到一個網(wǎng)絡(luò),從多個U-Net路徑中選擇最佳結(jié)果作為最終輸出,這種結(jié)構(gòu)不僅可以提高網(wǎng)絡(luò)的多尺度檢測性能,同時也加強對不同尺寸的圖像的適應(yīng)性,提升網(wǎng)絡(luò)的泛化性。另外,與大多數(shù)的級聯(lián)操作僅連接同層的編碼器,與解碼器相比,UNet++的級聯(lián)操作還連接了同層的淺層解碼器,有助于深層解碼器從淺層解碼器捕獲更豐富的空間域信息,獲取更豐富的缺陷特征。
圖3 改進UNet++
1.3.2通道注意力模塊
受注意力機制在計算機視覺領(lǐng)域成功應(yīng)用的啟發(fā),在UNet++的下采樣階段引入通道注意力機制[22]。除了可以使網(wǎng)絡(luò)學(xué)習(xí)到廣泛的上下文信息從而提高檢測性能外,引入通道注意力機制還有以下兩個好處。首先,小波變換提取的特征與原始圖像在通道層面融合,通道注意力側(cè)重通道關(guān)系,通過顯性建模加強通道之間的相互依賴性,從而可以校準(zhǔn)不同通道間的特征響應(yīng);其次,通道注意力作用于特征跨層融合階段,原始UNet++級聯(lián)操作未考慮不同通道的特征的差異性和淺層特征存在的噪聲等,通道注意力通過對特征重新編碼,計算通道間的相互關(guān)系,對不同通道的權(quán)重重新分配,提高了特征融合的質(zhì)量。如圖4所示,通道注意力模塊主要包括池化操作、多層感知機(Multi-Layer Perceptron, MLP)。
在缺陷檢測任務(wù)中,更加關(guān)注缺陷本身的特征而非缺陷圖像的背景,即更關(guān)注局部特征而非全局特征,因此采用最大池化獲得更準(zhǔn)確的語義信息。輸入特征首先經(jīng)過池化操作,得到一個包含空間上下文信息的1×1×(為通道數(shù))特征圖;其次將它送入包含兩個1×1卷積的MLP,第一層卷積操作后為激活函數(shù)ReLU,通過MLP的特征圖經(jīng)過Sigmoid函數(shù)得到注意力特征;最后,與輸入特征相乘,得到輸出特征。通道注意力模塊計算公式如下:
其中:表示Sigmoid函數(shù);MLP代表多層感知機;max_pool表示最大池化操作;、和分別為輸入、中間特征和輸出特征。
1.3.3反卷積上采樣模塊
在下采樣階段,網(wǎng)絡(luò)對圖像提取特征的同時也降低了圖像的分辨率,減少了網(wǎng)絡(luò)運算量并過濾部分噪聲,但同時也會使圖像丟失掉大量的細節(jié),因此需要通過上采樣恢復(fù)圖像的尺寸及其細節(jié)信息。傳統(tǒng)的上采樣通常采用線性插值,而線性插值的方式需要人工設(shè)計參數(shù),插值結(jié)果的好壞取決于插值參數(shù)的設(shè)計;而反卷積與預(yù)先定義的插值法不同,它有可學(xué)習(xí)的參數(shù),可以自動學(xué)習(xí)適當(dāng)?shù)淖儞Q,從而增強網(wǎng)絡(luò)對不同圖像的適應(yīng)能力。如圖5所示,輸入特征經(jīng)過反卷積操作擴展圖像尺寸,其次通過卷積操作學(xué)習(xí)參數(shù)與特征分配得到輸出特征。
圖5 反卷積模塊
本文實驗基于Windows10專業(yè)版下搭建的PyTorch深度學(xué)習(xí)框架,詳細運行環(huán)境見表2。訓(xùn)練過程中使用了Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1,迭代80個周期。
表2 實驗運行環(huán)境
為了驗證WT-U-Net++的性能,分別采用多個開源數(shù)據(jù)集驗證,主要包括:鐵軌數(shù)據(jù)集(Type-Ⅰ RSDDs)[23]、磁瓦數(shù)據(jù)集[24]和硅鋼油污數(shù)據(jù)集[25]。由于磁瓦數(shù)據(jù)集中缺陷圖像大小不一,為了統(tǒng)一尺寸且不影響缺陷特征,從中挑選118張缺陷圖像。數(shù)據(jù)集樣例見圖6,每對圖像分別為缺陷圖像及其真值。數(shù)據(jù)集簡介見表3。
表3 數(shù)據(jù)集
圖6 數(shù)據(jù)集樣例
上述數(shù)據(jù)集中鐵軌數(shù)據(jù)集和磁瓦數(shù)據(jù)集均已給出真值,硅鋼油污數(shù)據(jù)由人工標(biāo)注,標(biāo)注工具為LabelMe[26]。深度學(xué)習(xí)是以數(shù)據(jù)為驅(qū)動的科學(xué)方法,數(shù)據(jù)量不僅影響結(jié)果,同時也影響訓(xùn)練的難度,而在真實的工業(yè)場景中,缺陷數(shù)據(jù)集的規(guī)模通常較小,它的數(shù)量通常在幾十例到幾百例不等。為了解決數(shù)據(jù)短缺的問題,使用數(shù)據(jù)增強手段,同時為盡可能模擬工業(yè)場景下復(fù)雜的檢測環(huán)境,在圖像處理過程中加入隨機高斯噪聲、隨機Gamma、高斯模糊等方式仿真生成噪聲數(shù)據(jù);通過調(diào)整對比度、明亮度、飽和度、加入光學(xué)畸變等方式,仿真生成不同光照條件下的缺陷數(shù)據(jù),具體增強方式如表4所示。使用基于OpenCV的快速圖像增強庫Albumentations[27],訓(xùn)練過程中按照8∶2將數(shù)據(jù)集劃分為訓(xùn)練集、測試集,再將數(shù)據(jù)等比例增強,增強后的數(shù)據(jù)量為原始數(shù)據(jù)的20倍。
表4 數(shù)據(jù)增強方式
通過兩個評價指標(biāo)評估WT-U-Net++的有效性,指標(biāo)為交并比(Intersection over Union, IoU)和相似度度量指標(biāo)(Dice Similarity Coefficient, DSC),計算公式如下:
選擇U-Net[18]、UNet++[19]、AttentionU-Net[28]、SegNet[16]作為實驗對比對象,不同網(wǎng)絡(luò)在測試集上的部分檢測結(jié)果如圖7~9所示。
如圖7所示,第1行缺陷圖像有大小不同的兩個缺陷,5個網(wǎng)絡(luò)均能完整地檢測較大的缺陷,而U-Net、AttentionU-Net與SegNet無法完整檢測較小的缺陷。UNet++雖然能較好地恢復(fù)缺陷形狀,但嚴重受到噪聲干擾,只有WT-U-Net++既完整恢復(fù)了缺陷信息,又較少受到噪聲干擾。第2行的缺陷形狀更小且受到光照反射的干擾,只有WT-U-Net++能夠完整地檢測所有缺陷信息,其他對比網(wǎng)絡(luò)均有不同程度的缺陷漏檢。第3行中,只有U-Net與WT-U-Net++受到偽缺陷影響較小,但WT-U-Net++的缺陷檢測結(jié)果更完整。
從圖8可以看出,在第1行中,U-Net、AttentionU-Net和SegNet在不同程度上受到噪聲干擾,WT-U-Net++和UNet++均達到了較好的檢測效果。在第2行中,UNet++表現(xiàn)較差,WT-U-Net++表現(xiàn)最優(yōu)。在第3行中,只有WT-U-Net++能夠較為完整地恢復(fù)圖像右方的缺陷。
從圖9可以看出,在第1行中,WT-U-Net++恢復(fù)了最完整的缺陷信息,而其他對比網(wǎng)絡(luò)都未能恢復(fù)完整缺陷形狀,SegNet甚至出現(xiàn)誤檢。在第2行中,U-Net、AttentionU-Net和UNet++雖然都完整地恢復(fù)了缺陷形狀,但它們在不同程度上都受到了偽缺陷的干擾,導(dǎo)致產(chǎn)生一些額外的噪聲信息;SegNet雖然受到偽缺陷干擾程度小,但是恢復(fù)缺陷信息能力較差;只有WT-U-Net++受偽缺陷影響最小且完整恢復(fù)了缺陷形狀。第3行中,由于位于圖像下方的缺陷對比度較低且缺陷較小,只有WT-U-Net++恢復(fù)缺陷形狀最為完整。
圖7 不同網(wǎng)絡(luò)在鐵軌數(shù)據(jù)集上的檢測結(jié)果對比
圖8 不同網(wǎng)絡(luò)在磁瓦數(shù)據(jù)集上的檢測結(jié)果對比
圖9 不同網(wǎng)絡(luò)在硅鋼油污數(shù)據(jù)集上的檢測結(jié)果對比
為了充分驗證WT-U-Net++的優(yōu)越性,本文在IoU與DSC兩個評價標(biāo)準(zhǔn)下進行比較,具體結(jié)果見表5。可以看出,WT-U-Net++在IoU指標(biāo)上最低為0.758,最高為0.814,在DSC指標(biāo)上最低為0.856,最高達到0.897,在IoU、DSC上的平均精度分別達78.53%、87.73%,WT-U-Net++在3個數(shù)據(jù)集上的表現(xiàn)在5個網(wǎng)絡(luò)之中最好。在3個數(shù)據(jù)集上,相較于次優(yōu)的UNet++,WT-U-Net++的交并比分別提高了7.98%、4.63%和8.74%,相似度度量指標(biāo)提高了4.26%、2.99%和4.64%,WT-U-Net++在不同的缺陷數(shù)據(jù)類型下均有較好的表現(xiàn),具有一定的通用性。
為了驗證所提模塊的有效性,在鐵軌數(shù)據(jù)集和磁瓦數(shù)據(jù)集上進行消融實驗,結(jié)果如表6所示。原始模塊未添加小波變換(WT)、MCI模塊、通道注意力模塊(ATT)和反卷積上采樣模塊(D-Up),上采樣由二次線性插值代替。
表6 消融實驗結(jié)果
從表6中可以看出,在鐵軌和磁瓦數(shù)據(jù)集上,相較于原始模塊,WT分別使IoU、DSC提升0.85%、0.24%和2.88%、1.67%;在添加WT的基礎(chǔ)上,MCI模塊分別使IoU、DSC再次提升0.98%、0.48%和6.14%、4.00%。在添加WT和MCI模塊的基礎(chǔ)上,分別又針對ATT和D-Up模塊進行驗證,結(jié)果表明兩個模塊對IoU、DSC兩個指標(biāo)均有所提升。最后同時使用4個模塊,兩個指標(biāo)上達到最優(yōu)效果,由此驗證了本文所提出的4個模塊可以有效提高檢測性能。
本文提出一種基于小波變換的表面缺陷檢測網(wǎng)絡(luò)WT-U-Net++,通過引入小波變換獲取缺陷圖像的高頻以及低頻分量,豐富了缺陷特征信息。同時,構(gòu)建MCI模塊對特征信息進行多尺度融合,使通過小波變換得到的細節(jié)信息更好地融入網(wǎng)絡(luò)。另外,改進UNet++,引入通道注意力機制增強對特征語義信息的獲取且提高跨層特征融合的質(zhì)量,從而增強網(wǎng)絡(luò)的性能和魯棒性。最后,引入反卷積進行上采樣,使恢復(fù)的缺陷信息更加完整且準(zhǔn)確。實驗結(jié)果表明,WT-U-Net++在多個應(yīng)用場景下均有較好的檢測效果,相較于其他對比網(wǎng)絡(luò),WT-U-Net++具有較大的優(yōu)勢。
然而由于缺陷樣本不同類型樣本量的不平衡,所提網(wǎng)絡(luò)的缺陷識別精度仍有待提高,因此在后續(xù)工作中,將會針對數(shù)據(jù)的不平衡性對數(shù)據(jù)進行擴充,并對網(wǎng)絡(luò)模型持續(xù)優(yōu)化,提升檢測精度。
[1] LIU Y, XU K, XU J. An improved MB-LBP defect recognition approach for the surface of steel plates[J]. Applied Sciences, 2019, 9(20): No.4222.
[2] SU B, CHEN H, ZHU Y, et al. Classification of manufacturing defects in multicrystalline solar cells with novel feature descriptor[J]. IEEE Transactions on Instrumentation and Measurement, 2019, 68(12): 4675-4688.
[3] LI S, LI D, YUAN W. Wood chip crack detection based on linear scale-space differential[J]. Measurement, 2021, 175: No.109095.
[4] RYU S G, KOO G, KIM S W. An adaptive selection of filter parameters: defect detection in steel image using wavelet reconstruction method[J]. ISIJ International, 2020, 60(8):1703-1713.
[5] REN H, TIAN K, HONG S, et al. Visualized investigation of defect in cementitious materials with electrical resistance tomography[J]. Construction and Building Materials, 2019, 196:428-436.
[6] MA N, GAO X, WANG C, et al. Influence of hysteresis effect on contrast of welding defects profile in magneto-optical image[J]. IEEE Sensors Journal, 2020, 20(24): 15034-15042.
[7] PAN Y, LU R, ZHANG T. FPGA-accelerated textured surface defect segmentation based on complete period Fourier reconstruction[J]. Journal of Real-Time Image Processing, 2020, 17(5): 1659-1673.
[8] LI R, TIAN F, CHEN S. Research on surface defect detection method of E-TPU midsole based on machine vision[J]. Journal of Computer and Communications, 2020, 8(11):145-160.
[9] SOUKUP D, HUBER-M?RK R. Convolutional neural networks for steel surface defect detection from photometric stereo images[C]// Proceedings of the 2014 International Symposium on Visual Computing, LNCS 8887. Cham: Springer, 2014: 668-677.
[10] DEITSCH S, CHRISTLEIN V, BERGER S, et al. Automatic classification of defective photovoltaic module cells in electroluminescence images[J]. Solar Energy, 2019, 185:455-468.
[11] 陳仁祥,詹贊,胡小林,等. 基于多注意力Faster RCNN的噪聲干擾下印刷電路板缺陷檢測[J]. 儀器儀表學(xué)報, 2021, 42(12):167-174.(CHEN R X, ZHAN Z, HU X L, et al. Printed circuit board defect detection based on the multi-attentive Faster RCNN under noise interference[J]. Chinese Journal of Scientific Instrument, 2021, 42(12):167-174.)
[12] 郭文明,劉凱,渠慧帆. 基于Faster R-CNN模型X-射線圖像的焊接缺陷檢測(英文)[J]. 北京郵電大學(xué)學(xué)報, 2019, 42(6):20-28.(GUO W M, LIU K, QU H F. Welding defect detection of X-ray images based on Faster R-CNN model[J]. Journal of Beijing University of Posts and Telecommunications, 2019, 42(6):20-28.)
[13] LI Y, HUANG H, XIE Q, et al. Research on a surface defect detection algorithm based on MobileNet-SSD[J]. Applied Sciences, 2018, 8(9): No.1678.
[14] 韓航迪,徐亦睿,孫博,等. 基于改進Tiny-YOLOv3網(wǎng)絡(luò)的航天電子焊點缺陷主動紅外檢測研究[J]. 儀器儀表學(xué)報, 2020, 41(11):42-49.(HAN H D, XU Y R, SUN B, et al. Using active thermography for defect detection of aerospace electronic solder joint base on the improved Tiny-YOLOv3 network[J]. Chinese Journal of Scientific Instrument, 2020, 41(11): 42-49.)
[15] DUNG C V, ANH L D. Autonomous concrete crack detection using deep fully convolutional neural network[J]. Automation in Construction, 2019, 99: 52-58.
[16] BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[17] ZOU Q, ZHANG Z, LI Q, et al. DeepCrack: learning hierarchical convolutional features for crack detection[J]. IEEE Transactions on Image Processing, 2019, 28(3): 1498-1512.
[18] RONNEBERGER O, FISCHER P, BROX T. U-net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[19] ZHOU Z, SIDDIQUEE M M R, TAJBAKHSH N, et al. UNet++: redesigning skip connections to exploit multiscale features in image segmentation[J]. IEEE Transactions on Medical Imaging, 2020, 39(6):1856-1867.
[20] SHENSA M J. The discrete wavelet transform: wedding the a trous and Mallat algorithms[J]. IEEE Transactions on Signal Processing, 1992, 40(10):2464-2482.
[21] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016:2818-2826.
[22] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[23] GAN J, LI Q, WANG J, et al. A hierarchical extractor-based visual rail surface inspection system[J]. IEEE Sensors Journal, 2017, 17(23): 7935-7944.
[24] HUANG Y, QIU C, YUAN K. Surface defect saliency of magnetic tile[J]. The Visual Computer, 2020, 36(1): 85-96.
[25] 硅鋼油污數(shù)據(jù)集[DS/OL]. [2021-05-22].http://faculty.neu.edu.cn/yunhyan/SLSM.html.(Oil pollution defect database[DS/OL]. [2021-05-22].http://faculty.neu.edu.cn/yunhyan/SLSM.html.)
[26] RUSSELL B C, TORRALBA A, MURPHY K P, et al. LabelMe: a database and web-based tool for image annotation[J]. International Journal of Computer Vision, 2008, 77(1/2/3): 157-173.
[27] BUSLAEV A, IGLOVIKOV V I, KHVEDCHENYA E, et al. Albumentations: fast and flexible image augmentations[J]. Information, 2020, 11(2): No.125.
[28] OKTAY O, SCHLEMPER J, FOLGOC L L, et al. Attention U-Net: learning where to look for the pancreas[EB/OL]. (2018-05-20) [2022-02-24].https://arxiv.org/pdf/1804.03999.pdf.
WT-U-Net++: surface defect detection network based on wavelet transform
HE Guohuan, ZHU Jiangping*
(,,610065,)
To address the problems of traditional machine vision algorithms such as low detection accuracy, inability to adapt to environmental changes and noise influence in surface defect detection, a improved UNet++ based on Wavelet Transform (WT) — WT-U-Net++ was proposed. Firstly, the high frequency and low frequency components of the defect image were obtained by the WT, and the detailed features of the high and low frequency components were extracted by the multi-scale module MCI (Mix-Conv Inception). Secondly, the detailed features extracted by MCI module were fused with the original image, and the fusion results were used as the input of the improved UNet++. Thirdly, in the downsampling stage of UNet++, channel attention module was introduced to enable the network to capture more contextual semantic information and improve the quality of cross-layer feature cascade at the same time. In the upsampling stage, deconvolution was adopted to recover more defect details. Finally, the best result was selected from the multiple output of UNet++ as the detection result. Experimental results on three public defect datasets of rail, magnetic tile and silicon steel oil stain show that compared with the sub-optimal algorithm UNet++, WT-U-Net ++ has the Intersection over Union (IoU) increased by 7.98%, 4.63%, and 8.74% respectively, and the Dice Similarity Coefficient (DSC) improved by 4.26%, 2.99% and 4.64% respectively.
UNet++; surface defect detection; Wavelet Transform (WT); channel attention; deconvolution
This work is partially supported by Key Research and Development Project of Sichuan Province (2022YFG0053).
HE Guohuan, born in 1996, M. S. candidate. His research interests include computer vision, defect detection.
ZHU Jiangping, born in 1984, Ph. D., associate professor. His research interests include computer vision, three dimensional reconstruction, defect detection.
1001-9081(2023)10-3260-07
10.11772/j.issn.1001-9081.2022091452
2022?09?30;
2022?12?17;
四川省重點研發(fā)專項(2022YFG0053)。
何國歡(1996—),男,陜西安康人,碩士研究生,主要研究方向:計算機視覺、缺陷檢測; 朱江平(1984—),男,四川達州人,副教授,博士,主要研究方向:計算機視覺、三維重建、缺陷檢測。
TP389.1
A
2022?12?28。