A multi-scale adaptive attention detection model for leather fabric defect detection
摘要:
在工業(yè)皮革織物生產(chǎn)中,缺陷檢測是控制工業(yè)質(zhì)量至關(guān)重要的一部分。而皮革織物表面的缺陷局部相似程度高,造成不同缺陷類間存在高相似性,導致缺陷檢測的效果不佳。為此,文章提出了一種自適應(yīng)卷積注意力(ACA),并引入骨干網(wǎng)絡(luò)中增強語義特征表示能力。其次設(shè)計了基于自適應(yīng)卷積注意力的特征金字塔(AC-FPN)改進多尺度融合,進行更低粒度的皮革缺陷區(qū)分。最后將傳統(tǒng)檢測頭替換為側(cè)面感知邊界定位(SABL)檢測頭,聚焦皮革缺陷精確位置,有助于網(wǎng)絡(luò)區(qū)分相似和不同類別的缺陷及更精確的定位。文章在自建皮革數(shù)據(jù)集對ACA及改進后的各個組件進行消融實驗,與目前各種主流檢測模型進行對比。其中,AP、AP50和AP75三項評估指標分別達到了83.4、89.7、85.6,并且在APS、APM和APL上分別達到了71.3、89.9、88.9。通過實驗證明了可行性,為自動皮革缺陷檢測方法提供了新的思路。
關(guān)鍵詞:
注意力機制;多尺度信息;缺陷檢測;卷積神經(jīng)網(wǎng)絡(luò);缺陷分類;皮革織物
中圖分類號:
TS57
文獻標志碼:
A
文章編號: 10017003(2024)10期數(shù)0036起始頁碼10篇頁數(shù)
DOI: 10.3969/j.issn.1001-7003.2024.10期數(shù).004(篇序)
收稿日期:
20240319;
修回日期:
20240912
基金項目:
湖北省教育廳科技計劃項目(D20221604);湖北省重點研發(fā)計劃項目(2021BBA235);湖北省重點研發(fā)計劃國家自然科學基金項目(12302243);湖北省青年科學基金項目(2023AFB372)
作者簡介:
李皞(1982),男,教授,博士,主要從事紅外及光譜信號處理技術(shù)與理論,及其在遙感、糧食加工,食品安全、智慧農(nóng)業(yè)等領(lǐng)域中的研究。
皮革制品在服裝、制鞋、家具、箱包等領(lǐng)域廣泛應(yīng)用,成為人們生活中不可或缺的一部分[1]。隨著人們生活水平的提高,對皮革制品的質(zhì)量和外觀要求也越來越高[2]。但在合成皮革制品的生產(chǎn)過程中,不可避免地會出現(xiàn)一定的缺陷,這些缺陷會直接影響著皮革制品的質(zhì)量和價格。在生產(chǎn)早期,識別這些缺陷可以避免更多的皮革損耗。目前生產(chǎn)線上缺陷檢測技術(shù)仍主要依賴人工操作,這導致了高成本、低效率及易受人為因素影響的問題[3]。因此,推動皮革行業(yè)實現(xiàn)自動化生產(chǎn),解放勞動力,使皮革缺陷檢測自動化具有重要的實現(xiàn)價值和現(xiàn)實意義,開發(fā)一種識別精度高、具備強魯棒性的皮革缺陷檢測算法至關(guān)重要[4]。然而,由于皮革織物制品缺陷的局部形態(tài)差異及類間相似度高,極容易造成類間錯分,進而導致自動化的皮革缺陷檢測成為具有挑戰(zhàn)性的任務(wù)。
為了解決皮革缺陷特征局部形態(tài)差異不明顯的問題,目前大部分研究者開始使用深度學習方法進行皮革缺陷檢測。Aslam等[5]引入了深度學習集成模型技術(shù),用于缺陷和無缺陷皮革樣本分類。在相關(guān)研究中,Aslam等[6]創(chuàng)建了包含各種皮革缺陷類型的高分辨率數(shù)據(jù)集,證明了積極的知識轉(zhuǎn)移通過跨領(lǐng)域知識融合有助于皮革缺陷問題的檢測。Khanal等[7]討論使用機器視覺技術(shù)開發(fā)全自動皮革缺陷檢測系統(tǒng),該系統(tǒng)包括傳送系統(tǒng)和攝像頭,使用深度學習模型實現(xiàn)皮革圖像捕捉和缺陷檢測,構(gòu)建一個從硬件到軟件的全自動系統(tǒng)。在MVTEC皮革數(shù)據(jù)集上,他們的語義分割模型獲得了94%的IOU分數(shù)。數(shù)據(jù)集中的所有皮革圖像都具有相似的缺陷表現(xiàn)形式,因此,模型在具有類間和類內(nèi)變化的數(shù)據(jù)集上可能表現(xiàn)不佳。Gan等[8]提出了一種基于深度學習的數(shù)字圖像處理方法,實現(xiàn)了自動化的皮革缺陷檢測與定位系統(tǒng)。而Zhang等[9]提出了KMDNet,一種新型的皮革分割網(wǎng)絡(luò),該網(wǎng)絡(luò)引入了KPCL層作為新的語義信息提取層。盡管取得了巨大的進步,但基于深度學習的方法對皮革不同缺陷類間存在相似特征的問題上,可能表現(xiàn)不佳,也難以精確定位缺陷位置。
為了解決皮革不同缺陷類間相似特征的問題,本文考慮引入注意力機制。注意力在人類感知[10]中扮演關(guān)鍵角色,Wang等[11]和Hu等[12]的研究探討了神經(jīng)網(wǎng)絡(luò)中的注意力,發(fā)現(xiàn)注意力機制能夠引導網(wǎng)絡(luò)更關(guān)注目標特征。Zhang等[13]和Li等[14]在通用對象檢測和缺陷定位中探索了注意力的應(yīng)用。受到Woo等[15]的啟發(fā),本文提出自適應(yīng)卷積注意力(ACA),針對性地解決皮革缺陷類間特征方差小的問題。通過殘差結(jié)構(gòu)將通道注意力進行加強,增強語義特征的表示能力,使得網(wǎng)絡(luò)更能準確地區(qū)分和識別不同表現(xiàn)形式的皮革缺陷。選用兩個不同大小的濾波核進行空間注意力操作,網(wǎng)絡(luò)可以更好地抽取和強化特征之間的空間信息,自適應(yīng)的選擇皮革缺陷類間差異并放大差異,這有助于解決皮革缺陷類間差異較小的問題,使得網(wǎng)絡(luò)能夠更精確地分辨不同皮革缺陷類別。為了更精確檢測到不同尺寸的皮革缺陷并減少計算復雜度,本文選用FPN[16]進行多尺度特征融合,引入ACA后稱為自適應(yīng)卷積注意力特征金字塔(AC-FPN),減少融合時下采樣造成的信息丟失,更能精確檢測到不同尺寸的缺陷。再配合側(cè)面感知邊界定位(SABL)[17]檢測頭聚焦皮革缺陷精確位置,有助于網(wǎng)絡(luò)區(qū)分相似和不同類別的缺陷及更精確的定位。
此研究貢獻主要體現(xiàn)在以下幾點:
1) 為了解決皮革缺陷類間方差變化的問題,提出了一種自適應(yīng)卷積注意力(ACA)模塊。將ACA引入骨干網(wǎng)絡(luò)中,增強語義特征表示能力,提升網(wǎng)絡(luò)捕捉皮革缺陷類間差異的能力。
2) 為了應(yīng)對皮革缺陷的不同尺寸,提出了一種新的自適
應(yīng)卷積注意力特征金字塔(AC-FPN)進一步改進特征表示,有選擇地捕獲來自不同域的上下文信息,加強特征圖中的語義信息,更好地捕獲不同尺寸的缺陷,同時減少融合時下采樣造成的信息丟失。
3) 為了更精準地定位皮革缺陷位置,本文將傳統(tǒng)檢測頭替換為側(cè)面感知邊界定位(SABL)檢測頭,邊界框的每一側(cè)都根據(jù)其周圍的上下文分別定位,以實現(xiàn)精準的皮革缺陷定位。
1 提出的方法
1.1 自適應(yīng)卷積注意力(ACA)模塊
為了解決皮革織物表面缺陷的局部相似程度高、導致類間難以分辨的問題,本文提出自適應(yīng)卷積注意力(ACA)模塊,結(jié)構(gòu)如圖1所示。該模塊由通道注意力和空間注意力兩個部分組成。其中通道注意力可以更好地區(qū)分和捕捉皮革缺陷類間差異,提高語義特征的表示能力。而在空間注意力中,本文選用核大小為7和核大小為3的濾波核進行并行的空間注意力操作,以強化皮革缺陷的類與類之間的空間特征,區(qū)分缺陷表現(xiàn)形式相似但非同一類的缺陷。在本文中采用注意力機制模塊的主要目的在于通過強化信息區(qū)域并抑制非相關(guān)區(qū)域,同時增強語義信息,從而改善特征的表征能力。這種方法使模型能夠有效地捕捉有關(guān)缺陷部分的關(guān)鍵特征,從而提升皮革缺陷檢測的準確性。
圖1中,給定一個中間特征圖F∈RC×H×W作為輸入,ACA依次推斷一個1D的通道注意力圖MC∈RC×1×1和一個2D的空間注意力圖MS∈R1×H×W,最后對空間注意力圖和通道注意力圖進行融合。整體的注意力過程可以概括為:
F′=MC(F)FF″=(MS(F′)F′)MC(F)(1)
式中:表示逐元素乘法,F(xiàn)′表示經(jīng)過通道注意力后的特征描述符。在乘法運算過程中,通道注意力值沿空間維度廣播,反
之亦然。F″為最終經(jīng)過精煉處理的輸出,通過最后將空間注意力和通道注意力進行逐元素相乘,加強語義信息的表征能力。
1.1.1 通道注意力
通道注意力被應(yīng)用在學習特征也就是缺陷之間的關(guān)系上。關(guān)注點在給定輸入圖像中哪些部分是有意義的[15]。由于特征網(wǎng)絡(luò)中存在多尺度信息,能夠逐步學習更為豐富的特征表示。通過強化通道注意力,網(wǎng)絡(luò)可以對同一類缺陷中存在的顯著差異進行辨認,更好地區(qū)分和捕捉這些類內(nèi)差異,提高語義特征的表示能力。
MC(F)=σ(MLP(AvgPool(F))+MLP(MaxPool(F)))=σ(W1(W0(Fcavg))+W1(W0(Fcmax)))(2)
式中:F為特征圖,σ為sigmoid函數(shù),F(xiàn)cavg表示使用平均池化特征,F(xiàn)cmax表示最大池化特征。全連接層的權(quán)重用W0表示,輸出層用W1表示。
1.1.2 空間注意力
空間注意力是對通道注意力的補充,其關(guān)注的焦點是信息存在的空間區(qū)域。平均池化和最大池化過程沿著通道軸執(zhí)行,以計算空間注意力,然后連接以創(chuàng)建有效的特征描述符[15]。當皮革缺陷類間差異較小時,可能需要更強的空間信息來幫助區(qū)分這些缺陷。采用核大小為7和核大小為3的兩種濾波核,并行地進行空間注意力操作,能夠引導網(wǎng)絡(luò)更好的強化缺陷類間特征的空間信息。
空間注意力模塊壓縮特征映射F∈RH×W轉(zhuǎn)化為Fsavg∈R1×H×W平均池化結(jié)果和Fsmax∈R1×H×W最大池化結(jié)果。這些特
征首先被連接,然后使用傳統(tǒng)的卷積層進行卷積,以產(chǎn)生2D空間注意力圖。
Ff7=σ(f7×7([AvgPool(F);MaxPool(F)]))Ff3=σ(f3×3([AvgPool(F);MaxPool(F)]))MS(F)=σ(Ff7+Ff3)(3)
式中:F為特征圖,σ為sigmoid函數(shù),f7×7表示核大小為7的卷積運算,f3×3表示核大小為3的卷積運算,F(xiàn)f7表示使用核大小為7的卷積特征,F(xiàn)f3表示使用核大小為3的卷積特征。
1.2 皮革缺陷檢測方法
本文所提出的皮革缺陷檢測方法通過卷積層和ACA模塊來提取圖像中的皮革缺陷關(guān)鍵特征。這些特征用來區(qū)分不同類型的皮革缺陷,如刀傷、折痕等。在特征提取階段,皮革缺陷檢測網(wǎng)絡(luò)學習到適用于不同皮革缺陷類型的特征表示。再將特征表示通過分類器層將學習到的皮革缺陷特征映射到輸出層,輸出層的多個節(jié)點代表不同類型的皮革缺陷。整體架構(gòu)如圖2所示,大體上分為三個步驟。
第一步,輸入皮革圖像被傳送到骨干網(wǎng)絡(luò),用于提取全局的語義特征。本文選用ResNet[18]作為骨干網(wǎng)絡(luò),其中的殘差塊有助于提高ResNet的準確性。為了更有效地引導網(wǎng)絡(luò)區(qū)分和強化缺陷類間的差異,本文在每個殘差塊中嵌入了ACA模塊,具體結(jié)構(gòu)如圖2中的Backbone結(jié)構(gòu)。ACA的引入增強了模型的皮革缺陷感知能力。通過自適應(yīng)地對特征圖中的通道和空間進行加權(quán),使得網(wǎng)絡(luò)能夠更有選擇性地關(guān)注重要的皮革缺陷特征,從而增強了對局部和全局信息的感知,提升骨干網(wǎng)絡(luò)對皮革缺陷特征的抽取能力。
第二步,本文對從骨干網(wǎng)絡(luò)抽取的特征圖進行多尺度信息融合。考慮到特征金字塔(FPN)[16]能夠在各個尺度上呈現(xiàn)皮革缺陷特征,因此本文采用AC-FPN,即將特征金字塔(FPN)和自適應(yīng)注意力(ACA)相結(jié)合,具體結(jié)構(gòu)如圖3所示。通過將ACA應(yīng)用于各個尺度的特征融合路徑上,以增強語義的特征表示能力,實現(xiàn)多尺度特征提取,并減少因融合時下采樣而導致的信息丟失。在能更好地區(qū)分和強化缺陷類間較小差異的情況下,更能精確檢測到不同尺寸的皮革缺陷,從而確保圖像中的大、小特征都能得到良好的捕捉。
第三步,將多尺度融合后的特征,饋送到區(qū)域提議網(wǎng)絡(luò)(RPN)[19]中獲取目標建議,并將這些建議傳遞給檢測頭實現(xiàn)皮革缺陷分類和定位,完成皮革缺陷的檢測。為了更好地定位效果,本文將傳統(tǒng)檢測頭替換為側(cè)面感知邊界定位(SABL)[19]檢測頭,以實現(xiàn)更加精準的缺陷定位。SABL檢測頭有助于減少由于皮革缺陷邊界模糊或不清晰而引起的定位誤差。在密集目標場景中,SABL有助于減少缺陷之間的干擾,提高多目標場景下的性能。分類、區(qū)域提議網(wǎng)絡(luò)(RPN)及回歸任務(wù)的損失函數(shù)均采用了Wang等[17]提出的SABL方法。本文的損失函數(shù)結(jié)合了RPN的損失和基于桶化邊界框的SABL損失。整體損失表示為:
L=LRPN_cls+LRPN_bbox_reg+Lcls+Lbbox_cls+Lbbox_reg(4)
式中:前兩項表示RPN損失,后三項表示SABL損失。
2 實 驗
2.1 數(shù)據(jù)集和實驗準備
為了全面捕捉生產(chǎn)線皮革表面的特性,本文從皮革工業(yè)生產(chǎn)線獲取并篩選了309張分辨率為4 096×4 096像素的圖片。在圖像采集過程中,本文確保充分涵蓋皮革表面的各種缺陷。隨后,本文對這些圖片進行了大小調(diào)整,將它們的尺寸縮減為640×640像素。本文采用了垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、[0,10]的隨機縮放及[-10,10]的亮度調(diào)整等增強策略。通過這些數(shù)據(jù)增強的步驟,成功生成了總計2 549張圖片。
為了更深入地理解這些缺陷情況,圖4呈現(xiàn)了六種類型中具有代表性的圖像,以凸顯它們的顯著特點。其中,折痕類是指皮革表面出現(xiàn)的明顯折痕或褶皺,外觀上呈現(xiàn)細長或曲線下陷,下陷程度不深且通常不規(guī)整,但部分表現(xiàn)形式會與凹
陷類類似,可通過下陷程度及折痕寬度進行判斷。凹陷類是皮革表面出現(xiàn)的深度凹陷或坑洞,外觀上呈現(xiàn)細長規(guī)整且深度凹陷,通常凹陷寬度不超過1 mm。刀傷類是皮革表面出現(xiàn)的切割或劃痕,外觀上呈現(xiàn)斷裂、撕裂及細小直線或曲線劃痕,且傷口較深。劃痕類是皮革表面出現(xiàn)的線性或曲線形狀的劃痕,外觀上呈現(xiàn)較為規(guī)律的大面積長條狀淺表痕跡,極少數(shù)呈現(xiàn)規(guī)律細小淺表痕跡,與刀傷相比深度較淺。接縫類指在皮革制品的連接部分出現(xiàn)的線狀結(jié)構(gòu),外觀上呈現(xiàn)較為明顯的大面積縫合或黏合痕跡。污點類皮革表面出現(xiàn)的顏色變化或污漬,外觀上通常呈現(xiàn)大面積規(guī)律性細小淺表異物或污染物,少部分呈現(xiàn)小面積污點。正因同一缺陷表現(xiàn)形式不同,并且類間存在相似性,導致準確識別和分類這些缺陷需要一個高精度的自動視覺檢測系統(tǒng),能夠有效處理類內(nèi)和類間的變化、尺度的變動及紋理的復雜性。
本文的主要目標在于評估目標檢測模型在本文構(gòu)建的數(shù)據(jù)集上的性能表現(xiàn)。在獲得高平均精度(Average Precision,AP)時,本文特別關(guān)注目標(皮革缺陷)的尺寸對結(jié)果的影響。對于那些尺寸相對一致的目標,相較于那些尺寸變化較大的目標,實現(xiàn)高AP更加具有挑戰(zhàn)性。為了更加細致地了解缺陷檢測方法的準確性,本文引入了交并比(Intersection over Union,IoU)來劃分不同的AP值,并進行評估。IoU被定義為標簽邊界框與預測邊界框之間的重疊區(qū)域與它們的并集之比。換言之,它量化了檢測結(jié)果與實際目標位置之間的重合程度。因此,當IoU值越高時,說明檢測器能夠更準確地定位目標缺陷所在位置,從而反映了檢測器的性能水平。當IoU閾值設(shè)定為0.75時,本文使用AP75作為評價指標;同理,當IoU閾值設(shè)定為0.50時,本文使用AP50來衡量目標檢測的性能。同時本文還考慮小目標APS、中目標APM、大目標APL的AP測量值,分別是像素面積小于322、像素面積區(qū)間在[322,962]、像素面積大于962的目標框AP測量值。
在模型訓練過程中,本文使用了mmdetection作為代碼庫。所有實驗都是在NVIDIA GeForce RTX 4080 graphics card上進行的。對于模型訓練,采用了以下超參數(shù):初始學習率設(shè)定為0.002,權(quán)重衰減率為0.000 1。在實驗中,本文采用隨機動量梯度下降(SGDM)優(yōu)化器,具體參數(shù)如下:學習率為0.001,動量值為0.900,權(quán)重衰減率為0.000 1。考慮到GPU內(nèi)存的限制,本文將批處理大小設(shè)置為6。所有檢測器的訓練都是基于MS-COCO[20]數(shù)據(jù)集的權(quán)重進行。
2.2 實驗結(jié)果
2.2.1 消融實驗
為了更好地理解ACA的貢獻,本文進行了消融實驗。本文先以ResNet50骨干網(wǎng)絡(luò)作為基準模型,再通過逐步移除組成ACA中的通道注意力和空間注意力,然后將其和骨干網(wǎng)絡(luò)組合,并記錄模型性能,對實驗結(jié)果進行分析,確認各個部件對基準模型地影響。具體而言,本文將圖2中Backbone部分的ACA位置通過替換為CA、CBAM這兩種模塊,構(gòu)建了本文消融實驗所需的三種基準方法變體。在圖5中比較了使用Grad-CAM[21]的框架對組件進行粗定位圖。本文對比了基準方法ResNet50與三種基于注意力的變體ResNet50+CA組合、ResNet50+ACA(CA+SA)組合和ResNet50+CBAM組合。本文給出了這四類方法中具有代表性例子的粗略可視化結(jié)果。由圖5(d)可以看出,基于ACA的方法更突出了缺陷區(qū)域,通過加強通道引導的特征和空間引導的定位,語義和空間信息得到提升,缺陷區(qū)域更加突出。從第1、3、4、5行的圖像可以看出,ResNet50+ACA能對缺陷進行更精細的定位。
本文所提方法在AP方面的比較如表1所示。由表1可以得到幾個重要結(jié)果是:1) 基線和基于注意力變體的量化結(jié)果證實了圖5所示的視覺表征結(jié)果。2) 提出的ResNet50+ACA獲得了比CBAM更好的性能,在AP、AP50和AP75分別提升了2.7%、0.9%和1.6%。這可以歸因于ACA的特征表達能力。
為了更好地理解所提出方法中各個部件的貢獻,本文對方法中各個部件進行了消融實驗,如表2所示。在表2中,本文對比了基準方法Cascade-RCNN(R50)[22]與骨干網(wǎng)絡(luò)改進變體、多尺度融合改進變體及檢測頭改進變體三種,并分別對應(yīng)所提出方法中的每一步。
由表2可以看出,基線和三種變體的量化結(jié)果,證實了各個部件都對皮革缺陷檢測性能有不同程度的提升。在組合了三個改進部件后在AP上效果達到最好,相比一個改進組件和兩個改進組件分別提升了18.9%和9.4%。
2.2.2 性能對比
選擇最先進的方法和基準方法進行比較,包括Faster-RCNN、YOLOv3、Cascade-RCNN[22]及YOLOX和DAB-DETR檢測網(wǎng)絡(luò)和本文提出的方法進行比較。
歸一化混淆矩陣能夠使本文更全面地了解模型的性能,尤其是在多類別分類問題中。與單一精度指標不同,歸一化混淆矩陣可以展示每個類別的準確性和召回率,從而揭示不同類別之間的性能差異。由圖6可以看到,除了本文提出的方法外,其他網(wǎng)絡(luò)對于折痕類和凹陷類難以檢測,精度較低,同時難以區(qū)分兩類間的區(qū)別。而本文的方法能夠很好地區(qū)分這兩種類別的同時,相比其他檢測網(wǎng)絡(luò)準確性高了10%~30%,并且對于其他缺陷的區(qū)分精度也很高。
在測試集上對各種模型進行測試,使用AP、AP50、AP75、APS、APM和APL比較了所有這些模型的性能。由表3的比較結(jié)果表明,本文提出的方法極大地提升了皮革缺陷檢測的性能,尤其對于AP和APS兩個參數(shù),其中AP為83.4,AP50為89.7,AP75為85.6。可以看出,盡管本文提出的方法在AP50上相比DAB-DETR高了1.6%,但在AP上有13.4%的提升,并且小目標、中目標及大目標上與DAB-DETR均有較大提升。提出的方法在小目標的檢測上,比DAB-DETR提升了32.0%,在中目標的檢測上提升了38.1%,大目標提升了19.5%。
與基線網(wǎng)絡(luò)相比,AP從原本的60.8提升到了83.4,AP50從原本的84.4提升到了89.7,AP75從69.2提升到了85.6。對小、中、大目標的檢測效果均有明顯提升。可以看出本文的方法對皮革瑕疵檢測能力提升明顯,尤其在小瑕疵和中瑕疵上提升明顯。
圖7中,折痕類用紅色(#DC143C)檢測框表示,凹陷類用暗紅色(#770B20)檢測框表示,刀傷類用深藍色(00008E)檢測框表示,污點類用淡藍色(0000E6)檢測框表示。由圖7檢測對比可以看出,本文的方法能夠在沒有漏檢和誤檢的情況下,很好區(qū)分折痕類和凹陷類這兩種相似的缺陷類型。在第2行刀傷類的檢測上本文的方法提升明顯,檢測結(jié)果和原始圖像的檢測框基本一致,更精準地檢測出小尺寸的缺陷。在第3行圖像中,提出的方法比baseline+CBAM減少了誤檢框,比DAB-DETR更精確地檢測出紅色檢測框的折痕類;在深藍色檢測框的刀傷類中,提出方法對目標的定位最接近與原始圖像的檢測框。在第e1abaee7b9af960f761e5911ac23d5bd9d736cafba947f0cd2339288bc998e0a4行圖像中,本文的方法對深藍色小目標的漏檢好于其他模型,對暗紅色凹陷類不存在漏檢,缺陷定位效果也好于其他模型。在第5行圖像中,baseline+CBAM最右側(cè)的凹陷類存在漏檢,DAB-DETR凹陷類均未檢出,而本文方法全部檢出同時不存在誤檢漏檢。
為了進一步驗證本文方法的優(yōu)越性,對不同尺寸的缺陷與其他方法進行了對比。圖8展示了檢測算法在小型缺陷數(shù)據(jù)上的結(jié)果,刀傷類用深藍色檢測框表示,凹陷類用暗紅色檢測框表示。相比基線網(wǎng)絡(luò),本文的方法消除了漏檢。相比baseline+CBAM,本文方法檢測出的結(jié)果置信度更高。同時在缺陷定位的準確性上,本文的方法更接近與標注框。
為了深入分析所提出的方法再皮革織物缺陷尺寸識別方面的有效性,本文針對最小缺陷和最大缺陷的情況做出了結(jié)果展示,如圖9所示。經(jīng)過本文測量,第2行最小缺陷的像素大小為5×3共15個像素點,占整幅圖像面積的0.03‰。第1行最大缺陷的大小為637×241像素,共153 517個像素點,占整幅圖像面積的37.4%。由此可以看出,本文提出的方法能夠很好地在不同尺寸上進行皮革織物缺陷的檢測,小至15個像素點,大至153 517乃至更大的缺陷目標。
2.3 結(jié)果分析
經(jīng)過對圖5和表1的分析可以發(fā)現(xiàn),本文提出的ACA方法在處理皮革缺陷區(qū)域時具有更強的聚焦能力,能夠有效凸顯與背景相似的缺陷。具體來看,從圖5的第3行中,ACA的注意力明顯集中在圖像的上半部分,成功地強化了缺陷,特別是不明顯的缺陷。本文認為這主要歸因于ACA中空間注意力使用不同大小的卷積核,當卷積核大小為3時,空間注意力更多地關(guān)注缺陷的細節(jié)特征;而當卷積核大小增至7時,空間注意力則更關(guān)注缺陷細節(jié)與整體圖像的關(guān)系。這兩種不同尺寸的卷積核相互配合,能夠有效增強缺陷之間的差異性,將注意力集中在目標特征上,從而減少對背景信息的干擾響應(yīng)。這一優(yōu)勢也在圖7的第4行中得到了驗證,與其他檢測網(wǎng)絡(luò)相比,本文的檢測結(jié)果更接近于標注數(shù)據(jù),以確保檢測的準確性。
通過分析圖7的第3行,本文可以觀察到將FPN與ACA相結(jié)合后,缺陷定位相對于其他網(wǎng)絡(luò)表現(xiàn)出更高的準確性,與標注數(shù)據(jù)一致,且沒有漏檢或誤檢情況。這表明改進后的AC-FPN在缺陷定位方面取得了顯著效果,借助ACA增強的特征信息,在不同尺度之間進行流動,使網(wǎng)絡(luò)能夠更精細地區(qū)分缺陷與背景,從而確保準確地定位皮革織物缺陷。同樣的結(jié)論也可以從第5行中得出,并且本文通過觀察圖7第4行可以發(fā)現(xiàn),同時出現(xiàn)多個缺陷時,本文的方法依舊能夠精準地將每一個缺陷檢測出來,也能進行不同類型的區(qū)分。這一結(jié)果本文認為歸因于AC-FPN和SABL檢測頭的組合作用,AC-FPN負責將不同尺度的缺陷特征信息進行結(jié)合,實現(xiàn)不同尺度下對缺陷的識別,SABL負責將識別出的缺陷進行精確的定位。
根據(jù)表2的消融實驗結(jié)果,隨著不同改進的逐步疊加,皮革織物缺陷檢測效果逐漸提升,最終在三種改進結(jié)合的情況下達到最佳效果。通過表3和圖7的觀察,可以發(fā)現(xiàn)本文所提出的方法能夠動態(tài)學習和調(diào)整不同通道之間的特征重要性,使網(wǎng)絡(luò)更加專注于關(guān)鍵特征,減少對冗余信息的關(guān)注,從而獲得比其他缺陷檢測網(wǎng)絡(luò)更優(yōu)異的檢測效果。該方法能夠有效適應(yīng)不同尺度和位置的目標,以提高檢測的魯棒性和準確性。
盡管本文的方法具有上述優(yōu)勢,但仍存在一些局限性:首先,本文的方法需要大量圖像才能實現(xiàn)良好的檢測性能,而且這些圖像中可能存在多種形式的皮革缺陷;其次,與背景相似的皮革缺陷對于本文的方法仍然會導致誤檢,這與其他方法面臨的問題類似;此外,目前本文所使用的數(shù)據(jù)集主要包含灰度圖像,這可能會降低對于部分彩色皮革缺陷的有效信息提取能力。未來的研究方向可以考慮采用彩色相機獲取皮革缺陷圖像,并針對誤檢問題展開更深入的探討。
3 結(jié) 論
本文提出了一項新的方法用于檢測生產(chǎn)線上的皮革織物瑕疵,以解決不同織物缺陷類間相似特征的問題,并且構(gòu)建了工業(yè)皮革數(shù)據(jù)集。所提出的方法采用了一種創(chuàng)新的多層次殘差卷積注意力(ACA),能夠很好地區(qū)分和捕捉缺陷類內(nèi)差異并強化缺陷類間較小的差異。該模塊通過殘差結(jié)構(gòu)將通道注意力進行加強,增強語義的特征表示能力,選用兩個不同大小的濾波核進行空間注意力操作,以增強網(wǎng)絡(luò)抽取特征的語義信息和空間信息。并且將ACA與特征金字塔相結(jié)合,提出了一種新的基于通道和空間的注意力特征金字塔,有選擇地捕獲來自不同域的上下文信息,并產(chǎn)生更多的鑒別性特征,充分利用了多尺度和跨通道的特征信息,增加語義信息。再結(jié)合SABL檢測頭使得皮革缺陷定位更加準確。因此,本文的方法能夠有選擇地保留關(guān)鍵特征,以實現(xiàn)魯棒的檢測和定位,很好地區(qū)分和捕捉缺陷類內(nèi)差異并強化缺陷類間較小的差異,同時抑制不必要的信息。與目前領(lǐng)先的檢測網(wǎng)絡(luò)相比,本文的方法表現(xiàn)出了競爭力強的性能,從而為皮革織物表面自動化缺陷檢測提供了新的思路及可行性。
《絲綢》官網(wǎng)下載
中國知網(wǎng)下載
參考文獻:
[1]韓小龍, 呂曉峰. 計算機圖像處理皮革瑕疵自動檢測分級技術(shù)研究[J]. 中國皮革, 2023, 52(1): 25-28.
HAN X L, L X F. Automatic detection and classification of leather defects by computer image processing[J]. China Leather, 2023, 52(1): 25-28.
[2]ANSHORI M F, PURWOKO B S, DEWI I S, et al. Cluster heatmap for detection of good tolerance trait on doubled-haploid rice lines under hydroponic salinity screening[J]. IOP Conference Series: Earth and Environmental Science, 2020, 484(1): 012001.
[3]崔揚. 圖像檢測技術(shù)在皮革缺陷檢測中的應(yīng)用研究[D]. 杭州: 浙江大學, 2004.
CUI Y. Study on Image Detection Technique and Its Application on Detecting Defects of Leather[D]. Hangzhou: Zhejiang University, 2004.
[4]ASLAM M, KHAN T M, NAQVI S S, et al. Putting current state of the art object detectors to the test: Towards industry applicable leather surface defect detection[C]//2021 Digital Image Computing: Techniques and Applications (DICTA). New York: IEEE, 2021.
[5]ASLAM M, KHAN T M, NAQVI S S, et al. Learning to recognize irregular features on leather surfaces[J]. Journal of the American Leather Chemists, 2021, 116(5): 169-178.
[6]ASLAM M, KHAN T M, NAQVI S S, et al. Ensemble convolutional neural networks with knowledge transfer for leather defect classification in industrial settings[J]. IEEE Access, 2020(8): 198600-198614.
[7]KHANAL S R, SILVA J, MAGALHAES L, et al. Leather defect detection using semantic segmentation: A hardware platform and software prototype[J]. Procedia Computer Science, 2022(204): 573-580.
[8]GAN Y S, LIONG S T, ZHENG D, et al. Detection and localization of defects on natural leather surfaces[J]. Journal of Ambient Intelligence and Humanized Computing, 2021(14): 1785-1799.
[9]ZHANG Z L, FU Y, HUANG H L, et al. Lightweight network study of leather defect segmentation with Kronecker product multipath decoding[J]. Mathematical Biosciences and Engineering, 2022, 19(12): 13782-13798.
[10]ITTI L, KOCH C, NIEBUR E. A model of saliency-based visual attention for rapid scene analysis[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 1998, 20(11): 1254-1259.
[11]WANG F, JIANG M, QIAN C, et al. Residual attention network for image classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Hawaii: IEEE, 2017: 3156-3164.
[12]HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 7132-7141.
[13]ZHANG X N, WANG T T, QI J Q, et al. Progressive attention guided recurrent network for salient object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Salt Lake City: IEEE, 2018: 714-722.
[14]LI T P, SONG H H, ZHANG K H, et al. Recurrent reverse attention guided residual learning for saliency object detection[J]. Neurocomputing, 2020(389): 170-178.
[15]WOO S, PARK J, LEE J Y, et al. Cbam: Convolutional block attention module[C]//Proceedings of the European Conference on Computer Vision (ECCV). Berlin: Springer Science, 2018: 3-19.
[16]LIN T Y, DOLLAR P, GIRSHICK R, et al. Feature pyramid networks for object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Hawaii: IEEE, 2017: 2117-2125.
[17]WANG J, ZHANG W, CAO Y, et al. Side-aware boundary localization for more precise object detection[C]//Computer Vision-ECCV 2020: 16th European Conference (ECCV). Glasgow: Springer International Publishing, 2020: 403-419.
[18]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE, 2016: 770-778.
[19]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[20]LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft coco: Common objects in context[C]// Computer Vision-ECCV 2014: 13th European Conference (ECCV). Berlin: Springer International Publishing, 2014: 740-755.
[21]SELVARAJU R R, COGSWELL M, DAS A, et al. Grad-cam: Visual explanations from deep networks via gradient-based localization[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). New York: IEEE, 2017: 618-626.
[22]CAI Z W, VASCONCELOS N. Cascade R-CNN: Delving into high quality object detection[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 6154-6162.
A multi-scale adaptive attention detection model for leather fabric defect detection
ZHANG Chi, WANG Xiangrong
LI Hao1, LIU Yifan1, XU Huawei2, YANG Ke1, KANG Zhen1, HUANG Mengzhen1, OU Xiao1, ZHAO Yuchen1, XING Tongzhen1
(1.School of Mathematics & Computer Science, Wuhan Polytechnic University, Wuhan 430048, China;2.Hexin Kuraray Micro Fiber Leather (Jiaxing) Co., Ltd., Jiaxing 314003, China; 3.Institute ofFlexible Electronics Technology of THU, Jiaxing 314006, China)
Abstract:
Leather products are widely used across various fields, permeating every aspect of daily life. However, during the production of synthetic leather fabrics, defects are inevitable, directly affecting the quality and price of leather products. Early identification of these defects in the production process can prevent further production losses. Nevertheless, the high local similarity of defects on leather fabric surfaces causes significant similarities between different types of defects, leading to poor detection results. To address this issue, the article proposed an end-to-end defect detection method for leather fabric surfaces, achieving finer granularity in distinguishing leather defects.
To address the high similarity between defect classes, this paper introduced an adaptive convolutional attention (ACA) module. This module comprises channel attention and spatial attention, integrating the channel and spatial attention information through a residual structure to generate more discriminative features. Two different-sized convolutional kernels in the spatial attention work in concert to effectively enhance the differences between defects, focusing attention on target features and thus reducing the interference response to background information. To amplify the differences between leather fabric defect classes, ACA was incorporated into the backbone network to enhance the semantic feature representation capabilities. This integration not only improves the network’s ability to differentiate between defect types but also ensures more accurate detection outcomes. Then, the article designed a feature pyramid network based on adaptive convolutional attention (AC-FPN) to improve multi-scale fusion. By leveraging the feature information enhanced by ACA, the network enables the flow of information between different scales, allowing for finer differentiation between defects and background. Such enhancement significantly improves the detection capability of defects at different scales, achieving finer granularity in leather defect differentiation. The multi-scale fusion process ensures that defects of various sizes and shapes are accurately detected, regardless of their scale, contributing to a more robust detection system. Finally, the traditional detection head was replaced with the side-aware boundary localization (SABL) detection head, enabling precise localization of leather fabric defects. The SABL detection head is specifically designed to enhance the accuracy of defect localization by focusing on the boundaries of defects, ensuring that even the smallest and most subtle defects are accurately identified and localized. This replacement is crucial for improving the overall precision of the defect detection system, making it more reliable for practical applications in leather fabric production.
The article validated the proposed method using a self-constructed leather fabric dataset and compared it with different methods. Experimental results demonstrate that the proposed method achieves better performance in distinguishing between different defect types with similar appearances. Compared to other methods, this method exhibits superior detection accuracy across various defect types, with AP, AP50, and AP75 evaluation metrics reaching 83.4, 89.7, and 85.6, respectively. This provides a new perspective for automated surface defect detection of leather fabrics. The improved accuracy metrics indicate that the proposed method is highly effective in identifying and classifying defects, with significant improvement over existing methods.
The proposed defect detection method for leather fabrics demonstrates better performance compared to other methods, offering new feasibility for defect detection. Despite the advantages mentioned above, the use of a dataset primarily comprising grayscale images may reduce the ability to extract effective information for some colored leather defects. In future research, color cameras can be used to capture images of leather defects and incorporate color information to distinguish some leather fabric surface defects. Additionally, exploring advanced image processing techniques and integrating them with the current approach could further enhance the defect detection capabilities, so as to make the system more versatile and applicable to a wider range of leather products.
Key words:
attention mechanism; multi-scale information; defect detection; convolutional neural network; defect classification; leather fabric