摘 要:針對(duì)鋼材表面不同類型缺陷的形狀、深度差異以及尺寸偏小導(dǎo)致的缺陷檢測(cè)性能不足,造成檢測(cè)準(zhǔn)確率偏低的問題,提出一種基于YOLOv5的多模態(tài)與自適應(yīng)特征融合的鋼材表面缺陷檢測(cè)算法;采用多信息關(guān)聯(lián)金字塔池化單元,結(jié)合空洞卷積與特征注意力機(jī)制,增大目標(biāo)感受野進(jìn)行特征多模態(tài)融合,提高特征融合能力;針對(duì)小目標(biāo),采用多尺度特征融合雙塔模塊獲取更多深層信息,自適應(yīng)累積注意力權(quán)重影響因子,在保留更多深層特征信息的前提下,提高深層特征對(duì)淺層特征的影響力,從而提高小目標(biāo)檢測(cè)精度;引入輕量化卷積C3單元,提出混合深度可分離機(jī)制,以解決原始模型以及改進(jìn)單元帶來(lái)的計(jì)算負(fù)擔(dān),提高模型的檢測(cè)效率。實(shí)驗(yàn)結(jié)果表明,改進(jìn)的檢測(cè)模型比原始YOLOv5模型的檢測(cè)性能高5個(gè)百分點(diǎn),檢測(cè)速度FPS值高28.6幀/s;在公開數(shù)據(jù)集NEU-DET上,改進(jìn)算法的性能相較前沿算法提高0.9個(gè)百分點(diǎn),檢測(cè)速度比前沿算法快1.2倍;在GC10-DET數(shù)據(jù)集上,改進(jìn)算法的性能相較前沿算法提高0.5個(gè)百分點(diǎn),檢測(cè)效率提高1.09倍。改進(jìn)后的算法在保證檢測(cè)速度的同時(shí)能夠提高檢測(cè)準(zhǔn)確度。
關(guān)鍵詞:鋼材缺陷檢測(cè);輕量化;多尺度特征融合;累積注意力;YOLOv5;數(shù)據(jù)集
中圖分類號(hào):TP39;TN391.41 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2095-1302(2025)07-00-07
0 引 言
鋼材是廣泛應(yīng)用于建筑、制造和高新技術(shù)產(chǎn)業(yè)的常用工程金屬材料。然而,鋼材表面缺陷一直是制造業(yè)的重要問題,它會(huì)影響產(chǎn)品質(zhì)量和安全性,造成經(jīng)濟(jì)損失。傳統(tǒng)的人工檢測(cè)存在主觀性和效率低下的問題。為解決這些問題,將深度學(xué)習(xí)算法[1-3]廣泛應(yīng)用于鋼材表面缺陷的自動(dòng)檢測(cè)和分類,發(fā)現(xiàn)該方式具有高準(zhǔn)確性和魯棒性[4-6]。
許多研究者在鋼材表面缺陷檢測(cè)領(lǐng)域進(jìn)行了深入研究。他們提出了改進(jìn)的算法和網(wǎng)絡(luò)結(jié)構(gòu),如改進(jìn)網(wǎng)絡(luò)特征提取模塊[7-8]、注意力機(jī)制[9]、多級(jí)特征融合網(wǎng)絡(luò)[10]等,以提高檢測(cè)準(zhǔn)確性和細(xì)節(jié)信息的提取能力。然而,現(xiàn)有方法在準(zhǔn)確率、輕量化和檢測(cè)速度方面仍存在一些不足。
本文提出了一種基于多模態(tài)與自適應(yīng)特征融合的鋼材表面缺陷檢測(cè)算法模型。該模型以YOLOv5為基礎(chǔ),在保證準(zhǔn)確率的同時(shí),針對(duì)小目標(biāo)缺陷檢測(cè)、速度和模型輕量化等問題進(jìn)行了改進(jìn),提出了多信息關(guān)聯(lián)金字塔池化和多尺度特征融合雙塔模塊,以獲取更多深層信息并提高小目標(biāo)檢測(cè)精度。同時(shí),引入了輕量化卷積C3單元,以減輕計(jì)算負(fù)擔(dān),滿足實(shí)際工業(yè)場(chǎng)景中對(duì)鋼材表面缺陷檢測(cè)的速度和精度要求。
1 YOLOv5算法概述
YOLOv5是一種One-Stage目標(biāo)檢測(cè)算法,由輸入端、Backbone、Neck和Head組成[11]。它通過Mosaic數(shù)據(jù)增強(qiáng)、自適應(yīng)錨框計(jì)算和自適應(yīng)圖片縮放等技術(shù)來(lái)提高模型在復(fù)雜場(chǎng)景中的準(zhǔn)確性和魯棒性。Backbone使用CBL、CSP和SPPF模塊來(lái)提取圖像特征,其中SPPF模塊通過多尺度最大池化來(lái)處理不同尺度下的特征信息,SPPF模塊示意圖如圖1所示。Neck利用PANet和FPNet進(jìn)行自底向上和自頂向下的特征融合,生成多尺度的特征圖。Head包括GIOU損失和NMS非極大值抑制,用于目標(biāo)檢測(cè)。
然而,SPPF模塊存在細(xì)節(jié)丟失和特征信息編碼不均勻的問題,PANet引入了額外的特征融合操作,增加了計(jì)算復(fù)雜度。此外,多尺度特征融合增加了計(jì)算負(fù)擔(dān),尤其對(duì)于高分辨率圖像的處理[12-13]。因此,在保證準(zhǔn)確性的同時(shí),需要解決這些問題。
綜上所述,YOLOv5是一種優(yōu)秀的目標(biāo)檢測(cè)算法,但在細(xì)節(jié)保留、計(jì)算復(fù)雜度和高分辨率圖像處理方面仍有改進(jìn)空間。
2 改進(jìn)的YOLOv5算法
鋼材表面缺陷檢測(cè)任務(wù)存在兩個(gè)問題:尺寸差異大和小目標(biāo)檢測(cè)性能不足。尺寸差異大增加了檢測(cè)難度,且YOLOv5對(duì)小目標(biāo)的檢測(cè)受限于特征遺失和信息不足。為解決這些問題,本文對(duì)SPPF和FPNet進(jìn)行了改進(jìn),提出了多信息關(guān)聯(lián)金字塔池化和多尺度特征融合雙塔模塊,同時(shí)引入了輕量化卷積C3單元來(lái)降低計(jì)算量,提升運(yùn)算速度。
2.1 多信息關(guān)聯(lián)金字塔池化
SPPF是YOLOv5算法中的一種空間金字塔池化操作,用于處理不同尺度的輸入特征圖。SPPF池化操作會(huì)增加計(jì)算量,特別是當(dāng)金字塔層級(jí)較多且輸入特征圖較大時(shí),可能會(huì)導(dǎo)致網(wǎng)絡(luò)的訓(xùn)練和推理速度變慢。此外,SPPF池化操作將特征圖分割為不同的區(qū)域進(jìn)行池化,這可能導(dǎo)致一定程度上的空間信息丟失。針對(duì)上述兩個(gè)缺陷進(jìn)行修改,加入上下文感知機(jī)制、注意力機(jī)制,通過跳躍連接將原始的低層特征與SPPF池化后的特征融合。這樣可以充分利用原始特征的空間信息,并提供更細(xì)粒度的特征表示。傳統(tǒng)的SPPF操作通常會(huì)在每個(gè)分割區(qū)域上應(yīng)用全連接層,這可能會(huì)導(dǎo)致空間信息的丟失。為此,可以考慮使用卷積操作代替全連接層,以保留更多的空間信息。具體結(jié)構(gòu)如圖2所示。
將上層輸入特征F經(jīng)過1×1的卷積處理獲取F1,為了實(shí)現(xiàn)多維度特征的池化處理,同時(shí)獲取并保留更多維度的特征信息,采用注意力自適應(yīng)權(quán)重CA選取淺層特征FA,注意力機(jī)制如圖3所示。
注意力機(jī)制作用于經(jīng)過3×3卷積層處理的特征F2,自適應(yīng)權(quán)重決定特征學(xué)習(xí)的比重。將F2與自適應(yīng)權(quán)重引導(dǎo)的特征進(jìn)行特征融合并經(jīng)過1×1卷積獲取F2′,采用多層最大池化處理獲取多尺度目標(biāo)特征信息F2′′′′。為了適應(yīng)更大的感受野,采用空洞卷積,感受野大小r為3,此時(shí)進(jìn)行增大感受野處理,獲取特征F3。由于原始輸入特征具有完整的特征信息,為了保證多尺度的特征信息,選取原始淺層特征信息,經(jīng)過1×1卷積處理獲取F4,將特征F3以及多層池化特征F2′、F2′′、F2′′′、F2′′′′與F4進(jìn)行信息融合,獲取FC。為了降低特征冗余且保證獲取的結(jié)果與輸入信息保持一致性,利用注意力自適應(yīng)權(quán)重配合1×1卷積最終獲取特征信息FC′。
2.2 多尺度特征融合雙塔模塊
在YOLOv5結(jié)構(gòu)中,Neck網(wǎng)絡(luò)負(fù)責(zé)對(duì)提取的特征進(jìn)行融合處理。合理整合特征信息,可直接影響檢測(cè)模塊中識(shí)別單元的性能優(yōu)劣,從而對(duì)整個(gè)檢測(cè)網(wǎng)絡(luò)的性能產(chǎn)生重要影響。特征融合如BiFPN結(jié)構(gòu)[14],采用雙向路徑,并采用了一種動(dòng)態(tài)特征融合策略,以利用上下文信息,解決不同尺寸目標(biāo)檢測(cè)問題,但特征融合策略可能會(huì)導(dǎo)致一些小目標(biāo)的特征信息被稀疏化或丟失。由于小目標(biāo)的特征圖通常較小,可能無(wú)法傳播到較高層級(jí)的特征圖中,從而影響了小目標(biāo)的檢測(cè)性能。對(duì)于鋼材表面缺陷存在大量的小尺寸目標(biāo),BiFPN結(jié)構(gòu)仍然存在不足。針對(duì)小目標(biāo)的檢測(cè),改進(jìn)特征融合機(jī)制,如圖4所示。
圖4中C3、C4、C5、C6和C7代表在不同的卷積層獲取的特征,從C3到C7的過程代表下采樣,旨在獲取深層特征。其中C7通過1×1卷積改變通道數(shù),獲取U7;對(duì)U7進(jìn)行3×3卷積并與C7特征圖相加,再經(jīng)過1×1卷積獲取P7特征,保證P7包含更多的特征信息。小目標(biāo)往往在圖像中具有較低的信噪比和較小的尺寸,并且它們可能會(huì)受到圖像分辨率限制、背景干擾和遮擋等問題的影響。淺層特征可能無(wú)法很好地捕捉到這些細(xì)微的特征差異,對(duì)于小目標(biāo)的上下文信息理解能力較弱。基于此,在網(wǎng)絡(luò)結(jié)構(gòu)中設(shè)計(jì)利用深層特征信息對(duì)淺層特征進(jìn)行干預(yù),以保證上下文語(yǔ)義信息的結(jié)合。具體實(shí)現(xiàn)為:對(duì)C7采用1×1卷積進(jìn)行處理,并添加注意力機(jī)制,以計(jì)算每個(gè)特征的權(quán)重比例。設(shè)定權(quán)重比例閾值為S,僅保留權(quán)重比例大于S的特征;接著對(duì)深層特征C7′、C6進(jìn)行1×1卷積處理,對(duì)獲取的C6′和U7進(jìn)行兩次上采樣融合,以此來(lái)加強(qiáng)特征信息。其中利用1×1卷積進(jìn)行寬高尺度變換的公式為:
式中:FC表示進(jìn)行轉(zhuǎn)置卷積;H、W代表圖像的長(zhǎng)與寬;L代表通道數(shù);K代表卷積核大小,此處為1,即進(jìn)行1×1的卷積。
式中:Foutput表示每個(gè)特征點(diǎn)的權(quán)重比例,與設(shè)定的權(quán)重閾值S作比較,若大于閾值則保留對(duì)應(yīng)特征;F表示融合后的特征U6。
為了使深層特征權(quán)重更全面地影響淺層特征,提出一種自適應(yīng)融合注意力機(jī)制,對(duì)于跨區(qū)域連接獲取的U6、U5、U4、P3采用依次累加多層注意力權(quán)重的方式獲取特征比重。具體實(shí)現(xiàn)為:針對(duì)U6,對(duì)由C7獲取的C′7進(jìn)行注意力計(jì)算,以此獲取特征比重得分;針對(duì)U5,為了增強(qiáng)深層特征的選擇性,需要對(duì)C′7和C′6先進(jìn)行反卷積,再進(jìn)行1×1卷積后,與C′5實(shí)現(xiàn)特征融合,以此獲取特征比重得分;針對(duì)U4,則是先對(duì)C′7、C′6、C′5、C′4進(jìn)行特征融合,再進(jìn)行特征比重得分計(jì)算。針對(duì)P3,則是對(duì)C′7、C′6、C′5、C′4以及U4′進(jìn)行特征融合,再計(jì)算特征比重得分。對(duì)于最終的得分計(jì)算,先對(duì)特征融合結(jié)果進(jìn)行最大池化與平均池化計(jì)算,為了使模型輕量化,對(duì)計(jì)算結(jié)果進(jìn)行兩次1×1卷積計(jì)算,代替?zhèn)鹘y(tǒng)通道注意力的MLP全連接計(jì)算,將最大池化與平均池化相加并通過Sigmoid函數(shù)計(jì)算權(quán)重得分。自適應(yīng)融合注意力機(jī)制流程如圖5所示。其中C′N代表CN層經(jīng)過1×1卷積獲取的特征,N=5, 6, 7。
模仿BiFPN結(jié)構(gòu),采用雙向路徑,對(duì)于起始淺層特征C3,先采用1×1卷積獲取C′3,對(duì)C′7、C′6、C′5、C′4采用自適應(yīng)注意力機(jī)制并作用于U4,經(jīng)過轉(zhuǎn)置卷積與1×1卷積獲取U′4,并將其與C′3進(jìn)行特征融合,獲取P3。
2.3 輕量化卷積C3單元
C3結(jié)構(gòu)是YOLO模型的主要組成部分,負(fù)責(zé)特征信息的提取與傳遞。但C3結(jié)構(gòu)中的級(jí)聯(lián)子網(wǎng)絡(luò)會(huì)增加模型的計(jì)算復(fù)雜度。每個(gè)子網(wǎng)絡(luò)都需要進(jìn)行前向傳播和反向傳播,導(dǎo)致整體模型的訓(xùn)練和推理時(shí)間增加;同時(shí)由于在多信息關(guān)聯(lián)金字塔池化結(jié)構(gòu)中引入多線特征融合以及在Neck多尺度特征融合模塊引入累計(jì)注意力權(quán)重機(jī)制,增加了計(jì)算復(fù)雜度。在保證檢測(cè)精度的前提下,對(duì)C3模塊進(jìn)行改進(jìn),引入混合深度可分離機(jī)制GMS。其主要骨干單元如圖6所示.
骨干單元一(stride=1)的結(jié)構(gòu)類似于ResNet,集成了多個(gè)卷積層和shortcut。骨干單元二(stride=2)通過深度可分離卷積減少通道數(shù),并使用shortcut連接輸入和輸出。其中GMS的主要網(wǎng)絡(luò)結(jié)構(gòu)圖(以stride=2為例)如圖7所示。
對(duì)于輸入的特征進(jìn)行卷積,經(jīng)過BN與ReLU獲取新的特征分量F1,將特征通道平分為F11與F12,再將F11接入混合深度可分離機(jī)制(如圖7中虛線框內(nèi)部分)進(jìn)行通道分離形成殘差分支;先利用1×1卷積降維,再利用卷積核為3、步長(zhǎng)為2的深度可分離卷積進(jìn)行特征學(xué)習(xí),最后進(jìn)行1×1卷積升維。由于步長(zhǎng)為2,為實(shí)現(xiàn)融合,對(duì)特征圖進(jìn)行下采樣,對(duì)殘差連接分支采用stride=2的3×3全局平均池化,將主干輸出特征和分支特征進(jìn)行Concat;采用通道混洗,實(shí)現(xiàn)各通道之間的信息交互,獲取結(jié)果F ′11,將F ′11與F12進(jìn)行Concat實(shí)現(xiàn)特征傳遞。
3 仿真實(shí)驗(yàn)
3.1 數(shù)據(jù)集
3.1.1 NEU-DET數(shù)據(jù)集
NEU-DET數(shù)據(jù)集源自于東北大學(xué),該數(shù)據(jù)集收集了熱軋帶鋼的常見缺陷。NEU-DET數(shù)據(jù)集包含6個(gè)類別的缺陷,分別是:劃痕(Scratches, Sc)、開裂(Crazing, Cr)、氧化皮(Rolled-in-Scale, RS)、夾雜物(Inclusion, In)、點(diǎn)蝕(Pitted-Surface, PS)以及斑塊(Patches, Pa)。每種缺陷類型中包含300張圖像,每張圖像的原始分辨率為200×200,圖像采用高速線陣灰度相機(jī)獲得。實(shí)驗(yàn)選取訓(xùn)練集、驗(yàn)證集以及測(cè)試集的比例為7∶1∶2,部分帶標(biāo)簽的圖像如圖8所示。
3.1.2 GC10-DET數(shù)據(jù)集
GC10-DET是在真實(shí)工業(yè)場(chǎng)景中收集的鋼材表面缺陷數(shù)據(jù)集。GC10-DET數(shù)據(jù)集包含10個(gè)類別的鋼材表面缺陷,分別是:腰部折痕(Wf)、沖孔(Pu)、折痕(Cr)、焊縫(Wl)、軋坑(Rp)、新月形縫隙(Cg)、夾雜物(In)、水斑(WS)、絲斑(Ss)、油斑(Os)。該數(shù)據(jù)集包含3 570張灰度圖像,圖像尺寸為2 048×1 000。實(shí)驗(yàn)選取訓(xùn)練集、驗(yàn)證集以及測(cè)試集的比例為7∶1∶2。部分帶標(biāo)簽的圖像如圖9所示。
3.2 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)選擇的相關(guān)軟件、平臺(tái)以及工具見表1。
性能驗(yàn)證實(shí)驗(yàn)分別在原始YOLOv5以及添加各個(gè)創(chuàng)新單元的YOLOv5結(jié)構(gòu)上進(jìn)行。在訓(xùn)練過程中,訓(xùn)練批次設(shè)置為100,批量大小設(shè)為16,初始學(xué)習(xí)率為0.001,衰減系數(shù)為0.000 5,動(dòng)量設(shè)為0.937,圖片大小設(shè)為640×640。
3.3 度量標(biāo)準(zhǔn)
本文采用的主要評(píng)價(jià)指標(biāo)為平均精度均值(mAP)、檢測(cè)速度(FPS)。
準(zhǔn)確率P是指在目標(biāo)檢測(cè)中模型預(yù)測(cè)的準(zhǔn)確率,如式(9)所示:
式中:TP代表正樣本預(yù)測(cè)為正;FP代表負(fù)樣本預(yù)測(cè)為正。
平均精度AP是以召回率R為積分變量,準(zhǔn)確率P為積分函數(shù),在0到1的區(qū)間內(nèi)進(jìn)行積分,如式(10)所示:
平均精度均值mAP是對(duì)AP求取平均值,以此衡量檢測(cè)精度,如式(11)所示:
檢測(cè)速度(FPS)是指模型推理的速度,如式(12)所示:
3.4 對(duì)比實(shí)驗(yàn)分析
為驗(yàn)證改進(jìn)方法的有效性,對(duì)本文提出的多信息關(guān)聯(lián)金字塔池化MAPP、多尺度特征融合雙塔模塊MFTM以及輕量化LCC3進(jìn)行消融實(shí)驗(yàn)對(duì)比。以NEU-DET數(shù)據(jù)集為數(shù)據(jù)載體,實(shí)驗(yàn)結(jié)果見表2。
實(shí)驗(yàn)證明,本文所提方法的鋼材缺陷檢測(cè)精度為81.8%,相對(duì)原始的YOLOv5s模型提高了5個(gè)百分點(diǎn)。這得益于添加的SPPF優(yōu)化模塊MAPP單元以及多尺度特征融合雙塔模塊MFTM。這些模塊通過融合多尺度信息、提取上下文信息并保留權(quán)重信息,有效彌補(bǔ)了原始模型中可能丟失的特征信息,從而顯著提高了模型的檢測(cè)精度。在檢測(cè)速度方面,在僅保留MAPP單元與MFTM單元的情況下,檢測(cè)速度為92.7幀/s,小于原來(lái)的111.2幀/s,這是由于MAPP單元與MFTM單元為了獲取更多的深層信息,相對(duì)原始YOLOv5s模型引入了更多的計(jì)算單元。在加入LCC3模塊后,檢測(cè)速度為139.8幀/s,相對(duì)原始模型檢測(cè)速度提高28.6幀/s,證明采用混合深度可分離機(jī)制可以在保證精度下降較小的前提下提高檢測(cè)速度。
總之,在不考慮速度的前提下,即不加入混合深度可分離機(jī)制,缺陷檢測(cè)精度取得最高值83.1%,高于加入混合深度可分離機(jī)制的81.8%,兩者相對(duì)原始的YOLOv5s模型分別提高了6.3個(gè)百分點(diǎn)和5個(gè)百分點(diǎn),證明了方法的可靠性。
為了將改進(jìn)后的算法與鋼鐵缺陷檢測(cè)領(lǐng)域內(nèi)的最新算法進(jìn)行性能優(yōu)劣對(duì)比,選擇在NEU-DET和GC10-DET數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn)。基于NEU-DET數(shù)據(jù)集,選擇與SSD300、RDD-YOLO、YOLOv5s、YOLOv5+CA-ASPP、YOLOx(s)、DDN+ResNet34、DDN+ResNet50、DANet進(jìn)行對(duì)比[15-17],各類缺陷的檢測(cè)平均精度AP以及整體的mAP結(jié)果見表3。
由表3可知,YOLOv5+CA-ASPP模型的mAP比YOLOv5s高1.33個(gè)百分點(diǎn),為防止位置敏感特征丟失,該模型采用先平均池化,再在空間維度通過水平與垂直平分獲取更多的特征信息,相比原始YOLOv5s有所改進(jìn),但未考慮深層特征與淺層特征的相關(guān)性。DDN+ResNet50是基于NEU-DET數(shù)據(jù)集的基準(zhǔn)模型,mAP為82.3%,分別比YOLOx(s)、YOLOv5+CA-ASPP、DANet、RDD-YOLO高5.49、4.17、4.03、1.2個(gè)百分點(diǎn)。本文所提方法在不加LCC3的情況下,mAP為83.2%,比DDN+ResNet50模型高0.9個(gè)百分點(diǎn)。在單個(gè)類別上,本文改進(jìn)的YOLOv5(無(wú)LCC3)分別在Sc、Cr、In這三個(gè)類別上取得了最高的單類AP值,在其他三類上相對(duì)最高值存在較小的差距。證明本文通過添加MAPP單元避免了分割多個(gè)尺度空間造成的特征丟失,通過添加MFTM單元獲取感興趣特征的方式顯著提高了缺陷識(shí)別準(zhǔn)確率。
為驗(yàn)證方法的效率,針對(duì)每類方法的檢測(cè)速度進(jìn)行了對(duì)比,結(jié)果見表4。
由表4可知,在同時(shí)添加MAPP模塊、MFTM模塊的條件下,本文方法的檢測(cè)速度是DDN+ResNet50網(wǎng)絡(luò)的8.4倍,證明DDN+ResNet50擁有更復(fù)雜的計(jì)算過程,導(dǎo)致效率相對(duì)較低。但本文所提方法在不加LCC3的情況下,檢測(cè)速度比原始的YOLOv5s慢18.5幀/s,比YOLOx(s)模型慢20.2幀/s,在檢測(cè)性能比YOLOv5s、YOLOx(s)分別高出6.4和6.39個(gè)百分點(diǎn)的前提下,整體性能在可接受的范圍。同時(shí)為驗(yàn)證改進(jìn)模型的最快速度,加入LCC3模塊,取得139.8幀/s的速度,是YOLOx(s)模型的1.2倍,同時(shí)mAP值高于原始的YOLOv5s和YOLOx(s)模型。
為充分驗(yàn)證算法的有效性,在GC10-DET數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與基于該數(shù)據(jù)的基準(zhǔn)模型EDDN、Kou、VFNet、FANet、YOLOv5-GAMAttention [18-22]進(jìn)行比較。各類缺陷的AP值以及整體mAP值見表5。
由表5可知,在單個(gè)類別的檢測(cè)AP值方面,本文添加了MAPP模塊、MFTM模塊的網(wǎng)絡(luò)結(jié)構(gòu),在10類缺陷中有6類取得了最優(yōu)值,分別為Wl、Cg、WS、In、Rp以及Wf,優(yōu)于其他對(duì)比算法,而對(duì)于其他4類缺陷的檢測(cè)精度還有待提高。本文添加了MAPP模塊、MFTM模塊的網(wǎng)絡(luò)結(jié)構(gòu)的mAP值為83.3%,比YOLOv5-GAMAttention模型高0.5個(gè)百分點(diǎn),證明本文方法的整體檢測(cè)性能優(yōu)于現(xiàn)有的檢測(cè)方法。
各方法的檢測(cè)效率對(duì)比結(jié)果見表6。
從表6中可以看出,本文方法在未加LCC3模塊的情況下,其檢測(cè)性能分別比EDDN、Kou、VFNet、FANet、YOLOv5-GAMAttention高18.1、12、6.3、2.8、0.5個(gè)百分點(diǎn)。在檢測(cè)速度方面,本文改進(jìn)的YOLOv5(無(wú)LCC3)相較于EDDN、VFNet、FANet、YOLOv5-GAMAttention提高2.84倍、2.26倍、2.32倍、1.09倍。證明本文所提方法在保證檢測(cè)精度的同時(shí)可以更快地完成缺陷檢測(cè)。在添加混合深度可分離機(jī)制后,檢測(cè)速度相對(duì)未加LCC3模塊的方法提高了1.25倍,但檢測(cè)精度降低了1.2個(gè)百分點(diǎn)。
為了驗(yàn)證改進(jìn)模型的實(shí)際檢測(cè)能力,本文分別對(duì)改進(jìn)前后的模型進(jìn)行訓(xùn)練,缺陷檢測(cè)效果如圖10所示,對(duì)于開裂、點(diǎn)蝕類缺陷的檢測(cè),原始的YOLOv5檢測(cè)存在誤識(shí)別的情況,并且對(duì)于開裂、點(diǎn)蝕類型缺陷位置的識(shí)別也存在一定誤差;而改進(jìn)后的YOLOv5可以準(zhǔn)確識(shí)別出開裂、點(diǎn)蝕類缺陷的位置。對(duì)于夾雜物、氧化皮、劃痕、斑塊類缺陷的檢測(cè),改進(jìn)后的YOLOv5相對(duì)改進(jìn)前可以更準(zhǔn)確地檢測(cè)出夾雜物的位置,尤其對(duì)于小目標(biāo)劃分得更細(xì)致,如針對(duì)斑塊類缺陷可以識(shí)別到更多小缺陷以及準(zhǔn)確的數(shù)量。表明本文方法有效提升了模型對(duì)于各尺寸鋼材缺陷的檢出能力,增強(qiáng)了模型魯棒性。
4 結(jié) 語(yǔ)
針對(duì)鋼材表面缺陷形狀差異、小尺寸以及環(huán)境因素導(dǎo)致缺陷難以準(zhǔn)確檢測(cè)的問題,本文提出了一種改進(jìn)YOLOv5模型結(jié)構(gòu)的缺陷檢測(cè)算法。通過采用多信息關(guān)聯(lián)金字塔池化MAPP,實(shí)現(xiàn)注意力機(jī)制以及空洞卷積的結(jié)合,同時(shí)充分利用了淺特征信息;為避免FPN結(jié)構(gòu)輸出檢測(cè)結(jié)果時(shí)存在特征損失,加入了多尺度特征融合雙塔模塊MFTM,利用自適應(yīng)注意力累計(jì)特征權(quán)重,關(guān)聯(lián)上下文特征信息;針對(duì)改進(jìn)機(jī)構(gòu)增加的計(jì)算負(fù)擔(dān)以及原始C3卷積單元的計(jì)算量大的問題,采用LCC3模塊代替C3結(jié)構(gòu),實(shí)現(xiàn)整體結(jié)構(gòu)的輕量化,提高了檢測(cè)效率。
本文通過消融實(shí)驗(yàn)、對(duì)比實(shí)驗(yàn)驗(yàn)證了所提方法的可靠性,在消融實(shí)驗(yàn)中改進(jìn)的模型結(jié)構(gòu)相對(duì)原始YOLOv5的mAP值提高了5個(gè)百分點(diǎn),且檢測(cè)速度提升了28.6幀/s。在對(duì)比實(shí)驗(yàn)中,基于NEU-DET數(shù)據(jù)集,本文改進(jìn)算法的mAP值相較DDN+ResNet50提高了0.9個(gè)百分點(diǎn),速度是YOLOx(s)模型的1.2倍。基于GC10-DET數(shù)據(jù)集,本文的改進(jìn)算法相較YOLOv5-GAMAttention提高了0.5個(gè)百分點(diǎn),檢測(cè)速度提高了1.09倍。表明本文改進(jìn)后的算法具有更高的檢測(cè)性能與魯棒性。
注:本文通訊作者為鄒伯昌。
參考文獻(xiàn)
[1] WANG L, LIU X, MA J, et al. Real-time steel surface defect detection with improved multi-scaleYOLOv5 [J]. Processes, 2023, 11(5): 1357.
[2] ZHOU X, WEI M, LI Q, et al. Surface defect detection of steel strip with double pyramid network [J]. Applied sciences, 2023, 13(2): 1054.
[3] LI S, KONG F, WANG R, et al. EFD-YOLOv4: A steel surface defect detection network with encoder-decoder residual block and feature alignment module [J]. Measurement, 2023, 220: 113359.
[4] ZHAO C, SHU X, YAN X, et al. RDD-YOLO: a modified YOLO for detection of steel surface defects [J]. Measurement, 2023, 214: 112776.
[5] YAN R, ZHANG R, BAI J, et al. STMS-YOLOv5: a lightweight algorithm for gear surface defect detection [J]. Sensors, 2023, 23(13): 5992.
[6] ZHAO S L, LI G, ZHOU M L, et al. ICA-Net: Industrial defect detection network based on convolutional attention guidance and aggregation of multiscale features [J]. Engineering applications of artificial intelligence, 2023, 126: 107134.
[7]谷長(zhǎng)江,高法欽.改進(jìn)YOLOv5s的鋼材表面缺陷檢測(cè)[J].軟件工程,2023,26(8):31-34.
[8]曹樂樂,羅恒,張鵬.基于YOLOv5算法改進(jìn)的鋼材表面缺陷檢測(cè)[J].科技創(chuàng)新與應(yīng)用,2023,13(26):66-69.
[9] HE Y, SONG K, MENG Q, et al. An end-to-end steel surface defect detection approach via fusing multiple hierarchical features [J]. IEEE transactions on instrumentation and measurement, 2019, 69(4): 1493-1504.
[10] ZHOU M, LU W. Defect detection in steel using a hybrid attention network [J]. Sensors, 2023, 23(15): 6982.
[11] XIA K, Lü Z, ZHOU C, et al. Mixed receptive fields augmented YOLO with multi-path spatial pyramid pooling for steel surface defect detection [J]. Sensors, 2023, 23(11): 5114.
[12] WANG B, WANG M, YANG J, et al. YOLOv5-CD: Strip steel surface defect detection method based on coordinate attention and a decoupled head [J]. Measurement: sensors, 2023, 30: 100909.
[13] SONG M, LI Y, ZHANG S, et al. A lightweight detection algorithm for steel surface defects based on improved YOLOv5 [C]//Sixth International Conference on Computer Information Science and Application Technology (CISAT 2023). Hangzhou, China: SPIE, 2023: 83-88.
[14] MEHTA M. AFF-YOLO: A real-time industrial defect detection method based on attention mechanism and feature fusion [J]. Computers and electronics in agriculture, 2023.
[15] IRIE K, NISHIKAWA K. Detection method from 4K images using SSD300 without retraining [C]// 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Chiang Mai, Thailand: IEEE, 2022: 877-883.
[16] GE Z, LIU S, WANG F, et al. YOLOx: Exceeding YOLO series in 2021 [J]. arXiv preprint arXiv: 2107. 08430, 2021.
[17]張世強(qiáng),史衛(wèi)亞,張紹文,等.基于改進(jìn)YOLOv5算法的鋼鐵表面缺陷檢測(cè)[J].科學(xué)技術(shù)與工程,2023,23(35):15148-15157.
[18] YEUNG C C, LAM K M. Efficient fused-attention model for steel surface defect detection [J]. IEEE transactions on instrumentation and measurement, 2022, 71: 1-11.
[19] Lü X, DUAN F, JIANG J J, et al. Deep metallic surface defect detection: The new benchmark and detection network [J]. Sensors, 2020, 20: 1562.
[20] KOU X, LIU S, CHENG K, et al. Development of a YOLO-V3-based model for detecting defects on steel strip surface[J]. Measurement, 2021, 182: 109454.
[21] ZHANG H, WANG Y, DAYOUB F, et al. VarifocalNet: An IoU-aware dense object detector [C]// Proceedings of 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, TN, USA: IEEE, 2021: 8514-8523.
[22] LI Z, ZHANG Y, FU X, et al. Metal surface defect detection based on improved YOLOv5 [C]// 2023 3rd International Symposium on Computer Technology and Information Science (ISCTIS). Chengdu, China: IEEE, 2023: 1147-1150.
收稿日期:2024-04-11 修回日期:2024-05-13