唐東林 楊 洲 程 衡 劉銘璇 周 立 丁 超
西南石油大學(xué)機(jī)電工程學(xué)院,成都,610500
在石油、化工、機(jī)械等工業(yè)領(lǐng)域,設(shè)備表面的金屬缺陷會(huì)對(duì)工業(yè)產(chǎn)品的質(zhì)量造成極大影響,因此工業(yè)上對(duì)金屬缺陷檢測(cè)的關(guān)注度逐年增加。由于檢測(cè)速度慢、人工成本高、視力限制等,人工檢測(cè)已不能滿足當(dāng)今行業(yè)的需求[1]。模式識(shí)別技術(shù)的發(fā)展極大地提高了缺陷檢測(cè)技術(shù)能力[2]。模式識(shí)別技術(shù)能夠自動(dòng)學(xué)習(xí)已知樣本特征并對(duì)未知樣本進(jìn)行自動(dòng)識(shí)別,已廣泛應(yīng)用于缺陷檢測(cè)識(shí)別領(lǐng)域[3-6]。
目前模式識(shí)別的缺陷檢測(cè)方法中基于深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)應(yīng)用最為廣泛[7],它具有高度自動(dòng)化的特點(diǎn),能自動(dòng)提取缺陷圖像特征,實(shí)現(xiàn)端到端學(xué)習(xí)。文獻(xiàn)[8]提出了級(jí)聯(lián)自編碼器結(jié)合CNN的金屬表面缺陷識(shí)別模型,優(yōu)化了池化造成的信息丟失問題,但存在結(jié)構(gòu)復(fù)雜、參數(shù)優(yōu)化困難的問題;文獻(xiàn)[9]通過改進(jìn)傳統(tǒng)CNN加強(qiáng)了背景和缺陷之間的對(duì)比度,并利用決策樹評(píng)估模型進(jìn)行調(diào)參優(yōu)化,但其參數(shù)量巨大,容易陷入過擬合狀態(tài);文獻(xiàn)[10]改進(jìn)了ResNet50,添加了可變形卷積,優(yōu)化了分類結(jié)構(gòu),提高了鋼材表面缺陷識(shí)別準(zhǔn)確率,但網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜且計(jì)算量大;文獻(xiàn)[11]設(shè)計(jì)了輕量級(jí)CNN用于缺陷識(shí)別,并結(jié)合隨機(jī)森林增強(qiáng)了模型特征選擇能力,但網(wǎng)絡(luò)太淺圖像感受野太小,無法充分學(xué)習(xí)圖像語義信息;文獻(xiàn)[12]構(gòu)建了多尺度特征重構(gòu)網(wǎng)絡(luò)以獲取不同尺度的鋼板缺陷信息,但網(wǎng)絡(luò)分支較多,增加了網(wǎng)絡(luò)訓(xùn)練時(shí)間;文獻(xiàn)[13-14]基于卷積神經(jīng)網(wǎng)絡(luò)對(duì)鋼管焊縫缺陷進(jìn)行自動(dòng)識(shí)別,但其網(wǎng)絡(luò)結(jié)構(gòu)過于單一,不具備識(shí)別不同尺度缺陷的能力;文獻(xiàn)[15]使用數(shù)據(jù)生成技術(shù)解決了缺陷數(shù)據(jù)不平衡的問題,并設(shè)計(jì)了輕量級(jí)CNN金屬缺陷分類器,但網(wǎng)絡(luò)中頻繁使用池化操作,造成了圖像信息丟失問題??傮w上,深層CNN參數(shù)量多,計(jì)算量大,訓(xùn)練成本高,而淺層CNN無法充分學(xué)習(xí)到圖像信息。此外,CNN通過卷積核往往只能考慮到圖像局部信息而忽略全局信息。
最近,自然語言領(lǐng)域擅長學(xué)習(xí)序列全局信息的Transformer模型[16]受到廣泛關(guān)注。文獻(xiàn)[17]將Transformer用于圖像分類任務(wù),成功學(xué)習(xí)到圖像全局信息,在超大數(shù)據(jù)集上性能超越了CNN模型;文獻(xiàn)[18]引入蒸餾損失,進(jìn)一步提高了Transformer圖像分類性能;文獻(xiàn)[19-20]將Transformer繼續(xù)加深,并探究了加深Transformer時(shí)保持精度提升的方法。目前Transformer在大型數(shù)據(jù)集上的表現(xiàn)已超越CNN,但其訓(xùn)練成本非常高;在中小規(guī)模數(shù)據(jù)集上,由于Transformer直接學(xué)習(xí)全局信息且模型參數(shù)量大,學(xué)習(xí)難度高,通常處于欠擬合狀態(tài),性能較差。
在此基礎(chǔ)上,本文提出了一種適用于中小規(guī)模數(shù)據(jù)集的,利用淺層CNN捕捉圖像局部信息,利用Transformer捕捉圖像全局信息,并引入通道注意力模塊SE(squeeze and excitation)[21]捕捉重要特征通道的金屬缺陷識(shí)別方法。實(shí)驗(yàn)表明,在中小規(guī)模數(shù)據(jù)集上,相比傳統(tǒng)CNN和Transformer模型,該方法能更快速準(zhǔn)確地實(shí)現(xiàn)金屬缺陷識(shí)別。
CNN-Transformer模型結(jié)構(gòu)如圖1所示。由模型整體框架(圖1a)可知:通過4層CNN學(xué)習(xí)圖像局部信息及其位置信息;利用Transformer捕獲全局像素點(diǎn)之間的相關(guān)性以學(xué)習(xí)圖像全局信息,同時(shí)引入SE模塊對(duì)重要通道進(jìn)行重點(diǎn)關(guān)注;最終利用一層CNN融合所有圖像語義信息,通過全局平局池化進(jìn)行降維,由全連接層(fully connected layer)實(shí)現(xiàn)金屬缺陷的自動(dòng)識(shí)別。
(a)模型整體框架
為解決深層CNN模型復(fù)雜度高、在中小規(guī)模數(shù)據(jù)集上容易過擬合的問題,本文采用4層淺層CNN進(jìn)行特征提取,結(jié)構(gòu)簡單且特征提取效率高,具體參數(shù)如表1所示。其中,輸入圖像尺寸為C×H×W,C、H、W分別表示圖像的通道數(shù)、高、寬,本文數(shù)據(jù)集均為單通道灰度圖,輸入C=1。本文采用補(bǔ)零操作的主要目的是使越靠近圖像邊緣的區(qū)域卷積后的像素值越小,實(shí)現(xiàn)圖像位置信息的學(xué)習(xí)。
表1 卷積層具體參數(shù)
由于特征提取中池化下采樣會(huì)造成圖像信息丟失,本文對(duì)此進(jìn)行改進(jìn),通過設(shè)置卷積核步距為2的方式進(jìn)行下采樣以保留圖像信息。為防止過擬合、梯度爆炸和梯度消失現(xiàn)象,卷積后利用BN(batch normalization)層進(jìn)行批標(biāo)準(zhǔn)化處理,并通過ReLU激活函數(shù)進(jìn)行非線性增強(qiáng)。
不同特征通道包含不同圖像語義信息,為重點(diǎn)關(guān)注重要特征通道并抑制不重要的特征通道,本文引入通道注意力模塊SE,如圖1b所示。首先進(jìn)行全局平均池化(global average pooling)以獲取通道級(jí)全局信息:
(1)
其中,Xin∈RC×H×W,表示輸入特征圖;X′∈RC×1×1,表示池化后的特征圖。
池化后進(jìn)行通道權(quán)重計(jì)算,并將權(quán)重乘以原特征通道輸出最終特征:
Xout=Xin⊙σ(FC2(ReLU(FC1(X′))))
(2)
其中,F(xiàn)C1(C,C/4)、FC2(C/4,C)為兩層全連接層;σ為Sigmoid函數(shù);⊙表示elementwiseproduct乘法;Xout∈RC×H×W,為最終輸出特征。
為優(yōu)化梯度傳遞,本文在輸出特征與原特征之間設(shè)置了殘差模塊。
由于CNN模型通過卷積核僅能捕捉到圖像局部相鄰信息,因此本文融合Transformer以學(xué)習(xí)圖像全局信息,使模型在關(guān)注局部信息的同時(shí)考慮圖像全局信息,降低了訓(xùn)練成本并提高了缺陷識(shí)別準(zhǔn)確率。
Transformer來源于自然語言處理領(lǐng)域,能夠捕捉任意長度語言序列之間的相關(guān)性。本文融合Transformer用于缺陷圖像識(shí)別領(lǐng)域,其實(shí)現(xiàn)過程如圖1c所示:將三維圖像C×H×W分塊并展平為與自然語言同維度的二維序列,以訓(xùn)練自然語言序列的方式訓(xùn)練二維圖像序列,實(shí)現(xiàn)圖像全局信息的學(xué)習(xí)。展平后序列維度為N×(P2C),P為圖像塊大小,N=HW/P2為圖像塊個(gè)數(shù)。
傳統(tǒng)Transformer需要嵌入位置編碼以學(xué)習(xí)序列之間的位置關(guān)系,本文在CNN層已通過補(bǔ)零操作實(shí)現(xiàn)自動(dòng)學(xué)習(xí)圖像位置信息,因此無需嵌入位置編碼,簡化了Transformer模型結(jié)構(gòu)。為使數(shù)據(jù)分布更加穩(wěn)定,對(duì)二維序列利用LayerNorm層進(jìn)行層標(biāo)準(zhǔn)化處理,再將其輸入多頭自注意力層。
多頭注意力機(jī)制(multi-head attention)是學(xué)習(xí)圖像全局信息的核心,為便于理解,先引入自注意力機(jī)制(self-attention),計(jì)算過程如下:
Q=XPWqK=XPWkV=XPWv
(3)
(4)
其中,矩陣Wq、Wk、Wv∈RP2C×P2C;二維圖像序列XP∈RN×P2C;Q、K、V分別為查詢矩陣、匹配矩陣、值矩陣;Softmax為歸一化指數(shù)函數(shù);d值取圖像序列維度P2C。
為擴(kuò)展模型專注圖像不同位置的能力,引出多頭注意力機(jī)制,如圖2所示。多頭注意力機(jī)制具有多個(gè)自注意力頭,將Q、K、V按注意力頭數(shù)進(jìn)行劃分,分別完成自注意力計(jì)算,并融合所有注意力頭的信息,更全面地考慮不同序列之間的相關(guān)性。
圖2 多頭自注意力機(jī)制Fig.2 Multi-head attention
為減小模型參數(shù)量與復(fù)雜度,本文去除了多頭自注意力層之后的前饋全連接結(jié)構(gòu),并設(shè)置了殘差模塊優(yōu)化梯度傳遞。
傳統(tǒng)Transformer主要通過在二維圖像序列中額外插入一個(gè)class token向量進(jìn)行訓(xùn)練并用以分類。本文對(duì)其進(jìn)行改進(jìn),去除class token,將二維圖像序列轉(zhuǎn)換為三維圖像,直接輸入分類層進(jìn)行分類,簡化了模型結(jié)構(gòu)。
分類層用于實(shí)現(xiàn)金屬缺陷的自動(dòng)識(shí)別。如圖1a所示,本文利用一層卷積核大小為1×1的卷積層融合此前所有信息,不改變特征圖大小,輸出通道為1024;利用全局平均池化將特征圖降維至1024×1×1后將其展平;最后全連接層FC(1024,classes)將維度映射到類別數(shù)classes實(shí)現(xiàn)缺陷分類。
為驗(yàn)證本文方法有效性,引入了公開數(shù)據(jù)集NEU-DET[22],同時(shí)通過實(shí)驗(yàn)自建鋼板缺陷超聲數(shù)據(jù)集來驗(yàn)證模型通用性。
(1)鋼材缺陷數(shù)據(jù)集NEU-DET。該數(shù)據(jù)集是東北大學(xué)發(fā)布的表面缺陷數(shù)據(jù)庫,如圖3所示,包含熱軋鋼帶的6種表面缺陷:軋制氧化皮(Rs)、斑塊(Pa)、開裂(Cr)、點(diǎn)蝕表面(Ps)、內(nèi)含物(In)和劃痕(Sc)。該數(shù)據(jù)庫由1800張灰度圖像組成,每一類缺陷包含300張分辨率為200 pixel×200 pixel的灰度圖像。
圖3 NEU-DET數(shù)據(jù)集部分缺陷樣本Fig.3 Partial defect samples of NEU-DET dataset
(2)鋼板缺陷超聲數(shù)據(jù)集。為模擬工業(yè)中不同的金屬表面缺陷,在厚度11 mm的Q235鋼板上加工了2 mm、5 mm、8 mm三種深度的缺陷,每種深度具有不同缺陷形狀,如圖4所示。實(shí)驗(yàn)采用頻率2.5 MHz、底部直徑20 mm的超聲探頭,探頭通過無缺陷的鋼板背面發(fā)射超聲信號(hào)并接收反射信號(hào),利用數(shù)字式超聲探傷儀、示波器來讀取并記錄超聲缺陷信號(hào)。
圖4 缺陷鋼板和信號(hào)檢測(cè)設(shè)備Fig.4 Steel plate with defects and signal detection equipment
實(shí)驗(yàn)采集了每種深度200個(gè)共600個(gè)缺陷信號(hào),每個(gè)缺陷信號(hào)為1×16 384的一維波形信號(hào)。為滿足圖像處理實(shí)驗(yàn)要求,將1×16 384波形信號(hào)轉(zhuǎn)化為128 pixel×128 pixel二維灰度圖像,如圖5所示。
圖5 超聲部分波形信號(hào)和數(shù)據(jù)轉(zhuǎn)化圖Fig.5 Waveform signal and data conversion diagram of ultrasonic
為充分利用所有數(shù)據(jù)樣本以減小實(shí)驗(yàn)誤差,本文進(jìn)行10次獨(dú)立實(shí)驗(yàn),每次均從原數(shù)據(jù)集中重新隨機(jī)抽取70%樣本作為訓(xùn)練集,其余30%樣本作為測(cè)試集,取10次實(shí)驗(yàn)平均結(jié)果作為最終實(shí)驗(yàn)結(jié)果。其中,NEU-DET數(shù)據(jù)集以缺陷類別為分類標(biāo)準(zhǔn),超聲數(shù)據(jù)集以缺陷深度為分類標(biāo)準(zhǔn)。具體數(shù)據(jù)集劃分結(jié)果如表2和表3所示。
表2 NEU-DET數(shù)據(jù)集劃分
表3 超聲數(shù)據(jù)集劃分
為提高模型的魯棒性,針對(duì)本文采用的所有數(shù)據(jù)集,在每一輪訓(xùn)練中,對(duì)訓(xùn)練集進(jìn)行標(biāo)準(zhǔn)化處理,并以0.5的概率分別進(jìn)行旋轉(zhuǎn)、平移、水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)或同時(shí)進(jìn)行水平垂直翻轉(zhuǎn),實(shí)現(xiàn)每一輪參與訓(xùn)練的圖像均不完全相同,以提高模型泛化能力;在測(cè)試集中則只進(jìn)行標(biāo)準(zhǔn)化處理。
本文實(shí)驗(yàn)平臺(tái)為Pycharm,深度學(xué)習(xí)框架為Pytorch,CPU為Intel(R)Core(TM)i5-10400F CPU @ 2.90 GHz,GPU為NVIDIA GeForce RTX 2060(6 GB)。根據(jù)不同數(shù)據(jù)集的規(guī)模對(duì)訓(xùn)練參數(shù)進(jìn)行微調(diào),具體如表4所示。
表4 模型參數(shù)設(shè)置
實(shí)驗(yàn)中訓(xùn)練集負(fù)責(zé)進(jìn)行參數(shù)學(xué)習(xí)以擬合模型,測(cè)試集用以對(duì)模型性能進(jìn)行評(píng)估,不參與訓(xùn)練與參數(shù)學(xué)習(xí),因此以下實(shí)驗(yàn)均采用測(cè)試集的實(shí)驗(yàn)結(jié)果作為模型評(píng)價(jià)指標(biāo)。
為驗(yàn)證本文模型對(duì)缺陷的識(shí)別性能,引入中小規(guī)模數(shù)據(jù)集NEU-DET進(jìn)行實(shí)驗(yàn),模型準(zhǔn)確率δ和損失Δ變化如圖6所示。因?yàn)榈跗趯W(xué)習(xí)率相對(duì)較大,模型參數(shù)更新幅度大,導(dǎo)致準(zhǔn)確率和損失有一定波動(dòng),但總體準(zhǔn)確率呈現(xiàn)上升趨勢(shì),迭代40次后模型便接近收斂狀態(tài)。同時(shí)模型結(jié)構(gòu)簡單、參數(shù)量少,模型性能穩(wěn)定,未出現(xiàn)過擬合現(xiàn)象。通過10次獨(dú)立實(shí)驗(yàn)取平均值最終準(zhǔn)確率為97.8%。
圖6 NEU-DET數(shù)據(jù)集性能曲線Fig.6 NEU-DET dataset performance curve
通過混淆矩陣展示模型的具體識(shí)別情況,如圖7所示。橫坐標(biāo)為真實(shí)類別,縱坐標(biāo)為預(yù)測(cè)類別,真實(shí)類別與預(yù)測(cè)類別相同則識(shí)別正確,即對(duì)角線值。模型整體識(shí)別準(zhǔn)確率較高,但由于內(nèi)含物(In)、點(diǎn)蝕(Ps)、劃痕(Sc)三類缺陷部分樣本存在相似特征,導(dǎo)致模型出現(xiàn)了識(shí)別混淆。
圖7 NEU-DET數(shù)據(jù)集混淆矩陣Fig.7 Confusion matrix of NEU-DET dataset
為驗(yàn)證模型通用性,本文引入實(shí)驗(yàn)采集的超聲數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),其準(zhǔn)確率和損失曲線如圖8所示,在更小規(guī)模的超聲數(shù)據(jù)集上本文模型更快更穩(wěn)定地達(dá)到了收斂狀態(tài),這是因?yàn)槌晹?shù)據(jù)集類別更少,缺陷特征更為簡單,進(jìn)行10次獨(dú)立實(shí)驗(yàn)后平均準(zhǔn)確率達(dá)到了更高的98.8%。
圖8 超聲數(shù)據(jù)集性能曲線Fig.8 Ultrasonic dataset performance curve
具體分類結(jié)果如圖9所示,模型對(duì)三種深度缺陷識(shí)別準(zhǔn)確率均較高,證明了本文模型在中小規(guī)模數(shù)據(jù)集上具有較好的通用性。
圖9 超聲數(shù)據(jù)集混淆矩陣Fig.9 Confusion matrix of ultrasonic dataset
為了驗(yàn)證本文模型捕捉缺陷特征的能力,在公開數(shù)據(jù)集NEU-DET上可視化圖像類激活熱力圖[23],即輸入圖片的不同區(qū)域?qū)δP瓦M(jìn)行缺陷識(shí)別的影響程度,顏色越紅的區(qū)域越能主導(dǎo)識(shí)別結(jié)果,如圖10、圖11所示。
圖10 部分簡單缺陷類激活熱力圖Fig.10 Grad-CAM of some simple defects
由圖10可以看出,對(duì)于特征明顯的簡單缺陷,主導(dǎo)本文模型進(jìn)行識(shí)別決策的核心區(qū)域明顯位于缺陷區(qū)域。
如圖11所示,對(duì)于尺寸小、數(shù)量多,以及一些特征不明顯的缺陷,熱力圖仍在缺陷區(qū)域顏色最深,證明了本文方法能有效捕捉缺陷信息。但也存在個(gè)別微小缺陷被遺漏的情況,這可能是影響識(shí)別精度進(jìn)一步提高的原因,值得后續(xù)深入研究進(jìn)行改進(jìn)。
圖11 部分復(fù)雜缺陷類激活熱力圖Fig.11 Grad-CAM of some complex defects
得益于Transformer捕獲圖像全局信息的能力,使熱力圖整體上分布廣泛,并不僅集中于局部缺陷區(qū)域,而是從整個(gè)圖像收集了更多信息,更符合人類感知結(jié)果。
為驗(yàn)證Transformer和SE模塊對(duì)模型性能的影響,將淺層CNN模型、引入SE模塊的CNN模型、CNN-Transformer模型和本文提出的引入SE模塊的CNN-Transformer模型進(jìn)行對(duì)比實(shí)驗(yàn),評(píng)價(jià)指標(biāo)包括準(zhǔn)確率、損失、浮點(diǎn)計(jì)算量以及參數(shù)量,具體如表5所示。可以看出,Transformer、SE模塊都能有效改進(jìn)CNN模型,在利用CNN捕捉圖像局部信息的基礎(chǔ)上,通過Transformer捕獲圖像全局信息,能夠以較少的參數(shù)量、較低的訓(xùn)練成本提取完整的圖像特征,最大程度提高模型性能。引入SE模塊能在圖像通道層面做進(jìn)一步特征過濾,加強(qiáng)重要通道的特征表達(dá)而抑制不重要的通道特征,進(jìn)一步提高模型性能,且?guī)缀醪辉黾宇~外的參數(shù)量與計(jì)算量。
表5 消融實(shí)驗(yàn)
本文方法相對(duì)于淺層CNN模型僅有少量參數(shù)量和計(jì)算量的增加,但卻帶來了巨大的性能提升,實(shí)現(xiàn)了最高的缺陷識(shí)別準(zhǔn)確率,證明了本文方法在中小規(guī)模數(shù)據(jù)集中能充分發(fā)揮性能。
為驗(yàn)證本文模型的綜合性能,與CNN模型VGG16[24]、GoogleNet[25]、ResNet34[26]、MobileNetv2[27]、ShuffleNetv2[28]以及Transformer模型ViT[13]進(jìn)行對(duì)比實(shí)驗(yàn)。
實(shí)驗(yàn)曲線如圖12和圖13所示,在本文的兩個(gè)中小規(guī)模數(shù)據(jù)集上,由于Transformer模型ViT直接學(xué)習(xí)全局圖像信息,學(xué)習(xí)難度大導(dǎo)致收斂速度慢。同時(shí)因其對(duì)數(shù)據(jù)量的要求非常高,本文數(shù)據(jù)集無法有效擬合模型參數(shù),導(dǎo)致其性能較差且迭代曲線波動(dòng)較大。
圖12 NEU-DET數(shù)據(jù)集性能對(duì)比曲線Fig.12 Performance comparison curve of NEU-DET dataset
圖13 超聲數(shù)據(jù)集性能對(duì)比曲線Fig.13 Performance comparison curve of Ultrasonic dataset
各模型具體性能指標(biāo)如表6所示,訓(xùn)練時(shí)間為數(shù)據(jù)集訓(xùn)練耗時(shí),推理時(shí)間為單張圖片推理耗時(shí),對(duì)最優(yōu)結(jié)果進(jìn)行加粗??梢钥闯?,主流CNN模型的參數(shù)量和計(jì)算量都比較大,在中小規(guī)模數(shù)據(jù)集中,其性能受限容易過擬合,參數(shù)最多的VGG16性能表現(xiàn)較差,表明CNN模型并不會(huì)因?yàn)榭蓪W(xué)習(xí)參數(shù)量多而取得更好性能。
表6 模型綜合指標(biāo)對(duì)比
本文方法在中小規(guī)模數(shù)據(jù)集上取得了更好的綜合性能,MobileNetv2和ResNet34的準(zhǔn)確率雖然和本文方法相近,但是本文模型網(wǎng)絡(luò)更淺、結(jié)構(gòu)更簡單,推理時(shí)間更短;ShuffleNetv2參數(shù)量、推理時(shí)間與本文方法相差不大,但本文方法在保持高效率的同時(shí)能夠?qū)W習(xí)圖像全局與局部信息的優(yōu)勢(shì)是其所不具有的,因而在準(zhǔn)確率上表現(xiàn)更優(yōu)。
金屬缺陷識(shí)別技術(shù)在工業(yè)領(lǐng)域具有重要研究意義。本文針對(duì)中小規(guī)模金屬缺陷數(shù)據(jù)集提出了一種淺層CNN融合Transformer并引入SE模塊的缺陷識(shí)別模型,模型利用淺層CNN捕捉圖像局部信息,與主流深層CNN模型相比具有參數(shù)量少和計(jì)算量小的優(yōu)點(diǎn),可有效地避免過擬合現(xiàn)象發(fā)生;利用Transformer多頭注意力機(jī)制捕獲圖像全局信息,解決了CNN模型無法學(xué)習(xí)圖像全局信息的問題,同時(shí)引入通道注意力SE模塊實(shí)現(xiàn)重點(diǎn)關(guān)注重要通道。本文引入了NEU-DET數(shù)據(jù)集和超聲數(shù)據(jù)集來驗(yàn)證模型性能,試驗(yàn)結(jié)果表明,本文方法在準(zhǔn)確率、參數(shù)量、計(jì)算量、推理時(shí)間等重要評(píng)價(jià)指標(biāo)上都表現(xiàn)出良好的性能,對(duì)未來實(shí)現(xiàn)工業(yè)上金屬缺陷的在線高效率、高精度識(shí)別具有現(xiàn)實(shí)意義。