摘要: 隨著紙機(jī)車速提升和幅寬加大,紙病出現(xiàn)頻率隨之上升。為根治紙病,需對(duì)其有效分類以溯源。但因部分紙病目標(biāo)小、對(duì)比度低,分類效果欠佳。本課題提出了一種基于改進(jìn)YOLOv7的分類方法,核心思想是在頸部網(wǎng)絡(luò)改良快速跨階段特征金字塔池化(SPPFCSPC) 模塊,在感受野不變前提下提升分類速度;使用空間深度卷積替換原有的“卷積+池化層”,增強(qiáng)對(duì)紙病的特征提取能力;通過(guò)注意力模塊(SimAM),使更多的資源集中于紙病細(xì)節(jié),進(jìn)一步提高低對(duì)比度和小目標(biāo)紙病的識(shí)別效率。結(jié)果表明,本課題算法的平均精度達(dá)0. 97,實(shí)時(shí)檢測(cè)速度26. 5幀/s。相比于原YOLOv7網(wǎng)絡(luò),本算法在小目標(biāo)和低對(duì)比度紙病的平均精度和檢測(cè)速度方面均有明顯提升。
關(guān)鍵詞:紙病分類;小目標(biāo);YOLOv7;SPPFCSPC;SimAM
中圖分類號(hào):TS736+. 2 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10. 11980/j. issn. 0254-508X. 2025. 03. 018
在紙張抄造過(guò)程中,受制造工藝或生產(chǎn)環(huán)境影響,紙張表面可能會(huì)出現(xiàn)不同種類的瑕疵,如孔洞、黑點(diǎn)、劃痕和起皺等,行業(yè)內(nèi)統(tǒng)稱為紙病。紙病的出現(xiàn)會(huì)對(duì)紙張的加工性能和企業(yè)經(jīng)濟(jì)效益產(chǎn)生一定程度的負(fù)面影響,需盡可能地克服或消除[1]。為從根源解決紙病問(wèn)題,需要對(duì)紙病進(jìn)行分類,為紙病溯源提供技術(shù)支持。然而,在紙病分類過(guò)程中,存在紙病與紙張圖像的尺寸比例lt;0.1 的小目標(biāo)紙病[2-3],以及對(duì)比度低于10∶1 的低對(duì)比度紙病,導(dǎo)致分類效果欠佳。因此,如何設(shè)計(jì)一種能兼顧小目標(biāo)和低對(duì)比度紙病的紙病分類方法是一個(gè)亟待解決的痛點(diǎn)問(wèn)題。
隨著深度學(xué)習(xí)的發(fā)展,基于機(jī)器視覺(jué)的分類方法在紙病圖像分類領(lǐng)域備受青睞。為了解決紙病圖像分類問(wèn)題,張學(xué)蘭等[4]提出了一種基于圖像變換和BP神經(jīng)網(wǎng)絡(luò)的分類方法,利用動(dòng)態(tài)雙閾值法對(duì)孔洞和臟點(diǎn)圖像進(jìn)行預(yù)處理,通過(guò)Prewitt算子和形態(tài)學(xué)閉運(yùn)算對(duì)折痕圖像進(jìn)行預(yù)處理,再利用BP神經(jīng)網(wǎng)絡(luò)對(duì)紙病圖像進(jìn)行分類, 最終識(shí)別結(jié)果的平均準(zhǔn)確率達(dá)93.8%,具有算法簡(jiǎn)單易實(shí)現(xiàn)的優(yōu)點(diǎn);但該研究?jī)H討論了3種紙病的分類問(wèn)題,具有一定的局限性,泛化能力弱,且測(cè)試樣本僅涉及80余個(gè)紙病缺陷,樣本量較少,導(dǎo)致算法不具有普適性。高樂(lè)樂(lè)等[5]提出了一項(xiàng)采用卷積神經(jīng)網(wǎng)絡(luò)(CNN) 的紙病識(shí)別方法,通過(guò)圖像增強(qiáng)和圖像分割的技術(shù)對(duì)待檢測(cè)紙病圖像進(jìn)行預(yù)處理,隨后利用CNN網(wǎng)絡(luò)提取紙病特征,并通過(guò)Softmax層進(jìn)行紙病分類,最終識(shí)別結(jié)果的辨識(shí)率為99.6%,具有分類準(zhǔn)確率高、識(shí)別速度快的優(yōu)點(diǎn);但僅通過(guò)正確率對(duì)結(jié)果進(jìn)行評(píng)價(jià),評(píng)價(jià)指標(biāo)單一,說(shuō)服力較弱。張開(kāi)生等[6]提出了一種基于改進(jìn)YOLOv5的紙病分類方法,在批量歸一化模塊中引入中心化和縮放校準(zhǔn),在骨干網(wǎng)絡(luò)結(jié)構(gòu)中融入坐標(biāo)注意力機(jī)制,并使用CIoU_loss作為邊框回歸的損失函數(shù),所得結(jié)果平均精度為99.0%,具有分類精度高的優(yōu)點(diǎn);但實(shí)驗(yàn)均未采用小目標(biāo)樣本,算法實(shí)用性較差。
綜上所述,上述方法在分類準(zhǔn)確率、評(píng)價(jià)指標(biāo)選擇、樣本選擇、泛化性方面均存在一定的不足。本課題受戚玲瓏等[7]使用改進(jìn)YOLOv7模型對(duì)公開(kāi)數(shù)據(jù)集FloWImg小目標(biāo)子數(shù)據(jù)集檢測(cè)的啟發(fā),以實(shí)現(xiàn)小目標(biāo)、低對(duì)比度紙病分類研究為出發(fā)點(diǎn),提出一種基于改進(jìn)YOLOv7的小目標(biāo)和低對(duì)比度紙病分類方法;同時(shí),通過(guò)使用Pytorch平臺(tái)進(jìn)行驗(yàn)證,驗(yàn)證本課題所提方法的有效性。
1 基于改進(jìn)YOLOv7 網(wǎng)絡(luò)的紙病圖像分類算法
1. 1 傳統(tǒng)YOLOv7網(wǎng)絡(luò)
YOLOv7算法旨在改善目標(biāo)檢測(cè)算法在速度上表現(xiàn)出色但精確率較低的問(wèn)題,結(jié)構(gòu)模型如圖1所示。輸入端使用了Mosaic數(shù)據(jù)增強(qiáng)技術(shù)、自適應(yīng)錨框計(jì)算和圖片尺寸處理進(jìn)行預(yù)處理;骨干網(wǎng)絡(luò)是特征提取網(wǎng)絡(luò),包括3種主要模塊,分別為卷積模塊(CBS)、最大池化與卷積結(jié)合模塊(MP) 及擴(kuò)展高效聚合模塊(ELAN);頸部網(wǎng)絡(luò)則采用了路徑融合網(wǎng)絡(luò)(PANet)的方式[8],將骨干網(wǎng)絡(luò)提取的特征層進(jìn)行拼接。最終通過(guò)3組重參數(shù)化卷積(RepConv) 模塊,并結(jié)合引導(dǎo)式標(biāo)簽分配策略,高效匹配了圖像與標(biāo)簽[9];在輸出端以CIoU_loss為損失函數(shù),優(yōu)化目標(biāo)邊界框,并利用非極大值抑制(NMS) 技術(shù),以增強(qiáng)對(duì)多個(gè)目標(biāo)框重疊情況的檢測(cè)能力,輸出結(jié)果包括預(yù)測(cè)圖像中缺陷位置和分類信息向量[10]。但傳統(tǒng)YOLOv7模型沒(méi)有針對(duì)小尺寸圖像的檢測(cè)層,也沒(méi)有采用針對(duì)低對(duì)比度紙病的注意力機(jī)制,存在對(duì)小目標(biāo)、低對(duì)比度紙病檢測(cè)效果比較差的缺點(diǎn),在實(shí)時(shí)性方面,雖然已經(jīng)能夠滿足大部分生產(chǎn)場(chǎng)合,但是對(duì)于實(shí)時(shí)性要求較高的紙病分類任務(wù)還有待提高。
為解決上述問(wèn)題,本課題基于YOLOv7網(wǎng)絡(luò)提出一種針對(duì)小目標(biāo)、低對(duì)比度紙病的網(wǎng)絡(luò)模型,該模型首先借鑒了YOLOv5[11]中空間金字塔池化(spatial pyr?amid pooling-fast,SPPF) 的思想,對(duì)跨階段特征金字塔池化(spatial pyramid pooling with cross stage partialconnections,SPPCSPC) 模塊進(jìn)行優(yōu)化,得到快速跨階段特征金字塔池化(spatial pyramid pooling with fastcross stage partial connections,SPPFCSPC) 模塊,在保持感受野不變的情況下提升分類速度;其次使用空間深度卷積[12] (space-to-depth non-strided convolution,SPD-Conv) 替換原網(wǎng)絡(luò)中的“卷積+池化層”,提高小目標(biāo)紙病的特征提取能力;最后通過(guò)添加基于相似度的注意力模塊(similarity-based attention module,SimAM),使更多注意資源側(cè)重于紙病細(xì)節(jié),進(jìn)一步提高小目標(biāo)、低對(duì)比度紙病識(shí)別效率。
1. 2 傳統(tǒng)YOLOv7算法中SPPCSPC模塊的改進(jìn)
圖2表示YOLOv5中的SPPF結(jié)構(gòu),其將3個(gè)5×5的最大池化層進(jìn)行串聯(lián),并將每一層的輸出進(jìn)行融合。受此啟發(fā),本課題將YOLOv7中的SPPCSPC模塊(圖3) 改進(jìn)為SPPFCSPC 模塊(圖4),將SPPCSPC模塊中5×5、9×9、13×13 3個(gè)不同大小的最大池化并行關(guān)系更改為3個(gè)5×5的串行關(guān)系,只指定1個(gè)卷積核,每次池化后的輸出作為下一個(gè)池化的輸入,計(jì)算量從原來(lái)的((5×5)+(9×9)×(13×13))·W優(yōu)化至3×(5×5)·W,其中W 代表權(quán)重,具有計(jì)算量小的優(yōu)點(diǎn),可以提升紙病分類速度。
1. 3 SimAM注意力機(jī)制的引入
在紙病分類過(guò)程中,相機(jī)采集到的劃痕、邊裂等紙病屬于低對(duì)比度圖像,圖像特征易受背景干擾,YOLOv7在深層卷積過(guò)程中容易丟失部分特征,造成分類結(jié)果出現(xiàn)漏檢或誤檢等情況,故本算法在骨干特征提取網(wǎng)絡(luò)中引入了SimAM模塊,不同于現(xiàn)有的通道(圖5(a)) 或空間注意力(圖5(b)) 模塊,僅單獨(dú)地將特征轉(zhuǎn)化為1D和2D權(quán)重;也不同于CBAM注意力[13] (圖5(c)),需要將1D和2D權(quán)重組合為3D權(quán)重,浪費(fèi)時(shí)間,SimAM模塊可以在不需要額外參數(shù)的情況下推導(dǎo)出3D注意力權(quán)重,將其加入YOLOv7網(wǎng)絡(luò)中不僅不會(huì)增加網(wǎng)絡(luò)的復(fù)雜度,還可以提高網(wǎng)絡(luò)對(duì)低對(duì)比度紙病的提取能力, SimAM 結(jié)構(gòu)圖如圖5(d)所示。