王迎 吳建勝
摘? 要:文章提出了一種基于Scaled-YOLOv4目標(biāo)檢測(cè)方法的破損絕緣子智能檢測(cè)模型。針對(duì)Scaled-YOLOv4網(wǎng)絡(luò)在訓(xùn)練過(guò)程中難以分辨有效信息的問(wèn)題,分析Scaled-YOLOv4網(wǎng)絡(luò)Neck部分的降采樣操作會(huì)導(dǎo)致信息丟失,提出將改進(jìn)的注意力機(jī)制加入網(wǎng)絡(luò)模型中,設(shè)計(jì)了DC-Scaled-YOLOv4模型。將網(wǎng)絡(luò)上得到的破損絕緣子數(shù)據(jù)集分配成訓(xùn)練集和測(cè)試集,并對(duì)故障識(shí)別模型進(jìn)行訓(xùn)練。采用該模型對(duì)破損絕緣子進(jìn)行識(shí)別測(cè)試,Scaled-YOLOv4在破損絕緣子數(shù)據(jù)集上的檢測(cè)精度為80%,而文章算法在破損絕緣子數(shù)據(jù)集上的檢測(cè)精度為94.8%,檢測(cè)效果提升明顯。
關(guān)鍵詞:目標(biāo)檢測(cè);Scaled-YOLOv4;注意力機(jī)制;絕緣子
中圖分類號(hào):TP393? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):2096-4706(2022)04-0123-04
Research on Damaged Insulator Detection Based on Deep Learning
WANG Ying, WU Jiansheng
(School of Computer Science and Software Engineering, University of Science and Technology Liaoning, Anshan? 114051, China)
Abstract: This paper proposes an intelligent detection model of damaged insulator based on Scaled-YOLOv4 target detection method. Aiming at the problem that it is difficult for Scaled-YOLOv4 network to distinguish effective information in the training process, it is analyzed that the down sampling operation of Neck part of Scaled-YOLOv4 network will lead to information loss. Adding an improved attention mechanism to the network model is proposed, and a DC-Scaled-YOLOv4 model is designed. The damaged insulator data set obtained from network is allocated into training set and test set, and the fault identification model is trained. The model is used to identify and test the damaged insulator. The detection accuracy of Scaled-YOLOv4 on the damaged insulator data set is 80%, while the detection accuracy of algorithm proposed in this paper on the damaged insulator data set is 94.8%, and the detection effect is significantly improved.
Keywords: target detection; Scaled-YOLOv4; attention mechanism; insulator
0? 引? 言
隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,越來(lái)越多的研究人員將深度學(xué)習(xí)引入到絕緣子檢測(cè)當(dāng)中,可有效改善傳統(tǒng)方法的不足。近年來(lái)提出的基于深度學(xué)習(xí)的目標(biāo)檢測(cè)算法Scaled-YOLOv4平衡了檢測(cè)精度和檢測(cè)速度的關(guān)系,能夠很好地代替?zhèn)鹘y(tǒng)算法。
Scaled-YOLOv4對(duì)Neck部分進(jìn)行了CSP化,這樣做的好處是CSP模塊中的bottleneck結(jié)構(gòu)能帶來(lái)更深的卷積層,但僅僅只是加深網(wǎng)絡(luò)時(shí)通常會(huì)帶來(lái)更多的參數(shù)量,當(dāng)參數(shù)量過(guò)多時(shí)也容易產(chǎn)生過(guò)擬合現(xiàn)象,且網(wǎng)絡(luò)Scaled-YOLOv4中的下采樣操作和1×1卷積雖然可以降維但也會(huì)丟失信息,導(dǎo)致Scaled-YOLOv4在訓(xùn)練過(guò)程中可能會(huì)學(xué)習(xí)不到有效信息?;赟caled-YOLOv4算法的特點(diǎn),本文采用深度學(xué)習(xí)的方法,對(duì)絕緣子圖片進(jìn)行檢測(cè),提出了基于Scaled-YOLOv4的改進(jìn)模型。采用DS-CBAM與Scaled-YOLOv4算法Neck部分中的CSP模塊相結(jié)合來(lái)檢測(cè)絕緣子。
1? 卷積注意力模塊
卷積注意力模塊[1](CBAM,Convolutional Block Attention Module)用于前饋卷積神經(jīng)網(wǎng)絡(luò),可以在通道維度和空間維度上執(zhí)行注意力。CBAM中的通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spartial Attention Module,SAM)互相獨(dú)立。在卷積時(shí),將一個(gè)中間特征圖輸入到CBAM模塊,特征圖沿著先通道后空間的順序推導(dǎo)。然后將注意力圖乘以輸入特征圖進(jìn)行自適應(yīng)特征優(yōu)化,這樣做節(jié)省了參數(shù)和計(jì)算力。由于CBAM輕量化的優(yōu)點(diǎn),使其可以以較小的代價(jià)隨意嵌入到任何CNN架構(gòu)中,并與該CNN進(jìn)行端到端的訓(xùn)練。由于卷積注意力模塊結(jié)合了空間(spatial)和通道(channel)的注意力,相比于只關(guān)注通道的注意力機(jī)制能產(chǎn)生更好的結(jié)果。實(shí)驗(yàn)表明,如果通道注意力模塊和空間注意力模塊采用串聯(lián)的方式且先通道后空間,則實(shí)驗(yàn)效果更好。CBAM結(jié)構(gòu)圖如圖1所示。
利用特征的空間相互關(guān)系可以生成一個(gè)空間注意力圖。與通道注意力不同,空間注意力模塊用于提取內(nèi)部的關(guān)系,計(jì)算哪一部分是信息豐富的部分,這里輸入的是經(jīng)過(guò)通道注意力處理的數(shù)據(jù)。為計(jì)算空間注意力,同樣經(jīng)過(guò)兩種池化操作,沿著通道軸進(jìn)行平均池化和最大池化,分別將多個(gè)通道的值壓縮到單個(gè)通道,再經(jīng)過(guò)spatial層中7×7的二維卷積,使特征圖降為一通道,計(jì)算得到對(duì)空間的加權(quán)。
2? 深度可分離卷積
深度可分離卷積[2]包含逐通道卷積(Depthwise Convolution)和逐點(diǎn)卷積(Pointwise Convolution)兩個(gè)步驟,用來(lái)提取特征圖。首先,輸入多通道特征圖,將其按照通道劃分為多個(gè)單通道特征圖,然后對(duì)它們進(jìn)行單通道卷積,這一步驟被稱之為逐通道卷積(由于是按照通道卷積,所以逐通道卷積完全在二維平面內(nèi)完成)。這種將多通道拆分的行為非常重要,它只調(diào)整了上一層的特征圖大小,而產(chǎn)生的特征圖通道數(shù)與輸入完全相同。每個(gè)逐通道卷積的一個(gè)卷積核只卷積一個(gè)通道,一個(gè)通道只由一個(gè)卷積核進(jìn)行卷積。
逐點(diǎn)卷積(Pointwise Convolution)的卷積核的寬和高都是1,而卷積核的通道數(shù)與上一層的通道數(shù)相同。逐點(diǎn)卷積會(huì)將逐通道卷積產(chǎn)生的幾張?zhí)卣鲌D在深度維度上進(jìn)行加權(quán)合并,生成新的特征圖。逐點(diǎn)卷積的操作與普通卷積極為相似。
3? DS-CBAM
CBAM注意力機(jī)制的空間注意力模塊中,采用了一個(gè)7×7大感受野的卷積核來(lái)聚合更廣泛的空間上下文特征,這相比于3×3的卷積核更能增大感受野,但是同時(shí),更大的卷積核也會(huì)帶來(lái)更大的參數(shù)量。因此,在一個(gè)深度網(wǎng)絡(luò)中大量加入CBAM模塊無(wú)疑會(huì)帶來(lái)一些運(yùn)算開銷,這就限制了CBAM的作用。在空間注意力中,空間注意力的使用性能由卷積操作的感受野大小決定,大的感受野能對(duì)上下文信息進(jìn)行更好的聚合作用,同時(shí)增強(qiáng)空間注意力的表征能力。針對(duì)空間注意力中采用大卷積核會(huì)帶來(lái)更多參數(shù)的問(wèn)題,本文提出使用參數(shù)量較普通卷積更少的深度可分離卷積代替空間注意力模塊中的傳統(tǒng)卷積用于聚合空間注意力的空間特征,使得在卷積層感受野大小不發(fā)生改變的情況下減少參數(shù)量,同時(shí)由于深度可分離卷積能夠在卷積過(guò)程中實(shí)現(xiàn)每個(gè)通道間信息的互相交換,即在空間注意力模塊中加強(qiáng)了對(duì)通道信息的互聯(lián),所以可以使注意力模塊更能注意到特征圖中哪一部分是信息豐富且重要的,使整體運(yùn)行效率高并且能夠獲得較好的精度。本文將改進(jìn)后的模塊叫作DS-CBAM。改進(jìn)后的結(jié)構(gòu)如圖2所示。
4? 改進(jìn)后網(wǎng)絡(luò)模型
4.1? Scaled-YOLOv4的Neck部分
Scaled-YOLOv4中提出了三種模型分別是YOLOv4-CSP、YOLOv4-tiny、YOLOv4-large。本實(shí)驗(yàn)所用的是Scaled-YOLOv4-large模型,該模型含有三種網(wǎng)絡(luò)結(jié)構(gòu),分別為p5、p6、p7,本實(shí)驗(yàn)采用p5模型。
Scaled-YOLOv4將YOLOv4的Neck部分全部CSP化,Neck部分又叫FPN網(wǎng)絡(luò),其中包含有兩種CSP結(jié)構(gòu),rCSP和rCSP(without SPP),如圖3所示,其中rCSP存在于圖3中粉色區(qū)域,rCSP(without SPP)存在于圖3中藍(lán)色和黃色區(qū)域。rCSP和rCSP(without SPP)結(jié)構(gòu)如圖4所示。
由圖3可以看出,Scaled-YOLOv4的Neck部分結(jié)構(gòu)組成十分簡(jiǎn)單,分別從堆疊系數(shù)為15、15、7的CSPDarknet模塊輸出尺寸為(52,52,128)(26,26,256)(13、13、512)的特征圖,然后分別輸入到圖3中的CSPUp和CSPSPP模塊中,經(jīng)過(guò)Neck模塊后從③、②、①號(hào)模塊輸出尺寸為(52,52,255)(26,26,255)(13、13、255)的特征圖用于Detection-P3、Detection-P4、Detection-P5層進(jìn)行預(yù)測(cè)。
4.2? DC-Scaled-YOLOv4
Scaled-YOLOv4的Neck部分CSP化的好處是CSP模塊中的bottleneck結(jié)構(gòu)能帶來(lái)更深的卷積層,但僅僅只是加深網(wǎng)絡(luò)時(shí)通常會(huì)帶來(lái)更多的參數(shù)量,當(dāng)參數(shù)量過(guò)多時(shí)也容易產(chǎn)生過(guò)擬合現(xiàn)象,且網(wǎng)絡(luò)Scaled-YOLOv4中的下采樣操作和1×1卷積雖然可以降維但也會(huì)丟失信息,導(dǎo)致Scaled-YOLOv4在訓(xùn)練過(guò)程中可能會(huì)學(xué)習(xí)不到有效信息。本文提出的DS-CBAM能夠很好地注意到特征圖中哪一部分是信息豐富且重要的,且能無(wú)縫插入到任何卷積神經(jīng)網(wǎng)絡(luò)中。為了能較好地提升檢測(cè)精度,更好的學(xué)習(xí)有效信息,所以,本實(shí)驗(yàn)將DS-CBAM結(jié)構(gòu)插入到rCSP(without SPP)結(jié)構(gòu)中,改進(jìn)后的結(jié)構(gòu)如圖5所示。
本文提出的DC-Scaled-YOLOv4算法是將DS-CBAM模塊插入到Scaled-YOLOv4模型Neck部分的CSPUp模塊和CSPDown模塊中的rCSP(without SPP)結(jié)構(gòu)中,本文將DS-CBAM模塊插入到一個(gè)1×1卷積和一個(gè)3×3卷積中。DS-CBAM模塊可以使經(jīng)過(guò)卷積操作的特征圖通過(guò)通道、空間注意力時(shí)著重關(guān)注到有用的信息,抑制無(wú)用的信息,突出表現(xiàn)特征矩陣中有效的信息區(qū)域,實(shí)現(xiàn)增強(qiáng)網(wǎng)絡(luò)特征表達(dá)能力的目的。
如圖6所示,在DC-Scaled-YOLOv4的Neck 結(jié)構(gòu)中,對(duì)輸入到⑤號(hào)模塊中的特征圖上面的特征進(jìn)行下采樣操作,然后將經(jīng)過(guò)②號(hào)模塊的特征圖中和經(jīng)過(guò)③號(hào)模塊的特征圖輸入到⑤號(hào)模塊中執(zhí)行加法操作(對(duì)應(yīng)元素相加),將獲得的結(jié)果經(jīng)過(guò)⑤號(hào)模塊后輸入到④號(hào)模塊中去。這樣做的目的是在特征圖中獲得有效的語(yǔ)義信息從而提高網(wǎng)絡(luò)性能。在網(wǎng)絡(luò)中利用較深的層來(lái)構(gòu)建自底向上和自頂向下的特征融合,這樣的結(jié)構(gòu)稱為特征金字塔。這種特征金字塔的結(jié)構(gòu)可以使網(wǎng)絡(luò)獲得更加魯棒的信息。此外,將底層特征圖的特征和高層特征圖的特征相累加的原因是,低層特征能夠給出較為準(zhǔn)確的位置信息,而這種位置信息經(jīng)過(guò)多次的下采樣和上采樣操作后會(huì)產(chǎn)生一定的偏差。因此,應(yīng)當(dāng)構(gòu)建更深的特征金字塔將高層特征和底層特征融合,最后將多個(gè)層次的特征信息在不同層進(jìn)行輸出。
5? 實(shí)驗(yàn)與結(jié)果分析
5.1? 數(shù)據(jù)標(biāo)注
本實(shí)驗(yàn)數(shù)據(jù)來(lái)自網(wǎng)絡(luò),數(shù)據(jù)集中共包含絕緣子圖像248張,將每張圖片進(jìn)行水平、上下翻轉(zhuǎn)、亮度調(diào)整、隨機(jī)角度旋轉(zhuǎn)等八種數(shù)據(jù)擴(kuò)充方式得到共2 232張。與另一絕緣子數(shù)據(jù)集合并構(gòu)成共含5 531張圖片的數(shù)據(jù)集。圖像尺寸皆為416×416。
5.2? CBAM-Scaled-YOLOv4網(wǎng)絡(luò)結(jié)構(gòu)
本章中設(shè)置的CBAM-Scaled-YOLOv4模型用于驗(yàn)證本章提出的DS-CBAM算法檢測(cè)效果優(yōu)于CBAM算法。
與DC-Scaled-YOLOv4模型相同,CBAM-Scaled-YOLOv4模型是將CBAM模塊插入到Scaled-YOLOv4模型Neck部分的CSPUP模塊和CSPDOWN模塊中的rCSP結(jié)構(gòu)中。改進(jìn)后如圖7所示。
5.3? 實(shí)驗(yàn)結(jié)果分析
本文用于衡量算法性能的指標(biāo)為mAP(mean Average Precision),它是各類AP的平均值。平均精度AP(Average Precision)是指P-R曲線下方的區(qū)域面積,P-R曲線可以理解為在不同Recall下所有精度的平均值。AP是針對(duì)某一類的平均精度,mAP是一個(gè)數(shù)據(jù)集中所有類的AP平均值。因此,AP代表一類樣本的平均精度,mAP是數(shù)據(jù)集的平均精度均值。
如表1所示,是Scaled-YOLOv4、CBAM-Scaled-YOLOv4與DC-Scaled-YOLOv4在絕緣子數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果對(duì)比,由數(shù)據(jù)可以看出,Scaled-YOLOv4在絕緣子數(shù)據(jù)集上的檢測(cè)精度為80%,CBAM-Scaled-YOLOv4在絕緣子數(shù)據(jù)集上的檢測(cè)精度為84.8%,而DC-Scaled-YOLOv4的精度為94.8%,檢測(cè)效果提升明顯。
6? 結(jié)? 論
為提升對(duì)絕緣子數(shù)據(jù)集的檢測(cè)精度,本文對(duì)Scaled-YOLOv4算法進(jìn)行了改進(jìn),將CBAM注意力機(jī)制進(jìn)行改進(jìn)并與Scaled-YOLOv4網(wǎng)絡(luò)的Neck部分進(jìn)行結(jié)合以提升網(wǎng)絡(luò)獲得特征的能力。實(shí)驗(yàn)結(jié)果顯示,本文提出的DC-Scaled-YOLOv4算法能有效提升算法精度,與原算法相比精度提升了14.8個(gè)百分點(diǎn),與CBAM-Scaled-YOLOv4算法相比精度提升了10個(gè)百分點(diǎn),提升效果明顯。本文下一步的工作將考慮縮減網(wǎng)絡(luò)模型,進(jìn)一步提升網(wǎng)絡(luò)檢測(cè)目標(biāo)的速度。
參考文獻(xiàn):
[1] WOO S,PARK J,LEE J Y,et al.CBAM: Convolutional Block Attention Module [J/OL].arXiv:1807.06521[cs.CV].[2022-01-03].https://arxiv.org/abs/1807.06521.
[2] CHOLLET F.Xception:Deep Learning with Depthwise Separable Convolutions [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Hawaii:IEEE,2017:1800-1807.
[3] REN S,HE K,GIRSHICK R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[4] WANG C Y,BOCHKOVSKIY A,LIAO H Y M.Scaled-YOLOv4:Scaling Cross Stage Partial Network [J/OL].arXiv:2011.08036[cs.CV].[2022-01-02].https://arxiv.org/abs/2011.08036.
[5] LIN T Y,DOLLAR P,GIRSHICK R, et al. Feature Pyramid Networks for Object Detection [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:936-944.
作者簡(jiǎn)介:王迎(1997.11—),女,漢族,遼寧錦州人,碩士研究生,研究方向:計(jì)算機(jī)視覺(jué)。