韋庚吾,李英娜
(1.昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2.云南省計(jì)算機(jī)技術(shù)應(yīng)用重點(diǎn)實(shí)驗(yàn)室(昆明理工大學(xué)),云南 昆明 650500)
在導(dǎo)致輸電線路故障的外界因素中,鳥(niǎo)類(lèi)活動(dòng)排列第3位。鳥(niǎo)害問(wèn)題[1]已經(jīng)開(kāi)始被學(xué)者關(guān)注。
針對(duì)輸電線路上鳥(niǎo)巢圖像的檢測(cè)方式主要有2類(lèi),即基于手動(dòng)特征提取的傳統(tǒng)檢測(cè)和結(jié)合深度學(xué)習(xí)的自動(dòng)檢測(cè)[2]。
傳統(tǒng)圖像檢測(cè)方法在被識(shí)別目標(biāo)的背景比較單一的情況下能取得較好的效果;但是在實(shí)際圖像中,由于目標(biāo)的背景往往比較復(fù)雜,并且利用滑動(dòng)窗口的方式來(lái)對(duì)檢測(cè)區(qū)域進(jìn)行選擇沒(méi)有針對(duì)性,所以該方法的檢測(cè)效率偏低。
隨著深度學(xué)習(xí)算法的發(fā)展,其在圖像處理方面的應(yīng)用日益廣泛。深度學(xué)習(xí)方法的特點(diǎn)是,通過(guò)大量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,在各種復(fù)雜的情形中進(jìn)行特征抽取,從而使得算法在不同應(yīng)用場(chǎng)景中具有更好的泛化能力。
目前,深度學(xué)習(xí)檢測(cè)算法模型主要有構(gòu)建待選區(qū)域的雙階段檢測(cè)模型和端到端的單階段檢測(cè)模型2種。
雙階段檢測(cè)模型以R-CNN(region-CNN)[3]、Faster-RCNN[4]為代表,其思路是:先根據(jù)圖片生成待選區(qū)域,然后利用分類(lèi)器將待選區(qū)域分類(lèi);2個(gè)步驟通過(guò)不同的網(wǎng)絡(luò)結(jié)構(gòu)來(lái)實(shí)現(xiàn)。
單階段檢測(cè)模型以 Yolo(you only look once)[5]系列、SSD(single shot multibox detector)[6]為代表,其思路是:根據(jù)輸入的圖片,直接使用單個(gè)網(wǎng)絡(luò)結(jié)構(gòu)去預(yù)測(cè)目標(biāo)所屬類(lèi)別和位置。由于單階段檢測(cè)模型省去生成待選區(qū)域的過(guò)程,所以其檢測(cè)速度快,更適合于實(shí)時(shí)環(huán)境下對(duì)識(shí)別目標(biāo)進(jìn)行快速檢測(cè)。
目前,關(guān)于輸電線路上鳥(niǎo)巢檢測(cè),已有學(xué)者開(kāi)展了相關(guān)的研究工作。
文獻(xiàn)[7]利用鳥(niǎo)巢形狀特征來(lái)構(gòu)建直方圖,然后部署徑向基函數(shù)訓(xùn)練模型,最后采用支持向量機(jī)對(duì)鳥(niǎo)巢進(jìn)行識(shí)別。
文獻(xiàn)[8]針對(duì)鳥(niǎo)巢識(shí)別,提出一種結(jié)合 ROI(regions of interest)挖掘模塊的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)方法;通過(guò)ROI挖掘方法讓模型專(zhuān)注小規(guī)模對(duì)象,以提高模型檢測(cè)精度。
文獻(xiàn)[9]利用鳥(niǎo)巢和橫梁位置相對(duì)固定的特點(diǎn),通過(guò)計(jì)算橫梁之間的白色區(qū)域大小來(lái)判斷該位置是否存在鳥(niǎo)巢。
文獻(xiàn)[10]通過(guò)對(duì)卷積神經(jīng)網(wǎng)絡(luò)的ResNet-50進(jìn)行改進(jìn),并結(jié)合多層不同尺度的候選區(qū)來(lái)實(shí)現(xiàn)對(duì)高壓塔上的鳥(niǎo)巢識(shí)別。
雖然上述研究在實(shí)際應(yīng)用中取得不錯(cuò)的效果,但仍存在部分問(wèn)題:
(1)檢測(cè)模型無(wú)法保證精度和速度之間的平衡,并且過(guò)大的網(wǎng)絡(luò)模型對(duì)硬件要求高,進(jìn)而導(dǎo)致其難以部署在移動(dòng)端的設(shè)備中。
(2)充足的訓(xùn)練樣本是模型檢測(cè)精度的保證。在實(shí)際應(yīng)用過(guò)程中,樣本獲取較為困難,并且缺乏足夠多的受遮擋的鳥(niǎo)巢數(shù)據(jù)樣本。
(3)受遮擋鳥(niǎo)巢的檢測(cè)精度有待提高。輸電線路上的鳥(niǎo)巢背景復(fù)雜并且容易受塔桿遮擋。鳥(niǎo)巢受到遮擋會(huì)導(dǎo)致特征不明顯,于是算法識(shí)別準(zhǔn)確率變低。
針對(duì)上述問(wèn)題,為保證檢測(cè)模型能夠在識(shí)別精度和速度之間達(dá)到良好的平衡,本文通過(guò)改進(jìn)Yolov4[11]對(duì)輸電線路鳥(niǎo)巢進(jìn)行檢測(cè)。首先,采用MobilenetV2[12]網(wǎng)絡(luò),對(duì)模型進(jìn)行輕量化設(shè)計(jì);然后,引入注意力機(jī)制并對(duì)特征融合過(guò)程進(jìn)行改進(jìn),提高網(wǎng)絡(luò)對(duì)復(fù)雜背景下鳥(niǎo)巢的表征能力,提升模型識(shí)別精度;最后,將改進(jìn)后 Yolov4模型與Yolov5s、Faster-RCNN等算法進(jìn)行對(duì)比分析,以驗(yàn)證模型的實(shí)用性。
通過(guò)卷積神經(jīng)網(wǎng)絡(luò)構(gòu)成一個(gè)端到端的單階段檢測(cè)模型。在骨干網(wǎng)絡(luò)中采用Mish激活函數(shù),其表達(dá)式為
該函數(shù)為非單調(diào)函數(shù),具有無(wú)上界、有下界的特點(diǎn),能夠使模型在訓(xùn)練過(guò)程中更加穩(wěn)定。
頸部網(wǎng)絡(luò)由特征金字塔池化網(wǎng)絡(luò)(spatial pyramid pooling,SPP)和路徑聚合層(path aggregati on network,PANet)構(gòu)成。
SPP層的作用是,利用不同尺度的池化核,對(duì)從骨干網(wǎng)絡(luò)輸入的特征進(jìn)行池化疊加操作,以擴(kuò)大網(wǎng)絡(luò)的感受野。
在所采用的PANet結(jié)構(gòu)中,引入一條連接底層特征與頂層特征的路徑,讓底層的特征能夠更好地傳遞到頂層來(lái),以融合不同層之間的特征、確保樣本特征的完整性和多樣性。
頭部網(wǎng)絡(luò)的作用,是通過(guò)解碼操作對(duì)所獲得的特征進(jìn)行預(yù)測(cè)。在特征利用部分,Yolov4采用3個(gè)不同尺寸的特征層進(jìn)行目標(biāo)識(shí)別,通過(guò)K-means聚類(lèi)[13]得到候選框尺寸大小,最后結(jié)合輸出特征圖即可解碼檢測(cè)框位置坐標(biāo)。
為提高模型整體性能,文本在Yolov4的基礎(chǔ)之上進(jìn)行改進(jìn)。改進(jìn)后的網(wǎng)絡(luò)框架結(jié)構(gòu)如圖1所示:采用輕量型 MobileNetV2替代原有CSPDarkNet53網(wǎng)絡(luò)來(lái)進(jìn)行特征提取。將原有的常規(guī)卷積換為深度可分離卷積,并把注意力機(jī)制模塊CBAM[14]嵌入到MobileNetV2的每個(gè)逆向殘差塊中,使得網(wǎng)絡(luò)對(duì)特征的表達(dá)更為準(zhǔn)確。在原特征金字塔結(jié)構(gòu)基礎(chǔ)上引入自適應(yīng)特征融合算法[15](adaptivelyspatial feature fusion,ASFF),目的是給所提取到的不同尺寸特征信息找到最佳的特征融合方式,以提高模型識(shí)別效果。
圖1 改進(jìn)的Yolov4網(wǎng)絡(luò)結(jié)構(gòu)Fig. 1 Improved Yolov4 network structure
本文利用 MobileNetV2輕量級(jí)網(wǎng)絡(luò)構(gòu)建Yolov4模型的骨干網(wǎng)絡(luò)。
MobileNetV2網(wǎng)絡(luò)的優(yōu)勢(shì)是,通過(guò)深度可分卷積以減少卷積參量、壓縮模型體積,進(jìn)而達(dá)到模型輕量化的目的。
卷積方式由逐深度卷積及逐點(diǎn)卷積2個(gè)步驟組成。首先進(jìn)行逐深度卷積,即利用濾波器對(duì)輸入通道逐個(gè)進(jìn)行濾波;之后,進(jìn)行逐點(diǎn)卷積,即將所有由逐深度卷積濾波操作后得到的輸出,與采用卷積核大小為 1×1卷積進(jìn)行結(jié)合——這種拆分過(guò)程能夠極大節(jié)約模型的計(jì)算成本。
對(duì)于維度為DF×DF×M的輸入,卷積核尺寸為DK×DK,輸出通道數(shù) N,則深度可分卷積與常規(guī)卷積對(duì)比后減少的計(jì)算成本如式(2)所示。
式中:C1為深度可分卷積的計(jì)算式;C2為常規(guī)卷積的計(jì)算式。
在本文MobileNetV2結(jié)構(gòu)中,Yolov4骨干網(wǎng)絡(luò)中的 5個(gè) CSP殘差單元模塊被替換為 MB(mobilenetv2_block)模塊;使用逐深度大小為3×3的卷積對(duì)特征圖通道逐個(gè)完成濾波操作,再通過(guò)逐點(diǎn)1×1卷積對(duì)多個(gè)通道之間的特征進(jìn)行信息融合。
MoblieNetV2網(wǎng)絡(luò)參數(shù)如表1所示。
表1 MobileNetV2網(wǎng)絡(luò)參數(shù)Tab. 1 MobileNetV2 network parameters
表1中,Bottleneck為逆殘差模塊,t為卷積核擴(kuò)展系數(shù),c為通道數(shù)量,n為瓶頸層重復(fù)次數(shù),s為步幅長(zhǎng)度。
在卷積神經(jīng)網(wǎng)絡(luò)中添加注意力模塊,能夠減少檢測(cè)目標(biāo)背景復(fù)雜帶來(lái)的負(fù)面影響,達(dá)到注重重點(diǎn)信息、過(guò)濾無(wú)關(guān)信息、提升模型對(duì)目標(biāo)的檢測(cè)能力和泛化能力的目的。
CBAM模塊是一種融合空間和通道的混合域注意力機(jī)制模塊,其優(yōu)點(diǎn)是在僅耗費(fèi)極小的計(jì)算開(kāi)銷(xiāo)下即可集成到卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)中。
把維度為 F∈RC×H×W的特征圖輸入到 CBAM的通道注意力結(jié)構(gòu)后,再對(duì)特征圖的寬和高進(jìn)行2種不同的池化操作,即可得到特征映射空間描述張量。將這2個(gè)一維張量通過(guò)全連接共享網(wǎng)絡(luò)和激活函數(shù)進(jìn)行運(yùn)算,即可獲得通道之間的相關(guān)聯(lián)系,得到通道注意力特征 Mc∈R1×1×C。
全連接網(wǎng)絡(luò)的共享,是為了獲得不同通道之間的關(guān)聯(lián)信息。
考慮使用降維操作來(lái)降低模型的復(fù)雜性時(shí),由于降維過(guò)程中會(huì)對(duì)通道和權(quán)重之間的直接聯(lián)系造成干擾,并且通過(guò)全連接層獲取所有通道之間的交互關(guān)系并非絕對(duì)必要且會(huì)降低模型計(jì)算效率[16],所以本文采用如圖2所示的卷積核尺寸為k×k的一維卷積來(lái)替代通道注意力模塊中的全連接網(wǎng)絡(luò),以實(shí)現(xiàn)局部通道之間相互關(guān)聯(lián)。本文以通道之間的信息交互區(qū)域代表卷積核大小,以此避免因通道降維造成的特征信息損失。
圖2 改進(jìn)的通道注意力結(jié)構(gòu)Fig. 2 Improved channel attention structure
改進(jìn)后的通道注意力Mc的數(shù)學(xué)表達(dá)如式(3)所示。
式中:δ為 Sigmoid函數(shù);f1dk代表卷積核為 k的一維卷積,F(xiàn)max、Favg分別為進(jìn)行池化操作后得到的一維張量。
一維卷積的卷積內(nèi)核大小k的取值如式(4)所示。
為獲得空間維度上的注意力特征,把得到的模塊Mc作為作為輸入,將其沿著通道維度上分別進(jìn)行不同的池化操作;把得到的一維張量F′avg∈R1×H×W、F′max∈R1×H×W在通道維度上進(jìn)行拼接,得到拼接后的高效特征描述;最后再經(jīng)過(guò)卷積操作和 Sigmoid函數(shù)運(yùn)算,輸出空間注意力圖Ms。
Ms表達(dá)式如式(5)所示。
式中:f表示卷積計(jì)算;fconcat表示在維度上進(jìn)行拼接。
將改進(jìn)后的CBAM模塊嵌入到MobileNetV2的逆向殘模塊第2個(gè)PW卷積之后,使得模型能夠在提取特征時(shí)同時(shí),在通道和空間位置上注重關(guān)鍵信息。逆向殘差模塊位置如圖3所示。
圖3 融合注意力機(jī)制的逆向殘差模塊Fig. 3 Reverse residual module integrating attention mechanism
在特征提取過(guò)程中,圖像的低層次特征是比較籠統(tǒng)的,如邊緣形狀、紋理信息等;圖像高層次特征則能夠含有更加具體的語(yǔ)義信息。因此,對(duì)不同尺寸的特征圖進(jìn)行融合是提高模型性能的關(guān)鍵。
本文利用Yolov4,通過(guò)PANet結(jié)構(gòu)來(lái)對(duì)特征圖進(jìn)行融合;在原FPN基礎(chǔ)上增加了一條自底向上的通道,以提高低層次特征信息的利用率。
利用PANet對(duì)低層次特征和深層次特征進(jìn)行融合時(shí),通常采用的方式是把特征圖轉(zhuǎn)化為相同維度然后再直接相加。這種方式會(huì)導(dǎo)致原始特征的部分信息損失。對(duì)此,本文在模型中添加一種自適應(yīng)特征融合機(jī)制(adaptively spatial feature fusion,ASFF),如圖4所示。
圖4 Yolov4_ASFF網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Yolov4_ASFF network structure
Yolov4_ASFF的工作原理是:對(duì)某一尺度特征,先將其調(diào)整到同一尺寸大小并與其他層次的特征進(jìn)行融合;然后通過(guò)訓(xùn)練學(xué)習(xí)得到合適的權(quán)重參數(shù),最終找到最優(yōu)的融合方法。該原理的核心思想是,通過(guò)學(xué)習(xí)不同尺寸特征映射之間的連接來(lái)解決特征尺寸不一致的問(wèn)題。
圖4中,level1、level2、level3是頸部網(wǎng)絡(luò)輸出的特征層。設(shè) X(1)、X(2)、X(3)分別是來(lái)自于 level1、level2、level3的特征。首先,對(duì)X(1)、X(2)進(jìn)行雙線性插值操作并調(diào)整通道數(shù)目,得到與X(3)相同維度的特征圖;對(duì)調(diào)整到同一維度的特征 X(1)、X(2)、X(3)進(jìn)行卷積,卷積核大小為 1×1,進(jìn)而得到 3個(gè)參數(shù)α、β、γ;該 3個(gè)參數(shù)經(jīng)過(guò)Softmax函數(shù)運(yùn)算使其滿(mǎn)足及約束條件;最后,將3個(gè)不同層的特征與獲得的參數(shù)對(duì)應(yīng)相乘并求和,即得到特征融合后的 ASFF-3。計(jì)算過(guò)程如式(6)所示。
通過(guò)融入ASFF,使得網(wǎng)絡(luò)能夠在空間上消除其他不同層次特征圖帶來(lái)的負(fù)面影響,僅存留有效信息對(duì)特征進(jìn)行融合。
實(shí)驗(yàn)硬件配置條件:CPU為 AMD Ryzen7 5800H,GPU型號(hào)為NVIDIA GeForce RTX3060,內(nèi)存大小為32 GB。
實(shí)驗(yàn)軟件配置條件:深度學(xué)習(xí)框架pytorch1.8.1,python3.9。
實(shí)驗(yàn)的數(shù)據(jù)集:通過(guò)無(wú)人機(jī)巡檢得到的輸電線路鳥(niǎo)巢圖片,共1 800張。使用Labellmg工具對(duì)鳥(niǎo)巢進(jìn)行標(biāo)注,并生成和圖片對(duì)應(yīng)的xml文件,完成模型需要的VOC2007數(shù)據(jù)集制作。
因初始數(shù)據(jù)集數(shù)量較少,為了增加數(shù)據(jù)樣本量、提升模型在實(shí)際場(chǎng)景應(yīng)用下的泛化效果,通過(guò)數(shù)據(jù)增強(qiáng)[17]算法增加現(xiàn)有數(shù)據(jù)集,如采取旋轉(zhuǎn)、水平翻轉(zhuǎn)、加入噪聲的方式。
在網(wǎng)絡(luò)上對(duì)受遮擋的鳥(niǎo)巢數(shù)據(jù)進(jìn)行特征提取時(shí),下采樣操作會(huì)造成受遮擋的鳥(niǎo)巢在最后的特征圖上只能保留少部分特征信息;因信息損失較多,所以會(huì)導(dǎo)致這部分?jǐn)?shù)據(jù)識(shí)別效果不是很好。
為此,本文采用隨機(jī)擦除[18]的策略增加受遮擋鳥(niǎo)巢數(shù)據(jù),即通過(guò)在數(shù)據(jù)圖像中隨機(jī)選擇一塊矩形區(qū)塊并對(duì)該區(qū)域的像素值進(jìn)行擦除以提高模型的抗遮擋表現(xiàn)。這是一種輕量級(jí)的方法,不需要消耗額外的參數(shù)和內(nèi)存,即可達(dá)到對(duì)數(shù)據(jù)增強(qiáng)的效果。
本文采用Pre、AP(average precision)、mAP(meanaverage precision)和FPS作為模型性能的衡量標(biāo)準(zhǔn)。
Pre用于計(jì)算在預(yù)測(cè)結(jié)果中識(shí)別到真實(shí)目標(biāo)的概率。
AP值用于衡量模型在單個(gè)類(lèi)別上識(shí)別精度,為在不同召回率下最高精度的均值。
mAP值為不同類(lèi)別樣本的識(shí)別精度平均值。FPS值為模型每秒識(shí)別圖片的數(shù)量。
以6:2:2的比例,將鳥(niǎo)巢數(shù)據(jù)集分為訓(xùn)練集、驗(yàn)證集、測(cè)試集。圖像尺寸為 416×416。初始學(xué)習(xí)率設(shè)置為0.001,batch_size為32。訓(xùn)練過(guò)程中,采用隨機(jī)擦除方式對(duì)數(shù)據(jù)增強(qiáng)并結(jié)合標(biāo)簽平滑、余弦退火衰減算法訓(xùn)練技巧。
在400次迭代實(shí)驗(yàn)過(guò)程中,模型在訓(xùn)練集與驗(yàn)證集的損失變化曲線如圖5所示。
圖5 模型損失函數(shù)變化情況Fig. 5 Variation of model loss function
由圖5可以看出:訓(xùn)練過(guò)程中,前期損失值總體下降較快;在280輪epoch后,訓(xùn)練集的損失值大幅降低;在訓(xùn)練后期,驗(yàn)證集和訓(xùn)練集的損失都趨于平穩(wěn),波動(dòng)幅度低,模型逐漸達(dá)到收斂。
驗(yàn)證集的數(shù)量比訓(xùn)練集少,并且2部分?jǐn)?shù)據(jù)分布存在一定差異;同時(shí),模型在訓(xùn)練期間采用正則化——以上原因使得模型訓(xùn)練集的損失大于驗(yàn)證集的損失。
改進(jìn)模型的P-R曲線對(duì)比如圖6所示。
圖6 改進(jìn)模型的P-R曲線對(duì)比Fig. 6 Comparison of P-R curve of improved model
圖6中,分圖(a)(b)為Yolov4算法對(duì)鳥(niǎo)巢識(shí)別的P-R曲線圖,(c)(d)為改進(jìn)后的Yolov4算法對(duì)鳥(niǎo)巢識(shí)別的P-R曲線圖。在鳥(niǎo)巢的識(shí)別方面,對(duì)于未受遮擋和受遮擋2種情況,改進(jìn)Yolov4算法的AP值提升幅度分別為4.48%、3.02%。改進(jìn)后模型的mAP值由81.67%上升到85.42%,提升了3.75%。
改進(jìn)后的Yolov4算法在測(cè)試集上的部分識(shí)別效果如圖7所示。
圖7 Yolov4模型與本文模型檢測(cè)結(jié)果對(duì)比Fig. 7 Comparison of Yolov4 and model test results in this paper
從圖7可以看出:改進(jìn)后的算法對(duì)未受遮擋、受遮擋較為嚴(yán)重的鳥(niǎo)巢均能準(zhǔn)確識(shí)別。
為進(jìn)一步檢驗(yàn)本文的改進(jìn)措施對(duì)模型性能造成的影響,通過(guò)消融實(shí)驗(yàn)的方式對(duì)改進(jìn)的結(jié)構(gòu)進(jìn)行分析。
將改進(jìn)的算法分成A到E共5組進(jìn)行實(shí)驗(yàn)對(duì)比。實(shí)驗(yàn)結(jié)果如表2所示。表2中,“√”代表包含該結(jié)構(gòu),“—”代表未包含該結(jié)構(gòu)。
A組實(shí)驗(yàn):采用原始的Yolov4進(jìn)行檢測(cè)。模型mAP值達(dá)到81.67%。
B組實(shí)驗(yàn):使用 Mobilenetv2網(wǎng)絡(luò)作為原Yolov4的骨干網(wǎng)絡(luò)后,模型mAP值下降3.56%,F(xiàn)PS值提高了34幀/s。這種改進(jìn)的核心思想是,通過(guò)使用更加輕量化的骨干網(wǎng)絡(luò),減少了深層網(wǎng)絡(luò)的參量;通過(guò)犧牲部分檢測(cè)精準(zhǔn)度來(lái)大幅提高模型的檢測(cè)速度,這使得模型有利于部署在移動(dòng)端的設(shè)備中。
C組實(shí)驗(yàn):在B組實(shí)驗(yàn)的基礎(chǔ)上,模型融入了改進(jìn)CBAM模塊。這種改進(jìn)措施加強(qiáng)了特征在空間和通道維度上的聯(lián)系,目的是在增加少量計(jì)算開(kāi)銷(xiāo)的情況下提升模型的檢測(cè)精度。從表2中數(shù)據(jù)結(jié)果可以看出,模型mAP值相較B組實(shí)驗(yàn)?zāi)P吞嵘?.94%,F(xiàn)PS下降了11幀/s。
D組實(shí)驗(yàn):將改進(jìn)的CBAM注意力機(jī)制模塊記作A-CBAM,并與C組實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比。從表 2中數(shù)據(jù)結(jié)果可以看出,模型 mAP值提升1.23%,檢測(cè)速度提高了6幀/s。
E組實(shí)驗(yàn):在D組實(shí)驗(yàn)基礎(chǔ)上,添加ASFF結(jié)構(gòu);通過(guò)對(duì)不同尺度特征圖的融合方式對(duì)模型進(jìn)行改進(jìn),以增強(qiáng)模型對(duì)特征的表達(dá)能力。從表2中數(shù)據(jù)結(jié)果可以看出,最后改進(jìn)的Yolov4模型相較于原Yolov4模型,模型mAP值從81.67提升到85.42,F(xiàn)PS值從33幀/s增加到53幀/s。該結(jié)果表明,改進(jìn)后的模型無(wú)論在精度還是在速度上都具有一定程度的提升。
表2 消融實(shí)驗(yàn)對(duì)比結(jié)果Tab. 2 Comparison results of ablation experiment
在本文輸電線路鳥(niǎo)巢數(shù)據(jù)集上,將改進(jìn)后的Yolov4模型與主流的目標(biāo)檢測(cè)模型進(jìn)行性能比較分析,對(duì)比結(jié)果如表3所示。
從表3中可以看出,雙階段檢測(cè)模型Faster-RCNN雖然檢測(cè)精度略?xún)?yōu)于本文算法,但是檢測(cè)速度低并且模型過(guò)大,不適用于搭載在移動(dòng)端設(shè)備中。
表3 不同算法識(shí)別結(jié)果對(duì)比Tab. 3 Comparison of different algorithms
表3中,SSD、Yolov3-tiny、Yolov4、Yolov5s屬于單階段檢測(cè)模型。Yolov5模型結(jié)構(gòu)主要分為4個(gè)版本;考慮鳥(niǎo)巢識(shí)別對(duì)模型的實(shí)時(shí)性要求高,所以選取了網(wǎng)絡(luò)深度淺、檢測(cè)速度快的 Yolov5s進(jìn)行實(shí)驗(yàn)對(duì)比。
在目標(biāo)未受遮擋的情況下,與表3中4種單階段檢測(cè)模型相比,本文算法 AP值分別提高了15.6%、13.12%、4.48%、1.47%;在受遮擋的鳥(niǎo)巢數(shù)據(jù)集上,AP值分別提高了14.34%、12.16%、3.02%、2.56%,F(xiàn)PS提高了 26幀/s、2幀/s、20幀/s、4幀/s。在模型規(guī)模方面,本文模型比Yolov4、Yolov5s、SSD分別減少了202.6 MB、30.5 MB、79.8 MB,比Yolov3-tiny高了13.1 MB。
綜上,改進(jìn)后的Yolov4算法能夠在保證檢測(cè)速度的前提下,提高對(duì)輸電線路鳥(niǎo)巢識(shí)別的準(zhǔn)確性。
本文提出的基于改進(jìn)Yolov4的輸電線路鳥(niǎo)巢輕量級(jí)檢測(cè)算法具有以下優(yōu)勢(shì):
首先,模型采用輕量級(jí)MobileNetV2網(wǎng)絡(luò)作為Yolov4的特征提取網(wǎng)絡(luò),大幅減少了模型體積,并提高了檢測(cè)速度。
其次,在特征網(wǎng)絡(luò)中添加了改進(jìn)的CBAM模塊,從而加強(qiáng)了網(wǎng)絡(luò)的表征能力;結(jié)合自適應(yīng)特征融合機(jī)制找到不同尺度特征圖最優(yōu)融合方式,進(jìn)一步提高了模型的識(shí)別精度。
實(shí)驗(yàn)結(jié)果表明,改進(jìn)的Yolov4模型在檢測(cè)精度和速度上均具有較大提升并且模型體積相較Yolov4壓縮了約80.9%。
對(duì)比現(xiàn)有的 Yolov3-tiny、Yolov5s、Faster-RCNN等網(wǎng)絡(luò),本文模型實(shí)現(xiàn)了在檢測(cè)速度和識(shí)別精度方面更好的平衡,容易部署到移動(dòng)端設(shè)備中,可滿(mǎn)足日常電力巡檢中鳥(niǎo)巢識(shí)別任務(wù)要求。