摘要:鳥類生活在多樣的生態(tài)環(huán)境中,其羽毛、體型、顏色等特征具有較大的隨機性和多樣性,因此需要有效的算法來實現(xiàn)精確的鳥類識別,有效識別各種鳥類目標(biāo),這具有重要的生態(tài)環(huán)境保護(hù)意義。本文使用改進(jìn)后的RepVGG網(wǎng)絡(luò)對鳥類圖像進(jìn)行分類。為了提取到更有效的特征表示,在RepVGG的特征提取網(wǎng)絡(luò)中插入了CBAM注意力機制模塊。這個模塊能夠自適應(yīng)地調(diào)整特征圖的通道和空間注意力,從而增強重要特征的表達(dá)能力。另外,由于數(shù)據(jù)樣本存在不平衡問題,本文還引入了IB Loss的類平衡損失函數(shù)。該損失函數(shù)基于樣本對模型訓(xùn)練的影響,為不同樣本分配不同的權(quán)重,以實現(xiàn)類平衡化。經(jīng)過一系列實驗表明,基于RepVGG網(wǎng)絡(luò)和CBAM注意力機制的算法能夠在識別不同種類的鳥類圖像時取得較好的準(zhǔn)確度。這表明本文的算法具備一定的實用性和準(zhǔn)確性,對于鳥類目標(biāo)的識別和生態(tài)環(huán)境的保護(hù)具有重要意義。
關(guān)鍵詞: 圖像分類;RepVGG;CBAM;IB Loss;鳥類識別
一、引言
變電站、輸電線路驅(qū)鳥是一項重要的任務(wù),根據(jù)不同鳥類的種類,通過發(fā)送不同波段的光來實現(xiàn)驅(qū)鳥已被證明是一種有效的方法。因此,精確識別鳥類是驅(qū)鳥工作的關(guān)鍵環(huán)節(jié) [1-2]。
目前,現(xiàn)有的鳥類圖像分類算法主要基于傳統(tǒng)的特征提取方法,如SIFT、HOG等,但這些方法需要手工提取特征,且存在識別精度低、分類速度慢等問題。人工處理圖像耗時費力,因此需要找到一種快捷、高效的鳥類圖像分類方法[3-5]。隨著深度學(xué)習(xí)技術(shù)的迅猛發(fā)展,圖像分類領(lǐng)域取得了顯著的進(jìn)展。各種改進(jìn)和創(chuàng)新的卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)相繼涌現(xiàn),例如VGGNet[6]、ResNet[7]等。這些網(wǎng)絡(luò)的出現(xiàn)不僅在通用圖像分類任務(wù)中取得了顯著的成果,也在各種領(lǐng)域的特定圖像識別任務(wù)中取得了成功。
劉堅等人[8]通過CNN和OpenCV結(jié)合數(shù)字圖像處理技術(shù)對野生鳥類進(jìn)行種類識別,取得了一定的識別能力和高精度,但是該系統(tǒng)受光線和環(huán)境的影響較大。在鳥類圖像識別的任務(wù)中,傳統(tǒng)的CNN模型仍然面臨著一些問題。鳥類圖像通常具有多樣性的外觀和姿態(tài),并且不同鳥類之間的相似性較高,這使得區(qū)分它們變得更加困難。針對這些問題,一些研究者提出了特定的方法,以優(yōu)化CNN在鳥類圖像識別任務(wù)中的性能。
RepVGG作為近年來提出的一種新型CNN架構(gòu),在多個圖像識別任務(wù)中表現(xiàn)出色,沈希忠等人[9]引入高效通道注意力,提高帶鋼表面缺陷識別的穩(wěn)定性和準(zhǔn)確率。最近的研究表明,注意力機制在圖像分類中具有顯著作用。例如,陳文豪[10]等人通過引入空間和通道注意力機制,顯著提升了圖像分類性能。然而,在鳥類圖像識別領(lǐng)域,RepVGG的應(yīng)用尚未得到更加深入的研究。在本文中,筆者將嘗試將這些近期的方法與RepVGG相結(jié)合,以改進(jìn)鳥類圖像識別分類算法的性能。
綜上所述,本研究旨在改進(jìn)RepVGG在鳥類圖像識別分類任務(wù)中的性能,通過引入注意力機制,更好地應(yīng)對鳥類圖像識別中的挑戰(zhàn)。此工作不僅可以為鳥類生態(tài)學(xué)等領(lǐng)域提供有益的技術(shù)支持,也為深度學(xué)習(xí)在特定領(lǐng)域圖像識別任務(wù)中的應(yīng)用提供了新的思路和方法。
二、基于改進(jìn)RepVGG的鳥類圖像分類算法
本文所提出的算法是在原始RepVGG網(wǎng)絡(luò)的基礎(chǔ)上引入一種注意力機制模塊CBAM[11]以及IB Loss。RepVGG網(wǎng)絡(luò)包含5個階段,每個階段由若干不同數(shù)量的3支路卷積塊堆疊而成。不同于原始的VGG網(wǎng)絡(luò),RepVGG在每階段的第1個卷積塊中采用步長為2的卷積層將特征圖尺寸變換為輸入特征的一半。完成輸入圖像的特征提取后,網(wǎng)絡(luò)對第5階段的輸出執(zhí)行全局平均池化,并通過1個全連接層實現(xiàn)鳥類圖像的分類。但原始RepVGG模型在訓(xùn)練過程中,特征提取能力較弱[12],會學(xué)習(xí)一些不必要的特征。
通過引入注意力機制模塊CBAM來提升有益特征的權(quán)重。并借助IB Loss對模型進(jìn)行訓(xùn)練,以解決鳥類圖像各類樣本差異性較大的問題。通過重新分配樣本權(quán)重,以解決樣本數(shù)量不平衡的問題,提升網(wǎng)絡(luò)對樣本數(shù)量較少的類的分類精度。
(一)CBAM注意力
通過卷積運算,RepVGG可以從通道和空間的混合信息中提取分類任務(wù)所需的特征表示。為了獲得更有效的特征表示,本文引入了CBAM。CBAM主要由通道注意力機制模塊和空間注意力機制模塊兩部分構(gòu)成。
假設(shè)輸入特征為F,通道注意力機制模塊為Mc(·),空間注意力機制模塊為Ms(·),則有F'=Mc(F)×F以及F''=Ms(F')×F',其中,F(xiàn)'和F''分別表示通道注意力機制模塊和空間注意力機制模塊的輸出。
通道注意力機制模塊通過對輸入特征的空間維度作壓縮,CBAM實現(xiàn)了對空間信息的聚集[12]。CBAM設(shè)計了一種包含兩條支路的注意力機制模塊,將輸入特征Fc送入最大值池化支路和平均池化支路。隨后,CBAM將提取到的特征送入權(quán)重共享的多層感知器,并得到兩個通道注意力映射。將兩個映射按元素相加,并使用Sigmoid激活得到最終的通道注意力映射[13]。通道注意力的公式為:
空間注意力機制模塊會對經(jīng)過通道注意力機制模塊強化的特征F'沿通道維度依次執(zhí)行最大值池化和均值池化。通過將生成的兩種值池化按通道方向做拼接做卷積,CBAM可以生成最終的空間注意力映射??臻g注意力機制模塊公式為:
如圖1所示,本文在每個階段的輸出和下一階段的輸入之間插入了CBAM模塊。不同于原始CBAM使用7*7的大尺寸卷積核,本文采用3*3卷積核尺寸。改變卷積核尺寸可以在保證檢測精度的前提下,減少模型的參數(shù)量。
(二)IB損失函數(shù)
由于不同的鳥類在自然界中的分布存在差異, 研究者常常面臨樣本數(shù)量不平衡的情況。樣本數(shù)量不平衡可能會對模型的訓(xùn)練和性能產(chǎn)生影響。
為了解決以上問題,本文引入了IB Loss作為模型訓(xùn)練的損失函數(shù)。通過降低造成決策邊界過擬合的樣本的權(quán)重來微調(diào)決策邊界,使其變得更加平滑。
假設(shè)模型w參數(shù)化后的表現(xiàn)形式是,f (x,w)設(shè)模型訓(xùn)練的損失函數(shù) ,則模型的最佳參數(shù)是 。其中xi表示第i個訓(xùn)練樣本,yi表示它所對應(yīng)的標(biāo)簽。模型訓(xùn)練分為兩步:首先使用普通的損失函數(shù)去訓(xùn)練模型,訓(xùn)練完成后,模型的參數(shù)w應(yīng)處于最優(yōu)w*附近,而損失函數(shù)應(yīng)當(dāng)趨近于0。然后,IB Loss會對模型做微調(diào)。
RepVGG的默認(rèn)損失函數(shù)是交叉熵?fù)p失函數(shù)。因為IB Loss的研究目標(biāo)是分類任務(wù)中決策邊界上出現(xiàn)的過擬合現(xiàn)象,所以需要關(guān)注網(wǎng)絡(luò)的最后一個全連接層。假設(shè)全連接層的輸入是,輸出是 ,
權(quán)重是 , 則有。其中,σ是Softmax函數(shù),fk是f (x,w)的第k個輸出。全連接層的損失梯度wkl表示為:
為實現(xiàn)樣本的均衡化,將梯度變化量的倒數(shù)作為系數(shù)和原始損失函數(shù)相乘得到了新的損失函數(shù)為:
三、實驗結(jié)果與分析
(一)數(shù)據(jù)集介紹
本次實驗所采用的數(shù)據(jù)集是網(wǎng)絡(luò)數(shù)據(jù)集,包含400種鳥類,其中58388張為訓(xùn)練集,2000張為測試集,2000張為驗證集。測試集和驗證集都是從每一類中抽取5張圖片組成,所有圖片都是224×224×3的彩色圖像。
(二)實驗結(jié)果分析
本文基于Ubuntu 20.04.4 + Python 3.9.7 + Pytorch1.11.0,24GB的NVIDIA GeForce TITAN RTX顯卡進(jìn)行模型訓(xùn)練。模型訓(xùn)練所使用的優(yōu)化器為SGD,初始學(xué)習(xí)率為0.1。模型共計訓(xùn)練了200個epoch。
為了驗證本文所提算法的有效性,本文對其執(zhí)行了消融實驗,實驗結(jié)果如表1所示。其中,Baseline是原始RepVGG網(wǎng)絡(luò)在鳥類圖像分類任務(wù)上的表現(xiàn),Proposed表示網(wǎng)絡(luò)同時采用CBAM注意力機制模塊和IB Loss損失函數(shù)時的表現(xiàn)。
由表2可知,在RepVGG特征提取網(wǎng)絡(luò)中插入CBAM注意力模塊,可以有效提升網(wǎng)絡(luò)的分類精度。
四、結(jié)束語
鑒于人工對鳥類圖像分類耗時費力,本文提出了一種智能分類算法,用于解決這一問題。在現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,本算法引入了一種改進(jìn)的網(wǎng)絡(luò)架構(gòu),并在特征提取階段插入了CBAM注意力機制模塊,以增強網(wǎng)絡(luò)對關(guān)鍵特征的關(guān)注。同時,本算法針對鳥類識別數(shù)據(jù)集中存在的類別不平衡問題,采用了IB Loss損失函數(shù)進(jìn)行解決。該損失函數(shù)可以根據(jù)樣本對模型訓(xùn)練的影響程度,為不同樣本分配不同的權(quán)重。
綜合實驗結(jié)果來看,本算法在鳥類識別任務(wù)中取得了顯著的性能提升。通過引入新的網(wǎng)絡(luò)架構(gòu)和注意力機制,算法在分類精度方面表現(xiàn)出更好的效果。同時,通過使用IB Loss損失函數(shù),成功地解決了類別不平衡問題。這些改進(jìn)措施共同作用下,使得算法在鳥類識別任務(wù)上表現(xiàn)出了更好的性能。
作者單位:萬勇 李繼武 李維漢 邱宇晟 國網(wǎng)江蘇省電力有限公司泗洪縣供電分公司
參考文獻(xiàn)
[1]魏秀參,許玉燕,楊健. 網(wǎng)絡(luò)監(jiān)督數(shù)據(jù)下的細(xì)粒度圖像識別綜述[J]. 中國圖象圖形學(xué)報,2022,27(7):2057-2077.
[2]楊雪鶴,劉歡喜,肖建力. 多模態(tài)生物特征提取及相關(guān)性評價綜述[J]. 中國圖象圖形學(xué)報,2020,25(8):1529-1538.
[3]青晨,禹晶,肖創(chuàng)柏,等. 深度卷積神經(jīng)網(wǎng)絡(luò)圖像語義分割研究進(jìn)展[J]. 中國圖象圖形學(xué)報,2020,25(6):1069-1090.
[4]劉穎,劉紅燕,范九倫,等.基于深度學(xué)習(xí)的小目標(biāo)檢測研究與應(yīng)用綜述[J].電子學(xué)報,2020, 48(3): 590.
[5]張順,龔怡宏,王進(jìn)軍.深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展及其在計算機視覺領(lǐng)域的應(yīng)用[J].計算機學(xué)報,2019,42(3): 453-482.
[6]原忠虎,王維,蘇寶玲.基于改進(jìn)VGGNet模型的外來入侵植物葉片識別方法[J].計算機與現(xiàn)代化,2021(9):7-11.
[7]魏秀業(yè),程海吉,賀妍,等.基于特征融合與ResNet的行星齒輪箱故障診斷[J].電子測量與儀器學(xué)報,2022,36(5): 213-222.
[8]劉堅.基于深度神經(jīng)網(wǎng)絡(luò)的鳥類圖像識別系統(tǒng)設(shè)計[J]. 農(nóng)業(yè)裝備與車輛工程,2019,57(9):113-116.
[9]沈希忠,謝旭.帶鋼表面缺陷的RepVGG網(wǎng)絡(luò)改進(jìn)及其識別[J].現(xiàn)代制造工程,2023(5):121-126.
[10]鄧文軒,楊航,靳婷.基于注意力機制的圖像分類降維方法[J].廣西師范大學(xué)學(xué)報(自然科學(xué)版), 2021,39(2): 32-40.
[11]華昕宇,祁云嵩.IC+IEffxNet:一種基于CBAM和改進(jìn)通道注意力的EfficientNet的混合腦腫瘤分類方法[J].計算機與現(xiàn)代化,2023(5):1-7.
[12]楊鵬強,張艷偉,胡釗政.基于改進(jìn) RepVGG 網(wǎng)絡(luò)的車道線檢測算法[J].交通信息與安全, 2022, 40(2): 73-81.
[13]張建恒,楊智宇,夏利紅,等.融合注意力機制的輕量化道路交通標(biāo)志檢測方法[J].電子測量技術(shù),2023,46(21):85-92.