梁 曉, 李 俊
(桂林電子科技大學(xué),a.電子工程與自動(dòng)化學(xué)院; b.計(jì)算機(jī)與信息安全學(xué)院,廣西 桂林 541000)
低空無(wú)人機(jī)具有體積小、種類多、移動(dòng)速度快[1]等特點(diǎn)。隨著無(wú)人機(jī)市場(chǎng)法律法規(guī)的逐年完善以及行業(yè)的強(qiáng)勁需求,我國(guó)的低空無(wú)人機(jī)行業(yè)發(fā)展迅速,低空無(wú)人機(jī)數(shù)量激增,給區(qū)域安全帶來(lái)了巨大的威脅。一些區(qū)域如政府、監(jiān)獄、機(jī)場(chǎng)、會(huì)議廳等場(chǎng)所已設(shè)置了嚴(yán)格的禁飛區(qū)域,然而低空無(wú)人機(jī)“黑飛”事件卻時(shí)有發(fā)生[2]。因此,無(wú)人機(jī)反制技術(shù)成為研究熱點(diǎn),其中,無(wú)人機(jī)目標(biāo)的識(shí)別問(wèn)題是無(wú)人機(jī)反制過(guò)程中的核心問(wèn)題之一。目前,主流的無(wú)人機(jī)檢測(cè)技術(shù)有雷達(dá)探測(cè)、圖像檢測(cè)、聲波檢測(cè)、電磁信號(hào)檢測(cè)[3]等。由于無(wú)人機(jī)的體型較小,所能輻射的雷達(dá)截面有限,城市環(huán)境中干擾因素較多,探測(cè)雷達(dá)在城市環(huán)境中部署受限;聲波檢測(cè)和電磁信號(hào)檢測(cè)同樣會(huì)受到城市中干擾因素的干擾,致使檢測(cè)效果大打折扣;圖像檢測(cè)相較其他方法適用性更好,一般使用可見(jiàn)光圖像來(lái)進(jìn)行無(wú)人機(jī)目標(biāo)監(jiān)控,但這種方法無(wú)法應(yīng)對(duì)黑夜、霧霾、沙塵暴等特殊天氣環(huán)境,在實(shí)現(xiàn)全天候、應(yīng)對(duì)復(fù)雜干擾工作環(huán)境中具有一定的局限性。紅外圖像具有不受可見(jiàn)光源影響、高抗干擾性、煙霧穿透力強(qiáng)[4]等優(yōu)點(diǎn)。因此,基于紅外圖像的無(wú)人機(jī)目標(biāo)識(shí)別具有巨大的應(yīng)用價(jià)值和研究意義。
紅外圖像檢測(cè)作為圖像檢測(cè)的一個(gè)重要研究方向,被廣泛應(yīng)用于軍事勘察、農(nóng)業(yè)預(yù)警、醫(yī)學(xué)掃描、設(shè)備監(jiān)控等領(lǐng)域。相較可見(jiàn)光圖像,紅外圖像具有目標(biāo)特征紋理更少、信噪比低、沒(méi)有顏色特征[5]等特點(diǎn),因此在紅外圖像中對(duì)目標(biāo)進(jìn)行識(shí)別更具難度。近年來(lái)針對(duì)紅外圖像的檢測(cè),提出了如基于小波變換[6]、多模態(tài)閾值降噪[7]、基于多尺度灰度差的特定數(shù)理統(tǒng)計(jì)算法[8]等方法來(lái)增強(qiáng)圖像質(zhì)量,以更好地實(shí)現(xiàn)紅外目標(biāo)檢測(cè)。常見(jiàn)的通過(guò)深度學(xué)習(xí)來(lái)實(shí)現(xiàn)目標(biāo)識(shí)別的算法有R-CNN[9],Fast R-CNN[10],Faster R-CNN[11]等。常見(jiàn)的實(shí)時(shí)目標(biāo)檢測(cè)算法有SSD[12]和YOLO[13]。目前的目標(biāo)識(shí)別算法多適用于RGB圖像,由于紅外無(wú)人機(jī)目標(biāo)圖像紋理信息較少,圖像噪聲大,在復(fù)雜環(huán)境中與背景難以區(qū)分、背景變化快等問(wèn)題,檢測(cè)效果并不理想。文獻(xiàn)[14]通過(guò)結(jié)合YOLO與高效輕量網(wǎng)絡(luò)、增大感受野的方法來(lái)加強(qiáng)目標(biāo)的特征提取;文獻(xiàn)[15]提出一種從多維度方向考慮關(guān)聯(lián)目標(biāo)特征的檢測(cè)算法,引入了基于相對(duì)速高比的跳幀機(jī)制,來(lái)配準(zhǔn)幀間圖像檢出候選目標(biāo);文獻(xiàn)[16]通過(guò)結(jié)合不同運(yùn)動(dòng)形態(tài)的目標(biāo)模式來(lái)融合不同維度的紅外目標(biāo)特征,增強(qiáng)了目標(biāo)特征并抑制背景噪聲。
YOLOv7有高檢測(cè)精度、高檢測(cè)速率以及更少的參數(shù)產(chǎn)生的特點(diǎn)[17],適用于實(shí)時(shí)無(wú)人機(jī)檢測(cè)任務(wù),然而針對(duì)紅外圖像的無(wú)人機(jī)目標(biāo)檢測(cè)精度不高,在噪聲干擾的復(fù)雜背景下常常無(wú)法有效識(shí)別無(wú)人機(jī)目標(biāo)。本文通過(guò)引入通道注意力機(jī)制和空間注意力機(jī)制,采用改進(jìn)的串行連接方式來(lái)加強(qiáng)對(duì)特征的表征能力,同時(shí)抑制背景對(duì)目標(biāo)特征的影響,引入新的損失函數(shù)來(lái)提高模型的收斂性與檢測(cè)精度。
YOLOv7網(wǎng)絡(luò)主要分為主干(Backbone)網(wǎng)絡(luò)和頭部(Head)網(wǎng)絡(luò)。網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。
主干網(wǎng)絡(luò)進(jìn)行圖像的特征提取過(guò)程,頭部網(wǎng)絡(luò)進(jìn)行特征的加強(qiáng)融合和預(yù)測(cè)過(guò)程。經(jīng)圖像預(yù)處理后,模型輸入圖像大小為640×640(單位:像素),圖像在主干網(wǎng)絡(luò)中先進(jìn)行4次卷積塊操作,卷積塊由卷積層、BN層、激活函數(shù)組成。經(jīng)卷積塊操作后輸出兩倍下采樣特征圖,之后特征圖會(huì)經(jīng)過(guò)ELAN結(jié)構(gòu),ELAN為整個(gè)YOLOv7網(wǎng)絡(luò)的核心結(jié)構(gòu),在ELAN結(jié)構(gòu)中特征圖會(huì)首先通過(guò)2個(gè)1×1卷積使通道數(shù)減半,之后分別進(jìn)入不同的通道進(jìn)行卷積操作,每一個(gè)分支的卷積層輸入通道和輸出通道都保持一致,從而更高效地進(jìn)行特征提取,最終進(jìn)行融合操作,輸出的通道數(shù)為輸入的2倍。之后圖像依次經(jīng)過(guò)3個(gè)MP+ELAN層,分別輸出80×80,40×40,20×20大小的特征圖,如圖2所示。
圖2 不同尺度特征圖可視化
YOLOv7的頭部網(wǎng)絡(luò)借鑒FPN[18]結(jié)構(gòu),特征信息在網(wǎng)絡(luò)中通過(guò)上采樣層、拼接層、池化層、ELAN層等操作,將低采樣層中的高細(xì)粒度特征與高采樣層中的高語(yǔ)義信息特征圖進(jìn)行融合,并最終在80×80,40×40,20×20這3個(gè)尺度上完成對(duì)目標(biāo)的預(yù)測(cè)。
2.1.1 注意力機(jī)制
注意力機(jī)制因其靈活、輕量、性能出色等特點(diǎn),近年來(lái)被廣泛應(yīng)用于目標(biāo)識(shí)別領(lǐng)域。特殊的紅外光反射成像方法導(dǎo)致紅外圖像的紋理特征較弱,圖像細(xì)節(jié)模糊且圖像中存在著較強(qiáng)的噪聲干擾。在檢測(cè)過(guò)程中很容易因目標(biāo)特征不明顯和背景噪聲干擾造成漏檢、錯(cuò)檢的情況[19]。為改善這一問(wèn)題,通過(guò)融合注意力機(jī)制來(lái)提升圖像的空間信息量,通過(guò)“注意力”來(lái)增強(qiáng)目標(biāo)區(qū)域的特征表達(dá)能力,同時(shí)抑制區(qū)域周圍的噪聲干擾。本文使用的注意力機(jī)制為通道注意力機(jī)制和空間注意力機(jī)制,其中,通道注意力將不同的權(quán)重給予特征通道,關(guān)注物體“是什么”??臻g注意力將不同的權(quán)重給予特征的空間位置,關(guān)注物體“在哪里”。引入通道注意力模塊(Channel Attention Module,CAM)[20]和空間注意力模塊(Spatial Attention Module,SAM)[20],結(jié)構(gòu)如圖3所示。
圖3 通道注意力模塊和空間注意力模塊結(jié)構(gòu)
由圖3可知,在CAM模塊中,特征圖F分別進(jìn)入最大池化層和平均池化層,原有的特征圖會(huì)被壓縮為1×1大小同時(shí)通道數(shù)被擴(kuò)充,之后生成的兩個(gè)1×1×n大小的特征圖會(huì)分別經(jīng)過(guò)MLP全連接神經(jīng)網(wǎng)絡(luò)進(jìn)行兩次全連接處理,全連接操作不改變?cè)械拇笮『屯ǖ?經(jīng)全連接處理的特征圖進(jìn)行加和操作和Sigmoid操作,得到輸出的特征圖MC為
在小區(qū)門前,杜一朵碰見(jiàn)了一個(gè)熟人。熟人問(wèn)她一大早忙什么去?杜一朵隨口說(shuō),打牌去。都曉得杜一朵愛(ài)打牌,且打得一手好牌。熟人也沒(méi)多想,點(diǎn)點(diǎn)頭就過(guò)去了。后來(lái)熟人又遇見(jiàn)一個(gè)熟人,熟人慣性地問(wèn),你也打牌去?那人兩眼通紅大著嗓門說(shuō),清晨八早打個(gè)屁!打炮!
MC(F)=σ(MLP(Avgpool(F))+MLP(Maxpool(F)))
(1)
式中:σ為標(biāo)準(zhǔn)差;Avgpool(·)為平均池化操作;Maxpool(·)為最大池化操作。
在SAM模塊中,輸入的特征圖F′會(huì)先進(jìn)行通道上的最大池化操作,再進(jìn)行平均池化操作,該操作不改變特征圖的大小,而是將特征層的通道壓縮,最終生成兩個(gè)單通道特征圖,之后將這兩個(gè)特征圖進(jìn)行堆疊,最后經(jīng)一個(gè)單通道卷積核處理為單通道特征圖,再經(jīng)數(shù)值Sigmoid處理后得到特征圖MS,即
MS(F′)=σ(f7×7([Maxpool(F′);Avgpool(F′)])) 。
(2)
2.1.2 改進(jìn)結(jié)構(gòu)
注意力機(jī)制可以幫助網(wǎng)絡(luò)在訓(xùn)練過(guò)程中關(guān)注到重要的目標(biāo)信息,結(jié)合通道和空間注意力機(jī)制可以很好地兼顧特征的通道信息和空間信息[21]。一定程度上加強(qiáng)了對(duì)特征區(qū)域的關(guān)注度。在實(shí)驗(yàn)測(cè)試中發(fā)現(xiàn),通道注意力機(jī)制在檢測(cè)中有較弱的表現(xiàn),說(shuō)明對(duì)于紅外檢測(cè)任務(wù),通道注意力給予通道的權(quán)值有較大的分化,在加強(qiáng)一部分通道表達(dá)的同時(shí)弱化了部分通道中的特征信息,引起了特征信息表征不準(zhǔn)確的情況。為解決此問(wèn)題,重新設(shè)計(jì)了兩種注意力機(jī)制的連接方式并融入到卷積塊結(jié)構(gòu)中。本文將此結(jié)構(gòu)稱為CBS-A,如圖4所示。
圖4 CBS-A注意力模塊結(jié)構(gòu)
特征圖F經(jīng)過(guò)卷積結(jié)構(gòu)后首先經(jīng)過(guò)CAM,將生成的通道權(quán)重更新在原特征圖F上,再輸入到SAM中得到新的權(quán)重信息,新的權(quán)重信息作為最終的權(quán)重信息更新在特征圖F上,得到經(jīng)注意力機(jī)制處理的最終特征圖F″,即
F″=MS(MC(F)?F)?F。
(3)
經(jīng)注意力模塊輸出的特征信息再經(jīng)BN層、激活函數(shù)層輸出結(jié)果。在CBS-A模塊中,最終,SAM輸出的權(quán)值表征在原特征圖上,CAM輸出的權(quán)重信息只參與生成了SAM的輸入,不再直接影響最終的輸出,只是在局部參與了特征的注意力操作,從而一定程度上削弱了CAM對(duì)全局的影響,使得更多的特征被保留下來(lái)。
將改進(jìn)后的CBS-A模塊替換圖1中ELAN-1,ELAN- 2結(jié)構(gòu)中多通道融合后的CBS卷積塊,融合CBS-A模塊后的ELAN結(jié)構(gòu)如圖5所示。
圖5 融合CBS-A注意力的ELAN結(jié)構(gòu)
改進(jìn)的注意力模塊不影響ELAN結(jié)構(gòu)中多通道融合時(shí)目標(biāo)的原有特征,特征信息經(jīng)拼接操作后再經(jīng)過(guò)注意力模塊,改進(jìn)前后的模型參數(shù)量和平均檢測(cè)精度變化如表1所示。
表1 兩種模型參數(shù)量和平均檢測(cè)精度對(duì)比
模型識(shí)別過(guò)程中預(yù)測(cè)邊框與真實(shí)邊框擬合的好壞用邊框損失函數(shù)來(lái)度量。YOLOv7使用了CIoU作為邊框損失函數(shù),即
(4)
(5)
(6)
(7)
式中:A為預(yù)測(cè)框;B為真實(shí)框;w,h為A的寬和高;wgt,hgt分別為B的寬和高;A和B的交并比IIoU表示A,B兩個(gè)框的位置擬合關(guān)系;p2(b,bgt)表示A,B兩個(gè)框中心點(diǎn)之間的歐氏距離;c為能夠同時(shí)包圍A,B兩個(gè)框的最小矩形框的對(duì)角線距離;α為權(quán)重系數(shù);v為A,B框?qū)捀弑鹊囊恢滦浴?/p>
CIoU從預(yù)測(cè)框和真實(shí)框的中心點(diǎn)偏差、重合度、邊框尺度等方面考慮邊框回歸問(wèn)題,主要依賴于邊界框回歸指標(biāo)的聚合,在預(yù)測(cè)框和所需真實(shí)框不匹配的情況下,收斂速度較慢。對(duì)此,SIoU[22]損失函數(shù)通過(guò)引入真實(shí)框和預(yù)測(cè)框之間的向量角度,結(jié)合尺度距離變化,重新考慮了邊框損失問(wèn)題。SIoU損失函數(shù)為
(8)
(9)
(10)
本文實(shí)驗(yàn)在Windows10平臺(tái)上運(yùn)行,CPU為Intel?CoreTMi7-8700 CPU@3.20 GHz,GPU采用NVIDIA GeForce- RTX 2070,16 GiB內(nèi)存。實(shí)驗(yàn)環(huán)境基于Pytorch1.10.2。
現(xiàn)階段公開的紅外無(wú)人機(jī)目標(biāo)數(shù)據(jù)集較少,本文所使用的訓(xùn)練數(shù)據(jù)集來(lái)自CVPR 2020 Anti-UAV無(wú)人機(jī)挑戰(zhàn)賽提供的140段無(wú)人機(jī)紅外視頻,視頻拍攝背景環(huán)境包含天空、云層、高樓、水面等。在經(jīng)過(guò)視頻分幀處理后進(jìn)行篩選和分類,得到2786張圖像,圖像大小均為640×512(單位:像素)??紤]到無(wú)人機(jī)飛行過(guò)程中存在的姿態(tài)變化以及拍攝設(shè)備的仰角變化等因素,對(duì)其中的部分圖像使用旋轉(zhuǎn)、鏡像等方法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。最終將得到的3536張圖像進(jìn)行VOC格式的手工數(shù)據(jù)標(biāo)注,最后按照7∶3的比例隨機(jī)劃分為訓(xùn)練數(shù)據(jù)集和測(cè)試數(shù)據(jù)集。
本文所有改進(jìn)方法均基于YOLOv7版本,訓(xùn)練初始學(xué)習(xí)率為0.01,每次訓(xùn)練200個(gè)周期。批尺寸為6,采用SGD作為優(yōu)化器,動(dòng)量參數(shù)為0.937。使用K-means聚類算法對(duì)先驗(yàn)框進(jìn)行優(yōu)化。
采用精確率P、召回率R、mAP和FPS作為評(píng)價(jià)模型性能的指標(biāo),以IoU作為評(píng)價(jià)邊框擬合好壞的指標(biāo)。精確率表示在所有判定為某一類別的樣本中,正確判定樣本所占的比重,召回率表示在某一類別樣本中樣本被正確判定的比重,mAP是在不同的IoU值下平均檢測(cè)精度,即
(11)
式中,C為類別數(shù)。
檢測(cè)幀率(FPS)表示模型運(yùn)行中每秒處理的幀數(shù),用來(lái)檢測(cè)模型的實(shí)時(shí)性能。
本文將改進(jìn)的算法與常見(jiàn)的幾種單階段目標(biāo)檢測(cè)算法進(jìn)行實(shí)驗(yàn)對(duì)比,通過(guò)各項(xiàng)指標(biāo)對(duì)比來(lái)研究本文改進(jìn)算法的檢測(cè)性能,實(shí)驗(yàn)結(jié)果如表2所示。
從表2可以看出,本文的改進(jìn)算法的精確率、召回率、mAP值均為最優(yōu),相較其他算法提升明顯。相較YOLOv7算法精確率、召回率、 mAP分別提升了3.6%,1.7%,5.8%。由于本文添加了通道注意力模塊(CAM)和空間注意力模塊(SAM),給模型增加了一定的參數(shù)量,在檢測(cè)幀率上較YOLOv7算法略有下降,一般認(rèn)為當(dāng)模型檢測(cè)幀率大于25幀/s就可以實(shí)時(shí)檢測(cè),因此本文改進(jìn)的模型仍能滿足紅外檢測(cè)任務(wù)的實(shí)時(shí)性要求。
表2 各算法對(duì)比結(jié)果
為進(jìn)一步探究本文改進(jìn)算法對(duì)模型的影響,同時(shí)探究通道注意力模塊(CAM)和空間注意力模塊(SAM)在紅外目標(biāo)檢測(cè)任務(wù)中對(duì)模型的價(jià)值性,設(shè)計(jì)了消融實(shí)驗(yàn)來(lái)對(duì)各個(gè)改進(jìn)進(jìn)行評(píng)估,實(shí)驗(yàn)結(jié)果如表3所示。此實(shí)驗(yàn)共涉及5種不同的改進(jìn)模型,分別為YOLOv7_1,YOLOv7_2,YOLOv7_3,YOLOv7_4和本文改進(jìn)模型,“√”表示在實(shí)驗(yàn)中使用了此改進(jìn)模型,“×”表示在實(shí)驗(yàn)中未使用此改進(jìn)模型。
表3 消融實(shí)驗(yàn)
由表3可知,使用單一的CAM或SAM對(duì)模型整體的提升較弱,其中,CAM效果在mAP@0.5:0.95的精度上甚至起到了反向作用,說(shuō)明CAM在紅外目標(biāo)檢測(cè)任務(wù)中對(duì)特征的表達(dá)能力波動(dòng)較大,不能準(zhǔn)確表達(dá)特征。YOLOv7_3模型證明了將兩種注意力模塊串行結(jié)合使用的有效性,可以更好地幫助模型提取特征。對(duì)比YOLOv7_3,YOLOv7_4模型可知,本文的注意力模塊連接方式在同時(shí)將兩種注意力模塊結(jié)合使用的基礎(chǔ)上,降低了通道注意力機(jī)制的輸出權(quán)重對(duì)整個(gè)注意力模塊的影響,減少了因通道權(quán)重引起特征表征能力不準(zhǔn)確的影響,在實(shí)驗(yàn)中取得了更好的效果。對(duì)比YOLOv7_4和本文改進(jìn)模型可知,在使用SIoU損失函數(shù)作為模型的邊框損失函數(shù)后模型精度進(jìn)一步得到提升。
圖6為同一目標(biāo)在不同模型中輸出的不同尺度下的可視化特征圖,從左往右依次為檢測(cè)結(jié)果,80×80,40×40,20×20大小的特征圖。
圖6 不同模型輸出結(jié)果
從圖6中可以直觀地看出:使用注意力機(jī)制對(duì)模型的特征提取均有一定提升效果,從圖6(b),6(c)與圖6(a)對(duì)比可知,CAM對(duì)模型的提升較弱,而SAM的提升效果要更好;由圖6(d)可知,同時(shí)結(jié)合兩種注意力模塊后檢測(cè)結(jié)果較原算法提升明顯,特征圖上目標(biāo)位置更為清晰;由圖6(e)可知,本文的改進(jìn)模型在特征圖上可以更為清晰地看到目標(biāo)位置,背景中的干擾更小,使得本文的改進(jìn)模型在實(shí)驗(yàn)中取得了最高的檢測(cè)置信度。
圖7為YOLOv7算法與本文改進(jìn)算法的邊框損失曲線。
圖7 損失度值下降曲線
可以看到,在訓(xùn)練50批次后改進(jìn)算法的邊框損失曲線相較原損失函數(shù)的損失曲線收斂性更好。
圖8為YOLOv7算法與本文算法在云層背景、高樓背景、水面背景和山嶺背景下的檢測(cè)結(jié)果圖以及輸出的40×40特征圖。由于紅外圖像缺少色彩特征,使得背景中與目標(biāo)相似的特征更容易干擾到檢測(cè),從圖8中可以較為直觀地看出,本文算法在不同的紅外環(huán)境中均有效地減少了環(huán)境中的干擾,特征圖中目標(biāo)的位置更為清晰,在檢測(cè)結(jié)果上也具有更好的檢測(cè)置信度。
圖8 兩種算法在不同背景的檢測(cè)結(jié)果
針對(duì)紅外無(wú)人機(jī)目標(biāo)圖像特征不明顯、圖像對(duì)比度低、特征提取難度大等問(wèn)題,提出基于改進(jìn)YOLOv7算法的紅外目標(biāo)檢測(cè)方法。該方法使用兩種注意力機(jī)制構(gòu)成改進(jìn)的CBS-A結(jié)構(gòu)來(lái)加強(qiáng)對(duì)特征的表征能力,同時(shí)抑制背景對(duì)目標(biāo)特征的影響,引入新的損失函數(shù)來(lái)提高模型的收斂性,相較原算法檢測(cè)精度得到提升,結(jié)果表明,本文算法可以更好地應(yīng)用于紅外無(wú)人機(jī)目標(biāo)檢測(cè)任務(wù)。未來(lái)工作中,將增加實(shí)驗(yàn)數(shù)據(jù)量以提升模型泛化性;在復(fù)雜背景環(huán)境下的檢測(cè)精度和小目標(biāo)識(shí)別方面仍有較大的提升空間。