摘 要:飛行目標(biāo)往往呈現(xiàn)為十幾個(gè)像素點(diǎn)的小目標(biāo),對(duì)其準(zhǔn)確檢測(cè)是黑飛反制、管控等應(yīng)用中首要解決的問題。鑒于此,提出一種基于改進(jìn)YOLO v3的方法提高飛行目標(biāo)的檢測(cè)能力。首先為避免梯度消失,增強(qiáng)特征的復(fù)用,在特征檢測(cè)層引入殘差網(wǎng)絡(luò);其次為提高小目標(biāo)的檢測(cè)能力,增加對(duì)4倍下采樣特征的檢測(cè);然后通過數(shù)據(jù)集對(duì)未改進(jìn)YOLO v3和改進(jìn)后YOLO v3進(jìn)行訓(xùn)練獲取模型;最后將Faster R-CNN、未改進(jìn)YOLO v3和改進(jìn)后YOLO v3進(jìn)行實(shí)驗(yàn)對(duì)比,數(shù)據(jù)顯示改進(jìn)后YOLO v3的準(zhǔn)確度提升14個(gè)百分點(diǎn)以上,能較好地檢測(cè)出飛行目標(biāo)。
關(guān)鍵詞:飛行目標(biāo)檢測(cè);YOLO v3;深度學(xué)習(xí)
中圖分類號(hào):TP391" " 文獻(xiàn)標(biāo)志碼:A" " 文章編號(hào):1671-0797(2024)23-0081-04
DOI:10.19514/j.cnki.cn32-1628/tm.2024.23.018
0" " 引言
深度學(xué)習(xí)方法是當(dāng)下十分熱門的研究領(lǐng)域,與傳統(tǒng)學(xué)習(xí)算法[1-2]相比不需要人工設(shè)計(jì)特征提取,其通過神經(jīng)網(wǎng)絡(luò)對(duì)大量數(shù)據(jù)的學(xué)習(xí),得到一個(gè)能夠準(zhǔn)確描述數(shù)據(jù)深層次特征的模型,是一步到位的學(xué)習(xí)方法,識(shí)別效果取決于訓(xùn)練集數(shù)據(jù)量和學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì)。深度網(wǎng)絡(luò)一般參數(shù)量大,所需內(nèi)存較大,訓(xùn)練數(shù)據(jù)量大且計(jì)算過程復(fù)雜,一般要借助GPU加速運(yùn)算[3]。
YOLO(You Only Look Once) v3是Redmon[4]等人在YOLO v2的基礎(chǔ)上融入ResNet網(wǎng)絡(luò)而來[5],主要特點(diǎn)有以下幾個(gè)方面:
1)Darknet-53結(jié)構(gòu)。隨著網(wǎng)絡(luò)加深,網(wǎng)絡(luò)的優(yōu)化更加艱難,理論上,越深的網(wǎng)絡(luò),效果應(yīng)該越好,但實(shí)際上,過深的網(wǎng)絡(luò)會(huì)產(chǎn)生退化問題,效果反而不如相對(duì)較淺的網(wǎng)絡(luò)[6],因此Darknet-53借鑒深度殘差網(wǎng)絡(luò)設(shè)計(jì)策略,使用Skip Shotcut連接方式構(gòu)建殘差單元,解決深層網(wǎng)絡(luò)梯度消失和爆炸問題,保證深層網(wǎng)絡(luò)下仍能收斂,特征表達(dá)更豐富[7]。
2)多尺度特征融合。YOLO v2中通過轉(zhuǎn)移層將高分辨率特征抽取后拼接在低分辨率特征后,這種做法不改變最終輸出特征的尺度,而改變特征深度,一定程度上破壞了高分辨率特征的結(jié)構(gòu)信息。YOLO v3使用了upsample(上采樣)操作[8],并將大特征圖和小特征圖upsample后的特征圖進(jìn)行concat,最終輸出三個(gè)尺度的特征金字塔,這樣的特征圖既包含豐富的高層抽象特征,又包含精確的位置信息特征[9]。在三個(gè)不同的尺度特征下做目標(biāo)檢測(cè),能夠適應(yīng)多種不同大小的目標(biāo)檢測(cè)任務(wù)。
3)邏輯回歸。YOLO v3中也采用先驗(yàn)框策略,在每個(gè)尺度上設(shè)置3個(gè)先驗(yàn)框,3個(gè)尺度共設(shè)置9個(gè)先驗(yàn)框,采用K-means算法對(duì)數(shù)據(jù)集Ground Truth聚類生成先驗(yàn)框尺寸。YOLO v3用邏輯回歸(logistic regression)為每一個(gè)候選框預(yù)測(cè)一個(gè)目標(biāo)評(píng)分(objectness score),如果某個(gè)先驗(yàn)框與Ground Truth的重疊區(qū)域?yàn)?個(gè)先驗(yàn)框的最大值,則相對(duì)應(yīng)目標(biāo)評(píng)分置1,即將該先驗(yàn)框與Ground Truth相匹配,后續(xù)計(jì)算誤差時(shí),僅考慮最佳先驗(yàn)框與Ground Truth的誤差,其他先驗(yàn)框不會(huì)對(duì)坐標(biāo)或類預(yù)測(cè)造成任何損失。
4)類別預(yù)測(cè)。針對(duì)同一目標(biāo)給予多種類型標(biāo)注時(shí),不再采用softMax分類器,而選擇獨(dú)立logistic分類器,在訓(xùn)練過程中,使用二元交叉熵?fù)p失進(jìn)行類預(yù)測(cè)。
1" " 改進(jìn)YOLO v3結(jié)構(gòu)
YOLO v3中特征提取部分引入殘差網(wǎng)絡(luò)的思想,而目標(biāo)檢測(cè)層仍然采用常規(guī)卷積形式,為避免梯度消失,增強(qiáng)特征的復(fù)用,受殘差網(wǎng)絡(luò)的啟發(fā),將6個(gè)DBL單元分解為2個(gè)殘差單元和2個(gè)DBL單元,如圖1所示。
特征圖的分辨率會(huì)影響目標(biāo)檢測(cè)性能指標(biāo),低分辨率特征圖用來表達(dá)深層次信息,但其對(duì)小目標(biāo)的語義信息丟失嚴(yán)重,一般用作大目標(biāo)檢測(cè),在攝像機(jī)視頻畫面中,飛機(jī)占據(jù)少部分像素位置,呈現(xiàn)為較小目標(biāo)。YOLO v3對(duì)8倍、16倍、32倍下采樣特征進(jìn)行目標(biāo)檢測(cè),此時(shí)對(duì)小目標(biāo)的檢測(cè)能力較弱,本文舍棄32倍特征的目標(biāo)檢測(cè),而增加對(duì)4倍下采樣特征的檢測(cè),為保留深層特征信息,仍將32倍特征進(jìn)行上采樣后與16倍特征結(jié)合,以此增強(qiáng)對(duì)小目標(biāo)檢測(cè)的能力。改進(jìn)后的結(jié)構(gòu)如圖2所示。
2" " 改進(jìn)YOLO v3網(wǎng)絡(luò)訓(xùn)練
本文研究對(duì)象為飛機(jī)目標(biāo),所搜集數(shù)據(jù)集總計(jì)4 000張圖片,其中訓(xùn)練集3 200張,驗(yàn)證集800張,通過打標(biāo)工具LabelImg進(jìn)行標(biāo)注,標(biāo)注完成自動(dòng)生成
.xml文件。由于數(shù)據(jù)集數(shù)量有限,若對(duì)網(wǎng)絡(luò)中所有參數(shù)進(jìn)行訓(xùn)練,則會(huì)產(chǎn)生過擬合現(xiàn)象,模型的泛化能力變差,YOLO v3作者已在ImageNet數(shù)據(jù)集上對(duì)Darknet-53結(jié)構(gòu)進(jìn)行了預(yù)訓(xùn)練,得到了前74層權(quán)重,由于網(wǎng)絡(luò)的改進(jìn)位置在檢測(cè)部分,所以在特征提取部分遷移預(yù)訓(xùn)練權(quán)重,僅對(duì)深層的檢測(cè)、回歸網(wǎng)絡(luò)進(jìn)行訓(xùn)練。訓(xùn)練分兩步進(jìn)行,總共進(jìn)行200 epoch(所有圖像訓(xùn)練一輪),第一步訓(xùn)練100 epoch,設(shè)置學(xué)習(xí)率為0.001,第二次訓(xùn)練設(shè)置學(xué)習(xí)率0.000 1,若連續(xù)三輪次損失值沒有減小,則學(xué)習(xí)率降為十分之一,若達(dá)到200 epoch或連續(xù)10 epoch損失值沒有減小,則終止訓(xùn)練。
圖3給出了訓(xùn)練過程中損失值與epoch的關(guān)系,其中▲線為YOLO v3,lt;E:\雜志\2024\2024年機(jī)電\2024-12期\2024-23期\2024-12月機(jī)電正文\圖標(biāo).jpggt;線代表改進(jìn)的YOLO v3,改進(jìn)結(jié)構(gòu)在前40個(gè)epoch loss迅速下降至1以下,約60 epoch下降至0.5以下,并逐漸趨于穩(wěn)定,改進(jìn)后的結(jié)構(gòu)loss值整體要低于未改進(jìn)結(jié)構(gòu)。圖4給出了Avg IOU與epoch的關(guān)系,改進(jìn)結(jié)構(gòu)在第50 epoch左右達(dá)到0.7,并逐漸穩(wěn)定在0.85,與未改進(jìn)結(jié)構(gòu)相比,在第37 epoch相交后,改進(jìn)結(jié)構(gòu)的Avg IOU始終高于未改進(jìn)結(jié)構(gòu)。在訓(xùn)練過程中,訓(xùn)練100 epoch后,每隔10 epoch保存一次模型,首先選出mAP(mean Average Precision)最高的模型作為實(shí)驗(yàn)?zāi)P?,通過驗(yàn)證集篩選,YOLO v3在第180 epoch處模型、改進(jìn)YOLO v3在190 epoch處模型mAP最高。
3" " 實(shí)驗(yàn)結(jié)果及分析
在高性能計(jì)算機(jī)上訓(xùn)練得到網(wǎng)絡(luò)模型后,在常規(guī)配置計(jì)算機(jī)(CPU為8核3.5 GHz,內(nèi)存8 GB,GPU GTX1050的臺(tái)式計(jì)算機(jī))上進(jìn)行效果驗(yàn)證。本文對(duì)改進(jìn)YOLO v3、YOLO v3、Faster R-CNN模型進(jìn)行對(duì)比,其中改進(jìn)YOLO v3和未改進(jìn)YOLO v3模型由自主訓(xùn)練而得,F(xiàn)aster R-CNN則選用官方模型作為實(shí)驗(yàn)?zāi)P?,?shí)驗(yàn)視頻為航展飛行視頻。
圖5(a)列為Faster R-CNN實(shí)驗(yàn)效果,雖然對(duì)小目標(biāo)具有較好的識(shí)別能力,但單幀處理耗時(shí)約1.3 s,顯然不能滿足實(shí)時(shí)處理的要求。圖5(b)為未改進(jìn)YOLO v3實(shí)驗(yàn)效果,單幀處理耗時(shí)約300 ms,但存在兩個(gè)問題:其一,識(shí)別置信度相比Faster R-CNN模型較低;其二,對(duì)小目標(biāo)檢測(cè)能力較差,例如第555幀中,目標(biāo)完全不能識(shí)別。圖5(c)為改進(jìn)YOLO v3實(shí)驗(yàn)效果,單幀處理耗時(shí)340 ms左右,相比未改進(jìn)模型,檢測(cè)網(wǎng)絡(luò)的改進(jìn)中多加入了一次上采樣處理,對(duì)大尺度特征圖進(jìn)行檢測(cè),這是耗時(shí)增加的主要原因,也正因?yàn)榇烁倪M(jìn),對(duì)小目標(biāo)的識(shí)別能力得到提升。
三種算法對(duì)比數(shù)據(jù)如表1所示,其中準(zhǔn)確率為置信閾值設(shè)置為0.5的條件下正確識(shí)別目標(biāo)與實(shí)際目標(biāo)的比值。
就準(zhǔn)確率而言,改進(jìn)后的YOLO v3相比未改進(jìn)YOLO v3提升了約14個(gè)百分點(diǎn),而Faster R-CNN準(zhǔn)確率最低,其主要原因是采用的官方模型未進(jìn)行個(gè)人數(shù)據(jù)集專項(xiàng)訓(xùn)練。本文在考慮準(zhǔn)確率的同時(shí)處理速度也是重要指標(biāo),在研究之初,官方模型運(yùn)行速度耗時(shí)較長,距離實(shí)時(shí)處理要求較遠(yuǎn),因此,未對(duì)Faster R-CNN網(wǎng)絡(luò)進(jìn)行專項(xiàng)訓(xùn)練。就處理速度而言,改進(jìn)YOLO v3雖然單幀耗時(shí)有所增加,但仍然在同一量級(jí)。
4" " 結(jié)束語
本文在YOLO v3的基礎(chǔ)上,為避免梯度消失,增強(qiáng)特征的復(fù)用,受殘差網(wǎng)絡(luò)的啟發(fā),在特征檢測(cè)層引入殘差網(wǎng)絡(luò)。針對(duì)小目標(biāo)難以檢測(cè)的問題,增加對(duì)4倍下采樣特征的檢測(cè),并將32倍特征進(jìn)行上采樣與16倍特征結(jié)合,增強(qiáng)對(duì)小目標(biāo)檢測(cè)的能力。通過與Faster R-CNN、未改進(jìn)YOLO v3對(duì)比,實(shí)驗(yàn)顯示,檢測(cè)準(zhǔn)確率提升了14個(gè)百分點(diǎn),能夠較好地實(shí)現(xiàn)小目標(biāo)的檢測(cè)。
[參考文獻(xiàn)]
[1] NASSIH B,AMINE A,NGADI M,et al.DCT and HOG Feature Sets Combined with BPNN for Efficient Face Classification[J].Procedia Computer Science,2019,148:116-125.
[2] OJALA T,PIETIKAINEN M,MAENPAA T.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,24(7):971-987.
[3] 劉曉楠,王正平,賀云濤,等.基于深度學(xué)習(xí)的小目標(biāo)檢測(cè)研究綜述[J].戰(zhàn)術(shù)導(dǎo)彈技術(shù),2019(1):100-107.
[4] REDMON J,F(xiàn)ARHADI A.YOLO v3:an incremental improvement[EB/OL].(2020-02-11)[2024-07-28].https://pjreddie.
com/media/files/papers/YOLOv3.pdf.
[5] 歐陽繼紅,王梓明,劉思光.改進(jìn)多尺度特征的YOLO_v4目標(biāo)檢測(cè)方法[J].吉林大學(xué)學(xué)報(bào)(理學(xué)版),2022,60(6):1349-1355.
[6] 耿創(chuàng),宋品德,曹立佳.YOLO算法在目標(biāo)檢測(cè)中的研究進(jìn)展[J].兵器裝備工程學(xué)報(bào),2022,43(9):162-173.
[7] 邵延華,張鐸,楚紅雨,等.基于深度學(xué)習(xí)的YOLO目標(biāo)檢測(cè)綜述[J].電子與信息學(xué)報(bào),2022,44(10):3697-3708.
[8] 張麗瑩,龐春江,王新穎,等.基于改進(jìn)YOLO v3的多尺度目標(biāo)檢測(cè)算法[J].計(jì)算機(jī)應(yīng)用,2022,42(8):2423-2431.
[9] 蔡偉,徐佩偉,楊志勇,等.復(fù)雜背景下紅外圖像弱小目標(biāo)檢測(cè)[J].應(yīng)用光學(xué),2021,42(4):643-650.
收稿日期:2024-08-23
作者簡介:李玉虎(1995—),男,山東濟(jì)寧人,碩士,助理實(shí)驗(yàn)師,研究方向:測(cè)控技術(shù)與儀器、自動(dòng)化技術(shù)。