何明 ,朱梓涵,,翟緒龍 ,翟政 ,郝程鵬
?目標特性與探測跟蹤技術?
基于多分支上下文融合的空對地目標檢測算法*
何明1,朱梓涵1,2,翟緒龍2,翟政1,郝程鵬3
(1.陸軍工程大學 指揮控制工程學院,江蘇 南京 210007; 2.聯(lián)勤保障部隊沈陽聯(lián)勤保障中心,遼寧 沈陽 110000;3.中國科學院聲學研究所,北京 100190)
無人機的智能應用是當下研究的熱點,為實現(xiàn)高效實時的無人機對地目標檢測,提出了一種應用于邊緣設備的輕量級空對地目標檢測算法MBCF-YOLO。引入深度可分離卷積,優(yōu)化原有的骨干網(wǎng)絡。在頸部網(wǎng)絡中添加嵌入循環(huán)注意力機制的小目標檢測分支,提高對小微目標的檢測精度和特征融合的能力。將焦點損失函數(shù)與損失秩挖掘結合,改進原有的損失函數(shù),以改善空對地數(shù)據(jù)集的數(shù)據(jù)失衡問題。對該算法模型進行了多組對照實驗以及實機應用,結果表明,與當前其他算法相比,MBCF-YOLO算法在VisDrone2021數(shù)據(jù)集上的準確性和延遲之間實現(xiàn)了更好的平衡。
空對地目標檢測;網(wǎng)絡輕量化;循環(huán)注意力機制;小目標檢測;特征融合
近年來,無人集群技術在軍事領域得到了廣泛應用,作為實現(xiàn)戰(zhàn)場互聯(lián)的高效節(jié)點[1],無人駕駛飛行器(unmanned aerial vehicle,UAV)因其機動靈活且戰(zhàn)場生存能力強的優(yōu)勢,成為研究的熱點。在2022年2月末爆發(fā)的俄烏軍事沖突中,大量無人機直接介入偵察遙感、斬首打擊、毀傷評估等任務[2],取得了不俗戰(zhàn)果,使得軍用無人機在戰(zhàn)場之外得到了更多的關注。引入機器視覺等新興傳感技術,可進一步發(fā)掘UAV的軍事應用潛力,由此催生的空對地目標檢測任務是當前研究的熱點問題[3],該任務可將UAV的拍攝對象(人員,車輛,建筑物等)進行定位和分類,實現(xiàn)后續(xù)的目標評估及毀傷打擊。
國內(nèi)外研究者致力于設計高效的目標檢測框架結構,如單階段全卷積模型FCOS[4]、無錨框輕量化模型Nanodet[5]、YOLO-RET[6]等,然而此類模型多是基于COCO、VOC等通用數(shù)據(jù)集進行訓練,對于空對地目標檢測這一特定場景仍存在兩方面的現(xiàn)實問題:
(1) 硬件成本問題?,F(xiàn)有算法模型網(wǎng)絡層數(shù)較多,參數(shù)量較大,而無人機所搭載的邊緣設備由于功耗限制,計算能力有限,要達到實時高精度的空對地目標檢測仍存在一定難度。
(2) 前背景的不平衡。具體表現(xiàn)為目標尺度的不平衡和樣本的不平衡,在空對地目標檢測數(shù)據(jù)集Visdrone2021中,同種類別的物體在不同背景中尺寸變化較大,不同類別的物體樣本數(shù)量也并不均衡,模型難以對所有前景對象進行訓練,以致影響檢測精度。為解決上述問題,本文在YOLOv5模型的基礎上重新設計適用于無人機設備的多分支上下文融合算法MBCF-YOLO(multi-branch context fusion YOLO),以實現(xiàn)高效實時的空對地目標檢測。所做主要工作概括如下:
(1) 針對無人機設備算力有限的問題,引入深度可分離卷積(depthwise separable convolution)和詞干采樣模塊(StemBlock),重新搭建輕量化的骨干網(wǎng)絡,優(yōu)化推理速度保證特征提取能力,實現(xiàn)實時檢測。
(2) 針對小微目標檢測困難以及物體尺度變化大的問題,在不改變輸入圖像分辨率,添加了小尺度目標檢測頭分支,用于放大感受野內(nèi)的特征圖。為了均衡模型參數(shù)和預測精度,設計了即插即用的上下文信息融合模塊,用于改進模型頸部網(wǎng)絡的特征融合性能。
(3) 針對樣本數(shù)量不均衡的問題,結合焦點損失和損失秩挖掘,構造新的損失函數(shù),用來均衡訓練過程中不同類別樣本的學習損失,消除樣本數(shù)量差異造成的偏向性,從而學習到更為本質(zhì)的特征。
當前關于目標檢測輕量化方面的研究主要是針對模型的網(wǎng)絡結構。國內(nèi)外學者通過引入逐點卷積、分組卷積等方式降低運算量,提出了Mobilenet[7]、GhostNet[8]和ShuffleNet[9]等一系列表現(xiàn)優(yōu)異的輕量化網(wǎng)絡模型,但參數(shù)的減少容易造成語義特征信息的丟失,因此需要頸部網(wǎng)絡對不同階段提取的特征圖進行再處理,實現(xiàn)感受野之間的信息聚合。
在無人機圖像中,大范圍的覆蓋區(qū)域往往包含復雜多樣的背景,而卷積神經(jīng)網(wǎng)絡在進行特征提取時,僅針對當前感受野內(nèi)的像素,很難提取到上下文語義信息和全局特征,近些年注意力機制在計算機視覺任務中表現(xiàn)出優(yōu)異的性能,如卷積注意力[10](convolutional block attention module,CBAM)、通道注意力[11](channel attention,CA)、坐標注意力(coordinate attention,CA)[12]等機制,在獲取全局信息方面有不俗效果。
如圖1所示,本文所提MBCF-YOLO的整體框架,可分為輕量化骨干網(wǎng)絡、上下文融合的頸部網(wǎng)絡和多分支檢測頭3部分。
圖1 MBCF-YOLO算法框架圖
實踐表明,骨干網(wǎng)絡是提取數(shù)據(jù)特征的關鍵組件,因此設計一個輕量高效的骨干網(wǎng)絡至關重要,如圖2所示,改進后的骨干網(wǎng)絡首先通過詞干采樣模塊進行雙重下采樣,將兩個分支的輸出按通道維度進行拼接,通過堆疊的深度可分離卷積模塊對特征圖的通道逐一運算,而后使用1×1點卷積對不同特征圖在相同位置上的信息進行加權操作,從而保證最終輸出的特征圖在尺度縮小后仍具備足夠的語義信息。
圖2 骨干網(wǎng)絡示意圖
在COCO數(shù)據(jù)集中以32像素×32像素和96像素×96像素為標準,將圖像中的物體分為小、中、大目標。因此在無人機目標檢測數(shù)據(jù)集VisDrone2021中有60%以上的檢測對象為小目標。
為提高算法對小物體的檢測精度,本文設計了多分支上下文融合機構,核心思想是在頸部網(wǎng)絡中增加小目標檢測分支,采樣更大的特征圖并用更小的錨框進行檢測,降低背景的影響。同時為了保證精簡后網(wǎng)絡的信息提取能力,在分支中添加循環(huán)自注意力算法以保證檢測精度,該算法具體流程如下。
綜上所述,本文所提的RCA模塊其計算流程如算法1所示。
算法1:RCA模塊
#根據(jù)得到的權重更新特征圖
在VisDrone2021圖像數(shù)據(jù)集中,不同類別目標的數(shù)量并不均衡,如行人類別樣本數(shù)量為79 337,而三輪車類別樣本數(shù)量為4 812。原有YOLOv5損失函數(shù)很難處理此類長尾分布[13]問題。為解決該問題,本文將焦點損失函數(shù)[14]和損失秩挖掘[15]結合,使網(wǎng)絡更加關注樣本較少的類別。
由于MBCF-YOLO在頸部網(wǎng)絡添加了檢測小微目標的多分支檢測頭,因此在訓練階段將改進后的損失函數(shù)應用于多分支檢測頭,使其適用于4種不同尺度檢測對象的特征映射。
本文采用VisDrone2021數(shù)據(jù)集[15],用來驗證所提MBCF-YOLO算法的綜合性能。該數(shù)據(jù)集共8 629張圖像,圖像種類有10類,分別為:行人、自行車、人、汽車、卡車、敞篷三輪車、三輪車、面包車、摩托車、公交車。數(shù)據(jù)集的分配比例是訓練集6 471張、驗證集548張、測試集1 610張。
本文實驗在Windows10 X64操作系統(tǒng)下進行,CPU為Intel i9 10900K@3.20GHz,GPU為NVIDIA RTX3090@24GB,內(nèi)存為32GB,語言環(huán)境為Python 3.8.5,在深度學習框架Pytorch 1.8.0下進行訓練。具體的訓練參數(shù)設置為:訓練時輸入圖像大小為640×640,批處理量(Batchsize)為16,為防止模型過擬合,訓練輪數(shù)(Epochs)為100,優(yōu)化方式選擇隨機梯度下降(SGD),初始學習率為0.01,采用Mosaic操作進行數(shù)據(jù)增強。
實驗采用mAP、模型推理速度GFLOPs等作為模型性能的評價指標。其中mAP值是指在多類目標檢測中根據(jù)每個類的準確率和召回率所得到的平均精度指標,是目標檢測任務的通用評價指標。
(1) 網(wǎng)絡模型對比實驗
為了更好地比較本文所提MBCF-YOLO算法的綜合性能,選取規(guī)模大小近似的5種網(wǎng)絡模型:YOLOv5-Nano、YOLOX-Tiny、YOLOv7-Tiny、Faster R-CNN-1xFPN、RetinaNet-ResNet18進行對比實驗,最終結果如表1所示。
結果顯示,由于VisDrone2021數(shù)據(jù)集包含的小微目標數(shù)量較多,傳統(tǒng)的單階段目標檢測算法如RetinaNet-Resnet18的性能表現(xiàn)并不是很好,在測試集上的mAP值僅有17.7%。而采用無錨框機制的YOLOX-Tiny算法在測試集上的mAP值為16.8%,對小微目標的檢測效果一般。YOLOv7-Tiny算法采用了模型縮放等增強機制,因此檢測精度值最高,但其優(yōu)秀的性能表現(xiàn)也需要更高的推理速度。對比來看,本文所提的MBCF-YOLO算法在推理速度僅有2.9GFLOPs的情況下,mAP值達到了22.3%,在參數(shù)量、計算量與檢測精度之間實現(xiàn)較好平衡。
表1 不同網(wǎng)絡性能對比
(2) 消融實驗
為了驗證本文所提出的各個模塊的實際作用,本文設置了6組消融實驗。具體的設置細節(jié)為:實驗組1作為對照基線,為原有YOLOv5模型進行網(wǎng)絡結構精簡后的模型;實驗組2、3、4為單模塊對比實驗,分別在實驗1的基礎上添加損失秩挖掘函數(shù)、RCA模塊和小目標檢測分支;實驗組5在添加小目標檢測分支的基礎上融入RCA模塊,實驗組6繼續(xù)添加改進的損失函數(shù),最終結果如表2所示。
1) 損失函數(shù)改進分析
表2 消融實驗組性能對比
圖3 損失下降對比圖
2) RCA模塊性能分析
實驗組3在添加RCA模塊后,性能有了較為明顯的提升,為進一步分析該模塊作用,本文對實驗組1和實驗組3不同推理階段的特征圖進行可視化。如圖4所示,在模型的骨干網(wǎng)絡階段(階段0及階段1),二者的特征圖差距不大,均可以提取出圖像的淺層特征(顏色、邊緣等)。但在特征提取的后期階段,添加了RCA模塊的實驗組3可以更好地抽象出圖像的高級語義特征,與之相比實驗組1則丟失了很多特征信息(階段4)。
3) 小目標檢測分支性能分析
添加小目標檢測分支的實驗組4性能提升最為明顯,說明該模塊對于模型精度的貢獻率大。圖5為實驗組4與實驗組1對于同一張輸入圖片的檢測結果,可以看出小目標檢測分支的添加提高了模型對小微目標的檢測能力。
圖4 可視化對比圖
圖5 小目標檢測結果對比圖
圖6為消融實驗的P-R曲線圖,實驗組5、6在逐步添加上述模塊后并未取得等效的性能提升,這是由于模型自身結構限制,性能提升有限,但將3種模塊集成到精簡后的目標檢測網(wǎng)絡模型后,mAP值提升了近一倍,進一步驗證了本文工作的有效性。
圖6 P-R曲線對比圖
(3) 實機應用
為驗證本文所提算法的實際效果,將模型在圖7所示的實機平臺進行驗證,首先通過OPENVINO部署工具應用到Intel J1900工控平臺,使用Intel NCS算力擴展設備加速,并由無人機進行視頻采集,并通過Qt前端界面實時顯示,最終效果如圖8所示。
圖7 實機實驗平臺
圖8 實機運行效果對比圖
圖8b)為原有YOLOv5s網(wǎng)絡模型的運行結果,其FPS值僅為11。而本文所提的MBCF-YOLO算法其FPS值為23,說明優(yōu)化后的算法運行速度可滿足實際應用需求。
本文提出了一種用于無人機實時檢測的空對地目標檢測算法MBCF-YOLO。該算法首先針對骨干網(wǎng)絡進行優(yōu)化改進,以提高其運行速度,為保證檢測精度,在頸部網(wǎng)絡層添加了小目標檢測分支和循環(huán)注意機制。進一步改進損失函數(shù),以解決數(shù)據(jù)集分布失衡問題。在VisDrone2021數(shù)據(jù)集驗證算法性能,結果表明,小目標檢測分支對算法性能的提升最為明顯,循環(huán)注意機制以及改進的損失函數(shù)對檢測精度也有一定正向影響。最后,將MBCF-YOLO算法進行實際部署,進一步驗證了該方法的可用性。
[1] LI Kai, NI Wei, TOVAR E, et al. Joint Flight Cruise Control and Data Collection in UAV-Aided Internet of Things: An Onboard Deep Reinforcement Learning Approach[J]. IEEE Internet of Things Journal, 2021, 8(12): 9787-9799.
[2] 禹明剛, 陳瑾, 何明, 等. 基于演化博弈的社團網(wǎng)絡無人集群協(xié)同機制[J]. 中國科學(技術科學), 2023, 53(2): 221-242.
YU Minggang, CHEN Jin, HE Ming, et al. Cooperative Evolution Mechanism of Multiclustered Unmanned Swarm on Community Networks[J]. Scientia Sinica(Technologica), 2023, 53(2): 221-242.
[3] 王文慶, 龐穎, 劉洋, 等. 雙重注意機制的空對地目標智能檢測算法[J]. 現(xiàn)代防御技術, 2020, 48(6): 81-88.
WANG Wenqing, PANG Ying, LIU Yang, et al. Air-to-Ground Target Intelligent Detection Algorithm Based on Dual Attention Mechanism[J]. Modern Defence Technology, 2020, 48(6): 81-88.
[4] TIAN Zhi, SHEN Chunhua, CHEN Hao, et al. FCOS: Fully Convolutional One-Stage Object Detection[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV). Piscataway, NJ, USA: IEEE, 2019: 9626-9635.
[5] LIU Jianguo, CHEN Yingzhi, YAN Fuwu, et al. Vision-Based Feet Detection Power Liftgate with Deep Learning on Embedded Device[J]. Journal of Physics: Conference Series, 2022, 2302(1): 012010.
[6] GANESH P, CHEN Yao, YANG Yin, et al. YOLO-ReT: Towards High Accuracy Real-time Object Detection on Edge GPUs[C]∥2022 IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). Piscataway, NJ, USA: IEEE, 2022: 1311-1321.
[7] CHEN Yinpeng, DAI Xiyang, CHEN Dongdong, et al. Mobile-Former: Bridging MobileNet and Transformer[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2022: 5260-5269.
[8] HAN Kai, WANG Yunhe, TIAN Qi, et al. GhostNet: More Features from Cheap Operations[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2020: 1577-1586.
[9] MA Ningning, ZHANG Xiangyu, ZHENG Haitao, et al. ShuffleNet V2: Practical Guidelines for Efficient CNN Architecture Design[C]∥Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 122-138.
[10] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional Block Attention Module[C]∥Computer Vision – ECCV 2018. Cham: Springer International Publishing, 2018: 3-19.
[11] GAO Ruxin, WANG Tengfei. Motion Deblurring Algorithm for Wind Power Inspection Images Based on Ghostnet and SE Attention Mechanism[J]. IET Image Processing, 2023, 17(1): 291-300.
[12] HOU Qibin, ZHOU Daquan, FENG Jiashi. Coordinate Attention for Efficient Mobile Network Design[C]∥2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2021: 13708-13717.
[13] JIN S Y, ROYCHOWDHURY A, JIANG Huaizu, et al. Unsupervised Hard Example Mining from Videos for Improved Object Detection[C]∥Computer Vision-ECCV 2018. Cham: Springer International Publishing, 2018: 316-333.
[14] WANG Xiaolong, SHRIVASTAVA A, GUPTA A. A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway, NJ, USA: IEEE, 2017: 3039-3048.
[15] YU Hao, ZHANG Zhaoning, QIN Zheng, et al. Loss Rank Mining: A General Hard Example Mining Method for Real-Time Detectors[C]∥2018 International Joint Conference on Neural Networks (IJCNN). Piscataway, NJ, USA: IEEE, 2018: 1-8.
Air-to-Ground Target Detection Algorithm Based on Multi-branch Context Fusion
HEMing1,ZHUZihan1,2,ZHAIXulong2,ZHAIZheng1,HAOChengpeng3
(1.Command & Control Engineering College, Army Engineering University of PLA, Nanjing 210007, China;2.Joint Service Support Force Shenyang Joint Service Support Center, Shenyang 110000, China;3.Institute of Acoustics, Chinese Academy of Sciences, Beijing 100190, China)
The intelligent application of unmanned aerial vehicles (UAVs) is a hot topic in current research. To achieve efficient and real-time air-to-ground target detection for UAVs, this paper proposes a lightweight MBCF-YOLO model for air-to-ground target detection . First, a deep separable convolution to redesign an efficient and lightweight backbone network is introduced. Then, a small target detection branch with embedded recursive attention mechanism is added to the neck network to improve the detection accuracy of small targets and the ability of feature fusion. Finally, the focus loss function is combined with loss rank mining to improve the original loss function to overcome the data imbalance problem of air-to-ground datasets. Several control experiments and real machine applications have been conducted on this algorithm model, and the results show that compared with other current algorithms, the MBCF-YOLO algorithm achieves a better balance between accuracy and latency on the VisDrone 2021 dataset.
air to ground target detection;network lightweight;circulatory attention mechanism;small target detection;feature fusion
2023 -03 -30 ;
2023 -05 -17
江蘇省重點研發(fā)計劃資助項目(BE2021729,SBE2021710041)
何明(1978-),男,新疆石河子人。教授,博士,研究方向為計算機視覺,大數(shù)據(jù)等。
通信地址:210007 江蘇省南京市秦淮區(qū)御道街標營2號陸軍工程大學 E-mail:heming@aeu.edu.cn
10.3969/j.issn.1009-086x.2023.03.011
V279+.2;TN957.51;TJ8
A
1009-086X(2023)-03-0091-08
何明, 朱梓涵, 翟緒龍, 等.基于多分支上下文融合的空對地目標檢測算法[J].現(xiàn)代防御技術,2023,51(3):91-98.
Reference format:HE Ming,ZHU Zihan,ZHAI Xulong,et al.Air-to-Ground Target Detection Algorithm Based on Multi-branch Context Fusion[J].Modern Defence Technology,2023,51(3):91-98.