摘" 要: 在無人機航拍圖像中,車輛目標較小,尺度變化大,背景復雜且分布密集,導致精度過低的問題。因此,提出一種基于改進的YOLOv5的無人機航拍圖像車輛目標檢測算法。增加小目標檢測層,減少小目標特征丟失,從而提高小目標檢測精度;設計了一個名為DAC的新特征提取模塊,它融合了標準卷積、可變形卷積和通道空間注意力機制,旨在增強模型對車輛尺度變化的感知能力,并讓模型聚焦于復雜背景下的車輛目標;將損失函數(shù)更改為Focal?EIoU,以加速模型收斂速度,同時提高小目標車輛的檢測精度。使用Soft?NMS代替YOLOv5中采用的非極大值抑制,從而改善目標密集場景下的漏檢和誤檢情況。在VisDrone2019數(shù)據(jù)集上進行了消融實驗、對比實驗和結(jié)果可視化。改進后的模型平均精度(mAP)比基線模型提高了8.4%,參數(shù)量和GFLOPs僅增加了4.8%和3.79%,驗證了改進策略的有效性和優(yōu)越性。
關(guān)鍵詞: 無人機圖像; 車輛檢測; 小目標檢測; 可變形卷積; 損失函數(shù); 非極大值抑制
中圖分類號: TN911.73?34; TP391" " " " " " " " " 文獻標識碼: A" " " " " " nbsp; " " "文章編號: 1004?373X(2024)23?0138?09
Deformable ConvNets and attention based object detection algorithm
for vehicles in UAV aerial photography
LIANG Gang1, ZHAO Liangjun1, NING Feng2, XI Yubin1, HE Zhongliang1
(1. School of Computer Science and Engineering, Sichuan University of Science amp; Engineering, Yibin 644000, China;
2. School of Automation and Information Engineering, Sichuan University of Science amp; Engineering, Yibin 644000, China)
Abstract: In UAV aerial images, the vehicles (the objects) are small, the scale changes greatly, and the background is complex and distributed densely, which results in low accuracy. Therefore, an improved YOLOv5 based object detection algorithm for vehicles in UAV aerial images is proposed. A small object detection layer is added to reduce the feature loss of small objects, so as to improve the accuracy of small object detection. A new feature extraction module called DAC, which combines standard convolution, deformable ConvNet (DCN) and channel space attention mechanism, is designed, which aims to enhance the model′s perception of changes in vehicle scale and allow the model to focus on vehicles (the objects) under complex backgrounds. The loss function is changed to Focal?EIoU to speed up the convergence of the model and improve the detection accuracy of small vehicles (the objects). The Soft?NMS is used to replace the non?maximum suppression used in YOLOv5, so as to improve missed detections and 1 detections in scenarios with dense objects. Ablation experiments, comparison experiments and result visualization are conducted on the VisDrone2019 data set. The mean average precision (mAP) of the improved model is 8.4% higher than that of the baseline model, and its number of parameters and GFLOPs are only increased by 4.8% and 3.79%. The effectiveness and superiority of the improved strategy are verified.
Keywords: UAV image; vehicle detection; small object detection; DCN; loss function; non?maximum suppression
0" 引" 言
近年來,無人機技術(shù)迅猛發(fā)展,其輕巧、快速、便捷的特點[1],常用于林業(yè)和農(nóng)作物檢測[2]、交通管理[3]、城市規(guī)劃[4]、市政管理[5]、輸電線路檢查[6]、搜救等領域[7]。無人機在交通監(jiān)測和管理方面的應用主要集中在通過航拍提供實時交通信息,有助于管理者更好地了解交通流量、車輛分布以及交通擁堵情況[8]。目前,獲取車輛數(shù)據(jù)的常用手段包括感應線圈、壓電式檢測器和地面攝像頭等傳感器設備。然而,這些設備成本高,安裝和維護困難,并且難以進行靈活調(diào)整。相比之下,搭載傳感器的無人機航空平臺更加靈活和高效。
基于卷積神經(jīng)網(wǎng)絡(CNN)的目標檢測方法不斷被提出,取得了優(yōu)異的檢測效果。根據(jù)輸入圖像的處理方式,有兩種類型的對象檢測方法:兩階段方法和一階段方法。Fast R?CNN[9]、Faster R?CNN[10]和Mask R?CNN[11]等為兩階段方法,這類方法具有較高的精度,但提取大量候選區(qū)域?qū)е绿幚硇实拖虑彝评硭俣容^慢;YOLO(You Only Look Once)[12]系列和SSD(Single Shot MultiBox Detector)[13]系列等為一階段方法,這類方法大幅降低了檢測時間,但精度方面可能受到一定的影響。
現(xiàn)有的檢測方法難以準確定位和檢測無人機航拍圖像上的目標,還有很大的改進空間。文獻[14]在YOLOv5l的基礎上做了一些改進,提出了使用非對稱卷積的三個特征提取模塊。它們分別被命名為非對稱ResNet(ASResNet)模塊、非對稱增強特征提?。ˋEFE)模塊和非對稱Res2Net(ASRes2Net)模塊,對YOLOv5主干中不同位置的殘差塊進行了相應的替換。在Focus之后增加了IECA模塊,并使用GSPP替代SPP模塊。此外,采用K?Means++算法獲得更準確的anchor box,并采用新的EIoU?NMS方法提高模型的后處理能力。文獻[15]提出的UN?YOLOv5s算法可以很好地解決小目標檢測的難題,采用更精準的小目標檢測(MASD)機制,大幅提高中小目標的檢測精度,結(jié)合多尺度特征融合(MCF)路徑,融合圖像的語義信息和位置信息,提高中小目標的檢測精度,引入新的卷積SimAM殘差(CSR)模塊,使網(wǎng)絡更加穩(wěn)定和集中。文獻[16]在YOLOv7算法上進行了一些改進,去除第二個下采樣層和最深的檢測頭,以減少模型的感受野并保留細粒度的特征信息,引入DpSPPF模塊,利用級聯(lián)的小尺寸最大池化層和深度可分離卷積來更有效地提取不同尺度的特征信息,并對K?means算法進行優(yōu)化,最后利用加權(quán)歸一化高斯Wasserstein距離(NWD)和交并化(IoU)作為正樣本分配和負樣本分配的指標。
無人機拍攝交通道路圖像中的車輛目標較小,尺度變化大,分布密集。容易出現(xiàn)錯檢、漏檢情況,并且對于復雜背景下車輛目標的特征信息提取能力不足,導致檢測精度較低。針對上述問題,考慮到無人機圖像的特點,提出了一種改進YOLOv5的無人機航拍圖像車輛目標檢測算法。改進的工作如下。
1) 增加小目標檢測層,引入P2檢測層以獲取更多小目標的特征信息,能顯著提高小目標車輛的檢測精度,并使用K?means聚類算法重新生成4組先驗框。
2) 設計了DAC結(jié)構(gòu),即在C3模塊中用可變形卷積(Deformable ConvNet v2)[17]替換一個原有的標準卷積,并加入CBAM(Convolutional Block Attention Module)[18],以加強模型對不同車輛尺度變化的感知能力和聚焦于復雜背景下的車輛目標。
3) 使用Focal?EIoU(Focal and Efficient IoU Loss)[19]作為模型的邊界框損失函數(shù),以加速模型收斂速度并提高檢測精度。
4) 將基線模型的非極大值抑制改為Soft?NMS[20],以改善在密集場景中容易出現(xiàn)的錯檢和漏檢問題。
1" 改進YOLOv5算法
YOLOv5是目前比較主流的一階段檢測方法,它包含五個不同大小的模型,分別是:YOLOv5n、YOLOv5s、YOLOv5m、YOLOv5l、YOLOv5x。隨著模型深度的增加,檢測精度有所提升,但相應檢測速度會下降。本文以YOLOv5s作為基線模型,增加小目標檢測層、改進骨干網(wǎng)絡和使用Focal?EIoU作為邊界框損失函數(shù),以及使用Soft?NMS代替NMS。改進后的網(wǎng)絡結(jié)構(gòu)如圖1所示。
1.1" 增加P2檢測層
無人機從空中拍攝的圖像中車輛目標的像素較小,YOLOv5在Backbone部分進行多次下采樣過程能獲得更多語義信息,但也丟失了大量的詳細特征信息,導致小目標的檢測精度過低。為了增強對小目標車輛的特征提取能力,本文在保持其他特征圖尺寸不變的情況下,在Neck部分添加了一個分辨率為160×160的P2小目標檢測層,如圖1虛線框所示。該層有兩部分輸入,一部分是Backbone中的C3模塊進行卷積后得到160×160的特征圖,另一部分是對原Neck中80×80的特征圖進行卷積和上采樣操作后的160×160擴展特征圖。通過C3模塊融合這兩部分特征圖,得到包含豐富位置信息的特征圖。P2、P3、P4、P5檢測層分別對應了4倍、8倍、16倍、32倍下采樣的特征圖,而4倍特征圖的感受野較小,其特征圖中包含了大量小目標的紋理特征和更多的細節(jié)信息,因此能最大程度保留小目標的特征。
盡管新增的P2檢測層會增加網(wǎng)絡的參數(shù)和計算量,但為了增強對小目標車輛的精確檢測,這仍然是可以接受的。由于本文采用的數(shù)據(jù)集小目標眾多,寬高比例較小,因此在訓練之前利用K?means聚類算法生成了一組更匹配數(shù)據(jù)集的先驗框,如表1所示。
1.2" DAC模塊設計
1.2.1" DCNv2模塊
在無人機圖像車輛目標檢測中,車輛的尺度會隨著車輛的種類不同而變化,在特征提取階段僅僅使用標準卷積會導致目標定位準確性下降,容易產(chǎn)生誤檢。
為了彌補無人機視角下車輛目標檢測網(wǎng)絡中標準卷積的不足,在特征提取階段引入了DCNv2。相較于標準卷積,DCNv2通過引入可學習的形變參數(shù),賦予了模型更強的感受野調(diào)整能力,使其能夠根據(jù)目標的實際形狀和尺度動態(tài)調(diào)整感受野,從而更靈活地捕捉各種車輛目標的形狀特征,從而降低誤檢的風險。
可變形卷積(Deformable ConvNet, DCN)是一種改進的卷積操作,其核心思想是引入偏移量來動態(tài)調(diào)整卷積核的形狀,以更靈活地捕捉輸入特征的相關(guān)信息。DCNv2是DCN的進一步改進版本,通過學習偏移和加權(quán),提高了模型對無人機圖像中的車輛多尺度特征提取能力。DCNv2有兩個關(guān)鍵步驟:首先,通過卷積操作生成卷積核在輸入特征圖上沿[x]和[y]方向的采樣點偏移量;其次,利用輸入特征圖和計算得到的偏移量進行雙線性插值,確定卷積核在輸入特征圖上的采樣點位置。其結(jié)構(gòu)如圖2所示。
DCNv2對網(wǎng)絡的參數(shù)量和計算復雜度沒有很明顯的影響,但在實際中大量使用可變形卷積會增加模型的訓練時間。為了讓模型在高效性能和有效性之間取得平衡,本文僅將骨干網(wǎng)絡的C3瓶頸模塊(Bottleneck)中的3×3標準卷積替換成DCNv2。
1.2.2" CBAM模塊
無人機圖像車輛檢測任務中,無人機拍攝的角度較廣導致大量復雜背景的干擾,車輛目標特征的表示變得不明顯。為了解決這一問題,引入CBAM注意力機制,讓網(wǎng)絡更聚焦于所需檢測的目標。該注意力由兩部分組成,即通道注意力模塊和空間注意力模塊,其結(jié)構(gòu)如圖3所示。
復雜背景中的目標往往具有較低的信噪比和較弱的表現(xiàn)形式,使得它們難以被常規(guī)的特征提取方式捕捉到。CBAM通過對特征圖進行通道注意力和空間注意力的加權(quán)處理,來提升網(wǎng)絡對重要特征的關(guān)注和提取能力。
1.2.3" DAC模塊
由于無人機圖像中車輛尺度的變化,且容易混雜在復雜背景中,DCNv2和CBAM的融合有助于提高模型對車輛目標的檢測準確性,減少漏檢和誤檢的風險。因此,將DCNv2和CBAM模塊一起融合到C3模型的Bottleneck中,形成新的瓶頸模塊(DACBottleneck)和DAC模塊,其結(jié)構(gòu)如圖4和圖5所示。
1.3" Focal?EIoU
YOLOv5采用的損失函數(shù)分為邊界框損失、置信度損失和分類損失函數(shù)。計算公式如式(1)所示:
[L=Lobj+Lcls+Lbbox] (1)
式中:[Lobj]是目標的置信度損失函數(shù);[Lcls]是分類損失函數(shù);[Lbbox]是邊界框損失函數(shù)。
YOLOv5使用的邊界框損失函數(shù)通過CIoU損失函數(shù)來計算,其公式如下所示:
[LCIoU=1-IoU+ρ2(b,bgt)c2+v1-IoU+vv] (2)
[v=4π2arctanwgthgt-arctanwh2] (3)
式中:[b]、[bgt]分別表示預測框和真實框的中心點;[ρ]代表計算兩個框中心點的歐氏距離;[c]表示兩個框的最小方框的對角線距離;[wgt]和[w]分別代表真實框和預測框的寬度;[hgt]和[h]分別代表真實框和預測框的高度。
從式(2)、式(3)中可知,CIoU綜合考慮了預測框與真實框的重疊面積、中心距離、寬高比三種要素,但它是通過[v]來反映預測框和真實框的寬高比,而不是計算兩者寬高的真實差異,所以有時會阻礙檢測框的回歸。因此,本文使用將預測框與真實框的歐氏距離平方作為懲罰項的Focal?EIoU邊界損失函數(shù)來代替CIoU,該損失函數(shù)由Focal和EIoU組合而成。EIoU的公式如式(4)~式(7)所示:
[LEIoU=LIoU+Ldis+Lasp] (4)
[LIoU=1-IoU] (5)
[Ldis=ρ2(b,bgt)c2] (6)
[Lasp=ρ2(w,wgt)C2w+ρ2(h,hgt)C2h] (7)
式中:[c]、[w]、[h]、[wgt]、[hgt]、[ρ]和CIoU損失函數(shù)的含義一致;[Cw]表示覆蓋預測框和真實框的最小外接框的寬;[Ch]為覆蓋預測框和真實框的最小外接框的高。從上述式子可以看出,EIoU通過減小預測框和真實框?qū)捀呱系牟町悾屇P褪諗克俣雀烨叶ㄎ桓鼫蚀_,它將損失分為三部分:重疊程度損失[LIoU];中心的損失[Ldis];預測框與真實框邊長損失[Lasp]。
在單張樣本圖像中,回歸誤差小的錨框數(shù)量明顯少于誤差大的錨框數(shù)量。由于質(zhì)量較差的錨框會導致較大的梯度,這直接影響了模型的訓練效果。為了應對這種不平衡情況,通過在EloU的基礎上引入Focal Loss,旨在將高質(zhì)量的錨框和低質(zhì)量的錨框在訓練中分開,以更有效地處理不同質(zhì)量的目標框。計算公式如式(8)所示:
[LFocal?EIoU=IoUγLEIoU] (8)
式中[γ]為抑制異常的超參數(shù)。Focal?EIoU減小了簡單樣本的權(quán)重,讓模型更關(guān)注預測框和真實框重疊低的樣本,從而提高回歸的精度。
1.4" Soft?NMS
YOLOv5使用的NMS算法是直接根據(jù)置信度的大小來刪除得分低的預選框,保留置信度高的預選框,如式(9)所示:
[Si=0," "IoU(M,bi)≥NtKi," "IoU(M,bi)lt;Nt] (9)
式中:[Si]是算法算出的第[i]個檢測框得分;[Ki]是各個目標的邊界框置信度得分;[Nt]是設置的閾值;[M]代表置信度最大的檢測框;[bi]代表第[i]個檢測框。由式(9)可知,通過[bi]和[M]的交并比進行比較,如果大于閾值,則會直接刪除[bi]。
對于無人機航拍的圖像而言,會存在許多車輛目標密集的場景,因為無人機拍攝視角較高、較廣,導致車輛目標間的間距縮小使得密集的情況更為嚴重。傳統(tǒng)NMS通常只關(guān)注檢測框的重疊度,以及抑制與目標檢測框重疊較高的非目標檢測框,然而,在某些情況下,這些非目標檢測框可能是另一個目標的一部分,進而導致目標遺漏。此外,NMS會直接刪除置信度較低的檢測框,導致原本有效的單個目標被忽略,從而引發(fā)誤檢和漏檢的問題,尤其是小目標。
本文用柔性非極大值抑制算法(Soft?NMS)替換原基線模型中的NMS,Soft?NMS算法與傳統(tǒng)NMS的不同之處在于,它在計算重疊程度時不是簡單的二值化閾值,而是使用一種類似高斯函數(shù)的方式,將重疊程度轉(zhuǎn)化為一個在0~1之間的實數(shù),然后根據(jù)這個實數(shù)對所有預測框進行排序。在抑制過程中,不再直接抑制與基準框重疊度高的框,而是根據(jù)重疊程度計算一個權(quán)重,對所有預測框進行加權(quán)求和,最終得到加權(quán)和最高的框。該方法能夠緩解目標密集情況下檢測框處理方式不夠細膩導致的漏檢或誤檢的問題。此外,在訓練過程中采用NMS方法,僅在推理過程中使用Soft?NMS,這樣就不會增加模型的計算量。Soft?NMS的高斯加權(quán)方式如式(10)所示:
[S*i=Sie-IoU(M,bi)σ," " " "?bi?D] (10)
式中:[S*i]表示加權(quán)后的得分;[Si]表示第[i]個檢測框得分;[M]和[bi]與NMS式中的含義一致;[σ]表示標準差。
2" 實驗與結(jié)果分析
2.1" 實驗環(huán)境與數(shù)據(jù)集
如表2所示,給出了實驗環(huán)境和實驗中設置的一些統(tǒng)一的參數(shù)準則。若文中沒有特殊的說明,則默認使用表中的參數(shù)設置。
本文使用由天津大學機器學習與數(shù)據(jù)挖掘?qū)嶒炇褹iskYeye團隊收集的VisDrone2019[21]數(shù)據(jù)集。VisDrone2019數(shù)據(jù)集包含288個視頻片段、261 908幀和10 209幅靜態(tài)圖像,大約有540 000個標注信息。該數(shù)據(jù)集包含日常生活中的10個場景類別,分別為行人(pedestrian)、人(people)、自行車(bicycle)、汽車(car)、面包車(van)、卡車(truck)、三輪車(tricycle)、遮陽篷三輪車(awning?tricycle)、公共汽車(bus)和摩托車(motor)。
由于本文應用主要集中在交通監(jiān)測和管理方面,所以只提取了car、van、truck、bus四個主要出現(xiàn)在道路上的車輛類別進行檢測。為了提升檢測效果,本文對數(shù)據(jù)集進行了擴充,應用加噪聲、平移、裁剪等數(shù)據(jù)增廣的方式,具體效果如圖6所示,其中圖6a)為原圖,圖6b)~圖6f)為增強后的結(jié)果。最終形成的訓練集包含8 635張圖片,驗證集有2 160張圖片。
2.2" 評價指標
本文使用了多個評價指標,包括精準率(Precision)、召回率(Recall)、平均精度均值(mAP)、模型參數(shù)量(Params)、每秒檢測幀數(shù)(FPS)和浮點運算次數(shù)(GFLOPs)。
精準率(Precision)指預測為正樣本中實際正樣本的比例,公式如下:
[P=TPTP+FP] (11)
式中:TP為正確預測出正樣本的檢測框數(shù)量;FP為負樣本被預測成正類的數(shù)量。
召回率(Recall)代表正確預測的樣本數(shù)占總樣本數(shù)的比例,公式如下:
[R=TPTP+FN] (12)
式中FN為被預測成負類的正樣本數(shù)。
平均精度均值(mAP)為所有類別檢測精度的平均值,公式如下:
[AP=01PRdR] (13)
[mAP=1ni=1nAPi] (14)
式中:[n]為檢測類別的數(shù)量;AP為[PR]曲線下的面積。
2.3" 實驗結(jié)果
2.3.1" 消融實驗
為了驗證本文提出的方法對無人機圖像中車輛目標檢測的性能有效提高,以YOLOv5s作為基線模型進行消融實驗,實驗結(jié)果如表3所示。其中:mAP@0.5是IoU為0.5時所有類別的平均檢測精度;mAP@0.5:0.95是IoU以0.05為步長,從0.5~0.95的全部平均檢測精度;FPS指的是模型每秒處理的圖片數(shù)量,用來衡量檢測速度;GFLOPs為網(wǎng)絡模型的浮點運算次數(shù)。
通過分析表3的結(jié)果可以發(fā)現(xiàn),添加小目標檢測層、DAC模塊、將損失函數(shù)替換為Focal?EIoU以及將NMS改為Soft?NMS都對檢測精度進行了提升。在方法1中,引入小目標檢測層,mAP@0.5提高了4.1%。由于增加了C3_1、上采樣、Conv、檢測頭等模塊,導致模型的參數(shù)量和計算量略有增加,但這能夠最大限度地保留小目標車輛的位置信息,從而顯著提高了檢測精度。方法2中,在骨干網(wǎng)絡使用DAC模塊替換了基線模型三層的C3模塊,相對于基線模型,mAP@0.5提升了0.7%。這強化了在復雜背景下多尺度車輛細節(jié)信息的特征提取能力,從而提高了檢測精度,同時也帶來了一定的參數(shù)量增加。在方法3中替換了損失函數(shù),F(xiàn)ocal?EIoU以歐氏距離平方作為懲罰項,不增加參數(shù)量和計算量的情況下,檢測精度提高了0.9%。相對于基線模型,檢測速度也有一定的提升。方法4是將方法1和方法3相結(jié)合,mAP@0.5相比于基線模型提升了4.5%。方法5是在方法4的基礎上使用了Focal?EIoU,檢測精度再次提高了0.4%。在方法6中,將方法5的非極大值抑制替換為Soft?NMS,相較于基線模型,mAP@0.5提高了8.4%,比起方法5,檢測精度提高了3.4%,雖然模型的參數(shù)量和計算量沒有增加,但是由于Soft?NMS的推理較慢,導致檢測速度降低。相比于精度的提升,檢測速度的下降在可接受范圍之內(nèi)。
綜上所述,實驗結(jié)果表明,本文提出的每一個改進都提升了模型的檢測性能,雖然一些改進帶來了一定的參數(shù)量和計算量使得檢測速度降低,但檢測精度提升較大,也能滿足實時性檢測的需求。
2.3.2" 數(shù)據(jù)集中各類的實驗結(jié)果
為了驗證改進方法在車輛目標檢測中的效果,對改進方法的每個類別進行了精準率、召回率和平均精度的評估,并將其與基線模型進行了對比,結(jié)果如表4所示。
根據(jù)實驗結(jié)果顯示,改進后的模型在道路上對各類車輛的精準率、召回率以及檢測精度都取得了顯著提升。具體而言,car、van、truck和bus的mAP分別達到了86.1%、68.1%、69.5%和77.6%,分別相較于基線模型提升了7.1%、8.4%、9.1%和9.1%。因此,改進后的模型對于無人機航拍各類車輛目標檢測表現(xiàn)出很好的適用性。
2.3.3" 損失函數(shù)對比實驗
在基線模型中所使用的損失函數(shù)是CIoU,為了驗證Focal?EIoU損失函數(shù)對無人機圖像中車輛精度具有更好的提升效果,使用不同損失函數(shù)進行對比實驗,以mAP@0.5和mAP@0.5:0.95為評價指標。
損失函數(shù)對比實驗結(jié)果如表5所示。
由實驗結(jié)果可知,F(xiàn)ocal?EIoU的mAP@0.5和mAP@0.5:0.95的值分別達到了67.8%和45.4%,相比其他損失函數(shù),F(xiàn)ocal?EIoU具有更好的性能表現(xiàn)和更快的收斂速度。
2.3.4" 對比實驗
為了進一步驗證本文算法的性能優(yōu)勢,選取了比較有代表性的目標檢測算法Faster R?CNN、SSD、YOLO系列在VisDrone2019數(shù)據(jù)集上進行對比實驗,實驗結(jié)果如表6所示。
通過表6可以分析出,本文改進算法在平均精度、參數(shù)量、計算量相比其他算法都具有不錯的優(yōu)勢。對比YOLO系列中最新的模型YOLOv8s,本文算法的mAP@0.5值提高了5.1%,參數(shù)減少了3.76×106,運算次數(shù)減少了11.9 GFLOPs。與針對無人機圖像目標檢測的THP?YOLOv5s算法相比,本文算法的mAP@0.5值提高了3.1%,參數(shù)量和運算次數(shù)分別降低了2.12×106和8.7 GFLOPs,并且相對于二階段算法Faster R?CNN在精度和模型復雜度上都有顯著的優(yōu)勢。
2.3.5" 可視化分析
在VisDrone2019數(shù)據(jù)集中,本文選擇了在高空(小目標)、復雜背景和密集場景下具有代表性的圖像進行檢測,以更直觀地評估本文算法。不同場景下的檢測效果對比如圖7所示。
圖7a)展示了高空場景的檢測對比圖,可以觀察到圖像中的車輛變得十分微小,且不同車輛的尺度變化較大。圖7b)展示了復雜場景下的檢測對比圖,由于無人機拍攝的圖像受到昏暗和部分光照的影響,導致圖像質(zhì)量較差。圖7c)展示了密集場景下的對比檢測圖,可以看到圖像中目標之間相互重疊的情況十分嚴重。
從基線模型和改進后模型的檢測對比圖來看,在圖7a)中,原始基線模型將路邊的欄桿誤檢為car類,并且將van類別錯誤檢測為car類。在第二列的復雜場景中,原始基線模型將本應為truck類的目標誤檢為bus類。在圖7c)的密集場景中,基線模型產(chǎn)生了許多冗余的檢測框,尤其是在密集排列的車輛部分,而改進后的模型為每個類別都分配了相應的框。改進后的算法與YOLOv5相比,在任何場景下都表現(xiàn)出更高的檢測精度,同時減少了漏檢和誤檢的現(xiàn)象發(fā)生。
3" 結(jié)" 語
本文研究并分析了無人機航拍圖像檢測方法的不足,根據(jù)無人機航拍圖像的特點,在YOLOv5的基礎上進行了改進,引入了一系列創(chuàng)新措施,包括增加小目標檢測層、修改主干網(wǎng)絡、調(diào)整損失函數(shù)以及改進非極大值抑制機制,旨在全面提升模型的檢測性能。通過在VisDrone2019數(shù)據(jù)集上進行實驗,本文著重提取了道路上經(jīng)常出現(xiàn)的4個車輛類別,并對模型進行了深入評估。
實驗結(jié)果顯示改進后的模型不僅在檢測精度方面取得顯著提升,而且總參數(shù)量和計算復雜度保持在合理水平的同時展現(xiàn)了出色的性能。
通過與其他先進檢測模型進行對比,驗證了本文改進方法的有效性。未來,將持續(xù)專注于研究無人機航拍圖像中不同車輛目標的獨特特征,并不斷提出更加精準的優(yōu)化策略。在數(shù)據(jù)收集和標注方面,以后將計劃擴大涉及的類別目標,擴展研究的應用領域,以更全面地滿足多樣化場景和目標類別的挑戰(zhàn),為未來無人機技術(shù)在各個實際應用領域中的推廣提供堅實的理論和實踐基礎。
注:本文通訊作者為趙良軍。
參考文獻
[1] LUO X D, WU Y Q, ZHAO L Y. YOLOD: A target detection method for UAV aerial imagery [J]. Remote sensing, 2022, 14(14): 3240.
[2] PEI H T, SUN Y Q, HUANG H, et al. Weed detection in maize fields by UAV images based on crop row preprocessing and improved YOLOv4 [J]. Agriculture, 2022, 12(7): 975.
[3] BYUN S, SHIN I K, MOON J, et al. Road traffic monitoring from UAV images using deep learning networks [J]. Remote sensing, 2021, 13(20): 4027.
[4] LAHOTI S, LAHOTI A, SAITO O. Application of unmanned aerial vehicle (UAV) for urban green space mapping in urbani?zing Indian cities [J]. Unmanned aerial vehicle: Applications in agriculture and environment, 2020(1): 177?188.
[5] BAIOCCHI V, NAPOLEONI Q, TESEI M, et al. UAV for monitoring the settlement of a landfill [J]. European journal of remote sensing, 2019, 52(3): 41?52.
[6] 聶晶鑫.基于改進YOLOv5的鐵路接觸網(wǎng)絕緣子檢測方法[J].現(xiàn)代電子技術(shù),2024,47(2):31?36.
[7] DE OLIVEIRA D C, WEHRMEISTER M A. Using deep learning and low?cost RGB and thermal cameras to detect pedestrians in aerial images captured by multirotor UAV [J]. Sensors, 2018, 18(7): 2244.
[8] LIU X, ZHANG Z Y. A vision?based target detection, tracking, and positioning algorithm for unmanned aerial vehicle [EB/OL]. [2021?04?12]. https://onlinelibrary.wiley.com/doi/10.1155/2021/5565589.
[9] GIRSHICK R B. Fast R?CNN [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2015: 1440?1448.
[10] REN S Q, HE K M, GIRSHICK R B, et al. Faster R?CNN: Towards real?time object detection with region proposal networks [C]// Advances in Neural Information Processing Systems 28: Annual Conference on Neural Information Processing Systems 2015. [S.l.: s.n.], 2015: 91?99.
[11] HE K M, GKIOXARI G, DOLLáR P, et al. Mask R?CNN [EB/OL]. [2018?01?24]. https://arxiv.org/abs/1703.06870?file=1703.06870.
[12] JIANG P Y, ERGU D J, LIU F Y, et al. A review of Yolo algorithm developments [C]// Proceedings of the 8th International Conference on Information Technology and Quantitative Management. Amsterdam, Netherlands: Elsevier, 2021: 1066?1073.
[13] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector [C]// Proceedings of 14th European Conference on Computer Vision. Heidelbrug: Springer, 2016: 21?37.
[14] LUO X D, WU Y Q, WANG F Y. Target detection method of UAV aerial imagery based on improved YOLOv5 [J]. Remote sensing, 2022, 14(19): 5063.
[15] GUO J, LIU X, BI L, et al. UN?YOLOv5s: A UAV?based aerial photography detection algorithm [J]. Sensors, 2023, 23(13): 5907.
[16] ZENG Y L, ZHANG T, HE W K, et al. YOLOv7?UAV: An unmanned aerial vehicle image object detection algorithm based on improved YOLOv7 [J]. Electronics, 2023, 12(14): 3141.
[17] ZHU X Z, HU H, LIN S, et al. Deformable ConvNets v2: More deformable, better results [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 9300?9308.
[18] WOO S, PARK J, LEE J Y, et al. CBAM: Convolutional block attention module [EB/OL]. [2018?07?17]. https://arxiv.org/abs/1807.06521.
[19] ZHANG Y F, REN W Q, ZHANG Z, et al. Focal and efficient IoU loss for accurate bounding box regression [J]. Neurocomputing, 2022, 506: 146?157.
[20] CHEN F X, ZHANG L X, KANG S Y, et al. Soft?NMS?enabled YOLOv5 with SIoU for small water surface floater detection in UAV?captured images [J]. Sustainability, 2023, 15(14): 10751.
[21] ZHU P F, WEN L Y, DU D W, et al. Detection and tracking meet drones challenge [J]. IEEE transactions on pattern analysis and machine intelligence, 2021, 44(11): 7380?7399.
[22] ZHENG Z H, WANG P, LIU W, et al. Distance?IoU loss: Faster and better learning for bounding box regression [EB/OL]. [2019?11?19]. https://arxiv.org/abs/1911.08287.
[23] GEVORGYAN Z. SIoU loss: More powerful learning for boun?ding box regression [EB/OL]. [2022?05?30]. https://doi.org/10.48550/arXiv.2205.12740.
[24] TONG Z J, CHEN Y H, XU Z W, et al. Wise?IoU: Bounding box regression loss with dynamic focusing mechanism [EB/OL]. [2023?01?26]. https://doi.org/10.48550/arXiv.2301.10051.
作者簡介:梁" 剛(1999—),男,四川廣元人,碩士研究生,研究方向為目標檢測。
趙良軍(1980—),男,湖北京山人,博士研究生,研究方向為圖像處理、衛(wèi)星遙感。
寧" 峰(2000—),男,四川德陽人,碩士研究生,研究方向為目標檢測。
席裕斌(1999—),男,陜西漢中人,碩士研究生,研究方向為語義分割。
何中良(1995—),男,四川南充人,碩士研究生,研究方向為語義分割。