【摘要】針對(duì)傳統(tǒng)目標(biāo)檢測跟蹤算法檢測精度低、全局感知能力差、對(duì)遮擋和小目標(biāo)物體的識(shí)別能力差等問題,提出了一種基于輕量化Transformer改進(jìn)的YOLOv5和DeepSORT算法的車輛跟蹤方法。首先,利用EfficientFormerV2模型改進(jìn)YOLOv5算法模型,增強(qiáng)車輛的目標(biāo)檢測能力;然后,利用移位窗口(Swin)模型的優(yōu)點(diǎn)改進(jìn)DeepSORT多目標(biāo)跟蹤算法中的重識(shí)別(Re-Identification)模塊,提高車輛的跟蹤能力和精度;最后,通過數(shù)據(jù)集KITTI和VeRi開展對(duì)比試驗(yàn)和消融實(shí)驗(yàn)。結(jié)果表明,在復(fù)雜工況下,該方法的性能在車輛遮擋和小目標(biāo)識(shí)別方面顯著提高,平均準(zhǔn)確度達(dá)到96.7%,目標(biāo)跟蹤準(zhǔn)確度提高了9.547%,編號(hào)(ID)切換總次數(shù)減少了26.4%。
主題詞:YOLOv5 車輛檢測 DeepSORT Transformer
中圖分類號(hào):TP391.41;U463.6 " 文獻(xiàn)標(biāo)志碼:A " DOI: 10.19620/j.cnki.1000-3703.20231097
Vehicle Tracking Algorithm Based on Transformer’s Improved YOLOv5+DeepSORT
He Shuilong1,2, Zhang Jingjia1, Zhang Linjun1, Mo Deyun2
(1. Guilin University of Electronic Technology, Guilin 541004; 2. Guilin University of Aerospace Technology,
Guilin 541004)
【Abstract】In order to solve the shortcomings of traditional object detection and tracking algorithms, such as low detection accuracy, poor global perception ability, poor recognition ability of occlusion and small target objects, this paper proposed a vehicle tracking method based on YOLOv5 and DeepSORT algorithm improved by lightweight Transformer. Firstly, the EfficientFormerV2 model was used to improve the YOLOv5 algorithm model to enhance the target detection ability of the vehicle, and then the advantages of the Swin model were used to improve the Re-Identification module in the DeepSORT multi-target tracking algorithm to enhance the tracking ability and accuracy of the vehicle. Finally, the dataset KITTI and VeRi were used to carry out comparative experiments and ablation experiments. The results show that under complex conditions, the performance of the proposed method is significantly improved in vehicle occlusion and small target recognition, with an average accuracy of 96.7%, an increase of 9.547% in target tracking, and a reduction of 26.4% in the total number of ID switching.
Key words: YOLOv5, Vehicle detection, DeepSORT, Transformer
【引用格式】 何水龍, 張靖佳, 張林俊, 等. 基于Transformer改進(jìn)的YOLOv5+DeepSORT的車輛跟蹤算法[J]. 汽車技術(shù), 2024(7): 9-16.
HE S L, ZHANG J J, ZHANG L J, et al. Vehicle Tracking Algorithm Based on Transformer’s Improved YOLOv5+DeepSORT[J]. Automobile Technology, 2024(7): 9-16.
1 前言
目標(biāo)識(shí)別和跟蹤技術(shù)是提高高級(jí)輔助駕駛系統(tǒng)安全性能的核心手段之一,其通過實(shí)時(shí)識(shí)別并跟蹤車輛、行人和道路標(biāo)志等目標(biāo),幫助車輛感知周圍交通狀況,減少交通事故。
近年來,深度學(xué)習(xí)在目標(biāo)檢測領(lǐng)域不斷發(fā)展。2017年,He等[1]提出了掩膜循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Mask Recycle Convolutional Neural Network,Mask R-CNN)算法,有效解決了原圖與特征圖的特征位置不匹配的問題。2018年,Redmon等[2]在改進(jìn)基礎(chǔ)網(wǎng)絡(luò)的同時(shí),結(jié)合金字塔結(jié)構(gòu),提出了YOLOv3[3]算法,獲取了更多小目標(biāo)的有效信息。2019年,Zhao等[4]針對(duì)目標(biāo)尺度變化的問題,提出了M2Det算法。2020年后,基于YOLOv3改進(jìn)的YOLOv4[5]和YOLOv5[6]模型在保持運(yùn)行效率優(yōu)勢的基礎(chǔ)上提高了檢測與識(shí)別的準(zhǔn)確率。然而,這些方法在某些方面仍然存在一定的局限性,如:Mask R-CNN在實(shí)現(xiàn)上比快速循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Faster Recycle Convolutional Neural Network,F(xiàn)aster R-CNN)[7]復(fù)雜,需要更多的計(jì)算資源,且使用了類似于Faster R-CNN的兩階段目標(biāo)檢測方法,檢測速度相對(duì)較慢;YOLO系列模型在處理小目標(biāo)和遮擋目標(biāo)時(shí)仍存在挑戰(zhàn);M2Det算法需要處理多個(gè)尺度的特征金字塔,故其在實(shí)時(shí)性上并不理想。
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,多目標(biāo)跟蹤算法也不斷改進(jìn)。Yu等[8]提出了一個(gè)兩階段算法,先使用Faster R-CNN進(jìn)行目標(biāo)檢測,再利用匈牙利算法對(duì)由GoogleNet[9]提取的特征進(jìn)行關(guān)聯(lián),從而實(shí)現(xiàn)目標(biāo)跟蹤。Xie等[10]利用基于YOLOv3的檢測器捕捉目標(biāo),并使用DeepSORT(Deep learning based Simple Online and Realtime Tracking)算法實(shí)現(xiàn)軌跡關(guān)聯(lián)。然而,兩階段算法需要兩個(gè)密集計(jì)算網(wǎng)絡(luò),存在跟蹤效率低的問題。因此,諸多研究者轉(zhuǎn)向基于重識(shí)別(Re-IDentification,Re-ID)技術(shù)的多目標(biāo)跟蹤算法研究,提高多目標(biāo)跟蹤效率。Wang等[11]率先提出了一種聯(lián)合模型,通過改進(jìn)YOLOv3檢測模型,一次性解決目標(biāo)檢測和Re-ID特征提取,在行人數(shù)據(jù)集上實(shí)現(xiàn)了較高水平的跟蹤效率。Zhang等[12]提出了FairMOT算法,使用深層特征融合網(wǎng)絡(luò)進(jìn)行特征提取,從而提高了跟蹤性能。但上述算法所使用的骨干網(wǎng)絡(luò)都是由檢測器網(wǎng)絡(luò)改造而來,在學(xué)習(xí)Re-ID特征上存在缺陷。
為進(jìn)一步提升目標(biāo)跟蹤算法精度、效率和跟蹤能力,本文提出一種基于輕量化Transformer改進(jìn)的YOLOv5和DeepSORT的車輛跟蹤方法,彌補(bǔ)YOLO系列對(duì)于小目標(biāo)和遮擋物的檢測能力不足以及DeepSORT中Re-ID模塊泛化能力弱的缺點(diǎn)。
2 目標(biāo)檢測算法
2.1 YOLOv5算法模型
YOLOv5是一種基于深度殘差和路徑聚合網(wǎng)絡(luò)的目標(biāo)檢測算法,其骨干網(wǎng)絡(luò)基于CSPDarknet53[13],結(jié)合特征金字塔網(wǎng)絡(luò)(Feature Pyramid Networks,F(xiàn)PN)[14]和空間金字塔池化(Spatial Pyramid Pooling,SPP)[15]技術(shù),提升了小目標(biāo)檢測精度。在COCO數(shù)據(jù)集[16]上,YOLOv5的平均精度均值(mean Average Precision,mAP)表現(xiàn)優(yōu)異[17-18],超越了當(dāng)時(shí)的最先進(jìn)水平。
2.2 YOLOv5算法改進(jìn)
YOLOv5采用CSPDarknet53對(duì)輸入數(shù)據(jù)進(jìn)行劃分,通過拆分路由(Split Route)模塊分為兩個(gè)部分,然后用跨階段部分(Cross Stage Partial,CSP)模塊連接,再通過一個(gè)大卷積層將特征融合,從而得到骨干網(wǎng)絡(luò)輸出的特征圖。這種操作能夠很好地處理圖像的局部特征。然而,由于YOLOv5采用無錨點(diǎn)(Anchor-Free)方式,在單個(gè)目標(biāo)的檢測方面存在缺陷。如在小目標(biāo)物體檢測和物體被遮擋的情況下,存在檢測漏報(bào)和誤報(bào)的情況。針對(duì)這種情況,本文提出一種改進(jìn)YOLOv5目標(biāo)檢測模型,如圖1所示。該模型在保證網(wǎng)絡(luò)正常檢測較大目標(biāo)的同時(shí),提高對(duì)小目標(biāo)特征信息的感知能力和全局感知能力,以提高遮擋物體的識(shí)別率和泛化能力,滿足實(shí)時(shí)性和提高檢測精度的要求,采用最新的輕量化Transformer模型EfficientFormerV2[19]對(duì)YOLOv5的骨干網(wǎng)絡(luò)進(jìn)行改進(jìn)。EfficientFormerV2使用全局自注意力機(jī)制,在處理道路交通領(lǐng)域的車輛目標(biāo)檢測任務(wù)時(shí),特別是在存在大量背景干擾的情況下,能夠有效地分割不同區(qū)域?qū)?yīng)的目標(biāo)對(duì)象,達(dá)到更好的檢測效果。采用快速空間金字塔池化(Spatial Pyramid Pooling-Fast,SPPF)模塊連接EfficientFormerV2模塊,在不同尺度的特征圖中劃分多個(gè)子區(qū)域,并利用最大池化對(duì)每個(gè)子區(qū)域進(jìn)行處理。最終將所有尺度的池化結(jié)果拼接成一個(gè)固定長度的特征向量,解決不同尺度特征圖的融合問題,在處理車輛遮擋和全局感知方面可獲得更好的效果。
2.3 EfficientFormerV2網(wǎng)絡(luò)模型
EfficientFormerV2是Detransformer模型的改進(jìn)版,基于Transformer的自注意力機(jī)制,能有效處理對(duì)象關(guān)系與局部圖像信息,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。本文選用其輕量化版本EfficientFormerV2-S2,參數(shù)量僅10.3×106個(gè),適用于邊緣計(jì)算處理器部署。
EfficientFormerV2采用了四階段分層設(shè)計(jì),可以獲得輸入圖像分辨率在{1/4,1/8,1/16,1/32}處的特征圖。為更高效地嵌入輸入圖像,EfficientFormerV2使用了小內(nèi)核卷積,而不是非重疊補(bǔ)?。≒atch)的方式,從而提高了計(jì)算性能和模型泛化能力。該設(shè)計(jì)使得EfficientFormerV2在圖像分類和目標(biāo)檢測等任務(wù)中都獲得了極佳的性能表現(xiàn)。計(jì)算過程為:
[XB,Cj|j=1,H4,W4i|i=1,j|j=1=stemχB,3,H,W0] (1)
式中:Xi,j表示第i層第j階段的特征圖,j∈{1,2,3,4},B為批大小,Cj為第j階段通道大?。ū硎揪W(wǎng)絡(luò)寬度),H、W分別為特征圖的高度和寬度,χ0為輸入圖像,stem為卷積下采樣操作。
第一階段和第二階段的設(shè)計(jì)旨在以高分辨率捕獲局部信息,采用了相同的前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)FN)來處理每層特征圖,如圖3所示。這種設(shè)計(jì)使得EfficientFormerV2能夠在局部區(qū)域獲取更多的細(xì)節(jié)信息,有助于實(shí)現(xiàn)更準(zhǔn)確的目標(biāo)檢測和圖像分類:
[XB,Cj,-H2j+1,W2j+1i+1,j=Si,j?FFNCj,Ei,jXi,j+Xi,j] (2)
式中:Si,j為一種可學(xué)習(xí)的層間尺度;FFN含有兩種屬性,即階段寬度Cj和每塊擴(kuò)展比Ei,j。
需要注意的是,每個(gè)FFN都采用了殘差連接(Residual Connection)。在模型的最后兩個(gè)階段,本地FFN和全局多頭自注意力(Multi-Head Self-Attention,MHSA)塊均被使用。
本文將4個(gè)FFN模塊封裝在一個(gè)時(shí)序(Sequential)容器中,可方便地對(duì)它們進(jìn)行堆疊和復(fù)用,避免手動(dòng)重復(fù)編碼。此外,在第2層、第4層、第6層的時(shí)序容器與批標(biāo)準(zhǔn)化(Batch Normalization)結(jié)合使用。其中,時(shí)序容器對(duì)輸入的序列進(jìn)行局部特征提取和非線性變換,而批歸一化則可以對(duì)每個(gè)時(shí)序容器模塊的輸出進(jìn)行標(biāo)準(zhǔn)化處理,減少數(shù)據(jù)內(nèi)部協(xié)方差的影響,從而加速模型收斂并降低過擬合風(fēng)險(xiǎn)。EfficientFormerV2模塊的輸出特征向量被傳遞給SPPF模塊和下游的其他卷積層。SPPF模塊通過網(wǎng)絡(luò)池化操作生成固定長度的特征向量,用于下游任務(wù)。
3 目標(biāo)跟蹤算法
3.1 DeepSORT算法
簡單在線實(shí)時(shí)跟蹤(Simple Online and Realtime Tracking,SORT)[20]利用卡爾曼濾波器預(yù)測目標(biāo)運(yùn)動(dòng),通過交并比(Intersection Over Union,IOU)評(píng)估預(yù)測邊界框與檢測邊界框的相似度,并應(yīng)用匈牙利算法關(guān)聯(lián)數(shù)據(jù),實(shí)現(xiàn)實(shí)時(shí)跟蹤。DeepSORT在SORT基礎(chǔ)上引入深度學(xué)習(xí)網(wǎng)絡(luò)提取目標(biāo)特征,采用級(jí)聯(lián)匹配技術(shù)解決目標(biāo)重疊或遮擋時(shí)的編號(hào)(ID)切換問題。該算法結(jié)合運(yùn)動(dòng)與外觀特征計(jì)算代價(jià)矩陣,匹配檢測結(jié)果,將未匹配的目標(biāo)視為新目標(biāo),分配新ID。級(jí)聯(lián)匹配技術(shù)根據(jù)目標(biāo)丟失次數(shù)和軌跡活躍程度對(duì)目標(biāo)進(jìn)行優(yōu)先排序,有效減少了ID切換次數(shù)。
3.2 DeepSORT算法改進(jìn)
目標(biāo)特征提取的主要目的是獲得目標(biāo)的唯一標(biāo)識(shí)特征,以便對(duì)其在不同位置或姿態(tài)下進(jìn)行重新識(shí)別,從而實(shí)現(xiàn)目標(biāo)跟蹤。在DeepSORT算法中,特征提取的主要算法是基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的ResNet-50[21],用以對(duì)目標(biāo)圖像區(qū)域進(jìn)行卷積特征提取。對(duì)于每個(gè)檢測目標(biāo),先裁剪其位置,再經(jīng)CNN提取卷積特征,通過全連接層降維得到特征向量。該向量反映目標(biāo)視覺與外觀信息,魯棒性強(qiáng),不受位置和姿態(tài)變化的影響。ResNet-50在ImageNet上進(jìn)行了大規(guī)模預(yù)訓(xùn)練,故提取的特征向量更準(zhǔn)確且區(qū)分力更強(qiáng)。
不過,ResNet-50也存在一定不足:首先,ResNet-50具有非常深的網(wǎng)絡(luò)結(jié)構(gòu),導(dǎo)致訓(xùn)練和推理速度較慢,尤其是在高分辨率圖像上;其次,ResNet-50的感受野較大,當(dāng)目標(biāo)物體較小時(shí),容易忽略一些關(guān)鍵信息,導(dǎo)致檢測失敗;最后,由于ResNet-50相對(duì)于一些輕量級(jí)神經(jīng)網(wǎng)絡(luò)而言體積更大,需要更多的存儲(chǔ)和計(jì)算資源。為解決這些問題,本文對(duì)DeepSORT中的重識(shí)別模塊進(jìn)行了改進(jìn),將ResNet-50主干網(wǎng)絡(luò)換成基于Transformer架構(gòu)的移位窗口(Shifted windows,Swin)[22],如圖4所示。Swin憑借分布式訓(xùn)練、跨群組部署及計(jì)算與存儲(chǔ)分離等優(yōu)勢,可實(shí)現(xiàn)快速訓(xùn)練和推理,并展現(xiàn)出較強(qiáng)的可擴(kuò)展性。其分級(jí)特征提取與多重注意力機(jī)制使得小目標(biāo)檢測敏感度超越了ResNet-50。計(jì)算注意力機(jī)制相似度時(shí),在每個(gè)頭(Head)中加入相對(duì)位置偏置[B∈RM2×M2]:
[Atention Q,K,V=SoftMax QKT/d+BV] " " "(3)
式中:[Q,K,V∈RM2,d]分別為查詢(Query)矩陣、鍵(Key)矩陣和價(jià)值(Value)矩陣,d為查詢矩陣、鍵矩陣的維度,M2為局部窗口內(nèi)的補(bǔ)丁數(shù)量。
此外,該算法還提出了橫向和縱向的多重特征信息響應(yīng),這種分層設(shè)計(jì)的思路不僅方便根據(jù)任務(wù)調(diào)整網(wǎng)絡(luò)深度,而且可以有效避免梯度消失等問題。
4 試驗(yàn)結(jié)果
本文采用僅有27 MB的輕量化YOLOv5s模型,兼顧精度、速度與成本,提升算法運(yùn)行性能。
4.1 試驗(yàn)配置
本文試驗(yàn)采用開源的PyTorch深度學(xué)習(xí)框架。CPU使用第12代Intel Core i7-12700H,主頻為4.70 GHz;采用Ubuntu20.04 LTS操作系統(tǒng),其中包含Python 3.8和CUDA 12.0;圖形處理器使用GeForce GTX 3060,顯存容量為6 GB。
為適配KITTI數(shù)據(jù)集,本文對(duì)YOLOv5進(jìn)行了重新訓(xùn)練,優(yōu)化了訓(xùn)練參數(shù)與批大小(Batch Size),如表1所示,并利用文獻(xiàn)[19]開源的權(quán)重加速收斂。
4.2 數(shù)據(jù)集
采用KITTI數(shù)據(jù)集[23]對(duì)模型進(jìn)行測試和評(píng)估,KITTI數(shù)據(jù)集作為自動(dòng)駕駛與計(jì)算機(jī)視覺評(píng)估的核心基準(zhǔn),包含多序列多視角圖像數(shù)據(jù)。針對(duì)其與YOLOv5模型的不兼容性,本研究進(jìn)行了預(yù)處理:數(shù)據(jù)被細(xì)分為六類目標(biāo),格式轉(zhuǎn)為xml,并適配為YOLOv5訓(xùn)練標(biāo)簽,從而推進(jìn)其在該模型中的有效應(yīng)用。
VeRi車輛重識(shí)別數(shù)據(jù)集[24]是用于研究車輛重識(shí)別的公共數(shù)據(jù)集之一。該數(shù)據(jù)集涵蓋20種攝像機(jī)視角下的視頻及576輛車共計(jì)37 778張圖像,展現(xiàn)多視角、多樣圖像質(zhì)量(含模糊、噪聲),及車輛局部細(xì)節(jié)(如車牌、車燈),適用于車輛重識(shí)別訓(xùn)練與算法性能評(píng)估。
4.3 改進(jìn)YOLOv5試驗(yàn)結(jié)果和分析
4.3.1 定量分析
圖5所示為改進(jìn)YOLOv5算法的對(duì)比試驗(yàn)結(jié)果??梢钥闯?,改進(jìn)算法在IOU閾值為0.5時(shí)的mAP明顯提高,從95.6%提升至96.7%,說明了本文的方法能夠有效提高對(duì)車輛目標(biāo)的檢測能力。
4.3.2 定性分析
算法定性試驗(yàn)結(jié)果如圖6所示,改進(jìn)前的算法明顯未能識(shí)別右下角的紅色汽車,而改進(jìn)后的算法成功地識(shí)別了該車輛。試驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv5具備更強(qiáng)的全局感知能力,對(duì)于車輛目標(biāo)跟蹤具有更好的泛化性能。
算法對(duì)遮擋物體的識(shí)別效果如圖7所示。圖7中,道路右側(cè)前方的黑色轎車擋住了行人。改進(jìn)前的算法無法識(shí)別被遮擋行人,而改進(jìn)后的算法則能夠正確識(shí)別。因此,改進(jìn)后的YOLOv5在物體遮擋識(shí)別方面表現(xiàn)出色。
為了驗(yàn)證改進(jìn)后算法的小目標(biāo)檢測效果,進(jìn)行了相關(guān)試驗(yàn),結(jié)果如圖8所示,由于YOLOv5對(duì)于識(shí)別小目標(biāo)準(zhǔn)確度比較低,并未識(shí)別到小目標(biāo)行人,而改進(jìn)算法成功識(shí)別到目標(biāo)。試驗(yàn)對(duì)比結(jié)果表明,改進(jìn)算法對(duì)于小目標(biāo)的檢測能力顯著提高。
4.3.3 改進(jìn)前、后性能對(duì)比
KITTI數(shù)據(jù)集每個(gè)目標(biāo)的標(biāo)注行都包含了截?cái)啵═runcated)字段,表示相應(yīng)物體在圖像中是否被邊界框截?cái)?,其取值通常?~1范圍內(nèi),表示目標(biāo)相對(duì)于實(shí)際規(guī)模的截?cái)喑潭?。這個(gè)信息對(duì)于理解物體在圖像中的完整性和全局性非常重要,尤其是在自動(dòng)駕駛場景下。
試驗(yàn)計(jì)算了整個(gè)數(shù)據(jù)集中不同截?cái)喑潭认碌哪繕?biāo)數(shù)量,為4 631個(gè),并分成了多個(gè)段位,如圖9所示。通過計(jì)算改進(jìn)前、后算法中數(shù)據(jù)集內(nèi)不同截?cái)喑潭鹊哪繕?biāo)識(shí)別成功數(shù)量,進(jìn)而形成了改進(jìn)前、后的效果對(duì)比??梢钥闯?,截?cái)喑潭仍酱?,識(shí)別成功率越低,但改進(jìn)算法成功識(shí)別的數(shù)量明顯比原算法更多,充分說明改進(jìn)算法在全局感知能力上有較好的提升效果。
遮擋(Occluded)屬性通常表示物體被其他物體遮擋的程度,在KITTI標(biāo)注中,該屬性的值為整數(shù)。取值包括:0表示物體沒有被遮擋,即物體在圖像中是完全可見的;1表示物體被部分遮擋;2表示物體被大部分遮擋,但仍然可見;3表示物體被完全遮擋,即物體在圖像中不可見。
根據(jù)數(shù)據(jù)集的標(biāo)注屬性統(tǒng)計(jì)了不同遮擋程度的目標(biāo)總數(shù),如圖10所示。從試驗(yàn)統(tǒng)計(jì)結(jié)果可以看出,改進(jìn)算法的識(shí)別成功數(shù)量明顯比原算法的數(shù)量多,特別是在大部分遮擋的情況下,改進(jìn)算法比原算法識(shí)別成功率高12.8%。
根據(jù)COCO數(shù)據(jù)集對(duì)于小目標(biāo)的定義,本文采用相同策略,將32×32以下像素點(diǎn)的目標(biāo)定義為小目標(biāo),符合小目標(biāo)要求的總數(shù)量為6 756個(gè)。
通過試驗(yàn)結(jié)果可以看出,原算法的小目標(biāo)識(shí)別率為84.9%,改進(jìn)算法的識(shí)別率為92.82%,如圖11所示,可以看出,改進(jìn)算法在識(shí)別小目標(biāo)上有明顯優(yōu)勢。
根據(jù)試驗(yàn)結(jié)果可知,相較于原算法,改進(jìn)后的YOLOv5算法改善了全局感知能力,提高了遮擋物的檢測和小目標(biāo)的識(shí)別效果,同時(shí)提升了目標(biāo)檢測的準(zhǔn)確率。
4.4 改進(jìn)DeepSORT試驗(yàn)結(jié)果和分析
針對(duì)重識(shí)別模塊的模型對(duì)比試驗(yàn),本文使用了基于開源代碼DeepSORT的重識(shí)別模型。由于DeepSORT模型中默認(rèn)使用ResNet-50作為網(wǎng)絡(luò)模型,將其替換為Swin Transformer,并保持初始化參數(shù)相同,試驗(yàn)結(jié)果如表2所示。可見,改進(jìn)模型的平均精度提升了8.13%,Rank-1精度(Rank-1 Accuracy)提升了3.35%。說明Transformer模型增強(qiáng)了傳統(tǒng)CNN模型的多尺度特征融合能力,能夠更好地提取多尺度特征,從而提高識(shí)別的準(zhǔn)確率。
上述結(jié)果說明了算法模型改進(jìn)的有效性。本文將改進(jìn)后的算法應(yīng)用于YOLOv5s+DeepSORT,并與原算法進(jìn)行對(duì)比,高階跟蹤精度(Higher Order Tracking Accuracy,HOTA)、檢測精確度(Detection Accuracy,DetA)、關(guān)聯(lián)精確度(Association Accuracy,AssA)、檢測精度(Detection Precision,DetPr)、關(guān)聯(lián)召回(Association Recall,AssRe)、關(guān)聯(lián)精度(Association Precision,AssPr)、定位精度(Localization Accuracy,LocA)結(jié)果如圖12所示。其中,α為權(quán)衡因子,用于平衡定位(LocA)、關(guān)聯(lián)(AssA、AssRe、AssPr)和檢測(DetA、DetPr)之間的關(guān)系,α越大,表示更重視關(guān)聯(lián)和檢測的性能,α越小,表示更側(cè)重于定位的精度。由圖12可知,改進(jìn)算法在HOTA指標(biāo)上明顯提高,從55%提升至71%,表明將主干網(wǎng)絡(luò)從CNN改變?yōu)門ransformer對(duì)于模型性能具有積極影響。
4.5 消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證所提出算法的檢測性能,探究各改進(jìn)方法的有效性,在YOLOv5s+DeepSORT的基礎(chǔ)上設(shè)計(jì)了3組消融實(shí)驗(yàn),每組實(shí)驗(yàn)使用相同的超參數(shù)以及訓(xùn)練技巧,實(shí)驗(yàn)結(jié)果如表3所示。
消融實(shí)驗(yàn)結(jié)果表明,改進(jìn)后的YOLOv5在識(shí)別準(zhǔn)確度方面顯著提升,能夠?qū)⒍嗄繕?biāo)跟蹤準(zhǔn)確度(Multiple Object Tracking Accuracy,MOTA)提升7.968百分點(diǎn)并降低ID變換總次數(shù)。雖然改進(jìn)后的DeepSORT在精度上有所損失,MOTA降低了1.414百分點(diǎn),但I(xiàn)D變換總次數(shù)下降了12%,表明改進(jìn)的重識(shí)別能夠有效提取目標(biāo)特征,并具有對(duì)姿態(tài)、遮擋和光照等方面的魯棒性。最終改進(jìn)版比原始版本在目標(biāo)跟蹤準(zhǔn)確度上提高了9.547%,ID切換總次數(shù)減少了26.4%。因此,在DeepSORT中,計(jì)算特征之間相似度的準(zhǔn)確度得到了提高,從而導(dǎo)致ID轉(zhuǎn)換頻率的降低。
4.6 跟蹤試驗(yàn)驗(yàn)證
本文基于KITTI數(shù)據(jù)集,驗(yàn)證了改進(jìn)后目標(biāo)跟蹤算法的有效性,該算法在處理小目標(biāo)和遮擋物體時(shí)性能更優(yōu)秀,同時(shí)具備更強(qiáng)的全局感知能力。試驗(yàn)結(jié)果如圖13所示,改進(jìn)后的算法表現(xiàn)更加出色。
5 結(jié)束語
本文提出了一種基于改進(jìn)YOLOv5和DeepSORT的車輛檢測及跟蹤算法。使用輕量化網(wǎng)絡(luò)EfficientFormerV2替換了原YOLOv5模型的主干網(wǎng)絡(luò)CSPDarknet53,在減少模型參數(shù)的同時(shí)提取到了更多潛在的特征信息,提高了特征的代表性。在跟蹤階段,DeepSORT算法中的重識(shí)別網(wǎng)絡(luò)結(jié)構(gòu)也得到了優(yōu)化,通過增加正則化和利用Swin Transformer網(wǎng)絡(luò)模型重新設(shè)計(jì)網(wǎng)絡(luò)主干技術(shù),進(jìn)一步提高了外觀信息提取能力和跟蹤能力。試驗(yàn)結(jié)果表明,該方法在公共數(shù)據(jù)集上取得了更優(yōu)的檢測和跟蹤效果,目標(biāo)跟蹤準(zhǔn)確度提高了9.547%,ID切換總次數(shù)減少了26.4%。
本文所構(gòu)建的目標(biāo)跟蹤方法除在交通安全和智慧交通等領(lǐng)域具有研究價(jià)值外,也可為其他目標(biāo)檢測和跟蹤任務(wù)提供新的思路和方法。但該方法未能實(shí)現(xiàn)端到端的目標(biāo)跟蹤,在未來的研究中,可以考慮在輕量化Transformer基礎(chǔ)上實(shí)現(xiàn)端到端的跟蹤,以進(jìn)一步提高跟蹤算法的性能。
參 考 文 獻(xiàn)
[1] HE K, GKIOXARI G, DOLLáR P, et al. Mask R-CNN[C]// Proceedings of the IEEE International Conference on Computer Vision. Venice, Italy: IEEE, 2017: 2961-2969.
[2] TAN M X, LE Q V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks[C]// International Conference on Machine Learning. Long Beach, California: PMLR, 2019: 6105-6114.
[3] SHEN L Z, TAO H F, NI Y Z, et al. Improved YOLOv3 Model with Feature Map Cropping for Multi-Scale Road Object Detection[J]. Measurement Science and Technology, 2023, 34(4).
[4] ZHAO Q J, SHENG T, WANG Y T, et al. M2Det: A Single-Shot Object Detector Based on Multi-Level Feature Pyramid Network[C]// Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu, Hawaii, USA: AAAI, 2019: 9259-9266.
[5] YU J M, ZHANG W. Face Mask Wearing Detection Algorithm Based on Improved YOLO-v4[J]. Sensors, 2021, 21(9): 3263.
[6] WU W T, LIU H, LI L L, et al. Application of Local Fully Convolutional Neural Network Combined with YOLO v5 Algorithm in Small Target Detection of Remote Sensing Image[J]. PLoS One, 2021, 16(10).
[7] BHARATI P, PRAMANIK A. Deep Learning Techniques—R-CNN to Mask R-CNN: A Survey[C]// Computational Intelligence in Pattern Recognition. Singapore: Springer, 2020: 657-668.
[8] YU F W, LI W B, LI Q Q, et al. POI: Multiple Object Tracking with High Performance Detection and Appearance Feature[C]// Computer Vision-ECCV 2016 Workshops. Cham, Switzerland: Springer, 2016: 36-42.
[9] YU Z G, DONG Y Y, CHENG J H, et al. Research on Face Recognition Classification Based on Improved GoogleNet[J]. Security and Communication Networks, 2022, 2022.
[10] 謝金龍, 胡勇. 基于深度學(xué)習(xí)的車輛檢測與跟蹤系統(tǒng)[J]. 工業(yè)控制計(jì)算機(jī), 2020, 33(7): 99-101.
XIE J L, HU Y. Vehicle Detection and Tracking System Based on Deep Learning[J]. Industrial Control Computer, 2020, 33(7): 99-101.
[11] WANG Z D, ZHENG L, LIU Y X, et al. Towards Real-Time Multi-Object Tracking[C]// European Conference on Computer Vision. Cham, Switzerland: Springer, 2020: 107-122.
[12] CHE J, HE Y T, WU J M. Pedestrian Multiple-Object Tracking Based on FairMOT and Circle Loss[J]. Scientific Reports, 2023, 13(1): 4525.
[13] WANG C Y, LIAO H Y M, WU Y H, et al. CSPNet: A New Backbone That Can Enhance Learning Capability of CNN[C]// 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. Seattle, WA, USA: IEEE, 2020: 390-391.
[14] HE K M, ZHANG X Y, REN S Q, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1904-1916.
[15] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-Based Learning Applied to Document Recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[16] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: Common Objects in Context[C]// 13th European Conference on Computer Vision. Zurich, Switzerland: Springer International Publishing, 2014: 740-755.
[17] REDMON J, FARHADI A. YOLOv3: An Incremental Improvement[EB/OL]. (2018-04-08)[2024-01-18]. https://arxiv.org/abs/1804.02767.
[18] BOCHKOVSKIY A, WANG C Y, LIAO H Y M. YOLOv4: Optimal Speed and Accuracy of Object Detection[EB/OL]. (2020-04-23)[2024-01-18]. https://arxiv.org/abs/2004.10934.
[19] LI Y Y, HU J, WEN Y, et al. Rethinking Vision Transformers for MobileNet Size and Speed[C]// 2023 IEEE/CVF International Conference on Computer Vision (ICCV). Paris, France: IEEE, 2023.
[20] BEWLEY A, GE Z Y, OTT L, et al. Simple Online and Realtime Tracking[C]// 2016 IEEE International Conference on Image Processing (ICIP). Phoenix, AZ, USA: IEEE, 2016: 3464-3468.
[21] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV, USA: IEEE, 2016: 770-778.
[22] LIU Z, LIN Y, CAO Y, et al. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows[C]// Proceedings of the IEEE/CVF International Conference on Computer Vision. Montreal, QC, Canada: IEEE, 2021: 10012-10022.
[23] GEIGER A, LENZ P, STILLER C, et al. Vision Meets Robotics: The KITTI Dataset[J]. The International Journal of Robotics Research, 2013, 32(11): 1231-1237.
[24] LIU X C, LIU W, MA H D, et al. Large-Scale Vehicle Re-Identification in Urban Surveillance Videos[C]// 2016 IEEE International Conference on Multimedia and Expo (ICME). Seattle, WA, USA: IEEE, 2016: 1-6.
(責(zé)任編輯 斛 畔)
修改稿收到日期為2024年1月18日。