摘要:在復(fù)雜道路場景下檢測圖像存在光照變化、遮擋、背景雜亂等問題,導(dǎo)致對場景里多目標(biāo)的檢測難度增大,尤其是在山地城市的道路場景下的檢測。為解決此類問題,提出了一種基于YOLO算法的目標(biāo)檢測模型YOLO-MIS(YOLO for Multi-target in Infrared Scene)。在典型山地城市數(shù)據(jù)集上的實驗結(jié)果表明:YOLO-MIS在滿足網(wǎng)絡(luò)模型輕量的情況下,與原模型相比其檢測精度提升了57%,實現(xiàn)了在復(fù)雜交通場景中對目標(biāo)的精確檢測。
關(guān)鍵詞:智能交通;復(fù)雜交通場景;目標(biāo)檢測;深度學(xué)習(xí)
中圖分類號:U495" 收稿日期:2024-11-13
DOI:1019999/jcnki1004-0226202502019
1 前言
在自動駕駛技術(shù)中,目標(biāo)檢測是極其重要的一部分,利用檢測算法可以有效對道路場景中的目標(biāo)進(jìn)行實時捕捉。精確地辨識并定位道路目標(biāo)能為行駛中的車輛提供實時的路況數(shù)據(jù),輔助車輛進(jìn)行行車決策,從而確保行車安全。近年來,深度學(xué)習(xí)技術(shù)取得了顯著進(jìn)步,極大地增強(qiáng)了計算機(jī)視覺在行人及車輛識別方面的可行性。將深度學(xué)習(xí)驅(qū)動的目標(biāo)檢測算法融入行人車輛識別技術(shù),對于自動駕駛汽車環(huán)境感知能力的提升及其研究應(yīng)用而言,具有深遠(yuǎn)的意義[1]。
用于目標(biāo)檢測的深度學(xué)習(xí)算法可分為兩大類[2]。第一類是建立在候選區(qū)域生成的基礎(chǔ)上(即兩階段方法),其工作流程分為兩大步驟:首先,通過算法的一個子網(wǎng)絡(luò)來產(chǎn)生一系列可能的候選區(qū)域框;接著,對這些候選框進(jìn)行細(xì)致的分類與精確定位。R-CNN[3]、Fast R-CNN[4],以及Faster R-CNN[5]等,均屬于這一類方法的代表算法。另一類檢測方法是基于直接回歸的檢測(單階段法),這種方法省去了生成候選框的步驟,而是直接在最終的特征映射圖上產(chǎn)生候選邊界框,并同時進(jìn)行分類與定位處理。YOLO[6-9]系列算法和SSD[10]算法便是此類方法的典型代表。
兩階段算法參數(shù)較多、較為復(fù)雜,其通常具有較高的檢測水平,但對于有實時檢測需求的車輛來說,其檢測速度過慢;單階段算法的模型結(jié)構(gòu)相對簡單,檢測速度也更快,但其精度沒有雙階段算法高。
隨著近幾年的深度學(xué)習(xí)算法的發(fā)展,單階段目標(biāo)檢測算法在滿足實時檢測的基礎(chǔ)上,準(zhǔn)確率也接近雙階段算法的水平,這對于自動駕駛領(lǐng)域的研究仍有較高的研究意義。
因此,本文以單階段算法中的YOLOv5檢測網(wǎng)絡(luò)為基礎(chǔ),做了以下改進(jìn):
a.使用了輕量化RepViT結(jié)構(gòu),提高模型對場景內(nèi)目標(biāo)關(guān)鍵特征的關(guān)注度,降低復(fù)雜背景信息的影響。
b.在特征融合網(wǎng)絡(luò)上添加高效多尺度注意力模塊(EMA),以增強(qiáng)模型在不同尺度下的檢測能力。
c.添加MemoryEfficientMish 激活函數(shù),使不同層級間特征圖的信息充分融合。
d.將原有的損失函數(shù)改進(jìn)為Wise-IoU,使錨框的質(zhì)量得到改善,提高模型的整體性能。
2 改進(jìn)后的YOLO模型
圖1所示為優(yōu)化后的目標(biāo)檢測模型YOLO-MIS的網(wǎng)絡(luò)框架。首先,在Neck中替換高效的RepViTBlock主干網(wǎng)絡(luò),極大地提升了模型在復(fù)雜場景下對目標(biāo)特征融合的能力;其次,對C3模塊引入EMA注意力機(jī)制,以多尺度的手段提取目標(biāo)特征,有效抑制場景中的特征不明顯、特征差異大的現(xiàn)象;最后,分別對激活函數(shù)和損失函數(shù)進(jìn)行調(diào)整,增強(qiáng)訓(xùn)練的平滑性。
21 新型輕量化RepViT結(jié)構(gòu)
在原模型中,YOLOv5通過在Neck網(wǎng)絡(luò)層中使用“FPN-PAN”的結(jié)構(gòu),實現(xiàn)了精度的提升,但由于特征金字塔網(wǎng)絡(luò)結(jié)構(gòu)受限于單向信息傳遞的約束,使得模型變得冗余。因此,本文將輕量化RepViT[11]添加至Neck網(wǎng)絡(luò)中,對于復(fù)雜場景中同一類目標(biāo)變化大、特征信息差距大的情況,加入了RepViT結(jié)構(gòu)的網(wǎng)絡(luò),整合了不同階段的目標(biāo)特征信息,增強(qiáng)了模型特征表達(dá)能力,進(jìn)一步增強(qiáng)了場景中對多個目標(biāo)的檢測能力。RepViT在MobileNetV3的基礎(chǔ)上,將DW卷積模塊提前,使通道混合器和令牌混合器分開,在推理期間又合并到一起。然后,引入了結(jié)構(gòu)重參數(shù)化技術(shù)來增強(qiáng)模型的訓(xùn)練學(xué)習(xí),使模型獲得最大化的準(zhǔn)確性收益和最小化的延遲增量,消除了推斷期間的計算和內(nèi)存成本,大大提高了模型的整體性能。
22 高效多尺度EMA注意力機(jī)制
Efficient Multi-Scale Attention(EMA)注意力機(jī)制模塊[12] 模塊使用了一種跨空間學(xué)習(xí)策略,首先,把輸入的通道維度(c×h×w)重塑為批量維度(3×g×h×w),從而得到多個并行子網(wǎng)絡(luò),接著在并行子網(wǎng)絡(luò)中構(gòu)建局部的跨通道交互連接,同時整合兩個并行子網(wǎng)絡(luò)的輸出特征,建立通道之間的短和長依賴關(guān)系,即在提高了目標(biāo)的特征表示的同時,避免了注意力機(jī)制進(jìn)行通道降維時的影響。EMA的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示,其中輸入維度為c×h×w。
23 基于動態(tài)非單調(diào)聚焦機(jī)制的WIOU
本文采用的WIOU_Loss(wise intersection over union loss)[13]很好地處理了預(yù)測框與目標(biāo)框之間方向一致性的問題,基于特殊的聚焦方法,使用了新的標(biāo)準(zhǔn)方法來評估錨框質(zhì)量,減少了對低質(zhì)量目標(biāo)的關(guān)注,避免了模型學(xué)習(xí)到不利梯度的影響,大大提升了預(yù)測框與目標(biāo)框之間的對應(yīng)關(guān)系,使得模型可以很好地處理目標(biāo)特征信息弱的問題。其公式如下:
式中,[x]、[y]為預(yù)測框的中心點橫縱坐標(biāo);[w]和[h]分別為預(yù)測框的寬度和高度;[xgt]、[ygt]是真實框中心點的橫縱坐標(biāo);[wgt]和[hgt]是真實框的寬度和高度;[Wg]和[Hg]為預(yù)測框與真實框區(qū)域構(gòu)成的最小封閉盒的寬度和高度;[Wi]和[Hi]為兩者重疊區(qū)域的寬度和高度;[LIOU]為[LIOU](交并比損失)的滑動平均值;[r]作為一個梯度增益因子,通過調(diào)整其值可以加快或減慢模型的學(xué)習(xí)速度,并影響模型的穩(wěn)定性;[β]用于衡量樣本的離群程度,其數(shù)值越大,意味著樣本的質(zhì)量越低。
24 MEMish激活函數(shù)
Mish激活函數(shù)[14]在集成ReLU函數(shù)無上限且有下限特性的基礎(chǔ)上,還進(jìn)一步融合了平滑性和單調(diào)性的優(yōu)勢,這些特點使訓(xùn)練過程中梯度下降更加順暢,有助于加速模型的收斂,并提高檢測的精確度。MEMish(Memory Efficient Mish)是為了在模型中節(jié)省內(nèi)存而設(shè)計的改進(jìn)Mish激活函數(shù),通過近似的方式來簡化計算,以降低計算復(fù)雜度,從而節(jié)省內(nèi)存。與原模型的SiLU函數(shù)相比,MEMish激活函數(shù)在分類的檢測準(zhǔn)確率上要更高,對于模型面對復(fù)雜場景的訓(xùn)練時,效果更加顯著。以下是SiLU函數(shù)與MEMish函數(shù)的數(shù)學(xué)表達(dá)式:
3 實驗結(jié)果與分析
31 實驗數(shù)據(jù)集和參數(shù)設(shè)置
為驗證本文改進(jìn)算法的有效性,本文使用采自云南昆明的數(shù)據(jù)集作為實驗數(shù)據(jù)集,該數(shù)據(jù)集包含各種復(fù)雜場景以及山地城市的典型場景,共包含1 886張圖像,涵蓋7種較廣泛的檢測類別,如車輛、行人、騎車人、動物、交通設(shè)施、障礙物和雜項,具體細(xì)分了35個標(biāo)簽。
表1為本文實驗的環(huán)境及訓(xùn)練的基本參數(shù)。針對場景的特性,在訓(xùn)練過程中采用如下參數(shù)進(jìn)行優(yōu)化:輸入圖像分辨率為460×460,使用SGD優(yōu)化器,學(xué)習(xí)率設(shè)為001,batch_size為16,啟用Mosaic數(shù)據(jù)增強(qiáng)技術(shù),加載預(yù)訓(xùn)練模型訓(xùn)練200個epoch。
32 實驗評測指標(biāo)
為了對改進(jìn)后的模型進(jìn)行性能評估,需要從多方面出發(fā)考量,通常使用以下指標(biāo)進(jìn)行評估:Params用來衡量模型的大小,Params越小,占用的內(nèi)存就越小;AP表示單個類別的準(zhǔn)確率;mAP表示所有類別的AP平均值,mAP的值越高,模型的性能越強(qiáng);FPS為幀率的簡稱,直接表示的是每秒鐘顯示的圖像幀數(shù)量,即模型處理圖片的速度。公式如下:
3.3 消融實驗
為了驗證改進(jìn)后的模型是否有效,進(jìn)行了一系列消融實驗,實驗結(jié)果如表2所示,“√”表示針對原始模型進(jìn)行的改進(jìn)點。以YOLOv5s作為基準(zhǔn)模型,并使用mAP、FPS等常用指標(biāo)作為評價指標(biāo)來評估實驗效果。
如表2所示,對于A組實驗,替換了輕量化的RepViT主干網(wǎng)絡(luò),雖然模型的參數(shù)量和計算量略有增加,但是mAP相比于原始的算法提升了25 %,輕量化主干在參數(shù)量增加不大的前提下,使算法對復(fù)雜場景內(nèi)的檢測性能得到了較大的增強(qiáng)。對于B組實驗,在上一組實驗的基礎(chǔ)上,添加了EMA注意力機(jī)制,其mAP較上一組實驗提升了15%,EMA高效、多尺度的特點,使其具有捕捉通道間短和長依賴關(guān)系的特點。對于C組實驗,又添加了損失函數(shù)WIOU,相比上一組mAP提升了14%。對于D組實驗,進(jìn)行更換了Mish激活函數(shù)的實驗,mAP又提升了03%。整體實驗表明,改進(jìn)后的模型精度達(dá)到了較大的提升,參數(shù)略有增加,處理圖片的能力仍然滿足需求。
4 結(jié)語
針對在山地城市場景下存在的目標(biāo)檢測效率低的問題,本文提出了一種輕量化目標(biāo)檢測模型,即YOLO-MIS,在本文的研究中取用了35個類別共1 886張圖像進(jìn)行實驗,結(jié)果表明:a.YOLO-MIS與原始YOLOv5s相比,整體上得到較大改善,其表現(xiàn)在檢測精度、模型復(fù)雜度等方面,更適用于移動端;b.模型檢測精度、召回率、mAP均有不同程度的提升,最高精度可達(dá)995%,摩托車、嬰兒車、拖車、交通崗哨、花籃、路面散落物的檢測精度達(dá)到了90%以上;c.模型能夠很好地應(yīng)對場景中復(fù)雜背景、行人目標(biāo)密集以及小目標(biāo)行人的檢測任務(wù),可以解決在小目標(biāo)場景、遮擋場景等復(fù)雜場景中多目標(biāo)識別檢測難的問題,在一定程度上可降低行車的車禍發(fā)生率。
參考文獻(xiàn):
[1]段續(xù)庭,周宇康,田大新,等深度學(xué)習(xí)在自動駕駛領(lǐng)域應(yīng)用綜述[J]無人系統(tǒng)技術(shù),2021,4(6):1-27
[2]肖雨晴,楊慧敏目標(biāo)檢測算法在交通場景中應(yīng)用綜述[J]計算機(jī)工程與應(yīng)用,2021,57(6):30-41
[3]Girshick R,Donahue J, Darrell T, et al Rich feature hierarchies for accurate object detection and semantic segmentation [C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2014:580-587
[4]Girshick R Fast r-cnn[C]//Proceedings of the IEEE international conference on computer vision,2015:1440-1448
[5]Ren Shaoqing, He Kaiming, Girshick Ross,et al Faster R-CNN: towards real-time object detection with region proposal networks[J]IEEE transactions on pattern analysis and machine intelligence,2017,39(6):102-110
[6]Redmon J, Divvala S, Girshick R, et al You only look once:Unified, real-time object detection[C] //Proceedings of the IEEE conference on computer vision and pattern recognition,2016:779-788
[7]Redmon J, Farhadi A YOLO9000: better, faster, stronger[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2017: 7263-7271
[8]Redmon J, Farhadi A Yolov3: An incremental improvement [J] arXiv preprint arXiv:180402767,2018
[9]Bochkovskiy A,Wang C Y,Liao H Y MYolov4:Optimal speed and accuracy of object detection[J]arXiv preprint arXiv:200410934, 2020
[10]Liu W, Anguelov D,Erhan D,et alSsd:Single shot multibox detector[C]//European conference on computer vision Springer,Cham,2016:21-37
[11]Wang A,Chen H,Lin Z,et alRepvit:Revisiting mobile cnn from vit perspective[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2024:15909-15920
[12]Ouyang D,He S,Zhang G,et alEfficient multi-scale attention module with cross-spatial learning[C]//ICASSP 2023-2023 IEEE International Conference on Acoustics,Speech and Signal Processing (ICASSP)IEEE,2023:1-5
[13]Tong Z,Chen Y,Xu Z,et alWise-IoU:bounding box regression loss with dynamic focusing mechanism[J]arxiv preprint arxiv:230110051,2023
[14]Su X,Zhang J,Ma Z,et alIdentification of Rare Wildlife in the Field Environment Based on the Improved YOLOv5 Model[J] Remote Sensing,2024,16(9):1535
作者簡介:
郭躍強(qiáng),男,1999年生,碩士研究生,研究方向為新能源汽車關(guān)鍵技術(shù)。