摘要 由于貨車體積大、駕駛艙高、后視鏡范圍有限,駕駛員在轉(zhuǎn)彎和倒車時(shí)難以全面了解車身周圍環(huán)境,盲區(qū)事故風(fēng)險(xiǎn)較大。新一代貨車視野盲區(qū)檢測技術(shù)要求檢測精確率高、部署方便、誤報(bào)率和漏報(bào)率低。針對上述需求,文章提出了一種基于YOLOv8-HAT的貨車盲區(qū)檢測算法。YOLOv8-HAT算法采用HAttention注意力機(jī)制,能夠充分挖掘并利用盲區(qū)圖像中的信息潛力,同時(shí)采用GIoU損失函數(shù),能夠更好地反映預(yù)測框和真實(shí)框的重合度,從而提升YOLOv8的檢測精度。實(shí)驗(yàn)結(jié)果表明,相較于YOLOv8,在自制數(shù)據(jù)集上,文章算法的精確率提高了6.6%,mAP增加了3%,召回率提高了6%,F(xiàn)PS可達(dá)120以上,能夠?qū)崿F(xiàn)貨車視野盲區(qū)的實(shí)時(shí)檢測,保障貨運(yùn)安全。
關(guān)鍵詞 貨車視野盲區(qū);目標(biāo)檢測;YOLOv8;HAttention;GIoU
中圖分類號 U492 文獻(xiàn)標(biāo)識碼 A 文章編號 2096-8949(2024)20-0025-04
0 引言
載重貨車因其具備大容量運(yùn)輸、高度靈活性和高效的作業(yè)性能,在國內(nèi)公路運(yùn)輸領(lǐng)域扮演著至關(guān)重要的角色[1],數(shù)據(jù)顯示,我國70%以上的貨物運(yùn)輸任務(wù)由載重貨車完成。然而,鑒于載重貨車體積龐大、視線遮擋區(qū)域廣,以及交通道路環(huán)境復(fù)雜、駕駛員素質(zhì)參差不齊等主客觀因素,一旦發(fā)生交通事故,極易造成嚴(yán)重的人員傷亡。因此,對視覺盲區(qū)內(nèi)的障礙物進(jìn)行有效檢測,對于防范因盲區(qū)障礙物引發(fā)的交通事故,以及確保道路交通安全具有極高的現(xiàn)實(shí)意義和緊迫性。
目前,基于計(jì)算機(jī)視覺的目標(biāo)檢測方法已成為實(shí)現(xiàn)盲區(qū)檢測的主流方案,該方法分為兩類:一種是基于候選區(qū)域生成的一階段檢測法,這類方法直接從輸入圖像預(yù)測候選框后再進(jìn)行分類,具有快速、實(shí)時(shí)響應(yīng)的優(yōu)點(diǎn),但可能在精確度上較二階段檢測法低;另一種是基于回歸檢測的二階段檢測法,這種方法首先生成候選區(qū)域,然后對這些區(qū)域進(jìn)一步細(xì)化分類和定位,二階段法往往都能達(dá)到較高的準(zhǔn)確率,但其檢測速度慢、模型大,不適合貨車視野盲區(qū)的檢測任務(wù)[2]。該文以YOLOv8為基礎(chǔ),構(gòu)建了基于YOLOv8-HAT的貨車盲區(qū)檢測算法,能夠更好地適應(yīng)貨車視野盲區(qū)的檢測任務(wù),達(dá)到更好的檢測效果。
1 YOLOv8概述
目前,YOLOv8是YOLO系列中較為先進(jìn)的版本,在2023年1月由Ultralytics發(fā)布。在YOLOv5的基礎(chǔ)上,YOLOv8引入了全新的結(jié)構(gòu),其結(jié)構(gòu)更加簡潔明了,進(jìn)一步實(shí)現(xiàn)了模型的輕量化,使得模型的訓(xùn)練和推理速度更快,同時(shí)也保證了模型的性能,使得模型更加穩(wěn)定和可靠。YOLOv8的優(yōu)化體現(xiàn)在使用了C2f模塊替換C3模塊、去除PAN結(jié)構(gòu)中上采樣后的卷積運(yùn)算、使用二進(jìn)制交叉熵?fù)p失進(jìn)行分類任務(wù)、使用DFL和CIoU進(jìn)行預(yù)測框邊界的回歸任務(wù)等[3]。YOLOv8的網(wǎng)絡(luò)結(jié)構(gòu)主要由Backbone、Neck、Head等三大部分組成,其中Backbone(主干網(wǎng)絡(luò))是模型的基礎(chǔ),采用了類似于CSPDarknet的結(jié)構(gòu),負(fù)責(zé)從輸入圖像中提取特征,這些特征是后續(xù)網(wǎng)絡(luò)層進(jìn)行目標(biāo)檢測的基礎(chǔ)。YOLOv8的Neck(頸部網(wǎng)絡(luò))位于主干網(wǎng)絡(luò)和頭部網(wǎng)絡(luò)之間,它的作用是進(jìn)行特征融合和增強(qiáng)。YOLOv8的Head(頭部網(wǎng)絡(luò))是目標(biāo)檢測模型的決策部分,負(fù)責(zé)目標(biāo)檢測。
2 算法原理
2.1 總體結(jié)構(gòu)
針對原YOLOv8算法對復(fù)雜場景圖像特征提取不足、對密集人群檢測準(zhǔn)確率較低的問題,該文在YOLOv8算法的基礎(chǔ)上,引入了HAttention注意力機(jī)制,同時(shí)利用GIoU替換原損失函數(shù),可以更準(zhǔn)確地提取貨車視野盲區(qū)圖像中危險(xiǎn)物的特征,提高檢測的準(zhǔn)確率。圖1為優(yōu)化后的模型結(jié)構(gòu)圖:
2.2 HAttention注意力機(jī)制
為了增強(qiáng)模型對輸入圖像中重要區(qū)域的關(guān)注程度,幫助模型更有效地學(xué)習(xí)和利用貨車視野盲區(qū)圖像的局部和全局特征,該文在原有YOLOv8基礎(chǔ)上進(jìn)行了創(chuàng)新優(yōu)化,引入了混合注意力HAttention(HAT)機(jī)制[4]。HAT專門用于圖像超分辨率任務(wù),其目標(biāo)是從低分辨率輸入圖像中重建出高分辨率圖像。HAT機(jī)制結(jié)合了通道注意力機(jī)制和基于窗口自注意力機(jī)制的優(yōu)點(diǎn),這兩種機(jī)制能夠在全局統(tǒng)計(jì)信息捕獲及局部細(xì)節(jié)擬合能力上形成互補(bǔ)效應(yīng)。這一設(shè)計(jì)的目的在于充分挖掘并利用低分辨率盲區(qū)圖像中的信息潛力,從而實(shí)現(xiàn)從低分辨圖像向高分辨圖像的有效重建,并激活更多有助于提高檢測精度的貨車視野盲區(qū)中行人和車輛的關(guān)鍵像素。通過這樣的改良,使得在貨車視野盲區(qū)檢測場景中對行人和車輛的識別與定位效果顯著提升。圖2為HAT的結(jié)構(gòu)圖:
2.3 優(yōu)化損失函數(shù)
將YOLOv8中的損失函數(shù)CIoU替換為廣義的交并比(GIoU),GIoU對貨車視野盲區(qū)圖像中重疊區(qū)域和非重疊區(qū)域都進(jìn)行了關(guān)注,能夠更好地反映盲區(qū)物體預(yù)測框和真實(shí)框的重合度,從而提升YOLOv8的檢測精度[5]。由于CIoU在縱橫交并比描述的相對值方面存在一定的模糊,且沒有考慮難易樣本的平衡問題,因此該文考慮采用GIoU損失函數(shù)替換原CIoU損失函數(shù)。GIoU是作為傳統(tǒng)IoU指標(biāo)的改進(jìn)和擴(kuò)展形式,在目標(biāo)檢測任務(wù)中提供了一種更為精確和全面的評價(jià)方法。傳統(tǒng)的IoU雖然在一定程度上能夠反映預(yù)測框與真實(shí)框的重疊情況,但在某些特殊場景下,如預(yù)測框與真實(shí)框并未完全包含對方時(shí),僅依賴IoU可能會導(dǎo)致對模型性能評估產(chǎn)生偏差。GIoU損失函數(shù)的表達(dá)式[5]如下:
GIoU=IoU?Area(C)?Area(A∩B) Area(C) ,GIoU∈(?1,1](1)
IoU=Area(A∩B) Area(A∩B) ,IoU∈(?1,1]
式中,Area(A∩B)——A物體框和B物體框的交集面積;Area(A∩B)——A物體框和B物體框的并集面積;C——A物體框和B物體框的最小外接矩形。
3 實(shí)驗(yàn)結(jié)果與分析
3.1 數(shù)據(jù)集準(zhǔn)備
該實(shí)驗(yàn)訓(xùn)練采用了自制數(shù)據(jù)集,包含百度Aistudio上的開源數(shù)據(jù)集和UA-DETRAC車輛檢測數(shù)據(jù)集中的部分圖像。其中,百度Aistudio上的開源數(shù)據(jù)集有2 014張,該數(shù)據(jù)集選用自主搜集的部署在車輛中的攝像頭所采集的視頻而截取的圖片,符合真實(shí)駕駛情況。此外,由于該數(shù)據(jù)集中車輛類別較少,因此加上UA-DETRAC車輛檢測數(shù)據(jù)集中車輛的2 000張數(shù)據(jù)集,共有4 014張行人+車輛+自行車的數(shù)據(jù)集,先對數(shù)據(jù)集進(jìn)行標(biāo)注,然后進(jìn)行實(shí)驗(yàn)。
3.2 實(shí)驗(yàn)環(huán)境
該實(shí)驗(yàn)采用Windows 11 64位操作系統(tǒng),硬件為第12代Intel Core i5-12500 HCPU、NVIDIA GeForce GPU、16GB(3 200 MHz)內(nèi)存,實(shí)驗(yàn)環(huán)境采用Python3.9.7和Pytorch1.12.1+cu116版本。在實(shí)驗(yàn)中,設(shè)置初始學(xué)習(xí)率為0.01,最終學(xué)習(xí)率為0.02,Batch size為2,訓(xùn)練100次,輸入圖片尺寸為640 px×640 px,最后10個(gè)epochs關(guān)閉Mosaic數(shù)據(jù)增強(qiáng)。
3.3 評價(jià)指標(biāo)
該文采取精確率(Precision, P)、召回率(Recall, R)、平均精度(averageprecision, AP)、平均精度均值(mAP),以及每秒幀率(framespersecond, FPS)作為評價(jià)指標(biāo)進(jìn)行模型整體性能的評價(jià),計(jì)算公式如式(2)所示:
Precision= TP TP+FP (2)
Recall= TP TP+FN
式中,TP——正類被預(yù)測為正類的樣本數(shù);FP——負(fù)類被預(yù)測為正類的樣本數(shù);FN——正類被預(yù)測為負(fù)類的樣本數(shù)。
mAP=Σ M m=1AP M (3)
式中,AP——(Precision-Recall, PR)曲線所圍成區(qū)域的面積;M——數(shù)據(jù)集中的類別數(shù)目。
TPS=N(P) T(P) (4)
式中,N(P)——處理圖像的總數(shù);T(P)——處理圖像的時(shí)間(s)。
3.4 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證該文改進(jìn)算法的有效性和優(yōu)越性,將該文的YOLOv8-HAT盲區(qū)檢測算法與現(xiàn)有經(jīng)典的YOLO系列檢測算法進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表1所示。較其他YOLO檢測算法的精確率、召回率和mAP都有所提高,盡管FPS有所降低,但考慮FPS仍然在120以上,完全能夠?qū)崿F(xiàn)實(shí)時(shí)檢測的效果。
為了分析該文YOLOv8-HAT盲區(qū)檢測算法與改進(jìn)后的模型中不同的改進(jìn)點(diǎn)對于模型性能的影響。在相同的驗(yàn)證集和相同的實(shí)驗(yàn)環(huán)境下進(jìn)行一系列的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2所示:
從實(shí)驗(yàn)結(jié)果可以看出,相較于YOLOv8模型,在添加HAT注意力機(jī)制后,精確率提高了5.8%,mAP增加了5.6%;使用GIoU損失函數(shù)后,精確率提高了0.4%,召回率提高了3.3%,mAP提高了1.9%;在融合了兩種改進(jìn)模型后,精確率提高了6.6%,mAP增加了3%,而FPS僅降低了3.3。利用原YOLOv8和YOLOv8-HAT對選取的圖片進(jìn)行檢測,檢測結(jié)果如圖3所示,可見原YOLOv8檢測會出現(xiàn)如圖所示的漏識別、誤識別和重識別,而該文提出的算法置信度更高,漏檢率和誤檢率下降。
4 結(jié)束語
該文深入研究并提出了基于YOLOv8-HAT算法的貨車視野盲區(qū)檢測算法,在原模型的基礎(chǔ)上采用了HAT注意力機(jī)制和GIoU損失函數(shù),顯著提升了算法的檢測性能,為解決貨車盲區(qū)問題提供了有效的技術(shù)支持。在未來,計(jì)劃將該算法應(yīng)用于實(shí)際場景中,以驗(yàn)證其在實(shí)際貨運(yùn)駕駛環(huán)境中的性能和效果,通過持續(xù)的技術(shù)創(chuàng)新和應(yīng)用拓展,貨車盲區(qū)檢測技術(shù)將為實(shí)現(xiàn)道路安全和智能交通的可持續(xù)發(fā)展作出貢獻(xiàn)。
參考文獻(xiàn)
[1]陳飛,遲福源,高曉楓,等.蘇州市高速公路貨運(yùn)交通量時(shí)空分布特征[J].交通科技與管理,2023(15):30-32.
[2]羅會蘭,陳鴻坤.基于深度學(xué)習(xí)的目標(biāo)檢測研究綜述[J].電子學(xué)報(bào),2020(6):1230-1239.
[3]范佳琦,李鑫,霍天嬌,等.基于單階段算法的智能汽車跨域檢測研究[J].中國公路學(xué)報(bào),2022(3):249-262.
[4]Chen X, Wang X, Zhou J, et al. Activating more pixels in image super-resolution transformer[C]. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2023:22367-22377.
[5]REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: A metric and a loss for bounding box regression[C]. Proceedings of the 2019 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), 2019:658-66.
收稿日期:2024-05-10
作者簡介:周重位(2002—),男,本科,研究方向:交通設(shè)備與控制工程。
基金項(xiàng)目:重慶交通大學(xué)大學(xué)生創(chuàng)新訓(xùn)練計(jì)劃國家級項(xiàng)目“一種云(端)邊一體的智能貨運(yùn)車隊(duì)安全管理系統(tǒng)”(202310618022)。