劉怡帆 王旭飛,2 周鵬 譚飛 焦登寧
1.陜西理工大學(xué)機(jī)械工程學(xué)院;2.陜西理工大學(xué)陜西省工業(yè)自動(dòng)化重點(diǎn)實(shí)驗(yàn)室
針對(duì)不良光照道路目標(biāo)檢測(cè)任務(wù)中識(shí)別行人目標(biāo)精度不高的問題,提出用行人特征先驗(yàn)框的YOLOv4神經(jīng)網(wǎng)絡(luò)模型和增強(qiáng)型紅外圖像數(shù)據(jù)集來提高行人目標(biāo)檢測(cè)的精度。具體通過提取KAIST紅外視頻圖像作為數(shù)據(jù)集,利用CLAHE方法對(duì)圖像進(jìn)行增強(qiáng)處理,然后使用KMeans++算法對(duì)行人特征進(jìn)行先驗(yàn)框聚類。通過訓(xùn)練和測(cè)試,檢測(cè)到mAP和mIoU分別達(dá)到98.42%和81.95%,具有良好的效果。
在眾多的公共交通參與者中,行人作為最廣泛的群體是交通安全領(lǐng)域中重要的關(guān)注對(duì)象之一。目標(biāo)檢測(cè)是指利用計(jì)算機(jī)視覺技術(shù)在輸入的圖像或視頻中檢測(cè)是否含有目標(biāo),并輸出目標(biāo)的位置,其廣泛應(yīng)用于汽車輔助駕駛、智能安防等領(lǐng)域。
可見光成像設(shè)備可以捕獲豐富的色彩信息和紋理細(xì)節(jié),所以常見目標(biāo)檢測(cè)算法均基于可見光成像設(shè)備拍攝的圖像和視頻進(jìn)行檢測(cè)。但可見光成像設(shè)備在夜間、雨霧等光照條件復(fù)雜的情況下成像效果較差,難以保證成像清晰。紅外成像設(shè)備可以很好的解決可見光設(shè)備遇到的問題[1]。人體體溫在37℃時(shí)輻射的波長(zhǎng)約為9.3μm[2],所以使用長(zhǎng)波紅外攝像機(jī)更容易捕捉到行人等目標(biāo),并且在面對(duì)強(qiáng)光、弱光等光照條件時(shí)魯棒性也更好。這為全天候的目標(biāo)檢測(cè)和處理提供了良好的數(shù)據(jù)源。
近年來,深度學(xué)習(xí)的方法受到多數(shù)學(xué)者的青睞?;谏疃葘W(xué)習(xí)的方法通過構(gòu)建卷積運(yùn)算的神經(jīng)網(wǎng)絡(luò),輸入大量訓(xùn)練樣本對(duì)其進(jìn)行訓(xùn)練,并自動(dòng)學(xué)習(xí)目標(biāo)的特征,相較于傳統(tǒng)算法提高了泛化能力和識(shí)別率。A.krizhevsky等人利用卷積神經(jīng)網(wǎng)絡(luò)[3]在行人檢測(cè)上取得了較好效果,之后又出現(xiàn)了R-CNN[4]、Fast R-CNN[5]、Faster R-CNN[6]等改進(jìn)算法,但這些算法運(yùn)算量大、運(yùn)行速度慢,實(shí)時(shí)性低。
Redmon等人提出YOLO系列算法[7-8],Bochkovskiy等人在此基礎(chǔ)上提出了YOLOv4[9]模型,主干網(wǎng)絡(luò)借鑒CSPNet的網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建了基礎(chǔ)網(wǎng)絡(luò)模型CSPDarknet 53,引入了Mish激活函數(shù)、SPP、PANet等結(jié)構(gòu)增強(qiáng)了網(wǎng)絡(luò)的學(xué)習(xí)能力,同時(shí)在數(shù)據(jù)增強(qiáng)、損失函數(shù)等方面進(jìn)行了優(yōu)化,降低了計(jì)算量,在檢測(cè)精度和檢測(cè)速度之間達(dá)到最佳平衡。本文使用的YOLOv4網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。
圖1 YOLOv4網(wǎng)絡(luò)模型結(jié)構(gòu)Fig.1 YOLOv4 network model structure
KAIST數(shù)據(jù)集[10]是采用載有遠(yuǎn)紅外攝像機(jī)的汽車在不同路況和不同時(shí)間段(白天、夜間)的道路上所采集的紅外視頻,包括Person、Cyclist和People三類目標(biāo),適合道路行人檢測(cè)研究。但是KAIST視頻中相鄰幀場(chǎng)景相似度較高,我們從視頻中每隔兩幀提取一張圖像,進(jìn)行清洗,最終得到7600張圖片作為本次實(shí)驗(yàn)的紅外數(shù)據(jù)集,其中隨機(jī)選取760張圖片作為測(cè)試集,其余6840張圖片作為訓(xùn)練集。
原始KAIST數(shù)據(jù)集中紅外圖像的直方圖分布較為集中,圖像中行人目標(biāo)與背景區(qū)分不明顯,目標(biāo)輪廓模糊。采用限制對(duì)比度自適應(yīng)直方圖均衡化(CLAHE)的方法對(duì)圖像進(jìn)行增強(qiáng)處理,使直方圖分布更加均勻,提升圖像對(duì)比度,從而獲取更多行人目標(biāo)特征,弱化不需要的背景信息[11]。原圖與增強(qiáng)后圖像對(duì)比如圖2所示。
圖2 圖像增強(qiáng)效果對(duì)比Fig.2 Comparison of image enhancement effects
KAIST數(shù)據(jù)集圖像中行人目標(biāo)大部分是靜態(tài)站立和動(dòng)態(tài)行走狀態(tài),所以行人對(duì)象特征的高寬比數(shù)值比較集中,利用這個(gè)特點(diǎn),對(duì)圖像目標(biāo)采用聚類算法進(jìn)行行人特征的先驗(yàn)框聚類,可以提高行人目標(biāo)的檢測(cè)速度和精度。K-Means算法在先驗(yàn)框的聚類中得到了廣泛的應(yīng)用,但其結(jié)果受制于初始點(diǎn)的選擇,采用K-Means++算法[12]可以有效防止K-Means算法因病態(tài)初始點(diǎn)而影響最終的聚類結(jié)果。聚類過程一般不使用歐氏距離,而采用先驗(yàn)框與目標(biāo)框的交并比(IoU)計(jì)算距離,如公式(1)所示:
通過K-Means++算法對(duì)KAIST數(shù)據(jù)中的3類目標(biāo)進(jìn)行聚類,如圖3所示,在權(quán)衡交并比和先驗(yàn)框數(shù)量的關(guān)系后最終取9組先驗(yàn)框參數(shù),分別為:[15,42,20,55,30,38,25,71,29,90,37,106,127,44,47,142,59,189]。
圖3 先驗(yàn)框個(gè)數(shù)與平均交并比關(guān)系Fig.3 Relationship between the number of a priori frames and the average intersection union ratio
在KAIST數(shù)據(jù)集中計(jì)算K-Means++聚類后的先驗(yàn)框與YOLOv4中原先驗(yàn)框的平均交并比,結(jié)果如表1所示。
表1 不同先驗(yàn)框的平均交并比Tab.1 Average intersection union ratio of different a priori frames
從表1看出,使用K-Means++算法聚類后的先驗(yàn)框,可以使得平均交并比由65.59%提高到了84.49%,從而讓網(wǎng)絡(luò)模型對(duì)目標(biāo)的識(shí)別能力增強(qiáng),提高檢測(cè)精度。
實(shí)驗(yàn)所使用處理器為i9 10900X、內(nèi)存64GB、操作系統(tǒng)為Windows 10并采用兩張NVIDIA RTX 3080 10G顯卡配合CUDA 11.1和CUDNN 8.0.4加速環(huán)境進(jìn)行訓(xùn)練。
網(wǎng)絡(luò)訓(xùn)練以深度學(xué)習(xí)架構(gòu)Darknet為基礎(chǔ),為了保證較快的訓(xùn)練速度以及防止局部最優(yōu)的出現(xiàn),設(shè)置網(wǎng)絡(luò)超參數(shù)中的沖量常數(shù)為0.9,初始學(xué)習(xí)率為0.001,設(shè)置網(wǎng)絡(luò)最大迭代次數(shù)為12000次。網(wǎng)絡(luò)訓(xùn)練過程中的平均損失函數(shù)隨迭代次數(shù)的變化如圖4所示。
圖4 平均損失隨迭代次數(shù)的變化關(guān)系Fig.4 Variation of average loss with iteration times
圖4顯示,在網(wǎng)絡(luò)12000次迭代中,0到6000次迭代平均損失函數(shù)下降明顯,迭代次數(shù)超過10000次后平均損失函數(shù)值逐步穩(wěn)定,隨著訓(xùn)練的進(jìn)行,最終平均損失函數(shù)收斂到1.0附近。
為了準(zhǔn)確評(píng)價(jià)網(wǎng)絡(luò)模型的性能,選取準(zhǔn)確率P、召回率R、F1分?jǐn)?shù)、平均精度均值mAP、平均交并比mIoU、每秒傳輸幀數(shù)FPS作為評(píng)價(jià)指標(biāo)對(duì)模型進(jìn)行評(píng)價(jià)。用行人特征先驗(yàn)框的YOLOv4神經(jīng)網(wǎng)絡(luò)模型和增強(qiáng)型紅外圖像數(shù)據(jù)集進(jìn)行訓(xùn)練后的權(quán)重文件,在建立的測(cè)試集上進(jìn)行檢測(cè),測(cè)試結(jié)果列于表2,其中平均精度均值mAP和平均交并比mIoU分別達(dá)到98.42%和81.95%。
為了進(jìn)一步驗(yàn)證本文方法的有效性,將YOLOv3、YOLOv4-tiny、原YOLOv4網(wǎng)絡(luò)也進(jìn)行訓(xùn)練、測(cè)試,得到各項(xiàng)評(píng)價(jià)指標(biāo)也列于表2中。
由表2看出,YOLOv3、YOLOv4-tiny、原YOLOv4網(wǎng)絡(luò)的檢測(cè)結(jié)果中平均精度均值mAP和平均交并比mIoU均低于替換先驗(yàn)框后的YOLOv4網(wǎng)絡(luò)。其他性能參數(shù),包括準(zhǔn)確率P、召回率R、F1分?jǐn)?shù),替換先驗(yàn)框后的YOLOv4網(wǎng)絡(luò)也大于或等于其他3種網(wǎng)絡(luò)模型。在檢測(cè)速度方面,YOLOv4-tiny網(wǎng)絡(luò)模型的每秒傳輸幀數(shù)是121.2FPS,幾乎是其他3種模型的2倍,本文方法的每秒傳輸幀數(shù)為63.4FPS。說明本文方法進(jìn)一步提高了YOLOv4網(wǎng)絡(luò)模型的目標(biāo)檢測(cè)精度,也滿足目標(biāo)實(shí)時(shí)檢測(cè)的需求。
表2 多種神經(jīng)網(wǎng)絡(luò)模型檢測(cè)結(jié)果對(duì)比Tab.2 Comparison of test results of various neural network models
通過使用YOLOv4網(wǎng)絡(luò)模型,選擇KAIST紅外視頻圖像作為數(shù)據(jù)集,以數(shù)據(jù)集中的行人、人群和騎車人為3類目標(biāo)對(duì)象。用CLAHE方法對(duì)紅外圖像數(shù)據(jù)集進(jìn)行圖像增強(qiáng),使用K-Means++算法對(duì)數(shù)據(jù)集圖像中的目標(biāo)對(duì)象進(jìn)行先驗(yàn)框聚類,并用具有行人特征的先驗(yàn)框替換YOLOv4中原先驗(yàn)框。實(shí)驗(yàn)結(jié)果表明,YOLOv4網(wǎng)絡(luò)模型與其他3種網(wǎng)絡(luò)模型相比,在紅外圖像數(shù)據(jù)集中具有較好的檢測(cè)結(jié)果,在測(cè)試集上檢測(cè)到mAP和mIoU分別達(dá)到98.42%和81.95%。說明通過以上方法可以有效提高夜間等不良光照條件下目標(biāo)檢測(cè)精度及檢測(cè)速度,也可以用于實(shí)時(shí)的目標(biāo)檢測(cè)任務(wù),為汽車輔助駕駛提供幫助。
引用
[1] GengiK,Yin G.Using Deep Learning in Infrared Images to Enable Human Gesture Recognition for Autonomous Vehicles[J].IEEE Access,2020(99):1.
[2] St-Laurent L,Maldague X,Prévost D.Combination of colour and thermal sensors for enhanced object detection[C].2007 10thInternational Conference on Information Fusion.IEEE,2007:1-8.
[3] Alex Krizhevsky,Ilya Sutskever,Geoffrey E Hinton.ImageNet classification with deep convolutional neural networks[C].Proceedings of the 25thInternational Conference on Neural Information Processing Systems,2012:1097-1105.
[4] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C].IEEE Conference on Computer Vision and Pattern Recognition(CVPR),2014:580-588.
[5] Girshick R.Fast r-cnn[C].Proceedings of the IEEE international conference on computer vision,2015:1440-1448.
[6] Ren S,He K,Girshick R,et al.Faster r-cnn:Towards realtime object detection with region proposal networks[J].Advances in neural information processing systems,2015(28):91-99.
[7] Redmon J,Farhadi A.YOLO9000: Better,Faster,Stronger[C].Proceedings of the IEEE conference on Computer Vision and Pattern Recognition Washington D.C.,USA:IEEE Computer Society,2017:6517-6525.
[8] Redmon J,Farhadi A.Yolov3:An Incremental Improvement[C].IEEE Conference on Computer Vision and Pattern Recognition,2018.
[9] Bochkovskiy A,Wang C Y,Liao H Y M.YOLOv4:optimal speed and accuracy of object detection[J].Computer Vision and Pattern Recognition,2020,17(9):198-215.
[10] Hwang S,Park J,Kim N,et al.Multispectral pedestrian detection: Benchmark dataset and baseline[C].Proceedings of the IEEE conference on computer vision and pattern recognition,2015:1037-1045.
[11] 劉玉婷,陳崢,付占方,等.基于CLAHE的紅外圖像增強(qiáng)算法[J].激光與紅外,2016,46(10):1290-1294.
[12] Vassilvitskii S,Arthur D.k-means++:The advantages of careful seeding[C].Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms,2006:1027-1035.