郁 強(qiáng), 王 寬, 王 海
(1. 上海汽車(chē)集團(tuán)股份有限公司商用車(chē)技術(shù)中心, 上海 200438; 2. 江蘇大學(xué) 汽車(chē)與交通工程學(xué)院, 江蘇 鎮(zhèn)江 212013)
自動(dòng)駕駛車(chē)輛目標(biāo)檢測(cè)場(chǎng)景具有檢測(cè)場(chǎng)景復(fù)雜、目標(biāo)邊界框面積差異明顯、檢測(cè)難度高、實(shí)時(shí)性要求高等特點(diǎn).因此直接將執(zhí)行常規(guī)檢測(cè)任務(wù)的神經(jīng)網(wǎng)絡(luò)檢測(cè)模型移植到智能輔助駕駛計(jì)算平臺(tái)上,往往會(huì)得到一個(gè)較差的結(jié)果.因此需要充分考慮自動(dòng)駕駛車(chē)輛對(duì)道路多目標(biāo)檢測(cè)場(chǎng)景的實(shí)際需求,在現(xiàn)有檢測(cè)模型的基礎(chǔ)上設(shè)計(jì)符合自動(dòng)駕駛車(chē)輛檢測(cè)要求的道路多目標(biāo)檢測(cè)模型.
YOLO系列目標(biāo)檢測(cè)算法于2016 年提出.在 YOLOv3[1]提出前,已有的神經(jīng)網(wǎng)絡(luò)目標(biāo)檢測(cè)算法的思路都是先通過(guò)前景、背景判斷提取 proposal 再進(jìn)行分類(lèi)和回歸,也就是雙階段算法[2-4],這種方法檢測(cè)精度較高,但實(shí)時(shí)性較差,不適用于對(duì)速度要求較高的場(chǎng)景.YOLO則是一種單階段算法[5-7],它將目標(biāo)檢測(cè)問(wèn)題轉(zhuǎn)化為回歸問(wèn)題,直接在輸出層回歸出目標(biāo)的Bounding box 的類(lèi)別和位置,雖然檢測(cè)精度相比于雙階段模型有所下降,但實(shí)時(shí)性好,有較強(qiáng)的工程價(jià)值,因此,被廣泛運(yùn)用于工程領(lǐng)域.YOLO 的檢測(cè)過(guò)程主要分為3步:① 將輸入圖片調(diào)整成相同大??;② 對(duì)調(diào)整后的圖片使用卷積神經(jīng)網(wǎng)絡(luò)提取特征并得到最終的 Bounding box 信息;③ 使用非極大值抑制算法(non-maximum suppression, NMS)對(duì)上一步生成的多個(gè)Bounding box 進(jìn)行篩選,最終只保留最優(yōu)的候選框.
為了平衡大、小目標(biāo)的檢測(cè)精度,充分發(fā)揮卷積神經(jīng)網(wǎng)絡(luò)的目標(biāo)物體特征提取能力,提高目標(biāo)檢測(cè)網(wǎng)絡(luò)在實(shí)際檢測(cè)中的檢測(cè)性能,筆者針對(duì)道路交通場(chǎng)景下多目標(biāo)檢測(cè)要求的特點(diǎn),在YOLOv3算法的基礎(chǔ)上,對(duì)特征融合模塊進(jìn)行重新設(shè)計(jì),同時(shí)對(duì)檢測(cè)模塊進(jìn)行改進(jìn),設(shè)計(jì)得到一種具有5個(gè)檢測(cè)尺度的道路目標(biāo)多尺度檢測(cè)方法YOLOv3_5d.
YOLOv3在YOLOv1和YOLOv2的基礎(chǔ)上做了改進(jìn),是基于端到端的檢測(cè)算法,網(wǎng)絡(luò)結(jié)構(gòu)分為骨干網(wǎng)絡(luò)Darknet-53和檢測(cè)網(wǎng)絡(luò),骨干網(wǎng)絡(luò)Darknet-53是一個(gè) 53 層的卷積神經(jīng)網(wǎng)絡(luò),其中加入了殘差塊,使網(wǎng)絡(luò)的結(jié)構(gòu)可以設(shè)置得更深,具有更強(qiáng)的特征提取能力;其次還采用了特征金字塔(FPN)[8]方式,提取多個(gè)不同尺度的特征圖層(feature map) 分別進(jìn)行檢測(cè),提高算法對(duì)不同大小目標(biāo)的檢測(cè)能力,并輸出 13×13、26×26 和52×52共3種尺度的特征,送入檢測(cè)網(wǎng)絡(luò).檢測(cè)網(wǎng)絡(luò)對(duì)3種尺度的特征回歸,預(yù)測(cè)出多個(gè)預(yù)測(cè)框,并使用非極大抑制,保留最優(yōu)的候選框.YOLOv3網(wǎng)絡(luò)的檢測(cè)流程如圖1所示.
圖1 YOLOv3網(wǎng)絡(luò)的檢測(cè)流程
YOLOv3目標(biāo)檢測(cè)網(wǎng)絡(luò)設(shè)計(jì)的初衷在于提供一種適合大多數(shù)靜態(tài)場(chǎng)景的二維目標(biāo)檢測(cè)模型,并非針對(duì)自然駕駛交通場(chǎng)景進(jìn)行設(shè)計(jì),沒(méi)有考慮道路多目標(biāo)檢測(cè)的復(fù)雜性.尤其是沒(méi)有對(duì)遠(yuǎn)景小目標(biāo)的檢測(cè)情況進(jìn)行充分的考慮,導(dǎo)致YOLOv3目標(biāo)檢測(cè)網(wǎng)絡(luò)在道路多目標(biāo)檢測(cè)場(chǎng)景中對(duì)小目標(biāo)的檢測(cè)效果較差.與工業(yè)檢測(cè)、室內(nèi)檢測(cè)場(chǎng)景不同,現(xiàn)實(shí)道路交通環(huán)境中,常見(jiàn)目標(biāo)物體(小汽車(chē)、公交車(chē)、行人、騎行者、交通信號(hào)燈、交通標(biāo)志、卡車(chē))的目標(biāo)邊框存在巨大的差異.現(xiàn)實(shí)中的一個(gè)典型道路多目標(biāo)檢測(cè)場(chǎng)景如圖2所示.
圖2 典型道路多目標(biāo)檢測(cè)場(chǎng)景
從圖2可以看出:視野前方黑色車(chē)輛邊界框和圖片右方和上方交通標(biāo)志的bbox面積相差大概90倍.需要指出的是,這種邊界框大小差異明顯的情況不止發(fā)生在不同目標(biāo)種類(lèi)之間,相同的目標(biāo)種類(lèi)也存在大量類(lèi)似情形.當(dāng)車(chē)輛目標(biāo)位于遠(yuǎn)景時(shí)(如圖2中路口對(duì)面的灰色車(chē)輛),bbox的面積相對(duì)于近景車(chē)輛的bbox面積大小差距同樣明顯.由于道路多目標(biāo)檢測(cè)場(chǎng)景的近、遠(yuǎn)景目標(biāo)邊界框面積差異巨大的特點(diǎn),導(dǎo)致現(xiàn)有道路多目標(biāo)檢測(cè)網(wǎng)絡(luò)不能滿(mǎn)足自然駕駛交通目標(biāo)檢測(cè)對(duì)近、遠(yuǎn)景目標(biāo)物體檢測(cè)精度的要求,因此設(shè)計(jì)一種能夠同時(shí)兼顧近景大目標(biāo)與遠(yuǎn)景小目標(biāo)的道路多目標(biāo)檢測(cè)模型是必要的.
在試驗(yàn)數(shù)據(jù)集BDD100K[9]中,YOLOv3目標(biāo)檢測(cè)網(wǎng)絡(luò)模型標(biāo)注邊界框基于K-means算法[10]聚類(lèi)訓(xùn)練集物體邊界框標(biāo)注信息后得到9個(gè)anchor,大小分別為(7,13)、(16,20)、(10,36)、(29,37)、(20,79)、(52,64)、(79,119)、(133,176)、(199,310).此時(shí),anchor邊界框和樣本標(biāo)注邊界框的平均交并比(average intersection over union,AvgIOU)為65.20%.當(dāng)anchor box 的數(shù)量為12和15個(gè)時(shí),由K-means算法聚類(lèi)得到的標(biāo)注值和anchor boxAvgIOU及大小物體的占比如表1所示.
表1 聚類(lèi)中心數(shù)與BDD數(shù)據(jù)集標(biāo)注值交并比
表1中的小目標(biāo)占比是以最大輸出特征檢測(cè)圖最小anchor box的邊界框大小為基準(zhǔn),訓(xùn)練數(shù)據(jù)集標(biāo)注值邊界框小于這個(gè)面積所占的比例;大目標(biāo)占比是以最小輸出特征檢測(cè)圖最大anchor box的邊界框大小為基準(zhǔn),訓(xùn)練數(shù)據(jù)集標(biāo)注值邊界框大于這個(gè)面積所占的比例.從表1可以看出:隨著K均值聚類(lèi)的聚類(lèi)種子點(diǎn)數(shù)量的增加,大、小目標(biāo)在數(shù)據(jù)集中所占的比例均有所下降,而相應(yīng)的AvgIOU逐漸增加.這說(shuō)明隨著K值的增加,anchor box覆蓋標(biāo)注邊界框的IOU增大,意味著標(biāo)注值目標(biāo)邊界框回歸時(shí)的收斂速度會(huì)加快.
依據(jù)卷積神經(jīng)網(wǎng)絡(luò)在大尺度特征圖上檢測(cè)小目標(biāo)效果好的特點(diǎn),在YOLOv3原有的3個(gè)檢測(cè)尺度的基礎(chǔ)上,對(duì)特征融合部分和yolo檢測(cè)層進(jìn)行重新設(shè)計(jì),增加了2個(gè)檢測(cè)小目標(biāo)的大尺度特征輸出圖,經(jīng)過(guò)重新設(shè)計(jì)的道路多目標(biāo)檢測(cè)模型稱(chēng)為YOLOv3_5d,改進(jìn)后的整體結(jié)構(gòu)如圖3所示.
圖3 YOLOv3_5d整體結(jié)構(gòu)
與原始YOLOv3網(wǎng)絡(luò)結(jié)構(gòu)相比較,為適應(yīng)新增檢測(cè)層導(dǎo)致所需的特征圖的尺度變化,對(duì)特征融合網(wǎng)絡(luò)進(jìn)行重新設(shè)計(jì),在原先3個(gè)淺層特征融合模塊的基礎(chǔ)上新增了2個(gè)特征融合模塊.最初的3個(gè)檢測(cè)圖13×13、26×26、52×52與原始YOLOv3構(gòu)架相同,添加的尺度為104×104的檢測(cè)圖是將網(wǎng)絡(luò)第108層的輸出52×52進(jìn)行1次上采樣,提升分辨率至104×104,接著添加特征融合層將第11層的特征圖拼接到110層輸出特征圖的通道上,在特征融合后得到的特征圖上初始生成3種不同尺度的錨點(diǎn)框,隨后交替使用3×3、1×1的卷積操作映射得到104×104下的張量數(shù)據(jù);尺度為208×208的檢測(cè)圖是將網(wǎng)絡(luò)第120層的輸出進(jìn)行1次上采樣,提升分辨率至208×208,接著添加特征融合層將第4層的特征圖拼接到121層輸出特征圖的通道上,同樣在特征融合后得到的特征圖上初始生成3種不同尺度的錨點(diǎn)框,隨后交替使用3×3、1×1的卷積操作映射得到208×208的張量數(shù)據(jù).YOLOv3_5d網(wǎng)絡(luò)結(jié)構(gòu)在完成特征融合之后網(wǎng)絡(luò)輸出5個(gè)尺度的檢測(cè)圖,較YOLOv3增加了104×104和208×208,添加的2個(gè)尺度的檢測(cè)圖為小目標(biāo)的檢測(cè)提供重要特征,改進(jìn)后的網(wǎng)絡(luò)較YOLOv3在遠(yuǎn)景小目標(biāo)的檢測(cè)上考慮更加充分,同時(shí)又沒(méi)有影響大目標(biāo)的檢測(cè).
使用的訓(xùn)練數(shù)據(jù)集為加州大學(xué)伯克利分校AI試驗(yàn)室發(fā)布的BDD100K數(shù)據(jù)集.BDD100K是目前為止規(guī)模最大、內(nèi)容最具多樣性的公開(kāi)駕駛數(shù)據(jù)集,是目前自動(dòng)駕駛領(lǐng)域最為通用的數(shù)據(jù)集之一.BDD100K數(shù)據(jù)集包含10萬(wàn)段高清視頻,每個(gè)視頻約40 s,分辨率為1 280×720,幀率為30幀·s-1.每個(gè)視頻的第10 s對(duì)關(guān)鍵幀進(jìn)行采樣,得到10萬(wàn)張圖片,并進(jìn)行標(biāo)注.其中7萬(wàn)張有標(biāo)簽圖片劃分為訓(xùn)練集,1萬(wàn)張有標(biāo)簽圖片作為驗(yàn)證集.
BDD100K數(shù)據(jù)集類(lèi)別存在不均衡的情況,數(shù)據(jù)集中Car有1 021 857個(gè)實(shí)例,而類(lèi)別Train只有179個(gè)實(shí)例,這樣訓(xùn)練集類(lèi)間分布不均衡的情況在神經(jīng)網(wǎng)絡(luò)訓(xùn)練中對(duì)Car這種大數(shù)量的實(shí)例目標(biāo),網(wǎng)絡(luò)的特征提取能力會(huì)增強(qiáng),但是對(duì)小數(shù)量的實(shí)例目標(biāo),網(wǎng)絡(luò)的特征提取能力會(huì)下降.同時(shí)由于道路多目標(biāo)檢測(cè)模型的構(gòu)建目的為準(zhǔn)確地檢測(cè)自然駕駛場(chǎng)景中常見(jiàn)的目標(biāo)物體.因此,從BDD100K中選取有標(biāo)簽的8×104個(gè)數(shù)據(jù)集并將Train的標(biāo)注去除,組成6個(gè)類(lèi)別(Traffic_light、Traffic_sign、Car、Bus、Truck、Person).并將其中的6×104個(gè)劃分為訓(xùn)練集,2×104個(gè)劃分為驗(yàn)證集.
試驗(yàn)平臺(tái)為 Intel酷睿i7 8700k處理器,64 GB內(nèi)存,操作系統(tǒng)為Ubuntu18.04,使用的運(yùn)算顯卡是 GTX1080Ti.
為了準(zhǔn)確選擇道路多目標(biāo)檢測(cè)網(wǎng)絡(luò)最高精度所對(duì)應(yīng)的權(quán)重,當(dāng)平均損失函數(shù)不再下降時(shí)停止訓(xùn)練.
訓(xùn)練時(shí)設(shè)置超參如下:塊大小為64 個(gè);學(xué)習(xí)率為0.001;最大塊尺寸為106個(gè).
在YOLOv3訓(xùn)練過(guò)程中,YOLOv3目標(biāo)檢測(cè)算法訓(xùn)練中隨著損失函數(shù)的逐漸平穩(wěn), 50%置信度條件下平均準(zhǔn)確度均值mAP@0.5穩(wěn)定在0.490 0左右.本試驗(yàn)取mAP@0.5最大值為0.498 9所對(duì)應(yīng)的權(quán)重文件yolov3-bdd60k-92000.weights作為基于YOLOv3的道路多目標(biāo)檢測(cè)網(wǎng)絡(luò)在BDD60K數(shù)據(jù)集上的最優(yōu)權(quán)重.
在YOLOv3-5d訓(xùn)練過(guò)程中,由第2節(jié)所述關(guān)于BDD60K訓(xùn)練集預(yù)選anchors的尺寸選擇的方法為K-means聚類(lèi)算法.指定聚類(lèi)中心數(shù)K值(K值為預(yù)選anchors的數(shù)量),經(jīng)聚類(lèi)算法聚類(lèi)得到最終預(yù)選anchors的尺寸.但是因?yàn)镵-means算法的聚類(lèi)結(jié)果嚴(yán)重依賴(lài)初始聚類(lèi)種子點(diǎn)的選擇,同時(shí)預(yù)選anchors尺寸的選擇影響最終檢測(cè)網(wǎng)絡(luò)檢測(cè)效果的好壞.所以使用了改進(jìn)的K-means聚類(lèi)算法K-means++算法對(duì)K-means初始種子選擇的缺點(diǎn)進(jìn)行修正.K-means++算法的主要步驟如下:
1) 從數(shù)據(jù)集中隨機(jī)選取1個(gè)樣本作為初始聚類(lèi)中心c1.
2) 計(jì)算每個(gè)樣本與當(dāng)前已有聚類(lèi)中心之間的最短距離,此距離用D(x)表示.
3) 計(jì)算每個(gè)樣本被選為下一個(gè)聚類(lèi)中心的概率P,即
式中:X為所有可選的聚類(lèi)中心點(diǎn).
4) 按照輪盤(pán)法選擇出下一個(gè)聚類(lèi)中心,重復(fù)上述步驟直至選擇出共K個(gè)聚類(lèi)中心.
基于K-means++算法聚類(lèi)BDD60K試驗(yàn)訓(xùn)練數(shù)據(jù)集物體邊界框所得的15個(gè)anchors分別為 (5,13)、(10,11)、(11,20)、(9,35)、(24,18)、(19,30)、(16,62)、(33,42)、(52,61)、(30,110)、(73,93)、(69,207)、(112,128)、(158,215)、(217,348).15個(gè)anchors與數(shù)據(jù)集目標(biāo)邊界框標(biāo)注值的AvgIOU為70.91%.
通過(guò)試驗(yàn)發(fā)現(xiàn),mAP@0.5隨著損失函數(shù)的逐漸收斂而逐漸增加,并最終在100 000次mAP@0.5穩(wěn)定在0.580 0左右.因此試驗(yàn)取100 000次iterations所對(duì)應(yīng)的權(quán)重文件yolov3_5d-bdd60k-100000.weights作為YOLOv3_5d的最優(yōu)權(quán)重文件.
YOLOv3道路目標(biāo)檢測(cè)網(wǎng)絡(luò)訓(xùn)練最優(yōu)權(quán)重yolov3_bdd60k_92000.weights和改進(jìn)的道路目標(biāo)多尺度檢測(cè)算法YOLOv3_5d網(wǎng)絡(luò)最優(yōu)權(quán)重yolov3_5d_bdd60k_100000.weights在數(shù)據(jù)集BDD10K測(cè)試數(shù)據(jù)集6個(gè)目標(biāo)種類(lèi)及整體檢測(cè)平均精度如表2所示.
表2 2個(gè)檢測(cè)模型檢測(cè)精度對(duì)比
從表2可以看出:與基于YOLOv3的道路目標(biāo)檢測(cè)算法在測(cè)試集中取得的最大mAP@0.5值為0.498 9對(duì)比,基于YOLOv3_5d的道路目標(biāo)多尺度檢測(cè)算法在測(cè)試集上mAP@0.5為0.580 9,檢測(cè)精度增加0.082 0.
從檢測(cè)模型改進(jìn)前后各類(lèi)別的mAP@0.5變化分析可以看出:YOLOv3_5d 對(duì)小目標(biāo)的檢測(cè)精度獲得了較大提升,對(duì)于交通標(biāo)志(Traffic_sign)、交通信號(hào)燈(Traffic_light)這2種自然駕駛交通檢測(cè)場(chǎng)景中的典型小目標(biāo),分別取得了0.048 8和0.073 7精度提升;同時(shí)對(duì)于小汽車(chē)(Car)、行人(Person)這類(lèi)可大可小(位于遠(yuǎn)景時(shí)較小,近景時(shí)較大)的檢測(cè)目標(biāo),YOLOv3_5d同樣獲得了較好的表現(xiàn),2類(lèi)別分別獲得了0.099 6和0.162 5的精度提升;對(duì)于公共汽車(chē)(Bus)、卡車(chē)(Truck)這類(lèi)邊界框較大,這種檢測(cè)難度較大的目標(biāo),YOLOv3_5d的檢測(cè)精度也分別有0.046 3和0.060 9的精度提升,這表示YOLOv3_5d可以在充分提升小目標(biāo)檢測(cè)精度的同時(shí)兼顧常見(jiàn)大目標(biāo)的檢測(cè)精度.
在具有標(biāo)注信息的BDD100K測(cè)試集上選取2張典型交通場(chǎng)景下的圖片,利用2個(gè)網(wǎng)絡(luò)的最優(yōu)權(quán)重進(jìn)行檢測(cè),并將檢測(cè)結(jié)果與實(shí)際標(biāo)注信息進(jìn)行對(duì)比分析.場(chǎng)景1和場(chǎng)景2下2種檢測(cè)網(wǎng)絡(luò)效果對(duì)比如圖4所示. 圖4a-c分別為場(chǎng)景1(路口,多實(shí)例小目標(biāo))目標(biāo)物體的標(biāo)注邊界框信息、YOLOv3_5d檢測(cè)出物體信息、YOLOv3_檢出物體信息;圖4d-f除了場(chǎng)景(雨天,小目標(biāo)模糊檢測(cè))不同外,其余相同.不同場(chǎng)景下目標(biāo)標(biāo)注真值與2類(lèi)檢測(cè)算法檢出情況具體如表3所示.
圖4 場(chǎng)景1和場(chǎng)景2下2種檢測(cè)網(wǎng)絡(luò)效果對(duì)比
表3 場(chǎng)景1和場(chǎng)景2下YOLOv3和改進(jìn)網(wǎng)絡(luò)檢測(cè)結(jié)果 個(gè)
由圖4可以看出:十字路口這種自動(dòng)駕駛交通檢測(cè)場(chǎng)景的小目標(biāo)較多,其中多為T(mén)raffic_light、Traffic_sign之類(lèi)的目標(biāo).這種檢測(cè)場(chǎng)一般比較考驗(yàn)檢測(cè)網(wǎng)絡(luò)的小目標(biāo)檢測(cè)能力.
從表3可以看出:對(duì)于Car、Person這類(lèi)較為顯著的檢測(cè)對(duì)象,YOLOv3_5d和YOLOv3這2個(gè)檢測(cè)網(wǎng)絡(luò)均有較好的表現(xiàn),都成功將所有的2類(lèi)目標(biāo)檢測(cè)出;對(duì)于Traffic_light、Traffic_sign這類(lèi)面積較小且不易檢測(cè)的非顯著性檢測(cè)對(duì)象,2個(gè)網(wǎng)絡(luò)的檢測(cè)效果有明顯的差距;對(duì)于場(chǎng)景1中的Traffic_light,標(biāo)注真值共有8個(gè)實(shí)例,YOLOv3共檢測(cè)出6個(gè)實(shí)例,漏檢2個(gè)實(shí)例,而改進(jìn)后的YOLOv3_5d檢測(cè)網(wǎng)絡(luò)共檢測(cè)出7個(gè)實(shí)例,相較于YOLOv3成功地檢測(cè)到了場(chǎng)景中路口右側(cè)較難的Traffic_light實(shí)例,漏檢1個(gè)實(shí)例;對(duì)Traffic_sign,YOLOv3共檢測(cè)出4個(gè)實(shí)例,漏檢2個(gè)實(shí)例,YOLOv3_5d檢測(cè)出6實(shí)例,沒(méi)有漏檢;針對(duì)場(chǎng)景1,YOLOv3_5d檢測(cè)網(wǎng)絡(luò)要優(yōu)于YOLOv3網(wǎng)絡(luò).
從圖4場(chǎng)景2(雨天、小目標(biāo)模糊檢測(cè))可以看出:由于天氣(雨天)的原因,導(dǎo)致檢測(cè)場(chǎng)景中部分目標(biāo)模糊,在這種情況下,對(duì)于檢測(cè)網(wǎng)絡(luò)的魯棒性具有較大的考驗(yàn);除去模糊這種影響因素外,還出現(xiàn)了上文提到的遠(yuǎn)景小目標(biāo)的情況.
從表3場(chǎng)景2的檢測(cè)結(jié)果可以看出:針對(duì)模糊較嚴(yán)重且遠(yuǎn)景小目標(biāo)實(shí)例較多的Car這類(lèi)目標(biāo),改進(jìn)的YOLOv3_5d檢測(cè)網(wǎng)絡(luò)成功地檢測(cè)出了所有的實(shí)例,且位置回歸,目標(biāo)分類(lèi)準(zhǔn)確無(wú)誤; YOLOv3檢測(cè)網(wǎng)絡(luò)漏檢了2個(gè)Car實(shí)例,觀察圖4可知,漏檢的2個(gè)目標(biāo)均為Car的遠(yuǎn)景小目標(biāo)實(shí)例.
由以上分析可以看出:對(duì)于異常天氣導(dǎo)致檢測(cè)難度加大的場(chǎng)景,改進(jìn)的YOLOv3_5d檢測(cè)網(wǎng)絡(luò)魯棒性要明顯優(yōu)于YOLOv3檢測(cè)網(wǎng)絡(luò);對(duì)于遠(yuǎn)景小目標(biāo)實(shí)例較多導(dǎo)致的檢測(cè)困難,YOLOv3_5d檢測(cè)網(wǎng)絡(luò)的表現(xiàn)同樣優(yōu)于YOLOv3檢測(cè)網(wǎng)絡(luò).
表4為YOLOv3_5d檢測(cè)網(wǎng)絡(luò)與目前主流檢測(cè)算法的檢測(cè)性能對(duì)比,采用的測(cè)試數(shù)據(jù)集為BDD100K測(cè)試集,共有1萬(wàn)張圖片.
表4 YOLOv3_5d與各檢測(cè)算法在BDD100K測(cè)試集上的性能對(duì)比
從表4可以看出:以Faster RCNN為代表的二階段檢測(cè)算法在BDD100K測(cè)試集均有較好的檢測(cè)精度,但是二階段的檢測(cè)算法往往不具備實(shí)時(shí)性,例如Faster RCNN的算法運(yùn)行速度僅為10.7幀·s-1,不能滿(mǎn)足自動(dòng)駕駛感知系統(tǒng)對(duì)檢測(cè)算法30.0 幀·s-1的實(shí)時(shí)性要求.
以SSD檢測(cè)算法為一階段目標(biāo)檢測(cè)算法的代表算法.從表4可以看出:SSD針對(duì)BDD100K測(cè)試集有著較為不錯(cuò)的速度表現(xiàn),但是檢測(cè)的準(zhǔn)確度表現(xiàn)較差;YOLO系列檢測(cè)算法在速度與精度2個(gè)方面均有較好的表現(xiàn),本研究提出的YOLOv3_5d檢測(cè)算法,檢測(cè)精度達(dá)到0.580 9,同時(shí),檢測(cè)速度達(dá)到了45.4幀·s-1.雖然檢測(cè)速度較YOLOv3有小幅度下降,但是一般認(rèn)為,在滿(mǎn)足自動(dòng)駕駛檢測(cè)實(shí)時(shí)性的情況下,精度的提升更為重要.
綜上,YOLOv3_5d道路目標(biāo)多尺度檢測(cè)算法在BDD100K測(cè)試集上的表現(xiàn)最優(yōu).
針對(duì)現(xiàn)有自動(dòng)駕駛交通目標(biāo)檢測(cè)算法存在的大、小目標(biāo)檢測(cè)不平衡的問(wèn)題,在現(xiàn)有實(shí)時(shí)目標(biāo)檢測(cè)算法YOLOv3的基礎(chǔ)上,對(duì)YOLOv3目標(biāo)檢測(cè)算法的特征融合模塊進(jìn)行重新設(shè)計(jì),并對(duì)檢測(cè)模塊進(jìn)行改進(jìn),設(shè)計(jì)得到一種新的具有5個(gè)檢測(cè)尺度的道路目標(biāo)多尺度實(shí)時(shí)檢測(cè)算法YOLOv3_5d.并將改進(jìn)前后的檢測(cè)算法分別用BDD100K數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試,最終測(cè)試結(jié)果表明:改進(jìn)后的YOLOv3_5d在檢測(cè)精度上有提升,相比于原始YOLOv3,mAP@0.5增加了近0.082 0,到達(dá)了0.580 9,檢測(cè)精度較高;其次通過(guò)程序統(tǒng)計(jì)檢測(cè)每張圖片的時(shí)間對(duì)算法運(yùn)行速度進(jìn)行統(tǒng)計(jì),檢測(cè)速度達(dá)到了45.4 幀·s-1,提出的基于YOLOv3神經(jīng)網(wǎng)絡(luò)的道路多目標(biāo)檢測(cè)方法可以滿(mǎn)足實(shí)時(shí)性的要求.各類(lèi)別檢測(cè)結(jié)果表明YOLOv3_5d檢測(cè)算法有效提升了交通檢測(cè)場(chǎng)景目標(biāo)的檢測(cè)精度.