張達(dá)為,劉緒崇,周維,陳柱輝,余瑤
基于改進(jìn)YOLOv3的實(shí)時交通標(biāo)志檢測算法
張達(dá)為1*,劉緒崇2,周維1,陳柱輝1,余瑤3
(1.湘潭大學(xué) 計算機(jī)學(xué)院·網(wǎng)絡(luò)空間安全學(xué)院,湘潭 湖南,411105; 2.湖南警察學(xué)院 湖南公安科學(xué)技術(shù)研究院,長沙 410138; 3.湘潭大學(xué) 公共管理學(xué)院,湘潭 湖南,411105)( ? 通信作者電子郵箱1135119686@qq.com)
針對目前我國智能駕駛輔助系統(tǒng)識別道路交通標(biāo)志檢測速度慢、識別精度低等問題,提出一種基于YOLOv3的改進(jìn)的道路交通標(biāo)志檢測算法。首先,將MobileNetv2作為基礎(chǔ)特征提取網(wǎng)絡(luò)引入YOLOv3以形成目標(biāo)檢測網(wǎng)絡(luò)模塊MN-YOLOv3,在MN-YOLOv3主干網(wǎng)絡(luò)中引入兩條Down-up連接進(jìn)行特征融合,從而減少檢測算法的模型參數(shù),提高了檢測模塊的運(yùn)行速度,增強(qiáng)了多尺度特征圖之間的信息融合;然后,根據(jù)交通標(biāo)志目標(biāo)形狀的特點(diǎn),使用-Means++算法產(chǎn)生先驗(yàn)框的初始聚類中心,并在邊界框回歸中引入距離交并比(DIOU)損失函數(shù)來將DIOU與非極大值抑制(NMS)結(jié)合;最后,將感興趣區(qū)域(ROI)與上下文信息通過ROI Align統(tǒng)一尺寸后融合,從而增強(qiáng)目標(biāo)特征表達(dá)。實(shí)驗(yàn)結(jié)果表明,所提算法性能更好,在長沙理工大學(xué)中國交通標(biāo)志檢測(CCTSDB)數(shù)據(jù)集上的平均準(zhǔn)確率均值(mAP)可達(dá)96.20%。相較于Faster R-CNN、YOLOv3、Cascaded R-CNN檢測算法,所提算法擁有具有更好的實(shí)時性和更高的檢測精度,對各種環(huán)境變化具有更好的魯棒性。
目標(biāo)檢測;特征融合;YOLOv3;距離交并比;MobileNetv2;-Means++
交通標(biāo)志識別系統(tǒng)對于高速公路標(biāo)志標(biāo)線維護(hù)、駕駛員輔助系統(tǒng)和自動駕駛汽車非常重要。交通標(biāo)志檢測與識別分為標(biāo)志檢測和標(biāo)志分類。檢測階段的目的是定位圖像中的感興趣區(qū)域并驗(yàn)證感興趣區(qū)域(Region Of Interest, ROI)是否包含交通標(biāo)志;識別階段的目的是對檢測階段檢測到的交通標(biāo)志進(jìn)行唯一識別。目前,深度卷積網(wǎng)絡(luò)應(yīng)用于圖像識別和目標(biāo)檢測,速度越來越快,準(zhǔn)確率越來越高。卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)可以從大量樣本中學(xué)習(xí)特征,無需預(yù)處理,避免了手工制作特征的設(shè)計難度,可學(xué)習(xí)更廣義的特征。CNN已經(jīng)被作為機(jī)器學(xué)習(xí)的分類器提出,并已被用于交通標(biāo)志分類?;贑NN的方法的性能是較先進(jìn)的。然而,對于交通標(biāo)志檢測,基于卷積神經(jīng)網(wǎng)絡(luò)的方法由于計算復(fù)雜,實(shí)時性并不好。隨著計算機(jī)計算性能的不斷加強(qiáng),實(shí)時交通標(biāo)志檢測和識別技術(shù)已成為無人駕駛技術(shù)中一種不可或缺的技術(shù)。因此,本文以YOLOv3(You Only Look Once version 3)[1]為基礎(chǔ)來對交通標(biāo)志檢測與識別算法進(jìn)行研究,這對提高無人駕駛技術(shù)具有重要意義。
傳統(tǒng)的交通標(biāo)志識別系統(tǒng)研究方法主要是基于顏色和形狀的方法。Li等[2]提出采用圖像預(yù)處理、顏色濾波、顏色分割進(jìn)行交通標(biāo)志檢測,在識別階段采用特征提取和訓(xùn)練有素的神經(jīng)網(wǎng)絡(luò)對交通標(biāo)志進(jìn)行唯一識別。Kaplan等[3]提出了一種圓形交通標(biāo)志檢測與識別方法,通過以卷積和空間變換模塊為主要模塊的卷積神經(jīng)網(wǎng)絡(luò)對交通標(biāo)志圖像進(jìn)行細(xì)粒度分類。上述方法都是通過利用交通標(biāo)志特殊的顏色和形狀來進(jìn)行特征提取,依靠分類器來進(jìn)行分類;但是上述方法都存在檢測速度慢、檢測精度低等問題,在實(shí)際應(yīng)用中難以達(dá)到預(yù)期目標(biāo)。
由于深度學(xué)習(xí)的不斷發(fā)展,目標(biāo)檢測、目標(biāo)跟蹤技術(shù)也在不斷迭代更新。Wang等[4]提出了一種新穎的實(shí)時方法來識別具有高動態(tài)成像和深度學(xué)習(xí)的交通信號燈,從低曝光的暗幀中可靠地檢測交通信號候選,并使用深層神經(jīng)網(wǎng)絡(luò)在連續(xù)的高曝光的亮幀中對交通燈候選進(jìn)行準(zhǔn)確分類。為了提高對交通標(biāo)志的檢測和識別效果,Zhang等[5]提出使用卷積神經(jīng)網(wǎng)絡(luò)對交通標(biāo)志提案進(jìn)行分類,以進(jìn)行快速、準(zhǔn)確的交通標(biāo)志檢測和識別。García-Garrido等[6]采用霍夫變換從圖像邊緣獲取信息,但計算復(fù)雜度高,阻礙了實(shí)時應(yīng)用??偟膩碚f,上述方法中使用的主要方法是先提取感興趣區(qū)域特征,然后采用分類器去定位位置。因此,這些方法被稱為兩階段目標(biāo)檢測方法,它們擁有較強(qiáng)的檢測精度和泛化能力,但是也具有訓(xùn)練步驟繁瑣、訓(xùn)練速度慢、精度不夠、訓(xùn)練的時候占據(jù)太多的物理空間等問題,這些問題會使得在實(shí)時檢測道路交通標(biāo)志時的效率較低,進(jìn)而達(dá)不到預(yù)期的效果。
為了提高檢測效率,Redmon等[7]提出了利用整張圖片作為網(wǎng)絡(luò)的輸入,直接在輸出層回歸檢測框的位置和檢測框所屬的類別的網(wǎng)絡(luò)YOLO (You Only Look Once)。與前幾個卷積神經(jīng)網(wǎng)絡(luò)相比,由于YOLO網(wǎng)絡(luò)擁有較快的檢測速度,所以被應(yīng)用到許多領(lǐng)域。但是由于YOLO對小目標(biāo)檢測效果不好、泛化能力偏弱、定位誤差較大等問題,所以隨后出現(xiàn)了YOLOv2[8]、YOLOv3改進(jìn)網(wǎng)絡(luò),大幅地提高了小目標(biāo)的檢測精度。
但上述方法計算量較大,影響了檢測速度,也忽略了淺層位置信息對小目標(biāo)及遮擋目標(biāo)的重要性。因此為了減小計算量、提高道路交通標(biāo)志檢測效果,本文采用MobileNetv2[9]網(wǎng)絡(luò)與YOLOv3集成的方式來實(shí)現(xiàn)在多種復(fù)雜環(huán)境下的目標(biāo)檢測,不僅提高了遮擋目標(biāo)及小目標(biāo)的檢測精度,同時還提高了檢測速度。算法改進(jìn)如下:
1)為了提高前向推斷的速度,本文以MobileNetv2作為基礎(chǔ)特征提取網(wǎng)絡(luò)[10]。
2)為了能更多獲取淺層信息,在MobileNetv2主干網(wǎng)中引入兩條Down-up連接,增強(qiáng)多尺度特征之間的信息融合。
3)為了能更好地檢測和識別小目標(biāo),本文提出在原有網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上創(chuàng)建一條新的預(yù)測分支C4,最后將C1、C2、C3、C4特征層進(jìn)行統(tǒng)一信息融合,加強(qiáng)了各層之間的特征融合,有利于充分利用各層的信息。
4)為了提高模型收斂速度,本文通過引入距離交并比(Distance Intersection Over Union, DIOU)[11]損失函數(shù),提高模型的預(yù)測精度。
5)為了更加充分地利用高層特征的語義信息和底層特征的細(xì)粒度特征,本文還引入自適應(yīng)特征融合方式。
實(shí)驗(yàn)結(jié)果表明,本文提出的算法相較于原始YOLOv3檢測算法在精度和運(yùn)行速度上都有明顯的提升。
本文使用MobileNetv2作為骨干網(wǎng)絡(luò)來提取圖像的特征,通過MobileNetv2網(wǎng)絡(luò)將提取出來的特征圖輸入到后續(xù)的多尺度分類檢測網(wǎng)絡(luò)中,最后得到20×20、40×40、80×80、160×160這4個不同層級的特征圖,并在這4種不同尺度的特征圖上進(jìn)行預(yù)測。
在YOLOv3網(wǎng)絡(luò)中繼續(xù)使用先驗(yàn)框機(jī)制,使用-Means算法對數(shù)據(jù)集中的真值框進(jìn)行聚類,得到3個類別的先驗(yàn)框。邊界框真實(shí)位置如式(1)~(4)所示:
其中:是基于矩形框中心點(diǎn)左上角格點(diǎn)坐標(biāo)的偏移量,通過Sigmoid函數(shù)激活,使其范圍限制在[0,1]區(qū)間,是先驗(yàn)框的寬、高;是實(shí)際預(yù)測框的寬、高;為網(wǎng)格坐標(biāo),也就是距離左上角頂點(diǎn)的偏移量。通過上述公式計算出邊界框的位置,如圖1所示,通過對置信度設(shè)置閾值,篩選掉得分低的預(yù)測框,然后對余下的預(yù)測框使用非極大值抑制(Non-Maximum Suppression, NMS)處理,最終獲得真正的預(yù)測框。
Google在2017年MobileNet網(wǎng)絡(luò)中首次提出了深度可分離卷積的概念。深度可分離卷積在幾乎不影響精度的情況下可以大幅降低網(wǎng)絡(luò)的計算量。傳統(tǒng)卷積核的通道數(shù)和卷積圖像的通道總是保持一致,與傳統(tǒng)卷積不同,深度可分離卷積是將傳統(tǒng)卷積分為兩步:深度卷積和逐點(diǎn)卷積;深度可分離卷積則是先將每一通道作為一組,然后對每一通道的區(qū)域進(jìn)行卷積,最后各通道之間進(jìn)行信息交互,結(jié)構(gòu)如圖2所示。
圖 2 傳統(tǒng)卷積與深度可分離卷積對比
倒置殘差先通過1×1的卷積來進(jìn)行通道擴(kuò)張,再使用3×3的深度卷積特征提取,最后用1×1的卷積將通道數(shù)壓縮,目的是使3×3的深度卷積提取更多的特征,大幅減少了計算量,讓網(wǎng)絡(luò)重新變小,此網(wǎng)絡(luò)中間寬、兩頭窄,呈沙漏形狀,因此被稱為倒置殘差。采用倒置殘差結(jié)構(gòu)可以大幅減少運(yùn)算時的參數(shù)量,但是這種結(jié)構(gòu)最后輸出的特征圖通道數(shù)會很少,因?yàn)槠浜笫褂梅蔷€性激活 ReLU6,會產(chǎn)生較大的信息丟失。為了減少信息損失,此網(wǎng)絡(luò)使用線性瓶頸,在瓶頸的輸出后接線性激活,減少了信息的損失。倒置殘差結(jié)構(gòu)和線性瓶頸結(jié)構(gòu)如圖3所示。
圖 3 倒置殘差結(jié)構(gòu)
為了解決Darknet-53網(wǎng)絡(luò)在前向特征提取時參數(shù)量和計算量較大問題,本文采用MobileNetv2網(wǎng)絡(luò)進(jìn)行前向推理, MobileNetv2網(wǎng)絡(luò)采用深度可分離卷積操作大幅減少了網(wǎng)絡(luò)運(yùn)算所需要的參數(shù)量和運(yùn)算量,降低了網(wǎng)絡(luò)復(fù)雜度,提高了網(wǎng)絡(luò)的推理速度。采用MobileNetv2替換YOLOv3的主干網(wǎng),與之形成了輕量級網(wǎng)絡(luò)MN-YOLOv3(MobileNetv2- YOLOv3),更加適合交通標(biāo)志的實(shí)時性檢測,MN-YOLOv3繼續(xù)采用原YOLOv3存在的金字塔結(jié)構(gòu)和多尺度特征融合方法,解決了在檢測交通標(biāo)志時的多尺度問題,增加了特征圖中的語義信息。但是隨著網(wǎng)絡(luò)深度的不斷加深,當(dāng)檢測小目標(biāo)物體時,特征圖的分辨率不斷降低,20×20特征圖中的特征信息不斷丟失,所以在20×20的特征圖上引入Down-Up連接,使用3×3、步長分為4和8的卷積操作進(jìn)行下采樣,最后與20×20的特征圖進(jìn)行像素融合,增強(qiáng)高層特征圖位置信息;同時在本文結(jié)構(gòu)中擴(kuò)充一條新的檢測分支C4,因此能夠更多地獲取淺層的信息。為了能夠更加充分地利用高層特征的語義信息和底層特征的細(xì)粒度特征,本文還引入自適應(yīng)特征融合方式,將輸出的特征圖經(jīng)由自適應(yīng)特征融合方式進(jìn)行處理,最后輸出20、40、80、160四種不同尺度的特征圖。改進(jìn)的MN-YOLOv3 的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖 4 MN-YOLOv3 網(wǎng)絡(luò)結(jié)構(gòu)
在目標(biāo)檢測中,交并比(Intersection Over Union, IOU)的作用是評價預(yù)測框和真值框之間的相似度,通過計算交并比得出預(yù)測框和真值框之間的相似度,對正負(fù)樣本的選擇起關(guān)鍵性作用。邊界框回歸在目標(biāo)檢測中起著關(guān)鍵性的作用。近幾年的研究證明IOU損失在邊框回歸上擁有更好的效果,因?yàn)樗鼘Τ叨茸兓幻舾?,IOU損失函數(shù)可表示為:
其中:C為包圍預(yù)測框和目標(biāo)框的最小矩形區(qū)域大小。雖然該損失函數(shù)比IOU損失函數(shù)具有更好的效果,但仍存在收斂速度慢和回歸不準(zhǔn)確的問題。GIOU損失回歸效果如圖5所示。
為了解決上述出現(xiàn)的收斂慢和回歸不準(zhǔn)確問題,本文使用DIOU損失來代替IOU損失作為坐標(biāo)誤差損失函數(shù),該改進(jìn)方法加快模型擬合預(yù)測框與真值框的位置關(guān)系,提高了模型的預(yù)測精度。DIOU損失在GIOU損失基礎(chǔ)上添加一個懲罰項(xiàng),該懲罰項(xiàng)用于最小化兩個邊界框的中心點(diǎn)距離。懲罰項(xiàng)可以定義為:
DIOU損失函數(shù)定義為:
圖 6 DIOU 損失邊界框回歸效果
先驗(yàn)框機(jī)制首先由Faster R-CNN(Faster Region Convolutional Neural Network)[16]提出,并且隨后各種流行的目標(biāo)檢測器大部分采用先驗(yàn)框機(jī)制,例如:SSD(Single Shot multibox Detector)[17]、YOLOv3、RetinaNet[18]等。先驗(yàn)框機(jī)制主要是解決一張圖片中的物體具有不同尺度和長寬比的問題,之前使用的方法是基于圖像金字塔或過濾器金字塔,但這兩種方法比較耗時,且效率低。先驗(yàn)框機(jī)制同時還解決了真值框與真值框之間重疊過大會導(dǎo)致多個真值框映射到一個網(wǎng)格中,從而導(dǎo)致有些真值框丟失。先驗(yàn)框機(jī)制將擁有不同尺度大小和縱橫比的物體所在的空間劃分為幾個子空間,降低了問題難度,也降低了模型學(xué)習(xí)難度。但是在Faster R-CNN和SSD中,先驗(yàn)框的長、框都是手動設(shè)定,主觀性比較強(qiáng);若初始選擇的先驗(yàn)框尺度比較合適,那么對于模型的學(xué)習(xí)將會更加容易,從而會得到更好的預(yù)測效果。因此,在YOLOv3中通過對訓(xùn)練集-Means聚類得到先驗(yàn)框,但-Means的聚類結(jié)果會由于選取的初始值不同而有所區(qū)別,對預(yù)測結(jié)果也會有影響。本文預(yù)置初始聚類中心的方法,通過對交通標(biāo)志的形狀及特點(diǎn)進(jìn)行分析,手動選取-Means++[19]的12個初始聚類框,可以有效地降低原始算法在初始聚類點(diǎn)所造成的聚類偏差,得到比較好尺寸的先驗(yàn)框并且將其匹配到對應(yīng)的特征圖上,從而可以有效地提高檢測的準(zhǔn)確率和召回率。
圖 7 自適應(yīng)特征融合的結(jié)構(gòu)
本文實(shí)驗(yàn)在Windows 10、CUDA10.0、CUDNN7.0環(huán)境下進(jìn)行。CPU配置為Intel-CPU-i7-10870H 處理器,硬件配置:NVIDIA GeForce GTX 1080Ti,12 GB顯存,調(diào)用GPU進(jìn)行加速訓(xùn)練。
為了驗(yàn)證本文算法的效果,本文采用的數(shù)據(jù)集為長沙理工大學(xué)中國交通標(biāo)志檢測(CSUST Chinese Traffic Sign Detection Benchmark, CCTSDB)數(shù)據(jù)集見圖8。CCTSDB數(shù)據(jù)集圖片拍攝角度以及分類更規(guī)范,因此作為本文算法的主要研究數(shù)據(jù)集。CCTSDB數(shù)據(jù)集共包含55類交通標(biāo)志,選取了數(shù)據(jù)集中的5 920張圖片。在中國交通標(biāo)志數(shù)據(jù)集中選取48類交通標(biāo)志作為檢測識別對象,分別為“禁止停車”“限速15 km/h”“注意危險”“右側(cè)變窄”“前方施工”等48種標(biāo)簽,共計6 567個標(biāo)注。將標(biāo)注信息生成與之對應(yīng)的XML格式的目標(biāo)區(qū)域位置的信息,編寫Python程序?qū)ML格式的目標(biāo)區(qū)域位置信息統(tǒng)一轉(zhuǎn)換為TXT格式,以便能讓YOLOv3讀取圖片標(biāo)注信息位置。最后按照VOC2007 數(shù)據(jù)集格式進(jìn)行了整理,分別按3∶1比例將數(shù)據(jù)集中的圖片分為訓(xùn)練集和測試集兩類。
圖8 CCTSDB數(shù)據(jù)集
由于YOLOv3最原始選定先驗(yàn)框尺度和寬高比是基于COCO數(shù)據(jù)集確定的,但是在本文的自制數(shù)據(jù)集應(yīng)用目標(biāo)是交通路面上的交通標(biāo)志牌,原始設(shè)置的先驗(yàn)框尺寸已不適合本文研究的環(huán)境中,因此,本文使用-Means++聚類算法對交通標(biāo)志信息數(shù)據(jù)集的真實(shí)標(biāo)注框進(jìn)行聚類操作,聚類結(jié)果如圖9所示。
圖 9 先驗(yàn)框分布
由圖9可知,真實(shí)標(biāo)注框長寬映射到模型后輸出的先驗(yàn)框尺寸大小為:(6.31,16.60)、(40.52,57.54)、(24.56,56.84)、(11.45,34.73)、(62.28,88.30)、(83.68,114.15)、(50.17,128.65)、(32.10,4.44)、(19.82,28.07)、(38.59,95.43)、(51.05,71.34)、(12.08,19.29),使用CCTSDB進(jìn)行維度聚類,得出結(jié)果和原始的參數(shù)相比,CCTSDB數(shù)據(jù)集聚類結(jié)果更為集中,長寬比更符合交通標(biāo)志數(shù)據(jù)集的特點(diǎn),因此使用-Means++算法聚類得到的先驗(yàn)框參數(shù)來代替原始的參數(shù)進(jìn)行訓(xùn)練和測試,可以使先驗(yàn)框更容易擬合真實(shí)目標(biāo),從而可以降低模型訓(xùn)練的難度。
訓(xùn)練模型期間采用修改后的YOLOv3配置文件,使用數(shù)據(jù)隨機(jī)化(隨機(jī)縮放、隨機(jī)裁減、隨機(jī)排布的方式進(jìn)行拼接將4張圖合為1張圖進(jìn)行訓(xùn)練)的方法來對交通標(biāo)志圖片進(jìn)行數(shù)據(jù)擴(kuò)充,以此來提高模型的泛化能力。將數(shù)據(jù)隨機(jī)化后的圖像調(diào)整尺寸到640×640后送進(jìn)網(wǎng)絡(luò)模型中進(jìn)行模型訓(xùn)練。數(shù)據(jù)隨機(jī)化效果圖如圖10所示。
圖 10 數(shù)據(jù)隨機(jī)化
目標(biāo)檢測領(lǐng)域內(nèi)的重要概念即為交并比(IOU)、平均準(zhǔn)確率(Average Precision, AP)、平均準(zhǔn)確率均值(mean Average Precision, mAP)、查準(zhǔn)率(Precision, P)和查全率(Recall, R)等。交并比是指預(yù)測框與真實(shí)框的交集和并集之比,AP是P和R的關(guān)系曲線與坐標(biāo)軸之間所圍成的面積,準(zhǔn)確率和召回率的計算公式如下:
其中:(True Positive)為被模型預(yù)測為真的正樣本;(False Positive)為模型預(yù)測為真的負(fù)樣本數(shù);(False Negative)為模型預(yù)測為非真的正樣本數(shù)。mAP為各類目標(biāo)的平均準(zhǔn)確率的均值。
此實(shí)驗(yàn)以MobileNetv2為特征提取網(wǎng)絡(luò),以YOLOv3為網(wǎng)絡(luò)檢測算法框架,基于遷移學(xué)習(xí)的方法,使用預(yù)訓(xùn)練模型作為提取基礎(chǔ)特征的網(wǎng)絡(luò),整個過程共迭代了500次,其中批量大小設(shè)置為8,使用隨機(jī)梯度下降的方法,初始學(xué)習(xí)率為0.01,動量和權(quán)重衰減率分別設(shè)置為0.937和0.000 5。
2.4.1消融實(shí)驗(yàn)
為了論證上述改進(jìn)方法的有效性,本文在中國交通標(biāo)志數(shù)據(jù)集上實(shí)行消融實(shí)驗(yàn),構(gòu)建baseline網(wǎng)絡(luò)(通過替換MN-YOLOv3中的主干網(wǎng)絡(luò)MobileNetv2為ResNet-53和移除兩條Down-up連接以及移除ASFF結(jié)構(gòu)得到),通過組合上述所提及的Down-up、ASFF、DIOU,來驗(yàn)證不同模塊對網(wǎng)絡(luò)性能的提升。測試結(jié)果如表1所示。表1列出了P、R和mAP(IOU=0.5)這3種指標(biāo)。由baseline和模型A、B、C可知,Down-up、ASFF、DIOU對于模型的性能均有所提升,并在mAP上分別提高了0.1個百分點(diǎn)、0.6個百分點(diǎn)、0.1個百分點(diǎn)。集合4種模塊的MN-YOLOv3在precision、recall、mAP上均取得了最好的結(jié)果,與baseline相比,分別提升了3.1個百分點(diǎn)、2.6個百分點(diǎn)、4個百分點(diǎn)。由實(shí)驗(yàn)結(jié)構(gòu)可知3個模塊對于網(wǎng)絡(luò)性能的提升是有效的。
2.4.2與其他目標(biāo)檢測算法對比
本文實(shí)驗(yàn)在指定IOU(IOU0.5)閾值下進(jìn)行評價,本文將Faster R-CNN、YOLOv3、Cascaded R-CNN(Cascaded Region Convolutional Neural Network)[21]、MN-YOLOv3這4類目標(biāo)檢測算法在CCTSDB上進(jìn)行測試,測試結(jié)果如表2所示。選取P、R、mAP、每秒幀率(Frames Per Second, FPS)4項(xiàng)指標(biāo)對各算法進(jìn)行評價。雖然Cascaded R-CNN算法在查準(zhǔn)率上排在首位,但速度最低;Faster R-CNN算法在查全率上占優(yōu)勢,但FPS效果不佳;雖然在查準(zhǔn)率上,MN-YOLOv3比Cascaded R-CNN低了1個百分點(diǎn),但在速度和mAP上取得最優(yōu),說明了MN-YOLOv3算法兼顧了目標(biāo)檢測準(zhǔn)確率和速度;MN-YOLOv3的mAP為96.2%,檢測速度達(dá)到35.3 FPS,相較于原始YOLOv3的mAP提升了2.7個百分點(diǎn),速度提升33.7%。檢測效果如圖11所示。
圖11 MN-YOLOv3算法檢測效果
表1CCTSDB數(shù)據(jù)集上消融實(shí)驗(yàn)結(jié)果
Tab.1 Results of ablation experiment on CCTSDB dataset
表 2CCTSDB數(shù)據(jù)集上對比實(shí)驗(yàn)結(jié)果
Tab.2 Comparison of experimental results on CCTSDB dataset
本文提出改進(jìn)YOLOv3算法以解決交通數(shù)據(jù)識別精度不高且檢測速度較低的問題。首先利用MobileNetv2替換原始YOLOv3的主干網(wǎng)絡(luò),提高了網(wǎng)絡(luò)的前向推理速度;其次引入兩條Down-up連接,增強(qiáng)各層級之間的特征融合,有助于檢測尺度較小的交通標(biāo)志;引入DIOU損失函數(shù)作為代價函數(shù),不僅能提高檢測速度,而且還提高了模型對目標(biāo)框的定位能力;引入自適應(yīng)特征融合,能夠讓網(wǎng)絡(luò)更加充分利用高層特征的語義信息和底層特征的細(xì)粒度特征,增強(qiáng)各層級之間的特征融合;使用-Means++聚類算法確定先驗(yàn)框的大小,使模型更容易收斂,提高了本文算法對交通標(biāo)志的檢測精度。由實(shí)驗(yàn)結(jié)果可知,改進(jìn)后的YOLOv3算法mAP達(dá)96.20%,較原始YOLOv3算法提升了2.7個百分點(diǎn),檢測速率達(dá)到35.3 FPS,較原始YOLOv3算法提升了33.7%。本文對輸入圖像的分辨率均歸一化至640×640,后續(xù)工作將以擴(kuò)展圖像尺寸、減少計算復(fù)雜度,達(dá)到全分辨率實(shí)時檢測為目標(biāo)開展研究。
[1] REDMON J, FARHADI A. YOLOv3: an incremental improvement[EB/OL]. (2018-04-08) [2021-03-10].http://arxiv.org/pdf/1804.02767.pdf.
[2] LI H J, QIU T S, SONG H Y, et al. A fast traffic signs detection method based on color segmentation and improved radial symmetry[J]. ICIC Express Letters, 2014, 8(8): 2175-2180.
[3] KAPLAN B, SELCAN G, HUSEYIN O, et al. On circular traffic sign detection and recognition[J]. Expert Systems with Applications, 2016, 48:67-75.
[4] WANG J G, ZHOU L B. Traffic light recognition with high dynamic range imaging and deep learning[J]. IEEE Transactions on Intelligent Transportation Systems, 2019, 20(4):1341-1352.
[5] ZHANG J M, XIE Z P, SUN J, et al. A cascaded R-CNN with multiscale attention and imbalanced samples for traffic sign detection[J]. IEEE Access, 2020, 8: 29742-29754.
[6] GARCíA-GARRIDO M á, SOTELO M á, MARTIN-GOROSTIZA E. Fast road sign detection using Hough transform for assisted driving of road vehicles[C]// Proceedings of the 2015 International Conference on Computer Aided Systems Theory, LNCS 3643. Berlin: Springer, 2005: 543-548.
[7] REDMON J, DIVVALA S, GIRSHICK R, et al. You only look once: unified, real-time object detection[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 779-788.
[8] REDMON J, FARHADI A. YOLO9000: better, faster, stronger[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017:6517-6525.
[9] SANDLER M, HOWARD A, ZHU M L, et al. MobileNetv2: inverted residuals and linear bottlenecks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:4510-4520.
[10] 任坤,黃瀧,范春奇,等. 基于多尺度像素特征融合的實(shí)時小交通標(biāo)志檢測算法[J]. 信號處理, 2020, 36(9):1457-1463 .(REN K, HUANG L, FAN C Q, et al. Real-time small traffic sign detection algorithm based on multi-scale pixel feature fusion[J]. Journal of Signal Processing, 2020, 36(9):1457-1463.)
[11] ZHENG Z H, WANG P, LIU W, et al. Distance-IoU loss: faster and better learning for bounding box regression[C]// Proceedings of the 34th AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020:12993-13000.
[12] 李震霄,孫偉,劉明明,等. 交通監(jiān)控場景中的車輛檢測與跟蹤算法研究[J]. 計算機(jī)工程與應(yīng)用, 2021, 57(8):103-111.(LI Z X, SUN W, LIU M M, et al. Research on vehicle detection and tracking algorithm in traffic monitoring scenes[J]. Computer Engineering and Applications, 2021, 57(8):103-111.)
[13] 蔣麗,薛善良.優(yōu)化初始聚類中心及確定值的-means算法[J]. 計算機(jī)與數(shù)字工程, 2018, 46(1):21-24, 113.(JIANG L, XUE S L. A-means algorithm based on optimizing the initial clustering center and determining thevalue [J]. Computer and Digital Engineering, 2018, 46(1): 21-24, 113.)
[14] 鄧天民,周臻浩,方芳,等. 改進(jìn)YOLOv3的交通標(biāo)志檢測方法研究[J]. 計算機(jī)工程與應(yīng)用, 2020, 56(20):28-35.(DENG T M, ZHOU Z H, FANG F, et al. Research on improved YOLOV3 traffic sign detection method[J]. Computer Engineering and Applications, 2020, 56(20): 28-35.)
[15] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized intersection over union: a metric and a loss for bounding box regression [C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019:658-666.
[16] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015:91-99.
[17] LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot multiBox detector [C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9905. Cham: Springer, 2016: 21-37.
[18] 劉革,鄭葉龍,趙美蓉. 基于RetinaNet改進(jìn)的車輛信息檢測[J]. 計算機(jī)應(yīng)用, 2020, 40(3):854-858.(LIU G, ZHENG Y L, ZHAO M R. Vehicle information detection based on improved RetinaNet[J]. Journal of Computer Applications, 2020, 40(3): 854-858.)
[19] 候瑞環(huán),楊喜旺,王智超,等. 一種基于YOLOv4-TIA的林業(yè)害蟲實(shí)時檢測方法[J]. 計算機(jī)工程, 2022, 48(4):255-261.(HOU R H, YANG X W, WANG Z C, et al. A real-time detection method of forestry pests based on YOLOV4-TIA[J]. Computer Engineering, 2022, 48(4):255-261.)
[20] LIU S T, HUANG D, WANG Y H. Learning spatial fusion for single shot object detection[EB/OL]. (2019-11-21) [2021-03-10].http://arxiv.org/pdf/1911.09516.pdf.
[21] CAI Z W,NUNO V. Cascade R-CNN: delving into high quality object detection[EB/OL].[2017-12-03].https://arxiv.org/pdf/1712.00726.pdf.
ZHANG Dawei, born in 1995, M. S. candidate. His research interests include computer vision.
LIU Xuchong,born in 1973, Ph. D., professor. His research interests include big data analysis, information network security.
ZHOU Wei, born in 1978, Ph. D., associate professor. His research interests include computer vision, intelligent systems.
CHEN Zhuhui, born in 1996, M. S. candidate. His research interests include natural language processing.
YU Yao, born in 1995, M. S. candidate. Her research interests include public opinion analysis.
Real-time traffic sign detection algorithm based on improved YOLOv3
ZHANG Dawei1*, LIU Xuchong2, ZHOU Wei1, CHEN Zhuhui1, YU Yao3
(1&,,411105,;2,,410138,;3,,411105,)
Aiming at the problems of slow detection and low recognition accuracy of road traffic signs in Chinese intelligent driving assistance system, an improved road traffic sign detection algorithm based on YOLOv3 (You Only Look Once version 3) was proposed. Firstly, MobileNetv2 was introduced into YOLOv3 as the basic feature extraction network to construct an object detection network module MN-YOLOv3 (MobileNetv2-YOLOv3). And two Down-up links were added to the backbone network of MN-YOLOv3 for feature fusion, thereby reducing the model parameters, and improving the running speed of the detection module as well as information fusion performance of the multi-scale feature maps. Then, according to the shape characteristics of traffic sign objects,-Means++ algorithm was used to generate the initial cluster center of the anchor, and the DIOU (Distance Intersection Over Union) loss function was introduced to combine DIOU and Non-Maximum Suppression (NMS) for the bounding box regression. Finally, the Region Of Interest (ROI) and the context information were unified by ROI Align and merged to enhance the object feature expression. Experimental results show that the proposed algorithm has better performance, and the mean Average Precision (mAP) of the algorithm on the dataset CSUST (ChangSha University of Science and Technology) Chinese Traffic Sign Detection Benchmark (CCTSDB) can reach 96.20%. Compared with Faster R-CNN (Region Convolutional Neural Network), YOLOv3 and Cascaded R-CNN detection algorithms, the proposed algorithm has better real-time performance, higher detection accuracy, and is more robustness to various environmental changes.
object detection; feature fusion; You Only Look Once version 3 (YOLOv3); DIOU (Distance Intersection Over Union); MobileNetv2;-Means++
This work is partially supported by Hunan Provincial Natural Science Foundation (2018JJ2107), Major Science and Technology Project of Hunan Province (2017SK1040), Project of Hunan Province High-tech Industry Science and Technology Innovation Leading Plan (2020GK2029).
TP391.4
A
1001-9081(2022)07-2219-08
10.11772/j.issn.1001-9081.2021050731
2021?05?10;
2021?10?31;
2021?11?08。
湖南省自然科學(xué)基金資助項(xiàng)目(2018JJ2107);湖南省科技重大專項(xiàng)(2017SK1040);湖南省高新技術(shù)產(chǎn)業(yè)科技創(chuàng)新引領(lǐng)計劃項(xiàng)目(2020GK2029)。
張達(dá)為(1995—),男,湖南常德人,碩士研究生,CCF會員,主要研究方向:計算機(jī)視覺; 劉緒崇(1973—),男,湖南桑植人,教授,博士,CCF會員,主要研究方向:大數(shù)據(jù)分析、信息網(wǎng)絡(luò)安全; 周維(1978—),男,湖南湘潭人,副教授,博士,CCF會員,主要研究方向:計算機(jī)視覺、智能系統(tǒng); 陳柱輝(1996—),男,湖南永州人,碩士研究生,CCF會員,主要研究方向:自然語言處理; 余瑤(1995—),女,江西上饒人,碩士研究生,主要研究方向:公共輿論分析。