陳新宇 金艷梅
摘要:交通標志識別系統(tǒng)是高級駕駛員輔助系統(tǒng)的重要組成部分,在許多實際應用中至關重要,介紹了常見的檢測和分類算法,并且將不同的檢測和分類方法結合用于交通標志的實時檢測,對比分析了實驗結果。對ssd_mobilenet_v2,faster_rcnn_inception_v2,ssd_mobilenet_v1,ssd_inception_v2實時識別交通標志的效果進行了分析與評估。實驗表明,faster_rcnn_inception_v2獲得最佳的檢測性能,而ssd_mobilenet_v2則在準確性和執(zhí)行時間上都取得了較好的效果,可考慮將其應用于實時的交通標志檢測系統(tǒng)。
關鍵詞:交通標志檢測;圖片識別;神經網絡;智能駕駛;實時檢測
中圖分類號:TP391文獻標志碼:A文章編號:1008-1739(2020)06-66-4
0引言
交通標志識別系統(tǒng)(TSRS)構成高級駕駛員輔助系統(tǒng)的重要組成部分,在許多實際應用中至關重要,例如自動駕駛、交通監(jiān)控及駕駛員安全和輔助,道路網絡維護以及道路交通場景的分析。TSRS通常涉及交通標志檢測(TSD)和交通標志識別(TSR)2個相關主題,前者專注于目標在幀中的定位,而后者則執(zhí)行細粒度分類以識別所檢測目標的類型[1-2]。
通過開源模型,分析并比較了4種CNN模型用于交通標志的識別,評估后的檢測模型是檢測模型(Faster R-CNN,SSD)和分類模型(mobilenet_v2,inception_v2,mobilenet_v1)。同時評估多個重要因素,例如mAP,推理執(zhí)行時間和內存消耗。本文概述了基于CNN的現(xiàn)代對象檢測算法,即Faster R-CNN,SSD,分析和評估專門針對交通標志檢測任務而調整的幾個最新對象檢測器,模型的評估包括關鍵指標,例如mAP等。
1交通標志檢測方法
近些年,深度卷積神經網絡被成功地應用于物體識別與目標檢測,其中以AlexNet為代表[3]。2012年,Krizhevsky等人在ImageNet大規(guī)模視覺識別的挑戰(zhàn)賽中展現(xiàn)了CNN顯著提高圖像分類精確度的能力。受到AlexNet在圖像處理領域的顯著效果的啟發(fā),Ross Girshick[4]等人提出一種深度學習模型,命名為R-CNN,將CNN運用于目標檢測問題,該模型首先使用選擇性搜索算法來計算圖像的候選區(qū)域,然后將所有的候選區(qū)域輸入到R-CNN模型中提取特征,最后在SVM中完成分類。雖然R-CNN的正確率有了很大提升,但也存在著缺點,由于每張圖像有大約2 000個候選區(qū)域,導致計算量很大。微軟亞洲研究院工作者SPPnet[5]的思想運用于目標檢測中,其過程和R-CNN一樣,在PASCAL VOC測試,準確率和R-CNN相近,但運行時間大大減少。2015年,Ross Girshick進一步將SPPnet的思想和R-CNN結合提出卷積神經網絡模型Faster R-CNN[6],再用Softmax[7]回歸替代SVM分類器降低空間和時間的開銷。整個訓練過程不需要分級進行,檢測過程更加高效,準確度更高。2016年,Liu Wei[8]等人將YOLO網絡[9]的結構與Girshick的Faster R-CNN[6]相結合,提出了SSD目標檢測算法,SSD網絡的速度比Faster R-CNN要快很多,但其工作方式卻和Faster R-CNN存在顯著不同。SSD算法直接在整幅圖像上生成各種大大小小的目標邊界框,然后使用非極大值抑制技術將高度重疊的邊界框整合成一個。將處理候選區(qū)域的問題轉化為線性回歸的問題,利用線性回歸思想找出與目標最為接近的預測框,該算法提高了計算速度,準確率也有一定的保證。采用這種方式的優(yōu)點是極大提升了運算速度,適用于計算力較低的硬件環(huán)境。
1.1 Faster R-CNN
Faster R-CNN[6]引入了區(qū)域提案網絡,是完全卷積神經網絡,可同時預測對象邊界框和對象度得分。由于全圖像卷積特征圖與檢測網絡共享,模型完全可以從端到端訓練。區(qū)域提議以滑動窗口的方式生成,在最新卷積層的輸出特征圖上滑動一個小型網絡,區(qū)域提案網絡會在每個滑動窗口位置預測多個區(qū)域提議,其中是每個位置的最大提議數目。個提議相對于個參考框(稱為錨點)進行參數化,這些錨框中的每一個都與縱橫比和比例相關聯(lián),并以滑動窗口位置為中心。為了減少重疊區(qū)域提案網絡的冗余,對提議區(qū)域進行非最大抑制(NMS)算法,NMS算法負責合并屬于同一對象的多個檢測。將排序后的提案區(qū)域轉發(fā)到檢測網絡,檢測網絡最終將邊界框回歸,并在確定的對象類別中對每個邊界框進行分類。
1.2 SSD
SSD[8]將所有計算封裝在單個前饋卷積神經網絡中,直接推斷出框偏移量和對象類別分數。因此,不需要邊界框提議生成和隨后的特征或像素重采樣的階段。SSD使用一組默認框(定位框),這些默認框由開發(fā)人員手動選擇,這些開發(fā)人員必須事先觀察要檢測的對象的大小。這些默認框的目的是使每個要素圖位置的縮放框的輸出空間離散化為不同的比例和縱橫比。也就是說,在每個特征圖單元中,SSD會預測相對于該單元中錨點形狀的偏移量,以及指示每個錨點中存在對象類實例的類別分數。
此外,為處理多種尺寸的對象,SSD結合了來自不同分辨率特征圖的預測。SSD模型的早期網絡層基于高質量圖像分類的標準體系結構,然后將輔助結構添加到網絡,以生成用于檢測目的的多尺度特征圖。這種結構由卷積特征層組成,其目的是逐步減小這些特征圖的大小,并允許在多個尺度上預測檢測。
2交通標志特征提取方法
2.1 Mobilenet_v1
Mobilenet_v1[10]的創(chuàng)新點在于用深度可分離卷積代替?zhèn)鹘y(tǒng)的卷積操作,這樣可以減少參數的數量和操作,但同時會使特征丟失導致精度下降。為了解決上述問題,mobilenet_v1在深度可分離卷積的基礎上,使用倒殘差(Inverted Residual)和線性瓶頸(Linear Bottleneck)技術來保持模型的表征能力。
2.2 Mobilenet_v2
Mobilenet_v2的基礎結構中增加的升維PW卷積,可以將通道數擴大到較高的維度。mobilenet_v2的改進是紡錘形Block,將一個卷積操作繼續(xù)分解為3個乘法的和,這樣使得每個Block之間可以以較小的通道數[24 32 64-96 160-320]進行傳遞,在Block中升維[144 192 384-576 960-1920]可以得到更多特征。將CONV1x1層的參數數量和計算量直接減小若干倍(文中6倍),輕微增加DWCONV3x3的通道數以保證網絡容量[11]。
2.3 Inception_v2
Inception_v2[12]設置了ILSVRC2014檢測和分類挑戰(zhàn)中的最新技術。Inception網絡使用Inception單元,這些單元可以增加網絡的深度和寬度而不會增加其計算成本。當將SSD用作元體系結構時,SSD中不需要區(qū)域提議的特征提取,因此inception_v2不會拆分,而是整個網絡模型被用作主要特征提取器。但是需要多個尺度的輔助卷積特征圖。選擇最頂層的卷積特征圖和較低級別的高分辨率特征圖,然后將具有批處理歸一化和深度512,256,256,128的4個卷積層序列添加到先前選擇的層以執(zhí)行預測任務,這些附加層中的每一個都會使特征圖的空間分辨率降低2倍。
3實驗仿真
3.1數據集
本文采用德國交通標志識別基準(GTSDB),在比較文獻中被廣泛應用于交通標志檢測方法。GTSRB包括各種類型的道路(道路、村莊、城市)在白天和黃昏期間記錄的自然交通場景,以及許多天氣條件。數據集由900幅包含1 206個交通標志的完整圖像組成,分為600個訓練集(846個交通標志)和300個測試集(360個交通標志)。目前共標記43個種類,含有43個類別,如圖1所示。每個圖像包含0個或1個或多個交通標志,如圖2所示。為了更好地測試每種類方法對小、中、大目標的識別效果,按照目標范圍的大小將圖片分為小背景圖片(0~32像素)、中級背景圖片(32~64像素)和大背景圖片(64~96像素)。
3.2實驗結果對比
實驗在Intel Core i5-8400 CPU 8 G內存和GeForce GTX1060GPU上運行。表1提供了4種方法在不同背景圖片的檢測指標。不同天氣條件下測試數據集的部分可視化結果如圖3所示,可以看出,每個交通標志實例都很小,占整個場景的比例不到1%。但是faster_rcnn_inception_v2仍然可以識別到目標區(qū)域。
由表1可以看出,其中faster_rcnn_inception_v2檢測小尺寸交通標志圖片的precision測量值為24.8%,中尺寸的precision測量值為65.7%。大尺寸的precision測量值為80.0%。而ssd_mobilenet_v2檢測小尺寸交通標志圖片的precision測量值為24.6%,中尺寸的precision測量值為64.8%,大尺寸的precision測量值為86.4%??梢姡m然faster_rcnn_inception_v2小目標、中目標和大目標均獲得最佳的檢測性能,但是其檢測時間遠高于ssd_mobilenet_v2,因此不能作為實時交通標志的方法,而ssd_mobilenet_v2檢測性能與檢測時間都取得比較好的效果,可考慮將其應用于實時的交通標志檢測系統(tǒng)。
4結束語
交通標志的識別是無人駕駛中的重要組成部分,神經網絡識別方法被廣泛應用于交通標志檢測方法,而不同的方法有其優(yōu)劣性。研究表明,faster_rcnn_inception_v2獲得最佳的檢測性能,而ssd_mobilenet_v2則在準確性和執(zhí)行時間之間取得了最佳效果,可考慮將其應用于實時的交通標志檢測系統(tǒng)。
在未來的工作中,計劃研究其他神經網絡架構,這些架構已被證明可以很好地檢測或分類通用對象,并使它們適應于真實背景下交通標志識別領域。并且實現(xiàn)真實背景的交通標志應用。
參考文獻
[1] LAESCALERA A D,MORENO L E,SALICHS M A,et al. Road Traffic Sign Detection and Classification[J]. IEEE Transactions on Industrial Electronics,1997,44(6):848-859.
[2] ARCOS-GARCIA A, ALVAREZ-GARCI A J A, SORIA-MORILLO L M. Deep Neural Network for Traffic Sign Recognition Systems: An Analysis of Spatial Transformers and Stochastic Optimisation Methods[J].Neural Netw,2018(99):158-165.
[3] ALEX K, LLYA S, GEOFFREY H. Image Net Classification with Deep Convolutional Neural Networks[J].Commun ACM,2017,60(6):84-90.
[4] GIRSHICK R, DONAHUE J, DARRELL T. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition,Ohio,USA:2014:580-587.
[5] SATURNINO M B, SERGIO L A,PEDRO G J. Road-Sign Detection and Recognition Based on Support Vector Machines[J]. IEEE Transactions on Intelligent Transportation Systems,2007, 8(2):264-278.
[6] HE K M,ZHANG X.Y, REN S Q,et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[J].IEEE Trans. Pattern Anal. Mach. Intell, 2015,37(9):1904-1916.
[7] BOUCHARD G. Clustering and Classification Employing Softmax Function Including Efficient Bounds[J].U.S. Patent 8, 2011:246.
[8] REDMON J, DIVVALA S,GIRSHICK R. You Only Look Once: Unified, Real-Time Object Detection[C]//InIEEE Conference on Computer Vision and Pattern Recognition, NV, USA,2016:779-788.
[9] LIU W, ANGUELOV D, ERHAN D.SSD: Single Shot Multibox Detector[J].Proc. Eur. Conf. Comput.Vis.,2016: 21-37.
[10] HOWARD A G,ZHU M,CHEN B,et al.Mobilenets: Efficient Convolutional Neural Networks for Mobile Vision Applications[J].arXiv preprint arXiv:1704.04861,2017.
[11] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-Scale Image Recognition[J].arXiv preprint arXiv:1409.1556,2014.
[12] IOFFE S,SZEGEDY C. Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift[J].arXiv preprint arXiv:1502.03167,2015.