翟孝威 宋云志
摘? 要: 道路交通標(biāo)志識別是汽車無人駕駛技術(shù)的重要組成部分。通過調(diào)整卷積層和池化層數(shù)據(jù)輸入方式,改進(jìn)具有融合特征的多尺度卷積神經(jīng)網(wǎng)絡(luò),提高識別準(zhǔn)確率。依據(jù)視頻圖像的空間連續(xù)關(guān)系構(gòu)建時序空間關(guān)系模型(Temporal-Spatial Model, TSM),結(jié)合多尺度卷積神經(jīng)網(wǎng)絡(luò)減少識別數(shù)據(jù)量,提高處理的效率,實(shí)現(xiàn)視頻圖像交通標(biāo)志的高效率和高準(zhǔn)確率識別。實(shí)驗(yàn)結(jié)果表明,所提出的算法識別率保持90.36%,在原始圖像上運(yùn)行平均幀率為32fps,有效地改進(jìn)了基于單幀的交通標(biāo)志圖像識別效率低的問題。
關(guān)鍵詞: 交通標(biāo)志識別; 汽車無人駕駛; 多尺度卷積神經(jīng)網(wǎng)絡(luò); 時序空間關(guān)系模型
中圖分類號:TP391? ? ? ? ? 文獻(xiàn)標(biāo)志碼:A? ? 文章編號:1006-8228(2019)06-63-04
Abstract: Traffic sign recognition is an important part of driverless car technology. In this paper, by adjusting the data input methods of convolutional layer and pooling layer, the multi-scale convolutional neural network with fusion features is improved to make better recognition accuracy, and the Temporal-Spatial model is constructed according to the spatial relationship of video images. Combining with multi-scale convolutional neural network to reduce the amount of identification data, improve the efficiency of processing, the model achieves the recognition of traffic sign with high efficiency and high accuracy. The experimental results show that the proposed algorithm's recognition rate is 96.81%, and the average frame rate is 32fps on the original image, which effectively improves the low-efficiency of single-frame traffic sign recognition.
Key words: traffic sign recognition; driverless car technology; the multi-scale convolutional neural network; Temporal-Spatial model
0 引言
道路交通標(biāo)志牌是應(yīng)用圖像符號和文字符號顯示當(dāng)前道路信息的交通安全設(shè)施,嚴(yán)格按照國家相關(guān)法律標(biāo)準(zhǔn)設(shè)計(jì)。交通標(biāo)志背景和圖形文字的顏色反差較大為識別帶來便利,但由于受到多種因素的影響,如標(biāo)志牌顏色變淺、光照太強(qiáng)或不足、損壞形變、車輛抖動和視角的變化等因素,都會對交通標(biāo)志的識別帶來困難,因此,我們的目標(biāo)就是設(shè)計(jì)一個穩(wěn)健和高效的交通標(biāo)志識別算法。
文獻(xiàn)[1-2]總結(jié)和分析了目前交通標(biāo)志識別技術(shù)發(fā)展概況。近幾年道路交通標(biāo)志的識別技術(shù)發(fā)展迅速,主要分為兩大類:基于圖像處理與機(jī)器學(xué)習(xí)相結(jié)合的方法[3]以及深度學(xué)習(xí)方法[4-5]。Claw Bahlmann[6]提出一種基于顏色、形狀和運(yùn)動信息的交通標(biāo)志檢測、追蹤和識別系統(tǒng)框架。首先,使用AdaBoost訓(xùn)練算法獲得一組Haar小波特征,然后,使用貝葉斯生成模型分類。該系統(tǒng)具有接近實(shí)時檢測和較高準(zhǔn)確分類的性能,但基于Haar小波特征檢測算法易受光照影響。文獻(xiàn)[7]通過基于顏色的分割生成感興趣區(qū)域,再使用特定幾何形狀匹配該區(qū)域,最后采用基于假設(shè)生成和驗(yàn)證的三維重建驗(yàn)證交通標(biāo)志區(qū)域,該方法對遮擋和變形效果較好,但無法保證檢測的準(zhǔn)確性和時效性。
近幾年深度學(xué)習(xí)技術(shù)在圖像識別方面取得快速發(fā)展,甚至優(yōu)于人類的表現(xiàn)。Yok-Yen Nguwi和Abbas Z. Kouzani[8]提出一種基于神經(jīng)網(wǎng)絡(luò)的交通標(biāo)志自動識別系統(tǒng)。該系統(tǒng)分為交通標(biāo)志的檢測和識別兩個模塊。檢測階段將圖像轉(zhuǎn)換到HIS顏色空間,根據(jù)顏色特征和幾何形狀特征分割圖像,再使用MLP神經(jīng)網(wǎng)絡(luò)過濾分割圖像得到較為精確的感興趣區(qū)域。識別模塊使用的一對一架構(gòu)分別訓(xùn)練每一類別的交通標(biāo)志,該識別結(jié)構(gòu)擴(kuò)展性強(qiáng),識別率較高。文獻(xiàn)[5]在交通標(biāo)志識別階段,訓(xùn)練多任務(wù)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和分類,網(wǎng)絡(luò)識別準(zhǔn)確率高,但實(shí)時性較差。
與傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)[9]識別方式不同,本文充分利用已識別交通標(biāo)志圖像,構(gòu)建已識別目標(biāo)集(Already Recognized Objects Set ,AROS),提出一種基于TSM模型的交通標(biāo)志識別算法。算法包括三部分。①基于統(tǒng)計(jì)學(xué)原理的圖像映射壓縮算法用于提取待識別區(qū)域,提高檢測速度。②基于時空關(guān)系模型的交通標(biāo)志識別算法用于提高識別速度,解決識別序列圖像問題上單幀耗時長的問題。③改進(jìn)多尺度卷積神經(jīng)網(wǎng)絡(luò),使分類更加精準(zhǔn)。
1 交通標(biāo)志識別流程框架
本文通過圖像映射壓縮算法得到二值壓縮圖像,并利用幾何形態(tài)學(xué)方法快速提取待識別區(qū)域,提取13200樣本數(shù)據(jù)的卷積特征,訓(xùn)練SoftMax分類器。并依據(jù)分類器識別結(jié)果構(gòu)建已識別目標(biāo)集,將多尺度卷積神經(jīng)網(wǎng)絡(luò)模型和基于時序關(guān)系構(gòu)建的TSM模型有效結(jié)合,完成交通標(biāo)志識別工作。處理流程如圖1所示。
2 交通標(biāo)志檢測
交通標(biāo)志牌底色多以紅、藍(lán)和綠色用于警告、指示和指路信息。顏色和形狀是交通標(biāo)志最顯著的特征,我們使用這兩種特征區(qū)分背景、快速定位交通標(biāo)志,得到待識別交通標(biāo)志區(qū)域。
2.1 圖像映射壓縮算法
為了減少計(jì)算時間、提高檢測交通標(biāo)志的效率,首先將圖像中滿足閾值范圍的像素點(diǎn)重繪在對應(yīng)二值圖像中,使用基于統(tǒng)計(jì)學(xué)原理的圖像映射壓縮算法將二值圖像按比例壓縮,減少目標(biāo)篩選階段數(shù)據(jù)量。算法流程如下:
⑴ 將原始RGB圖像轉(zhuǎn)化為同尺寸的HSV圖像。
⑵ 遍歷圖像所有像素點(diǎn)。將H、S、V三分量滿足顏色閾值范圍的像素點(diǎn)在二值圖像B中設(shè)置為255,反之置為0。
⑶ 映射壓縮。如下圖所示,將二值圖像B劃分為M×N個子塊,每個子塊大小為m×m。設(shè)輸出二值圖像為S,其尺寸為M×N,將圖像B中每一個子塊映射壓縮成S中對應(yīng)的一個像素點(diǎn)。
圖像映射壓縮過程如圖2所示,統(tǒng)計(jì)二值圖像B中每個子塊白色像素點(diǎn)占子塊總像素點(diǎn)的比率。當(dāng)比率大于閾值時在輸出圖像對應(yīng)像素點(diǎn)置為255,反之置0。
分割并壓縮圖像之后得到包含目標(biāo)候選區(qū)域的壓縮二值圖像。如圖3所示,左側(cè)為原始圖像(768×320),右側(cè)上方和下方分別是根據(jù)紅色和藍(lán)色分割后的映射壓縮二值圖像(96×40)。
2.2 交通標(biāo)志候選區(qū)域提取
通常交通標(biāo)志區(qū)域具有特定的幾何形態(tài),因此可以依據(jù)幾何形態(tài)特征去噪。將圖像中區(qū)域尺寸過小或者過大、形狀異常的區(qū)域過濾。按照公式⑴提取目標(biāo)區(qū)域。
其中Si表示第i個連通區(qū)域的最小外接矩形的面積,Ri為該外接矩形的長寬比率。Smin和Smax為圖像中交通標(biāo)志最小外接矩形的面積最小值和最大值,Rmin和Rmax為交通標(biāo)志最小外接矩形的長寬比率的最小值和最大值。當(dāng)這兩個變量同時滿足條件時,即為提取的交通標(biāo)志候選區(qū)域,否則過濾掉。
3 基于時序空間關(guān)系模型的交通標(biāo)志識別
通過統(tǒng)計(jì)交通標(biāo)志視頻序列圖像,可以發(fā)現(xiàn)相鄰幀中的交通標(biāo)志具有位置、形態(tài)與尺寸變化較小,相似度高,關(guān)聯(lián)性強(qiáng)[10]的特點(diǎn)。基于單幀的目標(biāo)識別,可以保持每幀中目標(biāo)區(qū)域高識別率,但如果連續(xù)識別序列圖像中的目標(biāo),識別效率較低。本文將時空關(guān)系模型和分類網(wǎng)絡(luò)有效結(jié)合,在保持高識別率前提下,減少識別時間。
3.1 模型描述
模型要依據(jù)視頻圖像時序空間變化的連續(xù)性和關(guān)聯(lián)性特點(diǎn),比較相鄰幀中待識別區(qū)域的信息,優(yōu)化識別方法?;谙噜弾煌?biāo)志時序空間變化原理,構(gòu)建TSM識別模型。依據(jù)F0…Fn-1幀中交通標(biāo)志的識別結(jié)果,構(gòu)建AROS,包括交通標(biāo)志類型、位置、是否被處理的標(biāo)記信息、已識別次數(shù),以及近幾幀該目標(biāo)未出現(xiàn)的次數(shù)等參數(shù)。
TSM識別模型按照圖4結(jié)構(gòu)設(shè)計(jì),目標(biāo)識別可以使用TSM預(yù)測或分類器預(yù)測。分析模型的結(jié)構(gòu)可知,AROS的創(chuàng)建以及更新是構(gòu)建該模型的關(guān)鍵。當(dāng)?shù)贔n幀中的目標(biāo)滿足下列關(guān)系,將當(dāng)前幀中的目標(biāo)加入AROS中:
⑴ AROS為空時。
⑵ AROS非空。讀取第Fn幀中第i個目標(biāo)的信息和AROS中第j個目標(biāo)信息按照公式⑵匹配操作。參數(shù)滿足di,j<10,同時目標(biāo)長寬比率范圍在0.8-1.2時,可以判斷為同一類型的目標(biāo),并用當(dāng)前目標(biāo)信息更新AROS。
基于單幀識別的卷積分類網(wǎng)絡(luò),依次識別相似連續(xù)幀中目標(biāo),耗時較長。上述構(gòu)建的基于時序空間關(guān)系的識別模型,能夠在保持高識別率的基礎(chǔ)上,有效加快序列幀相似目標(biāo)的識別速率。
3.2 改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)
模型的識別準(zhǔn)確率歸根結(jié)底依賴于神經(jīng)網(wǎng)絡(luò)分類器,因此采用一個高精度的分類器尤為重要?!胺诸惼鲗W(xué)習(xí)到更多的卷積特征,那么它的分類精度就越高”,受Yann LeCun[11]文獻(xiàn)啟發(fā),網(wǎng)絡(luò)結(jié)構(gòu)采用多尺度卷積神經(jīng)網(wǎng)絡(luò),每個卷積層不僅傳遞給下一層,而且傳遞給分支層,經(jīng)過相應(yīng)比例的下采樣后都可以作為輸入直接傳給分類器。這樣的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì),使得分類器充分學(xué)習(xí)每層網(wǎng)絡(luò)的特征圖像,提高目標(biāo)分類識別效果。
本文構(gòu)建的卷積神經(jīng)網(wǎng)絡(luò)采用四層卷積層和池化層用于特征提取,一層全連接層用于分類。與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)不同,多尺度卷積神經(jīng)網(wǎng)絡(luò)可以同時保留L1和L2卷積層提取的局部特征和L3、L4層的高級特征,能夠兼顧學(xué)習(xí)到樣本特征的全局性和局部性。多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
隨著訓(xùn)練過程的進(jìn)行,模型復(fù)雜度增加,會出現(xiàn)過擬合現(xiàn)象,本文采用Dropout、L2正則化、Early stopping三種方式解決過擬合。將Dropout作用在全部網(wǎng)絡(luò)層,以一定概率將選中的神經(jīng)元舍棄,使其不起作用。L2正則化在損失函數(shù)上加上一個正則化項(xiàng),起到對模型向量 “懲罰”的作用,避免單純最小二乘問題的過擬合問題。Early stopping在每一個迭代結(jié)束時,計(jì)算驗(yàn)證集的準(zhǔn)確率,當(dāng)準(zhǔn)確率隨著訓(xùn)練不再提高時,就停止訓(xùn)練,防止過擬合,提高訓(xùn)練速度和調(diào)參效率。
3.3 模型應(yīng)用
將本文的模型應(yīng)用在視頻圖像中,運(yùn)行大量視頻,統(tǒng)計(jì)結(jié)果。圖6(a)為使用卷積神經(jīng)網(wǎng)絡(luò)識別連續(xù)幀圖像選取9幀作為樣例,識別率較高,耗時長;圖6(b)是使用TSM模型識別該連續(xù)幀圖像,在該序列圖像中,識別率不變,時間明顯縮短。
(a) 卷積神經(jīng)網(wǎng)絡(luò)識別序列圖像
(b) TSM識別序列圖像
從序列圖像的識別結(jié)果來看,基于單幀識別的卷積神經(jīng)網(wǎng)絡(luò)識別率高,但TSM識別算法結(jié)合多幀信息,不僅識別率高,還加快識別速度。
4 實(shí)驗(yàn)結(jié)果與分析
為驗(yàn)證本文識別算法的準(zhǔn)確率和效率,采用行車記錄儀錄制的青島市多條城市道路、多種天氣情況和多個時間段的的視頻文件作為測試數(shù)據(jù),視頻幀率29fps,分辨率1920×1080。測試環(huán)Intel@Xeon(R) CPU E5-2683 v3 @2.00GHz×28。使用卷積神經(jīng)網(wǎng)絡(luò)和TSM識別算法分別測試同一視頻文件,結(jié)果數(shù)據(jù)如表1、表2所示。
通過對比表1和表2的數(shù)據(jù)可以得出結(jié)論,使用本文提出的TSM識別算法,識別率降低約2%,識別速率可以提高近400%。本文算法在保證高識別率的前提下,有效解決序列圖像基于單幀識別效率低的問題。
5 結(jié)束語
本文根據(jù)交通標(biāo)志在序列圖像中的時序空間關(guān)系,提出了基于TSM的交通標(biāo)志識別算法,該算法通過將TSM模型和改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)有效結(jié)合,解決了單幀圖像識別效率低的問題,保證高識別率的基礎(chǔ)上,大大提高了序列圖像交通標(biāo)志識別速率。下一步工作,繼續(xù)完善檢測算法,以及優(yōu)化識別階段的網(wǎng)絡(luò)模型,實(shí)現(xiàn)更快速的圖像識別。
參考文獻(xiàn)(References):
[1] 劉佳敏,何寧,杜金航.智能輔助駕駛系統(tǒng)中的禁令交通標(biāo)志識別方法研究[D].西南交通大學(xué),2013.
[2] 溫斯傲,李志民,郝博聞.交通標(biāo)志檢測研究綜述[J].智能計(jì)算機(jī)與應(yīng)用,2016.6(3): 58-61
[3] 姚漢利,趙金金,鮑文霞.基于特征融合和字典學(xué)習(xí)的交通標(biāo)志識別[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018.28(1):51-55
[4] S. Jung U L, J. Jung and D. H. Shim. Real-time TrafficSign Recognition system with deep convolutional neural network[C].2016 13th International Conference on Ubiquitous Robots and Ambient Intelligence (URAI), Xi'an,2016:31-34
[5] H. Luo Y Y, B. Tong, F. Wu and B. Fan. Traffic SignRecognition Using a Multi-Task Convolutional Neural Network[J].International IEEE Conference on Intelligent Transportation Systems,2018.19:1100-1111
[6] Bahlmann C, Zhu Y, Ramesh V, et al. A system for trafficsign detection, tracking, and recognition using color, shape, and motion information[J].2005 IEEE Intelligent Vehicles Symposium Proceedings,2005:255-260
[7] Soheilian B, Paparoditis N, Vallet B. Detection and 3Dreconstruction of traffic signs from multiple view color images[J].Isprs Journal of Photogrammetry and Remote Sensing,2013.77:1-20
[8] Nguwi Y Y, Kouzani A Z. Automatic road sign recognitionusing neural networks[J]. 2006 Ieee International Joint Conference on Neural Network Proceedings,2006.1-10.
[9] Lecun Y, Bengio Y. Convolutional networks for images,?speech, and time series[M].1998.
[10] 王元奎,秦勃,李偉.基于時空關(guān)系模型的城市道路車輛實(shí)時檢測[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017.10:207-212
[11] Sermanet P, Lecun Y. Traffic Sign Recognition withMulti-Scale Convolutional Networks[J].2011 International Joint Conference on Neural Networks (Ijcnn),2011:2809-2813