鐘玲 于雅潔 張志佳 靳永超
摘 要:交通標(biāo)志識(shí)別作為典型的機(jī)器視覺(jué)應(yīng)用,已有多種機(jī)器視覺(jué)算法得到廣泛的應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)能夠避免顯式的人工特征提取過(guò)程,因此本文引入卷積神經(jīng)網(wǎng)絡(luò)為交通標(biāo)志進(jìn)行識(shí)別研究,并與BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)進(jìn)行對(duì)比實(shí)驗(yàn),通過(guò)對(duì)實(shí)驗(yàn)結(jié)果的理解與分析,可以得出卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別率及訓(xùn)練速度上均顯著高于另兩種算法,并能取得最佳的識(shí)別效果。
關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);支持向量機(jī);卷積神經(jīng)網(wǎng)絡(luò);交通標(biāo)志
中圖分類(lèi)號(hào):TP393.0 文獻(xiàn)標(biāo)識(shí)碼:A
1 引言(Introduction)
交通標(biāo)志識(shí)別是圖像處理和模式識(shí)別領(lǐng)域的一個(gè)研究熱點(diǎn),廣泛應(yīng)用于無(wú)人駕駛汽車(chē)、車(chē)載導(dǎo)航等領(lǐng)域,具有很強(qiáng)的實(shí)際應(yīng)用價(jià)值[1]。雖然交通標(biāo)志的圖形結(jié)構(gòu)較為簡(jiǎn)單,但對(duì)自然環(huán)境下的交通標(biāo)志進(jìn)行識(shí)別,面臨著遮擋、噪聲、光照多變性、形狀失真等多方面的嚴(yán)峻挑戰(zhàn),因此交通標(biāo)志識(shí)別是模式識(shí)別領(lǐng)域的重點(diǎn)研究?jī)?nèi)容之一[2]。
本文采用三種常見(jiàn)的機(jī)器學(xué)習(xí)方法對(duì)交通標(biāo)志進(jìn)行識(shí)別,分別是卷積神經(jīng)網(wǎng)絡(luò)(CNN)、BP神經(jīng)網(wǎng)絡(luò)和支持向量機(jī)(SVM)。通過(guò)在同一個(gè)交通標(biāo)志樣本集上進(jìn)行實(shí)驗(yàn),根據(jù)識(shí)別率及運(yùn)行時(shí)間對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。
2 三種機(jī)器學(xué)習(xí)方法簡(jiǎn)述(Three kinds of machine
learning methods)
2.1 卷積神經(jīng)網(wǎng)絡(luò)(CNN)
卷積神經(jīng)網(wǎng)絡(luò)是近年發(fā)展起來(lái),并引起廣泛重視的高效識(shí)別方法,由于其能夠直接輸入原始圖像,避免了對(duì)圖像的復(fù)雜前期處理,成為眾多科學(xué)領(lǐng)域的研究熱點(diǎn)[3]。
卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)一般包括兩層:卷積層和子采樣層。每一個(gè)卷積層后有一個(gè)用來(lái)求局部平均與二次提取的子采樣層,這種特有的兩次特征提取結(jié)構(gòu)減小了特征分辨率,減少計(jì)算時(shí)間。此外,由于一個(gè)映射面上的神經(jīng)元共享權(quán)值,因而減少了網(wǎng)絡(luò)自由參數(shù)的個(gè)數(shù)[4]。局域感受野、權(quán)值共享和子采樣,是卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)位移、縮放、扭曲不變性的三種方法。
2.2 BP神經(jīng)網(wǎng)絡(luò)
BP神經(jīng)網(wǎng)絡(luò)是一種按誤差逆?zhèn)鞑W(xué)習(xí)算法訓(xùn)練的多層前饋網(wǎng)絡(luò),能學(xué)習(xí)和存貯大量的輸入—輸出模式映射關(guān)系,是目前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。
BP神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程由信號(hào)的正向傳播與誤差的反向傳播兩個(gè)過(guò)程組成。正向傳播的方向?yàn)檩斎雽印[層→輸出層,每層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元,在輸出層獲得響應(yīng),若實(shí)際輸出與期望輸出不符,則進(jìn)入誤差反向傳播階段。誤差反向傳播階段是從輸出層經(jīng)過(guò)隱層向輸入層反傳,并逐層修正權(quán)值,不斷提高正確率[5,6]。兩個(gè)過(guò)程的交替進(jìn)行,是網(wǎng)絡(luò)誤差函數(shù)達(dá)到最小值,從而完成信息提取和記憶過(guò)程。
2.3 支持向量機(jī)(SVM)
支持向量機(jī)是通過(guò)最大化分類(lèi)間隔或邊緣提高分類(lèi)性能,主要針對(duì)小樣本情況,通過(guò)訓(xùn)練一組稱(chēng)為支持向量的特征子集,使得對(duì)支持向量機(jī)的線性劃分等同于對(duì)整個(gè)數(shù)據(jù)集的分割,既降低了運(yùn)算復(fù)雜度,又保證了分類(lèi)識(shí)別的精度[7]。SVM使用核函數(shù)進(jìn)行預(yù)測(cè),可以避免BP算法中的局部極值和過(guò)學(xué)習(xí)問(wèn)題,同時(shí)具有很強(qiáng)的學(xué)習(xí)能力和泛化性能,利用優(yōu)化方法得到的結(jié)果是全局最優(yōu)解,能有效加快訓(xùn)練過(guò)程。
3 仿真實(shí)驗(yàn)及分析(Simulation experiments and
analysis)
本文的實(shí)驗(yàn)數(shù)據(jù)來(lái)源于GTSRB數(shù)據(jù)庫(kù),如圖1所示,是德國(guó)交通標(biāo)志識(shí)別基準(zhǔn),專(zhuān)門(mén)用于交通標(biāo)志識(shí)別研究的數(shù)據(jù)庫(kù)。從該數(shù)據(jù)庫(kù)中隨機(jī)選取500個(gè)(共10類(lèi))圖像為訓(xùn)練樣本,再隨機(jī)取100個(gè)(每類(lèi)10個(gè))圖像作為測(cè)試數(shù)據(jù),其中所有樣本大小均為28*28。
圖1 部分樣本圖片
Fig.1 Partial sample image
3.1 卷積神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志
由于卷積神經(jīng)網(wǎng)絡(luò)可直接處理原圖像,并不需要對(duì)原始圖像做過(guò)多的預(yù)處理,所以本實(shí)驗(yàn)直接將28*28大小的圖片輸入到卷積神經(jīng)網(wǎng)絡(luò)中。同時(shí),根據(jù)卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特征,確定卷積核大小、網(wǎng)絡(luò)層數(shù)、批量訓(xùn)練樣本數(shù)、神經(jīng)網(wǎng)絡(luò)迭代次數(shù)、卷積層的特征圖數(shù)為本實(shí)驗(yàn)中的重點(diǎn)。
(1)卷積核大小及網(wǎng)絡(luò)的確認(rèn)
卷積核是進(jìn)行卷積運(yùn)算時(shí)的權(quán)值矩陣,行列均為奇數(shù),且為對(duì)稱(chēng)的,如3×3、5×5、7×7。卷積核的作用是提取輸入圖像的特征,因此提取出的特征與卷積核的大小息息相關(guān)。若使用3×3的卷積核,網(wǎng)絡(luò)的層數(shù)相對(duì)增加,系統(tǒng)工作時(shí)間增加;若使用5×5的卷積核,網(wǎng)絡(luò)層數(shù)可為4層;若使用7×7的卷積核,雖然網(wǎng)絡(luò)結(jié)構(gòu)變小,但是提取的特征不具有代表性。因此,本實(shí)驗(yàn)采取5×5的卷積核大小。
(2)批量訓(xùn)練樣本數(shù)、迭代次數(shù)及特征圖數(shù)的確定
由于本實(shí)驗(yàn)的訓(xùn)練樣本較多,因此將全部訓(xùn)練樣本分成若干組,每組單獨(dú)訓(xùn)練,批量訓(xùn)練樣本的個(gè)數(shù)以5的倍數(shù)遞增,根據(jù)實(shí)驗(yàn),批量訓(xùn)練樣本數(shù)越少,正確率越高,所以本實(shí)驗(yàn)的批量訓(xùn)練樣本數(shù)為5。在此基礎(chǔ)上,對(duì)迭代次數(shù)進(jìn)行測(cè)試,可知迭代次數(shù)越多,識(shí)別率越高,且時(shí)間花費(fèi)較長(zhǎng),綜合時(shí)間與識(shí)別率,本實(shí)驗(yàn)設(shè)置迭代次數(shù)為20。通過(guò)設(shè)第一個(gè)及第二個(gè)卷積層的特征圖數(shù)的取值范圍均為[7-10],依次組合,根據(jù)實(shí)驗(yàn)的最高識(shí)別率得出最優(yōu)組合。實(shí)驗(yàn)結(jié)果如圖2所示。
根據(jù)圖2可知,當(dāng)?shù)谝粋€(gè)卷積層的特征圖數(shù)取4,第二個(gè)卷積層的特征圖數(shù)取8時(shí),該卷積神經(jīng)網(wǎng)絡(luò)的識(shí)別率能達(dá)到最高為93%,且運(yùn)行時(shí)間為5min。
圖2 卷積神經(jīng)網(wǎng)絡(luò)識(shí)別結(jié)果
Fig.2 Recognition results of CNN
3.2 BP神經(jīng)網(wǎng)絡(luò)識(shí)別交通標(biāo)志
(1)圖像預(yù)處理
預(yù)處理的目的是提高圖像對(duì)比度,增強(qiáng)有用信息。本實(shí)驗(yàn)的預(yù)處理操作是灰度轉(zhuǎn)換(自適應(yīng)閾值法)及二值化。
(2)特征提取
特征提取是通過(guò)降維獲得最能反映樣本本質(zhì)的低維特征。本實(shí)驗(yàn)采用粗網(wǎng)格特征提取。首先采用最臨近插值法將樣本縮放至70×50,再將樣本劃分成10×10大小的網(wǎng)格,統(tǒng)計(jì)每個(gè)網(wǎng)格中像素值,形成35維的特征向量。
(3)BP神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)
BP算法可應(yīng)用于四層或更多的前饋網(wǎng)絡(luò),卻更易陷入局部極小點(diǎn)而不收斂,因此選用三層BP網(wǎng)絡(luò),同時(shí)選用有動(dòng)量因子介入的訓(xùn)練方法,避免陷入局部極小值。
對(duì)于激勵(lì)函數(shù)的選擇,通常采用對(duì)數(shù)S函數(shù)、雙曲正切S函數(shù)及線性函數(shù)。MATLAB中提供三種傳遞函數(shù)與上述激勵(lì)函數(shù)相對(duì)應(yīng):logsog函數(shù)、tansig函數(shù)和線性purelin函數(shù)。鑒于本文實(shí)驗(yàn)輸出,選用tansig函數(shù)。
迄今為止,對(duì)隱含層節(jié)點(diǎn)數(shù)目的選擇仍無(wú)法用完備的理論解決,但是要在滿足精度要求下盡可能緊湊神經(jīng)網(wǎng)絡(luò)的結(jié),即盡可能減少隱層節(jié)點(diǎn)數(shù)。一般情況下,隱層結(jié)點(diǎn)個(gè)數(shù)根據(jù)具體訓(xùn)練結(jié)果確定。
對(duì)于訓(xùn)練函數(shù)的選擇,本文采用traingdx函數(shù),是在動(dòng)量法的基礎(chǔ)上集合自適應(yīng)學(xué)習(xí)速率法,自動(dòng)調(diào)節(jié)學(xué)習(xí)率,能夠有效縮短訓(xùn)練時(shí)間。
設(shè)置本實(shí)驗(yàn)的最大迭代次數(shù)1000,期望目標(biāo)1e-5,動(dòng)量因子0.95。實(shí)驗(yàn)結(jié)果詳見(jiàn)表1。
表1 BP神經(jīng)網(wǎng)絡(luò)實(shí)驗(yàn)結(jié)果
Tab.1 Recognition results of BP neural network
BP神經(jīng)網(wǎng)絡(luò) 識(shí)別率 識(shí)別時(shí)間
神經(jīng)網(wǎng)絡(luò)1 73% 20min
神經(jīng)網(wǎng)絡(luò)2 74% 23min
神經(jīng)網(wǎng)絡(luò)3 75% 24min20s
神經(jīng)網(wǎng)絡(luò)4 76% 22min
神經(jīng)網(wǎng)絡(luò)5 77% 27min
神經(jīng)網(wǎng)絡(luò)6 79% 22min50s
上述實(shí)驗(yàn)結(jié)果表明,本實(shí)驗(yàn)所建立的BP神經(jīng)網(wǎng)絡(luò)在該測(cè)試集上的最高識(shí)別率為79%,且識(shí)別時(shí)間為22min50s。
3.3 支持向量機(jī)識(shí)別交通標(biāo)志
為解決交通標(biāo)志的多分類(lèi)問(wèn)題,本文將多個(gè)兩類(lèi)SVM分類(lèi)器組合在一起實(shí)現(xiàn)多類(lèi)分類(lèi),即1-a-1的多類(lèi)分類(lèi)方法來(lái)解決手寫(xiě)體數(shù)字的分類(lèi)識(shí)別問(wèn)題。
由于SVM是一種基于核的機(jī)器學(xué)習(xí)方法,核函數(shù)和核參數(shù)對(duì)SVM的性能影響較大,本文采用高斯核函數(shù)(RBF核函數(shù),也稱(chēng)徑向基函數(shù))的SVM分類(lèi)器,具有較強(qiáng)的學(xué)習(xí)能力。
目前常用的核參數(shù)選擇方法是網(wǎng)格搜索法,利用二維網(wǎng)格每個(gè)節(jié)點(diǎn)作為一組候選核參數(shù),然后利用交叉驗(yàn)證方法獲取各組核參數(shù)的驗(yàn)證精度,選擇驗(yàn)證精度最高的核參數(shù)作為最優(yōu)核參數(shù)[8]。啟發(fā)式算法能夠更快的尋找到全局最優(yōu)解,而不用遍歷所有參數(shù)點(diǎn),即遺傳算法參數(shù)尋優(yōu)和粒子群優(yōu)化算法參數(shù)尋優(yōu)。遺傳算法參數(shù)尋優(yōu)是將訓(xùn)練集進(jìn)行交叉驗(yàn)證下的準(zhǔn)確率作為遺傳算法中的適應(yīng)度函數(shù)值;粒子群優(yōu)化算法參數(shù)尋優(yōu)是計(jì)算智能領(lǐng)域蟻群算法外的另外一種基于群體智能的優(yōu)化算法,不用進(jìn)行選擇、交叉、變異的操作。
本實(shí)驗(yàn)的訓(xùn)練集是依次將每個(gè)樣本圖片像素存至一行,形成500×784的TrainData,同理形成TestData,在TrainData上進(jìn)行訓(xùn)練并調(diào)整SVM參數(shù)直至最優(yōu),再對(duì)TestData進(jìn)行分類(lèi)識(shí)別,獲得最佳識(shí)別率。在同一訓(xùn)練集上分別進(jìn)行網(wǎng)格搜索法、遺傳算法、粒子群優(yōu)化等參數(shù)尋優(yōu)的對(duì)比驗(yàn)證,結(jié)果如表2所示。
表2 SVM實(shí)驗(yàn)結(jié)果
Tab.2 Recognition results of SVM
項(xiàng)目名 懲罰參數(shù)c 核函數(shù)參數(shù)g 識(shí)別率 識(shí)別時(shí)間
網(wǎng)格搜索參數(shù)尋優(yōu) 1.3195 0.0089742 86% 2h33min
遺傳算法參數(shù)尋優(yōu) 3.0086 4.6971 86% 1h40min
粒子群優(yōu)化算法參數(shù)尋優(yōu) 1.5 1.7 92% 1h25min
實(shí)驗(yàn)結(jié)果表明,網(wǎng)格搜索法優(yōu)化過(guò)程非常慢,達(dá)不到實(shí)時(shí)處理要求。采用粒子群優(yōu)化算法參數(shù)尋優(yōu),在訓(xùn)練時(shí)間相似的情況下,識(shí)別率能到達(dá)最高水平。
表3 三種方法的結(jié)果對(duì)比分析
Tab.3 Comparative analysis of the results
of the three methods
項(xiàng)目名 識(shí)別率 識(shí)別時(shí)間
卷積神經(jīng)網(wǎng)絡(luò) 93% 5min
BP神經(jīng)網(wǎng)絡(luò) 79% 22min50s
粒子群優(yōu)化的SVM方法 92% 1h25min
從上述表格可以看出,SVM的訓(xùn)練時(shí)間總體均長(zhǎng)于BP神經(jīng)網(wǎng)絡(luò)算法和CNN算法,識(shí)別率最高為卷積神經(jīng)網(wǎng)絡(luò),所以,在500張訓(xùn)練樣本、100張測(cè)試樣本的數(shù)據(jù)上,卷積神經(jīng)網(wǎng)絡(luò)在識(shí)別率及識(shí)別時(shí)間上均能達(dá)到實(shí)驗(yàn)最優(yōu)效果。
4 結(jié)論(Conclusion)
本文首先簡(jiǎn)要介紹了交通標(biāo)志識(shí)別的發(fā)展,并采用卷積神經(jīng)網(wǎng)絡(luò)、BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)在GTSRB數(shù)據(jù)庫(kù)上進(jìn)行對(duì)比試驗(yàn),并對(duì)結(jié)果進(jìn)行分析。在相同樣本的情況下,基于粒子群尋優(yōu)的SVM方法雖然識(shí)別率比較高,但是一般針對(duì)小樣本二分類(lèi)問(wèn)題,多分類(lèi)時(shí)運(yùn)行時(shí)間較長(zhǎng);BP神經(jīng)網(wǎng)絡(luò)雖然運(yùn)行時(shí)間較SVM短,但是識(shí)別率較低;卷積神經(jīng)網(wǎng)絡(luò)識(shí)別時(shí)間比BP神經(jīng)網(wǎng)絡(luò)和SVM均短,識(shí)別率均高于BP神經(jīng)網(wǎng)絡(luò)和SVM。綜上所述,卷積神經(jīng)網(wǎng)絡(luò)具有訓(xùn)練時(shí)間短、識(shí)別率高的優(yōu)勢(shì),因此本論文對(duì)今后卷積神經(jīng)網(wǎng)絡(luò)的研究具有很大的意義與價(jià)值。
參考文獻(xiàn)(References)
[1] 房澤平,等.基于特征顏色和SNCC的交通標(biāo)志識(shí)別與跟蹤[J].
交通運(yùn)輸系統(tǒng)工程與信息,2014,14(1):47-52.
[2] 王洋.一種基于模板匹配的交通標(biāo)志識(shí)別方法[D].吉林大學(xué),
2013.
[3] V.Rehrmann,R.Lakmann,L.Priese.A Parallel System for Real-
time Traffic Sign Recognition[C].Peking,China,Proceedings
International Workshop on Advanced Parallel Processing
Technologies95,1995:72-78.
[4] 彭岳軍.道路交通標(biāo)志檢測(cè)與識(shí)別技術(shù)研究[D].華南理工大
學(xué),2013.
[5] 張潘潘.道路交通標(biāo)志檢測(cè)與識(shí)別算法的研究[D].山東大學(xué),
2012.
[6] 郝夢(mèng)琳.交通標(biāo)志識(shí)別方法的研究與實(shí)現(xiàn)[D].太原科技大學(xué),
2013.
[7] 王躍明,等.三維人臉識(shí)別綜述[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)
學(xué)報(bào),2008,20(7):819-829.
[8] Sheila Esmeralda Gonzalez-Reyna,Juan Gabriel Avina-Cervantes.
Eigen-Gradients for Traffic Sign Recognition[J].Mathematical
Problems in Engineering,2013.
[9] García-Garrido Miguel A,Ocaa Manuel,Complete vision-
based traffic sign recognition supported by an I2V communication
system[J].Sensors,2012,12(2):48-69.
[10] 陸璐,等.基于卷積神經(jīng)網(wǎng)絡(luò)的車(chē)牌照字符識(shí)別研究[C].第
十二屆全國(guó)圖像圖形學(xué)學(xué)術(shù)會(huì)議,2005.
作者簡(jiǎn)介:
鐘 玲(1970-),女,研究生,副教授.研究領(lǐng)域:嵌入式技術(shù),
圖像處理,計(jì)算機(jī)可視化.
于雅潔(1991-),女,碩士生.研究領(lǐng)域:圖像處理與可視化.
張志佳(1974-),男,博士,副教授.研究領(lǐng)域:機(jī)器視覺(jué)檢測(cè)
技術(shù),圖像處理與模式識(shí)別.
靳永超(1993-),男,本科生.研究領(lǐng)域:圖像處理.