伍錫如,雪剛剛
(1. 桂林電子科技大學(xué) 電子工程與自動(dòng)化學(xué)院,廣西 桂林 541004; 2. 桂林電子科技大學(xué) 廣西自動(dòng)檢測(cè)重點(diǎn)實(shí)驗(yàn)室,廣西 桂林 541004)
交通標(biāo)志識(shí)別[1]是智能汽車的關(guān)鍵技術(shù)之一,受到國(guó)內(nèi)外學(xué)者和汽車廠商的廣泛關(guān)注。許多分類器已經(jīng)開(kāi)始應(yīng)用于交通標(biāo)志的識(shí)別,如支持向量機(jī)、貝葉斯分類器和隨機(jī)森林分類器等。這些分類器通常先利用特征描述方法,如加速魯棒特征(speeded up robust features, SURF)、尺度不變特征變換(scale-invariant feature transform,SIFT)、方向梯度直方圖(histogram of oriented gradient, HOG)以及局部二值模式(local binary patterns, LBP)等對(duì)訓(xùn)練樣本進(jìn)行局部特征提取,然后對(duì)這些特征進(jìn)行訓(xùn)練,實(shí)現(xiàn)對(duì)交通標(biāo)志的識(shí)別。例如,Berkaya等[2]提取并整合交通標(biāo)志圖像的LBP、Gabor和HOG等3類特征,利用SVM完成最后的識(shí)別。Hoferlin等[3]通過(guò)提取SIFT、SURF等特征,結(jié)合人工神經(jīng)網(wǎng)絡(luò)得到交通標(biāo)志的識(shí)別結(jié)果。張卡等[4]基于中心投影特征,利用概率神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)交通標(biāo)志的識(shí)別。Lu等[5]采用基于稀疏表示的圖嵌入方法也獲得了較好的識(shí)別效果。宋文杰等[6]采用Hu不變矩和凸殼算法,利用水平和垂直方向直方圖特征對(duì)待識(shí)別區(qū)域進(jìn)行放縮匹配,實(shí)現(xiàn)對(duì)交通標(biāo)志的識(shí)別。上述特征描述方法通常由人工設(shè)計(jì),主要依靠先驗(yàn)知識(shí),人工設(shè)計(jì)的好壞往往會(huì)對(duì)實(shí)際性能產(chǎn)生很大影響,識(shí)別精度和識(shí)別效率會(huì)有較大起伏,在實(shí)際應(yīng)用中存在著很大的挑戰(zhàn)。
2006年加拿大多倫多大學(xué)科學(xué)家Hinton提出了深度學(xué)習(xí)[7-8]的概念,它是一種可以通過(guò)多層表示來(lái)對(duì)數(shù)據(jù)之間的復(fù)雜關(guān)系進(jìn)行建模的算法,通過(guò)構(gòu)建具有多個(gè)中間層的神經(jīng)網(wǎng)絡(luò)模型,將特征和分類器結(jié)合到一個(gè)框架中,通過(guò)組合低層特征形成更為抽象的高層特征,提升分類或識(shí)別的準(zhǔn)確性。LECUN等[9]已證明深度學(xué)習(xí)模型相比傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)、SVM等淺層網(wǎng)絡(luò)具有更強(qiáng)的特征表達(dá)和泛化能力,在圖像識(shí)別、音頻信號(hào)處理、復(fù)雜控制系統(tǒng)建模等領(lǐng)域表現(xiàn)出優(yōu)越的性能[10-12]?;谏疃葘W(xué)習(xí)的特征提取方法在交通標(biāo)志識(shí)別中也取得了很好的效果,例如,文獻(xiàn)[13]利用深度神經(jīng)網(wǎng)絡(luò)對(duì)交通標(biāo)志進(jìn)行識(shí)別,取得了較高的識(shí)別率;文獻(xiàn)[14]基于圖模型與卷積神經(jīng)網(wǎng)絡(luò)提出了一種針對(duì)限速標(biāo)志的交通標(biāo)志識(shí)別方法,也取得了較好的效果。采用深度學(xué)習(xí)的方法首先需要構(gòu)造出一個(gè)多層的神經(jīng)網(wǎng)絡(luò),再通過(guò)大量的樣本對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到最終的網(wǎng)絡(luò)模型。樣本集的質(zhì)量和數(shù)量往往會(huì)對(duì)最終的識(shí)別模型造成較大的影響,Chawla等[15]已證明樣本質(zhì)量對(duì)于分類的重要性,訓(xùn)練樣本過(guò)多,會(huì)導(dǎo)致訓(xùn)練時(shí)間增加,而低質(zhì)量樣本會(huì)使訓(xùn)練模型不能充分學(xué)習(xí)樣本特征,無(wú)法獲得有效的識(shí)別模型。
為減少低質(zhì)量樣本對(duì)訓(xùn)練的影響,同時(shí)避免傳統(tǒng)特征描述方法在圖像識(shí)別領(lǐng)域存在的識(shí)別精度低和識(shí)別效率差等問(wèn)題,本文提出了一種基于圖像聚類的交通快速CNN快速識(shí)別算法,利用圖像聚類和圖像預(yù)處理算法對(duì)原始樣本進(jìn)行優(yōu)化,在此基礎(chǔ)上利用深度學(xué)習(xí)模擬人腦認(rèn)知的多層結(jié)構(gòu),通過(guò)網(wǎng)絡(luò)提取和學(xué)習(xí)交通標(biāo)志圖像特征,最終實(shí)現(xiàn)具有深層次的表達(dá)特征,實(shí)現(xiàn)對(duì)交通標(biāo)志的快速識(shí)別。
CNN等深度學(xué)習(xí)方法通過(guò)提取數(shù)據(jù)的低層特征,得到抽象的高層特征,從而實(shí)現(xiàn)更為有效的特征表達(dá),低層特征如待識(shí)別對(duì)象的紋理、邊緣信息等,高層特征如語(yǔ)義、結(jié)構(gòu)等信息。樣本質(zhì)量對(duì)于網(wǎng)絡(luò)的訓(xùn)練、特征的提取有著重要的作用,會(huì)直接影響最終模型的好壞。
為了優(yōu)化樣本質(zhì)量,提高識(shí)別效果,本文所提出的交通標(biāo)志識(shí)別算法(見(jiàn)圖1),主要從3個(gè)方面展開(kāi):1)采用圖像聚類算法,對(duì)原始數(shù)據(jù)進(jìn)行優(yōu)化,篩選掉原始樣本中的低質(zhì)量數(shù)據(jù),在保證樣本數(shù)量的前提下,提高樣本整體質(zhì)量;2)通過(guò)多種圖像預(yù)處理方法,如比例裁剪、尺寸歸一化、灰度化等,對(duì)聚類后的樣本進(jìn)行預(yù)處理,樣本集整體質(zhì)量得到進(jìn)一步提升;3)以LeNet-5網(wǎng)絡(luò)[16]為基礎(chǔ),通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)參數(shù),構(gòu)造出一個(gè)9層CNN結(jié)構(gòu),并在Caffe平臺(tái)下利用德國(guó)GTSRB數(shù)據(jù)集設(shè)計(jì)完成了相關(guān)實(shí)驗(yàn),在瑞典BTSD數(shù)據(jù)集上進(jìn)行遷移測(cè)試,證明了算法的有效性。
圖 1 交通標(biāo)志識(shí)別算法框架Fig. 1 Traffic sign recognition algorithm framework
聚類算法[17]是機(jī)器學(xué)習(xí)中常用的一種算法,一般采用無(wú)監(jiān)督學(xué)習(xí)的方式進(jìn)行,它可以根據(jù)樣本間的關(guān)系,優(yōu)化樣本質(zhì)量,降低訓(xùn)練樣本的規(guī)模,減少低質(zhì)量樣本數(shù)據(jù)對(duì)訓(xùn)練的影響,提高最終的模型效果。在以深度學(xué)習(xí)為主的各種圖片識(shí)別任務(wù)中,數(shù)據(jù)集的質(zhì)量和數(shù)量會(huì)對(duì)訓(xùn)練結(jié)果造成較大的影響,直接影響最終模型的好壞。為了提高CNN訓(xùn)練效果,文中采用了圖像聚類算法,通過(guò)聚類可以獲知數(shù)據(jù)集的分布特性及分布狀況,將數(shù)據(jù)中的相似數(shù)據(jù)和異常數(shù)據(jù)區(qū)分開(kāi)來(lái),從而了解數(shù)據(jù)集的內(nèi)在分布結(jié)構(gòu),簡(jiǎn)化并提高樣本集的整體質(zhì)量。
相較于劃分聚類、密度聚類以及網(wǎng)格聚類等常用的聚類方法,層次聚類算法計(jì)算簡(jiǎn)單快捷,對(duì)距離等度量標(biāo)準(zhǔn)的選擇敏感性較低,可靠性更高,且不需要事先確定類的數(shù)目,更易發(fā)現(xiàn)類間的層次關(guān)系。根據(jù)類間距離計(jì)算方式的不同,層次聚類算法可分為Complete-linkage、Single-linkage、Average-linkage 3種,其中Single-linkage聚類算法以樣本之間的最小距離,作為相似度的度量,計(jì)算簡(jiǎn)單,在數(shù)據(jù)量較多的情況下可以有效降低時(shí)間復(fù)雜度。因此,本文采用Single-linkage聚類算法[18]對(duì)原始數(shù)據(jù)進(jìn)行聚類處理,篩選掉原始數(shù)據(jù)中部分低質(zhì)量數(shù)據(jù),從而對(duì)樣本整體質(zhì)量進(jìn)行優(yōu)化,保證CNN訓(xùn)練效果。Single-linkage聚類算法采用Agglomerative機(jī)制,即每次把兩個(gè)舊類合并為一個(gè)新類,最終把所有樣本數(shù)據(jù)合并為一類為止。
Single-linkage算法的實(shí)現(xiàn)過(guò)程描述如下:
1)將數(shù)據(jù)集D中的每個(gè)數(shù)據(jù)分別看成一類,共得到N類,每類僅包含一個(gè)數(shù)據(jù),每?jī)深愔g的距離就是它們所包含的數(shù)據(jù)之間的距離;
2)計(jì)算出距離最近的兩個(gè)類,將它們合并為一類,總類數(shù)變成N-1;
3)計(jì)算新的類與所有舊類之間的距離;
4)重復(fù)步驟2)和步驟3),直到所有數(shù)據(jù)合并為一類為止。
本文采用歐氏距離來(lái)度量原始樣本間的相似性,用R、G、B 3個(gè)顏色通道作為每幅圖像的特征向量,對(duì)應(yīng)的歐式距離可以表示為
式中,x、y、z為圖中p、q的R、G、B分量。
通過(guò)對(duì)數(shù)據(jù)集中的樣本進(jìn)行聚類處理,可以有效篩選出低質(zhì)量的樣本數(shù)據(jù),圖2是以GTSRB數(shù)據(jù)集中限速標(biāo)志20和60進(jìn)行聚類處理后得到的部分低質(zhì)量樣本數(shù)據(jù)和高質(zhì)量樣本數(shù)據(jù)。
圖 2 交通標(biāo)志聚類效果Fig. 2 Effect of clustering traffic signs
從圖2中可以看出,通過(guò)對(duì)原始樣本進(jìn)行聚類處理,可以有效地篩選出低質(zhì)量樣本,提高數(shù)據(jù)集的整體質(zhì)量。為了更為直觀的觀察聚類效果,以交通標(biāo)志20為例,從GTSRB中隨機(jī)選出20張樣本圖片,繪制出其樹(shù)狀圖如圖3所示,從圖中可以看出,通過(guò)聚類,低質(zhì)量和高質(zhì)量的樣本數(shù)據(jù)得以區(qū)分,有效保證CNN模型訓(xùn)練中樣本集的整體質(zhì)量。
通過(guò)對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行圖像聚類處理,在優(yōu)化數(shù)據(jù)質(zhì)量的同時(shí)保證了訓(xùn)練樣本的數(shù)量,為算法的進(jìn)一步展開(kāi)奠定了基礎(chǔ),保證了CNN的訓(xùn)練效果。
GTSRB數(shù)據(jù)集中的樣本圖像尺寸大小存在較大差異,樣本數(shù)據(jù)中除了標(biāo)志區(qū)域外還包含了周圍10%的環(huán)境區(qū)域。為了進(jìn)一步改善數(shù)據(jù)集中的圖像質(zhì)量,提高CNN訓(xùn)練速度和識(shí)別效果,對(duì)聚類得到的訓(xùn)練樣本進(jìn)行了一系列的預(yù)處理操作。
1)比例裁剪
通過(guò)對(duì)數(shù)據(jù)集進(jìn)行比例裁剪,獲得感興趣區(qū)域,即交通標(biāo)志的最小包圍框,去除交通標(biāo)志周圍10%左右的無(wú)關(guān)區(qū)域,減少環(huán)境等背景信息對(duì)交通標(biāo)志識(shí)別的影響,提高了識(shí)別速度。
2)尺寸歸一化
GTSRB原始數(shù)據(jù)集中交通標(biāo)志圖像的大小分布不均,從15×15到250×250都有分布,統(tǒng)計(jì)發(fā)現(xiàn)圖像尺寸長(zhǎng)寬分布的中位數(shù)是41×40。綜合考慮運(yùn)算量和圖像細(xì)節(jié),對(duì)交通標(biāo)志樣本數(shù)據(jù)歸一化尺寸大小為48×48。
3)灰度化
形狀或圖形特征是交通標(biāo)志識(shí)別的關(guān)鍵因素,彩色圖像灰度化后可以有效降低計(jì)算量,減少光照等因素對(duì)數(shù)據(jù)的干擾,提高CNN訓(xùn)練速度以及識(shí)別效果。彩色圖像常用的灰度化方法有均值法和加權(quán)平均法,為了更好的保留交通標(biāo)志的細(xì)節(jié)信息,本文采用加權(quán)法對(duì)圖像進(jìn)行灰度化處理,式(2)為所用到的灰度化公式,其中R、G、B分別為彩色圖像中的紅、綠、藍(lán)3個(gè)顏色分量,Gray表示計(jì)算出的灰度值大小。
對(duì)原始樣本數(shù)據(jù)聚類后的數(shù)據(jù)集按上述方法做預(yù)處理后,樣本質(zhì)量和樣本特征得到進(jìn)一步提升,圖像預(yù)處理操作有效提高了CNN訓(xùn)練速度和識(shí)別速度。
圖 3 交通標(biāo)志20聚類后得到的樹(shù)狀圖Fig. 3 The dendrogram of traffic sign 20 after clustering
CNN是深度學(xué)習(xí)中的一種算法,通常為多層的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),其結(jié)構(gòu)模型如圖4所示,共分為3個(gè)部分:輸入層、隱含層以及輸出層。輸入層通常是輸入的二值或彩色圖像;隱含層是CNN的關(guān)鍵部分,主要包含卷積層和池化層,每個(gè)卷積層由一個(gè)濾波器層、一個(gè)非線性層、一個(gè)空間采樣層組成,通常CNN結(jié)構(gòu)越復(fù)雜,卷積層和池化層就越多;全連接層通常為一個(gè)淺層的分類器,如SVM、SoftMax。交通標(biāo)志圖像輸入到CNN后,通過(guò)卷積和池化運(yùn)算對(duì)圖像進(jìn)行特征提取,最后通過(guò)全連接層完成對(duì)交通標(biāo)志的分類。
卷積運(yùn)算可以由式(3)表示:
對(duì)交通標(biāo)志圖像進(jìn)行卷積操作以后,就可以利用所提取的特征來(lái)訓(xùn)練分類器,但對(duì)于圖像數(shù)據(jù)來(lái)說(shuō),網(wǎng)絡(luò)訓(xùn)練的數(shù)據(jù)量很大,且由于交通標(biāo)志圖像包含的特征較多,可能會(huì)產(chǎn)生過(guò)擬合現(xiàn)象。為了避免這樣的問(wèn)題,本文采用池化操作,池化操作可以有效地降低數(shù)據(jù)的維度,避免過(guò)擬合現(xiàn)象的發(fā)生。
在訓(xùn)練過(guò)程中,對(duì)于單個(gè)交通標(biāo)志樣本(x,y),其損失函數(shù)可以表示為
式中:J是均方差;
圖 4 CNN結(jié)構(gòu)模型Fig. 4 The architecture of CNN
文中采用了反向傳播算法,它可以計(jì)算出訓(xùn)練過(guò)程中的偏導(dǎo)數(shù),用于對(duì)網(wǎng)絡(luò)權(quán)值的更新,其過(guò)程可以表示為:
1)計(jì)算前向傳播,即圖片特征從輸入層向前傳播,經(jīng)過(guò)隱含層,通過(guò)輸出層得到網(wǎng)絡(luò)輸出的過(guò)程,對(duì)于l層i單元和l-1層k個(gè)單元,其過(guò)程如下:
2)計(jì)算殘差,殘差是某單元對(duì)輸出值產(chǎn)生多少影響的體現(xiàn),可以根據(jù)式(7)計(jì)算出輸出層l中單個(gè)單元i的殘差,其中⊙表示向量乘積運(yùn)算符:
方法如下:
4)計(jì)算各層的偏導(dǎo)數(shù):
計(jì)算出偏導(dǎo)數(shù)后,就可以對(duì)網(wǎng)絡(luò)權(quán)值做進(jìn)一步的更新,文中選用了隨機(jī)梯度下降算法(SGD)來(lái)對(duì)網(wǎng)絡(luò)參數(shù)進(jìn)行更新,基于SGD的參數(shù)更新過(guò)程如下所示:
輸入n個(gè)訓(xùn)練樣本,初始參數(shù)θ,學(xué)習(xí)速率α;
輸出動(dòng)量參數(shù)β,初始速度v。
while沒(méi)有收斂或達(dá)到訓(xùn)練次數(shù)do
end while
將經(jīng)過(guò)圖像聚類和預(yù)處理操作得到的交通標(biāo)志樣本集輸入到CNN中進(jìn)行訓(xùn)練,采用前向傳播和反向傳播算法不斷更新網(wǎng)絡(luò)權(quán)值,當(dāng)達(dá)到收斂條件或指定的訓(xùn)練次數(shù)時(shí),可以得到網(wǎng)絡(luò)模型。把實(shí)際采集的交通標(biāo)志送入訓(xùn)練好的網(wǎng)絡(luò)模型中,經(jīng)過(guò)特征提取可自動(dòng)得到分類結(jié)果。
本實(shí)驗(yàn)在Ubuntu 14.04 (64 bit)操作系統(tǒng)搭建的Caffe平臺(tái)下進(jìn)行,處理器為Intel? CoreTMi3-2100 CPU @ 3.10 GHz×4,內(nèi)存為8 GB、1 TB 機(jī)械硬盤,同時(shí)使用NVIDIA GTX1050來(lái)實(shí)現(xiàn)GPU加速訓(xùn)練。
實(shí)驗(yàn)選用GTSRB數(shù)據(jù)集作為原始數(shù)據(jù),該數(shù)據(jù)集包含43類不同類型的交通標(biāo)志,共有51 839張RGB類型的交通標(biāo)志圖片,其中訓(xùn)練圖片39 209張,測(cè)試圖片12 630張。
GTSRB原始數(shù)據(jù)中存在很多分辨率低、運(yùn)動(dòng)模糊、局部遮擋、尺寸不一、光照強(qiáng)度不同的低質(zhì)量數(shù)據(jù)。通過(guò)圖像聚類處理,共篩選出8 000多個(gè)低質(zhì)量的訓(xùn)練樣本,約占訓(xùn)練訓(xùn)練樣本的20%。經(jīng)過(guò)圖像預(yù)處理操作,最終得到31 000張灰度圖像作為訓(xùn)練樣本,為了保證訓(xùn)練模型的有效性,對(duì)測(cè)試集中的12 630張交通標(biāo)志圖像不做處理。
實(shí)驗(yàn)中以LeNet-5網(wǎng)絡(luò)為基礎(chǔ),通過(guò)優(yōu)化CNN結(jié)構(gòu),調(diào)整網(wǎng)絡(luò)參數(shù),構(gòu)造了一個(gè)深度為9的CNN結(jié)構(gòu)(見(jiàn)表1)。
表 1 CNN結(jié)構(gòu)參數(shù)Table 1 CNN structure parameter
在前兩個(gè)卷積層采用了5×5的卷積核,第3個(gè)卷積層采用了3×3卷積核,而池化層統(tǒng)一采用2×2大小,全連接層的輸出改為120,同時(shí)優(yōu)化并改變了每層的輸出特征數(shù)量,實(shí)驗(yàn)中經(jīng)過(guò)多次調(diào)參,最終設(shè)置學(xué)習(xí)率大小為0.01。通過(guò)上述優(yōu)化可以有效減少網(wǎng)絡(luò)訓(xùn)練計(jì)算量,提高CNN訓(xùn)練速度和最終的識(shí)別效率。
為測(cè)試文中CNN結(jié)構(gòu)對(duì)交通標(biāo)志圖像的多尺度特征表示,以限速標(biāo)志20為例,將其輸入到CNN中后,通過(guò)可視化方法,得到其在各個(gè)卷積層和池化層的特征圖譜如圖5所示。從圖中可以看出,經(jīng)過(guò)一系列的卷積和池化操作后,特征圖中限速標(biāo)志20的邊緣信息變得越來(lái)越清晰,圖像立體感得到有效的提升,整體特征大幅度增強(qiáng)。通過(guò)圖像聚類和圖像預(yù)處理操作,訓(xùn)練使用的交通標(biāo)志數(shù)據(jù)集整體質(zhì)量得到優(yōu)化,圖像特征變得更為明顯,有利于CNN充分提取圖像特征。CNN采用質(zhì)量較好數(shù)據(jù)進(jìn)行訓(xùn)練,可以更充分地提取和學(xué)習(xí)數(shù)據(jù)特征,從而獲得更好的訓(xùn)練模型,提高最終的識(shí)別精度和識(shí)別速度。
網(wǎng)絡(luò)訓(xùn)練完成后,繪制出交通標(biāo)志訓(xùn)練過(guò)程中的誤差和精度曲線如圖6所示,圖7是訓(xùn)練誤差隨時(shí)間的變化曲線。從圖中可以看出,開(kāi)始訓(xùn)練后,當(dāng)?shù)螖?shù)達(dá)到1 000次,訓(xùn)練時(shí)間為200 s時(shí),訓(xùn)練整體誤差迅速下降到0.5以下,同時(shí)測(cè)試精度達(dá)到93%以上;當(dāng)?shù)螖?shù)達(dá)到60 000次時(shí),測(cè)試精度可以達(dá)到98.5%,整體損失下降到0.1左右。以上結(jié)果表明,通過(guò)對(duì)交通標(biāo)志數(shù)據(jù)集的優(yōu)化,CNN訓(xùn)練收斂迅速,可以有效節(jié)省訓(xùn)練時(shí)間,訓(xùn)練精度可以在短時(shí)間內(nèi)提高到較高水平,同時(shí)均方誤差下降到較低水平,這說(shuō)明本算法具有較好的實(shí)時(shí)性以及較高的識(shí)別率。
為了進(jìn)一步檢測(cè)本文算法的實(shí)際性能,同時(shí)驗(yàn)證文中圖像聚類和圖像預(yù)處理方法對(duì)CNN訓(xùn)練的積極影響,對(duì)比了GTSRB數(shù)據(jù)集在圖像聚類以及預(yù)處理前后的識(shí)別率,實(shí)驗(yàn)結(jié)果如表2所示。
由實(shí)驗(yàn)1和2可以看出,在不進(jìn)行圖像預(yù)處理和圖像聚類的情況下,交通標(biāo)志的識(shí)別率為94.9%,經(jīng)過(guò)圖像預(yù)處理操作后,識(shí)別率可以達(dá)到96.8%,提高了0.9%;對(duì)比實(shí)驗(yàn)1和4則可以發(fā)現(xiàn),經(jīng)過(guò)圖像聚類對(duì)原始數(shù)據(jù)集質(zhì)量?jī)?yōu)化后,交通標(biāo)志的識(shí)別率可以達(dá)到97.6%,比未經(jīng)過(guò)任何處理的情況下,識(shí)別精度提高了1.7%;實(shí)驗(yàn)3表明,當(dāng)同時(shí)采用圖像聚類和圖像預(yù)處理的情況下,交通標(biāo)志的識(shí)別率可以達(dá)到98.5%。
表2實(shí)驗(yàn)表明,采用圖像聚類的方法,可以有效優(yōu)化樣本集的整體質(zhì)量,進(jìn)而提高交通標(biāo)志的識(shí)別效果,在經(jīng)過(guò)圖像預(yù)處理操作后,樣本集質(zhì)量得到進(jìn)一步提升,交通標(biāo)志的識(shí)別率得到提高。
表3給出了幾種具有代表性的交通標(biāo)志識(shí)別方法的對(duì)比結(jié)果,從表中可以看出,本文方法的識(shí)別率高于文獻(xiàn)[2]中的特征描述方法以及文獻(xiàn)[19]中的隨機(jī)森林方法。分析原因,主要是因?yàn)橄鄬?duì)于上述方法,文中數(shù)據(jù)經(jīng)過(guò)有效地樣本優(yōu)化和預(yù)處理,整體質(zhì)量得到較大提升,所采用的深度學(xué)習(xí)方法可以充分學(xué)習(xí)交通標(biāo)志圖像的高維特征,實(shí)現(xiàn)更有效的特征表達(dá),得到更好的識(shí)別模型。
將文獻(xiàn)[20]中同樣采用深度學(xué)習(xí)的交通標(biāo)志識(shí)別方法與本文方法進(jìn)行對(duì)比,發(fā)現(xiàn)文獻(xiàn)[20]中的方法略高于本文算法,但文獻(xiàn)[20]中選用彩色圖像作為訓(xùn)練數(shù)據(jù),通過(guò)尺寸變化、角度旋轉(zhuǎn)等方式對(duì)數(shù)據(jù)進(jìn)行了大量的擴(kuò)充,訓(xùn)練樣本接近130 000個(gè),樣本龐大且未做有效優(yōu)化,所采用的CNN結(jié)構(gòu)參數(shù)復(fù)雜,輸入和輸出特征較多,因此,盡管其精度高于本文算法,但其訓(xùn)練過(guò)程中的計(jì)算量非常大,對(duì)硬件要求較高,操作復(fù)雜,且非常耗時(shí)。而本文算法首先通過(guò)圖像聚類獲取高質(zhì)量訓(xùn)練數(shù)據(jù);然后對(duì)樣本進(jìn)行多種預(yù)處理操作,采用31 209張灰度圖像作為訓(xùn)練數(shù)據(jù),僅為文獻(xiàn)[20]方法數(shù)據(jù)量的四分之一;在訓(xùn)練網(wǎng)絡(luò)上,通過(guò)優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),減少網(wǎng)絡(luò)輸出,構(gòu)造了深度為9的CNN結(jié)構(gòu),并通過(guò)多次訓(xùn)練選擇了合適的網(wǎng)絡(luò)參數(shù),有效地節(jié)省了訓(xùn)練時(shí)間,提高了訓(xùn)練效果,在較低的硬件條件下得到了較好的識(shí)別精度。
圖 5 交通標(biāo)志20的特征圖Fig. 5 The feature maps of Traffic 20
圖 6 訓(xùn)練誤差和測(cè)試精度曲線Fig. 6 Training error and test accuracy curves
圖 7 訓(xùn)練誤差隨時(shí)間變化曲線Fig. 7 Variation curve of training error over time
表 2 圖像聚類和圖像預(yù)處理后識(shí)別率對(duì)比Table 2 Comparison of recognition rate after image clustering and image preprocessing
表 3 本文算法與其他算法識(shí)別結(jié)果對(duì)比Table 3 Recognition rate variances of different methods
為了測(cè)試本文算法的實(shí)際表現(xiàn),從比利時(shí)BTSD數(shù)據(jù)集中隨機(jī)選取的600張真實(shí)環(huán)境下的交通標(biāo)志圖片進(jìn)行遷移測(cè)試,在新樣本下,單張圖片的平均識(shí)別時(shí)間可以保持在0.2 s左右,識(shí)別率高達(dá)95%,表明訓(xùn)練模型具有良好的魯棒性和泛化能力,可以滿足交通標(biāo)志識(shí)別的實(shí)時(shí)性和準(zhǔn)確性要求。
本文基于圖像聚類,利用深度學(xué)習(xí)提出了一種交通標(biāo)志快速識(shí)別算法。在一定程度上解決了傳統(tǒng)特征描述方法,在交通標(biāo)志識(shí)別領(lǐng)域魯棒性和識(shí)別精度差等問(wèn)題。本文將圖像聚類算法應(yīng)用于交通標(biāo)志數(shù)據(jù)集的優(yōu)化,有效地提高了數(shù)據(jù)整體質(zhì)量,保證了深度學(xué)習(xí)訓(xùn)練效果,此方法可泛化到其他圖像識(shí)別問(wèn)題。利用公開(kāi)數(shù)據(jù)集GTSRB和BTSD,在Caffe平臺(tái)下,通過(guò)仿真實(shí)驗(yàn)和對(duì)比分析,證明了算法的有效性,可為智能駕駛提供一定的理論依據(jù)和技術(shù)支持。本文只完成了對(duì)交通標(biāo)志圖像的分類,并沒(méi)有對(duì)交通標(biāo)志進(jìn)行檢測(cè),下一步的工作是研究如何實(shí)現(xiàn)自然環(huán)境下小目標(biāo)交通標(biāo)志的檢測(cè),并在此基礎(chǔ)上真正實(shí)現(xiàn)對(duì)交通標(biāo)志的自動(dòng)識(shí)別。