王方石,王 堅(jiān),李 兵,王 博
(1.北京交通大學(xué) 軟件學(xué)院,北京 100044;2.中國(guó)科學(xué)院 自動(dòng)化研究所,北京 100190;3.中國(guó)科學(xué)院 模式識(shí)別國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100190)
近年來,高級(jí)駕駛輔助系統(tǒng)(Advanced driver assistance systems)和無人駕駛技術(shù)發(fā)展迅速,其中,交通標(biāo)志的檢測(cè)和識(shí)別是其重要組成部分[1]。常見的交通標(biāo)志有速度限制、減速、停止、人行橫道和車道限制等。無人駕駛車輛需要通過檢測(cè)交通標(biāo)志以獲取前方道路狀況信息,才能減少事故發(fā)生的可能性,增加駕駛的安全性。在現(xiàn)實(shí)環(huán)境中,交通標(biāo)志的檢測(cè)是一個(gè)具有挑戰(zhàn)性的任務(wù)。人類駕駛員可以很容易地找出并識(shí)別交通標(biāo)志,是因?yàn)榻煌?biāo)志的設(shè)計(jì)使用了顏色、形狀和文本等語義性強(qiáng)、適合人類理解的元素的組合。但對(duì)于機(jī)器而言,由于交通標(biāo)志的種類多、類間區(qū)分度不大,各個(gè)國(guó)家地區(qū)的交通標(biāo)志不盡相同,以及因光照、模糊、部分遮擋和背景復(fù)雜等因素,使得難以從復(fù)雜場(chǎng)景中定位、準(zhǔn)確識(shí)別交通標(biāo)志區(qū)域[2-5]。
本文利用交通標(biāo)志中不受客觀條件影響的共同特性,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)簡(jiǎn)單、通用和準(zhǔn)確的交通標(biāo)志的檢測(cè)方法,對(duì)于提高輔助駕駛和無人駕駛安全性具有重要意義。在充分挖掘交通標(biāo)志牌表面特性和考慮交通標(biāo)志圖案視覺屬性的基礎(chǔ)上,本文提出了一種在HSV顏色空間上提取最大穩(wěn)定極值區(qū)域(MSER)以提取交通標(biāo)志候選區(qū)域[1,4-8]、利用加入了屬性學(xué)習(xí)約束的卷積神經(jīng)網(wǎng)絡(luò)[9-11]識(shí)別交通標(biāo)志區(qū)域的交通標(biāo)志檢測(cè)方法,簡(jiǎn)記為MH-CAL(MSER on HSV & CNN with attribute learning)。
本文提出的MH-CAL方法的整體結(jié)構(gòu)框架如圖1所示。該方法主要流程如下:
(1)提取交通標(biāo)志候選區(qū)域。在圖像的HSV顏色空間的三個(gè)分量形成的灰度圖上,分別使用MSER提取交通標(biāo)志候選區(qū)域;
(2)交通標(biāo)志候選區(qū)域分類。使用加入了屬性學(xué)習(xí)約束的卷積神經(jīng)網(wǎng)絡(luò)提取候選區(qū)域特征,然后通過分類網(wǎng)絡(luò)(共N+1個(gè)輸出類,包括交通標(biāo)志N個(gè)類及非交通標(biāo)志類)以判斷候選區(qū)域是否是交通標(biāo)志區(qū)域,以及交通標(biāo)志的類別。
(3)交通標(biāo)志區(qū)域確定。在對(duì)交通標(biāo)志區(qū)域分類后,使用非極大抑制算法(Non-maximum suppression,NMS)從重疊候選區(qū)域中選出一個(gè)最合適的候選區(qū)域確定為最終交通標(biāo)志區(qū)域。
需要說明的是,屬性約束網(wǎng)絡(luò)旨在訓(xùn)練網(wǎng)絡(luò)時(shí),其損失(Loss)與分類網(wǎng)絡(luò)損失共同作用于反向傳播過程以優(yōu)化網(wǎng)絡(luò)參數(shù)。而在測(cè)試時(shí),屬性約束網(wǎng)絡(luò)將被移除。
由于交通標(biāo)志牌的色調(diào)一致、飽和度更高和比周圍區(qū)域更亮[12,13],導(dǎo)致在HSV顏色空間的三個(gè)分量(色調(diào)Hue, 飽和度Saturation,亮度Value)分別形成的三個(gè)灰度圖上,組成交通標(biāo)志的圖案內(nèi)部灰度值相近,且相較于其周圍灰度值更高或更低,而這正是連通域的特點(diǎn)。因此,可以檢測(cè)連通域以提取候選區(qū)域。為了增加魯棒性,本文提出同時(shí)在該三個(gè)灰度圖上檢測(cè)連通域以提取交通標(biāo)志候選區(qū)域。
圖1本方法整體結(jié)構(gòu)框架
Fig.1Overviewoftheproposedmethod
最大穩(wěn)定極值區(qū)域(MSER)[14]算法旨在檢測(cè)灰度圖中內(nèi)部具有相近的灰度值、形狀任意的區(qū)域。通過使用多個(gè)閾值將灰度圖像二值化后,提取每幅二值化圖像中的連通域,那些在多個(gè)二值化圖像中形狀基本保持不變的連通域即為MSER。因此,本文提出在HSV顏色空間的三個(gè)分量形成的三個(gè)灰度圖上,利用MSER算法檢測(cè)連通域以定位交通標(biāo)志候選區(qū)域。
本文提出的候選區(qū)域提取算法如算法1所示。首先,將圖像IRGB從RBG顏色空間轉(zhuǎn)換到HSV顏色空間得到圖像IHSV;接著,為了得到圖像IHSV的三個(gè)通道形成的灰度圖IH、IS、IV,需要對(duì)其三個(gè)通道分別使用線性對(duì)比度拉伸(Linear contrast stretching),使三個(gè)通道像素值的取值范圍處于相同的區(qū)間[0,1];然后,分別在灰度圖IH、IS、IV上利用MSER檢測(cè)連通域;最后,根據(jù)經(jīng)驗(yàn),交通標(biāo)志長(zhǎng)寬比通常不會(huì)過大或過小,所以過濾掉長(zhǎng)寬比過大或者過小的連通域,剩下的連通域?qū)?yīng)原圖中的區(qū)域作為交通標(biāo)志候選區(qū)域,由分類器識(shí)別這些候選區(qū)域。
可以看出,上述方法在HSV顏色空間的三個(gè)分量上利用MSER檢測(cè)連通域以提取交通標(biāo)志候選區(qū)域。該方法并沒有考慮標(biāo)志的具體顏色種類和形狀對(duì)稱等先驗(yàn)信息,因此方法簡(jiǎn)單且通用性強(qiáng)。
算法1 候選區(qū)域提取算法
Input:RGB圖像IRGB,長(zhǎng)寬比閾值t1,t2,滿足t1>t2.
Output:交通標(biāo)志候選區(qū)域框BboxROI.
1 begin
2 將圖像IRGB由RBG顏色空間轉(zhuǎn)換到HSV顏色空間得到圖像IHSV,設(shè)IHSV三個(gè)通道形成的圖像分別為IH,IS,IV;
3 I1=IH/360;I2=IS/100;I3=IV/100;
4 ROI=?;
5 for i=1,2,3 do
6 ROI=ROI∪在灰度圖Ii上使用MSER檢測(cè)到的連通域;
7 end
8 for each roi∈ROI do
9 if Widthroi/Heightroi>t1or
Widthroi/Heightroi then ROI=ROI
oi; 10 end 11 獲取ROI中的候選區(qū)域的位置信息,保存至BboxROI; 12 end 在提取候選區(qū)域后,需要對(duì)候選區(qū)域分類以判斷候選區(qū)域是否是交通標(biāo)志區(qū)域,以及交通標(biāo)志的類別。候選區(qū)域中通常包含了真實(shí)交通標(biāo)志區(qū)域和非交通標(biāo)志區(qū)域。真實(shí)交通標(biāo)志區(qū)域通常會(huì)有一定的遮擋或形變;非交通標(biāo)志區(qū)域通常數(shù)量較多并且與真實(shí)的交通標(biāo)志區(qū)域具有相似的表觀特征。因此需要泛化能力強(qiáng)(Strong generalization ability)和容量大(Higher capacity)的分類器,在準(zhǔn)確識(shí)別真實(shí)交通標(biāo)志區(qū)域的同時(shí),過濾非交通標(biāo)志區(qū)域。 卷積神經(jīng)網(wǎng)絡(luò)由于能夠進(jìn)行特征學(xué)習(xí),且泛化能力強(qiáng)、容量大,已經(jīng)被證實(shí)是能夠理解圖片內(nèi)容、在圖像識(shí)別、分割、檢測(cè)、檢索上達(dá)到最好效果的一類有效的模型[15-20]。其中,作為卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)典型,AlexNet在ImageNet 1000類目標(biāo)分類任務(wù)上取得了當(dāng)時(shí)最好的效果[15]。 本文設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)由特征提取網(wǎng)絡(luò)(AlexNet網(wǎng)絡(luò)前五層,包括卷積層、下采樣層等)、分類網(wǎng)絡(luò)、屬性約束網(wǎng)絡(luò)構(gòu)成。其中,分類網(wǎng)絡(luò)和屬性約束網(wǎng)絡(luò)各由三層全連接層組成,兩者共享特征提取網(wǎng)絡(luò)的輸出(即圖像的高層特征pool5)。該網(wǎng)絡(luò)擁有兩個(gè)損失,一個(gè)是分類網(wǎng)絡(luò)損失,另一個(gè)是屬性約束網(wǎng)絡(luò)損失。在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí),屬性約束網(wǎng)絡(luò)的損失將和分類網(wǎng)絡(luò)的損失共同作用于反向傳播過程以優(yōu)化網(wǎng)絡(luò)各層參數(shù),通過參數(shù)共享的方式同時(shí)進(jìn)行屬性學(xué)習(xí)和分類學(xué)習(xí)。 圖2本文設(shè)計(jì)的卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu) Fig.2TheproposedCNNstructurefortraining minL=min(Lcls+λLattr) (1) (2) (3) 從該目標(biāo)函數(shù)中可以看出,在訓(xùn)練時(shí),該網(wǎng)絡(luò)不僅考慮了交通標(biāo)志類別信息,同時(shí)也考慮了交通標(biāo)志的形狀、顏色、圖案內(nèi)容三種視覺屬性信息,如此訓(xùn)練后得到的卷積神經(jīng)網(wǎng)絡(luò)將具有屬性約束特性,能夠有效彌補(bǔ)交通標(biāo)識(shí)底層圖像到高層語義之間的鴻溝。需要注意的是,在測(cè)試時(shí),屬性約束網(wǎng)絡(luò)將被移除,保留特征提取網(wǎng)絡(luò)和分類網(wǎng)絡(luò),進(jìn)而直接得出輸入圖像的分類結(jié)果。 在提取交通標(biāo)志候選區(qū)域過程中,會(huì)出現(xiàn)同一個(gè)交通標(biāo)志被檢測(cè)出多個(gè)候選區(qū)域的情況,且這些候選區(qū)域高度重疊。因此,在對(duì)每個(gè)候選區(qū)域分類后,需要從重疊的候選區(qū)域中,選出一個(gè)最合適的候選區(qū)域確定為最終的交通標(biāo)志區(qū)域,去除其他的候選區(qū)域。 算法2 針對(duì)交通標(biāo)志的NMS算法 Input:已分類的候選區(qū)域R, n是R中區(qū)域的數(shù)量, op是覆蓋率閾值。 Output: 交通標(biāo)志區(qū)域 Rpr。 Initialization: keep[1…n]=true, 表示R中的區(qū)域是否被保留。 1 begin 2 將R中區(qū)域按照區(qū)域面積降序排列。 3 將R中區(qū)域按照區(qū)域分類得分降序排列。 4 for i=1,…,n do 5 for j=i+1,…,n do 6 if overlap(R[i],R[j]) >op then keep[j]=false; 7 end 8 end 9 Rpr=R[index(keep==true)]; 10 end 本文根據(jù)每個(gè)候選區(qū)域的分類得分采用NMS算法確定最終的交通標(biāo)志區(qū)域。即對(duì)于每個(gè)候選區(qū)域,找出與其重疊且IoU覆蓋率大于一定閾值的候選區(qū)域,保留分類得分最高的候選區(qū)域,去除其他候選區(qū)域。然而,當(dāng)兩個(gè)候選區(qū)域處于包含關(guān)系時(shí),若兩者的分類得分相同,標(biāo)準(zhǔn)的NMS可能會(huì)保留被包含的區(qū)域,去除包含的那個(gè)區(qū)域。但是對(duì)于交通標(biāo)志來說,經(jīng)常出現(xiàn)同一個(gè)標(biāo)志內(nèi),有多個(gè)圖案處于包含關(guān)系。限速標(biāo)志70內(nèi)部黃色區(qū)域外嵌套著紅色的區(qū)域,由于黃色區(qū)域和紅色區(qū)域都是連通域,因此兩者覆蓋的區(qū)域都會(huì)被選為交通標(biāo)志候選區(qū)域。顯然,若這兩個(gè)候選區(qū)域分類得分相同,由于面積較大者(紅色區(qū)域?qū)?yīng)的候選區(qū)域)定位更加準(zhǔn)確,此時(shí)算法應(yīng)該保留面積較大的候選區(qū)域,去除面積較小的候選區(qū)域(黃色區(qū)域?qū)?yīng)的候選區(qū)域),然而,標(biāo)準(zhǔn)的NMS可能會(huì)保留面積較小的候選區(qū)域,去除面積較大的候選區(qū)域。為了解決該問題,本文針對(duì)交通標(biāo)志檢測(cè)改進(jìn)了NMS算法,如算法2所示,在標(biāo)準(zhǔn)的NMS的基礎(chǔ)上,對(duì)NMS的輸入做了按照候選區(qū)域的面積遞減排序的預(yù)處理。 本文在兩個(gè)公開的數(shù)據(jù)集上對(duì)本文提出的交通標(biāo)志檢測(cè)方法進(jìn)行了評(píng)測(cè):STSD(Sweden traffic sign detection dataset)[21],GTSD(German traffic sign detection dataset)[22]。STSD中交通標(biāo)志共有20個(gè)類別,有20 000多張圖片,其中20%被人工標(biāo)注,共3488個(gè)交通標(biāo)志;GTSD中交通標(biāo)志共有43個(gè)類別,有600張訓(xùn)練圖片,其中包含846個(gè)交通標(biāo)志,有300張測(cè)試圖片,其中包含了360個(gè)交通標(biāo)志。 對(duì)于STSD,本文按照文獻(xiàn)[21]中的評(píng)測(cè)方法,只考慮Pedestrian crossing、Designated lane right、No standing or parking、50 kph、Priority road和Give way 這6個(gè)類別。對(duì)于GTSD,本文跟其他文獻(xiàn)一樣,只評(píng)測(cè)43個(gè)類別所屬的三個(gè)超類(Superclass),即Mandatory、Danger和Prohibitory。 2.2.1 實(shí)驗(yàn)設(shè)計(jì) 本小節(jié)設(shè)計(jì)了6種提取交通標(biāo)志候選區(qū)域的方法,并在公開數(shù)據(jù)集STSD和GTSD上進(jìn)行了評(píng)估。該實(shí)驗(yàn)旨在評(píng)估不同顏色空間對(duì)交通標(biāo)志候選區(qū)域提取效果的影響,該實(shí)驗(yàn)分別在6種顏色空間的分量形成的灰度圖上提取MSER作為交通標(biāo)志候選區(qū)域,6種顏色空間分別為Ycbcr, RGB, YUV, Lab和HSV(本文選擇的顏色空間),以及文獻(xiàn)[1]中提出的Enhanced RGB顏色空間,該方法在RGB顏色空間中增強(qiáng)了R和B通道,使得交通標(biāo)志區(qū)域更加顯著。 2.2.2 實(shí)驗(yàn)結(jié)果及分析 表1列出了在Ycbcr、RGB、YUV、Lab各自的三個(gè)通道上分別使用MSER提取候選區(qū)域、文獻(xiàn)[1] 在Enhanced RBG顏色空間中的R、B兩個(gè)通道上使用MSER提取候選區(qū)域和本文中提出的方法(HSV+MSER)的比較,其中,算法MSER中的參數(shù)Δ取值為2。本小節(jié)實(shí)驗(yàn)采用平均召回率(Mean recall, MR)和文獻(xiàn)[23]中提出的兩個(gè)評(píng)價(jià)指標(biāo):MABO(Mean average best overlap)和#win。其中MR和MABO被定義為: 表1 不同候選區(qū)域提取方法在STSD、GTSD數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Table 1 Experimental results on dataset STSD and GTSD using different methods to extract candidate regions (4) (5) (6) 從表1中可以看出: (1)在不同的顏色空間上候選區(qū)域提取的效果差距明顯。在指標(biāo)MABO和MR上,使用Ycbcr顏色空間提取候選區(qū)域效果最差,在最常見的RGB顏色空間上效果也不理想。 (2)在指標(biāo)MABO和MR上,使用YUV顏色空間的效果與本文較為接近,原因是都利用了顏色的色調(diào)、飽和度和亮度信息;在Lab顏色空間上的效果與本文的結(jié)果最近,原因是該顏色空間以數(shù)字化方式來描述人的視覺感應(yīng),能夠表達(dá)的顏色更多,因此能夠更好地區(qū)分目標(biāo)區(qū)域和背景。 (3)在公開庫(kù)STSD上,在不利用對(duì)稱信息的情況下,在指標(biāo)MABO上,本文提出的方法比文獻(xiàn)[1]高出約0.15,比其他方法高出0.02~0.19;在指標(biāo)MR上,本文比文獻(xiàn)[1]上高出約0.22,比其他方法高出0.02~0.23。 (4)在公開庫(kù)GTSD上,使用文獻(xiàn)[1]中的方法提取候選區(qū)域具有最高的MR=1,略高于本文提出的方法,但是在指標(biāo)MABO上比本文低;在Lab顏色空間上的MABO和MR的值僅次于文獻(xiàn)[1]和文本提出的方法;相比較其他顏色空間,本文在指標(biāo)MABO上高出0.10~0.12,在指標(biāo)MR上高出0.14~0.22。 (5)在指標(biāo)#win上,本文提出的方法高于其他方法,這會(huì)導(dǎo)致在候選區(qū)域分類過程中在速度上不占優(yōu)勢(shì)。 從在兩個(gè)公開庫(kù)上的比較可以看出,使用HSV、Lab顏色空間提取交通標(biāo)志候選區(qū)域具有較好的效果。使用HSV顏色空間平均覆蓋率和平均召回率較高,使用Lab顏色空間由于#win較小,故檢測(cè)算法整體速度更快。因此,從實(shí)驗(yàn)對(duì)比可知,色調(diào)、對(duì)比度和亮度信息是提取交通標(biāo)志候選區(qū)域的重要信息。本文提出的方法正是利用了上述重要信息,即在HSV顏色空間的三個(gè)通道形成的灰度圖上使用MSER算法檢測(cè)標(biāo)志候選區(qū)域,才能具有較高的平均覆蓋率和平均召回率,即交通標(biāo)志定位更準(zhǔn)和找到的交通標(biāo)志更多。由在不同的庫(kù)上實(shí)驗(yàn)對(duì)比得出,本文提出的交通標(biāo)志候選區(qū)域的方法效果最好;然而,本文提出的方法在每張圖片平均候選區(qū)域數(shù)量上相比較其他方法略高。 2.3.1 實(shí)驗(yàn)設(shè)計(jì) 在STSD數(shù)據(jù)集上,本文對(duì)比了4種檢測(cè)算法,分別為文獻(xiàn)[21]提出的使用傅里葉描述子描述交通標(biāo)志的輪廓并分類的方法、文獻(xiàn)[8]提出的方法、本文提出的MH-CAL方法和本文提出的去除屬性約束網(wǎng)絡(luò)的方法MH-CNN。 在GTSD數(shù)據(jù)集上,本文對(duì)比了6種檢測(cè)算法,分別為文獻(xiàn)[22]提出的HOG特征結(jié)合顏色直方圖(Color Histogram)特征描述交通標(biāo)志候選區(qū)域并用SVM對(duì)候選區(qū)域分類的方法、文獻(xiàn)[24]使用ChannelFeature檢測(cè)子的檢測(cè)方法、文獻(xiàn)[1]、文獻(xiàn)[8]提出的方法、本文提出的方法MH-CAL以及本文提出的方法去除屬性約束網(wǎng)絡(luò)的方法MH-CNN。 2.3.2 屬性標(biāo)簽設(shè)計(jì) 本文在充分觀察、總結(jié)數(shù)據(jù)集STSD和BTSD中交通標(biāo)志圖案的特點(diǎn)后,分別為STSD和BTSD設(shè)計(jì)了屬性標(biāo)簽,表2列出了在STSD數(shù)據(jù)集上需要評(píng)測(cè)的6個(gè)交通標(biāo)志類別和背景類別的屬性標(biāo)簽和屬性向量,表3列出了在GTSD數(shù)據(jù)集上需要評(píng)測(cè)的3個(gè)超類和背景類別的屬性標(biāo)簽和屬性向量。本文從標(biāo)志整體形狀、標(biāo)志顏色、標(biāo)志圖案內(nèi)容這三個(gè)方面對(duì)屬性進(jìn)行了劃分,各類交通標(biāo)志如果含有某項(xiàng)屬性,則該屬性標(biāo)簽值置為1,否則置為0。由于GTSD數(shù)據(jù)集上只需評(píng)測(cè)3個(gè)超類,而不是具體交通標(biāo)志類別,因此只需使用形狀和顏色這兩個(gè)方面設(shè)計(jì)屬性標(biāo)簽。最后,每個(gè)交通標(biāo)志類(或超類)會(huì)生成一個(gè)唯一的屬性向量,在訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)時(shí),與類別信息共同作為訓(xùn)練目標(biāo)。 表2 數(shù)據(jù)集STSD的屬性標(biāo)簽和屬性向量Table 2 Attribute labels and attribute vectors for dataset STSD 表3 數(shù)據(jù)集GTSD的屬性標(biāo)簽和屬性向量Table 3 Attribute labels and attribute vectors fordataset GTSD 2.3.3 訓(xùn)練過程 由于兩個(gè)公開數(shù)據(jù)集數(shù)據(jù)量不足,因此本文中卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用基于歸納式遷移學(xué)習(xí)(Inductive transfer learning)的方法。本文使用在數(shù)據(jù)集ImageNet上訓(xùn)練好的Alex網(wǎng)絡(luò)模型作為預(yù)訓(xùn)練模型(Pre-trained model),使用交通標(biāo)志樣本對(duì)網(wǎng)絡(luò)進(jìn)行有監(jiān)督的微調(diào)(Supervised fine-tuning)。在訓(xùn)練時(shí),特征提取網(wǎng)絡(luò)和分類網(wǎng)絡(luò)使用預(yù)訓(xùn)練模型中的參數(shù),屬性約束網(wǎng)絡(luò)中的參數(shù)使用隨機(jī)初始化參數(shù)。 由于現(xiàn)有的交通標(biāo)志數(shù)據(jù)集訓(xùn)練樣本并不充足,為了獲取更多的訓(xùn)練樣本,本文采取以下方法。 首先,將樣本庫(kù)中的所有圖像按順時(shí)針和逆時(shí)針方向各旋轉(zhuǎn)5度形成新的訓(xùn)練集;然后,在新的訓(xùn)練集上提取交通標(biāo)志候選區(qū)域,根據(jù)經(jīng)驗(yàn)知識(shí),交通標(biāo)志的長(zhǎng)寬比不會(huì)過大,因此,本文只保留長(zhǎng)寬比(w/h)滿足1/3.5≤w/h≤1.4的候選區(qū)域;最后,將與真實(shí)區(qū)域IoU覆蓋率大于0.7的候選區(qū)域作為交通標(biāo)志樣本,覆蓋率小于0.3的候選區(qū)域作為非交通標(biāo)志樣本,其他的候選區(qū)域不作為訓(xùn)練樣本。本文使用隨機(jī)梯度下降法以0.001的學(xué)習(xí)率(Learning rate)開始訓(xùn)練網(wǎng)絡(luò)。 在增加交通標(biāo)志樣本的同時(shí),也增加了大量非交通標(biāo)志的樣本。非交通標(biāo)志樣本和交通標(biāo)志樣本的比例大約為400∶1。為了處理數(shù)據(jù)不均衡的問題, 在訓(xùn)練模型時(shí),本文采用如下訓(xùn)練方法:首先,從非交通標(biāo)志樣本中隨機(jī)挑選4000個(gè)樣本和所有的交通標(biāo)志樣本作為訓(xùn)練集Strain,訓(xùn)練模型M;然后,用Strain訓(xùn)練好的模型M測(cè)試Strain中所有非交通標(biāo)志樣本,將分錯(cuò)的非交通標(biāo)志樣本隨機(jī)選取10%加入到Strain中,重新訓(xùn)練模型M;以此類推,重復(fù)幾次,直到非交通標(biāo)志樣本的誤檢率降低到目標(biāo)值。 2.3.4 實(shí)驗(yàn)結(jié)果及分析 在STSD數(shù)據(jù)集上,本文按照文獻(xiàn)[21]中要求,只考慮20個(gè)交通標(biāo)志類別中的6個(gè)類別:Pedestrian crossing、Designated lane right、No standing or parking、50 km/h、Priority road和Give way,使用準(zhǔn)確率(Precision)和召回率(Recall)評(píng)價(jià)方法。表4是在STSD公開數(shù)據(jù)集上與文獻(xiàn)[8,21]中的結(jié)果的對(duì)比,其中MH-CAL是本文提出的方法,MH-CNN指本文提出的方法去除屬性約束網(wǎng)絡(luò)后的方法。 表4 STSD數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比Table 4 Comparison of experiments on dataset STSD 注:MH-CAL是本文提出的方法,MH-CNN指的是MH-CAL去除屬性約束網(wǎng)絡(luò)后的方法 (1)在準(zhǔn)確率方面,在每一個(gè)類別上,本文提出的檢測(cè)方法都優(yōu)于文獻(xiàn)[21]和文獻(xiàn)[8]中提出的方法,尤其是在類別Give way上,較文獻(xiàn)[8]提升了25.92%,較文獻(xiàn)[21]提升了38.16%,這有賴于卷積神經(jīng)網(wǎng)絡(luò)提取的有效特征; (2)在召回率方面,對(duì)于類別No standing or parking、50 km/h、Priority road、Give way,本文提出的方法超過了文獻(xiàn)[8]4%~34%,尤其是在50 km·h-1和具有挑戰(zhàn)性的Give way這兩個(gè)類別上有了大幅提升,說明本文提出的候選區(qū)域提取方法能夠更好地定位交通標(biāo)志區(qū)域。 (3)在類別Designated lane right上,本文在召回率上稍落后于文獻(xiàn)[8]的方法;對(duì)于類別Pedestrian crossing,本文的方法在召回率上較低,原因是其內(nèi)部圖案較為復(fù)雜,當(dāng)該標(biāo)志在圖片中較小時(shí),標(biāo)志表面的連通域不夠大,導(dǎo)致在候選區(qū)域提取步驟中無法提取到該區(qū)域。如圖3所示,黑方框標(biāo)出的是本文提出的算法提取出的候選區(qū)域,可以看到,整個(gè)交通標(biāo)志區(qū)域沒有被提取出來。 圖3 未檢測(cè)到整個(gè)Pedestrian crossing區(qū)域Fig.3 Fail to detect the whole area of Pedestrian crossing (4)較MH-CNN方法,在加入屬性學(xué)習(xí)約束后,準(zhǔn)確率和召回率都有所提升,說明本文提出的屬性學(xué)習(xí)約束方法確實(shí)有效。使用卷積神經(jīng)網(wǎng)絡(luò)的MH-CNN方法在準(zhǔn)確率和召回率上普遍優(yōu)于使用傳統(tǒng)分類器的方法[8,21],說明在交通標(biāo)志分類任務(wù)上,深度學(xué)習(xí)方法要優(yōu)于傳統(tǒng)學(xué)習(xí)方法。 (5)整體來看,在平均準(zhǔn)確率和平均召回率上,較文獻(xiàn)[8]分別提高了4.77%和9.88%,較文獻(xiàn)[21]分別提高了7.94%和13.73%。 同時(shí),本文也在GTSD數(shù)據(jù)集上用了同樣的方法和參數(shù)對(duì)本文提出的檢測(cè)方法和其他文獻(xiàn)中的方法做了對(duì)比,在該庫(kù)上,本文和其他文章一樣,只評(píng)測(cè)43個(gè)類別所屬的三個(gè)超類:Mandatory、Danger、Prohibitory。在這個(gè)公開數(shù)據(jù)集上訓(xùn)練時(shí),也是采用歸納式遷移學(xué)習(xí)的方法,與STSD不同的是,在GTSD上用的預(yù)訓(xùn)練模型是在STSD數(shù)據(jù)集上訓(xùn)練好的模型。表5使用了AUC(Area Under PR Curve)評(píng)價(jià)標(biāo)準(zhǔn)在GTSD上對(duì)比了不同的檢測(cè)方法。從表中可以看出,本文提出的算法在類別Danger、Prohibitory上優(yōu)于文獻(xiàn)[1]和文獻(xiàn)[22]中提出的方法,與文獻(xiàn)[24]和文獻(xiàn)[8]中提出的方法持平;在類別Mandatory上也取得了較高的結(jié)果。 表5 GTSD數(shù)據(jù)集上的實(shí)驗(yàn)對(duì)比Table 5 Comparison of experiments on dataset GTSD 從上述兩個(gè)實(shí)驗(yàn)可以看出,本文提出的交通標(biāo)志檢測(cè)方法都取得了較高的召回率,說明了在HSV顏色空間上提取交通標(biāo)志候選區(qū)域的有效性,由此可知,色調(diào)、對(duì)比度和亮度信息是提取交通標(biāo)志候選區(qū)域的重要信息;本文提出的方法也取得了較高的準(zhǔn)確率,說明卷積神經(jīng)網(wǎng)絡(luò)相比于傳統(tǒng)分類器,泛化能力更強(qiáng)、容量更大;在加入屬性學(xué)習(xí)約束后,準(zhǔn)確率和召回率都得到了提升,說明本文提出的屬性學(xué)習(xí)約束學(xué)習(xí)確實(shí)有效。然而,本文提出的方法有一定的不足,當(dāng)交通標(biāo)志表面圖案較為復(fù)雜、元素較多時(shí),如圖4所示,候選區(qū)域提取的性能會(huì)有一定的損失。 圖4本文提出的交通標(biāo)志檢測(cè)方法檢測(cè)效果示例 Fig.4Samplesoftheproposedtrafficsigndetectionmethod 現(xiàn)有的大部分交通標(biāo)志檢測(cè)方法都沒有考慮交通標(biāo)志牌表面的特性和交通標(biāo)志圖案的視覺屬性。本文提出了一種基于深度屬性學(xué)習(xí)的交通標(biāo)志檢測(cè)方法。該方法首先在HSV顏色空間上使用MSER提取交通標(biāo)志候選區(qū)域;然后使用加入了屬性學(xué)習(xí)約束的卷積神經(jīng)網(wǎng)絡(luò)提取候選區(qū)域特征并識(shí)別。本文方法不但充分利用了交通標(biāo)志牌表面不同顏色的共同特性、制作材料的特殊性,而且將交通標(biāo)志的形狀、顏色、圖案內(nèi)容等一系列視覺屬性作為約束條件融入到了分類器中。通過在兩個(gè)公開數(shù)據(jù)集上的實(shí)驗(yàn)證明,本方法不但能夠在復(fù)雜環(huán)境下準(zhǔn)確定位交通標(biāo)志區(qū)域,而且能夠準(zhǔn)確地識(shí)別交通標(biāo)志區(qū)域和過濾非交通標(biāo)志區(qū)域。 [1] Salti S, Petrelli A, Tombari F, et al. Traffic sign detection via interest region extraction[J]. Pattern Recognition, 2015, 48(4): 1039-1049. [2] Gómez-Moreno H, Maldonado-Bascón S, Gil-Jiménez P, et al. Goal evaluation of segmentation algorithms for traffic sign recognition[J]. IEEE Transactions on Intelligent Transportation Systems, 2010, 11(4): 917-930. [3] Shadeed W G, Abu-Al-Nadi D I, Mismar M J. Road traffic sign detection in color images[C]∥IEEE International Conference on Electronics, Circuits and Systems, Sharjah, United Arab Emirates, 2003:890-893. [4] Ruta A, Li Y, Liu X. Real-time traffic sign recognition from video by class-specific discriminative features[J]. Pattern Recognition, 2010, 43(1):416-430. [5] Li H, Sun F,Liu L, et al. A novel traffic sign detection method via color segmentation and robust shape matching[J]. Neurocomputing, 2015, 169: 77-88. [6] Loy G, Barnes N. Fast shape-based road sign detection for a driver assistance system[C]∥IEEE International Conference on Intelligent Robots and Systems, Sendai, Japan, 2004:70-75. [7] Barnes N, Zelinsky A, Fletcher L S. Real-time speed sign detection using the radial symmetry detector[J]. IEEE Transactions on Intelligent Transportation Systems, 2008, 9(2):322-332. [8] Chen T, Lu S. Accurate and efficient traffic sign detection using discriminative adaboost and support vector regression[J]. IEEE Transactions on Vehicular Technology, 2015, 65(6): 4006-4015. [9] Wu Y, Liu Y, Li J, et al. Traffic sign detection based on convolutional neural networks[C]∥IEEE International Joint Conference on Neural Networks, Dallas, TX, USA, 2013:1-7. [10] Qian R, Zhang B, Yue Y, et al. Robust Chinese traffic sign detection and recognition with deep convolutional neural network[C]∥IEEE International Conference on Natural Computation, Zhangjiajie, China, 2015:791-796. [11] Zang D, Zhang J, Zhang D, et al. Traffic sign detection based on cascaded convolutional neural networks[C]∥IEEE/ACIS International Conference on Software Engineering, Artificial Intelligence, Networking and Parallel/Distributed Computing, Shanghai, China, 2016:201-206. [12] Farhadi A, Endres I, Hoiem D, et al. Describing objects by their attributes[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Miami, Florida, USA, 2009: 1778-1785. [13] Berg T L, Berg A C, Shih J. Automatic attribute discovery and characterization from noisy web data[C]∥European Conference on Computer Vision, Heraklion, Crete, Greece, 2010:663-676. [14] Matas J, Chum O, Urban M, et al. Robust wide-baseline stereo from maximally stable extremal regions[J]. Image and Vision Computing, 2004, 22(10):761-767. [15] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems, Lake Tahoe, Nevada, USA, 2012:1097-1105. [16] Farabet C, Couprie C, Najman L, et al. Learning hierarchical features for scene labeling[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(8): 1915-1929. [17] Ciresan D, Giusti A, Gambardella L M, et al. Deep neural networks segment neuronal membranes in electron microscopy images[C]∥Advances in neural information processing systems, Lake Tahoe, Nevada, USA, 2012: 2843-2851. [18] Sermanet P, Eigen D, Zhang X, et al. Overfeat:integrated recognition, localization and detection using convolutional networks[J]. arXiv preprint arXiv:1312.6229, 2013. [19] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 2014:580-587. [20] Sharif R A, Azizpour H, Sullivan J, et al. CNN features off-the-shelf: an astounding baseline for recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition, Columbus, OH, USA, 2014:806-813. [21] Larsson F, Felsberg M. Using Fourier descriptors and spatial models for traffic sign recognition[C]∥Scandinavian Conference on Image Analysis, Ystad, Sweden, 2011: 238-249. [22] Houben S, Stallkamp J, Salmen J, et al. Detection of traffic signs in real-world images: the German traffic sign detection benchmark[C]∥IEEE International Joint Conference on Neural Networks, Dallas, TX, USA, 2013:1-8. [23] Uijlings J R R, van de Sande K E A, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2): 154-171. [24] Mathias M, Timofte R, Benenson R, et al. Traffic sign recognition-how far are we from the solution?[C]∥IEEE International Joint Conference on Neural Networks, Dallas, TX, USA, 2013:1-8.1.3 候選區(qū)域分類
1.4 交通標(biāo)志區(qū)域確定
2 實(shí) 驗(yàn)
2.1 實(shí)驗(yàn)數(shù)據(jù)集
2.2 候選區(qū)域提取分析
2.3 交通標(biāo)志檢測(cè)實(shí)驗(yàn)
3 結(jié)束語