耿經(jīng)邦 梁正友
(廣西大學(xué)計(jì)算機(jī)與電子信息學(xué)院 廣西壯族自治區(qū)南寧市 530004)
隨著中國(guó)社會(huì)經(jīng)濟(jì)的飛速發(fā)展,交通領(lǐng)域變得越來(lái)越方便。同時(shí),隨著私家車(chē)的增加,安全駕駛問(wèn)題變得更加突出,智能交通系統(tǒng)的作用顯得特別重要。交通標(biāo)識(shí)的識(shí)別在智能交通系統(tǒng)中有著重要的作用,為駕駛員提供了減輕駕駛壓力,確保行駛安全的作用,在道路交通運(yùn)營(yíng)中具有實(shí)際的現(xiàn)實(shí)意義。交通標(biāo)志識(shí)別往往是在車(chē)輛行駛過(guò)程中和復(fù)雜的戶外交通環(huán)境下進(jìn)行的,比一般靜止的事物識(shí)別更難,主要體現(xiàn)在運(yùn)動(dòng)模糊、復(fù)雜多變的光照(天氣)條件、背景環(huán)境干擾等問(wèn)題。
在交通標(biāo)識(shí)識(shí)別[1]中,如何選擇更有效更合適的識(shí)別模型,一直都是深度學(xué)習(xí)中的研究熱點(diǎn)之一。近年來(lái),很多深度學(xué)習(xí)、人工智能領(lǐng)域的研究者不斷探索改進(jìn)實(shí)現(xiàn)交通標(biāo)識(shí)識(shí)別的相關(guān)模型,反復(fù)進(jìn)行了大量的實(shí)驗(yàn)。隨著人工智能的發(fā)展,智能交通標(biāo)識(shí)識(shí)別技術(shù)得到了不斷的改進(jìn)創(chuàng)新,在分類識(shí)別方面有了很大的提高。智能駕駛輔助系統(tǒng)[2][3]對(duì)自動(dòng)駕駛是否安全具有重大的意義[4],相關(guān)技術(shù)的提升也使得交通標(biāo)識(shí)走向了更前沿的水平。
基于建立數(shù)據(jù)庫(kù)進(jìn)行交通路標(biāo)圖像的重合對(duì)比,即模板匹配[6]。模板匹配實(shí)際上是一種相鄰算法,通常用于識(shí)別圖像。在真實(shí)場(chǎng)景中,采集到的圖像的顏色或形狀[7]可能會(huì)失真,或者會(huì)被遮擋,這樣,與該圖像進(jìn)行匹配時(shí),標(biāo)準(zhǔn)模板會(huì)有較大的誤差,匹配精度也會(huì)降低。在實(shí)際應(yīng)用時(shí),往往會(huì)因?yàn)橥獠恳蛩氐挠绊憣?dǎo)致出錯(cuò)的幾率大大增加,抗噪性不佳。
與傳統(tǒng)方法相比,深度學(xué)習(xí)方法可以提高效率,自主學(xué)習(xí)。作為機(jī)器學(xué)習(xí)[5]的一部分,該網(wǎng)絡(luò)的信息獲取功能也比較好,很具有代表性,應(yīng)用也比較廣泛。卷積神經(jīng)網(wǎng)絡(luò)(CNN)是受生物學(xué)認(rèn)知機(jī)制啟發(fā)的常見(jiàn)深度學(xué)習(xí)網(wǎng)絡(luò)體系結(jié)構(gòu),已經(jīng)發(fā)展了近20年,現(xiàn)在已經(jīng)成為深度學(xué)習(xí)方向上最重要的網(wǎng)絡(luò)結(jié)構(gòu)之一。從最初具有五層結(jié)構(gòu)的LeNet,到后來(lái)具有19 層體系結(jié)構(gòu)的VGG,再到跨越100 層網(wǎng)絡(luò)的Highway Networks 和ResNet,深化網(wǎng)絡(luò)層已成為CNN 發(fā)展的主要方向之一。
近些年來(lái),很多研究者通過(guò)深度學(xué)習(xí)的方法運(yùn)用卷積神經(jīng)網(wǎng)絡(luò)的知識(shí)進(jìn)行圖像識(shí)別,該方法在很多領(lǐng)域都得到了應(yīng)用。首先,Sirmanet 及其同事提出了一種將網(wǎng)絡(luò)倒數(shù)第一層和倒數(shù)第二層聯(lián)系起來(lái)的方法,性能上有很大提高。Jin 等人使用折頁(yè)損失函數(shù)可在GTSRB 數(shù)據(jù)集上訓(xùn)練和驗(yàn)證CNN 模型。該方法大大減少了訓(xùn)練時(shí)間,并獲得了最高的識(shí)別率。在交通標(biāo)志識(shí)別大賽中,Cire An D等人使用GTSRB(德國(guó)交通標(biāo)志識(shí)別標(biāo)準(zhǔn))數(shù)據(jù)庫(kù)來(lái)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),并使用深層次的多層方法學(xué)習(xí)7 層神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別具有準(zhǔn)確標(biāo)識(shí)的交通標(biāo)志。識(shí)別率為98.62%,比人工識(shí)別具有更高的準(zhǔn)確性,從而進(jìn)一步有效提升了檢測(cè)[8]和分類的精度。
圖1:GTSRB 數(shù)據(jù)集
基于多尺度的信息提取在計(jì)算機(jī)識(shí)別算法中有著很重要的作用。在深度學(xué)習(xí)中,隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的不斷增多,該過(guò)程一般就是對(duì)重要特征的提取,一般是從低層到高層的提取。在這個(gè)識(shí)別的過(guò)程中,隨著網(wǎng)絡(luò)的不斷深入,在每一個(gè)過(guò)程中,多多少少都會(huì)對(duì)一些信息造成損失,越到最后損失的信息越多。為了解決這些問(wèn)題,我們提出了多尺度特征融合機(jī)制。該方法的思想就是在對(duì)每一層的圖像進(jìn)行操作的時(shí)候,先把本層和前一層的信息融合在一起,這樣就會(huì)盡量減少特征信息的丟失?;诙喑叨鹊奶卣魅诤蟍9][10]網(wǎng)絡(luò)在物體檢測(cè)、人體關(guān)鍵點(diǎn)檢測(cè)、細(xì)粒度圖像識(shí)別等很多領(lǐng)域上得到了有效和廣泛的應(yīng)用。
GTSRB 是在2011年的時(shí)候舉辦的一場(chǎng)基于交通標(biāo)志分類的比賽中用到的數(shù)據(jù)集,該數(shù)據(jù)集由43 類交通標(biāo)志組成,如圖1 所示。德國(guó)GTSRB 交通數(shù)據(jù)集最大的特點(diǎn)是該數(shù)據(jù)集中交通標(biāo)志的種類比較多,而且交通標(biāo)志集中包括了不同種類的圖像,有很多分別受到了光照、遮擋或者輕微變形等各種外部環(huán)境的影響,里面的圖像的尺寸范圍大多為15×15 到250×250 之間。唯一的不足就是該數(shù)據(jù)集并不是針對(duì)中國(guó)交通法規(guī)的交通標(biāo)志集,相對(duì)于后者,該數(shù)據(jù)集具有一定的差異性。
交通標(biāo)識(shí)識(shí)別與整體目標(biāo)識(shí)別不同,因?yàn)殪F、雨、雪、光照和位置傾斜[11]等這些因素,我們?cè)讷@取圖像時(shí)會(huì)受到一定的影響,并且獲得的圖像會(huì)比較暗,或者會(huì)產(chǎn)生噪點(diǎn)。這將會(huì)影響道路標(biāo)志識(shí)別。圖像預(yù)處理可以有效地改善圖像質(zhì)量,減少甚至消除不利于目標(biāo)識(shí)別的干擾因素,并會(huì)在一定程度上提高相應(yīng)的性能。因此為了提高識(shí)別網(wǎng)絡(luò)的性能,需要對(duì)數(shù)據(jù)集做一定的處理。預(yù)處理方法比選實(shí)驗(yàn)涉及圖像灰度化[12]、直方圖均衡化和數(shù)據(jù)增強(qiáng)這幾部分。
2.2.1 圖像灰度化
灰度圖像上每個(gè)像素的顏色值又稱為灰度,指的是黑白圖像中點(diǎn)的顏色深度,范圍一般為0~255,白色為255,黑色為0。所謂灰度值[13]是指圖像色彩的濃淡程度,灰度直方圖是指一幅數(shù)字圖像中,對(duì)應(yīng)每一個(gè)灰度值統(tǒng)計(jì)出具有該灰度值的像素?cái)?shù)。將彩色的圖像轉(zhuǎn)化為灰度圖像,我們稱之為圖像的灰度化處理。
表1:加入預(yù)處理方法前后的網(wǎng)絡(luò)性能比較
表2:不同網(wǎng)絡(luò)結(jié)構(gòu)的性能比較
表3:改進(jìn)前與改進(jìn)后ResNet18 網(wǎng)絡(luò)的識(shí)別率比較
圖2:改進(jìn)后的Resnet 整體框架示意圖
2.2.2 直方圖均衡化
直方圖均衡化[14](Histogram Equalization)是一種增強(qiáng)圖像對(duì)比度(Image Contrast)的方法,其主要思想是將一副圖像的直方圖分布變成近似均勻分布,從而加強(qiáng)圖像的對(duì)比度。直方圖均衡化雖然只是數(shù)字圖像處理(Digital Image Processing)里面的基本方法,但是其作用很強(qiáng)大,是一種很經(jīng)典的算法。
2.2.3 數(shù)據(jù)增強(qiáng)
通常而言,比較成熟的網(wǎng)絡(luò)都需要大量的參數(shù)去訓(xùn)練,因而我們?cè)趯?shí)驗(yàn)中需要大量的數(shù)據(jù),而實(shí)際的數(shù)據(jù)庫(kù)中的數(shù)據(jù)又很有限。基于這種情況,需要我們對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。如果對(duì)數(shù)據(jù)集直接去獲得新的數(shù)據(jù),這種方法比較麻煩,需要做的工作比較多。這個(gè)時(shí)候就體現(xiàn)到了數(shù)據(jù)增強(qiáng)的優(yōu)勢(shì),利用現(xiàn)有的技術(shù)對(duì)已有的數(shù)據(jù)集進(jìn)行反轉(zhuǎn),平移等方法,創(chuàng)造出更多的數(shù)據(jù)資源,使得網(wǎng)絡(luò)有更好的性能。
為了驗(yàn)證預(yù)處理方法的有效性,實(shí)驗(yàn)中我們以Resnet18 網(wǎng)絡(luò)為例,本研究設(shè)置了多次實(shí)驗(yàn)進(jìn)行論證。第一組實(shí)驗(yàn)是在原有的Resnet18 網(wǎng)絡(luò)基礎(chǔ)之上,沒(méi)有做任何的改動(dòng);第二組實(shí)驗(yàn)是在第一組實(shí)驗(yàn)的基礎(chǔ)之上加入第三章中提到的預(yù)處理方法。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在原有的 Resnet18 網(wǎng)絡(luò)基礎(chǔ)之上得到的識(shí)別率為91.24,加入了預(yù)處理方法之后,識(shí)別率達(dá)到了93.99。如表1 所示。
從表1 數(shù)據(jù)信息可知,在進(jìn)行了圖像灰度化、直方圖均衡化、數(shù)據(jù)增強(qiáng)等預(yù)處理操作之后,網(wǎng)絡(luò)的識(shí)別效果會(huì)更好,性能也有了很大的提高。
為了選取較優(yōu)的交通標(biāo)識(shí)提取網(wǎng)絡(luò),我們使用了如上經(jīng)預(yù)處理后的數(shù)據(jù)集來(lái)進(jìn)行驗(yàn)證。第一組實(shí)驗(yàn)是在基于VGG16 網(wǎng)絡(luò)基礎(chǔ)之上進(jìn)行的訓(xùn)練;第二組實(shí)驗(yàn)是在基于Resne18 網(wǎng)絡(luò)基礎(chǔ)之上進(jìn)行的訓(xùn)練。由實(shí)驗(yàn)數(shù)據(jù)可知道,VGG16 網(wǎng)絡(luò)的可訓(xùn)練參數(shù)數(shù)量為33M,數(shù)據(jù)集準(zhǔn)確率達(dá)到了90.16:;Resnetl8 網(wǎng)絡(luò)的可訓(xùn)練參數(shù)數(shù)量為11M,數(shù)據(jù)集準(zhǔn)確率達(dá)到了93.99。如表2 所示。
從可訓(xùn)練參數(shù)數(shù)量,模型層數(shù),GTSRB 數(shù)據(jù)集準(zhǔn)確率這幾個(gè)方面可以看出,Resne18 在性能上和VGG16 相比更有優(yōu)勢(shì)。
為了進(jìn)一步提高網(wǎng)絡(luò)的性能,我們對(duì)網(wǎng)絡(luò)做了一些改進(jìn)和優(yōu)化。考慮到一些低層所含有的內(nèi)容與信息是有限的,所達(dá)到的效果有一定的局限,我們進(jìn)行網(wǎng)絡(luò)實(shí)驗(yàn)的時(shí)候,對(duì)網(wǎng)絡(luò)加入了多尺度的特征融合(Multi Scale Feature Fusion)機(jī)制。具體的辦法為將網(wǎng)絡(luò)輸出維度為28×28×128 的這一層和輸出維度為14×14×256 的這一層的最后面的一層的特征信息分別進(jìn)行卷積和平均池化操作,將得到后的特征向量與原始向量進(jìn)行合并。
如圖2 所示。
為了驗(yàn)證新的方法對(duì)于網(wǎng)絡(luò)模型是否有改善,基于經(jīng)過(guò)預(yù)處理后的數(shù)據(jù)集,本研究設(shè)置了多次實(shí)驗(yàn)進(jìn)行論證,并選取了多次實(shí)驗(yàn)平均的結(jié)果,來(lái)進(jìn)一步減小隨機(jī)取數(shù)所受到的影響。第一組實(shí)驗(yàn)是在原有的Resnet 網(wǎng)絡(luò)基礎(chǔ)之上,沒(méi)有做任何的改動(dòng);第二組實(shí)驗(yàn)是在第一組實(shí)驗(yàn)的基礎(chǔ)之上加入了多尺度特征融合機(jī)制。通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),在原有的Resnet18 網(wǎng)絡(luò)基礎(chǔ)之上得到的識(shí)別率為94.29,加入了多特征融合機(jī)制后之后,識(shí)別率達(dá)到了97.74。如表3 所示。
從表3 數(shù)據(jù)信息可知,在引入基于多尺度的特征融合之后,網(wǎng)絡(luò)的識(shí)別效果會(huì)更好,性能也有了很大的提高。
本文主要研究了基于殘差網(wǎng)絡(luò)的交通標(biāo)識(shí)識(shí)別。首先通過(guò)實(shí)驗(yàn)驗(yàn)證了預(yù)處理方法的有效性,然后基于這幾種主流的網(wǎng)絡(luò)結(jié)構(gòu)開(kāi)展了實(shí)驗(yàn)研究和分析,選取了較優(yōu)的提取網(wǎng)絡(luò) Resnet18。在此基礎(chǔ)上對(duì)Resnet18 増加了多尺度特征融機(jī)制,進(jìn)一步提升了網(wǎng)絡(luò)的特征表達(dá)能力,并設(shè)計(jì)實(shí)驗(yàn)驗(yàn)證了改進(jìn)結(jié)構(gòu)的效果,并以改進(jìn)后的Resnet18 作為后續(xù)研究的基本網(wǎng)絡(luò)結(jié)構(gòu)。