鄭秋梅 譚 丹 王風(fēng)華
(中國(guó)石油大學(xué)(華東)計(jì)算機(jī)與通信工程學(xué)院 青島 266580)
交通標(biāo)志是智能交通識(shí)別系統(tǒng)的重要組成部分,其中包含大量直觀、有用的交通信息。交通標(biāo)志識(shí)別既為駕駛員提供安全駕駛的環(huán)境,也為解決交通擁堵問(wèn)題提供了一定的指導(dǎo)信息。
交通標(biāo)志識(shí)別算法有很多種,基于LeNet-5、VGG等網(wǎng)絡(luò)的卷積神經(jīng)網(wǎng)絡(luò)識(shí)別方法由于分類精度改善而被廣泛采用[1~6]。但基于傳統(tǒng)LeNet-5網(wǎng)絡(luò)對(duì)交通標(biāo)志進(jìn)行識(shí)別,存在過(guò)擬合、梯度消失及分類識(shí)別精度不高等問(wèn)題。汪貴平等[7]于2018年提出改進(jìn)LeNet-5網(wǎng)絡(luò)算法對(duì)交通標(biāo)志識(shí)別,有效解決過(guò)擬合及梯度消失現(xiàn)象,識(shí)別準(zhǔn)確率也得到提升,但在更深的網(wǎng)絡(luò)中識(shí)別精度不高,網(wǎng)絡(luò)訓(xùn)練較慢。基于VGG網(wǎng)絡(luò)對(duì)交通標(biāo)志識(shí)別,隨著深度增加,使得網(wǎng)絡(luò)的計(jì)算速度變慢,并且出現(xiàn)梯度消失現(xiàn)象,識(shí)別精度下降。S.R.Zhou等[8]于2018年提出基于VGG的改進(jìn)網(wǎng)絡(luò),通過(guò)添加Dropout層及BN層,進(jìn)一步加快了模型收斂速度,但識(shí)別精度仍然不高。針對(duì)LeNet-5、VGG等網(wǎng)絡(luò)的問(wèn)題,殘差網(wǎng)絡(luò)(ResNet)算法可以有效解決深度增加后計(jì)算緩慢及梯度消失問(wèn)題,但由于殘差網(wǎng)絡(luò)直接采用shortcut連接操作,對(duì)圖像中局部目標(biāo)信息關(guān)注較低,仍然沒(méi)有解決識(shí)別精度不高的問(wèn)題[9]。Wang F等[10]于2017年提出殘差注意力網(wǎng)絡(luò),通過(guò)添加At?tention機(jī)制增強(qiáng)對(duì)多類別局部目標(biāo)的關(guān)注度,提升了總體識(shí)別精度,但添加Attention機(jī)制后,增加了網(wǎng)絡(luò)參數(shù),致使訓(xùn)練收斂速度減慢。
針對(duì)網(wǎng)絡(luò)訓(xùn)練收斂速度慢及分類識(shí)別精度不高的問(wèn)題,本文提出一種改進(jìn)ResNet網(wǎng)絡(luò)的A-ResNet模型,利用數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充GTSRB數(shù)據(jù)集,通過(guò)引入殘差注意力機(jī)制、Dropout層及微調(diào)網(wǎng)絡(luò)層架構(gòu)對(duì)模型進(jìn)行優(yōu)化,實(shí)驗(yàn)證明此改進(jìn)網(wǎng)絡(luò)在擴(kuò)充后的GTSRB數(shù)據(jù)集上得到了更好的識(shí)別精度,并有效提高了訓(xùn)練收斂速度。
自Alexnet[11]以來(lái),CNN結(jié)構(gòu)在不斷加深,VGG和GoogLeNet[12]分別有19個(gè)和22個(gè)卷積層。隨著網(wǎng)絡(luò)深度的增加,梯度消失問(wèn)題的存在使得網(wǎng)絡(luò)訓(xùn)練變得更為困難,收斂效果不好,進(jìn)而引入了ResNet網(wǎng)絡(luò)[13]。ResNet網(wǎng)絡(luò)是2015年ImageNet比賽分類任務(wù)的冠軍,其特點(diǎn)是采用“shortcut”的連接方式,如圖1所示。
ResNet中殘差模塊輸出是由主干網(wǎng)絡(luò)與跳躍連接相加得到,shortcut連接采用恒等映射的方式。ResNet網(wǎng)絡(luò)可以較好地削弱梯度消失的現(xiàn)象,保留輸入圖像中更多的原始信息,減少損失,并且相比于傳統(tǒng)VGG網(wǎng)絡(luò),在更深的網(wǎng)絡(luò)中收斂速度也得到提升,本質(zhì)上降低了訓(xùn)練過(guò)程中數(shù)據(jù)信息的冗余,但shortcut直接連接使其在多種類別的局部目標(biāo)信息的關(guān)注度降低,從而降低分類精度。
大型網(wǎng)絡(luò)多存在訓(xùn)練耗時(shí)長(zhǎng)及模型易發(fā)生過(guò)擬合等問(wèn)題,Dropout層能很好地解決這個(gè)問(wèn)題。Dropout層的本質(zhì)是在網(wǎng)絡(luò)訓(xùn)練過(guò)程中,對(duì)神經(jīng)元以一定概率進(jìn)行暫時(shí)丟棄。當(dāng)數(shù)據(jù)樣本較少時(shí),可以防止模型過(guò)擬合,有效提升分類精度。G.E.Hin?ton等[14]將Dropout層引入進(jìn)卷積神經(jīng)網(wǎng)絡(luò)中,既解決了模型過(guò)擬合現(xiàn)象,又獲得了良好的分類精度。
Attention網(wǎng)絡(luò)可以突出局部目標(biāo)信息,讓網(wǎng)絡(luò)更專注查找輸入圖像中與輸出有關(guān)的有用信息,從而提升圖像目標(biāo)的分類精度[8,15~16]。Fei Wang等[8]于2017年提出殘差注意力網(wǎng)絡(luò),通過(guò)殘差注意力網(wǎng)絡(luò)更專注目標(biāo)信息,使分類精度得到提升。殘差注意力網(wǎng)絡(luò)是一個(gè)含有注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò),是以端到端訓(xùn)練方式與前向反饋網(wǎng)絡(luò)架構(gòu)的結(jié)合,通過(guò)疊加注意力機(jī)制來(lái)構(gòu)建。
殘差注意力網(wǎng)絡(luò)是由多個(gè)注意力模塊疊加而成,注意力模塊分為兩個(gè)分支:主干分支及掩模分支。注意力模塊結(jié)構(gòu)如圖2所示。
圖2 注意力模塊結(jié)構(gòu)圖
掩模分支包含上采樣層及下采樣層,既能快速前饋掃描采集圖像的全局信息,也能自頂向下進(jìn)行反饋將全局信息與原圖特征相結(jié)合。每個(gè)主干分支都有其對(duì)應(yīng)的掩模分支,用于學(xué)習(xí)其對(duì)應(yīng)層特征的注意力信息,防止主干分支更新錯(cuò)誤的權(quán)重參數(shù),可通過(guò)疊加網(wǎng)絡(luò)結(jié)構(gòu)逐步細(xì)化復(fù)雜圖像的注意力特征。殘差注意力塊的計(jì)算公式可以如式(1)所示:
Fi,c(x)表示卷積神經(jīng)網(wǎng)絡(luò)輸出的結(jié)果,Mi,c(x)表示掩模分支權(quán)重輸出結(jié)果,其取值范圍在[0,1],越接近0,輸出越接近F(x),這時(shí)就可以將網(wǎng)絡(luò)表示為殘差學(xué)習(xí)網(wǎng)絡(luò)。Mi,c(x)作為特征選擇器,可以增強(qiáng)有用信息并抑制來(lái)自主干分支的不良噪聲信息,但注意力機(jī)制的增加使得網(wǎng)絡(luò)中參數(shù)增多,可能造成過(guò)擬合,使訓(xùn)練收斂緩慢。
綜上所述,傳統(tǒng)ResNet網(wǎng)絡(luò)的shortcut連接可加快深層網(wǎng)絡(luò)的收斂速度,但由于直接連接使得識(shí)別精度降低,殘差注意力網(wǎng)絡(luò)利用Attention機(jī)制,增強(qiáng)目標(biāo)信息,提升識(shí)別精度,但減緩了網(wǎng)絡(luò)收斂速度,Dropout層可解決神經(jīng)網(wǎng)絡(luò)中的過(guò)擬合問(wèn)題,以正確的正則化提升目標(biāo)圖像分類精度,并利用暫時(shí)丟棄參數(shù)的特點(diǎn),加快網(wǎng)絡(luò)訓(xùn)練速度,為解決網(wǎng)絡(luò)收斂慢及識(shí)別精度不高等問(wèn)題,需要對(duì)傳統(tǒng)ResNet網(wǎng)絡(luò)進(jìn)行改進(jìn)。
針對(duì)傳統(tǒng)網(wǎng)絡(luò)識(shí)別精度不高及殘差注意力網(wǎng)絡(luò)訓(xùn)練收斂速度慢的問(wèn)題,本文為提升訓(xùn)練收斂速度及分類精度,對(duì)傳統(tǒng)ResNet網(wǎng)絡(luò)模型進(jìn)行了改進(jìn),提出了A-ResNet網(wǎng)絡(luò)模型,并應(yīng)用到交通標(biāo)志識(shí)別系統(tǒng)中。
A-ResNet網(wǎng)絡(luò)是由卷積層、池化層、殘差單元、殘差注意力單元和softmax層組成。其結(jié)構(gòu)組成如表1所示。
表1 A-ResNet網(wǎng)絡(luò)模型結(jié)構(gòu)
A-ResNet網(wǎng)絡(luò)的輸入圖像為固定尺寸224×224,第一層卷積層之后生成112×112的特征圖,經(jīng)過(guò)池化層降維之后,輸入到4個(gè)殘差單元及3個(gè)注意力單元,將輸出的14×14的特征圖輸入至平均池化層,將結(jié)果組合成特征向量輸入至softmax進(jìn)行分類。相比于原始ResNet網(wǎng)絡(luò),增加了注意力單元,并調(diào)整各單元結(jié)構(gòu)及添加Dropout層,既能夠加快網(wǎng)絡(luò)訓(xùn)練損失值收斂速度,也能夠提升網(wǎng)絡(luò)識(shí)別交通標(biāo)志的分類精度。
傳統(tǒng)ResNet網(wǎng)絡(luò)中殘差單元采用圖3(a)的結(jié)構(gòu),此結(jié)構(gòu)組成的ResNet網(wǎng)絡(luò)訓(xùn)練速度慢,識(shí)別精度不高,因此為提升分類精度及訓(xùn)練收斂速度而調(diào)整網(wǎng)絡(luò)后的殘差單元結(jié)構(gòu)如圖3(b)所示。
將尺度歸一化層(BN層)以及激活層(ReLU層)調(diào)整到卷積層之前,BN層對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,用于穩(wěn)定網(wǎng)絡(luò)收斂,再將處理后的數(shù)據(jù)輸入至Re?LU激活函數(shù)進(jìn)行激活,既可增加各層之間的非線性關(guān)系,又可以增強(qiáng)網(wǎng)絡(luò)稀疏性,防止過(guò)擬合現(xiàn)象發(fā)生,將激活后的數(shù)據(jù)輸入至卷積層,繼續(xù)提取特征,在卷積層之間添加Dropout層,可以避免網(wǎng)絡(luò)參數(shù)過(guò)度擬合。
圖3 改進(jìn)前后殘差模塊
針對(duì)殘差注意力網(wǎng)絡(luò)在網(wǎng)絡(luò)訓(xùn)練階段收斂速度慢的問(wèn)題,為在穩(wěn)定識(shí)別精度同時(shí)加快網(wǎng)絡(luò)訓(xùn)練收斂速度,本文提出一種改進(jìn)后的殘差注意力網(wǎng)絡(luò)。采用的注意力網(wǎng)絡(luò)具體如圖4所示。
圖4 注意力模塊結(jié)構(gòu)
其中殘差塊、上采樣、下采樣及跳躍分支模塊的基礎(chǔ)結(jié)構(gòu)均采用與本文改進(jìn)后的殘差單元相一致的結(jié)構(gòu)。但不會(huì)直接使用shortcut連接機(jī)制,若直接采用shortcut機(jī)制作為掩模分支結(jié)構(gòu),會(huì)造成深層網(wǎng)絡(luò)梯度得不到反轉(zhuǎn)的問(wèn)題,所以,掩模分支采用上采樣與下采樣過(guò)程相結(jié)合的結(jié)構(gòu),既能獲取圖像中的全局特征信息,又能將提取出來(lái)的全局信息轉(zhuǎn)換為維度一致的特征圖。最后將主干分支與掩模分支所得到的維度一致的特征圖用點(diǎn)乘方式組合起來(lái),構(gòu)成最后輸出的特征圖。其中在下采樣階段,采用最大池化層對(duì)提取的特征圖進(jìn)行降維,降維到最小尺寸7×7,然后在上采樣階段,逐層采用雙線性插值方式擴(kuò)張?zhí)卣鲌D維度,將下采樣得到的特征圖與之相加,得到最終特征圖。這樣做的目的在于結(jié)合全局與局部特征,使表征能力進(jìn)一步加強(qiáng)。
本文在德國(guó)數(shù)據(jù)集基準(zhǔn)GTRSB上進(jìn)行實(shí)驗(yàn),使用caffe框架環(huán)境,在裝有Centos Linux release 7.4,NVIDIA Tesla-PCIE-16GB的linux機(jī)器上完成。
本文實(shí)驗(yàn)采用德國(guó)標(biāo)準(zhǔn)數(shù)據(jù)集GTRSB,數(shù)據(jù)集有43類交通標(biāo)志,其中訓(xùn)練集有39209張圖像,測(cè)試集有12630張圖像,樣本圖像均包含交通標(biāo)志區(qū)域以及周圍區(qū)域,尺寸范圍在15×15到250×250不等。本文使用固定224×224尺寸的圖像作為輸入,輸入格式為L(zhǎng)MDB。數(shù)據(jù)集是通過(guò)裁剪現(xiàn)實(shí)場(chǎng)景圖像中的交通標(biāo)志得到的,其中包括光照、尺寸、模糊程度等不定因素所造成影響的圖像樣本。數(shù)據(jù)集示例如圖5所示。
圖5 GTSRB數(shù)據(jù)集
可看出在數(shù)據(jù)集中,每一張圖像均含有不同尺寸變化,不同光照強(qiáng)度以及不同背景、模糊等影響因素的擴(kuò)展圖像,但通過(guò)實(shí)驗(yàn)發(fā)現(xiàn),數(shù)據(jù)集數(shù)目還是偏少,實(shí)驗(yàn)數(shù)據(jù)的欠缺會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果不理想,為降低實(shí)驗(yàn)數(shù)據(jù)對(duì)最后分類精度的影響程度,本文使用數(shù)據(jù)增強(qiáng)技術(shù)對(duì)數(shù)據(jù)集進(jìn)行增強(qiáng)。利用鏡像翻轉(zhuǎn)、90°和180°及270°旋轉(zhuǎn)、縮放裁剪、顏色亮度不同等操作下,對(duì)交通標(biāo)志數(shù)據(jù)集進(jìn)行擴(kuò)充處理。通過(guò)數(shù)據(jù)擴(kuò)充方式,在輸入圖像階段,提升數(shù)據(jù)的數(shù)量,從而進(jìn)一步提升交通標(biāo)志分類精度。交通標(biāo)志數(shù)據(jù)集數(shù)據(jù)增強(qiáng)示例圖像如圖6所示。在經(jīng)過(guò)數(shù)據(jù)增強(qiáng)之后,數(shù)據(jù)集增多,變?yōu)樵磾?shù)據(jù)集的4倍,增強(qiáng)了數(shù)據(jù)集的表現(xiàn)能力,使分類結(jié)果更準(zhǔn)確。
圖6 數(shù)據(jù)集的數(shù)據(jù)增強(qiáng)方式
針對(duì)傳統(tǒng)ResNet網(wǎng)絡(luò)中的殘差模塊存在識(shí)別精度低的問(wèn)題,為驗(yàn)證改進(jìn)后殘差模塊可提升識(shí)別精度及進(jìn)一步加快收斂速度,本文設(shè)計(jì)37層的ResNet網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),所得結(jié)果如表2所示。在訓(xùn)練階段,改進(jìn)網(wǎng)絡(luò)前后的損失值收斂情況如圖7所示。
因此,實(shí)驗(yàn)證明,調(diào)整網(wǎng)絡(luò)后所的分類精度比調(diào)整之前在top1正確率上提升2%左右,在top5正確率上提升1%左右。但由于添加Dropout層后增加更多前向反饋參數(shù),在運(yùn)行速度上有些許犧牲。在訓(xùn)練階段,改進(jìn)后網(wǎng)絡(luò)比原網(wǎng)絡(luò)的損失值收斂更快,證明改進(jìn)后網(wǎng)絡(luò)可以達(dá)到加快網(wǎng)絡(luò)收斂的目的。
表2 ResNet37改進(jìn)前后實(shí)驗(yàn)結(jié)果對(duì)比表
圖7 訓(xùn)練損失值變化情況
針對(duì)識(shí)別精度和網(wǎng)絡(luò)訓(xùn)練收斂情況兩方面,對(duì)傳統(tǒng)ResNet網(wǎng)絡(luò)、殘差注意力網(wǎng)絡(luò)以及A-ResNet網(wǎng)絡(luò)(本文),在GTSRB增強(qiáng)后數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比,經(jīng)多次實(shí)驗(yàn)發(fā)現(xiàn)設(shè)置學(xué)習(xí)率為0.05時(shí)分類精度最優(yōu),以訓(xùn)練A-ResNet為例,部分結(jié)果如表3所示,因此實(shí)驗(yàn)學(xué)習(xí)率為0.05,迭代4K次,識(shí)別正確率實(shí)驗(yàn)結(jié)果如表4所示。殘差網(wǎng)絡(luò)與本文模型訓(xùn)練時(shí)收斂情況如圖8、圖9所示。
因此,通過(guò)實(shí)驗(yàn)比較看出,A-ResNet網(wǎng)絡(luò)在GTSRB數(shù)據(jù)集上得到的分類識(shí)別率在top1最高達(dá)到97%左右,在top5均達(dá)到99%左右,既比傳統(tǒng)ResNet網(wǎng)絡(luò)提升了2%左右的top1精度,也加快了收斂速度。結(jié)果證明,在網(wǎng)絡(luò)中調(diào)整結(jié)構(gòu)可以加快網(wǎng)絡(luò)訓(xùn)練時(shí)損失值收斂速度,在網(wǎng)絡(luò)中添加殘差注意力機(jī)制及添加Dropout層可以增強(qiáng)類別關(guān)注及防止過(guò)擬合,從而提升分類精度。
表3 A-ResNet不同經(jīng)驗(yàn)學(xué)習(xí)率實(shí)驗(yàn)結(jié)果
表4 識(shí)別正確率實(shí)驗(yàn)結(jié)果
圖8 18層殘差注意力網(wǎng)絡(luò)與本文訓(xùn)練收斂情況
圖9 34層殘差注意力網(wǎng)絡(luò)與本文訓(xùn)練收斂情況
本文對(duì)實(shí)際場(chǎng)景中的交通標(biāo)志識(shí)別進(jìn)行研究,針對(duì)傳統(tǒng)ResNet網(wǎng)絡(luò)識(shí)別精度不高,殘差注意力網(wǎng)絡(luò)收斂速度慢等問(wèn)題,基于殘差注意力網(wǎng)絡(luò)對(duì)傳統(tǒng)ResNet網(wǎng)絡(luò)進(jìn)行改進(jìn),提出了A-ResNet網(wǎng)絡(luò)。經(jīng)實(shí)驗(yàn)測(cè)試,本文提出的A-ResNet網(wǎng)絡(luò)通過(guò)調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)加快了訓(xùn)練收斂速度,引入殘差注意力網(wǎng)絡(luò)及Dropout層可以提升網(wǎng)絡(luò)分類精度。