徐 喆,馮長華
(北京工業(yè)大學 信息學部,北京 100124)
在智能交通系統(tǒng)中,車輛通過攝像頭等傳感器獲取自然場景下的交通標志,用于車輛的輔助駕駛。智能交通標志識別系統(tǒng)需要在較遠距離下完成對交通標志的檢測與識別,以盡早地規(guī)避風險、遵循提示,但是也導致獲取到的交通標志尺寸較小、所含信息量不足,再加上背景復雜等原因,對交通標志的檢測及識別帶來困難[1-3],所以需要對小尺度交通圖像作有效地處理,以提高檢測識別的準確率。
在小尺度目標體的識別領域中,傳統(tǒng)的方法有貝葉斯估計[4]、Top-Hat算子[5]等,這類方法應用范圍廣,能有效地抑制噪聲干擾,增強圖像的對比度,但不能直接映射輸出小目標體的特征信息。還有一些研究者通過最鄰近插值算法、雙線性插值法等[6-7]對圖像進行放大處理,但是放大的圖像存在邊緣模糊、鋸齒效應明顯、圖像失真嚴重等缺點,導致最終的分類識別效果不佳。
近年來,以卷積神經網絡為代表的圖像處理技術,在目標識別、語義分割領域取得優(yōu)異的成績,也成為智能交通領域研究的重點。卷積神經網絡各層能對輸入圖像自適應地提取所需特征,有效提高識別準確率?;诖耍S多學者探索有效的卷積層特征應用于小尺度目標的識別。Takeki等[8]將IMageNet[9]比賽中具有優(yōu)秀分類能力的深度學習模型直接應用于小目標體識別,但較深的網絡結構在小目標的處理中易因過多池化(Pooling)操作引發(fā)特征丟失問題。Long等[10]提出層間特征融合的思想用于解決小尺寸目標分割問題,輸出結果對每一層進行映射采樣易導致信息的過冗余,影響最終的分割效果。Yang等[11]提出尺度依賴池化(Scale Dependent Pooling, SDP)模型,實現(xiàn)了基于輸入圖片的尺度映射輸出不同卷積層的特征,對小尺度目標體提取淺卷積層的特征。 這種對小尺度目標體的處理方法,一定程度上避免了特征丟失問題,較多地保留了圖像細節(jié),另一方面也不會造成輸出特征的過冗余,但是這種做法損失了深卷積層輪廓信息及類別特性。后續(xù)的學者在此方向上提出了改進算法,Choi等[12]提出對各個卷積層使用級聯(lián)分類器,依據各卷積層的權重來決定最終的分類結果,雖然分類結果結合不同卷積層的特征的判定,但每一個分類器的提取特征都是單一特征。
將目前的小目標識別算法應用于小尺度交通圖像的識別中,應根據交通圖像的特點有針對性地改進。交通圖像用特定的字符向駕駛者傳達特定的信息,交通圖像有著顯著的輪廓信息及形狀特性[13-14]。Ruta等[15]通過提取方向梯度直方圖(Histogram of Oriented Gradients, HOG)特征獲得交通圖像的形狀信息,實現(xiàn)檢測識別。Zeiler等[16]通過可視化卷積神經網絡各卷積層的特征,發(fā)現(xiàn)卷積神經網絡隨著層數的加深,輪廓結構的完整性及辨別性增強。如果SDP模型直接應用于小尺度交通圖像的識別,會因直接提取淺卷積層的特征的做法損失交通圖像較好的輪廓特征。基于此,本文提出改進尺度依賴池化模型應用于小尺度交通圖像。首先,在原SDP的基礎上,提出了補充深卷積層特征信息的改進SDP(Supplementary Deep convolution layer characteristic Scale-Dependent Pooling, SD-SDP);其次,為了補充小尺度交通圖像的邊緣信息,提出了多尺度滑窗池化(Multi-scale Sliding window Pooling, MSP)將融合后的特征處理到固定的維度;最后,將改進的SDP模型應用于交通標志的識別。實驗結果表明,本文算法在增強有效特征的基礎上,較好地提高了交通圖像的識別準確率。
尺度依賴池化方法通過輸入圖片的大小提取不同卷積層的特征。尤對小目標的處理上,不再局限于按照卷積神經網絡的結構提取最后一層特征,而是探索卷積神經網絡的中間層,針對不同卷積層的特征,創(chuàng)建對應分支,學習獨立的分類器。首先將圖像按照尺寸大小分到3個子區(qū)間中,劃分標準是[0,64)為小尺度圖像,[64,128)為中等尺度圖像,[128,+∞)為大尺度圖像;小尺度圖像選取卷積神經網絡(Convolution Neural Network, CNN)的第3個卷積層的特征進行Pooling處理(SDP_3),中等尺度圖像選取CNN的第4個卷積層的特征進行Pooling處理(SDP_4),大尺度圖像選取 CNN的第5個卷積層的特征進行Pooling處理(SDP_5);最后根據提取到的特征在conv3、conv4、conv5的每個獨立分支后,連接每個分支特有的全連接層及分類器。
在對小尺度的交通標志識別研究中,針對尺度依賴池化模型對小尺度的交通圖像只提取淺卷積層的底層特征,而忽略了較好的深卷積層的輪廓信息及辨識度較高的類別信息。為進一步提高交通圖像的識別準確率,本文改進的尺度依賴池化模型過程如下:
步驟1 提取卷積神經網絡的第3個卷積層的特征,并使用主成分分析(Principal Component Analysis, PCA)對特征進行降維;
步驟2 提取卷積神經網絡的第5個卷積層的特征,并與第3個卷積層的特征融合;
步驟3 使用MSP方法將融合后的特征池化固定的維度,完成特征的訓練;
在對小尺度交通圖像的處理中,尺度依賴池化模型提取淺卷積層的特征的方式,在一定的程度上,能避免因卷積神經網絡層數的加深導致的交通圖像特征丟失嚴重的問題。然而文獻[16]通過對ImageNet上的1 000類物體作特征的可視化分析,使CNN的使用者逐漸清晰神經網絡的每層提取特征的特點,如淺層的顏色信息及深層的類別信息等。淺卷積層提取簡單的顏色、邊緣等特征,存在特征信息對目標物體理解不足的問題,而通過增加卷積及Pooling的次數,能逐漸提取復雜的輪廓結構信息,且卷積神經網絡的層數越深,信息的完整性及辨別性就較好。本文基于小目標改進的尺度依賴池化模型,結合不同卷積層的特征,使用豐富的特征信息實現(xiàn)交通圖像的分類識別。增強后的特征提取結果如下公式表示:
(1)
為了比較特征的增量,表1顯示不同尺度的交通圖像下,原尺度依賴池化模型與改進的尺度依賴池化模型特征量的對比,關于特征總量的計算是基于本文使用的網絡結構如表3所示,每層的特征量是由特征通道數與單層通道的特征量乘積的結果,結果發(fā)現(xiàn)改進的SDP模型與原SDP相比特征總量有所增加,且通過映射深卷積層的信息,特征信息更加豐富,而關于增強后特征的有效性將在實驗環(huán)節(jié)的準確率的對比中展示。
圖1 特征增強型尺度依賴池化模型的網絡結構 Fig. 1 Network structure diagram of modified feature-enhanced scale-dependent pooling model
表1 不同算法下交通圖像特征量的對比Tab. 1 Comparison of traffic image feature quantities under different algorithms
空間金字塔池化的提出是為了解決輸入圖片尺度多變性的問題,通常用在網絡的倒數幾層,也就是我們即將與全連接層連接的時候,使用空間金字塔池化,使得任意大小的特征圖都能夠轉換成固定維度的特征向量 。將特征圖劃分成22*22個特征區(qū)域,然后利用三種不同大小的刻度(22×22,21×21,20×20),對特征區(qū)域進行劃分,最后總共可以得到16+4+1=21個塊,使用最大池化方法求取每個區(qū)域的最大值,就可以得到固定的21維的向量。然而選擇固定的刻度將特征圖劃分為不重疊的塊區(qū)域,會損失圖像的邊緣信息,導致邊緣模糊,還易造成混疊效應,不利用整體輪廓信息的識別,在一定程度上,導致識別準確率的下降。
本文提出了改進的空間金字塔池化算法即MSP方法,用固定刻度對特征圖進行劃分后,在劃分后的特征圖上使用多種尺度Pooling核進行滑窗。如圖2所示,將特征圖劃分成4×4 的窗格區(qū)域,分別以Pooling 核大小為4×4,3×3,2×2,1×1,Pooling步長為1,1,1,1 對劃分后的特征圖進行滑窗池化操作,池化方法選擇最大值池化, 得到的對應特征維度向量是分別是1,4,9,16,一共獲得30維的特征向量。MSP算法在用固定刻度劃分的特征圖上,使用多種尺度的Pooling核大小進行池化操作,能夠有效適應目標物體的尺度多變性,靈活地提取目標物體的邊緣信息,且有重疊的池化加強了邊界變量與相鄰區(qū)域的相關性,模糊了塊與塊之間的邊界,使得處在邊緣的像素點也能提供特征信息,有利于整體信息輪廓的提取及識別。因此在改進的尺度依賴池化模型的基礎上,使用MSP方法,能夠進一步補足小尺度交通圖像的特征。
圖2 多尺度滑窗池化的結構 Fig. 2 Network structure multi-scale sliding window pooling
本文用原SDP模型以及改進的SDP模型對交通標志進行識別,因為改進的SDP有補充深卷積信息的SDP(SD-SDP)及加入多尺度滑窗池化兩部分,因此,在原SDP模型基礎上分別加入SD-SDP及MSP作對比實驗,驗證每一部分改進的有效性,而后在相同的數據集上對網絡的準確率及耗時作比較。因為網絡訓練參數的隨機性,本文采取對每一類算法做10組實驗,并對實驗結果求平均值, 且在每次實驗時,模型的卷積層共用一組相同的初始化參數,以提高實驗的穩(wěn)定性及增強說服力。
實驗中使用的交通標志數據集是德國交通標志識別數據集GTSRB,其中包含39 209張訓練集和12 630張測試集,交通標志的種類為43類,包含禁止、指示、警告等各類交通標志,并且按照尺度依賴池化(SDP)模型的尺寸劃分準測,交通圖像的尺寸大小基本為小尺度圖片,圖3是數據集中的部分樣本。
SDP算法是基于模型VGG16[17]實現(xiàn)的,交通標志識別任務并不像ImageNet數據集的分類那樣復雜,所以考慮在參考VGG16網絡架構的基礎上減小網絡框架。本文所采用的網絡模型如表2,其中神經網絡包含5個卷積,3個全連接,為了降低特征維度,每個卷積后都有相對應的Pooling 層,但由于交通圖像多為小尺度圖像,卷積及Pooling的核及步長也使用較小的值,第一個全連層的神經元的個數分別是3 072,相比4 096有著更好的識別精度。激活函數采用了Relu函數,避免反向傳播中的梯度消失問題,能夠有效提高網絡訓練的精度,因此卷積及Pooling的核大小及步長也調整到一個較小值。為了驗證網絡模型的有效性,將在接下來的實驗中設計改進的SDP算法在幾種不同模型下的準確率及實時性的對比實驗。為了使網絡具有更好的泛化能力。在網絡訓練中我們使用AdaDelta[18]、Dropout[19]方法來盡量地抑制網絡過擬合問題。
圖3 GTSRB交通標志數據集中的部分樣本 Fig. 3 Part samples of GTSRB traffic sign dataset
表2對比了不同模型及不同方法在GTSRB數據集下準確率及實時性,其中硬件平臺CPU:I7-6700,GPU:GTX-TITAN X,可以觀察到3種方法在不同模型下的比較結果。
表2 不同模型及不同方法在GTSRB數據集下準確率及實時性的比較Tab. 2 Comparison of accuracy and real-time of different models and different methods in GTSRB dataset
SDP模型是基于模型VGG16實現(xiàn)的,交通標志的識別任務不像ImageNet數據集的分類那樣復雜,所以考慮在參考VGG16網絡架構的基礎上減小網絡架構。本文所采用的網絡模型如表3,其中神經網絡包含5個卷積。
表3 本文使用的網絡模型說明Tab. 3 Network model used in this article
一般來講網絡模型的加深會得到較好的分類識別結果,但針對不同的識別任務,應當選擇合適的網絡模型,以實現(xiàn)準確率及實時性的平衡。如交通標志的識別任務中,本文使用的網絡模型與VGG16 相比,準確率也有所下降,但實時性得到很好的提升。且通過改進特征提取方式有效彌補了準確率下降的缺點,使用SD-SDP與原SDP相比,準確率提升約3%,在SD-SDP中使用多尺度滑窗(MSP)又使準確率得到了約1.2%,這種改進通過提取對交通圖像分類較為重要的深卷積層的輪廓信息,增加了重要特征信息,使得交通圖像分類的準確率得以提升。雖然改進的SDP算法在VGG模型取得最好的分類效果,但綜合考慮實時性及準確率的情況下,本文模型的結果相對而言,則更有可取性。
改進的SDP模型也含有3個分支,分別對應不同尺度輸入圖像的訓練識別,GTSRB中的39 209張訓練集,依據尺度大小,完成不同分支的參數訓練。因改進SDP模型主要改進的是小尺度輸入圖像的特征提取方式,按照SDP的尺度劃分標準,對小尺度交通圖像(尺寸為[0,64)及非小尺度的交通圖像的識別準確率作了分別統(tǒng)計。表4對比了各種方法在不同尺度的交通圖像下分類準確率的比較結果,可以看到小尺度交通圖像的準確率得到有效提升,而非小尺度交通圖像準確率不變,改進的SD-SDP算法和原SDP算法相比,準確率提升約3.8%,加入MSP方法的改進SD-SDP模型,準確率的提升在1.5%。另外當驗證集中部分樣本過小,可能使深卷積層的特征量過少。在此種情況下對融合后的特征向量模型的性能也做了獨立實驗,因此對GTSRB數據集中的寬和高度都小于等于32的這部分樣本進行了實驗,這部分樣本的數量是399,在被劃分為小尺度交通圖像的10 140張圖片中,所占比例不大。 改進的SDP相比原SDP算法中正確識別的正確率由79.7%提升至81.7%,因樣本尺寸偏小,所以識別準確率整體偏低,通過改進的SDP模型實驗,特征量融合對識別準確率的提升也有限。而測試集總準確率的計算是小尺度交通圖像及非小尺寸交通圖像占總樣本的比重與對應的準確率的相乘再相加的結果。在GTSRB的12 630張測試集中,其中的10 140張圖片都可按照SDP尺度劃分標準歸為小尺度圖像,小尺度在影響總準確率時占較大的比重,因此基于小目標改進的SDP模型能較好地提升整體的準確率。
表4 各方法在不同尺度交通圖像下準確率對比Tab. 4 Comparison of accuracies of different methods for traffic images with different scales
圖4是部分交通標志樣本的輸出特征圖,可以觀察到,淺層的特征具有物體的簡單邊緣信息,而隨著層數的加深,特征信息更加地抽象,非人眼可辨別的信息特征。文獻[16]在理解及可視化卷積神經網絡過程中,通過對大量目標體觀察神經網絡每一層的輸出,分析了每一層提取特征的主要特點,得出深卷積神經網絡特征具有更好的類別信息及完整的輪廓特性點。這也是本文作改進的原因。
為了客觀對本文算法進行分析,將本文算法與其他交通標志的識別算法進行比較,有文獻[15]中使用HOG+SVM的交通標志識別,以及目前在GTSRB數據集上取得最好結果的多列卷積神經網絡[20],還對比了人類在交通標志識別中的表現(xiàn)[21]。表5列舉了幾種不同方法在GTSRB數據集的識別準確率與實時性的比較,可見相對于單一人工特征的識別分類,卷積神經網絡自適應特征有著更加優(yōu)異的表現(xiàn),尤其針對識別目標,設計一種優(yōu)秀的網絡模型,提取有效的特征層信息,其識別準確率會大大提升。其中:文獻[20]使用的多列卷積神經網絡是目前唯一超過人類表現(xiàn)的,但是也不可避免地因卷積神經網絡的程度過于復雜,造成一張圖片的處理時間過長;文獻[22]提出一種去除神經網絡冗余參數的網絡模型來提高交通圖像識別準確率及實時性;文獻[23]提出二級級聯(lián)的神經網絡進行細微類別信息的提取,來提高分類的準確率;文獻[24]提出多任務的卷積神經網絡完成交通標志感興趣區(qū)域(Region Of Interest, ROI)的提取及對提取的感興趣區(qū)域分類識別。而SDP作為一種探索不同卷積層的特征的小目標識別算法,本文將其改進應用到小尺度交通圖像的識別中,雖然沒有人類的識別準確率高,但前面的實驗結果已經證明,通過改進的SD-SDP算法,有效完善了交通圖像的輪廓信息,提高了交通標志的識別準確率,本文算法在平衡實時性及準確率方面,有一定的實用價值。
圖4 卷積網絡的各層可視特征圖 Fig. 4 Feature map of each layer of convolution network 表5 不同方法在GTSRB數據集識別結果對比 Tab. 5 Results comparison of different methods for traffic sign identification in GTSRB dataset
方法分類時間/ms準確率/%文獻[15]的HOG+SVM算法17695.68MSP+SD-SDP+本文的網絡模型15298.57文獻[20]的算法45799.40文獻[21]的算法—98.84文獻[22]的算法21399.05文獻[23]的算法—97.94文獻[24]的算法27599.01
圖5是未被識別的交通標志,交通標志存在污損嚴重、運動模糊、過度曝光等因素,導致交通標志的特征提取條件不利,因此不能正確識別交通標志。
圖5 未被正確識別的交通標志 Fig. 5 Not properly identified traffic signs
將SDP模型直接應用于小尺度交通圖像的識別,會損失較好的深卷積層輪廓信息及類別特性,而影響交通標志識別的準確率。本文提出的改進SDP模型:首先,將深卷積層的特征與淺卷積層的特征進行融合,增強特征的表達能力;其次使用MSP算法將融合后的特征向量池化到固定的維度,補充了識別目標的邊緣信息;最后理論分析及實驗證明,在特征量增加的基礎上,有效提高交通標志的識別準確率。但另一方面,小尺度交通圖像經過需要更多的卷積及Pooling操作,導致耗時增加。接下來的研究,可以考慮在保證準確率不下降的情況下,減少訓練耗時,使算法應用于實時交通序列中。
參考文獻(References)
[1] YUAN X, HAO X, CHEN H, et al. Robust traffic sign recognition based on color global and local oriented edge magnitude patterns [J]. IEEE Transactions on Intelligent Transportation Systems, 2014, 15(4): 1466-1477.
[2] ZAKLOUTA F, STANCIULESCU B. Real-time traffic sign recognition in three stages [J]. Robotics and Autonomous Systems, 2014, 62(1): 16-24.
[3] SALTI S, PETRELLI A, TOMBARI F, et al. Traffic sign detection via interest region extraction [J]. Pattern Recognition, 2015, 48(4): 1039-1049.
[4] BRUNO M G S, MOURA J M F. Multiframe detector/tracker: optimal performance [J]. IEEE Transactions on Aerospace and Electronic Systems, 2001, 37(3): 925-945.
[5] HAN J, MA Y, ZHOU B, et al. A robust infrared small target detection algorithm based on human visual system[J]. IEEE Geoscience and Remote Sensing Letters, 2014, 11(12): 2168-2172.
[6] COLLATZ L. An image interpolation-based approach to the detection of small moving target [J]. Energy Procedia, 2011, 13(1): 2152-2157.
[7] 張阿珍,劉政林,鄒雪城,等.基于雙三次插值算法的圖像縮放引擎設計[J].微電子學與計算機,2007,24(1):49-51.(ZHANG A Z, LIU Z L, ZOU X C, et al. Design of image scaling engine based bicubic interpolation algorithm [J]. Microelectronics and Computer, 2007, 24(1): 49-51.)
[8] TAKEKI A, TRINH T T, YOSHIHASHI R, et al. Combining deep features for object detection at various scales: finding small birds in landscape images[J]. IPSJ Transactions on Computer Vision and Applications, 2016, 8(1): 5-13.
[9] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]// Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2009: 248-255.
[10] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3431-3440.
[11] YANG F, CHOI W, LIN Y. Exploit all the layers: fast and accurate CNN object detector with scale dependent pooling and cascaded rejection classifiers [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 2129-2137.
[12] CHOI W, YANG F, LIN Y. Cascaded neural network with scale dependent pooling for object detection: U.S. Patent Application 15/343,017[P]. 2016- 11- 03.
[13] HUANG Z, YU Y, GU J, et al. An efficient method for traffic sign recognition based on extreme learning machine[J]. IEEE Transactions on Cybernetics, 2017, 47(4): 920-933.
[14] LIU H, LIU Y, SUN F. Traffic sign recognition using group sparse coding [J]. Information Sciences, 2014, 266(10): 75-89.
[15] RUTA A, LI Y, LIU X. Real-time traffic sign recognition from video by class-specific discriminative features [J]. Pattern Recognition, 2010, 43(1): 416-430.
[16] ZEILER M D, FERGUS R. Visualizing and understanding convolutional networks [C]// Proceedings of the 2014 European Conference on Computer Vision, LNCS 8689. Berlin: Springer, 2014: 818-833.
[17] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [J]. Computer Science, 2014, 9(4): 1409-1556.
[18] ZEILER M D. ADADELTA: an adaptive learning rate method [J]. Computer Science, 2012, 11(2): 1212-1221.
[19] SRIVASTAVA N, HINTON G, KRIZHEVSKY A, et al. Dropout: a simple way to prevent neural networks from overfitting [J]. The Journal of Machine Learning Research, 2014, 15(1): 1929-1958.
[20] CIRESAN D, MEIER U, MASCI J, et al. Multi-column deep neural network for traffic sign classification [J]. Neural Networks, 2012, 32: 333-338.
[21] STALLKAMP J, SCHLIPSING M, SALMEN J, et al. Man vs. computer: benchmarking machine learning algorithms for traffic sign recognition [J]. Neural Networks, 2012, 32: 323-332.
[22] AGHDAM H H, HERAVI E J, PUIG D. Toward an optimal convolutional neural network for traffic sign recognition [C]// Proceedings of the 8th International Conference on Machine Vision. Bellingham, WA: SPIE, 2015, 9875: 98750K.
[23] XIE K, GE S, YE Q, et al. Traffic sign recognition based on attribute-refinement cascaded convolutional neural networks [C]// Proceedings of the 17th Pacific-Rim Conference on Multimedia, LNCS 9916. Berlin: Springer, 2016: 201-210.
[24] LUO H, YANG Y, TONG B, et al. Traffic sign recognition using a multi-task convolutional neural network [J]. IEEE Transactions on Intelligent Transportation Systems, 2017, PP(99): 1-12.
XUZhe, born in 1968, Ph. D., associate professor. Her research interests include signal processing, adaptive control and intelligent instrument.
FENGChanghua, born in 1991, M. S.candidate. Her research interests include image processing, pattern recognition.