侯遠(yuǎn)韶
(河南工業(yè)貿(mào)易職業(yè)學(xué)院機(jī)電工程系,鄭州451191)
車輛在快速移動時(shí)背景不斷變化,同時(shí)受制于計(jì)算機(jī)硬件、環(huán)境和天氣等因素,使得采集的車輛信息難以對車型進(jìn)行全面的描述,進(jìn)而導(dǎo)致車型信息有限、魯棒性差,對后期的車型識別和數(shù)據(jù)維護(hù)都存在較大挑戰(zhàn)[1]。針對這一情況,主要通過提升硬件參數(shù)和改進(jìn)軟件算法兩個(gè)方面來提升車型的識別率:提升硬件參數(shù)可以精確得到車輛的有效信息,在一定程度上提高識別率,但是當(dāng)硬件參數(shù)達(dá)到一定數(shù)值時(shí),每增加一個(gè)數(shù)量級都需要付出巨大的成本,同時(shí)環(huán)境和天氣等外部因素以及后期維護(hù)成本都是需要考慮的因素;傳統(tǒng)的機(jī)器學(xué)習(xí)和車型識別算法過于依賴提取特征的全面性以及識別算法的準(zhǔn)確性,且只有當(dāng)特征之間存在巨大差異時(shí)才會有較好的識別效果,不具有普適性;基于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的多層深度特征融合算法,通過含有多個(gè)隱層的深層網(wǎng)絡(luò)獲取圖像的初始特征,然后通過特征融合策略對多個(gè)特征進(jìn)行融合,得到更具有代表性的車型信息,從而提高車型識別效率,同時(shí)避免了位置變化以及背景多變帶來的影響[2]。
圖像的低層特征如何與高層語義聯(lián)系起來是圖像處理的難點(diǎn)。源于人工神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí),模擬人腦進(jìn)行學(xué)習(xí)分析,可以將原始數(shù)據(jù)通過一系列簡單的、非線性映射轉(zhuǎn)變?yōu)楦邔哟纬橄蟮谋磉_(dá)[3]。典型的深度學(xué)習(xí)主要有雙向分層遞歸神經(jīng)網(wǎng)絡(luò)(RNN)、受限玻爾茲曼機(jī)(DBN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)等,通過構(gòu)建含有多個(gè)隱層的模型(通常在5層以上),對原始數(shù)據(jù)進(jìn)行訓(xùn)練,進(jìn)而得到具有圖像代表性信息的特征[4]。深度學(xué)習(xí)利用分層原理逐層進(jìn)行特征提取將提取到的低層特征,反饋給高層,也就是說將m層的輸出作為m+1層的輸入,用數(shù)學(xué)原理表示為,如果存在多維復(fù)雜函數(shù)log(cos(exp(sin(x)))),深度學(xué)習(xí)則可以將多維復(fù)雜函數(shù)分解為低維簡單函數(shù)x,sin(x),ex,cos(x),log(x),深度學(xué)習(xí)利用分層原理網(wǎng)絡(luò)模型如圖1所示。
圖1 深度學(xué)習(xí)利用分層原理網(wǎng)絡(luò)模型
卷積神經(jīng)網(wǎng)絡(luò)主要由卷積層、池化層和全連接層構(gòu)成,權(quán)值共享、局部連接、池化是卷積神經(jīng)網(wǎng)絡(luò)所具有的典型特征,可以將復(fù)雜抽象的網(wǎng)絡(luò)結(jié)構(gòu)類似成生物神經(jīng)網(wǎng)絡(luò),在減少網(wǎng)絡(luò)參數(shù)的同時(shí)保持網(wǎng)絡(luò)的深層結(jié)構(gòu),進(jìn)而提高系統(tǒng)的穩(wěn)定性[5]。卷積神經(jīng)網(wǎng)絡(luò)不需要對原始數(shù)據(jù)進(jìn)行復(fù)雜的變換從而直接輸入網(wǎng)絡(luò),避免復(fù)雜的特征提取和數(shù)據(jù)重建,同時(shí)針對復(fù)雜多變的外部環(huán)境,卷積神經(jīng)網(wǎng)絡(luò)具有高度不變性,在面對圖像數(shù)據(jù)傾斜、平移、比例縮放時(shí)仍然具有穩(wěn)定性[6]。
卷積神經(jīng)網(wǎng)絡(luò)計(jì)算包括前向傳導(dǎo)、反向傳導(dǎo)以及卷積和降采樣過程[7]。傳統(tǒng)的圖像處理算法,在面對一個(gè)1 000×1 000像素的圖像時(shí),需要將圖像表示成一個(gè)1 000 000的向量進(jìn)行描述,同時(shí)每個(gè)神經(jīng)元都需要面對所有輸入層像素,那么由圖像處理算法可知隱層的參數(shù)規(guī)模將達(dá)到1 000 000×1 000 000為1012個(gè),在面對如此規(guī)模的參數(shù)時(shí),對計(jì)算機(jī)硬件和處理算法都是一個(gè)巨大的挑戰(zhàn)[8]。針對這種情況,通過對局部數(shù)據(jù)進(jìn)行特征感知的卷積神經(jīng)網(wǎng)絡(luò),在進(jìn)行卷積操作時(shí)可以減少參數(shù)數(shù)量,同時(shí)具有相同特征值的神經(jīng)元可以進(jìn)行權(quán)值共享,進(jìn)一步提升網(wǎng)絡(luò)流暢性,緩解數(shù)據(jù)的類不平衡,卷積神經(jīng)網(wǎng)絡(luò)原理如圖2所示。
圖2 卷積神經(jīng)網(wǎng)絡(luò)基本結(jié)構(gòu)
不同等級的特征具有不同的特點(diǎn),深度學(xué)習(xí)利用分層原理逐層進(jìn)行特征提取將提取到的低層特征,反饋給高層,而如何在不丟失低層結(jié)構(gòu)特征的同時(shí)保留高層特征的語義信息是研究的重點(diǎn)[9]。低層圖像信息完整地保留了數(shù)據(jù)的結(jié)構(gòu)和彼此間的關(guān)聯(lián)性,具有分辨率高圖像清晰的特點(diǎn),但用于檢測圖像內(nèi)在語義信息不足;高層特征語義信息豐富可以很好地表達(dá)圖像的內(nèi)在語義信息,但由于經(jīng)過多次卷積和變換,圖像原始的結(jié)構(gòu)信息丟失進(jìn)而導(dǎo)致對圖像的細(xì)節(jié)感知不足[10]。將低層特征和高層特征以一定的規(guī)則進(jìn)行互補(bǔ)融合,從而最大程度提升識別效果,是多特征深度融合的關(guān)鍵。具體做法就是將低層特征的結(jié)構(gòu)信息融合到高層特征,高層特征的語義信息融合到低層特征,實(shí)現(xiàn)優(yōu)勢互補(bǔ)進(jìn)而得到一個(gè)聯(lián)合高低級特征的深度卷積神經(jīng)網(wǎng)絡(luò)圖像識別算法[11]。
建立多層深度特征融合模型,需要討論特征融合的可行性。中低分辨率車型的識別,首先需要選擇具有代表性的特征,但由于其分辨率較低在低層特征上缺少語義信息,同時(shí)深度學(xué)習(xí)模型需要大規(guī)模的數(shù)據(jù)集,故對系統(tǒng)硬件提出了更高的要求。其次,深度網(wǎng)絡(luò)含有多個(gè)隱層(一般大于5個(gè)),導(dǎo)致局部特征維度大于全連接層特征向量維度,因此建立多層深度特征融合模型必須解決這些問題,才能實(shí)現(xiàn)算法的整體提升[12]。
多層深度特征融合模型具體操作為:通過卷積下采樣運(yùn)算將低層特征降維進(jìn)而達(dá)到相同的尺寸,具體流程為將圖像低層特征與深度為Ⅰ而維數(shù)不同的卷積核進(jìn)行卷積運(yùn)算,使得低層特征的維度下降但深度不變,卷積神經(jīng)網(wǎng)絡(luò)下的采樣為池化,池化可以看作以p范數(shù)為卷積核的卷積運(yùn)算,數(shù)學(xué)表示式為
式(1)中,x為n維向量,xi(i=1,2,……,n)為向量元素。當(dāng)p接近無窮大時(shí)為最大池化,p=1時(shí)則為平均池化,傳統(tǒng)的池化操作可能會丟失圖像部分信息,而針對中低分辨率的車型信息時(shí),任何信息的丟失都可能造成識別的誤差,因此需要通過卷積操作避免數(shù)據(jù)的丟失。如果低層特征維度為(m×m),深度為n,卷積運(yùn)算結(jié)果為
式(2)中,第l層的特征映射用l表示,a=(1,2,……,u),b=(1,2,……,u),為卷積核在像素區(qū)域?qū)?yīng)的位置,為像素區(qū)域,為像素區(qū)域(a,b)第i個(gè)卷積核的值。那么在像素區(qū)域(a,b)處的多層深度特征融合Y,可以通過對低層特征卷積運(yùn)算與激活函數(shù)f、偏置函數(shù)以及加權(quán)函數(shù)Wl求和得到
多層深度特征融合算法,在構(gòu)建融合模型的基礎(chǔ)上,需要進(jìn)行訓(xùn)練過程和特征組合方式的研究,算法通過對深度特征1和2進(jìn)行融合得到特征融合層,然后特征融合層再與深度特征3融合,以此類推得到全連接層網(wǎng)絡(luò),繼而利用不同深度特征間存在的結(jié)構(gòu)信息,實(shí)現(xiàn)低層特征和高層特征的優(yōu)勢互補(bǔ)融合,最大程度提升識別效果。全連接層網(wǎng)絡(luò)節(jié)點(diǎn)決定了算法的有效性,k層網(wǎng)絡(luò)的節(jié)點(diǎn)Z數(shù)學(xué)表示為
式(4)中,xk-1表示k層網(wǎng)絡(luò)的前一層。算法在去除冗余特征的同時(shí),有效避免了特征融合帶來的維數(shù)災(zāi)難,同時(shí)可以得到不同特征間的相關(guān)信息,進(jìn)而通過融合特征得到魯棒性好、識別能力強(qiáng)的特征,增加車型的識別效率。多層深度特征融合算法具體流程如圖3所示。
圖3 多層深度特征融合算法流程
像素區(qū)域的多層深度特征融合結(jié)果,受偏置函數(shù)、加權(quán)函數(shù)以及激活函數(shù)的影響,同時(shí)中低分辨率的車型圖像對外界環(huán)境變化敏感,而深度學(xué)習(xí)只有通過大量的訓(xùn)練數(shù)據(jù)集才能得出數(shù)據(jù)特征,因此為了防止過擬合現(xiàn)象的發(fā)生,需要對多層深度特征融合網(wǎng)絡(luò)進(jìn)行優(yōu)化,具體方法有數(shù)據(jù)加強(qiáng)技術(shù)和Dropout技術(shù)。基于Dropout的防過擬合,為了減少參數(shù)數(shù)量需要對神經(jīng)元進(jìn)行選擇,每個(gè)神經(jīng)元的選擇概率相等,如果某個(gè)神經(jīng)元的傳遞函數(shù)為
假設(shè)原網(wǎng)絡(luò)的激活函數(shù)為a(h),采用Dropout技術(shù)后隱藏部分神經(jīng)元,得到一個(gè)不可靠的網(wǎng)絡(luò)結(jié)構(gòu),避免過擬合現(xiàn)象的發(fā)生,融合后網(wǎng)絡(luò)的激活函數(shù)為
那么,基于Dropout的防過擬合輸出結(jié)果為
式(7)中,D=(x1,x2……xdh)為伯努利分量?;贒ropout的網(wǎng)絡(luò)優(yōu)化,在降低計(jì)算復(fù)雜度的同時(shí),可以很好地防止過擬合現(xiàn)象的發(fā)生,同時(shí)降低了樣本訓(xùn)練時(shí)間,提升了算法的時(shí)效性。
試驗(yàn)平臺采用64位PC機(jī),Windows7操作系統(tǒng),CPU為Intel i7處理器,96GB RAM,圖像處理器(GPU)采用NVIDIA,編程環(huán)境為Python3.8。試驗(yàn)數(shù)據(jù)集采用Stanford cars數(shù)據(jù)庫,Stanford cars將汽車類別按型號、年份、生產(chǎn)商進(jìn)行分類由斯坦福大學(xué)發(fā)布,該數(shù)據(jù)集包含分辨率為575pixel×310pixel的16 185張汽車數(shù)據(jù),共197個(gè)車型。為了驗(yàn)證算法的普適性,采用數(shù)據(jù)集16 185張汽車數(shù)據(jù)中的8 144張作為深度學(xué)習(xí)的訓(xùn)練樣本,8 041張圖片作為測試樣本,通過對比不同算法對測試樣本的識別準(zhǔn)確度、特征敏感度來驗(yàn)證算法的性能。不同算法實(shí)驗(yàn)對比分析結(jié)果見表1。
表1 不同算法實(shí)驗(yàn)對比分析
通過表1可知,本文算法不管是在準(zhǔn)確度上還是對特征的敏感度上都明顯優(yōu)于其他算法,具有良好的識別效果,體現(xiàn)了高維和低維特征融合的優(yōu)越性,同時(shí)在保持較高精確度的同時(shí)避免了過擬合現(xiàn)象的出現(xiàn)。但是,由于Stanford cars數(shù)據(jù)庫沒有顯現(xiàn)出低分辨率以及復(fù)雜背景下融合算法的優(yōu)越性,因此,為了體現(xiàn)算法的普遍適應(yīng)性特別是在中低分辨率情況下的效果,通過對數(shù)據(jù)集圖像人為進(jìn)行加噪處理,使得數(shù)據(jù)集分辨率降為原始圖像分辨率的80%、60%和40%,來驗(yàn)證本文算法在中低分辨率情況下對車型識別的效果。不同算法在不同圖像分辨率下的實(shí)驗(yàn)結(jié)果見表2。
表2 不同算法在不同圖像分辨率下實(shí)驗(yàn)結(jié)果
通過表2可知,不同分辨率情況下基于多層深度特征融合的車型識別算法可以充分融合高維低維的特征信息,將低層特征的結(jié)構(gòu)信息融合到高層特征,高層特征的語義信息融合到低層特征,進(jìn)而實(shí)現(xiàn)高低維特征間的優(yōu)勢互補(bǔ),相對于其他算法具有一定的優(yōu)勢和普遍適用性。
本文首先分析了典型的深度學(xué)習(xí)方法,以及卷積神經(jīng)網(wǎng)絡(luò)的基本結(jié)構(gòu)和操作,在此基礎(chǔ)上提出了多層深度特征融合算法以及優(yōu)化策略。為了提高車型識別效率,同時(shí)降低計(jì)算復(fù)雜度,建立多層深度特征融合模型,將高層特征的語義信息和低層特征的結(jié)構(gòu)信息進(jìn)行優(yōu)勢互補(bǔ),為了避免過擬合現(xiàn)象的出現(xiàn)采用Dropout技術(shù)對融合網(wǎng)絡(luò)進(jìn)行優(yōu)化。最后通過實(shí)驗(yàn)仿真,驗(yàn)證本文算法在不同分辨率情況下的準(zhǔn)確度以及對特征的敏感度,實(shí)驗(yàn)表明本文算法相對于傳統(tǒng)算法具有一定的識別精確度和普遍適用性。