盧海燕, 趙紅東, 王添盟, 林 江, 耿立新, 劉 赫
(1.河北工業(yè)大學(xué) 電子信息工程學(xué)院,天津 300401; 2.天津金沃能源科技股份有限公司,天津 300380)
隨著經(jīng)濟(jì)的快速發(fā)展,汽車的使用量逐漸增加,安全問題也接踵而至。行人相比于機(jī)動(dòng)車駕駛員更容易受到傷害,特別是夜間交通事故[1~3]發(fā)生的概率更高。夜間照明條件較差,能見度較低,是造成交通傷害的主要原因。而紅外圖像可以不受光的影響,依賴目標(biāo)的熱輻射成像,并且可以在不干擾所測溫度場的情況下測量運(yùn)動(dòng)物體[4,5]。行人保護(hù)系統(tǒng)用于檢測車輛周圍行人情況,行人識別是行人保護(hù)系統(tǒng)的核心,如何在夜間獲得高質(zhì)量的行人圖像以及高效低耗的方法是該系統(tǒng)設(shè)計(jì)的核心。
為在紅外圖像中獲取有效的行人特征,研究學(xué)者提出了許多特征提取的方法,傳統(tǒng)的研究方法利用人體結(jié)構(gòu)信息提取特征[6~8]。文獻(xiàn)[6]提出采用方向梯度直方圖(histogram of oriented gradient,HOG)對紅外人體目標(biāo)進(jìn)行提取,取得了一定效果。文獻(xiàn)[7]提出了一種基于局部強(qiáng)度差異直方圖(histograms of local intensity differences,HLID)的紅外人體目標(biāo)亮度特征提取方法。文獻(xiàn)[8]提出局部二進(jìn)制模型(local binary pattern,LBP)對紅外人體目標(biāo)進(jìn)行紋理特征提取。這些方法提取的是形狀、紋理、輪廓特征等同類型的人體結(jié)構(gòu)信息,提取信息過程較復(fù)雜,并且魯棒性較差,識別性能也難以得到更有效的提升。
卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的發(fā)展讓學(xué)者對紅外人體識別也越來越感興趣。Dai X等人[4]提出了一種將自學(xué)習(xí)的SoftMax函數(shù)與9層CNN模型結(jié)合使用的方法,用于識別近紅外夜間行人。Akula A等人[9]設(shè)計(jì)了具有2個(gè)卷積層的有監(jiān)督CNN結(jié)構(gòu)來對6個(gè)動(dòng)作類進(jìn)行分類。Lee E J等人[10]設(shè)計(jì)了4層CNN結(jié)合增強(qiáng)型隨機(jī)森林分類器來識別分類夜間的6種不安全行為。雖然,目前CNN方法在識別準(zhǔn)確率[11]和泛化能力方面表現(xiàn)優(yōu)秀,但仍然受到效率問題的困擾。
為了獲得夜間的高質(zhì)量圖像,本文建立了紅外行人行為數(shù)據(jù)集,針對模型精度與計(jì)算復(fù)雜度之間的制約問題,受輕量化模型的啟發(fā),探究了MobileNet,設(shè)計(jì)出一個(gè)基于紅外圖像的行人行為識別模型,不僅大大減少了參數(shù)量和計(jì)算量,同時(shí)也更適用于紅外行人圖像,在自建立的紅外行人行為數(shù)據(jù)集上取得了較高識別精度。
數(shù)據(jù)集通過使用手持式紅外攝像儀,在實(shí)際交通道路上進(jìn)行夜間拍攝采集。使用的紅外攝像儀拍攝的波長范圍為7.5~13.5 μm??紤]到行人目標(biāo)在遠(yuǎn)距離時(shí)目標(biāo)較小,且熱量表現(xiàn)較低,難以區(qū)分行人的行為,因此,將拍攝距離控制在15~30 m的范圍內(nèi),圖1比較了相同場景下約20 m處的夜間道路成像情況,可以看出,紅外圖像可以克服光照不足的困難,具有良好的夜視效果和很強(qiáng)的抗干擾能力。
圖1 夜間成像比較(距離:20 m)
通過使用紅外攝像儀共收集了5 400張?jiān)紙D片,圖片大小為320×212,根據(jù)實(shí)際交通情況,將行人行為劃分為6類,包含有騎車、跑、輪滑、走、坐和蹲。首先,對所獲得的數(shù)據(jù)集進(jìn)行剪裁,得到每類動(dòng)作分別為500張,每張圖片僅包含一個(gè)行人行為,涉及到行人的正面、背面以及側(cè)面,對所獲數(shù)據(jù)集進(jìn)行擴(kuò)充,通過順時(shí)針和逆時(shí)針旋轉(zhuǎn)5°將原數(shù)據(jù)集增加2倍,然后,對所得圖像進(jìn)行鏡像翻轉(zhuǎn),得到原數(shù)據(jù)集的6倍,得到行人動(dòng)作數(shù)據(jù)集總數(shù)為18 000張圖片,示例圖片如圖2所示。
圖2 不同行人行為動(dòng)作樣本示例
MobileNet是Google公司2017年提出的,可以像AlexNet、VGG16等經(jīng)典深度學(xué)習(xí)網(wǎng)絡(luò)用于目標(biāo)分類、人臉屬性識別、人臉識別等提取圖像卷積特征。MobileNet參數(shù)量、計(jì)算量較少,準(zhǔn)確率較高,更適合用于移動(dòng)和嵌入式端設(shè)備。使MobileNet輕量化的結(jié)構(gòu)為逐通道卷積和逐點(diǎn)卷積。
為了減少計(jì)算量和參數(shù)量,深度可分離卷積被相關(guān)學(xué)者提出。深度可分離卷積實(shí)際上包括一個(gè)逐通道卷積和一個(gè)逐點(diǎn)卷積,將原來的標(biāo)準(zhǔn)卷積過程分成了兩步,首先,逐通道卷積第1步是將輸入的特征圖分解成n個(gè),第2步對每個(gè)通道分別進(jìn)行卷積運(yùn)算,也就是分組卷積,得到n個(gè)特征的輸出結(jié)果。接著,將逐通道卷積的輸出作為逐點(diǎn)卷積的輸入,對于輸入進(jìn)行1×1的卷積核計(jì)算,將產(chǎn)生的輸出通道進(jìn)行整合。若在構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)時(shí)采用3×3卷積核,MobileNet中深度可分離卷積的計(jì)算量將比標(biāo)準(zhǔn)卷積減少8~9倍。
MobileNet為了進(jìn)一步提高模型泛化能力,打亂樣本訓(xùn)練次序,減少參數(shù)間的相似關(guān)系以及過擬合,在每個(gè)3×3逐通道卷積和1×1點(diǎn)卷積后,有批量歸一化和非線性激活函數(shù)ReLU操作,得到深度可分離卷積層。ReLU函數(shù)能解開特征間纏繞的復(fù)雜關(guān)系,轉(zhuǎn)換為稀疏特征,它的函數(shù)表達(dá)式如下
(1)
當(dāng)輸入值大于或等于0時(shí),該函數(shù)的偏導(dǎo)數(shù)恒唯1,可以有效解決梯度損失問題;輸入為負(fù)值時(shí),輸入梯度都被轉(zhuǎn)換成0,導(dǎo)致神經(jīng)元不再被激活,出現(xiàn)死亡現(xiàn)象[12]。而PReLU函數(shù)是針對ReLU函數(shù)的改進(jìn),在輸入小于0時(shí),PReLU函數(shù)取負(fù)值,解決了ReLU函數(shù)在負(fù)值時(shí)無法激活的問題。函數(shù)表達(dá)式如下
(2)
本文將模型深度可分離卷積中,逐通道卷積后的ReLU替換成PReLU,得到M-MobileNet,改進(jìn)后的深度可分離模塊計(jì)算量未發(fā)生改變,卻解決了通道信息可能出現(xiàn)丟失的情況。
本文受到MobileNet網(wǎng)絡(luò)模型啟示,結(jié)合建立的紅外行人數(shù)據(jù)集特點(diǎn),由于MobileNet中存在有相同的重復(fù)卷積層,在用于尺寸較小的紅外單通道圖像,重復(fù)的深層網(wǎng)絡(luò)并不能再提供特征圖的有用信息,并且會(huì)額外增加計(jì)算量,在盡可能減少網(wǎng)絡(luò)參數(shù)并且保持模型較高識別精度的思想下,設(shè)計(jì)在M-MobileNet的基礎(chǔ)上,對網(wǎng)絡(luò)模型參數(shù)進(jìn)行修改,并依次去掉模型中5個(gè)重復(fù)的深度可分離卷積層,最后得到參數(shù)量最少的S-MobileNet,用于后續(xù)實(shí)驗(yàn)。
硬件平臺為Inter?CoreTMi7—8550U CPU@1.80 GHz 1.99 GHz處理器,RAM為8 GB和NVIDA GeForce MX130顯卡,操作系統(tǒng)為Windows 64位操作系統(tǒng)。將自采集的紅外行人數(shù)據(jù)集按照4︰1分為訓(xùn)練集和驗(yàn)證集,分別用經(jīng)典的深度學(xué)習(xí)網(wǎng)絡(luò)AlexNet、MobileNet、M-MobileNet以及S-MobileNet進(jìn)行訓(xùn)練,訓(xùn)練網(wǎng)絡(luò)參數(shù)均設(shè)置為:學(xué)習(xí)率為0.01,迭代次數(shù)為100,每個(gè)批次64張圖片。
比較了不同網(wǎng)絡(luò)下的識別性能,如圖3所示。可以看出,AlexNet網(wǎng)絡(luò)波動(dòng)最大,AlexNet適用于識別ImageNet大規(guī)模數(shù)據(jù)集,神經(jīng)元數(shù)量過多,參數(shù)龐大,其應(yīng)用于數(shù)據(jù)集有限的紅外行人行為分類識別問題研究中效果欠佳。S-MobileNet網(wǎng)絡(luò)準(zhǔn)確率達(dá)到94.3 %,且模型損失穩(wěn)定在0.01~0.002之間,說明了該模型具有良好的擬合效果和較高的準(zhǔn)確率,各網(wǎng)絡(luò)的模型參數(shù)及準(zhǔn)確率如表1所示,以AlexNet為基準(zhǔn),分別比較了各模型與之參數(shù)量的占比情況??梢钥闯鯯-MobileNet參數(shù)僅為AlexNet的1/75,在得到相似精度的基礎(chǔ)上大大減少了網(wǎng)絡(luò)參數(shù)。此外,S-MobileNet是對MobileNet進(jìn)行簡化的網(wǎng)絡(luò)結(jié)構(gòu),取得了與之相似的準(zhǔn)確率,說明在提取尺寸較小的紅外行人圖像時(shí),重復(fù)的深度層不再能提供圖像的特征信息。
圖3 不同模型分類結(jié)果對比
表1 不同模型參數(shù)及準(zhǔn)確率
為了能夠在復(fù)雜環(huán)境背景的干擾下提高行人分類識別效果,本文進(jìn)一步選擇了三種優(yōu)化器SGD,Adam和Nadam,訓(xùn)練S-MobileNet和MobileNet模型,結(jié)果如表2。
表2 采用不同分類器的分類準(zhǔn)確率 %
由表2可以看出,S-MobileNet在使用Nadam優(yōu)化器后準(zhǔn)確率達(dá)到96.3 %,準(zhǔn)確率高于使用SGD優(yōu)化器2 %,說明Nadam比SGD優(yōu)化器更能提高準(zhǔn)確率;同時(shí)高于MobileNet+Nadam1.9 %,說明設(shè)計(jì)的S-MobileNet不僅減少了網(wǎng)絡(luò)模型參數(shù)量,也進(jìn)一步提高了識別準(zhǔn)確率,相比于文獻(xiàn)[12]中改進(jìn)MobileNet準(zhǔn)確率提高1.03 %,具有更高的改進(jìn)效果。
為了提高準(zhǔn)確率和節(jié)約計(jì)算成本,對MobileNet網(wǎng)絡(luò)中的寬度乘法器進(jìn)行選擇,在使用效果最佳的優(yōu)化器Nadam的基礎(chǔ)上,再選擇不同的寬度因子α,比較MobileNet和S-MobileNet的準(zhǔn)確率。由表3可以看出,在α=0.75時(shí),MobileNet得到最優(yōu)的分類準(zhǔn)確率,而S-MobileNet在寬度因子為1時(shí)有最佳準(zhǔn)確率,且高于具有最佳分類結(jié)果的MobileNet。由此可以看出,簡化的網(wǎng)絡(luò)已經(jīng)達(dá)到了模型壓縮的效果。
表3 不同寬度因子的分類精度 %
由上述結(jié)果可以得出,選擇分類器為Nadam的不壓縮的S-MobileNet具有最佳分類精度,其網(wǎng)絡(luò)模型較原模型簡單,網(wǎng)絡(luò)參數(shù)量少,對引入小型網(wǎng)絡(luò)發(fā)展具有推動(dòng)作用。
本文提出S-MobileNet應(yīng)用于自采集的紅外行人數(shù)據(jù)集。通過設(shè)計(jì)AlexNet、MobileNet、M-MobileNet以及S-MobileNet等不同網(wǎng)絡(luò)的對比實(shí)驗(yàn),得出了S-MobileNet獲得94.3 %的準(zhǔn)確率。接著在不同優(yōu)化器以及模型寬度因子的對比上得出:在使用Nadam優(yōu)化器和寬度因子為1時(shí)的S-MobileNet模型分類結(jié)果達(dá)到最優(yōu),基于上述設(shè)計(jì)得到的紅外行人識別分類準(zhǔn)確率為96.3 %,S-MobileNet模型參數(shù)僅為AlexNet的1/75,在減少參數(shù)量的情況下,識別準(zhǔn)確率也得到了提高。