余子航,于鳳芹
(江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122)
車載成像行人檢測(cè)是高級(jí)駕駛輔助系統(tǒng)和智能汽車領(lǐng)域的關(guān)鍵技術(shù)之一[1]。過去對(duì)行人檢測(cè)技術(shù)的研究主要基于單一可見光或單一紅外圖像。紅外圖像對(duì)光照變化不敏感,在全黑夜間、雨雪霧霾天氣或?qū)γ孳嚐粞9獾惹闆r下表現(xiàn)出比可見光圖像更佳的檢測(cè)能力[2,3],但其缺乏顏色和紋理等信息,并且在目標(biāo)與背景熱輻射差異較小的情況下檢測(cè)效果較差。因此,車載紅外圖像并不能完全替代可見光圖像作為行人檢測(cè)的輸入信息,可以通過結(jié)合這兩者信息的多光譜圖像實(shí)現(xiàn)行人檢測(cè)以改善檢測(cè)效果。
文獻(xiàn)[4]采用視差表決的方法對(duì)可見光圖像與遠(yuǎn)紅外圖像進(jìn)行配準(zhǔn)得到多光譜圖像對(duì),并利用梯度方向直方圖(histogram of oriented gradient,HOG)特征結(jié)合支持向量機(jī)(support vector machine,SVM)實(shí)現(xiàn)行人檢測(cè)。文獻(xiàn)[5]提取遠(yuǎn)紅外圖像中顯著的局部行人區(qū)域作為感興趣區(qū)域(region of interest,ROI),采用不變性特征對(duì)ROI內(nèi)的可見光與長(zhǎng)波紅外圖像進(jìn)行特征提取和級(jí)聯(lián)融合,輸入SVM進(jìn)行分類得到行人檢測(cè)結(jié)果。這些算法結(jié)合可見光與遠(yuǎn)紅外兩種信息進(jìn)行行人檢測(cè),但將簡(jiǎn)單的特征進(jìn)行級(jí)聯(lián)并不能顯著提升檢測(cè)的準(zhǔn)確率。Hwang等人[6]提出了一個(gè)基于可見光和紅外圖像對(duì)準(zhǔn)的多光譜行人數(shù)據(jù)集(KAIST),并在聚合通道特征(aggregate channel feature,ACF)[7]的基礎(chǔ)上,加入紅外圖像的通道特征,提出了新的多光譜聚合通道特征(multispectral aggregate channel feature,MACF),比傳統(tǒng)的多光譜行人檢測(cè)方法獲得了更高的檢測(cè)率。但該方法對(duì)于特征的選取并沒有考慮到紅外圖像較于可見光圖像的優(yōu)勢(shì)和區(qū)別,簡(jiǎn)單的THOG特征對(duì)行人的描述能力不強(qiáng)。文獻(xiàn)[8]提出局部去相關(guān)通道特征(local decorelation channel features,LDCF),該方法利用各通道特征進(jìn)行主成分分析得到的本征值構(gòu)建濾波器組,同時(shí)去除通道特征中數(shù)據(jù)的局部相關(guān)降低了誤檢率,但漏檢率依然較高。文獻(xiàn)[9]在MACF特征的基礎(chǔ)上,加入紅外圖像的紋理特征來增強(qiáng)行人輪廓描述,但由于紅外圖像缺乏紋理信息,檢測(cè)效果改善不明顯。文獻(xiàn)[10]利用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)來學(xué)習(xí)多光譜圖像特征,并評(píng)估了早期融合和后期融合兩種網(wǎng)絡(luò)結(jié)構(gòu),算法識(shí)別率較高,但預(yù)訓(xùn)練方法模型大、參數(shù)多,結(jié)構(gòu)靈活性較差。文獻(xiàn)[11]使用更快的區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(faster region-based convolutional neural networks,faster R-CNN)用于多光譜行人檢測(cè),并利用檢測(cè)框分割監(jiān)督框架替代原先的錨框訓(xùn)練,提升了檢測(cè)識(shí)別率,但是模型較為復(fù)雜。
基于以上分析,本文以MACF算法為基本框架,提取特征時(shí)著重分析紅外圖像的優(yōu)勢(shì),利用鄰域像素強(qiáng)度差異估計(jì)和區(qū)域信息熵分析來改進(jìn)原有的HOG特征,構(gòu)建新的熵加權(quán)強(qiáng)度差異直方圖(entropy weighted histogram of intensity difference,EWHID)特征,加強(qiáng)對(duì)行人目標(biāo)的描述能力。傳統(tǒng)的多光譜行人檢測(cè)方法并沒有探究融合特征的表示能力。由于受光照和溫度等環(huán)境條件變換影響,多光譜特征在晝夜不同時(shí)段存在差異,導(dǎo)致全天候的檢測(cè)效果低下。本文利用Real Adaboost分類器對(duì)數(shù)據(jù)集中白天和黑夜圖像分別進(jìn)行訓(xùn)練,得到日用和夜用檢測(cè)器。在檢測(cè)階段,利用圖像的HSV空間直方圖信息進(jìn)行晝夜判別,實(shí)現(xiàn)對(duì)輸入圖像的分時(shí)段檢測(cè)。仿真實(shí)驗(yàn)表明,所提方法能夠提升行人檢測(cè)器的性能,降低了誤檢率和漏檢率。
1.1.1 特征描述
MACF的基本結(jié)構(gòu)是通道,它融合了可見光和紅外波段的特征對(duì)圖像進(jìn)行描述。這種混合通道的特征構(gòu)建方式很大程度上提高了描述子對(duì)不同種類信息的分類表示能力,有助于提高復(fù)雜背景下目標(biāo)的檢測(cè)結(jié)果。尤其是紅外通道信息在夜間檢測(cè)發(fā)揮著很大的作用,使得總體特征在全天候的行人檢測(cè)中有著良好的性能。MACF特征的主要計(jì)算流程如下:
1)通道組合:MACF定義了具有12個(gè)通道的組合特征,分別是可見光圖像的3個(gè)LUV顏色通道、1個(gè)梯度幅值通道(GM)、6個(gè)梯度方向通道(GO)以及紅外圖像的1個(gè)熱強(qiáng)度通道(T)和1個(gè)梯度直方圖通道(THOG)。
2)特征計(jì)算:聚合通道的特征計(jì)算十分簡(jiǎn)單,首先給定一個(gè)多光譜圖像對(duì)作為輸入,計(jì)算預(yù)定義的通道。然后,根據(jù)預(yù)設(shè)因子對(duì)通道特征進(jìn)行平均池化采樣,將下采樣得到的矩陣矢量化為像素查找表,該矢量即為最終的特征描述子。
3)多尺度計(jì)算:在行人檢測(cè)中由于目標(biāo)大小不一,采用相同的尺度檢測(cè)目標(biāo)會(huì)導(dǎo)致漏檢和誤檢,采用多尺度計(jì)算能夠有效解決這一問題。傳統(tǒng)方法將圖像縮放到各個(gè)尺度,然后對(duì)每個(gè)尺度都計(jì)算相應(yīng)的特征通道,這種方法計(jì)算通道時(shí)會(huì)產(chǎn)生大量的冗余信息,耗費(fèi)大量時(shí)間。MACF特征采用快速特征金字塔的方法進(jìn)行多尺度檢測(cè),并不需要將待檢測(cè)圖像縮放到所有尺度分別計(jì)算通道特征,而僅需要在每個(gè)尺度組內(nèi)計(jì)算其中一個(gè)尺度層的通道特征,然后利用當(dāng)前尺度的通道特征近似估計(jì)相鄰尺度上的通道特征,表達(dá)式如下所示
Cs≈R(C,s)·s-λi
(1)
式中C為當(dāng)前尺度特征,s為尺度縮放因子,s∈{1,1/2,1/4},λi為每個(gè)通道特征對(duì)應(yīng)的系數(shù),在構(gòu)建過程中,先計(jì)算原圖1/2和1/4倍的降采樣圖像,并針對(duì)尺度1,1/2,1/4提取通道特征,其余尺度的通道特征由已有的特征估計(jì)得到。
1.1.2 改進(jìn)的熵加權(quán)強(qiáng)度差異直方圖特征
傳統(tǒng)MACF特征的THOG通道提取的是紅外圖像的HOG特征,該特征在可見光圖像中應(yīng)用普遍,其基本原理是通過統(tǒng)計(jì)局部區(qū)域的像素梯度分布來描述目標(biāo)形狀。而紅外圖像由于成像特性,行人目標(biāo)的強(qiáng)度變化相對(duì)穩(wěn)定,內(nèi)部缺乏有效的信息,但目標(biāo)的整體像素強(qiáng)度值通常高于背景,具有相對(duì)突出的邊緣輪廓區(qū)域和局部形狀。根據(jù)這些特點(diǎn),本文在提取特征時(shí),利用局部區(qū)域的像素強(qiáng)度差值直方圖估計(jì)來替代原先的梯度直方圖估計(jì),并引入信息熵來分析各區(qū)域的直方圖分布,進(jìn)一步加強(qiáng)邊緣區(qū)域?qū)φw特征的貢獻(xiàn)程度。如圖1所示,改進(jìn)的EWHID特征具體實(shí)現(xiàn)過程為:首先把圖像分成若干個(gè)4×4大小的元胞,計(jì)算元胞中每個(gè)像素與其周圍八鄰域像素的最大差值絕對(duì)值,計(jì)算表達(dá)式如下所示
D(x,y)=max|di-c|i=1,2,…,8
(2)
圖1 EWHID特征計(jì)算示意
式中c為當(dāng)前像素的強(qiáng)度值,di為鄰域像素的強(qiáng)度值。通過D(x,y)來確定當(dāng)前像素的大小和方向。統(tǒng)計(jì)元胞內(nèi)所有像素的方向,并將幅值大小加權(quán)到對(duì)應(yīng)方向上,得到一個(gè)元胞內(nèi)的強(qiáng)度差異直方圖分布。與構(gòu)建HOG特征的原理相似,將元胞以2×2的數(shù)量合并成一個(gè)區(qū)域,能夠得到區(qū)域的強(qiáng)度差異直方圖分布。通過區(qū)域的直方圖信息計(jì)算該區(qū)域的信息熵值,第k個(gè)區(qū)域的熵值計(jì)算表達(dá)式如下所示
(3)
(4)
式中hs為該區(qū)域中第s個(gè)強(qiáng)度差異直方圖的值,m為每個(gè)區(qū)域中的元胞數(shù)為4。r為每個(gè)元胞中的方向數(shù),r的值等于鄰域數(shù)為8。將得到的熵值加權(quán)到對(duì)應(yīng)的區(qū)域,得到該區(qū)域的EWHID特征。對(duì)區(qū)域直方圖進(jìn)行L2范數(shù)歸一化處理,處理方程為
(5)
式中e為常數(shù)參數(shù),它的值非常小。
在連接所有區(qū)域的直方圖向量后,最后得到整張圖像的EWHID特征。
MACF特征由可見光圖像特征和紅外圖像特征級(jí)聯(lián)融合得到,由于可見光特征易受環(huán)境的光照變化影響、紅外特征易受環(huán)境的溫度變化影響,因此,MACF特征在晝夜不同時(shí)段具有差異性,對(duì)白天和夜晚圖像的區(qū)分訓(xùn)練檢測(cè)能夠使特征對(duì)同時(shí)段行人目標(biāo)的表述更具針對(duì)性,本文提出一種基于HSV空間直方圖信息的晝夜圖像分類方法。亮度和顏色信息是判別白天和黑夜的主要條件,圖像的HSV顏色空間模型中的色度(H)通道直方圖和亮度(V)通道直方圖能夠很好地反映圖像的顏色和亮度信息。由于車載圖像的下半部分為道路場(chǎng)景,關(guān)鍵有用的信息都在圖像的上半部分,為了提高檢測(cè)速度只對(duì)圖像的上半部分進(jìn)行處理。圖2展示了不同時(shí)段場(chǎng)景下上半部圖像H直方圖和V直方圖的差異情況,第一行為白天場(chǎng)景,第二行為夜晚場(chǎng)景。
圖2 白天和夜晚圖像的H直方圖和V直方圖對(duì)比
從H直方圖可以觀察到,夜間圖像的像素色度幾乎都集中在歸一化H通道直方圖的低值區(qū)域,而白天拍攝的圖像像素色度分布廣泛。這是因?yàn)橐雇憝h(huán)境的光照幾乎全部來自路燈和車燈等人造光,主要是黃光和紅光,相比白天環(huán)境的太陽光照,缺乏一定的光譜信息。圖3給出了H通道的色度區(qū)域劃分,[0,0.2]∪[0.8,1]為黃紅色度集中的區(qū)域[12]。統(tǒng)計(jì)這段區(qū)間內(nèi)的像素個(gè)數(shù)nH,作為判別白天夜晚的顏色依據(jù)。
圖3 H通道歸一化區(qū)域劃分
從V直方圖觀察到白天圖像像素主要在高值區(qū)域分布,即亮度較高,而夜晚圖像像素主要集中在低值區(qū)域,即亮度較低。在0~255的亮度范圍內(nèi),統(tǒng)計(jì)數(shù)值大于150的像素個(gè)數(shù)nV,作為判別白天夜晚的亮度依據(jù)。遍歷數(shù)據(jù)集圖像,找到nH和nV的臨界值設(shè)定為兩個(gè)判決參數(shù)閾值:THH和THV。若nH小于THH或nV大于THV,那么圖像屬于白天時(shí)間段,否則就屬于夜晚時(shí)間段。
算法訓(xùn)練與測(cè)試流程如圖4所示。
圖4 算法流程框圖
將訓(xùn)練的正負(fù)樣本歸一化至64×32大小,用積分圖的形式計(jì)算樣本12個(gè)通道的改進(jìn)MACF特征,包括從可見光圖像提取的3個(gè)LUV顏色通道、1個(gè)GM通道和1個(gè)GO通道,從紅外圖像提取的1個(gè)T通道和1個(gè)TEWHID通道。將得到的改進(jìn)MACF特征送入Real Adaboost[13]分類器進(jìn)行訓(xùn)練,每次訓(xùn)練采用自舉法進(jìn)行,共訓(xùn)練4輪,根據(jù)樣本集的大小、特征數(shù)量的大小來確定每輪的弱分類器個(gè)數(shù)分別是32,128,512,2 048,樹的深度為4。本文將訓(xùn)練集中的白天和夜晚樣本分開訓(xùn)練,得到日間分類器和夜間分類器,用于后續(xù)的分時(shí)段檢測(cè)。
首先按幀讀入圖像,利用HSV模型色度和亮度直方圖信息建立的判別準(zhǔn)則對(duì)輸入多光譜圖像對(duì)中的可見光圖像進(jìn)行晝夜分類,對(duì)每個(gè)輸入圖像對(duì)都設(shè)定一個(gè)時(shí)段標(biāo)簽(白天或夜晚)。
采用滑動(dòng)窗口法計(jì)算原圖的改進(jìn)MACF特征,窗口大小為64×32。利用快速特征金字塔的思想直接對(duì)特征進(jìn)行縮放,得到不同尺度圖像下的特征向量。
將標(biāo)簽為白天的圖像特征向量送入日間分類器,標(biāo)簽為夜晚的圖像特征向量送入夜間分類器,在結(jié)束端輸出最后的檢測(cè)結(jié)果。
本實(shí)驗(yàn)運(yùn)行環(huán)境為Windows7 64位操作系統(tǒng),Intel Core I5 CPU處理器,8 GB內(nèi)存,MATLAB R2016a軟件平臺(tái)。本文研究的對(duì)象是車載攝像頭拍攝到的行人目標(biāo),實(shí)驗(yàn)用到的樣本圖像取自KAIST數(shù)據(jù)集[6]。KAIST數(shù)據(jù)集是利用車載攝像頭采集的配準(zhǔn)多光譜圖像對(duì),包含了在校園、城鎮(zhèn)和公路多種場(chǎng)景下的白天和夜晚圖像,共有12個(gè)子數(shù)據(jù)集(set00~set02、set06~set08采集時(shí)間為白天,set03~set05、set09~set11采集時(shí)間為夜晚),總計(jì)95 328對(duì)配準(zhǔn)圖像。實(shí)驗(yàn)使用5 017對(duì)多光譜圖像對(duì)用于訓(xùn)練,3 008對(duì)多光譜圖像用于測(cè)試,從set00、set01和set02中,每隔10幀共采取3 339對(duì)樣本,作為日間分類器的訓(xùn)練集,從set03、set04和set05中,每隔10幀共采取1 678對(duì)樣本圖像,作為夜間分類器的訓(xùn)練集,從總體訓(xùn)練樣本每隔2幀共采取2 508對(duì)圖像作為不分時(shí)段分類器的訓(xùn)練集。set06~set11作為測(cè)試集,每隔15幀共采取3 008對(duì)樣本圖像(白天測(cè)試樣本數(shù)為1 944,夜晚測(cè)試樣本數(shù)為1 064)。本文采用Dollar等提出的評(píng)估準(zhǔn)則[14],利用平均漏檢率(log-average miss rate,LAMR)作為評(píng)價(jià)標(biāo)準(zhǔn)。如果預(yù)測(cè)的邊界框與任何行人標(biāo)簽框的IoU比率大于50 %,則該預(yù)測(cè)框?yàn)檎?無匹配的預(yù)測(cè)框和標(biāo)記框分別為誤報(bào)和漏報(bào)。
本文提出的基于HSV信息的判別準(zhǔn)則在3 008張可見光測(cè)試圖像上進(jìn)行晝夜分類實(shí)驗(yàn)的結(jié)果如表1所示,實(shí)驗(yàn)設(shè)定閾值THH為105,THV為6×104。
表1 圖像晝夜分類的結(jié)果
利用這種方法,本文僅以2.6 %的錯(cuò)誤率將輸入圖像分成白天和夜晚兩組,單步驟的處理速度為36 ms,基本達(dá)到實(shí)時(shí)性的要求。有部分黑夜圖像由于是在燈光密集,光照亮度較高的環(huán)境下拍攝得到,亮度信息與白天圖像接近,因此被錯(cuò)判。
為了能夠說明EWHID特征和晝夜分類訓(xùn)練檢測(cè)的優(yōu)點(diǎn),對(duì)特征進(jìn)行了LAMR值檢測(cè)性能的比較,如表2所示。其中,MACF是原作者給出的檢測(cè)結(jié)果,MACF-Our是在原MACF基礎(chǔ)上調(diào)整參數(shù)檢測(cè)的結(jié)果,MACF-EWHID是將原MACF紅外通道的HOG特征替換成EWHID特征,并利用2 508對(duì)全天場(chǎng)景多光譜圖像訓(xùn)練分類器進(jìn)行檢測(cè)的結(jié)果,MACF-EWHID(day and night)是利用3 339對(duì)白天場(chǎng)景多光譜圖像和1 678對(duì)夜晚場(chǎng)景多光譜圖像分別訓(xùn)練分類器,并通過HSV判別準(zhǔn)則晝夜分類檢測(cè)得到的結(jié)果。
表2 檢測(cè)LAMR對(duì)比值 %
從表2可以看出,通過對(duì)數(shù)據(jù)集的采樣處理和參數(shù)的調(diào)整,本文的MACF特征效果要比原作者提供的結(jié)果要好一些。與MACF-Our的LAMR值相比,MACF-EWHID在全天測(cè)試場(chǎng)景下降低了5.12 %,白天測(cè)試場(chǎng)景下降低了4.01 %,夜晚測(cè)試場(chǎng)景下降低了5.61 %,說明改進(jìn)的EWHID特征增強(qiáng)了總體多光譜聚合通道特征的表示能力。MACF-EWHID(day and night)利用晝夜分類訓(xùn)練檢測(cè)后,LAMR值進(jìn)一步降低到全天場(chǎng)景為48.23 %,白天場(chǎng)景為51.56 %,夜晚場(chǎng)景為43.24 %,說明晝夜分類訓(xùn)練特征,并使用雙分類器檢測(cè)能夠使得算法性能有較大的提升。
表3給出本文算法與其他算法在KAIST數(shù)據(jù)集上的測(cè)試結(jié)果比較。
表3 本文算法與其他算法在KAIST數(shù)據(jù)集上的檢測(cè)結(jié)果對(duì)比(LAMR) %
相對(duì)于文獻(xiàn)[8]的算法,本文算法的LAMR值在全天測(cè)試場(chǎng)景降低了11.44 %,白天測(cè)試場(chǎng)景降低了10.81 %,夜晚測(cè)試場(chǎng)景降低了6.94 %。相對(duì)于文獻(xiàn)[10]的算法,本文算法的LAMR值在全天測(cè)試場(chǎng)景降低了3.07 %,白天測(cè)試場(chǎng)景降低了3.71 %,夜晚測(cè)試場(chǎng)景高出1.66 %,夜晚的檢測(cè)效果要略遜于文獻(xiàn)[10]。相對(duì)于文獻(xiàn)[15]的算法,本文算法的LAMR值在全天測(cè)試場(chǎng)景高出0.92 %,白天測(cè)試場(chǎng)景高出2.25 %,夜晚測(cè)試場(chǎng)景降低了0.51 %,全天和白天的檢測(cè)效果要略遜于文獻(xiàn)[15]。文獻(xiàn)[10]和文獻(xiàn)[15]為深度學(xué)習(xí)算法,學(xué)習(xí)特征的能力較強(qiáng),在檢測(cè)識(shí)別率上有一定的優(yōu)勢(shì),但在參數(shù)選擇和模型訓(xùn)練等方面較為復(fù)雜,本文算法在保證準(zhǔn)確率的同時(shí)易于訓(xùn)練,對(duì)硬件的性能要求較低。
為了能說明在一些復(fù)雜場(chǎng)景下本文算法的檢測(cè)效果,圖5給出本文算法和傳統(tǒng)MACF算法在KAIST數(shù)據(jù)集上的部分檢測(cè)結(jié)果對(duì)比。第一行為背景較復(fù)雜的白天場(chǎng)景,第二行為背景模糊,目標(biāo)尺寸較小的夜晚場(chǎng)景,第三行為光照條件較差的夜晚場(chǎng)景,第四行為具有多尺度行人目標(biāo)的夜晚場(chǎng)景。相比于傳統(tǒng)MACF算法,本文算法提出的誤檢窗口更少,在背景復(fù)雜、目標(biāo)較小的情況下能夠準(zhǔn)確地識(shí)別出行人,但在目標(biāo)數(shù)量多,分布密集的情況下仍存在一定的誤漏檢情況。
圖5 2種算法在不同場(chǎng)景下的檢測(cè)效果對(duì)比
本文提出了一種具有EWHID特征的MACF晝夜分時(shí)行人檢測(cè)算法。該算法分別提取可見光圖像的10個(gè)通道特征、紅外圖像的熱強(qiáng)度和EWHID特征,提升了總體聚合通道特征對(duì)多光譜行人的表示能力。分別對(duì)數(shù)據(jù)集的白天和夜晚子數(shù)據(jù)集訓(xùn)練,得到日間分類器和夜間分類器,并利用HSV顏色空間的H直方圖和V直方圖信息作為晝夜時(shí)段的判別準(zhǔn)則,對(duì)輸入圖像進(jìn)行分類,達(dá)到了日間分類器檢測(cè)白天圖像,夜間分類器檢測(cè)夜晚圖像的目標(biāo),檢測(cè)性能得到大幅提高。但是本文算法使用了晝夜兩個(gè)時(shí)段的分類器,接下來的工作重心將研究自動(dòng)感知光照變化的方法,降低算法的復(fù)雜度。