,, ,,,
(浙江理工大學(xué) 信息學(xué)院,杭州 310018)
行人檢測技術(shù)是智能視頻監(jiān)控領(lǐng)域一種重要的技術(shù),它是行人跟蹤、行為分析等一系列技術(shù)實現(xiàn)的前提。行人檢測技術(shù)可以廣泛用于自動駕駛[1]、機器人視覺[2]、智能監(jiān)控[3]等應(yīng)用中。行人檢測算法自研究以來,一直是研究熱點,吸引了無數(shù)的愛好者研究。其檢測的主要內(nèi)容是使用計算機識別出對視頻中或者靜態(tài)圖像中行人,并輸出相應(yīng)的位置信息。行人檢測算法的主要內(nèi)容是在檢測過程中,提取出行人的顯著特征,用于分類器判別,從而輸出行人的判別結(jié)果。
近年,涌現(xiàn)了很多行人檢測算法,其中基于機器學(xué)習(xí)的算法表現(xiàn)較好。這類算法主要涉及到分類器和特征描述子的選擇。2005年,Dalal[4]等人提出HOG(Histogram of oriented gradients)特征,該特征因為很好的穩(wěn)定性和描述能力而被廣泛的研究與應(yīng)用。HOG算法的特征描述子是對行人輪廓梯度分布的一種描述,該特征描述對局部形變和光照保持較好的魯棒性。在HOG算法的基礎(chǔ)上,提出了很多改進(jìn)算法[5-7],典型的有DPM[8]算法。DPM算法是Felzenszwalb等人提出的,該算法將行人分解成好幾部分再基于不同分辨率進(jìn)行檢測,并增加了HOG特征缺少的顏色信息,一定程度上提高了行人檢測準(zhǔn)確率。還有一些行人檢測的改進(jìn)算法,例如基于積分通道[9]等算法,有效加快了行人檢測的速度。其它使用較多的行人檢測算法有HOG+LBP[10],Haar特征[11],還有基于深度學(xué)習(xí)的算法[13-14]。這些算法都存在檢測速度較慢或者漏檢率較高等問題。
由于行人的非剛性及環(huán)境復(fù)雜等原因,使得行人檢測存在漏檢、實時性差等問題。針對HOG特征檢測中速度過慢,漏檢率較高的問題,提出一種基于PHOG特征的行人檢測算法。該算法解決了以下問題:1)降低了漏檢率。通過提出PHOG特征,加強了對局部特征的描述能力,增大了目標(biāo)和背景的差異;2)減少了檢測時間。通過構(gòu)建特征圖的金字塔,從而避免了對多層提取特征,減少了計算量。并且進(jìn)行了PCA降維,降低了特征復(fù)雜度。
HOG特征的提取方法是:先灰度化、歸一化圖像,計算圖像的方向梯度特征,再將圖像劃分成多個cell和block。最后串聯(lián)窗口里所有的block的特征向量,就得到了該窗口的HOG特征描述子。用訓(xùn)練好的行人分類器對該描述子進(jìn)行判別,再輸出判別結(jié)果。特征提取過程中,對cell里的像素梯度進(jìn)行三線性插值,每個cell提取出一個9維的直方圖。用該9維直方圖代表這個cell的梯度特征,再串聯(lián)每個block里cell的直方圖特征,得到一個高維的HOG特征描述子,該描述子就是窗口的HOG特征?;贖OG特征的行人檢測試驗結(jié)果如圖1所示。
圖1 基于HOG特征的行人檢測
由圖1可知,基于HOG特征的行人檢測存在漏檢和誤檢的情況。誤檢如圖中細(xì)方框,漏檢如圖中未標(biāo)記出的行人。分析產(chǎn)生誤檢的根本原因,發(fā)現(xiàn)是該HOG特征對行人的描述子總體上偏向于直立目標(biāo)的特征,而忽略了行人特有的一些肢體分布特征。產(chǎn)生漏檢的原因是,在提取HOG特征時,該特征對行人目標(biāo)的描述子較弱,目標(biāo)特征與背景的差異不大,故產(chǎn)生漏檢。針對這些問題問題,本文提出PHOG特征。
PHOG特征的主要思想是調(diào)整方向梯度直方圖的對比度,即增強對行人梯度分布的描述能力,使背景和行人目標(biāo)的梯度差異更大,從而減少誤檢和漏檢的產(chǎn)生。PHOG特征主要的具體提取過程如下:
1)先計算圖像里每個像素的梯度信息,包括方向和大小。
2)將圖像劃分成多個cell區(qū)域。并用含有9個方向的梯度直方圖來統(tǒng)計每個cell里像素的梯度幅值,生成每個cell的特征描述子(descriptor)。
3)對每個cell的方向梯度直方圖進(jìn)行調(diào)整,得到PHOG特征。根據(jù)公式(1)和(2)進(jìn)行調(diào)整,使該cell的梯度直方圖整體對比度增大,如圖2所示。
圖2 直方圖對比度增強示意圖
4)將多個cell組合成一個block區(qū)域,將block區(qū)域內(nèi)cell的descriptor串聯(lián)起來,生成block區(qū)域的descriptor。
5)最后將窗口中所有block區(qū)域的descriptor串聯(lián)起來,得到整個滑動窗口的特征描述子。該特征描述子可用來訓(xùn)練分類器。
步驟3)中,為了增強特征的局部表現(xiàn)力,對每個cell的方向直方圖進(jìn)行調(diào)整,增大每個cell直方圖的方差(即梯度值大的更大,梯度值小的更小)。根據(jù)判別函數(shù)來調(diào)整cell的直方圖特征,具體的判別函數(shù)如式(1)、(2)所示:
(1)
(2)
gs(x,y)是該cell內(nèi)的(x,y)位置的梯度幅值,該cell屬于s這個block。b是cell內(nèi)的像素數(shù)目。a1和a2分別是調(diào)整系數(shù),要求a1≥a2,且a1>1.0,a2>0。當(dāng)a1>a2時,就會將梯度值大于均值的梯度以a1比例增大,梯度值小于均值的像素梯度會以a2的比例減?。唤?jīng)過上述對梯度幅值的調(diào)整,可以增大每個cell直方圖的方差,使cell內(nèi)的差異更突出。本文實驗中a1=1.5,a2=0.8。特征增強過程如圖2所示。
由圖2可以看出,該直方圖縱坐標(biāo)值小于均值的bin均被壓縮,大于均值的均被放大。所以整個直方圖的對比度被顯著增強,方差也被增大,對該cell內(nèi)部特征的描述力更強。根據(jù)式子(1)和(2)進(jìn)行了cell特征的調(diào)整,block大小為2×2cell。選取其中一塊block特征,進(jìn)行特征調(diào)整,調(diào)整前后的block特征進(jìn)行統(tǒng)計對比,如圖3所示。對調(diào)整前后的特征進(jìn)行數(shù)值分析,如圖4所示。
圖3 調(diào)整前后的block特征值
圖4 block特征
觀察圖4可知,在0~38 bin的范圍內(nèi),block-PHOG特征比block-HOG特征局部對比度更大,但整體趨勢保持一致。block內(nèi)特征的方差由0.063 414 083增大到0.098 959 88,提高了大約3.5%。對該block所在的窗口提取PHOG特征,將其可視化展現(xiàn),并與HOG特征進(jìn)行對比,如圖5所示。
圖5 傳統(tǒng)HOG特征與PHOG特征對比圖
觀察圖5可知,不僅是行人目標(biāo)的梯度分布特征被增強,背景的特征也被增強,從而目標(biāo)與背景的整體差異被增大。
上述基于PHOG特征檢測的詳細(xì)步驟如下:
1)預(yù)處理部分。對圖像進(jìn)行灰度化,再利用gamma變換降低噪聲和光照的干擾。gamma壓縮如公式(3)所示。實驗中g(shù)amma=1/3。
I(x,y)=I(x,y)gamma
(3)
2)根據(jù)公式(4)和(5)計算像素的梯度。
g(x,y)x=I(x+1,y)-I(x-1,y)
(4)
g(x,y)y=I(x,y+1)-I(x,y+1)
(5)
其中:I(x,y)是像素灰度值,g(x,y)x和g(x,y)y分別是該像素點處的x方向和y方向的梯度。該像素點處的梯度幅值和方向分別由式(6)和(7)計算。?(x,y)是該點的梯度方向。本文實驗水平、垂直梯度算子取[-1,0,1]、[-1,0,1]T。
(6)
(7)
3)構(gòu)建cell梯度方向直方圖。
將cell內(nèi)像素的梯度插值,再投影到9維的直方圖,用來描述cell內(nèi)的梯度分布特征。其中每個cell內(nèi)的梯度方向規(guī)定分為9個(0~180度),每個bin對應(yīng)著該方向的梯度幅值加權(quán)和??紤]到部分像素的梯度方向處于兩個bin的臨界區(qū)域附近,則必須計算對相鄰區(qū)域的影響。所以對該像素梯度方向的相鄰區(qū)域進(jìn)行投影,最后再疊加該像素在相鄰區(qū)域的投影值,獲得綜合的梯度幅值。將該幅值作為直方圖的縱坐標(biāo)。
4)歸一化block值。
由于光照不均勻或者噪聲的影響,導(dǎo)致某些block區(qū)域與周圍的區(qū)域差異很大,生成的HOG特征變化較為劇烈。這種HOG特征訓(xùn)練得到的分類器的泛化能力會大大降低。所以為了增加該特征的魯棒性,對block區(qū)域內(nèi)的像素梯度進(jìn)行歸一化處理,減弱局部劇烈特征對總體特征的不良影響。本文采用的是L2-Norm進(jìn)行歸一化,如式(8)。ε是一個很小的常數(shù)值,本文實驗ε=0.23。
(8)
根據(jù)上述檢測步驟,PHOG特征提取過程如圖6所示。
圖6 PHOG特征提取示意圖
本文實驗使用的固定滑動窗口,大小為64×128,cell大小為16×16,block大小為2×2的cell,掃描步長設(shè)置為8個像素,所以該窗口的HOG特征向量的大小為9×4×7×15=3 780。由于該特征維數(shù)較高,本文在后面章節(jié)會進(jìn)行PCA降維。
基于PHOG特征的行人檢測流程如圖7所示。
圖7 基于PHOG特征的行人檢測
對檢測圖像先進(jìn)行預(yù)處理后提取原圖像PHOG特征,得到該圖像的特征圖如圖8所示。觀察圖8可看出,PHOG特征圖相比于傳統(tǒng)的HOG特征,對行人目標(biāo)梯度分布的刻畫更強。在該實驗原圖的特征圖中,傳統(tǒng)的HOG特征圖對行人的描述幾乎融于背景,觀察不出行人的位置,而PHOG特征可以大致描述出目標(biāo)的位置及周邊環(huán)境的特征。
圖8 PHOG和HOG特征對比
在提完P(guān)HOG特征后,為了加快檢測速度(在不降低檢測精度的前提下),本文提出對PHOG特征圖構(gòu)建8層特征金字塔,替代傳統(tǒng)的構(gòu)建原始圖片的金字塔。特征金字塔構(gòu)建的具體步驟是:
先獲取第i=0層(最底層)特征圖,該特征圖即是原圖的PHOG特征圖。獲取第i=i+1層的特征圖。對第i層特征圖進(jìn)行抽樣,抽樣長度根據(jù)2:1。即對第i層特征圖的一個block內(nèi)的36維PHOG特征抽樣,得到第i+1層一個cell內(nèi)的9維的PHOG特征。抽樣計算的公式如式(9)。
重復(fù)步驟2,直到i=8,獲取完整的特征金字塔。
k=1,2,...,36
(9)
式(9)的原理是計算36維特征數(shù)據(jù)中,縱坐標(biāo)值最大的前5個bin值和縱坐標(biāo)值最小的倒數(shù)4個bin值。分別記錄這些bin的橫、縱坐標(biāo)值,組合得到新一層的9維cell特征。dmaxi,k是第i層的特征圖內(nèi)block的特征值排序(降序)函數(shù),k是該函數(shù)的第k個值。di+1,j是第i+1層的第j個cell的特征值。根據(jù)上述步驟構(gòu)建的PHOG特征金字塔如圖9所示。
圖9 PHOG特征金字塔示意圖
構(gòu)建的PHOG特征金字塔如圖9所示。由于是對特征圖進(jìn)行向下采樣獲得的特征金字塔,該計算過程中只用到了簡單的抽樣等計算,相比于傳統(tǒng)的HOG圖像金字塔每層都要重新計算HOG特征,少了大量的計算量。該特征金字塔構(gòu)建完成后,每層的滑動窗口都得到一個PHOG特征。整體的檢測時間都減少了很多。
如上節(jié)所述,每個窗口的都得到一個PHOG特征。但該特征維數(shù)高達(dá)3 780維,為了加快檢測速度,本文對PHOG特征進(jìn)行有效地PCA[15](Princpel Component Anlysis)降維,得到PHOG-PCA特征。降維實驗數(shù)據(jù)統(tǒng)計如表1所示。
由表1可知,本文基于PHOG特征的PCA降維實驗中,當(dāng)主成分維數(shù)N=180時,有保持較高的識別率。當(dāng)特征維數(shù)N在180附近時,檢測的識別率都有所下降。所以本文降維后的PHOG特征取前180個主成分,將該180維的PHOG特征記為PHOG-PCA特征。其中,該降維實驗中用到的行人分類器SVM是基于INRIA數(shù)據(jù)集訓(xùn)練得到的。在檢測到行人目標(biāo)后,再進(jìn)行窗口融合,就獲得了精確的行人目標(biāo)位置。
表1 PHOG特征降維實驗
本文實驗采用INRIA數(shù)據(jù)集,該數(shù)據(jù)集背景種類較多,行人目標(biāo)行為變化多樣,對于本文算法的測試具有很好的挑戰(zhàn)性。INRIA數(shù)據(jù)集含有訓(xùn)練的正、負(fù)樣本和測試樣本。訓(xùn)練的正、負(fù)樣本分別有2416和1218。測試集有正樣本568,負(fù)樣本462個。本文算法實驗的硬件的運行環(huán)境設(shè)置為Intel(R) Core(TM) i3-2410M CPU,4 G內(nèi)存的筆記本。實驗采用PHOG-PCA+SVM的檢測結(jié)構(gòu)進(jìn)行檢測。
本文行人檢測基于的是線性SVM(Surport Vector Machine)分類器。為提升分類器的泛化能力,本文對負(fù)樣本進(jìn)行擴充。通過對INRIA負(fù)樣本圖片進(jìn)行隨機窗口采樣,獲取到11120張訓(xùn)練負(fù)樣本。將該訓(xùn)練樣本的PHOG-PCA特征集,用于進(jìn)行SVM交叉訓(xùn)練。本文將訓(xùn)練負(fù)樣本分成4組,不斷獲取新的難例,來提升SVM分類器的泛化性能。本文實驗基于該SVM分類器進(jìn)行行人檢測實驗。
本實驗參數(shù):滑動窗口固定大小為64×128,cell大小為16×16像素,block由2×2個cell組成,提取的PHOG特征為3780維。再結(jié)合Objectness特征,得到O-PHOG特征,再經(jīng)過PCA降維,得到196維的PHOG-PCA特征向量。
為驗證本文PHOG特征對窗口內(nèi)行人的描述能力,將PHOG特征、PHOG-PCA特征和其他幾種常用行人特征進(jìn)行檢測試驗,實驗數(shù)據(jù)如表2所示。
表2 各種特征的行人識別率試驗結(jié)果 %
由表2可知,本文基于多種特征分別進(jìn)行了5次實驗,并進(jìn)行了均值統(tǒng)計。相比于傳統(tǒng)的HOG特征,LBP特征和Haar特征訓(xùn)練得到的分類器識別率較低,識別率均值分別為63.44%,61.14%。HOG特征的識別率最高為78.1%,均值為76.76%。LBP-HOG的聯(lián)合特征是的檢測率較傳統(tǒng)HOG有一定程度的提高。本文提出的PHOG特征識別率高于傳統(tǒng)的HOG特征,5次實驗中識別率最高的為86.8%,均值也為86.69%。PHOG-PCA特征和PHOG數(shù)值相差不大。
為反映本文特征與漏檢率的關(guān)系,將實驗數(shù)據(jù)統(tǒng)計如圖10,該圖反映了行人檢測漏檢率(Miss rate)和每個窗口的誤檢率(False positve per window)之間的關(guān)系。由該圖可看出當(dāng)誤檢率一定時,本文PHOG特征、PHOG-PCA特征對窗口內(nèi)目標(biāo)的描述力最強,所以漏檢率比其余特征都低。
圖10 各特征檢測的漏檢率
為驗證本文提出的特征在整幅圖片中的漏檢率,進(jìn)行了實驗與數(shù)據(jù)統(tǒng)計,如圖11。觀察圖11,PHOG特征和PHOG-PCA特征的漏檢率整體偏低。相比于傳統(tǒng)HOG檢測,在FPPI為10-2時,本文算法將漏檢率從35%降到了22%。分析原因是PHOG特征不僅增強了對行人目標(biāo)的描述,而且也突出了背景的特征,進(jìn)而增大了兩者間的差異,使分類器更易識別目標(biāo)。實驗檢測結(jié)果如圖12所示。
圖11 各特征實驗對比
本文提出的基于PHOG-PCA特征的行人檢測實驗結(jié)果,如圖12所示。由該圖可以看出,該算法能準(zhǔn)確地檢測出圖片中的行人,幾乎沒有漏檢。
圖12 基于PHOG-PCA特征的檢測實驗結(jié)果圖
為直觀顯示本文算法檢測速度,將INRIA測試集尺寸縮減為192×256,在該測試集上進(jìn)行檢測,平均檢測時間統(tǒng)計見表3。由表3可看出,本文提出的算法檢測速度較快,與其余算法時間相差較多,存在很大優(yōu)勢。
表3 各算法檢測時間比較
本文提出了一種基于PHOG特征的行人檢測算法,針對傳統(tǒng)HOG特征的行人檢測中存在較高漏檢和檢測速度慢的問題,提出了解決方法。首先提出了PHOG特征,該特征加強了對目標(biāo)和背景的描述,有效降低了漏檢率。再通過構(gòu)建特征金字塔及PCA降維,減少了計算量,進(jìn)而加快了行人檢測的速度。從實驗結(jié)果可以看出,本文算法在行人檢測中有較大優(yōu)勢。本文下一步的研究計劃是研究行人檢測中存在的遮擋問題,進(jìn)一步提高行人檢測的準(zhǔn)確率。