康長青
(湖北文理學(xué)院數(shù)學(xué)與計算機科學(xué)學(xué)院,湖北襄陽441053)
行人檢測是研究在視頻中分割行人并精確定位的技術(shù),在智能視頻監(jiān)控、智能交通等領(lǐng)域應(yīng)用廣泛。由于人體受姿態(tài)、外表、干擾等因素的影響,使得行人檢測技術(shù)成為一個非常有挑戰(zhàn)性的課題。已有的檢測算法可以分為人體模型法[1]、模板匹配法[2-4]和特征分類法[5-9]三類。第一類方法對行人外觀特征和運動特征進(jìn)行數(shù)學(xué)建模,缺點是模型求解比較復(fù)雜。第二類方法采用人為經(jīng)驗與實驗驗證的模板匹配方式,然而人形模板的多態(tài)性和復(fù)雜性很難構(gòu)造出合適的模板。第三類方法通過行人統(tǒng)計特征提取,利用模式分類進(jìn)行行人和非行人的分類,得到了廣泛的認(rèn)可和關(guān)注。典型的方法有DALAL提出的基于梯度直方圖(HOG)的行人檢測算法[5],表現(xiàn)出了優(yōu)良的檢測性能。后來學(xué)者們對HOG方法進(jìn)行了各種算法改進(jìn)[6-10]。如文獻(xiàn)[6]使用的綜合密度,梯度和空間位置等特征信息的協(xié)方差矩陣法,文獻(xiàn)[7]提出的融合顏色信息的局部二進(jìn)制模式法和文獻(xiàn)[8]提出的融合edgelets,HOG和協(xié)方差矩陣的級聯(lián)法等。分析這些方法可知,它們通過增加不同的低級特征而取得了各自的分類效果,而對紋理這一重要分類特征卻較少考慮。因此本文考慮行人紋理特征,在文獻(xiàn)[5]的基礎(chǔ)上提出融合邊緣,顏色,紋理等豐富特征的行人檢測算法。
行人的外觀特征通過形成分塊特征向量的方式進(jìn)行。將檢測窗口di分解為一些相互重疊的塊,通過提取每一塊的邊緣,紋理和顏色頻率特征來形成特征向量vi。下面將分別介紹這三個類別特征的提取方法。
邊緣特征的提取采用文獻(xiàn)[5]提出的HOG描述特征,HOG特征是針對矩形區(qū)域的梯度方向與強度統(tǒng)計信息而定義的一種特征。其計算過程如下:
(1)計算所有像素點的梯度G(x,y)和方向Ori(x,y),即:
(2)按空間位置將圖像分成均勻的小塊(cell),相鄰的cell組成一個大塊(Block)。
(3)在Block內(nèi)進(jìn)行歸一化直方圖來消除光照的影響,形成HOG特征向量。
HOG特征描述的是邊緣的結(jié)構(gòu)特征,位置和方向空間的量化可以抑制平移和旋轉(zhuǎn)帶來的影響;采取在局部區(qū)域歸一化直方圖,可以部分抵消光照變化帶來的影響。
紋理特征的提取采用灰度共生矩陣法[11]進(jìn)行?;叶裙采仃囃ㄟ^圖像灰度級之間的二階聯(lián)合條件概率密度函數(shù)來表示紋理,其中P(i,j d,θ)表示在給定的距離d和方向θ上,以灰度i為起點,出現(xiàn)灰度j的概率,表示如下:
其中,#表示集合中元素數(shù);右邊的分子項表示具有某種空間關(guān)系;灰度級分別為i;j的像素對的個數(shù);而分母項為像素對的總個數(shù)。
利用共生矩陣可以計算出大量的紋理特征,利用文獻(xiàn)[11]提出的14個紋理特征,選取其中的角二階矩,對比度,相關(guān)性,方差,差分矩,熵,和平均,和方差,和熵,差分方差,差分熵,方向性等12特征作為特征向量,詳細(xì)的公式參考文獻(xiàn)[11]。
基于灰度共生矩陣的紋理特征可以利用衣服紋理的同質(zhì)性和方向性,來區(qū)分衣服紋理和背景紋理,進(jìn)而為行人和非行人分類提供幫助。
由于行人的身體部位(如頭/臉)可以提供的顏色特征信息有對放大、縮小、微小變形不敏感的優(yōu)點,有助于改善檢測效果,因此可以將這些信息用顏色頻率來表示的特征。在HSV空間選取顏色空間中梯度最大的幅值來計算每個像素點的梯度值和方向,用每個顏色空間被選擇的次數(shù)來表示顏色特征。
計算方法為:每個Block用一個3維的直方圖分別統(tǒng)計H、S、V 3個顏色空間被選擇的次數(shù),得到一個3維的顏色頻率向量,并進(jìn)行歸一化。這樣每個Block只用一個3維的向量就可以表示顏色信息。
利用偏最小二乘法[12](PLS)的主成分分析功能進(jìn)行分類器的創(chuàng)建。
PLS模型可以看作由外部關(guān)系(即獨立的X塊和Y塊)和內(nèi)部塊間關(guān)系構(gòu)成。X,Y塊的外部關(guān)系分別表示為:
其中,T,U 稱為 X,Y的成分矩陣;tk,uk為相應(yīng)的成分向量;P,Q分別是X,Y載荷矩陣;pk,qk相應(yīng)的載荷向量。E,F(xiàn)是殘差矩陣,分別是X,Y中無法用個潛在變量T,U反應(yīng)的部分。
PLS模型的計算采用NIPALS算法,通過對成分t,u和權(quán)重向量 w,c進(jìn)行迭代求解,最大化以下公式:
其中,cov(t,u)為核心向量t,u的樣本協(xié)方差。
通過NIPALS算法[12]提取一個成分后,對矩陣X,Y進(jìn)行退化,并繼續(xù)提取成分。如此往復(fù),直到提取的成分進(jìn)行回歸能達(dá)到一個較為滿意的精度為止。NIPALS的算法描述如下:
(1)隨機初始化向量u
(2)w=XTu
(4)c=YTt
(6)重復(fù)(2)~(5),直到收斂。
(7)退化矩陣 X,Y:X←X -ttTX,Y←Y-ttTY
用NIPALS算法對通過將從檢測窗口di中提取特征向量vi進(jìn)行預(yù)處理,計算得到主成分?jǐn)?shù)、各主成分?jǐn)?shù)的權(quán)重和主成分問的關(guān)系矩陣。
利用計算出的各主成分權(quán)重,丟掉包含行人概率較低的檢測窗口,對概率較高的檢測窗口,使用全部特征進(jìn)行分類。經(jīng)過這樣處理,不但可以減少特征計算的數(shù)目,還可以減少需要提取的特征塊,進(jìn)而提高行人檢測的速度。
經(jīng)過以上PLS特征優(yōu)選后,利用二次判別分析建立判別器。二次判別分析的原理是在已知特征模式的類別數(shù)及其概率分布的前提下進(jìn)行Bayes決策,達(dá)到將特征模式分配到后驗概率最大的類別中。
假設(shè)各個類別的先驗概率相同,條件概率密度采用正態(tài)分布,得到二次判別函數(shù)如下:
對所有的 j≠i,若 gi> gj,將 x 歸于 ωi。其中 ui為各類的均值向量,i為各類的協(xié)方差矩陣。ui和i的估計采用極大似然估計。設(shè)模式類別有C類,ni表示第i類訓(xùn)練樣本數(shù),xij為第i類第j個訓(xùn)練樣本,則各類均值向量和各類協(xié)方差矩陣的極大似然估計表示為:
在前文特征提取和創(chuàng)建的分類器的基礎(chǔ)上,建立多特征優(yōu)選的行人檢測系統(tǒng),系統(tǒng)分為離線訓(xùn)練階段和在線監(jiān)測階段。如圖1所示。
圖1 行人檢測方塊圖
(1)離線訓(xùn)練階段。首先,收集人臉樣本和非人臉樣本,并利用上文提到的特征提取技術(shù),提取出樣本中行人的邊緣、紋理和顏色特征,建立豐富的特征集,然后利用PLS降維算法從這些特征集中優(yōu)選出權(quán)重較大的特征及權(quán)重系數(shù),從而形成QDA分類判別器。
(2)在線監(jiān)測階段。對于新的輸入圖像,利用離線階段訓(xùn)練好的分類器,掃描圖像中行人的候選區(qū)域,對行人進(jìn)行監(jiān)測,得到檢測結(jié)果。
為了測試本文提出算法的性能,并與其他文獻(xiàn)中的方法進(jìn)行對比,在INRIA數(shù)據(jù)庫上進(jìn)行實驗。
INRIA數(shù)據(jù)庫包含了訓(xùn)練集與測試集,訓(xùn)練集中含有64×128像素的正訓(xùn)練樣本2416個,以及1218張不含人的背景圖片,測試集中含有同樣大小的正測試樣本1132個,以及453張不含人的背景圖片。利用本文的特征提取方法對對INRIA數(shù)據(jù)庫進(jìn)行特征提取。
灰度共生矩陣的特征提取,采用16×16(步進(jìn)8個像素)和32×32(步進(jìn)16個像素)的塊,在HSV顏色空間里,對每一個顏色通道,d=1,θ=0°,45°,90°,135°創(chuàng)建4個分別對應(yīng)θ灰度共生矩陣,并量化為16 bins。從共生矩陣?yán)锾崛∏拔奶岬降?2個特征,產(chǎn)生63648個特征。HOG特征和顏色頻率特征提取,采用塊的大小12×12到64×128的區(qū)間之間。對于本實驗中的2478個塊,對一個塊提取36個HOG特征,得到98928個特征。同時對于每一塊,利用顏色頻率提取方法,提取的顏色特征8274個。對于大小為64×128的檢測窗口,共得到170820個向量特征。為了避免特征向量太多,導(dǎo)致的檢測效率降低。
可見無論是在特征向量的提取、分類器的訓(xùn)練與分類中,其計算量都很大。
在實驗中記錄正測試樣本與負(fù)測試樣本在分類器下的輸出,并通過改變分類器閾值得到DET(Detection Error Tradeoff)曲線,即漏檢率(Miss Rate)對誤檢率(False Positives Per Window,F(xiàn)PPW)曲線,如圖2所示。
圖2 三種算法的漏檢率/誤檢率
從圖中可以看到,本文算法(PLS+QDA)性能優(yōu)于文獻(xiàn)[5]中的HOG和文獻(xiàn)[13]中的PID算法,在FPPW=0.0001時本算法漏檢率為3%左右,在FPPW∈[0.000001,0.0001]本算法的漏檢率均小于HOG和PID算法。圖3為算法的跟蹤效果圖。在算法的計算時間上,本文算法1秒鐘可以處理2929個檢測窗口。
圖3 算法效果圖
針對站立行人的外觀特性,提出融合邊緣,紋理和顏色頻率的多特征融合的行人檢測算法。算法利用偏最小二乘法進(jìn)行重要特征優(yōu)選,形成二次判別分類器。實驗結(jié)果表明,算法漏檢率小,取得較好的檢測精度;但算法也存在速度不夠快的缺點,下一步研究將使用更好的降維方法來提高檢測的速度。
[1] Oren M,Papageorgious C,Sinha P.Pedestrian detection using wavelet templates[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,1997,193-199.
[2] Viola P,Jones M,Snow D.Detecting pedestrians using patterns ofmotion and appearance[C]//Proc of International Conference on Computer Vision,2003,734 -741.
[3] Mikolajczyk K,Schmid C,Zisserman A.Human detection based on a probabilistic assembly of robust part detectors[C]//Proc of European Conference on Computer Vision,2004,69 -82.
[4] Su Xiaoqian,Sun Shaoyuan,Ge Man,et al.Pedestrian detection and tracking of vehicle infrared images[J].Laser& Infrared,2012,42(8):949 -953.(in Chinese)蘇曉倩,孫韶媛,戈譙,等.車載紅外圖像的行人檢測與跟 蹤 技 術(shù)[J].激 光 與 紅 外,2012,42(8):949-953.
[5] Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition, 2005,886-893.
[6] Tuzel O,Porikli F,Meer P.Human detection via classification on riemannian manifolds[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2007,1 -8.
[7] Mu S,Yan Y,Liu T,et al.Discriminative local binary patterns for human detection in personal album[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2008,1 -8.
[8] Zhu Q,Yeh M C,Cheng K T,et al.Fast human detection using a cascade of histograms of oriented gradients[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2006,1491 -1498.
[9] Wu B,Nevatia R.Optimizing discrimination-efficiency tradeoff in integrating heterogeneous local features for object detection[C]//Proc of the IEEE Conference on Computer Vision and Pattern Recognition,2008,1 -8.
[10] Chen Y T,Chen C S.Fast human detection using a novel boosted cascading structure with meta stages[J].IEEE Trans.On Image Processing, 2008, 17 (8):1452-1464.
[11] Haralick R,Shanmugam K,Dinstein I.Texture features for image classification[J].IEEE Transactions on Systems,Man,and Cybernetics,1973,3(6):610 -621.
[12] Rosipal,N Kramer.Overview and recent advances in partial least squares[J].Lecture Notes in Computer Science,2006,3940:34 -51.
[13] Lin Z,Davis L S.A pose-invariant descriptor for human detection and segmentation[C]//Proc of European Conference on Computer Vision,2008,421 -436.