崔劍 侯曉榮
(電子科技大學,四川 成都 611731)
基于多尺度特征近似計算的行人檢測方法
崔劍 侯曉榮
(電子科技大學,四川 成都 611731)
傳統(tǒng)的多尺度特征計算都是首先構造不同尺度的圖像形成圖像金字塔,然后在金字塔每一層上通過滑動窗口的辦法提取相應的特征,實驗表明在目標檢測時特征提取消耗大量時間,改善特征提取的速度是提升目標檢測速度的關鍵。本文使用FFC(Fast Feature Computation)計算方法對多尺度圖像特征進行快速提取,同時結合Adaboost算法和多特征融合方法用于行人目標檢測,實驗結果表明效果較好。
圖像金字塔;滑動窗口;FFC;Adaboost;多特征融合
行人檢測技術屬于人工智能領域研究的一部分,然而信息技術的發(fā)展將行人檢測技術推廣到了現(xiàn)實應用之中。傳統(tǒng)的特征提取方法遍歷多尺度圖像并提取每一個尺度下圖像的特征。Dalal和Triggs[1]提出使用HOG特征用于行人目標檢測,單特征提取速度較快但是檢測效果不佳。Gavrila[2]采用全局模板,利用層級模板匹配實現(xiàn)行人檢測,在分層遍歷檢測時消耗大量時間。Lin等人[3]利用人體局部特征構造模板匹配,此方法檢測速度較快但是利用局部特征難以表征全局,實際檢測效果欠佳。Borgefors[4]提出參數(shù)化邊緣模板,針對同一張圖片不同的分辨率情況下,使用HCMA完成模板匹配,此方法與Gavrila檢測方法一致需要耗費大量時間。Walk等人[5]提出的CSS特征與Gao等人[6]提出的ACF特征本質都是單特征提取,區(qū)別在于表征目標信息不同。孫銳等人[7]提出融合的顯著性信息與HOG-NMF特征與Wang等人[8]提出的HOG-LBP特征都是利用多特征融合方式最大程度表征行人目標,改善了檢測的效果但是特征提取速度較慢。
考慮到單特征計算速度快但是檢測效果不好且多特征融合提取計算復雜度較高的問題,本文提出了快速特征計算方法,在不影響檢測效果的情況下提高檢測的速度??焖偬卣饔嬎愀纳屏四繕颂卣魈崛〉乃俣?,有助于實現(xiàn)實時檢測目標。
區(qū)別于傳統(tǒng)的多尺度特征計算,快速特征計算無需對圖像金子塔每一層圖像提取特征,而是在當前尺度下取得的特征近似計算相鄰尺度下圖像的特征。因此可以在不遍歷圖像金字塔的情況下實現(xiàn)多尺度圖像特征的提取,一定程度上加速了特征計算。
2.1 圖像金子塔
圖像金字塔是以多分辨率來解釋圖像的一種結構。圖像金字塔最初用于機器視覺和圖像壓縮,一幅圖像的金字塔是一系列以金字塔形狀排列的分辨率逐步降低的圖像集合。金字塔的底部是待處理圖像的高分辨率表示,而頂部是低分辨率的近似。對于行人檢測來說,行人在圖像中的深度信息不一樣,因此需要提取不同分辨率下行人目標特征。
圖1 圖像金字塔
2.2 多尺度特征近似估計
圖像金子塔的構成本質對源圖像進行采樣,采樣的方法有雙線性插值、最近鄰法等方法。圖像采樣之后會得到一系列不同分辨率的圖像組合。不同尺度圖像特征存在著關聯(lián)性。本文以梯度直方圖為例說明多尺度特征之間關聯(lián)性。
對于源圖像Im(x,y),上采樣系數(shù)τ,得到圖像Im'(x,y),采樣公式如下:
根據(jù)圖像梯度信息定義可知采樣前與采樣后圖像梯度之間的關系:
因此全局梯度幅值之間的關系如下:
本文從INRIA數(shù)據(jù)集選取了1000張正樣本和1500張負樣本,采樣系數(shù)為2,結果如圖2:
圖2 上采樣梯度幅值比例
圖2所示為測試的樣本上采樣梯度幅值比例直方圖,從圖中可以看出大部分樣本都是在比例為2附近,與預期的結果一致。對于下采樣的結果如圖3所示:
圖3 下采樣梯度幅值比例
針對正負樣本的下采樣的結果如圖3所示,顯示的結果表明大部分的樣本的比值分布在0.3左右,與預期的0.5相差較多。因此,對于下采樣的特征近似估計可以使用測試樣本的均值來表示在采樣系數(shù)為τ的情況下特征近似估計的系數(shù)。圖中正負樣本下采樣的均值分別為0.3335和0.2944,則可以使用這兩個均值代替影響因子近似計算不同尺度特征。
Ruderman和Bialek[9,10]提出對于圖像不同尺度下的基于像素點的信息數(shù)據(jù)統(tǒng)計規(guī)律。假設Г(Im)表示圖像Im任意尺度下的數(shù)據(jù)信息,E(Г(Im))表示當前尺度下圖像數(shù)據(jù)的期望,因此對于不同尺度下的數(shù)據(jù)可用E(Г(Imk))表示,對于任意給定的尺度κ1和κ2下,二者圖像數(shù)據(jù)信息之間的關系為:
對于給定的圖像Im構造多尺度下的圖像集合Im={Im1,Im2,…,Imn},對應尺度下獲得的特征數(shù)據(jù)為F={F1,F(xiàn)2,…,F(xiàn)n},代入上述公式可得:
上式中ζ表示對于給定圖像特征數(shù)據(jù)的方差。之前舉例說明的特征計算近似估計可得,對于最終特征數(shù)據(jù)近似參數(shù)τ的估計如下:
通過提取樣本不同的特征可以根據(jù)τ的值近似得到λF值的大小。通過對INRIA訓練樣本中1218個負樣本進行測試得到不同特征不同尺度下τ和λF的擬合曲線?;谔荻戎狈綀D的擬合曲線如下:
圖4 梯度直方圖特征擬合效果圖
本文采樣INRIA樣本集上的614張正樣本和1218張負樣本作為訓練的樣本,在樣本上分別提取LUV顏色、梯度直方圖和梯度幅值特征,然后交由Adaboost訓練得到相應的分類器在測試樣本上檢測目標。在本文中對于測試樣本的選取是采用了300張正樣本圖片和500張負樣本圖片,實驗結果DET曲線如下:
圖5 INRIA樣本集實驗DET曲線
從圖5可以看出在INRIA樣本集上目標檢測誤檢率達到10-2時,使用本文提出的方法與Pls方法[11]相比漏檢率低30%,相比于Dalal提出的HOG特征方法漏檢率低近40%。部分實驗效果圖如下:
圖6 行人檢測效果示意圖
圖(a)中雖然檢測出所有的行人目標,但是最右邊的行人身體部分被檢測出來。由于行人目標姿態(tài)、衣著等經常變化,因此檢測存在著難度。圖(e)中多姿態(tài)行人被準確檢測出來。圖(b)中檢測出離攝像頭近的行人目標,由于在實驗中設置了最小滑動窗口的閾值,對于很小的行人目標檢測存在著困難。圖(c)(d)(f)(g)(h)均有很好的檢測效果。
本文針對給出圖6中8幅圖片使用HOG、HogLbp和本文方法計算消耗時間的比較,驗證檢測方法的快速性。
表1 行人檢測方法時間表
從上述的實驗結果可以看出FFC方法提高了行人檢測的速度,結合多特征融合的方式又可以保證行人檢測的準確率。但是提取的特征描述行人目標仍然存在著不足,在以后的研究中可以尋找更適合的特征作為行人目標的描述。在實際現(xiàn)實中圖像的復雜程度會更大,也增加了檢測的難度,所以需要全方位角度去加強姓人檢測的效果。
[1]Dalal N,Triggs B.Histograms of oriented gradients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEE Computer Society Conference on.IEEE,2005,1:886-893.
[2]Gavrila D M.A bayesian,exemplar-based approach to hierarchical shape matching[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,2007,29(8):1408-1421.
[3]Lin Z,Hua G,Davis L S.Multiple instance feature for robust partbased object detection[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:405-412.
[4]Borgefors G.Hierarchical chamfer matching:A parametric edge matching algorithm[J]. Pattern Analysis and Machine Intelligence,IEEE Transactions on,1988,10(6):849-865.
[5]Walk S,Majer N,Schindler K,et al.New features and insights for pedestrian detection[C]//Computer vision and pattern recognition(CVPR),2010 IEEE conference on.IEEE,2010:1030-1037.
[6]Gao W,Ai H,Lao S.Adaptive contour features in oriented granular space for human detection and segmentation[C]//Computer Vision and Pattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:1786-1793.
[7]孫銳,陳軍,高雋.基于顯著性檢測與HOG-NMF特征的快速行人檢測方法[J].電子與信息學報,2013,35(8):1921-1926.
[8]Wang X,Han T X,Yan S.An HOG-LBP human detector with partial occlusion handling[C]//Computer Vision,2009 IEEE 12th International Conference on.IEEE,2009:32-39.
[9]Ruderman D L,Bialek W.Statistics of natural images:Scaling in the woods[J].Physical review letters,1994,73(6):814.
[10]Ruderman D L.The statistics of natural images[J].Network: computation in neural systems,1994,5(4):517-548.
[11]Schwartz W R,Kembhavi A,Harwood D,et al.Human detection using partial least squares analysis[C]//Computer vision,2009 IEEE 12th international conference on.IEEE,2009:24-31.
AMethod for Pedestrian Detection Based on Fast Feature Computation
Cui Jian Hou Xiaorong
(University of Electronic Science and Technology of China,Chengdu,Sichuan,611731)
Traditional multi-scale feature extraction method for pedestrian detection firstly constructs image pyramid and then extracts corresponding features by sliding window method.The experiment reflects that it costs much time on feature extraction while we detect pedestrians.What we have to do is improving feature computation speed while does not matter detection performance.This paper proposes FFC(Fast Feature Computation)method for feature extraction and makes use of Adaboost algorithm and multi-features merge.Experimental results show that the effect is better.
image pyramid;sliding window method;FFC;Adaboost;multi-features merge
TP391.41
A
:1008-66609(2015)04-0050-03
崔劍,男,安徽合肥人,碩士,研究方向:模式識別與智能系統(tǒng),計算視覺與機器學習。