曹巧慧+葛萬(wàn)成
摘 要: 傳統(tǒng)的HOG特征對(duì)正視或側(cè)視行人有較好的識(shí)別率,但是對(duì)俯視行人的識(shí)別率仍有所欠缺。對(duì)檢測(cè)圖像的HOG特征根據(jù)不同的俯仰角進(jìn)行了轉(zhuǎn)換,同時(shí)優(yōu)化了SVM分類(lèi)器訓(xùn)練過(guò)程,提出了一種改進(jìn)的快速行人檢測(cè)算法。測(cè)試結(jié)果表明,該算法優(yōu)于基于傳統(tǒng)HOG特征的檢測(cè)方法,有效提高了不同俯仰角視頻中行人檢測(cè)的準(zhǔn)確性。
關(guān)鍵詞: 快速行人檢測(cè)算法; HOG特征; 俯仰角修正; SVM
中圖分類(lèi)號(hào): TN911.73?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2014)21?0062?04
Pedestrian quick detection algorithm based on with pitch angle corrected HOG features
CAO Qiao?hui, GE Wang?chen
(School of Electronics and Information Engineering, Tongji University, Shanghai 200092, China)
Abstract: Traditional HOG feature detection method has a preferable recognition rate for envisaging and side?looking pedestrians, but has a low recognition rate for overlooking pedestrians. An improved pedestrian quick detection algorithm is proposed in this paper, which is realized by converting HOG features in the detected images according to pitch angle and optimizing the SVM classifier training process. The testing result shows that the algorithm is better than the detection methods based on the traditional HOG features and has improved the detection veracity of pedestrians in the different pitch angle video images.
Keywords: pedestrian quick detection; HOG feature; pitch angle correction; SVM
0 引 言
目前在交通運(yùn)輸方面,針對(duì)行人以及客流的建模研究主要集中于對(duì)行人的步頻和長(zhǎng)度、行人安全、行人數(shù)目、行人跟蹤、公共服務(wù)設(shè)施服務(wù)時(shí)間等參數(shù)的研究[1]。在國(guó)內(nèi),由于特殊的國(guó)情,研究集中在聚集客流、服務(wù)時(shí)間以及對(duì)行人安全方面的研究。
大部分公共場(chǎng)所的背景較為復(fù)雜,因此如果僅僅使用基于背景?前景分割的目標(biāo)分割技術(shù),其性能會(huì)受到復(fù)雜背景的影響,其中包括將非人運(yùn)動(dòng)物體檢測(cè)為目標(biāo)或者將靜態(tài)目標(biāo)與背景融為一體導(dǎo)致漏檢。此外,監(jiān)控?cái)z像頭一般處于離地面較高的位置,其視角會(huì)發(fā)生一定的變化,基于模板或基于特征的檢測(cè)方式也會(huì)在魯棒性上受到一定的影響。
對(duì)于基于機(jī)器學(xué)習(xí)的行人檢測(cè)來(lái)說(shuō),其中的一個(gè)重要問(wèn)題是如何選取一個(gè)信息量足夠大并且對(duì)光照、視角等具有魯棒性的本地特征,以便將前景中的行人和非行人分割開(kāi)來(lái)。由于Dalal和Triggs提出的HOG特征能夠比較準(zhǔn)確地描述行人,因此本文將采用HOG特征作為行人的主要特征。
本文對(duì)Dalal和Triggs的算法進(jìn)行了改進(jìn),并且應(yīng)用在不同視角的公共場(chǎng)所視頻的行人檢測(cè)中。在檢測(cè)過(guò)程中,針對(duì)不同俯仰角,本文對(duì)檢測(cè)圖像的HOG特征進(jìn)行了轉(zhuǎn)換,使不同俯仰角視頻中的行人能夠被正確地檢測(cè)出來(lái)。
1 HOG特征及視角變化對(duì)其的影響
1.1 HOG特征
Dalal和Triggs于2006年提出了基于HOG的行人檢測(cè)算法[2]。與SIFT特征類(lèi)似,HOG也是采用圖像局部區(qū)域的梯度統(tǒng)計(jì)信息對(duì)圖像進(jìn)行描述。但是與SIFT不同的是,HOG并不只針對(duì)目標(biāo)區(qū)域內(nèi)的稀疏點(diǎn)進(jìn)行特征提取,而是一種密集特征,即HOG特征與目標(biāo)區(qū)域內(nèi)的所有點(diǎn)有關(guān),因此通常HOG會(huì)以高維向量的方式表現(xiàn)。
HOG的主要思想是:在一幅圖像中,相對(duì)于使用顏色信息,本地物體或行人的外觀與形狀能夠更好地被梯度或者邊緣分布的直方圖描述。因此,Dalal和Triggs將圖像分為各個(gè)胞元(cells),計(jì)算胞元中每個(gè)像素的梯度;對(duì)檢測(cè)窗口(window)中的塊(block)進(jìn)行密集掃描,串聯(lián)起來(lái)得到一個(gè)高維向量;最后通過(guò)線性SVM分類(lèi)器對(duì)向量進(jìn)行分類(lèi),以達(dá)到檢測(cè)物體的效果。
1.2 攝像機(jī)俯仰角對(duì)HOG特征的影響
對(duì)于大多數(shù)行人庫(kù),如INRIA,MIT行人庫(kù)等,其訓(xùn)練樣本主要為側(cè)視角的行人[3];而在實(shí)際應(yīng)用中,并不能夠保證攝像機(jī)的角度一定為側(cè)對(duì)行人的角度。如果不考慮視角變換而是將所有視角的行人圖片一起作為正樣本訓(xùn)練,則會(huì)影響到線性SVM分類(lèi)器的分類(lèi)性能。此外,對(duì)于特定視角的樣本采集會(huì)耗費(fèi)大量的時(shí)間,并且對(duì)場(chǎng)景的適應(yīng)性有限。因此研究視角的不同會(huì)帶來(lái)HOG特征的變化。
設(shè)置場(chǎng)景的攝像機(jī)的水平旋轉(zhuǎn)角為[α,]俯仰角為[β,]如圖1所示。下面將分別討論它們對(duì)梯度產(chǎn)生的影響。
圖1 攝像機(jī)視角不同對(duì)物體高度和寬度的影響
對(duì)于俯仰角[β,]其影響的是[y]方向的分量,若人體的高度為[H,][h1]是攝像機(jī)和水平面夾角為[β1]時(shí)人體在圖像上所成像的高度,[h2]是攝像機(jī)和水平面夾角為[β2]時(shí)人體在圖像上所成像的高度,則有:
[Cβ1,β2=h2h1=cosβ2cosβ1, -π2<β<π2] (1)
[θ2x,y=arctantanθ1x,y?1Cβ1,β2] (2)
且梯度為:
[?f2(x,y)=?2f?x2+tan2θ1(x,y)??2f?x2] (3)
[?f2(x,y)=?2f?x2+tan2θ1(x,y)C(β1,β2)??2f?x2] (4)
[?f2x,y=?f1x,y?1+tan2θ1(x,y)C(β1,β2)1+tan2θ1(x,y)] (5)
同時(shí)對(duì)于掃描窗口的尺寸,有:
[w=C(α1,α2)?w] (6)
[h=C(β1,β2)?h] (7)
因此當(dāng)攝像機(jī)的水平和俯仰角度發(fā)生變化時(shí),目標(biāo)圖像的梯度都會(huì)發(fā)生一定程度的變化。在實(shí)際檢測(cè)特征時(shí),先對(duì)梯度進(jìn)行相應(yīng)的變換,再按普通HOG的方式進(jìn)行檢測(cè)。
2 快速人體檢測(cè)算法
2.1 訓(xùn)練過(guò)程
本算法使用的訓(xùn)練過(guò)程如圖2所示。
圖2 SVM分類(lèi)器完整訓(xùn)練流程
本算法采用INRIA行人數(shù)據(jù)集作為訓(xùn)練樣本庫(kù),并加入一些自行采集到的行人數(shù)據(jù)。INRIA數(shù)據(jù)集中的圖像都為彩色圖像,正樣本的大小為96×160,負(fù)樣本的大小為320×240。本系統(tǒng)在RGB空間中提取HOG特征,在三個(gè)空間中分別計(jì)算這三個(gè)分量的梯度,選取幅值最大的作為該像素梯度;使用像素的cell計(jì)算9個(gè)方向上的梯度直方圖,并且將像素作為一個(gè)block進(jìn)行梯度直方圖歸一化[4],如圖3所示。
圖3 對(duì)圖片的block進(jìn)行直方圖歸一化并計(jì)算梯度直方圖
在進(jìn)行SVM分類(lèi)時(shí),本文采用SVM Light對(duì)正樣本和負(fù)樣本提取的HOG特征分類(lèi),并且使用線性核SVM作為分類(lèi)器。一次分類(lèi)結(jié)束后,將得到的分類(lèi)器對(duì)所有源負(fù)樣本進(jìn)行密集掃描檢測(cè)。二次訓(xùn)練完成后,就得到了3 780維的SVM分類(lèi)器。
2.2 快速行人檢測(cè)算法
檢測(cè)的流程圖如圖4所示。
圖4 本文使用檢測(cè)算法的流程圖
在二次訓(xùn)練后得到3 780維的SVM分類(lèi)器后,使用此分類(lèi)器對(duì)圖像中的人體進(jìn)行檢測(cè)。在使用SVM對(duì)特征進(jìn)行分類(lèi)時(shí),需要對(duì)視角進(jìn)行修正??紤]到攝像機(jī)的角度變化,本文中采用的掃描窗口大小由式(6)與式(7)決定,例如當(dāng)俯仰角為30°,水平角為15°時(shí),窗口的大小為64×110;獲得窗口中的梯度后,使用式(5)對(duì)獲得的梯度進(jìn)行修正,并且使用線性插值對(duì)圖像邊緣的梯度進(jìn)行插值,使梯度圖像重新縮放至64×128大小;然后對(duì)這些梯度計(jì)算HOG特征,并使用SVM分類(lèi)器進(jìn)行分類(lèi)[5]。
檢測(cè)時(shí)采用密集掃描,并對(duì)檢測(cè)圖像進(jìn)行變化率為[σ=]1.10的多尺度變換[6]。因此,圖像中包含相同目標(biāo)的多個(gè)檢測(cè)窗口在SVM檢測(cè)時(shí)都會(huì)被檢測(cè)為目標(biāo)窗口;單個(gè)目標(biāo)可能會(huì)出現(xiàn)多個(gè)檢測(cè)窗口,對(duì)后續(xù)跟蹤造成困難。
為了使每個(gè)目標(biāo)僅被單個(gè)窗口包圍,需要對(duì)包圍窗口進(jìn)行合并。如果一個(gè)目標(biāo)窗口被另一個(gè)目標(biāo)窗口完全包含,那么認(rèn)為它們屬于同一個(gè)目標(biāo);同時(shí)當(dāng)包圍窗口之間的重合面積大于70%時(shí),也認(rèn)為它們屬于一個(gè)目標(biāo)。這里將被認(rèn)為屬于同一個(gè)目標(biāo)的包圍窗口定義為屬于同一類(lèi)。對(duì)于每張圖像,將所有的包圍窗口分為[N]類(lèi),每個(gè)目標(biāo)帶有[n]個(gè)包圍窗口,并且引入一個(gè)閾值[T。]當(dāng)[N]類(lèi)中的包圍窗口數(shù)量[n]大于[T]時(shí),將相同類(lèi)別的包圍盒作合并;包圍窗口數(shù)量小于[T]時(shí),認(rèn)為這個(gè)類(lèi)屬于誤報(bào),對(duì)其進(jìn)行過(guò)濾。經(jīng)過(guò)測(cè)試,使用閾值[T]為2的合并算法就能夠合并大部分的包圍盒,并且濾除一定的誤檢目標(biāo)。
3 實(shí)驗(yàn)結(jié)果及分析
本文分別采用PETS2006的稀疏客流密度視頻與PETS2009中的中客流密度的部分視頻對(duì)算法的識(shí)別率進(jìn)行測(cè)試,并且截取一部分對(duì)本文所使用的HOG特征進(jìn)行檢測(cè)。視頻的信息如表1所示。在測(cè)試時(shí),記錄一幀中未檢測(cè)出的行人數(shù)量以及錯(cuò)誤檢測(cè)的目標(biāo)框數(shù)量。測(cè)試的結(jié)果如表2,表3所示。
表1 所使用的測(cè)試視頻信息
[視頻名稱\&俯仰角\&視頻尺寸\&幀數(shù)\&總目標(biāo)數(shù)量\&0601\&β≈45°\&360×288\&700\&471\&0602\&β≈45°\&360×288\&1 007\&687\&0901\&β≈30°\&768×576\&794\&3 099\&0902\&β≈0°\&768×576\&794\&2 807\&]
表2 普通HOG特征的測(cè)試結(jié)果
[視頻名稱\&幀數(shù)\&總目標(biāo)數(shù)量\&正確識(shí)別數(shù)\&漏檢數(shù)\&0601\&700\&471\&428\&43\&0602\&1 007\&687\&622\&64\&0901\&794\&3 099\&2 914\&185\&0902\&794\&2 807\&2 723\&84\&]
表3 視角轉(zhuǎn)換的HOG特征的測(cè)試結(jié)果
[視頻名稱\&幀數(shù)\&總目標(biāo)數(shù)量\&正確識(shí)別數(shù)\&漏檢數(shù)\&0601\&700\&471\&448\&23\&0602\&1 007\&687\&670\&17\&0901\&794\&3 099\&3 006\&93\&0902\&794\&2 807\&2 797\&110\&]
本文使用對(duì)數(shù)尺度下的DET(Detection Error Trade?off)曲線作為本文算法的準(zhǔn)確性評(píng)價(jià)標(biāo)準(zhǔn),即漏檢率(Miss Rate,MR)和誤檢率(False Postive Per Window,F(xiàn)FPW)曲線。本文的算法與Dalal的算法在俯仰角為0°,30°,45°的情況下的DET曲線分別如圖5所示。
從圖中可以看出,當(dāng)俯仰角為0°時(shí),本文的算法與Dalal的算法在檢測(cè)率上沒(méi)有沒(méi)有很大的區(qū)別;當(dāng)俯仰角為30°時(shí),本文的算法的漏檢率在時(shí)比Dalal的算法低了3%左右;當(dāng)俯仰角為45°時(shí),本文算法的漏檢率比Dalal的算法低了5%左右。
圖5 本文算法與傳統(tǒng)算法的比較
本文提出的方法的性能較傳統(tǒng)方法有所改善。圖6顯示了本文提出的方法在不同視頻中的檢測(cè)效果。
4 結(jié) 語(yǔ)
針對(duì)傳統(tǒng)HOG特征對(duì)俯視行人的識(shí)別率不高的問(wèn)題,本文基于被檢測(cè)圖片的HOG特征進(jìn)行了俯仰角修正,并且對(duì)不同視角的公共場(chǎng)所視頻進(jìn)行了行人檢測(cè)測(cè)試。測(cè)試結(jié)果證明,本文提出的算法有效提高了HOG算法檢測(cè)的準(zhǔn)確性。
圖6 測(cè)試結(jié)果
參考文獻(xiàn)
[1] SAUNIER N, HUSSEINI A E, ISMAIL K, et a1. Pedestrian stride frequency and length estimation in outdoor urban environments using video sensors [C]// TRB 90th Annual Meeting Compendium of Papers. Washington DC: Transportation Research Board, 201l: 1l?21.
[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the International Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886?893.
[3] KARAULOVA I, HALL P, MARSHALL A. A hierarchical model of dynamics for tracking people with a single video camera [C]// British Vision Conference. Bristol, UK: BVC, 2000: 352?361.
[4] 劉清,吳志剛,郭建明,等.視角和旋轉(zhuǎn)角變化時(shí)梯度方向直方圖的轉(zhuǎn)換[J].控制理論與應(yīng)用,2010(9):1269?1272.
[5] CHEN Y Q, HUANG T, YONG R. Parametric contour tracking using unscented Kalman filter [C]// 2002 International Confe?rence on Image Processing. New York: [s.n.], 2002: 613?616.
[6] 岑峰.視頻監(jiān)控系統(tǒng)中面向人的目標(biāo)跟蹤技術(shù)的研究[D].上海:上海交通大學(xué),2002.
本文使用對(duì)數(shù)尺度下的DET(Detection Error Trade?off)曲線作為本文算法的準(zhǔn)確性評(píng)價(jià)標(biāo)準(zhǔn),即漏檢率(Miss Rate,MR)和誤檢率(False Postive Per Window,F(xiàn)FPW)曲線。本文的算法與Dalal的算法在俯仰角為0°,30°,45°的情況下的DET曲線分別如圖5所示。
從圖中可以看出,當(dāng)俯仰角為0°時(shí),本文的算法與Dalal的算法在檢測(cè)率上沒(méi)有沒(méi)有很大的區(qū)別;當(dāng)俯仰角為30°時(shí),本文的算法的漏檢率在時(shí)比Dalal的算法低了3%左右;當(dāng)俯仰角為45°時(shí),本文算法的漏檢率比Dalal的算法低了5%左右。
圖5 本文算法與傳統(tǒng)算法的比較
本文提出的方法的性能較傳統(tǒng)方法有所改善。圖6顯示了本文提出的方法在不同視頻中的檢測(cè)效果。
4 結(jié) 語(yǔ)
針對(duì)傳統(tǒng)HOG特征對(duì)俯視行人的識(shí)別率不高的問(wèn)題,本文基于被檢測(cè)圖片的HOG特征進(jìn)行了俯仰角修正,并且對(duì)不同視角的公共場(chǎng)所視頻進(jìn)行了行人檢測(cè)測(cè)試。測(cè)試結(jié)果證明,本文提出的算法有效提高了HOG算法檢測(cè)的準(zhǔn)確性。
圖6 測(cè)試結(jié)果
參考文獻(xiàn)
[1] SAUNIER N, HUSSEINI A E, ISMAIL K, et a1. Pedestrian stride frequency and length estimation in outdoor urban environments using video sensors [C]// TRB 90th Annual Meeting Compendium of Papers. Washington DC: Transportation Research Board, 201l: 1l?21.
[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the International Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886?893.
[3] KARAULOVA I, HALL P, MARSHALL A. A hierarchical model of dynamics for tracking people with a single video camera [C]// British Vision Conference. Bristol, UK: BVC, 2000: 352?361.
[4] 劉清,吳志剛,郭建明,等.視角和旋轉(zhuǎn)角變化時(shí)梯度方向直方圖的轉(zhuǎn)換[J].控制理論與應(yīng)用,2010(9):1269?1272.
[5] CHEN Y Q, HUANG T, YONG R. Parametric contour tracking using unscented Kalman filter [C]// 2002 International Confe?rence on Image Processing. New York: [s.n.], 2002: 613?616.
[6] 岑峰.視頻監(jiān)控系統(tǒng)中面向人的目標(biāo)跟蹤技術(shù)的研究[D].上海:上海交通大學(xué),2002.
本文使用對(duì)數(shù)尺度下的DET(Detection Error Trade?off)曲線作為本文算法的準(zhǔn)確性評(píng)價(jià)標(biāo)準(zhǔn),即漏檢率(Miss Rate,MR)和誤檢率(False Postive Per Window,F(xiàn)FPW)曲線。本文的算法與Dalal的算法在俯仰角為0°,30°,45°的情況下的DET曲線分別如圖5所示。
從圖中可以看出,當(dāng)俯仰角為0°時(shí),本文的算法與Dalal的算法在檢測(cè)率上沒(méi)有沒(méi)有很大的區(qū)別;當(dāng)俯仰角為30°時(shí),本文的算法的漏檢率在時(shí)比Dalal的算法低了3%左右;當(dāng)俯仰角為45°時(shí),本文算法的漏檢率比Dalal的算法低了5%左右。
圖5 本文算法與傳統(tǒng)算法的比較
本文提出的方法的性能較傳統(tǒng)方法有所改善。圖6顯示了本文提出的方法在不同視頻中的檢測(cè)效果。
4 結(jié) 語(yǔ)
針對(duì)傳統(tǒng)HOG特征對(duì)俯視行人的識(shí)別率不高的問(wèn)題,本文基于被檢測(cè)圖片的HOG特征進(jìn)行了俯仰角修正,并且對(duì)不同視角的公共場(chǎng)所視頻進(jìn)行了行人檢測(cè)測(cè)試。測(cè)試結(jié)果證明,本文提出的算法有效提高了HOG算法檢測(cè)的準(zhǔn)確性。
圖6 測(cè)試結(jié)果
參考文獻(xiàn)
[1] SAUNIER N, HUSSEINI A E, ISMAIL K, et a1. Pedestrian stride frequency and length estimation in outdoor urban environments using video sensors [C]// TRB 90th Annual Meeting Compendium of Papers. Washington DC: Transportation Research Board, 201l: 1l?21.
[2] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of the International Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886?893.
[3] KARAULOVA I, HALL P, MARSHALL A. A hierarchical model of dynamics for tracking people with a single video camera [C]// British Vision Conference. Bristol, UK: BVC, 2000: 352?361.
[4] 劉清,吳志剛,郭建明,等.視角和旋轉(zhuǎn)角變化時(shí)梯度方向直方圖的轉(zhuǎn)換[J].控制理論與應(yīng)用,2010(9):1269?1272.
[5] CHEN Y Q, HUANG T, YONG R. Parametric contour tracking using unscented Kalman filter [C]// 2002 International Confe?rence on Image Processing. New York: [s.n.], 2002: 613?616.
[6] 岑峰.視頻監(jiān)控系統(tǒng)中面向人的目標(biāo)跟蹤技術(shù)的研究[D].上海:上海交通大學(xué),2002.