徐志通 駱炎民 柳培忠 歐陽怡 趙 亮
?
一種基于時空HOG與級聯(lián)SVM的行人檢測算法
徐志通1駱炎民1柳培忠2歐陽怡1趙 亮1
1.華僑大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 2.華僑大學(xué)工學(xué)院
行人檢測技術(shù)是計算機(jī)視覺和人工智能領(lǐng)域的核心問題,在現(xiàn)代智能監(jiān)控中具有重要的應(yīng)用前景,隨著計算機(jī)視覺與模式識別技術(shù)的發(fā)展,基于監(jiān)控視頻的行人檢測算法不斷被提出。由于現(xiàn)有的行人檢測算法受到光照、視角、尺度、姿勢以及部分遮擋等因素的影響,使得行人檢測仍然是一個開放性的問題。該文針對現(xiàn)有行人檢測算法在處理復(fù)雜背景以及尺度變化等情況時存在檢測精度不高的問題,提出了一種基于時空梯度方向直方圖與級聯(lián)支持向量機(jī)的行人檢測算法。時空梯度方向直方圖用于描述行人的外觀特征和運(yùn)動特征,通過對外觀特征、運(yùn)動特征進(jìn)行融合,采用級聯(lián)支持向量機(jī)算法對行人檢測器進(jìn)行訓(xùn)練,最終得到分類效果好的行人檢測器,實現(xiàn)更好的檢測性能。
行人檢測 監(jiān)控視頻 時空梯度 級聯(lián)支持向量機(jī) 特征融合
隨著近些年人工智能及計算機(jī)視覺領(lǐng)域的飛速發(fā)展,行人檢測技術(shù)也受到了大量的關(guān)注,行人檢測技術(shù)在智能機(jī)器人、無人駕駛、人機(jī)交互和視頻監(jiān)控系統(tǒng)等方面都有較廣泛的應(yīng)用,對于智能安防監(jiān)控應(yīng)用具有重要的現(xiàn)實意義。行人檢測是視頻監(jiān)控系統(tǒng)的核心所在,屬于最基本的底層算法,也是智能視頻監(jiān)控中更高層的行人跟蹤和行人行為理解與分析的基礎(chǔ),這使得行人檢測算法需要有較高的準(zhǔn)確率。由于行人是非剛性的,在單攝像頭固定的情況下,行人姿勢與角度等會存在一定程度的變化,而且容易受到行人本身衣著,尺度以及光照、背景的晃動甚至遮擋的影響,使得行人檢測成為計算機(jī)視覺研究上的一個難點。
對于目標(biāo)為非剛性的行人來說,檢測過程第一步需要設(shè)計出一個區(qū)分能力強(qiáng)的描述子,而行人特征可以分為顏色、紋理等底層特征,也可以通過多種底層特征進(jìn)行融合得到混合特征。一般從大量訓(xùn)練樣本中通過機(jī)器學(xué)習(xí)算法對行人檢測器進(jìn)行訓(xùn)練[1],基于此,研究者們提出了大量的行人檢測算法,包括采用HOG[2,3]特征通過圖像的梯度信息對行人進(jìn)行檢測、采用邊緣特征從樣本中學(xué)習(xí)到行人的形狀分布,以及積分通道特征通過對多種特征進(jìn)行融合等方法,這些算法的主要問題是當(dāng)行人出現(xiàn)了姿勢的變化、角度的變化和衣著的變化時,容易出現(xiàn)誤拒率,在復(fù)雜背景條件下,也容易出現(xiàn)假警率。因此,基于行人外觀的行人檢測算法很難達(dá)到高性能。
目前的行人檢測算法容易出現(xiàn)誤拒率和假陽率的情況,為此,本文提出了一種基于時空梯度方向直方圖與級聯(lián)支持向量機(jī)的行人檢測算法??紤]到行人不但具有行人的外觀,而且運(yùn)動特征也是具有一定周期性的,行人手臂和腿部運(yùn)動呈現(xiàn)出一種周期性擺動的動作,該算法首先通過結(jié)合空間維度的行人的外觀信息和時間維度上的運(yùn)動信息作為特征[4,5],采用級聯(lián)支持向量機(jī)進(jìn)行兩層分類[6],實現(xiàn)更高的檢測精度。
行人檢測[5, 7-11]大致分為三個過程:運(yùn)動目標(biāo)檢測、特征提取和識別行人。從監(jiān)控視頻中預(yù)測出行人可能出現(xiàn)的位置是視頻監(jiān)控中的行人檢測的一個核心問題,為了解決這個問題,研究者們已經(jīng)做了大量的研究,Gavrial[1, 10-12]在將輪廓形狀作為行人特征之后,提出了一種基于倒角匹配算法的分層形狀分類系統(tǒng),而更多研究者們重點關(guān)注行人的外觀特征描述子。Zhu[7, 12]等對HOG特征分塊時,采用大小不一的分塊方式,并且通過積分直方圖對HOG特征進(jìn)行計算,最后通過AdaBoosting算法對分類性能較強(qiáng)的塊進(jìn)行線性加權(quán)組合,形成分類性能較強(qiáng)的分類器,用于分類行人與其他物體。Ojala[1, 13]等提出了局部二值模式,根據(jù)紋理進(jìn)行分類,這種特征在行人檢測中并不常用,但是Mu[8, 13]等對行人特點進(jìn)行了分析,提出了局部二值模式的兩種變種方法:語義局部二值模式和傅里葉局部二值模式。通過將局部二值模式加入到梯度方向直方圖中形成一個新的描述子,用于降低背景噪聲的影響和部分遮擋問題,對于行人外觀在尺度上發(fā)生較大變化時,Park[14]等提出將HOG特征結(jié)合地面約束條件[4],去除一些行人到達(dá)不了的區(qū)域,比如天空、房頂、樹頂?shù)取oth[15]等通過對目標(biāo)對象和背景分別建立分類器,將檢測到的前景物體通過兩個分類器進(jìn)行分類,計算相似度,將前景物體歸類于相似度高的類別。
現(xiàn)有的許多行人檢測算法都是使用行人的外觀信息來描述行人特征,這種描述方式并不能很好地對行人進(jìn)行檢測,因為當(dāng)行人發(fā)生姿勢的變化或者是復(fù)雜背景下存在與行人類似形狀的背景時,檢測將會發(fā)生錯誤。一般的解決方法是通過引入大量的正負(fù)訓(xùn)練樣本,通過夠多的訓(xùn)練樣本盡可能包含更多的行人類型,但是引入大量樣本會導(dǎo)致過擬合現(xiàn)象的出現(xiàn)。本文通過將時間維度上的運(yùn)動特征加入到行人外觀特征上,由于在攝像頭是固定的情況下,靜止背景可以直接被過濾掉,對于運(yùn)動的背景,可以根據(jù)運(yùn)動背景的運(yùn)動狀態(tài)與定義好的行人運(yùn)動狀態(tài)進(jìn)行比較,若低于一定的閾值,則認(rèn)為是背景,否則認(rèn)為是前景,再對前景目標(biāo)采用級聯(lián)支持向量機(jī)進(jìn)行分類,從而去除一些非人的運(yùn)動前景,以提高行人檢測精度。
時空梯度方向直方圖用于描述行人的外觀特征和運(yùn)動特征,若背景與行人的外觀相似時,可以結(jié)合運(yùn)動信息來判斷檢測到的目標(biāo)是行人還是背景,運(yùn)動信息主要通過行人的手臂和腿部循環(huán)運(yùn)動得到。一般地,當(dāng)外觀不相似時,通過級聯(lián)SVM第一階段分類,將其直接視為背景;當(dāng)外觀相似時,再對需要檢測的目標(biāo)的運(yùn)動特征與定義好的行人運(yùn)動特征之間做差值,通過級聯(lián)SVM的第二階段進(jìn)行分類,如果大于給定閾值的話,則視為背景,否則視為行人[6, 16]。
3.1 時空梯度方向直方圖
一個視頻序列通常被認(rèn)為是基于三維空間而存在的,靜止背景不存在運(yùn)動信息,可以直接過濾掉,對于運(yùn)動的目標(biāo)前景,可以將其分解到空間維度上的外觀信息和時間維度上的運(yùn)動信息,而對于非行人的運(yùn)動物體而言,運(yùn)動信息也不存在與行人類似的循環(huán)擺動的運(yùn)動信息,檢測到運(yùn)動的行人時,該運(yùn)動將會產(chǎn)生時間維度和空間維度上的對應(yīng)向量,通過對應(yīng)的向量信息代替行人的運(yùn)動信息和外觀信息,可以以較高的精度從監(jiān)控視頻中檢測到行人。
(3)
空間維度上的梯度信息[1, 17]描述了行人的外觀信息,時間維度上的梯度信息描述了行人的運(yùn)動信息,可以將空間梯度信息和時間梯度信息以某種形式融合起來,形成一種更能描述行人信息的特征描述子[5, 16, 18],其中每一個梯度的直方圖都被劃分成9個。本研究通過將時間梯度信息與空間梯度信息串聯(lián)起來,形成一個時空梯度描述子[4, 19],將所有時空梯度特征描述子輸入級聯(lián)支持向量機(jī),進(jìn)行目標(biāo)分類。
3.2 級聯(lián)支持向量機(jī)
級聯(lián)支持向量機(jī)作為分類器使用,級聯(lián)過程分為兩個階段,第一階段根據(jù)正樣本訓(xùn)練好行人的分類器模型,對視頻中出現(xiàn)的每一幀,通過檢測窗口定位法定位好檢測區(qū)域,如果在檢測窗口中檢測出的特征與分類器中的行人特征不相同,則表示所檢測的對象為背景或非行人前景,在第一次級聯(lián)過程中將這種目標(biāo)對象進(jìn)行過濾,直接丟棄該幀。在第一次級聯(lián)過程中,希望盡可能多地去除一些不相關(guān)的負(fù)樣本區(qū)域。在第一次級聯(lián)過后,只有少量的區(qū)域能夠通過該次級聯(lián),對于一些類似行人特征的檢測對象;在第二次級聯(lián)階段,對另外一批正樣本進(jìn)行訓(xùn)練,得到更加滿足行人特征的行人檢測分類器,通過該分類器對通過第一次級聯(lián)的檢測對象進(jìn)行檢測,從而提高行人檢測的檢測精度。圖1為行人檢測框架。
圖1 行人檢測框架
3.3 檢測窗口定位法
對于從視頻中提取到的圖像幀,常用的方法是通過大小固定的滑動窗口以一個較小的步長對圖像進(jìn)行掃描,對掃描的圖像進(jìn)行特征提取,將提取的特征輸入由正樣本訓(xùn)練好的分類器中對該圖像進(jìn)行分類。在固定大小的掃描窗口中,可能會出現(xiàn)大部分不包含感興趣目標(biāo)的區(qū)域,而這些區(qū)域是可以不必掃描的,若采用固定大小的滑動窗口進(jìn)行目標(biāo)定位的話,可能會出現(xiàn)兩個問題:一是掃描過多沒必要掃描的窗口,加大了時間的消耗,影響行人檢測效率;二是在如此多的掃描窗口中,有可能會因為誤檢而導(dǎo)致假陽率的升高,影響檢測的精度[6, 20]。
本文提出的檢測窗口定位法是基于地面幾何約束的,對于行人而言,一般只會出現(xiàn)在地面上,而對于離地面較遠(yuǎn)的地方,比如天空、屋頂和樹梢上,一般是不會出現(xiàn)行人的,所以采用地面幾何約束可以去除一些離地面較遠(yuǎn)的圖像部分,減少搜索范圍,對于離地面較近的行人可能出現(xiàn)的區(qū)域采用跳躍滑動窗口的形式進(jìn)行搜索,這可以通過局部特征塊進(jìn)行投票,能在一定程度上處理部分遮擋和多姿態(tài)問題,檢測出目標(biāo)對象之后,采用非極大值抑制的方式[9, 21]可以更加精確地得到行人目標(biāo)。
本文實驗的訓(xùn)練樣本圖像和測試樣本圖像均來自于INRIAPerson數(shù)據(jù)庫(http://pascal.inrialpes.fr/data/human/),實驗所用的硬件為Intel Core i5 CPU 2.6GHz 2.6G,操作系統(tǒng)為Windows 8,內(nèi)存8GB,軟件平臺使用Matlab 2013a。從INRIAPerson數(shù)據(jù)庫中提取出來的圖片通過級聯(lián)支持向量機(jī)進(jìn)行分類,判斷出該圖片是否包含行人,該數(shù)據(jù)庫中包含的圖片信息是通過現(xiàn)實生活中的一些生活照片拍攝而成,與監(jiān)控視頻中出現(xiàn)的圖像具有較高的一致性。
4.1 檢測窗口定位法
每一段視頻中都會包含正負(fù)樣本所對應(yīng)的目標(biāo)對象,從INRIAPerson數(shù)據(jù)庫中提取了614張圖像,手動標(biāo)記為正樣本集,部分正樣本如圖2所示;將1218張圖像手動標(biāo)記為負(fù)樣本集,部分負(fù)樣本如圖3所示,將標(biāo)記好的正負(fù)樣本集作為輸入,通過級聯(lián)支持向量機(jī)訓(xùn)練行人分類器。
圖2 訓(xùn)練行人分類器的部分正樣本
圖3 訓(xùn)練行人分類器的部分負(fù)樣本
4.2 檢測結(jié)果
本實驗通過從INRIAPerson數(shù)據(jù)庫中選取60張從視頻監(jiān)控中拍攝到的圖片進(jìn)行行人檢測,利用級聯(lián)支持向量機(jī)對樣本進(jìn)行訓(xùn)練,進(jìn)行三組對比實驗。實驗結(jié)果如圖4所示,其中(a)是利用基于HOG特征與SVM的行人檢測算法檢測結(jié)果,(b)是利用基于STHOG特征與SVM的行人檢測算法檢測結(jié)果,(c)是利用基于STHOG特征與級聯(lián)SVM的行人檢測算法檢測結(jié)果。
通過實驗得知,提取HOG特征通過SVM分類器進(jìn)行分類時,分類效果并不好,既出現(xiàn)了漏檢,也出現(xiàn)了誤檢的情況,因為僅僅提取HOG特征的話,只考慮到行人的外觀與形狀特征,當(dāng)背景出現(xiàn)了和行人外觀類似的情況,則很容易發(fā)生誤檢的現(xiàn)象;基于STHOG特征的行人檢測,不僅考慮了行人的外觀,也考慮了行人的運(yùn)動信息,通過引入時間維度上的運(yùn)動信息,可以去除一些與人外觀類似的靜止背景,從而降低假陽率;而將STHOG特征通過級聯(lián)SVM進(jìn)行分類時,能夠在分類的第一階段就去除大量不包含行人的背景,第二階段將提取的前景根據(jù)STHOG特征進(jìn)一步分類,可以降低漏檢率,從而提高行人的檢測精度。
在檢測過程中,每幅圖像的假陽率與漏檢率以檢測錯誤均衡曲線來表示,如圖5所示。從中可見,在行人檢測假陽率相同的情況下,基于STHOG特征與級聯(lián)SVM的誤檢率更低;而在誤檢率相同的情況下,該方法的假陽率也更低,說明本文提出的方法對于提高行人檢測精度具有肯定的意義。
圖5 行人檢測錯誤均衡曲線
本文提出了一種基于STHOG特征與級聯(lián)SVM的行人檢測算法,該算法首先通過提取行人空間維度上的外觀特征與時間維度上的運(yùn)動信息,對外觀特征與運(yùn)動特征進(jìn)行融合,在通過分類器分類時可以去除靜止背景和大量不包含行人任何部位的像素,再對提取到的前景通過級聯(lián)SVM進(jìn)行第二次分類操作,以提高行人的檢測精度,但是存在一個行人在分類前預(yù)測出多個檢測結(jié)果的情況,為此采用非極大值抑制方法對多個檢測結(jié)果進(jìn)行聚類,從而獲得最終的行人檢測結(jié)果。
本文提出的算法還存在很多不足,比如:對于存在遮擋的行人檢測,需要引入基于部位的檢測子;在最后提取階段,聚類算法的好壞直接會影響到行人檢測效率,因此需要進(jìn)一步提出更好的聚類算法,這是未來需要解決的問題。
[1] 蘇松志, 李紹滋, 陳淑媛,等. 行人檢測技術(shù)綜述[J]. 電子學(xué)報, 2012, 40(4): 814-820.
[2] Dalal N, Triggs B, Schmid C. Human Detection Using Oriented Histograms of Flow and Appearance[C]// European Conference on Computer Vision, 2006: 428-441.
[3] Dalal N, Triggs B. Histograms of Oriented Gradients for Human Detection[C] // IEEE Conference on Computer Vision & Pattern Recognition, 2005: 886-893.
289例急診血液送檢標(biāo)本中,有22例標(biāo)本存在問題,占總樣本的7.6%。其中患者姓名與標(biāo)本信息不符有2例(9.1%);肉眼可見微小凝塊標(biāo)本8例(36.4%),采血量與抗凝劑比例不當(dāng)4例(18.2%),懷疑在輸液時抽血標(biāo)本3例(13.6%),用藥或進(jìn)餐后采血標(biāo)本2例(9.1%),標(biāo)本溶血3例(13.6%),結(jié)果見表1。
[4] Hua C, Makihara Y, Yagi Y, et al. Onboard monocular pedestrian detection by combining spatio-temporal hog with structure from motion algorithm[J]. Machine Vision & Applications, 2015, 26(2-3):161-183.
[5] Hua C, Makihara Y, Yagi Y. Pedestrian Detection by Using a Spatio-Temporal Histogram of Oriented Gradients[J]. Ieice Transactions on Information & Systems, 2013, E96.D(6): 1376-1386.
[6] Ding X, Xu H, Cui P, et al. A cascade SVM approach for head-shoulder detection using histograms of oriented gradients[C]//IEEE International Symposium on Circuits and Systems, 2009:1791-1794.
[7] Zhu Q, Yeh M C, Cheng K T, et al. Fast Human Detection Using a Cascade of Histograms of Oriented Gradients[C]// IEEE CVPR, 2006: 1491-1498.
[8] Mu Y, Yan S, Liu Y, et al. Discriminative local binary patterns for human detection in personal album[C]//IEEE CVPR, 2008:1-8.
[9] Su S Z, Liu Z H, Xu S P, et al. Sparse auto-encoder based feature learning for human body detection in depth image[J]. Signal Processing, 2015, 112(C): 43-52.
[10] Gavrila D M, Munder S. Multi-cue Pedestrian Detection and Tracking from a Moving Vehicle[J]. International Journal of Computer Vision, 2007, 73(1): 41-59.
[12] Gavrila D M. A Bayesian, Exemplar-Based Approach to Hierarchical Shape Matching[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2007, 29(8):1408-1421.
[13] Ojala T, Harwood I. A Comparative Study of Texture Measures with Classification Based on Feature Distributions[J]. Pattern Recognition, 1996, 29(1):51-59.
[14] Dennis Park, Deva Ramanan, Charless Fowlkes. Multiresolution Models for Object Detection[C]//European Conference on Computer Vision, 2010: 241-254.
[15] Roth P M, Sternig S, Grabner H, et al. Classifier Grids for Robust Adaptive Object Detection[C]//IEEE Conference on Computer Vision & Pattern Recognition, 2012:2727-2734.
[16] Fardi B, Schuenert U, Wanielik G. Shape and motion-based pedestrian detection in infrared images: a multi sensor approach[C]//IEEE Intelligent Vehicles Symposium, 2005: 18 - 23.
[17] Marin J, Vazquez D, Geronimo D, et al. Learning appearance in virtual scenarios for pedestrian detection[C]// IEEE Conference on Computer Vision & Pattern Recognition, 2010:137-144.
[18] Wang H, Ullah M M, Kl?ser A, et al. Evaluation of Local Spatio-temporal Features for Action Recognition.[C]// British Machine Vision Conference, 2009.
[19] Viola P, Jones M J, Snow D. Detecting Pedestrians Using Patterns of Motion and Appearance[J]. International Journal of Computer Vision, 2013, 63(2):153-161.
[20] Yamauchi Y, Fujiyoshi H, Hwang B W, et al. People detection based on co-occurrence of appearance and spatiotemporal features[C]//IEEE International Conference on Pattern Recognition, 2008:1-4.
[21] Shuai B, Cheng Y, Li S, et al. A Hierarchical Clustering Based Non-Maximum Suppression Method in Pedestrian Detection[M]. Springer Berlin Heidelberg, 2012:201-209.
* 本文為國家社科基金一般項目,華僑大學(xué)科研啟動項目,華僑大學(xué)研究生科研創(chuàng)新能力培育計劃資助項目“基于監(jiān)控視頻的公共場合行人異常行為分析研究”的階段性成果之一。