宗智嵩,王夏黎,張明輝,安毅生
(長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
?
一種基于監(jiān)控視頻的有效的行人自動(dòng)跟蹤方法*
宗智嵩,王夏黎,張明輝,安毅生
(長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064)
行人跟蹤是智能視頻監(jiān)控領(lǐng)域一個(gè)重要的研究?jī)?nèi)容,受到廣泛關(guān)注。在實(shí)際應(yīng)用中,對(duì)視頻中行人跟蹤處理的實(shí)時(shí)性和準(zhǔn)確性都有很高要求,因此,如何在場(chǎng)景復(fù)雜多變的視頻圖像中完成對(duì)多行人自動(dòng)、快速而準(zhǔn)確的跟蹤,是行人跟蹤方法的研究熱點(diǎn)。提出了一種有效的行人自動(dòng)跟蹤方法,該方法通過AdaBoost+Haar的檢測(cè)框架以及SURF特征點(diǎn)匹配,改進(jìn)原始的在線Boosting跟蹤算法,解決了跟蹤過程中由于目標(biāo)尺度變化造成的跟蹤誤差問題并實(shí)現(xiàn)了對(duì)視頻圖像中多行人自動(dòng)檢測(cè)跟蹤。使用校園內(nèi)實(shí)際監(jiān)控視頻進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明該方法有較好的跟蹤效果。
智能監(jiān)控視頻;運(yùn)動(dòng)目標(biāo)檢測(cè);多目標(biāo)跟蹤;AdaBoost;在線Boosting
對(duì)監(jiān)控視頻圖像中的行人進(jìn)行檢測(cè)和跟蹤以及對(duì)行人的行為和運(yùn)動(dòng)狀態(tài)進(jìn)行分析是計(jì)算機(jī)視覺的一個(gè)重要研究方向,也是實(shí)現(xiàn)智能視頻監(jiān)控的關(guān)鍵,在社會(huì)安保、城市規(guī)劃、經(jīng)濟(jì)決等方面有著廣泛的應(yīng)用,具有一定的研究和應(yīng)用價(jià)值。
目前的跟蹤算法主要是將目標(biāo)跟蹤看作概率密度函數(shù)估計(jì)問題,如卡爾曼濾波、粒子濾波等。根據(jù)顏色直方圖的跟蹤算法Meashift及其改進(jìn)的Camshift[1]算法使用也較多,該方法計(jì)算效率高,但易受顏色等因素影響。近幾年比較流行的是基于學(xué)習(xí)的目標(biāo)跟蹤方法,即把目標(biāo)和背景看作分類問題,通過前期訓(xùn)練分類器,在之后的跟蹤中將目標(biāo)和背景進(jìn)行分類,如TLD[2]等方法,但由于監(jiān)控視頻數(shù)據(jù)量大,使用這些方法的效率較低,實(shí)時(shí)性差。并且由于在實(shí)際監(jiān)控視頻中光照影響明顯,行人間遮擋頻繁,遮擋面積較大,對(duì)行人進(jìn)行整體檢測(cè)的跟蹤方法,在現(xiàn)實(shí)場(chǎng)景中計(jì)算量大,效果不佳。本文是基于傾斜視角[3-5]的行人跟蹤方法,該視角下行人面部和頭部特征明顯,在圖像中所占面積較小,有效地降低了計(jì)算量,且遮擋情況極少,有較高的實(shí)際使用價(jià)值,故將人臉和人頭作為行人跟蹤的具體對(duì)象。另外,目前研究的跟蹤算法大都需要手動(dòng)初始化跟蹤對(duì)象,不滿足自動(dòng)跟蹤的實(shí)際使用需求,本文通過對(duì)人臉和人頭檢測(cè),在檢測(cè)區(qū)域內(nèi)對(duì)跟蹤目標(biāo)進(jìn)行自動(dòng)初始化,并在跟蹤階段可以對(duì)多個(gè)目標(biāo)進(jìn)行跟蹤。
本文采用的方法是在視頻畫面外圍設(shè)定檢測(cè)人臉和人頭的區(qū)域。在外圍檢測(cè)區(qū)域內(nèi),通過高斯背景建模的方法,縮小檢測(cè)范圍提高檢測(cè)效率,并將檢測(cè)到的目標(biāo)自動(dòng)初始化為跟蹤對(duì)象。在里層跟蹤區(qū)域內(nèi),使用SURF特征點(diǎn)匹配改進(jìn)原始的在線Boosting跟蹤方法,實(shí)現(xiàn)對(duì)縱向運(yùn)動(dòng)尺度變化的目標(biāo)尺度自適應(yīng)跟蹤。
本文的行人檢測(cè)是在行人檢測(cè)區(qū)域內(nèi)檢測(cè),通過混合高斯背景建模[6]的方法獲得前景區(qū)域并對(duì)前景區(qū)域進(jìn)行邊緣檢測(cè),獲取輪廓矩形,將檢測(cè)范圍進(jìn)一步縮小至運(yùn)動(dòng)目標(biāo)可能出現(xiàn)的區(qū)域,并根據(jù)視頻的實(shí)際情況,去除面積較小的區(qū)域,后續(xù)目標(biāo)檢測(cè)只需要對(duì)這些區(qū)域進(jìn)行檢測(cè),而不用對(duì)整個(gè)檢測(cè)區(qū)域檢測(cè),從而實(shí)現(xiàn)對(duì)算法效率的提高。流程如圖 1所示。
圖1 精確目標(biāo)檢測(cè)范圍
混合高斯背景建模是由斯托弗等人提出的經(jīng)典的自適應(yīng)混合高斯背景提取方法,該方法認(rèn)為各像素點(diǎn)之間相互獨(dú)立,而其在視頻圖像中的變化可以用高斯分布來描述其像素值的變化規(guī)則,并依此建立背景模型。當(dāng)新的一幀圖像到來時(shí),根據(jù)建立的背景模型判斷每個(gè)像素點(diǎn)是前景點(diǎn)還是背景點(diǎn),并對(duì)高斯模型進(jìn)行不斷的更新。
在行人檢測(cè)中,較為常用的是使用HOG特征[7]的檢測(cè)方法,但是該方法計(jì)算量較大且受行人間相互的遮擋以及環(huán)境影響較大,因此對(duì)人頭人臉進(jìn)行檢測(cè)不僅會(huì)降低計(jì)算量,還能夠提高檢測(cè)效率。在監(jiān)控視頻中,行人的頭部信息可能是正面人臉、側(cè)面人臉、背面人頭三種情況,四個(gè)方向,將正面、側(cè)面人臉定為一個(gè)人臉分類器,將背面人頭定為人頭分類器。
本文采用Haar特征和AdaBoost[8-9]方法使用大量樣本訓(xùn)練兩個(gè)分類器,其主要思想是通過積分圖計(jì)算所需分類對(duì)象正樣本的Haar特征值,每一個(gè)特征值對(duì)應(yīng)一個(gè)弱分類器。使用訓(xùn)練不同的弱分類器形成強(qiáng)分類器,并將多個(gè)強(qiáng)分類器串聯(lián)為瀑布式級(jí)聯(lián)架構(gòu)分類器。
訓(xùn)練正樣本包括從實(shí)際監(jiān)控中采集以及對(duì)MIT人臉庫和INRIA行人數(shù)據(jù)庫中的人臉和人頭的提取,負(fù)樣本自行選擇大量不包含檢測(cè)內(nèi)容的圖片,每個(gè)分類器的訓(xùn)練正樣本數(shù)為5 000,負(fù)樣本數(shù)為4 000。
3.1 在線Boosting算法跟蹤原理
本文采用在線Boosting[10-12]跟蹤方法,對(duì)離線分類器檢測(cè)出的目標(biāo)在跟蹤區(qū)域進(jìn)行跟蹤。在線Boosting算法將跟蹤問題看作跟蹤目標(biāo)和背景的更新問題,接收到每一幀時(shí),將此幀中的目標(biāo)作為正樣本,從正樣本周圍選取若干與正樣本大小相同的背景塊作為負(fù)樣本加入到之前訓(xùn)練好的分類器中進(jìn)行學(xué)習(xí)并更新分類器。具體原理如下:
(2)訓(xùn)練弱分類器hk,計(jì)算分類錯(cuò)誤率:
(1)
(3)根據(jù)分類錯(cuò)誤率設(shè)置弱分類器的權(quán)重:
(2)
(4)更新樣本權(quán)重:
(3)
(5)最終生成強(qiáng)分類器:
(4)
對(duì)于新到來的一幀圖像,使用上一幀生成的強(qiáng)分類器對(duì)搜索區(qū)域內(nèi)提取的N個(gè)樣本進(jìn)行測(cè)試,并生成置信圖。通過置信圖的頂點(diǎn)確定目標(biāo)的新的位置。將該目標(biāo)作為正樣本并在周圍選取若干負(fù)樣本,并將這些樣本重復(fù)上述的強(qiáng)分類器過程,生成新的強(qiáng)分類器。對(duì)以上過程進(jìn)行迭代,不斷對(duì)目標(biāo)和背景進(jìn)行分類,就達(dá)到了對(duì)目標(biāo)進(jìn)行跟蹤的目的。
但是該方法由于跟蹤框保持尺度不變,在目標(biāo)尺度變化的過程中,尤其是目標(biāo)遠(yuǎn)離攝像頭的過程中容易引入錯(cuò)誤,而這種錯(cuò)誤的不斷累積將導(dǎo)致跟蹤漂移。故本文提出了依據(jù)SURF特征描述算子的改進(jìn)方案解決以上問題,并實(shí)現(xiàn)了自動(dòng)多目標(biāo)行人跟蹤。
3.2 SURF描述算子原理及匹配
在計(jì)算機(jī)視覺領(lǐng)域,SIFT[13]局部特征描述算子由于尺度不變性、旋轉(zhuǎn)不變性等特性應(yīng)用較為廣泛。但是該算法計(jì)算量大、效率低,這也就促成了SURF局部特征描述算子[14]的產(chǎn)生,該算法的運(yùn)算效率是SIFT的數(shù)倍。
SURF算法依賴于Hessian矩陣,并將Hessian 矩陣加上尺度σ的描述。設(shè)圖像I中的像素點(diǎn)X坐標(biāo)為(x,y),則矩陣被重新定義為:
(5)
Bay等人通過計(jì)算逼近值對(duì)其計(jì)算進(jìn)行簡(jiǎn)化,使用與尺度線性相關(guān)的權(quán)值修正兩者之間的誤差,并證明當(dāng)Hessian決定因子為0.9時(shí)效果最佳,得到:
det(Happrox)=DxxDyy-(0.9Dxy)2
(6)
根據(jù)上式遍歷圖像所有像素點(diǎn),得到該圖像在尺度σ下的響應(yīng)圖像,在使用不同尺度的模版進(jìn)行高斯卷積時(shí),將每個(gè)像素點(diǎn)的特征值與空間鄰域內(nèi)其他26個(gè)點(diǎn)進(jìn)行比較,判斷該像素點(diǎn)是否為局部極值,也就是特征點(diǎn)。
得到兩幅圖像的特征點(diǎn)集合后,使用快速臨近匹配庫(Fast Library for Approximate Nearest Neighbors,F(xiàn)LANN)[15-17]中的隨機(jī)KD樹進(jìn)行匹配。KD樹是一種適用于高維向量匹配的搜索樹,所有維度中方差最大的維度的中間值作為樹的節(jié)點(diǎn),并不斷重復(fù)該過程直到葉子節(jié)點(diǎn)。
3.3 算法改進(jìn)
現(xiàn)有的跟蹤算法大多不能自動(dòng)選擇跟蹤目標(biāo)且只能跟蹤單目標(biāo),本文通過對(duì)人臉和人頭的檢測(cè),自動(dòng)初始化跟蹤目標(biāo)。當(dāng)跟蹤目標(biāo)位置更新后記錄跟蹤目標(biāo)位置,在檢測(cè)出人臉或者人頭時(shí),遍歷所有跟蹤目標(biāo)的更新框,若二者中心的距離小于跟蹤框的寬度,則認(rèn)為是同一目標(biāo),不對(duì)跟蹤框進(jìn)行初始化。在實(shí)驗(yàn)中,使用STL中的容器保存跟蹤框初始化的位置和更新位置,實(shí)現(xiàn)對(duì)多目標(biāo)進(jìn)行自動(dòng)跟蹤。具體流程及跟蹤效果如圖2所示。
圖2 行人檢測(cè)跟蹤流程
經(jīng)實(shí)驗(yàn)發(fā)現(xiàn),使用該方法能達(dá)到較好的跟蹤效果及效率,如圖3所示。
由圖3可以看出,行人在由近至遠(yuǎn)的運(yùn)動(dòng)過程中,頭部及人臉的尺度會(huì)產(chǎn)生變化,當(dāng)行人運(yùn)動(dòng)到攝像頭的遠(yuǎn)處時(shí),原始的跟蹤框遠(yuǎn)大于實(shí)際人頭或者人臉,若此時(shí)有其他目標(biāo)進(jìn)入跟蹤框中,則會(huì)對(duì)另外一個(gè)目標(biāo)產(chǎn)生誤檢。故在跟蹤的過程中,間隔n幀對(duì)跟蹤框內(nèi)的圖像進(jìn)行SURF特征點(diǎn)匹配,得到t幀中匹配度最好的兩個(gè)點(diǎn)p1、p2以及t+n幀中對(duì)應(yīng)的點(diǎn)p3、p4。跟蹤過程特征點(diǎn)匹配如圖4所示。
圖4 跟蹤過程特征點(diǎn)匹配
設(shè)原始跟蹤框尺度為1,分別計(jì)算兩幅圖像中兩點(diǎn)之間的歐氏距離比值即可得圖像在t+n幀的尺度S′,其中dp3p4和dp1p2分別表示在第t幀和第t+n幀中兩點(diǎn)之間的距離。
(7)
由于匹配點(diǎn)間的距離并非絕對(duì)的匹配(距離為0),但是基本小于0.1,故使用類似線性函數(shù)歸一化的方法計(jì)算對(duì)該尺度的置信度:
(8)
其中Dp1p3和Dp2p4表示根據(jù)KD樹匹配后兩點(diǎn)匹配的距離??梢罁?jù)置信度對(duì)尺度進(jìn)行加權(quán)計(jì)算得到校正后的尺度S:
S=1×(1-conf_ratio)+S′conf_ratio
(9)
(10)
(11)
此時(shí)只使用一個(gè)最佳匹配特征點(diǎn),故此時(shí)計(jì)算對(duì)該特征點(diǎn)的置信度為:
(12)
對(duì)在線Boosting在t+n幀置信度最大跟蹤框Rectt+n(xt+n,yt+n,w,h)的左上頂點(diǎn)加權(quán)更新:
(13)
(14)
得到校正后的跟蹤框Rectt+n(xt+n,yt+n,Sw,Sh)。若間隔幀數(shù)n過大,則目標(biāo)可能形變較大,無法匹配,若過小,目標(biāo)變化有限,造成不必要的計(jì)算。實(shí)驗(yàn)中將n設(shè)為5,即間隔5幀進(jìn)行尺度變換及跟蹤框校正。實(shí)驗(yàn)效果如圖5所示,在跟蹤過程中,跟蹤框不斷進(jìn)行尺度變換,避免其他無關(guān)目標(biāo)進(jìn)入跟蹤框內(nèi)被誤認(rèn)為正樣本。
圖5 跟蹤誤檢及改進(jìn)效果
本文實(shí)驗(yàn)采用Windows 7平臺(tái)運(yùn)行,處理器為3.6 GHz Intel Core i7,內(nèi)存為8 GB,C++編譯環(huán)境為VS2013。實(shí)驗(yàn)視頻采用校園內(nèi)實(shí)際監(jiān)控視頻錄像作為處理對(duì)象,分別使用本文方法和原始的在線Boosting方法進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中將跟蹤框與實(shí)際目標(biāo)包裹,對(duì)目標(biāo)進(jìn)入視區(qū)直至離開視區(qū)的整個(gè)過程穩(wěn)定跟蹤視為準(zhǔn)確跟蹤。實(shí)驗(yàn)結(jié)果如表1所示。原始的跟蹤算法在行人縱向運(yùn)動(dòng)尺度發(fā)生變化情況下會(huì)產(chǎn)生跟蹤框漂移等情況,并保留在圖像中,對(duì)后續(xù)的行人檢測(cè)跟蹤產(chǎn)生影響,改進(jìn)后的方法,對(duì)目標(biāo)的包裹更為準(zhǔn)確,也避免了引入錯(cuò)誤,達(dá)到了較好的跟蹤效果。算法改進(jìn)部分增加了一定的時(shí)間消耗,但是仍能達(dá)到15 f/s(幀/秒)的實(shí)時(shí)性要求,能滿足日常監(jiān)控使用需求。
表1 實(shí)驗(yàn)結(jié)果對(duì)比
本文提出的劃分檢測(cè)區(qū)域和跟蹤區(qū)域的行人檢測(cè)跟蹤方法,可自動(dòng)初始化跟蹤目標(biāo),并利用SURF特征點(diǎn)進(jìn)行匹配,達(dá)到了尺度自適應(yīng)的效果,將理論方法應(yīng)用到具體的應(yīng)用中有普遍適應(yīng)性和較好的運(yùn)行效率。但是該方法在檢測(cè)和跟蹤精度上還有優(yōu)化的空間,另外在該方法的基礎(chǔ)上,可以對(duì)行人的特征、運(yùn)動(dòng)路徑、視野內(nèi)逗留時(shí)間進(jìn)行有效的提取,為進(jìn)一步的研究提供幫助,后續(xù)將開展相關(guān)研究。因此,本文提出的監(jiān)控視頻行人跟蹤算法具有一定的理論和實(shí)際意義。
[1] 顧裕豐, 劉國(guó)棟. 一種復(fù)雜場(chǎng)景下的運(yùn)動(dòng)目標(biāo)跟蹤算法[J]. 電子技術(shù)應(yīng)用, 2012,38(1):122-124.
[2] KALAL Z, MIKOLAJCZYK K, MATAS J. Tracking-learning-detection[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2011, 34(7):1409-1422.
[3] Liu Xiafeng, TU P H, RITTSCHER J, et al. Detecting and counting people in surveillance applications[C]. Advanced Video and Signal Based Surveillance, 2005 IEEE International Conference on Video and Signal Based Surveillance, 2005:306-311.
[4] Zeng Chengbin, Ma Huadong. Robust head-shoulder detection by PCA-based multilevel HOG-LBP Detector for People Counting[C]. International Conference on Pattern Recognition, 2010:2069-2072.
[5] SIDLA O, LYPETSKYY Y, BRANDLE N, et al. Pedestrian detection and tracking for counting applications in crowded situations[C]. IEEE International Conference on Video and Signal Based Surveillance, 2006:70-70.
[6] STAUFFER C, GRIMSON W E L. Adaptive background mixture models for real-time tracking[C]. IEEE Computer Society Conference on Computer Vision & Pattern Recognition, 1999:2246.
[7] 石志強(qiáng), 趙向東, 李文軍,等. 基于HOG和block權(quán)重的快速人體檢測(cè)方法[J]. 微型機(jī)與應(yīng)用, 2012, 31(11):44-46.
[8] VIOLA P, JONES M J. Robust real-time object detection[J]. International Journal of Computer Vision, 2004, 57(2): 131-154.
[9] 王小蘭,蔡燦輝,朱建清.一種改進(jìn)的快速人臉檢測(cè)算法[J]. 微型機(jī)與應(yīng)用, 2013, 32(15):37-40.
[10] GRABNER H, BISCHOF H. On-line Boosting and vision[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2006:260-267.
[11] 沈丁成. 基于在線Boosting算法的目標(biāo)跟蹤研究[D]. 天津:天津理工大學(xué), 2013.
[12] 孫來兵, 陳健美, 宋余慶,等. 改進(jìn)的基于在線Boosting的目標(biāo)跟蹤方法[J]. 計(jì)算機(jī)應(yīng)用, 2013, 33(2):495-498.
[13] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International Journal of Computer Vision, 2004, 60(2):91-110.
[14] BAY H, TUYTELAARS T, GOOL L V. SURF: speeded up robust features.[J]. Computer Vision & Image Understanding, 2006, 110(3):404-417.
[15] MUJA M. Fast approximate nearest neighbors with automatic algorithm configuration[C]. Visapp 2009-Proceedings of the Fourth International Conference on Computer Vision Theory and Applications, Lisboa, Portugal, February, 2009:331-340.
[16] MUJA M, RUSU R B, BRADSKI G, et al. REIN-A fast, robust, scalable recognition infrastructure[C]. IEEE International Conference on Robotics & Automation, 2011:2939-2946.
[17] MUJA M, LOWE D G. Fast matching of binary features[C]. Ninth Conference on Computer and Robot Vision. IEEE Computer Society, 2012:404-410.
Effective automatic pedestrian tracking method based on surveillance video
Zong Zhisong, Wang Xiali, Zhang Minghui, An Yisheng
(School of Information Engineering, Chang’an University,Xi’an 710064, China)
Pedestrian tracking is an important research content in the field of intelligent video surveillance, which is being widely concerned. In practice, the pedestrian tracking in video processing has a high requirement of real-time and accuracy. Therefore, how to complete automatic, fast and accurate pedestrians tracking in the complex video scene is a hot spot. In this paper, an effective method of pedestrian tracking is proposed. This method combined with AdaBoost+Haar detection framework and improved online Boosting algorithm with the SURF feature matching solves the error caused by multi-scale window and realizes the automatic detection and tracking of multi pedestrians in video images. Experiments with actual surveillance videos on campus show that the proposed method has a better processing effect.
intelligent visual surveillance; moving objects detection; multi-objects tracking; AdaBoost; on-line Boosting
中國(guó)博士后科學(xué)基金資助項(xiàng)目(2012M521729)
TP391.4
A
10.19358/j.issn.1674- 7720.2017.12.014
宗智嵩,王夏黎,張明輝,等.一種基于監(jiān)控視頻的有效的行人自動(dòng)跟蹤方法[J].微型機(jī)與應(yīng)用,2017,36(12):46-49.
2016-12-29)
宗智嵩(1992-),男,碩士研究生,主要研究方向:圖形圖像處理與智能交通。
王夏黎(1965-),男,博士,副教授,主要研究方向:圖形圖像處理與智能交通。
張明輝(1990-),男,碩士研究生,主要研究方向:智能交通與圖形圖像處理。