丁 藝 陳樹越 劉金星 戴永惠 朱雙雙
基于歸一化目標(biāo)像素的人群密度估計(jì)方法
丁 藝 陳樹越*劉金星 戴永惠 朱雙雙
(常州大學(xué)信息科學(xué)與工程學(xué)院 江蘇 常州 213164)
由于像素統(tǒng)計(jì)方法在提取高密度人群特征時(shí),可能會(huì)導(dǎo)致在計(jì)算感興趣區(qū)域(ROI)中的人數(shù)時(shí)出現(xiàn)較大的誤差,因此提出歸一化前景目標(biāo)像素提取人群特征,并采用支持向量機(jī)(SVM)對(duì)ROI中的人群密度進(jìn)行估計(jì)。首先利用混合高斯模型消除背景,并用Otsu算法提取人群目標(biāo),然后進(jìn)行歸一化前景目標(biāo)像素的人群特征提取,最后利用支持向量機(jī)DAG算法實(shí)現(xiàn)人群密度分類,并與人工神經(jīng)網(wǎng)絡(luò)方法、基于像素的和基于紋理的方法進(jìn)行了對(duì)比。實(shí)驗(yàn)結(jié)果表明正確檢測率可達(dá)到95%。
人群密度估計(jì) 歸一化前景目標(biāo) 人群特征 支持向量機(jī)
隨著社會(huì)經(jīng)濟(jì)的發(fā)展和城市化進(jìn)程的加快,人們的社會(huì)活動(dòng)增多,在一些公共場合(如車站、體育館、機(jī)場等)[1]經(jīng)常會(huì)出現(xiàn)人群過度擁擠的現(xiàn)象。人群過度擁擠就會(huì)存在安全隱患,甚至?xí)霈F(xiàn)一些事故,除了對(duì)整個(gè)攝像范圍內(nèi)的人群密度做出估計(jì)之外,有時(shí)還需要估算出部分區(qū)域聚集人群的密度。因此利用人群密度估計(jì)對(duì)這些人流量大的場所進(jìn)行監(jiān)控就顯得十分必要[2,3]。
目前智能人群密度估計(jì)的主要方法有基于像素的統(tǒng)計(jì)方法、基于紋理分析分方法和基于個(gè)體特征的分析方法[4-6]。像素特征分析方法在處理低密度人群時(shí),準(zhǔn)確度較高,但是高密度時(shí)會(huì)出現(xiàn)重疊問題,準(zhǔn)確度較低;而紋理分析方法在處理低密度人群時(shí)準(zhǔn)確度相比前者會(huì)大大降低。
為了能夠更加高效準(zhǔn)確地估計(jì)人群密度,我們提出了歸一化前景目標(biāo)和基于DAG(有向無環(huán)圖)算法的支持向量機(jī)方法來估計(jì)人群密度。該方法首先利用混合高斯模型[7,8]的背景減除技術(shù)來提取人群前景,結(jié)合Otsu算法提取人群特征并得到二值圖。然后采用透視矯正算法來提取人群前景區(qū)塊像素,計(jì)算歸一化前景目標(biāo)的面積。最后將特征向量放入訓(xùn)練好的支持向量機(jī)中進(jìn)行分析得到人群密度結(jié)果。
人群密度估計(jì)系統(tǒng)采用混合高斯背景消除和邊緣檢測的方法從視頻圖像中提取前景特征;因?yàn)榫嚯x攝像機(jī)越遠(yuǎn)的人物,在圖像中所占像素點(diǎn)數(shù)越少,而距離攝像機(jī)越近,其在圖像中所占像素點(diǎn)數(shù)越多,所以有必要對(duì)提取的前景目標(biāo)像素進(jìn)行歸一化和透視矯正,通過計(jì)算歸一化的前景目標(biāo)像素[9-11]的面積,才能最終預(yù)測場景中的密度等級(jí)。
1.1 人群特征提取
在通常活動(dòng)場景中,人物活動(dòng)范圍有限,不會(huì)占據(jù)整幅圖像,因此需要對(duì)圖像中的ROI區(qū)域進(jìn)行選擇,減少背景的干擾。為此,采用基于混合高斯模型的背景消除技術(shù)來提取前景人群?;旌细咚鼓P退惴▽?duì)環(huán)境變化具有較強(qiáng)的適應(yīng)性,它是比較常用的背景建模方法,能描述像素的多模狀態(tài),能夠?qū)ο鄬?duì)復(fù)雜、光照緩慢變化或存在小幅度重復(fù)運(yùn)動(dòng)的背景進(jìn)行較為準(zhǔn)確的建模,應(yīng)用比較廣泛。
當(dāng)最終的前景目標(biāo)被識(shí)別后,將所處理的圖像通過閾值技術(shù)轉(zhuǎn)換成二值圖像,閾值是通過Otsu算法[12,13]自動(dòng)獲取的。如果它們的閾值超過預(yù)定的閾值,圖像中的單個(gè)像素被標(biāo)記為“對(duì)象”像素,閾值為1;否則,作為背景像素值為0。
1.2 歸一化前景
原始前景區(qū)塊會(huì)出現(xiàn)透視畸變(也稱射影畸形),即距離攝像機(jī)越遠(yuǎn)的物體,在圖像中所占像素點(diǎn)數(shù)越少,而距離攝像機(jī)越近的物體,在圖像中所占像素點(diǎn)數(shù)越多。如圖1所示,參考人物從距離相機(jī)較近的位置移動(dòng)到距離相機(jī)較遠(yuǎn)的位置時(shí),在圖像中占有的面積變小。提取的視頻中,將提取的人群區(qū)塊轉(zhuǎn)化為二值圖[14],區(qū)塊大小不同,其占有的像素?cái)?shù)也不同,得到的前景目標(biāo)像素?cái)?shù)可能會(huì)影響最終的計(jì)算精度。因此,有必要對(duì)原始前景目標(biāo)進(jìn)行像素歸一化。
圖1 同一參考人物在不同位置圖像
從人群特征提取模塊中得到二值圖像后,提取所有前景區(qū)塊中的像素總數(shù)。采用相比其他算法較快的區(qū)塊標(biāo)記算法來提取像素區(qū)塊,每個(gè)被檢測到的不同區(qū)塊標(biāo)記號(hào)碼,作為標(biāo)識(shí)索引,然后再計(jì)算像素?cái)?shù)目或索引區(qū)塊大小。
圖1為同一個(gè)參考人物在距離相機(jī)不同位置,AB水平線上是第一時(shí)刻參考人物所在位置,CD水平線上是第二時(shí)刻的位置。由于攝像機(jī)存在透視畸變,水平線AB和CD在拍攝的畫面中是平行的,而在實(shí)景中AD和BC是平行的??梢悦黠@看出,第一時(shí)刻參考人物區(qū)塊的面積要大于第二時(shí)刻。假設(shè)參考人物在水平線AB上和CD上的所占像素的寬和長分別為a1、b1及a2、b2。面積比例公式為:
(1)
由于每個(gè)人的寬度不同,并且a1與a2的比例應(yīng)該與水平線AB和CD的比例保持一致,所以面積比例也可表示為:
(2)
該比例表示同一個(gè)參考人在隨著攝像機(jī)與其距離的遠(yuǎn)近在圖像當(dāng)中所占像素?cái)?shù)的變化率,假設(shè)水平線AB上的權(quán)值ω0為1,則水平線CD上的權(quán)值ωn為:
(3)
那么通過權(quán)值和比例可以矯正位于水平線AB和CD之間人物圖像的像素,假設(shè)任取一個(gè)參考點(diǎn)M為人物的中心,若M距離AB和CD的垂直距離分別為h1和h2,根據(jù)定比分點(diǎn)的坐標(biāo)公式,M點(diǎn)對(duì)應(yīng)的權(quán)值ωi為:
(4)
將式(3)代入,可以得到:
(5)
然而上述得到的值是針對(duì)人物整體在圖像中的情況,當(dāng)人的部分身體在這范圍內(nèi),上述公式就不能使用了。因此,只需要計(jì)算每個(gè)前景目標(biāo)區(qū)塊的像素權(quán)值。每個(gè)區(qū)塊大小(每個(gè)前景目標(biāo)區(qū)塊的像素總和)與各自分配的權(quán)值相乘就是歸一化的像素值。每個(gè)區(qū)塊歸一化的像素之和就是最終人物像素總數(shù)。設(shè)每個(gè)歸一化前景區(qū)塊的像素值為pls,則像素總數(shù)S為:
S=∑pls×ωi
(6)
將得到的每個(gè)像素值相加即為所有區(qū)塊的像素總和。
通過歸一化的前景目標(biāo)像素總和,運(yùn)用支持向量機(jī)中典型的有向無環(huán)圖算法來預(yù)測人群密度等級(jí)。而傳統(tǒng)方法是將權(quán)值代入線性方程中來計(jì)算人數(shù)。
1.3 人群密度估計(jì)
在獲取了人群特征之后,輸入到支持向量機(jī)分類器中,經(jīng)過訓(xùn)練,建立支持向量機(jī)分類模型,對(duì)測試的樣本進(jìn)行分類和預(yù)測。
1.3.1 人群密度分類
在實(shí)際測試中,以所拍攝的視頻數(shù)據(jù)作為測試數(shù)據(jù),根據(jù)需求定義單位面積人數(shù)的范圍,如表1所示,將人群密度分為低中高三個(gè)等級(jí)。
表1 密度分類表
1.3.2 支持向量機(jī)
支持向量機(jī)在解決小樣本、非線性以及高維模式識(shí)別等實(shí)際問題中具有許多特別的優(yōu)勢。由于文中所用的人群圖像數(shù)量有限,因此采用SVM來解決訓(xùn)練分類問題[15]。支持向量機(jī)分基本思想:將非線性可分空間轉(zhuǎn)化為線性可分空間,在新的線性可分空間上尋求廣義最優(yōu)分類面,非線性變換通過定義適當(dāng)?shù)膬?nèi)積函數(shù)即核函數(shù)來實(shí)現(xiàn)。判別函數(shù)為:
(7)
其中sgn(·)為符號(hào)函數(shù),K(X,X′)為內(nèi)積核函數(shù)。輸入特征向量為X=(x1,x2,…,xd),共有n個(gè)支持向量X1,X2,…,Xs,用內(nèi)積函數(shù)進(jìn)行非線性變換,再由決策層決定決策,最后生成分類結(jié)果。
多類SVM 的分類和識(shí)別主要有兩種方法,一是根據(jù)多類樣本集直接設(shè)計(jì)分類器,在樣本多的情況下,這種方法求解比較復(fù)雜。另一種是分解法,將多類樣本分類器的設(shè)計(jì)轉(zhuǎn)化為多個(gè)兩類問題的分類器設(shè)計(jì)問題,這類方法求解簡單, 在實(shí)際中應(yīng)用很廣。比較有代表性的多類SVM方法有一對(duì)一(one versus one,1-v-1)、一對(duì)多(one versus rest,1-v-r)和Platt的有向無環(huán)圖(direct acyclic graph,DAG)算法。
Platt提出的DAG算法實(shí)際上是建立在1-v-1基礎(chǔ)上的。它包含k(k-1)/2個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)為一1-v-1分類器。實(shí)驗(yàn)分為三個(gè)等級(jí),低密度標(biāo)記為A,中密度標(biāo)記為B,高密度標(biāo)記為C,整個(gè)算法可用圖2所示。
圖2 DAG算法示意圖
首先實(shí)驗(yàn)前期的人群特征提取過程如圖3所示。圖3(a)是背景圖,當(dāng)出現(xiàn)人群,自由選擇感興趣區(qū)域,如圖3(b)所示,紅色多邊形區(qū)域?yàn)檫x擇的ROI區(qū)域,區(qū)域內(nèi)包含三個(gè)像素區(qū)塊;然后如圖3(c)所示,利用混合高斯模型對(duì)ROI區(qū)域內(nèi)的其中一個(gè)區(qū)塊進(jìn)行背景消除、邊緣提取;最后將ROI區(qū)塊轉(zhuǎn)換成二值圖,如圖3(d)所示。對(duì)二值圖進(jìn)行透視畸變矯正,計(jì)算矯正后的目標(biāo)像素?cái)?shù)。
圖3 人群特征提取過程
實(shí)驗(yàn)中的這三類密度人群圖像中,訓(xùn)練樣本和測試樣本每組40幅用于人群密度的分類,一共240幅圖像。在MATLAB7.0平臺(tái)下對(duì)視頻進(jìn)行測試,所得結(jié)果如表2所示。
表2 視頻實(shí)驗(yàn)分類檢測結(jié)果
從表2的分類結(jié)果來看,平均準(zhǔn)確率達(dá)到了95%,說明此方法基本能夠滿足視頻監(jiān)控的要求。作為實(shí)驗(yàn)對(duì)比,采用了神經(jīng)網(wǎng)絡(luò)計(jì)算人數(shù)的方法,以及基于紋理方法[5]和基于像素方法[17]。如圖4所示,橫坐標(biāo)表示人數(shù),縱坐標(biāo)表示正確檢測率。實(shí)線部分為基于前景目標(biāo)像素統(tǒng)計(jì)的人群密度估計(jì)方法的正確檢測率,粗虛線部分為利用神經(jīng)網(wǎng)絡(luò)方法的檢測率,細(xì)虛線部分為傳統(tǒng)方法基于像素統(tǒng)計(jì)的正確檢測率,點(diǎn)劃線為基于紋理方法統(tǒng)計(jì)的正確檢測率。可以看出,實(shí)驗(yàn)中人群密度估計(jì)系統(tǒng)的正確平均檢測率在95%以上,利用神經(jīng)網(wǎng)絡(luò)方法的檢測率為92%以上,基于像素和紋理方法基本在81%以上;可見基于像素和紋理方法在低人群密度時(shí)已經(jīng)出現(xiàn)較高的錯(cuò)誤檢測,而所提出的基于歸一化目標(biāo)像素的人群密度估計(jì)方法在中等人群密度才出現(xiàn)錯(cuò)誤檢測,但較高于其他幾種方法的正確檢測率。
圖4 三種密度估計(jì)準(zhǔn)確率趨勢
提出了基于前景目標(biāo)像素統(tǒng)計(jì)的人群密度估計(jì)方法。采用透視矯正算法來提取人群前景區(qū)塊像素,計(jì)算歸一化前景目標(biāo)的面積;將特征向量放入訓(xùn)練好的支持向量機(jī)中進(jìn)行分析得到人群密度結(jié)果。
實(shí)驗(yàn)結(jié)果可以看出,實(shí)驗(yàn)數(shù)據(jù)精度較高,該方法可達(dá)到95%的正確率,訓(xùn)練越多,系統(tǒng)的準(zhǔn)確率越高,基本能夠滿足智能化人群密度監(jiān)控的要求。但是在非常高密度的人群中,檢測精度還是會(huì)下降。這個(gè)問題也是我們下一步研究的重點(diǎn)。
[1] 黃璐,林燕.一種基于視頻的車站人群密度估計(jì)算法[J].計(jì)算機(jī)時(shí)代,2012(7):23-25.
[2] 蘇航,鄭世寶,楊華.視頻監(jiān)控中人群流量和密度估計(jì)算法分析[J].電視技術(shù),2009(11):100-103.
[3] 任慶云.智能視頻監(jiān)控中的人群密度估計(jì)方法[D].河北師范大學(xué),2011.
[4] 覃勛輝,王修飛,周曦,等.多種人群密度場景下的人群計(jì)數(shù)[J].中國圖象圖形學(xué)報(bào),2013,18(4):392-398.
[5] 李寅,王貴錦,林行剛.結(jié)合局部和全局特征的人群密度估計(jì)算法[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2013(4):542-545.
[6] 王雅琳.基于灰度共生矩陣的人群密度估計(jì)算法研究[D].西安科技大學(xué),2013.
[7] 李敏,劉軻,羅惠瓊,等.基于混合高斯模型的異常檢測算法改進(jìn)[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(6):198-200.
[8] 張虎,方華,李春貴.基于改進(jìn)混合高斯模型的自適應(yīng)運(yùn)動(dòng)車輛檢測算法[J].計(jì)算機(jī)應(yīng)用與軟件,2014,31(1):286-289.
[9] Ma R,Li L,Huang W,et al.On pixel count based crowd density estimation for visual surveillance[C]//Cybernetics and Intelligent Systems,2004 IEEE Conference on.IEEE,2004,1:170-173.
[10] Gunduz A E,Temizel T T,Temizel A.Density estimation in crowd videos[C]//Signal Processing and Communications Applications Conference (SIU),2014 22nd.IEEE,2014:822-825.
[11] Jiang M,Huang J,Wang X,et al.An Approach for Crowd Density and Crowd Size Estimation[J].Journal of Software,2014,9(3):757-762.
[12] Otsu N.A threshold selection method from gray-level histograms[J].Automatica,1975,11(285-296):23-27.
[13] 王磊,段會(huì)川.Otsu方法在多閾值圖像分割中的應(yīng)用[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(11):2844-2845.
[14] 李雪峰,李曉華,周激流.基于完全局部二值模式的人群密度估計(jì)[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(3):1027-1031.
[15] 柴進(jìn).視頻監(jiān)控中的人數(shù)統(tǒng)計(jì)和人群密度分析[D].西安電子科技大學(xué),2011.
[16] Polus A,Schofer J L,Ushpiz A.Pedestrian flow and level of service[J].Journal of Transportation Engineering,1983,109(1):46-50.
[17] 陶茂輝.基于視頻圖像的人群密度估計(jì)研究[D].電子科技大學(xué),2014.
CROWD DENSITY ESTIMATION BASED ON NORMALISED TARGET PIXELS
Ding Yi Chen Shuyue*Liu Jinxing Dai Yonghui Zhu Shuangshuang
(SchoolofInformationScienceandEngineering,ChangzhouUniversity,Changzhou213164,Jiangsu,China)
When extracting high density crowd features based on pixel statistical methods, it may lead to bigger errors in estimating the number of crowd within the region of interest (ROI). Therefore, we presented a technique to extract crowd features based on normalised foreground target pixels, and adopted support vector machine (SVM) to estimate the crowd density in ROI. First, we used the mixture Gaussians model to remove the image background and the Otsu algorithm to extract crowd targets, then we employed the normalised foreground target pixels method to extract crowd features. Finally, we used the DAG algorithm of SVM to achieve the classification of the crowd density. Moreover, we compared the presented technique with artificial neural network approach and the methods based on pixels and textures. Experimental results showed that the rate of true detection could be up to 95%.
Crowd density estimation Normalised foreground target Crowd feature Support vector machine
2014-12-10。丁藝,碩士,主研領(lǐng)域:圖像處理。陳樹越,教授。劉金星,碩士。戴永惠,碩士。朱雙雙,碩士。
TP391.41
A
10.3969/j.issn.1000-386x.2016.04.049