王宗賢 汪 林 完顏勇
(1.北方工業(yè)大學城市道路交通智能控制技術北京市重點實驗室 北京 100144)(2.智能交通技術交通行業(yè)重點實驗室 北京 100144)
地鐵站自動售票機的普及給廣大乘客的購票帶來了巨大的方便。然而在人們可以便捷購買到車票的同時,常常會有大量人群滯留在自動售票機前,給地鐵站帶來了巨大的安全隱患,因此對自動售票機前人群密度的監(jiān)控預警非常有必要。雖然現(xiàn)在地鐵站的監(jiān)控設施已經(jīng)相當普及,但是大部分僅僅是傳統(tǒng)意義上的閉路電視監(jiān)控系統(tǒng)。只能實時獲取監(jiān)控現(xiàn)場的圖像,對人群密度的監(jiān)控則需要花費大量的人力和物力[1]。如何實現(xiàn)實時智能的檢測已經(jīng)吸引越來越多的關注。
當前人群密度檢測的方法主要分直接方法和間接方法。直接方法一般適合無遮擋的稀疏人群場景,當人群密度大、遮擋等情況嚴重時,直接方法運行速度很慢,檢測的準確率低,不適合實時檢測。間接方法(又稱基于特征的方法)[2~3],先通過提取人群特征,再使用機器學習算法分析人群得到人群密度信息。這種方法比直接方法速度快,適合人群密度高的復雜場景,而且魯棒性好。Davies和Chow[4~5]通過背景減提取法獲取的前景像素特征來估計人群密度,這種方法簡單速度快,但是對于場景復雜的高密度人群不適合。Marana[6]根據(jù)不同人群密度對應不同紋理的特點,提出了基于紋理特征的人群密度估計方法,該算法能有效解決高密度人群的問題,但是提取紋理特征需要比較大的計算量。地鐵人群密度高,人群的相互遮擋嚴重,時常發(fā)生人群擁擠、滯留現(xiàn)象,這些不利于前景特征的提取,然而高密度人群的紋理特征非常顯著,紋理能夠有效地表現(xiàn)出高密度人群的特性。
本文先將監(jiān)控場景進行透視矯正并且劃分成多個子區(qū)域,再對子區(qū)域提取前景像素,檢測時只對子區(qū)域前景像素數(shù)超過設定閾值的區(qū)域再進行紋理特征分析,這樣能有效提高算法的運行速度。
本文針對地鐵站自動售票機前人群遮擋嚴重而且人群密集的特點,設計了一種實時檢測報警系統(tǒng)。首先對監(jiān)控場景進行透視矯正并且根據(jù)矯正結果劃分檢測子區(qū)域。再提取圖像的前景像素,如果子區(qū)域前景像素數(shù)少于設定的閾值,則該子區(qū)域不進行密度估計。如果子區(qū)域前景像素數(shù)大于設定的閾值,則對該子區(qū)域提取紋理特征并且估計人群密度。然后統(tǒng)計全場景內(nèi)各個子區(qū)域人群密度,根據(jù)實際需求,則做出預警。該算法的流程圖如圖1。
圖1 地鐵自動售票口人群密度檢測預警算法流程圖
由于攝像機的光軸與檢測場景平面存在一定的角度,使得在獲取的人群圖像上,人群無論是在橫向還是縱向,都呈現(xiàn)近大遠小的現(xiàn)象,這樣對人群密度的估計存在一定的影響。因此,在劃分子區(qū)域時應考慮攝像頭透視投影的成像原理,盡可能地使劃分出的各個子區(qū)域所對應的實際監(jiān)控區(qū)域大小一致。如果要精確矯正透視失真,橫向和縱向都要矯正[7]。
本文的實際監(jiān)控場景模型如圖2、3所示。在圖2中(Yw,Zw)表示世界坐標系,其中水平面是Yw(表示監(jiān)控平面),Zw表示世界坐標系的縱坐標軸,其垂直于Yw平面。H表示攝像頭的安裝高度,b表示攝像頭與監(jiān)控區(qū)域最近點A在縱向上的距離。水平面Yw與攝像頭的夾角為α。因為相機是呈45°角拍攝的,透視效應導致圖像的實際監(jiān)控范圍大致呈一個等腰梯形,用MNQP表示,如圖3所示。
圖2 攝像頭縱向成像模型
圖3 攝像頭橫向成像模型
本文在縱向上將檢測區(qū)域劃分為三個距離相等的子塊,縱向AD的長度為d。AD分成三段長度均為a的監(jiān)控區(qū)域AB、BC、CD,這三段監(jiān)控區(qū)域經(jīng)過攝像機鏡頭在成像平面的像素距離為L1、L2、L3。雖然這幾個子塊在圖像上的像素距離不一樣,但是實際表示的監(jiān)控子塊大小相同。通過幾何建模分析可以得到L1、L2、L3三段之間的比例為:
其中:c=H cotα,a=d/3。
因為AB、BC、CD之間是等距的縱向子塊,假設這些縱向子塊的實際監(jiān)控范圍寬度分別為W2,W3。根據(jù)幾何關系推導后可以得到W2,W3之間的比例為
根據(jù)計算出的橫、縱向比例關系劃分子區(qū)域。如圖4所示,劃分好的每個子塊對應的實際監(jiān)控面積相等。
圖4 圖像透視矯正及子區(qū)域的劃分
本文采用基于模糊的前景提取算法Fuzzy Sugeno Integral[8],該方法使用模糊積分來融合紋理和顏色特征來進行背景減除。該算法能夠處理場景中滯留人群的微小運動,能夠快速適應流動人群的變化。在地鐵場景的前景提取實驗表明,該算法運行速度快,前景提取效果能夠滿足子區(qū)域閾值判斷的需求。為了加快前景檢測速率,原640*480的圖像,壓縮成320*240的分辨率再進行前景提取。前景提取效果如圖5。
因為地鐵場景比較復雜,人群密度高、人群滯留嚴重,所以前景提取效果不是非常好。但是前景像素數(shù)完全可以用來判斷當前幀的某個子區(qū)域是否存在人群,進而決定是否進一步使用紋理-支持向量機估計人群密度。如果某個子區(qū)域前景像素低于設定的閾值T,即該區(qū)域沒有人群或者人群密度低,則這個區(qū)域可以省去密度估計的步驟,可以提高算法運行速度,如圖5所示區(qū)域10。
圖5 視頻子區(qū)域前景提取
灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)[9]能夠有效地描述圖像的紋理信息,計算簡單快捷,而且能夠同時描述灰度圖像的空間分布和空間相關這兩個特性?;叶裙采仃囃ㄟ^對圖像像素對計算聯(lián)合概率密度。數(shù)學表達式為
其中N表示灰度等級。表示從灰度值為i的點出發(fā),與其距離為d,方位為θ,存在灰度值為 j的點的概率。把這些值構成一個矩陣的形式,即成為灰度共生矩陣。一般情況下,對一幅圖像提取灰度共生矩陣時,(θ,d)決定一個矩陣,通常θ取四個值(θ=0°;θ=45°;θ=90°;θ=135°),d 取一個值。如果灰度共生矩陣數(shù)值聚集分布在對角線周圍,則圖像紋理粗糙,紋理變化緩慢;而如果灰度共生矩陣數(shù)值分布均勻,則紋理細膩、變化快。由此可見,灰度共生矩陣能綜合描述圖像灰度值關于方向、位置、幅度變化情況。
在實際工程應用中,一般是從灰度共生矩陣中算一些統(tǒng)計量做為紋理特征,而不是直接使用灰度共生矩陣。這些統(tǒng)計量能大大降低計算的復雜度。通常作為圖像紋理特征的統(tǒng)計量有對比度,能量,熵,相關性,方差,均勻性。
1)對比度統(tǒng)計量(Contrast)
對比度反映了圖像的清晰和模糊程度與紋理溝紋深淺的關系。對比度小,則紋理溝紋淺,視覺效果模糊;對比度大,則紋理溝紋深,視覺效果清晰。
2)能量統(tǒng)計量(Energy)
能量反映了圖像灰度值分布的均勻性和紋理粗細的關系。紋理較粗時,能量值較大,反之則能量值較小。
3)逆差距統(tǒng)計量(Homogeneity)
逆差距反映了圖像紋理的局部變化,圖像局部區(qū)域的紋理越均勻其值越大。
4)熵統(tǒng)計量(Entropy)
熵用來度量圖像的信息量,即圖像紋理的隨機性。熵反映了圖像紋理的非均勻程度或復雜程度。當熵值較大時圖像中充滿細紋理,當熵值接近于零時圖像中不存在任何紋理。
5)相關性統(tǒng)計量(Correlation)
矩陣的數(shù)值分布均勻大小相等,相關性大;矩陣中數(shù)值差異較大則相關性就小。
其中,μ指灰度共生矩陣的均值,σ指灰度共生矩陣的標準方差。
在進行SVM分類器訓練之前,需要對視頻幀的人群密度進行標注。1983年Polus對于人群密度的服務級別的劃分[5],本文參考這個服務級別的定義,結合售票機前人群密度比較大的實際情況,將子區(qū)域人群密度分為低、中低、中高、高四類。如表1。
表1 地鐵自動售票口子區(qū)域人群密度等級劃分
當對視頻幀提取紋理特征向量后,需要建立特征向量與對應人群密度之間的映射模型。因為支持向量機(Support Vector Machine,SVM)訓練性能好、泛化能力強、分類效果顯著,本文采用支持向量機SVM的方法來對人群圖像提取出的紋理特征向量進行訓練。支持向量機是Vapnik[10]等在統(tǒng)計學習理論[11~12]研究的基礎上提出的一種結合VC維理論的機器訓練算法[13]。支持向量是指在分類訓練過程中處于類別邊緣的訓練樣本點。SVM的基本思想是將原始特征空間的不可分樣本,通過引入的核函數(shù),映射到高維特征空間,并且在新空間尋找最優(yōu)分類面。使用SVM能有效解決小樣本、非線性和高維空間模式識別等問題。高維空間的最優(yōu)分類面方程為
式中:sgn()為符號函數(shù),k(xi,x)是核函數(shù)。
SVM的核心是核函數(shù),使用核函數(shù)能有效的解決低維空間向量映射到高維空間運算復雜的問題,選用不同的核函數(shù)會得到不同的分類性能。本文的核函數(shù)采用徑向基核函數(shù)(RBF):
支持向量機起初是針對二分類任務設計的[14]。由于本文的人群密度只有四類,分類類別不多。因此選擇一對一的多分類方法(one-against-one classifiers),主要思路[15]是:對于不同的類別,每選擇兩個不同類(i和 j)就建立一個二類分類器,一個樣本如果屬于i類則標注成正類,屬于 j類則標注為負類。如果有N個類別,需要的SVM分類器個數(shù)為。最后使用“投票”機制確定得票次數(shù)最多的為最終類別。本文有四類,因此需要個二SVM分類器。
1)獲取訓練集和測試集
本文的人群監(jiān)控視頻拍攝自北京某地鐵站自動售票處。該攝像機離地面約3m高,拍攝角度大概45°。實驗視頻為一段42min的avi視頻,經(jīng)過處理后分辨率為640*480。實驗視頻包括了低、中低、中高、高這四個不同密度等級的人群密度圖像。為了訓練出高效率的分類器,數(shù)據(jù)集中采集的圖像要滿足隨機性、樣本量足、全面的特點。因此,本文從視頻中低、中低、中高、高密度部分,先各抽取200張共800張圖片組成訓練集。再從剩下的圖像,各抽取300張共1200張組成測試集。
2)紋理特征參數(shù)選取及特征向量組成
為了降低灰度共生矩陣計算復雜度,在不影響特征量提取效果前提下,會壓縮GLCM的灰度等級,通過實驗本文取N為16,d取8,能同時保證紋理信息完整性和降低運算量。本文在灰度直方圖基礎上,選取熵、能量、對比度、逆差距四個特征量,紋理方向采用0°、45°、90°、135°,組成一個16維的特征向量。
3)SVM分類器的訓練
由于視頻幀通過透視矯正劃分子區(qū)域后,每個子區(qū)域所對應的實際監(jiān)控區(qū)域大小一致,每個區(qū)域所能容納的人數(shù)基本一致。因此可以對其中的任意一個子區(qū)域進行分類器的訓練。通過對訓練集圖像提取紋理特征組成16維的特征向量訓練SVM分類器。本文采用RBF核函數(shù),選擇一對一的多分類方法,用訓練集的圖片訓練SVM分類器,如圖6。因為該場景共四類人群密度,所以一共能訓練出6個SVM密度分類器。
圖6 人群密度分類器訓練方法
將測試集四類共1200張圖像輸入分類器進行分類測試。處理過程是,先將某張測試樣本圖像提取16維的特征,分別輸入6個SVM分類器。測試樣本N經(jīng)過第一個SVM分類器時,通過二分類,將所分的類權重加1,依次通過6個分類器,權重最大的類即為測試樣本圖像的所屬類別。
測試集的測試結果如表2。其中A、B、C、D分別表示低、中低、中高、高四個類的測試子集。表示測試集中,每個樣本類經(jīng)過SVM分類器后的分類結果。如表中最后一行,表示300幀的高密度測試樣本經(jīng)過分類后,樣本有289張又被重新分類到高密度類,10張分類到中高密度類,1張分類到中低密度類,0張被分類到低密度類。從表中可以看出,被錯誤分類的測試圖片,絕大部分被分到了臨近的密度等級中,這是由圖片中相靠近的密度等級紋理特征相似,特征量計算值相互接近導致的。
表2 測試集測試結果
在實際應用中,主要針對較高密度人群進行預警,且測試結果顯示高密度時,測試集正確分類的比率達到96.3%,中密度時準確率達到90%,滿足檢測準確率的要求。
本文采用的通過子區(qū)域前景像素數(shù)篩選檢測區(qū)域的方法,能夠大大提高算法的運行速度。如圖7所示,橫軸表示測試集的四個子集,縱軸表示每個子集中每幀圖片平均測試時間。A表明通過前景篩選,每個子集的平均幀處理速度都有提高,其中低密度子集由于多數(shù)子區(qū)域被過濾,所以速度最快;其他子集則隨著被紋理檢測區(qū)域的增加,幀均處理時間增加。B表示使用區(qū)域前景像素篩選方法整個測試集平均每幀時間,為0.176s。C表示沒使用區(qū)域前景像素篩選方法整個測試集平均每幀時間,為0.28s。在現(xiàn)場應用時,每秒鐘處理兩幀圖片,能夠滿足現(xiàn)場實時檢測的需要。
圖7 算法在測試集的每幀時間
視頻幀的場景共劃分成12個子區(qū)域。其中子區(qū)域4、5不需要檢測。當子區(qū)域的密度檢測為中高或者高密度時,則被統(tǒng)計,最后的預警等級與統(tǒng)計的子區(qū)域數(shù)的關系[16]如表3,當滿足設定的預警等級,系統(tǒng)會發(fā)出預警,通知管理員進行人群疏散。
表3 地鐵自動售票口預警等級劃分
本文針對地鐵自動售票處人群密度高的特點,設計了一種通過透視矯正劃分區(qū)域,利用區(qū)域內(nèi)前景像素數(shù)選擇密度檢測區(qū)域后,提取選中子區(qū)域紋理特征,估計子區(qū)域人群密度。最后綜合考慮多個子區(qū)域人群密度進行預警。實驗及應用結果表明,該方法實時,高效,具有很大應用價值。
[1]衣淑鳳,黃祥林,沈蘭蓀.智能化人群監(jiān)控技術研究[J].測控技術,2003,22(5):22-24.YI Shufeng,HUANG Xianglin,SHEN Lanxun.Research on Intelligentized Crowd Surveillance Technology[J].Measurement&Control Technology,2003,22(5):22-24.
[2]SALEH SA M,etal.Recent Survey on Crowd Density Estimation and Counting for Visual Surveillance[J].Engineering Applications of Artificial Intelligence,2015(41):103-114.
[3]RYAND,etal.An Evaluation of crowd countingmethods,features and regression models[J].Computer Vision and Image Understanding,2015(130):1-17.
[4]DAVIESA C,YIN JH,VELASTIN SA,etal.Crowd Monitoring Using Image Processing[J].IEEE Electronics and Communication Engineering Journal,1995,7(1):37-47.
[5]CHO SY,CHOW TW S,LEUNG C T.A Neural-based Crowd Estimation by Hybrid Global Learning Algorithm[J].IEEE Transactions on Systems,Man,and Cybernetics,1999,29(4):535-541.
[6]MARANA A N,VELASTIN SA,COSTA L F,etal.Automatic Estimation of Crowd Density Using Texture[J].Safety Science,1998,28(3):165-175.
[7]張英烈.人群密度估計研究及其在醫(yī)院中的應用[D].杭州:杭州電子科技大學,2015:46-47.ZHANG Yinglie.Research on Estimation of Crowd Density And Application In Hospital[D].Hangzhou:Hangzhou DianziUniversity,2015:46-47.
[8]ZHANG H G,XU D.Fusing Color and Texture Features for Background Model[J].Fuzzy Systems and Knowledge Discovery,2006:887-893.
[9]HARALICK R M.Statistical and structural approaches to texture[J].Proceedings of the IEEE,1979,67(5):786-804.
[10]BOSER BE,GUYON IM,VAPNIK VN.A training algorithm for optimal margin classifiers[C]//Proceedings of the fifth annualworkshop on Computational learning theory,ACM,1992:144-152.
[11]VAPNIK V N.The Nature of Statistical Learning Theory[M].New York:Springer Verlag,1995.
[12]張學工.關于統(tǒng)計學習理論與支持向量機[J].自動化學報,2000,26(1):32-42.ZHANG Xuegong.Introduction to Statistical Learning Theory and Support Vector Machines[J].Acta Automatica Sinica,2000,26(1):32-42.
[13]周志華.機器學習[M].北京:清華大學出版社,2016:121-137.ZHOU Zhihua.Machine Learning[M].Beijing:TSINGHUAUNIVERSITY PRESS,2016:121-137.
[14]CHEN Y F,ZHANGM D,etal.Differential Shape Statistical Analysis[J].International JournalofWavelets,Multiresolution and Information Processing,2005:145-157.
[15]祁亨年.支持向量機及其應用研究綜述[J].計算機工程,2004,30(10):6-9.QIHengnian.Support Vector Machines and Application Research Overview[J].Computer Engineering,2004,30(10):6-9.
[16]張燕.機場航站樓視頻監(jiān)控系統(tǒng)中的人群密度估計研究[D].南京:南京航空航天大學,2011:23-26.ZHANG Yan.Research on Crowd Density Estimation in Video Surveillance of Airport Terminals[D].Nanjing:Nanjing University of Aeronautics and Astronautics,2011:23-26.