韋 蕊 彭天亮
(1.西安培華學(xué)院 西安 710125)(2.江西省水信息協(xié)同感知與智能處理重點(diǎn)實(shí)驗(yàn)室南昌工程學(xué)院 南昌 330099)
在旅游景點(diǎn)和公共集會(huì)等場(chǎng)景中,使用計(jì)算機(jī)視覺技術(shù)通過圖像或監(jiān)控視頻流,對(duì)場(chǎng)景中人群的數(shù)量進(jìn)行準(zhǔn)確而穩(wěn)健的估計(jì),以防止因過高度擁擠可能導(dǎo)致的擠壓、踩踏等事件,對(duì)公共安全具有重大意義。
現(xiàn)有的人群統(tǒng)計(jì)方法一般可以分為兩類:基于檢測(cè)的方法和基于回歸的方法。基于檢測(cè)的方法通常假定可以通過使用給定的對(duì)象檢測(cè)器[1~3]來檢測(cè)和定位人群圖像上的每個(gè)人,然后通過累積每個(gè)檢測(cè)到的人來計(jì)數(shù),然而,這些方法[4~6]需要巨大的計(jì)算資源而且往往受人為遮擋和復(fù)雜的限制背景,在實(shí)際情況下,產(chǎn)生的相對(duì)較低魯棒性和準(zhǔn)確性。基于回歸的方法直接從圖像中計(jì)算人群的數(shù)量。Chan等[7]使用手工特征來將人群統(tǒng)計(jì)任務(wù)轉(zhuǎn)化為回歸問題;文獻(xiàn)[8~9]提出了更多人群相關(guān)的特征,包括基于結(jié)構(gòu)的特征和局部紋理的特征;Lempitsky等[10]提出了一種基于密度的算法,其通過整合估計(jì)的密度圖來進(jìn)行計(jì)數(shù)。
最近,深層卷積神經(jīng)網(wǎng)絡(luò)在人群統(tǒng)計(jì)場(chǎng)景中顯示了出較好的效果。Wan等[11]直接使用基于CNN的模型來建模圖像到人數(shù)的映射關(guān)系;Zhang等[12]提出了多列CNN來提取多尺度特征;Boominathan等[13]提出了一個(gè)多網(wǎng)絡(luò)的CNN來提高對(duì)人的分辨率;這些算法在解決尺度變換造成的分辨率問題的同時(shí),使得網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,這些網(wǎng)絡(luò)在訓(xùn)練時(shí),需要預(yù)先訓(xùn)練單一網(wǎng)絡(luò)進(jìn)行全局優(yōu)化,且引入了更多參數(shù),需要消耗更多的計(jì)算資源,使得難以實(shí)際應(yīng)用。本文基于多任務(wù)的全卷積神經(jīng)網(wǎng)絡(luò)(MTFCN)來進(jìn)行人流的監(jiān)測(cè),一方面通過采用不同尺度類似Inception模塊[14]中所用的卷積核來提取尺度相關(guān)特征,另一方面通過同時(shí)學(xué)習(xí)密度和數(shù)量?jī)蓚€(gè)任務(wù)來提高數(shù)據(jù)的利用效率,進(jìn)而提高網(wǎng)絡(luò)訓(xùn)練速度,所提方法在ShanghaiTech數(shù)據(jù)集上達(dá)到了較好的效果,并遷移到具體場(chǎng)景中,建立了實(shí)時(shí)人流監(jiān)測(cè)系統(tǒng)。
由于透視失真,人群圖像通常由不同尺寸的人像組成,因此很難用相同尺寸的卷積核來建模尺度的變化。文獻(xiàn)[15]中提出了一個(gè)初始模塊來處理各種尺度的視覺信息,并匯總到下個(gè)階段。本文采用不同尺度的卷積核和1×1的卷積核相結(jié)合使用的方法,來提取多尺度特征,并采用全卷積網(wǎng)絡(luò)來學(xué)習(xí)原始圖像的密度圖,同時(shí)采用一個(gè)較小的多層網(wǎng)絡(luò)對(duì)人群數(shù)量進(jìn)行回歸,通過這種將兩個(gè)任務(wù)一起學(xué)習(xí)的結(jié)構(gòu)來實(shí)現(xiàn)對(duì)高密度人流的估計(jì)。
圖1 多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)
多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)(MTFCN)的結(jié)構(gòu)如圖1所示,包括特征映射、多尺度特征提取、密度估計(jì)和人群數(shù)量估計(jì)。第一個(gè)卷積層采用單一尺寸的卷積核來提取底層特征,接著采用一種Inception模塊(如圖2所示)來提取多尺度融合的特征,其由多個(gè)不同尺寸(包括1×1,5×5和3×3)的卷積核組成,至此提取的特征作為后續(xù)多任務(wù)的共享特征。對(duì)于密度估計(jì)采用全卷積網(wǎng)絡(luò)中和卷積操作對(duì)偶的反卷積操作實(shí)現(xiàn),并采用多層感知機(jī)結(jié)構(gòu)來對(duì)人群數(shù)量進(jìn)行回歸,由于密度圖中的像素取值總為正值,所以非線性激活函數(shù)采用ReLU函數(shù)[16]實(shí)現(xiàn),以增強(qiáng)對(duì)密度圖的估計(jì)精度。
圖2 多尺度特征提取
對(duì)于密度估計(jì)部分,為了高質(zhì)量地生成具有尺度相關(guān)性的密度圖,本文參考Zhang等[12]的由于尺度自適應(yīng)的核密度估計(jì)方法。對(duì)于圖像中每個(gè)人的標(biāo)注區(qū)域,本文采用一個(gè)delta函數(shù)δ(x-xi)來指示其所在的位置,同時(shí)采用一個(gè)高斯核Gσ來描述其區(qū)域密度分布,因此,最終的概率密度圖可以用F(x)=H(x)*Gσ(x)來表示。進(jìn)一步,考慮到每個(gè)人所在的位置只和周圍人的位置相關(guān),本文假設(shè)可以采用特定對(duì)象xi和其周圍的7個(gè)人之間的平均距離來度量高斯核的方差,進(jìn)而可用式(1)對(duì)密度圖進(jìn)行度量:
其中,M為標(biāo)記圖像中人群個(gè)數(shù),通常根據(jù)經(jīng)驗(yàn)可以設(shè)置β=0.3。進(jìn)而可以采用歐式距離作為密度估計(jì)的度量函數(shù),如式(2)所示:
其中,N為訓(xùn)練樣本的個(gè)數(shù),Xi為第i個(gè)樣本圖像,F(xiàn)i為和第i個(gè)樣本對(duì)應(yīng)的真實(shí)密度圖。
對(duì)于人群數(shù)量估計(jì),同樣采用歐式距離來定義損失函數(shù),具體見式(3):
其中,f(Xi)預(yù)測(cè)的人群數(shù)量,Yi為樣本圖像中真實(shí)的人群數(shù)量。
因此,整個(gè)網(wǎng)絡(luò)的損失函數(shù)由密度損失函數(shù)和人群數(shù)量損失函數(shù)兩部分組成,即:
訓(xùn)練過程采用RMSProp優(yōu)化算法,其中動(dòng)量設(shè)置為0.9,衰減為0.0005,以加速整個(gè)網(wǎng)絡(luò)的訓(xùn)練。
對(duì)所提的MTFCN神經(jīng)網(wǎng)絡(luò)的評(píng)估,本文在標(biāo)準(zhǔn)的ShanghaiTech數(shù)據(jù)集上進(jìn)行了測(cè)試,實(shí)驗(yàn)結(jié)果表明,本文所提的方法在精度和魯棒性方面均有較好的表現(xiàn),網(wǎng)絡(luò)的訓(xùn)練采用Caffe框架進(jìn)行實(shí)現(xiàn)[17]。
采用平均絕對(duì)誤差(MAE)和均方誤差(MSE)來評(píng)估所提方法的性能,MAE和MSE的計(jì)算見式(5)和式(6):
ShanghaiTech數(shù)據(jù)集是一個(gè)大規(guī)模的人群統(tǒng)計(jì)數(shù)據(jù)集[12],其包含1198幅注釋圖像,共330,165人。數(shù)據(jù)集由2部分:A部分包含482幅從互聯(lián)網(wǎng)上爬取的圖像,B部分包含716張街道的圖像。在實(shí)驗(yàn)時(shí),用800幅圖像作為訓(xùn)練集,其余為測(cè)試集。
在實(shí)驗(yàn)時(shí),本文將所提方法和其他3種方法進(jìn)行了比較,LBP+RP的方法采用LBP特征來回歸人群數(shù)量[12],采用多列CNN來估計(jì)人群數(shù)量(MCNN-CCR)和人群密度(MCNN),表1表明所提方法的有效性,且具有較好的魯棒性。
表1
基于上述模型及實(shí)驗(yàn)效果,本文設(shè)計(jì)了一種用于實(shí)時(shí)監(jiān)測(cè)公共場(chǎng)合中人群數(shù)量的監(jiān)測(cè)系統(tǒng),輸入為實(shí)時(shí)視頻流,然后對(duì)視頻中的圖像采用MTFCN網(wǎng)絡(luò)進(jìn)行人群數(shù)量的估計(jì),并進(jìn)行實(shí)時(shí)顯示,系統(tǒng)效果如圖3所示。
圖3 人流監(jiān)測(cè)系統(tǒng)效果
其中,上半部分為實(shí)時(shí)的人群數(shù)量統(tǒng)計(jì)情況,下面為視頻幀及對(duì)應(yīng)人群密度估計(jì)圖,監(jiān)測(cè)過程的其他實(shí)驗(yàn)效果如圖4所示。
圖4 監(jiān)測(cè)實(shí)驗(yàn)效果
本文提出了一個(gè)多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)(MTFCN)實(shí)現(xiàn)對(duì)人群數(shù)量的統(tǒng)計(jì)。和其他基于CNN的方法相比,所提算法采用了多尺度卷積操作以提取多級(jí)特征,并結(jié)合多任務(wù)以提高數(shù)據(jù)利用率,并可以直接采用端到端的訓(xùn)練的方法。實(shí)驗(yàn)表明所提算法可以達(dá)到更高的精度和較好的魯棒性,并通過建立實(shí)時(shí)的人流監(jiān)測(cè)系統(tǒng)證明了算法的實(shí)用性及有效性。
[1]Sheng-Fuu Lin,Jaw-Yeh Chen,Hung-Xin Chao.Estimation of number of people in crowded scenes using perspective transformation[J].IEEETransactions onSystems,Man,and Cybernetics-Part A:Systems and Humans,2001,31(6):645-654.
[2]Navneet Dalal and Bill Triggs.Histograms of oriented gra-dients for human detection[C]//Computer Vision and Pattern Recognition,2005.CVPR 2005.IEEEComputer Society Conference on.IEEE,2005,1:886-893.
[3]Meng Wang,Xiaogang Wang.Automatic adaptation of a generic pedestrian detector to a specific traffic scene[C]//in Computer Vision and Pattern Recognition(CVPR),2011 IEEEConference on.IEEE,2011:3401-3408.
[4]Weina Ge and Robert T Collins.Marked point processes for crowd counting[C]//in Computer Vision andPattern Recognition,2009.CVPR 2009.IEEE Conference on.IEEE,2009:2913-2920.
[5]Haroon Idrees,Khurram Soomro,Mubarak Shah.Detecting humans in dense crowds using locallyconsistent scale prior and global occlusion reasoning[J].IEEE transactions on pattern analysis andmachine intelligence,2015,37(10):1986-1998.
[6]Zhe Lin,Larry SDavis.Shape-based human detection and segmentation via hierarchical part-templatematching[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2010,32(4):604-618.
[7]Antoni B Chan,Zhang-Sheng John Liang,Nuno Vasconcelos.Privacy preserving crowd monitoring:Counting people without people models or tracking[C]//in Computer Vision and Pattern Recognition,2008.CVPR 2008.IEEE Conference on.IEEE,2008:1-7.
[8]Antoni B Chan,Nuno Vasconcelos.Bayesian poisson regression for crowd counting[C]//in Computer Vision,009 IEEE 12th International Conference on.IEEE,2009:545-551.
[9]Ke Chen,Chen Change Loy,Shaogang Gong,Tony Xiang.Feature mining for localised crowd counting[J].in BMVC,2012,1:3.
[10]Victor Lempitsky,Andrew Zisserman.Learning to count objects in images[J].in Advances in Neural Information Processing Systems,2010:1324-1332.
[11]Chuan Wang,Hua Zhang,Liang Yang,Si Liu,Xiaochun Cao.Deep people counting in extremely dense crowds[C]//in Proceedings of the 23rd ACM internationalconference on Multimedia.ACM,2015:1299-1302.
[12]Yingying Zhang,Desen Zhou,Siqin Chen,Shenghua Gao,YiMa.Single-image crowd counting viamulti-column convolutionalneural network[C]//in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016:589-597.
[13]Lokesh Boominathan,Srinivas SS Kruthiventi,R Venkatesh Babu.Crowdnet:A deep convolutional network for dense crowd counting[C]//in Proceedings of the 2016 ACM on Multimedia Conference.ACM,2016:640-644.
[14]Christian Szegedy,Wei Liu,Yangqing Jia,Pierre Sermanet,Scott Reed,Dragomir Anguelov,Dumitru Erhan,Vincent Vanhoucke,Andrew Rabinovich.Going deeper with convolutions[C]//in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9.
[15]Min Lin,Qiang Chen,Shuicheng Yan.Network in network[C]//arXiv preprintarXiv:1312.4400,2013.
[16]Vinod Nair,Geoffrey EHinton.Rectified linear units improve restricted boltzmann machines[C]//in Proceedings of the 27th international conference on machine learning(ICML-10),2010:807-814.
[17]Yangqing Jia,Evan Shelhamer,Jeff Donahue,Sergey Karayev,Jonathan Long,Ross Girshick,Sergio Guadarrama,Trevor Darrell.Caffe:Convolutional architecture for fast feature embedding[C]//in Proceedings of the 22ndACMinternational conference on Multimedia.ACM,2014:675-678.