羅凡波,王 平,徐桂菲,雷勇軍,范 烊
(1.西華大學(xué)電氣與電子信息學(xué)院,四川 成都 610039;2.國網(wǎng)四川省電力公司達(dá)州供電公司,四川 達(dá)州 635000;3.國網(wǎng)四川省電力公司資陽供電公司,四川 資陽 641300)
當(dāng)前,隨著社會經(jīng)濟的發(fā)展,有大規(guī)模和超大規(guī)模人口的城市越來越多,這使得城市公共安全問題變得越發(fā)重要。如上海外灘與麥加朝圣發(fā)生的踩踏事件都是由于聚集行為導(dǎo)致人群密度過大最終造成嚴(yán)重的群體安全事故[1],大城市中的地鐵、車站、醫(yī)院等公共區(qū)域人口密度較大,故保障其正常秩序有重大意義。在一些特定場所如城市電力變壓器所在地,變壓器出現(xiàn)問題時往往會吸引很多行人聚集圍觀。上述人群聚集行為易對人群的人身安全造成嚴(yán)重威脅,所以需要做到及時發(fā)現(xiàn),及時疏散。
目前針對人群聚集檢測的研究主要從以下兩方面進(jìn)行。一方面是通過圖像處理來進(jìn)行聚集異常的檢測,主要是通過人數(shù)統(tǒng)計與人群密度估計來實現(xiàn)。桑海峰等[2]提出使用分布熵與運動速度來進(jìn)行檢測;盧麗等[3]提出改進(jìn)的社會力模型,通過軌跡聚類與人群相互作用力建立人群行為模型進(jìn)行聚集異常的檢測;Zhang等[4]引入社會無序和擁擠屬性的概念,通過在線融合策略構(gòu)建了基于社會力量的群體互動模型實現(xiàn)聚集異常檢測。上述通過圖像處理的方法都存在一些缺陷,如在對人群密度進(jìn)行估計時,由于行人遮擋,會導(dǎo)致較大誤差,此外聚集行為已經(jīng)發(fā)生后才能實現(xiàn)檢測,時效性較差。另一方面是通過分析城市移動基站手機接入量、手機移動軌跡數(shù)據(jù)與試驗觀測統(tǒng)計分析建立計算模型,設(shè)立聚集異常閾值進(jìn)行聚集異常判斷[5]。郭玉彬等[6]提出利用分布式系統(tǒng)計算無線網(wǎng)絡(luò)連接人次,通過建立中心點進(jìn)行R-數(shù)索引,利用密度聚類進(jìn)行聚集行為檢測。通過統(tǒng)計模型與移動基站手機接入量來進(jìn)行分析的方法,由于基站輻射區(qū)域較大,所以并不準(zhǔn)確,且涉及一定的安全問題,故也有一定的局限性。
隨著近年卷積神經(jīng)網(wǎng)絡(luò)CNN[7]在圖像處理領(lǐng)域取得的巨大進(jìn)步,各種各樣的神經(jīng)網(wǎng)絡(luò)模型相繼被提出[8]。文獻(xiàn)[9]利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行車牌圖像超分辨率識別;文獻(xiàn)[10]使用快速R-CNN的選擇性搜索方法和目標(biāo)檢測模型對車輛進(jìn)行檢測,目前已有的卷積神經(jīng)網(wǎng)絡(luò)能對二維圖像進(jìn)行有效的特征提取。本文認(rèn)為應(yīng)將人群聚集異常檢測視為一個動態(tài)過程,首先通過改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)MCNN進(jìn)行人群計數(shù),獲取人群數(shù)量與坐標(biāo)信息,進(jìn)而計算人群密度、人群距離勢能與人群分布熵這3種人群運動狀態(tài)特征值,將這3種特征值送入本文提出的PSO-ELM(Particle Swarm Optimization-Extreme Learning Machine)模型進(jìn)行訓(xùn)練預(yù)測,得到人群運動狀態(tài)分類模型,最終實現(xiàn)聚集異常的預(yù)測。針對現(xiàn)有方法都是對聚集行為發(fā)生后實現(xiàn)的檢測,本文模型能有效實現(xiàn)人群聚集異常的預(yù)測。本文模型的創(chuàng)新性主要體現(xiàn)在將人群聚集異常行為識別轉(zhuǎn)變?yōu)閯討B(tài)的識別過程,通過對MCNN預(yù)測的人群密度圖處理,獲取較為準(zhǔn)確的行人坐標(biāo),對人群密度、人群分布熵與距離勢能進(jìn)行精確的計算,與傳統(tǒng)方法相比極大地減少了計算量且結(jié)果更為準(zhǔn)確。
為方便后續(xù)說明,本文人群聚集異常預(yù)測模型的流程圖如圖1所示,其中n為監(jiān)控視頻中圖像幀的編號。目前人群計數(shù)方法大致分為3類[11]:(1)基于行人檢測計數(shù),通過檢測視頻中的每一個行人,進(jìn)而得到人群計數(shù)結(jié)果。(2)基于聚類進(jìn)行計數(shù),一般使用KLT(Kanada-Lucas-Tomasi-Tracking)跟蹤器和聚類的方法,通過軌跡聚類進(jìn)行人數(shù)估計。這2類方法都只適用于稀疏場景中的人數(shù)統(tǒng)計,在人群密度較大的場景中計數(shù)相當(dāng)困難。(3)回歸計數(shù)方法。有大量學(xué)者對回歸計數(shù)方法進(jìn)行了深入研究,高斯模型回歸是其中一個典型代表,但傳統(tǒng)的回歸計數(shù)在特征描述和模型建立方面仍存在一些缺陷。近年來,由于深度學(xué)習(xí)在圖像處理上取得的巨大進(jìn)步,許多學(xué)者通過卷積神經(jīng)網(wǎng)絡(luò)成功實現(xiàn)了圖像有效特征的自動提取,本文所使用的MCNN能較好地解決人群密度不均、行人頭部尺度不同等問題。
Figure 1 Flow chart of PSO-ELM model圖1 PSO-ELM 模型流程圖
MCNN[12]的優(yōu)勢在于其使用了3個卷積神經(jīng)網(wǎng)絡(luò),不同大小的感受野能更好地應(yīng)對監(jiān)控圖像透視[13]或圖像分辨率造成的人群頭部像素塊大小差別的影響;另外,完全連接層被1*1的濾波器卷積層代替,這使得輸入圖像大小可以是任意大小,避免了圖像信息的損失,網(wǎng)絡(luò)的輸出是人群密度估計圖,從中可以得到人群總數(shù)。
獲取密度圖與直接獲取總?cè)藬?shù)相比具有更多優(yōu)勢,密度圖反映了人群在圖像中的空間分布,人群分布信息對人群行為分析有一定助益,因為密度越大的區(qū)域,人群越有可能發(fā)生異常行為。如本文模型檢測聚集異常,就可以將人群密度大的區(qū)域作為潛在異常區(qū)域,另外,用人群密度圖訓(xùn)練MCNN時,能讓濾波器適應(yīng)不同大小的行人頭部,讓它更適應(yīng)于實際中的透視問題,提高最終人群計數(shù)的準(zhǔn)確性。
使用標(biāo)注行人頭部進(jìn)行密度圖繪制進(jìn)而訓(xùn)練網(wǎng)絡(luò)并最終進(jìn)行人群計數(shù)的最主要原因是,在人群密度較大的場景中,行人頭部不易被遮擋,且容易被檢測到,如果對人體軀干進(jìn)行檢測,由于軀干容易被遮擋,會導(dǎo)致識別效果極差,所以對于密集場景中的人群計數(shù)采用標(biāo)記行人頭部的方式。
本文使用幾何自適應(yīng)高斯核完成人群密度圖參數(shù)的求解,并繪制出人群密度圖。下面介紹密度圖的繪制過程。若一幀圖像中有N個行人頭部,那么N個行人頭部圖像標(biāo)簽用式(1)進(jìn)行表示:
(1)
其中,x表示像素在圖像中的位置;xi表示人頭中心坐標(biāo);δ(x-xi)表示人頭位置;N是圖像幀中人頭總數(shù)。
高斯核函數(shù)為Gδ,進(jìn)而獲得密度聚集函數(shù)F(x)如式(2)所示:
(2)
(3)
(4)
MCNN的多列網(wǎng)絡(luò)主要是3列卷積神經(jīng)網(wǎng)絡(luò),每一列并行子網(wǎng)絡(luò)深度相同,每列濾波器的大小不同。本文針對行人監(jiān)控場景對3列卷積核作了相應(yīng)改進(jìn),其尺寸大小分為L列大尺度卷積核為(11*11,9*9,7*7,7*7,7*7);M列中等尺度卷積核為(9*9,7*7,5*5,5*5,5*5);S列小尺度卷積核為(7*7,5*5,3*3,3*3,3*3),分別用于學(xué)習(xí)攝像頭與人頭距離較大、適中、較小的圖像的特征,這使得每一列子網(wǎng)絡(luò)具有不同大小的感受野,能讓網(wǎng)絡(luò)更好地識別不同尺寸的行人頭部特征,較好地處理監(jiān)控視頻中存在的透視問題。最后將3列子網(wǎng)絡(luò)的特征圖使用1*1卷積核做線性加權(quán)得到最終的人群密度圖。具體的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖2所示。從圖2中可以看出,MCNN的下采樣系數(shù)是4,網(wǎng)絡(luò)生成的人群密度圖是原圖尺寸的1/4,這使得制作的訓(xùn)練數(shù)據(jù)標(biāo)簽密度圖尺寸為原圖的1/4,除此之外,幾何自適應(yīng)高斯核也應(yīng)該被限制在25個像素內(nèi)。本文的網(wǎng)絡(luò)結(jié)構(gòu)主要修改了卷積核大小與網(wǎng)絡(luò)深度,實驗結(jié)果表明這些改進(jìn)對行人檢測很有幫助。
本文使用歐氏距離進(jìn)行網(wǎng)絡(luò)預(yù)測出的人群密度圖與真實人群密度圖的差值測量,損失函數(shù)如式(5)所示:
(5)
其中,NI是訓(xùn)練圖像的數(shù)目;V(Xi,θ)是網(wǎng)絡(luò)預(yù)測出的人群密度圖;Xi是輸入圖像;θ是待優(yōu)化的網(wǎng)絡(luò)參數(shù);Vi表示對應(yīng)Xi的真實人群密度圖。
模型評價指標(biāo)使用平均絕對誤差MAE與均方誤差MSE,定義如式(6)和式(7)所示:
(6)
(7)
Figure 2 Structure of improved multi-scale convolutional neural network圖2 改進(jìn)的多尺度卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖
MCNN網(wǎng)絡(luò)的具體訓(xùn)練參數(shù)如表1所示。訓(xùn)練策略一共有2 000個epoch,每一個epoch中會再有2 000次子迭代。圖3是網(wǎng)絡(luò)訓(xùn)練過程的MAE和MSE變化曲線。
Table 1 Training parameters表1 各項訓(xùn)練參數(shù)
Figure 3 Change curves of MAE and MSE during training圖3 訓(xùn)練過程MAE與MSE變化曲線
從圖3中可以看出,模型迭代至1 600次左右趨于穩(wěn)定,MAE穩(wěn)定在11左右,MSE穩(wěn)定在26左右。
3種人群狀態(tài)特征值分別為人群密度值、人群距離勢能與人群分布熵。通過MCNN網(wǎng)絡(luò)獲取行人頭部的預(yù)測位置,其與真實頭部坐標(biāo)有稍許偏差,但對預(yù)測結(jié)果不會有影響。通過獲取的行人頭部坐標(biāo),進(jìn)行人群距離勢能與人群分布熵的計算,人群密度值通過獲取的人數(shù)進(jìn)行計算。
勢能[14]是一種系統(tǒng)內(nèi)部能量,勢能是狀態(tài)量,又被稱為位能,可以轉(zhuǎn)換為其它形式的能量,是相互作用的物體所共有的。物體的勢能與初始位形(即參考位置)有很大關(guān)系。本文利用上述思想,將監(jiān)控區(qū)域視為一個系統(tǒng),檢測到的行人作為系統(tǒng)內(nèi)的物體,計算出每個行人的位置(即坐標(biāo))進(jìn)而計算人與人之間的勢能,即距離勢能。
人群距離勢能的計算主要是通過計算個體間的歐氏距離來確定。通過MCNN獲得的每個行人個體都只有一個坐標(biāo),相較于傳統(tǒng)算法通過多個特征角點計算歐氏距離,計算量少了很多。人群距離勢能通過式(8)進(jìn)行計算:
(8)
其中,Cij表示2個坐標(biāo)之間的歐氏距離;φ是修正值,取常數(shù);N為視頻幀中所有行人的數(shù)目。
熵這一概念是由克勞修斯所提出的,其在希臘語中的意義表示一個系統(tǒng)內(nèi)在性質(zhì)的改變。隨后玻爾茲曼提出熵的統(tǒng)計物理學(xué)解釋,證明了系統(tǒng)的宏觀物理性質(zhì)可以視為所有微觀狀態(tài)的等概率統(tǒng)計平均值,可以將熵看作一個系統(tǒng)的混亂程度的度量值。近代以來,香農(nóng)將統(tǒng)計物理中熵的概念引入信道通信中,開創(chuàng)信息論學(xué)科并提出了信息熵[15]。信息熵體現(xiàn)了隨機事件的不確定性,它對信息的多少進(jìn)行了度量。本文通過信息熵來對人群分布信息進(jìn)行描述,若人群分布較離散,則分布熵較大,若人群發(fā)生聚集,則分布熵較小。先將獲取的行人坐標(biāo)進(jìn)行歸一化處理為[-1,1],再將[-1,1]劃分為20個連續(xù)的小區(qū)間ri,i=1,2,…,20,再進(jìn)行分布熵的計算。數(shù)學(xué)表達(dá)式如式(9)所示:
(9)
(10)
其中,S(k)是第k幀的分布熵,pi表示樣本在ri區(qū)間出現(xiàn)的概率,count(ri)是坐標(biāo)點歸一化后在ri區(qū)間的個數(shù)。
計算人群密度值時,準(zhǔn)確地獲取人群的人數(shù)相當(dāng)重要。傳統(tǒng)方法一般是使用混合高斯模型提取感興趣區(qū)域的二值前景像素,再進(jìn)行角點檢測獲取特征角點(如使用H-S、FAST等角點檢測算法),通過特征角點計算角點密度,最后使用函數(shù)對每一幀圖像中的人數(shù)進(jìn)行擬合[16];但由于人與人之間遮擋的問題,導(dǎo)致傳統(tǒng)方法人數(shù)統(tǒng)計不準(zhǔn)確,在耗時方面,由于有前景檢測、前景像素歸一化、角點檢測和函數(shù)擬合等多個步驟,過程較為繁瑣,耗時較多。MCNN就不存在這些問題,對每幀圖像不但能輸出總?cè)藬?shù),還能輸出人群密度圖,這使得可對人群密度較大的區(qū)域進(jìn)行特別關(guān)注,即使在有遮擋的情況下也能較為準(zhǔn)確地統(tǒng)計人數(shù)。具體密度計算通過式(11)進(jìn)行:
(11)
其中,density(i)是第i幀圖像中的人群密度,λ是圖像總?cè)藬?shù)的修正因子,Ntotal(i)是第i幀圖像中的總?cè)藬?shù),Sarea(i)是第i幀圖像面積,為方便計算,本文Sarea(i)取1。
通過計算每一幀圖像的人群密度,可獲得人群密度變化曲線,通過曲線能獲得一些人群運動狀態(tài)的信息。
極限學(xué)習(xí)機ELM[17]是由Huang等提出的求解單隱含層神經(jīng)網(wǎng)絡(luò)的算法。ELM最顯著的優(yōu)點是求解單隱含層前饋神經(jīng)網(wǎng)絡(luò)時,在保證學(xué)習(xí)精度的前提下其學(xué)習(xí)速度比傳統(tǒng)方法快得多;在算法中,輸入層與隱含層的連接權(quán)值與隱含層神經(jīng)元閾值是使用rand函數(shù)生成,訓(xùn)練過程中無需人為手動調(diào)整,只需進(jìn)行隱含層神經(jīng)元個數(shù)設(shè)置就能獲得唯一最優(yōu)解。本文將人群聚集異常這一行為視為一個動態(tài)的過程,即有正常行走、發(fā)生聚集異常趨勢、聚集異常形成3種狀態(tài),將前面得到的3種人群運動狀態(tài)特征數(shù)據(jù)送入PSO-ELM進(jìn)行模型訓(xùn)練進(jìn)而實現(xiàn)預(yù)測,判斷當(dāng)前人群的運動狀態(tài),預(yù)測的結(jié)果也是3種:正常行走、發(fā)生聚集異常趨勢、聚集異常形成。
粒子群算法PSO[18]思想來源于鳥群的捕食行為,鳥群中的個體用無質(zhì)量的粒子模擬,粒子具有速度V和位置X2個屬性,速度代表搜索參數(shù)的快慢,位置代表搜索參數(shù)移動的方向。粒子在規(guī)定的區(qū)間內(nèi)單獨進(jìn)行最優(yōu)解搜尋,并將獲得的最優(yōu)解記為當(dāng)前個體極值Pbest,將其分享給其它粒子,找到最優(yōu)個體極值作為當(dāng)前整個粒子群體全局最優(yōu)解Gbest;所有粒子與全局最優(yōu)解進(jìn)行比較,進(jìn)而調(diào)整自己的V和X。使用PSO優(yōu)化ELM[19]后能得到更好的分類效果。本文使用的速度V的初始化范圍為(-1,1);位置X的初始化為(-1,1);粒子群個數(shù)為250。
PSO算法的一般迭代方程[18]為:
Vi,G+1=w×Vi,G+c1×rand()×(Pi,G-Xi,G)+
c2×rand()×(Pg,G-Xi,G)
(12)
Xi,G+1=Xi,G+Vi,G+1
(13)
wi,G+1=(w1-w2)(Gi-Pg,G)/Gi+w2
(14)
其中,G為PSO迭代的代數(shù);Pi,G為第i個粒子在前G次迭代中尋找到的最優(yōu)適應(yīng)值的位置信息;Vi,G為第i個粒子在前G代迭代中的速度;Xi,G為第i個粒子在前G代迭代中的位置;Gi為第i個粒子的最大迭代次數(shù);Pg,G為在前G代迭代中種群找到的最優(yōu)適應(yīng)值的位置信息;w為慣性權(quán)重;c1和c2為局部和全局學(xué)習(xí)因子;w1為初始慣性值,w2為最大迭代次數(shù)的慣性值。
(1)訓(xùn)練集:給定Q個不同樣本(xi,ti)。其中xi=[xi1,xi2,…,xin]T,為上述特征組合;ti為一個標(biāo)簽,表示目標(biāo)屬于哪一類人群。
具體應(yīng)用到本文人群聚集異常預(yù)測中按下列步驟進(jìn)行:
(1)針對測試集,本文模型隱含層神經(jīng)元個數(shù)設(shè)置為300,對ELM分類器使用PSO進(jìn)行連接權(quán)值與神經(jīng)元閾值尋優(yōu);
(2)本文激活函數(shù)選取Sigmoid函數(shù),再計算隱含層輸出矩陣H;
相關(guān)實驗表明[19],在激活函數(shù)選取中,不僅可使用非線性激活函數(shù)分類非線性樣本,用線性激活函數(shù)分類非線性樣本,也能獲得較好的效果。根據(jù)多次實驗結(jié)果可知,本文使用Sigmoid函數(shù)作為激活函數(shù)能獲得較好的分類效果,隱含層神經(jīng)元個數(shù)根據(jù)樣本集的變化而做出改變能獲得較好的分類精度。
本文使用如式(15)和式(16)所示的平均絕對誤差MAE與平均絕對百分比誤差MAPE對PSO-ELM分類模型進(jìn)行評價:
(15)
(16)
本文模型是在普通PC機(CPU為8700K,3.70 GHz,8.00 GB內(nèi)存,顯卡為GTX1080,8 GB)上搭建的,MCNN是在Anaconda3+CUDA8.0+cudnn8.0.61+PyTorch1.0.1+Python3.7.3環(huán)境中進(jìn)行搭建并訓(xùn)練測試的,訓(xùn)練數(shù)據(jù)集與人群運動狀態(tài)特征值的計算部分是在Matlab 2014a環(huán)境中完成的;數(shù)據(jù)集方面,對人群中行人的計數(shù)使用ShanghaiTech_Crowd_Counting_Dataset中的part_B_final數(shù)據(jù)集作為訓(xùn)練集,測試數(shù)據(jù)集為Pets-2009中人群聚集異常數(shù)據(jù)集與自己拍攝制作的人群聚集異常數(shù)據(jù)集。
MCNN預(yù)測的人群密度圖與人群數(shù)量結(jié)果如圖4所示,圖4中每行的子圖從左至右分別是監(jiān)控圖像、真實人群密度圖、網(wǎng)絡(luò)預(yù)測人群密度圖。
Figure 4 Real density map and predicted density map of different stages of crowd massing abnormity圖4 人群聚集異常各階段真實密度圖與預(yù)測密度圖
圖4a是在part_B_final數(shù)據(jù)集中的一幅圖像,該圖像是一幅人群正常行走的圖像,在圖像中,靠近攝像頭位置的行人較為分散,故密度較低,遠(yuǎn)離攝像頭的位置行人密度較大, MCNN網(wǎng)絡(luò)預(yù)測的人群密度圖與真實密度圖較為接近,且網(wǎng)絡(luò)預(yù)測的人數(shù)較傳統(tǒng)方法有了極大的提高。圖4a中真實人數(shù)為217人,預(yù)測值為220.24,與真實值相比僅僅相差3人。
圖4b~圖4d上面一行為Pets-2009數(shù)據(jù)集中圖像,下面一行為自建數(shù)據(jù)集中圖像。圖4b第1行仿真圖是Pets-2009中聚集異常視頻片段中的第84幀,屬于人群聚集異常的前期從圖4b的預(yù)測人群密度圖可以明顯看出,此時人群分布較散,人群密度較小,與真實人群密度圖反映的密度分布一致,該幀圖像中真實人數(shù)為35人,預(yù)測出的人數(shù)為34.43人,僅相差1人。第2行是自建數(shù)據(jù)集,真實人數(shù)為16人,預(yù)測人數(shù)為15.78人,預(yù)測密度圖也能真實反映人群密度分布。
圖4c反映的是人群聚集的中后期,從密度圖可以看出此時人群分布已經(jīng)較為集中,Pets-2009圖像真實人數(shù)為35人,預(yù)測出的人數(shù)為34.13,與真實值相差1人;自建數(shù)據(jù)集真實人數(shù)為19人,預(yù)測人數(shù)為18.92人。
圖4d是人群聚集行為已經(jīng)形成的情況,通過預(yù)測的人群密度圖可以清楚地看到聚集中心區(qū)域人群密度較大,且與真實人群密度圖保持一致,Pets-2009數(shù)據(jù)集圖像中真實人數(shù)為40人,預(yù)測結(jié)果為38.35人;自建數(shù)據(jù)集圖像中真實人數(shù)為20人,預(yù)測人數(shù)為19.68人。
圖5所示為Pets-2009數(shù)據(jù)集中人群從正常行走到聚集異常形成過程中的人群距離勢能的變化曲線。最開始由于場景中沒有行人,行人從四周進(jìn)入場景故其距離勢能比較大,隨著從四周進(jìn)入的行人都往中心區(qū)域靠攏,人群距離勢能開始減??;到第100幀左右,又有一定數(shù)量人群進(jìn)入監(jiān)控畫面,隨著人群進(jìn)入,人群距離勢能又開始變大;到124幀左右時,沒有新的行人進(jìn)入監(jiān)控畫面,此時人群距離勢能開始減小,直到最后行人聚集完成,人群距離勢能保持在一個較小的值。
Figure 5 Potential energy curve of crowd distance圖5 人群距離勢能變化曲線
圖6所示為Pets-2009數(shù)據(jù)集中人群聚集過程中,人群分布熵的變化曲線。開始由于行人剛從四周進(jìn)入監(jiān)控畫面,故人群分布熵值較大,代表人群此時較為分散,隨著人群不斷向中心區(qū)域靠攏,分布熵慢慢減小,到100幀左右隨著新的人群進(jìn)入,分布熵值開始增大,到124幀后沒有新的人群進(jìn)入,分布熵開始減小,一直到人群聚集完成。
Figure 6 Change curve of population distribution entropy 圖6 人群分布熵變化曲線
圖7所示為Pets-2009數(shù)據(jù)集中人群聚集過程中人群密度變化的情況。剛開始監(jiān)控畫面中只有很少的行人進(jìn)入,隨著時間的推移,進(jìn)入監(jiān)控畫面的行人越來越多,故人群密度一直變大;在52幀到61幀人群密度較平穩(wěn),因為這段時間沒有人進(jìn)入監(jiān)控區(qū)域;61幀后隨著新的行人進(jìn)入,密度值又開始增大,直到124幀后沒有人再進(jìn)入監(jiān)控區(qū)域,人群密度值趨于穩(wěn)定。
Figure 7 Change curve of population density 圖7 人群密度變化曲線
在使用PSO算法對極限學(xué)習(xí)機ELM進(jìn)行參數(shù)尋優(yōu)的過程中,PSO算法的各項參數(shù)對最終的分類結(jié)果都有一定影響,如種群規(guī)模N,迭代次數(shù)iterate,初始與最大慣性權(quán)重w1、w2,局部學(xué)習(xí)因子c1與全局學(xué)習(xí)因子c2,這些參數(shù)對ELM的訓(xùn)練與分類精度也會造成影響,此外ELM的隱含層神經(jīng)元個數(shù)H對分類結(jié)果也有較大影響。下面分析各個參數(shù),并選出最優(yōu)參數(shù)組合,作為本文模型使用的參數(shù)。
5.2.1 種群規(guī)模對分類精度的影響
設(shè)置初始種群規(guī)模為N=100,w1=0.6,w2=0.4,c1=c2=1.8,iterate=15,H=250。對于不同的N值都運行模型15次,MAE與MAPE取15次運行結(jié)果的平均值,結(jié)果如表2所示。
通過表2的運行結(jié)果可以看出,種群規(guī)模達(dá)到250左右后模型的誤差評價指標(biāo)變化極小,所以對于種群規(guī)模本文選取250。
Table 2 Impact of population size N表2 種群規(guī)模N的影響
5.2.2 迭代次數(shù)對分類精度的影響
設(shè)置初始迭代次數(shù)iterate=15,N=250,w1=0.6,w2=0.4,c1=c2=1.8,H=250。每取一個iterate值都運行模型15次,MAE與MAPE取15次運行結(jié)果的平均值,結(jié)果如表3所示。
Table 3 Impact of iterations iterate表3 迭代次數(shù)iterate的影響
通過表3的運行結(jié)果可以看出,迭代次數(shù)達(dá)到30左右后模型的誤差評價指標(biāo)變化極小,所以對于迭代次數(shù)本文選取30。
5.2.3 慣性權(quán)重對分類精度的影響
設(shè)置起始慣性權(quán)重w1=0.6,w2=0.4,iterate=30,N=250,c1=c2=1.8,H=250。每取一個w1值都運行模型15次,MAE與MAPE取每15次運行結(jié)果的平均值,結(jié)果如表4所示。
Table 4 Impact of inertia weight w1表4 慣性權(quán)重w1的影響
通過仿真結(jié)果找到最優(yōu)w1。按照上述參數(shù)設(shè)置確定w1=0.8,更改w2,每取一個w2值都運行模型15次,MAE與MAPE取每15次運行結(jié)果的平均值,結(jié)果如表5所示。
通過表5的運行結(jié)果可以看出,w2為0.5左右后模型的誤差評價指標(biāo)變化極小,所以對于w2本文選取0.5。
Table 5 Impact of inertia weight w2表5 慣性權(quán)重w2的影響
5.2.4 學(xué)習(xí)因子對分類精度的影響
設(shè)置起始全局學(xué)習(xí)因子c1=1.8,c2=1.2,w1=0.8,w2=0.5,iterate=70,N=250,H=250。每取一個c1值都運行模型15次,MAE與MAPE取每15次運行結(jié)果的平均值,結(jié)果如表6所示。
Table 6 Impact of learning factor c1表6 學(xué)習(xí)因子c1的影響
通過仿真結(jié)果找到最優(yōu)c1。按照上述參數(shù)設(shè)置確定c1=2.2,更改c2,每取一個c2值都運行模型15次,MAE與MAPE取每15次運行結(jié)果的平均值,結(jié)果如表7所示。
Table 7 Impact of learning factor c2表7 學(xué)習(xí)因子c2的影響
通過表7的運行結(jié)果可以看出,c2為1.6左右后模型的誤差評價指標(biāo)變化極小,所以對于c2本文選取1.6。
5.2.5 隱含層神經(jīng)元數(shù)量對分類精度的影響
本文選取PSO最佳參數(shù)組合,對ELM隱含層神經(jīng)元個數(shù)進(jìn)行選取,設(shè)置初始神經(jīng)元個數(shù)為150個,每取一個值都運行模型15次,MAE與MAPE取每15次運行結(jié)果的平均值,結(jié)果如表8所示。
Table 8 Impact of neurons number H in the hidden layer表8 隱含層神經(jīng)元個數(shù)H的影響
通過表8的運行結(jié)果可以看出,H為300左右后模型的誤差評價指標(biāo)變化極小,故本文模型隱含層神經(jīng)元個數(shù)取300。
選取最優(yōu)參數(shù)組合后進(jìn)行分類模型的訓(xùn)練測試,實際預(yù)測結(jié)果如圖8所示。
Figure 8 Prediction results of PSO-ELM and ELM圖8 PSO-ELM與ELM預(yù)測結(jié)果
從圖8中可以看出,經(jīng)過PSO參數(shù)尋優(yōu)后ELM的分類精度有了較大的提高,能準(zhǔn)確識別正常行走、人群聚集預(yù)測、人群聚集形成等3個階段,預(yù)測準(zhǔn)確率達(dá)到了97.17%。相比之下ELM的預(yù)測效果就差了很多,存在很多分類錯誤的樣本。實驗表明,使用粒子群算法進(jìn)行參數(shù)尋優(yōu)能顯著提高ELM的預(yù)測準(zhǔn)確性。
與參考文獻(xiàn)[3,5,20,21]中算法的人群聚集行為識別準(zhǔn)確率對比,結(jié)果如表9所示。
Table 9 Prediction results comparison 表9 預(yù)測結(jié)果對比
表9中本文1和本文2分別為本文模型在數(shù)據(jù)集Pets-2009與自建數(shù)據(jù)集上的實驗結(jié)果。從表9中可以看出,由于本文模型采用多尺度卷積神經(jīng)網(wǎng)絡(luò)解決了圖像透視與行人遮擋問題,結(jié)合3種運動狀態(tài)特征,從而使其對異常行為的識別率優(yōu)于其它文獻(xiàn)的算法;文獻(xiàn)[3]通過軌跡和人群相互作用力建立人群行為模型進(jìn)行人群聚集檢測,由于建模較為復(fù)雜,模型參數(shù)太多,從而對最終的識別率有一定影響;文獻(xiàn)[5]與文獻(xiàn)[20]均利用通信基站記錄的用戶行為數(shù)據(jù)監(jiān)測以及預(yù)測人群密度來實現(xiàn)檢測,由于基站輻射區(qū)域較大,所得到的手機用戶接入量并不準(zhǔn)確,而且還要考慮上網(wǎng)行為特征與空間相關(guān)性,計算難度較大;文獻(xiàn)[21]對目標(biāo)興趣點先聚類分組再計算聚集性,然后再提出群體聚集性描述子實現(xiàn)聚集檢測,由于使用KLT算法,在存在行人嚴(yán)重遮擋情況下會產(chǎn)生漏檢,這也直接影響了最終檢測準(zhǔn)確性。
本文提出了基于多尺度卷積神經(jīng)網(wǎng)絡(luò)的人群聚集異常識別模型,通過實驗表明,該模型能很好的實現(xiàn)人群運動狀態(tài)的判斷,進(jìn)行人群聚集異常行為的預(yù)測與識別。與傳統(tǒng)的人群聚集識別算法相比,本文模型優(yōu)勢在于實現(xiàn)聚集異常的預(yù)測,而不是等聚集已經(jīng)形成再實現(xiàn)檢測,這對實際的生產(chǎn)生活場景是極具意義的,能為人群聚集異常預(yù)警與采取相應(yīng)應(yīng)急措施提供更多時間。因為大多群體意外事件的發(fā)生都與人群密度過大,人群聚集行為有關(guān),如群體踩踏事件與聚眾斗毆等[22]。本文完成了人群聚集異常的識別工作,未來將進(jìn)一步完善目前聚集異常識別存在的不足,如當(dāng)被檢測圖像像素過低時,對識別結(jié)果有一定影響,在暗光照條件下對異常檢測也存在較大難度,這些工作將是下一步的研究重點。