蔡軼珩 劉天浩 劉嘉琦 郭雅君 胡紹斌
(北京工業(yè)大學(xué)信息學(xué)部 北京 100124)
在當(dāng)下平安城市的背景下,保障人民群眾各方面的安全是一項(xiàng)刻不容緩的任務(wù),而在諸如商場、車站、醫(yī)院等公共場所下,往往面臨著大量人群擁擠等情形,在這些場景中,出現(xiàn)各類異常事件的可能性也大大增加了,因此對(duì)這些公共場所進(jìn)行安全監(jiān)控是非常有必要的。目前通用異常檢測任務(wù)多采用基于手工特征以及基于深度學(xué)習(xí)的方法,在這些方法中采用深度學(xué)習(xí)基于預(yù)測的異常檢測方法[1,2]取得了較為優(yōu)秀的檢測結(jié)果,其根據(jù)預(yù)測幀與原始幀的差異來判斷是否出現(xiàn)了異常。針對(duì)人群異?,F(xiàn)象的檢測任務(wù),同樣屬于通用異常檢測的范疇,不同的是此場景通常對(duì)人群聚集、人群四散、人群逆向等各類人群異常的檢測有著更為急切的需求,并且此類監(jiān)控場景也具有自身的特點(diǎn)。當(dāng)前的研究人員在人群異常檢測領(lǐng)域取得了一定的成果[3–7],例如Zhou等人[3]基于軌跡計(jì)算速度與方向建立了方向-集群性模型(Direction-Collectiveness Model,D-CM);Direkoglu等人[4]使用一分類支持向量機(jī)對(duì)前后幀的光流角度差進(jìn)行建模;蔣俊等人[5]使用脈線流特征輸入殘差網(wǎng)絡(luò)中計(jì)算異常概率,與之類似的是,王洪雁等人[6]聯(lián)合速度、加速度、方向和能量等特征描述符并運(yùn)用softmax進(jìn)行異常的分類。同時(shí)文獻(xiàn)[8]設(shè)計(jì)了社會(huì)力模型來檢測并定位人群視頻中異常行為;文獻(xiàn)[9]結(jié)合灰度值與光流場的分布提取運(yùn)動(dòng)區(qū)域,并使用K-means方法對(duì)運(yùn)動(dòng)塊進(jìn)行聚類,對(duì)每類樣本使用一類分類器進(jìn)行建模,同時(shí)采用正常字典上的稀疏重建成本來衡量樣本的正常與否。然而在這些方法中,還存在著適應(yīng)性較差,未能充分建立正常事件模型等不足之處。Cai等人[10]提出了一種多尺度特征記憶網(wǎng)絡(luò)(Multi-scale memory network, Msm-net),在預(yù)測網(wǎng)絡(luò)與檢測異常階段均強(qiáng)化了時(shí)空聯(lián)系,因此本文基于文獻(xiàn)[10]中的研究成果,對(duì)通用算法進(jìn)行針對(duì)性的改進(jìn),致力于構(gòu)建一種基于雙支路的人群監(jiān)控視頻異常檢測算法,對(duì)正常事件進(jìn)行建模,而不需要引入異常事件。通過最終的各類試驗(yàn)分析表明,本文算法可以有效地檢測出人群中出現(xiàn)的異?,F(xiàn)象,具有針對(duì)性強(qiáng)、魯棒性好、適用性高等特點(diǎn)。
本文針對(duì)的異常檢測類型為人群所出現(xiàn)的各類異常現(xiàn)象,同時(shí)以火車站出站口作為實(shí)際的應(yīng)用場景進(jìn)行驗(yàn)證。為了更優(yōu)地實(shí)現(xiàn)對(duì)人群場景下存在的各類異常事件進(jìn)行針對(duì)性的檢測任務(wù),本文提出一種基于雙支路的人群異常檢測算法。由于面向人群的監(jiān)控視頻異常多集中于前景,且受光照噪聲等影響較多,同時(shí)還面臨著部署應(yīng)用等需求,因此本文主要從上述3個(gè)方面加以改進(jìn)。
人群異常檢測網(wǎng)絡(luò)的整體流程圖如圖1所示,網(wǎng)絡(luò)為人群異常多尺度特征記憶網(wǎng)絡(luò),由3個(gè)階段組成,分別為編碼階段、多尺度特征和時(shí)間信息融合階段以及解碼階段。為了從多角度衡量異常現(xiàn)象的發(fā)生,并更優(yōu)地將各類信息相融合,與文獻(xiàn)[10]中采取的單支路結(jié)構(gòu)不同的是,編碼階段與多尺度特征和時(shí)間信息融合階段共同組成了雙支路共享單元結(jié)構(gòu),同步地對(duì)相同的參數(shù)結(jié)構(gòu)進(jìn)行優(yōu)化。算法首先為了適應(yīng)人群場景并融合多路信息,考慮背景的影響,輸入由兩種形式組成,分別為原始的視頻幀以及經(jīng)過高斯混合建模后的視頻幀,兩種輸入共享相同的編碼結(jié)構(gòu)與多尺度特征和時(shí)間信息融合模塊,并且輸入幀的數(shù)量是連續(xù)的T幀,將T幀中的每一幀轉(zhuǎn)化為兩種形式后逐一地輸入到雙支路共享單元結(jié)構(gòu)中。經(jīng)過共享單元結(jié)構(gòu)后會(huì)進(jìn)入解碼階段,在此階段,借鑒了Unet網(wǎng)絡(luò)上的拼接操作來整合不同尺度上的信息,最終生成預(yù)測幀。
圖1 算法整體流程圖
其次從實(shí)際落地部署考慮,為了進(jìn)一步減少網(wǎng)絡(luò)的參數(shù)量,減低顯存占用率,進(jìn)而增加模型推斷速度,本文將文獻(xiàn)[10]中的普通卷積結(jié)構(gòu)替換為深度可分離卷積。
最后,為了增強(qiáng)網(wǎng)絡(luò)建模的魯棒性,針對(duì)實(shí)際監(jiān)控畫面主要存在的光照與噪聲問題,在這兩個(gè)方面針對(duì)性地使用了數(shù)據(jù)擴(kuò)增方法增大數(shù)據(jù)量級(jí)。同時(shí)為了能夠從多個(gè)方面提升幀的生成質(zhì)量,本文使用了生成對(duì)抗網(wǎng)絡(luò),將CaMsm-net作為生成器,將文獻(xiàn)[11]中基于補(bǔ)丁的卷積神經(jīng)網(wǎng)絡(luò)作為判別器,并結(jié)合了多種損失函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行優(yōu)化。下面將詳細(xì)介紹各改進(jìn)措施。
對(duì)于當(dāng)前大多數(shù)通用異常檢測的任務(wù)來講,輸入的原始幀均是單一的,即只有一種輸入模式,然而本文針對(duì)的檢測場景是人群,由于面向人群的監(jiān)控視頻往往瞬時(shí)人流量較大,人員流動(dòng)性強(qiáng),異常行為的出現(xiàn)也基本集中于前景中的人群,相較于其他場景,背景對(duì)檢測結(jié)果的影響較高,因此首先需要考慮背景對(duì)檢測結(jié)果的干擾。背景建模是一種常見消除背景的方法,其中高斯混合模型(Gaussian Mixed Model, GMM)是使用量較多的,GMM只需要通過建立多個(gè)高斯模型的線性組合即可實(shí)現(xiàn)對(duì)數(shù)據(jù)的建模。為此,在本文采用的輸入中不僅考慮了當(dāng)前幀的原始形式,還考慮了經(jīng)GMM處理后幀的形式。
GMM主要采取的建模依據(jù)為大量樣例值在較長范圍內(nèi)的概率密度等統(tǒng)計(jì)信息。主要思路是設(shè)置多個(gè)高斯模型對(duì)圖片中的像素進(jìn)行建模,并根據(jù)每一張圖片的計(jì)算結(jié)果不斷迭代優(yōu)化模型參數(shù),查看圖片的像素點(diǎn)與各模型的匹配狀態(tài),進(jìn)而確定每一個(gè)像素點(diǎn)屬于前景還是背景。
經(jīng)過上述處理后,便可對(duì)背景進(jìn)行建模處理,計(jì)算出每一幀的前景圖像。根據(jù)使用的數(shù)據(jù)集,經(jīng)過建模后的圖像舉例如圖2所示。
圖2 高斯混合建模舉例
本文采用的CaMsm-net網(wǎng)絡(luò)主要對(duì)文獻(xiàn)[10]中的Msm-net進(jìn)行了針對(duì)性的改進(jìn),主要有以下兩個(gè)變動(dòng):(1)將網(wǎng)絡(luò)的輸入模式更改為雙支路輸入,分別輸入原始幀以及經(jīng)過背景建模后處理的幀。同時(shí)編碼階段與多尺度特征和時(shí)間信息融合階段共享相同的參數(shù)結(jié)構(gòu),從而形成雙支路共享單元模塊;(2)將各階段的普通卷積替換為深度可分離卷積。
下面分別介紹雙支路共享單元模塊與深度可分離卷積的使用。
2.2.1 雙支路共享單元模塊
如上所述,本文算法不僅輸入原始形式的幀,也輸入經(jīng)過GMM處理后的幀,同時(shí)為了將兩條支路的信息更好地融合在一起,本文構(gòu)建了一種共享單元結(jié)構(gòu)的建模方式,即兩條支路共同對(duì)編碼模塊與多尺度特征和時(shí)間信息融合模塊進(jìn)行相應(yīng)的卷積和池化等操作,每一條支路生成對(duì)應(yīng)的預(yù)測幀后通過2.4節(jié)介紹的損失函數(shù)統(tǒng)一地對(duì)參數(shù)進(jìn)行迭代優(yōu)化,共享單元模塊最終提取到各自的低層特征信息供后續(xù)解碼模塊處理。該模塊可視化結(jié)構(gòu)如圖3所示。
圖3 雙支路共享單元示意圖
詳細(xì)的網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,由3個(gè)階段組成,其編碼階段由深度可分離卷積(Separable_Conv)+非線性激活函數(shù)(Leakly_ReLU)+最大池化層(Max_Pool)組成;多尺度特征和時(shí)間信息融合階段由文獻(xiàn)[10]中的Context module與ConvGRU module組成,其目的是在網(wǎng)絡(luò)的底層強(qiáng)化多尺度特征與時(shí)間信息的聯(lián)系,其詳細(xì)結(jié)構(gòu)可以參考文獻(xiàn)[10]中的論述,此階段與編碼階段對(duì)輸入的兩條支路是參數(shù)共享的;解碼階段由轉(zhuǎn)置卷積(Conv_Transpose)+深度可分離卷積(Separable_Conv)+非線性激活函數(shù)(Leakly_RELU)組成。網(wǎng)絡(luò)的輸入是連續(xù)T 幀的雙支路信息,各部分的輸出特征圖分辨率在圖4中標(biāo)出。綜上所述,本文搭建了一種雙支路共享單元結(jié)構(gòu)的網(wǎng)絡(luò)結(jié)構(gòu),采取預(yù)測的思路對(duì)人群的行為進(jìn)行異常檢測,不僅輸入原始幀,還輸入去除背景的幀,并分別預(yù)測兩種圖片結(jié)構(gòu)。
圖4 網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)圖
2.2.2 深度可分離卷積
深度可分離卷積是在Mobilenet網(wǎng)絡(luò)中提出的,其主要優(yōu)勢是不僅能夠較大幅度地減少網(wǎng)絡(luò)參數(shù)量,同時(shí)對(duì)網(wǎng)絡(luò)精確度的影響不大甚至無明顯的損耗。主要方法是將普通卷積分為兩部分,即深度卷積(depthwise conv)和逐點(diǎn)卷積(pointwise conv),其中深度卷積類似于普通的卷積操作,卷積核作用于全部通道,只是在不同的通道上采用不同的卷積核進(jìn)行計(jì)算。同時(shí)由于深度卷積并沒有考慮到處于同一位置但不同通道上參數(shù)之間所處的關(guān)系,因此還需要逐點(diǎn)卷積進(jìn)行進(jìn)一步的處理,逐點(diǎn)卷積是用1×1的卷積對(duì)不同通道上的信息進(jìn)行整合,最終輸出指定個(gè)數(shù)的通道特征。
通過對(duì)采用的實(shí)際火車站數(shù)據(jù)的視頻片段進(jìn)行分析以及實(shí)際人群監(jiān)控視頻的特殊性,本文發(fā)現(xiàn)此場景下往往受光照變化與畫面突發(fā)噪聲的影響較大。針對(duì)此問題,為了增強(qiáng)模型的魯棒性,本文對(duì)原始的數(shù)據(jù)進(jìn)行了隨機(jī)的光照變換處理與隨機(jī)信噪比的噪聲加入,從而使訓(xùn)練好的模型能夠適應(yīng)這兩種變化的發(fā)生。主要變換方法是在原始訓(xùn)練數(shù)據(jù)的基礎(chǔ)上,隨機(jī)挑選50%左右的視頻片段,其中1/2的數(shù)據(jù)以不高于0.3的權(quán)重對(duì)片段中的幀進(jìn)行光照改變,另1/2的數(shù)據(jù)添加高斯噪聲,擴(kuò)增比例在50%左右。經(jīng)過數(shù)據(jù)擴(kuò)增處理后的圖片舉例如圖5所示。
圖5 采用的兩種數(shù)據(jù)擴(kuò)增方式
本文所采用的損失函數(shù)和異常分?jǐn)?shù)計(jì)算方式與文獻(xiàn)[10]類似,不同的是由于采取的是雙支路設(shè)計(jì),因此在計(jì)算損失函數(shù)與異常分?jǐn)?shù)時(shí),也需要分別計(jì)算兩條支路的各自損失與分?jǐn)?shù)并加以融合。首先對(duì)于損失函數(shù)來講,原始幀預(yù)測支路以及背景建模幀對(duì)應(yīng)的預(yù)測支路均由對(duì)抗損失、msssim損失、梯度損失、強(qiáng)度損失組成,如式(1)與式(2)所示。綜上,本文采用的整體損失函數(shù)如式(3)所示,λ1,λ2為兩條支路各自的損失權(quán)重,為了平衡兩條支路的信息,權(quán)重在本文中兩者均為0.5
為了更加合理地證明本文所提方法的有效性與適用性,本文不僅在公開的美國明尼蘇達(dá)大學(xué)(University of MinNesota, UMN)人群異常數(shù)據(jù)集中進(jìn)行了實(shí)驗(yàn)對(duì)比,同時(shí)在實(shí)際場景的火車站出站口數(shù)據(jù)集上進(jìn)行了進(jìn)一步的論證。其中UMN人群異常數(shù)據(jù)集包含廣場、草坪和室內(nèi)3個(gè)場景下的人群四散、同向加速跑等異常和正常行為,分辨率為320×240,總共有7740幀。此數(shù)據(jù)集的異常行為與火車站出站口常見的異常行為類似,可以更加有效地展示算法的效果。為了更科學(xué)合理地評(píng)價(jià)算法的效果,本文沒有在UMN公開數(shù)據(jù)集上使用數(shù)據(jù)擴(kuò)增。而來源于實(shí)際監(jiān)控的火車站出站口數(shù)據(jù)集,分辨率為1280×720,主要由行人出站的各種行為組成,根據(jù)現(xiàn)有視頻的異常種類,本文針對(duì)的是人群大量聚集以及人流異常走向等異常行為的判定。本文對(duì)原始數(shù)據(jù)進(jìn)行了劃分,其中訓(xùn)練集全部由正常事件組成,實(shí)驗(yàn)中采用了8000幀,經(jīng)過數(shù)據(jù)增強(qiáng)后達(dá)到了12000幀,測試集由異常行為與正常行為組成,使用了7500幀。各數(shù)據(jù)集可視化展示舉例如圖6所示。
圖6 數(shù)據(jù)集展示
為了更優(yōu)地說明算法的優(yōu)勢,實(shí)驗(yàn)評(píng)估采用了兩種不同角度的評(píng)價(jià)指標(biāo),一種是異常檢測領(lǐng)域的受試者工作特征曲線(Receiver Operating Characteristic curve, ROC)與坐標(biāo)軸形成的面積(Area Under ROC, AUC)作為總體評(píng)判方法的標(biāo)準(zhǔn),其中較高的AUC就代表著模型具有更好的檢測異常的能力。另一種評(píng)價(jià)指標(biāo)是針對(duì)具體的異常行為的檢測準(zhǔn)確率(ACCuracy, ACC)指標(biāo),其中判定異常分?jǐn)?shù)的閾值使用的是AUC指標(biāo)中對(duì)應(yīng)的最佳閾值。對(duì)于異常事件,分別計(jì)算出正樣本預(yù)測正確的個(gè)數(shù)(True Positives, TP)與正樣本預(yù)測錯(cuò)誤的個(gè)數(shù)(False Negatives, FN);對(duì)于正常事件,則分別計(jì)算出負(fù)樣本預(yù)測錯(cuò)誤的個(gè)數(shù)(False Positives,FP)與負(fù)樣本預(yù)測正確的個(gè)數(shù)(True Negatives,TN),進(jìn)而通過式(6)計(jì)算出ACC數(shù)值。同時(shí)使用這兩種指標(biāo),可以從不同角度評(píng)判算法優(yōu)劣性,從而更好地實(shí)現(xiàn)實(shí)際應(yīng)用
本文網(wǎng)絡(luò)的生成器學(xué)習(xí)率設(shè)定為2e-4,判別器學(xué)習(xí)率設(shè)定為2e-5,強(qiáng)度損失、梯度損失、對(duì)抗損失、msssim損失的學(xué)習(xí)率分別為1, 1, 0.05, 0.5。計(jì)算異常分值時(shí),時(shí)間上滑動(dòng)窗口的長度為2,空間上滑動(dòng)窗口的尺寸為32×64,步長S為32。網(wǎng)絡(luò)輸入每4幀來預(yù)測下一幀。訓(xùn)練的Batch-size設(shè)置為4,迭代次數(shù)為30000次。模型在NVIDIA GeForce GTX 2080 GPU和Intel?Core TM i7-7700 CPU@3.60 GHz×8上進(jìn)行訓(xùn)練測試。在訓(xùn)練階段,將原始幀與經(jīng)過GMM處理后的幀同時(shí)送入到設(shè)計(jì)好的網(wǎng)絡(luò)結(jié)構(gòu)當(dāng)中,生成兩路不同的預(yù)測幀,將兩路不同的預(yù)測幀分別與原始幀計(jì)算相應(yīng)的損失函數(shù),使用Adam方法進(jìn)行迭代優(yōu)化,其中編碼階段與多尺度特征和時(shí)間信息融合階段對(duì)應(yīng)的兩條支路共同進(jìn)行優(yōu)化,達(dá)到迭代次數(shù)后得到最終模型;在測試階段,同樣將兩種不同的輸入幀輸入到訓(xùn)練好的模型之中,得到兩路不同的預(yù)測幀,計(jì)算每一路的STW-Score,通過式(4)得到最終的異常分?jǐn)?shù),通過提前預(yù)設(shè)好的閾值,對(duì)異常與否進(jìn)行判斷。
3.3.1 方法有效性
為了證明所提算法的效果,本文做了以下的分析實(shí)驗(yàn)。首先,使用AUC作為通用異常檢測領(lǐng)域的分析指標(biāo),與目前幾種典型人群異常檢測算法進(jìn)行比較,如表1所示。
從表1的結(jié)果可以看出,在公開的UMN人群異常數(shù)據(jù)集上,所提算法的AUC指標(biāo)達(dá)到了99.2%,與其他經(jīng)典方法(如社會(huì)力模型[8]與局部統(tǒng)計(jì)[12])以及類似的背景建模方法[9]相比取得了良好的結(jié)果。而在火車站數(shù)據(jù)集上進(jìn)行的算法驗(yàn)證,AUC也可以達(dá)到84.1%,這也說明了算法在實(shí)際監(jiān)控場景中具有良好的應(yīng)用價(jià)值,訓(xùn)練好的模型基本可以適應(yīng)不同標(biāo)準(zhǔn)下的異常檢測需求。同時(shí)與其他方法相比(如采用先聚類后分類的方法[9],基于概率模型區(qū)分異常邊界的方法[13]),本文算法可以端到端地對(duì)異?,F(xiàn)象進(jìn)行判別,整體網(wǎng)絡(luò)框架的復(fù)雜度相對(duì)更加簡潔,同時(shí)與一些較低復(fù)雜度的方法[8]相比,本文算法檢測效果也更優(yōu)。
表1 各方法AUC指標(biāo)比較(%)
其次計(jì)算不同異常事件所對(duì)應(yīng)的準(zhǔn)確度(ACC),這里的分?jǐn)?shù)閾值選取了ROC曲線上的最佳閾值,UMN數(shù)據(jù)集上的結(jié)果如表2所示,火車站數(shù)據(jù)集上的結(jié)果如表3所示。
表2 UMN數(shù)據(jù)集異常事件檢測準(zhǔn)確度(%)
從表2、表3各個(gè)異常事件準(zhǔn)確度的指標(biāo)來看,本文算法在兩個(gè)數(shù)據(jù)集上均取得了較優(yōu)的檢測效果。其中在UMN數(shù)據(jù)集異常事件對(duì)應(yīng)的檢測準(zhǔn)確度上收獲了最佳結(jié)果,在草坪與廣場兩個(gè)室外場景當(dāng)中達(dá)到了超過97%的準(zhǔn)確度,而在室內(nèi)場景中也取得了95.2%的指標(biāo)。與一些只能針對(duì)特定幾種異常類型進(jìn)行檢測的方法(如使用能量模型的文獻(xiàn)[14])相比,本文算法具有更廣泛的適用范圍,而在一些基于軌跡進(jìn)行特征設(shè)計(jì)的方法中(例如文獻(xiàn)[3]的方向-集體模型),往往面對(duì)一些人群運(yùn)動(dòng)較為分散的場所的效果是不理想的,這與實(shí)際應(yīng)用下的火車站場景是相悖的。同時(shí)通過對(duì)其他算法的結(jié)果進(jìn)行分析,本文發(fā)現(xiàn)面對(duì)3種不同場景各類算法呈現(xiàn)了不盡相同的趨勢,例如使用SRC[9]與SFM[8]方法,兩個(gè)室外場景都比室內(nèi)場景的準(zhǔn)確度要高,而在C3D-GRNN[15]方法中則表現(xiàn)出了相反的結(jié)果。通過本文算法取得的實(shí)驗(yàn)結(jié)果可知是與文獻(xiàn)[8,9]的趨勢一致的,由于場景2中的室內(nèi)場景較暗,人群可能會(huì)與背景混為一體,背景建模的效果不佳,因此效果略遜于場景1與場景3。然而這也表明了本文算法更加適合應(yīng)用于較開闊的室外人群場景,這與實(shí)際場景下的火車站出站口數(shù)據(jù)是相匹配的。而在火車站數(shù)據(jù)集中對(duì)所需的檢測人群大量聚集以及異常走向任務(wù)下的結(jié)果也收獲了總體81.7%的準(zhǔn)確度,考慮到公開數(shù)據(jù)集與實(shí)際數(shù)據(jù)集在各方面的差別,此結(jié)果的表現(xiàn)也是較優(yōu)的,基本滿足了階段性的檢測需求。綜上所述,所提方法可以較好地檢測出存在的人群異?,F(xiàn)象,并針對(duì)不同場景與需求,適應(yīng)性也較魯棒。
表3 火車站出站口異常事件檢測準(zhǔn)確度(%)
最后異常檢測的一些可視化的結(jié)果舉例如圖7—圖9所示。其中圖7是在UMN數(shù)據(jù)集下場景1中發(fā)生的異常原始幀以及預(yù)測差值圖與原始幀疊加后的展示圖,高亮的部分即代表預(yù)測差??梢暂^為明顯地看出,當(dāng)出現(xiàn)異?,F(xiàn)象時(shí),會(huì)突顯出預(yù)測差,而在沒有出現(xiàn)異常的地方,則不會(huì)出現(xiàn)明顯的預(yù)測差值,這種預(yù)測差值也是本文判別異常的關(guān)鍵所在。
圖7 UMN數(shù)據(jù)集原始幀與預(yù)測差值圖
圖8是火車站數(shù)據(jù)集異常分?jǐn)?shù)的曲線圖,此圖截取了測試視頻中某段3500幀左右的異常分?jǐn)?shù)輸出圖,綠線代表真值,藍(lán)線代表每一幀的輸出分?jǐn)?shù),可以看出當(dāng)視頻片段中出現(xiàn)異常事件時(shí),分?jǐn)?shù)會(huì)有一個(gè)較為明顯的降低過程,通過此過程,當(dāng)輸出分?jǐn)?shù)低于閾值時(shí),即可判別出現(xiàn)異常從而發(fā)出預(yù)警。
圖8 火車站數(shù)據(jù)集異常分?jǐn)?shù)展示
圖9是分別在火車站數(shù)據(jù)集以及UMN數(shù)據(jù)集上繪制得到的ROC曲線圖以及對(duì)應(yīng)的等概率錯(cuò)誤(Equal Error Rate, EER)指標(biāo),此圖的橫坐標(biāo)為假陽性率(False Positive Rate, FPR),縱坐標(biāo)為真陽性率(True Positive Rate, TPR),AUC的值即為曲線下的總面積,EER指標(biāo)對(duì)應(yīng)于橙色虛線與藍(lán)色實(shí)線相交點(diǎn)處FPR所對(duì)應(yīng)的值,兩個(gè)數(shù)據(jù)集上展現(xiàn)的EER分別為0.219與0.039。這也表明了模型的適應(yīng)性較好。
3.3.2 消融實(shí)驗(yàn)
本文為了分別驗(yàn)證采用的雙支路共享單元模塊,深度可分離卷積方法以及數(shù)據(jù)擴(kuò)增對(duì)實(shí)驗(yàn)結(jié)果的影響,本節(jié)單獨(dú)對(duì)每個(gè)模塊進(jìn)行了消融實(shí)驗(yàn)。這里選用更通用的AUC指標(biāo)來進(jìn)行說明。
雙支路共享單元模塊部分對(duì)比試驗(yàn):本部分在其他條件均保持一致的情況下,分別將原始幀(即采用文獻(xiàn)[10]的單支路結(jié)構(gòu))以及添加GMM處理后的雙路幀(即采用共享結(jié)構(gòu))送入到網(wǎng)絡(luò)進(jìn)行訓(xùn)練,結(jié)果如表4所示。可以看出,兩條支路聯(lián)合對(duì)共享單元模塊進(jìn)行優(yōu)化可以取得更出色的結(jié)果,這種形式考慮了背景對(duì)結(jié)果的影響,運(yùn)用了多類信息加以融合,可以進(jìn)一步提升網(wǎng)絡(luò)性能,表明了考慮多分支輸入對(duì)人群異常檢測場景下的重要性與有效性。
表4 雙支路共享單元模塊消融實(shí)驗(yàn)結(jié)果(%)
深度可分離卷積部分對(duì)比試驗(yàn):本部分對(duì)比了使用普通的2D卷積以及使用深度可分離卷積的網(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)指標(biāo)、參數(shù)數(shù)目與運(yùn)行速度等結(jié)果,如表5所示??梢钥闯觯谛阅軟]有大幅下降的情況下(僅僅下降了0.5%左右),模型的參數(shù)量減少了32%,檢測每秒傳輸幀數(shù)(frames per second,fps)提高了17%,這說明了采用深度可分離卷積在本文算法實(shí)際應(yīng)用下的有效性,可以在保證高精確度檢測的同時(shí),大幅度地減少網(wǎng)絡(luò)參數(shù)的數(shù)量,從而執(zhí)行速度得到提升,基本保障了算法運(yùn)行的實(shí)時(shí)性,為各場景下的人群異常檢測技術(shù)的實(shí)際應(yīng)用奠定了良好基礎(chǔ)。
表5 深度可分離卷積消融實(shí)驗(yàn)結(jié)果
數(shù)據(jù)擴(kuò)增部分對(duì)比實(shí)驗(yàn):本部分比較了使用原始數(shù)據(jù)進(jìn)行訓(xùn)練以及經(jīng)過數(shù)據(jù)擴(kuò)增處理后的數(shù)據(jù)進(jìn)行訓(xùn)練后的評(píng)價(jià)指標(biāo),如表6所示,結(jié)果顯示經(jīng)過數(shù)據(jù)擴(kuò)增后,網(wǎng)絡(luò)的性能提升了近1%,從而使得優(yōu)化好的模型魯棒性更好,表明了數(shù)據(jù)擴(kuò)增在人群監(jiān)控視頻應(yīng)用環(huán)境下的優(yōu)勢與作用。
表6 數(shù)據(jù)擴(kuò)增消融實(shí)驗(yàn)結(jié)果(%)
本文致力于構(gòu)建一種高精度的基于雙支路的人群異常檢測算法,針對(duì)人群異常視頻這一特殊場景的設(shè)定,對(duì)先前的通用算法進(jìn)行了針對(duì)性強(qiáng)的改進(jìn)措施。其中,雙支路共享單元結(jié)構(gòu)兼顧了人群密集冗余,異常一般集中于前景的特點(diǎn),不僅考慮原始幀,還考慮了背景對(duì)檢測結(jié)果的影響,同時(shí)將兩條支路進(jìn)行共同的特征編碼實(shí)現(xiàn)融合優(yōu)化;深度可分離卷積設(shè)計(jì)針對(duì)實(shí)際應(yīng)用場景,對(duì)模型進(jìn)行瘦身,達(dá)到落地應(yīng)用的目的;數(shù)據(jù)擴(kuò)增考慮了實(shí)際監(jiān)控視頻光照與噪聲的影響,使得最終訓(xùn)練到的模型更具魯棒性。本文算法不僅在UMN人群異常數(shù)據(jù)集中進(jìn)行了試驗(yàn)對(duì)比,也在實(shí)際監(jiān)控下的火車站出站口數(shù)據(jù)集上進(jìn)行了驗(yàn)證,證明了所提方法的有效性與可靠性。