黃 濤,鄔開(kāi)俊,王迪聰,2,白晨帥,陶小苗
(1.蘭州交通大學(xué) 電子與信息工程學(xué)院,蘭州 730070;2.天津大學(xué) 智能與計(jì)算學(xué)部,天津 300350)
目前,大量的監(jiān)控?cái)z像頭部署在公共場(chǎng)所的各個(gè)角落,攝像機(jī)每時(shí)每刻都在產(chǎn)生海量的視頻數(shù)據(jù),利用這些視頻數(shù)據(jù)來(lái)分析解決現(xiàn)實(shí)生活中的問(wèn)題是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。但是,僅通過(guò)人眼去識(shí)別龐大視頻數(shù)據(jù)中的異常行為將耗時(shí)耗力且效果不佳,因此,需要通過(guò)機(jī)器來(lái)識(shí)別異常行為。
視頻異常檢測(cè)通常面臨如下挑戰(zhàn):對(duì)異常行為定義模糊,在不同場(chǎng)景下很難區(qū)分行為是否異常;異常事件很少發(fā)生,正常和異常樣本數(shù)據(jù)量極不均衡,可用的異常檢測(cè)數(shù)據(jù)集很少;不同的異常行為之間存在較大差異,訓(xùn)練模型很難學(xué)到有規(guī)律的特征;監(jiān)控視頻包含很大的環(huán)境噪聲,如復(fù)雜光線條件、攝像機(jī)抖動(dòng)等。在實(shí)際場(chǎng)景中,如果很多人聚集在一條通常情況下人流量很少的街道上,可能會(huì)發(fā)生斗毆等異常情況。但是對(duì)于機(jī)器,它們沒(méi)有自我思考的能力,僅通過(guò)分析所捕捉到的視覺(jué)信息數(shù)據(jù)來(lái)判斷是否異常。一般而言,視覺(jué)特征越強(qiáng),異常檢測(cè)性能越高。
異常檢測(cè)可以通過(guò)提取視頻數(shù)據(jù)中的外觀特征或運(yùn)動(dòng)特征來(lái)判別行為是否異常。文獻(xiàn)[1]設(shè)計(jì)2 個(gè)處理模塊,第一個(gè)處理模塊通過(guò)自動(dòng)編碼器學(xué)習(xí)正常事件的外觀特征,第二個(gè)模塊通過(guò)提取視頻中的光流信息來(lái)學(xué)習(xí)外觀特征和運(yùn)動(dòng)特征之間的對(duì)應(yīng)關(guān)系。然而,光流估計(jì)具有很高的計(jì)算成本[2],很難應(yīng)用在真實(shí)場(chǎng)景中。無(wú)論網(wǎng)絡(luò)深度和維度如何變化,基于運(yùn)動(dòng)信息的特征都比基于圖像的外觀特征表現(xiàn)得更好,因?yàn)榇蠖鄶?shù)異常行為都是不規(guī)則的突然運(yùn)動(dòng),所以運(yùn)動(dòng)特征更適合視頻異常檢測(cè)任務(wù)。
本文從原始視頻幀中盡可能多地獲取時(shí)空信息,以學(xué)習(xí)更有效的視覺(jué)特征,同時(shí)構(gòu)建一個(gè)融合RGB 幀差圖[3]和RGB 圖像特征的殘差網(wǎng)絡(luò)來(lái)學(xué)習(xí)視頻中的運(yùn)動(dòng)信息,融合視覺(jué)和運(yùn)動(dòng)2 種特征的數(shù)據(jù)來(lái)提高檢測(cè)性能。另外,本文引入卷積注意力機(jī)制模塊,該模塊沿著通道和空間2 個(gè)不同的維度學(xué)習(xí)注意力圖,通過(guò)學(xué)習(xí)的注意力權(quán)重與輸入特征圖相乘實(shí)現(xiàn)特征自適應(yīng)優(yōu)化。為了解決視頻異常檢測(cè)中正負(fù)樣本比例不平衡的問(wèn)題,本文引入焦點(diǎn)損失(Focal Loss,F(xiàn)L)函數(shù)減少訓(xùn)練中大量簡(jiǎn)單正常樣本的權(quán)重,使得模型將更多注意力分配到分類(lèi)難度較高的樣本上。
視頻由很多獨(dú)立的圖像幀組成,且視頻幀之間存在時(shí)間關(guān)系。在傳統(tǒng)方法中,改進(jìn)的密集軌跡(Improved Dense Trajectory,IDT)算法[4]利用前后兩幀視頻之間的光流信息估計(jì)相機(jī)運(yùn)動(dòng),減弱相機(jī)運(yùn)動(dòng)帶來(lái)的影響;采用概率密度估計(jì)的方法[5]分析視頻中事件的分布狀況,從而判斷事件是否異常。近年來(lái),深度卷積神經(jīng)網(wǎng)絡(luò)[6-8]被提出,如時(shí)間結(jié)構(gòu)挖掘[9]、時(shí)間卷積網(wǎng)絡(luò)[10]、三維卷積網(wǎng)絡(luò)[11-12]、時(shí)間分段網(wǎng)絡(luò)[13]、雙流網(wǎng)絡(luò)[14]等。為了整合視頻數(shù)據(jù)的時(shí)空信息,文獻(xiàn)[14]提出一種雙流網(wǎng)絡(luò),即一個(gè)單獨(dú)的RGB 流和一個(gè)光流,2 個(gè)流通過(guò)后期融合進(jìn)行動(dòng)作分類(lèi)。文獻(xiàn)[15]提出用于異常檢測(cè)的雙流架構(gòu),將光流表示的靜態(tài)圖像和動(dòng)態(tài)運(yùn)動(dòng)作為2 個(gè)獨(dú)立網(wǎng)絡(luò)的輸入,分別捕獲外觀和運(yùn)動(dòng)特征,最后通過(guò)融合這2 個(gè)流的異常分?jǐn)?shù)得到判斷結(jié)果。文獻(xiàn)[16]利用2 個(gè)生成器網(wǎng)絡(luò)來(lái)學(xué)習(xí)正常的人群行為,其中,一個(gè)生成器網(wǎng)絡(luò)將入幀圖像生成光流場(chǎng)圖像,另一個(gè)生成器網(wǎng)絡(luò)利用光流圖像重建幀。在大多數(shù)實(shí)驗(yàn)測(cè)試中,使用光流的雙流方法都表現(xiàn)得較好,但是,光流估計(jì)的時(shí)間成本很高。
本文主要關(guān)注視頻的時(shí)間建模,通過(guò)學(xué)習(xí)視頻片段的時(shí)間規(guī)律性來(lái)提取高效的特征信息。為了模擬視頻圖像的光流,本文將RGB 幀差圖作為輸入,以提取更多的運(yùn)動(dòng)特征數(shù)據(jù)。此外,還將卷積注意力機(jī)制模塊加入到模型中,將更多注意力放在重要的目標(biāo)區(qū)域,從而獲取重點(diǎn)目標(biāo)更多的細(xì)節(jié)信息。文獻(xiàn)[17]提出FL 函數(shù)以減少訓(xùn)練中大量簡(jiǎn)單正常樣本的權(quán)重,受此啟發(fā),本文將FL 函數(shù)應(yīng)用于模型中,以解決正常與異常樣本數(shù)量不均的問(wèn)題。
在實(shí)際場(chǎng)景中,很難檢測(cè)到長(zhǎng)視頻中是否包含異常事件以及事件發(fā)生的位置,要獲得精確的幀級(jí)注釋非常具有挑戰(zhàn)性且成本很高。大多數(shù)視頻異常檢測(cè)數(shù)據(jù)集[18-19]只提供視頻級(jí)的標(biāo)簽,制作弱標(biāo)簽的數(shù)據(jù)集更加容易。本文提出一種弱監(jiān)督的方法,只給訓(xùn)練樣本提供視頻級(jí)的標(biāo)簽(正常或異常)。在訓(xùn)練時(shí),只知道視頻中是否包含異常行為,不知道具體的異常行為類(lèi)別和異常發(fā)生的時(shí)間,在測(cè)試時(shí)給出視頻是否異常的判斷。本文通過(guò)改進(jìn)的時(shí)間分段網(wǎng)絡(luò)學(xué)習(xí)運(yùn)動(dòng)特征,然后預(yù)測(cè)視頻片段的正異常分?jǐn)?shù),并整合得到最終的視頻級(jí)預(yù)測(cè)結(jié)果。
圖1 所示為本文視頻異常檢測(cè)網(wǎng)絡(luò)的整體結(jié)構(gòu),主要分為3 個(gè)部分:
圖1 改進(jìn)型時(shí)間分段網(wǎng)絡(luò)框架Fig.1 Improved time segmentation network framework
1)將輸入視頻分段,從每個(gè)視頻段中隨機(jī)選擇RGB 圖像幀,從2 個(gè)連續(xù)圖像幀之間得到RGB 幀差圖,用以描述運(yùn)動(dòng)外觀的變化,并將RGB 圖和RGB幀差圖作為網(wǎng)絡(luò)的輸入。
2)融合2 種特征數(shù)據(jù),以預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)ResNet101(Residual Network 101)作為主干網(wǎng)絡(luò),結(jié)合卷積注意力模塊(Convolutional BlockAttention Module,CBAM)提取視頻段的運(yùn)動(dòng)特征,利用視頻特征得到視頻片段的分類(lèi)預(yù)測(cè)結(jié)果。
3)不同視頻段的正常、異常類(lèi)得分通過(guò)片段共識(shí)函數(shù)得到視頻級(jí)的預(yù)測(cè)結(jié)果,然后將RGB 圖和RGB 幀差圖2 種模式所得的預(yù)測(cè)結(jié)果進(jìn)行融合,從而得到最終的預(yù)測(cè)結(jié)果。
時(shí)間分段網(wǎng)絡(luò)應(yīng)用于視頻異常檢測(cè)領(lǐng)域時(shí)能取得較好的檢測(cè)效率和性能,本文在改進(jìn)型時(shí)間分段網(wǎng)絡(luò)(TSN)上進(jìn)行一系列實(shí)驗(yàn),這些實(shí)驗(yàn)數(shù)據(jù)也直接應(yīng)用于改進(jìn)型時(shí)間分段網(wǎng)絡(luò)的學(xué)習(xí)過(guò)程。
網(wǎng)絡(luò)架構(gòu)是神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)中的一個(gè)重要因素。研究表明,更深的網(wǎng)絡(luò)結(jié)構(gòu)可以提高目標(biāo)識(shí)別的性能[20-21]。本文選擇ResNet101 作為主干網(wǎng)絡(luò),將單個(gè)RGB 圖作為空間卷積網(wǎng)絡(luò)的輸入,時(shí)間卷積網(wǎng)絡(luò)的輸入為多幀圖像間的RGB 幀差圖。2 個(gè)網(wǎng)絡(luò)經(jīng)過(guò)一系列卷積層和全連接層后,通過(guò)一個(gè)預(yù)測(cè)函數(shù)得出概率分布值。最后,融合這2 個(gè)網(wǎng)絡(luò)的預(yù)測(cè)值,得到整段視頻的類(lèi)別概率。本文將卷積注意力模塊加入到主干網(wǎng)絡(luò)中,學(xué)習(xí)到的注意力權(quán)重可以更好地被分配到重點(diǎn)關(guān)注的目標(biāo)區(qū)域。
大多數(shù)基于雙流的卷積網(wǎng)絡(luò)將光流作為運(yùn)動(dòng)建模的輸入來(lái)源,雖然光流作為輸入時(shí)性能表現(xiàn)較好,但是光流估計(jì)需要消耗很高的計(jì)算成本。受文獻(xiàn)[3]的啟發(fā),本文不使用光流表示運(yùn)動(dòng)特征,而是構(gòu)建連續(xù)RGB幀差圖以表示運(yùn)動(dòng)特征,如圖2 所示。通常單個(gè)RGB圖像只能編碼特定時(shí)間點(diǎn)的靜態(tài)外觀,缺少關(guān)于前一幀和下一幀圖像的上下文信息。2個(gè)連續(xù)幀之間的RGB幀差圖能夠描述運(yùn)動(dòng)的變化,對(duì)應(yīng)于運(yùn)動(dòng)的凸起區(qū)域,運(yùn)動(dòng)表示可以從RGB 幀差圖中學(xué)習(xí)。因此,本文通過(guò)學(xué)習(xí)時(shí)間規(guī)律性和運(yùn)動(dòng)一致性,將RGB 圖和RGB 幀差圖融合作為時(shí)間分段網(wǎng)絡(luò)的輸入,從而提取視頻幀中的基本運(yùn)動(dòng)信息。
圖2 RGB 圖、RGB 幀差圖示例Fig.2 Examples of RGB image and RGB frame difference image
目前,視頻異常檢測(cè)領(lǐng)域面臨的一個(gè)很大的挑戰(zhàn)就是訓(xùn)練的網(wǎng)絡(luò)無(wú)法對(duì)長(zhǎng)時(shí)間監(jiān)控視頻進(jìn)行建模,這主要是因?yàn)檫@些網(wǎng)絡(luò)很難提取視頻中相鄰幀的關(guān)系信息,大多數(shù)網(wǎng)絡(luò)只能對(duì)短視頻片段中的單個(gè)幀進(jìn)行操作,當(dāng)面對(duì)持續(xù)時(shí)間很長(zhǎng)的異常情況(如爆炸、斗毆等異常行為)時(shí),就會(huì)損失監(jiān)控視頻中一些很重要的運(yùn)動(dòng)信息。為了解決這一問(wèn)題,本文使用改進(jìn)型時(shí)間分段網(wǎng)絡(luò)學(xué)習(xí)監(jiān)控視頻中的運(yùn)動(dòng)特征,從而對(duì)整個(gè)視頻進(jìn)行動(dòng)態(tài)建模。
本文改進(jìn)型時(shí)間分段網(wǎng)絡(luò)框架利用整個(gè)視頻的運(yùn)動(dòng)信息進(jìn)行視頻級(jí)預(yù)測(cè)。時(shí)間分段網(wǎng)絡(luò)不是處理單幀,而是處理整個(gè)視頻中稀疏采樣的短片段,視頻采樣的每個(gè)短片段都將產(chǎn)生正異常預(yù)測(cè)分?jǐn)?shù),對(duì)這些片段產(chǎn)生的預(yù)測(cè)分?jǐn)?shù)進(jìn)行整合,最后得出視頻級(jí)的預(yù)測(cè)結(jié)果。對(duì)于一個(gè)視頻V,本文將其分割為持續(xù)時(shí)間相同的N段,即{V1,V2,…,VN},對(duì)稀疏采樣的短片段進(jìn)行建模,如下:
其中:(C1,C2,…,CN)是一系列片段,每個(gè)片段CN從其相應(yīng)的段VN中隨機(jī)采樣;F(CN;W)表示具有參數(shù)W的卷積神經(jīng)網(wǎng)絡(luò)的函數(shù),函數(shù)將得出視頻片段CN的正異常分?jǐn)?shù);分段共識(shí)函數(shù)G整合多個(gè)短片段的結(jié)果,將其平均用作視頻級(jí)別分?jǐn)?shù)預(yù)測(cè),得到一致性的假設(shè);預(yù)測(cè)函數(shù)H預(yù)測(cè)得到視頻正異常的概率。
在視頻異常檢測(cè)研究中,因?yàn)楸O(jiān)控視頻中的異常行為發(fā)生的概率很小,大多數(shù)行為都是正常的,所以訓(xùn)練數(shù)據(jù)集中正常、異常樣本嚴(yán)重不均衡。此外,正常樣本數(shù)量占比太大,且其中很多是容易分類(lèi)的樣本。為了解決樣本類(lèi)別不均衡的問(wèn)題,本文選擇焦點(diǎn)損失函數(shù),該函數(shù)可以降低大量易分類(lèi)樣本所占的比重,使得模型將更多注意力分配給難分類(lèi)的樣本。焦點(diǎn)損失函數(shù)表示為:
其中:C表示視頻的類(lèi)別數(shù)目(正常和異常類(lèi))。為了解決類(lèi)別不均衡的問(wèn)題,本文引入權(quán)重因子α。為了降低簡(jiǎn)單樣本的權(quán)重,添加調(diào)制參數(shù)Gi=g(Fi(T1),F(xiàn)i(T2),…,F(xiàn)i(TN))。使用一個(gè)聚合函數(shù)g將所有片段上的同一類(lèi)分?jǐn)?shù)聚合為一個(gè)類(lèi)分?jǐn)?shù)Gi,使用平均聚合函數(shù)g得出視頻級(jí)的異常分?jǐn)?shù)。
本文時(shí)間分段網(wǎng)絡(luò)是可微的,利用多個(gè)片段和反向傳播算法聯(lián)合優(yōu)化模型參數(shù)W。在反向傳播的過(guò)程中,模型參數(shù)W的梯度可以通過(guò)損失值Lfl來(lái)推導(dǎo):
其中:N是時(shí)間分段網(wǎng)絡(luò)使用的分段數(shù)量。
本文使用隨機(jī)梯度下降(SGD)的優(yōu)化方法來(lái)學(xué)習(xí)模型參數(shù),式(3)保證了參數(shù)更新,通過(guò)這種方式進(jìn)行優(yōu)化,時(shí)間分段網(wǎng)絡(luò)可以從整個(gè)視頻中學(xué)習(xí)模型參數(shù),而不是視頻中的一個(gè)小片段。同時(shí),本文使用稀疏時(shí)間采樣策略,采樣片段只包含幀的一小部分,與使用密集采樣幀的方法相比,能夠大幅降低在幀上進(jìn)行評(píng)估時(shí)的計(jì)算成本。
在監(jiān)控視頻中,大部分物體都是靜止不動(dòng)的,異常行為會(huì)有較大的運(yùn)動(dòng)變化,因此,本節(jié)的目標(biāo)是為監(jiān)控視頻中的運(yùn)動(dòng)物體分配更多的權(quán)重?;谶@一特性,本文使用卷積注意力模塊CBAM,該模塊被廣泛應(yīng)用于前饋卷積神經(jīng)網(wǎng)絡(luò)中。給定一個(gè)中間特征圖,卷積注意力機(jī)制會(huì)從通道和空間2 個(gè)不同維度按照順序?qū)W習(xí)注意力,并對(duì)特征圖進(jìn)行自適應(yīng)特征優(yōu)化。相比于使用單一通道注意力機(jī)制的SeNet,CBAM 能取得更好的效果。
通道注意力機(jī)制先從空間維度上壓縮特征圖,然后輸出一維矢量。為了將特征映射的空間信息整合在一起,空間維度壓縮特征圖需要同時(shí)考慮平均值池化和最大值池化,然后輸入到MLP 共享網(wǎng)絡(luò)中,壓縮輸入特征圖的空間維數(shù),再逐個(gè)元素求和合并,最后得到通道注意力圖。對(duì)于一張圖片來(lái)說(shuō),通道注意力更在意的是圖上有價(jià)值的內(nèi)容。平均值池化會(huì)對(duì)特征圖上所有像素點(diǎn)進(jìn)行反饋,最大值池化則在梯度反向傳播時(shí)對(duì)特征圖響應(yīng)最大處進(jìn)行反饋。通道注意力機(jī)制可以表示為:
其中:Mc是通道注意力權(quán)重系數(shù),通道注意力機(jī)制的輸入是一個(gè)H×W×C的特征F;MLP 是共享的全連接層網(wǎng)絡(luò)分別是最大池化和平均池化不同的空間背景描述;在W0后使用ReLU 作為激活函數(shù)。
空間注意力機(jī)制對(duì)通道進(jìn)行壓縮,在通道維度上提取平均值池化和最大值池化特征圖,提取通道上的平均值和最大值,提取的次數(shù)都是高乘以寬,然后將所提取的特征圖進(jìn)行整合得到兩通道的特征圖:
其中:Ms是空間注意力權(quán)重系數(shù),空間注意力機(jī)制的輸入是一個(gè)H×W×C的特征F;f7×7表 示7×7 的 卷積層。
卷積層得到的結(jié)果首先通過(guò)通道注意力機(jī)制計(jì)算加權(quán)結(jié)果,然后通過(guò)空間注意力機(jī)制再加權(quán)得出結(jié)果,整個(gè)過(guò)程如下:
其中:?表示逐元素乘法;F為輸入特征;Mc表示通道注意力提取操作;Ms表示空間注意力提取操作;F'由輸入特征F和通道注意力相乘得到;F″由通道注意力特征F'和空間注意力相乘得到,為最終的輸出。
目前,視頻異常檢測(cè)數(shù)據(jù)集相對(duì)較少,可能出現(xiàn)數(shù)據(jù)過(guò)擬合現(xiàn)象。為了緩解這一問(wèn)題,本文提出如下3 種時(shí)間分段網(wǎng)絡(luò)訓(xùn)練策略:
1)跨模態(tài)初始化。對(duì)卷積神經(jīng)網(wǎng)絡(luò)參數(shù)進(jìn)行預(yù)訓(xùn)練可以彌補(bǔ)訓(xùn)練數(shù)據(jù)較少所帶來(lái)的影響,時(shí)間分段網(wǎng)絡(luò)以RGB 圖像作為輸入,因此,用ImageNet 上預(yù)訓(xùn)練的模型進(jìn)行初始化。以RGB 幀差圖作為另一種輸入,可以捕捉到視頻不同的視覺(jué)特征,其分布與RGB 圖像不同,采用一種跨模態(tài)初始化策略,即利用RGB 模型初始化時(shí)間分段網(wǎng)絡(luò)。RGB 幀差圖作為輸入,需要修改RGB 初始網(wǎng)絡(luò)的第一個(gè)卷積層,以得到RGB 通道權(quán)重的平均值,然后依據(jù)實(shí)際通道數(shù)量復(fù)制平均值,從而減少時(shí)間分段網(wǎng)絡(luò)中的過(guò)擬合現(xiàn)象。
2)正則化。在用預(yù)訓(xùn)練的模型進(jìn)行初始化后,凍結(jié)除第一層之外的全部批量標(biāo)準(zhǔn)化層的平均值和方差參數(shù)。RGB 圖和RGB 幀差圖的分布不同,第一個(gè)卷積層的激活值也不同,因此,要重新計(jì)算對(duì)應(yīng)的方差和平均值。另外,在全局池化層后加一個(gè)Dropout 層,也能減少過(guò)擬合的影響。
3)數(shù)據(jù)增強(qiáng)。數(shù)據(jù)增強(qiáng)可以產(chǎn)生不同的訓(xùn)練樣本,而且可以防止嚴(yán)重的過(guò)擬合現(xiàn)象。本文加入角裁剪、尺度抖動(dòng)這2 個(gè)有效的數(shù)據(jù)增強(qiáng)方法。角裁剪只裁剪圖像的邊角或中心區(qū)域,從而更全面地關(guān)注圖像信息。尺度抖動(dòng)將輸入圖像的寬和高限定為256×340,裁剪區(qū)域的寬、高從{168,192,224,256}中隨機(jī)選擇,最后,為了便于網(wǎng)絡(luò)訓(xùn)練,裁剪區(qū)域?qū)⒅匦抡{(diào)整為224×224。
現(xiàn)有的視頻異常檢測(cè)數(shù)據(jù)集[22-23]存在視頻樣本數(shù)量少以及異常類(lèi)別有限的問(wèn)題。本文目標(biāo)是提取視頻中的多個(gè)特征信息,因此,需要一個(gè)樣本大、異常類(lèi)別全面的數(shù)據(jù)集。本文使用大規(guī)?,F(xiàn)實(shí)世界犯罪數(shù)據(jù)集UCF-Crime[19]和CUHK Avenue 數(shù)據(jù)集來(lái)驗(yàn)證算法的有效性。UCF-Crime 數(shù)據(jù)集共有1 900 個(gè)視頻,訓(xùn)練集包含810 個(gè)異常視頻和800 個(gè)正常視頻,測(cè)試集有150 個(gè)正常視頻和140 個(gè)異常視頻,異常行為包括道路交通事故、商店盜竊、打架等13 種不同的類(lèi)別。CUHK Avenue 數(shù)據(jù)集包含16 個(gè)正常視頻和21 個(gè)異常視頻,視頻幀的分辨率為640×360 像素,視頻共包含30 652 幀,異常行為主要包括奔跑、拋擲物體等。
實(shí)驗(yàn)過(guò)程中使用的GPU型號(hào)為CirrusLogicGD5446,在PyTorch 框架下實(shí)現(xiàn)。在使用時(shí)間分段網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí),觀察Loss 值的下降速度,將迭代次數(shù)設(shè)置為50 次。
本文使用SGD 方法來(lái)學(xué)習(xí)網(wǎng)絡(luò)參數(shù),動(dòng)量設(shè)置為0.8。將視頻中每幀大小調(diào)整為224×224,在實(shí)驗(yàn)中設(shè)置一個(gè)較小的學(xué)習(xí)率,設(shè)置初始學(xué)習(xí)率為0.005,Dropout 為0.6,學(xué)習(xí)率衰減為0.001。為了解決樣本少的問(wèn)題,本文使用位置抖動(dòng)、水平翻轉(zhuǎn)、角裁剪和比例抖動(dòng)的數(shù)據(jù)增強(qiáng)技術(shù)。另外,為了去除視頻連續(xù)幀之間存在的冗余信息并降低計(jì)算量,本文對(duì)視頻進(jìn)行稀疏采樣,將整個(gè)視頻分割成無(wú)重復(fù)的16 個(gè)小片段。
本文通過(guò)計(jì)算接收者操作特征(Receiver Operating Characteristic,ROC)曲線下的面積(Area Under Curve,AUC),以評(píng)估模型的檢測(cè)性能。給定具有不同閾值的模型,ROC 能夠說(shuō)明該模型的性能,ROC的AUC 值越高,說(shuō)明該模型性能越好。為了確保不同方法之間的可比性,本文計(jì)算幀級(jí)的AUC 結(jié)果[24]。
在UCF-Crime 和CUHK Avenue 數(shù)據(jù)集上,將本文改進(jìn)的時(shí)間分段網(wǎng)絡(luò)與主流檢測(cè)方法進(jìn)行實(shí)驗(yàn)對(duì)比。圖3 所示為UCF-Crime 數(shù)據(jù)集上的ROC 曲線,可以看出,本文融合RGB 圖和RGB 幀差圖輸入的改進(jìn)時(shí)間分段網(wǎng)絡(luò)在幀級(jí)的召回率上表現(xiàn)更優(yōu)。
圖3 在UCF-Crime 數(shù)據(jù)集上的ROC 曲線Fig.3 ROC curves on UCF-Crime dataset
表1 和表2 顯示不同方法在UCF-Crime 和CUHK Avenue 數(shù)據(jù)集上得到的幀級(jí)AUC 結(jié)果。一般情況下,無(wú)監(jiān)督異常檢測(cè)方法只利用正常樣本進(jìn)行訓(xùn)練,對(duì)視頻中的噪聲很敏感,檢測(cè)效果相比監(jiān)督和弱監(jiān)督方法較差,如文獻(xiàn)[23,25]方法計(jì)算的AUC 值較低;文獻(xiàn)[19]方法利用C3D 提取視頻的特征信息,采用弱監(jiān)督方法,在UCF-Crime 數(shù)據(jù)集上AUC 值達(dá)到了75.41%,但是該方法忽略了視頻中很重要的運(yùn)動(dòng)信息;本文改進(jìn)型時(shí)間分段網(wǎng)絡(luò)學(xué)習(xí)視頻中的外觀和運(yùn)動(dòng)信息,使得AUC 值得到較大提升,高于文獻(xiàn)[19]方法2.19 個(gè)百分點(diǎn),高于基準(zhǔn)方法TSN(RGB 流)[3]6.6 個(gè)百分點(diǎn)。
表1 UCF-Crime 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 1 Comparison of experimental results on UCF-Crime dataset %
表2 CUHK Avenue 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Table 2 Comparison of experimental results on CUHK Avenue dataset %
本文方法在CUHK Avenue 數(shù)據(jù)集上的AUC 結(jié)果略低于Future Frame[29]。CUHK Avenue 數(shù)據(jù)集是在校園內(nèi)拍攝的,拍攝的背景光線較差,目標(biāo)離攝像頭距離較遠(yuǎn),且從視頻幀中提取的幀差圖具有較多噪聲,對(duì)動(dòng)作特征提取產(chǎn)生了較大影響。S-Temporal dissociation[30]與本文方法相似,將視頻特征信息分離為空間和時(shí)間信息,采用RGB 幀差圖模擬光流的運(yùn)動(dòng)。S-Temporal dissociation[30]聯(lián)合聚類(lèi)判別與重構(gòu)判別,提出深度k-means 聚類(lèi)算法使得空間編碼器和運(yùn)動(dòng)編碼器提取的特征更緊湊,采用時(shí)空卷積自動(dòng)編碼器重構(gòu)視頻特征信息,異常行為相較于正常行為會(huì)導(dǎo)致較大的重構(gòu)誤差。而本文基于時(shí)間分段網(wǎng)絡(luò)的預(yù)測(cè)方法的AUC 值相對(duì)于S-Temporal dissociation[30]略低,原因是本文方法沒(méi)有充分利用外觀特征的分布信息。
本文方法在UCF-Crime 數(shù)據(jù)集上的異常事件檢測(cè)結(jié)果如圖4 所示,從中可以看出,本文異常事件檢測(cè)方法可以有效地判斷出視頻是否異常,并給出正常異常分?jǐn)?shù)。
圖4 異常事件檢測(cè)結(jié)果Fig.4 Abnormal event detection results
本次實(shí)驗(yàn)將研究卷積注意力機(jī)制、RGB 圖和RGB 幀差圖的組合輸入對(duì)算法性能的影響,結(jié)合不同組件在UCF-Crime 數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果如表3 所示。從表3 可以看出,利用單個(gè)RGB 圖提取運(yùn)動(dòng)特征存在局限性,結(jié)合RGB 幀差圖可以提取更多的運(yùn)動(dòng)特征信息。另外,本文添加的時(shí)空卷積注意力模塊可以更好地分配注意力權(quán)重,提高異常檢測(cè)性能。當(dāng)TSN(RGB 流)引入時(shí)空卷積注意力模塊時(shí),可以提高AUC 值4.9 個(gè)百分點(diǎn),將RGB 幀差圖與RGB 圖相結(jié)合,AUC 值進(jìn)一步提高1.7 個(gè)百分點(diǎn)。
表3 UCF-Crime 數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果Table 3 Ablation experimental results on UCF-Crime dataset %
為了更深入地理解卷積注意力模塊的影響,本文對(duì)卷積注意力模塊的特征圖進(jìn)行可視化,為了進(jìn)行比較,本次實(shí)驗(yàn)結(jié)果還顯示了輸入幀和殘差網(wǎng)絡(luò)輸出幀的特征圖。圖5 所示為UCF-Crime 數(shù)據(jù)集上示例幀的熱力圖(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版),第一行是輸入的視頻幀,第二行顯示空間卷積網(wǎng)絡(luò)輸出幀特征的可視化圖,第三行顯示空間卷積網(wǎng)絡(luò)加上注意力機(jī)制加權(quán)后特征的可視化圖,較高的注意力權(quán)重區(qū)域顯示更深的紅色,而注意力權(quán)重較低的區(qū)域更接近藍(lán)色。
圖5 特征的可視化效果Fig.5 Visualization of features
本文提出一種基于改進(jìn)型時(shí)間分段網(wǎng)絡(luò)的弱監(jiān)督視頻異常檢測(cè)方法,該方法以殘差網(wǎng)絡(luò)作為主干網(wǎng)絡(luò),充分學(xué)習(xí)時(shí)間特征的規(guī)律性。為了提取視頻中的關(guān)鍵運(yùn)動(dòng)信息,將RGB 幀差圖和RGB 圖相融合作為網(wǎng)絡(luò)輸入。為了解決視頻異常檢測(cè)中正負(fù)樣本比例不平衡的問(wèn)題,引入焦點(diǎn)損失函數(shù)降低訓(xùn)練中大量簡(jiǎn)單正常樣本的權(quán)重,使得模型更專(zhuān)注于難分類(lèi)的樣本。另外,引入卷積注意力模塊,該模塊沿著通道和空間2 個(gè)不同的維度學(xué)習(xí)注意力圖,使得模型將更多的注意力分配到異常行為發(fā)生的區(qū)域。在UCF-Crime 和CUHK Avenue 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該方法的有效性。本文對(duì)從視頻中提取的空間和時(shí)間特征進(jìn)行優(yōu)化,但未充分提取到視頻樣本中的空間特征數(shù)據(jù),而且網(wǎng)絡(luò)容易受到背景噪聲的影響,解決上述問(wèn)題從而提高網(wǎng)絡(luò)異常行為檢測(cè)的準(zhǔn)確性,將是下一步的研究方向。