周彤彤,彭月平,鄭 璐,蔣镕圻
(中國人民武裝警察部隊工程大學(xué),陜西 西安 710086)
近年來,隨著計算機(jī)視覺領(lǐng)域的發(fā)展,人工智能、模型識別、圖像處理及深度學(xué)習(xí)工具等理論的創(chuàng)新與完善,基于視頻的人群異常行為分析成為計算機(jī)視覺領(lǐng)域中備受關(guān)注的研究方向,主要運(yùn)用于智能視頻監(jiān)控、人群流量管理、異常行為分析與區(qū)域定位、公共安防與預(yù)警等。以監(jiān)控視頻中人群的行為分析和檢測為研究目的,對輸入序列圖像中的運(yùn)動目標(biāo)進(jìn)行特征提取、建模、識別與檢測。公共場景中較為常見的群體異常行為有:快速移動、擁擠碰撞、四散、聚集、推搡等。本文從目標(biāo)檢測、特征提取與建模、異常行為識別與檢測、檢測數(shù)據(jù)集四個角度出發(fā),詳細(xì)介紹了人群異常行為分析的整個流程及相關(guān)算法優(yōu)缺點,并對未來面臨挑戰(zhàn)及發(fā)展趨勢進(jìn)行展望。
質(zhì)為分析連續(xù)視頻幀在幀間執(zhí)行差分操作,操作前后圖像執(zhí)行閾值處理與比較,從而提取圖像中的運(yùn)動目標(biāo)。該算法容易實現(xiàn),計算量小,可快速檢測出運(yùn)動目標(biāo)。但檢測效果易受視頻幀率影響,魯棒性差,通常與其他算法共同使用。背景減除法將當(dāng)前幀與事先準(zhǔn)備好的背景圖像幀序列執(zhí)行差分操作以檢測運(yùn)動目標(biāo)。該方法簡單有效,獲得的運(yùn)動目標(biāo)準(zhǔn)確度高,適用于背景已知的情況下,實際場景中背景圖像隨時間推移,則易受到外界因素干擾,影響目標(biāo)檢測效果。
運(yùn)動目標(biāo)檢測是指研究連續(xù)的視頻幀序列,將變化區(qū)域從背景中提取出來,該步驟對于后續(xù)的目標(biāo)特征提取至關(guān)重要。近年來,國內(nèi)外研究人員對目標(biāo)檢測算法已經(jīng)進(jìn)行了大量研究。其中,比較經(jīng)典的算法有光流法[1]、幀間差分法[2]與背景減除法[3]。
光流法通過逐像素計算兩個連續(xù)圖像幀之間的瞬時運(yùn)動而實現(xiàn),光流是由目標(biāo)與觀察者之間的運(yùn)動產(chǎn)生,通過分析當(dāng)前空間亮度模式下物體的空間速度與變化率(即離散度),可實現(xiàn)對運(yùn)動區(qū)域目標(biāo)的檢測。最經(jīng)典的光流提取方法包括HS光流法與LK光流法。該算法對光照、圖像質(zhì)量等因素的普適性較強(qiáng),絕大多數(shù)情況下能夠較準(zhǔn)確地提取出場景中的瞬時運(yùn)動信息,被廣泛應(yīng)用于人群目標(biāo)檢測中。幀間差分法的實
特征提取是指提取目標(biāo)關(guān)鍵信息以表征行為的過程,精確區(qū)分正、異常行為,將直接影響后續(xù)人群異常行為識別與檢測的效率。傳統(tǒng)方法包括:利用梯度方向直方圖(HOG)特征表征靜態(tài)圖像中的人體形狀和輪廓信息,但該方法只局限于靜態(tài)圖像,無法滿足實時場景下的運(yùn)動目標(biāo)特征提??;軌跡用于描述運(yùn)動目標(biāo)軌跡,但手工制作的特征無法表征較復(fù)雜的行為,且特征泛化能力較弱。近年來,研究學(xué)者不斷對特征提取算法進(jìn)行研究與創(chuàng)新,本節(jié)將主流方法總結(jié)如下。
光流法利用視覺特征進(jìn)行特征提取,在描述實時場景中的群體流動規(guī)律取得了較好的效果。傳統(tǒng)光流法,由于實時場景變化,人群結(jié)構(gòu)不穩(wěn)定的問題,在描述時間相關(guān)性以及描述運(yùn)動流的時間與空間屬性時表現(xiàn)不佳。
社會力模型[4]描述了由于個體之間的交互,隨機(jī)選擇的交互作用力的時空域信息被用于對正常的群體行為進(jìn)行建模,提取存在異常行為的圖像幀,并對異常行為區(qū)域進(jìn)行定位。該模型被廣泛應(yīng)用于提取運(yùn)動特征,或結(jié)合詞袋等統(tǒng)計學(xué)模型用于對視頻中異常幀的檢測[5]。
基于混沌不變量的特征提取方法為密集軌跡集可用一條軌跡來表征,在混沌不變量的特征中,不同區(qū)域的代表性軌跡表示不同的子目標(biāo)[6]。該方法有效的軌跡模擬復(fù)雜的人群運(yùn)動,引入混沌動力學(xué)抽取混沌不變量特征來表征復(fù)雜的人群運(yùn)動,檢測人群異常行為。
基于深度學(xué)習(xí)的特征提取方法是利用深度神經(jīng)網(wǎng)絡(luò)直接從圖像中學(xué)習(xí)深度特征,在使用時需設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)并通過訓(xùn)練和學(xué)習(xí)獲得目標(biāo)特征參數(shù)。相比于人工提取特征,深度神經(jīng)網(wǎng)絡(luò)提取特征的方法對于實時場景中的光線變化、遮擋等問題具有更好的普適性。常用的深度神經(jīng)網(wǎng)絡(luò)包括卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)等,已成為近年來的研究熱點。
檢測異常行為檢測方法僅將行為分為正常和異常兩個類別,從大量的視頻數(shù)據(jù)中學(xué)習(xí)經(jīng)驗,實現(xiàn)像素級、幀級或視頻級的異常行為判別。針對不同場景,基于不同數(shù)據(jù)形式,分別為基于視覺技術(shù)與基于物理模型兩種方法。其中,視覺分析領(lǐng)域應(yīng)用隱馬爾可夫模型、動態(tài)紋理、詞袋和稀疏表示等模型進(jìn)行檢測,物理模型中,應(yīng)用社會力、群體能量、場景結(jié)構(gòu)力等模型進(jìn)行檢測。
隱馬爾可夫模型作為一種統(tǒng)計分析模型,通過可觀察特征的參數(shù)確定該過程的隱含參數(shù)進(jìn)行識別,該模型可捕捉學(xué)習(xí)變化光流,處理多種人群行為類型,對各種場景中的局部時空域運(yùn)動行為進(jìn)行建模,最大限度地提高檢測率,但該系統(tǒng)的泛化能力較差,對于不同的場景則需要重新分類及訓(xùn)練模型以進(jìn)行人群異常行為的識別與檢測。
動態(tài)紋理是一種視頻的時空域生成模型,通過構(gòu)建一個像素級的背景模型或人群行為模板,將視頻序列的靜態(tài)圖像特征經(jīng)過線性動態(tài)系統(tǒng)表征,并展現(xiàn)其時空域的穩(wěn)定屬性。該模型可基于多變量馬爾可夫模型實現(xiàn)動態(tài)紋理分類[8],通過兩種模型結(jié)合提高異常行為檢測的準(zhǔn)確率。
BoW模型的本質(zhì)是一種統(tǒng)計直方圖,該模型使用局部時空域視頻數(shù)據(jù)塊進(jìn)行分析處理。通過建立像素級別的背景模型和行為模板以提取局部低級別視覺特征,例如運(yùn)動和紋理等信息?;谠撃P偷脑~袋法可將作用力映射為統(tǒng)一度量的活動烈度[7],對于烈度值超過警戒值的異常行為進(jìn)行檢測和定位。
稀疏表示模型從信號重建的角度建立,將圖像本身視為稀疏信號,用一組過完備基將輸入的線性信號獲得近似于原始圖像信號的優(yōu)化信號,稀疏表達(dá)模型使用稀疏重建,根據(jù)重構(gòu)誤差判斷人群行為是否異常。
社會力模型描述了由于個體之間的相互影響而形成的群體行為。通過網(wǎng)格狀采樣粒子來進(jìn)行計算,根據(jù)交互作用力對發(fā)生異常的區(qū)域進(jìn)行定位,文獻(xiàn)[9]利用社會力模型預(yù)測行人的運(yùn)動狀態(tài),結(jié)合分段顏色直方圖信息提出一種行人模型來識別人群異常行為。
場景結(jié)構(gòu)力模型是指目標(biāo)在特定的場景下移動時受到一個局部的或是全局的作用力,可用表示該場景布局和人群中某些個體行為的函數(shù)來定義。訓(xùn)練樣本集合中的樣本代表的是正常的群體活動,從而造成了測試樣本集合中的異常樣本的重構(gòu)誤差在原來的基礎(chǔ)上進(jìn)一步增大,提高了群體異常行為檢測的準(zhǔn)確率。
群體能量模型基于提取到的特征,用動能或勢能等能量進(jìn)行表示,經(jīng)能量公式計算得到能量波動圖,對能量波動圖是否有超過平均閾值的能量極大點來判斷監(jiān)控中是否發(fā)生了異常事件。該模型能夠較好地標(biāo)示個體之間不同方向的逃散、定位運(yùn)動信息和交互信息。
隨著計算機(jī)視覺領(lǐng)域的不斷發(fā)展,研究者將深度學(xué)習(xí)算法融入人群異常行為識別與檢測。深度學(xué)習(xí)由于其出色的特征提取效果以及強(qiáng)大的數(shù)據(jù)擬合能力,達(dá)到了較高的檢測精度,成為近期的研究熱點,包括雙流神經(jīng)網(wǎng)絡(luò)、脈線流卷積神經(jīng)網(wǎng)絡(luò)、三維卷積神經(jīng)網(wǎng)絡(luò)與廣義回歸神經(jīng)網(wǎng)絡(luò)等。按照訓(xùn)練神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)類型及其標(biāo)簽類型可將基于深度學(xué)習(xí)的異常行為檢測分為有監(jiān)督、弱監(jiān)督以及無監(jiān)督3類。
有監(jiān)督方法即用詳細(xì)標(biāo)記的正異常行為樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),提取正常行為與異常行為之間更具區(qū)分性的特征。有監(jiān)督方法利用了充足的先驗信息進(jìn)行訓(xùn)練,該方法識別和檢測精度普遍較高,但它只能檢測預(yù)先設(shè)定好的場景下的異常行為,且人工標(biāo)注較為煩瑣而效率較低,對于未知的異常行為種類,則需重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)模型。
弱監(jiān)督方法僅給出訓(xùn)練樣本視頻級的正?;蛘弋惓?biāo)簽,在訓(xùn)練樣本階段只可確定有無異常事件,而不能確定異常事件的具體種類及時間區(qū)域,在測試階段則直接識別異常行為及定位異常區(qū)域。弱監(jiān)督訓(xùn)練數(shù)據(jù)集更加簡便,對異常行為檢測更易操作和泛化,大大提升檢測流程與效率。
無監(jiān)督方法無需任何標(biāo)簽信息,該方法通過大量學(xué)習(xí)正常行為的特征表示,將那些不符合正常特征分布的樣本檢測為異常,包括基于聚類判別、基于重構(gòu)判別和基于預(yù)測模型3種方法?;诰垲惻袆e的方法通過擬合正常樣本空間并對正常樣本進(jìn)行聚類,將遠(yuǎn)離正常聚類中心的樣本識別為異常?;谥貥?gòu)的方法僅在正常數(shù)據(jù)上學(xué)習(xí)模型,以重構(gòu)誤差作為異常檢測指標(biāo)。基于預(yù)測模型的方法通過對正常行為規(guī)律進(jìn)行分析并預(yù)測,而異常行為是不可預(yù)測的,通過預(yù)測誤差即可檢測異常行為。
異常行為識別與檢測需要獲得目標(biāo)異常行為發(fā)生的時空信息,通常從幀級和像素級兩個層次評價檢測效果。在幀級準(zhǔn)則中,當(dāng)某幀中的一個像素被檢測為異常,則判定該幀為異常幀,降低對異常區(qū)域定位的精確度。而像素級準(zhǔn)則考慮到空間定位精度,只有異常像素覆蓋了一定真實異常標(biāo)記時,才認(rèn)為出現(xiàn)異常。在異常檢測領(lǐng)域,ROC曲線通過對異常分?jǐn)?shù)或異常概率取不同閾值進(jìn)行繪制,由于該曲線不受正負(fù)樣本分布的影響,常被用于定性地評估和比較算法性能。其中,ROC曲線下的面積被定義為AUC,由一個0~1數(shù)值賦值,AUC值越大表明該模型檢測異常行為效果越好。為了比較算法的有效性,還有以下參數(shù)均可以從不同角度描述算法性能。精確度ACC=TP/N,其中,TP為被正確識別的樣本數(shù),N為樣本總數(shù)。真正率,即識別率TRP=TP/TP+F N;假正率,即誤檢率FPR=FP/FP+TN。其中,真正類TP定義為正確識別的異常事件,真負(fù)類TN為正確識別的正常事件,假正類FP為被誤檢測為異常事件的正常事件,假負(fù)類FN為被誤檢測為正常事件的異常事件。
盡管學(xué)術(shù)界對于異常行為檢測的研究上已取得一定進(jìn)展,但是由于異常檢測所要求的實時性、魯棒性以及高效性,人群異常行為檢測在應(yīng)用領(lǐng)域仍面臨挑戰(zhàn)。
(1)多信息融合技術(shù)在群體行為分析中的應(yīng)用。由于人群之間存在遮擋問題,綜合運(yùn)用除了音頻、電磁波、環(huán)境等多種特征進(jìn)行融合,發(fā)揮不同類型數(shù)據(jù)的優(yōu)勢,克服部分特征的局限,有助于更加綜合準(zhǔn)確地描述行為。
(2)基于深度學(xué)習(xí)方法的群體行為分析。在異常檢測領(lǐng)域,深度學(xué)習(xí)方法成為近幾年的學(xué)術(shù)研究熱點,但目前大部分的異常檢測算法基于閉集測試,即所有異常行為檢測模型都需被訓(xùn)練,無法進(jìn)行泛化能力更強(qiáng)的識別與檢測。因此,基于開集訓(xùn)練的算法將是新的研究方向。
(3)異常行為預(yù)測。對異常行為的識別與檢測多基于視頻提取圖像數(shù)據(jù)并對已發(fā)生事件進(jìn)行分析處理,如能在事件發(fā)生前實現(xiàn)對異常的預(yù)測并報警,將極大擴(kuò)展該技術(shù)的應(yīng)用領(lǐng)域,目前該方面還具有較大的研究空間。