周晴
摘要:姿態(tài)在行為識別與分析領(lǐng)域是一種具有良好語義性、高度結(jié)構(gòu)化且對光照及場景變化具有魯棒性的信息?;谌梭w骨架的動作識別方法由于能提取個體的關(guān)節(jié)點構(gòu)成人體的關(guān)節(jié)點形成的骨架圖,在近幾年逐漸成為了異常行為識別領(lǐng)域的重要研究方向之一。本文設(shè)計了一種基于手部姿態(tài)運動特征的暴力打斗行為檢HandPose-network姿態(tài)估計網(wǎng)絡(luò)模型,通過對手部運動情況建立運動模型,完成暴力行為檢測。本模型在目前最大暴力行為監(jiān)控視頻數(shù)據(jù)集RWF 2000和常用暴力行為檢測Hockey數(shù)據(jù)集進行了實驗,其準確率分別達到92.10%和97.80%,說明了該方法在暴力行為場景的有效性。
關(guān)鍵詞:異常行為;暴力行為;動作識別;姿態(tài)序列;軌跡聚類
1 引言
對于我國社會治安的防控體系當中,公共安全防范方面屬于其極為重要的一部分,影響著社會的穩(wěn)定與繁榮。商場、步行街道、火車站、辦事廳等人群密集的公共場所,一旦出現(xiàn)損害人民生命財產(chǎn)安全與社會穩(wěn)定的公共事件特別是打架斗毆這類群體暴力行為,將產(chǎn)生惡劣的社會影響。視頻監(jiān)控不僅可以強化公共區(qū)域(或場所)的監(jiān)管力量,而且可以對潛在犯罪者產(chǎn)生威懾作用,借助日趨成熟的計算機視覺技術(shù)實現(xiàn)智能化、自動化的視頻監(jiān)控與分析,對保障公共場所安全具有重要的意義。目前針對基于視頻的暴力打斗行為檢測問題,國內(nèi)外已有大量的學(xué)術(shù)研究成果,但普遍存在著算法模型可解釋性差、針對場景變化魯棒性差等缺點,難以應(yīng)用到實際場景。
針對暴力打斗行為檢測,主要有兩類方法:提取手工特征分類和端到端深度學(xué)習(xí)方法。這兩類方法容易受到雜亂背景以及目標表觀變化的干擾,使得模型難以遷移到其他場景下,局限于訓(xùn)練數(shù)據(jù)集所在的場景。同時由于暴力行為沒有一種簡單、固定的行為模式,并且通常涉及多個主體目標,通用異常行為檢測難以取得較好的效果。因此需要針對暴力打斗行為展開特定的研究。
本文研究了基于姿態(tài)運動特征的暴力打斗行為檢測算法,提出了手部危險區(qū)域位置特征和軌跡簇運動效率特征,并根據(jù)當前場景的情況對是否發(fā)生暴力行為做出判斷?;谧藨B(tài)的特征可以直觀地描述行人的動作狀態(tài),可以克服行人外貌、相機運動等對行為識別的干擾。
本文提出了一種基于手部危險區(qū)域位置特征以及聚類軌跡運動有效性特征的暴力行為檢測算法,并在RWF 2000和Hockey兩個常用數(shù)據(jù)集中進行了實驗結(jié)果的驗證和分析。
2 相關(guān)工作
公共場所中,暴力行為一般指有威脅性地行為動作,比如目標攻擊其他行人、目標蹲下放置危險物品等[1]。暴力行為的識別方法主要基于表觀特征和運動特征,通常在網(wǎng)格化后的圖像塊中[2],或者在視頻時空立方體中[3],或者在預(yù)先定義的識別區(qū)域[4]進行特征提取。但是,基于像素的特征是對噪聲敏感的高維非結(jié)構(gòu)化信號,一些無關(guān)的特征維度可能會掩蓋蘊含重要信息的特征維度[5]。此外,高維特征中存在的冗余信息增加了模型區(qū)分信號和噪聲的負擔。
人體關(guān)節(jié)點可以直觀地描述行人的動作狀態(tài),相比于圖像和光流信息,關(guān)節(jié)點信息可以克服行人外貌、相機運動等對行為識別的干擾。因此可以利用人體姿態(tài)提取人類行為的重要信息。Li[6]等為了處理人體骨架的 3D 坐標值信息,提出了一種平移尺度不變的映射方法,該方法在關(guān)節(jié)點信息在比例不發(fā)生變化的同時將范圍映射到 0~255 的區(qū)間內(nèi),再訓(xùn)練 CNN 網(wǎng)絡(luò)提取其中存在的空間、運動信息。劉凱[7]使用了基于非負矩陣分解和隱馬爾科夫模型的方法,取得了更快的識別速率,以便在實際場景中應(yīng)用。
雖然姿態(tài)信息在動作識別領(lǐng)域已經(jīng)受到重視,但在暴力行為檢測領(lǐng)域,目前研究人員較少利用姿態(tài)信息研究魯棒性更好的檢測算法。使用傳統(tǒng)手工設(shè)計的特征以及深度特征進行暴力行為檢測的方法,面對場景變化魯棒性差,對噪聲敏感,同時方法模型不具有良好的可解釋性。因此針對實際場景,如何結(jié)合對光照變化及場景變化魯棒性更好的姿態(tài)信息取得更好的暴力行為檢測效果值得深入研究。
3 HandPose-network模型及實現(xiàn)
針對打架斗毆這類暴力行為,有效獲取及利用人體手部姿態(tài)信息是進行準確檢測暴力行為的保障?;诖?,本文設(shè)計了一種基于手部姿態(tài)運動特征的暴力打斗行為檢測方法HandtPose-network,模型整體實現(xiàn)流程如圖1,本文沿用Alphapose[8]算法提取人體姿態(tài)特征,先將監(jiān)控視頻轉(zhuǎn)化為 t 個關(guān)鍵幀,對每一幀使用yolov3網(wǎng)絡(luò)模型提取特征。然后檢測圖像中的人體骨架關(guān)節(jié)點,得到了手部關(guān)鍵點集合后,根據(jù)手部危險區(qū)域位置特征,采用基于時空密度聚類的空間軌跡提取的方法獲取每個人在視頻中的手部運動軌跡,將提取的動作特征輸入暴力打斗行為檢測模塊進行行為判定,旨在針對實際場景中的復(fù)雜打斗行為進行準確地檢測。
3.1Alphapose采用的算法原理
Alphapose可以明確的分為兩部分,即目標檢測階段和人體姿態(tài)提議階段。首先通過目標檢測YOLOv3[9]網(wǎng)絡(luò),直接將圖片輸入到網(wǎng)絡(luò)中利用 CNN 來提取整個圖片的特征,最后再對整張圖片進行回歸操作來檢測目標。YOLOv3 使用 Darknet-53 作為主干網(wǎng)絡(luò),并且借鑒了金字塔特征圖的思想,使用 FPN 對輸出進行預(yù)測,Residual 指帶殘差結(jié)構(gòu)的卷積模塊。
通過YOLOv3網(wǎng)絡(luò)從原圖片中根據(jù)人的提議框裁剪出人的區(qū)域后依次將單人圖片輸入?yún)^(qū)域多人姿態(tài)檢測(Regionalmulti-person pose estimation,PMPE)框架中,檢測出人體姿態(tài),再通過 p-Pose NMS 比較姿態(tài)相似性,去除重復(fù)目標。
3.2手部特征提取
3.2.1手部危險區(qū)域位置特征
暴力打斗行為的具體行為模式不易定義,在現(xiàn)實生活中以多種形式呈現(xiàn),具體包括推搡、纏斗等多種情況。打架斗毆這類暴力行為,四肢的運動通常具有更強的語義性,能更準確地表征暴力行為,打架行為手部的運動情況與正常行為有較大的區(qū)別。因此本文從手部運動模式進行建模分析,由此區(qū)分暴力行為與非暴力行為。
3.2.2手部危險動作區(qū)域分析
在大多數(shù)暴力行為中,手部動作發(fā)揮了至關(guān)重要的作用。建立手部的運動模型,有助于理解個體的行為狀態(tài)。因此本文從手部的運動模式著手,建立相應(yīng)的運動特征。首先將人體從頭至腳等比例劃分為k部分。k通常設(shè)置為10,編號分別為0~9。個體處于正常站立狀態(tài),手部位置通常處于3~5號區(qū)域位置。進一步結(jié)合現(xiàn)實生活中人體的實際暴力行為的相關(guān)動作,當手部位置落入到3~5號區(qū)域是安全動作的手部位置,通常難以對他人產(chǎn)生威脅性的姿勢;當手部位置落入到0~2號區(qū)域是危險動作手部位置,該位置的手部姿態(tài)將滿足大部分可產(chǎn)生傷害性動作姿勢的必要條件。
首先將關(guān)節(jié)坐標點進行歸一化處理,計算公式(1)如下:
其中,w,h為視頻幀目標檢測框的長寬。
每一個區(qū)域的高度hunit由所有關(guān)節(jié)點縱坐標的最大值和最小值決定。ymax表示關(guān)節(jié)點中最大的縱坐標值,ymin表示所有關(guān)節(jié)點中最小的縱坐標值。為第i個區(qū)域,左閉右開區(qū)間。這一過程表示如下式:
隨后統(tǒng)計視頻幀中所有個體的手部姿態(tài)位置,即可能產(chǎn)生危險動作的區(qū)域計算得到一個比值 R,表征了當前所有個體動作的危險程度。
3.2.3 時空密度聚類軌跡運動有效性特征
手部的運動軌跡有豐富的肢體信息,在人類行為識別任務(wù)中起到主要作用。因此如何有效利用手部軌跡中蘊含的豐富信息,將決定暴力行為的檢測效果。
目標處于正常行走狀態(tài),手部隨著身體的移動,近似呈現(xiàn)一條直線;而發(fā)生打斗時,個體組成的群體的手部軌跡將呈現(xiàn)團狀。這兩種情況的手部軌跡有明顯的區(qū)別。在觀察到該現(xiàn)象的基礎(chǔ)上,綜合考慮手部關(guān)節(jié)點的運動的時空信息,提出基于時空密度聚類軌跡運動有效性特征。首先將連續(xù)若干幀個體的手部位置堆疊為關(guān)節(jié)點圖譜,根據(jù)時空密度將位置點分為若干軌跡簇,軌跡簇表示了個體手部運動的軌跡。
3.2.4 基于時空密度聚類的空間軌跡提取
為了得到相關(guān)性較高的手部軌跡數(shù)據(jù),本文提出了基于時空域密度聚類的手部軌跡提取方法。DBSCAN (Density-Based Spatial Clustering of Applications with Noise) 是一種經(jīng)典的基于密度的聚類算法,一般假定類別可以通過樣本分布的緊密程度決定,同一類別的樣本之間的緊密相連的。手部軌跡空間點很符合這類特點,即同一個體的手部運動軌跡在時空上是連續(xù)的,兩點之間距離較近,不同個體正常行走會避免碰撞,短時間內(nèi)不會出現(xiàn)重疊現(xiàn)象。
利用場景中個體的平均包圍框?qū)垲愃惴ǖ念I(lǐng)域進行自適應(yīng)估計。首先通過移動加權(quán)平均的方式,計算當前幀的平均包圍框大小。使用來表示個體的包圍框,當前幀的平均包圍框大小計算如下式:
n表示當前幀個體的數(shù)量,同時結(jié)合之前記錄的平均包圍框的大小,使用加權(quán)平均的方式,避免由于目標檢測器出現(xiàn)的誤差,導(dǎo)致包圍框大小出現(xiàn)抖動,加權(quán)平均的包圍框大小由下式計算而得:
t表示當前時刻的個體平均包圍框的大小,對應(yīng)表示為。使用與關(guān)節(jié)點坐標同樣的方式對t做尺度歸一化后,得到歸一化后的包圍框Rn=(wn,hn)。結(jié)合手部連續(xù)運動范圍相對于個體包圍框的比例,擬合得到空間鄰域閾值的大小εs,具體計算入下式:
帶有時間信息的關(guān)節(jié)點由向量p=(x,y,t)表示,其中x,y分別是空間上的坐標值,t為關(guān)節(jié)點所在的幀數(shù)。將時間信息融合到關(guān)節(jié)點的表示向量中,充分利用時間域中的信息,獲取在時間和空間上關(guān)聯(lián)性更緊密的點,構(gòu)成相應(yīng)軌跡。
時空距離由空間坐標差的二范數(shù)進行表示,見下式:
時域上的距離將由點所屬的幀差dists的一范數(shù)進行計算。
時空鄰域是將空間鄰域和時間鄰域相結(jié)合確定的時空范圍,先從空間和時間的物理意義入手,分別確定各自的鄰域范圍,再將二者有機結(jié)合,這樣能夠有效分離前后分別出現(xiàn)在同一位置的兩條無關(guān)軌跡。
空間鄰域與時間鄰域共同構(gòu)建時空鄰域之后,基于時空密度的DBSCAN算法從關(guān)節(jié)點集中的任一點出發(fā),計算與其他所有點之間的時空距離,統(tǒng)計滿足時空閾值的關(guān)節(jié)點個數(shù),若數(shù)目大于給定的最小樣本數(shù)時,該樣本即為核心對象,形成一個聚類,鄰域內(nèi)其他直接密度可達的點重復(fù)進行此步驟,得到最終的聚類結(jié)果。
3.3 暴力打斗行為檢測
在正常情況下,普通人手部行為包括以下情況:提東西、玩手機、牽手、或自然垂手等,個體手部軌跡會跟隨移動路徑進行改變,可能伴隨小幅度的擺動。在發(fā)生暴力行為的場景中,個體為了完成各種暴力行為,手部會發(fā)生劇烈地揮動。同時由于暴力行為通常有多個參與個體,在一定的時空中,手部關(guān)節(jié)點位置高度隨機分布,與正常行走狀態(tài)下的手部小幅度揮動的軌跡完全不同。為了量化手部運動劇烈程度,引入了手部軌跡運動有效性特征。
對聚類后的每一段手部軌跡分別計算移動效率,使用經(jīng)驗性閾值進行異常判定。
在某一時刻t,通過時空聚類獲得了m條軌跡,表示由空間點集構(gòu)成的一條軌跡。針對空間簇內(nèi)的點集,兩兩計算成對距離,每個點選擇其最小成對距離di作為運動距離,計算公式如下:
將所有點的最小運動距離進行累加,得到整個空間簇點集的運動距離:
運動距離可以有效軌跡空間簇軌跡的運動路徑的長度。使用空間軌跡簇中兩點最大距離dist作為整段軌跡的有效距離:
對每個軌跡簇使用其點數(shù)作為權(quán)重,加權(quán)求得當前時刻的軌跡簇運動有效性:
表示當前軌跡簇中點的數(shù)量。當前幀整體運動有效性低于某一閾值時,判定當前幀發(fā)生暴力打斗行為。
4 實驗結(jié)果及分析
4.1暴力打斗行為檢測數(shù)據(jù)集
本文在RWF 2000[10]數(shù)據(jù)集和Hockey[11]數(shù)據(jù)集上測試HandPose-network的性能。RWF2000數(shù)據(jù)集是從YouTube上收集的一個新的真實世界戰(zhàn)斗數(shù)據(jù)集,包含2000個由監(jiān)控攝像頭在真實場景中捕獲的視頻,一半視頻屬于暴力行為視頻,另一半視頻屬于正常行為視頻。Hockey數(shù)據(jù)集視頻畫面取自于美國曲棍球比賽,該數(shù)據(jù)集由500段暴力行為視頻和500段正常行為視頻組成。兩個暴力檢測公用數(shù)據(jù)集中的視頻環(huán)境各異,其中發(fā)生的打斗行為各式各樣,這給暴力行為檢測帶來一定的挑戰(zhàn)。
4.2評價方法
檢測圖像中暴力打斗行為個體是本文算法的研究目的,因此以暴力行為個體作為正樣本,以非暴力行為個體作為負樣本,將圖像中的每一個人類個體作為一個樣本,本文采用了精確率(Precision)作為評價指標。
其中,TP為真陽性樣本數(shù)(被正確識別為暴力行為的樣本數(shù)),F(xiàn)P為假陽性樣本數(shù)(被錯誤識別為暴力行為的樣本數(shù))。
4.3實驗細節(jié)
本文實驗環(huán)境如下:Intel(R) Core(TM)i9 CPU處理器,32.00GB安裝內(nèi)存,Windows10 64位操作系統(tǒng),顯卡為NVIDIA GTX 1080Ti。本文先對RWF2000數(shù)據(jù)集和Hockey數(shù)據(jù)集中所有視頻進行了人工篩選,將模糊不清、界限不明確的視頻刪除。
4.4實驗結(jié)果分析
首先,在目前最大的暴力行為監(jiān)控視頻數(shù)據(jù)集RWF 2000上與當前最有效的算法進行準確率的比較(表1)。
為了比較算法的高效性,表2列舉了本文提出的算法與其他算法在Hockey數(shù)據(jù)集上的識別精度。
4.軌跡聚類可視化
為了進一步驗證手部姿勢運動特征對暴力打斗行為檢測的有效性,對基于時空密度的軌跡聚類結(jié)果進行解釋說明,展示了部分發(fā)生暴力打斗行為的異常場景軌跡聚類結(jié)果(如圖2),不同類別的簇使用不同的顏色進行了標注。從異常場景中的聚類結(jié)果可以發(fā)現(xiàn),場景中存在個體的打斗行為時,個體手部軌跡在空間中存在高度重疊,呈現(xiàn)混亂的團狀,與正常場景中手部隨身體移動呈現(xiàn)的線狀明顯不同,具有比較易于區(qū)分的特征。
5.結(jié)束語
異常行為檢測技術(shù),在公共安全領(lǐng)域具有廣泛的應(yīng)用前景。然而人類行為模式復(fù)雜多樣,真實場景中存在大量干擾信息,現(xiàn)有方法在實際應(yīng)用場景取得較好的檢測效果。本文針對實際場景中的暴力打斗行為,研究一種基于手部姿態(tài)的運動模型的暴力行為檢測方法,旨在進行準確地檢測判斷。
本文圍繞暴力行為檢測這一課題展開了研究工作,本文的算法針對手部活動劇烈的一些暴力行為,這當然不足以描述現(xiàn)實生活中可能發(fā)生的各種打斗行為。在面對目標倒地、腿部 踢踹、持有槍支等更多種類的暴力行為時,本文算法難以進行有效檢測。因此如何進一步拓展可識別的暴力行為種類,將是今后研究的一個方向。
參考文獻
[1]Sodemann A A,Ross M P,Borghetti B J.A review of anomaly detection in automated surveillance[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C (Applications and Reviews),2012,42(6):1257-1272
[2]Edison A,Jiji C V.Optical acceleration for motion description in videos[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2017:39-47.
[3]胡學(xué)敏,余進,鄧重陽,等.基于時空立方體的人群異常行為檢測與定位[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2019,44(10):1530-1537.
[4]Co?ar S,Donatiello G,Bogorny V,et al.Toward abnormal trajectory and event detection in video surveillance[J].IEEE Transactions on Circuits and Systems for Video Technology,2016,27(3):683-695.
[5][Kim T S,Reiter A.Interpretable 3d human action analysis with temporal convolutional networks[C].2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).IEEE,2017:1623-1631.
[6]Li C,Zhong Q,Xie D,et al.Skeleton-based action recognition with convolutional neural networks[C].2017 IEEE International Conference on Multimedia & Expo Workshops (ICMEW).IEEE,2017:597-600.
[7]劉凱.高校校園視頻監(jiān)控系統(tǒng)中異常行為 檢測的設(shè)計與實現(xiàn)[D].西安科技大學(xué),2019.
[8]Fang H S,Xie S,Tai Y W,et al.Rmpe:Regional multi-person poses estimation[C]//Proceedings of the IEEE International Conference on Computer Vision.2017:2334-2343.
[9]REDMON J,F(xiàn)ARHADI A.Yolov3:anincremental improvement[J]. arXiv:1804.02767,2018.
[10]Cheng M,Cai K,Li M.RWF-2000:an open large scale video database for violence detection[J].arXiv preprint arXiv:1911.05913,2019.
[11]Nievas E B,Suarez O D,García G B,et al.Violence Detection in Video Using Computer Vision Techniques[C]// International Conference on Computer Analysis of Images and Patterns.Springer-Verlag,2011:332-339.
[12]Sudhakaran S,Lanz O.Learning to detect violent videos using convolutional long short-term memory[C]//2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance (AVSS).IEEE,2017:1-6.
[12]Tran D,Bourdev L,F(xiàn)ergus R,et al.Learning spatiotemporal features with 3d convolutional networks[C]//Proceedings of the IEEE international conference on computer vision.2015:4489-4497.
[13]Carreira J,Zisserman A.Quo vadis,action recognition a new model and the kinetics dataset[C]//proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2017:6299-6308.
[14]Hassner T,ItcherY,Kliper-Gross O.Violent flows:Real-time detection of violent crowd behavior[C]// 2012 IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPR Workshops).IEEE Computer Society,2012.
[15]Nievas E B,Suarez O D,García G B,et al.Violence Detection in Video Using Computer Vision Techniques[C]//International Conference on Computer Analysis of Images and Patterns.Springer-Verlag,2011:332-339.
[16]Serrano I,Deniz O,Bueno G,et al.Spatio-temporal elastic cuboid trajectories for efficient fight recognition using Hough forests[J].Machine Vision and Applications,2017,29(6):207-217.
[17]丁春輝.基于深度學(xué)習(xí)的暴力檢測及人臉識別方法研究[D].中國科學(xué)技術(shù)大學(xué),2017.
[18]Zhang T,Jia W,He X,et al.Discriminative Dictionary Learning with Motion Weber Local Descriptor for Violence Detection[J].IEEE Transactions on Circuits & Systems for Video Technology,2017(99):1-1.