婁 久 左德承 張 展 劉宏偉
(哈爾濱工業(yè)大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,黑龍江哈爾濱 150001)
暴力行為是以人身、財產(chǎn)為侵害目標(biāo),采取暴力手段,對被害人的身心健康和生命財產(chǎn)安全造成極大的損害,直接危及人的生命、健康與自由的一種行為[1]。隨著信息技術(shù)的發(fā)展,通過視頻監(jiān)控來識別暴力行為已經(jīng)成為公共安全防護(hù)的研究重點(diǎn)。
暴力行為是一種攻擊行為,該種行為在時間上具有突發(fā)性、行為動作上表現(xiàn)出急速猛烈和局部重復(fù)的特點(diǎn),即一般由多個單獨(dú)的不同時間尺度的運(yùn)動模式序列組成,如整體持續(xù)糾纏、局部重復(fù)性踢打等。由于暴力行為具有持續(xù)性和局部重復(fù)的特點(diǎn),因此,研究發(fā)現(xiàn)能夠表征時空變化的運(yùn)動特征是暴力行為識別的關(guān)鍵[2]。從時空粒度上來看,目前可以得到的最小粒度的運(yùn)動特征是光流特征[3],光流特征反應(yīng)了微小時間內(nèi)物體對應(yīng)的圖像像素的運(yùn)動方向和速度,這里的微小時間是視頻的幀長。為提高光流特征對行為的表述能力,學(xué)者們嘗試在時空維度上進(jìn)行粒度擴(kuò)展,如在空間上將局部相似的像素聚合,構(gòu)建基于光流的局部描述子特征,代表的有光流直方圖(Histogram of Optical Flow Orientation,HOFO)[4-5]、混合動態(tài)紋理特征(Mixture of Dynamic Texture,MDT)[6]、運(yùn)動邊界直方圖MBH(Motion Boundary Histograms)特征[7]、加速度特征[8]等;Cong 等人將多尺度概念引入到光流直方圖(Multi-scale Histogram of Optical Flow,MHOF)[9],從不同空間粒度下研究物體的運(yùn)動。在時間粒度上,主要利用連續(xù)光流進(jìn)行軌跡提取,其中最有代表性的是Wang 等人提出的改進(jìn)版的稠密軌跡提取算法(Improved Dense Trajectories,IDT)[10],該算法利用稠密軌跡提?。―ense Trajectories,DT)算法得到視頻序列中的軌跡,然后沿軌跡提取HOF、HOG 等特征,該方法是深度網(wǎng)絡(luò)技術(shù)興起前行為識別的主流方法。
隨著深度網(wǎng)絡(luò)技術(shù)的發(fā)展,可以利用深度網(wǎng)絡(luò)自主學(xué)習(xí)表征行為的運(yùn)動特征[11],Simonyan 等人提出了基于雙流卷積神經(jīng)網(wǎng)絡(luò)的行為識別算法[12],該網(wǎng)絡(luò)在空間流卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上增加了時間流卷積神經(jīng)網(wǎng)絡(luò),即將連續(xù)幾幀光流圖像堆疊在一起形成的圖像塊作為輸入,利用多層疊加卷積網(wǎng)絡(luò)(Convolutional neural network,CNN)提取視頻中物體的運(yùn)動信息。該模型的提出首次打破了IDT算法在行為識別領(lǐng)域的領(lǐng)先地位。此后,在雙流網(wǎng)的基礎(chǔ)上,又出現(xiàn)了時序分割網(wǎng)絡(luò)(Temporal Segment Network,TSN)[13]、時序推理網(wǎng)絡(luò)(the Temporal Rela?tion Network,TRN)[14]等。Tran 等人提出了的三維卷積神經(jīng)網(wǎng)絡(luò)(Convolutional 3 Dimension,C3D)[15],該網(wǎng)絡(luò)在視頻塊或者堆疊后的視頻幀形成的立方體中進(jìn)行卷積操作。Quo Vadis 等人在3D 網(wǎng)和雙流網(wǎng)的基礎(chǔ)上又發(fā)展出I3D(Inflated 3D ConvNet)[16],即雙流膨脹3D 卷積網(wǎng)絡(luò)模型,該模型將原來雙流網(wǎng)的2D 卷積核擴(kuò)展到3D,從而實(shí)現(xiàn)更深層的運(yùn)動特征提取。基于長短時記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)的ConvLSTM 通常被串接在卷積模塊后,主要基于卷積模塊輸出來捕捉輸入視頻之間的長距離依賴關(guān)系[17]。然而無論是雙流網(wǎng)還是C3D、I3D,或者CNN+LSTM,這些方法都是通過增加網(wǎng)絡(luò)層數(shù)來獲取時間粒度較大運(yùn)動特征。網(wǎng)絡(luò)層數(shù)越深,模型的參數(shù)越多,很可能會導(dǎo)致過擬合。同時,在利用深層網(wǎng)絡(luò)獲得較大時間粒度的特征時,受到卷積特性的影響,小粒度時間范圍內(nèi)的運(yùn)動特征會被平滑掉。為此,我們希望能夠提取一種多級的運(yùn)動特征,可以更全面的表征暴力行為特點(diǎn),提高暴力行為識別結(jié)果。
拉格朗日場起源于動力學(xué)系統(tǒng)理論,利用非穩(wěn)定場來描述非線性動力學(xué)系統(tǒng)中流體的變化[18],能夠很好地描述粒子運(yùn)動規(guī)律。由于宏觀世界物體運(yùn)動都遵循物理規(guī)則,因此嘗試將拉格朗日場引入計算機(jī)視覺分析中,Alexander Kuhn 等人提出了基于拉格朗日場的視頻框架,證明拉格朗日場可以很好的表征非局部的、長期的運(yùn)動信息[19];Haller等人提出的基于拉格朗日場的有限時間Lyapunov 指數(shù)(Finite Time Lyapunov Exponents,F(xiàn)TLE)來度量流場中相鄰粒子的運(yùn)動軌跡[20],根據(jù)相似軌跡進(jìn)行運(yùn)動分割,F(xiàn)TLE 已經(jīng)被Ali 等人成功地用于描述和分割人群視頻片段[21];Tobias Senst 等人在前人研究的基礎(chǔ)上構(gòu)建了一種基于拉格朗日方向場的運(yùn)動特征來進(jìn)行暴力行為識別,該特征主要是基于方向場變化軌跡計算得到,后期利用擴(kuò)展詞包(extend bag-ofwords)融合分類方法,在Hockey 等暴力識別公開數(shù)據(jù)集上取得很好的識別結(jié)果[22]。通過以上分析可以看出,以往研究側(cè)重于基于拉格朗日場捕捉到的粒子軌跡來構(gòu)建長時運(yùn)動特征,但是對于暴力行為來說,暴力行為具有短時重復(fù)和時空非局部性,需要在不同時間尺度下對行為模式進(jìn)行表征,而目前缺乏相應(yīng)的研究。
綜上所述,目前缺乏一種能夠表征不同時間尺度下暴力行為運(yùn)動模式的暴力行為識別方法。為解決這一問題,本文提出了一種基于拉格朗日場的多級運(yùn)動特征暴力行為識別方法。
首先構(gòu)建了基于拉格朗日場(Opt-Lagrange Field)的Multilevel-motion 模塊,該模塊能夠?qū)⑤斎氲倪B續(xù)光流信息轉(zhuǎn)化成不同時間尺度下的多級運(yùn)動特征,利用該特征來表征不同時間尺度下暴力行為運(yùn)動模式。然后,采用雙流網(wǎng)模型作為分類模型,保留原始的RGB 空間特征輸入,將原來的光流特征替代為多級運(yùn)動特征,利用該方法在國際公開暴力識別數(shù)據(jù)庫上進(jìn)行了實(shí)驗,取得了很好的實(shí)驗結(jié)果,證明該方法能夠有效提升暴力識別結(jié)果。
論文第2節(jié)講述了基于拉格朗日場的多級運(yùn)動特征提取方法,在第3 節(jié)著重介紹了基于Opt-Lagrange Field 的多級特征暴力識別模型,實(shí)驗設(shè)置和結(jié)果分析在第4 節(jié),實(shí)驗數(shù)據(jù)本文采用了四個數(shù)據(jù)集,分別是Movies Fight、Hockey Fight、Crowd Vio?lence和RWF-2000,第5節(jié)給出結(jié)論。
拉格朗日場常用于描述非線性動力系統(tǒng)中的流體運(yùn)動,拉格朗日場揭示了系統(tǒng)隨時間演化的內(nèi)在運(yùn)動模式[18]。如果將視頻中待跟蹤物體看作質(zhì)點(diǎn),則目標(biāo)的初始位置坐標(biāo)作為參考點(diǎn),那么沿時間軸跟蹤這個質(zhì)點(diǎn),可以獲得其在任意時刻的位置,從而獲得高層次的運(yùn)動信息。
在拉格朗日場算法中,設(shè)被跟蹤的目標(biāo)集為Z=(z1,z2,......),則Z中的質(zhì)點(diǎn)zi隨時間變化的軌跡可以表示為:
公式(1)中,如果時間t固定,則得到不同質(zhì)點(diǎn)的位置分布;如果質(zhì)點(diǎn)z固定,則可以得到隨時間變化的質(zhì)點(diǎn)的運(yùn)動規(guī)律。通常稱z、t為拉格朗日變數(shù)。
在暴力行為識別過程中,需要獲得質(zhì)點(diǎn)的運(yùn)動規(guī)律,因此需要在時間軸t上追蹤質(zhì)點(diǎn)的位置,如圖1所示,圖中紅點(diǎn)為待追蹤的質(zhì)點(diǎn),可以在視頻流上對這個質(zhì)點(diǎn)進(jìn)行跟蹤,獲得一系列離散的點(diǎn),表示該質(zhì)點(diǎn)在不同時間的位置。
為獲得高層次的運(yùn)動信息,需利用拉格朗日場對圖1 中的離散點(diǎn)來計算時間尺度τ 的運(yùn)動軌跡,方法如下:
1)設(shè)質(zhì)點(diǎn)z在一張圖像上的位置為(x,y),如果知道質(zhì)點(diǎn)的運(yùn)動方向和速度,利用公式(2)就可以獲得質(zhì)點(diǎn)在時空維度中的運(yùn)動軌跡z(t)與初始位置z0之間的關(guān)系:
2)因為在拉格朗日光流場中,獲取軌跡是與時間尺度τ 相關(guān)的,所以在公式(2)的基礎(chǔ)上,添加參數(shù)τ,表示這個質(zhì)點(diǎn)在時間尺度τ上的軌跡,如公式(3)。
從上節(jié)敘述可知,利用拉格朗日場需要知道質(zhì)點(diǎn)的運(yùn)動方向和速度,在視頻分析中,可以通過計算相鄰圖像的光流場得到。光流場是指圖像中所有像素點(diǎn)構(gòu)成的一種二維(2D)瞬時速度場,其中的二維速度矢量是景物中可見點(diǎn)的三維速度矢量在成像表面的投影,所以光流中包含了被觀察物體的運(yùn)動信息。因此,本文基于光流構(gòu)建拉格朗日場(Optical flow-Lagrange field,簡稱Opt-lag field)。
光流計算的基本原理如下所述:假定I(x,y,t)是時刻t在圖像位置(x,y)的灰度值。u(x,y) 和v(x,y)是光流在位置(x,y)的x和y方向的速度分量。如果假設(shè)在時刻t+δt,在位置(x+δx,y+δy)的灰度值保持不變,那么如下等式成立:
其中,δx=uδt,δy=vδt,δt代表一個小的時間間隔。接下來,利用泰勒公式展開等式的左側(cè)如下:
這里e表示δx,δy和δt中的二階和高階項。消掉左側(cè)和右側(cè)的相同項,并忽略掉e值。對上式分別除δt并整理,有:
導(dǎo)數(shù)Ix,Iy,It可以計算圖像灰度差得來,通過引入光流的全局平滑約束條件計算出x和y方向的光流速度分量(u(x,y),v(x,y))。本文采用經(jīng)典的Gunnar Farneback算法求稠密光流[23]。
(1)基于Opt-Lagrange Field的拉格朗日場
由上述可知,在暴力行為識別過程中,可以通過計算光流場得到基于質(zhì)點(diǎn)運(yùn)動信息,然后基于公式(3)計算流函數(shù),從而得到質(zhì)點(diǎn)的運(yùn)動規(guī)律。在視頻監(jiān)控中,人們關(guān)注的是目標(biāo)的行為變化,利用流函數(shù)來為短時運(yùn)動特征推導(dǎo)出不同時間間隔的拉格朗日場,具體公式如(8)、(9):
其中,u和v分別是兩個方向上的速度函數(shù),可以通過公式(7)計算得到。通過公式(8)、(9),就可以建立起基于光流的拉格朗日場,場強(qiáng)變化是以時間作為尺度,選擇不同的時間尺度,就會得到不同級別的方向場。
傳統(tǒng)流函數(shù)支持三種形式的拉格朗日場,分別是:有限時間的利物浦指數(shù)(Finite-Time Lyapunov Exponent field,F(xiàn)TLE)、速度場和方向場。其中FTLE 場獲得的脊線提供運(yùn)動信息的粗略分割,其更側(cè)重描述運(yùn)動邊界。然而,光流場中的FTLE 脊線是由各種不同的效應(yīng)產(chǎn)生的,容易出現(xiàn)復(fù)雜運(yùn)動場的過度分割,不適用與暴力行為識別。而在暴力行為發(fā)生過程中,直觀的行為表現(xiàn)是質(zhì)點(diǎn)的運(yùn)動方向和速度都發(fā)生變換,不能僅用單一的速度場和方向場進(jìn)行計算,因此需要一種新的拉格朗日場表征方法。
(2)基于拉格朗日場的多級運(yùn)動模塊
由于神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的數(shù)據(jù)表征能力和自學(xué)習(xí)的特點(diǎn),本文基于拉格朗日場原理,設(shè)計了一種面向暴力行為識別的多級運(yùn)動(Multilevelmotion)模型,該模型通過自學(xué)習(xí)的方式得到滿足暴力行為需求的流函數(shù),從而實(shí)現(xiàn)不同時間尺度下運(yùn)動特征的提取,具體模型如圖2所示。
圖2中ft為第t幀的光流輸入,由x方向速度和y方向速度矩陣組成,圖中ht對應(yīng)質(zhì)點(diǎn)z在t時刻的坐標(biāo)位置,應(yīng)該等于前一刻的質(zhì)點(diǎn)位置ht-1累加該t幀位置速度乘以幀間隔,由于對于同一視頻,幀間隔相同,因此,對于ht的計算可以簡化為:
gt表示質(zhì)點(diǎn)在x方向和y方向的位移,經(jīng)過1*1卷積核Convh計算出最終t時刻質(zhì)點(diǎn)的位置坐標(biāo)。Λt對應(yīng)t級運(yùn)動特征,Ct-1為記憶單元,保存了前t-1時刻的軌跡特征,根據(jù)拉格朗日場原理,則時間尺度為t的運(yùn)動特征可以表示為:
更新記憶單元:
從圖2 中可以看出,特征的級別受到輸入光流幀數(shù)的限制,即如果輸入τ幀光流圖,則可以構(gòu)建最大包含τ級的運(yùn)動特征。
由于在拉格朗日場計算過程中,質(zhì)點(diǎn)的選擇非常重要。一般是將視頻待跟蹤物體作為質(zhì)點(diǎn),在時間軸上進(jìn)行追蹤物體位置,從而得到物體運(yùn)動變化模式。而在暴力視頻中,暴力行為發(fā)生的位置是隨機(jī)的,待跟蹤物體未知,無法直接選定質(zhì)點(diǎn)。雖然無法直接選定質(zhì)點(diǎn),但是視頻圖像中的每一個像素都可能是待跟蹤物體的組成像素。因此,可以將視頻中的每個像素都作為單獨(dú)質(zhì)點(diǎn),利用拉格朗日場計算得到所有像素的運(yùn)動變化模式,然后利用流量門控制模塊來實(shí)現(xiàn)對像素運(yùn)動變化模式的篩選聚焦,從而實(shí)現(xiàn)暴力行為的識別。
因此,圖2 中質(zhì)點(diǎn)z為圖像矩陣中的所有像素點(diǎn),則在初始t0時刻ht0如公式(14)所示,其中M和N代表圖像矩陣的寬和高。
根據(jù)圖2,可以將視頻序列長度作為時間尺度τ 的控制參數(shù),來捕獲視頻中不同時間跨度的暴力行為特征,為了可視化,將生成的流圖值轉(zhuǎn)換為HSV 顏色空間,并將生成的顏色投影回原始起始幀(類似于常見的局部光流描繪)。生成的色調(diào)值H 表示流量圖位移的方向,而飽和度S 表示位移的大小,V 保持不變,具體如圖3 所示。從圖3中可以看出,時間尺度越小,得到物體運(yùn)動特征表達(dá)的越微觀,時間尺度越大,得到物體特征越宏觀。
從圖3中還可以看出,基于拉格朗日場,可以將相關(guān)質(zhì)點(diǎn)動態(tài)運(yùn)動行為的信息映射到單個幀上,由此產(chǎn)生可以緊湊地表示時間演化的多級運(yùn)動特征,該特征能夠更清晰表達(dá)行為規(guī)律。
基于圖2,本文設(shè)計了基于拉格朗日場多級運(yùn)動特征的暴力行為識別模型。除了運(yùn)動特征,行為姿態(tài)也是判斷暴力行為的重要信息,因此在模型設(shè)計時本文采用經(jīng)典的雙流網(wǎng)模型架構(gòu)[24]。具體如圖4所示。
從圖4中可以看出,該模型有四個模塊構(gòu)成,分別是RGB 通道、拉格朗日通道、流量門控制、識別模塊全連接層組成。這里RGB 通道由4 個2d 卷積模塊組成,主要起到為拉格朗日場計算提供空間信息的補(bǔ)償作用。拉格朗日通道包含Multilevel-motion模塊和3 個3d 卷積模塊,目的提取多級運(yùn)動特征中隱含的高級行為語義。模型在拉格朗日通道末端采用Relu 函數(shù)激活,RGB 通道末端采用Sigmoid 函數(shù),由于拉格朗日通道和RGB 通道輸出是同維度的,因此將來自拉格朗日通道的輸出和RGB 通道的輸出直接相乘,又由于Sigmoid 函數(shù)的輸出介于0和1 之間,因此RGB 的通道輸出可以看作是調(diào)整拉格朗日通道輸出的權(quán)重,具體計算方法如公式(15)所示:
其中yRGB表示RGB 通道輸出,yLagrange表示拉格朗日通道輸出,yflow表示兩個通道的組合輸出,并作為時間池Temporal Pooling 模塊的輸入。時間池采用Max Pooling 函數(shù)處理,由于Max Pooling 函數(shù)只能保留局部最大值,因此拉格朗日通道乘以趨近1 的結(jié)果將有更大的保留概率,而乘以趨近0 的值將更可能被丟棄,該機(jī)制是一種自學(xué)習(xí)池策略,它利用RGB 輸出作為流量門對拉格朗日通道輸出進(jìn)行篩選,濾除不必要信息。識別模塊包含一個LSTM 模型和一個全連接層,用于計算最后的識別結(jié)果。此外,為了降低模型參數(shù)數(shù)量,本文采用MobileNet[25]和Pseudo-3D 殘差網(wǎng)絡(luò)[26]中的深度可分離卷積的概念,來修改模型中的3D 卷積層,LSTM 所有神經(jīng)元的參數(shù)共享,這樣可以在不損失性能的情況下,顯著降低模型參數(shù)。根據(jù)圖4 構(gòu)建模型,在每個模塊內(nèi),通過反復(fù)試驗和優(yōu)化后,采用如表1所示的模型參數(shù)結(jié)構(gòu)。
表1 網(wǎng)絡(luò)模型參數(shù),i為模型重復(fù)次數(shù)Tab.1 Network model parameters,and i is the number of model repetitions
模型參數(shù)設(shè)置好后,對基于Opt-Lagrange Field多級運(yùn)動特征的暴力識別模型進(jìn)行訓(xùn)練和測試,具體算法見算法1。
為驗證方法的有效性,本文使用了四個公開的暴力識別數(shù)據(jù)集,包括電影打架(Movie Fight)[27]和曲棍球打架(Hockey Fight)[28]、密集人群暴亂(Crowd Violence)[29]和RWF2000 數(shù)據(jù)集[1],其中Movie Fight數(shù)據(jù)集有200 個從短片中提取戰(zhàn)斗場景的剪輯;Hockey Fight 數(shù)據(jù)集中,有1000 個在全國曲棍球聯(lián)盟的曲棍球比賽中捕捉到的片段;Crowd Violence數(shù)據(jù)集是從YouTube 下載并剪輯的人群暴力場景,數(shù)據(jù)集包含246 個視頻;RWF2000,是2020 年提出的最新的暴力行為識別數(shù)據(jù)集,該數(shù)據(jù)集包含2000 個視頻片段,來自于真實(shí)監(jiān)控設(shè)備,分為兩部分:訓(xùn)練集(80%)和測試集(20%),一半的視頻包含暴力行為,而另一半則屬于非暴力活動,作為常見的攝像機(jī)設(shè)置,視頻通常遵循一系列分辨率標(biāo)準(zhǔn)(例如720P、1080P、2K、4K)。這四個數(shù)據(jù)集均具有視頻級標(biāo)注,其片段長度、分辨率等細(xì)節(jié)信息如表2所示。
表2 暴力識別數(shù)據(jù)集Tab.2 Violence dataset
(1)多級運(yùn)動特征控制參數(shù)τ的選擇
本文利用時間尺度參數(shù)τ來控制基于Optlagrange Field 構(gòu)建的多級特征的時間尺度級別,τ的不同意味著運(yùn)動特征級別不同。圖5 給出了在τ∈[1,10]時,依據(jù)圖4 模型在四個數(shù)據(jù)集上得到的暴力識別結(jié)果,τ=1 意味著得到的是光流特征。由于Movies Fight 是來源于電影數(shù)據(jù),清晰度高,特征簡單,利用光流特征就可以達(dá)到100%的識別準(zhǔn)確率,參考價值較低。本文重點(diǎn)分析剩下的三個數(shù)據(jù)集。從圖5 中可以看出,與光流特征相比,基于Opt-Lagrange Field 建立的多級運(yùn)動特征能夠為識別模型提供更多的時空變化信息,總體的識別率較高。但是,模型的識別率與運(yùn)動級數(shù)并不是絕對正相關(guān),在三個數(shù)據(jù)集上,都出現(xiàn)了識別率先升高后下降的情況,這是因為過大的時間尺度會造成模型參數(shù)成倍增長,模型容易過擬合,增大運(yùn)動特征時間尺度提供的信息不足以補(bǔ)償模型參數(shù)爆炸的影響,因此需要折中考慮。根據(jù)圖5,可以看出在τ=4 時暴力行為識別模型的準(zhǔn)確率都達(dá)到最大,因此選擇τ=4 作為本文Opt-lagrange Field運(yùn)動特征的級數(shù)。在后續(xù)試驗中均采用τ=4 作為運(yùn)動特征級數(shù),并以此設(shè)定圖4 模型參數(shù),具體參數(shù)見表1。
(2)基于Opt-Lagrange Field 的多級運(yùn)動特征的暴力識別結(jié)果分析
為驗證拉格朗日多級特征的有效性,文中給出了采用單流通道時,在RWF-2000 數(shù)據(jù)集上暴力行為識別的準(zhǔn)確率,如表3 所示。從表3 中可以看出,拉格朗日特征要比光流特征提供更多有效的信息,其在所有數(shù)據(jù)上的平均識別準(zhǔn)確率為90.51%,整體表現(xiàn)要優(yōu)于光流特征。
表3 基于單流通道的暴力識別結(jié)果Tab.3 Violence recognition results based on single stream channel
表4給出經(jīng)典暴力行為識別模型與本文提出模型在4 種暴力識別數(shù)據(jù)集上的識別結(jié)果。從表4 中可以看出,本文提出的模型在四種數(shù)據(jù)集上均有較好的表現(xiàn),平均識別率達(dá)到95.32%,特別對于來源實(shí)際監(jiān)控設(shè)備的RWF-2000 數(shù)據(jù)集,可以達(dá)到88.40%的識別準(zhǔn)確率,這說明,基于Opt-Lagrange Field 特征能夠提供多級運(yùn)動信息,對于暴力行為識別來說是非常關(guān)鍵的。
表4 暴力行為識別結(jié)果Tab.4 Violence identification results
本文提出一種面向暴力行為識別的多級運(yùn)動特征提取算法,該算法利用了流體運(yùn)動學(xué)中的拉格朗日場來挖掘視頻中暴力行為的運(yùn)動表示。首先設(shè)計了基于拉格朗日場的Multilevel-motion 模塊實(shí)現(xiàn)多級運(yùn)動特征提取;然后設(shè)計了基于雙流網(wǎng)框架的Opt-Lagrange Field 的暴力行為識別模型,該模型中將Multilevel-motion 輸出的Opt-Lagrange Field 多級特征作為時間流,RGB 作為空間特征,利用流量門控制模塊篩選與運(yùn)動特征相關(guān)的空間特征,實(shí)現(xiàn)時空流特征的融合,同時,利用LSTM 獲取不同時段的距離依賴信息,解決暴力行為中運(yùn)動特征中斷和時空非局部分布問題;最后,利用全連接模型進(jìn)行暴力行為判別。通過在Movies Fight、Hockey Fight、Crowd Violence 和RWF-2000 四個公開的暴力行為識別數(shù)據(jù)集進(jìn)行試驗,本文的暴力行為識別率分別為100%、98.6%、94.29%和88.40%,平均識別率達(dá)到95.32%,優(yōu)于其他傳統(tǒng)方法。當(dāng)然,本文研究中還存在一些不足,如:沒有有效利用拉格朗日場的運(yùn)動預(yù)測特性,缺乏對于復(fù)雜背景信息以及噪聲的考慮;同時對于暴力行為識別的效率問題本文沒有提及,尤其是光流計算復(fù)雜度較高,應(yīng)該進(jìn)行算法優(yōu)化并提高算法效率,這些都將是下一步我們工作的重點(diǎn)。