• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于時間注意力機(jī)制和EfficientNet的視頻暴力行為檢測

      2022-11-30 08:39:12蔡興泉封丁惟王通孫辰孫海燕
      計算機(jī)應(yīng)用 2022年11期
      關(guān)鍵詞:暴力行為注意力準(zhǔn)確率

      蔡興泉,封丁惟,王通,孫辰,孫海燕

      基于時間注意力機(jī)制和EfficientNet的視頻暴力行為檢測

      蔡興泉,封丁惟,王通,孫辰,孫海燕*

      (北方工業(yè)大學(xué) 信息學(xué)院,北京 100144)(?通信作者電子郵箱sunhaiyan80@hotmail.com)

      針對一般的暴力行為檢測方法模型參數(shù)量大、計算復(fù)雜度高、準(zhǔn)確率較低等問題,提出一種基于時間注意力機(jī)制和EfficientNet的視頻暴力行為檢測方法。首先將通過對數(shù)據(jù)集進(jìn)行預(yù)處理計算得到的前景圖輸入到網(wǎng)絡(luò)模型中提取視頻特征,同時利用輕量化EfficientNet提取前景圖中的幀級空間暴力特征,并利用卷積長短時記憶網(wǎng)絡(luò)(ConvLSTM)進(jìn)一步提取視頻序列的全局時空特征;接著,結(jié)合時間注意力機(jī)制,計算得到視頻級特征表示;最后將視頻級特征表示映射到分類空間,并利用Softmax分類器進(jìn)行視頻暴力行為分類并輸出檢測結(jié)果,實現(xiàn)視頻的暴力行為檢測。實驗結(jié)果表明,該方法能夠減少模型參數(shù)量,降低計算復(fù)雜度,在有限的資源下提高暴力行為檢測準(zhǔn)確率,提升模型的綜合性能。

      暴力行為檢測;時間注意力機(jī)制;卷積長短時記憶網(wǎng)絡(luò);EfficientNet模型

      暴恐襲擊、惡意沖突事件的發(fā)生,會對公民的人身、財產(chǎn)安全造成巨大損失,對社會環(huán)境造成不良影響[1]。國家和政府不斷提高對公共安全的重視程度,持續(xù)推進(jìn)“平安城市”建設(shè)。城市的安防視頻監(jiān)控設(shè)備數(shù)量快速增長,人力難以及時監(jiān)測大量的監(jiān)控視頻[2],因此,智能安防逐漸發(fā)展起來,而暴力行為監(jiān)測作為智能安防的重要分支也得到越來越多的關(guān)注和研究。

      隨著各類短視頻軟件的興起,視頻更廣泛、更頻繁地在互聯(lián)網(wǎng)上傳播[3],不進(jìn)行有效的規(guī)范和監(jiān)管,大量傳播的暴力視頻可能對青少年身心造成影響,而人工難以及時審核用戶上傳的海量短視頻。因此,本文主要研究智能化的視頻暴力行為檢測方法,提高視頻監(jiān)測管控的效率。

      1 相關(guān)工作

      為了實現(xiàn)智能化監(jiān)測,已經(jīng)有一些學(xué)者開始研究暴力行為檢測方法。根據(jù)不同的輸入信息類型,可以將檢測方法分為基于音頻的暴力行為檢測方法、基于音視頻的暴力行為檢測方法和基于視頻的暴力行為檢測方法[4]。

      暴力行為常會伴隨著喊叫聲、打斗聲、碰撞聲等,對不同的音頻進(jìn)行分析可以實現(xiàn)暴力行為檢測。Sarman等[5]提取了音頻時域上的過零率(Zero Crossing Rate, ZCR)特征,與隨機(jī)森林(Random Forest)分類器組合,獲得了較好性能。為了降低背景噪聲對目標(biāo)聲音的干擾,解決目標(biāo)聲音在音頻中不夠突出的問題,楊呂祥[6]提出一種改進(jìn)的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(Convolutional Recurrent Neural Network, CRNN),并引入多層注意力機(jī)制來降低噪聲的干擾,有效提高了暴力音頻檢測的性能。但是此類基于音頻的暴力行為檢測方法不能有效利用視頻數(shù)據(jù),難以達(dá)到最優(yōu)效果。

      隨著計算機(jī)視覺的發(fā)展,結(jié)合音頻特征和視頻特征的基于音視頻暴力行為檢測方法受到廣泛關(guān)注和研究。Acar等[7]提出在決策層將中間層級音頻特征和低層級視頻特征相融合,以檢測電影中的暴力鏡頭;谷學(xué)匯[8]提出結(jié)合文本、音頻和視頻的多模態(tài)信息融合暴力行為檢測算法,提高了模型性能。但是此類方法需要視頻當(dāng)中包含音頻信息,而城市的監(jiān)控設(shè)備所采集的視頻幾乎不包含音頻信息,且短視頻平臺的視頻多添加配樂,易對音頻識別造成巨大干擾。

      為了提高暴力行為檢測方法的普適性,研究基于視頻的暴力行為檢測方法顯得尤為重要。Gao等[9]提出了一種新的光流特征定向暴力流(Oriented Violent Flows, OViF),充分利用了運動方向上的幅度變化信息;宋凱[10]提出了一種結(jié)合運動團(tuán)塊屬性和光流信息進(jìn)行暴力檢測的算法。Mabrouk等[11]提出了一種基于感興趣點、時空域信息和光流信息的興趣幀局部幅度方向分布特征(Distribution of Magnitude and Orientation of Local Interest Frame, DiMOLIF),在擁擠和非擁擠視頻中取得了較好性能;Zhang等[12]提出的運動韋伯局部描述符(Motion Weber Local Descriptor, MoWLD)對暴力行為的檢測效果良好。但是這類人工特征的設(shè)計過程比較繁瑣,而且針對特定數(shù)據(jù)集設(shè)計的特征易受噪聲影響。

      隨著深度學(xué)習(xí)算法的快速發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)逐漸被應(yīng)用于行為檢測中。丁春輝[13]利用三維卷積核提取視頻序列的時空特征,但是三維卷積不能充分地提取長時特征信息。為了獲取豐富的時空特征,Dong等[14]分別提取原視頻幀、光流圖像、加速流圖像的短期特征,利用長短時記憶(Long Short-Term Memory, LSTM)網(wǎng)絡(luò)提取長期特征,但是多流網(wǎng)絡(luò)模型較復(fù)雜,光流特征計算量較大,耗時較長。Chatterjee等[15]利用離散小波變換(Discrete Wavelet Transform, DWT)和CNN提取空間特征,然后利用雙向長短時記憶(Bi?directional LSTM, BiLSTM)網(wǎng)絡(luò)來預(yù)測幀序列的暴力行為。雖然LSTM在處理時序任務(wù)時表現(xiàn)優(yōu)良,但在處理圖像序列時,LSTM通過全連接層獲取全局特征來進(jìn)行建模,沒有充分利用局部的空間特征。Shi等[16]將卷積運算運用到LSTM的輸入和狀態(tài)轉(zhuǎn)換中,提出卷積長短時記憶(Convolutional LSTM, ConvLSTM)網(wǎng)絡(luò)預(yù)測未來的降雨強(qiáng)度,能夠更好地提取圖像序列的時空特征。受此啟發(fā),本文利用ConvLSTM網(wǎng)絡(luò)提取暴力視頻的全局時空特征。

      傳統(tǒng)的網(wǎng)絡(luò)擴(kuò)展方法通常只在深度、寬度和圖像分辨率三方面的其中一個或兩個方面對網(wǎng)絡(luò)模型進(jìn)行單方面或兩方面的擴(kuò)展來提升模型性能。例如,隨著網(wǎng)絡(luò)層數(shù)的加深,模型的準(zhǔn)確率達(dá)到飽和甚至下降,為了解決這種“退化”現(xiàn)象,He等[17]提出了深度殘差網(wǎng)絡(luò)(Deep Residual Network, ResNet),解決了網(wǎng)絡(luò)加深時的梯度消失或爆炸問題,加深了網(wǎng)絡(luò)層數(shù),常用的ResNet50在各種深度學(xué)習(xí)任務(wù)中表現(xiàn)較好。但是ResNet只在網(wǎng)絡(luò)深度上進(jìn)行擴(kuò)展,且網(wǎng)絡(luò)層數(shù)的增加導(dǎo)致參數(shù)量較大。Han等[18]使用輕量操作代替部分傳統(tǒng)卷積層生成冗余特征,提出了GhostNet,能在保證精度的同時減少網(wǎng)絡(luò)的整體計算量。劉超軍等[19]基于GhostNet提出一種改進(jìn)的有效卷積算子目標(biāo)跟蹤算法,減少了網(wǎng)絡(luò)的參數(shù)量和計算量。Wei等[20]使用輕量級和高效的模型對遙感圖像進(jìn)行分類,對GhostNet進(jìn)行了改進(jìn),減少了參數(shù)量。但是GhostNet在平衡計算量和性能時,只對網(wǎng)絡(luò)的通道數(shù)進(jìn)行了擴(kuò)展,在精度方面還有待提高。Tan等[21]提出了一種高效簡單的復(fù)合縮放方法,在限制內(nèi)存和計算量的情況下統(tǒng)一縮放網(wǎng)絡(luò)的深度、寬度、和圖像分辨率,得到了輕量化EfficientNet系列模型,獲得了更高的效率和準(zhǔn)確率。尹梓睿等[22]將EfficientNet引入行人重識別領(lǐng)域,減小了網(wǎng)絡(luò)模型參數(shù)規(guī)模,性能卻有所提升。受此啟發(fā),本文將EfficientNet引入暴力行為檢測中,提取視頻的幀級空間暴力特征。

      根據(jù)人類視網(wǎng)膜特性,注意力機(jī)制被提出并廣泛應(yīng)用,根據(jù)信息的重要性分配動態(tài)權(quán)重參數(shù)來強(qiáng)化關(guān)鍵信息,提升模型的性能[23]。梁智杰[24]將注意力機(jī)制引入LSTM網(wǎng)絡(luò),關(guān)注重要的視頻幀,有效利用對手語識別結(jié)果影響較為顯著的信息,提高了模型對手語的識別能力。在暴力行為視頻中,每個視頻幀所包含信息的重要程度各不相同,某些重要的視頻幀對暴力行為檢測的貢獻(xiàn)比較大。受此啟發(fā),本文將時間注意力機(jī)制引入暴力行為檢測方法中,充分利用關(guān)鍵視頻幀的重要信息。

      基于以上分析,一般的暴力行為檢測方法存在受音頻信息限制、人工特征設(shè)計繁瑣、參數(shù)量大、計算復(fù)雜度高、時空特征提取不充分和準(zhǔn)確度較低等問題。針對這些問題,本文主要研究基于時間注意力機(jī)制和EfficientNet的視頻暴力行為檢測方法。

      2 本文方法

      本文基于時間注意力機(jī)制和EfficientNet的視頻暴力行為檢測方法的主要步驟包括:首先,預(yù)處理數(shù)據(jù)集,計算得到前景圖;然后,將前景圖輸入到網(wǎng)絡(luò)模型中提取視頻特征,利用輕量化模型EfficientNet提取前景圖中的幀級空間暴力特征,利用ConvLSTM網(wǎng)絡(luò)進(jìn)一步提取視頻序列的全局時空特征;接著,結(jié)合時間注意力機(jī)制,計算得到視頻級特征表示;最后,將視頻級特征表示映射到分類空間,利用Softmax分類器進(jìn)行分類,輸出檢測結(jié)果,實現(xiàn)視頻的暴力行為檢測。

      2.1 預(yù)處理數(shù)據(jù)集

      本文所用的數(shù)據(jù)集為視頻格式,每個數(shù)據(jù)集由多個視頻段組成,視頻包含正常運動的人群以及暴力行為人群。為了提高算法的性能,在輸入網(wǎng)絡(luò)之前,需要對視頻數(shù)據(jù)進(jìn)行預(yù)處理,包括提取視頻幀、增強(qiáng)數(shù)據(jù)集和計算前景圖三部分。

      2.1.1提取視頻幀

      2.1.2增強(qiáng)數(shù)據(jù)集

      理論上來說,數(shù)據(jù)的規(guī)模越大、質(zhì)量越高,模型的泛化能力越強(qiáng)。為了提高模型的魯棒性,本文采用在線數(shù)據(jù)增強(qiáng)的方法,不改變訓(xùn)練數(shù)據(jù)的數(shù)量,而是在訓(xùn)練時對加載數(shù)據(jù)進(jìn)行裁剪和翻轉(zhuǎn)等處理,經(jīng)過多輪次訓(xùn)練之后,等效于數(shù)據(jù)增加。

      翻轉(zhuǎn)主要分為水平翻轉(zhuǎn)、垂直翻轉(zhuǎn)和原點翻轉(zhuǎn)三種方法。現(xiàn)實世界正常拍攝的視頻內(nèi),人群都不會是倒立的,加入垂直翻轉(zhuǎn)或原點翻轉(zhuǎn)后會改變原圖像的語義,而本文所研究的暴力行為檢測就是針對現(xiàn)實世界的真實視頻的,因此本文只采用水平翻轉(zhuǎn)的方法。實際操作時,對同一視頻中的所有幀,遵循相同的在線數(shù)據(jù)增強(qiáng)技術(shù),在每個訓(xùn)練迭代期間,從四個角或從中心隨機(jī)裁剪幀圖像中大小為224×224的一部分,并在輸入到網(wǎng)絡(luò)之前隨機(jī)水平翻轉(zhuǎn)。

      2.1.3計算前景圖

      視頻由背景圖和前景圖構(gòu)成,相鄰幀圖像間的背景圖差值較小,而前景圖由于物體的運動差值較大。本文所用數(shù)據(jù)集背景變化較小,暴力行為多伴隨著劇烈的運動,前景目標(biāo)運動明顯,計算前景圖能夠減少背景信息的干擾,更加關(guān)注視頻中劇烈運動部分的變化,加強(qiáng)對視頻中運動部分的表征能力。將幀間差分看作是光流圖像的一種粗略近似形式,使得神經(jīng)網(wǎng)絡(luò)被迫對幀間變化而不是幀本身進(jìn)行建模。幀間差分法計算簡單快速,計算復(fù)雜度比光流法低得多,因此,采用二幀差法計算前景圖,首先計算幀差圖,然后進(jìn)行二值化處理,最終得到前景圖。具體步驟如下:

      至此,完成數(shù)據(jù)集的預(yù)處理,得到前景圖,將其輸入到網(wǎng)絡(luò)模型中,能夠在計算復(fù)雜度較低的情況下,提高模型的視頻表征能力,減少背景信息的干擾,提升算法性能。

      2.2 提取視頻特征

      預(yù)處理數(shù)據(jù)集后,需要提取視頻的時空特征,對暴力行為進(jìn)行建模,最終實現(xiàn)暴力行為的檢測。視頻中的暴力行為是一個連續(xù)性強(qiáng)、關(guān)聯(lián)性大的動作行為,具有大量的時序信息。為了減少參數(shù)量、充分利用視頻信息,本文首先利用輕量化模型EfficientNet提取前景圖中的幀級空間暴力特征;然后,利用ConvLSTM網(wǎng)絡(luò)進(jìn)一步提取視頻序列的全局時空特征,充分利用視頻的空間信息和時間信息,提升后續(xù)的檢測分類效果。

      2.2.1基于EfficientNet網(wǎng)絡(luò)提取空間暴力特征

      為減少參數(shù)量、提升模型性能,本文采用輕量化模型EfficientNet提取空間暴力特征,即單一時刻的幀級空間特征。首先,設(shè)定縮放條件,優(yōu)化縮放倍率,利用復(fù)合縮放方法得到EfficientNet系列網(wǎng)絡(luò);然后,選擇EfficientNet?B0網(wǎng)絡(luò)提取幀級特征;最后,輸出空間暴力特征,為后續(xù)提取全局時空特征做準(zhǔn)備。復(fù)合縮放方法如圖1所示。

      圖1 EfficientNet模型復(fù)合縮放方法示意圖

      步驟4 選取EfficientNet?B0。EfficientNet?B0的參數(shù)最少,對資源要求較低,EfficientNet?B1之后的網(wǎng)絡(luò)模型參數(shù)量逐漸增大,計算量也相應(yīng)增大,效率逐漸降低。因此,本文選取EfficientNet?B0作為幀級特征提取網(wǎng)絡(luò),EfficientNet?B0結(jié)構(gòu)如圖2所示。

      圖2 EfficientNet?B0的網(wǎng)絡(luò)結(jié)構(gòu)

      EfficientNet?B0由多個移動翻轉(zhuǎn)瓶頸卷積(Mobile Inverted Bottleneck Convolution, MBConv)模塊組成,MBConv模塊由深度可分離卷積(Depthwise Separable Convolution)、批歸一化(Batch Normalization)、Swish激活函數(shù)、連接失活(DropConnect)組成,其中還引入了壓縮與激發(fā)網(wǎng)絡(luò)(Squeeze-and-Excitation, SE)模塊,MBConv模塊的結(jié)構(gòu)如圖3所示。

      步驟5 輸出空間暴力特征。本文去掉EfficientNet?B0模型最后階段的全連接層和Softmax層,將最后卷積層得到的輸出特征作為提取到的幀級空間暴力特征并輸出。

      至此,通過復(fù)合縮放方法得到EfficientNet?B0模型,從前景圖中提取幀級空間暴力特征,并將輸出特征輸入到ConvLSTM網(wǎng)絡(luò)中,實現(xiàn)網(wǎng)絡(luò)資源、效率和精度的平衡,提升網(wǎng)絡(luò)模型的整體性能,為后續(xù)進(jìn)一步提取全局時空特征做準(zhǔn)備。

      2.2.2基于ConvLSTM網(wǎng)絡(luò)提取全局時空特征

      2.3 添加時間注意力機(jī)制

      為了合理高效地利用視頻關(guān)鍵信息,本文在ConvLSTM網(wǎng)絡(luò)模型之后添加了時間注意力機(jī)制,根據(jù)視頻幀的重要程度為每個時刻的長時時空特征分配權(quán)重,以更合理地利用視頻重要時刻的長時時空信息計算視頻級的特征表示。時間注意力機(jī)制模型如圖5所示。首先根據(jù)ConvLSTM的輸出計算得到時間注意力初始權(quán)重,然后對得到的初始權(quán)重進(jìn)行歸一化,接著對ConvLSTM的輸出進(jìn)行注意力加權(quán),最后得到視頻級特征表示。具體步驟如下:

      步驟2 歸一化初始權(quán)重。利用Softmax函數(shù)對初始權(quán)重進(jìn)行歸一化,使得到的所有權(quán)重系數(shù)之和為1:

      圖5 時間注意力機(jī)制模型

      2.4 輸出檢測結(jié)果

      經(jīng)過時間注意力模塊處理后,得到包含更多關(guān)鍵信息的視頻級特征表示,本文通過三層全連接層將其映射到分類空間,利用Softmax分類器進(jìn)行分類,輸出檢測結(jié)果,實現(xiàn)視頻中的暴力行為檢測。本文方法的完整網(wǎng)絡(luò)模型結(jié)構(gòu)如圖6所示。

      根據(jù)輸出檢測結(jié)果與標(biāo)簽之間的誤差計算模型損失值,通過迭代訓(xùn)練確保損失值最小化,在預(yù)測時,根據(jù)檢測結(jié)果,計算模型準(zhǔn)確率。本文所使用的損失函數(shù)為交叉熵?fù)p失函數(shù),如式(16)所示:

      模型準(zhǔn)確率計算方法如式(17)所示:

      其中:為正類數(shù)量,為負(fù)類數(shù)量,表示正類被正確預(yù)測為正類的數(shù)量,表示負(fù)類被正確預(yù)測為負(fù)類的數(shù)量。

      3 實驗與結(jié)果分析

      為驗證本文算法的可行性和有效性,構(gòu)建了實驗數(shù)據(jù)集進(jìn)行對比實驗和分析。實驗所用計算機(jī)系統(tǒng)的硬件環(huán)境為Intel Xeon Silver 4110 CPU @2.10 GHz 處理器,32 GB內(nèi)存,NVIDIA GeForce RTX 2080Ti顯卡;軟件環(huán)境為Windows 10,開發(fā)語言為Python,開發(fā)環(huán)境為Pycharm 2019。

      3.1 數(shù)據(jù)集構(gòu)建

      為了驗證本文算法的可行性和有效性,本文采用應(yīng)用較多的HockeyFight、Movies和ViolentFlows三個公開視頻數(shù)據(jù)集,并根據(jù)實際需要進(jìn)行預(yù)處理后再進(jìn)行實驗。這三個數(shù)據(jù)集是從真實場景中提取的,具有權(quán)威性,尤其是數(shù)據(jù)集中人物動作豐富、背景多樣,能夠全面衡量本文算法性能。

      HockeyFight數(shù)據(jù)集:取自北美曲棍球比賽,包含500段暴力視頻和500段非暴力視頻,視頻分辨率為360×288,每段視頻的幀率為25,平均時間長度為1.6 s,視頻畫質(zhì)較高,背景較為單一。

      Movies數(shù)據(jù)集:取自動作打斗電影片段,包含100段暴力視頻和500段非暴力視頻,大部分暴力視頻分辨率為720×576,少部分為720×480,每段視頻的幀率為25,平均時間長度為1.5 s。

      ViolentFlows數(shù)據(jù)集:取自YouTube視頻網(wǎng)站,包含123段暴力視頻和123段非暴力視頻,視頻分辨率為320×240,平均時間長度為3.6 s,視頻畫質(zhì)較低,背景較為豐富,場景中存在擁擠人群。

      實驗時先對以上三個數(shù)據(jù)集進(jìn)行預(yù)處理,提取出數(shù)據(jù)集的視頻幀,調(diào)整為256×256,并進(jìn)行歸一化處理;然后利用水平翻轉(zhuǎn)和隨機(jī)裁剪方法增強(qiáng)數(shù)據(jù)集;最后計算得到前景圖,完成數(shù)據(jù)集的預(yù)處理,為網(wǎng)絡(luò)模型的訓(xùn)練和測試做準(zhǔn)備。

      3.2 網(wǎng)絡(luò)模型的訓(xùn)練和測試

      在網(wǎng)絡(luò)模型的訓(xùn)練和測試階段,本文采用5折交叉驗證的方法訓(xùn)練網(wǎng)絡(luò)模型。將原始數(shù)據(jù)分為5組,依次取其中1個子集作為測試集,剩余4組為訓(xùn)練集。經(jīng)過訓(xùn)練得到5個網(wǎng)絡(luò)模型,最終計算出5個模型測試集準(zhǔn)確率的均值作為整個網(wǎng)絡(luò)模型的最終準(zhǔn)確率結(jié)果。本文算法的訓(xùn)練和測試流程如圖7所示。

      圖7 本文算法的訓(xùn)練和測試流程

      在訓(xùn)練過程中,首先預(yù)處理數(shù)據(jù)集,并生成視頻的標(biāo)簽;然后將訓(xùn)練數(shù)據(jù)輸入到提前在ImageNet數(shù)據(jù)庫上預(yù)訓(xùn)練好的EfficientNet?B0模型中,并采用Xavier算法初始化ConvLSTM模型權(quán)重,提高訓(xùn)練速度;接著輸出分類結(jié)果,并根據(jù)交叉熵?fù)p失函數(shù)計算損失值;最后,采用Adam算法優(yōu)化網(wǎng)絡(luò)參數(shù),學(xué)習(xí)率設(shè)為0.001,批量大小設(shè)為2,經(jīng)過迭代訓(xùn)練,最終得到訓(xùn)練好的網(wǎng)絡(luò)模型。

      在測試過程中,將測試數(shù)據(jù)集輸入到訓(xùn)練好的網(wǎng)絡(luò)模型中,得到預(yù)測分類結(jié)果,并計算準(zhǔn)確率,以此來衡量模型的性能。

      3.3 本文算法可行性實驗

      為了驗證本文算法的可行性,將本文算法在HockeyFight數(shù)據(jù)集和ViolentFlows數(shù)據(jù)集上訓(xùn)練50輪次,在Movies訓(xùn)練30輪次,并將EfficientNet?B0空間暴力特征提取網(wǎng)絡(luò)分別替換為ResNet50[17]、MobileNetV3?small[25]、ShuffleNetV2[26]。經(jīng)過訓(xùn)練之后,分別得到基于四種網(wǎng)絡(luò)模型的算法在三個數(shù)據(jù)集上的訓(xùn)練損失和訓(xùn)練準(zhǔn)確率,結(jié)果如圖8所示。由圖8可以看出,隨著訓(xùn)練輪次的增加,各網(wǎng)絡(luò)模型的損失值在不斷下降,準(zhǔn)確率在不斷提升,最終達(dá)到收斂狀態(tài)。EfficientNet?B0模型在訓(xùn)練時相較于其他三個模型收斂更快,損失值較低,且準(zhǔn)確率較高,這說明本文算法可行性比較好。

      圖8 訓(xùn)練損失與準(zhǔn)確率對比

      3.4 時間注意力機(jī)制對比實驗

      為驗證引入時間注意力機(jī)制的有效性,設(shè)計了添加注意力機(jī)制前后的對比實驗,基于四個網(wǎng)絡(luò)模型的算法準(zhǔn)確率對比結(jié)果如表1所示。其中:√表示在網(wǎng)絡(luò)中添加注意力機(jī)制,×表示未添加注意力機(jī)制。由表1可以看出,在添加時間注意力機(jī)制后,本文算法在三個數(shù)據(jù)集上的準(zhǔn)確率均有一定提升(達(dá)到100%準(zhǔn)確率除外)。

      表1 添加注意力機(jī)制前后的準(zhǔn)確率對比 單位: %

      綜合分析,本文算法及其他網(wǎng)絡(luò)模型在添加時間注意力之后,在暴力行為檢測任務(wù)上的準(zhǔn)確率均有不同程度的提升,本文添加的時間注意力機(jī)制是有效的。

      3.5 EfficientNet與其他模型對比實驗

      為驗證EfficientNet?B0模型的有效性,對四種網(wǎng)絡(luò)模型的參數(shù)量以及相應(yīng)算法的訓(xùn)練集訓(xùn)練時間、測試集預(yù)測時間和準(zhǔn)確率進(jìn)行對比,結(jié)果如表2所示。由表2可以看出,與ResNet50模型進(jìn)行對比,EfficientNet?B0模型的參數(shù)量僅為ResNet50的1/5。在計算復(fù)雜度方面,ResNet50的GFLOPs約為4.1,而EfficientNet?B0的GFLOPs約為0.39,僅為ResNet50的1/10,計算復(fù)雜度更低。由于已經(jīng)在ImageNet數(shù)據(jù)庫上進(jìn)行預(yù)訓(xùn)練,EfficientNet?B0的訓(xùn)練時間比ResNet50要短,預(yù)測時間也更短。在準(zhǔn)確率方面,在HockeyFight數(shù)據(jù)集上準(zhǔn)確率提升1.5個百分點;在Movies數(shù)據(jù)集上都達(dá)到了最佳準(zhǔn)確率,分析原因是該數(shù)據(jù)集數(shù)據(jù)量較小,且電影打斗片段相似度較高;在ViolentFlows數(shù)據(jù)集上準(zhǔn)確率提升2個百分點。

      與其他輕量化模型進(jìn)行對比,可以看出在相同參數(shù)量級的情況下,在HockeyFight數(shù)據(jù)集上,EfficientNet?B0模型準(zhǔn)確率分別比MobileNetV3?small、ShuffleNetV2高11.5和13.5個百分點;在Movies數(shù)據(jù)集上比MobileNetV3?small高2.5個百分點;在ViolentFlows數(shù)據(jù)集上分別比MobileNetV3?small和ShuffleNetV2高8、10個百分點。

      綜合分析,EfficientNet?B0模型能夠在參數(shù)量明顯少于常規(guī)網(wǎng)絡(luò)模型參數(shù)量的情況下,獲得準(zhǔn)確率的提升,且訓(xùn)練時間及預(yù)測時間更短;而在相同參數(shù)量級的情況下,準(zhǔn)確率要高于其他輕量化網(wǎng)絡(luò)模型。因此,本文使用的EfficientNet?B0模型能夠在參數(shù)量較小的情況下,保持較高的準(zhǔn)確率和較短的訓(xùn)練、預(yù)測時間,實現(xiàn)資源、效率和精度的綜合平衡。

      表2 不同網(wǎng)絡(luò)模型的參數(shù)量、預(yù)測時間和準(zhǔn)確率對比

      3.6 與其他現(xiàn)有算法對比實驗

      為了驗證本文算法的有效性,將本文算法與其他現(xiàn)有的算法的準(zhǔn)確率進(jìn)行對比,對比結(jié)果如表3所示。由表3可以看出,在三個公開數(shù)據(jù)集上,與文獻(xiàn)[9-12]等基于人工設(shè)計特征的暴力行為檢測方法相比,本文算法準(zhǔn)確率有明顯的提升;與文獻(xiàn)[13-15]等基于深度學(xué)習(xí)的暴力行為檢測方法相比,本文算法準(zhǔn)確率依然有不同程度的提升,但是不需要計算光流等特征,且卷積網(wǎng)絡(luò)為輕量化模型,參數(shù)量更小,計算更簡單快捷。因此,本文算法能夠在有限的資源限制下獲得較好的性能,不需要人工設(shè)計特征,實現(xiàn)端到端的訓(xùn)練和檢測,并且在多個數(shù)據(jù)集上取得效果的提升,具有良好的泛化能力和魯棒性。

      表3 不同算法的準(zhǔn)確率對比 單位: %

      4 結(jié)語

      針對一般暴力行為檢測方法模型參數(shù)量大、計算復(fù)雜度高、準(zhǔn)確率較低等問題,本文提出了一種基于時間注意力機(jī)制和EfficientNet的視頻暴力行為檢測方法。首先,預(yù)處理數(shù)據(jù)集,提取視頻幀并增強(qiáng)數(shù)據(jù)集,計算得到前景圖;然后,利用復(fù)合縮放方法得到輕量化EfficientNet系列網(wǎng)絡(luò)模型,選擇EfficientNet?B0提取前景圖中的幀級空間暴力特征;其次,利用ConvLSTM網(wǎng)絡(luò)的門控操作和卷積操作,進(jìn)一步提取視頻的全局時空特征,充分利用視頻序列的時間信息和局部空間信息;接著,添加時間注意力機(jī)制,根據(jù)ConLSTM的輸出計算注意力初始權(quán)重,將權(quán)重歸一化后進(jìn)行注意力加權(quán),融合加權(quán)后的輸出得到視頻級特征表示;最后,利用三層全連接層將視頻級特征表示映射到分類空間,利用Softmax分類器進(jìn)行分類,輸出檢測結(jié)果。最終設(shè)計并實現(xiàn)了該視頻暴力行為檢測方法,并進(jìn)行了對比實驗。結(jié)果顯示,本文所添加的時間注意力機(jī)制可以提高模型的準(zhǔn)確率;EfficientNet相較于常規(guī)網(wǎng)絡(luò)模型參數(shù)量大幅減少,預(yù)測時間更短,同時準(zhǔn)確率得到提升,與其他輕量化模型相比,準(zhǔn)確率遠(yuǎn)高于MobileNetV3?small和ShuffleNetV2模型;與其他現(xiàn)有算法相比,本文算法計算更簡單,在三個公開數(shù)據(jù)集上均取得了良好的性能,說明本文算法具有良好的泛化能力和魯棒性。

      下一階段將進(jìn)一步研究暴力行為識別方法,對各類暴力行為進(jìn)行定義,識別出暴力行為的具體類別,并將該方法應(yīng)用于智能安防、短視頻審核等領(lǐng)域。

      [1] SUDHAKARAN S, LANZ O. Learning to detect violent videos using convolutional long short-term memory[C]// Proceedings of the 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway: IEEE, 2017: 1-6.

      [2] 楊亞虎,王瑜,陳天華. 基于深度學(xué)習(xí)的遠(yuǎn)程視頻監(jiān)控異常圖像檢測[J]. 電訊技術(shù), 2021,61(2): 203-210.(YANG Y H, WANG Y, CHEN T H. Detection of abnormal remote video surveillance image based on deep learning[J]. Telecommunication Engineering, 2021, 61(2): 203-210.)

      [3] 盧修生,姚鴻勛. 視頻中動作識別任務(wù)綜述[J]. 智能計算機(jī)與應(yīng)用, 2020, 10(3): 406-411.(LU X S, YAO H X. A survey of action recognition in videos[J]. Intelligent Computer and Applications, 2020, 10(3): 406-411.)

      [4] 譚等泰,王煒,王軼群. 治安監(jiān)控視頻中暴力行為的識別與檢測[J]. 中國人民公安大學(xué)學(xué)報(自然科學(xué)版), 2021, 27(2): 94-100.(TAN D T, WANG W, WANG Y Q. Recognition and detection of violence in public security surveillance video[J]. Journal of People’s Public Security University of China (Science and Technology), 2021, 27(2): 94-100.)

      [5] SARMAN S, SERT M. Audio based violent scene classification using ensemble learning[C]// Proceedings of the 6th International Symposium on Digital Forensic and Security. Piscataway: IEEE, 2018: 1-5.

      [6] 楊呂祥. 基于改進(jìn)的CRNN的暴力音頻事件檢測方法研究[D]. 武漢:武漢理工大學(xué), 2019.(YANG L X. Research on violent sound event detection based on improved CRNN[D]. Wuhan: Wuhan University of Technology, 2019.)

      [7] ACAR E, HOPFGARTNER F, ALBAYRAK S. Violence detection in Hollywood movies by the fusion of visual and mid-level audio cues[C]// Proceedings of the 21st ACM International Conference on Multimedia. New York: ACM, 2013: 717-720.

      [8] 谷學(xué)匯. 基于信息融合算法的暴力視頻內(nèi)容識別[J]. 濟(jì)南大學(xué)學(xué)報(自然科學(xué)版), 2019, 33(3): 224-228.(GU X H. Information composite technology in violent video content recognition[J]. Journal of University of Jinan (Science and Technology), 2019, 33(3): 224-228.)

      [9] GAO Y, LIU H, SUN X H, et al. Violence detection using oriented violent flows[J]. Image and Vision Computing, 2016, 48/49: 37-41.

      [10] 宋凱. 面向視頻監(jiān)控的暴力行為檢測技術(shù)研究[D]. 哈爾濱:哈爾濱工程大學(xué), 2018.(SONG K. Research on detection technology of violence in the background of monitoring[D]. Harbin: Harbin Engineering University, 2018.)

      [11] BEN MABROUK A, ZAGROUBA E. Spatio-temporal feature using optical flow based distribution for violence detection[J]. Pattern Recognition Letters, 2017, 92: 62-67.

      [12] ZHANG T, JIA W J, YANG B Q, et al. MoWLD: a robust motion image descriptor for violence detection[J]. Multimedia Tools and Applications, 2017, 76(1): 1419-1438.

      [13] 丁春輝. 基于深度學(xué)習(xí)的暴力檢測及人臉識別方法研究[D]. 合肥:中國科學(xué)技術(shù)大學(xué), 2017.(DING C H. Violence detection and face recognition based on deep learning method[D]. Hefei: University of Science and Technology of China, 2017.)

      [14] DONG Z H, QIN J, WANG Y H. Multi-stream deep networks for person to person violence detection in videos[C]// Proceedings of the 2016 Chinese Conference on Pattern Recognition, CCIS 662. Singapore: Springer, 2016: 517-531.

      [15] CHATTERJEE R, HALDER R. Discrete wavelet transform for CNN-BiLSTM-based violence detection[C]// Proceedings of the 2020 International Conference on Emerging Trends and Advances in Electrical Engineering and Renewable Energy, LNEE 708. Singapore: Springer, 2021: 41-52.

      [16] SHI X J, CHEN Z R, WANG H, et al. Convolutional LSTM network: a machine learning approach for precipitation now casting[C]// Proceedings of the 28th International Conference on Neural Information Processing Systems. Cambridge: MIT Press, 2015: 802-810.

      [17] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.

      [18] HAN K, WANG Y H, TIAN Q, et al. GhostNet: more features from cheap operations[C]// Proceedings of the 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2020: 1577-1586.

      [19] 劉超軍,段喜萍,謝寶文. 應(yīng)用GhostNet卷積特征的ECO目標(biāo)跟蹤算法改進(jìn)[J]. 激光技術(shù), 2022, 46(2):239-247.(LIU C J, DUAN X P, XIE B W. Improvement of ECO target tracking algorithm based on GhostNet convolution feature[J]. Laser Technology, 2022, 46(2):239-247.)

      [20] WEI B Y, SHEN X L, YUAN Y L. Remote sensing scene classification based on improved GhostNet[J]. Journal of Physics: Conference Series, 2020, 1621: No.012091.

      [21] TAN M X, LE Q V. EfficientNet: rethinking model scaling for convolutional neural networks[C]// Proceedings of the 36th International Conference on Machine Learning. New York: JMLR.org, 2019: 6105-6114.

      [22] 尹梓睿,張索非,張磊,等. 適于行人重識別的二分支EfficientNet網(wǎng)絡(luò)設(shè)計[J]. 信號處理, 2020, 36(9): 1481-1488.(YIN Z R, ZHANG S F, ZHANG L, et al. Design of a two-branch EfficientNet for person re-identification[J]. Journal of Signal Processing, 2020, 36(9): 1481-1488.)

      [23] 曹毅,劉晨,盛永健,等. 基于三維圖卷積與注意力增強(qiáng)的行為識別模型[J]. 電子與信息學(xué)報, 2021, 43(7): 2071-2078.(CAO Y, LIU C, SHENG Y J, et al. Action recognition model based on 3D graph convolution and attention enhanced[J]. Journal of Electronics and Information Technology, 2021, 43(7): 2071-2078.)

      [24] 梁智杰. 聾啞人手語識別關(guān)鍵技術(shù)研究[D]. 武漢:華中師范大學(xué), 2019.(LIANG Z J. Research on key technologies of sign language recognition for deaf-mutes[D]. Wuhan: Central China Normal University, 2019.)

      [25] HOWARD A, SANDLER M, CHEN B, et al. Searching for MobileNetV3[C]// Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision. Piscataway: IEEE, 2019: 1314-1324.

      [26] MA N N, ZHANG X Y, ZHENG H T, et al. ShuffleNet V2: practical guidelines for efficient CNN architecture design[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11218. Cham: Springer, 2018: 122-138.

      [27] MOHAMMADI S, PERINA A, KIANI H, et al. Angry crowds: detecting violent events in videos[C]// Proceedings of the 2016 European Conference on Computer Vision, LNCS 9911. Cham: Springer, 2016: 3-18.

      [28] SENST T, EISELEIN V, KUHN A, et al. Crowd violence detection using global motion-compensated Lagrangian features and scale sensitive video-level representation[J]. IEEE Transactions on Information Forensics and Security, 2017, 12(12): 2945-2956.

      [29] MAHMOODI J, SALAJEGHE A. A classification method based on optical flow for violence detection[J]. Expert Systems with Applications, 2019, 127: 121-127.

      [30] 于京. 特殊視頻內(nèi)容分析算法研究[D]. 北京:北京交通大學(xué), 2020.(YU J. Study on content analysis algorithms in special video[D]. Beijing: Beijing Jiaotong University, 2020.)

      Violence detection in video based on temporal attention mechanism and EfficientNet

      CAI Xingquan, FENG Dingwei, WANG Tong, SUN Chen, SUN Haiyan*

      (,,100144,)

      Aiming at the problems of large model parameters, high computational complexity and low accuracy of traditional violence detection methods, a method of violence detection in video based on temporal attention mechanism and EfficientNet was proposed. Firstly, the foreground image obtained by preprocessing the dataset was input to the network model to extract the video features, meanwhile, the frame-level spatial features of violence were extracted by using the lightweight EfficientNet, and the global spatial-temporal features of the video sequence were further extracted by using the Convolutional Long Short-Term Memory (ConvLSTM) network. Then, combined with temporal attention mechanism, the video-level feature representations were obtained. Finally, the video-level feature representations were mapped to the classification space, and the Softmax classifier was used to classify the video violence and output the detection results, realizing the violence detection of video. Experimental results show that the proposed method can decrease the number of model parameters, reduce the computational complexity, increase the accuracy of violence detection and improve the comprehensive performance of the model with limited resources.

      violence detection; temporal attention mechanism; Convolutional Long Short-Term Memory (ConvLSTM) network; EfficientNet model

      This work is partially supported by Beijing Social Science Foundation (19YTC043).

      CAI Xingquan, born in 1980, Ph. D., professor. His research interests include virtual reality, human-computer interaction, deep learning.

      FENG Dingwei, born in 1997, M. S. candidate. His research interests include virtual reality, deep learning.

      WANG Tong, born in 1996, M. S. candidate. His research interests include virtual reality, deep learning.

      SUN Chen, born in 1996, M. S. His research interests include virtual reality, deep learning.

      SUN Haiyan, born in 1980, Ph. D., lecturer. Her research interests include virtual reality, deep learning.

      TP391.9

      A

      1001-9081(2022)11-3564-09

      10.11772/j.issn.1001-9081.2021122153

      2021?12?21;

      2022?01?21;

      2022?01?26。

      北京市社會科學(xué)基金資助項目(19YTC043)。

      蔡興泉(1980—),男,山東濟(jì)南人,教授,博士,CCF高級會員,主要研究方向:虛擬現(xiàn)實、人機(jī)互動、深度學(xué)習(xí);封丁惟(1997—),男,山東青島人,碩士研究生,主要研究方向:虛擬現(xiàn)實、深度學(xué)習(xí);王通(1996—),男,山西大同人,碩士研究生,主要研究方向:虛擬現(xiàn)實、深度學(xué)習(xí);孫辰(1996—),男,山東臨沂人,碩士,主要研究方向:虛擬現(xiàn)實、深度學(xué)習(xí);孫海燕(1980—),女,山東濟(jì)寧人,講師,博士,主要研究方向:虛擬現(xiàn)實、深度學(xué)習(xí)。

      猜你喜歡
      暴力行為注意力準(zhǔn)確率
      讓注意力“飛”回來
      乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
      健康之家(2021年19期)2021-05-23 11:17:39
      不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
      2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
      高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
      “揚(yáng)眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      A Beautiful Way Of Looking At Things
      媒介分析:動畫暴力對兒童的影響
      戲劇之家(2016年6期)2016-04-16 13:01:01
      第一次遭遇家暴該怎么處理?
      婦女生活(2015年6期)2015-07-13 06:17:20
      所暴力行為
      海外英語(2013年5期)2013-08-27 09:39:15
      旌德县| 宁波市| 嘉义县| 察哈| 连云港市| 云霄县| 田阳县| 茌平县| 赤壁市| 庆云县| 资源县| 阳江市| 鹤山市| 海丰县| 仁化县| 綦江县| 宝山区| 集安市| 宾川县| 武功县| 平舆县| 虎林市| 广平县| 贵南县| 潜江市| 溧水县| 库尔勒市| 罗江县| 龙游县| 财经| 江津市| 天水市| 永年县| 红原县| 忻州市| 邵东县| 满洲里市| 耒阳市| 白朗县| 高淳县| 和龙市|