馬境遠(yuǎn),劉 鯤,傅慧源
(1.北郵感知技術(shù)研究院(江蘇)有限公司,江蘇 無錫 214115;2.北京郵電大學(xué) 智能通信軟件與多媒體北京市實驗室,北京 100876)
互聯(lián)網(wǎng)時代,隨著視頻制作成本降低,人們可以將各種各樣的自制、轉(zhuǎn)發(fā)視頻上傳到互聯(lián)網(wǎng),從而使視頻數(shù)量呈指數(shù)級增長。這些視頻中,不少充斥著大量暴力、低俗、恐怖鏡頭,這會給心智不成熟的未成年人身心成長造成不良影響。我國的影視業(yè)若想良性發(fā)展,必須建立分級制度,使未成年人可以遠(yuǎn)離不良的視頻元素。但如何高效準(zhǔn)確地識別出這些不良元素,對建立分級制度至關(guān)重要。要找出海量視頻中包含的不良元素,靠傳統(tǒng)電影電視監(jiān)管部門人力內(nèi)容審查方式,顯然非常耗時耗力。因此,以檢測特定視頻內(nèi)容為功能的智能分析系統(tǒng)應(yīng)運而生。本文中,我們將聚焦討論視頻暴力自動檢測技術(shù)。
視頻暴力檢測[1-10]旨在利用計算機自動精準(zhǔn)地定位出暴力事件在視頻中的起止時間。近年來,隨著視頻檢測技術(shù)的推廣和應(yīng)用,暴力檢測技術(shù)在很多關(guān)鍵領(lǐng)域發(fā)揮著越來越重要的作用。該技術(shù)不僅可以用于視頻作品,也可以應(yīng)用于很多現(xiàn)實場景,除了上面提到的互聯(lián)網(wǎng)視頻的內(nèi)容審查,典型的應(yīng)用案例包括:影視作品的內(nèi)容分析、智能安防中敏感場所的視頻監(jiān)控等。
早期的研究工作[4-5]將暴力檢測當(dāng)作視頻分類任務(wù)。在這種情況下,大多數(shù)方法都假設(shè)視頻是剪輯好的,即暴力事件幾乎持續(xù)于整個視頻過程。然而,這類方法將應(yīng)用范圍限制為短視頻片段,實際應(yīng)用中不能定位未經(jīng)剪輯視頻中的暴力事件,因此該類方法在實踐中的可用性并不強。此外,早期的暴力檢測工作聚焦于特定的單一場景,往往導(dǎo)致解決方案的泛化能力有限。針對上述問題,本文研究的主題是如何在未剪輯視頻(如影視劇、監(jiān)控視頻等)中檢測出暴力事件。
本文提出利用多模態(tài)信息來檢測視頻中的暴力事件,多模態(tài)信息包括視覺和音頻信息,視頻信息又可以細(xì)分為視頻幀特征和光流特征。與單模態(tài)輸入相比,多模態(tài)可以更好地檢測暴力事件。在大多數(shù)情況下,視覺信息作為直觀信號,可以準(zhǔn)確地識別和定位事件,但是在部分場景下,音頻信號可以區(qū)分視覺上模糊的事件,也是視覺信息強有力的輔助信息。例如,在暴力場景中,視覺信息容易受到干擾,但可以憑借爆炸聲獨特的音域特征來識別事件。因此,視聽融合可以充分互補信息,成為視頻檢測領(lǐng)域一種有效技術(shù)途徑。但傳統(tǒng)使用多模態(tài)信息的暴力檢測方法有如下幾個缺點:依賴于小規(guī)模剪輯視頻數(shù)據(jù)集、使用手工設(shè)計的特征、只能識別特定單一場景下的暴力事件。與上述方法不同,本文是在未剪輯視頻組成的大規(guī)模數(shù)據(jù)集上融合多模態(tài)特征來定位多個場景下的暴力事件。具體地,本文使用深度學(xué)習(xí)提取視頻中的語音、光流、視頻幀等特征,并提出關(guān)系網(wǎng)絡(luò)組合不同的模態(tài)來建模不同模態(tài)之間的關(guān)系,并使用深度神經(jīng)網(wǎng)絡(luò)設(shè)計了多頭注意力模塊為不同的模態(tài)組合學(xué)習(xí)相應(yīng)的權(quán)重。
本文的主要貢獻(xiàn)有①提出融合音頻、光流、視頻幀3種模態(tài)特征檢測視頻中暴力事件,并使用深度學(xué)習(xí)提取上述特征;②提出了關(guān)系網(wǎng)絡(luò)組合不同的模態(tài)特征,建模不同模態(tài)之間的關(guān)系;③提出了多頭注意力模塊學(xué)習(xí)多個不同應(yīng)用的權(quán)重,生成區(qū)分力更強的視頻特征。在公開數(shù)據(jù)集上的實驗結(jié)果表明,本文方法取得的檢測準(zhǔn)確率比文獻(xiàn)[10]中的檢測方法更優(yōu)。消融實驗結(jié)果也表明本文方法各個模塊的有效性。
動作識別是視頻中暴力檢測相關(guān)的任務(wù)之一,其研究為提取視頻的視覺特征提供了基本方法。當(dāng)前,動作識別領(lǐng)域主流技術(shù)是基于深度學(xué)習(xí)的方法。根據(jù)不同的神經(jīng)網(wǎng)絡(luò)架構(gòu),用于動作識別的神經(jīng)網(wǎng)絡(luò)可分為2類:單流網(wǎng)絡(luò)架構(gòu)方法[11-12]和雙流框架的方法[13-14]。前者通常采用三維卷積濾波器在一定數(shù)量的連續(xù)幀上執(zhí)行卷積操作來捕獲時序信息;后者的基本架構(gòu)在文獻(xiàn)[13]首先提出,其雙流網(wǎng)絡(luò)架構(gòu)由空間網(wǎng)絡(luò)和時序網(wǎng)絡(luò)組成。其中,空間網(wǎng)絡(luò)捕獲單張視頻幀的靜態(tài)外觀特征,時序網(wǎng)絡(luò)通過輸入數(shù)張疊加的光流圖來建模視頻中的短時序運動信息。文獻(xiàn)[14]在雙流框架下進(jìn)一步挖掘視頻中的時序信息,嘗試使用幀差和扭轉(zhuǎn)過的光流圖作為雙流網(wǎng)絡(luò)的輸入,并提出了多種緩解模型過擬合的技術(shù),從而提高動作識別的準(zhǔn)確率。
在過去幾年中,學(xué)者提出了多種暴力檢測方法。例如,BERMEJO等[4]構(gòu)建了2個著名的打架數(shù)據(jù)集;GAO等[5]設(shè)計了暴力流描述符來檢測人群擁擠場景下的暴力行為;MOHAMMADI等[1]提出了一種基于行為啟發(fā)式的新方法來區(qū)分暴力和非暴力視頻。以前的大多數(shù)工作都利用手工設(shè)計的特征來檢測規(guī)模較小的數(shù)據(jù)集的暴力元素。
隨著深度卷積神經(jīng)網(wǎng)絡(luò)的興起,一些研究人員開始使用深度卷積神經(jīng)網(wǎng)絡(luò)來檢測視頻中的暴力行為。例如,文獻(xiàn)[6]使用帶有卷積的長短時記憶網(wǎng)絡(luò)(long short-term memory, LSTM)識別監(jiān)控視頻中的暴力行為以及異常事件;類似地,文獻(xiàn)[7]構(gòu)建了雙向的卷積LSTM架構(gòu)檢測暴力;文獻(xiàn)[8]使用了2個深度神經(jīng)網(wǎng)絡(luò)框架學(xué)習(xí)不同場景下的時空信息,然后通過訓(xùn)練一個淺層神經(jīng)網(wǎng)絡(luò)對不同場景的時空信息進(jìn)行聚合。文獻(xiàn)[9]提出了一個使用分散網(wǎng)絡(luò)的混合深度學(xué)習(xí)架構(gòu),用于檢測無人機視頻中的暴力行為。研究人員也嘗試使用多模態(tài)或者音頻檢測暴力,但是大多數(shù)方法都使用手工設(shè)計的特征提取音頻特征,如頻譜圖、能量熵、音頻能量、色度、梅爾標(biāo)度頻率倒譜系數(shù)、過零率、音高等。手工特征容易提取,但區(qū)分能力不強而且魯棒性不高。與之不同的是,本文方法使用基于深度神經(jīng)網(wǎng)絡(luò)的模型提取視頻中的多個模態(tài)信息。更為重要的是,本文提出了一種多模態(tài)特征融合方法,聚合視頻中的音頻與視覺信息,進(jìn)而生成區(qū)分力強的暴力特征,提高了視頻中的暴力事件檢測準(zhǔn)確率。
圖1展示了本文提出的暴力檢測方法的整體框架,該框架主要由關(guān)系網(wǎng)絡(luò),注意力模塊和檢測網(wǎng)絡(luò)3部分組成。首先使用深度神經(jīng)網(wǎng)絡(luò)提取視頻中的多模態(tài)特征,包括視頻幀特征、光流特征以及音頻特征。上述3種特征經(jīng)過不同的組合作為關(guān)系網(wǎng)絡(luò)的輸入,關(guān)系網(wǎng)絡(luò)建模不同模態(tài)之間的關(guān)系,關(guān)系網(wǎng)絡(luò)的輸出作為多頭注意力模塊的輸入,最終生成的視頻特征則作為暴力檢測網(wǎng)絡(luò)的輸入。本文聚焦于融合多模態(tài)特征來檢測暴力,因此暴力檢測網(wǎng)絡(luò)采用了當(dāng)前先進(jìn)方法中的HL-NET[10]。
圖1 本文暴力檢測方法的整體框架圖
視頻是一種包含多種模態(tài)的媒體,視頻可以被解析為音頻、圖像以及隨時序產(chǎn)生的動態(tài)特征。與文獻(xiàn)[13-14]一樣,本文用疊加的光流圖來表示視頻中的動態(tài)信息。本文研究的是如何融合視頻中多種模態(tài)來更準(zhǔn)確地檢測暴力事件。根據(jù)人類檢測暴力的常識,部分暴力事件發(fā)生時視覺信號可能會受到光照、遮擋等因素的影響,只有視覺信息時可能無法精準(zhǔn)確定暴力事件發(fā)生的起止時間,這就需要音頻信號輔助,如發(fā)生交通事故時車輛撞擊的聲音和爆炸的聲響,都能很好地輔助視覺信息定位暴力事件。此外,不同的暴力事件可能依賴不同的模態(tài)組合,例如,射擊可能依賴音頻和視頻幀,交通事故則可能更依賴音頻和時序動態(tài)信息(光流),打架則可能更依賴視頻幀和時序動態(tài)信息(光流),有些暴力事件則需要3種模態(tài)的融合。
因此,本文將音頻特征、視頻幀特征、光流特征進(jìn)行多種組合。具體地,除了單模態(tài),本文還將3種單模態(tài)兩兩組合組成3種多模態(tài)特征,此外還將全部的3種模態(tài)拼接到一起組成一種多模態(tài)特征,上述7種模態(tài)組合作為關(guān)系網(wǎng)絡(luò)的輸入來理解模態(tài)之間的關(guān)系。
針對單模態(tài)特征,關(guān)系網(wǎng)絡(luò)首先對其進(jìn)行非線性變換,然后拼接起來,過程可以表示為
T1=F1(fa)?F2(frgb)?F3(fflow)
(1)
(1)式中:F1,F(xiàn)2,F(xiàn)3分別表示一系列的線性和非線性變換,具體地,線性變換是全連接運算,非線性變換使用的是ReLu激活函數(shù);fa,frgb,fflow分別表示音頻特征、視頻幀特征、光流特征;?代表拼接操作。
針對兩兩組成的多模態(tài)組合,關(guān)系網(wǎng)絡(luò)首先將多模態(tài)特征進(jìn)行線性變換,然后將變換后的特征拼接起來,該過程可以表示為
T2=F4(fa?frgb)+F5(frgb?fflow)+F6(fa?fflow)
(2)
(2)式中,F(xiàn)4,F(xiàn)5,F(xiàn)6分別表示一系列的線性和非線性變換,變換功能是充分融合相應(yīng)的多模態(tài)特征,如F4(fa,frgb)就是充分融合視頻中音頻和視頻幀特征。具體地,線性變換是全連接運算,非線性變換使用的是ReLu激活函數(shù)。
針對全部的3種模態(tài),關(guān)系網(wǎng)絡(luò)首先將3種模態(tài)特征拼接到一起,然后進(jìn)行一系列的線性變換和非線性變換,該過程可以表示為
T3=F7(fa?frgb?fflow)
(3)
(3)式中,F(xiàn)7表示一系列的線性和非線性變換,線性變換是全連接運算,非線性變換使用的是ReLu激活函數(shù)。
關(guān)系網(wǎng)絡(luò)則是將模態(tài)組合轉(zhuǎn)換后的特征拼接到一起,該過程可以表示為
T=T1?T2?T3
(4)
拼接起來的特征T作為注意力模塊的輸入。
通過關(guān)系網(wǎng)絡(luò)后,我們得到了特征集合,分別是單模態(tài)特征、2種模態(tài)的組合、3種模態(tài)的組合。
常見的聚合操作有平均池化、最大池化、用線性權(quán)重融合等。但注意力機制的輸出通常聚焦于視頻的特定部分,如關(guān)注視頻中一段特定的視頻幀或聲音。通常,一個單一的注意力單元只能反映視頻的一個方面。但是,視頻作為一個復(fù)雜的包含多個模態(tài)的媒體,由多個注意力單元來關(guān)注視頻的不同模態(tài),共同描述整個視頻可能更為有效。因此,要能夠表示視頻的多個方面,需要多個注意力單元來聚焦視頻的不同方面。多個注意力單元關(guān)注同一輸入,但多個單元之間參數(shù)相互獨立。
基于上述思路,本文提出了多頭注意力機制,首先使用線性權(quán)重融合上述的特征集合,得到一個全局特征,然后學(xué)習(xí)多組參數(shù)來關(guān)注全局特征的不同方面。具體地說,學(xué)習(xí)多組的成對的標(biāo)量,第1個標(biāo)量對全局特征進(jìn)行線性縮放,第2個標(biāo)量則作為偏置,引入非線性因素。上述過程可表示為
Vi=wi*(aT)+bi
(5)
(5)式中:a表示融合特征向量T的線性權(quán)重,aT表示上述的全局特征;wi和bi表示第i個注意力單元學(xué)習(xí)到的標(biāo)量參數(shù)對。
得到注意力單元輸出的特征Vi后,對其執(zhí)行L2正則化,將所有單元得到的特征拼接起來,經(jīng)過非線性變換,作為多頭注意力模塊的輸出,即檢測網(wǎng)絡(luò)的輸入。過程可以表示為
V=F8(V1?V2?…?Vi…?VN)
(6)
(6)式中,F(xiàn)8表示線性或非線性變換操作,線性變換是全連接運算,非線性變換使用的是ReLu激活函數(shù)。
由于本文聚焦于融合多模態(tài)特征來檢測暴力,因此暴力檢測網(wǎng)絡(luò)采用了當(dāng)前先進(jìn)方法中的HL-NET[10]架構(gòu)。該架構(gòu)主要包括3個部分:整體分支捕獲視頻中的長時序信息,定位分支建模視頻中的局部位置關(guān)系,評分分支則預(yù)測發(fā)生暴力的分?jǐn)?shù)。更詳細(xì)的情況請查閱文獻(xiàn)[10]。
比較兩組患者并發(fā)癥發(fā)生率,試驗組患者并發(fā)癥發(fā)生率為8.82%(3/34)顯著低于對照組患者24.24%(8/33),差異有統(tǒng)計學(xué)意義(P<0.05)。見表1。
XD-Violence[10]是最近提出的用于檢測暴力行為的大規(guī)模視頻數(shù)據(jù)集。該數(shù)據(jù)集包含4 754個視頻,總時長為217 h,涵蓋6種暴力行為:虐待、車禍、爆炸、打架、暴亂和槍擊。數(shù)據(jù)規(guī)模比以往暴力檢測數(shù)據(jù)集都大。此外,該數(shù)據(jù)集中的樣本均包含音頻信息,可以用于融合多模態(tài)特征檢測暴力事件。該數(shù)據(jù)集另外一個特色是數(shù)據(jù)采集于多個場景,如影視劇、體育運動、手持?jǐn)z像機、監(jiān)控攝像頭、車載攝像頭等。
與文獻(xiàn)[10]一樣,我們采用幀級的精度召回曲線(precision-recall curve,PRC)和平均精度(average precision,AP)作為評測指標(biāo),沒有采用受試者工作特征曲線(receiver operating characteristic curve)和曲線下的相應(yīng)面積(area under curve, AUC),因為AUC在類別數(shù)據(jù)不平衡時實驗結(jié)果表現(xiàn)不夠客觀,而PRC則能更好地關(guān)注正樣本(暴力事件)。
1)音頻特征。利用在大規(guī)模數(shù)據(jù)集YouTube上預(yù)訓(xùn)練的VGGish[15-16]網(wǎng)絡(luò)作為音頻特征提取器。音頻被劃分為有重疊的960 ms/段,其中,每段都有唯一的對應(yīng)結(jié)束時間對齊的視頻片段。從每段中計算得到的梅爾對數(shù)譜圖塊作為VGGish網(wǎng)絡(luò)的輸入,每段音頻最終轉(zhuǎn)化成128維的特征。
2)視覺特征??紤]到I3D在視頻動作識別上的良好性能[11],使用I3D網(wǎng)絡(luò)作為視覺特征提取器,視覺特征包括視頻幀特征和光流特征。提取在Kinetics-400數(shù)據(jù)集上預(yù)訓(xùn)練的I3D的全局池化層特征,并使用TV-L1[17]算法在GPU上計算光流圖。所有視頻的幀速率設(shè)為24幀/s,并將滑動窗口的長度設(shè)為16幀。
3)網(wǎng)絡(luò)架構(gòu)。網(wǎng)絡(luò)架構(gòu)包括關(guān)系網(wǎng)絡(luò)和多頭注意力模塊。關(guān)系網(wǎng)絡(luò),即(1)—(3)式中的F主要由全連接層、非線性層和Dropout層組成,多頭注意力模塊由一維卷積、全連接層和Dropout層組成。
4)訓(xùn)練細(xì)節(jié)。使用PyTorch完成深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。對于網(wǎng)絡(luò)優(yōu)化,使用Adam作為優(yōu)化器。初始學(xué)習(xí)速率設(shè)置為0.001,并且在第50個周期和和第100個周期減半。該網(wǎng)絡(luò)總共訓(xùn)練了200個周期。批量大小為128,關(guān)系網(wǎng)絡(luò)和注意力模塊中的Dropout層Dropout率為0.8,注意力模塊中的頭數(shù)設(shè)置為32。
本文聚焦于融合多模態(tài)特征進(jìn)行暴力檢測,為了公平比較,所有的實驗中檢測網(wǎng)絡(luò)均采用文獻(xiàn)[10]中的框架。本節(jié)首先展示多個模態(tài)特征融合后文獻(xiàn)[10]的實驗結(jié)果,驗證簡單地融合語音、視頻幀、光流并不能大幅地提升準(zhǔn)確率。然后通過實驗驗證了本文提出方法中使用單個模塊進(jìn)行暴力檢測的有效性,最后分析了部分超參數(shù)對實驗結(jié)果的影響。
表1 不同模態(tài)在XD-Violence數(shù)據(jù)集上的實驗結(jié)果
表2展示了基礎(chǔ)方法、本文方法中單個模塊和全部模塊的實驗結(jié)果。從表2可知,與基礎(chǔ)方法比較,只使用關(guān)系網(wǎng)絡(luò)和只使用多頭注意力模塊都能帶來性能上的提升,驗證了2種模塊的有效性。此外,共同使用2種模塊帶來的增益大于單個模塊,這也表明本文方法中的2種模塊是相輔相成的,共同使用可以將多模態(tài)結(jié)合得更加緊密,得到的視頻特征區(qū)分力更強。此外,我們發(fā)現(xiàn)多頭注意力模塊帶來的增益比關(guān)系網(wǎng)絡(luò)大,因此,探索一個高效的注意力模塊來融合視頻中多模態(tài)特征可能是暴力檢測值得研究的方向。
表2 使用不同模塊在XD-Violence數(shù)據(jù)集上的實驗結(jié)果
表3給出了多頭注意力模塊中注意力頭數(shù)對檢測準(zhǔn)確率的影響。從表3可以看出,注意力頭數(shù)為32時取得的準(zhǔn)確率最高,頭數(shù)為16時由于參數(shù)不足導(dǎo)致模型的擬合能力不夠,頭數(shù)大于32時由于模型參數(shù)過多,且訓(xùn)練集規(guī)模不大,導(dǎo)致了模型過擬合,進(jìn)而準(zhǔn)確率有一定程度的下降。因此,實驗中采用頭數(shù)為32的注意力模塊。
表3 不同注意力頭數(shù)模塊在D-Violence數(shù)據(jù)集上的實驗結(jié)果
表4中列出了本文方法與現(xiàn)有方法在XD-Violence數(shù)據(jù)集上的比較。值得注意的是,被比較的方法也是多模態(tài)輸入。被用來比較的方法有如下特征。
表4 不同方法在XD-Violence數(shù)據(jù)集上的實驗結(jié)果
1)將暴力檢測定義為視頻分類問題,訓(xùn)練支持向量機作為分類器的基礎(chǔ)方法;
2)文獻(xiàn)[18]采用類似的方法,即基于改進(jìn)的支持向量機的異常檢測方法;
3)文獻(xiàn)[19]在很少或沒有監(jiān)督的情況下端到端地訓(xùn)練一個基于自動編碼器的全卷積深度網(wǎng)絡(luò)模型,來學(xué)習(xí)局部特征與分類器,捕捉視頻中動作的規(guī)律并用于識別視頻中的不規(guī)則行為;
4)文獻(xiàn)[2]使用多示例學(xué)習(xí)算法來解決未剪輯視頻中異常檢測的弱監(jiān)督問題,針對異常的稀疏性和時序連貫性提出了2個新的損失函數(shù);
5)文獻(xiàn)[10]提出了3個平行的網(wǎng)絡(luò)分支,來建模視頻片段之間的關(guān)系和整合視頻特征。
根據(jù)表4,在平均精度評測指標(biāo)下,本文方法優(yōu)于其他方法,比之前最好的方法(文獻(xiàn)[10]方法)在單模態(tài)與多模態(tài)下分別高4.89與1.66個百分點,表明了本文方法的優(yōu)越性。首先,與基于單模態(tài)特征的方法相比,本文方法使用了視頻的多個特征,比如音頻信息可以在視頻低質(zhì)或者有遮擋的情況下提升檢測的準(zhǔn)確率,這就使得本文方法的性能比單模態(tài)方法更好,魯棒性也更強。其次,與其他基于多模態(tài)特征的方法比較,我們設(shè)計了關(guān)系網(wǎng)絡(luò)來建模不同模態(tài)之間的關(guān)系,還設(shè)計了多頭注意力模塊為不同的模態(tài)組合學(xué)習(xí)相應(yīng)的權(quán)重來生成區(qū)分力更強的視頻特征,因此,本文方法的精度要比其他基于多模態(tài)特征的方法高。
本文提出使用深度神經(jīng)網(wǎng)絡(luò)提取并融合視頻音頻特征、光流特征、視頻幀特征3種模態(tài)或3種模態(tài)組合方法檢測視頻中暴力事件。提出的方法主要包括關(guān)系網(wǎng)絡(luò)和多頭注意力模塊,關(guān)系網(wǎng)絡(luò)用來組合不同的模態(tài)特征,建模不同模態(tài)之間的關(guān)系,多頭注意力模塊為不同的模態(tài)組合學(xué)習(xí)相應(yīng)的權(quán)重,生成區(qū)分力更強的視頻特征。公開數(shù)據(jù)集上的實驗結(jié)果表明,本文方法中各個模塊的有效性,取得的檢測準(zhǔn)確率超過了現(xiàn)有方法。基于本文提出的暴力檢測方法,可以更高效地識別視頻中的暴力元素,實現(xiàn)互聯(lián)網(wǎng)視頻內(nèi)容審查,協(xié)助視頻分級,凈化網(wǎng)絡(luò)環(huán)境。同時,在影視作品的內(nèi)容分析、智能安防中的視頻監(jiān)控等方面有廣泛的應(yīng)用推廣前景。