周家豪 胡 燕
(武漢理工大學計算機科學與技術學院 湖北 武漢 430000)
隨著智能手機和移動互聯(lián)網(wǎng)技術的發(fā)展,網(wǎng)絡視頻數(shù)據(jù)量呈爆炸式增長,各大視頻網(wǎng)站的用戶觀看視頻的數(shù)量也有了顯著增長。面對如此龐大的視頻數(shù)據(jù)量,人工審核視頻內(nèi)容會耗費大量人力和時間,而且容易受到主觀因素的影響,因此不再可靠。然而,龐大的視頻數(shù)據(jù)中會包含有敏感內(nèi)容,比如暴力、色情、反動等,這些內(nèi)容直接暴露給觀看視頻的用戶,會給人們的視覺和心理帶來負面影響,尤其是對青少年的健康成長帶來不好的影響。因此,暴力場景檢測具有廣泛的應用前景。
基于視覺的暴力檢測方面,Datta等[3]較早地嘗試解決了基于背景消減的暴力檢測問題,但對于發(fā)生在擁擠場景中的暴力,這種方法可能會失效。Rota等[4]利用改進的軌跡得到特征碼本,通過人與人之間的距離空間檢測暴力交互[5]。文獻[1]中將靜態(tài)視頻幀和光流作為雙流卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的輸入,提取暴力視頻特征作為長短期記憶網(wǎng)絡(Long Short-Term Memory,LSTM)輸入,分析長時間視頻序列。提取各種手工特征,然后根據(jù)手工設計的特征和深度學習的特征,訓練多個不同的支持向量機(Support Vector Machine,SVM)分類器,得到最終的決策結果。在文獻[2]中,使用相鄰的視頻幀作為神經(jīng)網(wǎng)絡的輸入,用卷積LSTM網(wǎng)絡提取暴力視頻的幀間變化信息和場景語義信息。以上方法利用了視覺信息識別暴力。
基于聽覺的暴力檢測方面,文獻[6]采用了基于由矢量量化(Vector Quantization,VQ)和稀疏矩陣(Sparse Matrix,SM)兩種不同方法構成的音頻包詞(Bag of Audio Words,BoAW)方法的中級音頻特征,使用了梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCCs),驗證了中級音頻特征在暴力檢測上具有良好效果,同時證明基于SM的方法要優(yōu)于基于VQ的方法。文獻[9]提出了一種集成學習方法,將視頻場景分為“暴力”和“非暴力”兩類,通過對不同的音頻特征和分類器進行實證分析,使用隨機森林算法和ZCR特征獲得了較好的分類性能。文獻[8]提出一種基于深度學習的尖叫聲檢測方法,采用改進后的MFCC特征作為系統(tǒng)的輸入,并在自己收集的尖叫聲數(shù)據(jù)集上進行驗證,取得了不錯的效果。CNN在視覺內(nèi)容處理任務中取得了最先進的性能,受到啟發(fā),文獻[7]研究使用CNN在視頻中基于聲音信息的暴力場景檢測,分別將CNN作為分類器和作為深度聲學特征提取器,證實了CNN在這兩個方面都是有效的。以上方法利用了視頻中的音頻信息來識別暴力視頻。
近年來,基于視覺和聽覺的暴力檢測正在被越來越多的人研究。與單一視覺或聽覺模型分類方法相比,音頻和視頻多模態(tài)融合模型能夠捕獲單一模式無法獲得的互補信息,并具有更強的魯棒性。文獻[10]提出由音頻分類和視頻分類進行聯(lián)合訓練的電影暴力場景檢測方法,音頻方面利用基于HCRFs的監(jiān)督方法提高分類性能,視頻方面通過定位暴力區(qū)域來檢測暴力鏡頭,對多部電影的實驗結果初步表明了該方法的有效性。文獻[11]提取音頻和視頻的手工特征進行融合來對多媒體中的暴力片段進行檢測,音頻方面提取了短時特征(梅爾頻率倒譜系數(shù)、線性預測系數(shù)、線性預測倒譜系數(shù)等)和長時特征(頻譜質(zhì)心和能量譜質(zhì)心等),視頻特征主要提取了運動矢量(Motion Vector)、邊緣特征、顏色(Color)和膚色(Skin)特征,通過實驗表明,基于視聽通道融合的檢測效果要比只使用單通道特征有明顯的提升。隨著深度學習的發(fā)展,出現(xiàn)了一些基于深度學習視聽特征[12-13]以及基于深度學習特征和手工特征結合[14]的暴力場景檢測方法,進一步提升了精度和性能。但這些方法仍然有一些問題存在,例如這些方法只是利用了視頻中視覺和聽覺中的信息,而忽略了字幕中文本信息的補充作用。在網(wǎng)絡視頻或者錄像中,除了視頻中的暴力畫面和音頻中的暴力聲音之外,類似憤怒或憎恨情緒的字幕出現(xiàn)往往伴隨著暴力場景的發(fā)生,字幕文本中所包含的情緒也有很多值得參考的補充信息,這些信息對于暴力場景檢測有著十分重要的作用。此外,大部分方法只檢測了視頻的暴力或者非暴力,并未對暴力程度進行評價。
針對以上兩個問題,本文提出一種新的分類模型FoAVS(Fusion of Audio-visual and Subtitle)用于暴力場景檢測。該模型結合了視頻中的視覺、聽覺和字幕信息,特征選擇上通過對比實驗,采用對信噪比變化有較強魯棒性的COPE音頻特征與包含視頻時空特征的CNN-LSTM視頻特征以及結合上下文信息的CNN-RNN字幕特征。融合方法上,分別采用前期融合、后期融合和雙融合來對暴力場景檢測的準確率和魯棒性進行研究。為了對暴力程度進行評價,本文還對開放人群暴力數(shù)據(jù)集VIF(violent flow)進行人工分類和擴充,將其分為非暴力、輕微暴力和非常暴力三類,并在此數(shù)據(jù)集上與現(xiàn)有方法進行對比,同時和自身的方法也進行了分步對比,分析提出的方法對暴力場景檢測帶來的效果提升。
融合模型FoAVS整體結構如圖1所示。
圖1 FoAVS模型結構示意圖
模型整體分為三部分:特征提取、融合與分類。從媒體文件分離出音頻信號、字幕文本以及視頻幀后,在特征提取部分分別提取對應特征,在融合部分采用對應的融合策略進行融合,最后由監(jiān)督分類器輸出分類結果。在本節(jié)中,主要介紹模型的特征提取部分。
在音頻特征提取上,早期的方法通過將音頻信號分割成小的、部分重疊的幀并為每個幀計算一個特征向量來處理,使用的特征范圍從相對簡單的(如幀能量、過零率、子帶能量率)到更復雜的(如梅爾頻率倒譜系數(shù)、感知線性預測系數(shù))。然而這些手工特征限制了系統(tǒng)在不同感興趣事件下的魯棒性,且提取這些特征需要大量的相關領域知識。近年來,利用機器學習技術從訓練數(shù)據(jù)中自動學習特征的方法[15-18]越來越被人們所重視。能量峰組合(Combination of Peaks of Energy,COPE)特征[18]通過一組可訓練的COPE特征提取器經(jīng)過訓練后得到,它的獲取過程利用了模擬人聽覺系統(tǒng)內(nèi)耳耳蝸膜反應的Gammatone圖譜,能夠很好地反映聲音中感興趣的部分。研究表明在聲學事件檢測的任務中,COPE特征相比于其他特征表現(xiàn)得更好,特別是在樣本信噪比發(fā)生變化時,有較好的魯棒性。在3.1節(jié)中的暴力音頻數(shù)據(jù)集上進行實驗,分別比較COPE與其他常用特征方法在正、負信噪比數(shù)據(jù)上的分類效果。實驗結果如表1所示,其中評價指標為3.2節(jié)中的mAP值。實驗選取了具有代表性的手工特征MFCC[30]、Gammatone[22]以及基于深度學習的特征方法SoundNet[20]、HRNN[21],這些特征已被廣泛應用于各個領域并取得了不錯的效果??梢钥闯?,COPE特征方法在暴力音頻數(shù)據(jù)集上取得了最高的mAP值,雖然在正信噪比數(shù)據(jù)上與HRNN差距不大,但在負信噪比數(shù)據(jù)上相比于其他特征方法有明顯的優(yōu)勢,即COPE特征方法的魯棒性更強。所以本文選取COPE特征方法來提取聲學特征。
表1 不同音頻特征方法對比實驗結果
(1)
這個脈沖響應被定義為:
(2)
式中:ωi是濾波器的中心頻率;φ是它的相位;常數(shù)a控制增益;n代表濾波器的順序;參數(shù)Bi是一個衰減因子,決定了帶通濾波器的帶寬。根據(jù)式(1)和式(2)求得的濾波器組輸出可以得到音頻信號的Gammatone圖譜,它與頻譜圖類似,但有本質(zhì)上的區(qū)別:頻率軸為對數(shù)尺度,帶通濾波器的帶寬隨中心頻率值線性增加。
圖2 音頻特征提取示意圖
本文將得到的Gammatone圖譜輸入到一組訓練后的COPE特征提取器中,結合每個特征提取器的輸出并參考Gammatone圖譜來進行COPE特征向量計算,得到輸入音頻的COPE特征向量。COPE特征提取器配置和訓練過程,以及COPE特征向量計算方法在文獻[18]中有詳細說明。
在視覺特征提取上,卷積神經(jīng)網(wǎng)絡常用于提取靜態(tài)幀的圖像特征,實驗結果表明,與傳統(tǒng)特征如加速穩(wěn)健特征(Speeded Up Robust Features,SURF)、改進密集軌跡(Improved Dense Trajectory,IDT)特征的分類效果相比,卷積神經(jīng)網(wǎng)絡學習到的視覺特征有助于提高暴力視頻系統(tǒng)的識別性能。目前多采用殘差網(wǎng)絡(Residual Network,ResNet)提取靜態(tài)圖像特征,ResNet由微軟研究院的He等[23]提出,通過使用ResNet單元成功訓練出了152層的神經(jīng)網(wǎng)絡,并在2015年圖片網(wǎng)絡大規(guī)模視覺識別挑戰(zhàn)(ImageNet Large Scale Visual Recognition Challenge,ILSVRC2015)比賽中取得冠軍,在top5上的錯誤率為3.57%,效果非常突出。ResNet單元的結構如圖3所示。
圖3 ResNet殘差單元示意圖
對于一個堆積層結構,當輸入為x時其學習到的特征記為H(x),殘差單元希望學習到殘差F(x)=H(x)-x,這樣其原始的學習特征是F(x)+x。之所以這樣是因為殘差學習相比原始特征直接學習更容易,從而擁有更好的性能。ResNet的結構可以極快地加速神經(jīng)網(wǎng)絡的訓練,模型的準確率也有比較大的提升。但若只提取靜態(tài)幀的圖像特征則會忽略了幀與幀之間存在時間關系,僅對每一幀進行靜態(tài)特征提取和分析是不夠的。在處理關于時間序列相關的問題上,LSTM有著優(yōu)異的性能,它允許信息是持久的,并通過添加“確定信息在算法中是否有用的過程”來更改信息內(nèi)容,從而記住、更新和關注信息。LSTM結構如圖4所示,在傳統(tǒng)RNN結構的基礎上,LSTM增加三個門來控制細胞狀態(tài),這三個門分別稱為遺忘門、輸入門和輸出門。遺忘門決定網(wǎng)絡需要丟棄哪些信息,可用下式表示:
ft=σ(Wf·[ht-1,xt]+bf)
(3)
它通過查看ht-1和xt信息來輸出一個0~1之間的向量,該向量里面的值表示細胞狀態(tài)Ct-1中的哪些信息保留或丟棄多少。
圖4 LSTM結構示意圖
輸入門來決定更新哪些信息,步驟可由下式表示:
it=σ(Wi·[ht-1,xt]+bi)
(4)
(5)
(6)
更新完細胞狀態(tài)后,經(jīng)過輸出門得到判斷條件ot,然后將細胞狀態(tài)經(jīng)過tanh層得到一個-1~1之間值的向量,該向量與輸出門得到的判斷條件相乘就得到了最終該LSTM單元的輸出。ot的值可由下式得到:
ot=σ(Wo[ht-1,xt]+bo)
(7)
LSTM結構的特性解決了普通RNN的長時依賴問題。
本文將ResNet和LSTM結合用來提取視頻特征。為了充分利用視頻幀之間的上下文信息,使用雙向LSTM[19]來提取視頻序列信息,模型結構如圖5所示。
圖5 視覺特征提取示意圖
在暴力視頻靜態(tài)幀上訓練的ResNet-50[23]模型可以作為暴力視頻靜態(tài)幀特征提取器,其中數(shù)字50代表網(wǎng)絡深度,首先使用ResNet-50模型提取視頻的靜態(tài)幀特征。由于在短時間內(nèi),視頻中幀的內(nèi)容基本是相同的,若將所有視頻幀連續(xù)輸入模型則會造成提取的特征包含許多冗余信息,同時也會影響模型的性能。為了剔除掉大部分相同的幀,使模型更好地關注關鍵視頻幀中的信息,本文對輸入的視頻每半秒取一次幀。由于兩次取幀間隔時間短,幀內(nèi)容基本相同,得到的幀中所包含的信息可以作為兩幀之間其他幀信息的表示,對不同模態(tài)特征間的時間和空間關系影響較小。將得到的幀輸入到ResNet-50中,去掉ResNet-50的最后一個全連接層,每幀可以得到經(jīng)過平均池化后的2 048維向量。獲取到視頻所有幀的靜態(tài)幀特征后,將其作為暴力視頻靜態(tài)幀特征輸入雙向LSTM網(wǎng)絡進行訓練來獲取不同幀間包含的上下文信息。在訓練時,由于數(shù)據(jù)集中視頻長短不一,為保證輸入到Bi-LSTM靜態(tài)幀特征具有相同的序列大小,本文對數(shù)據(jù)集中的每個視頻平均取10幀。對于不足10幀的進行幀拷貝,大于10幀的進行幀截斷,這樣每個視頻經(jīng)過ResNet-50后的得到的靜態(tài)幀特征序列大小為(10,2 048)。訓練好的模型可以用作視頻特征的提取。同樣,也將此模型和其他一些特征方法在3.1中的公開暴力視頻數(shù)據(jù)集上進行了對比,實驗結果如表2所示。
表2 不同視覺特征方法對比實驗結果
可以看出,基于深度學習的特征提取方法效果優(yōu)于傳統(tǒng)的IDT、SURF手工特征。使用ResNet和LSTM結合的特征提取方法相比于僅使用ResNet-50和LSTM的方法更好地結合了靜態(tài)幀圖像信息和時間序列信息,具有更高的mAP值,因此選用ResNet+LSTM的特征提取方法提取視覺特征。
除了音頻和視頻,字幕也是多媒體內(nèi)容的一個重要組成部分,字幕中所包含的語義取向、情感信息等也能為暴力場景檢測提供必要的補充信息。結合字幕短文本情感分析技術的暴力檢測具有重要研究意義和廣泛應用前景?,F(xiàn)有的短文本情感分析研究主要包括基于情感的方法和基于特征的分類方法。前者主要側重于基于意見詞和意見句的情感提取和情感分類[24-25],后者側重于基于特征的情感分類。文獻[26]基于測量詞或短語相似性的點態(tài)相互信息和信息檢索(Pointwise Mutual Information and Information Retrieval,PMI-IR)算法提出了位置特征(Positional Features,PosF)和觀點詞特征(Opinion-bearing Word Features,ObWF)。文獻[27]結合多種特征,使用SVM進行分類。隨著深度學習的發(fā)展,詞嵌入、CNN和RNN在文本情感分析中的應用取得了顯著的效果。文獻[28]提出了樹形結構的LSTM網(wǎng)絡來改善語義表征。文獻[29]在情緒分析中利用遞歸神經(jīng)網(wǎng)絡構造句子層次的表示向量。
利用CNN生成的粗粒度局部特征和LSTM學習遠程依賴關系的特點,本文采用聯(lián)合CNN和LSTM的模型來提取字幕特征。我們將字幕文本通過詞嵌入操作生成的向量表示作為CNN網(wǎng)絡的輸入。詞嵌入是將句子中的詞語轉(zhuǎn)化成向量表示的過程,在自然語言處理中有著重要作用,常用的詞嵌入方法有隨機初始化和無監(jiān)督預置訓練,本文使用word2vec方法對詞級嵌入進行無監(jiān)督學習。設v為詞袋(bag-of-words)大小,d為詞嵌入長度,l為句子的長度,一個句子可由下面的向量表示:
C=[C1,C2,…,Cl]C∈Rd×l
(8)
Ci∈Rd對應于句子中第i個單詞的詞嵌入,有:
Ci=Q[wi]wi∈[1,v],i∈[1,l]
(9)
式中:Q∈Rd×v。得到的句子級表示向量作為CNN網(wǎng)絡的輸入,與普通CNN不同的是,在卷積運算中應用了不同長度和不同權重的窗口,如圖6(a)所示。
(a) (b)圖6 文本向量輸入CNN網(wǎng)絡示意圖
最大池作用于相鄰的特征,并從左到右移動,而不是整個句子,如圖6(b)所示。在這種情況下,CNN模型中生成的特征圖保留了句子上下文中的順序信息。在暴力文本數(shù)據(jù)集上訓練該CNN模型,訓練好的模型可以作為字幕文本的編碼局部特征提取器。
圖6中,ci代表句子級表示向量經(jīng)過卷積后的特征,卷積核大小為H∈Rd×w,w表示詞窗口長度。pi表示最大池化提取的特征,組合不同窗口的卷積池化操作結果得到最終特征。由于LSTM可以處理順序輸入并學習長期依賴關系,因此將這些特征作為LSTM的輸入并在字幕文本數(shù)據(jù)集上進行訓練,訓練好的模型去掉最后一層全連接層,得到的輸出可以作為字幕特征表示。模型的整體結構如圖7所示。
圖7 文本向量輸入CNN網(wǎng)絡示意圖
在3.1中的文本數(shù)據(jù)集上,將此特征方法和已有方法進行對比,實驗結果如表3所示。
表3 不同文本特征方法對比實驗結果
可以看出,使用訓練后的CNN+LSTM的模型進行字幕特征提取,得到的特征用于暴力場景檢測相比于其他方法具有較高的mAP值。
本節(jié)介紹了FoAVS模型的融合部分。對于音頻、視頻和字幕特征模型,本文采用三種融合策略(早融合、晚融合和雙融合)分別建立三種融合模型來進行暴力場景檢測,驗證每個模型的分類效果。為了驗證融合方法的有效性,本文還分別基于單模態(tài)的視頻、音頻和字幕特征進行了實驗。
早期融合,又稱特征融合,是指對每種模態(tài)提取的特征在分類操作前進行融合。在基于早期融合的多媒體事件檢測系統(tǒng)中,此方法首先對個體特征進行單獨提取,然后將提取的特征合并為每個視頻的單個特征向量表示。最簡單的融合方法是將視聽和字幕特征直接串聯(lián)起來,然而,不同通道特征具有不同的含義,并且位于不同的特征空間,直接合并具有不同含義和歧義的幾類特征有時會導致識別性能下降。因此,如何消除多模態(tài)的“語義鴻溝”,考慮多模態(tài)間的關系,建立共享的特征融合空間,仍然是一個需要解決的技術問題。
為了充分利用特征之間的相關性和互補性,本文在原有單通道網(wǎng)絡的基礎上引入了一個共享的特征融合層,通過新創(chuàng)建的特征融合層將每個模態(tài)特征轉(zhuǎn)化為相同的特征表達空間。模型結構如圖8所示,本文以數(shù)據(jù)為驅(qū)動,對第2節(jié)中的模型分別進行訓練,訓練后的模型可以得到音頻信號、視頻幀以及字幕文本的特征表示。
圖8 早融合模型示意圖
音頻模型得到一個256維的特征向量,視覺模型和字幕模型得到一個512維的特征向量,然后將這三個特征向量輸入到一個全連通的特征融合層得到單個視頻的特征表示,其中視覺通道和字幕通道的全連接神經(jīng)元數(shù)量為256個,聽覺通道的全連接神經(jīng)元數(shù)量為125個。用得到的融合特征表示作為監(jiān)督分類器的輸入進行訓練,最終得到視頻的分類結果。這里的監(jiān)督分類器我們選用SVM分類器,不使用神經(jīng)網(wǎng)絡分類層進行分類是為了更好地與傳統(tǒng)單通道手工特征的分類效果進行對比,使分類效果僅決定于不同的特征輸入而非分類器。
為了驗證使用全連接層融合不同模態(tài)特征對于消除和減小“語義鴻溝”的有效性,我們在3.1中的數(shù)據(jù)集上對該方法和普通的串聯(lián)融合方法進行了對比,實驗結果如表4所示。
表4 全連接層融合與串聯(lián)融合對比
可以看到,相比于傳統(tǒng)的串聯(lián)融合方法,采用全連接層進行特征融合的方法具有更高的mAP值,在一定程度上消除了不同模態(tài)特征間的語義間隔,驗證了該方法的有效性。采用全連接層對特征進行融合,提高了早融合的分類效果。
晚融合又稱決策融合,與早期融合相似,以分別提取不同模態(tài)的特征描述作為第一步,不同的是每個模態(tài)的特征都被用來訓練各自獨立的分類器。在測試階段,來自不同模型的預測分數(shù)被組合起來產(chǎn)生最終的分數(shù)。通常,晚期融合方案將學習到的單模態(tài)分數(shù)合并成多模態(tài)表示。晚融合模型結構如圖9所示。
圖9 晚融合模型示意圖
與早期融合相比,晚期融合側重于模式的個體強度。融合階段有許多方法來合并分數(shù)。一種方法是在融合后學習概念的最終得分,另一種方法是對分數(shù)進行平均或加權平均,我們選用第二種方法中的加權平均。對于音頻模型分類得分η1,視頻模型分類得分η2和字幕模型分類得分η3,晚融合模型的分類得分為:
η=ω1η1+ω2η2+ω3η3
(10)
式中:ω1、ω2和ω3分別為三種模型的權重。一般取ω1=ω2=ω3,但在暴力場景檢測上,視覺信息所具有的重要性往往高于聽覺信息和字幕信息。例如,我們可以根據(jù)畫面中出現(xiàn)的血腥鏡頭直接將視頻歸類為暴力而不需要音頻的額外信息,但僅通過音頻中的尖叫和哭泣或字幕中出現(xiàn)的帶有憎惡和憤怒的情緒文本不能完全判定視頻為暴力,因為這種情況可能發(fā)生在充滿喜悅和驚喜的場景中。經(jīng)過實驗,我們最終確定ω1、ω2和ω3的值分別為0.3、0.6和0.2。
雙融合是早融合和晚融合的結合。在雙融合中,我們首先進行早期融合,從單個特征的特征池的子集中生成不同的特征組合,然后對每個特征或特征的組合訓練分類器,并對這些分類器的輸出進行后期融合。雙融合的后期融合階段,結合了不同特征的模型得分信息,而不再是單一的視頻、音頻和字幕模型,所以應采用加權平均策略。對于模型最后的得分μ有:
μ=ωη1+ωη2+…+ωηk
(11)
圖10 雙融合模型示意圖
在人群暴力數(shù)據(jù)集(Violent Flow,VIF)上進行實驗。VIF數(shù)據(jù)集是由以色列開放大學創(chuàng)建的人群數(shù)據(jù)集,主要關注的是人群暴力行為,由246個視頻組成,所有的視頻都是從YouTube上剪輯的,視頻來源是真實的現(xiàn)實暴力錄影。該數(shù)據(jù)集旨在為檢驗暴力/非暴力分類和暴力標準提供測試依據(jù)。視頻中,最短剪輯的持續(xù)時間為1.04秒,最長剪輯6.52秒,視頻片段的平均長度為3.60秒。由于VIF數(shù)據(jù)集中的音頻多為音樂或是新聞報道等與暴力信息無關的聲音信息且不含字幕。為了方便研究視聽和字幕信息結合的效果,在音頻上,我們用ffmpeg將視頻原有的音頻剔除,并用暴力音頻數(shù)據(jù)集VioAudio中的暴力(非暴力)音頻片段進行替換。VioAudio數(shù)據(jù)集包含100個暴力音頻數(shù)據(jù)以及100個非暴力音頻數(shù)據(jù),原始數(shù)據(jù)來源于多媒體評估挑戰(zhàn)MediaEval2012中的電影音頻,包含有打斗聲、尖叫聲、撞車聲和爆炸聲等。這些聲音疊加在各種背景聲音上,具有不同的信噪比({5,10,…,30}dB)。
在字幕上,由于現(xiàn)有暴力視頻數(shù)據(jù)集中都不包含匹配字幕,且本文的字幕模型注重字幕情感分析而非內(nèi)容識別,所以我們采用后期處理技術為視頻增加對應情感的字幕。我們使用simplifyweibo_4_moods數(shù)據(jù)集,它包含36萬多條帶情感標注的文本,包含4類情感,其中喜悅約20萬條,憤怒、厭惡、低落各約5萬條。我們在憤怒和厭惡的文本中挑選出500條具有暴力暗示的文本作為暴力視頻的字幕,在喜悅和低落中挑選出500條正常文本作為非暴力視頻的字幕,通過ffmpeg將字幕添加到視頻中。
此外,我們對數(shù)據(jù)量進行了擴展,視頻方面我們收集了大約50部包含暴力的電影和20多個YouTube上的短視頻并對它們進行剪輯,得到的數(shù)據(jù)作為暴力樣本的補充,非暴力樣本多使用多媒體評估挑戰(zhàn)MediaEval2015中的視頻片段。音頻方面我們在測試集中新增了幾種情況,包括感興趣聲音的能量等于或低于背景聲音的能量,即具有零信噪比或負信噪比的情況,這樣做的目的是檢驗系統(tǒng)在不同信噪比條件下的魯棒性,本文中只針對音頻信噪比進行研究。完整的數(shù)據(jù)集描述如表5所示。
表5 數(shù)據(jù)集描述
對于數(shù)據(jù)集中的視頻,我們采用手工標注的方法將其分為三類:非常暴力、一般暴力和非暴力。實現(xiàn)對視頻暴力程度的評價。預處理方面,2.1、2.2和2.3中描述的預訓練模型被用來分別提取音頻特征、視覺特征和字幕特征。由于表征學習提取特征的準確性依賴于數(shù)據(jù)的規(guī)模和質(zhì)量,為了克服數(shù)據(jù)量不足的問題,我們采用旋轉(zhuǎn)變換、翻轉(zhuǎn)變換、剪切變換、尺度變換、平移變換、尺度變換、顏色抖動、噪聲擾動等方法對數(shù)據(jù)進行擴展,訓練特征提取模型,從而獲得更準確的特征。
我們采用廣泛使用的三個指標來評價模型的分類效果,分別是:準確率(Accuracy,A)、平均精度(Average Precision,AP)和平均精度均值(mean Average Precision,mAP)。準確率是最常見的評價指標,它的定義如下:
(12)
式中:TP(True Positives)表示實際為正例且被分類器劃分為正例的實例數(shù)(樣本數(shù)),TN(True Negatives)表示實際為負例且被分類器劃分為負例的實例數(shù),F(xiàn)N(False Negatives)表示實際為正例但被分類器劃分為負例的實例數(shù),F(xiàn)P(False Positives)表示實際為負例但被分類器劃分為正例的實例數(shù)。平均精度AP有兩種計算方法:十一點法和面積法。十一點法將召回率空間限制在11個,得到的結果不能反映樣本的全局性。因此,我們采用面積法計算AP,可由如下式子得到:
(13)
其中:
(14)
對于數(shù)據(jù)集中的視頻,用ffmpeg分離音頻信號、視頻畫面和字幕文本,分別送入對應的特征提取模型。視頻每半秒取一幀,獲取的幀先輸入到50層殘差網(wǎng)絡中,每幀提取2 048維特征向量,然后,將2 048維特征向量輸入Bi-LSTM網(wǎng)絡,輸出512維特征向量作為視覺特征。由于每個視頻的長度不同,我們首先在訓練集中的所有視頻中找到平均10幀,以保證輸入Bi-LSTM的序列長度不變,然后對大于10幀的任意幀使用截斷方法,所有視頻輸出的特征尺寸大小相同。音頻模型中,需要選擇配置COPE特征提取器支持的大小,即在參考點周圍考慮能量峰值的時間間隔長度。實驗證明,過大的間隔需要計算和組合更多的能量峰的響應,這增加了每個特征提取器的處理時間,本文我們選擇200 ms,生成256維特征向量作為音頻特征。字幕模型中,我們設置兩個卷積窗口,分別為4和5,在拼接層中我們將兩個卷積操作的結果進行通道堆疊。
早融合階段用于融合特征的全連接層,音頻神經(jīng)元個數(shù)為125,視覺神經(jīng)元個數(shù)為256,分類器采用多分類SVM和RBF核函數(shù)(高斯核函數(shù)),gamma值取默認的1/k,k為特征數(shù),懲罰系數(shù)為0.01。晚融合和雙融合分類器設置同早融合保持一致,雙融合方法中我們采用了各自模型對比實驗中的特征以及他們的融合。
實驗主要有兩個方向,一個是我們的融合模型與單模態(tài)模型的分類效果對比,驗證融合模型的有效性。為了測試字幕特征的作用,我們還與不加字幕特征僅融合本文視聽特征的模型做了對比。另一個是我們的模型與現(xiàn)有一些暴力檢測方法的對比,驗證本文提出的模型在暴力檢測上的效果。由于使用了對音頻信噪比變化有較強魯棒性的COPE特征,為了測試融合模型的魯棒性,我們分別在正信噪比數(shù)據(jù)下和負信噪比數(shù)據(jù)下進行第二個實驗。
表6展示了本文的融合模型與單模態(tài)模型和僅融合視聽特征的模型在3.1中暴力數(shù)據(jù)集下的對比。Acc代表準確率,p1、p2、p3代表三類事件,即非常暴力、一般暴力和非暴力。我們采用三種融合策略來構建融合模型FoAVS,F(xiàn)oAVS-Early、FoAVS-Late和FoAVS-Double分別表示采用早融合、晚融合和雙融合的融合模型,F(xiàn)oAV-Early、FoAV-Late和FoAV-Double分別表示不融合字幕特征僅對本文的視聽特征進行融合的早融合、晚融合和雙融合模型。由表6中我們可以看到,采用三種融合策略進行融合后特征方法的Acc和mAP值均高于單通道的音頻、視頻和文本特征方法,驗證了融合特征方法的有效性。同時,融合了字幕特征的FoAVS模型在Acc、mAP上均比未融合字幕特征的模型FoAV要高,驗證了字幕特征在暴力場景檢測中的作用。三種融合策略上,采用早融合的模型FoAVS-Early實驗結果具有最高的Acc和mAP值,且其在p1、p3事件上的AP值最高。但在p2事件上,采用晚融合的FoAVS-Late取得了最高的AP值,這可能是由于早融合和雙融合中多模態(tài)特征的“語義鴻溝”導致某些事件上的識別性能有所下降,也與晚融合中不同模型的權重選擇有關,但總體上差別不大。在整體上可以認為,采用早融合的FoAVS-Early模型結合了不同模態(tài)特征所提供的信息,具有最好的分類效果。
表6 融合模型與單模態(tài)模型對比
續(xù)表6
表7、表8分別展示了我們的融合模型與現(xiàn)有的一些暴力檢測方法模型在正信噪比數(shù)據(jù)和零、負信噪比數(shù)據(jù)下的對比結果。其中BoAW表示文獻[6]中的音頻詞袋模型。CNN+CNN表示文獻[7]中基于深度學習的CNN音視頻特征的方法。HCRFs+VioLoc表示文獻[10]中聯(lián)合基于HCRFs監(jiān)督方法的音頻模型與定位暴力區(qū)域的視頻模型的暴力檢測方法。MFCC+MV表示文獻[11]中結合音頻MFCC特征和視頻運動矢量MV特征的暴力檢測方法。CNN+ResNet表示文獻[12]中結合CNN音頻特征和ResNet視頻特征的暴力檢測方法??梢钥闯?,在正信噪比數(shù)據(jù)集上,我們的FoAVS模型相比于其他模型具有更高的Acc和mAP值,效果更好。其中,基于早融合策略的FoAVS-Early模型的Acc、mAP、AP-p1和AP-p3值最高,基于晚融合策略的FoAVS-Late模型在AP-p1上數(shù)值最高。FoAVS-Early整體上優(yōu)于其他模型。正信噪比數(shù)據(jù)下,F(xiàn)oAVS模型與文獻[12]中的模型效果差別不大,雖然有優(yōu)勢但不夠明顯。
表7 正信噪比數(shù)據(jù)下不同模型對比
但在零、負信噪比數(shù)據(jù)上,傳統(tǒng)方法對信噪比變化魯棒性不高的缺點暴露了出來,各項評價指標上的數(shù)值與在正信噪比數(shù)據(jù)上的數(shù)據(jù)相差較大,而我們的FoAVS模型這種情況下仍能保持較高的精度和mAP得分,且在三種融合方法下的Acc、mAP、AP-p得分均高于其他模型,與其他模型相比有明顯優(yōu)勢。同時,基于早融合策略的FoAVS-Early模型在各項指標上均取得了最好的數(shù)值,效果最佳。
表8 零、負信噪比數(shù)據(jù)下不同模型對比
結合表6、表7和表8我們可以得出結論:我們的FoAVS融合視聽與字幕信息的模型在暴力場景檢測上的效果比單通道模型以及只融合視聽特征的模型更好,提升了分類精度和準確率。同時,在測試數(shù)據(jù)信噪比為正值的情況下,我們的模型較現(xiàn)有模型取得了不錯的效果,而在數(shù)據(jù)信噪比變化的情況下,我們的模型較現(xiàn)有模型有較大優(yōu)勢,魯棒性更強。由于暴力片段多出現(xiàn)在監(jiān)控系統(tǒng)和網(wǎng)絡視頻片段中,數(shù)據(jù)信噪比隨時可能發(fā)生改變,甚至出現(xiàn)負信噪比和零信噪比的情況,因此,我們的模型對數(shù)據(jù)信噪比變化的高魯棒性特點,具有很好的實用性和廣泛的應用前景。此外,基于早融合策略的FoAVS-Early模型在實驗的各項指標中得分較高,具有最佳的性能,提升了暴力場景檢測的分類精度。
需要指出的是,基于深度學習的特征提取往往需要大量的數(shù)據(jù)來習得更具代表性的特征,但由于暴力視頻資源較難收集,我們的數(shù)據(jù)集規(guī)模還不是很大。通過旋轉(zhuǎn)變換、尺度變換等方式對數(shù)據(jù)進行擴充,可能并不是一個比較好的方法,在一定程度上限制了實驗結果的提升。此外,由于現(xiàn)有的暴力數(shù)據(jù)集沒有匹配的對應字幕,在人工增加視頻字幕時只考慮了字幕情感而忽略了字幕內(nèi)容的匹配,使用與視頻內(nèi)容相匹配的字幕可能會更加凸顯字幕特征的重要性。但整體上來說,融合視聽與字幕信息的模型總體效果可以得到驗證。
圖11展示了一個暴力分類樣例,并提供了分類的真實標簽,其中輸入的數(shù)據(jù)信噪比為負值。對于人而言,即使這種情況下,也很容易就可以判斷出視頻內(nèi)容的暴力性,但機器很難提取負信噪比情況下的感興趣部分信息??梢钥吹絺鹘y(tǒng)手工融合特征的模型分類效果不理想,部分模型分類結果雖然正確但得各標簽得分相近,容易造成混淆。而我們的模型在這種情況下具有良好的準確性和不錯的效果。
圖11 暴力分類樣例
本文提出了融合視聽和字幕特征的模型FoAVS用于暴力場景檢測。通過將COPE音頻特征,ResNet+Bi-LSTM視覺特征以及CNN+LSTM的字幕特征通過三種不同的融合方法建立三種融合模型進行暴力場景的檢測,模型的分類效果較傳統(tǒng)單通道特征模型以及只融合視聽特征的模型有明顯提升,其中基于早融合策略的FoAVS-Early模型效果最佳。在與現(xiàn)有方法的比較中我們的模型也取得了不錯的效果,尤其是在數(shù)據(jù)信噪比變化的情況,模型具有更好的魯棒性,優(yōu)勢明顯。
未來的工作重心一個是擴充數(shù)據(jù)集規(guī)模,現(xiàn)階段暴力視頻資源還比較稀缺,這阻礙了有關暴力檢測的研究進展,更大的數(shù)據(jù)集往往可以訓練出效果更好的模型。另一個重點將會是對于不同特征以及更多特征在融合方面的嘗試。同時,本模型在精度和魯棒性上也有很大提升空間,后續(xù)將考慮為視頻增加內(nèi)容與情感都匹配的字幕,完善數(shù)據(jù)集從而更大程度上發(fā)揮字幕特征的作用。此外,不同的分類器和核函數(shù)也許能帶來意外的效果。