□萬玉萍 楊 玲
在通信與互聯(lián)網(wǎng)普及的今天,數(shù)字視頻在網(wǎng)絡(luò)上的傳播更加容易,在全世界范圍內(nèi)形成了海量的數(shù)據(jù)庫(kù)。面對(duì)這些海量的視頻信息,如何對(duì)它進(jìn)行有效地組織、管理、分類以及檢索,近年來已經(jīng)成為國(guó)內(nèi)外眾多學(xué)者研究的主要熱點(diǎn)之一,也是極具挑戰(zhàn)性的研究課題。
目前,視頻分類的主流解決思路是采用基于視頻內(nèi)容的處理和檢索,主要通過以下兩類方式實(shí)現(xiàn):
一、部分區(qū)域固定特征監(jiān)測(cè)方式。即通過逐幀的分析視頻圖像,定位圖像中需要查詢的相關(guān)特征,根據(jù)此特征的匹配程度,確定圖形和視頻是否屬于暴恐視頻。此類方法的代表性處理手段有:匹配暴恐組織旗幟或臺(tái)標(biāo),匹配服飾特征,匹配特定性人物等。通常要實(shí)現(xiàn)此類方法,需要采用人臉識(shí)別、紋理識(shí)別、相似度計(jì)算等方法。
該方式的缺點(diǎn)是由于過度依賴固定特征和固定區(qū)域,當(dāng)暴恐視頻內(nèi)容發(fā)生變化時(shí),難以有效區(qū)分。具體而言,在采用一些暴恐組織的旗幟、臺(tái)標(biāo)等特定特征進(jìn)行識(shí)別時(shí),對(duì)于基于該類組織的暴視頻的識(shí)別效果會(huì)比較好。然而一旦出現(xiàn)新的暴恐組織或者該組織改用新的旗幟和臺(tái)標(biāo),即這些特定特征發(fā)生變化了,新的暴恐視頻就很難在該類識(shí)別算法中被分類出來。
二、圖像整體特征方式。即通過圖像特征提取算法,獲得圖像整體系統(tǒng)特征,通過大量數(shù)據(jù)的訓(xùn)練,獲得分類器模型,利用此分類器模型實(shí)現(xiàn)對(duì)后續(xù)的圖像視頻的分類識(shí)別。此類方法中采用的圖像特征提取算法通常有:SIFT 算法、灰度共生矩陣法、傅里葉功率譜法等。
該方式的缺點(diǎn)是由于采用的是固定特征提取算法,當(dāng)視頻中摻雜了干擾數(shù)據(jù)后,此類算法將會(huì)獲得大量帶噪音的特征,極大降低分類的效果。尤其在海量數(shù)據(jù)下,難以適應(yīng)特定需求。具體而言,在采用一些現(xiàn)成的暴恐視頻比如暴恐組織進(jìn)行教授爆炸物制作方法的視頻進(jìn)行整體特征提取后,一旦遇到跟此特征比較相似行為的視頻(如影視劇中相似的情節(jié),甚至是動(dòng)畫片中有類似的情節(jié))等,都可能會(huì)被歸類為暴恐而被識(shí)別出來,導(dǎo)致分類效果大打折扣。
通過對(duì)現(xiàn)有視頻分類技術(shù)深入分析,現(xiàn)在出現(xiàn)了基于內(nèi)容的深度網(wǎng)絡(luò)特征的視頻分類技術(shù),該技術(shù)分為線下訓(xùn)練和線上預(yù)測(cè)兩大部分。
線下訓(xùn)練部分:用戶提供同時(shí)包含敏感視頻和正常視頻的訓(xùn)練數(shù)據(jù)。該技術(shù)從這些訓(xùn)練數(shù)據(jù)中提取視頻幀并利用深度人工神經(jīng)網(wǎng)絡(luò)從中抽取能夠表示視頻內(nèi)容的視覺特征。深度神經(jīng)網(wǎng)絡(luò)在一定程度上模仿了人腦對(duì)于外在世界的從粗到細(xì)的視覺感知過程。因此,較傳統(tǒng)經(jīng)驗(yàn)設(shè)計(jì)的諸如顏色、紋理、SIFT 直方圖等特征,基于深度網(wǎng)絡(luò)得到的視覺特征能夠在多個(gè)粒度上更有效地描述視頻內(nèi)容。因此該種特征特別適用于分析含有復(fù)雜內(nèi)容的視頻數(shù)據(jù)。再進(jìn)一步通過結(jié)合后續(xù)的有監(jiān)督學(xué)習(xí),該描述能夠自動(dòng)識(shí)別區(qū)分暴恐視頻與正常視頻的視覺模式。該技術(shù)與其他視頻檢索分類算法相比,其優(yōu)勢(shì)在于識(shí)別過程不依賴于人為指定的特征庫(kù),比如特定臺(tái)標(biāo)、旗幟等,這就使得該技術(shù)對(duì)于未知暴恐視頻有更好的適應(yīng)性。
分類器訓(xùn)練模塊主要是建立用于區(qū)分敏感視頻和正常視頻的決策模型??紤]到訓(xùn)練數(shù)據(jù)量很大,且正負(fù)樣本分布極不平衡,即敏感視頻相對(duì)只占極少部分。因此,傳統(tǒng)的分類器訓(xùn)練方法在此場(chǎng)景下并不適用。為此,設(shè)計(jì)了一種基于迭代集成學(xué)習(xí)的訓(xùn)練算法,即通過多次加權(quán)采樣,解決大數(shù)據(jù)量和樣本分布不平衡問題——綿羊sheep。該技術(shù)通過多輪迭代,自動(dòng)從海量數(shù)據(jù)中找到最容易被錯(cuò)分為sheep的訓(xùn)練樣本。將這些樣本加到線下訓(xùn)練部分,可提高視頻分類技術(shù)的判別能力。
線上預(yù)測(cè)部分:未知視頻數(shù)據(jù)。同樣調(diào)用特征提取模塊從中抽取視頻特征,然后利用已訓(xùn)練好的決策模型對(duì)它們進(jìn)行預(yù)測(cè),并返回可能性最大的視頻供人工檢驗(yàn)。在保證100%召回率(把所有目標(biāo)視頻都找到)的前提下,該技術(shù)能夠有效排除大量正常視頻,從而極大提高人工檢索的效率。
將一組(10 個(gè))暴恐測(cè)試視頻的視頻幀集隨機(jī)摻入一個(gè)包含120 萬張網(wǎng)絡(luò)圖片的數(shù)據(jù)集中,技術(shù)對(duì)所有圖像、視頻進(jìn)行打分并排序,檢查需要查看多少?gòu)垐D片,才能完全找到這10 個(gè)暴恐視頻(檢測(cè)準(zhǔn)確率)。
這10 個(gè)暴恐視頻,在技術(shù)打分排序后的位置分別為:第1,24,28,35,69,90,121,123,125,135 處。也就是說要完全確定這10 個(gè)暴恐視頻,只需要人工查看前135 個(gè)預(yù)測(cè)結(jié)果即可,檢測(cè)準(zhǔn)確率為:10/135=7%
在上述實(shí)驗(yàn)中,針對(duì)模糊暴恐視頻如何提高技術(shù)的識(shí)別分類能力。采用增加訓(xùn)練集合樣例的方式,重新訓(xùn)練模型。讓技術(shù)識(shí)別能力得到進(jìn)一步提升。為個(gè)別類型的視頻,建立單獨(dú)的分類器,從而更精確區(qū)分特殊視頻。利用音頻處理技術(shù),實(shí)現(xiàn)對(duì)特定暴恐聲音分類,輔助于圖像的分類技術(shù),將會(huì)進(jìn)一步提高視頻的檢測(cè)準(zhǔn)確率。