袁韶祖,王雷全,吳春雷
(中國石油大學(xué)(華東)計算機(jī)科學(xué)與技術(shù)學(xué)院,青島 266580)
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,大量針對物體、人臉、動作等維度的識別技術(shù)涌現(xiàn)出來.而隨著監(jiān)控技術(shù)和短視頻APP 的廣泛應(yīng)用,視頻場景識別已成為一項(xiàng)極具科研價值和應(yīng)用價值的技術(shù).它的具體任務(wù)是給定一個特定的視頻進(jìn)行鏡頭分割,通過提取關(guān)鍵幀,輸出場景的類別.目前主流的算法是使用視頻級別的特征直接進(jìn)行場景分類.然而這種方法只考慮到了視頻級的全局特征,卻忽略了富含更多信息的局部特征以及其中存在的關(guān)聯(lián).針對以上問題,本文提出了一種新的模型,該模型利用視頻級別的全局信息和物體級別的局部信息,提供更加豐富的推斷信息.同時,本文采用了注意力機(jī)制來篩選對于視頻場景識別重要程度高的特征,這一過程既增強(qiáng)了全局信息和局部信息的關(guān)聯(lián),同時也實(shí)現(xiàn)了對于特征的降維,有效地加速了模型的收斂.與官方開源的模型相比,本文提出的模型在準(zhǔn)確率上取得了非常大的提升,這進(jìn)一步說明了該模型的有效性.
本文中,創(chuàng)新點(diǎn)可以總結(jié)歸納為如下3 點(diǎn):
1)本文在視頻場景分類中構(gòu)造了全局和局部的多粒度的特征.
2)本文提出全新的注意力機(jī)制的場景分類模型,該模型可以很好的通過注意力機(jī)制將兩種粒度的特征融合,并對結(jié)果進(jìn)行降維.
3)新模型準(zhǔn)確率比官方發(fā)布的基于CNN 網(wǎng)絡(luò)的模型提高了12.42%,這進(jìn)一步證明我們的模型的有效性和優(yōu)越性.
特征在計算機(jī)視覺領(lǐng)域中扮演著重要的角色,選擇合適的特征可以極大的提升模型的性能.早期視頻特征主要使用VGG 特征,該模型由Simonyan K 等提出,也大量應(yīng)用在圖像識別領(lǐng)域.后來何凱明通過殘差的思想實(shí)現(xiàn)了101 層的CNN 模型,得到了擬合更強(qiáng)的網(wǎng)絡(luò)[1].Resnet 作為特征提取網(wǎng)絡(luò)被廣泛應(yīng)用于視頻識別和圖像描述等領(lǐng)域[2].Jiang YG 等使用resnet 作為視頻級特征實(shí)現(xiàn)了視頻場景分類的基礎(chǔ)模型[3].使用Resnet 提取的視頻級特征也被稱作RGB 特征.然而視頻幀之間是存在時空關(guān)系的,采用RGB 特征無法表征出這種時序關(guān)系[4].為了解決這一問題,Tran D 等提出了空間卷積(C3D)的網(wǎng)絡(luò)來獲取時空的信息[5].Sun DQ 等提出利用幀之間的差異性計算時空信息的“光流法”[6].這兩種跨時空特征被廣泛的應(yīng)用于視頻是被,動作識別等領(lǐng)域[7].以上特征都可以被視作視頻級別的特征,未從更細(xì)的粒度考慮視頻內(nèi)部的語義特征聯(lián)系.Ren SQ 等認(rèn)為,細(xì)粒度的特征有利于增強(qiáng)模型對于視覺信息的理解,為了得到這種信息,他們在較大的視覺檢測數(shù)據(jù)集上訓(xùn)了Faster-RCNN[8]用于識別目標(biāo)圖像中的物體,同時提出檢測模型標(biāo)識每個物體的中間特征,并將所有特征級聯(lián)起來作為圖像的總體特征[9].該模型首次提出后被應(yīng)用于圖像描述和圖像問答領(lǐng)域,并取得了不錯的成績.我們認(rèn)為,該特征同樣可以應(yīng)用于視頻理解領(lǐng)域.
注意力機(jī)制在深度學(xué)習(xí)領(lǐng)域有著極為重要和深遠(yuǎn)的影響,被廣泛應(yīng)用各個領(lǐng)域中.在機(jī)器翻譯領(lǐng)域,早期的Encode-Decoder 模型不能很好的解碼源語言中的重點(diǎn)信息,為了解決這一問題,Bahdanau 等將注意力機(jī)制最早應(yīng)用于機(jī)器翻譯的解碼階段[10].受到這種思維的啟發(fā),Xu K 等意識到圖像領(lǐng)域也存在需要重點(diǎn)關(guān)注的區(qū)域,于是他們將注意力機(jī)制引入到圖像描述中來,并創(chuàng)造性的提出了兩種注意力機(jī)制:軟注意力和基于強(qiáng)化學(xué)習(xí)的硬注意力[11].在這之后注意力機(jī)制在各個領(lǐng)域大放異彩,陸續(xù)出現(xiàn)了很多新式的注意力機(jī)制.在圖像描述領(lǐng)域,Lu JS 等提出了when to look 注意力,去決定在圖像描述過程中應(yīng)該注意圖像還是注意文本[12].在圖像問答中,Lu JS 等 提出公用注意力機(jī)制,從理論層面將注意力矩陣逆置之后用于兩種模態(tài)[13],Kim JH 提出雙線性注意力[14],相當(dāng)于給注意力矩陣降維,但是最終的結(jié)果不變,兩種注意力都可以降低運(yùn)算復(fù)雜度,有利于采用更深的注意力網(wǎng)絡(luò),從而提升效果.在對抗生成領(lǐng)域,Kim J 將注意力機(jī)制引入到了生成對抗網(wǎng)絡(luò),通過網(wǎng)絡(luò)自適用的決定應(yīng)該更注重哪一區(qū)域的生成,用來生成更高質(zhì)量的圖[15].即便是在最新谷歌提出的Transfromer 和Bert 中,也采用了自注意力機(jī)制,用來解決自然語言中超遠(yuǎn)距離詞的依賴問題,該模型在自然語言界引起了極大轟動[16].由于注意力機(jī)制在人工智能領(lǐng)域的出色表現(xiàn),因此在實(shí)驗(yàn)中也會用注意力機(jī)制來提升本文所提出模型的能力.
Resnet 是深度卷積神經(jīng)網(wǎng)絡(luò)的一種,它在原有的較淺層次的卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上添加了“殘差”機(jī)制,因此再反向傳播的過程中可以保證導(dǎo)數(shù)不為0,從而避免了深層網(wǎng)絡(luò)出現(xiàn)梯度彌散的現(xiàn)象,有效的增加了卷積的擬合性.Resnet 的殘差過程可由式(1)表示:
其中,x是輸入的特征圖,F代表卷積,W是用來調(diào)整x的channel 維度的,y是當(dāng)前殘差的輸出.
由于Resnet 的輸出可以作為對圖片信息的一個較強(qiáng)的表征,本文采用這種特征作為視頻場景的一個全局表示,即粗粒度特征.
Faster-RCNN 是一種比較新且準(zhǔn)確率較高的檢測模型,其原理和SPPnet[6]和Fast-RCNN[17]這些模型有很大差別,這些模型雖然減少了檢測網(wǎng)絡(luò)運(yùn)行的時間,但是計算區(qū)域建議依然耗時依然比較大.Faster-RCNN采用了區(qū)域建議網(wǎng)絡(luò)(region proposal network)用來提取檢測物體的區(qū)域,它和整個檢測網(wǎng)絡(luò)共享全圖的卷積特征,極大的降低區(qū)域建議網(wǎng)絡(luò)所花時間,從而提升了檢測的效率和質(zhì)量.
在本文中,Faster-RCNN 作為檢測器標(biāo)識出視頻圖片中的物體信息,每一個物體區(qū)域分別作為改物體的特征表示,這種檢測得到的特征作為細(xì)粒度的特征表示.
圖1是本文所提出的場景識別模型,這里所采用的的注意力機(jī)制是一種典型的注意力架構(gòu)[10],并在此基礎(chǔ)上設(shè)計了多粒度特征的注意力融合模型.在3.1 中檢測模型Faster-RCNN 提取提取到的檢測特征S是一個n×D維的向量,即對應(yīng)于n個不同物體的子區(qū)域,每個區(qū)域都是一個D維的向量,可由如下字母表示:
其中,RD表示屬于D維度,Si表示第i個物體的圖像區(qū)域.對于每個物體的特征表示,式(3)中本文借鑒注意力分配函數(shù) ?[18]根據(jù)細(xì)粒度檢測特征Si和全局特征Ii生成一個權(quán)重分布αi:
這里的分配函數(shù)是一種映射關(guān)系,它將兩種粒度的視覺信息通過單層神經(jīng)元映射到同一個維度空間,再相加得到權(quán)重,這個權(quán)重分布就包含了兩種粒度特征的融合信息.同時,該權(quán)重分布和Si的維度是一致的,通過后續(xù)的加權(quán)操作,既實(shí)現(xiàn)了對于多個物體特征的降維,又得到兩種信息融合的一個強(qiáng)表征信息.
在(4)式中,Softmax 函數(shù)對權(quán)重分布αi作歸一化處理得到注意力權(quán)重ai,這時ai介于0 到1 之間:
其中,ai表示視覺注意力模型中第i個物體的圖像對應(yīng)區(qū)域的權(quán)重.
最后,將注意力權(quán)重和相對應(yīng)的視頻圖像區(qū)域加權(quán)求和,得到該視頻場景的最終表示att,如式(5)表示:
式中,Si為視頻圖像的區(qū)域,αi為式(4)中attention學(xué)習(xí)得到的權(quán)重,這個權(quán)重是神經(jīng)網(wǎng)絡(luò)根據(jù)當(dāng)前輸入視覺信息自動生成的.
圖1 我們的模型架構(gòu)
在視頻場景識別中,首先將給定的視頻切割成一個視頻幀序列Ti(i=1,2,···,m),模型要對這m個特定視頻幀進(jìn)行場景分類的pi(i=1,2,···,m).接下來兩種特征的提取:我們使用深度卷積神經(jīng)網(wǎng)絡(luò)Resnet 提取視頻幀全局的視覺特征Ii(i=1,2,···,m),這同時也是即將進(jìn)行場景分類的幀的粗粒度的表示,該表示是一個D(2048)維的向量;同樣的,通過預(yù)訓(xùn)練的Faster-RCNN 提取視頻場景中的物體區(qū)域,也就是檢測特征,該特征是物體級別的細(xì)粒度信息,可以表示為S={S1,S2,···,SN},其中n代表檢測模型提取的物體區(qū)域個數(shù),實(shí)踐中n被設(shè)置為36.這個過程可用下面兩個公式表示:
為了示意方便,這里f代表深度卷積網(wǎng)絡(luò)Resnet,g代表檢測網(wǎng)絡(luò)Faster-RCNN.
得到多粒度的視覺特征后,新模型使用全局特征作為注意力機(jī)制的鍵值,通過注意力單元的計算得到n個注意力權(quán)重α.這里的權(quán)重α是由注意力模型根據(jù)不同物體重要程度學(xué)習(xí)得到的:物體重要程度越大,其權(quán)重值約接近于1;如果物體對于場景推斷越不重要要甚至起到干擾作用,其權(quán)重越接近于0.最后通過物體特征和注意力機(jī)制生成的權(quán)重加權(quán)計算得到融合多粒度信息表示的視覺特征att,這同時也實(shí)現(xiàn)了對于細(xì)粒度特征的降維,即從n×D維降維成D,所以att是一個D維的向量.這部分流程圖如圖1所示,可以由式(8)、式(9)概括:
最終,融合多粒度信息表示的視覺特征被輸入到一個分類器中.該分類器由一個兩層的神經(jīng)網(wǎng)絡(luò),和一個激活函數(shù)構(gòu)成,它的作用是將D維表示向量映射為d,d代表了場景分類的總數(shù),選取其中值對應(yīng)的最大的索引,該索引所對應(yīng)的場景表示就是最后輸出的場景分類的結(jié)果.分類器部分可以用式(6),式(7)表示:
式中,W1,W2代表兩層神經(jīng)網(wǎng)絡(luò)的可學(xué)習(xí)權(quán)重,logit是未經(jīng)過激活函數(shù)的值,p為最終的分類概率,概率最大的索引所對應(yīng)的場景即為神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果.
和已有的方法[3]相比,本文摒除了只采用單維度的CNN 特征或者將幾種CNN 特征簡單連接的方法.本模型通過已有的深度卷積和檢測的方法構(gòu)建了兩種不同粒度的特征.特別的,本文采用注意架構(gòu)將兩種粒度的信息巧妙融合在了一起,既實(shí)現(xiàn)了對信息的降維,同時增強(qiáng)了全局信息和局部信息的關(guān)聯(lián).
本文采用了在ChinaMM 大會上極鏈科技與復(fù)旦大學(xué)聯(lián)合推出全新視頻數(shù)據(jù)集VideoNet.該數(shù)據(jù)集具備規(guī)模大、維度多、標(biāo)注細(xì)三大特點(diǎn).VideoNet 包含近9 萬段視頻,總時長達(dá)4000 余小時.VideoNet 數(shù)據(jù)集對視頻進(jìn)行了事件分類標(biāo)注,并針對每個鏡頭的關(guān)鍵幀進(jìn)行了場景和物體兩個維度的共同標(biāo)注.考慮到算力等因素,該實(shí)驗(yàn)從中抽取了100 000 個視頻樣本的鏡頭分割和關(guān)鍵幀結(jié)果,推斷每個鏡頭的關(guān)鍵幀對應(yīng)的場景類別.為了保證模型的訓(xùn)練和測試效果,本實(shí)驗(yàn)按照6:2:2 的比例切隨機(jī)分?jǐn)?shù)據(jù)集,即使用60 000 數(shù)據(jù)訓(xùn)練,20 000 用于驗(yàn)證,20 000 用于測試.
模型的目標(biāo)是對給定的測試視頻樣本和鏡頭關(guān)鍵幀結(jié)果,推斷每個鏡頭的關(guān)鍵幀對應(yīng)的場景類別.因此可以通過以下公式判讀模型是否分類正確:
其中,G為關(guān)鍵幀場景類別的ground-truth,pi為場景預(yù)測輸出.如果該關(guān)鍵幀未出現(xiàn)訓(xùn)練集中任何一類場景,則Gi=–1.因此,準(zhǔn)確率公式可以定義為:
訓(xùn)練過程中該模型使用了交叉熵[19]作為損失,因此也可以通過交叉熵?fù)p失的變化判斷模型的優(yōu)化程度和模型訓(xùn)練是否收斂.損失函數(shù)可用公式表示為:
本文采用了準(zhǔn)確率和log 損失來評測模型的質(zhì)量和訓(xùn)練情況.在圖2中,我們繪制了測試損失和迭代次數(shù)的相關(guān)折線圖,不難看出本文提出的方法可以快速的收斂,loss 值在訓(xùn)練的過程中穩(wěn)定的下降,最終迭代次數(shù)為20 時得到最好的效果.結(jié)合圖3的準(zhǔn)確率曲線,通過觀察可以看出隨著訓(xùn)練損失的下降,模型的測試準(zhǔn)確率也在不斷提升,最高可以達(dá)到67.71%.由于模型訓(xùn)練了25 個迭代,通過圖3表所示,在超過20 個迭代次數(shù)的時候,模型的測試準(zhǔn)確率會有小幅度的下降,說明模型出現(xiàn)了過擬合現(xiàn)象.在表1中,我們列舉了模型迭代次數(shù)19 到迭代次數(shù)25 之間的準(zhǔn)確率,通過對比發(fā)現(xiàn),迭代次數(shù)為23 的時候模型得到最好的效果,準(zhǔn)確率為67.71%.
圖2 交叉熵?fù)p失變化
通過表1,可以看出,本文提出的模型準(zhǔn)確率大幅度優(yōu)于VideoNet 官方開源的Baseline 模型.與我們提出模型訓(xùn)練取得的最好的效果相比,新模型準(zhǔn)確率比官方baseline 提升了12.42%.這些數(shù)據(jù)證明:本文提出的模型可以在較少的訓(xùn)練迭代次數(shù)下收斂.基于多粒度視覺特征和注意力機(jī)制的模型有效的提升了視頻場景識別的質(zhì)量.相比于傳統(tǒng)的使用C3D 特征等方法,多粒度視覺信息可以大幅度提升識別的準(zhǔn)確率,因?yàn)椴煌6鹊男畔⒉坏a(bǔ)充了更加豐富的識別信息,同時還使用注意力機(jī)制將不同粒度的信息聯(lián)系在一起,更加充分的利用了信息.
圖3 準(zhǔn)確率損失變化
表1 模型的準(zhǔn)確率對比(%)
本文提出了使用多粒度視頻特征信息基于注意力架構(gòu)的視頻場景檢測模型,并在VideoNet 數(shù)據(jù)集上取得優(yōu)異的成績.該算法的亮點(diǎn)在于使用全局性的信息引導(dǎo)下,通過注意力機(jī)制自適應(yīng)的對場景中重要的局部信息加權(quán),從而達(dá)到更加精準(zhǔn)的識別效果.和官方開源的模型基線相比,本文考慮了全局特征和局部特征,很好的利用了多個粒度視頻信息.并且在模型中采用了注意力模型,既完成了對特征的降維,又能很好的將多個粒度的信息聯(lián)系起來.在未來的工作中,我們將進(jìn)一步探索多維度的視頻信息和不同注意力機(jī)構(gòu)對于場景識別的影響.