朱聯(lián)祥,牛文煜,仝文東,邵浩杰
(西安石油大學(xué) 計(jì)算機(jī)學(xué)院,陜西 西安 710065)
隨著數(shù)字技術(shù)的發(fā)展和視頻設(shè)備的普及,互聯(lián)網(wǎng)上的視頻信息在飛速增長,視頻已成為重要的信息載體。為應(yīng)對(duì)視頻信息爆發(fā)性的增長,理解和分析視頻以從中挖掘出所需要的信息就變得愈來愈重要。識(shí)別和理解視頻中人物的行為和意圖是人機(jī)交互、機(jī)器人技術(shù)、視頻監(jiān)控、視頻檢索等領(lǐng)域的重要內(nèi)容,近年來已發(fā)展成為計(jì)算機(jī)視覺領(lǐng)域的一個(gè)重要研究方向。視頻人體動(dòng)作識(shí)別作為其中的一個(gè)重要課題,研究的是如何通過預(yù)先分割好的時(shí)域序列進(jìn)行時(shí)空信息建模,從而學(xué)習(xí)到視頻中所包含的人體動(dòng)作與動(dòng)作類別之間的映射關(guān)系[1]。在過去的幾十年,研究人員已提出大量的視頻人體動(dòng)作識(shí)別方法,在較大程度上解決了不同層次的問題。
目前人體動(dòng)作識(shí)別的方法主要分為兩類[2-3]:第一類是手工表示法,即首先使用手工方法設(shè)計(jì)并提取特征,再采用傳統(tǒng)的機(jī)器學(xué)習(xí)方法對(duì)其進(jìn)行分類,如基于方向梯度直方圖(Histogram of Oriented Gradient,HOG)、光流梯度方向直方圖(Histogram of Optical Flow,HOF)、運(yùn)動(dòng)邊界直方圖(Motion of Boundary History,MBH)等特征描述符的方法;第二類則是基于深度學(xué)習(xí)的方法,即使用神經(jīng)網(wǎng)絡(luò)進(jìn)行特征的提取與識(shí)別。
動(dòng)作識(shí)別本身的研究始于20世紀(jì)80年代的基于整體特征表示法[4],如輪廓特征和光流特征等。自從2003年以來,局部表示法開始應(yīng)用于動(dòng)作識(shí)別,如改進(jìn)密集軌跡(Improved Dense Trajectory,IDT),其在手工表示法中取得了非常好的效果。
從2012年以來,AlexNet[5]在圖像分類上的成功掀起了人們對(duì)深度學(xué)習(xí)研究的高潮,隨后卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像領(lǐng)域的各類任務(wù),其在圖像分類、圖像識(shí)別、場景分割等任務(wù)中都有很好的性能。卷積神經(jīng)網(wǎng)絡(luò)在圖像處理領(lǐng)域的成功激起了基于卷積神經(jīng)網(wǎng)絡(luò)的方法在視頻領(lǐng)域的研究。2014年Simonyan等人[6]提出了雙流卷積網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)通過將動(dòng)作識(shí)別任務(wù)分為空間和時(shí)間兩個(gè)流,其中空間流從視頻幀中提取空間信息,時(shí)間流從密集光流中提取運(yùn)動(dòng)信息,最后通過雙流特征的融合來進(jìn)行動(dòng)作的分類與識(shí)別。該網(wǎng)絡(luò)使得二維卷積神經(jīng)網(wǎng)絡(luò)能夠用于視頻動(dòng)作識(shí)別任務(wù),但卻需要研究者提前從視頻幀中提取出光流信息。2015年Du Tran等人[7]構(gòu)建的C3D卷積神經(jīng)網(wǎng)絡(luò)模型是一種簡單高效的時(shí)空特征學(xué)習(xí)方法,可以直接從視頻幀中提取空間和時(shí)間特征。但三維卷積與二維卷積類似,只能在局部鄰域進(jìn)行操作,因此在空間中不能提取到全局特征,在時(shí)間維度也不能提取到長時(shí)序特征,從而無法充分利用視頻幀中的空間和時(shí)間信息。此外,以往的研究一般都只是通過增加網(wǎng)絡(luò)深度來近似達(dá)到全局特征提取的目的,但這些方法會(huì)帶來很多問題,如容易產(chǎn)生過擬合現(xiàn)象、梯度傳播困難,以及網(wǎng)絡(luò)參數(shù)量增加顯著等。
針對(duì)上述存在的問題,該文提出一種基于C3D卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)模型,通過在原C3D網(wǎng)絡(luò)中引入注意力機(jī)制,并對(duì)其注意力機(jī)制添加全局上下文建模操作,使得改進(jìn)后的網(wǎng)絡(luò)能夠利用到全局特征,從而建立起三維特征中每個(gè)位置與其他位置之間的關(guān)系,而不是僅僅局限于局部的鄰域,實(shí)現(xiàn)了網(wǎng)絡(luò)性能的提升。
近年來,隨著深度學(xué)習(xí)的蓬勃發(fā)展,許多研究學(xué)者將基于深度學(xué)習(xí)的方法應(yīng)用于視頻人體動(dòng)作的識(shí)別任務(wù),其中應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作識(shí)別更是取得了長足進(jìn)步。Ji等人[8]通過將二維卷積擴(kuò)展到三維卷積,使得卷積能夠從相鄰的視頻幀中提取空間和時(shí)間兩個(gè)維度的信息,從而擁有了時(shí)空和空域的綜合建模能力,更加有助于視頻特征的學(xué)習(xí)。Du Tran等人[7]提出的C3D卷積神經(jīng)網(wǎng)絡(luò)則是一種簡單高效的時(shí)空特征學(xué)習(xí)方法,可以直接從視頻數(shù)據(jù)中提取時(shí)域和空域特征。呂淑平等人[9]在C3D基礎(chǔ)上引入時(shí)空分離卷積和BN層,使得網(wǎng)絡(luò)更具表示復(fù)雜性的功能,并且解決了網(wǎng)絡(luò)結(jié)構(gòu)加深使梯度消失的問題。Joao Carreira[10]提出將在ImageNet中預(yù)訓(xùn)練的權(quán)重?cái)U(kuò)展到視頻動(dòng)作的識(shí)別,并在視頻動(dòng)作數(shù)據(jù)集上進(jìn)行微調(diào)的思路,據(jù)此設(shè)計(jì)了一種將二維卷積網(wǎng)絡(luò)擴(kuò)展到三維的I3D模型。由于視頻三維信息高度的復(fù)雜性,Sun Lin等人[11]提出了分解時(shí)空卷積神經(jīng)網(wǎng)絡(luò),將原有的三維卷積分解為在空間層進(jìn)行二維空間卷積,在時(shí)間層進(jìn)行一維時(shí)間卷積,減少了網(wǎng)絡(luò)的參數(shù)量。進(jìn)一步,Yang Hao等人[12]將三維卷積核分解為非對(duì)稱單向三維卷積來逼近傳統(tǒng)的三維卷積,通過引入多尺度三維卷積分支,構(gòu)建了局部三維卷積網(wǎng)絡(luò)。
卷積神經(jīng)網(wǎng)絡(luò)定義了一個(gè)非常強(qiáng)大的特征提取模型,卷積計(jì)算通過融合局部區(qū)域中的空間和通道信息來構(gòu)建特征。為了提高卷積神經(jīng)網(wǎng)絡(luò)的性能,目前的研究主要從深度、寬度和基數(shù)三個(gè)方面來提升卷積神經(jīng)網(wǎng)絡(luò)的表征能力。從LeNet網(wǎng)絡(luò)開始到深度殘差網(wǎng)絡(luò)[13],網(wǎng)絡(luò)的深度逐漸加深,通過增加網(wǎng)絡(luò)的深度增強(qiáng)網(wǎng)絡(luò)對(duì)于特征的表征能力是一種直觀簡單的擴(kuò)展方法。GoogleNet[14]則是通過在模型的每一層采用不同大小的卷積核,以增加模型寬度的方式來增強(qiáng)模型的表征能力。Chollet F[15]和Xie Saining[16]采用分組卷積的思想,卷積層的每一組卷積操作都可看作是一個(gè)“基數(shù)”,通過將每一層的卷積操作組數(shù)(基數(shù))增加的方式對(duì)網(wǎng)絡(luò)性能進(jìn)行提升。
然而除了深度、寬度和基數(shù)這三個(gè)因素以外,還可以使用注意力機(jī)制來增加網(wǎng)絡(luò)的表征能力,以使其更加關(guān)注重要的特征,而抑制掉不必要特征。注意力機(jī)制源于人類視覺系統(tǒng)。當(dāng)人類在觀察外部環(huán)境時(shí),不同的事物會(huì)對(duì)人們的認(rèn)知產(chǎn)生不同程度的影響,而人類則可以通過僅關(guān)注所需要注意的事物來獲取對(duì)外界的認(rèn)知。在計(jì)算機(jī)視覺領(lǐng)域,不同的任務(wù)使得圖像的不同區(qū)域?qū)ψ罱K任務(wù)產(chǎn)生不同的影響。注意力機(jī)制正是通過網(wǎng)絡(luò)學(xué)習(xí)權(quán)重系數(shù),并以加權(quán)的方法對(duì)圖像的不同區(qū)域進(jìn)行不同程度的強(qiáng)調(diào),同時(shí)抑制不相關(guān)區(qū)域的一種方法。
目前計(jì)算機(jī)視覺領(lǐng)域的注意力機(jī)制可以分為三類,即通道注意力、空間注意力和自注意力。2017年,Jie Hu等人[17]提出的SE-Net(Squeeze-and-Excitation)網(wǎng)絡(luò),是通過構(gòu)造“Squeeze-and-Excitation”(SE)模塊來建模通道間的相關(guān)性。但該方法只是通過對(duì)輸入特征進(jìn)行空間上的全局最大池化操作來壓縮其空間維度,因而不能建立起特征在空間維度上每個(gè)位置與其他位置的遠(yuǎn)距離依賴關(guān)系。2015年,Max Jaderberg等人[18]提出的空間變換網(wǎng)絡(luò)(Spatial Transformer)則可在保留關(guān)鍵輸入信息的同時(shí),將信息輸入變換到另一個(gè)空間,以定位圖片的關(guān)鍵信息及其位置,實(shí)現(xiàn)了對(duì)圖像空間通道信息的提取。CBAM[19]注意力機(jī)制則是在SE-Net上的進(jìn)一步擴(kuò)展,增加了空間注意力模塊,使得網(wǎng)絡(luò)能夠?qū)臻g域的信息進(jìn)行強(qiáng)調(diào)。王飛等人[20]通過將二維的CBAM注意力機(jī)制進(jìn)行膨脹,擴(kuò)展為三維注意力機(jī)制,并采用shortcut結(jié)構(gòu)的方式融合到三維卷積神經(jīng)網(wǎng)絡(luò)中,加強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)視頻的通道和空間特征提取。此外,由于卷積運(yùn)算只能用于處理局部的依賴關(guān)系,Wang Xiaolong等人[21]構(gòu)造的非局部Non-Local網(wǎng)絡(luò)可用來捕獲遠(yuǎn)程的依賴關(guān)系。對(duì)于擁有時(shí)序的數(shù)據(jù),如語言、視頻、語音等,遠(yuǎn)程依賴關(guān)系是其建模的關(guān)鍵。
卷積運(yùn)算在空間和時(shí)間上都只是處理局部的鄰域,只在局部區(qū)域內(nèi)建立起像素間的關(guān)聯(lián),因而只有通過網(wǎng)絡(luò)深度的增加,重復(fù)地使用卷積操作,才能建立起對(duì)圖像全局的理解。這無疑增加了計(jì)算的開銷,效率低下且很難優(yōu)化。而通過使用Non-Local操作,則可以在不增加網(wǎng)絡(luò)深度的前提下提取到遠(yuǎn)程的依賴關(guān)系。然而由于其實(shí)際上建立起的是特征中每一位置與其他所有位置間的關(guān)系,因而計(jì)算量會(huì)很大。而Huang Zilong等人[22]提出的criss-cross操作,則只計(jì)算特征中每個(gè)位置與其同行同列位置間的關(guān)系,通過兩次的criss-cross操作,便可間接計(jì)算出每對(duì)位置間的關(guān)系,從而使得網(wǎng)絡(luò)參數(shù)量大大減少。Cao Yue等人[23]通過將Non Local和SE-Net結(jié)合起來,構(gòu)建了一種全局上下文模塊,使得SE-Net通道注意力機(jī)制具有了全局上下文建模的能力。
在以上研究進(jìn)展的基礎(chǔ)上,該文提出的模型將C3D與注意力機(jī)制相結(jié)合,通過在通道注意力機(jī)制和空間注意力機(jī)制中使用全局操作,使得網(wǎng)絡(luò)具有了全局建模的能力,對(duì)視頻的三維特征可以在時(shí)域和空域均可建立其遠(yuǎn)程的依賴關(guān)系,提高網(wǎng)絡(luò)的表征能力。
圖1所示為基于混合注意力機(jī)制融合C3D網(wǎng)絡(luò)視頻人體動(dòng)作識(shí)別模型的整體結(jié)構(gòu)。由于三維卷積神經(jīng)網(wǎng)絡(luò)可直接作用于視頻幀序列,從而從多個(gè)相鄰幀中提取出時(shí)空特征,因此采用C3D卷積神經(jīng)網(wǎng)絡(luò)作為其特征提取網(wǎng)絡(luò)。首先,對(duì)視頻數(shù)據(jù)按照間隔N(如文中的取值為4)進(jìn)行抽取以實(shí)現(xiàn)預(yù)處理,然后輸入到C3D網(wǎng)絡(luò)進(jìn)行空域和時(shí)域特征的提取。對(duì)于提取到的特征,分別通過空間和通道注意力機(jī)制建立其空間和通道信息通路,進(jìn)而通過兩種特征的融合處理來實(shí)現(xiàn)動(dòng)作目標(biāo)的識(shí)別與分類。
圖1 基于混合注意力機(jī)制的三維卷積神經(jīng)網(wǎng)絡(luò)模型
C3D的模型結(jié)構(gòu)如圖2所示,一共由8個(gè)卷積層,5個(gè)最大池化層,2個(gè)全連接層和1個(gè)Softmax輸出層組成。輸入數(shù)據(jù)大小為3×16×112×112,其中3為通道數(shù),分別代表R、G、B視頻幀,16為每次輸入的視頻幀數(shù),這些視頻幀是按照間隔N=4對(duì)視頻片段進(jìn)行抽取得到。112×112是對(duì)抽取的視頻幀進(jìn)行隨機(jī)的crop之后得到的輸入視頻幀大小。所有卷積層采用的都是3×3×3大小的卷積核,步長為1×1×1。除了Pool1層池化核大小為1×2×2,步長為2×2×2之外,其余池化核大小均為2×2×2,步長為1×2×2。在完成最后一次池化操作后,將輸出的三維特征進(jìn)行Reshape操作展開為一維,然后將其送入到全連接層,每個(gè)全連接層都有4 096個(gè)輸出單元,激活函數(shù)采用ReLu函數(shù)。最終的特征分類使用Softmax。
圖2 C3D網(wǎng)絡(luò)結(jié)構(gòu)
C3D采用三維卷積和三維池化,對(duì)視頻幀序列提取得到的是三維特征,該文在網(wǎng)絡(luò)最后池化層Pool5后插入注意力模塊,將輸出的三維特征送入注意力網(wǎng)絡(luò)中得到特征的注意力圖,然后將帶有注意力的特征圖與原輸入特征相加得到最終的帶有注意力的特征,最后將該特征輸入到全連接網(wǎng)絡(luò)進(jìn)行動(dòng)作的最終分類與識(shí)別。
CBAM注意力機(jī)制是在SE-Net上的進(jìn)一步擴(kuò)展,并且增加了空間注意力模塊。筆者發(fā)現(xiàn),將通道注意力模塊和空間注意力模塊以先后順序排列比并行排列有更好的效果。因此,在網(wǎng)絡(luò)中先后使用通道注意力機(jī)制和空間注意力機(jī)制構(gòu)建混合注意力機(jī)制模塊。與二維卷積神經(jīng)網(wǎng)絡(luò)相比,因?yàn)椴捎肅3D三維卷積神經(jīng)網(wǎng)絡(luò)對(duì)視頻動(dòng)作進(jìn)行識(shí)別增加了一個(gè)時(shí)間維度,所以在設(shè)計(jì)其注意力機(jī)制時(shí)需要考慮到維度的變化。由于原通道注意力機(jī)制是用于二維圖像數(shù)據(jù),采用的是二維卷積,但視頻數(shù)據(jù)是三維數(shù)據(jù)需要考慮時(shí)間維度,所以需要對(duì)其進(jìn)行三維化擴(kuò)展,將原注意力機(jī)制的卷積和池化操作替換為三維卷積,使之能夠適用于三維卷積神經(jīng)網(wǎng)絡(luò)。具體注意力機(jī)制在模型中的使用方式如圖3所示。
圖3 注意力機(jī)制結(jié)構(gòu)
視頻數(shù)據(jù)相比于圖像數(shù)據(jù)多了一個(gè)時(shí)間維度,在使用三維卷積網(wǎng)絡(luò)對(duì)其進(jìn)行特征提取后的輸出特征會(huì)多出一個(gè)時(shí)間維度T。對(duì)于一個(gè)三維卷積的特征圖F∈RC×T×H×W,這里的C、T、H、W分別為C3D網(wǎng)絡(luò)最后一層池化輸出的三維特征的大小。注意力機(jī)制會(huì)先計(jì)算出通道注意力特征圖MC∈RC×1×1×1,然后將特征圖MC對(duì)輸入特征F進(jìn)行加權(quán)得到特征F'∈RC×T×H×W,再將特征F'輸入到空間注意力模塊,生成空間注意力特征圖Ms∈R1×T×H×W。由于這里是直接將空間注意力模塊由二維直接擴(kuò)展到三維,所以Ms在計(jì)算過程中包含有時(shí)間維度的信息,即時(shí)域和空域兩個(gè)維度的信息,最后將Ms對(duì)F'進(jìn)行加權(quán)得到最終的注意力圖F'∈RC×T×H×W。整個(gè)過程可以表示為:
F'=MC(F)?F
F''=MC(F')?F'
(1)
式中,?表示元素乘法,F''是最終得到的注意力圖,每個(gè)注意力模塊的具體細(xì)節(jié)在下文會(huì)進(jìn)行具體介紹。
2.3.1 通道注意力模塊
通道注意力機(jī)制利用通道之間的關(guān)系來生成通道注意力圖,通過加權(quán)來強(qiáng)調(diào)不同通道的重要性。在SE-Net中只使用了最大池化來壓縮空間維度,然后計(jì)算各通道的權(quán)重。CBAM注意力機(jī)制在其基礎(chǔ)上又增加了平均池化來壓縮空間維度,但也造成了很多信息損失。在GCNet中,筆者通過將Non-Local網(wǎng)絡(luò)和SE-Net網(wǎng)絡(luò)相結(jié)合,構(gòu)建了全局上下文模塊,使得網(wǎng)絡(luò)能夠建立長距離的依賴關(guān)系。網(wǎng)絡(luò)首先對(duì)輸入數(shù)據(jù)在空間維度上進(jìn)行上下文建模,然后計(jì)算各個(gè)通道的權(quán)重,充分結(jié)合了Non-Local全局上下文建模和SE-Net輕量的優(yōu)點(diǎn)。原注意力機(jī)制是二維注意力機(jī)制,只需要考慮空間上H、W兩個(gè)維度信息。所以在應(yīng)用于視頻數(shù)據(jù)時(shí)需要對(duì)其進(jìn)行三維化擴(kuò)展,首先需要將其中的二維卷積替換為三維卷積,在進(jìn)行Reshape操作時(shí),需要考慮到時(shí)間維度,T、H、W將作為包含時(shí)空信息三個(gè)最基礎(chǔ)的維度。對(duì)于輸入的三維視頻數(shù)據(jù)F∈RC×T×H×W,首先使用一個(gè)卷積核大小為1×1×1卷積操作,將輸入特征F合并為一個(gè)通道,然后對(duì)其使用Reshape操作置為大小為THW×1的張量,另外將輸入特征Reshape為C×THW后通過Softmax函數(shù)得到一個(gè)特征張量,然后將兩者做內(nèi)積運(yùn)算后輸入到一個(gè)MPL中獲取通道之間的依賴關(guān)系,使用Sigmoid激活得到通道注意力特征圖MC(F),用公式表示為:
Mc=σ(MLP(R1(F)?R2(conv(F))))
(2)
式中,σ表示Sigmoid函數(shù),conv表示1×1×1卷積操作,R1表示將維度為C×T×H×W的輸入特征置為C×THW的Reshape操作,R2表示將經(jīng)過1×1×1卷積操作后的維度為1×T×H×W的特征置為THW×1的Reshape操作。該通道注意力模塊增加了上下文建模操作,首先通過Reshape操作將輸入特征按照不同通道進(jìn)行展開,然后再將輸入特征經(jīng)過1×1×1卷積進(jìn)行通道壓縮后,再按照通道進(jìn)行Reshape操作展開,將兩者進(jìn)行內(nèi)積運(yùn)算可以獲得不同通道特征元素之間的關(guān)系,即不同通道元素之間的遠(yuǎn)程關(guān)系。最后將其輸入一個(gè)MLP中通過學(xué)習(xí)調(diào)整不同通道的權(quán)重。該網(wǎng)絡(luò)采用自注意力機(jī)制的思想對(duì)特征建模特征中元素間的關(guān)系,能夠?qū)γ恳粋€(gè)通道建立該通道上所有元素之間的依賴關(guān)系,使得網(wǎng)絡(luò)相比于卷積操作更能建立起遠(yuǎn)程依賴關(guān)系。
3D Global Context通道注意力模塊如圖4所示。
圖4 3D Global Context通道注意力模塊
空間注意力機(jī)制結(jié)構(gòu)如圖5所示。首先,將經(jīng)過通道注意力機(jī)制加權(quán)后的特征圖F'∈RC×T×H×W分別經(jīng)過兩個(gè)1×1×1卷積核的卷積層,分別生成兩個(gè)特征Q和K,其中{Q,K}∈RC'×T×H×W,這里C'表示經(jīng)過卷積后的{Q,K}的通道數(shù),文中C'取C/8,再將二者經(jīng)過Affinity操作生成特征圖A∈R(T+H+W-2)×T×H×W。對(duì)于特征Q的每一個(gè)位置u,包含三個(gè)坐標(biāo)值(t,x,y),在特征K中提取和位置u處于同行同列的特征向量,即特征K中以u(píng)為中心在T、H、W方向的特征向量的集合Ωu。設(shè)Ωi,u∈RC'是Ωu中的第i個(gè)元素,Affinity操作的定義如下:
圖5 3D Criss-Cross空間注意力模塊
(3)
其中,di,u∈D,D∈R(T+H+W-2)×T×H×W,表示特征Qu和Ωi,u,i={1,…,(T+H+W-2)}的相關(guān)度。對(duì)經(jīng)過Affinity操作后的特征使用Softmax函數(shù)計(jì)算得到特征圖A。然后,在F'∈RC×T×H×W上又使用一個(gè)1×1×1的卷積操作生成一個(gè)特征V∈RC×T×H×W。對(duì)與Vu∈Rc中的每一個(gè)位置u,可得到Φu∈R(T+H+W-2)×c,表示特征V中以u(píng)為中心在T、H、W方向特征向量的集合。Aggregation操作如下:
(4)
3.1.1 數(shù)據(jù)集
為驗(yàn)證改進(jìn)模型的有效性,在UCF-101和HMDB-51兩個(gè)大型視頻數(shù)據(jù)集上進(jìn)行了對(duì)比實(shí)驗(yàn)。UCF-101數(shù)據(jù)集包含101種人體動(dòng)作類別,歸屬于五種類型:人與物體交互、僅身體運(yùn)動(dòng)、人與人交互、樂器演奏、運(yùn)動(dòng)等。一共有13 320個(gè)視頻片段,累計(jì)時(shí)長超過27小時(shí)。視頻從YouTube下載,所有視頻片段都有25 FPS的固定幀率和320×240的分辨率。數(shù)據(jù)集中的視頻片段具有背景雜亂、光照條件差,以及很多低質(zhì)量幀等特點(diǎn)。
HMDB-51包含51個(gè)動(dòng)作類別,每個(gè)類別至少包含101個(gè)視頻片段,一共包含了從數(shù)字化電影到Y(jié)ouTube等各種來源提取的6 766個(gè)含有手動(dòng)注釋的視頻片段。這些動(dòng)作可以分為五種類型:一般面部動(dòng)作、面部動(dòng)作配合物體操作、一般身體動(dòng)作、與物體互動(dòng)身體動(dòng)作、人類互動(dòng)肢體動(dòng)作。視頻幀率均為25 FPS,分辨率為320×240。該數(shù)據(jù)集由于視頻片段來源復(fù)雜,視頻幀中包含噪聲信息較多,加上攝像機(jī)運(yùn)動(dòng),不同拍攝角度等因素,其動(dòng)作識(shí)別與分類相較于UCF-101更加具有挑戰(zhàn)性,一般來說在分類上的效果相較于UCF-101也更低。
3.1.2 評(píng)價(jià)指標(biāo)
實(shí)驗(yàn)將視頻數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集、測試集三個(gè)部分,占比分別為60%、20%、20%。每完成1次訓(xùn)練就對(duì)模型進(jìn)行1次驗(yàn)證,每完成5次訓(xùn)練對(duì)模型進(jìn)行1次測試。實(shí)驗(yàn)一共進(jìn)行100次訓(xùn)練,最終通過Softmax函數(shù)對(duì)特征進(jìn)行分類。將最后的識(shí)別準(zhǔn)確率Acc作為評(píng)價(jià)指標(biāo),公式如下:
第三,要想在高等院?!癈語言程序設(shè)計(jì)”課程上機(jī)實(shí)驗(yàn)教學(xué)環(huán)節(jié)過程中獲得良好教學(xué)效果,應(yīng)結(jié)合實(shí)際教學(xué)工作中的學(xué)習(xí)需求、涉及的教學(xué)內(nèi)容,為學(xué)生編寫和呈現(xiàn)內(nèi)容新穎且專業(yè)的實(shí)驗(yàn)指導(dǎo)書文本,使學(xué)生在獲得專業(yè)化和系統(tǒng)化理論知識(shí)指導(dǎo)的條件下,達(dá)到“C語言程序設(shè)計(jì)”課程上機(jī)實(shí)驗(yàn)教學(xué)環(huán)節(jié)的最佳學(xué)習(xí)效果。
(5)
其中,TP(True Positive)表示實(shí)例是正例被判定成正例的個(gè)數(shù);FN(False Negative)表示將正例判定為負(fù)例的個(gè)數(shù);FP(False Positive)表示負(fù)例被判定為正例的個(gè)數(shù);TN(True Negative)表示負(fù)例被判定成負(fù)例的個(gè)數(shù)。
由于三維卷積神經(jīng)網(wǎng)絡(luò)不能直接處理視頻信息,必須將視頻中的幀抽取出來,將部分幀作為網(wǎng)絡(luò)的輸入。實(shí)驗(yàn)中采用間隔抽幀的方式,對(duì)于每一個(gè)視頻片段,每隔4幀抽取1幀,一共抽取16幀作為網(wǎng)絡(luò)輸入。如果視頻時(shí)長較短,以4幀間隔不能抽取到16幀,則可將抽取間隔縮小直至可以抽取到16幀為止。原數(shù)據(jù)集視頻分辨率為320×240,在抽取的同時(shí)需要將每一幀大小調(diào)整為128×171,在將數(shù)據(jù)輸入到網(wǎng)絡(luò)之前還需要對(duì)每一幀進(jìn)行大小為112×112的隨機(jī)crop操作。
在Linux操作系統(tǒng)的PyTorch環(huán)境下進(jìn)行實(shí)驗(yàn),所有數(shù)據(jù)集的訓(xùn)練輪數(shù)均為50。考慮到訓(xùn)練所用GPU顯存的限制,benchsize設(shè)為6。采用隨機(jī)梯度下降法進(jìn)行優(yōu)化,學(xué)習(xí)率為0.001,損失函數(shù)采用交叉熵?fù)p失。為避免模型過擬合,在全連接層采用值為0.5的dropout。模型使用在Sport1M數(shù)據(jù)集上預(yù)訓(xùn)練的權(quán)重進(jìn)行訓(xùn)練,該數(shù)據(jù)集包含了100萬個(gè)YouTube視頻,一共有487個(gè)類別,每個(gè)類別有1 000到3 000個(gè)視頻片段,這是比UCF-101和HMDB-51更大的視頻動(dòng)作數(shù)據(jù)集,通過在Sport1M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練然后在UCF-101和HMDB-51數(shù)據(jù)集上進(jìn)行參數(shù)調(diào)整,可以獲得更快的收斂速度和較高的準(zhǔn)確率。
3.3.1 混合注意力機(jī)制使用的對(duì)比
為了證明該文混合注意力機(jī)制在融合模型中的有效性,分別對(duì)C3D網(wǎng)絡(luò)使用3D-CBAM、單獨(dú)使用通道注意力機(jī)制、單獨(dú)使用空間注意力機(jī)制和使用混合注意力機(jī)制進(jìn)行對(duì)比。表1展示了使用不同注意力機(jī)制對(duì)融合模型的動(dòng)作識(shí)別準(zhǔn)確率的結(jié)果。由表1可以看出,注意力機(jī)制的添加使得C3D網(wǎng)絡(luò)對(duì)動(dòng)作識(shí)別的準(zhǔn)確率得到了明顯的提升。與3D-CBAM注意力機(jī)制相比,構(gòu)建的混合注意力機(jī)制對(duì)網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的提升更高。混合注意力機(jī)制與單獨(dú)使用通道或空間注意力相比,識(shí)別準(zhǔn)確率更高。實(shí)驗(yàn)表明該文構(gòu)建的混合注意力機(jī)制對(duì)融合模型識(shí)別精度提高是有效的。
表1 不同注意力機(jī)制的對(duì)比 %
3.3.2 不同模型對(duì)比
分別對(duì)C3D網(wǎng)絡(luò)和文中改進(jìn)模型以及當(dāng)前比較典型的方法進(jìn)行實(shí)驗(yàn)對(duì)比,結(jié)果如表2所示。其中I3D和C3D是基于三維卷積網(wǎng)絡(luò)的方法,Aymmetric 3D-CNN和文獻(xiàn)[9]是基于時(shí)空分離(2+1)D卷積,文獻(xiàn)[20]和文中方法是基于三維卷積網(wǎng)絡(luò)融合注意力機(jī)制的方法??梢钥闯?文中方法相較于三維卷積和時(shí)空分離(2+1)D卷積具有更高的準(zhǔn)確率。與文獻(xiàn)[20]的3D-CBAM注意力相比,該文的混合注意力機(jī)制對(duì)于網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的提升更高。
表2 不同方法的對(duì)比 %
但是對(duì)于HMDB-51的識(shí)別,相比于Aymmetric 3D-CNN方法,文中方法的分類準(zhǔn)確率較低,因?yàn)樵谠摼W(wǎng)絡(luò)中采用的是(2+1)D卷積方式,它將三維卷積分解為時(shí)間的一維和空間的二維。在文獻(xiàn)[9]中作者經(jīng)過實(shí)驗(yàn)說明這種采用時(shí)空分離(2+1)D卷積的網(wǎng)絡(luò)結(jié)構(gòu)更易于優(yōu)化器尋優(yōu)。而且該網(wǎng)絡(luò)在訓(xùn)練中使用了光流圖作為輸入特征,該特征包含運(yùn)動(dòng)信息,對(duì)識(shí)別效果有一定的提升。
3.3.3 UCF-101實(shí)驗(yàn)可視化及結(jié)果分析
圖6展示了文中方法和原C3D方法在UCF-101數(shù)據(jù)集上的準(zhǔn)確率變化曲線??梢钥闯?在使用注意力機(jī)制后,文中方法識(shí)別準(zhǔn)確率更慢收斂。在20輪后原C3D方法已基本收斂,而文中方法的識(shí)別準(zhǔn)確率仍繼續(xù)上升,直到25次左右才基本處于收斂狀態(tài)。自始至終文中方法的識(shí)別準(zhǔn)確率都高于原C3D方法。
圖6 UCF-101準(zhǔn)確率變化曲線
與準(zhǔn)確率曲線相互印證,圖7展示了使用原C3D網(wǎng)絡(luò)和文中方法的損失變化曲線。文中方法的損失函數(shù)值更低,也是在迭代25次左右才達(dá)到收斂狀態(tài)。然而原C3D網(wǎng)絡(luò)的參數(shù)總量為78.41×106,文中模型的參數(shù)總量為92.60×106,二者相比文中方法的參數(shù)量有明顯增加,相應(yīng)地也就需要更多的訓(xùn)練時(shí)間。
圖7 UCF-101損失變化曲線
3.3.4 HMDB-51實(shí)驗(yàn)可視化及結(jié)果分析
在HMDB-51數(shù)據(jù)集上進(jìn)行了同樣的訓(xùn)練,圖8展示了文中方法和原C3D方法的準(zhǔn)確率變化曲線??梢钥闯?在使用注意力機(jī)制后,迭代進(jìn)行到30次左右基本上達(dá)到收斂,準(zhǔn)確率也有了明顯提升。圖9是損失變化曲線的對(duì)比,可以看出文中方法的損失值更低。表明注意力機(jī)制的引入對(duì)于HMDB-51數(shù)據(jù)集同樣有效。此外由于HMDB-51數(shù)據(jù)集有更多的相機(jī)位移、視點(diǎn)變化等,因此分類效果相對(duì)更低。
圖8 HMDB-51準(zhǔn)確率變化曲線
圖9 HMDB-51損失變化曲線
針對(duì)三維卷積神經(jīng)網(wǎng)絡(luò)用于視頻動(dòng)作識(shí)別的優(yōu)缺點(diǎn),提出了基于C3D卷積神經(jīng)網(wǎng)絡(luò)的模型改進(jìn):在原網(wǎng)絡(luò)中引入注意力機(jī)制,分別通過通道注意力機(jī)制和空間注意力機(jī)制對(duì)特征的通道和空間相對(duì)重要位置進(jìn)行加權(quán)。實(shí)驗(yàn)在UCF-101和HMDB-51大型視頻數(shù)據(jù)集上進(jìn)行,結(jié)果表明,引入的通道注意力模塊和空間注意力模塊對(duì)最終的識(shí)別效果均有明顯提升。但所提模型需要在其他大型數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練才會(huì)取得較好的結(jié)果,且注意力機(jī)制的引入帶來了計(jì)算量的增加,網(wǎng)絡(luò)的參數(shù)總量從78.41×106增加到92.60×106。如何在提升識(shí)別效果的同時(shí)縮減網(wǎng)絡(luò)的計(jì)算量將是未來研究需要解決的問題。