高德勇,康自兵,王 松,王陽萍,3
(1.蘭州交通大學(xué) 電子與信息工程學(xué)院,甘肅 蘭州 730070;2.甘肅省人工智能與圖形圖像工程研究中心,甘肅 蘭州 730070;3.甘肅省軌道交通裝備系統(tǒng)動(dòng)力學(xué)與可靠性重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730070)
面向視頻的動(dòng)作識別研究具有重要的學(xué)術(shù)價(jià)值和應(yīng)用前景,所以這一問題迅速成為計(jì)算機(jī)視覺領(lǐng)域內(nèi)的研究熱點(diǎn)和難點(diǎn)[1]。以視頻為載體的動(dòng)作分析與研究[2],通常是對視頻幀序列進(jìn)行分析處理,挖掘并學(xué)習(xí)圖像幀的表觀特征和序列之間潛在的時(shí)空關(guān)系,利用視頻幀序列的時(shí)空特征構(gòu)造視頻內(nèi)容和行為類別的對應(yīng)關(guān)系,進(jìn)而使得計(jì)算機(jī)能夠理解視頻中的內(nèi)容。
近年來,借助于深度神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)能力對數(shù)據(jù)進(jìn)行抽象表示,并在大規(guī)模數(shù)據(jù)集上訓(xùn)練來獲得更加魯棒的性能,基于深度學(xué)習(xí)的圖像分類模型[3]已經(jīng)表現(xiàn)出優(yōu)良的性能。因此,深度網(wǎng)絡(luò)模型也被引入到視頻分析的任務(wù)當(dāng)中進(jìn)行動(dòng)作識別。文獻(xiàn)[4]首次提出雙流卷積神經(jīng)網(wǎng)絡(luò)模型,分別以視頻幀作為空間流網(wǎng)絡(luò)的輸入提取視頻的靜態(tài)信息和以光流作為時(shí)間流網(wǎng)絡(luò)的輸入獲取圖像序列之間的運(yùn)動(dòng)信息。文獻(xiàn)[5]提出C3D(Convolutional 3D,C3D)網(wǎng)絡(luò),在整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中均采用三維卷積和三維池化提取視頻的時(shí)空特征,相對于2D卷積和池化而言,3D卷積保留了視頻幀間的時(shí)序信息,并且刻畫了時(shí)間-空間的對應(yīng)關(guān)系。但以上方法僅能實(shí)現(xiàn)對視頻的短時(shí)域結(jié)構(gòu)的建模,無法利用整個(gè)視頻的長時(shí)信息。文獻(xiàn)[6]針對長距離時(shí)序依賴問題,在雙流網(wǎng)絡(luò)的基礎(chǔ)上,采用稀疏采樣策略提取視頻的多個(gè)短片段,然后在多個(gè)視頻剪輯的時(shí)間結(jié)構(gòu)上構(gòu)建長時(shí)時(shí)序模型。文獻(xiàn)[7]在卷積神經(jīng)網(wǎng)絡(luò)的全連接層后連接長短時(shí)記憶網(wǎng)絡(luò)(Long Short Term Memory,LSTM)提出新的長時(shí)循環(huán)卷積網(wǎng)絡(luò)(Long-term Recurrent Convolutional Networks,LRCN)結(jié)構(gòu),該模型綜合每個(gè)時(shí)間節(jié)點(diǎn)上對視頻的預(yù)測值來對整個(gè)視頻分類預(yù)測。雖然雙流網(wǎng)絡(luò)、C3D和循環(huán)網(wǎng)絡(luò)這些方法都取得了優(yōu)良的性能,但都只關(guān)注了動(dòng)作發(fā)生的整個(gè)場景,忽視了場景當(dāng)中不同區(qū)域?qū)?dòng)作特征的表示起著不同作用的重要性。文獻(xiàn)[8]在編解碼框架下,采用注意力機(jī)制對圖像各個(gè)區(qū)域賦予不同的權(quán)重,生成具有不同權(quán)值的上下文向量,由上下文向量指導(dǎo)生成對圖片描述的語句。文獻(xiàn)[9]在傳統(tǒng)特征提取網(wǎng)絡(luò)的基礎(chǔ)上,引入殘差網(wǎng)絡(luò)形式的注意力機(jī)制和特征融合策略,使得算法模型獲得更好的定位效果。文獻(xiàn)[10]使用軟注意力機(jī)制來關(guān)注與動(dòng)作相關(guān)的區(qū)域,將加權(quán)后的特征圖送入多層LSTM進(jìn)行行為類別的預(yù)測。文獻(xiàn)[11]引入姿態(tài)注意力機(jī)制,通過人體語義相關(guān)的關(guān)節(jié)點(diǎn)共享注意力參數(shù)來獲得魯棒的人體特征。
為了提取圖像中更具有區(qū)分性的特征,加入注意力機(jī)制來關(guān)注視頻幀的部分重點(diǎn)區(qū)域。當(dāng)前大多數(shù)方法是在基礎(chǔ)網(wǎng)絡(luò)的末端嵌入注意力機(jī)制,采用卷積神經(jīng)網(wǎng)絡(luò)高層輸出作為長短時(shí)記憶網(wǎng)絡(luò)的輸入。但一般的注意力機(jī)制僅對不同通道的權(quán)值進(jìn)行標(biāo)定,忽略了同一通道中的像素的位置信息。文獻(xiàn)[12]將空間變換網(wǎng)絡(luò)和長短時(shí)記憶網(wǎng)絡(luò)結(jié)合提出新的基于注意力的網(wǎng)絡(luò)。在特征圖中,通過仿射變換動(dòng)態(tài)地采樣多個(gè)顯著的空間位置。文獻(xiàn)[13]從Inception-V3的多層引導(dǎo)提取不同通道的特征,再以網(wǎng)絡(luò)預(yù)測值作為權(quán)重構(gòu)建預(yù)測—注意力池化描述子。筆者提出的方法建立在以上研究工作的基礎(chǔ)上,通過引入卷積注意力模塊(Convolutional Block Attention Module,CBAM)[14]分別從通道和空間兩個(gè)維度考慮注意力權(quán)重對特征的影響,實(shí)現(xiàn)對輸入特征的自適應(yīng)調(diào)整。傳統(tǒng)的LSTM擅長于處理時(shí)序問題,但并未考慮到時(shí)空數(shù)據(jù)中的空間結(jié)構(gòu)信息。受VideoLSTM[15]網(wǎng)絡(luò)結(jié)構(gòu)的啟發(fā),采用卷積長短時(shí)記憶網(wǎng)絡(luò)(Convolutional LSTM,ConvLSTM)對特征的序列信息建模,將特征圖作為ConvLSTM的輸入,實(shí)現(xiàn)對視頻幀的分類預(yù)測。
借助于卷積神經(jīng)網(wǎng)絡(luò)強(qiáng)大的特征表示能力,對視頻幀的靜態(tài)信息進(jìn)行抽象表示;在選擇去關(guān)注哪些是區(qū)分性的信息時(shí),使用可以即插即用的卷積注意力模塊來處理一般注意力機(jī)制中僅側(cè)重通道特征選擇的問題。同時(shí)考慮到視頻是一種具有空間結(jié)構(gòu)和時(shí)間特性的媒介,長短時(shí)記憶網(wǎng)絡(luò)在處理時(shí)空序列數(shù)據(jù)時(shí),只分析處理了時(shí)序信息卻丟失了原有的空間結(jié)構(gòu)。筆者采用ConvLSTM對整個(gè)視頻的長時(shí)時(shí)序問題進(jìn)行處理,使用卷積替換在原有長短時(shí)記憶網(wǎng)絡(luò)中的乘法運(yùn)算來保留特征中的空間結(jié)構(gòu),網(wǎng)絡(luò)模型如圖1所示。首先使用預(yù)訓(xùn)練的CNN(ResNet-50)來提取視頻幀的特征圖;然后將得到的特征圖送入卷積注意力模塊進(jìn)行特征的精細(xì)化調(diào)整,選擇關(guān)注更富有信息的區(qū)域;為了避免參與分類的特征圖受到噪聲的干擾,引入短接結(jié)構(gòu)[16],將初始特征圖與經(jīng)過注意力機(jī)制加權(quán)后的特征圖逐元素相加來抑制噪聲數(shù)據(jù);最后利用ConvLSTM對經(jīng)過注意力調(diào)整后的特征圖分析處理并給出相應(yīng)幀的預(yù)測。
使用在ImageNet上預(yù)訓(xùn)練的ResNet-50網(wǎng)絡(luò)[17]作為視頻幀的特征提取器,以視頻幀Vi為輸入,則f=φ(Vi)表示經(jīng)過卷積和池化后得到的特征圖,大小為H×W×D,其分別表示特征圖的高度、寬度和通道的數(shù)量,φ(·)表示ResNet-50網(wǎng)絡(luò)。鑒于高層特征是對圖像幀語義信息的抽象表示,對圖像的表觀和運(yùn)動(dòng)特征進(jìn)行全局性的概括,所以文中提取網(wǎng)絡(luò)最后一層卷積層的特征圖。在t時(shí)刻,得到H×W×D的特征圖,然后將此特征圖以特征切片的形式表示:
Ft=[Ft,1,…,F(xiàn)t,H×W],F(xiàn)t,j∈RD,
(1)
其中,F(xiàn)i,j為特征圖在不同通道中相同區(qū)域的特征表示,然后通過注意力模塊對特征圖選擇關(guān)注感興趣區(qū)域。
卷積注意力模塊是WOO等[14]在通道注意力的基礎(chǔ)上增加了空間注意力分析。如圖2所示,該注意力模型使得在圖像分類和目標(biāo)檢測等方面的識別性能得到了進(jìn)一步的提升。文中以ResNet-50網(wǎng)絡(luò)的輸出特征作為該注意力模塊的輸入特征,沿著通道和空間兩個(gè)維度順次推算出注意力權(quán)重,然后再與輸入的特征圖進(jìn)行運(yùn)算來對特征的選擇進(jìn)行自適應(yīng)的調(diào)整。整個(gè)模塊主要由兩部分構(gòu)成:通道注意力和空間注意力,以通道注意力來選擇什么是顯著的特征,以空間注意力來關(guān)注顯著特征的位置信息,二者互為補(bǔ)充,進(jìn)一步聚焦于興趣區(qū)域。
給定初始特征圖F∈RH×W×D作為輸入,注意力模塊依次計(jì)算出通道注意力圖Mc∈Rc×1×1和空間注意力圖MS∈R1×H×W,計(jì)算公式如下:
F′=MC(F)?F,F(xiàn)″=MS(F′)?F′ ,
(2)
其中,?表示對輸入特征圖與注意力圖中的元素進(jìn)行逐一相乘,F(xiàn)′是經(jīng)過通道注意力賦予權(quán)重的特征圖。然后對通道注意力特征圖F′進(jìn)行空間注意力分析,即可得到被卷積注意力調(diào)整后的最終特征圖F″。
1.2.1 通道注意
(3)
其中,σ(·)為Sigmoid函數(shù),W0和W1為多層感知機(jī)的權(quán)重參數(shù)。
1.2.2 空間注意力
與通道注意力不同,空間注意力更多聚焦于興趣區(qū)域的位置信息,和通道注意力形成互補(bǔ)關(guān)系。如圖4所示。
(4)
其中,σ(·)為Sigmoid函數(shù),f(·)表示卷積運(yùn)算。
長短時(shí)記憶網(wǎng)絡(luò)作為循環(huán)神經(jīng)網(wǎng)絡(luò)的變體克服了長距離時(shí)間依賴的問題,在機(jī)器翻譯、語音識別和圖像描述等任務(wù)中得到了廣泛應(yīng)用。而視頻作為一種時(shí)序性載體,憑借長短時(shí)記憶網(wǎng)絡(luò)對長時(shí)依賴關(guān)系的處理能力在動(dòng)作識別的任務(wù)中[7]也呈現(xiàn)出出色的性能。然而傳統(tǒng)的長短時(shí)記憶網(wǎng)絡(luò)對圖像幀進(jìn)行序列化建模時(shí),將時(shí)空特征通過全連接操作轉(zhuǎn)換為時(shí)序特征,因此導(dǎo)致無法對空間結(jié)構(gòu)信息進(jìn)行編碼。為克服這一問題,SHI等[18]首次在降雨預(yù)測模型中提出卷積長短時(shí)記憶模型(Convolutional LSTM network,ConvLSTM),其結(jié)構(gòu)如圖5所示。
隨后,一些研究者[12,15]將ConvLSTM應(yīng)用于動(dòng)作識別任務(wù)中,驗(yàn)證了ConvLSTM的性能要優(yōu)于傳統(tǒng)的長短時(shí)記憶網(wǎng)絡(luò)。在以上工作的基礎(chǔ)上,筆者采用多層ConvLSTM對視頻圖像幀序列建模分析并給出預(yù)測。為了保留時(shí)空特征中原有的空間結(jié)構(gòu)信息,ConvLSTM區(qū)別于傳統(tǒng)的長短時(shí)記憶網(wǎng)絡(luò),用卷積運(yùn)算替代了長短時(shí)記憶網(wǎng)絡(luò)中全連接層中的乘法操作。關(guān)于ConvLSTM的具體定義如式(5)~(9)所示:
it=σ(Wxi*xt+Whi*ht-1+Wci°ct-1+bi) ,
(5)
ft=σ(Wxf*xt+Whf*ht-1+Wcf°ct-1+bf) ,
(6)
ct=ft°ct-1+it°tanh(Wxc*xt+Whc*ht-1+bc) ,
(7)
ot=σ(Wxo*xt+Who*ht-1+Wco°ct+bo) ,
(8)
ht=ot°tanh(ct) 。
(9)
在上述公式中,*表示卷積,°表示向量中對應(yīng)元素相乘,Wx-和Wh-為卷積核的權(quán)重參數(shù),b~為偏置項(xiàng),σ(·)為Sigmoid函數(shù),it,ft,ot,ct和ht分別為輸入門,遺忘門,輸出門,記憶單元和隱藏狀態(tài)。在時(shí)間節(jié)點(diǎn)t,ConvLSTM以第t幀加權(quán)后的特征圖為輸入,結(jié)合前次狀態(tài)的歷史記憶來預(yù)測第t幀的類別,同時(shí)保留了特征在空間結(jié)構(gòu)的不變性。另一方面,從以往的研究工作中表明堆疊多層ConvLSTM具有更好的識別性能。
筆者使用的損失函數(shù)與用文獻(xiàn)[12]中的策略一致,基于交叉熵和雙隨機(jī)懲罰來設(shè)定損失函數(shù):
(10)
為了驗(yàn)證所提網(wǎng)絡(luò)結(jié)構(gòu)的有效性,選擇YouTube,UCF101和HMDB51數(shù)據(jù)集對筆者提出的方法進(jìn)行實(shí)驗(yàn)評估與分析。
YouTube數(shù)據(jù)集[19]視頻來源于YouTube視頻網(wǎng)站,視頻總數(shù)為1 168個(gè),視頻分別率為320×240像素。包含11個(gè)動(dòng)作類:投籃、騎自行車、跳水、打高爾夫球等。包含相機(jī)運(yùn)動(dòng)、尺度變化和復(fù)雜背景等干擾性因素。
UCF101數(shù)據(jù)集[20]視頻來源于YouTube,包含101種動(dòng)作類別,視頻總數(shù)為13 320個(gè)。其視頻具有較大的多樣性,包括相機(jī)運(yùn)動(dòng),目標(biāo)外觀和姿態(tài)的差異,目標(biāo)尺度和視角的變化以及雜亂背景和光照不均等。每一類動(dòng)作由25個(gè)對象執(zhí)行,每個(gè)對象執(zhí)行4到7組動(dòng)作。該數(shù)據(jù)集總體上可以分為5大類:人物交互、人的肢體動(dòng)作、人與人的交互、樂器演奏和體育運(yùn)動(dòng)。
HMDB51數(shù)據(jù)集[21]的視頻主要來源于YouTube,谷歌視頻網(wǎng)站,以及電影片段等。包含51種動(dòng)作類別,視頻總數(shù)為6 766個(gè),每種動(dòng)作類別都有超過100個(gè)動(dòng)作片段。整個(gè)動(dòng)作類別大致分為5類:面部動(dòng)作、面部與目標(biāo)物體交互的動(dòng)作、肢體運(yùn)動(dòng)、肢體與物體的交互和人與人之間的交互動(dòng)作。
(1) 在CNN-RNN的動(dòng)作識別框架下,卷積神經(jīng)網(wǎng)絡(luò)(ResNet-50)網(wǎng)絡(luò)作為圖像幀的特征提取器,采用在ImageNet上預(yù)訓(xùn)練好的模型參數(shù)。
表1 ConvLSTM單元的參數(shù)設(shè)置
(2) 為了減少方差,避免數(shù)據(jù)劃分對模型性能帶來的敏感性影響。如表1所示,采用交叉驗(yàn)證的方法對ConvLSTM單元的超參數(shù)選擇設(shè)定,其中包括卷積層卷積核的尺寸、學(xué)習(xí)率、權(quán)重衰減系數(shù)和丟失率。
(3) 使用Adam優(yōu)化算法[22]來優(yōu)化網(wǎng)絡(luò)的損失函數(shù)。
(4)訓(xùn)練集和測試集按3∶1的比率劃分,視頻的選擇都是隨機(jī)的,這在一定程度上增強(qiáng)了模型的泛化能力。
(5) 對于模型的訓(xùn)練和測試,借鑒文獻(xiàn)[10]的方法。將每個(gè)視頻以30幀為單位進(jìn)行采樣,采樣步長為1,所以一個(gè)視頻將會被分成多個(gè)長度為30幀的視頻塊。在分類階段,通過ConvLSTM直接預(yù)測每個(gè)單幀的類別得分,并在幀級別上對采樣片段的類別得分求取平均值,以此確定視頻片段的預(yù)測類別得分。類似地,整個(gè)視頻的預(yù)測類別最終由構(gòu)成它的所有視頻塊(長度為30幀的樣本)的類別得分共同確定。
(6) 關(guān)于初始特征圖和經(jīng)過注意力機(jī)制的特征圖進(jìn)行加權(quán)的權(quán)值選擇問題,僅在YouTube數(shù)據(jù)集上通過經(jīng)驗(yàn)設(shè)定和實(shí)驗(yàn)對比分析,如圖6所示,分別取5組權(quán)值進(jìn)行對比分析,以步長為0.1改變二者的值,得出初始特征圖的權(quán)值λ1為0.2,經(jīng)過注意力機(jī)制的特征圖的權(quán)值λ2為0.8時(shí)分類效果最佳。當(dāng)λ1>0.2,λ2<0.8時(shí),準(zhǔn)確率又逐漸下降,其原因可能是隨著經(jīng)過注意力機(jī)制的特征圖的權(quán)重下降,降低了注意力分布對模型的引導(dǎo)作用,導(dǎo)致模型的分類性能下滑。進(jìn)一步,對比分析了未加權(quán)之前的準(zhǔn)確度和引入注意力機(jī)制加權(quán)后的準(zhǔn)確度,將對比結(jié)果記錄在表3中。
(7) 整網(wǎng)絡(luò)的實(shí)現(xiàn)采用Tensorflow1.5.0深度學(xué)習(xí)框架,模型的訓(xùn)練和測試在Intel(R)Xeon(R)Gold 5115 CPU,64 GB RAM和單卡的NVIDIA(R) GTX 2080Ti GPU的工作站上運(yùn)行。
為驗(yàn)證不同的卷積神經(jīng)網(wǎng)絡(luò)特征提取器對模型分類效果的影響,采用VGG-16,GoogleNet和ResNet-50這3種基礎(chǔ)網(wǎng)絡(luò)來編碼視覺特征,然后對比這3種基礎(chǔ)網(wǎng)絡(luò)對模型識別效果的影響。對于不同特征編碼器的選取,僅在YouTube
數(shù)據(jù)集上進(jìn)行對比分析。
表2 不同CNN對模型性能的影響
3個(gè)基礎(chǔ)網(wǎng)絡(luò)的權(quán)重模型全部采用在ImageNet上訓(xùn)練的權(quán)重參數(shù),通過表2可知,ResNet-50在YouTube數(shù)據(jù)集上的分類效果最佳,反映出深層次的結(jié)構(gòu)對特征的刻畫更加充分,從而提高了模型的識別效果。故在后續(xù)的實(shí)驗(yàn)當(dāng)中均以ResNet-50來提取圖像幀的特征。
文獻(xiàn)[10]選擇堆疊3層的長短時(shí)記憶網(wǎng)絡(luò)處理視頻幀的序列信息,說明在一定程度上增加長短時(shí)記憶網(wǎng)絡(luò)層數(shù)保證了對時(shí)間信息的充分利用。對于視頻圖像幀序列的預(yù)測,分別對不同的ConvLSTM層數(shù)進(jìn)行實(shí)驗(yàn)分析。
對1到5層的ConvLSTM分別結(jié)合前一階段的特征圖對幀序列進(jìn)行預(yù)測分類,如圖7所示,堆疊3層的ConvLSTM在YouTube數(shù)據(jù)集上的性能最佳,因此確定采用3層的ConvLSTM作為“CNN-RNN”結(jié)構(gòu)中的RNN組件。
如表3所示,僅使用RGB數(shù)據(jù)作為輸入,控制其他條件一致(如特征提取器:ResNet-50和序列預(yù)測模型:3層ConvLSTM),將未加權(quán)之前的準(zhǔn)確度和引入注意力機(jī)制加權(quán)后的準(zhǔn)確度在本文所用的3個(gè)數(shù)據(jù)集上分別進(jìn)行了測試對比,加權(quán)后的測試準(zhǔn)確度均高于未加權(quán)的測試準(zhǔn)確度。實(shí)驗(yàn)結(jié)果表明,注意力機(jī)制在不同卷積通道和空間位置信息上可合理地配置特征圖的資源,有效地提升模型的辨識能力。
表3 未加權(quán)和引入注意力加權(quán)后的準(zhǔn)確率對比
2.3.1 定量分析
在UCF101和HMDB51兩個(gè)數(shù)據(jù)集上,僅使用RGB數(shù)據(jù)來訓(xùn)練和測試,對比了文中方法與軟注意力機(jī)制(Soft Attention)[10]在兩個(gè)數(shù)據(jù)集上單一動(dòng)作類的識別準(zhǔn)確度,如圖8(a)~(b)所示,利用卷積注意力模塊對特征做出精細(xì)化的調(diào)整,以通道注意力用來捕獲圖像中所要強(qiáng)調(diào)的突出特征,以空間注意力來關(guān)注突出特征的位置信息。與一般注意力機(jī)制中僅側(cè)重于通道特征選擇的不足,對通道注意力特征圖加以空間位置的分析,使得注意力區(qū)域更加集中,模型也更有針對性的賦予權(quán)重,在一定程度上減少了干擾性因素的影響。HMDB51數(shù)據(jù)集上對比結(jié)果記錄在圖8(a)中,在51種動(dòng)作類中有33類動(dòng)作,文中方法的識別準(zhǔn)確率要優(yōu)于軟注意力機(jī)制的方法,12類動(dòng)作保持與軟注意力機(jī)制的識別率相同,6類動(dòng)作準(zhǔn)確率略低于軟注意力機(jī)制的方法。UCF101數(shù)據(jù)集上對比結(jié)果記錄在圖8(b)中,在101種動(dòng)作類中有61類動(dòng)作文中方法的識別準(zhǔn)確率要優(yōu)于軟注意力機(jī)制的方法,27類動(dòng)作保持與軟注意力機(jī)制的識別率相同,13類動(dòng)作準(zhǔn)確率略低于軟注意力機(jī)制的方法。
對比軟注意力機(jī)制的方法,在兩個(gè)數(shù)據(jù)集上統(tǒng)計(jì)了文中方法識別準(zhǔn)確率提升排名前15的動(dòng)作類別,統(tǒng)計(jì)結(jié)果如表4所示。
表4 文中方法與基準(zhǔn)網(wǎng)絡(luò)在測試集上單類識別準(zhǔn)確率提升排名前15的動(dòng)作類別%
為了使得模型獲得更好的泛化能力,利用不同的輸入模態(tài)驗(yàn)證筆者所提出的方法。分別以RGB圖像,光流圖像和RGB+光流3種形式來訓(xùn)練網(wǎng)絡(luò),并將這3種形式在兩個(gè)數(shù)據(jù)集上的對比結(jié)果記錄在圖9中。利用OpenCV庫中封裝的TVL1算法計(jì)算相鄰兩幀的光流圖像,并將光流的水平和垂直分量線性調(diào)整到[0,255]的范圍內(nèi),參考文獻(xiàn)[23]中在長短時(shí)記憶網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)下圖像幀+光流的輸入模式,分別將RGB圖像和光流圖像輸入到網(wǎng)絡(luò),然后在最后的決策層將二者的識別結(jié)果進(jìn)行融合,做出全局最優(yōu)決策。分析了3種形式作為輸入來訓(xùn)練網(wǎng)絡(luò)之后得到的結(jié)果,RGB+光流在兩個(gè)數(shù)據(jù)集上都取得了最好的效果,其原因可能是不同形式的數(shù)據(jù)之間存在一定的互補(bǔ)性,從而使得模型可以學(xué)習(xí)到更好的特征表示。單獨(dú)使用光流的性能要高于單獨(dú)使用RGB圖像,說明光流中蘊(yùn)含的運(yùn)動(dòng)信息可以實(shí)現(xiàn)對運(yùn)動(dòng)更精細(xì)的刻畫,結(jié)合光流場中的運(yùn)動(dòng)信息能夠有效提高動(dòng)作分類的準(zhǔn)確率。
確定了特征編碼的基礎(chǔ)網(wǎng)絡(luò),注意力模塊之后。僅使用RGB數(shù)據(jù),基于“CNN+RNN”框架,分別以“CNN+LSTM”和“CNN+ConvLSTM”兩種結(jié)構(gòu)在HMDB51和UCF101數(shù)據(jù)集上驗(yàn)證更適合于筆者提出的網(wǎng)絡(luò)結(jié)構(gòu),將這兩種結(jié)構(gòu)在兩個(gè)數(shù)據(jù)集上的結(jié)果記錄在表5中。如表5所示,ConvLSTM結(jié)構(gòu)在HMDB51和UCF101上的準(zhǔn)確率分別約高于LSTM結(jié)構(gòu)1.94%、2.13%。在保持其他可變因素一致的前提下,ConvLSTM結(jié)構(gòu)性能優(yōu)于長短時(shí)記憶網(wǎng)絡(luò)結(jié)構(gòu)的主要受益于它特有的卷積運(yùn)算,使得ConvLSTM不僅具備對時(shí)序問題的處理能力,而且保留了特征的空間結(jié)構(gòu)信息,充分考慮到了時(shí)空特征的時(shí)序依賴性和空間不變性。
表5 “CNN+LSTM”和“CNN+ConvLSTM”兩種結(jié)構(gòu)識別準(zhǔn)確率的對比
為了更好地評價(jià)模型的訓(xùn)練速度,在具體的硬件和實(shí)驗(yàn)環(huán)境下(節(jié)2.2實(shí)驗(yàn)設(shè)置(7)中已給出聲明),通過單位時(shí)間內(nèi)處理視頻幀的數(shù)量(FPS)來衡量文中所使用“CNN+ConvLSTM”結(jié)構(gòu)消耗的時(shí)間代價(jià),并與未替換之前的長短時(shí)記憶網(wǎng)絡(luò)進(jìn)行對比分析。如表6所示,“CNN+ConvLSTM”結(jié)構(gòu)要比“CNN+LSTM”結(jié)構(gòu)處理視頻幀的速度要約低35%,其原因是ConvLSTM中大量的卷積操作造成了較大的運(yùn)算量,這也是未來將要關(guān)注的內(nèi)容,在保持模型分類精度不受損失的前提下,尋找更佳的優(yōu)化策略來優(yōu)化模型的處理速度。
表6 “CNN+LSTM”和“CNN+ConvLSTM”兩種結(jié)構(gòu)處理速度的對比
最后,為了體現(xiàn)文中方法的有效性,將在HMDB51和UCF101數(shù)據(jù)集上與當(dāng)前具有代表性的其他動(dòng)作識別算法的結(jié)果進(jìn)行對比。不同算法的對比結(jié)果如表7所示。由表7的實(shí)驗(yàn)結(jié)果對比得知,筆者提出的結(jié)合卷積注意力模塊和卷積長短時(shí)記憶的網(wǎng)絡(luò)模型取得了更好的實(shí)驗(yàn)效果。具體來說,采用多個(gè)模態(tài)的數(shù)據(jù)來優(yōu)化網(wǎng)絡(luò)可獲得更佳的性能(如LTC,VideoLSTM,SOFI+SI等),原因是不同形式的數(shù)據(jù)之間(RGB+光流)存在一定的互補(bǔ)性,從而使得模型可以學(xué)習(xí)到好的特征表示。對于LSTM Spatial Transformer而言,文中在HMDB51數(shù)據(jù)集上的識別率要比其略低1.84%,在UCF101數(shù)據(jù)上的識別率與文中方法的結(jié)果相同。這可能是因?yàn)長STM Spatial Transformer加入了時(shí)間連續(xù)性分析,減少了冗余幀帶來的影響。與其他的幾種方法:時(shí)序3維卷積網(wǎng)絡(luò)(T3D-Transfer),長時(shí)循環(huán)卷積網(wǎng)絡(luò)(LRCN)和區(qū)分性的運(yùn)動(dòng)描述子(DKD)相比,文中方法的準(zhǔn)確率均有所提升。
表7 不同方法在HMDB51和UCF101數(shù)據(jù)集上的識別準(zhǔn)確率%
2.3.2 定性分析
在這一部分,為了更加直觀地論證文中方法的優(yōu)勢所在,對賦予注意力權(quán)重的特征圖通過熱力圖的方式進(jìn)行可視化的展示。對于注意力的研究,眾多研究者致力于用注意力模型教會網(wǎng)絡(luò)該如何專注于感興趣的區(qū)域,就視頻動(dòng)作識別而言,是將網(wǎng)絡(luò)的焦點(diǎn)集中在動(dòng)作發(fā)生的相關(guān)區(qū)域,然后通過這些區(qū)域來決定所執(zhí)行動(dòng)作的類別。從3個(gè)數(shù)據(jù)集中隨機(jī)地選擇3個(gè)動(dòng)作樣本示例,如圖10所示,分別是(a)顛球,(b)吃、(c)拉小提琴,其中在每一副圖中第1行是隨機(jī)選取地非連續(xù)的5個(gè)動(dòng)作樣本幀,中間一行是通過軟注意力機(jī)制方法[10]輸出的熱力圖,最后一行是引入CBAM模型后得到的熱力圖。在熱力圖中,越是高亮的區(qū)域相對應(yīng)的權(quán)重就越大,網(wǎng)絡(luò)所關(guān)注的程度也就越高。在圖10(a)所展現(xiàn)的顛球動(dòng)作中,文中方法與軟注意力機(jī)制方法都將重點(diǎn)關(guān)注的區(qū)域放在了足球上面,然而軟注意力機(jī)制方法所關(guān)注區(qū)域的位置是在整個(gè)足球及其周圍的區(qū)域,反映出所強(qiáng)調(diào)的顯著位置相對來說較為發(fā)散。而CBAM模型沿著通道和空間兩個(gè)維度順次調(diào)整模型關(guān)注的特征區(qū)域,對通道注意力關(guān)注的特征加以空間位置的分析,更加精準(zhǔn)地突出決定性區(qū)域,使得網(wǎng)絡(luò)所關(guān)注的重點(diǎn)區(qū)域更為集中。同樣對于某些分類出現(xiàn)失誤的例子,熱力圖也直觀地展示了問題的所在。觀察可知,圖10(b)吃的例子中軟注意力機(jī)制方法出現(xiàn)定位失誤,第2行第1列的熱力圖表明模型所關(guān)注的區(qū)域并不在吃這個(gè)動(dòng)作上,而是在盛放食物的器皿上。圖10(c)所示的拉小提琴示例樣本中,雖然模型試圖將關(guān)注的重點(diǎn)放在了拉動(dòng)小提琴的動(dòng)態(tài)區(qū)域,但同時(shí)也把有些無關(guān)區(qū)域考慮了進(jìn)來,由第2行第1列和第2行第3列的熱力圖所呈現(xiàn),在將小提琴作為關(guān)注對象的同時(shí)也把旁邊出現(xiàn)的兩個(gè)樂器演奏者作為關(guān)注對象。由于出現(xiàn)了多個(gè)關(guān)注點(diǎn),所以這將很可能影響模型最終對視頻類別的分類。對比軟注意力機(jī)制方法在以上3個(gè)動(dòng)作示例中輸出的熱力圖,直觀來看,筆者提出的方法無論是從模型所關(guān)注重點(diǎn)的準(zhǔn)確性還是從重點(diǎn)部分的精細(xì)度來講,都有了一定程度的提升。
為了有效解決僅從通道維度關(guān)注視頻動(dòng)態(tài)區(qū)域時(shí),模型感興趣區(qū)域的范圍較為發(fā)散而導(dǎo)致無關(guān)區(qū)域的特征帶來的干擾性問題。筆者采用CBAM模塊,從通道和空間兩個(gè)維度引導(dǎo)網(wǎng)絡(luò)捕獲決定視頻類別的細(xì)節(jié)特征,忽略與類別相關(guān)性較弱的信息,使得網(wǎng)絡(luò)能夠更合理地對權(quán)重進(jìn)行分配,進(jìn)而從復(fù)雜多變的信息中挑選出對當(dāng)前動(dòng)作語義更關(guān)鍵的信息,在不增加模型復(fù)雜度的前提下,能夠抓住視頻圖像幀中的關(guān)鍵部分,進(jìn)一步提升模型的辨識能力。在視頻幀預(yù)測分類階段,ConvLSTM彌補(bǔ)了長短時(shí)記憶網(wǎng)絡(luò)丟失的空間結(jié)構(gòu)信息,通過引入卷積操作來利用圖像中的空間相關(guān)性,實(shí)現(xiàn)對視頻屬性的完整表示。最后,在3個(gè)公開數(shù)據(jù)集上對筆者提出的基于注意力機(jī)制的動(dòng)作識別方法進(jìn)行了實(shí)驗(yàn)驗(yàn)證,并與其他先進(jìn)算法的實(shí)驗(yàn)效果進(jìn)行對比,表明該網(wǎng)絡(luò)模型使得動(dòng)作識別的準(zhǔn)確率得到了一定程度的提升。