王萍 龐文浩
摘 要:針對(duì)原始空時(shí)雙通道卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型對(duì)長(zhǎng)時(shí)段復(fù)雜視頻中行為識(shí)別率低的問題,提出了一種基于視頻分段的空時(shí)雙通道卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法。首先將視頻分成多個(gè)等長(zhǎng)不重疊的分段,對(duì)每個(gè)分段隨機(jī)采樣得到代表視頻靜態(tài)特征的幀圖像和代表運(yùn)動(dòng)特征的堆疊光流圖像;然后將這兩種圖像分別輸入到空域和時(shí)域卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取,再在兩個(gè)通道分別融合各視頻分段特征得到空域和時(shí)域的類別預(yù)測(cè)特征;最后集成雙通道的預(yù)測(cè)特征得到視頻行為識(shí)別結(jié)果。通過實(shí)驗(yàn)討論了多種數(shù)據(jù)增強(qiáng)方法和遷移學(xué)習(xí)方案以解決訓(xùn)練樣本不足導(dǎo)致的過擬合問題,分析了不同分段數(shù)、預(yù)訓(xùn)練網(wǎng)絡(luò)、分段特征融合方案和雙通道集成策略對(duì)行為識(shí)別性能的影響。實(shí)驗(yàn)結(jié)果顯示所提模型在UCF101數(shù)據(jù)集上的行為識(shí)別準(zhǔn)確率達(dá)到91.80%,比原始的雙通道模型提高了3.8個(gè)百分點(diǎn);同時(shí)在HMDB51數(shù)據(jù)集上的行為識(shí)別準(zhǔn)確率也比原模型提高,達(dá)到61.39%,這表明所提模型能夠更好地學(xué)習(xí)和表達(dá)長(zhǎng)時(shí)段復(fù)雜視頻中人體行為特征。
關(guān)鍵詞:雙通道卷積神經(jīng)網(wǎng)絡(luò);行為識(shí)別;視頻分段;遷移學(xué)習(xí);特征融合
Abstract: Aiming at the issue that original spatial-temporal two-stream Convolutional Neural Network (CNN) model has low accuracy for action recognition in long and complex videos, a two-stream CNN for action recognition based on video segmentation was proposed. Firstly, a video was split into multiple non-overlapping segments with same length. For each segment, one frame image was sampled randomly to represent its static features and stacked optical flow images were calculated to represent its motion features. Secondly, these two patterns of images were input into the spatial CNN and temporal CNN for feature extraction, respectively. And the classification prediction features of spatial and temporal domains for action recognition were obtained by merging all segment features in two streams respectively. Finally, the two-steam predictive features were integrated to obtain the action recognition results for the video. In series of experiments, some data augmentation techniques and transfer learning methods were discussed to solve the problem of over-fitting caused by the lack of training samples. The effects of various factors including the number of segments, network architectures, feature fusion schemes based on segmentation and two-stream integration strategy on the performance of action recognition were analyzed. The experimental results show that the accuracy of action recognition of the proposed model on dataset UCF101 reaches 91.80%, which is 3.8% higher than that of original two-stream CNN model; and the accuracy of the proposed model on dataset HMDB51 is improved to 61.39%, which is higher than that of the original model. It shows that the proposed model can better learn and express the action features in long and complex videos.
Key words: two-stream Convolutional Neural Network (CNN); action recognition; video segmentation; transfer learning; feature fusion
0 引言
人類從外界獲取信息時(shí),視覺信息占各種器官獲取信息總量的80%[1],這些信息對(duì)于了解事物本質(zhì)具有重要的意義。隨著移動(dòng)互聯(lián)網(wǎng)和電子技術(shù)的飛速發(fā)展,手機(jī)等視頻采集設(shè)備大量普及,互聯(lián)網(wǎng)短視頻應(yīng)用也如雨后春筍般出現(xiàn),極大降低了視頻拍攝和分享的成本,這使得網(wǎng)絡(luò)視頻資源爆炸式增長(zhǎng)。這些資源豐富了人們的生活,但由于其數(shù)量龐大、種類繁多、內(nèi)容龐雜,如何對(duì)這些視頻數(shù)據(jù)進(jìn)行智能分析、理解、識(shí)別成為急需面對(duì)的挑戰(zhàn)。
人體行為識(shí)別是計(jì)算機(jī)視覺[2]領(lǐng)域一個(gè)重要的研究方向,其主要內(nèi)容是利用計(jì)算機(jī)模擬人腦分析和識(shí)別視頻中的人體行為,通常包括人的個(gè)體動(dòng)作、人與人之間以及人與外界環(huán)境之間的交互行為??諘r(shí)雙通道神經(jīng)網(wǎng)絡(luò)可以從空域和時(shí)域兩個(gè)角度表征視頻的特征,相比其他神經(jīng)網(wǎng)絡(luò)模型在人體行為識(shí)別上更有優(yōu)勢(shì)。本文基于視頻分段利用空時(shí)雙通道神經(jīng)網(wǎng)絡(luò)提取空域的幀圖像特征和時(shí)域的運(yùn)動(dòng)特征,并將各分段的空域和時(shí)域的識(shí)別結(jié)果進(jìn)行融合,最后得到整段視頻的行為識(shí)別分類。
1 相關(guān)工作
在傳統(tǒng)的基于人工設(shè)計(jì)特征的行為識(shí)別方法中,早期的基于人體幾何或者運(yùn)動(dòng)信息的特征僅適用于簡(jiǎn)單場(chǎng)景下的人體簡(jiǎn)單動(dòng)作識(shí)別,而在背景相對(duì)復(fù)雜的情況下基于時(shí)空興趣點(diǎn)的方法效果較好。這些方法首先獲取視頻中的時(shí)空興趣點(diǎn)或稠密采樣點(diǎn),并根據(jù)這些點(diǎn)周圍的時(shí)空塊計(jì)算局部特征,再利用經(jīng)典的特征袋(Bag of Features, BoF)、VLAD(Vector of Locally Aggregated Descriptors)或FV(Fisher Vector)等特征編碼方法最終形成描述視頻動(dòng)作的特征向量。目前在基于局部特征的方法中,基于稠密軌跡(Dense Trajectory, DT)的行為識(shí)別方法在很多公開的真實(shí)場(chǎng)景行為數(shù)據(jù)庫(kù)中得到了較好的識(shí)別結(jié)果,它們通過跟蹤視頻每一幀內(nèi)的稠密采樣點(diǎn)獲取稠密軌跡,再計(jì)算軌跡特征描述視頻中行為。如:Cai等[3]用多視角超向量(Multi-View Super Vector, MVSV)作為全局描述符來編碼稠密軌跡特征;Wang等[4]使用FV編碼改進(jìn)的稠密軌跡(improved Dense Trajectory, iDT)特征;Peng等[5]使用視覺詞袋模型(Bag of Visual Words, BoVW)編碼空時(shí)興趣點(diǎn)或改進(jìn)的稠密軌跡特征;Wang等[6]基于稠密軌跡特征提出了一種視頻的多級(jí)表示模型MoFAP(Motion Features, Atoms, and Phrases),可以分級(jí)地表示視覺信息。稠密軌跡能夠以更廣的覆蓋面和更細(xì)的顆粒度提取行為特征,但通常存在大量軌跡冗余而限制了識(shí)別效果。
隨著深度學(xué)習(xí)尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)在語音和圖像識(shí)別等領(lǐng)域的成功運(yùn)用,近年來出現(xiàn)了多種基于深度學(xué)習(xí)框架的人體行為識(shí)別方法,當(dāng)訓(xùn)練樣本足夠多時(shí)可通過深度網(wǎng)絡(luò)學(xué)習(xí)到具有一定語義的特征,更適合于目標(biāo)和行為的識(shí)別。Karpathy等[7]訓(xùn)練深度網(wǎng)絡(luò)DeepNet,利用慢融合模型對(duì)視頻中不同圖像幀特征進(jìn)行融合,然而該模型無法提取視頻的運(yùn)動(dòng)信息,因此效果并不理想。Tran等[8]為了利用視頻中的時(shí)域特性,將二維卷積推廣到三維卷積,使用3D-CNN(3-Dimensional Convolutional Neural Network)深度網(wǎng)絡(luò)學(xué)習(xí)空時(shí)特征,該網(wǎng)絡(luò)在避免處理光流的情況下獲得了視頻的運(yùn)動(dòng)特征,但時(shí)域信息提取能力有限,對(duì)長(zhǎng)時(shí)段復(fù)雜的人體行為識(shí)別效果提升并不明顯。Varol等[9]在定長(zhǎng)時(shí)間的視頻塊內(nèi)使用三維空時(shí)卷積特征,進(jìn)一步提升了行為識(shí)別效果。
Simonyan等[10]首先提出了使用兩個(gè)數(shù)據(jù)流(Two-stream)的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行視頻行為識(shí)別,空域網(wǎng)絡(luò)的輸入數(shù)據(jù)流是靜態(tài)幀圖像,時(shí)域網(wǎng)絡(luò)的輸入數(shù)據(jù)流是表征幀間運(yùn)動(dòng)的光流,每個(gè)數(shù)據(jù)流都使用深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取和動(dòng)作預(yù)測(cè),最后融合兩個(gè)數(shù)據(jù)流的結(jié)果進(jìn)行最終動(dòng)作的識(shí)別。該模型取得了與改進(jìn)稠密軌跡法相似的識(shí)別性能。Ng等[11]將長(zhǎng)短期記憶(Long-Short Term Memory, LSTM)網(wǎng)絡(luò)加入到原始雙通道模型中,用來加強(qiáng)時(shí)域信息的聯(lián)系。最初雙通道模型中使用的卷積網(wǎng)絡(luò)層數(shù)較淺,Wang等[12]提出采用在圖像分類任務(wù)中性能更好的預(yù)訓(xùn)練深度網(wǎng)絡(luò)模型如VGGNet、GoogLeNet,增強(qiáng)了對(duì)視頻運(yùn)動(dòng)特征的學(xué)習(xí)和建模能力。將手工特征和深度學(xué)習(xí)相結(jié)合也是一種研究趨勢(shì),Wang等[13]利用雙通道神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)卷積特征圖,并利用軌跡約束獲得深度卷積特征描述子(Trajectory-pooled Deep-convolutional Descriptors, TDD),之后用FV編碼得到視頻級(jí)表示。
2 基于視頻分段的空時(shí)雙通道行為識(shí)別
2.1 整體框架
最初的雙通道方法從視頻中隨機(jī)采樣單幀進(jìn)行行為識(shí)別,對(duì)于復(fù)雜行為或持續(xù)時(shí)間較長(zhǎng)的視頻,視角變換和背景擾動(dòng)會(huì)導(dǎo)致僅利用單幀圖像無法有效表達(dá)視頻的類別信息。為了對(duì)長(zhǎng)時(shí)段復(fù)雜視頻建立有效的識(shí)別模型,本文基于視頻分段應(yīng)用空時(shí)雙通道神經(jīng)網(wǎng)絡(luò),整體框架如圖1所示。先將視頻分成多個(gè)等長(zhǎng)不重疊的分段,對(duì)每個(gè)分段通過隨機(jī)采樣得到靜態(tài)幀圖像和包含運(yùn)動(dòng)信息的堆疊光流圖像,分別輸入到空域和時(shí)域CNN進(jìn)行特征提取;然后在各自通道內(nèi)將各個(gè)分段的網(wǎng)絡(luò)輸出預(yù)測(cè)特征進(jìn)行融合;最后集成融合兩個(gè)通道的預(yù)測(cè)特征得到最終的行為識(shí)別結(jié)果。
其中:Ti表示視頻第i個(gè)分段的隨機(jī)采樣,空域中是RGB幀圖像,時(shí)域中是堆疊光流圖像;F(Ti;W)表示參數(shù)為W的卷積神經(jīng)網(wǎng)絡(luò)對(duì)Ti的特征提取,其輸出為對(duì)應(yīng)類別數(shù)目維度的特征向量;分段融合函數(shù)g表示對(duì)K個(gè)分段特征以某種方法進(jìn)行融合,得到空域或者時(shí)域的特征;輸出函數(shù)H表示對(duì)識(shí)別結(jié)果進(jìn)行類別分類,一般采用Softmax函數(shù)得到每個(gè)行為類別的概率值。此外,每個(gè)視頻分段的空域網(wǎng)絡(luò)結(jié)構(gòu)完全相同,共享網(wǎng)絡(luò)權(quán)值;時(shí)域網(wǎng)絡(luò)結(jié)構(gòu)亦如此。
2.2 空域網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理
空域網(wǎng)絡(luò)是對(duì)視頻中采樣得到的靜態(tài)RGB幀圖像進(jìn)行識(shí)別,為了測(cè)試不同采樣方式對(duì)行為識(shí)別性能的影響,使用UCF101數(shù)據(jù)集的Split1訓(xùn)練/測(cè)試分割方案,測(cè)試Top-1行為識(shí)別準(zhǔn)確率(即網(wǎng)絡(luò)輸出中最大概率的類別是正確的識(shí)別結(jié)果)。表1列出了三種采樣策略的識(shí)別性能,在網(wǎng)絡(luò)訓(xùn)練過程中,采用了GoogLeNet卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)版本InceptionV3模型[14]??梢钥吹剑蓸訋瑪?shù)增加并未提升識(shí)別性能,反而增加了數(shù)據(jù)冗余,增大了計(jì)算復(fù)雜度,因此,對(duì)視頻進(jìn)行密集采樣并不可取,本文實(shí)驗(yàn)中對(duì)于K個(gè)等長(zhǎng)的視頻分段,每個(gè)分段隨機(jī)采樣1幀圖像。
為了防止學(xué)習(xí)建模中的過擬合問題[15],通常會(huì)采用數(shù)據(jù)增強(qiáng)技術(shù),這不僅能擴(kuò)增輸入數(shù)據(jù)的規(guī)模、增加樣本的差異性,還能增強(qiáng)網(wǎng)絡(luò)模型的泛化能力。在空域網(wǎng)絡(luò)中,本文對(duì)視頻幀使用水平翻轉(zhuǎn)、角度旋轉(zhuǎn)、平移變換、錯(cuò)切變換等數(shù)據(jù)增強(qiáng)方法,并在InceptionV3網(wǎng)絡(luò)模型上測(cè)試了這些方法對(duì)行為識(shí)別性能的影響。表2列出了5種情況下的Top-1和Top-5識(shí)別準(zhǔn)確率??梢钥吹?,缺少任一種數(shù)據(jù)增強(qiáng)技術(shù),識(shí)別準(zhǔn)確率均有下降,這說明了數(shù)據(jù)增強(qiáng)方法的有效性,因此本文實(shí)驗(yàn)中采用全部4種數(shù)據(jù)增強(qiáng)技術(shù)。
2.3 時(shí)域網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理
視頻中的運(yùn)動(dòng)信息對(duì)于行為識(shí)別至關(guān)重要,光流是一種簡(jiǎn)單實(shí)用的表達(dá)圖像序列運(yùn)動(dòng)信息的方式,被廣泛用于提取行為運(yùn)動(dòng)特征。Horn等[16]基于兩個(gè)基本假設(shè)推導(dǎo)了圖像序列光流的計(jì)算公式,本文使用該方法計(jì)算水平和垂直兩方向的光流。因光流數(shù)值接近0且有正有負(fù),為了能夠作為時(shí)域網(wǎng)絡(luò)通道的輸入,需要對(duì)其進(jìn)行線性變換,最終將兩個(gè)方向的光流保存為兩張灰度圖像,如圖2所示。為了有效提取視頻的運(yùn)動(dòng)信息,本文采用10個(gè)連續(xù)幀的水平和垂直光流堆疊形成20個(gè)密集光流圖像。
空域和時(shí)域中通常會(huì)采用預(yù)先在ImageNet上訓(xùn)練的CNN,這些網(wǎng)絡(luò)的輸入是RGB圖像,因此第一個(gè)卷積層的通道數(shù)為3,但時(shí)域網(wǎng)絡(luò)輸入20個(gè)光流圖像,與第一個(gè)卷積層的通道數(shù)不匹配,這里采用跨模態(tài)交叉預(yù)訓(xùn)練的方法,將第一個(gè)卷積層的3個(gè)通道的權(quán)值取平均,再將其復(fù)制20份作為時(shí)域網(wǎng)絡(luò)第一個(gè)卷積層20個(gè)通道的權(quán)值;而時(shí)域網(wǎng)絡(luò)其他層的權(quán)值與空域?qū)?yīng)層的權(quán)值參數(shù)相同。
2.4 遷移學(xué)習(xí)
機(jī)器學(xué)習(xí)方法需要有足夠的訓(xùn)練樣本才能學(xué)習(xí)到一個(gè)好的分類模型,但實(shí)際中針對(duì)目標(biāo)任務(wù)的現(xiàn)有樣本往往規(guī)模較小,而人為標(biāo)注大量樣本不僅費(fèi)時(shí)費(fèi)力,還會(huì)受標(biāo)注者主觀因素的影響。遷移學(xué)習(xí)方法能夠使用預(yù)訓(xùn)練模型解決目標(biāo)任務(wù)數(shù)據(jù)不足的問題,對(duì)于新目標(biāo)任務(wù),使用時(shí)需要將預(yù)訓(xùn)練網(wǎng)絡(luò)模型中最后一個(gè)用于分類的全連接層替換成新的針對(duì)目標(biāo)任務(wù)類別數(shù)目的全連接層。本文采用在ImageNet上預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)模型ResNet50/101對(duì)UCF101數(shù)據(jù)集進(jìn)行行為識(shí)別,遷移學(xué)習(xí)時(shí)需要將最后一個(gè)全連接層設(shè)置為對(duì)應(yīng)的101類輸出。
實(shí)驗(yàn)中對(duì)比了兩種遷移學(xué)習(xí)方案:一種是僅對(duì)卷積神經(jīng)網(wǎng)絡(luò)的最后一個(gè)分類層進(jìn)行權(quán)值更新;另一種是微調(diào)整個(gè)網(wǎng)絡(luò)更新所有權(quán)值。兩種方案的識(shí)別準(zhǔn)確率如表3所示。可以看到,采用微調(diào)整個(gè)網(wǎng)絡(luò)的方案可以獲得更好的識(shí)別性能,Top-1及Top-5準(zhǔn)確率均高于僅微調(diào)最后一層的方案,因此本文實(shí)驗(yàn)中采用微調(diào)整個(gè)網(wǎng)絡(luò)的遷移學(xué)習(xí)方案。
2.5 單通道分段特征融合
基于視頻分段的空時(shí)雙通道模型包含獨(dú)立的空域和時(shí)域卷積神經(jīng)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)在結(jié)構(gòu)上除了第一層的輸入通道數(shù)不同,其他層參數(shù)完全相同。單通道分段融合是指在單個(gè)通道中將各個(gè)視頻分段的網(wǎng)絡(luò)輸出通過某種方式融合,得到該通道的行為識(shí)別結(jié)果。本文設(shè)計(jì)了基于最大值、均值和方差三種分段特征融合方案。
遷移學(xué)習(xí)后網(wǎng)絡(luò)最后一個(gè)全連接層輸出的特征向量其維度對(duì)應(yīng)于類別數(shù)目,越大特征值對(duì)應(yīng)的類別可能性越大。最大值分段特征融合指取所有分段對(duì)應(yīng)類別輸出特征值中的最大值作為該類別的特征輸出,這是一種對(duì)每個(gè)類別取最有可能模式的融合策略。均值分段特征融合指取所有分段對(duì)應(yīng)類別輸出特征值的平均值,這種策略平等看待每個(gè)分段中的行為信息?;诜讲畹姆侄翁卣魅诤喜呗允歉鶕?jù)分段輸出特征的方差對(duì)分段的重要性進(jìn)行區(qū)分,方差較大,對(duì)應(yīng)輸出特征離散程度較大,說明有可顯著識(shí)別的行為類別,這樣的特征對(duì)視頻的行為識(shí)別貢獻(xiàn)度應(yīng)該高,因此給該分段賦予較大權(quán)重;反之,分段輸出特征的方差小,說明輸出特征離散程度小,其對(duì)行為識(shí)別辨識(shí)度低,重要性低,融合時(shí)權(quán)重也較小。
2.6 雙通道特征集成
雙通道模型中的空域和時(shí)域兩個(gè)CNN彼此獨(dú)立,在各自通道對(duì)分段特征融合后,還需融合空域和時(shí)域的識(shí)別結(jié)果。本文基于集成學(xué)習(xí)[17]的思想,討論試湊集成和方差集成兩種空時(shí)特征集成方案,以實(shí)現(xiàn)識(shí)別性能的進(jìn)一步提升。
試湊集成的方法通過設(shè)置加權(quán)系數(shù)θspatial和θtemporal對(duì)分段融合后的空域和時(shí)域特征進(jìn)行加權(quán)求和得到雙通道輸出特征,最終以最大特征值對(duì)應(yīng)類別為識(shí)別結(jié)果。一般來說,時(shí)域中的運(yùn)動(dòng)信息對(duì)行為識(shí)別更為重要,因此可設(shè)置較大權(quán)重。方差集成的方法以融合后的空域和時(shí)域特征向量的方差作為加權(quán)系數(shù),對(duì)兩個(gè)通道的重要性進(jìn)行區(qū)分。
3 結(jié)果分析
3.1 基本參數(shù)設(shè)置
本文實(shí)驗(yàn)在Linux系統(tǒng)下基于PyTorch0.3.0深度學(xué)習(xí)框架進(jìn)行。雙通道網(wǎng)絡(luò)的基本參數(shù)設(shè)置如表4所示,包括初始學(xué)習(xí)速率、Batch-size大小以及動(dòng)量。本文采用預(yù)訓(xùn)練的網(wǎng)絡(luò)模型對(duì)UCF101數(shù)據(jù)集進(jìn)行行為識(shí)別,使用較小的學(xué)習(xí)速率將有利于網(wǎng)絡(luò)的訓(xùn)練??沼蚓W(wǎng)絡(luò)的初始學(xué)習(xí)速率設(shè)置為0.0005;時(shí)域網(wǎng)絡(luò)由于其輸入數(shù)據(jù)為光流圖像,與RGB圖像存在一定差異,設(shè)置相對(duì)較大的初始學(xué)習(xí)速率將有利于網(wǎng)絡(luò)的快速收斂,實(shí)驗(yàn)中設(shè)置為0.01。優(yōu)化時(shí)學(xué)習(xí)速率采用自適應(yīng)方法,根據(jù)學(xué)習(xí)結(jié)果自動(dòng)更新學(xué)習(xí)速率。從內(nèi)存容量、使用率以及收斂速度等方面考慮將Batch-size設(shè)置為32。為了有效加速網(wǎng)絡(luò)的收斂,動(dòng)量的設(shè)置遵循傳統(tǒng)雙通道行為識(shí)別方法[10],設(shè)置為0.9。空域和時(shí)域網(wǎng)絡(luò)訓(xùn)練時(shí)均采用交叉熵?fù)p失函數(shù)作為優(yōu)化目標(biāo)函數(shù),優(yōu)化方法為隨機(jī)梯度下降算法。
UCF101數(shù)據(jù)集中,訓(xùn)練集包含9537個(gè)視頻,測(cè)試集包含3783個(gè)視頻。每個(gè)輪回的訓(xùn)練共需要300次迭代,每次迭代時(shí)隨機(jī)選取32個(gè)視頻作為訓(xùn)練樣本,每個(gè)樣本采用前述數(shù)據(jù)增強(qiáng)方法后被裁剪為網(wǎng)絡(luò)輸入的尺寸224×224,并且進(jìn)行歸一化操作。每個(gè)輪回的訓(xùn)練完成后對(duì)測(cè)試集進(jìn)行測(cè)試,以檢驗(yàn)學(xué)習(xí)模型的性能,測(cè)試時(shí)遵循THUMOS13挑戰(zhàn)機(jī)制[18]。
3.2 不同分段數(shù)目下行為識(shí)別性能分析
為了對(duì)長(zhǎng)時(shí)段視頻進(jìn)行有效建模,本文將視頻分成K個(gè)等長(zhǎng)的分段:分段數(shù)目較少時(shí),會(huì)導(dǎo)致行為信息提取不足、訓(xùn)練模型過于簡(jiǎn)單;而分段數(shù)目較多又會(huì)導(dǎo)致數(shù)據(jù)冗余,增加計(jì)算量。表5給出了采用ResNet50/101網(wǎng)絡(luò)時(shí)在不同視頻分段數(shù)目下的空域通道行為識(shí)別性能??梢钥吹?,當(dāng)視頻分成3個(gè)分段時(shí),其行為識(shí)別性能較好,因此后續(xù)實(shí)驗(yàn)中將視頻分段數(shù)目設(shè)置為3。
從表6~7中可以看到,相比其他網(wǎng)絡(luò)結(jié)構(gòu),ResNet101在空域通道和時(shí)域通道均取得了最高的行為識(shí)別準(zhǔn)確率,Top-1準(zhǔn)確率分別達(dá)到了82.24%和83.48%。此外也看到ResNet18/50/101等3種殘差網(wǎng)絡(luò)的識(shí)別性能隨著網(wǎng)絡(luò)深度的增加而提高,這說明了卷積神經(jīng)網(wǎng)絡(luò)的深度對(duì)行為識(shí)別的重要性。
3.4 不同分段融合方案下行為識(shí)別性能分析
實(shí)驗(yàn)中將每個(gè)視頻分為3個(gè)等長(zhǎng)的分段,空域通道輸出的101維特征向量代表輸入分段的空域行為識(shí)別結(jié)果,如前所述,對(duì)3個(gè)分段的101維特征融合后經(jīng)過Softmax函數(shù)后即可得到整個(gè)空域通道的行為識(shí)別結(jié)果。對(duì)時(shí)域通道亦如此。表8和表9給出了幾種網(wǎng)絡(luò)結(jié)構(gòu)在不同分段融合方案下的行為識(shí)別性能。實(shí)驗(yàn)中先對(duì)ResNet18殘差網(wǎng)絡(luò)在空時(shí)雙通道中均采用了基于均值、最大值以及方差的分段融合方案??梢钥吹?,基于均值的方案都取得了較佳的識(shí)別性能,而基于最大值的方案總體性能較差,這可能是因?yàn)橐曨l分段內(nèi)容的差異會(huì)導(dǎo)致判別誤差較大,因此對(duì)ResNet50和ResNet101網(wǎng)絡(luò)結(jié)構(gòu)不再采用基于最大值的分段融合方案??梢钥吹剑S著網(wǎng)絡(luò)深度的增加,基于均值的融合方案識(shí)別性能仍是較好,而且考慮到均值融合方案的計(jì)算更簡(jiǎn)單,因此基于各分段輸出特征的平均值更適合作為分段融合方案。
3.5 不同集成策略下行為識(shí)別性能分析
試湊集成策略通過設(shè)置加權(quán)系數(shù)θspatial和θtemporal對(duì)分段融合后的空域和時(shí)域特征進(jìn)行加權(quán)求和,得到最終的雙通道輸出特征。本文在ResNet101網(wǎng)絡(luò)結(jié)構(gòu)上采用多種權(quán)重比例進(jìn)行空時(shí)雙通道的集成,行為識(shí)別性能如表10所示??梢钥吹?,當(dāng)空域與時(shí)域的權(quán)重比例不斷減小時(shí),識(shí)別準(zhǔn)確率逐步上升,這說明了相對(duì)于空域通道提取的靜態(tài)特征,時(shí)域通道提取的運(yùn)動(dòng)特征對(duì)行為識(shí)別有著更重要的作用。當(dāng)權(quán)重比例為1∶3時(shí),識(shí)別性能最好,此時(shí)單獨(dú)空域通道的Top-1準(zhǔn)確率是82.24%,單獨(dú)時(shí)域通道的Top-1準(zhǔn)確率是83.48%,而集成后Top-1準(zhǔn)確率達(dá)到了91.72%,這說明了集成雙通道特征可以有效提升行為識(shí)別性能。
是使用分段融合后的空域和時(shí)域特征向量的方差作為兩通道的加權(quán)系數(shù),對(duì)空時(shí)兩個(gè)學(xué)習(xí)器進(jìn)行集成。表11列出了在ResNet101網(wǎng)絡(luò)結(jié)構(gòu)上采用基于方差的集成方法的行為識(shí)別性能,其中Top-1準(zhǔn)確率僅為79.81%,性能出現(xiàn)了下降,這說明采用所有101個(gè)類別輸出值的離散程度來對(duì)空域或時(shí)域進(jìn)行重要性打分的評(píng)價(jià)標(biāo)準(zhǔn)不合理,其結(jié)果會(huì)受到非預(yù)測(cè)類別輸出值的干擾。為了減少這種干擾,考慮到通常卷積神經(jīng)網(wǎng)絡(luò)輸出的較大特征值對(duì)分類更具意義,因此采用空時(shí)雙通道輸出的最大5個(gè)特征值的方差作為集成時(shí)的加權(quán)系數(shù),可以看到Top-1識(shí)別準(zhǔn)確率達(dá)到86.93%,比采用101類方差集成的性能有所提升,但與前述基于試湊方式獲得的最好性能仍有差距。
3.6 與現(xiàn)有方法對(duì)比
表12列出了本文方法與一些基于傳統(tǒng)手工設(shè)計(jì)特征以及基于深度學(xué)習(xí)的方法在UCF101行為識(shí)別數(shù)據(jù)集上的性能對(duì)比。表中前4種基于稠密軌跡使用不同的特征編碼方法得到視頻級(jí)表示,可以看到基于手工特征的方法識(shí)別準(zhǔn)確率最高達(dá)到88.3%。表中后7種方法為基于深度學(xué)習(xí)的方法,最早應(yīng)用深度學(xué)習(xí)的DeepNet網(wǎng)絡(luò)識(shí)別準(zhǔn)確率僅有63.3%,三維卷積神經(jīng)網(wǎng)絡(luò)3D-CNN的準(zhǔn)確率是85.2%,性能都低于最好的手工特征方法。原始雙通道模型的識(shí)別準(zhǔn)確率是88%,加入LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)后準(zhǔn)確率是88.6%,使用深層卷積神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確率達(dá)到90.9%。文獻(xiàn)[13]結(jié)合深度特征和軌跡特征,識(shí)別準(zhǔn)確率是90.3%。本文在對(duì)長(zhǎng)時(shí)段視頻運(yùn)動(dòng)信息建模時(shí)采用了基于視頻分段的空時(shí)雙通道模型,取得了91.8%的識(shí)別準(zhǔn)確率,相比原始的雙通道方法,準(zhǔn)確率提升了3.8個(gè)百分點(diǎn)。這說明基于深度學(xué)習(xí)的方法隨著多種網(wǎng)絡(luò)模型及學(xué)習(xí)策略的應(yīng)用,可以取得比傳統(tǒng)方法更好的識(shí)別性能。
3.7 HMDB51數(shù)據(jù)集行為識(shí)別性能分析
基于視頻分段的空時(shí)雙通道卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別方法在公開數(shù)據(jù)集UCF101上取得了不錯(cuò)的性能,為了進(jìn)一步檢驗(yàn)算法的性能,基于ResNet101網(wǎng)絡(luò)模型在HMDB51數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。該數(shù)據(jù)集包含51個(gè)行為類別共6766個(gè)視頻,每個(gè)類別至少包含101個(gè)視頻。HMDB51是目前數(shù)據(jù)集里最復(fù)雜的,識(shí)別率最低的。使用該數(shù)據(jù)集學(xué)習(xí)分類模型時(shí)同樣有3種訓(xùn)練/測(cè)試分割方案,訓(xùn)練集有3570個(gè)樣本,測(cè)試集有1530個(gè)樣本,實(shí)驗(yàn)仍然在Split1訓(xùn)練/測(cè)試方案上進(jìn)行。視頻分段采用基于均值的融合方式,空域和時(shí)域通道的Top-1行為識(shí)別準(zhǔn)確率分別為49.41%和45.22%。當(dāng)雙通道采用試湊方式集成,空時(shí)權(quán)重比例系數(shù)為1∶2時(shí),雙通道融合后Top-1準(zhǔn)確率達(dá)到61.39%,比最初的空時(shí)雙通道網(wǎng)絡(luò)模型的行為識(shí)別準(zhǔn)確率58%也有提高。HMDB51數(shù)據(jù)集上識(shí)別準(zhǔn)確率較低主要是因?yàn)榕cUCF101數(shù)據(jù)集相比,HMDB51存在大量類間差別較小的行為,比如面部吃和喝的運(yùn)動(dòng)、說話和微笑等等,此外視頻的規(guī)模和質(zhì)量也對(duì)模型的學(xué)習(xí)及表達(dá)存在一定限制。
4 結(jié)語
本文實(shí)現(xiàn)了一種基于視頻分段的空時(shí)雙通道卷積神經(jīng)網(wǎng)絡(luò)的人體行為識(shí)別方法,主要基于殘差網(wǎng)絡(luò)模型在UCF101數(shù)據(jù)集上進(jìn)行了識(shí)別分類的訓(xùn)練和測(cè)試。為了解決因數(shù)據(jù)集樣本不足造成的過擬合問題,實(shí)驗(yàn)討論分析了多種數(shù)據(jù)增強(qiáng)方法對(duì)空域網(wǎng)絡(luò)識(shí)別準(zhǔn)確率的影響;同時(shí)因?yàn)樵诓捎肐mageNet上預(yù)訓(xùn)練網(wǎng)絡(luò)模型對(duì)目標(biāo)數(shù)據(jù)集分類識(shí)別時(shí)需要調(diào)整網(wǎng)絡(luò),從而討論分析了兩種遷移學(xué)習(xí)方案,實(shí)驗(yàn)顯示全局微調(diào)網(wǎng)絡(luò)比僅微調(diào)最后一層可獲得較大性能的提升。對(duì)基于分段的空時(shí)雙通道模型,通過實(shí)驗(yàn)討論分析了不同視頻分段數(shù)目、預(yù)訓(xùn)練網(wǎng)絡(luò)結(jié)構(gòu)、分段特征融合方法、空時(shí)特征集成策略等環(huán)節(jié)對(duì)識(shí)別性能的影響,證明了融合雙通道內(nèi)各個(gè)視頻分段的卷積神經(jīng)網(wǎng)絡(luò)輸出特征的方法能夠捕獲視頻中的行為運(yùn)動(dòng)特征,提高了行為識(shí)別準(zhǔn)確率。
參考文獻(xiàn) (References)
[1] 單言虎,張彰,黃凱奇.人的視覺行為識(shí)別研究回顧、現(xiàn)狀及展望[J].計(jì)算機(jī)研究與發(fā)展,2016,53(1):93-112.(SHAN Y H, ZHANG Z, HUANG K Q. Review, current situation and prospect of human visual behavior recognition [J]. Journal of Computer Research and Development, 2016, 53 (1): 93-112.)
[2] FORSYTH D A. Computer Vision: A Modern Approach[M]. 2nd ed. Englewood Cliffs, NJ: Prentice Hall, 2011: 1-2.
[3] CAI Z, WANG L, PENG X, et al. Multi-view super vector for action recognition[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2014: 596-603.
[4] WANG H, SCHMID C. Action recognition with improved trajectories[C]// Proceedings of the 2013 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2014: 3551-3558.
[5] PENG X, WANG L, WANG X, et al. Bag of visual words and fusion methods for action recognition: comprehensive study and good practice [J]. Computer Vision and Image Understanding, 2016, 150: 109-125.
[6] WANG L, QIAO Y, TANG X. MoFAP: a multi-level representation for action recognition[J]. International Journal of Computer Vision, 2016, 119 (3): 254-271.
[7] KARPATHY A, TODERICI G, SHETTY S, et al. Large-scale video classification with convolutional neural networks[C]// Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Rec-ognition. Washington, DC: IEEE Computer Society, 2014: 1725-1732.
[8] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]// Proceedings of the 2014 IEEE International Conference on Computer Vision. Washington, DC: IEEE Computer Society, 2015: 4489-4497.
[9] VAROL G, LAPTEV I, SCHMID C. Long-term temporal convolutions for action recognition [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(6): 1510-1517.
[10] SIMONYAN K, ZISSERMAN A. Two-stream convolutional net-works for action recognition in videos[C]// Proceedings of the 2014 Conference on Neural Information Processing Systems. New York: Curran Associates, 2014: 568-576.
[11] NG Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classification[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 4694-4702.
[12] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition [C]// Proceedings of the 2016 European Conference on Computer Vision. Berlin: Springer, 2016: 22-36.
[13] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 4305-4314.
[14] SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 2818-2826.
[15] MURPHY K P. Machine Learning: A Probabilistic Perspective [M]. Cambridge: MIT Press, 2012: 22.
[16] HORN B K P, SCHUNCK B G. Determining optical flow [J]. Artificial Intelligence, 1981, 17 (1/2/3): 185-203.
[17] 周志華.機(jī)器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016:171-173.(ZHOU Z H. Machine Learning [M]. Beijing: Tsinghua University Press, 2016: 171-173.)
[18] JIANG Y G, LIU J, ZAMIR A, et.al. Competition track evaluation setup, the first international workshop on action recognition with a large number of classes [EB/OL]. [2018-05-20]. http://www.crcv.ucf.edu/ICCV13-Action-Workshop/index.files/Competition_Track_Evaluation.pdf.