蔣圣南, 陳恩慶, 鄭銘耀, 段建康
基于ResNeXt的人體動作識別
蔣圣南, 陳恩慶, 鄭銘耀, 段建康
(鄭州大學(xué)信息工程學(xué)院,河南 鄭州 450000)
人體動作識別是計算機視覺領(lǐng)域的核心研究方向之一,在很多場合都有應(yīng)用。深度卷積神經(jīng)網(wǎng)絡(luò)在靜態(tài)圖像識別方面已取得了巨大成功,并逐漸擴展到視頻內(nèi)容識別領(lǐng)域,但應(yīng)用依然面臨很大挑戰(zhàn)。為此提出一種基于ResNeXt深度神經(jīng)網(wǎng)絡(luò)模型用于視頻中的人體動作識別,主要包括:①使用新型ResNeXt網(wǎng)絡(luò)結(jié)構(gòu)代替原有的各種卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),并使用RGB和光流2種模態(tài)的數(shù)據(jù),使模型可充分地利用視頻中動作外觀及時序信息;②將端到端的視頻時間分割策略應(yīng)用于ResNeXt網(wǎng)絡(luò)模型,同時將視頻分為段實現(xiàn)對視頻序列的長范圍時間結(jié)構(gòu)進行建模,并通過測試得到最優(yōu)視頻分段值,使模型能更好地區(qū)分存在子動作共享現(xiàn)象的相似動作,解決某些由于子動作相似而易發(fā)生的誤判問題。通過在動作識別數(shù)據(jù)集UCF101和HMDB51上進行的測試表明,該模型和方法的動作識別準確率性能優(yōu)于目前文獻中的一些模型和方法的性能。
動作識別;ResNeXt;視頻時間分割;數(shù)據(jù)增強;多模態(tài)
在視頻中識別人體行為是一項具有挑戰(zhàn)性的任務(wù),也是計算機視覺領(lǐng)域的核心任務(wù)之一,并受到了研究人員的廣泛關(guān)注[1-6]。其在行為分析、人工智能交互、視頻監(jiān)控等領(lǐng)域均有重要的應(yīng)用。與靜止的圖像分類相比,視頻的時間分量提供了用于識別的重要線索,因此基于運動信息可識別多個動作。此外,視頻為單個圖像提供自然數(shù)據(jù)增強。對于視頻中的動作識別,外觀和時間動態(tài)是2個關(guān)鍵且互補的線索。然而,由于背景雜亂、視點變化、尺度變化、光照條件不同以及相機運動等局限性,提取其信息是不易的。因此,在學(xué)習(xí)行為類別分類信息的同時,設(shè)計有效的表示是應(yīng)對這些挑戰(zhàn)的關(guān)鍵。
ResNeXt網(wǎng)絡(luò)同時采用了VGGNet網(wǎng)絡(luò)堆疊的思想和Inception網(wǎng)絡(luò)的拆分-轉(zhuǎn)換-合并的策略,以及ResNet網(wǎng)絡(luò)的殘差模塊的思路,并且通過增加基數(shù)來提高網(wǎng)絡(luò)的性能,使得網(wǎng)絡(luò)在不增加參數(shù)復(fù)雜度的前提下提高準確率,同時還減少了超參數(shù)的數(shù)量[15],因此,ResNeXt網(wǎng)絡(luò)模型在ImageNet和CIFAR數(shù)據(jù)庫上均展現(xiàn)了優(yōu)異的性能。另一方面,從動作識別角度看,一個好的視頻特性應(yīng)該包含盡可能豐富的動作的空間信息和時間信息,而網(wǎng)絡(luò)模型層數(shù)越多,意味著能夠提取到不同水平的特征越豐富,不同層次信息的組合也會越多,模型的學(xué)習(xí)和表征能力也會更強。因此本文考慮將ResNeXt網(wǎng)絡(luò)模型應(yīng)用到視頻人體動作識別中,從而更好地獲取動作的空間和時間特征,實驗結(jié)果也表明了其用于動作識別的有效性。
此外,在基于視頻的動作識別應(yīng)用中,動作的各視頻幀之間存在著很強的時間相關(guān)性和空間相關(guān)性,好的動作視頻表示方法還需要在有效避免樣本數(shù)量限制的同時,盡可能少冗余且充分利用視頻中的時間信息。本文采用RGB以及光流 2種模態(tài)的數(shù)據(jù)作為動作識別模型的輸入,RGB數(shù)據(jù)代表視頻幀的動作空間信息,而光流數(shù)據(jù)代表視頻幀的動作時間信息。2種模態(tài)的數(shù)據(jù)結(jié)合,能夠優(yōu)勢互補,使動作識別獲得更高的精確度。在實際應(yīng)用中,由于密集采樣的視頻幀在計算量等方面的限制,對于持續(xù)時間較長的動作視頻,往往無法通過采樣全部視頻幀獲取整個動作視頻的視覺信息,因此本文引入TSN[16](時間分割網(wǎng)絡(luò))中視頻時間分割的思想,對長范圍時間結(jié)構(gòu)的動作進行分段采樣建模。即將動作視頻時間分割為段(segment),從每個對應(yīng)的片段中隨機采樣得到短片段(snippet),再將短片段分別送入ResNeXt網(wǎng)絡(luò)得到初始的動作類別得分,最后將初始類別得分融合得到最終識別結(jié)果。因此本文模型可以利用整個視頻中動作的長范圍時間信息進行端到端的視頻級別的動作分類識別。
圖1為本文提出的用于動作識別的整體網(wǎng)絡(luò)結(jié)構(gòu)。一個輸入待識別的動作視頻將被分割成段,然后從段中隨機選取一個短片段送入ResNeXt網(wǎng)絡(luò)獲得動作的初始類別得分,最后融合初始類別分數(shù)來獲得最終的動作類別得分。
圖1 基于ResNeXt和視頻時間分割建模的網(wǎng)絡(luò)架構(gòu)
視頻識別的基礎(chǔ)是能夠提取更具有判別性的時間和空間信息,眾多研究[14,17]表明,更深的CNN能夠提取更多的判別信息,從而提高預(yù)測性能。此外,最近的研究成果[8,18]證明,網(wǎng)絡(luò)模型的深度對于視覺表現(xiàn)特征至關(guān)重要。殘差網(wǎng)絡(luò)[14]有效地解決了加深網(wǎng)絡(luò)層引起的退化問題。要提高模型的準確率,一般的方法是加深或加寬網(wǎng)絡(luò),但是,隨著超參數(shù)數(shù)量的增加(比如channels數(shù),filter size等),網(wǎng)絡(luò)設(shè)計的難度和計算開銷也會增加,而ResNeXt[15]結(jié)構(gòu)可以在不增加參數(shù)復(fù)雜度的前提下提高準確率,同時還減少了超參數(shù)的數(shù)量。因此,本文將ResNeXt作為提取動作空間和時間特征的基礎(chǔ)網(wǎng)絡(luò)。
ResNeXt網(wǎng)絡(luò)模型是高度模塊化的設(shè)計,同時采用了VGG網(wǎng)絡(luò)堆疊的思想和Inception網(wǎng)絡(luò)拆分-轉(zhuǎn)換-合并的思想,以及ResNet網(wǎng)絡(luò)殘差模塊的思想。網(wǎng)絡(luò)由一系列殘差塊組成,其具有相同的拓撲結(jié)構(gòu),且遵循2個簡單規(guī)則:①如果生成同樣大小的空間映射,則模塊中的拓撲結(jié)構(gòu)共享相同的超參數(shù)(如寬度和濾波器大小等);②每次當空間映射基于因子2下采樣時,模塊的寬度乘以2。第二個規(guī)則保證了計算的復(fù)雜度,對于浮點數(shù)運算(包括乘-加法),所有模塊的計算量大致相同。
在ResNeXt中,拆分-轉(zhuǎn)換-合并的形式可表示為
其中,Ti為相同的拓撲結(jié)構(gòu);C為一個模塊中所具有的相同分支的數(shù)目,通常將C稱為基數(shù)[15],用于模型復(fù)雜度的另外一個度量。C的取值可以是任意數(shù),本文C取值為32。雖然寬度的大小與簡單變換(內(nèi)積)的數(shù)量有關(guān),但基數(shù)的大小控制著復(fù)雜變換的數(shù)量,并且實驗證明基數(shù)是一個基本維度,增加基數(shù)比增加CNN的寬度和深度更有效,能夠獲得更好的模型表達能力。圖2為ResNeXt網(wǎng)絡(luò)的一個基本模塊,可在每個低維嵌入上實施一系列變換,然后再將輸出通過相加的方式聚合。
對于一般的CNN,其輸入是單幀或連續(xù)的堆疊幀,只關(guān)注短時間的視頻變化,無法有效地提取長范圍時間信息。然而視頻中的長范圍時間信息對于動作識別起著更重要的作用[19]。例如籃球投籃和扣籃在短時間內(nèi)彼此相似,但是在長時間范圍上卻存在較大的差異,因此如果只是將運動中的一小段視頻用于訓(xùn)練網(wǎng)絡(luò),很可能會造成誤判。受到TSN[16]的啟發(fā),本文采用視頻時間分割的思想,對基于ResNeXt網(wǎng)絡(luò)的方法進一步改進,實現(xiàn)對整個視頻的長范圍時間結(jié)構(gòu)建模。
首先,等間隔將視頻分為個片段,即{1,2,…,S},然后從相應(yīng)的片段中隨機采樣得到短片段{1,2,…,x},并將其送入ResNeXt網(wǎng)絡(luò)以獲得初始動作類別得分。再通過求平均的方法對個短片段的類別得分進行融合,從而獲得短片段之間關(guān)于類別假設(shè)的共識。最后,基于該共識,使用Softmax函數(shù)預(yù)測整段視頻中屬于每個行為類別的概率,即
其中,為數(shù)據(jù)集中包含的動作類別數(shù);y為第類動作的真實標簽;g為第類動作的類別共識得分,其通過類別共識函數(shù)對個短片段上相同類別的得分數(shù)取平均得出。
在反向傳播過程中,使用個短片段來聯(lián)合優(yōu)化模型參數(shù),并且通過小批量梯度下降來學(xué)習(xí)模型參數(shù),在參數(shù)更新時使用了個短片段的類別共識。這種優(yōu)化方法,能夠?qū)W習(xí)到視頻級的模型參數(shù),從而獲得長范圍的時間信息。
使用數(shù)據(jù)增強技術(shù)能夠增加樣本的多樣性,彌補數(shù)據(jù)樣本量不足的缺點,從而防止模型過擬合,讓模型更具魯棒性。本文使用了多剪裁、水平翻轉(zhuǎn)和尺度抖動3種方法擴充數(shù)據(jù)集。尺度抖動將輸入圖像或者光流場的大小固定為256×340,裁剪區(qū)域的寬和高隨機從{256,224,192,168}中選擇。最后再將裁剪區(qū)域調(diào)整到224×224用于網(wǎng)絡(luò)訓(xùn)練。另外,在所有訓(xùn)練中本文均使用了隨機水平翻轉(zhuǎn)。
本文在UCF101[20]和HMDB51[21]數(shù)據(jù)集上評估基于ResNeXt網(wǎng)絡(luò)的性能。UCF101是從YouTube上剪輯的101類真實世界中不同種類的人類動作視頻,包含有13 320個視頻,每個視頻片段持續(xù)3~10 s,平均為100~300幀,其部分動作視頻的采樣幀如圖3所示。UCF101給出了最大的多樣性,且在攝像機運動、物體外觀和姿態(tài)、物體尺度、視點、雜亂背景、光照條件等方面存在較大的差異,是迄今為止最具挑戰(zhàn)性的數(shù)據(jù)集之一。HMDB51數(shù)據(jù)集共有51個類別,包含6 799個視頻。視頻主要來自于電影,還有一些是從YouTube和Google Videos中得到。HMDB51數(shù)據(jù)集的部分動作視頻的采樣幀如圖4所示。對于這2個數(shù)據(jù)集,本文遵循提供的評估協(xié)議并使用標準的訓(xùn)練/測試splits。首先在UCF-101數(shù)據(jù)集的split1上探索和評估本文方法。為了與現(xiàn)有技術(shù)方法進行比較,列舉了UCF101和HMDB51的3個splits的平均識別準確度。
圖3 UCF101的部分動作視頻采樣幀
圖4 HMDB51的部分動作視頻采樣幀
訓(xùn)練:本文使用小批量隨機梯度下降算法學(xué)習(xí)網(wǎng)絡(luò)的權(quán)重,由于硬件限制,批量大小設(shè)置為16。權(quán)重衰減和動量分別設(shè)置為0.000 5和0.900 0,基本學(xué)習(xí)率設(shè)置為0.001 0。通過ImageNet上的預(yù)訓(xùn)練初始化權(quán)重,epoch設(shè)置為30。本文實驗均在CPU(E5-2640 v4)和Ttian V GPU上進行的,使用的深度學(xué)習(xí)平臺為Pytorch。
測試:本文遵循了原始雙流ConvNets的測試方案[22]。對動作視頻以相等的時間間隔對25個RGB幀或光流幀采樣。對每個采樣幀,通過裁剪4個角,一個中心和其水平翻轉(zhuǎn)來獲得10個ConvNet輸入。本文將加權(quán)平均用于融合空間和時間網(wǎng)絡(luò)??臻g網(wǎng)絡(luò)和時間網(wǎng)絡(luò)的權(quán)重比設(shè)置為1∶1.5。
對本文提出的基于ResNeXt網(wǎng)絡(luò)的視頻動作識別方法進行評估,且與VGGNet-16、ResNet101和BN-Inception網(wǎng)絡(luò)進行比較,分別評估這4個網(wǎng)絡(luò)在RGB和光流以及雙流融合后的識別率。實驗結(jié)果見表1,由結(jié)果可知,在RGB數(shù)據(jù)和光流數(shù)據(jù)及在雙流的網(wǎng)絡(luò)上,使用ResNeXt網(wǎng)絡(luò)的精度皆優(yōu)于其他網(wǎng)絡(luò),證明了ResNeXt網(wǎng)絡(luò)在用于視頻的人體動作識別上的有效性。
表1 UCF101(split1)上不同網(wǎng)絡(luò)在RGB和光流上的精確度(%)
視頻時間分割短片段數(shù)對于分類結(jié)果有重要的影響,因此控制的取值對于實現(xiàn)良好的分類效果至關(guān)重要。當取1時,相當于未使用視頻時間分割的策略,但增加值有望提高模型的識別性能。在實驗中,本文將的取值設(shè)置為1~9,并使用相同的測試方法進行性能評估。結(jié)果見表2。隨著短片段數(shù)值的增加,分類正確率也相應(yīng)地提升,比如取5時比取1時結(jié)果提升了2.4%。說明使用更多的時間片段有助于捕獲更豐富的信息,從而更好的模擬整個視頻的時間結(jié)構(gòu)。當值繼續(xù)增加時,識別性能趨向于飽和。
表2 不同K值下UCF101(split1)的分類精確度(%)
本文將實驗得到的最佳性能與現(xiàn)有的先進算法在UCF101和HMDB51的數(shù)據(jù)集3個splits上的平均識別率進行了比較。結(jié)果見表3,對于UCF101數(shù)據(jù)集,本文方法優(yōu)于其他先進算法,相對于目前最好的傳統(tǒng)方法IDT[2]而言,精度提高了9.3%;與基于三維卷積神經(jīng)網(wǎng)絡(luò)的方法T3D[23]相比,精度提高了2.0%;與使用雙流網(wǎng)絡(luò)的方法ST-ResNet[24]相比,精度也提高了1.8%。對于HMDB51數(shù)據(jù)集,本文方法也具有相當?shù)母偁幜?,相比于基于雙流網(wǎng)絡(luò)的方法TSN[16]和ST-ResNet[24],精度分別提高了3.1%和5.2%。實驗證明了本文所提出的基于ResNeXt的動作識別方法的有效性。
表3 在UCF101和HMDB51的3個split的識別精確度(%)
本文提出了一種基于ResNeXt網(wǎng)絡(luò)的用于視頻中的人體動作識別方法。以ResNeXt網(wǎng)絡(luò)為基礎(chǔ),使用RGB及光流2種模態(tài)的數(shù)據(jù),能夠更多地提取關(guān)于動作的外觀特征和時間特征,從而更好地實現(xiàn)對于動作的分類。視頻時間分割方法的使用,能夠?qū)σ曨l中的長范圍時間建模,從而更好地利用視頻中更長范圍的時間信息。實驗結(jié)果表明,本文方法在UCF101和HMDB51兩個主流動作識別數(shù)據(jù)集上均帶來了一定程度的性能提升。
[1] VEERIAH V, ZHUANG N F, QI G J. Differential recurrent neural networks for action recognition[C]// 2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4041-4049.
[2] WANG H, SCHMID C. Action recognition with improved trajectories[C]//Proceedings of the 2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 3551-3558.
[3] WANG L M, QIAO Y, TANG X O. Motionlets: mid-level 3D parts for human motion recognition[C]// IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2013: 2674-2681.
[4] NG J Y H, HAUSKNECHT M, VIJAYANARASIMHAN S, et al. Beyond short snippets: deep networks for video classi?cation[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4694-4702.
[5] WANG L M, QIAO Y, TANG X O. Action recognition with trajectory-pooled deep-convolutional descriptors[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.
[6] GAN C, WANG N Y, YANG Y, et al. DevNet: a deep event network for multimedia event detection and evidence recounting[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 2568-2577.
[7] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[8] SIMONYAN K, ZISSERMAN, A. Very deep convolutional networks for large-scale image recognition[EB/OL]. [2019-07-05]. https://arxiv.org/ abs/1409.1556.
[9] ZHOU B, LAPEDRIZA A, XIAO J X, et al. Learning deep features for scene recognition using places database[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems (NIPS). New York: CAM Press, 2014: 487-495.
[10] SHEN L, LIN Z C, HUANG Q M. Relay backpropagation for effective learning of deep convolutional neural networks[M]//Computer Vision-ECCV 2016. Heidelberg: Springer International Publishing, 2016: 467-482.
[11] LECUN Y, BOSER B, DENKER J S, et al. Backpropagation applied to handwritten zip code recognition[J]. Neural Computation, 1989, 1(4): 541-551.
[12] WANG L, QIAO Y, TANG X. Action recognition with trajectory-pooled deep-convolutional descriptors[C]// 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4305-4314.
[13] SZEGEDY C, LIU W, JIA Y, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1-9.
[14] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[15] XIE S N, GIRSHICK R, DOLLáR, PIOTR, et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 634.
[16] WANG L M, XIONG Y J, WANG Z, et al. Temporal segment networks: towards good practices for deep action recognition[M]//Computer Vision–ECCV 2016. Heidelberg: Springer International Publishing, 2016: 20-36.
[17] YU W, YANG K, BAI Y, et al. Visualizing and comparing AlexNet and VGG using deconvolutional layers[EB/OL]. [2019-07-05]. https://arxiv.org/abs/ 1412.6631.
[18] SZEGEDY C, LIU W, JIA Y Q. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015:1-9.
[19] WANG L M, QIAO Y, TANG X O. Latent hierarchical model of temporal structure for complex activity classification[J]. IEEE Transactions on Image Processing, 2014, 23(2): 810-822.
[20] SOOMRO K, ZAMIR A R, SHAH M. UCF101: a dataset of 101 human actions classes from videos in the wild[EB/OL]. [2019-07-05]. https://arxiv.org/abs/1212. 0402.
[21] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a large video database for human motion recognition[C]//2011 International Conference on Computer Vision. New York: IEEE Press, 2011: 2556-2563.
[22] LIU X, YANG X D. Multi-stream with deep convolutional neural networks for human action recognition in videos[M]//Neural Information Processing. Heidelberg: Springer International Publishing, 2018: 251-262.
[23] DIBA A, FAYYAZ M, SHARMA V, et al. Temporal 3D ConvNets: new architecture and transfer learning for video classification[EB/OL]. [2019-07-05]. https://arxiv. org/abs/1711.08200.
[24] FEICHTENHOFER C, PINZ A, WILDES R P. Spatiotemporal residual networks for video action recognition[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 3468-3476.
[25] FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2016: 1933-1941.
[26] TRAN D, BOURDEV L, FERGUS R, et al. Learning spatiotemporal features with 3D convolutional networks[C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 4489-4497.
[27] GIRDHAR R, RAMANAN D, GUPTA A, et al. ActionVLAD: learning spatio-temporal aggregation[C]// 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2017: 337.
Human action recognition based on ResNeXt
JIANG Sheng-nan, CHEN En-qing, ZHEN Ming-yao, DUAN Jian-kang
(School of Information Engineering, Zhengzhou University, Zhengzhou Henan 450000, China)
Human action recognition is one of the core research directions in the field of computer vision and is applied in many occasions. Deep convolutional neural networks have achieved great success in static image recognition and have gradually expanded into the field of video content recognition, but they still face great challenges in applications. This paper proposes a deep neural network model based on ResNeXt network for human action recognition in video. The main innovations of this paper include: ① The new ResNeXt network structure was used to replace the original convolutional neural network structure. Two kinds of modal data of RGB and optical flow was collected to make full use of the appearance and temporal order information in the video. ② The end-to-end video time segmentation strategy was applied to the proposed ResNeXt network model. The video was divided intosegments to model the long-range time structure of the video sequence, and the optimal value ofwas obtained through tests, which enables the model to better distinguish the similar actions with sub-action sharing phenomenon and solve the problems of misjudgment that are easy to emerge due to similar sub-actions. Tests performed on the widely used action recognition data sets UCF101 and HMDB51 showed that the action recognition accuracy of the proposed model and method is better than that of the models and methods in the existing literature.
action recognition; ResNeXt; video temporal segmentation; data enhancement; multimodal
TP 391
10.11996/JG.j.2095-302X.2020020277
A
2095-302X(2020)02-0277-06
2019-08-05;
2019-08-29
國家自然科學(xué)基金項目(U1804152,61806180)
蔣圣南(1994–),女,河南商丘人,碩士研究生。主要研究方向為人工智能、計算機視覺等。E-mail:shengnanjiang77@163.com
陳恩慶(1977–),男,福建龍海人,教授,博士,碩士生導(dǎo)師。主要研究方向為計算機視覺、模式識別和多媒體信息處理。E-mail:ceq2003@163.com