吳婷 劉瑞欣 劉明甫 劉海華
收稿日期:2023-06-27
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目資助項(xiàng)目(61773409)
DOI:10.19850/j.cnki.2096-4706.2024.04.011
摘? 要:近年來(lái),人體行為識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn),在諸多領(lǐng)域有著廣泛的應(yīng)用,例如視頻監(jiān)控、人機(jī)交互等。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)作為其領(lǐng)域中表現(xiàn)能力優(yōu)越的人工神經(jīng)網(wǎng)絡(luò)之一,在動(dòng)作識(shí)別領(lǐng)域中發(fā)揮著不可或缺的作用。文章基于深度學(xué)習(xí)總結(jié)基于2D CNN和基于3D CNN的動(dòng)作識(shí)別方法,根據(jù)不同算法搭建的模型進(jìn)行性能對(duì)比,同時(shí)對(duì)基準(zhǔn)數(shù)據(jù)集進(jìn)行歸納總結(jié)。最后探討了未來(lái)人體動(dòng)作識(shí)別的研究重難點(diǎn)。
關(guān)鍵詞:動(dòng)作識(shí)別;深度學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò);圖像分類(lèi)
中圖分類(lèi)號(hào):TP183;TP391.4? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)04-0050-06
Summary of Human Behavior Recognition Based on Deep Learning
WU Ting, LIU Ruixin, LIU Mingfu, LIU Haihua
(South-Central Minzu University, Wuhan? 430074, China)
Abstract: In recent years, human behavior recognition is a research hotspot in the field of computer vision, and it has been widely used in many fields, such as video surveillance, human-computer interaction and so on. With the development of Deep Learning, as one of the artificial neural networks with superior performance capabilities in the field, Convolutional Neural Networks plays an indispensable role in the field of action recognition. Based on Deep Learning, this paper summarizes the action recognition methods based on 2D CNN and 3D CNN, compares the performance of models built according to different algorithms, and summarizes the benchmark data sets. Finally, the research key points and difficulties of human action recognition in the future are discussed.
Keywords: action recognition; Deep Learning; Convolution Neural Networks; image classification
0? 引? 言
人體行為識(shí)別是計(jì)算機(jī)視覺(jué)領(lǐng)域一大熱題,隨著深度學(xué)習(xí)的發(fā)展,視頻中人體動(dòng)作識(shí)別課題越發(fā)成熟,在監(jiān)控系統(tǒng)[1,2]、人機(jī)交互[3]、智能看護(hù)[4]等日常生活中被廣泛應(yīng)用。
深度學(xué)習(xí)(Deep Learning)[5,6]是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)新的研究方向,它逐漸成為計(jì)算機(jī)視覺(jué)領(lǐng)域的熱門(mén)研究方法。卷積神經(jīng)網(wǎng)絡(luò)[7](Convolution Neural Networks, CNN)主要用于計(jì)算機(jī)視覺(jué)方面的應(yīng)用,比如圖像分類(lèi)、視頻識(shí)別[8]、醫(yī)學(xué)圖像分析等。由于背景的影響、光線(xiàn)變化以及動(dòng)作相似性,使得模型識(shí)別性能下降。動(dòng)作識(shí)別最重要的特征無(wú)關(guān)是外觀(guān)特征和動(dòng)作特征,最初卷積神經(jīng)網(wǎng)絡(luò)利用2D卷積核,主要由圖像幀和光流圖像作為輸入,通過(guò)卷積層提取出視頻當(dāng)中的空間和動(dòng)作特征進(jìn)行學(xué)習(xí),兩者組合到一起初步實(shí)現(xiàn)動(dòng)作識(shí)別的目的,后續(xù)學(xué)者針對(duì)融合策略以及動(dòng)作的時(shí)空特征進(jìn)行研究。
本文主要從數(shù)據(jù)集和動(dòng)作識(shí)別的深度學(xué)習(xí)方法兩大方面來(lái)介紹。首先介紹了幾大類(lèi)動(dòng)作識(shí)別的公共數(shù)據(jù)集,從簡(jiǎn)單動(dòng)作到交互動(dòng)作,從小型數(shù)據(jù)集到大型數(shù)據(jù)庫(kù);其次分別介紹基于2D CNN和基于3D CNN的動(dòng)作識(shí)別方法,根據(jù)不同算法之間的異同點(diǎn)將兩者細(xì)分;最后提出未來(lái)動(dòng)作識(shí)別所研究的難點(diǎn)及發(fā)展趨勢(shì)。
1? 公共數(shù)據(jù)集
行為識(shí)別數(shù)據(jù)集是用于訓(xùn)練和測(cè)試不同算法對(duì)準(zhǔn)確識(shí)別人類(lèi)行為的數(shù)據(jù)集。目前國(guó)內(nèi)外有多個(gè)公共人體行為數(shù)據(jù)庫(kù)可供廣大研究者學(xué)習(xí),它們可以為評(píng)估各種不同人體行為識(shí)別算法提供一個(gè)共同的標(biāo)準(zhǔn),便于驗(yàn)證相關(guān)算法的可行性。目前,公共行為識(shí)別數(shù)據(jù)庫(kù)可以分為以下幾種。表1列出了它們的大概信息。
1.1? KTH數(shù)據(jù)庫(kù)
KTH [9]是最早的人體行為數(shù)據(jù)集,該人體行為數(shù)據(jù)庫(kù)包括6種動(dòng)作,由25個(gè)不同的人執(zhí)行的,分別在四個(gè)場(chǎng)景下,一共有25×4×6 = 600段視頻。視頻中的背景相對(duì)單一和靜止,拍攝過(guò)程中攝像頭穩(wěn)定。KTH數(shù)據(jù)庫(kù)部分動(dòng)作示例如圖1所示。
表1? 公共行為識(shí)別數(shù)據(jù)集概覽表
數(shù)據(jù)集 時(shí)間 視頻樣本數(shù) 視頻數(shù)
KTH 2004 6 600
UCF sports 2008 10 150
UCF Youtube 2008 11 1 600
UCF50 2012 50 6 676
UCF101 2013 101 13 320
HMDB51 2011 51 6 849
Sports 1M 2014 487 1 133 158
YouTube 8M 2016 3 862 8×106
Kinetics 400 2017 400 3.06×105
Kinetics 600 2018 600 4.82×105
Kinetics 700 2019 700 6.5×105
圖1? KTH部分動(dòng)作示例
1.2? UCF系列數(shù)據(jù)庫(kù)
美國(guó)University of Central Florida(UCF)[10,11]自2007年以來(lái)發(fā)布的一系列數(shù)據(jù)庫(kù):分別是UCF Sports(2008)、UCF Youtube(2008)、UCF50和UCF101。其中UCF101包含101種動(dòng)作類(lèi)別共13 320個(gè)視頻。該數(shù)據(jù)集有三個(gè)官方拆分方式,大多研究者報(bào)告第一個(gè)分割方式的分類(lèi)準(zhǔn)確率,或是三種分割方式的平均精度。由于該數(shù)據(jù)集包含很多低質(zhì)量和不同光照的視頻,所以極具挑戰(zhàn)性。UCF Sports數(shù)據(jù)庫(kù)部分動(dòng)作示例如圖2所示。
圖2? UCF Sports部分動(dòng)作示例
1.3? HMDB51數(shù)據(jù)庫(kù)
HMDB51[12]數(shù)據(jù)集包含51種行為類(lèi)別共6 849個(gè)視頻。該數(shù)據(jù)集有三個(gè)與UCF101類(lèi)似的官方拆分,并且以同樣的方式進(jìn)行評(píng)估。由于視頻中包含的場(chǎng)景復(fù)雜、光照變化等因素,是目前最具挑戰(zhàn)性的數(shù)據(jù)集之一。HMDB51數(shù)據(jù)庫(kù)部分動(dòng)作示例如圖3所示。
圖3? HMDB51部分動(dòng)作示例
1.4? 大型數(shù)據(jù)集
Sports 1M [13]的數(shù)據(jù)集是2014年Google公布的第一個(gè)大規(guī)模動(dòng)作數(shù)據(jù)集,包含487種行為類(lèi)別共1 133 158個(gè)視頻;YouTube 8M [14]數(shù)據(jù)集是迄今位置規(guī)模最大的數(shù)據(jù)集,包含3 862個(gè)動(dòng)作類(lèi)共800萬(wàn)個(gè)視頻;Kinetics系列數(shù)據(jù)集[15]最先是17年提出的Kinetics 400,包含400個(gè)人類(lèi)行為類(lèi)別,直至后續(xù)提出的Kinetics 600和Kinetics 700。此類(lèi)數(shù)據(jù)集包含場(chǎng)景多,數(shù)據(jù)量龐大,極具挑戰(zhàn)性。Sports 1M部分動(dòng)作示例如圖4所示。
圖4? Sports 1M部分動(dòng)作示例
2? 基于2D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別
卷積神經(jīng)網(wǎng)絡(luò)(CNN)被廣泛應(yīng)用于靜態(tài)領(lǐng)域的圖像理解中,其遵循3層體系結(jié)構(gòu),分別是卷積層、池化層和全連接層。在人類(lèi)行為識(shí)別中,視頻被分為空間和時(shí)間信息。空間的視頻幀代表著物體的外觀(guān)信息,具體表征為RGB圖像;時(shí)間信息指的是幀與幀之間的運(yùn)動(dòng)信息,具體表征為光流圖像。最早是Simonyan等人[16]在2014年提出的雙流CNN網(wǎng)絡(luò),其由兩條分支組成,分別處理空間的RGB圖像幀信息和時(shí)間維度的若干個(gè)圖像幀之間的光流場(chǎng)信息。主干網(wǎng)絡(luò)皆為CNN,最后進(jìn)行softmax融合,如圖5所示。
2.1? 融合網(wǎng)絡(luò)
在此之上,很多學(xué)者進(jìn)行了一系列改進(jìn)。Feichtenhofer等人[17]從融合策略上針對(duì)雙流網(wǎng)絡(luò)的后期融合,其從卷積層開(kāi)始進(jìn)行融合,討論和融合、最大融合、串聯(lián)融合、卷積融合、雙線(xiàn)性融合五種空間融合方式和2D池化、3D池化、3D卷積+3D池化三種時(shí)間融合方式,如圖6(a)所示。實(shí)驗(yàn)表明替代后期融合,早期融合受相對(duì)網(wǎng)絡(luò)的約束,使模型在早期訓(xùn)練中能從兩支網(wǎng)絡(luò)互相學(xué)習(xí)、互相彌補(bǔ),一定程度上彌補(bǔ)數(shù)據(jù)不足問(wèn)題,效果比雙流網(wǎng)絡(luò)好?;陔p流和時(shí)空融合,F(xiàn)eichtenhofer等人提出同時(shí)將殘差網(wǎng)絡(luò)和兩個(gè)信息流的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合,一是在雙流網(wǎng)絡(luò)中引入殘差連接[18],通過(guò)發(fā)揮殘差單元的跳躍連接的優(yōu)點(diǎn),允許兩流之間時(shí)空交互,并在殘差塊之間添加時(shí)間流指向空間流,提出加法融合、乘性融合兩種融合方式,實(shí)驗(yàn)最后對(duì)比時(shí)間流指向空間流、空間流指向時(shí)間流和兩者相互指向的消融實(shí)驗(yàn),表明第一種方式實(shí)驗(yàn)效果更好;二是在2017年[19]的基礎(chǔ)上,后續(xù)提出在兩條分支中添加采用中心初始化方式的時(shí)間濾波器1D卷積以捕獲時(shí)間依賴(lài)關(guān)系,探討其中心和平均兩種初始化方式以及添加位置(每個(gè)殘差單元跳躍連接后、每個(gè)殘差塊中和僅僅在每個(gè)殘差單元的第二個(gè)殘差塊3×3卷積層后),如圖6(b)所示。結(jié)果表明,采用殘差網(wǎng)絡(luò)的2D CNN結(jié)構(gòu)在行為識(shí)別十分有效。
(a)雙流融合網(wǎng)絡(luò)
(b)時(shí)空殘差融合網(wǎng)絡(luò)
圖6? Feichtenhofer等人的雙流融合網(wǎng)絡(luò)
Wang等人[20]提出一種時(shí)空金字塔網(wǎng)絡(luò)(Spatiotemporal Pyramid Networks, STPN)來(lái)融合空間和時(shí)間特征,其結(jié)合 卷積神經(jīng)網(wǎng)絡(luò)和空間時(shí)間金字塔的結(jié)構(gòu),通過(guò)采樣不同大小的視頻片段來(lái)獲得不同尺度的特征圖。每個(gè)特征圖由一個(gè)3D CNN進(jìn)行提取,然后將不同尺度的特征圖拼接在一起,形成多尺度的特征表示,隨后將不同金字塔層中的特征進(jìn)行融合,再將不同動(dòng)作分類(lèi)結(jié)果進(jìn)行加權(quán)融合。該方法對(duì)各種融合策略進(jìn)行統(tǒng)一建模,在多個(gè)動(dòng)作數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)展現(xiàn)其算法優(yōu)越性。
2.2? 其他網(wǎng)絡(luò)
除了時(shí)空網(wǎng)絡(luò)外,針對(duì)視頻的輸入形態(tài),即網(wǎng)絡(luò)輸入不是視頻幀,而是視頻片段進(jìn)行探討。Wang等人[21]在雙流網(wǎng)絡(luò)的基礎(chǔ)上加入分段和稀疏化采樣的思想,提出具有四種輸入模態(tài)的時(shí)域段網(wǎng)絡(luò)(Temporal Segment Networks, TSN),如圖7所示,對(duì)時(shí)間進(jìn)行稀疏采樣,即將視頻分割成若干時(shí)間段,并將每個(gè)時(shí)間段視為獨(dú)立的視頻幀進(jìn)行處理,但這樣往往忽略了時(shí)空特征的交互,使得識(shí)別準(zhǔn)確性下降??紤]到時(shí)間特征提取的困難,設(shè)計(jì)一些專(zhuān)門(mén)處理時(shí)間特征的網(wǎng)絡(luò),如對(duì)動(dòng)作識(shí)別同樣有效的長(zhǎng)短時(shí)記憶(LSTM)。采用CNN+LSTM網(wǎng)絡(luò)[22]進(jìn)行時(shí)間動(dòng)力學(xué)建模。在這些組合網(wǎng)絡(luò)中,CNN用于提取幀特征,LSTM用于伴隨時(shí)間的特征集成。
圖7? Wang等人的TSN網(wǎng)絡(luò)
基于雙流網(wǎng)絡(luò)的動(dòng)作識(shí)別在過(guò)去幾年取得了很大的進(jìn)展。以上方法在時(shí)間流的輸入上皆采用光流棧(Optical Flow Stacking),這需要耗費(fèi)大量的時(shí)間和計(jì)算成本。為此,后續(xù)研究者直接在視頻序列使用3D卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行動(dòng)作識(shí)別,一方面不僅可以直接學(xué)習(xí)到視頻當(dāng)中的空間和時(shí)間特征,減少計(jì)算量;另一方面使用3D卷積神經(jīng)網(wǎng)絡(luò)可以學(xué)習(xí)到更加全面且準(zhǔn)確的空間和時(shí)間信息,使得識(shí)別性能變得更好。
3? 基于3D卷積神經(jīng)網(wǎng)絡(luò)的行為識(shí)別
在二維卷積神經(jīng)網(wǎng)絡(luò)中,2D特征圖僅僅處理視頻當(dāng)中的空間信息,丟失了動(dòng)作之間的關(guān)聯(lián)性。而捕獲視頻的時(shí)間特征(長(zhǎng)時(shí)間和短時(shí)間依賴(lài)關(guān)系)尤為重要。3D CNN將視頻序列看作是一個(gè)三維圖像序列,通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行處理以提取空間和時(shí)間特征,相對(duì)于雙流網(wǎng)絡(luò),3D CNN不需要提前提取骨骼或其他先驗(yàn)特征,具有更強(qiáng)的適應(yīng)性。
3.1? 時(shí)空網(wǎng)絡(luò)
對(duì)于連續(xù)性的圖像,2D卷積核每次只抽取一幀圖像,對(duì)這一幀進(jìn)行單獨(dú)的卷積操作,最后由每一幀的識(shí)別結(jié)果進(jìn)行判斷。3D卷積核的卷積操作會(huì)涉及前后連續(xù)性的幾幀圖像,因此3D卷積核能夠提取空間領(lǐng)域上的圖像信息,還能考慮連續(xù)幀之間的運(yùn)動(dòng)信息。Ji等人[23]首先開(kāi)發(fā)一個(gè)三維CNN模型,它從相鄰的輸入幀提供多個(gè)通道,并對(duì)每個(gè)通道進(jìn)行三維卷積。Tran等人[24]提出一種C3D網(wǎng)絡(luò)架構(gòu),它使用多幀作為網(wǎng)絡(luò)的輸入,對(duì)視頻數(shù)據(jù)進(jìn)行了端到端的處理,包括時(shí)空特征提取和分類(lèi)。C3D網(wǎng)絡(luò)基于3D CNN通過(guò)在時(shí)間維度引入卷積和池化操作,使得網(wǎng)絡(luò)對(duì)視頻序列進(jìn)行建模。Carreira等人提出一種雙流膨脹三維CNN(I3D)[25],如圖8所示,其將ImageNet預(yù)訓(xùn)練的2D CNN延伸到3D CNN中,結(jié)合兩者優(yōu)勢(shì),在基于二維的ResNet和Inception架構(gòu)的基礎(chǔ)上,使用3D卷積來(lái)捕捉時(shí)間信息。然而I3D網(wǎng)絡(luò)具有一定的局限性,如需大量的標(biāo)記數(shù)據(jù)和需要仔細(xì)調(diào)整參數(shù)。Tran等人[26]提出R(2+1)D模型,該模型使用一種新的卷積操作,稱(chēng)為時(shí)序分離卷積(Separable Spatiotemporal Convolution)來(lái)對(duì)時(shí)間信息進(jìn)行建模,在多個(gè)數(shù)據(jù)集上取得了較好的效果。該網(wǎng)絡(luò)與C3D類(lèi)似,將2D空間卷積和1D時(shí)間卷積并聯(lián)組合替代3D卷積,目的是減少模型中的參數(shù)數(shù)量,提高其效率。
3.2? 融合網(wǎng)絡(luò)
基于雙流和3D CNN的卷積網(wǎng)絡(luò)在視頻識(shí)別任務(wù)中取得了良好的性能,因?yàn)閮烧呖梢酝瑫r(shí)捕獲視頻的空間和時(shí)間線(xiàn)索,但是皆有其局限性。例如,基于雙流的結(jié)構(gòu)無(wú)法學(xué)習(xí)到真正的時(shí)空特征,其采用兩個(gè)流的單獨(dú)分類(lèi)分?jǐn)?shù)的后期融合,而基于3D CNN的方法需要昂貴的內(nèi)存需求和計(jì)算成本。為了避免兩者缺點(diǎn),Karpathy等人[27]在雙流網(wǎng)絡(luò)中提出晚融合、早融合和慢融合三種不同的融合方式,如圖9所示,其一次可以連續(xù)輸入多幀,能夠獲取視頻中的時(shí)間信息,再通過(guò)一個(gè)CNN網(wǎng)絡(luò)進(jìn)行處理。在Feichtenhofer等人[19]提出時(shí)空乘性網(wǎng)絡(luò)的基礎(chǔ)之上,Zong等人[28]提出多流乘性殘差網(wǎng)絡(luò)(MSM-ResNets),在雙流網(wǎng)絡(luò)輸入上增加運(yùn)動(dòng)顯著圖以捕獲運(yùn)動(dòng)信息,然后時(shí)間流指向空間流進(jìn)行一次乘性融合,運(yùn)動(dòng)顯著流指向時(shí)間流再次進(jìn)行乘性融合,最后三個(gè)分支經(jīng)過(guò)softmax層進(jìn)行后期融合以達(dá)到融合時(shí)空特征的效果。Gammulle等人[29]提出一種雙流LSTM網(wǎng)絡(luò),主干網(wǎng)絡(luò)是經(jīng)過(guò)ImageNet預(yù)訓(xùn)練的VGG16網(wǎng)絡(luò),利用CNN提取空間特征,利用LSTM提取時(shí)間特征,結(jié)合兩者形成一個(gè)深度融合框架,評(píng)估框架融合策略上的優(yōu)劣勢(shì),其中雙流的LSTM表現(xiàn)最好。
圖9? Karpathy等人的雙流融合網(wǎng)絡(luò)
3.3? 其他網(wǎng)絡(luò)
Donahue等人[30]提出一種結(jié)合CNN和LSTM的新型網(wǎng)絡(luò)結(jié)構(gòu),即長(zhǎng)期循環(huán)卷積網(wǎng)絡(luò)(LRCN),通過(guò)CNN網(wǎng)絡(luò)提取空間信息,LSTM網(wǎng)絡(luò)提取視頻中的時(shí)間長(zhǎng)期依賴(lài)性,最后實(shí)現(xiàn)分類(lèi)。該網(wǎng)絡(luò)可以同時(shí)處理時(shí)序的視頻輸入和單幀圖片輸入,適用于大規(guī)模的視覺(jué)理解任務(wù)。Zhao等人[31]結(jié)合RNN和CNN的優(yōu)勢(shì),提出基于門(mén)控循環(huán)單元的雙流神經(jīng)網(wǎng)絡(luò),空間分支采用3D CNN網(wǎng)絡(luò),時(shí)間分支采用RNN網(wǎng)絡(luò),門(mén)控循環(huán)單元層之后緊接著批量規(guī)范化和Dropout = 0.75。最后雙流網(wǎng)絡(luò)生成的特征通過(guò)一個(gè)線(xiàn)性SVM分類(lèi)器進(jìn)行動(dòng)作分類(lèi)。其中RNN網(wǎng)絡(luò)使用雙向GRU,輸入為人體的骨架序列,在NTU RGB+D Dataset實(shí)現(xiàn)了很好的效果,如圖10所示,表2列出了基于深度學(xué)習(xí)的行為識(shí)別不同算法下準(zhǔn)確率對(duì)比。
圖10? Zhao等人的RNN/CNN雙流網(wǎng)絡(luò)
總體而言,3D CNN在識(shí)別效果和效率上較2D CNN是很有競(jìng)爭(zhēng)力的。但是,3D卷積神經(jīng)網(wǎng)絡(luò)模型參數(shù)量大,網(wǎng)絡(luò)結(jié)構(gòu)越深其模型參數(shù)越多,容易出現(xiàn)過(guò)擬合現(xiàn)象;且3D卷積核需要同時(shí)考慮時(shí)間和空間信息,需要消耗大量的計(jì)算資源和存儲(chǔ)空間,因此訓(xùn)練需要很長(zhǎng)時(shí)間以及很好的硬性資源條件。這些問(wèn)題會(huì)限制基于3D CNN的動(dòng)作識(shí)別方法在實(shí)際應(yīng)用中的可行性和可擴(kuò)展性。未來(lái),如何通過(guò)減少模型參數(shù)來(lái)降低模型過(guò)擬合的風(fēng)險(xiǎn)以及提高網(wǎng)絡(luò)的分類(lèi)準(zhǔn)確率是重要的研究方向。
4? 結(jié)? 論
視頻動(dòng)作識(shí)別已成為計(jì)算機(jī)視覺(jué)領(lǐng)域一個(gè)重要的研究方向,具有十分廣泛的應(yīng)用前景。本文系統(tǒng)地講解人體行為識(shí)別領(lǐng)域的數(shù)據(jù)集和算法,基于深度學(xué)習(xí)是因?yàn)槟壳吧疃葘W(xué)習(xí)方法較于傳統(tǒng)算法來(lái)說(shuō)已成為主流趨勢(shì),并從簡(jiǎn)單模型向復(fù)雜模型演化,從最初的監(jiān)督到弱監(jiān)督及以后的無(wú)監(jiān)督方法,都是未來(lái)發(fā)展的趨勢(shì)。本文基于雙流架構(gòu)的基礎(chǔ),從融合策略上和針對(duì)輸入模態(tài)上進(jìn)行許多方面的改進(jìn)。最后采用具有3D時(shí)空特性的卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)進(jìn)行識(shí)別,總結(jié)目前行為識(shí)別的經(jīng)典算法,指出目前存在的難點(diǎn)問(wèn)題。如何在減少模型參數(shù)數(shù)量的基礎(chǔ)上提高模型識(shí)別的準(zhǔn)確率成為未來(lái)一定的研究方向和發(fā)展趨勢(shì)。
參考文獻(xiàn):
[1] AYERS D,SHAH M. Monitoring Human Behavior from Video Taken in an Office Environment [J].Image and Vision Computing,2001,19(12):833-846.
[2] 馬海兵,白潔.人臉識(shí)別技術(shù)在智能視頻監(jiān)控系統(tǒng)中的應(yīng)用 [J].現(xiàn)代電子技術(shù),2007(20):125-128.
[3] 薛雨麗,毛峽,郭葉,等.人機(jī)交互中的人臉表情識(shí)別研究進(jìn)展 [J].中國(guó)圖象圖形學(xué)報(bào),2009(5):764-772.
[4] 吉江.幼兒/高齡視頻看護(hù)系統(tǒng)建設(shè)需求分析 [J].A&S:安全&自動(dòng)化,2011(9):94-96.
[5] SCHMIDHUBER J. Deep Learning in Neural Networks: An overview [J].Neural Networks,2015,61:85-117.
[6] KRIZHEVSKY A,SUTSKEVER I,HINTON,G E. ImageNet Classification with Deep Convolutional Neural Networks [C]//Twenty-sixth Annual Conference on Neural Information Processing Systems.Lake Tahoe:NIPS,2012:1-9.
[7] LECUN Y,BOTTOU L,BENGIO Y,et al. Gradient-based Learning Applied to Document Recognition [J].Proceedings of the IEEE,1998,86(11):2278-2324.
[8] KUMAWAT S,VERMA M,NAKASHIMA Y,et al. Depthwisespatio-temporal STFT Convolutional Neural Networks for Human Action Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2022,44(9):4839-4851.
[9] SCHULDT C,LAPTEV I,CAPUTO B. Recognizing Human Actions: A Local SVM Approach [C]//Proceedings of the 17th International Conference on Pattern Recognition(ICPR 2004).Cambridge:IEEE,2004,3:32-36.
[10] RODRIGUEZ M D,AHMED J,SHAH M. Action MACH a Spatio-temporal Maximum Average Correlation Height Filter for Action Recognition [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage:IEEE,2008:1-8.
[11] SOOMRO K,ZAMIR A R. Action Recognition in Realistic Sports Videos [M]//Moeslund T B,Thomas G,Hilton A. Computer Vision in Sports.Berlin:Springer,2014:181–208.
[12] KUEHNE H,JHUANG H,GARROTE E,et al. HMDB: A Large Video Database for Human Motion Recognition [C]//2011 International Conference on Computer Vision (ICCV).Barcelona:IEEE,2011:2556-2563.
[13] KARPATHY A,TODERICI G,SHETTY S,et al. Large-scale Video Classification with Convolutional Neural Networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Columbus:IEEE,2014:1725-1732.
[14] ABU-EL-HAIJA S,KOTHARI N,LEE J,et al. YouTube-8M: A Large-Scale Video Classification Benchmark [J/OL].arXiv:1609.08675 [cs.CV].(2016-09-27).https://arxiv.org/abs/1609.08675.
[15] KAY W,CARREIRA J,SIMONYAN K,et al. The Kinetics Human Action Video Dataset [J/OL].arXiv:1705.06950 [cs.CV].(2017-05-19).https://arxiv.org/abs/1705.06950v1.
[16] SIMONYAN K,ZISSERMAN A. Two-stream convolutional networks for Action Recognition in Videos [C]//NIPS'14: Proceedings of the 27th International Conference on Neural Information Processing Systems.Cambridge:MIT Press,2014,1(4):568-576.
[17] FEICHTENHOFER C,PINZ A,ZISSERMAN A. Convolutional Two-Stream Network Fusion for Video Action Recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Las Vegas:IEEE,2016:1933-1941.
[18] FEICHTENHOFER C,PINZ A,WILDES R P. Spatiotemporal Residual Networks for Video Action Recognition [C]//29th Conference on Neural Information Processing Systems(NIPS 2016).Barcelona:NIPS,2016:3468-3476.
[19] FEICHTENHOFER C,PINZ A,WILDES R P. Spatiotemporal Multiplier Networks for Video Action Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:7445-7454.
[20] WANG Y B,LONG M S,WANG J M,et al. Spatiotemporal Pyramid Network for Video Action Recognition [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:2097-2106.
[21] WANG L M,XIONG Y J,WANG Z,et al. Temporal Segment Networks: Towards Good Practices for Deep Action Recognition [J/OL].arXiv:1608.00859 [cs.CV].(2016-08-02).https://arxiv.org/abs/1608.00859.
[22] STAUDEMEYER R C,MORRIS E R. Understanding LSTM--A Tutorial into Long Short-Term Memory Recurrent Neural Networks [J/OL].arXiv:1909.09586 [cs.NE].(2019-09-12).https://arxiv.org/abs/1909.09586.
[23] JI S W,XU W,YANG M,et al. 3D Convolutional Neural Networks for Human Action Recognition [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(1):221-231.
[24] TRAN D,BOURDEV L,F(xiàn)ERGUS R,et al. Learning Spatiotemporal Features with 3D Convolutional Networks [C]//2015 IEEE International Conference on Computer Vision (ICCV).Santiago:IEEE,2015:4489-4497.
[25] CARREIRA J,ZISSERMAN A. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Honolulu:IEEE,2017:4724-4733.
[26] TRAN D,WANG H,TORRESANI L,et al. A Closer Look at Spatiotemporal Convolutions for Action Recognition [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:6450-6459.
[27] KARPATHY A,TODERICI G,SHETTY S,et al. Large-Scale Video Classification with Convolutional Neural Networks [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus:IEEE,2014:1725-1732.
[28] ZONG M,WANG R L,CHEN X B,et al. Motion Saliency Based Multi-stream Multiplier ResNets for Action Recognition [J].Image and Vision Computing,2021,107:104108.
[29] GAMMULLE H,DENMAN S,SRIDHARAN S,et al. Two Stream LSTM: A Deep Fusion Framework for Human Action Recognition [C]//2017 IEEE Winter Conference on Applications of Computer Vision(WACV).Santa Rosa:IEEE,2017:177-186.
[30] DONAHUE J,HENDRICKS L A,GUADARRAMA S,et al. Long-Term Recurrent Convolutional Networks for Visual Recognition and Description [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Boston:IEEE,2015:2625-2634.
[31] ZHAO R,ALI H,SMAGT P V D. Two-stream RNN/CNN for Action Recognition in 3D videos [C]//2017 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Vancouver:IEEE,2017:4260-4267.
作者簡(jiǎn)介:吳婷(1998—),女,漢族,廣西北海人,碩士研究生在讀,研究方向:視覺(jué)認(rèn)知計(jì)算與醫(yī)學(xué)圖像處理;通訊作者:劉海華(1966—),男,漢族,湖北孝感人,教授,博士,研究方向:視覺(jué)認(rèn)知計(jì)算與醫(yī)學(xué)圖像處理。