王彩玲,閆晶晶,張智棟
西安石油大學(xué)計(jì)算機(jī)學(xué)院,西安 710065
人體行為識(shí)別的研究目標(biāo)是通過(guò)對(duì)人體行為的識(shí)別開(kāi)發(fā)模仿人的視覺(jué)系統(tǒng)用以理解和描述給定場(chǎng)景中的人類行為,目前已經(jīng)廣泛應(yīng)用于智能安防[1]、虛擬現(xiàn)實(shí)[2]、人機(jī)交互[3]等領(lǐng)域并獲得了很高的商業(yè)價(jià)值。
近年來(lái),隨著低成本可穿戴傳感器與深度相機(jī)的進(jìn)一步研究,用于人體行為識(shí)別研究的數(shù)據(jù)類型不僅局限于RGB,還出現(xiàn)了新模式的數(shù)據(jù),如深度、骨骼和紅外數(shù)據(jù)。根據(jù)數(shù)據(jù)的類型,目前流行的人體行為識(shí)別研究方法包含基于RGB的行為識(shí)別和基于骨骼的行為識(shí)別(如圖1所示),這兩種方法都是該領(lǐng)域的熱點(diǎn)方向。
圖1 行為識(shí)別示例Fig.1 Examples of action recognition
深度學(xué)習(xí)的引入為基于RGB的人體行為識(shí)別帶來(lái)了新的發(fā)展方向。深度學(xué)習(xí)在人體行為識(shí)別領(lǐng)域最初的研究方法側(cè)重于RGB 靜態(tài)圖像的特征提取,目前則重點(diǎn)關(guān)注視頻圖像。Guo 等[4]對(duì)基于靜止RGB 圖像的人體行為識(shí)別技術(shù)進(jìn)行了調(diào)查,討論了機(jī)器學(xué)習(xí)和深度學(xué)習(xí)用于低級(jí)特征提取和高級(jí)行為表示的不同方法。Ma等[5]詳細(xì)地討論了深度學(xué)習(xí)表示的優(yōu)缺點(diǎn),同時(shí)還介紹了流行的標(biāo)準(zhǔn)數(shù)據(jù)集。裴利沈等[6]更加側(cè)重于總結(jié)關(guān)于群體行為中活動(dòng)細(xì)節(jié)理解的算法發(fā)展。近年來(lái),將骨骼數(shù)據(jù)與深度學(xué)習(xí)相結(jié)合的優(yōu)勢(shì)逐漸明顯。眾多研究人員逐漸關(guān)注基于骨骼的人體行為識(shí)別研究。調(diào)查[7-8]不僅詳細(xì)介紹了用于人體行為識(shí)別的圖卷積網(wǎng)絡(luò)(graph convolution neural network,GCN)結(jié)構(gòu)和骨骼數(shù)據(jù)模態(tài),而且重點(diǎn)介紹了GCN 在人體行為識(shí)別領(lǐng)域的應(yīng)用。
目前,前人的研究論述中沒(méi)有包含基于RGB 和骨骼的兩種研究方法的綜合調(diào)查,缺少宏觀全面的介紹。因此,本文分別對(duì)上述兩種流行的方法進(jìn)行了全面的分類調(diào)查。具體的內(nèi)容包括三部分:特征表示方法、公共數(shù)據(jù)集、挑戰(zhàn)與前景。本文的主要貢獻(xiàn)如下:
(1)提供了針對(duì)RGB 和骨骼數(shù)據(jù)的特征表示方法的全面調(diào)查,包括基于手工標(biāo)注的和基于深度學(xué)習(xí)的方法(如圖2所示),并總結(jié)了典型方法的優(yōu)缺點(diǎn);
圖2 基于RGB和骨骼的人體行為識(shí)別研究方法Fig.2 Research methodology for human action recognition based on RGB and skeleton
(2)對(duì)目前國(guó)內(nèi)外公開(kāi)數(shù)據(jù)集進(jìn)行介紹和對(duì)比,包括RGB數(shù)據(jù)集和骨骼數(shù)據(jù)集;
(3)在基于骨骼的人體行為識(shí)別中,總結(jié)了單目標(biāo)和多目標(biāo)的深度人體姿態(tài)估計(jì)模型,以及在人體行為識(shí)別中的應(yīng)用;
(4)分別闡述了基于RGB 和骨骼數(shù)據(jù)的人體行為識(shí)別方法面臨的挑戰(zhàn),展望了未來(lái)的發(fā)展方向。
本文首先介紹了基于RGB和骨骼數(shù)據(jù)的人體行為識(shí)別方法,包括手工提取特征和基于深度學(xué)習(xí)提取特征的方法。接著,介紹了國(guó)內(nèi)外用于人體行為識(shí)別的公開(kāi)數(shù)據(jù)集,包括RGB數(shù)據(jù)集和骨骼數(shù)據(jù)集。然后,列出部分流行的算法在RGB和骨骼數(shù)據(jù)集上的表現(xiàn)結(jié)果。最后,總結(jié)了人體行為識(shí)別技術(shù)目前所面臨的挑戰(zhàn)并展望了未來(lái)的發(fā)展前景。
傳統(tǒng)的RGB人體行為識(shí)別的特征提取采用手工標(biāo)注的方式,基于深度學(xué)習(xí)的RGB 人體行為識(shí)別采用深度架構(gòu)提取特征。下面分別對(duì)基于RGB的手工特征和深度架構(gòu)進(jìn)行方法綜述。
基于手工特征的人體行為識(shí)別方法一般包含兩個(gè)主要步驟:行為表示和行為分類。行為表示的目標(biāo)是將視頻信息轉(zhuǎn)換為特征向量,提取人體行為的代表性和判別性信息,并將變化最小化,從而提高識(shí)別性能。行為表示的方法大致可以分為全局特征表示方法和局部特征表示方法。
全局表示方法可以捕捉整個(gè)人體主體的運(yùn)動(dòng)信息,但由于信息捕獲區(qū)域?yàn)楣潭ǖ木匦螘?huì)引入不相關(guān)背景信息。Bobick 等[9]基于全局表示提出了運(yùn)動(dòng)能量圖像(motion energy image,MEI)和運(yùn)動(dòng)歷史圖像(motion history image,MHI)來(lái)編碼動(dòng)態(tài)人體運(yùn)動(dòng)到一個(gè)單一的圖像,如圖3所示。
圖3 輸入的視頻幀與MEI和MHI的對(duì)比圖Fig.3 Comparison diagram of input video frames with motion energy image(MEI)and motion history image(MHI)
局部表示只識(shí)別具有顯著運(yùn)動(dòng)信息的局部區(qū)域,克服了全局表示中的問(wèn)題。例如時(shí)空興趣點(diǎn)[10]、運(yùn)動(dòng)軌跡[11]等方法都對(duì)平移、外觀變化等有很強(qiáng)的魯棒性。
在計(jì)算出行為表示后,將所得特征向量輸入到分類器中學(xué)習(xí)分類。分類器包含直接分類法[12]、序列法[13]、時(shí)空法[14]、基于部分法[15]、多元化學(xué)習(xí)法[16]等。
雖然全局特征和局部特征已得到顯著的效果,但這些手工特征需要大量的先驗(yàn)知識(shí)來(lái)預(yù)定義參數(shù),并且不能很好地在大型數(shù)據(jù)集上進(jìn)行泛化。近年來(lái),深度神經(jīng)網(wǎng)絡(luò)廣泛應(yīng)用在行為識(shí)別研究并取得巨大成功,基本分為基于雙流網(wǎng)絡(luò)、基于三維卷積網(wǎng)絡(luò)和基于混合網(wǎng)絡(luò)三類方法。
1.2.1 雙流網(wǎng)絡(luò)
光流[17]是描述物體或場(chǎng)景運(yùn)動(dòng)的有效運(yùn)動(dòng)表示。傳統(tǒng)的手工特征[18]也包含類似光流的特征,如光流直方圖和運(yùn)動(dòng)邊界直方圖都可以證明光流的有效性。
Simonyan等[19]首次提出了雙流網(wǎng)絡(luò),包括空間流和時(shí)間流。其中空間流將原始RGB視頻幀作為輸入以捕獲視覺(jué)外觀信息,時(shí)間流將光流圖像信息作為輸入,以捕獲視頻幀之間的運(yùn)動(dòng)信息,最后融合兩個(gè)分支的特征得到分類結(jié)果。
眾多學(xué)者對(duì)雙流網(wǎng)絡(luò)中的融合方法展開(kāi)討論。其中一個(gè)關(guān)鍵問(wèn)題是網(wǎng)絡(luò)的融合,最簡(jiǎn)單和最直接的方法是后期融合[19],它是對(duì)來(lái)自兩個(gè)流的預(yù)測(cè)分?jǐn)?shù)進(jìn)行加權(quán)平均。此外,F(xiàn)eichtenhofer 等[20]認(rèn)為在模型學(xué)習(xí)過(guò)程中進(jìn)行早期交互融合可得到更豐富的特征及更高的性能,并研究了如何進(jìn)行空間融合、在何處融合網(wǎng)絡(luò),以及如何進(jìn)行時(shí)間融合。該研究表明早期融合相比于后期融合可以得到更豐富的特征及更高的性能。另外,F(xiàn)eichtenhofer等[21]在文獻(xiàn)[20]的基礎(chǔ)上提出了SlowFast,示意圖,如圖4 所示。該網(wǎng)絡(luò)結(jié)合人類視覺(jué)細(xì)胞的特性,其中快速路徑保持時(shí)間保真度,而慢速路徑可以更多地關(guān)注空間和語(yǔ)義信息,同時(shí)采用橫向連接來(lái)融合每個(gè)路徑所提取的特征。由于Fast路徑計(jì)算量小,通道容量少,因此SlowFast的整體效率大大提高。
圖4 快慢網(wǎng)絡(luò)架構(gòu)Fig.4 SlowFast network architecture
最近,針對(duì)現(xiàn)有行為識(shí)別方法中抗背景干擾能力差和準(zhǔn)確率低等問(wèn)題,雷永升等[22]提出了一種改進(jìn)的雙流視覺(jué)Transformer行為識(shí)別模型。該模型采用分段采樣提高模型對(duì)長(zhǎng)時(shí)間序列數(shù)據(jù)的處理能力,有助于更好地理解視頻數(shù)據(jù)中的動(dòng)態(tài)變化和連續(xù)性。此外,無(wú)參數(shù)的注意力模塊可以降低背景動(dòng)作的干擾,增強(qiáng)模型的特征表示能力,讓模型更加專注于處理和學(xué)習(xí)數(shù)據(jù)的關(guān)鍵特征。當(dāng)前主流2DCNN 無(wú)法提取輸入幀之間的相關(guān)信息,導(dǎo)致網(wǎng)絡(luò)無(wú)法獲得輸入幀間的時(shí)空特征信息進(jìn)而難以提升識(shí)別精度。針對(duì)目前主流方法存在的問(wèn)題,龔蘇明等[23]提出了通用的時(shí)空特征金字塔模塊(space-time feature pyramid module,STFPM)并嵌入到現(xiàn)有的CNN構(gòu)成新的網(wǎng)絡(luò)時(shí)空特征金字塔網(wǎng)絡(luò)(space-time feature pyramid network,STFP-Net)。STFP-Net 用于提取多幀圖像的原始特征,使用原始特征金字塔提取時(shí)序特征,最后將兩類特征加權(quán)融合,這很大程度地提升了識(shí)別準(zhǔn)確率。
1.2.2 3DCNN網(wǎng)絡(luò)
在雙流方法中,空間和時(shí)間信息總是分離的,這對(duì)于大規(guī)模訓(xùn)練或?qū)崟r(shí)部署并不友好。隨后,有學(xué)者提出了直接提取時(shí)空特征的三維卷積方法。Ji等[24]最早提出3D 卷積神經(jīng)網(wǎng)絡(luò)(3D convolutional neural network,3DCNN)進(jìn)行行為識(shí)別。Tran 等[25]在3DCNN[24]的基礎(chǔ)上進(jìn)行擴(kuò)展提出C3D(convolutional 3D)。該網(wǎng)絡(luò)可看作是VGG16[26]網(wǎng)絡(luò)的3D 版本,并表現(xiàn)出強(qiáng)大的泛化能力。為了更進(jìn)一步提高泛化能力,Carreira等[27]提出I3D(inflated 3D ConvNet),其沿時(shí)間維度將網(wǎng)絡(luò)膨脹為時(shí)空特征提取器。它適應(yīng)了成熟的圖像分類架構(gòu),以用于3DCNN,并且將ImageNet預(yù)訓(xùn)練的2D模型權(quán)重膨脹到3D模型中的相應(yīng)權(quán)重。
為了降低3D 網(wǎng)絡(luò)訓(xùn)練的復(fù)雜性,P3D(pseudo-3D ConvNet)[28]和R(2+1)D[29]利用因子分解的思想,使用一個(gè)2D空間卷積(1×3×3)和一個(gè)1D時(shí)間卷積(3×1×1)的組合來(lái)代替標(biāo)準(zhǔn)3D 卷積(3×3×3)。簡(jiǎn)化3DCNN 的另一種方法是在單個(gè)網(wǎng)絡(luò)中混合2D 和3D 卷積[30-31],以生成信息更豐富的特征圖。
考慮到網(wǎng)絡(luò)無(wú)法捕獲長(zhǎng)時(shí)間的信息從而導(dǎo)致特征丟失,Wang等[32]提出了TSN(temporal segment network)。TSN能夠建立長(zhǎng)時(shí)間依賴,并采用稀疏采樣策略降低了訓(xùn)練成本。此外,Wang等[33]引入了一種新的構(gòu)件,稱為non-local。non-local 是一種可即插即用的操作,類似于注意力[34]。最近,V4D[35]提出了視頻級(jí)4DCNN,用4D卷積來(lái)模擬遠(yuǎn)程時(shí)空表示的演化。
還有一些研究人員不斷探索優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)以提升3DCNN的性能并減少參數(shù)量。知識(shí)蒸餾和注意力模塊成為了研究熱點(diǎn)。Stroud 等[36]構(gòu)建了D3D(distilled 3D networks)。該網(wǎng)絡(luò)通過(guò)知識(shí)蒸餾使雙流3DCNN 的空間流分支擁有捕獲光流信息的能力,并將雙流網(wǎng)絡(luò)融合為單流網(wǎng)絡(luò),這極大地強(qiáng)化了網(wǎng)絡(luò)捕捉視頻中的時(shí)空信息的能力。Jiang 等[37]和Kim 等[38]設(shè)計(jì)了不同的注意力模塊,包括兼顧時(shí)空信息的高效注意力模塊(efficient attention module,EAM)和聚焦視頻動(dòng)作的雙注意力(double attention,DA),這些注意力模塊可以鼓勵(lì)網(wǎng)絡(luò)聚焦于關(guān)鍵特征,進(jìn)而提升行為識(shí)別能力。近年來(lái),F(xiàn)anany 等[39]提出了一種端到端多分辨率三維膠囊網(wǎng)絡(luò)用于檢測(cè)多人活動(dòng)場(chǎng)景。該3D膠囊網(wǎng)絡(luò)結(jié)合多重分辨率在不同的尺度上捕獲的較低級(jí)別的特征,進(jìn)而檢測(cè)每個(gè)行為中多個(gè)演員的規(guī)模、尺度和縱橫比。除此之外,Zhao 等[40]提出了一種三維卷積神經(jīng)網(wǎng)絡(luò)融合通道注意力(3D convolutional neural network fusing channel attention,3DCCA)模型。該模型提出了RGB 視頻幀預(yù)處理的均值歸一化方法,并使用通道注意力突出關(guān)鍵的時(shí)空特征。
總體而言,3DCNN 并不是取代雙流網(wǎng)絡(luò),也不是互斥的,而是分別用不同的方式建立時(shí)間與空間特征的關(guān)系。
1.2.3 混合網(wǎng)絡(luò)
另一種流行的行為識(shí)別方法是在卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)上添加循環(huán)層以構(gòu)建混合網(wǎng)絡(luò)[41],如長(zhǎng)短期記憶(long short-term memory,LSTM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)。這種混合網(wǎng)絡(luò)同時(shí)兼得了CNN 和LSTM 的優(yōu)點(diǎn),因此在提取空間維度特征及長(zhǎng)時(shí)間特征依賴方面表現(xiàn)出巨大的優(yōu)越性。
Donahue 等[41]探索了LSTM 在CNN 生成的空間特征上進(jìn)行時(shí)間序列的建模,提出LRCN(long-term recurrent convolutional network)。Ng等[42]同樣在CNN上使用LSTM并比較了在時(shí)間維度上6種類型的池化操作,包括慢池化和卷積池化。之后,He等[43]結(jié)合了卷積提取空間特征和LSTM提取時(shí)間信息的優(yōu)點(diǎn),提出了深度雙向LSTM。該方法對(duì)長(zhǎng)時(shí)間視頻的處理效果較好,可以通過(guò)分析一定時(shí)間間隔的特征來(lái)處理長(zhǎng)視頻。之后Li等[44]提出VideoLSTM,其包括基于相關(guān)性的空間注意力機(jī)制和基于輕量級(jí)運(yùn)動(dòng)的注意力機(jī)制。Lattice LSTM[45]通過(guò)學(xué)習(xí)單個(gè)空間位置的存儲(chǔ)單元的獨(dú)立隱藏狀態(tài)轉(zhuǎn)變來(lái)擴(kuò)展LSTM,從而可以準(zhǔn)確地對(duì)長(zhǎng)期和復(fù)雜的運(yùn)動(dòng)建模。
但由于LSTM 模塊的結(jié)構(gòu)問(wèn)題,無(wú)法進(jìn)行并行計(jì)算。Transformer[34]可以解決這個(gè)問(wèn)題,是目前最流行的深度學(xué)習(xí)架構(gòu)。Girdhar等[46]使用Transformer的架構(gòu)來(lái)聚合上下文特征,并引入了注意力機(jī)制。Li等[47]提出了一種基于Transformer 的RGB-D 自我中心行為識(shí)別框架,該框架包括幀間注意編碼器和相互注意融合塊。
近年來(lái),武東輝等[48]考慮到單一的CNN 缺乏有效的時(shí)序信息且單一的RNN 對(duì)局部信息捕獲不完整,提出了融合注意力機(jī)制與時(shí)空網(wǎng)絡(luò)的深度學(xué)習(xí)模型。該模型分別使用CNN 和LSTM 提取局部特征和時(shí)序信息,并結(jié)合注意力機(jī)制獲取并優(yōu)化最重要的特征,提升了識(shí)別準(zhǔn)確率。針對(duì)傳統(tǒng)算法不能有效抑制空間背景信息,網(wǎng)絡(luò)間缺乏信息交互,以及無(wú)法對(duì)全局時(shí)間相關(guān)性進(jìn)行建模的問(wèn)題,余金鎖等[49]提出一種基于分割注意力的特征融合卷積神經(jīng)網(wǎng)絡(luò)-雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)算法。該方法主要通過(guò)注意力機(jī)制分割網(wǎng)絡(luò)提取的圖像特征,結(jié)合不同卷積層之間的信息交互,獲取深度特征輸入到雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)中對(duì)時(shí)序信息建模。
現(xiàn)有方法雖然在精度上取得了一定的進(jìn)步,但大多數(shù)混合算法的結(jié)構(gòu)越來(lái)越復(fù)雜,網(wǎng)絡(luò)層次也越來(lái)越深。Chen等[50]在從控制論的角度分析經(jīng)典LSTM的結(jié)構(gòu)后,提出了一種帶有輸入差分特征模塊的LSTM結(jié)構(gòu),同時(shí)考慮了一階和二階微分對(duì)運(yùn)動(dòng)姿態(tài)信息提取的影響,即運(yùn)動(dòng)速度和加速度對(duì)動(dòng)作識(shí)別的影響。此外,Le 等[51]提出了一種新的混合算法,該方法由SlowFast 模型[21]和BERT(bidirectional encoder representations from Transformers)[52]兩個(gè)模型組成。前者用于提取時(shí)空特征,后者用于聚合時(shí)間關(guān)系,兩者使用早期集成和晚期集成兩種不同的融合方法依次堆疊,構(gòu)建了一個(gè)強(qiáng)大的統(tǒng)一系統(tǒng)。
經(jīng)過(guò)對(duì)雙流網(wǎng)絡(luò)、3DCNN 及混合網(wǎng)絡(luò)具體特點(diǎn)的介紹,表1匯總了上述部分算法的相關(guān)工作與突出特點(diǎn)。
表1 基于RGB數(shù)據(jù)模態(tài)的深度學(xué)習(xí)算法對(duì)比分析Table 1 Comparative analysis of deep learning algorithms based on RGB data modality
相較于RGB 數(shù)據(jù),骨骼數(shù)據(jù)對(duì)光照、視角、背景遮擋有更好的魯棒性,能更好地避免噪聲影響。且骨骼數(shù)據(jù)信息較為集中,大大減少了冗余信息的計(jì)算,從而使得基于骨骼的人體行為識(shí)別受到了研究者青睞。
隨著Kinect、Orbbec Astra 等深度相機(jī)和傳感器的開(kāi)發(fā),骨骼數(shù)據(jù)的獲取變得容易,但骨骼數(shù)據(jù)的處理還依賴于Openpose、SDK(software development kit)等姿態(tài)評(píng)估算法的進(jìn)一步研究。因此,本章系統(tǒng)地介紹了流行的姿態(tài)評(píng)估算法并從特征入手梳理基于骨骼的人體行為識(shí)別相關(guān)方法。
人體姿態(tài)估計(jì)旨在預(yù)測(cè)圖像或視頻中人體部位的姿態(tài),通常,姿態(tài)估計(jì)分為單目標(biāo)姿態(tài)估計(jì)和多目標(biāo)姿態(tài)估計(jì)。
單目標(biāo)姿態(tài)估計(jì)的圖像里只有單個(gè)待檢測(cè)目標(biāo)。首先檢測(cè)出目標(biāo)的邊界框圖像,再檢測(cè)出目標(biāo)人體的所有關(guān)節(jié)點(diǎn)。一般分為兩種:一種方法是直接從特征中回歸關(guān)鍵點(diǎn)[53],稱之為基于直接回歸的框架,如DeepPose[54]、直接坐標(biāo)回歸方法解構(gòu)式關(guān)鍵點(diǎn)回歸[53]、自我修正模型[55]、結(jié)構(gòu)感知回歸方法[56],如圖5 所示;另一種方法是先生成熱圖,并通過(guò)熱圖推斷關(guān)鍵點(diǎn)位置,稱之為基于熱圖的框架[57]。
圖5 回歸關(guān)鍵點(diǎn)示例圖Fig.5 Example diagram of regression key points
與單目標(biāo)姿態(tài)估計(jì)不同,多目標(biāo)姿態(tài)估計(jì)包含檢測(cè)和定位兩個(gè)任務(wù)。根據(jù)檢測(cè)步驟可將人體姿態(tài)估計(jì)方法分為自上而下方法和自下而上方法。前者首先采用目標(biāo)檢測(cè)算法獲取圖像中的多個(gè)主體,再對(duì)單個(gè)主體目標(biāo)進(jìn)行姿態(tài)估計(jì)。例如,G-RMI(global rigid motion invariant)[58]、Mask R-CNN(mask region-based convolutional neural network)[59]、AlphaPose[60]、HRNet(highresolution network)[61]、DNANet(de-normalized attention network)[62]。后者,首先檢測(cè)出圖像中的所有關(guān)節(jié)點(diǎn),再通過(guò)相應(yīng)策略將關(guān)節(jié)點(diǎn)聚類成人體,實(shí)現(xiàn)姿態(tài)估計(jì)。自底向上的方法擺脫了首先對(duì)個(gè)體進(jìn)行檢測(cè)的前提,例如,DeepCut[63]、OpenPose[64]、Lightweight OpenPose[65]、PiPaf[66]、HigherHRNet[67]。
Yang 等[68]提出了深度運(yùn)動(dòng)圖(depth motion maps,DMM)。在DMM中首先從正視圖、側(cè)視圖和俯視圖投影并壓縮運(yùn)動(dòng)數(shù)據(jù)分別得到三個(gè)運(yùn)動(dòng)歷史圖,然后用HOG特征進(jìn)行特征表示。
一些學(xué)者提出了不同的骨架表示方法來(lái)提高算法的性能及效率。Vemulapalli 等[69]利用三維空間中的旋轉(zhuǎn)和平移對(duì)不同身體部位的幾何關(guān)系進(jìn)行建模,他們用李群中的曲線來(lái)模擬運(yùn)動(dòng)。Su等[70]、李夢(mèng)荷等[71]提取統(tǒng)計(jì)屬性的特征,包括均值、方差和物理屬性的特征如關(guān)節(jié)點(diǎn)的相對(duì)位置進(jìn)行研究。
基于手工提取的特征可解釋性強(qiáng),模型簡(jiǎn)單易懂。但是手工特征往往不能完全地表征運(yùn)動(dòng)整體狀態(tài),而且依賴于研究者的先驗(yàn)知識(shí),泛化能力較弱,不易推廣。
近年來(lái),將骨架數(shù)據(jù)與深度學(xué)習(xí)相結(jié)合的優(yōu)勢(shì)逐漸顯露出來(lái),主要分為基于RNN 的方法、基于CNN 的方法和基于GCN的方法。
2.3.1 基于RNN的方法
RNN 在實(shí)際訓(xùn)練過(guò)程中,如果序列過(guò)長(zhǎng)會(huì)導(dǎo)致優(yōu)化時(shí)梯度消失和梯度爆炸的問(wèn)題。為了解決這一問(wèn)題,Li 等[72]提出獨(dú)立循環(huán)神經(jīng)網(wǎng)絡(luò)(independently recurrent neural network,IndRNN)。該網(wǎng)絡(luò)通過(guò)時(shí)間調(diào)節(jié)梯度反向傳播,并允許網(wǎng)絡(luò)學(xué)習(xí)長(zhǎng)期依賴關(guān)系。并且同一層中的神經(jīng)元彼此獨(dú)立且跨層連接,這可以解釋每層神經(jīng)元的行為。
LSTM 網(wǎng)絡(luò)通過(guò)設(shè)計(jì)“循環(huán)體”克服了RNN 梯度消失和梯度爆炸的缺陷,且在時(shí)間序列特征提取方面具有很大的優(yōu)勢(shì)。Lee等[73]認(rèn)為不同時(shí)間步長(zhǎng)的LSTM網(wǎng)絡(luò)可以很好地模擬不同的屬性,提出了基于骨骼動(dòng)作識(shí)別的集成時(shí)態(tài)滑動(dòng)LSTM網(wǎng)絡(luò),該網(wǎng)絡(luò)不僅考慮了長(zhǎng)期特征,還加入了短期和中期特征。
當(dāng)所有關(guān)節(jié)都作為輸入時(shí),不相關(guān)的關(guān)節(jié)作為噪聲會(huì)降低網(wǎng)絡(luò)性能,因此應(yīng)更加關(guān)注有重要信息的關(guān)節(jié)。與其他人不同的是,Liu等[74]考慮到噪聲數(shù)據(jù)的干擾,提出了具有循環(huán)注意機(jī)制的全局上下文感知注意LSTM(global context-aware attention LSTM networks,GCALSTM)。該方法通過(guò)使用全局上下文記憶單元,能夠選擇性地關(guān)注每幀中的信息關(guān)節(jié)。同時(shí),他們還引入了粗粒度注意力和細(xì)粒度注意力的雙流框架,提高了網(wǎng)絡(luò)的注意性能。
共現(xiàn)特征結(jié)合了不同維度的特征,并增強(qiáng)網(wǎng)絡(luò)特征的表達(dá)能力。Zhu等[75]引入了一種正則化方法來(lái)研究骨架的共現(xiàn)特征。同樣,Si等[76]增加了一種注意力機(jī)制來(lái)增強(qiáng)關(guān)鍵關(guān)節(jié)的信息,并提出了注意力增強(qiáng)圖卷積LSTM網(wǎng)絡(luò)(attention enhanced graph convolutional LSTM network,AGC-LSTM),它可以挖掘時(shí)空域的共現(xiàn)特征;還提出了一種時(shí)間層次結(jié)構(gòu),如圖6 所示,增加AGC-LSTM 層的時(shí)間感受域,增強(qiáng)了高級(jí)語(yǔ)義表示能力,顯著降低了計(jì)算成本。Zheng 等[77]提出了一種注意循環(huán)關(guān)系網(wǎng)絡(luò)(attention recurrent relational network,ARRN-LSTM)。它可以同時(shí)模塊化空間布局和時(shí)間運(yùn)動(dòng)特征。
圖6 一個(gè)AGC-LSTM層的結(jié)構(gòu)Fig.6 Structure of an AGC-LSTM layer
最近,高治軍等[78]專注于研究人體危險(xiǎn)行為識(shí)別算法,將CNN 網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)并聯(lián)提出了一種基于CNN-LSTM的雙流卷積危險(xiǎn)行為識(shí)別模型。該模型同時(shí)提取靜態(tài)特征和動(dòng)態(tài)特征,充分挖掘了時(shí)空特征并提升了危險(xiǎn)動(dòng)作識(shí)別的準(zhǔn)確率,有效地對(duì)危險(xiǎn)動(dòng)作做出分類識(shí)別。
2.3.2 基于CNN的方法
與RNN 不同的是,CNN 模型對(duì)高級(jí)信息的提取能力很強(qiáng),并且可以輕松、高效地對(duì)高級(jí)語(yǔ)義信息進(jìn)行學(xué)習(xí),在基于骨骼的行為識(shí)別中被廣泛應(yīng)用。
為了滿足CNN模型的輸入需要將三維骨架序列數(shù)據(jù)從矢量序列轉(zhuǎn)換為偽圖像,然后提取偽圖像的特征。Du 等[79]利用空間關(guān)系提出了一種端到端的層次結(jié)構(gòu),將3D 骨架坐標(biāo)表示為序列,然后將其按時(shí)間連接起來(lái)。最后,生成圖像并輸入CNN 進(jìn)行特征提取和識(shí)別。在文獻(xiàn)[79]工作之后,Ke等[80]提出了一種改進(jìn)的骨架序列表示方法,其中3D坐標(biāo)被分離成三個(gè)灰度圖像,然后分別輸入深度CNN 學(xué)習(xí)。受到基于RGB 的雙流CNN[19]啟發(fā),Li 等[81]提出了一個(gè)基于骨骼的雙流CNN,其中一個(gè)流的輸入是原始骨骼坐標(biāo),另一個(gè)流的輸入是連續(xù)兩幀間的關(guān)節(jié)坐標(biāo)差。
上述方法處理復(fù)雜,容易丟失重要信息。為了克服這一缺點(diǎn),Caetano 等[82]定義了一種新的骨骼圖像表示方法命名為SkeleMotion,以此作為神經(jīng)網(wǎng)絡(luò)的輸入。然后,Caetano等[83]做了進(jìn)一步研究,使輸入不再局限于骨骼的坐標(biāo)。該研究引入了樹(shù)結(jié)構(gòu)參考關(guān)節(jié)圖像(tree structure reference joint image,TSRJI)作為骨架表示,并將參考關(guān)節(jié)和樹(shù)結(jié)構(gòu)骨架結(jié)合使用,避免了卷積神經(jīng)網(wǎng)絡(luò)對(duì)骨架結(jié)構(gòu)的忽視。
最近,Duan等[84]開(kāi)發(fā)了一種新的基于骨骼的動(dòng)作識(shí)別框架PoseConv3D,如圖7 所示。與基于GCN 的方法相比,PoseConv3D在學(xué)習(xí)時(shí)空特征方面更有效,對(duì)姿態(tài)估計(jì)噪聲的抗噪性更強(qiáng),在跨數(shù)據(jù)集設(shè)置中泛化效果更好。此外,PoseConv3D 可以處理多人場(chǎng)景而無(wú)需額外的計(jì)算成本。由于大多模型沒(méi)有充分挖掘骨骼序列所蘊(yùn)含的幾何特征,為了彌補(bǔ)這方面的不足,陳泯融等[85]提出多流融合網(wǎng)絡(luò)模型(multi-scale convolutional neural network,MS-CNN)。該網(wǎng)絡(luò)新增了一種幾何特征輸入,這使得模型可以更加健全地學(xué)習(xí)全局運(yùn)動(dòng)信息,提升模型的識(shí)別準(zhǔn)確率。
圖7 PoseConv3D網(wǎng)絡(luò)架構(gòu)Fig.7 PoseConv3D network architecture
2.3.3 基于GCN的方法
CNN 和RNN 只能學(xué)習(xí)排列規(guī)則的歐式數(shù)據(jù),而不能直接處理非歐式數(shù)據(jù)。出于挖掘圖數(shù)據(jù)的需求,Bruna等[86]通過(guò)在圖數(shù)據(jù)上擴(kuò)展CNN,提出GCN。人體骨骼數(shù)據(jù)可視為由關(guān)節(jié)點(diǎn)和骨骼邊組成的非歐式的圖數(shù)據(jù),采用GCN 能夠直接對(duì)圖數(shù)據(jù)進(jìn)行學(xué)習(xí)。一般來(lái)說(shuō),GCN主要有兩大分支:光譜GCN和空間GCN。
光譜GCN利用圖拉普拉斯矩陣的特征值和特征向量將圖從時(shí)域變換到頻域[87],但是計(jì)算量巨大。此外,Kipf 等[88]通過(guò)限制濾波器在每個(gè)節(jié)點(diǎn)周圍的一個(gè)鄰居上運(yùn)行,優(yōu)化了光譜GCN 方法。近年來(lái),Mazari 等[89]提出了一種新的光譜多拉普拉斯圖卷積網(wǎng)絡(luò)(multi-Laplacian graph convolutional network,MLGCN)來(lái)學(xué)習(xí)用作其他基本拉普拉斯凸組合的圖拉普拉斯。盡管光譜GCN在動(dòng)作識(shí)別任務(wù)中已顯示出其有效性,但由于計(jì)算成本昂貴,難以捕獲圖的高級(jí)信息[90]。
與光譜GCN相比,空間GCN具有更低的計(jì)算成本和更好的性能。因此,目前基于GCN 的人體動(dòng)作識(shí)別方法大多集中在空間GCN中。
Yan等[91]首次提出了一種基于骨架行為識(shí)別的時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(spatio-temporal graph convolutional network,ST-GCN)模型。如圖8所示,該網(wǎng)絡(luò)首先將人的關(guān)節(jié)作為時(shí)空?qǐng)D的頂點(diǎn),將人體連通性和時(shí)間作為圖的邊;然后使用標(biāo)準(zhǔn)softmax 分類器[92]將ST-GCN 上獲取的高級(jí)特征圖劃分為對(duì)應(yīng)的類別。
圖8 時(shí)空?qǐng)D卷積網(wǎng)絡(luò)(ST-GCN)模型結(jié)構(gòu)Fig.8 Spatio-temporal graph convolution network(ST-GCN)model architecture
由于圖網(wǎng)絡(luò)每一層的參數(shù)都是固定的,這在一定程度上失去了行為識(shí)別的靈活性。為了解決這一問(wèn)題,Shi等[93]提出了一種可以自學(xué)習(xí)參數(shù)的雙流自適應(yīng)圖卷積網(wǎng)絡(luò),如圖9所示。該網(wǎng)絡(luò)可以在網(wǎng)絡(luò)訓(xùn)練中自適應(yīng)地學(xué)習(xí)不同GCN層的參數(shù)和拓?fù)鋱D的結(jié)構(gòu)。同時(shí)引入注意機(jī)制及骨骼的高階信息,使網(wǎng)絡(luò)更具魯棒性并提高了準(zhǔn)確率。Shiraki 等[94]考慮到關(guān)節(jié)的重要性對(duì)于每個(gè)行為都是不同的,提出了時(shí)空注意圖卷積網(wǎng)絡(luò)(spatiotemporal attention graph convolutional network,STAGCN)。STA-GCN 是第一個(gè)同時(shí)考慮關(guān)節(jié)重要性和相互關(guān)系的方法。受此啟發(fā),一些研究人員著手研究在GCN添加注意力[95-96]。
圖9 雙流自適應(yīng)圖卷積網(wǎng)絡(luò)架構(gòu)Fig.9 Two-stream adaptive graph convolutional network architecture
一些研究集中在改進(jìn)GCN的模型。例如,shift-GCN中新穎的移位圖操作使時(shí)空?qǐng)D的接受域更加靈活,輕量級(jí)的點(diǎn)卷積有助于減少特征通道的數(shù)量。ResGCN[97]是具有bottleneck瓶頸結(jié)構(gòu)和部分注意力塊的殘差圖卷積網(wǎng)絡(luò)的算法,該算法使圖卷積網(wǎng)絡(luò)更強(qiáng)大、更快、更易于解釋行為識(shí)別。
受到人類骨骼是多個(gè)身體部位組合的想法的啟發(fā),Thakkar等[98]和Li等[99]提出了不同的分割身體部位的方法,將骨架圖劃分為4 個(gè)節(jié)點(diǎn)共享的子圖,利用基于局部的圖卷積網(wǎng)絡(luò)學(xué)習(xí)識(shí)別模型。
現(xiàn)有的方法在處理骨骼節(jié)點(diǎn)長(zhǎng)距離多維依賴關(guān)系方面存在一定的不足,同時(shí)時(shí)間特征提取能力也相對(duì)較弱。針對(duì)這些問(wèn)題,曹毅等[100]提出了一種超連接圖卷積網(wǎng)絡(luò)(hyper-connected graph convolutional network,HC-GCN)。其中,超連接強(qiáng)化了骨骼節(jié)點(diǎn)之間的長(zhǎng)距離多維依賴關(guān)系建模,使得信息的傳遞和交互更加高效。此外,超連接和時(shí)間感知模塊可以提升模型識(shí)別的準(zhǔn)確率和泛化能力。通過(guò)HC-GCN的推廣應(yīng)用,為基于骨骼行為識(shí)別技術(shù)的發(fā)展帶來(lái)新的突破。
然而,大多數(shù)GCN模型只能聚合節(jié)點(diǎn)信息,忽略了中心節(jié)點(diǎn)與相鄰節(jié)點(diǎn)的特征差異。基于多感受野注意力機(jī)制的中心差分自適應(yīng)圖卷積網(wǎng)絡(luò)模型[101]引入了中心節(jié)點(diǎn)梯度特征聚合機(jī)制,從而在全局范圍內(nèi)聚合所有節(jié)點(diǎn)的梯度特征。這種機(jī)制可以捕獲骨骼序列中節(jié)點(diǎn)之間復(fù)雜而微妙的相互作用關(guān)系,并提取關(guān)鍵的動(dòng)態(tài)特征,極大程度地提高了模型的性能。
總的來(lái)說(shuō),基于骨骼數(shù)據(jù)的算法在魯棒性、高效性上均表現(xiàn)突出,下面匯總了基于RNN、CNN、GCN 的部分算法的相關(guān)工作及突出特點(diǎn),如表2所示。
隨著人體行為識(shí)別領(lǐng)域的不斷深入研究,用于評(píng)估和檢測(cè)算法性能的公開(kāi)數(shù)據(jù)集不斷涌現(xiàn)。按照數(shù)據(jù)集的數(shù)據(jù)類型可將其劃分為RGB數(shù)據(jù)集和骨骼數(shù)據(jù)集。
本節(jié)將介紹基于RGB的行為識(shí)別常用數(shù)據(jù)集。表3列出了一些常用的RGB 數(shù)據(jù)集的基本參數(shù)信息,包括發(fā)布年份、視頻數(shù)量和行為標(biāo)簽數(shù)等[102-110]。
表3 RGB數(shù)據(jù)集Table 3 RGB datasets
HMDB51[102]數(shù)據(jù)集總共有大約7 000 個(gè)視頻片段,分為51個(gè)動(dòng)作類別。每個(gè)類別至少包含101個(gè)視頻片段。
UCF101[103]數(shù)據(jù)集共有13 320 個(gè)視頻數(shù),分為101個(gè)動(dòng)作類別。
Sports-1M[104]數(shù)據(jù)集共有1 133 158 個(gè)視頻數(shù),分為487類行為,平均每個(gè)類別包含1 000~3 000個(gè)視頻片段。
ActivityNet[105]數(shù)據(jù)集于2015年推出。最新的ActivityNet 200(V1.3)包含28 000個(gè)視頻數(shù),分為203個(gè)人類日常生活行為類別。
Kinetics 包含一系列數(shù)據(jù)集,包括Kinetics-400[111]、Kinetics-600[106]、Kinetics-700[112]、AVA Kinetics[113]和Kinetics700-2020[114]。根據(jù)數(shù)據(jù)集的版本,涵蓋400/600/700 個(gè)行為的類別。與圖像識(shí)別中的ImageNet 一樣,它是動(dòng)作識(shí)別中的一個(gè)重要基準(zhǔn)。
Moments in time[107]是一個(gè)用于動(dòng)作理解的大規(guī)模視頻數(shù)據(jù)集。它包含超過(guò)100 萬(wàn)個(gè)視頻數(shù),分為339 個(gè)行為類別。視頻中的元素包括人、動(dòng)物、物體或自然現(xiàn)象。該數(shù)據(jù)集致力于構(gòu)建能夠抽象和推理復(fù)雜人體行為的模型。
HACS[108]數(shù)據(jù)集是2019 年從在線視頻中收集的一個(gè)新的大規(guī)模數(shù)據(jù)集。HACS 包含5.04×105個(gè)未修剪視頻數(shù),其中有1.5×106個(gè)帶注釋的視頻,涵蓋200個(gè)行為類別。
HVU[109]數(shù)據(jù)集于2020 年發(fā)布,共572 000 個(gè)視頻數(shù),分為3 142個(gè)類別。視頻的持續(xù)時(shí)間各不相同,最長(zhǎng)為10秒。
AViD[110]數(shù)據(jù)集于2020 年引入,它收集了來(lái)自不同國(guó)家的匿名視頻并構(gòu)成了一個(gè)大型視頻數(shù)據(jù)集,包含4.67×105個(gè)視頻數(shù),分為887 個(gè)動(dòng)作類,每個(gè)視頻的持續(xù)時(shí)間在3~15秒之間。
本節(jié)介紹了常用的骨骼數(shù)據(jù)集。表4 列出了一些流行的骨骼數(shù)據(jù)集的基本參數(shù)信息,包括發(fā)布年份、傳感器類型、主體數(shù)量、行為標(biāo)簽數(shù)量和數(shù)據(jù)模態(tài)等。
表4 骨骼數(shù)據(jù)集Table 4 Skeleton datasets
CAD-120[115]數(shù)據(jù)集共包含120個(gè)人-物互動(dòng)的視頻,分為20 類行為。每個(gè)視頻標(biāo)注了人體骨骼軌跡、物體軌跡、物體標(biāo)簽、子活動(dòng)標(biāo)簽和每個(gè)視頻的高級(jí)行為。
UWA3D Multiview[116]數(shù)據(jù)集由Kinect 拍攝,包含10名參與者的30項(xiàng)不同規(guī)模的日常室內(nèi)活動(dòng)。
NTU RGB+D[117]數(shù)據(jù)集創(chuàng)建于2016年,由3臺(tái)Kinect V2攝像機(jī)拍攝,包含56 880個(gè)視頻樣本,并分為60個(gè)行為。每個(gè)樣本都包含RGB視頻、深度圖序列、3D骨架和紅外視頻。
Kinetics-Skeleton[111]數(shù)據(jù)集利用Openpose的姿態(tài)評(píng)估算法獲取了Kinetics-400 中視頻的所有關(guān)鍵骨骼節(jié)點(diǎn),創(chuàng)建了Kinetics-Skeleton。該數(shù)據(jù)集包含近30 萬(wàn)個(gè)視頻數(shù),分為400個(gè)行為類。
SYSU[118]是一個(gè)由40 個(gè)參與者執(zhí)行的人-物交互數(shù)據(jù)集,共包含480個(gè)視頻數(shù),分為12項(xiàng)不同的活動(dòng),其中每個(gè)參與者操作6個(gè)不同物品(電話、椅子、袋子、錢包、拖把和掃帚)中的一個(gè)。每個(gè)視頻剪輯都包含RGB 數(shù)據(jù)、深度序列和骨架數(shù)據(jù)。
UW-IOM[119]數(shù)據(jù)集使用Xbox One的Kinect傳感器以平均每秒12 幀的速度錄制。該數(shù)據(jù)集由18~25 歲的20 名參與者完成錄制,每個(gè)視頻的持續(xù)時(shí)間約為3 分鐘,共有17個(gè)行為類別。
NTU RGB+D 120[120]數(shù)據(jù)集在NTU RGB+D 的基礎(chǔ)上增加了60個(gè)類別和57 600個(gè)額外的視頻樣本。數(shù)據(jù)類型和攝像機(jī)與NTU RGB+D相同。數(shù)據(jù)集包括82個(gè)日?;顒?dòng),12個(gè)與健康有關(guān)的活動(dòng),以及26個(gè)交互活動(dòng),共120個(gè)行為類別。
HiEve[121]數(shù)據(jù)集側(cè)重對(duì)各種人群和復(fù)雜事件進(jìn)行分析,包含9 個(gè)不同的場(chǎng)景。該數(shù)據(jù)集共32 個(gè)視頻序列,分為14個(gè)類別,大多超過(guò)900幀,總長(zhǎng)度33分18秒。
評(píng)價(jià)指標(biāo)可以衡量模型的性能,反映模型當(dāng)前存在的問(wèn)題,也是衡量模型泛化能力的數(shù)值評(píng)價(jià)標(biāo)準(zhǔn)。
(1)準(zhǔn)確率
準(zhǔn)確率是一種常用的評(píng)價(jià)指標(biāo),它的計(jì)算方法為正確分類的樣本數(shù)除以所有樣本數(shù)的總和,即:
其中,m為樣本數(shù),f(xi)為預(yù)測(cè)類別,yi是真實(shí)類別。當(dāng)它的值越大,模型表現(xiàn)越好。錯(cuò)誤率與準(zhǔn)確率相反,描述了分類器誤分類的比例,計(jì)算方法為:
(2)平均精度
平均精度(mean average precision,mAP)是目標(biāo)檢測(cè)任務(wù)中常用的算法評(píng)估標(biāo)準(zhǔn),它綜合考慮了精確率(precision)和召回率(recall)兩個(gè)指標(biāo)。精確率衡量了模型在預(yù)測(cè)為正類的樣本中的準(zhǔn)確性,即模型預(yù)測(cè)為正類的樣本有多少是真正的正類。召回率衡量了模型對(duì)正類樣本的覆蓋程度,即模型能夠正確檢測(cè)到多少正類樣本。mAP通過(guò)計(jì)算不同置信度閾值下的精確率和召回率,并計(jì)算其曲線下的面積來(lái)量化算法的性能。其具體計(jì)算公式為:
其中,TP 表示模型正確預(yù)測(cè)為正類的樣本數(shù),F(xiàn)P 表示模型錯(cuò)誤預(yù)測(cè)為正類的樣本數(shù),F(xiàn)N 表示模型錯(cuò)誤預(yù)測(cè)為負(fù)類的樣本數(shù)。
根據(jù)不同置信度下的精確率和召回率繪制精確率-召回率曲線(PR 曲線),對(duì)于每個(gè)類別,計(jì)算PR 曲線下的面積(area under curve,AUC)作為該類別的平均精確率(average precision,AP)。最后對(duì)所有類別的AP進(jìn)行求平均,得到mAP。其計(jì)算公式如下:
其中,n為類別數(shù)。
基于RGB 數(shù)據(jù)模態(tài)的算法評(píng)估中,使用最廣泛的兩個(gè)數(shù)據(jù)集是HMDB51和UCF101。目前,雖然已經(jīng)開(kāi)發(fā)了數(shù)據(jù)量更大的新數(shù)據(jù)集,但是UCF101的數(shù)據(jù)類別豐富、背景復(fù)雜、相機(jī)運(yùn)動(dòng)幅度較大,十分具有挑戰(zhàn)性。同時(shí),表5統(tǒng)計(jì)了部分基于RGB數(shù)據(jù)的深度學(xué)習(xí)算法在不同數(shù)據(jù)集下的精確率對(duì)比。由表可知,深度學(xué)習(xí)中由于各種網(wǎng)絡(luò)架構(gòu)差異性較大,在HMDB51數(shù)據(jù)集上,各模型準(zhǔn)確率介于41.3%~81.2%,在UCF101 數(shù)據(jù)集上各模型準(zhǔn)確率介于62.9%~97.6%。
表5 部分基于RGB數(shù)據(jù)的深度學(xué)習(xí)算法性能對(duì)比Table 5 Performance comparison of some deep learning algorithms based on RGB data
基于骨骼模態(tài)的算法評(píng)估中,NTU RGB+D和NTU RGB+D 120 為最常用的評(píng)估數(shù)據(jù)集,前者根據(jù)設(shè)置不同劃分為X-Sub和X-View 兩類數(shù)據(jù)集;后者根據(jù)設(shè)置不同劃分為X-Sub和X-Set兩類數(shù)據(jù)集。表6統(tǒng)計(jì)了部分基于骨骼數(shù)據(jù)的深度學(xué)習(xí)算法在不同數(shù)據(jù)集下的精確率對(duì)比。總體而言,NTU RGB+D中X-View數(shù)據(jù)集較為簡(jiǎn)單,各模型準(zhǔn)確率在76.7%~97.1%。而Kinetics數(shù)據(jù)集分類較多,挑戰(zhàn)性極大,現(xiàn)有模型的準(zhǔn)確率在30.7%~47.7%。
表6 部分基于骨骼數(shù)據(jù)的深度學(xué)習(xí)算法性能對(duì)比Table 6 Performance comparison of some deep learning algorithms based on skeleton data
盡管人體行為識(shí)別研究已經(jīng)取得很大的進(jìn)展,但還面臨眾多挑戰(zhàn)。
RGB 數(shù)據(jù)的獲取相對(duì)容易且成本較低,但基于RGB 數(shù)據(jù)模態(tài)的行為識(shí)別會(huì)受到周圍環(huán)境的影響,如相機(jī)的運(yùn)動(dòng)、光照、動(dòng)態(tài)背景等。對(duì)于數(shù)據(jù)集本身而言,其存在分布不均勻、規(guī)模較小等現(xiàn)象,這使深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練學(xué)習(xí)更加具有挑戰(zhàn)性。
骨骼數(shù)據(jù)在采集過(guò)程中依賴于深度相機(jī)及傳感器等硬件設(shè)備的發(fā)展,還會(huì)受到復(fù)雜環(huán)境等因素影響,這些都影響了骨骼數(shù)據(jù)獲取的準(zhǔn)確性。在實(shí)際的應(yīng)用場(chǎng)景,往往需要將RGB 數(shù)據(jù)和骨骼數(shù)據(jù)進(jìn)行多模態(tài)數(shù)據(jù)融合處理。然而,不同數(shù)據(jù)模態(tài)一般具有不同的時(shí)間及空間分辨率,可能導(dǎo)致融合過(guò)程存在矛盾并出現(xiàn)數(shù)據(jù)不一致的情況,這會(huì)增加多模態(tài)數(shù)據(jù)處理的成本。
此外,由于大部分骨骼數(shù)據(jù)集給出的關(guān)節(jié)點(diǎn)比較宏觀,來(lái)自身體關(guān)節(jié)尺度的特征對(duì)于準(zhǔn)確識(shí)別細(xì)微動(dòng)作來(lái)說(shuō)不夠充分。因此,在不丟失全局特征的情況下增強(qiáng)局部特征的提取是必不可少的。
綜合基于RGB和基于骨骼的人體行為識(shí)別研究現(xiàn)狀及存在問(wèn)題,提出如下幾點(diǎn)展望。
(1)數(shù)據(jù)集的進(jìn)一步開(kāi)發(fā)
對(duì)于深度學(xué)習(xí)來(lái)說(shuō),數(shù)據(jù)與模型開(kāi)發(fā)同等重要。然而受到現(xiàn)實(shí)環(huán)境及數(shù)據(jù)集規(guī)模等因素影響,仍然很難推廣到現(xiàn)實(shí)場(chǎng)景中。此外,還存在地區(qū)限制和隱私問(wèn)題,如YouTube數(shù)據(jù)集管理器通常只發(fā)布ID或視頻鏈接供用戶下載,而不是實(shí)際的視頻。這些挑戰(zhàn)促進(jìn)了新的數(shù)據(jù)集的開(kāi)發(fā)。
(2)數(shù)據(jù)增強(qiáng)
深度神經(jīng)網(wǎng)絡(luò)出色的表現(xiàn)力嚴(yán)重依賴于數(shù)據(jù)集的豐富多樣性。在行為識(shí)別領(lǐng)域的標(biāo)準(zhǔn)數(shù)據(jù)增強(qiáng)技術(shù)包括水平翻轉(zhuǎn)、裁剪子片段或者拼接視頻[122-124]。然而,生成的視頻不太真實(shí)。Zhang 等[125]進(jìn)一步使用GAN 合成新樣本,并使用“self-paced selection”進(jìn)行訓(xùn)練。Gowda等[126]提出Learn2Augment,它選擇前景和背景視頻的視頻合成作為數(shù)據(jù)增強(qiáng)過(guò)程,可以產(chǎn)生多樣化和真實(shí)的新樣本,是一種解決有限數(shù)據(jù)問(wèn)題的數(shù)據(jù)空間方案。
(3)模型改進(jìn)
目前無(wú)論是基于RGB還是基于骨骼的行為識(shí)別方法,都依賴于深度架構(gòu)的不斷改進(jìn)。模型改進(jìn)大概分為以下兩方面:
長(zhǎng)時(shí)間依賴建模。長(zhǎng)時(shí)間相關(guān)性表征了在長(zhǎng)序列中發(fā)生的動(dòng)作的順序,這與大腦的存儲(chǔ)相似。也就是說(shuō)相鄰的時(shí)間特征之間存在極強(qiáng)的相關(guān)性,在空間建模的同時(shí)也要注重時(shí)間維度的建模。
高效建模?,F(xiàn)有的大多方法面臨參數(shù)量巨大、無(wú)法達(dá)到實(shí)時(shí)性和模型復(fù)雜等挑戰(zhàn),因此開(kāi)發(fā)一個(gè)高效的網(wǎng)絡(luò)架構(gòu)是十分必要的??梢越梃b圖像分類中提出高效的方法,例如模型壓縮、模型量化、模型修剪、分布式訓(xùn)練[127-128]、移動(dòng)網(wǎng)絡(luò)[129-130]、混合精度訓(xùn)練等。
(4)多模態(tài)融合
多模態(tài)數(shù)據(jù)提供了比單模態(tài)數(shù)據(jù)更豐富的信息。多模態(tài)視頻理解主要分為兩類:一種是使用多模態(tài)信息如場(chǎng)景、對(duì)象、運(yùn)動(dòng)和音頻來(lái)豐富視頻表示[131-132];另一種方法是設(shè)計(jì)一種可利用多模態(tài)信息作為預(yù)訓(xùn)練模型監(jiān)督信號(hào)的模型[133-135]。但目前大多數(shù)方法將不同模態(tài)的數(shù)據(jù)融合為單獨(dú)的通道,然后在分類階段將它們組合起來(lái),而沒(méi)有充分利用它們的互補(bǔ)特性。有效地并行集成深度網(wǎng)絡(luò)對(duì)不同模態(tài)的特性將是一個(gè)有潛力的研究領(lǐng)域。同時(shí),多模態(tài)信息的使用也有助于減少單模態(tài)數(shù)據(jù)的噪聲。因此,未來(lái)的研究方向可以集中于整合多模態(tài)信息,并結(jié)合周邊環(huán)境的語(yǔ)境信息。不同的行為分類方法采用不同的融合方案,因此在未來(lái)的研究中,研究人員可以比較這些融合方案,以找到最佳的融合策略。
(5)行為預(yù)測(cè)
行為預(yù)測(cè)任務(wù)大致可分為兩類:短期預(yù)測(cè)和長(zhǎng)期預(yù)測(cè)。短期預(yù)測(cè)側(cè)重于通常持續(xù)數(shù)秒的短時(shí)間動(dòng)作視頻,該任務(wù)的目標(biāo)是根據(jù)時(shí)間上不完整的動(dòng)作視頻推斷動(dòng)作標(biāo)簽。長(zhǎng)期預(yù)測(cè)是根據(jù)當(dāng)前觀察到的人類行為推斷出未來(lái)的行為,它旨在為動(dòng)作過(guò)渡建模,因此專注于持續(xù)數(shù)分鐘的長(zhǎng)時(shí)間視頻。這一研究仍有尚未探究的方向,例如,時(shí)間范圍的可解釋性、如何建模長(zhǎng)時(shí)間相關(guān)性,以及如何利用多模態(tài)數(shù)據(jù)來(lái)豐富預(yù)測(cè)模型。
首先,系統(tǒng)地歸納和總結(jié)了基于RGB 和基于骨骼的人體行為識(shí)別的方法,并對(duì)各種方法的優(yōu)缺點(diǎn)進(jìn)行了相關(guān)的分析和討論。此外,還介紹了現(xiàn)有的流行的人體行為數(shù)據(jù)集,包括RGB數(shù)據(jù)集和骨骼數(shù)據(jù)集。最后,分析了人體行為識(shí)別領(lǐng)域這一任務(wù)目前面臨的問(wèn)題與挑戰(zhàn),闡述了行為識(shí)別領(lǐng)域的前景和研究方向。