摘 要:近年來許多行為識別研究將人體骨架建模為拓?fù)鋱D,并利用圖卷積網(wǎng)絡(luò)提取動作特征。然而,拓?fù)鋱D在訓(xùn)練過程中固有的共享和靜態(tài)特征限制了模型的性能。為解決該問題,提出基于自適應(yīng)空間圖卷積和時(shí)空Transformer的人體行為識別方法—ASGC-STT。首先,提出了一種非共享圖拓?fù)涞淖赃m應(yīng)空間圖卷積網(wǎng)絡(luò),該圖拓?fù)湓诓煌W(wǎng)絡(luò)層中是唯一的,可以提取更多樣化的特征,同時(shí)使用多尺度時(shí)間卷積來捕獲高級時(shí)域特征。其次,引入了一種時(shí)空Transformer模塊,能夠準(zhǔn)確捕捉遠(yuǎn)距離的幀內(nèi)和幀間任意關(guān)節(jié)之間的相關(guān)性,建模包含局部和全局關(guān)節(jié)關(guān)系的動作表示。最后,設(shè)計(jì)了一種多尺度殘差聚合模塊,通過分層殘差結(jié)構(gòu)設(shè)計(jì)來有效擴(kuò)大感受野范圍,捕獲空間和時(shí)間域的多尺度依賴關(guān)系。ASGC-STT在大規(guī)模數(shù)據(jù)集NTU-RGB+D 60上的準(zhǔn)確率為92.7% (X-Sub)和96.9% (X-View),在NTU-RGB+D 120上的準(zhǔn)確率為88.2% (X-Sub)和89.5% (X-Set),在Kinetics Skeleton 400上的準(zhǔn)確率為38.6% (top-1)和61.4% (top-5)。實(shí)驗(yàn)結(jié)果表明,ASGC-STT在人體行為識別任務(wù)中具有優(yōu)越的性能和通用性。
關(guān)鍵詞:人體行為識別;時(shí)空特征;圖卷積網(wǎng)絡(luò);多尺度建模
中圖分類號:TP37"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號:1001-3695(2025)04-037-1239-09
doi:10.19734/j.issn.1001-3695.2024.07.0255
ASGC-STT: adaptive spatial graph convolution and spatio-temporal Transformer for action recognition
Zhuang Tianming, Qin Zhen, Geng Ji, Zhang Hanwen
(Network amp; Data Security Key Laboratory of Sichuan Province, University of Electronic Science amp; Technology of China, Chengdu 610054, China)
Abstract:Many recent action recognition studies have modeled the human skeleton as a topology graph and used graph convolution network to extract action features. However, the inherent shared and static features of the topology graph during training limit the performance of the model. To address this issue, this paper proposed an adaptive spatial graph convolution and spatio-temporal Transformer (ASGC-STT) method for human action recognition. Firstly, it proposed an adaptive spatial graph convolution with non-shared graph topology, where the graph topology was unique in different network layers, enabling the extraction of more diverse features. Additionally, it used multi-scale temporal convolutions to capture high-level temporal features. Se-condly, it introduced a spatial-temporal Transformer module, which accurately captured the correlations between arbitrary joints within and between frames, modeling action representations that included local and global joint relationships. Finally, it designed a multi-scale residual aggregation module, which employed a hierarchical residual structure to effectively expand the receptive field, capturing multi-scale dependencies in both spatial and temporal domains. ASGC-STT achieved an accuracy of 92.7% (X-Sub) and 96.9% (X-View) on the large-scale dataset NTU-RGB+D 60, 88.2% (X-Sub) and 89.5% (X-Set) on NTU-RGB+D 120, and 38.6% (top-1) and 61.4% (top-5) on Kinetics Skeleton 400. Experimental results demonstrate that ASGC-STT offers superior performance and generalization in human action re-cognition tasks.
Key words:human action recognition; spatial-temporal representation; graph neural network; multi-scale modeling
0 引言
動作識別是計(jì)算機(jī)視覺和模式識別領(lǐng)域內(nèi)的跨學(xué)科研究方向,近年來引起了廣泛關(guān)注[1,2]。人類的動作行為存在于大量的圖像和視頻中,并包含了豐富的語義信息。近年來,行為識別已廣泛應(yīng)用于自適應(yīng)識別[3,4]、人機(jī)交互[5,6]、計(jì)算行為科學(xué)[7, 8]等,在工業(yè)界和學(xué)術(shù)界具有廣泛的應(yīng)用和研究價(jià)值。目前對人類動作識別的研究主要分為基于RGB視頻的方法和基于骨架的方法?;赗GB視頻的方法需要消耗高成本的計(jì)算資源來處理RGB圖像或時(shí)間光流中的像素級信息。基于骨架的方法在計(jì)算效率上更為優(yōu)越,因?yàn)楣羌軘?shù)據(jù)通過幾十個(gè)關(guān)節(jié)的二維或三維坐標(biāo)來表示人體結(jié)構(gòu)。此外,骨架數(shù)據(jù)提供了關(guān)于人類動作的相對高層次信息,展現(xiàn)出對外觀變化和環(huán)境噪聲(例如背景干擾、光照變化)更強(qiáng)的魯棒性。因此,利用骨架數(shù)據(jù)進(jìn)行人類動作識別已經(jīng)逐漸成為研究熱點(diǎn)。
為了從人體骨架數(shù)據(jù)中提取具有區(qū)分性的空間和時(shí)間特征,研究者們致力于去學(xué)習(xí)嵌入在關(guān)節(jié)空間及其時(shí)間動態(tài)中的信息。傳統(tǒng)基于深度學(xué)習(xí)的方法使用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)來學(xué)習(xí)人體動作表示。這些方法手動構(gòu)建骨架序列,將其構(gòu)造成網(wǎng)格狀結(jié)構(gòu),如偽圖像或坐標(biāo)向量序列。由于骨架在非歐幾里德幾何空間中自然存在圖結(jié)構(gòu),這些方法未能充分探索人體關(guān)節(jié)之間的固有關(guān)系。最近,基于圖卷積網(wǎng)絡(luò)的方法解決了這些缺點(diǎn),通過構(gòu)建空間時(shí)間骨架圖,將關(guān)節(jié)作為圖節(jié)點(diǎn),將人體結(jié)構(gòu)和時(shí)間中的自然連接性作為圖邊,因此人體關(guān)節(jié)之間的空間時(shí)間關(guān)系被很好地嵌入到了骨架圖的鄰接矩陣中。
目前圖卷積網(wǎng)絡(luò)捕獲關(guān)節(jié)之間長距離依賴關(guān)系的能力較弱。具體來說,可以將這些依賴關(guān)系分為顯式依賴關(guān)系和隱式依賴關(guān)系兩類。在骨骼空間圖中,將人體的關(guān)節(jié)(如手腕和手)視為頂點(diǎn),將人體關(guān)節(jié)的自然連接視為邊。局部相鄰關(guān)節(jié)之間的邊稱為顯式依賴關(guān)系。同時(shí),在分離的關(guān)節(jié)頂點(diǎn)之間也存在著可學(xué)習(xí)的隱式依賴關(guān)系。以“喝水”為例,代表手和肘關(guān)節(jié)的運(yùn)動特征是顯著的。根據(jù)人體運(yùn)動學(xué),手的運(yùn)動是由肘部驅(qū)動的。這意味著拓?fù)浞窍噜応P(guān)節(jié)之間可能仍然存在隱式的依賴關(guān)系。為了有效捕獲這些重要的隱式依賴關(guān)系,本文設(shè)計(jì)了一種非共享圖拓?fù)涞淖赃m應(yīng)空間圖卷積,該圖拓?fù)湓诓煌W(wǎng)絡(luò)層中是唯一的,可以提取更多樣化的特征,同時(shí)使用多尺度時(shí)間卷積來捕獲高級時(shí)域特征。
在大多數(shù)現(xiàn)有基于圖卷積的方法中,由于時(shí)間卷積操作受到局部鄰域的限制,遠(yuǎn)距離幀之間的時(shí)間連接被低估。為了應(yīng)對這些缺陷,研究人員在圖卷積層后引入了注意力模塊,以進(jìn)一步在監(jiān)督方式下捕捉長距離關(guān)系。雖然通過串行地將圖卷積層與注意力模塊結(jié)合,可以提高識別準(zhǔn)確性,但每個(gè)節(jié)點(diǎn)都是獨(dú)立處理的,人體骨架被視為一個(gè)完全圖,其中每個(gè)關(guān)節(jié)與其余關(guān)節(jié)建立連接,導(dǎo)致不同動作之間的變化較少。為了解決該問題,本文設(shè)計(jì)了一種時(shí)空Transformer模塊,該模塊能夠準(zhǔn)確捕捉遠(yuǎn)距離的幀內(nèi)和幀間任意關(guān)節(jié)之間的相關(guān)性,建模包含局部和全局關(guān)節(jié)關(guān)系的動作表示。
此外,多尺度特征對于動作識別同樣重要。例如,“行走”需要全身協(xié)調(diào)以保持平衡,而“揮手”只需手部即可完成。由于不同的動作需要不同身體部位的協(xié)調(diào)來完成,設(shè)計(jì)一個(gè)多尺度特征提取器以捕捉不同范圍關(guān)節(jié)間的依賴性至關(guān)重要?!按魃涎坨R”和“摘下眼鏡”在短時(shí)間內(nèi)非常模糊,這要求算法捕捉長期時(shí)間信息并減少歧義??傊诳臻g域中捕捉短程關(guān)節(jié)依賴性和遠(yuǎn)距離關(guān)節(jié)關(guān)系,并同時(shí)考慮短時(shí)軌跡和長時(shí)信息對于基于骨架的動作識別十分必要。參考類殘差架構(gòu),本文設(shè)計(jì)了一種多尺度殘差聚合模塊,該模塊能夠同時(shí)擴(kuò)大空間域和時(shí)間域上的感受野,并通過特征流分層聚合來自相鄰節(jié)點(diǎn)和遠(yuǎn)處節(jié)點(diǎn)的節(jié)點(diǎn)相關(guān)性,有效提取多尺度的時(shí)空特征。
本文的主要貢獻(xiàn)概括如下:a)提出了一種動態(tài)拓?fù)涞目臻g圖卷積方法,使用自適應(yīng)空間圖拓?fù)浔碚魅梭w關(guān)節(jié)點(diǎn)信息,進(jìn)而提取更多樣化的特征并增強(qiáng)語義特征表示;b)提出了一種時(shí)空Transformer模塊,該模塊可以更準(zhǔn)確地捕捉遠(yuǎn)距離幀內(nèi)和幀間任意關(guān)節(jié)之間的相關(guān)性,對長時(shí)遠(yuǎn)距離的特征關(guān)系進(jìn)行有效捕獲;c)提出了一種多尺度殘差聚合模塊,該模塊通過擴(kuò)大骨架特征圖和感受野的分辨率,分層模擬節(jié)點(diǎn)間的短程相關(guān)性以及沿空間和時(shí)間維度的長程依賴性;d)在三個(gè)大規(guī)模公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,本文方法在性能方面顯著優(yōu)于其他先進(jìn)工作,證明了其有效性和優(yōu)越性。
1 相關(guān)工作
1.1 基于卷積/循環(huán)神經(jīng)網(wǎng)絡(luò)的方法
基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的方法首先對輸入的骨架數(shù)據(jù)進(jìn)行預(yù)處理,將骨架坐標(biāo)序列轉(zhuǎn)換為偽圖像作為網(wǎng)絡(luò)輸入,其中行表示同一幀里所有關(guān)鍵節(jié)點(diǎn)的坐標(biāo),列表示不同的時(shí)間幀。與普通圖像將RGB作為三通道不同,這里使用關(guān)節(jié)的三維坐標(biāo)值作為偽圖像的三通道。Li等人[9]將每一個(gè)時(shí)間步的骨架數(shù)據(jù)分為五個(gè)部分,即四肢和軀干,保證局部運(yùn)動信息不丟失的同時(shí)將矢量連接作為網(wǎng)絡(luò)輸入。同時(shí)為使網(wǎng)絡(luò)適應(yīng)骨架圖像頻率,設(shè)計(jì)了一種多尺度CNN,使其捕獲到更多的運(yùn)動線索。Cao等人[10]設(shè)計(jì)雙流雙線性的CNN,由特征流和注意流組成。前者保持傳統(tǒng)CNN卷積結(jié)構(gòu)用來提取時(shí)空特征,后者用來提取特征圖中的關(guān)鍵點(diǎn),用于提取骨架數(shù)據(jù)中的關(guān)節(jié)點(diǎn)信息,從而避免復(fù)雜骨架估計(jì)算法的使用。Pham等人[11]將骨架關(guān)節(jié)的三維坐標(biāo)轉(zhuǎn)換為RGB圖像,用顏色編碼表示運(yùn)動的時(shí)間變化。
RNN是一種專門用于處理時(shí)序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。因其網(wǎng)絡(luò)中存在循環(huán)連接,允許信息在序列的不同時(shí)間步之間傳遞,使得網(wǎng)絡(luò)在處理當(dāng)前輸入的同時(shí),能夠考慮之前已捕捉的信息,從而建模整個(gè)序列中的時(shí)間動態(tài)信息和語義特征。Das等人[12]提出一個(gè)深度時(shí)間的LSTM網(wǎng)絡(luò),通過在每個(gè)時(shí)間幀上計(jì)算損失進(jìn)而模擬運(yùn)動的時(shí)間變化。Wu等人[13]在LSTM中引入循環(huán)關(guān)系網(wǎng)絡(luò),用來學(xué)習(xí)骨架中的空間特征,再用多層LSTM學(xué)習(xí)時(shí)間動態(tài)信息。Si等人[14]提出一種新的注意力增強(qiáng)圖卷積LSTM網(wǎng)絡(luò),通過將LSTM的內(nèi)部算子替換成圖卷積,使得該方法可以同時(shí)捕獲時(shí)空域中的共現(xiàn)關(guān)系。
1.2 基于圖卷積神經(jīng)網(wǎng)絡(luò)的方法
由于骨架數(shù)據(jù)的拓?fù)浣Y(jié)構(gòu)以圖的形式編碼,而非二維網(wǎng)格或向量序列,所以以往基于卷積神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)的方法可能并非最佳選擇。近年來,圖卷積網(wǎng)絡(luò)在許多基于圖結(jié)構(gòu)數(shù)據(jù)的研究中取得了顯著成果,可分為空間圖卷積網(wǎng)絡(luò)[15,16] 和譜圖卷積網(wǎng)絡(luò)[17,18]兩類。對于譜圖卷積網(wǎng)絡(luò),輸入圖首先轉(zhuǎn)換到頻譜域,然后通過傅里葉變換進(jìn)行操作??臻g圖卷積網(wǎng)絡(luò)直接應(yīng)用于圖的節(jié)點(diǎn)及其鄰居,與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)更為相似。
時(shí)空圖卷積網(wǎng)絡(luò)(ST-GCN)[19]是建模骨架數(shù)據(jù)的開創(chuàng)性方法,打破了以往方法無法同時(shí)有效提取空間和時(shí)間特征的限制。ST-GCN將關(guān)節(jié)連接建模為時(shí)空圖,其中圖卷積操作作用于空間特征,而二維卷積操作作用于時(shí)間運(yùn)動相關(guān)性。近期,許多研究也采用了相同的策略。Li等人[20]將動作鏈接和結(jié)構(gòu)鏈接結(jié)合成一個(gè)廣義的骨架圖,并使用動作結(jié)構(gòu)圖卷積和時(shí)間卷積來學(xué)習(xí)時(shí)空特征。Li等人[21]提出了一種時(shí)空圖路由方案,以適應(yīng)性地學(xué)習(xí)物理上分離的骨架關(guān)節(jié)的高階連接關(guān)系。具體來說,空間圖路由針對基于子群聚類的基于空間關(guān)系,而時(shí)間圖路由探索時(shí)間相關(guān)性。Shi等人[22]提出了一個(gè)雙流自適應(yīng)圖卷積網(wǎng)絡(luò),使鄰接矩陣的值可變。通過自適應(yīng)策略和雙流模式,這種方法可以同時(shí)建模人體關(guān)節(jié)特征和人體骨骼特征。DGNN[23]利用交替的空間聚合方案來更新關(guān)節(jié)和骨骼特征。Liu等人[24]提出了一個(gè)解耦和統(tǒng)一的圖卷積網(wǎng)絡(luò),包括一個(gè)簡單的解耦多尺度圖卷積和G3D模塊。前者用于解耦不同鄰域中節(jié)點(diǎn)的重要性,可以建模長程關(guān)系。后者通過利用跨時(shí)空邊緣作為跳躍連接,直接在時(shí)空圖上傳播信息。
1.3 基于Transformer的方法
Transformer[25]提出用于自然語言處理任務(wù),彌補(bǔ)了RNN方法的不足。Transformer最大的貢獻(xiàn)是引入了自注意力機(jī)制,能動態(tài)地聚焦全局上下文信息。文獻(xiàn)[26]將純視覺Transformer應(yīng)用于圖像塊序列,在圖像分類任務(wù)上取得了出色的表現(xiàn)。在目標(biāo)檢測領(lǐng)域,Carion等人[27]提出了檢測Transformer,推理對象之間的關(guān)系及全局圖像上下文。Wang等人[28]提出了Max-DeepLab用于語義分割,直接預(yù)測帶有類標(biāo)簽的掩模,采用了Mask Transformer。Zhou等人[29]針對視頻理解任務(wù)提出了Masked Transformer。在基于骨骼的動作識別中,Shi等人[30]提出了純Transformer網(wǎng)絡(luò),用于建模關(guān)節(jié)之間的關(guān)聯(lián),無須傳統(tǒng)的骨骼圖表示。他們設(shè)計(jì)了解耦的時(shí)空注意力網(wǎng)絡(luò),計(jì)算每對關(guān)節(jié)之間的注意力分?jǐn)?shù),而無須知道它們的位置或相互連接。類似地,Plizzari等人[31]提出了空間和時(shí)間Transformer網(wǎng)絡(luò)??臻g自注意力模塊用于捕捉人體關(guān)節(jié)內(nèi)部幀間的相關(guān)性,而時(shí)間自注意力模塊用于建模幀間的關(guān)系。然而,這些方法普遍存在一個(gè)問題,即它們忽略了人體骨骼的固有拓?fù)浣Y(jié)構(gòu),并且會高估某些關(guān)節(jié)之間的相關(guān)性。這種方式下,某些動作中本不需要捕捉的關(guān)節(jié)間關(guān)系,也會通過注意力分?jǐn)?shù)計(jì)算被強(qiáng)行加入。例如,在“坐下”動作中,并不需要捕捉左手和右手之間的關(guān)系,這會給模型識別動作帶來困擾。
盡管上述研究已經(jīng)在人體行為識別任務(wù)上取得了顯著進(jìn)步,但仍存在一些問題和挑戰(zhàn)。一方面,這些現(xiàn)有方法通常在網(wǎng)絡(luò)層中共享骨架鄰接矩陣,這無疑限制了網(wǎng)絡(luò)對于不同動作類型中骨架拓?fù)涮卣鞯慕1硎灸芰?。另一方面,現(xiàn)有工作主要強(qiáng)調(diào)挖掘人體關(guān)節(jié)點(diǎn)之間的短程相關(guān)性。然而值得注意的是,沿著空間和時(shí)間維度的長期依賴關(guān)系在區(qū)分動作類型時(shí)也同樣非常重要,因而傳統(tǒng)方法限制了從全局角度識別動作的能力。
基于上述問題,為了有效提高圖卷積的自適應(yīng)性,本文提出了一種具有動態(tài)拓?fù)涞目臻g圖卷積方法,其在提取特征時(shí)具有更強(qiáng)的泛化能力,可有效增強(qiáng)骨架拓?fù)涞恼Z義特征表示。為了表征關(guān)節(jié)點(diǎn)長距離相關(guān)性,本文提出了一種時(shí)空Transformer模塊,以準(zhǔn)確地捕捉幀內(nèi)和幀間的任意關(guān)節(jié)之間的關(guān)系。為了進(jìn)一步擴(kuò)大特征提取過程中的感受野范圍,本文提出了一種多尺度殘差聚合模塊,其能夠通過級聯(lián)架構(gòu),同時(shí)建模相鄰節(jié)點(diǎn)和遠(yuǎn)距離節(jié)點(diǎn)之間不同尺度的依賴關(guān)系。
2.5 網(wǎng)絡(luò)整體框架
ASGC-STT網(wǎng)絡(luò)整體架構(gòu)如圖6所示。網(wǎng)絡(luò)內(nèi)部結(jié)構(gòu)遵循多尺度殘差聚合模塊結(jié)構(gòu),本文在每個(gè)流中應(yīng)用了10個(gè)多尺度殘差聚合模塊,每個(gè)模塊的輸出通道數(shù)分別為64、64、64、128、128、128、256、256和256。在框架頭部添加了數(shù)據(jù)批量歸一化層(BN層)以歸一化輸入數(shù)據(jù),在最后執(zhí)行全局平均池化,以將不同樣本的特征圖池化為相同大小。最終輸出被發(fā)送到softmax分類器以獲得預(yù)測結(jié)果。本文從人體骨骼序列中提取了四種不同的特征,分別是關(guān)節(jié)點(diǎn)坐標(biāo)特征、關(guān)節(jié)點(diǎn)運(yùn)動特征、骨骼坐標(biāo)特征以及骨骼運(yùn)動特征。相應(yīng)地,框架中存在四個(gè)輸入流。每個(gè)特性流都可以獲得一個(gè)單獨(dú)的分?jǐn)?shù)。為了提高識別精度,本文將四個(gè)獨(dú)立的輸出進(jìn)行加權(quán)集成,得到最終的預(yù)測結(jié)果。
3 實(shí)驗(yàn)
本章采用多組消融實(shí)驗(yàn)來證明ASGC-STT模型的性能和效率,并將所的模型在NTU-RGB+D 60[32]、NTU-RGB+D 120[33]和Kinetics Skeleton 400[34]三個(gè)數(shù)據(jù)集上進(jìn)行了評估,并與先進(jìn)方法進(jìn)行對比,以驗(yàn)證其有效性。
3.1 數(shù)據(jù)集
NTU-RGB+D 60包含了56 800個(gè)骨架序列,涵蓋60種不同的動作類型。該數(shù)據(jù)集中每個(gè)人體骨架由25個(gè)關(guān)節(jié)點(diǎn)組成,每個(gè)關(guān)節(jié)點(diǎn)都記錄了其三維空間坐標(biāo)。樣本中通常包含一個(gè)或兩個(gè)人物。數(shù)據(jù)集涵蓋兩種基準(zhǔn)測試方法:第一種是跨個(gè)體測試(cross-subject, X-Sub),涉及40名參與者執(zhí)行的所有動作,其中20名參與者的數(shù)據(jù)用于訓(xùn)練,剩余20名的數(shù)據(jù)用于測試;第二種是跨視角測試(cross-view, X-View),所有樣本均由三臺Kinect V2相機(jī)捕獲,其中2號和3號相機(jī)的數(shù)據(jù)用于訓(xùn)練,1號相機(jī)的數(shù)據(jù)用于測試。
NTU-RGB+D 120數(shù)據(jù)集是NTU-RGB+D 60的擴(kuò)展版,總共包含113 945個(gè)樣本,覆蓋120種動作類別。這些樣本由106名不同的參與者執(zhí)行,并通過三臺相機(jī)從不同視角捕獲。數(shù)據(jù)集提供了32種不同的場景設(shè)置,每種設(shè)置代表一個(gè)獨(dú)特的場景和背景。數(shù)據(jù)集涵蓋兩種基準(zhǔn)測試方法:第一種是跨個(gè)體測試(X-Sub),將樣本根據(jù)參與者分組,一半用于訓(xùn)練,另一半用于測試;第二種是跨設(shè)置測試(cross-setting, X-Set),使用偶數(shù)編號的場景設(shè)置捕獲的樣本進(jìn)行訓(xùn)練,奇數(shù)編號的用于測試。
Kinetics Skeleton 400 數(shù)據(jù)集是通過 Openpose 姿態(tài)估計(jì)工具包從 Kinetics 400 視頻中派生出來的。該數(shù)據(jù)集包含大約240 000個(gè)訓(xùn)練片段和20 000個(gè)測試片段,分布在400 個(gè)類別中,每個(gè)類別都包含代表人體骨骼的18個(gè)節(jié)點(diǎn)。
3.2 實(shí)驗(yàn)設(shè)置
各實(shí)驗(yàn)設(shè)置如表1所示。所有實(shí)驗(yàn)均在PyTorch框架上開展,使用了1個(gè)Tesla A100 GPU進(jìn)行CUDA運(yùn)算。優(yōu)化算法采用了具有0.9動量的隨機(jī)梯度下降法,并以交叉熵作為損失函數(shù)。訓(xùn)練周期設(shè)定為50,初始學(xué)習(xí)率設(shè)為0.1,并在第20和40周期時(shí)將學(xué)習(xí)率降低為1/10。
3.3 消融實(shí)驗(yàn)
本文消融實(shí)驗(yàn)采用四種設(shè)置:a)J-stream,使用關(guān)節(jié)流坐標(biāo)信息實(shí)驗(yàn);b)B-stream,使用骨骼流坐標(biāo)信息實(shí)驗(yàn);c)JM-stream,使用關(guān)節(jié)流運(yùn)動信息實(shí)驗(yàn);d)BM-stream,使用骨骼流運(yùn)動信息實(shí)驗(yàn)。為驗(yàn)證所提模塊的有效性,本文在NTU RGB+D 60、NTU RGB+D 120、Kinetics Skeleton 400三個(gè)數(shù)據(jù)集上進(jìn)行了消融對比實(shí)驗(yàn)。
為了探索不同特征信息流作為網(wǎng)絡(luò)輸入時(shí)ASGC-STT網(wǎng)絡(luò)識別性能存在的差異,本文利用四種特征屬性排列組合得到的9種不同信息輸入分別進(jìn)行識別效果測試。表2所示的實(shí)驗(yàn)結(jié)果給出了ASGC-STT網(wǎng)絡(luò)在NTU RGB+D 60和NTU RGB+D 120等測試基準(zhǔn)上分別使用不同信息輸入流時(shí)的識別效果對比,從中可知,當(dāng)網(wǎng)絡(luò)輸入為雙流特征信息時(shí),模型均取得了相比于單流特征輸入J-stream、B-stream更好的識別效果,而當(dāng)模型輸入包含全部特征屬性信息時(shí),則取得了最好的識別性能,由此證明了結(jié)合多流特征信息輸入模型可以彌補(bǔ)單一特征信息模型識別不穩(wěn)定的缺陷,從多方面完善改進(jìn)行為序列的建模分類。
在表3中,為了驗(yàn)證所提出的動態(tài)拓?fù)鋱D卷積網(wǎng)絡(luò)的必要性,本文在整體網(wǎng)絡(luò)框架中對其進(jìn)行移除。從本文可以觀察到,通過移去所提出的模塊,骨骼序列的每個(gè)輸入特征流的性能都有所下降。具體來說,在沒有動態(tài)拓?fù)鋱D卷積網(wǎng)絡(luò)的情況下,本文算法在NTU RGB+D 60和NTU RGB+D 120數(shù)據(jù)集上的精度分別下降了0.6~0.9百分點(diǎn)、0.6~1.0百分點(diǎn)。由此可見,動態(tài)拓?fù)鋱D卷積網(wǎng)絡(luò)能夠提取更豐富的骨架圖拓?fù)涮卣?,增?qiáng)語義特征表示。同時(shí),本文針對多尺度時(shí)間卷積也進(jìn)行了相同的消融方式??梢钥吹?,在NTU RGB+D 60、NTU RGB+D 120、Kinetics Skeleton 400上刪去多尺度時(shí)間卷積導(dǎo)致了準(zhǔn)確率性能分別下降0.5~0.8百分點(diǎn)、0.4~0.7百分點(diǎn)、0.5~1.1百分點(diǎn)。該結(jié)果說明了其可有效挖掘時(shí)間維度上的多尺度特征,提升網(wǎng)絡(luò)對于不同人體行為的刻畫表征能力。
在表4中,本文驗(yàn)證了所提時(shí)空Transformer模塊的有效性。具體來說,在網(wǎng)絡(luò)的整體框架中去除其設(shè)計(jì)。由表可見,應(yīng)用時(shí)空Transformer模塊可以持續(xù)獲得更高的性能,在NTU RGB+D 60、NTU RGB+D 120、Kinetics Skeleton 400上分別提升0.6~1.2百分點(diǎn)、0.7~1.1百分點(diǎn)、0.7~1.5百分點(diǎn)。由此說明,所提時(shí)空Transformer模塊可以更準(zhǔn)確地捕捉長時(shí)幀內(nèi)和幀間任意關(guān)節(jié)之間的相關(guān)性,對遠(yuǎn)距離的特征關(guān)系進(jìn)行有效建模,提升識別準(zhǔn)確率。此外,本文針對時(shí)空Transformer模塊中多頭注意力的Mh取值展開實(shí)驗(yàn),基于關(guān)節(jié)點(diǎn)坐標(biāo)信息輸入,分別將其設(shè)定為4、8、12、16、20,結(jié)果如表5所示。可以看到,當(dāng)Mh為12時(shí),準(zhǔn)確率達(dá)到最高值,其余的設(shè)定均會帶來不同程度的性能下降,因此驗(yàn)證了所選定數(shù)值是最優(yōu)的。
如前所述,多尺度殘差聚合模塊旨在擴(kuò)大接受域,并分層處理跨幀的長時(shí)依賴關(guān)系。為了研究所提多尺度殘差聚合模塊在識別任務(wù)中的有效性,本文將其架構(gòu)替換為原始塊來進(jìn)行消融研究,實(shí)驗(yàn)結(jié)果如表6所示??梢钥吹?,通過應(yīng)用多尺度殘差聚合模塊,可以提高每個(gè)輸入流的識別性能。具體來說,NTU RGB+D 60的準(zhǔn)確率分別提高了0.9~1.4百分點(diǎn),而NTU RGB+D 120的準(zhǔn)確率分別提高了1.0~1.4百分點(diǎn)。此外,本文還針對多尺度殘差聚合模塊中的門控機(jī)制進(jìn)行消融實(shí)驗(yàn),通過在不同輸入流中刪去該設(shè)計(jì),并進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果如表6所示。可以看到,移除門控機(jī)制會造成不同程度的性能下降。具體來說,在NTU RGB+D 60、NTU RGB+D 120、Kinetics 400上,門控機(jī)制在不同特征流中的移除導(dǎo)致了0.5~0.9百分點(diǎn)、0.5~0.9百分點(diǎn)、0.5~1.0百分點(diǎn)的準(zhǔn)確率下降。因此可說明,所提門控機(jī)制在特證聚合過程中可以有效篩選最具代表性的信息、抑制不重要的信息,減少不必要的計(jì)算開銷,提升網(wǎng)絡(luò)性能和效率。
3.4 計(jì)算復(fù)雜度
為了檢驗(yàn)所提ASGC-STT網(wǎng)絡(luò)的效率,本文從參數(shù)量、總浮點(diǎn)數(shù)、單個(gè)樣本運(yùn)行時(shí)間等多個(gè)維度將其與基于圖卷積神經(jīng)網(wǎng)絡(luò)的基線方法進(jìn)行對比,其結(jié)果如表7所示。從表中可以看出,混合網(wǎng)絡(luò)相對于基線方法,在總浮點(diǎn)數(shù)、單個(gè)樣本運(yùn)行時(shí)間和單個(gè)樣本運(yùn)行時(shí)間方面,都處于較低水平,體現(xiàn)了本文方法在運(yùn)行效率、計(jì)算復(fù)雜度上的優(yōu)勢。
3.5 可視化
為了驗(yàn)證人體各關(guān)節(jié)特征如何影響最終分類性能,本文在圖7中可視化了ASGC-STT網(wǎng)絡(luò)框架最后一層的輸出特征圖,從左到右的動作類型依次是“刷牙”“單腳跳躍”以及“踢球”,其中每個(gè)關(guān)節(jié)周圍的圓圈表示該關(guān)節(jié)的特征響應(yīng)大小,關(guān)節(jié)點(diǎn)之間的連線代表其相關(guān)性程度。如圖7所示,本文方法能夠?qū)W⒂谂c動作最相關(guān)的人體關(guān)節(jié)部分。具體來說,在“刷牙”動作中,手臂部位有較大的響應(yīng)分布,其他部位幾乎沒有響應(yīng)。而在“單腳跳躍”和“踢球”動作中,軀干部分響應(yīng)較多。因此,本文方法可以基于身體協(xié)調(diào)情況,更好地關(guān)注到重要節(jié)點(diǎn)特征,有效提高模型的魯棒性,減少噪聲節(jié)點(diǎn)的干擾。
3.6 與其他工作的對比
圖8完整展示了MST-GCN和ASGC-STT在四種動作類型上的混淆矩陣。在機(jī)器學(xué)習(xí)領(lǐng)域,混淆矩陣是一種特定的矩陣,用來呈現(xiàn)算法性能的可視化效果。其每一列代表預(yù)測值,每一行代表實(shí)際類別。實(shí)驗(yàn)的測試集共有927條數(shù)據(jù),其中“下蹲”230條,“取貨”269條,“寫字”204條,“閱讀”224條。可以看到,在MST-GCN的預(yù)測結(jié)果中,有4條“取貨”的數(shù)據(jù)被誤識別成了“下蹲”,有22條“寫字”的數(shù)據(jù)被誤識別成了“閱讀”,有34條“閱讀”的數(shù)據(jù)被誤識別成了“寫字”,對于易混淆動作的區(qū)分能力不足。相比而言,本文ASGC-STT可以有效降低混淆動作的錯(cuò)誤識別率,大大減少誤分類的樣本數(shù)量。
表8列出了ASGC-STT與其他模型的識別準(zhǔn)確率對比。比較的方法包括基于CNN、基于RNN和基于GCN的方法??梢杂^察到,ASGC-STT在不同數(shù)據(jù)集下都取得了顯著的性能。在NTU RGB+D 60數(shù)據(jù)集上,與2s-AGCN相比,識別精度在CS設(shè)置下高出4.2百分點(diǎn),在CV設(shè)置下高出1.8百分點(diǎn)。在NTU RGB+D 120上,與Shift-GCN相比,兩種設(shè)置下的性能分別提高了2.9和2.9百分點(diǎn)。在Kinetics Skeleton 400上,本文方法比基線MST-GCN有顯著改善,top-1和top-5提升0.5和0.6百分點(diǎn)??傮w來看,本文所提ASGC-STT取得了先進(jìn)的結(jié)果,準(zhǔn)確率明顯高于傳統(tǒng)方法,較近兩年的領(lǐng)域工作也有優(yōu)勢,證明了所提方法的優(yōu)越性。
4 結(jié)束語
本文提出了一種新穎的基于骨架的動作識別模型ASGC-STT,解決了傳統(tǒng)拓?fù)鋱D在訓(xùn)練過程中固有的共享和靜態(tài)特征限制問題。通過設(shè)計(jì)非共享圖拓?fù)涞淖赃m應(yīng)空間圖卷積網(wǎng)絡(luò),使得不同網(wǎng)絡(luò)層中的圖拓?fù)涫俏ㄒ坏模瑥亩崛〕龈S富的特征。為了提升對遠(yuǎn)距離時(shí)空相關(guān)性的建模能力,本文提出了時(shí)空Transformer模塊,可以精確捕捉幀內(nèi)和幀間任意關(guān)節(jié)之間的相關(guān)性,構(gòu)建包含局部和全局關(guān)節(jié)關(guān)系的動作表示。這一模塊突破了傳統(tǒng)GCN局部算子的限制,顯著增強(qiáng)了模型對長時(shí)依賴關(guān)系的建模能力。此外,本文提出了多尺度殘差聚合模塊,通過分層殘差結(jié)構(gòu)擴(kuò)大了感受野范圍,能夠高效捕獲空間和時(shí)間域的多尺度依賴關(guān)系。在三個(gè)大型數(shù)據(jù)集NTU RGB+D 6、NTU RGB+D 120和Kinetics-Skeleton 400上的實(shí)驗(yàn)結(jié)果表明,ASGC-STT達(dá)到了先進(jìn)的性能,有效提升了模型在復(fù)雜動作特征上的識別準(zhǔn)確率,驗(yàn)證了其通用性和有效性。
參考文獻(xiàn):
[1]梁緒, 李文新, 張航寧. 人體行為識別方法研究綜述 [J]. 計(jì)算機(jī)應(yīng)用研究, 2022, 39(3): 651-660. (Liang Xu, Li Wenxin, Zhang Hangning. Review of research on human action recognition methods [J]. Application Research of Computers, 2022, 39 (3): 651-660.)
[2]賈志超, 張海超, 張闖, 等. 基于全局頻域池化的行為識別算法 [J]. 計(jì)算機(jī)應(yīng)用研究, 2024, 41 (9):2867-2873. (Jia Zhichao, Zhang Haichao, Zhang Chuang, et al. Action recognition algorithm based on global frequency domain pooling [J]. Application Research of Computers, 2024, 41 (9): 2867-2873.)
[3]Venkata S K, Nirmala D L. View invariant spatio-temporal descriptor for action recognition from skeleton sequences[J]. IEEE Trans on Artificial Intelligence, 2022, 4 (6): 1-14.
[4]Zhang Xiaoyu, Li Changsheng, Shi Haichao. AdapNet: adaptability decomposing encoder-decoder network for weakly supervised action recognition and localization[J]. IEEE Trans on Neural Networks and Learning Systems, 2023, 34 (4): 1852-1863.
[5]Park J, Kim J. Online incremental classification resonance network and its application to human-robot interaction[J]. IEEE Trans on Neural Networks and Learning Systems, 2020, 31 (5): 1426-1436.
[6]Cai Minjie, Lu Feng, Gao Yue. Desktop action recognition from firstperson point-of-view[J]. IEEE Trans on Cybernetics, 2019, 49 (5): 1616-1628.
[7]Thangali A, Nash J P, Sclaroff S, et al. Exploiting phonological constraints for handshape inference in ASL video[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2011: 521-528.
[8]Rehg J, Abowd G, Rozga A, et al." Decoding children’s social behavior[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2013: 3414-3421.
[9]Li Bo, Dai Yuchao, Cheng Xuelian, et al. Skeleton based action re-cognition using translation-scale invariant image mapping and multi-scale deep CNN [C]// Proc of IEEE International Conference on Multimedia amp; Expo Workshops. Piscataway, NJ: IEEE Press, 2017: 601-604.
[10]Cao Congqi, Zhang Yifan, Zhang Chunjie, et al. Body joint guided 3-D deep convolutional descriptors for action recognition [J]. IEEE Trans on Cybernetics, 2017, 48 (3): 1095-1108.
[11]Pham H, Khoudour L, Crouzil A, et al. Learning to recognise 3D human action from a new skeleto-based representation using deep convolutional neural networks [J]. IET Computer Vision, 2019, 13 (3): 319-328.
[12]Das S, Koperski M, Bremond F, et al. Deep-temporal LSTM for daily living action recognition [C]// Proc of the 15th IEEE International Conference on Advanced Video and Signal Based Surveillance. Piscataway, NJ: IEEE Press, 2018: 1-6.
[13]Wu Zheng, Li Lin, Zhang Zhaoxiang, et al. Relational network for skeleton-based action recognition [C]// Proc of IEEE International Conference on Multimedia and Expo. Piscataway, NJ: IEEE Press, 2019: 826-831.
[14]Si Chenyang, Chen Wentao, Wang Wei, et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition [C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2019: 1227-1236.
[15]Niepert M, Ahmed M, Kutzkov K. Learning convolutional neural networks for graphs[C]//Proc of International Conference on Machine Learning. 2016: 2014-2023.
[16]Zhu Jiagang, Zou Wei, Zhu Zheng. Convolutional relation network for skeleton-based action recognition[J]. Neurocomputing, 2019, 370: 109-117.
[17]Defferrard M, Bresson X, and Vandergheynst P. Convolutional neural networks on graphs with fast localized spectral filtering[C]// Advances in Neural Information Processing Systems. 2016: 3837-3845.
[18]Wang C, Samari B, and Siddiqi K. Local spectral graph convolution for point set feature learning[C]// Proc of European Conference on Computer Vision. Berlin: Springer, 2018: 52-66.
[19]Yan Sijie, Xiong Yuanjun, Lin Dahua. Spatial temporal graph convolutional networks for skeleton-based action recognition[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2018: 7444-7452.
[20]Li Maosen, Chen Siheng, Chen Xu, et al." Actional-structural graph convolutional networks for skeleton-based action recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2019: 3595-3603.
[21]Li Bin, Li Xi, Zhang Zhongfei. Spatio-temporal graph routing for skeleton-based action recognition[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2019: 8561-8568.
[22]Shi Lei, Zhang Yifan, Cheng Jian, et al. Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2019: 12026-12035.
[23]Shi Lei, Zhang Yifan, Cheng Jian, et al. Skeleton-based action re-cognition with directed graph neural networks[C]// Proc of" IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2019: 7912-7921.
[24]Liu Ziyu, Zhang Hongwen, Chen Zhenghao, et al. Disentangling and unifying graph convolutions for skeleton-based action recognition[C]// Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 143-152.
[25]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]// Advance in Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017: 6000-6010.
[26]Dosovitskiy A, Beyer L, Kolesnikov A, et al. An image is worth 16×16 words: Transformers for image recognition at scale[C]// Proc of International Conference on Learning Representations. 2020.
[27]Carion N, Massa F, Synnaeve G, et al. End-to-end object detection with transformers[C]//Proc of European Conference on Computer Vision. Berlin: Springer, 2020: 213-229.
[28]Wang Huiyu, Zhu Yukun, Hartwig Adam, et al. Max-DeepLab: end-to-end panoptic segmentation with mask transformers[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 5463-5474.
[29]Zhou Luowei, Zhou Yingbo, Jason JC, et al. End-to-end dense video captioning with masked transformer[C]//Proc of IEEE/CVF Confe-rence on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 8739-8748.
[30]Shi Lei, Zhang Yifan, Cheng Jian, et al. Decoupled spatial-temporal attention network for skeleton-based action recognition[C]//Proc of Asian conference on computer vision. Berlin: Springer, 2020: 38-53.
[31]Plizzari C, Cannici M, Matteucci M. Skeleton-based action recognition via spatial and temporal transformer networks[C]//Proc of Computer Vision and Image Understanding. 2021: 103219.
[32]Shahroudy A, Liu Jun, Ng T T, et al. NTU RGB+D: a large scale dataset for 3D human activity analysis[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 1010-1019.
[33]Liu Jun, Shahroudy A, Perez M, et al. NTU RGB+D 120: a large-scale benchmark for 3D human activity understanding[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2020, 42 (10): 2684-2701.
[34]Mohamed A G,Yousef A H, Zayed H H, et al. Arabic sarcasm detection: an enhanced fine-tuned language model approach[J]. Ain Shams Engineering Journal, 2024, 15(6): 102736.
[35]Yoon Y, Yu J, Jeon M. Predictively encoded graph convolutional network for noise-robust skeleton-based action recognition[J]. Applied Intelligence, 2022,52: 2317-2331.
[36]Chen Zhan, Li Sicheng, Yang Bing, et al. Multi-scale spatial temporal graph convolutional network for skeleton-based action recognition[C]// Proc of" AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 1113-1122.
[37]Cheng Ke, Zhang Yifan, He Xiangyu, et al. Skeleton-based action recognition with shift graph convolutional network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 183-192.
[38]Shi Lei, Zhang Yifan, Cheng Jian, et al. AdaSGN: adapting joint number and model size for efficient skeleton-based action recognition[C]// Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 13413-13422.
[39]Xu Kailin, Ye Fanfan, Zhong Qiaoyong, et al. Topology-aware con-volutional neural network for efficient skeleton-based action recognition[C]// Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022, 36: 2866-2874.
[40]Dai Meng, Sun Zhonghua, Wang Tianyi, et al. Global spatio-temporal synergistic topology learning for skeleton-based action recognition[J]. Pattern Recognition, 2023, 140: 109540.
[41]Tian Haoyu, Zhang Yipeng, Wu Hanbo, et al. Multi-scale sampling attention graph convolutional networks for skeleton-based action recognition[J]. Neurocomputing, 2024, 597: 128086.