摘 "要: 人體動作輪廓在視頻中的呈現(xiàn)具有多樣性和連續(xù)性。人體動作不僅涉及到時間上的變化,還包括空間上的位置關(guān)系,受其姿勢、速度、方向等影響。人體動作時空信息之間的關(guān)聯(lián)難以充分捕捉,導致動作輪廓識別精度較低。為此,引入時空圖卷積網(wǎng)絡(STGCN)算法,提出一種視頻圖像人體動作輪廓動態(tài)識別方法。文中采用OpenPose模型從視頻圖像中提取描述關(guān)節(jié)點位置的置信圖和描述人體關(guān)節(jié)間連接情況的二維矢量場,構(gòu)建人體動作骨架圖。結(jié)合視頻幀時間序列組建人體動作骨架時空圖,將其作為STGCN模型的輸入,通過時空圖卷積操作充分捕捉人體動作的時空特征后,采用Softmax層獲取動態(tài)識別到的視頻圖像人體動作輪廓;并在STGCN模型中引入兩種注意力模塊,強化網(wǎng)絡特征提取能力,提高動作輪廓識別精度。實驗結(jié)果表明,所提方法可以有效實現(xiàn)視頻圖像人體動作輪廓的動態(tài)識別,引入的兩種注意力模塊對STGCN模型進行改進,可提升其動作輪廓識別效果。
關(guān)鍵詞: 時空圖卷積網(wǎng)絡算法; 視頻圖像; 人體動作輪廓; 動態(tài)識別; 注意力機制; 骨架圖; 人體關(guān)節(jié)點
中圖分類號: TN919.8?34; TP391 " " " " " " " " " 文獻標識碼: A " " " " " " " " " "文章編號: 1004?373X(2024)18?0144?05
STGCN algorithm based dynamic recognition of human motion contour in video image
ZHANG Zong, SHI Lin
(Changzhou University, Changzhou 213164, China)
Abstract: The presentation of human motion contour in video has diversity and continuity. Human motion not only involve changes in time, but also include position relations in space. Due to the influence of posture, speed, direction, etc., the correlation between spatio?temporal information of human motion is difficult to fully capture, resulting in low accuracy of the recognition of motion contour. Therefore, the spatio?temporal graph convolutional network (STGCN) algorithm is introduced, and a method of dynamic recognition for human motion contour in video image is proposed. The OpenPose model is used to extract the confidence graph describing the position of the joint points and the two?dimensional vector field describing the connection between human joints from the video image to build the human motion skeleton graph. In combination with video frame time series, the spatio?temporal graph of human motion skeleton is constructed, which is used as the input of STGCN model. After the spatio?temporal features of human motion are fully captured by the convolution operation of the spatio?temporal graph, the dynamic human motion contours in video images are obtained by means of Softmax layer. Two kinds of attention modules are introduced into STGCN model to strengthen the ability of extracting network feature and improve the accuracy of recognizing motion contour. The experimental results show that the proposed method can effectively realize the dynamic recognition of human motion contour in video images. Two attention modules are introduced to improve the STGCN model, which can improve the recognition effect of human motion contour.
Keywords: spatio?temporal graph convolutional network algorithm; video image; human motion contour; dynamic recognition; attention mechanism; skeleton graph; human joint point
0 "引 "言
在視頻中人體的動作是連續(xù)和多樣的,即連續(xù)動作中包含多種不同的動作類型,并且這些動作之間常常是連貫的。例如,一個人在跑步的過程中會有各種姿勢和速度的變化,同時還受到方向等因素的影響。這種多樣性和連續(xù)性使得準確捕捉人體動作的時空信息變得尤為困難[1?2]。其次,人體動作不僅涉及到時間上的變化,還涉及到空間上的位置關(guān)系。人體在視頻中的位置、姿勢、速度和方向等因素都會對動作輪廓造成影響[3]。因此,研究人體動作輪廓識別方法具有重要意義。
付惠琛等人提出改進的YOLOv7算法完成健身動作識別[4],在YOLOv7的基礎上通過添加分類功能、引入卷積注意力機制、采用HorNet網(wǎng)絡結(jié)構(gòu)等,來提升人體動作識別效果;但是針對視頻圖像而言,人體動作識別通常涉及對連續(xù)幀中人體姿態(tài)和動作的識別,該方法沒有充分考慮到幀間的時間連續(xù)性,在處理快速變化或復雜動作的視頻圖像時會存在應用效果較差的問題。文獻[5]利用雙特征雙運動網(wǎng)絡(DD?Net)來識別人體動作識別,通過DD?Net的基礎網(wǎng)絡提取人體骨架數(shù)據(jù)的動作特征,并通過新增的分支捕獲更全面的動作特征,實現(xiàn)對不同人體動作的準確分類和識別。如果動作與全局軌跡的關(guān)聯(lián)較弱,DD?Net將難以準確區(qū)分這些動作。文獻[6]通過基于Transformer的骨架自注意力子網(wǎng)絡提取人體骨架數(shù)據(jù)中的運動協(xié)同空間特征,利用基于CNN的深度自注意力子網(wǎng)絡處理深度數(shù)據(jù),以捕捉人體的三維形狀和運動信息。結(jié)合自注意力機制強化關(guān)鍵信息后,通過分類器實現(xiàn)對多模態(tài)人體行為的準確識別。該方法結(jié)合了兩種子網(wǎng)絡,計算復雜度相對較高。張雪蓮等人通過隨機裁剪骨架數(shù)據(jù)邊的方式構(gòu)建多尺度骨架圖,并將其作為圖對比自監(jiān)督網(wǎng)絡輸入,完成人體動作識別,但該方法的構(gòu)建方式對數(shù)據(jù)的質(zhì)量和預處理要求更高,對于噪聲、遮擋等干擾因素更為敏感,影響最終的動作識別效果[7]。
為了更好地從視頻圖像中識別到人體動作輪廓,本文提出一種基于STGCN算法的視頻圖像人體動作輪廓動態(tài)識別方法。時空圖卷積網(wǎng)絡(Spatio?Temporal Graph Convolutional Network, STGCN)可以從時、空特征兩個角度描述人體動作[8],進一步提高視頻圖像人體動作識別的準確性和實時性,為相關(guān)領(lǐng)域的應用提供有力的技術(shù)支持。
1 "視頻圖像人體動作輪廓動態(tài)識別
考慮人體動作輪廓的時空特性,將人體動作視頻圖像作為OpenPose模型的輸入,采用典型卷積神經(jīng)網(wǎng)絡結(jié)構(gòu)的VGG網(wǎng)絡來提取視頻圖像中的人體動作特征,獲取關(guān)節(jié)點位置以及連接邊界,形成人體骨架圖;依據(jù)視頻幀間的時序關(guān)系生成人體骨架時空圖;將骨架時空圖作為STGCN模型的輸入,通過時空圖卷積操作后,經(jīng)分類器完成對人體動作輪廓的動態(tài)識別。在STGCN模型中引入注意力機制進行改進,提升對骨架時空圖的時間空間特征提取效果,以及人體動態(tài)輪廓動態(tài)識別效果。視頻圖像人體動作輪廓動態(tài)識別過程如圖1所示。
1.1 "基于OpenPose的人體骨架圖
OpenPose模型以人體動作視頻圖像為輸入,通過由下至上的關(guān)節(jié)點檢測,輸出全部人體動作關(guān)節(jié)點檢測結(jié)果。首先,在VGG網(wǎng)絡前10層,通過建立人體動作視頻圖像特征的映射[F],從中提取人體動作特征圖。其次,將獲取的特征圖輸入至多階卷積神經(jīng)網(wǎng)絡[9?10],通過兩個分支分別輸出關(guān)節(jié)點位置預測結(jié)果的二維置信圖(PCM),用集合[S=(S1,S2,…,Sn)]表示,以及人體關(guān)節(jié)間部分親和力場預測結(jié)果的二維矢量場(PAFs),用集合[L=(L1,L2,…,Ln)]表示,公式為:
[St=ρt(F,St-1,Lt-1), "?t≥2Lt=?t(F,St-1,Lt-1), "?t≥2] (1)
式中:[St]、[Lt]為階段t的PCM、PAFs;[ρt](·)、[?t](·)分別用于描述PCM、PAFs對應的預測網(wǎng)絡。
OpenPose模型可以將多個階段進行串聯(lián),通過對串聯(lián)形成的多個階段的卷積神經(jīng)網(wǎng)絡的反復預測,使得獲取的PCM、PAFs結(jié)果更精準[11]。通過結(jié)合描述關(guān)節(jié)點位置的PCM與描述人體關(guān)節(jié)間連接關(guān)系的PAFs,形成視頻圖像中人體動作骨架圖,用[G(S,L)]表示。
1.2 "人體骨架時空圖
由于人體動作視頻圖像存在多個幀,為此將其存在的時間序列定義為[T=1,2,…,M],結(jié)合描述人體動作空間狀態(tài)的人體動作骨架圖[G(S,L)],得到對應的人體動作骨架時空圖[GST=Gtt∈[1,2,…,M]],其中,[Gt]用于描述時間序列[t]對應的人體動作骨架圖。[GST]中包含了人體動作視頻圖像中的時間和空間信息,空間信息展現(xiàn)在骨架圖中,時間信息展現(xiàn)在不同時刻視頻幀的時間序列中,將M個視頻幀在M個連續(xù)時間上的人體動作骨架圖視為人體動作骨架時空圖[12]。人體動作骨架時空圖如圖2所示。
1.3 "改進STGCN網(wǎng)絡結(jié)構(gòu)
將人體動作時空骨架圖作為改進STGCN模型的輸入,通過時空特征的提取,識別到人體動作輪廓。STGCN網(wǎng)絡結(jié)構(gòu)包含9個由空間和時間圖卷積模塊組成的基本單元。1.2節(jié)構(gòu)建的人體動作骨架時空圖經(jīng)BN(批標準化)層歸一化處理后作為基本單元的輸入數(shù)據(jù),經(jīng)基本單元執(zhí)行時空圖卷積操作,基本單元的輸出通過池化層固定特征向量后,經(jīng)Softmax分類器作用,輸出人體動作輪廓動態(tài)識別結(jié)果。
為優(yōu)化網(wǎng)絡的動作輪廓識別效果,同時在空間圖卷積模塊和時空圖卷積模塊之間引入通道注意力模塊,使空間圖卷積層獲取可以更好描述人體動作的空間特征[13]。改進STGCN網(wǎng)絡結(jié)構(gòu)如圖3所示。
圖注意力模塊的加入可使網(wǎng)絡獲取更好的空間特征,精準地描述視頻圖像中的人體動作。使用兩個卷積層將輸入特征圖[f]映射為向量[R]、[Q]。
[R=WR·fQ=WQ·f] " " " " " " " "(2)
式中:[WR]、[WQ]分別用于描述兩個卷積層的權(quán)值向量。用向量[R]、[Q]在同一時間步的內(nèi)積描述特征圖關(guān)節(jié)點之間的相關(guān)性,表達式為:
[h=R,Q] " " " " " " "(3)
經(jīng)歸一化處理后得到相關(guān)度的內(nèi)積歸一化結(jié)果[α]:
[α=exph?St] " " " " " " " (4)
利用歸一化結(jié)果獲取不同人體動作骨架時空圖樣本,通過學習精準表達隨機兩個人體關(guān)節(jié)點的權(quán)值,更有利于實現(xiàn)人體動作輪廓識別。
通道注意力模塊的加入有助于STGCN網(wǎng)絡獲取更好的人體動作特征表示,其主要遵循壓縮和激勵兩個步驟,從空間圖卷積模塊獲取的空間特征中學習到更重要的特征。壓縮步驟依據(jù)全局池化層實現(xiàn),經(jīng)全連接層進行特征降維處理后,依據(jù)ReLU激活函數(shù)個性化學習特征通道中的非線性關(guān)系表示。再次通過全連接層進行特征升維操作,在Sigmoid激活函數(shù)作用下將獲取的權(quán)值與輸入特征圖相乘。通過此過程實現(xiàn)特征權(quán)重的重新匹配,最大程度處理無用特征,強化有用特征的表達能力。通過更有效的特征提取,使得網(wǎng)絡可以更精準地實現(xiàn)人體動作輪廓的動態(tài)識別。
2 "實驗分析
實驗選取NTU RGB+D數(shù)據(jù)集以及UCF101數(shù)據(jù)集作為數(shù)據(jù)集。該NTU RGB+D數(shù)據(jù)集中包含60多種類別的人體動作視頻片段樣本,共56 880個,動作種類多、應用范圍廣泛;UCF101數(shù)據(jù)集中的動作類別為85個,視頻片段總數(shù)約為13 000個,且大多數(shù)為現(xiàn)實環(huán)境的視頻片段,其中包含不同光照、遮擋的運動現(xiàn)象。將這兩個數(shù)據(jù)集共同作為實驗數(shù)據(jù)集合,可以最大程度滿足本文方法的識別需求。
將數(shù)據(jù)集按照7∶3的比例劃分為訓練集和測試集。應用訓練集中的視頻圖像對本文提出的改進STGAN模型進行訓練,訓練時為避免視頻幀參數(shù)的不同而影響后續(xù)訓練識別效果,轉(zhuǎn)換所有視頻幀的分辨率為340×256,并設置訓練批次、學習參數(shù)、迭代次數(shù)分別為8、0.001、50 000次。模型訓練完畢后,隨機選取體育動作、街舞動作兩種類型視頻圖像進行測試,如圖4所示。
在動作輪廓識別過程中應用本文方法。利用OpenPose模型構(gòu)建人體動作骨架圖,用于組建人體動作骨架時空圖進行人體動作輪廓識別。各幀視頻圖像的人體動作估計圖如圖5所示。
由圖5可以看出,本文方法可以精準獲取各個視頻幀的動作骨架圖,完成不同類型動作視頻圖像中人體動作姿態(tài)的描述。組合不同視頻幀,獲取兩種動作類型視頻圖像的骨架時空圖,將其輸入至改進STGCN網(wǎng)絡中進行動作輪廓識別,得到的識別結(jié)果見表1。
通過圖4、圖5以及表1的一系列實驗結(jié)果可看出,本文方法可以識別出兩種類型視頻圖像中的人體動作輪廓,判斷視頻中的人體動作類型。該方法具備動作輪廓識別有效性。
為了驗證改進STGCN網(wǎng)絡結(jié)構(gòu)對于動作輪廓識別的性能影響,選取Top?1和Top?5作為評價指標,在兩個數(shù)據(jù)集(NTU RGB+D、UCF101)中進行實驗,分別利用圖卷積神經(jīng)網(wǎng)絡(Graph Convolutional Network, GCN)、STGCN以及改進STGCN網(wǎng)絡結(jié)構(gòu)進行如下實驗,驗證改進STGCN網(wǎng)絡模型的應用優(yōu)勢。
Top表示模型在給定的測試數(shù)據(jù)集上正確分類動作輪廓的視頻圖像所占的比例。其中,Top?5準確率能夠反映出模型在面對類別不平衡問題時,選擇正確類別的能力;而Top?1準確率則更加關(guān)注模型對于單個樣本的預測準確性。對于每張測試圖像,模型會輸出一個概率分布,表示該圖像屬于各個類別的概率。Top?1、Top?5分別是指模型預測概率排序第一、前五對應的類別與實際標簽相符的比例。實驗結(jié)果如表2所示。
分析表2數(shù)據(jù)可以得到,針對兩種數(shù)據(jù)集進行的實驗顯示,應用STGCN模型進行動作輪廓識別的Top?1和Top?5數(shù)值上升較為明顯,且同時引入圖注意力和通道注意力的識別效果更好。原因在于,兩種注意力的引入提升了人體動作骨架特征圖時空特征的提取效果和識別精度。
3 "結(jié) "論
本文在STGCN模型的基礎上引入了兩種注意力機制進行改進,利用改進后的模型可以更加準確地識別出視頻圖像中的人體動作輪廓。未來研究將致力于進一步優(yōu)化和改進現(xiàn)有模型,提升動作輪廓識別的精度和效率。通過引入更先進的注意力機制、設計更高效的網(wǎng)絡結(jié)構(gòu)以及利用多模態(tài)信息融合等方法,可以進一步提高模型的識別能力和魯棒性。
參考文獻
[1] 解宇,楊瑞玲,劉公緒,等.基于動態(tài)拓撲圖的人體骨架動作識別算法[J].計算機科學,2022,49(2):62?68.
[2] 趙登閣,智敏.用于人體動作識別的多尺度時空圖卷積算法[J].計算機科學與探索,2023,17(3):719?732.
[3] 孫琪翔,何寧,張聰聰,等.基于輕量級圖卷積的人體骨架動作識別方法[J].計算機工程,2022,48(5):306?313.
[4] 付惠琛,高軍偉,車魯陽.健身行為的人體姿態(tài)估計及動作識別[J].液晶與顯示,2024,39(2):217?227.
[5] NGUYEN T, PHAM D T, VU H, et al. A robust and efficient method for skeleton?based human action recognition and its application for cross?dataset evaluation [J]. IET computer vision, 2022, 16(8): 709?726.
[6] ZHONG Z K, HOU Z J, LIANG J Z, et al. Multimodal cooperative self?attention network for action recognition [J]. IET image processing, 2023, 17(6): 1775?1783.
[7] 張雪蓮,徐增敏,陳家昆,等.基于跨尺度圖對比學習的人體骨架動作識別方法[J].燕山大學學報,2023,47(2):164?174.
[8] 楊世強,李卓,王金華,等.基于新分區(qū)策略的ST?GCN人體動作識別[J].計算機集成制造系統(tǒng),2023,29(12):4040?4050.
[9] 毛國君,王一錦.融合內(nèi)外依賴的人體骨架動作識別模型[J].計算機工程與應用,2023,59(21):132?140.
[10] 馬璿,張會慶.基于BEMD?MTS算法的肢體動作輪廓智能捕捉方法[J].計算機仿真,2023,40(10):224?227.
[11] 劉今越,李慧宇,賈曉輝,等.基于人體模型約束的步態(tài)動態(tài)識別方法[J].計算機應用,2023,43(3):972?977.
[12] 閆文杰,尹藝穎.基于3D骨架相似性的自適應移位圖卷積神經(jīng)網(wǎng)絡人體行為識別算法[J].計算機科學,2024,51(4):236?242.
[13] 呂夢柯,郭佳樂,丁英強,等.分段時間注意力時空圖卷積網(wǎng)絡的動作識別[J].小型微型計算機系統(tǒng),2024,45(1):62?68.