摘 要:動作識別是計算機視覺領(lǐng)域中的前沿探索,得益于圖卷積網(wǎng)絡(luò)(GCN)處理非歐幾里德數(shù)據(jù)的優(yōu)勢,該方法已成為從骨架數(shù)據(jù)中提取特征的主流方法。針對目前GCN忽視跨序列信息、對運動軌跡相似度高的模糊樣本難以區(qū)分等問題,提出一種結(jié)合對比學(xué)習(xí)的圖拓撲對比細化方法(graph topology contrast refinement block,GTCR-Block)。首先,根據(jù)模型的識別情況,將樣本劃分為可信樣本和模糊樣本;其次,建立樣本級記憶庫(sample-level memory bank,Bsam)和全局級記憶庫(global-level memory bank,Bglo),存儲跨批次圖拓撲,使用對比學(xué)習(xí)方法使圖拓撲具有類內(nèi)聚合、類間分散的特性,將模糊樣本在特征空間中分隔開。最后,采用多層次的策略學(xué)習(xí)更多的判別特征表示。實驗結(jié)果表明,在不增加額外參數(shù)的情況下,在NTU RGB+D數(shù)據(jù)集達到了X-Sub基準(zhǔn)93.3%和X-View基準(zhǔn)97.4%的準(zhǔn)確率,在 NTU RGB+D 120數(shù)據(jù)集達到了X-Sub基準(zhǔn)89.4%和X-set基準(zhǔn)91.2%的準(zhǔn)確率。采用GTCR-Block能夠有效提升動作識別的效果。
關(guān)鍵詞:動作識別;圖卷積網(wǎng)絡(luò);對比學(xué)習(xí);多層次;拓撲細化
中圖分類號:TP391 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)02-043-0630-06
doi:10.19734/j.issn.1001-3695.2024.04.0167
Action recognition based on multi-level graph topology comparison and refinement
Tang Yuan,Wei Wei’,Zheng Cheng,Li Chen,Jiang Haowen
(College of Soft Engineering,Chengdu University of Information Technology,Chengdu 610225,China)
Abstract:Action recognition represents a cutting-edge exploration in the field of computer vision.Leveraging the advantages of the graph convolutional network (GCN) in handling non-Euclidean data,this method has become a mainstream approach for extracting features from skeleton data.Addressing the current issues where GCN overlooks cross-sequence information and struggles to distinguish samples with high trajectory similarity,this paper proposed a GTCR-Block combined with contrastive learning.Firstly,based on the model’s recognition results,it categorized samples into reliable samples and ambiguous samples.Secondly,it established a sample-level memory bank and a global-level memory bank to store cross-batch graph topologies.Using contrastive learning,it ensured the graph topologies exhibited intra-class aggregation and inter-class dispersion cha-racteristics,effectively separating ambiguous samples in the feature space.Lastly,it employed multi-level strategies to learn more discriminative feature representations.Experimental results demonstrate that without adding extra parameters,this approach achieves an accuracy of 93.3% on the X-Sub benchmark and 97.4% on the X-View benchmark of the NTU RGB+D dataset.For the NTU RGB+D 120 dataset,it achieves an accuracy of 89.4% on the X-Sub benchmark and 91.2% on the X-set benchmark.The adoption of the GTCR-Block significantly enhances action recognition performance.
Key words:action recognition;graph convolutional network;contrastive learning;multi-level;topology refinement
0 引言
人體動作識別是計算機視覺領(lǐng)域的研究熱點,在健身運動、公共安全、醫(yī)療監(jiān)護、人機交互等領(lǐng)域都具有廣泛的應(yīng)用。近年來,因低成本深度相機和優(yōu)秀的姿態(tài)估計算法相繼涌現(xiàn),較精準(zhǔn)的骨架模態(tài)數(shù)據(jù)集也隨之出現(xiàn),與深度、RGB、光流等模態(tài)相比,骨架模態(tài)不受復(fù)雜的背景信息影響,且信息密度高、計算量小,更具有表達能力,但同時因只有人體骨架而缺少背景中的相關(guān)物體,在模糊樣本中分類效果不佳。
傳統(tǒng)的骨架動作識別通常使用手工特征對人體進行建模,需要大量手動調(diào)參以適應(yīng)特定的數(shù)據(jù)集,消耗人力大、特征提取能力和泛化能力差,難以充分利用時間和空間特征。近年來隨著硬件資源的不斷發(fā)展,深度學(xué)習(xí)自動從視頻中提取特征的方式也展現(xiàn)出了比傳統(tǒng)方法更強大的能力,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[1]、卷積神經(jīng)網(wǎng)絡(luò)(CNN)[2]和圖卷積網(wǎng)絡(luò)(GCN)被廣泛應(yīng)用到動作識別中。其中RNN將關(guān)節(jié)坐標(biāo)表示為向量序列后進行建模,CNN則將關(guān)節(jié)坐標(biāo)通過人工設(shè)計的規(guī)則表示為偽圖像,然而這兩種方法都不能完全表示骨架數(shù)據(jù)的結(jié)構(gòu)。骨架數(shù)據(jù)是一種非歐幾里德數(shù)據(jù),并非矢量序列或二維網(wǎng)格,使用GCN提取這類數(shù)據(jù)的特征比RNN和CNN更有優(yōu)勢。Yan等人[3]首次將圖卷積網(wǎng)絡(luò)應(yīng)用于骨架動作識別,提出時空圖卷積網(wǎng)絡(luò)(ST-GCN),利用人體關(guān)節(jié)之間的自然連接關(guān)系進行動作建模,但所有通道共享同一圖拓撲,難以充分提取多種不同動作的特征。Shi 等人[4]為了解決上述問題,提出雙流自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò)(2s-AGCN),學(xué)習(xí)了一個非固定的關(guān)系圖拓撲,提高了圖拓撲的表達能力,但同一樣本的所有通道仍然共享同一圖拓撲。Chen等人[5]則提出通道拓撲細化圖卷積網(wǎng)絡(luò)(CTR-GCN),通過同時學(xué)習(xí)一個共享的拓撲特征和通道特定相關(guān)性的方法,獲得不同的拓撲結(jié)構(gòu),并有效地聚合不同通道中的聯(lián)合特征,得到逐通道的拓撲結(jié)構(gòu)。上述研究方法都針對圖拓撲進行了細化,最終在CTR-GCN上達到了逐通道的拓撲結(jié)構(gòu),在序列內(nèi)學(xué)到了豐富的聚合特征,但這種特征仍然是局部的,CTR-GCN對運動軌跡相似度高的模糊樣本仍難以區(qū)分。對于“戴上眼鏡”和“摘下眼鏡”,可以通過時間序列信息加以區(qū)分,但對于如“自拍”和“指向某物”、“玩平板電腦”和“在鍵盤上鍵入”這類動作則需要更豐富的空間信息。因此本文提出一種圖拓撲對比細化方法,擴大異類樣本之間的距離,拉近同類樣本的距離,提升GCN的模糊樣本分類能力。
1 相關(guān)工作
1.1 基于圖卷積的動作識別
近年來,圖卷積網(wǎng)絡(luò)廣泛應(yīng)用于動作識別中,Yan等人[3]提出時空圖卷積網(wǎng)絡(luò)(ST-GCN),利用人體關(guān)節(jié)之間的自然連接關(guān)系進行動作建模,分別從時間維度和空間維度提取時間軌跡特征和空間結(jié)構(gòu)特征,顯著提高了動作識別的準(zhǔn)確率,也為后續(xù)研究工作提供了思路。Shi 等人[4]提出雙流自適應(yīng)圖卷積神經(jīng)網(wǎng)絡(luò)(2s-AGCN),引入一個可學(xué)習(xí)的非固定圖拓撲,與原來的固定圖拓撲相結(jié)合,提高了圖拓撲的靈活性,并將一階關(guān)節(jié)信息和二階骨骼信息融合。Cheng 等人[6]認為傳統(tǒng)的圖卷積計算成本過于龐大,并且在空間和時間感知野上都是固定的,還需要預(yù)先人工設(shè)置,于是提出移位圖卷積網(wǎng)絡(luò)(Shift-GCN),目的是利用一種新的卷積算子Shift卷積和1×1卷積算子結(jié)合,使得1×1卷積可以同時融合空間域和通道域的信息,同時大幅度減少計算量和參數(shù)量,并在此基礎(chǔ)上進一步引入了空間架構(gòu)搜索技術(shù),巧妙地融合了顯式空間編碼信息,構(gòu)建了全新的Shift-GCN++模型。Liu等人[7]提出多尺度和統(tǒng)一的時空模型(MS-G3D),多尺度有效解決了有偏權(quán)重問題,跨時空模型通過對視頻幀的選擇將不同時空域連接起來,并使用空洞卷積有效增大了感受野。Cheng等人[8]受CNN解耦聚合機制的啟發(fā),提出解耦圖卷積網(wǎng)絡(luò)(DC-GCN),考慮到解耦圖卷積會引入冗余的圖拓撲,將通道分為g組,組中的通道共享一個可訓(xùn)練的圖拓撲,同時提出了一種注意力引導(dǎo)的DropGraph來丟棄相關(guān)節(jié)點中的特征以解決GCN中普遍存在的過擬合問題。Chen等人[5]提出CTR-GCN,同時學(xué)習(xí)兩個特征:一個共享的拓撲特征和通道特定的相關(guān)性。共享拓撲特征就是鄰接矩陣,充當(dāng)所有通道的先驗,并提供頂點之間的一般關(guān)系,針對每個通道的特定通道相關(guān)性對其進行細化,得到了通道級的拓撲結(jié)構(gòu)。然而,圖拓撲雖然在不斷細化,GCN的特征表達能力也得到了加強,但目前仍缺乏對跨序列的全局視野的利用。
1.2 對比學(xué)習(xí)
對比學(xué)習(xí)已經(jīng)在多個研究領(lǐng)域取得了顯著的進展,其核心思想是通過比較樣本對之間的相似性來學(xué)習(xí)表示,算法被訓(xùn)練以最大化同類樣本之間的相似度,并最小化異類之間的相似度。對比學(xué)習(xí)通常需要利用數(shù)據(jù)增強生成一組圖像的轉(zhuǎn)換版本,然后訓(xùn)練網(wǎng)絡(luò)以區(qū)分圖像。
Lin等人[9]提出了一種依賴于動作的對比學(xué)習(xí)方法,以區(qū)分的方式構(gòu)建運動區(qū)域和靜態(tài)區(qū)域之間的特征表示,更好地進行動作建模。Thoker等人[10]提出了骨架間對比學(xué)習(xí),以交叉對比的方式從多個不同的輸入骨架表示中學(xué)習(xí),提出幾種特定于骨架的空間和時間增強,進一步學(xué)習(xí)骨架數(shù)據(jù)的時空動力學(xué)。Peng等人[11]提出了在不使用標(biāo)記測試集的情況下評估經(jīng)過訓(xùn)練的機器學(xué)習(xí)模型,消除了循環(huán)中涉及訓(xùn)練集的問題,其核心思想建立在理論分析的基礎(chǔ)上,該理論分析將模型性能與對比損失聯(lián)系起來。Rao等人[12]提出了一種基于Transformer的通用骨架圖原型對比學(xué)習(xí)(TranSG)方法,該方法具有結(jié)構(gòu)軌跡提示重建,以充分捕獲骨架圖中的骨架關(guān)系和有價值的時空語義,用于人員重新識別。但是,這些方法通常設(shè)計具有原始身體關(guān)節(jié)的骨架描述符或進行骨架序列表示學(xué)習(xí),很少將身體關(guān)節(jié)的細粒度表示和全局層面結(jié)合起來探索有用的語義。
2 網(wǎng)絡(luò)結(jié)構(gòu)
2.1 整體結(jié)構(gòu)
本文提出的GTCR-Block是一個即插即用的模塊,可用于ST-GCN 、2s-AGCN 、CTR-GCN等圖卷積網(wǎng)絡(luò),現(xiàn)以CTR-GCN為例。
CTR-GCN是骨架動作識別中經(jīng)典的圖卷積網(wǎng)絡(luò),于2021年提出,遵循ST-GCN的大框架,分為空間維度和時間維度,其中空間維度使用的方法為通道拓撲細化圖卷積(channel-wise topology refinement graph convolution,CTR-GC),其輸入可以表示為X∈?3×T×N,其中,3表示關(guān)節(jié)點的三維坐標(biāo),T表示幀數(shù),N是每幀中關(guān)節(jié)點的個數(shù),關(guān)節(jié)點可以表示為V={V1,V2,…,VN}。CTR-GC分為三個部分,即將輸入轉(zhuǎn)換為高級特征表示的特征轉(zhuǎn)換模塊、針對每個通道的特定通道相關(guān)性對圖拓撲進行細化的通道拓撲建模模塊、將得到的高維特征通過愛因斯坦求和約定聚合起來的通道聚合模塊,如圖1所示。
時間維度基本沿用MS-G3D[7]的方法,區(qū)別在于使用了較少的分支,因為過多的分支會降低推理速度。一系列時態(tài)卷積網(wǎng)絡(luò)(TCN)和圖卷積網(wǎng)絡(luò)(GCN)構(gòu)成一個基本單元,稱為TGN,具體來說,TCN 通過在時間維度上施加一維 CNN 來提取時間特征;GCN則通過CTR-GC學(xué)習(xí)逐通道的拓撲圖來提取空間特征。它們通過降低時間維度、增加通道維度來生成多尺度特征,如圖2所示。
CTR-GCN由 10 個基本單元TGN組成,然后使用池化層獲得一維高級特征向量,最后使用全連接層將特征映射到K個候選類別的概率分布中。其中第一層、第五層、第八層TGN進行了空間通道維度的變換。本文便將GTCR-Block模塊施加在CTR-GCN方法的TGN之間,對圖拓撲進行逐通道的對比學(xué)習(xí)細化,增強模型的特征提取能力。GTCR-Block僅在訓(xùn)練時調(diào)用,測試時不會使用,因此,測試不會增加任何參數(shù)。模型的整體框架如圖3所示。在不改變backbone的情況下,分別在第一層、第五層、第八層、第十層添加GTCR-Block模塊。第一層、第五層、第八層是backbone中特征維度變換的地方,添加GTCR-Block對模型增強的特征提取能力進行更進一步的優(yōu)化;第十層是backbone的最后一層,決定了模型提取的最終特征,因此添加GTCR-Block模塊。
2.2 GTCR-Block模塊
GTCR-Block主要思路是提高基于骨架的模型在模糊樣本上的分類能力,因為這些動作非常相似,很容易被錯誤分類。圖拓撲對圖卷積的特征提取能力起著至關(guān)重要的作用,它指出了每類動作關(guān)節(jié)間的連接強度,決定著關(guān)節(jié)間的信息傳遞。
以往的許多研究都是在對圖拓撲進行優(yōu)化,例如在最早提出的 ST-GCN[3]中,后續(xù)的2s-AGCN[4]中,g∈?K×N×N,在CTR-GCN[5]中,g∈?KS×C′×N×N。其中g(shù)表示圖拓撲集合;N表示圖拓撲的長和寬,即骨架數(shù)據(jù)中關(guān)節(jié)點的個數(shù);KS表示子圖的個數(shù),通常設(shè)置為3;C′表示特征的維度。由此可見,在CTR-GCN已經(jīng)可以細化學(xué)習(xí)到每一個通道的圖拓撲,這使得圖卷積的拓撲信息表征能力得到提升,但這種表征能力仍然是局部的,只能在序列內(nèi)學(xué)到豐富的聚合特征?;诖?,本文提出一種即插即用的模塊,用于優(yōu)化backbone中圖拓撲的跨序列學(xué)習(xí)能力,稱為圖拓撲對比細化方法(GTCR-Block)。
如圖4所示,backbone輸出的圖拓撲為g∈?KS×C′×N×N,首先通過平均池化層沿著通道維度將圖拓撲壓縮為g∈?KS×N×N,然后扁平化為一維向量g∈?KSN2,并通過g(·)投影為V∈?Cg,最后使用對比學(xué)習(xí)方法通過兩個記憶庫計算損失函數(shù),從而細化圖拓撲,學(xué)習(xí)跨序列信息。
2.2.1 樣本分類
1)可信樣本 對于GCN能正確分類的樣本,就將其視為真陽性樣本(TP),即可信樣本。來自可信樣本的圖拓撲往往具有更好的類內(nèi)一致性,收集每一個類別的可信樣本的圖拓撲,并計算全局圖拓撲,這些全局圖拓撲可以作為相應(yīng)類別的圖拓撲基準(zhǔn)。全局圖拓撲可定義為
gKTP=1nKTP∑i∈SKTPgi(1)
其中:SKTP表示一個批次中標(biāo)簽K的真陽性樣本集;nKTP表示樣本集的大小;gi表示從樣本i中提取的圖拓撲。
在訓(xùn)練過程中,全局圖拓撲將成為動作k的基準(zhǔn)。每個樣本的圖拓撲都應(yīng)該與相對應(yīng)的全局圖拓撲盡量接近,而盡量遠離其他標(biāo)簽的全局圖拓撲,從而達到類內(nèi)聚集、類間分散的目的。兩個特征向量之間的距離公式定義為
dis(n,v)=nv‖n‖2‖v‖2(2)
其中:n和v表示兩個圖拓撲;‖‖2表示L2范數(shù)。
2)模糊樣本 與可信樣本相對應(yīng)的是模糊樣本,這類樣本往往與其他類別非常相似,模型難以正確分類,如圖5所示。為了在訓(xùn)練階段發(fā)現(xiàn)模糊樣本,并提高模型的模糊樣本分類性能,還要收集分類錯誤的樣本。對于動作標(biāo)簽k,有兩種類型的模糊樣本。如果動作k的樣本被誤判為其他類別,則稱為假陰性樣本(FN),這類樣本是因為學(xué)習(xí)到的圖拓撲與其真實類別k的圖拓撲相似度過低。如果其他類別的樣本被誤判為動作k,則稱為假陽性樣本(FP),這類樣本則是因為學(xué)習(xí)到的圖拓撲與動作k的圖拓撲相似度過高。
2.2.2 記憶庫
記憶庫(memory bank)的作用是在訓(xùn)練時維護大量的負樣本表示,它存儲每個樣本的嵌入,并在訓(xùn)練過程中不斷更新。通過記憶庫,模型可以方便地獲取和更新負樣本,進行高效的對比學(xué)習(xí)。Wu等人[13]描述了一種基于記憶庫來采樣負樣本,從而實現(xiàn)對比學(xué)習(xí)的方式。每個圖像都將自己本身作為正樣本,將其他圖像作為負樣本,這相當(dāng)于將每個圖像當(dāng)做一個類別。Khosla等人[14]提出正樣本來源有兩個,一個是通過數(shù)據(jù)增強構(gòu)造,另一個是batch內(nèi)的同一個類別的數(shù)據(jù),負樣本則是同一個batch內(nèi)與正樣本屬于不同類別的數(shù)據(jù)。本文為了豐富跨序列上下文,將設(shè)置兩個記憶庫來存儲跨批次圖拓撲,分別為樣本級記憶庫(sample-level memory bank,Bsam)和全局級記憶庫(global-level memory bank,Bglo)。樣本級記憶庫Bsam∈?CK×P×Cg。其中P表示Bsam中存儲的每個類別的圖拓撲數(shù);CK表示子圖的數(shù)量,通常為3;Cg是一維化的圖拓撲。Bsam中以FN樣本為正樣本集N+sam,F(xiàn)P樣本為負樣本集N-sam,目的是使FN樣本靠近其真實標(biāo)簽,F(xiàn)P樣本遠離其預(yù)測標(biāo)簽。
全局級記憶庫Bglo∈?CK×Cg,Bglo中以所測樣本真實標(biāo)簽的全局圖拓撲為正樣本N+glo,其余標(biāo)簽的全局圖拓撲為負樣本集N-glo,目的是使樣本的圖拓撲靠近其真實標(biāo)簽的全局圖拓撲,遠離其他標(biāo)簽的全局圖拓撲。Bglo通過動量更新[15]的原則,避免全局圖拓撲劇烈變化,并充分利用歷史信息,幫助模型更好地捕捉和區(qū)分不同類別的樣本特征。全局圖拓撲的動量更新可定義為
GK=(1-α)·gKTP+α×GK(3)
其中:,gKTP是標(biāo)簽K的全局圖拓撲;α為動量項,經(jīng)過實驗驗證,設(shè)置為0.95。
2.2.3 損失函數(shù)
為了細化圖拓撲,學(xué)習(xí)到模糊樣本中的差別,要分別計算Bsam和Bglo的局部損失。使用所測樣本V為錨點,局部損失函數(shù)可定義為
Lsam=-∑V+∈N+samloge(dis(v,v+)/τ)e(dis(v,v+)/τ)+∑V-∈N-same(dis(v,v-)/τ)(4)
Lglo=-∑V+∈N+glologe(dis(v,v+)/τ)e(dis(v,v+)/τ)+∑V-∈N-gloe(dis(v,v-)/τ)(5)
其中:V+表示正樣本集中的元素;V-表示負樣本集中的元素;溫度系數(shù)(temperature)τ是超參數(shù)。將Bsam和Bglo的局部損失相加即為一個GTCR-Block模塊的損失,可定義為
Lcl=Lsam+Lglo(6)
本文將主干網(wǎng)絡(luò)分為四個階段,為了多層次地學(xué)習(xí)拓撲表示,對每個階段添加一個GTCR-Block,分別位于TGN的第一層、第五層、第八層和最后一層(第十層),多層次損失函數(shù)可以定義為
LCL=∑4i=1λi·Licl(7)
其中:LCL是多層次GTCR-Block的損失;Licl是階段i計算的GTCR-Block損失;λi是控制階段i損失函數(shù)權(quán)重的超參數(shù)。
獲得多層次GTCR-Block損失LCL后,再與主干網(wǎng)絡(luò)的損失加權(quán)求和,作為整個模型的全局損失。假設(shè)主干網(wǎng)絡(luò)的損失為LCE,那么模型的總體損失函數(shù)可定義為
L=λCL·LCL+LCE(8)
其中:λCL是超參數(shù),用來平衡多層次GTCR-Block損失函數(shù)和主干網(wǎng)絡(luò)的損失函數(shù)。
3 實驗與結(jié)果分析
3.1 數(shù)據(jù)集
1)NTU RGB+D[16] 該數(shù)據(jù)集通過40名受試者收集了56 880個動作樣本,包含60個動作類別。這些動作分為三類:40個日常行為(如梳頭、鼓掌、閱讀)、9個與醫(yī)學(xué)健康相關(guān)(如跌倒、頭痛)、11個為雙人動作(如擁抱、握手)。這些動作發(fā)生在17個不同的場景條件下,使用三個相機從三個角度拍攝,即-45°,0°,45°,每個動作受試者對左右兩側(cè)相機分別做一次,這樣就會得到2×3個不同角度下的樣本。每個樣本為300幀,小于 300 幀則重復(fù)序列使其達到300幀,每幀中最多有兩幅骨架,每幅骨架25個關(guān)節(jié)點,用三維坐標(biāo)描述關(guān)節(jié)點的位置。該數(shù)據(jù)集按照跨目標(biāo)(X-Sub)與跨視角(X-View)兩種方式劃分。X-Sub方式下,將40位受試者按編號分為訓(xùn)練集與測試集,訓(xùn)練集40 320個樣本,測試集16 560個樣本。X-View 方式下,按照相機ID劃分,將相機ID為2、3的作為訓(xùn)練集(2個相機),共37 920個樣本;相機ID為1的作為測試集,共18 960個樣本。
2)NTU RGB+D 120[17] 該數(shù)據(jù)集在NTU-RGB+D數(shù)據(jù)集上擴充了60個動作類別、57 600個動作樣本,共114 480個動作樣本,通過106名受試者收集。還使用不同的地點和背景,將攝像機設(shè)置的數(shù)量增加到 32 個。其中82個日常行為、12 個與醫(yī)學(xué)健康相關(guān)、26 個為雙人動作。該數(shù)據(jù)集按照跨目標(biāo)(X-Sub)與跨視角(X-Set)兩種方式劃分,偶數(shù)設(shè)置ID的樣本用于訓(xùn)練,奇數(shù)設(shè)置 ID 的樣本用于測試。
3.2 實驗設(shè)置
本實驗所采用的硬件設(shè)備為1塊NVIDIA GeForce RTX 3090顯卡,軟件設(shè)置為CUDA12.1,Python3.10.13,PyTorch2.1.0。使用隨機梯度下降優(yōu)化器訓(xùn)練模型,初始學(xué)習(xí)率設(shè)置為 0.1,權(quán)重衰減率設(shè)置為 0.000 3,動量項α設(shè)置為0.95,溫度系數(shù)τ設(shè)置為0.8,損失函數(shù)平衡項設(shè)置為λ1=0.1,λ2=0.3,λ3=0.6,λ4=1,λCL=0.2。批大小設(shè)置為64,所有樣本的數(shù)據(jù)幀均調(diào)整為64幀,訓(xùn)練次數(shù)為75個epoch,在前5個epoch中,使用學(xué)習(xí)率預(yù)熱策略,將第一個epoch的學(xué)習(xí)率設(shè)置為初始值的1/5,每過一個epoch增加1/5,第5個epoch恢復(fù)至初始學(xué)習(xí)率。在第35和第60個epoch時將學(xué)習(xí)率衰減為原來的1/10。
3.3 對比實驗
3.3.1 與其他主流骨架動作識別算法的比較
本節(jié)分別在2s-AGCN和CTR-GCN方法上添加GTCR-Block模塊,并與其他主流骨架動作識別方法在NTU RGB+D和NTU RGB+D 120數(shù)據(jù)集上進行了對比,其他方法的數(shù)據(jù)均使用原論文的實驗結(jié)果。如表1所示,本文方法取得最優(yōu)的效果。2s-AGCN+GTCR-Block與基礎(chǔ)方法2s-AGCN相比,在NTU RGB+D數(shù)據(jù)集的X-Sub基準(zhǔn)上提升了3.4百分點,在X-View基準(zhǔn)上提升了1百分點;在NTU RGB+D 120數(shù)據(jù)集的X-Sub基準(zhǔn)上提升了4.6百分點,在X-View基準(zhǔn)上提升了4.3百分點。CTR-GCN+GTCR-Block與基礎(chǔ)方法CTR-GCN相比,在NTU RGB+D數(shù)據(jù)集的X-Sub基準(zhǔn)上提升了0.9百分點,在X-View基準(zhǔn)上提升了0.6百分比;在NTU RGB+D 120數(shù)據(jù)集的X-Sub基準(zhǔn)上提升了0.5百分點,在X-View基準(zhǔn)上提升了0.6百分點。綜上所述,GTCR-Block加入各類主流圖網(wǎng)絡(luò)中均能提升準(zhǔn)確度性能,這驗證了GTCR-Block的有效性和泛用性。
3.3.2 與基礎(chǔ)模型的比較
本節(jié)實驗驗證了GTCR-Block對模型的促進效果?!?”表示原論文沒有給出相應(yīng)的實驗結(jié)果,本文使用其官方代碼重新訓(xùn)練的模型結(jié)果。CTR-GCN 算法采用了四類數(shù)據(jù)流:第一類使用原始骨架坐標(biāo)作為輸入,稱為關(guān)節(jié)流,即“joint”;第二類利用關(guān)節(jié)點的二階信息作為輸入,稱為骨骼流,即“bone”;第三類使用關(guān)節(jié)流的運動信息,即“joint-motion”;第四類使用骨骼流的運動信息,即“bone-motion”。將這四類數(shù)據(jù)流的 softmax 分數(shù)相加以獲得最后的識別結(jié)果。本文也采用四類數(shù)據(jù)流的方法,分別使用2s-AGCN和CTR-GCN為基礎(chǔ)模型,在NTU RGB+D和NTU RGB+D 120數(shù)據(jù)集上驗證GTCR- Block的作用。表2是在NTU RGB+D數(shù)據(jù)集上的驗證結(jié)果,表3是在NTU RGB+D 120數(shù)據(jù)集上的驗證結(jié)果。實驗結(jié)果表明,GTCR-Block有助于提升人體動作識別的準(zhǔn)確率,這也證明了GTCR-Block 的泛用性,無論使用何種數(shù)據(jù)模式作為輸入,都可以帶來顯著的改善。
本文進一步比較了基礎(chǔ)模型CTR-GCN和CTR-GCN+GTCR-Block模型在NTU RGB+D數(shù)據(jù)集中模糊樣本上的準(zhǔn)確率,實驗結(jié)果如圖6所示,添加GTCR-Block后,在這類樣本中識別效果均大幅提升。在“雙手交叉在前”類上提升了5.6百分點,“鼓掌”類提升了12.1百分點;“閱讀”類提升了11.8百分點,“寫作”類提升了8.9百分點;“玩平板電腦”類提升了9.3百分點,“在鍵盤上鍵入”類提升了8.6百分點;“指向某物”類提升了6.1百分點,“自拍”類提升了4.0百分點。這說明與CTR-GCN相比,本文提出的GTCR-Block能學(xué)習(xí)到更豐富的跨序列信息,使圖拓撲具有“類內(nèi)聚合、類間分散”的能力,因此在提升模型模糊樣本識別能力上效果顯著。
本文還采用聚類方法將模型提取到的動作類特征可視化展示在特征空間中。首先在NTU RGB+D數(shù)據(jù)集中選擇一個類作為錨定類,然后收集錨定類的錯誤分類樣本,并獲得頻率最高的前3個動作。例如以“指向某物”為錨定類,與“自拍”、“胸痛”和“揮手”這三個分類錯誤頻率最高的類構(gòu)造為一個組,可視化結(jié)果如圖7所示,不同的顏色表示不同的動作類(參見電子版)??梢悦黠@觀察到,CTR-GCN+GTCR-Block方法學(xué)習(xí)到的特征在空間尺度上更加聚集,這證明了GTCR-Block模塊區(qū)分模糊樣本的能力。
同時為了更深入地驗證GTCR-Block模塊對圖拓撲細化調(diào)整的作用,本文探索了GTCR-Block模塊在具體動作實例中的表現(xiàn),可視化地展示了模型所判斷的人體關(guān)節(jié)之間的連接強度。
為了便于展示,僅可視化具有代表性的幀。如圖8所示,用關(guān)節(jié)點之間連線的粗細表示關(guān)節(jié)點的連接強度。上面為CTR-GCN方法的動作實例,下面是CTR-GCN+GTCR-Block動作實例。顯然,在具體動作上,CTR-GCN+GTCR-Block方法所關(guān)注到的要點更接近動作的真實標(biāo)簽。
3.4 消融實驗
3.4.1 超參數(shù)的影響
為了驗證各類超參數(shù)對模型性能的影響,本文在NTU RGB+D數(shù)據(jù)集上進行了大量的消融實驗,分別對溫度系數(shù)τ、動量項α、各階段的損失權(quán)重λi以及平衡多層次對比損失函數(shù)和主干損失函數(shù)的λCL進行了充分的實驗。實驗結(jié)果如表4~6所示,當(dāng)溫度系數(shù)τ=0.8 ,動量項α=0.95,λCL=0.2,λ1=0.1,λ2=0.3,λ3=0.6,λ4=1時,準(zhǔn)確率達到最高。
上述實驗結(jié)果表明,各類超參數(shù)均對模型性能有較大的影響,值得注意的是,盡管超參數(shù)的調(diào)整可能會導(dǎo)致模型性能出現(xiàn)波動,但實驗數(shù)據(jù)顯示,模型的性能都不會低于基礎(chǔ)模型的水平。
3.4.2 各模塊的影響
表7研究了GTCR-Block中g(shù)(·)的作用,g(·)在對比學(xué)習(xí)方法中早有應(yīng)用,其作用在于通過對輸入數(shù)據(jù)進行非線性變換,可以學(xué)習(xí)到數(shù)據(jù)的本質(zhì)特征,從而提取出有用的信息。不添加g(·)時,模型性能提升了1百分點,添加g(·)能提升1百分點。這表明了g(·)在GCN中仍有助于提升其之前網(wǎng)絡(luò)層的表征質(zhì)量。
為了研究了樣本級記憶庫Bsam和Bglo全局級記憶庫的有效性,將它們分開使用。實驗結(jié)果如表8所示,僅使用Bsam提升了0.6百分點,僅使用Bglo提升了0.4百分點,兩者同時使用可以提升1.2百分點,這表明Bsam和Bglo都有助于圖拓撲的細化,但跨序列的Bglo提供了更多細節(jié)信息,且兩者具有互補的作用。
為了驗證多層次GTCR-Block的作用,根據(jù)GTCR-Block的個數(shù)和位置在NTU RGB+D數(shù)據(jù)集上進行了消融實驗。四個GTCR-Block分別為GTCR-1、GTCR-5、GTCR-8、GTCR-10。實驗結(jié)果如表9所示,TCN-10對性能的影響最大,提升了0.8百分點的準(zhǔn)確率,靠前的GTCR-Block提升得較少,這是因為在前面學(xué)習(xí)到的圖拓撲隨著空間卷積模塊和時間卷積模塊的學(xué)習(xí),被漸漸稀釋,第10個TGN模塊學(xué)習(xí)的是最終的圖拓撲,對模型的性能影響最大。
4 結(jié)束語
本文提出多層次圖拓撲對比細化的人體骨架動作識別方法。針對主流圖卷積神經(jīng)網(wǎng)絡(luò)僅融合序列內(nèi)信息而忽視跨序列信息的問題,將所有樣本劃分為可信樣本和模糊樣本,根據(jù)樣本劃分建立樣本級記憶庫和全局級記憶庫,拉近同類樣本的距離,使異類樣本互相遠離,以此提升模型在模糊樣本上的分類能力,并采用多層次的策略,學(xué)習(xí)更多的判別特征表示。分別在NTU RGB+D和NTU RGB+D 120數(shù)據(jù)集驗證了所提方法的有效性和泛化性,實驗表明該方法能顯著提升現(xiàn)有的主流圖卷積算法的識別效果。但本文方法即使在測試時不增加任何計算量,也難以在有限的算力下部署和應(yīng)用,后續(xù)研究將采用知識蒸餾或模型剪枝等技術(shù)來進一步優(yōu)化模型,保持較高性能的同時實現(xiàn)模型的輕量化和高效化。
參考文獻:
[1]Li Shuai,Li Wanqing,Cook C,et al.Independently recurrent neural network (IndRNN):building a longer and deeper RNN[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:5457-5466.
[2]Caetano C,Bremond F,Schwartz W R.Skeleton image representation for 3D action recognition based on tree structure and reference joints[C]//Proc of SIBGRAPI Conference on Graphics,Patterns and Images.Piscataway,NJ:IEEE Press,2019:16-23.
[3]Yan Sijie,Xiong Yuanjun,Lin Dahua.Spatial temporal graph convolutional networks for skeleton-based action recognition[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2018:7444-7452.
[4]Shi Lie,Zhang Yifan,Cheng Jian,et al.Two-stream adaptive graph convolutional networks for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition.Piscataway,NJ:IEEE Press,2019:12026-12035.
[5]Chen Yuxin,Zhang Ziqi,Yuan Chunfeng,et al.Channel-wise topology refinement graph convolution for skeleton based action recognition[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:13359-13368.
[6]Cheng Ke,Zhang Yifan,He Xiangyu,et al. Skeleton-based action re-cognition with shift graph convolutional network[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2020:183-192.
[7]Liu Ziyu,Zhang Hongwen,Chen Zhenghao,et al.Disentangling and unifying graph convolutions for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:140-149.
[8]Cheng Ke,Zhang Yifan,Cao Congqi,et al.Decoupling GCN with DropGraph module for skeleton-based action recognition[C]//Proc of European Conference on Computer Vision.Cham:Springer,2020:536-553.
[9]Lin Lilang,Zhang Jiahang,Liu Jiaying.Actionlet-dependent contrastive learning for unsupervised skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:2363-2372.
[10]Thoker F M,Doughty H,Snoek C G M.Skeleton-contrastive 3D action representation learning[C]//Proc of the 29th ACM International Conference on Multimedia.New York:ACM Press,2021:1655-1663.
[11]Peng Ru,Duan Qiuyang,Wang Haobo,et al. CAME:contrastive automated model evaluation[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:20121-20132.
[12]Rao Haocong,Miao Chunyan.TranSG:Transformer-based skeleton graph prototype contrastive learning with structure-trajectory prompted reconstruction for person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2023:22118-22128.
[13]Wu Zhirong,Xiong Yuanjun,Yu S X,et al. Unsupervised feature learning via non-parametric instance discrimination[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Pisca-taway,NJ:IEEE Press,2018:3733-3742.
[14]Khosla P,Teterwak P,Wang C,et al.Supervised contrastive learning [J].Advances in Neural Information Processing Systems,2020,33:18661-18673.
[15]Chen Xinlei,Xie Saining,He Kaiming.An empirical study of training self-supervised vision transformers[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2021:9640-9649.
[16]Shahroudy A,Liu Jun,Ng T T,et al. NTU RGB+D:a large scale dataset for 3D human activity analysis [C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:1010-1019.
[17]Liu Jun,Shahroudy A,Perez M,et al.NTU RGB+D 120:a large-scale benchmark for 3D human activity understanding[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2019,42(10):2684-2701.
[18]Si Chenyang,Chen Wentao,Wang Wei,et al. An attention enhanced graph convolutional LSTM network for skeleton-based action recognition[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:1227-1236.
[19]Ye Fanfan,Pu Shiliang,Zhong Qiaoyong,et al.Dynamic GCN:context-enriched topology learning for skeleton-based action recognition[C]//Proc of the 28th ACM International Conference on Multimedia.New York:ACM Press,2020:55-63.
[20]Xu Kailin,Ye Fanfan,Zhong Qiaoyong,et al.Topology-aware convolutional neural network for efficient skeleton-based action recognition[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2022:2866-2874.
[21]Song Yifan,Zhang Zhang,Shan Caifeng,et al.Constructing stronger and faster baselines for skeleton-based action recognition[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,45(2):1474-1488.
[22]Liu Dongjingdin,Chen Pengpeng,Yao Miao,et al.TSGCNeXt:dynamic-static multi-graph convolution for efficient skeleton-based action recognition with long-term learning potential [EB/OL].(2023-04-23).https://arxiv.org/abs/2304.11631.
[23]王琪,何寧.融合內(nèi)在拓撲與多尺度時間特征的骨架動作識別 [J/OL].計算機工程與應(yīng)用.(2024-03-10).http://kns.cnki.net/kcms/detail/11.2127.TP.20240308.1634.004.html.(Wang Qi,He Ling.Skeleton action recognition by integrating intrinsic topology and multiscale time features[J/OL].Computer Engineering and Applications.(2024-03-10).http://kns.cnki.net/kcms/detail/11.2127.TP.20240308.1634.004.html.)
[24]Liu Jinfu,Wang Xinshun,Wang Can,et al.Temporal decoupling graph convolutional network for skeleton-based gesture recognition[J].IEEE Trans on Multimedia,2024,26:811-823.