鄒浩立
(華南師范大學(xué) 計算機學(xué)院,廣州 510631)
人類動作識別是計算機視覺領(lǐng)域的一個熱門話題,其廣泛地應(yīng)用在視頻監(jiān)控、人機交互和自動駕駛等領(lǐng)域中[1].同時,動作識別也是視頻理解方向很重要的一個問題,至今為止已經(jīng)被研究多年[2].簡單地說,動作識別問題就是: 對于給定的分割好的視頻片段,按照其中的人物動作,如: 打球、跑步和揮手,進行分類.根據(jù)輸入模型的模態(tài),動作識別通??梢詣澐譃? 基于視頻和RGB 圖片的動作識別和基于骨架數(shù)據(jù)的動作識別.基于視頻和RGB 圖片的動作識別方法通常從RGB 圖像中提取感興趣的特征,如: RGB 圖片/視頻中具有代表性的人體動作信息,然后將一個動作視頻轉(zhuǎn)換成一個特征向量,最后將特征向量輸入分類器中進行分類.得益于Microsoft Kinect v2 深度攝像機的發(fā)展和人體關(guān)鍵點檢測技術(shù)的迅速發(fā)展[3],基于骨架數(shù)據(jù)的動作識別研究也變得火熱.從生物學(xué)角度來說,骨架數(shù)據(jù)是一種具有高級語義信息的特征,即使沒有外觀信息,人類也能夠通過僅觀察骨架關(guān)節(jié)的運動過程來識別動作類別[4].特別地,相比于RGB 數(shù)據(jù),骨架數(shù)據(jù)因其對動態(tài)環(huán)境和復(fù)雜背景的強適應(yīng)性而受到廣泛研究.本文研究的重點內(nèi)容是基于骨架數(shù)據(jù)的動作識別.
傳統(tǒng)的基于骨架的動作識別方法通過手工設(shè)計特征來建模骨架的數(shù)據(jù)依賴,如局部占位特征[5]、時間聯(lián)合協(xié)方差[6]和李群曲線[7].這些方法是根據(jù)物理直覺設(shè)計算法來建模人類動作的時空特征,其不能靈活地應(yīng)付大型數(shù)據(jù)集[8].深度學(xué)習(xí)是一種數(shù)據(jù)驅(qū)動的方法,面對大型骨架序列數(shù)據(jù)集能更好地展示其優(yōu)勢.已有的基于深度學(xué)習(xí)的動作識別方法按照模型類型可以分為3 大主流方法: 基于RNN (recurrent neural networks)的方法、基于CNN (convolutional neural networks)的方法和基于GCN (graph convolution networks)的方法.
RNN 被廣泛地應(yīng)用于時序任務(wù)上,但RNN 模型通常只能接受矢量序列作為輸入,不能較好地建模骨架關(guān)節(jié)間的空間依賴.為了克服這一缺點,Du 等人[9]提出了端到端分層RNN 框架,該方法將骨架劃分為多個部位并作為每個RNN 子網(wǎng)絡(luò)的輸入,然后將子網(wǎng)絡(luò)的輸出進行分層融合.Zhu 等人[10]提出在LSTM 網(wǎng)絡(luò)中使用組稀疏正則化來自動探索骨架關(guān)節(jié)的共同發(fā)生特征.為了同時建模骨架關(guān)節(jié)間的空間和時間依賴,空間-時間LSTM 網(wǎng)絡(luò)將深度LSTM 模型擴展到兩個并發(fā)域,即時間域和空間域[11].
CNN 被廣泛地應(yīng)用于圖像分類任務(wù)[12].為了滿足CNN 網(wǎng)絡(luò)輸入的需要(二維網(wǎng)格),研究人員將骨架關(guān)節(jié)編碼為多個2D 偽圖像,然后將其輸入CNN 網(wǎng)絡(luò)以學(xué)習(xí)時空特征[13,14].Wang 等人[15]提出了關(guān)節(jié)軌跡圖(joint trajectory maps),該方法通過顏色編碼將關(guān)節(jié)軌跡的空間結(jié)構(gòu)和動力學(xué)表示為3 幅紋理圖像.然而,該方法較為復(fù)雜,在映射過程中也失去了骨架內(nèi)部重要意義的空間信息.Li 等人[16]使用了平移比例不變的圖像映射策略,該方法首先根據(jù)人體的物理結(jié)構(gòu)將每個幀中的人體骨架關(guān)節(jié)劃分為5 個主要部分,然后將這些部分映射到2D 形式.Li 等人[17]提出了一個共同發(fā)生特征學(xué)習(xí)網(wǎng)絡(luò)框架(HCN),該方法利用CeN 網(wǎng)絡(luò)來聚合骨架全局上下文特征并且取得了不錯的效果.基于GCN 的方法.最近,Yan 等人[18]提出了時空圖卷積網(wǎng)絡(luò)(ST-GCN),該方法將人體骨架數(shù)據(jù)直接建模為圖結(jié)構(gòu),其無需要手工設(shè)計并劃分骨架部位或制作人體骨架關(guān)節(jié)點遍歷規(guī)則,因此該方法比以前的方法取得了更好的性能[8].隨后,Shi 等人[19]提出了2s-AGCN 網(wǎng)絡(luò),該方法將自適應(yīng)拓?fù)鋱D添加到每個圖卷積層中增強圖卷積層的遠距離空間建模能力.Zhang 等人[20]提出了SGN 網(wǎng)絡(luò),該方法利用人體關(guān)節(jié)點和幀的語義信息,豐富了骨架特征的表達能力,從而提高模型的識別準(zhǔn)確率.無論如何,RNN 網(wǎng)絡(luò)和CNN 網(wǎng)絡(luò)都不能完全表征骨架數(shù)據(jù)空間結(jié)構(gòu),因為骨架數(shù)據(jù)不是矢量序列或二維網(wǎng)格,其具有人體結(jié)構(gòu)自然連接的圖的結(jié)構(gòu).與前兩者方法相比較,基于GCN 的方法不需要手工劃分骨架為多個部位和設(shè)計關(guān)節(jié)遍歷規(guī)則,并且在建模骨架空間和時間依賴過程中可以保留骨架拓?fù)浣Y(jié)構(gòu),因此,基于GCN 的動作識別方法建模骨架時空特征更具優(yōu)勢并且逐漸成為該領(lǐng)域的首選框架.
與骨架坐標(biāo)特征相比較,骨架幾何特征具有視覺不變性的優(yōu)勢.早期,骨架幾何特征被研究人員進行大量研究,如,Geometric Pose Descriptor[21]、Fusing Geometric Features[22,23]和DD-Net[24].Chen 等人[21]通過手工設(shè)計了多組骨架幾何特征(關(guān)節(jié)-關(guān)節(jié)距離、關(guān)節(jié)-關(guān)節(jié)角度和關(guān)節(jié)-關(guān)節(jié)平面等等)用于表征人類動作信息.Zhang 等人[22]提出了多組簡單的骨架幾何特征,然后將每組特征分別送入一個3 層LSTM 框架.Li 等人[23]將多組骨架幾何特征分別輸入到LSTM 和CNN中,再將多個流最后的輸出進行融合.Yang 等人[24]提出了DD-Net,該方法分別對fast motion 特征、slow motion 特征和JCD (joint collection distances)特征進行嵌入學(xué)習(xí),再將3 種特征進行早期融合,最后將融合特征輸入到1D CNN 網(wǎng)絡(luò).事實上,骨架幾何特征(關(guān)節(jié)-關(guān)節(jié)距離和關(guān)節(jié)-關(guān)節(jié)角度等等)是高效的和無需參數(shù)學(xué)習(xí)的特征,然而,目前基于GCN 的動作識別方法[18-25]忽視了這些骨架幾何特征.為此,本文在STGCN 網(wǎng)絡(luò)框架上研究了每幀骨架中關(guān)節(jié)間的距離特征,將其作為ST-GCN 網(wǎng)絡(luò)的特征補充,并利用骨架幾何建模模塊和早期特征融合方法構(gòu)建了融合幾何特征時空圖卷積網(wǎng)絡(luò)框架(GEO-GCN).
骨架序列能夠高效和簡潔地表征人類動作的動態(tài)信息.基于深度學(xué)習(xí)的骨架動作識別的算法種類繁多,而圖卷積網(wǎng)絡(luò)[26]作為后起之秀,因其可以更好地建模非規(guī)則數(shù)據(jù),因此,本文采用ST-GCN 網(wǎng)絡(luò)框架[18]作為本文的基準(zhǔn)網(wǎng)絡(luò)框架.
一般地,原始骨架序列數(shù)據(jù)每幀中的位置信息由向量表示.每個向量表示相應(yīng)人體關(guān)節(jié)的二維或三維坐標(biāo).一個完整的人類動作包含多個幀,對于不同的動作序列樣本具有不同的幀數(shù).本文遵循ST-GCN 網(wǎng)絡(luò)框架,使用時空人體拓?fù)鋱D來建模骨架關(guān)節(jié)之間的空間和時間信息.圖1 展示了ST-GCN 構(gòu)建的時空人體拓?fù)鋱D,其中每個圓點表示為時空圖的頂點,人體的自然連接表示為每幀骨架空域圖的空域邊.對于時間維度,兩相鄰幀間對應(yīng)關(guān)節(jié)的連接表示為時域邊.每個關(guān)節(jié)的坐標(biāo)向量為對應(yīng)圖頂點的屬性.為了建模時空骨架圖的時空特征,ST-GCN 中每層GCN Layer 通過交替堆疊GC-block 和TC-block 來構(gòu)建而成,其中,GCblock 和TC-block 分別沿著關(guān)節(jié)維度(V)和時間維度(T)聚合特征.對于空間維度上建模,GC-block 可以表示為:
圖1 ST-GCN 時空拓?fù)鋱D
其中,X和Y分別表示輸入和輸出特征.W表示可學(xué)習(xí)矩陣.對于每個骨架空間配置,A是骨架拓?fù)鋱D的鄰接矩陣,Λ是用于歸一化的對角節(jié)點度矩陣.根據(jù)ST-GCN的空間配置,K表示GC-block 中人體拓?fù)鋱D的數(shù)量,特別地,原始ST-GCN 設(shè)置每個GC-block 的拓?fù)鋱D數(shù)目K=3.此外,節(jié)點i的階數(shù)由計算所得,其中Aij表示元素在A中的第i行和第j列中加上一個常數(shù)α ,以避免A為全零的問題.
對于時間維度上建模,由于每個頂點的鄰域數(shù)固定為2 (兩個連續(xù)幀中的對應(yīng)關(guān)節(jié)),因此應(yīng)用類似經(jīng)典卷積運算的圖卷積是較為簡單的.具體地說,TC-block是內(nèi)核大小為Kt×1的普通卷積層.
圖2 展示了ST-GCN 網(wǎng)絡(luò)框架,其由10 層GCN Layer 堆疊而成.整體ST-GCN 網(wǎng)絡(luò)可以被劃分為3 個階段,第1 個階段包含了4 層GCN Layer,而第2 個和第3 個階段都包含了3 層GCN Layer.骨架坐標(biāo)特征通過每個階段,其通道維度數(shù)量變?yōu)樵瓉淼膬杀?而時間維度特征數(shù)量減少至原來的一半,這樣做的目的是:增強骨架特征表達能力,同時保持張量數(shù)據(jù)的總參數(shù)量不變.模型最終輸出的時空特征經(jīng)過全局池化層(GAP),再被輸入到Softmax 分類器,以獲得動作預(yù)測結(jié)果.
圖2 中下方展示了GCN Layer 內(nèi)部結(jié)構(gòu),其包含了一個GC-block 和一個TC-block.根據(jù)上述可知,骨架坐標(biāo)特征輸入GCN Layer 后,GC-block 首先對輸入骨架坐標(biāo)特征進行空間建模,跟隨其后的是一個BN(batch normalization)層[27]和一個ReLU 激活層,分別對特征起到正則化和非線性激活作用.骨架坐標(biāo)特征被空間建模后,TC-block 對其進行時間建模,同樣地,BN 層和ReLU 激活層跟隨其后.此外,每個GCN Layer都包含殘差連接(skip connect)[12],其起到穩(wěn)定網(wǎng)絡(luò)訓(xùn)練的作用.
圖2 ST-GCN 網(wǎng)絡(luò)框架和GCN Layer 結(jié)構(gòu)圖
在現(xiàn)實場景中,人類的動作可能會被任意的相機視角觀察.為了應(yīng)對視角變化所帶來的挑戰(zhàn),Zhang 等人[22]將多組具有視覺不變性的骨架幾何特征序列分別輸入子LSTM 網(wǎng)絡(luò)中.Yang 等人[24]利用幀內(nèi)關(guān)節(jié)間距離集合的下三角矩陣作為JCD 特征,將其與fast motion 特征和slow motion 特征進行早期特征融合.然而,上述方法提出的幾何特征很大程度上依賴于人的先驗經(jīng)驗,這不利于在不同數(shù)據(jù)集間泛化.此外,手工獲取的骨架幾何特征被轉(zhuǎn)換為矢量序列,不能單獨考慮每個關(guān)節(jié)點的幾何特征,這不利于模型提取有判別力的時空特征.為了緩解這些問題,本文引入骨架關(guān)節(jié)幾何特征,即,每幀內(nèi)關(guān)節(jié)與關(guān)節(jié)間的歐幾里得距離,其具有視覺不變性,而且骨架關(guān)節(jié)幾何特征可以依靠時空拓?fù)鋱D進行信息交換.
更詳細(xì)地說,給定一副骨架序列X∈RT×V×C,其中T表示骨架序列總幀數(shù)(本文默認(rèn)設(shè)置T=48),每幀骨架總共有V個關(guān)節(jié)點,C表示骨架數(shù)據(jù)所處的是三維笛卡爾坐標(biāo)系或者二維笛卡爾坐標(biāo)系.在第t幀骨架中,第v個關(guān)節(jié)點的三維笛卡爾坐標(biāo)表示為Ptv=(x,y,z),而二維笛卡爾坐標(biāo)表示為Ptv=(x,y).
通過距離公式,可以計算每幀內(nèi)任意兩個關(guān)節(jié)點間的歐幾里得距離,具體公式如下:
通過式(2),可求得第t幀第i個關(guān)節(jié)點與第t幀內(nèi)所有關(guān)節(jié)點的歐幾里得距離特征為Dti=RV×V,特別地當(dāng)i=j時,特征值為0.因此,對于給定的一副骨架序列數(shù)據(jù),通過距離公式,可求得該骨架序列的骨架關(guān)節(jié)幾何特征為D∈RT×V×V.特別地,每幀骨架關(guān)節(jié)幾何特征不需要轉(zhuǎn)為矢量序列.
骨架幾何特征和骨架坐標(biāo)特征是不同的模態(tài).模態(tài)融合方法[28]可以分為: 早期融合和晚期融合.在基于視頻的動作識別領(lǐng)域中,Simonyan 等人[29]提出了晚期融合的雙流模型,該方法利用雙流模型分別對RGB 圖像和光流數(shù)據(jù)進行建模,對各流模型的最后輸出特征進行融合,但雙流模型方法會導(dǎo)致總模型的參數(shù)量成倍數(shù)增加.Yang 等人[24]提出的DD-Net 利用早期特征融合方法對3 種骨架幾何特征進行融合,該方法利用骨架幾何特征提高了模型的準(zhǔn)確率同時不會大幅度增加總網(wǎng)絡(luò)的參數(shù)量.本文借鑒DD-Net 的早期特征融合方法,使得ST-GCN 框架融合骨架關(guān)節(jié)幾何特征D同時不大幅度增加總網(wǎng)絡(luò)的參數(shù)量.然而,DD-Net 方法的嵌入學(xué)習(xí)模塊不能較好地建模骨架關(guān)節(jié)幾何特征的時空依賴,為此,本文探索了3 種骨架關(guān)節(jié)幾何特征建模方法分別為: 直接融合方法、特征嵌入方法和GCN建模方法.
(1)直接融合方法.為了驗證骨架關(guān)節(jié)幾何特征的有效性,本文提出直接將距離公式計算所得的骨架關(guān)節(jié)幾何特征D與ST-GCN 網(wǎng)絡(luò)第1 階段輸出的時空特征在通道維度上進行拼接融合,利用一層1×1卷積層對融合特征進行降維操作,然后將其作為ST-GCN 剩余網(wǎng)絡(luò)的輸入.值得注意的是,該方法可視為一層單元層.
(2)特征嵌入方法.一方面,骨架關(guān)節(jié)幾何特征D具有一定的先驗經(jīng)驗,而先驗經(jīng)驗不利于模型的泛化性.另外一方面,骨架關(guān)節(jié)幾何特征和骨架坐標(biāo)特征是不同的模態(tài),上述方法是通過特征拼接方式對兩種模態(tài)進行融合,這在一定程度上不利于ST-GCN 網(wǎng)絡(luò)提取有判別力的時空特征.為了減少先驗經(jīng)驗帶來的影響同時讓骨架關(guān)節(jié)幾何特征更好地融合到ST-GCN 網(wǎng)絡(luò),本文參考DD-Net[24]對骨架幾何特征處理方法,利用兩層全連接層(fully connected layer)對骨架關(guān)節(jié)幾何特征進行特征嵌入學(xué)習(xí),再將所得的骨架關(guān)節(jié)幾何嵌入特征和ST-GCN 網(wǎng)絡(luò)第一階段輸出的時空特征在通道維度上進行拼接融合,再利用一層1×1 卷積層對融合特征進行降維操作并將輸出作為ST-GCN 剩余階段網(wǎng)絡(luò)的輸入.
(3)GCN 建模方法.然而,上述兩種方法都忽視了對骨架關(guān)節(jié)幾何特征D時間維度上的建模.ST-GCN 網(wǎng)絡(luò)第1 階段輸出的是時空特征,為了讓每幀骨架的幾何特征具備時間維度上的依賴,本文利用兩層GCN Layer 對骨架序列的幾何特征進行時空建模,其目的是使骨架關(guān)節(jié)幾何特征與ST-GCN 第1 階段所建模的時空特征更具有一般性.最后,被GCN 模塊建模的骨架關(guān)節(jié)幾何特征如上述兩種方法一樣被拼接融合和降維操作,再將其輸入ST-GCN 的第2 和第3 階段進行時空建模.
圖3 展示了本文提出的融合幾何特征時空圖卷積網(wǎng)絡(luò)框架(GEO-GCN).骨架坐標(biāo)特征作為ST-GCN網(wǎng)絡(luò)第一階段的輸入,同時,通過距離公式計算所得的骨架關(guān)節(jié)幾何特征D作為骨架幾何建模模塊的輸入.兩模塊的輸出在通道維度上進行拼接融合,融合特征被一層1×1 卷積層進行降維操作,其目的是與ST-GCN 網(wǎng)絡(luò)第2 階段的輸入適配.值得注意的是,骨架幾何特征建模模塊在最終模型中使用的是GCN建模方法.通過早期特征融合方法,GEO-GCN 的參數(shù)量不會成倍數(shù)地增加,同時可以使得ST-GCN 網(wǎng)絡(luò)在保持自身建模能力的情況下,增強了剩余階段網(wǎng)絡(luò)對融合骨架關(guān)節(jié)幾何特征的時空特征的建模能力,從而增強模型性能.
圖3 融合幾何特征的時空卷積網(wǎng)絡(luò)框架(GEO-GCN)
本文在兩個大規(guī)模的基于骨架的動作識別基準(zhǔn)數(shù)據(jù)集,即,NTU-RGB+D 數(shù)據(jù)集[30]和NTU-RGB+D 120數(shù)據(jù)集[31],對GEO-GCN 網(wǎng)絡(luò)框架進行評估.本文首先通過充分的消融實驗以驗證骨架關(guān)節(jié)幾何特征能作為ST-GCN 網(wǎng)絡(luò)的特征補充,然后驗證不同骨架幾何建模模塊對GEO-GCN 網(wǎng)絡(luò)框架的影響.最后,將GEOGCN 網(wǎng)絡(luò)框架與其他動作識別模型進行準(zhǔn)確率的比較.
本文所有實驗都是在一個RTX 2080 TI GPU 上進行的并且該GPU 采用PyTorch 深度學(xué)習(xí)框架和Python編程語言.
NTU-RGB+D 是一個大規(guī)模的人體動作識別數(shù)據(jù)集,包含4 種模態(tài),即RGB 視頻、深度序列、紅外視頻和3D 骨架數(shù)據(jù).3D 骨架序列數(shù)據(jù)由Microsoft Kinect v2 攝像頭捕獲.它總共有56 880 個視頻,由3 臺攝像機從不同角度拍攝.這些動作涵蓋60 種人類動作類別,包括類別1 到類別49 的單人動作和類別50 到類別60 的雙人交互動作.數(shù)據(jù)集的發(fā)布方推薦了兩個評估基準(zhǔn),即,交叉對象(cross-subject)評估和交叉視角(cross-view)評估.在X-Sub 評估基準(zhǔn)中,訓(xùn)練集包含了來自20 名受試者的40 320 個視頻,其余16 560 個視頻片段用于測試.在X-View 評估基準(zhǔn)中,它包含37 920個從第2 攝像頭和第3 攝像頭拍攝的視頻,用于訓(xùn)練.從第一個攝像頭拍攝的視頻包含18 960 個視頻,用于測試.
NTU-RGB+D 120 是NTU-RGB+D 的擴展,其中類別的數(shù)量擴大到120,樣本的數(shù)量擴大到114 480.還有兩種推薦的評估基準(zhǔn),即交叉主體(C-subject)評估和交叉設(shè)置(C-setup)評估.在X-Sub 評估基準(zhǔn)中,來自53 個受試者的63 026 個視頻片段被用于訓(xùn)練,其余受試者則被用于測試.在X-Set 評估基準(zhǔn)中,54 471 個具有偶數(shù)集合設(shè)置ID 的視頻片段被用于訓(xùn)練,其余具有奇數(shù)設(shè)置ID 的片段被用于測試.
為了更加公平地與ST-GCN 網(wǎng)絡(luò)[18]進行比較,本文對ST-GCN 網(wǎng)絡(luò)進行復(fù)現(xiàn),同時使得本文的實驗分析更加可靠.原始的ST-GCN 網(wǎng)絡(luò)一共包含了9 層GCN Layer,TC-block 的卷積核大小為9.網(wǎng)絡(luò)框架每個階段的輸出通道數(shù)量分別為64,128,256.模型輸入樣本幀數(shù)為300.本文參照2s-AGCN[19]官方公布的代碼,所搭建的復(fù)現(xiàn)模型一共包含了10 層GCN Layer,TC-block 的卷積核大小為5.此外,實驗數(shù)據(jù)預(yù)處理方法參照了SGN 模型[20]所提出的方法,并且固定輸入模型的每個樣本幀數(shù)為48.
表1 展示了在NTU-RGB+D 的X-View 評估基準(zhǔn)上,ST-GCN 網(wǎng)絡(luò)的復(fù)現(xiàn)結(jié)果.其中ST-GCN 代表原論文所展示的準(zhǔn)確率,ST-GCN*代表復(fù)現(xiàn)結(jié)果,而帶自適應(yīng)拓?fù)鋱D的ST-GCN*是參照了2s-AGCN 提出的方法.最后,我們選用帶自適應(yīng)拓?fù)鋱D的ST-GCN*網(wǎng)絡(luò)作為本文所有實驗的基準(zhǔn)模型.除非有必要的說明,本文所有消融實驗都是在NTU-RGB+D 數(shù)據(jù)集X-View 評估基準(zhǔn)上進行的.
表1 不同骨架幾何特征建模模塊的GEO-GCN 模型在NTU-RGB 數(shù)據(jù)集X-View 評估上的準(zhǔn)確率比較
本文所有模型使用隨機梯度下降(stochastic gradient descent,SGD)優(yōu)化器進行訓(xùn)練,并且設(shè)置動量為0.9,權(quán)重衰減為0.000 1.訓(xùn)練epochs 設(shè)置為65,在前5 個epochs 中使用warmup strategy[12],以使訓(xùn)練過程更加穩(wěn)定.設(shè)置初始學(xué)習(xí)率為0.1,并在第30 個epoch 和第55 個epoch 時以0.1 的系數(shù)進行學(xué)習(xí)率衰減,batch size 大小設(shè)置為64.
從表1 可得出,在NTU-RGB 數(shù)據(jù)集中X-View 評估基準(zhǔn)上,本文提出的3 種骨架幾何特征建模模塊所構(gòu)建的GEO-GCN 模型的準(zhǔn)確率都比帶自適應(yīng)的STGCN*模型的準(zhǔn)確率要高,實驗結(jié)果說明了本文提出的骨架關(guān)節(jié)幾何特征D能有效地融合到ST-GCN 模型中,從而提高ST-GCN 基準(zhǔn)模型的識別率.特別地,采用GCN 建模模塊的GEO-GCN 模型比基準(zhǔn)模型的準(zhǔn)確率要高出1%.對于3 種不同的幾何特征建模模塊,可以發(fā)現(xiàn): 采用直接融合方法的GEO-GCN 模型的性能提升幅度是最小的,而采用GCN 建模模塊的GEOGCN 模型的準(zhǔn)確率取得了最優(yōu)效果.綜上,可得出結(jié)論: 骨架關(guān)節(jié)幾何特征D(幀內(nèi)關(guān)節(jié)點間的距離)能豐富ST-GCN 模型所建模的時空特征,并且基于GCN 建模模塊的GEO-GCN 模型是有效方法,該網(wǎng)絡(luò)框架具有高效性和參數(shù)量較少的優(yōu)勢.最后,我們選取基于GCN 建模模塊的GEO-GCN 模型作為后續(xù)實驗的基準(zhǔn)網(wǎng)絡(luò).
為了進一步分析骨架幾何特征D對GEO-GCN 網(wǎng)絡(luò)的影響,本文對每個關(guān)節(jié)的幾何特征數(shù)量進行了消融實驗.圖4 展示了NTU 數(shù)據(jù)集的人體結(jié)構(gòu)關(guān)節(jié)點的序號.在第2.2 節(jié)中,實驗配置對每幀骨架內(nèi)每個關(guān)節(jié)計算其與該幀上所有關(guān)節(jié)間的距離,具體來說,對于NTU 數(shù)據(jù)集來說,其關(guān)節(jié)點數(shù)量為25,因此每幀每個關(guān)節(jié)點共有25 個距離幾何特征.為此,本文設(shè)置關(guān)鍵關(guān)節(jié)點集合Ji,其中Ji的下標(biāo)表示集合內(nèi)包含元素的個數(shù),Ji中每個元素表示NTU 人體結(jié)構(gòu)圖所對應(yīng)的關(guān)節(jié)序號.在給定Ji的情況下,在計算每幀每個關(guān)節(jié)的幾何特征時候,只計算集合中內(nèi)包含的元素所對應(yīng)的關(guān)節(jié)點.表2 展示了不同Ji的元素組成,對于每個關(guān)鍵關(guān)節(jié)點集合,元素被選取的依據(jù)是: 在“直覺上”與動作信息相關(guān)性較大,如,序號7 (左手腕)關(guān)節(jié)點,與人類執(zhí)行動作過程的相關(guān)性較大.
圖4 NTU 數(shù)據(jù)集人體結(jié)構(gòu)圖
表2 不同關(guān)鍵關(guān)節(jié)點集合Ji 的元素組成
從表3 實驗結(jié)果可看出,隨著關(guān)鍵關(guān)節(jié)點集合Ji元素的逐漸增加,GEO-GCN 模型的準(zhǔn)確率不是呈線性遞增的,即,骨架關(guān)節(jié)幾何特征數(shù)量與GEO-GCN 模型的性能不是正相關(guān),其原因可能是:Ji中關(guān)鍵關(guān)節(jié)點的選取依賴于人的經(jīng)驗和直覺,這導(dǎo)致通過距離公式所得的骨架關(guān)節(jié)幾何特征包含了一定程度的先驗知識,從而影響了GEO-GCN 模型的性能.特別地,當(dāng)i=10 和i=25 時候,模型的性能近乎是一致的.這說明了i=25時,骨架關(guān)節(jié)幾何特征存在特征冗余問題.最后,考慮到i=25 時,GEO-GCN 模型取得了最優(yōu)的準(zhǔn)確率,因此,選取關(guān)鍵關(guān)節(jié)點集合J25作為最終基準(zhǔn)并與其他模型進行比較.
表3 不同關(guān)鍵關(guān)節(jié)點集合Ji 的GEO-GCN 在NTURGB 數(shù)據(jù)集X-View 評估上的準(zhǔn)確率比較
表4 和表5 中展示了GEO-GCN 模型與其他模型在NTU RGB+D 和NTU RGB+D 120 上準(zhǔn)確率的比較.從表4 實驗結(jié)果可看出,在NTU RGB+D 兩評估基準(zhǔn)上,GEO-GCN (joint)單模態(tài)模型的準(zhǔn)確率高于非GCN 的方法,而與基于GCN 的方法(ST-GCN、ASGCN 和SGN)性能相當(dāng).特別地,2s-AGCN[19]采用了模型集成方法,即,關(guān)節(jié)坐標(biāo)特征(joint)和關(guān)節(jié)骨頭特征(bone)分別作為輸入模態(tài),同樣地,本文展示了GEO-GCN 模型集成方法的準(zhǔn)確率.從表4 可看出,GEO-GCN (joint+bone)集成方法的準(zhǔn)確率高于2s-AGCN 的準(zhǔn)確率,在X-Sub 評估基準(zhǔn)上高了約2%.這說明了本文提出的利用骨架關(guān)節(jié)幾何特征作為STGCN 框架特征補充的方法是高效的.從表5 實驗結(jié)果可看出,在NTU RGB+D 120 兩評估基準(zhǔn)上,GEOGCN 單模態(tài)模型的準(zhǔn)確率都比2s-AGCN 和SGN 的準(zhǔn)確率高.這說明了本文提出的骨架關(guān)節(jié)幾何特征在大型數(shù)據(jù)集上能更好地提高模型的性能.特別地,在XSub 和X-Set 評估基準(zhǔn)上,GEO-GCN 集成模型的準(zhǔn)確率比2s-AGCN 分別高了4.1%和3.4%.綜上,可得出結(jié)論: 本文提出的GEO-GCN 網(wǎng)絡(luò)框架,其充分利用了骨架關(guān)節(jié)幾何特征作為ST-GCN 模型的特征補充,提高了框架的準(zhǔn)確率同時不會使框架總參數(shù)量成倍數(shù)地增加,是一種非常高效的網(wǎng)絡(luò)框架.
表4 不同算法在NTU-RGB+D 上的準(zhǔn)確率比較(%)
表5 不同算法在NTU-RGB+D 120 上的準(zhǔn)確率比較(%)
本文提出了融合幾何特征的圖卷積網(wǎng)絡(luò)框架,其稱為GEO-GCN 網(wǎng)絡(luò)框架.該框架利用骨架序列中所蘊含的距離幾何特征作為ST-GCN 基準(zhǔn)網(wǎng)絡(luò)的特征補充.然后,本文利用GCN 建模模塊對骨架關(guān)節(jié)幾何特征進行建模,充分提取有判別力的時空特征,并且利用早期特征融合方法,將骨架關(guān)節(jié)幾何特征高效地融合到ST-GCN 網(wǎng)絡(luò)中,與雙流模型方法相比較,本文提出的GEO-GCN 網(wǎng)絡(luò)框架的參數(shù)量保持一個合適的范圍內(nèi).最后,在NTU-RGB+D 數(shù)據(jù)集和NTU-RGB+D 120 數(shù)據(jù)集上,本文進行了充分實驗.實驗結(jié)果表明:與ST-GCN、2s-AGCN 和SGN 等動作識別模型相比,本文所提出的GEO-GCN 網(wǎng)絡(luò)框架取得了更好準(zhǔn)確率的效果.下一步的研究將會引入時間維度上的注意力模塊,提高網(wǎng)絡(luò)建模時空特征能力.