曹 毅 劉 晨 盛永健 黃子龍 鄧小龍
①(江南大學機械工程學院 無錫 214122)
②(江南大學江蘇省食品制造裝備重點實驗室 無錫 214122)
③(江蘇信息職業(yè)技術(shù)學院 無錫 214153)
骨架行為識別是通過提取骨架序列中的動作特征,進而實現(xiàn)對人體行為的理解與描述的方法。骨架行為識別是機器視覺領(lǐng)域的熱點研究方向之一,其可實現(xiàn)計算機準確識別目標對象的動作,進而分析視頻中人體的動作,提高了計算機的動態(tài)感知能力,因此骨架行為識別技術(shù)廣泛應用于視頻監(jiān)控[1]、視頻理解[2,3]等領(lǐng)域。
針對骨架行為識別,國內(nèi)外學者分別基于卷積神經(jīng)網(wǎng)絡和圖卷積神經(jīng)網(wǎng)絡兩類方法開展了大量的理論與實驗研究。其中,基于卷積神經(jīng)網(wǎng)絡[3–6],文獻[3]提出將骨架序列的時空信息編碼為彩色紋理圖像,并使用卷積神經(jīng)網(wǎng)絡學習行為的判別特征;文獻[4]將3維卷積引入骨架行為識別,通過3維卷積神經(jīng)網(wǎng)絡學習深度圖序列的時空信息,并融合關(guān)節(jié)特征向量輸入的SVM分類結(jié)果,實現(xiàn)行為識別;文獻[5]將雙流結(jié)構(gòu)與3維卷積結(jié)合,提出了雙流3維卷積網(wǎng)絡,并將骨架信息映射到3D坐標空間進行時空信息的編碼,實現(xiàn)了時空信息的提取。
基于圖卷積神經(jīng)網(wǎng)絡,文獻[7]融合圖卷積神經(jīng)網(wǎng)絡與時間卷積網(wǎng)絡,提出了一種時空圖卷積模型,以提取骨架序列的空間信息與時間信息;文獻[8]結(jié)合圖卷積與長短時記憶網(wǎng)絡(LSTM),提出了一種圖卷積LSTM網(wǎng)絡,通過圖卷積與LSTM網(wǎng)絡,分別提取骨架序列中的空間信息與時間信息;為捕獲關(guān)節(jié)間更豐富的依賴關(guān)系,文獻[9]引入了一種編碼器-解碼器結(jié)構(gòu)以捕獲動作的潛在依賴關(guān)系,并通過圖卷積與時間卷積分別學習空間與時間信息,實現(xiàn)了時空信息的提取。
基于上述,針對骨架行為識別國內(nèi)外諸多學者盡管開展了大量研究并取得了一定的研究成果[3–9],但不難發(fā)現(xiàn):(1) 3維卷積無法直接針對具有非歐式空間數(shù)據(jù)的3維骨架序列進行時空信息的提??;(2) 圖卷積僅能提取空間信息,時空信息依賴圖卷積與LSTM(或時間卷積)分別進行提取,且未考慮空間與時間信息間的關(guān)聯(lián)性;(3) 缺少對于特定關(guān)節(jié)的關(guān)注,無法聚焦重要的動作信息。
針對上述問題,本文提出了一種基于3維圖卷積與注意力增強的行為識別模型。本文首先介紹了3維卷積與圖卷積的具體工作原理;其次基于圖卷積中可處理變長鄰居節(jié)點的圖卷積核,引入3維卷積的3維采樣空間將2維圖卷積核改進為具有3維采樣空間的圖卷積核,提出了一種3維圖卷積方法;然后,為增強對于特定關(guān)節(jié)的關(guān)注,聚焦重要的動作信息,設計了一種注意力增強結(jié)構(gòu);再者,結(jié)合3維圖卷積與注意力增強結(jié)構(gòu),構(gòu)建了基于3維圖卷積與注意力增強的行為識別模型;最后,基于NTU-RGBD和MSR Action 3D骨架動作數(shù)據(jù)集開展了骨架行為識別的研究。研究結(jié)果進一步驗證了本文提出的行為識別模型的時空信息的有效提取能力及優(yōu)秀的識別準確率。
3維卷積的3維采樣空間由多個連續(xù)幀中相同位置的采樣區(qū)域構(gòu)成,其包含時間與空間2個維度。通過3維卷積核將多個連續(xù)幀中采樣區(qū)域的數(shù)據(jù)進行堆疊求和生成多維數(shù)據(jù),從而實現(xiàn)了對3維采樣空間的卷積操作[10,11],如圖1所示。設3維卷積核的卷積核尺寸為[Pi, Qi, Ri],則第i層網(wǎng)絡中第j張?zhí)卣鲌D的(x, y, z)位置響應可表示為
圖1 3維卷積的卷積操作
3維采樣通過將前一層輸出中多個連續(xù)幀進行加權(quán)疊加,其不僅能采集空間信息,且能構(gòu)建當前特征圖與前一層輸出中多個連續(xù)幀的連接,實現(xiàn)了多幀范圍內(nèi)時間信息的捕捉。因此,3維卷積不僅能同時實現(xiàn)空間與時間信息的采集,且能保留兩者的關(guān)聯(lián)性,故3維卷積可適用于連續(xù)動作視頻幀序列等歐式空間內(nèi)3維序列型數(shù)據(jù)的時空特征采集。
圖卷積是學習圖結(jié)構(gòu)數(shù)據(jù)的一種通用有效的方式。圖卷積通過可處理變長鄰居節(jié)點的圖卷積核,將鄰居節(jié)點的隱藏狀態(tài)進行加權(quán)求和,以此來聚合鄰居節(jié)點的信息,實現(xiàn)了圖結(jié)構(gòu)數(shù)據(jù)的卷積操作,提取了圖上信息[12]。因此,圖卷積能處理具有廣義拓撲結(jié)構(gòu)的圖結(jié)構(gòu)數(shù)據(jù),故其廣泛運用于骨架行為識別[2]和姿態(tài)估計[13]等領(lǐng)域。
其中,D表示A的度矩陣,a為A的元素用以判斷節(jié)點是否為存在連接的鄰居節(jié)點,W表示圖卷積的權(quán)重矩陣,b表示偏置值,σ(·)表示非線性變化的激活函數(shù)。
圖2 圖卷積的卷積操作
3.1.1 3維圖卷積原理
骨架序列的空間結(jié)構(gòu)特征與時間特征能夠表述骨架序列中動作的完整信息,且兩者之間存在關(guān)聯(lián)不可獨立分析。因此,為實現(xiàn)骨架序列中時空信息的有效提取,開展3維圖卷積方法的研究是非常有必要的。
值得指出的是,3維卷積中3維采樣空間為柵格化采樣,其僅適用于歐式空間內(nèi)3維序列型數(shù)據(jù)的特征采集,對于非歐式空間3維數(shù)據(jù)的采樣存在采樣空間中鄰居節(jié)點數(shù)量不固定的問題。因此,(1) 3維卷積無法針對具有非歐式空間3維數(shù)據(jù)的骨架序列進行時空信息的提取;(2) 圖卷積通過可處理變長鄰居節(jié)點的圖卷積核,其僅能實現(xiàn)圖上空間信息的提取。為提取骨架序列的時空信息,基于圖卷積中可處理變長鄰居節(jié)點的圖卷積核,以3維卷積中的3維采樣空間為改進思想,將2維圖卷積核改進為具有3維采樣空間的圖卷積核,本文提出了一種3維圖卷積方法,其能有效提取非歐式空間內(nèi)3維骨架序列的時空信息。
3維圖卷積針對骨架序列的采樣操作中,3維采樣空間的鄰居節(jié)點既包含當前幀內(nèi)與節(jié)點存在連接的鄰居節(jié)點也包含多個連續(xù)幀內(nèi)相同位置節(jié)點的鄰居節(jié)點?;?維圖卷積核,通過3維采樣空間內(nèi)鄰居節(jié)點數(shù)據(jù)的加權(quán)堆疊求和來生成多維數(shù)據(jù),從而實現(xiàn)了骨架序列的3維圖卷積,有效提取了骨架序列的時空信息。如圖3所示,設3維采樣空間中有L張連續(xù)骨架幀,從第1幀到第L幀記作G0,G1,···,GL-1,則3維圖卷積的輸出結(jié)果可表示為
圖3 骨架序列中的3維圖卷積
值得注意的是,3維圖卷積在時間維度上采樣骨架序列中的連續(xù)L幀,在未進行填充操作的情況下,每一次3維圖卷積操作將使骨架序列減少L–1幀的序列長度。且基于padding填充操作,通過設置時間維度的采樣步長,3維圖卷積可實現(xiàn)倍率減少序列長度。
3.1.2 3維圖卷積的有效性
骨架序列中3維采樣空間是3維圖卷積的核心,為證明3維圖卷積的有效性,開展了3維圖卷積與2維圖卷積提取骨架序列特征的差異性研究。
如圖4(a)所示,應用于骨架序列的2維圖卷積僅輸出對應當前第T幀的單幀圖(式(4)),故每次圖卷積運算僅處理當前第T幀內(nèi)的空間信息,未對時間信息進行提取[7],且2維圖卷積切斷了骨架幀間的時間關(guān)系,無法提取時空信息。
圖4 骨架序列中2維圖卷積與3維圖卷積的差異性
對比2維圖卷積,3維圖卷積(圖4(b))則通過采集當前第T 幀的空間信息與第T 幀周圍L–1幀的時間信息(式(5)),保留了骨架幀間的時間關(guān)系,實現(xiàn)了時空信息的提取。通過將卷積層輸出特征圖與多個相鄰幀相連,既提取了空間信息又捕獲了時間信息[12]。其次,通過同時聯(lián)合空間信息與時間信息進行提取,3維圖卷積解決了2維圖卷積與時間卷積網(wǎng)絡融合帶來的空間信息與時間信息關(guān)聯(lián)性被破壞的問題,保留了兩者的關(guān)聯(lián)性。本文將進一步開展實驗,以驗證3維圖卷積對比2維圖卷積的有效性。
由圖4(a)、圖4(b)與式(4)、式(5)的對比可知:(1) 2維圖卷積僅對單張骨架幀的空間信息進行處理,由于其切斷了骨架幀間的時間關(guān)系,故無法提取時間信息;(2) 基于具有時間與空間兩個采樣維度的3維采樣空間,3維圖卷積通過添加聚合時間維度上相關(guān)的鄰居節(jié)點信息,既提取了骨架序列間的時間信息,又提取了空間信息,實現(xiàn)了時空信息的有效提取,且保留了空間與時間信息的相關(guān)性。
綜上所述,針對具有非歐式空間3維數(shù)據(jù)的骨架序列,基于3維采樣空間,3維圖卷積通過聚合空間與時間維度上的鄰居節(jié)點信息,實現(xiàn)了骨架序列中時空信息的有效提取。
骨架行為識別中動作的大部分動作信息可由少數(shù)關(guān)節(jié)表示,如揮手的大部分動作信息可由肩、肘、腕3個關(guān)節(jié)表示,故聚焦特定關(guān)節(jié)能一定程度提升骨架行為的識別準確率。
3維圖卷積的輸入特征中各個關(guān)節(jié)的權(quán)重均一致,針對特定動作其存在缺乏對于特定關(guān)節(jié)關(guān)注的問題。注意力機制通過注意力矩陣表示骨架序列中各關(guān)節(jié)對應的注意力權(quán)重并加權(quán)輸入模型,實現(xiàn)了針對特定關(guān)節(jié)的關(guān)注[14]?;谏鲜?,為解決3維圖卷積缺乏對于特定關(guān)節(jié)關(guān)注的問題,本文設計了一種注意力增強結(jié)構(gòu)。其不僅能增強對于特定關(guān)節(jié)的關(guān)注,且不削弱非關(guān)注關(guān)節(jié)點的信息,如圖5所示。
圖5 注意力增強結(jié)構(gòu)示意圖
注意力增強結(jié)構(gòu)首先通過計算關(guān)節(jié)相似性度權(quán)重系數(shù),求解生成中間特征,然后利用兩層感知機,實現(xiàn)骨架序列中關(guān)節(jié)權(quán)重分布的提取,最后,結(jié)合結(jié)構(gòu)輸入特征,實現(xiàn)對于特定關(guān)節(jié)的注意力增強,注意力增強算法流程如下所示:
輸入. 具有n維m個關(guān)節(jié)的骨架序列特征;
輸出. 由輸入骨架序列與關(guān)節(jié)加權(quán)的骨架序列求和生成的骨架序列;
步驟 1 基于相似度計算函數(shù)Score求解各關(guān)節(jié)間的相似度,并利用softmax函數(shù)進行相似度歸一化,實現(xiàn)關(guān)節(jié)相似性權(quán)重系數(shù)α的生成;
步驟 2 基于權(quán)重系數(shù)α進行關(guān)節(jié)信息的加權(quán)求和并與原始特征拼接,實現(xiàn)中間特征H′的生成;
步驟 3 通過兩層感知機(s,u)結(jié)合tanh與sigmoid非線性化操作,實現(xiàn)關(guān)節(jié)權(quán)重矩陣V的計算;
步驟 4 基于關(guān)節(jié)權(quán)重vi針對骨架序列中關(guān)節(jié)進行加權(quán),并通過求和結(jié)構(gòu)輸入特征hi得到結(jié)構(gòu)輸出。
基于上述研究,注意力增強結(jié)構(gòu)通過計算骨架序列中關(guān)節(jié)的權(quán)重并結(jié)合結(jié)構(gòu)輸入特征構(gòu)建增強特征,既實現(xiàn)了對于特定關(guān)節(jié)點的注意力增強,又不削弱非關(guān)注關(guān)節(jié)點的信息,更有利于模型學習重要特征。
綜上所述,基于3維圖卷積與注意力增強的行為識別模型具有以下特點:(1) 3維圖卷積將2維圖卷積的2維采樣區(qū)域擴展到3維采樣空間,包含空間與時間2個維度,實現(xiàn)了骨架序列中時空信息的有效提?。?2) 基于注意力增強結(jié)構(gòu),增強了對于特定關(guān)節(jié)點的關(guān)注,更有利于模型學習重要特征。
NTU-RGBD[15]:該數(shù)據(jù)集為最為廣泛應用的行為識別大型實驗數(shù)據(jù)集之一,其包含56880個動作樣本。動作樣本可劃分為60個動作類別,每一個動作類別均通過3個視角的Kinect相機采集40個志愿者的25個關(guān)節(jié)點動作來構(gòu)建。數(shù)據(jù)集具有基于視角(X-View)與基于運動對象(X-Sub)兩種劃分方式。為驗證基于3維圖卷積與注意力增強的行為識別模型的性能,評價指標采用Top-1識別準確率和Top-5識別準確率,針對模型在兩種數(shù)據(jù)集劃分方式下的性能進行綜合評價。
MSR Action 3D[16]:該數(shù)據(jù)集包含16個動作類別的320個動作樣本,每一個動作樣本均有Kinect相機采集人體的20個關(guān)節(jié)點來構(gòu)成。數(shù)據(jù)集可劃分為3類子集(AS1, AS2, AS3),各類子集均包含8類動作,其中AS1和AS2子集均為簡單的相似動作,AS3子集為復雜動作[17],評價標準采用Top-1識別準確率評價模型。
網(wǎng)絡結(jié)構(gòu):單特征輸入由于限制了網(wǎng)絡模型從多種特征中學習各種信息,故影響了網(wǎng)絡模型的識別準確率。為學習多種特征進一步提高網(wǎng)絡模型的識別準確率,基于3維圖卷積與注意力增強結(jié)構(gòu)并以雙特征作為輸入,構(gòu)建了基于3維圖卷積與注意力增強的行為識別模型。雙特征分別為表示靜態(tài)特性的骨架特征與表示運動特性的骨架序列幀差特征。
該模型中的單流網(wǎng)絡由3維圖卷積與注意力增強結(jié)構(gòu)構(gòu)成,每一層3維圖卷積前均設置注意力增強結(jié)構(gòu);利用3維圖卷積的串聯(lián),構(gòu)建了單流網(wǎng)絡;通過疊加平均雙流網(wǎng)絡的預測分數(shù),實現(xiàn)了雙流融合并預測動作標簽。若采用NTU數(shù)據(jù)集中25個關(guān)節(jié)表示的300幀骨架序列的動作樣本,則模型具體結(jié)構(gòu)如表1所示。
表1 基于3維圖卷積與注意力增強的行為識別模型的網(wǎng)絡結(jié)構(gòu)
參數(shù)配置:動作幀數(shù)規(guī)整化(NTU:300幀;MSR:100幀);設置批量處理尺寸(batch_size)為32;采用SGD為模型優(yōu)化器;設置初始學習率為0.1;循環(huán)輪數(shù)(epoch)為80,并在第50輪進行學習率衰減。
4.3.1 模型深度實驗
模型深度在一定程度上影響模型的識別準確率,淺層模型識別準確率不高,深層模型存在過擬合。為探究最優(yōu)的模型深度,以結(jié)合注意力增強結(jié)構(gòu)的3維圖卷積層數(shù)為變量,分別構(gòu)建了5層至11層的網(wǎng)絡結(jié)構(gòu),并基于以X-View劃分的NTU數(shù)據(jù)集開展骨架行為識別的實驗研究,實驗結(jié)果如表2所示。
表2 不同模型深度的識別準確率對比(%)
由表2可知:當模型層數(shù)為10層時,基于Top-1與Top-5評價指標,模型均取得最高識別準確率,分別為93.30%與99.49%,故模型最優(yōu)模型深度為10層。
4.3.2 時間維度的鄰居采樣范圍實驗
3維圖卷積通過擴展多個連續(xù)幀內(nèi)相同位置節(jié)點的鄰居節(jié)點,實現(xiàn)了時間信息的采樣。時間維度上的鄰居采樣范圍會影響模型時間信息的采樣能力,長采樣范圍無法關(guān)注短時重要信息,短采樣范圍則無法提取上下文信息。為探究最優(yōu)的采樣范圍,本文分別設置了5類采樣范圍并基于以X-View劃分的NTU數(shù)據(jù)集開展骨架行為識別的實驗研究,實驗結(jié)果如表3所示。
由表3可知:當鄰居采樣范圍為9幀時,基于Top-1與Top-5評價指標,模型取得最高的識別準確率,分別為93.30%與99.49%,故模型最優(yōu)的采樣范圍選用9幀。
表3 不同鄰居采樣范圍的識別準確率對比(%)
4.3.3 注意力對比實驗
為驗證注意力增強結(jié)構(gòu)相較于其他注意力機制在3維圖卷積模型上的優(yōu)勢,基于注意力增強結(jié)構(gòu)與3種注意力機制分別開展了對比實驗。實驗均基于以X-View劃分的NTU數(shù)據(jù)集開展,實驗結(jié)果如表4所示。
表4 注意力增強結(jié)構(gòu)與多種注意力機制的識別準確率對比(%)
由表4可知:(1) 相較于未使用注意力增強結(jié)構(gòu)的3維圖卷積模型,結(jié)合注意力增強結(jié)構(gòu)的3維圖卷積模型雖在Top-5評價指標下識別準確率下降了0.05%,但在Top-1評價指標下識別準確率提升了0.4%,達到最高93.30%的識別準確率;(2) 對比其他3種注意力機制,通過結(jié)合注意力增強結(jié)構(gòu),3維圖卷積模型在Top-1評價指標下的識別準確率得到最顯著提升,其也充分論證了注意力增強結(jié)構(gòu)對于增強關(guān)節(jié)關(guān)注的有效性。
因此,注意力增強結(jié)構(gòu)不僅能夠增強3維圖卷積針對特定關(guān)節(jié)的關(guān)注,且進一步提高了識別準確率。
為評估基于3維圖卷積與注意力增強的行為識別模型的性能,基于NTU-RGBD和MSR Action 3D數(shù)據(jù)集,開展了骨架行為的識別準確率對比實驗。
4.4.1 NTU-RGBD
為驗證基于3維圖卷積與注意力增強的行為識別模型相較于基于3維卷積與圖卷積行為識別模型的優(yōu)秀性能,分別基于X-View與X-Sub劃分的NTU數(shù)據(jù)集開展了骨架行為識別的實驗研究,并采用Top-1準確率為評價指標,實驗結(jié)果如表5所示。
由表5可知:
表5 NTU數(shù)據(jù)集上不同模型的識別準確率對比(%)
(1) 在以X-View與X-Sub兩種方式劃分的NTU數(shù)據(jù)集上,基于3維圖卷積與注意力增強的行為識別模型均取得最高的識別準確率,分別為93.30%與89.43%;
(2) 相較于同樣采用雙流結(jié)構(gòu)的3維卷積方法,基于注意力增強的3維圖卷積模型,在X-View與XSub下分別提高了20.72%與22.58%;
(3) 相較于使用2維圖卷積的文獻[6],基于3維圖卷積與注意力增強的模型識別準確率在X-View與X-Sub下分別提高了5.0%與7.93%,實驗結(jié)果進一步驗證了3維圖卷積對比2維圖卷積的有效性。
4.4.2 MSR Action 3D
上述單一數(shù)據(jù)集上的對比實驗僅反映模型在單一數(shù)據(jù)集上的性能表現(xiàn),為進一步驗證模型在不同數(shù)據(jù)集上的性能,綜合表現(xiàn)模型的泛化性能,需在全新數(shù)據(jù)集上開展模型性能的測試。為驗證基于3維圖卷積與注意力增強的行為識別模型的泛化性能,基于MSR Action 3D骨架行為識別數(shù)據(jù)集的3類子集(AS1, AS2, AS3),開展了識別準確率對比實驗。對比實驗采用Top-1準確率為評價指標,實驗結(jié)果如表6所示。
由表6可知:
表6 MSR Action 3D數(shù)據(jù)集上3種訓練條件下的識別準確率對比(%)
(1) 基于注意力增強的3維圖卷積模型,在AS1, AS2, AS3 3種訓練條件下均取得了高于3維卷積與圖卷積的識別準確率,進一步驗證了模型時空信息提取的有效性;
(2) 本文提出的基于3維圖卷積與注意力增強的行為識別模型,在NTU-RGBD與MSR Action 3D數(shù)據(jù)集上均取得了優(yōu)秀的識別準確率,進一步驗證了模型具有良好的泛化性能。
綜上實驗結(jié)果表明:基于3維圖卷積與注意力增強的行為識別模型相較于基于3維卷積與圖卷積的行為識別方法,既實現(xiàn)了骨架序列中時空信息的有效提取與對特定關(guān)節(jié)的注意力增強,又具有優(yōu)秀的識別準確率與泛化性能。
為有效提取非歐式空間中3維骨架序列的時空信息,并實現(xiàn)針對特定關(guān)節(jié)的關(guān)注,本文提出了一種基于3維圖卷積與注意力增強的行為識別模型。(1) 3維圖卷積基于具有時間與空間兩個采樣維度的3維采樣空間,聚合前幀內(nèi)鄰居節(jié)點的空間信息與時間維度上相關(guān)的鄰居節(jié)點時間信息,實現(xiàn)了時空信息的有效提取,且保留了空間與時間信息的相關(guān)性。(2) 對比傳統(tǒng)注意力機制,注意力增強結(jié)構(gòu)不僅能增強對于特定關(guān)節(jié)的關(guān)注,且不削弱非關(guān)注關(guān)節(jié)點的信息。實驗結(jié)果表明:首先,對比傳統(tǒng)注意力機制,注意力增強結(jié)構(gòu)能更有效增強對于特定關(guān)節(jié)的關(guān)注,且能進一步提高識別準確率。其次,基于3維圖卷積與注意力增強的行為識別模型具有優(yōu)秀的識別準確率與泛化性能。
值得指出的是,人體行為在未剪輯視頻中僅占據(jù)小段時間,本文所提出的行為識別模型僅是基于人工剪輯視頻,未剪輯視頻中準確定位動作的問題在研究中未予以考慮。針對如何在未剪輯視頻中準確定位動作與識別動作的問題,其在后續(xù)的研究中擬進一步展開。