吳心怡 徐火生 李 恒 胡 超
(武漢數(shù)字工程研究所 武漢 430000)
動態(tài)手勢識別需要通過連續(xù)的視頻幀序列來學(xué)習(xí)和訓(xùn)練手勢動作的時(shí)空特征,進(jìn)而對不同的動態(tài)手勢進(jìn)行分類識別。采用RGB數(shù)據(jù)與深度數(shù)據(jù)特征融合的方法,如文獻(xiàn)[1~3]分別提取RGB圖像和深度圖像的手勢特征,再進(jìn)行融合與分類,識別效果較好但訓(xùn)練所需數(shù)據(jù)量較大;引入光流信息輔助提取特征的方法,如文獻(xiàn)[4~5]分別對動態(tài)手勢的RGB圖像和深度圖像提取光流信息,再對光流信息進(jìn)行特征提取與分類,識別效果優(yōu)秀,魯棒性高,但模型復(fù)雜度也相對較高。為了解決上述問題,本文提出了一種基于TSM框架的動態(tài)手勢識別模型,通過使用一種高效的時(shí)間移位模塊來融合不同時(shí)間維度上的手勢特征信息[6],再結(jié)合復(fù)雜度較低的基礎(chǔ)網(wǎng)絡(luò)ResNet50,實(shí)現(xiàn)對手勢動作序列的識別。該模型能夠在2D網(wǎng)絡(luò)模型上達(dá)到3D網(wǎng)絡(luò)模型的識別效果,大大降低了模型的復(fù)雜度。
如圖1所示,模型首先對視頻數(shù)據(jù)進(jìn)行預(yù)處理,將視頻幀歸一化至224×224大小,再將視頻均勻分成n個(gè)片段,每個(gè)片段采樣1幀圖像得到圖像幀序列{F1,F(xiàn)2,…,F(xiàn)n} 送入殘差網(wǎng)絡(luò)進(jìn)行卷積操作[7~8],再沿著時(shí)間維度對特征圖的部分通道進(jìn)行移位替換操作,通過時(shí)間移位模塊得到移位特征,該特征融合了當(dāng)前幀與相鄰幀的特征信息來進(jìn)行時(shí)間維度建模。這一系列操作能夠讓更具代表性的手勢特征在時(shí)間維度上高效傳播,保持2D網(wǎng)絡(luò)的復(fù)雜度并達(dá)到3D網(wǎng)絡(luò)的效果。
圖1 模型整體結(jié)構(gòu)圖
一段視頻的維度可表示為A?R(N×C×T×H×W),其中N是批處理大小,C是通道數(shù),T是時(shí)間維,H和W是圖片的高度和寬度。TSM模塊首先將視頻均勻分成n個(gè)片段,每個(gè)片段采樣一幀,即將整個(gè)視頻采樣為n張圖片,這時(shí)時(shí)間維度T=n。文獻(xiàn)[6]驗(yàn)證了在時(shí)間T維度上分別用前后兩幀各1/8的通道來替換當(dāng)前幀1/4的通道,能夠取得最好的融合效果。為了不破壞主干網(wǎng)絡(luò)的空間學(xué)習(xí)能力,將時(shí)間移位模塊以旁路的形式插入到殘差塊之間,也因此能夠在更多的主干網(wǎng)絡(luò)上融合時(shí)移模塊,增強(qiáng)模型的魯棒性。
實(shí)驗(yàn)選擇了兩個(gè)大型動態(tài)手勢基準(zhǔn)數(shù)據(jù)集EgoGestrue和 Chalearn IsoGD LAP。EgoGestrue是一個(gè)多模態(tài)的大規(guī)模數(shù)據(jù)集,包含83類靜態(tài)或動態(tài)手勢,由2081個(gè)RGB-D視頻、24161個(gè)手勢樣本和來自50個(gè)不同主題的2953224幀組成。手勢視頻來自6個(gè)不同的室內(nèi)外場景,既包含靜態(tài)的背景,同時(shí)又包含室外的運(yùn)動背景[9~10]。Chalearn IsoGD LAP數(shù)據(jù)集包括249類動態(tài)手勢,由21個(gè)不同的人執(zhí)行,每個(gè)RGB-D視頻只代表一個(gè)手勢,共有47933個(gè)RGB-D手勢視頻[11~12]。
實(shí)驗(yàn)使用兩顆Intel Xeon Gold 6142 Processor 32核心CPU,128GB DDR4 2666MHz RDIMM內(nèi)存,Nvidia Titan RTX 24G顯卡。模型的訓(xùn)練基于Win?dows操作系統(tǒng)和Pytorch框架,使用Python語言編寫代碼。EgoGestrue數(shù)據(jù)集的視頻參數(shù)為640×480@30fps,Chalearn IsoGD LAP數(shù)據(jù)集的視頻參數(shù)為320×240@15fps,將視頻幀剪裁至224×224輸入網(wǎng)絡(luò),每個(gè)視頻片段平均分為4個(gè)片段,每個(gè)片段采樣一幀,批處理大小為32,初始學(xué)習(xí)率設(shè)置為0.01,每20個(gè)epoch(訓(xùn)練周期)學(xué)習(xí)率衰減10倍,最終將訓(xùn)練50個(gè)epoch。
實(shí)驗(yàn)結(jié)果如表1所示,本文提出的方法在Ego?Gestrue上達(dá)到了88.8%的準(zhǔn)確率,與表現(xiàn)最優(yōu)的3D網(wǎng)絡(luò)模型僅相差0.5%的準(zhǔn)確率;如表2所示,在Chalearn IsoGD LAP數(shù)據(jù)集上達(dá)到了69.3%的準(zhǔn)確率,超過了使用C3D系列方法的準(zhǔn)確率。訓(xùn)練過程的精度曲線和損失函數(shù)曲線如圖2和圖3所示。考慮到本方法使用2D網(wǎng)絡(luò)進(jìn)行分類訓(xùn)練與測試,復(fù)雜度和數(shù)據(jù)量遠(yuǎn)低于3D卷積神經(jīng)網(wǎng)絡(luò),在以視頻片段為樣本的訓(xùn)練環(huán)境中是一種“性價(jià)比”較高的方法。
圖2 模型在EgoGestrue數(shù)據(jù)集上精度曲線和損失函數(shù)曲線
圖3 模型在ChaLearn IsoGD LAP數(shù)據(jù)集上精度曲線和損失函數(shù)曲線
表1 EgoGestrue數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
表2 Chalearn IsoGD LAP數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
本文提出了一種基于TSM框架的動態(tài)手勢識別網(wǎng)絡(luò)模型,首先將視頻數(shù)據(jù)進(jìn)行采樣得到關(guān)鍵幀,再送入殘差網(wǎng)絡(luò)來提取具有代表性的手勢特征,通過時(shí)間移位模塊從時(shí)間維度上融合手勢特征,從而進(jìn)行動態(tài)手勢分類。在大型動態(tài)手勢數(shù)據(jù)集EgoGestrue和Chalearn IsoGD LAP上進(jìn)行實(shí)驗(yàn)驗(yàn)證,準(zhǔn)確率分別達(dá)到了88.8%和69.3%。雖然犧牲了一定精度,但模型所需數(shù)據(jù)量僅為RGBD模式下的一半,復(fù)雜度也相對更低,在這種情況下識別效果能夠超過3D網(wǎng)絡(luò)方法,并且接近RGBD模式下的最高準(zhǔn)確率,體現(xiàn)了該方法的高效性。未來的工作將在RGB-D模式下進(jìn)一步驗(yàn)證該方法的性能表現(xiàn),同時(shí)著重研究如何提升模型的精度。