張銀環(huán),肖秦琨,楚超勤,邢 恒,賈松濤
(1.渭南職業(yè)技術(shù)學(xué)院 建筑工程學(xué)院,渭南 714000;2.西安工業(yè)大學(xué) 電子信息工程學(xué)院,西安 710021;3.西安工業(yè)大學(xué) 機(jī)電工程學(xué)院,西安 710021;4.西北工業(yè)集團(tuán),西安 710043)
人體行為識(shí)別(Human Activities Recognition,HAR)在機(jī)器人、智能安防、視頻監(jiān)控、人機(jī)交互等方面具有重要的應(yīng)用價(jià)值,被國內(nèi)外學(xué)者和研究人員廣泛關(guān)注[1]。高精度行為識(shí)別所需的關(guān)鍵技術(shù)研究非常具有挑戰(zhàn)性。使用單一模態(tài)獲取的目標(biāo)特征進(jìn)行行為識(shí)別時(shí),容易受光照、視角、背景等環(huán)境因素影響,導(dǎo)致識(shí)別精度不高[2],但是采用多模態(tài)融合模型時(shí),能夠較好解決單一傳感器行為識(shí)別過程中數(shù)據(jù)缺失的問題,而且可以利用不同模態(tài)數(shù)據(jù)的互補(bǔ)性,提高行為識(shí)別精度。
近年來,多模態(tài)行為識(shí)別技術(shù)得到了快速發(fā)展。文獻(xiàn)[3]提出基于馬爾可夫(Hidden Markov Model,HMM)的行為識(shí)別方法,對每類行為訓(xùn)練一個(gè)HMM模型,最后計(jì)算行為分類的概率。然而該方法需要對每個(gè)HMM模型進(jìn)行單獨(dú)訓(xùn)練,引入過多的系統(tǒng)參數(shù),降低了計(jì)算速度。文獻(xiàn)[4]提出基于連續(xù)密度隱馬爾可夫模型的礦下異常行為識(shí)別算法,通過級(jí)聯(lián)分類器實(shí)現(xiàn)運(yùn)動(dòng)區(qū)域的初步檢測并得到行為的最大外接矩形,引入連續(xù)密度HMM完成行為識(shí)別,在單幀多目標(biāo)行為識(shí)別方面取得顯著效果。文獻(xiàn)[5]對連續(xù)行為分類時(shí)采用HMM分類器,由于HMM缺乏時(shí)間維度關(guān)聯(lián)信息,該方法獲得的識(shí)別精度低于長短期記憶(Long Short-Term Memory,LSTM)方法。文獻(xiàn)[6]提出層次隱馬爾可夫模型適用于在時(shí)間上具有多級(jí)依賴性且遵循層次結(jié)構(gòu)的問題,將分類過程進(jìn)行多層劃分取得了較好的識(shí)別精度,但增加了模型復(fù)雜度。文獻(xiàn)[7]根據(jù)三維骨架關(guān)節(jié)點(diǎn)的坐標(biāo)信息提取行為特征,通過離散隱馬爾可夫模型( Dispersed Hidden Markov Model,DHMM) 及關(guān)聯(lián)時(shí)間序列信息的方法進(jìn)行行為識(shí)別,取得了較高的識(shí)別精度,但并未提及如何優(yōu)化DHMM參數(shù)設(shè)置,而且隱藏狀態(tài)類別和輸出符號(hào)數(shù)量需要繼續(xù)研究。由此可見,多模態(tài)信息融合時(shí),每個(gè)行為特征序列優(yōu)化更新問題尚無明晰的理論解釋。
為了解決上述問題,文中提出一種時(shí)空注意力隱馬爾可夫方法(Spatial Temporal Attention LSTM CHMM,STALC),運(yùn)用概率推理的理論,研究多模態(tài)人體行為識(shí)別的融合方法。采用長短期時(shí)空注意力網(wǎng)絡(luò)(Spatial Temporal Attention LSTM,STAL)提取不同模態(tài)視頻行為特征,將獲取的多模態(tài)特征與一對隱馬爾可夫模型(Couple Hidden Markov Model,CHMM)結(jié)合,形成STALC進(jìn)行行為識(shí)別。
運(yùn)用視頻捕獲設(shè)備,獲取彩色視頻RGB流、骨架流的人體行為視頻。采用文獻(xiàn)[8]方法,將采集的視頻輸入給STAL,分別提取彩色視頻流RGB特征序列(STALr)和骨架流特征序列(STALg)。依據(jù)馬爾可夫概率推理理論,STALr、STALg序列分別輸入給CHMM模型,構(gòu)建人體行為識(shí)別的STALC方法。
圖1 STALC融合模型
建立一種混合動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(Dynamic Bayesian Networks,DBN)模型,利用行為觀察矩陣和狀態(tài)轉(zhuǎn)移矩陣來表示連續(xù)人體行為識(shí)別系統(tǒng)。假設(shè)RGB與骨架相關(guān)特征貢獻(xiàn)相同,因此可使用骨架隱藏狀態(tài)序列更新彩色視頻隱藏狀態(tài)序列。通過概率推理將骨架序列和彩色視頻序列進(jìn)行信息融合,產(chǎn)生具有較高估計(jì)精度的最終狀態(tài)。
采用貝葉斯理論計(jì)算最優(yōu)骨架狀態(tài)序列,優(yōu)化后的最優(yōu)骨架行為分類可以表示為
(1)
同理,采用彩色視頻RGB行為相關(guān)的HMM作為概率網(wǎng)絡(luò),最優(yōu)彩色視頻行為分類可表示為
(2)
多模態(tài)融合行為分類結(jié)果為
(3)
人體行為特征提取時(shí),采用Sgdm優(yōu)化器更新視頻分類網(wǎng)絡(luò),最小批處理大小為16,最大迭代次數(shù)為80,可充分對數(shù)據(jù)集進(jìn)行訓(xùn)練,為獲得圖像更細(xì)粒度的特征,將初始學(xué)習(xí)率設(shè)為1×10-4,采用專用圖形處理器GPU可提高模型訓(xùn)練速度。為防止過擬合現(xiàn)象,丟棄率Dropout分別設(shè)置為0.2,0.4及0.6。
為評(píng)估STALC方法的性能,分別在UCF101[9]數(shù)據(jù)集和HMDB51[10]數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。其中UCF101數(shù)據(jù)集包含101個(gè)動(dòng)作類別,13 320個(gè)視頻樣本;HMDB51數(shù)據(jù)集共有51個(gè)動(dòng)作類別,包含6 766個(gè)視頻樣本,選取該數(shù)據(jù)集樣本進(jìn)行訓(xùn)練和驗(yàn)證。
HMDB51數(shù)據(jù)集包含51個(gè)動(dòng)作分類,依次選出10類進(jìn)行訓(xùn)練。第一次行為識(shí)別精度為89.04%。經(jīng)過五輪實(shí)驗(yàn)后,在HMDB51數(shù)據(jù)集上的訓(xùn)練平均精度為87.88%,具體見表1。
表1 HMDB51數(shù)據(jù)集上的訓(xùn)練精度
使用混淆矩陣在HMDB51數(shù)據(jù)集上顯示STALC算法對每個(gè)動(dòng)作的具體識(shí)別結(jié)果,隨機(jī)選擇“brush_ hair”“cartwheel”“chew”“clap”“dive”“draw_sword”“dribble”“catch”“climb”“climb_stairs”10類動(dòng)作視頻。運(yùn)用混淆矩陣進(jìn)行可視化分析,如圖2所示,縱軸代表10類動(dòng)作的真實(shí)標(biāo)簽,橫軸代表動(dòng)作預(yù)測結(jié)果。每個(gè)動(dòng)作大約有20個(gè)視頻,合計(jì)210個(gè)視頻需要識(shí)別,有203個(gè)視頻被正確識(shí)別,識(shí)別精度為96.66%。但“climb_stairs”動(dòng)作的識(shí)別精度僅為96.00%,輸入25個(gè)視頻,其中24個(gè)視頻被正確識(shí)別,1個(gè)視頻被誤識(shí)別為“climb”動(dòng)作,同時(shí)2個(gè)“climb”動(dòng)作被誤識(shí)別為“climb_stairs”動(dòng)作。因?yàn)椴糠帧癱limb_stairs”動(dòng)作是在小山坡上拍攝,“climb_stairs”動(dòng)作在整個(gè)視頻中較小,特征不明顯,導(dǎo)致識(shí)別混淆。2個(gè)“dive”動(dòng)作被誤判為“climb_stairs”動(dòng)作,可能是因?yàn)闃颖緮?shù)量較少,這種結(jié)果可以通過增加樣本的數(shù)量,進(jìn)行大規(guī)模訓(xùn)練,提取動(dòng)作更為細(xì)微的特征,以提高識(shí)別精度。
為了進(jìn)一步驗(yàn)證算法的魯棒性,文中運(yùn)用K-means方法進(jìn)行聚類分析,如圖3所示,結(jié)果表明整體分類效果較好。然而,由于方差設(shè)置偏大,諸如“brush_hair”等個(gè)別動(dòng)作的分布較稀疏,但未與其他動(dòng)作產(chǎn)生交集,說明該類動(dòng)作沒有被誤判。實(shí)驗(yàn)結(jié)果驗(yàn)證了在HMDB51數(shù)據(jù)集上,文中提出的STALC方法對人體行為識(shí)別精度較高。
圖3 在HMDB51數(shù)據(jù)集上的聚類結(jié)果
在UCF101數(shù)據(jù)集中,隨機(jī)選擇“BaseballPitch”“Basketball”“BenchPress”“Biking”“CleanAndJerk”“Diving”“Drumming”“BreastStroke”“Billiards”“Fencing”10種不同類型的動(dòng)作。每個(gè)動(dòng)作類別包含107個(gè)視頻,每個(gè)動(dòng)作拍攝時(shí)間為3 s,總共1 241個(gè)視頻。選取該數(shù)據(jù)集樣本進(jìn)行訓(xùn)練和驗(yàn)證,使用混淆矩陣來評(píng)估STALC方法性能,識(shí)別精度如圖4所示。
由圖4可得,UCF101數(shù)據(jù)集上的行為識(shí)別平均精度為97.78%。輸入24個(gè)“BaseballPitch”動(dòng)作視頻,正確識(shí)別21個(gè)視頻,識(shí)別精度僅為87.5%,因?yàn)樵搫?dòng)作在多人交互環(huán)境中拍攝,目標(biāo)特征較小?!癇iking”和“BreastStroke”動(dòng)作分別有1個(gè)動(dòng)作被誤識(shí)別為“Billiards”動(dòng)作,因?yàn)檫@些動(dòng)作速度快,而且背景移動(dòng)多變,導(dǎo)致識(shí)別結(jié)果錯(cuò)誤。
圖4 UCF101數(shù)據(jù)集上的混淆矩陣
在UCF101和HMDB51數(shù)據(jù)集上,將文中提出的STALC方法與其他行為識(shí)別方法[11-17]進(jìn)行比較。各算法在UCF101數(shù)據(jù)集上的識(shí)別精度,見表2。
由表2可得,在采用單模態(tài)信息識(shí)別時(shí),采用3D CNN方法,同時(shí)獲取時(shí)間維度和空間維度行為特征,識(shí)別精度達(dá)到了82.30%,但是該方法對計(jì)算機(jī)性能要求較高,很難在一般實(shí)驗(yàn)室訓(xùn)練。時(shí)空注意力網(wǎng)絡(luò)STA-CNN,不僅考慮行為的時(shí)空特征,同時(shí)對不同特征在通道方面賦予不同的權(quán)重,識(shí)別準(zhǔn)確率為86.00%,識(shí)別精度顯著提高。雙流網(wǎng)絡(luò)Two Stream方法運(yùn)用彩色視頻RGB作為輸入數(shù)據(jù),分別提取視頻的時(shí)間信息和空間信息,進(jìn)而融合時(shí)空信息,識(shí)別精度為88.00%,表明注意力機(jī)制在特征提取方面具有較大優(yōu)勢。骨架時(shí)域滑動(dòng)法STSM在信息融合時(shí),采用骨架信息作為一種模態(tài)數(shù)據(jù),克服背景信息的負(fù)面影響,同時(shí)利用不同模態(tài)信息的互補(bǔ)性優(yōu)勢,識(shí)別精度為94.90%。因此文中在融合之前采用骨架數(shù)據(jù)作為一種模態(tài)信息,采用STALC算法提取行為特征,并進(jìn)行概率融合,識(shí)別精度為97.78%。為進(jìn)一步驗(yàn)證STALC算法的魯棒性,在HMDB51數(shù)據(jù)集上將STALC算法與其他方法[11-17]進(jìn)行比較,見表3。
表2 不同行為識(shí)別算法在UCF101數(shù)據(jù)集上的精度
由表3可得,雙流網(wǎng)絡(luò)Two Stream采用彩色視頻RGB,識(shí)別精度為78.80%,說明單一模態(tài)的行為識(shí)別或二維卷積在提取行為特征時(shí)具有一定弊端。采用3D CNN方法提取行為的時(shí)間和空間特征信息,將不同模態(tài)的行為信息進(jìn)行融合,使得行為識(shí)別精度提升至81.50%,表明關(guān)聯(lián)行為的時(shí)空信息在識(shí)別方面具有顯著優(yōu)勢。ST-Net方法在提取行為時(shí)空信息時(shí),在通道方面為不同重要程度的特征賦予不同權(quán)重,以抑制噪聲干擾。STALC算法采用注意力網(wǎng)絡(luò)提取不同權(quán)重的行為特征,對不同模態(tài)的行為特征運(yùn)用CHMM進(jìn)行概率融合,識(shí)別精度為87.68%。
表3 不同行為識(shí)別算法在HMDB51數(shù)據(jù)集上的精度Tab.3 Accuracy of different behavior recognition algorithms on HMDB51 dataset
STALC算法采用注意力網(wǎng)絡(luò),分別提取彩色視頻RGB、骨架行為特征,并為不同行為特征賦予不同的權(quán)重,運(yùn)用CHMM對時(shí)間序列數(shù)據(jù)進(jìn)行概率融合,從而達(dá)到了提高人體行為識(shí)別精度的目的。
基于多模態(tài)數(shù)據(jù)融合、概率推理和深度學(xué)習(xí)等理論,提出了具有更高識(shí)別精度的STALC行為識(shí)別方法。通過采用注意力網(wǎng)絡(luò)提取雙流行為特征,結(jié)合CHMM進(jìn)行概率融合,在UCF101、HMDB51兩個(gè)公開的數(shù)據(jù)集上分別進(jìn)行實(shí)驗(yàn),證明了STALC方法在人體行為識(shí)別方面具有較高的精度。這種融合方法有效地利用了低級(jí)序列分類能力和先進(jìn)的語義決策機(jī)制,實(shí)現(xiàn)更高概率層次的特征修復(fù);同時(shí),使用STALC方法自動(dòng)提取系統(tǒng)參數(shù),降低計(jì)算消耗,提高CHMM中分類器的學(xué)習(xí)效率。然而,針對小樣本的行為識(shí)別尚未深入研究,今后將繼續(xù)開展小樣本識(shí)別研究,進(jìn)一步提高算法的適用場景。
西安工業(yè)大學(xué)學(xué)報(bào)2022年5期