摘" 要: 為了應(yīng)對(duì)多角度、多姿態(tài)特點(diǎn)的人體動(dòng)作圖像識(shí)別難的問題,研究一種基于顯著性特征的多視角人體動(dòng)作圖像識(shí)別方法。通過顯著性區(qū)域檢測(cè)模塊處理多視角人體動(dòng)作圖像,獲取顯著性區(qū)域序列并拼接成多視角顯著性區(qū)域拼接圖;利用VGG?Net網(wǎng)絡(luò)從中提取其卷積特征圖,輸入到CA(上下注意力)模塊中,將有利于人體動(dòng)作識(shí)別的區(qū)域予以突出顯示,并輸出人體動(dòng)作類別標(biāo)簽的概率值,實(shí)現(xiàn)多視角人體動(dòng)作識(shí)別。實(shí)驗(yàn)結(jié)果表明,所提方法能夠有效識(shí)別多視角人體動(dòng)作,同時(shí)通過整合顯著性區(qū)域檢測(cè)和CA模塊,可以顯著提升其在多視角人體動(dòng)作識(shí)別方面的應(yīng)用效果。
關(guān)鍵詞: 顯著性特征; 多視角; 人體動(dòng)作; 圖像識(shí)別; 類別標(biāo)簽; CA模塊; LSTM單元
中圖分類號(hào): TN911.73?34; TP391" " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " " " 文章編號(hào): 1004?373X(2024)24?0143?05
Research on multi?perspective human action image recognition
based on significant features
LIAO Minling
(Guilin University of Electronic Technology, Guilin 541004, China)
Abstract: In order to address the difficulty of recognizing human motion images with multiple angles and postures, a method of multi?perspective human motion image recognition based on salient features is researched. By using salient region detection module to process multi?perspective human motion images, a sequence of salient regions is obtained and concatenated into a multi?perspective salient region mosaic images. The convolutional feature map is extracted by means of VGG?Net network and input into CA (up and down attention) module. The region conducive to human action recognition is highlighted, and the probability value of human action category label is output to realize multi?perspective human action recognition. The experimental results show that the proposed method can effectively recognize multi?perspective human movements. By integrating salient region detection and CA modules, the application effectiveness of the method in multi?perspective human action recognition can be improved significantly.
Keywords: significant features; multi?perspective; human action; image recognition; category label; CA module; LSTM unit
0" 引" 言
人體動(dòng)作識(shí)別技術(shù)正逐步滲透到人們生活的各個(gè)方面,如智能監(jiān)控、人機(jī)交互、體育分析和醫(yī)療康復(fù),為智能化生活提供了強(qiáng)有力的技術(shù)支撐[1?2]。然而,現(xiàn)實(shí)場(chǎng)景中的人體動(dòng)作往往發(fā)生在多變的視角和復(fù)雜的環(huán)境中,使得人體動(dòng)作圖像往往呈現(xiàn)出多角度、多姿態(tài)的特點(diǎn),這對(duì)動(dòng)作識(shí)別的準(zhǔn)確性和魯棒性提出了極高的要求[3]。因此,開展多視角人體動(dòng)作圖像識(shí)別研究不僅具有重要的理論價(jià)值,更在實(shí)際應(yīng)用中展現(xiàn)出巨大的潛力和需求。
當(dāng)前動(dòng)作識(shí)別技術(shù)正快速發(fā)展,并且已經(jīng)在多個(gè)方面取得了顯著成果,文獻(xiàn)[4]通過構(gòu)建FP?Net網(wǎng)絡(luò)訓(xùn)練人體圖像數(shù)據(jù)集,并通過加入回歸模塊和特征融合模塊,提升了正面姿態(tài)估計(jì)的準(zhǔn)確性。FP?Net能夠從任意角度的人體圖像中有效提取正面姿態(tài),實(shí)現(xiàn)對(duì)人體動(dòng)作圖像的準(zhǔn)確識(shí)別。但在人體被其他物體嚴(yán)重遮擋時(shí),F(xiàn)P?Net可能無法準(zhǔn)確估計(jì)出被遮擋部分的關(guān)鍵點(diǎn)位置。文獻(xiàn)[5]利用Transformer網(wǎng)絡(luò)進(jìn)行時(shí)序建模,在單模態(tài)和跨模態(tài)下以自監(jiān)督方式區(qū)分實(shí)例,同時(shí)引入雷達(dá)組合圖來增強(qiáng)數(shù)據(jù)密度,解決了雷達(dá)數(shù)據(jù)稀疏性問題,實(shí)現(xiàn)了對(duì)人體動(dòng)作的有效識(shí)別。該方法需要專業(yè)的雷達(dá)設(shè)備來獲取數(shù)據(jù),但這些設(shè)備通常價(jià)格昂貴,增加了硬件成本;同時(shí)雷達(dá)數(shù)據(jù)需要經(jīng)過復(fù)雜的預(yù)處理和特征提取步驟,增加了數(shù)據(jù)處理的難度和計(jì)算資源的消耗,影響方法的實(shí)用性。文獻(xiàn)[6]采用三維殘差網(wǎng)絡(luò)融合各視角動(dòng)作序列的時(shí)空特征,并利用多層長短期記憶網(wǎng)絡(luò)學(xué)習(xí)視頻流中的長期活動(dòng)序列及幀間時(shí)序信息,實(shí)現(xiàn)多視角人體動(dòng)作識(shí)別。但是該方法通過無差別提取人體動(dòng)作圖像特征的方式來實(shí)現(xiàn)人體動(dòng)作識(shí)別的過程中,針對(duì)相似度較高人體動(dòng)作的識(shí)別精度較差,難以實(shí)現(xiàn)對(duì)高度相似動(dòng)作的有效區(qū)分。文獻(xiàn)[7]結(jié)合多視角人體動(dòng)作圖像骨骼邊緣信息及運(yùn)動(dòng)特性,通過2D投影子空間實(shí)現(xiàn)多視角動(dòng)作表征,并利用改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)框架綜合提取特征,克服了骨骼點(diǎn)模型在物理結(jié)構(gòu)和視角多樣性方面的局限性。該方法需要定義和計(jì)算骨骼邊緣、運(yùn)動(dòng)方向與大小等特征,增加了特征提取的復(fù)雜性。
在人體動(dòng)作識(shí)別中,顯著性特征可以構(gòu)建出對(duì)視角變化具有魯棒性的動(dòng)作表示,從而提高識(shí)別效果。為此,本文研究一種基于顯著性特征的多視角人體動(dòng)作圖像識(shí)別方法,以期實(shí)現(xiàn)多視角人體動(dòng)作的高精度識(shí)別。
1" 多視角人體動(dòng)作圖像識(shí)別
1.1" 多視角人體動(dòng)作圖像識(shí)別模型總體結(jié)構(gòu)
構(gòu)建一種基于VGG?Net+CA模型的深度學(xué)習(xí)網(wǎng)絡(luò)來實(shí)現(xiàn)多視角人體動(dòng)作圖像識(shí)別。該模型主要包括三個(gè)模塊,分別為顯著性區(qū)域檢測(cè)模塊、基于VGG?Net的顯著性特征提取模塊以及基于CA(上下注意力)的人體動(dòng)作圖像識(shí)別模塊。多視角人體動(dòng)作圖像識(shí)別模型結(jié)構(gòu)如圖1所示。
設(shè)定多視角人體動(dòng)作圖像識(shí)別模型輸入、輸出單元數(shù)量分別為[L]、[M],二者分別對(duì)應(yīng)人體動(dòng)作圖像的[L]個(gè)視角以及[M]個(gè)人體動(dòng)作類型。多視角人體動(dòng)作視頻首先通過顯著性區(qū)域檢測(cè)模塊處理,獲取多個(gè)視角圖像的顯著性區(qū)域序列,并通過拼接獲取多個(gè)視角顯著性區(qū)域拼接圖,將其作為基于VGG?Net的顯著性特征提取模塊的輸入,自動(dòng)獲取多視角融合特征的卷積圖;再將其作為CA模塊的輸入,自動(dòng)突出多視角融合特征的卷積圖中有助于人體動(dòng)作識(shí)別的區(qū)域,輸出多個(gè)視角顯著性區(qū)域拼接圖對(duì)應(yīng)的人體動(dòng)作類別標(biāo)簽的概率值,實(shí)現(xiàn)多視角人體動(dòng)作識(shí)別。
1.2" 多視角人體動(dòng)作圖像顯著性區(qū)域檢測(cè)
采用靜態(tài)顯著性檢測(cè)來降低背景處非顯著區(qū)域的顯著性,突出多視角人體動(dòng)作圖像中人體目標(biāo)顯著性區(qū)域與背景非顯著性區(qū)域的差異[8?9]。
將每個(gè)視角人體動(dòng)作視頻圖像幀劃分成若干像素塊,并計(jì)算像素塊處于顏色空間中的歐氏距離,對(duì)比像素塊[Pi]與剩余像素塊[Pj],組建用于描述顏色空間內(nèi)[Pi]與其余塊之間像素差距大小的[Dcolor(Pi,Pj)],其數(shù)值越大,表示[Pi]對(duì)應(yīng)像素塊的顯著性越優(yōu)于其余像素塊,可被稱為顯著性像素塊。同時(shí)考慮到顯著性區(qū)域的空間距離相對(duì)較近,結(jié)合[Pi]與[Pj]獲取二者的空間距離[Dposition(Pi,Pj)],結(jié)合[Dcolor(Pi,Pj)]和[Dposition(Pi,Pj)]獲取[D(Pi,Pj)]。
[D(Pi,Pj)=Dcolor(Pi,Pj)1+Dposition(Pi,Pj)] (1)
公式(1)用于表征[Pi]與[Pj]之間的顏色距離越大、位置距離越小,則二者之間的差異性越大[10],那么可以認(rèn)為[Pi]具備顯著性。
計(jì)算各個(gè)視角人體動(dòng)作圖像幀的顯著性區(qū)域,將其組建為顯著性區(qū)域序列,表達(dá)式為:
[Rji=(rji,1,rji,2,…,rji,T)] (2)
式中:[T]用于描述人體動(dòng)作視頻的圖像幀總數(shù);[rji,T]用于描述人體動(dòng)作視頻第[T]幀的顯著性區(qū)域。
將多個(gè)視角的人體動(dòng)作顯著性區(qū)域拼接起來,組建顯著性區(qū)域拼接圖序列,表達(dá)式為:
[Ui=(ui,1,ui,2,…,ui,T)ui,t=rji,t, j∈(1,2,…,L)] (3)
式中:[ui,t]用于描述由單一視角人體動(dòng)作顯著性區(qū)域序列組建的顯著性區(qū)域拼接圖序列;[Ui]用于描述由多個(gè)視角的顯著性區(qū)域拼接圖組建的多視角顯著性區(qū)域拼接圖序列,[Ui∈(1,N)],其中[N]用于描述多視角人體動(dòng)作圖像總數(shù)。將[Ui]作為基于VGG?Net的顯著性特征提取模塊的輸入,從中提取出用于人體動(dòng)作識(shí)別的顯著性特征。
1.3" 基于VGG?Net的顯著性特征提取
將VGG?Net網(wǎng)絡(luò)作為多視角人體動(dòng)作圖像顯著性區(qū)域的特征提取網(wǎng)絡(luò),從1.2節(jié)檢測(cè)到的多視角人體動(dòng)作圖像顯著性區(qū)域中有效獲取顯著性區(qū)域的卷積特征圖[11]。
VGG?Net通過不斷堆疊大小為3×3的卷積層和大小為2×2的池化層,組建層數(shù)為18層的深度卷積神經(jīng)網(wǎng)絡(luò),完成輸入多視角顯著性區(qū)域拼接圖序列的特征提取工作[12]。將提取特征圖的大小[Wf×Hf]與輸入拼接圖大小[W×H]以及卷積層參數(shù)之間關(guān)系的表達(dá)式描述為:
[Wf=1+W-F+2QS] (4)
[Hf=1+H-F+2QS] (5)
式中:[F]、[Q]、[S]分別用于描述卷積核尺寸、網(wǎng)絡(luò)填充數(shù)、卷積步長。
激活層處于卷積層之后,其不會(huì)變更輸入多視角人體動(dòng)作圖像顯著性區(qū)域圖像的尺寸,因此輸入圖像在經(jīng)過卷積以及池化處理后圖像尺寸維持恒定。池化層可以降低采樣激活層輸出的尺寸為2×2的非重疊最大值[13]。因此VGG?Net網(wǎng)絡(luò)提取到的多視角人體動(dòng)作圖像顯著性區(qū)域特征圖尺寸為輸入特征的[132],所提取多視角人體動(dòng)作圖像顯著性區(qū)域卷積特征圖的維度為512。
1.4" 基于CA的多視角人體動(dòng)作圖像識(shí)別
將1.3節(jié)VGG?Net網(wǎng)絡(luò)提取到的多視角人體動(dòng)作圖像卷積特征圖作為基于CA的多視角人體動(dòng)作圖像識(shí)別模塊(CA模塊)的輸入。用[et]描述1.3節(jié)提取到的多視角人體動(dòng)作圖像顯著性區(qū)域的卷積特征圖,CA模塊可以從[et]中學(xué)習(xí)到能夠有效凸顯出有利于多視角人體動(dòng)作識(shí)別區(qū)域的注意力地圖[At]。CA模塊堆疊了3個(gè)神經(jīng)元數(shù)量不同(分別為128、256、100)的LSTM(長短期記憶)單元[14],每個(gè)LSTM單元的實(shí)現(xiàn)過程為:
[ct=ft·ct-1+it·gt] (6)
[ht=ot·tanh(ct)] (7)
式中:[it]、[ft]、[ot]、[gt]分別用于描述輸入門、遺忘門、輸出門以及門控狀態(tài);[ct]、[ht]分別用于描述細(xì)胞狀態(tài)以及隱含狀態(tài)。[ct]、[ht]的初始化[c0]、[h0]表達(dá)式為:
[c0=finit,c1Tt=1T1K·Lk=1K·Lxt,k] (8)
[h0=finit,h1Tt=1T1K·Lk=1K·Lxt,k] (9)
式中:[finit,c]、[finit,h]均用于描述具備多層次結(jié)構(gòu)的感知器;[T]、[K·L]分別用于描述拼接后顯著性區(qū)域圖像序列長度、卷積特征圖中各通道的行數(shù)[15];[xt,k]用于描述匯總在各個(gè)通道上的位置元素組建的特征切片。
時(shí)刻[t]的注意力地圖[At]由此時(shí)刻位置[k]重要性的預(yù)測(cè)概率值[at,k]組建,其表達(dá)式為:
[at,k=exp(WTkht-1)β=1K·Lexp(WTβht-1)] (10)
式中[Wk]用于描述權(quán)值。[at,k]的數(shù)值越大,表明該位置在人體動(dòng)作識(shí)別中的重要性越強(qiáng)。
CA模塊的輸入為依據(jù)特征圖中全部位置特征切片求解獲取的下一時(shí)刻期望輸入,用[Xt]描述,表達(dá)式為:
[Xt=k=1K·Lat,kxt,k] (11)
[t]時(shí)刻CA模塊以公式(11)為輸入,通過softmax分類器輸出[t+1]時(shí)刻的注意力地圖[At+1=at+1,k,k∈(1,K·L)]以及[t]時(shí)刻多視角人體動(dòng)作圖像顯著性區(qū)域在[M]個(gè)人體動(dòng)作類型標(biāo)簽上的概率分布預(yù)測(cè)結(jié)果[yi,t],將概率值最大的[yi,t]對(duì)應(yīng)的人體動(dòng)作類別作為最終的識(shí)別結(jié)果。
2" 實(shí)驗(yàn)分析
選取MVHumanNet多視角人體動(dòng)作識(shí)別數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),MVHumanNet中含有4 500個(gè)不同人物的6萬個(gè)動(dòng)作序列和6.45億幀圖像。數(shù)據(jù)集通過多視角捕捉系統(tǒng)獲取,具有豐富的注釋信息,包括人體遮罩、相機(jī)參數(shù)、2D和3D關(guān)鍵點(diǎn)、SMPL/SMPLX參數(shù)和文本描述,其中包含體育活動(dòng)圖像、日常動(dòng)作圖像等60多種動(dòng)作類型。
隨機(jī)選取2張不同視角的體育動(dòng)作圖像,應(yīng)用本文方法進(jìn)行動(dòng)作識(shí)別,識(shí)別結(jié)果如圖2和表1所示。圖2中:圖2a)為從數(shù)據(jù)集中隨機(jī)選取的不同視角的人體動(dòng)作原始圖像;圖2b)為通過本文方法檢測(cè)到的多視角圖像顯著性區(qū)域;圖2c)為VGG?Net?CA模塊從顯著性區(qū)域中獲取的有利于完成人體動(dòng)作特征識(shí)別的凸顯區(qū)域。
綜合分析圖2和表1數(shù)據(jù)可知,本文方法可以有效識(shí)別出不同視角下人體動(dòng)作圖像,并給出正確的動(dòng)作識(shí)別結(jié)果。原因在于顯著性區(qū)域的檢測(cè)以及VGG?Net?CA模塊能夠從檢測(cè)到的顯著性區(qū)域中進(jìn)一步提取出有利于完成人體動(dòng)作特征識(shí)別的凸顯區(qū)域,這些凸顯區(qū)域包含了豐富的動(dòng)作特征信息,二者的結(jié)合為動(dòng)作識(shí)別過程提供了有力的支持。
為進(jìn)一步驗(yàn)證本文方法引入不同模塊對(duì)于多視角人體動(dòng)作識(shí)別效果的貢獻(xiàn),設(shè)計(jì)消融實(shí)驗(yàn)。其中:實(shí)驗(yàn)1為去除顯著性區(qū)域檢測(cè)模塊和CA模塊,直接采用多視角人體動(dòng)作圖像作為VGG?Net的輸入,完成人體動(dòng)作識(shí)別;實(shí)驗(yàn)2為應(yīng)用顯著性區(qū)域檢測(cè)模塊,去除CA模塊,直接利用VGG?Net網(wǎng)絡(luò)輸出識(shí)別結(jié)果;實(shí)驗(yàn)3為應(yīng)用本文方法,即顯著性區(qū)域檢測(cè)模塊、VGG?Net模塊、CA模塊均應(yīng)用。選取Top1、Top5的準(zhǔn)確率為衡量指標(biāo),分別用于描述人體動(dòng)作識(shí)別概率中排名在第1位、第5位的類別即為正確類別。消融實(shí)驗(yàn)結(jié)果如表2所示。
通過分析表2中的消融實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),顯著性區(qū)域檢測(cè)模塊和CA模塊對(duì)于提升多視角人體動(dòng)作識(shí)別的準(zhǔn)確性具有顯著貢獻(xiàn)。實(shí)驗(yàn)1未使用顯著性區(qū)域檢測(cè)模塊和CA模塊,Top1和Top5準(zhǔn)確率相對(duì)較低;實(shí)驗(yàn)2引入顯著性區(qū)域檢測(cè)模塊后,Top1和Top5準(zhǔn)確率均有明顯提升;而實(shí)驗(yàn)3在應(yīng)用顯著性區(qū)域檢測(cè)模塊的基礎(chǔ)上,進(jìn)一步添加了CA模塊,使得Top1和Top5準(zhǔn)確率達(dá)到了最高值,分別為0.91和0.95。這表明本文方法通過整合顯著性區(qū)域檢測(cè)模塊和CA模塊,有效地提高了多視角人體動(dòng)作識(shí)別的準(zhǔn)確性。
3" 結(jié)" 論
本文在公開數(shù)據(jù)集MVHumanNet上進(jìn)行了所提多視角人體動(dòng)作識(shí)別方法的應(yīng)用效果測(cè)試,實(shí)驗(yàn)結(jié)果展示了該方法能夠準(zhǔn)確識(shí)別出不同視角下的人體動(dòng)作。同時(shí)通過設(shè)計(jì)的消融實(shí)驗(yàn)驗(yàn)證,顯著性區(qū)域檢測(cè)模塊和CA模塊在提高多視角人體動(dòng)作識(shí)別的準(zhǔn)確性方面發(fā)揮了重要作用,特別是當(dāng)這兩個(gè)模塊同時(shí)應(yīng)用時(shí),Top1和Top5準(zhǔn)確率分別達(dá)到了0.91和0.95。這充分證明了本文方法通過整合顯著性區(qū)域檢測(cè)模塊和CA模塊,有效地提升了多視角人體動(dòng)作識(shí)別的性能。因此,本文所提出的方法在多視角人體動(dòng)作識(shí)別領(lǐng)域具有較高的應(yīng)用價(jià)值和研究意義。
參考文獻(xiàn)
[1] 白忠玉,丁其川,徐紅麗,等.融合顯著性圖像語義特征的人體相似動(dòng)作識(shí)別[J].中國圖象圖形學(xué)報(bào),2023,28(9):2872?2886.
[2] 孫琪翔,何寧,張聰聰,等.基于輕量級(jí)圖卷積的人體骨架動(dòng)作識(shí)別方法[J].計(jì)算機(jī)工程,2022,48(5):306?313.
[3] 吳子依,陳泯融.融合時(shí)空域注意力模塊的多流卷積人體動(dòng)作識(shí)別[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2023,55(3):119?128.
[4] 陳路飛,張勇,唐永正,等.FP?Net:基于任意角度單幅人體圖像的正面姿態(tài)估計(jì)[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2022,34(10):1604?1612.
[5] CHEN Y S, CHENG K H. BiCLR: radar?camera?based cross?modal bi?contrastive learning for human motion recognition [J]. IEEE sensors journal, 2024, 24(3): 4102?4119.
[6] 楊思佳,辛山,劉悅,等.基于3D ResNet?LSTM的多視角人體動(dòng)作識(shí)別方法[J].電訊技術(shù),2023,63(6):903?910.
[7] 蘇本躍,張鵬,朱邦國,等.投影子空間下基于骨骼邊信息的人體動(dòng)作識(shí)別[J].系統(tǒng)仿真學(xué)報(bào),2024,36(3):555?563.
[8] 謝一博,劉衛(wèi)國,周順,等.基于顯著性的雙鑒別器GAN圖像融合算法[J].應(yīng)用光學(xué),2024,45(1):107?117.
[9] 趙衛(wèi)東,王輝,柳先輝.邊緣信息增強(qiáng)的顯著性目標(biāo)檢測(cè)網(wǎng)絡(luò)[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2024,52(2):293?302.
[10] 王子威,郭苗苗.多視角手部肌肉疲勞動(dòng)作智能識(shí)別方法仿真[J].計(jì)算機(jī)仿真,2024,41(1):238?242.
[11] 李晶晶,黃章進(jìn),鄒露.基于運(yùn)動(dòng)引導(dǎo)圖卷積網(wǎng)絡(luò)的人體動(dòng)作識(shí)別[J].計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào),2024,36(7):1077?1086.
[12] 劉寬,奚小冰,周明東.基于自適應(yīng)多尺度圖卷積網(wǎng)絡(luò)的骨架動(dòng)作識(shí)別[J].計(jì)算機(jī)工程,2023,49(10):264?271.
[13] 杜啟亮,向照夷,田聯(lián)房,等.用于動(dòng)作識(shí)別的雙流自適應(yīng)注意力圖卷積網(wǎng)絡(luò)[J].華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,50(12):20?29.
[14] 楊世強(qiáng),李卓,王金華,等.基于新分區(qū)策略的ST?GCN人體動(dòng)作識(shí)別[J].計(jì)算機(jī)集成制造系統(tǒng),2023,29(12):4040?4050.
[15] 解宇,楊瑞玲,劉公緒,等.基于動(dòng)態(tài)拓?fù)鋱D的人體骨架動(dòng)作識(shí)別算法[J].計(jì)算機(jī)科學(xué),2022,49(2):62?68.
作者簡(jiǎn)介:廖民玲(1979—),女,廣西北海人,副教授,研究方向?yàn)閳D像處理。