• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    DCFF?Net:基于人體骨骼點(diǎn)的雙流跨級(jí)特征融合動(dòng)作識(shí)別網(wǎng)絡(luò)

    2024-11-30 00:00:00余翔連世龍
    現(xiàn)代電子技術(shù) 2024年23期

    摘" 要: 在基于骨骼的動(dòng)作識(shí)別任務(wù)中,骨骼點(diǎn)特征對(duì)于動(dòng)作識(shí)別來說至關(guān)重要。針對(duì)現(xiàn)有方法存在輸入特征不足、特征融合策略粗糙、參數(shù)量大等問題,提出一種基于人體骨骼點(diǎn)的雙流跨級(jí)特征融合網(wǎng)絡(luò)。首先,針對(duì)特征輸入,用歐氏距離骨架特征(EDSF)和余弦角度骨架特征(CASF)兩種局部關(guān)節(jié)特征來表征人體骨骼序列,幫助網(wǎng)絡(luò)識(shí)別不同體態(tài)和體態(tài)相似的人體動(dòng)作;其次,考慮到部分動(dòng)作類別的運(yùn)動(dòng)軌跡與全局運(yùn)動(dòng)的相關(guān)性,引入全局運(yùn)動(dòng)特征(GMF)彌補(bǔ)局部關(guān)節(jié)特征在此類動(dòng)作上識(shí)別精度不足的問題;此外,為了加強(qiáng)不同特征之間的信息交互,提出一種跨級(jí)特征融合模塊(CLFF),對(duì)不同特征層、不同屬性的動(dòng)作特征進(jìn)行特征互補(bǔ),豐富了網(wǎng)絡(luò)的特征形式;最后,網(wǎng)絡(luò)采用一維卷積(Conv1D)進(jìn)行搭建,減輕了模型的計(jì)算負(fù)擔(dān)。實(shí)驗(yàn)結(jié)果表明,所提模型在JHMDB身體動(dòng)作數(shù)據(jù)集上獲得了84.1%的識(shí)別準(zhǔn)確率,在SHREC手勢(shì)動(dòng)作數(shù)據(jù)集上分別獲得了97.4%(粗糙數(shù)據(jù)集)和95%(精確數(shù)據(jù)集)的識(shí)別準(zhǔn)確率,取得了與先進(jìn)方法相當(dāng)?shù)男阅堋?/p>

    關(guān)鍵詞: 動(dòng)作識(shí)別; 骨架特征; 運(yùn)動(dòng)軌跡; 局部關(guān)節(jié)特征; 全局運(yùn)動(dòng)特征; 跨級(jí)特征融合

    中圖分類號(hào): TN911.73?34; TP391" " " " " " " " " "文獻(xiàn)標(biāo)識(shí)碼: A" " " " " " " " " 文章編號(hào): 1004?373X(2024)23?0081?08

    DCFF?Net: Dual?stream cross?level feature fusion network

    for skeleton?based action recognition

    YU Xiang, LIAN Shilong

    (School of Communications and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China)

    Abstract: In the skeleton?based action recognition task, skeleton features are crucial for action recognition. In view of the insufficient input features, rough feature fusion strategies, and a large number of parameters in the existing methods, a dual?stream cross?level feature fusion network (DCFF?Net) based on skeleton is proposed. For feature input, two local joint features, Euclidean distance skeleton features (EDSF) and cosine angle skeleton features (CASF), are used to characterize the human skeleton sequence to help the network identify human body movements in different postures and similar postures. Considering the correlation between the motion trajectories of some action categories and global motion, global motion features (GMF) are introduced to make up for the lack of recognition accuracy of local joint features in such actions. In addition, in order to strengthen the information interaction among different features, a cross?level feature fusion (CLFF) module is proposed to complement the action features of different feature layers and different attributes, which enriches the characteristics of the network form. The network is built with Conv1D, which reduces the computational burden of the model. Experimental results show that the proposed model achieves a recognition accuracy of 84.1% on the body action dataset JHMDB and 97.4% (coarse dataset) and 95% (fine dataset) on the gesture action dataset SHREC. To sum up, the proposed network achieves the performance comparable to the advanced methods.

    Keywords: action recognition; skeleton feature; motion trajectory; local joint feature; global motion feature; cross?level feature fusion

    0" 引" 言

    人體動(dòng)作識(shí)別是計(jì)算機(jī)視覺領(lǐng)域的熱門研究方向之一,在人機(jī)交互、醫(yī)療康復(fù)、智能監(jiān)控等領(lǐng)域應(yīng)用廣泛[1?4]。對(duì)于人體動(dòng)作識(shí)別任務(wù),有不同的數(shù)據(jù)輸入模態(tài),主要包括RGB視頻、人體骨架序列、深度圖等[5?9]。相較于RGB視頻和深度圖序列,人體骨骼點(diǎn)數(shù)據(jù)只包含人體的動(dòng)作姿態(tài)信息,具有數(shù)據(jù)量少、復(fù)雜度低、不易受背景光照影響等特點(diǎn),更加符合人體動(dòng)作在運(yùn)動(dòng)中的實(shí)際變化[10]。此外,人體骨骼點(diǎn)數(shù)據(jù)可以減少隱私泄露。因此,基于人體骨骼點(diǎn)的動(dòng)作識(shí)別方法受到了越來越多學(xué)者的關(guān)注。

    目前,基于骨骼點(diǎn)的動(dòng)作識(shí)別任務(wù)還存在著以下挑戰(zhàn)。

    1) 人體骨骼點(diǎn)數(shù)據(jù)量大且存在冗余信息,現(xiàn)有的方法對(duì)于骨骼點(diǎn)特征的表征十分單一,有些只關(guān)注到了局部關(guān)節(jié)特征,而有些只關(guān)注到了全局運(yùn)動(dòng)特征(Global Motion Feature, GMF)。所以如何從大量冗余數(shù)據(jù)中找出理想的骨骼點(diǎn)表征形式顯得尤為重要。

    2) 現(xiàn)有的動(dòng)作識(shí)別方法不能同時(shí)兼顧輕量化和準(zhǔn)確率兩項(xiàng)指標(biāo),所以要探索構(gòu)建出最適合提取骨骼點(diǎn)特征的學(xué)習(xí)網(wǎng)絡(luò),同時(shí)保證網(wǎng)絡(luò)的參數(shù)量和復(fù)雜度較低,來實(shí)現(xiàn)高準(zhǔn)確率、強(qiáng)魯棒性的輕量化識(shí)別模型。

    針對(duì)以上問題,受到文獻(xiàn)[11]的啟發(fā),本文提出了一種基于人體骨骼點(diǎn)的雙流跨級(jí)特征融合動(dòng)作識(shí)別網(wǎng)絡(luò)(DCFF?Net),主要研究如下。

    1) 引入了雙流特征輸入,將局部關(guān)節(jié)特征和全局運(yùn)動(dòng)特征同時(shí)輸入到網(wǎng)絡(luò),以增加網(wǎng)絡(luò)對(duì)于不同動(dòng)作和相似動(dòng)作的識(shí)別準(zhǔn)確率,并且提升網(wǎng)絡(luò)的魯棒性。

    2) 提出了一種跨級(jí)特征融合模塊(Cross?level Feature Fusion, CLFF),將局部特征和全局特征進(jìn)行跨級(jí)融合,增加不同層級(jí)特征之間的信息交互,幫助網(wǎng)絡(luò)獲取不同特征之間的細(xì)節(jié)信息。

    3) 網(wǎng)絡(luò)整體采用一維卷積進(jìn)行搭建,大大減少了模型的參數(shù)量和復(fù)雜度。

    4) 在JHMDB和SHREC數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文所提出的方法滿足輕量化的應(yīng)用要求,取得了與先進(jìn)方法相當(dāng)?shù)男阅堋?/p>

    1" 雙流跨級(jí)特征融合網(wǎng)絡(luò)

    1.1" 總體架構(gòu)

    網(wǎng)絡(luò)整體由特征輸入、特征提取、特征融合三部分構(gòu)成,如圖1所示。在特征輸入部分,總共有四種特征輸入流,分別為歐氏距離骨架特征(Euclidean Distance Skeleton Feature, EDSF)、余弦角度骨架特征(Cosine Angle Skeleton Feature, CASF)、全局慢速動(dòng)作特征(GSMF)、全局快速動(dòng)作特征(GFMF)。對(duì)于EDSF、CASF、GSMF特征,幀數(shù)設(shè)置為32幀,而GFMF特征幀數(shù)設(shè)置為16幀,然后將他們分別輸入特征提取器網(wǎng)絡(luò)中的長(zhǎng)幀特征提取模塊(LFFE)和短幀特征提取模塊(SFFE),接著通過Concat操作拼接四種不同的特征,送入特征融合網(wǎng)絡(luò)。在特征融合階段,將LFFE和SFFE模塊提取的各級(jí)骨骼點(diǎn)特征通過CLFF模塊與Concat之后的各級(jí)特征進(jìn)行逐層融合,最后經(jīng)過全局平均池化層和全連接層輸出識(shí)別結(jié)果。

    1.2" 雙流特征輸入

    1.2.1" 局部關(guān)節(jié)特征

    人體局部關(guān)節(jié)點(diǎn)之間的特征也稱為位置視點(diǎn)不變特征。在人體運(yùn)動(dòng)的過程中,相鄰關(guān)節(jié)點(diǎn)之間的聯(lián)系是非常緊密的。如圖2所示,當(dāng)人體骨架序列進(jìn)行翻轉(zhuǎn)或者旋轉(zhuǎn)時(shí),關(guān)節(jié)點(diǎn)的坐標(biāo)發(fā)生了改變,而關(guān)節(jié)點(diǎn)之間的距離和角度其實(shí)是沒有發(fā)生改變的,這種特征具有位置視點(diǎn)不變性,能夠很好地表征關(guān)節(jié)點(diǎn)之間的局部特征關(guān)系。

    將第[k]幀、第[n]個(gè)關(guān)節(jié)點(diǎn)的2D坐標(biāo)表示為[Jkn=x,y],同理,關(guān)節(jié)點(diǎn)的3D坐標(biāo)表示為[Jkn=x,y,z],那么第[k]幀所有關(guān)節(jié)點(diǎn)的集合表示為[Sk=Jk1,Jk2,…,Jkn]。

    通過歐氏距離公式表示任意兩個(gè)關(guān)節(jié)點(diǎn)之間的距離,并將其轉(zhuǎn)化為下三角矩陣的形式,那么第[k]幀的EDSF可以用如下矩陣表示:

    [EDSFk=Jk1Jk2??Jk1JkN…JkNJkN] (1)

    式中:[JkiJkji≠j]表示關(guān)節(jié)點(diǎn)[i]到關(guān)節(jié)點(diǎn)[j]的歐氏距離,[k]代表第[k]幀,每個(gè)動(dòng)作由32幀組成;[N]代表每幀的關(guān)節(jié)點(diǎn)個(gè)數(shù)。

    CASF特征的引入主要是因?yàn)樵诓煌臄?shù)據(jù)集中,對(duì)于一些體態(tài)相似的動(dòng)作,EDSF特征無法達(dá)到很好的識(shí)別性能。為了進(jìn)一步論證EDSF特征存在的問題,分析了JHMDB數(shù)據(jù)集中不同動(dòng)作的視頻幀。圖3a)、圖3b)展示了數(shù)據(jù)集中撿和坐這兩個(gè)動(dòng)作,發(fā)現(xiàn)這兩個(gè)動(dòng)作在運(yùn)動(dòng)過程中都會(huì)出現(xiàn)一個(gè)彎腰的狀態(tài),而這種情況就會(huì)對(duì)網(wǎng)絡(luò)的識(shí)別造成干擾。為了更加清晰地分析這兩個(gè)動(dòng)作,將其通過2D關(guān)節(jié)點(diǎn)序列進(jìn)行表征。從圖3c)、圖3d)可以發(fā)現(xiàn)兩個(gè)動(dòng)作的EDSF特征是相近的,但是這兩個(gè)動(dòng)作在彎腰時(shí)人體臀腿之間的關(guān)節(jié)角度卻是不一樣的。由此可見,對(duì)于相似的動(dòng)作,EDSF特征不能很好地幫助網(wǎng)絡(luò)進(jìn)行識(shí)別,反而會(huì)成為噪聲干擾因素。因此,在網(wǎng)絡(luò)中引入余弦角度骨架特征,幫助網(wǎng)絡(luò)區(qū)分體態(tài)相似的動(dòng)作類別。

    在獲得了關(guān)節(jié)點(diǎn)的坐標(biāo)向量之后,先計(jì)算坐標(biāo)向量之間的余弦相似度,然后使用反余弦函數(shù)來計(jì)算兩個(gè)關(guān)節(jié)點(diǎn)之間的角度。第[k]幀兩個(gè)關(guān)節(jié)點(diǎn)之間的角度可以用如下公式計(jì)算:

    [Angle(Jki,Jkj)=DegreearccosJki?JkjJkiJkj] (2)

    式中:[Degree(Jki,Jkj)]表示求兩個(gè)關(guān)節(jié)點(diǎn)之間的角度;arccos為反余弦函數(shù);[Jki?JkjJkiJkj]表示求兩個(gè)關(guān)節(jié)點(diǎn)向量之間的余弦相似度。

    利用[Angle(Jki,Jkj)]求得關(guān)節(jié)點(diǎn)之間的角度后,再將其轉(zhuǎn)化為上三角形矩陣的形式。第[k]幀的CASF表示為如下矩陣:

    [CASFk=AngleJk1,Jk2…AngleJk1,JkN??AngleJkN,JkN] (3)

    同時(shí),為了將兩種特征進(jìn)行充分融合,將兩個(gè)特征矩陣進(jìn)行拼接,最終得到如下的特征矩陣形式:

    [Feature Matrix=……AngleJk1,JkN-1AngleJk1,JkN???AngleJk2,JkNJkN-1Jk1…??JkNJk1JkNJk2……] (4)

    1.2.2" 全局運(yùn)動(dòng)特征

    局部關(guān)節(jié)特征使得網(wǎng)絡(luò)具備了位置視點(diǎn)不變特性,但是只在網(wǎng)絡(luò)中加入這種特征是單一且不充分的。如圖4所示,當(dāng)在做揮手這個(gè)動(dòng)作時(shí),手部的各個(gè)關(guān)節(jié)點(diǎn)之間的局部特征并沒有發(fā)生變化,相反整個(gè)手的關(guān)節(jié)點(diǎn)坐標(biāo)發(fā)生了改變。所以,當(dāng)動(dòng)作涉及到全局的運(yùn)動(dòng)軌跡時(shí),僅僅靠局部關(guān)節(jié)特征是不夠的。通過計(jì)算動(dòng)作幀之間的時(shí)間間隔來表征全局運(yùn)動(dòng),同時(shí),通過取不同的幀間隔將全局運(yùn)動(dòng)特征細(xì)分為GFMF特征和GSMF特征。全局運(yùn)動(dòng)特征可以通過下面的公式計(jì)算得到。

    [GFMFk=JCk+2-JCk," " k∈{1,3,…,k-2}GSMFk=JCk+1-JCk," " k∈{1,2,…,k-1}] (5)

    式中:[k]代表第[k]幀;JC表示每幀關(guān)節(jié)點(diǎn)的笛卡爾坐標(biāo)。

    1.3" 跨級(jí)特征融合模塊

    雖然在網(wǎng)絡(luò)中同時(shí)引入了局部關(guān)節(jié)特征和全局運(yùn)動(dòng)特征,但是多特征的輸入形式需要有效的特征融合結(jié)構(gòu)對(duì)不同特征進(jìn)行信息交互?,F(xiàn)有的一些文獻(xiàn)采用特征串聯(lián)或者是簡(jiǎn)單地將特征在最后一層進(jìn)行相連,但是這些方法的融合操作較為粗糙,不能充分挖掘不同層級(jí)和不同特征之間的特征信息。由此,設(shè)計(jì)了一種跨級(jí)特征融合模塊(CLFF),使用跳躍方式連接不同層級(jí)之間的特征,這種方式不僅加強(qiáng)了網(wǎng)絡(luò)對(duì)于不同關(guān)節(jié)特征的捕捉能力,同時(shí)也能將淺層特征和深層特征進(jìn)行有效地融合,讓網(wǎng)絡(luò)學(xué)習(xí)到更加復(fù)雜的特征表達(dá)。對(duì)于局部關(guān)節(jié)特征EDSF和CASF與全局運(yùn)動(dòng)特征GFMF和GSMF分別設(shè)計(jì)了兩個(gè)CLFF模塊,每一個(gè)CLFF模塊都是由三個(gè)卷積塊組成,每一個(gè)卷積塊又分別由一維卷積(Conv1D)、批歸一化層(BN)、激活函數(shù)(LeakyReLU)、Dropout函數(shù)、最大池化層(MaxPooling)組成,如圖5所示。

    網(wǎng)絡(luò)中特征輸入形式為[(B,C,N)],其中[B]為batch_size,[C]為特征幀數(shù),默認(rèn)為32,[N]代表特征維度,對(duì)于JHMDB和SHREC這兩種不同的數(shù)據(jù)集,[N]分別為105和231。CLFF模塊中的三個(gè)卷積塊分別對(duì)應(yīng)LFFE模塊和SFFE模塊的三個(gè)卷積塊,每個(gè)卷積塊都將進(jìn)行一次跨級(jí)特征融合操作,分別與特征融合階段的各層級(jí)特征進(jìn)行融合。LFFE和SFFE模塊內(nèi)部網(wǎng)絡(luò)構(gòu)成如圖6所示。從圖6中可以看到,網(wǎng)絡(luò)中的長(zhǎng)短幀特征提取模塊LFFE和SFFE都包含了三個(gè)一維卷積塊,主要的不同在于LFFE模塊增加了一個(gè)MaxPooling層,以保證兩個(gè)特征提取通道的特征保持相同的幀數(shù),以進(jìn)行后續(xù)的Concat操作。CLFF模塊中的最大池化層MaxPooling的作用主要是為了設(shè)置不同層級(jí)特征的通道數(shù),方便進(jìn)行特征融合。對(duì)于EDSF和CASF,CLFF模塊中的MaxPooling的步長(zhǎng)分別設(shè)置為4、8、4,對(duì)于GFMF和GSMF特征,MaxPooling的步長(zhǎng)設(shè)置為2、4、4。對(duì)于EDSF和CASF,CLFF模塊的處理過程表示為:

    [EmBed1(EDSF,CASF)→EmBed2(EDSF,CASF)→EmBed1(EDSF,CASF)] (6)

    對(duì)于GFMF和GSMF特征,CLFF模塊的處理過程表示為:

    [EmBed1(GFMF,GSMF)→EmBed2(GFMF,GSMF)→EmBed1(GFMF,GSMF)] (7)

    [EmBed1]和[EmBed2]的定義如下所示:

    [EmBed1=MLRBNConv1D(1,x)EmBed2=MLRBNConv1D(3,x)] (8)

    式中:數(shù)字1和3代表一維卷積核的大小。

    2" 實(shí)驗(yàn)結(jié)果與分析

    2.1" 數(shù)據(jù)集

    JHMDB數(shù)據(jù)集[12]是對(duì)HMDB51數(shù)據(jù)集[13]的二次標(biāo)注。JHMDB從HMDB51中提取了21個(gè)動(dòng)作類別的928個(gè)視頻剪輯,其中每個(gè)動(dòng)作類別包含36~55個(gè)視頻剪輯,每個(gè)視頻剪輯包含15~40幀。本文選取JHMDB數(shù)據(jù)集中的14個(gè)動(dòng)作類別,并且只使用2D關(guān)節(jié)點(diǎn)坐標(biāo)進(jìn)行動(dòng)作識(shí)別。

    SHREC數(shù)據(jù)集[14]是一個(gè)關(guān)于手勢(shì)識(shí)別的數(shù)據(jù)集,考慮到手運(yùn)動(dòng)和手形狀變化的差異,數(shù)據(jù)集根據(jù)手勢(shì)使用手指的數(shù)量細(xì)分為14個(gè)手勢(shì)類別的粗糙數(shù)據(jù)集(Coarse Datasets)和28個(gè)手勢(shì)類別的精確數(shù)據(jù)集(Fine Datasets)。對(duì)于該數(shù)據(jù)集,按照官方[11]的樣本劃分規(guī)則,將1 960段序列樣本作為訓(xùn)練集,840段序列樣本用作測(cè)試集。

    2.2" 實(shí)驗(yàn)設(shè)置

    本文所有實(shí)驗(yàn)均在PyTorch框架上進(jìn)行,使用Python 3.9和CUDA 11.7。GPU為NVIDIA" RTX" A5000 24 GB顯存,CPU為Intel[?] CoreTM i9?13900K。選用Adam優(yōu)化器計(jì)算移動(dòng)平均梯度和移動(dòng)平均平方梯度,其中,[β1]和[β2]兩個(gè)參數(shù)用于控制兩個(gè)指數(shù)加權(quán)平均的衰減率,分別設(shè)置為[β1]=0.9,[β2]=0.999。對(duì)于輸入的骨架序列,設(shè)置為32幀。對(duì)于超參數(shù),設(shè)置初始學(xué)習(xí)率為0.002,epoch為600,batch_size為512。

    2.3" 消融實(shí)驗(yàn)

    2.3.1" 雙流特征輸入的有效性實(shí)驗(yàn)

    為了驗(yàn)證雙流特征輸入的有效性,在網(wǎng)絡(luò)中依次加入局部關(guān)節(jié)特征和全局運(yùn)動(dòng)特征,觀察單個(gè)動(dòng)作類別準(zhǔn)確率的變化,結(jié)果如表1、表2所示。表1顯示了JHMDB數(shù)據(jù)集的部分單個(gè)動(dòng)作的識(shí)別率,這些動(dòng)作涉及到了局部關(guān)節(jié)運(yùn)動(dòng)以及全局運(yùn)動(dòng)。引入EDSF特征,此時(shí)揮手、坐、撿等動(dòng)作的識(shí)別準(zhǔn)確率較低。在EDSF特征的基礎(chǔ)上,引入全局運(yùn)動(dòng)特征,揮手這個(gè)動(dòng)作的識(shí)別準(zhǔn)確率有一定程度上的提高,對(duì)于涉及全局運(yùn)動(dòng)軌跡的動(dòng)作,如跳躍、引體向上,識(shí)別準(zhǔn)確率都得到了提高,這說明全局運(yùn)動(dòng)特征能夠更好地表征此類動(dòng)作特征。在網(wǎng)絡(luò)中引入CASF特征,發(fā)現(xiàn)對(duì)于坐和撿這兩種體態(tài)相似的動(dòng)作,網(wǎng)絡(luò)的識(shí)別準(zhǔn)確率有大幅度的提升,這也驗(yàn)證了CASF特征能夠彌補(bǔ)EDSF特征的不足,幫助網(wǎng)絡(luò)識(shí)別區(qū)分容易混淆的動(dòng)作,增強(qiáng)網(wǎng)絡(luò)的識(shí)別能力。

    表2展示了網(wǎng)絡(luò)在SHREC數(shù)據(jù)集14個(gè)手勢(shì)類別上的識(shí)別結(jié)果,當(dāng)網(wǎng)絡(luò)中只有單一的局部特征時(shí),一些手勢(shì)動(dòng)作的識(shí)別準(zhǔn)確率并不理想,當(dāng)網(wǎng)絡(luò)中引入全局運(yùn)動(dòng)特征后,部分手勢(shì)動(dòng)作的識(shí)別準(zhǔn)確率得到了明顯的提高,這說明對(duì)于基于關(guān)節(jié)點(diǎn)的動(dòng)作識(shí)別來說,局部關(guān)節(jié)特征和全局運(yùn)動(dòng)特征能夠相互彌補(bǔ)特征不足,相比于單通道的特征輸入,雙流特征輸入有利于后期網(wǎng)絡(luò)的特征提取和融合。

    2.3.2" CLFF模塊的有效性實(shí)驗(yàn)

    本文總共進(jìn)行兩組實(shí)驗(yàn)來驗(yàn)證本文模塊的有效性。在本組實(shí)驗(yàn)中,默認(rèn)在網(wǎng)絡(luò)中引入了局部關(guān)節(jié)特征與全局運(yùn)動(dòng)特征,實(shí)驗(yàn)結(jié)果如表3、表4所示。

    第一組實(shí)驗(yàn),首先改變CLFF模塊的層數(shù),來研究CLFF模塊深度對(duì)網(wǎng)絡(luò)性能的影響。CLFF模塊的基本層數(shù)分別設(shè)置為1、2、3。從表3、表4中可以看到,在JHMDB和SHREC兩個(gè)數(shù)據(jù)集上,隨著層數(shù)的增加,DCFF?Net的識(shí)別準(zhǔn)確率在穩(wěn)步提高,在[L]=3時(shí)達(dá)到飽和,同時(shí)網(wǎng)絡(luò)整體的參數(shù)量也在隨之而增加。從中可以看出,CLFF模塊能夠起到融合不同層級(jí)間特征的作用,對(duì)網(wǎng)絡(luò)的識(shí)別性能有積極的正向作用。因?yàn)閇L]=3時(shí)網(wǎng)絡(luò)的識(shí)別性能最好,并且參數(shù)量只有一定范圍的增長(zhǎng),所以在實(shí)驗(yàn)中選擇[L]=3。

    第二組實(shí)驗(yàn),為了驗(yàn)證所提出的跨級(jí)特征融合模塊的有效性,比較了三種不同的特征融合策略,結(jié)果如表5所示。其中,網(wǎng)絡(luò)的表示如下:

    1) DCFF?NetLocal表示只對(duì)局部關(guān)節(jié)特征進(jìn)行跨級(jí)特征融合;

    2) DCFF?NetGlobal表示只對(duì)全局運(yùn)動(dòng)特征進(jìn)行跨級(jí)特征融合;

    3) DCFF?NetAll表示對(duì)兩種特征進(jìn)行跨級(jí)特征融合。

    從表5中可以看到,DCFF?NetAll的識(shí)別性能優(yōu)于其他兩種融合策略,這說明了只融合局部關(guān)節(jié)特征或者是全局運(yùn)動(dòng)特征并不能達(dá)到最理想的識(shí)別性能,而本文所提出的特征融合結(jié)構(gòu)是最有效的。同時(shí)也證明了在基于人體骨骼點(diǎn)的動(dòng)作識(shí)別任務(wù)中,局部關(guān)節(jié)特征和全局運(yùn)動(dòng)特征給網(wǎng)絡(luò)帶來的信息是同等重要的。CLFF模塊通過將不同層級(jí)之間不同維度的特征進(jìn)行跨級(jí)融合,從而能夠更好地挖掘局部與全局特征之間的互補(bǔ)特征,幫助網(wǎng)絡(luò)區(qū)分不同和形似的動(dòng)作形態(tài)。

    2.4" 與先進(jìn)方法的比較實(shí)驗(yàn)

    為了進(jìn)一步驗(yàn)證本文提出方法的優(yōu)越性,在JHMDB、SHREC數(shù)據(jù)集上將所提出的方法與一些經(jīng)典方法以及先進(jìn)的動(dòng)作識(shí)別方法進(jìn)行比較,其中包含了基于CNN網(wǎng)絡(luò)的方法、基于GCN網(wǎng)絡(luò)的方法和基于RNN網(wǎng)絡(luò)的方法,使用這些方法在其原始論文中報(bào)告的精度。表6、表7顯示了在兩個(gè)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率比較結(jié)果。其中:R、F、P、H、S、C分別代表RGB?Images、Optical Flow、Pose、Heat Maps、Skeleton and Point Clouds;“—”表示論文沒有提供相應(yīng)的結(jié)果。

    如表6所示,在JHMDB數(shù)據(jù)集上,本文提出的方法的識(shí)別準(zhǔn)確率達(dá)到了84.1%,優(yōu)于現(xiàn)有的方法,達(dá)到了最好的識(shí)別性能。與經(jīng)典的動(dòng)作識(shí)別方法PoTion[16]和Chained Net[15]相比,識(shí)別準(zhǔn)確率分別提升了16.2%和27.3%,從中可以看出本文所提出的方法相比于經(jīng)典的人體骨骼點(diǎn)識(shí)別方法具有優(yōu)越性。與DD?Net[11]相比,雖在參數(shù)量上有0.2×106參數(shù)量的增加,但是在識(shí)別精度上卻提升了6.9%。DD?Net在網(wǎng)絡(luò)結(jié)構(gòu)上沒有使用特征融合策略,忽視了不同層級(jí)之間的特征交互。如表7所示,在SHREC數(shù)據(jù)集上,對(duì)于14 Gestures類別,本文方法的識(shí)別準(zhǔn)確率為97.4%,超越了先進(jìn)方法PSUMNet[25]和MS?ISTGCN[26]。DSTANet[21]在識(shí)別性能上與本文方法相當(dāng),但是其采用的網(wǎng)絡(luò)完全基于自注意力機(jī)制,忽略了骨骼數(shù)據(jù)在時(shí)間和空間上的維度信息。雖然其提出了解耦方法來平衡骨骼點(diǎn)序列的時(shí)間與空間的獨(dú)立性,但是這也使得網(wǎng)絡(luò)產(chǎn)生了更多的參數(shù)量。對(duì)于28 Gestures類別,TD?GCN[27]略微優(yōu)于本文的方法,原因主要是前者采用時(shí)間相關(guān)的鄰接矩陣來學(xué)習(xí)人體骨架的拓?fù)浣Y(jié)構(gòu),并且此方法使用的GCN網(wǎng)絡(luò)能夠從時(shí)間和空間上提取特征,而本文方法基于CNN網(wǎng)絡(luò),缺乏在時(shí)間維度上的特征提取能力。

    3" 結(jié)" 語

    本文提出一種基于人體骨骼點(diǎn)的雙流跨級(jí)特征融合動(dòng)作識(shí)別網(wǎng)絡(luò)(DCFF?Net)。首先,在網(wǎng)絡(luò)特征輸入部分引入了雙流特征輸入,將局部關(guān)節(jié)特征和全局運(yùn)動(dòng)特征進(jìn)行融合,幫助網(wǎng)絡(luò)區(qū)分不同動(dòng)作和體態(tài)相近的動(dòng)作,增強(qiáng)了網(wǎng)絡(luò)的魯棒性;其次,在網(wǎng)絡(luò)結(jié)構(gòu)上設(shè)計(jì)了一種跨級(jí)特征融合模塊(CLFF)來構(gòu)建不同層級(jí)之間的特征信息交互,使得網(wǎng)絡(luò)能夠獲取更多有用的人體骨骼點(diǎn)信息。實(shí)驗(yàn)結(jié)果表明,本文提出的方法在基于人體骨骼點(diǎn)的動(dòng)作識(shí)別任務(wù)中取得了與先進(jìn)方法相當(dāng)?shù)淖R(shí)別性能,網(wǎng)絡(luò)的參數(shù)量也較少。但本文方法對(duì)于一些復(fù)雜相近動(dòng)作特征的區(qū)分能力不是很強(qiáng),所以在未來的工作中,將嘗試加入更多的附加特征信息如RGB圖像、熱力圖等,幫助網(wǎng)絡(luò)獲取更多的特征信息,并進(jìn)一步研究適用于人體結(jié)構(gòu)特征的網(wǎng)絡(luò)結(jié)構(gòu)。

    注:本文通訊作者為連世龍。

    參考文獻(xiàn)

    [1] DUAN H D, ZHAO Y, CHEN K, et al. Revisiting skeleton?based action recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2022: 2959?2968.

    [2] ZHENG H, ZHANG B, LIN J, et al. A two?stage modality fusion approach for recognizing human actions [J]. IEEE sensors journal, 2023(22): 23.

    [3] XIN W T, LIU R Y, LIU Y, et al. Transformer for skeleton?based action recognition: A review of recent advances [J]. Neurocomputing, 2023, 537: 164?186.

    [4] KE L, PENG K C, Lü S. Towards To?a?T spatio?temporal focus for skeleton?based action recognition [C]// Proceedings of the AAAI Conference on Artificial Intelligence. [S.l.: s.n.], 2022: 1131?1139.

    [5] ZHEN R, SONG W C, HE Q, et al. Human?computer interaction system: A survey of talking?head generation [J]. Electronics, 2023, 12(1): 218.

    [6] SINGH K, DHIMAN C, VISHWAKARMA D K, et al. A sparse coded composite descriptor for human activity recognition [J]. Expert systems, 2022, 39(1): e12805.

    [7] 黃鎮(zhèn).基于深度學(xué)習(xí)的高效動(dòng)作識(shí)別算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2022.

    [8] YOON Y, YU J, JEON M. Predictively encoded graph convolutional network for noise?robust skeleton?based action recognition [J]. Applied intelligence, 2022(3): 2317?2331.

    [9] SáNCHEZ?CABALLERO A, FUENTES?JIMéNEZ D, LOSADA?GUTIéRREZ C. Real?time human action recognition using raw depth video?based recurrent neural networks [J]. Multimedia tools and applications, 2023, 82(11): 16213?16235.

    [10] WANG C L, YAN J J. A comprehensive survey of RGB?based and skeleton?based human action recognition [J]. IEEE access, 2023, 11: 53880?53898.

    [11] YANG F, WU Y, SAKTI S, et al. Make skeleton?based action recognition model smaller, faster and better [C]// Proceedings of the 1st ACM International Conference on Multimedia in Asia. New York: ACM, 2019: 1?6.

    [12] GHORBANI S, MAHDAVIANI K, THALER A, et al. MoVi: A large multipurpose motion and video dataset [J]. Plos one, 2021, 16(6): e0253157.

    [13] KUEHNE H, JHUANG H, GARROTE E, et al. HMDB51: A large video database for human motion recognition [C]// 2011 International Conference on Computer Vision. [S.l.: s.n.], 2011: 2556?2563.

    [14] LI C K, LI S, GAO Y B, et al. A two?stream neural network for pose?based hand gesture recognition [J]. IEEE transactions on cognitive and developmental systems, 2022, 14(4): 1594?1603.

    [15] ZOLFAGHARI M, OLIVEIRA G L, SEDAGHAT N, et al. Chained multi?stream networks exploiting pose, motion, and appearance for action classification and detection [C]// Proceedings of the IEEE International Conference on Computer Vision. New York: IEEE, 2017: 2923?2932.

    [16] CHOUTAS V, WEINZAEPFEL P, REVAUD J, et al. Potion: Pose moTion representation for action recognition [C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2018: 7024?7033.

    [17] ASGHARI?ESFEDEN S, SZNAIER M, CAMPS O I. Dynamic motion representation for human action recognition [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2020: 546?555.

    [18] LUDL D, GULDE T, CURIO C. Simple yet efficient real?time pose?based action recognition [C]// 2019 IEEE Intelligent Transportation Systems Conference (ITSC). New York: IEEE, 2019: 581?588.

    [19] SHAH A, MISHRA S, BANSAL A, et al. Pose and joint?aware action recognition [C]// Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. New York: IEEE, 2022: 141?151.

    [20] MIN Y C, ZHANG Y X, CHAI X J, et al. An efficient PointLSTM for point clouds based gesture recognition [C]// Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5760?5769.

    [21] SHI L, ZHANG Y, CHENG J, et al. Decoupled spatial?temporal attention network for skeleton?based action?gesture recognition [C]// Proceedings of the Asian Conference on Computer Vision. Heidelberg: Springer, 2020: 38?53.

    [22] SHIN S, KIM W Y. Skeleton?based dynamic hand gesture recognition using a part?based GRU?RNN for gesture?based interface [J]. IEEE access, 2020, 8: 50236?50243.

    [23] LIU J B, LIU Y C, WANG Y, et al. Decoupled representation learning for skeleton?based gesture recognition [C]// Procee?dings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York: IEEE, 2020: 5750?5759.

    [24] SABATER A, ALONSO I, MONTESANO L, et al. Domain and view?point agnostic hand action recognition [J]. IEEE robotics and automation letters, 2021, 6(4): 7823?7830.

    [25] TRIVEDI N, SARVADEVABHATLA R K. PSUMNet: Unified modality part streams are all you need for efficient pose?based action recognition [C]// European Conference on Computer Vision. Heidelberg: Springer, 2022: 211?227.

    [26] SONG J H, KONG K, KANG S J. Dynamic hand gesture recognition using improved spatio?temporal graph convolutional network [J]. IEEE transactions on circuits and systems for video technology, 2022, 32(9): 6227?6239.

    [27] LIU J F, WANG X S, WANG C, et al. Temporal decoupling graph convolutional network for skeleton?based gesture recognition [J]. IEEE transactions on multimedia, 2023, 26: 811?823.

    作者簡(jiǎn)介:余" 翔(1969—),男,重慶人,碩士研究生,教授,研究方向?yàn)橛?jì)算機(jī)視覺、人工智能、移動(dòng)邊緣計(jì)算等。

    連世龍(2000—),男,江蘇南京人,碩士研究生,研究方向?yàn)橛?jì)算機(jī)視覺。

    岑巩县| 梁平县| 绥中县| 太仓市| 合水县| 顺义区| 滕州市| 鲁山县| 清远市| 井陉县| 北流市| 游戏| 普洱| 江华| 静宁县| 积石山| 新竹县| 和田县| 景泰县| 白朗县| 和硕县| 安西县| 富阳市| 论坛| 尼木县| 沐川县| 株洲市| 津市市| 沅陵县| 京山县| 大足县| 石城县| 神木县| 金川县| 涡阳县| 旬邑县| 古田县| 洛隆县| 宝应县| 新竹县| 前郭尔|