• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    融合內(nèi)外依賴的人體骨架動作識別模型

    2023-11-20 10:58:30毛國君王一錦
    計算機工程與應(yīng)用 2023年21期
    關(guān)鍵詞:骨架卷積人體

    毛國君,王一錦

    1.福建工程學(xué)院 計算機科學(xué)與數(shù)學(xué)學(xué)院,福州 350118

    2.福建工程學(xué)院 福建省大數(shù)據(jù)挖掘與應(yīng)用重點實驗室,福州 350118

    作為計算機視覺的一個活躍分支,人體動作識別對于視頻理解和分析起著重要作用,目前已經(jīng)被廣泛應(yīng)用于應(yīng)急檢測[1]、人機交互[2]等領(lǐng)域。人體動作識別可以通過多種方法來完成,如RGB 圖像序列[3]、深度圖像序列[4]、人體動態(tài)骨架[5-6]等。相比其他的方法,骨架數(shù)據(jù)對復(fù)雜背景和場景變化具有更好的魯棒性。因此,基于動態(tài)骨架的人體動作識別(簡稱骨架動作識別)成為近年重點關(guān)注的研究領(lǐng)域[7-8]。

    骨架動作識別的核心是骨架節(jié)點的特征提取和分析。按照特征提取方式可以分為基于手工特征提取方法和基于深度學(xué)習(xí)的特征分析方法。基于手工特征提取方法主要通過物理直覺來設(shè)計節(jié)點特征,然后進行骨架圖的特征分析。已有的工作包括:基于相對位置計算的關(guān)節(jié)特征提取[9]、基于平移和旋轉(zhuǎn)等評估的特征分析[10]、基于特征編碼[11]等。毋容置疑,手工特征提取方法主觀性強、難度大,其效果很難令人滿意。

    隨著深度學(xué)習(xí)的不斷升溫,利用深度學(xué)習(xí)來實現(xiàn)骨架數(shù)據(jù)的自動特征提取和分析得到充分研究,其中循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks,RNN)和卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)是該應(yīng)用領(lǐng)域使用最多的技術(shù)?;赗NN的方法一般將骨架數(shù)據(jù)編碼為一組特征向量(每一個特征向量對應(yīng)一個關(guān)節(jié)),然后將這些特征向量輸入RNN 網(wǎng)絡(luò)完成學(xué)習(xí)[12-14]?;贑NN 的方法通常將骨架數(shù)據(jù)編碼成偽圖像輸入到CNN網(wǎng)絡(luò)中來提取特征[15-17]。然而,這兩種技術(shù)都很少探索人體關(guān)節(jié)之間的空間依賴關(guān)系,導(dǎo)致錯過了大量的相關(guān)信息。

    事實上,人體骨架天然構(gòu)成了一個以關(guān)節(jié)為節(jié)點、關(guān)節(jié)間的連通性為邊的圖結(jié)構(gòu),所以借助于圖學(xué)習(xí)手段來實現(xiàn)骨架動作識別具有很好的研究價值。近年來,圖卷積網(wǎng)絡(luò)[18-19](graph convolutional networks,GCN)作為一種新型的圖學(xué)習(xí)技術(shù)能夠直接輸入和處理圖結(jié)構(gòu)數(shù)據(jù),已經(jīng)在許多領(lǐng)域獲得了不錯的應(yīng)用效果,如圖像分類[20]、半監(jiān)督學(xué)習(xí)[21]等。因此,利用GCN 來分析骨架數(shù)據(jù)的空間屬性具有天然的結(jié)構(gòu)優(yōu)勢。同時,在GCN 處理圖的框架下,可以將不同時刻的骨架數(shù)據(jù)看作是圖結(jié)構(gòu)的動態(tài)數(shù)據(jù)變化,進而通過時空圖建模來實現(xiàn)骨架數(shù)據(jù)的動態(tài)學(xué)習(xí)。

    2018 年,Yan 等人[22]提出了一種時空圖卷積網(wǎng)絡(luò)(spatial temporal graph convolutional networks,STGCN)。它可以自動提取嵌入到關(guān)節(jié)間的空間特征和動態(tài)的時間特征,是目前比較典型的利用時空圖學(xué)習(xí)來解決骨架動作識別的工作之一。然而,ST-GCN也存在很多問題,主要包括:(1)ST-GCN的圖是根據(jù)人體的物理骨架預(yù)先定義的,缺乏靈活性,例如雙手在拍手、擁抱等動作中有著很強的依賴關(guān)系,然而在固定的骨架圖中,這種聯(lián)系卻不存在。(2)ST-GCN只利用了骨架數(shù)據(jù)的一階信息(關(guān)節(jié)的坐標(biāo)),而忽視了二階信息(骨骼的長度和方向),而二階信息對于動作識別具有更強的辨別能力。(3)ST-GCN的結(jié)構(gòu)由時間卷積層和空間卷積層交錯堆疊,這樣分解的三維結(jié)構(gòu)難以處理復(fù)雜的跨時空信息。(4)ST-GCN 的魯棒性和可擴展性差。針對這些問題,研究者對此進行了深入研究。Li等人[23]引入了一個編碼器-解碼器推理模塊,該模塊可以從動作中捕獲潛在的空間依賴關(guān)系并結(jié)合人體結(jié)構(gòu)圖組合了一個更加廣義的骨架圖結(jié)構(gòu)。Shi等人[24]提出了一種新的雙流自適應(yīng)圖卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)通過數(shù)據(jù)驅(qū)動的方式自動學(xué)習(xí)圖的拓撲結(jié)構(gòu),增加了模型的靈活性,另外,采用雙流架構(gòu)融合了骨架數(shù)據(jù)的一階信息和二階信息,顯著提高了識別精度。針對現(xiàn)有的時空圖僅局限于分解的三維卷積,Liu等人[25]提出了一種統(tǒng)一的時空算子G3D,該算子允許信息直接跨時空流動,從而捕獲復(fù)雜的時空聯(lián)合依賴關(guān)系。受姿態(tài)估計算法的影響,STGCN 的魯棒性不強,針對這一問題,Duan等人[26]使用3D熱圖體積來表示人體骨架,并通過3DCNN提取時空特征,該方法對姿態(tài)估計噪聲的魯棒性更好,易于與其他方法(如光流、RGB)集成,能夠處理多人場景而不增加額外計算成本。該方法第一次使用3DCNN來處理動態(tài)骨架數(shù)據(jù)并達到了先進的水平。

    針對ST-GCN的圖結(jié)構(gòu)固定的缺陷,本文提出一種融合內(nèi)外依賴的時空圖卷積網(wǎng)絡(luò)(spatial temporal graph convolutional networks integrated internal and external dependencies,IED-STGCN)。其核心思想主要是通過內(nèi)外兩個互補的鄰接矩陣來動態(tài)地挖掘節(jié)點間的隱藏關(guān)系。值得說明的是,IED-STGCN 是對ST-GCN 在某一方面進行的改進,與AS-GCN、2s-AGCN、MS-G3D、PoseConv3D這些優(yōu)秀而全面的模型相比還存在著一定的差距。但是,現(xiàn)有的模型愈發(fā)趨于復(fù)雜,實現(xiàn)難度也越來越大,因此設(shè)計更加簡單有效的算法可能是未來人體動作識別任務(wù)的一大趨勢。本文從骨架圖出發(fā),僅通過設(shè)計鄰接矩陣來解決原有圖的局限性,思路簡單,易于實現(xiàn)。另外,在現(xiàn)實世界中,圖的結(jié)構(gòu)并非總是先驗的,動態(tài)鄰接矩陣相比靜態(tài)鄰接矩陣具有更好的表征能力,因此本文所提的外在依賴概念可以集成到一般的圖卷積,具有較好的可擴展性。本文的主要貢獻如下:

    (1)將人體關(guān)節(jié)間的空間依賴關(guān)系劃分為內(nèi)在依賴和外在依賴,并分別用兩個互補的鄰接矩陣來表示。其中,內(nèi)在依賴代表了人體物理結(jié)構(gòu)中關(guān)節(jié)間的自然連接關(guān)系,而外在依賴代表了關(guān)節(jié)間的非物理連接關(guān)系,旨在獲取全局信息。

    (2)根據(jù)兩個不同的鄰接矩陣分別構(gòu)造內(nèi)在依賴圖卷積(internal dependencies graph convolution,IGC)和外在依賴圖卷積(external dependencies graph convolution,EGC),并通過分配不同的邊權(quán)重和特征權(quán)重來進行自主學(xué)習(xí)。其中,外在依賴對應(yīng)的鄰接矩陣通過邊權(quán)重矩陣成為一個可學(xué)習(xí)的鄰接矩陣,它能動態(tài)地預(yù)測生成關(guān)節(jié)間的非物理連接以及連接的強度,而這種學(xué)習(xí)到的非局部連接可能對識別任務(wù)起著關(guān)鍵作用。

    (3)融合IGC和EGC構(gòu)成內(nèi)外依賴圖卷積(internalexternal dependencies graph convolution,IEGC)作為IED-STGCN的空間卷積模塊。由于圖卷積在人體固有結(jié)構(gòu)的基礎(chǔ)上考量了外在依賴的影響,因而提高了模型對全局信息的感知能力,使提取到的特征信息更加豐富。

    1 時空圖建模

    人體骨架結(jié)構(gòu)用圖來表示,其中圖的節(jié)點表示人體骨架中的關(guān)節(jié),圖中的邊是關(guān)節(jié)間的連通性的表達。圖的邊被分成兩類:一類是關(guān)節(jié)間存在的一種自然物理連接關(guān)系,稱之為內(nèi)在依賴;另一類是人為設(shè)置的節(jié)點間的連接關(guān)系,稱之為外在依賴。本文的骨架時空圖建模是同時考慮內(nèi)、外依賴關(guān)系來構(gòu)造的。

    圖1給出了一個行走動作有關(guān)的骨架圖示例,其中圖的節(jié)點是藍色實心圓點,而藍色實線的邊代表內(nèi)在依賴,藍色虛線的邊代表重點關(guān)注的外在依賴。

    圖1 行走動作的內(nèi)外在依賴示意圖Fig.1 Example graph of internal and external dependence in walking action

    如圖1 所示,在進行人體動作識別過程中,除了考慮人體關(guān)節(jié)的局部自然連接外(圖1中的實線),也重點關(guān)注了兩對手腳的互動情況(圖1 中的虛線)。這樣擴充后的結(jié)構(gòu)體現(xiàn)了人體活動時手腳的聯(lián)動以及對動作類型識別的影響,符合人體動作行為學(xué)及日常經(jīng)驗對應(yīng)的活動規(guī)律。假設(shè)節(jié)點的特征用關(guān)節(jié)的3D 坐標(biāo)來表示,那么手腳聯(lián)動規(guī)律就反映在它們相對位置的變化上。因此,融合內(nèi)、外依賴關(guān)系可以有效彌補的骨架圖的天然缺陷、而且也符合骨架動作識別的行為邏輯。

    定義2(骨架時空圖)給定一個時間序列為T={1 ,2,…,M}和骨架圖結(jié)構(gòu)G={V,Ea,Eb} ,對應(yīng)的骨架時空圖表示為STG={Gt|t∈[1 ,2,…,M]},其中Gt表示時刻t上對應(yīng)的骨架圖,Ea和Eb分別是時刻t上內(nèi)在和外在依賴對應(yīng)的邊集。

    骨架時空圖包含了空間和時間信息??臻g信息包含在骨架圖的結(jié)構(gòu)中,時間信息則體現(xiàn)在不同時刻的圖時序序列上如圖2 所示,給定一段動作視頻,假設(shè)每幀采集一組骨架圖數(shù)據(jù),連續(xù)M幀的骨架圖數(shù)據(jù)就可以看作是M個連續(xù)時刻的時間序列上的骨架時空圖。這樣,接下來的問題就是要找到合適的模型和方法來處理骨架時空圖,完成人體骨架的動作識別。因此,本文將采用內(nèi)外依賴融合的空間圖卷積方法來處理骨架時空圖的空間位置信息,同時利用時間卷積方法來提取和分析隨時間演化的關(guān)節(jié)特征數(shù)據(jù)的變化。

    2 模型設(shè)計與分析

    本文模型主要是由時空卷積層為基本計算單元堆疊而成。每個時空卷積層又由空間卷積模塊和時間卷積模塊構(gòu)成。本章將采用自底向上的方法,首先設(shè)計空間卷積模塊和時間卷積模塊,然后在此基礎(chǔ)上設(shè)計時空卷積層,最后對學(xué)習(xí)網(wǎng)絡(luò)的總體結(jié)構(gòu)進行闡釋。

    2.1 空間卷積模塊設(shè)計

    本文空間卷積模塊設(shè)計為融合了內(nèi)外依賴關(guān)系的IEGC,它是由IGC 和EGC 融合而成。內(nèi)在依賴圖卷積用于提取內(nèi)在依賴下的節(jié)點特征,外在依賴圖卷積通過外在依賴分析節(jié)點特征。

    2.1.1 內(nèi)在依賴圖卷積

    IGC 最簡單和直接的方式是利用單標(biāo)簽圖卷積技術(shù)對其建模[21]。單標(biāo)簽圖卷積簡單直接,但是所有鄰域節(jié)點需要共享權(quán)重向量來完成卷積計算過程。這就相當(dāng)于權(quán)重向量與平均特征向量做簡單的內(nèi)積操作,很容易引起圖的局部差分性質(zhì)的丟失,導(dǎo)致鄰域節(jié)點的標(biāo)簽同質(zhì)化。因此,對內(nèi)在依賴的建模中采用了多標(biāo)簽圖卷積的形式。

    定義3(多標(biāo)簽圖卷積)給定骨架圖G={V,Ea,Eb} ,?vi∈V,設(shè)它的內(nèi)在依賴對應(yīng)的鄰域為B(vi)={vj|vj,vi∈Ea} 。假設(shè)存在一個映射函數(shù)li:B(vi)→{0,1,…,K-1} ,使得該鄰域內(nèi)的每個節(jié)點對應(yīng)且只對應(yīng)一個數(shù)字標(biāo)簽。這種鄰域節(jié)點設(shè)置多數(shù)字標(biāo)簽的方法被稱為多標(biāo)簽技術(shù),基于多標(biāo)簽技術(shù)的圖卷積通過公式(1)來完成:

    當(dāng)然,多標(biāo)簽的設(shè)置方法與應(yīng)用的需要直接相關(guān)。就本文關(guān)注的人體動作識別而言,依據(jù)關(guān)節(jié)到人體重心的距離將其鄰域劃分為三個子集:根節(jié)點、向心節(jié)點集、離心節(jié)點集,對應(yīng)的數(shù)字標(biāo)簽分別設(shè)為0、1、2。

    定義4(根節(jié)點、向心節(jié)點集、離心節(jié)點集)給定骨架圖G={ }V,Ea,Eb。?vi∈V,其鄰域可以劃分為三個子集:(1)該關(guān)節(jié)本身,被稱為根節(jié)點;(2)向心節(jié)點集,比根節(jié)點更靠近人體重心的所有節(jié)點;(3)離心節(jié)點集,比根節(jié)點更遠離人體重心的節(jié)點。

    定義4對應(yīng)的數(shù)學(xué)刻畫如公式(2)所示:

    其中,li(vj)是鄰居節(jié)點vj的數(shù)字標(biāo)簽;c是人體重心的位置;d是兩個關(guān)節(jié)位置的距離函數(shù)。

    圖3 給出了基于多標(biāo)簽圖卷積概念的人體骨架結(jié)構(gòu)示意圖,其中綠色節(jié)點代表根節(jié)點本身,對應(yīng)的數(shù)字標(biāo)簽為0;藍色節(jié)點代表向心節(jié)點,對應(yīng)的數(shù)字標(biāo)簽為1;黃色節(jié)點代表離心節(jié)點,對應(yīng)的數(shù)字標(biāo)簽為2;而黑色十字代表了人體重心。

    圖3 根節(jié)點、向心節(jié)點集和離心節(jié)點集Fig.3 Root node,centripetal node set and centrifugal node set

    定義3 和定義4 的多數(shù)字標(biāo)簽卷積方法,通過區(qū)分人體關(guān)節(jié)運動的向心或離心運動趨勢,對一個關(guān)節(jié)的鄰居節(jié)點實現(xiàn)了差異化卷積計算,以降低圖卷積存在的所謂“過平滑”風(fēng)險。過平滑是GCN模型普遍存在的瓶頸問題之一[27]。圖卷積和傳統(tǒng)神經(jīng)網(wǎng)絡(luò)計算不同,它不僅需要考慮一個節(jié)點本身的特征,而且也聚合鄰居節(jié)點的特征信息。這樣,隨著迭代次數(shù)的增多,極易使相鄰節(jié)點趨同,出現(xiàn)所謂的過平滑現(xiàn)象。過平滑現(xiàn)象的直接危害就是使節(jié)點的局部區(qū)分度降低,從而相鄰的節(jié)點的特征難以辨別。從這個意義上說,定義4可以有效地提升局部節(jié)點的區(qū)分度,使人體運動的識別更精準。

    定義5(內(nèi)在依賴圖卷積)使用定義4 的多數(shù)字標(biāo)簽技術(shù),一個骨架圖的內(nèi)在依賴下的原始鄰接矩陣A可以分解成3個子鄰接矩陣。即:

    其中,Ar、Ap和Aq分別被稱作根鄰接矩陣、向心鄰接矩陣和離心鄰接矩陣,Q={ }r,p,f。對應(yīng)的內(nèi)在依賴圖卷積可以用公式(4)完成計算:

    2.1.2 外在依賴圖卷積

    對于人體動作而言,任何兩個關(guān)節(jié)間都有可能存在聯(lián)系,而且都可能對動作的識別存在不同程度的影響,這正是外在依賴圖卷積的主要動機。

    定義6(外在依賴圖卷積)根據(jù)定義1,外在依賴關(guān)系用鄰接矩陣B表示,那么基于外在依賴的圖卷積表達式如公式(5)所示:

    其中,Db是鄰接矩陣B對應(yīng)的度矩陣;Mb和Wb分別是外在依賴圖卷積的邊權(quán)重矩陣和特征權(quán)重矩陣;Fin和Fb分別代表外在依賴下的圖卷積的輸入和輸出特征。

    2.1.3 內(nèi)外依賴圖卷積

    內(nèi)在依賴代表了人體的局部物理結(jié)構(gòu),而外在依賴表達了人體識別中的關(guān)節(jié)之間的非物理隱含關(guān)系。因此融合這兩種關(guān)系將會使得圖卷積提取的信息更加完整。

    定義7(內(nèi)外依賴圖卷積)給定一個骨架圖的內(nèi)在依賴和外在依賴的鄰接矩陣A和B,那么內(nèi)外依賴圖卷積的數(shù)學(xué)表示如公式(6)所示:

    其中,F(xiàn)out是內(nèi)外融合圖卷積的輸出特征,其他符號同公式(4)和(5)。

    如圖4所示,輸入特征通過兩個不同的分支來分別處理人體骨架的內(nèi)在依賴和外在依賴,然后進行內(nèi)外依賴融合計算獲得特征輸出。對于內(nèi)在依賴分支,通過區(qū)分人體運動的向心趨勢和離心趨勢,減緩了圖學(xué)習(xí)中的過平滑風(fēng)險。對于外在依賴分支,通過邊權(quán)重矩陣Mb學(xué)習(xí)預(yù)測出節(jié)點之間的非物理連接關(guān)系以及強度,提高了模型對非局部信息的感知能力。為了穩(wěn)定訓(xùn)練,的初始參數(shù)設(shè)置為1,而Mb的初始參數(shù)設(shè)置為0。

    圖4 IEGC的計算過程簡化圖Fig.4 Simplified diagram of calculation process of IEGC

    2.2 時間卷積模塊

    如前面的圖2所示,把骨架時空圖中的相鄰時刻的骨架圖連接起來,那么同一個節(jié)點的特征在時間軸方向上就構(gòu)成了一個時間序列,該時間序列數(shù)據(jù)就反映了關(guān)節(jié)隨時間的變化情況。因此,通過設(shè)計有效的時間卷積(temporal convolution,TC)就可以完成時空圖的分析。

    定義8(時間卷積)假設(shè)一個關(guān)節(jié)在時間軸上對應(yīng)的時間序列數(shù)據(jù)為xin∈?M(不失一般性,在此假設(shè)節(jié)點的特征維度為1)。設(shè)時間卷積核大小為Γ,令該節(jié)點的t時刻的時間鄰域為,則t時刻的時間卷積輸出值為:

    其中,w代表權(quán)重函數(shù),xout是時間卷積的輸出特征。

    注:定義8 只給出單個節(jié)點的單維特征的計算公式。對于多個節(jié)點而言,最簡單的方法就是對每個關(guān)節(jié)都實施公式(7);同時,當(dāng)骨架數(shù)據(jù)為多維時,需要將公式(7)改造成多維計算,即對每個維度單獨計算后形成多維特征向量。

    2.3 時空卷積層設(shè)計

    前面完成了骨架時空圖上的空間卷積和時間卷積模塊的設(shè)計。進一步,融合骨架時空圖中的空間特征和時間特征,利用已經(jīng)設(shè)計的空間、時間卷積模塊就可以組合成時空卷積層,形成骨架時空圖挖掘的基本計算單元。本文的時空卷積層由IEGC、TC以及必要的連接操作構(gòu)成,如圖5。

    圖5 時空卷積層Fig.5 Layer of spatial temporal convolution

    圖5給出了一個時空卷積層的基本結(jié)構(gòu),對應(yīng)的計算流程是:

    (1)將初始或者上一層的骨架時空圖數(shù)據(jù)輸入到IEGC模塊,完成內(nèi)外依賴融合的空間圖卷積。

    其中,ε是一個常數(shù),設(shè)置的目的是為了保持數(shù)據(jù)的穩(wěn)定性,γ和β分別代表縮放參數(shù)和平移參數(shù),這些參數(shù)與網(wǎng)絡(luò)參數(shù)一起參與訓(xùn)練,從而增加了網(wǎng)絡(luò)的表征能力。批量標(biāo)準化是一種常用的數(shù)據(jù)標(biāo)準化技術(shù),它可以用來加速網(wǎng)絡(luò)的收斂。

    (3)標(biāo)準化后的數(shù)據(jù)通過Relu()激活函數(shù)送入時間模塊TC,進行時間維度上的特征卷積。

    (4)對于TC 的輸出再次進行批量標(biāo)準化,并實施Dropout操作以防止模型過擬合。

    (5)引入殘差機制,使用本時空卷積層的原始輸入和TC 標(biāo)準化的特征輸出進行殘差計算,并再次通過Relu()激活函數(shù)生成本層的輸出。

    2.4 IED-STGCN網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計

    圖6 給出了本文的骨架時空圖挖掘模型IEDSTGCN 的結(jié)構(gòu)。如圖6 所示,IED-STGCN 網(wǎng)絡(luò)由三部分組成:數(shù)據(jù)預(yù)處理層、主干網(wǎng)絡(luò)、預(yù)測輸出層。

    圖6 IED-STGCN的整體網(wǎng)絡(luò)架構(gòu)Fig.6 Overall network architecture of IED-STGCN

    在數(shù)據(jù)預(yù)處理層中,輸入數(shù)據(jù)是骨架時空圖(參考定義2)。值得注意的是,由于IED-STGCN 在不同的節(jié)點上需要共享權(quán)重向量,因此在進入主干網(wǎng)絡(luò)前需要對數(shù)據(jù)進行一次批量標(biāo)準化(見公式(8)),以使每個節(jié)點的輸入數(shù)據(jù)的比例保持協(xié)調(diào)一致。

    主干網(wǎng)絡(luò)由若干層的時空卷積層(參考圖5)堆積而成。時空卷積層的主要參數(shù)包括:時間卷積核的大小Γ、時間卷積的步長stride、輸出通道數(shù)Cout(時空卷積層的輸出的維度)以及輸出裁剪比例dropout。

    預(yù)測輸出層由全局平均池化層和分類器組成。全局平均池化層將不同樣本的特征圖池化到相同大小,然后通過分類器(Softmax)完成類別的預(yù)測。

    3 實驗

    將在兩個不同性質(zhì)的大型動作識別數(shù)據(jù)集上進行實驗:Kinetics[28]和NTU-RGB+D[13]。Kinetics 是目前最大的無約束動作識別數(shù)據(jù)集之一,而NTU-RGB+D則是目前最大的室內(nèi)拍攝的有約束數(shù)據(jù)集之一。

    首先,在Kinetics 數(shù)據(jù)集上做了一個詳細的消融實驗以檢驗IED-STGCN 模型各個組件的有效性。然后,分別在Kinetics 數(shù)據(jù)集和NTU-RGB+D 數(shù)據(jù)集上,選擇目前比較典型的基準模型進行對比實驗,用以評估IEDSTGCN的性能。

    3.1 數(shù)據(jù)集

    (1)Kinetics

    Kinetics是研究中廣泛使用面向人體動作識別應(yīng)用的大規(guī)模標(biāo)準數(shù)據(jù)集。它包含300 000 多個視頻剪輯,標(biāo)注了400 多種的人類動作類型,涵蓋了日?;顒?、體育競賽等多種人體活動場景。每個視頻大約持續(xù)10 s。

    Kinetics只有原始視頻而沒有提供骨架數(shù)據(jù)。在本次工作中,利用OpenPose[29]開源工具箱從原始視頻中生成骨架序列。其中,每個骨架圖關(guān)注人體的18 個關(guān)節(jié)點,節(jié)點特征包括關(guān)節(jié)點在相機坐標(biāo)系上的二維坐標(biāo)(X,Y)和置信度C。考慮最多2個人的情況,如果畫面出現(xiàn)2 人以上,只選擇關(guān)節(jié)點平均置信度最高的2 人。如果畫面不足2 人,就用0 填充對應(yīng)實體。每個剪輯的幀數(shù)固定為300幀,如果不足300幀,則通過視頻重放隨機補充夠300 幀。這樣,基于Kinetics 公共數(shù)據(jù)集就可以生成對應(yīng)的骨架序列數(shù)據(jù)。生成了大約240 000個訓(xùn)練數(shù)據(jù)和20 000個測試數(shù)據(jù),供本文實驗使用。

    (2)NTU-RGB+D

    NTU-RGB+D 是人體動作識別任務(wù)中迄今為止最大的3D關(guān)節(jié)標(biāo)注數(shù)據(jù)集。該數(shù)據(jù)集包含56 000多個動作剪輯,60 個動作類別。所有剪輯都是由40 名志愿者在一個室內(nèi)實驗環(huán)境中由3 個不同視角的視像頭拍攝而成。骨架序列的注釋借助于Kinect深度傳感器生成,每個剪輯最多有兩個人,每個人的人體骨架有25 個關(guān)節(jié)點,3D 關(guān)節(jié)點的特征是節(jié)點在攝像機坐標(biāo)系統(tǒng)中的位置(X,Y,Z)。

    按照數(shù)據(jù)集劃分標(biāo)準的不同,NTH-RGB+D提供了兩個不同的基準:cross-subjec(t簡稱X-Sub)和cross-view(簡稱X-View)。X-Sub 數(shù)據(jù)集通過不同受試者來劃分數(shù)據(jù),其中訓(xùn)練集來自一部分參與者,一共包含40 320個訓(xùn)練樣本,測試集來自剩余的參與者,一共包含16 560個測試樣本。X-View數(shù)據(jù)集按照不同攝像機來進行劃分,其中,訓(xùn)練集來自2號和3號相機,一共包含37 920個樣本;測試集來自1號相機,一共包含18 960個樣本。

    3.2 評估指標(biāo)

    本文使用Top-1和Top-5這兩個標(biāo)準的分類性能評估方法作為評價指標(biāo)。就是說,對于每個測試樣本,輸出結(jié)果是所有動作的分類概率,并按照分類概率從高到低的順序進行排序輸出。對于Top-1,如果樣本的實際類別是預(yù)測概率排名第一的類別,則分類正確。對于Top-5,如果樣本的實際類別在預(yù)測概率排名前五名的類別之中,則分類正確。具體定義見公式(9):

    其中,N是樣本總數(shù);δ是一個判斷函數(shù),若條件為真,則δ=1,否則,δ=0;classreali代表第i個樣本的真實類別;分別代表第i個樣本預(yù)測概率排名第一的類別和排名前五的類別。

    3.3 實驗設(shè)置

    (1)網(wǎng)絡(luò)參數(shù)設(shè)置

    IED-STGCN 的主干網(wǎng)的總層數(shù)設(shè)置為9 層。每層時空卷積層的時間卷積核大小Γ均設(shè)置為9,dropout=0.5。主干網(wǎng)絡(luò)的前三層的輸出通道數(shù)設(shè)置為64,中間三層的Cout為128,最后三層的Cout為256。這樣,隨著輸出通道數(shù)的成倍增加,獲取到的動作特征也越來越豐富,進而學(xué)習(xí)性能會更好。時間卷積的步長stride在第4層和第7層設(shè)置為2,其余層均為1。這樣,經(jīng)過第4層和第7 層后,時間維度的總幀數(shù)就會減少一半,因而可以減少幀間的冗余信息,提高計算效率。預(yù)測輸出層中的分類器采用Softmax分類器。

    (2)軟硬件環(huán)境設(shè)置

    實驗用的計算機的CPU 型號為Inter?Core?i7-10700 CPU@2.90 GHz,配置為RTX-3090 顯卡(顯存24 GB)提升計算。實驗基于的軟件環(huán)境為python3.8+pytorch1.8+cuda11.1。

    (3)訓(xùn)練過程設(shè)置

    對于Kinetics 數(shù)據(jù)集,實驗的總迭代次數(shù)epoch 為50 次,批量大小為16。優(yōu)化策略選用隨機梯度下降法(SGD),初始學(xué)習(xí)率為0.1,依次在第20、30、40 個epoch衰減0.1倍。

    對于NTU-RGB+D數(shù)據(jù)集,實驗的總迭代次數(shù)epoch為50次,批量大小為16。使用SGD來訓(xùn)練模型,初始學(xué)習(xí)率為0.1,依次在第30、40個epoch衰減0.1倍。

    3.4 消融實驗

    本文模型主要由內(nèi)在依賴圖卷積(簡稱I)、外在依賴圖卷積(簡稱E)和時間卷積(簡稱T)等3個技術(shù)來支撐,融合了這些技術(shù)形成了本文網(wǎng)絡(luò)模型。為了說明這些技術(shù)融合的有效性,在Kenitic 數(shù)據(jù)集上進行了技術(shù)消融實驗,即以T 為基準模型,通過T+I、T+E 和T+I+E來進行對比實驗。

    (1)基準模型Temporal Conv[16]:Temporal Conv 是目前比較成功的基于時間序列的特征卷積方法之一。具體地說,將每幀中的所有關(guān)節(jié)的位置信息在時間軸方向連接起來構(gòu)成一組輸入特征向量,然后輸入到Temporal Conv中進行時間卷積計算。

    (2)ST-GCN[22]:ST-GCN 僅考慮了人體骨架圖的自然連接,是采用T+I 技術(shù)的典型模型,所以選擇它作為對比模型進行了實驗。

    (3)T+E 的融合模型:迄今為止還沒有發(fā)現(xiàn)這樣的模型。然而,T+E 模型有明確的技術(shù)含義,就是忽略所有骨架圖的自然連接,全部通過人為設(shè)置外部依賴關(guān)系來進行空間模式學(xué)習(xí)。因此,使用本文的外在卷積計算(公式(5))替代空間圖卷積模塊計算公式(公式(6)),就得到T+E模型,供本文實驗所用。

    (4)本文模型IED-STGCN:它是T+I+E的融合模型。

    表1給出了在Kinetics數(shù)據(jù)集中Top-1和Top-5性能上的消融實驗的結(jié)果。

    表1 Kinetics數(shù)據(jù)集上的消融實驗Table 1 Ablation experiments on Kinetics dataset

    從表1可以看出:

    (1)相比Temporal Conv、ST-GCN 和T+E,本文模型的Top-1準確率分別提升了12.9、2.5和6.9個百分點,而Top-5 準確率分別提升了15.3、2.5 和7.8 個百分點。說明本文模型明顯優(yōu)于目前在人體動作識別中使用最多的時間卷積的模型(Temporal Conv),也比單獨考慮內(nèi)在依賴、外在依賴(ST-GCN、T+E)的時空卷積要好。

    (2)IED-STGCN的Top-1和Top-5準確率比ST-GCN模型分別提升了2.5 和7.8 個百分點。這說明引入外在依賴是必要的,而且基于內(nèi)外融合的圖卷積是更有效的。

    3.5 模型比較實驗

    在Kinetics 數(shù)據(jù)集上,選取Feature Enc[11]、Deep LSTM[13]、Temporal Conv[16]和ST-GCN[22]四種模型,進行精度對比實驗。表2 給出了在Top-1 和Top-5 指標(biāo)上的比對實驗結(jié)果。

    表2 Kinetics數(shù)據(jù)集上的Top-1和Top-5準確率比較Table 2 Comparison of Top-1 and Top-5 accuracy on Kinetics dataset

    表2 表明,在Kinetics 數(shù)據(jù)集上,IED-STGCN 模型全面優(yōu)于對比模型的準確率。Kinetics是一個無約束環(huán)境的典型數(shù)據(jù)集,因此這樣的結(jié)果反映了IED-STGCN模型在無約束環(huán)境下視頻中人體動作識別的優(yōu)勢。

    表2 實驗選取的對比模型基本代表了目前主要類型的人體動作識別算法類,實驗結(jié)果驗證了不同類型識別方法的有效性。首先,基于手工特征提取方法Feature Enc 效果最差,這主要是因為基于手工特征提取的主觀性和隨意性大,很難同時提取不同運動模式下的特征,導(dǎo)致學(xué)習(xí)泛化性能很差。其次,雖然基于RNN或CNN方法(Deep LSTM,Temporal Conv)可以利用深度學(xué)習(xí)技術(shù)自動地提取動作特征,但是都是基于單關(guān)節(jié)特征分析的,沒有利用骨架數(shù)據(jù)的圖結(jié)構(gòu),所以準確率也很難提升。相比較而言,基于圖卷積網(wǎng)絡(luò)的ST-GCN和IED-STGCN,同時利用骨架圖的圖結(jié)構(gòu)和節(jié)點特征數(shù)據(jù),所以識別性能得到提升。特別地,本文引入骨架圖的外部依賴關(guān)系,有效地彌補了ST-GCN模型的局部物理連接的不足,取得了最佳的實驗效果。

    值得注意地是,由于Kinetics 是一個室外復(fù)雜場景拍攝的多種運動模式并存的現(xiàn)場視頻數(shù)據(jù),因此表2實驗中的精度普遍不高,這也和現(xiàn)有的類似研究實驗是吻合的。為了進一步驗證所提模型的有效性,在室內(nèi)場景下的3D骨架數(shù)據(jù)集NTU-RGB+D進一步進行了精度對比實驗。

    在NTU-RGB+D 數(shù)據(jù)集的兩個代表性子集X-Sub和X-View上,盡量選取目前流行的不同識別技術(shù)的算法完成了實驗。共選取13個對比模型或算法:Lie Group[10]、H-RNN[12]、Deep LSTM[13]、PA-LSTM[13]、ST-LSTM+TS[14]、STA-LSTM[30]、VA-LSTM[31]、Two-Stream 3DCNN[15]、Temporal Conv[16]、C-CNN+MTLN[17]、Synthesized CNN[32]、ST-GCN[22]和DPRL+GCNN[33]。表3給出了Top-1精度的實驗結(jié)果。

    表3 NTU-RGB+D數(shù)據(jù)集上的TOP-1準確率比較Table 3 Comparison of Top-1 accuracy on NTU-RGB+D Dataset

    從表3不難看出:

    (1)后面3 個模型ST-GCN、DPRL+GCNN、IEDSTGCN 是圖學(xué)習(xí)模型。相比于單節(jié)點的特征學(xué)習(xí)方法,實驗結(jié)果表明基于圖學(xué)習(xí)的動作識別具有顯著的技術(shù)優(yōu)勢。

    (2)IED-STGCN 在X-Sub 和X-View 數(shù)據(jù)集上分別取得了84.9%和92.1%的Top-1精度,超越現(xiàn)有模型。這表明本文模型在處理有無約束環(huán)境下的骨架3D 數(shù)據(jù)上,有能力提升動作識別的精確性和可用性。

    結(jié)合表2 和表3 可以看出,無論是在有約束的Kinetics 數(shù)據(jù)集還是在無約束的NTU-RGB+D 數(shù)據(jù)集上,IED-STGCN均取得了較好的識別精度,說明本文技術(shù)與方法可以明顯改善骨架圖的動作識別性能。

    4 結(jié)論

    本文提出一種基于內(nèi)外融合圖卷積的人體骨架動作識別模型IED-STGCN。首先,在空間圖卷積模塊中融合了內(nèi)在依賴和外在依賴關(guān)系,使得該模型能更好地捕獲和分析人體骨架圖。其次,為了區(qū)分出不同的運動趨勢對于動作識別的影響,進一步將內(nèi)在依賴劃分為根節(jié)點、向心節(jié)點集、離心節(jié)點集,這有效地提升了圖卷積的泛化能力,一定程度減緩了學(xué)習(xí)中過平滑的危險。再次,將融合了內(nèi)外依賴的空間圖卷積模塊和時間卷積模塊應(yīng)用到骨架時空圖中,構(gòu)建了基本的時空卷積單元,并通過多層時空卷積層的傳播實現(xiàn)對骨架時空圖的精準挖掘。最后,在兩個典型的公共數(shù)據(jù)集Kinetics 和NTU-RGB+D完成了模型對比實驗。實驗結(jié)果表明,本文IED-STGCN 在不同環(huán)境下的Top-1 和Top-5 準確率均優(yōu)于現(xiàn)有的比較模型。

    猜你喜歡
    骨架卷積人體
    人體“修補匠”
    淺談管狀骨架噴涂方法
    人體冷知識(一)
    基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
    排便順暢,人體無毒一身輕
    骨架密度對炭/炭多孔骨架壓力浸滲銅的影響
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    奇妙的人體止咳點
    特別健康(2018年3期)2018-07-04 00:40:10
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
    中國煤層氣(2014年3期)2014-08-07 03:07:45
    兴义市| 郓城县| 青州市| 兴宁市| 古丈县| 锡林郭勒盟| 阳城县| 岱山县| 东阿县| 绍兴市| 萍乡市| 东明县| 正镶白旗| 盐津县| 留坝县| 疏附县| 云梦县| 丰都县| 康定县| 荣昌县| 邹平县| 微博| 同德县| 彭山县| 耒阳市| 万州区| 宁津县| 夏邑县| 连平县| 内乡县| 江西省| 新竹县| 怀化市| 利津县| 东乡| 南召县| 武夷山市| 开平市| 丽水市| 新密市| 广丰县|