尹坤陽(yáng),潘 偉,謝立東,徐素霞
(廈門(mén)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門(mén)361005)
一種基于深度學(xué)習(xí)的人體交互行為分層識(shí)別方法
尹坤陽(yáng),潘偉,謝立東,徐素霞*
(廈門(mén)大學(xué) 信息科學(xué)與技術(shù)學(xué)院,福建省仿腦智能系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,福建廈門(mén)361005)
摘要:本文把人體交互行為分解為由簡(jiǎn)單到復(fù)雜的4個(gè)層次:姿態(tài)、原子動(dòng)作、復(fù)雜動(dòng)作和交互行為,并提出了一種分層漸進(jìn)的人體交互行為識(shí)別方法.該方法共有3層:第1層通過(guò)訓(xùn)練棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)把原始視頻中的人體行為識(shí)別為姿態(tài)序列;第2層構(gòu)建原子動(dòng)作的隱馬爾科夫模型(hidden Markov model,HMM),并利用估值定界法識(shí)別第1層輸出的姿態(tài)序列中包含的原子動(dòng)作;第3層以第2層輸出的原子動(dòng)作序列為輸入,采用基于上下文無(wú)關(guān)文法(context-free grammar,CFG)的描述方法識(shí)別原子動(dòng)作序列中的復(fù)雜動(dòng)作和交互行為.實(shí)驗(yàn)結(jié)果表明,該方法能有效地識(shí)別人體交互行為.
關(guān)鍵詞:人體行為識(shí)別;深度學(xué)習(xí);隱馬爾科夫模型(HMM);上下文無(wú)關(guān)文法(CFG);Kinect
人體行為識(shí)別在計(jì)算機(jī)視覺(jué)領(lǐng)域中占有重要地位,它在視頻監(jiān)控、醫(yī)療監(jiān)護(hù)、人機(jī)交互和運(yùn)動(dòng)分析等諸多領(lǐng)域有著廣泛的應(yīng)用[1].在過(guò)去的幾十年中,研究者們提出了大量的行為識(shí)別方法,這些方法可以分為2類(lèi):單層行為識(shí)別方法和分層行為識(shí)別方法[2].
單層行為識(shí)別方法又可分為時(shí)空法[3]和序列法[4].時(shí)空法把輸入視頻當(dāng)作一個(gè)三維的時(shí)空體(XYT),而序列法把輸入視頻視為特征向量序列.單層行為識(shí)別方法直接從圖像序列中表示和識(shí)別人體行為;而分層行為識(shí)別方法往往會(huì)有2層或者更多的層次,底層直接處理輸入圖像,高層把低層的識(shí)別結(jié)果作為輸入繼續(xù)進(jìn)行識(shí)別工作.與單層行為識(shí)別方法相比,分層行為識(shí)別方法需要較少的訓(xùn)練數(shù)據(jù),更容易融入先驗(yàn)知識(shí).
分層行為識(shí)別方法可分為3類(lèi):統(tǒng)計(jì)方法[5]、句法方法[6]和基于描述的方法[7].統(tǒng)計(jì)方法通過(guò)構(gòu)造基于狀態(tài)模型的連接層次概率表示和識(shí)別人體行為;句法方法采用特定的語(yǔ)法規(guī)則對(duì)高層行為進(jìn)行建模,常見(jiàn)的語(yǔ)法規(guī)則有上下文無(wú)關(guān)文法(context-free grammar,CFG)和隨機(jī)CFG;基于描述的方法通過(guò)描述子動(dòng)作之間的時(shí)間、空間和邏輯關(guān)系表示人體行為.與上述2種分層行為識(shí)別方法不同,基于描述的方法雖然把復(fù)雜動(dòng)作當(dāng)作簡(jiǎn)單子動(dòng)作的組合,但只有滿(mǎn)足一定條件的子動(dòng)作組合才被視為復(fù)雜動(dòng)作.
很長(zhǎng)時(shí)間以來(lái),神經(jīng)網(wǎng)絡(luò)領(lǐng)域的研究者意識(shí)到使用多層非線(xiàn)性的網(wǎng)絡(luò)組合會(huì)達(dá)到更好的效果,但在訓(xùn)練時(shí)容易陷入局部最優(yōu),多層神經(jīng)網(wǎng)絡(luò)的性能反而更不理想.2006年Hinton等[8]提出逐層初始化降低多層神經(jīng)網(wǎng)絡(luò)訓(xùn)練難度,掀起機(jī)器學(xué)習(xí)的第2次浪潮.Larochelle等[9]進(jìn)一步提出棧式降噪自編碼神經(jīng)網(wǎng)絡(luò),這種神經(jīng)網(wǎng)絡(luò)在訓(xùn)練數(shù)據(jù)中加入噪聲,顯著地提高了學(xué)習(xí)的效果.在基于描述的行為識(shí)別方法領(lǐng)域,Allen[10]為描述子動(dòng)作之間的時(shí)間關(guān)系提出了一組時(shí)間描述子,后來(lái)這些描述子被其他研究者廣泛采用.Ryoo等[11]采用基于CFG的描述方法表示人體行為,提出邏輯描述子(與、或和非)增強(qiáng)空間和時(shí)間描述子對(duì)子動(dòng)作關(guān)系的表示能力.但這些識(shí)別方法使用彩色相機(jī)采集數(shù)據(jù),光照條件、衣服的紋理甚至人的影子都會(huì)影響識(shí)別效果.使用Kinect深度相機(jī)采集數(shù)據(jù),可以有效消除光照變化和復(fù)雜背景的影響,提高人體行為識(shí)別的魯棒性[12].蘇竑宇等[13]構(gòu)建了基于支持向量機(jī)(support vector machine,SVM)和隱馬爾可夫模型(hidden Markov model,HMM)二級(jí)模型識(shí)別日常行為,他們使用了Kinect采集的數(shù)據(jù)集,但并未涉及交互行為.
本文提出了一種新的分層行為識(shí)別方法.與文獻(xiàn)[11]的方法相比,該方法第1層使用深度神經(jīng)網(wǎng)絡(luò),提高了識(shí)別方法的可擴(kuò)展性;第2層提出的估值定界法提高了對(duì)原子動(dòng)作分割的效率和準(zhǔn)確度;第3層設(shè)計(jì)了1組新型空間描述子,引入人臉朝向,增強(qiáng)了對(duì)交互行為的描述能力.Kinect提供的骨骼信息是由人體輪廓估算而來(lái),骨骼信息不能有效獲取人體接觸及遮擋信息,因此本文選取輪廓圖像作為輸入,而不采用骨骼信息,同時(shí)采用彩色圖像識(shí)別人臉朝向.
1識(shí)別方法概述
圖1 識(shí)別方法框圖Fig.1Processing flow of the recognition system
本文采用分層的交互行為識(shí)別方法,算法框架見(jiàn)圖1.該識(shí)別方法共有3層:第1層把采集到的視頻圖像進(jìn)行預(yù)處理,提取圖像中包含人體的部分,并轉(zhuǎn)換成同樣的大小,然后輸入采用深度學(xué)習(xí)算法的棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行分類(lèi),識(shí)別出每幀圖像中的人體行為姿態(tài);第2層把第1層輸出的姿態(tài)序列作為輸入,用估值定界法對(duì)姿態(tài)序列進(jìn)行分割,找出原子動(dòng)作的起止點(diǎn),輸出原子動(dòng)作序列;第3層的輸入是第2層輸出的原子動(dòng)作序列,根據(jù)基于CFG的描述規(guī)則,識(shí)別原子動(dòng)作序列中的復(fù)雜動(dòng)作和交互行為.這種方法需要訓(xùn)練棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)、構(gòu)建原子動(dòng)作的HMM和基于CFG的描述模型:其中棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)由姿態(tài)圖像訓(xùn)練集圖像預(yù)處理后訓(xùn)練而成;原子動(dòng)作HMM的訓(xùn)練數(shù)據(jù)來(lái)自原子動(dòng)作訓(xùn)練集,動(dòng)作視頻圖像預(yù)處理后通過(guò)棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)進(jìn)行識(shí)別,輸出姿態(tài)序列,進(jìn)而構(gòu)建原子動(dòng)作的HMM;基于CFG的描述模型則根據(jù)復(fù)雜動(dòng)作和交互行為的子動(dòng)作之間的時(shí)間關(guān)系和執(zhí)行者之間的空間關(guān)系添加規(guī)則,構(gòu)建各個(gè)復(fù)雜動(dòng)作和交互行為的描述模型.
2第1層:基于深度學(xué)習(xí)的姿態(tài)識(shí)別
姿態(tài)是對(duì)圖像中整個(gè)人體的抽象和描述,每幀圖像中的人像都屬于某個(gè)姿態(tài).第1層識(shí)別工作完成時(shí),每幀圖像就可以用姿態(tài)表示.本文構(gòu)建了一個(gè)新型的棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)識(shí)別圖像中的人體姿態(tài)[14],識(shí)別過(guò)程如圖2所示.
圖2 姿態(tài)識(shí)別過(guò)程圖Fig.2Processing flow of pose recognition
2.1圖像預(yù)處理
Kinect能夠?qū)崟r(shí)獲取人體輪廓信息,采集的視頻分辨率為240×320.為了減少計(jì)算量,圖像預(yù)處理時(shí)提取圖像中的人體部分并縮放至28×28.具體過(guò)程如下:在圖像中找到人體上下左右的邊界點(diǎn),去掉超出邊界點(diǎn)的部分,對(duì)剩余的矩形采用線(xiàn)性插值法,縮放至28×28,把這784個(gè)像素點(diǎn)的數(shù)值作為一個(gè)行向量保存起來(lái).至此,圖像預(yù)處理工作完成.
2.2構(gòu)建棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)
棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)采用深度學(xué)習(xí)算法,由多層稀疏自編碼器組成,每層的輸出是后一層的輸入.構(gòu)建棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)需要設(shè)計(jì)隱層層數(shù)及每層節(jié)點(diǎn)數(shù),同時(shí)設(shè)計(jì)良好的學(xué)習(xí)率能加快學(xué)習(xí)過(guò)程.
圖3 不同參數(shù)對(duì)深度學(xué)習(xí)性能的影響Fig.3The different building performance on human action dataset
為了選取合適的節(jié)點(diǎn)數(shù),先構(gòu)建一個(gè)3層BP神經(jīng)網(wǎng)絡(luò),其中輸入層節(jié)點(diǎn)數(shù)為784.隱層的節(jié)點(diǎn)數(shù)從10遞增到1 100,迭代次數(shù)從25遞增到100.從圖3(a)可以看出,當(dāng)節(jié)點(diǎn)數(shù)小于200時(shí)(上下層節(jié)點(diǎn)數(shù)比例約為0.25),神經(jīng)網(wǎng)絡(luò)性能良好,當(dāng)節(jié)點(diǎn)數(shù)大于600時(shí),神經(jīng)網(wǎng)絡(luò)性能就變得很差.因此對(duì)每個(gè)隱層節(jié)點(diǎn)數(shù)選為上一層節(jié)點(diǎn)數(shù)的25%左右,這樣,整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)像一個(gè)金字塔,從輸入層到輸出層節(jié)點(diǎn)數(shù)依次減少.
學(xué)習(xí)率的不同會(huì)影響深度學(xué)習(xí)的收斂速度,為了使深度神經(jīng)網(wǎng)絡(luò)能更快的收斂,本文使用自適應(yīng)學(xué)習(xí)率更新算法:
LR(i+1)=
(1)
LR(0)=F;
(2)
(3)
其中LR(i)表示i時(shí)刻的學(xué)習(xí)率,C和F分別為學(xué)習(xí)率的上限值和下限值,f(i)是i時(shí)刻的均方誤差,f′(i)是i時(shí)刻和i-1時(shí)刻均方誤差的差值.
為了保證學(xué)習(xí)率在合適的范圍內(nèi),選取C=3,F=0.1.圖3(b)中有幾種固定學(xué)習(xí)率和自適應(yīng)學(xué)習(xí)率時(shí)神經(jīng)網(wǎng)絡(luò)的性能對(duì)比,可以看出采用自適應(yīng)學(xué)習(xí)率能顯著提高神經(jīng)網(wǎng)絡(luò)性能.
2.3姿態(tài)識(shí)別實(shí)驗(yàn)結(jié)果
對(duì)構(gòu)建的深度學(xué)習(xí)方法與其他機(jī)器學(xué)習(xí)算法進(jìn)行比較,進(jìn)行比較的算法有采用徑向基核(radial basis function,RBF)的監(jiān)督學(xué)習(xí)算法SVM、集成學(xué)習(xí)算法隨機(jī)森林(random forest)、深度學(xué)習(xí)算法RBF神經(jīng)網(wǎng)絡(luò)(network)和深度信念網(wǎng)絡(luò)(deep belief network,DBN).所有算法使用同一個(gè)數(shù)據(jù)集,即姿態(tài)圖像訓(xùn)練集,包含待識(shí)別原子動(dòng)作中的全部姿態(tài)圖像.表1表明棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)(ours)相對(duì)其他算法識(shí)別性能有很大的提升.
表1 不同算法識(shí)別準(zhǔn)確率的比較
3第2層:基于估值定界法的原子動(dòng)作識(shí)別
原子動(dòng)作是人體部分肢體就能完成的動(dòng)作,比如伸手就是一個(gè)原子動(dòng)作.它們由多個(gè)姿態(tài)組成,往往不能進(jìn)一步分解為更小的有意義的動(dòng)作.為了提高姿態(tài)序列中原子動(dòng)作及其起始點(diǎn)的效率和準(zhǔn)確度,本文提出了估值定界法.
3.1原子動(dòng)作的識(shí)別
經(jīng)過(guò)第1層的姿態(tài)識(shí)別后,人體行為視頻就變成了一個(gè)姿態(tài)序列.基于原子動(dòng)作訓(xùn)練集的姿態(tài)序列,本文采用Baum-Welch算法構(gòu)建了12個(gè)動(dòng)作的HMM(即表2中的原子動(dòng)作).識(shí)別時(shí)把似然度值最大的類(lèi)別作為識(shí)別結(jié)果,以收回手臂(hand_withdraw)為例.表2是該動(dòng)作各HMM下的似然度值,其中最大的是-15.700 8,即識(shí)別結(jié)果是hand_withdraw.整個(gè)測(cè)試集的識(shí)別準(zhǔn)確率為85.29%.
3.2原子動(dòng)作的起止點(diǎn)
如果視頻流中包含多個(gè)原子動(dòng)作,可以采用HMM估值問(wèn)題,對(duì)連續(xù)幀動(dòng)作依據(jù)似然匹配度進(jìn)行劃分.參考文獻(xiàn)[11]的前向后看算法,本文加入靜態(tài)原子動(dòng)作的判定標(biāo)準(zhǔn),提出了估值定界法.
表2 原子動(dòng)作hand_withdraw的似然度值
注:-Inf表示似然度值超出數(shù)值范圍.
前向后看算法在找到動(dòng)作的終止點(diǎn)前和前向算法一樣,若HMM似然度值在t幀超過(guò)閾值,就把t幀當(dāng)作原子動(dòng)作的終止點(diǎn).找到終止點(diǎn)后,該算法用后向算法尋找原子動(dòng)作的起始點(diǎn).當(dāng)找到原子動(dòng)作起止點(diǎn)后,該算法從t+1幀開(kāi)始識(shí)別視頻中的下一個(gè)動(dòng)作.如果碰到站立(stand)這種既能當(dāng)作原子動(dòng)作又能和其他姿態(tài)組成新的原子動(dòng)作,前向后看算法識(shí)別結(jié)果往往不盡如人意.估值定界法有效地解決了這個(gè)問(wèn)題:如果在t幀時(shí)視頻的某HMM似然度值一直小于靜態(tài)閾值且達(dá)到一定時(shí)間,就認(rèn)為視頻中發(fā)生了該HMM所表示的動(dòng)作,動(dòng)作的終止點(diǎn)設(shè)為t-3,不需要執(zhí)行后向算法,直接從t-2開(kāi)始識(shí)別視頻流中的下一個(gè)動(dòng)作.
對(duì)于輸入的視頻,識(shí)別方法在第1層識(shí)別圖像中的人體姿態(tài),輸入視頻就變成了一個(gè)姿態(tài)序列.接著采用估值定界法識(shí)別姿態(tài)序列中的原子動(dòng)作并找出它們的起止點(diǎn),最后融合間隔小于閾值的相鄰相同動(dòng)作,輸出最后的識(shí)別結(jié)果.
用符號(hào)表示姿態(tài),其中1表示stand,2表示hand_stay_stretch,伸手圖像序列表示為:
[1,1,1,1,1,1,1,2,2,2,2,2,2,2].
用估值定界法識(shí)別上面的符號(hào)序列,最終結(jié)果如表3所示.
表3 原子動(dòng)作的分割與識(shí)別
4第3層:基于CFG的交互行為識(shí)別
單人動(dòng)作可以分為原子動(dòng)作和復(fù)雜動(dòng)作.復(fù)雜動(dòng)作是指由2個(gè)或以上原子動(dòng)作組成的動(dòng)作,它的子動(dòng)作可以是原子動(dòng)作或者其他復(fù)雜動(dòng)作,但只能由一個(gè)人完成.如果一個(gè)動(dòng)作有2個(gè)或以上的參與者,那么這個(gè)動(dòng)作就是交互行為.該層用基于CFG的描述方法表示和識(shí)別交互行為.
4.1基于CFG的行為表示
本文參考了文獻(xiàn)[11]提出的基于CFG的行為表示方法,重新設(shè)計(jì)了一組空間描述子描述動(dòng)作執(zhí)行者的空間關(guān)系,并引入人臉朝向增強(qiáng)對(duì)行為的表示能力.
4.1.1時(shí)間、空間和邏輯描述子
時(shí)間描述子描述子動(dòng)作之間的時(shí)間關(guān)系.Allen[10]提出的時(shí)間描述子有:“before”、“meets”、“overlaps”、“starts”、“during”和“finishes”.若a和b是兩個(gè)動(dòng)作,起始和終止用下標(biāo)表示,時(shí)間描述子定義如下:
空間描述子描述動(dòng)作執(zhí)行者之間的空間關(guān)系.Ryoo等[11]定義了2個(gè)空間描述子:“near”和“touch”.Aksoy等[15]在他們的語(yǔ)義場(chǎng)景圖中定義了4種空間描述子:“absence”、“no connection”、“overlapping”和“touching”.本文融合兩者提出一組新的空間描述子:“far”、“near”、“touch”和“overlap”.
邏輯描述子包含與、或和非,可以加強(qiáng)時(shí)間描述子和空間描述子對(duì)行為的表示能力.它們的定義和傳統(tǒng)數(shù)理邏輯中的定義一致.
4.1.2人臉朝向
人臉朝向也能增強(qiáng)描述子對(duì)行為的描述能力,當(dāng)2人的動(dòng)作是相互靠近或者相互離開(kāi)時(shí),人臉朝向可以作為執(zhí)行者所做動(dòng)作的方向.Face++在多項(xiàng)世界人臉識(shí)別比賽中名列前茅,他們的核心算法使用深度學(xué)習(xí)[16].本文采用Face++提供的云API識(shí)別人臉朝向,通過(guò)云API,每個(gè)頭像會(huì)返回83個(gè)關(guān)鍵點(diǎn)信息,把這83個(gè)信息點(diǎn)用九宮格分為9個(gè)區(qū)域,統(tǒng)計(jì)每個(gè)區(qū)域關(guān)鍵點(diǎn)的數(shù)量,則形成一個(gè)九維的特征向量.人臉朝向分為3類(lèi):左、中和右.實(shí)驗(yàn)中人臉數(shù)據(jù)共有6 000幀,取自拍攝的姿態(tài)圖像訓(xùn)練集和原子動(dòng)作訓(xùn)練集中的圖像,采用隨機(jī)森林進(jìn)行訓(xùn)練識(shí)別,識(shí)別精度達(dá)到97.63%.
4.2單人復(fù)雜動(dòng)作的識(shí)別
單人復(fù)雜動(dòng)作的識(shí)別,即識(shí)別視頻中的子動(dòng)作及它們之間的時(shí)間關(guān)系.以握手(handshake)為例,這個(gè)復(fù)雜動(dòng)作可以分為3個(gè)子動(dòng)作:“hand_stretch”、“hand_stay_stretch”和“hand_withdraw”.
經(jīng)過(guò)姿態(tài)識(shí)別后,復(fù)雜動(dòng)作握手的圖像序列變?yōu)樽藨B(tài)序列,用符號(hào)表示為:
[1,1,1,1,2,2,2,2,2,2,2,2,2,2,2,2,2,2,2,1,
1,1,1].
接著用估值定界法找出上述序列中子動(dòng)作的起止點(diǎn),此處前向閾值為-7,后向閾值為-10,靜態(tài)連續(xù)幀個(gè)數(shù)為5.表4為最終輸出結(jié)果.
表4 復(fù)雜動(dòng)作分割示例
注:以握手的子動(dòng)作為例.
3個(gè)子動(dòng)作的時(shí)間關(guān)系滿(mǎn)足:
meets(hand_stretch,hand_stay_stretch)&
meets(hand_stay_stretch,hand_withdraw)
符合基于CFG的描述方法對(duì)握手這個(gè)動(dòng)作的定義,從而識(shí)別出握手這個(gè)行為.
4.3交互行為的識(shí)別
通過(guò)單人復(fù)雜動(dòng)作的識(shí)別,得到每個(gè)人的動(dòng)作在時(shí)間上的關(guān)系;根據(jù)人臉朝向,得到動(dòng)作執(zhí)行者所做動(dòng)作的方向;再加上空間描述信息,就能準(zhǔn)確表示交互行為.以交互行為ShakeHands為例(圖4).
圖4 交互行為ShakeHands的圖像和剪影序列Fig.4The images and silhouettes of interactive ShakeHands
圖5中PR表示圖像右邊的人,PL表示圖像左邊的人.識(shí)別單個(gè)人的動(dòng)作時(shí),發(fā)現(xiàn)PR和PL都有一個(gè)握手的復(fù)雜動(dòng)作,并且在hand_stay_stretch階段,2人相互接觸,他們的關(guān)系描述如下:
很明顯這些子動(dòng)作之間的關(guān)系滿(mǎn)足ShakeHands的定義,并由人臉朝向可知,2人的動(dòng)作分別指向?qū)Ψ?即在這段視頻中識(shí)別出交互行為ShakeHands.
4.4實(shí)驗(yàn)結(jié)果
采集的交互動(dòng)作數(shù)據(jù)集共有10組,每組都包括“Approach”、“Depart”、“Hello”、“ShakeHands”和“Punch”,還有1個(gè)動(dòng)作“Point”作為干擾.Approach是2人走近,Depart是2人走遠(yuǎn),它們的子動(dòng)作均是walk,需要的空間描述子分別為far和near.Hello是2人打招呼,可以不需要空間描述子.ShakeHands是2人握手,而Punch是一人拳打另一人,兩者都需要空間描述子touch.
第1層識(shí)別出每幀圖像中的人體姿態(tài),第2層用估值定界法識(shí)別出原子動(dòng)作和它們的起止點(diǎn),第3層采用基于CFG描述的方法識(shí)別交互行為.表5是最終的識(shí)別結(jié)果,可以看出雖然視頻數(shù)據(jù)集較小,但仍能達(dá)到很好的識(shí)別結(jié)果,數(shù)據(jù)集總體識(shí)別準(zhǔn)確率為82%.
圖5 交互行為ShakeHands識(shí)別示意圖Fig.5Illustration of ShakeHands recognition
交互動(dòng)作次數(shù)識(shí)別數(shù)準(zhǔn)確率/%Approach10770Depart10990ShakeHands10990Hello10880Punch10880總數(shù)504182
5結(jié)論
本文提出了一種分層的交互行為識(shí)別方法.該方法針對(duì)普通攝像機(jī)采集數(shù)據(jù)進(jìn)行人體行為識(shí)別時(shí)難以提取圖像中的人體部分,容易受到光照條件和背景色彩的影響,且不易消除人影等問(wèn)題,使用能獲取深度信息的Kinect采集數(shù)據(jù).Kinect利用深度信息能有效解決上述問(wèn)題,實(shí)時(shí)跟蹤視野中的人體.本文還采用棧式降噪自編碼神經(jīng)網(wǎng)絡(luò)識(shí)別圖像中人體姿態(tài),由于深度學(xué)習(xí)能自動(dòng)學(xué)習(xí)數(shù)據(jù)特征,提高了行為識(shí)別方法的可擴(kuò)展性和適應(yīng)性.在對(duì)姿態(tài)序列進(jìn)行分割時(shí),該方法對(duì)靜態(tài)原子動(dòng)作的識(shí)別進(jìn)行了優(yōu)化,提出的估值定界法提高了原子動(dòng)作分割的效率和準(zhǔn)確率.針對(duì)數(shù)據(jù)集較小的問(wèn)題,該方法采用基于描述的分層行為識(shí)別方法,方便融合先驗(yàn)知識(shí),引入人臉朝向增強(qiáng)了描述子對(duì)行為的描述能力,實(shí)驗(yàn)結(jié)果顯示提出的方法能有效識(shí)別人體交互性行為.
單個(gè)Kinect采集數(shù)據(jù)時(shí),視覺(jué)范圍和角度都有一定的局限,遮擋問(wèn)題難以消除,對(duì)人體行為識(shí)別影響較大.因此在未來(lái)的工作中,我們將采用多個(gè)Kinect采集數(shù)據(jù),以減少遮擋和角度等因素的影響.
參考文獻(xiàn):
[1]POPPE R.A survey on vision-based human action recognition[J].Image and Vision Computing,2010,28(6):976-990.
[2]AGGARWAL J K,Ryoo M S.Human activity analysis:a review[J].Acm Computing Surveys,2011,43(3):1-43.
[3]SHEIKH Y,SHEIKH M,SHAH M.Exploring the space of a human action[C]∥2005 IEEE International Conference on Computer Vision(ICCV).Beijing:IEEE,2005:144-149.
[4]NATARAJAN P,NEVATIA R.Coupled hidden semi markov models for activity recognition[C]∥2007 IEEE Workshop on Motion and Video Computing(WMVC).Austin:IEEE,2007:10.
[5]OLIVER N,HORVITZ E,GARG A.Layered representations for human activity recognition[C]∥2002 IEEE International Conference on Multimodal Interfaces(ICMI).Pittsburgh,PA:IEEE,2002:3-8.
[6]JOO S W,CHELLAPPA R.Attribute grammar-based event recognition and anomaly detection[C]∥2006 IEEE Conference on Computer Vision and Pattern Recognition Workshops(CVPRW).New York:IEEE,2006:107.
[7]GUPTA A,SRINIVASAN P,JIANBO S,et al.Understanding videos,constructing plots learning a visually grounded storyline model from annotated videos[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Miami,FL:IEEE,2009:2012-2019.
[8]HINTON G E,SALAKHUTDINOV R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507.
[9]VINCENT P,LAROCHELLE H,LAJOIE I,et al.Stacked denoising autoencoders:learning useful representations in a deep network with a local denoising criterion[J].Journal of Machine Learning Research,2010,11:3371-3408.
[10]ALLEN J F.Rethinking logics of action and time[C]∥2013 International Symposium on Temporal Representation and Reasoning (TIME).Pensacola,FL:IEEE,2013:3-4.
[11]RYOO M S,AGGARWAL J K.Recognition of composite human activities through context-free grammar based representation[C]∥2006 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). New York:IEEE,2006:1709-1718.
[12]ZHANG Z.Microsoft kinect sensor and its effect[J].IEEE Multimedia,2012,19(2):4-10.
[13]蘇竑宇,陳啟安,吳海濤.基于 SVM 和 HMM 二級(jí)模型的行為識(shí)別方案[J].計(jì)算機(jī)與現(xiàn)代化,2015,5:1-8.
[14]XIE L,PAN W,TANG C,et al.A pyramidal deep learning architecture for human action recognition[J].International Journal of Modelling Identification and Control,2014,21(2):139-146.
[15]AKSOY E E,ABRAMOV A,WORGOTTER F,et al.Categorizing object-action relations from semantic scene graphs[C]∥2010 IEEE International Conference on Robotics and Automation (ICRA).Anchorage,AK:IEEE,2010:398-405.
[16]FAN H,CAO Z,JIANG Y,et al.Learning deep face representation[EB/OL].[2014-03-12].http:∥arxiv.org/abs/1403.2802.
A Hierarchical Approach Based on Deep Learning for Human Interactive-action Recognition
YIN Kunyang,PAN Wei,XIE Lidong,XU Suxia*
(Fujian Key Lab of Brain-like Intelligent Systems,School of Information Science and Engineering,Xiamen University,Xiamen 361005,China)
Abstract:This paper discusses the recognition of interaction-level human activities with a hierarchical approach.We classify human activities into four categories:pose,atomic action,composite action,and interaction.In the bottom layer,a new pyramidal stacked de-noising auto-encoder is adopted to recognize the poses of person with high accuracy.In the middle layer,the hidden Markov models (HMMs) of atomic actions are built, and evaluation demarcation algorithm is proposed to detect atomic actions and speed up calculations.In the top layer,the context-free grammar (CFG) is used to represent and recognize interactions.In this layer,a new spatial predicate set is proposed and face orientation is introduced to describe activities.We use Kinect to capture activity videos.The experimental result from the dataset shows that the system possesses the ability to recognize human actions accurately.
Key words:human action recognition;deep learning;hidden Markov model (HMM);context-free grammar (CFG);Kinect
doi:10.6043/j.issn.0438-0479.2016.03.019
收稿日期:2015-08-29錄用日期:2015-11-20
基金項(xiàng)目:國(guó)家自然科學(xué)基金(60975084)
*通信作者:suxiaxu@xmu.edu.cn
中圖分類(lèi)號(hào):TP 391
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):0438-0479(2016)03-0413-07
引文格式:尹坤陽(yáng),潘偉,謝立東,等.一種基于深度學(xué)習(xí)的人體交互行為分層識(shí)別方法.廈門(mén)大學(xué)學(xué)報(bào)(自然科學(xué)版),2016,55(3):413-419.
Citation:YIN K Y,PAN W,XIE L D,et al.A hierarchical approach based on deep learning for human interactive-action recognition.Journal of Xiamen University(Natural Science),2016,55(3):413-419.(in Chinese)