羅會蘭,王嬋娟,盧飛
人體行為識別是指利用模式識別、機(jī)器學(xué)習(xí)等方法,從一段未知的視頻中自動分析識別人體執(zhí)行的行為。最簡單的行為識別也稱為行為分類,它可以將未知視頻中的人體行為分類到預(yù)先定義的幾種行為類別中。較為復(fù)雜的行為識別是指識別視頻中多個(gè)人體正在交互進(jìn)行的群體活動。行為識別的最終目標(biāo)是自動分析視頻中有什么人,在什么時(shí)刻、什么地方做了什么事情。人體行為識別在安防、交通管理、智能看護(hù)、娛樂休閑等現(xiàn)實(shí)生活中應(yīng)用廣泛。目前,行為識別的研究方法主要有2種:一種是基于手動提取特征的方法,另一種是基于深度網(wǎng)絡(luò)學(xué)習(xí)特征的方法。2種方法各有長短,基于手動提取特征的方法能夠根據(jù)需要提取相應(yīng)的特征,實(shí)現(xiàn)簡單,但行為的表示能力也受所提取特征的限制;基于深度網(wǎng)絡(luò)學(xué)習(xí)特征的方法能夠自動學(xué)習(xí)特征,但需要大量數(shù)據(jù)支撐,不適于小型數(shù)據(jù)集處理,且整個(gè)過程是端到端的,像個(gè)黑盒子,不適于計(jì)算視覺領(lǐng)域的研究初學(xué)者熟悉圖像、視頻處理的基本技術(shù)和基本步驟。
Moeslund等[1]按照行為的復(fù)雜程度將人體行為分為3個(gè)層級:基本動作、行為和活動。基本動作指的是能在肢體層次上描述的基本運(yùn)動;行為指的是由基本動作構(gòu)成,描述一個(gè)可能是周期性的全身運(yùn)動;活動包含許多后續(xù)動作,并對正在執(zhí)行的動作進(jìn)行解釋。例如,左腿向前是一個(gè)基本動作,跑步是一個(gè)行為,跨欄就是一個(gè)包括開始、跳躍和跑步動作的一個(gè)活動。與此類似,文獻(xiàn)[2]認(rèn)為行為識別可以分為2類:一類是低層動作的識別,另一類是高層行為的識別,其還認(rèn)為前者是后者的基礎(chǔ),并依此將行為識別方法分為2類進(jìn)行綜述。
Ji等[3]按行為識別的步驟將其分成3個(gè)子問題:人體檢測、與視覺無關(guān)的姿勢表示和估計(jì)、行為理解,并對其進(jìn)行了綜述。而Dhamsania等[4]按照視頻場景中的目標(biāo)人物數(shù)對識別方法進(jìn)行了分類,將其區(qū)分為單人行為識別、雙人或人與物互動的行為識別以及多人行為識別。Candamo等[5]則討論了交通監(jiān)管視頻場景中的行為識別問題:單人游蕩識別、多人打架識別以及人與物體互動識別(如偷車、毀壞公共設(shè)施等)。Poppe等[6]將視頻行為識別的問題轉(zhuǎn)化為圖像序列的識別分類問題,并討論了圖像的各種表示及分類方法。
有些綜述著眼于討論某一特定動作類識別問題。Weinland等[7]著眼于解決全身運(yùn)動(如踢打、拳擊等)識別問題的方法,并對這些方法按照如何表示動作的時(shí)空結(jié)構(gòu)、如何對視頻進(jìn)行分割以及如何學(xué)習(xí)獲得行為表示進(jìn)行分類。Chaudhary等[8]著眼于解決手勢識別問題的方法,比較分析了當(dāng)前一些流行方法的實(shí)驗(yàn)結(jié)果。
為了讓初學(xué)者更好地理解傳統(tǒng)視頻行為識別方法的基本流程及其與最新深度網(wǎng)絡(luò)模型方法的區(qū)別,本文分別綜述了傳統(tǒng)手動提取特征方法和深度網(wǎng)絡(luò)學(xué)習(xí)方法,并重點(diǎn)論述了基于手動提取特征表示的行為識別方法,按照流程就每個(gè)相對獨(dú)立的步驟進(jìn)行了總結(jié)歸納,然后在此基礎(chǔ)上綜述了當(dāng)前流行的用于行為識別的深度學(xué)習(xí)模型。主要貢獻(xiàn)如下。
1) 對基于手動提取特征表示的行為識別方法進(jìn)行了較為系統(tǒng)、全面的研究和分類,并對每類方法中的典型算法進(jìn)行了闡述和分析。
2) 對2012年以來以卷積神經(jīng)網(wǎng)絡(luò)為代表的深度網(wǎng)絡(luò)學(xué)習(xí)技術(shù)在行為識別中的應(yīng)用進(jìn)行了研究和闡述。
3) 對行為識別算法常用的基準(zhǔn)數(shù)據(jù)集、算法性能評價(jià)指標(biāo)進(jìn)行了研究和介紹。
4) 討論了行為識別中目前存在的、亟待解決的主要問題以及未來發(fā)展的趨勢。
基于手動提取特征的行為識別方法一般包含如圖1所示的處理流程,即首先對視頻進(jìn)行采樣,然后對樣本提取特征,接著對特征進(jìn)行編碼,再對編碼得到的向量進(jìn)行規(guī)范化,最后訓(xùn)練分類。
一般而言,提取特征之前需要先對視頻進(jìn)行興趣點(diǎn)采樣,然后對采樣興趣點(diǎn)進(jìn)行特征信息的提取。采樣方式有基于興趣區(qū)域的采樣、基于軌跡的采樣和基于身體部分的采樣等。
2.1.1 基于興趣區(qū)域的采樣
圖1 基于手動提取特征的行為識別流程
基于興趣區(qū)域的采樣方法是指利用探測器檢測視頻的興趣區(qū)域,從而提取特征描述的方法。這類方法不需要對行為視頻進(jìn)行前景背景分割,也不需要對發(fā)生行為的人體進(jìn)行精確的定位跟蹤。Laptev等[9]提出對Harris角點(diǎn)檢測方法[10]進(jìn)行時(shí)空擴(kuò)展,在行為視頻中進(jìn)行 Harris3D興趣點(diǎn)檢測。Harris3D檢測空間維與時(shí)間維上都具有顯著變化的點(diǎn)區(qū)域,并自適應(yīng)地選擇興趣點(diǎn)的時(shí)間尺度與空間尺度。圖2示例了對UCF101[11]數(shù)據(jù)庫中畫眼妝這個(gè)動作的興趣點(diǎn)采樣截圖。Oikonomopoulos等[12]提出了一種基于時(shí)空顯著點(diǎn)的行為表征方法:首先計(jì)算行為視頻中每個(gè)像素點(diǎn)對應(yīng)的時(shí)空鄰域的信號直方圖的熵,然后將取得Shannon熵的局部極大值的位置點(diǎn)視為時(shí)空顯著點(diǎn)。以上2種方法檢測到的采樣點(diǎn)在空間尺度與時(shí)間尺度上都具有顯著變化,但是視頻中滿足條件的采樣點(diǎn)較少,這就導(dǎo)致采樣得到的時(shí)空興趣點(diǎn)比較稀疏,對后續(xù)的行為識別有一定的影響。針對這種問題,Dollar等[13]提出了一種基于空間維上的高斯平滑濾波器與時(shí)間維上的Gabor濾波器的Cuboid檢測方法,該方法檢測出的時(shí)空興趣點(diǎn)較為密集。Rapantzikos等[14]提出使用離散小波變換,通過低通、高通濾波器的響應(yīng)值來檢測時(shí)空興趣點(diǎn)。后來 Rapantzikos等[15]又提出引入運(yùn)動信息與顏色信息進(jìn)行時(shí)空顯著點(diǎn)檢測。這些時(shí)空興趣點(diǎn)檢測方法均檢測到了密集的時(shí)空興趣點(diǎn)。Willems等[16]提出將二維圖像中的Hessian顯著點(diǎn)檢測方法擴(kuò)展到三維視頻中,這種方法被命名為 Hessian時(shí)空興趣點(diǎn)檢測方法,它使用 3D Hessian矩陣的行列式來評估視頻中各位置點(diǎn)的顯著性。Hessian時(shí)空興趣點(diǎn)檢測方法以一種非迭代的方式,自動選擇興趣點(diǎn)的時(shí)空位置與尺度。這種方法能夠檢測到更為密集,且尺度不變的時(shí)空興趣點(diǎn)。
圖2 原視頻與興趣點(diǎn)采樣對比
2.1.2 基于軌跡的采樣
伴隨著人體運(yùn)動的發(fā)生,會產(chǎn)生一條運(yùn)動軌跡。Wang等[17]提出沿著運(yùn)動軌跡將軌跡鄰域劃分成細(xì)小的子空間,然后對每個(gè)子空間提取特征描述信息?;谲壽E的采樣方法把時(shí)間信息也考慮進(jìn)來了,通常來說,這種采樣方法會比基于興趣區(qū)域的采樣方法對視頻的表征能力更強(qiáng)。但是因?yàn)槠溲刂壽E密集采樣,所以采樣得到的興趣點(diǎn)數(shù)目較大,對于計(jì)算機(jī)的存儲空間和運(yùn)算速度的要求會更高。為了解決這個(gè)問題,文獻(xiàn)[18-19]提出在稠密軌跡的基礎(chǔ)上設(shè)置一些新的限制條件,從而減少稠密軌跡數(shù)。為了消除相機(jī)抖動對識別性能的影響,Wang等[20]又提出了改進(jìn)版的稠密軌跡提取方法,改進(jìn)版中引入了對背景光流的消除方法,使特征更集中于對人體運(yùn)動的描述。許多行為識別的研究工作[21-23]都是在改進(jìn)稠密軌跡基礎(chǔ)上進(jìn)行的,在深度網(wǎng)絡(luò)方法出現(xiàn)之前,該方法曾一度占據(jù)行為識別領(lǐng)域的領(lǐng)先位置。
2.1.3 基于身體部分的采樣
基于身體部分的采樣方法是通過姿態(tài)估計(jì)方法或深度圖姿態(tài)估計(jì)方法,獲取人體各部件的位置、關(guān)節(jié)點(diǎn)的位置以及關(guān)節(jié)點(diǎn)的運(yùn)動信息來表征行為。這類方法一般需要先用前景背景分割、運(yùn)動檢測或行人檢測跟蹤算法對視頻中的人體進(jìn)行定位,然后對人體身體部位進(jìn)行描述。通過這種采樣方法所提取到的特征信息比較完整,對視頻中的人體行為來說是一種良好的表征方式。Ali等[24]利用人體頭部與軀干的5個(gè)歸一化節(jié)點(diǎn)的軌跡信息構(gòu)建人體的行為。圖3示例了演員表演9個(gè)不同動作時(shí)人體5個(gè)節(jié)點(diǎn)及其軌跡。Yilma等[25]使用13個(gè)人體節(jié)點(diǎn)的軌跡信息進(jìn)行行為識別。Jhuang等[26]使用人工標(biāo)記的 14個(gè)關(guān)節(jié)點(diǎn)表達(dá)的姿態(tài)特征進(jìn)行行為識別,并通過實(shí)驗(yàn)對比,發(fā)現(xiàn)了這種基于關(guān)節(jié)點(diǎn)的姿態(tài)特征表達(dá)比局部特征能獲得更好的識別效果。Singh等[27]使用15個(gè)鏈接點(diǎn)來表征人體行為的關(guān)鍵姿態(tài),并利用跟蹤信息進(jìn)行行為識別。文獻(xiàn)[28-29]則利用神經(jīng)網(wǎng)絡(luò)對自由度為 20的人體行為骨架信息進(jìn)行行為識別。
圖3 表演9個(gè)不同動作時(shí)人體5個(gè)節(jié)點(diǎn)的運(yùn)動軌跡
特征提取的目的是收集通用的對背景變換頑健的視頻描述信息。理想的特征應(yīng)該是與尺度變化、旋轉(zhuǎn)、仿射變化、光照變化、視角變化無關(guān)的。從全局來看,可以用外觀、姿勢或語境信息來描述視頻中的人體行為。從局部來說,可以用方向梯度、光流方向等來描述視頻中的人體行為,本文將視頻描述信息分為全局描述符和局部描述符來做進(jìn)一步闡述。
2.2.1 全局描述符
全局描述符是對通過背景減圖或跟蹤的方法得到整個(gè)感興趣的人體進(jìn)行描述,通常采用的是人體的姿態(tài)、關(guān)節(jié)形狀、剪影輪廓等信息。這些特征對噪聲、部分遮擋、視角的變化比較敏感。
伴隨著人體運(yùn)動的發(fā)生,人體的姿態(tài)也會發(fā)生變化,因此,人體姿態(tài)也可以作為表征運(yùn)動的一條線索。Wang等[30]提出一種基于姿態(tài)的行為表示模型,用于描述人體姿勢的時(shí)空結(jié)構(gòu)。這類方法的處理流程如下:首先為每一幀估計(jì)k個(gè)最好的姿勢,然后利用分段線索和時(shí)間約束推斷最佳姿勢。該方法在UCF Sports數(shù)據(jù)集和MSR Action3D數(shù)據(jù)集上分別獲得了90%和90.22%的識別準(zhǔn)確度,要優(yōu)于同期其他方法。
眾所周知,人體的運(yùn)動是由關(guān)節(jié)帶動發(fā)生的,因此,關(guān)節(jié)點(diǎn)的位置變化也能從側(cè)面描述視頻的運(yùn)動信息。Jiang等[31]提出了一種關(guān)節(jié)形狀運(yùn)動描述子,將光流場的運(yùn)動模型和外觀模型結(jié)合捕捉運(yùn)動的不同性質(zhì)。這種方法是將長視頻看作基本動作的序列,然后利用關(guān)節(jié)形狀運(yùn)動描述子對基本動作進(jìn)行匹配,從而實(shí)現(xiàn)視頻的分類。文獻(xiàn)[32]提出了一種基于關(guān)節(jié)點(diǎn)的元動作描述符,這種方法首先引入單關(guān)節(jié)點(diǎn)部位的動態(tài)聚類,采用關(guān)節(jié)點(diǎn)判別力來動態(tài)確定聚類中心個(gè)數(shù)。然后將判別力強(qiáng)的部位聚類個(gè)數(shù)增大,反之亦然。之后再引入判別力部位整體聚類,選出高識別率的判別力部位,將每個(gè)判別力部位內(nèi)所有的關(guān)節(jié)點(diǎn)視為一個(gè)整體,串聯(lián)特征后聚類,得到新的元動作,對于給定的樣本,某個(gè)部位的元動作特征定義為該部位基礎(chǔ)特征與各聚類中心歸一化歐氏距離的串聯(lián)。最后分別采用單關(guān)節(jié)點(diǎn)部位動態(tài)聚類和多判別力部位聚類的元動作特征來表示行為。
剪影表征的是人體的輪廓形象,做不同動作時(shí)人體的輪廓是不同的,例如,伸平雙手和坐下,因此,行為視頻中人體的剪影也可以作為人體運(yùn)動的描述,Gorelick等[33]使用背景差分法來提取人體的剪影信息,并據(jù)此將行為表征為時(shí)空形狀。然后,基于泊松方程解的性質(zhì),利用提取的時(shí)空形狀的方向、突出點(diǎn)、結(jié)構(gòu)等特征的聯(lián)合向量來表征行為。
2.2.2 局部描述符
局部描述符是指對提取出的局部興趣點(diǎn)進(jìn)行描述的方法,最常用的有梯度方向直方圖(HOG,histogram of oriented gradient)、光流梯度方向直方圖(HOF, histograms of oriented optical flow)、運(yùn)動邊界直方圖(MBH, motion of boundary history)這3種方法。
HOG[34]描述的是靜態(tài)外觀信息,首先需要將圖像分割成細(xì)小的子空間,然后統(tǒng)計(jì)每個(gè)子空間中各像素點(diǎn)的梯度方向,最后合并每個(gè)子空間的統(tǒng)計(jì)直方圖并將其作為圖像的HOG特征描述符。為了獲得更好的光照、陰影等不變性,還可以先把這些子空間的局部直方圖在圖像中更大的區(qū)間內(nèi)進(jìn)行對比度歸一化。
HOF[35]表達(dá)的是局部運(yùn)動信息,首先是將光流圖像分割成許多細(xì)小的子空間,然后加權(quán)統(tǒng)計(jì)每個(gè)子空間的光流方向,得到光流梯度直方圖。由于視頻中發(fā)生行為的人體的尺寸會隨著時(shí)間發(fā)生變化,相應(yīng)的光流特征描述子的維度也會變化。所以,光流的計(jì)算對背景噪聲、尺度變化以及運(yùn)動方向都比較敏感。為了使其對運(yùn)動方向及尺度變化頑健,可以橫軸為基準(zhǔn)計(jì)算夾角并對得到的光流梯度直方圖進(jìn)行歸一化。
MBH[36]表達(dá)的是相關(guān)運(yùn)動信息。MBH的計(jì)算方法是將x和y方向上的光流圖像視作2張灰度圖像,然后提取這些灰度圖像的梯度直方圖,即MBH特征是分別在圖像的x和y方向的光流圖像上計(jì)算HOG特征,實(shí)現(xiàn)對運(yùn)動物體的邊界信息的提取。
從視頻中提取的底層特征以及編碼后的特征向量需要經(jīng)過一些處理技術(shù)防止數(shù)據(jù)過擬合的情況。本文將應(yīng)用于從視頻提取的底層特征上的處理方法稱為預(yù)處理技術(shù),將應(yīng)用于編碼后的特征向量上的處理方法稱為后處理技術(shù)。有一些研究者會忽略對特征數(shù)據(jù)進(jìn)行預(yù)處理而直接編碼,但最近有研究[37]表明,對特征進(jìn)行預(yù)處理能提升識別準(zhǔn)確度。
常用的預(yù)處理技術(shù)分為2類,一類是降維處理,另一類是白化操作。主成份分析(PCA,principal component analysis)是一個(gè)常用的線性降維方法。PCA把原先的n維特征用數(shù)目更少的m維特征取代,通過最大化樣本方差,盡量使新的m個(gè)維度互不相關(guān)。白化的目的是去掉數(shù)據(jù)之間的相關(guān)度,是很多算法進(jìn)行預(yù)處理的步驟。例如,當(dāng)訓(xùn)練圖片數(shù)據(jù)時(shí),因?yàn)閳D片中相鄰像素值有一定的關(guān)聯(lián),所以很多信息是冗余的,這時(shí)就可以利用白化進(jìn)行去相關(guān)操作。常見的白化操作有 PCA Whitening和 ZCA Whitening。PCA Whitening的操作流程是先通過PCA消除特征之間的相關(guān)性,然后利用縮放因子使特征具有相同的方差。ZCA Whitening本質(zhì)上是換一種方法實(shí)現(xiàn)特征的去相關(guān)及歸一化,將經(jīng)過 PCA Whitening后的數(shù)據(jù)重新變換回原來的空間。對于卷積神經(jīng)網(wǎng)絡(luò)算法來說,因?yàn)樗鼘ψ匀粓D像的局部特征依賴較大,所以使用和原始數(shù)據(jù)同一空間表達(dá)的ZCA Whitening會比PCA Whitening的效果更好。但是對于大多數(shù)其他的機(jī)器學(xué)習(xí)算法來說,兩者的效果相差不大。
編碼后的特征向量往往需要經(jīng)過后處理進(jìn)行規(guī)范,常用的后處理技術(shù)有池化和歸一化。池化分為最大池化、求和池化和平均池化。最大池化就是取這些描述符的編碼系數(shù)中最大的值作為視頻的全局表示。求和池化就是將所有描述符的編碼系數(shù)求和并將得到的和值作為視頻的全局表示。平均池化就是將所有描述符的編碼系數(shù)求和之后再取平均值并將平均值作為視頻的全局表示。常用的歸一化方式有 4種:L1歸一化、L2歸一化、Power Normalization和 Intra Normalization。假設(shè)v={x1,…,xn}表示一個(gè)視頻的編碼向量,則各規(guī)范化策略計(jì)算式如下。
L1歸一化:
L2歸一化:
Power Normalization:
Intra normalization:
式(3)中的α為規(guī)范參數(shù),且滿足條件01≤≤α。式(4)中的vk表示和第k個(gè)聚類中心或第k個(gè)高斯分量相關(guān)的單詞向量。
在對視頻進(jìn)行特征提取得到視頻的特征集之后,需要對視頻的特征集進(jìn)行聚類得到后面編碼需要的碼本。視頻動作識別領(lǐng)域常用的聚類方式有K均值聚類和混合高斯模型(Gaussian mixed model)聚類。
K均值聚類是依據(jù)特征點(diǎn)之間的相似性聚類。它初始時(shí)隨機(jī)選擇K個(gè)特征點(diǎn)作為K個(gè)簇的均值點(diǎn)或代表點(diǎn),然后將每個(gè)特征點(diǎn)分配給離它最近的均值點(diǎn)代表的簇,分配完畢后重新計(jì)算各個(gè)簇的均值,這個(gè)過程不斷重復(fù),直到準(zhǔn)則函數(shù)收斂。它的結(jié)果會受初始選擇的K個(gè)均值點(diǎn)的影響。
混合高斯模型指的是多個(gè)高斯分布函數(shù)的線性組合,表示為
其中,N(x μk, Σk)表示混合高斯分布中的第k個(gè)高斯分量,πk表示混合系數(shù),且πk滿足條件:
采樣視頻興趣點(diǎn)并描述得到訓(xùn)練特征集,然后通過聚類得到特征碼本,還需要對每個(gè)視頻的特征進(jìn)行編碼獲取表示向量。常用的編碼方法有矢量量化(VQ,vector quantization)、稀疏編碼(SC, sparse coding)、費(fèi)舍爾編碼(FV, Fisher vector)和局部聚合描述符矢量(VLAD, vector of locally aggregated descriptor)。
VQ是一種投票式的硬性編碼方法,投票規(guī)則如下:給定一個(gè) k維的碼本 D=(d1,…,di,…,dk),對于視頻的描述符集X=(x1,…,xj,…,xn),其中,xj表示視頻的第j個(gè)描述符,則xj對視覺詞典中第i個(gè)視覺單詞di的投票只有2個(gè)取值,1或0,如果xj和di的距離最近,則投票值為1,否則為0。通過這種投票方法,第j個(gè)描述符就獲得了一個(gè)k維的編碼系數(shù)sj,且sj=[…000010000…]。類似地,可獲得視頻描述符集X中每個(gè)描述子的編碼系數(shù)。這種編碼方法是一種硬量化,容易導(dǎo)致信息損失。
SC是一種重建型編碼方法,它的目的是使編碼系數(shù) s能依據(jù)聚類得到的字典最大可能重建描述子 x。給定一個(gè)大小為 K 的碼本D={dk,k=1,…,K},對于視頻的描述符集X的編碼系數(shù)s,計(jì)算式為
其中,s1表示對編碼系數(shù)做L1正則化處理,保證編碼系數(shù)具有稀疏性。
FV是由Perronnin等[38]提出的用于大尺度圖像分類的。因其在圖像分類中的杰出表現(xiàn),逐漸被引入視頻的行為識別中。用描述符集X來描述一段視頻,給定一個(gè)大小為K的混合高斯分布模型,視頻描述符集的編碼系數(shù)s可以表示為
其中,
VLAD是費(fèi)舍爾編碼的一種特殊形式,由Jegou等[39]在圖像搜索中首次提出,這種編碼方法的計(jì)算過程如下:假設(shè)在訓(xùn)練特征集上聚類得到大小為K的視覺詞典D,表示為 D = { dk,k = 1,… , K },其中,dk表示碼本中第k個(gè)視覺單詞。假設(shè)一個(gè)視頻的特征描述集為X,則視頻的編碼系數(shù)s為
其中,
行為識別方法的性能主要取決于視頻特征的表達(dá),與手動提取特征表示方法不同,基于深度網(wǎng)絡(luò)學(xué)習(xí)特征表示的方法是從原始數(shù)據(jù)中自動學(xué)習(xí)特征。這種方法是端到端的,輸入視頻,輸出分類結(jié)果。
深度學(xué)習(xí)中用于行為識別的深度網(wǎng)絡(luò)主要有卷積神經(jīng)網(wǎng)絡(luò)(CNN, convolutional neural network)和遞歸神經(jīng)網(wǎng)絡(luò)(RNN, recurrent neural network)。卷積神經(jīng)網(wǎng)絡(luò)通常遵循3層體系結(jié)構(gòu),分別是卷積層、池化層和全連接層。比較經(jīng)典的是 Simonyan等[40]提出的用于行為識別的雙流 CNN,其將視頻看作一段圖像序列,空間流計(jì)算圖像幀的 CNN特征,時(shí)間流計(jì)算若干圖像幀間的光流 CNN特征,最后再將兩者進(jìn)行融合。圖4為雙流CNN工作流程[40]。
這種方法雖然將立體的視頻識別問題轉(zhuǎn)化為平面的圖像識別問題,但卻丟失了動作的時(shí)間關(guān)聯(lián)信息。為了彌補(bǔ)雙流架構(gòu)在時(shí)間信息上的丟失,Wang等[41]提出了三流CNN架構(gòu)。該架構(gòu)在雙流架構(gòu)的基礎(chǔ)上將時(shí)間流進(jìn)一步細(xì)分,分為局部時(shí)間流和全局時(shí)間流。動作圖像特征和光流特征分別作為空間流和局部時(shí)間流的輸入,并將學(xué)習(xí)運(yùn)動疊差圖像(MSDI, motion stacked difference image)的CNN特征作為全局時(shí)間流的輸入。在 UCF101及HMDB51[42]數(shù)據(jù)庫上的實(shí)驗(yàn)表明,基于三流 CNN架構(gòu)的識別準(zhǔn)確度比雙流 CNN[40]方法分別提高了1.7%和1.9%。
圖4 雙流CNN工作流程
還有一些研究者對 CNN特征提取對象做了改進(jìn),例如,Gkioxari等[43]提出不對整個(gè)圖像幀學(xué)習(xí)特征,而是在圖像幀上先選擇一個(gè)包含人體的包圍盒作為主區(qū)域,然后根據(jù)主區(qū)域定義若干個(gè)次區(qū)域,利用最大值函數(shù)計(jì)算次區(qū)域包含的信息量并將其得分給主區(qū)域,再利用 RCNN(region-based convolutional network method)對主區(qū)域和次區(qū)域進(jìn)行訓(xùn)練學(xué)習(xí)得到視頻的特征表示。該方法在數(shù)據(jù)庫PASAL VOC Action dataset上獲得了90.2%的平均準(zhǔn)確度,超出同期其他方法[44-47]。Cheron等[48]提出P-CNN(pose based CNN)方法,該方法是先對輸入的視頻進(jìn)行姿勢估計(jì),然后對身體不同部分提取CNN特征,再將各個(gè)部分的特征融合起來,該方法在數(shù)據(jù)庫JHMDB[26]和MPII Cooking dataset[49]上均領(lǐng)先同期方法[26,49-51]。
遞歸神經(jīng)網(wǎng)絡(luò)[52]也常被用于深度學(xué)習(xí)模型中,它是將之前若干時(shí)刻的數(shù)據(jù)作為當(dāng)前時(shí)刻的數(shù)據(jù)輸入,從而保留了時(shí)間維度上的信息。長短時(shí)記憶[53](LSTM, long short-term memory)類型的RNN是普通RNN的擴(kuò)展,主要用于解決RNN中的梯度消亡現(xiàn)象。Niebles等[54]提出了一種非監(jiān)督式的 LSTM模型來計(jì)算視頻的表示信息。在文獻(xiàn)[55-56]中,還提出將CNN和RNN結(jié)合起來識別視頻中的人體行為。文獻(xiàn)[57]在此基礎(chǔ)上又提出了一種遞歸混合網(wǎng)絡(luò)模型,該模型首先從彩色圖像和光溜中提取空間特征和短時(shí)時(shí)間特征,然后對相鄰的P幀特征進(jìn)行池化并將池化結(jié)果輸入LSTM中(這可以減少幀間的噪聲影響),最后將LSTM 模型學(xué)到的特征與視頻的其他 2種特征(STP和IDT)經(jīng)過線性SVM得到的分?jǐn)?shù)融合獲取視頻分類的最終結(jié)果,在UCF101上獲得了 89.4%的識別準(zhǔn)確度,比傳統(tǒng)的LSTM的識別準(zhǔn)確度高了2.4%。
本節(jié)主要介紹歷年來較有代表意義的檢驗(yàn)行為識別算法性能的公用數(shù)據(jù)集,并對前述比較典型的行為識別算法進(jìn)行了分析、總結(jié)和比較。
判斷一個(gè)行為識別算法的優(yōu)劣需要在同一個(gè)環(huán)境中和其他的同類算法進(jìn)行比較,這就促使了一些公開數(shù)據(jù)庫的誕生。表 1[58-67]列出了行為識別研究發(fā)展歷程中常用的一些數(shù)據(jù)庫的信息,包括每個(gè)數(shù)據(jù)庫的發(fā)布年份、動作類、簡介以及近3年被引用次數(shù)。由表1中的2015-2017年引用次數(shù)可以看出,隨著深度學(xué)習(xí)的流行,在選擇測試評估的數(shù)據(jù)集時(shí)逐漸傾向選取UCF101、HMDB51這種大型的、與現(xiàn)實(shí)環(huán)境一致的數(shù)據(jù)集。且深度學(xué)習(xí)算法需要用到大量的數(shù)據(jù)進(jìn)行訓(xùn)練,而小型的數(shù)據(jù)庫不能滿足此類需求。隨著行為識別在智能看護(hù)、人機(jī)交互等現(xiàn)實(shí)場景應(yīng)用的普及,人們對于行為識別算法的準(zhǔn)確度、適應(yīng)性、實(shí)時(shí)性等要求越來越高,固定條件或場景錄制的視頻已很難滿足人們的實(shí)際需求。其中,HMDB51的識別難度較高,因?yàn)樗囊曨l片段均來源于真實(shí)世界,背景雜亂,視角變化、類內(nèi)差異較大。
本節(jié)在 3個(gè)具有代表性的數(shù)據(jù)集 KTH、HMDB51和UCF101上分析比較了一些有代表性的基于手動提取特征的方法以及基于深度學(xué)習(xí)的方法,分別如表 2~表 4[68-89]所示。由表 2~表 4中 2類方法近幾年的識別準(zhǔn)確度來看,基于手動提取特征的方法逐漸走向一個(gè)研究瓶頸,很難再開發(fā)出比改進(jìn)稠密軌跡效果更好的描述子,大多數(shù)的研究都是圍繞改進(jìn)稠密軌跡展開的,通過不同的編碼方法獲取頑健性更強(qiáng)的獨(dú)立表示,但效果并不顯著。相反,基于深度網(wǎng)絡(luò)學(xué)習(xí)特征的方法雖然最初的識別準(zhǔn)確度并不高,但經(jīng)過幾年的發(fā)展,準(zhǔn)確度有了很大提升,逐漸超越了基于改進(jìn)稠密軌跡的方法。Peng等[68]通過對改進(jìn)稠密軌跡特征進(jìn)行疊加費(fèi)舍爾編碼,在HMDB51數(shù)據(jù)集上獲得了66.79%的識別準(zhǔn)確度;Duta等[69]通過在改進(jìn)稠密軌跡特征中融入位置信息進(jìn)行編碼,在UCF101上獲得了91.5%的識別準(zhǔn)確度;四流深度卷積網(wǎng)絡(luò)模型[70]在UCF101和HMDB51數(shù)據(jù)集上取得了目前最高的識別準(zhǔn)確度,分別為96%和74.2%。
目前,行為識別的研究雖然取得了一定的進(jìn)展,但還是面臨很多的挑戰(zhàn),還有許多亟待解決的問題。首先,目前大部分的研究方法需要足夠多的標(biāo)簽樣本進(jìn)行訓(xùn)練,才能達(dá)到比較好的識別預(yù)測效果。但現(xiàn)實(shí)中許多情況下提供不了足夠多的樣本,那么如何依靠現(xiàn)有的少量監(jiān)督樣本達(dá)到較高的識別準(zhǔn)確度是目前亟待解決的一個(gè)問題。其次,相比動作幅度大的人體行為(如踢足球、跳舞等人體行為),比較細(xì)微的人體行為識別的難度很大,現(xiàn)存方法的效果非常不理想,例如,根據(jù)眼皮的下沉情況判斷正在駕駛車輛的司機(jī)是否有打瞌睡的跡象,或根據(jù)犯罪審問中罪犯的微表情、微動作判斷罪犯是否撒謊從而輔助警察辦案。
表1 歷年來常用數(shù)據(jù)庫簡介
表2 KTH數(shù)據(jù)集上行為識別方法分析比較
未來行為識別的研究發(fā)展將更加貼近實(shí)際應(yīng)用,朝著更少樣本、更快速度以及更精細(xì)動作識別的研究方向發(fā)展。
人體行為識別在現(xiàn)實(shí)生活中有非常大的應(yīng)用需求,受到越來越多的計(jì)算機(jī)視覺研究者的關(guān)注。為了幫助初學(xué)者快速掌握行為識別的流程,把握研究熱點(diǎn),本文在前人的研究基礎(chǔ)上,綜述了基于手動提取特征的行為識別方法以及典型的多流卷積神經(jīng)網(wǎng)絡(luò)模型。介紹了行為識別研究常用的公開數(shù)據(jù)集,在此基礎(chǔ)上分析比較了傳統(tǒng)手工提取特征方法和深度學(xué)習(xí)方法的性能?;诟倪M(jìn)稠密軌跡特征的行為識別方法是傳統(tǒng)方法中效果較好的,因?yàn)楦倪M(jìn)稠密軌跡依據(jù)光流進(jìn)行稠密采樣,獲取到的特征信息較為豐富,表征能力較強(qiáng),缺點(diǎn)是計(jì)算量較大。近年來,基于復(fù)雜深度模型的行為識別研究取得了相較于傳統(tǒng)方法更好的效果。未來的行為識別研究可能朝著更實(shí)用、更精細(xì)、需要更少訓(xùn)練數(shù)據(jù)的方向發(fā)展。
表3 HMDB51數(shù)據(jù)集上行為識別方法分析比較
表4 UCF101數(shù)據(jù)集上行為識別方法分析比較