張會(huì)珍, 劉云麟, 任偉建,1b, 劉欣瑜
(1.東北石油大學(xué)a.電氣信息工程學(xué)院; b.黑龍江省網(wǎng)絡(luò)化與智能控制重點(diǎn)實(shí)驗(yàn)室, 黑龍江大慶163318;2.中國(guó)石化銷售股份有限公司上海石油分公司 信息管理處, 上海200002)
多媒體信息(尤其是視覺(jué)信息)在如今網(wǎng)絡(luò)和電子視頻設(shè)備快速發(fā)展并普及的時(shí)代, 不斷滲透到人類生活的各個(gè)領(lǐng)域, 已逐漸成為信息交互的主要載體。 計(jì)算機(jī)視覺(jué)應(yīng)運(yùn)而生, 目的是希望計(jì)算機(jī)獲得與人相似的視覺(jué)感知能力, 其最吸引人的一面是能從圖像或視頻中獲取外部信息的描述。 由于大多數(shù)視頻記錄的都是作為組成社會(huì)活動(dòng)主要部分的人類的活動(dòng), 由此衍生出了行為識(shí)別這個(gè)備受重視的研究方向。該方向在例如智能視頻監(jiān)控[1]、 醫(yī)療診斷監(jiān)護(hù)[2]、 智能人機(jī)交互[3]和身份識(shí)別等[4]領(lǐng)域中具有廣泛的應(yīng)用。 基于視覺(jué)的人體行為識(shí)別主要是為了解決原始圖像和圖像序列數(shù)據(jù)的處理分析問(wèn)題, 這些圖像通常是計(jì)算機(jī)通過(guò)傳感器(攝像機(jī))采集的, 同時(shí)該方法還能學(xué)習(xí)并理解其中人的動(dòng)作和行為[5]。 人類行為識(shí)別涵蓋了計(jì)算機(jī)視覺(jué)中的許多研究課題, 包括視頻中的人體檢測(cè)、 姿態(tài)估計(jì)、 跟蹤以及對(duì)時(shí)間序列數(shù)據(jù)的分析和理解。 識(shí)別過(guò)程主要分為以下3 部分[6]: 1) 在視頻幀中檢測(cè)運(yùn)動(dòng)信息并提取底層特征;2) 對(duì)行為模式進(jìn)行建模研究; 3) 建立動(dòng)作行為類別與底層視覺(jué)特征等高層語(yǔ)義信息間的對(duì)應(yīng)關(guān)系。近年來(lái), 該領(lǐng)域得到了廣泛的關(guān)注與研究, 例如IJCV( International Journal of Computer Vision)、 CVIU(Computer Vision and Image Understanding)、 PAMI(Pattern Analysis and Machine Intelligence)等國(guó)際知名期刊以及ICCV( IEEE International Conference on Computer Vision)、 CVPRI ( EEE Conference on Computer Vision and Pattern Recognition)和ECCV(European Conference on Computer Vision)等重要學(xué)術(shù)會(huì)議都將人類行為識(shí)別與理解作為一個(gè)重要的研究課題[6]。
隨著人體行為識(shí)別領(lǐng)域的發(fā)展和研究任務(wù)的深入, 從最初在受限條件下只能識(shí)別簡(jiǎn)單的單體動(dòng)作到如今在真實(shí)自然場(chǎng)景下的復(fù)雜群體行為識(shí)別, 無(wú)論對(duì)信息采集設(shè)備或算法能力上都提出了嚴(yán)峻的挑戰(zhàn)。而特征提取作為行為識(shí)別過(guò)程的重要環(huán)節(jié), 提取結(jié)果的好壞在很大程度上影響著行為識(shí)別效果的實(shí)時(shí)性與準(zhǔn)確性。 特征提取作為計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)領(lǐng)域中的經(jīng)典問(wèn)題, 與圖像空間中的特征提取不同, 視頻中人類動(dòng)作的特征表示不僅描述了人在圖像空間中的形態(tài), 而且必須將人的外貌以及姿態(tài)變化提取出來(lái), 將特征提取問(wèn)題從二維空間擴(kuò)展到三維時(shí)空, 大大增加了行為方式表達(dá)及后續(xù)識(shí)別任務(wù)的復(fù)雜程度, 與此同時(shí)也為視覺(jué)研究者在解決思想和技術(shù)方法方面拓寬了思路[4,7]。 人體特征是指從視頻序列底層提取出可以對(duì)目標(biāo)行為進(jìn)行表征的信息[8], 比如顏色、 輪廓、 紋理、 深度, 或是人體運(yùn)動(dòng)方向、 速度、軌跡以及時(shí)空興趣點(diǎn)和時(shí)空上下文等。
筆者旨在從不同類型行為識(shí)別特征的角度、 常用的行為數(shù)據(jù)集等方面論述目前該領(lǐng)域的研究現(xiàn)狀,探討研究難點(diǎn)并闡述未來(lái)可能的發(fā)展方向。
特征提取旨在從底層數(shù)據(jù)抽取部分具有代表性的特征信息對(duì)人體動(dòng)作進(jìn)行表征。 特征提取的好壞直接影響識(shí)別方法的精確度和魯棒性, 從原始視頻序列中提取具有較強(qiáng)表征能力的行為特征一直是行為識(shí)別領(lǐng)域的一個(gè)研究難點(diǎn)。
外觀形狀特征一般包括運(yùn)動(dòng)物體的大小、 側(cè)影輪廓、 顏色、 緊密度和深度等, 這些特征在行為識(shí)別中由于能較好地表征人體行為細(xì)節(jié), 因此被廣泛采用。
Bobick 等[9]最早采用輪廓描述人體的運(yùn)動(dòng)信息, 在其方法中, 首先采用背景減法, 然后將一系列的背景減法塊聚合到單個(gè)靜態(tài)圖像中,并提出了兩種聚合方法—— 第1 種方法對(duì)序列中的所有圖像給予同等的權(quán)重, 從而產(chǎn)生了一種稱為 “運(yùn)動(dòng)能量圖像”(MEI: Motion Energy Image)的表示, 其可以指示運(yùn)動(dòng)在哪些部位發(fā)生過(guò); 第2 種方法對(duì)序列中的圖像給出衰減的權(quán)重, 給新幀賦予更高的權(quán)重、 舊幀賦予較低的權(quán)重, 被稱為“動(dòng)態(tài)歷史圖像”(MHI: Motion History Image), 其可以表征人體在一個(gè)動(dòng)作過(guò)程中最近的動(dòng)作情況。 Sahoo 等[10]提出了一種基于MHI 的興趣點(diǎn)細(xì)化算法去除噪聲興趣點(diǎn), 將方向梯度直方圖和光流直方圖技術(shù)從空間擴(kuò)展到時(shí)空域保存時(shí)間信息。 Khan 等[11]針對(duì)動(dòng)作識(shí)別的表示通常只使用形狀特征而忽略顏色特征的問(wèn)題, 受到顏色在圖像分類和目標(biāo)檢測(cè)方面的成功啟發(fā), 研究了顏色在靜態(tài)圖像中用于動(dòng)作分類和檢測(cè)的潛力, 并對(duì)顏色描述符和動(dòng)作識(shí)別的融合方法進(jìn)行了綜合評(píng)價(jià), 實(shí)驗(yàn)表明, 顏色和形狀信息的后期融合在動(dòng)作識(shí)別方面優(yōu)于其他方法, 同時(shí)給出不同的顏色形狀融合方法會(huì)產(chǎn)生互補(bǔ)的信息, 并將其進(jìn)行組合, 從而獲得先進(jìn)的動(dòng)作分類性能。 Elmezain 等[12]提出了一種基于亮度不變顏色和自適應(yīng)高斯混合的背景建模方法, 能自適應(yīng)地建立和更新具有顏色不變性假設(shè)的陰影, 用于復(fù)雜場(chǎng)景中前景目標(biāo)與背景的識(shí)別, 該方法在不犧牲實(shí)時(shí)性能的前提下, 比現(xiàn)有的先進(jìn)技術(shù)更有效。
Liang 等[13]提出了一種基于深度的局部描述子和基于位置約束的仿射子空間編碼的三維動(dòng)作識(shí)別方法, 實(shí)現(xiàn)了再深度圖像中對(duì)人體行為進(jìn)行識(shí)別。 Maity 等[14]提出了基于剪影圖像序列的人體行為識(shí)別方法, 首先采用尺度平移歸一化和輪廓畸變?nèi)コ? 用于提取新引入的活動(dòng)區(qū)域能量特征( AREF: Active Region Energy Features)和軌跡分析; 其次, 使用層次結(jié)構(gòu)進(jìn)行分類。 一個(gè)活動(dòng)區(qū)域是兩個(gè)連續(xù)輪廓中的變化區(qū)域, 用以描述完成的動(dòng)作; 最后利用包含活動(dòng)區(qū)域能量的有功區(qū)域能量像(AREI: Active Region Energy Image)估計(jì)AREF, 其值越高, 表示該區(qū)域在剪影序列中越活躍(變化), 即該區(qū)域被更多地使用(活動(dòng))完成動(dòng)作, 提取的特征更加具有魯棒性和尺度不變性。 Kushwaha 等[15]針對(duì)以往基于輪廓的人類活動(dòng)識(shí)別工作大多是從單一視角進(jìn)行識(shí)別, 忽略了視角不變性的問(wèn)題, 提出了一種基于輪廓的姿態(tài)特征和基于均勻旋轉(zhuǎn)的局部二值模式的視圖不變活動(dòng)識(shí)別方法。 該框架由3 個(gè)連續(xù)的模塊組成: 首先通過(guò)背景減法檢測(cè)和定位人; 然后將從輪廓中提取基于尺度不變輪廓的位姿特征和均勻旋轉(zhuǎn)不變局部二值模式(LBP: Local Binary Pattern)結(jié)合; 最后使用多類支持向量機(jī)(SVM: Support Vector Machine)分類器對(duì)人的活動(dòng)進(jìn)行分類。 Vishwakarma 等[16]旨在利用人體輪廓的關(guān)鍵姿態(tài), 構(gòu)造一種新的分類模型, 為視頻序列中的人體活動(dòng)識(shí)別提供一種新的方法。 將人體輪廓的時(shí)空形狀變化通過(guò)輪廓的關(guān)鍵姿勢(shì)劃分成固定數(shù)量的網(wǎng)格和單元表示, 從而實(shí)現(xiàn)無(wú)噪聲的描述。 Cai 等[17]提出利用Procrustes 分析和局部保留投影(LPP:Locality Preserving Projection)技術(shù)從剪影圖像中提取姿態(tài)特征, 然后將所提取的特征能保留人體姿態(tài)的判別形狀信息和局部流形結(jié)構(gòu), 且不受平移、 旋轉(zhuǎn)和縮放的影響, 最后在提取姿態(tài)特征后, 利用基于費(fèi)舍爾向量編碼(FV: Fisher Vector)和多類支持向量機(jī)的識(shí)別框架對(duì)人體動(dòng)作進(jìn)行分類。 Qian 等[18]提出了變速度下的虛擬粒子隨機(jī)游動(dòng)理論。 在該理論的指導(dǎo)下, 利用九點(diǎn)有限差分法對(duì)二維泊松方程解進(jìn)行離散, 并在基于人體輪廓的時(shí)空運(yùn)動(dòng)累積圖像上進(jìn)行定義, 得到了用于動(dòng)作描述的深度輪廓圖像, 成功地將人類行為的時(shí)空演化信息包含在深度輪廓圖像中。 此外, 與直接使用三維時(shí)空描述符相比, 將三維人體動(dòng)作投影到二維圖像描述符中, 可大大降低相應(yīng)識(shí)別算法的計(jì)算成本。
外觀形狀特征是全局特征的一類, 這類特征包含了豐富的人體信息, 因此它是有效的, 要獲取這類特征必須要先將人體所在區(qū)域事先定位。 實(shí)現(xiàn)這個(gè)目的的方法有很多, 例如背景減法、 幀間差分法或目標(biāo)跟蹤算法等, 因此其解決了視覺(jué)監(jiān)控系統(tǒng)中人體行為識(shí)別的問(wèn)題。 然而其又十分依賴底層視覺(jué)的處理, 比如精確的前景提取和跟蹤, 這本身也是計(jì)算機(jī)視覺(jué)中的難點(diǎn)。 尤其是在場(chǎng)景較為復(fù)雜和視頻采集設(shè)備運(yùn)動(dòng)的情況下, 無(wú)法獲得準(zhǔn)確的人體外觀, 并且隨著計(jì)算機(jī)設(shè)備與深度學(xué)習(xí)領(lǐng)域的發(fā)展, 研究者們將研究的重點(diǎn)更傾向于真實(shí)場(chǎng)景中, 因此單一的外觀形狀特征并不適用。
目前被廣泛使用的運(yùn)動(dòng)特征包括軌跡、 方向、 速度、 加速度和光流特征等。 使用這些特征提取方法的優(yōu)點(diǎn)是所提取的特征信息較為完整, 且完全不考慮人體結(jié)構(gòu)的任何形狀信息, 對(duì)視頻中的人體行為是一種良好的表征方式。 Wang 等[19]提出了一種基于密集軌跡的人體行為識(shí)別方法, 通過(guò)對(duì)各個(gè)視頻幀不同空間尺度進(jìn)行密集采樣, 對(duì)采樣獲得的興趣點(diǎn)進(jìn)行幀間追蹤得到密集軌跡, 并結(jié)合灰度圖像方向梯度直方圖(HOG: Histogram of Oriented Gradient)、 光流直方圖(HOF: Optical Flow Histogram)、 運(yùn)動(dòng)邊界直方圖(MBH: Motion Boundary Histogram)3 種描述子組成特征描述符對(duì)人體信息進(jìn)行表征, 最后通過(guò)使用SVM 分類器在不同行為數(shù)據(jù)集上進(jìn)行分類, 可以獲得良好的的分類精度。 但提取基于軌跡的采樣方法考慮到了人體運(yùn)動(dòng)的時(shí)間信息, 因其沿著軌跡密集采樣, 所以采樣得到的興趣點(diǎn)數(shù)目較多, 算法運(yùn)行效率無(wú)法達(dá)到預(yù)期, 而例如背景的細(xì)小變化也對(duì)識(shí)別結(jié)果有一定的影響。 為了解決這個(gè)問(wèn)題,Wang 等[20]提出改進(jìn)方法, 其中最明顯也是最重要的改進(jìn)是引入了消除背景光流的方法( 估計(jì)相機(jī)運(yùn)動(dòng)), 目的是去除無(wú)意義背景光流對(duì)識(shí)別造成的干擾, 識(shí)別效果得到顯著提升。 受此啟發(fā), Lu 等[21]提出了一種新型多尺度軌跡池三維卷積描述符(MTC3D: 3D Multi-scale Trajectory Convolution Descriptor), 即從輸入視頻中計(jì)算多尺度密集軌跡, 并在三維卷積神經(jīng)網(wǎng)絡(luò)(CNN: Convolutional Neural Network)的特征圖上進(jìn)行軌跡池化, 提出的描述符具有兩個(gè)優(yōu)點(diǎn): 3D CNN 具有從視頻中提取高級(jí)語(yǔ)義信息的能力, 多尺度軌跡池方法巧妙地利用了視頻的時(shí)間信息。 Carmona 等[22]通過(guò)改進(jìn)的稠密軌跡(IDTs: Improved Dense trajectories)提高性能, 增加新的基于時(shí)態(tài)模板的特征, 把一個(gè)視頻序列看作一個(gè)三階張量, 并計(jì)算3 個(gè)不同的投影構(gòu)造這些模板, 通過(guò)使用幾個(gè)函數(shù)投影視頻序列中的數(shù)據(jù)及求和池的方式將它們組合。
Yi 等[23]提出了一種基于顯著性檢測(cè)和低秩矩陣恢復(fù)的突出前景軌跡提取方法, 將密集軌跡劃分為顯著軌跡和非顯著軌跡。 突出軌跡與感興趣的前景區(qū)域近似對(duì)應(yīng), 而非突出子集主要由背景軌跡組成。此外, 根據(jù)背景運(yùn)動(dòng)的低秩性, 如果視頻具有背景運(yùn)動(dòng), 則通過(guò)低秩矩陣恢復(fù)方法在隱式軌跡子集上進(jìn)一步構(gòu)造背景軌跡子空間。 然后可以減去突出子集中可能的背景軌跡。 最后, 采用特征詞袋模型或Fisher 向量法對(duì)得到的突出前景軌跡特征進(jìn)行編碼和動(dòng)作分類。
軌跡描述的是目標(biāo)在空間中的運(yùn)動(dòng)軌跡, 因此想要計(jì)算出目標(biāo)的速度、 方向等運(yùn)動(dòng)特征變得十分容易。 Hu 等[24]結(jié)合人的空間位置、 運(yùn)動(dòng)方向和速度等不同特征, 提出了一種三維場(chǎng)景的軌跡聚類算法和一種室內(nèi)感興趣區(qū)域(ROI)提取方法, 并利用動(dòng)態(tài)時(shí)間規(guī)整(DTW)方法研究了異常動(dòng)作序列。 Fan 等[25]提出了一組動(dòng)力學(xué)特征描述人體每個(gè)關(guān)節(jié)的速度、 加速度、 角速度、 角加速度、 動(dòng)能、 勢(shì)能和總能量。Malawski 等[26]在相似運(yùn)動(dòng)模式的分析中使用動(dòng)力學(xué), 提出了基于加速度測(cè)量數(shù)據(jù)、 骨骼關(guān)節(jié)特征和深度圖的信息運(yùn)動(dòng)描述符, 并展示了它們對(duì)運(yùn)動(dòng)動(dòng)力學(xué)建模的潛力。
由于軌跡特征在對(duì)目標(biāo)進(jìn)行長(zhǎng)時(shí)間跟蹤過(guò)程中可能發(fā)生軌跡漂移的情況, 特別是在復(fù)雜的場(chǎng)景下更易出錯(cuò), 因此, 研究者們將目光放在光流特征上。 光流(Optical Flow)計(jì)算的是像素的瞬時(shí)變化, 當(dāng)物體運(yùn)動(dòng)模式發(fā)生改變時(shí), 所對(duì)應(yīng)的像素點(diǎn)亦會(huì)發(fā)生變化, 因此光流法被廣泛應(yīng)用于目標(biāo)檢測(cè)跟蹤領(lǐng)域中。Shi 等[27]提出了一種基于多尺度局部模型的動(dòng)作識(shí)別系統(tǒng), 并使用一種保持不連續(xù)的光流算法提高識(shí)別性能; Kinoshita 等[28]基于旋轉(zhuǎn)觀測(cè)器的一維光流跟蹤方法, 利用運(yùn)動(dòng)物體的像素計(jì)算一維光流, 以消除靜止環(huán)境物體的視運(yùn)動(dòng), 也較好地實(shí)現(xiàn)了復(fù)雜背景下的人體跟蹤, 但這會(huì)引入運(yùn)動(dòng)噪聲。 為了解決這個(gè)問(wèn)題, Efros 等[29]提出了模糊光流特征(Blurred Optical Flow)對(duì)運(yùn)動(dòng)目標(biāo)進(jìn)行表征,該方法僅通過(guò)提取以人體為中心點(diǎn)的光流特性即可實(shí)現(xiàn)降低噪聲的目的。
綜上所述, 針對(duì)表觀特征在中遠(yuǎn)距離視覺(jué)和能見度低條件下難以很好地對(duì)運(yùn)動(dòng)進(jìn)行表征的問(wèn)題,基于運(yùn)動(dòng)特征的行為識(shí)別取得了不錯(cuò)的效果。 但大多數(shù)運(yùn)動(dòng)特征尤其是光流的計(jì)算方法非常復(fù)雜, 抗噪性能差, 且需要滿足一些基本假設(shè)條件從而難以進(jìn)行實(shí)際應(yīng)用, 因而使該方面的研究較為困難。 目前,因外觀形狀特征和運(yùn)動(dòng)特征各有優(yōu)勢(shì), 可以相互補(bǔ)充, 人們更傾向于融合運(yùn)動(dòng)特征與外觀形狀特征共同對(duì)人體行為進(jìn)行表征。
在行為表達(dá)過(guò)程中, 物體的姿態(tài)孕育了空間信息, 而運(yùn)動(dòng)信息則反映在時(shí)間空間中, 因此, 時(shí)間的動(dòng)態(tài)信息對(duì)于行為表達(dá)至關(guān)重要[8]。 時(shí)空特征將一段視頻視作時(shí)間軸上的級(jí)聯(lián), 通過(guò)提取如時(shí)空興趣點(diǎn)、 時(shí)空上下文信息、 時(shí)空立方體等特征, 對(duì)人體行為進(jìn)行表述。
由于時(shí)空興趣點(diǎn)特征很容易被提取, 因此該特征在行為識(shí)別領(lǐng)域被廣發(fā)使用, 興趣點(diǎn)的求解思想[30]是將視頻看作三維函數(shù), 建立一個(gè)映射函數(shù), 將三維空間的數(shù)據(jù)經(jīng)過(guò)該函數(shù)計(jì)算映射到一維空間, 對(duì)此一維空間的局部極大值進(jìn)行求解, 得到的各個(gè)極值點(diǎn)即是時(shí)空興趣點(diǎn)。 比較經(jīng)典的求取時(shí)空興趣點(diǎn)的算法有Harris 角點(diǎn)算法, Susan 算法和(SIFT: Scale-Invariant Feature Transform)算法以及以其為基礎(chǔ)的一些改進(jìn)算法等。 Maity 等[31]提出了一種新的時(shí)空人體部位運(yùn)動(dòng)( STBPM: Space and Time Body Parts Movement)特征, 其特性的設(shè)計(jì)目的是累積多個(gè)主體部分的活動(dòng)簽名, 以完成任何操作, 并將其應(yīng)用于人體行為識(shí)別。 紀(jì)亮亮等[32]為了研究真實(shí)條件下的人體行為識(shí)別, 建立一個(gè)基于深度圖像攝像機(jī)的動(dòng)態(tài)多視角人體行為數(shù)據(jù)庫(kù), 該數(shù)據(jù)庫(kù)收集了20 人的600 多個(gè)行為視頻, 約60 萬(wàn)幀彩色圖像和深度圖像,利用(CRFasRNN: Conditional Random Fields as Recurrent Neural Networks)圖片分割技術(shù)將人像進(jìn)行分割并分別提取Harris3D 特征, 利用隱馬爾可夫模型對(duì)動(dòng)態(tài)視角下的人體行為進(jìn)行識(shí)別。 Wei 等[33]為了充分利用視頻序列的邏輯結(jié)構(gòu), 同時(shí)提取方向梯度的三維直方圖、 基于頻域?yàn)V波(FDF: Frequency Domain filtering)的全局描述符和基于時(shí)空興趣點(diǎn)(STIP: Space-Time Interest Point)的局部描述符特征對(duì)人體行為進(jìn)行表征。
基于時(shí)空興趣點(diǎn)的方法在目前行為識(shí)別領(lǐng)域中取得了良好的效果, 但是這類方法幾乎都是描述單一的興趣點(diǎn)特征而忽略了視頻序列中大量時(shí)間和空間信息, 因此研究人員希望通過(guò)引入上下文特征彌補(bǔ)這個(gè)不足。 時(shí)空上下文特征是對(duì)事物時(shí)間上的聯(lián)系進(jìn)行描述, 這種聯(lián)系主要發(fā)生在視頻相鄰幀之間, 對(duì)以人體為主的運(yùn)動(dòng)中心這種時(shí)間聯(lián)系更加明顯。 Yuan 等[34]針對(duì)具有長(zhǎng)距離運(yùn)動(dòng)或多個(gè)身體部位與人交互的高層次人類活動(dòng)中低層次的特征具有局限性, 提出一個(gè)計(jì)算中層特征并考慮其上下文信息的框架解決這一問(wèn)題。 首先采用一組中層構(gòu)件(它們?cè)诳臻g和時(shí)間域中具有一致的結(jié)構(gòu)和運(yùn)動(dòng))表示人類活動(dòng); 然后引入時(shí)空上下文內(nèi)核(STCK: Space-Time Context Kernel), 其不僅捕獲了特征的局部屬性, 而且考慮了特征的時(shí)空上下文信息。 Chen 等[35]在改進(jìn)的運(yùn)動(dòng)尺度特征變換(iMoSIFT: Improved Motion Scale-Inviriant Feature Transform )的基礎(chǔ)上, 考慮了iMoSIFT 興趣點(diǎn)之間的時(shí)空結(jié)構(gòu)關(guān)系, 并采用局部加權(quán)的上下文描述符進(jìn)行編碼, 然后對(duì)每個(gè)視頻片段使用雙層弓表示。 時(shí)空立方體特征是將提取到的時(shí)空興趣點(diǎn)特征映射到一個(gè)三維立方體上進(jìn)行表征的方法, Seo 等[36-37]利用時(shí)空局部回歸核(3D LSKs: 3D Space-Time Local Regression Kernels)對(duì)視頻圖像中人體行為進(jìn)行表征, 通過(guò)進(jìn)行時(shí)空立方體的匹配完成行為識(shí)別。 Vieira等[38]提出了一種利用深度圖序列進(jìn)行三維動(dòng)作識(shí)別的新視覺(jué)表示方法—— 時(shí)空占用模式(STOP: Space Time Occupation Pattern), 其不僅捕獲了特征的局部屬性, 而且考慮了特征的時(shí)空上下文信息, 同時(shí)具有優(yōu)秀的靈活性適應(yīng)動(dòng)作內(nèi)部變化, 對(duì)解決深度圖像序列中的遮擋和噪聲問(wèn)題取得了良好的效果并且降低了行為特征的類內(nèi)差。 Nazir 等[39]提出了一種動(dòng)態(tài)時(shí)空詞袋包(D-STBoE)模型, 用于人類動(dòng)作識(shí)別, 其表達(dá)式是基于視覺(jué)詞的時(shí)空立方體的密度形成以處理類間的變化, 通過(guò)使用類特定的視覺(jué)詞表示生成視覺(jué)表達(dá)式。
總之, 基于時(shí)空特征的行為識(shí)別方法在一定程度上解決了外觀形狀特征和運(yùn)動(dòng)特征存在的視覺(jué)變化和部分遮擋等較為敏感的問(wèn)題, 并且時(shí)空特征屬于局部特征, 因此不需要精確的人體定位和跟蹤。 另外還可以通過(guò)引入上下文信息提升局部特征的表征能力, 從而引起研究者廣泛興趣。 但由于時(shí)空局部特征點(diǎn)本身包含大量的噪聲, 從而導(dǎo)致特征的表征能力有限, 同時(shí), 對(duì)于復(fù)雜的真實(shí)場(chǎng)景, 以及如今數(shù)據(jù)量的激增所導(dǎo)致的巨大的行為類內(nèi)差, 使得行為表達(dá)也受到限制。 因此, 如何解決這些問(wèn)題, 是未來(lái)該領(lǐng)域研究學(xué)者們的攻克難點(diǎn)與方向。
近年來(lái)隨著硬件設(shè)備的不斷提升, 深度學(xué)習(xí)領(lǐng)域的快速發(fā)展, 采取特征融合的方法應(yīng)用到行為識(shí)別中的優(yōu)勢(shì)也越來(lái)越明顯。 研究者們通過(guò)使用特征融合的方法以獲得魯棒性更好的行為特征表征能力, 從而達(dá)到將不同種類的特征融合, 減少信息冗余, 提高識(shí)別精度和效率的目的。
多特征融合技術(shù)在人體動(dòng)作識(shí)別領(lǐng)域得到廣泛應(yīng)用, Huan 等[40]提出了一種基于方向興趣區(qū)域運(yùn)動(dòng)直方圖的融合特征和基于親和傳播(AP: Affinity Propagation)聚類的詞袋模型(BOWs: Bag of Words)的人體動(dòng)作識(shí)別方法, HOIRM(Histogram of Interest Region Motion)是介于局部特征和全局特征之間的一個(gè)中層特征, 使用累積直方圖將HOIRM 與3D HOG 和3D HOF 局部特征融合, 該方法進(jìn)一步提高了局部特征對(duì)復(fù)雜場(chǎng)景中攝像機(jī)視角和距離變化的魯棒性, 從而提高了動(dòng)作識(shí)別的正確率。 Wang 等[41]使用骨架和骨架節(jié)點(diǎn)周圍的深度點(diǎn)學(xué)習(xí)由不同節(jié)點(diǎn)特征構(gòu)成的集成模型表示每個(gè)動(dòng)作并捕獲類內(nèi)方差, 然后, 通過(guò)多核學(xué)習(xí)對(duì)不同的特征進(jìn)行融合和分類。 Majd 等[42]將光流特征和時(shí)空特征進(jìn)行融合。 Gao 等[43]提出多特征映射和字典學(xué)習(xí)模型 ( MMDLM: Multi-feature Mapping Dictionary Learning Model ),首先提取深度圖像序列的不同特征, 然后使用MMDLM 旨在深入發(fā)現(xiàn)這些不同特征之間的關(guān)系, 同時(shí)學(xué)習(xí)兩個(gè)字典和一個(gè)特征映射函數(shù); 而且, 這些詞典可以充分表征不同特征的結(jié)構(gòu)信息, 而特征映射功能是一個(gè)正則化項(xiàng), 可以揭示這兩個(gè)特征之間的內(nèi)在聯(lián)系, 在大規(guī)模數(shù)據(jù)集中取得了較好的效果。Azher 等[44]利用深層卷積網(wǎng)絡(luò)提取深度空間特征, 采用基于韋伯定律的體積局部梯度三元模式提取時(shí)空特征, 利用梯度運(yùn)算考慮形狀信息, 將這兩個(gè)提取的特征連接后提供給支持向量機(jī)進(jìn)行分類。 Yao 等[45]提出了一種基于時(shí)空雙特征的多特征融合算法提取有用的視覺(jué)信息進(jìn)行識(shí)別, 同時(shí)將壓縮的時(shí)空視頻表示方法引入到詞包表示中, 在兩個(gè)流行數(shù)據(jù)集上的實(shí)驗(yàn)顯示了有效的性能。 Zhong 等[46]通過(guò)對(duì)密集軌跡上的時(shí)空網(wǎng)格進(jìn)行分析, 生成HOG 和HOF 描述人體物體的外觀和運(yùn)動(dòng), 然后, 通過(guò)詞匯樹將HOG 與HOF 組合轉(zhuǎn)換為BoWs, 最后, 應(yīng)用隨機(jī)森林識(shí)別人類行為的類型。 Abdulmunem 等[47]提出了一種基于突出目標(biāo)檢測(cè)和局部描述符與全局描述符相結(jié)合的人體動(dòng)作識(shí)別新框架, 首先檢測(cè)視頻幀中的突出對(duì)象, 提取這些對(duì)象的特征; 然后使用 一個(gè)簡(jiǎn)單策略識(shí)別和處理包含突出對(duì)象的視頻幀, 并用突出目標(biāo)代替所有幀, 在提高算法效率的前提下抑制了背景像素的干擾; 最后將這種方法分別與局部描述符和全局描述符結(jié)合(分別稱為3d-sift 和方向光流直方圖), 利用所得到的顯著性指導(dǎo)特征, 結(jié)合多類SVM 分類器進(jìn)行人體行為識(shí)別。 姚明海等[48]從特征提取和選擇的角度提出了融合特征區(qū)分度和相關(guān)性的方法對(duì)視頻數(shù)據(jù)進(jìn)行降維并去除特征集合中的冗余信息。 Li 等[49]提出了一種加權(quán)融合方案, 將RGB 和光流與人體姿態(tài)特征結(jié)合進(jìn)行動(dòng)作分類。
在人體行為識(shí)別過(guò)程中, 僅僅使用單一特征對(duì)人體行為進(jìn)行表征是完全不夠的, 并且如淺層特征的自遮擋問(wèn)題及深度特征的復(fù)雜性問(wèn)題亦是不可忽視的弊端, 因此多特征是未來(lái)的研究方向之一。 隨著新特征的不斷引入, 特征向量的維度也隨之提高, 雖然引入新的特征會(huì)提高識(shí)別精度, 但過(guò)高的特征維度使計(jì)算量大幅提高, 因此需要有效的特征選擇和降維方法, 提高分類性能。 而目前多特征的融合策略十分單一, 因此如何將多特征更巧妙的融合設(shè)計(jì)和提出或選擇更適合的降維手段是未來(lái)人體行為識(shí)別過(guò)程中的研究重點(diǎn)。
在行為識(shí)別過(guò)程中使用公開可用的數(shù)據(jù)集可以比較不同的方法, 并深入了解各自方法的能力, 是識(shí)別方法在統(tǒng)一標(biāo)準(zhǔn)下校驗(yàn)各種不同性能指標(biāo)的重要判別依據(jù)。 表1 列出了行為識(shí)別研究發(fā)展歷程中一些常用數(shù)據(jù)集的信息[50-64], 包括對(duì)各個(gè)常用數(shù)據(jù)集特點(diǎn)進(jìn)行簡(jiǎn)要以及提供下載網(wǎng)址, 并列舉了2 個(gè)具有代表性的數(shù)據(jù)庫(kù)UCF101 和KTH 上分析得近年來(lái)傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法, 如表2 ~表3 所示[27,64-79]。 由表2 ~表3 中所示文獻(xiàn)的準(zhǔn)確率可以發(fā)現(xiàn), 傳統(tǒng)機(jī)器學(xué)習(xí)方法在行為識(shí)別已逐漸陷入瓶頸,且近年來(lái)主要以圍繞改進(jìn)密集軌跡算法展開, 但效果并不明顯; 而深度學(xué)習(xí)方法通過(guò)近年來(lái)的發(fā)展,準(zhǔn)確率得到顯著提升, 成為研究未來(lái)行為識(shí)別任務(wù)的主流方法。
表1 人體行為識(shí)別領(lǐng)域常用數(shù)據(jù)集Tab.1 Common data sets in the field of human behavior recognition
(續(xù)表1)
表3 KTH 數(shù)據(jù)集行為識(shí)別方法分析比較Tab.3 Analysis and comparison of behavior recognition methods for KTH data sets
總而言之, 隨著人體行為識(shí)別領(lǐng)域的發(fā)展, 數(shù)據(jù)集變得更龐大, 樣本類別也越來(lái)越多, 視頻中背景也越來(lái)越復(fù)雜。 例如較早的KTH、 Weizmann 等數(shù)據(jù)集, 視頻場(chǎng)景簡(jiǎn)單, 動(dòng)作種類很少, 相機(jī)視角固定且只有焦距變化, 這使現(xiàn)有的算法很容易達(dá)到飽和, 很難對(duì)比算法的優(yōu)劣。 近年來(lái), 隨著深度學(xué)習(xí)在行為識(shí)別領(lǐng)域的高速發(fā)展, 需要訓(xùn)練的數(shù)據(jù)相比傳統(tǒng)算法更加龐大, 小數(shù)據(jù)集無(wú)法滿足深度學(xué)習(xí)算法的需求。 因此學(xué)者們?cè)谶x擇測(cè)試評(píng)估數(shù)據(jù)時(shí)更傾向于HMDB51、 UCF101 等這種大型的且更接近真實(shí)環(huán)境的數(shù)據(jù)集, 因此對(duì)算法的魯棒性提出了更大的挑戰(zhàn)。
在人體行為識(shí)別中, 特征提取起著十分重要的作用, 當(dāng)前, 外觀形狀特征、 運(yùn)動(dòng)特征和時(shí)空特征都屬于人體行為識(shí)別特征的種類, 且其中每類特征具有多種不同的表述形式。 盡管如此, 在特征提取上仍然有很多亟待解決的問(wèn)題, 這些問(wèn)題也同時(shí)是特征提取領(lǐng)域未來(lái)主要的研究方向。
1) 特征的選擇。 在選擇特征時(shí), 為了保證識(shí)別方法的有效性以及識(shí)別性能的良好性, 選擇合適的特征向量至關(guān)重要。 深層特征具有大量的信息, 能區(qū)分不同的動(dòng)作模式, 但相對(duì)提取算法復(fù)雜性, 盡管能在特定場(chǎng)景下識(shí)別顏色、 形狀和運(yùn)動(dòng)等單一的視覺(jué)線索, 并取得較好的效果, 但在實(shí)際的自然場(chǎng)景卻有較差的識(shí)別性能。 在識(shí)別過(guò)程中, 特征過(guò)多的選取會(huì)導(dǎo)致特征向量維數(shù)過(guò)大, 從而增加計(jì)算的復(fù)雜程度, 而若選取的特征太少, 則無(wú)法獲取較高的識(shí)別率。 因此如何在這兩者中權(quán)衡, 是研究者們未來(lái)需要解決的問(wèn)題。
2) 特征的比較與算法性能評(píng)測(cè)。 要對(duì)不同特征進(jìn)行比較和測(cè)評(píng), 需要構(gòu)造較為合理的包含人體動(dòng)作行為視頻的測(cè)試庫(kù), 并在合理比較和測(cè)評(píng)方法的基礎(chǔ)上進(jìn)行研究, 同時(shí)還要考慮魯棒性、 準(zhǔn)確率和實(shí)時(shí)性這3 個(gè)衡量算法性能的指標(biāo)。 目前的研究工作中這3 個(gè)指標(biāo)準(zhǔn)確率是最重要的, 魯棒性相對(duì)其他兩個(gè)指標(biāo)受到關(guān)注較少, 但在實(shí)際應(yīng)用中魯棒性和實(shí)時(shí)性都是不容忽視的問(wèn)題, 在實(shí)際情景中衡量算法性能時(shí), 需將這3 個(gè)因素綜合考慮。 因此, 在考慮某些具體應(yīng)用時(shí)需開發(fā)既能提高識(shí)別性能, 又能降低算法復(fù)雜度的新技術(shù)。
3) 多特征融合。 每種算法在不同的環(huán)境中對(duì)人體行為的特征提取不盡相同, 如何融合多種行為特征尋找出描述人體行為更根本的特征, 并運(yùn)用于其他學(xué)科中, 有待研究者們進(jìn)一步的研究。 目前, 多攝像機(jī)環(huán)境由于能解決單攝像機(jī)系統(tǒng)中存在的視頻特征與三維模型對(duì)應(yīng)的歧義問(wèn)題, 在多視角環(huán)境下能提供深度信息[80]并通過(guò)準(zhǔn)確恢復(fù)三維模型的參數(shù)幫助解決遮擋問(wèn)題受到人們廣泛關(guān)注。 因此, 多攝像機(jī)的特征融合已經(jīng)成為目前人體行為識(shí)別研究的一個(gè)熱點(diǎn)。
人類行為識(shí)別與理解已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要研究方向。 它在智能視頻監(jiān)控、 醫(yī)療診斷監(jiān)護(hù)、 智能人機(jī)交互、 身份識(shí)別等領(lǐng)域中具有廣泛的應(yīng)用。 筆者主要從不同類型特征的角度, 較為全面的介紹了特征提取方法以及一些常用的經(jīng)典行為數(shù)據(jù)集, 最后討論了目前行為識(shí)別中特征提取所存在的問(wèn)題以及未來(lái)可能的發(fā)展方向。