摘 要: 與嚴(yán)格受控環(huán)境下傳統(tǒng)的人體動(dòng)作檢測(cè)不同,進(jìn)行復(fù)雜場(chǎng)景下的動(dòng)作檢測(cè)時(shí)由于背景帶有噪聲、人體遮擋和跟蹤不全導(dǎo)致空間和時(shí)間邊界存在時(shí)空模糊性?,F(xiàn)有的動(dòng)作檢測(cè)方案無法有效解決這一問題,為此,首先采用運(yùn)動(dòng)歷史圖像特征和外觀特征對(duì)人體運(yùn)動(dòng)進(jìn)行區(qū)分,然后將一個(gè)動(dòng)作的候選區(qū)域看成是一個(gè)實(shí)例包,提出模擬退火多實(shí)例學(xué)習(xí)支持向量機(jī)(SMILE?SVM)算法實(shí)現(xiàn)人體動(dòng)作檢測(cè)。仿真結(jié)果表明,該算法在公共的CMU運(yùn)動(dòng)數(shù)據(jù)集上的性能優(yōu)于現(xiàn)有算法。另外,還提出了一種超市客戶意圖檢測(cè)系統(tǒng),可檢測(cè)擁擠的超市中客戶是否有意從貨架上取貨,對(duì)于商家研究客戶興趣具有重大價(jià)值。
關(guān)鍵詞: 人體動(dòng)作檢測(cè); 時(shí)空模糊性; 運(yùn)動(dòng)歷史圖像特征; 外觀特征; 多實(shí)例學(xué)習(xí)
中圖分類號(hào): TN911.73?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)15?0038?05
Abstract: Unlike the traditional human motion detection in well?controlled environment, the space and time boundary exists the space?time fuzziness due to the background noise, human body occlusion and incomplete tracking while performing motion detection in complex scene. The available motion detection schemes can′t solve the above problem effectively, therefore the motion history image (MHI) features and appearance features are used to distinguish the human motion. And then the candidate regions of an action are regarded as an instance package, and the simulated annealing multiple instances learning support vector machines (SMILE?SVM) algorithm is proposed for realizing the human motion detection. The simulation results show that the proposed algorithm is superior to the available algorithms in the aspect of public CMU action dataset. In addition, a client intention detection system for supermarkets is proposed, which can detect whether the customers intend to get the merchandise on shelf in crowded supermarket, and has the significant value for merchants to research the customer interests.
Keywords: human motion detection; space?time fuzziness; motion history image feature; appearance feature; multi?instance learning
0 引 言
當(dāng)前大多數(shù)人體數(shù)據(jù)集中,人體動(dòng)作往往采集于無噪背景下,每個(gè)視頻片斷往往只包括一種動(dòng)作(比如快跑或慢跑)和一個(gè)人體,且人體在整個(gè)視頻片斷中只有這一種動(dòng)作。然而,在實(shí)際的監(jiān)視場(chǎng)景中,背景往往帶噪,監(jiān)視系統(tǒng)必須要從人群中檢測(cè)出感興趣的目標(biāo)人體動(dòng)作。
在背景帶噪或人群部分遮擋等復(fù)雜場(chǎng)景下,進(jìn)行人體準(zhǔn)確定位的難度很大[1?2]。若沒有人體交互,從復(fù)雜場(chǎng)景中修剪一個(gè)對(duì)象往往會(huì)導(dǎo)致嚴(yán)重的錯(cuò)位或偶爾的漂移,此外,還可能存在時(shí)域模糊性。真實(shí)世界中的大部分動(dòng)作只發(fā)生一次且持續(xù)時(shí)間很短。而人體動(dòng)作是連續(xù)的,動(dòng)作屬于同一種類別但速度可能有巨大差異,所以難以確定這些目標(biāo)動(dòng)作的起點(diǎn)或終點(diǎn),以及真實(shí)世界中每個(gè)動(dòng)作的持續(xù)時(shí)間。另外,未檢測(cè)到快跑和慢跑等重復(fù)性動(dòng)作在時(shí)域的模糊性,但這些模糊性可能嚴(yán)重影響撿東西、拍照、按下電梯按鈕等非重復(fù)性動(dòng)作的檢測(cè)性能。這些空間和時(shí)間模糊性大大增加了動(dòng)作檢測(cè)的難度。
為了克服這些模糊性,本文提出一種基于多實(shí)例學(xué)習(xí)(MIL)的支持向量機(jī)(SVM)處理時(shí)域和空域模糊性問題。圖1給出了多實(shí)例學(xué)習(xí)的主要思路。雖然不能精確知道目標(biāo)動(dòng)作的發(fā)生位置和時(shí)間,但是可以估計(jì)出一個(gè)包括多個(gè)潛在位置和時(shí)間片的“包”。這個(gè)包可以是正性包(目標(biāo)動(dòng)作發(fā)生于包中的某一位置),也可以是負(fù)性包(目標(biāo)動(dòng)作并未發(fā)生)。正性包中肯定有至少一個(gè)正性實(shí)例,而負(fù)性包中的所有實(shí)例均為非動(dòng)作實(shí)例。這種多實(shí)例方法既可識(shí)別目標(biāo)動(dòng)作,又可以確定動(dòng)作的準(zhǔn)確位置和時(shí)間段。
1 相關(guān)工作
針對(duì)人體動(dòng)作檢測(cè)問題,文獻(xiàn)[3]提出一種累積方向?數(shù)量級(jí)光流梯度直方圖的人體動(dòng)作特征表示方法。該方法首先利用Horn?Schunck光流算法計(jì)算圖像光流,然后將光流矢量按照不同的方向?數(shù)量級(jí)進(jìn)行直方圖統(tǒng)計(jì),得到單幀圖像的方向?數(shù)量級(jí)的光流梯度直方圖,最后將單幀圖像的直方圖特征在時(shí)間維上進(jìn)行累積來表示整個(gè)視頻動(dòng)作的特征。文獻(xiàn)[4]提出一種結(jié)合全局的剪影特征和局部的光流特征的混合特征,并用于人體動(dòng)作識(shí)別。該算法對(duì)于Weizmann數(shù)據(jù)庫中的動(dòng)作可以達(dá)到100%的正確識(shí)別率。文獻(xiàn)[5]提出一種基于主題模型的人體動(dòng)作識(shí)別方法,該方法首先提取時(shí)空興趣點(diǎn)來描述人體運(yùn)動(dòng),然后提出使用慢特征分析算法計(jì)算興趣點(diǎn)梯度信息不變量最優(yōu)解,最后使用概率潛在語義分析模型識(shí)別人體動(dòng)作。文獻(xiàn)[6]引入壓縮感知和稀疏表示理論,同時(shí)解決人體活動(dòng)監(jiān)測(cè)中的動(dòng)作識(shí)別和數(shù)據(jù)壓縮問題,探索如何在達(dá)到一定動(dòng)作識(shí)別率的同時(shí)降低傳感器節(jié)點(diǎn)的能耗。
另外,文獻(xiàn)[7]提出通過提取密集采樣的局部視頻補(bǔ)丁檢測(cè)出背景比較簡(jiǎn)單的視頻的不規(guī)則動(dòng)作。這種方法難以對(duì)復(fù)雜場(chǎng)景下的非重復(fù)性動(dòng)作執(zhí)行對(duì)準(zhǔn)操作。文獻(xiàn)[8]提出體積特征,以便將時(shí)空形態(tài)與分割后的視頻片斷關(guān)聯(lián)起來。與文獻(xiàn)[9]基于流的關(guān)聯(lián)算法相結(jié)合后,再利用手工分割獲得的動(dòng)作樣本即可檢測(cè)出視頻中的多種動(dòng)作。然而總的來說,以上方法都還存在著不足:高度依賴人體部位的跟蹤,如果出現(xiàn)遮擋或環(huán)境變化等復(fù)雜因素,將無法得到完整的運(yùn)動(dòng)信息;當(dāng)存在時(shí)域和空域模糊性時(shí),人體動(dòng)作檢測(cè)精度較低;無法準(zhǔn)確獲取動(dòng)作的時(shí)間段或動(dòng)作意圖模糊。為了解決以上問題,文中提出了一種面向復(fù)雜背景下的人體動(dòng)作檢測(cè)方案,并通過仿真實(shí)驗(yàn)驗(yàn)證了該方案的有效性。
2 系統(tǒng)概述
為了采集數(shù)據(jù)構(gòu)建動(dòng)作分類器,本文采取手工方式標(biāo)識(shí)視頻序列,以獲得訓(xùn)練樣本。只需明確人體頭部的粗略位置以及動(dòng)作發(fā)生地點(diǎn)的近似幀即可。標(biāo)識(shí)過程結(jié)束后,按照幀內(nèi)的不同位置/尺度及時(shí)間線上的不同起始/結(jié)束幀號(hào),對(duì)標(biāo)識(shí)后的視頻序列做進(jìn)一步修剪,于是每個(gè)動(dòng)作(稱為包)將生成多個(gè)段(稱為實(shí)例)。這些陽性和陰性包將提供給本文學(xué)習(xí)算法以訓(xùn)練動(dòng)作檢測(cè)器。其中,每個(gè)正性包擁有一個(gè)目標(biāo)作為目標(biāo)動(dòng)作,而負(fù)性包不含。
在測(cè)試階段,本文將處理人體動(dòng)作在時(shí)域和空域上的位置模糊性。本文系統(tǒng)允許短序列中的多個(gè)候選作為輸入,并推斷目標(biāo)動(dòng)作是否發(fā)生。它并不需要準(zhǔn)確的跟蹤器或人體檢測(cè)。相反,可以利用人臉檢測(cè)器或概率檢測(cè)器的輸出作為人體估計(jì)。同時(shí),它也不需確切知道人體動(dòng)作的起始或結(jié)束幀。相反,它可以考慮多種概率,并估計(jì)動(dòng)作的實(shí)際發(fā)生位置。
為了獲得區(qū)分性特征進(jìn)行動(dòng)作檢測(cè),本文首先考慮動(dòng)作特征,以便將目標(biāo)動(dòng)作與其他動(dòng)作區(qū)分開。因?yàn)閭鹘y(tǒng)的光流容易受到噪聲影響,所以本文采用運(yùn)動(dòng)歷史圖像(MHI)特征[10],該特征積累了多個(gè)幀的運(yùn)動(dòng)信息。在本文系統(tǒng)中計(jì)算每個(gè)實(shí)例的MHI特征,然后將其下采樣為10×10像素尺寸,即特征向量長度為100。
本文提出將運(yùn)動(dòng)和外觀信息結(jié)合起來,以便提高人體運(yùn)動(dòng)的區(qū)分性能。采用了兩種外觀特征,并與MHI特征相結(jié)合,作為運(yùn)動(dòng)識(shí)別時(shí)的高度區(qū)分性特征。圖2給出了這些特征的多個(gè)示例。第1種外觀特征是前景圖像(FI),通過與背景相減獲得;第2種外觀特征是定向梯度特征直方圖(HOG)[11],它可以描述邊緣和拐角的方向和大小。已知一個(gè)實(shí)例的圖像區(qū)域,F(xiàn)I特征可正規(guī)化為10×10像素。為了獲得HOG特征,圖像區(qū)域被分為3×4=12個(gè)子窗口,然后使用梯度方向的8個(gè)容器計(jì)算直方圖,為每個(gè)實(shí)例生成一個(gè)96維HOG特征向量。運(yùn)動(dòng)特征(MHI)和外觀特征(FI和HOG)可從不同方面描述人體動(dòng)作,且互為補(bǔ)充。外觀特征可以描述運(yùn)動(dòng)期間人體的空間形態(tài),而運(yùn)動(dòng)特征主要是描述正在運(yùn)動(dòng)的人體部位的方向和強(qiáng)度。
3 SMILE?SVM算法
下面介紹如何利用多實(shí)例學(xué)習(xí)解決動(dòng)作檢測(cè)在時(shí)域和空域上的模糊性,提出了一種模擬退火多實(shí)例學(xué)習(xí)支持向量機(jī)(SMILE?SVM)算法。已知一組輸入模式[x1,x2,…,xN]分組到[B1,B2,…,BM]中,且對(duì)于已知索引集合[Im?1,2,…,N]有[Bm=xi:i∈Im]。每個(gè)包[Bm]關(guān)聯(lián)一個(gè)標(biāo)識(shí)[Ym,][Ym=1]表示包是正性包,至少有一個(gè)實(shí)例[xi∈Bm]是類別中的陽性樣本。相反,[Ym=-1]表示包是陰性包,所有實(shí)例[xi∈Bm]均是陰性樣本。將每個(gè)實(shí)例的標(biāo)識(shí)表示為[yi,]則有:如果[Ym=-1,]則對(duì)[i∈Im]有[?yi=-1,]其中[m=1,2,…,M。]否則,如果[Ym=1,]則對(duì)[i∈Im,][?yi=1]。基于SVM的多實(shí)例學(xué)習(xí)可闡述為如下的目標(biāo)函數(shù)最小化:
其中,[ξi]表示估計(jì)誤差,[w]確定余量的尺寸。傳統(tǒng)的SVM屬于二次優(yōu)化問題,則式(1)最小化是式(2)約束下的混合優(yōu)化問題。因?yàn)閇yi]的可能選擇數(shù)量太多,所以該目標(biāo)函數(shù)難以直接最小化。
SMILE?SVM算法的目的是在增加包識(shí)別率的同時(shí)實(shí)現(xiàn)分類器容限最大。因?yàn)榉诸惾菹薜某叽缈捎蒣1w2]衡量[12],所以定義一種新的目標(biāo)函數(shù):
[S=maxw,b,yinc+kw2] (3)
式中:[nc]表示包分類的正確率;[k]表示容限指標(biāo)權(quán)重的控制參數(shù),部署時(shí)將[k]設(shè)為0.5。SMILE?SVM采用一種參數(shù)[T](稱為溫度)控制新的評(píng)分[S]被接受的概率。在學(xué)習(xí)過程的早期步驟中,[T]要設(shè)置的足夠大以便候選解能夠轉(zhuǎn)換為得分較低的另一種狀態(tài)。在學(xué)習(xí)過程中,[T]逐漸下降,以便降低切換到[S]較低的其他狀態(tài)的概率。當(dāng)[T]接近0時(shí),系統(tǒng)將會(huì)收斂。
SMILE?SVM采取迭代方式尋求最優(yōu)得分[Sopt]。在第[t]次迭代時(shí),SMILE?SVM生成一個(gè)相鄰狀態(tài)[y*i,]然后提供給下次迭代以便生成一個(gè)新的SVM分類器。為了使新分類器的決策邊界與之前的邊界類似,引入隨機(jī)微小擾動(dòng)以生成一個(gè)新的狀態(tài)。
[y*i=-signfti,fti<閾值, i∈Itrandsignfti,else]
式中:[Itrand]表示第[t]次迭代的隨機(jī)集合;[fti]表示由[wt,bt]估計(jì)的分類置信度。生成相鄰狀態(tài)[y*i]之后,SMILE?SVM就會(huì)決定是否將其作為下次迭代的訓(xùn)練集。首先,驗(yàn)證式(2)中的約束,如果式(2)滿足,則系統(tǒng)將根據(jù)式(3)及[y*i]訓(xùn)練出來的分類器計(jì)算得分[St]。此時(shí),通過隨機(jī)數(shù)和[St]的比較決定將[y*i]作為下次迭代時(shí)狀態(tài)[yt+1i]的概率。如果[y*i]未被接受或式(2)未被滿足,則將生成另一個(gè)相鄰狀態(tài)。
4 仿真實(shí)驗(yàn)
本文通過兩組實(shí)驗(yàn)評(píng)估SMILE?SVM算法的有效性。第一組實(shí)驗(yàn)使用CMU人體運(yùn)動(dòng)數(shù)據(jù)集[8]。第二組實(shí)驗(yàn)考慮一種真實(shí)應(yīng)用,以檢測(cè)超市中的客戶是否有意從貨架上購買商品。
4.1 CMU運(yùn)動(dòng)數(shù)據(jù)集的結(jié)果
CMU運(yùn)動(dòng)數(shù)據(jù)集中有5種類型的人體運(yùn)動(dòng),包括人體跳躍、撿東西、雙手揮動(dòng)、單手揮動(dòng)及按下電梯按鈕。所有視頻的持續(xù)時(shí)間約為20 min,包括大約100種目標(biāo)運(yùn)動(dòng)。視頻的分辨率下調(diào)為160×120像素。人體運(yùn)動(dòng)的方式有較大差異。背景帶有噪聲,且目標(biāo)運(yùn)動(dòng)有時(shí)被其他人體遮擋。所有這些變化導(dǎo)致時(shí)域和空域存在較大的模糊性。評(píng)估時(shí)的訓(xùn)練/測(cè)試配置與文獻(xiàn)[8]相同。一個(gè)人體進(jìn)行的一個(gè)樣本序列用于所有5種動(dòng)作的訓(xùn)練。3~6個(gè)其他人體每種動(dòng)作進(jìn)行多次測(cè)試。采用一對(duì)多策略分別訓(xùn)練和測(cè)試5種人體運(yùn)動(dòng)檢測(cè)器,于是在訓(xùn)練階段有1個(gè)陽性包和4個(gè)陰性包,在測(cè)試階段的陽/陰性包的分布類似。
圖3給出了使用不同特征進(jìn)行動(dòng)作檢測(cè)的性能比較結(jié)果。從圖3中可以發(fā)現(xiàn),綜合使用運(yùn)動(dòng)和HOG外觀特征(MHI+HOG特征)后的性能優(yōu)于其他種類的特征。
表1比較了文獻(xiàn)[8]中結(jié)果與本文算法的性能。對(duì)于所有運(yùn)動(dòng),SMILE?SVM均顯著優(yōu)于文獻(xiàn)[8]中的結(jié)果,惟一例外便是雙手揮舞動(dòng)作,這也證明了基于運(yùn)動(dòng)和外觀特征的SMILE?SVM算法的有效性。
4.2 真實(shí)場(chǎng)景的結(jié)果:超市監(jiān)測(cè)系統(tǒng)
為了進(jìn)一步驗(yàn)證本文算法的有效性,在真實(shí)場(chǎng)景下對(duì)其性能進(jìn)行測(cè)試,以證明其在監(jiān)測(cè)應(yīng)用場(chǎng)景下的作用。目標(biāo)運(yùn)動(dòng)是擁擠的超市中客戶是否有意從貨架上購買貨物,這種類型的運(yùn)動(dòng)包括使用一只手或一雙手指向或觸摸某種商品或者彎腰接近/觀看某種商品。超市希望對(duì)這種運(yùn)動(dòng)進(jìn)行跟蹤以便知道客戶的意圖。該數(shù)據(jù)庫采集于典型的超市場(chǎng)景下,在早晨和中午時(shí)間比較擁擠。
本文構(gòu)建了一種目標(biāo)運(yùn)動(dòng)檢測(cè)系統(tǒng),如圖4所示。在該系統(tǒng)中,對(duì)卷積神經(jīng)網(wǎng)絡(luò)(CNN)[13]進(jìn)行訓(xùn)練以便檢測(cè)每一幀中的二維頭部候選。根據(jù)頭部檢測(cè)器的輸出,本文運(yùn)動(dòng)檢測(cè)算法利用CNN人體檢測(cè)器輸出的視頻幀中每個(gè)人體頭部矩形的位置和尺寸作為輸入,從空間鄰域內(nèi)這些頭部位置周圍及時(shí)間鄰域的相鄰幀中提取出不同位置的多個(gè)窗口,然后為這些實(shí)例提取視頻特征。以SMILE?SVM算法的識(shí)別結(jié)果為基礎(chǔ),如果估計(jì)概率超過經(jīng)過學(xué)習(xí)的置信度閾值,則檢測(cè)到目標(biāo)運(yùn)動(dòng)。如果在時(shí)間線上的相鄰區(qū)域內(nèi)檢測(cè)到兩個(gè)運(yùn)動(dòng),則將其融合以形成層次更高、時(shí)間更長的運(yùn)動(dòng)。該系統(tǒng)將運(yùn)動(dòng)檢測(cè)與三維跟蹤器(比如將立體相機(jī)二維跟蹤結(jié)果相融合后產(chǎn)生的結(jié)果)結(jié)合起來,可獲得一些具體信息,比如貨架上哪個(gè)部位最能吸引客戶的注意力。這種信息對(duì)商家非常有用。
使用20 min左右時(shí)長的視頻作為訓(xùn)練視頻,40 min時(shí)間的視頻用作測(cè)試視頻,包括大約150個(gè)陽性運(yùn)動(dòng)樣本。在時(shí)域上,每個(gè)運(yùn)動(dòng)分割為運(yùn)動(dòng)期間隨機(jī)點(diǎn)上的多個(gè)小片斷,每個(gè)片斷的尺寸為10幀。在空域上,包含人體頭部和身體的運(yùn)動(dòng)區(qū)域按照12種不同尺寸和尺度進(jìn)行修剪。上述每個(gè)時(shí)空樣本成為一個(gè)實(shí)例,且所有實(shí)例與包中的一個(gè)運(yùn)動(dòng)相關(guān)聯(lián)。這一過程將分別在訓(xùn)練和測(cè)試數(shù)據(jù)集中生成約50個(gè)陽性包(包括25 000個(gè)實(shí)例)和100個(gè)陽性包(包括50 000個(gè)陽性實(shí)例)。對(duì)步行和站立等不感興趣的其他陰性運(yùn)動(dòng)(陰性運(yùn)動(dòng)樣本),只有10%左右(382個(gè)陰性包)被隨機(jī)采樣,以便獲得數(shù)量類似的訓(xùn)練和測(cè)試陰性實(shí)例(34 000個(gè)和79 000個(gè))。
為了保證比較的公平性,對(duì)不同算法使用相同的運(yùn)動(dòng)特征(MHI)。圖5給了3種算法的精度/召回率曲線??梢园l(fā)現(xiàn),多實(shí)例學(xué)習(xí)算法的性能遠(yuǎn)優(yōu)于經(jīng)典SVM算法。此外,文獻(xiàn)[2]中的算法不如本文算法,因?yàn)楸疚哪M退火搜索策略陷入局部最優(yōu)值的概率較小。
通過將運(yùn)動(dòng)特征和外觀特征結(jié)合起來后,本系統(tǒng)的性能得到進(jìn)一步提升。如第2節(jié)所示,F(xiàn)I和HOG特征提供的信息與運(yùn)動(dòng)特征互補(bǔ),因此本文分別將運(yùn)動(dòng)特征與FI和HOG特征相結(jié)合,構(gòu)建了新的特征。圖6給出了基于3種特征的性能:只有運(yùn)動(dòng)特征(MHI),兩種混合特征((MHI+FI和MHI+HOG)??梢园l(fā)現(xiàn),使用混合特征的召回率比只使用MHI平均高出近20%(當(dāng)精度率為0.6時(shí))。
為了測(cè)試本文運(yùn)動(dòng)檢測(cè)器的通用性,將其用于不同時(shí)期、不同時(shí)刻在超市中采集的新的視頻序列。新視頻采集于客戶運(yùn)動(dòng)更密集的高峰時(shí)間。新的測(cè)試視頻包含390個(gè)目標(biāo)運(yùn)動(dòng)構(gòu)成的陽性包和591個(gè)非目標(biāo)運(yùn)動(dòng)構(gòu)成的陰性包,大約包括124 000個(gè)陽性實(shí)例和166 000個(gè)陰性實(shí)例。
圖7分別給出了采用MHI+FI和MHI+HOG聯(lián)合特征時(shí),原始測(cè)試數(shù)據(jù)和高難度測(cè)試數(shù)據(jù)的精度/召回率曲線。此時(shí),MFI表示運(yùn)動(dòng)(MHI)和外觀(FI)聯(lián)合特征,MHOG表示運(yùn)動(dòng)(MHI)和外觀(HOG)聯(lián)合特征??梢园l(fā)現(xiàn),由于數(shù)據(jù)不同,算法總體性能略有下降。然而,這種誤差并不明顯,算法在新數(shù)據(jù)集上的性能仍然較好。
如前文所述,非運(yùn)動(dòng)包中的所有實(shí)例為陰性樣本,運(yùn)動(dòng)包中只有部分實(shí)例被識(shí)別為陽性樣本。利用這些陽性實(shí)例,不僅可以識(shí)別出目標(biāo)運(yùn)動(dòng)是否發(fā)生于包中,還可以估計(jì)出該運(yùn)動(dòng)的位置和時(shí)間。圖8演示了部分樣本的運(yùn)動(dòng)檢測(cè)結(jié)果,其中陽性示例用紅色方框表示。鑒于本文實(shí)例的構(gòu)建方法,即使人體被部分遮擋(見圖8(c)),本文算法仍可以檢測(cè)出目標(biāo)運(yùn)動(dòng)及其時(shí)間和位置(見圖8(a)和圖8(b)。
5 結(jié) 語
本文研究了復(fù)雜場(chǎng)景下的人體運(yùn)動(dòng)檢測(cè)問題,并提出一種多實(shí)例學(xué)習(xí)方法以克服時(shí)空模糊性。實(shí)驗(yàn)結(jié)果表明,本文方案不僅在公共的CMU運(yùn)動(dòng)數(shù)據(jù)集上的性能優(yōu)于其他算法,而且在真實(shí)監(jiān)測(cè)場(chǎng)景中具有應(yīng)用價(jià)值。下一步工作是對(duì)當(dāng)前系統(tǒng)進(jìn)行拓展,以便適用于自助餐廳或麥當(dāng)勞等更多場(chǎng)景。
參考文獻(xiàn)
[1] 李擬臖,程旭,郭海燕,等.基于多特征融合和分層反向傳播增強(qiáng)算法的人體動(dòng)作識(shí)別[J].東南大學(xué)學(xué)報(bào)(自然科學(xué)版),2014,44(3):493?498.
[2] ANDREWS S, TSOCHANTARIDIS I, HOFMANN T. Support vector machines for multiple?instance learning [J]. Advances in neural information processing systems, 2002, 15(2): 561?568.
[3] 郭利,曹江濤,李平,等.累積方向?數(shù)量級(jí)光流梯度直方圖的人體動(dòng)作識(shí)別[J].智能系統(tǒng)學(xué)報(bào),2014,9(1):104?108.
[4] 郭利,姬曉飛,李平,等.基于混合特征的人體動(dòng)作識(shí)別改進(jìn)算法[J].計(jì)算機(jī)應(yīng)用研究,2013,30(2):601?604.
[5] 譚論正,夏利民,黃金霞,等.基于 pLSA 模型的人體動(dòng)作識(shí)別[J].國防科技大學(xué)學(xué)報(bào),2013,35(5):102?108.
[6] 肖玲,李仁發(fā),羅娟.體域網(wǎng)中一種基于壓縮感知的人體動(dòng)作識(shí)別方法[J].電子與信息學(xué)報(bào),2013,35(1):119?125.
[7] BOIMAN O, IRANI M. Detecting irregularities in images and in video [J]. International journal of computer vision, 2007, 74(1): 17?31.
[8] KE Y, SUKTHANKAR R, HEBERT M. Event detection in crowded videos [C]// Proceedings of 2007 11th IEEE International Conference on Computer Vision. Rio de Janeiro: IEEE, 2007: 1?8.
[9] EFROS A A, BERG A C, MORI G, et al. Recognizing action at a distance [C]// Proceedings of 2013 Ninth IEEE International Conference on Computer Vision. US: IEEE, 2013: 726?733.
[10] WEINLAND D, RONFARD R, BOYER E. A survey of vision?based methods for action representation, segmentation and recognition [J]. Computer vision and image understanding, 2011, 115(2): 224?241.
[11] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection [C]// Proceedings of 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego: IEEE, 2005: 886?893.
[12] BOSER B E, GUYON I M, VAPNIK V N. A training algorithm for optimal margin classifiers [C]// Proceedings of the Fifth Annual Workshop on Computational Learning Theory. US: ACM, 2008: 144?152.
[13] 呂國豪,羅四維,黃雅平,等.基于卷積神經(jīng)網(wǎng)絡(luò)的正則化方法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(9):1891?1900.