王新宇,諶 達(dá),馮 輝,楊 濤,胡 波, 2
(1. 復(fù)旦大學(xué) 電子工程系,上海 200433; 2. 復(fù)旦大學(xué) 電磁波信息科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200433)
?
基于目標(biāo)檢測(cè)及高密度軌跡的動(dòng)作識(shí)別
王新宇1,諶達(dá)1,馮輝1,楊濤1,胡波1, 2
(1. 復(fù)旦大學(xué) 電子工程系,上海 200433; 2. 復(fù)旦大學(xué) 電磁波信息科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室,上海 200433)
為了實(shí)現(xiàn)準(zhǔn)確的動(dòng)作識(shí)別效果,我們通常需要提取能夠充分代表運(yùn)動(dòng)特征的信息。近年來(lái),基于高密度軌跡的動(dòng)作識(shí)別方法因?yàn)槟軌蛱峁┴S富的時(shí)空信息而受到研究者們的廣泛關(guān)注。但高密度軌跡類(lèi)的動(dòng)作識(shí)別算法通常都要面臨背景冗余信息干擾的問(wèn)題,為了解決這一問(wèn)題,本文在高密度軌跡的動(dòng)作識(shí)別方法基礎(chǔ)上引入了目標(biāo)檢測(cè)算法,通過(guò)可變形塊模型方法檢測(cè)運(yùn)動(dòng)主體位置后計(jì)算其周?chē)母呙芏溶壽E,有效地排除了背景冗余信息的干擾。而目標(biāo)檢測(cè)算法通常要面臨丟幀問(wèn)題,為了應(yīng)對(duì)這一情況,本文采用了詞袋模型和支持向量機(jī)進(jìn)行動(dòng)作特征表述和分類(lèi),詞袋模型根據(jù)大量數(shù)據(jù)詞頻構(gòu)建特征描述符的工作原理,使得目標(biāo)檢測(cè)偶有丟幀的情況并不影響動(dòng)作識(shí)別的最終效果,結(jié)合高密度軌跡算法后有效地提高了傳統(tǒng)高密度軌跡算法的效率,也獲得了更為準(zhǔn)確的識(shí)別效果。本文算法在KTH, UCF YouTube和UCF Sports數(shù)據(jù)集上較當(dāng)前算法都取得了更高的動(dòng)作識(shí)別準(zhǔn)確率,尤其在復(fù)雜背景數(shù)據(jù)集UCF YouTube和UCF Sports上識(shí)別準(zhǔn)確率分別可達(dá)89.2%和90.2%。
目標(biāo)檢測(cè); 高密度軌跡; 可變形塊模型; 動(dòng)作識(shí)別
動(dòng)作識(shí)別因廣泛應(yīng)用于視頻監(jiān)控、視頻檢索、人機(jī)交互、虛擬現(xiàn)實(shí)、運(yùn)動(dòng)分析、智能家居等領(lǐng)域,一直以來(lái)都是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。但由于人體動(dòng)作本身具有較大自由度,同時(shí)存在類(lèi)內(nèi)和類(lèi)間差異,也因運(yùn)動(dòng)主體速度和頻率各異[1],同時(shí)動(dòng)作識(shí)別易受到遮擋和自遮擋、視角和尺度變化、光照變化、復(fù)雜背景、相機(jī)移動(dòng)等多重因素影響[2],致使該領(lǐng)域研究仍然頗具挑戰(zhàn)性。
我們研究的動(dòng)作通常指人在完成某個(gè)特定任務(wù)時(shí)的運(yùn)動(dòng)序列,而從計(jì)算機(jī)視覺(jué)角度來(lái)看,動(dòng)作識(shí)別就是將輸入視頻序列賦予正確標(biāo)簽、歸入正確分類(lèi)集的過(guò)程[3]。根據(jù)文獻(xiàn)[1,3-9]對(duì)于動(dòng)作識(shí)別研究領(lǐng)域的梳理和分析,依照特征描述方法的特點(diǎn),動(dòng)作識(shí)別算法主要可以分為以下3類(lèi): 全局特征方法、局部特征方法和混合特征方法。
全局特征方法一般是指以整幀圖像或者整個(gè)視頻為單位提取特征進(jìn)行描述的方法。這類(lèi)特征通常通過(guò)人體邊界或輪廓檢測(cè)得到運(yùn)動(dòng)主體位置,然后基于全局光流、全局梯度直方圖等方式描述特征。整體來(lái)講,基于全局特征的方法通常都包含了豐富的時(shí)空信息,但這類(lèi)方法也都是基于前景和背景有良好分割或者目標(biāo)能夠被穩(wěn)定跟蹤的前提假設(shè),同樣也容易受到遮擋或尺度變換的影響。由于對(duì)于遮擋具有更好的魯棒性,基于局部特征的方法也頗受研究者關(guān)注。其中最經(jīng)典的實(shí)現(xiàn)框架就是通過(guò)時(shí)空興趣點(diǎn)檢測(cè)獲取局部特征,然后構(gòu)造詞袋(Bag of Words, BoW)模型進(jìn)行動(dòng)作分類(lèi)和識(shí)別,興趣點(diǎn)檢測(cè)通常采用Harris角點(diǎn)、SIFT算子等方法。整體而言,基于局部特征的方法通常能夠解決遮擋問(wèn)題,但這類(lèi)方法也容易忽略運(yùn)動(dòng)過(guò)程中的時(shí)間信息和結(jié)構(gòu)關(guān)系,關(guān)鍵信息的缺失使得基于局部特征的動(dòng)作識(shí)別方法仍然具有局限性。
由于單獨(dú)采用全局特征或者局部特征描述運(yùn)動(dòng)都具有局限性,近年來(lái)越來(lái)越多的研究人員開(kāi)始采用基于混合特征的方法進(jìn)行動(dòng)作識(shí)別?;旌咸卣鞣椒](méi)有一個(gè)嚴(yán)格的定義,通常是在全局特征的框架下構(gòu)建局部特征描述符,或者聯(lián)合全局和局部特征構(gòu)建表述二者之間關(guān)聯(lián)性的特征描述符,例如文獻(xiàn)[10]將高密度軌跡聚類(lèi)成為子運(yùn)動(dòng)塊,然后用圖模型刻畫(huà)運(yùn)動(dòng)塊之間的關(guān)系。高密度軌跡(Dense Trajectory)是混合特征方法的一個(gè)典型代表,最初由文獻(xiàn)[11]在2011年提出,主要靈感來(lái)自于圖像分類(lèi)領(lǐng)域中的高密度采樣(dense sampling)。但在文獻(xiàn)[11]提出的方法中,相機(jī)移動(dòng)和復(fù)雜背景因素帶來(lái)的影響可能會(huì)累積誤差甚至導(dǎo)致識(shí)別失敗。因此文獻(xiàn)[12]提出從高密度軌跡中選取部分軌跡,再重構(gòu)成新的有序軌跡(ordered trajectory)的方法來(lái)解決上述問(wèn)題。文獻(xiàn)[13]在無(wú)監(jiān)督條件下識(shí)別局部運(yùn)動(dòng),采用多核方法提升動(dòng)作識(shí)別效果。文獻(xiàn)[14]基于高密度軌跡提出了一種新的時(shí)空不變特征池的方法,并證明了該方法相比于文獻(xiàn)[12]提出的有序軌跡方法和文獻(xiàn)[13]提出的局部運(yùn)動(dòng)方法取得了更好效果。事實(shí)上,查閱近幾年發(fā)表的動(dòng)作識(shí)別領(lǐng)域文章就不難看出,以高密度軌跡為代表的混合特征方法,正在逐漸取代單獨(dú)采用全局特征或局部特征的方法,成為動(dòng)作識(shí)別研究領(lǐng)域的新趨勢(shì)。
本文提出了一種基于運(yùn)動(dòng)目標(biāo)檢測(cè)和高密度軌跡的動(dòng)作識(shí)別方法。這種方法首先通過(guò)運(yùn)動(dòng)目標(biāo)檢測(cè)算法獲取每一幀圖像中運(yùn)動(dòng)主體位置信息,然后針對(duì)運(yùn)動(dòng)主體計(jì)算高密度軌跡,并在軌跡周?chē)捎梅较蛱荻戎狈綀D(Histogram of Oriented Gradient, HOG)刻畫(huà)形狀信息,利用光流直方圖(Histogram of Optical Flow, HOF)和運(yùn)動(dòng)邊界直方圖(Motion Boundary Histogram, MBH)表征運(yùn)動(dòng)信息,用軌跡形狀描述運(yùn)動(dòng)的時(shí)空關(guān)系和結(jié)構(gòu)信息。之后采用詞袋模型構(gòu)建完整的特征描述符,利用支持向量機(jī)(Support Vector Machines, SVM)進(jìn)行動(dòng)作識(shí)別。
提到動(dòng)作識(shí)別,從人類(lèi)大腦識(shí)別動(dòng)作的角度出發(fā),描述運(yùn)動(dòng)最直觀的方法就是直接利用運(yùn)動(dòng)軌跡表述運(yùn)動(dòng)。早在1973年就有研究[15]表明,人類(lèi)大腦不需要通過(guò)觀察完整的人體運(yùn)動(dòng),只觀察人體重要部位標(biāo)記的光點(diǎn)移動(dòng)軌跡,就可以判斷和識(shí)別動(dòng)作。受到這一想法的啟發(fā),研究者們對(duì)基于二維稀疏軌跡[16]表述的動(dòng)作識(shí)別進(jìn)行了充分的研究。但基于二維稀疏軌跡的動(dòng)作識(shí)別方法都無(wú)法很好地解決遮擋和人體自遮擋帶來(lái)的不能獲得連續(xù)穩(wěn)定軌跡的問(wèn)題,直到2011年文獻(xiàn)[11]提出高密度軌跡方法才從根本上解決了稀疏軌跡的固有問(wèn)題。
本文正是基于高密度軌跡的方法,從最直觀的軌跡角度出發(fā)進(jìn)行動(dòng)作識(shí)別。而高密度軌跡方法普遍面臨冗余背景信息干擾的問(wèn)題,為了解決這一問(wèn)題,本文采用基于可變形塊模型(Deformable Part-based Model, DPM)[17]在輸入視頻序列的每一幀中進(jìn)行人體目標(biāo)檢測(cè),獲得人體邊界框(bounding box),在每一幀人體邊界框范圍內(nèi)計(jì)算高密度軌跡。
有研究[18]表明,人的大腦視覺(jué)皮層存在兩個(gè)分別用于感知運(yùn)動(dòng)與形狀的區(qū)域,兩個(gè)區(qū)域神經(jīng)元的共同響應(yīng)傳送到大腦進(jìn)行協(xié)同處理,完成人腦動(dòng)作識(shí)別過(guò)程。因此在計(jì)算得到人體邊界框內(nèi)高密度軌跡之后,本文對(duì)每一個(gè)動(dòng)作序列同時(shí)提取表示運(yùn)動(dòng)信息的運(yùn)動(dòng)描述符和代表形狀信息的形狀描述符。本文形狀描述符采用方向梯度直方圖,運(yùn)動(dòng)描述符利用光流直方圖和運(yùn)動(dòng)邊界直方圖,與此同時(shí)還用軌跡形狀刻畫(huà)運(yùn)動(dòng)的時(shí)空關(guān)系和結(jié)構(gòu)信息。
在高密度軌跡基礎(chǔ)上引入目標(biāo)檢測(cè)算法時(shí)同樣也要面臨目標(biāo)檢測(cè)丟幀問(wèn)題,為了解決這一問(wèn)題,本文在得到運(yùn)動(dòng)描述符和形狀描述符后采用詞袋模型對(duì)運(yùn)動(dòng)特征進(jìn)行總體表示。對(duì)于所有訓(xùn)練視頻提取的特征描述符采用k-means聚類(lèi)構(gòu)建一個(gè)400維的碼本,再將每一個(gè)視頻的特征映射到碼本上得到最終的特征直方圖。詞袋模型詞頻映射的工作原理自然地避免了目標(biāo)檢測(cè)偶有丟幀帶來(lái)的問(wèn)題,使其完全不影響動(dòng)作識(shí)別的效果。最后利用支持向量機(jī)進(jìn)行動(dòng)作模型的學(xué)習(xí)和分類(lèi)。本文采用的動(dòng)作識(shí)別系統(tǒng)框架如圖1(見(jiàn)第444頁(yè))所示。
2.1運(yùn)動(dòng)目標(biāo)檢測(cè)
本文采用文獻(xiàn)[17]提出的基于多尺度可變形塊混合模型的方法實(shí)現(xiàn)人體邊界框檢測(cè),這一模型適合對(duì)于具有極高自由度的人體目標(biāo)進(jìn)行檢測(cè)。該方法主要基于圖形結(jié)構(gòu)(pictorial structures)[19]框架,將一個(gè)檢測(cè)目標(biāo)表示為可變形塊的組合,每個(gè)塊表示目標(biāo)的一個(gè)局部形狀特征。可變形塊模型在Dalal-Triggs檢測(cè)子[20]基礎(chǔ)上引入了星狀塊模型結(jié)構(gòu),該模型由一個(gè)類(lèi)似Dalal-Triggs濾波器的根濾波器加上一系列塊濾波器組成。
Dalal-Triggs檢測(cè)子對(duì)HOG特征進(jìn)行濾波區(qū)分物體類(lèi)別,它采用滑窗方法將濾波器應(yīng)用于一幅圖的所有位置和尺度,可以看作是一個(gè)輸入為一幅圖、圖上位置和對(duì)應(yīng)尺度的分類(lèi)器。因?yàn)樵撃P褪且粋€(gè)簡(jiǎn)單濾波器,所以我們可以計(jì)算得到一個(gè)得分w·φ(x),其中w是濾波器,x是在特定位置和尺度下的圖像,φ(x)是特征向量。而星狀塊模型的得分是在給定位置和尺度下,根濾波器得分加上塊濾波器相關(guān)分?jǐn)?shù)之和,再減去衡量塊實(shí)際位置與相對(duì)于根理想位置偏差的變形代價(jià)。
訓(xùn)練只有部分標(biāo)記數(shù)據(jù)的模型,采用隱支持向量機(jī)(Latent SVM, LSVM)方法。在隱支持向量機(jī)中,每一個(gè)樣本x評(píng)分如下:
(1)
其中:w是模型參數(shù)向量;z是隱變量;φ(x,z)是特征向量。在星狀塊模型中,w是根濾波器、塊濾波器和變形代價(jià)權(quán)重的級(jí)聯(lián),z是目標(biāo)結(jié)構(gòu),φ(x,z)是特征金字塔和塊變形特征子窗的級(jí)聯(lián)。在混合星狀塊模型中,某一特定位置和尺度下,混合模型的得分等于其子模型的最高分。
模型中,每個(gè)濾波器都可以看作是一個(gè)由d維權(quán)重向量數(shù)組定義的矩形模板,濾波器R在特征圖G上(x,y)位置的響應(yīng)或得分由濾波器與左上角在(x,y)位置的特征圖的子窗的點(diǎn)乘定義:
∑x′,y′R[x′,y′]·G[x+x′,y+y′].
(2)
采用特征金字塔方法實(shí)現(xiàn)一幅圖不同位置和尺度的計(jì)算,通過(guò)重復(fù)平滑和子采樣計(jì)算特征金字塔,然后在圖金字塔每個(gè)尺度上計(jì)算特征圖。
星狀模型中根濾波器采用可以覆蓋整個(gè)目標(biāo)的濾波器,塊濾波器采用2倍根濾波器的分辨率對(duì)目標(biāo)細(xì)節(jié)進(jìn)行采樣。更精細(xì)分辨率的塊濾波器對(duì)于識(shí)別準(zhǔn)確率有重要意義,例如想要識(shí)別一個(gè)人體目標(biāo)時(shí),根濾波器主要目的是找到人的大體位置和輪廓,而塊濾波器可以更加精細(xì)地描述人的四肢、軀干、頭等局部特征。一個(gè)由n個(gè)塊組成的模型可以由一個(gè)n+2維向量(R0,P1,P2,…,Pn,b)表示,其中R0是根濾波器,Pi是第i個(gè)塊模型,b是一個(gè)偏置項(xiàng)。每一個(gè)塊模型可以表示為(Ri,li,di),其中Ri是第i個(gè)塊濾波器,li是一個(gè)表示第i塊與根相對(duì)位置的2維向量,di是一個(gè)表示塊相對(duì)于根每個(gè)可能位置對(duì)應(yīng)的二次代價(jià)函數(shù)系數(shù)的4維向量。一個(gè)假設(shè)的得分表示為每個(gè)濾波器在對(duì)應(yīng)位置得分,減去一個(gè)取決于每個(gè)塊與根之間相對(duì)位置的可變形代價(jià),再加上一個(gè)偏置項(xiàng):
(3)
其中
(dxi,dyi)=(xi,yi)-(2(x0,y0)+li),
(4)
φd(dx,dy)=(dx,dy,dx2,dy2).
(5)
(4)式表示第i個(gè)塊相對(duì)于根的位置偏差,(5)式是變形特征,M是特征金字塔。
z的得分可以表示為w·ψ(M,z),即模型參數(shù)w向量與ψ(M,z)向量的點(diǎn)乘,其中:
w=(R′0,R′1,…,R′n;d1,d2,…,dn;b),
(6)
ψ(M,z)=(φ(M,p0),φ(M,p1),…,φ(M,pn);-φd(dx1,dy1),
-φd(dx2,dy2),…,-φd(dxn,dyn);1).
(7)
這體現(xiàn)了可變形塊模型與線性分類(lèi)器之間的關(guān)聯(lián),利用這種關(guān)系可以在LSVM框架下學(xué)習(xí)模型參數(shù)。
一個(gè)由m個(gè)元素組成的混合模型可以表示為M=(M1,M2,…,Mm),其中Mi表示模型中第i個(gè)元素?;旌夏P偷囊粋€(gè)目標(biāo)假設(shè)對(duì)應(yīng)混合模型中某個(gè)元素i和Mi中每個(gè)濾波器位置,即z=(i,p0,p1,…,pni),其中ni是Mi中塊的個(gè)數(shù)。這個(gè)z的得分就是第i個(gè)模型元素z′=(p0,p1,…,pni)的得分。當(dāng)模型是只有1個(gè)元素時(shí),混合模型中z的得分就可以表示為模型參數(shù)w和向量ψ(M,z)的點(diǎn)乘;而當(dāng)混合模型中元素多于1個(gè)時(shí),向量w是每個(gè)模型元素參數(shù)向量的級(jí)聯(lián),向量ψ(M,z)是由稀疏的、非零的元素組成,這些元素由與w中wi的間隔相同的ψ(M,z′)定義:
w=(w1,w2,…,wm),
(8)
ψ(M,z)=(0,0,…,0,ψ(M,z′),0,0,…,0).
(9)
在這個(gè)結(jié)構(gòu)中,w·ψ(M,z)=wi·ψ(M,z′)。
用混合模型進(jìn)行目標(biāo)檢測(cè)時(shí)采用如上匹配算法,找到每個(gè)模型元素獨(dú)立產(chǎn)生最高得分的目標(biāo)假設(shè)的根位置??勺冃螇K模型進(jìn)行人體目標(biāo)檢測(cè)效果如圖2所示: 其中(a)列是原始圖像;(b)列兩幅圖中最大的紅色框是混合模型根濾波器的效果示意,找到運(yùn)動(dòng)主體大致位置,而目標(biāo)范圍內(nèi)一系列藍(lán)色小框是不同塊濾波器的效果示意;(c)列是未加入運(yùn)動(dòng)目標(biāo)檢測(cè)前高密度軌跡效果,由于相機(jī)移動(dòng)、復(fù)雜背景等原因整個(gè)畫(huà)面都有軌跡覆蓋;(d)列是本文算法高密度軌跡效果,即加入了可變形塊模型運(yùn)動(dòng)目標(biāo)檢測(cè)過(guò)程之后,不難看出軌跡主要覆蓋運(yùn)動(dòng)目標(biāo)主體,有效消除了相機(jī)移動(dòng)等因素引入的大面積背景冗余軌跡。
2.2動(dòng)作特征表示
當(dāng)輸入視頻每一幀都經(jīng)過(guò)運(yùn)動(dòng)目標(biāo)檢測(cè)獲得人體邊界框后,在此目標(biāo)區(qū)域內(nèi)采集人體運(yùn)動(dòng)的高密度軌跡。采集高密度軌跡時(shí),我們采用文獻(xiàn)[11]提出的算法,對(duì)于每個(gè)特征點(diǎn)都在其周?chē)鶺×W范圍內(nèi)進(jìn)行采樣,之后在不同尺度下跟蹤這些采樣點(diǎn)以獲得軌跡(通常W=5時(shí)就可以獲得密度足夠大的軌跡)。第t幀的點(diǎn)Pt=(xt,yt)在高密度光流場(chǎng)ω=(ut,vt)中通過(guò)中值濾波得到第t+1幀的位置:
(10)
通常在圖像同質(zhì)化嚴(yán)重的區(qū)域不可能得到跟蹤軌跡,這種情況下我們計(jì)算得到采樣點(diǎn)自相關(guān)矩陣最小的特征值,當(dāng)它小于某一閾值的時(shí)候就舍棄該采樣點(diǎn)。與此同時(shí),軌跡有很大位移突變的情況有違牛頓運(yùn)動(dòng)物理定律,也舍棄這些異樣點(diǎn)。軌跡的形狀可以表示局部運(yùn)動(dòng)特征,用位移序列S=(ΔPt,ΔPt+1,…,ΔPt+L-1)表示一條長(zhǎng)度為L(zhǎng)的軌跡,其中ΔPt=(Pt+1-Pt)=(xt+1-xt,yt+1-yt),得到的結(jié)果再進(jìn)行歸一化處理,就可以得到形狀描述符當(dāng)中的軌跡形狀描述符。
為了得到完整的形狀描述符和運(yùn)動(dòng)描述符,我們?cè)谲壽E周?chē)鷺?gòu)建一個(gè)N×N×L的時(shí)空體(圖3)。在此基礎(chǔ)上再將此時(shí)空體切成一些nσ×nσ×nτ的子時(shí)空體(通常取N=32,nσ=2 nτ=3)。在每個(gè)子時(shí)空體中,沿著軌跡計(jì)算方向梯度直方圖HOG作為形狀描述符,計(jì)算光流直方圖HOF作為運(yùn)動(dòng)描述符。其中光流計(jì)算的是絕對(duì)運(yùn)動(dòng),因此必然包含了相機(jī)運(yùn)動(dòng),文獻(xiàn)[21]提出的MBH特征在光流的水平和垂直兩個(gè)方向分別求導(dǎo),可以刻畫(huà)像素之間的相對(duì)運(yùn)動(dòng),消除相機(jī)運(yùn)動(dòng)等背景運(yùn)動(dòng)帶來(lái)的影響,因此我們?cè)谶\(yùn)動(dòng)描述符當(dāng)中加入MBH特征。
總結(jié)來(lái)說(shuō),在高密度軌跡周?chē)淖訒r(shí)空體中,采集HOG和軌跡形狀作為形狀描述符,利用HOF和MBH作為運(yùn)動(dòng)描述符。聯(lián)合運(yùn)動(dòng)描述符和形狀描述符共同刻畫(huà)運(yùn)動(dòng)特征。
2.3動(dòng)作分類(lèi)
在計(jì)算得到運(yùn)動(dòng)描述符和形狀描述符后,本文采用詞袋模型和支持向量機(jī)進(jìn)行動(dòng)作特征的理解和分類(lèi)。詞袋模型非常適合對(duì)高密度軌跡采樣得到的高維特征描述符進(jìn)行表述和分類(lèi),同時(shí)由于詞袋模型的特性,對(duì)于目標(biāo)檢測(cè)算法可能出現(xiàn)的個(gè)別幀檢測(cè)失敗的情況也有很好的魯棒性,不會(huì)因此影響識(shí)別的準(zhǔn)確率。首先,對(duì)于每個(gè)特征描述符分別單獨(dú)構(gòu)建一個(gè)碼本。綜合考量算法效率和準(zhǔn)確性,通過(guò)實(shí)驗(yàn)我們發(fā)現(xiàn),本文使用的特征描述符在碼本中單詞(visual words)的數(shù)量達(dá)到400時(shí)就可以很好地進(jìn)行動(dòng)作分類(lèi),因此我們對(duì)訓(xùn)練集中所有視頻的特征描述符進(jìn)行k-means聚類(lèi)(k=400)得到向量維度為400的碼本。得到碼本后對(duì)每個(gè)視頻的特征描述符進(jìn)行映射,將特征描述符中每一個(gè)元素利用歐氏距離映射到碼本中最近的單詞上,因此每個(gè)視頻都可以用一個(gè)400維的向量進(jìn)行重新表示,向量的每一個(gè)元素表示了特征描述符的詞頻。新生成的400維詞頻直方圖就是視頻描述符,而對(duì)于視頻描述符的分類(lèi),本文采用了直方圖正交核(histogram intersection kernel)的支持向量機(jī)[22]方法。
3.1動(dòng)作數(shù)據(jù)集
為了便于與文獻(xiàn)[11]的識(shí)別結(jié)果進(jìn)行對(duì)比,本文采用了在動(dòng)作識(shí)別領(lǐng)域廣為應(yīng)用的KTH、UCF YouTube和UCF Sports動(dòng)作數(shù)據(jù)集進(jìn)行算法效果的檢驗(yàn)。
KTH數(shù)據(jù)集[23]包含6種不同的人體動(dòng)作: 行走(walking)、慢跑(jogging)、快跑(running)、拳擊(boxing)、揮手(waving)和拍手(clapping)。每個(gè)動(dòng)作由25個(gè)不同的人分別在室外、室內(nèi)、室外尺度變化、室外著裝變化4種場(chǎng)景下完成,大多數(shù)場(chǎng)景下視頻背景是同質(zhì)且靜止的。本文與文獻(xiàn)[11]采用相同設(shè)置,利用編號(hào)2、3、5、6、7、8、9、10和22共9個(gè)人的視頻作為測(cè)試集,其余16個(gè)人的視頻作為訓(xùn)練集,即訓(xùn)練集和測(cè)試集視頻數(shù)量比例近似2: 1。
UCF YouTube數(shù)據(jù)集[24]包含11種不同的人體動(dòng)作: 投籃(basketball shooting)、騎車(chē)(biking)、跳水(diving)、高爾夫(golf swinging)、騎馬(horse riding)、顛足球(soccer juggling)、蕩秋千(swinging)、打網(wǎng)球(tennis swinging)、跳蹦床(trampoline jumping)、打排球(volleyball spiking)和遛狗(walking with a dog)。由于該數(shù)據(jù)集視頻來(lái)自視頻網(wǎng)站YouTube,多數(shù)為手持設(shè)備拍攝,因此具有很大的相機(jī)移動(dòng)。同時(shí)在運(yùn)動(dòng)目標(biāo)外觀、姿態(tài)、尺度、視角、光照條件和復(fù)雜背景等因素的干擾下,該數(shù)據(jù)集十分具有挑戰(zhàn)性。相比于文獻(xiàn)[11]采用的留一交叉驗(yàn)證法設(shè)置,本文采用了與KTH相同的訓(xùn)練集和測(cè)試集視頻數(shù)量比例2∶1的設(shè)置,條件更為嚴(yán)苛。
UCF Sports數(shù)據(jù)集[31]包含10種不同的動(dòng)作: 鞍馬(swinging on the pommel horse)、跳水(diving)、踢球(kicking)、舉重(weight-lifting)、騎馬(horse-riding)、跑步(running)、滑板(skateboarding)、單杠(swinging at the high bar)、高爾夫(golf swinging)和走路(walking)。該數(shù)據(jù)集由150段具有較大類(lèi)內(nèi)差異的視頻組成,同時(shí)在視角、尺度、背景等方面都頗具挑戰(zhàn)性。相比于文獻(xiàn)[11]在此數(shù)據(jù)集上采用的留一交叉驗(yàn)證法設(shè)置,本文采取了與UCF YouTube數(shù)據(jù)集相同的設(shè)置,條件更加苛刻。
3.2結(jié)果
本文對(duì)于軌跡形狀描述符(Trajectory)、方向梯度直方圖(HOG)、光流直方圖(HOF)和運(yùn)動(dòng)邊界直方圖(MBH)四種描述符在KTH、UCF YouTube和UCF Sports 3個(gè)數(shù)據(jù)集上分別進(jìn)行了識(shí)別準(zhǔn)確率(η)測(cè)試,并與文獻(xiàn)[11]測(cè)試結(jié)果進(jìn)行了比較。在實(shí)驗(yàn)設(shè)置上,本文將詞袋模型字典的維度設(shè)置為400,而文獻(xiàn)[11]的對(duì)應(yīng)參數(shù)設(shè)置為4000。聚類(lèi)成400個(gè)類(lèi)別比聚類(lèi)成4000個(gè)類(lèi)別要節(jié)省很多時(shí)間,而這一部分也是整個(gè)算法中比較耗時(shí)的部分,因此在構(gòu)建碼本部分本文比文獻(xiàn)[11]更為高效。此外,由于本文在高密度軌跡的基礎(chǔ)上引入了目標(biāo)檢測(cè)算法,高密度軌跡的數(shù)目只有文獻(xiàn)[11]的5.3%~34.0%(表1),也在很大程度上提高了算法效率。
表1 本文算法與文獻(xiàn)[11]采樣軌跡數(shù)目比較
對(duì)于KTH數(shù)據(jù)集,本文的訓(xùn)練集和測(cè)試集采用了與文獻(xiàn)[11]相同的設(shè)置,即訓(xùn)練集和測(cè)試集視頻數(shù)量比例近似2∶1。在實(shí)驗(yàn)條件完全相同的情況下,本文在Trajectory和HOF兩個(gè)描述符上較文獻(xiàn)[11]取得了更高的準(zhǔn)確率,而HOG和MBH兩個(gè)描述符準(zhǔn)確率與文獻(xiàn)[11]基本相仿,略低0.1%~0.3%。因?yàn)镵TH數(shù)據(jù)集大多數(shù)視頻背景是同質(zhì)化且靜止的,相對(duì)來(lái)講基本沒(méi)有背景冗余信息的干擾,因此本文引入目標(biāo)檢測(cè)算法帶來(lái)的準(zhǔn)確率提升效果并不明顯,但在算法識(shí)別效率上有明顯提升。
對(duì)于UCF YouTube和UCF Sports數(shù)據(jù)集,文獻(xiàn)[11]采用了留一交叉驗(yàn)證法的實(shí)驗(yàn)設(shè)置,即將一個(gè)視頻作為測(cè)試集,其他視頻全部作為訓(xùn)練集,如此循環(huán)直至所有視頻都做過(guò)測(cè)試集為止。而本文采用了與KTH一樣的訓(xùn)練集和測(cè)試集視頻數(shù)量比例2∶1的實(shí)驗(yàn)設(shè)置,相比于留一交叉驗(yàn)證法,因?yàn)橛?xùn)練視頻數(shù)量更少,這樣的設(shè)置無(wú)疑是更加苛刻的。而就在更為苛刻的條件下,本文在四種描述符上依然全部比文獻(xiàn)[11]取得了更高的識(shí)別準(zhǔn)確率(表2),UCF YouTube準(zhǔn)確率提升達(dá)1.3%~14.7%,UCF Sports準(zhǔn)確率提升達(dá)3.2%~5.4%。由于UCF YouTube和UCF Sports數(shù)據(jù)集是在復(fù)雜背景下拍攝的,而且光照、視角、尺度等條件都更為復(fù)雜,因此在高密度軌跡基礎(chǔ)上引入目標(biāo)檢測(cè)算法十分有效地去除了背景冗余信息帶來(lái)的干擾,提高了識(shí)別準(zhǔn)確率,同時(shí)也比文獻(xiàn)[11]算法識(shí)別效率更高。
表2 KTH, UCF YouTube和UCF Sports數(shù)據(jù)集不同描述符動(dòng)作識(shí)別準(zhǔn)確率(η)比較
而在與最近幾年發(fā)表的動(dòng)作識(shí)別算法文章進(jìn)行比較時(shí),本文依舊取得了更好的識(shí)別效果。
對(duì)于KTH數(shù)據(jù)集,文獻(xiàn)[13-14]都采用了高密度軌跡的方法,其中文獻(xiàn)[14]在高密度軌跡基礎(chǔ)上引入了一種時(shí)空不變特征池的方法來(lái)提升識(shí)別效率,而文獻(xiàn)[13]在無(wú)監(jiān)督條件下識(shí)別局部運(yùn)動(dòng),采用多核方法提升動(dòng)作識(shí)別效果。文獻(xiàn)[26]將體局部二進(jìn)制模型與光流相結(jié)合提出了運(yùn)動(dòng)二進(jìn)制模型的動(dòng)作識(shí)別方法,而文獻(xiàn)[25]采用了神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行動(dòng)作識(shí)別。與2013—2015年間發(fā)表的這4種具有代表性的典型算法相比較,無(wú)論是同樣基于高密度軌跡的文獻(xiàn)[13-14],還是基于其他模型的文獻(xiàn)[25-26],本文都在KTH數(shù)據(jù)集取得了更加準(zhǔn)確的識(shí)別效果(表3)。
對(duì)于UCF YouTube和UCF Sports數(shù)據(jù)集,本文選取了2011—2015年間發(fā)表的8篇文章進(jìn)行比較。因?yàn)閁CF YouTube和UCF Sports數(shù)據(jù)集本身受到運(yùn)動(dòng)目標(biāo)外觀、姿態(tài)、尺度、視角、光照條件、復(fù)雜背景等多重因素的干擾,因此十分具有挑戰(zhàn)性。與近幾年采用此數(shù)據(jù)集進(jìn)行測(cè)試的算法進(jìn)行比較,在訓(xùn)練集與測(cè)試集視頻數(shù)量2∶1的嚴(yán)苛條件下,對(duì)于挑戰(zhàn)性頗高的UCF YouTube數(shù)據(jù)集取得了89.2%的識(shí)別準(zhǔn)確率,而對(duì)于UCF Sports數(shù)據(jù)集取得了90.2%的準(zhǔn)確率,均超過(guò)現(xiàn)有算法。因此在背景更為復(fù)雜,條件更為苛刻的數(shù)據(jù)集上,本文算法對(duì)于動(dòng)作識(shí)別準(zhǔn)確率的提升效果更為明顯。
表3 KTH, UCF YouTube和UCF Sports數(shù)據(jù)集動(dòng)作識(shí)別準(zhǔn)確率(η)比較
本文提出了一種基于運(yùn)動(dòng)目標(biāo)檢測(cè)和高密度軌跡的動(dòng)作識(shí)別算法。首先,通過(guò)可變形塊模型方法對(duì)于輸入視頻每一幀進(jìn)行運(yùn)動(dòng)目標(biāo)檢測(cè),獲取運(yùn)動(dòng)目標(biāo)邊界框之后在其范圍內(nèi)計(jì)算高密度軌跡。之后,在高密度軌跡周?chē)訒r(shí)空體內(nèi)分別計(jì)算表示形狀信息的方向梯度直方圖和表示運(yùn)動(dòng)信息的光流直方圖、運(yùn)動(dòng)邊界直方圖,同時(shí)用軌跡形狀描述符刻畫(huà)運(yùn)動(dòng)的時(shí)空關(guān)系和結(jié)構(gòu)信息。接著,采用詞袋模型將特征描述符映射到400維的碼本上,構(gòu)成新的視頻描述符。最后,用支持向量機(jī)進(jìn)行動(dòng)作模型的學(xué)習(xí)和分類(lèi)。本文算法在簡(jiǎn)單數(shù)據(jù)集KTH和復(fù)雜數(shù)據(jù)集UCF YouTube和UCF Sports上都取得了良好的識(shí)別效果,實(shí)驗(yàn)結(jié)果充分證明了基于運(yùn)動(dòng)目標(biāo)檢測(cè)和高密度軌跡的方法在動(dòng)作識(shí)別領(lǐng)域的出色表現(xiàn)。目前,本文算法已經(jīng)在工程項(xiàng)目中得到了實(shí)際應(yīng)用(圖4),未來(lái)在本文研究基礎(chǔ)上,結(jié)合高密度軌跡描述符,將進(jìn)一步探索目標(biāo)檢測(cè)和目標(biāo)跟蹤在動(dòng)作識(shí)別領(lǐng)域的應(yīng)用,融合目標(biāo)跟蹤和動(dòng)作識(shí)別過(guò)程,以期獲得更好的識(shí)別效果。
[1]POPPE R. A survey on vision-based human actionrecognition[J].ImageandVisionComputing,2010,28(6): 976-990.
[2]SADANAND S, CORSO JJ. Action bank: A high-level representation of activity in video[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE Press, 2012: 1234-1241.
[3]WEINLAND D, RONFARD R, BOYER E. A survey of vision-based methods for action representation, segmentation andrecognition[J].ComputerVisionandImageUnderstanding,2011,115(2): 224-241.
[4]AGGARWAL J K, CAI Q. Human motion analysis: A review[J].ComputerVisionandImageUnderstanding,1999,73(3): 428-440.
[5]AGGARWAL J K, PARK S. Human motion: Modeling and recognition of actions and interactions[C]∥Proceedings. 2nd International Symposium on 3D Data Processing, Visualization and Transmission, 2004. Thessaloniki, Greece: IEEE Press, 2004: 640-647.
[6]MOESLUND T B, HILTON A, KRUGER V. A survey of advances in vision-based human motion capture andanalysis[J].ComputerVisionandImageUnderstanding,2006,104(2): 90-126.
[7]CHENG G, WAN Y, SAUDAGAR A N, et al. Advances in Human Action Recognition: A Survey[J]. arXiv preprint arXiv: 1501.05964, 2015.
[8]RAMANATHAN M, YAU W Y, TEOH E K. Human action recognition with video data: Research and evaluationchallenges[J].IEEETransactionsonHuman-MachineSystems,2014,44(5): 650-663.
[9]BORGES P V K, CONCI N, CAVALLARO A. Video-based human behavior understanding: A survey[J].IEEETransactionsonCircuitsandSystemsforVideoTechnology,2013,23(11): 1993-2008.
[10]RAPTIS M, KOKKINOS I, SOATTO S. Discovering discriminative action parts from mid-level video representations[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Providence, USA: IEEE Press, 2012: 1242-1249.
[11]WANG H, KLASER A, SCHMID C, et al. Action recognition by dense trajectories[C]∥2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE Press, 2011: 3169-3176.
[12]MURTHY O V R, GOECKE R. Ordered trajectories for large scale human action recognition[C]∥2013 IEEE International Conference on Computer Vision Workshops (ICCVW). Sydney, Australia: IEEE Press, 2013: 412-419.
[13]CHO J, LEE M, CHANG H J, et al. Robust action recognition using local motion and group sparsity[J].PatternRecognition,2014,47(5): 1813-1825.
[14]BALLAS N, YANG Y, LAN ZZ, et al. Space-time robust representation for action recognition[C]∥2013 IEEE International Conference on Computer Vision (ICCV). Sydney, Australia: IEEE Press, 2013: 2704-2711.
[15]JOHANSSON G. Visual perception of biological motion and a model for itsanalysis[J].Attention,Perception&Psychophysics,1973,14(2): 201-211.
[16]YILMA A, SHAH M. Recognizing human actions in videos acquired by uncalibrated moving cameras[C]∥Tenth IEEE International Conference on Computer Vision, 2005. Beijing, China: IEEE Press, 2005,1: 150-157.
[17]FELZENSZWALB P F, GIRSHICK R B, MCALLESTER D, et al. Object detection with discriminatively trained part-basedmodels[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2010,32(9): 1627-1645.
[18]GIESE M A, POGGIO T. Neural mechanisms for the recognition of biologicalmovements[J].NatureReviewsNeuroscience,2003,4(3): 179-192.
[19]FELZENSZWALB P F, HUTTENLOCHER D P. Pictorial structures for objectrecognition[J].InternationalJournalofComputerVision,2005,61(1): 55-79.
[20]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005. San Diego, USA: IEEE Press, 2005,1: 886-893.
[21]DALAL N, TRIGGS B, SCHMID C. Human detection using oriented histograms of flow and appearance[M]∥Computer Vision-ECCV 2006. Berlin Heidelberg, Graz, Austria: Springer, 2006: 428-441.
[22]LI P, MA J, GAO S. Actions in still web images: Visualization, detection andretrieval[M]∥Web-Age Information Management. Berlin Heidelberg: Springer, 2011: 302-313.
[23]SCHULDT C, LAPTEV I, CAPUTO B. Recognizing human actions: a local SVM approach[C]∥Proceedings of the 17th International Conference on Pattern Recognition, 2004. Cambridge, UK: IEEE Press, 2004,3: 32-36.
[24]LIU J, LUO J, SHAH M. Recognizing realistic actions from videos “in the wild”[C]∥IEEE Conference on Computer Vision and Pattern Recognition, 2009. Miami, USA: IEEE Press, 2009: 1996-2003.
[25]JI S, XU W, YANG M, et al. 3D convolutional neural networks for human actionrecognition[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013,35(1): 221-231.
[26]BAUMANN F, EHLERS A, ROSENHAHN B, et al. Recognizing human actions using novel space-time volume binary patterns[J].Neurocomputing, 2016,173(1): 54-63.
[27]ZHANG Y, LIU X, CHANG M C, et al.Spatio-temporal phrases for activity recognition[M]∥Computer Vision-ECCV 2012. Berlin Heidelberg, Firenze, Italy: Springer, 2012: 707-721.
[28]CHAKRABORTY B, HOLTE M B, MOESLUND T B, et al. Selective spatio-temporal interest points[J].ComputerVisionandImageUnderstanding,2012,116(3): 396-410.
[29]WANG Y, TIAN Y, SU L, et al. Detecting Rare Actions and Events from Surveillance Big Data with Bag of Dynamic Trajectories[C]∥2015 IEEE International Conference on Multimedia Big Data (BigMM). Beijing, China: IEEE Press, 2015: 128-135.
[30]ZHANG Z, LIU S, LIU S, et al. Human Action Recognition using Salient Region Detection in Complex Scenes[C]∥The Proceedings of the Third International Conference on Communications, Signal Processing, and Systems. Chengdu, China, Springer International Publishing, 2015: 565-572.
[31]RODRIGUEZ M D, AHMED J, SHAH M. Action mach a spatio-temporal maximum average correlation height filter for action recognition[C]∥Computer Vision and Pattern Recognition, 2008. Anchorage, USA: IEEE Press, 2008: 1-8.
[32]LE Q V, ZOU W Y, YEUNG S Y, et al. Learning hierarchical invariant spatio-temporal features for action recognition with independent subspace analysis[C]∥2011 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Colorado Springs, USA: IEEE Press, 2011: 3361-3368.
[33]JIANG Z, LIN Z, DAVIS L S. Recognizing human actions by learning and matching shape-motion prototype trees[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2012,34(3): 533-547.
[34]YANG Y, SALEEMI I, SHAH M. Discovering motion primitives for unsupervised grouping and one-shot learning of human actions, gestures, and expressions[J].IEEETransactionsonPatternAnalysisandMachineIntelligence,2013,35(7): 1635-1648.
[35]應(yīng)銳,王新宇,馮輝,等.基于運(yùn)動(dòng)及形狀原語(yǔ)的人體動(dòng)作識(shí)別[J].太赫茲科學(xué)與電子信息學(xué)報(bào),2014,12(4): 572-578.
Action Recognition Based on Object Detection and Dense Trajectories
WANG Xinyu1, CHEN Da1, FENG Hui1, YANG Tao1, HU Bo1, 2
(1.DepartmentofElectronicEngineering,FudanUniversity,Shanghai200433,China; 2.KeyLaboratoryforInformationScienceofElectromagneticWaves,FudanUniversity,Shanghai200433,China)
For recognizing human actions in video sequences, it is necessary to extract sufficient information that can represent motion features. In recent years, researchers pay more attention on dense trajectories because of its rich spatio-temporal information. However, dense trajectories based action recognition algorithms are all faced with redundant background problem. To solve this problem, we involve object detection in dense trajectories algorithm, detect motion object location through deformable part-based model and calculate dense trajectories around the motion object, which suppresses redundant background effectively. However, object detection algorithms are usually faced with missing frames problem. To solve this problem, human actions are classified by the bag-of-words model and SVM approach. Bag-of-words model constructs feature descriptors with word frequency, which makes few frames missing in object detection not influence action recognition result. Involving object detection improves dense trajectories approach efficiency, which also improves action recognition accuracy. Our algorithm achieves superior results on the KTH, UCF YouTube and UCF Sports datasets compared to the state-of-the-art methods, especially outstanding 89.2% and 90.2% accuracy on complex background dataset UCF YouTube and UCF Sports respectively.
object detection; dense trajectories; deformable part-based model; action recognition
0427-7104(2016)04-0442-10
2015-09-25
教育部博士點(diǎn)基金(20120071110028)
王新宇(1989—),男,碩士研究生;胡波,男,教授,通訊聯(lián)系人,E-mail: bohu@fudan.edu.cn.
TP 391.4
A