李龍,尹輝,2,許宏麗,歐偉奇
(1.北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044; 2. 北京交通大學(xué) 交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044)
?
一種魯棒的Multi-Egocentric視頻中的多目標(biāo)檢測(cè)及匹配算法
李龍1,尹輝1,2,許宏麗1,歐偉奇1
(1.北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044; 2. 北京交通大學(xué) 交通數(shù)據(jù)分析與挖掘北京市重點(diǎn)實(shí)驗(yàn)室,北京 100044)
針對(duì)視頻中的背景變化劇烈、目標(biāo)尺度差異明顯和視角時(shí)變性強(qiáng)的特點(diǎn),提出一種魯棒的針對(duì)multi-egocentric視頻的多目標(biāo)檢測(cè)及匹配算法。首先,構(gòu)建基于boosting方法的多目標(biāo)檢測(cè)模型對(duì)各視頻序列中的顯著目標(biāo)進(jìn)行粗檢測(cè),并提出一種基于局部相似度的區(qū)域優(yōu)化算法對(duì)粗檢測(cè)顯著目標(biāo)的輪廓進(jìn)行優(yōu)化,提高Egocentric視頻中顯著目標(biāo)輪廓檢測(cè)和定位的準(zhǔn)確性。在顯著目標(biāo)檢測(cè)基礎(chǔ)上,對(duì)不同視角中的顯著目標(biāo)構(gòu)建基于HOG特征的SVM分類(lèi)器,實(shí)現(xiàn)多視角的多目標(biāo)匹配。在Party Scene數(shù)據(jù)集上的實(shí)驗(yàn)驗(yàn)證了本文算法的有效性。
Multi-Egocentric視頻;多目標(biāo)檢測(cè);多目標(biāo)匹配
Egocentric視頻是通過(guò)固定在拍攝者頭、肩、手等部位或由拍攝者手持的穿戴式攝像機(jī),在拍攝者自由運(yùn)動(dòng)過(guò)程中所拍攝的。Egocentric視頻具有背景變化劇烈、目標(biāo)尺度差異明顯和視角時(shí)變性強(qiáng)的特點(diǎn),同時(shí)存在拍攝視頻不平順、運(yùn)動(dòng)模糊、噪聲大等問(wèn)題,為基于此的計(jì)算機(jī)視覺(jué)任務(wù)帶來(lái)極大的挑戰(zhàn)。Multi-Egocentric視頻是由處于同一場(chǎng)景中的多個(gè)個(gè)體所拍攝的不同視角、不同運(yùn)動(dòng)軌跡的視頻,研究基于multi-egocentric視頻的目標(biāo)檢測(cè)和匹配對(duì)于后續(xù)的場(chǎng)景理解等高級(jí)視覺(jué)任務(wù)具有重要的意義。
由于場(chǎng)景的復(fù)雜性和運(yùn)動(dòng)的多樣性,基于視頻的顯著目標(biāo)檢測(cè)一直都是計(jì)算機(jī)視覺(jué)研究領(lǐng)域的難點(diǎn)問(wèn)題之一?;趩我暯且曨l的目標(biāo)檢測(cè)主要有基于單幀圖像通過(guò)特征提取訓(xùn)練目標(biāo)檢測(cè)器的方法,如Pedro Felzenszwalb等[1]提出的可變性組件模型(deformable part model,DPM),基于目標(biāo)成員的可變形部位,結(jié)合邊界敏感的方法挖掘負(fù)樣本,訓(xùn)練隱性支持向量機(jī)(latent,SVM)分類(lèi)器檢測(cè)目標(biāo),但對(duì)于視頻中距離鏡頭較遠(yuǎn)的目標(biāo)有漏檢的情況;Lubomir Bourdev等[2]提出Poselet模型用帶標(biāo)注的三維人體動(dòng)作關(guān)節(jié)點(diǎn)數(shù)據(jù)集訓(xùn)練SVM分類(lèi)器,以檢測(cè)人的頭、軀干、背部等部位,該算法在清晰圖像上取得較好的效果,但對(duì)于低質(zhì)圖像漏檢率較高;利用時(shí)空特征和表面特征相結(jié)合的訓(xùn)練方法,如Philippe Weinzaepfel[3]提出運(yùn)動(dòng)邊模型(motion boundary,MB)將圖像局部區(qū)域的顏色、光流以包的形式訓(xùn)練隨機(jī)森林模型,得到的支持向量機(jī)(SVM)分類(lèi)器可檢測(cè)精確的目標(biāo)邊緣,但當(dāng)目標(biāo)無(wú)明顯運(yùn)動(dòng)時(shí),邊緣檢測(cè)結(jié)果不佳;基于多視角視頻的目標(biāo)檢測(cè)利用多個(gè)不同視角的監(jiān)控視頻跟蹤目標(biāo),檢測(cè)目標(biāo)行為,如KSusheel Kumar等[4]提出的實(shí)時(shí)多視角視頻跟蹤算法,應(yīng)用在安全系統(tǒng)中。
Egocentric視頻的分析和處理是近年來(lái)的研究熱點(diǎn)之一,目前的研究主要集中于估計(jì)拍攝者所關(guān)注的顯著區(qū)域,例如Hyun Soo Park[5]提出利用群體模式的幾何關(guān)系得到成員交互關(guān)系,經(jīng)訓(xùn)練后得到分類(lèi)器預(yù)測(cè)顯著區(qū)域,但此類(lèi)方法無(wú)法獲得顯著區(qū)域中成員的精確位置;Lin等[6]在多個(gè)視頻中利用不同運(yùn)動(dòng)模式對(duì)成員做匹配,然后利用條件隨機(jī)場(chǎng)尋找時(shí)空一致性最高的成員,即為當(dāng)前最顯著成員,但此類(lèi)方法需要每個(gè)成員同一時(shí)刻的動(dòng)作具有差異性;通過(guò)多個(gè)視頻尋找匹配點(diǎn)利用透視圖原理計(jì)算出多個(gè)成員的位置和姿態(tài),如Hyun Soo Park等[5]通過(guò)SfM[7]方法,恢復(fù)三維場(chǎng)景及成員位置和姿態(tài),實(shí)現(xiàn)場(chǎng)景理解;利用多個(gè)視頻間的相互運(yùn)動(dòng)關(guān)系進(jìn)行成員檢測(cè),如Ryo Yonetani等[8]利用一對(duì)成員互相拍攝的視頻,根據(jù)超像素分割單位區(qū)域的局部相對(duì)運(yùn)動(dòng)和全局運(yùn)動(dòng)信息搜索其中一個(gè)成員,但此方法一次只能檢測(cè)一個(gè)拍攝視頻的成員面部。上述傳統(tǒng)的基于視頻的顯著目標(biāo)檢測(cè)方法大多基于固定視角或視角微變的視頻,而multi-egocentric視頻中場(chǎng)景變化劇烈,目標(biāo)運(yùn)動(dòng)穩(wěn)定性低,如DPM[1]在視角變換劇烈時(shí)的檢測(cè)效果下降;Poselets[2]算法在圖像有輕微運(yùn)動(dòng)模糊時(shí)的性能受到較大影響;Motion Boundaries[3]算法在目標(biāo)尺寸較小時(shí)出現(xiàn)漏檢?;诖耍疚奶岢隽艘环N兩步層進(jìn)目標(biāo)檢測(cè)算法,將目標(biāo)檢測(cè)分為粗檢測(cè)階段和細(xì)檢測(cè)兩階段,從而提高了基于Egocentric視頻的目標(biāo)檢測(cè)的魯棒性,并提出了multi-egocentric視頻中的目標(biāo)匹配算法,實(shí)現(xiàn)了多視角多目標(biāo)的匹配。算法流程圖如圖1。
圖1 本文算法流程(n為相機(jī)個(gè)數(shù),即視角數(shù),βi,i=1,2,…,11為目標(biāo)編號(hào))
兩步層進(jìn)目標(biāo)檢測(cè)算法的主要思想是首先粗略定位目標(biāo)位置,其次優(yōu)化目標(biāo)區(qū)域。算法分為兩步:第1步是基于Boosting[9]模型的目標(biāo)粗定位方法,融合多個(gè)檢測(cè)器結(jié)果,最大限度覆蓋目標(biāo)區(qū)域,此種方法在一定程度上克服了Egocentric視頻背景變化劇烈、目標(biāo)尺度差異明顯和視角時(shí)變性強(qiáng)等特點(diǎn)導(dǎo)致的檢測(cè)結(jié)果不完整、漏檢、錯(cuò)檢等問(wèn)題,提高了算法的魯棒性;第2步采用基于局部相似度的區(qū)域優(yōu)化方法對(duì)目標(biāo)輪廓進(jìn)行優(yōu)化,得到更精確的目標(biāo)區(qū)域。
1.1 基于Boosting模型的目標(biāo)粗檢測(cè)算法
圖2 基于boosting模型的目標(biāo)粗檢測(cè)算法流程
在以上的檢測(cè)算法中設(shè)置較低的檢測(cè)閾值,可獲得較多的目標(biāo)候選區(qū)域,當(dāng)然其中包含大量的冗余結(jié)果。根據(jù)目標(biāo)候選區(qū)的空間位置關(guān)系進(jìn)行區(qū)域融合得到目標(biāo)粗檢測(cè)結(jié)果。具體算法如下:
算法1基于空間位置關(guān)系的區(qū)域融合算法
4)重復(fù)執(zhí)行3),直至無(wú)重疊的顯著目標(biāo)候選區(qū)域,算法結(jié)束。
1.2 基于局部相似度的目標(biāo)區(qū)域優(yōu)化算法
對(duì)任意超像素pi,計(jì)算其屬于顯著目標(biāo)可能性為
式中:ψa(pi,pj)表示超像素pi和pj的顏色相似度,由顏色直方圖特征向量的κ2距離確定,ψo(hù)(pi,pj)表示超像素pi和pj之間的運(yùn)動(dòng)相似度,由光流模直方圖特征向量的κ2距離確定,ωa和ωo為權(quán)值。
計(jì)算所有超像素的顯著目標(biāo)可能性后,保留超像素集合P中D(pi)≥θ3(θ3為閾值)的超像素pi,從而得到優(yōu)化后的顯著目標(biāo)區(qū)域,基于局部相似度的D計(jì)算式(3)的區(qū)域優(yōu)化算法示意如圖3。
由于,經(jīng)過(guò)兩步層進(jìn)目標(biāo)檢測(cè)后,得到了各個(gè)視角的Egocentric視頻每幀中的顯著目標(biāo)檢測(cè)結(jié)果,下面將對(duì)各個(gè)視角中的顯著目標(biāo)進(jìn)行匹配。
圖3 基于局部相似度的區(qū)域優(yōu)化算法
算法2基于HOG特征的目標(biāo)匹配算法
2)初始化SVM分類(lèi)器參數(shù),bins以及l(fā)evel;
3)將hη按不同level劃分為固定大小的矩形塊;在每一個(gè)矩形塊上統(tǒng)計(jì)梯度向量直方圖(HOG),并將不同level的直方圖特征連接起來(lái)組成特征向量vη;
4)最后將vη和βη輸入SVM分類(lèi)器中進(jìn)行訓(xùn)練;
5)重復(fù)執(zhí)行3)、4)直到所有顯著目標(biāo)區(qū)域訓(xùn)練完畢,輸出SVM目標(biāo)匹配模型。
基于HOG特征的目標(biāo)匹配分類(lèi)器訓(xùn)練流程如圖4所示。
由兩步層進(jìn)法檢測(cè)得到多視角的顯著目標(biāo)后,基于HOG特征的目標(biāo)匹配分類(lèi)器實(shí)現(xiàn)多視角中多目標(biāo)的匹配流程如圖5所示。
為了驗(yàn)證本文算法的有效性,采用Hyun Soo Park[3]的Party Scene 數(shù)據(jù)集進(jìn)行目標(biāo)檢測(cè)和目標(biāo)匹配實(shí)驗(yàn)。該multi-egocentric數(shù)據(jù)集進(jìn)行目標(biāo)檢測(cè)和目標(biāo)匹配實(shí)驗(yàn)。該數(shù)據(jù)集包括來(lái)自11個(gè)相機(jī)的第一視角視頻數(shù)據(jù),并且是同時(shí)拍攝同一場(chǎng)景得到的。每個(gè)視頻共8 640幀,經(jīng)同步后每個(gè)視頻共8 566幀,本文取前914幀中的目標(biāo)樣本做手工標(biāo)注,作為訓(xùn)練集;另選取50幀作為測(cè)試集,其包含沒(méi)有任何目標(biāo)個(gè)體的幀。本文的目標(biāo)檢測(cè)算法與MB、DPM、SPP Net、Poselets算法結(jié)果對(duì)比如圖6所示。SPP Net、DPM算法在隨機(jī)窗口中搜索窗口包含目標(biāo)概率最高的框,因此搜索結(jié)果可能不會(huì)完全覆蓋目標(biāo)區(qū)域,但相對(duì)準(zhǔn)確,這也使得檢測(cè)的顯著目標(biāo)輪廓不完整,如圖6中第1行、第2行所示;MB算法主要通過(guò)目標(biāo)的運(yùn)動(dòng)信息檢測(cè)目標(biāo)邊緣,但Egocentric 視頻中的運(yùn)動(dòng)相對(duì)復(fù)雜,尤其是當(dāng)目標(biāo)運(yùn)動(dòng)不顯著或目標(biāo)只有局部運(yùn)動(dòng)時(shí),MB算法無(wú)法檢測(cè)到或只能部分檢測(cè)到目標(biāo),如圖6中第1行、第3列,檢測(cè)結(jié)果中漏檢了目標(biāo)的手部;而Poselets算法首先檢測(cè)目標(biāo)部位,再根據(jù)目標(biāo)種類(lèi)的不同合并符合模式的部位檢測(cè)結(jié)果,因此檢測(cè)結(jié)果中會(huì)產(chǎn)生一些孤立的部位檢測(cè)結(jié)果,降低了檢測(cè)結(jié)果的精度,如圖6中Poselets列所示;由Egocentric視頻視角時(shí)變性導(dǎo)致的像第3行這樣的拍攝角度不正的圖像非常常見(jiàn),而SPPNet、DPM算法對(duì)此種圖像會(huì)有顯著目標(biāo)漏檢的情況。本文算法在粗檢測(cè)過(guò)程中綜合了以上算法優(yōu)勢(shì),并基于空間位置進(jìn)行了區(qū)域融合,從而有效地避免了egocentric視頻中目標(biāo)尺度、運(yùn)動(dòng)差異較大而引起的漏檢問(wèn)題,而基于局部相似度的區(qū)域優(yōu)化能很好地排除復(fù)雜背景的影響,因而具有較強(qiáng)的魯棒性。本文算法的顯著目標(biāo)檢測(cè)結(jié)果如圖6中第1列所示。
圖4 基于HOG特征的目標(biāo)匹配分類(lèi)器訓(xùn)練流程(βi,i=1,2,…,η表示目標(biāo)編號(hào))
圖5 多視角多目標(biāo)匹配算法流程(βi,i=1,2,…,η 表示顯著目標(biāo)區(qū)域匹配編號(hào))
圖6 本文方法與DPM、SPP Net、Poselets算法結(jié)果對(duì)比圖(Ours列為本文方法的檢測(cè)結(jié)果,圖中橢圓框中為算法漏檢或錯(cuò)檢的區(qū)域)
本文提出的基于HOG特征的多目標(biāo)匹配算法實(shí)驗(yàn)結(jié)果如圖7所示,可以看出,在大多數(shù)情況下,本文提出的算法能夠有效地匹配多視角中的多個(gè)目標(biāo)。但是當(dāng)視頻視角變化較大時(shí),目標(biāo)姿態(tài)不正,從而導(dǎo)致目標(biāo)匹配失敗,究其原因,因?yàn)橛?xùn)練是通過(guò)人工標(biāo)注的包含目標(biāo)的矩形框來(lái)完成的,從而導(dǎo)致訓(xùn)練樣例包含更多的非目標(biāo)區(qū)域給匹配結(jié)果的正確性帶來(lái)影響,造成匹配結(jié)果不準(zhǔn)確,如圖7中第3列的目標(biāo)1和第4列的目標(biāo)7;另外,由于提取特征時(shí)是通過(guò)將顯著目標(biāo)區(qū)域分成固定尺寸的bins(子塊),因此當(dāng)顯著目標(biāo)區(qū)域較小時(shí),所劃分的bins(子塊)也就很少,提取的特征也就不顯著,因此會(huì)出現(xiàn)結(jié)果錯(cuò)誤,如圖7中第1列的目標(biāo)2、5、3。
最后,本文采用F-measure方法評(píng)價(jià)目標(biāo)檢測(cè)算法。查準(zhǔn)率和查全率的計(jì)算為
式中:Si為目標(biāo)檢測(cè)算法檢測(cè)的目標(biāo)區(qū)域像素?cái)?shù),Gi為人工標(biāo)注的目標(biāo)區(qū)域像素?cái)?shù),n為目標(biāo)數(shù)。
則F-measure為
目標(biāo)匹配正確率的計(jì)算為
本文提出的魯棒的multi-egocentric視頻中的目標(biāo)檢測(cè)和目標(biāo)匹配算法在整個(gè)數(shù)據(jù)集上的檢測(cè)結(jié)果如表1所示。
圖7 本文基于HOG特征的顯著目標(biāo)匹配算法結(jié)果和Ground-Truth對(duì)比圖
表1 在Party Scene數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比
本文對(duì)multi-egocentric視頻中的多目標(biāo)檢測(cè)和匹配進(jìn)行了研究,提出了基于boosting和局部相似度的兩步層進(jìn)目標(biāo)檢測(cè)算法,綜合多種檢測(cè)模型的優(yōu)勢(shì)以克服Egocentric視頻中目標(biāo)尺度差異明顯和視角時(shí)變性強(qiáng)給檢測(cè)帶來(lái)的干擾。在顯著目標(biāo)檢測(cè)基礎(chǔ)上,對(duì)不同視角中的顯著目標(biāo)構(gòu)建基于HOG特征的SVM分類(lèi)器,實(shí)現(xiàn)多視角的多目標(biāo)匹配,為后期的群體分析、場(chǎng)景理解等高級(jí)視覺(jué)任務(wù)提供了前期基礎(chǔ)。multi-egocentric視頻的處理和分析是一個(gè)極具挑戰(zhàn)的研究課題,在后續(xù)的研究工作中,將進(jìn)一步考慮融合局部相似度和全局相似度的顯著目標(biāo)區(qū)域檢測(cè)方法,同時(shí)多視角之間的運(yùn)動(dòng)關(guān)聯(lián)和目標(biāo)自運(yùn)動(dòng)軌跡也是多視角視頻分析中的重要線索。
[1]FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model[C]//Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK: IEEE, 2008: 1-8.
[2]BOURDEV L, MALIK J. Poselets: body part detectors trained using 3d human pose annotations[C]//Proceedings of the 2009 IEEE 12th International Conference on Computer Vision. Kyoto: IEEE, 2009: 1365-1372.
[3]WEINZAEPFEL P, REVAUD J, HARCHAOUI Z, et al. Learning to detect motion boundaries[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 2578-2586.
[4]KUMAR K S, PRASAD S, SAROJ P K, et al. Multiple cameras using real time object tracking for surveillance and security system[C]//Proceedings of the 2010 3rd International Conference on Emerging Trends in Engineering and Technology. Goa: IEEE, 2010: 213-218.
[5]SOO PARK H, SHI Jianbo. Social saliency prediction[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 4777-4785.
[6]LIN Yuewei, ABDELFATAH K, ZHOU Youjie, et al. Co-interest person detection from multiple wearable camera videos[C]//Proceedings of the IEEE International Conference on Computer Vision. Santiago: IEEE, 2015: 4426-4434.
[7]SNAVELY N, SEITZ S M, SZELISKI R. Photo tourism: exploring photo collections in 3D[J]. ACM transactions on graphics (TOG), 2006, 25(3): 835-846.
[8]YONETANI R, KITANI K M, SATO Y. Ego-surfing first person videos[C]//Proceedings of 2015 IEEE Conference on Computer Vision and Pattern Recognition. Boston, MA: IEEE, 2015: 5445-5454.
[9]FREUND Y, SCHAPIRE R. A short introduction to boosting[J]. Journal of Japanese society for artificial intelligence, 1999, 14(5): 771-780.
[10]HE Kaiming, ZHANG Xiangyu, REN Shaoqing, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[M]//FLEET D, PAJDLA T, SCHIELE B, et al. Computer Vision-ECCV 2014. Switzerland: Springer International Publishing, 2014: 346-361.
[11]LAZEBNIK S, SCHMID C, PONCE J. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]//Proceedings of 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. New York, NY, USA: IEEE, 2006, 2: 2169-2178.
[12]BURGES C J C. A tutorial on support vector machines for pattern recognition[J]. Data mining and knowledge discovery, 1998, 2(2): 121-167.
[13]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//Proceedings of IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA, USA: IEEE, 2005, 1: 886-893.
[14]ZHU Wangjiang, LIANG Shuang, WEI Yichen, et al. Saliency optimization from robust background detection[C]//Proceedings of 2014 IEEE Conference on Computer Vision and Pattern Recognition. Columbus, OH: IEEE, 2014: 2814-2821.
李龍,男,1982年生,碩士研究生,主要研究方向?yàn)閳D像處理與計(jì)算機(jī)視覺(jué)。
尹輝,女,1972年生,副教授,博士生導(dǎo)師,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、模式識(shí)別以及神經(jīng)計(jì)算。
許宏麗,女,1963年生, 教授,主要研究方向?yàn)橛?jì)算機(jī)技術(shù)、機(jī)器學(xué)習(xí)以及認(rèn)知計(jì)算。
A robust multi-object detection and matching algorithm for multi-egocentric videos
LI Long1, Yin Hui1,2, XU Hongli1, OU Weiqi1
(1. Department of Computer Science and Technology, Beijing Jiaotong University, Beijing 100044, China; 2. Beijing Key Lab of Transportation Data Analysis and Mining, Beijing Jiaotong University, Beijing 100044, China)
In this paper, a robust multi-object detection and matching algorithm for a multi-egocentric video is proposed by considering the characteristics of multi-egocentric videos, for example, sudden changes in background, and variable target scales and viewpoints. First, a multi-target detection model based on a boosting method is constructed, to roughly detect any salient objects in the video frames. Then an optimization algorithm based on local similarity is proposed for optimizing the salient-object area and improving the accuracy of salient-object detection and localization. Finally, a SVM classifier based on HOG features is trained to realize multi-target matching in multi-egocentric videos. Experiments using Scene Party datasets show the effectiveness of the proposed method.
multi-egocentric video; multi-object detection; multi-object matching
2016-03-20.
日期:2016-08-24.
國(guó)家自然科學(xué)基金項(xiàng)目(61472029,61473031).
李龍. E-mail:hyin@djpu.edu.cn.
TP391.4
A
1673-4785(2016)05-0619-08
10.11992/tis.201603050
http://www.cnki.net/kcms/detail/23.1538.TP.20160824.0929.016.html
李龍,尹輝,許宏麗,等.一種魯棒的Multi-Egocentric視頻中的多目標(biāo)檢測(cè)及匹配算法[J]. 智能系統(tǒng)學(xué)報(bào), 2016, 11(5):619-626.
英文引用格式:LI Long, YIN Hui, XU Hongli,et al. A robust multi-object detection and matching algorithm for multi-egocentric videos[J]. CAAI transactions on intelligent systems, 2016,11(5):619-626.