史青宣 邸慧軍 陸耀 田學(xué)東
視頻人體姿態(tài)估計(jì)是指獲取給定視頻中人體各部位在每幀圖像中的位置及方向等信息的過程[1],是目前計(jì)算機(jī)視覺領(lǐng)域的研究熱點(diǎn),在行為識別[2]、人機(jī)交互[3]、視頻理解[4?5]等領(lǐng)域均有廣泛的應(yīng)用.
近些年,基于部件模型[6],針對單幀圖像的人體姿態(tài)估計(jì)展開了大量的研究并取得了卓有成效的進(jìn)展[7?10],然而這些方法對人體四肢,尤其末端(手腕、肘、腳踝、膝蓋)部位的估計(jì)結(jié)果還很不理想,直接運(yùn)用到視頻的人體姿態(tài)估計(jì)問題上并不能得到滿意的結(jié)果.針對視頻中的人體姿態(tài)估計(jì),借助運(yùn)動信息,在人體部件模型基礎(chǔ)上添加時序一致性約束,將會得到更準(zhǔn)確的估計(jì)結(jié)果.現(xiàn)有基于部件的視頻人體姿態(tài)估計(jì)方法通常的做法是,為每幀圖像生成各個人體部件的狀態(tài)候選;然后,構(gòu)建時空概率圖模型,推理視頻中每一時刻的人體姿態(tài).根據(jù)實(shí)體在時域上的覆蓋度,目前這類方法采用的模型可以分為細(xì)粒度模型和粗粒度模型兩類.
第一類是細(xì)粒度模型.以人體部件(構(gòu)成姿態(tài)序列的最小單位)為實(shí)體,在單幀人體空域部件模型(圖1(a))基礎(chǔ)上,添加部件的幀間時域聯(lián)系,形成一個時空部件模型(圖1(b)),實(shí)體在時域上只覆蓋單幀圖像,模型推理目的是為每幀圖像中的人體各部件挑選符合時空約束的最優(yōu)狀態(tài)[11?16].由于人體姿態(tài)變化的多樣性,人的體型、穿著、視角等變化,部件模型很難捕捉到所有的表觀變化,而時域上只引入了相鄰幀間的一致性約束,沒有長時一致性的約束,易出現(xiàn)部件狀態(tài)估計(jì)的誤差累積.另外由于模型存在環(huán)路,無法獲取精確解,近似推理也在一定程度上進(jìn)一步降低估計(jì)的精度.
圖1 現(xiàn)有視頻人體姿態(tài)估計(jì)方法采用的模型Fig.1 The models used in video pose estimation
第二類是粗粒度模型.以人體部件的軌跡為實(shí)體,時空部件模型在時域上的依賴關(guān)系不復(fù)存在,實(shí)體在時域上覆蓋整個視頻,模型塌陷成為與單幀人體姿態(tài)估計(jì)相同的模型(圖1(c)),模型中結(jié)點(diǎn)表示部件的軌跡,邊表示部件軌跡間的約束關(guān)系,此時模型推理的目的是為每個人體部件挑選一個最優(yōu)的軌跡來組裝成最終的姿態(tài)序列[17?18].粗粒度模型在時域上可以添加長時一致性的約束,避免了誤差累積的情況,而且模型簡化,推理簡單.然而,為人體部件生成合理優(yōu)質(zhì)的軌跡本身屬于跟蹤問題,對于人體四肢部位,尤其末端部位(比如腕部、踝部),極易出現(xiàn)表觀的劇烈變化、遮擋、快速運(yùn)動等情況,而這些都是跟蹤的典型難題.
本文綜合粗、細(xì)粒度模型的優(yōu)點(diǎn),從中粒度出發(fā),以人體部件的軌跡片段為實(shí)體,構(gòu)建時空模型,推理為每一人體部件選擇最優(yōu)的軌跡片段,通過拼接各部件的軌跡片段形成最終的人體姿態(tài)序列估計(jì).模型中實(shí)體覆蓋若干幀,方便添加長時的一致性約束,降低對部件模型的敏感度.為解決對稱部件易混淆的問題,模型中添加對稱部件間約束(如圖2(a)),并從概念上將對稱部件合并為一個結(jié)點(diǎn)(如圖2(b)),通過該處理消除空域模型中的環(huán)路,同時保留對稱部件間約束,最終模型如圖2(c)所示.
環(huán)路的存在使得時空概率圖模型的確切解不可得,通常只能通過近似推理,如循環(huán)置信度傳播[11,19]、采樣[20]變分[12]等手段來獲取近似解.另外一類思路對原始環(huán)狀圖模型進(jìn)行拆解,用一組樹狀子圖來近似原始圖模型[13?14,21].還有部分研究者采用分步優(yōu)化的策略[15?16],首先不考慮空間約束,對檢測最為穩(wěn)定的部件(如頭部)進(jìn)行序列估計(jì),再基于該序列估計(jì),對其鄰接部件進(jìn)行優(yōu)化,該過程一直到所有部件處理完成.本文將整個時空模型(圖4(a))拆解為一組馬爾科夫隨機(jī)場(圖4(b))和隱馬爾科夫模型(圖4(c)),分別負(fù)責(zé)空域和時域的解析,通過迭代的時域和空域交替解析,完成時空模型的近似推理.
圖2 中粒度時空模型Fig.2 The medium granularity model
除推理算法外,部件候選集的質(zhì)量直接影響最終姿態(tài)估計(jì)的結(jié)果.直接將單幀圖像的前K個最優(yōu)姿態(tài)檢測作為候選[22?23],很難保證能夠覆蓋真實(shí)的姿態(tài).為了生成更多可靠的姿態(tài)候選,常用的一個策略是引入局部運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行傳播[15?16,24?26].借助準(zhǔn)確的運(yùn)動信息,對優(yōu)質(zhì)的姿態(tài)檢測結(jié)果進(jìn)行傳播,可以為相鄰幀生成合理的姿態(tài)候選.然而當(dāng)視頻中存在快速運(yùn)動或連續(xù)出現(xiàn)非常規(guī)人體姿態(tài)時,這種策略將會失效.1)快速運(yùn)動易導(dǎo)致運(yùn)動估計(jì)出現(xiàn)誤差.圖3給出了一個快速運(yùn)動的例子,可以看出傳統(tǒng)的運(yùn)動估計(jì)算法(LDOF[27]、FarneBackOF[28])無法成功捕捉腳的快速運(yùn)動.這使得即使在t幀有準(zhǔn)確的檢測,也無法通過傳播為t+1幀生成合理的候選.2)當(dāng)非常規(guī)姿態(tài)連續(xù)出現(xiàn)時,姿態(tài)檢測器會在相鄰的多幀圖像中連續(xù)失敗,沒有好的姿態(tài)檢測結(jié)果,即使有準(zhǔn)確的幀間運(yùn)動信息,也無法通過傳播為這些幀生成好的候選.這時可借助長時運(yùn)動信息將優(yōu)質(zhì)的檢測結(jié)果傳播到更遠(yuǎn)范圍[29].然而,從圖4給出的例子可以看出,傳統(tǒng)的運(yùn)動估計(jì)幾乎無法避免誤差累計(jì)與漂移.針對以上問題,本文引入全局運(yùn)動信息[30?31]對姿態(tài)檢測結(jié)果進(jìn)行傳播.全局運(yùn)動信息可以給出前景長時一致的對應(yīng)關(guān)系,較好地解決了快速運(yùn)動造成的障礙,將優(yōu)質(zhì)的姿態(tài)檢測結(jié)果穩(wěn)定地傳播,為更多的幀提供有效候選.
圖3 不同方法的短時運(yùn)動估計(jì)對比Fig.3 Short-term performances of different motion estimation approaches
圖4 不同方法的長時運(yùn)動估計(jì)對比Fig.4 Long-term performances of different motion estimation approaches
本文的主要貢獻(xiàn)可以歸納如下:1)引入全局運(yùn)動信息進(jìn)行姿態(tài)檢測的傳播,克服局部運(yùn)動信息的弊端,為后期推理提供更合理、優(yōu)質(zhì)的狀態(tài)候選.2)構(gòu)建中粒度模型,有效避免細(xì)粒度模型對部件模型敏感的缺點(diǎn),同時便于添加長時的一致性約束.
給定含有N幀的視頻,本文通過三個主要步驟得到最終的姿態(tài)估計(jì)結(jié)果(圖5).首先,用姿態(tài)檢測器對每幀圖像進(jìn)行姿態(tài)檢測;然后,借助全局運(yùn)動信息,將每幀中的最優(yōu)檢測結(jié)果傳播到整個視頻,從而為每個人體部件生成N條軌跡,隨即這些軌跡被切割成重疊的固定長度的軌跡片段,構(gòu)成每個部件的軌跡片段候選集;最后,通過求解中粒度時空概率圖模型的優(yōu)化問題,獲得符合時空一致性約束的最優(yōu)軌跡片段,拼接融合各部件的最優(yōu)軌跡片段形成最終的姿態(tài)估計(jì)序列.
第1.1節(jié)簡要介紹單幀圖像中進(jìn)行姿態(tài)檢測的混合部件模型[7],第1.2節(jié)描述軌跡片段候選的生成過程,第1.3節(jié)定義中粒度時空概率圖模型.
圖5 基于中粒度模型的視頻人體姿態(tài)估計(jì)方法示意圖Fig.5 Overview of the video pose estimation method based on medium granularity model
用于單幀圖像的人體姿態(tài)檢測器將人體建模成一個包含M個結(jié)點(diǎn)的樹狀圖模型G=(V,E),如圖1(a)所示,其中結(jié)點(diǎn)對應(yīng)人體的M個部件,邊表示部件間的空間約束關(guān)系.人體的姿態(tài)可表示為所有部件的狀態(tài)集合:X={x1,x2,···,xM},其中部件i的狀態(tài)xi由圖像中的坐標(biāo)位置構(gòu)成.給定圖像I,對某一特定人體部件狀態(tài)配置X可用式(1)進(jìn)行評分:
這里φ(xi,I)為部件的觀測項(xiàng),用于計(jì)算部件i取狀態(tài)xi時的圖像區(qū)域特征與部件模板的匹配程度;ψ(xi,xj)評估兩個相連人體部件i與j間的幾何連接狀況與人體模型對應(yīng)結(jié)點(diǎn)間幾何約束的匹配程度.所有部件的模板和部件間的幾何約束模型均利用結(jié)構(gòu)化SVM進(jìn)行聯(lián)合訓(xùn)練得到.
姿態(tài)檢測問題則形式化為最大化S(I,X)問題.本文采用文獻(xiàn)[7]的算法進(jìn)行單幀圖像的姿態(tài)檢測,并采用文中方法對部件以及相連部件間空間約束進(jìn)行建模,為描述簡潔,公式中省略了部件類型相關(guān)的描述,具體細(xì)節(jié)可參考文獻(xiàn)[7].
本文采用分層彈性運(yùn)動跟蹤方法[31]對視頻中的人體進(jìn)行彈性運(yùn)動跟蹤[30],獲取全局運(yùn)動信息,并基于此信息,對每幀獲得的人體姿態(tài)檢測結(jié)果進(jìn)行傳播.全局運(yùn)動信息給出的是目標(biāo)在視頻各幀的一個全局對應(yīng)關(guān)系,給定某幀圖像中一個點(diǎn),通過該對應(yīng)關(guān)系可以獲取該點(diǎn)在其他幀的對應(yīng)位置.因此,將第t幀的姿態(tài)檢測結(jié)果X={x1,x2,···,xM}作為參考點(diǎn)集,通過全局運(yùn)動信息,可獲取該點(diǎn)集在視頻各幀中的對應(yīng)位置,由此得到各部件的一條軌跡.對所有N幀中的姿態(tài)檢測結(jié)果實(shí)施該傳播操作,為各部件生成N條軌跡候選.
在假設(shè)全局運(yùn)動信息可信的前提下,t幀的姿態(tài)檢測結(jié)果中xi越準(zhǔn)確,傳播xi所生成的軌跡質(zhì)量越高,越是鄰近xi的軌跡片段越可靠.拼接各部件的優(yōu)質(zhì)軌跡片段,將得到高精確度的姿態(tài)估計(jì)結(jié)果.基于此直觀想法,本文將所有軌跡切割成重疊的固定長度的軌跡片段,構(gòu)成各部件的軌跡片段候選,構(gòu)建以部件軌跡片段為實(shí)體的中粒度時空模型,推理挑選出符合時空約束的最優(yōu)軌跡片段.
本文將視頻的姿態(tài)估計(jì)問題建模成一個如圖6(a)所示的時空概率圖模型,其中結(jié)點(diǎn)對應(yīng)人體部件軌跡片段,邊表示軌跡片段間的空間幾何約束以及時間上相鄰片段的一致性約束,目的是為每個人體部件挑選出最優(yōu)的軌跡片段.該問題可形式化為圖模型的優(yōu)化問題,由于該圖模型存在環(huán),受文獻(xiàn)[14]啟發(fā),本文將時空模型分解為兩個樹狀結(jié)構(gòu)子圖模型:馬爾科夫隨機(jī)場與隱馬爾科夫模型,分別負(fù)責(zé)空域解析(如圖6(b))和時域解析(如圖6(c)).為保留對稱部件間的約束關(guān)系,同時剔除空域模型中的環(huán)路,對稱部件已合并,即原始的14個關(guān)節(jié)點(diǎn)的人體模型簡化為8結(jié)點(diǎn)模型,為描述清晰,我們用單部件和組合部件對部件進(jìn)行區(qū)分,其中單部件指頭和頸兩部件,組合部件指合并的對稱部件即肩、肘、腕、胯、膝以及踝等6個部件.
圖6 時空模型分解為空域子模型和時域子模型Fig.6 Sub-models of the full graphical model
子圖模型馬爾科夫隨機(jī)場(圖6(b))用于在每個視頻分段內(nèi)進(jìn)行空域解析,我們用G=(VT,ET)來表示.表示在第t個視頻分段Vt中的M個人體部件的軌跡片段配置,其中Tt∈T,T是各部件軌跡片段候選的任意組合.對特定軌跡片段配置Tt的評分可由下式完成:
其中,一元項(xiàng)計(jì)算部件軌跡片段與視頻片段Vt的兼容性,以及在片段內(nèi)時域上部件表觀的一致性.當(dāng)部件為組合部件時,在該一元項(xiàng)中還將添加對稱部件間的評測.二元項(xiàng)評估兩部件軌跡片段間的空域兼容性.
為了能使公式描述更清晰,用Q替換Vt,當(dāng)部件i為單部件,用Si替換當(dāng)部件i為組合部件,用Ci替換表示長度為F幀的視頻片段Q中第f幀圖像,表示部件i的軌跡片段在第f幀的狀態(tài).
對單部件,一元項(xiàng)定義為
其中,綜合部件i的表觀評分(式(1)中部件表觀評分項(xiàng))與前景覆蓋度為權(quán)重因子,φg(Si)計(jì)算片段內(nèi)部件i的表觀時序一致性,用部件表觀特征的方差與片段內(nèi)最大位移的比值來衡量,定義為
其中,為部件i在圖像qf中取狀態(tài)時,所在的局部圖像塊歸一化后的顏色直方圖.
對組合部件,一元項(xiàng)定義為
其中,前兩項(xiàng)分別為左右部件軌跡片段的表觀評分,Φs(·)定義同式(3),Ci.l與Ci.r分別表示組合部件i的左右兩個部分;第3項(xiàng)度量對稱部件間的表觀一致性,為對稱部件間顏色直方圖的Chi-square距離;第4項(xiàng)度量對稱部件間距離,定義λ2與λ3為權(quán)重因子.評估原則為:軌跡片段的表觀與部件模型越兼容,對稱部件間顏色越一致、距離越遠(yuǎn),得分越高.
二元項(xiàng)評估兩部件軌跡片段間的空域兼容性.當(dāng)鄰接的兩結(jié)點(diǎn)均為單部件時,二元項(xiàng)定義為
當(dāng)鄰接的兩結(jié)點(diǎn)分別對應(yīng)單部件與組合部件時,二元項(xiàng)定義為
當(dāng)鄰接的兩結(jié)點(diǎn)均為組合部件時,二元項(xiàng)定義為
其中,ψp(·)評估兩鄰接部件的空域兼容性,定義同式(1)中的二元項(xiàng).
隱馬爾科夫模型負(fù)責(zé)在候選集中挑選出符合時域一致性約束的軌跡片段.我們將整個視頻分割為重疊的N個片段,用表示.任一部件i在整個視頻上的軌跡片段配置用表示,并建模成為一個馬爾科夫鏈.時域上的軌跡片段配置Ti的評分函數(shù)可以定義為
其中,一元項(xiàng)評估軌跡片段的表觀評分以及與i結(jié)點(diǎn)的雙親結(jié)點(diǎn)pa(i)的空域兼容性,具體定義為
其中,定義同式 (2).二元項(xiàng)評估兩鄰接軌跡片段的時序一致性,本文利用軌跡片段重疊部分的距離來計(jì)算,假設(shè)兩鄰接軌跡片段分別為A和B,重疊m幀,則我們用計(jì)算A與B之間的距離.對單部件結(jié)點(diǎn),二元項(xiàng)定義為
對組合部件結(jié)點(diǎn),二元項(xiàng)定義為
其中,λ4與λ5為權(quán)重因子.
給定所有人體部件在每一視頻片段的軌跡片段候選,模型推理的目標(biāo)是挑選符合時空約束的最優(yōu)軌跡片段,即獲取軌跡片段的最優(yōu)配置.我們通過迭代的時空解析來實(shí)現(xiàn).通過空域子模型上的解析,計(jì)算出所有軌跡片段的得分,篩選高分軌跡片段候選,構(gòu)成時域解析的輸入狀態(tài)空間.依據(jù)時域解析結(jié)果再次對候選進(jìn)行篩選,作為空域解析的輸入進(jìn)入下一次迭代.迭代解析過程從空域開始,原始輸入狀態(tài)空間由切割軌跡獲取的軌跡片段構(gòu)成.隨著交替解析的進(jìn)行,逐步縮減狀態(tài)候選數(shù)量,一直到最后挑選出最優(yōu)結(jié)果.最終的姿態(tài)序列由最優(yōu)軌跡片段拼接融合得到.
在空域解析階段,在第t個視頻片段,為部件i選擇軌跡片段候選a的評分定義為
由于空域子模型是樹狀結(jié)構(gòu),所有部件軌跡片段候選的評分可以通過消息傳遞算法求得.從部件i到其鄰接部件j的消息定義為
由此,部件i的軌跡片段的評分可依據(jù)以下定義計(jì)算:
消息從葉子傳遞到根,再由根傳遞回葉子,一個循環(huán)即可求得所有軌跡片段的評分.
在時域解析階段,由于子模型為鏈狀結(jié)構(gòu),所有軌跡片段的評分同樣可通過消息在馬爾科夫鏈上的一個循環(huán)傳遞完成.時域模型上從t片段向t+1片段傳遞的消息定義為
時序反向傳遞的消息定義類似,由此,部件i的軌跡片段的評分可定義如下:
其中,(式(10))涉及結(jié)點(diǎn)i與其雙親結(jié)點(diǎn)間的空域兼容性評估,我們采用分步處理的策略來進(jìn)行各部件的時域解析.從空域模型的根結(jié)點(diǎn)(頭部)開始時域解析過程,由于頭部是檢測最為穩(wěn)定的部件,首先,對其進(jìn)行獨(dú)立的時域解析;然后,基于頭部的解析結(jié)果,計(jì)算其子結(jié)點(diǎn)的空域兼容項(xiàng)得分并對其進(jìn)行時域解析,這個過程按空域模型結(jié)構(gòu)一直到所有葉子結(jié)點(diǎn)推理完成.
迭代時空解析的算法如算法1所示.
本文在三個視頻數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn).
UnusualPose視頻數(shù)據(jù)集[12]:該視頻集包含4段視頻,存在大量的非常規(guī)人體姿態(tài)以及快速運(yùn)動.
FYDP視頻數(shù)據(jù)集[29]:由20個舞蹈視頻構(gòu)成,除個別視頻外,大部分運(yùn)動比較平滑.
Sub_Nbest視頻數(shù)據(jù)集[22]:為方便與其他方法對比,本文按照對比算法中的挑選方法,只選用了文獻(xiàn)[22]中給出的Walkstraight和Baseball兩個視頻.
本文采用目前常用的兩個評價機(jī)制對實(shí)驗(yàn)結(jié)果進(jìn)行分析.
PCK (Percentage of correct keypoints)[7]:PCK給出正確估計(jì)關(guān)鍵點(diǎn)(關(guān)節(jié)點(diǎn)部件的坐標(biāo)位置)的百分比,這里的關(guān)鍵點(diǎn),通常指的是人體的關(guān)節(jié)點(diǎn)(如頭、頸、肩、肘、腕、胯、膝、踝,當(dāng)一個關(guān)鍵點(diǎn)的估計(jì)位置落在真值α·max(h,w)像素范圍內(nèi)時,其估計(jì)被認(rèn)為是準(zhǔn)確的,這里的h,w分別是人體目標(biāo)邊界框的高和寬,α用于控制正確性判斷的閾值.邊界框由人體關(guān)節(jié)點(diǎn)真值的最緊外包矩形框界定,根據(jù)姿態(tài)估計(jì)對象為整個人體或上半身人體,α值設(shè)為0.1或0.2.
PCP(Percentage of correct limb parts)[11]:PCP是目前應(yīng)用非常廣泛的姿態(tài)估計(jì)的評價機(jī)制,它計(jì)算的是人體部件的正確評估百分比,與關(guān)節(jié)點(diǎn)不同,這里的人體部件是指兩相鄰關(guān)節(jié)點(diǎn)連接所對應(yīng)的人體部位(比如上臂、前臂、大腿、小腿、軀干、頭部).當(dāng)一個人體部件兩端對應(yīng)的關(guān)節(jié)點(diǎn)均落在端點(diǎn)連線長度的50%范圍內(nèi)時,該部件的估計(jì)被認(rèn)為是正確的.
實(shí)驗(yàn)中,視頻分段的長度為7幀,鄰接片段重疊3幀,模型推理通過一次迭代完成.通過表觀評分挑選前20個軌跡片段構(gòu)成最初輸入空域解析的狀態(tài)空間,經(jīng)空域推理為每個部件挑選最優(yōu)的3個假設(shè)構(gòu)成時域解析的輸入,并通過時域推理得到最優(yōu)的估計(jì),最終的姿態(tài)序列由軌跡片段的拼接融合得到.
本文提出的人體姿態(tài)估計(jì)方法,主要包括三個關(guān)鍵處理策略:1)采用全局運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行傳播;2)構(gòu)建中粒度模型,以部件軌跡片段為推理實(shí)體;3)對稱部件合并,以簡化空域模型結(jié)構(gòu)同時保留對稱部件間約束.為驗(yàn)證這三個關(guān)鍵處理策略的有效性,本文設(shè)置了4組對比實(shí)驗(yàn),每組實(shí)驗(yàn)改變其中一個處理策略,實(shí)驗(yàn)的設(shè)置如下.
實(shí)驗(yàn)1.用局部運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行長時傳播,構(gòu)建中粒度模型,模型中添加對稱部件間約束.
實(shí)驗(yàn)2.用全局運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行長時傳播,構(gòu)建小粒度模型,推理每幀中每一部件的狀態(tài),模型中添加對稱部件間約束.
實(shí)驗(yàn)3.用全局運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行長時傳播,構(gòu)建大粒度模型,推理每一部件的軌跡狀態(tài),模型中添加對稱部件間約束.
實(shí)驗(yàn)4.用全局運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行長時傳播,構(gòu)建中粒度模型,模型中只保留連接部件間空間約束關(guān)系,不添加對稱部件間約束.
所有算法在UnusualPose視頻數(shù)據(jù)集上進(jìn)行了對比,結(jié)果如圖7所示,其中“局部運(yùn)動信息”、“細(xì)粒度模型”、“粗粒度模型”和“無對稱”分別對應(yīng)實(shí)驗(yàn)1~4.可以看出,對本文方法的三個關(guān)鍵處理策略的替換,都導(dǎo)致了估計(jì)精度不同程度的下降.綜合來看,本文方法的三個處理策略有效提高了視頻中姿態(tài)估計(jì)的準(zhǔn)確率.
圖7 算法關(guān)鍵策略有效性測試結(jié)果Fig.7 Examination of key modules
本文與 Nbest[22]、UVA[29]、SYM[15]、HPEV[18]以及PE_GM[12]共5個視頻人體姿態(tài)估計(jì)方法進(jìn)行了實(shí)驗(yàn)對比.由于SYM與HPEV方法的代碼無法獲取,在UnusualPose視頻數(shù)據(jù)集上,本文只對比了Nbest、UVA 和PE_GM三種方法.在FYDP視頻集和Sub_Nbest視頻集上,我們直接引用文獻(xiàn)中提供的數(shù)據(jù)結(jié)果進(jìn)行對比.
人體四肢在表達(dá)姿態(tài)中起著至關(guān)重要的作用,也是在評估姿態(tài)估計(jì)算法性能時最為關(guān)注的地方.由表1可以看出,在UnusualPose視頻集上,對比其他視頻姿態(tài)估計(jì)方法,本文方法在四肢關(guān)節(jié)點(diǎn)上的PCK精度最高,體現(xiàn)了本文方法在應(yīng)對非常規(guī)人體姿態(tài)和快速運(yùn)動等難題時的優(yōu)勢.從表2可以看出,在FYDP數(shù)據(jù)集上,本文方法得到了最高的平均PCK得分.表3顯示本文方法在Sub_Nbest視頻集上的PCP值與PE_GM方法綜合性能相當(dāng),均優(yōu)于其他視頻姿態(tài)估計(jì)方法,需要注意的是PE_GM方法采用與本文相同的全局運(yùn)動信息對檢測結(jié)果進(jìn)行傳播,候選質(zhì)量與本文相同,進(jìn)一步證明采用全局運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行傳播的有效性.不同在于PE_GM方法采用細(xì)粒度模型,通過選取姿態(tài)檢測結(jié)果最優(yōu)的關(guān)鍵幀啟動其推理過程,其最終的檢測結(jié)果高度依賴其選取的啟動幀,而本文方法無需選取啟動幀,不受初始選取的限制.綜合來看,本文提出的算法具有一定的優(yōu)越性.
表1 UnusualPose視頻集上的PCK評分對比Table 1 PCK on UnusualPose dataset
表2 FYDP視頻集上的PCK評分對比Table 2 PCK on FYDP dataset
表3 Sub_Nbest視頻集上的PCP評分對比Table 3 PCP on Sub_Nbest dataset
除了以上定量實(shí)驗(yàn)結(jié)果外,我們還在圖8中展示了不同方法在UnusualPose視頻集上的姿態(tài)估計(jì)結(jié)果.我們?yōu)槊慷我曨l選取一幀,并用骨架結(jié)構(gòu)展示姿態(tài)估計(jì)的結(jié)果,相比較可以看出,本文給出的姿態(tài)估計(jì)結(jié)果更符合真實(shí)的人體姿態(tài).圖9與圖10分別展示了本文方法在FYDP視頻集和Sub_Nbest視頻集上的部分姿態(tài)估計(jì)結(jié)果.
圖8 UnusualPose數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比Fig.8 Qualitative comparison on UnusualPose dataset
圖9 FYDP數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.9 Sample results on FYDP dataset
本文提出了一種用于視頻人體姿態(tài)估計(jì)的中粒度模型,該模型以人體部件的軌跡片斷為實(shí)體構(gòu)建時空模型,采用迭代的時域和空域解析進(jìn)行模型推理,目標(biāo)是為各人體部件挑選最優(yōu)的軌跡片斷,以拼接組成最后的人體姿態(tài)序列.為生成高質(zhì)量的軌跡片段候選,本文借助全局運(yùn)動信息對姿態(tài)檢測結(jié)果進(jìn)行時域傳播,克服了局部運(yùn)動信息的不足.為解決對稱部件易混淆的問題,模型中添加對稱部件間約束,提高了對稱部件的檢測準(zhǔn)確率.算法有效性分析實(shí)驗(yàn)表明本文中采用中粒度模型,通過全局運(yùn)動信息進(jìn)行姿態(tài)的傳播以及在對稱部件間添加約束等三個策略均對姿態(tài)估計(jì)的準(zhǔn)確率提高有不同程度的貢獻(xiàn).與其他主流視頻姿態(tài)估計(jì)方法在三個數(shù)據(jù)集上的對比實(shí)驗(yàn)結(jié)果顯示了本文方法的優(yōu)勢.
圖10 Sub_Nbest數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Fig.10 Sample results on Sub_Nbest dataset
References
1 Li Yi,Sun Zheng-Xing,Chen Song-Le,Li Qian.3D Human pose analysis from monocular video by simulated annealed particle swarm optimization.Acta Automatica Sinica,2012,38(5):732?741(李毅,孫正興,陳松樂,李騫.基于退火粒子群優(yōu)化的單目視頻人體姿態(tài)分析方法.自動化學(xué)報(bào),2012,38(5):732?741)
2 Zhu Yu,Zhao Jiang-Kun,Wang Yi-Ning,Zheng Bing-Bing.A review of human action recognition based on deep learning.Acta Automatica Sinica,2016,42(6):848?857(朱煜,趙江坤,王逸寧,鄭兵兵.基于深度學(xué)習(xí)的人體行為識別算法綜述.自動化學(xué)報(bào),2016,42(6):848?857)
3 Shotton J,Girshick R,Fitzgibbon A,Sharp T,Cook M,Finocchio M,Moore R,Kohli P,Criminisi A,Kipman A,Blake A.Efficient human pose estimation from single depth images.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2821?2840
4 Cristani M,Raghavendra R,del Bue A,Murino V.Human behavior analysis in video surveillance:a social signal processing perspective.Neurocomputing,2013,100:86?97
5 Wang L M,Qiao Y,Tang X O.Video action detection with relational dynamic-poselets.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.565?580
6 Felzenszwalb P F,Huttenlocher D P.Pictorial structures for object recognition.International Journal of Computer Vision,2005,61(1):55?79
7 Yang Y,Ramanan D.Articulated human detection with flexible mixtures of parts.IEEE Transactions on Pattern Analysis and Machine Intelligence,2013,35(12):2878?2890
8 Sapp B,Jordan C,Taskar B.Adaptive pose priors for pictorial structures.In:Proceedings of the 2010 IEEE Conference on Computer Vision and Pattern Recognition.San Francisco,CA,USA:IEEE,2010.422?429
9 Andriluka M,Roth S,Schiele B.Pictorial structures revisited:people detection and articulated pose estimation.In:Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition.Miami,FL,USA:IEEE,2009.1014?1021
10 Eichner M,Marin-Jimenez M,Zisserman A,Ferrari V.2D articulated human pose estimation and retrieval in(almost)unconstrained still images.International Journal of Computer Vision,2012,99(2):190?214
11 Ferrari V,Marin-Jimenez M,Zisserman A.Progressive search space reduction for human pose estimation.In:Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition.Anchorage,AK,USA:IEEE,2008.1?8
12 Shi Q X,Di H J,Lu Y,Lü F.Human pose estimation with global motion cues.In:Proceedings of the 2015 IEEE International Conference on Image Processing.Quebec,Canada:IEEE,2015.442?446
13 Sapp B,Toshev A,Taskar B.Cascaded models for articulated pose estimation.In:Proceedings of the Eeuropean Conference on Computer Vision.Heraklion,Greece:Springer,2010.406?420
14 Zhao L,Gao X B,Tao D C,Li X L.Tracking human pose using max-margin Markov models.IEEE Transactions on Image Processing,2015,24(12):5274?5287
15 Ramakrishna V,Kanade T,Sheikh Y.Tracking human pose by tracking symmetric parts.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.3728?3735
16 Cherian A,Mairal J,Alahari K,Schmid C.Mixing bodypart sequences for human pose estimation.In:Proceedings of the 2014 IEEE Conference on Computer Vision and Pattern Recognition.Columbus,OH,USA:IEEE,2014.2361?2368
17 Tokola R,Choi W,Savarese S.Breaking the chain:liberation from the temporal Markov assumption for tracking human poses.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.2424?2431
18 Zhang D,Shah M.Human pose estimation in videos.In:Proceedings of the 2015 IEEE International Conference on Computer Vision.Santiago,Chile:IEEE,2015.2012?2020
19 Sigal L,Bhatia S,Roth S,Black M J,Isard M.Tracking loose-limbed people.In:Proceedings of the 2004 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2004.421?428
20 Sminchisescu C,Triggs B.Estimating articulated human motion with covariance scaled sampling.The International Journal of Robotics Research,2003,22(6):371?391
21 Weiss D,Sapp B,Taskar B.Sidestepping intractable inference with structured ensemble cascades.In:Proceedings of the 23rd International Conference on Neural Information Processing Systems.Vancouver,Canada:MIT Press,2010.2415?2423
22 Park D,Ramanan D.N-best maximal decoders for part models.In:Proceedings of the 2011 IEEE International Conference on Computer Vision.Barcelona,Spain:IEEE,2011.2627?2634
23 Wang C Y,Wang Y Z,Yuille A L.An approach to posebased action recognition.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.915?922
24 ZuffiS,Romero J,Schmid C,Black M J.Estimating human pose with flowing puppets.In:Proceedings of the 2013 IEEE International Conference on Computer Vision.Sydney,Australia:IEEE,2013.3312?3319
25 Sapp B,Weiss D,Taskar B.Parsing human motion with stretchable models.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Colorado Springs,CO,USA:IEEE,2011.1281?1288
26 Fragkiadaki K,Hu H,Shi J B.Pose from flow and flow from pose.In:Proceedings of the 2013 IEEE Conference on Computer Vision and Pattern Recognition.Portland,OR,USA:IEEE,2013.2059?2066
27 Brox T,Malik J.Large displacement optical flow:descriptor matching in variational motion estimation.IEEE Transactions on Pattern Recognition and Machine Intelligence,2011,33(3):500?513
28 Wang H,Klaser A,Schmid C,Liu C L.Action recognition by dense trajectories.In:Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition.Washington,D.C.,USA:IEEE,2011.3169?3176
29 Shen H Q,Yu S I,Yang Y,Meng D Y,Hauptmann A.Unsupervised video adaptation for parsing human motion.In:Proceedings of the European Conference on Computer Vision.Zurich,Switzerland:Springer,2014.347?360
30 Di H J,Tao L M,Xu G Y.A mixture of transformed hidden Markov models for elastic motion estimation.IEEE Transactions on Pattern Analysis and Machine Intelligence,2009,31(10):1817?1830
31 LFeng,Di Hui-Jun,Lu Yao,Xu Guang-You.Non-rigid tracking method based on layered elastic motion analysis.Acta Automatica Sinica,2015,41(2):295?303(呂峰,邸慧軍,陸耀,徐光祐.基于分層彈性運(yùn)動分析的非剛體跟蹤方法.自動化學(xué)報(bào),2015,41(2):295?303)