余家林,孫季豐,李萬益
(華南理工大學(xué)電子與信息學(xué)院,廣東廣州 510641)
?
基于多核稀疏編碼的三維人體姿態(tài)估計
余家林,孫季豐,李萬益
(華南理工大學(xué)電子與信息學(xué)院,廣東廣州 510641)
為了準(zhǔn)確有效的重構(gòu)多視角圖像中的三維人體姿態(tài),該文提出一種基于多核稀疏編碼的人體姿態(tài)估計算法.首先,針對連續(xù)幀姿態(tài)估計的歧義問題,該文設(shè)計了一種用于表達(dá)多視角圖像的HA-SIFT描述子,其中,人體局部拓?fù)?、肢體相對位置及外觀信息被同時編碼;然后,在多核學(xué)習(xí)框架下建立同時考慮特征空間內(nèi)在流形結(jié)構(gòu)與姿態(tài)空間幾何信息的目標(biāo)函數(shù),并在希爾伯特空間優(yōu)化目標(biāo)函數(shù)以更新稀疏編碼、過完備字典與多核權(quán)值;最后,利用姿態(tài)字典原子的線性組合來估計對應(yīng)未知輸入的三維人體姿態(tài).實驗結(jié)果表明,與核稀疏編碼、Laplace稀疏編碼及Bayesian稀疏編碼相比,文本方法具有更高的估計精度.
人體姿態(tài)估計;多視角圖像;多核學(xué)習(xí);稀疏編碼;字典學(xué)習(xí)
電子學(xué)報URL:http://www.ejournal.org.cn DOI:10.3969/j.issn.0372-2112.2016.08.019
從多視角序列估計含三維空間位置信息的人體姿態(tài)在計算機(jī)視覺領(lǐng)域有廣泛應(yīng)用,譬如手勢識別[1]、行為識別[2]、運(yùn)動捕捉[3]和人機(jī)交互[4]等.該研究雖已取得重大突破,但仍有許多具有挑戰(zhàn)性和亟待解決的難題.首先,復(fù)雜的三維人體運(yùn)動與二維圖像之間存在語義鴻溝,深度信息的缺乏導(dǎo)致估計的人體姿態(tài)存在歧義;其次,人體外觀與輪廓在幀間差異較大,給肢體的定位帶來困難;最后,肢體的遮擋、姿態(tài)數(shù)據(jù)的高維及場景光線的變化等,都使人體姿態(tài)估計成為一項艱巨的任務(wù).常見方法分3類:基于模型的方法,其依賴一種基于先驗知識的人體模型,通過優(yōu)化目標(biāo)函數(shù)來估計人體姿態(tài),但計算量較大[5];基于學(xué)習(xí)的方法,其直接學(xué)習(xí)從特征空間到姿態(tài)空間的映射[6],但它對姿態(tài)的判別是以龐大的訓(xùn)練數(shù)據(jù)為前提;基于樣本的方法,其在訓(xùn)練數(shù)據(jù)庫中檢索與輸入最相似的數(shù)據(jù),并利用該數(shù)據(jù)插值來獲取結(jié)果,該方法同樣依賴龐大的訓(xùn)練數(shù)據(jù),且要求訓(xùn)練數(shù)據(jù)要覆蓋姿態(tài)空間盡可能多的自由度[7].
最近,在機(jī)器學(xué)習(xí)和模式識別領(lǐng)域中興起了一種被稱為稀疏編碼[8]的算法,譬如人臉識別[8]、目標(biāo)分類[9]和人體姿態(tài)估計[10]等.Behnam等[11]在Bayesian框架下提出一種稀疏編碼算法(Bayesian Sparse Coding,BSC),通過學(xué)習(xí)兩種過完備字典克服了小樣本問題所導(dǎo)致的過擬合.Gao等[12]提出一種Laplace稀疏編碼算法(Laplace Sparse Coding,LSC),解決了數(shù)據(jù)位置和相似度信息丟失問題,但原始空間的特征往往帶噪聲,在該空間構(gòu)造的正則項,未必能精確反映數(shù)據(jù)的內(nèi)在流形.2013年,Gao等[13]提出一種能捕捉特征非線性相似度的核稀疏編碼算法(Kernel Sparse Coding,KSC),打破了僅在原始空間編碼的模式.但對不同類型的輸入,采用單一核函數(shù)來處理并不合理,且面臨核函數(shù)及參數(shù)選擇難題.
人體姿態(tài)估計中的樣本是高維非線性的,盡管樣本的近鄰點(diǎn)可在線性距離上被找到,但由它們所構(gòu)造的近鄰圖并不能精確反映數(shù)據(jù)的內(nèi)在流形,而該流形在許多應(yīng)用中又非常重要.核技巧把原始數(shù)據(jù)隱式映射至希爾伯特空間克服了該問題,但又面臨核函數(shù)及參數(shù)的選擇難題,交叉驗證方法雖可解決該難題,但計算量過大.綜合考慮,本文提出一種多核稀疏編碼算法(Multi-Kernel Sparse Coding,MKSC),通過引入多核學(xué)習(xí),既解決了姿態(tài)數(shù)據(jù)的“維數(shù)災(zāi)難”問題[14],又可應(yīng)對樣本的非線性.其中,最優(yōu)核由核函數(shù)集中核函數(shù)的線性組合導(dǎo)出,從而不存在核函數(shù)及參數(shù)的選擇難題.
本文算法框架如圖1所示,它從三方面提升了姿態(tài)估計精度.首先,將含肢體局部拓?fù)洹⑽恢眉巴庥^信息的SIFT算子作用于圖像興趣點(diǎn),并借助詞袋模型[15]描述圖像,打破了以往僅編碼單目輪廓的模式;其次,用多核函數(shù)將數(shù)據(jù)隱式映射至希爾伯特空間,使得構(gòu)造的近鄰圖能夠精確反映數(shù)據(jù)內(nèi)在流形;最后,在稀疏編碼過程中考慮姿態(tài)特征幾何信息,使肢體的局部拓?fù)湓谶\(yùn)動過程中被有效保持.
2.1 多視角特征融合
人體姿態(tài)估計精度高度依賴于圖像的表達(dá),人體輪廓特征雖為姿態(tài)估計提供強(qiáng)有力的形狀線索,且對人體外觀及光線具有不變性,但輪廓特征丟失了外觀信息,而該信息對連續(xù)幀姿態(tài)之間微小的變化又十分敏感,這在連續(xù)幀姿態(tài)估計中容易造成歧義.為解決該問題,本文通過如下四步設(shè)計一種特殊的描述子:
(1)前景提取:通過背景差分獲取多視角序列的人體形狀邊界窗body.
(2)提取Harris興趣角點(diǎn):在人體形狀邊界窗body內(nèi)提取Harris興趣點(diǎn).
(3)SIFT算子:將肢體局部拓?fù)洹⑽恢眉巴庥^信息編碼至SIFT算子,并作用于興趣點(diǎn)得p.
(4)HA-SIFT描述子:找到興趣點(diǎn)的相對位置(u,v),生成HA-SIFT描述子:s=(u,v,p)T;
2.2 多核稀疏編碼
2.2.1 建立目標(biāo)函數(shù)
假設(shè)有m個訓(xùn)練樣本對,ξ=[(x1,y1),…,(xm,ym)],其中,[x1,…,xm]=X,表示輸入特征矢量集,且xi=[xi1,…,xin]T∈n;[y1,…,ym]=Y,表示與X對應(yīng)的m個姿態(tài)特征矢量集,且yi=[yi1,…,yir]Tr.在多核學(xué)習(xí)[14]框架下,利用核函數(shù)將原始輸入空間隱式映射至高維再生希爾伯特空間(Reproducing Kernel Hilbert Space,RKHS)H(l),該空間擁有非線性映射函數(shù)φ:X→H的內(nèi)積〈·,·〉,即:〈φ(x),φ(y)〉=K(x,y).本文假設(shè)選用L個核函數(shù),從而對應(yīng)L個希爾伯特空間,但通常并不明確選用哪個空間,最合理的做法是級聯(lián)這L個空間,從而形成增廣再生希爾伯特空間,并通過迭代優(yōu)化空間H(l)的權(quán)值≥0,?,得最適合輸入的空間.假設(shè)映射函數(shù)φ:ζi→φl(ζi),l=1,…,L,φl為H(l)的映射函數(shù),級聯(lián)這L個函數(shù):φτ(ζi)=[τ1φ1(ζi),…,τLφL(ζi)]T,其中,等同于H(l)的權(quán)值,確保級聯(lián)后的映射函數(shù)φτ(ζi)也達(dá)到最優(yōu),且≥0,?l,則樣本對(ζi,ζj)的核函數(shù)可表示為如下式子:
(1)
當(dāng)原始空間的特征被映射至希爾伯特空間后,將樣本對(xi,yi)用(φτ(xi),φτ(yi))代替,輸入特征字典DF∈n×k和人體姿態(tài)字典DP∈r×k分別用φτ(DF)和φτ(DP)代替.但核函數(shù)Kτ(DP,yi),Kτ(DP,DP),Kτ(DF,xi)和Kτ(DF,DF)的計算量過大.為解決該問題,假設(shè)輸入特征和人體姿態(tài)特征的基元跨越在φτ(X)=[φτ(x1),…,φτ(xm)]和φτ(Y)=[φτ(y1),…,φτ(ym)]的列空間中,輸入特征字典和姿態(tài)字典分別表示為:DF=φτ(X)·A和DP=φτ(Y)·B,其中,A∈m×k和B∈m×k為跨越參數(shù)矩陣.目標(biāo)函數(shù)如下所示:
(2)
(3)
2.2.2 人體姿態(tài)空間轉(zhuǎn)換
姿態(tài)字典DP∈r×k中含關(guān)節(jié)角度數(shù)據(jù)∈[-180°,180°],使重構(gòu)誤差不能用l2范數(shù)度量.圖3顯示了兩種人體姿態(tài),它們手部空間位置很接近,但在角度空間中差異卻很大.因此,本文采用一種映射將姿態(tài)矢量φi∈DP轉(zhuǎn)換至一個2r的單位球面空間,記為:
(4)
2.3 優(yōu)化目標(biāo)函數(shù)
2.3.1 更新稀疏編碼W
為了獨(dú)立更新稀疏編碼矢量wi,將目標(biāo)函數(shù)改寫為矢量形式,記為:
(5)
除wi以外的所有矢量{wj}j≠i都是固定的,可將式(5)進(jìn)一步改寫為:
(6)
2.3.2 更新跨越參數(shù)矩陣A和B
為了更新跨越參數(shù)矩陣A,現(xiàn)固定稀疏編碼W、跨越參數(shù)矩陣B與多核權(quán)值τ,移除目標(biāo)函數(shù)中的無關(guān)項,得如下式子:
(10)
式(10)是一個帶二次約束的最小二乘問題,可采用一般的基于迭代投影的梯度下降法求解.為提高算法性能,本文提出一種更加高效的基于拉格朗日對偶方法.
(11)
假設(shè)Λ為一個k×k的對角陣,且Λii=δi,這樣L(DF,δ)可表示為:
+Tr(ATφ(X)Tφ(X)AΛ)-cTr(Λ)
(12)
對于式(12)而言,令?L(DF,δ)/?A=0可得出最優(yōu)解A',即:
?L(DF,δ)/?A=-2Kτ(X,X)WT+2WTKτ(X,X)WA
+2Kτ(X,X)ΛΑ
=0
(13)
A'=Kτ(X,X)WT·(WTKτ(X,X)W+Kτ(X,X)Λ)-1
(14)
將式(14)代入式(12),拉格朗日對偶函數(shù)變?yōu)椋?/p>
g(δ)= Tr(Kτ(X,X))-Tr(Kτ(X,X)WT(WWT
+Λ)-1W)-cTr(Λ)
(15)
通過解決如下一個拉格朗日對偶問題計算最優(yōu)解Λ*:
s.t.δi≥0,i=1,…,k
(16)對于式(16)而言,可以直接采用牛頓法或梯度下降法計算最優(yōu)解Λ*,代入式(14)得到最優(yōu)的跨越參數(shù)矩陣A*=Kτ(X,X)WT·(WTKτ(X,X)W+Kτ(X,X)Λ*)-1.
2.3.3 更新多核權(quán)值τ
學(xué)習(xí)權(quán)值τ是為從核函數(shù)集中構(gòu)造最優(yōu)核來處理不同類型的輸入,以提高系統(tǒng)的泛化性能.現(xiàn)固定稀疏編碼W、跨越參數(shù)矩陣A和B,移除目標(biāo)函數(shù)的無關(guān)項,得如下式子:
(17)
式(17)可被視為一個關(guān)于權(quán)值τ的帶約束QP問題,即:
(18)
式(18)中,ef和ep可分別表示為:
(19)
將式(19)代入式(18),求解一個標(biāo)準(zhǔn)的QP問題來更新權(quán)值τ.為提高算法效率,本文采用一種對偶作用集算法[18]在可行域內(nèi)搜索解析解來實現(xiàn)該類問題的優(yōu)化.
2.4 三維人體姿態(tài)估計
3.1 多視角人體姿態(tài)估計
為了驗證算法的有效性,本文在布朗大學(xué)的Brown與HumanEva數(shù)據(jù)庫[19]上實驗.其中,Brown庫中含1184幀Lee環(huán)繞行走的C1~C4四視角灰度圖像序列;HumanEva庫中含(S1,S2,S3)的人體環(huán)繞行走姿態(tài)共2950幀、慢跑運(yùn)動2345幀、拳擊運(yùn)動2486幀及其手勢動作2850幀.由C1~C4灰度攝像機(jī)和C1~C3彩色攝像機(jī)采集而來.兩數(shù)據(jù)庫中圖像尺寸分別為:644×484和656×490.
實驗中取HumanEva-Ⅰ的C1~C3三個視角、Brown與HumanEva-Ⅱ的C1~C4四個視角.并分別選取10與15肢體人體模型,包括:頭部、軀干、左右上下手臂、左右大小腿,后者增加了骨盆、左右手及左右腳.本文實驗環(huán)境為:CPU:SU3500,2G內(nèi)存,用Matlab 2012a仿真實驗.本文分別從兩方面驗證算法有效性,一比較多核學(xué)習(xí)框架下與一般非監(jiān)督學(xué)習(xí)框架下稀疏編碼對人體姿態(tài)估計的影響;二比較HA-SIFT、SIFT及輪廓特征對算法性能的影響.
圖4為從C1~C4四視角觀察Brown庫中環(huán)繞行走姿態(tài)估計結(jié)果.并將本文方法(MKSC)與Bayesian稀疏編碼[11](BSC)、Laplace稀疏編碼[12](LSC)及核稀疏編碼[13](KSC)進(jìn)行比較.
圖5為從HumanEva中挑選出的部分實驗結(jié)果:S1(Gesture)、S2(Walking)及S3(Jogging).在原始的HumanEva-Ⅰ數(shù)據(jù)庫中,是采用10肢體的人體模型,本文將其擴(kuò)展至15肢體.
針對圖4的實驗結(jié)果,對包含本文算法在內(nèi)的四種算法進(jìn)行對比分析:
(1)MKSC算法利用多核將輸入特征隱式映射至希爾伯特空間,在該空間構(gòu)造的近鄰圖能精確反映數(shù)據(jù)內(nèi)在流形,并解決了樣本的“維數(shù)災(zāi)難”及非線性問題.該算法采用多核融合導(dǎo)出的最優(yōu)核,能適應(yīng)各種類型的輸入,該方法估計出的人體姿態(tài)效果最佳;
(2)KSC算法針對多種類型的輸入僅采用單一核函數(shù)來處理,存在核函數(shù)及參數(shù)選擇難題.人們往往是依據(jù)輸入特征分布來確定最適宜的核函數(shù).但當(dāng)難以確定輸入特征分布時,核函數(shù)的選取存在很大的隨機(jī)性,導(dǎo)致KSC算法的泛化性能較差,估計誤差也較大;
(3)LSC算法是直接在原始空間構(gòu)造近鄰圖,沒有考慮輸入空間的噪聲及樣本的非線性,使構(gòu)造的近鄰圖沒能夠精確反映數(shù)據(jù)的內(nèi)在流形.另外,LSC的解偏向于一個常數(shù),Laplace矩陣的嵌入并不能很好保存肢體的局部拓?fù)?,外推能力較弱,姿態(tài)估計誤差較大.
(4)BSC算法未考慮人體姿態(tài)數(shù)據(jù)的局部幾何信息,而這些信息又是人體姿態(tài)估計中不可或缺的,這往往會導(dǎo)致肢體之間的局部拓?fù)湓谌梭w運(yùn)動中不能被有效保持.實驗結(jié)果顯示,該算法估計出的人體右臂出現(xiàn)嚴(yán)重畸變,且各肢體間的連接不協(xié)調(diào)甚至不成人形.
由此得出結(jié)論,在多視角人體姿態(tài)估計問題上,本文算法比現(xiàn)有最新算法更具優(yōu)勢.
圖6為MKSC分別基于三類特征的鄰幀姿態(tài)估計結(jié)果,本文采用15肢體人體模型在HumanEva-Ⅱ的S2(Walking)上實驗.實驗結(jié)果表明,HA-SIFT克服了因自遮擋所導(dǎo)致的歧義(正常:左肢黃右肢青,歧義:左肢青右肢黃),且估計精度也明顯提高.
3.2 人體姿態(tài)估計誤差
表1列出了本文算法與其它三種算法分別基于HA-SIFT,SIFT及輪廓特征的關(guān)節(jié)角度的均方根誤差[5](RMS),在行走(Walking)、拳擊(Boxing)、慢跑(Jogging)及手勢(Gesture)四類數(shù)據(jù)集上實驗.估計姿態(tài)y與真實數(shù)據(jù)y′的RMS誤差D(y,y′)如下所示:
(20)
圖7顯示了在四種算法作用下,分別基于三類特征在HumanEva-Ⅰ的S3(Jogging)數(shù)據(jù)集上實驗所得到的對約定角度變量Angle∈[1,…,20]的關(guān)節(jié)角度相對誤差.
實驗結(jié)果表明,在約定角度Angle∈[1,…,20]內(nèi),本文算法對多種類型的輸入泛化性能強(qiáng),并且本文的HA-SIFT特征在人體姿態(tài)估計問題上效果最佳,相對誤差在3種特征中是最小的.圖8為行走過程中本文算法估計的膝蓋彎曲角度與標(biāo)記數(shù)據(jù)之間的偏差.
表1 行走、拳擊、慢跑及手勢四類數(shù)據(jù)集上的關(guān)節(jié)角度RMS誤差(單位:度)
HA-SIFT特征SIFT特征輪廓特征行走拳擊慢跑手勢行走拳擊慢跑手勢行走拳擊慢跑手勢MKSC3.84523.03012.35312.76304.21023.65362.70132.81834.71934.85373.62173.2021KSC5.66274.36124.19213.96366.08635.65725.71435.89116.21316.16465.86616.1129LSC7.19446.25615.29715.74507.36406.33125.62396.85357.44456.97846.32556.3614BSC8.37097.21457.29156.71428.81358.27856.86187.27159.14678.46617.54977.4610
為了評價估計姿態(tài)的空間位置誤差,參照文獻(xiàn)[19]的方法,用肢體中各關(guān)節(jié)誤差的均值作為每幀的估計誤差.圖9顯示了前300幀中人體頭部、骨盆、上下手臂及大小腿的估計誤差.圖10表示在單視角與四視角下本文算法與其它三種算法的行走姿態(tài)估計誤差.
為了測試本文算法的抗噪能力.在實驗中分別設(shè)定6種椒鹽噪聲密度:0%,10%,20%,30%,40%,50%.圖11為在6種噪聲強(qiáng)度干擾下的外觀圖像.圖12為前300幀在6種噪聲密度下行走姿態(tài)估計誤差.
隨噪聲密度由0%增大至40%,估計誤差逐漸增大,但從整體觀察,仍處于較低水平.當(dāng)噪聲密度增大至50%時,估計誤差異常偏大,表明算法已失效,本文算法在一定噪聲強(qiáng)度范圍內(nèi)具有較強(qiáng)的魯棒性.
3.3 算法的復(fù)雜性分析
本節(jié)主要討論多核稀疏編碼算法的計算復(fù)雜度與姿態(tài)估計精度之間的關(guān)系.假設(shè)共有m個訓(xùn)練樣本對,ξ=[(x1,y1),…,(xm,ym)],其中,xi∈n,yi∈r.在權(quán)值特征空間找到k個最近鄰的計算復(fù)雜度為:O(m2),其中,k等于m;固定矩陣A,B及權(quán)值τ,更新W的計算復(fù)雜度為:O(nm2J),J為很小的正整數(shù),表示W(wǎng)中非零元數(shù)目,則可近似為:O(nm2);固定矩陣A,B及W,更新權(quán)值τ的計算復(fù)雜度為:O(k3Lm),其中,L表示核函數(shù)的個數(shù);固定W及權(quán)值τ,更新矩陣A與B的計算復(fù)雜度為:O(n3)與O(r3).那么,知整個算法的計算復(fù)雜度為:O(m2+t(nm2+Lm4+n3+r3))∝m,n.其中,t為迭代次數(shù),r為姿態(tài)特征的維度.圖13為在不同給定特征維度n下,手勢姿態(tài)估計精度隨訓(xùn)練樣本數(shù)m的變化趨勢.
為了準(zhǔn)確有效的重構(gòu)多視角圖像中的三維人體姿態(tài),本文提出一種基于多核稀疏編碼的三維人體姿態(tài)估計算法.該算法結(jié)合Harris興趣角點(diǎn)與SIFT算子來生成本文的HA-SIFT描述子,并借助詞袋模型來描述輸入圖像,打破了以往僅編碼單目輪廓特征的模式;由于數(shù)據(jù)可能為非線性分布,直接在原始空間構(gòu)造的流形正則項并不可靠,本文利用核函數(shù)將原始數(shù)據(jù)隱式映射至希爾伯特空間,使該空間的流形正則項能精確反映數(shù)據(jù)的內(nèi)在流形結(jié)構(gòu).與目前最新算法相比,本文算法具有更高的估計精度.但由于目前仍采用剛性的人體模型,在估計復(fù)雜姿態(tài)時效果并不理想.在接下來的研究中,將試圖采用點(diǎn)云配準(zhǔn)方法代替基于能量的方法,用點(diǎn)云數(shù)據(jù)建模人體,有望進(jìn)一步提高估計精度.
[1]Zhu Ren,Yuan Junsong,Meng Jingjing,et al.Robust part-based hand gesture recognition using kinect sensor[J].IEEE Transaction on Multimedia,2013,15(5):1110-1120.
[2]Lin Weiyao,Chen Yuanzhe,Wu Jianxin,et al.A new network-based algorithm for human activity recognition in videos[J].IEEE Transaction on Circuit and System for Video Technology,2014,24(5):826-841.
[3]S Vantigodi,W B Radhakrishnan.Action recognition from motion capture data using meta-cognitive RBF network classifier[A].Proceedings of IEEE International Conference on Intelligent Sensors,Sensor Networks and Information Processing(ISSNIP)[C].Singapore:IEEE Computer Society,2014.1-6.
[4]G Palmas,M Bachynskyi,A Oulasvirta,et al.MovExp:A versatile visualization tool for human-computer interaction studies with 3D performance and biomechanical data[J].IEEE Transaction on Visualization and Computer Grapgics,2014,20(12):2359-2368.
[5]A Agarwal,B Triggs.Recovering 3D human pose from monocular images[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2006,28(1):44-58.
[6]J Shotton,R Girshick,A Fitzgibbon,et al.Efficient human pose estimation from single depth images[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2013,35(12):2821-2839.
[7]N C Tang,Chiou-Ting Hsu,Weng Mingfang,et al.Example-based human motion extrapolation and motion repairing using contour manifold[J].IEEE Transaction on Multimedia,2014,16(1):47-59.
[8]Wang Jing,Lu Canyi,Wang Meng,et al.Robust face recognition via adaptive sparse representation[J].IEEE Transaction on Cybernetics,2014,44(12):2368-2378.
[9]王瑞,杜林峰,孫督等.復(fù)雜場景下結(jié)合SIFT與核稀疏表示的交通目標(biāo)分類識別[J].電子學(xué)報,2014,42(11):2129-2134.
WANG Rui,DU Lin-feng,SUN Du,et al.Traffic object recognition in complex scenes based on SIFT and kernel sparse representation[J].Acta Electronica Sinica,2014,42(11):2129-2134.(in Chinese)
[10]Zhou Liuyang,Lu Zhiwu,Howard Leung,et al.Spatial temporal pyramid matching using temporal sparse representation for human motion retrieval[A].Proceedings of International Conference on Computer Graphics International(CGI)[C].Sydney,Australia:Springer,Berlin,2014.845-854.
[11]B M Behnam,A Jourabloo,A Zarghami,et al.A Bayseian framework for sparse representation-based 3D human pose estimation[J].IEEE Signal Processing Letters,2014,21(3):297-300.
[12]Gao Shenghua,I W Tsang,Chia Liang-Tien.Laplace sparse coding,Hypergraph laplacian sparse coding,and application[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2013,35(1):92-101.
[13]Gao Shenghua,I W Tsang,Chia Liang-Tien.Sparse representation with kernels[J].IEEE Transaction on Image Processing,2013,22(2):423-434.
[14]Hong Zeng,Yiu-ming Cheung.Feature selection and kernel learning for local learning-based clustering[J].IEEE Transaction on Pattern Analysis and Machine Intelligence,2011,33(8):1532-1546.
[15]趙宏偉,李清亮,劉萍萍.基于分級顯著信息的空間編碼方法[J].電子學(xué)報,2014,42(9):1863-1867.
ZHAO Hong-wei,LI Qing-liang,LIU Ping-ping.Spatial encoding based on hierarchical salient information[J].Acta Electronica Sinica,2014,42(9):1863-1867.(in Chinese)
[16]Edgar,Simo-Serra,A perez-Gracia.Kinematic synthesis using tree topologies[J].Mechanism and Machine Theory,2014,72(2):94-113.
[17]Y Xia,S Changyin.A novel neural dynamical approach to convex quadratic program and its efficient application[J].Neural Network,2009,10(22):1463-1470.
[18]Fan Qibin,Jiao Yuling,Lu Xiliang.A primal dual active algorithm with continuation for compressed sensing[J].IEEE Transaction on Signal Processing,2014,62(23):6274-6284.
[19]L Sigal,and M J Black.Humaneva:synchronized video and motion capture dataset for evaluation of articulated human motion[R].Report of Brown University,Providence:2006.
余家林(通信作者) 男,1989年生于貴州鎮(zhèn)遠(yuǎn).現(xiàn)為華南理工大學(xué)電信學(xué)院信息與通信工程專業(yè)博士研究生.研究方向為計算機(jī)視覺、人體運(yùn)動形態(tài)分析、圖像與視頻處理等.
E-mail:yu.jialin@mail.scut.edu.cn
孫季豐 男,1962年生于廣東揭陽,現(xiàn)為華南理工大學(xué)電信學(xué)院教授,博士生導(dǎo)師.研究方向包括智能信號處理、圖像與視頻處理、自組織通信網(wǎng)等.
3D Human Pose Estimation Based on Multi-kernel Sparse Coding
YU Jia-lin,SUN Ji-feng,LI Wan-yi
(SchoolofElectronicandInformationEngineering,SouthChinaUniversityofTechnology,Guangzhou,Guangdong510641,China)
In order to reconstruct 3D human pose from multi-view images accurately and effectively,a novel human pose estimation algorithm based on multi-kernel sparse coding is proposed.First,for the ambiguity of human pose estimation between the consecutive frames,we describe multi-view images using a special HA-SIFT descriptor,in which the human body local topology,relative coordinates and appearance information are encoded simultaneously;then,an objective function is established within the framework of multi-kernel learning,it takes both intrinsic manifold structure of the feature space and geometrical information of the pose space into consideration.The sparse coding,over-complete dictionary and multi-kernel weight are updated by optimizing the objective function iteratively in the Hilbert space;finally,the corresponding 3D human pose of the unknown input image is estimated by a linear combination of the bases of the human pose dictionary.The experimental results show that our proposed method provides higher accuracy of human pose estimation compared with kernel sparse coding,Laplace sparse coding and Bayesian sparse coding.
human pose estimation;multi-view images;multi-kernel learning;sparse coding;dictionary learning
2015-01-20;
2015-04-06;責(zé)任編輯:馬蘭英
國家自然科學(xué)基金青年科學(xué)基金(No.61202292);廣東省自然科學(xué)基金(No.9151064101000037)
TP391.4
A
0372-2112 (2016)08-1899-10