, ,
(浙江理工大學信息學院,杭州 310018)
基于加速度平滑約束的非剛體三維重建研究
汪亞明,張靜,鄭俊褒
(浙江理工大學信息學院,杭州 310018)
針對單一投影誤差重建精度不高的問題,提出了基于加速度殘差最小的軌跡平滑約束的非剛體三維重建方法。在運動軌跡連續(xù)性理論基礎上,通過視頻序列相鄰幀的連續(xù)性進行分析,在三維重建投影誤差基礎上同時引入加速度平滑約束并建立目標函數,最后推導出閉式最優(yōu)解析解。由于非剛性的運動復雜多變,提出的加速度連續(xù)性約束是對非剛體運動目標軌跡的物理特性的本質約束,更具有一般性和適應性。與四種典型的運動模型進行實驗對比,結果表明該重建方法有效提高了重建的精確度,且實現簡單、算法運算復雜度更小。
非剛體;三維重建;加速度;平滑約束;解析解
從二維圖像序列中恢復出目標物體在真實世界場景中的三維結構和相機運動參數,一直以來都是計算機視覺和模式識別領域的一個熱點和難點[1],非剛體的三維重建(non-rigid structure from motion, NRSFM)無論是在科學研究還是在工業(yè)應用上都引起了極大的關注[2]。
在三維重建領域,通常有兩種主要的方法,形狀基方法和軌跡基方法。自Bregler等[3]第一次提出將因式分解方法應用于形變的非剛體目標,主要思想是將非剛體的形變過程表示成一系列基的線性組合,所提出的低秩形狀模型對從剛體場景過渡到非剛體重建有著巨大的意義。然而不同于剛體的重建,非剛體的運動有其固有的自由度和模糊性以至于在實際重建中比較困難。Xiao等[4]認為如果僅僅在相機正交約束條件下是不足以唯一的恢復出非剛體的三維結構和相機的旋轉矩陣,建議引入各種先驗條件來增加新的約束。Gotardo和Martinez[5]也曾提出在沒有任何先驗知識的情況下計算NRSFM依然是一個困難的欠約束問題。但是由于運動形式的多樣性,使得非剛體運動重建的約束條件很難被確定,所以對于形變的非剛體重建,形狀基的方法有著明顯的局限性,不可能適合所有的非剛體目標。Akhter等[6]對形狀基和軌跡基之間的對偶性進行了論證并提出了軌跡基模型,該模型的主要優(yōu)點是重建所使用的軌跡基可以被提前預定義,常用的一般為離散余弦變換基(DCT)或沃什哈達碼變換基(WHT),從而減少了重建過程中的未知數,也提高了計算過程中相應的穩(wěn)定性。然而,對于不同的模型使用的軌跡基并不是越多越好,Wang等[7]所提的稀疏逼近方法中就對軌跡基的種類和個數進行了討論。預定義軌跡基方法雖然有著不可替代的優(yōu)勢,但基的固有模糊性仍然不可忽視。Tao等[8]提出了一種流行學習算法,利用流行森林[9]學習出來的形狀基進行形狀更新,由非線性最小化二維投影誤差迭代出每一幀的相機運動參數和非剛體的結構矩陣,開辟了一個新的思路。非剛體的三維重建在大量學者的研究下取得了極大地進步,但是相比于剛體的研究,其在重建的精確度和魯棒性以及復雜形變的重建、多目標非剛體的重建依然存在著極大的挑戰(zhàn)。而且上述的很多方法都是基于Bergler等[3]的假設,這些方法可以將圖像序列的次序任意顛倒,沒有考慮非剛性運動的連續(xù)性,求解過程復雜,對噪聲也比較敏感。
本文受運動軌跡的物理平滑性思想的啟發(fā),提出了一個簡單有效的重建方法。首先分析了高速拍攝的視頻序列的特征,發(fā)現視頻序列是隨著幀數的變化而連續(xù)變化的,因此每個特征點的運動軌跡可以表示為一條平滑的三維曲線;接著以加速度作為平滑性能指標,建立了基于單一投影誤差和平滑約束的目標函數,并推導出最優(yōu)閉式解析解,進而求解出非剛體結構矩陣,完成非剛體的三維重建。
由因式分解理論可知在正交相機投影模型下,假設有F幀圖像序列,每一幀有P個特征點,非剛體三維重建的任務就是通過分解一個二維圖像觀測矩陣W∈R2F×P來獲得相機運動矩陣M∈R2F×3F和非剛體結構矩陣S∈R3F×P。觀測矩陣是由非剛體的結構矩陣通過相機旋轉矩陣的映射得到的,其映射關系如式(1)所示:
=MS
(1)
其中:W為二維觀測矩陣;Xij=[xij,yij]T為非剛體的二維坐標,xij代表第i幀中第j個特征點的x方向坐標,yij代表第i幀中第j個特征點的y方向坐標;Sij=[xij,yij,zij]T為非剛體的三維坐標,zij代表第i幀中第j個特征點的z方向坐標;Mi表示第i幀時的相機旋轉矩陣。為了不失一般性,假設在正交投影模型下的觀測矩陣中的所有特征點二維坐標都已經過中心化處理。
由非剛體重建模型分析可知,重建任務是僅基于二維觀測矩陣W來恢復出相機旋轉矩陣M和非剛體結構矩陣S。由于非剛體的形狀和運動都在隨著時間變化使得重建問題是一個欠約束問題,未知數的數量(3F+3FP)要遠遠大于已知的觀測矩陣中的數據(2FP)。在軌跡基模型下,非剛體特征點的運動軌跡可以近似為一系列軌跡基和相應的軌跡系數的線性組合,如式(2)所示:
S3F×P=Θ3F×3KA3K×P
(2)
(3)
(4)
其中:Θ表示預定義的軌跡基:A表示相對應的軌跡系數:I是一個3×3的單位矩陣;aij=[aix(j),aiy(j),aiz(j)]T。由非剛體重建模型可知,測量觀測矩陣W通過奇異值分解表示為:W=MS=MΘA=UA,U=MΘ是一個2F×3K的矩陣,K為軌跡基的個數,
(5)
(6)
由于旋轉矩陣滿足正交約束,即:
(7)
(8)
(9)
(10)
(11)
Qk是矯正矩陣Q的三列,記G=QkQkT為格拉姆矩陣且G是半正定的,即G≥0。此外rank(G)=rank(Qk)=3,而秩函數本身的數值穩(wěn)定性不是很好并且在一般情況下矩陣秩的最小化是一個NP難問題[10]。因此進一步放寬為G的核范數[11]最小化問題min‖G‖*,而G=QkQkT是一個對稱正定陣,所以G的核范數就等于它的跡,即‖G‖*=trace(G)。
上述格拉姆矩陣G的最小化問題是一個標準的半正定規(guī)劃問題[12](SDP),可以選擇半正定規(guī)劃工具包求解。一旦格拉姆矩陣G被求出,利用Cholesky分解就可以求出矯正矩陣Q,進而恢復出相機的旋轉矩陣M。
非剛體三維重建研究的最終目的是恢復出非剛體運動目標的三維結構。由于非剛性的運動復雜多變,在基于形狀基方法重建時都需要對圖像序列中的每一幀進行估計新的形狀基,而且對于不同的運動也需要重新定義不同的形狀基來進行三維結構的線性組合,極大地增加了計算量,導致重建效率和精度都比較低。由軌跡空間理論可知,可以把非剛體每個特征點的重建轉化為隨著時間變化的每一幀的重建,同時從物理學角度,結合非剛體在高速攝像機拍攝的圖像序列下運動的物理連續(xù)性[13],相機拍攝速度很高的時候相鄰幀特征點位移變化很小,速度和加速度的變化也很小。通過這樣的物理連續(xù)性在單一投影誤差的基礎上構造目標函數,以相鄰連續(xù)幀的加速度平方差積分的最小值作為平滑性能指標,引入一個平滑矩陣將運動物理性約束轉化為重建約束項。
假設提取特征點的圖像序列的時間間隔為t,每一幀的圖像采集時間間隔是個常數,則根據物理運動定律:
(12)
(13)
一段時間內物體的位移差與時間t的比值反映這段時間內物體運動的平均速度,平均速度之差反映的是加速度變化,對于一個拍攝的圖像序列來說這樣的平均速度變化和加速度變化都是非常小的。將F幀連續(xù)累加起來為:
(14)
引入平滑約束后,非剛體軌跡三維重建的目標函數為:
(15)
定義平滑矩陣V∈R3F×3F為:
(16)
即式(15)轉化為:
(17)
其中λ1≥0為約束項的平衡參數,反映了重建模型擬合能力與軌跡平滑性之間的平衡。由式(17)可知,目標函數式(17)的無約束最優(yōu)化模型為二次函數,具有全局最優(yōu)解析解。首先計算式(17)關于非剛體目標三維軌跡結構矩陣S的梯度:
(18)
令式(18)為0得到:
(MΤM+λ1VΤV)S=MTW
(19)
從而得到解析解:
(20)
其中(MT+λ1VTV)+表示矩陣(MT+λ1VTV)的Moore-Penrose逆,當矩陣(MT+λ1VTV)可逆時,式(17)為精確解,當矩陣(MT+λ1VTV)不可逆時,式(20)給出的Moore-Penrose逆解給出式(19)的極小范數的最小二乘解。而在實際中,矩陣(MT+λ1VTV)一般為可逆矩陣且λ1≥0,這個矩陣為半正定矩陣,顯然存在極小值,即式(20)為目標函數的解析解。
對非剛體進行三維重建,需要定義重建效果誤差評估標準來判斷重建的優(yōu)劣,也即是重建后的結構矩陣與真實的三維結構之間的誤差,其評估公式定義e3D[14]為如式(21):
(21)
其中Ltjx=|Sr(3t-2,j)-S0(3t-2,j)|;Ltjy=|Sr(3t-1,j)-S0(3t-1,j)|;Ltjz=|Sr(3t,j)-S0(3t,j)|;t=1,2,…,F,j=1,2,…,P,σtx,σtx,σtx分別為三維結構中第t幀對應的所有結構點x,y,z方向坐標的標準差;etj表示第t幀第j個三維結構點的誤差,即重構點與實際點間的歐氏距離;Sr代表重建出來的三維結構矩陣,S0代表實際的空間結構矩陣,二者的維度和排列方式完全相同。三維點結構誤差作為非剛體三維重建的評價標準具有代表性,它反映的是算法恢復的平均誤差。而從軌跡空間的角度分析,重建結果不僅要在全局進行考慮,而且還應從時間和特征點的角度進行分析。依據上面三維點結構誤差的定義,得到三維點的幀平均誤差e3D-F和點平均誤差e3D-P分別為式(22)—(23):
(22)
(23)
本文所采用的實驗數據來源于卡耐基梅隆大學的運動捕捉數據(http://cvlab/lums.edu.pk/nrsfm),選取了四種典型的人體運動,如表1所示。
表1 4種典型的非剛體運動模型
為了驗證本文方法的有效性和可靠性,通過編程實驗對上述4種非剛性運動進行三維重建。實驗所用硬件配置為處理器Inter(R)@3.40 GHz,內存4 GB;軟件環(huán)境為Window7,Matlab2010b。通過編程實驗恢復出人體三維結構矩陣,然后利用式(21)—(23)計算重建誤差,并繪制不同方法下三維重建效果圖來對本文方法進行評估和有效性分析。在實驗中,將本文方法與其他4種研究算法進行比較,對比的算法包括:EM方法[14]、PTA方法[14](選用DCT基)和Sparse方法[7],且以上4種方法所用實驗數據與本文方法實驗數據來源于同一網站。
4.3.1 Pickup運動模型重建結果分析
圖1 Pickup運動三視圖注:子圖中第一行為PTA方法重建結果,第二行為Smooth方法重建結果。
從圖1(a)—(c)可以看出,無論是從正視、側視和俯視角度觀察,Smooth方法下的三維重建效果都是優(yōu)于PTA方法下的重建效果。Pickup運動的運動幅度相對比較大,手臂、腿部和頭部等多部位均有擺動,在用PTA軌跡基方法進行重建時,不僅最優(yōu)軌跡基的個數很難確定而且該方法也沒有考慮非剛性運動的物理平滑性,因而重建效果并不理想。而本文方法考慮運動平滑性的本質約束,適用性強,對Pickup這種運動比較復雜的序列也有著比較好的重建效果,驗證了本文方法的適用性。
僅僅從視覺效果圖上判斷本文方法的優(yōu)勢仍不明顯,下面繪制出Pickup運動在PTA方法(K=12)和Smooth方法下的重構幀均誤差曲線圖和點均誤差曲線圖,如圖2(a)、(b)所示。
圖2 Pickup運動的幀均誤差和點均誤差曲線對比圖
從圖2(a)—(b)可以看出,隨著幀數的變化本文方法下的幀均誤差和點均誤差基本都在PTA方法的誤差曲線之下,表明本文方法的重建效果是明顯優(yōu)于PTA方法。
為了更加細致地說明這種差異,圖3畫出了PTA方法和本文方法在對Pickup運動中隨機選取的第3個和第32個特征點進行重建后的結構誤差曲線圖。
圖3 第3個特征點和第32個特征點的結構誤差曲線對比
通過曲線可以看出,在對單個特征點的運動重建進行分析時,Smooth方法下的重建誤差在絕大部分幀數下都是小于PTA方法的,表明本文方法能夠更好的恢復出非剛體的運動結構。而PTA方法重建時不僅跟選擇的軌跡基的關系很緊密,有很大的局限性,而且直接通過偽逆法求解軌跡系數后得到結構矩陣,也沒有考慮運動的平滑性,其重建精度比較低。
上面的實驗結果,說明Smooth方法相對于PTA方法在對Pickup運動進行三維運動重建時有著較大的優(yōu)勢。
4.3.2 Yoga序列重建的結果和分析
為了進一步驗證本文方法的適用性和有效性,對Yoga運動模型使用Sparse方法和Smooth方法進行三維運動重建。隨機選取Yoga運動序列中的第55幀、第120幀、第170幀和第230幀,圖4為兩種方法下的重建視覺效果圖。
圖4 Yoga序列重建效果注:第一行為Sparse方法,第二行為Smooth方法。
從圖4中可以看出,相對于Sparse方法,本文方法下Yoga運動的頭部、手臂和腿部的重建效果均有不同程度的提高。Sparse方法可以自動的選擇合適的軌跡基對重建目標運動軌跡進行重建,但Sparse方法進行重建時所用的基追蹤算法相對復雜,而且沒有考慮到矩陣的稀疏表示會破壞數據的內在連續(xù)性,因此它的重建效果要略差于Smooth方法的重建效果的。
為了進一步說明這種差異,yoga模型在Sparse方法和Smooth方法下的幀均誤差和點均誤差圖,如圖5所示。
圖5 Yoga運動的幀均誤差和點均誤差曲線對比
從圖5中可以明顯看出在Yoga模型下,Smooth方法下的幀平均誤差和點平均誤差曲線都在Sparse方法重建誤差的曲線之下,表明Smooth方法更好的提高了Yoga運動的三維重建精度。
同樣,為了更加詳細并且直觀的看出針對每個特征點本文方法的有效性,圖6給出了隨機選取的第13個特征點和第40個特征點在隨著運動序列幀數變化的結構誤差對比圖。
圖6 第13個特征點和第40個特征點的結構誤差曲線對比
由圖6可知,隨著幀數的變化,第13個特征點和第40個特征點的結構誤差在絕大部分幀下都是減小的,整體的重建精度仍然是有著明顯的提高。
4.3.3 不同運動模型在不同方法下重建的結果與分析
為了驗證本文算法對不同運動序列重建都具有一定程度上的優(yōu)勢,圖7繪制了四種不同的運動分別在MP方法、PTA方法(括號中的數字為該重建算法下重建效果最優(yōu)時的軌跡基個數)、Sparse方法和Smooth方法下的重建誤差對比柱狀圖,表2給出了重構誤差對比表,表中數據越小說明其重建誤差越小,重建精度越高。
圖7 不同運動模型在4種不同方法下的重構誤差柱狀圖
實驗模型MPPTASparseSmoothYoga0.80390.1622(11)0.15580.1119Pickup0.43220.2369(12)0.22450.1710Dance0.26390.2958(5)0.25190.2788Stretch0.85490.1088(12)0.08930.0976
由圖7、表2可知,本文方法下的四組非剛體運動的重建中,Yoga運動、Pickup運動在Smooth方法下的重建誤差均小于前面的幾種重建方法,重建精度有著明顯的提高。Dance運動和Stretch運動下本文方法結果雖然優(yōu)于PTA方法,但重建精度略微高于Sparse方法,表明Smooth方法的魯棒性欠佳,還有待進一步的提高。
本文方法中首先利用正交約束和跡約束求解出相機旋轉矩陣,然后在單一投影誤差重建基礎上引入非剛體運動軌跡加速度的連續(xù)平滑性約束,通過對目標函數求導得到了其最優(yōu)解析解,求解出非剛體結構矩陣。該方法的重建過程減小了誤差積累,并且與其他約束相比,運動目標的平滑連續(xù)性約束更具有一般性和通用性,能夠更好的擬合運動軌跡。最后由選取的四種不同的非剛體運動模型進行試驗,并具體以Pickup運動和Yoga運動為例進行了分析,實驗結果表明本文方法有效的提升了非剛體三維結構的重建精度。
對于非剛體的三維重建,在進一步的研究中可以考慮重建過程魯棒性的提升、角速度約束等因素,也可以嘗試從單個非剛體目標的重建擴展到多個非剛體目標的重建上。
[1] ZHANG Y, GIBSON G M, HAY R, et al. A fast 3D reconstruction system with a low-cost camera accessory[J]. Scientific Reports,2015,5:10909.
[2] ALLDIECK T, KASSUBECK M, MAGNOR M. Optical flow-based 3D human motion estimation from monocular video[EB/OL]. (2017-03-01)[ 2017-06-27]. https://arxiv.org/pdf/1703.00177.
[3] BREGLER C, HERTZMANN A, BIEERMANN H. Recovering non-rigid 3D shape from image streams[C]// Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, Los Alamitos. IEEE,2000:690-696.
[4] XIAO J, CHAI J, KANADE T. A closed-form solution to non-rigid shape and motion recovery[J]. International Journal of Computer Vision,2004,67(2):573-587.
[5] GOTARDO P F U, MARTINEZ A M. Kernel non-rigid structure from motion[C]//Proceedings of the IEEE International Conference on Computer Vision. IEEE,2011:802-809.
[6] AKHTER I, SIMON T, KHAN S, et al. Bilinear spatiotemporal basis models[J]. ACM Transactions on Graphics,2012,31(2):1-12.
[7] WANG Y, YAN X, ZHENG J, et al. Sparse approximation for nonrigid structure from motion[J]. Journal of Robotics,2015(3):1-8.
[8] TAO L, MATUSZEWSKI B J. Robust deformable shape reconstruction from monocular video with manifold forests[J]. Machine Vision and Applications,2016,27(6):1-19.
[9] TAO L, MATUSZEWSKI B J. Deformable shape reconstruction from monocular video with manifold forests[J]. Computer Analysis of Images and Patterns, Springer Berlin Heidelberg,2013:28-36.
[10] ZHOU Z, SHI F, XIAO J, et al. Non-rigid structure-from-motion on degenerate deformations with low-rank shape deformation model[J]. IEEE Transactions on Multimedia,2015,17(2):171-185.
[11] RECHT B, FAZEL M, PARRILO P. Guaranteed minimum-rank solutions of linear matrix equations via nuclear norm minimization[EB/OL]. SIAM review,2010,52(3):471-501.
[12] DAI Y C, LI H D, HE M Y. A simple prior-free method for non-rigid structure-from-motion factorization[J]. International Journal of Computer Vision,2014,107(2):101-122.
[13] 劉松國,朱世強,吳文祥.具有運動時間約束的機械手最優(yōu)平滑軌跡規(guī)劃[J].電機與控制學報,2009,13(6):897-902.
[14] WANG Y, TONG L, JIANG M. Non-rigid structure estimation in trajectory space from monocular vision[J]. Sensors,2015,15(10):25730-25745.
Researchon3DNon-RigidReconstructionBasedonAccelerationSmoothnessConstraints
WANGYaming,ZHANGJing,ZHENGJunbao
(School of Information Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China)
To overcome the defect that the reconstruction method of single projection error is of low precision, a 3D non-rigid reconstruction method of trajectory smoothness constraints based on minimum acceleration residue is proposed. According to the theory of movement trajectory continuity, acceleration smoothness constraints are introduced based on the 3D reconstruction projection error to build an objective function, to obtain the optimal closed analytical solution. Due to the complexity of the non-rigid motion, the proposed acceleration continuity constraints are the constraints on the physical properties of non-rigid motion target trajectories, which are of universality and adaptability. The comparison with four typical motion models show that this reconstruction method improves the accuracy of the reconstruction largely, and realizes algorithm in a simple way.
non-rigid; 3D reconstruction; acceleration; smoothness constraints; analytical solution
10.3969/j.issn.1673-3851.2017.11.013
2017-06-27 網絡出版日期: 2017-10-10
浙江省自然科學基金重點項目(LZ15F020004);浙江理工大學521人才資助計劃
張 靜(1991-),女,湖北麻城人,碩士研究生,主要從事圖像處理、計算機視覺和模式識別等方面的研究。
鄭俊褒,E-mail:zhengjunbao@zstu.edu.cn
TP391.4
A
1673- 3851 (2017) 06- 0830- 08
(責任編輯:康鋒)