彭亞麗,劉侍剛,裘國永
(1.陜西師范大學(xué)現(xiàn)代教學(xué)技術(shù)教育部重點實驗室,710062,西安;2.西安交通大學(xué)電子與信息工程學(xué)院,710049,西安;3.陜西師范大學(xué)計算機科學(xué)學(xué)院,710119,西安)
?
一種線性迭代非剛體射影重建方法
彭亞麗1,2,劉侍剛1,2,裘國永2,3
(1.陜西師范大學(xué)現(xiàn)代教學(xué)技術(shù)教育部重點實驗室,710062,西安;2.西安交通大學(xué)電子與信息工程學(xué)院,710049,西安;3.陜西師范大學(xué)計算機科學(xué)學(xué)院,710119,西安)
為了從非標定圖像序列中重建出三維非剛體的射影結(jié)構(gòu),提出了一種線性迭代非剛體射影重建方法。該方法將所有圖像點放入一個圖像矩陣中,利用圖像矩陣具有低秩的特性,通過因式分解構(gòu)造一個線性迭代算法來求解圖像點的深度因子,最終通過奇異值分解實現(xiàn)非剛體的射影重建。該方法的優(yōu)點是:射影重建過程都是線性求解,且將所有圖像及圖像點都平等地對待,并沒有倚重某些圖像及圖像點。模擬實驗結(jié)果表明,所提重建方法比經(jīng)典的Alessio方法重投影誤差小18%,比Brand方法小27%;最后的真實實驗結(jié)果表明,所提的重建方法重投影誤差只有1.28個像素,從而驗證了所提方法的有效性。
射影重建;非剛體;因式分解
基于圖像序列的三維重建一直是計算機視覺研究的熱點問題之一,而射影重建又是三維重建過程中一個必不可少的階段,其精度影響最終的重建結(jié)果[1-2]。如果沒有任何先驗知識,從圖像序列中僅能實現(xiàn)射影重建[3]。
由于剛體運動的簡單性,三維重建的早期研究工作大都基于物體是剛體的假設(shè)[4-5]。然而,現(xiàn)實世界中大多數(shù)物體都具有柔性,它們的運動都屬于非剛體運動。為了重建非剛體物體,Bregler等人首先提出了非剛體可以由若干個剛體基組成的假設(shè)[6],并重建了非剛體的運動,但是該計算過程非常繁瑣,導(dǎo)致其應(yīng)用受到很大限制。后來的許多非剛體重建方法都是基于Bregler的假設(shè)[7-8],其中Valmadre采用動態(tài)規(guī)劃的方法進行非剛體重建[9],但是該方法魯棒性較差。為了提高重建算法的魯棒性,Tao等學(xué)者混合先驗知識對非剛體進行了重建[10-11],但在許多情況下很難獲得非剛體的先驗知識。有部分學(xué)者采用了光流法對非剛體進行重建[12-14],并獲得了較好的重建效果,但這些非剛體重建方法都是假設(shè)相機為正投影模型,但正投影模型要求物體的景深遠小于相機到物體的距離,當(dāng)條件不滿足時,誤差比較大。針孔模型相對于正投影模型更加符合真實情況,因此重建精度更高。
本文假定相機為針孔模型,提出了一種線性迭代非剛體射影重建方法,該方法利用圖像矩陣具有低秩的特性,通過因式分解構(gòu)造一個線性迭代算法來求解圖像點的深度因子,最后實現(xiàn)非剛體的射影重建。
假定相機為針孔模型,成像過程可表示為
(1)
式中表示三維空間點的非齊次坐標為對應(yīng)的圖像平面點的齊次坐標;K為相機的內(nèi)參矩陣;R、t分別為相機在拍攝位置對應(yīng)的旋轉(zhuǎn)矩陣和平移向量,即相機的外參矩陣;λ為深度因子。
若令
(2)
式中:P稱為投影矩陣。則式(1)可以簡寫為
(3)
假設(shè)有m幅圖像,每幅圖像上有n個圖像點,對于第i幅圖像上的第j個圖像點可表示為
(4)
對于第i幅圖像,由式(4)得
(5)
當(dāng)物體做非剛體運動時,[Xi,1Xi,2…Xi,n]在運動過程中是變化的,可以認為由l個剛性基組成[6],即
(6)
式中:βi,k為權(quán)值;Bk為剛性基。
將式(6)代入式(5),可得
(7)
令
(8)
式中:Qi是Pi的前3列;pi是Pi的第4列。
將式(8)代入式(7),可得
(9)
整理可得
(10)
若將所有的圖像點放在一起,則有
W=MB
(11)
從式(11)可以看出,W矩陣為低秩矩陣,其秩為3l+1。同時,對于任何非奇異矩陣A都有
W=MB=M′B′
(12)
式中:M′=MA-1;B′=AB。
從式(12)可以看出,如果沒有任何先驗知識,所有的重建可以相差一個變換A,因此該重建不是落在歐氏空間,而是落在射影空間。
如果已知深度因子λi,j,可以對W進行奇異值分解,即
W=SVDT
(13)
式中:S、D為正交矩陣;V為對角矩陣。
由于圖像中含有噪聲,因此不可能保證V中對角線上剛好只有前3l+1個元素為非0,但可以令對角線元素以外的其他元素為0。
式(13)可化簡為
W=S′V′D′T
(14)
因此,令射影重建為
(15)
式(14)表明,W的列向量在矩陣S′所生成的子空間的正交補空間的投影為0[15],即
(16)
式中:T=I-S′(S′TS′)-1S′T。
λ1,ju1,jt1+λ1,jv1,jt2+…+λm,jvm,jt3m-1+λm,jt3m=0
(17)
整理得
[(u1,jt1+v1,jt2+t3)…(um,jt3m-2+vm,jt3m-1+
(18)
式(18)為線性方程,因此λi,j可以線性求解。
最初并不知道λi,j的值,因此無法通過式(13)完成因式分解,但通過分析知,可以構(gòu)造一個線性迭代算法來求解λi,j。即初始假設(shè)所有的λi,j=1,通過式(14)可以求得S′,通過式(18)可以求得λi,j,此時的深度因子比上一步的深度因子更加接近真實值,經(jīng)多次迭代后可以求得λi,j。
本文算法的步驟如下。
步驟1:令ε1為無窮小的正數(shù),k=1;
步驟3:利用式(13),對W奇異值分解,并令S′為S的前3l+1列;
步驟4:利用式(16)構(gòu)造投影矩陣T;
步驟5:利用式(18)線性求取深度因子λi,j;
步驟7:利用式(15),實現(xiàn)射影重建。
本文運算量主要來自式(13)對矩陣W奇異值分解及式(18)求取深度因子。對矩陣W奇異值分解的計算量[15]為3mn2,式(18)求深度因子的運算量為3m3,總共有n組深度因子,因此求深度因子的總運算量為3m3n。從上面分析可以看出,本文運算量主要來自深度因子的求解,為3m3n。
5.1 仿真實驗
為了驗證本文方法的收斂性能,本文在一個單位球隨機產(chǎn)生200個空間點,并將這些空間點分別分成3個和4個非剛體的剛性基。當(dāng)分成3個剛性基時,第1個剛性基由前80個空間點組成,第2個和第3個剛性基各由60個空間點組成;當(dāng)分成4個剛性基時,第1個剛性基由前80個空間點組成,后面3個剛性基各由40個空間點組成。模擬產(chǎn)生相機的內(nèi)參數(shù),變化相機外參以產(chǎn)生150幅圖像,并在圖像中分別加入0、0.5、1、1.5像素的高斯噪聲。用本文的方法進行非剛體射影重建,并用v3l+2的值來衡量算法的收斂性能,在理想情況下,v3l+2的值應(yīng)該為0,算法收斂性能如圖1、圖2所示。
圖1 v11隨迭代次數(shù)變化圖
圖2 v14隨迭代次數(shù)變化圖
最后,為了比較本文方法和Alessio方法[14]、Brand方法[16]的重建精度,用上述方法產(chǎn)生150幅圖像,并在圖像中加入0~2像素的高斯噪聲,分別用本文方法、Alessio方法和Brand方法進行重建,在每個圖像噪聲下各運行200次,計算重投影誤差,然后求平均值,模擬實驗結(jié)果如圖3所示。
圖3 本文方法、Alessio方法和Brand方法比較
從圖3可以看出,在3個、4個剛性基的情況下,本文方法的重投影誤差比Alessio方法和Brand方法要小,約比Alessio方法小18%,比Brand方法小27%,說明本文方法比Alessio方法和Brand方法重建精度都要高。其原因是由于Alessio方法和Brand方法假設(shè)相機為正投影模型,當(dāng)物體的景深遠小于相機到物體的距離時,正投影模型能夠較好地表示物體的成像過程,當(dāng)該條件不滿足時,重建誤差比較大,而本文假設(shè)相機為針孔模型,該模型相對正投影模型更加符合實際情況,因此本文方法的重建精度要比Alessio方法的精度高,但非剛性基越多,兩種方法的重投影誤差都會增加。
5.2 真實實驗
為了驗證本文方法的正確性,本文獲得一個200幀的恐龍圖像序列,其中的2幀如圖4所示。在該圖像序列中,提取并跟蹤了49個特征點(如圖中+所示)。從圖像序列中可以看出,由于恐龍的運動比較復(fù)雜,故它的運動不能當(dāng)作剛體運動,只能當(dāng)作非剛體運動。利用這些特征點,用本文方法進行非剛體射影重建,而且為了衡量本文方法的重建精度,本文對這些重建點進行重投影(如圖中○所示)。
(a)第75幀
(b)第125幀圖4 恐龍圖像序列
從圖4可以看出,提取的特征點和重投影點基本重合,說明本文方法具有較高的重建精度。同時,計算出平均重投影誤差為1.28像素,具有較小的重投影誤差。
本文提出了一種線性迭代非剛體射影重建方法,該方法利用圖像矩陣具有低秩的特性,通過構(gòu)造一個線性迭代算法求解圖像點的深度因子,最終實現(xiàn)非剛體的射影重建。該方法的優(yōu)點是:射影重建過程都是線性求解,且將所有圖像及圖像點都平等地對待。實驗結(jié)果表明,該方法具有良好的收斂性,且具有較高的重建精度。本文方法非常適合于圖像點位置為高斯噪聲的情況,而且現(xiàn)實中提取的圖像點位置也非常符合高斯噪聲分布,但對于圖像點位置為其他噪聲的情況(如出格數(shù)據(jù)等),本文方法性能急驟下降,這是目前三維重建的一個研究熱點問題,也是本文下一步的研究重點。
[1] SHEN S. Accurate multiple view 3D reconstruction using patch-based stereo for large-scale scenes [J]. IEEE Transactions on Image Processing, 2013, 22(5): 1901-1914.
[2] LEE M, CHOI C. Real-time facial shape recovery from a single image under general, unknown lighting by rank relaxation [J]. Computer Vision and Image Understanding, 2014, 120(3): 59-69.
[3] WU F, ZHANG M, HU Z. Self-calibration under the Cayley framework [J]. International Journal of Computer Vision, 2013, 103(3): 372-398.
[4] BASTIAN G, MATHIEU A, KALIN K, et al. A super-resolution framework for high-accuracy multiview reconstruction [J]. International Journal of Computer Vision, 2014, 106(2): 172-191.
[5] PENG Y, LIU S, LIU F. Projective reconstruction with occlusions [J]. Opto-Electronics Review, 2010, 18(2): 150-154.
[6] BREGLER C, HERTZMANN A, BIERMANN H. Recovering non-rigid 3D shape from image streams [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2000: 690-696.
[7] NOGUER F, FUA P. Stochastic exploration of ambiguities for nonrigid shape recovery [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(2): 463-475.
[8] LIU S, PENG Y, ZENG Z, et al. An iterative method based on 1D subspace for projective reconstruction [J]. Opto-Electronics Review, 2011, 19(1): 89-94.
[9] VALMADRE J, ZHU Y, SRIDHARAN S, et al. Efficient articulated trajectory reconstruction using dynamic programming and filters [C]∥12th European Conference on Computer Vision. Berlin, Germany: Springer, 2012: 72-85.
[10]TAO L, MEIN S, QUAN W, et al. Recursive non-rigid structure from motion with online learned shape prior [J]. Computer Vision and Image Understanding, 2013, 117(10): 1287-1298.
[11]VALMADRE J, LUCEY S. General trajectory prior for non-rigid reconstruction [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2012: 1394-1401.
[12]AKHTER I, SHEIKH Y, KHAN S, et al. Trajectory space: a dual representation for nonrigid structure from motion [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(7): 1442-1456.
[13]GARG R, ROUSSOS A, AGAPITO L. A variational approach to video registration with subspace constraints [J]. International Journal of Computer Vision, 2013, 104(3): 286-314.
[14]ALESSIO D. Adaptive non-rigid registration and structure from motion from image trajectories [J]. International Journal of Computer Vision, 2013, 103(2): 226-239.
[15]王永茂, 劉德友. 矩陣分析基礎(chǔ) [M]. 北京: 清華大學(xué)出版社, 2012.
[16]BRAND M. A direct method for 3D factorization of non-rigid motion observed in 2D [C]∥IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ, USA: IEEE, 2005: 122-128.
[本刊相關(guān)文獻鏈接]
陳德祥,徐自力.多重網(wǎng)格在黏性流動最小二乘等幾何模擬中的應(yīng)用.2014,48(11):122-127.[doi:10.7652/xjtuxb2014 11021]
杜輝,王宇平,董曉盼.采用萬有引力定律自動確定類數(shù)的K均值算法.2014,48(10):115-119.[doi:10.7652/xjtuxb 201410018]
蒲偉,王家序,周廣武,等.卷吸速度方向與橢圓短軸成一夾角的彈流潤滑漸近網(wǎng)格加密算法.2014,48(9):95-100.[doi:10.7652/xjtuxb201409016]
郭濤,李國君.內(nèi)嵌晃蕩液體減振的流固耦合分析.2014,48(9):117-122.[doi:10.7652/xjtuxb201409020]
任茂棟,梁晉,唐正宗,等.數(shù)字圖像相關(guān)法中的優(yōu)化插值濾波器.2014,48(7):65-70.[doi:10.7652/xjtuxb201407012]
劉驍,王小鑫,胡紅利,等.改進型離線迭代在線重構(gòu)算法的電容層析成像技術(shù)研究.2014,48(4):35-40.[doi:10.7652/xjtuxb201404007]
張思文,吳九匯,劉彰宜.黏彈阻尼對一維桿狀聲子晶體能帶結(jié)構(gòu)頻移的影響.2014,48(3):22-27.[doi:10.7652/xjtuxb 201403005]
吳仁斌,姚敏立,賈維敏,等.采用幅度響應(yīng)約束的魯棒自適應(yīng)波束形成算法.2014,48(4):109-114.[doi:10.7652/xjtuxb 201404019]
(編輯 趙煒)
A Linearly Iterative Method for Non-Rigid Projective Reconstruction
PENG Yali1,2,LIU Shigang1,2,QIU Guoyong2,3
(1. Key Laboratory of Modern Teaching Technology, Ministry of Education, Shaanxi Normal University, Xi’an 710062, China; 2. School of Electronics and Information Engineering, Xi’an Jiaotong University, Xi’an 710049, China; 3. School of Computer Science, Shaanxi Normal University, Xi’an 710119, China)
A linearly iterative method for reconstruction of 3D non-rigid projection is presented to reconstruct the 3D non-rigid projective structure from an un-calibrated image sequence. All the image points are placed into an image matrix, and the linearly iterative method that employs the singular value decomposition is used to get the depth factors of the image points by using the low rank property of the image matrix. Then the projective reconstruction is realized through the singular value decomposition. The innovations of the proposed method are that the projective reconstruction is linear, all the image points are treated fairly, and it does not rely on certain image or image points. Experiment results with simulation data show that the proposed method is 18% and 27% smaller in re-projective error than Alessio’s method and Brand’s method, respectively. A real experiment shows that the method has only 1.28 pixels error, and hence efficient.
projective reconstruction; non-rigid; factorization
2014-06-02。
彭亞麗(1979—),女,講師;劉侍剛(通信作者),男,副教授。
國家自然科學(xué)基金資助項目(61402274);陜西師范大學(xué)中央高?;究蒲袠I(yè)務(wù)費資助項目(GK201402040,GK201302029);陜西師范大學(xué)學(xué)習(xí)科學(xué)交叉學(xué)科培育計劃資助項目。
10.7652/xjtuxb201501017
TP391.41;P232
A
0253-987X(2015)01-0102-05