王玉萍,王立春,劉蓬燕,孔德慧,尹寶才
基于多視點圖像的人臉表面光場重構(gòu)
王玉萍,王立春,劉蓬燕,孔德慧,尹寶才
(北京工業(yè)大學城市交通學院多媒體智能軟件技術(shù)北京市重點實驗室,北京100124)
為了實現(xiàn)任意新視點下三維人臉模型的繪制,針對三維人臉模型數(shù)據(jù)的特殊性,提出一種借助一般三維人臉模型基于稀疏多視點圖像重建特定人臉表面光場的方法,該方法改進了Laplacian網(wǎng)格變形技術(shù),實現(xiàn)了一般人臉三維模型到多視點圖像中特定人臉三維模型的變形,避免了直接掃描人臉模型的操作復(fù)雜、模型粗糙、數(shù)據(jù)量大等缺點.最后,通過任意視點下人臉模型繪制驗證了基于多視點圖像重構(gòu)獲得的人臉表面光場數(shù)據(jù)的有效性.
表面光場;Laplacian變形;多視點圖像
三維對象的重建與繪制一直是計算機動畫技術(shù)以及虛擬現(xiàn)實領(lǐng)域的研究熱點,一般有基于模型和基于圖像2種方法.基于模型的方法需要三維對象的具體幾何模型,但是模型的掃描復(fù)雜且費時費力,因此這種方法不適用于復(fù)雜對象.基于圖像的方法近年來得到了很多研究者的關(guān)注,其中光場技術(shù)最為顯著.光場描述光在三維空間中的輻射傳輸特性,能夠從不同視角記錄三維場景或物體,只需要少量甚至不需要幾何信息.光場的優(yōu)勢在于其繪制獨立于場景復(fù)雜度,可以表現(xiàn)任意光照效果,并且可以針對場景獨立獲取.
光場通常以結(jié)構(gòu)化視點下獲取的圖像集合形式記錄,但由于相機觀察角度和成像平面的空間約束,基于圖像的光場數(shù)據(jù)在一定深度范圍內(nèi)具有模糊現(xiàn)象,為此研究人員提出利用表面幾何的逼近形式對光場進行重采樣,稱為表面光場.表面光場是三維網(wǎng)格結(jié)構(gòu)頂點發(fā)出的任意光線的輻射度函數(shù),有助于減少深度場效應(yīng).并且采樣時需要相對少的相機數(shù)目,且允許相機設(shè)置在逼近表面以外的任何區(qū)域.
本文針對特殊三維對象“人臉”研究其表面光場的獲取,基于人臉表面光場可以實現(xiàn)任意新視點下3D人臉模型的顯示繪制.在人機交互、醫(yī)學手術(shù)、影視動畫、游戲娛樂等諸多領(lǐng)域有廣闊的應(yīng)用前景.本文基于一般人臉模型構(gòu)建任意人臉表面光場.針對人臉幾何表面的獲取,改進Laplacian網(wǎng)格變形技術(shù),實現(xiàn)一般人臉三維模型到多視點圖像中特定人臉三維模型的變形;對變形后的模型網(wǎng)格重采樣,結(jié)合多視點圖像得到人臉表面光場數(shù)據(jù).最后,利用重構(gòu)的人臉表面光場實現(xiàn)三維人臉模型任意視點的顯示與繪制,實驗結(jié)果表明人臉表面光場重構(gòu)方法是有效的.
1.1表面光場表示與獲取
根據(jù)視覺原理可知,現(xiàn)實世界的物體之所以被看到是因為物體表面反射的光線分布于全部空間,而這些光線的光強能夠被人眼感知,也就是說記錄三維物體或場景光線的空間分布就可以重建或再現(xiàn)它們.光場即是物體光線的空間分布[1],利用這些數(shù)據(jù)可實現(xiàn)三維物體或者場景的顯示和繪制.
Adelson等[2]提出的七維全光函數(shù)P(x,y,z,θ,φ,λ,t)是對場景內(nèi)所有光線的表示,其中(x,y,z)表示接收場景光線的人眼在三維空間的位置,(θ,φ)表示光線的方位與傾角,λ表示光線波長,t表示時間.若不考慮波長和時間維度,全光函數(shù)從七維降至五維.Levoy等[1]以及Gortler等[3]發(fā)現(xiàn),當觀察者視點限制在目標場景的凸殼外時,五維全光函數(shù)可表達成四維形式L(u,v,s,t),稱其為光場(light field)或者流明圖(lumigraph),即三維場景中某個物理點發(fā)出的光線可以用1條直線與2個位面的交點(u,v)和(s,t)描述,相應(yīng)的光輻射度是這條直線的函數(shù).由于基于圖像的光場數(shù)據(jù)在一定深度范圍內(nèi)具有模糊現(xiàn)象,為此Miller等[4]首次提出了表面光場的概念,表面光場定義為一個網(wǎng)格結(jié)構(gòu)頂點發(fā)出的任意光線的輻射度函數(shù),即L:K0×S2→RGB,其中K0為三角網(wǎng)格,S2表示R R3中的球面單位向量,RGB表示對應(yīng)光線輻射度.
Wood等[5]利用3D形狀的先驗知識來減少表面光場的采樣數(shù)量.Miandji等[6]設(shè)計了一個框架來生成表面光場,并將表面光場數(shù)據(jù)進行壓縮以及繪制.具體的,其通過在紋理空間均勻采樣網(wǎng)格表面生成一系列點,然后在以點為心的球面選取不同方向,估計出其輻射度值來生成表面光場.Jachnik等[7]提出一個算法,通過單一手持相機能夠?qū)崿F(xiàn)實時表面光場獲取,但該方法只適用于平面場景.
以上表面光場獲取方法均需要稠密采樣,且沒有考慮模型特定性,因此本文提出一種借助一般三維人臉模型從稀疏多視點圖像重建特定人臉表面光場的方法.圖1所示為基于多視點圖像人臉表面光場重構(gòu)總體框架.
1.2網(wǎng)格變形方法
網(wǎng)格變形技術(shù)一直是建模、虛擬現(xiàn)實以及計算機圖形學中的一個研究熱點,通過網(wǎng)格變形技術(shù)可以構(gòu)建一些掃描儀和傳統(tǒng)建模方法無法獲取的模型.目前的方法可分為:基于空間形變的變形技術(shù)[8-10]、基于骨架驅(qū)動的變形技術(shù)[11-12]、基于曲面的變形技術(shù)[13-19].
基于曲面的變形技術(shù)最為常見的是基于多分辨率表示的變形技術(shù)[13-15]和基于微分坐標的變形技術(shù)[16-19].關(guān)于基于微分坐標的變形方法的發(fā)展,Sorkine[16]提出了一種建立在Laplacian微分坐標上的網(wǎng)格表示方法與變形方法;Nealen等[17]利用Laplacian變形方法對3D曲線進行變形來約束曲面變形;Aguiar等[18]利用Laplacian變形方法分別在四面體和三角網(wǎng)格上進行變形實現(xiàn)了大尺度動作的捕捉;Zhou等[19]提出了一種體Laplacian變形方法,在原有網(wǎng)格模型上加入外圍和內(nèi)圍網(wǎng)格進行變形,可以很好地處理自交以及變形后體積變化等問題.
由于人臉幾何模型有豐富的幾何細節(jié),而Laplacian微分坐標能夠表示局部形狀以及局部細節(jié)的大小和方向,因此本文針對人臉特性改進Laplacian網(wǎng)格變形技術(shù),實現(xiàn)一般人臉三維模型到多視點圖像中特定人臉三維模型的變形.
2.1源數(shù)據(jù)
本文使用的多視點圖像是在清華大學的特定環(huán)境下(半球形采集設(shè)備,特定人位于球中心,半球采集架上分布6架攝像機以及分布均勻的光源)拍攝的6張圖像,分別對應(yīng)6個視點,如圖2所示.采用的一般三維人臉模型為McGuire發(fā)布的一般頭部模型[20],處理后為PLY格式,如圖3所示.
2.2特征點標定
MPEG-4是由動態(tài)圖像專家組開發(fā)的一項把視頻、聲音以及計算機三維圖形和圖像結(jié)合在一起的多媒體標準,MPEG-4定義的人臉定義參數(shù)(facial definition parameter,F(xiàn)DP)可以描述人臉的差異性和特殊性[21].本文根據(jù)FDP以及實驗實際情況在多視點圖像中標記了76個特征點,如圖4所示.其中藍色點表示特征點的位置,白色框內(nèi)的數(shù)字為特征點的序號.
2.3一般模型與多視圖對齊
通過多視點圖像中的特征點對以及相機參數(shù)可以計算出這些特征點在世界坐標系中的三維坐標,而一般三維人臉模型定義在局部坐標系中,因此需要將一般三維人臉模型的空間位置與多視點圖像對應(yīng)三維人臉模型的空間位置初始對齊.
本文利用特征點對的對應(yīng)關(guān)系,估計一般三維人臉模型所在局部坐標系到多視點圖像中特定三維人臉模型所在坐標系的仿射變換,從而達到人臉模型的初始對齊.所用到的坐標變換包括平移、旋轉(zhuǎn)以及放縮變換.具體步驟如下:
1)在標記的76個特征點對中選取人臉區(qū)域中不發(fā)生或發(fā)生很小非剛性運動的點(例如鼻尖點),根據(jù)計算機視覺原理計算出其空間坐標,選取點的集合記為M={mi(xmi,ymi,zmi)|i=1,2,…,L},其中L為所選點個數(shù),其對應(yīng)在一般三維人臉模型上的點集記為N={ni(xni,yni,zni)|i=1,2,…,L}.本文L=5,分別選取的是一個鼻尖點、一個眉間中心點、一個下巴中心點以及2個外眼角點.
2)設(shè)集合M和N的中心分別為m0和n0,且
3)集合M和N中的點關(guān)于中心點的位移向量分別可表示為Ai=m-m0,Bi=ni-n0.這樣模型初始對齊可以認為是集合M的中心點m0與集合N的中心點n0之間做平移以及中心位移向量集合A={Ai|i=1,2,…,L}和B={Bi|i=1,2,…,L}之間的縮放旋轉(zhuǎn)變換,可求出
4)記T-M0表示將m0平移到一般三維人臉模型所在坐標系原點的變換,TN0表示將世界坐標系原點平移到n0的變換.最終對齊變換為
3.1搖Laplacian形變原理
令M=(V,E,F(xiàn))為具有n個頂點的三角網(wǎng)格,V、E、F分別表示頂點集合、邊集合和面集合.vi=(xi,yi,zi)∈V為笛卡兒坐標系下的點.vi的微分坐標δi可以定義為vi與其相鄰點的中心的差,即
式中:N(i)={j|(i,j)∈E};di=|N(i)|為vi的度,即鄰接頂點的個數(shù).鄰接關(guān)系可用矩陣A描述為
因此笛卡兒坐標到微分坐標δi的變換可以用矩陣L=I-D-1A表示,其中D為對角矩陣,Dii= di.那么式(5)可表達為
Sorkine等[16]稱矩陣L為拓撲Laplacian矩陣.
模型的Laplacian矩陣L由網(wǎng)格結(jié)構(gòu)決定,且基于微分坐標的Laplacian變形技術(shù)保持原有拓撲連接關(guān)系.對齊后的一般三維人臉模型的微分坐標可以計算得到,由于微分坐標有保形特點,所以認為多視圖對應(yīng)的三維人臉模型也具有相近的微分坐標.因此求解問題變?yōu)閺淖鴺甩那髒,而矩陣L非滿秩,v′=L-1δ是不確定的.
這樣需要加入一些已知點對作為約束,則問題可解.用C表示這些已知點的集合
式中:C={1,2…,m},m代表控制點的個數(shù).這樣系統(tǒng)(7)變?yōu)?/p>
該系統(tǒng)在最小二乘方法下可以確定唯一解,具體可表示為
3.2搖優(yōu)化變形結(jié)果
Laplacian變形方法是建立在Laplacian框架和微分坐標表示基礎(chǔ)上的一種網(wǎng)格編輯方法,微分坐標在一定程度上能夠代表曲面的細節(jié)信息,但是由于人臉的特殊性,微小的變化就會得到不同的人臉,加上選取特征點數(shù)量的限制,3.1節(jié)變形后的人臉不夠精確.圖5為Laplacian方法變形后結(jié)果,圖6為第1次變形結(jié)果投影到第4視點的投影圖,其中紅色點是模型中臉的輪廓點,而這些點沒有落在視點圖中的人臉輪廓上,因此這些點被定義為不準確點.基于此本文提出了進一步優(yōu)化變形后模型的方法.
1)將3.1節(jié)變形得到的特定三維人臉模型分別投影到6張多視點圖像上,找到不準確點;
2)將這些不準確點(紅色投影點)作為新的特征點,標記其在各視點圖上的正確位置,計算這些位置點在世界坐標系中正確的坐標,記為di,所有點集記為D,這樣就找到一組新的位置約束;
3)將新特征點對加入到優(yōu)化模型(10),即
4.1三維人臉模型網(wǎng)格重采樣
第3節(jié)獲得的三維人臉模型網(wǎng)格頂點個數(shù)為5 529個,正面臉部模型點數(shù)僅約3 000個.本文采集的多視點圖像分辨率為1 024×768,正面視點中人臉的像素大約為52 900像素,而如果要求繪制視點圖像與原采集的多視點圖像分辨率相同的話,基于上述模型重建的表面光場數(shù)據(jù)是遠遠不夠的,因此需要使用網(wǎng)格重采樣的方法來增加三維人臉網(wǎng)格模型的頂點數(shù)量使其滿足繪制要求.
本文給出一種新的細分規(guī)則,即同時在邊和面上選擇插值點使網(wǎng)格細分,插值點通過對所在面片的網(wǎng)格頂點進行加權(quán)和得到,具體為
式中:c1=m/(N-1);c2=n/(N-1);c3=1-c1-c2;m=0,1,…,N-n;n=0,1,…,N-m;V1、V2、V3為插值點所在面片的頂點;N是采樣密度控制值;p∈{0,1,…,M},M為插值后點數(shù).三角面片原來的頂點V1、V2、V3將變?yōu)閂1、VN、VM.那么接下來討論的是如何獲得采樣密度控制值N,重采樣的目的是在獲取表面光場數(shù)據(jù)后,利用這些數(shù)據(jù)可以繪制出具有與原采集的多視點圖像分辨率相同的視點圖像,因此提出以下措施.
將網(wǎng)格模型投影到多視點圖像上,分別計算網(wǎng)格模型面片在每個視點圖像上的面積 si,i= 0,1,…,6,這里的面積可以看作是面片覆蓋圖像部分的像素點個數(shù).當繪制這個視點的時候像素點要不少于原始采集圖像的像素時才能進行完整的繪制,那么在網(wǎng)格細分的時候就得確保三角面片中點的個數(shù)不少于投影到圖像中的像素點個數(shù),令N為
式中τ為系數(shù),其值決定了模型的稠密程度,當τ= 2的時候,可知,當N不是很大時,與M值相差不大,這樣就可以滿足要求.
4.2表面光場數(shù)據(jù)的計算
將重采樣后的三維人臉模型分別向6個視點圖像投影,并將投影點的RGB值配置給模型頂點,這樣就獲得離散光場數(shù)據(jù),用矩陣Fm×n存儲,其中m是頂點個數(shù),n為視點方向的個數(shù).即每行代表一個頂點的所有方向的輻射值,每列代表物體的整個表面在一個方向的輻射值,這樣定義便于以后計算,也便于存儲.
表面光場的一個重要作用是進行任意視點的繪制.為驗證本文所提人臉表面光場重建方法的有效性,下面給出基于表面光場數(shù)據(jù)的繪制方法及繪制效果.
5.1基于表面光場的繪制
基于表面光場繪制指定視點圖像時,該圖像中像素點的顏色值是對離散表面光場數(shù)據(jù)進行線性求和計算得到的,具體計算方式為
式中:F(Rj,Gj,Bj)為空間任意一點在指定視點下投影點的輻射值;(Ri,Gi,Bi)為表面光場矩陣Fm×n的第i列值;wi為視點j與表面光場數(shù)據(jù)記錄的光線方向之間夾角的余弦值.
除此之外,當對指定視點進行繪制時,還需要考慮三維模型網(wǎng)格點間的遮擋情況,即模型中點在該視點下的可見性.判斷方法為:計算三維網(wǎng)格模型頂點在此視點情況下的投影點;圖像平面同一位置的投影點多于一個時,比較三維模型點在相機坐標中的深度,即距離相機位置的遠近,離相機近的則為在此視點下的可見點.
5.2已有視點的繪制結(jié)果
為了驗證本文提出的三維人臉模型表面光場重構(gòu)方法的有效性,本文利用所獲得表面光場數(shù)據(jù)渲染出已采集視點的圖像與真實拍攝圖像進行對比,繪制結(jié)果如圖7~9左列所示,其中右列圖像為拍攝圖像,圖7~9分別為實際拍攝的第3~5視點圖.從繪制結(jié)果看,繪制圖像比較接近真實拍攝的圖像.
5.3新視點的繪制結(jié)果
為進一步驗證重構(gòu)光場數(shù)據(jù),選擇第4視點和第5視點之間的幾個視點進行了繪制,效果如圖10所示,結(jié)果表明根據(jù)本文方法獲得的人臉表面光場繪制的新視點圖像視覺效果比較令人滿意.
1)針對基于多視點圖像的人臉表面光場重構(gòu),本文對Laplacian網(wǎng)格變形算法進行改進,通過求解一個優(yōu)化問題實現(xiàn)了一般三維人臉模型變形到與多視點圖像一致的特定三維人臉模型的變換,并結(jié)合坐標系變換,達到一般三維人臉模型與采集多視點圖像空間上特定三維人臉模型的空間對齊.
2)得到特定人臉三維網(wǎng)格模型后,對網(wǎng)格模型進行網(wǎng)格重采樣提高其分辨率,確保得到的表面光場數(shù)據(jù)可以進行有效的繪制,然后基于多視點圖像為網(wǎng)格模型頂點配置輻射值得到離散的人臉表面光場.
3)利用得到的表面光場數(shù)據(jù)實現(xiàn)了原有視點和新視點的繪制,繪制所得到的圖像表明了本文表面光場重構(gòu)方法的有效性.
[1]LEVOY M,HANRAHAN P.Light field rendring[C]∥Proceedings of the 23rd Annual Conference on Computer Graphics and Interactive Techniques.New York:ACM,1996:31-42.
[2]ADELSON E H,BERGEN J R.The plenoptic function and the elements of early vision[G]∥ LANDY M,MOVSHONJA.Computationalmodelsofvisual processing.Ambridge:MIT Press,1991:3-20.
[3]GORTLER S J,GRZESZCZUK R,SZELISKI R.The lumigraph[C]∥Proceedingsofthe 23rdAnnual ConferenceonComputerGraphicsandInteractive Techniques.New York:ACM,1996:43-54.
[4]MILLERG,RUBINS,PONCELEOND.Lazy decompression of surface light fields for precomputed global illumination[M].Vienna:Rendering Techniques,1998: 281-292.
[5]WOOD D N,AZUMA D I,ALDUBGER K,et al.Surface light fields for 3d photography[C]∥ Proceedings of the 27th AnnualConferenceonComputerGraphicsand Interactive Techniques.New York:ACM,2000:287-296.
[6]MIANDJI E,KRONANDER J,UNGER J.Geometry independent surface light fields for real time rendering of precomputed global illumination[C]∥ Proceedings of SGRAD 2011.Stockholm:Royal Insti tute of Technology,2011:27-34.
[7]JACHNIK J,NEWCOMBE R,DAVISON A J.Real-time surface light-fieldcaptureforaugmentationofplanar specular surfaces[C]∥IEEE International Symposium on Mixed and Augmented Reality(ISMAR).Piscataway,NJ:IEEE,2012:91-97.
[8]SEDERBERG T W,PARRY S R.Free-form deformation of solid geometric models[C]∥Proceedings of the 13th Annual Conference on Computer Graphics and Interactive Techniques.New York:ACM,1986:151-160.
[9]COQUILLART S.Extendedfree-formdeformation:asculpturing toolfor 3Dgeometricmodeling[C]∥Proceeding of the 17th Annual Conference on Computer Graphics andInteractiveTechniques.Dallas:ACM,1990:187-196.
[10]HU SM,ZHANGH, TAICL, etal.Direct manipulation of FFD:efficient explicit solutions and decomposable multiple point constraints[J].The Visual Computer,2001,17(6):370-379.
[11]MAGNENAT-THALMANNN,LAPERRIERER,THALMANN D.Joint-dependent local deformations for hand animation and object grasping[C]∥ Proceedings on Graphics Interface蒺88.Toronto:Canadian Information Processing Soliety,1988:26-33.
[12]YAN H B,HU S M,MARTIN R R,et al.Shape deformationusingaskeletontodrivesimplex transformations[J].IEEE Transactions on Visualization and Computer Graphics,2008,14(3):693-706.
[13]ZORIN D,SCHR?DER P,SWELDENS W.Interactive multiresolution mesh editing[C]∥ Proceedings of the 24th Annual Conference on Computer Graphics and Interactive Techniques.Los Angeles:ACM,1997:259-268.
[14]BOTSCHM,SUMNERR,PAULYM,etal. Deformation transfer for detail-preserving surface editing[C]∥Proceedings of the 11th Workshop on Vision,ModelingandVisualization.Aachen:Eurographics Association,2006:357-364.
[15]MARINOV M,KOBBELT L.Automatic generation of structurepreservingmultiresolutionmodels[J]. Computer Graphics Forum,2005,24(3):479-486.
[16]SORKINEO.Differentialrepresentationformesh processing[J].Computer Processing Forum,2006,25(4):789-807.
[17]NEALEN A,IGARASHI T,SORKINE O.FiberMesh: designing freeform surfaces with 3D curves[J].ACM Transactions on Graphics,2007,26(3):41.
[18]DE AGUIAR E,STOLL C,THEOBALT C.Performance capture fromsparsemulti-viewvideo[J].ACM Transactions on Graphics,2008,27(3):98.
[19]ZHOUK,HUANGJ, SNYDERJ.Largemesh deformation using the volumetric graph laplacian[J]. ACM Transactions on Graphics,2005,24(3):496-503.
[20]MCGUIRE.Computer Graphics Archive[DS/OL].(2011-08-26)[2015-10-01].http:∥graphics.cs. williams.edu/data.
[21]ABRANTESGA,PEREIRAF.MPEG-4facial animationtechnology:survey,implementation,and results[J].IEEE Transactions on Circuits and Systems for Video Technology,1999,9(2):290-305.
(責任編輯呂小紅)
Surface Light Field Rendering of Face Based on Multi-images
WANG Yuping,WANG Lichun,LIU Pengyan,KONG Dehui,YIN Baocai
(Beijing Key Laboratory of Multimedia and Intelligent Software Technology,College of Metropolitan Transportation,Beijing University of Technology,Beijing 100124,China)
For rendering the 3D human face model at new views,according to the specificity of 3D face model,this paper suggests human face surface light field reconstruction based on sparse multi-view images with the help of general face model.The method improved Laplacian mesh deformation technology to realize deformation from a general human face model to a specific face model which is fitted for the face defined in the multi-view images.The method avoided some disadvantages such as complex operation,coarse model and large amount data.Finally,rendering the human face model at new view was operated to validate the effectiveness of surface light field reconstruction.
surface light field;Laplacian deformation;multi-images
TG 501
A
0254-0037(2016)06-0870-07
10.11936/bjutxb2015100079
2015-10-29
北京市自然科學基金資助項目(4152009)
王玉萍(1985—),女,博士研究生,主要從事計算攝影學、圖像處理方面的研究,E-mail:wangyuping@emails. bjut.edu.cn