中圖分類號:TP37 文獻標(biāo)志碼:A 文章編號:1001-3695(2025)07-041-2227-07
doi:10. 19734/j. issn. 1001-3695.2024.09.0368
Abstract:Duetothelackofaditionalgeometricconstraintsandpriorknowledge,thereconstructionresultsofexistingmultiview 3D humanbodyreconstruction methods are poor interms ofqualityandcompletenes.In response tothe above problems, this paper proposeda3DGausianreconstructionalgorithmDHGS forsparse views.Firstly,itimproved estimationmethod for humanbodymodelparametersbycombiningmulti-viewjointreprojectionandintersection-over-unionror,utilizedaccurate bodypriors toiitialize3DGaussianmodel.Secondlyitproposedanadaptivedepthadjustmentmodulethatincorpoateddepth estimationmodel,acieveddepthegularizationthroughdiferentiablerasterizationrendering,ndeancedthegeometriconsistencyofthereconstructionbyleveraginghumanbodyanddepthpriorknowledge.Finall,itgeneratedsyntheticpseudo-views duringtheoptimizationprocess toenforceadditional geometricconstraints.ExperimentalresultsontheZJU-MoCap,GeneBody, and DNA-Rendering datasetsshowthatthe DHGS algorithm achieves PSNRof 26.13dB,24.87d,and 25.25dBforimage reconstruction,represented improvements of 27.3% , 32.6% ,and 17.4% over the original 3DGS algorithm.The experiments validateteeffectivenessofthealgorithm,withtheDHGSmodelbeingcapableoftraininginjust5minutestorenderhighquality 3D human body images in real time.
Keywords:3Dhuman reconstruction;3D Gaussiansplatting;depth regularization;diferentiablerasterizationrendering
0 引言
三維人體重建旨在生成具有真實外觀的人體三維模型,該技術(shù)在元宇宙、人機交互、虛擬和增強現(xiàn)實、游戲與電影制作等領(lǐng)域有著廣泛的應(yīng)用前景。傳統(tǒng)的三維人體重建方法使用密集的陣列相機系統(tǒng)采集人體多視角圖像,通過視圖融合[1]、幾何建模[2]、紋理制作等流程進行重建,盡管能得到逼真的人體模型,但其高成本和低效率限制了其在日常生活場景的應(yīng)用。
相比之下,基于稀疏視圖輸入的三維人體重建技術(shù)降低了數(shù)據(jù)采集難度和相應(yīng)的設(shè)備、時間成本,應(yīng)用范圍更廣。此類方法主要基于神經(jīng)輻射場(neural radiance fields,NeRF)[3],用深度神經(jīng)網(wǎng)絡(luò)來編碼人體場景的連續(xù)體積密度和顏色信息,通過可微分的體積渲染技術(shù)生成圖像,受益于NeRF強大的隱式三維表示,生成的人體模型具有逼真的渲染效果。三維高斯濺射(3DGaussiansplatting,3DGS)4是較新的三維重建方法,它將場景顯式地表示為三維高斯的集合,采用高度并行的可微分光柵化渲染和自適應(yīng)密度控制技術(shù),無須訓(xùn)練復(fù)雜的深度網(wǎng)絡(luò),在優(yōu)化速度、實時渲染和生成質(zhì)量方面相比NeRF均具有明顯優(yōu)勢。3DGS在運動恢復(fù)結(jié)構(gòu)(structurefrommotion,SfM)[5]生成的稀疏點云上創(chuàng)建三維高斯點,其性能強烈依賴于初始化點的數(shù)量和精度。在稀疏視圖輸入條件下,SfM生成的點云數(shù)量減少,導(dǎo)致3DGS難以收斂,優(yōu)化速度變慢。同時,稀疏的輸人視圖無法為三維重建提供充足的約束條件,使得三維人體場景結(jié)構(gòu)的模糊性和歧義性顯著增強,導(dǎo)致模型過擬合、渲染質(zhì)量較差等問題。
本文基于3DGS,提出了一種結(jié)合人體和深度先驗的稀疏視圖三維人體重建方法DHGS。針對稀疏視圖輸入條件下初始化點數(shù)量和精度不足的問題,引人蒙皮多人線性模型(skinnedmulti-personlinearmodel,SMPL)為三維高斯場景提供結(jié)構(gòu)化幾何人體先驗,生成密集的初始三維高斯點。引入單目深度估計模型得到密集深度信息,為了解決估計深度中的尺度模糊性,使用SMPL模型的深度渲染結(jié)果進行深度調(diào)整,從而作為額外幾何約束增強重建的完整性和準(zhǔn)確性。利用三維高斯濺射自身的泛化能力,通過合成偽視圖進一步提高幾何一致性。
1相關(guān)工作
1.1基于神經(jīng)輻射場的稀疏視圖三維重建方法
神經(jīng)輻射場(NeRF)使用深度神經(jīng)網(wǎng)絡(luò)作為3D空間的表達(dá),根據(jù)大量輸入圖像的像素顏色優(yōu)化3D場景的顏色信息和幾何形狀,采用體積渲染技術(shù)獲得高質(zhì)量的場景視圖。然而,對密集圖像輸入的要求阻礙了其實際應(yīng)用,引發(fā)了僅使用少量圖像進行3D重建的研究。一類方法引入了對視圖之間變化的約束,DietNeRF[7]使用預(yù)訓(xùn)練的視覺編碼器提取高級語義屬性,添加語義一致性約束以確保該屬性在不同視圖中保持相同。 RegNeRF[8] 引入顏色和深度一致性損失,使用歸一化流模型來規(guī)范未觀察到的視點顏色。ViP-NeRF[9]修改了傳統(tǒng)的NeRF框架,以額外計算點的可見性實現(xiàn)在可見性約束下的性能改進。另一類方法通過深度監(jiān)督來解決稀疏視圖問題,SparseNeRF[10]使用預(yù)訓(xùn)練的深度估計模型獲取深度圖,然后將其用于局部深度排序損失,還應(yīng)用深度平滑度損失和空間連續(xù)性約束來鼓勵渲染的深度圖分段平滑。DSNeRF[11]使用SfM點進行深度監(jiān)督,添加損失以鼓勵光線終止深度的分布與給定的3D關(guān)鍵點匹配。然而,大多數(shù)稀疏視圖NeRF方法的處理速度較慢,內(nèi)存消耗巨大,導(dǎo)致時間和計算成本較高。
1.2基于三維高斯的稀疏視圖三維重建方法
三維高斯濺射(3DGS)是較新的三維重建方法,用濺射技術(shù)和顯式表示替換NeRF方法的體積渲染和神經(jīng)網(wǎng)絡(luò)可顯著減少訓(xùn)練時間,并允許在優(yōu)化過程中進行實時渲染,顯式的三維高斯表示相比隱式表示允許更直接的編輯和更直觀的解釋。為了緩解在輸入圖片數(shù)目受限的情況下3DGS性能下降的問題,SparseGS[12]將深度先驗與生成和顯式約束相結(jié)合,以減少背景折疊,消除漂浮物,并增強基于不同視點的幾何一致性,達(dá)到從稀疏訓(xùn)練視圖中訓(xùn)練高質(zhì)量360度場景的目的。FSGS[13]同樣采用深度監(jiān)督,提出了一種鄰近引導(dǎo)高斯解池方法來致密化高斯,從而提升3DGS的新視角泛化能力。CoherentGS[14]通過隱式卷積解碼器和總變化損失引入單視圖和多視圖約束,使用基于流的損失函數(shù)進一步約束優(yōu)化。DNGaussian[15]提出硬和軟兩部分的漸進式深度監(jiān)督流程,結(jié)合全局局部深度歸一化策略,有效提升了模型訓(xùn)練的速度與質(zhì)量,同時為了緩解優(yōu)化過程中的過擬合問題,將3DGS中的球諧系數(shù)替換為神經(jīng)網(wǎng)絡(luò)。CoR-GS[16]同時訓(xùn)練兩個高斯輻射場,通過協(xié)同修剪點云與偽視圖協(xié)同正則化的方法來識別和抑制不準(zhǔn)確重建。InstantSplat[17]將多視圖立體重建與基于點的表示集成在一起,使用Dust3r為三維高斯提供初始化點云和位姿,在幾秒鐘內(nèi)從稀疏視圖數(shù)據(jù)構(gòu)建大規(guī)模場景。由于人體具有復(fù)雜的幾何結(jié)構(gòu)和非剛性特性,通用的稀疏視圖3DGS方法難以直接應(yīng)用于三維人體,需要更具針對性的重建方法。
2 本文方法
本文提出的稀疏視圖三維人體重建方法DHGS共五個流程,包括稀疏視圖輸入、高斯初始化、自適應(yīng)深度調(diào)整、偽視圖合成和梯度傳播和優(yōu)化,如圖1所示。
視圖輸人階段需同時準(zhǔn)備人體前景掩碼、相機校準(zhǔn)位姿和預(yù)處理好的SMPL參數(shù)。進入重建過程首先進行高斯初始化,依據(jù)SMPL值初始化高斯基元的位置,將顏色和形狀屬性設(shè)為初始值,生成人體點云。其次執(zhí)行單目深度預(yù)測獲得深度預(yù)測值,基于SMPL渲染深度自適應(yīng)調(diào)整深度值。然后在模型優(yōu)化指定輪次后,合成偽視圖以進行后續(xù)優(yōu)化。最后通過點噴濺生成二維圖像和深度圖,計算圖像渲染誤差和深度值誤差,進行梯度傳播和優(yōu)化。
2.1 多視圖數(shù)據(jù)預(yù)處理
首先對多視角人體動作視頻進行幀提取和篩選獲得原始輸入圖像,使用 RVM[18] 得到高精度人體前景掩碼。隨后提取人體模型參數(shù),SMPLx[19]是基于 SMPL 模型的擴展,增加了面部表情和手部動作參數(shù),用于更精確地表示人體姿態(tài)和形狀。
該模型假設(shè)人體在基準(zhǔn)姿態(tài)下的幾何形狀不僅受身份屬性影響,同時不同的姿態(tài)屬性也會引起基準(zhǔn)姿態(tài)幾何形狀的非剛性變形。SMPLx模型 M(θ,β) 是由 ns=10475 個三維點組成的具有固定拓?fù)涞娜梭w網(wǎng)格, θ∈R72 和 β∈R10 表示人體關(guān)節(jié)旋轉(zhuǎn)姿態(tài)和統(tǒng)計模型中的超參數(shù),三維點中頂點表示人體的表面形狀,關(guān)節(jié)點表示人體內(nèi)部結(jié)構(gòu),通過調(diào)整頂點和骨骼的位置朝向,能夠模擬出不同的人體形態(tài)?,F(xiàn)有的人體模型參數(shù)估計方法用單張圖片估計,難以處理遮擋和估計不準(zhǔn)確等問題。為了從具有相機矩陣 R 的多個輸入視圖中估計準(zhǔn)確且均勻的SMPLx網(wǎng)格和參數(shù) θ?β ,首先使用隨機選擇的輸入圖像預(yù)測粗略結(jié)果作為初始化,然后擴展SMPLify[人體參數(shù)估計方法,將多視圖關(guān)節(jié)重投影誤差加入到優(yōu)化過程中:
其中: P={Pk∣k=1,…,K} 是使用OpenPose[20]估計出的2D關(guān)節(jié)位置; ωn,k 是圖像 In 中關(guān)節(jié) k 的對應(yīng)置信權(quán)重值; Jk 是在齊次坐標(biāo)系中由 θB 得出的3D關(guān)節(jié) k;s 和 χt 是SMPLx模型的比例因子和全局平移參數(shù) ;ρ 表示Geman-McClure損失函數(shù)。
然而,僅僅最小化多視圖關(guān)節(jié)重投影誤差可能會導(dǎo)致模型對人體形狀的擬合不當(dāng),這是因為關(guān)節(jié)位置對身體形狀的約束較為寬松。因此進一步定義SMPLx投影區(qū)域與圖像掩碼 M= {Mn∣n=1,…,N} 之間的交并比(IoU)誤差,以使預(yù)測出的模型更加精確地擬合到多視圖中的人體形狀。交并比誤差計算公式為
其中: T 是應(yīng)用于給定人體模型網(wǎng)格的可微分渲染函數(shù),使用透視投影輸出圖像對應(yīng)的2D掩碼,交并比誤差函數(shù)為 IoU(A, B)=|A∩B|/|A∪B| ,總能量函數(shù)可以寫為
Etotal=λprojEproj+λIoUEIoU+λθEθ(θ)+λaθEa(θ)+λβEβ(β) (3)其中: {λproj,λIoU,λθ,λa,λβ} 是函數(shù)權(quán)衡參數(shù); Eθ(θ) 是預(yù)定義的正則化項,用來防止生成不可能的姿勢和形狀。當(dāng)相機內(nèi)外參數(shù)給定時,通過以下方式優(yōu)化SMPLx參數(shù):
采用Adam梯度下降法來求解最優(yōu)解,直到它收斂到一個預(yù)定義的閾值,最終得到基于多視圖調(diào)整后的人體參數(shù)。
2.2基于SMPL模型的高斯初始化
3DGS使用三維高斯表示3D場景,這些高斯通過其位置、旋轉(zhuǎn)、縮放、不透明度以及與顏色相關(guān)的球諧系數(shù)進行參數(shù)化,對顏色和不透明度進行alpha混合,通過基于潑濺的渲染技術(shù)將高斯投影到二維平面來渲染圖像,第 i 個三維高斯可定義為
其中 εμi∈R3 是三維高斯的中心坐標(biāo);不透明度 oi∈[0,1] 和球諧函數(shù)參數(shù) Ci∈Rk(k 是自由度)用來渲染二維像素顏色。為了使三維高斯可微分并能通過梯度下降正則化優(yōu)化,協(xié)方差矩陣 Σi 可以分解為縮放矩陣 Si∈R+3 和旋轉(zhuǎn)矩陣 Ri∈SO(3) :
Σi=RiSiSiTRiT
3DGS的視圖渲染通過點潑濺執(zhí)行,三維高斯被投影到二維平面上形成二維高斯,該過程通過視圖變換 W 和投影變換J 仿射近似的雅可比行列式實現(xiàn),二維平面中的協(xié)方差矩陣Σi2D 可以計算為
對于渲染圖像中每個像素的顏色,通過按深度順序覆蓋該像素所有高斯的不透明度和顏色進行alpha混合來計算,渲染公式為
其中: N 表示覆蓋該像素的所有高斯; ci 是通過計算給定觀察變換 W 的球諧函數(shù)獲得的顏色; ai 由該像素位置的投影二維高斯的密度乘以三維高斯的不透明度 oi 得出。3DGS優(yōu)化過程如圖2所示。
在優(yōu)化期間,首先通過運動恢復(fù)結(jié)構(gòu)(SfM)初始化三維高斯,隨后使用潑濺技術(shù)生成預(yù)測的二維圖像,計算與真實值之間的損失,最后反向優(yōu)化高斯參數(shù)并自適應(yīng)地控制這組三維高斯的密度。高斯自適應(yīng)控制包括分割、克隆和剪枝三種,如果大梯度高斯的縮放矩陣大小大于閾值,它將被分割成更小的高斯,反之則將被克隆。分割和克隆過程增加了高斯的數(shù)量,修剪操作則消除了不透明度過小或縮放幅度過大的高斯。
當(dāng)前的三維高斯濺射方法使用SfM生成的稀疏點云進行初始化,SfM點為初始三維高斯提供了基本的顏色和位置信息,但其固有的稀疏性使得模型需要大量的優(yōu)化時間來致密和細(xì)化高斯,以實現(xiàn)充分的3D人體重建。尤其是在稀疏視圖輸入情況下,SfM得到的點云極其稀疏,不穩(wěn)定的初始化三維高斯還會導(dǎo)致重建結(jié)果與訓(xùn)練視圖過擬合。為解決該問題,本文方法引入?yún)?shù)化人體模型作為人體幾何先驗,采用多視圖擬合校準(zhǔn)的SMPL點云取代稀疏SfM點集進行三維高斯初始化,這可以構(gòu)建三維高斯對人體結(jié)構(gòu)的初步感知,增強模型在不同人體形狀、不同動作姿勢下的泛化性。此外,根據(jù)人體先驗約束三維高斯的最小形狀,在具有頂點集合 V 的SMPL模型中,通過計算最小頂點坐標(biāo) pmin=(xmin,ymin,zmin) 和最大頂點坐標(biāo)pmax=(xmax,ymax,zmax) 得到其包圍框的尺寸 s 和中心點 c ·
S=(xmax-xmin,ymax-ymin,zmax-zmin)
根據(jù)比例因子 η 擴展包圍框,以增強其魯棒性,調(diào)整后的包圍框尺寸 S′=ηS ,在三維高斯優(yōu)化過程中限制新高斯點的中心坐標(biāo)在包圍框范圍內(nèi)?;赟MPL人體模型的高斯初始化過程利用三維先驗?zāi)P蛠硖峁姶蟮膱鼍敖Y(jié)構(gòu)以及充足的高斯基元來構(gòu)建場景,最大限度地減少了稀疏SfM點集稀疏性和不穩(wěn)定性的影響,有效縮短了高斯優(yōu)化的時間,增強了重建質(zhì)量。
2.3基于深度先驗的高斯正則化
3DGS通過三維高斯來表示3D場景,從而產(chǎn)生優(yōu)質(zhì)視覺效果。然而,在稀疏視圖輸入情況下,觀測不足限制了其對幾何一致性的學(xué)習(xí)能力,導(dǎo)致了模型過擬合的風(fēng)險,同時也會影響到對新視圖的泛化能力。因此需要提供全局的幾何信息,以引導(dǎo)生成的新視圖符合合理的人體幾何形狀。深度已被證實是一種高效的幾何先驗[12],但其構(gòu)造存在一定的困難:SfM點的密度依賴于圖像的數(shù)量,因此得到的點數(shù)量過少,無法直接在稀疏輸入的情況下得到有效深度。為了解決這一問題,引入單目深度估計模型[21],使用其生成的密集深度信息來指導(dǎo)三維高斯,引導(dǎo)高斯幾何模型朝著合理的方向優(yōu)化。輸入訓(xùn)練圖像1,單目深度估計模型 Fθ 輸出密集深度 Dest
Dest=s?Fθ(I)+t
為了解決估計的密集深度 Dest 中的尺度模糊性,根據(jù)SMPL人體模型參數(shù)生成的人體網(wǎng)格,從指定相機位姿渲染SMPL深度進行自適應(yīng)深度調(diào)整:
深度圖是通過計算每個像素的深度值來生成的。其中: n 是圖像中像素的總數(shù); Zc(xi,yi) 是對應(yīng)于像素 (xi,yi) 的相機坐標(biāo)系中頂點的 z 坐標(biāo); Vc(xi,yi) 是頂點到相機中心的距離。之后將估計深度的尺度 s 和偏移 χt 調(diào)整為SMPL模型的渲染深度:
其中: w∈[0,1] 表示每個特征點的可靠性歸一化權(quán)重,該可靠性被計算為來自SMPL模型的重投影誤差的倒數(shù)。最后,使用調(diào)整后的預(yù)測深度 Dest=s??Fθ(I)+t? 來正則化3DGS的優(yōu)化損失。
利用光柵化管道來渲染三維高斯濺射的深度圖,為了在引導(dǎo)高斯優(yōu)化之前啟用深度的反向傳播,實現(xiàn)了可微深度光柵化方法,允許高斯模型接收渲染深度 Dres 和估計深度 Dest 之間的誤差信號。具體來說,利用三維高斯濺射中的alpha混合渲染進行深度光柵化,其中對像素有貢獻的有序高斯的 z 值被累積以生成深度值:
其中: di 代表第 χi 個高斯的 z 值,完全可微的光柵化實現(xiàn)了深度相關(guān)損失,進一步提高了渲染深度和估計深度之間的相似度。最后,使用L1距離將渲染深度引導(dǎo)至估計的密集深度:
2.4基于偽視圖合成的數(shù)據(jù)增強
三維高斯方法在稀疏視圖輸入條件下進行三維人體重建時,由于輸入視圖較少的限制,容易導(dǎo)致模型過度擬合輸入視圖,使得除輸人視角外的其他重建結(jié)果過度拉伸,存在不合理的幾何形狀等問題。這是因為稀疏的二維視圖不能為三維重建提供充足的幾何約束條件,尤其是在紋理特征較少的區(qū)域,直接將3DGS應(yīng)用于稀疏視圖場景會導(dǎo)致嚴(yán)重的性能下降。通過生成偽視圖可以解決上述問題,因為在訓(xùn)練數(shù)據(jù)中包含更多視圖會對輸出質(zhì)量產(chǎn)生積極影響,額外的視圖可以改善細(xì)節(jié)和紋理的表示,同時減少模糊性和偽影。偽視圖的不同視點從新穎的角度貢獻了新數(shù)據(jù),有助于消除場景的幾何和視覺屬性的歧義。
使用優(yōu)化的三維高斯模型圍繞原始視圖合成偽視圖,并采用視圖選擇策略來提高訓(xùn)練視圖覆蓋范圍并保持視圖質(zhì)量。在后續(xù)的優(yōu)化過程中引入合成的偽視圖來將更多先驗知識納入高斯場景,進而增強新穎視圖合成的幾何一致性。合成視圖是從歐幾里德空間中兩個最接近的訓(xùn)練視圖中采樣的,計算平均相機方向并在它們之間插入一個虛擬方向,然后渲染圖像:
P′=(t+ε,q),ε~N(0,δ)
其中: t∈P 表示相機位置; q 表示兩個相機平均旋轉(zhuǎn)的四元數(shù)。這種合成偽視圖的數(shù)據(jù)增強方法可以實現(xiàn)動態(tài)幾何更新,三維高斯將逐步更新,從而降低過擬合的風(fēng)險。
3 實驗結(jié)果與分析
3.1數(shù)據(jù)集
為驗證DHGS的稀疏視角人體三維重建性能,在ZJUMoCap[2]、GeneBody[23]和 DNA-Rendering[24]數(shù)據(jù)集上進行實驗。三個數(shù)據(jù)集均為多視角動態(tài)人體數(shù)據(jù)集,人體動作視頻由360度環(huán)繞中心人體的多個均勻分布的同步攝像機拍攝,攝像機被調(diào)整為指向中心,即表演者的位置。ZJU-MoCap數(shù)據(jù)集包含10段人類表演視頻序列,每個序列由23部同步攝像機拍攝,序列長度在 60~300 幀,視頻分辨率為 1024×1024 。GeneBody數(shù)據(jù)集由48部同步攝像機拍攝的50個視頻序列組成,包括超過295萬幀的100個主題,每個序列有150幀,視頻分辨率為2448×2048 。DNA-Rendering數(shù)據(jù)集包含1500多個人類受試者 ?5000 個運動序列和67.5M幀的數(shù)據(jù)量,本文使用其中48臺 2448×2048 工業(yè)相機拍攝的數(shù)據(jù)。由于每個視頻序列的長度不同和靜態(tài)人體重建的需要,在每個數(shù)據(jù)集中選取4個代表性序列,序列中每30幀提取1幀靜態(tài)人體圖像,選擇水平位置上四個均勻圍繞中心人體(即前、后、左、右)的相機視角,以512×512 分辨率的視圖訓(xùn)練模型,并在其余相機視圖上評估重建效果。
3.2 評價指標(biāo)
稀疏視角三維人體重建的結(jié)果采用峰值信噪比(peaksignal-to-noiseratio,PSNR)、結(jié)構(gòu)相似性指數(shù)(structuralsimilari-tyindex,SSIM)和學(xué)習(xí)感知圖像塊相似度(leamedperceptualimagepatchsimilarity,LPIPS)三個指標(biāo)來評估。
a)峰值信噪比(PSNR):基于原始圖像和生成圖像之間的均方誤差(MSE)定義,是用于衡量圖像重建質(zhì)量的客觀評價指標(biāo),用MSE計算PSNR值。
其中: Lmax 為圖像的最大像素值;PSNR以分貝(dB)為單位,數(shù)值越大表明重建的圖像質(zhì)量越高,越接近真實結(jié)果。
b)結(jié)構(gòu)相似性指數(shù)(SSIM):用于衡量兩張圖像相似度的指標(biāo),它更加符合人眼的視覺感知特性。SSIM的計算涉及亮度、對比度和結(jié)構(gòu)三個分量,在實際應(yīng)用中將三者的權(quán)重系數(shù)均設(shè)為1,可得公式為
其中: ux 和 uy 是圖像 x 和 y 在局部窗口的均值; σx 和 σy 是圖像 x 和 y 的方差; σxy 是兩圖像的協(xié)方差; c1=(K1L)2,c2= (K2L)2 以及 c3=c2/2 是為了避免分母為零而引入的常數(shù); K1 與 K2 默認(rèn)為0.01和 0.03:L 是像素值的動態(tài)范圍。SSIM的計算基于滑動窗口實現(xiàn),為了得到整個圖像的SSIM值,對圖像進行滑動窗口操作,計算每個窗口的SSIM值,然后對所有窗口的SSIM值取平均。
c)學(xué)習(xí)感知圖像塊相似度(LPIPS):利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)的特征提取能力,以模擬人類視覺系統(tǒng)對圖像差異的感知,用來衡量圖像之間的感知差異。
其中: dLPIPS 為 x 與 x0 之間的距離。從 L 層提取特征并在通道維度中進行單位規(guī)格化,利用向量 wl 來放縮激活通道數(shù),計算L2距離,最后在空間上平均,通道上求和。
3.3 實驗細(xì)節(jié)
實驗環(huán)境為Ubuntu20.04,Python3.7.13,PyTorch1.12.1,CUDA11.6,硬件環(huán)境為IntelXeonW-2255CPU,NVIDIAGe-ForceRTX3090GPU,64GBRAM,所有實驗均在相同配置下進行。輸入數(shù)據(jù)在ZJU-MoCap數(shù)據(jù)集上選擇“0、6、12、18”號相機視圖,GeneBody和DNA-Rendering數(shù)據(jù)集上選擇“1、13、25、37”號相機視圖,使用數(shù)據(jù)集中提供的相機內(nèi)外參數(shù)和前景掩碼,由于三維高斯的原始版本默認(rèn)使用中心點作為主點,但主點在GeneBody和DNA-Rendering數(shù)據(jù)集中被定義為其他值,渲染的新視圖會發(fā)生錯位,實驗中重寫了數(shù)據(jù)讀取和處理方法以使結(jié)果正確。數(shù)據(jù)預(yù)處理過程中,將圖像和對應(yīng)的人體前景掩碼更改為 512×512 像素,盡量確保人物位于中心。利用預(yù)訓(xùn)練的DepthAnything V2[21] 進行單目深度估計,同時將圖像背景設(shè)為黑色。在優(yōu)化過程中,所有數(shù)據(jù)集的總優(yōu)化步驟設(shè)置為30000,在20000次迭代后對偽視圖進行采樣。
3.4消融實驗分析
為驗證本文所提各模塊的有效性,在GeneBody數(shù)據(jù)集上針對高斯初始化、深度監(jiān)督和偽視圖合成三個模塊以3DGS為基線進行了消融實驗,分別驗證各模塊及其組合的三維人體重建效果。實驗結(jié)果為序列中選取人體場景重建結(jié)果的平均值,如表1所示,除增減相關(guān)模塊外,實驗參數(shù)設(shè)置均保持一致。
表1消融實驗結(jié)果Tab.1Ablation study results
由表1消融實驗結(jié)果可知,作為基線的3DGS方法因缺少額外的約束導(dǎo)致重建指標(biāo)較差,在3DGS方法中分別添加高斯初始化、深度監(jiān)督和偽視圖合成三個模塊后,重建結(jié)果均有不同程度的提高。效果最好的深度監(jiān)督模塊,使基線方法的PSNR提高了 19% ,偽視圖合成模塊也能將基線提升 13% 。而高斯初始化讓重建結(jié)果提升 5% ,明顯不如其余模塊,SMPL人體點云為高斯場景提供了初始結(jié)構(gòu)化感知,它對重建結(jié)果的影響會因優(yōu)化過程中的自適應(yīng)密度控制而降低,但相比基線使用的SFM點,高斯初始化仍是提升結(jié)果的重要模塊。圖3為消融實驗人體重建可視化結(jié)果。
在3DGS基線方法中,重建模型因過度擬合訓(xùn)練視圖,從而產(chǎn)生了明顯分散與割裂的結(jié)果,尤其是在面部、手部和服裝等細(xì)節(jié)區(qū)域。SMPL點云帶來的結(jié)構(gòu)化人體先驗一定程度上緩解了這種割裂,深度監(jiān)督和偽視圖合成模塊進一步為高斯模型提供了幾何約束,豐富了結(jié)構(gòu)和視覺細(xì)節(jié),使重建結(jié)果更加貼近真實人體。深度監(jiān)督模塊通過深度數(shù)據(jù)引導(dǎo)三維高斯的參數(shù)向更合理的幾何形狀優(yōu)化,有效地消除了人體重建結(jié)果中的裂縫。偽視圖合成模塊為稀疏的訓(xùn)練集提供了更多視點,該模塊將三維高斯錨定到合理的幾何形狀,顯著增強了生成新視圖的穩(wěn)定性。三種模塊的組合使本文方法相比基線模型
PSNR提升了 32% ,SSIM提升了 3.4% ,LPIPS降低了 23% ,證明本文提出的各模塊能有效提升稀疏視圖三維人體重建的效果。
3.5 與現(xiàn)有方法的對比實驗
為驗證稀疏視圖三維人體重建效果,將DHGS與3DGS、Neural Body[22] NHR[25] ) IBRNet[26] 、AnimatableNeRF[27]和 Hu-(2號 manNeRF[28] 在 ZJU-MoCap、GeneBody 和 DNA-Rendering 數(shù)據(jù)集上進行對比實驗,在表2中列出了不同方法的人體重建質(zhì)量定量結(jié)果。
表2展示了七種人體重建方法在ZJU-MoCap、GeneBody和DNA-Rendering數(shù)據(jù)集上的PSNR、LPIPS和SSIM三種評價指標(biāo)數(shù)據(jù)。由對比實驗結(jié)果可知,DHGS在三個指標(biāo)上均能取得最佳結(jié)果,尤其是在ZJU-MoCap和GeneBody兩個數(shù)據(jù)集上,LPIPS能達(dá)到平均值0.079,顯著優(yōu)于對比方法,證明DHGS的人體重建效果在人眼感知上更為接近真實值。DHGS方法在PSNR和SSIM評價上也取得了較好結(jié)果,在ZJU-MoCap和GeneBody兩個數(shù)據(jù)集上,PSNR達(dá)到平均值25.50,相較Neural
Body、NHR和IBRNet方法有所提升,較3DGS方法提升顯著,SSIM達(dá)到均值0.935,顯示DHGS與其他主流稀疏人體重建方法相比重建效果有較大提高,顯著提升了3DGS處理稀疏視圖人體重建任務(wù)的性能。
圖4展示了三個數(shù)據(jù)集上的對比實驗人體重建效果及其關(guān)節(jié)、頭部和衣物細(xì)節(jié)。3DGS方法依賴于密集的輸入視圖來擬合特定的人體形狀,而當(dāng)輸入減少時,其性能指標(biāo)會顯著降低。3DGS因缺少幾何約束,在四視圖輸入的條件下難以收斂,導(dǎo)致重建效果不佳,但仍然能呈現(xiàn)符合直覺的圖像輪廓,體現(xiàn)了3DGS技術(shù)的強大能力。NHR、NeuralBody、AnimatableNeRF和HumanNeRF都采用了強大的人類先驗知識指導(dǎo)模型優(yōu)化,包括SMPL網(wǎng)格、混合權(quán)重和運動先驗知識等,因此它們相比3DGS對稀疏輸入視圖更加魯棒,重建效果普遍具有合理的人體形狀。NHR使用卷積網(wǎng)絡(luò)渲染圖像,在恢復(fù)幾何結(jié)構(gòu)時存在表面細(xì)節(jié)丟失的問題,導(dǎo)致重建模型呈現(xiàn)出過度的平滑性。原因在于其網(wǎng)絡(luò)結(jié)構(gòu)未能有效捕捉和表達(dá)高頻率的細(xì)節(jié)信息。
NeuralBody和AnimatableNeRF首先從SMPL計算3D邊界框,然后在重新投影的3D框區(qū)域上訓(xùn)練。因此,它們的SSIM分?jǐn)?shù)通常大于推斷整個圖像的其他方法。HumanNeRF引入專注于人體的運動先驗,這種先驗可能導(dǎo)致在寬松衣服對象上的訓(xùn)練失敗。IBRNet學(xué)習(xí)通用的視圖插值函數(shù),對于遠(yuǎn)離輸入視角的新視圖泛化能力較差。DHGS使用深度和人體先驗,結(jié)合偽視圖合成技術(shù),克服了其他方法的缺點,人體重建效果接近真實值,具有高質(zhì)量的細(xì)節(jié)表現(xiàn)。
在表3中展示了更多對比評估指標(biāo),各模型在圖像分辨率為 512×512 的情況下體量較小。得益于3DGS的高斯點云表示,DHGS不使用深度神經(jīng)網(wǎng)絡(luò),模型大小相比基于NeRF的方法大幅降低,訓(xùn)練時間由平均 14h 降低到僅有 5min ,同時每秒渲染幀數(shù)大幅上升,能達(dá)到119fps,可實現(xiàn)人體的實時渲染。3DGS的每個基元需要59個浮點數(shù)來存儲,該數(shù)量遠(yuǎn)低于深度神經(jīng)網(wǎng)絡(luò)所需的參數(shù)量。
4結(jié)束語
在三維高斯濺射算法的基礎(chǔ)上,提出一種基于深度正則化的三維人體重建算法DHGS。通過SMPL人體參數(shù)化模型提供的人體幾何先驗,為高斯場景提供密集的結(jié)構(gòu)化初始高斯基元。使用深度先驗正則化高斯?jié)姙R過程,通過實驗證明了這種幾何指導(dǎo)的有效性。為了獲得密集的深度引導(dǎo),采用預(yù)訓(xùn)練的單目深度估計模型,并根據(jù)SMPL人體網(wǎng)格模型的深度渲染結(jié)果自適應(yīng)調(diào)整深度。在高斯場景優(yōu)化指定次數(shù)后合成偽視圖來執(zhí)行額外幾何約束。在ZJU-MoCap、Gene-Body和DNA-Rendering三個數(shù)據(jù)集上分別與3DGS、NeuralBody、NHRIBRNet、AnimatableNeRF和HumanNeRF方法進行對比。相較于上述算法,DHGS生成的人體新視圖圖像質(zhì)量接近目標(biāo)圖像,各項分析指標(biāo)有了較大的提升。在GeneBody數(shù)據(jù)集中檢查了提出的高斯初始化、深度監(jiān)督和偽視圖合成模塊的有效性,結(jié)果顯示所提算法各模塊能提高基于三維高斯濺射的三維重建性能。
DHGS通過深度正則化提高了三維高斯濺射在稀疏人體場景的重建質(zhì)量,但方法仍具有局限性。首先,該方法嚴(yán)重依賴于單目深度估計模型的性能,不正確的深度預(yù)測會導(dǎo)致重建結(jié)果偏離合理形狀。其次,本文方法使用SMPL頂點初始化高斯基元并將估計深度擬合到SMPL頂點來調(diào)整尺度,即使高斯基元會被不斷優(yōu)化,SMPL參數(shù)的準(zhǔn)確性仍會影響重建性能。此外,算法結(jié)果仍存在較多的空中浮點和偽影,細(xì)節(jié)部分有撕裂和模糊情況。未來將探索使用更先進的多視圖深度估計方法,利用多視角數(shù)據(jù)對深度值進行校準(zhǔn)以增強其準(zhǔn)確性,引人寬松的相對損失來減少深度預(yù)測不準(zhǔn)確的影響,探索剪枝和知識蒸餾等技術(shù)在減少冗余偽影、提升細(xì)節(jié)表現(xiàn)方面的作用。
參考文獻:
[1]陳雅麗,李海生,王曉川,等.基于先驗知識的單視圖三維點云重 建算法研究[J].計算機應(yīng)用研究,2023,40(10):3168-3172. (ChenYali,Li Haisheng,Wang Xiaochuan,etal.Single-view 3D point cloud reconstruction algorithm based on priori knowledge[J]. Application Researchof Computers,2023,40(10) :3168-3172.)
[2]陳素雅,何宏.基于特征點動態(tài)選擇的三維人臉點云模型重建 [J].計算機應(yīng)用研究,2024,41(2):629-634.(Chen Suya,He Hong.3D face point cloud model reconstruction based on dynamic selection of feature points[J].Application Research of Computers, 2024,41(2):629-634.)
[3]Mildenhall B,Srinivasan P P,Tancik M,et al. NeRF: representing scenes as neural radiance fields for view synthesis[J].Communicationsof the ACM,2021,65(1) :99-106.
[4]Kerbl B,Kopanas G,Leimkuehler T,et al.3D Gaussian splatting for real-time radiance field rendering[J]. ACM Trans on Graphics, 2023,42(4) :139.
[5]Snavely N,Seitz S M,Szeliski R.Photo tourism;exploring photo collections in 3D[J].ACMTrans on Graphics,2006,25(3):835- 846.
[6]Bogo F,Kanazawa A,LassnerC,etal.Keep it SMPL:automatic estimation of 3D human pose and shape from a single image[C]//Proc of the 14th European Conference on Computer Vision. Cham:Springer, 2016:561-578.
[7]Jain A,Tancik M,Abbeel P.Putting NeRF on a diet: semantically consistent few-shot view synthesis[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway,NJ: IEEE Press, 2021:5865-5874.
[8]Niemeyer M,Barron JT,Mildenhall B,et al. RegNeRF: regularizing neural radiance fields for view synthesis from sparse inputs[C]//Proc of IEEE/CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press,2022:5470-5480.
[9]Somraj N,Soundararajan R,Somraj N,et al. ViP-NeRF:visibility prior for sparse input neural radiance fields[C]//Proc of ACM SIGGRAPH Conference.New York:ACM Press,2023:1-11.
[10]Wang Guangcong,Chen Zhaoxi,LoyC C,etal.SparseNeRF:distilling depth ranking for few-shot novel view synthesis[C]//Proc of IEEE/ CVFInternational Conference on Computer Vision.Piscataway,NJ: IEEE Press,2023:9031-9042.
[11]DengKangle,Liu A,Zhu Junyan,etal.Depth-supervised NeRF:fewer viewsand faster training for free[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ: IEEE Press,2022:12872-12881.
[12]XiongHaolin,Muttukuru S,Upadhyay R,et al.SparseGS:real-time 360° sparse view synthesis using Gaussian splatting [EB/OL]. (2023)[2024-05-27]. htps://arxiv.org/abs/2312.00206.
[13]Zhu Zehao,F(xiàn)an Zhiwen,Jiang Yifan,et al.FSGS:real-time few-shot view synthesis using Gaussian splatting[EB/OL]. (2023)[2024-05- 27]. https://arxiv.org/abs/2312.00451.
[14]Paliwal A,Ye Wei,XiongJinhui,etal.CoherentGS:sparse novel view synthesis with coherent 3D Gaussians[EB/OL].(2024)[2024-05- 27]. https://arxiv.org/abs/2403.19495. puo view 3D Gaussian radiance fields with global-local depth normalization [C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2024:20775-20785.
[16]Zhang Jiawei,Li Jiahe,Yu Xiaohan,et al. CoR-GS: sparse-view 3D Gaussian splatting via co-regularization[EB/OL].(2024)[2024-05- 27]. https://arxiv.org/pdf/2405.12110.
[17]Fan Zhiwen,Wen Kairun,Cong Wenyan,et al.InstantSplat: sparseview SfM-free Gaussian splatting in seconds[EB/OL].(2024- 03- 29).https://arxiv.org/abs/2403.20309.
[18]Lin Shanchuan,YangLinjie,SaleemiI,etal.Robust high-resolution video matting with temporal guidance[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Piscataway,NJ: IEEE Press,2022:3132-3141.
[19]Pavlakos G,Choutas V,Ghorbani N,et al.Expressve body capture: 3D hands,face,and body from a single image[C]//Proc of IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEEPress,2019:10967-10977.
[20]Cao Zhe,Simon T,Wei Shihen,et al.Realtime multi-person 2D pose estimation using part affinity fields[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2017:1302-1310.
[21]Yang Lihe,Kang Bingyi,Huang Zilong,et al.Depth anythingV2[EB/ OL].(2024)[2024-06-13].https://arxiv.org/abs/2406.09414.
[22]Peng Sida,Zhang Yuanqing,Xu Yinghao,et al.Neural body:implicit neural representations with structured latent codes for novel view synthesis of dynamic humans[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2021:9050-9059.
[23] Cheng Wei,Su Xu,Piao Jingtan,et al. Generalizable neural performer:learning robust radiance fields for human novel view synthesis [EB/OL]. (2022)[2022-04-25]. https://arxiv.org/abs/2204. 11798
[24]ChengWei,Chen Ruixiang,F(xiàn)an Siming,et al.DNA-rendering:a diverse neural actor repository for high-fidelity human-centric rendering [C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2023:19925-19936.
[25]Wu Minye,WangYuehao,Hu Qiang,etal.Multi-viewneural human rendering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:1679-1688.
[26]Wang Qianqian,Wang Zhicheng, Genova k,et al. IBRNet: learning multi-view image-based rendering[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ: IEEE Press,2021:4688-4697.
[27] Peng Sida,Dong Junting,Wang Qianqian,et al.Animatable neural radiance fields formodeling dynamic human bodies[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ:IEEE Press,2021:14314-14323.
[28]Weng C,Curless B,Srinivasan PP,et al.HumanNeRF:free-viewpoint rendering of moving people from monocular video[C]//Proc of IEEE/ CVF Conference on Computer Vision and Patern Recognition.Piscataway,NJ:IEEE Press,2022:16189-16199.