摘要:針對(duì)現(xiàn)有基于三維表面重建的圖像重照明方法存在紋理噪點(diǎn)、重照明質(zhì)量不足及特征空間利用率低等問題,文章提出一種基于單張量輻射場(chǎng)的數(shù)字服裝重照明方法。該方法首先利用球面高斯函數(shù)和多層感知機(jī),分別模擬環(huán)境直射光和服裝表面間的間接反射光,以構(gòu)建一個(gè)精準(zhǔn)的入射光場(chǎng);接著通過引入梯度引導(dǎo)平滑策略,優(yōu)化從特征空間中提取雙向反射分布函數(shù)模型參數(shù)的過程。最后,利用簡(jiǎn)化的反射率方程,結(jié)合入射光場(chǎng)、雙向反射分布模型及特征空間,成功地渲染出高質(zhì)量的服裝重照明圖像。實(shí)驗(yàn)結(jié)果表明,該方法有效地減少了服裝紋理噪點(diǎn),顯著降低了服裝重照明的失真現(xiàn)象。相較于先進(jìn)方法,該方法在生成服裝新視角圖像方面,各項(xiàng)評(píng)估指標(biāo)的平均提升約9.922%;在服裝重照明結(jié)果方面,各項(xiàng)評(píng)估指標(biāo)的平均提升約4.549%。
關(guān)鍵詞:?jiǎn)螐埩枯椛鋱?chǎng);特征空間;服裝重照明;3D維重建;圖像生成;雙向反射分布函數(shù)
中圖分類號(hào):TS101.8
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):10017003(2025)01008509
DOI:10.3969 j.issn.1001-7003.2025.01.010
基金項(xiàng)目:浙江省“尖兵” “領(lǐng)雁”研發(fā)攻關(guān)計(jì)劃項(xiàng)目(2023C01224);浙江省科技計(jì)劃重大科創(chuàng)平臺(tái)項(xiàng)目(2024SJCZX0026)
作者簡(jiǎn)介:陳鑫磊(1999),男,碩士研究生,研究方向?yàn)橹悄軘?shù)字化服裝處理。通信作者:鄭軍紅,講師,博士,zjhist@zstu.edu.cn。
服裝作為時(shí)尚元素的核心載體,不僅反映了時(shí)尚的潮流,更展示了人們對(duì)于個(gè)性和自我表達(dá)的內(nèi)在渴望。隨著生活品質(zhì)的提升,人們對(duì)于穿著美感的要求日益精細(xì)。如在試穿服裝前,人們往往需要了解服裝在各種不同場(chǎng)合和光照條件下的呈現(xiàn)效果,并能從不同視角進(jìn)行審視,以便作出更全面的評(píng)估。因此,如何讓用戶便捷且真實(shí)地預(yù)覽服裝在各種光照下的外觀,即數(shù)字服裝的重照明(relighting)[1-2]效果展示,是一個(gè)重要課題。傳統(tǒng)的圖像重照明方法[3-4]主要聚焦于對(duì)二維圖像的處理。如文獻(xiàn)[3]利用采樣網(wǎng)絡(luò)從輸入圖像中合成場(chǎng)景外觀,并通過深層的重照明卷積神經(jīng)網(wǎng)絡(luò)對(duì)輸入光照和圖像進(jìn)行編解碼,從而得出原始圖像的重照明效果。而文獻(xiàn)[4]則采用輸入的RGB與深度圖像,通過解碼網(wǎng)絡(luò)獲取物體的反照率、法向圖等物理特性,再利用神經(jīng)網(wǎng)絡(luò)對(duì)物體表面的雙向反射分布函數(shù)(BRDF)進(jìn)行建模,最后經(jīng)過合成網(wǎng)絡(luò)得出重照明的結(jié)果。然而,這些傳統(tǒng)方法在處理多視角的重照明任務(wù)時(shí),由于其輸入的二維圖像缺乏三維信息,一般難以達(dá)到理想的效果。為克服這一局限,引入包含三維信息的網(wǎng)絡(luò)模型顯得尤為重要,而神經(jīng)輻射場(chǎng)(Nerf)[5]相關(guān)技術(shù)則較好地滿足這一需求。它利用一系列由同步相機(jī)拍攝的目標(biāo)物體或場(chǎng)景圖像來構(gòu)建輻射場(chǎng),并采用多層感知機(jī)(MLP)、體素網(wǎng)格[6-7]、多張量場(chǎng)[8]等方式來表示目標(biāo)對(duì)象或場(chǎng)景,將剛體視為空間中相互遮擋的光源(即發(fā)射和吸收光的粒子),從而對(duì)整個(gè)空間進(jìn)行優(yōu)化。此外,張量輻射場(chǎng)[9](TensoRF)作為一種基于多張量場(chǎng)表示的輻射場(chǎng)模型,通過張量分解算法將高維張量分解為多個(gè)低維張量,不僅顯著提升了模型的收斂速度,還能在其構(gòu)建的場(chǎng)景特征空間中更準(zhǔn)確地解碼出目標(biāo)對(duì)象的紋理、深度、法向量等特征。
近年來,眾多研究以神經(jīng)輻射場(chǎng)模型為基石,結(jié)合先進(jìn)的神經(jīng)網(wǎng)絡(luò)和光照模型,實(shí)現(xiàn)了對(duì)簡(jiǎn)單場(chǎng)景進(jìn)行多視角重照明的任務(wù)。Srinivasan等[10]就做了反射率方程與Nerf模型相結(jié)合的工作,其打破了閃光燈假設(shè),并優(yōu)化了環(huán)境照明建模:它考慮了單反射間接照明,并引入了可見度的概念來表示能夠反射光的能量粒子的比例,從而提高了反射率方程的靈活性。Zhang等[11]采用兩階段策略,解耦了Nerf中的幾何建模和顏色渲染:首先利用Nerf重建目標(biāo)對(duì)象或場(chǎng)景的幾何體,然后使用多個(gè)多層感知機(jī)來回歸BRDF結(jié)果和重照明結(jié)果。此外,文獻(xiàn) [12-13]等方法更進(jìn)一步地利用了球面高斯,這種更接近真實(shí)物理世界的球面逼近方式。通過將環(huán)境貼圖數(shù)據(jù)映射到球面,這些方法更好地捕捉了環(huán)境中的光照和反射特性。然而,目前的研究主要應(yīng)用于無邊界的大場(chǎng)景或一些具有高光弧面的剛性物體,如頭骨、玻璃球等。當(dāng)其應(yīng)用于三維服裝數(shù)據(jù)時(shí),會(huì)面臨一些問題:首先是紋理噪點(diǎn)問題。由于服裝表面通常帶有復(fù)雜的紋理,使用Nerf作為基礎(chǔ)的特征空間構(gòu)建模型往往無法精確地從圖像中提取服裝的紋理信息,從而導(dǎo)致重照明結(jié)果中紋理的缺失。其次是重照明失真問題。服裝作為柔性物體,與剛性物體在光照模型的適配上存在差異。直接使用多個(gè)球面高斯或神經(jīng)網(wǎng)絡(luò)來建立準(zhǔn)確的光照模型是比較困難的,因而現(xiàn)有的光場(chǎng)模型容易導(dǎo)致服裝重照明結(jié)果的光照亮度失真。
為了解決上述問題,本文提出了一種基于特征空間的服裝重照明方法。針對(duì)重照明結(jié)果紋理失真問題,本文改進(jìn)了文獻(xiàn)[9]中的張量輻射場(chǎng)模型,并利用其構(gòu)建數(shù)字服裝的特征空間。這提升了特征空間從圖像中獲取紋理特征的能力,并有效地減少了紋理噪點(diǎn)。同時(shí),為解決重照明失真問題,本文構(gòu)建了一個(gè)更適合服裝模型的入射光場(chǎng)。此外,在BRDF模型的訓(xùn)練過程中,本文引入了梯度引導(dǎo)平滑項(xiàng),從而能夠回歸出更加準(zhǔn)確的服裝表面粗糙度和反照率。這使得本文的模型能夠渲染出更加接近真實(shí)樣本的重照明結(jié)果。
1 服裝重照明方法
本文所構(gòu)建的服裝重照明方法通過反射率渲染方程進(jìn)行計(jì)算,其輸入由三個(gè)核心部分組成,即服裝表面幾何、環(huán)境光照信息及服裝材質(zhì)特性。各個(gè)部分的計(jì)算模型概述如下:
首先,需要提取服裝表面的幾何信息,該信息可以通過重建服裝表面法線獲取。為此,本文將服裝表面的特征數(shù)據(jù)輸入到法線解碼網(wǎng)絡(luò)(NMLP)中,以精確提取出服裝表面的法向場(chǎng)。其次,為模擬真實(shí)的環(huán)境光照,本文構(gòu)建了一個(gè)多因素入射光場(chǎng)模型,融合了球面高斯、間接光照及直射光、間接光的接收率,從而能夠高度逼真地再現(xiàn)真實(shí)環(huán)境中的復(fù)雜光照條件。最后,為刻畫服裝的材質(zhì)特性,本文對(duì)雙向反射分布函數(shù)(BRDF)的參數(shù)進(jìn)行估計(jì),嵌入了一個(gè)參數(shù)解碼網(wǎng)絡(luò)(BMLP),它能夠從服裝的表面特征中精確地提取出反照率、粗糙度等關(guān)鍵的BRDF參數(shù)。此外,本文還引入了梯度引導(dǎo)平滑項(xiàng)(GGS),以進(jìn)一步約束和優(yōu)化BRDF參數(shù)的回歸過程。
重照明方法的輸入包括不同的相機(jī)視角、相應(yīng)相機(jī)視角下的法向圖、無背景的服裝圖像、含背景的服裝圖像,以及相應(yīng)背景的環(huán)境貼圖。單張量輻射場(chǎng)模塊輸出無背景的服裝圖像像素顏色值,重照明模塊則輸出含背景的服裝圖像像素顏色值。整個(gè)重照明方法的流程如圖1所示,其中包含四個(gè)神經(jīng)網(wǎng)絡(luò),分別為CMLP、SCMLP、BMLP、NMLP的四個(gè)4×128的多層感知機(jī)(MLP)。在后續(xù)的研究中,本文將詳細(xì)闡述服裝重照明方法的具體實(shí)現(xiàn)細(xì)節(jié),以展現(xiàn)其完整的技術(shù)框架與流程。
1.1 單張量輻射場(chǎng)
本文在重照明方法中,首先對(duì)文獻(xiàn)[9]的模型進(jìn)行優(yōu)化,構(gòu)建了一個(gè)能夠更加準(zhǔn)確地提取重照明模型參數(shù)的單張量輻射場(chǎng)。
原模型[9]采用體密度張量場(chǎng)和顏色張量場(chǎng)分別存儲(chǔ)三維場(chǎng)景的體密度和顏色特征,并使用了VM張量分解技術(shù),在快速重建三維場(chǎng)景的同時(shí)保證了場(chǎng)景的細(xì)節(jié)質(zhì)量。然而,要在其基礎(chǔ)上添加重照明模塊,則需要額外使用一個(gè)BRDF參數(shù)特征張量場(chǎng)。這種做法相當(dāng)于完全解耦了三維場(chǎng)景的幾何、外觀與材質(zhì)信息,從而丟失了場(chǎng)景屬性之間的潛在關(guān)聯(lián)。因此,假如直接使用這個(gè)方法作為重照明方法基礎(chǔ)模型,雖然在模型訓(xùn)練速度上會(huì)有所提升,但重照明質(zhì)量并不優(yōu)于使用傳統(tǒng)Nerf作為基礎(chǔ)模型的重照明方法。本文將服裝模型的體密度、顏色和BRDF參數(shù)特征融合為混合特征,并統(tǒng)一存儲(chǔ)于單個(gè)張量場(chǎng)中。這一改進(jìn)不僅進(jìn)一步加速了模型的收斂速度,同時(shí)也提升了重照明結(jié)果的質(zhì)量。本文在下文的消融實(shí)驗(yàn)也展示了使用單張量與多張量在重照明結(jié)果質(zhì)量上的區(qū)別。
設(shè)服裝模型的某個(gè)表面點(diǎn)坐標(biāo)為X(x,y,z),則該點(diǎn)處的服裝表面特征F就可表示為G(X)。F具體表達(dá)式為:
F=∑Rr=1vXr(x)MYZr(y,z)bXr(x)+vYr(y)
MXZr(x,z)bYr(y)+vZr(z)MXYr(x,y)bZr(z)(1)
式中:R是設(shè)定的張量分解量,在實(shí)驗(yàn)中設(shè)為16;vXr、 MYZr分別代表第r個(gè)對(duì)應(yīng)X、 Y和Z坐標(biāo)軸上的特征分量權(quán)重向量和矩陣因子;服裝模型在表面點(diǎn)X處的特征向量即為48個(gè)分量特征的總和。
本文將特征向量的第一個(gè)元素定義為表面點(diǎn)的體密度特征值,記為F[0];而剩余的元素則構(gòu)成服裝的特征向量,記為F(1,l),其中l(wèi)表示服裝特征向量長(zhǎng)度,實(shí)驗(yàn)中設(shè)為28。
單張量輻射場(chǎng)通過相機(jī)視角及其相應(yīng)視角下的無背景服裝圖片進(jìn)行訓(xùn)練。其目標(biāo)函數(shù)為:
lossst=C(ray)-Cgt22(2)
式中:C(ray)為文獻(xiàn)[5]中的體渲染公式計(jì)算出的像素顏色值,Cgt則是真實(shí)的像素顏色值。
通過逐像素最小化該目標(biāo)函數(shù),可以優(yōu)化式(1)中每個(gè)張量分解量的特征分量權(quán)重向量和矩陣因子,最終得到一個(gè)包含體密度值和服裝顏色特征的服裝特征空間。詳細(xì)的張量輻射場(chǎng)訓(xùn)練流程可以參考文獻(xiàn) [9]。
單張量輻射場(chǎng)首先會(huì)進(jìn)行20 000次迭代,以獲得一個(gè)基本的服裝特征空間。需要注意的是,此時(shí)特征空間內(nèi)的特征僅包含服裝的外觀特征,只能解碼出服裝的顏色值和體密度值。隨后,重照明模塊將進(jìn)一步訓(xùn)練該特征空間,使其中的特征轉(zhuǎn)化為混合特征。
1.2 法向預(yù)測(cè)網(wǎng)絡(luò)
表面法向場(chǎng)是指垂直于給定表面上每個(gè)點(diǎn)的矢量。這些信息被存儲(chǔ)在法向圖中,使得在渲染時(shí)能夠模擬出更加逼真的細(xì)節(jié)。在法向圖中,每個(gè)像素的顏色值對(duì)應(yīng)于表面在該點(diǎn)的法線方向。具體講,法向圖利用RGB顏色空間表示法向在空間坐標(biāo)軸上的各個(gè)分量。
將前文提及的服裝特征向量F(1,l)輸入到法線解碼網(wǎng)絡(luò)(NMLP)中進(jìn)行解碼,從而獲取服裝表面的法向量。這一過程可以用下式來表示:
n=NMLP(F(1,l))(3)
對(duì)于每一個(gè)觀察視角,該模塊都可以生成相應(yīng)的服裝表面法向圖。這些貼圖將作為后續(xù)渲染方程中的幾何信息輸入,為渲染過程提供關(guān)鍵數(shù)據(jù)。
該模塊需要數(shù)據(jù)集中某視角下的真實(shí)法向圖進(jìn)行訓(xùn)練,.輸入為服裝表面點(diǎn)處的特征向量F(1,l),輸出為處的法線向量預(yù)測(cè)值,其目標(biāo)函數(shù)為:
lossn=n-ngt22(4)
式中:n為式(2)中由NMLP解碼得到的表面法向預(yù)測(cè)值;ngt真實(shí)法向值,通過對(duì)法向圖逐像素最小化該目標(biāo)函數(shù),可以優(yōu)化NMLP中的神經(jīng)元權(quán)重。
1.3 多因素入射光場(chǎng)構(gòu)建
本文在前文所述的單張量輻射場(chǎng)基礎(chǔ)上,構(gòu)建了一個(gè)多因素入射光場(chǎng)模型。該模型的主要目的是為反射率渲染方程提供可靠的環(huán)境光輸入信息。
先前的重照明方法,如文獻(xiàn)[12]和文獻(xiàn)[13],在考慮服裝表面某一微分點(diǎn)(即在某視角下服裝圖像的一個(gè)像素點(diǎn))的入射光時(shí),通常考慮環(huán)境直射光及物體之間的反射光(即默認(rèn)存在多個(gè)物體,能夠互相反射光線[14])。這種方法在重照明多物體場(chǎng)景時(shí)能夠提供更加準(zhǔn)確的效果,但往往以高昂的計(jì)算量為代價(jià)。
本文的重照明方法則針對(duì)單一服裝的重照明。鑒于大多數(shù)常見的服裝材質(zhì)(如棉、聚酯纖維等)反光特性較弱,因而僅考慮服裝自身表面點(diǎn)之間的間接反射光。為了減少計(jì)算量,僅使用一個(gè)多層感知機(jī)來近似計(jì)算該值。此外,本文的方法還額外增加了直射光和間接光接收率,以增加入射光場(chǎng)的靈活性,從而減少簡(jiǎn)化間接反射光計(jì)算所帶來的重照明失真問題。
綜上所述,入射光場(chǎng)將包含三個(gè)關(guān)鍵因素:首先是來自服裝所處環(huán)境的直射光;其次是從服裝其他表面點(diǎn)間接反射到該點(diǎn)的光線;最后是該點(diǎn)對(duì)直射光及間接光的接收率。
入射光場(chǎng)的示意如圖2所示。圖中,虛線箭頭部分代表間接反射光,其充分考慮了從服裝的其他表面點(diǎn)反射到目標(biāo)點(diǎn)的光線。而服裝表面點(diǎn)的最終顏色值,則是由間接反射光和直接光照(實(shí)線箭頭部分)共同決定。使得本文的入射光場(chǎng)更加貼近現(xiàn)實(shí)情況,從而能夠生成更為逼真的重照明圖像結(jié)果。
由于服裝表面間接反射光的精確計(jì)算頗具挑戰(zhàn),本文采用一種近似方法。將前文所述的服裝特征向量輸入間接光解碼網(wǎng)絡(luò)(SCMLP)中,通過解碼得到的服裝表面基色近似模擬服裝表面的間接反射光。這一過程可以用下式來表示:
Lind(X,ωi)=SCMLP(F(1,l))(5)
某視角下的間接反射光可視化效果如圖3(c)所示。
本文采用128個(gè)球面高斯函數(shù)對(duì)環(huán)境中的直射光進(jìn)行擬合,并將此擬合結(jié)果記為:
Ld(ωi)=∑128k=1SG(ωi;ξk,λk,μk)(6)
式中:ωi表示用戶輸入的視角方向,而球面高斯函數(shù)的參數(shù)則包括振幅ξk、標(biāo)準(zhǔn)差λk和中心位置μk。這些參數(shù)共同決定了光照的強(qiáng)度和分布。
通過球面高斯擬合出的環(huán)境光效果如圖3(b)所示。
直射光及間接光接收率實(shí)際上是一個(gè)權(quán)重值,以提升入射光場(chǎng)的靈活性。本文利用文獻(xiàn)[5]中體渲染公式的不透明度部分近似計(jì)算直射光接收率,該值會(huì)在每輪單張量輻射場(chǎng)訓(xùn)練時(shí)計(jì)算得出,重復(fù)使用以減少模型運(yùn)算量。使用一個(gè)球面高斯近似計(jì)算間接光接收率。綜合上述因素,服裝模型表面的最終入射光可以表示為:
Ltol(X,ωi)=Ld(ωi)Td(X,ωi)+Lind(X,ωi)Tind(ωi)Tind(ωi) = SG(ωi;ξj,λj,μj)(7)
式中:Td(X,ωi)代表的是文獻(xiàn)[5]中提出的不透明度計(jì)算結(jié)果,用于近似直射光接收率;Tind(ωi)表示間接光的接收率;而Ld(ωi)和Lind(X^,ωi)分別代表通過式(3)模擬的環(huán)境直射光和通過式(4)模擬的服裝表面反射的間接光。
1.4 BRDF模型的參數(shù)估計(jì)與優(yōu)化
基于前文構(gòu)建的入射光場(chǎng)可以計(jì)算出服裝模型上每一個(gè)微分點(diǎn)的入射光集合,現(xiàn)介紹重照明模型的雙向反射分布模型(BRDF)參數(shù)估計(jì)模塊。該模型可表示服裝表面的材質(zhì)信息,其功能主要是根據(jù)入射光集合來計(jì)算反射光的強(qiáng)度。
該模塊主要包含一個(gè)BRDF參數(shù)解碼網(wǎng)絡(luò)(BMLP),以及用于提升網(wǎng)絡(luò)參數(shù)回歸能力的梯度引導(dǎo)平滑項(xiàng)。其中BMLP的輸入為前文提到的服裝表面特征,輸出為服裝表面點(diǎn)的反照率及粗糙度,這一過程記作:
[s,Rn]=BMLP(F(1,l))(8)
式中:BMLP的輸出包含4個(gè)通道,其中前三個(gè)通道代表反照率(albedo),而最后一個(gè)通道則代表粗糙度(roughness);這兩個(gè)參數(shù)用于輸入到后續(xù)的BRDF模型公式中計(jì)算。
直接使用多層感知機(jī)擬合服裝表面點(diǎn)的反照率及粗糙度,可能導(dǎo)致網(wǎng)絡(luò)輸入的特征僅有細(xì)微空間上的差異時(shí),反照率和粗糙度結(jié)果卻發(fā)生急劇的變化。為了抑制這種不合理的變化本文引入梯度引導(dǎo)平滑項(xiàng),通過懲罰大的反照率和粗糙度梯度,鼓勵(lì)生成平滑的圖像。約束公式如下:ls=1Pn∑P∈Id(式中:Pn表示在某視角圖片Id上所采樣的像素個(gè)數(shù);而分別代表在像素坐標(biāo)XP處的反照率和粗糙度的梯度,這些梯度信息可以通過反向傳播算法解析得到;另外表示法向圖在點(diǎn)XP的梯度,這個(gè)信息可以直接從本文1.2中的法線擬合網(wǎng)絡(luò)中獲取。
式(9)啟發(fā)于傳統(tǒng)圖像處理中的雙邊濾波平滑算法[15-16],文獻(xiàn)[15]中使用像素灰度值梯度的負(fù)指數(shù)函數(shù)來平滑金屬度梯度和粗糙度梯度,進(jìn)而平滑金屬度值與粗糙度值,從而使得最終渲染出重照明對(duì)象具有更加真實(shí)的金屬光澤。鑒于本文方法針對(duì)的是數(shù)字服裝,默認(rèn)重照明對(duì)象為非金屬材質(zhì),因此將BRDF中的金屬度參數(shù)設(shè)定為接近0的值。此外,本文采用法向圖梯度的負(fù)指數(shù)函數(shù)e-來平滑反照率梯度和粗糙度梯度。相比于圖像灰度值,法向圖包含了更精確的幾何形狀和細(xì)節(jié)信息,其梯度變化能夠更準(zhǔn)確地反映服裝表面的細(xì)微變化,從而更加精確地對(duì)過大的反照率梯度和粗糙度梯度進(jìn)行懲罰,進(jìn)而優(yōu)化反照率及粗糙度結(jié)果急劇變化的現(xiàn)象,使得渲染出的服裝重照明圖像的紋理及外觀更加平滑而且真實(shí)。
在本文2.3中的消融實(shí)驗(yàn)也展示了使用梯度引導(dǎo)平滑策略前后粗糙度的可視化對(duì)比。與之前相關(guān)研究類似,本文采用簡(jiǎn)化的Disney原則[17]的BRDF模型,其公式表示為:
bf(ω0,ωi,s,Rn)=Fr(ω0,h,s)G(ωi,ω0,n,Rn)D(h)4(n·ω0)(n·ωi)(10)
式中:正態(tài)分布項(xiàng)D,其揭示了表面微觀結(jié)構(gòu)如何影響反射光線的分布;菲涅爾項(xiàng)Fr,其反映了光線在表面發(fā)生反射時(shí)的強(qiáng)度變化;幾何項(xiàng),其G描繪了光線與表面之間的幾何關(guān)系對(duì)光照強(qiáng)度的影響。各項(xiàng)的具體實(shí)現(xiàn)可以參考文獻(xiàn)[12]與文獻(xiàn)[13]中的實(shí)現(xiàn)方式。
1.5 反射率渲染方程及重照明方法目標(biāo)函數(shù)
結(jié)合前文所構(gòu)建的入射光場(chǎng)和BRDF模型,再應(yīng)用反射率方程,可以渲染出帶有環(huán)境光屬性的服裝顏色值,相關(guān)公式如下:
L(X,ω0)=2πLnum∑i∈SLbf(X,ω0,ωi)Ltol(X,ωi)(n·ωi)(11)
式中:X表示服裝模型表面點(diǎn)的三維坐標(biāo)向量,ω0表示視角方向,SL表示入射光集合,Lnum表示入射光的數(shù)量。
式(11)將服裝在點(diǎn)X處的顏色視為多道入射光在該點(diǎn)微平面上ω0視角下反射光的分量之和。通過結(jié)合本文前面部分提到的法線信息n、環(huán)境光照信息Ltol及表面材質(zhì)信息bf,可以計(jì)算出該點(diǎn)的顏色。通過逐像素最小化這個(gè)計(jì)算值與真實(shí)服裝表面點(diǎn)顏色的損失,可以優(yōu)化特征空間和解碼網(wǎng)絡(luò)。在本文中,服裝模型的特征空間受到反射率方程渲染損失、單張量輻射場(chǎng)目標(biāo)函數(shù)、法線目標(biāo)函數(shù)及梯度平滑項(xiàng)共同約束和優(yōu)化。因此,總目標(biāo)函數(shù)可以表示為:
ltol=λ1L(X,ω0)-Cgt22+λ2C(ray)-Cgt22+λ3n-ngt22+λ4ls(12)
式中:L(X,ω0)-Cgt22表示反射率方程渲染結(jié)果與對(duì)應(yīng)點(diǎn)真實(shí)像素值之間的損失,即為方法重照明部分的目標(biāo)函數(shù);C(ray)-Cgt22為1.1中單張量輻射場(chǎng)的損失;n-ngt22為1.2中法向網(wǎng)絡(luò)的目標(biāo)函數(shù),ls表示式(10)中梯度引導(dǎo)平滑項(xiàng)的結(jié)果;而 λ1~λ4是自定義的損失權(quán)重。
需要注意的是,在達(dá)到一定的迭代次數(shù)之前(即在獲得場(chǎng)景曲面之前,本文實(shí)驗(yàn)中設(shè)置為20 000次),λ1的值被設(shè)置為零。當(dāng)?shù)螖?shù)達(dá)到指定值后,λ2在隨后的迭代過程中會(huì)逐漸減小。
2 實(shí)驗(yàn)結(jié)果
2.1 實(shí)驗(yàn)數(shù)據(jù)集及評(píng)估指標(biāo)
本文對(duì)三個(gè)多視角服裝數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)。針對(duì)每個(gè)數(shù)據(jù)集,本文都進(jìn)行了重新渲染,以新的視角生成了圖像、重照明結(jié)果和法向圖。這些多視角服裝數(shù)據(jù)集通過使用Blender對(duì)三個(gè)三維服裝模型進(jìn)行渲染生成,同時(shí)確保了相機(jī)位姿與文獻(xiàn)[5]中提及的數(shù)據(jù)集位姿一致。在每個(gè)數(shù)據(jù)集中,本文均渲染了300個(gè)不同視角下的圖像,這些圖像具有各種環(huán)境照明條件,分辨率為800×800像素,并附帶相應(yīng)視角下的法向圖。為了評(píng)估方法的性能,本文將數(shù)據(jù)集劃分為訓(xùn)練集(包含200個(gè)樣本)、測(cè)試集(70個(gè)樣本)和驗(yàn)證集(30個(gè)樣本)。本文與先進(jìn)的重照明方法進(jìn)行了實(shí)驗(yàn)結(jié)果比較,并確保在相同的相機(jī)位姿和評(píng)估指標(biāo)下進(jìn)行,如表1所示。
為了全面評(píng)估該方法在新視圖合成和重渲染結(jié)果性能,本文采用了四種廣泛認(rèn)可的評(píng)估指標(biāo):
1)峰值信噪比(PSNR):通過計(jì)算信號(hào)的峰值與噪聲的比值來量化圖像或視頻的失真程度。
2)結(jié)構(gòu)相似性指數(shù)(SSIM[18]):通過比較原始圖像和重建圖像之間的三個(gè)關(guān)鍵組成部分(亮度、對(duì)比度和結(jié)構(gòu))計(jì)算。
3)感知上的圖像相似性(LPIPS[19]):這是一個(gè)衡量圖像之間感知相似性的指標(biāo)。與PSNR和SSIM不同,LPIPS更加注重人類視覺系統(tǒng)對(duì)圖像的感知和認(rèn)知。
4)平均絕對(duì)誤差(MAE):此指標(biāo)用于衡量實(shí)際觀測(cè)值與預(yù)測(cè)值之間的平均絕對(duì)差異程度。本文使用它來衡量方法生成的法向圖的準(zhǔn)確度,通過這些綜合評(píng)估指標(biāo),能夠更全面、更客觀地評(píng)價(jià)方法的性能。
2.2 實(shí)驗(yàn)結(jié)果分析
為了驗(yàn)證本文所提方法的有效性,本文與文獻(xiàn)[12]和文獻(xiàn)[13]中介紹的兩種基于三維重建表面的重照明方法進(jìn)行了對(duì)比,可視化對(duì)比結(jié)果如圖4所示。由圖4可以明顯看出,文獻(xiàn)[12]的服裝重照明結(jié)果存在較多的紋理噪點(diǎn),并且環(huán)境光部分失真較為嚴(yán)重。這主要是因?yàn)樵摲椒ú捎蒙窠?jīng)符號(hào)向量場(chǎng)(SDF)擬合服裝表面,而SDF高度依賴于準(zhǔn)確的法線信息。法線信息的缺失導(dǎo)致了服裝表面重建的不準(zhǔn)確和不平滑,進(jìn)而引發(fā)重照明的失真。相比之下,文獻(xiàn)[13]在減少紋理噪點(diǎn)和重照明失真方面有所改進(jìn),但服裝表面仍略顯不平滑。這源于其BRDF參數(shù)擬合得不夠精確,從而影響反射率方程渲染結(jié)果的準(zhǔn)確性。
而本文所提出的方法,得益于張量輻射場(chǎng)出色的表面重建能力及梯度平滑策略的有效性,不僅幾乎消除了紋理噪點(diǎn),還能準(zhǔn)確渲染出更接近真實(shí)樣本的不同環(huán)境光下的服裝圖像。結(jié)合圖4和表1可以看出,無論是服裝紋理細(xì)節(jié)還是整體光照準(zhǔn)確度,本文方法都明顯優(yōu)于前兩種方法。
為了更定量地評(píng)估不同方法生成的服裝重照明結(jié)果質(zhì)量,以及本文增加的重照明模塊對(duì)原輻射場(chǎng)方法特征空間的影響,本文展示了服裝幾何表面法線估計(jì)、新視角合成,以及重新照明的定量比較結(jié)果(表1)。與最先進(jìn)的基于隱式表面重建的重照明技術(shù)相比,本文方法在服裝數(shù)據(jù)集中的表面法線生成質(zhì)量提升了約20.600%,這得益于張量輻射場(chǎng)對(duì)場(chǎng)景幾何表面的精確構(gòu)建。同時(shí),服裝重照明圖像質(zhì)量也提升了約9.922%,這主要?dú)w功于梯度引導(dǎo)平滑策略使神經(jīng)網(wǎng)絡(luò)能夠擬合出更準(zhǔn)確平滑的BRDF參數(shù),結(jié)合更準(zhǔn)確的法線生成,從而渲染出更真實(shí)的重照明圖像。盡管本文將服裝表面顏色特征、體密度特征及物理屬性特征整合在同一個(gè)特征空間中,可能在一定程度上干擾了原方法的外觀特征,導(dǎo)致服裝新視角生成圖像的質(zhì)量相較于文獻(xiàn)[9]中的方法略有降低,但與可重照明的方法相比,本文方法在新視角生成圖像的質(zhì)量上仍提升了約4.549%。
2.3 消融實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證本文方法的有效性,本文在PRINCESSDRESS數(shù)據(jù)集上開展了消融實(shí)驗(yàn)。該數(shù)據(jù)集為一件帶有復(fù)雜紋理的公主裙的多視角數(shù)據(jù)集,其數(shù)據(jù)集結(jié)構(gòu)與2.1中提到的結(jié)構(gòu)一致,共300個(gè)根據(jù)相機(jī)視角劃分的文件夾,每個(gè)文件夾中包含相應(yīng)視角下的服裝無背景圖像、含背景圖像、法向圖與對(duì)應(yīng)相機(jī)位姿數(shù)據(jù),其由三維公主裙服裝模型通過Blender渲染生成,由于其領(lǐng)口帶有較為復(fù)雜的紋理結(jié)構(gòu),且裙擺和袖口帶有大量褶皺,對(duì)其進(jìn)行重照明更有難度,因而使用不同方法渲染出的結(jié)果差異性較大,所以選擇該數(shù)據(jù)集進(jìn)行重照明消融實(shí)驗(yàn)。這些實(shí)驗(yàn)旨在探究本文提出的梯度引導(dǎo)平滑策略及使用不同特征空間存儲(chǔ)服裝特征對(duì)實(shí)驗(yàn)結(jié)果的影響,相關(guān)實(shí)驗(yàn)結(jié)果如表2、表3所示。
由表2可以看出,采用額外多個(gè)特征空間來存儲(chǔ)服裝特征(即服裝由密度特征空間、顏色特征空間和BRDF參數(shù)特征空間共同建模,記作A.M.F tensor)并未能提高服裝圖像的生成質(zhì)量,反而增加了訓(xùn)練時(shí)間。而使用額外單個(gè)特征空間存儲(chǔ)服裝特征(即服裝由體密度特征空間和外觀特征空間建模,記作A.S.F tensor)雖然可以略微提升服裝新視角的生成質(zhì)量,但提升幅度非常有限,僅為0.476%,且這種提升是以模型訓(xùn)練時(shí)間增加近一倍為代價(jià)的。
相比之下,本文所采用的方法更為高效和有效。本文僅使用單個(gè)特征空間來存儲(chǔ)服裝特征,并通過多個(gè)MLP解碼得到用于渲染公式的參數(shù)。這種方法不僅縮短了模型的訓(xùn)練時(shí)間,而且使服裝重照明生成圖像的質(zhì)量相較于另外兩種方法提升了近9.922%。這一顯著提升的原因在于服裝模型的體密度特征、顏色特征和BRDF參數(shù)特征之間存在潛在的相關(guān)性。通過避免解耦這些特征空間,本文方法能夠更好地學(xué)習(xí)到這種潛在的相關(guān)性,從而提升服裝圖像的渲染質(zhì)量。此外,表2還加入了以Nerf作為基礎(chǔ)模型(Nerf AS B.M)的實(shí)驗(yàn)結(jié)果。結(jié)果顯示,直接使用多張量輻射場(chǎng)進(jìn)行重照明雖然在訓(xùn)練速度上有所提升,但重照明結(jié)果的質(zhì)量與以NeRF作為基礎(chǔ)模型的結(jié)果相差不大。因此,本文對(duì)張量輻射場(chǎng)的改進(jìn)是有效的。
表3展示了使用不同方法進(jìn)行服裝圖像渲染的實(shí)驗(yàn)結(jié)果對(duì)比,包括純球面高斯直射光(DL)、直射光結(jié)合高斯擬合間接光(DL+SGID)、直射光結(jié)合多層感知機(jī)擬合間接光(DL+MLPID)、直射光加高斯擬合間接光再結(jié)合直射光接受率(DL+SGID+Vis),以及直射光加多層感知機(jī)擬合間接光再結(jié)合直射光與間接光接收率(DL+MLPID+Vis)。實(shí)驗(yàn)結(jié)果顯示,采用直射光與間接光相結(jié)合,并輔以直射光接收率的入射光場(chǎng)策略,在服裝圖像渲染上取得了顯著效果。相較于不使用直射光接收率及不使用間接光的方法,圖像生成質(zhì)量分別提升了9.948%和12.206%。在間接光的處理方式上,雖然在不加入直射光接收率的情況下,使用多層感知機(jī)(MLP)擬合間接光相較于球面高斯擬合方法下降了3.1614%,但在結(jié)合了直射光接收率后,MLP方法的圖像質(zhì)量反而提升了4.082%。
這些實(shí)驗(yàn)結(jié)果清晰地表明,間接反射光直射光接收率對(duì)于增強(qiáng)入射光場(chǎng)模擬的真實(shí)性至關(guān)重要。同時(shí),MLP網(wǎng)絡(luò)在使用直射光接收率的條件下能更有效地模擬和渲染復(fù)雜的間接光效果。
由表4可知,使用不同方法進(jìn)行服裝圖像渲染的實(shí)驗(yàn)結(jié)果對(duì)比,包括梯度下降(GD)、梯度下降結(jié)合相對(duì)平滑損失項(xiàng)(GD+RSL),以及梯度下降結(jié)合本文提出的梯度引導(dǎo)平滑項(xiàng)(GD+GGS)。實(shí)驗(yàn)結(jié)果顯示,相較于傳統(tǒng)的相對(duì)平滑損失方法,本文的梯度引導(dǎo)平滑策略在服裝新視角生成圖像質(zhì)量上提升了約4.583%,在服裝重照明圖像生成質(zhì)量上提升了約6.096%。
本文對(duì)比了使用相對(duì)平滑損失和本文方法回歸服裝粗糙度的差異,如圖5所示。由圖5可以清晰地看到,本文方法回歸出的粗糙度比傳統(tǒng)方法更為平滑,且避免了將服裝的紋理細(xì)節(jié)錯(cuò)誤地訓(xùn)練到粗糙度中。這一點(diǎn)在服裝衣領(lǐng)部分的粗糙度上尤為明顯,因?yàn)榉b紋理本應(yīng)由服裝模型表面顏色決定,此部分的粗糙度不應(yīng)產(chǎn)生突變。本研究引入的平滑策略有效改善了這一現(xiàn)象,進(jìn)一步驗(yàn)證了本文方法的有效性。
3 結(jié) 論
本文提出了一種基于單張量輻射場(chǎng)的三維數(shù)字服裝重照明方法。該方法基于單張量輻射場(chǎng)方法,在其重建的特征空間基礎(chǔ)之上增加了重照明模塊。該方法結(jié)合了法線預(yù)測(cè)網(wǎng)絡(luò)、多因素的入射光場(chǎng)、遵循Disney準(zhǔn)則的BRDF模型及簡(jiǎn)化的反射率方程,使其能夠?qū)崿F(xiàn)任意視角下的服裝重照明。
實(shí)驗(yàn)結(jié)果顯示,本文的服裝重照明方法有效利用了單張量輻射場(chǎng)的特征空間,顯著提高了運(yùn)行效率。同時(shí),通過引 入梯度平滑損失策略,BRDF參數(shù)的提取準(zhǔn)確度也得到了顯著提升。這一方法不僅有效解決了服裝數(shù)據(jù)集中常見的紋理噪點(diǎn)問題,還提升了重照明的精確度。與當(dāng)前先進(jìn)方法相比,本文的方法在生成服裝新視角圖像的各項(xiàng)評(píng)估指標(biāo)上平均提升了約9.922%,在服裝重照明結(jié)果的評(píng)估指標(biāo)上更是取得了平均約4.549%的顯著提升,從而驗(yàn)證了本文方法的有效性。
參考文獻(xiàn):
[1]HABER T, FUCHS C, BEKAER P, et al. Relighting objects from image collections[C]" 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami Florida: IEEE, 2009.
[2]CHEN Z, CHEN A P, ZHANG G L, et al. A neural rendering framework for free-viewpoint relighting[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Seattle: IEEE, 2020.
[3]XU Z X, SUNKAVALLI K, HADAP S, et al. Deep image-based relighting from optimal sparse samples[J]. ACM Transactions on Graphics, 2018, 37(4): 1-13.
[4]QIU D, ZENG J, KE Z H, et al. Towards geometry guided neural relighting with flash photography[C]" 2020 International Conference on 3D Vision (3DV). London: IEEE, 2020.
[5]MILDENHALL B, SRINIVASAN P P, TANCIK M, et al. Nerf: Representing scenes as neural radiance fields for view synthesis[J]. Communications of the ACM, 2021, 65(1): 99-106.
[6]SUN C, SUN M, CHEN H T. Direct voxel grid optimization: Super-fast convergence for radiance fields reconstruction[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022.
[7]YU A, LI R L, TANCIK M, et al. Plenoctrees for real-time rendering of neural radiance fields[C]" Proceedings of the IEEE CVF International Conference on Computer Vision. Montreal: IEEE, 2021.
[8]JIN H A, LIU I, XU P J, et al. Tensoir: Tensorial inverse rendering[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Vancouver: IEEE, 2023.
[9]CHEN A P, XU Z X, GEIGER A, et al. Tensorf: Tensorial radiance fields[C]" European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
[10]SRINIVASAN P P, DENG B Y, ZHANG X M, et al. Nerv: Neural reflectance and visibility fields for relighting and view synthesis[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Nashville: IEEE, 2021.
[11]ZHANG X M, SRINIVASAN P P, DENG B Y, et al. Nerfactor: Neural factorization of shape and reflectance under an unknown illumination[J]. ACM Transactions on Graphics, 2021, 40(6): 1-18.
[12]ZHANG K, LUAN F J, WANG Q Q, et al. Physg: Inverse rendering with spherical gaussians for physics-based material editing and relighting[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. Nashvill: IEEE, 2021.
[13]ZHANG Y Q, SUN J M, HE X Y, et al. Modeling indirect illumination for inverse rendering[C]" Proceedings of the IEEE CVF Conference on Computer Vision and Pattern Recognition. New Orleans: IEEE, 2022.
[14]KAJIYA J T. The rendering equation[C]" Proceedings of the 13th Annual Conference on Computer Graphics and Interactive Techniques. New York: ACM, 1986.
[15]YAO Y, ZHANG J Y, LIU J B, et al. Neilf: Neural incident light field for physically-based material estimation[C]" European Conference on Computer Vision. Cham: Springer Nature Switzerland, 2022.
[16]TOMASI C, MANDUCHI R. Bilateral filtering for gray and color images[C]" Sixth International Conference on Computer Vision (IEEE Cat. No. 98CH36271). Bombay: IEEE, 1998.
[17]BURLEY B, STUDIOS W D A. Physically-based shading at disney[C]" Acm Siggraph. New York: ACM, 2012.
[18]WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: From error visibility to structural similarity[J]. IEEE Transactions on Image Processing, 2004, 13(4): 600-612.
[19]ZHANG R, ISOLA P, EFROS A A, et al. The unreasonable effectiveness of deep features as a perceptual metric[C]" Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City: CVPR, 2018: 586-595.
A relighting method of digital garments based on a single tensor radiance field
CHEN Xinlei1, ZHENG Junhong1, JIN Yao1,2, HE Lili1,2
(1.School of Computer Science and Technology, Zhejiang Sci-Tech University, Hangzhou 310018, China;
2.Zhejiang Provincial Innovation Center of Advanced Textile Technology (Jianhu Laboratory), Shaoxing 310020, China)
Abstract:The technology of garment relighting carries substantial research significance in the domains of online garment sales, virtual fitting, and personalized customization. Moreover, relighting methods based on implicit 3D models have garnered considerable attention in the fields of computer vision and computer graphics. However, existing scene relighting techniques face inherent challenges when applied to garment datasets, such as texture noise and relighting distortion. To address these shortcomings, this paper proposes an innovative garment relighting method that operates in the feature tensor, to effectively mitigate these issues.
The relighting process involves incorporating the relighting component into the tensorial radiance fields to jointly optimize the feature space. To simulate the direct ambient light and the indirect light reflected between garment surfaces, Spherical Gauss and MLP techniques are employed to construct an incident light field. Additionally, a gradient-guided smoothing strategy is utilized to optimize the extraction of parameters from the bidirectional reflectance distribution function model, which are derived from the feature tensor. Finally, the garment relighting image is rendered by combining the incident light field, the bidirectional reflection distribution model, and the feature tensor using the simplified reflectivity equation.
This article presents experimental results on three garment datasets, comparing them with advanced methods such as Physg and InvRender. The results demonstrate that our method achieves an average improvement of about 4.549% in generating garment images from novel view and approximately 9.922% in generating garment images under relighting conditions, as evaluated using three indicators. The article visually demonstrates the effectiveness of our proposed method in reducing texture noise and reillumination distortion. Ablation experiments are also conducted, examining the impact of gradient-guided smoothing strategies and the use of single or multiple addition feature tensor for garment feature storage. The article shows that using multiple addition feature tensor does not enhance the quality of garment image generation but increases the training time. By comparison, using addition single feature tensor achieves a minimal improvement of only 0327% but significantly increases the training time. Our method, which employs a single feature tensor, significantly shortens training time and improves the quality of garment relighting images by approximately 8.870% compared to the other models. The article compares the experimental results of different lighting strategies (DL, DL+SGID, DL+MLPID, DL+SGID+Vis, and DL+MLPID+Vis) in garment image rendering. The results indicate that the combination of indirect light, direct light, and visibility achieves the best generation outcomes. The article compares experimental results obtained by employing different gradient descent strategies (GD, GD+RSL, and GD+GGS) in garment image rendering. The results indicate that our proposed gradient-guided smoothing strategy enhances the quality novel view garment images by approximately 4.583% and relighting garment images by about 6.096% compared to traditional relative smoothing loss methods.
This paper introduces a garment relighting model based on Tensorf for 3D garment relighting. The relighting module is integrated into Tensorf, which encompasses the incident light field combined with indirect light, the BRDF model based on the Disney principle, and the simplified reflectance equation. As a result, garment relighting from any perspective is achieved. The experimental results demonstrate that the proposed garment relighting model effectively leverages the feature tensor from Tensorf. The introduction of gradient smoothing loss contributes to the improved accuracy of BRDF parameters, reduces texture noise commonly encountered in existing methods applied to garment datasets, and enhances the accuracy of relighting. The evaluation indexes indicate that the model produces superior results compared to existing advanced methods for generating novel view images and relighting outcomes. However, it is worth noting that the surface reconstruction in this method relies on the tensor radiation field, which may result in rendering points with low effectiveness, leading to errors in the reconstruction of hollow areas on the surface. Future work will address this issue accordingly.
Key words:
single tensor radiance field; feature space; garment relighting; 3D reconstruction; image generation; bidirectional reflectance distribution function