胡鐘昀 Nsampi Ntumba Elie 王慶
(西北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院,陜西西安 710072)
任意至任意重光照(Any-to-Any Relighting)是指給定源圖像和引導(dǎo)圖像,利用隱含在引導(dǎo)圖像中的光照對(duì)源圖像進(jìn)行重新照明[1-2]。其中,任意至任意是指源圖像和引導(dǎo)圖像中的光照都是任意的,即能夠?qū)θ我夤庹障碌脑磮D像進(jìn)行任意光照的重新照明。與傳統(tǒng)重光照[3-5]不同的是,任意至任意重光照中的目標(biāo)光照是通過引導(dǎo)圖像間接給出,而非直接給出。這將極大降低圖像編輯[6-7]的使用門檻,普通用戶無需專業(yè)的光照知識(shí),通過選定合適的引導(dǎo)圖像即可完成源圖像的重新照明。
基于逆向繪制的重光照方法[8-10]明確地恢復(fù)場(chǎng)景的光照、幾何和材質(zhì)屬性,然后給定新的光照,重新渲染以實(shí)現(xiàn)重光照。然而,這是一個(gè)不適定問題,不同物理屬性的組合可能產(chǎn)生相同的圖像[11]。相比之下,基于學(xué)習(xí)的方法[4,12-13]沒有明確的逆向繪制步驟來重新照明。相反,他們訓(xùn)練單個(gè)重光照網(wǎng)絡(luò),從一個(gè)或多個(gè)輸入圖像生成重光照?qǐng)D像。特別是,Sun 等人[12]和Zhou 等人[13]提出直接從隱式神經(jīng)表征重新照明單張輸入圖像,而不需要顯式地恢復(fù)本征屬性。然而,由于光源假設(shè)不同,且只面向單個(gè)物體(肖像或人體),這些方法并不能直接應(yīng)用于任意至任意重光照。
最近,研究人員提出了一些基于學(xué)習(xí)的任意至任意重光照方法[14-16]。但是這些方法由于采用端對(duì)端的學(xué)習(xí)方式,導(dǎo)致陰影特征與色溫特征高度耦合,進(jìn)一步影響了陰影生成的準(zhǔn)確性。因此,本文從真實(shí)感渲染中的關(guān)鍵要素——陰影入手,設(shè)計(jì)額外的陰影生成任務(wù),學(xué)習(xí)深度陰影特征,以生成更加準(zhǔn)確的陰影。同時(shí),為了有效利用學(xué)習(xí)到的深度陰影特征,我們引入基于注意力機(jī)制的特征融合模塊,實(shí)現(xiàn)深度陰影特征與重光照深度特征的自適應(yīng)融合。另外,我們實(shí)驗(yàn)性地發(fā)現(xiàn),利用多項(xiàng)式核函數(shù)把源圖像映射到高維特征后,再作為網(wǎng)絡(luò)輸入,能進(jìn)一步提升性能。最終,本文提出了一種基于深度陰影特征增強(qiáng)的任意至任意重光照方法。
基于圖像的重光照方法通過對(duì)光傳輸函數(shù)進(jìn)行密集采樣來重新照明物體,而無需明確估計(jì)物體的物理屬性。Debevec 等人[3]構(gòu)建了第一個(gè)光照球(Light Stage)系統(tǒng),通過采集數(shù)千張不同光源下的圖像以實(shí)現(xiàn)物體的重新照明。后續(xù)大量研究[17-19]主要聚焦于光傳輸函數(shù)的相干性以降低采樣數(shù)量,從而實(shí)現(xiàn)同等質(zhì)量的重光照。然而,這些方法仍然需要數(shù)百張圖像,并且整個(gè)采集過程非常耗時(shí)。最近,隨著深度學(xué)習(xí)的突破性進(jìn)展,Xu 等人[4]利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)跨場(chǎng)景光傳輸函數(shù)中的相干性,僅用五張采樣圖像實(shí)現(xiàn)了物體的重光照。Meka 等人[5]提出使用深度神經(jīng)網(wǎng)絡(luò)直接從兩張球面梯度圖像重建光傳輸函數(shù)的方法。但是,這類基于圖像的重光照方法往往需要專門設(shè)計(jì)的采集系統(tǒng)以模擬所需的光照,這大大限制了其應(yīng)用范圍。因此,受益于深度學(xué)習(xí)強(qiáng)大的非線性擬合能力,Sun 等人[12]和Zhou 等人[13]幾乎同時(shí)提出了一種基于編碼-解碼結(jié)構(gòu)的深度神經(jīng)網(wǎng)絡(luò),能夠?qū)崿F(xiàn)對(duì)單張非受控光源圖像的重新照明。盡管如此,這些方法通常只關(guān)注特定類別的物體(如肖像或人體),尚未考慮場(chǎng)景級(jí)的重光照。更重要的是,它們通常使用環(huán)境貼圖(Environment map)或球面諧波(Spherical harmonics)表示入射光,一般只適用于無窮遠(yuǎn)光源情形。對(duì)比之下,本文瞄準(zhǔn)面向點(diǎn)光源的場(chǎng)景重光照問題,需重點(diǎn)考慮近場(chǎng)光照效果,尤其是復(fù)雜的陰影。因此,本文通過增強(qiáng)深度陰影特征來進(jìn)一步提高近場(chǎng)光照效果。
逆向繪制(Inverse rendering)是根據(jù)觀測(cè)的單張或多張圖像來估計(jì)場(chǎng)景的物理屬性(如幾何形狀、反射率和光照)。一旦估計(jì)出反射率和光照,并輔以一個(gè)額外的物理渲染管線,任意至任意重光照都可以被視為逆向繪制的直接應(yīng)用。傳統(tǒng)的逆向繪制方法[20-25]通過大量的先驗(yàn)知識(shí)來聯(lián)合優(yōu)化物理屬性,以獲得最能解釋觀測(cè)圖像的一組值。然而,直接優(yōu)化所有物理屬性往往是一個(gè)嚴(yán)重欠約束的問題,這會(huì)導(dǎo)致嚴(yán)重的偽影。在過去的數(shù)年里,研究人員專注于數(shù)據(jù)驅(qū)動(dòng)的逆向繪制方法[26-28],從而避免手工設(shè)計(jì)先驗(yàn)的局限。雖然這些方法估計(jì)場(chǎng)景物理屬性的準(zhǔn)確率大大提高,但是仍然受限于其對(duì)應(yīng)的物理渲染方程,圖像真實(shí)感需進(jìn)一步提升。
相比之下,其他一些基于學(xué)習(xí)的重光照方法[8-10,29-31]已將神經(jīng)渲染(Neural rendering)引入到重光照中。在逆向繪制網(wǎng)絡(luò)[27]的基礎(chǔ)上,Yu 等人[10]進(jìn)一步提出了一種針對(duì)室外場(chǎng)景重光照的神經(jīng)渲染框架。Bi 等人[31]利用多張非結(jié)構(gòu)化的手機(jī)閃光圖像,訓(xùn)練一個(gè)帶有場(chǎng)景外觀表征的神經(jīng)渲染框架,可實(shí)現(xiàn)重光照。Wang等人[29]和Nestmeyer等人[30]提出使用神經(jīng)網(wǎng)絡(luò)從若干估計(jì)的本征量直接渲染新圖像,可用于單張人臉圖像的重光照。Sang 等人[9]提出了一種級(jí)聯(lián)神經(jīng)網(wǎng)絡(luò)來同時(shí)進(jìn)行逆向繪制和渲染,從而實(shí)現(xiàn)了單幅圖像的重新照明。然而,這些方法要么需要精確的反射率真值,要么需要多視圖數(shù)據(jù)進(jìn)行監(jiān)督訓(xùn)練,這些在實(shí)踐中很難獲得。此外,它們往往關(guān)注單個(gè)物體,而不是復(fù)雜的場(chǎng)景。相比之下,本文提出的方法不但面向場(chǎng)景級(jí)的重光照問題,而且不需要顯式估計(jì)反射率。
任意至任意重光照首先由Helou 等人[1-2]提出,其目的是通過隱含在引導(dǎo)圖像里的光照設(shè)置來對(duì)源圖像進(jìn)行重新照明。Hu 等人[14]提出了一種帶有自注意力機(jī)制的編碼-解碼網(wǎng)絡(luò),以改善全局光照效果。最近,Hu 等人[32]又將物理先驗(yàn)知識(shí)引入神經(jīng)渲染框架,以保留局部陰影細(xì)節(jié)并進(jìn)一步抑制任務(wù)混疊效應(yīng)。Yang 等人[15]將任意至任意重光照視為圖像到圖像的轉(zhuǎn)換,通過使用單流網(wǎng)絡(luò)將源圖像和引導(dǎo)圖像直接映射到重光照?qǐng)D像。Yazdani 等人[16]提出通過學(xué)習(xí)一個(gè)權(quán)重圖,將基于本征分解的重光照結(jié)果與直接映射的重光照結(jié)果進(jìn)行融合,以提升性能。與上述方法不同,本文從真實(shí)感渲染中的關(guān)鍵要素——陰影入手,通過引入額外的陰影生成任務(wù),進(jìn)一步增強(qiáng)深度陰影特征,從而改善視覺效果。
目前,現(xiàn)有的任意至任意重光照數(shù)據(jù)集[33]尚未包含陰影圖像。為了獲得訓(xùn)練陰影生成任務(wù)時(shí)所需的陰影真值,我們?cè)O(shè)計(jì)了一種簡(jiǎn)單的陰影標(biāo)注算法對(duì)該數(shù)據(jù)集進(jìn)行陰影標(biāo)注。
首先,我們將數(shù)據(jù)集中的所有彩色圖像轉(zhuǎn)換為灰度圖像,把轉(zhuǎn)換后的灰度圖像記為t。對(duì)于t中的像素x,其對(duì)應(yīng)的二值陰影圖像s(x)生成如下:
其中,T是決定陰影的閾值。因?yàn)椴煌瑘D像中的場(chǎng)景內(nèi)容和光照有時(shí)差異很大,所以T往往是隨著圖像的變化而發(fā)生變化。因此,對(duì)于每張圖像,我們?cè)O(shè)置不同大小的T,得到多張陰影圖像,再依據(jù)主觀判斷選取一張最合理的陰影圖像作為最終的陰影真值圖像。如圖1 所示,我們展示了不同T下的陰影標(biāo)注結(jié)果。一般而言,T的取值范圍為[10-25]。
圖1 不同T下的陰影標(biāo)注結(jié)果Fig.1 Shadow labeling results under different T
本節(jié)中,我們首先概要介紹提出的方法,接著給出具體的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn),最后說明損失函數(shù)和模型訓(xùn)練細(xì)節(jié)。
給定輸入圖像I及其對(duì)應(yīng)光照L,我們將重光照建模為:
其中Zi和Zl是圖像的隱式表征,分別對(duì)應(yīng)著圖像的本質(zhì)表征和光照表征。φ1和ψ1分別是輸入圖像I的重光照編碼器和重光照解碼器。φ2和ψ2分別是Zl的光照編碼器和光照解碼器。特別地,基于上述公式,任意至任意重光照可以按照?qǐng)D2 解決。具體而言,將源圖像IS和引導(dǎo)圖像IG同時(shí)輸入到重光照編碼器φ1,分別得到對(duì)應(yīng)的隱式表征,即和。將輸入到光照編碼器φ2和光照解碼器ψ2,進(jìn)一步得到ψ1的光照表征輸入。聯(lián)合和,利用重光照解碼器ψ1將其解碼為重光照?qǐng)D像。
圖2 方法原理圖Fig.2 Schematic diagram of the method
陰影特征增強(qiáng):為了進(jìn)一步增強(qiáng)陰影的視覺效果,我們對(duì)重光照解碼器ψ1中的重光照特征FR進(jìn)行陰影特征增強(qiáng)。為此,我們引入了一個(gè)額外的陰影解碼器ψ3,從隱式表征生成出對(duì)應(yīng)的陰影圖像。同時(shí),在陰影生成任務(wù)的驅(qū)動(dòng)下,ψ3也將學(xué)習(xí)豐富的陰影特征FS。進(jìn)一步,利用可學(xué)習(xí)的權(quán)重{wR,},自適應(yīng)融合FR和FS,得到增強(qiáng)后的重光照特征,如下公式所示:
同理,利用可學(xué)習(xí)的權(quán)重{wS,},也可得到增強(qiáng)后的陰影特征。最終,F(xiàn)R和FS互為補(bǔ)充,相互增強(qiáng)。具體細(xì)節(jié)可見4.2.3小節(jié)。
在本文中,我們將所有的編碼器{φ1,φ2}和解碼器{ψ1,ψ2,ψ3}都建模為深度前饋神經(jīng)網(wǎng)絡(luò),具體的網(wǎng)絡(luò)結(jié)構(gòu)見4.2小節(jié)。
如圖3 所示,我們提出的任意至任意重光照網(wǎng)絡(luò)由數(shù)個(gè)編解碼器{φ1,φ2,ψ1,ψ2,ψ3}組成。其中,{φ1,ψ1,ψ3}遵循U 形網(wǎng)絡(luò)結(jié)構(gòu)的設(shè)計(jì),{φ2,ψ2}則由數(shù)個(gè)全連接層和激活層組成。
4.2.1 重光照編解碼器
對(duì)于重光照編解碼器{φ1,ψ1}而言,φ1包括一個(gè)輸入預(yù)處理模塊和四個(gè)下采樣模塊。其中,輸入預(yù)處理模塊由一個(gè)卷積層組成,每個(gè)下采樣模塊則由一個(gè)下采樣層(即最大池化)和一個(gè)卷積模塊組成。卷積模塊主要由卷積層、組規(guī)范層和激活層組成,并包括一個(gè)殘差連接,具體細(xì)節(jié)可見圖3中的卷積模塊。相應(yīng)地,ψ1包括一個(gè)輸出模塊和四個(gè)上采樣模塊。其中,輸出模塊由一個(gè)卷積層構(gòu)成,第一個(gè)上采樣模塊僅包含一個(gè)上采樣層(即縮放卷積),后三個(gè)上采樣模塊皆由一個(gè)卷積模塊和一個(gè)上采樣層組成。對(duì)于任意給定的圖像I,我們將其輸入重光照編碼器φ1,輸出一組特征圖,即為其對(duì)應(yīng)的隱式表征{Zi,Zl}。在具體實(shí)現(xiàn)中,我們?nèi)∏?56 維特征圖作為Zl,剩下的512維特征圖作為Zi。
圖3 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Network structure
核函數(shù)映射:對(duì)于輸入圖像I的三個(gè)RGB 通道圖像{IR,IG,IB},利用三階多項(xiàng)式核函數(shù)K將其映射到高維特征Fp:
最終,聯(lián)合高維特征Fp和深度圖像作為重光照編碼器φ1的輸入,進(jìn)一步提高輸入的特征多樣性。
4.2.2 光照編解碼器
為了確保Zl光照可感知,我們需要利用光照編碼器φ2將Zl編碼為實(shí)際光照L,再通過光照解碼器ψ2解碼為。光照編碼器φ2由兩個(gè)全連接層組成,以預(yù)測(cè)光照L。其中,第一個(gè)全連層后接一個(gè)激活層??紤]到現(xiàn)有的任意至任意重光照數(shù)據(jù)集[33]包含光源方向真值LD和光源色溫真值LT,故本文中的φ2由兩個(gè)相同的全連接網(wǎng)絡(luò)構(gòu)成,分別用來預(yù)測(cè)光源方向和光源色溫。光照解碼器ψ2由兩個(gè)全連接層組成,每個(gè)全連接層都后接一個(gè)激活層。注意,光照解碼器ψ2僅由一個(gè)全連接網(wǎng)絡(luò)構(gòu)成,輸入是,輸出是。最后,本文采用One-Hot編碼來分別表征LD和LT。
4.2.3 陰影解碼器
陰影解碼器ψ3的輸入與重光照解碼器ψ2的輸入一樣,都是。另外,陰影解碼器ψ3的網(wǎng)絡(luò)結(jié)構(gòu)也和重光照解碼器ψ2保持一樣。不同的是,陰影解碼器ψ3需從隱式表征中恢復(fù)陰影圖像。在陰影生成任務(wù)的驅(qū)動(dòng)下,陰影解碼器ψ3將從隱式表征中學(xué)習(xí)豐富的多尺度陰影特征FS。為此,我們將利用學(xué)習(xí)到的深度陰影特征FS進(jìn)一步增強(qiáng)重光照特征FR。
基于注意力機(jī)制的特征融合模塊:如圖3所示,我們利用可學(xué)習(xí)的權(quán)重需對(duì)不同空間尺度上的重光照特征FR和陰影特征FS進(jìn)行自適應(yīng)融合:
本文中,考慮到現(xiàn)有重光照數(shù)據(jù)集的特性,我們分別將重光照與光照估計(jì)視為回歸任務(wù)和分類任務(wù)。對(duì)于光照估計(jì)損失函數(shù)?c,我們使用交叉熵?fù)p失函數(shù)H來訓(xùn)練光照估計(jì)相關(guān)的網(wǎng)絡(luò):
其中,LT和LD分別是光源方向真值和光源色溫真值。對(duì)于重光照,均方誤差損失函數(shù)作為圖像的重建損失函數(shù)監(jiān)督網(wǎng)絡(luò)的訓(xùn)練。受啟發(fā)于[34],我們也采用基于SSIM的損失函數(shù)來訓(xùn)練網(wǎng)絡(luò)。最終,重光照的損失函數(shù)?r定義如下:
其中,在我們的實(shí)驗(yàn)中,λ1和λ2都設(shè)置為1。本文中除了重光照與光照估計(jì)任務(wù)之外,還額外引入了一個(gè)陰影生成任務(wù)。因此,對(duì)于陰影生成損失函數(shù)?s,我們使用基于平均絕對(duì)誤差的損失函數(shù)來訓(xùn)練陰影解碼器:
其中,S是陰影圖像真值。最終,總的損失函數(shù)?total定義為上述三個(gè)子任務(wù)損失函數(shù)的和:
我們使用Adam 優(yōu)化器[35]來更新整個(gè)網(wǎng)絡(luò)的參數(shù)。其中,學(xué)習(xí)率設(shè)置為1e-5,β=(0.9,0.999)。整個(gè)網(wǎng)絡(luò)參數(shù)的初始化采用Kaiming 初始化[36]。我們?cè)赑ytorch 框架下實(shí)現(xiàn)整個(gè)網(wǎng)絡(luò)。實(shí)驗(yàn)是在基于Titan RTX的圖形處理服務(wù)器上運(yùn)行。
VIDIT 數(shù)據(jù)集[33]:由Helou 等人構(gòu)建,分別在AIM 2020[1]和NTIRE 2021[2]挑戰(zhàn)賽上用于場(chǎng)景重光照(包括任意至任意重光照)和光照估計(jì)等賽道上的性能評(píng)價(jià)。該數(shù)據(jù)集一共包括390 個(gè)場(chǎng)景,其中300個(gè)場(chǎng)景用于訓(xùn)練集,45個(gè)場(chǎng)景用于驗(yàn)證集,剩下的45 個(gè)場(chǎng)景用于測(cè)試集。每個(gè)場(chǎng)景預(yù)定義8 個(gè)光照方向(北,東北,東,東南,南,西南,西,西北)和5個(gè)色溫(2500 K,3500 K,4500 K,5500 K,6500 K),這導(dǎo)致每個(gè)場(chǎng)景將有40個(gè)不同的光照設(shè)置。因此,整個(gè)數(shù)據(jù)集一共有15600張圖像。每張圖像的分辨率是1024*1024。另外,AIM 2020 中的每個(gè)場(chǎng)景僅包括RGB 圖像,而NTIRE 2021 中則進(jìn)一步提供了額外的深度圖像。注意,測(cè)試集只應(yīng)用于挑戰(zhàn)賽,為主辦方私有,而訓(xùn)練集和驗(yàn)證集是公開的,用于學(xué)術(shù)評(píng)估。
評(píng)價(jià)指標(biāo):任意至任意重光照的性能評(píng)估除了常見的PSNR、SSIM 和LPIPS[37]等評(píng)價(jià)指標(biāo)外,Helou等人[1]還專門為其定義了一個(gè)MPS(Mean Perceptual Score)指標(biāo):
不難看出,MPS 是基于SSIM 和LPIPS 的綜合評(píng)價(jià)指標(biāo),被Helou 等人作為重光照賽道的排名指標(biāo)。因?yàn)閷?duì)于重光照這類任務(wù),SSIM 和LPIPS 相較于PSNR 指標(biāo)更接近于人的主觀評(píng)價(jià)。另外,為了驗(yàn)證本文光照估計(jì)模塊的有效性,我們采用了Helou等人[1]所提的基于預(yù)測(cè)準(zhǔn)確率的光照估計(jì)評(píng)價(jià)指標(biāo)TotalLoss,其定義如下:
其中,AngLoss 和TempLoss 分別是光源方向估計(jì)和光源色溫估計(jì)的評(píng)價(jià)指標(biāo)。
在本文的比較實(shí)驗(yàn)中,我們除了比較現(xiàn)有的任意至任意重光照方法(SA-AE[14]和AMIDR-Net[16]),還比較了面向人臉的重光照方法DPR[13]。但是由于DPR 采用了球諧光照表征,與本文的光源假設(shè)不同,故我們將球諧光照替換為本文所用的光照表征,其他模型配置保持不變。我們按照作者提供的訓(xùn)練超參數(shù)將DPR 在NTIRE 2021 任意至任意重光照訓(xùn)練集上重新訓(xùn)練,當(dāng)損失函數(shù)收斂時(shí),我們報(bào)告了DPR在驗(yàn)證集上的結(jié)果。
5.2.1 任意至任意重光照性能比較
在NTIRE 2021任意至任意重光照驗(yàn)證集上,我們與先前的工作進(jìn)行了比較。NTIRE 2021 任意至任意重光照驗(yàn)證集一共包括90 個(gè)源圖像和引導(dǎo)圖像對(duì)。表1中展示了不同方法在該驗(yàn)證集上的定量對(duì)比??梢钥闯?,我們的方法在MPS 上取得了最佳的結(jié)果,比AMIDR-Net 的方法提高了0.013。AMIDR-Net 取得了最高的PSNR,這主要是因?yàn)樗昧思杉夹g(shù),將多個(gè)模型組合在一起,但同時(shí)也會(huì)帶來模糊的副作用。在圖4 中,我們展示了定性結(jié)果。就重光照中的色溫改變而言,以圖4 中的第二列圖像為例,引導(dǎo)圖像中的色溫偏低,相比較于其他方法,我們方法的結(jié)果(尤其是方框部分)恢復(fù)了更低的色溫,與真值更接近。就重光照中的光源方向改變而言,以圖4中第三列圖像為例,由于引導(dǎo)圖像中的光源方向來自于圖像右下角,我們方法不僅去除了圖中方框處的陰影,而且在石頭左側(cè)(即方框左側(cè)的石頭)生成了豐富的陰影。AMIDRNet 沒有去除方框處的陰影,而其他方法則在石頭左側(cè)生成了有限的陰影。
圖4 不同方法在NTIRE 2021任意至任意驗(yàn)證集上的定性比較Fig.4 Qualitative comparison of different methods on the NTIRE 2021 Any-to-any Relighting validation set
表1 不同方法在NTIRE 2021任意至任意驗(yàn)證集上的定量比較Tab.1 Quantitative comparison of different methods on the NTIRE 2021 Any-to-any Relighting validation set
另外,圖5 展示了同一幅源圖像在不同引導(dǎo)圖像下的重光照結(jié)果。從圖中可以看出,源圖像中的光源方向?yàn)閳D像的右方,而引導(dǎo)圖像中的光源方向依次為圖像右上方,正下方以及左上方。相應(yīng)地,我們的方法在重光照結(jié)果1 和重光照結(jié)果3 中,分別在石頭的左下方(即紅色方框處)和右下方(即藍(lán)色方框處)生成了合理的陰影。而在重光照結(jié)果2中,我們的方法則去除了石頭左處(即黃色方框處)的陰影。同時(shí),我們也注意到,該區(qū)域由于陰影的消除而出現(xiàn)了模糊,如何填充陰影消除區(qū)域的紋理細(xì)節(jié)仍是未來值得進(jìn)一步研究的問題。最后,對(duì)于重光照中的色溫遷移而言,源圖像的色溫為5500 K,引導(dǎo)圖像1 和2 的色溫為2500 K,引導(dǎo)圖像3 的色溫為3500 K。從圖5 中的重光照結(jié)果可以看出,我們的方法準(zhǔn)確恢復(fù)了相應(yīng)的色溫。
圖5 同一幅源圖像在不同引導(dǎo)圖像下的重光照結(jié)果Fig.5 Relighting results of the same source image under different guide images
5.2.2 光照估計(jì)性能比較
在AIM 2020光照估計(jì)驗(yàn)證集上,我們比較了不同方法中光照估計(jì)的性能。如表2 所示,我們方法的TotalLoss 為0.0957,比SA-AE 的降低了0.06 左右。比較所有方法的AngLoss 和TempLoss,不難發(fā)現(xiàn),我們的方法在AngLoss 取得了大幅提升。實(shí)際上,陰影的生成依賴于光源的方向。這意味著額外的陰影生成任務(wù)有助于光源方向估計(jì)準(zhǔn)確率的提升。
表2 不同方法在AIM 2020光照估計(jì)驗(yàn)證集上的定量比較Tab.2 Quantitative comparison of different methods on the AIM 2020 Lighting Estimation validation set
5.2.3 模型參數(shù)量與推理時(shí)間比較
表3 報(bào)告了不同方法的模型參數(shù)量與推理時(shí)間。注意,所有方法都是在NTIRE 2021 任意至任意驗(yàn)證集上使用單個(gè)RTX Titan GPU 進(jìn)行測(cè)試的。我們報(bào)告了不同方法下單張1024*1024圖像的平均處理時(shí)間。盡管具有最少參數(shù)量的DPR 取得了最短的推理時(shí)間(0.886 s),但是它只能處理人臉重光照,無法直接擴(kuò)展到場(chǎng)景重光照上。AMIDR-Net 的推理時(shí)間最高,為1.383 s,這主要是由于它集成了多個(gè)模型。對(duì)比之下,雖然我們的方法推理時(shí)間比SA-AE 低了0.22 s,但是視覺效果上卻更好,有著更低的MPS。
表3 模型參數(shù)量與推理時(shí)間的對(duì)比Tab.3 Comparison in terms of model parameters count and inference time
為了驗(yàn)證各個(gè)模塊的有效性,我們?cè)贜TIRE 2021 任意至任意重光照驗(yàn)證集上報(bào)告了不同模型配置下的結(jié)果。注意,因?yàn)镹TIRE 2021 任意至任意重光照訓(xùn)練集中的圖像分辨率為1024*1024,一次完整訓(xùn)練的時(shí)間成本很高。為了加快網(wǎng)絡(luò)的訓(xùn)練速度,我們將訓(xùn)練集和驗(yàn)證集中的圖像都縮放到256*256。表4 中報(bào)告了我們的消融實(shí)驗(yàn)結(jié)果。其中,基線方法(即配置1)僅由重光照編解碼器{φ1,ψ1}和光照編解碼器{φ2,ψ2}組成,并對(duì)重光照?qǐng)D像只采用基本的均方誤差損失函數(shù),其MPS 結(jié)果最差,僅為0.5519。在配置1 上添加基于SSIM的損失函數(shù)(即配置2),則將基線方法的SSIM 值提高了近0.171。在配置2 的基礎(chǔ)上進(jìn)一步加入多項(xiàng)式特征(即配置3),則將MPS 提高了0.0052。從圖6 中的綠色方框部分可以看出,配置3 的結(jié)果相比于配置2 的結(jié)果恢復(fù)了更加準(zhǔn)確的色溫。當(dāng)深度陰影特征也融入配置3 中(即本文方法)取得了最高的MPS,為0.6601。從圖6 中的紅色方框部分可以看出,我們的結(jié)果具有更加準(zhǔn)確的陰影。
圖6 不同模型配置下的定性比較Fig.6 Qualitative comparison of different model configurations
表4 消融實(shí)驗(yàn)Tab.4 Ablation Study
我們也研究了不同陰影閾值對(duì)于重光照結(jié)果的影響。在本文標(biāo)注的陰影閾值T的基礎(chǔ)上,我們加上±Δ 的擾動(dòng),得到不夠精確的陰影,作為陰影真值,來訓(xùn)練整個(gè)模型。在本實(shí)驗(yàn)中,Δ 的取值為10。注意,若擾動(dòng)后的陰影閾值小于0,則直接置為0。如表5 所示,精確陰影閾值T下的重光照性能最好,MPS 最高,為0.6601。對(duì)比之下,擾動(dòng)后的陰影閾值T-Δ和T+Δ 都出現(xiàn)了不同程度的性能下降,MPS 分別下降了0.0052 和0.0118。這主要是因?yàn)椋e(cuò)誤的陰影標(biāo)注勢(shì)必降低陰影生成的準(zhǔn)確性,干擾深度陰影特征,并最終影響重光照的性能。
表5 不同陰影閾值的影響Tab.5 Effects of different shadow thresholds
最后,我們研究了公式(9)中λ1和λ2的取值對(duì)于重光照結(jié)果的影響。本實(shí)驗(yàn)中,我們對(duì)λ1和λ2按比例取了五組值,即(1.0,0.0),(0.7,0.3),(0.5,0.5),(0.3,0.7)和(0.0,1.0)。如表6 所示,在(0.5,0.5)的取值下,重光照的性能最好,MPS 為0.6599。對(duì)比之下,(1.0,0.0)取值下的重光照的性能最差,MPS 僅為0.5791,比(0.5,0.5)取值下的MPS 下降了12%左右。其中,MPS 的下降主要是由于SSIM 過低導(dǎo)致,這說明基于SSIM 的損失函數(shù)能顯著提升圖像的生成質(zhì)量。
表6 λ1和λ2的影響Tab.6 Effects of λ1 and λ2
本文提出了一種基于深度陰影特征增強(qiáng)的任意至任意重光照方法。該方法引入一個(gè)額外的陰影生成任務(wù),通過設(shè)計(jì)對(duì)應(yīng)的陰影解碼器,明確學(xué)習(xí)重光照中的陰影特征。同時(shí),利用基于注意力機(jī)制的特征融合模塊,自適應(yīng)融合陰影特征與重光照特征,提高陰影生成的準(zhǔn)確性。為了訓(xùn)練陰影解碼器,我們結(jié)合人的主觀評(píng)價(jià)設(shè)計(jì)了一個(gè)簡(jiǎn)單的陰影標(biāo)注算法,獲取陰影圖像真值。我們?cè)赩IDIT 數(shù)據(jù)集上進(jìn)行了大量的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提方法的有效性。