周 濤, 郁 梅*, 陳曄曜, 蔣志迪, 蔣剛毅
(1. 寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211;2. 寧波大學(xué)科學(xué)技術(shù)學(xué)院 信息工程學(xué)院,浙江 寧波 315212)
區(qū)別于傳統(tǒng)成像只能在單個(gè)方向上捕獲三維空間的光線信息,光場(chǎng)成像技術(shù)能夠同時(shí)記錄場(chǎng)景中光線的強(qiáng)度和方向信息?;诠鈭?chǎng)成像的光學(xué)儀器(即光場(chǎng)相機(jī))也被開發(fā)以獲取更豐富的場(chǎng)景信息。許多光場(chǎng)應(yīng)用也隨之產(chǎn)生,如深度感知[1]、反射率估計(jì)[2]、視圖渲染[3]、前景去遮擋[4]等技術(shù)。通過在主鏡頭和成像傳感器之間插入微透鏡陣列等光學(xué)組件,光場(chǎng)相機(jī)可以通過單次曝光同時(shí)采集空間信息和角度信息。但受限于傳感器的尺寸,密集的空間采樣會(huì)導(dǎo)致稀疏的角度采樣,這嚴(yán)重阻礙了光場(chǎng)成像的實(shí)際應(yīng)用。
為了解決這個(gè)問題,基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的光場(chǎng)角度超分辨率算法被提出。但由于光場(chǎng)圖像的四維 (4-Dimensions,4D)結(jié)構(gòu)限制,其空間信息與角度信息高度耦合,給卷積神經(jīng)網(wǎng)絡(luò)的光場(chǎng)應(yīng)用帶來了挑戰(zhàn)?,F(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的方法通過直接生成或者間接生成兩種方式來獲得密集的光場(chǎng)圖像。
直接生成法先從稀疏光場(chǎng)圖像中建??臻g和角度信息的相關(guān)性,再沿角度維上采樣重建光場(chǎng)。Yoon 等[5]首次用CNNs 對(duì)光場(chǎng)圖像建模,通過鄰域視圖建模的方法從相鄰的兩個(gè)子孔徑圖(Sub-Aperture Image,SAI)中生成中間視圖。Yeung 等[6]提出空間角度可分離卷積來代替4D卷積提取光場(chǎng)4D 結(jié)構(gòu)信息。Wu 等[7]將極平面圖像(Epipolar Plane Image,EPI)視為光場(chǎng)圖像的基本單元,提出基于EPI 的重建網(wǎng)絡(luò),但因EPI本身分辨率的問題,該網(wǎng)絡(luò)在低角度分辨率作為輸入的情況表現(xiàn)欠佳。Wang 等[8]提出一個(gè)端到端的偽4D CNN,將二維(2-Dimensions,2D)EPIs堆疊成三維(3-Dimensions,3D)形式作為輸入進(jìn)行角度重建。Wang 等[9]將光場(chǎng)圖像視為宏像素圖像陣列,并設(shè)計(jì)了一種解耦機(jī)制來充分利用光場(chǎng)的角度信息。間接生成法大多通過生成一些中間輸出,通過中間輸出與輸入的操作來重建光場(chǎng)圖像。Kalantari 等[10]提出一個(gè)端到端的兩階段網(wǎng)絡(luò),將角度重建看作視差估計(jì)和色彩估計(jì)兩部分,在生成中間輸出視差圖后,根據(jù)輸入與視差圖繪制出粗糙結(jié)果,后續(xù)進(jìn)行色彩補(bǔ)償。Wu等[11]通過預(yù)移位的EPIs 隱式地估計(jì)場(chǎng)景深度,并提出一種克服EPI 不匹配的CNN 重建網(wǎng)絡(luò),可實(shí)現(xiàn)更大視差范圍下的光場(chǎng)重建。除此之外,Jin 等[12]提出一個(gè)能從非結(jié)構(gòu)化稀疏光場(chǎng)輸入重建出密集分布的兩階段網(wǎng)絡(luò)。上述直接和間接方法都只能生成密集分布的光場(chǎng)圖像,無法從稀疏分布的光場(chǎng)圖像中重建出任意角度位置的新視圖。近期,Han[13]等提出一個(gè)基于變分自編碼器的間接生成網(wǎng)絡(luò),它能夠從稀疏分布的光場(chǎng)輸入圖像中為每個(gè)參考視圖生成一組非共享卷積核,通過與參考視圖的卷積可以靈活地得到任意角度位置的新視圖。但它與其他角度超分方法存在一樣的問題,即特征提取時(shí)受限于感受野,在更大尺寸光場(chǎng)圖像上對(duì)空間和角度信息的相關(guān)性建模不充分。
為了解決上述問題,本文提出了一個(gè)簡(jiǎn)單有效的方法來調(diào)整光場(chǎng)空角相關(guān)性建模時(shí)的感受野。鑒于頻域上的一點(diǎn)能影響空域上的全局信息、頻域的全局信息與空間上局部信息存在相關(guān)性,基于快速傅里葉卷積[14]提出了一個(gè)密集快速傅里葉卷積殘差(Dence Fast Fourier Convolutions Residual,DFFCR)塊來更有效地建模光場(chǎng)的空間和角度相關(guān)性。該模塊分別在頻域和空域上進(jìn)行了卷積操作,以提取場(chǎng)景的全局和局部信息。同時(shí),通過引入基于全局響應(yīng)歸一化(Global Response Normalization,GRN)[15]的通道注意塊,能夠?qū)⑷中畔⑴c局部信息進(jìn)行通道級(jí)融合,更有效地利用光場(chǎng)圖像的空間和角度信息。其次,提出了一種視點(diǎn)加權(quán)的間接合成(Viewpoint Weighting Indirect View Synthesis,VWIVS)塊,該塊能結(jié)合多個(gè)參考視圖以生成最終結(jié)果。為每個(gè)參考視圖生成置信圖,并根據(jù)置信圖來決定每個(gè)參考視圖生成結(jié)果的權(quán)重。將每個(gè)參考視圖生成結(jié)果進(jìn)行融合后,得到最終輸出。這一策略能夠保留更多的細(xì)節(jié)信息,增強(qiáng)生成結(jié)果的可視化效果。
基于雙平面光場(chǎng)參數(shù)化模型[16],光場(chǎng)圖像通常表示為一個(gè)4D 函數(shù)L(u,v,s,t)∈RU×V×S×T,其中U和V表示角度維度,S和T表示空間維度,在 角 度 位 置 (u,v) 上 的 SAI 表 示 為I(u,v)(s,t)∈RS×T,與自然2D 圖像具有相似的風(fēng)格。
本文旨在從稀疏分布的參考子孔徑圖重建出新角度位置上的SAI,使其盡可能接近真值。即給定輸入?yún)⒖甲涌讖綀DLref和目標(biāo)角度位置ptar,該問題可以表示為:
圖1 聯(lián)合傅里葉卷積與通道注意力的光場(chǎng)重建方法的總體框圖Fig.1 Framework of light field reconstruction method with joint Fourier convolution and channel attention
圖1 為所提方法的整體框架。重建過程主要包括初始特征提取模塊、空頻域特征學(xué)習(xí)模塊、目標(biāo)角度位置特征映射模塊和視點(diǎn)加權(quán)的間接視圖合成模塊4 個(gè)模塊。首先,利用初始特征提取模塊結(jié)合通道注意塊初步提取參考子孔徑圖的空間信息。之后結(jié)合空域和頻域上的卷積對(duì)參考子孔徑圖的空間和角度信息進(jìn)行融合。結(jié)合目標(biāo)角度位置后,將融合后的特征映射至目標(biāo)角度位置,利用帶有目標(biāo)角度信息的特征通過映射模塊為每個(gè)參考子孔徑圖的每個(gè)像素生成非共享卷積核,最后用該卷積核和參考子孔徑圖間接合成高質(zhì)量且細(xì)節(jié)豐富的目標(biāo)角度位置子孔徑圖。
首先,使用由少量3×3 卷積加上激活層構(gòu)成的Spatial Conv 塊將參考子孔徑圖映射至特征維度,如圖2(a)所示。為了在空間維度上更好地融合參考子孔徑圖之間的信息,結(jié)合基于GRN 的通道注意塊進(jìn)一步融合參考子孔徑圖間的信息,以便在不產(chǎn)生額外參數(shù)的情況下增加通道間的對(duì)比和選擇性,如圖2(b)所示。其中,使用K個(gè)級(jí)聯(lián)的ConvNeXt v2[15]塊來實(shí)現(xiàn)對(duì)參考子孔徑圖在特征域中的信息融合。初步提取的特征表示為F∈RC×S×T,其中C表示通道維度。
圖2 初始特征提取模塊示意圖Fig.2 Schematic diagram of initial feature extraction module
為整合多級(jí)特征學(xué)習(xí)與傅里葉卷積,設(shè)計(jì)了DFFCR 塊以提取子孔徑圖間的空域和頻域信息。如圖1 所示,每個(gè)DFFCR 塊由3 個(gè)級(jí)聯(lián)的快速傅里葉卷積殘差(Fast Fourier Convolutions Residual,F(xiàn)FCR)塊和一個(gè)1×1 卷積塊組成,前兩個(gè)FFCR 塊的輸出會(huì)拼接至最后一個(gè)FFCR 塊,并通過1×1 卷積塊進(jìn)行融合。假定表示第s個(gè)DFFCR 塊內(nèi)的第l個(gè)FFCR 的輸出,那么第s個(gè)DFFCR 塊的輸出可以表示為:
如圖3 所示,每個(gè)FFCR 塊包含兩個(gè)快速傅里葉卷積(Fast Fourier Convolution,F(xiàn)FC)塊。FFC 塊是基于通道級(jí)的快速傅里葉變換,它將輸入特征沿著通道維度劃分為局部和全局兩個(gè)部分分別進(jìn)行處理。局部分支使用普通的卷積來捕獲局部特征;全局分支則利用一個(gè)頻域變換塊,在頻域上考慮圖像的全局結(jié)構(gòu)并提取非局部信息。最終兩個(gè)分支的輸出堆疊在一起進(jìn)行輸出。頻域變換塊使用傅里葉卷積單元來提取全局信息。傅里葉卷積單元中主要使用Real FFT2d 將輸入從空域變換至頻域中,然后在頻域上進(jìn)行卷積操作,最后使用Inverse FFT2d 將特征恢復(fù)至空域。
圖3 快速傅里葉卷積殘差塊示意圖Fig.3 Schematic diagram of FFCR block
經(jīng)過空頻域特征學(xué)習(xí)后的輸出特征只是對(duì)輸入的參考子孔徑圖的空間和方向信息建模,還需要將它映射至角度位置。因此,對(duì)于給定目標(biāo)角度位置Ptar,使用一個(gè)空間卷積塊卷積Wsc進(jìn)行初步融合。融合角度過程可以表示為:
其中,F(xiàn)fused∈RC×S×T表示初步融合角度后的輸出,F(xiàn)DFFCR∈RC×S×T表示DFFCR 輸出的特征。由于DFFCR 塊和角度融合都是通道級(jí)別的,需要解決如何在模型穩(wěn)定的情況下,有效地融合目標(biāo)角度位置和所提取特征的問題。為此,采用一個(gè)與初始特征提取過程相同結(jié)構(gòu)但不共享權(quán)重的通道注意力(Channel Attention,CA)塊,穩(wěn)定地融合提取特征和目標(biāo)角度位置。參考現(xiàn)有的光場(chǎng)靈活角度位置重建工作[14],使用殘差密度塊(Residual Dense Block,RDB)[17]將輸入映射至目標(biāo)卷積核。
現(xiàn)有的光場(chǎng)間接視圖合成方法[13]先用自適應(yīng)卷積[18]得到參考子孔徑圖的合成結(jié)果,再用相加的方式得到最終的子孔徑圖。這種融合方式不能保留真實(shí)的細(xì)節(jié)。本文借鑒立體匹配研究[19],在最終融合過程中加入一個(gè)中間操作,通過置信圖的方式調(diào)整參考子孔徑圖合成結(jié)果間的關(guān)系,以獲得更真實(shí)的圖像。
圖4 為每個(gè)參考子孔徑圖自適應(yīng)卷積融合的結(jié)果分配一個(gè)像素級(jí)的置信圖,在最終融合的過程中通過加權(quán)每個(gè)參考子孔徑圖的結(jié)果,輔以全局殘差得到最終的目標(biāo)子孔徑圖??紤]到l1損失函數(shù)對(duì)異常值穩(wěn)定,采用l1損失函數(shù)來最小化重建子孔徑圖與真值(Ground Truth,GT)之間的平均絕對(duì)誤差:
圖4 視點(diǎn)加權(quán)的間接視圖合成示意圖Fig.4 Schematic of viewpoint weighting indirect view synthesis module
其中:n表示圖像的像素總數(shù),Igt代表GT 子孔徑圖表示網(wǎng)絡(luò)重建的子孔徑圖。
基于文獻(xiàn)[9]中的策略,使用自然光場(chǎng)數(shù)據(jù)集30Scenes[10],STFlytro[20]進(jìn)行實(shí)驗(yàn)。自然光場(chǎng)圖像通常具有較小的基線,即相鄰子孔徑圖視差較小,所有場(chǎng)景的光場(chǎng)圖像的角度分辨率為14×14,空間分辨率為376×541。由于光場(chǎng)相機(jī)成像特性,光場(chǎng)圖像的邊緣子孔徑圖通常并不完整,因此,所有的光場(chǎng)圖像都取其中心7×7 的子孔徑圖作為參考的高角度分辨率光場(chǎng)圖像。對(duì)于每個(gè)光場(chǎng)圖像,選擇2×2 的角子孔徑圖作為輸入的低角度分辨率光場(chǎng)圖像。訓(xùn)練集和測(cè)試集劃分如表1 所示,使用30Scenes 數(shù)據(jù)集中的100 個(gè)自然光場(chǎng)圖像用作訓(xùn)練。測(cè)試集則由30 個(gè)選自30Scenes 數(shù)據(jù)集的光場(chǎng)圖像以及STFlytro 數(shù)據(jù)集的15 個(gè)Reflective 場(chǎng)景和25 個(gè)Occlusion 場(chǎng)景的光場(chǎng)圖像構(gòu)成,訓(xùn)練集和測(cè)試集互不相交。在訓(xùn)練過程中,每個(gè)子孔徑圖被裁剪成64×64 的圖像塊。測(cè)試則使用完整子孔徑圖。
表1 實(shí)驗(yàn)所用訓(xùn)練和測(cè)試集劃分Tab.1 Partition of training and testing sets in experiments
采用YCbCr 顏色空間中Y 通道的峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)和結(jié)構(gòu)相似度(Structure Similarity Index Measure,SSIM)來衡量合成結(jié)果的客觀質(zhì)量。由于所提出的方法能夠合成任意角度位置的新視圖,首先計(jì)算所有位置的合成結(jié)果(即由光場(chǎng)圖像2×2 邊角位置的SAIs 生成的7×7 共45 個(gè)新視圖)的PSNR 和SSIM,然后取其平均值作為該光場(chǎng)圖像的客觀結(jié)果。此外,數(shù)據(jù)集的PSNR 和SSIM 是所有光場(chǎng)圖像結(jié)果的平均值。
所有實(shí)驗(yàn)基于Pytorch 深度學(xué)習(xí)框架完成,實(shí)驗(yàn)環(huán)境配置為24 vCPU Intel(R) Xeon(R)Platinum 8255C CPU @ 2.50GHz,兩張RTX 3090(24GB)顯卡。采用Adam 算法作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 2,并采用周期為60ep-och 的余弦退火優(yōu)化策略。訓(xùn)練和測(cè)試過程與文獻(xiàn)[14]一致。
為驗(yàn)證所提方法的有效性,采用ShearedEPI[11],Yeung[6],LFASR-geo[21],F(xiàn)S-GAF[12],DistgASR[9]和IRVAE[13]等進(jìn)行對(duì)比實(shí)驗(yàn)。其中,IRVAE 和所提方法均為靈活角度位置的重建方法。公平起見,所有方法都是在相同的數(shù)據(jù)集上進(jìn)行訓(xùn)練。表2 給出了對(duì)比實(shí)驗(yàn)結(jié)果,其中最好的性能指標(biāo)用粗體標(biāo)記。
表2 不同光場(chǎng)角度重建方法在2×2→7×7 任務(wù)上的PSNR 和SSIM 值Tab.2 PSNR and SSIM of different light field angular reconstruction methods on task of 2×2→7×7
由于稀疏光場(chǎng)圖像的EPI 僅包含2 個(gè)像素行或像素列,很難重建光場(chǎng)圖像中間的線性結(jié)構(gòu),因此如表2 所示,基于EPI 的方法[11]性能不如其他方法。相比之下,基于深度估計(jì)的方法如LFASR-geo[21]和FS-GAF[12]取得了優(yōu)于基于EPI 方法的性能。DistgASR[9]通過將光場(chǎng)結(jié)構(gòu)解耦成4 個(gè)2D 分支進(jìn)行多維信息融合直接重建缺失的視圖,在真實(shí)場(chǎng)景上取得了比基于視差估計(jì)方法更好的性能。IRVAE[13]通過變分自編碼器生成非共享卷積核間接合成任意缺失視圖,取得比前兩類方法更好的性能。所提出的方法通過結(jié)合光場(chǎng)的空頻域信息學(xué)習(xí)光場(chǎng)的空間角度相關(guān)性以重建缺失的視圖,在真實(shí)場(chǎng)景的所有數(shù)據(jù)集上取得了最好的性能指標(biāo)。
圖5 展示了不同方法重建的缺失視圖的主觀視覺效果,重建視圖在光場(chǎng)圖像中的角度位置如圖5(a)所示。圖5(a)表示30Scenes 數(shù)據(jù)集中的IMG_1554(上)和IMG_1541(下)光場(chǎng)圖像重建視圖對(duì)應(yīng)角度位置的真值視圖,圖5(b)~5(e)給出了用不同方法重建的視圖相對(duì)于真實(shí)視圖的誤差圖,同時(shí)也給出了對(duì)應(yīng)的2 處局部放大結(jié)果以及一幅EPI 圖像。從誤差圖可以看出,所提方法相比其他方法更接近真值,能夠很好地還原場(chǎng)景的細(xì)節(jié)結(jié)構(gòu),如IMG_1541 場(chǎng)景中草尖的輪廓形狀。如圖5 局部放大圖所示,該方法可以較好地從參考視圖恢復(fù)出目標(biāo)視圖的顏色以及紋理細(xì)節(jié),而對(duì)比方法在這些細(xì)節(jié)處產(chǎn)生失真。
為了展示密集分布光場(chǎng)圖像的重建方法與靈活位置光場(chǎng)圖像的重建方法的差異,圖6 進(jìn)一步展示了DistgASR 與所提方法在數(shù)據(jù)集30 Scenes 上重建的各個(gè)SAIs 的PSNR 分布圖。DistgASR 為當(dāng)前性能最好的密集分布光場(chǎng)圖像的重建方法,方格中的數(shù)字代表對(duì)應(yīng)角度位置上所有場(chǎng)景的光場(chǎng)SAI 重建結(jié)果與其GT 之間的平均PSNR。由圖可以看出,DistgASR 與所提方法在距離參考視圖近的角度位置重建性能較好;而距離參考視圖較遠(yuǎn)的位置如中心SAI,兩種方法的重建性能相對(duì)略差,但也在42.7 dB 之上。所提方法的重建性能在除少數(shù)距離參考試圖較近的位置外均優(yōu)于DistgASR,這說明它能更好地建模光場(chǎng)圖像的空間和角度相關(guān)性。
圖6 2×2→7×7 任務(wù)上DistgASR [9]和所提方法在數(shù)據(jù)集30 Scenes 上重建的SAIs 的PSNR 分布Fig.6 PSNR distribution of SAIs achieved by DistgASR[9] and proposed method on 30 Scenes dataset on task of 2×2→7×7
選擇性地從所提方法中刪除DFFCR,CAB和VWIVS 塊,以驗(yàn)證各個(gè)塊的有效性。表3 為消融實(shí)驗(yàn)結(jié)果。如表3 所示,對(duì)于前二者而言,缺少其中任意一個(gè)均會(huì)造成模型性能的下降,這歸因于DFFCR 塊是通道級(jí)的,缺少CAB 塊的通道級(jí)特征融合會(huì)導(dǎo)致光場(chǎng)圖像特征利用不充分;也證明DFFCR 塊融合空頻域特征的有效性。其次,缺少VWIVS 塊會(huì)導(dǎo)致模型在所有數(shù)據(jù)集上的性能略微下降,說明聯(lián)合參考視圖進(jìn)行融合會(huì)帶來更好的結(jié)果。此外,通過對(duì)比所提方法是否包含DFFCR 塊來驗(yàn)證空頻域信息充分結(jié)合對(duì)光場(chǎng)空間和角度信息建模的有效性。圖7 給出了所提方法中空頻域特征學(xué)習(xí)模塊對(duì)重建視圖的影響。這里展示了重建出的中心子孔徑圖的誤差圖以及兩個(gè)局部放大圖。由圖可知,帶有DFF-CR 塊的方法相比不帶DFFCR 塊的方法的誤差更小。
表3 所提方法在2×2→7×7 任務(wù)上的消融實(shí)驗(yàn)Tab.3 Ablation experiments of proposed method on task of 2×2→7×7
圖7 所提方法的DFFCR 塊在光場(chǎng)圖像IMG_1743 上的有效性視覺驗(yàn)證Fig.7 Visual verification of validity of DFFCR block in proposed method on light field image IMG_1743
本文提出了一種聯(lián)合傅里葉卷積和通道注意力的間接視圖合成方法,通過合成任意角度位置的新視圖間接進(jìn)行光場(chǎng)角度重建。該方法包括初始特征提取、空頻域特征學(xué)習(xí)、目標(biāo)角度位置特征映射和視點(diǎn)加權(quán)的間接視圖合成,獲得了比一些先進(jìn)方法更真實(shí)的結(jié)果和富有高頻信息的結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,相比IRVAE,所提方法的重建光場(chǎng)圖像質(zhì)量在自然光場(chǎng)數(shù)據(jù)集30Scenes,Occlusion 和Reflective 上的平均PSNR 分別提升了0.08,0.13 和0.13 dB,綜合性能優(yōu)于現(xiàn)有方法。所提出的方法在保證光場(chǎng)角度一致性的前提下取得了清晰的重建結(jié)果。但本文只能從固定分布的參考子孔徑圖重建任意角度位置的新視圖,在面向靈活輸入分布、靈活輸入數(shù)量重建問題時(shí)無法以單模型應(yīng)對(duì)。在未來的工作中,將研究有效結(jié)合空頻域信息對(duì)光場(chǎng)圖像進(jìn)行更合理建模的方法,以及面向光場(chǎng)可伸縮編碼的更靈活的光場(chǎng)重建方法。