趙圓圓,施圣賢
融合多尺度特征的光場(chǎng)圖像超分辨率方法
趙圓圓,施圣賢*
上海交通大學(xué)機(jī)械與動(dòng)力工程學(xué)院,上海 200240
光場(chǎng)相機(jī)作為新一代的成像設(shè)備,能夠同時(shí)捕獲光線的空間位置和入射角度,然而其記錄的光場(chǎng)存在空間分辨率和角度分辨率之間的制約關(guān)系,尤其子孔徑圖像有限的空間分辨率在一定程度上限制了光場(chǎng)相機(jī)的應(yīng)用場(chǎng)景。因此本文提出了一種融合多尺度特征的光場(chǎng)圖像超分辨網(wǎng)絡(luò),以獲取更高空間分辨率的光場(chǎng)子孔徑圖像。該基于深度學(xué)習(xí)的網(wǎng)絡(luò)框架分為三大模塊:多尺度特征提取模塊、全局特征融合模塊和上采樣模塊。網(wǎng)絡(luò)首先通過(guò)多尺度特征提取模塊學(xué)習(xí)4D光場(chǎng)中固有的結(jié)構(gòu)特征,然后采用融合模塊對(duì)多尺度特征進(jìn)行融合與增強(qiáng),最后使用上采樣模塊實(shí)現(xiàn)對(duì)光場(chǎng)的超分辨率。在合成光場(chǎng)數(shù)據(jù)集和真實(shí)光場(chǎng)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法在視覺(jué)評(píng)估和評(píng)價(jià)指標(biāo)上均優(yōu)于現(xiàn)有算法。另外本文將超分辨后的光場(chǎng)圖像用于深度估計(jì),實(shí)驗(yàn)結(jié)果展示出光場(chǎng)圖像空間超分辨率能夠增強(qiáng)深度估計(jì)結(jié)果的準(zhǔn)確性。
超分辨;光場(chǎng);深度學(xué)習(xí);多尺度特征提取;特征融合
光場(chǎng)成像的概念最早由Lippmann[1]于1908年提出,經(jīng)過(guò)較長(zhǎng)一段時(shí)間的發(fā)展,Adelson和Wang[2]于1992年搭建了全光相機(jī)模型,隨后Ng等人[3]于2005年設(shè)計(jì)出了手持式光場(chǎng)相機(jī)。作為新一代的成像設(shè)備,近年來(lái)光場(chǎng)相機(jī)已經(jīng)被廣泛應(yīng)用到三維測(cè)試領(lǐng)域,如:三維流場(chǎng)測(cè)試[4-8]、三維火焰溫度場(chǎng)重建[9]以及三維物體形貌重建[10-11]等。與傳統(tǒng)相機(jī)不同,光場(chǎng)相機(jī)在主透鏡與成像平面(CCD/CMOS)之間安裝了一個(gè)微透鏡陣列,可通過(guò)單次拍攝同時(shí)捕獲空間中光線的空間位置和入射角度,因此能夠從單張?jiān)脊鈭?chǎng)圖像中還原出所拍攝場(chǎng)景的三維信息。然而由于光場(chǎng)相機(jī)的固有結(jié)構(gòu)設(shè)計(jì),其空間分辨率與角度分辨率之間存在一定的制約關(guān)系[3]。以商用光場(chǎng)相機(jī)Lytro Illum為例,其捕獲的光場(chǎng)為7728 pixels×5368 pixels,而經(jīng)過(guò)光場(chǎng)渲染得到的15×15的子圖像陣列中每張子孔徑圖像的分辨率僅為625 pixels×434 pixels。過(guò)低的子圖像空間分辨率導(dǎo)致光場(chǎng)深度估計(jì)算法得到的深度圖分辨率過(guò)低,同時(shí)對(duì)深度估計(jì)結(jié)果的準(zhǔn)確性造成一定的影響。因此,越來(lái)越多的學(xué)者投入到光場(chǎng)超分辨率研究中,以拓展光場(chǎng)相機(jī)的應(yīng)用場(chǎng)景。
目前,主流的光場(chǎng)超分辨率主要分為空間超分辨率、角度超分辨率和時(shí)間超分辨率以及三者的任意組合。具體地,利用4D光場(chǎng)中的冗余信息并提出其所遵循的模型框架來(lái)實(shí)現(xiàn)超分辨率,這些光場(chǎng)超分辨率方法大致分為三大類:基于幾何投影的方法、基于先驗(yàn)假設(shè)的優(yōu)化方法和基于深度學(xué)習(xí)的方法[12]?;趲缀瓮队暗姆椒ㄖ饕歉鶕?jù)光場(chǎng)相機(jī)的成像原理,通過(guò)獲取不同視角子孔徑圖像之間的亞像素偏移來(lái)對(duì)目標(biāo)視圖進(jìn)行超分辨。Lim等人[13]通過(guò)分析得出,光場(chǎng)2D角度維度上的數(shù)據(jù)中暗含著不同視角圖像在空間維度上的亞像素偏移信息,繼而提出了利用數(shù)學(xué)模型將其投影至凸集上進(jìn)行迭代優(yōu)化來(lái)獲取高分辨率圖像的方法。Georgiev等人[14]建立了專門(mén)針對(duì)聚焦型光場(chǎng)相機(jī)的超分辨框架,通過(guò)子圖像中的對(duì)應(yīng)點(diǎn)找出相鄰視圖之間的亞像素偏移,然后將相鄰視圖中的像素傳播至目標(biāo)視圖中得到超分辨率結(jié)果?;谙闰?yàn)假設(shè)的方法是研究人員為了重建出更真實(shí)的高分辨率視圖所提出的。這類方法在利用4D光場(chǎng)結(jié)構(gòu)的同時(shí)加入了對(duì)實(shí)際拍攝場(chǎng)景的先驗(yàn)假設(shè),由此提出相應(yīng)的物理模型對(duì)光場(chǎng)超分辨率問(wèn)題進(jìn)行優(yōu)化求解。Bishop等人[15]在光場(chǎng)成像模型中加入了朗伯反射率和紋理保留的先驗(yàn)假設(shè),并在變分貝葉斯框架中對(duì)光場(chǎng)圖像進(jìn)行超分辨,實(shí)驗(yàn)表明該算法在真實(shí)圖像上有較好的表現(xiàn)。Rossi等人[16]提出了一種利用不同光場(chǎng)視圖信息并結(jié)合圖正則化器來(lái)增強(qiáng)光場(chǎng)結(jié)構(gòu)并最終得到高分辨率視圖的方法。考慮實(shí)際光場(chǎng)圖像中的噪聲問(wèn)題,Alain和Smolic[17]提出了一種結(jié)合SR-BM3D[18]單圖像超分辨濾波器和LFBM5D[19]光場(chǎng)降噪濾波器的方法,通過(guò)在LFBM5D[19]濾波步驟和反投影步驟之間反復(fù)交替以實(shí)現(xiàn)光場(chǎng)超分辨。基于深度學(xué)習(xí)的光場(chǎng)超分辨率近年來(lái)也在逐漸興起。Yoon等人[20]首次采用深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)光場(chǎng)圖像進(jìn)行空間和角度超分辨。在他們的工作中,首先通過(guò)空間超分辨網(wǎng)絡(luò)對(duì)每個(gè)子孔徑圖像進(jìn)行上采樣并結(jié)合4D光場(chǎng)結(jié)構(gòu)對(duì)其增強(qiáng)細(xì)節(jié),然后通過(guò)角度超分辨網(wǎng)絡(luò)生成相鄰視圖之間新的視角圖像。Wang等人[21]將光場(chǎng)子圖像陣列看作是2D圖像序列,用雙向遞歸卷積神經(jīng)網(wǎng)絡(luò)對(duì)光場(chǎng)中相鄰視角圖像之間的空間關(guān)系進(jìn)行建模,并設(shè)計(jì)了一種隱式多尺度融合方案來(lái)進(jìn)行超分辨重建。Zhang等人[22]提出了一種使用殘差卷積神經(jīng)網(wǎng)絡(luò)的光場(chǎng)圖像超分辨方法(ResLF),通過(guò)學(xué)習(xí)子圖像陣列中水平、豎直和對(duì)角方向上的殘差信息,并將其用于補(bǔ)充目標(biāo)視圖的高頻信息,實(shí)驗(yàn)結(jié)果表明該方法在視覺(jué)和數(shù)值評(píng)估上均表現(xiàn)出優(yōu)良的性能。
為了充分利用4D光場(chǎng)的冗余信息,需要結(jié)合光場(chǎng)中2D空間維度和2D角度維度上的數(shù)據(jù)來(lái)學(xué)習(xí)4D光場(chǎng)中的固有結(jié)構(gòu)特征和豐富的紋理細(xì)節(jié),以最終實(shí)現(xiàn)光場(chǎng)超分辨率。受基于深度學(xué)習(xí)的立體圖像超分辨率網(wǎng)絡(luò)框架PASSRnet[23]的啟發(fā),本文提出了一種融合多尺度特征的光場(chǎng)超分辨率網(wǎng)絡(luò)結(jié)構(gòu)。該方法的核心思想是:在無(wú)遮擋情況下,光場(chǎng)×的子圖像陣列中,中心視角圖像中的像素點(diǎn)與其他周圍視角圖像中與之對(duì)應(yīng)的像素點(diǎn)之間存在特定的變換關(guān)系。通過(guò)利用這一幾何約束,某一視圖的紋理細(xì)節(jié)特征可被來(lái)自其他視圖的補(bǔ)充信息所增強(qiáng)。本文所提出的超分辨率網(wǎng)絡(luò)框架中,首先通過(guò)原子空間金字塔池化(atrous spatial pyramid pooling,ASPP)模塊[24]來(lái)擴(kuò)大感受野以學(xué)習(xí)到光場(chǎng)中2D空間維度上的多尺度特征,然后經(jīng)由融合模塊對(duì)所提取的特征進(jìn)行融合并結(jié)合光場(chǎng)中2D角度維度上的幾何約束進(jìn)行全局特征增強(qiáng),最后由上采樣模塊對(duì)光場(chǎng)圖像進(jìn)行空間超分辨。該網(wǎng)絡(luò)通過(guò)對(duì)多尺度特征的融合與增強(qiáng),能夠累積到光場(chǎng)中豐富的紋理細(xì)節(jié)信息,在×2超分辨率任務(wù)中,該方法在遮擋和邊緣區(qū)域也能表現(xiàn)出良好的重建效果,平均信噪比(peak signal to noise ratio,PSNR)比現(xiàn)有方法提高了0.48 dB。本文將超分辨后的光場(chǎng)圖像用于深度估計(jì),以探索光場(chǎng)空間超分辨率對(duì)深度估計(jì)結(jié)果的增強(qiáng)作用。
在本文中,使用HR表示原始的高分辨率光場(chǎng),LR表示對(duì)應(yīng)的經(jīng)過(guò)下采樣得到的低分辨率光場(chǎng)。由于高分辨率光場(chǎng)與對(duì)應(yīng)的低分辨率光場(chǎng)之間保持一致性,因此LR可看作是HR經(jīng)過(guò)光學(xué)模糊和下采樣而得到的??紤]到上述過(guò)程中引入的噪聲問(wèn)題,可對(duì)LR和HR之間的一致性關(guān)系進(jìn)行如下數(shù)學(xué)建模[25]:
式中:為模糊矩陣,表示下采樣矩陣,代表過(guò)程中可能會(huì)引入的誤差項(xiàng)。
光場(chǎng)超分辨率重建任務(wù)可看作是式(1)描述過(guò)程的逆過(guò)程,即對(duì)LR進(jìn)行上采樣并進(jìn)一步去除模糊,從而得到超分辨率后的光場(chǎng)SR。具體過(guò)程可被數(shù)學(xué)描述為
式中:B-1表示去模糊矩陣,S-1為上采樣矩陣,表示超分辨率后的光場(chǎng)GSR與原始的高分辨率光場(chǎng)GHR之間的誤差。由上式可以看出,在超分辨率重建任務(wù)中,利用更多的紋理細(xì)節(jié)信息可以較大程度上重建出更接近原始數(shù)據(jù)的光場(chǎng)。由于真實(shí)圖像中往往存在噪聲,故在超分辨率重建過(guò)程中加入抗噪聲模塊,將會(huì)進(jìn)一步提升超分辨率算法的性能。
本文所提出的算法框架將LR和HR作為網(wǎng)絡(luò)的輸入數(shù)據(jù)和真實(shí)數(shù)據(jù),以訓(xùn)練得到上采樣映射,從而輸出光場(chǎng)超分辨率重建結(jié)果SR。如圖1(a)所示,該網(wǎng)絡(luò)結(jié)構(gòu)分為三大模塊:多尺度特征提取模塊、全局特征融合模塊和上采樣模塊。首先,多尺度特征提取模塊分別對(duì)低分辨率光場(chǎng)LR中的每個(gè)視圖進(jìn)行特征提取,以得到×的特征圖陣列;然后生成的特征圖陣列經(jīng)過(guò)堆疊后被發(fā)送至融合模塊進(jìn)行特征融合,同時(shí)該模塊利用光場(chǎng)中角度維度上的約束對(duì)所提取的特征進(jìn)行全局增強(qiáng);而后獲得的光場(chǎng)結(jié)構(gòu)特征被發(fā)送至上采樣模塊以最終輸出超分辨后的光場(chǎng)子圖像陣列。每個(gè)模塊的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)與作用將在下一節(jié)介紹。
2.1.1 多尺度特征提取
紋理信息對(duì)于大多數(shù)圖像處理任務(wù)具有十分重要的意義。在超分辨率任務(wù)中,對(duì)高頻信息的有效提取和利用決定了能否詳實(shí)地重建出高分辨率圖像中的細(xì)節(jié)部分。因此,本文采用ASPP塊來(lái)擴(kuò)大接收域并分別從每張光場(chǎng)子孔徑圖像中提取多尺度特征。如圖1(b)的示例,該ASPP塊由膨脹率不同的原子空洞卷積組成。不同膨脹率的原子空洞卷積的感受野不同,因此ASPP塊可以累積來(lái)自圖像中不同區(qū)域的紋理細(xì)節(jié)信息。本文算法在ASPP塊結(jié)構(gòu)基礎(chǔ)上加入了殘差式的設(shè)計(jì),組成了ResASPP(residual atrous spatial pyramid pooling,ResASPP)塊的網(wǎng)絡(luò)子結(jié)構(gòu)。如圖1(c)所示,將3個(gè)結(jié)構(gòu)參數(shù)相同的ASPP塊級(jí)聯(lián)并以殘差的形式加到上游輸入中即為1個(gè)ResASPP塊。在每個(gè)ASPP塊中,首先3個(gè)原子空洞卷積分別以=1,4,8的膨脹率對(duì)上游輸入進(jìn)行特征提取,然后再由1個(gè)1×1的卷積核對(duì)所得到的多尺度特征進(jìn)行融合。整體的多尺度特征提取模塊的操作流程為:低分辨率光場(chǎng)LR中的子孔徑圖像經(jīng)過(guò)1個(gè)常規(guī)卷積和1個(gè)殘差塊(residual block,ResB)的處理提取出低級(jí)特征;接著,由交替出現(xiàn)兩次的ResASPP塊和殘差塊對(duì)低級(jí)特征進(jìn)行多尺度特征提取及特征融合,從而得到每張子孔徑圖像的中級(jí)特征。如圖1(a)所示,多尺度特征提取模塊分別對(duì)×的低分辨率子圖像陣列中的每個(gè)視圖進(jìn)行操作,最終提取出與之相對(duì)應(yīng)的×特征圖陣列。在多尺度特征提取環(huán)節(jié),網(wǎng)絡(luò)主要對(duì)4D光場(chǎng)中2D空間維度上的信息加以利用并從中獲取圖像空間中的紋理細(xì)節(jié)特征。
2.1.2 全局特征融合
圖2 融合塊FusionB原理示意圖。(a) FusionB結(jié)構(gòu);(b) 多尺度特征與經(jīng)過(guò)FusionB融合后的特征對(duì)比
光場(chǎng)中每張低分辨率視圖是從略微不同的角度來(lái)捕獲場(chǎng)景,因此某一視圖中未獲取的紋理細(xì)節(jié)可能會(huì)被另一個(gè)視圖捕獲到。即一個(gè)視圖的紋理細(xì)節(jié)特征可被來(lái)自其他視圖的補(bǔ)充信息所增強(qiáng)??紤]到光場(chǎng)中每個(gè)視角之間的基線很小,中心視角圖像可通過(guò)一定的“翹曲變換”(warping transformation)生成其他周圍視角圖像,反之亦然。中心視圖生成周圍視圖的過(guò)程可被數(shù)學(xué)描述為
2.1.3 上采樣模塊及損失函數(shù)
在特征提取和融合模塊完成對(duì)4D光場(chǎng)結(jié)構(gòu)特征的學(xué)習(xí)后,上采樣模塊將對(duì)獲取的特征圖進(jìn)行超分辨率重建。該模塊采用了超分辨率網(wǎng)絡(luò)常用的上采樣方法?子像素卷積(sub-pixel convolution),或被稱為像素洗牌操作(pixel shuffle)[26]。子像素卷積模塊首先從輸入的通道數(shù)為的特征圖中產(chǎn)生2個(gè)通道數(shù)為的特征圖,然后對(duì)得到的通道數(shù)為2′的特征圖進(jìn)行抽樣操作,并由此生成分辨率為倍的高分辨率特征圖[26]。該高分辨率特征圖被發(fā)送至1個(gè)常規(guī)的卷積層中進(jìn)行特征融合并最終生成超分辨后的光場(chǎng)子圖像陣列。在訓(xùn)練過(guò)程中,超分辨后的光場(chǎng)子孔徑圖像分別與實(shí)際的高分辨率光場(chǎng)子孔徑圖像進(jìn)行一一對(duì)比,本文的損失函數(shù)使用L1范數(shù)(如式(10)所示),因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程中表現(xiàn)出了更好的性能。另外,網(wǎng)絡(luò)采用泄露因子為0.1的帶泄露修正線性單元(leaky ReLU)作為激活函數(shù)以避免訓(xùn)練過(guò)程中神經(jīng)元不再進(jìn)行信息傳播的情況。
2.2 算法性能評(píng)價(jià)指標(biāo)
本文選用圖像超分辨率重建領(lǐng)域常用的PSNR和結(jié)構(gòu)相似性(structural similarity,SSIM)評(píng)價(jià)指標(biāo)對(duì)算法性能進(jìn)行評(píng)價(jià)。對(duì)于超分辨率重建后得到的光場(chǎng)SR和真實(shí)光場(chǎng)數(shù)據(jù)HR可計(jì)算出光場(chǎng)中每張子孔徑圖像對(duì)應(yīng)的PSNR值(用PSNR表示,單位dB):
實(shí)驗(yàn)使用了來(lái)自HCI1[28]和HCI2[29]的4D合成光場(chǎng)圖像以及由Lytro Illum光場(chǎng)相機(jī)拍攝的分別來(lái)自Stanford[30]和EPFL[31]的真實(shí)圖像。從Stanford和EPFL數(shù)據(jù)集中分別隨機(jī)取出約5/6的光場(chǎng)數(shù)據(jù)與HCI2數(shù)據(jù)集組合作為訓(xùn)練集,并把Stanford和EPFL數(shù)據(jù)集中剩下的光場(chǎng)數(shù)據(jù)與HCI1中的光場(chǎng)數(shù)據(jù)組合作為測(cè)試集。本實(shí)驗(yàn)中訓(xùn)練集和測(cè)試集分別有419個(gè)和91個(gè)光場(chǎng)圖像。所有的實(shí)驗(yàn)LF圖像均按照5×5的角度分辨率進(jìn)行預(yù)處理,然后使用雙三次插值對(duì)高分辨率光場(chǎng)HR進(jìn)行空間×2降采樣以獲得低分辨率光場(chǎng)LR,再使用本文方法對(duì)LR進(jìn)行超分辨處理以得到超分辨率重建結(jié)果SR。超分辨率重建結(jié)果的質(zhì)量由PSNR和SSIM來(lái)進(jìn)行定量評(píng)估。在實(shí)驗(yàn)中,將本文方法與×2單張圖像超分辨方法FALSR[32]和傳統(tǒng)光場(chǎng)超分辨方法GBSR以及基于深度學(xué)習(xí)的光場(chǎng)圖像超分辨方法ResLF進(jìn)行對(duì)比,用于展示所提方法的性能與潛力。
在訓(xùn)練過(guò)程中,LR中的低分辨率(low resolution,LR)子孔徑圖像被以32 pixels的步長(zhǎng)裁剪成了空間大小為64 pixels×64 pixels的小塊,HR中的高分辨率(high resolution,HR)子孔徑圖像也對(duì)應(yīng)地被裁剪成大小為128 pixels×128 pixels的小塊,由此構(gòu)成網(wǎng)絡(luò)的輸入數(shù)據(jù)和真實(shí)數(shù)據(jù)。在實(shí)驗(yàn)中,通過(guò)水平和垂直地隨機(jī)翻轉(zhuǎn)圖像來(lái)進(jìn)行數(shù)據(jù)增強(qiáng)。本文搭建的神經(jīng)網(wǎng)絡(luò)在Nvidia GTX 1070 GPU的PC上基于Pytorch框架進(jìn)行訓(xùn)練,模型使用Adam優(yōu)化方法[33]并且使用Xaviers方法[34]初始化每一層卷積層的權(quán)重。模型的初始學(xué)習(xí)率設(shè)置為2×10-4,每20個(gè)周期衰減0.5倍,經(jīng)過(guò)80個(gè)周期后停止訓(xùn)練,整個(gè)訓(xùn)練過(guò)程大約需要2天左右的時(shí)間。在測(cè)試過(guò)程中,分別將模型應(yīng)用到合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上以評(píng)估本文所采用的超分辨網(wǎng)絡(luò)的性能,進(jìn)一步地將超分辨率光場(chǎng)SR中的超分辨率(super resolution,SR)子孔徑圖像陣列應(yīng)用到深度估計(jì)上以觀察光場(chǎng)空間超分辨率對(duì)視差計(jì)算的影響。
在訓(xùn)練過(guò)程中使用了HCI2合成數(shù)據(jù)集中的光場(chǎng)圖像,因此使用HCI1中的合成光場(chǎng)圖像對(duì)各超分辨率方法進(jìn)行性能測(cè)試。實(shí)驗(yàn)中基于深度學(xué)習(xí)的超分辨率算法FALSR和ResLF采用的是作者發(fā)布的預(yù)先訓(xùn)練好的模型。另外,雙三次插值圖像超分辨率方法在實(shí)驗(yàn)中被當(dāng)作基準(zhǔn)算法。圖3展示了各算法對(duì)場(chǎng)景Buddha、Mona和Papillon的超分辨率重建結(jié)果。實(shí)驗(yàn)結(jié)果表明,雙三次插值重建出的圖像整體上比較模糊,這是由于該方法主要利用了圖像中的低頻信息而忽略了對(duì)高頻信息的有效利用。而基于光場(chǎng)幾何約束的傳統(tǒng)方法GBSR能夠較為真實(shí)地重建出超分辨率圖像,整體上表現(xiàn)出了不錯(cuò)的性能,然而該方法重建場(chǎng)景中的邊緣部分會(huì)出現(xiàn)模糊或過(guò)度銳化問(wèn)題。另外,GBSR算法完成1個(gè)場(chǎng)景的光場(chǎng)超分辨率重建大概需要2 h~3 h,十分耗時(shí)?;谏疃葘W(xué)習(xí)的×2單張圖像超分辨方法FALSR對(duì)于場(chǎng)景中同一物體內(nèi)部區(qū)域的重建效果較好,但由于僅利用單張視圖而沒(méi)有考慮4D光場(chǎng)結(jié)構(gòu)中的隱含線索,因此無(wú)法重建復(fù)雜的紋理,同時(shí)該方法存在較大程度的銳化過(guò)度問(wèn)題。而基于深度學(xué)習(xí)的光場(chǎng)超分辨方法ResLF通過(guò)結(jié)合EPI空間中的極線約束可較為真實(shí)地重建出圖像中的紋理細(xì)節(jié),但由于沒(méi)有用到光場(chǎng)中的全部視角圖像從而導(dǎo)致對(duì)遮擋邊緣部分的重建結(jié)果有些失真。本文提出的超分辨率網(wǎng)絡(luò)通過(guò)利用光場(chǎng)中的所有視角圖像,能夠更為真實(shí)地重建出高分辨率圖像中的紋理信息,同時(shí)全局特征融合模塊一定程度上改善了邊緣模糊失真和銳化過(guò)度的情況,在主觀視覺(jué)上表現(xiàn)出了更好的重建性能。定量的性能評(píng)估結(jié)果如表1所示,藍(lán)色字體標(biāo)注了除本文方法外的評(píng)估指標(biāo)最高的算法,紅色字體則標(biāo)注了本文方法優(yōu)于藍(lán)色字體所標(biāo)注方法的場(chǎng)景。由表1看出ResLF重建出的圖像保持著較高的結(jié)構(gòu)相似度,GBSR在合成圖像重建上整體獲得了次佳的分?jǐn)?shù),而本文方法在PSNR和SSIM上均優(yōu)于其他方法。
圖3 合成數(shù)據(jù)光場(chǎng)超分辨結(jié)果。(a) Buddha場(chǎng)景;(b) Mona場(chǎng)景;(c) Papillon場(chǎng)景
超分辨率算法常被用于真實(shí)圖像任務(wù),本文進(jìn)一步地使用Lytro Illum相機(jī)拍攝的真實(shí)光場(chǎng)數(shù)據(jù)來(lái)測(cè)試各超分辨率算法的性能。真實(shí)圖像往往存在許多實(shí)際問(wèn)題,特別是Lytro拍攝的光場(chǎng)圖像存在較多噪點(diǎn),這對(duì)光場(chǎng)超分辨率重建以及視差計(jì)算造成了一定的困難。通常HR光場(chǎng)子圖像中1個(gè)像素位置的噪點(diǎn)經(jīng)過(guò)下采樣-上采樣過(guò)程之后在SR圖像中將會(huì)呈現(xiàn)出2×2像素區(qū)域大小的噪點(diǎn)。噪點(diǎn)在圖像中隨機(jī)離散地分布,較多的噪點(diǎn)導(dǎo)致真實(shí)圖像超分辨率結(jié)果的PSNR值與合成圖像相比整體偏低。
圖4展示了真實(shí)光場(chǎng)數(shù)據(jù)的超分辨率重建結(jié)果。其中,F(xiàn)ALSR由于沒(méi)有利用來(lái)自其他視角圖像中的冗余信息而導(dǎo)致重建效果不佳,甚至重建圖像中物體的邊緣可能會(huì)存在較大程度的扭曲變形,如圖4(a)中重建的柵欄的邊緣部分。ResLF通過(guò)利用多個(gè)方向的EPI信息能夠較為詳實(shí)地還原圖像中復(fù)雜的紋理細(xì)節(jié),特別是對(duì)于圖像空間中方向?yàn)樗?、豎直和對(duì)角的紋理。但該方法超分辨率重建圖像中的邊緣部分仍會(huì)存在過(guò)度平滑和模糊的現(xiàn)象,如圖4(b)中重建出的車牌號(hào)碼中的字母“A”。本文所提方法能夠較好地重建出各個(gè)方向的紋理信息,包括圓滑的邊緣信息,整體上表現(xiàn)出了較高的光場(chǎng)超分辨率重建性能,如圖4(c)中的校徽以及花瓣的邊緣。
定量評(píng)估結(jié)果如表2所示,藍(lán)色字體標(biāo)注了除本文方法外的評(píng)價(jià)指標(biāo)最高的算法,紅色字體標(biāo)注了本文方法優(yōu)于藍(lán)色字體所標(biāo)注方法的場(chǎng)景。由表2,本文方法重建出的Fence場(chǎng)景的PSNR低于ResLF和FALSR。這是由于該場(chǎng)景的原始圖像中存在較多噪點(diǎn),而本文網(wǎng)絡(luò)在設(shè)計(jì)中沒(méi)有特別考慮降噪問(wèn)題,同時(shí)融合模塊過(guò)多地累加了噪點(diǎn)的多尺度特征。另外,本文方法在Fence場(chǎng)景下的SSIM略低于ResLF,這是因?yàn)镽esLF對(duì)水平、豎直和對(duì)角的紋理有較強(qiáng)的超分辨率重建能力,而Fence場(chǎng)景中存在較多的對(duì)角紋理。在Cars和Flowers場(chǎng)景中,本文方法在PSNR和SSIM上的表現(xiàn)均優(yōu)于其他方法。將本文網(wǎng)絡(luò)用于測(cè)試集中的Stanford真實(shí)光場(chǎng)圖像的超分辨率重建上,得到的平均PSNR/SSIM為38.30 dB/0.9778,比ResLF文獻(xiàn)中在Stanford數(shù)據(jù)集上得到的PSNR/SSIM(35.48 dB/0.9727)值略高,且比FALSR文獻(xiàn)中在公開(kāi)數(shù)據(jù)集Set5[35]上×2超分辨所得的PSNR(37.82 dB)值也略高。綜合地看,本文所提出的超分辨網(wǎng)絡(luò)在主觀視覺(jué)和評(píng)價(jià)指標(biāo)上處于相對(duì)領(lǐng)先的水平。
表1 不同超分辨算法在合成數(shù)據(jù)上的性能比較
圖4 真實(shí)數(shù)據(jù)光場(chǎng)超分辨結(jié)果。(a) Fence場(chǎng)景;(b) Cars場(chǎng)景;(c) Flowers場(chǎng)景
為了觀察光場(chǎng)空間超分辨率對(duì)視差計(jì)算結(jié)果的影響,本節(jié)分別對(duì)經(jīng)下采樣得到的低分辨率光場(chǎng)LR和經(jīng)本文方法得到的超分辨率光場(chǎng)SR進(jìn)行了深度估計(jì)。深度估計(jì)算法統(tǒng)一采用POBR[36],圖5中分別展示了場(chǎng)景真實(shí)的視差圖(Ground truth)、由LR計(jì)算得到的低分辨率視差圖(LR depth)和由SR計(jì)算得到的高分辨率視差圖(SR depth)。值得一提的是,SR depth的分辨率為L(zhǎng)R depth的2倍,因此對(duì)光場(chǎng)進(jìn)行空間超分辨率可進(jìn)一步獲得高分辨率的深度圖。另一方面,深度估計(jì)結(jié)果表明,高分辨率的光場(chǎng)子圖像陣列中包含更為豐富的紋理信息,尤其能為遮擋或邊緣區(qū)域提供更多的線索,因此可以更加準(zhǔn)確地還原出所拍攝場(chǎng)景的深度信息,如圖5中黑色方框標(biāo)記的部分。
表2 不同超分辨算法在真實(shí)數(shù)據(jù)上的性能對(duì)比
為了更直觀地展示深度估計(jì)結(jié)果的優(yōu)劣,本文將LR depth和SR depth分別與Ground truth對(duì)比,得到圖6所示的誤差圖。在實(shí)驗(yàn)中,SR depth與Ground truth直接相減求絕對(duì)值以得到誤差圖。而由于LR depth和Ground truth的分辨率不同無(wú)法直接做差,因此先采用雙三次插值對(duì)Ground truth進(jìn)行下采樣,然后再將經(jīng)下采樣得到的視差圖與LR depth對(duì)比來(lái)得到LR depth的誤差圖。雙三次插值的本質(zhì)是對(duì)圖像進(jìn)行平滑濾波,這會(huì)使得Ground truth下采樣后的視差數(shù)據(jù)值較小幅度地偏離原始數(shù)據(jù),并且使得視差數(shù)據(jù)的極大值變小。因此LR depth的誤差圖與SR depth的誤差圖相比,其中絕大部分像素位置的數(shù)值會(huì)偏大,而在紋理邊緣所對(duì)應(yīng)的像素位置的數(shù)值會(huì)偏小。故圖6所展示的誤差圖對(duì)比是一種略失公允的對(duì)比,但對(duì)比結(jié)果依然能夠說(shuō)明一定的問(wèn)題。如圖6中紅色方框標(biāo)記區(qū)域的視差計(jì)算誤差,超分辨后的光場(chǎng)深度估計(jì)結(jié)果優(yōu)于低分辨率光場(chǎng)的深度估計(jì)結(jié)果,這與在圖5上的直觀視覺(jué)對(duì)比結(jié)果相一致。另外,本文分別對(duì)兩個(gè)場(chǎng)景的平均視差誤差LR depth error和SR depth error進(jìn)行了計(jì)算。其中,Mona場(chǎng)景中低分辨率光場(chǎng)視差的平均計(jì)算誤差為0.1699 pixels,高分辨率光場(chǎng)視差的平均計(jì)算誤差為0.0075 pixels。而Flower場(chǎng)景中低分辨率光場(chǎng)視差的平均計(jì)算誤差為0.2013 pixels,高分辨率光場(chǎng)視差的平均計(jì)算誤差為0.0434 pixels。
圖5 視差估計(jì)結(jié)果。(a) Mona場(chǎng)景視差圖;(b) Flowers場(chǎng)景視差圖
圖6 深度估計(jì)結(jié)果與真實(shí)深度之間的誤差圖(單位:像素)。(a),(b) Mona場(chǎng)景誤差圖;(c),(d) Flowers場(chǎng)景誤差圖
本文提出了一種融合多尺度特征的光場(chǎng)超分辨網(wǎng)絡(luò)以提高光場(chǎng)子孔徑圖像的空間分辨率。在所提的網(wǎng)絡(luò)框架中,通過(guò)多尺度特征提取模塊探索4D光場(chǎng)中的固有結(jié)構(gòu)信息,然后采用融合模塊對(duì)提取到的紋理信息進(jìn)行融合和增強(qiáng),最后使用上采樣模塊實(shí)現(xiàn)光場(chǎng)子圖像陣列的超分辨率。實(shí)驗(yàn)結(jié)果表明,該方法在合成光場(chǎng)數(shù)據(jù)集和真實(shí)光場(chǎng)數(shù)據(jù)集上均表現(xiàn)出了較好的性能,×2超分辨率重建情況下,平均PSNR比單圖超分辨方法FALSR高0.48 dB,平均SSIM比光場(chǎng)超分辨率方法ResLF評(píng)價(jià)指標(biāo)高0.51%。另外,該方法在主觀視覺(jué)上也表現(xiàn)出了良好的超分辨率重建性能。該方法不僅能夠重建圖像空間中水平、豎直和對(duì)角方向的紋理,同時(shí)還可用于其他各個(gè)方向的復(fù)雜紋理重建。進(jìn)一步地,本文將超分辨結(jié)果用于光場(chǎng)深度估計(jì),發(fā)現(xiàn)其能夠?yàn)檎趽趸蜻吘墔^(qū)域提供更多的線索,實(shí)驗(yàn)結(jié)果展示出光場(chǎng)圖像空間超分辨率在一定程度上增強(qiáng)了視差計(jì)算結(jié)果的準(zhǔn)確性。
[1] Lippmann G. épreuves réversibles donnant la sensation du relief[J]., 1908, 7(1): 821?825.
[2] Adelson E H, Wang J Y A. Single lens stereo with a plenoptic camera[J]., 1992, 14(2): 99?106.
[3] Ng R, Levoy M, BrédifM,. Light field photography with a hand-held plenoptic camera[R]. Stanford Tech Report CTSR 2005-02, 2005.
[4] Tan Z P, Johnson K, Clifford C,. Development of a modular, high-speed plenoptic-camera for 3D flow-measurement[J]., 2019, 27(9): 13400?13415.
[5] Fahringer T W, Lynch K P, Thurow B S. Volumetric particle image velocimetry with a single plenoptic camera[J]., 2015, 26(11): 115201.
[6] Shi S X, Ding J F, New T H,. Volumetric calibration enhancements for single-camera light-field PIV[J]., 2019, 60(1): 21.
[7] Shi S X, Ding J F, New T H,. Light-field camera-based 3D volumetric particle image velocimetry with dense ray tracing reconstruction technique[J]., 2017, 58(7): 78.
[8] Shi S X, Wang J H, Ding J F,. Parametric study on light field volumetric particle image velocimetry[J]., 2016, 49: 70?88.
[9] Sun J, Xu C L, Zhang B,. Three-dimensional temperature field measurement of flame using a single light field camera[J]., 2016, 24(2): 1118?1132.
[10] Shi S X, Xu S M, Zhao Z,. 3D surface pressure measurement with single light-field camera and pressure-sensitive paint[J]., 2018, 59(5): 79.
[11] Ding J F, Li H T, Ma H X,. A novel light field imaging based 3D geometry measurement technique for turbomachinery blades[J]., 2019, 30(11): 115901.
[12] Cheng Z, Xiong Z W, Chen C,. Light field super-resolution: a benchmark[C]//,Long Beach, CA, 2019.
[13] Lim J, Ok H, Park B,. Improving the spatail resolution based on 4D light field data[C]//, Cairo, Egypt, 2009, 2: 1173?1176.
[14] Georgiev T, Chunev G, Lumsdaine A. Superresolution with the focused plenoptic camera[J]., 2011, 7873: 78730X.
[15] Bishop T E, Favaro P. The light field camera: extended depth of field, aliasing, and superresolution[J]., 2012, 34(5): 972?986.
[16] Rossi M, Frossard P. Graph-based light field super-resolution[C]//, Luton, UK, 2017: 1?6.
[17] Alain M, Smolic A. Light field super-resolution via LFBM5D sparse coding[C]//, Athens, Greece, 2018: 1?5.
[18] Egiazarian K, Katkovnik V. Single image super-resolution via BM3D sparse coding[C]//, Nice, France, 2015: 2849?2853.
[19] Alain M, Smolic A. Light field denoising by sparse 5D transform domain collaborative filtering[C]//, Luton, UK, 2017: 1?6.
[20] Yoon Y, Jeon H G, Yoo D,. Learning a deep convolutional network for light-field image super-resolution[C]//,Santiago, Chile, 2015: 57?65.
[21] Wang Y L, Liu F, Zhang K B,. LFNet: a novel bidirectional recurrent convolutional neural network for light-field image super-resolution[J]., 2018, 27(9): 4274?4286.
[22] Zhang S, Lin Y F, Sheng H. Residual networks for light field image super-resolution[C]//, Long Beach, CA, USA, 2019: 11046?11055.
[23] Wang L G, Wang Y Q, Liang Z F,. Learning parallax attention for stereo image super-resolution[C]//, Long Beach, CA, USA, 2019: 12250?12259.
[24] Chen L C, Zhu Y K, Papandreou G,. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]//,Glasgow, United Kingdom, 2018: 801?818.
[25] Wang R G, Liu L L, Yang J,. Image super-resolution based on clustering and collaborative representation[J]., 2018, 45(4): 170537. 汪榮貴, 劉雷雷, 楊娟, 等. 基于聚類和協(xié)同表示的超分辨率重建[J]. 光電工程, 2018, 45(4): 170537.
[26] Shi W Z, Caballero J, Huszár F,. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]//,Las Vegas, USA,2016: 1874?1883.
[27] Xu L, Fu R D, Jin W,. Image super-resolution reconstruction based on multi-scale feature loss function[J]., 2019, 46(11): 180419. 徐亮, 符冉迪, 金煒, 等. 基于多尺度特征損失函數(shù)的圖像超分辨率重建[J]. 光電工程, 2019, 46(11): 180419.
[28] Wanner S, Meister S, Goldluecke B. Datasets and benchmarks for densely sampled 4D light fields[M]//Bronstein M, Favre J, Hormann K.,&,Lugano, Switzerland: The Eurographics Association, 2013: 225?226.
[29] Honauer K, Johannsen O, Kondermann D,. A dataset and evaluation methodology for depth estimation on 4D light fields[C]//, Taipei, Taiwan, China, 2016: 19?34.
[30] Raj S A, Lowney M, Shah R,. Stanford lytro light field archive[EB/OL]. http://lightfields.stanford.edu/LF2016.html. 2016.
[31] Rerabek M, Ebrahimi T. New light field image dataset[C]//, Lisbon, Portugal, 2016.
[32] Chu X X, Zhang B, Ma H L,. Fast, accurate and lightweight super-resolution with neural architecture search[Z]. arXiv: 1901.07261, 2019.
[33] Kingma D P, Ba L J. Adam: a method for stochastic optimization[C]//, San Diego, America, 2015.
[34] Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks[C]//, Sardinia, Italy, 2010: 249?256.
[35] Bevilacqua M, Roumy A, Guillemot C,. Low-complexity single-image super-resolution based on nonnegative neighbor embedding[C]//, Guildford, UK, 2012.
[36] Chen J, Hou J H, Ni Y,. Accurate light field depth estimation with superpixel regularization over partially occluded regions[J]., 2018, 27(10): 4889?4900.
Light-field image super-resolution based on multi-scale feature fusion
Zhao Yuanyuan, Shi Shengxian*
School of Mechanical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
Structure of light-field image super resolution network
Overview:As a new generation of imaging equipment, a light-field camera can simultaneously capture the spatial position and incident angle of light rays. However, the recorded light-field has a trade-off between spatial resolution and angular resolution. Especially the limited spatial resolution of sub-aperture images limits the application scenarios of light-field cameras. Therefore, a light-field super-resolution network that fuses multi-scale features to obtain super-resolved light-field is proposed in this paper. The deep-learning-based network framework contains three major modules: multi-scale feature extraction module, global feature fusion module, and up-sampling module. The design ideas of different modules are as follows.
a) Multi-scale feature extraction module: To explore the complex texture information in the 4D light-field space, the feature extraction module uses ResASPP blocks to expand the perception field and to extract multi-scale features. The low-resolution light-field sub-aperture images are first sent to a Conv block and a Res block for low level feature extraction, and then a ResASPP block and a Res block are alternated twice to learn multi-scale features that accumulate high-frequency information in the 4D light-field.
b) Global feature fusion module: The light-field images contain not only spatial information but also angular information, which implies inherent structures of 4D light-field. The global feature fusion module is proposed to geometrically reconstruct the super-resolved light-field by exploiting the angular clues. It should be noted that the feature maps of all the sub-images from the upstream are first stacked in the channel dimension of the network and then are sent to this module for high-level features extraction.
c) Up-sampling module: After learning the global features in the 4D light-field structure, the high-level feature maps could be sent to the up-sampling module for light-field super resolution. This module uses sub-pixel convolution or pixel shuffle operation to obtain 2 spatial super-resolution, after feature maps are sent to a conventional convolution layer to perform feature fusion and finally output a super-resolved light-field sub-images array.
The network proposed in this paper was applied to the synthetic light-field dataset and the real-world light-field dataset for light-field images super-resolution. The experimental results on the synthetic light-field dataset and real-world light-field dataset showed that this method outperforms other state-of-the-art methods in both visual and numerical evaluations. In addition, the super-resolved light-field images were applied to depth estimation, and the results illustrated the parallax calculation enhancement of light-field spatial super-resolution, especially in occlusion and edge regions.
Citation: Zhao Y Y, Shi S X,. Light-field image super-resolution based on multi-scale feature fusion[J]., 2020,47(12): 200007
* E-mail: kirinshi@sjtu.edu.cn
Light-field image super-resolution based on multi-scale feature fusion
Zhao Yuanyuan, Shi Shengxian*
School of Mechanical Engineering, Shanghai Jiao Tong University, Shanghai 200240, China
As a new generation of the imaging device, light-field camera can simultaneously capture the spatial position and incident angle of light rays. However, the recorded light-field has a trade-off between spatial resolution and angular resolution. Especially the application range of light-field cameras is restricted by the limited spatial resolution of sub-aperture images. Therefore, a light-field super-resolution neural network that fuses multi-scale features to obtain super-resolved light-field is proposed in this paper. The deep-learning-based network framework contains three major modules: multi-scale feature extraction, global feature fusion, and up-sampling. Firstly, inherent structural features in the 4D light-field are learned through the multi-scale feature extraction module, and then the fusion module is exploited for feature fusion and enhancement. Finally, the up-sampling module is used to achieve light-field super-resolution. The experimental results on the synthetic light-field dataset and real-world light-field dataset showed that this method outperforms other state-of-the-art methods in both visual and numerical evaluations. In addition, the super-resolved light-field images were applied to depth estimation in this paper, the results illustrated that the disparity map was enhanced through the light-field spatial super-resolution.
super-resolution; light-field; deep learning; multi-scale feature extraction; feature fusion
National Natural Science Foundation of China (11772197)
10.12086/oee.2020.200007
TP391.4
A
趙圓圓,施圣賢. 融合多尺度特征的光場(chǎng)圖像超分辨率方法[J]. 光電工程,2020,47(12): 200007
: Zhao Y Y, Shi S XLight-field image super-resolution based on multi-scale feature fusion[J]., 2020, 47(12): 200007
2020-01-03;
2020-04-15
國(guó)家自然科學(xué)基金資助項(xiàng)目(11772197)
趙圓圓(1995-),女,碩士研究生,主要從事計(jì)算機(jī)視覺(jué)、光場(chǎng)成像技術(shù)的研究。E-mail:ZhaoYuanyuan_236@163.com
施圣賢(1980-),男,博士,副教授,主要從事機(jī)器視覺(jué)、光場(chǎng)三維測(cè)試技術(shù)的研究。E-mail:kirinshi@sjtu.edu.cn