武 偉, 祁澤鑫
(長春工業(yè)大學 計算機科學與工程學院, 吉林 長春 130102)
人們所處的是一個三維空間,世間萬物都具有自己的空間大小和與其他事物的位置關系。研究表明,人類主要通過眼睛獲取外界信息,其中大部分是圖像信息。這是因為雙眼效應使得我們能夠獲得三維圖像,從不同的視角觀察物體,形成全面的視覺感知。雖然傳統(tǒng)的二維圖像可以顯示出圖像的主題、背景,而且能夠顯示出高分辨率、高幀率以及較大的觀看視角,但是卻沒有真實的空間位置、遠近、深度等信息。隨著科技的發(fā)展,人們已經(jīng)不再滿足觀看2D圖像和電影,裸眼3D顯示技術正在逐漸擺脫工具的限制,已經(jīng)成為火熱的研究方向[1-5]。因此,近年來科研團隊一直致力于研究集成成像系統(tǒng),以生成逼真而高質量的三維圖像。最初,集成成像系統(tǒng)是基于透鏡陣列,用于采集和顯示三維信息。2002年,Jang J S等[6]使用同步振動微光學透鏡陣列對場景進行采集與顯示,克服了由奎斯特采樣效應所決定的分辨率上限,提高了顯示分辨率。同年,Lee B等[7]設計了一種帶開關垂直孔徑陣列的圖案掩模,以連續(xù)控制透鏡陣列中每個透鏡的打開和關閉,減少圖像重疊,增加集成成像的視角。
近幾年,國內(nèi)大學科研團隊也有了不同的進展,北京郵電大學桑新柱教授研究團隊提出三維光場顯示多視差視圖合成[8],基于路徑跟蹤和CNN超分辨率的實時光學重建方法[9-10]。四川大學王瓊華教授帶領的科研團隊是國內(nèi)較早開始研究集成成像3D顯示的科研團隊,對透鏡陣列的設計和基于計算機對顯示內(nèi)容生成等有獨到的見解[11-12],為提高集成成像系統(tǒng)的分辨率,利用稀疏相機陣列采集立體元圖像陣列,并通過超分辨率重建技術獲得高分辨率的立體元圖像陣列。這樣可在集成成像系統(tǒng)中獲得更清晰、更精細的圖像顯示結果[13]。吉林大學王世剛教授帶領的科研團隊長期對真三維立體顯示和圖像視頻處理的研究,在該領域有較強話語權,目前搭建了基于LED顯示面板和透鏡陣列的大尺寸裸眼3D顯示系統(tǒng),并且建立了完整的從采集到處理到顯示的集成成像系統(tǒng)[14-15]。
隨著深度學習的快速發(fā)展[16〗,超分辨率從SRCNN發(fā)展到SRGAN[17-18],目前已經(jīng)可以做到對圖片4~8倍的放大,并且可以恢復較多的紋理細節(jié)。隨著顯示分辨率的提高,相機的數(shù)量和分辨率也在提高,這些方法在一定程度上提升顯示圖像的分辨率,因此,文中提出基于輕量化的GAN網(wǎng)絡超分辨率集成成像方法,可以減少相機數(shù)目以及加快超分辨率圖像生成和渲染速度,節(jié)約成本。
文中提出的集成成像方法實驗流程如圖1所示。
圖1 超分辨率集成成像方法實驗流程
首先在計算機仿真軟件Blender中生成攝像機陣列,對目標進行取樣拍攝,獲得低分辨率圖像陣列,然后使用輕量化GAN網(wǎng)絡對采集到的圖像做超分辨率處理,得到超分辨率圖像,計算集成成像。
為了快速獲得高分辨率的視點圖像,文中使用一個輕量級的GAN網(wǎng)絡來對低分辨率的視點圖像進行超分辨率,從而獲得理想的高質量圖像。
首先從虛擬場景中渲染得到立體元圖像陣列,然后提取每個立體元圖像對應的像素來組成低分辨率視點圖像,通過GAN網(wǎng)絡的超分辨率處理生成高分辨率視點圖像。
SRGAN是一種用于超分辨率重建的生成對抗網(wǎng)絡,與之前基于CNN的超分辨率重建算法相比,SRGAN網(wǎng)絡增加了一個判別網(wǎng)絡,并提出感知損失來提高輸出圖像的真實性。判別網(wǎng)絡希望盡可能多地確定圖像是來自訓練集還是生成網(wǎng)絡的概率。生成網(wǎng)絡希望盡可能地生成圖像來欺騙判別網(wǎng)絡。GAN網(wǎng)絡的優(yōu)點是生成網(wǎng)絡來擔任圖像超分辨率的功能,生成圖像的速度由生成網(wǎng)絡的復雜程度決定,因此可以使判別網(wǎng)絡設計相對復雜。
為了防止網(wǎng)絡層增加導致的梯度色散問題和退化問題,生成網(wǎng)絡增加了跳躍連接殘差網(wǎng)絡結構,并使用網(wǎng)絡VGG代替基于均方誤差(MSE)的內(nèi)容損失。每個殘差塊有兩個卷積層,然后對卷積層進行批歸一化,并將PReLU作為激活函數(shù)。卷積層的卷積核均為3×3結構,有64個特征映射。
輸入低分辨率圖像,對卷積層進行卷積操作,卷積層參數(shù)設置為3×3×64,即有64個3×3卷積核,步長為1。使用PReLU作為激活函數(shù),然后進入6個殘差塊網(wǎng)絡進行訓練,進入卷積層。最后通過上采樣法將圖像放大2倍。
上采樣操作采用縮放卷積的方法。利用最近鄰插值將圖像放大2倍,然后進入卷積層。最后進行卷積操作,輸出一幅高分辨率的圖像。
文中基于改進的SRGAN網(wǎng)絡,刪去了之前SRGAN中的BN層,去除BN層有助于提高泛化能力,同時增加高頻紋理細節(jié),減少計算量和內(nèi)存使用,把殘差網(wǎng)絡層與層之間相加構成密集殘差網(wǎng)絡,使得每個殘差塊之間有更多聯(lián)系。
超分辨率網(wǎng)絡結構如圖2所示。
(a) 生成網(wǎng)絡
文中使用相對較少基礎塊來組成生成器網(wǎng)絡,這樣訓練和生成高分辨率圖像可減少訓練時間和生成超分辨率圖像的時間。
GAN網(wǎng)絡使用內(nèi)容損失和對抗損失來提升輸出圖像的真實感和生成高頻信息。損失函數(shù)表示為
(1)
對抗損失就是判別機將生成器生成的圖像認定為自然圖像的損失,內(nèi)容損失分為兩部分:
1)生成器網(wǎng)絡的MSE損失;
2)將生成的圖像輸入VGG網(wǎng)絡中得到的特征損失。λ=1×10-3是對抗損失的權重。
均方誤差(MSE)是一種常用的損失函數(shù),用于衡量生成網(wǎng)絡生成的高分辨率圖像與真實圖像之間的差異。如果損失函數(shù)loss只有MSE損失,則MSE損失可表示為
(2)
式中:W,H----分別為圖像像素長和寬的個數(shù);
r----超分辨率放大倍數(shù);
VGG損失函數(shù)是利用已經(jīng)預訓練好的VGG-19網(wǎng)絡中的特征向量,將生成網(wǎng)絡生成的圖像通過VGG網(wǎng)絡產(chǎn)生的特征值和原始圖像通過VGG網(wǎng)絡產(chǎn)生的特征值做loss,通過這個loss作為兩個圖像感知相似度的衡量。VGG-loss損失表示為
(3)
式中:i,j----VGG網(wǎng)絡經(jīng)過第j層卷積之后,第i層最大池化層之前的feature map輸出;
GVGG(i,j)----通過VGG網(wǎng)絡得到的特征值。
生成網(wǎng)絡目的是生成逼真的圖像來欺騙判別網(wǎng)絡,從而生成高質量圖像。因此對抗損失是用來衡量生成圖像和真實圖像的相似度,對抗損失表示為
(4)
訓練網(wǎng)絡使用VOC2012數(shù)據(jù)集,該數(shù)據(jù)集具有大量的高清圖片,并具有廣泛適用性,適合于SR訓練。為了擴大數(shù)據(jù)集,可以將數(shù)據(jù)集圖片進行裁剪、旋轉、鏡像等操作來增加數(shù)據(jù)集個數(shù)。數(shù)據(jù)集訓練時,先將高分辨率圖像進行雙三次下采樣,得到低分辨率圖像,再將低分辨率圖像放大和原圖像做對比,進而訓練網(wǎng)絡參數(shù)。訓練使用梯度下降策略為Adam,學習率r為1×10-4,訓練網(wǎng)絡為100個epoch,批處理大小為16。
實驗使用PC硬件配置為11th Gen Intel(R) Core(TM) i7-11800H @ 2.30 GHz 2.30 GHz、16 GB RAM和NVIDIA GeForce RTX 3060 laptop GPU。在Anaconda3(64-bit)的Pycharm(pytorch-gpu)環(huán)境下搭建實驗模型。測試使用重建圖像與原始高分辨率圖像的峰值信噪比(PSNR)與結構相似度(SSIM)做對比。
首先使用Blender軟件生成虛擬環(huán)境,生成50*50的相機陣列,相機焦距為50 mm,像素為25*25來模擬透鏡陣列的采集過程,獲得低分辨率微單元圖像陣列。三維場景是大腦和海豚模型。
將渲染結果和相機名稱相對應,如圖3所示。
圖3 blender虛擬場景搭建
通過2 500個照相機對物體進行采集,得到對應的2 500張照片,將照片依次送入生成網(wǎng)絡中得到相應的超分辨率視點圖,再將圖像依次按照相機的位置排列組合成為高分辨率視點圖像。將得到的高分辨率圖像與傳統(tǒng)方法做對比。
三維模型重建效果如圖4所示。
圖4 三維模型重建效果
不同模型超分辨率重建圖像的PSNR(dB)和SSIM見表1。
表1 不同模型超分辨率重建圖像的PSNR(dB)和SSIM
由表1可以看出,文中使用的方法對不同的三維虛擬模型都有較好的效果,滿足人眼的觀察。因此,文中方法對重建圖像質量的主觀和客觀數(shù)據(jù)表都基于GAN網(wǎng)絡的超分辨率技術,優(yōu)于其他傳統(tǒng)技術,并且能夠更快地對元素圖像陣列進行超分辨率處理,提高渲染速度。
實驗模型結果圖局部放大如圖5所示。
圖5 局部放大圖
由圖5可以明顯看出,文中方法保留了更多的紋理細節(jié),使得圖像更加符合人眼,有較好的觀看體驗。
提出一種基于GAN網(wǎng)絡超分辨率的深度學習集成成像光場顯示方法。GAN網(wǎng)絡可以快速訓練和生成需要的高分辨率圖像,首先通過blender渲染和相機采集生成低分辨率的視點圖像,使用改進的輕量級GAN網(wǎng)絡對低分辨率視點圖像快速重構為高分辨率視點圖像。實驗結果表明,該方法具有更好的重建效果。