許若波,盧 濤*,王 宇,張彥鐸
(1. 武漢工程大學(xué)計算機科學(xué)與工程學(xué)院,武漢430205; 2. 智能機器人湖北省重點實驗室(武漢工程大學(xué)),武漢430205)
(*通信作者電子郵箱lut@wit.edu.cn)
人臉超分辨率是一種從輸入的低分辨率人臉圖像推斷出其潛在的對應(yīng)高分辨率圖像技術(shù),該技術(shù)能夠顯著增強低分辨率圖像的細(xì)節(jié)信息,因而被廣泛地應(yīng)用到了人臉識別、刑事偵察、娛樂等領(lǐng)域。
基于學(xué)習(xí)的超分辨率方法能夠利用樣本提供的先驗信息推導(dǎo)低分辨率圖像中缺失的高頻細(xì)節(jié)信息,例如基于主成分分析(Principal Component Analysis,PCA)[1]的線性約束、局部線性嵌入(Locally Linear Embedding,LLE)[2]、稀疏表達[3]、局部約束表達[4]等,這些方法獲得了較好的圖像主客觀重建質(zhì)量。
深度學(xué)習(xí)提供了一種端到端的映射關(guān)系學(xué)習(xí)模式來處理超分辨率問題。Dong等[5]首次提出了使用卷積神經(jīng)網(wǎng)絡(luò)建立端到端的超分辨率算法(image Super-Resolution using deep Convolutional Neural Networks,SRCNN)。Kim 等[6]利用深層網(wǎng)絡(luò)學(xué)習(xí)圖像的殘差信息(accurate image Super-Resolution using Very Deep convolutional networks,VDSR)。盧濤等[7]使用中繼循環(huán)網(wǎng)絡(luò),增強超分辨率重建圖像的重建效果。Ledig等[8]首次將生成對抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)運用到圖像超分辨率,使圖像產(chǎn)生更加逼真的視覺效果。Yang 等[9]提出了判決性增強的生成對抗網(wǎng)絡(luò)(Enhanced Discriminative Generative Adversarial Network for face superresolution,EDGAN)用于人臉圖像的超分辨率??紤]到人臉的結(jié)構(gòu)特性,Song 等[10]提出的通過組件生成和增強學(xué)習(xí)幻構(gòu)人臉圖像算法(Learning to hallucinate face images via Component Generation and Enhancement,LCGE),證明了人臉組件在重建高分辨率圖像中的作用。在LCGE 的基礎(chǔ)上,Jiang 等[11]通過兩步法結(jié)合使用卷積神經(jīng)網(wǎng)絡(luò)去噪和多層鄰域嵌入來幻構(gòu)人臉圖像。
基于卷積神經(jīng)網(wǎng)絡(luò)的模型可以重建出平滑的圖像,同時網(wǎng)絡(luò)易于收斂和訓(xùn)練,可以生成高的客觀評分但相對平滑的結(jié)果?;谏蓪咕W(wǎng)絡(luò)的方法可以產(chǎn)生逼真的視覺效果,并恢復(fù)豐富的紋理細(xì)節(jié),但獲得的客觀評分較低。由于人臉圖像具有高度的結(jié)構(gòu)性,在眼睛、鼻子和嘴巴周圍包含豐富的細(xì)節(jié)。人臉超分辨率方法和通用圖像超分辨率算法最大的不同之處在于如何利用人臉圖像的結(jié)構(gòu)信息。受到組合學(xué)習(xí)[12-13]方法的啟示,由于人臉組件部分紋理的復(fù)雜性,僅僅利用一種模型難以充分利用人臉的結(jié)構(gòu)性先驗信息,針對這一問題,本文提出了一種基于組合學(xué)習(xí)的人臉超分辨率算法,采用多個并行訓(xùn)練的組件生成對抗網(wǎng)絡(luò)(Component-Generative Adversarial Network,C-GAN)恢復(fù)人臉的重要器官部分,由此在訓(xùn)練網(wǎng)絡(luò)的過程中每個人臉區(qū)域的數(shù)據(jù)分布不同,不同的子網(wǎng)絡(luò)能夠獲得更精確的先驗信息,并使用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)重建人臉背景圖像。首先對人臉圖像使用超像素分割算法[14-15]進行分割,分割出重要的人臉組件部分和人臉背景部分;其次對人臉組件部分構(gòu)建子網(wǎng)絡(luò),利用不同的超分辨率方法重建背景圖像;然后在重建高分辨率組件的基礎(chǔ)上建立特征融合網(wǎng)絡(luò),將不同學(xué)習(xí)方法獲得的重建結(jié)果進行融合;最后輸出高分辨率人臉圖像。論文的創(chuàng)新之處在于:1)首次利用多種不同的超分辨率重建方法組合學(xué)習(xí)獲得更精準(zhǔn)的重建圖像。2)提出了組件自適應(yīng)權(quán)重學(xué)習(xí)的多源圖像融合重建網(wǎng)絡(luò),拓展了圖像重建先驗的來源。
近年來,基于深度學(xué)習(xí)的圖像超分辨率受到很大的關(guān)注,Dong 等[5]提出使用3 層卷積神經(jīng)網(wǎng)絡(luò)重建低分辨率圖像。Kim 等[6]在SRCNN 的基礎(chǔ)上加深網(wǎng)絡(luò)層數(shù),學(xué)習(xí)圖像的殘差信息,并獲得了卓越的重建性能。但是基于卷積神經(jīng)網(wǎng)絡(luò)重建的圖像在主觀效果上過于平滑,一些復(fù)雜的紋理細(xì)節(jié)難以恢復(fù),尤其像人臉圖像具有高度的結(jié)構(gòu)性,更加難以學(xué)習(xí)其復(fù)雜的細(xì)節(jié)信息。為了重建的圖像獲得更加逼真的效果,Ledig等[8]提出使用生成對抗網(wǎng)絡(luò)進行對抗學(xué)習(xí)來恢復(fù)更多的細(xì)節(jié),并產(chǎn)生逼真的視覺效果。Yu等[16]采用生成對抗網(wǎng)絡(luò)的思想提出了一種變換自動編碼器網(wǎng)絡(luò),來重建未對齊且含有噪聲的極低分辨率人臉圖像。雖然生成對抗網(wǎng)絡(luò)重建的圖像可以恢復(fù)豐富的紋理細(xì)節(jié),但是客觀評估指標(biāo)值較低。為了獲得平滑度適中且具有更高的客觀評分,利用兩種不同深度學(xué)習(xí)模型的優(yōu)勢組合學(xué)習(xí)人臉結(jié)構(gòu)的復(fù)雜先驗信息,從而提高網(wǎng)絡(luò)的重建性能。
為了充分發(fā)揮出不同的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特點和重建性能,本文提出了一種多結(jié)構(gòu)網(wǎng)絡(luò)的組合學(xué)習(xí)框架,其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,其中C-GAN表示組件生成對抗網(wǎng)絡(luò),n表示人臉組件的個數(shù),F(xiàn)usion-Net表示組件融合網(wǎng)絡(luò)。
圖1 基于組合學(xué)習(xí)的人臉超分辨率算法框架Fig. 1 Outline of face hallucination via combined learning
C-GAN 用于恢復(fù)人臉圖像紋理細(xì)節(jié)豐富的區(qū)域,而CNN則用于學(xué)習(xí)整個人臉圖像作為背景信息,而Fusion-Net 則用于融合多網(wǎng)絡(luò)重建的組件信息,提升超分辨率重建的質(zhì)量。值得注意的是本文提供了一種多神經(jīng)網(wǎng)絡(luò)融合重建的超分辨率算法框架。為了便于說明和理解,采用了具體的網(wǎng)絡(luò)結(jié)構(gòu)加以說明,為了簡化問題的復(fù)雜度,本文僅僅設(shè)置n= 3,n表示人臉組件的個數(shù),建立C1(眼睛)、C2(鼻子)和C3(嘴巴)3種獨立模型,用以證明本文所提出思路的有效性。組合學(xué)習(xí)算法流程如圖2所示。
圖2 組合學(xué)習(xí)算法流程Fig. 2 Flow chart of combined learning algorithm
其中:SLIC表示超像素分割算法,Lab表示生成的人臉組件標(biāo)簽,k和m表示超像素算法的基本參數(shù),k表示預(yù)設(shè)的超像素個數(shù),m用于調(diào)整超像素的緊湊程度和邊緣特性,在本文中k= 30,m= 80。
超像素分割方法對低分辨率人臉圖像進行分割,產(chǎn)生多個不規(guī)則的超像素塊,每個超像素塊擁有自己的標(biāo)簽,提取不規(guī)則人臉組件區(qū)域所有坐標(biāo):
E(Labl)表示提取人臉圖像xi中標(biāo)簽為l的區(qū)域的所有橫坐標(biāo)點和縱坐標(biāo)點,rowl和coll分別表示橫坐標(biāo)點和縱坐標(biāo)點。最小橫坐標(biāo)點和最大橫坐標(biāo)點分別為min(rowl) 和max(rowl),最小縱坐標(biāo)點和最大縱坐標(biāo)點分別為min(coll)和max(coll),通過對角的兩點坐標(biāo)點確定最終的低分辨率人臉組件矩形面積為:
其中:rect表示通過兩個對角坐標(biāo)點生成一個規(guī)則的矩形,即人臉組件圖像塊。表示最終分割的低分辨率人臉組件圖像塊,j表示不同的人臉組建圖像塊,其中{j|1 ≤j≤3},因此可形成人臉組件訓(xùn)練集,i表示人臉組件訓(xùn)練數(shù)據(jù)集中的樣本圖像塊索引為低分辨率人臉組件圖像塊,為與之對應(yīng)的高分辨率人臉組件圖像塊。
2.2.1 人臉組件生成對抗網(wǎng)絡(luò)(C-GAN)
為了獲取人臉組件周圍更多的紋理細(xì)節(jié),本文采用生成對抗網(wǎng)絡(luò)來學(xué)習(xí)更精準(zhǔn)的先驗信息。由于人臉組件圖像塊較小,為了保持網(wǎng)絡(luò)的重建性能,本文設(shè)計了一個適用于輸入圖像塊較小的人臉組件生成對抗網(wǎng)絡(luò),并且此網(wǎng)絡(luò)可以獨立地訓(xùn)練人臉組件區(qū)域,形成多個并行的子網(wǎng)絡(luò),每個獨立的子網(wǎng)絡(luò)的數(shù)據(jù)分布不同,從而使獨立的子網(wǎng)絡(luò)學(xué)習(xí)更精確的先驗信息。本文采用了一個淺層的生成對抗網(wǎng)絡(luò),加深了網(wǎng)絡(luò)的寬度,訓(xùn)練過程中可以更好地提取人臉組件的重要特征,并且生成對抗網(wǎng)絡(luò)通過生成網(wǎng)絡(luò)和對抗網(wǎng)絡(luò)互相對抗學(xué)習(xí)獲得更好的視覺效果。人臉組件生成對抗網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
圖3 人臉組件生成對抗網(wǎng)絡(luò)(C-GAN)的網(wǎng)絡(luò)結(jié)構(gòu)Fig. 3 Network structure of face Component Generative Adversarial Networks(C-GAN)
在生成網(wǎng)絡(luò)部分,首先在網(wǎng)絡(luò)的開始層采用了較大感受野的卷積層(卷積核大小為5×5)來提取更加豐富全面的特征,其他層采用的是3×3的卷積核,采用兩個反卷積層上采樣至高分辨率圖像塊大小,反卷積層是由上采樣層和卷積層級聯(lián)起來。人臉組件生成對抗網(wǎng)絡(luò)訓(xùn)練集為,低分辨率人臉組件圖像塊和高分辨率人臉組件圖像塊分別表示為∈?w×h和∈?wt×ht,t表示放大因子,t=4,設(shè)有3個獨立的人臉組件生成對抗網(wǎng)絡(luò)。人臉組件生成對抗網(wǎng)絡(luò)重建圖像為:
其中:Gj表示不同的人臉組件生成網(wǎng)絡(luò),表示不同人臉組件生成網(wǎng)絡(luò)生成的高分辨率人臉組件圖像塊,i表示重建的人臉組件圖像塊索引。
在判別網(wǎng)絡(luò)部分,使用了4 個卷積層,在其中3 個卷積層后級聯(lián)最大池化層,隨著網(wǎng)絡(luò)層數(shù)加深,特征尺寸不斷減小,并采用修正線性單元(Rectified Linear Unit,ReLU)作為激活函數(shù),最終通過兩個全連接層和最終的sigmoid 激活函數(shù)得到預(yù)測結(jié)果。判別網(wǎng)絡(luò)能夠區(qū)分輸入的圖像塊是原始的高分辨率人臉組件圖像塊還是人臉組件重建圖像塊,相應(yīng)的判別信息被反向傳播到生成網(wǎng)絡(luò),從而可以生成視覺效果更加逼真的人臉組件重建圖像塊。
人臉組件生成網(wǎng)絡(luò)損失函數(shù)使用均方誤差(Mean Square Error,MSE)作為損失函數(shù),采用L2范數(shù)損失學(xué)習(xí)低分辨率圖像和高分辨率圖像之間的差異,生成網(wǎng)絡(luò)損失函數(shù)為:
其中:u表示人臉組件生成網(wǎng)絡(luò)的參數(shù),uCj表示不同的人臉組件生成網(wǎng)絡(luò)的參數(shù),p(sCj,yCj)表示人臉組件訓(xùn)練集中低分辨率人臉組件圖像和原始高分辨率人臉組件圖像的聯(lián)合分布。
判別網(wǎng)絡(luò)損失函數(shù)為:
其中:v表示判別網(wǎng)絡(luò)的參數(shù),表示不同的人臉組件判別網(wǎng)絡(luò)的參數(shù),p(yCj)和p()表示原始的高分辨率人臉組件和人臉組件重建圖像的聯(lián)合分布,D)和Dj(Gj())作為判別網(wǎng)絡(luò)的輸出,Dj(Gj())表示人臉組件重建圖像塊Gj(sCj)是原始人臉組件圖像塊的概率,損失函數(shù)LCj反向傳播到生成網(wǎng)絡(luò)來更新參數(shù)uCj,通過傳播給生成網(wǎng)絡(luò)判別信息,使生成網(wǎng)絡(luò)可以生成更加逼真的高分辨率人臉組件圖像塊。
2.2.2 人臉背景圖像重建網(wǎng)絡(luò)
本文采用了一個20 層的深層殘差網(wǎng)絡(luò)作為人臉背景重建網(wǎng)絡(luò)。第一層和最后一層的結(jié)構(gòu)不同,第一層作為網(wǎng)絡(luò)的輸入,輸出的通道數(shù)為64,最后一層的作用為輸出重建后的圖像,由1個3×3的卷積核組成。其余的18層網(wǎng)絡(luò)結(jié)構(gòu)由64個3×3 大小的卷積核組成,并且采用ReLU 作為激活函數(shù),使網(wǎng)絡(luò)更加容易學(xué)習(xí),并提升網(wǎng)絡(luò)的訓(xùn)練速度。
在人臉背景圖像重建網(wǎng)絡(luò)中,xi為低分辨率圖像,將xi雙三次插值至高分辨率圖像大小表示為為對應(yīng)的高分辨率圖像,殘差圖像定義為ri=yi-殘差圖像的像素值非常小,因此在訓(xùn)練過程中大量減少了網(wǎng)絡(luò)攜帶的信息,使網(wǎng)絡(luò)更加容易收斂。人臉背景重建圖像為:
其中:表示殘差網(wǎng)絡(luò)學(xué)習(xí)到的殘差圖像。
使用均方誤差(MSE)作為損失函數(shù),則損失函數(shù)為:
2.2.3 組件融合網(wǎng)絡(luò)
本文利用C-GAN 模型重建的人臉組件和CNN 模型重建的人臉背景圖像對應(yīng)融合,提取其深層特征,在特征域自適應(yīng)融合兩種不同的特征,從而進一步學(xué)習(xí)低分辨率人臉組件圖像至原始高分辨率人臉組件圖像之間的映射關(guān)系,恢復(fù)更多的細(xì)節(jié)信息,進一步增強重建圖像的質(zhì)量,并提高組合模型的重建性能。為了保持空間信息,不使用任何池化層或跨步卷積層。特征提取網(wǎng)絡(luò)并行使用了8 個殘差塊密集連接,使用本地連接和長跳躍連接獲取更豐富的特征。組件融合網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。
圖4 組件融合網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network structure of component fusion
融合重建模塊由5 個卷積層和4 個LeakyReLU 激活函數(shù)組成,第一個卷積層卷積核大小為1×1,其他卷積層卷積核大小為3×3,兩種不同的特征拼接輸入卷積核大小為1×1 的卷積層,從而可以降低維度,并保留重要的特征信息。最后一層卷積層為最終重建層,卷積核的個數(shù)為3。
通過取人臉背景重建圖像Y?i與人臉組件重建圖像塊的交集獲取人臉背景重建圖像的人臉組件區(qū)域形成組件融合網(wǎng)絡(luò)訓(xùn)練集組件融合網(wǎng)絡(luò)重建的高分辨率人臉組件圖像塊為:
其中:?表示融合,j表示不同的人臉組件圖像塊,表示人臉組件重建圖像塊。
將融合的人臉組件重建圖像塊合并至人臉背景重建圖像中,形成最終的人臉高分辨率重建圖像為:
其中:Yi表示最終合成的人臉圖像,∪表示人臉組件和人臉背景圖像合并。
融合網(wǎng)絡(luò)采用均方誤差(MSE)作為損失函數(shù),計算融合重建后的人臉組件圖像和原始的高分辨人臉組件圖像之間的損失。損失函數(shù)為:
其中:θCj表示不同組件融合網(wǎng)絡(luò)的模型參數(shù),F(xiàn)j表示不同的融合網(wǎng)絡(luò),LFj表示不同融合網(wǎng)絡(luò)的損失函數(shù)。
本文使用了FEI(FEI Face Database)數(shù)據(jù)集對所提出的方法進行實驗驗證,F(xiàn)EI 數(shù)據(jù)集含有400 張正面拍攝圖像,共有200人,每個人有兩張正面的圖像。本文使用360張作為訓(xùn)練集,40張作為測試集,高分辨率圖像大小為260×360像素,使用雙三次插值進行下采樣得到低分辨率圖像,下采樣因子為4,得到低分辨率圖像大小為65×90像素。
實驗使用4個GPU(NVIDIA 1080Ti)并行訓(xùn)練4個獨立的網(wǎng)絡(luò),其中3個GPU 并行訓(xùn)練眼睛、鼻子和嘴巴的人臉組件生成對抗網(wǎng)絡(luò),在人臉組件圖像塊中取大小為16×16 像素的圖像塊進行訓(xùn)練,共訓(xùn)練70 個時期,初始學(xué)習(xí)率設(shè)置為0.001,每個時期學(xué)習(xí)率自動更新,將初始學(xué)習(xí)率乘以一個輔助變量0.99γ作為下一次網(wǎng)絡(luò)訓(xùn)練的學(xué)習(xí)率,γ表示當(dāng)前的時期次數(shù),網(wǎng)絡(luò)的動量初始值設(shè)為0,每個時期增加0.000 8,訓(xùn)練集批量大小設(shè)置為64。第4 個GPU 用來訓(xùn)練人臉背景圖像,將低分辨率人臉背景圖像雙三次插值至原始高分辨率圖像大小,取大小為41×41 像素的圖像塊進行訓(xùn)練,訓(xùn)練80 個時期,初始學(xué)習(xí)率為0.1,每20 個時期學(xué)習(xí)率將下降至原來的1/10,網(wǎng)絡(luò)的動量為0.9,?2的權(quán)值衰減為0.000 1。
融合網(wǎng)絡(luò)在高分辨率空間進行融合訓(xùn)練,從生成的高分辨率人臉組件數(shù)據(jù)集中取大小為64×64 像素的圖像塊作為網(wǎng)絡(luò)的輸入,融合網(wǎng)絡(luò)共訓(xùn)練150 個時期,初始學(xué)習(xí)率設(shè)置為0.000 1,并且每30 個時期乘以0.1,批量大小設(shè)置為16,并且通過隨機旋轉(zhuǎn)和水平翻轉(zhuǎn)來增加訓(xùn)練數(shù)據(jù)。
本文采用超像素分割方法分割人臉組件,利用像素之間特征的相似性將像素分組,人臉組件分割提取流程如圖5 所示,首先通過低分辨率訓(xùn)練集生成平均面部圖像,采用超像素分割算法對平均面部圖像進行聚類并生成多個超像素塊,每個超像素塊擁有自己的標(biāo)簽,從圖5 中可以看出生成的人臉組件標(biāo)簽?zāi)0?,采用此模板對人臉圖像進行分解,通過標(biāo)簽提取不規(guī)則的區(qū)域,對不規(guī)則區(qū)域進行矩形化得到最終的低分辨率人臉組件圖像塊,通過低分辨率人臉組件圖像塊的兩個對角坐標(biāo)點,獲取對應(yīng)的高分辨率人臉組件圖像塊。在本文中提取C1 低分辨率組件大小為48×16 像素,C2 低分辨率組件大小為19×20 像素,C3 低分辨率組件大小為28×17像素。
圖5 人臉組件分割提取流程Fig. 5 Flow chart of face component segmentation and extraction
本文提出的算法與幾種算法進行比較,包括雙三次插值、SRCNN[5]、VDSR[6]、LCGE[10]和EDGAN[9]方法,使用FEI 數(shù)據(jù)集進行測試,為了公平比較,本文使用相同的訓(xùn)練集重新訓(xùn)練對比算法,由于LCGE 只公布了測試代碼,所以只對LCGE 進行測試。本文采用了峰值信噪比(Peak Signal to Noise Ratio,PSNR)、結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)[17]和視覺信息保真度(Visual Information Fidelity,VIF)[18]作為圖像質(zhì)量客觀評估指標(biāo)。
3.3.1 融合網(wǎng)絡(luò)的作用
為了驗證不同深度學(xué)習(xí)模型重建的圖像塊自適應(yīng)融合的有效性,本節(jié)比較了不同的模型所產(chǎn)生的效果,如表1 所示,相對于CNN 模型和C1-GAN 模型,本文方法的組合學(xué)習(xí)模型性能均有不同程度的提升,重建圖像的質(zhì)量明顯上升,本文只展示40 張C1 區(qū)域的平均定量值對比實驗結(jié)果,計算平均客觀評估值,本文所提出的算法超過基于CNN 和C1-GAN 模型分別為1.60 dB/0.016 0/0.040 3,1.39 dB/0.013 9/0.059 9,這表明了組件融合網(wǎng)絡(luò)的有效性。
表1 同一個區(qū)域不同模型的平均PSNR、SSIM和VIFTab. 1 Average PSNR,SSIM and VIF for different models in same region
3.3.2 組件重建性能比較
為了體現(xiàn)本文算法的獨特性,本文將單獨與對比算法比較眼睛、鼻子和嘴巴部分(C1、C2 和C3 區(qū)域)的客觀評估指標(biāo),結(jié)果如表2 所示,本文算法的感興趣區(qū)域都優(yōu)于對比算法。從圖6 中可以看出:雙三次插值法并不能產(chǎn)生額外的細(xì)節(jié)信息;基于深度學(xué)習(xí)的SRCNN 和VDSR 通用圖像超分辨率方法,由于其全局優(yōu)化方案,可以很好地保持局部的基本結(jié)構(gòu),但是無法恢復(fù)更多的高頻細(xì)節(jié)信息;雖然EDGAN 可以產(chǎn)生良好的視覺效果,但是本文方法與EDGAN相比具有更好的平滑度,而且在紋理細(xì)節(jié)上更加準(zhǔn)確。實驗結(jié)果表明,獨立采用不同的深度學(xué)習(xí)模型重建感興趣的區(qū)域可以產(chǎn)生更加豐富的細(xì)節(jié)信息。
表2 不同算法不同組件的PSNR和SSIM的結(jié)果比較Tab. 2 Comparison of PSNR and SSIM results of different algorithms and components
圖6 在FEI數(shù)據(jù)集中本文算法與不同算法的主觀比較Fig. 6 Subjective comparison of the proposed method with other algorithms on dataset FEI
3.3.3 人臉重建性能比較
本文對最終合成的人臉圖像與對比算法進行比較,如表3 所示,最終實驗結(jié)果的PSNR、SSIM 和VIF 平均超過通用圖像SR 算法SRCNN、VDSR 分別為1.20 dB/0.008 5/0.044 2,0.24 dB/0.002 4/0.016 8,超 過 人 臉 圖 像SR 算 法LCGE 和EDGAN 分 別 為1.23 dB/0.009 5/0.043 7,1.11 dB/0.013 9/0.066 7。與LCGE 相比,本文算法的測試時間減小了99%。雖然本文算法的測試時間比Bicubic、SRCNN、VDSR 稍微久一些,但是本文算法的PSNR、SSIM 和VIF 客觀評估指標(biāo)值超越了它們。實驗結(jié)果表明,無論是組件還是最終合成的人臉圖像均獲得了較高的客觀評分。
表3 不同算法PSNR,SSIM,VIF和測試時間的結(jié)果比較Tab. 3 Comparisonof PSNR,SSIM,VIF and testing time results of different algorithms
本文提出了一種基于組合學(xué)習(xí)的人臉超分辨率算法,利用不同的網(wǎng)絡(luò)結(jié)構(gòu)重建性能優(yōu)勢,不僅能夠恢復(fù)人臉重要器官的紋理細(xì)節(jié)信息,還能利用現(xiàn)有的其他超分辨率方法提供人臉背景重建信息,利用多種不同的超分辨率重建方法組合學(xué)習(xí)獲得更精準(zhǔn)的重建圖像,并使用區(qū)域融合網(wǎng)絡(luò)自適應(yīng)融合不同深度學(xué)習(xí)模型重建的圖像塊,從而拓展了圖像重建先驗的來源,進一步提升了人臉超分辨率的重建性能。在后續(xù)的研究工作中,擴展更大的人臉圖像數(shù)據(jù)集,并擴展到通用SR(Super-Resolution)中,來表明此方法的拓展性。并且在不同深度學(xué)習(xí)模型自適應(yīng)融合工作中還存在改進的空間,可以進一步提升此方法的重建性能。