倪若婷 周蓮英
(江蘇大學計算機科學與通信工程學院 鎮(zhèn)江 212013)
圖像超分辨率重建技術分為兩類,一類是基于重建的[1~3],另一類是基于學習的。基于重建的技術一般被用于將同一場景的多幀圖像序列重建為一幀高分辨率的圖像?;趯W習的技術通過外部事例學習高低分辨率圖像之間的映射關系來對低分辨率圖像進行超分辨率重建,常被應用于單幀圖像??紤]到獲取同一場景的多幀人臉圖像僅在基于視頻的情況下才有可能獲得,并且對非剛性的人臉圖像進行重建存在很大的配準困難,因此本文將針對基于學習的技術來展開研究。
近來,基于卷積神經網絡的方法在超分辨率重建方面實現了最先進的性能。文獻[4]首次將卷積神經網絡引入超分辨率重建,并超越了傳統(tǒng)重建方法的效果。文獻[5]引入殘差網絡,加深了網絡的同時緩解了梯度下降的問題,提高了重建效果。文獻[6]開始使用反卷積網絡來代替對低分辨率圖像的插值,減少由于輸入圖像尺寸過大帶來的計算復雜問題,加快重建速度。文獻[7]引入了生成對抗網絡,減少了生成的HR 圖像和標簽圖像之間的差距,提高了圖像的視覺效果。文獻[8]引入迭代反投影算法的思想,將預測得到的高分辨率圖像對應的低分辨率圖像與原始低分辨率圖像之間的誤差進行反饋,指導生成更優(yōu)的高分辨率圖像。這些方法適用于通用圖像且對于較大分辨率的圖像(通常為128px*128px 及以上)取得了滿意的效果。但是網絡會因為極低分辨率圖像(如16px*16px 等)的輸入導致性能變差。
由于人臉圖像具有結構性,并且結構內的五官、紋理存在差別,區(qū)別于其他的圖像,簡單地將超分辨率重建技術應用于人臉圖像的效果往往不理想。最近,一些研究將人臉結構信息應用于人臉圖像超分辨率重建并取得了最先進的成果[9]。在檢測人臉關鍵點的同時進行人臉超分辨率重建,對現實生活中的16px*16px 的人臉圖像進行4 倍上采樣[10]。其中有兩個分支,一個分支用于進行超分辨率重建,另一個分支用于預測人臉組成部分顯著區(qū)域的熱圖,這些熱圖鼓勵生成具有更高質量細節(jié)的人臉圖像[11]。將自己的網絡結構分為兩個分支,一個分支用來進行超分辨率重建,另一個分支用來進行人臉關鍵點和人臉解析圖的預測,最后將兩個分支同時用來生成高分辨率人臉圖像。
為了還原極低分辨率人臉的結構性,本文在使用通用圖像處理方法的同時,引入人臉語義信息,較好地實現了人臉的重建。
Irian 和Peleg(1991)[12]提出了迭代反投影方法。該方法首先對LR 圖像進行插值,得到初始的高分辨率圖像,并將該初始圖像通過觀測模型得到模擬低分辨率圖像。再將LR 圖像與模擬LR 圖像的誤差用來更新初始高分辨率圖像。循環(huán)迭代上述步驟并得到最后結果。
DBPN 結構的主要組成部分為上、下投影單元。上投影單元首先將LR 特征圖作為輸入,將其映射至高分辨率特征后映射回重構特征圖,其次將LR 特征圖與重構LR 特征圖之間的差值再次映射到高分辨率特征圖,并更新高分辨率特征圖。下投影單元與之相反。
人臉解析[13~14]為語義分割的一種應用。語義分割即將圖像的各個部分按照人們定義的類別進行分類,得到不同的分割結果,該分割作用于圖像的像素上。換句話說,語義分割即將圖像中的每個像素標注為對應的類別。對一張人臉圖像進行人臉解析以后,可以得到n(語義類別分類數+1)類標。
本文算法的框架分為初步重建網絡(Coarse Net)、精細編碼網絡(Fine SR Encoder)、人臉信息先驗估計網絡(Facial Prior Estimation Network)和精細解碼網絡(Fine Decoder SR Network),如圖1所示。
初步重建網絡結構如圖1 左上部分描述,該網絡由一個卷積層、四個殘差塊構成,并且經過了兩次反卷積。該模型的輸入為16px 的低分辨率人臉圖像,虛線框中給出了殘差塊的具體結構,即卷積層-Relu-卷積層,并且該生成網絡的殘差塊與反卷積的層數分布為4-1-4-1。通過該網絡的低分辨率人臉圖像尺寸變成了原來圖像的四倍,并且獲得較清晰的人臉圖像特征,有利于精細編碼網絡提取特征以及人臉先驗信息的估計。初步重建網絡中的卷積核大小為3*3,s大小為1,p大小為1,反卷積核大小為4*4,s大小為2,p大小為1。
受迭代誤差反饋思想的啟發(fā),精細編碼網絡結構引入一系列連續(xù)的上下投影單元。網絡結構如圖1 左中部分描述,該網絡通過迭代上下采樣,并通過上下投影的誤差來指導重建獲得更好的結果。上下投影單元如圖2、圖3所示。
圖1 網絡結構
圖2 上投影單元
圖3 下投影單元
精細編碼網絡中包含連續(xù)的6 個上投影單元以及5個下投影單元,使用的卷積核大小為3*3,反卷積核大小為4*4。
本文首先對初步重建網絡提取的特征進行反卷積操作,并在此基礎上使用U-net 網絡來估計人臉先驗信息。該U-net 網絡為左右對稱結構,并且加入了Skip Connection。如圖4 所示,U-net網絡[15]的左側首先對圖像進行特征提取,其次右側對輸出特征進行上采樣,并與左側對稱部分經過裁剪的特征進行維度拼接,輸出n張heatmap圖,最后使用1*1 的卷積核對n 張圖像該像素位置進行分類,得到分割后的人臉圖像。
圖4 人臉先驗信息估計網絡
該U-net 網絡將人臉圖像分為十九部分,包含背景、皮膚、鼻子、左眼、右眼、左眉、右眉、左耳、右耳等。圖5 為人臉解析圖,從左到右分別為標簽圖像(a),人臉解析圖(b),以及人臉各部分的標簽(c)。人臉先驗信息的引入有助于恢復人臉的結構。
圖5 人臉解析圖
該精細解碼網絡由3 個卷積層構成,卷積核大小為3*3。
假設x為低分辨率輸入圖像,yg為初步重建得到圖像,y為最終重建得到的高分辨率圖像,p為人臉先驗信息。
首先構造初步SR 網絡得到粗略的超分辨率圖像yg:
其次將yg輸入到SR 編碼器F及人臉先驗估計網絡P:
接著將yf和yp輸入SR 解碼器進行維度拼接,得到最終的重建圖像y:
本文將重建得到的圖像與標簽圖像,輸入預訓練得到的VGG19 網絡模型中,并將中間層提取得到的特征用來表示Lvgg,其中Φ(ys)表示標簽圖像輸入VGG19網絡模型后提取到的特征,Φ(yg)表示重建得到的圖像輸入VGG19模型提取到的特征。
并且對參數w1=0.6、w2=0.3、w3=0.1 進行了經驗設置。
本算法的實驗環(huán)境為Ubuntu 16.04,使用的服務器為NVIDIA Tesla P100 GPU,開源框架為Pytorch。該模型采用隨機梯度下降算法進行訓練,初始學習率為10-4,訓練迭代次數為600,訓練時間為10h。
本文實驗使用的數據集是CelebAMask-HQ。數據集中圖像大小為1024*1024。使用Matlab 對原圖像進行雙三次插值操作將圖像大小調整為128*128,得到標簽圖像。對標簽圖像進行雙三次插值操作后圖像大小調整為16*16,得到輸入的低分辨率圖像。本文使用3600 張圖像進行訓練,200張用于驗證,500張圖像進行測試。
CelabAMask-HQ 中還包含手工標注的19 類面部組件,如背景、面部皮膚、鼻子、眉毛、左眼、右眼等。
本實驗實現了對極低分辨率的人臉圖像(16px)進行8倍上采樣。并且采用PSNR值及SSIM值來進行評估。該實驗提供了與最先進的SR重建方法的比較,包括SRCNN 和DBPN,這些模型都使用相同的訓練集CelebAMask-HQ 來進行訓練。我們的模型DBFNet 與先前工作的比較如圖6 所示。得益于面部先驗知識、Vgg 損失函數以及人臉先驗損失函數,我們的方法可產生相對較銳利的邊緣和形狀,以及更清晰的面部紋理。
圖6 實驗結果示例
本文提供了DBFNet 與其他先進SR 重建方法的比較,如表1所示。
表1 重建方法對比表
損失函數對于重建的效果具有引導意義,我們將除人臉先驗信息網絡的其他部分稱為Baseline,該實驗比較了僅使用Baseline 的MSE 損失函數、使用Baseline的MSE損失函數以及VGG損失函數、使用Baseline 以及人臉信息先驗估計網絡的MSE 損失函數、同時使用兩個MSE 損失函數以及一個VGG損失函數下PSNR與SSIM的值。
表2 損失函數對PSNR與SSIM值的影響
本實驗提供了DBFNet 與現有技術的比較,表3 總結了不同方法在CelebAMask-HQ 數據集上的定量結果,加粗代表最優(yōu)結果。
表3 CelebAMask-HQ數據集上PSNR/SSIM值
從表3 可知,當放大因子為8 時,本文方法的PSNR 和SSIM 值分別比BICUBIC 方法高出3.6db 和0.1334。相較于SRCNN方法,PSNR值和SSIM 值分別提升了3.24db 和0.1218。相較于DBPN 方法,PSNR 值和SSIM 值分別提升了1.25db 和0.0519。該實驗證明,本文提出的結合基于特征的反投影方法以及人臉語義分割的方法在人臉超分辨率重建中的有效性。
為了驗證面部先驗知識對重建效果的影響,我們分別對Baseline Network 和DBFNet 進行訓練,結果如圖7 所示。由此可知,增加面部先驗知識可以有效提高人臉重建的效果。
圖7 面部先驗知識對PSNR的影響
針對極低分辨率人臉圖像的8 倍重建,本文提出了一種結合基于特征的反投影方法以及人臉語義分割的方法。DBFNet的關鍵部分為精細編碼網絡、人臉信息先驗估計網絡以及人臉先驗損失函數。以迭代誤差反饋思想為主的精細編碼網絡有助于盡可能地減小重建后的圖像與標簽圖像的誤差。人臉信息先驗估計網絡以及人臉先驗損失函數的引入,為網絡引入更多的人臉特征,鼓勵網絡生成具有更清晰輪廓的人臉圖像。本實驗證明了人臉先驗信息的引入,能夠帶來更好的人臉圖像超分辨率重建的效果。