黎兆文 胡曉
摘 要:雖然基于稀疏表示的方法重構(gòu)人臉圖像有著樣本庫需求小的優(yōu)點,同時對于平滑區(qū)域的恢復也有很好的效果,但是人臉成分以及輪廓邊緣細節(jié)仍然較為模糊。為了解決這一問題,本文提出了結(jié)合稀疏表示的梯度估計邊緣優(yōu)化方法,該方法利用樣本庫中高分辨率的人臉成分以及邊緣梯度統(tǒng)計空間對低分辨率輸入人臉進行細節(jié)恢復和邊緣銳化。實驗結(jié)果表明,該方法對人臉圖像結(jié)構(gòu)的細節(jié)恢復有較為理想的表現(xiàn)效果。
關(guān)鍵詞:稀疏表示;梯度估計;人臉結(jié)構(gòu);人臉幻構(gòu)
中圖分類號:TP391.41 文獻標識碼:A 文章編號:2096-4706(2018)03-0001-05
Face Animation Technology Based on Sparse Representation and Face Structure
LI Zhaowen,HU Xiao
(School of Mechanical and Electrical Engineering,Guangzhou University,Guangzhou 510006,China)
Abstract:Although the reconstruction of face images based on sparse representation has the advantages of small sample base and good effect on the recovery of the smooth region,the face composition and the outline edge details are still relatively vague.In order to solve this problem,this paper proposes a gradient estimation edge optimization method combined with sparse representation,which uses high resolution face components and edge gradient statistical space in sample database to restore and sharpen the edges of low resolution input faces.Experimental results show that this method has a satisfactory effect on detail restoration of face image structure.
Keywords:sparse representation;gradient estimation;face structure;face magic
0 引 言
在人臉識別、取證等應(yīng)用中,準確地識別和跟蹤是不可或缺的,同時這也給人臉圖像質(zhì)量提出了更高的要求。在實際應(yīng)用中,涉及到人臉圖像分析、生物分析等的技術(shù)都面臨著捕獲的圖像質(zhì)量差的問題??尚械脑鰪姺椒ㄊ菍⒌头直媛剩↙R)輸入圖像進行超分辨率處理,來得到高分辨率(HR)輸出圖像。要實現(xiàn)這一目的有兩種可行方式,即提高硬件技術(shù)或者使用軟件提高圖像質(zhì)量。提高硬件技術(shù)需要昂貴的改善成本,所以使用軟件技術(shù)來改善圖像質(zhì)量具有極高的吸引力。
人臉超分辨率(Face super-resolution,F(xiàn)SR),或者稱為人臉幻構(gòu)技術(shù)(face hallucination,F(xiàn)H)是一種從超分辨率(super-resolution,SR)的問題中具體到人臉圖像范疇這一特定的領(lǐng)域技術(shù),專注于從監(jiān)控攝像頭或某一圖像系統(tǒng)中獲得超清人臉圖像。
由于人臉圖像復雜的結(jié)構(gòu)特征,制定的SR算法不能適用于FSR。在FSR技術(shù)領(lǐng)域,更加關(guān)注人臉的結(jié)構(gòu)細節(jié)。Baker和Kanade[1]作為FH研究的先驅(qū)者,利用高斯拉普拉斯金字塔,從LR圖像中獲得的特征金字塔被用來重建HR圖像。
然而該方法沒有很好地對人臉進行建模,而且人臉HR圖像也遭受了偽影。在文獻[2]中Liu等人提出了一種新的兩步法,首先建立一個用于檢索人臉的全局結(jié)構(gòu)的全局模型和一個捕捉圖像的高頻細節(jié)的局部模型,然后將它們集成起來生成HR圖像。在文獻[3]中,F(xiàn)reeman等人提出了一種基于學習的SR算法,學習LR輸入圖像的K-近鄰(K-NN)對應(yīng)的LR與HR圖像之間的聯(lián)系。
基于樣本學習的圖像超分辨率重構(gòu)是通過建立LR與HR訓練樣本之間的映射關(guān)系,并根據(jù)映射關(guān)系對LR輸入圖像重構(gòu)出理想的HR圖像。Yang等人最先將信號的稀疏表示理論應(yīng)用到基于樣本學習的圖像超分辨率中[4,5],其核心思想是訓練一對LR、HR聯(lián)合字典,在LR字典中求解出LR圖像塊對應(yīng)的稀疏表示系數(shù),再對LR字典中的原子進行線性組合,重構(gòu)出對應(yīng)的LR圖像塊。Zeyde等[6]對Yang等人的方法做了改進,采用K奇異值分解算法(K-singular value decomposition,K-SVD)和正交匹配追蹤算法(Orthogonal matching pursuit,OMP)進行稀疏編碼,該方法簡化了算法的結(jié)構(gòu)和計算復雜度。文獻[7]提出了一種基于雙重稀疏性字典的SISR方法,由于訓練數(shù)據(jù)集取自樣本圖像的小波變換域,因而具有雙重稀疏性的優(yōu)點,即使在缺乏樣本圖像的情況下,也能獲得較好的重構(gòu)效果。
在稀疏字典的訓練過程中,由于沿著邊緣收集的圖像塊比在光滑區(qū)域收集的圖像塊要少,使得字典對光滑區(qū)域的恢復能力比邊緣要好。針對基于稀疏表示重構(gòu)得到的HR人臉圖像邊緣模糊問題,本文引入邊緣梯度估計以及尋找最接近的HR人臉成分,以添加合理的邊緣信息,如圖1所示。
1 基于稀疏表示的紋理重構(gòu)
設(shè)信號y∈RmXn,稀疏表示模型為:
y≈x=Dα (1)
其中,α為含k個非零項的稀疏向量
稀疏重構(gòu)的退化模型為:
Y=GLX (2)
其中,Y為LR圖像,X為HR圖像,G為高斯核,L為下采樣算子。結(jié)合公式(1),得到全局約束模型為:
min‖GLX-Dα‖2 (3)
基于稀疏表示的重構(gòu)模型為:
(4)
其中,DH、Dl分別為HR稀疏字典、LR稀疏字典,PH、Pl分別為HR圖像塊提取矩陣、LR圖像塊提取矩陣,X為重構(gòu)HR圖像,Y為輸入LR圖像,i,j為提取的圖像塊位置,γ,β,λ為權(quán)衡系數(shù)。
1.1 稀疏字典訓練
根據(jù)公式(2)的退化模型,對HR訓練圖像隊列{Hj}進行退化處理,得到LR訓練隊列{Lj},并進行特征提取,得到LR特征隊列{Fj}。在文獻[8]中,F(xiàn)reeman等人利用高通濾波器提取了LR圖像的邊緣信息作為特征。在文獻[9]中,Sun等人利用高斯微分濾波器提取LR圖像的輪廓作為特征。在文獻[10]中,Chang等人將LR圖像的一階導和二階導作為特征。本文利用canny算子提取LR圖像邊緣作為LR圖像的特征進行LR稀疏字典的訓練。
(5)
(6)
其中, , ,M、N分別為LR圖像塊與HR圖像塊以列向量形式表示的維度大小。
在字典訓練過程中,本文以高斯隨機矩陣為初始化字典,以Z=Dc*Xc(:,i)初始化稀疏表示矩陣。先固定稀疏字典Dc并更新稀疏表示矩Z;再固定稀疏表示矩Z,更新稀疏字典Dc迭代形式計算稀疏字典Dc。當Dc與Z收斂時結(jié)束迭代計算,得到最終的稀疏字典Dc。
1.2 紋理圖像重建
稀疏表示向量計算模型:
(7)
將LR輸入圖像Il進行特征提取以及圖像塊分割,得到特征塊隊列{ij}根據(jù)公式(7)對ij計算稀疏表示向量αj。根據(jù)hj=Dh·αj,得到HR圖像塊。將所有HR圖像塊組合即得到重構(gòu)的HR圖像X。但是基于圖像塊重構(gòu)的HR圖像存在塊狀的殘影。在文獻[5]中Yang等人利用了LR輸入圖像Il與重構(gòu)圖像X的下采樣之間的殘差作為逆向映射約束,以改善殘影問題。本文利用迭代逆向映射進行全局約束。
(8)
其中,H為上采樣算子,ξ為閾值。最終得到的XH作為紋理圖像。
2 基于梯度估計的邊緣重構(gòu)
XH在平滑區(qū)域的表現(xiàn)已經(jīng)不錯,但是在邊緣以及眉毛、眼睛、鼻子、嘴巴等這些人臉特征方面的表現(xiàn)卻強差人意。接下來要對XH進行針對性的高頻細節(jié)恢復。先對XH進行梯度化,得到XH的紋理梯度圖Ub,以保留人臉圖像的全局信息。本文采用圖像平移相減的方法快速獲取8個方向的梯度圖。
2.1 人臉成分梯度圖
在得到的人臉紋理圖像中,平滑區(qū)域有較好的保護和兼容性,但是在人臉成分和邊緣細節(jié)方面仍然有較為明顯的丟失。而眉毛、眼睛、鼻子、嘴巴這些人臉成分作為人臉圖像中最為重要的圖像信息,應(yīng)當重點進行重構(gòu)處理,以添加合理的高頻成分。
本文中,在HR人臉序列中查找出最優(yōu)的HR圖像并提取相關(guān)的人臉成分作為丟失的高頻信息的補充。將人臉成分分為左眉毛、右眉毛、左眼、右眼、鼻子和嘴巴六個區(qū)域。由于表情動作的不同,眼睛與眉毛的位置與形態(tài)結(jié)構(gòu)并非絕對的對稱。不同于文獻[11,12]中將一對眼睛或一對眉毛作為一個區(qū)域單位,本文將眼睛與眉毛的左右部分作為獨立的區(qū)域單位,以匹配與輸入圖像Il對應(yīng)區(qū)域的形態(tài)結(jié)構(gòu)更為符合的HR人臉成分Cj。
為了得到準確有效的人臉成分的梯度,利用文獻[13]中的人臉檢測及位置標記方法對HR人臉圖像庫中的各個HR圖像進行了人臉標記,并且記錄了是否帶有眼鏡這種遮擋物。
將輸入圖像Il進行雙三次插值處理得到插值HR圖像Ib并對其進行人臉標記。然后將插值HR人臉成分的n個標記{xjb,yjb}n與HR圖像庫中的對應(yīng)區(qū)域標記{xjH,yjH}n進行比對。
(9)
根據(jù)公式(9)求出非反射對稱轉(zhuǎn)換矩陣T,其中θ為旋轉(zhuǎn)因子,λ為縮放因子,Δx,Δy為平移因子。對HR人臉庫中每一張人臉的各個人臉區(qū)域都進行轉(zhuǎn)換校準,不同于文獻[14,15,16]中只對眼睛進行水平校準,只是眼睛的水平校準雖然運算量小,但無法確保其它成分區(qū)域方向位置等匹配。
假設(shè){Hj}為HR圖像庫的人臉成分隊列。通過公式(10)得到對應(yīng)的LR人臉成分隊列{Lj}。
(10)
G為高斯核,↓為下采樣。
根據(jù)Ib的人臉成分標記點,創(chuàng)建一個HR遮掩圖Mh,其中屬于人臉成分c的像素值為1,除外為0,如圖2所示。LR遮掩圖Ml可以通過公式(10)獲得。
(11)
根據(jù)公式(11)求出匹配的Lj。其中V為Il的梯度圖,Vj為Lj的梯度圖,S為序號j的序號隊列。由于從HR到LR是一個數(shù)據(jù)丟失的過程,當出現(xiàn)如眼鏡框這類帶有狹小邊緣寬度的遮擋物時,在LR恢復HR的過程中容易忽略眼鏡框這些數(shù)據(jù)。因此,在匹配成分區(qū)域序列{Lj}時,要在帶眼鏡標記序列與不帶眼鏡標記序列兩個分組中確定匹配的數(shù)據(jù)集。
當確定出最優(yōu)的HR圖像后,利用HR遮掩圖Mh得到人臉成分區(qū)域C。并將人臉成分C進行8個方向平移相減,得到人臉成分梯度圖Uc。
2.2 人臉輪廓梯度圖
人臉輪廓通常用很小像素寬度的圖像邊緣表示。在超分辨率上,提出了好多自然圖像的邊緣統(tǒng)計方法[17]。當對缺口邊緣用插值強化時,盡管創(chuàng)造出來的邊緣看起來可以,但可能會保留具有較大影響的人為誤差(尤其在鋒銳的邊緣)。本文通過學習統(tǒng)計先驗來保護邊緣結(jié)構(gòu)和恢復邊緣銳度。
對于Il的各像素p,計算在k個方向的方向相似性。
(12)
式中,m為以p為中心的圖像塊,Qk為p在k方向的鄰域圖像塊,τ為系數(shù)。設(shè){Sk}為從輸入圖像Il計算得到的K個方向相似性圖,Sk 分別由fk(p),p∈Il組成。在LR方向相似性圖Sk上采樣得到HR方向相似性圖Tk的過程中,為不改變序列{Sk}到{Tk}的比例關(guān)系,采用雙線性插值。
(13)
式中,Ok由fk(p),p∈I組成,I由Il采樣進行初始化。根據(jù)公式(13),計算出邊緣平滑且清晰連續(xù)的HR圖Id。本文利用整幅圖像計算方向相似性,既方便了計算,又降低了噪聲對像素點的影響。利用(14)中的8個矩陣進行線性結(jié)合成16個方向的梯度算子,從而計算出16個方向的相似性圖。
(14)
由于在公式(13)中缺少約束邊緣銳利的正則項,Id的邊緣雖然清晰連貫,但并不銳利,如圖3所示。為了對Id恢復銳利,需要建立一個邊緣梯度統(tǒng)計空間幫助Id進行銳化。在理想的狀態(tài)下,邊緣的的結(jié)構(gòu)是關(guān)于邊緣中心對稱的,由此接下來要確定圖像Id的邊緣中心。
(15)
圖3 平滑處理示意圖
m為梯度量度,q,r為像素點p在兩個相反方向上的相鄰像素點。根據(jù)公式(10)和公式(13),對HR圖像隊列{Hj}進行下采樣和方向相似性求解,得到LR樣本圖像隊列{Lj}及方向相似性圖隊列{Idj}。根據(jù)公式(15)對圖像隊列{Lj}、{Idj}求出圖像邊緣中心。設(shè)mp為圖像Id中的p點的梯度量度,mp'為HR樣本圖像Hj中p點的梯度量度,c=f(p,d)為圖像Id中p點在距離d內(nèi)最接近的邊緣中心點。提取(mp',mp,mc,d)作為邊緣梯度統(tǒng)計空間的特征,將(mp,mc,d)作為分組,收集各HR樣本圖像Hj中的mp'值,求平均記作。根據(jù)(,mp,mc,d)作為維度建立空間。由于點c受點p和距離d約束,點c必然不連續(xù)存在,所以建立的邊緣梯度統(tǒng)計空間也不連續(xù)。
(16)
Ud(p)為圖像Id的梯度圖,對輸入圖像Il根據(jù)公式(13)得到圖像Id,并根據(jù)公式(15)提取特征(mp,mc,d),在統(tǒng)計空間中尋找對應(yīng)的,最后根據(jù)公式(16)得到輪廓梯度圖Ue。
2.3 人臉逆向恢復
在前文已經(jīng)得到了紋理梯度圖Ub,人臉成分梯度圖Uc,輪廓梯度圖Ue,接下來需要將3個梯度圖進行整合。
(17)
其中wc為人臉成分提取過程的遮掩圖Mh(如圖2),we(p)=min{1,(p)},(p)為公式(16)得到的輪廓梯度圖對應(yīng)的像素點梯度量度。
(18)
根據(jù)公式(18)求解輸出圖像Ih。
根據(jù)公式(19)計算全局差異Ψa,其中Xl為初始化HR圖像XH下采樣得到LR圖像,Il為輸入LR圖像,↑為上采樣處理:
Ψa=(Xl-Il)↑ (19)
根據(jù)公式(20)計算局部差異Ψc,其中Λ為XH的梯度圖:
為全局差異
Ψc=U-Λ (20)
根據(jù)公式(21)計算圖像總差異Ψ:
為局部差異
Ψ=Ψa+Ψc (21)
根據(jù)公式(22)計算圖像總差異系數(shù)μ0:
為圖像總差異
μ0=‖Xl-Il‖2+‖U-Λ‖2 (22)
根據(jù)公式(23)計算累HR圖像Im,由HR圖像減去圖像差異所得,其中β為系數(shù),控制圖像差異:
Im(t)=XH-β(t)·Ψ (23)
為系數(shù),控制圖像差異
(24)
將Im(t)代入公式(22)得到μ(t),結(jié)合公式(24),若μ0-v>0,計算公式(25):
XH*=XH-β(s)·Ψ (25)
若μ0-v<ξ(ξ為閾值),XH*作為最終輸出圖Im;否則繼續(xù)迭代計算公式(19)、(20)、(21)、(22)、(23)、(24)和(25)。
3 實驗與分析
本文采用了Multi-PIE[18]人臉數(shù)據(jù)庫以及自建LABface數(shù)據(jù)庫來測試所提出的人臉重構(gòu)方法。訓練圖像為2184張320*240分辨率的正臉多表情Multi-PIE人臉以及300張320*240分辨率的正臉微笑表情的自建LABface人臉。在數(shù)據(jù)集中對每個圖像都預先標記了姿態(tài)標簽與位置標簽,并手動生成用于訓練圖像的眼鏡標簽。測試集由40張60*40分辨率的自建LABface正面人臉組成,其中的人物身份不與訓練集重合。輸入LR人臉圖像由原始HR測試圖像通過公式(10)下采樣得到,式中縮放因子為4,高斯核寬度為1.6。本文通過計算峰值信噪比(PSNR)與結(jié)構(gòu)相似度(SSIM)評價重構(gòu)產(chǎn)生圖像的質(zhì)量。
(26)
(27)
式(26)、(27)中,為重建HR圖像,x為原始HR圖像,μ、μx和σ2、σx2分別為對應(yīng)的均值和方差,σx為協(xié)方差,C1和C2為常數(shù)。
如圖4所示,利用梯度估計進行細節(jié)恢復后,眉毛、眼睛、鼻子、嘴巴都有了明顯的改善,邊緣對比也實現(xiàn)了一定程度的強化。
由圖5、圖6、圖7分析可得,本文提出的方法主觀上與其他方法相比,細節(jié)更清晰,輪廓更明顯,塊狀殘影也較少??陀^上,PSNR與SSIM數(shù)值都有一定程度的提高。
PSNR 33.5db 32db 31.1db 31.2db 31.3db 31.2db
SSIM 0.89 0.86 0.81 0.81 0.81 0.82
圖5 本文方法重構(gòu)結(jié)果
Input bicubic Yang10[16] Irani91[19] Proposed Source
PSNR 31.1db 31.3db 31.1db 33.5db Infinite
SSIM 0.86 0.85 0.84 0.89 1
圖6 未戴眼鏡人臉重構(gòu)結(jié)果對比
Input bicubic Yang10[16] Irani91[19] Proposed Source
PSNR 30.1db 30.3db 30.3db 31.1db Infinite
SSIM 0.85 0.84 0.84 0.81 1
圖7 佩戴眼鏡人臉重構(gòu)結(jié)果對比
4 結(jié) 論
本文提出了一種利用圖像結(jié)構(gòu)改善基于稀疏表示人臉重構(gòu)技術(shù)的方法。人臉的圖像結(jié)構(gòu)分為三部分,人臉成分、邊緣和平滑區(qū)域。這些區(qū)域梯度圖的整合能夠?qū)崿F(xiàn)優(yōu)秀的視覺質(zhì)量,改善了稀疏重構(gòu)對于人臉結(jié)構(gòu)細節(jié)恢復不精細的問題。實驗結(jié)果表明,該算法產(chǎn)生的人臉超分辨率圖像的細節(jié)具有良好的表現(xiàn)效果,尤其在人臉成分的恢復方面,細節(jié)更加精細。
參考文獻:
[1] S.Baker,T.Kanade.“Hallucinating faces,”in Fourth IEEE International Conference on Automatic Face and Gesture Recognition.Proceedings,IEEE,2000:83-88.
[2] C.Liu,H.-Y.Shum,and C.-S.Zhang.“A two-step approach to hallucinating faces:global parametric model and local nonparametric model,”in Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2001(1):1–192.
[3] W.T.Freeman,T.R.Jones and E.C.Pasztor,“Examplebased super-resolution,” Computer Graphics and Applications,IEEE,2002,22(2):56-65.
[4] YANG J C,WANG Z W,LIN Z,et al.Coupled dictionary learning for image super-resolution [J].IEEETransactions on Image Processing,2012,21(8):3467-3478.
[5] WRIGHT Y J,HUANG TS. Image super-resolution via sparse representation [J]. IEEE Transactions on Image Processing,2010,19(11):2861-2873.
[6] ZEYDE R,ELAD M,PROTTER M.On single imagescale-up using sparse representations [C].//International Conference on Curves and Surfaces.Springer-Verlag,2010:711-730.
[7] AI N,PENG J Y,ZHU X,et al.SISR via traineddouble sparsity dictionaries [J].Multimedia Tools andApplications,2015,74(6):1997-2007.
[8] W.T.Freeman,E.C.Pasztor,O.T.Carmichael,“Learning lowlevel vision,”Int. J.Comput. Vis,2000,40(1):25-47.
[9] H.Chang,D.-Y.Yeung,Y.Xiong.“Super-resolution throughneighbor embedding,” in Proc. IEEE Conf. Comput.Vis.PatternClass,2004(1).
[10] S.Baker and T.Kanade,“Limits on super-resolution and how to breakthem,”IEEE Trans.Pattern Anal.Mach. Intell,2002,24(9):1167-1183.
[11] Li Y,Liu J,Yang W,et al.Multi-pose face hallucination via neighbor embedding for facial components [C].//IEEE International Conference on Image Processing,IEEE,2015:4037-4041.
[12] C.-Y.Yang,S.Liu,and M.-H.Yang..“Structured face hallucination,”in Proc.IEEE Intl Conf.Computer Vision and Pattern Recognition,2013.
[13] M.F.Tappen and C.Liu.A Bayesian approach to alignmentbased image hallucination. In ECCV,2012.
[14] C.Liu,H.-Y.Shum,and W.T.Freeman.Face hallucination:Theory and practice. IJCV,2007,75(1):115–134.
[15] X.Ma,J.Zhang,and C.Qi.Hallucinating face by positionpatch. PR,2010,43(6):2224–2236.
[16] R.Fattal.Image upsampling via imposed edge statistics. In SIGGRAPH,2007.
[17] J.Sun,Z.Xu and H.-Y.Shum.Image superresolution using gradient profile prior. In CVPR,2008.
[18] GROSS R,MATTHEWS I,COHN J,et al.Multi-pie [C].2008-06-15,S.l.:s.n.,2008:1-8.
[19] M.Irani and S.Peleg.Improving resolution by image registration [J].CVGIP,1991,53(3):231–239.
作者簡介:黎兆文(1991.08-),男,漢族,廣東人,碩士。研究方向:人臉圖像處理。通信作者:胡曉(1969-),男,湖南人,教授,碩士。研究方向:智能信號處理;人臉檢測和識別;醫(yī)學信號處理。