孫 銳 孫琦景 單曉全 張旭東
近年來,生物識別技術取得重大進展,由于數(shù)據(jù)收集的便利性與泛在性,人臉仍是應用廣泛的生物識別載體.由于人臉素描-照片的合成在執(zhí)法、刑事案件和數(shù)字娛樂等方面的廣泛應用,該方法成為一個熱門的研究領域.人臉素描-照片合成是指將特定的素描或照片的紋理和顏色信息應用于給定的輸入人臉圖像,同時保留身份特征.在無法獲得人臉素描或照片時,人臉素描-照片的合成就顯得十分重要.
傳統(tǒng)的人臉素描-照片合成方法主要分為2種:基于數(shù)據(jù)驅動的方法和基于模型驅動的方法.基于數(shù)據(jù)驅動的素描人臉合成方法也稱為基于樣本的方法.例如:Liu等[1]提出基于子空間學習的局部線性嵌入(Locally Linear Embedding, LLE)方法,Wang等[2]提出基于馬爾可夫隨機場(Markov Random Field, MRF)方法.基于數(shù)據(jù)驅動的方法可生成與輸入照片對應的人臉素描,然而,在合成過程中需要復雜的計算及很多的數(shù)據(jù)進行訓練.一些重要的人臉特征,如眼鏡,可能會缺失在合成的人臉素描圖像中,因為在訓練的人臉圖像中這些特征可能未出現(xiàn).基于數(shù)據(jù)驅動的方法還會導致生成的圖像模糊,使生成的素描圖像通常缺少素描的紋理.基于模型驅動的方法主要有Chang等[3]提出的基于貝葉斯學習的方法和Zhang等[4]提出的基于貪婪搜索稀疏表示的方法.基于模型驅動的方法主要學習素描-照片合成的映射函數(shù),模型從訓練集中的素描-照片對學習素描圖像與照片圖像之間的映射關系,學習映射關系后,輸入素描或照片就可直接合成對應的照片或素描,無需在訓練數(shù)據(jù)中進行搜索,合成速度較快,但合成的圖像某些地方會丟失素描風格.
由于深度學習技術的突破,卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network, CNN)在許多計算機視覺任務中取得較大成功,包括人臉素描照片的合成.Zhang等[5]使用由6個卷積層組成的網(wǎng)絡學習從照片到素描的端到端非線性映射,但在合成結果中帶來嚴重的模糊效果和偽影.生成對抗網(wǎng)絡(Gene-rative Adversarial Networks, GAN)[6]和變分自動編碼器(Variational Auto-Encoder)[7]等生成模型因其強大生成能力,在圖像生成、圖像編輯和表示學習等方面取得較優(yōu)性能.Isola等[8]提出Pix2Pix,基于條件生成對抗網(wǎng)絡(Conditional GAN, cGAN),利用語義分割的標簽或圖像的邊緣合成圖像.Wang等[9]改進cGAN,對高分辨率圖像進行合成和語義處理.但是,這些方法都需要大量的成對圖像進行訓練.
由于難以獲取源域和目標域之間成對標注的數(shù)據(jù),Zhu等[10]提出使用CycleGAN進行無監(jiān)督的圖像合成.Yi等[11]提出DualGAN,使用循環(huán)一致非配對圖像進行圖像到圖像的合成.Lu等[12]提出使用上下文生成對抗網(wǎng)絡,學習素描圖像和相應照片圖像的聯(lián)合分布,指導圖像生成.Wang等[13]在GAN中使用反向投影策略,改進圖像到圖像的合成結果.Wang等[14]提出PS2MAN(Photo-Sketch Synthesis Using Multi-adversarial Networks).Chen等[15]提出半監(jiān)督的野外人臉素描合成框架,結合基于樣本的方法和GAN的優(yōu)點.Zheng等[16]提出特征編碼引導GAN的人臉素描合成方法.Babu等[17]提出CSGAN(Cyc-lic-Synthesized GAN),用于圖像到圖像的合成,使用域的合成圖像與另一個域的循環(huán)圖像之間的循環(huán)合成損失.Babu等[18]提出CDGAN(Cyclic Discrimi-native GAN),用于圖像到圖像的轉換.Han等[19]提出DCLGAN(Dual Contrastive Learning GAN),用于圖像到圖像的合成.Yi等[20]在分層生成器和判別器的基礎上,提出APDrawingGAN(Artistic Portrait Drawings GAN).Kim等[21]提出U-GAT-IT(Unsuper-vised Generative Attentional Networks with Adaptive Layer-Instance Normalization for Image-to-Image Trans-lation),以端到端的方式結合注意力模塊和可學習歸一化函數(shù).Zhu等[22]提出面部素描合成方法,結合生成概率圖形模型和判別深度補丁表示,共同對深度補丁表示的參數(shù)分布和素描補丁重建的參數(shù)分布進行建模.Zhu等[23]提出有效的知識蒸餾模型,提高合成圖像的質量.Zhu等[24]提出用于面部照片-素描合成的協(xié)作框架,通過照片域與素描域兩者之間的相互映射指導圖像合成.
但上述方法在生成高質量的圖像方面存在局限性,這是因為它們在網(wǎng)絡前饋時會造成圖像細節(jié)特征信息的逐級丟失,并隨著網(wǎng)絡深度的增加,雖得到更多抽象的高級語義信息,但丟失幾何細節(jié)信息,出現(xiàn)合成的圖像面部模糊、顏色不一致、細節(jié)特征缺失等問題.
為了解決上述問題,生成高質量的合成圖像,本文提出基于多殘差動態(tài)融合生成對抗網(wǎng)絡的人臉素描-照片合成方法.使用2個生成器在素描人臉圖像與光學人臉圖像之間相互轉換,在生成器中加入多殘差動態(tài)融合網(wǎng)絡,從不同的殘差密集模塊分別提取特征并進行殘差學習,根據(jù)每個多樣化殘差特征的不同生成對應的偏移量,依據(jù)偏移量指導卷積核的采樣位置,自適應地關注每個多樣化殘差特征中最重要的信息.在避免特征信息逐級丟失和冗余信息干擾的前提下,網(wǎng)絡可有效獲取圖像特征信息的多樣性,并使用多尺度感知損失、合成損失及循環(huán)一致?lián)p失約束合成圖像,使生成圖像與真實圖像在紋理、細節(jié)等方面更相似.在人臉素描數(shù)據(jù)庫和面部素描人臉識別技術數(shù)據(jù)庫上的大量實驗表明本文方法的有效性和優(yōu)越性.
GAN由生成器和判別器組成,生成器使用來自判別器子網(wǎng)絡的對抗性損失進行訓練.生成器的目標是產(chǎn)生盡可能真實的圖像,從而欺騙判別器.而判別器的目的是將生成器生成的樣本與真實樣本進行分類.理論上GAN可學習一種映射,產(chǎn)生與目標域相同分布的輸出,但是隨著網(wǎng)絡深度的增加,輸入的信息在網(wǎng)絡中逐級丟失,導致圖像的自然分布和學習模型分布之間的重疊減少,使合成的圖像存在清晰度較低、面部變形、顏色不一致等問題.這些問題會對后續(xù)的人臉識別帶來很大影響,所以本文設計多殘差動態(tài)融合生成對抗網(wǎng)絡,如圖1所示,用于圖像合成.
圖1 網(wǎng)絡總體結構Fig.1 Overall structure of network
網(wǎng)絡可自適應地提取豐富的圖像特征信息,并且對合成的圖像進行迭代細化,有效克服合成圖像細節(jié)特征不明顯、清晰度較低、缺乏真實感等問題.
對于給定的數(shù)據(jù)集M,由2個不同域的n個成對的圖像組成,其中,A域表示人臉照片圖像,B域表示人臉素描圖像.素描-照片合成的目標是學習2個轉換函數(shù):將素描轉換成照片的函數(shù)A′=Fsp(B)、將照片轉換成素描的函數(shù)B′=Fps(A).
本文網(wǎng)絡結構包含2個生成器(GA和GB)、2個鑒別器(DA和DB)和1個特征提取網(wǎng)絡.生成器GA的功能是將真實的人臉照片圖像RA轉換成人臉素描圖像FB=GA(RA);生成器GB將生成的人臉素描圖像FB轉換為循環(huán)的人臉照片圖像RecA=GB(FB).
同理,人臉素描圖像轉換為人臉照片圖像的過程可表示為FA=GB(RB),RecB=GA(FA).
在圖1中,生成器GA和GB合成的圖像FA和FB分別送入判別器DA和DB中判別真實性.從生成器GA和GB中得到64×64、128×128、256×256分辨率的圖像,分別送入特征提取網(wǎng)絡提取圖像特征.然后把不同分辨率的真實圖像也分別送入特征提取網(wǎng)絡提取特征,計算對應分辨率真實圖像與合成圖像的感知損失、真實圖像與合成圖像的合成損失和真實圖像與循環(huán)圖像的循環(huán)損失.
生成器的結構如圖1所示,前端由3個卷積層組成.第1個卷積層的卷積核尺寸為7×7,步長為1,在卷積操作前進行鏡像填充(ReflectionPad2d)操作.第2個卷積層和第3個卷積層的卷積核尺寸為3×3,步長為2,進行補零(Padding)操作.3個卷積層都采用Leaky ReLU激活函數(shù).通過3個卷積層對輸入的人臉圖像進行淺層特征提取,再將提取的淺層特征輸入本文網(wǎng)絡進行深度多樣化特征提取,自適應地提取輸入圖像最本質的特征.最后通過反卷積進行上采樣,輸出合成的圖像.
1.3.1 多殘差動態(tài)融合網(wǎng)絡
多殘差動態(tài)融合網(wǎng)絡結構如圖2所示,它是由多個密集殘差塊組成不同的殘差網(wǎng)絡,并對其輸出的殘差信息進行動態(tài)特征融合.第i個殘差學習
Gi=Fn+Fi,
其中,Fi表示第i個密集殘差模塊的輸出,Fn表示最后一個密集殘差模塊的輸出.多殘差動態(tài)融合的結果是
M=H([G0,G1,…,Gn-1]),
其中,H表示多殘差動態(tài)融合操作,是一個操作的復合函數(shù),如卷積和激活函數(shù)(ReLU).
圖2 多殘差動態(tài)融合網(wǎng)絡結構圖Fig.2 Structure of multi-residual dynamic fusion network
在視覺識別和圖像生成領域中,使用深度神經(jīng)網(wǎng)絡可提高性能,但隨著網(wǎng)絡深度的增加可能會出現(xiàn)性能下降、生成圖像質量變差等問題,主要原因是輸入圖像經(jīng)過多層卷積,每經(jīng)過一層卷積會丟失一些信息,最終缺失輸入圖像的很多細節(jié)信息,導致重構后的圖像質量變差.本文網(wǎng)絡可有效解決上述問題.多殘差動態(tài)融合網(wǎng)絡由不同尺度的殘差網(wǎng)絡和動態(tài)融合模塊組成,將每個密集殘差模塊的輸出分別與最后的密集殘差模塊的輸出進行局部殘差學習,然后將不同層次的殘差特征進行動態(tài)特征融合.
不同的密集殘差模塊輸出特征表征不同的信息,靠前的模塊輸出特征的幾何細節(jié)信息表征能力較強,但語義信息表征能力較弱,而靠后的模塊輸出特征具有更強的語義信息表征能力.這些特征相互作用,獲得有效的圖像信息,并且多殘差路徑將不同層次的特征傳遞到網(wǎng)絡的更深層中,可使不同層次的特征得到有效重用.但是將多樣化的殘差信息進行直接融合,會導致融合后的特征保留多樣化殘差特征之間大量的冗余信息,這些冗余信息會對合成圖像進行干擾,導致合成圖像質量變差.而本文采用動態(tài)融合方式融合多樣化殘差特征,在卷積單元中增加偏移量,偏移量根據(jù)每個多樣化特征信息的不同動態(tài)生成,不同位置的卷積核會根據(jù)偏移量改變采樣點的位置,使網(wǎng)絡可自適應地獲得特征中最重要的信息,忽略特征中無用的冗余信息.融合后的特征保留多樣化殘差特征中最重要的部分,在避免特征信息逐級丟失和冗余信息干擾的前提下,有效整合幾何細節(jié)信息與高級語義信息,使經(jīng)過反卷積生成的人臉圖像面部細節(jié)保持得更好,清晰度更高,并減少生成圖像中偽影的出現(xiàn).
本文采用通道連接的方式融合不同層次的殘差信息.如果直接將對應通道上的元素相加會忽略不同殘差信息之間的差異,而通道融合方式保留不同層次的殘差信息,增加描述圖像的特征數(shù),使重構后的圖像面部細節(jié)完整、清晰度更高.將不同密集殘差塊與輸出之間進行殘差學習,可使不同的密集殘差塊輸出的信息無阻礙地傳遞到網(wǎng)絡的輸出處,網(wǎng)絡可充分利用不同密集殘差塊提取的層次特征,提高圖像分層特征的利用率,并且殘差結構避免由于網(wǎng)絡過深引起的梯度消失和退化問題,加速網(wǎng)絡收斂.與此同時殘差網(wǎng)絡的剩余路徑有助于學習更好的非線性表達能力,而身份路徑有助于在訓練期間進行梯度反向傳播,更好地學習素描-照片兩者之間的轉換.
1.3.2 動態(tài)融合模塊
動態(tài)融合模塊由如下2個分支組成.1)偏移量分支.根據(jù)輸入特征生成對應的偏移量,第i個殘差特征對應的偏移量
Δpmi=T(G0,G1,…,Gn-1),
其中,T表示偏移量生成操作,在卷積核為3×3的卷積過程中,通過T生成n×18×h×w的特征圖.2)動態(tài)卷積分支.將不同位置的卷積核根據(jù)偏移量改變采樣點的位置,使經(jīng)過卷積后得到的特征圖是輸入特征圖中最重要的部分.輸入特征為x,輸出特征為y,則
其中,R表示卷積核各點坐標的集合,w表示卷積核的權值,p0表示特征y中像素點的坐標,pm表示卷積核各點的坐標,融合結果
M=D(y0,y1,…,yn-1),
其中D表示卷積核為1×1的卷積操作.
1.3.3 密集殘差模塊
密集殘差模塊是由密集網(wǎng)絡和殘差網(wǎng)絡組合而成,通過密集的連接卷積層提取豐富的局部特征.密集殘差模塊由密集連接層、局部殘差兩部分組成,結構如圖3所示.
圖3 密集殘差模塊結構圖Fig.3 Structure of dense residual module
密集連接層是指拼接前面所有層的輸出作為下一層的輸入,將前一個密集殘差模塊的輸出傳遞給當前密集殘差模塊的每層,保證信息的重復利用.第d個密集殘差模塊的第i個卷積層的輸出為:
Fd,i=σ(Wd,i[Fd-1,Fd,1,…,Fd,i-1]+bd,i),
其中,Fj表示第j個密集殘差模塊的輸出,j=1,2,…,d-1,σ表示ReLU激活函數(shù),Wd,i和bd,i表示第i個卷積層的權值和偏差.
局部殘差將前一個密集殘差模塊的輸出信息與當前密集殘差模塊中局部特征融合的信息結合,保證層級信息不被丟失,并且可進一步改善信息流,即
Fd=Fd-1+Fd,LF,Fd,LF=Hd([Fd-1,Fd,1,…,Fd,i,…,Fd,I]),
其中Hd表示第d個密集殘差模塊中1×1卷積層的函數(shù).
本文使用的判別器是70×70的PatchGAN[5].網(wǎng)絡由5個卷積層組成,第1個卷積層由卷積和激活函數(shù)組成,中間3個卷積層都是由卷積-實例歸一化(Instance Norm)-激活函數(shù)組成,最后一個卷積層由一個卷積組成,PatchGAN將輸入的圖像映射為N×N的矩陣.
普通的GAN的判別器是將輸入圖像映射成一個評價值.該值是對生成器生成的整幅圖像的評價,即輸入圖像為真實圖像的概率.而PatchGAN采用全卷積形式,輸入圖像經(jīng)過5個卷積層后最終并不會經(jīng)過全卷積層,而是使用卷積將其映射為N×N的矩陣.矩陣中的每個值對應輸入圖像中某一區(qū)域是否為真實樣本的概率.
1.5.1 多尺度感知損失
人臉素描-照片合成是指將特定的素描或照片的紋理和顏色信息應用于給定的輸入人臉圖像,同時保留身份特征.但是合成的圖像容易缺失素描人臉圖像或光學人臉圖像的紋理及顏色等風格信息,與真實圖像在視覺上存在較大差異.為了改善此問題,本文設計多尺度感知損失,提升合成圖像的視覺效果.該損失從不同的解碼器層提取特征,經(jīng)過反卷積,輸出不同分辨率的圖像,再將真實圖像也處理成相應分辨率的圖像,分別送入特征提取器中提取特征,計算對應分辨率的感知損失.
多尺度感知損失的結構如圖4所示.利用在ImageNet數(shù)據(jù)集上預訓練的VGG19網(wǎng)絡[25]作為特征提取基線網(wǎng)絡,該網(wǎng)絡內(nèi)置在PyTorch平臺中,參數(shù)在訓練階段是固定的.VGG19網(wǎng)絡提取的深層表征具有較好的擴展性和泛化性,在風格遷移任務中效果[26-27]較優(yōu).
本文將不同分辨率的真實圖像與合成圖像分別送入特征提取器中提取特征,在特征提取器ReLU2-2
層提取一個特征,并在ReLU4-4層提取另一個特征,將對應分辨率的真實圖像提取的特征與生成圖像提取的特征通過LMSE進行對比.具體多尺度損失函數(shù)定義為
其中,Lvgg,1表示從VGG19特征提取器的ReLU2-2層提取特征計算的感知損失,Lvgg,2表示從VGG19特征提取器的ReLU4-4層提取特征計算的感知損失,RA、RB表示真實圖像,FA、FB表示生成圖像,i對應不同的分辨率.
圖4 多尺度感知損失結構圖Fig.4 Structure of multi-scale perception loss
本文任務是素描-照片兩者之間的轉換,多尺度感知損失可使生成的圖像更真實.通過預訓練好的VGG19網(wǎng)絡分別提取輸入圖像的ReLU2-2層特征和ReLU4-4層特征.ReLU2-2層提取的特征有利于生成圖像更接近真實圖像的顏色和邊緣,而ReLU4-4層提取特征有利于生成的圖像在全局結構上與真實圖像更接近.本文采用多尺度感知損失,可從多個不同的分辨率水平約束生成的圖像,對不同分辨率的合成圖像與真實圖像分別提取不同層次的感知信息進行對比,使網(wǎng)絡可由粗到細地對合成圖像進行正則化約束,促使合成圖像更接近真實圖像,更好地克服合成圖像存在紋理缺失、顏色不一致及內(nèi)容丟失等問題.
1.5.2 生成對抗損失
本文采用LSGAN(Least Square GAN)[28]中引入的最小二乘損失作為生成對抗損失,最小二乘損失使GAN的訓練過程變得穩(wěn)定,產(chǎn)生高質量的結果.生成器GA和判別器DA的對抗性損失為:
LLSGANA=EB~Pdata(B)[(DA(RB)-1)2]+EA~Pdata(A)[DA(GA(RA))2].
同理,生成器GB和判別器DB的對抗性損失為:
LLSGANB=EA~Pdata(A)[(DB(RA)-1)2]+EB~Pdata(B)[DB(GB(RB))2].
1.5.3 合成損失
為了使生成圖像與真實圖像更相似,加入合成損失,使用L1損失對比真實圖像與合成圖像,函數(shù)定義為
1.5.4 循環(huán)一致?lián)p失
如同Zhu等[10]的討論,在足夠大的容量下,網(wǎng)絡中的映射函數(shù)很多,盡管使用對抗損失、合成損失和多尺度感知損失,但不能保證學習到的函數(shù)可將輸入圖像映射到所需輸出,所以本文加入循環(huán)一致?lián)p失,減少可能的映射函數(shù)空間.函數(shù)定義為
綜上所述,本文最終的損失函數(shù)為對抗性損失、合成損失、循環(huán)一致?lián)p失和多尺度感知損失之和,最終損失函數(shù)的定義為
L(GA,GB,DA,DB)=LLSGANA+LLSGANB+λLA+λLB+
μLsynA+μLsynB+ηLcycA+ηLcycB,
其中,λ、μ、η用于調(diào)整多尺度感知損失、合成損失及循環(huán)一致?lián)p失的權重.
本文在CUFS人臉素描數(shù)據(jù)庫(CUHK Face Sketch Database, CUFS)[2]和CUFSF面部素描人臉識別技術數(shù)據(jù)庫(CUHK Face Sketch Face Recogni-
tion Technology Database, CUFSF)[29]上進行定性和定量測試.CUFS數(shù)據(jù)庫包含606位志愿者,是一個廣泛使用的人臉素描圖像數(shù)據(jù)庫,包括來自CUHK(Chinese University of Hong Kong)學生數(shù)據(jù)庫的188幅人臉、來自AR(Aleix Martinez and Robert Benavente)數(shù)據(jù)庫的123幅人臉和M2VTS(Multi Modal Verification for Teleservices and Security Appli-
cations)擴展數(shù)據(jù)庫(Extended M2VTS Database, XM2VTS)的295幅人臉.藝術家根據(jù)每人在正常光照下拍攝的正面姿勢照片繪制素描圖像,所繪素描都具有中性表情.CUHK學生數(shù)據(jù)庫上共有188對人臉圖像,100對圖像用于網(wǎng)絡訓練,88對圖像用于網(wǎng)絡測試.AR數(shù)據(jù)庫上共有123對人臉圖像,80對圖像用于網(wǎng)絡訓練,43對用于網(wǎng)絡測試.XM2VTS數(shù)據(jù)庫上共有295對人臉圖像,100對圖像用于網(wǎng)絡訓練,195對圖像用于網(wǎng)絡測試.
CUFSF數(shù)據(jù)庫包括來自FERET數(shù)據(jù)庫的1 194位志愿者的數(shù)據(jù),每人都有一幅帶有光線變化的人臉照片和一幅由藝術家繪制的夸張形狀的素描.該數(shù)據(jù)集特別具有挑戰(zhàn)性,因為每人的照片都在光照不同的情況下進行拍攝,并且相比人臉照片,藝術家繪制的素描在形狀上變得夸張,但是CUFSF數(shù)據(jù)庫更接近真實的法醫(yī)素描場景.CUFSF數(shù)據(jù)庫上共有1 194對人臉圖像,800對人臉圖像用于訓練,394對人臉圖像用于測試.所有圖像都簡單地將眼睛中心對齊到固定位置,裁剪到256×256進行預處理.
實驗使用的硬件包括intel (R) Core (TM) i7 -8700CPU@ 3.20 GHz的CPU,16 GB內(nèi)存,NVIDIA GeForce GTX 1070 Ti的顯卡,操作系統(tǒng)為Ubuntu18.04,基于Pytorch框架,版本為1.6,使用python編程語言.
在網(wǎng)絡的訓練過程中,輸入的每幅人臉圖像調(diào)整為256×256.網(wǎng)絡從初始狀態(tài)開始訓練,訓練200個周期,從第1輪到第100輪循環(huán)生成器和判別器的學習率設置為0.000 2,從第101輪到第200輪循環(huán)生成器和判別器的學習率線性衰減到0.批處理大小為1,網(wǎng)絡的初始權重從均值為0且標準差為0.02的高斯分布中初始化.損失函數(shù)的權重系數(shù)分別為λ=5,μ=5,η=10,網(wǎng)絡使用自適應矩估計(Adaptive Moment Estimation, Adam)[30]優(yōu)化器進行訓練.
為了驗證本文方法在人臉素描-照片合成時的有效性,選擇如下照片素描合成方法進行對比:Pix2Pix[8]、CycleGAN[10]、DualGAN[11]、PS2-MAN[14]、CSGAN[17]、CDGAN[18]、DCLGAN[19]、APDrawing-GAN[20]、U-GAT-IT[21].
各方法在CUFS數(shù)據(jù)庫上的人臉照片和人臉素描合成結果如圖5和圖6所示.由圖可看出,Pix2Pix合成的圖像出現(xiàn)面部模糊不清晰、細節(jié)丟失等問題.CycleGAN合成圖像出現(xiàn)顏色不一致、偽影現(xiàn)象,素描圖像面部出現(xiàn)模糊.DualGAN合成圖像的面部總是出現(xiàn)嚴重噪聲.PS2-MAN合成圖像會模糊不清晰.CSGAN會導致生成的圖像出現(xiàn)顏色不一致及面部細節(jié)的缺失.CDGAN會使生成圖像面部器官發(fā)生變化及偽影的出現(xiàn).U-GAT-IT合成圖像面部不清晰、顏色不真實.APDrawingGAN合成的素描圖像模糊不清晰并出現(xiàn)內(nèi)容缺失.DCLGAN合成的圖像會出現(xiàn)顏色不一致、面部模糊及缺乏真實感.本文方法合成圖像可保留高頻細節(jié)、減少面部細節(jié)模糊,顏色紋理與真實圖像更接近,生成圖像更清晰.
(a)輸入圖像(a)Input images
(b)真實圖像(b)Real images
(c)Pix2Pix
(d)CycleGAN
(e)DualGAN
(f)PS2-MAN
(g)CSGAN
(h)CDGAN
(i)U-GAT-IT
(j)DCLGAN
(k)本文方法(k)The proposed method圖5 各方法在CUFS數(shù)據(jù)庫上素描轉換為照片的結果Fig.5 Conversion results of sketch to photo by different methods on CUFS database
(a)輸入圖像(a)Input images
(b)真實圖像(b)Real images
(c)Pix2Pix
(d)CycleGAN
(e)DualGAN
(f)PS2-MAN
(g)CSGAN
(h)CDGAN
(i)U-GAT-IT
(j)APDrawingGAN
(k)DCLGAN
(l)本文方法 (l)The proposed method圖6 各方法在CUFS數(shù)據(jù)庫上照片轉換為素描的結果Fig.6 Conversion results of photo to sketch by different methods on CUFS database
為了進一步表明本文方法在素描-照片合成上的有效性,在CUFSF數(shù)據(jù)庫上進行素描人臉合成對比,結果如圖7和圖8所示.在CUFSF數(shù)據(jù)庫上進行人臉素描-照片合成更具有挑戰(zhàn)性,因為在CUFSF數(shù)據(jù)庫上,相比真實圖像的特征,素描圖像具有過度夸張的特征.由圖可看出,Pix2Pix、Cycle-GAN、Dual-GAN、PS2-MAN、CSGAN、CDGAN、APDrawingGAN、DCLGAN生成的照片或素描都會出現(xiàn)不同程度的面部模糊、顏色不一致、輪廓不清晰、合成的圖像不真實等現(xiàn)象.U-GAT-IT合成的照片圖像面部模糊不清晰,但是合成的素描圖像效果較優(yōu).本文方法合成的照片或素描面部輪廓都較清晰、面部細節(jié)保持完整、視覺上更接近真實圖像.
(a)輸入圖像(a)Input images
(b)真實圖像(b)Real images
(c)Pix2Pix
(d)CycleGAN
(e)DualGAN
(f)PS2-MAN
(g)CSGAN
(h)CDGAN
(i)U-GAT-IT
(j)APDrawingGAN
(k)DCLGAN
(l)本文方法 (l)The proposed method圖7 各方法在CUFSF數(shù)據(jù)庫上素描轉換為照片的結果Fig.7 Conversion results of sketch to photo by different methods on CUFSF database
(a)輸入圖像(a)Input images
(b)真實圖像(b)Real images
(c)Pix2Pix
(d)CycleGAN
(e)DualGAN
(f)PS2-MAN
(g)CSGAN
(h)CDGAN
(i)U-GAT-IT
(j)APDrawingGAN
(k)DCLGAN
(l)本文方法 (l)The proposed method圖8 各方法在CUFSF數(shù)據(jù)庫上照片轉換為素描的結果Fig.8 Conversion results of sketch to photo by different methods on CUFSF database
為了說明本文方法的有效性,分別在CUFS、CUFSF數(shù)據(jù)庫上進行定量評估,采用結構相似度(Structural Similarity, SSIM)、學習感知圖像塊相似度(Learned Perceptual Image Patch Similarity, LPIPS)、特征相似度(Feature Similarity,FSIM)衡量各方法生成圖像的質量.
SSIM通常用于對比人臉素描-照片合成中合成圖像與真實圖像之間的相似性.FSIM評估生成圖像與真實圖像的特征相似性.LPIPS強調(diào)感知相似性,計算真實圖像與生成圖像之間的距離.相比SSIM和FSIM,LPIPS更符合人類的感知情況.LPIPS值越低表示兩幅圖像越相似,否則差異越大.各方法在2個數(shù)據(jù)庫上合成的素描圖像和照片圖像的SSIM、FSIM、LPIPS值如表1~表3所示,表中使用黑色字體表示最優(yōu)值.
由表1~表3可看出,在SSIM指標上,本文方法稍遜于U-GAT-IT,優(yōu)于其它方法.在FSIM指標上,本文方法在AR數(shù)據(jù)庫上合成照片及在XM2VTS、CUFSF數(shù)據(jù)庫上合成素描的指標值稍遜于U-GAT-IT,優(yōu)于其它方法.在LPIPS指標上,本文方法指標值最優(yōu).上述結果說明本文方法合成圖像更優(yōu),網(wǎng)絡通過對輸入圖像自適應地提取深層多樣化特征,使合成圖像與真實圖像在結構和特征上更相似,在視覺上更接近真實圖像.
表1 各方法在2個數(shù)據(jù)庫上的SSIM對比Table 1 SSIM comparison of different methods on 2 databases
表2 各方法在2個數(shù)據(jù)庫上的FSIM對比Table 2 FSIM comparison of different methods on 2 databases
表3 各方法在2個數(shù)據(jù)庫上的LPIPS對比Table 3 LPIPS comparison of different methods on 2 databases
為了驗證本文方法合成圖像可在人臉識別上取得較優(yōu)結果,將各方法合成圖像進行人臉識別測試.人臉識別準確率是衡量合成人臉圖像質量的有效指標.高質量的合成人臉圖像具有較高的識別精度.本文采用主成分分析的方法進行人臉特征提取,再使用余弦相似度進行距離測量,計算匹配率.各方法在CUFS數(shù)據(jù)庫上合成圖像的識別率如圖9所示.
由圖9可看出,在CUFS數(shù)據(jù)庫上,本文方法合成圖像的識別率更高,由此說明本文方法的有效性.通過多殘差動態(tài)融合網(wǎng)絡自適應地獲取輸入圖像深層多樣化特征,使經(jīng)過反卷積合成的圖像更好地保留人臉的面部特征,圖像細節(jié)信息更完整,紋理顏色更接近真實圖像.在人臉識別時能更好地與對應的真實人臉圖像匹配.
(a)合成照片 (b)合成素描
為了驗證本文方法的魯棒性,通過搜索引擎從網(wǎng)絡中獲取一些真實場景下的人物照片,利用這些照片測試各方法的合成結果,如圖10所示.
(a)輸入圖像(a)Input images
(b)Pix2Pix
(c)CycleGAN
(d)DualGAN
(e)PS2-MAN
(f)CSGAN
(g)CDGAN
(h)U-GAT-IT
(i)APDrawingGAN
(j)DCLGAN
(k)本文方法(k)The proposed method圖10 各方法泛化實驗結果對比Fig.10 Results comparison of generalization experiments of different methods
由圖10可看出,其它方法合成的素描圖像都出現(xiàn)不同程度的模糊失真,UGATIT、DCLGAN合成的人臉圖像缺失素描圖像的風格.而本文方法在未經(jīng)過訓練的數(shù)據(jù)集上合成的素描圖像仍能保持較優(yōu)效果,并且合成的圖像質量更高,表明本文方法具有較好的泛化能力.
為了探究本文網(wǎng)絡中密集殘差塊數(shù)量的不同對生成效果的影響,分別對采用不同數(shù)量密集殘差塊的網(wǎng)絡進行訓練.采用SSIM、FSIM、LPIPS和人臉識別率評判不同參數(shù)值下合成人臉圖像的質量,具體結果如表4所示.由表可看出,當密集殘差塊的數(shù)量增加時,合成圖像的質量變優(yōu),但是當密集殘差塊數(shù)量增加到一定程度后,再增加模塊數(shù)量,合成圖像的質量就會變差.由表可知,當密集殘差塊數(shù)量取值為20時,合成圖像的質量最高.
表4 不同密集殘差塊數(shù)量合成圖像的指標值對比Table 4 Index comparison of synthesized images with different numbers of dense residual blocks
為了更好地探究本文的多殘差動態(tài)融合網(wǎng)絡和多尺度感知損失對合成圖像的影響,分別進行CycleGAN、CycleGAN+感知損失、CycleGAN+密集殘差塊、CycleGAN+多尺度感知損失、CycleGAN+多殘差動態(tài)融合網(wǎng)絡和本文方法的實驗對比.由于本文方法使用成對圖像,在網(wǎng)絡中使用合成損失而未使用身份保持損失,所以將原CycleGAN中的身份保持損失替換為合成損失.各方法在CUFS數(shù)據(jù)庫上的合成圖像如圖11所示.
(a)輸入圖像(a)Input images
(b)真實圖像(b)Real images
(c)CycleGAN
(d)CycleGAN+感知損失(d)CycleGAN+Perception loss
(e)CycleGAN+密集殘差塊(e)CycleGAN+Dence residual block
(f)CycleGAN+多尺度感知損失(f)CycleGAN+Multi-scale perception loss
(g)CycleGAN+多殘差動態(tài)融合網(wǎng)絡(g)CycleGAN+Multi-residual dynamic fusion network
(h)本文方法(h)The proposed method圖11 各方法的消融實驗結果對比Fig.11 Results comparison of ablation experiments of different methods
由圖11可看出,將CycleGAN中的殘差網(wǎng)絡替換成密集殘差網(wǎng)絡后,合成圖像質量變差,因為單方面的增加網(wǎng)絡深度并不能提高合成圖像的質量.在CycleGAN中加入感知損失后,合成圖像質量有所提高.而將多尺度感知損失加入CycleGAN后,合成圖像視覺效果優(yōu)于Cycle-GAN,更接近真實圖像,更好地克服合成圖像存在紋理缺失、顏色不一致及輪廓不清晰等問題.相比單尺度感知損失合成的圖像,多尺度感知損失在紋理細節(jié)、顏色與輪廓等方面表現(xiàn)更優(yōu).將CycleGAN中的殘差網(wǎng)絡替換為多殘差動態(tài)融合網(wǎng)絡后,合成圖像更好地保留輸入圖像的特征信息,使合成圖像面部特征更完整,細節(jié)特征更清晰.但是多殘差動態(tài)融合網(wǎng)絡合成的圖像紋理會有一定缺失,所以加入多尺度感知損失可改善合成圖像的紋理效果.
為了更直觀地說明多殘差動態(tài)融合網(wǎng)絡和多尺度感知損失兩部分的有效性,對CycleGAN、Cycle-GAN+感知損失、CycleGAN+密集殘差塊、CycleGAN+多尺度感知損失、CycleGAN+多殘差動態(tài)融合網(wǎng)絡及本文方法的合成圖像進行定量分析.在CUFS數(shù)據(jù)庫上合成圖像的SSIM、FSIM、LPIPS值如表5和表6所示.
表5 各方法在CUFS數(shù)據(jù)庫上合成照片的指標值對比Table 5 Index comparison of photos synthesized by different methods on CUFS database
表6 各方法在CUFS數(shù)據(jù)庫上合成素描的指標值對比Table 6 Evaluation index comparison of sketches synthesized by different methods on CUFS database
由表5和表6可看出,使用密集殘差網(wǎng)絡替換殘差網(wǎng)絡合成圖像質量相對較差,在CycleGAN中加入感知損失后合成圖像質量有所提高,但相比加入多尺度感知損失后,合成圖像的質量提升有限.在基線網(wǎng)絡中加入多尺度感知損失后合成圖像的LPIPS值低于基線網(wǎng)絡和多殘差動態(tài)融合網(wǎng)絡,說明多尺度感知損失可使合成圖像在視覺上更接近真實圖像,大幅改善圖像視覺效果.而加入多殘差動態(tài)融合網(wǎng)絡合成圖像在SSIM、FSIM指標上都取得最優(yōu)結果,說明多殘差動態(tài)融合網(wǎng)絡合成圖像在結構和特征上與真實圖像更接近,大幅提高合成圖像的質量.上述實驗說明說多殘差動態(tài)融合網(wǎng)絡和多尺度感知損失的有效性.
本文提出基于多殘差動態(tài)融合生成對抗網(wǎng)絡的人臉素描-照片合成方法.網(wǎng)絡中兩個生成器和兩個判別器循環(huán)工作并相互約束.在生成器中融入設計的多殘差動態(tài)融合網(wǎng)絡,對輸入圖像提取豐富的多樣化特征信息,減少在網(wǎng)絡傳播中造成的逐級特征信息丟失,通過動態(tài)融合方式有效去除多樣化特征信息中的冗余信息,減少冗余信息對合成圖像的干擾.同時設計多尺度感知損失,對網(wǎng)絡提供額外的正則化,對不同分辨率的合成圖像進行由粗到細的迭代細化,促使合成圖像與真實圖像具有相同的風格,使生成器生成更自然逼真的圖像.在CUFS、CUFSF數(shù)據(jù)庫上的定性分析和定量評估結果表明,本文方法可合成面部清晰、細節(jié)完整、顏色一致的高質量圖像,具有良好的魯棒性.今后將進一步研究人臉圖像的多風格化合成.