林 泓,陳壯源,任 碩,李 琳,李玉強(qiáng)
(武漢理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù),武漢 430063)
人臉屬性遷移可以看成是一類圖像域到圖像域的任務(wù)[1],其主要應(yīng)用于數(shù)據(jù)預(yù)處理、輔助人臉識(shí)別、娛樂社交等領(lǐng)域。生成對(duì)抗網(wǎng)絡(luò)[2]作為當(dāng)前人臉屬性遷移的主流架構(gòu),結(jié)合零和博弈的思想,在判別器和生成器協(xié)同對(duì)抗訓(xùn)練中不斷提高生成圖像的真實(shí)性和質(zhì)量。相比使用配對(duì)圖像訓(xùn)練數(shù)據(jù)集的有監(jiān)督圖像遷移方法[3],無監(jiān)督圖像遷移方法可以通過非配對(duì)圖像數(shù)據(jù)集完成圖像域遷移,具有更廣泛的應(yīng)用場景[4]。
根據(jù)訓(xùn)練過程中建立的源圖像域和目標(biāo)圖像域的映射關(guān)系,無監(jiān)督圖像遷移分為單圖像域遷移和多圖像域遷移[5]。針對(duì)單圖像域之間的映射關(guān)系,文獻(xiàn)[6]提出DFI 方法,根據(jù)線性特征空間假設(shè)直接從源圖像域特征空間學(xué)習(xí)目標(biāo)圖像的屬性特征,以實(shí)現(xiàn)單圖像域人臉屬性的遷移。文獻(xiàn)[7]提出cycleGAN 方法,引入循環(huán)重構(gòu)一致性約束,采用兩個(gè)生成器和判別器在另外一個(gè)生成器中對(duì)生成的遷移圖像進(jìn)行重構(gòu),從而更好地建立圖像域之間的映射關(guān)系。文獻(xiàn)[8]在cycleGAN 的基礎(chǔ)上,通過引入自注意力機(jī)制建立像素間遠(yuǎn)近距離的依賴性,以更好地還原圖像的細(xì)節(jié)信息,并通過譜規(guī)范化提升模型的穩(wěn)定性,從而提高遷移圖像的真實(shí)性。但是無監(jiān)督的單圖像域人臉屬性遷移只能在單個(gè)人臉屬性圖像域之間進(jìn)行,如果進(jìn)行多個(gè)圖像域遷移,需分別對(duì)每個(gè)圖像域進(jìn)行單獨(dú)訓(xùn)練,增大了訓(xùn)練的難度。
多圖像域人臉屬性遷移是單圖像域遷移的拓展,其目標(biāo)是在一次訓(xùn)練過程中完成多個(gè)圖像域之間的遷移。文獻(xiàn)[9]提出IcGAN 方法,使用標(biāo)簽完成人臉圖像重構(gòu)以及多圖像域遷移,采用兩個(gè)編碼器分別提取圖像中的內(nèi)容信息和屬性標(biāo)簽信息,再通過CGAN[10]生成指定的遷移圖像。文獻(xiàn)[11]在UNIT[12]基礎(chǔ)上提出MUNIT 方法,基于圖像可以分解成固定的內(nèi)容編碼和樣式編碼的假設(shè),利用自適應(yīng)實(shí)例歸一化融合兩個(gè)編碼器,并分別提取內(nèi)容編碼和樣式編碼,從而完成多圖像域的遷移任務(wù)。文獻(xiàn)[1]提出的ELEGANT 方法,通過提取圖像中各個(gè)屬性的內(nèi)容信息來建立每個(gè)屬性和隱層編碼特征向量的位置關(guān)系,以指導(dǎo)多圖像域人臉屬性遷移。同樣,文獻(xiàn)[13]提出的StarGAN 方法,在生成器網(wǎng)絡(luò)中引入目標(biāo)圖像域標(biāo)簽信息,通過循環(huán)重構(gòu)一致性約束保證遷移圖像域前后的一致性,并結(jié)合分類損失函數(shù)指導(dǎo)建立源圖像域和目標(biāo)標(biāo)簽的映射關(guān)系,從而完成多圖像域人臉屬性遷移。文獻(xiàn)[14]在StarGAN 基礎(chǔ)上提出StarGAN v2,利用映射網(wǎng)絡(luò)生成樣式編碼信息,生成器將源域輸入圖像和生成的樣式編碼信息遷移成目標(biāo)域圖像,以增加遷移圖像域的多樣性。文獻(xiàn)[15]基于Attgan[16]提出STGAN方法,利用選擇性傳輸單元(Selective Transfer Units,STU)將編碼器提取的圖像內(nèi)容特征根據(jù)差分屬性標(biāo)簽選擇性傳輸?shù)浇獯a器,以降低跳躍連接對(duì)圖像分辨率的影響,從而減少無關(guān)圖像域的變化,且提升多圖像域人臉屬性遷移的質(zhì)量。
當(dāng)前多圖像域人臉屬性遷移方法能夠較好地建立目標(biāo)標(biāo)簽與遷移圖像域之間的對(duì)應(yīng)關(guān)系,但仍存在圖像域表達(dá)形式多樣性差、無關(guān)遷移圖像域變化較大和判別器準(zhǔn)確度低的問題,通過類別標(biāo)簽指導(dǎo)的多圖像域人臉屬性遷移直接輸入離散形式的目標(biāo)標(biāo)簽,一方面無法明確遷移目標(biāo)圖像域和源圖像域之間的差異,另一方面造成圖像域表達(dá)方式多樣性的損失。下采樣的卷積操作導(dǎo)致圖像分辨率降低和圖像遷移細(xì)節(jié)失真。單個(gè)判別器的鑒別能力無法準(zhǔn)確定位遷移的圖像域,導(dǎo)致判定準(zhǔn)確度低,從而降低生成圖像的協(xié)調(diào)性與真實(shí)性。在尋找納什均衡解的過程中,判別器未能很好地使用輸入數(shù)據(jù)(一半是真一半是假)的先驗(yàn)知識(shí),導(dǎo)致目標(biāo)圖像域定位不夠準(zhǔn)確,且指定圖像域的遷移效果欠佳。
為改進(jìn)多圖像域人臉屬性遷移的視覺效果,本文提出一種多圖像域人臉屬性遷移方法。在生成器網(wǎng)絡(luò)設(shè)計(jì)中,通過引入相對(duì)屬性標(biāo)簽[18]和選擇性傳輸單元,遷移目標(biāo)圖像域。利用圖像域控制器和自適應(yīng)實(shí)例歸一化[19]融合內(nèi)容特征和樣式特征。在判別器網(wǎng)絡(luò)設(shè)計(jì)中,采用雙尺度判別提高人臉屬性遷移的圖像質(zhì)量。在損失函數(shù)設(shè)計(jì)中,設(shè)計(jì)融合相對(duì)鑒別[20]與鉸鏈損失的鉸鏈對(duì)抗損失函數(shù),從而提升指定圖像域的整體遷移效果。
人臉屬性遷移任務(wù)的本質(zhì)是在保證其他區(qū)域像素不變的情況下,通過修改特定部分的像素獲取遷移目標(biāo)圖像?;诖?,本文設(shè)計(jì)的多圖像域人臉屬性遷移整體結(jié)構(gòu)由一個(gè)生成器G和兩個(gè)判別器D組成,如圖1 所示。生成器網(wǎng)絡(luò)由基本網(wǎng)絡(luò)和圖像域控制器組成,其中基本網(wǎng)絡(luò)由編碼器、解碼器構(gòu)成,圖像域控制器由多層感知機(jī)(Multilayer Perceptron,MLP)構(gòu)成,主要生成目標(biāo)圖像的樣式信息。判別器整體結(jié)構(gòu)由鑒別網(wǎng)絡(luò)和分類網(wǎng)絡(luò)2 個(gè)部分組成,真假信息由鑒別網(wǎng)絡(luò)輸出,遷移圖像域類別信息由分類網(wǎng)絡(luò)獲取,如圖1 所示。
圖1 本文模型整體結(jié)構(gòu)Fig.1 Overall structure of the proposed model
從圖1 可以看出,屬性標(biāo)簽中每個(gè)位置的具體值分別表示其中的一種人臉屬性圖像域,為減少目標(biāo)圖像域和生成圖像域之間的差異性,本文模型采用相對(duì)屬性標(biāo)簽作為輸入,模型的整體流程主要是將真實(shí)圖像a和相對(duì)屬性標(biāo)簽lrelative輸入到生成器G,生成器根據(jù)相對(duì)屬性標(biāo)簽lrelative將真實(shí)圖像a遷移為圖像b,為保證遷移圖像和原始圖像的一致性,將生成的圖像b根據(jù)屬性標(biāo)簽-lrelative再次經(jīng)過生成器G重新生成循環(huán)重構(gòu)的圖像a′。在判別器中利用卷積神經(jīng)網(wǎng)絡(luò)獲得生成器所生成圖像各個(gè)域特征信息的分類損失,以建立生成圖像與相對(duì)屬性標(biāo)簽的映射關(guān)系,同時(shí)對(duì)生成圖像進(jìn)行真假鑒定,從而獲取生成圖像與原始圖像的對(duì)抗損失,更好地引導(dǎo)圖像域的遷移。
本文模型設(shè)計(jì)了相對(duì)屬性標(biāo)簽,通過單個(gè)生成器和雙尺度判別器相互對(duì)抗,使其專注于生成目標(biāo)圖像域,利用對(duì)抗損失和分類損失指導(dǎo)生成器建立相對(duì)屬性標(biāo)簽和生成圖像域的映射,從而完成多圖像域遷移任務(wù)。
本文生成器的整體結(jié)構(gòu)由圖像域控制器、上采樣、中間區(qū)域、下采樣和選擇性傳輸單元5 個(gè)部分組成。由MLP 構(gòu)成的圖像域控制器將目標(biāo)圖像的相對(duì)屬性標(biāo)簽和高斯分布的噪聲數(shù)據(jù)遷移為圖像域樣式信息;由卷積神經(jīng)網(wǎng)絡(luò)組成的下采樣區(qū)域提取圖像的內(nèi)容特征信息;由自適應(yīng)實(shí)例歸一化(AdaIN)殘差網(wǎng)絡(luò)塊結(jié)構(gòu)組成的下采樣區(qū)域,融合提取的內(nèi)容信息和圖像域控制器生成的樣式信息;STU 將在下采樣區(qū)域中的圖像內(nèi)容特征信息傳輸?shù)缴喜蓸訁^(qū)域中;反卷積神經(jīng)網(wǎng)絡(luò)組成的上采樣區(qū)域?qū)⑷诤系奶卣鬟w移成圖像。具體結(jié)構(gòu)如圖2所示。
圖2 融合域控制器和選擇性傳輸單元的生成器結(jié)構(gòu)Fig.2 Structure of generator with domain controller and selective transfer units
在生成器的參數(shù)設(shè)置上,除上采樣輸出層使用Tanh 作為非線性激活函數(shù)以外,其他區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)均選擇ReLU 作為激活函數(shù)。圖像歸一化處理時(shí)在下采樣區(qū)域卷積層采用IN,在中間區(qū)域的殘差網(wǎng)絡(luò)塊采用AdaIN,其他參數(shù)設(shè)置如表1 所示。
表1 生成器的參數(shù)設(shè)置Table 1 Parameter settings of generator
1.2.1 圖像域控制器
采用離散形式的目標(biāo)標(biāo)簽作為輸入,一方面導(dǎo)致無法建立明確的遷移圖像域和源圖像域映射關(guān)系,另一方面造成生成圖像的圖像域表達(dá)形式單一。本文利用相對(duì)屬性標(biāo)簽代替目標(biāo)標(biāo)簽,將相對(duì)屬性標(biāo)簽與隨機(jī)的噪聲數(shù)據(jù)拼接作為圖像域控制器的輸入。圖像域控制器根據(jù)不同的隨機(jī)噪聲生成圖2 中的目標(biāo)圖像域樣式信息w,并利用中間區(qū)殘差網(wǎng)絡(luò)塊中的自適應(yīng)實(shí)例歸一化,將圖像域控制器生成的樣式信息和下采樣提取的內(nèi)容特征信息進(jìn)行融合,以增加圖像域表達(dá)方式的多樣性。
圖像域控制器結(jié)構(gòu)由4層感知機(jī)網(wǎng)絡(luò)組成,將c維隨機(jī)高斯噪聲數(shù)據(jù)和n維相對(duì)屬性標(biāo)簽數(shù)據(jù)拼接后作為輸入,n代表訓(xùn)練的屬性個(gè)數(shù),輸出維度設(shè)定為殘差網(wǎng)絡(luò)深度的2 倍,m代表AdaIN 層數(shù),整體結(jié)構(gòu)參數(shù)設(shè)置如表2 所示。
表2 圖像域控制器的參數(shù)設(shè)置Table 2 Parameter settings of image domain controller
1.2.2 自適應(yīng)實(shí)例歸一化殘差網(wǎng)絡(luò)
為更好地融合圖像域控制器生成的樣式信息和遷移圖像的內(nèi)容信息,本文在生成器中采用多個(gè)自適應(yīng)實(shí)例歸一化(AdaIN)殘差網(wǎng)絡(luò)塊組成中間區(qū),將圖像域控制器的輸出作為殘差網(wǎng)絡(luò)塊的輸入樣式信息,并利用AdaIN 融合圖像內(nèi)容特征信息和樣式特征信息,以保留原圖像內(nèi)容信息的同時(shí)增加樣式的多樣性。
AdaIN[19]是基于IN 的改進(jìn),將圖像內(nèi)容信息與樣式信息的均值和標(biāo)準(zhǔn)差對(duì)齊,從而更好地融合不同的圖像域信息。x表示圖像內(nèi)容信息,y表示樣式信息,AdaIN 的計(jì)算如式(1)~式(3)所示:
1.2.3 選擇性傳輸單元
下采樣的卷積操作僅通過跳躍連接將下采樣提取的特征傳輸?shù)缴喜蓸?,難以有效地增加遷移圖像域的細(xì)節(jié)特征信息。針對(duì)此問題,本文引入STU[15]將下采樣提取的特征根據(jù)輸入的相對(duì)屬性標(biāo)簽選擇性地傳輸?shù)缴喜蓸?,以形成融合特征,從而增加遷移圖像域的細(xì)節(jié)信息,減少無關(guān)圖像域的變化。STU是在GRU[17]基礎(chǔ)上進(jìn)行改進(jìn),結(jié)構(gòu)如圖3 所示。
圖3 選擇性傳輸單元結(jié)構(gòu)Fig.3 Structure of selective transfer units
為建立明確的相對(duì)屬性標(biāo)簽和遷移圖像域之間的映射關(guān)系,本文在對(duì)輸入圖像真?zhèn)舞b別的基礎(chǔ)上增加類別的判定,通過類別的分類損失引導(dǎo)生成器明確標(biāo)簽中每個(gè)位置上的數(shù)值信息與遷移目標(biāo)圖像域的對(duì)應(yīng)關(guān)系,從而根據(jù)相對(duì)屬性標(biāo)簽生成遷移的目標(biāo)圖像域。
在判別器結(jié)構(gòu)設(shè)計(jì)中,判別器D1對(duì)尺寸為H×W的輸入圖像進(jìn)行判別,判別器D2對(duì)平均池化后尺寸為H/2×W/2 的圖像進(jìn)行判別。雙尺度判別的對(duì)抗損失和分類損失的計(jì)算如式(10)所示:
式(10)是通過協(xié)同鑒定圖像真?zhèn)魏皖悇e,解決單一判別器判定準(zhǔn)確度低的問題,雙尺度判別器結(jié)構(gòu)如圖4 所示。判別器網(wǎng)絡(luò)由真?zhèn)舞b定結(jié)構(gòu)和圖像域分類結(jié)構(gòu)組成,共享0~2 層網(wǎng)絡(luò),在真假鑒別區(qū)采用PatchGAN[3]輸出真?zhèn)涡畔?,分類區(qū)輸出分類信息,具體參數(shù)設(shè)置如表3 所示。
圖4 雙尺度判別器結(jié)構(gòu)Fig.4 Structure of dual-scale discriminator
表3 具有多分類結(jié)構(gòu)的判別器參數(shù)設(shè)置Table 3 Parameter settings of discriminator with multi-classification structure
從表3可以看出,除輸入層和輸出層以外,判別器模型均采用譜歸一化(Spectral Normalization,SN)提高模型整體訓(xùn)練的穩(wěn)定性。m為當(dāng)前特征通道尺寸,如本文的輸入圖像尺寸為128,共享區(qū)網(wǎng)絡(luò)有3 層,則m設(shè)置為8,n為輸入圖像的類別標(biāo)簽長度,如本文訓(xùn)練5 種屬性,則n設(shè)置為5。
本文選擇在不同權(quán)重比例超參數(shù)λ1=0.3λ2=0.7、λ1=0.4λ2=0.6 和λ1=0.5λ2=0.5 的雙尺度判別器上進(jìn)行實(shí)驗(yàn),驗(yàn)證了λ1和λ2選擇0.5 效果最優(yōu)。
本文所提的人臉屬性遷移模型是基于STU 和鉸鏈對(duì)抗損失,通過循環(huán)一致性約束確保輸入圖像和遷移圖像內(nèi)容特征的一致性,利用分類損失指導(dǎo)生成器建立屬性標(biāo)簽與生成圖像的關(guān)聯(lián);同時(shí),將相對(duì)對(duì)抗損失與鉸鏈損失相結(jié)合以關(guān)注整體樣本間的差異,從而指導(dǎo)人臉屬性的遷移,整體損失如式(11)所示:
其中:LRHingeGAN為鉸鏈對(duì)抗損失;重構(gòu)損失由循環(huán)重構(gòu)損失Lrec和自我重構(gòu)損失Lidt兩個(gè)部分組成;Lcls為屬性標(biāo)簽分類損失;λrec、λidt和λcls分別為循環(huán)重構(gòu)、自我重構(gòu)和分類損失的權(quán)重比例超參數(shù)。
GAN 的對(duì)抗損失是為了尋找在零和博弈狀態(tài)下的納什均衡解,在圖像遷移任務(wù)中,即生成與原始真實(shí)圖像分布相同的圖像。文獻(xiàn)[2]提出的原始GAN 中損失函數(shù)如式(12)所示:
其中:Pdata(x)為圖像域X的樣本分布;Pdata(z)為圖像域Z的樣本分布。當(dāng)判別器D測量JS 散度的最小值時(shí),由于其不具有輸入數(shù)據(jù)一半是真一半是假的先驗(yàn)知識(shí),會(huì)出現(xiàn)對(duì)所有的輸入x均為D(x) ≈1 的情況,從而造成判別器難以同時(shí)依賴真實(shí)數(shù)據(jù)和生成數(shù)據(jù),最終真實(shí)數(shù)據(jù)與生成數(shù)據(jù)的概率難以達(dá)到理想狀態(tài)下的0.5,即難以找到真實(shí)的納什均衡解。
針對(duì)原始生成對(duì)抗損失未能充分利用輸入數(shù)據(jù)一半是真一半是假的先驗(yàn)知識(shí),本文引入相對(duì)鑒別[20]的思想,采用相對(duì)真假代替絕對(duì)真假,增大生成數(shù)據(jù)為真的概率的同時(shí)減小真實(shí)數(shù)據(jù)為真的概率。在人臉屬性遷移任務(wù)中,本文通過訓(xùn)練真?zhèn)螆D像之間的間隔邊界以提高生成圖像的真實(shí)性。因此,本文在真假二分類過程中利用鉸鏈損失尋找不同分布間的最大間隔,以嚴(yán)格決策真?zhèn)螆D像間的最大間隔邊界[21],進(jìn)而關(guān)注所有樣本間的差異性,從而提升判別器真?zhèn)舞b別的能力與生成圖像的真實(shí)性和質(zhì)量。最終,本文將相對(duì)鑒別與鉸鏈損失相結(jié)合,得到判別器和生成器的對(duì)抗損失如式(13)所示:
其中:x為 輸入圖 像;Pdata為真實(shí) 數(shù)據(jù)分 布;Dsrc為判別器D中的真?zhèn)舞b別結(jié)構(gòu);lrelative為相對(duì)屬性標(biāo)簽;max()為取兩者間最大值函數(shù)。
本文的重構(gòu)損失由循環(huán)重構(gòu)和自我重構(gòu)組成,通過增加自我重構(gòu)以保證人臉屬性遷移圖像內(nèi)容的一致性。
2.2.1 循環(huán)重構(gòu)
在人臉屬性遷移任務(wù)中,循環(huán)重構(gòu)不僅保留原始圖像的結(jié)構(gòu)和內(nèi)容等信息,同時(shí)還遷移指定的圖像域,僅利用對(duì)抗損失無法保證生成圖像與原圖像結(jié)構(gòu)和內(nèi)容信息的一致性。為更好地建立相對(duì)屬性標(biāo)簽和遷移圖像間的映射關(guān)系,本文引入循環(huán)一致性條件約束,通過相對(duì)屬性標(biāo)簽引導(dǎo)人臉屬性遷移。首先原始圖像a在相對(duì)屬性標(biāo)簽lrelative的引導(dǎo)下,生成器G將原始圖像遷移成目標(biāo)圖像b=G(a,lrelative);然后生成圖像b在標(biāo)簽-lrelative的引導(dǎo)下,再次經(jīng)過生成器G還原得到a的循環(huán)重構(gòu)圖像a'=G(b,-lrelative)。循環(huán)重構(gòu)損失如式(14)所示:
2.2.2 自我重構(gòu)
為避免無關(guān)圖像域在遷移過程中發(fā)生改變,本文引入自我重構(gòu)一致性約束以降低無關(guān)圖像域的變化。在自我重構(gòu)過程中,對(duì)于任意的真實(shí)圖像a,在無差異屬性標(biāo)簽的引導(dǎo)下,a經(jīng)過生成器重構(gòu)成原圖像a',減少無關(guān)圖像域的變化。自我重構(gòu)損失的計(jì)算如式(15)所示:
其中:0 為無差異屬性標(biāo)簽。
為保持原圖像域和遷移圖像域的一致性,本文設(shè)計(jì)分類損失以平衡輸入標(biāo)簽與判別器輸出類別之間的差異。本文通過相對(duì)屬性標(biāo)簽指導(dǎo)圖像遷移,以判定生成圖像中每個(gè)遷移圖像域特征的類別,從而加強(qiáng)相對(duì)屬性標(biāo)簽和生成圖像之間的聯(lián)系,并完成目標(biāo)圖像域的遷移。為區(qū)分不同的目標(biāo)圖像域,本文采用多分類任務(wù)的交叉熵作為分類損失函數(shù)。判別器和生成器的分類損失如式(16)所示:
其中:x為輸入圖像;lorg為原始標(biāo)簽;lsrc為目標(biāo)標(biāo)簽;Dcls為判別器D中的分類結(jié)構(gòu)。
本文采用的數(shù)據(jù)集CelebA[22]由202 599 張人臉圖片組成,總共10 177 個(gè)名人,每張圖片有40 個(gè)二分屬性標(biāo)簽。本文將數(shù)據(jù)集中原始大小為178×218 的圖像裁剪成178×178,并重新調(diào)整大小為128×128,隨機(jī)選擇其中1 999 張作為測試數(shù)據(jù)集,其余200 600 張作為訓(xùn)練數(shù)據(jù)集。
在數(shù)據(jù)集上,本文通過選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、性別和年齡這5 種屬性進(jìn)行人臉屬性遷移實(shí)驗(yàn),并分別與采用標(biāo)簽訓(xùn)練的IcGAN、StarGAN 和STGAN 進(jìn)行對(duì)比。本文選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、劉海和眼鏡這5 種屬性完成多樣性效果實(shí)驗(yàn)。
本文實(shí)驗(yàn)CPU為40 Intel?Xeon?Silver 4210 CPU@2.20 GHz,31 GB;GPU 為NVIDIA GeForce RTX 2080 Ti,11 GB;操作系統(tǒng)為Ubuntu 18.04 LTS;開發(fā)環(huán)境為PyTorch 1.7.0,python 3.6.12,CUDA 10.0.130
在模型參數(shù)設(shè)置上,訓(xùn)練集的迭代批次batch_size設(shè)置為16,生成器中間區(qū)域殘差塊個(gè)數(shù)設(shè)置為6;采用TTUR[23]策略提高判別器的收斂速度,生成器和判別器的學(xué)習(xí)率分別設(shè)置為0.000 1和0.000 2;在權(quán)重選擇上,循環(huán)重構(gòu)超參數(shù)λrec和自我重構(gòu)超參數(shù)λidt都設(shè)置為10,分類損失超參數(shù)λcls設(shè)置為1;在模型優(yōu)化訓(xùn)練上,選取Adam 作為梯度下降算法,算法的一階矩估計(jì)和二階矩估計(jì)的指數(shù)衰減率參數(shù)分別設(shè)置為0.5 和0.999;選取70×70 的尺寸作為PatchGAN 判別區(qū)域的patch_size。具體實(shí)驗(yàn)訓(xùn)練參數(shù)設(shè)計(jì)如表4 所示。
表4 訓(xùn)練參數(shù)設(shè)置Table 4 Training parameter settings
本文采用分類準(zhǔn)確率(CCA)、FID(Frechet Inception Distance)和用戶調(diào)研評(píng)價(jià)(UUS)作為人臉屬性遷移效果的評(píng)價(jià)指標(biāo)。
1)分類準(zhǔn)確率CCA能有效反映遷移圖像域的準(zhǔn)確性。本文利用圖像分類模型對(duì)真實(shí)圖像進(jìn)行訓(xùn)練,將其得到的分類準(zhǔn)確率作為基準(zhǔn)值,然后根據(jù)訓(xùn)練好的模型對(duì)生成圖像進(jìn)行分類,將得到的分類準(zhǔn)確率與基準(zhǔn)值進(jìn)行對(duì)比。準(zhǔn)確率越高,越容易區(qū)分遷移圖像的圖像域,生成圖像的效果越好。本文的分類模型選擇Xception[24]網(wǎng)絡(luò),分類準(zhǔn)確率如式(17)所示:
2)FID 能有效評(píng)估GAN 生成圖像質(zhì)量的指標(biāo),用于度量2 個(gè)圖像數(shù)據(jù)集之間的相似性。本文通過將原始圖像數(shù)據(jù)集和GAN 生成的圖像數(shù)據(jù)集擬合到Inception[25]網(wǎng)絡(luò),由網(wǎng)絡(luò)對(duì)所得到的兩個(gè)高斯分布之間的弗雷謝距離進(jìn)行計(jì)算。FID 數(shù)值越低,代表生成圖像的真實(shí)性越高,遷移圖像的效果越好。定義X1~N(μ1,σ1)為真實(shí)數(shù)據(jù)集X1的高斯分布,X2~(μ2,σ2)為生成數(shù)據(jù)集的高斯分布,F(xiàn)ID 如式(18)所示:
3)用戶調(diào)研評(píng)價(jià)UUS能有效反映人眼對(duì)遷移圖像質(zhì)量的評(píng)估,是屬性遷移常用的主觀評(píng)價(jià)方法。從測試集隨機(jī)選擇M張圖像輸入到不同的模型,根據(jù)相同輸入圖像的輸出圖像分成M組。被評(píng)選為最佳效果圖的次數(shù)越多,代表該模型的視覺效果越好,圖像遷移質(zhì)量越高。UUS如式(19)所示:
其中:n為被評(píng)為最佳效果圖的次數(shù)
為驗(yàn)證自適應(yīng)實(shí)例歸一化和選擇性傳輸單元對(duì)遷移效果的影響,本文在CelebA 數(shù)據(jù)集上進(jìn)行圖像遷移實(shí)驗(yàn)。
3.3.1 鉸鏈對(duì)抗損失和選擇性傳輸單元效果評(píng)估
本文實(shí)驗(yàn)進(jìn)行了160 000~200 000 次迭代,當(dāng)?shù)螖?shù)達(dá)到200 000 次時(shí),模型處于完全收斂狀態(tài),故選擇200 000 次作為模型最終的迭代訓(xùn)練次數(shù)。
為達(dá)到最優(yōu)的遷移效果,本文選擇雙尺度判別并選取原始圖像H×W和平均池化后的圖像H/2×W/2作為判別器的輸入。單尺度判別因缺少細(xì)節(jié)特征的判定,導(dǎo)致整體遷移圖像略顯失真。然而多尺度判別過于強(qiáng)調(diào)背景的細(xì)節(jié)特征,導(dǎo)致整體遷移圖像的背景等無關(guān)圖像域變化較為明顯,雙尺度判別能協(xié)同鑒定輸入圖像的真?zhèn)渭邦悇e,以提升圖像細(xì)節(jié)特征的判定準(zhǔn)確度,提高遷移圖像的質(zhì)量。
為驗(yàn)證鉸鏈對(duì)抗損失和選擇性傳輸單元融合的有效性,在相同實(shí)驗(yàn)環(huán)境下,不同條件的實(shí)驗(yàn)對(duì)比結(jié)果如圖5 所示。
圖5 不同條件下的實(shí)驗(yàn)結(jié)果對(duì)比Fig.5 Comparison of experimental results with different conditions
從圖5 可以看出,第1 行采用鉸鏈對(duì)抗損失和基本圖像生成結(jié)構(gòu)的遷移效果,第2 行采用原始對(duì)抗損失和選擇性傳輸單元的遷移效果,第3 行融合鉸鏈對(duì)抗損失和選擇性傳輸單元的遷移效果。從第1行和第3行可以看出,通過增加選擇性傳輸單元后,在圖像域特征細(xì)節(jié)上的遷移效果更加明顯,如第3 列轉(zhuǎn)換金發(fā)屬性時(shí),融合鉸鏈對(duì)抗損失和選擇性傳輸單元的圖像遷移效果中金發(fā)部分失真明顯減少。當(dāng)?shù)? 列轉(zhuǎn)變?yōu)榕詴r(shí),融合鉸鏈對(duì)抗損失和選擇性傳輸單元的背景顏色更接近輸入圖像;第6 列在年齡增大后面部輪廓特征更加明顯。從第2 行和第3 行可以看出,增加鉸鏈對(duì)抗后的圖像遷移效果能夠有效減少無關(guān)圖像域的轉(zhuǎn)變,如在第2 列遷移黑發(fā)屬性圖像域中,人物的膚色更接近輸入圖像的膚色;第5 列轉(zhuǎn)變?yōu)榕詴r(shí),嘴唇的口紅顏色更鮮艷以及面部輪廓也更加明顯。第1 行和第3行的圖像遷移結(jié)果表明選擇性傳輸單元能改進(jìn)圖像的細(xì)節(jié)特征;第2 行和第3 行的圖像表明鉸鏈對(duì)抗損失減少了無關(guān)圖像域的遷移。
本文在不同條件下計(jì)算生成圖像FID的數(shù)值,如表5所示,加粗表示最優(yōu)數(shù)據(jù)。從表5可以看出,與鉸鏈對(duì)抗損失相比,采用鉸鏈對(duì)抗損失+選擇性傳輸單元得到遷移圖像域的FID平均降低了0.652,即遷移的圖像域更接近真實(shí)圖像;與選擇性傳輸單元相比,采用鉸鏈對(duì)抗損失+選擇性傳輸單元得到遷移圖像域的FID平均降低了5.228。
表5 在不同條件下FID 對(duì)比Table 5 FID comparison under different conditions
實(shí)驗(yàn)結(jié)果表明,鉸鏈對(duì)抗損失可以充分利用輸入數(shù)據(jù)一半是真一半是假的先驗(yàn)知識(shí),從而提高遷移圖像的真實(shí)性;選擇性傳輸單元可以解決下采樣的卷積操作存在圖像細(xì)節(jié)信息缺失的問題。融合鉸鏈對(duì)抗損失和選擇性傳輸單元可以有效提高本文整體模型遷移圖像的質(zhì)量。
3.3.2 自適應(yīng)實(shí)例歸一化效果評(píng)估
為評(píng)估融合域控制器和AdaIN 殘差網(wǎng)絡(luò)增加遷移圖像域表達(dá)方式的多樣性效果,本文選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、眼鏡和劉海屬性作為訓(xùn)練的屬性標(biāo)簽進(jìn)行實(shí)驗(yàn)。在輸入圖像和相對(duì)屬性標(biāo)簽不變的條件下,根據(jù)不同的隨機(jī)噪聲數(shù)據(jù),輸出遷移圖像,從多組圖像中選取具有代表性的輸出圖像。未采用AdaIN 和采用AdaIN 的實(shí)驗(yàn)結(jié)果對(duì)比如圖6 所示。
圖6 本文方法未采用AdaIN 和采用AdaIN 的實(shí)驗(yàn)結(jié)果對(duì)比Fig.6 Experimental results comparison of the proposed method with AdaIN and without AdaIN
從圖6(a)可以看出,未采用AdaIN的圖像遷移效果除發(fā)色變化之外,劉海比較稠密且向左下斜,鏡片是顏色略深的方形,樣式單一。從圖6(b)可以看出,采用融合域控制器與AdaIN后,劉海彎曲形狀的斜右下樣式、略微稀疏的左下斜樣式,鏡片輪廓上有方形的和橢圓形的,且顏色上是黑色的、白色的,均呈現(xiàn)多種不同的樣式。
為進(jìn)一步驗(yàn)證劉海和眼鏡遷移圖像多樣性的質(zhì)量,本文計(jì)算相對(duì)應(yīng)的FID 數(shù)值,如表6 所示。采用AdaIN 能有效提升眼鏡和劉海多種表達(dá)方式的真實(shí)性。實(shí)驗(yàn)結(jié)果驗(yàn)證融合域控制器與AdaIN 的有效性,將不同的隨機(jī)噪聲輸入到圖像域控制器,能有效增加圖像域樣式的多樣性。
表6 本文方法未采用AdaIN 和采用AdaIN 的FID 對(duì)比Table 6 FID comparison of the proposed method with AdaIN and without AdaIN
綜合以上的對(duì)比實(shí)驗(yàn)可以得出:鉸鏈對(duì)抗損失通過訓(xùn)練真?zhèn)螆D像的間隔邊界,可以更好地提高生成圖像的真實(shí)性;選擇性傳輸單元能有效降低下采樣的卷積操作對(duì)圖像分辨率的影響,提高圖像遷移的細(xì)節(jié)信息;融合圖像域控制器與AdaIN 可以實(shí)現(xiàn)圖像域多樣性的表達(dá)。
本文的圖像域?qū)傩赃w移模型經(jīng)一次訓(xùn)練后,既可以完成單個(gè)屬性的圖像域遷移,也可以同時(shí)完成多個(gè)屬性的圖像域遷移。為驗(yàn)證本文方法在單個(gè)屬性遷移和多個(gè)屬性同時(shí)遷移的有效性,在相同的實(shí)驗(yàn)環(huán)境下,本文選取發(fā)色(黑發(fā)、金發(fā)、棕發(fā))、性別和年齡這5 種屬性進(jìn)行訓(xùn)練,與同樣完成人臉屬性遷移工作的IcGAN[9]、StarGAN[13]和STGAN[15]進(jìn)行對(duì)比實(shí)驗(yàn)。
本文均復(fù)現(xiàn)原作者源代碼進(jìn)行對(duì)比:1)IcGAN,在CGAN 基礎(chǔ)上融合Z 和Y 編碼器完成多圖像域遷移工作,引入標(biāo)簽完成多圖像域遷移任務(wù);2)StarGAN,經(jīng)過一次訓(xùn)練即可完成多圖像域遷移任務(wù),通過循環(huán)一致性約束和分類損失完成多圖像域遷移任務(wù);3)STGAN,經(jīng)過一次訓(xùn)練即可完成多圖像域遷移任務(wù),在生成器的輸入中加入差分屬性和選擇性傳輸單元完成圖像遷移任務(wù)。
3.4.1 單屬性遷移
在經(jīng)過一次訓(xùn)練完成的多圖像域遷移模型中,本文分別改變輸入圖像單個(gè)目標(biāo)圖像域?qū)傩詷?biāo)簽,以生成人臉屬性遷移圖像。本文選取具有代表性的生成圖像進(jìn)行單個(gè)屬性遷移效果對(duì)比,如圖7 所示。
從圖7(a)可以看出,采用IcGAN 方法將發(fā)色遷移成黑發(fā)時(shí),出現(xiàn)了明顯的胡子,發(fā)型也發(fā)生了轉(zhuǎn)變,整體圖像失真嚴(yán)重;從圖7(b)可以看出,采用StarGAN 方法將發(fā)色遷移成金發(fā)時(shí),斜向左的劉海發(fā)絲略微失真且不自然,遷移成男性時(shí),唇部顏色略顯蒼白,面部膚色也略顯暗淡。從圖7(c)和圖7(d)可以看出,采用STGAN 和本文方法將發(fā)色遷移成黑發(fā)時(shí),發(fā)色自然且發(fā)絲更加逼真;當(dāng)增加圖像中人物年齡時(shí),遷移圖像顯示僅改變了臉上的皺紋。因此,IcGAN 遷移效果中整體圖像細(xì)節(jié)模糊且背景變化大,StarGAN 遷移效果中部分細(xì)節(jié)不夠真實(shí),STGAN 和本文方法都較好地完成了屬性的遷移,整體圖像顯得自然、真實(shí),無關(guān)圖像域變化小。
圖7 不同方法的單個(gè)屬性遷移效果對(duì)比Fig.7 Single attribute migration effects comparison among different methods
為體現(xiàn)實(shí)驗(yàn)的公正性,本文選擇10 名研究生分別對(duì)5 種屬性的遷移效果圖進(jìn)行評(píng)選,遷移效果圖由30 組評(píng)價(jià)樣本組成,每組評(píng)價(jià)樣本由4 張相同的測試輸入圖像及4 種方法的遷移效果圖構(gòu)成,以得到10×30=300 組遷移效果對(duì)比主觀評(píng)價(jià)結(jié)果。用戶評(píng)選最佳圖像標(biāo)準(zhǔn)如下:
1)圖像質(zhì)量,輪廓邊緣、頭發(fā)和五官等細(xì)節(jié)清晰,整體真實(shí)的遷移圖像質(zhì)量最佳。
2)無關(guān)圖像域變化,其他無關(guān)圖像域變化少,且符合目標(biāo)圖像域特征的遷移圖像質(zhì)量最佳。
用戶調(diào)研數(shù)據(jù)從300 組用戶問卷評(píng)估數(shù)據(jù)統(tǒng)計(jì)得到,每種方法在該對(duì)應(yīng)屬性遷移上所占的百分比如表7 所示,加粗表示最優(yōu)數(shù)據(jù)。IcGAN 整體遷移圖像效果較差。在金發(fā)、棕發(fā)和性別遷移圖像評(píng)選中,STGAN 的遷移效果優(yōu)于本文方法。在黑發(fā)和年齡遷移圖像評(píng)選中,本文方法優(yōu)于STGAN。因此,本文方法在遷移效果與生成圖像質(zhì)量方面相較于IcGAN 和StarGAN 均有提升,與STGAN 效果相當(dāng)。
表7 單屬性遷移的用戶調(diào)研評(píng)價(jià)對(duì)比Table 7 Comparison of user survey evaluation of single attribute migration
為有效地評(píng)估本文方法,本文對(duì)這4 種方法輸出圖像的分類準(zhǔn)確率進(jìn)行對(duì)比,如表8 所示,加粗表示最優(yōu)數(shù)據(jù)。本文方法比IcGAN、StarGAN 的分類準(zhǔn)確率平均提高16.3 和2 個(gè)百分點(diǎn),與STGAN 效果相當(dāng),均接近真實(shí)圖像的分類準(zhǔn)確率。
表8 不同方法單屬性遷移的分類準(zhǔn)確率對(duì)比Table 8 Classification accuracy comparison among different methods with single attribute migration
為評(píng)估這4 種方法輸出圖像的真實(shí)性,本文計(jì)算不同方法輸出圖像FID 的數(shù)值,對(duì)比結(jié)果如表9 所示。從表9 中可知,IcGAN 遷移圖像的真實(shí)性較低,本文方法的遷移效果要優(yōu)于StarGAN 和IcGAN,與STGAN 效果相當(dāng)。
表9 不同方法單屬性遷移的FID 對(duì)比Table 9 FID comparison among different methods with single attribute migration
3.4.2 多屬性遷移
在經(jīng)過一次訓(xùn)練完成的多圖像域遷移模型中,本文分別改變輸入圖像2 個(gè)或者3 個(gè)目標(biāo)圖像域?qū)傩詷?biāo)簽,以生成人臉屬性遷移圖像,選取具有代表性的輸出圖像進(jìn)行對(duì)比,如圖8 所示。
圖8 不同方法的多屬性遷移效果對(duì)比Fig.8 Muti-attribute migration effects comparison among different methods
從圖8 可以看出:IcGAN 遷移的圖像真實(shí)性低,無關(guān)圖像域改變大;StarGAN、STGAN 和本文方法都較好地完成多個(gè)屬性同時(shí)遷移的任務(wù),但StarGAN 和STGAN 仍然有一些無關(guān)圖像域發(fā)生了改變,當(dāng)性別和年齡同時(shí)轉(zhuǎn)變時(shí),StarGAN 出現(xiàn)了較為明顯的劉海;當(dāng)黑發(fā)和性別同時(shí)轉(zhuǎn)變時(shí),STGAN遷移的發(fā)型顯得不自然;本文方法整體遷移圖像真實(shí)性更高,人臉膚色隨著不同屬性的遷移均發(fā)生相應(yīng)的轉(zhuǎn)變,隨著年齡增大,目標(biāo)圖像域的特征更為明顯;當(dāng)性別和年齡同時(shí)遷移時(shí),本文方法遷移圖像中面部特征的細(xì)節(jié)清晰、自然,更接近真實(shí)圖像。
為進(jìn)一步驗(yàn)證本文方法多屬性遷移的有效性,本文計(jì)算多個(gè)屬性同時(shí)遷移FID 的數(shù)值,如表10 所示,加粗表示最優(yōu)數(shù)據(jù)。從表中數(shù)據(jù)得知,在多個(gè)屬性同時(shí)遷移的任務(wù)中,IcGAN 生成的遷移圖像真實(shí)性較差,STGAN 生成的遷移圖像要優(yōu)于IcGAN 和StarGAN,本文方法生成的遷移圖像質(zhì)量最優(yōu)。
表10 不同方法多屬性遷移的FID 對(duì)比Table 10 FID comparison among different methods with multi-attributes migration
在人臉屬性遷移任務(wù)中單屬性遷移與多屬性遷移的主客觀實(shí)驗(yàn)結(jié)果表明:相較于IcGAN、StarGAN,本文方法的單屬性遷移圖像效果能較好地保留人臉面部的細(xì)節(jié)特征信息,無關(guān)圖像域改變較少,且遷移圖像的真實(shí)性和質(zhì)量與STGAN 效果相當(dāng);相較于IcGAN、StarGAN 和STGAN,本文方法的多屬性遷移效果更優(yōu),能建立更加明確的多圖像域映射關(guān)系。
本文提出一種選擇性傳輸和鉸鏈對(duì)抗的多圖像域人臉屬性遷移方法。通過引入域控制器和自適應(yīng)實(shí)例歸一化,增加生成的人臉屬性樣式多樣性,同時(shí)利用選擇性傳輸單元提高遷移圖像的細(xì)節(jié)和質(zhì)量,設(shè)計(jì)并融合相對(duì)鑒別與鉸鏈損失的鉸鏈對(duì)抗損失,以減少無關(guān)圖像域的遷移。實(shí)驗(yàn)結(jié)果表明,與StarGAN、STGAN、IcGAN 方法相比,該方法遷移圖像的質(zhì)量更優(yōu),同時(shí)能有效增加遷移圖像表達(dá)的多樣性。下一步將對(duì)屬性標(biāo)簽進(jìn)行優(yōu)化,以減少樣式信息對(duì)屬性標(biāo)簽的依賴,使本文模型適用于實(shí)際的應(yīng)用場景。