陶知眾,王斌君,崔雨萌,閆尚義
(中國人民公安大學(xué) 信息網(wǎng)絡(luò)安全學(xué)院,北京 100038)
圖像風(fēng)格轉(zhuǎn)換是指將一幅圖像從所在的原圖像域轉(zhuǎn)換到目標圖像域,使其在保留圖像原本內(nèi)容的同時又能具有目標圖像域風(fēng)格的一種圖像處理技術(shù)。圖像風(fēng)格轉(zhuǎn)換在社交娛樂和藝術(shù)創(chuàng)作領(lǐng)域具有十分廣闊的應(yīng)用前景,因此受到學(xué)術(shù)界和企業(yè)領(lǐng)域的高度關(guān)注。早期的圖像風(fēng)格轉(zhuǎn)換被看作是圖像紋理生成問題,即通過設(shè)置一定的約束條件,使生成的圖像既包含了原圖像的語義內(nèi)容,又具有目標圖像域的紋理特征[1]。而自深度學(xué)習(xí)問世以來,很多基于深度學(xué)習(xí)的圖像處理算法也已相繼提出,利用深度學(xué)習(xí)來處理圖像風(fēng)格轉(zhuǎn)換問題的各種研究也陸續(xù)展開。Gatys 等人[2]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的圖像風(fēng)格轉(zhuǎn)換方法,通過預(yù)訓(xùn)練的VGG-19[3]模型提取輸入圖像的內(nèi)容特征圖和風(fēng)格特征圖,并使用在此基礎(chǔ)上定義的內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)生成圖像,該方法生成的圖像效果優(yōu)于許多傳統(tǒng)的機器學(xué)習(xí)算法。Goodfellow 等人[4]提出的生成對抗網(wǎng)絡(luò)(Generative Adversarial Networks,GAN)因其生成圖像質(zhì)量高、易于實現(xiàn)、兼容各種網(wǎng)絡(luò)模型等優(yōu)點而倍受關(guān)注,很多基于GAN 的風(fēng)格轉(zhuǎn)換模型也取得重大突破,其中包括CycleGAN[5]、StarGAN[6]及Pix2Pix[7]等。研究可知,CycleGAN 模型通過添加循環(huán)一致性損失函數(shù),解決了在圖像風(fēng)格轉(zhuǎn)換任務(wù)中缺少監(jiān)督訓(xùn)練數(shù)據(jù)集的問題。StarGAN 模型則解決了多個圖像領(lǐng)域間風(fēng)格轉(zhuǎn)換的問題,使其可以只經(jīng)一次訓(xùn)練便可實現(xiàn)多個圖像風(fēng)格間的轉(zhuǎn)換。Pix2Pix 模型則在cGAN[8]的基礎(chǔ)上,將U-Net[9]作為生成器,PatchGAN 作為鑒別器,如此一來則可以生成質(zhì)量較高的圖像,并且因為其結(jié)構(gòu)簡單,易于訓(xùn)練等特點,目前在圖像生成領(lǐng)域比較流行。
由于人臉圖像細節(jié)較為豐富,而采用Pix2Pix模型很難捕捉到這些細節(jié)中所包含的信息,導(dǎo)致生成的人臉畫像在五官、臉部輪廓等細節(jié)豐富部位會出現(xiàn)模糊、信息缺失等問題。文中針對該問題,提出一種改進Pix2Pix 模型。在Pix2Pix 基礎(chǔ)上,研究的主要創(chuàng)新點包括:
(1)在原Pix2Pix 模型的生成器和鑒別器中引入自注意力模塊(Self-Attention Mechanism,SAM),使模型能夠更好地學(xué)習(xí)到人臉的空間輪廓特點,從而解決生成圖像在人臉五官等部位細節(jié)模糊或缺失等問題。
(2)在原Pix2Pix 生成器的損失函數(shù)中引入了內(nèi)容-風(fēng)格損失函數(shù),使生成器生成的素描圖像在不丟失原圖像細節(jié)內(nèi)容的同時,在觀感上更接近手繪素描圖像。
(3)針對原Pix2Pix 模型訓(xùn)練難度大、難以收斂等問題,提出了改進的訓(xùn)練方法,進而降低模型整體訓(xùn)練難度,加速模型收斂。
GAN 是一種由生成器(Generator)和鑒別器(Discriminator)共同構(gòu)成的深度學(xué)習(xí)模型。其中,生成器負責(zé)學(xué)習(xí)訓(xùn)練集輸入數(shù)據(jù)的概率分布規(guī)律并生成具有相似概率分布的輸出數(shù)據(jù);鑒別器負責(zé)評估輸入數(shù)據(jù)來自訓(xùn)練集或生成器的概率。訓(xùn)練過程中生成器和鑒別器一同訓(xùn)練,鑒別器的訓(xùn)練目標是能夠正確區(qū)分輸入數(shù)據(jù)是來自訓(xùn)練集或者生成器,而生成器的目標是盡量使鑒別器做出錯誤的判斷。通過讓2 個模型進行對抗訓(xùn)練,使生成器生成數(shù)據(jù)的概率分布更接近真實數(shù)據(jù),而鑒別器對生成數(shù)據(jù)和真實數(shù)據(jù)的鑒別能力也隨之提高,并最終達到一種平衡狀態(tài)。目前,GAN 越來越受到學(xué)術(shù)界重視,尤其是在計算機視覺領(lǐng)域,許多基于GAN 的深度學(xué)習(xí)模型也逐漸進入學(xué)界視野,并已廣泛應(yīng)用在如圖像風(fēng)格轉(zhuǎn)換[4-6]、超分辨率[10-11]、圖像復(fù)原[12-13]等圖像處理任務(wù)上,繼而不斷向著其他領(lǐng)域擴展,具有廣泛的應(yīng)用前景[14-15]。
Pix2Pix 是由Isola 等人[7]提出的一種專門用于處理圖像翻譯問題的條件生成對抗網(wǎng)絡(luò)模型。該模型包含了一個生成器和一個鑒別器,其中生成器可以根據(jù)輸入圖像生成其在目標圖像域的對應(yīng)圖像,而鑒別器則是嘗試分辨輸入圖像的真實性。Pix2Pix 模型結(jié)構(gòu)如圖1 所示。
圖1 Pix2Pix 模型結(jié)構(gòu)示意圖Fig. 1 Structure of Pix2Pix module
圖1 中,x,y分別表示2 個不同圖像域X,Y中的圖像。在訓(xùn)練生成器G時,將x輸入到生成器中,生成具有Y圖像域風(fēng)格的圖像y' =G(x)。在訓(xùn)練鑒別器D時,則將y或y'和x一同輸入到鑒別器D中,D輸出圖像來自生成器G的概率。
Pix2Pix 模型的損失函數(shù)主要由條件對抗生成損失函數(shù)lcGAN和L1損失函數(shù)lL1兩部分組成,其中l(wèi)cGAN的表達式見如下:
式(1)中,生成器以輸入的真實圖像作為條件,試圖生成符合真實圖像分布的對應(yīng)虛假圖像并欺騙鑒別器,因此生成器的訓(xùn)練目標是盡量減小;而鑒別器則在觀察真實圖像的基礎(chǔ)上試圖分辨輸入的對應(yīng)圖像的真實性,因此鑒別器的訓(xùn)練目標是盡量增大。損失函數(shù)的表達式如式(2)所示:
損失函數(shù)用來確保生成器在生成虛假對應(yīng)圖像時,除了要考慮使虛假對應(yīng)圖像在概率分布上更接近真實對應(yīng)圖像外,還應(yīng)使其在像素層面更接近于真實圖像。因此,Pix2Pix 模型的最終損失函數(shù)具體如下:
其中,參數(shù)γ為損失函數(shù)的權(quán)重,控制著條件對抗生成損失函數(shù)和損失函數(shù)的相對重要性。
Pix2Pix 的生成器采用了U-Net 框架。相較于傳統(tǒng)的編-解碼器框架,Pix2Pix 生成器網(wǎng)絡(luò)在第i卷積層和第n -i卷積層之間增加了直連路徑,其中n是生成器網(wǎng)絡(luò)總層數(shù),每一個直連路徑會將第i層各信道信息拼接在第n -i層各信道之后。通過增加直連路徑,Pix2Pix 的生成網(wǎng)絡(luò)可以使輸入圖像和輸出圖像共享低層信息,同時也確保了梯度信息能夠在深層網(wǎng)絡(luò)中有效傳播,改善深層網(wǎng)絡(luò)性能。同時,Pix2Pix 生成器網(wǎng)絡(luò)還在某些層中使用了Dropout,以取代GAN 中作為輸入的噪聲。生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖2 所示。
圖2 Pix2Pix 模型的生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Generator network structure of Pix2Pix model
Pix2Pix 的鑒別器使用的是PatchGAN 結(jié)構(gòu)。不同于傳統(tǒng)鑒別器,PatchGAN 的輸出是一個n × n的矩陣,矩陣中每一個元素的值代表對輸入圖像對應(yīng)圖像區(qū)塊的判別結(jié)果,訓(xùn)練過程中,再通過將鑒別器產(chǎn)生的矩陣元素均值作為整幅圖像的最終判別結(jié)果,PatchGAN 通過將鑒別器的注意力集中在圖像各個子區(qū)塊的方式,使鑒別器可以更好地處理圖像高頻部分,同時,采用PatchGAN 結(jié)構(gòu)的鑒別器相較于傳統(tǒng)分類網(wǎng)絡(luò)具有更少的參數(shù),更短的訓(xùn)練周期,并且通過調(diào)整n的大小,PatchGAN 可以應(yīng)用于任意尺寸的圖像,并使生成的圖像保持較高質(zhì)量。
注意力機制(Attention Mechanism,AM )是一種改進神經(jīng)網(wǎng)絡(luò)的方法,主要是通過添加權(quán)重的方式,強化重要程度高的特征并弱化重要程度較低的特征,從而改善神經(jīng)網(wǎng)絡(luò)模型的性能[16],注意力機制得到的權(quán)重既可以應(yīng)用在信道上[17-18],也可以應(yīng)用在特征圖或其它方面[19-20]。
自注意力機制是由Zhang 等人[21]提出的一種專門用于生成對抗網(wǎng)絡(luò)中的注意力機制變體,其結(jié)構(gòu)如圖3 所示。針對卷積層的信息感受能力會受到卷積核大小的影響而無法高效捕捉到各個圖像中同類物體的具體特征(如某種動物的毛發(fā)紋理特征、人的肢體結(jié)構(gòu)特點等)這一問題,自注意力機制通過計算輸入特征圖中每一個位置在整個特征圖中的權(quán)重,使整個網(wǎng)絡(luò)可以更快注意到不同輸入圖像中各物體的空間和紋理特征,從而針對輸入圖像的不同部位分配不同的權(quán)重,達到增強生成圖像質(zhì)量的效果。鑒于在人臉素描生成任務(wù)中,輸入人臉照片和輸出的人臉素描圖像在結(jié)構(gòu)上具有高度的關(guān)聯(lián)性以及相似性,因此自注意力機制可以幫助神經(jīng)網(wǎng)絡(luò)更快地定位人臉細節(jié)豐富區(qū)域,并且更好地學(xué)習(xí)到各部分的統(tǒng)計特征,從而提高最終生成的人臉素描圖像的質(zhì)量。
圖3 自注意力機制模塊圖Fig. 3 Structure of self-attention mechanism
內(nèi)容-風(fēng)格損失函數(shù)(Content -Style loss Function)是由Gatys 等人[2]在2016 年提出的一種專門用于圖像風(fēng)格轉(zhuǎn)換問題上的損失函數(shù),其原理是使用預(yù)訓(xùn)練的神經(jīng)網(wǎng)絡(luò)分別對內(nèi)容圖像、風(fēng)格圖像和生成圖像進行特征提取,通過計算提取到的特征圖像之間的差異來衡量生成圖像在內(nèi)容和風(fēng)格上與對應(yīng)圖像的差異。內(nèi)容-風(fēng)格損失函數(shù)由內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)兩部分組成。其中,內(nèi)容損失函數(shù)計算公式可表示為:
其中,g為生成圖像;c為內(nèi)容圖像;Fl和Pl分別為預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)第l層提取的生成圖像g和內(nèi)容圖像c的特征圖矩陣。
風(fēng)格損失函數(shù)計算公式可表示為:
其中,g為生成圖像;s為風(fēng)格圖像;Gl和Al分別為生成圖像和風(fēng)格圖像在預(yù)訓(xùn)練神經(jīng)網(wǎng)絡(luò)第l層的風(fēng)格特征矩陣;N和M為第l層風(fēng)格特征矩陣的行數(shù)和列數(shù)。Gatys 等人[2]將圖像在神經(jīng)網(wǎng)絡(luò)第l層的風(fēng)格特征矩陣定義為該層特征圖的格拉姆矩陣(Gram matrix),其計算公式可表示為:
最終,內(nèi)容-風(fēng)格損失函數(shù)計算公式可表示為:
其中,a和b分別為內(nèi)容損失函數(shù)和風(fēng)格損失函數(shù)的權(quán)重。
鑒于自注意力機制能更好地發(fā)現(xiàn)圖像中大范圍特征間的依賴關(guān)系,所以,在空間尺寸越大的特征圖上、自注意力機制發(fā)揮的作用也就越大,但與此同時更大尺寸的特征圖也會顯著增加模型訓(xùn)練的時間成本。因此本文將自注意力機制添加到生成器網(wǎng)絡(luò)中最后3 層之間,以達到在增強生成圖像質(zhì)量目的同時盡量減小網(wǎng)絡(luò)訓(xùn)練成本。文中提出的改進Pix2Pix 模型的生成器網(wǎng)絡(luò)模型如圖4 所示。
圖4 基于自注意力機制的Pix2Pix 生成器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 4 Network structure of Pix2Pix generator based on self-attention mechanism
生成器的編碼器卷積層參數(shù)設(shè)置均為:卷積核尺寸為4×4,步長為2,特征圖邊緣填充為1,填充方式為鏡像填充,激活函數(shù)使用LeakyRelu,其參數(shù)設(shè)置為0.2;解碼器反卷積層參數(shù)設(shè)置為:卷積核大小為4×4,步長為2,特征圖邊緣填充為1,填充方式為鏡像填充,激活函數(shù)使用ReLu函數(shù),前兩層卷積網(wǎng)絡(luò)使用Dropout,概率設(shè)置為0.5。鑒別器網(wǎng)絡(luò)模型如圖5 所示。
圖5 基于自注意力機制的Pix2Pix 鑒別器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 5 Network structure of Pix2Pix discriminator based on selfattention mechanism
鑒別器卷積層參數(shù)設(shè)置為:卷積核尺寸為4×4,特征圖邊緣填充為1,填充方式為鏡像填充,前三層卷積核步長為2,后兩層卷積步長為1。所有卷積層都采用LeakyReLu為激活函數(shù),其參數(shù)設(shè)置為0.2。
由于在圖像風(fēng)格轉(zhuǎn)換問題中,生成圖像的風(fēng)格主要依賴于風(fēng)格圖像的對比度信息,因此生成器在生成圖像時應(yīng)該盡量屏蔽內(nèi)容圖像中的對比度信息,而批歸一化(Batch Normalization)[22]并不能很好地消除來自內(nèi)容圖像中的對比度信息,因此在改進的Pix2Pix 模型的生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)中,使用實例歸一化(Instance Normalization)[23]代替了批歸一化。對于輸入的一組特征圖,IN 對每一特征圖的每一信道進行歸一化處理,從而更好地消除了每個特征圖中包含的特殊信息,減少了圖像生成過程中的干擾,并加快了生成器網(wǎng)絡(luò)的收斂過程。
改進Pix2Pix 模型的損失函數(shù)的具體表達式為:
其中,lcGAN(G,D)為Pix2Pix 模型中生成器和鑒別器的對抗損失函數(shù);lL1為Pix2Pix 生成器生成圖像和手繪人臉圖像的L1損失;lcs為內(nèi)容-風(fēng)格損失函數(shù),這里a設(shè)為1,b設(shè)為0.1;α和β分別為控制損失函數(shù)和內(nèi)容風(fēng)格損失函數(shù)的權(quán)重,α設(shè)為100,β設(shè)為1。在計算內(nèi)容損失函數(shù)lcontent(g,c)時,本文選擇VGG16 網(wǎng)絡(luò)第二層中的第二個卷積層來提取生成素描和人臉照片的內(nèi)容特征;而在計算風(fēng)格損失函數(shù)lstyle(g,s)時,則選擇VGG16 網(wǎng)絡(luò)中第四和第五層中的第一個卷積層來提取生成素描和對應(yīng)手繪素描的風(fēng)格特征。
GAN 的訓(xùn)練是一個生成器和鑒別器互相博弈的過程,在這個過程中生成器試圖生成與實際數(shù)據(jù)盡量相似的數(shù)據(jù)騙過鑒別器,而鑒別器則試圖區(qū)分輸入數(shù)據(jù)是否是真實數(shù)據(jù),理論上,隨著訓(xùn)練的進行,二者性能逐漸提高,并最終達到一種穩(wěn)定狀態(tài)。但在實際訓(xùn)練過程中,由于生成器和鑒別器網(wǎng)絡(luò)訓(xùn)練難度不同、所采用的優(yōu)化算法、學(xué)習(xí)率設(shè)置和數(shù)據(jù)集等因素影響,很難使2 個網(wǎng)絡(luò)同時收斂或達到納什均衡,造成生成器部分或完全崩潰,以及某一模型收斂過快導(dǎo)致另一模型梯度消失等問題。因此,為了使GAN 訓(xùn)練過程更穩(wěn)定,文章采用的策略可做闡釋論述如下。
(1)在生成器網(wǎng)絡(luò)和鑒別器網(wǎng)絡(luò)中使用譜歸一化(Spectral Normalization)。根據(jù)Ulyanov 等人[23]的研究,在生成器和鑒別器網(wǎng)絡(luò)中使用譜歸一化可以約束每層網(wǎng)絡(luò)參數(shù)的譜范數(shù),從而使網(wǎng)絡(luò)參數(shù)在更新過程中變化更平滑,整個訓(xùn)練過程更加穩(wěn)定。
(2)生成器和鑒別器采用不同的初始學(xué)習(xí)率及學(xué)習(xí)率調(diào)整策略。由于鑒別器的訓(xùn)練難度比生成器低,導(dǎo)致其損失很快收斂到一個非常低的值,無法為生成器梯度更新提供有效信息。因此,為了使生成器和鑒別器能夠在訓(xùn)練過程中保持一種較為平衡的狀態(tài),讓兩者能夠互相學(xué)習(xí),在訓(xùn)練開始時分別為兩者設(shè)置不同的學(xué)習(xí)率,并在隨后的訓(xùn)練過程中根據(jù)具體訓(xùn)練效果采用不同的學(xué)習(xí)率更新策略。
實驗的硬件平臺為QEMU Virtual CPU Version 2.5+,使用NVIDIA Tesla V100-SXM2-32 GB 進行加速處理。數(shù)據(jù)集使用CUFS(CUHK Face Sketch Database),該數(shù)據(jù)集共包含606 對人臉-素描圖像。實驗選取CUFS 數(shù)據(jù)集中594 張素描人臉圖像作為訓(xùn)練數(shù)據(jù)集;選取CUFS 數(shù)據(jù)集中12 張學(xué)生人臉圖像作為測試圖像;將所有訓(xùn)練圖像和測試圖像的大小縮放為256*256 像素,并通過以50%的概率對人臉圖像-素描對進行水平翻轉(zhuǎn)和亮度隨機調(diào)整的方式對數(shù)據(jù)集進行增強。生成器和鑒別器的優(yōu)化器采用Adam 算法,用于計算梯度以及梯度平方的運行平均值的參數(shù)beta1 和beta2 分別設(shè)置為0.5 和0.99,生成器的初始學(xué)習(xí)率設(shè)置為1e-3,鑒別器的初始學(xué)習(xí)率設(shè)置為1e-4。訓(xùn)練過程中,當生成器的損失函數(shù)無法下降、并超過10 個epoch時,其學(xué)習(xí)率下降10 倍;當鑒別器的損失函數(shù)無法下降、并超過30 個epoch時,其學(xué)習(xí)率下降10 倍。訓(xùn)練共進行200 個epoch,訓(xùn)練結(jié)束時生成器的學(xué)習(xí)率為1e-8,鑒別器的學(xué)習(xí)率為1e-8。
為更好地展示改進Pix2Pix 模型在人臉素描圖像生成任務(wù)上的有效性,本文將改進模型的生成人臉素描圖像與Pix2Pix 模型和CycleGAN 模型生成的人臉素描圖像進行對比,上述所有模型在相同實驗平臺上訓(xùn)練了200 個epoch。
為驗證本文提出的改進GAN 訓(xùn)練方法的有效性,將原Pix2Pix、分別采用譜歸一化和不同學(xué)習(xí)率更新策略的Pix2Pix 以及采用本文訓(xùn)練方法的Pix2Pix 在實驗數(shù)據(jù)集下分別訓(xùn)練150 個epoch,并觀察在每個epoch后生成器損失函數(shù)值變化情況。最終結(jié)果如圖6 所示。
圖6 原Pix2Pix 和采用不同訓(xùn)練方法后的Pix2Pix 在150 個epoch內(nèi)損失函數(shù)變化對比Fig. 6 Comparison of loss function changes of original Pix2Pix and Pix2Pix after using different training methods within 150 epochs
從圖6 可以看出,采用譜歸一化和不同學(xué)習(xí)率更新策略的Pix2Pix 相比于原Pix2Pix 生成器在訓(xùn)練過程中損失函數(shù)下降更快,但下降過程中仍然波動較大,而采用本文訓(xùn)練方法的Pix2Pix 生成器在訓(xùn)練過程中不僅損失函數(shù)下降相比原Pix2Pix 更快,下降過程中其波動也比其它3 種更小,從而證明本文改進GAN 訓(xùn)練方法的有效性。
為更好地驗證文中改進Pix2Pix 模型在人臉素描生成任務(wù)中的有效性,除將其與原Pix2Pix 模型進行對比外,還選擇了GycleGAN 模型與其進行對比分析。GycleGAN 模型作為圖像翻譯領(lǐng)域中另一經(jīng)典模型,因其訓(xùn)練時不需要成對數(shù)據(jù)集、易于實現(xiàn)以及生成圖像質(zhì)量高等特點,一經(jīng)提出便受到了廣泛關(guān)注,因此選擇將其作為參照對象可以使參照實驗結(jié)果更具有代表性。
改進模型生成圖像與其它模型生成圖像對比如圖7 所示,通過對比發(fā)現(xiàn),文中提出的改進Pix2Pix模型生成的人臉素描比Pix2Pix 和CycleGAN 生成的圖像人臉輪廓更清晰,細節(jié)部分保留更完整,表情更明顯,噪點更少,同時在整體觀感上更接近人工繪制素描。
圖7 生成圖像質(zhì)量對比Fig. 7 Generated images quality comparison
為量化評價改進Pix2Pix 模型生成的圖像質(zhì)量,本文采用特征相似度(Feature Similarity Index Measure,F(xiàn)SIM)作為系統(tǒng)評價指標[24]。相較于SSIM[25]和MS -SSIM[26],F(xiàn)SIM充分考慮了圖像視覺信息的冗余性和人類視覺系統(tǒng)主要通過低級特征來理解圖像的特點,并且更偏向于清晰度較高的圖像[27]。FSIM通過計算2 幅圖像的相位一致區(qū)域和圖像梯度幅值來評價這2 幅圖像在人類視覺系統(tǒng)中的相似度。其中,相位一致區(qū)域用來尋找一張數(shù)字圖像在人類視覺系統(tǒng)中會被認為是“信息量豐富”的區(qū)域,而圖像梯度幅值用來彌補相位一致性無法感知圖像局部對比度變化對圖像整體視覺效果產(chǎn)生影響的不足。在測試集上各模型所得FSIM分數(shù)見表1。由表1 數(shù)據(jù)可知,改進Pix2Pix 模型在測試集上得分為0.648 3,相比原Pix2Pix 模型和CycleGAN模型分別提高了0.020 6和0.027 6,從量化指標上進一步說明了文中提出的改進Pix2Pix 模型在人臉素描生成任務(wù)中的有效性。此外,相比于原Pix2Pix和CycleGAN 模型更低的分數(shù)方差也說明除生成的素描圖像質(zhì)量更好之外,改進Pix2Pix 模型在穩(wěn)定性上相較于其它對比模型也更有優(yōu)勢。
表1 各模型在測試集上FSIM 得分Tab.1 FSIM score of each model on the test set
本文通過消融實驗對比分析,進一步驗證了文中提出的改進Pix2Pix 模型中各改進點在人臉素描生成任務(wù)中的優(yōu)化效果,實驗結(jié)果見表2。從表2數(shù)據(jù)可知,原Pix2Pix 在測試集上FSIM得分為0.627 7,引入自注意力機制后,增強了原Pix2Pix 模型細節(jié)特征提取能力,將測試集上FSIM分數(shù)提高了0.108;而通過在生成器的損失函數(shù)中加入內(nèi)容-風(fēng)格損失函數(shù),亦提高了模型在測試集上的表現(xiàn)。綜合上述2 種改進后,相較于原Pix2Pix 模型,本文提出的改進Pix2Pix 模型有效地提高了生成的人臉素描圖像質(zhì)量,說明了改進Pix2Pix 模型在人臉素描生成任務(wù)中的有效性。
表2 消融實驗Tab.2 Ablation experiments
文中主要對Pix2Pix 的生成器模型進行改進,將自注意力機制用于生成器和鑒別器網(wǎng)絡(luò)中,減小無用信息對生成器的影響,加強生成器對輸入圖像中的人臉重要部分的學(xué)習(xí),提升生成的人臉素描圖像的質(zhì)量;并在生成器損失函數(shù)中引入了內(nèi)容-風(fēng)格損失函數(shù),使生成網(wǎng)絡(luò)在生成人臉素描圖像時既保留人臉照片中的細節(jié)部分,又能使圖像更接近素描風(fēng)格。同時,量化比較實驗表明,改進Pix2Pix 在測試集上的FSIM得分比Pix2Pix 和CycleGAN 分別高出了2%和2.7%,進一步說明了改進Pix2Pix 在人臉素描生成任務(wù)中的有效性。但與此同時,該改進模型依然存在一些問題,如對非正面拍攝的人臉圖像效果較差。因此今后的工作便是提出能針對各種不同場景下不同角度的人臉圖像也能生成質(zhì)量較高的人臉素描圖像的生成方法。