王毛毛
(西安郵電大學(xué),陜西 西安 710121)
圖像生成技術(shù)一直以來都是計算機視覺領(lǐng)域研究的熱點問題。近些年,生成式對抗網(wǎng)絡(luò)[1]Generative Adversarial Network,GAN)的出現(xiàn)使得圖像生成技術(shù)取得了突破性進展。GAN 圖像生成模型借鑒博弈論中零和博弈的思想,由生成器和判別器兩部分構(gòu)成,生成器生成擬合真實數(shù)據(jù)分布的樣本圖像,判別器鑒別生成圖像和真實圖像,二者交替訓(xùn)練,相互對抗學(xué)習(xí),最終達到納審平衡[2]即生成的樣本數(shù)據(jù)與真實的數(shù)據(jù)分布高度一致性。目前GAN 圖像生成模型已經(jīng)成功應(yīng)用到多個領(lǐng)域,圖像翻譯[3],圖像風(fēng)格遷移[4-5],圖像超分辨率重建[6]圖像修復(fù)[7],視頻預(yù)測[8]等。GAN 有著強大的建模能力,但仍然存在許多問題,訓(xùn)練過程不穩(wěn)定,容易發(fā)生梯度消失,梯度爆炸;生成圖像分辨率低,精細度不足;生成圖像不具備可控性等。
本文針對于LSGAN 生成的圖像幾何特征不明顯,局部區(qū)域細節(jié)信息不豐富的問題,受自我注意力生成對抗網(wǎng)絡(luò)(Self-Attention GAN,SAGAN)思想的啟發(fā),提出了結(jié)合自注意力機制的最小二乘生成式對抗網(wǎng)絡(luò)的圖像生成方法。創(chuàng)新之處在于將注意力圖同時應(yīng)用于生成器和判別器中,加強生成圖像的整體幾何特征,加強鄰域特征與遠距離特征的之間的關(guān)聯(lián)度,提升生成圖像的逼真度和精細度。
為了解決GAN 生成模型中訓(xùn)練不穩(wěn)定,存在梯度消失的問題,Xudong Mao 等人將GAN 模型中交叉熵損失函數(shù)替換成最小二乘損失函數(shù),并在判別器中使用最小平方損失函數(shù),提高了模型的收斂性和穩(wěn)定性。目標(biāo)函數(shù)如下:
公式(1),(2)中a,b 和c 是生成器為了判斷生成的數(shù)據(jù)是真實分布數(shù)據(jù)而定的值,一般情況下,a=-1,b=1,c=0。
注意力機制其原理是直接計算圖像中任意兩點之間的距離,從而獲得到圖像的全局幾何特征,這樣做可以較好的解決GAN 訓(xùn)練數(shù)據(jù)集種類較多時,難以捕捉圖像幾何特征的問題。
對于LSGAN 網(wǎng)絡(luò)模型生成的圖像精細度,逼真度不高,圖像的局部細節(jié)不明顯的問題。本文提出了一種基于結(jié)合注意力機制的最小二乘生成式對抗網(wǎng)絡(luò)模型(SA-GAN)。在LSGAN 的生成器和判別器中嵌入自注意力模塊。使得網(wǎng)絡(luò)在訓(xùn)練過程中能夠迅速定位圖像的重點生成區(qū)域,抑制噪聲對模型訓(xùn)練的干擾,提升網(wǎng)絡(luò)模型的訓(xùn)練效率,增強網(wǎng)絡(luò)模型的性能,提升圖像的精細度以及逼真度。
基于注意力機制的最小二乘生成式對抗網(wǎng)絡(luò)的判別器由四個卷積層,兩個自注意力模塊組成,卷積層的通道數(shù)從左到右依次增大,大小為4*4,步長為2。輸入圖像為(64*64*3),其中64*64 表示二維圖像,3 表示初始維度,圖片的數(shù)量是1,兩者組成一個四維張量(1,64,64,3),經(jīng)過第一次卷積運算后,提取圖像中的特征,將其送入自注意力模塊中,加強圖像的整體幾何特征提取,經(jīng)過兩次卷積運算后,輸出變成了(1,16,16,128),(1,8,8,256)。再次將提取的特征送入注意力模塊中加強圖像特征與特征之間的關(guān)系,進行第四次卷積運算后,將所得到的特征圖拉長為8192 維向量。
基于注意力機制的最小二乘生成式對抗網(wǎng)絡(luò)的生成器一共有6 個卷積層,兩個自注意力模塊,每一層卷積核為3*3,其中第一三四五卷積層的卷積核步長為2,第二六層卷積層步長為1。從左到右卷積層的通道數(shù)逐步減少分別是256,256,128,64,32,3。初始時,隨機噪聲100 映射到判別器傳遞的8192 維特征向量當(dāng)中,通過reshape 函數(shù)處理后作為轉(zhuǎn)置卷積的輸入即 (4*4*512) 通過第兩次卷積運算后,輸出為(8*8*256),將特征向量送入注意力網(wǎng)絡(luò)當(dāng)中得到注意力特征圖,加強提取圖像的特征,在將輸出做3 次卷積運算得到(32*32*64),將其送入到注意力模塊中再次加強遠距離特征之間聯(lián)系,把握圖像整體的幾何結(jié)構(gòu),最后在經(jīng)過3 通道卷積最終得到一個64*64*3 的圖像。
本文實驗在Cartoon 動漫人物頭像數(shù)據(jù)集上進行,實驗在Intel(R) Xeon(R) CPU E5-262 v4@ 2.10GHz 處理器,輸入模型的圖像像素是64×64,生成器與判別器的初始學(xué)習(xí)率都為0.0002,圖像批量大小為64。
如圖1 所示,SA-LSGAN 模型訓(xùn)練后生成的卡通圖像相比較于GAN,WGAN,LSGAN 網(wǎng)絡(luò)模型生成的圖像,眼睛、鼻子、嘴巴、頭發(fā)等特征的紋理信息更加豐富,五官的空間位置整體分布,更加合理。證實了將注意力機制嵌入最小二乘生成式對抗網(wǎng)絡(luò)模型當(dāng)中確實能夠加強網(wǎng)絡(luò)模型對于圖像幾何特征捕捉能力,增強圖像局部細節(jié)信息。
圖1 多種模型生成樣本數(shù)據(jù)對比圖
本實驗采用FID 圖像質(zhì)量評價指標(biāo)對圖像質(zhì)量進行評估。它是通過計算真實圖像與生成圖像特征向量之間的距離的遠近來衡量圖像質(zhì)量的高低。
如表1 所示, 本文提出的SA-LSGAN 網(wǎng)絡(luò)模型相比較于LSGAN 網(wǎng)絡(luò)模型FID 值在Carton 數(shù)據(jù)集上提升了0.7。上述數(shù)據(jù)表明,本論文提出的方法確實能夠增強圖像的整體幾何特征,加強圖像局部區(qū)域細節(jié)信息從整體上提升生成圖像的質(zhì)量。
本文提出的結(jié)合自注意力機制的最小二乘生成對抗網(wǎng)絡(luò)(SA-EGAN)模型,能夠在一定程度上增強圖像的質(zhì)量,但是本文只是在和carton 數(shù)據(jù)集上做出驗證,并不能說明模型的魯棒性。