• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      生成式對(duì)抗網(wǎng)絡(luò)及其在圖像生成中的研究進(jìn)展

      2021-10-12 08:49:36馬永杰徐小冬謝藝蓉
      計(jì)算機(jī)與生活 2021年10期
      關(guān)鍵詞:樣本函數(shù)圖像

      馬永杰,徐小冬,張 茹,謝藝蓉,陳 宏

      西北師范大學(xué) 物理與電子工程學(xué)院,蘭州 730070

      隨著人工智能(artificial intelligence,AI)的快速發(fā)展,與其相關(guān)的一些技術(shù)也相繼被提出。機(jī)器學(xué)習(xí)作為實(shí)現(xiàn)人工智能的主要方法,根據(jù)數(shù)據(jù)集是否有標(biāo)簽,可以分為監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)與半監(jiān)督學(xué)習(xí)[1]。深度學(xué)習(xí)作為實(shí)現(xiàn)機(jī)器學(xué)習(xí)的一種方法,由Hinton 等人[2]于2006 年首次提出,它是一種包含了多個(gè)隱藏層和多個(gè)感知器的網(wǎng)絡(luò)結(jié)構(gòu),可以對(duì)物體的屬性和特征進(jìn)行更深層次的描述。在無監(jiān)督學(xué)習(xí)中,深度生成模型(deep generative models)和自編碼器(auto-encoder)是兩個(gè)大的方向。在神經(jīng)網(wǎng)絡(luò)興起之前,學(xué)術(shù)界對(duì)生成模型的探究主要集中在變分自動(dòng)編碼器(variational auto-encoder,VAE)、受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)、PixelRNN(pixel recurrent neural networks)、深度玻爾茲曼機(jī)(deep Boltzmann machine,DBM)等,這些生成模型在圖像生成領(lǐng)域雖然取得了一定的成績(jī),但由于目標(biāo)函數(shù)計(jì)算復(fù)雜度較高、數(shù)據(jù)建模難度過大,一直存在一定的局限性。為了解決這一問題,Goodfellow 等人創(chuàng)造性地應(yīng)用博弈論的思想,提出了生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)[3]。這個(gè)由一個(gè)生成圖像的生成器G與一個(gè)檢測(cè)圖像真?zhèn)蔚臋z測(cè)器D組成的相互對(duì)抗的網(wǎng)絡(luò),在學(xué)術(shù)界引起了巨大反響。隨后的幾年中,越來越多的學(xué)者深入其中,將GAN 的思想及其變種快速滲透到深度學(xué)習(xí)的眾多領(lǐng)域,誕生了很多新的研究方向,如語音處理[4]、智能交通[5]、安全隱私[6]等,并取得了良好的效果。

      本文闡述了生成式對(duì)抗網(wǎng)絡(luò)的誕生契機(jī),介紹了其基本原理和優(yōu)缺點(diǎn),分類總結(jié)了近年來誕生的一些GAN 的衍生模型;其次詳細(xì)介紹了GAN 在圖像生成方面的應(yīng)用;最后指出了該研究領(lǐng)域目前面臨的挑戰(zhàn)并展望了未來的研究方向。

      1 生成對(duì)抗網(wǎng)絡(luò)原理

      1.1 GAN 的基本原理

      生成式對(duì)抗網(wǎng)絡(luò)(GAN)[3]的模型結(jié)構(gòu)如圖1 所示,該網(wǎng)絡(luò)主要由生成器G(generator)與判別器D(discriminator)兩部分組成。G網(wǎng)絡(luò)主要負(fù)責(zé)產(chǎn)生一個(gè)分布盡量接近真實(shí)的樣本,盡可能地去欺騙D網(wǎng)絡(luò);而D網(wǎng)絡(luò)主要負(fù)責(zé)識(shí)別進(jìn)入判別器的樣本數(shù)據(jù),盡可能地分辨出真實(shí)樣本和虛假樣本。生成模型G與判別模型D是完全獨(dú)立的,它們互相對(duì)抗,其優(yōu)化過程就是獨(dú)立交替迭代訓(xùn)練。

      Fig.1 Network structure of GAN圖1 GAN 的模型結(jié)構(gòu)

      對(duì)于整個(gè)網(wǎng)絡(luò)而言,其損失函數(shù)可以寫成:

      其中,Pz(z)表示輸入噪聲變量,Pg(x)表示生成器在數(shù)據(jù)x上的分布,Pdata(x)表示判別器在數(shù)據(jù)x上的分布。將到數(shù)據(jù)空間的映射表示為G(z),也寫成G(z;θg),其中G是參數(shù)為θg的多層感知機(jī)表示的微分函數(shù)。D(x)也寫成D(x;θd),表示x來自數(shù)據(jù)而非Pg的概率,即真實(shí)樣本。通過不斷訓(xùn)練,G可以生成較為逼真的樣本,而D則可以較為準(zhǔn)確地分辨出樣本的真實(shí)性。當(dāng)Pg(x)=Pdata(x)時(shí),D判斷出該樣本真假的概率為0.5,此時(shí)生成器便可生成足夠逼真的樣本[7]。

      1.2 GAN 的優(yōu)勢(shì)與不足

      GAN 的優(yōu)勢(shì):(1)GAN 模型僅使用反向傳播,不再需要馬爾可夫鏈重復(fù)采樣,避免了難以計(jì)算的概率的難題;(2)GAN 不需要在訓(xùn)練過程中推斷隱變量;(3)對(duì)抗網(wǎng)絡(luò)可以表現(xiàn)出非常清晰的分布。

      GAN 存在的不足:(1)GAN 模型尋求納什均衡的過程導(dǎo)致它無法進(jìn)行穩(wěn)定的訓(xùn)練;(2)GAN 存在模式崩潰(collapse mode)現(xiàn)象;(3)GAN 存在梯度消失問題,最終導(dǎo)致神經(jīng)網(wǎng)絡(luò)收斂很慢甚至不收斂;(4)評(píng)價(jià)生成質(zhì)量沒有統(tǒng)一有效的標(biāo)準(zhǔn)。

      2 GAN 的優(yōu)化和衍生模型

      GAN 在不斷的發(fā)展變化中,誕生了一系列的衍生模型,這些衍生模型分別對(duì)應(yīng)著不同的計(jì)算性能和應(yīng)用需求。業(yè)內(nèi)習(xí)慣將其分為基于結(jié)構(gòu)改變的衍生模型和基于損失函數(shù)變體的衍生模型兩大類[8],如表1 所示。其中,基于結(jié)構(gòu)改變的衍生模型主要涵蓋了條件生成式對(duì)抗網(wǎng)絡(luò)、深度卷積生成式對(duì)抗網(wǎng)絡(luò)、基于能量的生成式對(duì)抗網(wǎng)絡(luò)、組合生成式對(duì)抗網(wǎng)絡(luò)、自我注意生成式對(duì)抗網(wǎng)絡(luò)、基于樣式的生成式對(duì)抗網(wǎng)絡(luò)等幾大類;基于損失函數(shù)變體的衍生模型主要涵蓋了最小二乘生成式對(duì)抗網(wǎng)絡(luò)、Wasserstein 生成式對(duì)抗網(wǎng)絡(luò)等幾大類。

      Table 1 Classification of derivative models of GAN表1 GAN 的衍生模型分類

      2.1 基于結(jié)構(gòu)改變的衍生模型

      2.1.1 條件生成式對(duì)抗網(wǎng)絡(luò)

      (1)CGAN

      為了解決原始GAN 對(duì)于生成器幾乎沒有任何約束過于自由的問題,Mirza 等[9]在它的基礎(chǔ)上施加約束條件y,提出了條件生成式對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial networks,CGAN),使網(wǎng)絡(luò)朝著既定的方向生成樣本。

      CGAN 的構(gòu)架如圖2 所示。在CGAN 的訓(xùn)練過程中,通過向G和D都添加約束項(xiàng)y(可以是任何類型的輔助信息)來指導(dǎo)數(shù)據(jù)的生成。但CGAN 并沒有解決訓(xùn)練不穩(wěn)定的問題。CGAN 主要應(yīng)用在圖像增強(qiáng)方面,如圖像生成、圖像補(bǔ)全[10]。

      Fig.2 CGAN model architecture diagram圖2 CGAN 模型架構(gòu)圖

      (2)InfoGAN

      在原始GAN 中,生成器G輸入的一般是一段連續(xù)單一的隨機(jī)噪聲z,生成器G會(huì)將z進(jìn)行高度耦合(entangled)處理。這種情況下,無法具體指定G生成的樣本。對(duì)此,Chen等[11]提出基于信息最大化的可解釋的特征學(xué)習(xí)深層對(duì)抗網(wǎng)絡(luò)(information maximizing generative adversarial nets,InfoGAN)。InfoGAN 在GAN基礎(chǔ)上增加了一個(gè)隱含碼c(latent code),通過控制相應(yīng)維度的變量來控制生成圖像的屬性。其模型結(jié)構(gòu)如圖3 所示。

      Fig.3 InfoGAN model architecture diagram圖3 InfoGAN 模型架構(gòu)圖

      InfoGAN 可以讓網(wǎng)絡(luò)學(xué)習(xí)到可解釋的特征,生成指定的圖像,但訓(xùn)練過程中需要計(jì)算數(shù)據(jù)間的互信息,這增加了訓(xùn)練復(fù)雜度。

      (3)其他條件生成式對(duì)抗網(wǎng)絡(luò)

      助分類器生成對(duì)抗網(wǎng)絡(luò)[10]是CGAN 的變體,也是通過添加類別標(biāo)簽來實(shí)現(xiàn)。IcGAN[12](invertible conditional generative adversarial networks)將編碼器與CGAN 結(jié)合,通過評(píng)估編碼器以逆轉(zhuǎn)CGAN 的映射。TACGAN(text conditioned auxiliary classifier generative adversarial networks)[13]創(chuàng)造性地在生成器G的輸入中用文本條件充當(dāng)類別標(biāo)簽,使網(wǎng)絡(luò)能夠根據(jù)文本描述生成指定圖像,并進(jìn)行圖像分類。SGAN(semi-supervised generative adversarial networks)[14]是使用半監(jiān)督訓(xùn)練的生成對(duì)抗網(wǎng)絡(luò),它在生成器G的輸入中加入文本條件進(jìn)行逼真的圖像合成,判別器輸出相應(yīng)的類標(biāo)簽。CatGAN(categorical generative adversarial networks)[15]使用無監(jiān)督和半監(jiān)督來訓(xùn)練網(wǎng)絡(luò),提出一種從未標(biāo)記或部分標(biāo)記數(shù)據(jù)中學(xué)習(xí)判別分類器的方法。

      Fig.4 DCGAN model architecture diagram圖4 DCGAN 模型架構(gòu)圖

      2.1.2 深度卷積生成式對(duì)抗網(wǎng)絡(luò)DCGAN

      2015 年,Radford 等[16]創(chuàng)造性地將GAN 與CNN結(jié)合,提出了深度卷積生成對(duì)抗網(wǎng)絡(luò)(deep convolutional generative adversarial networks,DCGAN)。其在圖像生成方面具有較好的效果,網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4 所示。

      DCGAN 的模型結(jié)構(gòu)有以下特點(diǎn):(1)用卷積層替代池化層[17];(2)取消全連接層,直接使用卷積層連接G和D的輸入層和輸出層;(3)在網(wǎng)絡(luò)結(jié)構(gòu)中,除了G的輸出層及其對(duì)應(yīng)的D的輸入層外,其他層上都采用了批量歸一化;(4)G的輸出層使用Tanh 激活函數(shù),其余層均使用ReLU(rectified linear unit)函數(shù)激活;(5)D的所有層使用LeakyReLU 函數(shù)激活。

      DCGAN 使人們將更多的注意力放在應(yīng)用上,這使DCGAN 能夠應(yīng)用到圖像生成、風(fēng)格遷移和監(jiān)督任務(wù)等多個(gè)領(lǐng)域[7]。但DCGAN 仍然存在某些形式的模型不穩(wěn)定性,隨著訓(xùn)練時(shí)長(zhǎng)的增加,它有時(shí)會(huì)使一部分濾波器陷于單一振蕩模式。為此,ImprovedDCGAN[18]提出了一種新的生成器的目標(biāo)函數(shù),以批量圖像的特征替代單張圖像作為匹配標(biāo)準(zhǔn),這使模型在生成高分辨率圖像時(shí)表現(xiàn)得更好。

      2.1.3 基于能量的生成式對(duì)抗網(wǎng)絡(luò)

      Zhao 等[19]提出了一種基于能量的生成對(duì)抗網(wǎng)絡(luò)(energy based generative adversarial networks,EBGAN),模型結(jié)構(gòu)如圖5 所示。EBGAN 將判別器視為一個(gè)能量函數(shù),由一個(gè)自編碼器(auto-encoder)構(gòu)成,與原始GAN 相比,不再依靠輸入圖像分布的差異來判斷真假,而是通過重構(gòu)圖像質(zhì)量的高低來判斷。EBGAN訓(xùn)練穩(wěn)定性更好,生成圖像分辨率更高,但仍存在收斂速度慢的缺點(diǎn)。

      Fig.5 EBGAN model structure圖5 EBGAN 模型結(jié)構(gòu)

      2.1.4 組合生成式對(duì)抗網(wǎng)絡(luò)

      為了解決一些過于復(fù)雜的問題,提出一種先將復(fù)雜問題拆分,然后逐個(gè)進(jìn)行訓(xùn)練的方法。該方法通過平移、堆疊或組合多個(gè)GAN 來實(shí)現(xiàn)。

      (1)LAPGAN

      為了生成高質(zhì)量自然圖像樣本,F(xiàn)acebook 等在CGAN 的基礎(chǔ)上進(jìn)行了改進(jìn),提出LAPGAN(Laplacian generative adversarial networks)[20]。它是第一個(gè)使用拉普拉斯金字塔通過迭代方法從粗糙到精細(xì)的方式生成圖像的GAN。LAPGAN 使用高斯金字塔[21]進(jìn)行下采樣,拉普拉斯金字塔[22]進(jìn)行上采樣,用CGAN去實(shí)現(xiàn)各層之間的采樣,然后將這些CGAN 進(jìn)行串聯(lián),通過連續(xù)堆疊CGAN 來逐級(jí)生成更清晰的圖像,模型的訓(xùn)練過程如圖6 所示。LAPGAN 增強(qiáng)了GAN的學(xué)習(xí)能力,并且這種逐級(jí)獨(dú)立訓(xùn)練的方式提高了網(wǎng)絡(luò)記憶輸入樣本的難度。

      (2)StackGAN

      通過文本描述合成高質(zhì)量圖像是計(jì)算機(jī)視覺的一個(gè)難題,為此,Zhang等[23]提出堆積生成式對(duì)抗網(wǎng)絡(luò)(stacked generative adversarial networks,StackGAN)模型,其本質(zhì)是兩層CGAN 的組合。它采用兩階段的生成方式:第一階段根據(jù)給定的文本描繪出圖像的基本輪廓和顏色,生成低分辨率圖像;第二階段,將第一階段生成的低分辨率圖像和文字描述作為輸入,校正第一階段結(jié)果中的缺陷,并在此基礎(chǔ)上添加一些細(xì)節(jié),生成高分辨率圖像。StackGAN 模型很好地穩(wěn)定了CGAN 的訓(xùn)練,在生成基于文本描述的逼真的圖像方面取得了顯著改進(jìn)。

      StackGAN 與LAPGAN 的相似之處在于,都是通過先生成低分辨率圖像,然后不斷生成高分辨率圖像。StackGAN++(StackGAN-v1 and StackGAN-v2)[24]也是用于文本生成高分辨率圖像。文獻(xiàn)[25]引入了場(chǎng)景圖的概念,相比于StackGAN 和StackGAN++,它可以很好地處理更復(fù)雜的文本。

      (3)Cycle-GAN

      Zhu 等[26]于2017 年提出循環(huán)一致生成網(wǎng)絡(luò)(cycle generative adversarial networks,Cycle-GAN)。Cycle-GAN 實(shí)現(xiàn)了圖像從源域X到目標(biāo)域Y的轉(zhuǎn)換,且不需要成對(duì)的圖片作為訓(xùn)練數(shù)據(jù)。Cycle-GAN 的模型為環(huán)形結(jié)構(gòu),由兩個(gè)生成器和兩個(gè)判別器組成。X域的圖像由生成器G轉(zhuǎn)換成Y域的圖像,再通過生成器F將Y域的圖像重構(gòu)回X域的原圖像;Y域的圖像由生成器F轉(zhuǎn)換成X域的圖像,再通過生成器G將X域的圖像重構(gòu)回Y域的原圖像。由判別器Dx和Dy,判定圖像是否完成風(fēng)格遷移。

      Cycle-GAN 能學(xué)習(xí)到藝術(shù)作品和真實(shí)照片之間的映射關(guān)系和變換方法。它的缺點(diǎn)是雖然其循環(huán)機(jī)制能保證成像不會(huì)偏離太遠(yuǎn),但是循環(huán)轉(zhuǎn)換中會(huì)造成一定的信息丟失,使得生成圖像質(zhì)量不高。

      (4)其他組合生成式對(duì)抗網(wǎng)絡(luò)

      pix2pix[27]模型解決了有Pair對(duì)數(shù)據(jù)的圖像翻譯問題;與pix2pix 模型相比,Cycle-GAN 利用非成對(duì)數(shù)據(jù)也能進(jìn)行訓(xùn)練(unpaired data),而pix2pix 模型必須要求成對(duì)數(shù)據(jù)(paired data),需要搜集大量的一對(duì)一成對(duì)圖像。BiCycle-GAN(bicycle generative adversarial networks)[28]是pix2pix 的升級(jí)版,文章提出CLR-GAN(conditional latent regressor generative adversarial networks)結(jié)合VAE-GAN,在圖像變換生成的基礎(chǔ)上實(shí)現(xiàn)了多類風(fēng)格的生成。StarGAN(star generative adversarial networks)[29]是將多領(lǐng)域轉(zhuǎn)換用統(tǒng)一框架實(shí)現(xiàn)的算法。Bicycle-GAN 和StarGAN 均參考了CGAN 的想法,但Bicycle-GAN 的輸入并不是特定的,而是隨機(jī)變量。Recycle-GAN(recycle generative adversarial networks)[30]則是通過在Cycle-GAN 上添加時(shí)間約束的一種新型無監(jiān)督視頻轉(zhuǎn)換方法。該方法可以實(shí)現(xiàn)在保持目標(biāo)域風(fēng)格不變的基礎(chǔ)上,將一個(gè)域的連續(xù)內(nèi)容遷移到另一個(gè)域中。這種內(nèi)容轉(zhuǎn)換和風(fēng)格保存的概念更方便人們理解。

      Fig.6 Learning process of LAPGAN model圖6 LAPGAN 模型學(xué)習(xí)過程

      2.1.5 自我注意生成式對(duì)抗網(wǎng)絡(luò)

      使用ImageNet 結(jié)構(gòu)訓(xùn)練的GAN 模型,在處理包含大量紋理(如毛發(fā))的圖像時(shí)表現(xiàn)優(yōu)異,但是在結(jié)構(gòu)類型上的表現(xiàn)差強(qiáng)人意。為此,研究者提出應(yīng)用注意力(attention)機(jī)制,使得被指定細(xì)化的區(qū)域擁有更大的感受視野。

      (1)SAGAN

      Zhang等[31]與GAN 的鼻祖Goodfellow 等搭建了一個(gè)提供注意力驅(qū)動(dòng)、具有遠(yuǎn)程依賴性的GAN 的變體,稱為自我注意生成對(duì)抗網(wǎng)絡(luò)(self-attention generative adversarial networks,SAGAN)。它將attention model中的self-attention 和原始GAN 結(jié)合在一起,實(shí)現(xiàn)應(yīng)用低分辨率圖像中的所有特征點(diǎn)來生成高分辨率的細(xì)節(jié)特征,并在訓(xùn)練過程中利用光譜歸一化來提升生成器的訓(xùn)練效果。SAGAN 的生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)都采用注意力機(jī)制。

      SAGAN 能夠很好地進(jìn)行注意力驅(qū)動(dòng)的遠(yuǎn)程依賴關(guān)系建模,而且在生成圖像時(shí)也可以協(xié)調(diào)各個(gè)位置與遠(yuǎn)端細(xì)節(jié)之間的關(guān)系,SAGAN 的判別器還可以更準(zhǔn)確地實(shí)現(xiàn)對(duì)全局圖像結(jié)構(gòu)的復(fù)雜幾何約束。

      (2)BigGAN

      為了解決從復(fù)雜的數(shù)據(jù)集成功生成高分辨率、多樣的樣本的難題,2018年誕生了BigGAN[32]。BigGAN是在SAGAN 的基礎(chǔ)上,用一組TPU,將精度作出了跨越式提升。BigGAN 的貢獻(xiàn)主要有:①在卷積層的設(shè)計(jì)上使用了更大的通道數(shù)(channel),使用了很大的batchsize,可以使GAN 獲得最大的性能提升;②通過使用截?cái)嗉记桑╰runcation trick),可以使模型性能得到提升,使訓(xùn)練更加平穩(wěn),但是需要在樣本多樣性和保真度之間進(jìn)行平衡;③通過現(xiàn)存的和其他新穎的各種技術(shù)的集合,可以保證訓(xùn)練的平穩(wěn)性,但是精度也會(huì)隨之下降,需要在性能和訓(xùn)練平穩(wěn)性之間進(jìn)行平衡。BigGAN 也存在模型大、參數(shù)多、訓(xùn)練成本高的缺點(diǎn)。

      BiGAN(bidirectional generative adversarial networks)[33]使用對(duì)抗的方式聯(lián)合訓(xùn)練了一個(gè)生成網(wǎng)絡(luò)與一個(gè)推斷網(wǎng)絡(luò),對(duì)抗博弈在生成網(wǎng)絡(luò)G,推斷網(wǎng)絡(luò)E與判別網(wǎng)絡(luò)D之間展開。BigBiGAN(big bidirectional generative adversarial networks)[34]是基于BigGAN打造的,是BiGAN與BigGAN結(jié)合的產(chǎn)物。BigBiGAN使用了BigGAN 的生成網(wǎng)絡(luò)G和判別網(wǎng)絡(luò)D,并加入BiGAN 推斷網(wǎng)絡(luò)E的思想。

      2.1.6 基于樣式的生成式對(duì)抗網(wǎng)絡(luò)

      基于樣式的生成式對(duì)抗網(wǎng)絡(luò)(style-based generative adversarial networks,StyleGAN)[35]由英偉達(dá)的研究團(tuán)隊(duì)提出。StyleGAN 為生成式對(duì)抗網(wǎng)絡(luò)提供了一種替代的生成器體系結(jié)構(gòu)。StyleGAN由兩部分組成:(1)一個(gè)全連接網(wǎng)絡(luò);(2)一個(gè)合成的網(wǎng)絡(luò)。StyleGAN通過創(chuàng)建一個(gè)生成器架構(gòu),來自動(dòng)學(xué)習(xí)生成圖像中的高級(jí)屬性(如人臉對(duì)應(yīng)的年齡、身份等)和隨機(jī)變量(人臉對(duì)應(yīng)的雀斑、發(fā)髻線等),該網(wǎng)絡(luò)的生成網(wǎng)絡(luò)不僅能自動(dòng)分離這些屬性,而且能用直觀的方式對(duì)生成的圖像進(jìn)行控制,其模型如圖7 所示。

      Fig.7 StyleGAN framework圖7 StyleGAN 框架

      2.2 基于損失函數(shù)變體的衍生模型

      2.2.1 最小二乘生成式對(duì)抗網(wǎng)絡(luò)

      為了進(jìn)一步改善GAN 訓(xùn)練過程中梯度消失的問題,Mao等[36]提出最小二乘生成對(duì)抗網(wǎng)絡(luò)(least squares generative adversarial networks,LSGAN)。LSGAN將GAN 的判別網(wǎng)絡(luò)中的交叉熵?fù)p失函數(shù)用最小二乘損失函數(shù)替換。最小二乘損失的優(yōu)點(diǎn)是允許生成器生成的樣本在欺騙判別器的前提下,將生成的圖像從距離決策邊界比較遠(yuǎn)拉向決策邊界,與原始GAN相比,LSGAN 生成了更高質(zhì)量的樣本,且訓(xùn)練過程更加穩(wěn)定。

      LSGAN 的缺陷在于它并沒有解決當(dāng)判別器足夠優(yōu)秀時(shí)生成器發(fā)生梯度彌散的問題,因?yàn)榘凑誛GAN的理論,最小二乘函數(shù)并不滿足lipschitz 連續(xù)性條件,它的導(dǎo)數(shù)沒有上界。

      2.2.2 Wasserstein 生成式對(duì)抗網(wǎng)絡(luò)

      (1)WGAN

      為了解決原始GAN 的訓(xùn)練梯度消失問題,Arjovsky 等提出了Wasserstein 生成式對(duì)抗網(wǎng)絡(luò)(Wasserstein generative adversarial networks,WGAN)[37]。WGAN 使用W(Wasserstein)距離代替JS(Jensen-Shannon)散度來計(jì)算生成樣本分布與真實(shí)樣本分布間的距離。WGAN 主要從損失函數(shù)的角度改進(jìn)GAN,在GAN 的基礎(chǔ)上,判別器最后一層去掉sigmoid 函數(shù),生成器和判別器的損失函數(shù)不再取對(duì)數(shù),將更新后的權(quán)重強(qiáng)制截?cái)嗟揭欢ǚ秶鷥?nèi),并且推薦使用SGD(stochastic gradient descent)、RMSprop(root mean square prop)等優(yōu)化器,而不使用如Adam(adaptive moment estimation)等基于動(dòng)量的優(yōu)化算法。WGAN 解決了GAN 訓(xùn)練不穩(wěn)定的問題,同時(shí)也從理論上解決了模式坍塌。該方法無需生成器和判別器在訓(xùn)練過程中保持平衡,且能夠生成種類更豐富的圖像,保證了生成樣本的多樣性。

      雖然WGAN 相對(duì)于GAN 有了很大的改進(jìn),但仍然存在訓(xùn)練困難、收斂速度慢的問題。在限制權(quán)值的過程中,如果設(shè)計(jì)不恰當(dāng)則會(huì)導(dǎo)致網(wǎng)絡(luò)發(fā)生梯度爆炸或梯度消失的現(xiàn)象。

      (2)BEGAN

      邊界平衡生成式對(duì)抗網(wǎng)絡(luò)(boundary equilibrium generative adversarial networks,BEGAN)[38]提出了一種新的生成器生成質(zhì)量評(píng)價(jià)方式。BEGAN 的主要思想是通過一個(gè)自動(dòng)編碼器作為判別器D來生成一個(gè)新的損失函數(shù),實(shí)際的損失由W 距離(用于解決模型坍塌問題)和重構(gòu)真實(shí)圖像與生成圖像的損失衍生而來。

      前面介紹的DCGAN、WGAN 等都是希望G生成的圖像盡可能接近真實(shí)圖像。但是BEGAN 并不通過估計(jì)生成分布與真實(shí)分布的差距來判斷,而是通過估計(jì)生成數(shù)據(jù)分布與真實(shí)數(shù)據(jù)分布之間的誤差來判斷。BEGAN 給出了一種用于權(quán)衡圖像多樣性與視覺質(zhì)量的思路,通過提供一個(gè)超參數(shù),在訓(xùn)練過程中平衡了生成器和鑒別器,這在一定程度上解決了模式坍塌和訓(xùn)練不平衡的問題。

      (3)WGAN-GP

      針對(duì)WGAN存在的問題,Gulrajani等[39]在WGAN的基礎(chǔ)上引入梯度懲罰(gradient penalty),提出了WGAN-GP(Wasserstein generative adversarial networksgradient penalty)。WGAN-GP 拋棄了WGAN 中的weight clipping,直接將判別器的梯度作為正則項(xiàng)加入到判別器的損失函數(shù)中,即以梯度懲罰代替了權(quán)重的截取操作,最終損失函數(shù)變?yōu)椋?/p>

      式中,Pg表示發(fā)生器分布,Pr表示數(shù)據(jù)分布,表示沿成對(duì)的點(diǎn)對(duì)之間的直線均勻采樣,λ表示懲罰系數(shù)(文中都使用λ=10)。WGAN-GP 解決了梯度消失/爆炸的問題,同時(shí)能生成更高質(zhì)量的樣本。但在實(shí)驗(yàn)中發(fā)現(xiàn)該方法收斂速度慢,在同一數(shù)據(jù)集下,WGAN-GP 需要訓(xùn)練更多次數(shù)才能收斂。

      2.3 其他GAN 的衍生模型

      f-GAN(f-divergence generative adversarial networks)[40]是Nowozin 等為了解決關(guān)于損失函數(shù)的度量問題,給出的通過一般的f散度構(gòu)造一般的GAN 的方案。2017 年,由Ledig 等[41]提出的超分辨率生成對(duì)抗網(wǎng)絡(luò)(super resolution generative adversarial networks,SRGAN),是使用低分辨率(low resolution,LR)圖像生成高分辨率(high resolution,HR)圖像,再由判別網(wǎng)絡(luò)判定圖像的真假,通過引進(jìn)損失感知函數(shù)(perceptual loss),提升超分辨率之后的信息。2018 年,Wang等[42]在SRGAN 的基礎(chǔ)上進(jìn)行改進(jìn),產(chǎn)生了增強(qiáng)版的SRGAN,稱之為ESR-GAN(enhanced SRGAN)。這種改進(jìn)包括:(1)網(wǎng)絡(luò)結(jié)構(gòu);(2)判決器的判決形式;(3)感知域損失。Volkhonskiy 等[43]將GAN 引進(jìn)信息隱藏中,提出SGAN(steganographic generative adversarial networks)。SGAN 可以成功地欺騙現(xiàn)有的隱寫分析工具,使更多的信息使用標(biāo)準(zhǔn)的隱寫算法嵌入,為深度學(xué)習(xí)在隱寫領(lǐng)域提供了研究方向。在SGAN基礎(chǔ)上,SSGAN(secure steganography based on generative adversarial networks)[44]被提出,該方法可以看成是SGAN與WGAN的結(jié)合,由一個(gè)生成網(wǎng)絡(luò)G和兩個(gè)判別網(wǎng)絡(luò)D構(gòu)成,增加的判別器采用GNCNN(Gaussianneuron convolutional neural network)[45]。SSGAN 模型生成的圖片質(zhì)量更高,收斂速度和訓(xùn)練速度也更快,系統(tǒng)的穩(wěn)定性相比于SGAN也得到了提升。在SGAN和SSGAN 的基礎(chǔ)上,StegoWGAN(information hiding scheme based on generative adversarial networks)[46]又進(jìn)行了新的隱寫方式的探究,該方法將秘密信息和真實(shí)的數(shù)據(jù)集同時(shí)輸入到判別器中進(jìn)行鑒別,判別器則是沿用GNCNN。

      2.4 GAN 與其他生成模型的比較

      在GAN 誕生以前已經(jīng)出現(xiàn)了很多生成網(wǎng)絡(luò)模型,GAN 與其他生成網(wǎng)絡(luò)模型相比存在一定的優(yōu)勢(shì)和劣勢(shì),表2 將GAN 與其他生成模型進(jìn)行比較,以便更好地理解并運(yùn)用它們。

      表3 給出了一些典型GAN 模型的對(duì)比。

      3 GAN 在圖像生成中的應(yīng)用

      生成對(duì)抗網(wǎng)絡(luò)彰顯出了強(qiáng)大的建模能力,發(fā)明伊始,就在為圖像生成方面做貢獻(xiàn),目前已經(jīng)被科學(xué)界廣泛應(yīng)用于眾多工程應(yīng)用和學(xué)術(shù)研究,以解決一些實(shí)際問題。

      3.1 圖像合成

      當(dāng)需要生成的圖像受到某些限制時(shí),GAN 可以很好地發(fā)揮作用。GAN 在圖像生成領(lǐng)域一個(gè)很重要的核心應(yīng)用是圖像合成。圖像合成在場(chǎng)景、人臉、文字表述合成等方面取得了成效。GAN 能夠從大量的無標(biāo)簽數(shù)據(jù)中無監(jiān)督地進(jìn)行學(xué)習(xí),隨著GAN 的不同衍生模型的提出,合成圖像的質(zhì)量也逐年增加,并且誕生了BigGAN、WGAN、WGAN-GP 等佼佼者。在場(chǎng)景合成方面,Santana 等[47]利用GAN 合成與真實(shí)交通場(chǎng)景一致的路況圖像,這一技術(shù)為無人駕駛技術(shù)的研發(fā)提供了數(shù)據(jù)集;在人臉合成方面,TPGAN(two pathway generative adversarial networks)[48]利用半邊人臉合成整張人臉的前向圖,這一貢獻(xiàn)為人臉識(shí)別技術(shù)的研發(fā)提供了輔助;在文字表述合成方面,Reed等[49]使用LAPGAN 模型實(shí)現(xiàn)了從文字表述來合成若干和此描述匹配的圖像;在其他一些具有特殊要求的圖像合成方面,趙樹陽等[50]提出LR-GAN(layered recursive generative adversarial networks)用以合成高質(zhì)量的低秩圖像,有效地處理了不具有明顯低秩紋理特性圖像的校正問題。此外,GAN 還允許直觀地編輯圖像。文獻(xiàn)[51]和文獻(xiàn)[52]提供了GAN 在圖像合成領(lǐng)域的更多應(yīng)用。

      3.2 圖像補(bǔ)足(小樣本)

      隨著云時(shí)代的來臨,大數(shù)據(jù)技術(shù)吸引了越來越多的關(guān)注。深度學(xué)習(xí)的發(fā)展勢(shì)必依賴于大量可靠的數(shù)據(jù)集和計(jì)算機(jī)運(yùn)算速度的提升,并在近年來獲得了飛速的發(fā)展。以往數(shù)據(jù)集的采集需要花費(fèi)過多的人力、物力,增加了科研的前期投入,對(duì)已有數(shù)據(jù)集樣本進(jìn)行的翻轉(zhuǎn)、壓縮等措施,訓(xùn)練程度有限,并沒有達(dá)到真正大幅度擴(kuò)充數(shù)據(jù)集的效果。GAN 的誕生打破了這一定勢(shì),通過對(duì)已經(jīng)采集到的小樣本進(jìn)行訓(xùn)練來生成更多的圖像拓展數(shù)據(jù)集,提高了對(duì)小樣本數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

      Table 2 Comparison of GAN with other generative models表2 GAN 與其他生成模型的對(duì)比

      3.3 圖像修復(fù)(分辨率)

      基于圖像生成,通過向GAN 輸入低分辨率圖像,生成具有超高分辨率且?guī)в星逦?xì)節(jié)信息的圖像,SRGAN 是這一方面的佼佼者,可以生成質(zhì)量很好的圖像。此外,GAN 在圖像修復(fù)領(lǐng)域的應(yīng)用,使得修復(fù)

      后的圖像質(zhì)量有了顯著提升。GAN 能夠?qū)θ笔У膱D像進(jìn)行補(bǔ)全和修復(fù),文獻(xiàn)[53]提出了一種用于人臉補(bǔ)全的GAN,由一個(gè)生成器、兩個(gè)判別器和一個(gè)解析網(wǎng)絡(luò)構(gòu)成,這種方法展示了其高質(zhì)量的補(bǔ)全技術(shù),圖8[54]展示了圖像修復(fù)的效果。文獻(xiàn)[55]也提出了利用GAN 完成超分辨率重建的方法。以上幾種基于圖像生成的應(yīng)用,較好地恢復(fù)了低分辨率圖像的微小信息,為磨損的老照片的復(fù)原提供了可能。

      Table 3 Comparison of typical GAN models表3 典型GAN 模型的對(duì)比

      Fig.8 Effect of image inpainting圖8 圖像修復(fù)效果

      3.4 圖像翻譯(風(fēng)格轉(zhuǎn)換)

      由于GAN 在無監(jiān)督學(xué)習(xí)和生成隨機(jī)樣本方面的優(yōu)勢(shì),使得GAN 在圖像翻譯和風(fēng)格轉(zhuǎn)換領(lǐng)域取得了豐碩的成果[56-57]。圖像“翻譯”即將輸入圖像轉(zhuǎn)換成對(duì)應(yīng)的不同形式的輸出圖像,例如畫家手中的畫作經(jīng)GAN 處理后,轉(zhuǎn)換成照片樣式的圖像。這一技術(shù)被廣泛應(yīng)用于計(jì)算機(jī)圖形、圖像處理和計(jì)算機(jī)視覺等領(lǐng)域。GAN 家族中的CGAN[9]使用成對(duì)的數(shù)據(jù)來實(shí)現(xiàn),但是成對(duì)的數(shù)據(jù)有時(shí)候并不容易獲得。為了解決這一問題,Zhu等[26]采用CycleGAN。此外,Bicycle-GAN[28]也實(shí)現(xiàn)了“圖像-圖像”的翻譯。

      3.5 圖像預(yù)測(cè)

      Liang等[58]提出的采用雙重對(duì)抗訓(xùn)練機(jī)制的GAN結(jié)構(gòu),可以使預(yù)測(cè)的將來幀與視頻中的像素流相一致,通過將初始的將來幀預(yù)測(cè)和雙重的將來幀預(yù)測(cè)搭建為閉環(huán),并相互傳遞反饋信號(hào)來實(shí)現(xiàn)更好的預(yù)測(cè)效果。Tulyakov 等[59]提出的MoCoGAN(motion and content decomposed generative adversarial networks)則可以通過分解動(dòng)作和內(nèi)容來生成視頻,該方法通過將隨機(jī)向量的序列映射到視頻幀序列來實(shí)現(xiàn)。

      3.6 其他

      Zhang 等[60]使用不成對(duì)的訓(xùn)練數(shù)據(jù)合成逼真的3D 圖像,通過使用合成方法改進(jìn)體積分割培訓(xùn)樣本有限的模態(tài)數(shù)據(jù)完成了圖像分割,并在3D 心血管數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),驗(yàn)證了該方法的有效性和優(yōu)越性。Chen等[61]研究了圖像去噪問題,通過訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)估計(jì)輸入噪聲圖像上的噪聲分布并生成噪聲樣本,并用采樣的噪聲補(bǔ)丁構(gòu)建數(shù)據(jù)集,將其用于訓(xùn)練CNN 進(jìn)行降噪,實(shí)現(xiàn)了從嘈雜的圖像中消除未知噪聲的目的。Cheng 等[62]利用生成對(duì)抗網(wǎng)絡(luò)實(shí)現(xiàn)了圖像壓縮,并用實(shí)驗(yàn)驗(yàn)證了GAN 在大壓縮比和高主觀質(zhì)量重構(gòu)方面的潛在優(yōu)勢(shì)。Gadelha 等[63]提出投影生成對(duì)抗網(wǎng)絡(luò)(projective generative adversarial networks,PrGAN),通過訓(xùn)練3D 形狀的深層生成模型,使其與輸入2D 視圖的分布相匹配。該模型可以推斷基本的3D 形狀分布,而無需在學(xué)習(xí)階段使用任何注釋。該模型允許以完全不受監(jiān)督的方式預(yù)測(cè)3D視點(diǎn)并從輸入圖像生成新穎的視圖。李慶忠等[64]對(duì)傳統(tǒng)的CycleGAN 進(jìn)行了改進(jìn),提出基于改進(jìn)循環(huán)一致性生成對(duì)抗網(wǎng)絡(luò),這一算法增強(qiáng)了圖像對(duì)比度,針對(duì)性解決了水下觀測(cè)圖像的顏色失真和散射模糊問題。孫曉等[65]利用改進(jìn)的StarGAN 提出了人臉表情數(shù)據(jù)增強(qiáng)的方法,提高了模型的泛化能力。

      不僅如此,GAN還被用于隱私保護(hù)[6]、目標(biāo)檢測(cè)跟蹤[66]、智能交通[5]、語音和語言領(lǐng)域[4]、文本領(lǐng)域[67]等。

      4 GAN 的評(píng)價(jià)指標(biāo)

      隨著GAN 的不斷發(fā)展,其衍生模型越來越多,且不同網(wǎng)絡(luò)結(jié)構(gòu)下的GAN 模型生成圖片的效果并不一致,如何對(duì)GAN 網(wǎng)絡(luò)生成的圖像進(jìn)行有效的評(píng)價(jià)是GAN 研究的重要課題之一。

      目前比較常用的GAN 評(píng)價(jià)指標(biāo)主要為IS(inception score)[68]和FID(Fréchet inception distance)[69]。IS利用一個(gè)已經(jīng)訓(xùn)練好的網(wǎng)絡(luò)(如Inception Net-V3),從生成圖片的多樣性和生成圖片質(zhì)量?jī)煞矫鎸?duì)生成的圖像進(jìn)行打分。如果生成圖片具有較好的多樣性,分類網(wǎng)絡(luò)得到的輸出結(jié)果應(yīng)當(dāng)較為均勻,輸出的標(biāo)簽熵值較大;另一方面,若生成的圖像具有較高的質(zhì)量,每張圖片經(jīng)過分類網(wǎng)絡(luò)所得到的標(biāo)簽應(yīng)當(dāng)趨于one-hot 分布,該標(biāo)簽的熵相對(duì)較小。IS 的計(jì)算公式如下:

      其中,DKL表示KL 散度,其代表了兩個(gè)分布的差值,KL 散度越大則表明兩個(gè)分布相差越大,反之則越小。p(y|x)表示已知輸入x后標(biāo)簽y的分布,p(y)表示生成標(biāo)簽的分布。得到的IS 取值越小,則表明網(wǎng)絡(luò)生成圖像質(zhì)量越高。

      但是IS 自身存在一定的缺陷,其本身依賴于訓(xùn)練好的分類網(wǎng)絡(luò),對(duì)于分類網(wǎng)絡(luò)中不存在的物體,IS并不能給出合理的評(píng)價(jià),而且受到其本身算法的限制,IS 對(duì)于過擬合(p(y|x)的值很小,導(dǎo)致IS 值較大)和模式坍塌(類別較多,p(y)值偏大導(dǎo)致IS 較大)的問題可能會(huì)無法檢測(cè)。且IS 的計(jì)算過程中也沒有考慮數(shù)據(jù)集的分布。在IS 的基礎(chǔ)上還出現(xiàn)了幾種改良方案,例如mode score[70]、modified inception score[71],但是這些方案都只做出了部分改良,仍然無法解決上述所有問題。

      FID[69]是另一個(gè)常用于GAN 網(wǎng)絡(luò)生成圖片的評(píng)價(jià)方法。該方法同樣將生成的圖片放入分類器中,與IS 不同的是,F(xiàn)ID 不再取最后一層輸出層作為生成圖像質(zhì)量的運(yùn)算依據(jù),而是抽取了輸出層之前的全連接層進(jìn)行考察。當(dāng)兩個(gè)分布越接近時(shí),其在特征層輸出也是越近似的。FID 考察了生成圖片與真實(shí)圖片在特征層之間的距離,其公式如下:

      其中,μr表示真實(shí)圖片的特征的均值,μg表示生成圖片的特征的均值,Σr表示真實(shí)圖片的特征的協(xié)方差矩陣,Σg表示生成圖片的特征的協(xié)方差矩陣。計(jì)算得到的FID 越小則表明生成圖片的質(zhì)量越高。經(jīng)實(shí)踐證明,該方法具有較好的魯棒性,也可以解決模式坍塌的問題,但是對(duì)于大規(guī)模數(shù)據(jù)集上出現(xiàn)的過擬合的問題仍舊無法解決。

      除了上述兩種評(píng)價(jià)方法之外,MMD(maximum mean discrepancy)[72]、Wasserstein 距離[73]、SSIM(structural similarity)[74]等方法也可以用于GAN 生成圖片的評(píng)價(jià),但是這些方法或多或少都存在一些自身的問題。IS 的使用較為廣泛,而FID 具有較好的魯棒性,對(duì)生成圖片沒有特殊評(píng)價(jià)指標(biāo)要求的前提下,這兩種評(píng)價(jià)方法仍是目前GAN 生成圖片的主流評(píng)價(jià)方法。

      5 總結(jié)與展望

      GAN 模型的改進(jìn)為解決數(shù)據(jù)集不足、特征提取困難、生成樣本像素低等問題提供了行之有效的解決方案,短短幾年內(nèi)就取得了長(zhǎng)足的進(jìn)展?;谏蓪?duì)抗網(wǎng)絡(luò)的圖像生成,自誕生之日起一直致力于解決訓(xùn)練的穩(wěn)定性,改善“模式坍塌”現(xiàn)象和梯度消失問題,找尋合適的評(píng)價(jià)體系等,并由此誕生了一系列GAN 的衍生物。雖然這些改進(jìn)后的衍生物取得了一系列成果,但GAN 仍然存在許多亟待解決的問題:

      (1)GAN 模型的相互博弈過程容易造成訓(xùn)練不穩(wěn)定,使得訓(xùn)練難以收斂。文獻(xiàn)[37]使用W 距離代替?zhèn)鹘y(tǒng)GAN 中的JS 散度,雖然解決了GAN 訓(xùn)練不穩(wěn)定的問題,但如果參數(shù)設(shè)置不合理容易導(dǎo)致梯度消失/爆炸,對(duì)權(quán)值不恰當(dāng)?shù)募糁?huì)造成梯度彌散。因此,有待提出更好的方案。

      (2)模式坍塌被認(rèn)為是應(yīng)用GAN 進(jìn)行圖像生成時(shí)最難解決的問題之一,它會(huì)造成訓(xùn)練結(jié)果冗余、生成圖像質(zhì)量差、樣本單一等問題。文獻(xiàn)[75]試圖采用多個(gè)GAN 的變種來覆蓋概率分布的不同模式,但是這種方法增加了訓(xùn)練量。文獻(xiàn)[36]提出的方法不需要G和D在訓(xùn)練過程中保持平衡,從理論上解決了“模式坍塌”現(xiàn)象,保證了生成樣本的多樣性,但要想從實(shí)際上解決“模式坍塌”現(xiàn)象,有待提出更優(yōu)的模型。

      梯度消失是由鏈?zhǔn)椒▌t的乘法特性引起的,當(dāng)用BP 算法訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)時(shí),梯度反向傳播到淺層網(wǎng)絡(luò)基本上不會(huì)引起數(shù)值上的擾動(dòng),最終導(dǎo)致神經(jīng)網(wǎng)絡(luò)收斂很慢甚至不收斂。因此,對(duì)這一問題的研究有待進(jìn)一步突破。

      (3)評(píng)價(jià)機(jī)制不夠完善。Lucic 等[76]對(duì)GAN 的變種進(jìn)行比較后發(fā)現(xiàn),并不存在一個(gè)具有普適性且性能優(yōu)越的GAN,不同變種的GAN 擁有與其適配的應(yīng)用場(chǎng)景,不同GAN 之間訓(xùn)練時(shí)間的長(zhǎng)短并不能作為它的評(píng)價(jià)標(biāo)準(zhǔn)。根據(jù)評(píng)價(jià)標(biāo)準(zhǔn)的不同、場(chǎng)景的不同,效果差的算法也有用武之地。

      目前對(duì)GAN 的評(píng)估也有一些方法:MS-SSIM 法(multiscale-structural similarity index,單獨(dú)評(píng)估多樣性)、AIS 法(annealed importance sampling,對(duì)輸出建立高斯觀測(cè)模型,并估計(jì)相應(yīng)的對(duì)數(shù)似然函數(shù))、幾何分?jǐn)?shù)法(計(jì)算生成數(shù)據(jù)的幾何屬性,并與原始數(shù)據(jù)進(jìn)行比較)以及inception score 和FID。文獻(xiàn)[37]的結(jié)果表明,Kernel MMD(maximum mean discrepancy kernel)和1-NN(1-nearest neighbor)雙樣本檢驗(yàn)方法能夠有效區(qū)分真假。但這些方法都沒有得到學(xué)術(shù)界廣泛的認(rèn)可。從GAN 的評(píng)測(cè)體系角度看,目前還沒有一個(gè)統(tǒng)一的、適用于所有模型的方式,因此采用更加通用化的評(píng)價(jià)指標(biāo)進(jìn)行科學(xué)評(píng)估,有待研究者們進(jìn)一步研究。

      (4)可解釋性差。GAN 同其他神經(jīng)網(wǎng)絡(luò)類模型一樣,也存在可解釋性差的問題[77],目前圖像生成的研究主要建立在深度學(xué)習(xí)領(lǐng)域積累的經(jīng)驗(yàn)之上,GAN 在圖像生成領(lǐng)域的應(yīng)用,仍缺乏一定的理論研究與支撐。

      針對(duì)以上問題,目前科學(xué)界主流的解決辦法有:

      (1)針對(duì)GAN 模型訓(xùn)練過程不穩(wěn)定的問題,提出利用不同的損失函數(shù)(如利用W 距離替代JS 散度,或使用均方損失(mean squared loss)替代對(duì)數(shù)損失等)進(jìn)行訓(xùn)練,或?qū)⒉煌膿p失函數(shù)進(jìn)行拼接、遷移、交叉或重組,以完成網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練。此外,SAGAN[31]中提到的TTUR(two timescale update rule)方法,通過將高低速更新規(guī)則分別應(yīng)用到判別網(wǎng)絡(luò)D和生成網(wǎng)絡(luò)G,維持了D和G以1∶1 的速度更新。Relativistic GAN(relativistic generative adversarial networks)[78]是對(duì)測(cè)試“相對(duì)真”的一種嘗試,有別于傳統(tǒng)GAN 測(cè)量生成樣本是否為真的概率,Relativistic GAN 將關(guān)注點(diǎn)放在測(cè)量生成樣本比真實(shí)樣本“更真”的概率,這一嘗試使得GAN 獲得了更好的收斂性。

      (2)緩解GAN 模式坍塌問題的方式有很多,對(duì)此有以下幾條主流的思路:

      一種代表方法是MAD-GAN(multivariate anomaly detection generative adversarial networks)[79],即通過采用多個(gè)GAN 的變種彼此“聯(lián)系”來覆蓋概率分布的不同模式,如采用m個(gè)不同的生成網(wǎng)絡(luò)G產(chǎn)生虛假樣本欺騙1 個(gè)判別網(wǎng)絡(luò)D,再由該判別網(wǎng)絡(luò)區(qū)分樣本來源并驅(qū)使各個(gè)生成網(wǎng)絡(luò)產(chǎn)生不同的樣本,在這方面的應(yīng)用如Progressive GAN[80]。

      另一種思路是展開和打包。如可以在更新參數(shù)時(shí)進(jìn)行預(yù)期對(duì)抗(anticipate counterplay),使用展開的GAN(unrolled GAN)[81]綜合考慮當(dāng)前狀態(tài)和K次更新后的狀態(tài)做出最優(yōu)解,增加生成網(wǎng)絡(luò)G更新參數(shù)時(shí)的“預(yù)判”能力,但該方法會(huì)使計(jì)算量加大;文獻(xiàn)[82]則是把多個(gè)屬于同一類的樣本打包(packing)后傳遞給判別網(wǎng)絡(luò)D。

      此外,DRAGAN(deep regret analytic generative adversarial networks)[83]提出GAN 在訓(xùn)練過程中容易進(jìn)入局部納什均衡點(diǎn),也是造成模式坍塌的一個(gè)原因。對(duì)此,在判別器的訓(xùn)練樣本附近引入梯度懲罰項(xiàng),以此來找尋全局最優(yōu)解,能夠得到更快更穩(wěn)定的訓(xùn)練。

      還有一些其他的方法,WGAN 使用W 距離代替JS 散度,從理論上解決了模式坍塌。文獻(xiàn)[84]另辟蹊徑提出的D2GAN(dual discriminator generative adversarial networks)包含兩個(gè)判別網(wǎng)絡(luò),判別器1 鑒別符合真實(shí)分布的數(shù)據(jù),判別器2 鑒別樣本來自生成分布的概率,結(jié)合KL 和反向KL 散度生成一個(gè)目標(biāo)函數(shù),利用兩種散度的互補(bǔ)統(tǒng)計(jì)特性緩解模式坍塌。

      以上幾種方法相比較而言,MAD-GAN和D2GAN均致力于網(wǎng)絡(luò)結(jié)構(gòu)的調(diào)整,Unrolled GAN 致力于提高網(wǎng)絡(luò)的“先驗(yàn)”能力,DRAGAN 將重點(diǎn)放在找尋全局最優(yōu)(解決局部納什均衡點(diǎn))上。其中,D2GAN 所截取的數(shù)據(jù)比Unrolled GAN 更精確,特殊的網(wǎng)絡(luò)結(jié)構(gòu)使它能夠產(chǎn)生比Unrolled GAN 更多的樣本,其生成樣本的質(zhì)量和多樣性遠(yuǎn)超基礎(chǔ)GAN,并可擴(kuò)展到ImageNet數(shù)據(jù)庫。這些方法在緩解模式坍塌的同時(shí),也都存在一些自身的不足:MAD-GAN和Unrolled GAN大大增加了計(jì)算量因此無法將其擴(kuò)展到ImageNet 數(shù)據(jù)庫上。WGAN 存在訓(xùn)練困難、收斂速度慢的問題。DRAGAN 在訓(xùn)練樣本附近增加梯度懲罰的方法缺乏一定的理論支撐。

      針對(duì)梯度消失的問題,可以在損失函數(shù)中加入梯度懲罰機(jī)制[37]來緩解,但要想從根本上解決這些現(xiàn)象,還需要提出新的網(wǎng)絡(luò)結(jié)構(gòu)與算法模型。

      (3)針對(duì)評(píng)價(jià)機(jī)制不夠完善和可解釋性差的問題,需要不斷地從理論的角度逐步深入開展GAN 模型的算法結(jié)構(gòu)、性能、機(jī)制等研究,統(tǒng)一GAN 的評(píng)價(jià)體系,提高GAN 的研究效率和質(zhì)量。

      隨著生成網(wǎng)絡(luò)的不斷推陳出新,對(duì)GAN 提出了更深層次的要求,未來的研究方向包括:

      (1)可以考慮如何將GAN 應(yīng)用到一些更廣泛的領(lǐng)域,如人眼無法分辨的圖像、數(shù)據(jù)的壓縮、自然語句生成等。未來致力于把GAN 用在更多場(chǎng)景,解決實(shí)際問題(如智能教育、智能交通等領(lǐng)域),可能是更有意義的事情。

      (2)針對(duì)GAN 模型訓(xùn)練穩(wěn)定性的研究,如果能夠構(gòu)建出超級(jí)穩(wěn)健的GAN 模型,就可以將這些模型應(yīng)用到對(duì)安全性要求極高的系統(tǒng)中,這將是巨大的進(jìn)步,因?yàn)樗碚髦鳤I可以更廣泛、更安全、更可靠。

      (3)從結(jié)構(gòu)方面來看,DCGAN 等一系列GAN 的衍生模型提供了一種思路,將GAN 與機(jī)器學(xué)習(xí)中最新的理論成果進(jìn)行交叉訓(xùn)練,引入遷移學(xué)習(xí)、強(qiáng)化學(xué)習(xí)等,使GAN 與計(jì)算機(jī)圖形學(xué)等技術(shù)更好地融合,有望成為下一步的研究熱點(diǎn)。

      (4)目前圖像生成技術(shù)想要落地,勢(shì)必要根據(jù)需求調(diào)整模型的大小,結(jié)合基于“知識(shí)蒸餾”的模型壓縮方法,進(jìn)行匹配需求的優(yōu)化和壓縮,內(nèi)嵌入小型軟件中,習(xí)得更多的更廣泛的應(yīng)用領(lǐng)域,這有待研究者們的進(jìn)一步研究。

      猜你喜歡
      樣本函數(shù)圖像
      改進(jìn)的LapSRN遙感圖像超分辨重建
      二次函數(shù)
      第3講 “函數(shù)”復(fù)習(xí)精講
      用樣本估計(jì)總體復(fù)習(xí)點(diǎn)撥
      二次函數(shù)
      函數(shù)備考精講
      有趣的圖像詩
      推動(dòng)醫(yī)改的“直銷樣本”
      隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
      村企共贏的樣本
      阳山县| 巨鹿县| 班戈县| 南平市| 大竹县| 华坪县| 镇坪县| 运城市| 岐山县| 荔波县| 石柱| 双江| 剑阁县| 蒲江县| 洪雅县| 社旗县| 习水县| 新绛县| 晋江市| 长阳| 出国| 沾化县| 大宁县| 正宁县| 桂林市| 巴青县| 广丰县| 梧州市| 柳州市| 红桥区| 镇沅| 乐亭县| 晴隆县| 平利县| 台安县| 荔浦县| 精河县| 竹山县| 西充县| 万全县| 揭阳市|