魏富強(qiáng),古蘭拜爾·吐爾洪,買日旦·吾守爾
新疆大學(xué) 信息科學(xué)與工程學(xué)院,烏魯木齊 830046
伴隨著信息技術(shù)的革新、硬件設(shè)備的算力不斷更替,人工智能在信息化社會(huì)蓬勃發(fā)展,以生成模型[1]為代表的機(jī)器學(xué)習(xí)領(lǐng)域,持續(xù)受到研究者關(guān)注。它被廣泛應(yīng)用于計(jì)算機(jī)視覺方向,如圖像生成[2-4]、視頻生成[5-7]等任務(wù);以信息隱寫[8-9]、文本生成[10]等任務(wù)為代表的自然語言處理方向;音頻領(lǐng)域的語音合成[11]等方向,并且在這些任務(wù)中,生成模型均表現(xiàn)出了與其他模型相比驚人的效果。
相比其他生成模型,2014年由Goodfellow等人[12]首次提出的生成對(duì)抗網(wǎng)絡(luò)模型在生成圖像數(shù)據(jù)方面的表現(xiàn)令研究者驚異,目前它在計(jì)算機(jī)視覺、醫(yī)學(xué)、自然語言處理等領(lǐng)域的研究一直保持著活躍狀態(tài)。此外,生成對(duì)抗網(wǎng)絡(luò)模型的研究工作主要集中在以下兩個(gè)方面:一是聚焦于理論線索嘗試提高生成對(duì)抗網(wǎng)絡(luò)的穩(wěn)定性和解決它的訓(xùn)練問題[13-17],或考慮從不同的角度如信息論[18-19]和模型效率[20-22]等方面豐富其結(jié)構(gòu);二是關(guān)注于生成對(duì)抗網(wǎng)絡(luò)在不同應(yīng)用領(lǐng)域內(nèi)的變體結(jié)構(gòu)和應(yīng)用場(chǎng)景[13,23-24]。除了圖像合成,生成對(duì)抗網(wǎng)絡(luò)還在其他方向成功應(yīng)用,如圖像的超分辨率[25]、圖像描述[26]、圖像修復(fù)[27]、文本到圖像的翻譯[28]、語義分割[29]、目標(biāo)檢測(cè)[30-31]、生成性對(duì)抗攻擊[32]、機(jī)器翻譯[33]、圖像融合[34-37]及去噪[38]?;谝陨险撌?,系統(tǒng)地在理論和應(yīng)用層面研究生成模型具有重要的意義。
本文首先介紹了生成式模型的基本原理,闡述了生成對(duì)抗網(wǎng)絡(luò)的理論支撐。其次介紹了評(píng)價(jià)生成式網(wǎng)絡(luò)的各項(xiàng)指標(biāo),說明了它們之間的區(qū)別與聯(lián)系。緊接著討論了生成對(duì)抗網(wǎng)絡(luò)在圖像和其他領(lǐng)域方面的熱點(diǎn)應(yīng)用研究進(jìn)展,并指出了研究生成對(duì)抗網(wǎng)絡(luò)的挑戰(zhàn)及潛在的突破口,最后對(duì)論文進(jìn)行了概括總結(jié)。
基于數(shù)學(xué)表達(dá)形式區(qū)分,最大似然原理是生成模型實(shí)現(xiàn)建模的數(shù)學(xué)基礎(chǔ)。根據(jù)其似然的表示特點(diǎn)可以分為基于顯式密度估計(jì)和隱式密度估計(jì)的方法?;陲@式密度估計(jì)的生成模型,其難點(diǎn)在于找到可以全面表達(dá)所有生成數(shù)據(jù)復(fù)雜度的模型,通過改變似然結(jié)構(gòu)表達(dá)式的形式,使用梯度優(yōu)化方法使模型密度函數(shù)的定義融入似然結(jié)構(gòu)的表達(dá)式達(dá)到最優(yōu),計(jì)算方式在形式上分為精確計(jì)算和近似估計(jì)兩種?;陔[式的密度估計(jì)的生成模型,重點(diǎn)在于通過定義的隱變量來確定擬合的模型,相比顯式密度估計(jì)方法不需要計(jì)算密度函數(shù)。
基于以上內(nèi)容的介紹,以最大似然原理為理論基礎(chǔ)的生成模型大家族分類及各分類下所具有的代表性模型結(jié)構(gòu),如圖1所示。
GAN[12]是另一種基于直接方式的隱式密度生成模型,它的結(jié)構(gòu)圖和處理過程如圖2 所示,其中關(guān)鍵結(jié)構(gòu)為生成器G和判別器D:G負(fù)責(zé)從輸入數(shù)據(jù)的噪聲分布中隨機(jī)采樣,學(xué)習(xí)其分布生成盡可能“真”的假樣本來欺騙D;而D則負(fù)責(zé)對(duì)G生成的樣本,結(jié)合真實(shí)數(shù)據(jù)進(jìn)行識(shí)別并判斷真?zhèn)危≧eal或者Fake,記為R和F)。
圖2 生成對(duì)抗網(wǎng)絡(luò)模型Fig.2 Model of Generative Adversarial Network(GAN)
GAN的值函數(shù)V(G,D)為:
其中,值函數(shù)的優(yōu)化目標(biāo)為最大化G的參數(shù)ω和最小化G的參數(shù)θ。判別器的目的是讓公式(1)最大,即公式中的第一項(xiàng)和第二項(xiàng)都要最大。第一項(xiàng)最大的意思是Dω(x)->1,真樣本為真的概率接近1;而第二項(xiàng)最大的話,需要Dω(Gθ(z))->0,假樣本為真的概率為0;相反,生成器的目的是讓公式最小,其第一項(xiàng)和第二項(xiàng)都要小,即Dω(x)->0,Dω(Gθ(z))->1,這要求真樣本為真的概率小,假樣本為真的概率接近1,此時(shí),生成的樣本就可以假亂真。
由公式(1)可知,生成對(duì)抗網(wǎng)絡(luò)是從噪聲中采樣一次就生成一個(gè)樣本,非Markov chain形式串行方式生成樣本,且不需要計(jì)算變分下界可直接生成。這使得生成的樣本質(zhì)量比其他的生成模型好。但生成對(duì)抗網(wǎng)絡(luò)也引入了新的挑戰(zhàn):生成過程中的內(nèi)在表現(xiàn)方式無法展示和不可控因素較多;訓(xùn)練過程中的不穩(wěn)定性;以及如何客觀地評(píng)價(jià)生成模型。
對(duì)GAN 模型理論的溯源討論之后,如何評(píng)價(jià)模型性能的衡量指標(biāo)是值得關(guān)注的,文章接下來詳細(xì)概述了模型評(píng)價(jià)指標(biāo),并分析了生成對(duì)抗網(wǎng)絡(luò)在生成數(shù)據(jù)方面的研究進(jìn)展及GAN 改進(jìn)的經(jīng)典變體,其次列舉了熱點(diǎn)應(yīng)用領(lǐng)域,最后展望了末來研究的潛在突破口。
鑒于定性評(píng)估的內(nèi)在缺陷,尋找合適的定量評(píng)估來提高模型性能變得尤為重要,它們應(yīng)該盡可能考慮以下的要求:
(1)質(zhì)量可評(píng)價(jià)性。對(duì)生成樣本清晰度高、視覺感知較好等圖像質(zhì)量問題可以評(píng)價(jià),即對(duì)能夠評(píng)價(jià)生成質(zhì)量?jī)?yōu)劣的模型給予高分。
(2)多樣性。可以評(píng)價(jià)GAN各種失衡影響因素,如過擬合、模式缺失、模式崩潰、簡(jiǎn)單記憶等現(xiàn)象,即對(duì)生成具有多樣性樣本的模型應(yīng)給予高分。
(3)可控性。針對(duì)連續(xù)性質(zhì)的隱空間,其中若對(duì)于GAN 的隱變量z具有明顯的含義指向,樣本的生成結(jié)果就可控制z的變化得到,即對(duì)隱變量處理更好的模型應(yīng)給予高分。
(4)有界性。即對(duì)評(píng)價(jià)指標(biāo)的數(shù)值作范圍界定,給出其上下界。
(5)一致性。即評(píng)價(jià)指標(biāo)的結(jié)果與人類感知的判定結(jié)果相似或一致。
(6)低差異性。即評(píng)價(jià)指標(biāo)對(duì)圖像變換前后語義信息未改變的數(shù)據(jù),評(píng)價(jià)差別應(yīng)足夠小。
(7)輕量性。即評(píng)價(jià)指標(biāo)的設(shè)計(jì)過程中減少樣本的參與,以少樣本低計(jì)算復(fù)雜度為目標(biāo)。
由于實(shí)際應(yīng)用場(chǎng)景的復(fù)雜性,以上要求不可能同時(shí)滿足,但參考上述要求所設(shè)計(jì)的各個(gè)GAN 評(píng)估指標(biāo)之間既有聯(lián)系也有區(qū)別,還有其自身的優(yōu)缺點(diǎn)不可忽視,本文以下內(nèi)容對(duì)GAN 模型的評(píng)價(jià)指標(biāo)進(jìn)行了全面詳述。
對(duì)GAN生成圖像的質(zhì)量?jī)?yōu)劣評(píng)價(jià)是基于人類的主觀意識(shí),故計(jì)算機(jī)由于其局限性無法像人一樣清晰辨別生成圖片的好壞。在客觀評(píng)價(jià)時(shí),常把不符合目標(biāo)預(yù)期的圖片和線條足夠明晰但感知異常的圖片均視為低質(zhì)量生成樣本,故需要設(shè)計(jì)量化指標(biāo)來統(tǒng)一衡量標(biāo)準(zhǔn)。
2.1.1 Inception分?jǐn)?shù)
Inception 分?jǐn)?shù)(Inception Score,IS)指標(biāo)是GAN 模型生成圖像常用的評(píng)價(jià)標(biāo)準(zhǔn)之一,采用熵的形式體現(xiàn)了量化的概念。生成圖片的多樣性越好,表現(xiàn)在類別分布上會(huì)趨向均勻分布,此特性也是IS考慮的問題之一。多樣性的描述與熵的大小成正比關(guān)系,即相對(duì)于類別熵的取值越大多樣性越好,反之亦然。針對(duì)多樣性和圖像質(zhì)量都需要考慮的場(chǎng)景,以互信息特性設(shè)計(jì)GAN 評(píng)價(jià)指標(biāo)。為簡(jiǎn)化計(jì)算添加了指數(shù)項(xiàng),最終IS數(shù)學(xué)表達(dá)形式被定義為:
2.1.2 IS的缺陷
IS作為生成對(duì)抗網(wǎng)絡(luò)模型主流的評(píng)價(jià)指標(biāo),在圖像生成方面已具備成熟的評(píng)價(jià)機(jī)制,但也存在一些不可忽視的問題和缺陷,如下所述:
(1)對(duì)GAN過擬合狀態(tài)無法檢測(cè)。
(2)對(duì)數(shù)據(jù)集ImageNet的圖像獨(dú)具青睞。
(3)對(duì)崩潰問題無法檢測(cè)。
(4)忽略了真實(shí)數(shù)據(jù)集的分布。
(5)是一種偽度量。
上述內(nèi)容分析了IS指標(biāo)的優(yōu)劣情況,其缺陷方面的問題限制了其通用性,故以下內(nèi)容介紹了IS幾種改進(jìn)形式的指標(biāo),繼承其優(yōu)點(diǎn)改進(jìn)其缺點(diǎn),促進(jìn)了IS指標(biāo)的推廣與應(yīng)用。
2.1.3 修正的Inception分?jǐn)?shù)
修正的Inception 分?jǐn)?shù)(Modifified Inception Score,M-IS)也是IS的改進(jìn)版本之一,它重點(diǎn)關(guān)注了評(píng)價(jià)多樣性問題中產(chǎn)生的類內(nèi)模式崩潰問題。M-IS對(duì)于同一類樣本的標(biāo)簽引入了交叉熵進(jìn)行計(jì)算,將類內(nèi)交叉熵融入IS可得M-IS,即:
M-IS的關(guān)注點(diǎn)集中在GAN模型生成質(zhì)量和類內(nèi)多樣性。M-IS得分與GAN生成性能成正相關(guān)。
2.1.4 激活最大化分?jǐn)?shù)(AMS)
激活最大化分?jǐn)?shù)(Activation Maximization Score,AMS)關(guān)注了IS 評(píng)價(jià)指標(biāo)在數(shù)據(jù)類別分布不均勻時(shí)的不合理性,通過引入訓(xùn)練數(shù)據(jù)集和生成數(shù)據(jù)集的差異度量參數(shù)來改善此問題。AMS的表達(dá)式為:
顯然,AMS分?jǐn)?shù)與生成性能之間存在反比關(guān)系,即GAN生成性能越差A(yù)MS的得分越大,反之亦然。
Mode分?jǐn)?shù)(Mode Score,MS)主要解決IS缺陷之一即忽視了訓(xùn)練數(shù)據(jù)集的標(biāo)簽信息,并在關(guān)注此條件時(shí)滿足IS的計(jì)算要求。MS定義為:
與IS的定義式相比較,MS不僅在生成數(shù)據(jù)上進(jìn)行了計(jì)算,而且在訓(xùn)練數(shù)據(jù)集上也參與了計(jì)算。
Fréchet Inception Distance(FID)計(jì)算了真實(shí)樣本與生成樣本在特征空間高斯分布的弗雷歇距離,此距離則代表了FID的值:
FID的數(shù)值決定了兩個(gè)高斯分布之間的親疏關(guān)系,并與GAN生成性能成反比,即FID數(shù)值越大,另個(gè)分布關(guān)系越疏遠(yuǎn),GAN性能越差,反之亦然。
如圖3 是在同一數(shù)據(jù)集ImageNet 上IS 與FID 兩種指標(biāo)的實(shí)驗(yàn)得分情況,其中圖像尺寸都為128×128。
圖3 同一數(shù)據(jù)集不同指標(biāo)定量得分情況Fig.3 Quantitative scores of different indicators in the same dataset
在各種應(yīng)用中,噪聲魯棒性較好以及生成圖像評(píng)價(jià)分?jǐn)?shù)符合人類感知兩個(gè)特點(diǎn)是FID 相比其他標(biāo)準(zhǔn)的顯著區(qū)別,另外計(jì)算復(fù)雜度也較低,但其高斯分布的簡(jiǎn)化假設(shè)是其理論上的不足之處。
最大均值差異(Maximum Mean Discrepancy,MMD)是在希爾伯特空間度量?jī)蓚€(gè)分布差異的一種方法,其常被應(yīng)用于遷移學(xué)習(xí)。相比FID的設(shè)計(jì)思路,將求解弗雷歇距離的方法替換為MMD方法,兩個(gè)分布產(chǎn)生的距離即可作為GAN的評(píng)價(jià)指標(biāo)。在這里MMD距離與GAN生成性能成反比,即距離越大生成性能越差,其訓(xùn)練數(shù)據(jù)集和生成數(shù)據(jù)非分布越疏遠(yuǎn)。
Wasserstein 距離(Wasserstein Distance)將GAN 評(píng)價(jià)指標(biāo)的距離表示更換為Wasserstein距離形式,其距離值也與GAN 性能成反比,與FID 的距離衡量結(jié)果類似。Wasserstein 距離評(píng)價(jià)指標(biāo)優(yōu)點(diǎn)是可對(duì)模型的簡(jiǎn)單記憶與模式奔潰問題進(jìn)行識(shí)別,而且計(jì)算速度很快;缺點(diǎn)是因?yàn)橛?xùn)練過程過度依賴判別器和訓(xùn)練數(shù)據(jù)集,限制了其只能應(yīng)用在特定訓(xùn)練集訓(xùn)練的GAN場(chǎng)景。
1-最近鄰分類器(1-Nearest Neighbor classifier,1-NN)的具體實(shí)現(xiàn)為:利用比較思維,期望計(jì)算出訓(xùn)練數(shù)據(jù)集與生成數(shù)據(jù)集的概率分布進(jìn)行比較。若二者結(jié)果相等則GAN生成性能優(yōu)越,若差異較大則性能較差,此類方法通常采用準(zhǔn)確率來作為評(píng)價(jià)指標(biāo)。
如圖4 所示,展示了任意測(cè)試樣本在1-NN 上的正確率變化,差異越大正確率越高,即可反映GAN 生成性能。
圖4 總正確率對(duì)比Fig.4 Comparison of total accuracy
對(duì)于GANtrain和GANtest方法,它的設(shè)計(jì)思路是:計(jì)算給定的準(zhǔn)確率并進(jìn)行對(duì)比分析,從而評(píng)價(jià)能夠生成多類樣本GAN 的性能。定義:GANbase 代表驗(yàn)證集上計(jì)算的準(zhǔn)確率值,此時(shí)分類器在訓(xùn)練集上訓(xùn)練;GANtrain代表驗(yàn)證集上計(jì)算的準(zhǔn)確率值,此時(shí)分類器在生成集上訓(xùn)練;GANtest 代表生成集上計(jì)算的準(zhǔn)確率值,此時(shí)分類器在訓(xùn)練集上訓(xùn)練。
在理想情況下,GANbase和GANtest的數(shù)值應(yīng)該趨于一致,但出現(xiàn)以下幾種情況時(shí),說明GAN模型出現(xiàn)了異常:若GANtest 過高,則可能GAN 產(chǎn)生了過擬合、簡(jiǎn)單記憶的問題;若GANtest過低,則可能GAN數(shù)據(jù)集分布欠佳,圖像質(zhì)量較差。
歸一化相對(duì)鑒別分?jǐn)?shù)(Normalized Relative Discriminative Score,NRDS),此方法設(shè)計(jì)思路是:根據(jù)實(shí)踐經(jīng)驗(yàn)的分類器特性,若有足夠多的epoch,則可以得到一個(gè)能夠?qū)⒂?xùn)練集和生成集兩類樣本完全區(qū)分開的分類器C,分類結(jié)果用1和0分別表示訓(xùn)練集的樣本和GAN生成的樣本,此類方法的實(shí)質(zhì)是把握分類器的epoch次數(shù),通過觀察具體的epoch 變化就可衡量GAN 的生成性能。如圖5所示描述了單個(gè)epoch的訓(xùn)練邏輯。
圖5 單個(gè)epoch訓(xùn)練示意圖Fig.5 Schematic diagram of single epoch training
針對(duì)圖像質(zhì)量的量化方法,相比IS 等指標(biāo)區(qū)別明顯,該類評(píng)價(jià)指標(biāo)更關(guān)注圖像本身的質(zhì)量,而非借助已訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)等方法來確定模型生成表現(xiàn)能力。
2.9.1 結(jié)構(gòu)相似性(SSIM)
結(jié)構(gòu)相似性(Structural SIMilarity,SSIM)的設(shè)計(jì)思路是關(guān)注圖像的3 個(gè)特征:亮度l(x,y)、對(duì)比度c(x,y)、結(jié)構(gòu)s(x,y)。從兩幅圖像相似度的角度思考,圖像樣本x與y之間通過以上3點(diǎn)特征進(jìn)行比較衡量,以此來確定評(píng)價(jià)指標(biāo)SSIM。王曙燕等人[39]在驗(yàn)證生成對(duì)抗樣本模型的性能時(shí),以SSIM指標(biāo)計(jì)算,驗(yàn)證了圖像多樣性與SSIM指標(biāo)的關(guān)系??梢来卧趫D像上取N×N大小的以x或y為中心的圖像塊,計(jì)算3個(gè)參數(shù)并求解:
2.9.2 峰值信噪比(PSNR)
峰值信噪比(Peak Signal-to-Noise Ratio,PSNR)作為評(píng)價(jià)圖像質(zhì)量的客觀標(biāo)準(zhǔn)指標(biāo)之一,通過對(duì)不同PSNR值的對(duì)比來評(píng)價(jià)條件生成對(duì)抗網(wǎng)絡(luò)的性能。若為彩色圖像有兩種計(jì)算方法:一是計(jì)算RGB 三通道的PSNR然后取均值;二為計(jì)算三通道MSE并除以3,再計(jì)算PSNR。綜上述所,顯然PSNR 的值與兩張圖像差異成反比,即PSNR越小,圖像之間的差異越大,則生成性能越差進(jìn)而影響生成圖像質(zhì)量較差。彭晏飛等人[40]利用SSIM和PSNR評(píng)價(jià)方法,實(shí)現(xiàn)了基于GAN的單圖像超分辨率重建法。
2.9.3 銳度差異(SD)
銳度差異(Sharpness Difference,SD)和PSNR 指標(biāo)具有相似的計(jì)算方式,但其更關(guān)注銳度信息的差異。首先計(jì)算其銳度誤差,然后計(jì)算SD為:其中,符號(hào)的定義與PSNR 的數(shù)學(xué)表述一致。顯然,SD值也與生成圖像的質(zhì)量成負(fù)相關(guān),即SD 值越大圖像之間的銳度差別越小。
鑒于GAN 的初始設(shè)計(jì)架構(gòu),以上評(píng)價(jià)方法都將生成器視為黑盒子,即未將設(shè)計(jì)視角聚焦于生成器的概率密度函數(shù)。平均對(duì)數(shù)似然方法的提出解決了該問題,它的步驟為:假設(shè)概率密度函數(shù)pg的表達(dá)式關(guān)系存在,則評(píng)價(jià)指標(biāo)的設(shè)計(jì)思路可為:計(jì)算訓(xùn)練集的樣本在pg下的對(duì)數(shù)似然函數(shù),原理等價(jià)于KL散度,但采用對(duì)數(shù)似然函數(shù)形式更加簡(jiǎn)單。
但大量實(shí)踐經(jīng)驗(yàn)表明其評(píng)價(jià)效果欠佳,尤其在遇到高維分布的情況時(shí),非參數(shù)對(duì)概率密度函數(shù)的估計(jì)存在誤差。另外,對(duì)數(shù)似然函數(shù)與樣本的質(zhì)量依賴關(guān)系較差,即可能會(huì)出現(xiàn)GAN給出對(duì)數(shù)似然值很高,但樣本質(zhì)量依舊很差的情況。
基于以上論述可以看到,不同的指標(biāo)側(cè)重評(píng)價(jià)GAN 模型的關(guān)注點(diǎn)各異。針對(duì)實(shí)際應(yīng)用中豐富的場(chǎng)景,應(yīng)該盡可能在保持模型性能的前提下,多樣化地設(shè)計(jì)評(píng)價(jià)指標(biāo)。
大數(shù)據(jù)賦能深度學(xué)習(xí)算法使其實(shí)現(xiàn)了快速發(fā)展,目前最先進(jìn)的GAN 能夠生成不同類別的高保真自然圖像[41],且經(jīng)過適當(dāng)?shù)挠?xùn)練,它能夠從標(biāo)準(zhǔn)數(shù)據(jù)分布中合成語義上有意義的數(shù)據(jù)。Huang等人[42]和Goodfellow等人[43]討論并對(duì)比了GAN模型及其變體在生成樣本方面的重要性,Creswell等人[44]對(duì)GAN的評(píng)估方法和訓(xùn)練問題進(jìn)行了調(diào)查總結(jié)。這些通用的圖像生成調(diào)查報(bào)告,討論了GAN 的一般內(nèi)容,沒有考慮每個(gè)模型的構(gòu)造細(xì)節(jié)及優(yōu)缺點(diǎn)。表1整理了近幾年發(fā)表的一些GAN不同應(yīng)用綜述文章[45-58]。值得一提的是,GAN 自身伴隨著3 個(gè)重要的挑戰(zhàn)問題[54]待解決。
表1 近年來不同GAN應(yīng)用的綜述總結(jié)Table 1 Summary of GAN surveys for different applications in recent years
(1)模式崩塌:關(guān)注并不局限于達(dá)到平衡的過程。GAN 最常見的故障之一是便是模式崩潰,當(dāng)G將各種不同的輸入映射到相同的輸出時(shí),就會(huì)發(fā)生這種情況。
(2)梯度消失:一個(gè)訓(xùn)練良好的D將損失函數(shù)壓縮到0,因此,梯度近似為0,這將向G提供少量的反饋,導(dǎo)致學(xué)習(xí)放緩或完全停止。同樣,不準(zhǔn)確的D會(huì)產(chǎn)生錯(cuò)誤的反饋,從而誤導(dǎo)G。
(3)收斂性:盡管理論上已經(jīng)證明了全局納什均衡的存在,但要達(dá)到這個(gè)均衡并非易事。GAN 經(jīng)常會(huì)產(chǎn)生振蕩或循環(huán)行為,并傾向于收斂到局部納什均衡,這在主觀上可能遠(yuǎn)離全局均衡。
文獻(xiàn)[44,59]表明,目前關(guān)于GAN 結(jié)構(gòu)和性能的綜述論文很少,其他的研究工作主要集中在不同類型GANs架構(gòu)的性能驗(yàn)證上。由于基準(zhǔn)數(shù)據(jù)集不能很好地反映多樣性,這些工作對(duì)于GAN 的綜合論述是有限的。因此,研究任務(wù)多集中在生成圖像質(zhì)量的評(píng)價(jià)上,而這種結(jié)果導(dǎo)向也會(huì)降低GAN生成不同圖像的有效性。
基于以上觀察,首先介紹了GAN 的發(fā)展體系來解決它的3 個(gè)挑戰(zhàn)問題,并回顧了GAN 相關(guān)網(wǎng)絡(luò)結(jié)構(gòu)在合成圖像的生成和識(shí)別方面的技術(shù)。其次,重點(diǎn)討論了GAN的各種應(yīng)用,包括圖像轉(zhuǎn)換、圖像生成、視頻生成、文本生成、圖像超分辨率及其他領(lǐng)域等內(nèi)容。
針對(duì)各種應(yīng)用需求而誕生的不同GAN 變體,衍化改進(jìn)的方向主要是基于結(jié)構(gòu)作出的改變和設(shè)計(jì)不同的損失函數(shù)。
為了設(shè)計(jì)GAN的初代架構(gòu),G和D[12]都使用了全連接(Fully Connected,F(xiàn)C)神經(jīng)網(wǎng)絡(luò),基于Toronto Face Dataset、MNIST[60]和CIFAR-10[61]數(shù)據(jù)集來生成假圖像。Chen 等人[62]提出了一種基于FC 層而建模的GAN框架,該框架僅在少數(shù)幾組數(shù)據(jù)分布上表現(xiàn)出高性能。從基于FC 的建模思想到基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的建模思想,實(shí)驗(yàn)證明后者更加適合處理圖像類數(shù)據(jù),但會(huì)引入額外的計(jì)算復(fù)雜度問題,主要原因有5 個(gè):不收斂;梯度減小;生成器和鑒別器不平衡;模式坍塌;超參數(shù)選擇。
其中一種解決方案是引入對(duì)抗網(wǎng)絡(luò)的拉普拉斯金字塔方法[63],在模型中將真實(shí)的圖像轉(zhuǎn)換為多尺度的金字塔式分層圖像,訓(xùn)練卷積GAN 生成多尺度多層次的特征圖,并將所有特征圖結(jié)合到最終的特征圖以此來降低計(jì)算難度。在文獻(xiàn)[13]中提出的深度卷積GAN 模型能夠平滑生成器與鑒別器的訓(xùn)練過程,為提高穩(wěn)定性做了一定貢獻(xiàn)。對(duì)于3D合成數(shù)據(jù)的生成,Wu等人[64]提出使用自動(dòng)編碼器和內(nèi)容信息直接從2D 輸入圖像重建3D 目標(biāo)的架構(gòu),但這種方法存在很高的計(jì)算成本問題。
接著,便是文獻(xiàn)[65]所提出的CGAN來解決圖像到圖像的翻譯問題,這種方法不僅學(xué)習(xí)了輸入圖像到輸出圖像的映射,還采用了損失函數(shù)來訓(xùn)練這種映射。與其他GAN架構(gòu)[66-67,20]相比,條件GAN在多模態(tài)數(shù)據(jù)上有顯著的性能。
另一方面,InfoGAN使用了一小部分潛在變量之間的互信息來獲取語義信息的結(jié)構(gòu),該模型可以應(yīng)用于以一種無監(jiān)督的方式確定不同的對(duì)象。Odena等人[68]提出了架構(gòu)類似InfoGAN 的分類器ACGAN,損失函數(shù)的優(yōu)化提高了其分類的性能。在文獻(xiàn)[69]中,提出了一種使用BAGAN的數(shù)據(jù)增強(qiáng)框架,在隱空間中應(yīng)用類條件作用來運(yùn)行面向目標(biāo)類的生成過程。BAGAN 的結(jié)構(gòu)與InfoGAN和ACGAN相似,但BAGAN只產(chǎn)生一個(gè)輸出,InfoGAN和ACGAN有兩種輸出。
在文獻(xiàn)[70]中,提出了DCGAN模型,其優(yōu)勢(shì)來自于作為條件變量的語義布局和場(chǎng)景屬性。這種方法能夠在不同的情況下產(chǎn)生真實(shí)的圖像,具有清晰的對(duì)象邊緣。吳春梅等人[71]利用了DCGAN的優(yōu)勢(shì)并結(jié)合了沙漏網(wǎng)絡(luò),實(shí)現(xiàn)了有效的人體姿態(tài)識(shí)別。在文獻(xiàn)[72]中,建議將自動(dòng)編碼器網(wǎng)絡(luò)(auto-encoder)與GAN[12]相結(jié)合,整合兩模型的優(yōu)點(diǎn):GAN 可以產(chǎn)生清晰的圖像但會(huì)損失部分特征,而auto-encoder 生成的圖像模糊但模型有效且準(zhǔn)確。
接下來介紹的便是漸進(jìn)式GAN 和輔助分類器GAN,前者主要用來解決訓(xùn)練穩(wěn)定性的問題,后者主要用來解決模式坍塌問題,各自分類的領(lǐng)域都有不少佳作。漸進(jìn)GAN 擴(kuò)展了標(biāo)準(zhǔn)網(wǎng)絡(luò)結(jié)構(gòu),其思想是從漸進(jìn)神經(jīng)網(wǎng)絡(luò)中提取[73]。此類模型性能表現(xiàn)良好,可以廣泛應(yīng)用于提取復(fù)雜的特征是漸進(jìn)網(wǎng)絡(luò)的特點(diǎn),在訓(xùn)練過程中逐漸增加D與G,所有的變量都可以參與訓(xùn)練,這種漸進(jìn)式的策略幫助網(wǎng)絡(luò)取得了穩(wěn)定的學(xué)習(xí)率。最近,文獻(xiàn)[74-75]中的GAN 結(jié)構(gòu)采用了這種訓(xùn)練策略,來提高其模型的整體表現(xiàn)能力。
為了提高GAN 的半監(jiān)督學(xué)習(xí)性能,文獻(xiàn)[68,76]提出在鑒別器中增加一個(gè)額外的精確輔助分類器。實(shí)驗(yàn)結(jié)果表明,輔助分類器GAN 能夠生成更清晰對(duì)象邊緣的圖像,并能較好地處理模式坍塌問題,且?guī)в休o助分類器的GAN在諸如圖像到圖像轉(zhuǎn)換[68]和文本到圖像合成等應(yīng)用中具有顯著的性能。
在對(duì)抗域適應(yīng)研究領(lǐng)域,非配對(duì)圖像到圖像的轉(zhuǎn)換模型最近在不同的域適應(yīng)任務(wù)上都有很好的性能。圖6展示了CycleGAN 和DCGAN[13]基于訓(xùn)練損失的實(shí)驗(yàn)性能。最近,有一種針對(duì)非配對(duì)圖像的新模型CoGAN,提出使用兩個(gè)共享權(quán)重生成器來產(chǎn)生帶有隨機(jī)噪聲的兩個(gè)域的圖像。所有這些模型在大量的圖像到圖像轉(zhuǎn)換任務(wù)中都有令人信服的視覺結(jié)果,但是,大范圍域的變化可能會(huì)降低這些方法生成大規(guī)模訓(xùn)練數(shù)據(jù)的能力。表2 總結(jié)了最經(jīng)典的十多種基于GAN 改進(jìn)、衍化的模型,并整理對(duì)比了其改進(jìn)點(diǎn)、優(yōu)缺點(diǎn)與各自的使用場(chǎng)景。
表2 經(jīng)典GAN改進(jìn)模型的總結(jié)與對(duì)比Table 2 Summary and comparison of classical improved GAN models
圖6 CycleGAN和DCGAN模型在flickr數(shù)據(jù)集上基于各自訓(xùn)練損失的性能評(píng)估Fig.6 Performance evaluation of CycleGAN and DCGAN models based on their respective training losses on flickr dataset
3.2.1 圖像轉(zhuǎn)換
大多數(shù)計(jì)算機(jī)視覺問題可以視為圖像到圖像的轉(zhuǎn)換問題,即從一個(gè)域映射到另一個(gè)不同域的圖像。圖7展示了貓及其姿態(tài)轉(zhuǎn)換為其他物種的結(jié)果。
圖7 貓到其他物種的轉(zhuǎn)換結(jié)果Fig.7 Cat to other species translation results
圖像到圖像的轉(zhuǎn)換還類似于風(fēng)格轉(zhuǎn)換[77],作為輸入的是一幅風(fēng)格圖像和一幅內(nèi)容圖像,而模型輸出的是一個(gè)包含內(nèi)容和風(fēng)格的圖像,它不僅傳遞圖像的樣式,還控制了目標(biāo)對(duì)象的特征。
圖像到圖像的轉(zhuǎn)換問題可分為監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)兩種。在監(jiān)督方法中,不同領(lǐng)域的成對(duì)圖像[65]可以使用。在無監(jiān)督模型中,只有兩組分離的圖像,一組由一個(gè)域的圖像組成,另一組由其他不同域的圖像組成,沒有成對(duì)的樣本來表示一幅圖像如何轉(zhuǎn)換成不同域的對(duì)應(yīng)圖像。
3.2.2 圖像生成
本節(jié)主要討論生成對(duì)抗網(wǎng)絡(luò)在圖像生成任務(wù)中的3個(gè)應(yīng)用領(lǐng)域:醫(yī)學(xué)成像、三維重構(gòu)、圖像融合。而對(duì)此類任務(wù)中合成數(shù)據(jù)的方法具有以下要求:(1)有效。產(chǎn)生有意義的和充分的數(shù)據(jù)樣本。(2)可感知任務(wù)。創(chuàng)建有助于目標(biāo)網(wǎng)絡(luò)更好性能的樣本。(3)現(xiàn)實(shí)的。產(chǎn)生有助于最小化領(lǐng)域差距和增強(qiáng)泛化的現(xiàn)實(shí)樣本。圖8 展示了BEGAN、CGAN、LSGAN、StarGAN、DA-GAN模型在MNIST、FashionMNIST、CelebA、CIFAR-10 圖像數(shù)據(jù)集上樣本生成的實(shí)驗(yàn)結(jié)果。
圖8 不同GAN模型在不同圖像數(shù)據(jù)集上樣本生成結(jié)果Fig.8 Different GAN models generate sample results on different image datasets
(1)醫(yī)學(xué)成像
一般來說,在醫(yī)學(xué)成像中使用GAN有兩種方法:第一種集中在生成階段,這有助于實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的基本結(jié)構(gòu),以創(chuàng)建真實(shí)的圖像,使得GAN能夠更好地處理數(shù)據(jù)稀缺性和患者隱私問題[78-82]。第二種集中在判別階段,其中判別器可以被認(rèn)為是未處理圖像的先驗(yàn)學(xué)習(xí),因此可以作為偽生成圖像的檢測(cè)器。
生成階段:Sandfort等人[83]提出了一種基于CycleGAN的數(shù)據(jù)增強(qiáng)模型,以提高CT 分割中的泛化性。Han 等人[84]提出了一種基于GAN 的兩階段無監(jiān)督異常檢測(cè)MRI 掃描方法。在文獻(xiàn)[85]中,通過將創(chuàng)建的合成MR圖像與真實(shí)圖像進(jìn)行比較,討論了兩種無監(jiān)督GAN 模型(CycleGAN和UNIT)的表現(xiàn)結(jié)果。
判別階段:Tang等人[86]提出了一種基于疊加生成對(duì)抗網(wǎng)絡(luò)的CT圖像分割方法,網(wǎng)絡(luò)第一層減少CT圖像中的噪聲,第二層創(chuàng)建具有增強(qiáng)邊界的更高分辨率圖像。在文獻(xiàn)[87]中,提出了一種基于無監(jiān)督學(xué)習(xí)的GAN 方法,能夠識(shí)別異常圖像。該模型包含了新數(shù)據(jù)到GAN潛在空間的快速映射技術(shù),且這種映射是基于一個(gè)訓(xùn)練效果良好的編碼器。Dou等人[88]提出了用于MRI和CT的GAN,通過以無監(jiān)督方式支持源域和目標(biāo)域的特征空間來處理高效的域轉(zhuǎn)移。
(2)三維重構(gòu)
GAN 在三維空間上對(duì)物體的立體形狀補(bǔ)全或重構(gòu),是對(duì)三維重構(gòu)技術(shù)的完善和擴(kuò)展。Wang 等人[27]提出了一種混合結(jié)構(gòu),使用遞歸卷積網(wǎng)絡(luò)(LRCN)的3D-ED-GAN模型。圖9展示了3D-ED-GAN通過LRCN時(shí)的低分辨率形狀完成或重建結(jié)果。Wu等人[64]提出了3D-VAE-GAN模型,該模型利用體積卷積網(wǎng)絡(luò)和生成對(duì)抗網(wǎng)絡(luò)最新的研究理論從概率空間生成3D對(duì)象。在文獻(xiàn)[89]中,介紹了一種新的GAN訓(xùn)練模型來實(shí)現(xiàn)物體詳細(xì)的三維形狀。該模型采用帶梯度懲罰的Wasserstein歸一化訓(xùn)練,提高了圖像的真實(shí)感,這種架構(gòu)甚至可以從2D圖像中重建3D形狀并完成形狀補(bǔ)全。
圖9 現(xiàn)實(shí)世界物品掃描的3D形狀完成效果Fig.9 3D completion results on real-world scans
Yang 等人[90]提出了一種3D-RecGAN 模型,該模型從一個(gè)隨機(jī)深度視圖重建指定對(duì)象的完整三維結(jié)構(gòu)。在文獻(xiàn)[91]中,提出了一種迭代的GAN 模型,它根據(jù)物體的幾何形狀和外觀,迭代地將輸入圖像轉(zhuǎn)換為輸出圖像。Hermoza和Siiran[92]在GAN結(jié)構(gòu)上提出了一種編碼器-解碼器3D 深度神經(jīng)網(wǎng)絡(luò),結(jié)合了兩個(gè)目標(biāo)損失:用于3D 物體重建的損失和改進(jìn)的Wasserstein GAN 損失。文獻(xiàn)[68]提出了用于語義部件編輯、形狀類比和形狀插值以及三維物體形狀補(bǔ)全的代數(shù)操作和深度自動(dòng)編碼器GAN(AE-EMD)。
(3)圖像融合
從一組輸入圖像中生成新圖像的技術(shù)是GAN架構(gòu)系統(tǒng)中一個(gè)有趣的研究領(lǐng)域,該技術(shù)被稱為圖像融合。在文獻(xiàn)[36]中,提出了一個(gè)基于GAN 的框架,稱為FusionGAN,它通過控制兩個(gè)輸入圖像來生成融合圖像。實(shí)驗(yàn)證明,融合方法能夠改變輸入圖像的形狀和特征,生成新的圖像,同時(shí)保留輸入圖像的主要內(nèi)容。Zhan等人[35]提出了一種新的融合方法SF-GAN,將前景物體和背景圖像合成真實(shí)圖像,通過一系列的實(shí)驗(yàn)證明了該模型的有效性。此外,想關(guān)文獻(xiàn)[34,37,93-94]還提出了幾種使用GAN 體系結(jié)構(gòu)的方法,以便將輸入轉(zhuǎn)換為所需的形狀,并提高融合性能。
3.2.3 視頻生成
視頻可通過逐幀分解理解為多張圖片的組合,故而在GAN 生成圖像的基礎(chǔ)上,實(shí)現(xiàn)視頻的生成和預(yù)測(cè)[89]。視頻一般而言是由相對(duì)靜止的背景色和動(dòng)態(tài)的物體運(yùn)動(dòng)組成的,VGAN[6]考慮了這一點(diǎn),使用雙流生成器以3D CNN 的移動(dòng)前景生成器預(yù)測(cè)下一幀,而使用2D CNN 的靜態(tài)背景生成器使背景保持靜止。Pose-GAN[7]采用混合VAE 和GAN 方法,它使用VAE 方法在當(dāng)前的物體姿態(tài)和過去姿態(tài)隱藏的表示來估計(jì)未來的物體運(yùn)動(dòng)。
基于視頻的GAN 不僅需要考慮空間建模,還需要考慮時(shí)間建模,即視頻序列中每個(gè)相鄰幀之間的運(yùn)動(dòng)。MoCoGAN[5]被提出以無監(jiān)督的方式學(xué)習(xí)運(yùn)動(dòng)和內(nèi)容,它將圖像的潛在空間劃分為內(nèi)容空間和運(yùn)動(dòng)空間。DVD-GAN[95]能夠基于BigGAN 架構(gòu)生成更長(zhǎng)、更高分辨率的視頻,同時(shí)引入可擴(kuò)展的、視頻專用的生成器和鑒別器架構(gòu)。
3.2.4 圖像修復(fù)
圖像補(bǔ)全是一種傳統(tǒng)的圖像修復(fù)處理任務(wù),其目的是填補(bǔ)圖像中內(nèi)容缺失或被遮蓋的部分,在目前的生產(chǎn)生活環(huán)境中此類任務(wù)得到廣泛的現(xiàn)實(shí)應(yīng)用。大多數(shù)補(bǔ)全方法[96]都是基于低級(jí)線索,從圖像的鄰近區(qū)域中尋找小塊,并創(chuàng)建與小塊相似的合成內(nèi)容。王海涌等人[97]借助此原理,實(shí)現(xiàn)了局部遮擋情況下的人臉表情識(shí)別,識(shí)別效率較高。與現(xiàn)有的尋找補(bǔ)全塊進(jìn)行合成的模型不同,文獻(xiàn)[98]提出的模型基于CNN 生成缺失區(qū)域的內(nèi)容。該算法采用重構(gòu)損失函數(shù)、兩個(gè)對(duì)抗性損失函數(shù)和一個(gè)語義解析損失函數(shù)進(jìn)行訓(xùn)練,以保證像素質(zhì)量和局部-全局內(nèi)容的穩(wěn)定性。
在文獻(xiàn)[99]中,為了完成圖像補(bǔ)全,引入了融合塊來生成靈活的Alpha 合成圖,用于組合已知和未知區(qū)域。融合塊不僅提供了恢復(fù)和現(xiàn)有內(nèi)容之間的平滑融合,而且提供了一個(gè)注意力機(jī)制,使網(wǎng)絡(luò)更多地關(guān)注未知像素。然而,該模型在CelebA數(shù)據(jù)集上表現(xiàn)良好,但在高分辨率圖像上表現(xiàn)不佳然而,如圖10所示。
圖10 圖像補(bǔ)全應(yīng)用的生成效果Fig.10 Generating effect of image completion application
3.2.5 文本生成
GAN 在圖像上的性能表現(xiàn),讓眾多研究者在文本生成領(lǐng)域也提出了基于GAN 的一些模型。SeqGAN 與強(qiáng)化學(xué)習(xí)結(jié)合,避免了一般GAN 模型不能生成離散序列,且可在生成離散數(shù)據(jù)時(shí)能夠返回模型的梯度值,此類方法可用于生成語音數(shù)據(jù)、機(jī)器翻譯等場(chǎng)景。研究提出的MaskGAN[100]模型,引入了Actor-Critic 架構(gòu),可根據(jù)上下文內(nèi)容填補(bǔ)缺失的文本信息。
除了圖像生成文本的應(yīng)用,StackGAN[28]可實(shí)現(xiàn)通過輸入文本信息來產(chǎn)生相應(yīng)的文本所描述的圖像且圖像具有高分辨率,此模型實(shí)現(xiàn)了文本與圖像的交互生成。此外CookGAN從圖像因果鏈的角度實(shí)現(xiàn)了基于文本生成圖像菜單的方法,而TiVGAN則實(shí)現(xiàn)了通過文本來產(chǎn)生連續(xù)性視頻序列的構(gòu)想。
3.2.6 圖像超分辨率
圖像超分辨率技術(shù)主要解決將低分辨率的圖像在不失真的前提下轉(zhuǎn)變?yōu)楦叻直媛实膯栴},且需要在準(zhǔn)確性和速度方面保持優(yōu)越性能,此外超分辨率技術(shù)可解決例如醫(yī)學(xué)診斷、視頻監(jiān)控、衛(wèi)星遙感等場(chǎng)景的部分行業(yè)痛點(diǎn)問題,應(yīng)用此技術(shù)產(chǎn)生的社會(huì)實(shí)際價(jià)值不可估量。文獻(xiàn)[101]概括了基于深度學(xué)習(xí)的圖像超分辨技術(shù),并將其分為有監(jiān)督、無監(jiān)督、特定應(yīng)用領(lǐng)域3種類型,提供了系統(tǒng)性的超分辨理論與實(shí)踐方法。文獻(xiàn)[25]提出的SR-GAN模型將參數(shù)化的殘差網(wǎng)絡(luò)代替生成器,而判別器則選用了VGG 網(wǎng)絡(luò),其損失函數(shù)通過內(nèi)容損失和對(duì)抗損失的加權(quán)組合,相比其他深度卷積網(wǎng)絡(luò)等模型在超分辨精度和速度上得到了改進(jìn),將圖像紋理細(xì)節(jié)的學(xué)習(xí)表征較好,故而在超分辨領(lǐng)域取得了不俗的效果。
3.2.7 其他領(lǐng)域
CaloGAN和LAGAN被應(yīng)用于物理學(xué),試圖生成粒子圖像來代表能量分布。Shin等人[102]將GAN框架擴(kuò)展到持續(xù)學(xué)習(xí),使其通過一個(gè)稱為深度生成重放的GAN框架解決了學(xué)習(xí)遺忘問題。文獻(xiàn)[103]提出了一個(gè)能夠用于破譯密碼的框架,使GAN 能應(yīng)用于密碼破譯。除以上領(lǐng)域,生成對(duì)抗網(wǎng)絡(luò)還在其他方向成功應(yīng)用,如:域適應(yīng)、序列生成、半監(jiān)督學(xué)習(xí)、語義分割、對(duì)抗攻擊、機(jī)器翻譯、自動(dòng)駕駛等。
生成對(duì)抗網(wǎng)絡(luò)在如今的學(xué)術(shù)與工業(yè)界研究不斷升溫,集中在圖像生成領(lǐng)域的研究也是如火如荼,出現(xiàn)了各種各樣的GAN 模型。但在應(yīng)用過程中它所面臨的3個(gè)挑戰(zhàn)[61]:模型坍塌、梯度消失及全局收斂問題也逐漸表現(xiàn)出來。
首先,值得關(guān)注GAN 研究領(lǐng)域的重點(diǎn)問題之一圖像生成質(zhì)量與多樣性,盡管現(xiàn)有的技術(shù)可以實(shí)現(xiàn)圖像高質(zhì)量生成,但伴隨著以上挑戰(zhàn)的不斷重現(xiàn),在生成圖像多樣性的技術(shù)發(fā)展上卻展現(xiàn)出較多的困境,其受限于圖像的大小及尺寸、模型的結(jié)構(gòu)設(shè)計(jì)及復(fù)雜度等因素。其次,需要討論的是為追求產(chǎn)生高質(zhì)量和多樣性皆佳的圖像而出現(xiàn)的模型訓(xùn)練效率低下問題,一般而言模型性能和訓(xùn)練效率正相關(guān),即效果越好的模型訓(xùn)練時(shí)間就會(huì)越長(zhǎng)。此外,在主觀和客觀評(píng)價(jià)標(biāo)準(zhǔn)上未形成通用且成熟的GAN 模型評(píng)價(jià)體系,導(dǎo)致在應(yīng)用場(chǎng)景數(shù)據(jù)集上表現(xiàn)良好而遷移至其他領(lǐng)域時(shí)出現(xiàn)不適用的情況。
通過對(duì)生成對(duì)抗網(wǎng)絡(luò)的熱點(diǎn)應(yīng)用的歸納及對(duì)現(xiàn)有GAN 網(wǎng)絡(luò)因其自身缺陷所導(dǎo)致的發(fā)展問題討論梳理,未來研究生成對(duì)抗網(wǎng)絡(luò)的潛在突破口應(yīng)主要集中在以下幾個(gè)方面。
理論研究的目的主要是解決GAN模型的自身缺陷問題,但現(xiàn)有的方法都以調(diào)整訓(xùn)練參數(shù)和修正訓(xùn)練過程為主,而對(duì)GAN 自身缺陷的理論探索還不夠深入。因此,關(guān)注對(duì)基礎(chǔ)算法的結(jié)構(gòu)設(shè)計(jì)和以應(yīng)用目標(biāo)為導(dǎo)向的損失函數(shù)設(shè)計(jì)等角度進(jìn)行理論突破。如可關(guān)注對(duì)傳統(tǒng)結(jié)構(gòu)的變體CGAN等網(wǎng)絡(luò)結(jié)合現(xiàn)有算法的優(yōu)勢(shì),對(duì)模型的架構(gòu)進(jìn)行改進(jìn),并設(shè)計(jì)出通用且合理的約束條件,可保證在模型穩(wěn)定情況下,關(guān)注在保持圖像生成質(zhì)量和多樣性具佳的損失函數(shù)設(shè)計(jì)。
相比機(jī)器學(xué)習(xí),深度學(xué)習(xí)由于其模型復(fù)雜度成量級(jí)增長(zhǎng),訓(xùn)練和計(jì)算過程“隱蔽”且無法溯源,使得研究模型的內(nèi)部工作機(jī)制變得尤為重要。使用合適的工具,實(shí)現(xiàn)模型內(nèi)部信息流工作機(jī)理的透明化研究,可以從根源上發(fā)現(xiàn)影響模型穩(wěn)定性和訓(xùn)練過程的問題,然后對(duì)其分析解決以此突破模型的性能瓶頸。尤其對(duì)于解決GAN模型是如何生成圖像的表征問題及生成器與鑒別器達(dá)到全局收斂的可視化問題迫在眉睫。此外,生成網(wǎng)絡(luò)的可控性問題也尚沒有完全攻克,只取得了特定場(chǎng)景的實(shí)驗(yàn)效果而未能達(dá)到控制效果的不同場(chǎng)景通用性。
在圖像生成領(lǐng)域的模型評(píng)價(jià)方法中,雖然對(duì)常見的評(píng)價(jià)尺度作了一定的介紹,但如何綜合且客觀地評(píng)價(jià)不同的模型,仍然沒有一個(gè)準(zhǔn)確嚴(yán)謹(jǐn)?shù)亩ㄕ?。因此,在未來的研究工作中,借助神?jīng)網(wǎng)絡(luò)強(qiáng)大的擬合能力是否可以設(shè)計(jì)根據(jù)場(chǎng)景來定義評(píng)價(jià)標(biāo)準(zhǔn)的搜索空間,并設(shè)計(jì)合適的搜索策略,在綜合且恰當(dāng)?shù)脑u(píng)價(jià)指標(biāo)下自動(dòng)找到該場(chǎng)景適用的最佳模型。實(shí)現(xiàn)這一方法,不免會(huì)持續(xù)關(guān)注生成對(duì)抗網(wǎng)絡(luò)的科學(xué)性評(píng)價(jià)標(biāo)準(zhǔn),此方向仍有巨大的突破潛力及研究?jī)r(jià)值。
以生成方法為理論基礎(chǔ)的GAN 模型,本身具有很強(qiáng)的可擴(kuò)展性,在研究過程中可以考慮引入其他學(xué)科理論知識(shí)來提升模型的表現(xiàn)能力,如信息論、生物科學(xué)、認(rèn)知科學(xué)等的理論融合。
模型的泛化能力、魯棒性是GAN 可移植于不同場(chǎng)景的重要參考指標(biāo),關(guān)注二者可將其擴(kuò)展到其他領(lǐng)域來挖掘更加有價(jià)值的應(yīng)用場(chǎng)景。因此,結(jié)合應(yīng)用領(lǐng)域的知識(shí),拓展其豐富的應(yīng)用場(chǎng)景也將是未來的研究熱點(diǎn)之一。
總的來說,生成對(duì)抗網(wǎng)絡(luò)在理論和應(yīng)用方面具有重要的研究意義,是一個(gè)具有挑戰(zhàn)性的研究問題。
本文首先依托極大似然原理介紹了生成模型,并討論了似然理論框架下的生成對(duì)抗網(wǎng)絡(luò)。其次,重點(diǎn)介紹了生成對(duì)抗網(wǎng)絡(luò)的各種評(píng)價(jià)標(biāo)準(zhǔn),分析了之間的聯(lián)系與區(qū)別,并介紹了GAN模型在數(shù)據(jù)生成方面的熱點(diǎn)應(yīng)用,包括:圖像轉(zhuǎn)換、圖像生成、視頻生成、圖像修復(fù)、文本生成、圖像超分辨率等。然后對(duì)生成對(duì)抗網(wǎng)絡(luò)潛在的研究突破口進(jìn)行了梳理,即GAN 的理論探索、內(nèi)部機(jī)理、評(píng)價(jià)方法、領(lǐng)域擴(kuò)展等,最后對(duì)全文進(jìn)行了概括總結(jié)。