• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      生成對抗網絡及其圖像處理應用研究進展

      2021-04-23 04:29:06王晉宇楊海濤李高源張長弓馮博迪
      計算機工程與應用 2021年8期
      關鍵詞:散度樣本圖像

      王晉宇,楊海濤,李高源,張長弓,馮博迪

      1.航天工程大學 研究生院,北京101416

      2.航天工程大學 航天信息學院,北京101416

      深度學習于2012—2013 年在計算機視覺領域成為新的最優(yōu)算法[1]。其最具有代表性的技術為卷積神經網絡和反向傳播算法,以此為基礎在計算機視覺領域產生了重大的突破。圖像生成算法是計算機視覺重要的研究方向之一,傳統(tǒng)的生成算法主要有特征變換法[2]、玻爾茲曼機[3]、變分自編碼器法[4-5]、近似推理馬爾可夫鏈法[6-8]等,但是這類算法存在模型擬合簡單、算法原理復雜的缺點。GAN作為在深度學習大發(fā)展背景下產生的數(shù)據生成算法,以其獨特的雙網絡對抗思想在眾多生成算法中脫穎而出,在2016 年Goodfellow 等提出GAN[9]以來,相關領域的論文發(fā)表數(shù)量呈指數(shù)級增長。圖1 列出了在論壇統(tǒng)計的GAN每年的發(fā)文數(shù)量,可以看出對GAN的研究已經成為當前熱門方向之一。

      GAN 是一個應用性較強的算法體系,其衍生變體都圍繞著高質量、多樣性進行。發(fā)展歷程目前經歷了三個階段:

      圖1 GAN發(fā)文統(tǒng)計

      (1)探索階段(2014—2016年)

      這個階段GAN 的算法剛開始被人們所接受,借助其思想衍生出不同的GAN 算法,如深度卷積式、條件式、金字塔生成式。但是生成效果普遍一般,不能部署于實際應用中,主要貢獻在于為之后GAN 的發(fā)展奠定了基調。

      (2)發(fā)展階段(2016—2018年)

      這個階段是GAN 發(fā)展較為旺盛的時期,突出特點為算法原理風格迥異,模型結構各不相同,但大都取得了較好的效果。針對GAN 模型坍塌、梯度消失等問題進行了系統(tǒng)的探討和研究。

      (3)應用階段(2018年至今)

      這個階段的GAN算法主要聚焦于圖像處理、NLP、視頻處理等領域,應用性較強。在總結前人所研究算法的基礎上,針對不同的專題背景設計不同的GAN 模型。高復雜度、大計算量是這個時期GAN 算法的突出特征,樣本生成的質量及多樣性有了顯著的提高。

      1 生成對抗網絡GAN

      1.1 GAN數(shù)學原理

      KL散度也稱為相對熵,是信息論中重要的內容,是衡量兩個分布之間差距的公式。設兩個分布P、Q,則二者的相對熵為:

      KL散度的不對稱性表達為:

      一般的,對于兩個完全相同的函數(shù),KL=0。KL越大,函數(shù)之間的差異越大。但由于KL 散度具有不對稱性,實現(xiàn)起來較為困難,因此在此基礎上對式(3)取平均,可以得到JS散度公式如下:

      以JS 散度為例,G 的目標在于最小化JS 散度,D 的目標在于最大化JS散度。

      1.2 模型架構及訓練思路

      最原始的GAN由Good Fellow提出,并在MNIST[10]、TFD[11]、CIFIR-10[12]等簡單數(shù)據集上產生了不錯的效果,作為基于對抗思想的一種生成算法,主要由生成器G和鑒別器D組成,模型架構如圖2所示。

      GAN 的訓練思路靈感來源于博弈論中的納什均衡[13],,即對抗的雙方在非合作的博弈中都希望達到自己所期望利益的最大值。如圖所示,生成器可接收由隱空間Z采樣而來的隨機噪聲z,同時輸出生成圖像G(z)。鑒別器可接收圖像數(shù)據,同時輸出圖像的真假標簽。GAN 架構的對抗部分體現(xiàn)在生成器G 和鑒別器D上,G 希望生成圖像G(z)在D 中可判定為真,而D 希望將真實圖像x判定為真,生成圖像G(z) 判定為假。GAN的目標函數(shù)如下:

      GAN 的突出特征在于雙網絡設計,明確地提出了利用對抗訓練方式可以很好地擬合真實數(shù)據分布,從而達到樣本生成的目的。同時GAN 也存在一些弊端,使得其訓練過程產生不穩(wěn)定的現(xiàn)象。主要體現(xiàn)在以下幾點:

      (1)無法處理離散數(shù)據

      GAN 的優(yōu)化核心在于梯度更新,而這個過程建立在函數(shù)可微的基礎上,因此GAN 不能很好地處理離散數(shù)據,這也使得其在NLP等領域發(fā)展緩慢。

      (2)模式坍塌

      模式坍塌[14]是GAN 最常見的失敗方式,指生成的數(shù)據只朝一個或有限個方向發(fā)展。造成的結果是輸入的數(shù)據往往含有多個種類的圖像,而實際的生成圖像卻只有一種或幾種。

      (3)梯度消失

      在訓練GAN 網絡的過程中,如果真實數(shù)據和生成數(shù)據分布之間的距離過近,重疊程度過多的情況下,便會造成梯度消失的問題。

      1.3 評價方法

      對于GAN算法的評價方法主要有主觀評價和客觀評價兩種,主觀評價方法主要是基于人眼視覺而定,若生成器可以生成人眼難以區(qū)分的樣本數(shù)據,則可認為該算法具有良好的生成能力。GAN主要利用各種評分算法來進行模型生成效果的評估。最常用的客觀評價方法主要有IS[15-16]、FID[17]兩種,二者可以同時對圖像生成質量和多樣性進行評價。此外Neuroscore[18]、SWD[19]、MMD[20]等方法也可用于客觀評價中。

      圖2 GAN模型架構

      (1)Inception Score(IS)

      IS 最初應用于Imagenet[21]上。利用Imagenet 訓練一個GAN 網絡,將其生成的樣本輸入已經經過預訓練的InceptionV3 網絡中,會返回一個判別概率值。對于同一類別樣本數(shù)據來說,其輸出的概率應當趨向于集中分布,而對于不同類別來說,其輸出的概率應當趨向于均勻分布。IS分數(shù)的公式如下:

      式中,χ~Pg表示從樣本空間Pg中生成圖片χ,P(y|χ)表示生成圖片屬于某一類別的概率,P(y)表示所有類別的邊緣概率分布。IS 分數(shù)實際上是在判斷條件類分布與類分布之間的KL 距離,IS 越大則模型的質量越好。但IS在判斷模型是否有過擬合缺陷方面并不敏感,尤其是在大規(guī)模數(shù)據集上。同時由于IS只在生成模型上進行預測,因此無法判斷真實數(shù)據和樣本間的距離。

      (2)Fréchet Inception Distance(FID)

      為了彌補上述IS分數(shù)的缺陷,F(xiàn)ID可以反映生成樣本與真實數(shù)據之間的距離,其公式如下:

      FID分數(shù)相較于IS具有較強的魯棒性,其通過InceptionV3網絡來進行特征的提取,構成了真實樣本和生成樣本兩個概率分布。通過評價這兩個分布之間的距離來達到模型評價的目的,F(xiàn)ID由于其優(yōu)良的噪聲抵抗能力,在模型多樣性評價方面具有更好的效果。但是FID的缺點在于依然沒有解決大規(guī)模數(shù)據集上無法進行模型過擬合評價的問題。

      IS 和FID 由于都經過了基于Imagenet 的預訓練網絡,因此實際上對于評價與Imagenet相差較遠的圖像來說達不到預期效果。

      2 GAN模型的發(fā)展變體

      GAN誕生后,針對不同的計算性能及應用需求,衍生出多種變體模型。GAN的發(fā)展變體大致分為基于結構和基于損失函數(shù)兩類[22]。

      2.1 基于結構變體的GAN

      基于結構變體的GAN是生成對抗網絡重要的創(chuàng)新方向之一,本節(jié)分別從五個角度對其進行介紹,并重點分析了其代表算法。總結如表1所示。

      表1 結構變體GAN

      2.1.1 深度學習生成GAN

      DCGAN[23]作為第一個將卷積神經網絡思想引入GAN 中的算法,已經成為了GAN 模型的基準[24]。深度學習的任務是發(fā)現(xiàn)豐富的、有層次的模型[25]。而卷積神經網絡(CNN)由于其良好的平移不變性,成為了深度學習代表性方法。真正意義上的CNN 由文獻[26]提出,LeCun等人[27]利用LeNet-5提出了一種基于反向梯度傳播的算法。此后CNN 快速發(fā)展,并廣泛應用于圖像處理、自然語言處理等領域。

      深度卷積生成對抗網絡DCGAN 是一種將CNN 與GAN 有機結合的一種生成算法[28]。作為最大似然方法的替代方案,其特點在于生成器和鑒別器的網絡結構都采用了卷積神經網絡,且均沒有使用池化層。

      DCGAN采用“卷積+上采樣”的設計方式,G可以進行矢量加減,其使用的BN 技巧極大地減小了初始化訓練時造成的不穩(wěn)定學習問題。生成器的卷積層采用ReLU[29]作為激活函數(shù),輸出層采用Tanh作為激活函數(shù),鑒別器激活函數(shù)全部采用LeakyReLU。在訓練過程中對D 和G 采用了批量歸一化[30]的技巧。這樣便不用考慮在訓練的過程中DropOut[31]、L2正則項等方法帶來的參數(shù)選擇問題。作為一種典型的無監(jiān)督學習算法,其反向卷積神經網絡(也稱為轉置CNN)用來生成樣本,同時也可以實現(xiàn)CNN 特征的可視化,并表現(xiàn)出了良好的效果[32],DCGAN生成器結構如圖3所示[23]。

      2.1.2 半監(jiān)督生成GAN

      GAN最初應用于無監(jiān)督學習領域,而Odena提出的SGAN[33]介紹了一種基于半監(jiān)督學習的模型訓練方法,其結構如圖4 所示。半監(jiān)督學習介于監(jiān)督學習與無監(jiān)督學習之間,只需要提供在一定范圍內的小樣本集標簽。在此之前,Kingma 等人[34]已經對半監(jiān)督生成模型進行了初步嘗試,同時Springenberg[35]設計了一種基于半監(jiān)督學習的GAN,SGAN 的結構圖如圖4 所示,在原始GAN 架構的上加入了分類器C,在判別器中分別使用Softmax[36]和Sigmoid[37]函數(shù),這樣可以在對樣本真假進行區(qū)分的同時,也能夠對大量未標簽的真實數(shù)據進行分類。

      2.1.3 條件式生成GAN

      圖3 DCGAN

      圖4 SGAN

      傳統(tǒng)的GAN 中由隨機噪聲產生樣本數(shù)據,因此存在信息生成不可控的缺陷,訓練過程自由度過高。van den Oord 等人[38]指出利用類條件合成的方法可以顯著提高生成樣本的質量。如圖5 所示,CGAN[39]在傳統(tǒng)的GAN 網絡中加入了附加條件信息y,用于控制G 和D的訓練進程。其中y可以是類別標簽,也可以是修復數(shù)據的某一部分,或來自于不同的模態(tài)數(shù)據[40]。CGAN顯著提高了模型訓練的穩(wěn)定性,也為后續(xù)的條件式生成對抗網絡提供了參考,其目標函數(shù)及架構如下所示,其中Y作為D和G的附加輸入層:

      圖5 CGAN

      如圖5所示,此外,在條件式生成思想下,Chen等借鑒了信息論的思想,提出了一種基于信息量最大化的生成對抗網絡InfoGAN[41],試圖利用信息論的知識來解釋無監(jiān)督學習方式中的信息表征問題。Odena 等人提出了AC-GAN[42],并成功運用于大范圍類別標簽數(shù)據中。

      2.1.4 漸進式生成GAN

      漸進式生成算法的核心思想在于層層遞進的生成方式,不同的生成節(jié)點完成各自的生成任務。最具代表性的為Denton 等人提出的LAPGAN[43],該結構的生成器部分由一個串聯(lián)的網絡構成,可以將低分辨率的輸入圖像轉換為高分辨率的生成圖像。拉普拉斯金字塔[44]是一種圖像編碼方式,LAPGAN 的特點在于在金字塔的每一層訓練一個單獨的生成對抗網絡模型,是一種由粗到細的圖像生成框架。通過輸入低分辨率的低維圖像,再將圖像進行層層上采樣操作,最終產生高維圖像。這樣做的目的在于降低輸入數(shù)據的復雜程度,同時又可以提高圖像生成的多樣性。但是由于其在生成的節(jié)點中容易引入噪聲,因此會造成訓練不穩(wěn)定的問題。LAPGAN 有利于高分辨率的圖像建模,但是對于指定任務的圖像生成較為困難。其結構如圖6所示。

      2.1.5 編解碼生成GAN

      編解碼是信息論重要的研究內容之一,即對信源符號進行信息正向壓縮,對信宿內容進行反解變換的過程。在通信系統(tǒng)信息傳輸過程中,信源需要經過編碼才可傳入信道,同樣只有經過解碼,信宿才可接收到信息。由于信息在經過通信系統(tǒng)后會產生損耗,而編解碼方法可以提高數(shù)據壓縮的效率和數(shù)據傳輸?shù)臏蚀_度。如李江等人利用編解碼技術中的降噪自編碼器原理,成功實現(xiàn)了人臉表情識別[45]。

      圖6 LAPGAN

      BEGAN[46]作者借鑒了EBGAN[47]中編解碼的思想,在鑒別器中加入了一個自編碼器。如圖7所示,數(shù)據在經過編解碼后,與原輸入信息相比會產生大小不同的損失,稱為重建損失。傳統(tǒng)的GAN 采用直接擬合真實分布的策略,及通過計算真實分布與生成分布之間的距離,來達到生成樣本的目的。而BEGAN 與之不同,它重點計算數(shù)據重建之后分布誤差之間的距離。若二者接近的話,也可以完成訓練任務。值得注意的是,BEGAN第一次將GAN的均衡點進行了證明,同時提供了一種可以平衡生成質量和多樣性的超參數(shù)。

      2.2 基于損失變體的GAN

      損失函數(shù)是GAN 對抗過程的重要體現(xiàn)之一,決定著D 和G 的參數(shù)更新方向。在基于損失變體的GAN中,分別從Wasserstein損失、統(tǒng)一框架f散度、最小二乘損失角度進行總結,如表2所示。

      表2 損失函數(shù)變體GAN

      2.2.1 Wasserstein距離WGAN/WGAN-GP

      傳統(tǒng)的GAN 在訓練過程中,如果訓練樣本與生成樣本之間如果距離過近時,JS 散度為一個常數(shù),這時候就會產生梯度消失問題。Arjovsky 等人提出了一種基于EM距離(也稱推土機距離)的算法WGAN[48],徹底解決了GAN 的梯度消失問題,同時也增加了訓練的穩(wěn)定性。與KL、JS散度相比較,EM距離由于是連續(xù)的,即使分布之間沒有重疊也可以很好地計算距離。EM距離的公式如下:

      根據EM距離,WGAN的目標函數(shù)為:

      WGAN 存在無法直接實現(xiàn)1-Lipschitz 約束條件的缺點,在實際應用中使用權重剪枝的方法,使得判別器更新后的值限制在(-c,c)范圍內。這樣可以強行使判別器的目標函數(shù)變得平滑,但是這種方法容易造成訓練困難、收斂緩慢的問題。因此,文獻[49]提出了WGAN-GP算法,通過在原WGAN基礎上加入懲罰項的方法,使得判別器對x的輸出梯度限制在了1 以內,實現(xiàn)了與1-Lipschitz約束條件等價的效果。

      2.2.2 統(tǒng)一框架f-GAN

      f-GAN[50]提出了一種利用f散度進行GAN 訓練的系列方法。該文指出在衡量兩個分布P、Q之間的距離時,不僅JS散度適用,任何滿足條件的散度集合都可以指導模型的訓練。這個散度集合統(tǒng)稱為f散度,其公式如下:

      其中,f滿足兩個條件,凸函數(shù)及f(1)=0。

      因此,在f散度框架下,只要能找出符合散度要求的函數(shù),便能夠據此定義不同的目標函數(shù),設計不同的GAN。f函數(shù)如表3所示。

      表3 f散度框架函數(shù)

      2.2.3 最小二乘LSGAN

      LSGAN[51]是一種具有高質量圖像生成和高穩(wěn)定性訓練特征的GAN 算法,其突出特征在于采用了最小二乘原理。傳統(tǒng)的GAN大多使用交叉熵、KL散度等作為損失函數(shù),在判別器判定某種分布為1 的情況下,這些樣本便不會繼續(xù)得到優(yōu)化。這會使判定為真且遠離決策邊界的假樣本停止更新。而在最小二乘損失下,這些樣本會繼續(xù)得到優(yōu)化,從而有利于對假樣本的排除,這是使得生成圖像質量更高的原因。LSGAN的目標函數(shù)為:

      圖7 BEGAN

      3 GAN在圖像處理方面的應用

      3.1 高質量圖像生成

      GAN 在設計之初就是為了進行圖像的生成,圍繞高質量圖像生成這一內容衍生出多種GAN算法。主要分多樣本訓練、少樣本訓練、圖像超分等方向。

      針對多樣本訓練的GAN 算法來說,DCGAN 和LAPGAN 分別采用了CNN 和拉普拉斯上采樣兩種方法,但是二者都無法進行大尺寸圖像生成。吳春梅等人[52]利用DCGAN 架構提出了一種基于深度學習的GAN 網絡,實現(xiàn)了靜態(tài)圖像人體姿態(tài)估計。真正意義上大尺寸圖像生成的提出為ProGAN[53],屬于一種漸進式生成GAN算法。利用漸進式神經網絡[54]的思想提出了一種增長型訓練的方式,其核心在于動態(tài)更新的生成器網絡。這種圖像生成技巧較大幅度地提高了訓練的有效性,但是由于其生成器模型需要不斷更新,會帶來訓練周期較長的問題,降低了訓練效率。ProGAN 在CelebA中的訓練效果如圖8所示。

      圖8 ProGAN

      針對單樣本或少樣本學習來說,Li 等人利用W 損失設計了一種生成對抗網絡AFHN[55]用于少量樣本學習,通過加入分類和抗塌陷正則化器提高合成特征的多樣性。Shaham等人[56]提出了SinGAN,該算法可以從單張的自然圖像學習生成高質量圖像,SinGAN 將圖像進行切分,從而學習單張圖像中某小塊數(shù)據的分布。由于使用全卷積網絡,因此并不需要設定輸入尺寸,可以生成與原圖相似,但有細微差別的高質量圖像。

      圖像超分也是高質量圖像生成的方式之一,其目的在于通過算法將低分辨率的圖像轉為高分辨率的圖像,文獻[57]第一次提出了這個問題。GAN 在圖像超分中應用最廣泛的算法為SRGAN[58],這是第一個能夠根據4倍的放大因子推斷出逼真的自然圖像的框架。彭晏飛等人提出了一種基于生成對抗網絡的單張圖像的超分辨率重建方法[59]。

      此外,武隨爍等人將孿生注意力機制與GAN 進行結合,提出了一種新型GAN框架,證明了該方法能夠更加全面地獲取圖像中的特征信息,從而可以獲得更高質量的生成樣本[60]。BiGAN[61]利用VAE 架構,提出了一種新的優(yōu)化思路,BigGAN[62]算法使得Batch_size 達到了2 048,也帶來了高保真、高細粒度的生成樣本。Big-BiGAN[63]將BiGAN和BigGAN結合起來,彌補了DCGAN的不足,使得圖像生成質量進一步提高。

      3.2 圖像變換

      圖像變換是GAN 重要的應用方向之一,GAN 強大的函數(shù)擬合能力使其在風格遷移、人臉合成、場景渲染、圖像跨域等方面產生許多有價值的應用。

      圖像風格遷移是指將按照B 圖像的風格來生成A圖像的過程,這種應用主要在舊圖像上色、模擬換裝等方面進行應用,Isola 等人[64]討論了Image-to-Image 的通用解決方案。在計算機視覺領域,圖像生成大多都是將已經輸入的圖片“轉換”成對應的輸出圖片,實質上是一個圖片模仿的過程。CycleGAN[65]是圖像風格轉換最有代表性的算法,核心思想為循環(huán)一致性,利用兩個轉換器的損失所構成的重構誤差來進行訓練,并帶來了許多有趣的應用,如季節(jié)的轉換、馬與斑馬的轉換、油畫風格轉換等。

      StyleGAN[66]在人臉合成領域取得了較好的成果,其將生成器的起點設置為一個常量,在網絡的每個卷積層中作用一個隱空間編碼,來達到控制樣式的目的。同時借鑒了ProGAN中層層遞進的思想,其結果如圖9所示。

      圖9 StyleGAN

      圖像場景渲染是圖像處理中一個富有挑戰(zhàn)性的任務,針對高分辨率白天圖像渲染問題,文獻[67]提出了一種高分辨率日間轉換模型(HiDT),HiDT 的架構由編解碼器組成,并通過AdaIN[68-69]鏈接在一起。在訓練過程中用到了沒有白天標簽的靜態(tài)景觀數(shù)據集,利用Image-to-Image 以及文中新設計的上采樣方案,可以達到晝夜轉換的效果。

      圖像跨域也是圖像變換的常見問題之一,先前文獻[70]已經進行了相應的研究,實現(xiàn)了從邊框生成手提包的功能。在漫畫領域,圖像上色是一個費時費力的工作,對于漫畫自動上色問題早期在文獻[71-73]中進行了研究。對于素描圖像來說,有著色彩單一、信息不夠豐富的缺點,對其進行顏色填充是近年來十分熱門的方向之一。2020 年文獻[74]提出了一種將素描風格轉換為圖像風格的算法,該算法使用增強自參考的思想,設計了一種特征轉移模塊,將參考點表示轉移到了草圖對應的空間位置、獲得了逼真的草圖漫畫上色效果。

      3.3 文本生成圖像

      文本生成圖像是GAN領域富有創(chuàng)造性的研究方向之一,同時也擁有廣泛的應用前景。其主要目的是利用現(xiàn)有的語言描述來生成對應特征的圖像,Reed 等人在文獻[75]設計了一種由文本生成圖像的GAN算法,加入了流形插值正則化器。文獻[76]也進行了相應嘗試,并成功生成了符合語義條件的64×64圖像。但是由于其細節(jié)信息丟失嚴重,因此成像質量較差。針對基于文本引導的高分辨率圖像生成背景,StackGAN[77]產生了良好的效果。其核心算法在于分階段生成,文章又在整個訓練過程引入了條件強化技術,增加了生成對象的平滑特性。

      同時,GAN 在文本生成圖像方面已經具有實際應用,CookGAN[78]是一種基于文本生成菜單的GAN算法,該文從圖像因果鏈的角度來解決文本生成圖像問題,可以生成符合條件的菜肴樣本。TiVGAN[79]設計了一種根據文本可以生成視頻序列的架構。

      3.4 圖像修復

      圖像修復是指利用學習到的圖像信息或者修復模式,對受到損害的圖像進行補全或修改的技術。圖像修復可以運用于圖像補全、圖像去模糊等眾多場景中。早期對于圖像修復的研究見于文獻[80-81]中,GAN 由于其具有良好的擬合真實分布的能力,在圖像修復方面表現(xiàn)出較好的效果。

      在圖像補全方面,UCTGAN[82]是一種新的基于GAN的修復算法,采取了端到端的方式,通過條件編碼器模塊、流形模塊、生成模塊三模塊的設計,可以提供多個修復方案,其效果如圖10 所示。實驗證明對于人臉、街景、自然風光修復方面,可以提供更好的解決方案。此外,王海涌等人對傳統(tǒng)GAN算法進行改進,將其應用于局部遮擋的人臉表情識別中[83]。

      圖10 UCTGAN

      在圖像去模糊方面,Engin等人[84]改進CycleGAN的架構,可以有效去除圖像中的霧。Lin 等人[85]提出了基于文檔去陰影的應用場景。該算法提出了背景估計文檔陰影去除網絡(BEDSR-Net),通過背景估計模塊的設計,學習了背景和非背景模塊的空間分布信息,并將這些信息編碼為注意力地圖。通過估計全局背景顏色和注意力貼圖,陰影去除網絡可以更好地恢復無陰影圖像。

      4 總結與展望

      GAN在近年來已經成為了熱門的研究方向。雖然起步時間較晚,但是發(fā)展迅猛,在圖像處理的眾多領域已經做出了重要貢獻。作為一種無監(jiān)督學習的方法,和監(jiān)督學習、半監(jiān)督學習進行結合,同樣可以產生良好的效果。從長遠來看,這種具有創(chuàng)造性的模型體制正處于穩(wěn)步上升階段。但由于其本身存在模型坍塌、梯度消失等問題,依然制約著其生成效果、訓練效率、應用范圍,具體表現(xiàn)如下:

      (1)圖像生成多樣性較低

      圖像生成多樣性一直是GAN研究領域的重要問題之一,傳統(tǒng)GAN算法只能擬合小尺寸的簡單數(shù)據集,生成圖像復雜度較低。此后GAN算法一直都圍繞圖像多樣性展開?,F(xiàn)有的GAN算法已經可以生成難以區(qū)分的高質量圖像,但在圖像多樣性發(fā)展中會有眾多因素制約,往往會與圖像尺寸、模型復雜度等其他因素產生矛盾。例如,作為GAN 與深度學習結合最具代表性的模型,DCGAN 使得圖像生成多樣性有所提高,但是其只能局限在低分辨率圖像生成范圍內。CGAN 由于加入了條件約束,增加了訓練穩(wěn)定性,但是同時也造成了生成多樣性不足的缺陷。

      (2)模型訓練效率不足

      模型訓練效率的不足主要是指兩點:①由模型坍塌、梯度消失帶來的訓練不穩(wěn)定;②復雜的模型結構及冗余信息造成的訓練周期過長。例如,LAPGAN 由于采用了多個生成器連續(xù)進行金字塔生成的方法,在一定程度上有利于高分辨率建模,但是其訓練過程產生的額外噪聲拖慢了訓練速度。ProGAN 在人臉生成上取得了顯著的成功,但是其動態(tài)更新的生成器使得圖像生成的整個過程變得異常緩慢,1 024×1 024 的圖像在高性能計算機中訓練時長可達16天之久。

      (3)評價標準體系不完善

      現(xiàn)有對GAN的評價指標主要有主觀評價和客觀評價兩種,存在以下幾點問題:①主觀評價標準的建立未分級量化;②客觀評價標準并未做到科學統(tǒng)一。

      (4)算法應用領域研究不廣泛

      GAN 在較短的發(fā)展年限內已經應用于多個領域,但是多局限于圖像處理范疇,許多算法只提及其可實現(xiàn)的功能,而未說明其利用價值。且在諸如NLP等領域發(fā)展緩慢。主要原因有:①具有實際利用價值的算法在圖像生成真實性上存在質疑,在主觀視覺上無法滿足應用需求;②缺乏泛化能力,在實驗數(shù)據上效果良好,但無法移植到其他場景。例如,Li等人[86]于2017年提出的一種基于復雜場景的圖像修復方法,實際效果并不能達到以假亂真。UCTGAN提供的多個修復方案中依然存在一些失真問題,不被人眼視覺所能接受。CookGAN針對烹飪過程進行語義上的建模,但應用于其他場合需要進行大量的參數(shù)調整。

      通過對現(xiàn)有GAN 算法及其應用的歸納總結,以及現(xiàn)階段GAN 存在問題的梳理,總結出以下幾個可供發(fā)展的方向,主要包括:

      (1)注重基礎算法研究,要解決實際問題,就要從結構、損失函數(shù)角度進行算法的設計。如充分利用條件式生成對抗網絡以及深度學習原理,對流程架構進行調整,并設計更加合理的約束條件。在保證圖像生成質量以及訓練穩(wěn)定性的前提下,增加圖像的多樣性生成能力。

      (2)探討內部機理,當前階段GAN與深度學習已不可分割,而深度學習目前依然是個黑箱,其內部機理的研究不夠深入,這也直接導致了GAN 算法存在同樣的問題。因此選擇合適的工具,探究現(xiàn)有算法內部的信息流傳遞機理,以此來尋找制約模型訓練失穩(wěn)、周期較長問題的解決方法,并加以改進。

      (3)規(guī)范評價標準,明確標準建立的科學性、綜合性,注重跨領域融合。如可以參考已有的圖像主觀評價標準,建立基于GAN 的主觀評價量化指標。針對生成圖像信息量的客觀評價指標體系,對性能、過擬合程度等指標進行系統(tǒng)研究并建模。

      (4)擴大應用范圍,注重算法跨領域移植的能力。如可以將GAN 圖像生成應用于遙感圖像智能處理中。近年來GAN 算法的數(shù)量成倍擴增,其中不乏可以直接部署于遙感圖像處理中的優(yōu)良算法。如DCGAN 可以用于遙感數(shù)據樣本擴增,SinGAN 可以用于高分辨率單景圖像生成,CycleGAN可以用于時序數(shù)據修改,BEDSRNet可以用于遙感圖像去云等。

      5 結束語

      GAN 在短短不足十年的發(fā)展中,所展現(xiàn)出的張力對圖像處理領域產生了巨大的沖擊。從發(fā)展的三個階段來看,目前GAN算法的復雜性正不斷提高,帶來更好使用效果的同時對計算資源的支撐也帶來了不小的挑戰(zhàn)??偠灾哔|量、高多樣性、強泛化能力依舊是GAN在圖像處理領域不變的主題。

      猜你喜歡
      散度樣本圖像
      改進的LapSRN遙感圖像超分辨重建
      帶勢加權散度形式的Grushin型退化橢圓算子的Dirichlet特征值的上下界
      用樣本估計總體復習點撥
      有趣的圖像詩
      具有部分BMO系數(shù)的非散度型拋物方程的Lorentz估計
      推動醫(yī)改的“直銷樣本”
      H型群上一類散度形算子的特征值估計
      隨機微分方程的樣本Lyapunov二次型估計
      H?rmander 向量場上散度型拋物方程弱解的Orlicz估計
      村企共贏的樣本
      张家港市| 威信县| 高雄市| 施秉县| 镇赉县| 泗阳县| 唐山市| 绩溪县| 东方市| 拉孜县| 白河县| 舞阳县| 滦南县| 五常市| 溧阳市| 汪清县| 沽源县| 广平县| 外汇| 花莲市| 和硕县| 康马县| 怀远县| 汤原县| 涿州市| 固始县| 景德镇市| 安吉县| 太原市| 曲松县| 上栗县| 图片| 阳东县| 凤阳县| 乌什县| 桃源县| 福清市| 光泽县| 尼木县| 平陆县| 简阳市|