• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于生成對(duì)抗網(wǎng)絡(luò)的無(wú)監(jiān)督圖像風(fēng)格遷移 *

      2021-10-26 02:11:26辛月蘭殷小芳劉衛(wèi)銘姜星宇
      關(guān)鍵詞:一致性油畫(huà)風(fēng)景

      蘭 天,辛月蘭,殷小芳,劉衛(wèi)銘,姜星宇

      (青海師范大學(xué)物理與電子信息工程學(xué)院,青海 西寧 810001)

      1 引言

      近年來(lái),機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的發(fā)展取得了重大的突破,尤其是深度學(xué)習(xí)的發(fā)展使計(jì)算機(jī)具備了非常強(qiáng)大的感知能力,計(jì)算機(jī)可以感知物體、識(shí)別內(nèi)容,甚至理解人們說(shuō)的話。生成式對(duì)抗網(wǎng)絡(luò)GAN(Generative Adversarial Network) 是Goodfellow[1]在2014年提出的一種生成模型。目前GAN在圖像處理領(lǐng)域和計(jì)算機(jī)視覺(jué)領(lǐng)域得到了廣泛的研究和應(yīng)用,例如圖像復(fù)原[2]、圖像識(shí)別[3]、超分辨率合成[4]和語(yǔ)義分割[5]等,并且相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)取得了更優(yōu)異的效果。無(wú)監(jiān)督的圖像風(fēng)格遷移是一種圖像到圖像的轉(zhuǎn)換問(wèn)題[6],在沒(méi)有配對(duì)示例的情況下將圖像從源域X轉(zhuǎn)換到目標(biāo)域Y的方法。圖像到圖像的轉(zhuǎn)換可以追溯到Hertzman[7]的圖像類(lèi)比,他們?cè)趩蝹€(gè)輸入輸出訓(xùn)練圖像對(duì)上采用了非參數(shù)紋理模型,在傳統(tǒng)的圖像風(fēng)格遷移模型中,一種算法同時(shí)只能進(jìn)行一種圖像風(fēng)格的遷移,因此它有著極大的限制。而Gatys等[8]首次使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行圖像風(fēng)格的遷移,可以同時(shí)獲得多種圖像風(fēng)格,首先輸入原圖像,對(duì)深層卷積神經(jīng)網(wǎng)絡(luò)中的卷積層所獲得的圖像特征進(jìn)行圖像內(nèi)容的約束,然后通過(guò)不同階段的卷積特征學(xué)習(xí)得到圖像紋理,進(jìn)行紋理約束,從而優(yōu)化得到最終結(jié)果。Isola等[6]提出的“pix2pix”框架借助條件生成對(duì)抗網(wǎng)絡(luò)[9]來(lái)學(xué)習(xí)從輸入圖像到輸出圖像的映射,這是真正意義上利用GAN進(jìn)行圖像風(fēng)格遷移的方法,但需要成對(duì)匹配的數(shù)據(jù)。無(wú)論以上哪種方法都是在有監(jiān)督的條件(即具有先驗(yàn)知識(shí))下進(jìn)行的,這些模型都需要預(yù)先對(duì)源域和目標(biāo)域的數(shù)據(jù)進(jìn)行匹配,但如果想改變一幅圖像的風(fēng)格,例如校園夏天的圖像變成秋天的圖像,幾乎不可能找到和此圖像內(nèi)容完全一致的秋景讓神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),因此以上方法均不是理想的方法。

      研究人員最近廣泛研究在沒(méi)有監(jiān)督的情況下進(jìn)行圖像轉(zhuǎn)換。這個(gè)問(wèn)題看似是一個(gè)不合理的問(wèn)題,因?yàn)樗枰硗飧郊蛹s束。然而無(wú)監(jiān)督的圖像風(fēng)格遷移目前有了幾種解決方案,Resales等[10]提出了一種包含先驗(yàn)知識(shí)的貝葉斯框架,該框架基于馬爾可夫隨機(jī)場(chǎng)計(jì)算由多個(gè)源圖像和一個(gè)似然項(xiàng)而得到的風(fēng)格圖像。耦合生成對(duì)抗網(wǎng)絡(luò)[11]和跨場(chǎng)景模式網(wǎng)絡(luò)使用權(quán)重共享策略來(lái)實(shí)現(xiàn)跨域的通用表示。Liu等[12]將變分自動(dòng)編碼器[13]與耦合生成對(duì)抗網(wǎng)絡(luò)結(jié)合在一起,利用GAN框架,將不同圖像域的圖像特征映射到同一空間中,其中2個(gè)生成器共享權(quán)重以學(xué)習(xí)跨域圖像的聯(lián)合分布。與上述方法不同的是,循環(huán)一致性網(wǎng)絡(luò)不依賴(lài)于輸入和輸出之間任何特定于任務(wù)的預(yù)定義的相似性函數(shù),也不假定輸入和輸出必須位于相同的低維空間中,因此循環(huán)一致性網(wǎng)絡(luò)是圖像到圖像轉(zhuǎn)換的通用解決方案。卷積神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用于圖像處理中,并且在圖像處理任務(wù)中取得了最佳的性能。在各類(lèi)經(jīng)典的神經(jīng)網(wǎng)絡(luò)網(wǎng)絡(luò)結(jié)構(gòu)中,效果最好的結(jié)構(gòu)是DenseNet[14],在該結(jié)構(gòu)中,每一層均采用密集連接的方式將該層之前的每一層輸出引入到該層中,極大增強(qiáng)了網(wǎng)絡(luò)的建模能力。相比ResNet[15],DenseNet網(wǎng)絡(luò)的不同之處在于它提出了特征共享的思想,因此其參數(shù)量會(huì)大幅減少,并且避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)梯度消失的缺陷。因此,本文在生成器網(wǎng)絡(luò)部分引入DenseNet,組成了密集連接的殘差網(wǎng)絡(luò),網(wǎng)絡(luò)訓(xùn)練速度得到提升。同時(shí),將attention機(jī)制引入網(wǎng)絡(luò),使生成器不再只關(guān)注局部特征,生成的圖像效果更佳。而在網(wǎng)絡(luò)結(jié)構(gòu)方面,在每一個(gè)卷積層都增加譜歸一化,這樣可以降低模型的結(jié)構(gòu)風(fēng)險(xiǎn)。

      2 循環(huán)一致性對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)

      循環(huán)一致性對(duì)抗網(wǎng)絡(luò)的核心結(jié)構(gòu)是2組生成式對(duì)抗網(wǎng)絡(luò),這2組生成式對(duì)抗網(wǎng)絡(luò)是合作關(guān)系。X與Y分別代表2組不同的圖像數(shù)據(jù)域,第1組生成對(duì)抗網(wǎng)絡(luò)是生成器G(從X到Y(jié)的生成)與判別器DY,用于判斷生成的圖像是否屬于域Y;第2組生成對(duì)抗網(wǎng)絡(luò)是生成器F(從Y到X的生成)與判別器DX,用于判斷圖像是否屬于域X。2個(gè)生成器的目標(biāo)是盡可能生成對(duì)方域的圖像來(lái)“騙過(guò)”對(duì)方的鑒別器。

      2.1 生成式對(duì)抗網(wǎng)絡(luò)

      生成式對(duì)抗網(wǎng)絡(luò)GAN由生成器G和判別器D組成,2個(gè)網(wǎng)絡(luò)并非合作關(guān)系,而是對(duì)抗與博弈的關(guān)系。在對(duì)抗與博弈的過(guò)程中,生成網(wǎng)絡(luò)G就好比贗品制作者,而判別網(wǎng)絡(luò)就好比一個(gè)鑒別師,贗品制作者仿制能力會(huì)越來(lái)越強(qiáng),鑒別師的鑒別能力也會(huì)越來(lái)越強(qiáng),二者通過(guò)不斷地對(duì)抗最終達(dá)到一個(gè)平衡。G和D的對(duì)抗損失函數(shù)如式(1)所示:

      minGmaxDV(D,G)=Ex~Pdata(x)[logD(x)]+

      Ez~Pz(x)[log(1-D(G(x)))]

      (1)

      其中,x為輸入的圖像數(shù)據(jù),Pdata(x)為輸入圖像的數(shù)據(jù)分布,Pz(x)為輸入到生成網(wǎng)絡(luò)的噪聲分布,E表示數(shù)學(xué)期望。

      2.2 循環(huán)一致性網(wǎng)絡(luò)

      從理論上來(lái)看通過(guò)2組生成對(duì)抗網(wǎng)絡(luò)獨(dú)立的訓(xùn)練就能達(dá)成目標(biāo),但是這之間存在一個(gè)問(wèn)題是生成器G可以不從域X中提取任何信息而直接從域Y生成數(shù)據(jù),獨(dú)立訓(xùn)練會(huì)失去各自的意義,因此需要引入循環(huán)一致性網(wǎng)絡(luò)。

      Figure 1 Principle diagram of two groups of generative adversarial network圖1 2組生成式對(duì)抗網(wǎng)絡(luò)原理圖

      圖1的2個(gè)過(guò)程可以用式(2)和式(3)表達(dá):

      x→G(x)→F(G(x))≈x

      (2)

      y→F(y)→G(F(y))≈y

      (3)

      其中,式(2)表示前向循環(huán)一致性,式(3)表示反向循環(huán)一致性,前向循環(huán)一致性和反向循環(huán)一致性組成了一個(gè)完整的循環(huán)一致性網(wǎng)絡(luò)。

      為了將生成圖像的數(shù)據(jù)分布與目標(biāo)域圖像數(shù)據(jù)的分布進(jìn)行匹配,需要引入對(duì)抗損失,而傳統(tǒng)的對(duì)抗損失通常會(huì)出現(xiàn)訓(xùn)練不穩(wěn)定的情況,生成圖像會(huì)出現(xiàn)模式崩潰的問(wèn)題。因此,為了穩(wěn)定訓(xùn)練過(guò)程并生成更高質(zhì)量的圖像,本文采用最新的研究成果來(lái)穩(wěn)定訓(xùn)練過(guò)程,即采用如(4)式所示的Wasserstein GAN(衡量真實(shí)數(shù)據(jù)分布和生成數(shù)據(jù)分布之間距離)[16]的改進(jìn)模型WGAN-GP替換式(1):

      LGAN=Ex[D(x)]-Ex[D(G(x))]-

      (4)

      為了防止學(xué)習(xí)到的映射G和F相互矛盾,需要引入循環(huán)一致性損失。循環(huán)一致性損失函數(shù)如式(5)所示:

      Lcyc(G,F)=Ex~Pdata(x)[‖F(xiàn)(G(x))-x‖1]+

      Ey~Pdata(y)[‖G(F(y))-y‖1]

      (5)

      式(5)使用L1范數(shù)計(jì)算損失,因此完整的損失函數(shù)如式(6)所示:

      L=LGAN+Lcyc(G,F)

      (6)

      2.3 長(zhǎng)距離依賴(lài)關(guān)系

      人類(lèi)在看東西時(shí)首先會(huì)進(jìn)行定位,即最先關(guān)注到感興趣的區(qū)域,而這種該關(guān)注哪里就看哪里的機(jī)制就是注意力機(jī)制(attention)。注意力機(jī)制旨在捕獲長(zhǎng)距離依賴(lài)關(guān)系,而捕獲這種依賴(lài)關(guān)系是深度神經(jīng)網(wǎng)絡(luò)的核心問(wèn)題,對(duì)于序列數(shù)據(jù)(語(yǔ)音),周期性操作是長(zhǎng)距離依賴(lài)關(guān)系建模的主要解決方案,而對(duì)于圖像數(shù)據(jù),長(zhǎng)距離依賴(lài)關(guān)系是由卷積操作形成的大的感受野。使用非局部操作捕獲長(zhǎng)距離依賴(lài)關(guān)系可以對(duì)遠(yuǎn)端圖像細(xì)節(jié)進(jìn)行協(xié)調(diào),從而輸出優(yōu)異的結(jié)果。最近的研究表明,注意力機(jī)制已經(jīng)成為必須捕獲全局依賴(lài)性的模型的組成部分,大多數(shù)基于GAN的圖像生成模型是使用卷積層構(gòu)建的,卷積在局部鄰域中處理信息,因此僅使用卷積層在建模圖像中的長(zhǎng)距離依賴(lài)關(guān)系時(shí)計(jì)算效率低下。本文在生成器部分引入注意力機(jī)制,注意力機(jī)制通過(guò)關(guān)注同一序列中的所有位置來(lái)計(jì)算序列中某個(gè)位置的響應(yīng),首先將來(lái)自先前隱藏層的圖像特征轉(zhuǎn)換到2個(gè)特征空間以計(jì)算注意力,然后注意力層的輸出乘以比例參數(shù),最后加回到輸入的圖像數(shù)據(jù),這使網(wǎng)絡(luò)可以首先依靠鄰域中的線索,然后逐步學(xué)會(huì)為非鄰域特征分配更多的權(quán)重。該機(jī)制不僅可以更好地對(duì)結(jié)構(gòu)性強(qiáng)的圖像進(jìn)行建模,并且還可以保留更多圖像細(xì)節(jié)。注意力機(jī)制結(jié)構(gòu)如圖2所示。

      Figure 2 Structure of attention mechanism圖2 注意力機(jī)制結(jié)構(gòu)

      圖2中,Q,K,V分別表示來(lái)自隱藏層的3個(gè)特征向量空間,Q為查詢(xún)向量,K為鍵向量,二者執(zhí)行Softmax操作后與值向量V相乘得到注意力特征圖。

      2.4 譜歸一化

      最近有關(guān)網(wǎng)絡(luò)參數(shù)調(diào)節(jié)與GAN相關(guān)的最新見(jiàn)解表明,生成器的條件幾乎決定了訓(xùn)練的成敗,因?yàn)镚AN的訓(xùn)練總是不穩(wěn)定的,而歸一化技術(shù)有助于加速訓(xùn)練,提高準(zhǔn)確性,提高學(xué)習(xí)速率。Miyato等[17]通過(guò)將譜歸一化應(yīng)用于判別器網(wǎng)絡(luò)來(lái)穩(wěn)定GAN的訓(xùn)練,但這樣做會(huì)限制網(wǎng)絡(luò)每層的譜范數(shù),從而限制了鑒別器的Lipschitz條件(函數(shù)的導(dǎo)數(shù)始終小于某個(gè)固定的常數(shù)K)。與其他歸一化技術(shù)相比,譜歸一化不需要額外的超參數(shù)調(diào)整,并且計(jì)算成本也相對(duì)較小。因此,本文將譜歸一化應(yīng)用于生成器中,以防止參數(shù)幅度的提升并避免異常的梯度。從實(shí)驗(yàn)中可以發(fā)現(xiàn),生成器和鑒別器的譜歸一化可以顯著降低訓(xùn)練的計(jì)算成本,也能使訓(xùn)練更穩(wěn)定。

      Figure 3 Generator network圖3 生成器網(wǎng)絡(luò)

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 實(shí)驗(yàn)平臺(tái)與數(shù)據(jù)集

      本文所采用的實(shí)驗(yàn)平臺(tái)為Intel i5 8300H 2.3 GHz 4核處理器,圖形處理器NVIDA GTX1060(6 GB),內(nèi)存8 GB,深度學(xué)習(xí)框架采用基于GPU版本的PyTorch 0.4.1。數(shù)據(jù)集使用facades數(shù)據(jù)集以及由cycleGAN提供的monet2photo數(shù)據(jù)集和vangogh2photo數(shù)據(jù)集。其中,facades數(shù)據(jù)集包含226幅語(yǔ)義圖像和226幅真實(shí)圖像,這些圖像均作為訓(xùn)練集和測(cè)試集。monet2photo數(shù)據(jù)集包括2種風(fēng)格的圖像,訓(xùn)練集由莫奈油畫(huà)風(fēng)格圖像和相機(jī)拍攝的風(fēng)景風(fēng)格圖像組成,其中莫奈油畫(huà)風(fēng)格訓(xùn)練集由1 337幅256×256大小的圖像組成,風(fēng)景風(fēng)格訓(xùn)練集由3 671幅256×256大小的圖像組成,同樣測(cè)試集也由2種風(fēng)格的圖像組成,莫奈油畫(huà)風(fēng)格的測(cè)試集由271幅256×256大小的圖像組成,風(fēng)景風(fēng)格測(cè)試集由751幅256×256大小的圖像組成。vangogh2photo數(shù)據(jù)集包含梵高畫(huà)作風(fēng)格圖像和風(fēng)景風(fēng)格圖像,梵高畫(huà)作訓(xùn)練集由755幅256×256大小的圖像組成,風(fēng)景風(fēng)格訓(xùn)練集由6 287幅256×256大小的圖像組成,測(cè)試集由400幅256×256大小的梵高畫(huà)作風(fēng)格圖像和751幅256×256大小的風(fēng)景風(fēng)格圖像組成。

      3.2 網(wǎng)絡(luò)模型

      生成器網(wǎng)絡(luò)由編碼層、轉(zhuǎn)換層和解碼層構(gòu)成,傳統(tǒng)循環(huán)一致性網(wǎng)絡(luò)轉(zhuǎn)換層由6個(gè)ResNet模塊組成,本文改進(jìn)的網(wǎng)絡(luò)采用9個(gè)Dense Block模塊。在ResNet中,第k層的輸入Xk-1經(jīng)過(guò)函數(shù)Hk后得到的輸出Hk(Xk-1)再加上輸入就組成了下一層的輸入Xk,如式(7)所示:

      xk=Hk(Xk-1)+xk-1

      (7)

      而DenseNet由Dense Block模塊組成,第k-1層的輸入與之前所有層的輸入按照通道組合在一起作為真正的輸入,經(jīng)過(guò)一個(gè)BN層、ReLU和卷積層后得到對(duì)應(yīng)的隱層輸出,該輸出即是下一層的輸入Xk,如式(8)所示:

      xk=Hk([X0,X1,…,Xk-2,Xk-1])

      (8)

      盡管DenseNet采用密集連接的方式,但實(shí)際參數(shù)量比ResNet少得多。本文生成器網(wǎng)絡(luò)模型如圖3所示,其中,編碼層的作用是將輸入圖像的特征向量進(jìn)行編碼,轉(zhuǎn)換層的作用是將輸入的特征向量轉(zhuǎn)換為目標(biāo)域的特征向量,解碼層的作用是對(duì)目標(biāo)域的特征向量解碼,生成目標(biāo)域的圖像。在轉(zhuǎn)換層的開(kāi)始和結(jié)束都增加一個(gè)注意力機(jī)制,除了解碼層第3個(gè)反卷積,其余每一個(gè)卷積層都增加譜歸一化。

      判別器網(wǎng)絡(luò)采用Isola等[6]提出的PatchGAN判別模型,PatchGAN的思想是將圖像劃分為若干個(gè)70×70的圖像塊,然后對(duì)這些圖像塊是真實(shí)的還是生成的進(jìn)行分類(lèi),計(jì)算這些圖像塊分類(lèi)的結(jié)果平均值,從而判斷圖像是真實(shí)的還是生成的。判別器網(wǎng)絡(luò)模型如圖4所示。

      Figure 4 Discriminator network圖4 判別器網(wǎng)絡(luò)

      訓(xùn)練時(shí)同時(shí)訓(xùn)練2個(gè)域的圖像,即莫奈油畫(huà)風(fēng)格圖像和風(fēng)景風(fēng)格圖像、梵高畫(huà)作風(fēng)格圖像和風(fēng)景風(fēng)格圖像、建筑物語(yǔ)義圖像和真實(shí)圖像,這些圖像并沒(méi)有進(jìn)行配對(duì)。傳統(tǒng)的循環(huán)一致性網(wǎng)絡(luò)訓(xùn)練時(shí)每一次迭代需要40 min,而本文改進(jìn)的網(wǎng)絡(luò)每次迭代減少到34 min左右。

      3.3 實(shí)驗(yàn)結(jié)果

      為了體現(xiàn)模型的泛化能力,本文在facades和vangogh2photo數(shù)據(jù)集上分別進(jìn)行了莫奈油畫(huà)風(fēng)格轉(zhuǎn)風(fēng)景風(fēng)格和風(fēng)景風(fēng)格轉(zhuǎn)莫奈油畫(huà)風(fēng)格的實(shí)驗(yàn),并將實(shí)驗(yàn)效果和DiscoGAN[18]、傳統(tǒng)的循環(huán)一致性網(wǎng)絡(luò)CycleGAN進(jìn)行了對(duì)比。

      3.3.1 monet2photo數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

      莫奈油畫(huà)風(fēng)格轉(zhuǎn)風(fēng)景風(fēng)格的對(duì)比結(jié)果如圖5所示,第1列為輸入圖像,第2列為CycleGAN的結(jié)果,第3列為DiscoGAN的結(jié)果,第4列為本文方法的結(jié)果。

      Figure 5 Contrast experiment of Monet style transferred to landscape photos圖5 莫奈風(fēng)格轉(zhuǎn)風(fēng)景風(fēng)格對(duì)比實(shí)驗(yàn)

      輸入為莫奈油畫(huà)風(fēng)格圖像,實(shí)驗(yàn)?zāi)繕?biāo)是將莫奈油畫(huà)風(fēng)格圖像轉(zhuǎn)換為風(fēng)景風(fēng)格圖像,實(shí)驗(yàn)結(jié)果越接近真實(shí)生活場(chǎng)景則效果越好。從圖5可以看出,傳統(tǒng)的CycleGAN在稻草堆轉(zhuǎn)換過(guò)程中保留了油畫(huà)當(dāng)中的紅色,DiscoGAN結(jié)果出現(xiàn)變形,而本文方法更接近真實(shí)生活中的土黃色并且形狀未發(fā)生改變;而第2行中CycleGAN和DiscoGAN生成的結(jié)果中海水出現(xiàn)了綠色;第3行本文方法生成的結(jié)果中無(wú)論天空顏色還是草地細(xì)節(jié)都優(yōu)于前2種方法。

      風(fēng)景風(fēng)格轉(zhuǎn)莫奈油畫(huà)風(fēng)格的實(shí)驗(yàn)結(jié)果如圖6所示,第1列為輸入圖像,第2列為CycleGAN生成的圖像,第3列為DiscoGAN結(jié)果,第4列為本文方法結(jié)果。

      Figure 6 Contrast experiment of landscape photos transferred to Monet style圖6 風(fēng)景照轉(zhuǎn)莫奈畫(huà)風(fēng)對(duì)比實(shí)驗(yàn)

      輸入風(fēng)景風(fēng)格圖像,學(xué)習(xí)莫奈油畫(huà)風(fēng)格圖像,希望將風(fēng)景風(fēng)格圖像轉(zhuǎn)換為莫奈油畫(huà)風(fēng)格圖像。從圖6可以看出,傳統(tǒng)的CycleGAN生成的圖像更像是將風(fēng)景風(fēng)格換了顏色,第1行的綠樹(shù)也沒(méi)有生成很好的細(xì)節(jié);第2行背景顏色沒(méi)有得到很好的生成;第3行路邊小花沒(méi)有得到保留;而本文方法的結(jié)果更接近真實(shí)的油畫(huà)風(fēng)格,并且細(xì)節(jié)得到更多保留。因此,實(shí)驗(yàn)結(jié)果表明,本文引入的attention機(jī)制有助于提升圖像的生成效果。

      3.3.2 facades和vangogh2photo數(shù)據(jù)集上實(shí)驗(yàn)結(jié)果

      facades數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖7所示,輸入為語(yǔ)義圖,目標(biāo)是將語(yǔ)義圖還原為真實(shí)圖像,第1列為輸入,第2列為CycleGAN實(shí)驗(yàn)結(jié)果,第3列為DiscoGAN實(shí)驗(yàn)結(jié)果,第4列為本文方法實(shí)驗(yàn)結(jié)果。

      Figure 7 Experimental results on facades data set圖7 facades數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果

      從實(shí)驗(yàn)結(jié)果可以看出,DiscoGAN實(shí)驗(yàn)結(jié)果比CycleGAN實(shí)驗(yàn)結(jié)果涂抹感更嚴(yán)重一些,而本文方法在細(xì)節(jié)恢復(fù)上更勝一籌,尤其是第2行最后一幅圖像樓下的護(hù)欄。

      vangogh2photo數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖8所示,第1列為輸入,第2列為CycleGAN結(jié)果圖像,第3列為DisacoGAN結(jié)果圖像,第4列為本文方法實(shí)驗(yàn)結(jié)果。輸入為梵高畫(huà)作風(fēng)格圖像,目的是將其轉(zhuǎn)換為風(fēng)景風(fēng)格圖像。

      Figure 8 Contrast experiment of Van Gogh style transferred to landscape photos圖8 梵高畫(huà)作風(fēng)格圖像轉(zhuǎn)風(fēng)景風(fēng)格圖像對(duì)比實(shí)驗(yàn)

      從實(shí)驗(yàn)結(jié)果來(lái)看,盡管CycleGAN和DiscoGAN取得了相似的結(jié)果,且 CycleGAN的實(shí)驗(yàn)結(jié)果細(xì)節(jié)更豐富,例如第2行遠(yuǎn)處的房子,但是色彩還原上不盡人意。而本文方法無(wú)論是顏色上還是細(xì)節(jié)上都獲得了良好的效果。

      3.3.3 消融實(shí)驗(yàn)

      為了驗(yàn)證attention機(jī)制(AT)在生成效果上的有效性,本文進(jìn)行了消融對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖9所示。經(jīng)過(guò)大量實(shí)驗(yàn)表明,使用DenseNet網(wǎng)絡(luò)和譜歸一化技術(shù)僅起到加快網(wǎng)絡(luò)收斂速度和提高穩(wěn)定性的作用,對(duì)圖像生成效果并沒(méi)有本質(zhì)的提升;而attention機(jī)制善于捕獲全局細(xì)節(jié),對(duì)于顏色的捕獲也非常敏感,對(duì)于圖像生成效果起到至關(guān)重要的作用。例如第1行圖像立體結(jié)構(gòu)發(fā)生較大改變,引入attention機(jī)制有明顯的效果提升,而對(duì)風(fēng)景風(fēng)格圖像在顏色上的還原也起到良好的作用。

      Figure 9 Ablation comparison test圖9 消融對(duì)比實(shí)驗(yàn)

      3.4 性能評(píng)估

      IS(Inception Score)分?jǐn)?shù)是衡量圖像質(zhì)量的常用指標(biāo),IS分?jǐn)?shù)通過(guò)計(jì)算目標(biāo)域的概率分布和生成圖像的概率分布之間的KL散度(概率分布之間的相似程度)來(lái)衡量生成圖像和目標(biāo)域圖像之間的差異。本文采用IS分?jǐn)?shù)進(jìn)行評(píng)估,IS分?jǐn)?shù)通過(guò)谷歌提供的Inception V3網(wǎng)絡(luò)計(jì)算得到,該網(wǎng)絡(luò)主要從圖像清晰度和圖像多樣性來(lái)衡量圖像生成的質(zhì)量,因此IS分?jǐn)?shù)越高則代表生成圖像的質(zhì)量越好。IS平均分?jǐn)?shù)對(duì)比如表1所示。

      Table 1 IS comparison

      FID(Fréchet Inception Distance)是更權(quán)威和更全面的一種評(píng)價(jià)指標(biāo),在評(píng)估所生成樣本的真實(shí)性和變化方面與人類(lèi)主觀感受更加一致。FID分?jǐn)?shù)同樣通過(guò)谷歌提供的Inception V3網(wǎng)絡(luò)計(jì)算得到,衡量特征空間中生成圖像和實(shí)際圖像之間的距離。因此,F(xiàn)ID分?jǐn)?shù)越低,意味著生成數(shù)據(jù)分布與實(shí)際數(shù)據(jù)分布之間的距離越接近,圖像生成效果越好。FID平均分?jǐn)?shù)對(duì)比如表2所示。

      Table 2 FID comparison

      4 結(jié)束語(yǔ)

      傳統(tǒng)的循環(huán)一致性網(wǎng)絡(luò)采用的ResNet在實(shí)驗(yàn)過(guò)程中表現(xiàn)并不穩(wěn)定,有時(shí)會(huì)出現(xiàn)梯度消失的現(xiàn)象,導(dǎo)致生成器無(wú)法繼續(xù)學(xué)習(xí),而本文集成了DensNet網(wǎng)絡(luò),在減少參數(shù)量的同時(shí)也避免了梯度消失現(xiàn)象,訓(xùn)練過(guò)程更穩(wěn)定。通過(guò)對(duì)生成器引入注意力機(jī)制提高了圖像的生成效果,可以更好地進(jìn)行圖像風(fēng)格遷移。

      猜你喜歡
      一致性油畫(huà)風(fēng)景
      一張油畫(huà)
      關(guān)注減污降碳協(xié)同的一致性和整體性
      公民與法治(2022年5期)2022-07-29 00:47:28
      注重教、學(xué)、評(píng)一致性 提高一輪復(fù)習(xí)效率
      IOl-master 700和Pentacam測(cè)量Kappa角一致性分析
      油畫(huà)《塬下》
      油畫(huà)
      眺望心中最美的風(fēng)景
      不可錯(cuò)過(guò)的絕美風(fēng)景
      《歲月長(zhǎng)又長(zhǎng)》(油畫(huà))
      海燕(2017年4期)2017-04-11 13:52:18
      隨手一畫(huà)就是風(fēng)景
      田东县| 怀柔区| 博罗县| 浦北县| 兴安盟| 壶关县| 邵东县| 阳泉市| 巴青县| 和硕县| 连云港市| 雅安市| 仙居县| 四川省| 阿勒泰市| 淮安市| 南郑县| 开化县| 神木县| 阳春市| 会泽县| 溆浦县| 古交市| 习水县| 禹城市| 龙陵县| 张家界市| 温宿县| 修文县| 婺源县| 喀什市| 古丈县| 襄城县| 饶平县| 龙江县| 隆林| 瑞安市| 久治县| 宁河县| 宜君县| 兴义市|