• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      結(jié)合皮爾遜重構(gòu)的文本到圖像生成模型

      2020-12-18 03:21:22莫建文徐凱亮
      關(guān)鍵詞:皮爾遜特征向量重構(gòu)

      莫建文,徐凱亮

      (桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)

      利用自然語(yǔ)言描述自動(dòng)生成語(yǔ)義匹配的逼真圖像,在圖像生成領(lǐng)域中一直是一項(xiàng)具有挑戰(zhàn)的研究任務(wù)。目的是為了學(xué)習(xí)一個(gè)從文本語(yǔ)義空間到彩色圖像空間的映射,生成逼真圖像的同時(shí)捕捉到文本的語(yǔ)義,即生成圖像應(yīng)保留文本描述中的物體特征和語(yǔ)義細(xì)節(jié)。近年來(lái),由于圖像生成領(lǐng)域越來(lái)越活躍,一些應(yīng)用方面也都有了廣泛的需求,比如藝術(shù)生成,計(jì)算機(jī)輔助設(shè)計(jì)等。

      目前文本到圖像生成的方法主要基于生成式對(duì)抗網(wǎng)絡(luò)[1](generative adversarial networks,簡(jiǎn)稱GAN),方法是將整個(gè)文本描述編碼為一個(gè)全局的句子向量作為條件進(jìn)行圖像生成,最先由Reed等[2]通過(guò)一個(gè)基于條件生成對(duì)抗網(wǎng)絡(luò)(condition generative adversarial networks,簡(jiǎn)稱CGAN)[3]的框架來(lái)處理這項(xiàng)任務(wù),并且提出了一種新的圖像文本匹配對(duì)抗訓(xùn)練策略,這種方法成功生成了分辨率64×64的可信賴樣本,但幾乎無(wú)法生成生動(dòng)的細(xì)節(jié)。為了更好地控制圖像生成,Reed等又提出生成對(duì)抗What-Where網(wǎng)絡(luò)模型(generative adversarial what-where network,簡(jiǎn)稱GAWWN)[4],模型利用樣本標(biāo)簽中給出的文本描述和具體的對(duì)象部件位置,生成分辨率128×128的圖像,而由于標(biāo)簽獲取成本高,模型具有一定的局限性。為了生成更高質(zhì)量和分辨率的樣本,Zhang等[5]提出了堆疊式生成對(duì)抗網(wǎng)絡(luò)(stacked generative adversarial networks, 簡(jiǎn)稱StackGAN),將生成網(wǎng)絡(luò)分為2個(gè)階段,先繪制出對(duì)象的大致輪廓和顏色,再通過(guò)多級(jí)殘差網(wǎng)絡(luò)修補(bǔ)生成樣本的細(xì)節(jié)和缺陷,最后生成分辨率256×256的樣本,極大提高了生成樣本的質(zhì)量。而后又提出了StackGAN的端對(duì)端改進(jìn)方法StackGAN-v2[6],進(jìn)一步優(yōu)化了模型的穩(wěn)定性,提高了生成樣本的多樣性。盡管以上方法生成樣本的分辨率越來(lái)越高,但對(duì)抗學(xué)習(xí)中判別器訓(xùn)練速度普遍快于生成器,這會(huì)導(dǎo)致兩者訓(xùn)練時(shí)難以達(dá)到納什平衡,使得生成樣本質(zhì)量難以提升。

      除了通過(guò)增強(qiáng)生成器能讓訓(xùn)練加快收斂,限制判別器使訓(xùn)練更為平衡也能達(dá)到很好的效果。Peng 等[7]提出采用變分判別器瓶頸(variational discriminator Bottleneck,簡(jiǎn)稱VDB),通過(guò)對(duì)數(shù)據(jù)樣本和編碼到的特征空間的互信息進(jìn)行限制,提高判別器的判別難度,進(jìn)而提高了對(duì)抗學(xué)習(xí)中的平衡性。生成對(duì)抗網(wǎng)絡(luò)中判別器在二分類任務(wù)上表現(xiàn)了強(qiáng)大的區(qū)分能力,Martineau[8]提出相對(duì)生成對(duì)抗網(wǎng)絡(luò)(relativistic standard GAN,簡(jiǎn)稱RSGAN),使用相對(duì)判別器將真假樣本混合,利用“圖靈測(cè)試”的思想削弱了判別器的能力,VDB 則是通過(guò)對(duì)判別器加上互信息瓶頸來(lái)限制判別器的能力。另一方面,一般的生成對(duì)抗網(wǎng)絡(luò)沒有推理模型,這使得網(wǎng)絡(luò)模型訓(xùn)練變得簡(jiǎn)單,但同時(shí)模型也變得難以控制,這就是生成對(duì)抗網(wǎng)絡(luò)容易崩潰,難以收斂的原因。Kingma等[9]提出的變分自編碼器(variational-autoencoder,簡(jiǎn)稱VAE)是另一種生成式模型,該方法引入變分推理,利用編碼器計(jì)算樣本的均值和方差,并對(duì)均值網(wǎng)絡(luò)加入高斯噪聲,使生成的樣本也具備多樣性,雖然該方法理論完備,但由于損失項(xiàng)中均方誤差是逐像素生成的方法,導(dǎo)致生成樣本較為模糊。在生成對(duì)抗網(wǎng)絡(luò)的基礎(chǔ)上,Lucic等[10]提出自監(jiān)督和半監(jiān)督的協(xié)同訓(xùn)練方法,給判別器添加額外的特征提取器,將判別器訓(xùn)練為分類器,為擴(kuò)增的數(shù)據(jù)集做預(yù)測(cè),利用少量的標(biāo)注數(shù)據(jù)訓(xùn)練就達(dá)到了很好的效果。Su[11]提出了的正交生成對(duì)抗網(wǎng)絡(luò)(Orthogonal GAN,簡(jiǎn)稱O-GAN),該方法對(duì)判別器網(wǎng)絡(luò)的自由度進(jìn)行正交分解,將額外的損失加入到目標(biāo)損失中,使判別器成為一種有效的編碼器的同時(shí)保留判別的自由度。通過(guò)最大化特征向量與輸入的皮爾遜相關(guān)系數(shù)(Pearson correlation),增強(qiáng)兩者間的線性相關(guān)性,從而達(dá)到重構(gòu)的目的。

      結(jié)合以上2個(gè)方面,借鑒O-GAN中最大化皮爾遜相關(guān)系數(shù)的方法,提出一種結(jié)合最大化皮爾遜相關(guān)系數(shù)的堆疊式生成對(duì)抗網(wǎng)絡(luò),主要對(duì)堆疊式生成對(duì)抗網(wǎng)絡(luò)做了兩點(diǎn)改進(jìn):

      1)將原有的判別器的標(biāo)量輸出替換為特征向量,通過(guò)最大化特征向量與輸入的皮爾遜相關(guān)系數(shù)加深兩者線性相關(guān)性,使判別器具有編碼能力,僅利用特征向量的平均值作判別,增加判別器任務(wù)的同時(shí),限制判別器的判別能力;

      2)平衡多級(jí)網(wǎng)絡(luò)中的皮爾遜重構(gòu)項(xiàng),令多個(gè)尺度的特征向量與唯一的輸入線性相關(guān),增強(qiáng)判別網(wǎng)絡(luò)的一致性。

      通過(guò)實(shí)驗(yàn)證明,該改進(jìn)方法在堆疊式生成對(duì)抗網(wǎng)絡(luò)模型上能生成多樣性更高和圖像質(zhì)量更好的樣本,有效改善了模式崩潰的現(xiàn)象。

      1 本文模型

      在堆疊式生成對(duì)抗網(wǎng)絡(luò)模型下,結(jié)合了最大化皮爾遜相關(guān)系數(shù)的方法,主要由多個(gè)生成網(wǎng)絡(luò)和多個(gè)改進(jìn)的判別器構(gòu)成。改進(jìn)的堆疊式生成對(duì)抗網(wǎng)絡(luò)如圖1所示。

      1.1 堆疊式生成對(duì)抗網(wǎng)絡(luò)

      具體框架如圖1所示,圖中虛線框?yàn)闃?biāo)準(zhǔn)的StackGAN-v2網(wǎng)絡(luò),c是條件向量且c∈Rnc,通過(guò)文本編碼器[5]將文本描述映射為句嵌入向量,再對(duì)其進(jìn)行條件增強(qiáng)[5]得到低維條件向量c。首先將條件向量c與高斯隨機(jī)噪聲向量z組合得到全局向量y,然后通過(guò)StackGAN-v2網(wǎng)絡(luò)生成不同尺寸的圖像,并經(jīng)過(guò)不同尺度的判別器得到特征向量,最后計(jì)算特征向量與輸入向量的皮爾遜相關(guān)系數(shù)并最大化,F(xiàn)0、G0、D0和Fi、Gi、Di分別為不同尺度的生成器和判別器。

      樣本生成過(guò)程可表示為

      h0=F0(c,z),hi=Fi(c,hi-1),i=1,2;

      si=Gi(hi),i=0,1,2。

      (1)

      其中:z~N(0,1)為高斯先驗(yàn);z∈Rnz,{h0,h1,…,hi}為不同尺度的特征層;{s0,s1,…,si}為分辨率逐漸增加的生成樣本。每個(gè)生成器都有不同的判別器進(jìn)行競(jìng)爭(zhēng),并學(xué)習(xí)不同尺度的判別特征。Fi、Gi和Di都被建模為神經(jīng)網(wǎng)絡(luò),設(shè)置nc=128,nz=100。

      1.2 改進(jìn)的判別器

      生成對(duì)抗網(wǎng)絡(luò)一般由生成器和判別器組成,傳統(tǒng)的GAN沒有推理模型,另一種生成模型VAE雖然具有編碼器和生成器,擁有完備的推理過(guò)程并且沒有模式崩潰等訓(xùn)練問題,但無(wú)法像GAN一樣生成逼真的紋理和細(xì)節(jié)。在對(duì)抗訓(xùn)練過(guò)程中,判別器主要為生成器的訓(xùn)練提供梯度,隨著訓(xùn)練的進(jìn)行,判別器越來(lái)越強(qiáng)(即識(shí)別真假越來(lái)越簡(jiǎn)單),為生成器提供的梯度會(huì)越來(lái)越小,當(dāng)訓(xùn)練完成時(shí),判別器無(wú)法提供梯度,導(dǎo)致判別器參數(shù)的浪費(fèi)。另外,標(biāo)準(zhǔn)生成對(duì)抗網(wǎng)絡(luò)進(jìn)行判別時(shí),判別器只需要完成一個(gè)任務(wù):對(duì)真實(shí)樣本和生成樣本進(jìn)行判別。為了完成該項(xiàng)任務(wù),判別器參數(shù)中所有與判別相關(guān)的自由度都被限制去完成判別的任務(wù),而正由于判別器過(guò)強(qiáng)的擬合能力導(dǎo)致訓(xùn)練過(guò)程中很難找到生成器與判別器之間的納什平衡,從而引發(fā)網(wǎng)絡(luò)不收斂或崩潰等問題。

      圖1 StackGAN with Pearson correlation框架

      為了更好地限制判別器的能力,借鑒O-GAN的方法改進(jìn)了判別器,讓其同時(shí)完成2個(gè)任務(wù):1)對(duì)圖像進(jìn)行編碼;2)對(duì)圖像進(jìn)行判別。通過(guò)最大化特征向量與輸入向量的皮爾遜相關(guān)系數(shù),增強(qiáng)兩者的線性相關(guān)性,皮爾遜相關(guān)系數(shù)由減去均值并除去標(biāo)準(zhǔn)差得到,所以當(dāng)完成訓(xùn)練時(shí),均值和標(biāo)準(zhǔn)差的變化并不影響兩者的線性相關(guān)性,當(dāng)樣本總體服從正態(tài)分布時(shí),樣本的均值和標(biāo)準(zhǔn)差相互獨(dú)立,即在完成編碼任務(wù)的同時(shí)保留了2個(gè)自由度供判別器所用。另從信息瓶頸[12]的角度來(lái)看,假設(shè)判別器原本有N個(gè)自由度與判別相關(guān),加入皮爾遜重構(gòu)項(xiàng)后,均值和標(biāo)準(zhǔn)差自由度被釋放,剩下N-2個(gè)自由度則被強(qiáng)制與輸入向量進(jìn)行重構(gòu)。為了完成判別的任務(wù),判別器只能讓重要的信息通過(guò)瓶頸,也就是說(shuō),判別器的泛化能力會(huì)有一定提升。判別器結(jié)構(gòu)如圖2所示。

      圖2 多尺度判別器結(jié)構(gòu)示意圖

      如圖2所示,判別器和編碼器具有相似的網(wǎng)絡(luò)結(jié)構(gòu),為共享兩者之間的參數(shù),將原本輸出標(biāo)量的判別器網(wǎng)絡(luò)替換為輸出向量的編碼網(wǎng)絡(luò)。

      圖2中過(guò)程具體表示為:

      (2)

      (3)

      其中:μ為均值;σ為標(biāo)準(zhǔn)差;y為條件向量c和隨機(jī)高斯向量z的組合向量;yj為組合向量y={y1,y2,…,yn}第j個(gè)變量;avg(·)用于計(jì)算平均值;N(·)為去除均值和標(biāo)準(zhǔn)差后的算子。式(3)中3個(gè)統(tǒng)計(jì)量相互正交。

      2個(gè)變量之間的皮爾遜相關(guān)系數(shù)定義為2個(gè)變量之間的協(xié)方差和標(biāo)準(zhǔn)差乘積的比值:

      (4)

      (5)

      由于n?1,那么結(jié)合式(2)可以近似得:

      cos(N(y),N(Di(si),c))。

      (6)

      式(4)表明組合向量與特征向量的皮爾遜相關(guān)系數(shù)為兩者減去均值并除去標(biāo)準(zhǔn)差后的余弦相似度,本研究將該項(xiàng)作為重構(gòu)項(xiàng)加入判別器損失中。

      1.3 多尺度聯(lián)合損失

      在StackGAN-v2中的多尺度圖像分布近似和條件與非條件聯(lián)合分布近似理論下,網(wǎng)絡(luò)輸出多種尺度圖像。各尺度生成器訓(xùn)練時(shí)共享大部分權(quán)值,分別對(duì)應(yīng)了一個(gè)獨(dú)立的判別器,無(wú)條件時(shí)網(wǎng)絡(luò)的輸入為隨機(jī)高斯向量z,加入文本條件后輸入為組合向量y。將判別器改進(jìn)為編碼器后,所有判別器就有了一個(gè)共同的重構(gòu)目標(biāo)(即網(wǎng)絡(luò)的輸入),當(dāng)訓(xùn)練完成時(shí),各尺度圖像編碼后的特征向量都應(yīng)與輸入呈線性相關(guān)。若在編碼過(guò)程中不對(duì)網(wǎng)絡(luò)進(jìn)行約束,會(huì)導(dǎo)致特征向量間相關(guān)性差,使得網(wǎng)絡(luò)難以收斂。為保證重構(gòu)的準(zhǔn)確性和穩(wěn)定性,額外加入一致性重構(gòu)目標(biāo),即強(qiáng)制所有判別器輸出的特征向量皆與輸入向量相關(guān)。

      判別器改進(jìn)為編碼器時(shí)保留了特征向量的2個(gè)自由度(即均值和方差),而判別只需一個(gè)自由度就可完成,所以利用特征向量的均值就可以進(jìn)行判別,則判別器最大化優(yōu)化目標(biāo)為

      (log(avg(Di(xi)))+log(1-avg(Di(si)))+

      (log(avg(Di(xi,c)))+log(1-avg(Di×

      (si,c)))+λρ(y,Di(si,c))),i=0,1,2

      (7)

      其中:xi為第i個(gè)尺度的真實(shí)圖像分布pdata,i,si為自相同尺度的模型分布pGi;z為隨機(jī)高斯輸入向量;y為組合向量;ρ為皮爾遜重構(gòu)項(xiàng),多個(gè)判別器并行訓(xùn)練;LDi表示第i個(gè)判別器損失。前3項(xiàng)為無(wú)條件損失,后3項(xiàng)為條件損失,設(shè)置λ=0.5。

      生成器最小化優(yōu)化目標(biāo):

      λρ(y,Di(si,c))),i=0,1,2。

      (8)

      其中LG為總生成器損失,網(wǎng)絡(luò)階數(shù)m設(shè)置為3,由于皮爾遜重構(gòu)項(xiàng)與生成器也有關(guān)系,因此生成損失中也加入了皮爾遜重構(gòu)項(xiàng)。

      2 實(shí)驗(yàn)結(jié)果與分析

      實(shí)驗(yàn)平臺(tái)的配置為 Intel Xeon E5-2687 W八核3.1 GHz處理器、32 GiB內(nèi)存、GTX1080Ti 顯卡以及 Ubuntu 16.04 操作系統(tǒng),并使用基于Python編程語(yǔ)言的 Pytroch深度學(xué)習(xí)框架。

      2.1 數(shù)據(jù)集及評(píng)估指標(biāo)

      1)數(shù)據(jù)集。在公開鳥類數(shù)據(jù)集CUB[13]上評(píng)估了本模型。CUB數(shù)據(jù)集包含了200類別的11 788張鳥類圖像,其中8 855張樣本作為訓(xùn)練集,2 933張樣本作為測(cè)試集,每張圖像都另外注釋了10個(gè)文本描述[14]。使用了預(yù)先訓(xùn)練的文本編碼器將每個(gè)句子編碼為1024維度的文本嵌入向量,再進(jìn)行條件增強(qiáng)處理得到128維的條件向量。

      2)評(píng)估指標(biāo)。選擇Inception score[15](IS)為定量評(píng)估指標(biāo),評(píng)估方法表示為

      IS=exp(ExDKL(p(y|x)‖p(y)))。

      (9)

      其中:x為一個(gè)生成的樣本;y為Inception模型預(yù)測(cè)的標(biāo)簽。這個(gè)指標(biāo)表示為一個(gè)好的模型應(yīng)該具備多樣性,因此邊緣分布p(y)和條件分布p(y|x)的KL散度應(yīng)該足夠大。

      2.2 實(shí)驗(yàn)細(xì)節(jié)

      實(shí)驗(yàn)使用的基礎(chǔ)框架為StackGAN-v2,使用了StackGAN-v2的生成器網(wǎng)絡(luò),同樣分三級(jí)堆疊網(wǎng)絡(luò),分別輸出分辨率為64×64,128×128,256×256的圖像。由圖1可知,第一級(jí)網(wǎng)絡(luò):將隨機(jī)向量z和條件向量c組合得到輸入向量y,經(jīng)過(guò)全連接網(wǎng)絡(luò)重組后再通過(guò)4個(gè)上采樣塊得到N個(gè)尺寸大小為64×64的特征圖,N設(shè)置為64;第二級(jí)網(wǎng)絡(luò)由一個(gè)聯(lián)合層(將條件向量拓展后與特征圖組合),2個(gè)殘差塊和一個(gè)上采樣塊組成,第三級(jí)網(wǎng)絡(luò)與第二級(jí)網(wǎng)絡(luò)一致。圖2中每個(gè)判別器都有無(wú)條件特征向量和有條件特征向量2個(gè)輸出,向量維度分別為100和128。StackGAN-v2原網(wǎng)絡(luò)參數(shù)不變,改進(jìn)判別器后,計(jì)算并最大化特征向量與輸入組合向量間的皮爾遜相關(guān)系數(shù),當(dāng)相關(guān)系數(shù)為1時(shí),兩者完全線性相關(guān)。網(wǎng)絡(luò)模型均采用學(xué)習(xí)率為0.000 2的Adam求解器,求解器動(dòng)量設(shè)置為[0.5,0.999],批次大小為24,迭代600個(gè)周期。

      2.3 結(jié)果對(duì)比

      2.3.1 多樣性評(píng)估與定性結(jié)果對(duì)比

      為了證明改進(jìn)判別器和多尺度聯(lián)合損失的有效性,通過(guò)與各種主流的文本到圖像生成的網(wǎng)絡(luò)模型進(jìn)行結(jié)果對(duì)比,利用IS評(píng)估指標(biāo)來(lái)衡量模型生成圖像的客觀性和多樣性。按照StackGAN的實(shí)驗(yàn)設(shè)置,總共采樣了約30 000張模型生成的隨機(jī)圖像來(lái)評(píng)估模型的該指標(biāo)。

      表1 Inception score對(duì)比結(jié)果

      由表1結(jié)果可知,本模型較之前不同的模型都有了很大的提高,IS較StackGAN-v2提高了0.32,這表明本模型生成的樣本多樣性明顯強(qiáng)于其他模型。另外特別詳細(xì)地與StackGAN-v2進(jìn)行了結(jié)果比較。定性地比較了2種模型在同一個(gè)文本描述條件和隨機(jī)噪聲情況下生成的圖像。結(jié)果如圖3所示。

      圖3中結(jié)果都是在數(shù)據(jù)集CUB的測(cè)試集上得到,本模型與StackGAN-v2同樣生成分辨率256×256的樣本。由對(duì)比結(jié)果可知,圖3中的(a)和(b),(c)和(d),(e)和(f),每?jī)闪袌D都對(duì)應(yīng)同一種鳥類,分別屬于3類不同的鳥,每個(gè)樣本都由不同的文本描述生成。

      在圖3(a)和(b)中,StackGAN-v2生成的樣本雖然在毛色和特征上與文本描述一致,但在物體結(jié)構(gòu)上表現(xiàn)得較為糟糕,而本模型生成的樣本不僅與語(yǔ)義一致,在鳥的結(jié)構(gòu)上也表現(xiàn)得更為圓滑,該問題同樣體現(xiàn)在(c)和(d)中,(d)甚至已經(jīng)失去了鳥的形態(tài)。在(e)和(f)中,2種模型生成的樣本在結(jié)構(gòu)上表現(xiàn)良好,而區(qū)分在黑色的頭部該特征,本模型表現(xiàn)與原圖一致,而StackGAN-v2并沒有捕捉到該特征。在大多數(shù)情況下,特征的生成取決于文本中描述的不同特征組合,生成樣本的特征都會(huì)傾向于訓(xùn)練的標(biāo)簽原圖,不同的特征組成不同的鳥,不過(guò)主要形態(tài)和紋理細(xì)節(jié)都基本與原圖一致。本模型在整體的結(jié)構(gòu)上的表現(xiàn)強(qiáng)于StackGAN-v2,由此認(rèn)為這是由于生成損失和判別損失中加入的皮爾遜重構(gòu)項(xiàng)對(duì)空間結(jié)構(gòu)敏感,并且多級(jí)網(wǎng)絡(luò)的一致性約束了生成樣本的特征與原圖特征之間的差異。生成樣本姿態(tài)對(duì)比如圖4所示。

      圖4(a)和(b)為同一圖像的不同文本描述條件下生成的樣本,圖4(c)、(d)、(e)和(f)為同一類鳥的不同文本描述條件下生成的樣本。以上圖像的不同主要體現(xiàn)在姿態(tài),本模型在不同條件下的姿態(tài)變化明顯優(yōu)于StackGAN-v2,在表3中的IS指標(biāo)也說(shuō)明了多樣性優(yōu)于StackGAN-v2。改進(jìn)的判別器由于需要同時(shí)進(jìn)行編碼和判別的任務(wù),導(dǎo)致判別性能要弱于普通判別器,基于信息瓶頸原理分析,對(duì)于細(xì)節(jié)和一些微小的差異,本判別器會(huì)對(duì)其進(jìn)行限制和忽略,而對(duì)于明顯的特征、色彩和物體空間結(jié)構(gòu),泛化性能優(yōu)于普通判別器,這有益于對(duì)大量樣本判別。實(shí)驗(yàn)表明,對(duì)判別器的改進(jìn)和多級(jí)網(wǎng)絡(luò)的一致性約束,提高了生成樣本的多樣性和增強(qiáng)了對(duì)鳥類邊緣結(jié)構(gòu)的約束。

      圖3 結(jié)果對(duì)比圖

      圖4 生成樣本姿態(tài)對(duì)比

      圖5 重構(gòu)樣本到原生成樣本的變化過(guò)程圖

      2.3.2 重構(gòu)插值對(duì)比

      在相同文本描述條件下,在組合向量和特征向量之間進(jìn)行插值評(píng)估,具體可表示為

      (10)

      3 結(jié)束語(yǔ)

      由于標(biāo)準(zhǔn)生成對(duì)抗網(wǎng)絡(luò)中判別器訓(xùn)練速度普遍快于生成器,當(dāng)判別器完全收斂后無(wú)法為生成器提供梯度,導(dǎo)致生成器無(wú)法收斂,從而使得生成樣本的質(zhì)量難以提升。另外文本到圖像生成任務(wù)中缺乏推理模型,缺少特征提取的過(guò)程,導(dǎo)致模型對(duì)圖像整體的結(jié)構(gòu)不敏感,從而引發(fā)模式崩潰等問題。提出了一種結(jié)合最大化皮爾遜相關(guān)系數(shù)的文本到圖像生成模型,該模型將判別器進(jìn)行了改進(jìn),令判別器能同時(shí)判別和編碼,為模型提供了推理模型的同時(shí)限制判別器的判別能力,增強(qiáng)了判別器的泛化性能,使判別器和生成器的訓(xùn)練更容易達(dá)到納什平衡。為了增強(qiáng)多尺度圖像編碼的一致性,還提出了多尺度聯(lián)合損失,令各尺度特征向量重構(gòu)目標(biāo)為輸入組合向量,建立一致的重構(gòu)目標(biāo)。實(shí)驗(yàn)結(jié)果表明,該方法有效提高了生成樣本的多樣性和圖像質(zhì)量,插值實(shí)驗(yàn)表明,判別器能有效作為編碼器生成特征向量。

      猜你喜歡
      皮爾遜特征向量重構(gòu)
      二年制職教本科線性代數(shù)課程的幾何化教學(xué)設(shè)計(jì)——以特征值和特征向量為例
      克羅內(nèi)克積的特征向量
      長(zhǎng)城敘事的重構(gòu)
      攝影世界(2022年1期)2022-01-21 10:50:14
      現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
      現(xiàn)代統(tǒng)計(jì)學(xué)之父:卡爾·皮爾遜
      Excel在水文學(xué)教學(xué)中的應(yīng)用
      北方大陸 重構(gòu)未來(lái)
      卡方分布的探源
      一類特殊矩陣特征向量的求法
      北京的重構(gòu)與再造
      商周刊(2017年6期)2017-08-22 03:42:36
      吉木乃县| 分宜县| 苏尼特左旗| 灵璧县| 大同县| 苏尼特左旗| 利辛县| 漯河市| 虞城县| 靖西县| 华坪县| 长寿区| 自贡市| 桑日县| 紫阳县| 杂多县| 和田县| 贵南县| 渭源县| 永善县| 九龙坡区| 松滋市| 太和县| 体育| 电白县| 濮阳市| 阜阳市| 凤冈县| 峡江县| 叶城县| 蕲春县| 霍林郭勒市| 云林县| 连州市| 集安市| 富顺县| 屏东县| 聊城市| 仁布县| 沁源县| 古田县|