申瑞彩,翟俊海,侯瓔真
(河北大學(xué) 數(shù)學(xué)與信息科學(xué)學(xué)院,河北省機(jī)器學(xué)習(xí)與計(jì)算智能重點(diǎn)實(shí)驗(yàn)室,河北 保定 071002)
隨著深度學(xué)習(xí)技術(shù)的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)[1]已在計(jì)算機(jī)視覺(jué)、語(yǔ)言識(shí)別、自然語(yǔ)言處理等領(lǐng)域取得成功,然而這些成就大都集中在判別模型上.因深度生成模型自身存在弊端導(dǎo)致其發(fā)展緩慢,直至Goodfellow等[2]提出生成對(duì)抗網(wǎng)絡(luò),生成模型才得以快速發(fā)展.
生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)依據(jù)納什均衡思想采用對(duì)抗訓(xùn)練來(lái)進(jìn)行數(shù)據(jù)生成,在理想情況下可擬合出真實(shí)數(shù)據(jù)分布.然而在訓(xùn)練時(shí)模型經(jīng)常出現(xiàn)訓(xùn)練不穩(wěn)定、難以收斂、模式崩潰、梯度消失或爆炸等問(wèn)題.為解決這些問(wèn)題相繼出現(xiàn)許多GAN的變體,在2018年提出的MAD-GAN[3](multi-agent diverse generative adversarial networks)模型中,作者認(rèn)為不同模式之間存在較大差異,因此引入多個(gè)生成網(wǎng)絡(luò)并最大化網(wǎng)絡(luò)間的差異,以強(qiáng)制網(wǎng)絡(luò)學(xué)習(xí)更多模式來(lái)緩解上述問(wèn)題.與MAD-GAN不同,本文認(rèn)為相同數(shù)據(jù)集下不同模式間雖有差異,但仍有聯(lián)系,因此在本文的模型中引入?yún)f(xié)同工作機(jī)制以允許多個(gè)生成網(wǎng)絡(luò)進(jìn)行信息交流,加速網(wǎng)絡(luò)學(xué)習(xí).一味地放大數(shù)據(jù)間的差異,無(wú)疑會(huì)增加網(wǎng)絡(luò)負(fù)擔(dān).因此如何在保證性能的基礎(chǔ)上不增加額外參數(shù)量,成為了一項(xiàng)值得研究的內(nèi)容.
本文針對(duì)在生成模型中存在的問(wèn)題,提出了一種具有集成學(xué)習(xí)思想的多生成器生成對(duì)抗網(wǎng)絡(luò)模型,包含多個(gè)生成網(wǎng)絡(luò),每個(gè)生成網(wǎng)絡(luò)均采用殘差網(wǎng)絡(luò)進(jìn)行搭建,并在生成網(wǎng)絡(luò)間引入?yún)f(xié)同工作機(jī)制,加快模型獲取信息;最后將多個(gè)生成網(wǎng)絡(luò)的特征圖進(jìn)行融合作為最終圖像輸入到判別網(wǎng)絡(luò)中.傳統(tǒng)GAN中采用JS(Jensen-Shannon)散度作為損失函數(shù),易產(chǎn)生梯度消失問(wèn)題,從而加大GAN的訓(xùn)練難度,為避免這一問(wèn)題,本文引入WGAN(Wasserstein GAN)[4]中提出的Wasserstein距離以及梯度懲罰作為模型的損失函數(shù).為了驗(yàn)證模型的有效性,在多個(gè)數(shù)據(jù)集上進(jìn)行大量的實(shí)驗(yàn),結(jié)果表明本文提出的模型優(yōu)于以往的許多模型.
本文的主要貢獻(xiàn)包括以下幾個(gè)方面:
1) 在各生成器間引入?yún)f(xié)同工作機(jī)制,使得該網(wǎng)絡(luò)對(duì)圖像特征進(jìn)行充分提?。?/p>
2) 引入Wasserstein距離來(lái)度量2個(gè)分布之間的差異,并加入梯度懲罰方法;
3) 使用加權(quán)特征圖融合方法增加樣本細(xì)節(jié)信息;
4) 較大地改善了模式崩潰問(wèn)題并提高了生成樣本質(zhì)量和多樣性以及加快了模型的收斂速度.
生成模型可成功學(xué)習(xí)數(shù)據(jù)的概率分布,愈來(lái)愈成為研究熱點(diǎn).應(yīng)用較多的有基于有向圖模型的赫姆霍茲?rùn)C(jī)[5](Helmholtz machines)、變分自編碼器[6](variational auto-encoder, VAE)、基于無(wú)向圖模型的受限玻爾茲曼機(jī)[7](restricted Boltzmann machines, RBM)和深度玻爾茲曼機(jī)[8](deep Boltzmann machines, DBM)等.當(dāng)被建模變量為高維度時(shí),上述模型將帶來(lái)指數(shù)級(jí)別的計(jì)算量,為解決這一問(wèn)題,提出了生成對(duì)抗網(wǎng)絡(luò)(GAN),隨后根據(jù)不同任務(wù)出現(xiàn)了不同變體.
該模型在訓(xùn)練時(shí)易出現(xiàn)模式崩潰[9-10]、訓(xùn)練難以收斂以及梯度消失或爆炸[11]等問(wèn)題.為改善這些問(wèn)題,Denton等[12]提出拉普拉斯金字塔算法實(shí)現(xiàn)了GAN生成圖像從粗略到精細(xì)的轉(zhuǎn)變,從而改善了生成圖像的質(zhì)量;Liu等[13]提出耦合式生成對(duì)抗網(wǎng)絡(luò)(coupled generative adversarial network, Co-GAN)在不同域中訓(xùn)練可共享參數(shù)的生成器以學(xué)習(xí)數(shù)據(jù)的聯(lián)合分布.Mirza等[14]提出條件生成對(duì)抗網(wǎng)絡(luò)(conditional generative adversarial nets, CGAN)將帶標(biāo)簽數(shù)據(jù)作為輸入,通過(guò)引入類(lèi)別信息顯著提高生成圖像質(zhì)量,但獲取帶標(biāo)簽數(shù)據(jù)仍十分困難,因此該方法并未廣泛使用.Oord等[15]提出的模型可以任意向量為條件從而提高生成圖像的質(zhì)量.Arjovsky等提出WGAN(Wasserstein GAN)模型,通過(guò)使用Wasserstein距離并將判別網(wǎng)絡(luò)約束在1-Lipschitz函數(shù)范圍內(nèi),使得生成器更好地獲得梯度信息,有效地改善了模式崩潰問(wèn)題,這一方法在后續(xù)的許多工作中均有使用.
Ghosh等[3]提出的MAD-GAN(multi-agent diverse generative adversarial networks)模型在Co-GAN的基礎(chǔ)上提出,通過(guò)最大化生成網(wǎng)絡(luò)間的差異,強(qiáng)制網(wǎng)絡(luò)去學(xué)習(xí)真實(shí)數(shù)據(jù)的不同模式.本文的工作正是受這一模型啟發(fā),但與之不同.雖然同一數(shù)據(jù)集的不同模式間存在差異,但不可否認(rèn)其仍存在相似性.因此本文在構(gòu)造多個(gè)生成器的同時(shí)引入?yún)f(xié)同工作機(jī)制,使生成器間相互學(xué)習(xí),在保留全局相似的同時(shí)具備局部差異.實(shí)驗(yàn)證明這種全新的具有集成學(xué)習(xí)思想的協(xié)作式生成對(duì)抗網(wǎng)絡(luò)不僅可提高模型的生成能力還克服了模型存在的不足.另外,MAD-GAN采用與GAN相同的損失函數(shù),生成網(wǎng)絡(luò)采用卷積疊加的方式,這對(duì)模型的性能并無(wú)太大幫助,為提升模型性能,生成器采用殘差網(wǎng)絡(luò)進(jìn)行搭建,并創(chuàng)新性的引入加權(quán)特征圖融合的方法提升生成圖像的細(xì)節(jié),同時(shí)將Wasserstein距離以及梯度懲罰引入損失函數(shù)中,通過(guò)實(shí)驗(yàn)證明了該方法的有效性.
本節(jié)主要介紹用到的基礎(chǔ)知識(shí),包括生成對(duì)抗網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)[16]以及集成學(xué)習(xí)[17].
GAN由生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)2部分組成,二者在訓(xùn)練過(guò)程中構(gòu)成一種動(dòng)態(tài)的“博弈”[18]過(guò)程,模型如圖1所示.在GAN中生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)本質(zhì)上均為可微函數(shù),二者緊密耦合,互相對(duì)抗.生成網(wǎng)絡(luò)通過(guò)輸入隨機(jī)變量z產(chǎn)生假樣本,從而擬合出真實(shí)數(shù)據(jù)的潛在分布.判別網(wǎng)絡(luò)的輸入包含2部分,生成網(wǎng)絡(luò)的輸出以及真實(shí)數(shù)據(jù),其目標(biāo)為正確區(qū)分二者.
圖1 生成對(duì)抗網(wǎng)絡(luò)模型Fig.1 Model of generative adversarial networks
2015年何凱明等首次提出殘差網(wǎng)絡(luò)(ResNet),該網(wǎng)絡(luò)結(jié)構(gòu)既未增加額外參數(shù),又未提高計(jì)算復(fù)雜度,其中的快捷連接(shortcut connection)還可解決網(wǎng)絡(luò)退化問(wèn)題,在圖像生成中具有廣泛應(yīng)用.恒等快捷連接可越過(guò)1個(gè)或多個(gè)卷積層,通過(guò)執(zhí)行恒等映射將輸出添加到堆疊層的輸出中,從而保證信息完整性.實(shí)驗(yàn)結(jié)果表明,ResNet模型比VGGNet和GoogleNet的分類(lèi)準(zhǔn)確率都高[19].
殘差網(wǎng)絡(luò)中的主要組成部分為殘差塊,其基本結(jié)構(gòu)如圖2所示.
圖2 殘差塊的基本結(jié)構(gòu)Fig.2 Basic structure of the residual block
圖2中x為輸入,F(xiàn)(x)表示x經(jīng)過(guò)2層的加權(quán)和激活函數(shù)得到的輸出,可表示為F(x)=W2σ(W1x),其中W1和W2代表網(wǎng)絡(luò)中的參數(shù),σ代表使用的激活函數(shù).
集成學(xué)習(xí)是通過(guò)構(gòu)建并集成多個(gè)弱學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)的一種方法,也可稱(chēng)為基于委員會(huì)的學(xué)習(xí)、多分類(lèi)器系統(tǒng)等,其模型如圖3所示.
圖3 集成學(xué)習(xí)示意Fig.3 Ensemble learning diagram
根據(jù)集成學(xué)習(xí)方法中的基學(xué)習(xí)器間是否存在依賴(lài)關(guān)系可分為2類(lèi):存在強(qiáng)依賴(lài)關(guān)系,即基學(xué)習(xí)器必須串行,代表為boosting算法;不存在強(qiáng)依賴(lài)關(guān)系,即基學(xué)習(xí)器可以并行生成,代表為bagging算法.
集成學(xué)習(xí)的集成策略主要分為3種.平均法:常用于回歸問(wèn)題,分為算術(shù)平均與加權(quán)平均;投票法:常用于分類(lèi)問(wèn)題,可分為相對(duì)多數(shù)投票法、絕對(duì)多數(shù)投票法、加權(quán)投票法;學(xué)習(xí)法:將得到的一系列初級(jí)學(xué)習(xí)器的結(jié)果作為次級(jí)學(xué)習(xí)器的輸入,從而進(jìn)行集成,該方法的典型代表為Stacking方法.
傳統(tǒng)GAN網(wǎng)絡(luò)由單生成網(wǎng)絡(luò)與單判別網(wǎng)絡(luò)組成,訓(xùn)練中采用的JS散度易帶來(lái)訓(xùn)練不穩(wěn)定、梯度消失或爆炸等問(wèn)題,而WGAN模型中提出的Wasserstein距離很好地解決了這一問(wèn)題.另外,僅使用卷積的疊加對(duì)網(wǎng)絡(luò)進(jìn)行搭建,會(huì)導(dǎo)致網(wǎng)絡(luò)獲取信息受限以及訓(xùn)練不穩(wěn)定,從而使得生成圖像質(zhì)量較差、多樣性較低,由于殘差網(wǎng)絡(luò)獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu),較好地緩解了這一問(wèn)題.因此為解決在GAN中存在的一系列問(wèn)題,本文提出一種具有集成學(xué)習(xí)思想的多生成器生成對(duì)抗網(wǎng)絡(luò)模型,主要包含集成生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)2部分,模型如圖4所示.
圖4 本文提出的模型Fig.4 Model proposed in this paper
集成生成系統(tǒng)采用深度殘差網(wǎng)絡(luò)進(jìn)行搭建,每個(gè)生成器中包含3部分,前部、中部和后部共9層.前部包含3個(gè)卷積層,后部對(duì)應(yīng)2個(gè)轉(zhuǎn)置卷積以及1個(gè)卷積層,中間為3個(gè)殘差網(wǎng)絡(luò)模塊,這些模塊通過(guò)恒等快捷連接來(lái)解決網(wǎng)絡(luò)存在的問(wèn)題,每個(gè)生成網(wǎng)絡(luò)的結(jié)構(gòu)如圖5所示.各生成網(wǎng)絡(luò)間的卷積核大小與卷積步長(zhǎng)均不相同,不同大小的卷積核意味著感受閾大小不同,這促使了每個(gè)生成網(wǎng)絡(luò)獲取不同的圖像信息,加上使用不同的卷積步長(zhǎng)進(jìn)一步保證了各生成網(wǎng)絡(luò)間生成圖像的差異.
該集成生成系統(tǒng)主要包括生成器間的集成與協(xié)同工作2部分.
圖5 單個(gè)生成網(wǎng)絡(luò)結(jié)構(gòu)Fig.5 Single generative network structure diagram
3.1.1 生成器間的集成
模型中集成生成器的數(shù)量為k,由于各生成器具有相同的目標(biāo),不存在影響強(qiáng)弱之分,因此模型中的生成器采用并列排列.若各生成器采用相同的結(jié)構(gòu)進(jìn)行搭建,在訓(xùn)練時(shí)將趨近于一種網(wǎng)絡(luò)表達(dá).因此,為避免這種情況,在搭建網(wǎng)絡(luò)時(shí)秉承大體相同細(xì)節(jié)不同的方法,具體表現(xiàn)為各生成網(wǎng)絡(luò)擁有相同的卷積層數(shù),不同之處在于使用的卷積核大小以及卷積步長(zhǎng).
3.1.2 協(xié)同工作
以CelebA數(shù)據(jù)集為例,發(fā)現(xiàn)不同圖像特征間存在差異.例如男性與女性,老人、中年人與孩童,或是人物背景間明暗的不同.首先本文認(rèn)同這種差異的存在,但分析人臉五官的結(jié)構(gòu)形狀、所處位置以及明暗關(guān)系等發(fā)現(xiàn)這些模式間又存在一定的相似性.因此本文決定使用多個(gè)生成器捕捉信息并加速網(wǎng)絡(luò)學(xué)習(xí),同時(shí)由于特征間相似性的存在本文引入了可讓多生成器進(jìn)行交流的學(xué)習(xí)方式,稱(chēng)為生成器間的協(xié)同工作.這一學(xué)習(xí)方式可加速網(wǎng)絡(luò)擬合真實(shí)數(shù)據(jù)特征從而減少訓(xùn)練中易出現(xiàn)的問(wèn)題.
該協(xié)同工作機(jī)制主要包含各生成器的參數(shù)共享以及特征圖融合2部分.
由于同一數(shù)據(jù)集中圖像的低維特征往往是相似的,采用參數(shù)共享不僅可減少參數(shù)量,還可縮短網(wǎng)絡(luò)的訓(xùn)練時(shí)間.具體地參數(shù)共享策略為在多個(gè)生成網(wǎng)絡(luò)中除了輸入層以及最后2層卷積層不進(jìn)行參數(shù)共享,其余部分均進(jìn)行參數(shù)共享.同時(shí)為了保證各生成器生成樣本的多樣性,文中對(duì)多個(gè)生成網(wǎng)絡(luò)設(shè)置不同大小的卷積核以及卷積步長(zhǎng).在每次進(jìn)行卷積操作前對(duì)特征圖進(jìn)行邊緣補(bǔ)零(zero-padding)處理,以防止圖像邊緣信息點(diǎn)丟失,并確保輸入與輸出維度相同.卷積結(jié)束后對(duì)特征圖進(jìn)行實(shí)例歸一化(instance normalization)處理.最后卷積激活層中采用LeakyReLU(leaky rectified linear unit)作為激活函數(shù),轉(zhuǎn)置卷積激活層中使用ReLU(rectified linear unit).
關(guān)于特征圖融合,本文采用加權(quán)融合的方法將多張?zhí)卣鲌D融合為一張圖像,如圖6所示.根據(jù)各生成網(wǎng)絡(luò)的性能賦予不同的權(quán)重,加權(quán)得到最終的特征圖.該方法有效地規(guī)避了單生成器學(xué)習(xí)能力有限的弊端,通過(guò)融合各生成器生成的圖像,極大地提升了特征圖含有的信息量.
圖6 加權(quán)特征融合示意Fig.6 Weighted feature fusion schematic
判別網(wǎng)絡(luò)采用卷積串聯(lián)的方式,包含4個(gè)卷積層,分別有64、128、256、512個(gè)卷積核.末端為2個(gè)全連接層,第1個(gè)全連接層有1 024個(gè)輸出,第2個(gè)全連接層有1個(gè)輸出,網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示.
圖7 判別網(wǎng)絡(luò)結(jié)構(gòu)Fig.7 Discriminator structure diagram
GAN采用JS散度作為評(píng)價(jià)函數(shù),由于真實(shí)數(shù)據(jù)分布與生成數(shù)據(jù)分布之間總是出現(xiàn)不可忽略的重疊,此情況下JS散度為常數(shù)log 2,在采用梯度下降法更新參數(shù)時(shí),生成網(wǎng)絡(luò)學(xué)習(xí)不到任何信息,從而帶來(lái)梯度消失問(wèn)題.然而,WGAN中的Wasserstein距離的平滑性可以很好地提供有意義的梯度.因此模型中引入Wasserstein距離作為評(píng)價(jià)函數(shù).
集成生成網(wǎng)絡(luò)系統(tǒng)的損失由2部分組成:原始GAN的對(duì)抗損失以及各生成器的協(xié)同工作損失,其損失函數(shù)如式(1)所示:
G*=argmin(W(Pdata‖Pg)-βJSDπ(PG1,PG2,…,PGK)),
(1)
其中,Pg代表多個(gè)生成網(wǎng)絡(luò)的聯(lián)合分布,前一項(xiàng)是原始GAN中的損失,以驅(qū)使生成分布接近真實(shí)數(shù)據(jù)分布,后一項(xiàng)用來(lái)調(diào)節(jié)生成網(wǎng)絡(luò)間生成更多的細(xì)節(jié)信息.判別器將判別誤差傳回到各生成網(wǎng)絡(luò)以更新其參數(shù).
判別網(wǎng)絡(luò)通過(guò)引入梯度懲罰來(lái)衡量生成樣本與真實(shí)樣本之間的推土距離,可表示為式(2)的形式.
LD=Ex~PdataD(x)-Ex-pgD(x)+λE(‖xD(x)‖-1)2,
(2)
其中最后一項(xiàng)是梯度懲罰項(xiàng),Pg是多個(gè)生成器生成樣本的聯(lián)合分布.
除了介紹實(shí)驗(yàn)的相關(guān)信息(實(shí)驗(yàn)的數(shù)據(jù)集、實(shí)驗(yàn)環(huán)境、實(shí)驗(yàn)的評(píng)價(jià)指標(biāo))外,還從引入集成學(xué)習(xí)、引入?yún)f(xié)同工作機(jī)制等方面驗(yàn)證了提出的模型的有效性,最后將文中的模型與多種模型進(jìn)行了對(duì)比.
本文在驗(yàn)證模型的有效性時(shí),采用了訓(xùn)練GAN常用的數(shù)據(jù)集,具體的數(shù)據(jù)集信息如表1所示.文中所有實(shí)驗(yàn)均在Tensorflow平臺(tái)下進(jìn)行構(gòu)建,使用Python進(jìn)行編程,實(shí)驗(yàn)軟硬件配置信息如表2所示.
表1 數(shù)據(jù)集的使用信息
表2 實(shí)驗(yàn)軟硬件環(huán)境配置
對(duì)于各模型生成的樣本除了采用主觀觀測(cè)之外,還引入了常用的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià).具體地使用了InceptionScore(IS)、FréchetInceptionDistance(FID)、KernelInceptionDistance(KID)3種評(píng)價(jià)指標(biāo).
若生成樣本與真實(shí)樣本越接近則IS值越大;若生成樣本與真實(shí)樣本在特征層上的距離越相近,其FID值越小;若生成樣本與真實(shí)樣本之間的差異越小,則其KID值越小.
以往許多工作大都在單生成器的基礎(chǔ)上進(jìn)行,實(shí)驗(yàn)效果往往不太理想,為避免這一問(wèn)題引入了集成學(xué)習(xí)思想.設(shè)置2組實(shí)驗(yàn)進(jìn)行對(duì)比,分別記為采用集成學(xué)習(xí)組與不采用集成學(xué)習(xí)組,分別在MNIST、Cifar10、CelebA數(shù)據(jù)集下進(jìn)行實(shí)驗(yàn),結(jié)果如圖8~10所示.
a.不采用集成學(xué)習(xí)思想;b.采用集成學(xué)習(xí)思想.圖8 MNIST數(shù)據(jù)集上結(jié)果對(duì)比Fig.8 Comparison of the results on the MNIST
a.不采用集成學(xué)習(xí)思想;b.采用集成學(xué)習(xí)思想.圖9 Cifar10數(shù)據(jù)集上結(jié)果對(duì)比Fig.9 Comparison of the results on the Cifar10
通過(guò)圖8~10可明顯看出,不采用集成學(xué)習(xí)思想的模型生成樣本在多樣性以及質(zhì)量方面均不如采用集成學(xué)習(xí)方法的模型.在圖8a中,生成的手寫(xiě)字符出現(xiàn)難以辨認(rèn)的現(xiàn)象;而右圖采用集成學(xué)習(xí)思想的模型樣本較為清晰與左圖形成鮮明的對(duì)比.在圖9a中,矩形框標(biāo)注處為梯度彌散區(qū),該部分樣本出現(xiàn)異?,F(xiàn)象,生成樣本可辨識(shí)性較差;圖9b采用集成學(xué)習(xí)思想的模型樣本較為清晰,多樣性較強(qiáng).在圖10a中由于不采用集成學(xué)習(xí)思想,生成樣本多樣性較差,且多次出現(xiàn)“鬼臉”現(xiàn)象,而在圖10b上很大程度地緩解了這一問(wèn)題.
a.不采用集成學(xué)習(xí)思想;b.采用集成學(xué)習(xí)思想.圖10 CelebA數(shù)據(jù)集上結(jié)果對(duì)比Fig.10 Comparison of the results on the CelebA
為驗(yàn)證這一方法的可行性,在3個(gè)數(shù)據(jù)集下進(jìn)行了可協(xié)同工作與不可協(xié)同工作2種對(duì)比實(shí)驗(yàn),并從參數(shù)量以及訓(xùn)練一輪所需時(shí)間上進(jìn)行了比較.結(jié)果如表3所示.
表3 3種數(shù)據(jù)集下2種方法的總參數(shù)量以及每輪迭代所需時(shí)間對(duì)比
通過(guò)表3可知,在3種數(shù)據(jù)集下,可協(xié)同工作機(jī)制的參數(shù)量與不可協(xié)同工作機(jī)制的參數(shù)數(shù)量相比減少了近26%,這在節(jié)省資源開(kāi)銷(xiāo)方面具有重大意義.
該部分主要與DCGAN、MAD-GAN以及WGAN進(jìn)行對(duì)比,在相同的環(huán)境下進(jìn)行實(shí)驗(yàn),并采用相同的評(píng)價(jià)指標(biāo)對(duì)生成樣本進(jìn)行評(píng)價(jià).
MNIST數(shù)據(jù)集:
在MNIST數(shù)據(jù)集上生成模型的輸入為64維的向量,經(jīng)reshape后為4*4*128,后經(jīng)過(guò)一系列變換為28*28*1.不同模型生成樣本如圖11所示.通過(guò)圖11可知,幾種模型在10 epochs時(shí)均達(dá)到收斂狀態(tài),且本文所提方法無(wú)論是在生成樣本質(zhì)量還是多樣性上均最優(yōu),其次為采用了強(qiáng)制學(xué)習(xí)思想的MAD-GAN模型,由于DCGAN模型使用的損失函數(shù)以及網(wǎng)絡(luò)的搭建都存在一些問(wèn)題,因此DCGAN模型表現(xiàn)不佳.
圖11 MNIST數(shù)據(jù)集上不同模型生成的樣本對(duì)比Fig.11 Comparison of samples generated by different models on the MNIST
為了更精確地驗(yàn)證幾種模型性能上的差異,在不同評(píng)價(jià)指標(biāo)下進(jìn)行了評(píng)價(jià),實(shí)驗(yàn)結(jié)果如表4所示.通過(guò)表4可看出本文提出的模型表現(xiàn)最佳,其次為MAD-GAN以及WGAN模型,由于DCGAN模型易出現(xiàn)梯度彌散情況,導(dǎo)致了DCGAN表現(xiàn)較差.
表4 MNIST上各模型的評(píng)價(jià)指標(biāo)得分情況
Cifar10數(shù)據(jù)集:
在Cifar10數(shù)據(jù)集上生成模型的輸入為128維的向量,經(jīng)reshape后為4*4*128,后經(jīng)過(guò)一系列變換為32*32*3.不同模型生成樣本如圖12所示.
圖12 Cifar10數(shù)據(jù)集上不同模型生成的樣本對(duì)比Fig.12 Comparison of samples generated by different models on the Cifar10
通過(guò)圖12可看出本文提出的模型無(wú)論是在生成樣本質(zhì)量還是多樣性上均明顯優(yōu)于幾種對(duì)比模型.
為了進(jìn)一步的驗(yàn)證本文提出的模型與幾種對(duì)比模型在性能上的差異,在不同評(píng)價(jià)指標(biāo)下對(duì)生成樣本進(jìn)行了評(píng)價(jià),實(shí)驗(yàn)結(jié)果如表5所示.通過(guò)表5可知,本文模型在3種評(píng)價(jià)指標(biāo)上均最優(yōu),其次為MAD-GAN以及WGAN模型,最后為DCGAN模型,這很好地證明了本文提出方法的有效性.
表5 Cifar10上各模型的評(píng)價(jià)指標(biāo)得分情況
CelebA數(shù)據(jù)集:
在CelebA數(shù)據(jù)集上生成模型的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)置可大致參考MNIST上的網(wǎng)絡(luò)結(jié)構(gòu).與MNIST的結(jié)構(gòu)的主要區(qū)別為輸入輸出形狀的不同.輸入為128維的向量,經(jīng)reshape后為4*4*128,后經(jīng)過(guò)一系列變換為64*64*3.
本文提出的模型黃色方框下很好地體現(xiàn)了生成樣本的多樣性特點(diǎn),具體體現(xiàn)在性別、發(fā)色、年齡、表情、有無(wú)配飾等方面;MAD-GAN模型綠色方框處出現(xiàn)了頭發(fā)與背景融合的現(xiàn)象;WGAN模型一定程度上緩解了模式崩潰問(wèn)題,但生成的圖像在這一模型中更關(guān)注于同一面部特征;DCGAN模型多次出現(xiàn)了“鬼臉”以及彌散的情況.如圖13所示.
圖13 CelebA數(shù)據(jù)集上不同模型生成的樣本對(duì)比 Fig.13 Comparison of samples generated by different models on the CelebA
為了進(jìn)一步驗(yàn)證本文提出的模型與幾種對(duì)比模型在性能上的差異,在不同評(píng)價(jià)指標(biāo)下對(duì)生成樣本進(jìn)行了評(píng)價(jià),實(shí)驗(yàn)結(jié)果如表6所示.
表6 CelebA上各模型的評(píng)價(jià)指標(biāo)得分情況
通過(guò)表6可知,模型在3種評(píng)價(jià)指標(biāo)上均最優(yōu),這很好地證明了本文提出方法的有效性.通過(guò)上述的一系列實(shí)驗(yàn),可以得出模型在生成圖像方面極大地增加了圖像的多樣性與質(zhì)量.采用的協(xié)同工作機(jī)制在減少參數(shù)量的同時(shí)加快了模型的訓(xùn)練速度,還增加了各生成器捕捉細(xì)節(jié)的可能.在研究更換損失函數(shù)方面將Wasserstein距離引入進(jìn)來(lái),極大地改善了模型訓(xùn)練的穩(wěn)定性;最后驗(yàn)證的使用殘差網(wǎng)絡(luò)中通過(guò)結(jié)果更是清晰地看到了殘差網(wǎng)絡(luò)在這一模型中起到的作用.
針對(duì)在生成對(duì)抗網(wǎng)絡(luò)中存在的問(wèn)題,提出了一種基于集成學(xué)習(xí)思想的多生成器生成對(duì)抗網(wǎng)絡(luò)模型,該模型包含多個(gè)生成網(wǎng)絡(luò),每個(gè)生成網(wǎng)絡(luò)均采用殘差網(wǎng)絡(luò)進(jìn)行搭建,同時(shí)為了加快模型收斂速度在生成網(wǎng)絡(luò)之間引入?yún)f(xié)同工作的機(jī)制,允許各生成網(wǎng)絡(luò)在前幾層進(jìn)行參數(shù)共享,這有效地幫助了網(wǎng)絡(luò)獲取信息,而在最后2層分開(kāi),極大地豐富了生成樣本的細(xì)節(jié)信息.最后將各生成網(wǎng)絡(luò)的特征圖進(jìn)行融合作為最終的特征圖像,輸入到判別網(wǎng)絡(luò)中.通過(guò)在相同的實(shí)驗(yàn)環(huán)境下進(jìn)行大量的實(shí)驗(yàn),并采用一系列的評(píng)價(jià)指標(biāo)進(jìn)行評(píng)價(jià),驗(yàn)證了本文方法是可行且高效的.