曹寅,秦俊平,高彤,馬千里,任家琪
(1.內(nèi)蒙古工業(yè)大學(xué) 數(shù)據(jù)科學(xué)與應(yīng)用學(xué)院,內(nèi)蒙古 呼和浩特 010051;2.內(nèi)蒙古自治區(qū)基于大數(shù)據(jù)的軟件服務(wù)工程技術(shù)研究中心,內(nèi)蒙古 呼和浩特 010000;3.北京工業(yè)大學(xué) 信息學(xué)部,北京 100124)
生成對(duì)抗網(wǎng)絡(luò)[1](generative adversarial networks,GAN)自問世以來,憑借其生成圖像的真實(shí)性,將各個(gè)領(lǐng)域的生成類任務(wù)都帶入快速發(fā)展時(shí)期.文本生成圖像方法在計(jì)算機(jī)輔助設(shè)計(jì)、輔助影視內(nèi)容創(chuàng)作、圖像編輯等領(lǐng)域的實(shí)用價(jià)值巨大,由此依據(jù)GAN 改進(jìn)的文本生成圖像相關(guān)方法不斷涌現(xiàn)[2-5].為了確保從給定的文本描述中生成與語義一致的高質(zhì)量圖像,主流的文本生成圖像方法[2,6-8]以堆疊式的GAN 結(jié)構(gòu)作為主干,通過額外加入如循環(huán)一致性網(wǎng)絡(luò)[8]、注意力機(jī)制網(wǎng)絡(luò)[2]的模型來學(xué)習(xí)高維空間中的文本特征與圖像特征.
盡管主流的文本生成圖像方法取得了很多令人矚目的成果,但仍然存在2 個(gè)待解決的問題:1)堆疊式架構(gòu)會(huì)導(dǎo)致網(wǎng)絡(luò)中不同階段的生成器相互糾纏,進(jìn)而影響圖像的生成質(zhì)量;2)網(wǎng)絡(luò)不能有效理解并融合文本特征和圖像特征,導(dǎo)致生成圖像與語義信息不一致.有研究者使用以單級(jí)GAN為主干架構(gòu)的模型去解決堆疊式架構(gòu)生成圖像質(zhì)量低的問題,例如DF-GAN[9].但這類模型無法同時(shí)融合句特征和詞特征,降低了生成圖像和文本描述的一致性.現(xiàn)有模型大多通過簡(jiǎn)單拼接文本特征和圖像特征來學(xué)習(xí)融合文本特征和圖像特征之間的特征,由于文本信息無法最大程度地融入生成圖像,導(dǎo)致生成的圖像與文本描述不一致.
本研究提出深度融合注意力的生成對(duì)抗網(wǎng)絡(luò)方法(generative adversarial network with deep fusion attention,DFA-GAN);采用兩階段模型生成圖像,分別為深度融合文本特征的圖像生成階段和注意力機(jī)制優(yōu)化圖像生成階段.2 個(gè)階段都以單級(jí)GAN為主干,將第一階段生成的初始模糊圖像輸入第二階段,對(duì)初始圖像進(jìn)行高質(zhì)量再生成.為了解決堆疊式架構(gòu)不同生成器之間相互糾纏導(dǎo)致最終生成低質(zhì)量圖像問題,分別訓(xùn)練DFA-GAN 的2 個(gè)階段網(wǎng)絡(luò),同時(shí)網(wǎng)絡(luò)模型都以單級(jí)GAN 為主干架構(gòu),避免生成簡(jiǎn)單拼湊效果的圖像.在第一階段的網(wǎng)絡(luò)中,提出視覺文本融合模塊(visual-text fusion block,VTFBlock)深度融合文本特征與圖像特征,并在不同尺度的圖像采樣過程中,充分融合文本信息.為了優(yōu)化第一階段生成的模糊圖像,在第二階段中采用改進(jìn)的Vision Transformer[10](ViT)對(duì)第一階段的生成圖像進(jìn)行再編碼,將ViT 輸出的圖像特征與文本描述中的詞特征融合,保證圖像特征與文本特征在高維空間中保持語義一致.使用ViT 模型學(xué)習(xí)局部特征和全局特征之間的關(guān)聯(lián),不僅進(jìn)行文本對(duì)應(yīng)的圖像區(qū)域優(yōu)化,還進(jìn)行圖像整體優(yōu)化,以確保DFA-GAN 生成符合文本描述的高質(zhì)量圖像.
Reed 等[11]將GAN 應(yīng)用于文本生成圖像任務(wù)提出的GAN-INT-CLS 模型,引發(fā)基于GAN 的文本生成圖像方法的研究熱潮.在文本生成圖像任務(wù)中,為了能夠生成符合文本描述的高質(zhì)量圖像,不斷有新的改進(jìn)方法被提出,包括采用多層次體系嵌套GAN 方法、加入注意力機(jī)制模型、利用循環(huán)一致性方法等.Zhang 等[7]采用多層次體系嵌套方法提出的StackGAN 模型[6]和StackGAN++模型提升了生成圖像的分辨率,但由于沒有深度的融合文本信息和圖像信息,導(dǎo)致生成的圖像與描述文本語義產(chǎn)生較大偏差,如圖1(a)所示.AttnGAN模型[2]提出將文本描述中的詞特征和圖像特征以交叉注意力編碼的方式進(jìn)行融合,該模型同樣采用多層次體系嵌套GAN 作為主干,除了第一層GAN 網(wǎng)絡(luò)用于融合文本整體特征外,其余嵌套的GAN 網(wǎng)絡(luò)都是利用圖像特征與詞特征的注意力權(quán)重將文本特征動(dòng)態(tài)地融合到圖像特征中.在AttnGAN 模型取得的顯著成果下,研究者在AttnGAN 模型的基礎(chǔ)上不斷提出改進(jìn).MirrorGAN模型[8]的提出受了CycleGAN 模型[12]的啟發(fā),循環(huán)一致性方法被引入文本生成圖像任務(wù)中,極大提升了生成圖像的文本圖像語義一致性.賀小峰等[13-15]提出的模型均以多層次體系嵌套GAN 為主干,生成圖像質(zhì)量不高,如圖1(b)所示.
圖1 主流方法生成圖像的問題Fig.1 Problems with mainstream methods of generating images
DF-GAN 模型以單級(jí)GAN 為主干,由匹配感知梯度懲罰和單向輸出組成的判別器使得生成圖像能夠又快又好地收斂到與文本匹配的真實(shí)數(shù)據(jù)上.該模型能夠深度融合文本圖像塊,幫助模型學(xué)習(xí)文本描述和圖像之間的聯(lián)系,以引導(dǎo)文本特征與圖像特征融合.由于單級(jí)GAN 為主干,輸入內(nèi)容有限,DF-GAN 模型不能同時(shí)關(guān)注整體文本信息與詞級(jí)信息,導(dǎo)致生成圖像與描述文本之間出現(xiàn)語義不一致的情況.Sheynin 等[16-17]采用擴(kuò)散模型和自回歸模型來執(zhí)行文本生成圖像任務(wù),相較于基于GAN 的文本生成圖像方法,這2 種模型在生成的圖像方面有著顯著能力,不僅文本與圖像的匹配度高,而且生成圖像的質(zhì)量高.由于基于GAN 的生成方法具備訓(xùn)練時(shí)間短、模型規(guī)模小的特點(diǎn),值得持續(xù)研究和改進(jìn).
如圖2 所示,將文本輸入DFA-GAN 后,經(jīng)由2 個(gè)不同的階段生成優(yōu)質(zhì)圖像.第一階段(深度融合文本特征的圖像生成階段)通過輸入(0,1)分布的噪聲向量和句子特征向量φt,得到第一階段生成圖像.將第一階段的生成圖像和詞特征φw輸入第二階段(注意力機(jī)制優(yōu)化圖像生成階段),得到最終優(yōu)化后的生成圖像.兩階段均須采用判別器判別監(jiān)督.
圖2 所提供方法的模型結(jié)構(gòu)圖Fig.2 Model architecture diagram of proposed method
在基于GAN 的通過文本描述生成圖像的方法中,通常先將整個(gè)文本描述編碼為特征向量,經(jīng)過與圖像特征向量簡(jiǎn)單的拼接進(jìn)行生成圖像[3,18],導(dǎo)致文本特征與圖像特征沒有充分的結(jié)合.DFA-GAN 在深度融合文本特征的圖像生成階段將文本特征和圖像特征進(jìn)行充分融合,以生成語義一致的圖像.
描述文本須進(jìn)行預(yù)處理,文本編碼器采用雙向長短時(shí)記憶網(wǎng)絡(luò)[19](bi-directional long short-term memory,Bi-LSTM)來提取φt和詞特征向量.將噪聲z和φt輸入上采樣層,通過VTFBlock 將文本特征與圖像特征深度融合,使得圖像特征能夠充分學(xué)習(xí)文本特征,生成與文本語義一致的圖像.如圖3 所示,該階段生成器中共有7 個(gè)上采樣層,每個(gè)上采樣層之間包含1 個(gè)VTFBlock.VTFBlock 由3 個(gè)仿射變換層和ReLU 層堆疊拼接組成,在經(jīng)過上采樣層逐層提取不同尺度的圖像特征后,通過仿射變換將文本特征條件充分與不同尺度的圖像特征融合,使得模型能夠?qū)W習(xí)到文本語義與圖像之間的深層次聯(lián)系.將ReLU 層穿插式地加入VTFBlock,目的是在仿射變換造成的文本與圖像線性關(guān)聯(lián)中帶入非線性的變化,從而更好地?cái)M合文本特征與圖像特征,這樣不僅擴(kuò)大了文本語義的表示空間,而且提升了視覺特征的多樣性.
圖3 深度融合文本特征的圖像生成階段結(jié)構(gòu)圖Fig.3 Architecture diagram for image generation stage of deep fusion of text features
將文本特征輸入2 個(gè)獨(dú)立的多層感知機(jī)(multilayer perceptron,MLP),獲得語言條件在圖像特征上的縮放通道參數(shù) α 和位移參數(shù) β.對(duì)于給定的輸入圖像特征Z,先使用縮放參數(shù)在圖像特征的每一通道上進(jìn)行縮放,再使用位移參數(shù)對(duì)圖像特征的每一通道位移,表達(dá)式為
式中:B×H×W為輸入圖像特征張量數(shù)據(jù),B為批量大小,H為輸入圖像特征的高度,W為輸入圖像特征的寬度,C為特征通道數(shù).對(duì)每一圖像特征通道上zi進(jìn)行縮放 αi和位移 βi,得到融合文本特征后的每一通道的圖像特征xi.將每個(gè)通道下圖像特征可視化,得到如圖4 所示的不同的特征圖.融合所有特征圖可以看到,在不同尺度下圖像特征結(jié)合文本特征逐漸學(xué)習(xí)符合文本描述的圖像特征,生成更多的圖像細(xì)節(jié)信息.將融合了文本特征的圖像特征輸入一系列卷積層進(jìn)行解碼即可生成一階段圖像,再將一階段生成圖像輸入判別器進(jìn)行判別生成圖像和真實(shí)圖像,提升生成圖像的質(zhì)量與語義一致性.
圖4 文本特征與圖像特征的多尺度融合Fig.4 Multi-scale fusion of text features and image features
經(jīng)過第一階段,文本特征與圖像特征得以充分融合.但是,第一階段的圖像仍然存在圖像模糊、整體抽象以及生成圖像與文本個(gè)別詞語存在歧義等問題.第二個(gè)階段的主要任務(wù)是優(yōu)化生成圖像的質(zhì)量,使生成的圖像更符合文本的語義,并且更加真實(shí).
第二階段的輸入為第一階段生成的圖像與詞特征向量φw.如圖5 所示,采用ViT 去除原本網(wǎng)絡(luò)模型中的多層感知器分類頭,再將原本用于額外分類預(yù)測(cè)輸出結(jié)果的向量去掉,作為該階段生成器的編碼器.將第一階段生成的圖像送入ViT 編碼器解析,得到圖像特征Y,表達(dá)式為
圖5 注意力機(jī)制優(yōu)化圖像生成階段結(jié)構(gòu)圖Fig.5 Architecture diagram for image generation stage of attention mechanism optimization
式中:E∈Rp2×C×K為可訓(xùn)練的線性投影參數(shù),Epos∈R(N+1)×K為位置編碼,LN(·) 為層歸一化函數(shù).將一階段生成圖像輸入圖像塊線性投影層進(jìn)行切塊重塑,成為N個(gè)p2大小的圖像塊xp∈RN×(P2×C).在Transformer 結(jié)構(gòu)[20]中所有層都使用相同的潛在空間向量大小,為此將輸入的圖像塊通過可訓(xùn)練的線性變換映射到K維向量空間中.ViT 編碼器由L個(gè)Transformer 編碼器塊組成,每個(gè)編碼器塊的輸入yl-1就是上一個(gè)編碼器塊的輸出,通過多頭自注意力(multi-head self-attention,MSA)和MLP 計(jì)算得到當(dāng)前編碼器塊的輸出yl.得到圖像特征Y后,將詞特征向量φw拼接至圖像特征中,得到新的特征向量Y′,表達(dá)式為
將特征向量Y′輸入一系列卷積解碼得到第二階段生成圖像,再經(jīng)過判別器鑒別圖像真實(shí)性與文本一致性,以監(jiān)督圖像生成質(zhì)量.
由于ViT 較強(qiáng)的表示學(xué)習(xí)能力和優(yōu)秀的可遷移性,使得第二階段作為上游任務(wù)能夠自動(dòng)學(xué)習(xí)圖像中的關(guān)鍵特征.在處理圖像過程中,通過自注意力機(jī)制和MSA 機(jī)制,讓網(wǎng)絡(luò)同時(shí)關(guān)注局部信息和全局信息,避免了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)只關(guān)注局部信息的處理方式.第二階段解決了傳統(tǒng)利用堆疊結(jié)構(gòu)方式生成圖像出現(xiàn)的不同生成器之間相互糾纏的問題,同時(shí)關(guān)注詞特征信息使得生成的圖像在細(xì)節(jié)上與文本契合.
交替訓(xùn)練生成器和判別器,通過最小化深度融合文本特征的圖像生成階段和注意力機(jī)制優(yōu)化圖像生成階段的生成器損失和判別器損失,得到符合文本條件的圖像.DFA-GAN 模型的損失函數(shù)分為第一階段損失函數(shù)和第二階段損失函數(shù),每個(gè)階段的損失函數(shù)又由生成器損失函數(shù)和判別器損失函數(shù)構(gòu)成.
在CUB 鳥類數(shù)據(jù)集[22]和COCO 多目標(biāo)場(chǎng)景數(shù)據(jù)集[23]上評(píng)估DFA-GAN 模型.CUB 數(shù)據(jù)集有11 788 張包含200 種鳥類的圖像,每張鳥類圖像有10 句相對(duì)應(yīng)的描述文本.該數(shù)據(jù)集中的圖像均為鳥類的特寫圖像,圖像的目標(biāo)單一,背景簡(jiǎn)單.COCO 數(shù)據(jù)集包含80 000 張用于訓(xùn)練的圖像和40 000 張用于測(cè)試的圖像,每張圖像都對(duì)應(yīng)5 個(gè)描述文本的句子.在COCO 數(shù)據(jù)集中平均每張圖像包含3.5 個(gè)類別和7.7 個(gè)實(shí)例目標(biāo),圖像大多場(chǎng)景復(fù)雜,圖像的目標(biāo)小且多.
采用Bi-LSTM 作為文本編碼器提取文本特征,從AttnGAN 模型中獲取Bi-LSTM 的預(yù)訓(xùn)練參數(shù).設(shè)置 λ1=0.5、λ2=4.0、λ3=5.0、λ4=2.0.采用Adam 優(yōu)化器進(jìn)行優(yōu)化訓(xùn)練,根據(jù)雙時(shí)間尺度更新原則,2 個(gè)階段的生成器學(xué)習(xí)率均設(shè)為0.000 1,第一階段的判別器學(xué)習(xí)率設(shè)為0.000 5,第二階段判別器學(xué)習(xí)率設(shè)為0.000 4.在單個(gè)NVIDIA A100 32G GPU 上進(jìn)行訓(xùn)練,CUB 數(shù)據(jù)集2 個(gè)階段的迭代次數(shù)分別為800、700;COCO 數(shù)據(jù)集2 個(gè)階段迭代數(shù)分別為372、200.
采用初始分?jǐn)?shù)[24](inception score,IS)、Fréchet初始距離[25](Fréchet inception distance,FID)以及R-precision[2]RP 來定性評(píng)估DFA-GAN 模型的生成效果.IS 通過計(jì)算生成圖像的條件分布和邊緣分布之間的Kullback-Leibler(KL)散度,來衡量圖像的多樣性和類別的一致性.IS 的數(shù)值越大,表示生成圖像的質(zhì)量越高且更具多樣性,表達(dá)式為
式中:μ、分別為真實(shí)圖像特征均值和生成圖像的特征均值,分別為真實(shí)圖像的協(xié)方差矩陣和生成圖像的協(xié)方差矩陣[26].RP 衡量生成圖像與對(duì)應(yīng)文本描述之間的生成準(zhǔn)確率.評(píng)估生成圖像與文本描述是否對(duì)應(yīng),須將提取的圖像特征和文本特征的檢索結(jié)果進(jìn)行排序.RP 的數(shù)值越大,表示生成圖像與給定文本描述越相關(guān).
實(shí)驗(yàn)將在2 個(gè)數(shù)據(jù)集中對(duì)比不同模型的圖像生成效果.為了計(jì)算IS 和FID,從測(cè)試數(shù)據(jù)集中隨機(jī)選擇文本描述交由每個(gè)模型,生成分辨率為256×256 的30 000 張圖像進(jìn)行對(duì)比[27].
如表1 所示DFA-GAN 模型在2 個(gè)數(shù)據(jù)集上的表現(xiàn)都優(yōu)于傳統(tǒng)的文本生成圖像方法.第一階段生成圖像的IS 數(shù)值已大于StackGAN 模型、StackGAN++模型和AttnGAN 模型的IS 數(shù)值,僅比MirrorGAN 模型低0.03.經(jīng)過第二階段的訓(xùn)練后,最終的生成圖像的IS 比第一階段的IS 提升了約17.88%,比DF-GAN 模型的提升了4.70%,比textStyleGAN 模型[28]的提升了11.72%.相比已有的文本生成圖像方法,DFA-GAN 的IS 并未有明顯提升,本研究認(rèn)為該網(wǎng)絡(luò)在生成圖像的真實(shí)性和多樣性角度上與現(xiàn)有的基于GAN 的文本生成圖像方法基本一致.對(duì)比CUB 數(shù)據(jù)集的FID 數(shù)值,DFA-GAN 模型第二階段比第一階段的降低了約31.83%,比DF-GAN 模型的降低了25.99%,比DM-GAN 模型[29]的降低了31.88%.對(duì)比COCO 數(shù)據(jù)集的FID 數(shù)值,DFA-GAN 模型第二階段比第一階段的生成圖像降低了約23.60%,比DF-GAN 模型的小0.15.同樣是充分融合文本與圖像特征生成圖像,相比改進(jìn)DF-GAN 方法的SSA-GAN[31]和RAT-GAN[32],DFA-GAN 在各項(xiàng)數(shù)值上更加優(yōu)秀,RAT-GAN 在COCO 數(shù)據(jù)集上的FID 比DFA-GAN模型的降低了4.57,本研究認(rèn)為這由于RAT-GAN更注重學(xué)習(xí)相關(guān)的復(fù)雜圖像特征,而DFA-GAN模型更注重整體圖像的一致性導(dǎo)致的.由表可以看出,DFA-GAN 模型不僅第一階段的生成圖像評(píng)價(jià)指標(biāo)評(píng)分較為優(yōu)異,而且模型在第二階段的指標(biāo)評(píng)分較第一階段的有大幅提升,證明DFA-GAN模型分為2 個(gè)階段訓(xùn)練是有效的.DFA-GAN 模型在CUB 數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)較在COCO 數(shù)據(jù)集上的更優(yōu),本研究認(rèn)為產(chǎn)生這種情況的原因是CUB 數(shù)據(jù)集中的內(nèi)容相比COCO 數(shù)據(jù)集的更集中于少數(shù)幾個(gè)類別.對(duì)于多目標(biāo)的復(fù)雜場(chǎng)景,DFA-GAN 模型對(duì)于圖像中多個(gè)目標(biāo)的特征提取學(xué)習(xí)的力度不夠,不能學(xué)習(xí)到文本對(duì)應(yīng)圖像內(nèi)容更深層次、更細(xì)節(jié)的特征.除了生成對(duì)抗網(wǎng)絡(luò)方法中的模型,表中還有采用自回歸和擴(kuò)散的模型.對(duì)比COCO 數(shù)據(jù)集的FID 數(shù)值,DFA-GAN 比采用自回歸模型的CogView2[33]大1.47,比采用擴(kuò)散模型的KNN-Diffusion[16]大2.51.數(shù)據(jù)結(jié)果表明,雖然采用自回歸和擴(kuò)散模型方法能夠生成真實(shí)、符合文本描述的圖像,但是DFA-GAN 模型不僅體積更小,計(jì)算成本也更低,其參數(shù)總量相對(duì)于CogView2 和KNN-Diffusion 更少.
表1 文本生成圖像方法在2 個(gè)數(shù)據(jù)集上的評(píng)價(jià)指標(biāo)對(duì)比Tab.1 Comparison of evaluation indexes of text-to-image generation methods in two datasets
在CUB 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),將傳統(tǒng)網(wǎng)絡(luò)AttnGAN 和DF-GAN 分別與DFA-GAN 第二階段網(wǎng)絡(luò)組合后與DFA-GAN 進(jìn)行對(duì)比,結(jié)果如表2所示.與原網(wǎng)絡(luò)相比,AttnGAN 加入DFA-GAN 第二階段網(wǎng)絡(luò)的IS 數(shù)值增加了0.75,同樣DF-GAN的IS 指標(biāo)也提升了0.22,進(jìn)一步說明DFA-GAN第二階段網(wǎng)絡(luò)可以優(yōu)化生成圖像的質(zhì)量.對(duì)比RP 的數(shù)值,DF-GAN 在加入DFA-GAN 第二網(wǎng)絡(luò)后由原本的44.83 提升至70.80.DFA-GAN 的IS 數(shù)值與傳統(tǒng)網(wǎng)絡(luò)的基本一致,但RP 高于傳統(tǒng)網(wǎng)絡(luò),本研究認(rèn)為原因是該網(wǎng)絡(luò)更關(guān)注文本圖像一致性.
表2 不同模型在CUB 數(shù)據(jù)集上的消融實(shí)驗(yàn)Tab.2 Ablation experiments of different models in CUB datasets
在CUB 數(shù)據(jù)集上,將DFA-GAN 模型生成圖像結(jié)果與其他模型的生成圖像結(jié)果進(jìn)行定性對(duì)比,結(jié)果如圖6 所示.StackGAN++生成的圖像在整體上可以模糊地看出文本描述的內(nèi)容,有部分細(xì)節(jié)提升了紋理的效果,但整體生成效果比較差.AttnGAN 模型和MirrorGAN 模型生成圖像的紋理細(xì)節(jié)得到增強(qiáng),但是出現(xiàn)了在一張圖像一部分十分模糊,另一部分十分清晰的情況,整體生成圖像的質(zhì)量不佳.如圖中MirrorGAN 模型的第一行生成圖像,以及StackGAN++模型第三行生成圖像,生成的鳥頭部比較清晰,但其他的部分目標(biāo)邊界與紋理生成的模糊,影響了整體生成的質(zhì)量.DM-GAN 和DF-GAN 模型也沒有保持與圖像良好的語義一致性,在一些細(xì)節(jié)上出現(xiàn)文本與圖像不匹配的情況.比較而言,DFA-GAN 模型生成的圖像不僅輪廓更加清晰,而且生成的目標(biāo)更加完整,整體生成圖像比較細(xì)致,與文本語義保持了較高的一致性.
在COCO 數(shù)據(jù)集上進(jìn)行DFA-GAN 模型與主流的方法的定性對(duì)比,結(jié)果如圖7 所示.與在CUB數(shù)據(jù)集上訓(xùn)練生成圖像比較,各類方法在COCO數(shù)據(jù)集上生成圖像的質(zhì)量整體都比較差,生成的圖像僅能把握文本描述目標(biāo)的大概輪廓和基礎(chǔ)顏色.DFA-GAN 模型在細(xì)節(jié)上也無法生成文本描述目標(biāo)的細(xì)節(jié),但在整體圖像的輪廓與邊界比主流模型的生成質(zhì)量高.本研究產(chǎn)認(rèn)為這是由于COCO數(shù)據(jù)集中目標(biāo)類別多,每一類別對(duì)應(yīng)的數(shù)據(jù)數(shù)量較少,導(dǎo)致模型很難學(xué)習(xí)到每一類別的細(xì)節(jié),又由于DFA-GAN 模型分別訓(xùn)練2 個(gè)階段生成圖像,使得DFA-GAN 模型能夠生成較好的擁有多目標(biāo)復(fù)雜場(chǎng)景圖像.在不同數(shù)據(jù)集上與主流的文本生成圖像方法比較的分析結(jié)果表明,DFA-GAN模型在整體圖像的生成方面和在保持生成圖像與文本語義一致方面均有優(yōu)越的表現(xiàn).
圖7 不同模型在COCO 數(shù)據(jù)集上的生成圖像比較Fig.7 Comparison of generated images of different models in COCO dataset
為了進(jìn)一步驗(yàn)證DFA-GAN 模型兩階段分別訓(xùn)練生成圖像的必要性,在CUB 數(shù)據(jù)集和COCO數(shù)據(jù)集上,分別對(duì)DFA-GAN 模型第一階段生成的圖像和第二階段生成的圖像進(jìn)行定性比較,結(jié)果如圖8 所示.由于二階段的優(yōu)化細(xì)節(jié),使得DFA-GAN 模型最終生成的圖像邊界清晰,整體的紋理細(xì)節(jié)得到增強(qiáng),證明DFA-GAN 模型分2 個(gè)階段訓(xùn)練生成圖像不僅有效,而且能夠生成高質(zhì)量的圖像.
圖8 所提模型2 個(gè)階段在不同數(shù)據(jù)集上的生成圖像比較Fig.8 Comparison of generated images in two stages of proposed model in different datasets
本研究提出基于生成對(duì)抗網(wǎng)絡(luò)的語義一致文本合成高質(zhì)量圖像方法,并在該方法中提出采用2 個(gè)階段生成并優(yōu)化圖像:在深度融合文本特征的圖像生成階段,深層次、多尺度地融合文本信息生成圖像;在注意力機(jī)制優(yōu)化圖像生成階段,通過文本詞的特征含義增強(qiáng),進(jìn)一步細(xì)粒度、全方位地優(yōu)化整體生成的圖像.在開源的文本生成圖像數(shù)據(jù)集CUB 和COCO 上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,相比現(xiàn)有的采用生成對(duì)抗網(wǎng)絡(luò)方法,本研究所提方法能夠通過文本生成更加優(yōu)質(zhì)且語義一致的圖像.所提方法還有待改進(jìn),如何進(jìn)一步加強(qiáng)生成擁有復(fù)雜場(chǎng)景描述文字的圖像,怎樣生成擁有優(yōu)質(zhì)背景和細(xì)致目標(biāo)的圖像,計(jì)劃在未來的研究中開展相關(guān)實(shí)驗(yàn)以提升方法的性能.