鞠思博,徐 晶,李巖芳
長春理工大學(xué) 計算機科學(xué)技術(shù)學(xué)院,長春 130022
基于文本描述的圖像合成(text to image,t2i)涵蓋了計算機視覺和自然語言處理等技術(shù),是一個跨學(xué)科跨模態(tài)的綜合性任務(wù)[1]?;谳斎氲淖匀徽Z言描述,模型應(yīng)合成與描述內(nèi)容相符、語義信息完整的圖像。該任務(wù)不僅需要計算機理解文本的語義信息,還要將語義信息轉(zhuǎn)化為像素,生成一幅高分辨率與高真實性圖像,這是一項極具挑戰(zhàn)性的任務(wù)。它有著廣泛的應(yīng)用潛力,未來可在計算機輔助設(shè)計,刑偵畫像生成等方面發(fā)揮重要作用。
深度學(xué)習(xí)的迅猛發(fā)展,帶來了計算機視覺以及自然語言處理在理論和技術(shù)上的巨大進步,推動基于文本描述圖像合成的任務(wù)朝著高分辨率、高真實性、高可控性邁進。Reed等人[2]使用生成對抗網(wǎng)絡(luò)(GANs)[3],通過使用字符級別的循環(huán)神經(jīng)網(wǎng)絡(luò)提取文本描述的句子特征,連同噪音作為cGAN網(wǎng)絡(luò)[4]的輸入。為了降低基于GANs的高分辨率圖像合成的難度,Zhang等人提出包含兩個生成對抗網(wǎng)絡(luò)的StackGAN[5]:第一階段生成低分辨率圖像,第二階段基于低分辨率圖像進行細(xì)化,逐步合成高分辨率圖像。為提高合成圖像的質(zhì)量,Zhang等人提出StackGAN++[6],除使用多個GANs生成多尺度圖像外,他們在損失中加入顏色一致性的正則化設(shè)置,能夠使得在訓(xùn)練時保持不同尺度圖像的一致性,降低GANs訓(xùn)練的不穩(wěn)定性。Xu等人在AttnGAN[7]引入了全局注意力機制[8],并提出了深層注意多模態(tài)相似模型,利用單詞級別和語句級別的文本特征作為輸入,提高了文本與圖像的匹配度。
但GAN-INT-CLS[2]、StackGAN[5]與StackGAN++[6]方法僅使用句子級別特征作為文本特征,丟失了重要的合成圖像細(xì)節(jié),這里借鑒AttnGAN[7],同時提取句子級別與單詞級別特征作為文本嵌入,提高了語義對齊性。此外AttnGAN網(wǎng)絡(luò)雖然對文本圖像一起使用了全局注意力機制,增加了生成圖像的細(xì)節(jié)信息,但是經(jīng)常會生成不符合自然規(guī)律的小鳥,例如“兩個腦袋”“兩只眼睛”等錯誤圖像。針對AttnGAN生成不符合語義的鳥類圖像,提出一種基于GAN的t2i網(wǎng)絡(luò)模型,在模型的初始階段使用自注意力機制,使合成低分辨率圖像時更好地學(xué)會圖像中重要的空間與位置信息,提高初始階段圖像生成的準(zhǔn)確性,從而改善高分辨率圖像合成的正確性。
本文貢獻(xiàn)在于以下兩點:
(1)基于AttnGAN模型,本文提出在初始階段增加自注意力模塊,改善原模型生成不符合常態(tài)的鳥類圖片,并優(yōu)化了在CUB[9]數(shù)據(jù)集的IS與FID指標(biāo)得分,數(shù)據(jù)分析與實際生成效果表明,本文所提出的SA-AttnGAN網(wǎng)絡(luò)模型能夠生成逼真自然的鳥類圖片。
(2)還制作了文本生成圖像服裝數(shù)據(jù)集,為其他研究者擴展了t2i技術(shù)的應(yīng)用領(lǐng)域,奠定了數(shù)據(jù)基礎(chǔ)。
早期文本描述的圖像合成主要結(jié)合檢索與監(jiān)督學(xué)習(xí)[1]。首先,通過關(guān)鍵字(或關(guān)鍵短語)與圖像之間的相關(guān)性來確定信息與“可圖像化”的文本單元;然后,基于當(dāng)前文本條件,文本單元檢索最有可能與圖像內(nèi)容相關(guān)的區(qū)域,并最終優(yōu)化為圖像布局,從而將文本描述與圖像內(nèi)容進行關(guān)聯(lián)。然而,由于訓(xùn)練方式有限,此方法只能改變特定圖像的特征,無法依據(jù)文本描述合成具有全新內(nèi)容的圖像。隨著研究的深入,Yan等人提出能夠?qū)⒚總€圖像建模為前景和背景的組合Attribute2Image[10]方法。Attribute2Image根據(jù)所給屬性進行學(xué)習(xí),因此可以生成包含不同屬性的圖像,如性別、頭發(fā)顏色、年齡等。
雖然上述方法可合成相對逼真的圖像,但仍然受制于有限的描述屬性。隨著多模態(tài)學(xué)習(xí)的發(fā)展,涌現(xiàn)了一批基于生成式對抗網(wǎng)絡(luò)和深度卷積解碼器的圖像合成模型[2,5-7,10-27]。由Goodfellow等人[3]所提出的生成式對抗網(wǎng)絡(luò)(GANs)主要由鑒別器和生成器組成。生成器試圖生成合成的圖像,進而“欺騙”鑒別器;鑒別器則試圖區(qū)分真實圖像與合成圖像。基于此類特點,GANs可以應(yīng)用在基于文本描述的圖像合成領(lǐng)域,將對抗訓(xùn)練的目的定義為基于文本描述的圖像合成:通過真實圖像與“虛假圖像”的不斷“生成”與“判別”,逐步提升圖像內(nèi)容與文本描述關(guān)聯(lián)性,最終達(dá)到基于文本描述合成圖像的目的。
Reed等人率先提出基于深度卷積的GANs(DCGANs)[11]用于文本-圖像合成[2]。DC-GANs使用字符級別的循環(huán)神經(jīng)網(wǎng)絡(luò)提取文本描述中的語句特征向量,并將之連同噪音作為cGAN[4]的輸入。StackGAN[5]側(cè)重于改善合成圖像的質(zhì)量,在詞特征向量的基礎(chǔ)上,通過兩個GANs,將合成圖像的分辨率從64×64提高到256×256。作為進一步拓展,StackGAN++[6]將StackGAN改進為端到端(End-to-End)網(wǎng)絡(luò),在降低GANs訓(xùn)練的不穩(wěn)定性的同時,增加了顏色損失函數(shù),提升了合成圖像的色彩表達(dá)程度。鑒于注意力機制在深度學(xué)習(xí)各個領(lǐng)域的成功應(yīng)用,AttnGAN[7]首先將全局注意力機制引入文本合成圖像領(lǐng)域。AttnGAN利用文本編碼器,提取語句和單詞級別的文本特征向量,計算其與全局圖像特征和局部圖像特征的相似度,并通過提出的DAMSM預(yù)訓(xùn)練方式,提升了合成圖像與描述文本的關(guān)聯(lián)性以及清晰程度。隨著研究的不斷深入,基于文本描述的圖像合成在高分辨率、多目標(biāo)以及可控性上都取得了矚目的成績:HD-GAN[12]使用級聯(lián)化的網(wǎng)絡(luò)結(jié)果,將分辨率提高到512×512。Obj-GAN[13]可合成布局復(fù)雜的多目標(biāo)圖像,從布局、形狀到內(nèi)容逐步生成,改善復(fù)雜圖像合成中存在的模型崩潰問題。為了解決因特定文本屬性(顏色、目標(biāo))更改而導(dǎo)致整體構(gòu)圖重置問題,ControlGAN[13]基于AttnGAN結(jié)構(gòu),提出使用通道與空間注意力機制,增加單詞-圖像區(qū)域特征匹配性與感知損失等約束。
與AttnGAN類似,本文所提出的SA-AttnGAN網(wǎng)絡(luò)結(jié)構(gòu)分為預(yù)訓(xùn)練網(wǎng)絡(luò)和多階段生成對抗網(wǎng)絡(luò)。在預(yù)訓(xùn)練網(wǎng)絡(luò)中,引入AttnGAN中的DAMSM模塊[7],此模塊包含文本編碼器與圖像編碼器,用于提取特征,并計算DAMSM損失作為生成器損失函數(shù)的一部分;而生成對抗網(wǎng)絡(luò)則由三對生成器和鑒別器組成,分別處理64×64、128×128、256×256階段的圖像。
與大多數(shù)基于GAN的t2i模型相似,本文提出的基于自注意力機制的文本生成圖像網(wǎng)絡(luò)(SA-AttnGAN)采取多階段的高分辨率圖像合成策略(如圖1所示)。其中,生成器G0、G1、G2分別合成64×64、128×128、256×256分辨率的圖像。
圖1 SA-AttnGAN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Architecture of SA-AttnGAN
在G0階段,首先利用條件增強模塊F ca,即圖1中CA[5]模塊用于處理語句特征向量eˉ,得到低維度的文本條件向量。隨后將之與噪聲向量z∈?100相連,作為包含多個上采樣塊F0的輸入,如式(1)所示:
其中,h0′表示隱藏節(jié)點,包含初始階段待生成的圖像信息。
與AttnGAN不同的是,在初始階段,本文引入自注意力機制[17],通過對圖像特征映射間的自主學(xué)習(xí),分配不同的權(quán)重信息,使最終得到的特征圖包含更多的空間與位置信息,進一步提升高分辨率圖像合成的效果,降低模型生成崩潰的可能。
如圖2所示,首先,將h0′轉(zhuǎn)化到特征空間f和g,其中W f、W g是感知層,如式(2)、(3)所示:
圖2 自注意力機制(SA)Fig.2 Self-attention(SA)
并計算權(quán)重信息βj,i,計算公式如式(4)所示:
其中s j,i=f(h0′)Tg(h0′)。βj,i表示合成圖像第j個區(qū)域時的第i個位置的權(quán)重信息,它通過自監(jiān)督機制學(xué)習(xí)特征圖中空間與位置信息,為圖像中重要的細(xì)節(jié)信息賦予了更大的權(quán)重值,有利于初始階段生成更有意義的圖像。之后再將h0′轉(zhuǎn)換到第三個特征空間u,如式(5)所示:
其中,W u是特征空間u的感知層,用于改變特征的維度大小。隨后將權(quán)重圖βj,i與u(h0′)相乘得到帶有注意力機制的圖像特征矩陣m j,如式(6)所示:
最后使用conv_1×1使得到的圖像特征矩陣m j轉(zhuǎn)換到特征空間v,如式(7)所示,從而使得到的圖像特征尺寸與輸入的圖像特征尺寸大小相同。
使用h0表示F sa(即圖1中SA模塊)的輸出結(jié)果,通過利用注意力機制,此時初始階段生成圖片將包含更多有意義的位置與空間信息,如式(8)所示:
在G1、G2階段,使用不同階段隱藏節(jié)點h i作為輸入,使用表示不同分辨率的生成圖像,如式(9)、(10)所示:FGAi是第i階段的全局注意力生成模塊[14],F(xiàn)i是第i階段包含上采樣塊等神經(jīng)網(wǎng)絡(luò)層。
其中,生成器損失函數(shù)定義如式(11)所示:
其中:
LDAMSM是使用預(yù)訓(xùn)練網(wǎng)絡(luò)得出的損失函數(shù),λ是決定DAMSM模塊對于生成器損失函數(shù)影響大小的超參數(shù)[7]。
如圖1所示,本文采用的D0、D1、D2多鑒別器并行計算,輸入圖像尺寸分別為64×64、128×128、256×256。鑒別器D i由兩部分組成,其中,i=0,1,2,每部分包含不同的判別內(nèi)容,D1i判別圖像的真實程度,D2i判別圖像與文本的語義一致性,定義如式(13)所示:
Luncondition1用于鑒別輸入的圖像是否是真實,Lcondition2用于鑒別輸入的圖像是否與文本相關(guān),計算公式如式(14)、(15)所示:
本文選擇CUB數(shù)據(jù)集用于訓(xùn)練模型,CUB是劍橋大學(xué)制作的有關(guān)于t2i領(lǐng)域公開數(shù)據(jù)集[19],包含一萬多張200余種鳥類的圖片。其中,8 855張照片用于訓(xùn)練,2 933用于測試。每張圖片配以10句文本描述。其描述內(nèi)容涵蓋鳥的頭、嘴、胸脯、羽冠等10余種屬性。
為了保證實驗結(jié)果的可對比性,本文選擇Inception Score[29](IS)與Frechet inception distance(FID)[30]進行比對。IS該指標(biāo)由StackGAN專門為CUB提出一套完整評價算法(https://github.com/hanzhanggit/StackGANinception-model),并在其他t2i工作中得到廣泛使用。算法原理如下:
其中,x表示生成的樣本,y表示通過算法預(yù)測的標(biāo)簽,通過計算p(y|x)與p(y)分布的Kullback-Leibler散度,值越大代表模型生成結(jié)果越好。IS指標(biāo)越高,代表生成圖像越清晰,多樣性更高,模型穩(wěn)定性越好。FID是另一種常用的評估指標(biāo),它計算真實樣本,生成樣本在特征空間之間的距離,算法原理如下:
其中,μr表示真實圖片特征的均值,μg表示生成的圖片特征的均值,Σx表示真實圖片特征的協(xié)方差矩陣,Σg表示生成圖片特征的協(xié)方差矩陣,tr表示對矩陣求跡。FID值越低則表示圖片的質(zhì)量和多樣性越好。
本文選擇AttnGAN作為對比模型,AttnGAN是在文本生成圖像領(lǐng)域中使用注意力機制,以句子級別和單詞級別的文本特征作為輸入,提升了合成圖像的清晰度。
在文本編碼器中,采用層數(shù)為1的Bi-LSTM[31],詞嵌入大小為300,文本特征的維度為256。在圖像編碼器中,采用inception-v3[32]網(wǎng)絡(luò)用于提取圖像特征,全局圖像特征維度為2 048,局部圖像區(qū)域特征包含768個通道,每個通道維度為289,與AttnGAN[7]網(wǎng)絡(luò)各通道參數(shù)相同。在訓(xùn)練階段采用Adam[33]作為優(yōu)化器,學(xué)習(xí)率設(shè)置為0.000 2。網(wǎng)絡(luò)損失函數(shù)中,超參數(shù)λ設(shè)置為5。batch_size設(shè)置為10。
3.4.1 指標(biāo)對比
本文提出的SA-AttnGAN模型在1塊11 GB顯存的RTX TITAN V顯卡上共訓(xùn)練600個epoch,生成約30 000張測試集照片進行指標(biāo)對比,結(jié)果見表1。
如表1所示,與其他眾多具有代表性的方法相比,本文模型IS指標(biāo)值最高,取得了4.52±0.03的成績,F(xiàn)ID指標(biāo)最低,取得了14.25的成績。與AttnGAN相比,IS指標(biāo)提升了0.16,F(xiàn)ID指標(biāo)降低0.13。
表1 CUB數(shù)據(jù)集上方法對比Table 1 Index comparison based on CUB data set methods
圖3中展示了600個epoch的IS指標(biāo)變化,橫坐標(biāo)為epoch迭代次數(shù),縱坐標(biāo)為IS指標(biāo)值,在450 epoch后本文方法的指標(biāo)值優(yōu)于AttnGAN的指標(biāo)值。
圖3 不同epoch下IS指標(biāo)變化圖Fig.3 IS at different epochs
圖4 中展示了600個epoch的FID指標(biāo)變化,橫坐標(biāo)為epoch迭代次數(shù),縱坐標(biāo)為FID指標(biāo)值,在380 epoch后本文方法的FID值優(yōu)于AttnGAN的方法值。
圖4 不同epoch下FID指標(biāo)變化圖Fig.4 FID at different epochs
上述圖表表明本文由于在初始階段使用自注意力機制,通過自主學(xué)習(xí)圖像間的特征信息,生成權(quán)重掩碼圖,使初始階段最終生成特征圖融合更多的空間與位置信息,使模型能夠生成結(jié)構(gòu)性信息更加完整的圖像,從而進一步改善高分辨率圖像合成的效果,提高了圖像合成的清晰度與多樣性。并且同時使用句子級別與單詞級別的文本特征,提取更多的文本信息,提高了文本與圖像間的語義一致性。
如表2所示,還計算了超參數(shù)λ在不同取值的情況下對兩個指標(biāo)的影響。λ是DAMSM網(wǎng)絡(luò)模塊[7]對于整體網(wǎng)絡(luò)的影響程度,在分別取值為0.1、1、5、10后,λ=5時指標(biāo)效果最優(yōu)。
表2 不同超參數(shù)指標(biāo)變化對比Table 2 Comparison of different hyperparameter indicators
3.4.2 合成效果對比
圖5展示了SA-AttnGAN與眾多具有代表性的方法的實驗效果對比圖。其中,HDGAN[10]、StackGAN++[6]、AttnGAN[7]方法分別使用官方實現(xiàn)的模型進行實驗,在同一實驗環(huán)境下對2 933條測試集文本進行測試。HDGAN模型是受StackGAN[5]啟發(fā),提出一種端到端模型,并且引入了伴隨層次嵌套對抗性目標(biāo),側(cè)重于提高圖像生成的分辨率,但是并沒有關(guān)注生成圖像的結(jié)構(gòu)性信息,鳥的部分屬性生成不自然,如第三組實驗,HDGAN生成的小鳥眼睛比例不協(xié)調(diào)。StackGAN++[6]模型是在StackGAN[5]模型的基礎(chǔ)上,將其改變?yōu)槎说蕉说哪P?,加入顏色正則化損失,重點改善多階段生成圖像的顏色一致性,但是該方法也缺少對生成圖像的空間與位置信息的學(xué)習(xí),如第三組實驗,生成的小鳥與背景融為一體,整體生成失敗。AttnGAN[7]使用注意力機制,并且使用了句子級別與單詞級別的文本特征,增強了文本-圖像的語義對齊性,但是對于鳥的重要的屬性權(quán)重不能很好地學(xué)習(xí),對部分屬性過于關(guān)注,如第十組實驗,生成了兩只嘴,而第三組實驗缺少嘴部等細(xì)節(jié)信息。而SA-AttnGAN方法在初始階段加入自注意力機制模塊,使模型能夠?qū)W習(xí)到正確的屬性權(quán)重分配情況,如第三組實驗,生成的小鳥完整自然,表明該方法改善了文本生成單目標(biāo)圖像的視覺質(zhì)量。
圖5 測試效果部分展示Fig.5 Part of test results
圖6中展示了加入自注意力機制模塊的消融實驗,SA-AttnGAN表示使用了自注意力機制,AttnGAN表示沒有使用自注意力機制。圖6分成四大組,每組有六小組對比實驗。其中前三組展示了SA-AttnGAN與AttnGAN方法均合成出逼真自然的鳥類圖片,如第三組第一句文本合成的效果圖均符合文本語義,包含“brown bird”“white belly”等細(xì)節(jié)信息。第四組實驗展示了部分生成有誤的圖像。如第四組第二句文本AttnGAN合成出了“多頭”鳥,第二句話AttnGAN生成鳥類失敗,而SA-AttnGAN合成出了正確的鳥類照片,后面將具體圍繞這兩部分進行實驗分析說明。除此之外,第四組實驗也展示了SA-AttnGAN與AttnGAN方法都生成失敗的部分圖像,如第四組實驗第三、四、五、六句文本,分析原因是由于“Large bird”“Large wings”等文本描述會合成飛翔的鳥類照片,但是由于數(shù)據(jù)集中有關(guān)于翱翔姿態(tài)的照片較少,所以模型沒有充分學(xué)習(xí)到該種圖像的分布,最終影響了圖像的生成結(jié)果。(1)“多頭”“多嘴”等錯誤圖像分析
圖6 加入自注意力機制的消融實驗Fig.6 Ablation experiment with self-attention mechanism
圖6 中展示了部分生成狀況良好的鳥類合成照片,但是在測試過程中AttnGAN方法也會合成一些錯誤圖像,如圖7中展示了六組AttnGAN模型與本文模型生成的高分辨率圖像。可以發(fā)現(xiàn)AttnGAN經(jīng)常會生成“多頭”“多嘴”“多眼”等不符合常態(tài)的鳥類圖片,如圖7-1-2、7-3-2、7-4-2中AttnGAN方法生成了兩只鳥頭,7-2-2、7-6-2生成了兩只鳥嘴,7-5-2生成了多只眼睛,而本文方法,在初始階段使用自注意力機制,使模型不僅能夠?qū)W習(xí)到背景等顏色等像素信息,還能夠捕捉到目標(biāo)的結(jié)構(gòu)信息,正確生成鳥頭、鳥嘴、鳥眼睛的位置與個數(shù),改善了AttnGAN明顯與文本特征不符的鳥類圖片合成問題。
圖7 “多頭”“多嘴”等情況消融實驗對比圖Fig.7 Comparisonchartofablationexperimentsin“multi-head”and“multi-mouth”situations
(2)鳥類整體生成失敗圖像分析
自注意力機制不僅能夠?qū)W習(xí)到重要的空間與位置信息,改善“多頭”“多嘴”等錯誤情況,還可以提升t2i模型的穩(wěn)定性,生成出更加逼真的鳥類圖片。如圖8-4-2、8-5-2中AttnGAN生成的圖片無法看出是鳥,8-2-2、8-6-2等圖片細(xì)節(jié)信息丟失,生成的小鳥不符合現(xiàn)實中鳥類的形狀,與之相比,本文所提出的模型,能夠合成與文本特征信息關(guān)聯(lián)性較強的圖像。以圖8中第三組對比實驗為例,本模型所合成的圖像8-3-1能夠正確地反映“whiteandbrown”“multicoloredbeak”等文本屬性,且在構(gòu)圖上保證了合成圖像內(nèi)容與文本描述的一致性以及與背景圖像特征的高區(qū)分性,而AttnGAN方法合成的8-3-2圖像失真,沒有正確生成文本語義信息。
圖8 鳥類整體生成失敗情況消融實驗對比圖Fig.8 Comparisonchartofablationexperimentsonoverallfailureofbirdgeneration
(3)圖像生成細(xì)節(jié)分析
為了進一步解釋本模型的效果,如圖9所示,可視化了圖像合成過程中的注意力權(quán)重圖,保存了64×64、128×128、256×256的生成結(jié)果,例如在第一組實驗中,對比發(fā)現(xiàn)AttnGAN在64×64的分辨率圖像中將鳥尾生成了鳥頭,后續(xù)在這種錯誤的圖像信息上繼續(xù)生成,導(dǎo)致高分辨率圖像合成了錯誤的信息,而本文方法在初始階段使用了自注意力機制,學(xué)習(xí)到了正確的目標(biāo)圖像信息,并且可視化了第三階段生成圖像時的文本與圖像的注意力分配情況,選取前5個權(quán)重值最高的單詞,文本與圖像語義基本一致,所以初始階段的生成圖像對高分辨率圖像合成具有重要意義。
圖9 生成過程多階段可視化Fig.9 Visualization of generation process at multi-stage
(4)t2i技術(shù)服裝領(lǐng)域擴展應(yīng)用
本文方法在服裝數(shù)據(jù)集上也進行了測試,服裝數(shù)據(jù)集中的圖片是由cp-vton提供[34],包含14000多張照片,其中涵蓋T恤、連衣裙、背心等6種女士服裝,在此基礎(chǔ)上為每張圖片添加了一句中文文本描述,共計14000余條文本。從領(lǐng)子、袖子、顏色、功能等方面進行形容。由于服裝數(shù)據(jù)集圖片尺寸與CUB數(shù)據(jù)集不同,直接使用原網(wǎng)絡(luò)無法生成完整的服裝圖片。因此在訓(xùn)練階段通過膨脹邊緣白色部分,重新裁剪至299×299,其余參數(shù)沒有變化,通過測試發(fā)現(xiàn),迭代第65次模型效果最佳,可以生成完整的服裝圖片,如圖10所示。當(dāng)?shù)螖?shù)過多時,模型出現(xiàn)了過擬合現(xiàn)象,衣服顏色失真,生成效果不佳。
圖10 服裝數(shù)據(jù)集測試效果Fig.10 Synthetic images on fashion dataset
通過服裝數(shù)據(jù)集的測試,證明本文方法基于自注意力機制文本生成單目標(biāo)圖像具有良好的泛化性,不僅可以生成自然逼真的鳥類圖片,也可以生成效果自然的服裝圖片,并且中文英文均可以合成符合語義信息的圖像。
本文提出了一種基于GAN的t2i網(wǎng)絡(luò)模型,通過對自注意力機制的引入,提升模型的穩(wěn)定性,在CUB數(shù)據(jù)集上,優(yōu)化了IS指標(biāo)與FID指標(biāo)。實驗結(jié)果表明,本文提出的網(wǎng)絡(luò)能夠生成清晰自然、逼真多樣單目標(biāo)圖像,且具有一定的泛化性。此外,也進一步豐富了中文t2i數(shù)據(jù)集。未來的研究重點將關(guān)注文本生成服裝圖像在可控性方面的工作,將之應(yīng)用在服裝的生成與設(shè)計領(lǐng)域。