黃 韜,賈西平,林智勇,馬震遠(yuǎn)
(1.廣東技術(shù)師范大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院;2.廣東技術(shù)師范大學(xué) 數(shù)學(xué)與系統(tǒng)科學(xué)學(xué)院,廣東 廣州 510665)
基于文本描述編輯人物圖像是結(jié)合了計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理兩個(gè)領(lǐng)域的綜合性任務(wù),是學(xué)界所關(guān)注的一個(gè)重要課題.相關(guān)的工作包括文本圖像OCR技術(shù)[1-2],圖像文本描述(圖像摘要)[3-8],文本圖像匹配檢索[9],文本到圖像合成[10-13]等.隨著深度學(xué)習(xí)的發(fā)展,這些工作都得到了較大推進(jìn).基于文本描述編輯圖像是在文本到圖像合成的工作基礎(chǔ)上發(fā)展而來(lái)的,旨在根據(jù)文本描述的語(yǔ)義關(guān)系編輯源圖像,通過(guò)神經(jīng)網(wǎng)絡(luò)模型進(jìn)而得到一張新圖像.具體來(lái)說(shuō),給定一張?jiān)紙D像,根據(jù)一句話或一段文本描述,改變圖像中的相關(guān)區(qū)域,得到既包含文本語(yǔ)義信息,又不改變?cè)紙D像中其他與文本描述信息無(wú)關(guān)的新的圖像.例如文獻(xiàn)[14]根據(jù)文本描述改變給定圖像中特定部分區(qū)域的顏色.
在本文中,我們關(guān)注基于文本描述的人物圖像編輯工作—根據(jù)文本語(yǔ)義信息改變圖像中人物服裝的問(wèn)題.近年來(lái)基于文本描述編輯圖像的工作[11,13,15,16]主要集中在研究花鳥數(shù)據(jù)集[17,18]上,這些方法一般難以直接應(yīng)用到人物圖像的編輯中.主要的原因有兩點(diǎn):一是這些工作側(cè)重于圖像全局的編輯,缺乏對(duì)于局部位置的針對(duì)性;二是這些工作生成的圖像容易丟失源圖像的特征,不能保持人物的個(gè)人屬性.現(xiàn)有的基于文本描述編輯人物圖像的工作如FashionGAN[19]根據(jù)文本描述確定人物的目標(biāo)分割圖,然后將目標(biāo)分割圖直接渲染為彩色人物圖像,最后將合成的頭發(fā)/臉部區(qū)域用源圖像對(duì)應(yīng)的部位替換,得到了姿態(tài)合理、色彩較為自然的人物圖像.但是,F(xiàn)ashionGAN[19]的方法很依賴第一階段生成的目標(biāo)分割圖,如果生成的目標(biāo)分割圖肢體大小、位置不合理或者不能確定服裝的范圍,那么渲染成彩色圖像時(shí)這樣的異常也會(huì)被放大.此外,在根據(jù)文本描述改變上半身的衣服時(shí)也不能保持下半身的衣服不變.FiLMGAN[20]和BilinearGAN[21]更加關(guān)注文本表示和視覺(jué)表示的融合.他們使用了圖像文本匹配優(yōu)化策略來(lái)優(yōu)化模型.但是,這種匹配策略傾向于合成模糊和荒謬的圖像,模型會(huì)根據(jù)文本編輯整個(gè)圖像,而不僅僅是圖像中與文本相關(guān)的某些部分.
為了解決現(xiàn)有的基于文本描述編輯人物圖像的方法得到的人物圖像清晰度不足、人物個(gè)性特征丟失以及姿態(tài)結(jié)構(gòu)不合理等問(wèn)題,本文基于生成對(duì)抗網(wǎng)絡(luò)提出了一個(gè)從低分辨率到高分辨率多輸出的人物圖像編輯模型.如圖1所示,該模型共包含三個(gè)階段,分別將文本到圖像的轉(zhuǎn)化以及圖像紋理的渲染放到不同的階段中進(jìn)行.其中第一個(gè)階段使用了人物分割掩碼以空間自適應(yīng)歸一化的方式來(lái)控制人物姿態(tài),實(shí)現(xiàn)文本到低分辨率人物圖像的生成.第二、三階段使用了相同的網(wǎng)絡(luò)結(jié)構(gòu),以去除服裝部分的人物圖像和前一階段的特征作為輸入,逐步細(xì)化紋理并提高圖像分辨率,最后生成人物個(gè)性特征不變、結(jié)構(gòu)合理且符合文本語(yǔ)義的清晰人物圖像.
圖1 方法結(jié)構(gòu)圖
本文接下來(lái)的部分首先介紹相關(guān)的研究工作,然后詳細(xì)介紹所提出方法的模型結(jié)構(gòu)、優(yōu)化目標(biāo)以及訓(xùn)練細(xì)節(jié),在所提出的模型上進(jìn)行實(shí)驗(yàn),并與現(xiàn)有的人物圖像編輯的方法進(jìn)行分析比較,最后總結(jié)全文.
文本到圖像的合成是圖像翻譯的反問(wèn)題,是生成模型研究中的一個(gè)重要研究?jī)?nèi)容,旨在學(xué)習(xí)從文本語(yǔ)義空間到復(fù)雜像素空間的映射.此任務(wù)有兩種主要模式:一是文本直接轉(zhuǎn)換為圖像,二是基于文本描述的圖像編輯.接下來(lái)主要介紹這兩種任務(wù)的相關(guān)工作,同時(shí)介紹基于文本描述編輯圖像在人物圖像方面現(xiàn)有的主要相關(guān)工作.文本與圖像相關(guān)的研究關(guān)系如圖1所示.
圖2 文本—圖像相關(guān)研究工作關(guān)系圖
直接使用文本描述合成逼真的圖像的任務(wù)意味著模型的輸入以文本描述為主要條件.近年來(lái),越來(lái)越多的研究者對(duì)這項(xiàng)任務(wù)提出了挑戰(zhàn)[10,12,13,22,23].文獻(xiàn)[10]首次使用GANs[24]提出用于文本-圖像匹配的對(duì)抗訓(xùn)練的策略,基于文本描述生成了花鳥圖像.StackGAN[12]設(shè)計(jì)了一個(gè)金字塔式的生成結(jié)構(gòu),從不同的分辨率級(jí)別定義生成器和鑒別器.基于stackGAN的stackGAN++[23]引入了無(wú)條件的損失和色彩調(diào)節(jié)器來(lái)優(yōu)化網(wǎng)絡(luò),它使用樹狀的多級(jí)生成結(jié)構(gòu)來(lái)生成小到大的圖像.AttnGAN[13]使用注意力驅(qū)動(dòng)模型來(lái)合成圖像不同子區(qū)域的細(xì)粒度細(xì)節(jié).本文提出方法的第一個(gè)階段以解碼的方式基于文本描述生成人物圖像,人物分割掩碼只是作為學(xué)習(xí)歸一化參數(shù)的一個(gè)條件.
基于文本描述編輯圖像又稱為基于自然語(yǔ)言的圖像編輯(LBIE)[20,25],旨在通過(guò)文本描述在語(yǔ)義上操縱源圖像.與直接由文本生成圖像的任務(wù)的區(qū)別在于,LBIE需要一個(gè)源圖像作為輸入,要求模型根據(jù)文本描述修改圖像的相關(guān)部分,但是不能影響其他不相關(guān)的部分,以維護(hù)原始圖像的某些細(xì)節(jié).文獻(xiàn)[11]首先從圖像—文本描述對(duì)中學(xué)習(xí)視覺(jué)語(yǔ)義文本嵌入,然后對(duì)抗訓(xùn)練條件式生成器網(wǎng)絡(luò).CCGAN[15]提出了兩個(gè)耦合的條件對(duì)抗網(wǎng)絡(luò),生成以給定文本描述為條件的逼真的圖像,并且該網(wǎng)絡(luò)可以學(xué)習(xí)具有保留圖像結(jié)構(gòu)和屬性的能力的映射.以上工作都主要著力于花鳥數(shù)據(jù)集,是基于文本編輯人物圖像的工作基礎(chǔ),但人物的姿勢(shì)、體態(tài)、外貌特征、紋理外觀有著各式各樣的要求,現(xiàn)有的模型很難直接應(yīng)用到人物圖像上.
本文專注于基于文本描述的人物圖像編輯任務(wù),該任務(wù)要求我們根據(jù)文本描述來(lái)改變圖像中人物的發(fā)型、表情、服裝等內(nèi)容,近年來(lái)已經(jīng)有了一些不錯(cuò)的工作[19-21,26].FashionGAN[19]提出了一個(gè)兩階段式的生成模型,該模型使用人類解析的分割圖維持結(jié)構(gòu)連貫性,包括身體形狀和姿勢(shì).在第一階段,他們使用人物的解析分割圖、源圖像中的特征屬性以及目標(biāo)文本描述來(lái)生成目標(biāo)人物圖像的分割蒙版,然后在第二階段中使用此分割圖生成人物圖像.FiLMedGAN[20]提出了基于文獻(xiàn)[11]的模型結(jié)構(gòu),使用特征線性調(diào)制(FiLM)的方法將文本表示與視覺(jué)表示融合在一起,而無(wú)需使用額外的空間信息.文獻(xiàn)[27]提出了一種新方法,可以同時(shí)轉(zhuǎn)移參考圖像中與給定文本描述相對(duì)應(yīng)的人的姿勢(shì)和外觀.BilinearGAN[21]提出了一種改進(jìn)的條件層,稱為雙線性殘差層,以學(xué)習(xí)LBIE任務(wù)的更強(qiáng)大表示.因?yàn)樗麄冋J(rèn)為條件生成對(duì)抗網(wǎng)絡(luò)(cGAN)[28]中的現(xiàn)有的條件處理方法缺乏表示能力,無(wú)法了解圖像特征和文本特征之間的二階相關(guān)性.在本文中,我們將姿勢(shì)保持與紋理、顏色渲染分開考慮.我們提出了多階段但一次生成的文本指導(dǎo)的人物圖像生成框架,以根據(jù)文本描述編輯人物的相關(guān)部分,同時(shí)保留人的身體姿勢(shì)和形狀.
本文模型的目標(biāo)是根據(jù)指定的文本描述編輯圖像中人物身穿服裝的顏色、款式、袖長(zhǎng)等屬性.通過(guò)建模文本與圖像之間的關(guān)系,以人物圖像的分割掩碼作為歸一化條件來(lái)控制人物姿態(tài),生成符合文本語(yǔ)義要求且結(jié)構(gòu)合理的清晰的人物圖像.其中文本描述以一句話的形式表示,如:This lady is wearing a blue short sleeve dress.分割掩碼很容易捕獲穿戴者的身體部位的形狀,而不是人物的詳細(xì)外觀.我們使用現(xiàn)有的掩碼提取器[29]從RGB人物圖像中提取得到人物分割掩碼,用以表示人體不同部位的像素級(jí)語(yǔ)義類別,表示像素位置是否歸屬于頭發(fā)、臉部、上衣、下衣、手、腳等,最多可分為20個(gè)類別.在本文中僅使用頭發(fā)、臉部、手、腳、上衣、褲子以及圖像背景七個(gè)類別,并將其他的類別合并到與其最接近的類別當(dāng)中,保證人物圖像中的每一個(gè)像素都屬于其中的某一個(gè)類.
本文模型是基于條件生成對(duì)抗網(wǎng)絡(luò)而建的,由生成網(wǎng)絡(luò)與判別網(wǎng)絡(luò)共同組成.總的來(lái)說(shuō),生成網(wǎng)絡(luò)輸入文本以及初始人物圖像,輸出符合文本語(yǔ)義且保持初始圖像人物個(gè)性特征的新的圖像.為了讓生成模型適應(yīng)文本與圖像對(duì)應(yīng)的多樣性,生成器同時(shí)接收高斯噪聲作為網(wǎng)絡(luò)輸入.判別網(wǎng)絡(luò)用于判別圖像是來(lái)自于生成器還是原始數(shù)據(jù)集,主要用于優(yōu)化模型,僅在訓(xùn)練階段使用.生成器試圖生成能混淆判別器的圖像,而判別器則試圖區(qū)別圖像的真實(shí)性,二者在對(duì)抗的機(jī)制下進(jìn)行訓(xùn)練,以此達(dá)到優(yōu)化生成模型的目的.接下來(lái)先說(shuō)明文本對(duì)圖像的匹配策略,然后針對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、損失函數(shù)與訓(xùn)練過(guò)程逐一進(jìn)行說(shuō)明.
文本信息與圖像信息屬于兩種不同的模態(tài),在將文本信息轉(zhuǎn)化圖像信息之前,需要建立兩種模態(tài)數(shù)據(jù)之間的對(duì)應(yīng)關(guān)系.文本與圖像匹配的關(guān)鍵在于保證在文本到圖像轉(zhuǎn)化過(guò)程中保持文本—圖像語(yǔ)義的一致性[11].我們使用基于VGG+LSTM的方法分別提取圖像特征與文本特征,然后使用特征向量之間的余弦相似度進(jìn)行匹配訓(xùn)練[10].
圖3 生成器模型網(wǎng)絡(luò)結(jié)構(gòu)圖
生成器采用的三段式生成結(jié)構(gòu),逐步生成分辨率大小32*32,64*64,128*128的圖像.在32*32的階段,為了更好地利用文本描述的全局語(yǔ)義信息,直接基于文本描述生成紋理粗糙但包含基本特征的人物圖像,同時(shí)使用人物的全局分割掩碼控制人物的姿態(tài).接下來(lái)的兩個(gè)階段,首先基于分割掩碼與初始人物圖像,得到與文本描述無(wú)關(guān)的人物圖像(去除了人物上衣),然后以此作為輸入經(jīng)過(guò)一個(gè)3*3卷積層并與前一個(gè)階段生成的圖像特征進(jìn)行組合,細(xì)化紋理,重建人物特征,得到最終的結(jié)果.生成器的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示.其中第三階段的結(jié)構(gòu)與第二階段完全相同,如圖中紅線表示,第二階段中的特征作為第三階段的其中一個(gè)輸入.
本文第一階段以文本描述與人物分割掩碼作為輸入,輸出分辨率為32*32的人物圖像.生成網(wǎng)絡(luò)使用類似于解碼器的結(jié)構(gòu).文本描述經(jīng)過(guò)文本編碼器后得到文本的全局編碼向量,將此向量與高斯噪聲z混合后經(jīng)過(guò)形狀轉(zhuǎn)換后輸送到解碼器中.解碼器主要由卷積層、上采樣層、歸一化層與激活層組成.其中卷積層使用3*3卷積核,步長(zhǎng)為1,邊界填充像素為1.上采樣模式使用雙線性插值.經(jīng)過(guò)實(shí)驗(yàn)證明,使用批歸一化等常見(jiàn)的歸一化方式容易生成肢體結(jié)構(gòu)不合理的人物圖像.同時(shí)文獻(xiàn)[30]證明基于語(yǔ)義場(chǎng)景圖的空間自適應(yīng)歸一化有助于限制生成圖像的場(chǎng)景結(jié)構(gòu).考慮到語(yǔ)義場(chǎng)景圖與人物分割掩碼實(shí)際上是同一種數(shù)據(jù)形式,都是使用特定的數(shù)值標(biāo)記圖像中的每一個(gè)像素具體屬于哪一個(gè)類別,我們使用空間自適應(yīng)歸一化替換批歸一化以生成結(jié)構(gòu)合理的人物圖像.除了輸出層的激活函數(shù)為Tanh外,其他激活函數(shù)均使用線性整流單元(rectified linear unit,ReLU).
后面兩個(gè)階段的網(wǎng)絡(luò)結(jié)構(gòu)是相同的,用于細(xì)化粗糙圖像的紋理細(xì)節(jié),重建人物特征.前一個(gè)階段輸出層前的64層的特征圖,與經(jīng)過(guò)3*3卷積的人物圖像特征圖連接起來(lái)作為新階段的輸入.模型主要由2個(gè)Resnet[31]層,1個(gè)上采樣模塊和1個(gè)圖像輸出模塊(3*3卷積)組成.
判別器采用CGAN[28]的結(jié)構(gòu),針對(duì)三個(gè)不同分辨率輸出的圖像分別使用三個(gè)不同的尺度的判別器.每一個(gè)判別器的卷積單元依據(jù)圖像大小而變化,最后使用Sigmod激活函數(shù)獲得一個(gè)布爾值,用于對(duì)輸入的圖像進(jìn)行真假的判斷.
我們的目標(biāo)是建立一個(gè)以任意文本描述編輯人物圖像的生成模型.由于人物圖像的紋理細(xì)節(jié)復(fù)雜,服裝、姿勢(shì)多樣,想要很好地訓(xùn)練生成器是一個(gè)不小的挑戰(zhàn).生成器與判別器以對(duì)抗的形式進(jìn)行交替訓(xùn)練,我們使用標(biāo)準(zhǔn)CGAN[28]的對(duì)抗損失函數(shù),具體形式為:
本文在Fashion Synthesis[19]數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),基于給定的一句文本描述編輯人物圖像,合成新的人物圖像.FashionGAN[19],F(xiàn)iLMGAN[20]以及BilinearGAN[21]設(shè)計(jì)了不同的模型實(shí)現(xiàn)了相同的任務(wù),我們的實(shí)驗(yàn)展示了與他們模型生成圖像的對(duì)比的結(jié)果.
Fashion Synthesis[19]數(shù)據(jù)集包含78979張人物圖像以及對(duì)應(yīng)的上衣的文本描述,圖像大小為128*128.文本描述為一句話,約7至15個(gè)單詞.同時(shí)為每個(gè)人物圖像提供了其人物的分割掩碼圖.這個(gè)分割掩碼將穿戴者的身體形狀分成6個(gè)部分,以6個(gè)標(biāo)簽按像素分類.遵循FashionGAN[19],F(xiàn)iLMGAN[20]以及BilinearGAN[21]的實(shí)驗(yàn)規(guī)則,我們將整個(gè)數(shù)據(jù)集分為訓(xùn)練集(70000張圖像)和測(cè)試(8979張圖像)集.本文展示的測(cè)試樣本均來(lái)自于測(cè)試集.測(cè)試時(shí),隨機(jī)從測(cè)試集中選取一個(gè)文本描述為當(dāng)前圖像的目標(biāo)描述,并且這個(gè)文本不會(huì)被重新選取.
測(cè)試時(shí)盡可能地模擬真實(shí)的應(yīng)用場(chǎng)景.由于應(yīng)用時(shí),并不會(huì)直接得到人物圖像的分割掩碼.我們使用掩碼提取器[29]來(lái)獲得任意輸入圖像的人物分割掩碼圖.掩碼提取器[29]會(huì)將人的身體或衣服分成19個(gè)語(yǔ)義標(biāo)簽,這些標(biāo)簽分別表示帽子、頭發(fā)、太陽(yáng)鏡、上衣、衣服、外套、襪子、褲子、手套、圍巾、裙子、連身褲、臉、右臂、左臂、右腿、左腿、右鞋和左鞋、背景標(biāo)簽.我們合并源分割圖的像素上相鄰的一些標(biāo)簽,最后得到的分割圖中每一個(gè)部分分別對(duì)應(yīng)背景、頭發(fā)、臉、上衣、褲子、腿和手臂,與Fashion Synthesis[19]數(shù)據(jù)集相同.
本文模型使用Adam優(yōu)化器訓(xùn)練模型并設(shè)置動(dòng)量參數(shù)β1=0.5和β2=0.999.學(xué)習(xí)率設(shè)為0.0002并恒定不變.為了加速訓(xùn)練,使模型更快進(jìn)入收斂階段,我們使用正態(tài)分布隨機(jī)初始化網(wǎng)絡(luò)參數(shù).訓(xùn)練模型在一臺(tái)配置GPU型號(hào)為GTX 1080Ti的服務(wù)器上進(jìn)行,共11G內(nèi)存容量.每個(gè)批次為36張圖像,共70000張訓(xùn)練圖像,訓(xùn)練100個(gè)批次預(yù)計(jì)需要2天.經(jīng)過(guò)對(duì)比實(shí)驗(yàn),我們將四個(gè)超參數(shù)分別設(shè)置為
我們將提出的模型的結(jié)果與其他相關(guān)方法進(jìn)行比較,如圖4所示.為了更好地比較文本描述和生成的圖像之間的對(duì)應(yīng)關(guān)系,我們采用FashionGAN[19]中的處理方法,將生成圖像中的頭發(fā)/臉部區(qū)域替換為原始圖像的對(duì)應(yīng)部分.由圖4可以看出,F(xiàn)ashionGAN[19]和我們提出的方法在形狀和姿勢(shì)方面都比BilinearGAN[21]與FiLMGAN[20]更好.同時(shí)本文的方法具有很強(qiáng)的文本語(yǔ)義翻譯能力,可以識(shí)別輸入文本描述的不同顏色和樣式,并且可以渲染出高級(jí)的細(xì)節(jié)紋理,產(chǎn)生更合理的結(jié)果.在圖5中,我們還展示了一些由相同文字描述生成的圖像,這些圖像表明我們的模型生成的圖像具有豐富的多樣性,并且不會(huì)影響圖像的質(zhì)量.
圖4 與其他方法對(duì)比效果圖
圖5 基于同一文本生成圖像多樣性對(duì)比
文本到圖像的生成是圖像標(biāo)題生成(其中“標(biāo)題”定義為簡(jiǎn)易的文本描述)任務(wù)的反向問(wèn)題.當(dāng)我們基于文本描述生成或編輯圖片時(shí),應(yīng)該能夠使用基本的標(biāo)題生成器模型來(lái)獲取結(jié)果圖像的文本描述,并且該文本描述應(yīng)與我們的輸入的文本描述基本一致.基于此,設(shè)計(jì)了一個(gè)簡(jiǎn)單但準(zhǔn)確率較高的標(biāo)題生成器來(lái)生成結(jié)果圖像的標(biāo)題,并觀察其是否與輸入文本描述一致.對(duì)于標(biāo)題生成器的結(jié)構(gòu),我們使用Resnet-152[33]預(yù)訓(xùn)練模型對(duì)圖像進(jìn)行編碼,然后使用長(zhǎng)短期記憶(LSTM )[34]網(wǎng)絡(luò)作為解碼器生成圖像對(duì)應(yīng)的標(biāo)題.我們使用標(biāo)準(zhǔn)的BLEU度量標(biāo)準(zhǔn)來(lái)評(píng)估所生成標(biāo)題的正確性.在表1中展示了評(píng)估的結(jié)果.與各種不同模型方法相比,我們的模型獲得了最佳的評(píng)估效果,表明通過(guò)我們提出的模型生成的圖像在語(yǔ)義上更加符合文本描述.為了進(jìn)一步驗(yàn)證我們的評(píng)估方法的合理性,我們使用生成的標(biāo)題作為搜索關(guān)鍵字從Google網(wǎng)站下載了一些圖片.同時(shí)我們?cè)跀?shù)據(jù)集中檢索相同關(guān)鍵字的圖像.Google圖像與數(shù)據(jù)集圖像對(duì)應(yīng)相同關(guān)鍵字的對(duì)比結(jié)果如圖6所示.可以看出,我們生成的標(biāo)題(文字描述)是能準(zhǔn)確表示圖像語(yǔ)義信息的.
表1 標(biāo)題生成評(píng)估結(jié)果
參考FiLMGAN[20]的評(píng)估方法,本文還使用了Inception Score (IS)[35]和Fr'echet距離(FID)[36]作為評(píng)估指標(biāo).其中IS用于評(píng)估圖像的質(zhì)量與多樣性,也是生成模型中使用的最為廣泛的評(píng)估方法.IS值越大表示生成圖像的結(jié)果越好.FID同樣用于評(píng)估生成圖像的多樣性,但相比于IS對(duì)噪聲更加魯棒,較低的FID意味著生成圖像與真實(shí)圖像之間的分布更為接近,也就意味著生成圖片的質(zhì)量較高、多樣性較好.從表 2 中可以看到,我們的方法生成的圖像比其他三個(gè)方法評(píng)估質(zhì)量更好一些,更具多樣性.
表2 IS與FID定量評(píng)估結(jié)果
圖6 DeepFashi on與Googl e 爬蟲下載的圖像
本文基于生成對(duì)抗網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)人物圖像編輯模型,根據(jù)文本描述編輯圖像中人物服裝的顏色、款式等.本文模型以多階段的方式輸出由低到高分辨率的人物圖像.同時(shí)引入自適應(yīng)歸一化,通過(guò)人物掩碼控制姿態(tài)的規(guī)范性.實(shí)驗(yàn)結(jié)果表明,該模型生成的圖像在姿勢(shì)保持、特征不變性以及紋理細(xì)節(jié)上都表現(xiàn)得更好,在Fashion Synthesis[19]數(shù)據(jù)集上達(dá)到最先進(jìn)的性能.在未來(lái)的工作中,我們將考慮更復(fù)雜的場(chǎng)景,進(jìn)一步將模型擴(kuò)展到更高分辨率的圖像以及可控的人像生成多樣性.
廣東技術(shù)師范大學(xué)學(xué)報(bào)2020年3期