祖雅妮 張毅
摘要: 現(xiàn)有的虛擬試穿技術(shù)需要用戶提供人體圖像和服裝圖像,且存在生成圖像質(zhì)量低、泛化性差等缺點(diǎn)。為了解決現(xiàn)有問(wèn)題,文章提出了一種基于文本圖像預(yù)訓(xùn)練模型的虛擬試穿方法。用戶只需輸入描述服裝的文本,即可獲取試穿效果。此外,通過(guò)編輯GAN-Inversion優(yōu)化生成的隱向量,能夠保障生成與輸入圖像質(zhì)量上的一致性。定性實(shí)驗(yàn)結(jié)果表明,文章提出的方法能夠有效地保留輸入人體圖像的特征,并生成與文本描述一致的服裝。在定量實(shí)驗(yàn)中,該方法在語(yǔ)義信息、IoU和FID等評(píng)價(jià)指標(biāo)上均優(yōu)于現(xiàn)有方法。
關(guān)鍵詞: 虛擬試穿;GAN-反轉(zhuǎn);預(yù)訓(xùn)練模型;CLIP;GAN-編輯;文本圖像模型
中圖分類(lèi)號(hào): TS941.2 文獻(xiàn)標(biāo)志碼: ?A
文章編號(hào): 10017003(2023)080099-08
引用頁(yè)碼: 081201 DOI: 10.3969/j.issn.1001-7003.2023.08.012
虛擬試穿是一項(xiàng)利用計(jì)算機(jī)視覺(jué)和機(jī)器學(xué)習(xí)預(yù)測(cè)指定體型上服裝效果的技術(shù)。使用虛擬試穿技術(shù)能夠?yàn)橄M(fèi)者提供更個(gè)性化和交互性的購(gòu)物體驗(yàn),同時(shí)降低了實(shí)體試穿的需求,具有廣泛的研究和應(yīng)用價(jià)值。在現(xiàn)有的虛擬試穿研究中,有一種基于三維模型的方法,即通過(guò)采集人體數(shù)據(jù)模型來(lái)進(jìn)行三維物理仿真,以此預(yù)測(cè)服裝在人體上的效果。該方法雖具備較高精度,但需要昂貴的三維采集設(shè)備,且在數(shù)據(jù)安全上存有一定風(fēng)險(xiǎn)[1]。相較而言,基于二維圖片的虛擬試穿技術(shù)具有使用方便、成本低廉等優(yōu)點(diǎn),但在精度上有所下降。針對(duì)這一問(wèn)題,學(xué)界將深度學(xué)習(xí)技術(shù)廣泛應(yīng)用至虛擬試穿領(lǐng)域。Han等[2]提出了VITON(virtual try-on network)框架,即生成與輸入人體位姿相適應(yīng)的扭曲服裝圖像進(jìn)行粗配準(zhǔn)后,再進(jìn)行紋理和細(xì)節(jié)的微調(diào)?;诖隧?xiàng)工作,Minar等[3]在粗配準(zhǔn)階段添加了幾何匹配模塊,提高了服裝與人體的貼合效果;Choi等[4]提出了VITON-HD,即在最終生成圖像時(shí)添加提升圖像質(zhì)量的模塊,提高了圖像的分辨率和細(xì)節(jié);Dong等[5]提出了MG-VTON,允許輸出多種位姿的試穿圖像。但上述工作基于“圖像+圖像”的輸入,即需要輸入指定的服裝圖像,限制了方法的應(yīng)用范圍。
近年來(lái),隨著深度學(xué)習(xí)的發(fā)展,大語(yǔ)言模型(Large Language Model,LLM)得到了廣泛應(yīng)用,如對(duì)話模型ChatGPT[6]及對(duì)比語(yǔ)言圖像預(yù)訓(xùn)練模型(Contrastive Language-Image Pre-Training,CLIP)[7]等。這些語(yǔ)言模型通過(guò)無(wú)監(jiān)督或自監(jiān)督學(xué)習(xí)的方式,使用了大量網(wǎng)絡(luò)直接獲取的數(shù)據(jù)進(jìn)行訓(xùn)練,在泛化能力上遠(yuǎn)超過(guò)了在指定數(shù)據(jù)集上的傳統(tǒng)監(jiān)督訓(xùn)練。由此,語(yǔ)言模型被廣泛應(yīng)用到各項(xiàng)研究中,如語(yǔ)音[8]和圖像生成[9]等?!氨疚?圖像”的訓(xùn)練模式改變了傳統(tǒng)“圖像+圖像”的方法,即可同時(shí)生成描述的服裝及試穿效果,擴(kuò)展虛擬試穿的應(yīng)用范圍。在圖像生成領(lǐng)域,生成式對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)[10]因其優(yōu)異性能而得到普遍應(yīng)用。Karras等[11]針對(duì)GAN的網(wǎng)絡(luò)架構(gòu)進(jìn)行了改進(jìn),提高了生成圖片的質(zhì)量并降低了對(duì)數(shù)據(jù)量的需求。然而,如何更穩(wěn)定和有效地控制生成的圖像一直是研究的難點(diǎn)。Tov等[12]提出了GAN反轉(zhuǎn)(GAN-Inversion)的概念,即構(gòu)造一個(gè)編碼器結(jié)構(gòu),直接在GAN的隱空間中對(duì)隱向量進(jìn)行編輯,從而提高了圖像效果。
相較于現(xiàn)有研究,本文基于CLIP將虛擬試穿的輸入范圍設(shè)定為“圖像圖像”擴(kuò)展到“文本圖像”,并結(jié)合GAN-Inversion構(gòu)造的編碼器,在Patashnik等[9]的工作基礎(chǔ)上,使用神經(jīng)網(wǎng)絡(luò)直接對(duì)GAN-Inversion生成的隱向量進(jìn)行優(yōu)化,提高生成圖像的質(zhì)量。然后,利用定性與定量實(shí)驗(yàn)驗(yàn)證現(xiàn)有方法的可行性。
1 虛擬試穿方法框架
1.1 現(xiàn)有虛擬試穿方法框架分析
現(xiàn)有的基于二維圖像輸入的虛擬試穿遵循以下主要流程:1) 輸入指定的人體圖片和服裝圖片;2) 進(jìn)行人體位姿提取和人體區(qū)域分割;3) 根據(jù)人體位姿對(duì)服裝進(jìn)行扭曲并與人體圖片進(jìn)行粗配準(zhǔn);4) 精調(diào)服裝紋理和匹配細(xì)節(jié)。
本文以VITON為例,其流程如圖1所示。
在真實(shí)的使用場(chǎng)景中,虛擬試穿需要保持輸入的人體圖像位姿和其他外部特征(如臉部、頭發(fā))不變,最終輸出的圖像與原始輸入的人體圖像除了在服裝上有所不同,其余特征均保持一致。首先,VITON對(duì)人體圖像進(jìn)行位姿提取,并使用GAN網(wǎng)絡(luò)預(yù)測(cè)最終服裝效果。然后對(duì)輸入的衣物與人體進(jìn)行粗配準(zhǔn),獲得大致的形態(tài)。最后通過(guò)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行精調(diào),豐富紋理細(xì)節(jié)和姿態(tài)匹配。
1.2 基于文本圖像預(yù)訓(xùn)練模型的虛擬試穿整體架構(gòu)
本文提出的方法基于文本圖像預(yù)訓(xùn)練模型CLIP,將虛擬試穿的輸入范圍擴(kuò)展到文本+圖像。該方法的整體架構(gòu)主要分為三步驟(圖2)。首先,對(duì)輸入的人體圖像(I)進(jìn)行位姿提?。≒)和圖像分割(S)。提取的位姿用于約束身體的各部分
尺寸、形態(tài)及最終生成服裝的形態(tài)。這一步驟的主要目的為保持輸入與輸出圖像的一致性。其次,為使用文本描述作為輸入,添加了用于提取文本和圖像特征的編碼器,分別為Ct及Ci。文本圖像編碼器將用于約束服裝圖像的生成,使其符合文本描述。再次,為了提高生成圖像的質(zhì)量,采用GAN-Inversion,將原始的圖像輸入編碼器(E)得到隱向量wini,用映射模塊(M)生成相同維度的向量woffset,對(duì)得到的隱向量進(jìn)行編輯。最后得到的隱向量w被輸入到生成器(G)中以生成最終圖像G(w)。本文的主要目標(biāo)在于優(yōu)化映射模塊(M),最小化文本轉(zhuǎn)圖像的誤差,即:
式中:W表示GAN隱空間。
1.2.1 文本圖像編碼(C)
文本圖像編碼模塊需要匹配輸入的文本和輸出的服裝圖像特征,使得最終的輸出圖像符合文本描述。本文直接使用了預(yù)訓(xùn)練的視覺(jué)語(yǔ)言模型CLIP[7]用于特征提取。
輸入的文本t將通過(guò)CLIP的文本編碼器Ct輸出高維的特征向量vt=Ct(t);同樣,生成圖像G(w)將通過(guò)CLIP的圖像編碼器Ci輸出特征向量vw=Ci(G(w))。輸出的向量用于衡量文本圖像之間的匹配程度并構(gòu)造誤差函數(shù),其中特征向量的維度為dim(v)=640[7]。
1.2.2 位姿提?。≒)
為確保輸入與輸出的人體圖像在位姿上保持一致,需要對(duì)原始人體位姿進(jìn)行提取分析。本文采用了預(yù)訓(xùn)練的基于ResNet50的Detectron2模型作為位姿提取模塊(P)。該模型最多可以解析人體24個(gè)獨(dú)立部位,如左小臂、右大臂等。本文僅提取上身14個(gè)獨(dú)立部分的位姿。經(jīng)過(guò)解析后,可得到14個(gè)通道,長(zhǎng)×寬為112×112的矩陣(長(zhǎng)、寬分別為112像素的圖像)。為了更好地展示結(jié)果,本文將其轉(zhuǎn)化為熱力圖并進(jìn)行可視化,如圖3所示。
1.2.3 圖像分割(S)
為了加強(qiáng)輸出圖像與輸入圖像的一致性,本文采用了圖像分割模塊(S),將人體圖像分成頭部(臉部+頭發(fā))區(qū)域和身體區(qū)域。使用SegNet[13]作為圖像分割模塊,最終輸出2通道的二值圖像,尺寸與原圖像相同(256×256),如圖4所示。分割后的頭部區(qū)域?qū)⒂糜谧罱K的圖像拼接,以進(jìn)一步提高輸出與輸入圖像的吻合度。
1.2.4 編碼器(E)
近年來(lái),GAN-Inversion[12]技術(shù)在圖像編輯領(lǐng)域備受關(guān)注。該技術(shù)可以直接編輯圖像對(duì)應(yīng)的隱向量,較調(diào)整GAN網(wǎng)絡(luò)的整體模型參數(shù)更為高效和直接。本文將GAN-Inversion用于虛擬試穿中,將原始輸入圖像I通過(guò)編碼器(E)輸出為隱向量wini。在具體模型選擇上,采用了E4e[12]作為圖像的編碼器,輸出的隱向量的維度為dim(wini)=512。
1.2.5 生成器(G)
生成器(G)本身就是GAN網(wǎng)絡(luò)中的生成網(wǎng)絡(luò),通常是一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。輸入隱向量w并輸出最終的圖像G(w)。具體來(lái)說(shuō),本文采用了預(yù)訓(xùn)練的圖像生成模型StyleGANv2[14]。通過(guò)使用預(yù)訓(xùn)練的生成器模型,可以減少訓(xùn)練時(shí)間和計(jì)算資源,從而生成高質(zhì)量的圖像。
1.2.6 映射模塊(M)
直接將編碼器(E)生成的隱向量winit輸出到生成器(G)中,得到的圖片效果通常很差。因?yàn)殡m然編碼器可以將真實(shí)的圖像映射到隱空間W′中,但W′是一個(gè)刻意創(chuàng)造出來(lái)的空間,與GAN原始的隱空間并不一致。因此,為了保證生成圖像的質(zhì)量,需要通過(guò)映射模塊(M)對(duì)生成的隱向量進(jìn)行優(yōu)化。映射模塊(M)是一個(gè)全連接層的神經(jīng)網(wǎng)絡(luò),層數(shù)與生成器(G)一致;映射模塊將輸出與隱向量wini相同維度的一個(gè)偏移向量woffset,用以?xún)?yōu)化隱向量并使其靠近真正的隱空間W,進(jìn)而提升圖像質(zhì)量。
2 損失函數(shù)設(shè)置
2.1 語(yǔ)義約束
為使生成的圖像符合文本的描述特征,需要優(yōu)化圖像文本之間的特征誤差。輸入的文本及輸出的圖像分別經(jīng)過(guò)CLIP編碼之后,得到特征向量Ci(G(w))及Ct(t)。衡量?jī)蓚€(gè)向量之間的誤差通常采用余弦距離[9],語(yǔ)義約束的損失函數(shù)如下式所示:
2.2 位姿約束
輸入與輸出圖像的位姿是否一致直接影響了用戶的使用體驗(yàn)。為保持整體的位姿一致,需要保證身體各個(gè)部位在尺寸、形狀及位置上前后不變。據(jù)此,構(gòu)造位姿誤差函數(shù)為:
式中:NB表示提取出的獨(dú)立的人體部位的數(shù)目(本文中NB=14);Di()表示提取的第i個(gè)部位的特征表示。具體來(lái)說(shuō),Di()將輸出與原始圖像相同尺寸的二維矩陣。
對(duì)于衡量矩陣之間的誤差,通常采用逐元素平方誤差均值的形式,即假設(shè)A,B為兩個(gè)M×N的矩陣,A,B之間的誤差表示為:
2.3 圖像分割約束
雖然分割的圖像可用于最終的圖像拼接,但為了增強(qiáng)輸入與輸出圖像的一致性,同時(shí)為了保證進(jìn)行圖像拼接時(shí)更加貼合,基于分割后的人體區(qū)域,定義了損失函數(shù)。具體如下式所示:
式中:Sbody()表示對(duì)圖像進(jìn)行分割后的身體部分的區(qū)域;Shead()表示對(duì)圖像進(jìn)行分割后的頭部(即面部與頭發(fā))的區(qū)域。
body與head使生成圖像在整體形態(tài)上與輸入圖像保持一致。
2.4 隱向量正則化
雖然映射模塊(M)對(duì)原始的隱向量進(jìn)行偏移操作,但是需要注意,最終生成的隱向量w不應(yīng)與初始的隱向量winit偏差過(guò)大,否則生成的圖像將產(chǎn)生較大差異。為此,在對(duì)woffset進(jìn)行優(yōu)化時(shí),需要對(duì)其自身添加正則化限制:
2.5 最終損失函數(shù)
基于上述分析,最終得到的映射模塊(M)的損失函數(shù)為:
式中:λ表示各項(xiàng)損失函數(shù)的權(quán)重系數(shù)。
3 結(jié)果與分析
3.1 實(shí)驗(yàn)環(huán)境設(shè)置
3.1.1 數(shù)據(jù)集
雖然本文使用了多個(gè)預(yù)訓(xùn)練模型,但考慮到服裝領(lǐng)域模型的預(yù)訓(xùn)練數(shù)據(jù)集差異,因此還需要以下3種數(shù)據(jù)集對(duì)預(yù)訓(xùn)練的模型進(jìn)行微調(diào)以提升性能。1) 圖像生成數(shù)據(jù)集:使用VITON數(shù)據(jù)集對(duì)生成器(G)與編碼器(E)進(jìn)行訓(xùn)練。本文使用整個(gè)訓(xùn)練集對(duì)StyleGANv2和E4e模型進(jìn)行訓(xùn)練,并取測(cè)試集中的100張圖片進(jìn)行最終的性能評(píng)估。2) 圖像分割數(shù)據(jù)集:為使圖像分割模塊更適用于人體輸入,本文將預(yù)訓(xùn)練的SegNet在DeepFashion[15]數(shù)據(jù)集上進(jìn)行微調(diào)。為提升最終性能,在進(jìn)行訓(xùn)練時(shí)僅保留了與VITON中類(lèi)似的數(shù)。在分割標(biāo)簽的選擇上,僅保留了頭部、身體及背景。3) 文本測(cè)試數(shù)據(jù)集:對(duì)于文本數(shù)據(jù),本文采用了Fashion-Gen[16]數(shù)據(jù)集用于測(cè)試文本圖像一致性誤差。Fashion-Gen包含了293 000個(gè)文本圖像對(duì),類(lèi)似地,本文僅選擇了與VITON類(lèi)似風(fēng)格的數(shù)據(jù)用于測(cè)試。此外,在文本的選擇上,剔除了非服裝類(lèi)型的描述(如“黑色鱷魚(yú)紋雙層皮手鐲,采用針扣式扣合”);對(duì)于高度專(zhuān)業(yè)化的描述(如“黑色方形紋理皮革背心。前面帶有拉鏈口袋。后領(lǐng)口帶有掛環(huán)和按扣裝置。內(nèi)里完全襯里,線跡色調(diào)一致”),CLIP模型難以有效提取特征,因此在進(jìn)行測(cè)試時(shí)也進(jìn)行了剔除,僅選擇了易于理解的文本數(shù)據(jù)。
3.1.2 參數(shù)設(shè)置
對(duì)于生成器StyleGANv2,在進(jìn)行訓(xùn)練時(shí)首先將VITON數(shù)據(jù)集中的數(shù)據(jù)裁剪為256×256大小的尺寸,訓(xùn)練共迭代450 000次;對(duì)于編碼器E4e,設(shè)置學(xué)習(xí)率η=10-2;對(duì)于分割模型SegNet,設(shè)置學(xué)習(xí)率η=10-4,共訓(xùn)練20輪模型收斂。對(duì)于映射模塊(M),為全連接的4層神經(jīng)網(wǎng)絡(luò),尺寸上與StyleGANv2的生成網(wǎng)絡(luò)相同,具體的各項(xiàng)誤差函數(shù)的權(quán)重系數(shù)設(shè)置為λclip=λoffset=1,λhead=λbody=λpose=10,學(xué)習(xí)率η=5×10-2;訓(xùn)練過(guò)程使用Adam優(yōu)化器[17]。
3.1.3 對(duì)比方法及評(píng)價(jià)指標(biāo)
本文對(duì)最終收斂的模型進(jìn)行多次、多種類(lèi)的輸入,檢測(cè)其是否滿足使用要求。為探究方法的有效性,選擇了圖像生成模型ReStyle-E4e[18]作為比較基準(zhǔn)。此外,為了探究映射模塊(M)的效果,對(duì)比了不添加映射模塊(M),即由編碼器(E)直接輸出隱向量生成圖像的方法。
在定性實(shí)驗(yàn)中,主要進(jìn)行以下兩方面的對(duì)比:1) 給定相同的人體輸入圖像,對(duì)比不同文本輸入下的輸出效果,探究不同模型對(duì)于文本的解析能力;2) 給定相同的文本輸入,對(duì)比不同人體圖像下的輸出效果,探究不同模型對(duì)于保持位姿一致性的能力。
在定量實(shí)驗(yàn)中,本文對(duì)幾種方法進(jìn)行了定量分析。具體的數(shù)量指標(biāo)包括:1) 文本圖像語(yǔ)義一致性,即衡量輸出圖像的服裝描述與輸入文本的匹配程度。因圖像和文本通過(guò)CLIP編碼器后均生成一維的特征向量,因此可以通過(guò)余弦距離來(lái)衡量?jī)蓚€(gè)向量的間距。2) 位姿一致性,即衡量輸入和輸出人體圖像所提取位姿的一致程度,采用計(jì)算機(jī)視覺(jué)中常用的交并比(IoU)進(jìn)行衡量。3) 圖像質(zhì)量,即衡量輸出圖像是否與輸入圖像在質(zhì)量和風(fēng)格上保持一致。本文采用了FID(Fr’echet Inception Distance)對(duì)輸入與輸出圖像的相似性進(jìn)行衡量,即采用了預(yù)訓(xùn)練的Inception-v3模型[19]對(duì)輸入與輸出圖像的數(shù)據(jù)分布一致性進(jìn)行衡量。
3.2 實(shí)驗(yàn)結(jié)果定性分析
在輸入時(shí),將不同位姿的人體圖片及不同顏色、材質(zhì)、類(lèi)型的服裝文本描述納入測(cè)試范圍,最終的實(shí)驗(yàn)結(jié)果如圖5所示。根據(jù)實(shí)驗(yàn)結(jié)果,輸入圖像和輸出圖像在位姿上基本保持一致;輸出的服裝符合輸入的文本描述;輸出圖像并未發(fā)生嚴(yán)重的錯(cuò)位或偽影。此外,本文的方法能夠較為有效地解析輸入文本的描述并生成符合要求的服裝。如圖5中第2行與第4行生成了對(duì)應(yīng)顏色的服裝;第4行生成相應(yīng)的款式和圖案。
需要注意到盡管大部分輸出符合描述,但是也存在錯(cuò)誤的情況。如圖5中第2行第4列,第5行第5列等。這主要是由于預(yù)訓(xùn)練模型的訓(xùn)練數(shù)據(jù)分布與實(shí)驗(yàn)使用的測(cè)試數(shù)據(jù)分布不是絕對(duì)一致,存在泛化性不夠的問(wèn)題。
圖6、圖7分別展示了本文提出的方法與其他的方法的對(duì)比結(jié)果。圖6為給定相同人體輸入圖像,對(duì)比不同文本輸入條件下的結(jié)果;圖7為給定相同文本輸入,對(duì)比不同人體輸入圖像的結(jié)果。
通過(guò)對(duì)比研究,本文提出的方法能夠很好地匹配輸入文本的語(yǔ)義信息,并同時(shí)保持原有輸入人體圖像的位姿。而若直接使用E4e模型輸出隱向量而不進(jìn)行優(yōu)化,輸出的圖像會(huì)在語(yǔ)義信息上存在不匹配的情況。如在圖6第1行和第2行在直接使用E4e模型時(shí),最終生成的服裝圖像顏色與描述不一致,即E4e與ReStyle-E4e無(wú)法保持與輸入圖像一致的位姿和外貌。由圖7可見(jiàn),ReStyle-E4e輸出的圖像在膚色、發(fā)型上與原有圖像存在較大差異,而本文提出的方法在語(yǔ)義信息保留和位姿,外貌一致性上表現(xiàn)較好。
3.3 實(shí)驗(yàn)結(jié)果定量分析
定量實(shí)驗(yàn)的結(jié)果如表1所示。實(shí)驗(yàn)結(jié)果表明,提出的方法在語(yǔ)義一致性,位姿一致性及圖像質(zhì)量等方面均優(yōu)于現(xiàn)有方法,與定性研究的結(jié)論一致。在圖像質(zhì)量(FID)上,本文提出的方法與現(xiàn)有方法相比提升了77.3%及77.1%,表明了對(duì)生成的隱向量?jī)?yōu)化的有效性。
4 結(jié) 論
本文研究了基于文本圖像預(yù)訓(xùn)練模型的虛擬試穿方法,通過(guò)輸入人體圖像和服裝的描述性文本生成相應(yīng)的試穿圖像,與現(xiàn)有的基于圖像輸入的方法相比,具有更大的使用彈性。同時(shí),本文在GAN隱空間內(nèi)直接進(jìn)行隱向量的優(yōu)化,提高了輸出圖像的質(zhì)量,并由定性和定量實(shí)驗(yàn)證明了本文提出的方法的優(yōu)越性。與此同時(shí),本文提出的方法仍存有缺陷。首先,本文雖大量使用完成了預(yù)訓(xùn)練的模型,但在實(shí)際部署時(shí)還需要在大數(shù)據(jù)集上進(jìn)行再次訓(xùn)練,否則容易出現(xiàn)偽影,即生成圖像與描述不一致的情況;其次,雖然在實(shí)驗(yàn)展示中輸入了語(yǔ)言為中文的描述性文字,但由于所采用的訓(xùn)練數(shù)據(jù)集的語(yǔ)言為英文,故在實(shí)際操作時(shí)需將文字轉(zhuǎn)為英文輸入。由此可見(jiàn),時(shí)裝行業(yè)建立大規(guī)模中文數(shù)據(jù)集也是未來(lái)的工作之一。
參考文獻(xiàn):
[1]張淑芳, 王沁宇. 基于生成對(duì)抗網(wǎng)絡(luò)的虛擬試穿方法[J]. 天津大學(xué)學(xué)報(bào)(自然科學(xué)與工程技術(shù)版), 2021, 54(9): 925-933.
ZHANG Shufang, WANG Qinyu. Generative-adversarial-network-based virtual try-on method[J]. Journal of Tianjin University (Science and Technology), 2021, 54(9): 925-933.
[2]HAN X T, WU Z X, WU Z, et al. VITON: An image-based virtual try-on network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Utah: IEEE, 2018.
[3]MINAR M R, TUAN T T, AHN H. Cloth-Vton: Clothing three-dimensional reconstruction for hybrid image-based virtual try-on[C]// Asian Conference on Computer Vision. Springer: Cham, 2020.
[4]CHOI S, PARK S, LEE M, et al. Viton-hd: High-resolution virtual try-on via misalignment-aware normalization[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Montreal: Computer Vision Foundation-CVF IEEE Computer Society, 2021.
[5]DONG H Y, LIANG X D, SHEN X H, et al. Towards multi-pose guided virtual try-on network[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul: IEEE, 2019.
[6]OUYANG L, WU J, JIANG X, et al. Training language models to follow instructions with human feedback[J]. Advances in Neural Information Processing Systems, 2022, 35: 27730-27744.
[7]RADFORD, A, KIM J W, HALLACY C, et al. Learning transferable visual models from natural language supervision[J]. Computer Vision and Pattern Recognition, 2021, 26(2): 8748-8763.
[8]GUZHOV A, RAUE F, HEES J, et al. Audioclip: Extending clip to image, text and audio[C]//ICASSP 2022-2022 IEEE International Conference on Acoustics. Singapore: Speech and Signal Processing (ICASSP), 2022.
[9]PATASHNIK O, WU Z, SHECHTMAN E D, et al. Styleclip: Text-driven manipulation of stylegan imagery[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal: IEEE, 2021.
[10]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Conference on Neural Information Processing Systems (NIPS 2017). New York: Curran Associates, 2017: 1-15.
[11]KARRAS T, LAINE S, AILA T. A style-based generator architecture for generative adversarial networks[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). New York: Curran Associates, 2019: 4396-4405.
[12]TOV O, ALALUF Y, NITZAN Y, et al. Designing an encoder for StyleGAN image manipulation[J]. ACM Transactions on Graphics, 2021, 40(4): 1-14.
[13]BADRINARAYANAN V, KENDALL A, CIPOLLA R. Segnet: A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(12): 2481-2495.
[14]KARRAS T, LAINE S, AITTALA M, et al. Analyzing and improving the image quality of StyleGAN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle: IEEE, 2020.
[15]LIU Z W, LUO P, QIU S, et al. Deepfashion: Powering robust clothes recognition and retrieval with rich annotations[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016.
[16]ROSTAMZADEH N, HOSSEINI S, BOQUET T, et al. Fashion-gen: The generative fashion dataset and challenge[J]. arXiv, 2018: 08317.
[17]KINGMA D P, BA J. Adam: A method for stochastic optimization[C]//International Conference on Learning Representations. New York: Computer Science, 2014.
[18]ALALUF Y, PATASHNIK O, COHENOR D. Restyle: A residual-based stylegan encoder via iterative refinement[C]//Computer Vision and Pattern Recognition. New York: Accepted to ICCV, 2020.
[19]SZEGEDY C, VANHOUCKE V, IOFFE S, et al. Rethinking the inception architecture for computer vision[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Las Vegas: IEEE, 2016.
A virtual try-on method based on the large-scale pre-training text-image model
ZHANG Chi, WANG Xiangrong
ZU Yani, ZHANG Yi
(School of Design, Jiangnan University, Wuxi 214122, China)
Abstract: Virtual try-on is a technology used to predict and visualize how clothing will look on a given body input. Traditional virtual try-on methods rely on expensive 3D body scanning devices and simulations to simulate how clothing appears on the human body. While these methods offer high-quality results, the cost of 3D scanning devices can be a barrier. In contrast, using 2D images provides a more convenient and cost-effective alternative. Users only need to input 2D images of the human body and clothing, and the try-on result can be visualized. This study builds upon previous 2D virtual try-on methods and extends them from image-image input to text-image input. This means that users can now input text descriptions of clothing instead of specific images. By utilizing text descriptions, the system can generate corresponding clothing that matches the provided text, expanding the range of use cases for virtual try-on.
To generate accurate try-on results based on the text-image input, this study introduces a comprehensive framework comprising six modules: the text-image encoder, pose extractor, image segmentation, GAN-encoder, GAN-generator, and a mapping module. The overall framework follows a GAN-inversion editing pipeline. First, the GAN encoder encodes the input body image, producing a latent vector that captures the essential characteristics of the image (such as the image style and the body shape). Second, the obtained latent vector is edited and then the GAN-generator is fed to the edited vector to generate the desired result.
Specifically, the obtained latent vector is edited by using the mapping module, which shares the same network structure as the GAN generator. The mapping module generates an additional offset latent vector of the same dimension as the one obtained from the GAN encoder. This offset vector is used to edit the latent vector, ensuring that the generated image fulfills the desired pose and text description requirements. The offset vector also helps constrain the latent vector within the GAN latent space, facilitating the generation of high-quality images by using the GAN generator. To maintain consistency in poses and appearances, the pose extractor and image segmentation modules are utilized to construct loss functions. These loss functions guide the optimization process of the latent vectors, enabling the generator to produce a final generated image that remains consistent with the input human body. To generate accurate clothing images based on the input text descriptions, the pre-training text-image model CLIP is employed. CLIP encodes both the text descriptions and the final output image and constructs a loss function that regulates the optimization process during training. In experimental evaluations, the proposed method successfully generates correct images corresponding to the input body image and text descriptions. Compared to existing methods, quantitatively, the proposed method outperforms existing methods, achieving improvements of 15% in IoU, 8% in semantics, and 77.1% in image quality evaluation.
Compared to traditional physical fitting methods, virtual try-on provides consumers with an economical and convenient way to try on clothes. With the rapid advancements in machine learning and computer vision, virtual try-on has achieved impressive results. Furthermore, as consumers increasingly seek personalized experiences, the proposed virtual try-on method can generate the desired clothing based on text descriptions and present the final fitting results. This further enhances the flexibility and application scope of virtual try-on to meet the diverse needs of consumers.
Key words: virtual try-on; GAN-inversion; pre-training model; CLIP; GAN-editing; text-image model
收稿日期: 20230307;
修回日期: 20230629
基金項(xiàng)目: 教育部人文社會(huì)科學(xué)研究一般項(xiàng)目(21YJA760096);中國(guó)非物質(zhì)文化遺產(chǎn)傳承人群研修研習(xí)培訓(xùn)計(jì)劃項(xiàng)目(文非遺發(fā)〔2017〕2號(hào));江蘇省社會(huì)科學(xué)基金立項(xiàng)一般項(xiàng)目(19WMB040)
作者簡(jiǎn)介: 祖雅妮(1998),女,碩士研究生,研究方向?yàn)榉椢幕c藝術(shù)設(shè)計(jì)。通信作者:張毅,教授,zy519@foxmail.com。