張淑芳,王沁宇
基于生成對抗網(wǎng)絡的虛擬試穿方法
張淑芳,王沁宇
(天津大學電氣自動化與信息工程學院,天津,300072)
為了解決傳統(tǒng)虛擬試穿方法存在的手臂遮擋與細節(jié)模糊問題,提升重建圖像的視覺質(zhì)量,提出一種基于生成對抗網(wǎng)絡的虛擬試穿方法.通過紋理提取模塊和殘差樣式編碼模塊提取服裝細節(jié)信息,并結(jié)合人體表征輸入與人物姿勢來重建試穿圖像,解決了手臂遮擋問題,實現(xiàn)了對扭曲失誤服裝的修復還原,且重建圖像服裝邊緣清晰.定性分析表明,改進虛擬試穿方法得到的重建圖像能清楚地展示試穿人物的手臂部分與服裝紋理細節(jié),具有很好的視覺逼真度和視覺質(zhì)量.定量分析表明,該方法結(jié)構(gòu)相似性指標提升了8.56%,與原始參考的像素結(jié)構(gòu)更相似;感知相似性指標減少了5.24%,與原始參考的卷積特征更相似;Inception 分數(shù)提升了0.95%,具有更高的清晰度和更好的多樣性.
圖像重建技術;虛擬試衣;圖像分析;生成對抗網(wǎng)絡
近年來,人們對時尚產(chǎn)品的網(wǎng)上購物需求日益增長.與傳統(tǒng)購物相比,網(wǎng)絡服裝購物具有巨大的商業(yè)優(yōu)勢,創(chuàng)造一個接近現(xiàn)實的購物環(huán)境成為必然趨勢.因此,虛擬試穿技術的研究具有重大的商業(yè)意義. Magic Mirror、Metail和TriMirror等[1]公司開發(fā)了各種虛擬試衣間(試衣鏡).然而,這些虛擬試衣系統(tǒng)的關鍵技術需要收集大量的3D注釋數(shù)據(jù),但其存在使用繁瑣、硬件復雜、成本高昂等問題,3D建模的虛擬試衣系統(tǒng)未能大規(guī)模普及.2018年Han等[2]提出了虛擬試穿網(wǎng)絡(virtually try-on network,VITON),不使用任何形式的3D信息,使用由粗到細的策略將平鋪的服裝進行扭曲變形后合成到2D圖像中穿戴衣服人的相應區(qū)域.隨后Wang等[3]在VITON基礎上,提出了保留特征的虛擬試穿網(wǎng)絡(characteristic-preserving virtually try-on network,CP-VTON),通過幾何匹配模塊(geometric matching module,GMM)將平鋪服裝轉(zhuǎn)換為與目標人物的體型相匹配的服裝;通過試穿模塊(try-on module,TOM)學習合成掩膜整合扭曲服裝及渲染圖像,從而減輕扭曲衣服的邊界偽影.Hyug等[4]提出LA-VITON,在CP-VTON基礎上加入基于網(wǎng)格間距的一致性損失和遮擋處理技術,使GMM變換規(guī)范化,從而提高GMM模塊中扭曲服裝的精度.遮擋處理技術一定程度上改善了目標服裝被頭發(fā)或手遮擋時的細節(jié)模糊問題.Minar等[5]指出CP-VTON對于紋理豐富或長袖服裝以及姿勢非正面的人的試穿效果不佳并提出了CP-VTON plus,通過改進GMM和TOM模塊的結(jié)構(gòu)并優(yōu)化損失函數(shù),減輕了服裝幾何匹配的失誤概率,進一步提升網(wǎng)絡性能.然而CP-VTON plus對服裝進行扭曲時仍有一定概率出現(xiàn)失誤,并且不利扭曲會直接影響最終的試穿效果.此外,在試穿人物出現(xiàn)手臂遮擋問題時,試穿圖像的相應部分會出現(xiàn)模糊失真現(xiàn)象.
2014年Goodfellow等[6]提出生成對抗網(wǎng)絡(generative adversarial networks,GAN),其在圖像生成領域的成功應用使GAN成為該領域的主流框架之一.隨后Mirza等[7]提出條件對抗生成網(wǎng)絡(conditional GAN,CGAN),給訓練數(shù)據(jù)添加條件標簽形成數(shù)據(jù)對,將條件信息添加到隨機噪聲中一同輸入,用于指導圖像生成,使生成器能夠根據(jù)給定的信息合成圖像.2017年Ma等[8]提出了基于CGAN的人體姿態(tài)遷移網(wǎng)絡PG2.該算法將姿態(tài)變換任務分為兩個階段,首先通過U-Net生成器進行姿態(tài)融合,生成粗略的目標姿勢模糊圖像,然后以CGAN生成器進行圖像細化,對前一階段輸出進行細節(jié)補充.此外,一些圖像轉(zhuǎn)換方法,如Pix2Pix[9]和CycleGAN[10]實現(xiàn)了圖像的風格遷移.Karras等[11]提出ProGAN,通過使生成器和判別器呈漸進式增長,從低分辨率開始學習圖像數(shù)據(jù)的方法在擴大網(wǎng)絡訓練規(guī)模的同時保證了網(wǎng)絡訓練的穩(wěn)定性.受ProGAN啟發(fā),Karras等[12]隨后提出StyleGAN,在ProGAN基礎上增加樣式控制,并提出自適應實例正則化(adaptive instance normalization,adaIN),將圖像轉(zhuǎn)化為樣式控制向量,在漸進生成分辨率圖像時進行不同尺度的樣式控制.然而由于人物圖像生成的復雜性,直接將StyleGAN用于人像生成效果不佳.2020年Men等[13]提出屬性分離生成對抗網(wǎng)絡(attribute decomposed GAN,ADGAN),將復雜的人物屬性分解為若干部分并解耦,隨后進行編碼學習,最終實現(xiàn)樣式可控的人像?生成.
為解決虛擬試穿的手臂遮擋問題,本文基于ADGAN的生成器結(jié)構(gòu)對其進行多方面改進,提出基于特征金字塔結(jié)構(gòu)的紋理提取模塊對目標服裝進行二次紋理提??;增加人體表征輸入提升臉部、手部等細節(jié)生成質(zhì)量;對CP-VTON plus中的 GMM模塊對目標服裝的不利扭曲做出修復,重建出兼具服裝細節(jié)與人體結(jié)構(gòu)一致性的試穿圖像.
以目前效果最好的CP-VTON plus為例,傳統(tǒng)虛擬試穿網(wǎng)絡的主要流程如圖1所示.
圖1中人物表示指試穿人物的身份信息,包括頭發(fā)、臉部等部分的RGB圖像、表示人物體型的模糊邊界二元掩膜以及人物姿勢.
圖1?CP-VTON plus網(wǎng)絡的虛擬試穿流程
目標服裝通過GMM模塊在人物表示信息指導下進行幾何匹配輸出扭曲服裝,隨后通過TOM模塊與人物表示進行整合,合成最終的試穿圖像.TOM模塊的重建原理類似復制-粘貼,通過人物表示構(gòu)建合成掩膜,將扭曲服裝嵌入已經(jīng)重建好其余部位的圖像中.因此在扭曲服裝與其余部位出現(xiàn)重疊時,手部細節(jié)必然會有所缺失,為了確保最終重建圖像中扭曲服裝邊界的平滑,TOM模塊采用渲染操作,因此重疊部分的服裝也出現(xiàn)模糊,導致最終的試穿圖像不夠清晰明亮.
為了解決第1.1節(jié)中傳統(tǒng)虛擬試穿網(wǎng)絡出現(xiàn)的問題,本文提出了一種基于改進ADGAN的虛擬試穿方法.該方法依舊采用CP-VTON plus中的GMM模塊,隨后提取扭曲服裝紋理細節(jié)信息同時對其進行樣式編碼,結(jié)合人體表征輸入與目標姿勢,通過改進ADGAN進行編解碼對抗學習,最終重建試穿圖像.該方法中輸入的扭曲服裝、人體表征輸入與目標姿勢互不干擾,因此手臂遮擋問題得到解決,同時重建圖像擁有更好的視覺質(zhì)量.
改進的ADGAN生成器結(jié)構(gòu)網(wǎng)絡框架如圖2所示,由GMM模塊輸出的扭曲服裝分別經(jīng)紋理提取模塊與手臂表征輸入、上半身關鍵點進行紋理姿態(tài)聯(lián)合編碼;然后經(jīng)殘差樣式編碼模塊與融合模塊A生成控制樣式的均值與均方差仿射參數(shù),在解碼階段通過自適應實例正則化AdaIN操作實現(xiàn)樣式注入,最后通過上采樣重建圖像.
圖2?改進ADGAN生成器網(wǎng)絡框架
1.2.1?預編碼階段
原始ADGAN網(wǎng)絡的預編碼階段輸入僅有目標姿勢,參考CP-VTON plus中的人物表示與虛擬試穿過程中保持人物身份的需求,本文在預編碼階段增加了人體表征輸入,通過人體語義解析網(wǎng)絡[14]將提取到的目標人物的頭發(fā)、臉部和下半身服裝等與上衣?lián)Q裝無關的部分作為表示人物身份的信息同目標姿勢t一同輸入.與t的下采樣編碼器共享參數(shù).
目標姿勢t是通過人體姿態(tài)估計網(wǎng)絡Open Pose[15]的預訓練模型對試穿人物進行姿態(tài)估計得到的18個人體關鍵點.為了將提取到的服裝紋理細節(jié)信息匹配到試穿人物的相應部位,18個關鍵點被進一步細分類,分為0~7上半身關鍵點與8~13下半身關鍵點,舍棄14~17臉部關鍵點(該部分已由人體表征輸入替代).將上半身關鍵點、手臂表征輸入與紋理提取模塊輸出的扭曲服裝紋理信息進行紋理姿態(tài)聯(lián)合編碼,隨后與下半身關鍵點及人體表征輸入信息級聯(lián).紋理姿態(tài)聯(lián)合編碼過程為
1.2.2?編解碼階段
編碼階段共有4個殘差編碼塊,采用實例正則化操作,其余結(jié)構(gòu)與樣式解碼塊一致,結(jié)構(gòu)如圖3所示;解碼階段共有4個樣式解碼塊,其結(jié)構(gòu)如圖4所示,表示由仿射變換得到的AdaIN層需要的仿射參數(shù),輸出過程為
式中:對于第t塊樣式解碼塊,其輸入是前一塊樣式解碼塊輸出的特征Ft-1和從殘差樣式編碼模塊與融合模塊A得到的仿射參數(shù).Ft-1首先經(jīng)過包含AdaIN層的卷積塊ft,然后將Ft-1直接加到ft卷積輸出得到輸出Ft.t=0時,F(xiàn)0即編碼階段的最終輸出.在卷積塊ft中進行正則化處理時,通過A從樣式編碼提取到的仿射變換參數(shù)對特征進行實例正則化,使特征圖經(jīng)過正則化后融入目標服裝的樣式.
圖4?樣式解碼塊結(jié)構(gòu)
1.2.3?殘差樣式編碼模塊
樣式編碼并不直接作用于解碼階段的特征圖本身,而是經(jīng)仿射變換后作為AdaIN層中的權重與偏置參數(shù),在解碼階段控制樣式.ADGAN采用了VGG-19[16]在ImageNet上的預訓練權重模型,取{Conv1_1,Conv2_1,Conv3_1,Conv4_1} 4層卷積層的特征輸出,借助VGG-19預訓練模型具有全局性和紋理泛化能力強的特點,學習其樣式編碼性能.但該最終樣式編碼模塊僅選用下采樣4倍的Conv4_1卷積層輸出最終特征.Conv4_1作為較高卷積層,其輸出通常僅包含高級抽象的語義特征信息,關于服裝的較局部、具體的語義特征信息的層未被利用,相應的一些紋理特征被遺漏.
因此,為了在樣式編碼模塊中盡可能提取到低層的紋理信息,本文參考殘差網(wǎng)絡ResNet[17]的跳躍連接(skip-connection),在原始ADGAN樣式編碼模塊基礎上,通過下采樣函數(shù)加入兩次skip-connection,將輸入圖片信息繞道直接傳到輸出,保護樣式特征的完整性,改進后的樣式編碼模塊如圖5所示.
圖5?殘差樣式編碼模塊結(jié)構(gòu)
1.2.4?判別器
判別器采用馬爾可夫判別器PatchGAN[9],采用兩個判別器p和t,p用于保證重建圖像g與目標人物的姿勢對齊、與目標人物的人體表征輸入一致;t用于保證重建圖像的換裝部分紋理與目標服裝的一致.p的樣本輸入是目標姿勢t與人體表征輸入級聯(lián),與重建圖像g(本地對照圖像t)作為假(真)數(shù)據(jù)對;t的樣本輸入是扭曲服裝與重建圖像g(本地對照圖像t)級聯(lián),作為假(真)數(shù)據(jù)對.
為修復GMM模塊對目標服裝的不利扭曲,增加重建圖像中的服裝細節(jié),本文重點研究對扭曲服裝樣式和紋理信息的提?。糀DGAN中服裝信息僅通過樣式編碼作用于解碼階段的AdaIN層.為了盡可能多地提取服裝的細節(jié)紋理信息,本文提出了基于特征金字塔結(jié)構(gòu)的紋理提取模塊,結(jié)合各尺度圖像特征提取更豐富的服裝細節(jié)紋理信息,與目標姿勢、手臂表征輸入聯(lián)合編碼對扭曲服裝進行二次紋理信息提?。?/p>
特征金字塔網(wǎng)絡(feature pyramid network,F(xiàn)PN)具有側(cè)向連接的自上而下的網(wǎng)絡結(jié)構(gòu),利用深度卷積神經(jīng)網(wǎng)絡特有的多尺度金字塔結(jié)構(gòu),以極小的計算量構(gòu)建不同尺寸的兼具高級抽象和低級具體語義信息的特征圖.如圖6所示,原始的FPN使用ResNet網(wǎng)絡作為基礎框架,自下而上提取輸入圖片各個維度的特征,取其第2~5個殘差塊的特征輸出參與預測,{C2,C3,C4,C5}表示layer2、layer3、layer4和layer5的輸出層作為FPN的特征輸出.
本文使用FPN的目的是盡量提取到服裝各尺度的紋理信息,因此本文提出的紋理編碼模塊舍棄高層抽象特征,使用預訓練的VGG-19網(wǎng)絡作為基礎框架,結(jié)合最終紋理特征的輸出尺寸需要,選取不同維度的3層卷積層={Conv1_1,Conv2_1,Conv3_1}提取特征,這樣不僅提取了輸入圖片具體、局部的紋理信息,也提取了其抽象、整體的紋理信息.
圖6?特征金字塔網(wǎng)絡基本結(jié)構(gòu)
如圖7所示,紋理提取模塊各尺度特征的結(jié)合不再是FPN中通過上采樣函數(shù)自上而下將高級語義信息傳遞給低級的特征圖,而是利用Conv1×1卷積層轉(zhuǎn)換各層維度并通過自適應池化函數(shù)調(diào)整各層特征圖尺寸,得到大小匹配的3層特征{1,2,3},然后進行相加,最終得到語義增強的紋理特征圖.其提取過程為
圖7?紋理提取模塊網(wǎng)絡結(jié)構(gòu)
式中:表示選定提取各維度特征的VGG-19的3層卷積層;f(·)表示卷積層的提取特征操作;c(·)表示使用1×1的卷積核的通道轉(zhuǎn)換操作;p(·)表示特征池化操作.
圖8展示了紋理提取模塊中各層的特征輸出,圖8(a)為輸入的目標扭曲服裝,圖8(b)~(d)分別為VGG-19中{Conv1_1,Conv2_1,Conv3_1}層的輸出,圖8(b)提取到的紋理特征更偏向服裝邊緣的紋理細節(jié)信息;而圖8(d)提取到的紋理特征更偏向服裝的主體語義信息,因此紋理提取模塊結(jié)合多層卷積層的特征輸出能夠得到更豐富的服裝紋理信息.
圖8?紋理提取模塊特征圖可視化.
網(wǎng)絡總損失函數(shù)參考原始ADGAN設定,由對抗損失、重建損失、感知損失與上下文損失構(gòu)成,即
(2)重建損失rec:比較g與t在像素層面的相似性,避免明顯的顏色失真,其表達式為
(4)上下文損失CX:由Mechrez等[18]提出,用于度量兩個非對齊圖像之間的相似性,有助于減少紋理失真及提升重建圖形合理性.為進一步增強重建圖像的服裝紋理細節(jié),在原始ADGAN基礎上對CX做出如下修改:①比較對象由g與t改為g中的上衣部分g和;②用于比較相似性的預訓練卷積層由原來的Relu{‘r3_2’,‘r4_2’}較高卷積層改為pool{‘Conv1_2’,‘Conv2_2’}較低卷積層,這樣所得到的卷積特征圖l(g)和l()將包含更多的局部紋理信息.CX表示匹配特征之間的相似性度量,則有
為了驗證本文方法的網(wǎng)絡性能,對本文方法與CP-VTON、CO-VTON plus和原始ADGAN進行實驗比較.其中原始ADGAN與本文方法的區(qū)別在于:①原始ADGAN缺少紋理提取模塊(圖7);②樣式提取模塊中沒有殘差連接(圖5).圖9為出現(xiàn)手臂遮擋問題時的試穿效果比較.由圖9可知,出現(xiàn)手臂遮擋時,CP-VTON與CP-VTON plus的重建圖像均在服裝與手臂出現(xiàn)重疊的部位出現(xiàn)模糊失真;原始ADGAN由于缺少紋理提取模塊導致模特手臂附近出現(xiàn)重建失誤,且第3列服裝的碎花紋理、第4列服裝的波點紋理也沒有重建成功;而本文方法的重建圖像手臂與服裝重疊部分邊界清晰、細節(jié)清楚,并且很好地重建了服裝紋理,證明了紋理提取模塊及紋理姿態(tài)聯(lián)合編碼具有增強重建圖像服裝紋理細節(jié)的作用.圖10為出現(xiàn)不利扭曲問題時的試穿效果比較.圖10第1列的酒紅色長袖因為模特肩部頭發(fā)遮擋導致肩部扭曲失誤,CP-VTON與CP-VTON plus 的重建圖像在領口處與左手處均出現(xiàn)模糊情況,原始ADGAN在領口部分出現(xiàn)重建失誤,而本文方法所重建的圖像對應部分細節(jié)清晰;圖10第2列的黃色短袖左腋下部分扭曲失誤,CP-VTON和CP-VTON plus的重建圖像都出現(xiàn)模糊失真,且后者的失真褶皺保留,原始ADGAN與本文方法通過重建消除了失真褶皺,本文方法對服裝邊緣的重建效果更好;圖10第3列的黑色長袖右側(cè)扭曲失誤導致CP-VTON、CP-VTON plus重建圖像的人物腰部細節(jié)缺失,原始ADGAN和本文方法重建圖像的腰部細節(jié)得到恢復;圖10第4列長袖的紋理扭曲失誤,CP-VTON與CP-VTON plus 重建圖像的紋理也相應出現(xiàn)明顯失真,原始ADGAN和本文方法均成功對條紋紋理進行了重建,本文方法重建的紋理更加逼真.
最后,為驗證本文方法的實用性,使用數(shù)據(jù)集外的現(xiàn)實生活中的真人圖片進行虛擬試穿,試穿效果比較如圖11所示.結(jié)合重建圖像的服裝細節(jié)紋理保留情況(第1、3列)、重建圖像色彩明亮度(第4列)、手臂遮擋部分重建情況(第2列)、服裝邊緣清晰度(第4列)多方面比較,本文方法的重建圖像呈現(xiàn)了最佳的試穿效果,證明本文方法具有普適性.
參考CP-VTON plus,本文采用了結(jié)構(gòu)相似性(SSIM)、學習感知圖像塊相似性(LPIPS)和Inception Score(IS)[19]對CP-VTON、CP-VTON plus、原始ADGAN和本文方法進行性能比較.SSIM用于衡量兩幅圖像像素級別的相似性,本文將SSIM用于比較重建圖像與本地對照的結(jié)構(gòu)相似性,指標與性能呈正相關;學習感知圖像塊相似性(LPIPS)由Zhang等[20]提出,通過預訓練網(wǎng)絡(如AlexNet,VGG-16)提取圖像特征作為圖像的視覺表征,用于比較圖像的感知相似性,本文將LPIPS用于比較重建圖像與本地對照的卷積特征相似性,指標與性能呈負相關;Inception Score用于衡量生成圖像的清晰度和多樣性,本文將IS用于評價重建圖像的視覺質(zhì)量,指標與性能呈正相關.定量分析比較如表1所示.
表1?本文方法與其他算法的定量分析
注:↑表示指標越高,性能越好;↓表示指標越低,性能越好.
由表1可知,本文方法的SSIM與LPIPS均優(yōu)于CP-VTON、CP-VTON plus和原始ADGAN方法,SSIM為0.8862,LPIPS指標為0.1084,這說明本文方法重建圖像與本地對照圖像相比的結(jié)構(gòu)相似性和感知相似性更高,在重建圖像過程中保留了更好的服裝細節(jié)和色彩飽和度,在GMM模塊扭曲目標服裝出現(xiàn)失誤時也能進行修復還原;IS指標為3.1344,表明本文網(wǎng)絡的重建圖像擁有更高的清晰度和更好的多樣性.
本文提出一種改進的虛擬試穿方法,首先通過紋理提取模塊提取扭曲服裝紋理細節(jié)信息與人體表征輸入、目標姿勢一同輸入改進的ADGAN生成器進行殘差編碼;然后通過殘差樣式編碼模塊對服裝樣式進行編碼并映射為樣式控制向量在解碼階段對重建圖像特征實現(xiàn)樣式注入;最后經(jīng)過與判別器的對抗學習,生成器重建出高視覺質(zhì)量的逼真試穿圖像.本文所提算法解決了傳統(tǒng)虛擬試穿方法普遍存在的手臂遮擋問題,并且對于幾何匹配模塊輸出的不利扭曲做出修復,重建圖像的清晰度也有了很大提升,呈現(xiàn)更逼真的試穿效果.
但目前的虛擬試衣僅限于上衣部分,并且服裝結(jié)構(gòu)較簡單,因此包括下裝、配飾以及多件疊穿等復雜服裝的虛擬試衣將是未來的研究工作.
[1] Insights on the virtual dressing rooms global market to 2027-featuring magic mirror,metail & trimirror among others[EB/OL]. https://www.globenewswire.com/news-release/2020/08/13/2077800/0/en/Insights-on-the-Virtual-Dressing-Rooms-Global-Market-to-2027-Featuring-Magic-Mirror-Metail-TriMirror-Among-Others.html,2020-08-13.
[2] Han X,Wu Z,Wu Z,et al. VITON:An image-based virtual try-on network[C]// Proceedings of 2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:7543-7552.
[3] Wang B,Zheng H,Liang X,et al. Toward characteristic-preserving image-based virtual try-on network[C]// Proceedings of 15th European Conference. Munich,Germany,2018:589-604.
[4] Hyug J L,Rokkyu L,Minseok K,et al. LA-VITON:A network for looking-attractive virtual try-on[C]// Proceedings of 2019 IEEE/CVF International Conference on Computer Vision Workshop. Seoul,Korea,2019:3129-3132.
[5] Minar M,Rahman M,Tuan T,et al. CP-VTON+:Clothing shape and texture preserving image-based vitual tryon[EB/OL]. https://sites.google.com/view/cvcreative 2020/program/paper-9-cp-vton-clothing-shape and textur e-preserving-image-based,2020-06-01.
[6] Goodfellow I,Pouget-Abadie J,Mirza M,et al. Generative adversarial nets[C]// Proceedings of the 27th International Conference on Neural Information Processing Systems. Montreal,Canada,2014:2672-2680.
[7] Mirza M,Osindero S. Conditional generative adversarial nets[EB/OL]. arxiv. org/pdf/1411. 1784. pdf,2014-11-06.
[8] Ma Liqian. Pose guided person image generation[C]// Proceedings of 31st Annual Conference on Neural Information Processing Systems. Long Beach,USA,2017:406-416.
[9] Wang T C,Liu M Y,Zhu J Y,et al. High-resolution image synthesis and semantic manipulation with conditional GANs[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:8798-8807.
[10] Zhu J,Park T,Isola P,et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]// Proceedings of 2017 IEEE International Conference on Computer Vision. New York,USA,2017:2242-2251.
[11] Karras T,Aila T,Laine S,et al. Progressive growing of gans for improved quality,stability,and variation[EB/OL]. arxiv. org/pdf/1710. 10196. pdf,2017-11-03.
[12] Karras T,Laine S,Aila T. A style-based generator architecture for generative adversarial networks[C]// Proceedings of 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach,USA,2019:4401-4410.
[13] Men Y,Mao Y,Jiang Y,et al. Controllable person image synthesis with attribute-decomposed GAN[C]// Proceedings of 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition. New York,USA,2020:5084-5093.
[14] Liang X,Gong K,Shen X,et al. Look into person:Joint body parsing & pose estimation network and a new benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2019,41(4):871-885.
[15] Cao Z,Hidalgo G,Simon T,et al. OpenPose:Realtime multi-person 2D pose estimation using part affinity fields[EB/OL]. arxiv. org/pdf/1812. 08008. pdf,2018-12-18.
[16] Simonyan K,Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. arxiv. org/pdf/1409. 1556. pdf,2014-12-23.
[17] He K,Zhang X,Ren S,et al. Deep residual learning for image recognition[C]//Proceedings of 2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,USA,2016:770-778.
[18] Mechrez R,Talmi I,Zelnik-Manor L. The contextual loss for image transformation with non-aligned data[C]// Proceedings of the European Conference on Computer Vision. Munich,Germany,2018:768-783.
[19] Salimans T,Goodfellow I,Zaremba W,et al. Improved techniques for training GANs[C]// Proceedings of 30th International Conference on Neural Information Processing Systems. Barcelona,Spain,2016:2234-2242.
[20] Zhang R,Isola P,Efros A,et al. The unreasonable effectiveness of deep features as a perceptual metric[C]// Proceedings of 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City,USA,2018:586-595.
Generative-Adversarial-Network-Based Virtual Try-On Method
Zhang Shufang,Wang Qinyu
(School of Electrical and Information Engineering,Tianjin University,Tianjin 300072,China)
To solve the problems of arm occlusion and detail blurring in traditional virtual try-on networks,a new virtual try-on method based on generative adversarial networks is proposed. The information on clothing details was extracted and encoded using the texture extraction and residual style encoding modules,respectively,and the try-on image was reconstructed using the extracted clothing information,the target pose,and the human representation as inputs. Our method could solve the arm occlusion problem,repair distorted garments,and generate images with clear details. Qualitative analysis showed that the try-on images reconstructed by our method could clearly show the model’s arm and clothing texture details with good visual fidelity and quality. Meanwhile,a quantitative analysis showed that using our method,the SSIM improved by 8.56%,which is similar to the original clothing’s pixel structure;LPIP reduced by 5.24%,which is similar to the ground truth’s convolution features;and inception score is improved by 0.95%,which has better definition and diversity.
image reconstruction techniques;virtual try-on;image analysis;generative adversarial network
TP37
A
0493-2137(2021)09-0925-09
10.11784/tdxbz202009064
2020-09-23;
2020-11-06.
張淑芳(1979—??),女,博士,副教授.
張淑芳,shufangzhang@tju.edu.cn.
(責任編輯:孫立華)