• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      FP-VTON:基于注意力機(jī)制的特征保持虛擬試衣網(wǎng)絡(luò)

      2022-12-06 10:33:20譚澤霖張少敏秦飛巍
      關(guān)鍵詞:保真試衣損失

      譚澤霖,白 靜,2,陳 冉,張少敏,秦飛巍

      1.北方民族大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,銀川 750021

      2.國(guó)家民委圖像圖形智能處理實(shí)驗(yàn)室,銀川 750021

      3.杭州電子科技大學(xué) 計(jì)算機(jī)學(xué)院,杭州 310018

      當(dāng)今社會(huì),網(wǎng)絡(luò)和快遞業(yè)高速發(fā)展,越來(lái)越多的消費(fèi)者開(kāi)始在網(wǎng)上購(gòu)買服裝,尤其是在疫情期間,在線購(gòu)買服裝更加成為一種主流。與傳統(tǒng)購(gòu)衣相比,網(wǎng)上購(gòu)衣在時(shí)間、價(jià)格等方面都有著巨大的優(yōu)勢(shì);但是另一方面,網(wǎng)店無(wú)法像實(shí)體店一樣提供良好的試衣服務(wù)。在這樣的情況下,虛擬試衣技術(shù)應(yīng)運(yùn)而生,它利用特定算法“將目標(biāo)衣服穿著在模特身上”,為消費(fèi)者提供逼真的試穿效果和良好的購(gòu)物體驗(yàn),有效降低退換貨給銷售商和消費(fèi)者帶來(lái)的時(shí)間、經(jīng)濟(jì)成本。

      傳統(tǒng)的虛擬試衣基于計(jì)算圖形學(xué),首先利用深度攝像機(jī)[1]或者基于圖像的三維建模算法[2]建立消費(fèi)者的三維測(cè)量數(shù)據(jù),然后通過(guò)三維建模和虛擬仿真技術(shù)完成“試衣”,并渲染出最終的試穿圖像。由于建立了三維模型,這種方法可以很好地處理幾何變換與物理上的約束問(wèn)題,提供相對(duì)真實(shí)的試穿效果。但是在三維模型建立的過(guò)程中往往需要大量的手工標(biāo)注或者額外的硬件設(shè)備,這不僅增加了虛擬試衣的經(jīng)濟(jì)成本和時(shí)間成本,同時(shí)也使得這類方法難以適應(yīng)服裝產(chǎn)品的更新速度,嚴(yán)重制約了其應(yīng)用前景。

      隨著深度學(xué)習(xí)技術(shù)在數(shù)字圖像處理領(lǐng)域的飛速發(fā)展,基于二維圖像的虛擬試衣技術(shù)作為一種更加簡(jiǎn)單經(jīng)濟(jì)的方案,受到越來(lái)越多的關(guān)注。這類算法將虛擬試衣問(wèn)題轉(zhuǎn)換為圖像的條件生成任務(wù),在不提供任何三維信息的情況下,僅僅利用目標(biāo)服裝和模特的二維圖像,生成最終的試衣結(jié)果。其中,開(kāi)山之作VITON[3]采用由粗到細(xì)的網(wǎng)絡(luò)實(shí)現(xiàn)了基于圖像的虛擬試衣;CP-VTON[4]則以VITON為基礎(chǔ),提出了可學(xué)習(xí)的幾何匹配模板和掩碼最大化損失,進(jìn)一步提升了虛擬試衣結(jié)果對(duì)細(xì)節(jié)的保持能力。還有部分算法引入生成對(duì)抗網(wǎng)絡(luò)完成虛擬試衣,如GarmentGAN[5]和VTON-GAN[6],它們較好地解決了手臂等對(duì)衣服的遮擋問(wèn)題,但是在服裝的細(xì)節(jié)保持方面仍然不夠理想。

      圖1以細(xì)節(jié)保持能力突出且開(kāi)放了源碼的CPVTON為例,展示了現(xiàn)有算法在一些特殊情況下的試衣效果??梢钥吹剑喝鐖D1結(jié)果1,當(dāng)目標(biāo)服裝較為復(fù)雜,包含細(xì)節(jié)圖案時(shí),CP-VTON輸出結(jié)果往往會(huì)產(chǎn)生模糊或變形,即,難以充分捕捉目標(biāo)服裝的細(xì)節(jié)特征;如圖1結(jié)果2,當(dāng)目標(biāo)服裝包含條紋等全局特征,而模特存在大姿態(tài)動(dòng)作時(shí),CP-VTON輸出結(jié)果中的目標(biāo)服裝往往會(huì)產(chǎn)生較大的變形,即無(wú)法保留服裝的全局紋理特征;如圖1結(jié)果3,當(dāng)模特體型偏胖,無(wú)法與目標(biāo)服裝直接對(duì)齊時(shí),CP-VTON的輸出結(jié)果往往會(huì)一定程度地抑制模特體型特征,即無(wú)法完整地保留模特的身體特征。

      圖1 FP-VTON與CP-VTON的試衣結(jié)果對(duì)比Fig.1 Visual comparison of synthesized images by CP-VTON and FP-VTON

      仔細(xì)分析會(huì)發(fā)現(xiàn),這是由于在虛擬試衣中人體模特是非剛性模型,穿著的過(guò)程也是一個(gè)非剛性變換。而傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)受到卷積核大小和矩形感受野的限制,難以適應(yīng)非剛性物體的大尺寸變形[7],因此當(dāng)前所提出的這些基于深度學(xué)習(xí)的虛擬試衣網(wǎng)絡(luò)往往無(wú)法在大變形的情況下充分保留人體模特和目標(biāo)服裝的全局屬性特征(紋理特征和形狀特征)和局部細(xì)節(jié)特征。為克服以上問(wèn)題,需引入非局部操作,充分捕捉并保留目標(biāo)服裝變形前后的顯著特征,確保虛擬試衣結(jié)果的合理性和真實(shí)性。為此,本文以CP-VTON網(wǎng)絡(luò)框架為基礎(chǔ),提出了一種基于注意力機(jī)制的特征保持虛擬試衣網(wǎng)絡(luò)FP-VTON(feature preserving virtual try-on network),具體效果如圖1中第四列所示。本文的主要貢獻(xiàn)包括3個(gè)方面:

      (1)設(shè)計(jì)了服裝保真損失,并將其應(yīng)用于服裝變形階段,在確保目標(biāo)服裝與模特體型匹配的前提下,更好地保留了目標(biāo)服裝的全局屬性特征。

      (2)在人體特征表示、服裝表示及試穿三個(gè)階段分別引入特征注意力FA(feature attention),消除了傳統(tǒng)規(guī)則卷積神經(jīng)網(wǎng)絡(luò)無(wú)法有效適應(yīng)非剛性物體變形的問(wèn)題,進(jìn)一步增強(qiáng)了網(wǎng)絡(luò)對(duì)目標(biāo)服裝全局屬性特征的保持能力,且自動(dòng)識(shí)別并有效保持目標(biāo)服裝的細(xì)節(jié)特征及模特的人體特征。

      (3)在標(biāo)準(zhǔn)數(shù)據(jù)集上的定量定性實(shí)驗(yàn)充分說(shuō)明了本文算法在較小的參數(shù)量和訓(xùn)練時(shí)間代價(jià)下,在目標(biāo)服裝及人體特征保持方面獲得了突出性能。

      1 相關(guān)工作

      虛擬試衣隸屬于時(shí)尚分析與合成這一領(lǐng)域.近年來(lái),隨著互聯(lián)網(wǎng)經(jīng)濟(jì)和人工智能技術(shù)的飛速發(fā)展,時(shí)尚分析與合成相關(guān)的任務(wù)在實(shí)際應(yīng)用中展現(xiàn)出了巨大潛力,受到了研究者們的廣泛關(guān)注?,F(xiàn)有研究大多聚焦在服裝相容性和匹配學(xué)習(xí)[8-9]、時(shí)尚分析[10-12]、虛擬試衣[3-6]等,其中虛擬試衣是時(shí)尚分析中最具有挑戰(zhàn)性的任務(wù)。

      1.1 人體解析

      人體解析和理解在許多任務(wù)中都得到了應(yīng)用,如行為識(shí)別、交通監(jiān)控等.現(xiàn)有工作可以分為三類:(1)身體部分解析[13];(2)人體姿勢(shì)解析[14-15],包括2D姿勢(shì)、3D姿勢(shì)或者身體形狀等;(3)服裝解析[16]。

      二維虛擬試衣網(wǎng)絡(luò)的輸入包括模特圖像及目標(biāo)服裝圖像,為了在試衣結(jié)果中既體現(xiàn)目標(biāo)服裝的效果,又保留人物體型和姿勢(shì)特征,需在虛擬試衣之前提取人物體型、姿勢(shì)等特征作為條件指導(dǎo)虛擬試衣結(jié)果的生成。CAGAN[17]中沒(méi)有使用人體解析模型,直接使用模特和目標(biāo)服裝的二維圖像完成虛擬試衣,只能生成粗略的試衣圖像,無(wú)法適應(yīng)細(xì)節(jié)和幾何變化。VITON[3]和CP-VTON[4]在虛擬試衣中使用了相同的人體解析模型,包括人體姿態(tài)表示、身體形狀表示和身份特征表示,在完成虛擬換衣的同時(shí)更好地保留了模特的身份信息及身體姿態(tài)。本文中,將采用相同的人體解析模型。

      1.2 虛擬試衣

      整體來(lái)看,虛擬試衣可以分為兩類:基于三維人體建模的方法和基于二維圖像的方法.其中基于三維人體建模的方法可以產(chǎn)生更好的效果,但是需要額外的3D測(cè)量和大量的計(jì)算[1-2,18-20],本文不做重點(diǎn)介紹。

      目前主流的研究集中于二維圖像的方法。2018年,Han等人[3]提出了基于二維圖像的深度學(xué)習(xí)網(wǎng)絡(luò)VITON,將虛擬試衣問(wèn)題轉(zhuǎn)換為三個(gè)階段:首先利用編碼器解碼器網(wǎng)絡(luò)生成初步試衣結(jié)果;然后采用上下文匹配計(jì)算TPS變換參數(shù),扭曲服裝使其與模特姿態(tài)相匹配;最后將扭曲后的衣服與初步試衣結(jié)果圖像合成,生成最終結(jié)果。該工作利用深度學(xué)習(xí)解決虛擬試衣問(wèn)題,構(gòu)建了適用于虛擬試衣的數(shù)據(jù)集,且取得了較好的效果;但是,當(dāng)目標(biāo)服裝包含復(fù)雜細(xì)節(jié)時(shí),其試穿結(jié)果會(huì)與目標(biāo)服裝存在一定差異。此后,Wang等人[4]提出的CP-VTON,設(shè)計(jì)了幾何匹配模塊實(shí)現(xiàn)目標(biāo)服裝與人體姿態(tài)的對(duì)齊,通過(guò)試穿模塊完成最終的虛擬試穿,顯著改善了虛擬試衣算法對(duì)目標(biāo)服裝的細(xì)節(jié)保持能力。

      生成對(duì)抗網(wǎng)絡(luò)能夠通過(guò)生成器和判別器之間的彼此對(duì)抗提高生成圖像的質(zhì)量,自2014年提出后[21],在圖像生成和圖像翻譯領(lǐng)域得到了廣泛應(yīng)用[22-24]。2017年,Jetchev等人[17]將生成對(duì)抗網(wǎng)絡(luò)引入虛擬試衣中,提出了CAGAN,使用CycleGan[25]的思想實(shí)現(xiàn)了簡(jiǎn)單的服裝更換功能,但是試衣效果較VITON架構(gòu)有較大差距。2019年,Honda等人[6]在VITON的基礎(chǔ)上,引入了對(duì)抗損失,提出了VTON-GAN,改善了虛擬試衣中的手臂遮擋問(wèn)題。Xu等人[26]在CAGAN基礎(chǔ)上進(jìn)行了改進(jìn),但是在服裝的細(xì)節(jié)保持方面較CP-VTON有所減弱。2020年,Raffiee等人[5]提出了一種基于生成對(duì)抗技術(shù)的網(wǎng)絡(luò)框架GarmentGAN,通過(guò)形狀傳輸網(wǎng)絡(luò)與外觀傳輸網(wǎng)絡(luò),結(jié)合分割信息和人體關(guān)鍵點(diǎn)信息,改進(jìn)了生成圖像的真實(shí)性與遮擋問(wèn)題。總體來(lái)說(shuō),通過(guò)引入生成對(duì)抗的思想,以上網(wǎng)絡(luò)在人體遮擋等方面具有更好的效果;但是另一方面,上述網(wǎng)絡(luò)不能很好地保留生成圖像中如商標(biāo)圖案等一些細(xì)節(jié)。在這一點(diǎn)上,本文提出的基于注意力機(jī)制的特征保持虛擬試衣網(wǎng)絡(luò)FP-VTON可以有效地改善這一問(wèn)題。

      2 本文方法

      如圖2所示,本文以CP-VTON的網(wǎng)絡(luò)框架為基礎(chǔ),提出了FP-VTON,該網(wǎng)絡(luò)分別在人體表示、服裝表示、服裝融合三個(gè)階段加入特征注意力FA,充分捕捉人體及目標(biāo)服裝的顯著特征;在TPS變換后加入網(wǎng)格正則化的服裝保真損失,確保服裝整體紋理特征的不變性。下面將圍繞特征注意力,網(wǎng)絡(luò)整體架構(gòu)兩個(gè)部分介紹FP-VTON。

      圖2 FP-VTON算法的整體框架Fig.2 Overview of FP-VTON

      2.1 特征注意力模塊

      為了突破傳統(tǒng)卷積核的空間限制,捕捉人體模型的非剛性特征,實(shí)現(xiàn)虛擬試衣非剛性變換中的特征不變性,本文引入本小組先前在圖像翻譯任務(wù)中所提出,具有非局部屬性的特征注意力模塊FA[27]。具體地,如圖3所示,輸入特征x,通過(guò)以下三步構(gòu)建其非局部增強(qiáng)特征:

      圖3 特征注意力模塊Fig.3 Feature attention(FA)module

      步驟1構(gòu)建非局部顯著因子矩陣F。通過(guò)1×1的卷積及全局平均池化,1×1的卷積及全局最大池化分別獲取兩個(gè)1×1×c的全局特征,再轉(zhuǎn)置相乘得到不同特征間的相關(guān)矩陣F。該矩陣中第i行的取值反映了通道i的特征和其他通道間特征的相關(guān)性,具有非局部屬性,且通過(guò)相乘操作進(jìn)一步突出了顯著特征,本文稱其為非局部顯著因子矩陣。該矩陣具有“突破卷積核大小和矩形感受野的限制,捕捉特征間的長(zhǎng)距離依賴關(guān)系”的優(yōu)良特性。

      步驟2計(jì)算顯著特征ξ(x)。通過(guò)1×1的卷積將輸入特征變換到特征空間ξ(x),再將顯著權(quán)重因子作用于變換后特征,可獲得顯著特征ξ(x)。由于顯著因子矩陣F突破了局部感受野的限制,捕捉了特征之間的全局依賴關(guān)系,因而,以上的加權(quán)操作可捕捉ξ(x)中各點(diǎn)對(duì)全局顯著特征的響應(yīng)。

      步驟3通過(guò)加權(quán)殘差連接構(gòu)建非局部增強(qiáng)特征o(x),有o(x)=λξ(x)+x,λ∈[0,1]。顯然,輸出特征o(x)既保留了原始輸入特征的局部特征信息,同時(shí)又一定程度地體現(xiàn)了非局部顯著特征,即全局屬性特征。

      本文將在虛擬試衣網(wǎng)絡(luò)的各個(gè)階段引入特征注意力模塊以充分捕捉目標(biāo)服裝及人體姿態(tài)的整體特征及局部細(xì)節(jié)特征。

      2.2 網(wǎng)絡(luò)整體結(jié)構(gòu)

      圖4給出了FP-VTON網(wǎng)絡(luò)的整體結(jié)構(gòu):以人體解析模型p和目標(biāo)服裝c為輸入,依次通過(guò)服裝變形和服裝融合兩個(gè)子網(wǎng)絡(luò),可輸出模特的虛擬試穿結(jié)果ro。其中,服裝c為一張二維圖像,無(wú)需特別介紹;下面將給出人體解析模型p的表示及各個(gè)階段的主要步驟。

      圖4 FP-VTON的整體網(wǎng)絡(luò)結(jié)構(gòu)Fig.4 Overall network architecture of FP-VTON

      2.2.1 人體解析模型

      本文中,為有效保留模特的整體姿態(tài)和身份信息,采用了與VITON[3]相同的人體解析模式,由3部分組成:(1)人體姿態(tài)表示,旨在刻畫人體的整體姿態(tài),對(duì)應(yīng)一個(gè)18通道的特征圖,每個(gè)通道對(duì)應(yīng)人體姿態(tài)的一個(gè)關(guān)鍵點(diǎn),每個(gè)關(guān)鍵點(diǎn)被轉(zhuǎn)化為一個(gè)11×11的熱圖;(2)身體形狀表示,旨在區(qū)別人體的身體部分和其他部分,對(duì)應(yīng)一個(gè)單通道的二進(jìn)制MASK,1表示人體部分,0表示其他部分;(3)身份特征表示,旨在刻畫人物的身份信息,對(duì)應(yīng)臉部和頭發(fā)的RGB圖像,即3通道特征圖。以上3部分信息共同組成一個(gè)22通道的特征圖,構(gòu)成了包含人體身份信息、人體身體定位和人體關(guān)鍵點(diǎn)信息的完整描述。

      2.2.2 服裝變形子網(wǎng)絡(luò)

      服裝變形子網(wǎng)絡(luò)旨在學(xué)習(xí)生成與人體相匹配的變形后的服裝c"。該網(wǎng)絡(luò)結(jié)構(gòu)同CP-VTON[4]相同:輸入目標(biāo)服裝c及人體解析模型p,首先通過(guò)包含特征注意力模塊FA的下采樣層,提取它們的高層次特征;然后通過(guò)相關(guān)性匹配層,計(jì)算兩個(gè)高層特征之間的相關(guān)性,并將它們組合為單個(gè)張量;再輸入回歸網(wǎng)絡(luò)預(yù)測(cè)薄板樣條函數(shù)TPS(thin-plate spline)的空間變換參數(shù)θ;最后將變換參數(shù)θ輸入TPS變換,完成輸入服裝c到形變服裝c"的變換。本文與CP-VTON不同的是,在人體和服裝的高層次特征提取網(wǎng)絡(luò)中均加入了特征注意力模塊FA,以更好地捕捉人體及服裝的全局屬性特征和局部顯著特征,詳細(xì)對(duì)比將在實(shí)驗(yàn)部分給出。

      服裝變形子網(wǎng)絡(luò)是一個(gè)相對(duì)獨(dú)立的端到端可學(xué)習(xí)的子網(wǎng)絡(luò)。在訓(xùn)練階段,使用了CP-VTON所提出的像素級(jí)L1損失,以評(píng)價(jià)該網(wǎng)絡(luò)所生成形變服裝c"與真實(shí)服裝ct之間的一致性。式(1)給出了該損失函數(shù)的具體定義:

      其中,θ為網(wǎng)絡(luò)學(xué)習(xí)所得的TPS空間變換參數(shù)。該損失函數(shù)要求目標(biāo)服裝和真實(shí)服裝圖像對(duì)應(yīng)像素之間的距離盡可能近,當(dāng)目標(biāo)服裝包含復(fù)雜圖案且模特存在大姿態(tài)動(dòng)作時(shí),會(huì)產(chǎn)生如圖5所示的局部變形。深入分析可發(fā)現(xiàn),這是由于式(1)僅僅考慮了像素級(jí)別的一致性,忽略了局部結(jié)構(gòu)的一致性,因而可能產(chǎn)生局部形狀特征或全局紋理特征的變形。

      圖5 CP-VTON失敗案例Fig.5 Failure cases of CP-VTON

      針對(duì)以上問(wèn)題,本文在L1損失基礎(chǔ)上,設(shè)計(jì)新增了用于服裝保真的網(wǎng)格正則化損失函數(shù)。如圖6所示,該損失函數(shù)作用在TPS變形后的網(wǎng)格之上,要求其水平和垂直方向的距離及兩對(duì)斜率的差值(k1-k2),(k3-k4)盡可能小。具體表達(dá)式如下:

      圖6 網(wǎng)格正則化損失函數(shù)卷積形式示意圖Fig.6 Diagram of convolution form of grid regularization loss function

      式中,D(x,y)為對(duì)應(yīng)點(diǎn)在網(wǎng)格中的坐標(biāo)值,λa和λb為權(quán)重因子,用以調(diào)節(jié)拉普拉斯正則項(xiàng)損失同斜率損失之間的比重。

      綜合式(1)和式(2),第一階段服裝扭曲子網(wǎng)絡(luò)的整體損失為:

      式中,λc和λg為權(quán)重因子,旨在調(diào)節(jié)像素級(jí)損失Lclothes同服裝保真的網(wǎng)格正則化損失Lgrid之間的比重。

      圖7展示了網(wǎng)格正則化損失對(duì)服裝變形的保真能力。圖中左側(cè)第一列為輸入網(wǎng)格;第二列為兩幅目標(biāo)服裝;第三列展示了無(wú)保真損失時(shí)的變形網(wǎng)格結(jié)果,即λc=1,λg=0;第四列展示了僅僅在Lclothes基礎(chǔ)上加入距離約束的網(wǎng)格變形結(jié)果,即,λc=1,λg=40,λa=1,λb=0;第五列展示了完整加入網(wǎng)格正則化損失函數(shù)Lgird后的網(wǎng)格變形結(jié)果,此時(shí),λc=1,λg=40,λa=1,λb=1/3。如圖7所示,通過(guò)增加水平和垂直方向的距離約束,可以提高服裝變形結(jié)果在局部區(qū)域水平方向和垂直方向變形的對(duì)稱性;通過(guò)增加斜率約束,可以進(jìn)一步提高服裝變形結(jié)果的全局對(duì)稱性。

      圖7 網(wǎng)格正則化損失的應(yīng)用結(jié)果Fig.7 Application results of grid regularization loss

      2.2.3 服裝融合子網(wǎng)絡(luò)

      服裝變形子網(wǎng)絡(luò)輸出的形變服裝c"大致符合模特的體型與姿態(tài),還需經(jīng)過(guò)服裝融合子網(wǎng)絡(luò)實(shí)現(xiàn)服裝同人物的融合,以得到更加逼真的試穿結(jié)果。如圖4給出的網(wǎng)絡(luò)結(jié)構(gòu),本文首先使用編碼器-解碼器網(wǎng)絡(luò),將人體表示p與形變服裝c"同時(shí)輸入U(xiǎn)-Net[28]網(wǎng)絡(luò),輸出一幅粗略的人物圖像r與合成掩碼M,其中M為輸出圖像的最后一層;然后利用合成掩碼M將粗糙的合成圖像和扭曲服裝融合在一起,生成最終試穿結(jié)果ro,其計(jì)算公式為:

      其中,?為矩陣內(nèi)對(duì)應(yīng)像素之間的乘法運(yùn)算。

      為了充分捕捉人體與目標(biāo)服裝的關(guān)鍵特征,與傳統(tǒng)編碼器-解碼器網(wǎng)絡(luò)不同的是,本文在U-Net網(wǎng)絡(luò)的編碼器的前四層加入了特征注意力模塊FA,以更好地聚焦關(guān)鍵特征,提高合成圖像質(zhì)量,詳細(xì)對(duì)比將在實(shí)驗(yàn)部分給出。

      與服裝變形子網(wǎng)絡(luò)類似,服裝融合子網(wǎng)絡(luò)也是一個(gè)相對(duì)獨(dú)立的端到端可學(xué)習(xí)的子網(wǎng)絡(luò)。在訓(xùn)練階段,為了最小化生成結(jié)果ro和真實(shí)圖像rt之間的差異,采用了CP-VTON所提出的損失函數(shù)[4],包括三部分:圖像像素級(jí)的L1損失,特征層面的VGG感知損失[29]和針對(duì)掩碼M的L1正則化損失。

      圖像像素級(jí)的L1損失定義如下:

      VGG感知損失通過(guò)計(jì)算VGG網(wǎng)絡(luò)特征間的距離來(lái)刻畫兩個(gè)圖像間的語(yǔ)義差異,計(jì)算公式如下:

      其中,δi(r)代表視覺(jué)感知網(wǎng)絡(luò)VGG19[30]中圖像r的第i層特征圖(使用ImageNet預(yù)訓(xùn)練得到的網(wǎng)絡(luò)模型)。i取 值從1到5分 別代 表conv1_2、conv2_2、conv3_2、conv4_2、conv5_2。這里,VGG損失中同時(shí)使用了低層和高層圖像特征,結(jié)合圖像像素級(jí)損失,能夠更好地關(guān)注到圖像間的細(xì)節(jié)信息和全局內(nèi)容。

      此外,為了盡可能地保留目標(biāo)服裝的特征信息,在掩碼M上增加L1正則化損失。最終得到第二階段服裝融合子網(wǎng)絡(luò)的整體損失:

      3 實(shí)驗(yàn)結(jié)果及分析

      3.1 數(shù)據(jù)集與實(shí)驗(yàn)設(shè)置

      本文所有的實(shí)驗(yàn)都基于Han等人[3]所提出的數(shù)據(jù)集。該數(shù)據(jù)集包含了16 253對(duì)女性正面圖像和上衣圖像,其中14 221對(duì)作為訓(xùn)練集,2 032對(duì)作為測(cè)試集。數(shù)據(jù)集中所有圖像的分辨率均為256×192。

      本文采用PyTorch作為深度學(xué)習(xí)框架,在Intel Core i5-9400 CPU和NVDIA RTX 2070 GPU上進(jìn)行訓(xùn)練。在訓(xùn)練階段,參照CP-VTON,對(duì)兩個(gè)子網(wǎng)絡(luò)采用相同的參數(shù)設(shè)置:batch size設(shè)置為4;Adam優(yōu)化器中β1=0.5,β2=0.999;最大迭代步數(shù)為2×105,初始學(xué)習(xí)率設(shè)置為0.000 1,在迭代到1×105后線性勻速衰減至0。實(shí)驗(yàn)中,兩個(gè)子網(wǎng)絡(luò)的具體結(jié)構(gòu)如表1、表2所示。在服裝融合子網(wǎng)絡(luò)的上采樣模塊中,為了減輕棋盤效應(yīng),用最近鄰插值和步長(zhǎng)為1的卷積的組合替換了傳統(tǒng)的反卷積[31]。

      表1 服裝變形子網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Structure of clothing deformation network

      表2 服裝融合子網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)Table 2 Structure of clothing fusion network

      3.2 評(píng)價(jià)指標(biāo)

      基于圖像的虛擬試衣本質(zhì)上屬于一種圖像翻譯。就圖像生成任務(wù)而言,研究者們提出了一些客觀評(píng)價(jià)指標(biāo),可以較好地衡量生成圖像的質(zhì)量。因此本文中,采用兩種圖像生成指標(biāo)定量評(píng)估虛擬試衣模型的性能,采用可視化方法定性對(duì)比虛實(shí)試衣效果。

      SSIM:結(jié)構(gòu)相似度指標(biāo)(structural similarity index)[32],計(jì)算生成圖像和真實(shí)圖像之間的亮度、對(duì)比度和結(jié)構(gòu)相似性,以綜合評(píng)估生成圖像與真實(shí)圖像之間的相似性。SSIM指數(shù)越高表示圖像生成效果越好。

      FID:弗雷歇感知距離(Fréchet inception distance)[33],計(jì)算生成圖像和真實(shí)圖像在特征空間中的距離。首先利用預(yù)訓(xùn)練好的Inception-V3網(wǎng)絡(luò)提取圖像特征,然后使用高斯模型對(duì)特征進(jìn)行建模,最后計(jì)算兩圖像對(duì)應(yīng)特征之間的距離。FID越低,表明生成圖像和真實(shí)圖像的距離越小,意味著生成圖像的質(zhì)量越高、多樣性越好。

      需要特別說(shuō)明的是,虛擬試穿數(shù)據(jù)集中并未提供一個(gè)模特穿著不同服裝的成組數(shù)據(jù),因此在所有定量實(shí)驗(yàn)中,其計(jì)算結(jié)果均為模特穿著其原始服裝產(chǎn)生的生成圖像和真實(shí)圖像的對(duì)比結(jié)果。

      實(shí)驗(yàn)中,將對(duì)Baseline(CP-VTON,基礎(chǔ)網(wǎng)絡(luò))、FP-VTON w/o FA(僅加入服裝保真損失)、FP-VTON w/o FA in P(加入服裝保真損失,并在人體表示中加入FA)、FP-VTON w/o FA in C(加入服裝保真損失,并在服裝表示中加入FA)、FP-VTON(加入服裝保真損失,并在人體表示和服裝表示中均加入FA)在服裝變形階段的生成結(jié)果進(jìn)行了定量比較。

      3.3 虛擬試衣對(duì)比實(shí)驗(yàn)

      本文選用了2種不同類型、性能突出的虛擬試衣工作:CP-VTON[4]和GarmentGAN[5],作為對(duì)比對(duì)象,綜合評(píng)價(jià)FP-VTON的虛擬試衣效果。

      表3中,CP-VTON[4]和GarmentGAN[5]的測(cè)試結(jié)果均來(lái)自論文,由于文獻(xiàn)[5]未提供SSIM指標(biāo),也未提供源碼,因而其對(duì)應(yīng)的SSIM為空。由表可見(jiàn),本文所提出的FP-VTON較CP-VTON有明顯提高:在SSIM上提高了0.046 2,在FFID上降低了8.511;相比于GarmentGAN,F(xiàn)P-VTON在FFID上也降低了2.004。以上數(shù)據(jù)從定量的角度驗(yàn)證了本文方法的有效性。

      表3 虛擬試衣的定量評(píng)價(jià)Table 3 Quantitative evaluation of virtual try-on

      圖8從可視化的角度給出了3種不同方法的6組虛擬試穿結(jié)果(GarmentGAN未提供源碼,因此本實(shí)驗(yàn)結(jié)果限于文獻(xiàn)[5]所提供的實(shí)驗(yàn)數(shù)據(jù))。由對(duì)比結(jié)果可見(jiàn),本文方法具有以下特點(diǎn):

      圖8 三種方法的虛擬試衣結(jié)果可視化比較Fig.8 Visual comparison of three different methods

      (1)具有更好的局部細(xì)節(jié)特征保持能力。如結(jié)果1、3、4、5所示,當(dāng)目標(biāo)服裝包含較多細(xì)節(jié)信息時(shí),CP-VTON的虛實(shí)試穿結(jié)果會(huì)存在一定程度的細(xì)節(jié)丟失和扭曲變形,GarmentGAN則存在模糊和局部尺寸放大的問(wèn)題。相比較而言,如結(jié)果1,本文方法FP-VTON生成結(jié)果的“501”及其底部的波紋清晰,且相對(duì)尺寸、比例都合理;如結(jié)果3,F(xiàn)P-VTON生成結(jié)果不僅清晰地體現(xiàn)了“Lee”的局部細(xì)節(jié),且有效捕捉了目標(biāo)服裝袖子末端的玫紅色條紋;如結(jié)果4 T恤衫中心的復(fù)雜圖案和結(jié)果5內(nèi)部的“adidas”圖標(biāo),F(xiàn)P-VTON生成結(jié)果的顏色及細(xì)節(jié)都更加清晰、合理。

      (2)具有更好的全局紋理保持能力。如結(jié)果2和結(jié)果6所示,當(dāng)目標(biāo)服裝包含全局紋理特征時(shí),CP-VTON的虛實(shí)試穿結(jié)果會(huì)存在較為明顯的扭曲變形,GarmentGAN則存在丟失細(xì)節(jié)和局部模糊的問(wèn)題。相比較而言,F(xiàn)P-VTON生成結(jié)果的整體紋理尺寸、比例更加合理,細(xì)節(jié)也更加清晰。

      (3)當(dāng)目標(biāo)服裝和原始服裝差異較大時(shí),所有算法在領(lǐng)口、袖口、衣服褲子鄰接的地方都會(huì)產(chǎn)生不太理想的結(jié)果。如結(jié)果2、3、6所示的無(wú)袖變短袖,結(jié)果5的長(zhǎng)袖變短袖,CP-VTON的試穿結(jié)果會(huì)在胳膊和衣服交接的地方出現(xiàn)局部丟失的問(wèn)題,GarmentGAN和本文方法相對(duì)較好,但也存在不同類型的問(wèn)題。如針對(duì)結(jié)果2,GarmentGAN虛擬試穿結(jié)果中衣服和褲子交接部分更為自然,F(xiàn)P-VTON對(duì)領(lǐng)口部分的顏色保持更好;針對(duì)結(jié)果3,GarmentGAN虛擬試穿結(jié)果中衣服領(lǐng)口的變形更加自然,然而袖口卻丟失細(xì)節(jié),而本文方法在領(lǐng)口變形中存在將衣服背部信息填充在領(lǐng)口的錯(cuò)誤;針對(duì)結(jié)果5,GarmentGAN虛擬試穿結(jié)果中衣服袖口多出了一些黑色邊界,F(xiàn)P-VTON則存在袖口未閉合的問(wèn)題;針對(duì)結(jié)果6,GarmentGAN和本文在袖口領(lǐng)口變形的結(jié)果都較為自然,但是GarmentGAN存在將衣服拉長(zhǎng)遮蓋部分褲子的問(wèn)題。

      3.4 消融實(shí)驗(yàn)

      本實(shí)驗(yàn)分別對(duì)文中所提出的特征注意力模塊FA和服裝保真損失進(jìn)行了消融實(shí)驗(yàn),以此來(lái)驗(yàn)證各個(gè)模塊對(duì)于虛擬試穿的作用。消融實(shí)驗(yàn)分為兩部分:第一部分旨在對(duì)比FA和服裝保真損失對(duì)服裝變形的作用,第二部分則完整對(duì)比FA和服裝保真損失對(duì)虛擬試穿的作用。

      本節(jié)對(duì)比實(shí)驗(yàn)中將用到七個(gè)不同配置的網(wǎng)絡(luò),分別是基礎(chǔ)網(wǎng)絡(luò)CP-VTON,僅加入服裝保真損失的網(wǎng)絡(luò),加入服裝保真損失和人體表示階段FA的網(wǎng)絡(luò),加入服裝保真損失和服裝表示階段FA的網(wǎng)絡(luò),加入服裝保真損失和服裝變形階段FA的網(wǎng)絡(luò)(人體表示&服裝表示均加入FA),在網(wǎng)絡(luò)三個(gè)階段加入FA的網(wǎng)絡(luò)(人體表示&服裝表示&服裝融合均加入FA),完整網(wǎng)絡(luò)FP-VTON。為了方便查閱,表4列出了相應(yīng)縮寫。

      表4 實(shí)驗(yàn)網(wǎng)絡(luò)及其縮寫Table 4 Experimental networks and their abbreviation

      3.4.1 服裝變形消融實(shí)驗(yàn)

      實(shí)驗(yàn)1定量比較

      為了驗(yàn)證FA模塊和服裝保真損失保留特征的能力,本文首先對(duì)Baseline、FP-VTON w/o FA、FP-VTON w/o FAP&U、FP-VTON w/o FAC&U、FP-VTON在服裝變形階段的生成結(jié)果進(jìn)行了定量比較。考慮到該階段旨在扭曲目標(biāo)服裝以匹配模特身形,SSIM刻畫圖像間的相似性,而FID刻畫圖像的生成質(zhì)量和多樣性,因而,本實(shí)驗(yàn)僅僅計(jì)算FID指標(biāo)。

      服裝變形階段的定量比較結(jié)果如表5所示。由于該階段的生成圖像未適應(yīng)模特身形的扭曲服裝,而真實(shí)圖像為輸入服裝,因此FID值整體偏高,但是其相對(duì)數(shù)值反映了服裝變形的效果。通過(guò)對(duì)比可知:

      表5 服裝變形階段定量評(píng)價(jià)Table 5 Quantitative evaluation on clothing deformation stage

      (1)在基網(wǎng)上加入服裝保真損失后,圖像生成質(zhì)量較原始基網(wǎng)效果更好。

      (2)加入服裝保真損失,再加入FA后(無(wú)論加在人體表示還是服裝表示中),生成質(zhì)量都得到了進(jìn)一步提高。

      (3)在人體表示和服裝表示中同時(shí)加入FA較僅在服裝表示中加入FA提高22.359 3,較僅在人體表示中加入FA提高0.609 2。兩者都有改善,但是前者改善更為明顯。通過(guò)分析可知,這是因?yàn)镕A旨在捕捉全局特征相關(guān)性,而人體表示包含更多的全局信息,因此在人體表示中加入FA效果更加明顯。

      實(shí)驗(yàn)2整體可視化比較。

      為了更加直觀地對(duì)比生成結(jié)果,圖9~圖11分別給出了基礎(chǔ)網(wǎng)絡(luò)CP-VTON和本文方法FP-VTON在模特有大姿態(tài)動(dòng)作、服裝包含紋理或局部細(xì)節(jié)圖案、模特為孕婦三種情況下的服裝變形結(jié)果。

      圖9旨在測(cè)試服裝變形階段對(duì)人體大姿態(tài)的適應(yīng)能力。由圖可見(jiàn),在面對(duì)模特有大姿態(tài)動(dòng)作的情況下,CP-VTON生成的服裝扭曲嚴(yán)重,而加入服裝保真損失和FA的FP-VTON生成結(jié)果比CP-VTON更加真實(shí)、自然,也更符合人體特征。

      圖9 大尺度人體姿態(tài)下服裝變形結(jié)果的可視化對(duì)比Fig.9 Visual comparison of clothing deformation results under large scale human postures

      圖10旨在測(cè)試服裝變形階段對(duì)目標(biāo)服裝全局紋理特征和局部細(xì)節(jié)特征的保持能力。由第一行可見(jiàn),CP-VTON在面對(duì)條紋服裝時(shí)生成結(jié)果嚴(yán)重變形,形成螺旋紋理且丟失細(xì)節(jié);而因?yàn)榉b保真損失的作用,F(xiàn)P-VTON可以較好地保持條紋的整體屬性。由第二行可見(jiàn),當(dāng)目標(biāo)服裝包含復(fù)雜的全局特征時(shí),CP-VTON可以較好地保持衣服形狀,但是不能很好地保留細(xì)節(jié)圖案(如樹葉,花等);而因?yàn)镕A的作用,F(xiàn)P-VTON對(duì)復(fù)雜圖案的細(xì)節(jié)保持能力更強(qiáng)。第三行中包含局部細(xì)節(jié)的服裝變形結(jié)果再次驗(yàn)證了FP-VTON對(duì)服裝細(xì)節(jié)的捕捉和保持能力。

      圖10 復(fù)雜服裝變形結(jié)果可視化對(duì)比Fig.10 Visual comparison of complex clothing deformation results

      圖11旨在測(cè)試服裝變形階段對(duì)人物特征的保持能力。當(dāng)模特為孕婦時(shí),F(xiàn)P-VTON生成結(jié)果更加真實(shí)、自然,且較好地保留了人物特征(隆起的肚子)。這也使得本文方法能夠更好地服務(wù)于特殊人群(如不方便在線下試穿服裝的孕婦,或不愿意在線下試穿的特殊體型用戶)的虛擬試衣需求。

      圖11 特殊體型(孕婦)下服裝變形結(jié)果可視化對(duì)比Fig.11 Visual comparison of clothing deformation results under special body shapes(pregnant women)

      綜合以上定量和定性實(shí)驗(yàn)可以得出如下結(jié)論:本文所提出的算法FP-VTON通過(guò)加入注意力機(jī)制和服裝保真損失,在服裝變形階段能夠更好地捕捉目標(biāo)服裝的整體紋理特征和局部細(xì)節(jié)特征,能夠更好地貼合模特的不同體型,能夠更好地適應(yīng)模特的大姿態(tài)動(dòng)作,整體效果明顯優(yōu)于基礎(chǔ)網(wǎng)絡(luò)。

      實(shí)驗(yàn)3分模塊可視化比較

      為了進(jìn)一步測(cè)試服裝保真損失及不同位置FA的作用,圖12給出了6種不同網(wǎng)絡(luò)配置下的可視化對(duì)比結(jié)果。由圖可見(jiàn):

      圖12 各個(gè)模塊對(duì)服裝變形結(jié)果影響的可視化對(duì)比Fig.12 Visual comparison of influence of each module on clothing deformation results

      (1)在網(wǎng)絡(luò)中加入服裝保真損失可以一定程度地保證服裝整體結(jié)構(gòu)(如圖中第三列)、紋理(如結(jié)果5、6中第三列)及大面積圖案(如結(jié)果1、2中第三列)的合理性。

      (2)在人體表示中加入FA可以更好地捕捉模特的身體特征。以結(jié)果3、4為例,模特為孕婦,通過(guò)在人體表示中加入FA(第五、六列)后的服裝變形結(jié)果能夠更加真實(shí)、自然地體現(xiàn)模特的身體特征。

      (3)在服裝表示中加入FA可以更好地捕捉服裝的形狀及紋理特征。圖中第六列為在第五列的基礎(chǔ)上加入了服裝表示階段FA的結(jié)果。可以發(fā)現(xiàn),無(wú)論是對(duì)結(jié)果5服裝的衣袖部分(形狀特征),還是結(jié)果6服裝中的條紋特征(紋理特征),第六列的結(jié)果都要明顯優(yōu)于第五列。

      3.4.2 虛擬試穿消融實(shí)驗(yàn)

      為了進(jìn)一步測(cè)試FA模塊和服裝保真損失對(duì)虛擬試穿最終結(jié)果的影響,特設(shè)計(jì)本實(shí)驗(yàn)。如表6所示,給出了5種不同網(wǎng)絡(luò)配置下的虛擬試穿定量測(cè)試結(jié)果。對(duì)比表中各行數(shù)據(jù),可知:

      表6 虛擬試穿結(jié)果定量評(píng)價(jià)Table 6 Quantitative evaluation of virtual try-on results

      (1)在僅僅加入服裝保真損失,不加入特征注意力模塊時(shí),如第二行所示,網(wǎng)絡(luò)在SSIM及FID都較Baseline網(wǎng)絡(luò)有了0.016 2和7.461的改進(jìn)。

      (2)在僅僅加入特征注意力模塊不加入服裝保真損失時(shí),如第四行所示,網(wǎng)絡(luò)在SSIM和FID上分別有0.009 7和1.063的改進(jìn)。

      (3)在加入服裝保真損失的基礎(chǔ)上,將特征注意力FA加入第一階段,即服裝變形子網(wǎng)絡(luò)中時(shí)(第三行所示),網(wǎng)絡(luò)在SSIM和FID上分別有0.029和0.061的改善;在所有階段都加入特征注意力FA時(shí)(第五行所示),網(wǎng)絡(luò)在SSIM和FID上分別又有了0.001和0.989的改善,取得最好的虛擬試穿結(jié)果。

      綜合(1)、(2)可知,服裝保真損失和FA對(duì)虛擬試穿都有一定的改進(jìn)作用,但服裝保真損失對(duì)網(wǎng)絡(luò)性能的提升較FA更加明顯。這是因?yàn)橄啾扔贔A,服裝保真損失可以從整體上保持服裝的整體形狀和全局紋理,對(duì)最終生成圖像的整體質(zhì)量影響更大。

      圖13從可視化的角度對(duì)比了各個(gè)模塊對(duì)虛擬試穿的影響??梢钥吹郊恿朔b保真損失后衣服形狀更完整,局部圖案保持效果也更好;在此基礎(chǔ)上再加入FA,圖案的細(xì)節(jié)更加清晰,顏色更加真實(shí),領(lǐng)子袖口等局部區(qū)域也更貼合模特身體。

      圖13 各個(gè)模塊對(duì)虛擬試穿影響的可視化對(duì)比Fig.13 Visual comparison of influence of each module on virtual try-on results

      3.5 性能對(duì)比及分析

      為了更加全面地分析本文方法的性能,表7給出了FP-VTON相比于基礎(chǔ)網(wǎng)絡(luò)CP-VTON的參數(shù)量及訓(xùn)練時(shí)間??梢钥吹剑诘谝浑A段的服裝變形子網(wǎng)絡(luò)中,訓(xùn)練參數(shù)量和時(shí)間分別增加了0.6%和3.6%;在第二階段服裝融合子網(wǎng)絡(luò)中訓(xùn)練參數(shù)量和時(shí)間分別增加了5%和10%(第二階段因?yàn)閾p失函數(shù)復(fù)雜,計(jì)算量大,所以參數(shù)少但是訓(xùn)練時(shí)間長(zhǎng))。對(duì)于整體網(wǎng)絡(luò)的參數(shù)量和訓(xùn)練時(shí)間增加了0.1%和7%,而測(cè)試時(shí)間增加可忽略不計(jì)。因此,可以得出以下結(jié)論:本文算法FP-VTON在僅增加少量運(yùn)算代價(jià)的前提下可生成比CP-VTON效果更好更真實(shí)的試穿結(jié)果。

      表7 訓(xùn)練時(shí)間和參數(shù)量定量對(duì)比Table 7 Comparison of parameters and training time

      3.6 不足及討論

      當(dāng)模特存在手臂遮擋時(shí),如圖14,F(xiàn)P-VTON可以較好地清晰、準(zhǔn)確地捕捉目標(biāo)服裝的局部細(xì)節(jié),但是會(huì)丟失部分手臂信息。而本文在實(shí)驗(yàn)中嘗試加入GAN網(wǎng)絡(luò)解決手臂遮擋問(wèn)題,但在保留手臂的同時(shí)會(huì)丟失掉部分服裝細(xì)節(jié),經(jīng)分析認(rèn)為GAN網(wǎng)絡(luò)為了保持手臂時(shí)會(huì)平滑模糊手臂附近的服裝導(dǎo)致細(xì)節(jié)丟失。未來(lái)工作中將考慮建立符合目標(biāo)服裝特性的人體分割圖與GAN網(wǎng)絡(luò)進(jìn)行平衡來(lái)解決這一問(wèn)題。

      圖14 失敗案例Fig.14 Failure case

      4 總結(jié)

      本文提出了一種虛擬試衣網(wǎng)絡(luò)FP-VTON,設(shè)計(jì)并引入了服裝保真損失,并在網(wǎng)絡(luò)的人體表示、服裝表示、服裝融合三個(gè)階段加入特征注意力模塊,相互協(xié)同共同作用,充分捕捉了模特的特征及目標(biāo)服裝的整體形狀、全局紋理及局部細(xì)節(jié)特征,生成了更加真實(shí)、自然的虛擬試穿結(jié)果。未來(lái),將以此網(wǎng)絡(luò)為基礎(chǔ),考慮建立人體分割,合理引入對(duì)抗機(jī)制,解決遮擋問(wèn)題,提高網(wǎng)絡(luò)對(duì)原始服裝和目標(biāo)服裝差異過(guò)大的適應(yīng)性。

      猜你喜歡
      保真試衣損失
      少問(wèn)一句,損失千金
      胖胖損失了多少元
      玉米抽穗前倒伏怎么辦?怎么減少損失?
      筆墨橫姿自生風(fēng)
      進(jìn)村扶貧獻(xiàn)愛(ài)心 貧困牧民度暖冬
      基于單片機(jī)控制的網(wǎng)購(gòu)試衣機(jī)器人
      電子制作(2018年18期)2018-11-14 01:47:56
      基于反射波各向異性特征的保真去噪方法
      一般自由碰撞的最大動(dòng)能損失
      3D體感試衣鏡 對(duì)著屏幕可試衣
      保真實(shí)錄
      同德县| 达尔| 武冈市| 潼南县| 阳信县| 达州市| 台州市| 岑巩县| 乐清市| 巨鹿县| 丰城市| 郑州市| 瑞安市| 华宁县| 贵州省| 建湖县| 绍兴县| 定安县| 井冈山市| 江永县| 云南省| 扎鲁特旗| 措美县| 儋州市| 固镇县| 香港 | 南投县| 红原县| 芜湖县| 德保县| 托克托县| 祁门县| 八宿县| 丹凤县| 大城县| 山东| 内江市| 怀来县| 巧家县| 永安市| 汉阴县|