中圖分類號:TS942.8 文獻標(biāo)志碼:A 文章編號:1009-265X(2025)05-0096-10
隨著電子商務(wù)的迅速發(fā)展和網(wǎng)上服裝購物的普及,越來越多的消費者希望通過虛擬試穿技術(shù)獲得更好的購物體驗。服裝設(shè)計師可以利用虛擬試穿技術(shù)在不同體型與膚色的模特身上試穿不同款式的服裝,以驗證自身設(shè)計并從中獲取更多設(shè)計靈感。受到這些需求的推動,國內(nèi)外研究者提出了眾多服裝虛擬試穿方法,主要分為基于三維模型和基于二維圖像兩大類。由于三維人體模型獲取較為復(fù)雜,且三維服裝模擬計算代價較大,三維虛擬試穿在日常使用中受到較大的局限。相比之下,基于二維圖像的虛擬試穿技術(shù)因其操作簡便且成本較低而更為普及,尤其適用于電子商務(wù)和服裝設(shè)計領(lǐng)域
為達到高質(zhì)量的虛擬試穿效果,要試穿的服裝和模特合成的圖像需滿足以下4個標(biāo)準(zhǔn):1)保留模特的姿勢、身體形狀和身份;2)反映模特姿勢和身體形狀的服裝變形;3)保持服裝細節(jié)的完整性;4)適當(dāng)渲染模特圖像中原衣服遮擋的身體部位。為滿足這些標(biāo)準(zhǔn),目前多數(shù)虛擬試穿方法通常先對服裝進行變形,然后再進行圖像合成[1]。然而,基于生成對抗網(wǎng)絡(luò)(GAN)的顯性變形方法難以處理模特復(fù)雜姿勢的變形場景,導(dǎo)致最終合成圖像出現(xiàn)難以消除的偽影。隨著技術(shù)的發(fā)展,基于擴散網(wǎng)絡(luò)的圖像合成取得了巨大的成功,其合成的圖像不僅細節(jié)豐富、視覺逼真,且不會引入難以消除的偽影。當(dāng)擴散網(wǎng)絡(luò)應(yīng)用于虛擬試穿時,仍存在明顯的局限性,即用于學(xué)習(xí)語義對應(yīng)關(guān)系的空間信息不足,且在實現(xiàn)服裝變形的同時,沒有充分利用擴散網(wǎng)絡(luò)來保留服裝細節(jié)[2]。為了應(yīng)對這2個問題,以往基于擴散網(wǎng)絡(luò)的虛擬試穿模型采用了先變形后擴散的方法。但是,它們未能合理利用擴散網(wǎng)絡(luò)所學(xué)知識,在擴散修復(fù)過程中依賴于變形網(wǎng)絡(luò),一旦變形網(wǎng)絡(luò)出現(xiàn)誤差,擴散合成的試穿結(jié)果也將受到影響。為了解決這個問題, Kim 等提出了StableVITON模型,這是首個在預(yù)訓(xùn)練擴散網(wǎng)絡(luò)上進行端到端的虛擬試穿方法,其預(yù)訓(xùn)練了擴散網(wǎng)絡(luò)的潛在空間,以學(xué)習(xí)服裝與人體之間的語義對應(yīng)關(guān)系,同時為了進一步優(yōu)化服裝特征的編碼,在U-Net解碼器中引入了零交叉注意力機制調(diào)節(jié),從而在一定程度上解決了擴散網(wǎng)絡(luò)在語義空間信息不足與無法保留服裝細節(jié)的問題。然而,零交叉注意力中的多頭注意力機制使得每個注意力分支獨立學(xué)習(xí)服裝特征,這可能導(dǎo)致最終合成圖像丟失服裝特征與細節(jié)
為解決虛擬試穿網(wǎng)絡(luò)所面臨的服裝特征與細節(jié)丟失的問題,本文提出交互式多頭注意力機制的虛擬試穿網(wǎng)絡(luò),通過密集的交互機制學(xué)習(xí)豐富的服裝特征相關(guān)性,促進不同頭之間的交互,從而增強注意力性能,保留更多的服裝特征細節(jié)。此外,為降低計算的復(fù)雜度,本文擬對鍵值和查詢進行降維,并通過降維后的鍵值和查詢將注意力矩陣分解為無鍵值和無查詢注意力矩陣,在降低計算復(fù)雜度的同時,保持注意力矩陣的整體維度信息,為虛擬試穿過程的高效運行奠定了堅實基礎(chǔ)。本文方法不僅可為解決虛擬試穿中的技術(shù)難題提供新的視角和解決方案,更在推動個性化、高效化虛擬試衣體驗的發(fā)展上具有重要意義。
虛擬試穿研究現(xiàn)狀
基于圖像的虛擬試穿方法是一類重要的AIGC技術(shù)。當(dāng)前所流行的虛擬試穿方法主要分為基于GAN和擴散網(wǎng)絡(luò)2種。2022年以前,主要采用基于GAN網(wǎng)絡(luò)的虛擬試穿方法[4-5]。隨著近幾年擴散網(wǎng)絡(luò)的快速發(fā)展,基于擴散網(wǎng)絡(luò)的虛擬試穿方法也逐漸流行起來[6] 。
1.1基于GAN網(wǎng)絡(luò)的虛擬試穿方法
基于GAN網(wǎng)絡(luò)的方法通常將提取的人物特征與變形后的服裝進行合成。VITON為該類方法的開山之作,其引入了薄板樣條(TPS)技術(shù),并基于GAN網(wǎng)絡(luò)將試穿服裝和人物圖像直接融合產(chǎn)生粗略的試穿結(jié)果,再用細化網(wǎng)絡(luò)優(yōu)化圖像細節(jié),最終成功生成試穿圖像,但圖像合成結(jié)果無法保持服裝細節(jié)的完整性[7]。CP-VITON在VITON 的基礎(chǔ)上,通過卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)TPS的變形參數(shù),從而實現(xiàn)服裝與模特的精確對齊,有效地提高了試穿質(zhì)量,但在復(fù)雜情景下(如復(fù)雜服裝、復(fù)雜姿勢)仍會丟失部分細節(jié)[8-9]。VITON-HD 通過對齊感知生成器在多尺度上細化與保留服裝細節(jié),將試穿圖像的分辨率從256×192 像素提升至 1024×768 像素,使得試穿效果在視覺上實現(xiàn)了質(zhì)的提升[10]。然而,變形的服裝和人體分割圖之間存在未對準(zhǔn)區(qū)域,在高分辨率下該區(qū)產(chǎn)生的偽影會更加明顯。HR-VITON通過同時預(yù)測流場和分割圖并進行信息交換[\"],更好地實現(xiàn)了服裝與模特之間的對齊,這在一定程度上解決了未對準(zhǔn)的問題,但在復(fù)雜姿勢下仍會出現(xiàn)偽影。SD-VITON通過TV目標(biāo)主導(dǎo)層和任務(wù)共存層分別在粗略變形階段和細節(jié)調(diào)整階段對服裝外觀流進行預(yù)測[12],有效解決袖子和腰部之間的紋理擠壓問題,從而緩解了偽影問題,但在處理復(fù)雜紋理方面仍存在問題。盡管這些方法取得了顯著進步,但服裝變形時仍會由于復(fù)雜人體姿勢受到薄板樣條變形和顯式流場估計不準(zhǔn)確的影響,且基于GAN網(wǎng)絡(luò)合成的圖像通常會產(chǎn)生難以解決的偽影。
1. 2 基于擴散網(wǎng)絡(luò)的虛擬試穿方法
擴散網(wǎng)絡(luò)中傳統(tǒng)的UNet架構(gòu)與通道級聯(lián)方法在超分辨率增強、圖像修復(fù)與著色等圖像到圖像的轉(zhuǎn)換任務(wù)中展現(xiàn)出了卓越的性能,然而,其在處理高度非線性變形的復(fù)雜任務(wù)時,如虛擬試穿,擴散網(wǎng)絡(luò)難以滿足精準(zhǔn)映射與變換的需求[13]。為運用擴散網(wǎng)絡(luò)完成虛擬試穿任務(wù),TryOnDiffusion引入了Parallel-UNet架構(gòu),并通過交叉注意力實現(xiàn)服裝的隱式變形[14],盡管這種方法能生成高保真的試穿圖像,但其需要龐大的訓(xùn)練資源,包括400萬個配對數(shù)據(jù)樣本和數(shù)千小時的GPU訓(xùn)練時間。為了平衡計算效率與任務(wù)復(fù)雜性,WarpDiffusion[15]、ACDG-VITON[16]和DCI-VITON[這3種模型采取了先變形后擴散的策略來實現(xiàn)虛擬試穿。WarpDiffusion通過自動蒙版模塊直接將變形后的服裝細節(jié)輸入到擴散網(wǎng)絡(luò)中,從而減少所需資源;ACDG-VITON模型首先對服裝進行變形,然后將噪聲、變形后的服裝和人體關(guān)節(jié)圖像輸入到降噪器中,以提高擴散效率并生成更真實的模特圖像;DCI-VITON通過預(yù)處理,將服裝圖像扭曲至和模特大致對齊,再結(jié)合掩膜( Mask[18] )技術(shù),將變形后的服裝信息傳遞給擴散網(wǎng)絡(luò),以生成最終的試穿效果。盡管這些方法在減少計算量方面取得了進展,但它們未能充分利用擴散網(wǎng)絡(luò)的在預(yù)訓(xùn)練階段累計的知識,且高度依賴于變形網(wǎng)絡(luò)的預(yù)處理,這可能會限制模型在復(fù)雜場景下的泛化能力和合成圖像的自然度。為了提高效率并合成真實的試穿圖像,StableVITON模型實現(xiàn)了端到端的服裝變形,然而該方法忽略了特征之間的相關(guān)性。為此,本文嘗試在零交叉注意力塊上引入交互式多頭注意力機制,通過多頭交互學(xué)習(xí)特征的相關(guān)性,使生成圖像在細節(jié)保留和語義對應(yīng)上表現(xiàn)得更好。
2穩(wěn)定擴散
近年來,擴散網(wǎng)絡(luò)領(lǐng)域取得了顯著進展。去噪擴散概率模型(DDPM[19])首次提出將圖像生成建模為擴散過程,隨后DDIM[2]通過隱式去噪過程減少生成步驟,PNDM[2]通過偽數(shù)值方法提升了生成精度和速度;近期Rombach等提出的穩(wěn)定擴散網(wǎng)絡(luò)(StableDiffusion)在預(yù)訓(xùn)練的變分編碼器( VAE[22] )的潛在空間執(zhí)行擴散過程,實現(xiàn)高效率、高質(zhì)量的圖像處理。穩(wěn)定擴散網(wǎng)絡(luò)由3個核心組件構(gòu)成:首先,是帶有編碼器E和解碼器D的變分自動編碼器,其中E負責(zé)將輸人的人物圖像 I 從原始的高維空間R3×H×W 壓縮至低維潛在空間 R4×h×w ,其中 h=H/8 和w=W/8 , W,H,w,h 分別為原圖像和低維空間圖像的寬高,解碼器D執(zhí)行逆操作,將潛在變量從低維空間解碼回原像素空間;其次,是處理文本或圖像輸入 y 的CLIP文本編碼器 τθ ,其將 y 編碼后作為限制條件來控制擴散過程,確保生成的圖像與文本描述或圖像相符;最后,是基于文本時間條件的U-Net去噪模型 ?θ 。該模型在擴散過程中,結(jié)合給定的輸入 y 和當(dāng)前的時間步 t(t=1,…,T) ,預(yù)測在每個 χt 中添加的噪聲,逐步將噪聲 ? 變成一個各向同性的高斯噪聲 Zt 。穩(wěn)定擴散網(wǎng)絡(luò)使用了潛在擴散網(wǎng)絡(luò)(LDM)的簡化目標(biāo)函數(shù)( LLDM )作為其訓(xùn)練損失,形式為:
式中:去噪網(wǎng)絡(luò) ?θ 采用UNet架構(gòu)實現(xiàn),而 τθ 是用于根據(jù)文本或圖像提示 y 進行調(diào)節(jié)的CLIP文本編碼器。對于圖像修復(fù)任務(wù), ?θ 還接收了2個輸入,即需要修復(fù)的掩膜 m 和修復(fù)背景 x ,公式為:
StableVITON模型正是基于穩(wěn)定擴散網(wǎng)絡(luò)上開發(fā)的虛擬試穿系統(tǒng),其不僅繼承了穩(wěn)定擴散網(wǎng)絡(luò)強大的圖像生成能力,還針對虛擬試穿的特殊需求進行了優(yōu)化和改進
3 虛擬試穿方法
為了解決StableVITON模型在多頭注意力獲取服裝特征時丟失服裝特征相關(guān)性的問題,本文在StableVITON模型的基礎(chǔ)上,提出了基于交互式多頭注意力機制的虛擬試穿網(wǎng)絡(luò),將多頭注意力機制修改為交互式多頭注意力,增強服裝特征相關(guān)性,生成與原服裝風(fēng)格一致且保留服裝細節(jié)的試穿圖像。
本文提出的基于交互式多頭注意力機制的虛擬試穿網(wǎng)絡(luò)保留了穩(wěn)定擴散網(wǎng)絡(luò)的自動編碼器、去噪U-Net網(wǎng)絡(luò)以及圖像編碼器CLIP。在此基礎(chǔ)上,本文實現(xiàn)了端到端的虛擬試穿網(wǎng)絡(luò)。為了更直觀地展示本文提出的虛擬試穿網(wǎng)絡(luò)的優(yōu)勢,我們將其與現(xiàn)有的兩種主流虛擬試穿機制進行了對比,具體如圖1所示。
(a)基于擴散網(wǎng)絡(luò)的端到端虛擬試穿機制(b)基于擴散網(wǎng)絡(luò)的圖像修復(fù)虛擬試穿機制(c)基于GAN網(wǎng)絡(luò)的虛擬試穿機制其中圖1(a)為本文基于擴散網(wǎng)絡(luò)的端到端試穿機制;圖1(b)為基于擴散網(wǎng)絡(luò)的圖像修復(fù)虛擬試穿機制,即先對服裝進行粗略地變形再通過擴散合成修復(fù)試穿圖像;圖1(c)為基于GAN網(wǎng)絡(luò)的虛擬試穿機制,即先對服裝變形再通過GAN網(wǎng)絡(luò)合成試穿圖像。從圖1中可以觀察到,本文網(wǎng)絡(luò)的服裝的變形處理直接在擴散網(wǎng)絡(luò)內(nèi)部完成,實現(xiàn)了端到端的學(xué)習(xí)過程,即在預(yù)訓(xùn)練的擴散網(wǎng)絡(luò)潛在空間內(nèi),學(xué)習(xí)服裝與人體之間的精細語義對齊關(guān)系,在保證不消耗巨大的資源的同時合成真實的試穿圖像。
3.1 網(wǎng)絡(luò)架構(gòu)
本文提出的改進后的虛擬試穿網(wǎng)絡(luò)架構(gòu)如圖2所示,其輸人包括人物圖像 I∈R3×H×W 和服裝圖像(204號 。在合成虛擬試穿圖像的過程中,首先,從人物圖像 I 中提取與原服裝無關(guān)的人物表征
R3×H×W 、人體姿態(tài)信息 P ,以確保最終合成圖像中不包含任何原始服裝信息。隨后,將基于擴散網(wǎng)絡(luò)的虛擬試穿任務(wù)視作圖像修復(fù)問題,使用 c 來填補 I?m 中的空白區(qū)域。同時,將 C 輸入到圖像編碼器(CLIP)中,作為條件生成過程的指導(dǎo)。具體步驟如下:首先,將
和 c 分別通過編碼器E轉(zhuǎn)換為潛在空間編碼;隨后,潛在空間編碼與噪聲 Z 以及根據(jù) I?m 調(diào)整的潛在空間掩模
合并;最后,將合并后的編碼輸入到增強去噪U-Net網(wǎng)絡(luò)中并完成擴散過程。該網(wǎng)絡(luò)引入了一個空間編碼器,其復(fù)制了訓(xùn)練后的U-Net權(quán)重,并通過引入的零交叉交互式注意力塊將編碼器的中間特征圖調(diào)節(jié)至擴散網(wǎng)絡(luò)U-Net的解碼層,其中多頭注意力的交互可以更精細地捕獲服裝特征,有效保留服裝的特征以及服裝的高頻細節(jié)。通過上述的擴散過程,本文網(wǎng)絡(luò)在保留人物特征的同時,還能更精確地呈現(xiàn)服裝的特征與細節(jié)。
3.2 零交叉交互式注意力模塊
本文提出的零交叉交互式注意力模塊,其具體流程如圖3所示,旨在改進StableVITON的零交叉注意力塊導(dǎo)致的服裝特征丟失問題。首先,將解碼器的空間特征輸入到交互式多頭自注意力模塊,其中 Q,K,V 均源自上層解碼器,確保信息連貫。自注意力處理后,特征圖通過歸一化后進入交叉注意力模塊, Q 是自注意力層,而 K 和 V 來自空間編碼器,實現(xiàn)跨層次特征融合。最后,特征圖經(jīng)前饋網(wǎng)絡(luò)后引入到零權(quán)重初始化的線性層,過濾有害噪聲。通過這樣的密集交互機制學(xué)習(xí)服裝特征相關(guān)性,從而增強注意力性能,以保留更多的服裝整體特征與局部細節(jié)。
為了使變形的服裝和模特對齊且保留服裝的細節(jié),StableVITON引入了一種空間編碼器,將其編碼后的潛在空間特征作為輸人,空間編碼器復(fù)制訓(xùn)練后U-Net的權(quán)重,并通過零交叉注意力塊將編碼器的中間特征圖調(diào)節(jié)至擴散網(wǎng)絡(luò)U-Net的解碼層。這種方法在一定程度上增強了服裝特征,但多頭注意力機制保留特征時,可能忽略特征的相關(guān)性,導(dǎo)致服裝中的某些高頻細節(jié)丟失。為了改善這一點,一個可能的解決方案是讓多頭之間進行交互[23]。然而,為了表示數(shù)據(jù)序列長度 N 中每一個數(shù)與其他數(shù)之間的關(guān)系,每個注意力矩陣的維度可能高達 RN2 其中 R 表示任意實數(shù)。這樣的跨頭交互層會顯著增加計算復(fù)雜度,降低網(wǎng)絡(luò)的運行效率。為解決這個問題,本文通過分解策略將自注意力矩陣分為無鍵(key-less)和無查詢(query-less)的組件。無鍵值q 和無查詢 w 是對原始查詢和鍵值平均池化得到:
式中: 和
分別表示卷積核的高度和寬度;
和
分別為鍵值和查詢; i 和 j 為隨機變量。將查詢和鍵值的高頻細節(jié)進行下采樣,保留主要特征信息,同時降低計算復(fù)雜度。為計算分解后的注意力矩陣,將注意力矩陣操作分為2個部分,即查詢注意力矩陣和鍵值注意力矩陣:
A=AQAK=softmax(QkT)softmax(qKT) (4)式中: 是查詢注意力矩陣; Aκ 是鍵值注意力矩陣;A是注意力矩陣;
是查詢;
是鍵值;
是降維后的鍵值;
是降維后的查詢。通過這種方式,可以分別計算查詢和鍵值的相似度,并將其組合起來,形成完整的注意力矩陣。為了保證查詢和鍵的整體維度信息,本文使用線性層和Softmax操作進行跨頭交互,實現(xiàn)注意力矩陣的高效計算:
式中: 和
是查詢方向上的全連接矩陣;
和
是鍵方向上的全連接矩陣; d 是向量的維度。下采樣后注意力矩陣的尺寸得以縮減,同時保留整體維度中的關(guān)鍵特征。
在實際計算中,重新排列矩陣乘法以避免直接計算 ,先計算值 V 與 A?KT 的積,得到最終的注意力輸出 o :
通過這種重新排列,可以高效地計算輸出令牌,同時保證信息完整
圖4展示了交互式多頭注意力機制架構(gòu),圖4(a)為交互式多頭注意力,通過下采樣將注意力矩陣分解為無鍵和無查詢的組件,隨后進行多頭交互。圖4(b)為多頭交互,其中 n 是多頭數(shù)量, N 是令牌數(shù)(數(shù)據(jù)序列長度), L 是標(biāo)志點數(shù)量(下采樣后的維度),在交互過程中通過線性層連接,并使用Softmax處理。這種分解與交互策略,可以較低計算復(fù)雜度,同時實現(xiàn)跨頭交互,從而保持網(wǎng)絡(luò)性能并提高網(wǎng)絡(luò)的效率和穩(wěn)定性。
4 測試與分析
4.1 試驗環(huán)境與數(shù)據(jù)集
本文在Python環(huán)境下基于PyTorch深度學(xué)習(xí)框架實施虛擬試穿網(wǎng)絡(luò)的開發(fā),實驗配置包括 3GHz 處理器、64GBRAM和NVIDIARTX4090 GPU的計算機。在網(wǎng)絡(luò)訓(xùn)練階段,本文選擇了AdamW作為優(yōu)化器,設(shè)置固定的學(xué)習(xí)率為 1×10-4 ,批量大小定為32。
本文網(wǎng)絡(luò)在VITON-HD數(shù)據(jù)集上進行了全面的訓(xùn)練和測試。其包括14221個訓(xùn)練樣本和2032個測試樣本,專為提高虛擬試穿技術(shù)的效果而設(shè)計。VITON-HD數(shù)據(jù)集不僅提供高分辨率的圖像,而且包含了衣物的分割信息、密集姿勢和姿勢關(guān)鍵點,這些數(shù)據(jù)為虛擬試穿的后續(xù)工作提供了保障。同時圖像樣本涵蓋了從簡單到復(fù)雜的各種服裝類型和人體姿勢,確保實驗的多樣性和復(fù)雜性。
4.2 評價方法與指標(biāo)
本文使用 SSIM(Structural Similarity Index)[24]LPIPS(Learned Perceptual Image Patch Similarity)[25]FID(Fréchet Distance)[26] 和 KID(Kernel InceptionDistance)[27]4個指標(biāo)評估虛擬試穿網(wǎng)絡(luò)的性能。SSIM指標(biāo)反映網(wǎng)絡(luò)在保持圖像結(jié)構(gòu)方面的能力,高SSIM值表明生成的圖像與真實圖像結(jié)構(gòu)類似;LPIPS評估圖像的感知質(zhì)量,低LPIPS值表明網(wǎng)絡(luò)在生成視覺上貼近真實;FID和KID用于測量生成圖像與真實圖像集在特征空間中的距離,較低的FID和KID值顯示了網(wǎng)絡(luò)在保持圖像真實性方面的優(yōu)勢。
4.3 定性比較
為了更全面細致地評估網(wǎng)絡(luò)的表現(xiàn),本文將定性比較進一步分為特征定性比較和細節(jié)定性比較。特征定性比較側(cè)重于評估模型在處理服裝整體特征(如服裝的形狀、整體風(fēng)格)方面的表現(xiàn),細節(jié)定性比較則更關(guān)注模型在處理微小細節(jié)(如紋理、邊緣)上的能力。在基線評估時,選擇在較低分辨率( 512× 384像素)下訓(xùn)練網(wǎng)絡(luò),以確保評估的公平性。圖5和圖6的定性比較中,從左到右分別是模特圖、目標(biāo)服裝圖、本文模型以及對比模型StableVITON、SD-VITON、HR-VITON、VITON-HD。
如圖5所示,在與主流模型的服裝特征定性比較中,本文方法在合成服裝整體特征時展示出一定的優(yōu)勢。第一款服裝中,其他模型將抹胸款服裝錯誤的合成為短袖、吊帶樣式;第二款服裝中,StableVITON模型將吊帶款式錯誤的合成為長袖,而其他3個模型生成的服裝不僅未能貼合人體,且圖像中出現(xiàn)偽影;第三款服裝中,其他模型將一字領(lǐng)服裝變成了短袖,或在領(lǐng)口處丟失服裝特征;第四款服裝中,其他模型都沒有正確合成出服裝腰部的紋理,有的模型甚至將服裝領(lǐng)口的形狀錯誤地變形為V領(lǐng)(本文網(wǎng)絡(luò)在還原該款服裝下擺款式時與其他模型一樣存在不足,這將是本文研究的另一個方向)。其他模型要么改變了服裝的款式,要么改變了服裝的紋理,這主要是由于在服裝變形的時候忽略了服裝特征之間的相關(guān)性。而本文網(wǎng)絡(luò)通過交互式多頭注意力,將每個多頭注意力關(guān)聯(lián)起來,捕捉了服裝之間更細膩的交互關(guān)系,在特征保留上表現(xiàn)得更加出色。
如圖6所示,在與主流模型的服裝特征定性比較中,本文網(wǎng)絡(luò)在保留服裝細節(jié)時展示出了一定的優(yōu)勢。在第一款服裝中,其他模型在白色和藍色交接之處引入了偽影,而StableVITON合成的圖像將白色和藍色交界線錯誤地變成了曲線;第二款服裝中,其他模型未能完整保留袖口位置的橫線紋理,甚至胸口部位的圖案也有所丟失。第三款服裝中,StableVITON合成的圖像徹底改變了服裝的顏色,而其他模型丟失了服裝關(guān)鍵的紋理特征,使得藍色與黑色條紋交接處的紋理變得模糊。第四款服裝中,StableVITON合成的圖像丟失了服裝白色領(lǐng)口,而其他模型袖口、胸口出現(xiàn)了紋理錯亂問題。相比之下,本文網(wǎng)絡(luò)合成的試穿圖像能完整保留服裝細節(jié),這得益于交互式多頭注意力能夠更準(zhǔn)確地匹配合成圖像中的局部特征,避免了傳統(tǒng)模型中常見的服裝細節(jié)丟失問題。
4.4 定量比較
本文模型與主流模型的定量比較見表1,本文提出的虛擬試穿網(wǎng)絡(luò)在SSIM、LPIPS、FID和KID四個關(guān)鍵性能指標(biāo)上表現(xiàn)良好。尤其在FID和KID這2個指標(biāo)上,與VITON-HD、HR-VITON和SD-VITON相比,本文網(wǎng)絡(luò)表現(xiàn)出一定的優(yōu)勢,這反映了在服裝特征表達和圖像質(zhì)量上的顯著提升,而相較于StableVITON,SSIM提高了 1.53% ,LPIPS減小了 0.71% ,F(xiàn)ID 減小了 0.15% ,KID 減小了 1.14% 。此外,本文在U-Net解碼器中引入交互式多頭注意力機制,通過提升特征提取與表示能力,加強局部和全局信息的結(jié)合,減少信息丟失,這提升了網(wǎng)絡(luò)學(xué)習(xí)效率和穩(wěn)定訓(xùn)練過程,從而顯著加快SSIM指數(shù)的收斂速度。SSIM指數(shù)收斂速度快不僅有助于加快網(wǎng)絡(luò)驗證和優(yōu)化過程,還能節(jié)省計算資源,提高網(wǎng)絡(luò)穩(wěn)定性。
不同虛擬試穿模型的SSIM收斂性,如圖7所示,本文網(wǎng)絡(luò)在迭代6000次時,上升趨勢已經(jīng)很弱,SSIM指數(shù)開始趨于穩(wěn)定,而其他主流模型在迭代8000次時才逐漸趨于穩(wěn)定。
4.5 用戶調(diào)研
為了驗證實驗結(jié)果的有效性,筆者進行了用戶調(diào)研,通過用戶偏好和用戶分數(shù)兩個指標(biāo)來衡量與主流模型之間的優(yōu)勢。為此我們邀請了50名學(xué)生對VITON-HD、HR-VITON、SD-VITON、StableVITON以及本文網(wǎng)絡(luò)訓(xùn)練出的結(jié)果分別隨機選出100對虛擬試穿結(jié)果,要求他們對服裝特征保留、服裝紋理細節(jié)完整度進行排序,將用戶排名第一的頻率設(shè)置為用戶偏好,排名順序的加權(quán)和為用戶得分,具體計算公式為:
式中:S為用戶得分; F 為不同排名的頻次; W 為排名的倒數(shù)乘以比較方法的總數(shù); N 為總?cè)藬?shù)
本文網(wǎng)絡(luò)在用戶偏好中表現(xiàn)最佳,其中服裝特征為 56.8% ,服裝細節(jié)為 62.4% ;在用戶評分中也獲得了最高分數(shù),其中服裝特征為 3.45/5.00 ,服裝細節(jié)為 3.65/5.00 。這表明本文方法在用戶中展現(xiàn)了較強的競爭力,更受用戶喜愛,能夠更好地滿足用戶對虛擬試穿效果的期待。
5 結(jié)論
本文研究了基于穩(wěn)定擴散的虛擬試穿方法,構(gòu)建了端到端的虛擬試穿機制,擺脫了傳統(tǒng)服裝變形網(wǎng)絡(luò)的依賴,顯著降低了資源消耗。同時,本文網(wǎng)絡(luò)引入了交互式多頭注意力機制,通過密集的交互機制學(xué)習(xí)特征的相關(guān)性,在保證服裝風(fēng)格一致的同時,有效保留了服裝紋理和細節(jié)。基于VITON-HD數(shù)據(jù)集的定性與定量評估均表明,本文方法在視覺感知質(zhì)量和技術(shù)指標(biāo)上均取得了顯著進步。最后,用戶調(diào)研結(jié)果進一步驗證了該方法在提升用戶體驗方面的優(yōu)勢,未來能為消費者帶來更好的購物體驗,并廣泛用于虛擬試穿等數(shù)字時尚應(yīng)用場景,
為了更有效地降低計算資源的消耗,未來進一步優(yōu)化模型在復(fù)雜場景下人物特征丟失的問題,探索更加高效的交互式多頭注意力計算方法,使得其能夠在更廣泛的場景中得到有效應(yīng)用。
參考文獻:
[1]薛蕭昱,何佳臻,王敏.三維虛擬試衣技術(shù)在服裝設(shè)計與性能評價中的應(yīng)用進展[J].現(xiàn)代紡織技術(shù),2023,31(2):12-22.XUE Xiaoyu,HE Jiazhen,WANG Min. Application progress of 3Dvirtual fittingtechnologyin fashiondesignand performance evaluation[J].Advanced Textile Techno-logy,2023,31(2):12-22.
[2]劉玉葉,王萍.基于紋理特征學(xué)習(xí)的高精度虛擬試穿智能算法[J].紡織學(xué)報,2023,44(5):177-183. LIU Yuye,WANG Ping.High-precision inteligent algorithm for virtual fiting based on texture feature learning[J]. Journal of Textile Research,2023,44(5):177-183.
[3]KIM J,GU G,PARK M,et al. StableVITON: Learning semantic correspondence with latent diffusion model for virtual try-on,2023 : 8176-8185.
[4]蔣高明,劉海桑.服裝三維虛擬展示的現(xiàn)狀與發(fā)展趨勢[J].服 裝學(xué)報,2021,6(4):349-356. JIANG Gaoming,LIU Haisang.Current situation and development trend of 3Dvirtual garment display[J].Jourmal of Clothing Research,2021,6(4):349-356.
[5]施倩,羅戎蕾.基于生成對抗網(wǎng)絡(luò)的服裝圖像生成研究進展 [J].現(xiàn)代紡織技術(shù),2023,31(2):36-46. SHI Qian,LUO Ronglei.Research progress of clothing image generation based on Generative Adversarial Networks[J].Advanced Textile Technology,2023,31(2):36-46.
[6]郭宇軒,孫林.基于擴散模型的ControlNet網(wǎng)絡(luò)虛擬試衣研究 [J].現(xiàn)代紡織技術(shù),2024,32(3):118-128. GUO Yuxuan,SUN Lin.Virtual fitting research based on the diffusion model and ControlNet network[J].Advanced Textile Technology,2024,32(3):118-128.
[7]HAN X,WU Z, WU Z, et al. VITON: An image-based virtual tryon network[J].2017.
[8]WANG B,ZHENG H,LIANG X,et al. Toward CharacteristicPreserving Image-Based Virtual Try-On Network [M]//Lecture Notes in Computer Science.Cham: Springer International Publishing, 2018: 607-623.
[9]祖雅妮,張毅.基于大規(guī)模預(yù)訓(xùn)練文本圖像模型的虛擬試穿方法 [J].絲綢,2023,60(8):99-106. ZU Yani, ZHANG Yi. A virtual try-on method based on the largescale pre-training text-image model[J]. Journal of Silk,2023,60 (8) : 99-106.
[10] CHOI S,PARK S,LEE M,et al. VITON-HD:High-resolution virtual try-on via misalignment-aware normali-zation[C]//2021 IEEE/CVF Conference on ComputerVisionandPattern Recognition(CVPR).June 20-25,2021,Nashville,TN,USA. IEEE,2021:14126-14135.
[11]LEE S,GU G,PARK S,et al. High-resolution Virtual Try-On With Misalignment and Occlusion-Handled Con-ditions [M]// Lecture Notes in Computer Science. Cham: Springer Nature Switzerland, 2022:204-219.
[12] SHIM S H, CHUNG J, HEO JP. Towards squezing-averse virtual try-on via sequential deformation[J]. Proceedings of the AAAI Conference on Artificial Intelli-gence,2024,38(5): 4856-4863.
[13]朱欣娟,徐晨激.基于風(fēng)格遷移的虛擬試穿研究[J].紡織高 ?;A(chǔ)科學(xué)學(xué)報,2023,36(1):65-71. ZHU Xinjuan, XU Chenwei. Research on virtual try-on based on style transfer[J]. Basic Sciences Journal of Textile Universities, 2023,36(1) : 65-71.
[14] ZHU L, YANG D, ZHU T,et al. TryOnDifusion: A tale of two UNets[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June 17-24,2023,Vancouver, BC,Canada.IEEE,2023:4606-4615.
[15] ZHANG X,LI X,KAMPFFMEYER M,et al. WarpDifusion: Effcient diffusion model for high-fidelity virtual try-on[EB/OL]. 2023:2312. 03667. htps://arxiv. org/abs/2312. 03667v1.
[16] ZHANG J, LI K,CHANG S Y,et al. ACDG-VTON:Accurate and contained difusion generation for virtual try-on[EB/OL]. 2024: 2403.13951. htps://arxiv. org/abs/2403.13951v1.
[17]GOU J,SUN S,ZHANG J,et al. Taming the power of diffusion models for high-quality virtual try-on with appe-arance flow[ C]// Proceedings of the 31st ACM Interna-tional Conferenceon Multimedia. Ottawa ON Canada.ACM,2023:7599-7607.
[18]BOYKOV Y Y,JOLLY M P. Interactive graph cuts for optimal boundary amp; region segmentation of objects in N-D images[C]// Proceedings Eighth IEEE International Conference on Computer Vision.ICCV.Vancouver,BC,Canada.IEEE,2001:105-112.
[19]HO J,JAIN A,ABBEEL P.Denoising diffusion probabilistic models[J].Advances in neural information processing systems, 2020,33:6840-6851.
[20] SONG J,MENG C,ERMON S.Denoising diffsion implicit models[EB/0L].2020:2010.02502.htps://arxiv.org/ abs/2010. 02502v4.
[21]LIUL,REN Y,LIN Z,et al.Pseudo numerical methods for diffusion models on manifolds[EB/OL]. 2022:2202.09778. https://arxiv.org/abs/2202.09778v2.
[22]KANG H,YANG M H,RYU J. Interactive multi-head selfattention with linear complexity[EB/OL].2024:2402.17507. https://arxiv.org/abs/2402. 17507v1.
[23]KINGMA D P,WELLING M. Auto-encoding variational Bayes [EB/OL]. 2013:1312. 6114. htps://arxiv. org/abs/1312. 6114v11.
[24] WANG Z,BOVIK A C, SHEIKH H R, et al. Image quality assessment:from error visibility to structural similarity[J].IEEE Transactions on Image Processing,2004,13(4): 600-612.
[25] ZHANG R,ISOLA P,EFROS A A,et al.The unreasonable effectiveness of deep features as a perceptual metric[C]//2018 IEEE/CVF Conference on Computer Vision and Pattrn Recognition. Salt Lake City,UT,USA.IEEE,2018:586-595.
[26]HEUSEL M,RAMSAUER H, UNTERTHINER T,et al. GANs trained by a two time-scale update rule converge to a local Nash equilibrium[EB/OL].2017:1706.08500.htps://arxiv.org/ abs/1706. 08500v6.
[27] BINKOWSKI M,SUTHERLAND D J,ARBEL M,et al. DemystifyingMMD GANs[EB/OL]. 2018:1801.01401. https://arxiv.org/abs/1801.01401v5.
Virtual try-on networks based on interactive multiple attention mechanisms
HUANG Lili1,ZHENG Junhong', JIN Yao1,2,HE Lili1,2 (1.School of Computer Science and Technology, Zhejiang Sci-Tech University,Hangzhou , China; 2. Zhejiang Provincial Innovation Center of Advanced Textile Technology,Shaoxing 31OO2O,China)
Abstract:With the booming development of e-commerce and the popularity of online clothing shopping,virtual tryon technology has been significantly promoted.At present,virtual try-on technology is mainly divided into two categories:3Dand 2D images,among which 2D image virtual try-on is widely used due to its easy operation and low cost.This technology is further subdivided into methods based on Generative Adversarial Networks (GANs)and difusion networks. In recent years,virtual try-on based on diffusion networks has received widespread attention due to its superior performance inrealism,stability,and detail processing compared to GAN networks.StableVITON is an important benchmark model in this field andhasachieved significant results insynthesizing try-on images by relying on the powerful generation abilityof difusion networks.However,there are still shortcomings in capturing and preserving clothing featuresand details,such as the inability to accurately identifyclothing'slong and short sleeves, colors, as well as details such as cuffs and necklines.
To address the problem of clothing feature and detail loss in the StableVITON,this paper proposed a virtual try-on network based onan interactive multi-head attention mechanism.Specifically,this article introduced an interactive multi-headatention mechanismin the clothing encoding block of the StableVITON to facilitate the interaction between diferent headsand learnrich featurecorrelations,soas to enhance the network attention performance and retain more clothing features and details.This article adopted various strategies to achieve this goal.Firstly,the latent space of the diffusion network was pre-trained to learn semantic correspondences between clothing and the human body.Secondly,zero-cross-attntion mechanism was introduced into the U-Net decoder. Lastly,the multi-head attention was adjusted toan interactive version which learns rich feature corelations through dense interaction mechanisms to enhance the combination of local and global information,reduce information loss, and improve the learning efficiency and stability of the model.
To verify the efectiveness of the proposed method,qualitative and quantitative experiments were conducted on the VITON-HD dataset.Resultsshow that this virtual try-on network generates more realistic overall clothing features and local details compared to other mainstream models.Compared to StableVITON,it improves the average Structural Similarity Index (SSIM) by 1.53% ,reduces the average Learned Perceptual Image Patch Similarity (LPIPS) by 0.71% ,lowers Fréchet Inception Distance (FID)by 0.15% ,and decreases Kernel Inception Distance (KID) by 1.14% . This network effectively preserves clothing feature details and significantly enhances image fidelity and its synthesized try-on images can provide consumers with a better shopping experience and can be widely used in digital fashion applications such as virtual try-on.
Keywords: interactive; multi-head attention; StableVITON; virtual try-on; stable diffusion