






關鍵詞:虛擬試衣;高效通道注意力機制;多任務判別器;特征融合
0 引言(Introduction)
經(jīng)濟的快速發(fā)展和社會生活水平的提高,加速了人們對時尚產品的需求從單一需求特征到“多層次”“多元化”“個性化”需求特征的轉變。為此,時尚零售商都在想方設法地為顧客帶來更好的體驗和感官刺激[1],這使得虛擬試穿技術的研究頗具商業(yè)價值。虛擬試衣的概念于2001年[2]被提出,基于圖像生成的虛擬試衣技術具有高效、成本低廉的優(yōu)點[3],目前已有的基于圖像生成的虛擬技術,例如具有錯位和遮擋處理條件的高分辨率虛擬試戴(High-Resolution Virtual Try-On with Misalignmentand Occlusion-Handled Conditions,HR-VITON)模型的測試結果中存在服裝紋理不夠真實、特征交互的局限性問題。通過改進,可以讓虛擬試衣更加符合現(xiàn)實效果,為用戶提供更加逼真的虛擬試穿體驗。
本文基于HR-VITON虛擬試衣方法,在條件構造器中引入高效通道注意力機制;在生成對抗網(wǎng)絡中新增馬爾可夫判別器[4],并采用了多任務判別器結構。實驗結果表明,改進后的網(wǎng)絡結構提升了生成圖像的局部細節(jié)清晰度和紋理質量,即提高了生成圖像的真實感和質量。
1 本文方法(The proposed method
在HR-VITON虛擬試衣實驗中,存在的主要問題是對服裝紋理的變形處理不夠真實,以及在特征交互和圖像細節(jié)處理方面有限制。為了改進這一缺陷,本文采用端到端的訓練方式對HR-VITON虛擬試衣實驗進行了改善。HR-VITON虛擬試衣方法采用FlowNet處理服裝變形。然而,F(xiàn)lowNet在處理過程中需要從輸入圖像對中提取特征,這一環(huán)節(jié)的特征提取與融合存在不足,從而直接影響了FlowNet的計算效果,特別是在處理服裝的細節(jié)特征,如紋理和微小的設計元素時,F(xiàn)lowNet的特征提取機制可能無法精確捕捉和恰當處理這些細微變化,在處理服裝變形的精細度和真實感方面表現(xiàn)尤為明顯。此外,在HR-VITON的圖像生成網(wǎng)絡中僅包含一個多尺度判別器,沒有專門用于判別像素級細節(jié)的判別器。這意味著在生成圖像的質量上,尤其是在像素級的精確度和細節(jié)表現(xiàn)上,網(wǎng)絡可能無法達到最優(yōu)效果。因此,為了提升HR-VITON在服裝特征保留和改善衣物與人體交互處理方面的性能,有必要對FlowNet特征提取和融合,以及圖像生成網(wǎng)絡進行改進。
本文以HR-VITON虛擬試衣方法為基礎,提出了基于多任務判別器與注意力機制的虛擬試衣網(wǎng)絡(圖1),該網(wǎng)絡在條件構造器特征融合模塊中引入了高效通道注意力機制,提升了對重要特征的關注程度,也提高了網(wǎng)絡特征融合和處理能力;在圖像生成網(wǎng)絡中引入馬爾可夫判別器,可強化真實性,提升對局部細節(jié)的辨別力,進而提高試衣圖像的整體質量。下面圍繞改進的條件構造器和圖像生成器網(wǎng)絡兩個部分進行介紹。
1.1 增強特征融合的條件構造器
在高分辨率的虛擬試衣領域,特征金字塔網(wǎng)絡(FPN)被廣泛應用于提取不同尺度的特征,以捕獲衣物和人體姿態(tài)的復雜性。然而,F(xiàn)PN的一個局限性在于其通道特征權重是均勻的這意味著所有通道被賦予了相同的重要性,而實際上某些通道可能比其他通道包含更多與任務相關的信息。這種均勻的權重分配可能導致網(wǎng)絡無法有效地關注和提取對生成高質量虛擬試衣圖像至關重要的細節(jié)特征。
為了克服這一局限性,在FPN的基礎上設計了一個高效通道注意力(Efficient Channel Attention, ECA)模塊,它通過動態(tài)調整通道權重實現(xiàn)突出重要特征的目的,并抑制不相關的特征。ECA模塊在各個層級的FPN編碼器之后引入,直接作用于從ClothEncoder和PoseEncoder提取的高層特征。ECA模塊結構如圖2所示,通過全局平均池化(GAP)操作獲取每個通道的全局信息,并利用1D卷積動態(tài)學習每個通道的權重,ECA模塊可以自適應地重加權每個通道的特征響應,從而為特征融合提供了更豐富的表達。假設模塊輸入特征圖X∈RC×H ×W ,其中C 為通道數(shù),H 和W 分別是特征圖的高度和寬度。
本文采用的增強特征融合的條件構造器主要分為4個步驟,包括特征提取、通道注意力增強、流圖生成和特征融合,增強特征融合的條件構造器網(wǎng)絡結構如圖3所示。首先,對于訓練數(shù)據(jù)中的每張服裝圖像和姿態(tài)圖像,使用ClothEncoder和PoseEncoder進行特征提取,提取服裝和姿態(tài)的關鍵特征。這些特征通過殘差塊的多層卷積和池化操作進行下采樣,捕獲輸入圖像的細節(jié)和上下文信息。提取后的特征通過高效通道注意力(ECA)模塊進行通道注意力增強。ECA模塊使用全局平均池化和一維卷積動態(tài)學習每個通道的權重,強調對當前任務最重要的特征通道。其次,利用這些增強的特征生成流圖,流圖是通過卷積層生成的,用于指導服裝特征到模特姿態(tài)的空間映射。最后,通過特征融合步驟將服裝和姿態(tài)特征結合起來,生成最終的虛擬試衣圖像。融合過程包括上采樣、1×1卷積和殘差塊的使用,確保服裝特征與模特姿態(tài)的有效融合。最終的輸出層根據(jù)配置選項進行特征的最后處理。整個網(wǎng)絡使用一系列如交叉熵損失等損失函數(shù)和優(yōu)化器進行反向傳播,以更新網(wǎng)絡參數(shù),包括權重矩陣和特征表示。條件構造器網(wǎng)絡的設計和實現(xiàn)旨在有效地處理和融合復雜的視覺信息,以生成高度準確和自然的扭曲后的服裝圖像、服裝掩碼、試穿服裝后的人體分割圖。
1.2 基于多任務判別器的圖像生成網(wǎng)絡
本研究中,對傳統(tǒng)的生成對抗網(wǎng)絡(GAN)[5]中的判別器結構進行了重要的改進。傳統(tǒng)的GAN通常采用單一判別器評價生成圖像的真實性。為了提高生成圖像的質量和逼真度,本文引入了一種多任務判別器架構,它通過不同類型的判別器協(xié)同工作,從全局、局部多個層面對生成圖像進行評估。如圖4所示,多任務判別器由3個關鍵部分組成:D1、D2和D3。其中,D1和D2構成了多尺度判別器,它由多個基礎判別器單元組成,能夠在不同尺度上分析生成圖像。這種多尺度策略能夠使網(wǎng)絡捕捉到生成圖像的不同層次,從而更全面地評估其真實性。除此之外,D3判別器采用了馬爾可夫判別器的設計理念,這種判別器充分考慮了圖像的局部區(qū)域,能夠更細致地評估圖像的局部真實性。馬爾可夫判別器的引入,能夠有效地幫助模型識別并改進生成圖像中可能存在的局部不一致性。
圖像生成網(wǎng)絡中的生成器由一系列具有上采樣層的殘差塊組成,并且多任務判別器設計采用兩個多尺度鑒別器實現(xiàn)條件對抗損失,采用馬爾可夫判別器實現(xiàn)二維交叉熵損失[6],并且將頻譜歸一化[7]應用于所有卷積層。為了訓練試穿圖像生成器,總損失函數(shù)融合了條件對抗損失、感知損失、特征匹配損失及二維交叉熵損失??倱p失函數(shù)表達式如下:
其中:λα 和λβ 表示不同的損失權重,LcGAN 表示條件對抗損失函數(shù),LVGG 表示感知損失,LFM 表示特征匹配損失,Lp 表示二維交叉熵損失函數(shù)。
多尺度判別器實現(xiàn)條件對抗損失使用的是鉸鏈損失函數(shù)(Hinge Loss)[8],它是一種用于支持向量機(SVM)和GAN模型的損失函數(shù)。在GAN中,它通常用于判別器的損失函數(shù)。鉸鏈損失通過衡量模型對真實樣本和生成樣本之間的間隔來評估模型性能。具體而言,對于真實樣本,它追求分數(shù)高于某個閾值,而對于生成樣本,它希望分數(shù)低于另一個閾值。這種損失鼓勵判別器能更好地區(qū)分真實樣本和生成樣本,通常導致更穩(wěn)定的訓練和更高質量的生成圖像。條件對抗損失的計算公式如下:
其中:LDR 表示真實圖像的損失函數(shù)之和,LDF 表示生成圖像的損失函數(shù)之和,N 表示樣本個數(shù),x 表示輸入的局部圖像區(qū)域,D(x)表示判別器的輸出,λR 和λF 表示不同的損失權重。
感知損失是通過在VGG-19網(wǎng)絡的多個層次上比較兩個圖像的特征表示來計算,旨在捕捉圖像在視覺內容和風格上的高層次差異。感知損失函數(shù)的計算公式如下:
其中:x 表示生成圖像,y 表示目標圖像,F(xiàn)i(x)表示圖像x 在VGG網(wǎng)絡的第i 層的特征映射,F(xiàn)i(y)表示圖像y 在VGG網(wǎng)絡的第i 層的特征映射,wi 表示第i 層的權重,layids表示一個索引列表。
特征匹配損失技術在GAN訓練中表現(xiàn)突出,它幫助生成器關注除了最終判別器輸出外的其他多個層次的學習,從而獲得更豐富和多樣化的梯度信息。這樣的訓練方法通??梢援a生更加穩(wěn)定和高質量的結果。特征匹配損失的計算公式如下:
其中:G 表示生成器,Dk 表示判別器的第k 個中間層,E(sx ) 表示對所有樣本sx 取均值,Ni 表示第i 個中間層的特征數(shù)量,D(i) k (sx )表示樣本sx 通過判別器Dk 中的第i個中間層得到的特種表示,G(sG ,G(sx ))表示生成器G 對樣本sx 進行變換后的結果。
馬爾可夫判別器使用的是二維交叉熵損失,這種損失函數(shù)允許模型關注圖像的每個局部區(qū)域。對于每個像素點或Patch,模型都會輸出一個概率值,表示該區(qū)域屬于“真實”類別的置信度。通過最小化這個損失,Patch判別器學習區(qū)分生成的圖像塊和真實的圖像塊,使得生成器在生成圖像時,必須在每個局部區(qū)域內都盡可能地接近真實圖像,從而提高生成圖像的整體質量。二維交叉熵損失的計算公式如下:
其中:N 表示圖像中的像素點的總數(shù),C 表示類別的總數(shù),yij表示像素點i 是否屬于類別j,pij 表示模型預測像素點i 屬于類別j 的概率。
2 實驗(Experiment)
2.1 數(shù)據(jù)集和實驗設置
本實驗采用Python 3.8和 Pytorch 1.8.2 構建軟件仿真平臺,圖像處理器(GPU)采用4090 GPU,內存為24 GB。在實驗中,所有訓練和測試均在VITON- HD數(shù)據(jù)集上進行,并且公共超參數(shù)的設置與HR- VITON保持一致,其中數(shù)據(jù)集包含13 679個正面女性和頂級服裝圖像對。圖像的原始分辨率為1 024×768,當需要時,圖像被雙三次下采樣到所需的分辨率。研究人員將數(shù)據(jù)集分割為訓練集與測試集,其中訓練集包含11 647對數(shù)據(jù),測試集包含2 032對數(shù)據(jù)。
2.2 評價指標
本文使用Learned Perceptual Image Patch Similarity(LPIPS)[9]、Fréchet Inception Distance(FID)[10]、StructuralSimilarity Index Measure(SSIM)[11]衡量生成圖像的視覺質量。其中:LPIPS專注于圖像的紋理和細節(jié),而不僅僅是像素級別的差異;FID用來比較一組生成的試衣圖像與一組真實圖像的統(tǒng)計分布差異;SSIM是一種評估兩張圖像視覺相似度的指標,它考慮了亮度、對比度和結構3個維度。
2.3 實驗結果
2.3.1 直觀對比
本文實驗采用HR-VITON虛擬試衣方法所帶的數(shù)據(jù)集VITON-HD Dataset。本文將虛擬試衣結果與4種經(jīng)典虛擬試衣結果進行視覺直觀對比,對比結果如圖5所示。在圖5中,從左到右分別為模特/目標服裝圖、CP-VTON虛擬試衣效果圖、PF-AFN虛擬試衣效果圖、VITON-HD虛擬試衣效果圖、HR-VITON虛擬試衣效果圖、本文虛擬試衣效果圖、細節(jié)放大效果圖。從圖5中可以看出,本文方法可以更細致地捕捉和渲染復雜的紋理細節(jié),確保圖案的精準對齊,同時保持色彩鮮明、自然。通過對比實驗可以觀察到,在保留原始服裝設計元素的基礎上,所生成的圖像視覺效果更逼真,其紋理更豐富,顏色過渡更平滑。無論是在微觀紋理還是宏觀整體視覺上,該方法都優(yōu)于其他對比方法。
2.3.2 定量對比
二維試衣定量評價結果見表1。從表1中可以看出,添加高效通道注意力模塊和增加判別器后,圖像感知相似度LPIPS降低了0.004,F(xiàn)ID 降低了0.44,結構相似度SSIM 降低了0.005,訓練時間減少了130 min。以上數(shù)據(jù)表明本文方法生成的圖像在感知質量、統(tǒng)計特性和計算效率方面均得到了提升,但在保持結構相似度方面可能還需要進一步優(yōu)化。
2.3.3 消融實驗
為了進一步驗證高效通道注意力機制與多任務判別器網(wǎng)絡的有效性,本研究設計了消融實驗。選擇HR-VITON模型、加入注意力機制的HR-VITON(+ECA)、構建多任務判別器的HR-VITON(+MTD)和本文方法作為基線模型,在數(shù)據(jù)集上進行迭代訓練生成結果的LPIPS、FID、SSIM。消融實驗定量評價結果如表2所示。
從表2中的數(shù)據(jù)可以看出,加入高效注意力機制后的虛擬試衣網(wǎng)絡的LPIPS降低了0.001、FID降低了0.39、SSIM 提高了0.002;而在構建多任務判別器網(wǎng)絡后,LPIPS 降低了0.003、FID降低了0.27,SSIM 降低了0.006。以上結果說明引入高效注意力機制可以有效提升圖像的整體質量,注意力機制能夠更好地捕捉圖像的關鍵信息,減少冗余和噪聲,從而使輸出圖像更加清晰、逼真;相比之下,構建多任務判別器網(wǎng)絡更注重提高感知質量,即在視覺效果上更接近真實場景。通過多任務學習的方法,網(wǎng)絡可以更好地理解圖像內容,并在保證一定的結構相似性的同時,提高感知質量。然而,該方法的局限性是,為提升感知質量,可能會降低部分結構相似性。
3 結論(Conclusion)
本文提出了一種使用注意力機制增強特征融合的條件構造器,以及設計了一個多任務判別器用于試衣圖像生成。使用注意力機制后,網(wǎng)絡能夠更好地聚焦于衣物和人物的關鍵特征,從而在虛擬試衣中更精確地生成逼真的圖像。同時,多任務判別器的引入,使得網(wǎng)絡能夠同時完成試衣圖像的生成和鑒別任務,進一步提升了虛擬試衣的效果。實驗結果表明,與其他虛擬試衣方法相比,本文方法在視覺質量、定量分析等方面有了顯著提升,有效地解決了虛擬試衣過程中服裝細節(jié)保留不足和復雜紋理表現(xiàn)不佳的問題。在未來的工作中,研究人員計劃對現(xiàn)有的虛擬試衣網(wǎng)絡架構進行改進,不斷豐富虛擬試衣圖像的數(shù)據(jù)庫,以及探索新的技術手段增強虛擬試衣的視覺效果和提升用戶體驗。