王偉珍 張功
摘 要:為解決復雜背景下服裝圖像的風格遷移形式單一和局部細節(jié)失真問題,提出一種基于CycleGAN的服裝圖像混搭風格遷移的方法,用于實現(xiàn)服裝款式和圖案的多風格遷移。通過加入分割掩碼,一方面,對特定區(qū)域的風格化形成空間約束,在判別器中加入譜歸一化和引入背景優(yōu)化損失保留了局部細節(jié)的真實度,實現(xiàn)服裝風格款式的風格遷移;另一方面,提出圖像融合的方式,將圖案融入判別器輸出的服裝圖像中,實現(xiàn)多風格遷移。最后,通過與CycleGAN和InstaGAN比較,依據(jù)生成圖像的效果進行主觀分析,使用圖像質(zhì)量評估指標IS和SSIM進行客觀評估以驗證該方法的有效性。
關鍵詞:混搭風格遷移;生成對抗網(wǎng)絡;服裝款式;服裝圖案;智能設計;服裝設計
中圖分類號:TS941.26
文獻標志碼:A
文章編號:1009-265X(2023)04-0250-09
收稿日期:2022-11-11
網(wǎng)絡出版日期:2023-02-21
基金項目:教育部社科規(guī)劃基金項目(21YJAZH088);遼寧省教育廳高?;究蒲兄攸c攻關項目(LJKZZ20220069);教育部產(chǎn)學協(xié)同育人項目(220404211305120); 遼寧省教育廳項目(1010152); 中國紡織工業(yè)聯(lián)合會項目(2021BKJGLX321)
作者簡介:張功(1995—),男,山東滕州人,碩士研究生,主要從事服裝圖像處理方面的研究。
通信作者:王偉珍,E-mail:wz-wang@foxmail.com
應用計算機程序輔助服裝設計師進行創(chuàng)作,已成為服裝設計過程中不可或缺的技術(shù)手段。隨著消費者對個性化需求的提高,服裝設計師需要更短的時間設計出更加新穎的作品。此外由于深度學習[1]的興起,人工智能與服裝設計的融合變得尤為迫切。盡管人工智能相關技術(shù)在時尚領域研究的應用逐步深入,如服裝分類、服裝檢測、服裝推薦以及虛擬試穿等[2],但是針對當前服裝輔助智能設計的研究,服裝圖像的風格遷移仍然困囿于諸多技術(shù)問題。例如,服裝圖像只能完成單一形式(圖案或者款式)的風格遷移,導致生成服裝圖像的多樣性不足,設計師仍需要耗時耗力地對比不同款式和圖案的搭配效果;生成的服裝圖像存在著邊界偽影問題,降低了服裝圖像的質(zhì)量[3-5]。因此,如何利用現(xiàn)有技術(shù)在短時間內(nèi)對服裝圖像添加多種風格,生成風格多樣、效果真實的服裝圖像,給予設計師更多設計靈感,正是其中技術(shù)痛點之一。
目前,風格遷移已成為解決上述技術(shù)痛點的著力點之一。服裝風格遷移是將一張圖像A的風格和另一張服裝圖像B的內(nèi)容結(jié)合,生成同時具有圖像A風格和圖像B內(nèi)容的服裝圖像C。一種比較前沿的SC-FashionG模型于2021年被提出,該模型將多種樣式混合于給定的服裝圖像中,并把這種組合稱為混搭風格(Mix and match style)[6]。在以往的研究中,人們提出許多方法[7-9]實現(xiàn)風格遷移并將其應用于服裝圖像的生成,主要集中于基于圖像迭代的神經(jīng)風格遷移算法和基于模型迭代的生成對抗網(wǎng)絡(Generative adversarial networks,GAN)模型。
為解決不同風格對圖像語義內(nèi)容渲染困難的問題,Gatys等[10]提出了一種基于VGG(Visual geometry group)的卷積神經(jīng)網(wǎng)絡結(jié)構(gòu),創(chuàng)新地將一種內(nèi)容圖像和風格圖像結(jié)合在一起。此后,有學者使用該方法并結(jié)合圖像分割實現(xiàn)服裝局部風格遷移[11],但是服裝邊界容易產(chǎn)生偽影,使生成的圖像顯得不自然。Li等[12]提出一種基于WCT(Whitening and coloring transform)的方法。通過白化原有風格并彩化新風格,有效的提高了圖像生成的質(zhì)量和藝術(shù)效果,并嘗試了多風格遷移,但是應用于服裝中只能改變圖案紋理風格,無法改變款式。
為了使生成數(shù)據(jù)分布盡可能的逼近真實數(shù)據(jù)分布,Goodfellow等[13]提出GAN模型。由于在生成圖像和應用在服裝設計過程中展現(xiàn)出良好的效率和質(zhì)量,很多研究者將注意力轉(zhuǎn)移至GAN模型來實現(xiàn)服裝風格遷移。Isola等[14]通過向GAN引入約束條件,提出pix2pix來進行圖像轉(zhuǎn)換,該方法雖然生成圖像的效果自然,但是需要成對的數(shù)據(jù)集訓練。為了解決對數(shù)據(jù)集依賴的問題,Zhu等[15]提出CycleGAN在無配對數(shù)據(jù)集情況下實現(xiàn)了兩域之間互相轉(zhuǎn)換,但是生成的圖像缺乏多樣性,很難改變服裝的形狀,并且會改變內(nèi)容域中的背景。為克服無監(jiān)督學習中形狀轉(zhuǎn)換難以完成的風格遷移問題,Mo等[16]結(jié)合實例信息,引入了上下文保留損失,提出InstaGAN實現(xiàn)了服裝款式的轉(zhuǎn)換,但是在生成圖像中局部細節(jié)會出現(xiàn)失真,如腿部皮膚顯得不自然。Jiang等[6]提出將多種風格混搭在一個服裝圖像中,通過分割掩碼改變服裝中圖案的結(jié)構(gòu),生成的服裝圖像頗為新穎,但是該方法也僅改變服裝中圖案并且沒有人物背景作為參考。
上述方法主要局限包括:單一風格遷移的研究(僅對圖案或者服裝款式進行風格遷移),極大地限制了生成服裝圖像的多樣性;在帶有背景的服裝圖像中,容易產(chǎn)生圖像局部細節(jié)失真的問題。為了克服上述兩大缺陷,降低自動生成多風格服裝圖像的難度,本文基于CycleGAN的結(jié)構(gòu)提出一種服裝圖像的混搭風格遷移方法。與以往生成單一風格形式的模型相比,有三點不同:首先本文提出混搭風格遷移,即關注于服裝款式和服裝圖案的多風格遷移;其次,改進了CycleGAN網(wǎng)絡結(jié)構(gòu)用于多風格圖像的生成;最后,加入了背景優(yōu)化損失,結(jié)合引入的服裝圖像二值圖,提升生成圖像的質(zhì)量。另外,通過使用圖像評估指標IS(Iception Score)[17]和SSIM(Structural similarity)[18]對CycleGAN和InstaGAN進行比較,并結(jié)合生成的圖像效果進行主客觀分析,以驗證本文方法的有效性。
1 相關理論
GAN和CycleGAN都是通過生成器和判別器互相博弈來生成圖像,即通過建立生成器G和判別器D互相博弈來使雙方進化。其兩者關系如式(1):
minGmaxDLGAN(G,D)=Ex~Pdata(x)logD(x)+
Ez~Pdata(z)log(1-D(G(z)))(1)
式中:z為生成器產(chǎn)生的噪聲數(shù)據(jù),服從Pdata(z)的先驗分布;x代表真實數(shù)據(jù),x服從真實樣本分布Pdata(x)。當D(x)越大,判別器越能夠準確識別出真實樣本;當D(G(z))越小,則1-D(G(z))越大,判別器也能增強判別能力,若固定判別器,增強生成器生成能力,判別器會將假數(shù)據(jù)判別為真,即D(G(z))增大,所以有minGmaxDLGAN(G,D)。
這種方法雖然能夠生成較為逼真的圖像,但是難以保證在風格遷移中生成圖像的有效性,即無法限定生成圖像的范圍,保證圖像的內(nèi)容不發(fā)生變化。相較GAN模型,CycleGAN有兩大優(yōu)勢,一方面,CycleGAN包含兩個生成器(G和F)和兩個判別器(Dx和Dy),通過對偶學習[19]方法建立不同域之間的聯(lián)系,因此CycleGAN的訓練數(shù)據(jù)集不需要成對;另一方面,建立了循環(huán)一致性損失,如式(2):
Lcyc(G,F(xiàn))=Ex~Pdata(x)F(G(x))-x)1+
Ey~Pdata(y)G(F(y))-y1(2)
式中:F(G(x))為生成的重構(gòu)圖像,與x相似,下標1為L1范數(shù)。F(G(x))重構(gòu)了源域的圖像減少與源域圖像的差距,來彌補了使用GAN風格遷移過程中內(nèi)容發(fā)生變化的缺陷。加入L1范數(shù)防止過擬合出現(xiàn)。
因此,CycleGAN的總損失函數(shù)為對抗性損失和循環(huán)一致性損失之和,如式(3):
LossGAN=LGAN(G,Dx)+LGAN(F,Dy)+ωLcyc(G,F(xiàn))(3)
式中:ω為權(quán)值,用于調(diào)節(jié)該損失的重要性。
2 本文方法
為實現(xiàn)服裝圖像的混搭風格遷移,利用CycleGAN不需要成對訓練數(shù)據(jù)集和風格遷移效果好的優(yōu)勢,本研究通過結(jié)合分割掩碼改進CycleGAN網(wǎng)絡結(jié)構(gòu)和損失函數(shù),完成服裝圖像中下裝的幾何變換。同時,為了將圖案更好地融入服裝局部,提出圖案融合的方法,增強圖像真實感而非藝術(shù)效果,對服裝圖像分割后獲得的分割掩碼與圖案按照一定權(quán)值融合。
2.1 網(wǎng)絡結(jié)構(gòu)
本文的模型框架如圖1所示,He等[20]提出的Resnet和林泓等[21]使用的PatchGAN分別作為生成器和判別器。其中,生成器和判別器各有兩個,分別用GA2B、GB2A、DA和DB表示。GA2B是將內(nèi)容域A(長褲)中的風格生成具有風格域A中的風格(裙子)的服裝圖像,并使用DB判斷GA2B生成圖像的真假,若為真,則輸出具有風格域A風格以及具有內(nèi)容域A內(nèi)容的圖像(生成圖像B)。同理,GB2A是將風格域A(裙子)中的風格轉(zhuǎn)換為內(nèi)容域A(長褲)中的風格,并使用DA判斷GB2A生成圖像的真假,若為真,則輸出具有內(nèi)容域A的風格以及具有風格域A內(nèi)容的服裝圖像(生成圖像A)。同時,輸入圖像與重構(gòu)圖像通過訓練會盡可能相似,體現(xiàn)CycleGAN中循環(huán)一致性。
本文的Resnet生成器由下采樣塊、殘差塊和上采樣塊組成,如圖2所示。在下采樣塊中,使用實例歸一化(IN)在一個通道內(nèi)作歸一化,計算圖像的H*W的均值,保持了圖像實例的獨立性,加快了模型的收斂。ReLU作為激活函數(shù),降低計算的復雜度,加快計算速度。同時,為了達到更好的訓練效果,Resnet殘差塊設置了9層,保留了卷積層、實例歸一化和激活層。此后,通過上采樣塊中逆卷積層減少通道數(shù)來擴大圖像尺寸,用于生成目標(如裙裝)圖像。為了得到更好地生成效果,模型的PatchGAN判別器由5層卷積層組成,如圖3所示。與CycleGAN不同的是,為了規(guī)范判別器參數(shù),讓其滿足利普茨連續(xù)(1-Lipschitz continuity),卷積層本文在首尾卷積層中采用了譜歸一化(SpectralNorm)[22]。此外,使用前3層卷積層提取特征后,后2層卷積層再進行分類,獲得了較好的生成效果。
2.2 損失函數(shù)的設計
上述的損失函數(shù)雖然能夠?qū)崿F(xiàn)跨類別的圖像翻譯,尤其是紋理的風格遷移,但在幾何變換和細節(jié)處理方面表現(xiàn)不佳。本研究更加關注圖像轉(zhuǎn)換過程中的上下文銜接,服裝款式(即形狀)的風格遷移效果和生成圖像中人物背景的肢體的真實感。為此,加入了背景優(yōu)化損失Lback,如式(4):
Lback=ω2 f(a,b′)⊙(x-y′)1+
ω3N∑Nn=1∑3c=1(G(x)-x)-(y-F(y))1(4)
式中:
x代表內(nèi)容域圖像,a代表內(nèi)容域掩碼選中區(qū)域,
y′代表內(nèi)容域圖像轉(zhuǎn)換后的圖像,
b′代表內(nèi)容域被轉(zhuǎn)換后的掩碼迭中區(qū)域,ω2和ω3分別作為調(diào)整內(nèi)容保留和膚色顯示的權(quán)重,N代表轉(zhuǎn)換區(qū)域內(nèi)的像素數(shù),c為通道數(shù)。設實例為0,背景為1時,則f=a∪b為可轉(zhuǎn)換狀態(tài),實現(xiàn)了實例的轉(zhuǎn)換和背景的保留。由于邊緣區(qū)域的細節(jié)要比中心區(qū)域復雜,ω2的權(quán)重值由中心向邊緣逐漸增加。此外,為了彌補轉(zhuǎn)換過程中轉(zhuǎn)換區(qū)域形狀紋理會發(fā)生的差異性變化,如長褲轉(zhuǎn)換為短褲后,腿部存在仍然保留著部分長褲紋理的問題。本研究將生成器G生成的圖像(如短褲風格圖像)和內(nèi)容域x(如長褲風格圖像)的差異值與風格域(如短褲風格圖像)和生成器F(如生成的長褲風格圖像)的差異值作差,通過訓練不斷縮小差距,使人物腿部細節(jié)更加真實。其中,ω3為超參數(shù)。
因此,本文所提方法的總損失為式(5):
Ltotal=γ1LLSGAN+γ2Lcyc+γ3Lback(5)
式中:γi(i=1~3)為超參數(shù)。
盡管在風格遷移中,尤其是藝術(shù)領域,大部分使用神經(jīng)網(wǎng)絡來完成,并獲得了較好的藝術(shù)風格圖像。但是對于服裝的圖案紋理遷移,使用神經(jīng)網(wǎng)絡來完成并不理想或者說過于藝術(shù),缺乏真實感。然而,本文提出一種圖案融合方式,通過mask將服裝與處理后的圖案按一定比例進行融合,使圖案紋理能夠較好的在服裝中展示,獲得了較為新穎的服裝圖像,如式(6):
Imer=(Iori-t1*Iseg)+t2*Ipat*Imask(6)
式中:Iori為原始的服裝圖像,Iseg為分割后所要融合的服裝局部,Ipat為所要融合的圖案,Imask為所要融合的服裝局部的掩碼,t1為保留原始服裝局部紋理的比例,t2為融合圖案紋理的比例,且t1+t2≈1。
3 結(jié)果與分析
3.1 數(shù)據(jù)集與實驗細節(jié)
本文所使用的數(shù)據(jù)集包含兩部分:服裝協(xié)同數(shù)據(jù)集[23](Clothing co-parsing dataset,CCP)和自建數(shù)據(jù)集。CCP共有2098張高分辨率時尚街頭圖像,所有圖像帶有圖像級注釋,里面有各種款式、配飾、服裝和姿勢,共有59個標簽。自建數(shù)據(jù)集共有3000張圖像。其中,長褲圖像1000張,短褲圖像1000張以及短裙圖像1000張。增加自建數(shù)據(jù)集是對CCP的補充,增加訓練數(shù)據(jù)為了更有針對性地完成服裝款式的轉(zhuǎn)換,獲得更好的風格遷移效果。
實驗環(huán)境與模型訓練:CUDA 11.3,cuDNN 8,Ubuntu 18.04系統(tǒng),Pytorch 1.10深度學習框架,Python 3.8程序語言,NVIDIA GeForce RTX 3090顯存24 GB的顯卡。共訓練了500輪,訓練過程中損失的變化如圖4所示。由于在訓練200輪次后損失下降幅度減小甚至難以繼續(xù)下降,因此,選擇了200輪次的預訓練模型進行測試。
3.2 實驗細節(jié)
本文主要針對服裝圖像進行款式和圖案紋理的風格遷移。在實驗中,一方面將風格域A中的服裝樣式(短褲或者裙子)遷移至內(nèi)容域的下裝,并將風格域B的圖案紋理遷移至內(nèi)容域的上裝;另一方面通過選擇有人物背景的作為內(nèi)容域,在風格遷移后,通過人物背景作為參考,可以更加直觀展示風格遷移效果,如不同圖案款式對不同人群搭配的適應性。
如圖5(a)所示,前兩行展示的是將內(nèi)容域中長褲的形狀轉(zhuǎn)換為與風格域A中短褲相似的樣式。同理,后面兩行圖像是將長褲轉(zhuǎn)換為裙子,并將風格域中的圖案紋理分別融合在上裝和下裝中。不管是樣式形狀遷移還是圖案紋理遷移,都獲得了較好的生成效果。值得注意的是,轉(zhuǎn)換所生成的裙子的色彩與風格域A無關,與輸入的內(nèi)容域有關,如內(nèi)容域中服裝色彩較深的往往轉(zhuǎn)換為顏色較深的服裝款式。風格域A所展示的圖像僅僅只是一種樣式(如裙子的樣式)的代表,并非單個樣式形狀遷移。此外,在完成款式風格遷移后還可將對上裝和下裝同時進行圖案的風格遷移,由圖5(b)可見,將風格A、風格B和風格C的3種風格混搭在同一張服裝圖像中,生成了效果真實、新穎獨特的服裝圖像。當然,這還需要根據(jù)不同圖案來設置好式(6)中的參數(shù)。
3.3 多模型效果比較與評估
為了驗證本文方法在款式風格遷移的有效性,將本文基于CycleGAN所提的方法與CycleGAN和InstaGAN進行主客觀的比較與分析,包括在相同數(shù)據(jù)集上不同方法生成的圖像效果、圖像生成指標IS和圖像質(zhì)量評估指標SSIM。
a)主觀比較與分析
由圖6所示,從測試效果角度來講,CycleGAN并沒有改變服裝的形狀,而是對服裝的色彩略有影響,InstaGAN明顯改變了服裝的形狀,但是處理其他服裝圖像尤其是淺色服裝時,生成的圖像中服裝
并不清晰,并且生成的人物肢體顯得不自然(如第一行中生成人物的腿部皮膚不夠接近膚色,第三行人物與背景擬合較差)。相比較之下,本文的模型生成的服裝效果更好,更加自然。
b)客觀評價指標分析
衡量風格遷移過程中不同模型生成的質(zhì)量是困難的,缺乏客觀統(tǒng)一標準的評估[24],尤其是設計美學方面,往往帶有主觀性。為了檢驗生成圖像的質(zhì)量和圖像中的多樣性,本文參考了圖像生成的評價指標和其他計算機視覺方面的評價指標,選擇了IS和SSIM分別對CycleGAN、InstaGAN和本文方法進行評估和對比。
IS是對生成圖像的清晰度和多樣性衡量,如式(7):
IS(G)=exp(Ex~PgDKL(p(y|x)p(y)))(7)
式中:對于p(y|x)log(p(y|x)),熵值越小表明數(shù)據(jù)分布越集中,則圖像具有較好的清晰度;對于p(y)log(y),熵值越大,表明圖像種類越多,則生成的圖像具有很好的多樣性。因此,IS分數(shù)為邊緣分布p(y)和條件分布p(y|x)的KL散度的期望,即給定一個生成圖像x,類別信息y的不確定性的減少程度。IS雖然一定程度能夠衡量生成圖像的清晰度和多樣性,但是沒有側(cè)重點。
為了評估的客觀性,本文引入一種衡量兩幅圖像相似度的SSIM指標[25],通過感知的模型,評價圖像質(zhì)量上更加貼近于人類視覺特性。如式(8):
SSIM(x,y)=(2uxuy+c1)(2σxy+c2)(u2x+u2y+c1)(σ2x+σ2y+c2)(8)
式中:x代表風格圖像,y代表生成圖像。ux是x的平均值,σ2x是x的方差,uy是y的平均值,σ2y是y的方差,σxy是x和y的協(xié)方差,c1和c2是兩個用于維持穩(wěn)定的常數(shù),避免出現(xiàn)除零的情況。因此,SSIM越接近1,表明風格圖像與生成圖像越相近[26]。
為了進行更為直觀的對比分析,對IS和SSIM數(shù)據(jù)進行了歸一化。如表1所示,本文模型的IS值和SSIM值都高于其他模型,表明了生成服裝圖像的真實感和多樣性要優(yōu)于其他模型。針對長褲向短褲的款式風格遷移,由IS值可知,CycleGAN雖然難以改變服裝款式,但是在生成圖像清晰度上要比InstaGAN要好,而代表多樣性的SSIM值偏低;針對長褲向短裙的款式風格遷移,雖然SSIM值遠大于CycleGAN和InstaGAN,但是IS值卻與CycleGAN相近,表明本文模型在生成圖像多樣性方面占優(yōu),在轉(zhuǎn)換為裙子款式風格遷移后生成的圖像清晰度還需要提高。
綜上數(shù)據(jù)和視覺效果比較,與前文所述經(jīng)典模型CycleGAN和InstaGAN不同的是,本文模型將服裝款式和圖案共同作用于服裝圖像中,克服服裝圖像風格遷移的單調(diào)性,形成了不同服裝款式和圖案的混搭。此外,本研究受比較前沿的混搭風格模型SC-FashionG啟發(fā),也通過加入分割掩碼形成對服裝局部的空間約束,并將多種風格作用于同一服裝圖像中,但又與該模型有顯著差異:SC-FashionG模型使用了無背景的服裝圖像,而本研究使用的服裝圖像帶有人物背景;SC-FashionG模型使用分割掩碼對服裝內(nèi)部紋理進行改變以實現(xiàn)服裝圖案的多樣性,而本研究使用分割掩碼作用于服裝外部邊緣來改變服裝的款式和圖案以增加生成圖像的多樣性。
4 結(jié) 語
本文提出一種混搭風格遷移的方法,解決了生成服裝圖像風格形式單一以及背景細節(jié)失真的問題,通過主觀比較和客觀評估分析,表明本文方法在多風格遷移任務中的有效性。其中,多風格主要包括了服裝下裝的款式風格和圖案風格。一方面,針對服裝款式的風格遷移,使用了圖像分割掩碼,引導和約束風格遷移對特定區(qū)域風格化,引入背景優(yōu)化損失,用于保留背景和建立腿部膚色相似性,在判別器中加入譜歸一化SN用于特性提取和分類任務中,優(yōu)化背景細節(jié)紋理;另一方面,提出風格融合方式,按照權(quán)值使圖案在服裝中展示出來。最后,通過與CycleGAN和InstaGAN比較分析,本文采用的方法得到了較高的評價。
在此次輔助智能設計的實踐中,雖然獲得了有效的結(jié)果,但也存在著一些不足。如對輸入的內(nèi)容圖像分辨率要求較高,將長褲轉(zhuǎn)換為裙子的成功率相對偏低,后期將繼續(xù)提升模型的泛化能力,并注重生成過程中服裝圖像的情感元素[27],以推進計算思維與設計思維的融合。
參考文獻:
[1]LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553): 436-444.
[2]CHENG W H, SONG S J, CHEN C Y, et al. Fashion meets computer vision: A survey[J]. ACM Computing Surveys, 2022, 54(4): 1-41.
[3]施倩,羅戎蕾.基于生成對抗網(wǎng)絡的服裝圖像生成研究進展[J].現(xiàn)代紡織技術(shù),2022,31(2):36-46.
SHI Qian, LUO Ronglei. Research progress of clothing image generation based on generative adversarial networks[J]. Advanced Textile Technology, 2022,31(2):36-46.
[4]CHEN H, LEI S, ZHANG S G, et al. Man-algorithm cooperation intelligent design of clothing products in multi links[J]. Fibres and Textiles in Eastern Europe, 2022,30(1): 59-66.
[5]趙夢如.人工智能在服裝款式設計領域的應用進展[J].紡織導報,2021(12):74-77.
ZHAO Mengru. Application progress of artificial intelligence in clothing style design[J]. China Textile Leader, 2021(12): 74-77.
[6]JIANG S, LI J, FU Y. Deep learning for fashion style generation[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(9): 4538-4550.
[7]唐稔為,劉啟和,譚浩.神經(jīng)風格遷移模型綜述[J].計算機工程與應用,2021,57(19):32-43.
TANG Renwei, LIU Qihe, TAN Hao. Review of neural style transfer models[J]. Computer Engineering and Applications, 2021, 57(19): 32-44.
[8]JING Y C, YANG Y Z, FENG Z L, et al. Neural style transfer: A review[J]. IEEE Transactions on Visualization and Computer Graphics, 2020, 26(11): 3365-3385.
[9]MO D, ZOU X, WONG W K. Neural stylist: Towards online styling service[J]. Expert Systems with Applications, 2022, 203: 117333.
[10]GATYS L, ECKER A, BETHGE M. A neural algorithm of artistic style[J]. Journal of Vision, 2016, 16(12): 356.
[11]WANG H Y, XIONG H T, CAI Y Y. Image localized style transfer to design clothes based on CNN and interactive segmentation[J]. Computational Intelligence and Neuroscience, 2020, 2020: 8894309.
[12]LI Y J, FANG C, YANG J M, et al. Universal style transfer via feature transforms[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. Long Beach, California, USA. New York: ACM, 2017: 385-395.
[13]GOODFELLOW I, POUGET-ABADIE J, MIRZA M B, et al.Generative adversarial nets[C]//Proceedings of the 27th International Conference on Neural Information Processing Systems:Volume 2. Montreal, Canada. New York: ACM, 2014: 2672-2680.
[14]ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks[C]//IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA. IEEE, 2017: 5967-5976.
[15]ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//IEEE International Conference on Computer Vision (ICCV). Venice, Italy. IEEE, 2017: 2242-2251.
[16]MO S, CHO M, SHIN J. InstaGAN: Instance-aware Image-to-Image Translation[J]. ArXiv, 2018: 1812.10889. https://arxiv.org/abs/1812.10889.
[17]SALIMANS T, GOODFELLOW I, ZAREMBA W, et al. Improved techniques for training GANs[C]//Proceedings of the 30th International Conference on Neural Information Processing Systems. Barcelona, Spain. New York: ACM, 2016: 2234-2242.
[18]WANG Z, BOVIK A C, SHEIKH H R, et al. Image quality assessment: from error visibility to structural similarity[J]. IEEE Transactions on Image Processing: a Publication of the IEEE Signal Processing Society, 2004, 13(4): 600-612.
[19]YI Z, ZHANG H, TAN P, et al.DualGAN: Unsupervised dual learning for image-to-image translation[C]//Proceedings of the IEEE International Conference on Computer Vision(ICCV). Venice, Italy. IEEE, 2017: 2868-2876.
[20]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, NV, USA. IEEE, 2016: 770-778.
[21]林泓,任碩,楊益,等.融合自注意力機制和相對鑒別的無監(jiān)督圖像翻譯[J].自動化學報,2021,47(9):2226-2237.
LIN Hong, REN Shuo, YANG Yi, et al. Unsupervised image-to-image translation with self-attention and relativistic discriminator adversarial networks[J]. ACTA Automatica Sinica, 2021, 47(9): 2226-2237.
[22]GULRAJANI I, AHMED F, ARJOVSKY M, et al. Improved training of wasserstein gans[J]. ArXiv, 2017:1704. 00028. https://arxiv.org/abs/1704.00028.
[23]LIANG X D, LIN L, YANG W, et al. Clothes Co-parsing via joint image segmentation and labeling with application to clothing retrieval[J]. IEEE Transactions on Multimedia, 2016, 18(6): 1175-1186.
[24]陳淮源,張廣馳,陳高,等.基于深度學習的圖像風格遷移研究進展[J].計算機工程與應用,2021,57(11):37-45.
CHEN Huaiyuan, ZHANG Guangchi, CHEN Gao, et al. Research progress of image style transfer based on depth learning[J]. Computer Engineering and Applications, 2021, 57(11): 37-45.
[25]李敏,劉冰清,彭慶龍,等.基于CycleGAN算法的迷彩服裝圖案設計方法研究[J].絲綢,2022,59(8):100-106.
LI Min, LIU Bingqing, PENG Qinglong, et al. A camouflage suit pattern design based on the CycleGAN algorithm[J]. Journal of Silk, 2022, 59(8): 100-106.
[26]曾憲華,陸宇喆,童世玥,等.結(jié)合馬爾科夫場和格拉姆矩陣特征的寫實類圖像風格遷移[J].南京大學學報(自然科學),2021,57(1):1-9.
ZENG Xianhua, LU Yuzhe, TONG Shiyue, et al. Photorealism style transfer combining MRFs-based and gram-based features[J]. Journal of Nanjing University (Natural Science), 2021, 57(1): 1-9.
[27]QUINON P. Engineered emotions[J]. Science, 2017, 358(6364): 729.
Mix and match style transfer for the images of clothes with CycleGAN
WANG Weizhena,b, ZHANG Gonga
(a.School of Fashion; b. Clothing Human Factors and Intelligent Design Research Center, Dalian Polytechnic University, Dalian 116034, China)
Abstract:
With the continuous integration of artificial intelligence (AI) technology and the fashion field, the use of style transfer technology to generate new images has become one of the research hotspots of aided intelligent clothing design. However, the use of current style transfer technology in the process of aided intelligent design still has great limitations. Only completing the transfer of a single style limits the diversity of generated clothing images, and the detail distortion of the clothing image with the character background reduces the authenticity of the generated clothing images.
Aiming at solving the problems of the undiversified transfer form and local detail distortion of clothing image styles in complicated conditions, a method of clothing image mixing and matching style transfer was proposed to realize the multi-style transfer of clothing styles and patterns. During the experiment, we took CycleGAN as the baseline model, with the advantage of improving the effect of style transfer without requiring pairwise training and cyclic consistency loss, used Resnet generator and PatchGAN discriminator for training, and introduced the segmentation mask. On the one hand, spatial constraints were formed for the stylization of specific areas, instance normalization was added to the discriminator to maintain the independence of image instances, spectral normalization was added to the first and last layers of the convolution layer to enhance the classification ability of the network, and background optimization loss was added to optimize the local details of the generated images, especially the boundary artifacts, which jointly promoted the generation effect and realized the style transfer of clothing styles. On the other hand, the method of image fusion was proposed. According to the pattern fusion mapping relationship, the pattern was integrated into the clothing image output by the discriminator to realize the multi-style transfer of clothing styles and patterns. In order to verify the effectiveness of the above method in the multi-style transfer of clothing images, the clothing image design sketches generated in the experiment were compared with the design sketches generated by CycleGAN and InstaGAN models. By subjectively analyzing the style diversity and detail differences of the design sketches, the IS and SSIM were used for quantitative analysis, and the subjective visual effect and objective numerical comparison both showed the advantages of this experimental method in the diversity and the authenticity of image details.
The multi-style transfer of clothing styles and patterns can provide designers with creative inspiration and shorten the time period required for effect presentation, making AI more suitable for assisting clothing design behavior. In subsequent experiments, we will explore the transfer of more types of clothing styles, so as to achieve a diversified and controllable style transfer method. In addition, emotional elements needed for perceptual design should be added in the process of image style transfer, so as to promote the integration of computational thinking and design thinking of future-oriented design paradigm.
Keywords:
mix and match style transfer; generative adversarial network; clothing style; clothing pattern; intelligent design; clothing design