中圖分類號(hào):TP391.4;TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)08-0061-05
Abstract: The image conversion of clothing sketches has enormous application value in fields such as visual editing, clothingdesign,ndhuman-computerinteraction.Atpresent,mostofthejectsconvertedfromsetchesarerelatielysimple shaps,suchasfaces,humanpostures,animalpostures,shoes,andbags.Theworkbasedosketchconversionisdifultto handle images withcomplex texturestructures,makingitchallnging tosolve thetask ofimageconversionforclothing sketches. To solve this problem,anapplicationresearchonsketch toclothing image conversion is proposed basedontheabove work. Through the reverse generation of clothing simulation sketches using the -Net network model, theconstructionof the clothing sketch datasetiscompleted.Then,theimprovedBicycleGANnetwork isusedfortrainingtoachieve sketchconversion.Finally theexperimentaleffectsbeforeandaftertheimprovementarecompared.Theexperimentshowsthat theimprovedBicycleGAN network modelhassignificantimprovementcomparedtobefore,andwiththeimprovednetwork proposed inthis paper,thetask ofconverting clothing sketches to real clothing images can be effectively completed.
Keywords: image conversion; clothing sketch; Generative Adversarial Networks
0 引言
目前草圖圖像轉(zhuǎn)換的對(duì)象為人臉、人體姿態(tài)、動(dòng)物姿態(tài)等較為簡(jiǎn)單的線條,但以線條較為復(fù)雜的服裝圖像作為圖像轉(zhuǎn)換對(duì)象的應(yīng)用比較罕見(jiàn)。因此,本文就這個(gè)問(wèn)題展開(kāi)實(shí)驗(yàn)研究。簡(jiǎn)而言之,通過(guò)手繪服裝草圖,利用計(jì)算機(jī)圖像處理生成與之對(duì)應(yīng)的真實(shí)服裝圖像,該方法在視覺(jué)編輯、服裝設(shè)計(jì)、人機(jī)交互等領(lǐng)域極具應(yīng)用價(jià)值。
早期的關(guān)于草圖圖像的研究主要在草圖檢索和草圖識(shí)別領(lǐng)域上[1-2]。草圖檢索是指通過(guò)草圖找到對(duì)應(yīng)的圖像。草圖識(shí)別是指輸入草圖,識(shí)別其類別或檢測(cè)其中的特定對(duì)象。而Isola等人基于條件生成的對(duì)抗網(wǎng)絡(luò)(ConditionalGANs)則提出了一個(gè)統(tǒng)一的框架pix2pix,該框架將能將一種類型的圖片轉(zhuǎn)換成另一種類型[3]。在他們的實(shí)驗(yàn)中,實(shí)現(xiàn)了將鞋子和皮包等草圖轉(zhuǎn)換成對(duì)應(yīng)真實(shí)圖像的功能。然而pix2pix網(wǎng)絡(luò)模型最大的缺點(diǎn)就是輸入一張草圖只能輸出一張對(duì)應(yīng)的圖像,生成的結(jié)果十分單一,為了增加多樣性,Zhu等人提出BicycleGAN,它可以實(shí)現(xiàn)一對(duì)多映射的圖像轉(zhuǎn)換任務(wù),但其圖像轉(zhuǎn)換任務(wù)的對(duì)象仍是鞋子和皮包[4]?;贐icycleGAN的思路,本文提出一種研究方案:首先將原BicycleGAN中的訓(xùn)練圖片替換成線條更加錯(cuò)綜復(fù)雜的服裝真實(shí)圖片和其對(duì)應(yīng)的草圖來(lái)作為訓(xùn)練目標(biāo),然后對(duì)BicycleGAN的生成器進(jìn)行改進(jìn),利用改進(jìn)后的BicycleGAN訓(xùn)練模型進(jìn)行測(cè)試,最后通過(guò)實(shí)驗(yàn)結(jié)果的對(duì)比來(lái)說(shuō)明兩個(gè)結(jié)論,1)改進(jìn)后的BicycleGAN比原模型有較大的提升。2)以服裝草圖為對(duì)象的圖像轉(zhuǎn)換任務(wù)能達(dá)到比較好的應(yīng)用效果。
基于生成對(duì)抗網(wǎng)絡(luò)的圖像轉(zhuǎn)換應(yīng)用需要提供大量的訓(xùn)練樣本[5],而現(xiàn)有的圖像數(shù)據(jù)集不能滿足要求。因此,在現(xiàn)階段數(shù)據(jù)集缺乏的情況下,本文提出利用邊緣檢測(cè)算法[來(lái)構(gòu)建數(shù)據(jù)集的方法:利用邊緣檢測(cè)算法對(duì)服裝圖像進(jìn)行處理,生成對(duì)應(yīng)的服裝模擬草圖,這樣就形成了一一對(duì)應(yīng)的服裝草圖和服裝圖像,可用于配對(duì)進(jìn)行訓(xùn)練。
1構(gòu)建服裝數(shù)據(jù)集
生成對(duì)抗網(wǎng)絡(luò)需要大量的數(shù)據(jù)集用于訓(xùn)練模型,本文提出通過(guò) -Net將真實(shí)的服裝圖像逆向生成其對(duì)應(yīng)的服裝模擬草圖,從而構(gòu)建數(shù)據(jù)集。
1.1服裝圖像的標(biāo)準(zhǔn)與篩選
標(biāo)準(zhǔn):1)服裝圖像不能有其他的干擾物,如人物、動(dòng)物、雜物等,不能與圖像中的服裝一起出現(xiàn)。2)圖像展示的服裝應(yīng)整潔居中平整,無(wú)褶皺。3)圖像背景除服飾外,應(yīng)為全白色。
篩選:在網(wǎng)絡(luò)上通過(guò)上述標(biāo)準(zhǔn)搜索在服裝網(wǎng)頁(yè)上通過(guò)網(wǎng)絡(luò)爬蟲(chóng)的方式抓取數(shù)據(jù)信息得到2萬(wàn)多張上衣服裝圖像。
1.2 網(wǎng)絡(luò)模型逆向生成服裝模擬草圖
本文采用 -Net邊緣檢測(cè)算法來(lái)逆向生成一一對(duì)應(yīng)關(guān)系的服裝模擬草圖。Qin等人提出的
是一種嵌套的雙層U-Net結(jié)構(gòu),其特殊的結(jié)構(gòu)使得在檢測(cè)圖像邊緣有著很好的識(shí)別效果,他可以將一張圖像精準(zhǔn)的剝離出其邊緣。因此本文的數(shù)據(jù)集工作使用
-Net邊緣檢測(cè)算法來(lái)逆向生成服裝模擬草圖。用之前得到的2萬(wàn)余張圖像,通過(guò)
-Net邊緣檢測(cè)算法得到服裝模擬草圖,經(jīng)過(guò)三輪篩選剔除效果不好的,最后得到5000張一一對(duì)應(yīng)的服裝模擬草圖,其生成效果效果如圖1所示,最后將得到的草圖與原圖像進(jìn)行一一配對(duì),又因BicycleGAN網(wǎng)絡(luò)模型的訓(xùn)練要求,將圖像全部調(diào)整為 2 5 6 × 2 5 6 的尺寸,將其中的4500張作為本次實(shí)驗(yàn)的訓(xùn)練集,500張作為本次實(shí)驗(yàn)的測(cè)試集,至此本文的服裝草圖數(shù)據(jù)集構(gòu)建完成。
2 實(shí)驗(yàn)?zāi)P偷慕榻B
本文的實(shí)驗(yàn)是以BicycleGAN網(wǎng)絡(luò)模型為基礎(chǔ),在其生成器上做了改進(jìn),在其原本的生成器U-Net網(wǎng)絡(luò)結(jié)構(gòu)上添加了自注意力機(jī)制的模塊,使其生成的圖像比原模型更加清晰。
2.1 BicycleGAN模型
以草圖生成真實(shí)圖像為例,圖像轉(zhuǎn)換任務(wù)大多都是一對(duì)一的映射,這樣缺乏多樣性的圖像轉(zhuǎn)換顯然無(wú)法滿足實(shí)際應(yīng)用的需求。在這樣的背景下,Zhu等人提出BicycleGAN網(wǎng)絡(luò)模型,其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖(a)表示cVAE-GAN模型,它從前一個(gè)真實(shí)圖像b開(kāi)始,它將編碼到潛層空間。生成器隨后將輸入圖像A和采樣的 z (這個(gè) z 是從編碼結(jié)果中采樣的,而不是噪聲正態(tài)分布中采樣的)映射回原始圖像 b 。圖(b)表示cLR-GAN模型,它隨機(jī)地從一個(gè)已知分布中采樣潛層編碼 z ,并將它和輸入圖像 A 一起映射到輸出圖像 B ,隨后從輸出中采樣潛層編碼。
在圖像轉(zhuǎn)換領(lǐng)域中,BicycleGAN最大的特點(diǎn)就是實(shí)現(xiàn)了圖像轉(zhuǎn)換之間的多映射任務(wù),輸入一張草圖,可以輸出基于輸入的多張結(jié)果圖像。
2.2自注意力機(jī)制模塊
注意力機(jī)制模塊在生成對(duì)抗網(wǎng)絡(luò)中的應(yīng)用日益廣泛[8],其主要的作用在于可以增強(qiáng)局部圖像的處理能力,通過(guò)特殊的結(jié)構(gòu),使圖像在被處理時(shí),可以聚焦于人們想關(guān)注的信息,而忽略人們不想關(guān)注的信息,在提高圖像處理效率的同時(shí),也極大地提升了圖像處理重點(diǎn)信息的能力。而自注意力機(jī)制模塊則是在注意力機(jī)制模塊的基礎(chǔ)上發(fā)展而來(lái)[],相比注意力機(jī)制模塊,自注意力機(jī)制模塊可以加強(qiáng)內(nèi)部的聯(lián)系,忽略更多的外部信息,同時(shí)加強(qiáng)對(duì)重點(diǎn)內(nèi)部信息的處理。
AttentionU-Net[網(wǎng)絡(luò)結(jié)構(gòu)就是采用了自注意力機(jī)制模塊,其核心部分的自注意力機(jī)制模塊被嵌入到作為生成器的U-Net網(wǎng)絡(luò)結(jié)構(gòu)中,從而大大提升生成器的圖像處理能力。以本文實(shí)驗(yàn)為例,它可以提升處理服裝線條和紋理的效率和能力,忽略不重要的信息例如圖像的噪聲和圖像的空白區(qū)域。
2.3改進(jìn)后的生成器結(jié)構(gòu)
BicycleGAN的生成器是U-Net網(wǎng)絡(luò)結(jié)構(gòu),本文對(duì)BicycleGAN的生成器進(jìn)行改進(jìn),其方案是對(duì)原來(lái)的U-Net網(wǎng)絡(luò)結(jié)構(gòu)插入自注意力機(jī)制模塊,使其生成器改進(jìn)為AttentionU-Net網(wǎng)絡(luò)結(jié)構(gòu)。生成器的主要結(jié)構(gòu)如圖3所示。
( 3 × 3 C o n v ,BN,ReLU)表示用 3 × 3 卷積核對(duì)圖像進(jìn)行處理,再進(jìn)行批量歸一化的處理,最后使用ReLU激活函數(shù)以得到處理后的圖像特征圖。此過(guò)程中,步長(zhǎng) s 為1,圖像的填充padding為1。Maxpool表示對(duì)圖像進(jìn)行一次下采樣,使圖像的長(zhǎng)和寬都減少一半,大小變成原圖的1/4。AttentionBlock表示自注意力機(jī)制模塊。UpSampling, 3 × 3 C o n v 表示對(duì)圖像進(jìn)行反卷積的上采樣,使圖像的長(zhǎng)和寬都放大一倍,大小變成原圖像的4倍。 1 × 1 C o n v 表示圖像經(jīng)過(guò)一個(gè) 1 × 1 的卷積核,這里的目的主要是改變圖像的通道數(shù),使圖像恢復(fù)3個(gè)通道以達(dá)到輸入圖像保持一致。
3 實(shí)驗(yàn)及結(jié)果分析
3.1 實(shí)驗(yàn)設(shè)置
本文的實(shí)驗(yàn)條件和環(huán)境是依據(jù)BicycleGAN網(wǎng)絡(luò)模型給出的要求來(lái)設(shè)置的,在單GPU的服務(wù)器上訓(xùn)
練測(cè)試。
本文將服裝上衣作為實(shí)驗(yàn)對(duì)象,依據(jù)之前的方法構(gòu)建了服裝上衣數(shù)據(jù)集,最終獲得了5000對(duì)有效的配對(duì)圖像。將所有圖像調(diào)整為 2 5 6 × 2 5 6 的尺寸,然后選取4500對(duì)作為本次實(shí)驗(yàn)的訓(xùn)練數(shù)據(jù)集,500對(duì)作為測(cè)試數(shù)據(jù)集。
3.2 評(píng)價(jià)指標(biāo)
本文主要使用MAE(MeanAbsoluteErrorLoss-平均絕對(duì)誤差)、MSE(Mean Squared ErrorLoss-平均均方誤差)和VGG_loss(perceptual loss-感知損失)三種損失函數(shù)來(lái)評(píng)估實(shí)驗(yàn)結(jié)果的損失,用SSIM(structuralsimilarity-結(jié)構(gòu)相似性)和PSNR(PeakSignaltoNoiseRatio-峰值信噪比)來(lái)評(píng)估實(shí)驗(yàn)結(jié)果的圖像質(zhì)量。用FID (Frechet InceptionDistance score)和LPIPS值來(lái)評(píng)估生成圖片的質(zhì)量和多樣性,其中較低的FID值意味著圖像生成質(zhì)量更好,較高的LPIPS值意味著圖像生成的多樣性更高。
3.3實(shí)驗(yàn)結(jié)果及對(duì)比分析
兩個(gè)模型各會(huì)隨機(jī)生成十張樣式各異的圖像,這里各取三張來(lái)說(shuō)明效果。實(shí)驗(yàn)結(jié)果如表1所示。
為了更加客觀的對(duì)比BicycleGAN與改進(jìn)后BicycleGAN的差異,本文通過(guò)500張測(cè)試集對(duì)其結(jié)果進(jìn)行上述指標(biāo)的檢測(cè),而對(duì)于LPIPS值來(lái)說(shuō),因測(cè)試集500張的圖像的數(shù)據(jù)過(guò)大,本文隨機(jī)選取了50張進(jìn)行計(jì)算其LPIPS值。實(shí)驗(yàn)結(jié)果如表2所示,可以看出改進(jìn)后BicycleGAN的三項(xiàng)損失結(jié)果總體要低于未改進(jìn)的BicycleGAN,而SSIM和PSNR的指標(biāo)總體要高于未改進(jìn)的BicycleGAN。這在一定程度上表明改進(jìn)后BicycleGAN的轉(zhuǎn)換圖像丟失的損失更少且生成效果與質(zhì)量更佳。而在FID值和LPIPS值上,改進(jìn)后BicycleGAN的FID值要低于未改進(jìn)的BicycleGAN,改進(jìn)后BicycleGAN的LPIPS值要高于未改進(jìn)的BicycleGAN,這在一定程度上表明BicycleGAN轉(zhuǎn)換圖像的質(zhì)量更佳且多樣性更豐富。
4結(jié)論
目前已有的基于邊緣線條轉(zhuǎn)換真實(shí)圖像的研究中大多是以人臉、動(dòng)物的臉、人體姿態(tài)、動(dòng)物姿態(tài)、包包和鞋子等比較簡(jiǎn)單線條的圖案作為對(duì)象,因?yàn)榉b特性有著巨大的應(yīng)用價(jià)值,本文提出用較為復(fù)雜的上衣服裝作為對(duì)象進(jìn)行圖像轉(zhuǎn)換的任務(wù),并且提出通過(guò)邊緣檢測(cè)算法 -Net對(duì)服裝圖像逆向生成模擬草圖的方法來(lái)構(gòu)建數(shù)據(jù)集,模擬草圖具有線條清晰、擬合原圖、清晰度高的特點(diǎn)。實(shí)驗(yàn)表明:1)改進(jìn)后的BicycleGAN網(wǎng)絡(luò)模型比原模型在圖像清晰度、多樣性上都有比較大的提升;2)對(duì)服裝數(shù)據(jù)集進(jìn)行訓(xùn)練測(cè)試可達(dá)到可視性比較好的效果,雖然服裝草圖線條較簡(jiǎn)單的草圖更復(fù)雜一些,但是服裝草圖到真實(shí)服裝圖像轉(zhuǎn)換仍有可實(shí)現(xiàn)性,并且有比較好的清晰度和多樣性,可達(dá)到應(yīng)用水平。3)采用
-Net邊緣檢測(cè)算法生成模擬草圖數(shù)據(jù)的方法有望在數(shù)據(jù)集擴(kuò)充、幼兒教育、服裝設(shè)計(jì)、藝術(shù)創(chuàng)造等方面產(chǎn)生更多的應(yīng)用。
參考文獻(xiàn):
[1]陳健.基于手繪草圖的圖像檢索研究[D].杭州:浙江工業(yè)大學(xué),2020.
[2]楊金凱,王國(guó)中,范濤.基于神經(jīng)網(wǎng)絡(luò)的手繪草圖的識(shí)別與匹配[J].智能計(jì)算機(jī)與應(yīng)用,2021,11(6):148-152.
[3] ISOLAP,ZHUJY,ZHOU T,et al. Image-to-ImageTranslation with Conditional Adversarial Networks[C]//2017IEEEConference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:1125-1134.
[4]ZHUJY,ZHANGR,PATHAKD,etal.TowardMultimodal Image-to-Image Translation[J].Advancesin NeuralInformation Processing Systems,2017,30:465-476.
[5]李林,王家華,周晨陽(yáng),等.標(biāo)檢測(cè)數(shù)據(jù)集研究綜述[J].數(shù)據(jù)與計(jì)算發(fā)展前沿:中英文,2024,6(2):177-193.
[6]李翠錦,瞿中.基于深度學(xué)習(xí)的圖像邊緣檢測(cè)算法綜述[J].計(jì)算機(jī)應(yīng)用,2020,40(11):3280-3288.
[7] QIN X,ZHANG Z,HUANG C,et al. U2-Net: GoingDeeperwith Nested U-Structure for Salient ObjectDetection [J/OL].Pattern Recognition,2020,106:107404[2024-09-03].https://doi.org/10.1016/j.patcog.2020.107404.
[8]任歡,王旭光.注意力機(jī)制綜述[J].計(jì)算機(jī)應(yīng)用,2021,41(S1):1-6.