中圖分類號:TS106;TP18 文獻(xiàn)標(biāo)志碼:A 文章編號:1673-3851(2025)07-0556-15
引用格式:,.基于生成對抗網(wǎng)絡(luò)與穩(wěn)定擴(kuò)散模型的花卉絲巾圖案生成方法[J].學(xué)報(bào)(自然科學(xué)),2025,53(4):556-570.
Abstract:With floral scarf patterns as the research objects, this study proposed a dual-stage collaborative generation method combining generative adversarial networks (GANs) and stable diffusion models for rapid scarf pattern generation. First,we constructed an SDXL model-based scarf pattern augmentation workflow,establishing a floral scarf pattern dataset through systematic patern collection, preprocessing,and data augmentation. Subsequently,in the first stage of pattern generation,we improved conventional GANs by integrating both self-atention and border-attention mechanisms into the StyleGAN framework,developing the SAB-StyleGAN model to generate base floral scarf patterns. Finall,in the second stage of pattern generation,we built an image-to-image workflow based on the SDXL model, effectively grafting the detailed rendering capabilities of stable difusion models onto GANs to produce refined floral scarf patterns with enhanced controllability and precision.Experimental results demonstrated that the generated refined floral scarf patterns exhibited superior clarity,achieving an FID value as low as 41.25,which closely resembled authentic designer samples.This method provides an eficient solution for rapid scarf pattern generation, significantly reducing enterprise design costs, enhancing production efficiency,and advancing digital transformation in the fashion industry.
Key words: silk scarf pattern; pattern generation method; generative adversarial networks (GANs); stable diffusion models; image-to-image translation; data augmentation
0引言
絲巾作為一種經(jīng)典的配飾,在時(shí)尚界占據(jù)著重要地位。近年來,隨著全球時(shí)尚產(chǎn)業(yè)的快速發(fā)展和用戶個(gè)性化需求的增加,絲巾圖案的設(shè)計(jì)效率和質(zhì)量已成為影響產(chǎn)品競爭力的重要因素。然而,當(dāng)前企業(yè)在設(shè)計(jì)絲巾圖案時(shí)主要采用人工方式,圖案質(zhì)量嚴(yán)重依賴設(shè)計(jì)師的經(jīng)驗(yàn)和創(chuàng)意,而且設(shè)計(jì)效率低,短時(shí)間內(nèi)難以推出符合流行趨勢的產(chǎn)品,滿足快速變化的市場;另外,傳統(tǒng)設(shè)計(jì)方法人力成本高,導(dǎo)致企業(yè)難以在激烈的市場競爭中維持價(jià)格優(yōu)勢,進(jìn)而影響其市場競爭力。因此,亟需一種絲巾圖案的快速設(shè)計(jì)方法,而基于計(jì)算機(jī)圖像處理的圖案生成方法為此問題提供了一種解決思路。
目前常用的圖案生成方法主要分為2類,一類是基于生成對抗網(wǎng)絡(luò)(Generativeadversarialnetworks,GANs)的方法,另一類是基于擴(kuò)散模型(Diffusionmodels)的方法。在基于生成對抗網(wǎng)絡(luò)的圖案生成方法中,Radford 等[1]提出了DCGAN(Deepconvolutional generative adversarial networks)模型,通過卷積層結(jié)構(gòu)可以生成穩(wěn)定圖像,但圖案質(zhì)量受到訓(xùn)練數(shù)據(jù)規(guī)模的限制,數(shù)據(jù)不足時(shí)易導(dǎo)致模式崩潰;任雨佳等2也提出了一種基于DCGAN的服裝款式設(shè)計(jì)方法,在訓(xùn)練數(shù)據(jù)不足時(shí)生成圖案紋理重復(fù)混亂。Arjovsky 等[3]提出了 WGAN(Wassersteingenerativeadversarial network)模型,該模型可以通過Wasserstein距離提升訓(xùn)練穩(wěn)定性,但仍需充足數(shù)據(jù)支撐。田樂等[4發(fā)現(xiàn),紡織圖案具有復(fù)雜結(jié)構(gòu)與高頻細(xì)節(jié),對模型和數(shù)據(jù)集的要求更為嚴(yán)苛,小數(shù)據(jù)集易引發(fā)特征學(xué)習(xí)失效和模式崩潰。Wu等[5]提出了基于生成對抗網(wǎng)絡(luò)的ClothGAN框架,采用這種方法生成的服裝圖案即使在充足數(shù)據(jù)下仍會出現(xiàn)刺繡紋理模糊甚至斷裂,難以生成高分辨率細(xì)節(jié)。劉康等[在基于生成對抗網(wǎng)絡(luò)的中式婚服設(shè)計(jì)方法中,采用高質(zhì)量多標(biāo)簽成對數(shù)據(jù)對模型進(jìn)行訓(xùn)練,發(fā)現(xiàn)生成對抗網(wǎng)絡(luò)存在缺陷,生成的圖案有邊緣鋸齒化和模糊等問題。田樂等[4通過理論分析發(fā)現(xiàn),生成對抗網(wǎng)絡(luò)的對抗訓(xùn)練機(jī)制本質(zhì)是對數(shù)據(jù)分布的低維流形擬合,其在復(fù)雜紋理與高分辨率需求下存在理論局限。綜上所述,生成對抗網(wǎng)絡(luò)在織物圖案數(shù)據(jù)規(guī)模有限時(shí),難以適應(yīng)圖案的多樣性和復(fù)雜性,會出現(xiàn)模式崩潰的問題;即使數(shù)據(jù)充足,生成對抗網(wǎng)絡(luò)的架構(gòu)缺陷仍制約其細(xì)節(jié)生成能力,難以滿足織物圖案的高質(zhì)量要求。
Sohl-Dickstein等提出了擴(kuò)散模型,后經(jīng)Ho等[8]改進(jìn)為去噪擴(kuò)散概率模型(Denoisingdiffusionprobabilisticmodels)。在基于擴(kuò)散模型的圖案生成方法中,Rombach等9提出了一種潛空間擴(kuò)散模型(Latentdiffusionmodel),該模型在降低計(jì)算復(fù)雜度的同時(shí)支持高分辨率圖像生成,但其依賴文本隱式引導(dǎo),易導(dǎo)致生成圖案的元素布局和風(fēng)格隨機(jī)化。SD(Stable diffusion)及 SDXL(Stable diffusionXL)模型[10]在圖像分辨率與細(xì)節(jié)質(zhì)量上取得了進(jìn)步,但文本描述的模糊性問題仍然存在,難以精準(zhǔn)生成符合特定需求的圖像。針對此問題,研究者提出通過Dreambooth[11]或LoRA[12]微調(diào)穩(wěn)定擴(kuò)散模型參數(shù)的方案。然而,此類方法微調(diào)的模型參數(shù)主要作用于通道注意力層以適配藝術(shù)風(fēng)格[13-14],卻未有效作用于控制空間關(guān)系的空間注意力層,導(dǎo)致生成圖案存在元素位置偏移、比例失調(diào)等結(jié)構(gòu)缺陷。冉二飛等[15提出了一種基于穩(wěn)定擴(kuò)散模型的藍(lán)印花布單紋樣生成方法,結(jié)合ControlNet控制網(wǎng)絡(luò)對圖案結(jié)構(gòu)進(jìn)行約束,但該方法依賴人工繪制深度圖作為輸入,單純使用微調(diào)模型生成的圖案仍存在色彩邊界模糊與美學(xué)表現(xiàn)力不足的問題。綜上所述,基于穩(wěn)定擴(kuò)散模型的文生圖模式因文本引導(dǎo)的模糊性,難以精準(zhǔn)控制圖案元素的空間布局與風(fēng)格;而微調(diào)技術(shù)主要適配于特定藝術(shù)風(fēng)格,并不適配織物圖案。
為解決上述問題,本文以花卉絲巾圖案為研究對象,結(jié)合生成對抗網(wǎng)絡(luò)與穩(wěn)定擴(kuò)散模型,提出了一種雙階段模型協(xié)同生成絲巾圖案的快速方法。首先,構(gòu)建絲巾圖案擴(kuò)增工作流,聚焦絲巾圖案中的花卉主題,擴(kuò)增數(shù)據(jù)構(gòu)建花卉絲巾圖案數(shù)據(jù)集。在此基礎(chǔ)上,設(shè)計(jì)雙階段模型協(xié)同生成框架。第一階段,生成具有準(zhǔn)確結(jié)構(gòu)和風(fēng)格的基?;ɑ芙z巾圖案;第二階段,構(gòu)建圖生圖工作流,生成兼顧結(jié)構(gòu)風(fēng)格準(zhǔn)確性與細(xì)節(jié)清晰度的精繪花卉絲巾圖案。在本文中,基?;ɑ芙z巾圖案是指由生成對抗網(wǎng)絡(luò)生成的圖案,其特點(diǎn)為結(jié)構(gòu)準(zhǔn)確、清晰度較低、細(xì)節(jié)不夠豐富完整;而精繪花卉絲巾圖案則是指穩(wěn)定擴(kuò)散模型生成的圖案,具有高清晰度和豐富的細(xì)節(jié)。該方法整合了兩類模型優(yōu)勢,避免了單一模型的局限,為絲巾圖案的快速生成提供了一種高效解決方案;同時(shí),該方法有助于降低企業(yè)設(shè)計(jì)成本、提高生產(chǎn)效率,為時(shí)尚產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型提供技術(shù)支持。
1 方法設(shè)計(jì)
1. 1 方法基本流程
本文提出的絲巾圖案生成方法的基本流程如圖1所示,主要包括數(shù)據(jù)集構(gòu)建、基?;ɑ芙z巾圖案生成、精繪花卉絲巾圖案生成等3個(gè)部分。首先,通過絲巾圖案擴(kuò)增工作流構(gòu)建數(shù)據(jù)集,解決絲巾數(shù)據(jù)不足的問題。收集現(xiàn)有絲市圖案,并進(jìn)行標(biāo)準(zhǔn)化預(yù)處理,得到一組花卉絲巾圖案,并以此作為基準(zhǔn)數(shù)據(jù)集;根據(jù)該基準(zhǔn)數(shù)據(jù)集,進(jìn)行圖案標(biāo)注,得到花卉絲巾圖案提示詞;構(gòu)建基于SDXL模型的絲巾圖案擴(kuò)增工作流;將基準(zhǔn)數(shù)據(jù)集和提示詞一起輸人圖案擴(kuò)增工作流,得到花卉絲巾圖案數(shù)據(jù)集。然后,使用花卉絲巾圖案數(shù)據(jù)集,訓(xùn)練改進(jìn)的生成對抗網(wǎng)絡(luò)SABStyleGAN,得到具有準(zhǔn)確構(gòu)圖和風(fēng)格的基?;ɑ芙z巾圖案。最后,構(gòu)建基于SDXL模型的圖生圖工作流,并使用該工作流對基?;ɑ芙z巾圖案進(jìn)行圖生圖處理,得到精繪花卉絲巾圖案。
數(shù)據(jù)集構(gòu)建 基模花卉絲巾圖案生成 精繪花卉絲巾圖案生成收集現(xiàn)有 預(yù)處理花 輸入絲圖擴(kuò)增 改進(jìn)生對抗 圖生圖工作流標(biāo)注 輸出 輸出 輸出花卉絲巾圖 花卉絲巾圖 訓(xùn)練 基?;ɑ?輸入 精繪花卉案提示詞 輸入 案數(shù)據(jù)集 絲巾圖案 絲巾圖案
1. 2 數(shù)據(jù)集構(gòu)建
1.2.1 絲巾圖案收集
基于京東、天貓、淘寶三大電商平臺公開的絲巾品類銷售榜單,整合形成涵蓋繡娘、萬事利、上海故事、寶石蝶等十大頭部品牌的樣本池。通過平臺內(nèi)置搜索引擎,以“絲巾”“方巾\"“圍巾\"為關(guān)鍵詞,對這些品牌的官方店鋪進(jìn)行全店鋪商品檢索,系統(tǒng)收集絲巾圖案。為確保數(shù)據(jù)質(zhì)量,對收集的絲巾圖案進(jìn)行人工篩選,剔除主題不符樣本,得到一批花卉絲巾圖案。
1.2.2 絲巾圖案預(yù)處理
在花卉絲巾圖案收集完成后,本文依據(jù)生產(chǎn)工藝對圖案樣本的嚴(yán)格要求,通過人工篩選剔除不符合要求的樣本,以保證絲巾圖案正面平鋪、畫面平整、無遮擋物、無折疊痕跡及無環(huán)境陰影干擾,滿足
生產(chǎn)工藝要求。
為進(jìn)一步提升數(shù)據(jù)集的訓(xùn)練適用性,為后續(xù)數(shù)據(jù)增強(qiáng)與模型訓(xùn)練奠定基礎(chǔ),本文對圖像進(jìn)行標(biāo)準(zhǔn)化處理,具體步驟為:對色彩空間進(jìn)行標(biāo)準(zhǔn)化轉(zhuǎn)換,消除采集差異;統(tǒng)一尺寸,采用自適應(yīng)插值算法將所有圖像調(diào)整為同一像素分辨率,保持圖案比例一致。
1. 2. 3 花卉絲巾圖案擴(kuò)增
1.2.3.1 花卉絲巾圖案擴(kuò)增提示詞
選擇花卉絲巾圖案作為基準(zhǔn),利用圖像標(biāo)簽器WD14對花卉絲巾圖案進(jìn)行標(biāo)注,獲取標(biāo)注結(jié)果后,提取描述絲巾內(nèi)容的高頻提示詞。將這些提示詞作為花卉絲巾圖案的關(guān)鍵提示詞,并結(jié)合通用的質(zhì)量正向提示詞和質(zhì)量反向提示詞,得到完整的花卉絲市圖案提示詞,見表1。
1. 2.3.2 絲巾圖案擴(kuò)增工作流構(gòu)建
SDXL模型是一個(gè)先進(jìn)的兩階段級聯(lián)擴(kuò)散模型,包含基礎(chǔ)模型和精細(xì)化模型兩個(gè)部分。基礎(chǔ)模型與基礎(chǔ)Stablediffusion模型類似,具有文本到圖像(txt2img)、圖像到圖像(img2img)和圖像修復(fù)(inpainting)等功能。精細(xì)化模型具有優(yōu)化圖像細(xì)節(jié)的功能。
本文以SDXL模型為基礎(chǔ)構(gòu)建絲巾圖案擴(kuò)增工作流,SDXL模型的文本生成圖像流程如圖2所示。SDXL模型采用CLIP文本編碼器(CLIPtextencoder),將文本(Prompt)轉(zhuǎn)化為文本特征,這個(gè)過程也稱文本嵌人(Textembedding),以引導(dǎo)Baseu-net網(wǎng)絡(luò)在潛在空間逐步去除噪聲(Noise)。初步去噪后,將潛在特征(Unrefinedlatent)輸入精細(xì)化模型,使用Refineru-net網(wǎng)絡(luò)進(jìn)行精細(xì)化去噪,以提升圖像質(zhì)量。最終優(yōu)化后的精細(xì)化特征(Refinedlatent)通過VAE解碼器(VAE-decoder)還原至像素空間,得到最終圖像(Finalimage)。
根據(jù)花卉主題絲巾的關(guān)鍵特征提示詞和質(zhì)量提示詞,通過SDXL模型的文生圖技術(shù),已能基本完成絲巾圖案的擴(kuò)增任務(wù)。單純的文生圖存在生成隨機(jī)性過強(qiáng)、圖案美觀度和邏輯性較差等問題。為了解決這些問題,本文在SDXL模型文生圖的基礎(chǔ)上,采用ComfyUI構(gòu)建了一個(gè)結(jié)合IP-Adapter-Plus節(jié)點(diǎn)的專用工作流進(jìn)行絲巾圖案擴(kuò)增
基于ComfyUI的絲巾圖案擴(kuò)增工作流如圖3所示。該工作流以花卉絲巾圖案(Floralscarfpattern)、花卉紋樣圖案(Floralmotif pattern)、正向提示詞(Positiveprompt)和反向提示詞(Negativeprompt)作為輸人,生成新的花卉絲巾圖案(Newfloralscarf pattern)。本文選用花卉絲巾圖案作為構(gòu)圖參考,花卉紋樣圖案作為內(nèi)容素材和風(fēng)格參考,花卉紋樣圖案來自網(wǎng)絡(luò)收集,共1000張。
IP-Adapter-Plus節(jié)點(diǎn)是一個(gè)專為SDXL圖像生成流程設(shè)計(jì)的ComfyUI組件,它能夠在該過程中整合額外的圖像特征作為參考,以提升圖像生成的多樣性和精準(zhǔn)度。該節(jié)點(diǎn)通過預(yù)訓(xùn)練的CLIP圖像編碼器(CLIPimageencoder)提取輸人圖像特征,采用解耦交叉注意力機(jī)制(Decoupledcrossattention)結(jié)合文本特征和圖像特征,構(gòu)建文本與圖像雙通道獨(dú)立處理的注意力層結(jié)構(gòu)。解耦交叉注意力可用式(1)表示:
其中: z 表示解耦交叉注意力的輸出,是圖像交叉注意力的輸出與文本交叉注意力的輸出相加; ξQ,K,V 分別表示來自文本特征的查詢向量、鍵向量和值向量: 分別表示來自圖像特征的查詢向量、鍵向量和值向量; d 表示鍵向量的維度。
文本特征維持原始文本交叉注意力層(Textcrossattention)的參數(shù)與計(jì)算路徑,而圖像特征則通過解耦交叉注意力機(jī)制新構(gòu)建的圖像交叉注意力層(Imagecrossattention)進(jìn)行處理。該技術(shù)將解耦的圖像交叉注意力層和文本交叉注意力層一起動態(tài)插入SDXL模型Baseu-net網(wǎng)絡(luò),形成雙流注意力協(xié)同工作機(jī)制。這種架構(gòu)使得SDXL模型在生成過程中能夠同步解析文本提示詞的語義約束與參考圖像的視覺特征。
圖3所示的絲巾圖案擴(kuò)增工作流具體工作流程如下:一方面將輸入的正向提示詞和反向提示詞通過CLIP文本編碼器(CLIPtextencoder)轉(zhuǎn)換為文本特征;另一方面將輸入的花卉絲巾圖案和花卉紋樣圖案經(jīng)過圖像裁剪(Imagecropping)后,輸人IP-Adapter-Plus節(jié)點(diǎn)。使用IP-Adapter-Plus節(jié)點(diǎn),提取輸人圖像的圖像特征,借助解耦的交叉注意力機(jī)制,將圖像特征的交叉注意力層和文本特征的交叉注意力層插人Baseu-net網(wǎng)絡(luò)中。使用雙重特征共同引導(dǎo)Baseu-net網(wǎng)絡(luò),在潛在空間對噪聲初步去噪。在完成初步去噪之后,由工作流中專門用于去噪的Refineru-net網(wǎng)絡(luò)進(jìn)一步處理,經(jīng)過VAE解碼器還原至像素空間,得到最終的絲巾圖案。
1.3 基?;ɑ芙z巾圖案生成
為了生成結(jié)構(gòu)完整和風(fēng)格準(zhǔn)確的絲巾圖案,本文選取 StyleGAN(Style-based generative adversarialnetwork)作為基礎(chǔ)模型,對此模型進(jìn)行改進(jìn),集成了自注意力機(jī)制和邊框注意力機(jī)制。這一改進(jìn)使模型能更專注于圖案的關(guān)鍵細(xì)節(jié)和圖案邊界,顯著提高了基?;ɑ芙z巾圖案的結(jié)構(gòu)完整度。
1.3.1 注意力機(jī)制簡介
自注意力機(jī)制是一種提升生成模型性能的技術(shù),它能夠增強(qiáng)模型對圖像細(xì)節(jié)和結(jié)構(gòu)特征的捕捉能力,從而提升生成圖像的清晰度和準(zhǔn)確性。其工作原理如圖4所示。該機(jī)制通過3個(gè)并行的 1×1 卷積層 Wf?Wg 和 Wh ,將輸入特征圖 x 映射為三個(gè)子空間:查詢向量 f 、鍵向量 和值向量 h 。其中 f 與轉(zhuǎn)置后的
進(jìn)行矩陣相乘,經(jīng)Softmax歸一化生成注意力特征圖 β ,該權(quán)重揭示了空間位置間的依賴關(guān)系。然后通過 β 與 h 的加權(quán)融合實(shí)現(xiàn)特征重構(gòu),得到自注意力特征 σo 。自注意力特征
與卷積特征圖 x 引人可學(xué)習(xí)參數(shù)γ加權(quán)相加,得到最終輸出特征圖
。這種設(shè)計(jì)使模型能突破卷積核的局部感受野限制,從而捕捉像素間的結(jié)構(gòu)關(guān)聯(lián),提升生成圖像的細(xì)節(jié)連貫性與幾何合理性。
邊框注意力是一種本文自定義的簡化空間注意力機(jī)制,用于提升圖像邊框部分的生成質(zhì)量。邊框注意力與空間注意力的主要區(qū)別在于權(quán)重的生成方式不同??臻g注意力的權(quán)重是動態(tài)生成的,通常通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到,能夠根據(jù)輸入圖像的不同自動調(diào)整。而邊框注意力的權(quán)重是預(yù)先定義的固定權(quán)重,不隨輸入圖像的變化而變化,固定權(quán)重將注意力集中在圖像的邊緣部分,從而增強(qiáng)絲巾邊框的生成質(zhì)量。
邊框注意力的工作原理示意圖如圖5所示。首先,從神經(jīng)網(wǎng)絡(luò)的某一層中提取卷積特征圖 x ,接著定義一個(gè)邊框注意力映射 Wb ,該邊框注意力映射在中心 80% 區(qū)域的值為0,在邊緣 20% 區(qū)域的值為1。此映射與原始卷積特征圖 x 相乘,得到聚焦于邊框部分的邊框注意力特征圖 。邊框注意力特征圖
乘以一個(gè)可學(xué)習(xí)的縮放參數(shù) α ,加上原始卷積特征圖 x ,得到最終輸出特征圖
??s放參數(shù)α 用于調(diào)節(jié)邊框注意力特征對最終輸出結(jié)果的影響程度。
1.3.2 SAB-StyleGAN構(gòu)建
本文將注意力機(jī)制融合到StyleGAN框架中,提出了一種基于注意力的StyleGAN模型,即SABStyleGAN,其結(jié)構(gòu)圖如圖6所示。
典型的StyleGAN的生成流程以解耦式生成架構(gòu)為核心,通過潛變量映射與漸進(jìn)式合成實(shí)現(xiàn)高質(zhì)量圖像生成。其工作流程為:首先,映射網(wǎng)絡(luò)接收來自潛空間 Z 的隨機(jī)向量 z 作為輸人,經(jīng)過像素級歸一化(Normalize)消除幅值差異后,通過8層全連接網(wǎng)絡(luò)FC構(gòu)建的非線性網(wǎng)絡(luò)進(jìn)行非線性變換,將其映射至中間潛空間W,得到中間潛變量 w 。隨后, w 通過仿射變換 A 轉(zhuǎn)化為風(fēng)格向量,用于控制后續(xù)生成網(wǎng)絡(luò)的風(fēng)格屬性。生成網(wǎng)絡(luò)從固定的 4×4×512 維常數(shù)張量(Const 4×4×512) 開始,在每一層級執(zhí)行以下操作:向特征圖添加經(jīng)廣播運(yùn)算 B ,調(diào)整維度的高斯噪聲(Noise)以增強(qiáng)細(xì)節(jié)多樣性;通過自適應(yīng)實(shí)例規(guī)范化(AdaIN)將風(fēng)格向量注人特征圖,利用3×3 卷積(Conv 3×3) 進(jìn)行特征變換,并循環(huán)執(zhí)行一次“噪聲注入-AdaIN風(fēng)格控制”的雙階段調(diào)節(jié)。隨著網(wǎng)絡(luò)深度增加,通過上采樣(Upsample)逐步提升分辨率 (4×48×8…256×256) ,最終輸出高清合成圖像。與此同時(shí),判別器采用反向?qū)ΨQ結(jié)構(gòu),通過堆疊卷積塊(ConvBlock)對生成虛假圖像與真實(shí)圖像(real/fakeimage)進(jìn)行多尺度特征提取,逐步下采樣至 1×1 ,然后經(jīng)全連接層FC輸出二值判別結(jié)果 D 。整個(gè)模型通過對抗訓(xùn)練機(jī)制迭代優(yōu)化:生成器力圖合成足以欺騙判別器的逼真絲巾圖案,而判別器持續(xù)提升對真?zhèn)螆D像的鑒別能力,直至兩者達(dá)到動態(tài)平衡(納什均衡)。此時(shí)模型的生成器可輸出與真實(shí)數(shù)據(jù)分布高度一致的圖案。該流程通過分離風(fēng)格控制與細(xì)節(jié)生成,實(shí)現(xiàn)了對絲巾花型結(jié)構(gòu)穩(wěn)定性與紋理復(fù)雜度的精準(zhǔn)調(diào)控。
本文為增強(qiáng)StyleGAN在圖像生成中的細(xì)節(jié)表現(xiàn)力和風(fēng)格精確度,在生成網(wǎng)絡(luò)的多個(gè)維度的最后一層自適應(yīng)實(shí)例規(guī)范化后引入了自注意力機(jī)制,分別是 4×4.32×32 和 128×128 這幾個(gè)特征維度。該機(jī)制通過在不同層級集成自注意力模塊(self-attention),顯著提升了模型對圖像局部特征的敏感性和捕捉能力。自注意力機(jī)制通過特征圖間的點(diǎn)積運(yùn)算和隨后的Softmax歸一化處理,幫助模型深入理解特征間的復(fù)雜關(guān)系,有效提高生成圖像的整體質(zhì)量。
在絲巾設(shè)計(jì)中,邊框不僅是裝飾元素,更是強(qiáng)化圖案視覺效果和風(fēng)格表達(dá)的關(guān)鍵。絲巾邊框的精細(xì)處理對圖像的整體自然度和視覺完整性至關(guān)重要。在生成網(wǎng)絡(luò)的最后一層自適應(yīng)實(shí)例規(guī)范化之后和判別器的第一層卷積塊之后,本文分別集成了邊框注意力(border-attention)模塊。該模塊引導(dǎo)模型關(guān)注于圖案邊界部分,針對圖像邊界進(jìn)行優(yōu)化。使用前文構(gòu)建的花卉絲巾圖案數(shù)據(jù)集對SAB-StyleGAN進(jìn)行訓(xùn)練,得到基?;ɑ芙z巾圖案。
1. 4 精繪花卉絲巾圖案生成
改進(jìn)后的StyleGAN模型成功生成了基?;ɑ芙z巾圖案,該基模花卉絲巾圖案雖然已有絲巾圖案的基本結(jié)構(gòu)和風(fēng)格,但清晰度不足,細(xì)節(jié)也有待完善。為了進(jìn)一步提升圖案的清晰度和細(xì)節(jié)完整度,本文提出了一個(gè)結(jié)合IP-Adapter-Plus節(jié)點(diǎn)的圖生圖工作流,將基?;ɑ芙z巾圖案轉(zhuǎn)化為高質(zhì)量的精繪花卉絲巾圖案,工作流示意圖如圖7所示。
圖生圖工作流從輸入一個(gè)基?;ɑ芙z巾圖案(Base-generated floral scarf pattern)開始,一方面使用VAE編碼器(VAE-encoder)對輸入的基?;ɑ芙z巾圖案進(jìn)行編碼,將其轉(zhuǎn)換為潛在空間表示,并添加噪聲,得到噪聲圖像。另一方面使用IPAdapter-Plus節(jié)點(diǎn)處理基模花卉絲巾圖案,經(jīng)由CLIP圖像編碼器處理,得到基?;ɑ芙z巾圖案的圖像特征;使用CLIP文本編碼器處理正向提示詞和反向提示詞得到文本特征;再由IP-Adapter-Plus節(jié)點(diǎn)中的解耦交叉注意力結(jié)合文本特征和圖像特征,共同引導(dǎo)Baseu-net網(wǎng)絡(luò),對噪聲圖像進(jìn)行初步去噪。最后使用Refineru-net網(wǎng)絡(luò)進(jìn)一步去噪,經(jīng)過VAE解碼器還原至像素空間,得到精繪花卉絲巾圖案(Refined-generated floral scarf pattern)。
2 實(shí)驗(yàn)結(jié)果
本文搭建了實(shí)驗(yàn)平臺,硬件采用配備高性能運(yùn)算能力的深度學(xué)習(xí)工作站,具有128GB內(nèi)存和NVIDIA RTX 3090 Ti 24 GB GPU;軟件采用Windows1064位操作系統(tǒng),PyTorch1.8.1深度學(xué)習(xí)框架,編程語言為Python3.8,計(jì)算平臺為CUDA 11.3。
2. 1 評估指標(biāo)
本文采用FID、SSIM、PSNR、MBM和LPIPS等5個(gè)指標(biāo)綜合評估生成圖像的質(zhì)量。
SSIM(Structural similarity index measure,結(jié)構(gòu)相似性):用于衡量生成圖像與參考圖的局部相似性,其值范圍在 0~1 之間,越接近1表示相似性越高。其計(jì)算公式如下:
其中: μx 和 μy 表示圖像 x 和圖像 的像素亮度均值; σx2 和 σy2 表示圖像 x 和
的像素值方差; σxy 表示圖像 x 和
的協(xié)方差; c1 和 c2 是為了避免除零錯(cuò)
誤而加的小常數(shù)。
PSNR(Peak signal-to-noise ratio,峰值信噪比):用于比較生成圖像與參考圖的失真程度,值越高表明表示圖像質(zhì)量越好,失真越小。具體計(jì)算公式如下:
其中: MAX 表示圖像的最大像素值(對于8位圖像,通常是255); MSE 表示兩幅圖像的均方誤差。
MBM(Meanblurmetric,平均模糊度):用于評估圖像清晰度,數(shù)值越低表示圖像邊緣和細(xì)節(jié)保留越好。具體計(jì)算公式如下:
其中: I 代表圖像; ablaI(i,j) 表示圖像在位置 (i,j) 的梯度; M 和 N 表示圖像的行數(shù)和列數(shù)。
FID(Frechet inceptiondistance,弗雷謝特初始距離):用于衡量生成圖案與訓(xùn)練集的全局相似度。FID值越低,表示兩個(gè)圖像分布越接近,圖像間的相似度越高,生成圖像的質(zhì)量也越佳。具體計(jì)算公式如下:FID=|μr-μg|2+tr[Σr+Σg-2(ΣrΣg)1/2] (204號其中: r 代表真實(shí)圖像; g 代表生成圖像; μr 和 μg 代表圖像 r 和 的特征向量的均值; Σr 和 Σg 代表圖像 r 和
的特征向量的協(xié)方差矩陣; tr 表示矩陣的跡。
LPIPS (Learned perceptual image patchsimilarity,學(xué)習(xí)型感知圖像塊相似度):用于評估圖像之間的感知差異,結(jié)果在 0~1 之間。其中0表示兩幅圖像完全一致,1表示兩幅圖像在語義感知層面完全不同。具體計(jì)算公式如下:
LPIPS(x,y)=
其中: x 和 分別代表輸入的兩幅圖像, l 代表預(yù)訓(xùn)練網(wǎng)絡(luò)的特征層索引, ?ι(x) 代表圖像 x 第 l 層的特征, ?ι(y) 代表圖像
第 l 層的特征, wι 代表第 l 層通道的權(quán)重, Hι 和 Wι 分別代表第 l 層特征的高度與寬度。
2. 2 數(shù)據(jù)集構(gòu)建結(jié)果
2.2.1 絲巾圖案數(shù)據(jù)預(yù)處理結(jié)果
經(jīng)過預(yù)處理流程,最終得到一組高質(zhì)量花卉絲巾圖案,共176張,樣例如圖8所示。由圖8可知:真實(shí)花卉絲巾圖案具有清晰的方形邊框,花卉元素均勻的分布在整個(gè)絲巾圖案。該組花卉絲巾圖案保證了視覺完整性和主題一致性,為后續(xù)的圖案擴(kuò)增任務(wù)提供了優(yōu)質(zhì)基準(zhǔn)數(shù)據(jù)。
2.2.2 花卉絲巾圖案擴(kuò)增實(shí)驗(yàn)結(jié)果
經(jīng)由人工操作該絲巾圖案擴(kuò)增工作流,選定花卉絲巾圖案,輸入花卉紋樣圖案和提示詞進(jìn)行圖案擴(kuò)增。人工調(diào)節(jié)兩類輸入圖案的參考權(quán)重配比,完成花卉主題絲巾圖案擴(kuò)增,去除其中不符合絲巾圖案要求的部分。該擴(kuò)增方法不僅豐富了圖案的多樣性,也保證了生成絲巾圖案的主題和構(gòu)圖與真實(shí)圖像一致。本文生成的絲巾圖案在視覺上與市場上的熱門絲巾構(gòu)圖保持一致,同時(shí)也融入了新的設(shè)計(jì)元素。擴(kuò)增的絲巾圖案樣例如圖9所示,其中擴(kuò)增花卉絲巾圖案的方形邊框清晰可見,花卉元素分布均勻,整體色彩搭配協(xié)調(diào),藝術(shù)美觀度高。
擴(kuò)增后的圖案與擴(kuò)增前的花卉主題絲巾圖案組合,得到花卉絲巾圖案數(shù)據(jù)集,通過這種方法,構(gòu)建了包含1000張圖案的花卉絲巾圖案數(shù)據(jù)集。
本文通過LPIPS指標(biāo)來評估擴(kuò)增數(shù)據(jù)集的多樣性,通過FID和SSIM指標(biāo)來評估擴(kuò)增數(shù)據(jù)集與原始數(shù)據(jù)的分布差異。其中SSIM值計(jì)算時(shí)以工作流輸入的原始花卉絲巾圖案作為基準(zhǔn),以工作流輸出的擴(kuò)增圖案作為比較對象?;ɑ芙z巾圖案擴(kuò)增量化分析結(jié)果如表2所示,從表2可以看出:擴(kuò)增數(shù)據(jù)集的LPIPS值為O.4126,屬于中等感知差異范圍,表明數(shù)據(jù)集中的圖像在人類視覺系統(tǒng)中既有可識別的差異,又保留了一定的相似性;對于花卉絲巾圖案來說,適度的形態(tài)與色彩變化避免了設(shè)計(jì)同質(zhì)化,嚴(yán)謹(jǐn)?shù)臉?gòu)圖規(guī)則有利于產(chǎn)品商業(yè)落地。擴(kuò)增數(shù)據(jù)集與原始數(shù)據(jù)的FID值為75.22,SSIM值為0.4396,表明擴(kuò)增數(shù)據(jù)集與原始數(shù)據(jù)有一定的分布相似度,且結(jié)構(gòu)框架基本相似。綜上可知,擴(kuò)增數(shù)據(jù)集與原始數(shù)據(jù)既有相似度也有多樣性,有利于后續(xù)生成高質(zhì)量絲巾圖案。
2.3 基模花卉絲巾圖案生成結(jié)果
2.3.1 未擴(kuò)增花卉絲巾圖案數(shù)據(jù)集結(jié)果使用未擴(kuò)增的花卉絲巾圖案數(shù)據(jù)集訓(xùn)練生成對抗網(wǎng)絡(luò)StyleGAN,訓(xùn)練完成后,生成基?;ɑ芙z巾圖案,結(jié)果如圖10所示。圖10顯示:176張的小規(guī)模絲巾圖案訓(xùn)練集難以有效支持生成對抗網(wǎng)絡(luò)的穩(wěn)定訓(xùn)練,具體表現(xiàn)為生成的基?;ɑ芙z巾圖案質(zhì)量有重大缺陷,出現(xiàn)模式崩潰;圖案結(jié)構(gòu)和色彩嚴(yán)重失真,模糊且缺失細(xì)節(jié)。
2.3.2擴(kuò)增花卉絲巾圖案數(shù)據(jù)集實(shí)驗(yàn)結(jié)果
在擴(kuò)增后得到的1000張花卉絲巾圖案數(shù)據(jù)集的基礎(chǔ)上,分別采用DCGAN、WGAN、StyleGAN、StyleGANXL、StyleGANamp;self-Attention、StyleGANamp;borderAttention、SAB-StyleGAN模 型 進(jìn)行訓(xùn)練。DCGAN、WGAN、StyleGAN 和 StyleGAN-XL 是經(jīng)典的生成對抗網(wǎng)絡(luò)模型,StyleGANamp;self-Attention是在StyleGAN模型的基礎(chǔ)上添加自注意力機(jī)制后得到的模型,StyleGANamp;border-Attention是在StyleGAN模型的基礎(chǔ)上添加邊框注意力機(jī)制后得到的模型,SAB-StyleGAN是在StyleGAN模型基礎(chǔ)上添加自注意力機(jī)制和邊框注意力機(jī)制后得到的模型
在模型訓(xùn)練過程中,采用批量規(guī)模(Batch size)為4的樣本輸入配置,持續(xù)進(jìn)行1000個(gè)完整訓(xùn)練周期(Epoch)。優(yōu)化器選用Adam方法,其動量參數(shù)設(shè)置為 β1=0,β2=0.99 ,初始學(xué)習(xí)率(Learningrate)固定為0.0025,并引入零動量自適應(yīng)優(yōu)化策略(Zero-momentum adaptive optimization)動態(tài)調(diào)節(jié)學(xué)習(xí)率。訓(xùn)練完成后,各自生成1000張基?;ɑ芙z巾圖案,用于后續(xù)對比生成效果和圖生圖處理。
2.3.2.1 對比實(shí)驗(yàn)
花卉絲巾圖案的生成效果能直觀地反映了不同模型的性能差異。不同模型生成的基?;ɑ芙z巾圖案如圖11所示。由圖11可見:WGAN模型和DCGAN模型生成的基?;ɑ芙z巾圖案存在紋理模糊、色彩不協(xié)調(diào)結(jié)構(gòu)失真等明顯問題;StyleGAN模型生成的基?;ɑ芙z巾圖案較為真實(shí),但在色彩還原和圖像結(jié)構(gòu)上仍有失真,未能準(zhǔn)確捕捉真實(shí)圖像的細(xì)微特征;StyleGAN-XL模型生成的基?;ɑ芙z巾圖案邊框連貫清晰,色彩還原,但在花卉結(jié)構(gòu)上出現(xiàn)嚴(yán)重扭曲,花卉邊緣出現(xiàn)羽化現(xiàn)象;SAB-StyleGN模型SAB-StyleGAN模型生成的基模花卉絲巾圖案表現(xiàn)最佳,結(jié)構(gòu)和風(fēng)格都與真實(shí)圖像最為接近,視覺效果自然,邊框連貫清晰。
對比圖11和圖10中StyleGAN模型生成的花卉絲巾圖案可以發(fā)現(xiàn),擴(kuò)增數(shù)據(jù)集后生成質(zhì)量顯著提升,表明絲巾圖案擴(kuò)增工作流有效。
表3為不同生成模型在生成基?;ɑ芙z巾圖案時(shí)的FID值。DCGAN的FID值為130.80,WGAN的FID值為255.56,表明這2個(gè)模型生成圖像質(zhì)量較低;StyleGAN-XL模型的FID值為61.29,StyleGAN模型的FID值為62.21,而 SAB-StyleGAN 模型的 FID 值為46.71,相比于基線模型StyleGAN降低了24.91% ,表明圖像生成質(zhì)量提升,添加雙重注意力機(jī)制有效。綜上所述,SAB-StyleGAN模型效果最佳。
2.3.2.2 消融實(shí)驗(yàn)
為直觀展示雙重注意力機(jī)制對模型生成效果的影響,本文對模型改進(jìn)前后的生成效果進(jìn)行了可視化對比,結(jié)果如圖12所示。圖12顯示:StyleGAN模型生成的花卉絲巾圖案在紋理和結(jié)構(gòu)上存在一定失真,絲巾圖案邊框扭曲;StyleGANamp;self-Attention模型通過引入自注意力機(jī)制強(qiáng)化全局特征建模,生成的花卉絲巾圖案質(zhì)量顯著提升,結(jié)構(gòu)上接近真實(shí)圖像,紋理細(xì)膩,色彩漸變自然,但在絲巾圖案邊緣的處理上仍有不足,絲巾邊框凹凸不平且線條模糊斷裂;StyleGANamp;border-Attention模型在生成網(wǎng)絡(luò)和判別器中集成了邊框注意力模塊,更加專注于圖像的邊框區(qū)域,生成的花卉絲巾圖案在邊緣的處理上有所提升,邊框連貫清晰;SABStyleGAN模型融合雙重注意力機(jī)制,生成的花卉絲巾圖案表現(xiàn)最佳,結(jié)構(gòu)和風(fēng)格都與真實(shí)圖像最為接近,視覺效果自然,紋理細(xì)膩,色彩漸變自然,邊框連貫清晰。
表4為添加雙重注意力機(jī)制的不同生成模型在生成基?;ɑ芙z巾圖案時(shí)的FID值,StyleGAN模型的FID 值為62.21,StyleGANamp;border-attention模型的FID值為58.37,相較于基線模型StyleGAN降低了3.84,表明圖像生成質(zhì)量提升,添加的邊框注意力有效;StyleGANamp;self-attention模型的FID值為49.24,相較于基線模型StyleGAN降低了12.97,表明圖像生成質(zhì)量提升,添加的自注意力模塊有效;SAB-StyleGAN模型的FID值為46.71,相比于基線模型StyleGAN降低了15.5,表明圖像生成質(zhì)量提升,同時(shí)添加雙重注意力機(jī)制有效。
2.4精繪花卉絲巾圖案生成實(shí)驗(yàn)結(jié)果
精繪花卉絲巾圖案的生成實(shí)驗(yàn)結(jié)果包括兩部分,分別是客觀量化實(shí)驗(yàn)和主觀評估實(shí)驗(yàn)。這兩種實(shí)驗(yàn)從客觀的圖像質(zhì)量和主觀的圖像美感兩方面,綜合評估精繪花卉絲巾圖案。
2.4.1 客觀評估實(shí)驗(yàn)
盡管SAB-StyleGAN模型生成的絲巾圖案結(jié)構(gòu)和風(fēng)格都與真實(shí)圖像接近,但仍有模糊和細(xì)節(jié)缺失的問題,需要進(jìn)一步進(jìn)行圖生圖處理,優(yōu)化圖案以得到精繪花卉絲巾圖案。本文對比了不同方法生成的精繪花卉絲巾圖案(見圖13),其中,SABStyleGAN、img2img、img2imgamp;IP-Adapter-Plus、Dreambooth 和 SDXL 分別表示 SAB-StyleGAN生成的基模花卉絲巾圖案、基礎(chǔ)圖生圖工作流生成的精繪花卉絲巾圖案、集成IP-Adapter-Plus節(jié)點(diǎn)的圖生圖工作流所生成的精繪花卉絲巾圖案、利用Dreambooth技術(shù)微調(diào)后的SDXL模型所生成的精繪花卉絲巾圖案,以及SDXL模型生成的精繪花卉絲巾圖案。
圖14為兩種不同圖生圖處理工作流的效果對比圖。SAB-StyleGAN生成的基?;ɑ芙z巾圖案僅用于對比。Dreambooth是一種用于SDXL模型的微調(diào)技術(shù),允許用戶通過少量特定主題圖像個(gè)性化預(yù)訓(xùn)練的擴(kuò)散模型,適用于將自定義元素融入模型中,生成具有特定特征的圖像。利用該技術(shù),本文使用花卉絲巾圖案數(shù)據(jù)集對SDXL模型進(jìn)行微調(diào),得到了一個(gè)能夠快速生成花卉絲巾圖案的微調(diào)SDXL模型。
由圖13和圖14可知:采用SDXL生成的精繪花卉絲巾圖案色調(diào)單一,結(jié)構(gòu)混亂,無明顯的邊框,且生成圖案不穩(wěn)定,時(shí)常出現(xiàn)一些人像和文字;采用Dreambooth技術(shù)微調(diào)的SDXL模型生成的精繪花卉絲巾圖案與訓(xùn)練數(shù)據(jù)集有較大偏差,圖案風(fēng)格過于寫實(shí),缺少藝術(shù)感和裝飾性,色彩搭配沖突,視覺觀感單調(diào),邊框呈現(xiàn)顯著的遮擋性破壞;SABStyleGAN模型生成的基?;ɑ芙z巾圖案結(jié)構(gòu)合理,風(fēng)格美觀,但稍顯模糊,細(xì)節(jié)不足; img2img 工作流在基?;ɑ芙z巾圖案的基礎(chǔ)上進(jìn)行圖生圖處理,生成的精繪花卉絲巾圖案清晰度高,但風(fēng)格和構(gòu)圖與輸入圖案存在差異,整體視覺觀感上雜亂無章;img2imgamp;IP-Adapter-Plus工作流生成的精繪花卉絲巾圖案在風(fēng)格和構(gòu)圖上更貼近輸入圖像,該工作流應(yīng)用IP-Adapter-Plus節(jié)點(diǎn)的圖像風(fēng)格參考能力,結(jié)合圖生圖本身的色彩、構(gòu)圖參考能力,進(jìn)行圖生圖處理,大大提高了基?;ɑ芙z巾圖案的清晰度,補(bǔ)全了圖案缺失的細(xì)節(jié),在色彩、紋理、圖案布局及整體視覺效果上展現(xiàn)出更高的一致性,效果最佳。
表5展示了不同精繪花卉絲巾圖案生成方法的量化指標(biāo)。其中SSIM值和PSNR值的計(jì)算以SABStyleGAN模型生成的基?;ɑ芙z巾圖案為基準(zhǔn)圖案,img2img工作流和img2imgamp;IP-Adapter-Plus工作流生成的精繪花卉絲巾圖案作為對比圖案。其他方法并無對應(yīng)圖案,無法計(jì)算SSIM值和PSNR值。
SDXL模型的FID值為225.02,表明該方法生成的花卉絲巾圖案與訓(xùn)練集花卉絲巾圖案存在較大差異,效果較差。Dreambooth微調(diào)方法的FID值達(dá)到168.37,表明該方法生成的花卉絲巾圖案與訓(xùn)練集花卉絲巾圖案存在較大差異,效果較差。img2img工作流的FID值為63.14,相比于SAB-StyleGAN模型增加了16.4,表明該工作流生成的精繪花卉絲巾圖案質(zhì)量降低。 img2imgamp;IP- Adapter-Plus工作流結(jié)合IP-Adapter-Plus節(jié)點(diǎn),參考輸入圖案風(fēng)格,F(xiàn)ID值為41.25,相較于SAB-StyleGAN模型降低了5.5,降幅為 11.69% ,表明該工作流生成的精繪花卉絲巾圖案與訓(xùn)練集更加接近,圖案質(zhì)量提高。
觀察 SSIM值和 PSNR 值可知, img2imgamp;IP- Adapter-Plus工作流相比于img2img工作流的SSIM值提高了O.0271,PSNR值提高了0.38,表明加人IP-Adapter-Plus節(jié)點(diǎn)的工作流能夠更好地保留了輸入基?;ɑ芙z巾圖案的構(gòu)圖和風(fēng)格,有更高的視覺相似度。MBM值表明,兩種圖生圖處理都使得圖案清晰度得到顯著提升。綜合對比,img2imgamp;IP-Adapter-Plus工作流的效果最佳。
2.4.2 主觀評估實(shí)驗(yàn)
為了從美學(xué)表現(xiàn)、滿足絲巾圖案需求等角度綜合評估各種精繪花卉絲巾圖案生成方法的性能,本文設(shè)計(jì)了一份包含5個(gè)問題的問卷,分別對應(yīng)前文所分析的5種精繪花卉絲巾圖案生成方法。該問卷從藝術(shù)美觀度與絲巾規(guī)范度兩個(gè)維度,對精繪花卉絲巾圖案進(jìn)行主觀評估。藝術(shù)美觀度是指生成的圖案在視覺上的美感,給人帶來愉悅感和吸引力的程度。絲巾規(guī)范度是指生成的圖案在構(gòu)圖和邊框設(shè)計(jì)上與真實(shí)絲巾圖案的符合程度,用于衡量生成圖案是否遵循真實(shí)絲巾圖案的設(shè)計(jì)規(guī)范和特征,高絲巾規(guī)范度意味著生成的圖案在視覺上更接近真實(shí)的絲巾設(shè)計(jì),符合實(shí)際的使用標(biāo)準(zhǔn)。問卷的評分采用5分制,1分表示最低評價(jià),5分表示最高評價(jià)。此次問卷調(diào)查共回收有效問卷118份,統(tǒng)計(jì)結(jié)果如圖15所示。由圖15可知,SAB-StyleGAN模型在藝術(shù)美觀度和絲巾規(guī)范度上表現(xiàn)均衡,兩個(gè)維度的4分和5分選擇人數(shù)占比均超過 80% ,顯示出較高的認(rèn)可度。img2img工作流雖然4分以上的評分占比也較高,但5分評價(jià)的比例較SAB-StyleGAN模型降低,整體認(rèn)可度不如SABStyleGAN模型。img2imgamp;IP-Adapter-Plus工作流表現(xiàn)最優(yōu),藝術(shù)美觀度71人給出5分,絲巾規(guī)范度75人選擇5分,是最受認(rèn)可的方案。Dreambooth微調(diào)方法評分呈現(xiàn)中間集中趨勢,2分和3分的選擇人數(shù)占比較高,顯示出兩極分化較弱但整體認(rèn)可度偏低的特點(diǎn)。SDXL模型表現(xiàn)最差,兩個(gè)維度均出現(xiàn)1分和2分占比過高的問題,明顯落后于其他方法。
表6展示了不同方法生成的精繪花卉絲巾圖案的量化評分,評分由所有問卷結(jié)果的平均計(jì)算得出。SDXL模型在藝術(shù)美觀度和絲巾規(guī)范度上的得分較低,表明其生成的圖案在藝術(shù)美觀度和絲巾規(guī)范度方面表現(xiàn)不佳。Dreambooth微調(diào)方法在藝術(shù)美觀度和絲巾規(guī)范度上的表現(xiàn)較SDXL有所提升,但在所有方法中仍處于較低水平,表明其生成的圖案在藝術(shù)美觀度和絲巾規(guī)范度方面表現(xiàn)不佳。SABStyleGAN模型在藝術(shù)美觀度和絲巾規(guī)范度上均取得了較高的分?jǐn)?shù),表明其生成的圖案在藝術(shù)美觀度和符合真實(shí)絲巾圖案構(gòu)圖及邊框方面表現(xiàn)優(yōu)異。img2img工作流在絲巾規(guī)范度上表現(xiàn)良好,但在圖生圖處理后破壞了SAB-StyleGAN模型所生成圖案的原有風(fēng)格,在藝術(shù)美觀度上略低于SAB
StyleGAN。img2imgamp;IP-Adapter-Plus工作流在藝術(shù)美觀度和絲巾規(guī)范度上均取得了最高的分?jǐn)?shù),表明其在生成具有高藝術(shù)美感、符合規(guī)范的精繪花卉絲巾圖案方面具有顯著優(yōu)勢,能夠同時(shí)滿足藝術(shù)美觀度和絲巾規(guī)范度的要求。綜上可知,在這些方法中img2imgamp;IP-Adapter-Plus工作流生成的精繪花卉絲巾圖案最佳。
2.5 計(jì)算效率與硬件成本分析
為了評估本文方法的計(jì)算效率和硬件成本,記錄了相同硬件環(huán)境下不同方法的訓(xùn)練時(shí)間、推理時(shí)間和顯存占用?;;ɑ芙z巾圖案生成方法的計(jì)算效率與硬件成本見表7,精繪花卉絲巾圖案生成方法的計(jì)算效率與硬件成本見表8。其中,精繪花卉絲巾圖案生成方法除Dreambooth外,均采用預(yù)訓(xùn)練的SDXL模型,無訓(xùn)練時(shí)間。訓(xùn)練時(shí)間受到超參數(shù)和訓(xùn)練數(shù)據(jù)的影響,并不完全固定,因此僅作為參考。
表7顯示:SAB-StyleGAN模型在訓(xùn)練時(shí)間、推理時(shí)間、顯存占用3個(gè)方面都比StyleGAN-XL模型表現(xiàn)更優(yōu)異,表明SAB-StyleGAN模型在計(jì)算效率和硬件成本上均優(yōu)于StyleGAN-XL模型;SAB-StyleGAN模型的訓(xùn)練時(shí)間和推理時(shí)間在基準(zhǔn)模型StyleGAN的基礎(chǔ)上略微增加,顯存占用不變;訓(xùn)練時(shí)間增加 5h ,增加了 11.9% ,推理時(shí)間增加0.002s,增加了 6% ,增加幅度較小。綜上所述,本文采用的SAB-StyleGAN模型在計(jì)算效率方面和硬件成本方面符合實(shí)際應(yīng)用要求。
表8顯示:img2imgamp;IP-Adapter-Plus工作流與img2img工作流相比,推理時(shí)間減少2s,降幅20% ,顯存占用提高O.8GB,增加了 4.8% (2號 img2imgamp; IP-Adapter-Plus工作流與SDXL模型和Dreambooth微調(diào)方法相比,推理時(shí)間減少1s,降幅10% ,顯存占用提高1GB,漲幅 6.1% ;綜上可以發(fā)現(xiàn),與其他3種方法相比,本文采用的img2imgamp;IP-Adapter-Plus工作流推理時(shí)間明顯降低,占用顯存輕微提高,在計(jì)算效率方面和硬件成本方面符合實(shí)際應(yīng)用要求。
3結(jié)語
為了提高絲幣圖案設(shè)計(jì)效率、降低人工成本,本文提出了一種結(jié)合生成對抗網(wǎng)絡(luò)和穩(wěn)定擴(kuò)散模型的花卉絲巾圖案生成方法。首先提出一種數(shù)據(jù)擴(kuò)增工作流,工作流創(chuàng)新性的融合真實(shí)絲巾圖案的圖像特征和文本特征,構(gòu)建了具有多樣性的花卉絲巾數(shù)據(jù)集。然后在此數(shù)據(jù)集基礎(chǔ)上,設(shè)計(jì)了“雙階段模型協(xié)同生成\"框架,形成“粗生成一細(xì)加工\"的完整流程,最后生成精繪花卉絲巾圖案。
實(shí)驗(yàn)結(jié)果表明,該方法的FID值低至41.25,生成的精繪花卉絲巾圖案清晰且質(zhì)量優(yōu)異,與真實(shí)絲巾圖案高度接近。該方法的藝術(shù)美觀度平均得分為4.5分,生成的精繪花卉絲巾圖案具有較強(qiáng)的藝術(shù)美感。該方法的絲巾規(guī)范度平均得分為4.52,生成圖案遵循真實(shí)絲巾圖案的設(shè)計(jì)規(guī)范。該方法相較于其他精繪花卉絲巾圖案生成方法推理時(shí)間明顯降低,占用顯存輕微提高,在計(jì)算效率方面和硬件成本方面符合實(shí)際應(yīng)用要求。該方法為絲巾圖案的快速生成提供了一種高效高質(zhì)的解決方案,有助于降低企業(yè)的設(shè)計(jì)成本、提高生產(chǎn)效率,進(jìn)而推動時(shí)尚產(chǎn)業(yè)的數(shù)字化轉(zhuǎn)型。
本文主要聚焦于花卉主題的絲巾圖案生成,在圖案多樣性和應(yīng)用普適性方面有待后續(xù)研究,如幾何抽象、文化符號等多元主題絲巾圖案的生成,或跨品類的紡織圖案生成。
參考文獻(xiàn):
[1]RadfordA,Metz L,Chintala S, et al.Unsupervisedrepresentation learning with deep convolutional generativeadversarial networks[EB/OL]. (2016-01-07)[2025-03-03].https://arxiv.org/abs/1511.06434v2.
[2]任雨佳,陳璐,陳郁.基于DCGAN算法的服裝款式交互設(shè)計(jì)[J].毛紡科技,2022,50(3):93-97.
[3]Arjovsky M,Chintala S,Bottou L. Wasserstein generativeadversarial networks[C]//Proceedings of the 34th InternationalConference on Machine Learning. Sydney,Australia. PMLR,2017:214-223.
[4]田樂,祝雙武,王茹,等.生成對抗網(wǎng)絡(luò)及其在紡織行業(yè)中的應(yīng)用[J].紡織科技進(jìn)展,2023(11):1-7.
[5]Wu Q,Zhu B,Yong B,et al. ClothGAN:Generation offashionable Dunhuang clothes using generative adversarialnetworks[J].Connection Science,2021,33(2):341-358.
[6]劉康,馬浩然,邢樂.基于生成對抗網(wǎng)絡(luò)的中式婚服設(shè)計(jì)[J].服裝學(xué)報(bào),2024,9(3):208-214.
[7] Sohl-Dickstein J,Weiss E,Maheswaranathan N,et al. Deepunsupervised learning using nonequilibrium thermodynamics[C]/Proceedings of the 32nd International Conference on MachineLearning. Lille,F(xiàn)rance.PMLR,2015:2256-2265.
[8]Ho J,Jain A N,Abbeel P. Denoising diffusion probabilisticmodels[C]//Proceedings of the 34th International Conference onNeural Information Processing Systems. Red Hook, NY:Curran Associates,Inc.,2020:6840-6851.
[9]Rombach R,Blattmann A,Lorenz D,et al. High-resolutionimage synthesis with latent diffusion models[C]//2o22 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).June18-24,2022,NewOrleans,LA,USA.IEEE,2022:10674-10685.
[10]Podell D,English Z,Lacey K,et al. SDXL:Improving latentdiffusion models for high-resolution image synthesis [EB/OL].(2023-07-04)[2025-03-03]. https:// arxiv. org/abs/2307.01952vl.
[11]Ruiz N,LiY Z,Jampani V,etal. DreamBooth:fine tuning text-to-image diffusion models for subject-driven generation[C]//2023IEEE/CVF Conference on Computer Vision and PatternRecognition(CVPR).June 17-24,2O23,Vancouver,BC,Canada.IEEE,2023:22500-22510.
[12]HuEJ,ShenY,WallisP,etal.LoRA:Low-rankadaptationof large language models[EB/OL]. (202l-10-16)[2025-03-03].https://arxiv.org/abs/2106.09685? context = cs. LG.
[13]黃詩敏.STABLEDIFFUSION(SD)技術(shù)在廣繡創(chuàng)作中的應(yīng)用[D].廣州:廣州大學(xué),2024:30-64.
[14]李鋼.基于改進(jìn)CycleGAN和穩(wěn)定擴(kuò)散模型的陶瓷圖案生成算法研究[D].景德鎮(zhèn):景德鎮(zhèn)陶瓷大學(xué),2024:45-56.
[15]冉二飛,賈小軍,王子祥,等.應(yīng)用穩(wěn)定擴(kuò)散模型的藍(lán)印花布單紋樣自動生成[J].現(xiàn)代紡織技術(shù),2024,32(12):48-57.
(責(zé)任編輯:康 鋒)