摘 要:為了解決苗繡圖像樣本量不足以及識(shí)別精度較低的問題,提出了一個(gè)新穎的樣式生成對(duì)抗網(wǎng)絡(luò)(StyleGAN2)結(jié)合高效通道注意力機(jī)制(ECA)優(yōu)化的殘差神經(jīng)網(wǎng)絡(luò)(ResNet50)苗繡圖像分類模型。首先,利用StyleGAN2對(duì)原始苗繡數(shù)據(jù)集進(jìn)行訓(xùn)練和生成,以擴(kuò)充小樣本數(shù)據(jù)集。接著,在ResNet50骨干網(wǎng)絡(luò)中融入ECA注意力機(jī)制,增強(qiáng)了模型的特征提取能力。最終,結(jié)合StyleGAN2和ECA優(yōu)化后的ResNet50創(chuàng)建了新的StyleGAN2-ECA-ResNet50模型,用于小樣本苗繡圖像的識(shí)別。實(shí)驗(yàn)結(jié)果顯示,該方法在測(cè)試集上的準(zhǔn)確率達(dá)到了89.29%,較傳統(tǒng)的ResNet50模型提高了5.87%,并且在性能上超過了多個(gè)先進(jìn)的深度學(xué)習(xí)模型。
關(guān)鍵詞:苗繡;小樣本圖像分類;數(shù)據(jù)增強(qiáng);StyleGAN2;ECA
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)02-0024-09
Research on Generation and Recognition of Few-Shot Miao Embroidery Images
WU Jing1,2, YANG Bangqin1, ZHANG Yinjian1, LI Mingzhu2, CHEN Yan1,3
(1.School of Data Science and Information Engineering, Guizhou Minzu University, Guiyang 550025, China; 2.ZX-YZ School of Network Science, Haikou University of Economics, Haikou 570203, China; 3.School of Automation Science and Engineering, South China University of Technology, Guangzhou 510641, China)
Abstract: To address the issues of insufficient sample sizes and low recognition accuracy of Miao embroidery images, this paper proposes a novel Miao embroidery image classification model, which combines StyleGAN2 with optimized ResNet50 by the Efficient Channel Attention (ECA). Firstly, StyleGAN2 is utilized to train and generate on the original Miao embroidery dataset, thereby augmenting the Few-Shot dataset. Subsequently, the ECA Attention Mechanism is integrated into the ResNet50 backbone network to enhance the feature extraction capability of the model. Ultimately, the new StyleGAN2-ECA-ResNet50 model is created by combining StyleGAN2 and ResNet50 optimized by ECA for the recognition of Few-Shot Miao embroidery images. Experimental results show that the accuracy of this method reaches 89.29% on the test set, which is an improvement of 5.87% over the traditional ResNet50 model and surpasses several advanced Deep Learning models in performance.
Keywords: Miao embroidery; Few-Shot image classification; data augmentation; StyleGAN2; ECA
0 引 言
苗繡,作為中國獨(dú)特的非物質(zhì)文化遺產(chǎn),是中國苗族文化的重要組成部分,具有深厚的歷史文化積淀和豐富的藝術(shù)價(jià)值。它不僅是苗族人民日常生活、婚嫁儀式等重要社會(huì)活動(dòng)中的必備技藝,更承載著苗族獨(dú)特的民族記憶與審美追求[1]。然而,隨著現(xiàn)代化的推進(jìn)和傳統(tǒng)手工藝傳承方式的衰退,苗繡的生存環(huán)境日益嚴(yán)峻。為了保護(hù)這一珍貴的非物質(zhì)文化遺產(chǎn),探索數(shù)字化手段的保護(hù)與傳承已成為當(dāng)前學(xué)界和文化保護(hù)領(lǐng)域的重要方向[2]。
近年來,苗繡的數(shù)字化保護(hù)日益受到重視。數(shù)字化技術(shù)為苗繡的紋樣、技法和文化信息的精確記錄提供了新的手段,不僅能夠動(dòng)態(tài)保存這一非物質(zhì)文化遺產(chǎn),還可以通過虛擬現(xiàn)實(shí)(VR)和增強(qiáng)現(xiàn)實(shí)(AR)等技術(shù)增強(qiáng)其展示效果,提升觀眾的互動(dòng)體現(xiàn)[3]。此外,智能繡花機(jī)的數(shù)碼仿真技術(shù)在苗繡的傳承與創(chuàng)新中發(fā)揮了重要作用,為其在現(xiàn)代社會(huì)中的應(yīng)用開辟了新的路徑[4]。陳世婕的研究表明,利用多尺度網(wǎng)絡(luò)對(duì)苗繡繡片紋樣進(jìn)行分割,不僅提高了圖像處理的效率,還為苗繡的數(shù)字化保護(hù)提供了技術(shù)支持[5]。田玉晶在貴州遵義苗繡紋樣的數(shù)字化生成研究中指出,數(shù)字技術(shù)可以實(shí)現(xiàn)苗繡紋樣的高效生成和展示,為苗繡的傳承提供了新的途徑[6]。通過數(shù)字化手段,不僅可以記錄和保存?zhèn)鹘y(tǒng)苗繡的技藝和圖案,還能通過線上平臺(tái)進(jìn)行展示和傳播,使得更多人能夠了解和學(xué)習(xí)這一傳統(tǒng)技藝。
在當(dāng)前的計(jì)算機(jī)視覺領(lǐng)域,小樣本學(xué)習(xí)(Few-Shot Learning, FSL)作為一種應(yīng)對(duì)訓(xùn)練數(shù)據(jù)稀缺的有效方法,受到廣泛關(guān)注。小樣本學(xué)習(xí)的主要方法包括元學(xué)習(xí)(Meta-Learning),通過從多任務(wù)中學(xué)習(xí)共享知識(shí)快速適應(yīng)新任務(wù);度量學(xué)習(xí)(Metric Learning),通過優(yōu)化度量空間提升分類性能;以及數(shù)據(jù)增強(qiáng)(Data Augmentation),用于擴(kuò)充有限數(shù)據(jù)以增強(qiáng)模型泛化能力[7-9]。
近年來,國內(nèi)外學(xué)者采用了多種深度學(xué)習(xí)模型來解決小樣本分類問題。例如,EfficientNetB0作為一種高效的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),通過復(fù)合縮放方法提升了分類性能,但在處理高多樣性的圖像數(shù)據(jù)時(shí)表現(xiàn)仍不夠理想[10]。MobileNetV2由于其輕量化結(jié)構(gòu)和高效的卷積操作,被廣泛應(yīng)用于移動(dòng)設(shè)備中的圖像分類任務(wù),然而在小樣本學(xué)習(xí)場(chǎng)景中,其泛化能力有限[11]。DenseNet121通過密集連接機(jī)制改善了梯度傳遞和特征復(fù)用,但在面對(duì)復(fù)雜的苗繡圖案時(shí),其特征提取能力仍顯不足[12]。VGG16以其深層次的網(wǎng)絡(luò)結(jié)構(gòu)在許多圖像分類任務(wù)中表現(xiàn)優(yōu)異,但其參數(shù)量大,計(jì)算成本高,且在小樣本學(xué)習(xí)中容易過擬合[13]。針對(duì)上述模型的不足,本文提出了一種結(jié)合StyleGAN2數(shù)據(jù)增強(qiáng)和ECA注意力機(jī)制的苗繡圖像分類方法,以提高分類精度和泛化能力。
本文選擇數(shù)據(jù)增強(qiáng)方法來解決苗繡小樣本圖像分類問題,采用StyleGAN2來擴(kuò)充數(shù)據(jù)集。StyleGAN2是基于StyleGAN改進(jìn)的生成對(duì)抗網(wǎng)絡(luò)(GAN),在圖像生成任務(wù)中表現(xiàn)出色,能夠生成高質(zhì)量且多樣化的圖像,有效緩解過擬合問題并提高模型的泛化能力[14-15]。通過使用StyleGAN2,能夠擴(kuò)展現(xiàn)有的數(shù)據(jù)集,捕捉到苗繡圖案的細(xì)微特征,進(jìn)一步提高分類模型的精度。在數(shù)據(jù)增強(qiáng)之后,在ResNet50模型中嵌入了有效通道注意力機(jī)制(Efficient Channel Attention, ECA),以進(jìn)一步提升分類性能。ECA注意力機(jī)制通過自適應(yīng)地調(diào)整不同通道的權(quán)重來增強(qiáng)模型對(duì)關(guān)鍵特征的關(guān)注,從而提高分類的準(zhǔn)確性和魯棒性[16]。
本文的主要貢獻(xiàn)包括:提出了一種結(jié)合StyleGAN2數(shù)據(jù)增強(qiáng)和ECA注意力機(jī)制的苗繡圖像分類方法;通過實(shí)驗(yàn)證明,使用StyleGAN2生成的擴(kuò)充數(shù)據(jù)結(jié)合嵌入ECA注意力機(jī)制的ResNet50模型,能夠顯著提升分類性能;為苗繡設(shè)計(jì)的創(chuàng)意化提供了一種人工智能的方式——利用算法進(jìn)行苗繡圖像生成。
1 理論基礎(chǔ)
1.1 ResNet50殘差網(wǎng)絡(luò)
本文選擇了基于ResNet50的架構(gòu)作為核心的卷積神經(jīng)網(wǎng)絡(luò)框架。ResNet50通過引入恒等映射的卷積網(wǎng)絡(luò)結(jié)構(gòu)來減輕退化問題,消減深度網(wǎng)絡(luò)的訓(xùn)練難度,提高網(wǎng)絡(luò)的性能及精度。該模型的結(jié)構(gòu)包括六個(gè)關(guān)鍵部分:一個(gè)輸入單元、四個(gè)包含不同數(shù)量殘差單元(3、4、6和3個(gè))的殘差模塊,以及一個(gè)輸出單元。每個(gè)殘差塊的基本結(jié)構(gòu)如下:
(1)
其中,x表示輸入,y表示輸出,表示殘差函數(shù),表示卷積、批歸一化(Batch Normalization, BN)和ReLU激活函數(shù)的組合操作。具體地,殘差函數(shù)F可以表示為:
(2)
每個(gè)殘差塊內(nèi)部通過增加恒等映射(Identity Mapping)路徑,保留輸入信息,使得網(wǎng)絡(luò)在訓(xùn)練深層模型時(shí)仍然能夠保持有效的梯度流動(dòng),解決了深層網(wǎng)絡(luò)訓(xùn)練困難的問題。關(guān)于ResNet50的整體架構(gòu)如表1所示。
1.2 StyleGAN2網(wǎng)絡(luò)
StyleGAN2是一種先進(jìn)的生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network, GAN)模型,用于高質(zhì)量圖像生成。相比其前身StyleGAN,StyleGAN2引入了更有效的歸一化和調(diào)制方法,從而顯著提高了圖像生成的質(zhì)量和多樣性。StyleGAN2的生成器主要分為兩個(gè)部分:映射網(wǎng)絡(luò)(Mapping Network)和合成網(wǎng)絡(luò)(Synthesis Network)。
映射網(wǎng)絡(luò)通過8層全連接層將輸入潛在向量z映射到中間潛在空間w:
(3)
其中,M表示映射函數(shù)。這種設(shè)計(jì)使得潛在空間的表示更具表達(dá)力,能夠更好地控制生成圖像的風(fēng)格。
合成網(wǎng)絡(luò)通過一系列的卷積操作和逐層調(diào)制(Modulation)與去調(diào)制(Demodulation)來生成圖像。合成網(wǎng)絡(luò)中的每個(gè)卷積層都由風(fēng)格調(diào)制和噪聲注入(Noise Injection)操作組成,其算式如下:
(4)
其中,Mod(x,w)表示由風(fēng)格向量w控制的調(diào)制參數(shù),Demod表示去調(diào)制操作,Noise表示注入的噪聲,用于增加圖像的細(xì)節(jié)。
在StyleGAN2中,調(diào)制與去調(diào)制操作的算式為:
(5)
(6)
其中,表示逐元素乘法,s表示尺度參數(shù),ε表示一個(gè)小常數(shù)用于數(shù)值穩(wěn)定性。
StyleGAN2引入了層級(jí)正則化(Per-Layer Regularization)來減少偽影和提高圖像質(zhì)量。同時(shí),采用了改進(jìn)的歸一化技術(shù),如正態(tài)化(Normalization)和方差調(diào)制(Variance Modulation),使得生成的圖像更加穩(wěn)定和逼真。圖1展示了StyleGAN2生成器的整體架構(gòu)。
(7)
其中,A和B分別表示調(diào)制和偏移參數(shù),Conv表示卷積操作。
StyleGAN2在圖像生成任務(wù)中表現(xiàn)出色,尤其是在高分辨率圖像生成和多樣性上有顯著提升,適用于小樣本數(shù)據(jù)集的樣本擴(kuò)充。
1.3 ECA注意力機(jī)制
ECA注意力機(jī)制是一種高效的通道注意力機(jī)制,通過局部跨通道交互捕捉不同通道之間的關(guān)系,顯著提高了卷積神經(jīng)網(wǎng)絡(luò)的性能。ECA的核心思想是避免通過全連接層對(duì)每個(gè)通道的特征進(jìn)行加權(quán),而是采用局部的1D卷積來實(shí)現(xiàn)通道間的交互。其基本操作步驟如下:
對(duì)輸入特征圖X進(jìn)行全局平均池化(Global Average Pooling, GAP):
(8)
其中,H和W分別表示特征圖的高度和寬度,c表示通道索引。
對(duì)池化后的特征圖進(jìn)行1D卷積操作:
(9)
其中,σ表示sigmoid激活函數(shù),Conv1D表示1D卷積操作。
將加權(quán)后的特征與原始輸入特征進(jìn)行逐通道相乘:
(10)
通過這種方式,ECA機(jī)制能夠自適應(yīng)地調(diào)整每個(gè)通道的權(quán)重,從而增強(qiáng)重要特征,抑制無關(guān)特征。圖2展示了ECA模塊的結(jié)構(gòu)。
2 本文所提模型架構(gòu)
2.1 苗繡小樣本生成識(shí)別模型框架流程圖
在本次研究中,提出了一種改進(jìn)的基于樣式生成對(duì)抗網(wǎng)絡(luò)(StyleGAN2)和高效注意力機(jī)制(ECA)的苗繡小樣本生成識(shí)別模型框架,稱為StyleGAN2-ECA-ResNet50模型框架,其結(jié)構(gòu)如圖3所示。
從StyleGAN2-ECA-ResNet50模型框架流程圖中可以看出,本文采用了跨域遷移學(xué)習(xí)方法[17]。遷移學(xué)習(xí)是一種深度學(xué)習(xí)方法,它通過復(fù)用源數(shù)據(jù)集中訓(xùn)練好的模型權(quán)重,能夠有效解決目標(biāo)數(shù)據(jù)集數(shù)據(jù)不足的問題,減少對(duì)大規(guī)模標(biāo)注數(shù)據(jù)的依賴,并提高模型在目標(biāo)任務(wù)中的性能[18-19]。ImageNet數(shù)據(jù)集龐大,包含約1 400萬張圖像和1 000個(gè)類別。在ImageNet上訓(xùn)練的特征可以有效地遷移到其他圖像分類任務(wù)中,并且使用遷移學(xué)習(xí)進(jìn)行訓(xùn)練比從頭開始訓(xùn)練效果更好。
該模型的工作流程可分為三個(gè)步驟:
1)對(duì)MX數(shù)據(jù)集使用StyleGAN2進(jìn)行數(shù)據(jù)擴(kuò)充。即從潛在空間z采樣潛在向量并進(jìn)行歸一化處理,將歸一化后的潛在向量通過映射網(wǎng)絡(luò)映射到中間潛在空間,并進(jìn)行結(jié)構(gòu)操作生成風(fēng)格向量,風(fēng)格向量再通過合成網(wǎng)絡(luò)最終輸出新生成的苗繡圖像。
2)在ResNet50模型中嵌入ECA模塊。圖中的CB(eca)則表示嵌入了ECA模塊的卷積塊,亦即嵌入了ECA的Bottleneck塊,輸入圖像通過卷積層、池化層和ECA注意力機(jī)制模塊后被提取特征,最后通過全局平均池化和全連接層進(jìn)行分類。
3)將預(yù)訓(xùn)練的ECA-ResNet50模型進(jìn)行遷移學(xué)習(xí),并對(duì)最后一層進(jìn)行微調(diào),使其適應(yīng)生成的圖像和原始圖像的混合輸入。即新生成的圖像與原始MX圖像被混合輸入到微調(diào)后的嵌入ECA模塊的ResNet50模型中,利用預(yù)訓(xùn)練的模型權(quán)重,通過卷積層、池化層和ECA注意力機(jī)制模塊提取圖像特征,最終通過全局平均池化和全連接層進(jìn)行分類,得到苗繡分類結(jié)果。
2.2 苗繡分類器ECA-ResNet50介紹
該模型的關(guān)鍵部分是將ECA注意力機(jī)制嵌入到ResNet50的殘差塊中,以提升模型的特征提取能力。具體來說,ECA模塊被嵌入在每個(gè)殘差塊的ReLU激活函數(shù)之后,通過對(duì)每個(gè)通道進(jìn)行加權(quán),增強(qiáng)重要特征的表達(dá)。ECA模塊通過全局平均池化(GAP)和一維卷積(Conv1D)實(shí)現(xiàn)對(duì)通道注意力的高效捕捉。首先,對(duì)輸入特征圖進(jìn)行全局平均池化,得到每個(gè)通道的全局描述,然后通過一維卷積操作實(shí)現(xiàn)通道間的交互,最后通過Sigmoid激活函數(shù)生成注意力權(quán)重,并將這些權(quán)重應(yīng)用于原始特征圖上,從而增強(qiáng)重要通道特征,抑制不重要通道特征。
在具體實(shí)現(xiàn)上,將預(yù)訓(xùn)練的ResNet50模型中的每個(gè)瓶頸層(Bottleneck)替換為帶有ECA模塊的增強(qiáng)版瓶頸層。原始的瓶頸層由多個(gè)卷積層和批歸一化層組成,在這些層之后嵌入ECA模塊,使得每個(gè)瓶頸層在提取空間特征的同時(shí),還能動(dòng)態(tài)調(diào)整通道的重要性。
改進(jìn)后的瓶頸層結(jié)構(gòu)如下:
1)輸入特征圖經(jīng)過多個(gè)卷積層和批歸一化層的處理。
2)在ReLU激活函數(shù)之后,特征圖進(jìn)入ECA模塊,通過全局平均池化和一維卷積生成注意力權(quán)重。
3)將注意力權(quán)重應(yīng)用于特征圖,增強(qiáng)關(guān)鍵特征。
4)將原始輸入特征圖通過殘差連接與增強(qiáng)后的特征圖相加,緩解梯度消失問題。
5)最后經(jīng)過ReLU激活函數(shù),輸出處理后的特征圖。
通過這種方式,ECA模塊能夠在保持網(wǎng)絡(luò)深度和復(fù)雜度的同時(shí),進(jìn)一步提升模型對(duì)重要特征的學(xué)習(xí)效率和精確度。在ECA-ResNet50中,每個(gè)殘差塊經(jīng)過上述改進(jìn),使得整個(gè)模型在特征提取過程中更加高效,嵌入ECA模塊前后Bottleneck block結(jié)構(gòu)如圖4所示。這種嵌入方式的優(yōu)勢(shì)在于,通過局部的卷積操作實(shí)現(xiàn)了對(duì)通道注意力的高效捕捉,同時(shí)避免了全連接層帶來的大量參數(shù)開銷,適用于各種深層卷積神經(jīng)網(wǎng)絡(luò)。
3 實(shí)驗(yàn)設(shè)置
3.1 實(shí)驗(yàn)數(shù)據(jù)集及參數(shù)
本文使用的苗繡數(shù)據(jù)集主要通過實(shí)地調(diào)研貴州省黔東南苗族侗族自治州臺(tái)江縣的苗族村落獲得。研究團(tuán)隊(duì)在走訪過程中用手機(jī)拍攝收集了這些數(shù)據(jù),確保了數(shù)據(jù)的真實(shí)性和多樣性,下面將該苗繡數(shù)據(jù)集稱為MX,其包含九個(gè)類別,分別是板絲繡、辮繡、堆繡、打籽繡、破線繡、梳繡、雙針繞線繡、錫繡和皺繡,共計(jì)1 970張圖片,各類苗繡的典型圖片如圖5所示,MX數(shù)據(jù)集訓(xùn)練和測(cè)試集按照8∶2的比例劃分,具體樣本數(shù)量如表2所示。
此外,將經(jīng)過StyleGAN2模型擴(kuò)充后的數(shù)據(jù)集命名為MX-A,即在MX訓(xùn)練集中為每類苗繡增加了600張圖片。擴(kuò)充生成的苗繡圖片如表3所示,具體類別數(shù)量及擴(kuò)充率如表4所示。
StyleGAN2-ECA-ResNet50模型運(yùn)行實(shí)驗(yàn)環(huán)境為L(zhǎng)inux操作系統(tǒng),CUDA版本為11.3,軟件編程環(huán)境為Python 3.9.7,使用的深度學(xué)習(xí)框架為PyTorch 1.10.1,使用的顯卡為英偉達(dá) GeForce RTX 2080 Ti,顯存為11 GB。模型訓(xùn)練epoch設(shè)置為30,批量大小設(shè)置為32。
3.2 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
為了對(duì)StyleGAN2-ECA-ResNet50模型性能進(jìn)行評(píng)估,采用準(zhǔn)確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1分?jǐn)?shù)(F1 Score)四個(gè)指標(biāo)作為實(shí)驗(yàn)的評(píng)估標(biāo)準(zhǔn)。計(jì)算式如下所示:
(11)
(12)
(13)
(14)
如表5所示,TP(True Positive)表示真正類的正確預(yù)測(cè)數(shù),TN(True Negative)表示真負(fù)類的正確預(yù)測(cè)數(shù),F(xiàn)P(False Positive)表示負(fù)類被錯(cuò)誤預(yù)測(cè)為正類的數(shù)目,F(xiàn)N(False Negative)表示正類被錯(cuò)誤預(yù)測(cè)為負(fù)類的數(shù)目。
4 結(jié)果與分析
4.1 消融實(shí)驗(yàn)
為了評(píng)估數(shù)據(jù)增強(qiáng)方法StyleGAN2和ECA注意力機(jī)制在ResNet50模型中的有效性,在上述自己構(gòu)建的苗繡數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn)。逐步將StyleGAN2和ECA注意力機(jī)制引入到ResNet50網(wǎng)絡(luò)中得到StyleGAN2-ResNet50以及將StyleGAN2和ECA注意力機(jī)制共同添加到ResNet50網(wǎng)絡(luò)中得到StyleGAN2-ECA-ResNet50模型,并將它們與原ResNet50模型進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表6所示。
由表5可知,通過遷移學(xué)習(xí)后重訓(xùn)練的ResNet50模型顯示出了基本的性能水平,其準(zhǔn)確率為83.42%,精確度為84.74%,召回率為82.53%,F(xiàn)1得分為83.53%。這一結(jié)果為后續(xù)的技術(shù)增強(qiáng)提供了基準(zhǔn),具體如下:
1)引入StyleGAN2后的模型StyleGAN2-ResNet50,其性能得到了顯著提升。具體而言,模型的準(zhǔn)確率提高到85.71%,精確度提高到87.98%,召回率提高到85.58%,F(xiàn)1得分提高到86.52%。這一顯著提升表明,StyleGAN2對(duì)模型的特征提取和圖像理解能力有極大的增強(qiáng)作用。
2)同時(shí)采用StyleGAN2和ECA注意力機(jī)制的模型StyleGAN2-ECA-ResNet50展現(xiàn)了最佳性能,準(zhǔn)確率高達(dá)89.29%,相比于ResNet50模型提升了5.87%,精確度為89.88%,召回率為88.54%,F(xiàn)1得分為88.96%。這表明兩種技術(shù)的結(jié)合存在協(xié)同效應(yīng),共同推動(dòng)了模型性能的極大提升。
整體上看,這些消融實(shí)驗(yàn)結(jié)果清楚地展示了不同技術(shù)組合在提高模型性能方面的有效性和潛力。特別是StyleGAN2和ECA的結(jié)合,在所有評(píng)估指標(biāo)上都表現(xiàn)出最優(yōu)性能,證實(shí)了多技術(shù)集成的策略在復(fù)雜模型優(yōu)化中的重要價(jià)值。同時(shí),這也證明了StyleGAN2數(shù)據(jù)增強(qiáng)方法和ECA注意力機(jī)制在ResNet50網(wǎng)絡(luò)中的有效性。
4.2 對(duì)比實(shí)驗(yàn)
為進(jìn)一步評(píng)估StyleGAN2-ECA-ResNet50模型的性能,在同等實(shí)驗(yàn)條件下,將其與當(dāng)前領(lǐng)域內(nèi)一些表現(xiàn)卓越的模型進(jìn)行了對(duì)比分析,包括EfficientNetB0、MobileNetV2、DenseNet121和VGG16。這些模型在MX數(shù)據(jù)集上的分類表現(xiàn)如表7所示。
通過一系列綜合性能指標(biāo)的評(píng)估,包括準(zhǔn)確率、精確度、召回率和F1分?jǐn)?shù)。本文模型(StyleGAN2-ECA-ResNet50)表現(xiàn)出了卓越的性能,其準(zhǔn)確率高達(dá)89.29%,精確度為89.88%,召回率為88.54%,F(xiàn)1分?jǐn)?shù)為88.96%,除了精確率略低于模型VGG-16外,其余指標(biāo)均高于其他對(duì)比模型。各模型在苗繡測(cè)試集上的準(zhǔn)確率變化曲線如圖6所示。
總體而言,本文模型(StyleGAN2-ECA-ResNet50)顯現(xiàn)出了在精確性和泛化能力上的顯著優(yōu)勢(shì)。尤其在準(zhǔn)確率和召回率上,模型展示了它在正確識(shí)別和減少誤判方面的強(qiáng)大能力,確保了對(duì)苗繡圖像細(xì)膩特征的高度敏感性和識(shí)別準(zhǔn)確性。這些成果不僅驗(yàn)證了該模型在圖像分類領(lǐng)域的強(qiáng)大應(yīng)用潛力,也為未來圖像處理技術(shù)的研究和實(shí)際應(yīng)用提供了寶貴的參考和啟示。
5 結(jié) 論
本文提出了一種新穎的苗繡圖像生成識(shí)別模型StyleGAN2-ECA-ResNet50。通過利用StyleGAN2生成技術(shù),顯著擴(kuò)展了苗繡圖像數(shù)據(jù)集,不僅有效解決了苗繡樣本量不足的問題,為ResNet50分類模型提供了豐富且多樣的訓(xùn)練樣本,同時(shí)還為苗繡的設(shè)計(jì)提出了一種AI解決的方式——苗繡圖像生成。通過添加ECA注意力機(jī)制,使得ResNet50能夠有效地處理不同層次的圖像信息,降低了分類難度,顯著提升了苗繡圖像的分類精度,這也進(jìn)一步推動(dòng)了苗繡作品的數(shù)字化保護(hù)。展望未來,計(jì)劃進(jìn)一步優(yōu)化生成模型,以產(chǎn)生更高質(zhì)量的圖像,從而從源頭上解決數(shù)據(jù)質(zhì)量問題。此外,本文提出的圖像生成與分類框架也可應(yīng)用于更廣泛的小樣本圖像分類任務(wù)中,例如侗族服飾分類、瑤族刺繡分類、蒙古族節(jié)日?qǐng)D像分類等。
參考文獻(xiàn):
[1] 耿心入.貴州苗繡色彩與野獸主義繪畫色彩對(duì)比分析 [J].文藝爭(zhēng)鳴,2024(7):194-197.
[2] 劉文良,黃潔.數(shù)字時(shí)代苗繡智慧化傳承的困惑與破解路徑研究 [J].家具與室內(nèi)裝飾,2023,30(1):68-74.
[3] 代永琪,彭莉,謝乃鵬.數(shù)字賦能:基于視覺Transformer的非遺苗繡紋樣數(shù)字化提取 [J].絲綢,2024,61(7):14-24.
[4] 王建萍,周玉瑩,虞倩雯,等.基于智能繡花機(jī)的數(shù)碼仿真縐繡研發(fā)和工藝參數(shù)研究 [J].絲綢,2024,61(7):47-54.
[5] 陳世婕,王衛(wèi)星,彭莉.基于多尺度網(wǎng)絡(luò)的苗繡繡片紋樣分割算法研究 [J].計(jì)算機(jī)技術(shù)與發(fā)展,2023,33(11):149-155.
[6] 田玉晶,薛凱文,崔齊,等.貴州遵義苗繡紋樣的數(shù)字化生成研究 [J].東華大學(xué)學(xué)報(bào):社會(huì)科學(xué)版,2023,23(2):49-58.
[7] CHEN H X,LI H X,LI Y H,et al. Multi-level Metric Learning for Few-Shot Image Recognition [C]//Artificial Neural Networks and Machine Learning(ICANN 2022).Bristol:Springer International Publishing,2022:243-254.
[8] LI X,SONG K,LIN T,et al. PDAMeta: Meta-Learning Framework with Progressive Data Augmentation for Few-Shot Text Classification [C]//2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation(LREC-COLING 2024).Torino:ELRA and ICCL,2024:12668-12678.
[9] SONG Y S,WANG T,MONDAL S K,et al. A Comprehensive Survey of Few-Shot Learning: Evolution, Applications, Challenges, and Opportunities [J/OL].arXiv:2205.06743 [cs.LG].(2022-05-13).https://arxiv.org/abs/2205.06743v1.
[10] TAN M X,LE Q V. EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks [C]//International Conference on Machine Learning.Taiyuan:IMLS,2019:6105-6114.
[11] SANDLER M,HOWARD A,ZHU M L,et al. MobileNetV2: Inverted Residuals and Linear Bottlenecks [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Salt Lake City:IEEE,2018:4510-4520.
[12] HUANG G,LIU Z,MAATEN L V D,et al. Densely Connected Convolutional Networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR).Honolulu:IEEE,2017:2261-2269.
[13] SIMONYAN K,ZISSERMAN A. Very Deep Convolutional Networks for Large-scale Image Recognition [J/OL].arXiv:1409.1556 [cs.CV].(2014-09-04).https://arxiv.org/abs/1409.1556.
[14] KARRAS T,LAINE S,AITTALA M,et al. Analyzing and Improving the Image Quality of StyleGAN [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:8107-8116.
[15] KARRAS T,LAINE S,AILA T. A Style-based Generator Architecture for Generative Adversarial Networks [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2021,43(12):4217-4228.
[16] WANG Q L,WU B G,ZHU P F,et al. ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR).Seattle:IEEE,2020:11531-11539.
[17] 孟偉,袁藝琳.遷移學(xué)習(xí)應(yīng)用于新型冠狀病毒肺炎診斷綜述 [J].計(jì)算機(jī)科學(xué)與探索,2023,17(3):561-576.
[18] IMAN M,RASHEED K,ARABNIA H R. A Review of Deep Transfer Learning and Recent Advancements [J/OL].arXiv:2201.09679 [cs.LG].(2022-01-19).https://arxiv.org/abs/2201.09679?context=cs.CV6.
[19] TIAN S I P,REN Z,VENKATARAJ S,et al. Tackling Data Scarcity with Transfer Learning: A Case Study of thickness Characterization from Optical Spectra of Perovskite Thin Films [J/OL].arXiv:2207.02209 [cs.LG].(2022-06-14).https://arxiv.org/abs/2207.02209.
作者簡(jiǎn)介:吳菁(1988.05—),女,苗族,貴州貴陽人,副教授,碩士生導(dǎo)師,博士,研究方向:檢測(cè)技術(shù)與自動(dòng)化裝置;楊邦勤(1999.10—),女,漢族,貴州黎平人,碩士在讀,研究方向:海量數(shù)據(jù)統(tǒng)計(jì)與分析;張銀建(1998.09—),男,漢族,貴州織金人,碩士在讀,研究方向:海量數(shù)據(jù)統(tǒng)計(jì)與分析;李明珠(1983.03—),女,漢族,海南臨高人,副教授,碩士,研究方向:智能檢測(cè)與智能控制、軟測(cè)量建模;通信作者:陳妍(1987.09—),女,漢族,貴州遵義人,博士在讀,研究方向:苗繡圖像識(shí)別研究與可視化。
DOI:10.19850/j.cnki.2096-4706.2025.02.005
收稿日期:2024-09-02
基金項(xiàng)目:貴州省科技計(jì)劃項(xiàng)目(黔科合基礎(chǔ)-ZK〔2021〕一般340);貴州省教育廳自然科學(xué)研究項(xiàng)目(黔教技〔2023〕061號(hào));貴州省教育廳自然科學(xué)研究項(xiàng)目(黔教技〔2023〕012號(hào));貴州省教育廳自然科學(xué)研究項(xiàng)目(黔教技〔2022〕047號(hào));貴州民族大學(xué)博士科研啟動(dòng)項(xiàng)目(GZMUZK〔2024〕QD11)