摘要:近年來,分類技術(shù)已經(jīng)在很多領(lǐng)域取得了成功,其中包括人臉識別、商品識別以及少數(shù)民族服飾識別等。然而,在服飾分類應(yīng)用領(lǐng)域中,識別穿著少數(shù)民族服裝的人仍然是一個具有挑戰(zhàn)性的問題。這主要是由于少數(shù)民族服裝的特征較為復(fù)雜,具有較多的個體差異性,而且在不同場景環(huán)境下表現(xiàn)也各不相同,因此難以提取穩(wěn)定且魯棒的特征。該綜述了基于卷積神經(jīng)網(wǎng)絡(luò)的少數(shù)民族服裝識別分類方法的研究現(xiàn)狀,深入分析了少數(shù)民族服裝識別中存在的挑戰(zhàn),并探討了基于深度卷積神經(jīng)網(wǎng)絡(luò)的民族服裝識別分類的未來發(fā)展方向。
關(guān)鍵詞:少數(shù)民族服飾;圖像識別;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP18文獻(xiàn)標(biāo)識碼:A
文章編號:1009-3044(2024)35-0029-02開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
0引言
隨著電子商務(wù)和網(wǎng)絡(luò)的快速發(fā)展,對服裝識別精度的要求日益提高,少數(shù)民族服裝的多樣性和復(fù)雜性給其自動識別帶來了巨大挑戰(zhàn)。穿著不同服飾的各族群日益增多,以傳統(tǒng)民族服裝為代表的少數(shù)民族服裝日益受到廣泛關(guān)注和發(fā)展。少數(shù)民族服裝的多樣性和復(fù)雜性,使得其識別難度較大。然而,通過利用卷積神經(jīng)網(wǎng)絡(luò)的特征提取和分類能力,可以實現(xiàn)對少數(shù)民族服裝的準(zhǔn)確識別。
目前,已有諸多基于卷積神經(jīng)網(wǎng)絡(luò)的少數(shù)民族服裝識別方法被提出。其中,主要分為兩類:傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型和基于遷移學(xué)習(xí)的方法。在傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型方面,LeNet-5、AlexNet、VGG、GoogLeNet和ResNet等經(jīng)典卷積神經(jīng)網(wǎng)絡(luò)模型被廣泛應(yīng)用于少數(shù)民族服裝識別任務(wù)。這些模型通過對圖像進行卷積、池化、非線性激活等操作,實現(xiàn)對少數(shù)民族服裝圖像的特征提取和分類。在基于遷移學(xué)習(xí)的方法方面,主要采用預(yù)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)模型作為特征提取器,然后在少數(shù)民族服裝數(shù)據(jù)集上進行微調(diào),以提高模型的準(zhǔn)確性。目前,使用預(yù)訓(xùn)練的VGG、ResNet和Inception等模型作為特征提取器的方法已經(jīng)取得了顯著效果。本文綜述了基于卷積神經(jīng)網(wǎng)絡(luò)的少數(shù)民族服裝識別方法,重點分析了現(xiàn)有方法的優(yōu)缺點,并探討了未來的研究方向,以期為該領(lǐng)域的研究提供參考。
1少數(shù)民族服裝識別研究背景
1.1少數(shù)民族服裝識別的任務(wù)
隨著社會經(jīng)濟的快速發(fā)展,少數(shù)民族傳統(tǒng)服飾文化正處于瀕臨消失的邊緣,如何保護少數(shù)民族傳統(tǒng)服飾的遺產(chǎn)和文化已成為當(dāng)代社會的熱點話題,并成為重點研究內(nèi)容[1]。然而,這些研究大多仍停留在視覺計算機視覺技術(shù)層面,可用于保護民族服飾遺產(chǎn)和文化[2]。由于大部分研究者從社會科學(xué)的視角開展民族服飾文化的傳承與保護工作,缺乏信息技術(shù)應(yīng)用。每個民族都具有其獨特的服飾文化,信息工作量巨大。
目前,計算機視覺技術(shù)應(yīng)用于民族服飾文化的傳承與保護仍處于初級階段。雖然有學(xué)者對民族服飾形象進行了研究,但對這些服飾形象[3]中主要圖騰的自動優(yōu)化[4-5]、提取、分類[6-7]和識別等方面的研究較少,影響了從大量民族服飾形象[8]中快速有效地檢索和識別。
1.2少數(shù)民族服裝識別的任務(wù)問題及建議
近年來,少數(shù)民族服裝的識別方法大部分僅能提取服裝的色彩、圖案、形狀等特征。
網(wǎng)絡(luò)模型需要固定大小的輸入圖像。當(dāng)數(shù)據(jù)集的圖像呈現(xiàn)任意大小和比例時,將輸入圖像裁剪或縮放至固定大小會丟失部分原始圖像信息,從而影響識別的準(zhǔn)確性。針對這些問題,提出以下建議:
1)為解決少數(shù)民族服飾數(shù)據(jù)集數(shù)量不足,導(dǎo)致服裝識別準(zhǔn)確率不高且魯棒性差等問題,可以使用爬蟲工具爬取少數(shù)民族服裝圖像,并對爬取下來的圖像數(shù)據(jù)進行清洗過濾的預(yù)處理操作,以收集多個服裝數(shù)據(jù)集。
1)為解決少數(shù)民族服飾數(shù)據(jù)集數(shù)量不足,導(dǎo)致服裝識別準(zhǔn)確率不高且魯棒性差等問題,可以使用爬蟲工具爬取少數(shù)民族服裝圖像,并對爬取下來的圖像數(shù)據(jù)進行清洗過濾的預(yù)處理操作,以收集多個服裝數(shù)據(jù)集。度數(shù)據(jù)集的問題,并充分提取服裝局部特征。
3)將卷積神經(jīng)網(wǎng)絡(luò)與注意力機制相結(jié)合,以更好地提取復(fù)雜圖像的特征。注意力機制能夠有效地增強圖像特征提取,更有針對性地表達(dá)出少數(shù)民族服裝圖像的特征。
4)通過結(jié)合可視化處理技術(shù)改進服裝局部特征和對服裝整體使用注意力機制,更有效地提取圖像的復(fù)雜特征。
2卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)是目標(biāo)檢測算法的基礎(chǔ)。CNN具有較強的圖像特征獲取能力,已經(jīng)成為基于深度學(xué)習(xí)[9]的目標(biāo)檢測算法的基本骨干網(wǎng)絡(luò)。目前,主流的CNN網(wǎng)絡(luò)結(jié)構(gòu)包括Alex-Net、VGG-Net、Inception、ResNet等。
2.1AlexNet
Alex-Net[10]在ILSRVC-2012數(shù)據(jù)集的分類任務(wù)中獲得第一名,此后深度學(xué)習(xí)領(lǐng)域備受關(guān)注。ZF-Net、Google-Net、ResNet、VGG-Net等網(wǎng)絡(luò)模型使卷積神經(jīng)網(wǎng)絡(luò)在圖像分類方面取得重大突破。Krizhevsky等人提出的AlexNet模型結(jié)構(gòu)共有8層,其中前5層結(jié)構(gòu)分別采用一個卷積層后連接一個最大池化層的方式相連,后3層為全連接層,模型總共包含6000多萬個參數(shù)。由于少數(shù)民族服裝樣式的多樣性、圖騰的多元化以及拍攝場景的多變性,使得其識別分類成為一個極具挑戰(zhàn)性的研究課題。
2.2VGGNet
牛津大學(xué)的學(xué)者于2014年提出了VGGNet[11]。VGGNet采用相同大小的卷積核和最大池化核,將卷積層和最大池化層相結(jié)合,形成11~19層深度的卷積神經(jīng)網(wǎng)絡(luò)。VGGNet的核心思想是通過使用較小的卷積核和增加網(wǎng)絡(luò)深度來提升模型性能。VGG19在2014年大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)的定位和分類兩個項目中分別獲得第一名和第二名的成績。與以往的模型相比,VGGNet顯著降低了錯誤率,同時具有較強的可擴展性和較好的泛化性。VGG-19網(wǎng)絡(luò)模型共19層,包括16個卷積層和3個全連接層。每個卷積層使用大小為3×3的相同卷積核,并連接五個池化層(使用最大池化方法)來執(zhí)行五階段卷積特征提取。整個網(wǎng)絡(luò)結(jié)構(gòu)呈現(xiàn)高度對稱性。該網(wǎng)絡(luò)使用ReLU激活函數(shù)代替S型或tanh函數(shù)以縮短訓(xùn)練時間,并引入dropout機制來防止過擬合。Chun-yanDONG等人[12]在優(yōu)化后的VGG-Net中加入空間金字塔池化,消除了固定大小輸入圖像的限制,平均準(zhǔn)確率達(dá)到87.28%。研究表明,與Google-Net和經(jīng)過優(yōu)化的VGG-Net相比,組合網(wǎng)絡(luò)對服裝圖像的風(fēng)格識別具有更高的交叉驗證準(zhǔn)確率。服裝圖像風(fēng)格識別網(wǎng)絡(luò)能夠靈活地解決不同尺寸和尺度數(shù)據(jù)集的問題,提高了服裝圖像風(fēng)格識別的準(zhǔn)確性。此外,該網(wǎng)絡(luò)也適用于其他數(shù)據(jù)集的分類或識別任務(wù)。因此,VGG-Net更適合服裝圖像風(fēng)格識別任務(wù)。
2.3ResNet
隨著卷積神經(jīng)網(wǎng)絡(luò)層數(shù)的增加,梯度在多層反向傳播中越來越小,最終消失,且隨著網(wǎng)絡(luò)深度的增加,誤差不斷增大。為解決這一問題,何開明團隊于2015年提出ResNet[13],引入網(wǎng)絡(luò)層之間的跳變網(wǎng)絡(luò)結(jié)構(gòu),通過增加網(wǎng)絡(luò)深度來防止梯度消失。該方法通過在標(biāo)準(zhǔn)前饋神經(jīng)網(wǎng)絡(luò)上增加跳變來繞過部分層,實現(xiàn)快速連接,解決了梯度消失問題。在一個殘差網(wǎng)絡(luò)模塊中,一般的快速連接會跳過2~3層,甚至更多。在ImageNet數(shù)據(jù)集中,采用152層來評估網(wǎng)絡(luò)。雖然深度是VGG網(wǎng)絡(luò)結(jié)構(gòu)的8倍,但復(fù)雜度仍然較低。當(dāng)前大多數(shù)模型研究仍停留在對服裝色彩、圖案和形狀等淺層特征的提取,缺乏對更復(fù)雜紋理進行深層次的語義信息提取,且現(xiàn)有數(shù)據(jù)集規(guī)模較小,限制了模型的泛化能力。常用的CNN如表1所示。
3討論
隨著海量服裝的出現(xiàn),在復(fù)雜規(guī)則下,手工標(biāo)注服裝款式需要耗費大量時間和精力。此外,手工標(biāo)注服裝款式往往具有主觀性。少數(shù)民族服裝圖像的風(fēng)格識別可通過圖像識別或圖像分類技術(shù)來實現(xiàn)。通過對圖像進行裁剪、翻轉(zhuǎn)等圖像增強技術(shù)可解決數(shù)據(jù)集不足的問題。通過將模型與遷移學(xué)習(xí)方法和注意力機制等技術(shù)相結(jié)合可提升模型的識別精度。在未來的研究中,將考慮采用民族服裝圖像紋理識別算法來改進現(xiàn)有的卷積神經(jīng)網(wǎng)絡(luò)。
參考文獻(xiàn):
[1]HANNAMG,AHMEDI,NINEJ,etal.Augmentedrealitytech?nologyusingmicrosoftHoloLensinanatomicpathology[J].Ar?chivesofPathologyamp;LaboratoryMedicine,2018,142(5):638-644.
[2]TOMDIECKMC,JUNGT.Atheoreticalmodelofmobileaug?mentedrealityacceptanceinurbanheritagetourism[J].CurrentIssuesinTourism,2018,21(2):154-174.
[3]MUHAMMADA,WANGGJ.Segmentationofcalcificationandbrainhemorrhagewithmidlinedetection[C]//2017IEEEInter?nationalSymposiumonParallelandDistributedProcessingwithApplicationsand2017IEEEInternationalConferenceonUbiquitousComputingandCommunications(ISPA/IUCC).IEEE,2017:1082-1090.
[4]GAOJC,WANGHY,SHENHY.Taskfailurepredictioninclouddatacentersusingdeeplearning[C]//2019IEEEInterna?tionalConferenceonBigData(BigData).IEEE,2019:1111-1116.
[5]RAUFHT,HADIM,REHMANA.Batalgorithmwithweibullwalkforsolvingglobaloptimisationandclassificationproblems[J].InternationalJournalofBio-InspiredComputation,2020,15(3):159-170.
[6]RAUFHT,MALIKS,SHOAIBU,etal.AdaptiveinertiaweightBatalgorithmwithSugeno-functionfuzzysearch[J].AppliedSoftComputing,2020,90:106159.
[7]GAOJ,WANGH,SHENH.Machinelearningbasedworkloadpredictionincloudcomputing[C]//Proceedingsofthe29thIn?ternationalConferenceonComputerCommunicationsandNet?works(ICCCN).Honolulu:IEEE,2020:1-9.
[8]KAVANAGHS,LUXTON-REILLYA,WUENSCHEB,etal.Asystematicreviewofvirtualrealityineducation[J].ThemesinScienceandTechnologyEducation,2017,10(2):85-119.
[9]李明熹,林正奎,曲毅.計算機視覺下的車輛目標(biāo)檢測算法綜述[J].計算機工程與應(yīng)用,2019,55(24):20-28.
[10]KRIZHEVSKYA,SUTSKEVERI,HINTONGE.Imagenetclassificationwithdeepconvolutionalneuralnetworks[C]//Ad?vancesinNeuralInformationProcessingSystems.LakeTahoe:MITPress,2012:1097-1105.
[11]SIMONYANK,ZISSERMANA.Verydeepconvolutionalnet?worksforlarge-scaleimagerecognition[R/OL].arXiv:1409.1556,2014.
[12]DONGCY,YOUQ,etal.ConvolutionalNeuralNetworksforClothingImageStyleRecognition[C]//ProceedingsofInterna?tionalConferenceonPatternRecognitionandArtificialIntelli?gence.Montreal:IEEE,2018.
[13]HEK,ZHANGX,RENS,etal.Deepresiduallearningforim?agerecognition[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.LasVegas:IEEE,2016:770-778.
[14]HUANGG,LIUZ,VANDERMAATENL,etal.Denselycon?nectedconvolutionalnetworks[C]//ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.Ho?nolulu:IEEE,2017:4700-4708.
[15]HOWARDAG,ZHUM,CHENB,etal.MobileNets:Efficientconvolutionalneuralnetworksformobilevisionapplications[R/OL].arXiv:1704.04861,2017.
【通聯(lián)編輯:謝媛媛】
基金項目:廣西高校中青年教師科研基礎(chǔ)能力提升項目(項目編號:2022KY0650);2022年引進人才科研啟動項目(項目編號:302061166);廣西高校中青年教師科研基礎(chǔ)能力提升項目(項目編號:2022KY1104)