孫選銘 蘇淼
摘要: 為對數(shù)字化文物進行快速自動分類,提高藏品數(shù)字化進程,加快數(shù)字博物館的構(gòu)建,文章利用深度學習對絲綢文物的紋樣進行自動識別。依據(jù)實物紋樣的分類方法,建立了包含花卉紋、飛鳥紋、“卐”字紋、云紋四類紋樣的樣本庫。利用VGGNet、ResNet、MobileNet實現(xiàn)對紋樣的分類,結(jié)合Faster R-CNN、YOLOv5、SSD目標檢測算法實現(xiàn)對紋樣的識別與定位。實驗結(jié)果表明,MobileNet對絲綢紋樣分類的mAP達到83.51%;在目標檢測算法中YOLOv5的識別與定位效果最好,其mAP為88.42%。與通過人工分類相比,采用深度學習算法進行分類與識別,可以在降低難度的同時提高分類的速度和準確率,為紡織品文物的鑒定與保護提供了新的思路。
關(guān)鍵詞: 絲綢文物;深度學習;數(shù)字博物館;目標檢測;神經(jīng)網(wǎng)絡;自動分類
中圖分類號: TS101.1 文獻標志碼: ?A
文章編號: 10017003(2023)080001-10
引用頁碼: 081101 DOI: 10.3969/j.issn.1001-7003.2023.08.001
在信息化的時代背景下,數(shù)字化媒體與計算機技術(shù)相結(jié)合給博物館的發(fā)展帶來新機遇,文物也從傳統(tǒng)形態(tài)向數(shù)字形態(tài)轉(zhuǎn)變。因此將藏品數(shù)字化,構(gòu)建數(shù)字博物館就成了一個亟待解決的問題[1-3],而在數(shù)字博物館的搭建過程中文物的分類是一個重要的步驟。與普通的產(chǎn)品相比,文物分類難度高,其中紡織品文物由于材料難以保存、完整性差,使分類難度更高。因此,如何快速準確地完成紡織品文物的識別與分類成為一個需要解決的問題。紡織品文物的分類可以從色彩、紋樣、材料、織造工藝等多個角度進行,其中根據(jù)紋樣進行分類最為直觀,也最容易被大眾接受。并且,紋樣也是紡織品文物在出土時判斷年代的一項重要依據(jù)。目前,紡織品文物的紋樣識別主要靠人工進行。在長期的演變過程中,同一種紋樣的形態(tài)往往會發(fā)生巨大的變化。大多數(shù)的紋樣在歷史的進程中都經(jīng)歷了這樣的演變過程,這也加大了紋樣人工識別的難度,而近年來深度學習的快速發(fā)展為解決這一問題提供了新的思路。
隨著人工智能技術(shù)的不斷發(fā)展,其在人們?nèi)粘Ia(chǎn)生活中扮演的角色也越來越多,圖像識別就是其中的一個重要分支。圖像識別的逐步興起也為各行各業(yè)的發(fā)展提供了新的思路,紡織服裝領(lǐng)域也不例外。吳志鑫等[4]分別利用HSV顏色直方圖法和灰度共生矩陣(Gray-level Co-occurrence Matrix,GLCM)算法提取圖像的顏色和紋理特征,建立兩種特征融合的方法實現(xiàn)了對服裝面料圖像的檢索。高妍等[5]將R-FCN引入對服裝圖像的識別中,在降低訓練時間的同時提高了識別的準確率。狄宏靜等[6]利用BP神經(jīng)網(wǎng)絡的任意函數(shù)模擬功能,實現(xiàn)了對流行色科學、全面的預測。Bedeli等[7]以流行標志和名牌Logo為切入點,成功利用監(jiān)控攝像頭實現(xiàn)對行人服裝的分類。韓曙光等[8]利用深度學習的方法對服裝進行“三要素”識別,為顧客服裝偏好信息的快速獲取提出了新的思路。雖然國內(nèi)外都在積極嘗試將圖像識別相關(guān)技術(shù)運用到紡織服裝行業(yè)并取得了一定的結(jié)果,但紡織品文物作為其中較為獨特的領(lǐng)域,相關(guān)研究的成果寥寥無幾。本文以紡織品文物上的紋樣作為研究對象,構(gòu)建基于深度卷積神經(jīng)網(wǎng)絡的分類與目標檢測模型,對紡織品文物,尤其是絲綢織物上的紋樣進行自動識別。圖像識別的主要任務有四大類:分類(classification)、定位(location)、檢測(detection)、分隔(segmentation)。本文致力于解決分類與檢測的問題,即實現(xiàn)“給定一張紋樣圖片,判斷其中包含何種紋樣的所屬類別”和“給定一張文物圖片,定位出其中紋樣的位置并且知道定位出的是什么紋樣”兩項目標。
1 數(shù)據(jù)準備
1.1 數(shù)據(jù)的采集與描述
本文的研究對象為絲綢文物紋樣,數(shù)據(jù)的采集難度大。首先,受材質(zhì)影響,出土的紡織品文物在數(shù)量及完好程度上遠不及陶瓷器青銅器等文物;其次,出土的紡織品文物的紋樣通常質(zhì)量較差,常常伴有嚴重褪色和大面積破損等問題,難以直接利用。針對以上各種問題,在數(shù)據(jù)集的采集上,本文選用文物中保存較為完好的傳世品(圖1),以提高數(shù)據(jù)集的質(zhì)量;傳世品的年代主要集中在清末民初,為解決這一問題,本文在數(shù)據(jù)集中也采用了較多紋樣的復原圖(圖2、圖3),用以增大數(shù)據(jù)集的年代跨度,提高識別的準確率和可靠性。
最終,通過中國絲綢博物館的《中國古代絲綢設計素材圖系》系列叢書提取到高質(zhì)量的復原圖片1 185張;借助中國絲綢博物館的“錦秀·世界絲綢互動地圖”平臺,采集到清晰度較高的傳世品文物及破損程度較輕的文物圖片1 079張。
古代絲綢紋樣的題材眾多,但依據(jù)實物紋樣的分類方法可以分為植物紋樣、動物紋樣、幾何紋樣、自然與器物紋樣四種[9]。結(jié)合所采集到數(shù)據(jù)的實際情況,本文最終選取花卉紋、飛鳥紋、“卐”字紋、云紋四類(圖4)。
1.2 數(shù)據(jù)的處理
對于分類模型,需要對數(shù)據(jù)進行裁剪處理,目的是除去較大的噪聲,提高數(shù)據(jù)集的代表性,增強識別效果;此外也需要將分類的主體從圖像中分離出來,為每個類別設置單獨的數(shù)據(jù)集。對于檢測模型,除了基本的類別之外數(shù)據(jù)集還需提供紋樣的位置及尺寸等信息。本文利用Labelimg軟件在圖片上繪制錨框的方法制作所需數(shù)據(jù)集。由于絲綢文物上的紋樣大多為循環(huán)結(jié)構(gòu),為了降低數(shù)據(jù)標注的工作量并提高檢測效果,對于循環(huán)次數(shù)較多的樣本圖片,只取其中1~2個完整的循環(huán)。
經(jīng)過處理后分類樣本數(shù)據(jù)集共有圖片2 922張,其中花卉紋1 467張,飛鳥紋437張,“卐”字紋361張,云紋657張。由于不同類別之間差距較大,因此對數(shù)據(jù)集采取幾何變換、色彩調(diào)整、尺度變換等數(shù)據(jù)增強方法,最終得到的樣本數(shù)據(jù)集如表1、表2所示。
2 模型的構(gòu)建
為了更好地實現(xiàn)對絲綢文物紋樣的識別,需要分別構(gòu)建分類及目標檢測的兩個網(wǎng)絡模型。而且,為了提高結(jié)果的科學性和準確性,每個目標均選用多種模型以便于對比識別性能的優(yōu)劣。在分類模型的選擇上,本文選用經(jīng)典的卷積神經(jīng)網(wǎng)絡VGG16、ResNet50[10]和MobileNet[11]。在目標檢測模型上則選用Faster R CNN[12]、YOLOv5[13]及SSD[14]。
2.1 分類模型的構(gòu)建
2.1.1 VGG16模型的構(gòu)建
VGGNet是卷積神經(jīng)網(wǎng)絡模型,其名稱來源于作者所在的牛津大學視覺幾何組(visual geometry group)的縮寫。VGG16的網(wǎng)絡結(jié)構(gòu)如圖5所示,可以劃分為6個模塊層次加1個輸入模塊,共計13個卷積層、5個最大池化層和3個全連接層。在卷積層上,VGG16采用多個3×3的卷積核疊加取代了之前的大卷積核,卷積核的大小與感受野直接相關(guān),卷積核過大會忽略被檢測的物體,導致物體成為背景,提取不到物體特征。如“卐”字紋在織物上常作為次要裝飾存在,尺度較小,故更小的理論感受野更利于類似于“卐”字紋這種較小特征的提取。
2.1.2 ResNet模型的構(gòu)建
綜合前文所述,絲綢文物的紋樣數(shù)據(jù)較難獲取且質(zhì)量較差,這就要求網(wǎng)絡的性能要夠好,能夠利用有限的數(shù)據(jù)集達到較好的識別效果。在其他條件不變的情況下,卷積神經(jīng)網(wǎng)絡的層數(shù)越多,網(wǎng)絡越深,學習的效果也就更好,但網(wǎng)絡在加深時容易收到梯度消失問題[15]的影響。換用ReLU可以一定程度上解決這個問題,但ReLU也有一個特殊的消失梯度問題,稱為消亡ReLU問題[16]。針對這一問題,He等[10]提出了殘差網(wǎng)絡框架(residual learning framework),其基本原理是利用一種特殊的殘差結(jié)構(gòu)(圖6)將靠前若干層的某一層數(shù)據(jù)輸出直接跳過多層引入到后面數(shù)據(jù)層的輸入部分。使得后面的特征層的內(nèi)容會有一部分由其前面的某一層線性貢獻,從而克服由于網(wǎng)絡深度加深而產(chǎn)生的學習效率變低與準確率無法有效提升的問題。利用這種結(jié)構(gòu)可以加深網(wǎng)絡的層數(shù),獲得更好的性能。
2.1.3 MobileNet模型的構(gòu)建
紋樣作為判斷文物所處歷史時期的重要依據(jù)之一,在考古發(fā)掘現(xiàn)場對紋樣識別有著較大的需求。而隨著神經(jīng)網(wǎng)絡性能的不斷提高,網(wǎng)絡的結(jié)構(gòu)也越發(fā)復雜,運行所需消耗的硬件資源也不斷增加,這使得移動設備的硬件資源和算力難以滿足。面對此類問題,深度學習領(lǐng)域也在努力使神經(jīng)網(wǎng)絡向小型化、輕量化發(fā)展,MobileNet就是輕量級神經(jīng)網(wǎng)絡[11]中具有代表性的一種。與其他神經(jīng)網(wǎng)絡相比,MobileNet有著體積更小、計算量更少,而精度卻更高(表3)。
本文主要研究的是引入了殘差結(jié)構(gòu)的MobileNetV2,其提出了反相殘差(inverted residuals)的概念,增強了特征表達能力的同時顯著減少了所需的內(nèi)存。此外,MobileNetV2網(wǎng)絡為全卷積結(jié)構(gòu),使模型對不同尺度的圖像都具有適應力。
2.1.4 分類模型評價指標
參考深度學習分類模型相關(guān)性能評價指標[17-18]并結(jié)合實際研究內(nèi)容,本文采取兩種評價指標:準確率(accuracy)與損失函數(shù)(loss function)。根據(jù)與實際情況的關(guān)系,預測結(jié)果可被分為四類:真陽(True Positive,TP)、假陽(False Positive,F(xiàn)P)、真陰(True Negative,TN)、假陰(False Negative,F(xiàn)N)。
準確率是被分對類別的樣本數(shù)在所有樣本數(shù)中的占比。通常來說,準確率越高,分類器越好。
損失函數(shù)用于評價模型的預測值與真實值的差異程度。深度學習訓練模型的過程就是通過計算損失函數(shù),不斷更新模型參數(shù),從而減小優(yōu)化誤差。本文所使用的損失函數(shù)為交叉熵(cross entropy)損失函數(shù)。由于本文為多標簽分類,損失函數(shù)公式如下:
式中:yi為真實標簽,當?shù)趇個樣本屬于某一目標類時值為1,否則為0;i為預測結(jié)果,其值為第i個樣本屬于某一目標類的預測概率;i為第幾個樣本。Loss是一個非負實值函數(shù),損失函數(shù)越小,模型的魯棒性就越好。
2.2 目標檢測模型構(gòu)建
與如今流行的簡約風格不同,中國古代追求富麗華貴之美,絲綢織物章彩奇麗,因此在絲綢文物上往往包含著大量的
元素(圖7),這使針對單一紋樣的分類失去意義。而從復雜場景中提取出多個若干特定目標的方法屬于目標檢測(object detection)的范疇。
目標檢測和圖像分類最大的區(qū)別在于目標檢測需要做更細粒度的判定,不僅要判定是否包含目標物體,還要給出各個目標物體的具體位置。目前較為成熟的目標檢測算法有R-CNN系列、YOLO系列及SSD模型。對于前兩者,本文分別選用系列中最完善的Faster-RCNN及YOLOv5。這三種算法的異同點如表4所示。
2.2.1 Faster R-CNN模型的構(gòu)建
Faster-RCNN是二階段(two-stage)目標檢測模型中的典型代表。識別的過程分為兩步:首先通過區(qū)域建議網(wǎng)絡生成候選區(qū)域[12],然后再通過卷積神經(jīng)網(wǎng)絡進行分類與定位。以此為基礎構(gòu)建絲綢紋樣識別模型,流程如圖8所示。輸入的絲綢紋樣圖片經(jīng)過不失真的Resize后,輸入主干提取網(wǎng)絡提取特征,得到的紋樣特征圖會被RPN層和ROI Pooling層共享。特征圖通過RPN層獲得建議框,ROI Pooling層會根據(jù)建議框?qū)斎脒M來的紋樣特征圖進行重新截取,截取后的紋樣特征圖在被Resize后送到后續(xù)網(wǎng)絡接受進一步的卷積并最終得到預測結(jié)果。
2.2.2 YOLOv5模型的構(gòu)建
YOLOv5是一種單階段目標檢測算法。與Faster-RCNN不同,沒有RPN結(jié)構(gòu)而是直接利用卷積神經(jīng)網(wǎng)絡進行特征提取并進行分類與定位,因此速度更快。YOLOv5可分為三個部分,分別是Backbone、FPN及Yolo Head。YOLOv5的主干網(wǎng)絡為CSPDarknet,其中有著特殊的CSP層,作用類似殘差網(wǎng)絡中的殘差結(jié)構(gòu),可以緩解在深度神經(jīng)網(wǎng)絡中增加深度帶來的梯度消失問題,增強模型的學習能力,從而更好地識別復雜的絲綢紋樣?;谝陨显?,本文構(gòu)建基于YOLOv5的絲綢紋樣識別模型(圖9)。絲綢紋樣圖像輸入到模型后會對主干網(wǎng)絡的Focus結(jié)構(gòu)進行壓縮獲得一個特征層,并在多次卷積、標準化、激活函數(shù)和CSP層之后獲得三個不同尺度的有效特征層[13]。有效特征層在進入FPN結(jié)構(gòu)后會經(jīng)歷一次上采樣特征融合和一次下采樣特征融合,之后輸出三個加強有效特征層。最終Yolo Head會利用這三個加強有效特征層進行分類和回歸預測,得到絲綢紋樣的預測結(jié)果。
2.2.3 SSD模型的構(gòu)建
SSD[14]是一種結(jié)合了Faster-RCNN和YOLO各自的優(yōu)點的單階多層的目標檢測模型。SSD的主干網(wǎng)絡是改進后的VGG:將VGG16的FC6、FC7兩個全連接層轉(zhuǎn)化為卷積層;去掉最后一個全連接層和所有的Dropout層;并在原FC7層之后新增了四個卷積層。根據(jù)SSD算法構(gòu)建的絲綢紋樣識別模型如圖10所示。通過此識別流程,SSD可以獲得6個不同尺度的有效特征層,根據(jù)不同尺度的特征層映射生成不同尺度的預測結(jié)果,并通過縱橫比明確分開預測。其中越早提取的特征層,抽象程度越小,細節(jié)信息保留得也更多,適合預測的目標也更小。反之越后面的特征層適合預測的目標也越大。這種設計使其在低分辨率輸入圖像上也能實現(xiàn)簡單的端到端訓練和高精度,可以更好地識別圖片質(zhì)量普遍較差的絲綢文物紋樣圖片。
2.2.4 目標檢測評價指標
參考目標檢測算法的常用評價指標并結(jié)合本文研究實際,目標檢測任務采用的評價指標為精確率(precision)、召回率(recall)、F1分數(shù)(F1-score)、平均精度均值(mAP)。
精確率是精確性的度量,表示被分為正例的示例中實際為正例的比例,代表查準率。
召回率是覆蓋面的度量,度量有多個正例被分為正例,代表查全率。
F1-score是分類問題的一個衡量指標。F1-score認為召回率和精度同等重要,它是精確率和召回率的調(diào)和平均數(shù),最大為1,最小為0。
對于目標檢測中的每一類檢測目標分別以精確率和召回率作為橫縱坐標繪制出的PR曲線圖也是衡量一個模型性能的重要依據(jù)。如果模型的精度越高,召回率越高,PR曲線下面的面積越大,模型的性能越好。平均準確率(Average Precision,AP)是對不同召回率點上的準確率進行平均,在PR曲線圖上表現(xiàn)為PR曲線下面的面積。而mAP是對所有類別的AP值求平均,是目標檢測中一個最為重要的指標。
3 實驗與結(jié)果分析
3.1 實驗環(huán)境
本文的分類任務的實驗環(huán)境為CPU:Intel(R) Core(TM) i5-10200H CPU@2.40 GHz,GPU:NVIDIA GeForce GTX 1650 Ti,軟件環(huán)境為Windows 10版本。目標檢測任務的實驗環(huán)境為CPU:Intel(R) Xeon(R) Platinum 8255C,GPU:GeForce RTX 3090。本文所采用的深度學習框架均為PyTorch,編譯語言為Python。
3.2 分類模型實驗與結(jié)果
本次實驗所使用的數(shù)據(jù)集為前文自制絲綢文物紋樣圖片數(shù)據(jù)集,包含花、鳥、云、“卐”四種紋樣共11 081張。在實驗數(shù)據(jù)集中將隨機選取80%作為訓練集,20%作為測試集用于模型的性能評估。為提高實驗的科學性和可靠性,在各個模型的參數(shù)方面進行統(tǒng)一。Epoch設為200,最大學習率設為001,batch size設為32。
因神經(jīng)網(wǎng)絡主干特征提取部分所提取到的特征通用性較高,且本文所選用的三種網(wǎng)絡性能均十分良好,所以本文采取了凍結(jié)訓練的方法以提高訓練效率。凍結(jié)階段的Epoch設置
為50,在凍結(jié)階段主干特征提取網(wǎng)絡的權(quán)重被凍結(jié),只對網(wǎng)絡進行微調(diào)。而在50個Epoch后網(wǎng)絡解凍,開始對主干網(wǎng)絡的權(quán)重進行調(diào)整,因此導致?lián)p失率的突變。在損失率方面,三個網(wǎng)絡均表現(xiàn)良好,由圖11可知,在解凍后,損失率快速下降并最終趨于平穩(wěn),表明結(jié)果已經(jīng)趨于穩(wěn)定。最終值均小于0.16但不為零,表明模型并未過擬合。表5為絲綢紋樣分類結(jié)果。
由表5可見,在本文的數(shù)據(jù)集中MobileNet表現(xiàn)出較優(yōu)的性能,其平均準確率達到了83.51%。在所選擇的四種紋樣中,對花卉紋和云紋的分類效果較好,準確率均在90%以上。與云紋及花卉紋不同,飛鳥紋樣大多作為主要紋樣,在更為精細的同時尺度也更大,在進行截取時容易造成背景的復雜(圖12)。而神經(jīng)網(wǎng)絡層數(shù)越多提取的特征就越豐富,對于VGG16和ResNet這種較深的網(wǎng)絡來說,在場景細節(jié)特征上挖掘得較深反而造成了準確率的下降。與飛鳥紋相反,“卐”字紋在紋樣中更多充當次要裝飾,尺度一般很小。在分辨率較
低的圖片上采樣時,樣本的像素數(shù)較少,極易受到噪聲干擾,嚴重影響了分類效果。
3.3 目標檢測模型實驗與結(jié)果
用于目標檢測實驗的數(shù)據(jù)集為上述四種紋樣的4 284張圖片,其中多數(shù)圖片包含相應類別的一個或多個圖案或不同類別的一個或多個圖案,實際標注數(shù)量共10 081個。實驗為上述三種模型的對比實驗,參數(shù)設置為相同的參數(shù)。Epoch設置為200,包含50個Epoch的凍結(jié)階段。凍結(jié)階段batch size為16,解凍階段batch size為8。最大學習率0.01,Score threshold設置為0.5。在實驗數(shù)據(jù)集中隨機抽取90%作為訓練集,10%作為測試集用于模型的性能評估。實驗結(jié)果如表6所示。
對比三個模型的實驗結(jié)果,在識別與定位紋樣上YOLOv5的性能更加優(yōu)越,其平均精度均值達到了88.42%。分別比Faster R-CNN和SSD高出4.83%和8.64%。其中飛鳥紋的識別效果最好,平均準確率達到95.97%。如前文所述,飛鳥紋的尺度一般較大。在多尺度的物體中,大尺度的物體由于面積大、特征豐富,通常來講較為容易檢測。其次是花卉紋和云紋,平均準確率均高于85%。這兩種紋樣在尺寸和風格上變化較大:植物紋樣在染織藝術(shù)史上出現(xiàn)較晚,大約南北朝時期才進入中國染織藝術(shù)領(lǐng)域,最初大部分為裝飾性的花卉,如以寶花為主的大團花,隨后寫生花卉才逐漸興起。但直到寫生花卉成為主流時,同時期的團花紋樣依然占據(jù)相當?shù)谋壤?]。而團花和寫生花卉的區(qū)別很大,這就使得計算機在學習這類圖案特征時較為困難,從而影響檢測的效果;而云紋的形式更加多樣,識別的難度更大,檢測效果受到的影響也更大?!皡e”字紋的平均準確率最低,僅有82.23%。在本文選擇的紋樣中,“卐”字紋的尺寸最小,小物體由于其尺寸較小,可利用的特征有限,這使得其檢測較為困難。并且目前的檢測算法普遍對于小物體的檢測效果較差。小物體因尺寸小,若小于檢測算法的下采樣率,甚至會導致在特征圖上占據(jù)的面積達不到一個像素點。感受野的大小也是影響小物體檢測的一個因素,過大的感受野會導致在特征圖上的一個點中,小物體占據(jù)的特征更少,并且包含大量周圍區(qū)域的特征,從而影響其檢測結(jié)果。此外,SSD算法雖使用了多層特征圖,但淺層的特征圖語義信息不足,沒有進行特征的融合,使得其在“卐”字紋的檢測上效果較差,AP僅有58.44%
3.4 實驗例證與分析
為了更加直觀地體現(xiàn)不同檢測模型對四種紋樣的識別效果,選取了包含四種紋樣的紡織品文物實物圖進行測試,結(jié)果如圖13所示。圖13中,從左到右分別為文物原圖、Faster R-CNN、SSD、YOLOv5的檢測結(jié)果,可以得出不同算法對四種紋樣進行識別時出現(xiàn)的錯檢、漏檢情況,由此得出YOLOv5模型的檢測效果明顯優(yōu)于其他兩種。
4 結(jié) 論
絲綢在中國的歷史十分悠久,文物的數(shù)量也眾多,如何更快更好地發(fā)掘、保護、管理絲綢文物就成了一個重要的問題。針對絲綢紋樣數(shù)字化分類工作量大、識別困難的問題,本文利用深度學習進行了識別絲綢文物紋樣的有益嘗試。按照實物紋樣的分類方法,本文從中各自選取較有代表性的一種紋樣為例,通過收集專業(yè)的紋樣復原圖和網(wǎng)絡上各大博物館的數(shù)字化藏品圖片,建立了包含上述四種紋樣14 365圖片的數(shù)據(jù)集,然后利用深度學習的方法對其進行分類與識別。結(jié)果表明,MobileNet在對紋樣進行分類時表現(xiàn)出較優(yōu)的性能,其在占用計算機硬件資源最少的情況下,在測試集上的平均準確率最高,達到了83.51%,略優(yōu)于VGG16和ResNet。Faster-RCNN、SSD及YOLOv5三種目標檢測模型在對四種紋樣的識別中,YOLOv5表現(xiàn)出了明顯的優(yōu)勢。在Score threshold設置為0.5的情況下,其對紋樣識別的平均精度均值達到了8842%。在四種紋樣中,飛鳥紋的識別效果最好,AP為9597%?;ɑ芗y、“卐”字紋、云紋的AP分別為89.52%、8223%、85.95%。基于本文實驗中YOLOv5表現(xiàn)出的優(yōu)越性能及YOLO在視頻檢測上的優(yōu)勢與攝像設備相結(jié)合,在文物數(shù)字化的過程中直接為數(shù)據(jù)打上置信度較高的分類標識,可以大大提高分類的精度與速度,加快數(shù)字博物館的建立,拉近文物與每個人的距離,更利于保護和弘揚中國優(yōu)秀的傳統(tǒng)文化。
參考文獻:
[1]趙豐. 絲綢之路數(shù)字博物館: 開放共享的博物館數(shù)字融合[J]. 中國博物館, 2022(3): 109-115.
ZHAO Feng. Silk Road digital museum: Open and shared museum digital fusion[J]. Chinese Museum, 2022(3): 109-115.
[2]秦一. 關(guān)于博物館文物數(shù)字化的技術(shù)探索[J]. 文化月刊, 2022(2): 104-105.
QIN Yi. Technical exploration on the digitization of museum cultural relics[J]. Cultural Monthly, 2022(2): 104-105.
[3]陳剛. 數(shù)字博物館概念、特征及其發(fā)展模式探析[J]. 中國博物館, 2007(3): 88-93.
CHEN Gang. The concept, characteristics and development model of digital museum[J]. Chinese Museum, 2007(3): 88-93.
[4]吳志鑫, 李立輕, 汪軍, 等. 一種基于特征值融合的服裝面料圖像檢索方法[J]. 服裝學報, 2021, 6(1): 42-47.
WU Zhixin, LI Liqing, WANG Jun, et al. An image retrieval method of clothing fabric based on feature fusion[J]. Journal of Clothing Research, 2021, 6(1): 42-47.
[5]高妍, 王寶珠, 郭志濤, 等. 改進HSR-FCN的服裝圖像識別分類算法研究[J]. 計算機工程與應用, 2019, 55(16): 144-149.
GAO Yan, WANG Baozhu, GUO Zhitao, et al. Clothing image recognition and classification based on HSR-FCN[J]. Computer Engineering and Applications, 2019, 55 (16): 144-149.
[6]狄宏靜, 劉冬云, 吳志明. 基于BP神經(jīng)網(wǎng)絡的春夏女裝流行色預測[J]. 紡織學報, 2011, 32(7): 111-116.
DI Hongjing, LIU Dongyun, WU Zhiming. Forecast of women’s spring/summer fashion color basedon BP neural networks[J]. Journal of Textile Research, 2011, 32(7): 111-116.
[7]BEDELI M, GERADTS Z, VAN E E. Clothing identification via deep learning: Forensic applications[J]. Forensic Sciences Research, 2018, 3(3): 219-229.
[8]韓曙光, 姜凱文, 趙麗妍. 基于深度學習的服裝三要素識別[J]. 服裝學報, 2022, 7(5): 399-407.
HAN Shuguang, JIANG Kaiwen, ZHAO Liyan. Recognition of clothing “three elements” based on deep learning[J]. Journal of Clothing Research, 2022, 7(5): 399-407.
[9]趙豐, 袁宣萍. 中國古代絲綢設計素材圖系: 圖像卷[M]. 杭州: 浙江大學出版社, 2016: 1-24.
ZHAO Feng, YUAN Xuanping. The Ancient Chinese Silk Material Design Department: Image Volume[M]. Hangzhou: Zhejiang University Press, 2016: 1-24.
[10]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. Las Vegas: IEEE, 2016: 770-778.
[11]高繼強. 基于輕量級神經(jīng)網(wǎng)絡的服裝圖像檢索[J]. 科學技術(shù)創(chuàng)新, 2020(31): 94-95.
GAO Jiqiang. Clothing image retrieval based on lightweight neural network[J]. Scientific and Technological Innovation, 2020(31): 94-95.
[12]張飚雪, 劉成霞. 基于Faster R CNN的淺口高跟鞋款式識別[J]. 絲綢, 2021, 58(1): 79-84.
ZHANG Biaoxue, LIU Chengxia. Style recognition of shallow opening high-heeled shoes based on Faster R CNN[J]. Journal of Silk, 2021, 58(1): 79-84.
[13]郭波, 呂文濤, 余序宜, 等. 基于改進YOLOv5模型的織物疵點檢測算法[J]. 浙江理工大學學報(自然科學版), 2022, 47(5): 755-763.
GUO Bo, L Wentao, YU Xuyi, et al. Fabric defect detection algorithm based on improved YOLOv5 model[J]. Journal of Zhejiang Sci-Tech University (Natural Sciences), 2022, 47(5): 755-763.
[14]LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot multibox detector[C]//Computer Vision-ECCV 2016: 14th European Conference. Amsterdam: Springer International Publishing, 2016: 21-37.
[15]BENGIO Y, SIMARD P, FRASCONI P. Learning long-term dependencies with gradient descent is difficult[J]. IEEE Trans Neural Netw, 1994, 5(2): 157-166.
[16]HU Z, ZHANG J J, GE Y. Handling vanishing gradient problem using artificial derivative[J]. IEEE Access, 2021, 9: 22371-22377.
[17]RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[18]李青, 冀艷波, 郭濠奇, 等. 基于深度學習的女襯衫圖案樣式識別分類[J]. 現(xiàn)代紡織技術(shù), 2022, 30(4): 207-213.
LI Qing, JI Yanbo, GUO Haoqi, et al. Pattern recognition and classification of women’s shirts based on deep learning[J]. Advanced Textile Technology, 2022, 30(4): 207-213.
Application of silk cultural relic pattern recognition based on deep learning
ZHANG Chi, WANG Xiangrong
SUN Xuanming, SU Miao
(a.College of Textile Science and Engineering (International Institute of Silk); b.World Silk and Silk Road International Research Center,Zhejiang Sci-Tech University, Hangzhou 310018, China)
Abstract: Silk, as one of the greatest inventions in ancient China, has a history of over 5 000 years and represents one of China’s most significant traditional cultures. The value of ancient silk is a historical witness, and the important information it carries is also important. As the most representative cultural symbol of a nation, decorative patterns are a crucial part of the information carried by ancient silk. Therefore, extracting information from ancient silk is of great significance for the protection and promotion of China’s excellent traditional culture. Although museum visits are the most effective way for non-cultural relic protection workers to access ancient silk, this approach is not only inconvenient but also insecure, particularly in the context of the recent worldwide outbreak of the new coronavirus. To break the spatial limitations of collections and museums, bring people closer to cultural relics, realize resource exchange and sharing, and serve the promotion of the Silk Road spirit, China National Silk Museum has issued an initiative to jointly build the Silk Road Online Museum (SROM). The classification of cultural relics is an important step in the construction of digital museums. Compared with ordinary products, the classification of cultural relics is difficult. Specifically, textile cultural relics are more difficult to classify because of the difficulty in preserving materials and poor integrity. Therefore, how to quickly and accurately complete the identification and classification of textile cultural relics has become a problem to be solved.
In view of the above problems, we adopted deep learning to automatically identify the patterns of silk cultural relics. According to the classification method of physical patterns, a sample library including flower patterns, bird patterns, swastika patterns and cloud patterns was established. VGGNet, ResNet and MobileNet were used to classify patterns, and Faster R-CNN, YOLOv5 and SSD target detection algorithms were used to identify and locate patterns. The results show that MobileNet shows better performance in classifying patterns. It has the highest average accuracy amounting to 83.51% on the test set with the least computer hardware resources, which is slightly better than that of VGG16 and ResNet. Among the three target detection models of Faster-RCNN, SSD and YOLOv5, YOLOv5 shows obvious advantages in the recognition of four patterns. When the Score threshold is set at 0.5, the average accuracy of pattern recognition is 8842%. Among the four patterns, the bird pattern has the best recognition effect, with an AP of 95.97%. The AP of the flower pattern, swastika pattern and cloud pattern is 89.52%, 82.23% and 85.95%, respectively.
Based on the superior performance of YOLOv5 demonstrated in this study and the advantages of YOLO in video detection combined with camera equipment, directly marking data with a high degree of confidence can greatly improve the accuracy and speed of classification during the digitization of cultural relics. This can accelerate the establishment of digital museums, effectively reduce the classification threshold of ancient silk patterns, and have a positive impact on the protection and promotion of excellent traditional culture. Future research will aim to achieve recognition closer to the reality of cultural relics and verify the recognition effect of damaged and severely faded patterns. Additionally, building on the experimental results of this study, we can also explore the use of lightweight networks such as MobileNet as the backbone feature extraction network of the target detection model. This will reduce the network’s volume and consumption of hardware resources, allowing for the transplantation of the model to mobile terminals with camera equipment and making target detection possible on archaeological sites. These efforts contribute to the protection of cultural relics in China, particularly the preservation of textile cultural relics.
Key words: silk cultural relics; deep learning; digital museum; target detection; neural network; automatic classification
收稿日期: 20220930;
修回日期: 20230613
基金項目: 國家重點研發(fā)計劃課題項目(2019YFC1521301);浙江省文物保護專項項目(2021016);浙江理工大學科研啟動基金項目(20202214-Y)
作者簡介: 孫選銘(1997),男,碩士研究生,研究方向為絲綢歷史及其數(shù)字化應用。通信作者:蘇淼,教授,sumiao2008@qq.com。