王 珺,孫進越,俞 凱,劉 成,吳 晨,陳有路,胡琦瑤
(1.西北大學 信息科學與技術(shù)學院,陜西 西安 710127;2.西北大學 文化遺產(chǎn)學院,陜西 西安 710127;3.西安市文物保護考古研究院,陜西 西安 710054;4.咸陽博物院,陜西 咸陽 712000;5.陜西省絲綢之路文化遺產(chǎn)數(shù)字化保護與傳承協(xié)同創(chuàng)新中心,陜西 西安 710127)
中國古代青銅器歷史悠久,體現(xiàn)著各個時期的文化特點,蘊含著極高的研究價值[1]。青銅器銹蝕類別標識任務(wù),是對青銅器表面的不同銹蝕進行識別標識,特別是有害銹的標識,從而為后續(xù)不同銹蝕的處理以及青銅器的保護及修復提供依據(jù)。然而,由于青銅器銹蝕產(chǎn)生較為隨機,且銹蝕混雜,不易識別,這些因素給青銅器銹蝕標識帶來了極大的挑戰(zhàn)[2]。現(xiàn)有的青銅器銹蝕標識多采用人工方式,不僅耗時耗力,還會因個人經(jīng)驗差異帶來標識的不一致性[3],有些方法甚至需要取樣,對文物樣本帶來二次損傷。因此,迫切需要研究無損且智能的青銅器銹蝕標識方法。
近年來,隨著文物保護研究手段的日益豐富,以及人工智能的飛速發(fā)展,開發(fā)智能且無損的青銅器銹蝕標識方法成為可能。其中,高光譜成像技術(shù)作為一種無損的數(shù)據(jù)采集技術(shù),在農(nóng)業(yè)[4]、遙感[5]、軍事等領(lǐng)域應用廣泛,近幾年,在文物分析與保護領(lǐng)域也嶄露頭角,特別是在書畫、壁畫等文物保護研究中取得受人矚目的進展[6]。高光譜圖像包含著豐富的光譜信息,且具有“圖譜合一”的特點,而不同銹蝕的本質(zhì)是不同的化學組成,其具有光譜差異,因此,基于高光譜成像與分析的銹蝕標識成為可能。
本文將基于現(xiàn)有先進的深度學習等方法[7],深入挖掘青銅器銹蝕的光譜與空間特征,提出一種基于多分組策略LSTM和CNN的端到端青銅器銹蝕類別標識網(wǎng)絡(luò)框架(multi-group LSTM and CNN,MGLC)。該框架由一個CNN網(wǎng)絡(luò)和多分組策略的LSTM網(wǎng)絡(luò)構(gòu)成,LSTM可以從光譜序列中提取更為有效的光譜特征,而多分組策略可以同時兼顧局部和全局的光譜特征,增加對銹蝕識別的準確率;在此基礎(chǔ)上,聯(lián)合CNN網(wǎng)絡(luò),兼顧光譜與空間特征,更有利于標識有害銹病害的分布。
由于組成成分的原因,青銅器具有在空氣中極易氧化的性質(zhì)。受地理環(huán)境和埋藏條件的影響,青銅器銹蝕產(chǎn)物分布在整個器物表面,形成銹蝕均勻分布區(qū)域和銹蝕不均勻分布區(qū)域,常見的青銅器銹蝕產(chǎn)物包括粉狀銹、土銹、鈣結(jié)物等[8],如圖1所示。多種多樣的銹蝕產(chǎn)物,以及自身空間排布緊密的結(jié)構(gòu)特點,給青銅器銹蝕類別標識任務(wù)帶來了極大的挑戰(zhàn)。
圖1 青銅器表面銹蝕類別示意圖Fig.1 Schematic diagram of corrosion types on the surface of bronzes
高光譜圖像分類是利用其豐富的光譜-空間信息對遙感圖像的地物類別標識[9]。青銅器高光譜圖像在未破壞青銅器原始空間信息的前提下,為標識任務(wù)提供了豐富的光譜信息。隨著深度學習的飛速發(fā)展,越來越多的深度學習方法也被應用于高光譜圖像分類,其中包括很多像素級分類的方法[10]。Yang等人提出了卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)用于解決高光譜圖像的分類任務(wù)[11],但是,僅僅使用卷積來進行特征提取,沒有考慮各個光譜維度特征之間的相關(guān)性,以及光譜序列的上下文信息,在處理空間分辨率較小的青銅器高光譜圖像時,不能將關(guān)注點更多地集中在光譜信息上,其結(jié)果往往區(qū)域性不強,精確度不高,可視化結(jié)果較差。Hochreiter S等人提出的基于LSTM網(wǎng)絡(luò)的上下文特征提取網(wǎng)絡(luò),在自然語言處理(NLP)方面取得了巨大的進展[12],其可以較好地提取出目標上下文之間的聯(lián)系,從而提升模型的整體效果,鑒于此特點,Xu等人提出了基于LSTM網(wǎng)絡(luò)的光譜特征提取方法,但是其不能兼顧局部和全局特征[13],分類準確度仍有待提高。因此,本文將CNN網(wǎng)絡(luò)與LSTM網(wǎng)絡(luò)相結(jié)合,使空間特征和光譜特征同時用于青銅器銹蝕識別任務(wù)中,為了在光譜特征的提取過程中兼顧局部和全局特征,在LSTM網(wǎng)絡(luò)中還引入了粗細兩種粒度的光譜分組策略。
MGLC網(wǎng)絡(luò)分為CNN網(wǎng)絡(luò)和多分組策略的LSTM網(wǎng)絡(luò)兩個部分,CNN網(wǎng)絡(luò)由多個卷積層和池化層組合構(gòu)成,多分組策略LSTM網(wǎng)絡(luò)由兩種策略的LSTM并聯(lián)構(gòu)成,MGLC網(wǎng)絡(luò)框架如圖2所示。在圖2中,青銅器高光譜圖像F∈RC×H×W(C、H、W分別表示圖像的長度、寬度和光譜數(shù)量)進入到網(wǎng)絡(luò)后會分別通過CNN網(wǎng)絡(luò)和多分組策略LSTM來提取空間特征和光譜特征。在CNN網(wǎng)絡(luò)中,首先使用PCA方法對圖像進行降維[14],提取出特征豐富的波段,得到降維圖像F′∈RC×H×D,然后使用3×3的卷積核對降維圖像F′進行3次卷積特征提取得到支路空間特征FC3,再利用非線性函數(shù)Relu激活,每次卷積后得到的特征都通過池化層再一次降維。為了將淺層與深層特征更好地融合,獲取更豐富的空間特征,將空間特征FC3以及第一層卷積池化后的特征FC1通過全連接層后合并得到空間特征FC。在多分組策略LSTM網(wǎng)絡(luò)中,首先輸入圖像粗細粒度的兩種不同光譜組合,并經(jīng)過LSTM網(wǎng)絡(luò)分別提取光譜特征FS1和FS2,然后,將兩種光譜特征FS1、FS2通過全連接層后合并得到光譜特征FS。最后,將空間特征FC和光譜特征FS合并,送入全連接層,再利用softmax函數(shù)得到分類結(jié)果。由于在MGLC網(wǎng)絡(luò)中,不僅獲取了青銅器高光譜圖像的空間信息,還兼顧了全局與局部的光譜維信息,能夠獲得較滿意的結(jié)果。
圖2 MGLC網(wǎng)絡(luò)框架Fig.2 MGLC network framework
由于高光譜圖像每一像素點連續(xù)光譜曲線類似于連續(xù)有序的向量,因此,有學者采用LSTM網(wǎng)絡(luò)進行光譜特征的提取[11]。但是,高光譜圖像光譜波段數(shù)量多,僅采用一種光譜分組策略,很難兼顧光譜的局部與全局特征,導致光譜特征不能充分提取。因此,本文引入了兩種光譜分組策略,分別以粗細兩種粒度獲取光譜的局部與全局特征。
1)分組策略1
pi(M′+5),…,pi(2M′)],
pi(2M′+5),…,pi(3M′)],
pi(TM′+5),…,pi(τM′)]。
2)分組策略2
pi(1+(M′-1)τ)],
pi(2+(M′-1)τ)],
pi(3+(M′-1)τ)],
如圖3所示,分組策略2側(cè)重于全局特征,劃分的短序列之間光譜波段相聚較小,得到的光譜特征之間聯(lián)系緊密,較好的表現(xiàn)光譜的整體性;但是短序列內(nèi)部光譜波段跨度較大,光譜波段離散,局部特征有所不足。
圖3 光譜分組策略Fig.3 Schematic diagram of frequency band classification strategy
因此,兩種分組策略可以兼顧局部與全局的光譜特征,能夠更充分提取光譜信息,在后文實驗中也進行了驗證。
MGLC網(wǎng)絡(luò)是一個多支路并行的神經(jīng)網(wǎng)絡(luò),采用RMSProp算法優(yōu)化[15],學習率是0.001,衰減因子是0.9。由于青銅器高光譜圖像是三維立方體數(shù)據(jù),數(shù)據(jù)量大,所以在CNN支路上采用PCA降維,盡可能減少網(wǎng)絡(luò)參數(shù),使網(wǎng)絡(luò)盡快達到最優(yōu)。最終在多尺度CNN的3個卷積層中選取的卷積核個數(shù)均為32,卷積感受也均為3*3,具體參數(shù)如表1所示;多分組策略LSTM網(wǎng)絡(luò)具體參數(shù)如表2所示。
表1 CNN網(wǎng)絡(luò)參數(shù)Tab.1 CNN network parameters
表2 多分組策略LSTM網(wǎng)絡(luò)參數(shù)Tab.2 Multi-LSTM network parameters
首先,為了驗證多分組策略的有效性,本文設(shè)計了3種分組策略組合進行消融實驗;其次,將所提出的方法與現(xiàn)有網(wǎng)絡(luò)方法進行實驗對比,所有的實驗結(jié)果均取20次實驗的平均值;此外,在未進行標定的區(qū)域也進行了實驗,以驗證提出方法對更大區(qū)域的標識效果,由于沒有標準標識結(jié)果,本文采用專家評價的方法,由專業(yè)人員使用RX-100超景深三維顯微鏡對青銅器進行掃描,通過20倍放大顯微圖輔助評價。本文中所有實驗均在一臺擁有8核i7-2060、16GB RAM的計算機上運行,網(wǎng)絡(luò)模型采用Tensorflow深度學習框架構(gòu)建。評價指標采用常用的平均精度(AA)、整體精度(OA)和Kappa系數(shù)。
本文實驗的青銅器樣本在河南發(fā)掘,現(xiàn)保存于西北大學文化遺產(chǎn)學院。由于年代久遠,青銅器表面布滿了各種類別的銹蝕物。在實驗過程中,本文利用Specim IQ高光譜照相機獲取青銅器的高光譜數(shù)據(jù),如圖4所示。Specim IQ高光譜照相機的空間分辨率為512×512,光譜范圍為397~1 003 nm,光譜分辨率為0.4~1 μm。為了減少其他光源、背景信息等客觀因素對銹蝕識別結(jié)果的影響,原始數(shù)據(jù)進行了輻射校正、圖像裁剪等預處理。
圖4A是青銅器的真彩色圖像,總共有21 265個像素,其中3 529個像素具有銹蝕類別標簽,其余像素無標簽。有標簽的像素點作為訓練集和測試集,并通過計算客觀指標評價方法的有效性。如圖4B所示,總共包含了6種銹蝕類別,每一種類別的訓練樣本、測試樣本個數(shù)如表3所示。
圖4 青銅器高光譜數(shù)據(jù)集Fig.4 Bronze hyperspectral data set
表3 青銅器數(shù)據(jù)集訓練和測試樣本數(shù)量Tab.3 Number of training and test samples for bronze dataset
為了驗證多分組策略的LSTM網(wǎng)絡(luò)的性能,本文設(shè)計了兩種對比網(wǎng)絡(luò):CNN-LSTM-1,由CNN網(wǎng)絡(luò)和分組策略1組成;CNN-LSTM-2,由CNN網(wǎng)絡(luò)和分組策略2組成;本文提出的MGLC網(wǎng)絡(luò),則采用CNN網(wǎng)絡(luò)和分組策略1、2共同組成;此外,還與無多分組策略特征提取網(wǎng)絡(luò)CNN進行比較。分類結(jié)果如表4所示,使用了分組策略的網(wǎng)絡(luò)性能總是優(yōu)于僅使用CNN網(wǎng)絡(luò)的分類性能,例如,在表4中CNN-LSTM-1、CNN-LSTM-2、MGLC網(wǎng)絡(luò),無論是AA、OA還是Kappa都優(yōu)于CNN網(wǎng)絡(luò),說明將空間與光譜特征結(jié)合,能有效提升網(wǎng)絡(luò)整體的分類性能。多分組策略較單一分組策略分類精度更優(yōu),這是因為多分組策略兼顧了光譜的整體和局部特征。此外,分組策略2比分組策略1的分類效果略優(yōu),其原因有兩個:①與分組策略1相比,在相同的感受步長情況下分組策略2可感知的光譜序列范圍更廣,可以學習到更多的光譜信息;②由于分組策略2光譜與光譜之間的間隔更小,使得網(wǎng)絡(luò)可以在相鄰光譜之間學習到更加充分的上下文信息。
綜上所述,MGLC網(wǎng)絡(luò)在分類時不僅將空間特征和光譜特征同時兼顧,在提取光譜特征時還同時考慮了整體特征和局部特征,取得了較好的分類結(jié)果。
表4 不同分組策略的網(wǎng)絡(luò)分類精度Tab.4 Network classification accuracy of different grouping strategies %
為了驗證MGLC方法的有效性,與現(xiàn)有方法進行了對比。由于現(xiàn)有一些文物高光譜圖像處理都是在ENVI軟件上完成的,所以本文選取了基于ENVI上的 PCA、SVM的分類方法、基于 LSTM 的高光譜圖像分類[16]、基于 CNN 的高光譜圖像分類[17],以及僅基于多分組策略光譜特征提取的分類網(wǎng)絡(luò)(LSTM1&2)作為對比方法。需要說明的是,LSTM1&2 是本文所提出的基于光譜特征提取的分類網(wǎng)絡(luò),主要目的是進一步驗證光譜特征和空間特征結(jié)合的分類效果?;赑CA的方法是通過SVM分類器分類,SVM的參數(shù)由5層的交叉驗證決定,在參數(shù)設(shè)置上,采用相關(guān)論文的默認值,實驗中訓練樣本占總樣本數(shù)量的5%。
圖5展示了不同方法的銹蝕識別結(jié)果,通過圖5可以清晰地看出,本文提出的MGLC方法視覺效果優(yōu)于所有對比方法。圖5B和圖5C的分類效果最差,鈣結(jié)物、綠銅礦、粉狀銹、藍銅礦、紅銅礦均有錯分。與圖5B和圖5C相比圖5E和圖5F在粉狀銹這一類別有了很大提升,但是,其余類別的分類效果還有待提高,在鈣結(jié)物和綠銅礦這兩個類別上仍有明顯錯誤。相比之下,圖5D中鈣結(jié)物具有較好的分類效果。在圖5G中每個類別之間的分界清晰,區(qū)域性更明顯,具有更好的分類效果。
表5利用客觀評價指標展示了不同方法之間的識別性能,通過表5可以看出,傳統(tǒng)分類方法PCA和SVM的分類效果不盡人意。僅使用分組策略的LSTM深度學習方法和LSTM1&2深度學習方法在3個指標上都至少提高了3%以上,CNN方法更是提升了15%以上。這一結(jié)果表明,相較于傳統(tǒng)分類方法,深度學習方法在青銅器銹蝕標識任務(wù)也能夠取得更好的效果。本文提出的MGLC方法與CNN方法相比,在AA類別分類平均精度提高了4.8%,在OA整體分類精度提高了4.1%,Kappa系數(shù)提高了5.2%,說明本文方法有著不錯的分類效果。從表5也可以看出,本文的方法MGLC可以將6類銹蝕類別都較好地標識出來,并且6個類別都取得了最高的分類精度,由于類別2土銹和類別4綠銅礦的光譜曲線極為相似,所以,在對比網(wǎng)絡(luò)中這兩類的標識精度都不是很高,但本文的方法都將其提升到95%以上。
圖5 不同算法在青銅器數(shù)據(jù)集上的分類結(jié)果Fig.5 Classification results of different algorithms on bronze ware data sets
表5 不同算法在青銅器數(shù)據(jù)集上的分類精度Tab.5 Classification accuracy of different algorithms on bronze dataset %
為了進一步驗證MGLC方法的效果,對樣本更多的區(qū)域進行了標識,并與現(xiàn)有方法進行比較。由于沒有準確的標識結(jié)果,所以采用專家評價的方式進行評價。首先,采用RX-100超景深顯微鏡對樣本放大20倍,以更清楚地通過目視觀察對銹蝕類別進行判別;其次,對照幾種方法的標識結(jié)果分別進行評價。圖6A為放大20倍的示意圖(由于版面限制,進行了縮小處理),采集時采用HR-2016的鏡頭,圖中標尺每格為15 000 μm。
通過放大圖與幾種標識結(jié)果的比較可以發(fā)現(xiàn),圖6B和圖6C對于藍色藍銅礦與紅色的赤銅礦識別過于敏感。其中,圖6B將左下區(qū)域土銹中不明顯的紅色銹蝕標識過多,左上區(qū)的不明顯藍色銅銹標識過多,粉狀銹與綠銅礦標識不夠準確,對于真實的銹蝕分布有一定的偏離。圖6C更是將綠色的綠銅礦與藍銅礦混為一種區(qū)域,不太符合真實的情況。圖6D比較籠統(tǒng)地將銹層從表面高低錯落與顆粒度大小、密度不同等特征劃分了幾個大致的區(qū)域,有一定的空間分布價值,但不能單獨用于表達銹蝕的分布情況。圖6E雖然比較準確地標識出上半部綠色綠銅礦與土銹、鈣結(jié)合的混合,準確區(qū)分了土銹與鈣結(jié)合,但是,對于左下區(qū)域土銹中的紅色赤銅礦過于敏感,將左下區(qū)域的藍銅礦也識別過度,因此,也不能單獨用于標識銹蝕分布。對比樣品放大20倍的照片,圖6F非常細致地標識了6種銹蝕的分布,準確地識別了藍銅礦與綠銅礦,成功地將整個區(qū)域的土銹準確地標識出來,對于粉狀銹和紅色赤銅礦標識準確,對左下區(qū)域的土銹與紅色赤銅礦的混合狀態(tài)也準確表達出來了。由此可見,LSTM分組方法可以充分利用光譜信息,智能標識6種銹蝕的分布。由圖6G可以看出,本文提出的方法MGLC準確地把銹蝕分布與銹蝕表面高低錯落、顆粒度、密度等不同信息進行了綜合展示,突出每一種銹蝕相對集中分布的區(qū)域,特別是有害銹“粉狀銹”所處的位置。同時,智能地將左上區(qū)與左下區(qū)的堿式碳酸銅分成了上藍下綠,從樣品的顯微照片來看,上半?yún)^(qū)域的綠色銅銹是有偏藍色的特點,MGLC把其標識為藍色這一點顯示出智能計算拉大分辨能力的優(yōu)勢。綜上所述,從智能識別到文物保護工作中繪制銹蝕分布圖的功能需要來考慮,本文提出的方法標識的銹蝕類別分布比較符合文物保護病害圖繪制的需要。
圖6 不同算法在青銅器數(shù)據(jù)集有標簽面的全圖分類結(jié)果Fig.6 Classification results of different algorithms in bronze dataset with labeled surface
本文提出了一種基于分組LSTM與CNN的青銅器銹蝕類別智能標識方法。該方法在CNN網(wǎng)絡(luò)的基礎(chǔ)上引入了多分組策略的LSTM網(wǎng)絡(luò),CNN網(wǎng)絡(luò)可以獲取豐富的空間信息,多分組策略的LSTM可以探索光譜的上下文信息,從而充分利用了青銅器高光譜圖像的空間信息和光譜信息,達到對青銅器表面銹蝕智能標識的效果。實驗結(jié)果表明,本文的方法標識準確率較高,且每個類別之間的分界清晰,區(qū)域性更明顯,標識的銹蝕類別分布較符合文物保護病害圖繪制的需要。但是,由于青銅器銹蝕存在混疊現(xiàn)象,對標識產(chǎn)生干擾,這是后續(xù)將進一步解決的問題。