曹宇軒,隋國(guó)榮
(上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
研究并確定文物成分一直是考古和文化遺產(chǎn)領(lǐng)域的難題,在文物的挖掘過(guò)程,由于缺乏相關(guān)的信息,以及受環(huán)境和人為操作等多方面因素的影響,不可避免地出現(xiàn)了文物損壞現(xiàn)象,導(dǎo)致古代文物攜帶的歷史信息缺失。因此,通過(guò)現(xiàn)有文物,快速、準(zhǔn)確地識(shí)別文物的某些特定參數(shù),對(duì)考古和文物保護(hù)工作具有重要的價(jià)值。
玻璃的生產(chǎn)歷史悠久,最早可追溯至公元前2600年左右的美索不達(dá)米亞文明,是人類歷史中重要的歷史文物。玻璃最常見(jiàn)的風(fēng)化機(jī)理是周圍環(huán)境的水分子與玻璃網(wǎng)結(jié)構(gòu)鍵之間的反應(yīng)。這一現(xiàn)象使暴露在自然環(huán)境中的古代玻璃的光學(xué)、化學(xué)性質(zhì)產(chǎn)生不可逆的變化[1]。宋代醬釉器及登封南洼遺址出土的白色項(xiàng)鏈等玻璃質(zhì)的文化財(cái)產(chǎn)都受到嚴(yán)重的風(fēng)化影響[2-3]。因此,古代玻璃的風(fēng)化,不僅影響人類對(duì)古代文明的研究,還侵害了人類的文明財(cái)產(chǎn)。現(xiàn)階段,保護(hù)古代玻璃方法亟待創(chuàng)新,目前尚未提出一種能對(duì)古代玻璃風(fēng)化水平進(jìn)行定量分析的模型。為此,本文根據(jù)古代玻璃的特點(diǎn),建立一種全新的模型,首先使用GA-BP神經(jīng)網(wǎng)絡(luò)對(duì)玻璃樣品的類別實(shí)現(xiàn)較高準(zhǔn)確率的分類,其次利用主成分分析降維法對(duì)高維數(shù)據(jù)進(jìn)行降維,最后結(jié)合熵權(quán)法實(shí)現(xiàn)對(duì)不同玻璃樣本風(fēng)化指數(shù)的數(shù)值評(píng)價(jià)。
由于玻璃類型與其成分間存在的關(guān)系不是簡(jiǎn)單的線性關(guān)系,因此考慮使用BP神經(jīng)網(wǎng)絡(luò)處理該非線性問(wèn)題。BP神經(jīng)網(wǎng)絡(luò)的每一層都由許多的神經(jīng)細(xì)胞組成。每層神經(jīng)元接收來(lái)自前一層的輸入,并通過(guò)傳遞函數(shù)將計(jì)算結(jié)果輸出到下一層[4]。
假設(shè)輸入層的節(jié)點(diǎn)數(shù)為m,輸入層的輸入為,隱藏層的節(jié)點(diǎn)數(shù)為n,輸出層的節(jié)點(diǎn)數(shù)為q,輸入層到隱藏層的權(quán)重為ωij,隱藏層到輸出層的權(quán)重為ωj k,輸入層到隱藏層的偏移量為a j,隱藏層到輸出層的偏移量為b k,學(xué)習(xí)速率為η,激勵(lì)函數(shù)為g(x)。那么,隱藏層H j的輸出如下:
計(jì)算誤差如下:
其中,i=1,2,…,m,j=1,2,…,n,k=1,2,…,q;i為輸入層編號(hào),m為輸入層節(jié)點(diǎn)數(shù),j為隱藏層編號(hào),n為隱藏層節(jié)點(diǎn)數(shù),k為輸出層編號(hào),q為輸出層節(jié)點(diǎn)數(shù),Y k為期望輸出。神經(jīng)網(wǎng)絡(luò)示意結(jié)構(gòu)如圖1所示。
圖1 神經(jīng)網(wǎng)絡(luò)示意結(jié)構(gòu)Fig.1 Structure schematic diagram of neural net work
如果輸出層的期望輸出值與實(shí)際輸出值的誤差大于預(yù)定值,則誤差將反向傳播。通過(guò)調(diào)整各層的連接權(quán)重和閾值,逐漸減小計(jì)算值與實(shí)際值之間的誤差,直到誤差達(dá)到預(yù)定要求[5]。但是,BP神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過(guò)程容易陷入局部最小值,為克服這一缺陷,本文使用遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)[6]。
遺傳算法是通過(guò)模仿遺傳進(jìn)化和生物的自然選擇而發(fā)展起來(lái)的一種優(yōu)化算法,其主要特征是基于種群的進(jìn)化,適者生存,具有定向性和隨機(jī)性,并且不依賴梯度信息,它包括編碼、選擇、交叉、突變和解碼操作5個(gè)過(guò)程。
本模型利用遺傳算法的全局尋優(yōu)搜索功能獲得每一次的最優(yōu)種群,接著利用BP神經(jīng)網(wǎng)絡(luò)的局部尋優(yōu)特征,反向?qū)さ米顑?yōu)值[7]。
本文選取三層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò),包括輸入層、隱藏層和輸出層,每層包含一定數(shù)量的神經(jīng)元。對(duì)于基于GA-BP神經(jīng)網(wǎng)絡(luò)的玻璃類別預(yù)測(cè)模型,影響因素包含14種化學(xué)成分的含量。因此,設(shè)置輸入層節(jié)點(diǎn)數(shù)為14,即m=14,樣本數(shù)量為69。因?yàn)閮H研究玻璃的類型,所以輸出層節(jié)點(diǎn)數(shù)為1,即q=1。本模型將預(yù)測(cè)輸出與期望輸出的平均誤差值Error作為個(gè)體的適應(yīng)度函數(shù),其定義如公式(4)所示:
其中,xtrain為樣本的實(shí)際玻璃類別,t為樣本編號(hào)。Error越大,該個(gè)體的適應(yīng)度值越大,則該個(gè)體越容易在種群迭代的過(guò)程中被淘汰。通過(guò)遺傳算法不斷迭代,最終找到最優(yōu)的隱藏層數(shù)量。
從圖2可以看到,在種群迭代次數(shù)為41時(shí),網(wǎng)絡(luò)迎來(lái)最優(yōu)適應(yīng)度,其隱藏層的數(shù)量為8,即j=8。
圖2 種群迭代次數(shù)與最優(yōu)適應(yīng)度關(guān)系Fig.2 The relationship bet ween the population generation number and optimal fitness
本文所提分類模型首先將樣本數(shù)據(jù)隨機(jī)分散,然后選擇50個(gè)樣本作為訓(xùn)練樣本,10個(gè)樣本作為測(cè)試樣本訓(xùn)練神經(jīng)網(wǎng)絡(luò),9個(gè)樣本作為驗(yàn)證集,其中69個(gè)樣本分為高鉀玻璃和鉛鋇玻璃。在實(shí)驗(yàn)過(guò)程中通過(guò)調(diào)整特征向量、激活函數(shù)、訓(xùn)練算法、學(xué)習(xí)速度等,獲得最佳的實(shí)驗(yàn)結(jié)果,達(dá)到最高的準(zhǔn)確率。本文使用8個(gè)隱藏層構(gòu)建神經(jīng)網(wǎng)絡(luò)模型。隱藏神經(jīng)元傳輸函數(shù)選擇logsig函數(shù),輸出層傳輸函數(shù)選擇tansig函數(shù)。訓(xùn)練神經(jīng)網(wǎng)絡(luò)的算法使用trainlm算法。學(xué)習(xí)速度設(shè)置為0.1。訓(xùn)練目標(biāo)誤差設(shè)置為0.000 1。最終通過(guò)Matlab R2020a軟件搭建GA-BP神經(jīng)網(wǎng)絡(luò)仿真平臺(tái),并得到以下實(shí)驗(yàn)結(jié)果。
從圖3可以看出,網(wǎng)絡(luò)訓(xùn)練迭代至第7代時(shí),訓(xùn)練集誤差滿足目標(biāo)誤差條件,此時(shí)驗(yàn)證集均方誤差最小,僅為0.000 521 22,同時(shí)該網(wǎng)絡(luò)收斂速度快,不存在鋸齒現(xiàn)象。
圖3 網(wǎng)絡(luò)訓(xùn)練次數(shù)與均方誤差Fig.3 Net work training times and mean square error
為衡量GA-BP神經(jīng)網(wǎng)絡(luò)在各個(gè)數(shù)據(jù)集中期望輸出與實(shí)際輸出的偏差,本文引入擬合優(yōu)度R的概念,其定義如公式(5)所示。擬合優(yōu)度R是指回歸直線對(duì)期望輸出的擬合程度,其最大值為1且其值越接近1,說(shuō)明回歸直線對(duì)期望輸出的擬合程度越好;反之,說(shuō)明回歸直線對(duì)期望輸出的擬合程度越差,即訓(xùn)練的GA-BP神經(jīng)網(wǎng)絡(luò)質(zhì)量越差。
通過(guò)圖4可以看出,網(wǎng)絡(luò)訓(xùn)練集、測(cè)試集、驗(yàn)證集以及總數(shù)據(jù)集擬合優(yōu)度均高于97.8%,證明該神經(jīng)網(wǎng)絡(luò)的優(yōu)越性。
圖4 各數(shù)據(jù)集擬合優(yōu)度Fig.4 Goodness fit of every data set
圖3和圖4證明該網(wǎng)絡(luò)能夠成功區(qū)分訓(xùn)練集玻璃的類別,并具有較高的準(zhǔn)確率。
主成分分析(PCA),被視為經(jīng)典數(shù)據(jù)降維方法,在模式識(shí)別和計(jì)算機(jī)視覺(jué)領(lǐng)域得到廣泛的應(yīng)用。PCA是一種多變量統(tǒng)
計(jì)技術(shù),根據(jù)捕獲的所有信息,可將數(shù)據(jù)量減少至較小的數(shù)量,并提取特征信息[8];其基本思想是重新組合原始相關(guān)索引X1,X2,…,X k(該矩陣已進(jìn)行數(shù)據(jù)中心化處理),形成少量不相關(guān)的綜合指標(biāo)。綜合指標(biāo)應(yīng)最大限度地反映原有變量所代表的信息,并能保證新指標(biāo)相互獨(dú)立,從而盡可能多地保留原始變量中所包含的信息,以達(dá)到數(shù)據(jù)降維和稀釋數(shù)據(jù)信息的目的[9]。如果F1,F2,…,F n用于表示原始變量的n個(gè)主成分,即可得到:
隨后,本文將分別計(jì)算鉛鋇玻璃和高鉀玻璃中各種化學(xué)成分的貢獻(xiàn)率,并進(jìn)行降序排序,同時(shí)依次算出每種化學(xué)成分對(duì)主成分的累計(jì)貢獻(xiàn)率。為盡可能對(duì)數(shù)據(jù)進(jìn)行降維以及保存數(shù)據(jù)的信息量,本文將累計(jì)貢獻(xiàn)率的最低標(biāo)準(zhǔn)劃分為90%。
由圖5可知,對(duì)于鉛鋇玻璃而言,其14種化學(xué)成分降維至9個(gè)主成分即滿足累計(jì)貢獻(xiàn)率達(dá)到90%的條件。對(duì)于高鉀玻璃而言,僅需要6個(gè)主成分即可滿足條件。
圖5 累計(jì)貢獻(xiàn)率階梯圖Fig.5 Ladder diagram of cumulative contribution rate
決策者的主觀考慮會(huì)造成指數(shù)權(quán)重的偏差,為避免這類干擾,產(chǎn)生符合事實(shí)的結(jié)果,使用基于指標(biāo)固有信息的客觀權(quán)重法確定權(quán)重[10],因此選擇熵權(quán)法(EWM)模型,其模型實(shí)現(xiàn)過(guò)程如下。
步驟1:將經(jīng)過(guò)PCA降維后的主成分F1,F2,…,F n正向化為,對(duì)于正向指標(biāo):
對(duì)于負(fù)向指標(biāo):
假設(shè)各指標(biāo)數(shù)據(jù)標(biāo)準(zhǔn)化后為Y1,Y2,…,Y n。
步驟2:將Y ij進(jìn)行數(shù)據(jù)歸一化處理,處理過(guò)程如公式(9)所示:
其中,m為樣本數(shù)量。
步驟3:計(jì)算所有樣本指標(biāo)的熵值E,范圍在0~1,其計(jì)算公式如下:
步驟4:具有較小熵值的指標(biāo)表示大量信息,即指標(biāo)具有更高的重要性且應(yīng)當(dāng)具有更高的權(quán)重。因此,使用公式(11)計(jì)算熵權(quán)重ωe:
步驟5:利用熵權(quán)重ωe計(jì)算得分,將其轉(zhuǎn)化為百分制,并定義其為未風(fēng)化程度指數(shù)Score。Score計(jì)算公式如下:
其中,n為主成分?jǐn)?shù)量。
根據(jù)模型計(jì)算,分別得到不同材質(zhì)玻璃的不同樣本的未風(fēng)化程度指數(shù)。
對(duì)高鉀玻璃而言,在現(xiàn)有的玻璃樣品庫(kù)中,試驗(yàn)發(fā)現(xiàn)風(fēng)化玻璃與未風(fēng)化玻璃的未風(fēng)化程度指數(shù)分界點(diǎn),所有風(fēng)化玻璃的未風(fēng)化程度指數(shù)均小于20,并且15號(hào)樣本的風(fēng)化最嚴(yán)重,僅為9.709,其結(jié)果如圖6所示。
圖6 高鉀玻璃未風(fēng)化程度Fig.6 Unweathering degree of high potassium glass
對(duì)于鉛鋇玻璃而言,試驗(yàn)也能觀察得到風(fēng)化玻璃與未風(fēng)化玻璃的未風(fēng)化程度指數(shù)分界點(diǎn)在53,并且第37號(hào)樣本的風(fēng)化程度最嚴(yán)重,未風(fēng)化程度指數(shù)僅為21.404,其結(jié)果如圖7所示。
圖7 鉛鋇玻璃未風(fēng)化程度Fig.7 Unweathering degree of lead barium glass
由圖7中的結(jié)果可知,隨著玻璃測(cè)量樣本數(shù)量的不斷增加,模型越精確。
本文建立GA-BP優(yōu)化模型,通過(guò)選擇合適的隱藏層,極大程度地降低神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)誤差,從而可以根據(jù)14種化學(xué)物質(zhì)的含量精確預(yù)測(cè)樣本的玻璃類型。同時(shí),利用PCA降維,配合熵權(quán)法,對(duì)每個(gè)樣本的風(fēng)化程度進(jìn)行評(píng)分,并進(jìn)一步劃分高風(fēng)化程度分?jǐn)?shù)線。因此,對(duì)于挖掘出土的古代文物,可利用無(wú)損檢測(cè)手段在第一時(shí)間分析其化學(xué)成分,并針對(duì)風(fēng)化嚴(yán)重的區(qū)域做出針對(duì)性的保護(hù)措施。
本模型在大樣本數(shù)量的環(huán)境下,不僅可以評(píng)估當(dāng)前環(huán)境是否會(huì)進(jìn)一步加劇文物的風(fēng)化程度,也能通過(guò)未風(fēng)化程度指數(shù),幫助考古學(xué)家在挖掘文物的過(guò)程中提前制定技術(shù)路線和設(shè)置技術(shù)參數(shù)。此外,本模型應(yīng)用于在建筑行業(yè)時(shí),配合強(qiáng)化風(fēng)化條件,可以得到一個(gè)警戒風(fēng)化分?jǐn)?shù)并定期對(duì)玻璃的風(fēng)化程度進(jìn)行量化比較,確保建造結(jié)構(gòu)的安全性。