賈宇航
(西安交通大學,陜西西安 710049)
對考古發(fā)掘的玻璃制品的化學成分分析是研究歷史的重要手段。針對不同風化程度的出土玻璃制品,研究其內(nèi)部化學元素風化前后的變化規(guī)律,探究各種化學成分的內(nèi)在聯(lián)系,有利于對風化文物先前的化學成分進行預測還原,品類鑒定,對考古工作意義重大[1]。
本文的研究是基于2022 年中國大學生數(shù)學建模競賽的C 題(部分),為探究玻璃內(nèi)化學成分的關聯(lián)關系給出了一種簡便而有效的方法。在原題目中,給出了高鉀,鉛鋇兩種類型玻璃的各種化學成分含量的樣本,且二者分別有屬于風化前、風化后的采樣點,本文基于傳統(tǒng)統(tǒng)計學的一系列方法對該問題進行了有效的分析,也對考古界實際應用提供了思路。
考察變量間的相關關系,應使用相關性分析。主要考慮的是Pearson 相關性分析和Spearman 相關性分析,其中,前者使用條件是數(shù)據(jù)滿足正態(tài)分布,否則,應采用后者。
對于不服從正態(tài)分布的數(shù)據(jù),在相關性分析時應選取Spearman 相關性分析?;诖?,對四組(高鉀風化,高鉀無風化,鉛鋇風化,鉛鋇無風化)的各個化學成分分別單獨做兩兩的相關性分析,并將相關性分析結(jié)果可視化做出熱力圖,如圖1 所示。
圖1 組各自的相關性分析熱力圖
以“鉛鋇風化”為例,把二氧化硅(SiO2),氧化鈉(Na2O),氧化鉀(K2O),氧化鈣(CaO),氧化鎂(MgO),氧化鋁(Al2O3),氧化鐵(Fe2O3),氧化銅(CuO),氧化鉛(PbO),氧化鋇(BaO),五氧化二磷(P2O5),氧化鍶(SrO),氧化錫(SnO2),二氧化硫(SO2)這14 種化學成分,做出各成分含量的分布圖,僅有SiO2,PbO,SrO的含量服從正態(tài)分布,其他則非然,故選取Spearman相關性分析。
在“高鉀風化”組中,由于存在眾多全部為0 值的化學成分,無意義,以NaN 表示。其余各個成分的兩兩相關性分析顯示出-1 ~1 的計算值,分別用白色和藍色表示,中間為過渡色帶。相關系數(shù)的大小將相關程度分為以下幾種情況。
相關性分析只是說明了兩兩化學成分的相關關系,但難以考慮到多種化學成分互相影響的機制。事實上,眾多化學成分應該是互相作用的,由此想到通過回歸分析的方法來對多種化學成分進行定量的擬合[2]。存在不少兩兩相關系數(shù)很強成分組,這將導致多重共線性的產(chǎn)生(VIF>10),因此,傳統(tǒng)多元線性回歸方法失效,故本文采用嶺回歸的方法分析。
嶺回歸(Ridge Regression)實際上是對多元線性回歸的改進。嶺回歸主要解決的問題是數(shù)據(jù)集之間具有多重共線性,即預測變量之間具有相關性[3]。
在一般情況下,使用最小二乘法求解上述回歸問題的目標是最小化,嶺回歸就是要在上述最小化目標中加上一個懲罰項,如下式描述:
這里的λ 也是待求參數(shù)。也就是說,嶺回歸是帶二范數(shù)懲罰的最小二乘法回歸。
以“高鉀風化組”為例,選出相關系數(shù)>0.5 的組合,作為目標化學成分,然后,挑選出出現(xiàn)次數(shù)較多的成分序號作為因變量,認為這些成分可能與其他眾多成分存在多元回歸關系,最終選出5(MgO)和11(P2O5),與之對應自變量的成分序號分別為:1(SiO2),4(CaO),6(Al2O3),8(CuO)和1(SiO2),3(K2O),4(CaO)。
按此方法,對其余的各項大類中的各個存在較強相關性的化學成分變量做多元嶺回歸。把R作為考量回歸效果的重要指標,從而剔除所有R小于0.5 的回歸方程,其余則視為合理。最終,得到如下4 個大類下的各化學成分相關關系。一共有五條符合要求的回歸方程,如表1 所示。
表1 4種類別下的回歸方程
從中可以看出每組內(nèi)的化學成分的關系式。此外,我們還可以比較不同組之間的異同,總體來看:(1)不同類型和是否風化造成了相關的化學成分的不同,如鐵、銅的相關性在高鉀無風化組中體現(xiàn);P2O5只在高鉀無風化組中參與成分間關系式的構(gòu)建。(2)不論高鉀/鉛鋇,風化后,成分之間相關的多元性變差了。
如圖2 中給出了嶺回歸結(jié)果檢驗,通過比較真實值與回歸值的差異,目的是驗證回歸效果的良好性。在5 幅圖中,由上至下分別對應回歸方程1 ~5。
圖2 真實值與回歸值比較
可以看出,模型整體回歸效果良好,真實值與預測值的偏差很小。說明嶺回歸模型是合理的。對于樣本數(shù)較多的組來說,如第四條回歸方程,可以看出擬合效果非常好,實際值與回歸值幾乎完全一致。而對于數(shù)據(jù)樣本較少的組來說,效果略微遜色,但整體上,該五條回歸方程的調(diào)整R都達到0.8 及以上,認為嶺回歸是有效的,也就是說基于抽取玻璃文物化學成分的相關性關系分析進行玻璃文物考古有效可行[4]。
就相關性而言,發(fā)現(xiàn)高鉀玻璃風化前中共有11 組成分,具有較強的關聯(lián)性,而風化后有12 組化學成分兩兩具有較強相關性,差別不大;對鉛鋇玻璃來說,風化前有15 組化學成分兩兩呈現(xiàn)較強相關性,但風化后僅有11組,略有下降,由此間接印證了鉛鋇玻璃比高鉀玻璃更容易受到風化的影響。
不論高鉀還是鉛鋇玻璃,參與回歸方程變量構(gòu)建的個數(shù)在風化后都有所下降,高鉀玻璃風化前有7 種化學成分參與了多元回歸,風化后只有5 種;鉛鋇玻璃則是由6 種變?yōu)轱L化后的5 種。風化導致了玻璃內(nèi)化學成分多重的相互作用關系變?nèi)趿?,或可能是由于某些化學成分在風化中急劇減少或增加,從而失去了同其他化學成分原有的相關關系。從某種意義上說,在玻璃文物領域中,有大量的文物數(shù)據(jù)沒有被充分研究并利用。對于某一新出土的玻璃文物而言,本文更加具有現(xiàn)實意義。