倪碧珩,陸 胤,施維林*
(1. 蘇州科技大學(xué)環(huán)境科學(xué)與工程學(xué)院,江蘇 蘇州 215009;2. 浙江樹人大學(xué)生物與環(huán)境工程學(xué)院,浙江 杭州 310015)
土壤作為環(huán)境保護(hù)的特定要素之一,它的狀況直接影響人類的健康[1]。但隨著城市經(jīng)濟(jì)的快速發(fā)展,各類污染與化學(xué)物質(zhì)與日俱增,導(dǎo)致土壤中的重金屬含量不可控制,因此,對(duì)土壤中重金屬元素含量進(jìn)行預(yù)測(cè),對(duì)人類的健康發(fā)展具有重要意義[2]。
黃趙麟[3]等人提出基于多模型優(yōu)選的土壤重金屬元素含量預(yù)測(cè)方法,該方法通過BP神經(jīng)網(wǎng)絡(luò)模型建立(BP-S),(BP-K),(BP-SK)模型,利用得到的模型模擬了土壤重金屬元素含量的具體分布,實(shí)現(xiàn)土壤重金屬元素含量的預(yù)測(cè)。該方法沒有考慮多變量數(shù)據(jù)之間存在的相關(guān)性,增加了問題分析的復(fù)雜度,導(dǎo)致最終結(jié)果與實(shí)際結(jié)果偏差較大。陸榮秀[4]等人提出基于改進(jìn)即時(shí)學(xué)習(xí)算法的土壤重金屬元素含量預(yù)測(cè)方法,該方法首先利用信息加權(quán)建模,了解變量之間存在的關(guān)聯(lián)性,最后建立LS-SVM模型實(shí)現(xiàn)土壤重金屬元素含量的預(yù)測(cè)。該方法沒有針對(duì)土壤重金屬元素之間的變量關(guān)系建立相應(yīng)的指標(biāo)體系,導(dǎo)致預(yù)測(cè)精度低。高文武[5]等人提出基于協(xié)同克里金插值法的土壤重金屬元素含量預(yù)測(cè)方法,該方法首先通過方差分析原理分析了土壤元素含量的影響,然后運(yùn)用協(xié)同克里金插值法計(jì)算出平均誤差、均方根誤差和標(biāo)準(zhǔn)化均方根誤差,對(duì)插值結(jié)果進(jìn)行評(píng)價(jià),最終實(shí)現(xiàn)土壤重金屬元素含量的預(yù)測(cè)。該方法缺少重金屬元素含量的相關(guān)數(shù)據(jù)分析,造成資料收集片面,導(dǎo)致最終的誤差偏大。
為了解決上述方法中存在的問題,提出基于Krigin插值法的土壤重金屬元素含量預(yù)測(cè)方法。
Pearson相關(guān)系數(shù)又叫做積差相關(guān)系數(shù),r為樣本相關(guān)系數(shù),p為總體相關(guān)系數(shù)。具體表達(dá)式如下
(1)
相關(guān)分析定義為確定兩個(gè)參數(shù)之間是否存在一定的關(guān)聯(lián)性,用系數(shù)r來表示。它有兩個(gè)特點(diǎn),一個(gè)是方向性,表現(xiàn)為正關(guān)聯(lián)、負(fù)關(guān)聯(lián)或零關(guān)聯(lián),另一個(gè)是強(qiáng)度,表示兩個(gè)參數(shù)存在的密切關(guān)聯(lián)性。當(dāng)x,y同向時(shí),r>0為正關(guān)聯(lián);當(dāng)x,y反向時(shí),r<0為負(fù)關(guān)聯(lián)。具體的評(píng)判標(biāo)準(zhǔn)如下所列:|r|>0.95說明兩個(gè)變量之間確定關(guān)聯(lián),|r|≥0.8說明兩個(gè)變量之間高程度關(guān)聯(lián);0.5≤|r|<0.8說明兩個(gè)變量之間中程度關(guān)聯(lián);0.3≤|r|<0.5說明兩個(gè)變量之間很少關(guān)聯(lián)相關(guān);|r|<0.3說明兩個(gè)變量之間幾乎不關(guān)聯(lián);r=0說明兩個(gè)變量之間不關(guān)聯(lián)[6]。
在相關(guān)數(shù)據(jù)分析的基礎(chǔ)上對(duì)土壤重金屬數(shù)據(jù)進(jìn)行主成分分析,利用Hessian矩陣,將收集的高維數(shù)據(jù)映射到特征方向上,找到最大的曲線回歸方向[7]。Hessian矩陣由實(shí)值函數(shù)f(x1,x2,…,xn)表達(dá),當(dāng)實(shí)值函數(shù)f中所有的二階導(dǎo)數(shù)都存在時(shí),f的Hessian矩陣表達(dá)為
H(f)ij(x)=DiDjf(x)
(2)
其中,x=(x1,x2,…,xn),則存在下式
(3)
(4)
(5)
當(dāng)向量x滿足均值ux和協(xié)方差的正態(tài)分布時(shí),uy就是y的均值,此時(shí)平均加權(quán)協(xié)方差矩陣就能夠決定Hessian矩陣,如下列公式
(6)
向量x根據(jù)仿射變換標(biāo)準(zhǔn)化處理,得到滿足標(biāo)準(zhǔn)正態(tài)分布的結(jié)果[9]。此時(shí),土壤重金屬數(shù)據(jù)的特征向量b1,…,bp可以根據(jù)下式得出
bp=λjbj,j=1,…,p
(7)
根據(jù)上式獲取的特征向量,即為土壤重金屬元素?cái)?shù)據(jù)的主成分。
基于Kriging插值法的土壤重金屬元素含量預(yù)測(cè)方法采用Kriging插值法實(shí)現(xiàn)土壤重金屬元素含量的預(yù)測(cè)。Kriging插值法就是將原始變量值轉(zhuǎn)換為如式(8)所示的指示變量
(8)
其中,Iz(s,t;zc)是Zc的引導(dǎo)值;Zc表示閾值;Z(s,t)表示為原變量值;t表示時(shí)間;s表示研究區(qū)域空間。
時(shí)間t全覆蓋在研究區(qū)域內(nèi),不高于閾值Zc的積累概率可以根據(jù)相應(yīng)指示值計(jì)算得出[10]
F(Zc)=Prob[Z(s,t)≤Zc]
(9)
其中,F(xiàn)(Zc)表示不高于閾值的積累概率;Prob[Z(s,t)≤Zc]表示小于閾值的積累概率;E[Iz(s,t,Zc)]表示在一定條件下的預(yù)期值。
在無抽樣的情況下,在閾值以下的積累概率變量可以通過對(duì)樣本點(diǎn)指示值的加權(quán)計(jì)算得到,Z(s,t)積累概率的最佳預(yù)測(cè)結(jié)果可以根據(jù)指示變量的最佳預(yù)測(cè)結(jié)果表示[11]。即
(10)
其中,F(xiàn)[s,t;Zc(n)]表示變量低于閾值的積累概率,λi表示對(duì)應(yīng)條件下特定值的比例。上式中得到積累概率的最佳預(yù)測(cè)結(jié)果實(shí)際就是土壤重金屬元素含量的預(yù)測(cè)結(jié)果。
為了更好地得出最佳預(yù)測(cè)結(jié)果,需要計(jì)算出樣本指示值的半變異函數(shù)
(11)
其中,γ(hs,hr)表示空間半變異函數(shù);hs表示空間間隔變量,hr表示時(shí)間間隔變量;N(hs,hr)表示在空間和時(shí)間間隔內(nèi)對(duì)應(yīng)數(shù)據(jù)的點(diǎn)數(shù);Z(s,t)i表示空間為s、時(shí)間為t的參數(shù);Z(s+hs,t+hr)表示空間為s+hs、時(shí)間為t+hr的參數(shù)。通過上述時(shí)空半變異函數(shù)優(yōu)化土壤重金屬元素含量的預(yù)測(cè)結(jié)果。
1)確定n個(gè)等級(jí)閾值Zc1,Zc2,…,Zcn,分別將變量歸類為C0,C1,C2,…,Cn,其中,C0=(0,Zc1],C1=(Zc1,Zc2],…,Cn=(Zc1,∞]。將各個(gè)閾值根據(jù)式(8)進(jìn)行指示變換,輸出預(yù)測(cè)結(jié)果。
2)利用式(11)計(jì)算出與指示收集函數(shù)相關(guān)聯(lián)的空間半變異函數(shù),也可用中位值代表閾值的半變異函數(shù)代替每個(gè)等級(jí)閾值的半變異函數(shù)。
3)依次對(duì)等級(jí)閾值Zc1,Zc2,…,Zcn和各個(gè)空間單元使用Kriging插值法進(jìn)行空間插值,算出各個(gè)等級(jí)劃分中小于第n個(gè)閾值的概率P0,P1,P2,…,Pn及其誤差預(yù)計(jì)的標(biāo)準(zhǔn)差sp1,sp2,…,spn。
4)根據(jù)預(yù)計(jì)概率和誤差分別對(duì)各個(gè)空間單元進(jìn)行歸類判定。判定方法如下:
①計(jì)算預(yù)計(jì)概率的空間為[Pi-spi,Pi+spi]。
②當(dāng)i=1,按照式(12)對(duì)空間單元進(jìn)行等級(jí)判定:
(12)
其中,ci表示等級(jí);Ci表示第i級(jí);Ci-1表示第i-1級(jí);C-1表示最末等級(jí);Pci表示第ci個(gè)概率閾值;Pi表示第i個(gè)概率閾值;spi表示第pi個(gè)標(biāo)準(zhǔn)誤差的標(biāo)準(zhǔn)差。
當(dāng)i≠1,按照式(13)確定空間單元等級(jí)判定
(13)
③判斷所有閾值是否完成計(jì)算,如果完成則輸出結(jié)果,如果沒有完成則重回1)繼續(xù)執(zhí)行。
5)將同等級(jí)空間單元進(jìn)行歸類,形成等級(jí)邊界。等級(jí)劃分一般取決于概率估計(jì)值和概率閾值,大小由劃分指數(shù)決定。一般情況下,兩者越接近時(shí)誤差越大,空間等級(jí)歸類方法越易出錯(cuò),其結(jié)果越不確定。
根據(jù)上述步驟,概率閾值對(duì)最終的結(jié)果起決定性作用,Kriging插值法計(jì)算結(jié)果小于閾值概率。在實(shí)驗(yàn)中,選取不同的概率閾值確定等級(jí)劃分結(jié)果,將得到的最終結(jié)果與實(shí)際結(jié)果進(jìn)行比較,得到不同概率閾值對(duì)應(yīng)的誤差指標(biāo),最終等級(jí)劃分的概率閾值為最小誤差指標(biāo)對(duì)應(yīng)的概率閾值,具體步驟如下列所示:
1)將概率閾值設(shè)定為0.1、0.2、0.3、…0.9;在特定的情況下,依次保留一個(gè)對(duì)應(yīng)的原始樣點(diǎn),其他概率閾值則通過Kriging插值法對(duì)樣點(diǎn)進(jìn)行等級(jí)劃分。
2)通過Kriging插值法計(jì)算的等級(jí)劃分結(jié)果與真實(shí)結(jié)果進(jìn)行對(duì)比,根據(jù)第一類錯(cuò)誤T1、第二類錯(cuò)誤T2、綜合錯(cuò)誤E進(jìn)行對(duì)比判定,三類公式如下所示
(14)
通過最終結(jié)果得出最合適的概率閾值,在實(shí)驗(yàn)中得知概率閾值越大,第一類錯(cuò)誤就會(huì)越大,第二類錯(cuò)誤會(huì)減少,當(dāng)實(shí)驗(yàn)結(jié)果中需要第一類錯(cuò)誤最小,那么就控制概率閾值為0.1;第二類錯(cuò)誤最小,概率閾值取0.9就會(huì)實(shí)現(xiàn);如果讓第一類和第二類錯(cuò)誤接近,那么概率閾值就取0.5;如果劃錯(cuò)比例控制最小,則概率閾值取0.4。
綜上所述,基于Krigin插值法的土壤重金屬元素含量預(yù)測(cè)方法首先利用Krigin插值法初步對(duì)土壤中重金屬含量進(jìn)行預(yù)測(cè),其次通過半變異函數(shù)對(duì)預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化,提高預(yù)測(cè)結(jié)果的準(zhǔn)確率,最后設(shè)定閾值對(duì)重金屬元素含量的等級(jí)進(jìn)行劃分,實(shí)現(xiàn)土壤重金屬含量的預(yù)測(cè)。
為了驗(yàn)證基于Kriging插值法的土壤重金屬元素含量預(yù)測(cè)方法的整體有效性,需要對(duì)其進(jìn)行測(cè)試。分別采用基于Kriging插值法的土壤重金屬元素含量預(yù)測(cè)方法(方法1)、基于多模型優(yōu)選的土壤重金屬元素含量預(yù)測(cè)方法(方法2)和基于改進(jìn)即時(shí)學(xué)習(xí)算法的土壤重金屬元素含量預(yù)測(cè)方法(方法3)在不同情況下對(duì)土壤重金屬元素含量進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果如圖1所示。
圖1 不同方法的重金屬含量預(yù)測(cè)結(jié)果
分析圖1中可知,當(dāng)距路基垂直距離不同時(shí),方法1預(yù)測(cè)金屬含量值與實(shí)際結(jié)果更吻合,方法2和方法3預(yù)測(cè)金屬含量值與實(shí)際結(jié)果存在較大誤差。因?yàn)榉椒?對(duì)多變量之間存在的相關(guān)性進(jìn)行分析,并以此為依據(jù)對(duì)土壤重金屬元素含量進(jìn)行預(yù)測(cè),降低了預(yù)測(cè)結(jié)果與實(shí)際結(jié)果之間存在的誤差,提高了方法的預(yù)測(cè)精度。
圖2為不同方法在重金屬含量預(yù)測(cè)中均方根誤差的對(duì)比結(jié)果。
圖2 不同方法的均方根誤差
分析圖2中可知,鄰近點(diǎn)數(shù)目不同時(shí),方法1的均方根誤差比方法2和方法3的均方根誤差更小。因?yàn)榉椒?對(duì)變量進(jìn)行相關(guān)分析時(shí),建立了多指標(biāo)分析體系,在一定程度上減少了信息的丟失,降低了誤差。
圖3為不同方法在重金屬含量預(yù)測(cè)中不同概率閾值下錯(cuò)誤比例的對(duì)比結(jié)果。
圖3 不同概率閾值下的錯(cuò)誤比例
分析圖3可知,概率閾值不同時(shí),方法1得出的錯(cuò)誤比例比方法2和方法3更小,因?yàn)榉椒?在進(jìn)行相關(guān)數(shù)據(jù)分析時(shí),運(yùn)用少量的綜合指標(biāo)對(duì)土壤重金屬含量中的信息進(jìn)行提取,保證了信息的真實(shí)有效,在一定程度上降低了錯(cuò)誤比例。
土壤是人類獲取食物的重要途徑,與人類的身體狀況密切相關(guān)。如今越來越多的土壤遭受重金屬的污染,直接影響人類的身體健康,因此,提高土壤質(zhì)量,加強(qiáng)土壤的管理與利用成為現(xiàn)階段的重中之重。目前土壤重金屬元素含量的預(yù)測(cè)中,存在預(yù)測(cè)精度低,信息大量丟失,資料收集片面的問題,提出基于Kriging插值法的土壤重金屬元素含量預(yù)測(cè)方法,該方法首先對(duì)相關(guān)數(shù)據(jù)進(jìn)行分析,總結(jié)出數(shù)據(jù)之間存在線性相關(guān)性,利用Kriging插值法建立預(yù)測(cè)函數(shù),最終實(shí)現(xiàn)土壤重金屬元素含量預(yù)測(cè)。該方法解決了以往方法中存在的問題,為土壤重金屬元素含量預(yù)測(cè)仿真提供了全新的參考依據(jù)。