李曉暉,袁 峰,白曉宇,張明明,賈 蔡,周濤發(fā)
(合肥工業(yè)大學(xué)資源與環(huán)境工程學(xué)院,安徽合肥230009)
典型礦區(qū)非正態(tài)分布土壤元素?cái)?shù)據(jù)的正態(tài)變換方法對(duì)比研究
李曉暉,袁 峰,白曉宇,張明明,賈 蔡,周濤發(fā)
(合肥工業(yè)大學(xué)資源與環(huán)境工程學(xué)院,安徽合肥230009)
對(duì)于銅陵礦區(qū)這類(lèi)變異性強(qiáng)、偏度大、不符合正態(tài)分布的土壤元素樣品數(shù)據(jù),直接進(jìn)行空間變異及插值分析會(huì)產(chǎn)生較大誤差,需首先選擇合適的正態(tài)變換方法進(jìn)行穩(wěn)健處理。該文以銅陵礦區(qū)表層土壤中的Pb元素?cái)?shù)據(jù)為例,采用不同的正態(tài)變換方法進(jìn)行數(shù)據(jù)正態(tài)變換,并通過(guò)變異函數(shù)對(duì)其變換效果進(jìn)行分析。對(duì)比研究顯示:對(duì)數(shù)變換無(wú)法使銅陵礦區(qū)土壤元素?cái)?shù)據(jù)服從正態(tài)分布;Box-Cox變換雖使數(shù)據(jù)的正偏度有所減少,但仍難以通過(guò) K-S正態(tài)檢驗(yàn);而Johnson變換結(jié)果最優(yōu),其通過(guò)了 K-S檢驗(yàn),對(duì)于異常數(shù)據(jù)的處理效果更優(yōu)。Johnson變換與Box-Cox變換均可使變異函數(shù)表現(xiàn)出更好的形態(tài),其中Johnson變換具有更強(qiáng)的正態(tài)變換能力,對(duì)于研究區(qū)土壤元素的變異函數(shù)穩(wěn)定形態(tài)具有一定優(yōu)勢(shì),是數(shù)據(jù)變異性強(qiáng)的成礦區(qū)地統(tǒng)計(jì)學(xué)數(shù)據(jù)正態(tài)變換的理想工具。
地統(tǒng)計(jì)學(xué);正態(tài)變換;土壤;元素;銅陵
地統(tǒng)計(jì)學(xué)作為研究空間變異和結(jié)構(gòu)分析、空間預(yù)測(cè)、空間模擬的工具,被廣泛應(yīng)用于地質(zhì)[1,2]、土壤[3,4]、環(huán)境[5]、氣象[6,7]、生態(tài)[8]等諸多領(lǐng)域。由于地統(tǒng)計(jì)學(xué)理論與方法建立在固有假設(shè)或內(nèi)蘊(yùn)假設(shè)的基礎(chǔ)上,所以要求進(jìn)行分析計(jì)算的數(shù)據(jù)服從正態(tài)分布[9]。但在實(shí)際應(yīng)用中,數(shù)據(jù)常具有的異常值、高偏度以及非正態(tài)分布性質(zhì)對(duì)于變異函數(shù)擬合及插值穩(wěn)健性有著極大的影響[10]。異常值引起的偏度過(guò)大雖然會(huì)保持變異函數(shù)的一般形狀,但卻會(huì)使塊金值、拱高和塊金/拱高等指標(biāo)升高[11];而數(shù)據(jù)的非正態(tài)性分布則會(huì)產(chǎn)生比例效應(yīng),將使克里格插值無(wú)法達(dá)到無(wú)偏最優(yōu)的特性,這些都將直接影響到變異函數(shù)模型的擬合、分析以及克里格插值的精度。為了解決異常值和數(shù)據(jù)非正態(tài)分布對(duì)地統(tǒng)計(jì)學(xué)分析的影響,地統(tǒng)計(jì)學(xué)家采取了多種有效的措施以提高空間分析與估值的穩(wěn)健性,其中較為常見(jiàn)的一是利用穩(wěn)健的變異函數(shù)及穩(wěn)健的克里格估值方法來(lái)適應(yīng)實(shí)際數(shù)據(jù), Genton等[12-15]從不同角度提出的穩(wěn)健變異函數(shù)模型,Haw kins等[16]提出的穩(wěn)健克里格方法,均能有效地提高地統(tǒng)計(jì)分析的穩(wěn)健性;二是對(duì)實(shí)際數(shù)據(jù)進(jìn)行穩(wěn)健處理,使數(shù)據(jù)逼近正態(tài)分布以滿足地統(tǒng)計(jì)學(xué)的理論前提,通常包括異常值的剔除以及數(shù)據(jù)正態(tài)變換。剔除異常值的方法由于減少了樣本數(shù)量,也有可能刪棄正確或有意義的數(shù)值,對(duì)于空間變異性強(qiáng)烈的地區(qū)如成礦區(qū)弊端非常明顯;而數(shù)據(jù)正態(tài)變換方法則可以在有效保留原有數(shù)據(jù)信息的基礎(chǔ)上使數(shù)據(jù)服從正態(tài)分布。目前常用的數(shù)據(jù)正態(tài)變換有對(duì)數(shù)變換(Logarithmic)和Box-Cox變換,其中Box-Cox變換由于其可以針對(duì)不同的數(shù)據(jù)選擇最優(yōu)的冪參數(shù),所以對(duì)于某些無(wú)法應(yīng)用對(duì)數(shù)變換的數(shù)據(jù)有較好的變換效果[17,18];近年來(lái),Johnson變換作為一種高級(jí)數(shù)據(jù)變換方法,在工業(yè)產(chǎn)品質(zhì)量控制領(lǐng)域應(yīng)用廣泛[19,20],Johnson變換包含了一組復(fù)雜的變換曲線,理論上具有更強(qiáng)的正態(tài)變換能力。
本文以銅陵礦區(qū)表層土壤中的Pb元素?cái)?shù)據(jù)為例,分別采用不同的正態(tài)變換方法進(jìn)行數(shù)據(jù)正態(tài)變換,并通過(guò)變異函數(shù)對(duì)其變換效果進(jìn)行分析,以期為更合理有效地在空間變異性強(qiáng)烈的成礦區(qū)應(yīng)用地統(tǒng)計(jì)學(xué)方法提供定量依據(jù)。
本文的Pb土壤元素含量數(shù)據(jù)來(lái)源于安徽省地質(zhì)調(diào)查院“安徽省江淮流域多目標(biāo)區(qū)域地球化學(xué)調(diào)查”資料,土壤樣品為較穩(wěn)定地塊的表層土壤,按間距為2 km網(wǎng)格采樣所得,覆蓋了銅陵礦區(qū)的主要礦田,樣本數(shù)共計(jì)204件。
(1)對(duì)數(shù)變換。其公式如下:
(2)Box-Cox變換。其屬于冪變換[17,18],且包含了對(duì)數(shù)變換(λ=0)、平方根變換(λ=1/2)和倒數(shù)變換(λ=-1)等常用變換,但其作用有限。公式為[21]:
式中:λ可按極大似然估計(jì)得到[22]。
(3)Johnson變換[23]。其包含一組變換曲線,用于將不同類(lèi)型分布的數(shù)據(jù)轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布,一般可由下式表示:
其中:Z為標(biāo)準(zhǔn)正態(tài)分布變量,X為非正態(tài)分布變量;參數(shù)γ和δ控制X分布的形狀;ξ為位置因子,λ為尺度因子。根據(jù)不同的偏度和峰度,變換函數(shù)將從Johnson函數(shù)曲線系統(tǒng)中選擇(表1)。Johnson函數(shù)曲線系統(tǒng)中的參數(shù)γ、δ、ξ和λ可參照 Hill[24]、Chou等[25-27]提出的理論與算法。
表1 Johnson變換系統(tǒng)中的變換函數(shù)Table 1 Transformation functions of Johnson transform system
Kolmogorov-Smirnov(K-S)是正態(tài)分布檢驗(yàn)常用而有效的方法,其原理是將樣本數(shù)據(jù)的經(jīng)驗(yàn)累積分布函數(shù)與假設(shè)數(shù)據(jù)呈正態(tài)分布時(shí)期望的分布進(jìn)行比較,如果實(shí)測(cè)差異足夠大,該檢驗(yàn)將否定總體呈正態(tài)分布的原假設(shè)[28]。本文設(shè)置信度α=0.05,若檢驗(yàn)的P<0.05,則否定原假設(shè),斷定總體呈非正態(tài)分布。
為將各種變換的變異函數(shù)圖統(tǒng)一到同一尺度進(jìn)行對(duì)比,可對(duì)變異函數(shù)進(jìn)行標(biāo)準(zhǔn)化處理。標(biāo)準(zhǔn)變異函數(shù)γs(h)計(jì)算式為[29]:
式中:S2為樣本方差。標(biāo)準(zhǔn)變異函數(shù)與變異函數(shù)的形狀基本相同,因此可以通過(guò)判斷標(biāo)準(zhǔn)變異函數(shù)的形狀與擬合情況進(jìn)而類(lèi)推到普通變異函數(shù)。
對(duì)Pb元素樣品數(shù)據(jù)進(jìn)行基本統(tǒng)計(jì)分析,統(tǒng)計(jì)結(jié)果(表 2)顯示 Pb元素樣品數(shù)據(jù)的變異系數(shù)達(dá)152.92%;根據(jù)土壤性質(zhì)變異程度的分類(lèi)[30],說(shuō)明其空間變異性較強(qiáng),數(shù)據(jù)中極可能存在很大的樣本值。同時(shí),Pb元素?cái)?shù)據(jù)的K-S檢驗(yàn)值 P小于0.01,說(shuō)明數(shù)據(jù)總體不符合正態(tài)分布,且Pb元素的濃度頻率分布都表現(xiàn)出一定程度的正偏(偏度大于0),這在其直方圖中(圖1)有更直觀的表現(xiàn)。此外,在Pb元素?cái)?shù)據(jù)直方圖右側(cè)存在較長(zhǎng)的拖尾,表明數(shù)據(jù)中存在異常值。鑒于Pb元素?cái)?shù)據(jù)的基本統(tǒng)計(jì)特征,地統(tǒng)計(jì)分析前的數(shù)據(jù)穩(wěn)健處理不可或缺。
表2 銅陵礦區(qū)土壤元素含量基本統(tǒng)計(jì)Table 2 The statistical results of the soil element contents in Tonglingm ining area
圖1 銅陵礦區(qū)土壤Pb元素濃度頻率直方圖Fig.1 The frequency histogram of soil Pb element contents in Tonglingm ining area
由于對(duì)數(shù)變換的正態(tài)變換能力較弱,無(wú)法使Pb元素?cái)?shù)據(jù)服從正態(tài)分布,同時(shí)Box-Cox變換已包含對(duì)數(shù)變換的能力,故下文只對(duì)Box-Cox及Johnson正態(tài)變換的效果進(jìn)行正態(tài)性檢驗(yàn)。本文首先統(tǒng)計(jì)了兩種變換后的偏度、峰度并進(jìn)行了 K-S檢驗(yàn)(表3),發(fā)現(xiàn)Box-Cox變換雖使數(shù)據(jù)的正偏度有所減少,但難以使數(shù)據(jù)通過(guò) K-S正態(tài)檢驗(yàn)(P<0.01),而Johnson變換結(jié)果明顯好于Box-Cox,其變換值順利通過(guò)了K-S檢驗(yàn)(P>0.15)。
表3 原數(shù)據(jù)的Box-Cox與Johnson變換及正態(tài)分布檢驗(yàn)結(jié)果Table 3 The Box-Cox and Johnson transformations of raw data and results of normality test
為更直觀的反映兩種變換結(jié)果的正態(tài)效果,本文給出了變換結(jié)果的正態(tài)分布概率圖(圖2),同時(shí)劃出置信區(qū)間為95%的分布線??梢?jiàn),Box-Cox變換后的數(shù)據(jù)雖然大部分點(diǎn)都依附于正態(tài)分布線周?chē)?但仍有頭尾兩端的數(shù)據(jù)出現(xiàn)在95%的置信區(qū)間以外; Johnson變換后的數(shù)據(jù)不僅使中間(均值周?chē)?的數(shù)據(jù)更加吻合正態(tài)分布線,而且使更多兩端的數(shù)據(jù)落在95%置信區(qū)間之內(nèi)。因此,Johnson正態(tài)變換方法更能使數(shù)據(jù)接近正態(tài)分布,尤其對(duì)于兩端的數(shù)據(jù)(右端常為異常數(shù)據(jù))效果明顯優(yōu)于Box-Cox變換。
圖2 Box-Cox和Johnson變換正態(tài)分布概率Fig.2 The normal distribution frequency after Box-Cox and Johnson transformations
為對(duì)比不同正態(tài)變換方法對(duì)變異函數(shù)形狀和趨勢(shì)的影響,本文分別計(jì)算了研究區(qū)土壤Pb元素原數(shù)據(jù)(Raw Date)、對(duì)數(shù)變換(Logarithm)、Box-Cox變換及Johnson變換結(jié)果的標(biāo)準(zhǔn)變異函數(shù),結(jié)果見(jiàn)圖3。
圖3 標(biāo)準(zhǔn)變異函數(shù)對(duì)比Fig.3 Comparison among different standard variograms
可見(jiàn),用原數(shù)據(jù)直接計(jì)算的變異函數(shù)趨勢(shì)混亂、躍動(dòng)明顯,塊金效應(yīng)與基臺(tái)值較高,無(wú)法很好地描述數(shù)據(jù)空間變異的趨勢(shì),且變異函數(shù)在達(dá)到基臺(tái)值后出現(xiàn)下降,出現(xiàn)所謂的“漂移”現(xiàn)象。因此,采用原數(shù)據(jù)直接計(jì)算的變異函數(shù)難以進(jìn)行有效的空間變異分析,也無(wú)法擬合出理想的變異函數(shù)模型,這將直接影響進(jìn)一步的克里格插值分析。相比而言,對(duì)數(shù)、Box-Cox及Johnson變換后的數(shù)據(jù)計(jì)算得到的變異函數(shù)則具有明顯優(yōu)勢(shì);特別是Box-Cox和Johnson變換,其變異函數(shù)表現(xiàn)出較小的塊金值、基臺(tái)值,明顯優(yōu)于對(duì)數(shù)變換和無(wú)變換的結(jié)果。總體而言,Box-Cox與Johnson變換的變異函數(shù)較為接近,但Johnson變換的變異函數(shù)趨勢(shì)更加平滑穩(wěn)定,更有利于理論變異函數(shù)的擬合。
對(duì)于銅陵礦區(qū)這類(lèi)變異性強(qiáng)、偏度大、不符合正態(tài)分布的土壤元素樣品數(shù)據(jù),直接進(jìn)行空間變異及插值分析會(huì)產(chǎn)生較大誤差,需首先選擇合適的正態(tài)變換方法進(jìn)行穩(wěn)健處理。對(duì)數(shù)變換無(wú)法使銅陵礦區(qū)的Pb土壤元素?cái)?shù)據(jù)服從正態(tài)分布,Box-Cox變換雖可使數(shù)據(jù)的正偏度有所減少,但仍難以通過(guò) K-S正態(tài)檢驗(yàn)。Johnson變換能夠使數(shù)據(jù)很好地符合正態(tài)分布,并可以順利通過(guò)K-S正態(tài)檢驗(yàn),其對(duì)于異常數(shù)據(jù)的正態(tài)變換效果更優(yōu)。Johnson變換與Box-Cox變換可以使變異函數(shù)表現(xiàn)出更好的形態(tài),其中Johnson變換具有更強(qiáng)的正態(tài)變換能力,對(duì)于變異函數(shù)穩(wěn)定形態(tài)具有一定優(yōu)勢(shì),是空間變異性強(qiáng)烈的成礦區(qū)地統(tǒng)計(jì)學(xué)數(shù)據(jù)正態(tài)變換的理想工具,其正態(tài)變換結(jié)果可為隨后的理論變異函數(shù)擬合與克里格插值奠定良好的基礎(chǔ)。
[1] JOURNEL A,HU IGBREGTSC.礦業(yè)地質(zhì)統(tǒng)計(jì)學(xué)[M].北京:冶金工業(yè)出版社,1982.1-586.
[2] 孫洪泉.地質(zhì)統(tǒng)計(jì)學(xué)及其應(yīng)用[M].徐州:中國(guó)礦業(yè)大學(xué)出版社,1990.1-282.
[3] 張長(zhǎng)波,李志博,姚春霞,等.污染場(chǎng)地土壤重金屬含量的空間變異特征及其污染源識(shí)別指示意義[J].土壤,2006,38(5):526 -533.
[4] 師榮光,趙玉杰,周啟星,等.蘇北優(yōu)勢(shì)農(nóng)業(yè)區(qū)土壤砷含量空間變異性研究[J].農(nóng)業(yè)工程學(xué)報(bào),2008,24(1):80-84.
[5] 李蒙文,戰(zhàn)明國(guó),趙財(cái)勝,等.穩(wěn)健估計(jì)方法在內(nèi)蒙古新忽熱地區(qū)水系沉積物測(cè)量異常評(píng)價(jià)中的應(yīng)用[J].礦床地質(zhì),2006,25 (1):27-35.
[6] 魏鳳英,曹鴻興.地統(tǒng)計(jì)學(xué)分析技術(shù)及其在氣象中的適用性[J].氣象,2002,28(12):3-5.
[7] 岳文澤,徐建華,徐麗華.基于地統(tǒng)計(jì)方法的氣候要素空間插值研究[J].高原氣象,2005,24(6):974-980.
[8] 王政權(quán).地統(tǒng)計(jì)學(xué)及在生態(tài)學(xué)中的應(yīng)用[M].北京:科學(xué)出版社,1999.1-195.
[9] 張仁鐸.空間變異理論及應(yīng)用[M].北京:科學(xué)出版社,2005.1 -188.
[10] KRIGE D,MAGRI E.Studies of the effects of outliers and data transformation on variogram estimates for a base metal and a gold ore body[J].Mathematical Geology,1982,14(6):557-564.
[11] OL IVER M,FROGBROOK Z,WEBSTER R,et al.A rational strategy for determining the number of cores for bulked sampling of soil[A].Precision Agriculture[C].UK Oxford:BIOS Scientific Publishers Ltd,1997.155-162.
[12] GENTON M.Highly robust variogram estimation[J].Mathematical Geology,1998,30(2):213-221.
[13] MARCHANT B,LARK R.Robust estimation of the variogram by residualmaximum likelihood[J].Geoderma,2007,140 (1-2):62-72.
[14] CERIOL I A,RIAN IM.Robust methods for the analysis of spatially autocorrelated data[J].Statistical Methods and Applications,2002,11(3):335-358.
[15] CRESSIE N,HAW KINS D.Robust estimation of the variogram:I[J].Mathematical Geology,1980,12(2):115-125.
[16] HAWKINS D,CRESSIE N.Robust kriging——a p roposal[J]. Mathematical Geology,1984,16(1):3-18.
[17] ZHANG C,SEL INUSO,SCHEDIN J.Statistical analyses for heavy metal contents in till and root samples in an area of southeastern Sweden[J].The Science of the Total Environment,1998,212(2-3):217-232.
[18] ZHANGC,ZHANGS.A robust-symmetricmean:A new way of mean calculation for environmental data[J].GeoJournal, 1996,40(1):209-212.
[19] 王少熙,賈新章.半導(dǎo)體質(zhì)量控制中的非正態(tài)工序能力指數(shù)計(jì)算模型[J].半導(dǎo)體學(xué)報(bào),2007,28(2):227-231.
[20] 周群艷,田澎,田志友.基于Johnson轉(zhuǎn)換體系的非正態(tài)過(guò)程能力指數(shù)估計(jì)[J].系統(tǒng)工程,2004,22(5):98-102.
[21] BOX G,COX D.An analysisof transformations[J].The Royal Statistical Society.Series B(Methodological),1964,26(2): 211-252.
[22] JOBSON J.Applied Multivariate Data Analysis:Regression and Experimental Design Categorical and Multivariate Methods[M]. New York:Sp ringer,1991.
[23] JOHNSON N.Systems of frequency curves generated by methods of translation[J].Biometrika,1949,36(1):149-176.
[24] H ILL I,H ILL R,HOLDER R.Fitting Johnson curves by moments[J].Applied Statistics,1976,25(2):180-189.
[25] CHOU Y,POLANSKY A,MASON R.Transforming non-normal data to normality in statistical p rocess control[J].Quality Technology,1998,30(2):133-141.
[26] SLIFKER J,SHAPIRO S.The Johnson system:Selection and parameter estimation[J].Technometrics,1980,22(2):239-246.
[27] MANDRACCIA S,HALVERSON G,CHOU Y.Control chart design strategies for skewed data[A].Process,Equipment,and Materials Control in Integrated Circuit Manufacturing II[C]. USA Austin:TX,1996.196-205.
[28] L ILL IEFORS H.On the Kolmogorov-Smirnov test for normality with mean and variance unknow n[J].The American Statistical Association,1967,62(318):399-402.
[29] PANNA TIER Y.Variow in:Software for Spatial Data Analysis in 2D[M].New York:Sp ringer,1996.1-91.
[30] MULLA D,MCBRA TNEY A.Soil Spatial Variability[M]. Boca Raton,FL:Soil Physics Companion CRC Press,2002.343 -373.
Abstract:Fo r the strongly variable,large skewed and non-no rmal distributed soil samp le data,such as those in Tongling mining area,spatial variability analysis and interpolation directly w ill lead to considerable erro rs,so it needs to select an app rop riate no rmal transfo rmation method to perfo rm the robust p rocessing firstly.In thispaper,Pb element dataof surface soil in Tongling mining area was taken fo r examp le,the raw data were transformed by different normal transfo rmation methods and the effects was analyzed by variogram,expecting to p rovide a mensurable basis fo r app lying geostatisticsmore reasonable and effective in the strong spatial variability metallogenic region.Comparison study showed that the logarithmic transfo rmation could notmake the soil element data in Tongling mining area obeying normal distribution,although Box-Cox transformation could decline the skew ness of the data,it still didn′t pass the K-S test.Johnson transfo rmation is an op timalmethod and the results passed the KS test successfully,especially for non-normal distributed data.Both Johnson transfo rmation and Box-Cox transfo rmation could make the variogram shape better,and Johnson transfo rmation had stronger no rmalization capacity and advantage fo r stabilizing the shape of variogram.Johnson transfo rmation is an ideal geostatistics normalization tool fo r the strong spatial variability metallogenic region.
Key words:geostatistics;no rmal transformation;soil;elements;Tongling
Comparison of Normalization Methods for Non-Normal Distributed Soil ElementsData in Typical M ining Area
L IXiao-hui,YUAN Feng,BA IXiao-yu,ZHANGM ing-ming,JIA Cai,ZHOU Tao-fa
(School of Resources and Environmental Engineering,Hefei University of Technology,Hefei 230009,China)
P628+.1
A
1672-0504(2010)06-0102-04
2010-07-20;
2010-10-18
新世紀(jì)優(yōu)秀人才支持計(jì)劃項(xiàng)目(NCET-10-0324);安徽省科技攻關(guān)計(jì)劃項(xiàng)目(08010302200);安徽省公益性地質(zhì)(科技)工作項(xiàng)目(2009-13);安徽省優(yōu)秀青年科技基金項(xiàng)目(08040106907、04045063)
李曉暉(1986-),男,博士研究生,主要從事多維分形及地質(zhì)體三維建模預(yù)測(cè)研究。E-mail:lxhlixiaohui@163.com