摘 要:為了探討采樣點數(shù)據(jù)聚集程度對于空間插值的影響,本研究采用藍田縣部分區(qū)域DEM數(shù)據(jù)為原始數(shù)據(jù),使用多種采樣方式模擬了150組具有不同空間聚集強度的試驗數(shù)據(jù)集。建立了一種度量樣本數(shù)據(jù)集空間聚集程度差異的方法,對比不同樣點數(shù)、不同聚集程度采樣數(shù)據(jù)集普通克里金法(Ordinary Kriging,OK)插值精度的差異。結(jié)果表明:相同樣點數(shù)目情況下,空間聚集程度較高的樣點集插值精度小于空間聚集程度較低的樣點集;且隨著樣點數(shù)目增加,聚集強度差異對于OK插值精度的影響逐漸減小。故在樣點數(shù)量較少時,樣點集聚集程度的識別和處理對于提高OK插值精度尤為重要。
關(guān)鍵字:普通克里金;采樣方式;樣點聚集程度;插值精度
中圖分類號:S159.9 ? ? 文獻標志碼:A ? ? 文章編號:1003-5168(2022)1-0125-04
DOI:10.19968/j.cnki.hnkj.1003-5168.2022.01.028
Spatial Interpolation-Oriented Measure of Spatial Aggregation of Sampled Point Data
WANG Xiang1,2
(1.School of Earth Science and Resources, Chang'an University, Xi'an 710064,China;2.Research Center of Information Technology, Beijing Academy of Agriculture and Forestry Sciences, Beijing? 100097,China)
Abstract: In order to investigate the influence of data aggregation degree on spatial interpolation, this study used DEM data of some areas in Lantian County as the original data, and simulated 150 experimental data sets with different spatial aggregation strength using various sampling methods. A method was established to measure the differences in spatial aggregation of the sample data sets, and the differences in the interpolation accuracy of ordinary kriging (OK) were compared for different sets of data with the same number of points and different degrees of aggregation. The results show that the interpolation accuracy of the sample data set with higher spatial aggregation is smaller than that of the sample data set with lower spatial aggregation, and the effect of the difference in aggregation intensity on the interpolation accuracy of OK decreases as the number of sample points increases. Therefore, when the number of sample points is small, the identification and processing of the aggregation degree of the sample point set is especially important to improve the OK interpolation accuracy.
Keywords: ordinary kriging; sampling method; sample point aggregation;interpolation accuracy
數(shù)字空間制圖是對地理要素空間分布特征的反映[1],體現(xiàn)地理要素的形成與發(fā)展過程,在環(huán)境科學(xué)研究中具有廣泛的應(yīng)用。其制作過程大致分為四步:獲取研究對象數(shù)據(jù)、確定采樣方法與策略、選擇制圖模型方法、生成研究對象的數(shù)字化圖像[2]。獲取研究數(shù)據(jù)過程十分重要,地學(xué)研究中環(huán)境要素數(shù)據(jù)信息的獲取比較困難,受到人力、物力、財力、研究區(qū)狀況等客觀因素的限制,樣點數(shù)量不可能無限多,通過采樣檢測的方式獲取研究對象的特征是環(huán)境科學(xué)研究常用的方法[3],但研究者要獲取的不僅僅是有限的采樣點處的研究對象的信息,更關(guān)注研究對象在空間的連續(xù)變化情況。如環(huán)境污染研究人員需要了解土壤中重金屬含量的連續(xù)變化情況,有針對性地開展污染治理工作;地貌地形研究人員不僅僅需要有限采樣點的高程、坡度,更關(guān)注地形在空間的連續(xù)變化情況。
空間插值技術(shù)就是根據(jù)給定的采樣點數(shù)據(jù)及其空間位置,擬合出一個能充分反映對象特征與空間位置間的數(shù)學(xué)關(guān)系的函數(shù)方程,從而獲得研究對象在整個研究區(qū)域空間上的連續(xù)分布情況。OK是一個確切估計器,使得其估計的隨機場在樣本點的取值與對應(yīng)觀測值一致[4],其他空間點的估計不會與實際情況相距太遠;這一優(yōu)勢使得OK法在環(huán)境科學(xué)領(lǐng)域、氣象、土壤、生態(tài)、水文等領(lǐng)域具有廣泛的應(yīng)用[5]。OK插值精度受制于多種因素的影響。采樣數(shù)目、采樣密度等都會影響OK插值過程及結(jié)果,進而影響通過空間插值分析地理要素特性的空間分布和變異規(guī)律[6-11]。但是目前針對樣點空間分布對于OK插值影響的研究還比較少,本研究利用多種采樣方式模擬不同聚集程度采樣數(shù)據(jù),提出了一種度量采樣點數(shù)據(jù)空間聚集程度的方法,分析樣點數(shù)據(jù)集的樣點空間聚集程度對OK插值精度的影響規(guī)律,可為耕地質(zhì)量評價、土壤污染詳查等領(lǐng)域空間制圖提供理論借鑒。
1 研究區(qū)概況和數(shù)據(jù)來源
1.1 研究區(qū)概況
藍田縣位于西安市東南。本研究所采用的高程數(shù)據(jù)取自藍田縣東北的矩形區(qū)域,地理位置在北緯33°84′—33°97′,東經(jīng)109°07′—109°49′,東西長為10 km,南北寬為14 km,總面積為140 km2。研究區(qū)域北部連接橫嶺余脈,東南部毗鄰秦嶺山地,西部為平原,整體走勢呈現(xiàn)東高西低,境域內(nèi)最高點海拔為1 709 m,最低點海拔為211 m,平均海拔約為950 m。研究區(qū)域內(nèi)高程地形多樣,既包括平原等地形簡單區(qū)域,又包括山地等地形變化復(fù)雜區(qū)域,在此區(qū)域內(nèi)采樣能較好地模擬復(fù)雜多變地理要素的采樣過程,獲得真實可靠的試驗數(shù)據(jù)。
1.2 數(shù)據(jù)來源及預(yù)處理
DEM數(shù)據(jù)來源于ASF Data Search平臺,分辨率為12.5 m,通過對研究區(qū)域DEM進行不同方式采樣,獲得多種聚集分布狀態(tài)的樣點數(shù)據(jù)集。根據(jù)等高線密集程度的差異,選擇目的性采樣、分層采樣、隨機采樣三種方式,按照100點、300點、500點、700點、900點分別實現(xiàn)10次采樣,共獲得150個試驗數(shù)據(jù)集,通過提取分析等處理,使用含高程屬性的采樣點模擬真實采樣數(shù)據(jù)進行樣點空間聚集強度度量研究。
2 研究方法
2.1 采樣數(shù)據(jù)聚集程度表征方法
空間聚集因子(Cluster Factor,CF)表示樣點數(shù)據(jù)空間聚集度,公式見式(1)。
式中,對樣點創(chuàng)建泰森多邊形,n為對多邊形面積聚類后得到的最小類泰森多邊形的個數(shù);si為n個多邊形中第i個的面積;S為研究區(qū)總面積;N為樣本總數(shù);CF∈(0,1),樣點在研究區(qū)域內(nèi)完全均勻布時,CF=1;當樣點存在空間聚集情況則0<CF<1,最小類的泰森多邊形個數(shù)越多、面積越小則值越小,樣本數(shù)據(jù)集聚集程度越大;隨著聚集程度加深,CF值逐漸趨近于0;樣點完全均勻分布CF=1。
地理空間特征呈現(xiàn)聚集分布的樣點的泰森多邊形會呈現(xiàn)面積小且相鄰的特點,故利用樣點在研究區(qū)域生成的泰森多邊形,以泰森多邊形面積為屬性進行K-means聚類,當面積較小且空間鄰接的泰森多邊形聚集在一起,它們所代表的樣點在空間分布上亦聚集。針對各樣點數(shù)量級下的試驗樣點集空間聚集程度的差異,利用K-means聚類算法將其劃分成K類。其中,K-means聚類算法是以距離作為相似性評價指標,指定K個初始聚類中心,根據(jù)樣本之間的距離劃分成K類。利用局部Moran′sⅠ系數(shù)將樣點泰森多邊形面積的空間格局可視化,不斷調(diào)整聚類數(shù)K。當K-means聚類法結(jié)果中的最小類與低值聚集區(qū)域(LL)范圍相同或相似時,該區(qū)域代表的樣點在空間特征上亦呈現(xiàn)聚集分布狀態(tài)。
2.2 空間插值方法及插值結(jié)果精度評價
2.2.1 空間插值方法。OK是以變異函數(shù)理論和結(jié)構(gòu)分析為基礎(chǔ)的一種常見空間插值方法,在區(qū)域變量存在空間自相關(guān)的前提下,根據(jù)未知點和其一定范圍內(nèi)采樣點的距離及空間關(guān)系擬合模型確定權(quán)重,對區(qū)域內(nèi)未知點的屬性進行線性無偏、最優(yōu)估計。無偏最優(yōu)估計也就是使估計值等于實際值的數(shù)學(xué)期望,且方差最小[12]。
2.2.2 插值結(jié)果精度評價。本研究利用3種采樣方式獲取不同空間分布狀態(tài)的含高程屬性的點數(shù)據(jù),在具有真實DEM的情況下,采用平均絕對誤差(Mean Absolute Error,MAE)來定量描述不同聚集程度樣點數(shù)據(jù)對于空間制圖的影響。平均絕對誤差計算公式為
3 結(jié)果與分析
3.1 樣點數(shù)據(jù)空間聚集計算結(jié)果
計算150個樣點集的空間聚集因子并按照從小到大、分樣點數(shù)量繪制空間聚集因子離散圖。經(jīng)過計算得到150個樣點集的空間聚集因子,其中300、500點樣點集的空間聚集因子值按升序排列后呈現(xiàn)兩個階梯;而100、700、900樣點數(shù)呈現(xiàn)三個階梯。
3.2 相同樣點數(shù)量、不同聚集程度樣點空間插值結(jié)果精度對比
基于圖2中各樣點集空間聚集因子的分布狀況,將100、300、500、700、900樣點的30個數(shù)據(jù)集按照聚集程度分別劃分成3類、2類、2類、3類、3類(圖1),計算并統(tǒng)計相同樣點數(shù)量下同類別數(shù)據(jù)集OK插值結(jié)果的MAE。本研究首先利用SPSS.24統(tǒng)計分析軟件剖析了150個數(shù)據(jù)集高程值的統(tǒng)計特征,為滿足OK插值需求,通過Box-Cox變換使之達到或近似正態(tài)分布;在此基礎(chǔ)上使用GS+7.0軟件進一步計算了各個試驗數(shù)據(jù)集的半變異函數(shù)參數(shù);最后在ArcGIS10.6軟件的支持下,生成預(yù)測柵格,對比分析不同樣點數(shù)量、不同樣點聚集程度下的預(yù)測精度的差異。
樣本點聚集程度差異對于OK插值結(jié)果的平均絕對誤差的影響如表1所示,當樣點數(shù)量為100時,第一類樣點集OK插值結(jié)果的MAE為58.180;第二類為56.852,第三類為48.525。插值精度:第一類<第二類<第三類;聚集強度:第一類>第二類>第三類。同理,300、500、700、900樣點數(shù)量的樣點集亦均表現(xiàn)出樣點聚集強度越高,插值精度越差,平均絕對誤差越大的趨勢。100樣點聚集強度較高的數(shù)據(jù)集MAE均值與聚集強度較低的數(shù)據(jù)集MAE均值的差值為9.655,900樣點聚集強度較高、較低數(shù)據(jù)集間MAE均值的差值為1.759。結(jié)果表明:低聚集采樣數(shù)據(jù)插值精度明顯優(yōu)于高聚集;且隨著樣點數(shù)量增加,不同聚集強度樣點集的OK插值結(jié)果MAE差異逐漸減小。
隨著樣點數(shù)量增加,OK插值精度不斷提高,樣點數(shù)量為100時(30個數(shù)據(jù)集)OK插值結(jié)果的平均MAE為55.229,樣點數(shù)量為500時MAE為30.599,樣點數(shù)量為900時MAE為25.292。明顯表明增加樣點數(shù)量能有效提升插值精度,但是此過程并非線性遞增。樣點數(shù)量由100點增加到300點時OK插值結(jié)果精度得到明顯的改善,增加200個樣本點,MAE減小了33.282%。但由300點增加到900點時,增加600個樣本點,OK插值結(jié)果精度雖仍在提升,但提升的幅度并不大,MAE分別僅減小31.161%。
綜上所述,提升樣點數(shù)量能有效提升插值結(jié)果精度,但存在閾值。超過閾值繼續(xù)增加樣點數(shù)目對于改善插值結(jié)果精度的效果不再顯著;聚集程度較低的樣點集空間插值精度優(yōu)于較高的數(shù)據(jù)集,隨著樣點數(shù)量增加,聚集程度差異對于OK插值結(jié)果的MAE影響越來越小。
4 結(jié)論
本研究基于DEM數(shù)據(jù),模擬了不同樣本點數(shù)量(100、300、500、700、900)、不同聚集程度樣點集,應(yīng)用普通克里金法進行空間插值。闡述采樣數(shù)據(jù)空間聚集差異對于OK插值精度的影響,高聚集樣點數(shù)據(jù)的插值結(jié)果MAE明顯大于低聚集樣點數(shù)據(jù),且在樣點數(shù)較少的情況下差異尤為明顯。研發(fā)的面向空間插值的采樣點數(shù)據(jù)空間聚集程度的度量方法,可以判斷判斷多個數(shù)據(jù)集間的聚集程度差異,可以為采樣數(shù)據(jù)去冗精化提供借鑒,服務(wù)于面源與重金屬污染、耕地質(zhì)量檢測、地下水和地表水中的污染物濃度分析等領(lǐng)域。
參考文獻:
[1] 李瑩瑩,趙正勇,楊旗.數(shù)字土壤制圖在土壤養(yǎng)分方面的研究綜述[J].江西農(nóng)業(yè)學(xué)報,2021,33(7):61-67.
[2] 朱阿興,楊琳,樊乃卿,等.數(shù)字土壤制圖研究綜述與展望[J].地理科學(xué)進展,2018,37(1):66-78.
[3] 陸安詳,曹珊珊,高秉博.面向農(nóng)業(yè)環(huán)境監(jiān)測的空間插值方法[M].北京:經(jīng)濟科學(xué)出版社,2017.
[4] LE N D, ZIDEK J V. Statistical analysis of environmental space-time processes[M]. Springer Science & Business Media, 2006.
[5] 高秉博,郝朝展,李發(fā)東,等.面向土壤環(huán)境質(zhì)量等級劃分的統(tǒng)計推斷與加密采樣優(yōu)化方法研究綜述[J].農(nóng)業(yè)環(huán)境科學(xué)學(xué)報,2021,40(4):712-722.
[6] ERICSON B,CARAVANOS J,CHATHAM-STEPHENS K,et al. Approaches to systematic assessment of environmental exposures posed at hazardous waste sites in the developing world:The toxic sites identification program[J]. Environmental Monitoring and Assessment,2013,185(2):1755-1766.
[7] 張貝爾,黃標,趙永存,等.采樣數(shù)量與空間插值方法對華北平原典型區(qū)土壤質(zhì)量評價空間預(yù)測精度的影響[J].土壤,2013,45(3):540-547.
[8] 巫振富,趙彥鋒,程道全,等.樣點數(shù)量與空間分布對縣域尺度土壤屬性空間預(yù)測效果的影響[J].土壤學(xué)報,2019,56(6):1321-1335.
[9] 龐夙,李廷軒,王永東,等.縣域農(nóng)田土壤銅含量的協(xié)同克里格插值及采樣數(shù)量優(yōu)化[J].中國農(nóng)業(yè)科學(xué),2009,42(8):2828-2836.
[10] 李潤林,姚艷敏,唐鵬欽,等.縣域耕地土壤鋅含量的協(xié)同克里格插值及采樣數(shù)量優(yōu)化[J].土壤通報,2013,44(4):830-838.
[11] 趙業(yè)婷,常慶瑞,李志鵬,等.基于Cokriging的耕層土壤全氮空間特征及采樣數(shù)量優(yōu)化研究[J].土壤學(xué)報,2014,51(2):415-422.
[12] 靳國棟,劉衍聰,牛文杰.距離加權(quán)反比插值法和克里金插值法的比較[J].長春工業(yè)大學(xué)學(xué)報(自然科學(xué)版),2003(3):53-57.
收稿日期:2021-12-26
基金項目:科技部重點研發(fā)計劃課題“黑土地耕地質(zhì)量時空多維大數(shù)據(jù)預(yù)警系統(tǒng)研發(fā)”(2021YFD1500104)。
作者簡介:王翔(1994—),男,碩士生,研究方向:空間數(shù)據(jù)處理與分析。
3688500338221