李 佳,段 平*,呂 海 洋,張 思 陽(yáng),盛 業(yè) 華
(1.云南師范大學(xué)旅游與地理科學(xué)學(xué)院,云南 昆明 650050;2.虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室(南京師范大學(xué)),江蘇 南京 210023;3.江蘇省地理環(huán)境演化國(guó)家重點(diǎn)實(shí)驗(yàn)室培育建設(shè)點(diǎn),江蘇 南京 210023)
基于改進(jìn)的逐點(diǎn)交叉驗(yàn)證的RBF形態(tài)參數(shù)優(yōu)化方法及其空間插值實(shí)驗(yàn)
李 佳1,2,3,段 平1,2,3*,呂 海 洋2,3,張 思 陽(yáng)2,3,盛 業(yè) 華2,3
(1.云南師范大學(xué)旅游與地理科學(xué)學(xué)院,云南 昆明 650050;2.虛擬地理環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室(南京師范大學(xué)),江蘇 南京 210023;3.江蘇省地理環(huán)境演化國(guó)家重點(diǎn)實(shí)驗(yàn)室培育建設(shè)點(diǎn),江蘇 南京 210023)
徑向基函數(shù)(Radial Basis Function,RBF)是一種確定性的多維空間插值模型,可以有效逼近任意維度的空間數(shù)據(jù)。RBF插值模型中,基函數(shù)形態(tài)參數(shù)直接影響插值精度。為了快速求解最佳形態(tài)參數(shù),獲取準(zhǔn)確的插值結(jié)果,該文采用改進(jìn)的逐點(diǎn)交叉驗(yàn)證(Improved Leave One Out Cross Validation,ILOOCV)方法求取最優(yōu)形態(tài)參數(shù),首先從形態(tài)參數(shù)取值區(qū)間內(nèi)選定初始形態(tài)參數(shù)α,然后從n個(gè)已知點(diǎn)中順序選出一個(gè)點(diǎn),使用剩下的n-1個(gè)已知點(diǎn)構(gòu)建RBF插值模型,計(jì)算被取出點(diǎn)處真實(shí)值與插值結(jié)果的誤差,循環(huán)n次,累計(jì)交叉驗(yàn)證誤差,再依次從形態(tài)參數(shù)取值區(qū)間選取下一個(gè)值,重復(fù)操作,建立形態(tài)參數(shù)α與累計(jì)交叉驗(yàn)證誤差之間的函數(shù)映射關(guān)系,最后通過(guò)最小化交叉驗(yàn)證誤差來(lái)獲取最佳形態(tài)參數(shù)。以我國(guó)東北地區(qū)氣象觀測(cè)數(shù)據(jù)進(jìn)行實(shí)驗(yàn),對(duì)ILOOCV方法進(jìn)行驗(yàn)證,結(jié)果表明ILOOCV方法選取最佳形態(tài)參數(shù)使其插值結(jié)果比較精確,是一種可行的RBF形態(tài)參數(shù)優(yōu)化方法。
空間插值;徑向基函數(shù);形態(tài)參數(shù);逐點(diǎn)交叉驗(yàn)證
空間插值是GIS進(jìn)行地理分析的重要方法[1]。Franke從插值效果、參數(shù)靈敏度、執(zhí)行時(shí)間、存儲(chǔ)要求及編程實(shí)現(xiàn)的難易程度等方面對(duì)多種插值方法進(jìn)行比較,得出RBF插值是一種較優(yōu)的空間插值方法[2]。使用RBF插值方法進(jìn)行空間插值需要解決兩個(gè)問(wèn)題:基函數(shù)的選取和形態(tài)參數(shù)的優(yōu)化。每種基函數(shù)的特性各有不同,但只要采樣點(diǎn)足夠密,都可以準(zhǔn)確地逼近幾乎所有函數(shù)[3],故其插值結(jié)果差異不大。在基函數(shù)確定后,形態(tài)參數(shù)的選取直接影響到插值結(jié)果的精度[4],只有合理選取形態(tài)參數(shù)才能準(zhǔn)確地重建地理空間場(chǎng)。
以中國(guó)東北地區(qū)氣溫觀測(cè)數(shù)據(jù)為實(shí)驗(yàn)對(duì)象,結(jié)合氣溫?cái)?shù)據(jù)自身的特性,在使用RBF插值模型時(shí)采用ILOOCV方法求解最佳形態(tài)參數(shù),并將插值結(jié)果與通過(guò)經(jīng)驗(yàn)最佳形態(tài)參數(shù)的插值結(jié)果進(jìn)行對(duì)比分析,最終驗(yàn)證ILOOCV形態(tài)參數(shù)優(yōu)化方法及其空間插值的可靠性和有效性。
1.1RBF插值模型
RBF插值方法是一種不需對(duì)數(shù)據(jù)做任何假設(shè),直接利用已知數(shù)據(jù)本身來(lái)準(zhǔn)確逼近任意維度空間曲面,并對(duì)任意位置估計(jì)其函數(shù)值的理論和方法。設(shè)多維空間n個(gè)已知點(diǎn),使用向量xi表示第i個(gè)已知點(diǎn),則RBF插值模型可以表示為:
(1)
1.2 基于LOOCV的RBF最優(yōu)形態(tài)參數(shù)求解方法
采用任何一種基函數(shù)進(jìn)行空間插值,都會(huì)隨著α增大(到達(dá)某個(gè)臨界值之前),插值模型越來(lái)越光滑,若超過(guò)這個(gè)臨界值,繼續(xù)增加α,則插值模型連續(xù)性變差,誤差隨之變大,將該α的臨界值稱為最佳形態(tài)參數(shù)。為了獲取精確的插值模型,需要采用一個(gè)合理的計(jì)算方法得到最佳形態(tài)參數(shù),常見(jiàn)的計(jì)算方法是LOOCV。首先將已知點(diǎn)集劃分為插值點(diǎn)集和驗(yàn)證點(diǎn)集,使用插值點(diǎn)集對(duì)該研究區(qū)域進(jìn)行RBF插值,并計(jì)算驗(yàn)證點(diǎn)集處的插值結(jié)果,與驗(yàn)證點(diǎn)集處的真實(shí)值進(jìn)行對(duì)比,通過(guò)使插值結(jié)果與真實(shí)值間的誤差最小化來(lái)獲取最佳的形態(tài)參數(shù)。具體步驟是:
步驟1:設(shè)定形態(tài)參數(shù)選取區(qū)間[p,q](其中0≤p≤q),以s(s<1且隨區(qū)間大小不斷調(diào)整)為步長(zhǎng),從小到大依次取值αi,帶入RBF插值模型;
(2)
步驟4:重復(fù)步驟2、3,循環(huán)n次,直至所有觀測(cè)點(diǎn)參與到交叉驗(yàn)證過(guò)程,記錄其累計(jì)誤差:
(3)
步驟5:根據(jù)形態(tài)參數(shù)取值步長(zhǎng)s,依次取值重復(fù)步驟1、2、3,直至區(qū)間上限,構(gòu)建形態(tài)參數(shù)與累計(jì)誤差映射關(guān)系LOOCV(αi);
步驟6:求解LOOCV(αi)累計(jì)誤差的最小值,其對(duì)應(yīng)的形態(tài)參數(shù)αi作為最佳形態(tài)參數(shù)。
在LOOCV求解過(guò)程中徑向基函數(shù)模型求解時(shí)間復(fù)雜度為O(n3),進(jìn)行n次交叉驗(yàn)證時(shí)間復(fù)雜度為O(n4)。使用該方法計(jì)算最佳形態(tài)參數(shù),面臨運(yùn)算量大、效率低問(wèn)題,需對(duì)其進(jìn)行改進(jìn)。
1.3 基于ILOOCV的RBF最優(yōu)形態(tài)參數(shù)求解方法
數(shù)學(xué)上可證明,在LOOCV求解和RBF插值模型求解過(guò)程中,存在如下數(shù)學(xué)關(guān)系[8]:
(4)
(5)
則1.2節(jié)中步驟2、3、4可以簡(jiǎn)化為:步驟 2:使用全部已知點(diǎn)和形態(tài)參數(shù)αi,計(jì)算插值矩陣Φ和線性組合系數(shù)c,根據(jù)式(5)計(jì)算交叉驗(yàn)證誤差。本文基于式(5)求解最佳形態(tài)參數(shù)和RBF插值模型。
2.1 空間插值實(shí)驗(yàn)數(shù)據(jù)源與預(yù)處理
為了驗(yàn)證ILOOCV方法在地理空間現(xiàn)象插值中的可靠性,實(shí)驗(yàn)數(shù)據(jù)來(lái)源于中國(guó)氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)(http://cdc.cma.gov.cn/home.do),選取中國(guó)東北地區(qū)123個(gè)觀測(cè)站點(diǎn)的地面氣候標(biāo)準(zhǔn)值年值數(shù)據(jù)集(1981-2010年)累年年平均氣溫作為插值對(duì)象。如圖1所示,觀測(cè)站點(diǎn)呈非均勻散亂分布;在遼寧省、吉林省部分區(qū)域,觀測(cè)站點(diǎn)分布較為密集,而黑龍江省和內(nèi)蒙古部分區(qū)域分布較為稀疏;氣溫值從南向北、由東向西逐漸降低,整體變化比較平穩(wěn)。
圖1 原始數(shù)據(jù)Fig.1 Original data
插值前對(duì)數(shù)據(jù)點(diǎn)進(jìn)行預(yù)處理,采用ASTER網(wǎng)站(http://asterweb.jbl.nasa.gov/gdem.asp)提供的DEM(30 m*30 m)對(duì)不同高度的插值結(jié)果進(jìn)行氣溫修正處理,其中氣溫直減率為0.6°C/100 m[11,12],插值及修正過(guò)程如下:
步驟1:根據(jù)DEM高程信息,將原始數(shù)據(jù)中的氣溫值根據(jù)式(6)修正到海平面高度的真實(shí)值;
t1=t0+r×h
(6)
步驟2:對(duì)修正后的氣溫?cái)?shù)據(jù)采用ILOOCV方法求解最佳形態(tài)參數(shù),再進(jìn)行RBF插值重建氣溫場(chǎng);
步驟3:使用DEM高程信息根據(jù)式(7)將插值得到的氣溫場(chǎng)進(jìn)行再次修正,使得插值結(jié)果能夠準(zhǔn)確地表達(dá)地表的真實(shí)氣溫。
t2=t1-r×h
(7)
其中,t0為真實(shí)氣溫?cái)?shù)據(jù),t1為修正到海平面的氣溫?cái)?shù)據(jù),t2為再次修正后的真實(shí)氣溫?cái)?shù)據(jù),r為氣溫直減率(0.6°C/100m),h為海拔。
2.2 幾種常見(jiàn)的插值方法精度分析
對(duì)123個(gè)觀測(cè)站點(diǎn)數(shù)據(jù)進(jìn)行高程修正后分別采用反距離權(quán)重(InverseDistanceWeight,IDW)、普通克里金(OrdinaryKriging,OK)、Frank建議的經(jīng)驗(yàn)形態(tài)參數(shù)RBF插值(Frank-RBF)、基于ILOOCV的RBF(ILOOCV-RBF)4種空間插值方法對(duì)東北地區(qū)氣溫?cái)?shù)據(jù)進(jìn)行逐點(diǎn)交叉驗(yàn)證,其中每種插值方法參考點(diǎn)設(shè)置為最小點(diǎn)數(shù)為10個(gè),最大點(diǎn)數(shù)為15個(gè),普通克里金的變異函數(shù)擬合模型為球狀模型,RBF基函數(shù)采用Multiquadric。插值精度分析采用最大誤差(MaxError)、最小誤差(MinError)、平均誤差(MeanError,ME)、均方根誤差(RootMeanSquareError,RMSE),各插值方法的精度如表1所示。
表1 插值誤差Table 1 Interpolation error
表1中IDW插值方法除Min Error優(yōu)于其他3種空間插值方法外,另外3個(gè)誤差指標(biāo)Max Error、ME和RMSE都最大,原因可能是IDW插值估算的屬性值只能在參考點(diǎn)屬性值域中,IDW插值方法性質(zhì)決定了估算值不能大于參考點(diǎn)屬性值的最大值和小于參考點(diǎn)屬性值的最小值。OK插值中Max Error、Min Error誤差與ILOOCV-RBF相差不大,但是ME、RMSE相差較大,而ME、RMSE最能反映出插值方法的精度。因?yàn)镕rank-RBF和ILOOCV-RBF插值原理一樣,所以二者插值誤差較為近似,但是Frank-RBF的誤差略大,原因是其采用的是經(jīng)驗(yàn)形態(tài)參數(shù)。總體上ILOOCV-RBF插值誤差均小于其他3種插值誤差。
2.3 基于ILOOCV的RBF氣溫場(chǎng)重建與分析
使用ILOOCV-RBF方法求解該區(qū)域內(nèi)RBF插值模型的最佳形態(tài)參數(shù)為α=0.2248,根據(jù)獲取的最佳形態(tài)參數(shù),構(gòu)建該區(qū)域RBF插值模型,對(duì)該區(qū)域氣溫場(chǎng)進(jìn)行重建(圖2),重建結(jié)果光滑連續(xù),局部細(xì)節(jié)特征表達(dá)完好。
圖2 插值結(jié)果Fig.2 Interpolation results
為了分析整個(gè)區(qū)域內(nèi)氣溫場(chǎng)插值重建結(jié)果的誤差分布情況,以區(qū)域內(nèi)各個(gè)觀測(cè)站點(diǎn)的交叉驗(yàn)證誤差為研究對(duì)象,對(duì)區(qū)域誤差分布情況進(jìn)行RBF插值,采用ILOOCV方法獲取RBF插值模型的最佳形態(tài)參數(shù),求解該區(qū)域內(nèi)的RBF誤差插值模型,對(duì)誤差進(jìn)行分級(jí),結(jié)果如圖3所示。
圖3 誤差分布Fig.3 Error distribution
該區(qū)域內(nèi)的誤差分布具有以下特征:1)區(qū)域內(nèi)氣溫場(chǎng)插值重建結(jié)果整體誤差較小,局部存在較大誤差;2)誤差主要集中在西北部區(qū)域,而中部區(qū)域誤差較小,誤差分布與區(qū)域地形變化有一定的相關(guān)性。
結(jié)合區(qū)域內(nèi)的DEM數(shù)據(jù)(圖4)和觀測(cè)站點(diǎn)分布情況(圖1)以及觀測(cè)站點(diǎn)氣溫觀測(cè)值變化情況,進(jìn)一步分析氣溫場(chǎng)插值重建誤差產(chǎn)生的原因:1)區(qū)域西北部海拔較高,對(duì)冷空氣形成一定阻擋,平均氣溫較低,為多年凍土地帶,因此,該區(qū)域內(nèi)的氣溫值要低于其他區(qū)域,即氣溫值屬性在本區(qū)域與相鄰區(qū)域出現(xiàn)了較大的差異;2)區(qū)域西北部氣溫值與鄰近區(qū)域變化較大并且觀測(cè)站數(shù)量相對(duì)較少,不能夠很好地反映區(qū)域內(nèi)的氣溫值變化情況,而區(qū)域中部氣溫值變化較為平緩且觀測(cè)站點(diǎn)較多。
圖4 區(qū)域DEMFig.4 DEM of the study area
使用RBF模型進(jìn)行地理空間插值時(shí),形態(tài)參數(shù)的選取直接影響到插值結(jié)果的精度。本文基于ILOOCV方法,使用中國(guó)東北地區(qū)地面累年年平均氣溫?cái)?shù)據(jù)進(jìn)行實(shí)驗(yàn),獲取最佳形態(tài)參數(shù)進(jìn)行RBF氣溫場(chǎng)插值重建,雖然存在部分插值誤差,但整體結(jié)果較為準(zhǔn)確,可以有效地反映區(qū)域內(nèi)的氣溫變化情況。
[1] 李新,程國(guó)棟,盧玲.空間內(nèi)插方法比較[J].地球科學(xué)進(jìn)展,2000,15(3):260-265.
[2] FRANKE R.Scattered data interpolation:Tests of some methods[J].Mathematics of Computation,1982,38(157):181-200.
[3]WENDLAND H.Scattered Data Approximation[M].Cambridge:Cambridge University Press,2005.
[4] ROUSSOS G,BAXTER B J C.Rapid evaluation of radial basis functions[J].Journal of Computational and Applied Mathematics,2005,180(1):51-70.
[5] HARDY R L.Multiquadric equations of topography and other irregular surfaces[J].Journal of Geophysical Research,1971,76(8):1905-1915.
[6] 歐陽(yáng)潔,聶玉峰,車剛明,等.數(shù)值分析[M].北京:高等教育出版社,2009.
[7] DAVIS B M.Uses and abuses of cross-validation in geostatistics[J].Mathematical Geology,1987,19(3):241-248.
[8] RIPPA S.An algorithm for selecting a good value for the parameter c in radial basis function interpolation[J].Advances in Computational Mathematics,1999,11(2-3):193-210.
[9] FASSHAUER G E.Meshfree Approximation Methods with MATLAB[M].Singapore:World Scientific,2007.
[10] MONGILLO M.Choosing Basis Functions and Shape Parameters for Radial Basis Function Methods.http://www.siam.org/students/siuro/vol4/S01084.pdf,2011.
[11] 陳冬花,鄒陳,王蘇穎,等.基于 DEM 的伊犁河谷氣溫空間插值研究[J].光譜學(xué)與光譜分析,2011,31(7):1925-1929.
[12] 蔡迪花,郭鈮,李崇偉.基于 DEM 的氣溫插值方法研究[J].干旱氣象,2009,27(1):10-17.
RBF Shape Parameter Optimization Approach Based on ILOOCV and Its Spatial Interpolation Experiments
LI Jia1,2,3,DUAN Ping1,2,3,LYU Hai-yang2,3,ZHANG Si-yang2,3,SHENG Ye-hua2,3
(1.SchoolofTourismandGeographicalSciencesofYunnanNormalUniversity,Kunming650050;2.KeyLaboratoryofVirtualGeographicEnvironment(NanjingNormalUniversity),MinistryofEducation,Nanjing210023;3.StateKeyLaboratoryCultivationBaseofGeographicalEnvironmentEvolution(JiangsuProvince),Nanjing210023,China)
Radial Basis Function (RBF) can effectively approximate arbitrary dimension spatial data,which is a deterministic multivariate spatial interpolation method.In RBF interpolation model,the shape parameter in the basis function has a directimpact on the accuracy of the interpolation.In order to get optimal shape parameter which leads to smallest interpolation error and obtains the most accurate interpolated results,the Improved Leave One Out Cross Validation (ILOOCV) approach is applied in this paper.First,the initial shape parameter α is selected from the shape parameter interval which are divided by the step const value,then sequentially choose one point from thenknown points as the verify point and use then-1 remaining known points to calculate the RBF interpolation model.After that,the interpolated value of the point which are taken away from thenknown points by the RBF interpolation model is calculated and compared with the true value of the known point to get the interpolation error,then these operations are repeated forntimes until all the points are left out to be chosen as the verify point and the cross validation interpolation error is accumulated.After all these steps have been done,another shape parameter from the shape parameter interval is taken according to the step const value and the leave one out cross validation is repeated until all the shape parameters have been used to calculate the accumulated cross validation interpolation error,then the mapping relationship between the selected shape parameter and the accumulated cross validation interpolation error is established.Finally,to minimize the accumulated cross validation interpolation error in each leave one out cross validation process to get the smallest error and take the corresponding α as the optimal shape parameter.The meteorological observation data in Northeast China are taken as examples to verify the feasibility and effectiveness of this approach.Results show that,the optimal shape parameter selected by ILOOCV turns out to be effective and the spatial interpolated results are quite accurate.
spatial interpolation;radial basis function;shape parameter;leave one out cross validation
2015-10-03;
2016-01-16
國(guó)家自然科學(xué)基金項(xiàng)目(41271383);云南師范大學(xué)博士基金項(xiàng)目(01300205020503113)
李佳(1984-),女,博士,講師,主要從事空間分析、近景攝影測(cè)量等研究。*通訊作者E-mail:duanpingshai@163.com
10.3969/j.issn.1672-0504.2016.03.008
P208
A
1672-0504(2016)03-0039-04