王明明,王卷樂(lè)
1. 山東理工大學(xué)建筑工程學(xué)院,山東淄博 255049
2. 中國(guó)科學(xué)院地理科學(xué)與資源研究所,資源與環(huán)境信息系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京 100101
3. 江蘇省地理信息資源開(kāi)發(fā)與利用協(xié)同創(chuàng)新中心,南京 210023
數(shù)據(jù)庫(kù)(集)基本信息簡(jiǎn)介
?
街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)是我國(guó)目前公開(kāi)的最精細(xì)的統(tǒng)計(jì)數(shù)據(jù),街道/鄉(xiāng)鎮(zhèn)級(jí)人口空間分布數(shù)據(jù)成為地學(xué)研究的重要需求之一,但單純地將統(tǒng)計(jì)數(shù)據(jù)以行政區(qū)劃為單元分布到空間,往往存在行政單元尺度不夠精細(xì)[1]、行政區(qū)劃系統(tǒng)存在變動(dòng)[2]、行政邊界造成地學(xué)研究中的“可變?cè)獑?wèn)題”[3]等不足。格網(wǎng)化人口空間分布數(shù)據(jù)是傳統(tǒng)人口統(tǒng)計(jì)數(shù)據(jù)的拓展和補(bǔ)充,其實(shí)現(xiàn)了行政單元尺度人口的重新展布,有效克服了人口統(tǒng)計(jì)數(shù)據(jù)存在的不足,對(duì)地理、資源、環(huán)境、生態(tài)、災(zāi)害以及可持續(xù)發(fā)展等跨學(xué)科研究具有重要意義。
目前涉及中國(guó)區(qū)域的格網(wǎng)化人口數(shù)據(jù)已有中國(guó)人口空間分布公里網(wǎng)格數(shù)據(jù)集(Chpop)、全球柵格人口數(shù)據(jù)集(GPW)、全球農(nóng)村城鎮(zhèn)制圖計(jì)劃數(shù)據(jù)集(GRUMP)和世界人口計(jì)劃數(shù)據(jù)集(Worldpop)等,這些數(shù)據(jù)集中除了GPW外,其他均是以縣級(jí)人口統(tǒng)計(jì)數(shù)據(jù)為基礎(chǔ),借助人口統(tǒng)計(jì)數(shù)據(jù)與土地利用、夜間燈光和土地覆被等數(shù)據(jù)的關(guān)系建立空間分布模型。盡管GPW使用了2010年的街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù),但其街道/鄉(xiāng)鎮(zhèn)級(jí)行政邊界數(shù)據(jù)不是實(shí)際邊界數(shù)據(jù),而是采用特殊方法的模擬數(shù)據(jù)[4]??梢?jiàn),真實(shí)的街道/鄉(xiāng)鎮(zhèn)級(jí)人口格網(wǎng)化數(shù)據(jù)產(chǎn)品目前是極為貧乏的。究其原因在于三點(diǎn),一是街道/鄉(xiāng)鎮(zhèn)級(jí)行政區(qū)劃矢量數(shù)據(jù)獲取困難,且存在大量的行政區(qū)劃和地名變更問(wèn)題,難以直接利用。二是,街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)的空間關(guān)聯(lián)需要進(jìn)行大量的涉及鄉(xiāng)鎮(zhèn)(街道)地名和行政區(qū)劃的空間數(shù)據(jù)匹配處理工作,非專業(yè)的團(tuán)隊(duì)難以完成。三是,空間化的方法單一,缺少多源數(shù)據(jù)和中國(guó)人口地理學(xué)特點(diǎn)的綜合運(yùn)用,例如中國(guó)人口分布的城鄉(xiāng)二級(jí)分布特征。以上這些原因使得當(dāng)前人口數(shù)據(jù)空間化研究多是基于縣級(jí)人口統(tǒng)計(jì)數(shù)據(jù)[5-8],即使有個(gè)別街道/鄉(xiāng)鎮(zhèn)級(jí)的研究[9-10],也只停留在小范圍內(nèi)。針對(duì)這一需求,本文完成了2000年和2010年山東省街道/鄉(xiāng)鎮(zhèn)級(jí)人口匹配處理,并利用土地利用數(shù)據(jù)和夜間燈光數(shù)據(jù)相結(jié)合的空間化方法,實(shí)現(xiàn)了兩期人口數(shù)據(jù)的空間化工作。其中土地利用數(shù)據(jù)和街道/鄉(xiāng)鎮(zhèn)級(jí)行政單元相結(jié)合構(gòu)建城鄉(xiāng)二級(jí)分區(qū)方法,增強(qiáng)型植被指數(shù)(EVI)對(duì)DMSP/OLS夜間燈光數(shù)據(jù)進(jìn)行修正,保證了空間化模型的精度。
生產(chǎn)本數(shù)據(jù)集所采用的數(shù)據(jù)包括DMSP/OLS夜間非輻射定標(biāo)的平均穩(wěn)態(tài)數(shù)據(jù)、EVI、土地利用數(shù)據(jù)、世界人口計(jì)劃數(shù)據(jù)集WorldPop、街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)和行政邊界數(shù)據(jù)。數(shù)據(jù)的相關(guān)參數(shù)和來(lái)源如表1中所示。
表1 數(shù)據(jù)源詳細(xì)信息
(1)街道/鄉(xiāng)鎮(zhèn)級(jí)人口空間數(shù)據(jù)
街道/鄉(xiāng)鎮(zhèn)級(jí)人口空間數(shù)據(jù)制作需要將街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)與街道/鄉(xiāng)鎮(zhèn)級(jí)行政區(qū)劃矢量數(shù)據(jù)的屬性進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)值在空間上的分布。本文采用決策樹(shù)的思想實(shí)現(xiàn)兩者的屬性關(guān)聯(lián),過(guò)程如圖1所示。
圖1 街道/鄉(xiāng)鎮(zhèn)級(jí)人口空間數(shù)據(jù)制作流程
(2)夜間燈光數(shù)據(jù)
DMSP/OLS夜間燈光數(shù)據(jù)由于OLS傳感器本身的缺陷存在飽和溢出現(xiàn)象,會(huì)影響到城市中心人口數(shù)據(jù)空間化的精度。有研究表明可以通過(guò)EVI對(duì)DMSP/OLS夜間燈光數(shù)據(jù)進(jìn)行修正,生成增強(qiáng)型植被指數(shù)調(diào)整的夜間燈光指數(shù)(EANTLI),修正公式如式(1)[11]。
式中,NTLn為歸一化后的DMSP/OLS夜間燈光指數(shù),EVIa為處理后的EVI數(shù)據(jù),NTL為原始DMSP/OLS夜間燈光指數(shù)。
(3)城鄉(xiāng)二級(jí)分區(qū)
建模之前將樣本進(jìn)行二級(jí)分區(qū)處理,技術(shù)流程如圖2。一級(jí)分區(qū):利用土地利用數(shù)據(jù)將所有行政單元分為城鎮(zhèn)地區(qū)(A1)、農(nóng)村地區(qū)和其余地區(qū)。其中城鎮(zhèn)地區(qū)中的居民地類型只包含城鎮(zhèn)用地,農(nóng)村地區(qū)的居民地類型只包含農(nóng)村居民點(diǎn),其余地區(qū)則包含這兩種居民地類型。二級(jí)分區(qū):以1∶4∶1的比例將農(nóng)村地區(qū)分為低人口密度區(qū)(A2)、中人口密度區(qū)(A3)和高人口密度區(qū)(A4);根據(jù)模型檢驗(yàn)結(jié)果將其余地區(qū)分為A5(相對(duì)誤差絕對(duì)值<20%)、A6(相對(duì)誤差<-20%)和A7(相對(duì)誤差>20%)3個(gè)分區(qū)。
圖2 城鄉(xiāng)二級(jí)分區(qū)和建模技術(shù)流程圖
(4)空間化模型
分別利用線性回歸模型和多層感知器(MLP)人工神經(jīng)網(wǎng)絡(luò)模型建立人口數(shù)據(jù)空間化模型。A1、A2、A3和A4分區(qū)的建模結(jié)果依次對(duì)應(yīng)圖2中的方程式1-4。
①線性回歸模型。A1分區(qū)的人口數(shù)據(jù)空間化模型如式(2)所示,A2、A3和A4分區(qū)的人口數(shù)據(jù)空間化模型如式(3)所示。
式中,pop和popi為街道/鄉(xiāng)鎮(zhèn)級(jí)行政單元內(nèi)的人口值;EANTLI為行政單元中城鎮(zhèn)用地范圍內(nèi)的EANTLI燈光強(qiáng)度值;和為回歸系數(shù);和為常數(shù)項(xiàng);areai為行政單元中農(nóng)村居民點(diǎn)的面積;表示第i個(gè)分區(qū),取值分別為2、3、4。
②MLP人工神經(jīng)網(wǎng)絡(luò)模型。在A1、A2、A3和A4分區(qū),將土地利用數(shù)據(jù)和EANTLI夜間燈光數(shù)據(jù)作為輸入層,街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)作為輸出層,包含一個(gè)隱藏層,模型如式(4)和式(5)所示。
式中,G為隱藏層到輸出層的邏輯回歸函數(shù),S為輸入層到隱藏層的函數(shù),W1和W2分別為輸入層到隱藏層和隱藏層到輸出層的權(quán)重,和分別為輸入層到隱藏層和隱藏層到輸出層的偏置,和a為變量。
(5)格網(wǎng)單元人口模擬
選取模型精度最優(yōu)的空間化模型模擬格網(wǎng)單元的人口值。經(jīng)后文模型精度驗(yàn)證可知,線性回歸模型的精度優(yōu)于MLP人工神經(jīng)網(wǎng)絡(luò)模型的精度,因此本文利用線性回歸模型的建模結(jié)果模擬格網(wǎng)單元的人口值。其中A1、A2、A3和A4分區(qū)依次利用方程式1-4模擬,A5分區(qū)利用方程式1和方程式3模擬,A6分區(qū)利用方程式1和方程式2模擬,A7分區(qū)利用方程式1和方程式4模擬。
(6)格網(wǎng)單元人口修正
由于模型公式存在一定的誤差,行政單元內(nèi)的人口模擬值和人口統(tǒng)計(jì)值不一致。建立人口模擬修正公式,見(jiàn)式(6),對(duì)格網(wǎng)內(nèi)的人口模擬值進(jìn)行調(diào)整。
經(jīng)過(guò)數(shù)據(jù)處理得到2000年和2010年山東省100 m格網(wǎng)人口空間分布數(shù)據(jù)集(圖3、圖4)。本數(shù)據(jù)集比較清晰地反映了山東省的人口分布特點(diǎn),高人口密度主要集中在濟(jì)南、青島、濰坊、淄博、煙臺(tái)、德州、威海和濟(jì)寧等地級(jí)城市駐地處,濟(jì)南和青島兩地的人口密度和數(shù)量最高;魯北沿海、魯中山地丘陵區(qū)和濟(jì)寧南部的人口分布較為稀少。從2000年到2010年的人口分布變化來(lái)看,地級(jí)城市高人口密度區(qū)有明顯的擴(kuò)大,2010年的最大人口密度值較2000年有所提高。
本文利用街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)作為基礎(chǔ)數(shù)據(jù)、運(yùn)用城鄉(xiāng)二級(jí)分區(qū)建模方法、EVI對(duì)DMSP/OLS夜間燈光數(shù)據(jù)進(jìn)行修正等做法保證空間化產(chǎn)品的精度。為對(duì)空間化結(jié)果做出準(zhǔn)確的評(píng)價(jià),本文對(duì)空間化模型進(jìn)行驗(yàn)證并對(duì)空間化結(jié)果進(jìn)行同類產(chǎn)品對(duì)比分析。驗(yàn)證和對(duì)比結(jié)果如下文所述。
圖3 2000年山東省格網(wǎng)人口空間分布數(shù)據(jù)
圖4 2010年山東省格網(wǎng)人口空間分布數(shù)據(jù)
(1)模型精度驗(yàn)證
在模擬格網(wǎng)單元內(nèi)的人口之前,檢驗(yàn)空間化模型的精度。利用方程式1-4模擬其余地區(qū)鄉(xiāng)鎮(zhèn)(街道)單元內(nèi)的人口,按式(7)計(jì)算其余地區(qū)街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)值和模擬值之間的相對(duì)誤差。結(jié)果顯示,線性回歸模型中2000年和2010年的其余地區(qū)分別有78.0%和78.4%的行政單元的相對(duì)誤差絕對(duì)值小于20%,MLP人工神經(jīng)網(wǎng)絡(luò)模型中2000年和2010年的其余地區(qū)分別有71.0%和72.7%的行政單元的相對(duì)誤差絕對(duì)值小于20%??梢?jiàn)在本文人口數(shù)據(jù)空間化模型構(gòu)建中,線性回歸模型比MLP人工神經(jīng)網(wǎng)絡(luò)模型更有優(yōu)勢(shì)。
將線性回歸模型的相對(duì)誤差分布到空間(圖5),可以看出誤差較大(相對(duì)誤差絕對(duì)值大于20%,圖中藍(lán)色和紅色區(qū)域)的行政單元主要分布于地級(jí)城市周邊和北部沿海區(qū)域,且2000年的相對(duì)誤差在中部山地丘陵區(qū)也分布較多。主要原因有以下兩點(diǎn):①在城市周邊和山地丘陵區(qū)容易出現(xiàn)城鎮(zhèn)用地和農(nóng)村居民點(diǎn)用地的錯(cuò)分現(xiàn)象;②在沿海地區(qū)存在港口碼頭,導(dǎo)致夜間燈光和人口分布的相關(guān)性降低。
圖5 模型精度檢驗(yàn)結(jié)果空間分布圖
(2)空間化結(jié)果對(duì)比
利用山東省街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)對(duì) Chpop、GPW 和 Worldpop進(jìn)行精度評(píng)價(jià),計(jì)算Chpop2000、GPW2000、WorldPop2000、Chpop2010、GPW2010和Worldpop2010六個(gè)數(shù)據(jù)集街道/鄉(xiāng)鎮(zhèn)級(jí)行政單元尺度內(nèi)的人口模擬值和統(tǒng)計(jì)值之間的皮爾遜相關(guān)系數(shù)(R)、平均絕對(duì)誤差(MAE)、均方根誤差(RMSE)和相對(duì)均方根誤差(%RMSE),其中%RMSE是將均方根誤差除以人口普查數(shù)據(jù)的平均值得到,可以反映模型模擬的精度高低[12]。MAE、RMSE和%RMSE的計(jì)算公式分別如式(8)、式(9)和式(10)所示,計(jì)算結(jié)果如表2所示。結(jié)果顯示W(wǎng)orldPop的人口模擬值最精確。
表2 山東省格網(wǎng)化人口分布數(shù)據(jù)集的人口模擬值與統(tǒng)計(jì)值的評(píng)價(jià)指標(biāo)
利用目前可開(kāi)放獲取的精度相對(duì)最高的人口空間分布數(shù)據(jù)集WorldPop對(duì)本文產(chǎn)出的SDpop2000和SDpop2010進(jìn)行對(duì)比驗(yàn)證。分別統(tǒng)計(jì)WorldPop和SDpop在10 km格網(wǎng)內(nèi)的人口值,采用散點(diǎn)圖、R、MAE、RMSE和%RMSE來(lái)衡量?jī)烧叩牟町?。MAE、RMSE和%RMSE分別采用式(8)、式(9)和式(10)計(jì)算,其中分別帶入10 km格網(wǎng)內(nèi)SDpop和WorldPop的人口模擬值,N代表10 km格網(wǎng)的個(gè)數(shù)。檢驗(yàn)結(jié)果如表3所示,SDpop與WorldPop的散點(diǎn)圖如圖6所示。
表3 山東省格網(wǎng)化人口空間分布數(shù)據(jù)驗(yàn)證結(jié)果
圖6 SDpop與WorldPop的10 km格網(wǎng)人口值散點(diǎn)圖
格網(wǎng)化人口空間分布數(shù)據(jù)打破了行政單元的禁錮,實(shí)現(xiàn)了更精細(xì)的人口空間分布,這不僅對(duì)地理、資源、環(huán)境、生態(tài)、災(zāi)害等學(xué)科中和人口相關(guān)的跨學(xué)科研究具有重要意義,而且對(duì)政府部門進(jìn)行土地使用、公共設(shè)施和開(kāi)發(fā)計(jì)劃等規(guī)劃具有重要參考意義。本文通過(guò)對(duì)街道/鄉(xiāng)鎮(zhèn)級(jí)人口統(tǒng)計(jì)數(shù)據(jù)、獨(dú)特分區(qū)方法和基于EVI修正的夜間燈光數(shù)據(jù)的使用,有效地提高了人口數(shù)據(jù)的空間化精度,產(chǎn)出的2000年和2010年山東省格網(wǎng)化人口空間分布數(shù)據(jù)集,豐富了人口格網(wǎng)化產(chǎn)品。
中國(guó)科學(xué)數(shù)據(jù)(中英文網(wǎng)絡(luò)版)2019年3期