肖東升,練 洪
(1.西南石油大學(xué)土木工程與測(cè)繪學(xué)院,成都 610500;2.西南石油大學(xué)測(cè)繪遙感地理信息防災(zāi)應(yīng)急研究中心,成都 610500;3.四川師范大學(xué)公共安全與應(yīng)急研究院,成都 610068)
人口是社會(huì)學(xué)、地理學(xué)、環(huán)境學(xué)等學(xué)科研究的重要基礎(chǔ),準(zhǔn)確估計(jì)人口對(duì)許多國(guó)家都具有重要意義。精確的人口空間分布情況,不僅為政府制定合適的人口相關(guān)政策奠定重要基礎(chǔ),制定區(qū)域長(zhǎng)遠(yuǎn)發(fā)展計(jì)劃提供參考,還對(duì)人口分布與社會(huì)經(jīng)濟(jì)協(xié)調(diào)發(fā)展有著重要的參考價(jià)值,為資源配置和行政管理提供依據(jù)。目前,世界上大多數(shù)國(guó)家或地區(qū)實(shí)現(xiàn)人口調(diào)查的主要渠道是統(tǒng)計(jì)和分析,包括抽樣調(diào)查和全體普查2種方式[1]。雖然人口調(diào)查和統(tǒng)計(jì)具有權(quán)威、系統(tǒng)、規(guī)范等優(yōu)勢(shì),但是存在時(shí)間分辨率低、更新周期長(zhǎng)、空間化精度低、不利于可視化和空間分析操作等問(wèn)題,對(duì)人口空間分布的研究難以滿足[2]。而人口空間化可以彌補(bǔ)人口統(tǒng)計(jì)數(shù)據(jù)的缺陷和不足,并且可以與其他更精細(xì)的空間數(shù)據(jù)集結(jié)合進(jìn)行分析,以促進(jìn)人口相關(guān)研究的發(fā)展。
DMSP/OLS夜間燈光數(shù)據(jù)最初是用來(lái)探測(cè)云層對(duì)月光的反射以分析云層分布信息,后來(lái)被廣泛用于獲取地表夜間燈光以反映人類活動(dòng)情況[3],并且證明有著極好的適用性[4]。但是夜間燈光數(shù)據(jù)的分辨率較低,且存在著像元飽和、溢出等現(xiàn)象,導(dǎo)致單一的夜間燈光數(shù)據(jù)只適用于大中尺度人口空間化的相關(guān)研究[5-6]。目前,基于人口統(tǒng)計(jì)數(shù)據(jù)和空間變量之間的關(guān)系來(lái)建立數(shù)學(xué)模型從而獲取人口格網(wǎng)數(shù)據(jù)是研究人口空間化的熱點(diǎn)。常用的方法主要有多源數(shù)據(jù)融合法[7-8]、夜間燈光與土地利用結(jié)合方法[9-10]、空間插值模型[11]等。此外,部分學(xué)者結(jié)合傳統(tǒng)最小二乘線性(ordinary least square,OLS)全局模型將人口統(tǒng)計(jì)數(shù)據(jù)重新分配在地理空間上,默認(rèn)模型所有參數(shù)都不隨地理位置變化,即在空間上是平穩(wěn)的,保持全局一致性,導(dǎo)致各變量在不同位置上的“平均行為”[12]。有些學(xué)者利用局部地理加權(quán)回歸(geographically weighted regression,GWR)建模的方法進(jìn)行人口數(shù)據(jù)空間化研究,默認(rèn)所有參數(shù)在不同地理空間位置是不一樣的,具有空間非平穩(wěn)性[13-14],而實(shí)際上有的變量在不同地理空間位置的參數(shù)是相同的,即具有全局效應(yīng)。也有學(xué)者使用分區(qū)建模對(duì)變量特征進(jìn)行重分類,優(yōu)化原有模型方法[15-16],盡管強(qiáng)調(diào)了分區(qū)間的差異,但是對(duì)分區(qū)內(nèi)的差異仍然無(wú)法揭示[17]。因此,鑒于上述空間化方法的優(yōu)缺點(diǎn),本研究考慮變量的空間平穩(wěn)性,采用變量的局部和全局模式進(jìn)行混合地理加權(quán)回歸,以提高人口空間化精度。
綜上,本文旨在利用夜間燈光數(shù)據(jù)、土地利用數(shù)據(jù)和人口統(tǒng)計(jì)數(shù)據(jù),基于半?yún)?shù)地理加權(quán)回歸模型(semi-parametric geographically weighted regression,S-GWR),提出了一種新的考慮參數(shù)平穩(wěn)性的人口精確空間化方法,以四川省為研究區(qū)域進(jìn)行比較和驗(yàn)證。本文以夜間燈光與土地利用數(shù)據(jù)為權(quán)重因子,建立人口模型;在分析變量特征的基礎(chǔ)上,采用S-GWR模型處理變量的空間平穩(wěn)性,減少區(qū)域誤差。最后生成四川省2010年1 km分辨率的人口空間分布圖(spatial distribution of population,SDP),并利用2個(gè)常用的數(shù)據(jù)集進(jìn)行縣鄉(xiāng)分級(jí)精度驗(yàn)證。此外,本文通過(guò)OLS,GWR和S-GWR 3種回歸模型進(jìn)行比較和評(píng)價(jià),分析不同模型的變量參數(shù)不同對(duì)人口空間化的影響。
四川省位于中國(guó)大陸西南腹地,地處長(zhǎng)江上游,青藏高原和長(zhǎng)江中下游平原的過(guò)渡帶,介于E97°21′~108°33′和N26°03′~34°19′之間,總轄區(qū)面積約484 144.02 km2。轄區(qū)有21個(gè)市級(jí)行政區(qū),包括18個(gè)地級(jí)市和3個(gè)少數(shù)民族自治區(qū),共計(jì)181個(gè)縣級(jí)行政區(qū)[18]。四川省具有聯(lián)動(dòng)?xùn)|西、帶動(dòng)南北的區(qū)位優(yōu)勢(shì),是我國(guó)實(shí)施西部大開(kāi)發(fā)戰(zhàn)略的重點(diǎn)地區(qū)之一,是中國(guó)“一帶一路”倡議下的絲綢之路的重要陸上出口區(qū)域[19]。四川省是中國(guó)西部人口重要的聚居地之一,2010年常住人口8 041.75萬(wàn)人,其中城鎮(zhèn)人口3 231.2萬(wàn)人,農(nóng)村人口4 810.55萬(wàn)人。由于經(jīng)濟(jì)和地理上的差異,總體呈現(xiàn)川東地區(qū)人口密度高于川西地區(qū)的格局。四川省地震、洪澇和泥石流等自然災(zāi)害多發(fā),加上其地形地貌復(fù)雜,所以研究四川省的人口空間分布可以為防災(zāi)減災(zāi)提供技術(shù)支持和維持區(qū)域平衡發(fā)展提供決策。
1)夜間燈光數(shù)據(jù)。本研究使用的夜間燈光數(shù)據(jù)(圖1(a))來(lái)源于美國(guó)地球物理國(guó)家數(shù)據(jù)中心(National Geophysical Data Center,https://NGDC.noaa.gov/eog/DMSP/download_radcal.html),選取2010年發(fā)布第四版分辨率為30″的DMSP/OLS夜間燈光穩(wěn)定值數(shù)據(jù),該數(shù)據(jù)通過(guò)了去云處理,并且消除了背景噪聲及短時(shí)光數(shù)據(jù)如火山氣體、森林火災(zāi)、極光等。數(shù)據(jù)的柵格范圍值(DN值)為0~63,0為黑暗無(wú)燈光區(qū)域,大于0為燈光區(qū)域。夜間燈光數(shù)據(jù)投影為 Krasovsky_1940_Alebers 坐標(biāo)系,采用最近鄰重采樣算法將投影后的地圖重采樣到1 km,然后根據(jù)研究區(qū)域行政邊界對(duì)影像進(jìn)行掩模提取,最后得到四川省范圍的夜間燈光影像。
(a)夜間燈光數(shù)據(jù)圖 (b)土地利用分布圖
2)土地利用數(shù)據(jù)。本研究的土地利用數(shù)據(jù)來(lái)源于由中國(guó)科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心。采用2010年1∶10萬(wàn)的土地利用數(shù)據(jù)集,該數(shù)據(jù)集根據(jù)分級(jí)分類系統(tǒng)分為6個(gè)一級(jí)土地利用類別(耕地、林地、草地、水域、城鄉(xiāng)工礦居民用地和未利用地)和25個(gè)二級(jí)類別(水田、灌木林、沙地、沼澤地等)(圖1(b))[20]。為了數(shù)據(jù)后續(xù)使用,利用ArcGIS將土地利用分辨率轉(zhuǎn)換為1 km,并通過(guò)漁網(wǎng)工具將25個(gè)二級(jí)子類土地利用類型分別輸出為25個(gè)柵格數(shù)據(jù)文件,每個(gè)柵格數(shù)據(jù)層代表了不同的土地利用類型。
3)人口統(tǒng)計(jì)數(shù)據(jù)。本研究的人口統(tǒng)計(jì)數(shù)據(jù)指的是常住人口數(shù)據(jù),來(lái)源于四川省統(tǒng)計(jì)局的《四川省統(tǒng)計(jì)年鑒2010》。由于行政單元邊界與人口普查數(shù)不據(jù)不完全匹配,需要利用ArcGIS軟件將屬性數(shù)據(jù)與行政單位相應(yīng)的空間數(shù)據(jù)進(jìn)行關(guān)聯(lián),最終獲得181個(gè)縣有效數(shù)據(jù)。
4)行政區(qū)劃數(shù)據(jù)??h鄉(xiāng)兩級(jí)行政區(qū)劃數(shù)據(jù)來(lái)源于原國(guó)家測(cè)繪局。
5)其他輔助數(shù)據(jù)。本研究還采用中國(guó)科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心發(fā)布的中國(guó)格網(wǎng)人口分布數(shù)據(jù)集(grid population distribution of China,CGPD)和美國(guó)國(guó)際地球科學(xué)網(wǎng)絡(luò)中心發(fā)布的第四版世界格網(wǎng)人口(grid population of world,GPWv4)。將上述數(shù)據(jù)集投影為 Krasovsky_1940_Alebers 坐標(biāo)系,采用雙線性重采樣算法將分辨率重采樣為1 km,然后根據(jù)研究區(qū)域行政邊界對(duì)影像進(jìn)行提取。具體數(shù)據(jù)如表1所示。
表1 數(shù)據(jù)類型及來(lái)源Tab.1 Data type and source
在SPSS軟件下,將土地利用和人口數(shù)據(jù)進(jìn)行相關(guān)性分析,得出與人口分布顯著正相關(guān)的土地利用類型。然后基于ArcGIS提取DMSP/OLS的亮元、暗元和燈光輻射區(qū)域,再與選定的土地利用類型進(jìn)行疊加分析,得到各土地利用類型的燈光。通過(guò)行政區(qū)劃分區(qū)統(tǒng)計(jì)后,將變量空間平穩(wěn)性納入人口空間化模型,利用GWR4.0軟件對(duì)變量進(jìn)行地理變異性檢驗(yàn),以區(qū)分變量的全局和局部模式,最后通過(guò)S-GWR模型生成研究區(qū)的像元人口數(shù)據(jù)。具體流程如圖2所示。
圖2 人口空間化流程圖Fig.2 Flow chart of population
本研究利用皮爾遜相關(guān)系數(shù)(Pearson correlation coefficient,PCC)檢驗(yàn)方法來(lái)獲取與人口相關(guān)的土地利用類型。在統(tǒng)計(jì)學(xué)中,皮爾遜相關(guān)系數(shù)可簡(jiǎn)稱為相關(guān)系數(shù) (R),是一個(gè)用來(lái)衡量變量x和y之間的線性相關(guān)關(guān)系的指標(biāo)。計(jì)算公式為:
小時(shí)候家家戶戶捉襟見(jiàn)肘貧困潦倒,一日三餐尚且難以為繼,小孩子們要想額外得到點(diǎn)“零食”以解口腹之讒,實(shí)在來(lái)之不易。只有在家里來(lái)了客人或村里放電影唱大戲時(shí),父母親才會(huì)炒點(diǎn)花生或黃豆,招待客人,并“慰勞”我們。
(1)
式中:R為相關(guān)系數(shù)的值;xi為第i縣的統(tǒng)計(jì)人口數(shù)據(jù);yi為第i縣的某一土地利用類型面積;n為縣的個(gè)數(shù)。
根據(jù)人口分布的實(shí)際情況,本研究在土地利用數(shù)據(jù)與人口統(tǒng)計(jì)數(shù)據(jù)疊加過(guò)程中,水域和未利用土地不參與空間化分析。利用ArcGIS將不同土地利用類型面積根據(jù)縣界進(jìn)行分區(qū)統(tǒng)計(jì),基于SPSS軟件對(duì)土地利用與人口進(jìn)行相關(guān)性檢驗(yàn)。然后通過(guò)ArcGIS提取DMSP/OLS數(shù)據(jù)的燈光區(qū)、無(wú)燈光區(qū)和燈光輻射區(qū),選取與人口數(shù)據(jù)顯著正相關(guān)的土地利用類型,采用空間分析工具中的疊加分析,將上述數(shù)據(jù)分別進(jìn)行疊加統(tǒng)計(jì),根據(jù)縣級(jí)行政區(qū)劃數(shù)據(jù)進(jìn)行分區(qū)統(tǒng)計(jì),最后得到各區(qū)縣各類土地的燈光區(qū)面積像元數(shù)(the number of light pixels,NL)、無(wú)燈光區(qū)面積像元數(shù)(the number of unlit pixels,NU)和燈光輻射總亮度值(light emission in pixels,LE)。在實(shí)際人口分布中,人口只存在于城鄉(xiāng)及建設(shè)用地等建成區(qū),而本研究考慮了耕地是由于衛(wèi)星遙感對(duì)土地利用產(chǎn)品解譯時(shí)的精度問(wèn)題和像元混合問(wèn)題,忽略了在林地、草地等都有可能存在零星分布農(nóng)村居民點(diǎn)、農(nóng)牧民獨(dú)立房屋、帳篷、氈房等設(shè)施,這些分散零星但數(shù)量眾多的居住設(shè)施在1∶10萬(wàn)的土地利用中是無(wú)法展現(xiàn)出來(lái)但又是確實(shí)存在的。因此,為了不影響對(duì)農(nóng)村人口估計(jì)的低估和對(duì)城市人口的高估,將其他土地利用類型賦予一定的權(quán)重并納入人口建模,并基于ArcGIS在縣一級(jí)對(duì)其面積進(jìn)行分區(qū)統(tǒng)計(jì)。
全局OLS模型是假定全部變量之間的空間關(guān)系都是穩(wěn)定的,即得到的回歸系數(shù)估計(jì)值就是整個(gè)研究區(qū)域內(nèi)的平均值。而GWR模型是全局回歸模型的擴(kuò)展,即在計(jì)算回歸參數(shù)時(shí)加入變量的空間地理位置信息,使得不同地理位置的回歸參數(shù)值不同,因而提高人口空間化建模的精度。然而,由于生活環(huán)境和經(jīng)濟(jì)水平的不同,參數(shù)在不同地理位置有可能是會(huì)發(fā)生變化的,也有可能是固定的。因此,本研究利用混合固定系數(shù)和變化系數(shù)的S-GWR模型對(duì)人口空間化進(jìn)行建模。與單純性的全局或局部的方法相比,混合全局固定參數(shù)和局部變化參數(shù)實(shí)現(xiàn)了半?yún)?shù)空間平穩(wěn),而且模擬效果比其他模型表現(xiàn)得更好。在建立模型之前有必要對(duì)統(tǒng)計(jì)人口數(shù)進(jìn)行空間自相關(guān)檢驗(yàn),采用ArcGIS軟件中的空間統(tǒng)計(jì)工具分析空間自相關(guān)情況,通過(guò)Moran’s I指數(shù)值反映出研究區(qū)人口分布的集聚程度,取值范圍介于[-1,1]之間。S-GWR模型計(jì)算公式為:
(2)
式中:pi為第i縣的估計(jì)人口數(shù);m為模型中變量的個(gè)數(shù);k為模型中全局變量的個(gè)數(shù);αl為第l個(gè)全局變量zil的固定系數(shù);(ui,vi)為第i縣的質(zhì)心坐標(biāo);xij為第i縣的第j個(gè)局部變量;βj(ui,vi)為第j個(gè)局部變量xij的地理變化系數(shù);εi為滿足球面攝動(dòng)假設(shè)的隨機(jī)誤差。此外,當(dāng)k=0時(shí),式(2)就變成了局部GWR模型。
計(jì)算出像元級(jí)的估計(jì)人口數(shù)據(jù)后,對(duì)初步估計(jì)人口結(jié)果進(jìn)行優(yōu)化和校正,確保預(yù)測(cè)的SDP總?cè)丝诘扔诳h級(jí)行政單位的人口普查數(shù)據(jù)。計(jì)算公式為:
(3)
為區(qū)分變量的全局和局部模式,基于GWR4.0軟件對(duì)全部變量進(jìn)行地理變異性測(cè)試。具體參數(shù)模型設(shè)置是選用自適應(yīng)的二次平方空間核函數(shù)(Bi-square)進(jìn)行建模,帶寬選取采用默認(rèn)的黃金分割搜索程序,以赤池信息量準(zhǔn)則(Akaike information criterion,AIC)作為信息評(píng)價(jià)準(zhǔn)則,決定系數(shù)R2和調(diào)整決定系數(shù)adjR2對(duì)回歸性能進(jìn)行評(píng)價(jià)。其中,在樣本小的情況下,AIC轉(zhuǎn)變?yōu)锳ICc ,AICc值可以反映模型的擬合優(yōu)度和模型復(fù)雜度,在針對(duì)同一套因變量和自變量數(shù)據(jù)時(shí),根據(jù)經(jīng)驗(yàn)法則,當(dāng)差值大于或等于3,就表明模型有了明顯改善。
對(duì)得到的模擬結(jié)果有必要進(jìn)行精度評(píng)估和誤差分析,除了上述提到的相關(guān)系數(shù)R、調(diào)整決定系數(shù)adjR2、赤池信息量準(zhǔn)則AICc等對(duì)模型進(jìn)行評(píng)估外,本研究還選取平均絕對(duì)誤差(mean absolute error,MAE)、平均相對(duì)誤差(mean relative error,MRE)、均方根誤差(root mean square error,RMSE)、相對(duì)誤差(relative error,RE)、平均誤差(mean error,ME)來(lái)對(duì)結(jié)果進(jìn)行評(píng)價(jià)。計(jì)算公式如下:
(4)
(5)
(6)
(7)
(8)
3.1.1 人口與土地利用相關(guān)性
通過(guò)SPSS軟件計(jì)算各土地利用類型和人口之間的相關(guān)性,考慮到人口分布的實(shí)際情況,水域和未利用土地未參與相關(guān)性分析。結(jié)果表明,耕地下的2個(gè)二級(jí)子類(水田、旱地)和城鄉(xiāng)工礦居民用地的3個(gè)子類(城鎮(zhèn)用地、居民用地、其他建成區(qū))同人口數(shù)據(jù)顯著正相關(guān),而林地、草地、水域和未利用土地均與人口顯著負(fù)相關(guān)或不相關(guān)。其中,在雙尾檢測(cè)時(shí),城鄉(xiāng)居民工礦用地下的其他建成區(qū)檢測(cè)結(jié)果顯示為不相關(guān),但在單尾檢測(cè)時(shí)結(jié)果是顯著正相關(guān)的。因此,為了提高對(duì)人口估計(jì)的精度,本研究將其作為一個(gè)變量納入人口空間化模型。表2顯示了土地利用與人口之間的相關(guān)性。
表2 各土地利用類型與人口數(shù)據(jù)的相關(guān)系數(shù)Tab.2 The correlation coefficient between land use types and population data
3.1.2 空間模型參數(shù)
對(duì)人口做自相關(guān)檢驗(yàn),得到縣級(jí)人口Moran’s I指數(shù)值為0.358,z值為21.95,表示人口數(shù)據(jù)在0.01水平上顯著自相關(guān),說(shuō)明181個(gè)縣域的人口分布具有明顯的集聚性。在分析土地利用與人口數(shù)據(jù)的相關(guān)性后,選取城鎮(zhèn)用地、農(nóng)村居民用地、其他建成區(qū)與DMSP/OLS燈光數(shù)據(jù)進(jìn)行疊加分析,得到3個(gè)子類的燈光區(qū)面積像元數(shù)(NL)、無(wú)燈光區(qū)面積像元數(shù)(NU)、燈光輻射總亮度值(LE)。然后對(duì)水田和旱地賦予一定的權(quán)重,將上述11個(gè)參數(shù)作為人口空間化模型的變量?;贕WR4.0軟件對(duì)全部變量進(jìn)行參數(shù)估計(jì)及參數(shù)平穩(wěn)性檢驗(yàn),利用參數(shù)在沒(méi)有空間變異性的情況下,參數(shù)的F統(tǒng)計(jì)量就遵循一定自由度的F分布,最后通過(guò)“DIFF of Criterion”結(jié)果以區(qū)分全局變量和局部變量(表3)。結(jié)果表明,城鎮(zhèn)用地NU和其他建成區(qū)的LE,NL,NU的“DIFF of Criterion”大于2,說(shuō)明在空間上不具備空間非平穩(wěn)性,故將其作為全局變量,而將其余7個(gè)變量作為S-GWR模型的局部變量。此外,可以通過(guò)AICc值來(lái)選取最優(yōu)帶寬值,本研究最佳帶寬值為62?;贕WR4.0軟件進(jìn)行地理變異性測(cè)試結(jié)果如表4,該表顯示了全局OLS、局部GWR和半?yún)?shù)混合S-GWR模型的性能及擬合優(yōu)度,評(píng)價(jià)標(biāo)準(zhǔn)包括R2,adjR2和AICc值。當(dāng)所有變量都作為全局變量的時(shí)候,OLS回歸模型的解釋力達(dá)到0.798;當(dāng)把所有變量作為局部變量時(shí),考慮到變量的局部影響,解釋力進(jìn)一步增加到0.877,而AICc值從4 846降到了4 810,模型得到顯著提升;而當(dāng)采用變量的混合模式時(shí),S-GWR模型的解釋力增加為0.903,同時(shí)AICc值下降到4 786。雖然全局OLS模型和局部GWR模型都能得到較好的人口空間化結(jié)果,但是S-GWR模型進(jìn)一步提高了人口空間化的解釋力,并且提高了人口空間化的精度。因此,考慮參數(shù)的空間平穩(wěn)性,能夠使得模型擬合得更好。
表3 地理加權(quán)模型參數(shù)估計(jì)及參數(shù)平穩(wěn)性檢驗(yàn)Tab.3 Parameter estimation and parameter stationarity test of geographically weighted model
表4 3種模型的擬合優(yōu)度評(píng)價(jià)Tab.4 Evaluation of goodness of fit of three models
基于土地利用和DMSP/OLS數(shù)據(jù),利用S-GWR模型生成了四川省2010年的SDP(圖3(a)),和人口統(tǒng)計(jì)數(shù)據(jù)的人口密度分布圖相比較(圖3(b)),兩者有相同的人口分布趨勢(shì),但是前者更突出了人口分布的細(xì)節(jié)。為了可以更清晰地看到兩者的區(qū)別,提取了成都市部分區(qū)縣SDP(圖3(c)),并與縣級(jí)統(tǒng)計(jì)數(shù)據(jù)人口密度圖進(jìn)行對(duì)比(圖3(d)),可以看出人口空間分布情況大致相同,但是SDP可以提供更小的像元人口密度,將人口分配到了更細(xì)致的空間尺度上,更符合實(shí)際人口的分布情況。人口主要集中在居民地和城鎮(zhèn)建設(shè)用地上,各區(qū)縣的人口密度高值區(qū)主要集中在縣城所在地,同時(shí),人口空間分布圖顯示的中心城區(qū)與周邊城區(qū)人口密度變化更加自然,印證了當(dāng)代中國(guó)人口分布的實(shí)際情況。而稀疏零散的農(nóng)村人口則被分配到耕地上,大多是無(wú)光或者光值很低的農(nóng)村地區(qū)。當(dāng)與夜間燈光數(shù)據(jù)(圖1(a))比較時(shí),燈光越亮的地方,人口密度越高,人口密度低的地方,燈光亮度也相應(yīng)較低。因此,利用S-GWR模型來(lái)生成人口空間分布圖在很大程度上符合人口實(shí)際分布。
(a)S-GWR生成SDP (b)區(qū)縣統(tǒng)計(jì)人口密度圖
精度評(píng)估是人口空間化研究的重點(diǎn)也是難點(diǎn),基于前人的經(jīng)驗(yàn)和方法,本研究2010年世界格網(wǎng)人口第四版GPWv4和中國(guó)格網(wǎng)人口分布數(shù)據(jù)CGPD,分別在縣鄉(xiāng)兩級(jí)進(jìn)行對(duì)比驗(yàn)證。此外,縣鄉(xiāng)人口統(tǒng)計(jì)數(shù)據(jù)默認(rèn)為真實(shí)人口數(shù)據(jù)。
在縣一級(jí),分別計(jì)算了3種數(shù)據(jù)結(jié)果在研究區(qū)內(nèi)的所有區(qū)縣的RE。為了揭露誤差的細(xì)節(jié)和總體情況,將3種數(shù)據(jù)的相對(duì)誤差用箱線圖表示出來(lái)(圖4(a)),圖中散點(diǎn)代表每個(gè)區(qū)縣的相對(duì)誤差值,兩端的短橫線代表最大值和最小值,而1%~99%之間的誤差顯示在交叉線中。可以看出,GPWv4的RE最大是0.7,最小是-0.42,ME為1%;CGPD的RE最大是0.58,最小是-0.4,CGPD的ME為7%。
(a)縣級(jí)RE散點(diǎn)箱線圖 (b)500鄉(xiāng)鎮(zhèn)RE散點(diǎn)箱線圖
而由于SDP人口經(jīng)過(guò)式(3)的系數(shù)調(diào)整,其RE和ME都接近于0。另外2種數(shù)據(jù)集對(duì)區(qū)縣不同程度的高估或低估,可能是由于這些縣的人口密度與其他縣的人口密度不一致,影響人口分布的因素不一樣,不能很好地從基于回歸模型中得出。上述3種數(shù)據(jù)都分別經(jīng)過(guò)不同方法的調(diào)整,但通過(guò)上述分析可以知道,通過(guò)縣級(jí)人口統(tǒng)計(jì)數(shù)據(jù)來(lái)調(diào)整SDP是有必要的。在鄉(xiāng)鎮(zhèn)一級(jí),根據(jù)隨機(jī)數(shù)的生成,隨機(jī)選取500個(gè)鄉(xiāng)鎮(zhèn)進(jìn)行精度評(píng)價(jià)。將500個(gè)鄉(xiāng)鎮(zhèn)的人口統(tǒng)計(jì)數(shù)據(jù)視為真實(shí)人口值,分別計(jì)算估計(jì)人口與統(tǒng)計(jì)人口之間的RE,并分級(jí)統(tǒng)計(jì)分析,再分別計(jì)算整體的MAE,MRE,RMSE。
表5統(tǒng)計(jì)了3種數(shù)據(jù)集的誤差指標(biāo),可以看出SDP的3種誤差均小于其他兩種數(shù)據(jù)集,GPWv4和CGPD的MRE分別為47.48%和45.43%,而用S-GWR得到的SDP僅為34.54%;在MAE方面,GPWv4和CGPD分別為7 997.774人和7 256.342人,而SDP為5 715.703人;RMSE可以反映預(yù)測(cè)結(jié)果與實(shí)際數(shù)據(jù)的偏差,GPWv4和CGPD分別為18 846.285人和16 997.919人,兩者有相似的離散度,而且均高于SDP的12 085.932人。由此可以看出,SDP比其他兩種數(shù)據(jù)得到的結(jié)果更好,精度更高,說(shuō)明SDP預(yù)測(cè)人口更接近于人口普查數(shù)據(jù),具有更高的可信度。
表5 3種數(shù)據(jù)集精度對(duì)比Tab.5 Accuracy comparison of three datasets
為了可以直觀地看出3種數(shù)據(jù)的在局部鄉(xiāng)鎮(zhèn)上的差異和細(xì)節(jié),同樣將鄉(xiāng)鎮(zhèn)誤差顯示在箱線圖中(圖4(b))??梢钥闯觯珿PWv4的相對(duì)誤差最大是5.61,最小是-0.97,CGPD的相對(duì)誤差最大是4.79,最小是-0.94,SDP的相對(duì)誤差最大是2.26,最小是-0.88。異常值分布在高值區(qū)域,低值區(qū)域無(wú)較大差別,且大多都是由于對(duì)人口的高估所導(dǎo)致,說(shuō)明GPWv4和CGPD這2種全球性數(shù)據(jù)集不適合在局部進(jìn)行回歸,而SDP由于考慮了回歸變量的非平穩(wěn)性,在局部獲得了較好的結(jié)果。SDP比另外2種數(shù)據(jù)的散點(diǎn)分布更集聚一些,其相對(duì)誤差更集中在0附近,與真實(shí)人口數(shù)據(jù)比較接近。
為了得到3種數(shù)據(jù)結(jié)果的誤差結(jié)構(gòu),將500個(gè)鄉(xiāng)鎮(zhèn)進(jìn)行分級(jí)統(tǒng)計(jì)(表6),根據(jù)RE值分成5個(gè)范圍,分別是嚴(yán)重低估(≤-50%)、一般低估((-50%,-20%])、準(zhǔn)確估計(jì)((-20%,20%])、一般高估((20%,50%])、嚴(yán)重高估(>50%)。圖5顯示了500個(gè)鄉(xiāng)鎮(zhèn)RE各級(jí)別的相對(duì)占比情況。
表6 500個(gè)鄉(xiāng)鎮(zhèn)相對(duì)誤差分級(jí)統(tǒng)計(jì)表Tab.6 Statistical table of relative error classification in 500 villages and towns (個(gè))
圖5 500鄉(xiāng)鎮(zhèn)RE占比統(tǒng)計(jì)圖Fig.5 Relative error ratio of villages and towns
SDP的鄉(xiāng)鎮(zhèn)誤差分級(jí)統(tǒng)計(jì)個(gè)數(shù)分別是48,97,185,107和63個(gè),誤差占比為9.6%,19.4%,37%,21.4%和12.6%;GPWv4分別為51,101,151,107和90個(gè),誤差占比為10.2%,20.2%,30.2%,21.4%和18%;CGPD分別為56,114,158,97和75個(gè),誤差占比為11.2%,22.8%,31.6%,19.4%和15%??梢钥闯?,3種結(jié)果均存在不同程度的高估,而人口高估的鄉(xiāng)鎮(zhèn)大多位于青藏高原東部和邛崍山脈以西的川西高原。此外,分析出現(xiàn)明顯高估和明顯低估的原因可能與該地區(qū)的氣候、海拔等其他影響人類分布的因素有關(guān)。在3種數(shù)據(jù)結(jié)果中,SDP準(zhǔn)確估計(jì)的鄉(xiāng)鎮(zhèn)最多,多達(dá)185個(gè),占比達(dá)到了37%,出現(xiàn)低估和高估的鄉(xiāng)鎮(zhèn)個(gè)數(shù)比另外兩個(gè)數(shù)據(jù)集要少,而且分布更為分散。因此,考慮參數(shù)的空間平穩(wěn)性可以較好的提高人口空間化的精度和減少對(duì)鄉(xiāng)鎮(zhèn)人口的高估。
1)Pearson相關(guān)檢驗(yàn)結(jié)果顯示了土地利用類型與人口分布之間的相關(guān)性。研究選取了與人口顯著正相關(guān)的土地利用類型作為模型變量,根據(jù)建模結(jié)果表明,考慮人口分布建模的時(shí)候不應(yīng)該只考慮與人口正相關(guān)的土地類型,其他土地類型林地、草地甚至水域都可能有人口分布。
2)該模型與傳統(tǒng)的全局模型和局部模型相比,其考慮了空間變量的平穩(wěn)性,將全局變量和局部變量混合起來(lái),通過(guò)局部變量在不同空間地理位置上的系數(shù)不同來(lái)提高人口空間化精度。基于GWR4.0軟件得出3種模型擬合優(yōu)度,結(jié)果表明,S-GWR模型的擬合效果最優(yōu),決定系數(shù)R2和AICc值分別為0.903和4 786.263,較其他2個(gè)傳統(tǒng)模型均有明顯提升,進(jìn)一步提高了對(duì)人口空間化的解釋力。
3)本研究對(duì)SDP進(jìn)行了分級(jí)精度評(píng)估。在縣一級(jí),GPWv4和CGPD這2種數(shù)據(jù)集的ME分別為1%和7%,而由于人口系數(shù)的調(diào)整,SDP的ME接近于0。在鄉(xiāng)鎮(zhèn)一級(jí),隨機(jī)生成的500個(gè)鄉(xiāng)鎮(zhèn)中,與GPWv4和CGPD相比,SDP準(zhǔn)確估計(jì)的鄉(xiāng)鎮(zhèn)個(gè)數(shù)最多,達(dá)37%,極端鄉(xiāng)鎮(zhèn)(嚴(yán)重低估和嚴(yán)重高估)數(shù)量較少,低估和高估鄉(xiāng)鎮(zhèn)個(gè)數(shù)都分別比另外2個(gè)數(shù)據(jù)集要少。在RE方面,SDP的RE最大是2.26,最小是-0.88,比另外2種數(shù)據(jù)集的范圍要小;在MAE方面,SDP,GPWv4和CGPD的誤差分別為5 715.703人,7 997.774人和7 256.342人;在MRE方面,SDP,GPWv4和CGPD的誤差分別為34.54%,47.48%和45.43%;在RMSE方面,SDP,GPWv4和CGPD的誤差分別為12 085.932人,18 846.285人和16 997.919人??偟膩?lái)說(shuō),SDP在人口預(yù)測(cè)方面比另外2種數(shù)據(jù)表現(xiàn)得更好,證明了S-GWR模型生成的SPD在準(zhǔn)確重新分配人口方面優(yōu)于其他數(shù)據(jù)集。
本研究使用S-GWR模型方法,可用于在區(qū)域尺度上產(chǎn)生地理空間細(xì)節(jié)不同的網(wǎng)格人口,其人口估計(jì)結(jié)果比傳統(tǒng)模型精度更高、效果更好,對(duì)生態(tài)學(xué)、災(zāi)害評(píng)價(jià)等相關(guān)研究具有重要意義。但夜間光照和土地利用數(shù)據(jù)在全球范圍內(nèi)都是免費(fèi)提供的,因此更適合缺乏詳細(xì)數(shù)據(jù)的大規(guī)模人口空間化。因此,在未來(lái)可以利用更高分辨率和更高精度的數(shù)據(jù)進(jìn)行研究,也可以從影響人口分布因素方面以進(jìn)一步提高人口空間化的精度。