李澤宇,董春
(1.遼寧工程技術(shù)大學(xué),遼寧 阜新 123000;2.中國測(cè)繪科學(xué)研究院,北京 100036)
探究城市內(nèi)部人口空間差異是當(dāng)前人口空間化研究的重要方向?,F(xiàn)代社會(huì),迅猛發(fā)展的測(cè)繪技術(shù)為空間化研究提供豐富的數(shù)據(jù)源。目前空間化模型眾多,常用的空間化模型包括空間插值估計(jì)、多元回歸[1]、核密度估計(jì)、多因素融合[2]、機(jī)器學(xué)習(xí)[3]等。建模要素從土地利用[4]、地形地貌[5]、河流水系、交通路網(wǎng)[6]、夜間燈光遙感[7]等傳統(tǒng)數(shù)據(jù),到LIDAR點(diǎn)云[8]、OSM[9]、手機(jī)信號(hào)[10]等數(shù)據(jù)。
社會(huì)經(jīng)濟(jì)和自然地理是影響人口空間分布的兩大因素。興趣點(diǎn)(point of interest,POI)是社會(huì)經(jīng)濟(jì)數(shù)據(jù)的一種,具有人口指示作用。目前,城市開展空間化研究多采用多因素融合方法,該方法能綜合多方面要素,但以往研究缺少對(duì)城市內(nèi)人口分布的區(qū)分。是否可以利用興趣點(diǎn)結(jié)合城鎮(zhèn)建設(shè)用地、農(nóng)村居民點(diǎn),對(duì)城市內(nèi)部人口細(xì)化做出新的探索,值得研究。本文以天津市15區(qū)作為研究區(qū)(不包括濱海新區(qū)),引入電子地圖興趣點(diǎn)位數(shù)據(jù),結(jié)合土地利用數(shù)據(jù),對(duì)研究區(qū)采用分區(qū)建模。以電子地圖興趣點(diǎn)、城市基礎(chǔ)設(shè)施作為分區(qū)標(biāo)準(zhǔn),構(gòu)建街道級(jí)別人口空間回歸模型,生成人口1 km數(shù)據(jù)集,實(shí)現(xiàn)城市內(nèi)部精細(xì)人口空間分布。
天津市由中心城區(qū)、環(huán)城四區(qū)和遠(yuǎn)郊區(qū)縣和濱海新區(qū)組成。中心城區(qū)包括和平區(qū)、河西區(qū)、河?xùn)|區(qū)、南開區(qū)、紅橋區(qū)、河北區(qū),統(tǒng)稱為市內(nèi)六區(qū)。環(huán)城四區(qū)包括東麗區(qū)、西青區(qū)、津南區(qū)、北辰區(qū)。遠(yuǎn)郊區(qū)縣包括寶坻區(qū)、武清區(qū)、薊縣、寧河區(qū)、靜海區(qū)。全市人口分布不均勻,中心城區(qū)人口密集,經(jīng)濟(jì)發(fā)展迅速,地鐵、公路等交通設(shè)施,超市、學(xué)校、醫(yī)療等服務(wù)機(jī)構(gòu)完善,遠(yuǎn)郊區(qū)縣人口稀少,基礎(chǔ)設(shè)施薄弱。
1)數(shù)據(jù)來源。
(1)電子地圖興趣點(diǎn)、城市公共基礎(chǔ)線狀設(shè)施。興趣點(diǎn)包括學(xué)校、超市、地鐵站、醫(yī)院點(diǎn)位數(shù)據(jù)等,公共基礎(chǔ)線狀設(shè)施包括城市快速路、地鐵線、水系、省道、鄉(xiāng)鎮(zhèn)街道等,空間分布如圖1所示。
(2)土地利用數(shù)據(jù),本文采用城鎮(zhèn)建設(shè)用地和農(nóng)村居民點(diǎn)作為人口影響因素。
(3)ASTER-GDEM,來源于地理空間數(shù)據(jù)云,分辨率為30 m,經(jīng)過拼接后裁剪出研究范圍內(nèi)的柵格數(shù)據(jù)。
(4)鄉(xiāng)鎮(zhèn)街道行政邊界,來自中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心,字段屬性包含行政區(qū)劃代碼、行政區(qū)劃名稱等。
(5)人口統(tǒng)計(jì)數(shù)據(jù),2010年第六次人口普查數(shù)據(jù)。
圖1 天津市興趣點(diǎn)空間分布
2)預(yù)處理。
(1)數(shù)據(jù)類型有人口統(tǒng)計(jì)數(shù)據(jù)、柵格數(shù)據(jù)和矢量數(shù)據(jù)。矢量數(shù)據(jù)和柵格數(shù)據(jù)統(tǒng)一轉(zhuǎn)換投影為CGCS2000_Albers,人口統(tǒng)計(jì)數(shù)據(jù)與鄉(xiāng)鎮(zhèn)街道區(qū)劃名稱進(jìn)行關(guān)聯(lián),錄入人口數(shù)量,并擦除水系面狀要素。
(2)計(jì)算街道幾何中心與距離最近的地鐵出入口的歐式距離作為地鐵的要素屬性。
(3)提取與人日常生活息息相關(guān)的興趣點(diǎn),例如超市、醫(yī)院、學(xué)校等。
在對(duì)城市內(nèi)部劃分分區(qū)后,引入土地利用數(shù)據(jù)(城市建設(shè)用地、農(nóng)村居民點(diǎn))、省道、鄉(xiāng)鎮(zhèn)街道、興趣點(diǎn),進(jìn)行多元逐步回歸,對(duì)存在空間異質(zhì)性的分區(qū)采用地理加權(quán)回歸(geographically weighted regression,GWR)、混合地理加權(quán)回歸(mixed geographically weighted regression,MGWR)方法,建立各分區(qū)的人口空間數(shù)據(jù)集。技術(shù)路線如圖2所示。
圖2 技術(shù)路線
多元逐步回歸的思想是將自變量逐個(gè)引入模型,每引入一個(gè)自變量后都要進(jìn)行F檢驗(yàn),并對(duì)已經(jīng)選入的自變量逐個(gè)進(jìn)行t檢驗(yàn),當(dāng)原來引入的自變量由于后面自變量的引入變得不再顯著時(shí),則將其刪除。確保每次引入新變量之前回歸方程中只包含顯著性變量。
地理加權(quán)回歸模型是在普通線性回歸模型的基礎(chǔ)上,在回歸參數(shù)中加入因變量的空間位置。地理加權(quán)自變量的回歸參數(shù)是隨著地理位置而變化,建立的是局部回歸。在全局模型中加入地理位置的權(quán)重函數(shù),使得模型參數(shù)在回歸過程中不斷變化。形式如式(1)所示:
(1)
式中:(ui,vi)是第i個(gè)采樣點(diǎn)的坐標(biāo);β0(ui,vi)是第i個(gè)采樣點(diǎn)統(tǒng)計(jì)回歸的常數(shù)項(xiàng);βk(ui,vi)是第i個(gè)采樣點(diǎn)上的第k個(gè)回歸系數(shù);xik為第i個(gè)采樣點(diǎn)上第k個(gè)變量;p為某一采樣點(diǎn)上參與回歸的變量個(gè)數(shù);
εi~N(0,σ2),Cov(εi,εj)=0(i≠j)。
OLS(ordinary least square,OLS)模型假設(shè)回歸參數(shù)不隨地理空間位置變化,而GWR模型假定所有回歸參數(shù)都隨地理空間變化。但在實(shí)際應(yīng)用中,并不是所有參數(shù)都是隨著地理位置發(fā)生變化,有些參數(shù)在空間上變化,有些參數(shù)在空間上是不變的,或者變化非常小,可以忽略不計(jì)。進(jìn)一步改進(jìn)模型為混合地理加權(quán),混合地理加權(quán)中部分參數(shù)隨著地理位置發(fā)生變化,成為變參數(shù),其他不隨空間位置發(fā)生變化的參數(shù)稱為常參數(shù)。
(i=1,2,……,n)
(2)
分區(qū)建模是提高人口空間模擬精度有效方法之一,其目的是將建模因素具有相似特征區(qū)域歸并為同一分區(qū),以便于統(tǒng)一建模,建模因素差異大的區(qū)域劃分為不同分區(qū),以凸顯差異性。本文以街道為最小研究單元,依據(jù)土地利用空間分布、興趣點(diǎn)密度疏密、地鐵線、城市快速路進(jìn)行分區(qū),將天津15區(qū)劃分為3個(gè)分區(qū)。第一類分區(qū)為中心城市區(qū)和環(huán)城四區(qū)中靠近中心城區(qū)的街道。該類分區(qū)土地利用類型無農(nóng)村居民點(diǎn),全部是城鎮(zhèn)建設(shè)用地,興趣點(diǎn)密集,商業(yè)發(fā)達(dá),有地鐵和快速道路。第二類分區(qū)為環(huán)城四區(qū)和遠(yuǎn)郊區(qū)縣的中心城區(qū)的街道。該類分區(qū)有少量的農(nóng)村居民點(diǎn),以城鎮(zhèn)建設(shè)用地為主,興趣點(diǎn)比較密集,高于周邊街道的集聚程度。第三類分區(qū)為其余街道。以農(nóng)村居民點(diǎn)為主,農(nóng)村居民點(diǎn)、興趣點(diǎn)分散在各個(gè)街道,部分街道有少量城鎮(zhèn)建設(shè)用地。
本文選取與人口密切相關(guān)的興趣點(diǎn)要素:醫(yī)院、學(xué)校、超市、地鐵站;線狀交通設(shè)施:省道、鄉(xiāng)鎮(zhèn)街道;承載人口的土地類型:城鎮(zhèn)建設(shè)用地、農(nóng)村居民點(diǎn);地理要素:高程、坡度。利用SPSS計(jì)算各分區(qū)相關(guān)系數(shù)如表1所示。
表1 相關(guān)系數(shù)
興趣點(diǎn)是城市重要的人口指示因子,尤其是當(dāng)今社會(huì)經(jīng)濟(jì)迅猛發(fā)展,交通路網(wǎng)不斷完善,興趣點(diǎn)點(diǎn)位、類型的時(shí)空分布的數(shù)量和密集程度分布極不均衡。以超市為例,超市的功能是滿足百姓日常生活需求,具有隨人口分布的性質(zhì)。超市通常環(huán)居住小區(qū)開設(shè),其規(guī)模一定程度能夠反映人口的聚居程度和數(shù)量。人口與超市分布形成彼此吸引的關(guān)系。
基于上述對(duì)各個(gè)分區(qū)進(jìn)行相關(guān)分析后,避免建模要素彼此冗余,假設(shè)同一分區(qū)內(nèi)人口成均勻分布,以高程平均值、坡度平均值、城鎮(zhèn)建設(shè)用地面積、農(nóng)村居民點(diǎn)面積、各類興趣點(diǎn)個(gè)數(shù)為自變量,街道人口常住數(shù)值為因變量,建立多元逐步回歸模型,各類建模因素結(jié)果及分析如表2所示。
對(duì)多元逐步回歸結(jié)果進(jìn)行統(tǒng)計(jì)檢驗(yàn),結(jié)果如表3所示。調(diào)整R2代表模型的擬合程度,第一分區(qū)擬合度為0.68,第二分區(qū)、第三分區(qū)擬合程度較高,均為0.83。聯(lián)合F統(tǒng)計(jì)量和Wald統(tǒng)計(jì)量要結(jié)合Koenker(BP)來檢驗(yàn)?zāi)P偷娘@著性。當(dāng)Koenker(BP)不具顯著性時(shí),聯(lián)合F統(tǒng)計(jì)量才可信。當(dāng)Koenker(BP)統(tǒng)計(jì)量具有顯著性時(shí),應(yīng)參考Wald統(tǒng)計(jì)量確定模型顯著性。第一分區(qū)和第二分區(qū)在95%置信度下,聯(lián)合F統(tǒng)計(jì)量p值(概率)小于0.05,模型具有統(tǒng)計(jì)顯著性。第三分區(qū)Koenker(BP)統(tǒng)計(jì)量具有顯著性,對(duì)于95%置信度下,Wald統(tǒng)計(jì)量p值(概率)小于0.05,模型具有統(tǒng)計(jì)顯著性。此外,第三分區(qū)模型殘差空間分布不呈現(xiàn)正態(tài)分布,存在空間非平穩(wěn)態(tài)。
表2 多元逐步回歸
表3 多元逐步回歸統(tǒng)計(jì)檢驗(yàn)
由于第三分區(qū)存在空間異質(zhì)性,對(duì)第三分區(qū)進(jìn)行地理加權(quán)建模,以醫(yī)院、學(xué)校、超市個(gè)數(shù),城鎮(zhèn)建設(shè)用地、農(nóng)村居民點(diǎn)面積為自變量,以街道人口數(shù)量為因變量構(gòu)建回歸模型。利用GWR4軟件,模型參數(shù)選用自適應(yīng)的二次平方自適應(yīng)空間核函數(shù)(bi-square)進(jìn)行建模,選擇黃金分割搜索程序進(jìn)行帶寬選取,以赤池信息量準(zhǔn)則AIC(akaike information criterion)作為信息評(píng)價(jià)準(zhǔn)則,模型參數(shù)估計(jì)及參數(shù)檢驗(yàn)如表4所示。
表4 地理加權(quán)模型參數(shù)估計(jì)及參數(shù)檢驗(yàn)
在對(duì)第三分區(qū)進(jìn)行地理加權(quán)回歸時(shí),根據(jù)DIFF for Criterion大于零,說明農(nóng)村居民點(diǎn)和超市不具備空間非平穩(wěn)性,因此對(duì)該2個(gè)因素固定地理空間位置,采用混合地理加權(quán)建模,模型參數(shù)估計(jì)及參數(shù)檢驗(yàn)如表5所示。對(duì)第一分區(qū)、第二分區(qū)的多元逐步回歸結(jié)果和第三分區(qū)混合地理加權(quán)結(jié)果與1 km格網(wǎng)套合,生成天津市15區(qū)1 km人口格網(wǎng)數(shù)據(jù)集,如圖3所示。
表5 混合地理加權(quán)模型參數(shù)估計(jì)及參數(shù)檢驗(yàn)
圖3 天津市1 km人口格網(wǎng)
從表6誤差分段統(tǒng)計(jì)表來看,整體上誤差分布較為合理,能夠比較確切地反映實(shí)際情況。不可避免,由多元逐步回歸結(jié)合混合地理加權(quán)回歸方法模擬的人口空間分布數(shù)據(jù)與實(shí)有數(shù)據(jù)仍然存在誤差,其中街道低估數(shù)量從整體上多于高估街道數(shù)量。低估區(qū)主要分布于郊區(qū),例如武清農(nóng)場(chǎng)、黃莊農(nóng)場(chǎng)、紅旗農(nóng)場(chǎng)等,興趣點(diǎn)數(shù)量較少或沒有,土地利用種類單一,從客觀上增加了模型低估的可能性。高估街道主要位于環(huán)城四區(qū)和遠(yuǎn)郊區(qū)縣中的經(jīng)濟(jì)開發(fā)區(qū)、農(nóng)業(yè)園區(qū)等,例如津南國家農(nóng)業(yè)園區(qū)、東麗開發(fā)區(qū)、靜海經(jīng)濟(jì)開發(fā)區(qū)等。該地區(qū)有一定數(shù)量的興趣點(diǎn)和用于廠房建筑的城鎮(zhèn)建設(shè)用地,但常住人較少,從客觀上增加了模型高估的可能性。
表6 誤差范圍分段統(tǒng)計(jì)表
為分析模擬人口與實(shí)際人口差異的原因,進(jìn)一步觀察發(fā)現(xiàn),引起模型估算有誤的原因大致有以下3個(gè)方面:①中心城區(qū)土地利用類型單一。天津市內(nèi)六區(qū)范圍內(nèi)土地利用類型全部為城鎮(zhèn)建設(shè)用地,難以區(qū)分住宅用地類型和商廈等商業(yè)用地類型。這使得將一部分人口分配到商業(yè)用地上,這也是造成第一分區(qū)模型誤差的原因。②興趣點(diǎn)采集范圍不全面。興趣點(diǎn)是電子地圖興起的衍生產(chǎn)品,為探究人口時(shí)空特征提供全新視角。目前,各個(gè)地圖公司興趣點(diǎn)采集的詳細(xì)程度不同,且普遍存在中心城區(qū)覆蓋度高、郊區(qū)覆蓋度低的現(xiàn)象。郊區(qū)采集的興趣點(diǎn)偏少,導(dǎo)致郊區(qū)存在大范圍人口低估區(qū)域。③人口街道數(shù)據(jù)與其他數(shù)據(jù)時(shí)相不匹配。本實(shí)驗(yàn)除了統(tǒng)計(jì)人口為2010年數(shù)據(jù),其余數(shù)據(jù)時(shí)相均是2015年。2種時(shí)相的數(shù)據(jù)存在時(shí)間不一致的情況,5年之間人口會(huì)出現(xiàn)較大變化,從而造成了模型的估算誤差。
本文在人口特征分區(qū)的基礎(chǔ)上,以興趣點(diǎn)、城市基礎(chǔ)設(shè)施作為分區(qū)標(biāo)準(zhǔn)對(duì)天津市15區(qū)進(jìn)行分區(qū)建模,對(duì)3個(gè)分區(qū)進(jìn)行多元逐步回歸,并對(duì)存在空間異質(zhì)性的分區(qū)采用地理加權(quán)回歸和混合地理加權(quán)回歸方式進(jìn)行人口空間化建模,生成1 km人口格網(wǎng)數(shù)據(jù)集。對(duì)結(jié)果進(jìn)行模型精度比較和誤差分析,研究表明:
①興趣點(diǎn)能較為有效地展現(xiàn)人口空間分布現(xiàn)狀。興趣點(diǎn)與城市活動(dòng)具有極強(qiáng)相關(guān)性,中心城區(qū)是興趣點(diǎn)聚集程度最密集的區(qū)域,郊區(qū)興趣點(diǎn)較為稀疏。實(shí)驗(yàn)表明,中心城區(qū)呈現(xiàn)高估人口趨勢(shì),郊區(qū)呈現(xiàn)人口低估趨勢(shì),說明中心城區(qū)范圍內(nèi)的興趣點(diǎn)類型豐富,使得住宅區(qū)和商業(yè)區(qū)難以通過興趣點(diǎn)疏密來區(qū)分,這是造成人口高估誤差的原因。對(duì)于郊區(qū)而言,興趣點(diǎn)采集覆蓋程度不夠,有些地區(qū)興趣點(diǎn)采集不全面,與實(shí)際不符,這是造成郊區(qū)人口低估的原因。
②對(duì)城市內(nèi)部進(jìn)行特征分區(qū)建模能夠提高模型精度,使人口更加符合現(xiàn)實(shí)。加入地理位置的地理加權(quán)方法能夠充分解釋地理空間位置變化對(duì)人口的影響。混合地理加權(quán)回歸模型能夠進(jìn)一步探測(cè)出具有空間平穩(wěn)性和空間非平穩(wěn)性影響因素,相對(duì)于多元逐步回歸模型方法精度有進(jìn)一步的提升。
在后續(xù)的研究中,還可以在以下幾個(gè)方面探索:利用公安機(jī)關(guān)登記的實(shí)有人口代替普查人口,更具準(zhǔn)確性;嘗試對(duì)比多個(gè)平臺(tái)的興趣點(diǎn)對(duì)人口模擬的精度影響;城市中心城區(qū)內(nèi)用住宅小區(qū)替代城鎮(zhèn)建設(shè)用地作相關(guān)研究。