張大川,劉小平,姚 堯,張金寶
(中山大學(xué)地理科學(xué)與規(guī)劃學(xué)院,廣東廣州510275)
基于隨機(jī)森林CA的東莞市多類土地利用變化模擬
張大川,劉小平*,姚 堯,張金寶
(中山大學(xué)地理科學(xué)與規(guī)劃學(xué)院,廣東廣州510275)
城市土地利用及其變化對(duì)城市環(huán)境有著重要影響。很多學(xué)者已經(jīng)結(jié)合元胞自動(dòng)機(jī)和機(jī)器學(xué)習(xí)算法對(duì)城市擴(kuò)張進(jìn)行了相關(guān)的模擬研究,但針對(duì)復(fù)雜的多類土地利用相互變化過(guò)程的研究仍然較少。該文提出了一種基于隨機(jī)森林算法的多類元胞自動(dòng)機(jī)(RFA-CA)模型,并將其用于模擬和預(yù)測(cè)復(fù)雜的多類土地利用變化。該模型使用隨機(jī)森林算法提取元胞自動(dòng)機(jī)的轉(zhuǎn)換規(guī)則,并計(jì)算了各空間變量的重要性,在東莞市2000-2014年土地利用動(dòng)態(tài)模擬結(jié)果中,Kappa系數(shù)和整體精度分別為0.73和84.7%。針對(duì)每一種土地利用類型,計(jì)算了影響東莞市土地利用變化的各空間變量的重要性,結(jié)果顯示,交通、區(qū)位因素對(duì)東莞市土地利用變化格局的形成有重要影響。文中引入的POIs鄰近因素反映了城市空間開(kāi)發(fā)程度的高低,同樣對(duì)多類土地利用格局的形成具有重要作用。
多類元胞自動(dòng)機(jī);隨機(jī)森林算法;土地利用變化;變量重要性
對(duì)城市土地利用動(dòng)態(tài)變化的模擬有助于探索城市發(fā)展與土地利用變化的關(guān)系,以便于在發(fā)展城市經(jīng)濟(jì)的過(guò)程中更好地保護(hù)土地資源。元胞自動(dòng)機(jī)(Cellular Automata,CA)近年來(lái)已被很多學(xué)者應(yīng)用到復(fù)雜的動(dòng)態(tài)時(shí)空模擬中[1-3],CA在模擬城市土地利用覆蓋變化方面的潛力受到了持續(xù)關(guān)注[4],并被廣泛應(yīng)用于城市增長(zhǎng)模擬中[5-11]。但這些模型往往只關(guān)注了城市用地及非城市用地這兩種用地類型,并沒(méi)有揭示復(fù)雜的多類土地利用之間相互變化的動(dòng)態(tài)過(guò)程及變化趨勢(shì)。
CA模型的核心是獲取元胞轉(zhuǎn)換規(guī)則[12]。模擬城市系統(tǒng)時(shí),許多學(xué)者提出了采用機(jī)器學(xué)習(xí)的方法獲取城市CA模型轉(zhuǎn)換規(guī)則的方法,如邏輯回歸方法[13]、蟻群智能算法[14]、遺傳算法[15]、神經(jīng)網(wǎng)絡(luò)算法[16,17]等。傳統(tǒng)的邏輯回歸算法要求輸入模型的各空間變量之間是線性無(wú)關(guān)的[18],但大多數(shù)的空間變量很難滿足這種關(guān)系,比如鄰近城市中心的元胞往往也鄰近于道路;蟻群智能算法和遺傳算法具有較強(qiáng)的參數(shù)自適應(yīng)和優(yōu)化能力,但算法計(jì)算所需求的時(shí)間復(fù)雜度較高,且易陷入局部最優(yōu);神經(jīng)網(wǎng)絡(luò)算法在模擬復(fù)雜的非線性系統(tǒng)時(shí)精度較高,黎夏等驗(yàn)證了神經(jīng)網(wǎng)絡(luò)算法模擬城市多類土地利用的可行性,并取得了顯著的成果[16,17],但神經(jīng)網(wǎng)絡(luò)算法自身訓(xùn)練過(guò)程屬于“黑箱機(jī)制”且容易出現(xiàn)過(guò)擬合現(xiàn)象,不利于揭示復(fù)雜的多類土地利用變化的機(jī)制。
針對(duì)以上問(wèn)題,本文嘗試采用隨機(jī)森林算法(Random Forest Algorithm,RFA)提取多類CA模型的轉(zhuǎn)換規(guī)則。RFA已經(jīng)被證明能有效解決過(guò)擬合問(wèn)題,且算法精度高、時(shí)間復(fù)雜度適中,適用于耦合較多空間變量的分類/擬合問(wèn)題,并且能較好地度量各空間變量的貢獻(xiàn)度[19,20]。本文基于RFA-CA模型模擬了東莞市2000-2014年6類土地利用變化,并根據(jù)挖掘出的多類土地利用轉(zhuǎn)換規(guī)則預(yù)測(cè)了2025年土地利用變化的格局。
在多類土地利用模擬中,當(dāng)參與模擬的土地利用類型為N(N>2)類時(shí),在不限制所有土地利用類型相互轉(zhuǎn)變的情況下,理論上共N2種土地利用轉(zhuǎn)變形式,形成了復(fù)雜的土地利用變化模擬的難題[16]。黎夏等提出了使用神經(jīng)網(wǎng)絡(luò)(ANN)模擬復(fù)雜的多類土地利用變化的方法[16,17],有效地簡(jiǎn)化了CA模型的結(jié)構(gòu),模擬得到了較高的多類土地利用變化精度。但受限于神經(jīng)網(wǎng)絡(luò)(ANN)算法的暗箱操作機(jī)制,模型不能很好地揭示特征變量間的相互關(guān)系和重要程度。RFA是由美國(guó)科學(xué)院院士Leo Breiman提出的一種利用多棵決策樹(shù)進(jìn)行預(yù)測(cè)的組合分類智能算法[19]。大量理論和實(shí)例表明,RFA具有極強(qiáng)的數(shù)據(jù)挖掘能力和極高的預(yù)測(cè)準(zhǔn)確率,適用于處理復(fù)雜的多類分類問(wèn)題[21];RFA對(duì)異常值和噪聲容忍度高并且不容易出現(xiàn)過(guò)擬合,能獲取較高的模擬精度[22];RFA能結(jié)合袋外數(shù)據(jù)(Out-Of-Bag,OOB)從龐大的數(shù)據(jù)集中計(jì)算特征變量的重要程度,從而揭示各特征變量間的復(fù)雜關(guān)系。相比于常規(guī)的機(jī)器學(xué)習(xí)算法,RFA算法模型構(gòu)建簡(jiǎn)單、直觀,所需參數(shù)少,且對(duì)特征變量本身沒(méi)有嚴(yán)格的要求,允許各變量之間是相關(guān)的。
本文提出的RFA-CA模型由訓(xùn)練和模擬(預(yù)測(cè))兩部分組成(圖1)。首先在訓(xùn)練模塊中,構(gòu)建訓(xùn)練樣本集X i,利用X i訓(xùn)練得到RFA多類分類器;然后在模擬模塊中,該多類分類器被用來(lái)進(jìn)行多類土地利用模擬運(yùn)算。在訓(xùn)練模塊中,RFA本身對(duì)樣本集Xi的構(gòu)建是用Bootstrap方法有放回地隨機(jī)抽樣而成,因而樣本集X i由原始訓(xùn)練集X中約64%的樣本構(gòu)成,X中另有約36%的樣本不會(huì)出現(xiàn)在Xi中,這些數(shù)據(jù)構(gòu)成OOB。RFA-CA模型可以利用OOB進(jìn)行袋外預(yù)測(cè),計(jì)算OOB誤差并評(píng)價(jià)空間變量的重要性。RFA-CA模型確定多類CA轉(zhuǎn)換規(guī)則,模擬多類土地利用轉(zhuǎn)變的流程如圖2所示。同所有的CA模型一樣,RFA-CA模型的核心是獲取元胞的多類別轉(zhuǎn)換規(guī)則,包含多類別轉(zhuǎn)換概率、鄰域效應(yīng)、隨機(jī)因子、限制性發(fā)展因素4個(gè)部分。
圖1 RFA-CA模型結(jié)構(gòu)Fig.1 Structure of RFA-CA model
(1)計(jì)算多類別轉(zhuǎn)換概率。RFA通過(guò)訓(xùn)練M棵決策樹(shù)分類器集合而成一個(gè)多類組合分類器,它具有優(yōu)秀的處理多類分類問(wèn)題的能力。式(1)表示待分類數(shù)據(jù)集θ落入每一種類別的概率;式(2)是RFA最終的分類結(jié)果[23]。
具體而言,H(x)是隨機(jī)森林多分類器分類結(jié)果,hi(x)是單棵決策樹(shù)的運(yùn)算結(jié)果,Yi是單棵決策樹(shù)的分類結(jié)果,I(*)是分類結(jié)果指標(biāo)函數(shù)。式(1)和(2)說(shuō)明,RFA的分類結(jié)果是基于多數(shù)投票規(guī)則。
本文利用RFA處理多類分類問(wèn)題的優(yōu)秀能力,可以準(zhǔn)確地計(jì)算每一個(gè)模擬的元胞k在t時(shí)刻從現(xiàn)類別到第l類別的轉(zhuǎn)換概率Pg(k,t,l)。因?yàn)槭?1)中Pi(x)為待分類數(shù)據(jù)θ被分為第i種類別的概率,所以轉(zhuǎn)換概率Pg(k,t,l)可以表示為:
圖2 RFA-CA模型土地利用模擬流程Fig.2 Flow chart of land use simulation by using RFA-CAmodel
(2)計(jì)算鄰域效應(yīng)。鄰域效應(yīng)是CA模型中反映當(dāng)前元胞受鄰域元胞相互作用的函數(shù)。對(duì)于N種土地利用類型,某元胞的領(lǐng)域函數(shù)可表示為:
式中:Ωt
k表示t時(shí)刻元胞k的n×n鄰域作用值,n>3;con(*)為條件函數(shù);Stk為元胞當(dāng)前狀態(tài);Landusei為第i種土地利用類別。在多類CA模型中,針對(duì)每一種土地利用類別,如果當(dāng)前元胞為該土地利用類別元胞,則值為1,否則為0。
(3)引入隨機(jī)變量。影響多類土地利用模擬的空間變量比較復(fù)雜,常規(guī)的空間變量很難反映諸如自然災(zāi)害、氣候改變、政策調(diào)整、經(jīng)濟(jì)環(huán)境等因素對(duì)模型的影響,因此,把隨機(jī)項(xiàng)引入RFA-CA模型中[16],以使模擬更接近真實(shí)情況。該隨機(jī)項(xiàng)表示為:
其中,γ為[0,1]范圍內(nèi)的隨機(jī)數(shù),α是一個(gè)控制隨機(jī)變量大小的參數(shù)。
(4)引入限制性發(fā)展因素。在多類土地利用模擬中,各類別間相互轉(zhuǎn)變的機(jī)制十分復(fù)雜,很難找到適宜的空間約束條件來(lái)合理地限制類別間的轉(zhuǎn)變,但針對(duì)某些特殊的轉(zhuǎn)變類型,可以引入一些限制性條件來(lái)約束元胞的發(fā)展。如水體向城市的轉(zhuǎn)變,優(yōu)質(zhì)農(nóng)田向其他類別用地的轉(zhuǎn)變等,這些特殊的轉(zhuǎn)變類型構(gòu)成了限制性發(fā)展因素con(Stk),即判斷在t時(shí)刻,當(dāng)前元胞k是否受到限制性發(fā)展,是則con(Stk)值取0,否則con(Stk)值為1。
因此,在RFA-CA模型中,在t時(shí)刻從現(xiàn)類別到第l類別的發(fā)展概率可以表示為:
若參與模擬的土地利用類別有N種,且不考慮限制性發(fā)展因素對(duì)轉(zhuǎn)變類型的限制,則在式(6)中,l的取值也存在N種情況,計(jì)算出的P(k,t,l)值也對(duì)應(yīng)有N個(gè)值。在t時(shí)刻對(duì)于某元胞k只能轉(zhuǎn)變?yōu)橐环N土地利用類型,因此元胞k的發(fā)展概率為N個(gè)P (k,t,l)值中的最大值,即表示為:
2.1 研究區(qū)和數(shù)據(jù)
本文選取位于珠江三角洲的東莞市作為研究區(qū),東莞市是連接珠江三角洲兩大經(jīng)濟(jì)中心廣州和深圳的咽喉要道,是珠江三角洲核心城市之一,近20年來(lái)土地利用不斷發(fā)生變化[24]。使用RFA-CA模型模擬東莞市的土地利用變化,可以為城市規(guī)劃提供有價(jià)值的信息,并能利用隨機(jī)森林算法挖掘空間變量的重要性,揭示東莞市城市發(fā)展和土地利用變化格局的隱含機(jī)制。
本文利用東莞市2000年、2005年、2010年Landsat7 ETM+影像和2014年Landsat8 ETM+影像作為數(shù)據(jù)源,通過(guò)數(shù)據(jù)預(yù)處理及影像解譯,獲取該地區(qū)30 m分辨率土地利用分類圖。模擬中涉及的土地利用類型有耕地、草地、林地、水體、城市用地、未利用土地6類。模擬過(guò)程從2000年開(kāi)始,使用RFA-CA模型得到2010年和2014年土地利用變化模擬結(jié)果。
土地利用變化的概率往往取決于一系列的距離變量、鄰近現(xiàn)有土地利用類型的數(shù)量、單元的自然屬性等[25]。其中,鄰近現(xiàn)有土地利用類型數(shù)量這一因素可以在計(jì)算轉(zhuǎn)換規(guī)則的鄰域效應(yīng)時(shí)采用統(tǒng)計(jì)鄰域窗口內(nèi)用地類型數(shù)量的方法來(lái)計(jì)算。
過(guò)去的研究由于數(shù)據(jù)的限制,對(duì)城市的一些基礎(chǔ)設(shè)施考慮不多,事實(shí)上,城市基礎(chǔ)設(shè)施是城市政治、經(jīng)濟(jì)、文化、社會(huì)活動(dòng)中所產(chǎn)生的物質(zhì)流、人口流、交通流、信息流的重要載體,良好的城市基礎(chǔ)設(shè)施必然對(duì)其周邊的其他土地利用類型轉(zhuǎn)變?yōu)槌鞘杏玫赜写龠M(jìn)作用[26]。隨著大數(shù)據(jù)時(shí)代的到來(lái),可以通過(guò)網(wǎng)絡(luò)獲取各種POIs(Points of Interest)數(shù)據(jù),這將提供大量反映城市基礎(chǔ)設(shè)施分布的信息。因此,在本文中,利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)引入了8種POIs鄰近因素作為影響土地利用變化的空間變量。本文選擇的POI點(diǎn)包括了醫(yī)院、公園、公交站點(diǎn)等公共設(shè)施點(diǎn)以及工廠點(diǎn)、商業(yè)點(diǎn)等,考慮了這些POI點(diǎn)在空間上的分布以及點(diǎn)密度使得智能算法輸出的土地利用變化分布尤其是城市用地發(fā)展分布與城市空間品質(zhì)、空間結(jié)構(gòu)更加合理、細(xì)致。因此,本文將空間變量分為自然因素、交通因素、區(qū)位因素和POIs鄰近因素四大類共15個(gè)變量,其中自然因素、交通因素、區(qū)位因素使用ArcGIS歐氏距離功能計(jì)算獲得,POIs鄰近因素通過(guò)ArcGIS點(diǎn)密度計(jì)算功能獲得。所獲取的15個(gè)變量的空間分布見(jiàn)圖3。
2.2 RFA-CA模型訓(xùn)練
本文算法處理過(guò)程采用C++編程語(yǔ)言實(shí)現(xiàn), RFA采用開(kāi)源庫(kù)Shark(http://image.diku.dk/ shark/)中的C++隨機(jī)森林算法,將隨機(jī)森林算法直接輸入訓(xùn)練數(shù)據(jù)集即可完成訓(xùn)練,計(jì)算精度高、運(yùn)行速度快。對(duì)RFA-CA模型的訓(xùn)練過(guò)程如下:1)選取前后兩期土地利用分類數(shù)據(jù),計(jì)算得到土地利用變化圖;2)在土地利用變化圖上隨機(jī)選擇50 000個(gè)采樣點(diǎn),構(gòu)建訓(xùn)練數(shù)據(jù)集D如式(9)所示,Yi表示第i個(gè)土地利用變化類型,i=1,2,…,6。
本研究中,6種土地利用類型相互轉(zhuǎn)換會(huì)產(chǎn)生36種土地利用變化類型,如果對(duì)每一種土地利用變化類型采樣相同,一些比較重要的變化類型所占的比例會(huì)比較小,而一些不重要的變化類型又會(huì)被分配到過(guò)高的比例,很容易產(chǎn)生過(guò)擬合的問(wèn)題。因此,本文中使用了一種能夠平衡采樣點(diǎn)數(shù)量的隨機(jī)采樣方法,即每種土地利用變化類型的采樣點(diǎn)個(gè)數(shù)與此類型占總像元的比例有關(guān),并將總計(jì)50 000個(gè)采樣點(diǎn)按照這一比例分配到每種土地利用類型中。
2.3 土地利用變化的動(dòng)態(tài)模擬和預(yù)測(cè)
在RFA-CA模型中,可以通過(guò)訓(xùn)練好的隨機(jī)森林算法計(jì)算得出每種土地利用類型的轉(zhuǎn)換概率,并在此基礎(chǔ)上結(jié)合元胞鄰域效應(yīng)、隨機(jī)因子、限制性發(fā)展因素的共同作用,計(jì)算出元胞向每種土地利用類型轉(zhuǎn)變的發(fā)展概率,實(shí)現(xiàn)動(dòng)態(tài)模擬。模擬以2000年土地利用分類數(shù)據(jù)(圖4a)作為初始狀態(tài),通過(guò)RFA-CA模型模擬得到2010年(圖4c)、2014年土地利用情況(圖4e)。在模擬過(guò)程中,鄰域內(nèi)已轉(zhuǎn)變的各土地利用類型元胞數(shù)在每次迭代過(guò)程中動(dòng)態(tài)計(jì)算。預(yù)測(cè)以2014年土地利用數(shù)據(jù)(圖4e)為初始狀態(tài),結(jié)合東莞市土地利用變化趨勢(shì),通過(guò)RFA-CA模型得到2025年?yáng)|莞市土地利用分布圖(圖4f)。
2.4 精度檢驗(yàn)與評(píng)價(jià)
由圖4(彩圖見(jiàn)封3)可知,本文采用RFA-CA模型模擬得到的土地利用結(jié)果在整體空間分布上同真實(shí)情況十分接近,呈現(xiàn)出耕地、草地、林地面積減少以及城市面積擴(kuò)張明顯的趨勢(shì)。預(yù)測(cè)得到的2025年土地利用結(jié)果顯示,這種侵占耕地、草地、林地的城市擴(kuò)張趨勢(shì)會(huì)持續(xù)進(jìn)行,東莞市城市面積將持續(xù)擴(kuò)張,用地格局將更加緊湊。
圖3 東莞市土地利用動(dòng)態(tài)模擬空間變量Fig.3 Auxiliary spatial variables of land use simulation in Dongguan
圖4 東莞市2000-2014年多類土地利用動(dòng)態(tài)模擬及預(yù)測(cè)與實(shí)際情況對(duì)比結(jié)果Fig.4 Actual and simulated land use comparison in Dongguan from 2000 to 2014
本文分別計(jì)算了2010年和2014年實(shí)際與模型模擬土地利用混淆矩陣(表1),總體精度分別為82.2%、84.7%,Kappa系數(shù)分別為0.77、0.73,模型效果理想。表2、表3是本文基于RFA-CA模型和神經(jīng)網(wǎng)絡(luò)元胞自動(dòng)機(jī)(ANN-CA)[17,18]模型通過(guò)混淆矩陣得到的模擬精度的對(duì)比結(jié)果。如表2所示, RFA-CA模型的總精度和Kappa系數(shù)均高于ANNCA模型。從表3可知,相比ANN-CA模型,RFACA模型模擬得到的多類別土地利用結(jié)果與真實(shí)土地利用一致性更高,其對(duì)未來(lái)土地利用預(yù)測(cè)的精度和可靠性也較高,同樣適用于對(duì)土地利用格局的預(yù)測(cè)。
表1 實(shí)際與模型模擬土地利用混淆矩陣Table 1 The confusion matrix between the actual and simulated land use
表2 RFA-CA模型與ANN-CA模型精度對(duì)比Table 2 Accuracy comparison between RFA-CA model and ANN-CA model
表3 RFA-CA模型與ANN-CA模型各類別精度對(duì)比Table 3 Accuracy comparison of all classes between RFA-CA model and ANN-CA model
在多類CA中,鄰域效應(yīng)是影響元胞發(fā)展概率的重要因素,由于土地利用類型的復(fù)雜性,在對(duì)鄰域效應(yīng)的計(jì)算中不能只統(tǒng)計(jì)單一類別的元胞數(shù)量,如公式(4)所示,往往需要采用一個(gè)較大的鄰域計(jì)算所有土地利用類型的數(shù)量,進(jìn)而充分考慮中心元胞向其他所有土地利用類型轉(zhuǎn)變的可能。但鄰域選擇過(guò)大可能會(huì)造成鄰域內(nèi)不同土地利用類型的數(shù)量過(guò)于接近,降低模型的精度。因此,如表4所示,本文針對(duì)多類CA的元胞鄰域窗口的取值進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)模擬精度受到鄰域大小取值影響較大,針對(duì)本文2000-2014年?yáng)|莞市多類土地利用的模擬,最優(yōu)鄰域單元為5個(gè),鄰域大小為5×5鄰域。
2.5 變量重要性分析
隨機(jī)森林算法可以利用袋外數(shù)據(jù)求得OOB誤差以估計(jì)隨機(jī)森林模型的精度,并用來(lái)評(píng)價(jià)變量的重要性。隨機(jī)森林模型衡量特征變量重要性的常用方法有兩種,分別是平均精度減少法和平均基尼系數(shù)下降法[19]。平均精度減少法是將某一變量的取值變?yōu)?或隨機(jī)數(shù),而其他變量保持不變,使用誤差傳播公式,通過(guò)分析改變?cè)撟兞亢竽P偷恼`差增加情況來(lái)估計(jì)該變量的重要程度;平均基尼系數(shù)下降法則是遍歷所有樹(shù)節(jié)點(diǎn),統(tǒng)計(jì)每個(gè)特征變量對(duì)應(yīng)的基尼系數(shù)下降總和作為該特征的貢獻(xiàn)度,本文采用該法計(jì)算變量的貢獻(xiàn)度。在本文中,對(duì)隨機(jī)森林分類器訓(xùn)練后,除未利用土地(所占比例過(guò)小)、水體(限制性約束條件),針對(duì)每一種土地利用類型在分類器中使用袋外數(shù)據(jù)對(duì)各空間變量重要性進(jìn)行了計(jì)算,結(jié)果如圖5所示。
表4 不同鄰域取值對(duì)應(yīng)的模擬精度Table 4 Simulation accuracy of different neighborhood
根據(jù)圖5a變量重要性計(jì)算的結(jié)果可以看出,對(duì)于整體上東莞市土地利用的變化情況,到道路(一般道路、高速路)距離、到火車站距離、到市中心距離等交通區(qū)位因素重要性最高,這說(shuō)明,隨著近20年?yáng)|莞市城市用地的不斷擴(kuò)張,耕地、林地等用地面積不斷被侵占,道路通達(dá)性越高、位置越優(yōu)越的地區(qū)更便于與其他地區(qū)之間商品、信息、資金等的流通,進(jìn)而促進(jìn)其他用地向城市用地的轉(zhuǎn)變,強(qiáng)烈地影響了東莞市土地利用格局的變化。對(duì)于POIs鄰近因素,餐飲、超市、工廠和休閑娛樂(lè)設(shè)施的分布密度對(duì)模型的精度影響較大。東莞市的經(jīng)濟(jì)很大程度上依托于第二、三產(chǎn)業(yè)的發(fā)展[24],工廠的分布影響了東莞市資金和技術(shù)轉(zhuǎn)移的路徑,餐飲、超市、娛樂(lè)設(shè)施等提供了吸引市民消費(fèi)、方便市民生活的基本條件。因此,這些POIs因素豐富了東莞市土地利用變化的驅(qū)動(dòng)力, POIs分布的密度也在一定程度上影響了東莞市土地利用變化的格局。
對(duì)于城市用地(圖5b),超市作為城市生活密切相關(guān)的場(chǎng)所,其分布密度重要性最高,此外,區(qū)位因素對(duì)模型精度的影響較大、重要性較高;這是因?yàn)榫嚯x城市中心越近的地方,享受到城市良好的基礎(chǔ)設(shè)施、豐富的教育、衛(wèi)生機(jī)構(gòu)條件的機(jī)會(huì)越大,從而推動(dòng)周邊非城市用地向城市用地的轉(zhuǎn)變。經(jīng)濟(jì)增長(zhǎng)與耕地?cái)?shù)量之間存在類似庫(kù)茲涅茨曲線型關(guān)系[27],耕地資源流失量與城市的經(jīng)濟(jì)發(fā)展有著密切的關(guān)系,尤為明顯表現(xiàn)在城鎮(zhèn)周邊和交通沿線[28,29];如圖5c所示,東莞市的耕地類型變化同樣強(qiáng)烈地受到了東莞市城市擴(kuò)張的影響,距離主要道路和城鎮(zhèn)中心越近的地區(qū),耕地更容易被侵占,從而造成耕地資源的減少。高程是影響林地變化十分重要的因素[30,31],這是因?yàn)殡S著高程的上升,林地向其他用地轉(zhuǎn)變的比例會(huì)降低,而在低海拔地區(qū),林地則會(huì)大量的轉(zhuǎn)變?yōu)閳@林、城市用地等用地類型;從圖5d中直觀看出,東莞市林地受高程的影響較大,在高海拔處制約了林地向其他用地的轉(zhuǎn)變,在高程較低的地區(qū),尤其是在高速路周邊,容易發(fā)生林地向城市用地的轉(zhuǎn)變。草地的分布具有一定的生態(tài)序列性,與高程、坡度等地形因子具有一定的聯(lián)系[32];如圖5e所示,高程、坡度對(duì)東莞市草地的變化影響很大,高程和坡度越小的地區(qū)越容易發(fā)生草地向其他用地的轉(zhuǎn)變。
圖5 空間變量重要性度量Fig.5 Importance of each spatial variable
確定CA模型的轉(zhuǎn)換規(guī)則一直是CA模型研究的重點(diǎn),運(yùn)用CA模型模擬復(fù)雜的多類土地利用變化問(wèn)題難度很大[16,17]。本文構(gòu)建的RFA-CA模型運(yùn)用隨機(jī)森林算法計(jì)算出了元胞多類別轉(zhuǎn)換概率,進(jìn)而獲取了多類CA轉(zhuǎn)換規(guī)則,可以有效地模擬出復(fù)雜的土地利用動(dòng)態(tài)變化的過(guò)程。
本文為了反映城市基礎(chǔ)設(shè)施對(duì)周邊用地向城市用地轉(zhuǎn)變的促進(jìn)作用,在空間變量中引入了POIs鄰近因素,并聯(lián)合獲取到的交通因素、區(qū)位因素、自然因素共同作為模型的自變量,6類土地利用變化作為模型因變量,運(yùn)用RFA-CA模型獲取了東莞市多類土地利用轉(zhuǎn)換規(guī)則,模擬并預(yù)測(cè)了東莞市多類土地利用的動(dòng)態(tài)變化。模擬和預(yù)測(cè)結(jié)果顯示,東莞市近20年耕地、林地、草地面積逐漸被侵占,城市面積不斷增多,具有強(qiáng)烈的城市化趨勢(shì),并且到2025年,這一趨勢(shì)將持續(xù)下去,使得城市面積更加擴(kuò)張,耕地、草地等面積更加匱乏。通過(guò)精度檢驗(yàn)和對(duì)比發(fā)現(xiàn), RFA-CA模型在實(shí)驗(yàn)中具有較高的精度,相比于傳統(tǒng)的邏輯回歸模型具有一定優(yōu)勢(shì),更適用于模擬和預(yù)測(cè)復(fù)雜的多類土地利用變化。從對(duì)于整體土地利用格局和對(duì)于不同土地利用類型兩方面,本文通過(guò)隨機(jī)森林算法對(duì)各空間變量的重要性分別進(jìn)行了度量。結(jié)果顯示,對(duì)于不同的土地利用類型,空間變量的重要性均不相同,所得出的重要性排序可以為因地制宜地保護(hù)土地資源提供有價(jià)值的輔助信息;在整體上,交通區(qū)位因素以及餐飲、工廠等部分POIs分布的密度對(duì)模型精度影響較大,對(duì)東莞市土地利用變化有著重要影響。
本文利用RFA計(jì)算出醫(yī)院、公園等POIs分布密度重要性較低,對(duì)模型精度的影響較小。然而,這些POIs密度同樣是反映城市空間開(kāi)發(fā)程度的重要指標(biāo),對(duì)體現(xiàn)未來(lái)城市發(fā)展趨勢(shì)將起到一定的指導(dǎo)意義,因此,本文中未利用RFA對(duì)這類較低重要度的空間變量進(jìn)行篩選。此外,本研究沒(méi)有將RFACA模型應(yīng)用于較大研究區(qū),在今后的研究中,需要使用模型完成如珠三角、長(zhǎng)三角等較大研究區(qū)的模擬和預(yù)測(cè),以驗(yàn)證模型的適用性以及比較不同區(qū)域之間土地利用變化規(guī)律的異同。
[1] WARD D P,MURRAY A T,PHINN S R.A stochastically constrained cellular model of urban growth[J].Computer Environment and Urban Systems,2000,24:539-558.
[2] 周成虎,孫戰(zhàn)利,謝一春.地理元胞自動(dòng)機(jī)研究[M].北京:科學(xué)出版社,1999.
[3] 羅平,杜清運(yùn),雷元新,等.地理特征元胞自動(dòng)機(jī)及城市土地利用演化研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2004,29(6):504 -513.
[4] 廖江福,唐立娜,王翠平,等.城市元胞自動(dòng)機(jī)擴(kuò)展鄰域效應(yīng)的測(cè)量與校準(zhǔn)研究[J].地理科學(xué)進(jìn)展,2014,33(12):1624-1633.
[5] CHEN Y,LI X,SU W,et al.Simulating the optimal land-use pattern in the farming-pastoral transitional zone of Northern China[J].Computers,Environment and Urban Systems,2008, 32:407-414.
[6] CHENG J,MASSER I.Cellular Automata based temporal process understanding of urban growth[A].Cellular Automata[C].2002. 325-336.
[7] LI X,L AO C,LIU X,et al.Coupling urban cellular automata with ant colony optimization for zoning protected natural areas under a changing landscape[J].International Journal of Geographical Information Science,2011,25:575-593.
[8] HUANG G,GAO W.Simulating study on CA model based on parameter optimization of genetic algorithm and urban development[J].Procedia Engineering,2011,15:2175-2179.
[9] 劉明皓,安廣文,李超.基于動(dòng)態(tài)鄰域思想的ACO-CA城市動(dòng)態(tài)模擬——以重慶市沙坪壩區(qū)為例[J].地理與地理信息科學(xué), 2016,32(3):74-89.
[10] 何春陽(yáng),史培軍,陳晉,等.基于系統(tǒng)動(dòng)力學(xué)模型和元胞自動(dòng)機(jī)模型的土地利用情景模型研究[J].中國(guó)科學(xué)(地球科學(xué)), 2005,35(5):464-473.
[11] 陳凱,劉凱,柳林,等.基于隨機(jī)森林的元胞自動(dòng)機(jī)城市擴(kuò)展模擬——以佛山市為例[J].地理科學(xué)進(jìn)展,2015,34(8):937-946.
[12] 黎夏,葉嘉安.知識(shí)發(fā)現(xiàn)及地理元胞自動(dòng)機(jī)[J].中國(guó)科學(xué)(地球科學(xué)),2004,34(9):865-872.
[13] WU F,WEBSTER C J.Simulation of land development through the integration of cellular automata and multicriteria evaluation [J].Environment and Planning B,1998,5:103-126.
[14] 劉小平,黎夏,葉嘉安,等.利用蟻群智能挖掘地理元胞自動(dòng)機(jī)的轉(zhuǎn)換規(guī)則[J].中國(guó)科學(xué)(地球科學(xué)),2007,37(6):824-834.
[15] 楊青生,黎夏.基于遺傳算法自動(dòng)獲取CA模型的參數(shù)——以東莞市城市發(fā)展模擬為例[J].地理研究,2007,26(2):229-237.
[16] 黎夏,葉嘉安.基于神經(jīng)網(wǎng)絡(luò)的單元自動(dòng)機(jī)CA模擬及真實(shí)和優(yōu)化城市模擬[J].地理學(xué)報(bào),2002,57(2):159-166.
[17] 黎夏,葉嘉安.基于神經(jīng)網(wǎng)絡(luò)的元胞自動(dòng)機(jī)及模擬復(fù)雜土地利用系統(tǒng)[J].地理研究,2005,24(1):19-27.
[18] KNOL M J,LE CESSIA S,ALGRA A.et al.Overestimation of risk ratios by odds ratios in trials and cohort studies:Alternative to logistic regression[J].Canadian M edical Association Journal,2012,184:895-899.
[19] BREIMAN L.Random Forests[J].Machine L earning,2001, 45(1):5-32.
[20] 李欣海.隨機(jī)森林模型在分類與回歸分析中的應(yīng)用[J].應(yīng)用昆蟲(chóng)學(xué)報(bào),2013,50(4):1190-1197.
[21] 方匡南,吳見(jiàn)彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2011(3):32-38.
[22] IVERSON L R,PRASSAD A M,MAT TEWS S N,et al.Estimating potential habitat for 134 eastern U S tree species under six climate scenarios[J].Forest Ecology&Manag ement, 2008,254(3):390-406.
[23] BIAU G E R.Analysis of a random forests model[J].T he Journal of Machine Learning Research,2012,13:1063-1095.
[24] 鄭艷婷,劉盛和,陳田.試論半城市化現(xiàn)象及其特征——以廣東省東莞市為例[J].地理研究,2003,22(6):760-769.
[25] BATT Y M,XIE Y.From cells to cities[J].Environment and Planning B:Planning and Design,1994,21:531-548.
[26] 董超.“流空間”的地理學(xué)屬性及其區(qū)域發(fā)展效應(yīng)分析[J].地域研究與開(kāi)發(fā),2012,31(2):5-14.
[27] 劉鳳朝,孫玉濤.耕地減少、農(nóng)民失地與經(jīng)濟(jì)增長(zhǎng)的關(guān)系分析[J].資源科學(xué),2008,30(1):52-57.
[28] 潘佩佩,王曉旭,楊桂山,等.經(jīng)濟(jì)快速發(fā)展地區(qū)耕地質(zhì)量時(shí)空變化格局研究[J].地理與地理信息科學(xué),2015,31(4):65-70.
[29] 陳永林,謝炳庚,李小青,等.長(zhǎng)沙市城市擴(kuò)張對(duì)邊緣區(qū)景觀格局的影響[J].地理與地理信息科學(xué),2016,32(2):94-99.
[30]卜心國(guó),王仰麟,沈春竹,等.深圳市地形對(duì)土地利用動(dòng)態(tài)的影響[J].地理研究,2009,28(4):1011-1021.
[31] 秦佩恒,武劍峰,劉雅琴,等.快速城市化地區(qū)景觀可達(dá)性及其對(duì)林地的影響——以深圳市寶安區(qū)為例[J].生態(tài)學(xué)報(bào),2006, 26(11):3796-3803.
[32] 趙連春,劉榮堂,楊予海,等.基于地形因子的草地遙感分類方法的研究[J].草業(yè)科學(xué),2006,23(12):26-30.
Simulating Spatiotemporal Change of Multiple Land Use Types in Dongguan by Using Random Forest Based on Cellular Automata
ZHANG Da-chuan,LIU Xiao-ping,YAO Yao,ZHANG Jin-bao
(School of Geography and Planning of Sun Yat-Sen University,Guangz hou510275,China)
Urban land use information plays an important role in urban environment.China′s land resources are under increasing pressure due to the rapid development of economic growth and urbanization process.Many previous studies have focused on urban area expansion by integrating Cellular Automata(CA)and M achine Learning(ML)algorithms.However,simulation of multiple land use changes using CA model is difficult because there are numerous spatial variables and the change types have to be settled.T his paper proposes a new method to simulate spatiotemporal complex multiple land uses by using Random Forest Algorithm(RFA)based on CA model.One significant advantage is that this algorithm can reduce error upper limit of the generalized model.RFA-CA model can extract the complex land use conversion rules and measure the importance of the spatial variables,which could explain the influence of variables in different land use change.We apply RFA-CA model on simulating and predicting the dynamics of multiple land uses in Dongguan during 2000-2014(Dongguan is a modern city in South China with rapid economic development in recent 20 years).T he result shows that RFA-CA model has high accuracy with Kappa 0.72 and overall accuracy 84.7%.Additionally,when compared to ANN-CA model,the results are also improved to varying degree. Through measuring the importance of some spatial variables including POIs variables which are introduced in our study,we obtain different regular for each land use type.Taking all land uses as a whole,we find that the traffic,position and a part of POIs factors play an important role in forming Dongguan′s land use pattern.
multi-classes cellular automata;random forest algorithm;land use change;variables importance
F301.24
A
1672-0504(2016)05-0029-08
10.3969/j.issn.1672-0504.2016.05.005
2016-07-15;
2016-08-20
張大川(1993-),男,碩士研究生,主要研究方向?yàn)榇髷?shù)據(jù)與城市模擬。*通訊作者E-mail:liuxp3@mail.sysu.edu.cn