張銳豪, 趙耀龍, 吳智剛, 羅文斐
(1.華南師范大學(xué)地理科學(xué)學(xué)院,廣州 510631;2.華南師范大學(xué)智慧國(guó)土與資源環(huán)境研究中心,廣州 510631;3.華南師范大學(xué)城市與區(qū)域發(fā)展研究中心,廣州 510631)
?
基于集成學(xué)習(xí)和元胞自動(dòng)機(jī)的城市地理模擬
張銳豪1,2, 趙耀龍1,2*, 吳智剛3, 羅文斐1,2
(1.華南師范大學(xué)地理科學(xué)學(xué)院,廣州 510631;2.華南師范大學(xué)智慧國(guó)土與資源環(huán)境研究中心,廣州 510631;3.華南師范大學(xué)城市與區(qū)域發(fā)展研究中心,廣州 510631)
摘要:針對(duì)常用城市地理模擬系統(tǒng)中元胞自動(dòng)機(jī)轉(zhuǎn)換規(guī)則獲取算法的局限性,提出基于集成學(xué)習(xí)的元胞自動(dòng)機(jī),并將其應(yīng)用于城市建設(shè)用地的動(dòng)態(tài)模擬.以決策樹作為弱分類器,應(yīng)用集成學(xué)習(xí)和元胞自動(dòng)機(jī),模擬了東莞市2001—2005年的建設(shè)用地時(shí)空格局.精度評(píng)估的結(jié)果表明,經(jīng)集成學(xué)習(xí)后的決策樹比單個(gè)決策樹對(duì)城市建設(shè)用地動(dòng)態(tài)的模擬精度更高,算法泛化能力更好.
關(guān)鍵詞:集成學(xué)習(xí); 元胞自動(dòng)機(jī); 城市地理模擬; 決策樹
城市是一個(gè)典型的動(dòng)態(tài)空間復(fù)雜系統(tǒng), 具有自組織性、自相似性、時(shí)空動(dòng)態(tài)性和非線性等耗散結(jié)構(gòu)特征[1].元胞自動(dòng)機(jī)在復(fù)雜動(dòng)態(tài)系統(tǒng)模擬上具有較強(qiáng)的優(yōu)勢(shì)[2],廣泛應(yīng)用于城市地理模擬[3-7],使用元胞自動(dòng)機(jī)所面臨的核心問(wèn)題是元胞轉(zhuǎn)換規(guī)則的獲取[8-9].國(guó)內(nèi)學(xué)者運(yùn)用決策樹[10]、神經(jīng)網(wǎng)絡(luò)[11]、支持向量機(jī)[12]等單分類算法來(lái)確定元胞的轉(zhuǎn)換規(guī)則,但這種單分類算法在實(shí)際地理模擬中存在一定的局限性,主要表現(xiàn)在:(1)當(dāng)所選取的訓(xùn)練集中原始樣本數(shù)據(jù)存在噪聲且樣本容量較小時(shí),通過(guò)這些數(shù)據(jù)所訓(xùn)練出來(lái)的元胞類型分類器無(wú)疑是有缺陷的,會(huì)降低分類的精度[13].(2)單分類算法本身也具有一定的局限性.如神經(jīng)網(wǎng)絡(luò)算法,通常采用梯度下降法實(shí)現(xiàn)錯(cuò)誤率的最小化,由于訓(xùn)練方法的原因,算法容易陷入局部最優(yōu),同時(shí)算法的收斂速度較慢,需花費(fèi)大量的時(shí)間[14];支持向量機(jī)算法則受參數(shù)設(shè)置的影響很大[12]845.
利用數(shù)據(jù)挖掘技術(shù)(如決策樹)來(lái)完成元胞轉(zhuǎn)換規(guī)則的獲取是一種比較有效的方法.決策樹是常用的數(shù)據(jù)挖掘算法,也是重要的機(jī)器學(xué)習(xí)算法,常用ID3、C4.5和CART等算法生成.決策樹較于傳統(tǒng)的啟發(fā)式算法或智能算法,省去了繁瑣的數(shù)學(xué)模型擬合與計(jì)算,大大提高了建模效率[10]872,但也存在局限性:(1)當(dāng)參與決策的結(jié)點(diǎn)或變量增多時(shí),決策樹的錯(cuò)誤率將會(huì)隨之上升[15]10.(2)當(dāng)用以訓(xùn)練的數(shù)據(jù)帶有噪聲或缺乏代表性時(shí),會(huì)導(dǎo)致決策樹過(guò)擬合,增加決策樹誤判率[15]10以及“樹”本身過(guò)于龐大,失去了規(guī)則明確、易于理解的優(yōu)點(diǎn).此時(shí)要對(duì)決策樹進(jìn)行剪枝的操作,但若對(duì)剪枝率控制不好則易增加誤判率.
針對(duì)元胞轉(zhuǎn)換規(guī)則獲取算法中存在的上述局限性,本文嘗試以決策樹算法作為弱分類器,引入集成學(xué)習(xí)(Ensemble Learning)的方法,突破決策樹獲取元胞轉(zhuǎn)換規(guī)則挖掘的局限性,提高城市地理模擬結(jié)果的精度.
1集成學(xué)習(xí)與弱分類器
集成學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中一個(gè)重要的熱門研究方向,其核心思想是利用多個(gè)相同的學(xué)習(xí)器或弱分類器針對(duì)同一個(gè)問(wèn)題進(jìn)行學(xué)習(xí),例如所有的學(xué)習(xí)器或弱分類器都是決策樹或神經(jīng)網(wǎng)絡(luò)等.因?yàn)榧蓪W(xué)習(xí)采用多個(gè)弱分類器的組合,因此可以獲得比僅使用單一學(xué)習(xí)器更強(qiáng)的泛化能力[16].
根據(jù)對(duì)樣本數(shù)據(jù)集處理方式的不同,常用的集成學(xué)習(xí)算法有Bagging、Boostig和隨機(jī)森林等3種(圖1)[16].本文以這3種算法及其相應(yīng)的弱分類器決策樹為基礎(chǔ),對(duì)應(yīng)用集成學(xué)習(xí)算法和單個(gè)弱分類器進(jìn)行城市地理模擬的結(jié)果精度進(jìn)行對(duì)比分析.
圖1 集成學(xué)習(xí)算法分類
1.1Bagging算法
Bagging 算法旨在通過(guò)對(duì)原數(shù)據(jù)進(jìn)行多次Bootstrap抽樣,通過(guò)抽樣得到的多個(gè)訓(xùn)練集對(duì)弱分類器進(jìn)行訓(xùn)練.然后,再將未知樣本代入已訓(xùn)練好的弱分類器,得到相應(yīng)的分類結(jié)果,取分類結(jié)果中頻數(shù)最高的類別作為執(zhí)行算法所得到的分類類別.與Boosting算法比較,由于Bagging算法的訓(xùn)練集之間不存在強(qiáng)的依賴關(guān)系,所以其所集成的弱分類器也不具有相關(guān)關(guān)系,使Bagging算法并行生成,而Boosting算法需串行生成[17].本文的實(shí)驗(yàn)采用經(jīng)典的Bagging算法進(jìn)行城市地理模擬.
1.2Boosting算法
Boosting算法跟Bagging算法的差異主要體現(xiàn)在訓(xùn)練集的獲取上.Bagging算法主要通過(guò)對(duì)原數(shù)據(jù)集進(jìn)行反復(fù)的bootstrap抽樣,各訓(xùn)練集之間不相關(guān),而Boosting算法抽樣則依賴于前一次訓(xùn)練所帶來(lái)的樣本權(quán)重的調(diào)整,要求增加分類錯(cuò)誤樣本的權(quán)重,以便再次執(zhí)行迭代這些分類錯(cuò)誤的樣本被再次訓(xùn)練,提高對(duì)其判別的正確率.因?yàn)樵糂oosting算法要求在集成學(xué)習(xí)知道弱分類器的泛化下界,這就造成了原始的Boosting算法難以用于解決實(shí)際問(wèn)題.AdaBoosting算法在Boosting算法家族中最具代表性,相較于原始的Boosting算法,其無(wú)需獲取所集成的弱分類器的先驗(yàn)信息,因而可更好地應(yīng)用于解決實(shí)際問(wèn)題.近期,LI[18]將基于遷移學(xué)習(xí)的AdaBoosting算法與Logistic-CA模型結(jié)合用于土地利用模擬,取得了比傳統(tǒng)模擬方法更好的模擬效果.因此,本文將采用AdaBoosting算法來(lái)完成相關(guān)的訓(xùn)練與模擬.
1.3隨機(jī)森林算法
隨機(jī)森林算法是一種新的機(jī)器學(xué)習(xí)算法,由Bagging集成學(xué)習(xí)理論與隨機(jī)子空間方法相結(jié)合[19].隨機(jī)森林算法與Bagging算法、Boosting算法的不同之處在于:使用訓(xùn)練集完成子決策樹的創(chuàng)建時(shí),需要先隨機(jī)在訓(xùn)練集所包含的M個(gè)屬性中選出m個(gè)屬性,按照結(jié)點(diǎn)的不純潔度最小原則選出一個(gè)最佳屬性進(jìn)行分裂,并以CART算法完成整棵樹的生長(zhǎng),一般不用進(jìn)行剪枝過(guò)程.其中對(duì)于m值的選取,一般有2種方法[20]:
(1)直接取m=1;
(2)取m=int[((lnM)/(ln 2))+1].
這2種方法的取值絕對(duì)誤差不會(huì)大于1%.為了取值方便,在保證精度的前提下,本文取m=1.
影響隨機(jī)森林分類性能的主要因素有森林中各棵決策樹精度與森林中各棵決策樹的相關(guān)性.隨機(jī)森林中單棵決策樹的分類精度越高,則隨機(jī)森林的分類精度也就越高.而隨機(jī)森林中各棵決策樹之間的相關(guān)性越弱,隨機(jī)森林的分類效果越好.隨機(jī)森林對(duì)包含噪聲的數(shù)據(jù)有較好的魯棒性,也能較好地克服過(guò)擬合問(wèn)題.同時(shí),對(duì)于參與分類且包含很多變量或?qū)傩缘臄?shù)據(jù)也具有良好的可拓展性與并行性[21].
2基于集成學(xué)習(xí)的元胞自動(dòng)機(jī)
2.1技術(shù)路線
應(yīng)用地理模擬系統(tǒng)對(duì)城市動(dòng)態(tài)進(jìn)行模擬時(shí),通常將研究區(qū)域內(nèi)下一階段元胞的變換狀態(tài)分為2類:轉(zhuǎn)變?yōu)榻ㄔO(shè)用地或保持原地類(不轉(zhuǎn)換).本集成模型將這2種變換狀態(tài)作為分類器的分類結(jié)果,各影響因子作為輸入?yún)?shù).輸入各影響因子的圖層到相應(yīng)的分類器,以此獲得下一階段元胞轉(zhuǎn)換后的狀態(tài)圖,再進(jìn)行元胞運(yùn)算即可得到模擬結(jié)果(圖2).
圖2 技術(shù)路線圖
本文使用CART算法(也稱分類回歸樹算法)來(lái)生成決策樹,根據(jù)Gini指數(shù)對(duì)樹中的非葉子結(jié)點(diǎn)進(jìn)行二叉分割,相比于ID3與C4.5有更好的抗噪聲性能[22].
基礎(chǔ)數(shù)據(jù)處理與采集以及模擬結(jié)果的可視化主要在ARCGIS軟件中完成,而集成學(xué)習(xí)與決策樹的訓(xùn)練以及元胞自動(dòng)機(jī)的模擬及其精度評(píng)估由MATLAB完成.各算法模擬結(jié)果的精度評(píng)估混淆矩陣以及泛化性能評(píng)價(jià)采用 Holdout 驗(yàn)證方法來(lái)完成.Holdout 驗(yàn)證方法的主要思路是將原始數(shù)據(jù)集劃分為兩部分,一部分作為分類器的訓(xùn)練數(shù)據(jù)集,另一部分作為分類器的評(píng)估數(shù)據(jù)集.
2.2數(shù)據(jù)及數(shù)據(jù)處理
以廣東省東莞市作為地理模擬實(shí)驗(yàn)區(qū)域,實(shí)驗(yàn)數(shù)據(jù)見表1.
表1 原始數(shù)據(jù)及來(lái)源
引用如下變量作為模型輸入?yún)?shù):
(1)因變量:輸出特征變量作為訓(xùn)練時(shí)分類器所輸出的類別.以東莞市2005年的建設(shè)用地圖與2001建設(shè)用地圖做柵格運(yùn)算.當(dāng)柵格值為1時(shí),代表該柵格在模擬中轉(zhuǎn)化為建設(shè)用地;而當(dāng)柵格值為0時(shí),代表該柵格沒有發(fā)生轉(zhuǎn)化.
(2)區(qū)域空間變量[10]868,包括:與市中心的距離;與鎮(zhèn)中心的距離;與公路的距離;與高速公路的距離;與鐵路的距離.
(3)鄰域變量:各元胞Moore鄰域內(nèi)已城市化的元胞數(shù)量[10]868.
因?yàn)樵纪恋乩矛F(xiàn)狀圖的數(shù)據(jù)量較大,為了加快模擬速度,本文在處理輸入變量數(shù)據(jù)和因變量的數(shù)據(jù)時(shí),都先用Matlab進(jìn)行隨機(jī)抽樣選出一部分?jǐn)?shù)據(jù)進(jìn)行算法訓(xùn)練.
應(yīng)用ARCGIS中Raster Calculator工具對(duì)東莞市2001、2005年的建成區(qū)與非建成區(qū)的二值圖層進(jìn)行計(jì)算,獲得建設(shè)用地的轉(zhuǎn)化圖層,以此作為真實(shí)分類結(jié)果.通過(guò)矢量化操作完成東莞市道路、鐵路、高速公路、城鎮(zhèn)中心、市行政中心要素圖層的數(shù)字化,借助ARCGIS中的空間分析工具(如Straight Line與Neighborhood Statistics)完成相關(guān)距離要素圖層的獲取與鄰域信息要素圖層的獲?。贛atlab完成訓(xùn)練與模擬過(guò)程,而Matlab不支持直接對(duì)柵格圖層直接操作,所以將各要素圖層轉(zhuǎn)成浮點(diǎn)數(shù)的FLT文件,再在Matlab里轉(zhuǎn)化為相應(yīng)的數(shù)值向量.
3結(jié)果及精度評(píng)價(jià)
隨機(jī)森林算法是集成學(xué)習(xí)的一個(gè)研究熱點(diǎn),在實(shí)際中運(yùn)用較多,因此本文將先以隨機(jī)森林算法代表集成學(xué)習(xí)與決策樹算法的模擬精度進(jìn)行比較,對(duì)集成學(xué)習(xí)算法與決策樹算法的模擬精度作初步的判斷,再深入分析3種集成學(xué)習(xí)算法的模擬結(jié)果.實(shí)際應(yīng)用中,對(duì)于分類器訓(xùn)練樣本量的選取有一定要求.若訓(xùn)練樣本過(guò)小,受所包含的噪聲數(shù)據(jù)影響,不利于比較算法模擬精度.若訓(xùn)練樣本過(guò)大,由于決策樹有過(guò)擬合傾向,導(dǎo)致其對(duì)于訓(xùn)練的樣本擬合精度很高,而被用來(lái)訓(xùn)練的樣本在求總體模擬精度會(huì)再次被擬合,導(dǎo)致在求總體模擬精度時(shí)會(huì)出現(xiàn)決策樹模擬的總體精度虛高的現(xiàn)象.因此,在模擬時(shí)注意訓(xùn)練樣本容量選擇,同時(shí),為了檢驗(yàn)各分類算法的泛化能力,在求模擬結(jié)果的精度評(píng)估混淆矩陣時(shí)對(duì)參與訓(xùn)練的樣本予以剔除.在模擬東莞2005年的建設(shè)用地現(xiàn)狀圖時(shí),將算法訓(xùn)練樣本容量定為50 000,約為參加模擬所用元胞總數(shù)的20%[10]868.
對(duì)于弱分類器CART決策樹的訓(xùn)練和模擬,為了防止過(guò)擬合所帶來(lái)的誤差,采用25%的剪枝率[10]868來(lái)簡(jiǎn)化決策樹.集成學(xué)習(xí)算法的迭代次數(shù)取為100.分別應(yīng)用CART算法和集成學(xué)習(xí)算法得到2005年建設(shè)用地模擬結(jié)果與實(shí)際情況對(duì)比(圖3). 2類算法模擬結(jié)果的精度評(píng)價(jià)見表2和表3(參考文獻(xiàn)[7]162和文獻(xiàn)[11]24,對(duì)表格中“實(shí)際”標(biāo)注的位置進(jìn)行了修改). 結(jié)合2個(gè)算法的城市建設(shè)用地模擬結(jié)果圖與現(xiàn)狀圖的可視化對(duì)比以及模擬的精度評(píng)價(jià)結(jié)果可以看出,隨機(jī)森林算法的模擬結(jié)果精度要優(yōu)于決策樹CART算法的模擬結(jié)果,表明集成學(xué)習(xí)后的模型優(yōu)于傳統(tǒng)決策樹模型.
土地利用類型模擬結(jié)果建設(shè)用地/個(gè)非建設(shè)用地/個(gè)用戶精度/%建設(shè)用地21499640977.04非建設(shè)用地4662414634175.84總體精度/%76.11
表3 2005年隨機(jī)森林算法模擬精度評(píng)估
4討論
4.1不同集成學(xué)習(xí)算法的模擬效果
由于不同集成學(xué)習(xí)算法在構(gòu)成原理上有差異,應(yīng)用于實(shí)際模擬中的效果存在差異.將隨機(jī)森林算法所用的訓(xùn)練樣本用以訓(xùn)練Bagging 與Boosting算法,進(jìn)行同樣的模擬,獲得這2種算法的2005年?yáng)|莞市城市建成區(qū)模擬結(jié)果(圖4).
由表4和表5可見,3種集成學(xué)習(xí)算法獲得的模擬結(jié)果的總體精度均大于決策樹模擬的總體精度,整體集成學(xué)習(xí)算法的模擬效果要優(yōu)于單個(gè)弱分類器的模擬效果,其中隨機(jī)森林算法的總體精度最高.在建設(shè)用地?cái)?shù)量方面,根據(jù)各算法模擬的精度評(píng)價(jià)結(jié)果,Bagging算法遠(yuǎn)優(yōu)于其他3種算法.Boosting
圖4 Bagging和Boosting算法模擬結(jié)果可視化比較
算法的模擬效果則介于Bagging算法與隨機(jī)森林算法之間.集成學(xué)習(xí)算法在模擬中各有優(yōu)點(diǎn),在實(shí)際應(yīng)用中應(yīng)該根據(jù)需要選擇合適的集成學(xué)習(xí)算法.
4.2集成學(xué)習(xí)算法中迭代次數(shù)對(duì)模擬結(jié)果的影響
3種集成學(xué)習(xí)算法在訓(xùn)練中需要考慮迭代次數(shù)選擇,也是弱分類器數(shù)量的選擇.為了確定迭代次數(shù)問(wèn)題,本文在不同的訓(xùn)練樣本容量(設(shè)為N)下,以迭代次數(shù)為自變量、各集成學(xué)習(xí)算法的模擬精度為因變量,得到模擬精度與迭代次數(shù)的關(guān)系(圖5).
表4 2005年Bagging算法模擬精度評(píng)估
表5 2005年Boosting模擬精度評(píng)價(jià)
圖5 各集成學(xué)習(xí)算法模擬精度與迭代次數(shù)的關(guān)系
圖5表明,當(dāng)訓(xùn)練樣本容量較小且迭代次數(shù)也較小時(shí),集成學(xué)習(xí)算法的模擬精度也較低;保持訓(xùn)練樣本容量不變,增大迭代次數(shù),經(jīng)過(guò)約100次的迭代,模擬精度開始趨于穩(wěn)定,之后繼續(xù)增加迭代次數(shù),但模擬精度沒有顯著提高.在訓(xùn)練樣本較大的情況下,模擬的總體精度趨于穩(wěn)定,與迭代次數(shù)并無(wú)顯著的相關(guān)關(guān)系.因此,當(dāng)訓(xùn)練樣本量足夠大時(shí),可以通過(guò)減少迭代次數(shù)實(shí)現(xiàn)減少算法執(zhí)行時(shí)間開銷.
迭代次數(shù)是影響集成學(xué)習(xí)算法效率一個(gè)很重要的因素.由集成學(xué)習(xí)構(gòu)成的原理可知,其執(zhí)行訓(xùn)練與模擬的過(guò)程需要多個(gè)弱分類器同時(shí)訓(xùn)練與模擬,則決定了集成學(xué)習(xí)算法的執(zhí)行時(shí)間大大超出單個(gè)弱分類算法的時(shí)間.因此要優(yōu)化集成學(xué)習(xí)算法的效率,可以通過(guò)減少不必要的迭代次數(shù)來(lái)實(shí)現(xiàn).結(jié)合以上計(jì)算結(jié)果,考慮到要減少集成學(xué)習(xí)算法的時(shí)間開銷,本文取迭代次數(shù)為100.
4.3訓(xùn)練樣本容量對(duì)模擬結(jié)果的影響
為了明確訓(xùn)練樣本容量對(duì)模擬結(jié)果的影響規(guī)律,將3種算法在不同訓(xùn)練樣本容量下進(jìn)行訓(xùn)練,各算法模擬的總體精度見圖6.分析發(fā)現(xiàn),當(dāng)訓(xùn)練樣本容量較小時(shí),集成學(xué)習(xí)算法的模擬精度相較于決策樹算法有顯著的優(yōu)勢(shì).隨著訓(xùn)練樣本容量的增大,Bagging算法的模擬精度也超過(guò)了隨機(jī)森林算法,這是因?yàn)锽agging算法直接對(duì)弱分類器進(jìn)行組合集成,不對(duì)訓(xùn)練樣本的抽樣與弱分類器的生成進(jìn)行干預(yù),所以其模擬的特性與決策樹具有一定的相似性:對(duì)于原始的訓(xùn)練樣本擬合效果較好.Boosting算法的模擬精度開始低于決策樹,同時(shí)模擬的精度與訓(xùn)練所用的樣本容量并沒有顯著的相關(guān)關(guān)系,這說(shuō)明Boosting算法的一個(gè)優(yōu)點(diǎn)是其對(duì)于算法訓(xùn)練樣本容量的大小依賴性不強(qiáng),可以通過(guò)采用減少樣本訓(xùn)練容量來(lái)增強(qiáng)算法的執(zhí)行效率.隨著樣本增加,Boosting算法的模擬精度低于決策樹算法,原因可能出自決策樹的過(guò)擬合傾向.因?yàn)樵谟?jì)算總體精度時(shí),算法訓(xùn)練所用的樣本也被再次運(yùn)用于模擬,而決策樹對(duì)于這部分的數(shù)據(jù)模擬較好導(dǎo)致了其模擬總體精度虛高;同時(shí),Boosting算法著重于對(duì)模擬分類錯(cuò)誤的對(duì)象進(jìn)行反復(fù)訓(xùn)練,噪聲樣本數(shù)據(jù)的存在以及在訓(xùn)練中的累積也可能導(dǎo)致最終分類器的分類精度下降.隨著訓(xùn)練樣本量的增加,Bagging算法與隨機(jī)森林算法相較于單棵決策樹模擬精度始終保持顯著的
圖6 不同訓(xùn)練樣本容量的模擬精度比較
Figure 6Accuracy of simulation in terms of different training sample size
優(yōu)勢(shì),但集成學(xué)習(xí)的原理決定了執(zhí)行Bagging算法與隨機(jī)森林算法的執(zhí)行時(shí)間開銷也會(huì)相當(dāng)大,遠(yuǎn)大于單棵決策樹.但考慮到Bagging算法與隨機(jī)森林算法的算法結(jié)構(gòu)可以并行化處理,所以算法執(zhí)行效率可以得到優(yōu)化,有助于算法應(yīng)用的推廣.
5結(jié)論
本文以決策樹作為集成學(xué)習(xí)的弱分類器,將隨機(jī)森林、Bagging、Boosting (AdaBoosting)算法等3個(gè)常用的集成學(xué)習(xí)算法與元胞自動(dòng)機(jī)相結(jié)合,以東莞市為例,模擬其2005年建設(shè)用地現(xiàn)狀.經(jīng)對(duì)模擬結(jié)果精度及其泛化能力進(jìn)行評(píng)估、比較,結(jié)果表明,決策樹算法經(jīng)過(guò)集成學(xué)習(xí)后,模擬結(jié)果的總體精度有較顯著的改善,穩(wěn)定性和泛化能力也有了明顯的提升.其中,隨機(jī)森林算法的模擬總體精度最高,而Bagging 算法則在建設(shè)用地?cái)?shù)量上的模擬效果最好.Boosting 算法對(duì)于訓(xùn)練樣本容量的依賴性不強(qiáng),故而有利于增強(qiáng)算法的執(zhí)行效率;同時(shí)也有不錯(cuò)的泛化能力.在實(shí)際的應(yīng)用中,應(yīng)根據(jù)需要選擇合適的集成學(xué)習(xí)算法.
集成學(xué)習(xí)也面臨著算法執(zhí)行的時(shí)間開銷要遠(yuǎn)大于單個(gè)弱分類器,以及如何提高集成學(xué)習(xí)的效果與如何提高集成學(xué)習(xí)解決問(wèn)題的規(guī)模等問(wèn)題.但隨著并行計(jì)算技術(shù)的引入以及相關(guān)技術(shù)的發(fā)展,相信集成學(xué)習(xí)算法在城市地理模擬領(lǐng)域?qū)?huì)更廣泛地應(yīng)用.另外,本文僅應(yīng)用混淆矩陣方法對(duì)模擬結(jié)果進(jìn)行評(píng)估,后續(xù)工作中應(yīng)進(jìn)一步考慮對(duì)建設(shè)用地模擬結(jié)果的形態(tài)進(jìn)行評(píng)價(jià).
參考文獻(xiàn):
[1]劉小平,黎夏,張嘯虎,等.人工免疫系統(tǒng)與嵌入規(guī)劃目標(biāo)的城市模擬及應(yīng)用[J].地理學(xué)報(bào),2008,63(8): 882-894.
LIU X P, LI X, ZHANG X H, et al. Embedding urban planning objective by integrated artificial immune system and cellular automata[J]. Acta Geographica Sinica, 2008, 63(8): 882-894.
[2]COUCLELIS H.Cellular worlds:a framework for modeling micro-macro dynamics[J].Environment and Planning B, 1985, 17: 585-596.
[3]WHITE R, ENGELEN G. Cellular automata and fractal urban form: a cellular modelling approach to the evolution of urban land-use patters[J]. Environment and Planning A, 1993, 25: 1175-1199.
[4]CLARKE K C, HOPPEN S, GAYDOS L. A self-modifying cellular automaton model of historical urbanization in the San Francisco Bay area[J]. Environment and Planning B, 1997, 24: 247-261.
[5]APOSTOLOS L. Urban sprawl simulation linking macro-scale processes to micro-dynamics through cellular automata, an application in Thessaloniki, Greece[J]. Applied Geography, 2012, 34: 146-160.
[6]龍瀛, 沈振江, 毛其智, 等.基于約束性CA方法的北京城市形態(tài)情景分析[J]. 地理學(xué)報(bào),2010,65(6): 643-655.
LONG Y, SHEN Z J, MAO Q Z, et al. Form scenario analysis using constrained cellular automata[J]. Acta Geographica Sinica, 2010, 65(6): 643-655.
[7]黎夏, 葉嘉安. 基于神經(jīng)網(wǎng)絡(luò)的單元自動(dòng)機(jī)CA及真實(shí)和優(yōu)化的城市模擬[J]. 地理學(xué)報(bào),2002,57(2): 159-166.
LIE X,YEH A G-O. Neural-network-based cellular automata for realistic and idealized urban simulation[J]. Acta Geographica Sinica, 2002,57(2): 159-166.
[8]ZHAO Y, MURAYAMA Y. A new method to model neighborhood interaction in cellular automata-based urban geosimulation[J]. Lecture Notes in Computer Science, 2007, 4488: 550-557.
[9]LI X, YEH A G-O. Data mining of cellular automata’s transition rules[J]. International Journal of Geographical Information Science, 2004, 18(8): 723-744.
[10]黎夏, 葉嘉安. 知識(shí)發(fā)現(xiàn)及地理元胞自動(dòng)機(jī)[J]. 中國(guó)科學(xué):D輯, 2004, 34(9): 865-872.
[11]黎夏, 葉嘉安. 基于神經(jīng)網(wǎng)絡(luò)的元胞自動(dòng)機(jī)及模擬復(fù)雜土地利用系統(tǒng)[J].地理研究, 2005, 24(1): 19-27.
LI X, YIE A G-O. Cellular automata for simulating complex land use systems using neural networks[J]. Geographical Research, 2005, 24(1): 19-27.
[12]楊青生, 黎夏. 基于支持向量機(jī)的元胞自動(dòng)機(jī)及土地利用變化模擬[J].遙感學(xué)報(bào), 2007, 10(6): 836-846.
YANG Q S, LI X. Cellular automata for simulating land use changes based on support vector machine[J]. Journal of Remote Sensing, 2006, 10(6): 836.
[13]陳沛玲, 決策樹分類算法優(yōu)化研究[D]. 長(zhǎng)沙:中南大學(xué), 2007:5.
[14]樊為民. 基于遺傳算法的神經(jīng)網(wǎng)絡(luò)算法研究[J]. 太原師范學(xué)院學(xué)報(bào)(自然科學(xué)版), 2005, 3(4): 14.
[15]季桂樹,陳沛玲,宋航.決策樹分類算法研究綜述[J].科技廣場(chǎng),2007(1):9-12.
JI G S,CHEN P L,SONG H. Study the survey into the decision tree classification algorithms rule[J].Science Mosaic,2007(1):9-12.
[16]張春霞,張講社.選擇性集成學(xué)習(xí)算法綜述[J].計(jì)算機(jī)學(xué)報(bào),2011,34(8):1400.
ZHANG C X,ZHANG J S. A survey of selective ensemble learning algorithms[J]. Chinese Journal of Computers,2011,34(8):1400.
[17]沈?qū)W華,周志華,吳建鑫,等.Boosting 和 Bagging 綜述[J].計(jì)算機(jī)工程與應(yīng)用,2000,36(12):32.
SHEN X H, ZHOU Z H, WU J X, et al. Survey of boosting and bagging[J]. Computer Engineering and Application,2000,36(12):32.
[18]LI X, LIU Y, LIU X, et al. Knowledge transfer and adaptation for land-use simulation with a logistic cellular automaton[J]. International Journal of Geographical Information Science, 2013,27(10):1829-1848.
[19]HO T K. The random subspace method for constructing decision forests[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 1998,20(8):832-844.
[20]劉艷麗,隨機(jī)森林綜述[D].天津:南開大學(xué),2008:15.
[21]方匡南,吳見彬,朱建平,等.隨機(jī)森林方法研究綜述[J].統(tǒng)計(jì)與信息論壇,2012,26(3):34.
[22]丁雍,李小霞.基于Adaboost和CART結(jié)合的優(yōu)化分類算法[J].微型機(jī)與應(yīng)用,2011,30(23):46.
DING Y,LI X X. Optimization of classification based on combination of Adaboost and CART algorithm[J]. Microcomputer & Its Applications,2011,30(23):46.
【中文責(zé)編:莊曉瓊英文責(zé)編:肖菁】
Urban Geosimulation Based on Ensemble Learning and Cellular Automata
ZHANG Ruihao1,2, ZHAO Yaolong1,2*, WU Zhigang3, LUO Wenfei1,2
(1. School of Geography, South China Normal University, Guangzhou 510631, China;2. Center for Smart Land and Environmental Research, South China Normal University, Guangzhou 510631, China;3. Center for Regional and Urban Development Research, South China Normal University, Guangzhou 510631, China)
Abstract:In order to alleviate the limitation of obtaining transformation rules in GIS using cellular automata, a cellular automata based on ensemble learning is proposed for simulating urban dynamic geosimulation. Decision tree is used as weak classifier in the ensemble learning and cellular automata to simulate the urban spatio-temporal dynamics in Dongguan from 2001 to 2005. The accuracy results show that the simulation of ensemble learning is better than using decision tree alone for urban dynamic geosimulation. The new method can obtain better generalization ability.
Key words:ensemble learning; cellular automata; urban geosimulation; decision tree
收稿日期:2014-11-05《華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》網(wǎng)址:http://journal.scnu.edu.cn/n
基金項(xiàng)目:“十二五”國(guó)家科技支撐計(jì)劃課題(2012BAJ22B06)
*通訊作者:趙耀龍,教授, Email: yaolong@scnu.edu.cn.
中圖分類號(hào):P209;TU984
文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1000-5463(2016)01-0101-07