黃士琛,邵春福,王晟由
(北京交通大學(xué) 交通運(yùn)輸學(xué)院,北京 100044)
城市蔓延是區(qū)域在城市化進(jìn)程中產(chǎn)生的無序擴(kuò)展現(xiàn)象,影響了區(qū)域的可持續(xù)發(fā)展,從而引發(fā)各領(lǐng)域?qū)W者的廣泛關(guān)注.人口增長、交通發(fā)展與城市蔓延之間具有密不可分的關(guān)系[1].文獻(xiàn)[2]認(rèn)為道路建設(shè)里程的增加雖然促進(jìn)了經(jīng)濟(jì)發(fā)展,但同時(shí)作為催化劑引發(fā)了交通擁堵和城市蔓延.文獻(xiàn)[3]發(fā)現(xiàn)道路網(wǎng)絡(luò)的擴(kuò)展會(huì)導(dǎo)致城市人口密度降低,中國城市環(huán)路的綜合效應(yīng)引起25%的居民從中心區(qū)向周邊地區(qū)遷移. 文獻(xiàn)[4]經(jīng)過分析得出道路網(wǎng)密度是影響城市機(jī)動(dòng)車出行與網(wǎng)絡(luò)分析的重要指標(biāo).以上研究均表明城市蔓延和道路網(wǎng)之間具有相互演化規(guī)律.近年來,隨著電子數(shù)據(jù)收集存儲(chǔ)技術(shù)的不斷成熟,連續(xù)數(shù)年紀(jì)錄的公開土地覆蓋和道路數(shù)據(jù)不斷涌現(xiàn),為人口、土地類型變化和道路網(wǎng)密度相互作用的研究提供了數(shù)據(jù)支撐.在研究交通與城市蔓延問題時(shí),目前在兩方面仍存在瓶頸,即如何將土地覆蓋和道路等多源數(shù)據(jù)進(jìn)行融合以及如何構(gòu)建并標(biāo)定可靠的預(yù)測模型,對城市蔓延與道路網(wǎng)時(shí)序下的演化規(guī)律進(jìn)行解釋.
深度學(xué)習(xí)作為大數(shù)據(jù)分析的關(guān)鍵技術(shù),由于其準(zhǔn)確率高,在圖像與語音識別等領(lǐng)域取得重大成果,文獻(xiàn)[5]在ImageNet數(shù)據(jù)集上訓(xùn)練了7層的CNN用于圖片分類并取得較高精度.LSTM在自然語言處理、語音處理等時(shí)間序列方面展現(xiàn)了較強(qiáng)的競爭力. 文獻(xiàn)[6]為加快收斂過程,降低調(diào)參難度,發(fā)明了批量標(biāo)準(zhǔn)化層. 文獻(xiàn)[7]利用深度信念網(wǎng)絡(luò)DBN進(jìn)行短時(shí)交通流預(yù)測,通過交通流量的特征進(jìn)行無監(jiān)督學(xué)習(xí),而后完成流量預(yù)測任務(wù).文獻(xiàn)[8]構(gòu)建了STGCN模型,在短時(shí)交通流預(yù)測方面運(yùn)用圖卷積神經(jīng)網(wǎng)絡(luò),在多種尺度下的交通網(wǎng)絡(luò)數(shù)據(jù)集上得到較高精度.文獻(xiàn)[9]提出STLSTM-PDP深度學(xué)習(xí)模型,成功用于民航客運(yùn)需求與出租車客運(yùn)需求預(yù)測,結(jié)果表明該模型優(yōu)于現(xiàn)有預(yù)測方法.文獻(xiàn)[10]將共享汽車的OD點(diǎn)作為輸入,使用深度學(xué)習(xí)模型來預(yù)測共享汽車的需求.文獻(xiàn)[11-12]將CNN運(yùn)用在民航需求預(yù)測任務(wù)并取得了較高精度. 文獻(xiàn)[13-14]將深度強(qiáng)化學(xué)習(xí)和DQN算法用于交通信號燈控制領(lǐng)域,即神經(jīng)網(wǎng)絡(luò)在得到信號燈與環(huán)境互動(dòng)產(chǎn)生的獎(jiǎng)勵(lì)后,不斷更新參數(shù)使更多機(jī)動(dòng)車安全通過交叉口.文獻(xiàn)[15]使用BiConvLstm模型檢測視頻中的暴力行為.文獻(xiàn)[16]將卷積層結(jié)構(gòu)代替長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)中的全連接層,設(shè)計(jì)了卷積長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)進(jìn)行降雨量的預(yù)測.綜合分析可知,目前道路網(wǎng)密度演變機(jī)理的研究較少,還沒有對CNN和LSTM在道路網(wǎng)密度辨識與預(yù)測方面的適用性進(jìn)行研究.
為研究大數(shù)據(jù)背景下的交通與城市蔓延之間的演化機(jī)理問題,采用深度學(xué)習(xí)中的關(guān)鍵技術(shù),綜合考慮人口、交通與城市蔓延的關(guān)系,對城市蔓延步伐和交通基礎(chǔ)設(shè)施建設(shè)進(jìn)度進(jìn)行調(diào)控. 本文作者嘗試將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)和長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory,LSTM)等方法運(yùn)用于道路與城市蔓延問題.本文的創(chuàng)新之處在于,設(shè)計(jì)基于區(qū)塊的多源數(shù)據(jù)集融合方法與流程,將用地覆蓋、人口和道路網(wǎng)絡(luò)三種數(shù)據(jù)集融合成為時(shí)空數(shù)據(jù)集.在此基礎(chǔ)上,構(gòu)建融合時(shí)空數(shù)據(jù)的BiConvlstm2DNet深度學(xué)習(xí)模型,采用時(shí)間標(biāo)簽下的土地覆蓋數(shù)據(jù)和人口數(shù)量表征城市蔓延過程,對未來年的道路網(wǎng)密度進(jìn)行預(yù)測.研究可使規(guī)劃者精細(xì)掌握城市蔓延和交通指標(biāo)之間的演化規(guī)律,形成更為協(xié)調(diào)的道路建設(shè)進(jìn)程,對防止城市過度蔓延具有重要的理論支撐和數(shù)據(jù)參考作用.
在收集多源數(shù)據(jù)的基礎(chǔ)上,如圖1中的基于區(qū)塊的數(shù)據(jù)融合部分所示,本文通過區(qū)塊確定和分割得到不同年份土地覆蓋及人口融合數(shù)據(jù).
為了驗(yàn)證本文提出的處理時(shí)空序列數(shù)據(jù)的BiConvlstm2DNet模型,采集了深圳市的相關(guān)數(shù)據(jù).其中數(shù)據(jù)分為網(wǎng)格化的土地覆蓋數(shù)據(jù)集[17]、世界網(wǎng)格化的人口數(shù)據(jù)集(GPWv4)[18]和Openstreetmap[19](OSM)道路網(wǎng)開源數(shù)據(jù)集,其中土地覆蓋數(shù)據(jù)集為2008年、2011年和2013年,GPWv4數(shù)據(jù)集的時(shí)間跨度為2000—2020年每隔5年,OSM路網(wǎng)結(jié)構(gòu)數(shù)據(jù)集的時(shí)間跨度為2008—2019年每隔1年.土地覆蓋、人口和道路網(wǎng)密度,三者共同組成本文的實(shí)驗(yàn)數(shù)據(jù),詳細(xì)信息如表1所示.
土地覆蓋數(shù)據(jù)集通過landsat5和landsat8采集了1988—2015年精度為30 m的遙感圖像,而后使用C4.5決策樹提升算法將遙感圖像分割為森林、草地、耕地、高反射率建成區(qū)、地反射率建成區(qū)、空地和水體,形成了深圳市土地覆蓋數(shù)據(jù)集.
GPWv4通過采集人口調(diào)查數(shù)據(jù),聯(lián)合國人口估計(jì)數(shù)據(jù)等,構(gòu)建了2000、2005、2010、2015和2020年全球網(wǎng)格化的人口數(shù)據(jù)集,采用比例分配網(wǎng)格算法并結(jié)合聯(lián)合國人口數(shù)據(jù)進(jìn)行調(diào)整,將人口數(shù)量分至30弧秒(赤道約1 km)的網(wǎng)格單元.
OSM數(shù)據(jù)集的結(jié)構(gòu)由點(diǎn)、邊、關(guān)系和標(biāo)簽組成,具有數(shù)據(jù)來源豐富,容易獲取,接口開放等優(yōu)點(diǎn),本文通過OSM提取切分網(wǎng)格化的路網(wǎng)結(jié)構(gòu),而后根據(jù)數(shù)據(jù)集需求計(jì)算道路網(wǎng)密度.
圖1 基于區(qū)塊多源數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)模型構(gòu)造過程Fig.1 Construction process of neural network model based on blockbased multi-source data
表1 多源數(shù)據(jù)集的詳細(xì)信息
空間數(shù)據(jù)集需將同一地區(qū)不同來源的專題數(shù)據(jù),采用不同的方法進(jìn)行重組,補(bǔ)充要素屬性的同時(shí)改進(jìn)其精度,調(diào)整多源數(shù)據(jù)在不同尺度和要素粒度下的差異.本文根據(jù)來源不同的3種數(shù)據(jù)源進(jìn)行清洗融合,制作成適合本文的數(shù)據(jù)集.研究分析3個(gè)數(shù)據(jù)集的時(shí)間跨度,以土地覆蓋數(shù)據(jù)集的2008年、2011年和2013年為基礎(chǔ)劃分區(qū)塊,并根據(jù)GPWv4以插值的方法計(jì)算區(qū)塊在對應(yīng)年份的人口數(shù)量,最后通過OSM提取2015年的深圳市道路網(wǎng)絡(luò)結(jié)構(gòu)并計(jì)算對應(yīng)區(qū)塊的道路網(wǎng)密度.
圖2 多源數(shù)據(jù)集數(shù)據(jù)融合流程Fig.2 Data fusion process for multi-source dataset
如圖1中的道路網(wǎng)密度預(yù)測部分所示,本文提出了BiConvlstm2DNet模型.模型以LSTM為基礎(chǔ),為構(gòu)建空間結(jié)構(gòu)關(guān)聯(lián)性,加入卷積層設(shè)計(jì)了BiConvlstm2D模塊,并將該模塊與其他神經(jīng)網(wǎng)絡(luò)組件相結(jié)合得到BiConvlstm2DNet模型.
1)全連接層.
全連接層(Dense)是傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)中的隱含層,隱含層接收上一層輸出的特征,并通過矩陣運(yùn)算和非線性函數(shù)映射后的結(jié)果輸出給下一層,同一層的單元之間無連接.對于全連接層的輸入x∈Rn,根據(jù)式(1)實(shí)現(xiàn)全連接層:
z=σ(W*xΤ+b)
(1)
式中:W∈Rm×n;b∈Rm;z∈Rm;σ是非線性激活函數(shù),全連接層是一個(gè)經(jīng)典的神經(jīng)網(wǎng)絡(luò)模型.
2)卷積神經(jīng)網(wǎng)絡(luò).
CNN設(shè)計(jì)了權(quán)重共享的卷積核,通過中、低層的卷積核提取圖像的簡單特征,深層卷積核整合低層卷積核的輸出提取更加復(fù)雜的特征.本文設(shè)定卷積核的大小為3*3,每個(gè)CNN使用非線性函數(shù)Relu作為激活函數(shù).最后為防止過擬合在卷積層后增加Dropout層,設(shè)定百分比r,訓(xùn)練時(shí)隨機(jī)忽略r的節(jié)點(diǎn),增強(qiáng)模型泛化性,測試時(shí)則使用全部節(jié)點(diǎn).
3)長短時(shí)記憶神經(jīng)網(wǎng)絡(luò).
LSTM設(shè)計(jì)了輸入門i,遺忘門f和輸出門o共3個(gè)門函數(shù),用于更新整個(gè)單元的狀態(tài),為保證特征的留存和傳遞,LSTM將t時(shí)刻的xt和t-1時(shí)刻的狀態(tài)ht-1經(jīng)過全連接層的映射后,輸入到3個(gè)門函數(shù)進(jìn)行運(yùn)算,而后得到t時(shí)刻的輸出ot、狀態(tài)ht和ct,如下
it=σ(Wxixt+Whiht-1+bi)
(2)
ft=σ(Wxfxt+Whfht-1+bf)
(3)
ot=σ(Wxoxt+Whoht-1+bo)
(4)
ct=ft?ct-1+it?
tanh(Wxcxt+Whcht-1+bc)
(5)
ht=ot?tanh(ct)
(6)
式中:Wxi,Whi和bi分別為輸入門i中用于訓(xùn)練的參數(shù);Wxf,Whf和bf分別為遺忘門f中用于訓(xùn)練的參數(shù);Wxo,Who和bo分別為遺忘門o中用于訓(xùn)練的參數(shù);Wxc,Whc和bc分別為狀態(tài)函數(shù)c中用于訓(xùn)練的參數(shù);?代表Hadamard積.
4)卷積長短時(shí)記憶神經(jīng)網(wǎng)絡(luò).
Convlstm2D以LSTM為基底,將輸入到隱藏與隱藏到隱藏的映射函數(shù)從全連接層改為卷積層,減少了參數(shù)數(shù)量的同時(shí)獲得了更好的泛化性.同時(shí)為取得更優(yōu)的訓(xùn)練及測試效果,本文在Convlstm2D層后均接入批量標(biāo)準(zhǔn)化層.向模型輸入的xt,ct和ht-1均是三維張量,基于Convlstm2D映射后輸出的it,ft和ht也是三維張量.Convlstm2D使用卷積層提取輸入數(shù)據(jù)的空間特征,而后結(jié)合LSTM結(jié)構(gòu)將數(shù)據(jù)整合過濾,Convlstm2D卷積式見式(2)~式(6)所示,只需將?運(yùn)算替換成卷積層即可.
當(dāng)輸入數(shù)據(jù)為2維的空間數(shù)據(jù)時(shí),為適應(yīng)LSTM結(jié)構(gòu),迫使數(shù)據(jù)維度從2拉伸成1從而喪失了空間上的關(guān)聯(lián).因此本文選用Convlstm2D網(wǎng)絡(luò),使模型既能提取數(shù)據(jù)的空間特征,也保證神經(jīng)網(wǎng)絡(luò)具有一定的記憶能力.此外,單向的LSTM只考慮了時(shí)序數(shù)據(jù)的“順序”流動(dòng)而沒有考慮“逆序”流動(dòng),如同在交通規(guī)劃中規(guī)劃者不僅需要考慮道路基礎(chǔ)設(shè)施的建設(shè)能力,也需要回顧目前政策下的發(fā)展慣性.因此如圖3所示的BiConvlstm2D模塊,引入了雙向(Bidirectional)循環(huán)神經(jīng)網(wǎng)絡(luò)規(guī)則,將時(shí)間-空間序列數(shù)據(jù)以序列起點(diǎn)至終點(diǎn)的順序采用Convlstm2D提取特征,也反方向地,即序列末尾至起點(diǎn)的順序提取特征.BiConvlstm2D雙向提取序列數(shù)據(jù)的特征,考慮城市發(fā)展能力的同時(shí)還考慮現(xiàn)有政策對城市發(fā)展的“態(tài)度”.
(7)
圖3 BiConvlstm2DNet神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu) Fig.3 BiConvlstm2DNet neural network structure
根據(jù)BiConvlstm2D模塊和其他模塊搭建BiConvlstm2DNet模型,圖3為BiConvlstm2DNet的核心組件.模型輸入為[ti,ti+1,…,ti+k]時(shí)刻的土地覆蓋特征和人口數(shù)量,其中k為時(shí)間窗口,利用模型預(yù)測i+k+1時(shí)刻的道路網(wǎng)密度.模型由多個(gè)BiConvlstm2D層、池化層、標(biāo)準(zhǔn)化層和全連接層堆疊形成,詳見表2.表2中,ksize表示卷積核大小,knum表示卷積核數(shù)量,dnum表示全連接層單元數(shù)量.BiConvlstm2DNet模型以[k, 64, 64, 3]張量作為輸入,經(jīng)過2個(gè)BiConvlstm2D層,標(biāo)準(zhǔn)化層Normalization,并輔以Dropout層避免過擬合,而后經(jīng)過兩個(gè)全連接層抽象特征,最后接入線性激活函數(shù)Linear進(jìn)行回歸預(yù)測,其中初始化使用Glorot正態(tài)分布初始化,偏置初始化至標(biāo)量0.
單張融合人口數(shù)量后的用地覆蓋數(shù)據(jù)被抽象為64*64*1的矩陣,本文通過圖4來描述數(shù)據(jù)是以何種尺寸在模型中流動(dòng).根據(jù)表2和圖4可以知道,卷積層使用卷積核提取與卷積核個(gè)數(shù)相等的特征(64*64*1-64*64*8),而后通過池化層壓縮特征維度(64*64*8-32*32*8),LSTM不影響輸入的尺寸,只用于處理時(shí)間序列下的用地覆蓋特征(圖4描述單張用地覆蓋數(shù)據(jù)的尺寸轉(zhuǎn)換).數(shù)據(jù)在經(jīng)過兩個(gè)BiConvlstm2D模塊的映射后,將數(shù)據(jù)接入兩個(gè)全連接層,將數(shù)據(jù)從4096(16*16*16)降維到256和64,最后連接線性輸出給出模型的結(jié)果.
表2 BiConvlstm2DNet網(wǎng)絡(luò)結(jié)構(gòu)Tab.2 BiConvlstm2DNet network structure
圖4 用地覆蓋數(shù)據(jù)在 BiConvlstm2DNet中的尺寸變化Fig.4 Dimensional changes of land cover data in BiConvlstm2DNet
BiConvlstm2DNet模型基于Tensorflow和Keras實(shí)現(xiàn),兩者集成了現(xiàn)今流行的深度學(xué)習(xí)框架,本文在英特爾酷睿i7年7700HQ,32GB內(nèi)存和NVIDA GeForce GTX 1060的計(jì)算機(jī)上實(shí)驗(yàn).BiConvlstm2DNet模型采用均方誤差MSE作為損失函數(shù)L用以標(biāo)定模型參數(shù),如下
(8)
神經(jīng)網(wǎng)絡(luò)利用反向傳播方法計(jì)算梯度更新神經(jīng)網(wǎng)絡(luò)的參數(shù),本文使用隨機(jī)梯度下降法(Stochastic Gradient Descent,SGD)優(yōu)化神經(jīng)網(wǎng)絡(luò).為綜合考量模型的可靠性和準(zhǔn)確性,本文選取平均百分比誤差MAPE和平均絕對誤差MAE兩個(gè)指標(biāo)進(jìn)行度量,指標(biāo)衡量預(yù)測值偏離真實(shí)值的誤差,如下
(9)
(10)
式中:MAPE誤差代表預(yù)測值和觀測值之間的相對偏離程度;MAE誤差表示所有測試樣本的預(yù)測的實(shí)際誤差,兩者均為越小表示模型越精確.
在機(jī)器學(xué)習(xí)預(yù)測實(shí)驗(yàn)中,模型的精度不僅受模型結(jié)構(gòu)設(shè)計(jì)的影響,還與超參數(shù)的選擇密切相關(guān).如果BiConvlstm2DNet模型的超參數(shù)設(shè)置不當(dāng),致使精度低于預(yù)期,嚴(yán)重時(shí)會(huì)使模型失效,而研究工作中并沒有明確建議,本文通過網(wǎng)格搜索比選超參數(shù).訓(xùn)練集損失值隨迭代次數(shù)的變化曲線如圖5所示.
圖5 BiConvlstm2DNet不同超參數(shù)下 模型訓(xùn)練損失值Fig.5 Model training loss of BiConvlstm2DNet under different hyperparameters
本文采用隨機(jī)梯度下降法,動(dòng)量設(shè)定為0.99[20],迭代次數(shù)epochs為200,測試了學(xué)習(xí)率、批處理大小在訓(xùn)練過程中的損失值.由圖5可知,訓(xùn)練開始損失值較高,迭代次數(shù)在40次之前均有起伏,其中學(xué)習(xí)率為0.000 05的模型損失值下降較快且平穩(wěn),模型在迭代次數(shù)100次以后基本收斂,說明了模型的有效性,而學(xué)習(xí)率為0.000 05且批處理大小為16和32時(shí)收斂速度和效果俱佳.
為對比本文提出的BiConvlstm2DNet模型,選用三種模型進(jìn)行比對,其中支持向量回歸和隨機(jī)森林回歸是比較經(jīng)典的機(jī)器學(xué)習(xí)算法,Convlstm2D模型超參數(shù)設(shè)定同BiConvlstm2DNet模型一致.
表3 四種機(jī)器學(xué)習(xí)算法在多源數(shù)據(jù)集上 效果指標(biāo)對比Tab.3 Metrics comparisons of 4 machine learning algorithms on multi-source dataset
由表3可知,4種機(jī)器學(xué)習(xí)算法在測試集上的結(jié)果表明,隨機(jī)森林回歸誤差最大,本文提出的BiConvlstm2DNet模型誤差最小,MAPE為8.5%.由于支持向量回歸和隨機(jī)森林回歸沒有提取空間特征,兩種算法的誤差較高,Convlstm2D和BiConvlstm2DNet的卷積層對空間信息進(jìn)行留存和提煉,進(jìn)而提升了模型精度.BiConvlstm2DNet在加入了前向和逆向單元后,相比Convlstm2D模型,MAPE降低了6.4%,模型精度提升明顯.
為分析模型在不同道路網(wǎng)密度下的預(yù)測性能和精度,將不同道路網(wǎng)密度的地塊分成為5類后計(jì)算平均百分比誤差MAPE,該值越低則說明模型的準(zhǔn)確度越高. 如表4所示.
表4 BiConvlstm2DNet模型在不同類型 區(qū)塊上的準(zhǔn)確度對比Tab.4 Accuracy comparison of BiConvlstm2DNet model on different types of blocks
道路網(wǎng)密度為3 km/km2以下和12 km/km2以上的樣本數(shù)量較少,模型在測試道路網(wǎng)密度在3 km/km2的地塊時(shí)的準(zhǔn)確度最低,在6~9 km/km2的精度最高.相較于表3中測試集下BiConvlstm2DNet模型8.5%的MAPE,模型對道路網(wǎng)密度6 km/km2以下地塊的MAPE較全測試集高1.3%,而對6 km/km2以上的地塊則低0.93%,說明模型對道路網(wǎng)密度較高區(qū)塊的預(yù)測精度高于密度較低的新建項(xiàng)目區(qū)塊.
為使城市規(guī)模擴(kuò)大、人口增長與道路網(wǎng)建設(shè)相輔相成,緩解城市蔓延對自然環(huán)境和居民出行的影響,
1)提出了含土地覆蓋、人口和道路網(wǎng)數(shù)據(jù)的時(shí)空多源數(shù)據(jù)融合流程,構(gòu)建了與時(shí)空數(shù)據(jù)相適應(yīng)的BiConvlstm2DNet模型,解決了區(qū)塊化時(shí)空多源數(shù)據(jù)下的道路網(wǎng)密度預(yù)測問題.
2)在深圳市時(shí)空數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)后,BiConvlstm2DNet模型在測試集中取得8.5%的平均百分比誤差,優(yōu)于支持向量回歸、隨機(jī)森林和Convlstm2D預(yù)測模型.
3)所提出模型在時(shí)空數(shù)據(jù)預(yù)測方面能夠展現(xiàn)優(yōu)勢,為宏觀指標(biāo)提供可靠的數(shù)據(jù)支撐,幫助協(xié)調(diào)發(fā)展土地利用規(guī)劃和交通規(guī)劃,具有一定應(yīng)用前景.
由于土地覆蓋數(shù)據(jù)的采集范圍受限,后續(xù)將對土地覆蓋數(shù)據(jù)集進(jìn)行豐富,對新建項(xiàng)目地塊或土地覆蓋類型變化劇烈地塊的未來年道路網(wǎng)密度進(jìn)行預(yù)測,進(jìn)一步擴(kuò)展本方法的應(yīng)用場景.