楊 鑫,楊宜來(lái),胡克勇
(青島理工大學(xué)信息與控制工程學(xué)院,山東 青島 266525)
城市功能區(qū)分類研究不僅對(duì)城市規(guī)劃與管理具有十分重要的意義,還可為人類生活、工作和交通等提供便利[1]?,F(xiàn)有城市功能區(qū)分類方法主要可分為:基于指標(biāo)值閾值劃定的方法、基于非監(jiān)督的聚類方法和基于監(jiān)督分類的方法[2-3]?;谥笜?biāo)閾值劃定的方法受主觀因素的影響較大,監(jiān)督分類和非監(jiān)督分類方法以數(shù)據(jù)為基礎(chǔ),分類結(jié)果相對(duì)客觀。非監(jiān)督分類方法實(shí)現(xiàn)簡(jiǎn)單,但分類結(jié)果準(zhǔn)確性相對(duì)較低。監(jiān)督分類法可從訓(xùn)練樣本中獲取先驗(yàn)知識(shí)以提高分類準(zhǔn)確性,且訓(xùn)練樣本越多,訓(xùn)練得到的模型也越準(zhǔn)確。然而實(shí)際應(yīng)用中,功能區(qū)訓(xùn)練樣本數(shù)據(jù)通常較難獲取,區(qū)域內(nèi)主要功能的判斷需要行業(yè)專家的專業(yè)知識(shí)及對(duì)城市深入地熟悉與了解。如何使用較少的訓(xùn)練樣本來(lái)獲取性能較好的分類器是分類方法選擇要考慮的重要問題。
本研究提出采用POI數(shù)據(jù)和主動(dòng)學(xué)習(xí)算法實(shí)現(xiàn)城市功能區(qū)分類。POI是電子地圖上代表地理實(shí)體的點(diǎn)數(shù)據(jù),具有易獲取、數(shù)據(jù)覆蓋面全、數(shù)據(jù)完整性高的特點(diǎn)[4]。主動(dòng)學(xué)習(xí)是一種半監(jiān)督分類法,其核心任務(wù)是確定選擇訓(xùn)練樣本的標(biāo)準(zhǔn),從而選擇盡可能少的樣本進(jìn)行標(biāo)記來(lái)訓(xùn)練出一個(gè)好的學(xué)習(xí)模型,相對(duì)于監(jiān)督分類方法,主動(dòng)學(xué)習(xí)顯著降低了訓(xùn)練樣本收集的成本,該方法的應(yīng)用有助于快速準(zhǔn)確實(shí)現(xiàn)城市功能區(qū)分類。
選擇北京市朝陽(yáng)區(qū)作為典型研究區(qū)。朝陽(yáng)區(qū)是北京市主城六區(qū)之一,西與東城區(qū)、豐臺(tái)區(qū)、海淀區(qū)相毗鄰,北連昌平區(qū)、順義區(qū),東與通州區(qū)接壤,南與大興區(qū)相鄰;朝陽(yáng)區(qū)是北京市轄區(qū)內(nèi)人口較多的一個(gè)區(qū),工業(yè)發(fā)達(dá),外交活動(dòng)頻繁,在經(jīng)濟(jì)、居住、教育等方面均有較強(qiáng)代表性,基礎(chǔ)服務(wù)設(shè)施完善,區(qū)域功能齊全且分化明顯。
研究采用街區(qū)作為城市功能區(qū)的空間尺度。當(dāng)前常用的城市功能區(qū)空間劃分方法包括:街區(qū)(又稱交通分析小區(qū),Traffic Analysis Zone,TAZ)和不同空間尺度的格網(wǎng)[5]。格網(wǎng)常用于大致表征城市功能區(qū)的分布趨勢(shì),無(wú)法準(zhǔn)確描述城市功能區(qū);TAZ是由不同等級(jí)的道路連接、交叉形成的區(qū)域,區(qū)域內(nèi)的功能相對(duì)比較完整。本文采用不同等級(jí)的道路將朝陽(yáng)區(qū)劃分為741個(gè)TAZ,如圖1(a)所示。
圖1 北京市朝陽(yáng)區(qū)街區(qū)及POI分布圖
本研究所使用的POI數(shù)據(jù)通過百度地圖API下載,共計(jì)90767條(見圖1(b)),屬性字段包括名稱、類別、經(jīng)緯度坐標(biāo)。結(jié)合土地利用規(guī)劃數(shù)據(jù)、POI、高空間分辨率遙感影像等數(shù)據(jù),本研究對(duì)朝陽(yáng)區(qū)所有TAZ的城市功能類型進(jìn)行了人工識(shí)別,結(jié)果如圖2所示,功能區(qū)類型包括:農(nóng)地、休閑娛樂區(qū)、城中村、就業(yè)區(qū)、居住區(qū)、就業(yè)居住混合區(qū)。
圖2 人工功能區(qū)識(shí)別結(jié)果
POI代表的地理實(shí)體或社會(huì)經(jīng)濟(jì)組織機(jī)構(gòu)涵蓋人們?nèi)粘I畹姆椒矫婷妫揖哂性敿?xì)的三級(jí)分類體系。根據(jù)POI類型與城市功能區(qū)類型的相關(guān)性及對(duì)城市功能區(qū)類型的影響作用,選擇與城市功能區(qū)類型相關(guān)性較大的POI類別構(gòu)建了城市功能區(qū)分類的指標(biāo)體系,見表1。
表1 街區(qū)功能分類指標(biāo)體系
表1中所有指標(biāo)的計(jì)算方法如下:
(1)指標(biāo) A1~A6。計(jì)算該類指標(biāo)首先需對(duì)街區(qū)內(nèi)該類型的全部POI進(jìn)行計(jì)數(shù),計(jì)算過程:采用ArcGIS軟件的Spatial Join功能,選擇街區(qū)圖層作為目標(biāo)圖層,連接需計(jì)算的POI類型數(shù)據(jù)到目標(biāo)圖層,即可在目標(biāo)圖層的屬性表中得到街區(qū)內(nèi)的POI計(jì)數(shù)。如果計(jì)數(shù)值大于0,則指標(biāo)值為1,否則指標(biāo)值為0。
(2)指標(biāo)A7~A9。計(jì)算該類指標(biāo)的過程如下:采用ArcGIS軟件的Euclidean Distance 功能,輸入需計(jì)算的POI數(shù)據(jù)和街區(qū)圖層數(shù)據(jù),即可計(jì)算得到街區(qū)內(nèi)每個(gè)位置至與其最近的POI的距離;然后使用ArcGIS軟件的Zonal Statistic功能即可計(jì)算得到街區(qū)內(nèi)各位置距離值的平均值。
(3)指標(biāo) A10~A11。該類指標(biāo)的計(jì)算過程為:采用ArcGIS軟件的Spatial Join 功能,選擇街區(qū)圖層作為目標(biāo)圖層,連接需計(jì)算的POI類型數(shù)據(jù)到目標(biāo)圖層,即可在目標(biāo)圖層的屬性表中得到街區(qū)內(nèi)的POI計(jì)數(shù),然后使用ArcGIS軟件屬性表管理中的Field Calculator功能計(jì)算街區(qū)內(nèi)POI計(jì)數(shù)與街區(qū)面積的比值得到街區(qū)內(nèi)該類POI的密度。
上述方法計(jì)算得出的不同指標(biāo)之間存在數(shù)量級(jí)差,為消除數(shù)量級(jí)差帶來(lái)的計(jì)算誤差,對(duì)各個(gè)指標(biāo)進(jìn)行了均值標(biāo)準(zhǔn)化處理,由此得到與每個(gè)TAZ對(duì)應(yīng)的11個(gè)指標(biāo)。
2.2.1 算法總體框架
主動(dòng)學(xué)習(xí)算法是一個(gè)迭代的過程,每一次迭代從未分類數(shù)據(jù)集中選擇最有價(jià)值的幾個(gè)樣本交由專家進(jìn)行標(biāo)記,并將這些新標(biāo)記過的樣本加入訓(xùn)練樣本集,模型基于新的訓(xùn)練集進(jìn)行更新,然后利用模型對(duì)未分類數(shù)據(jù)集中的樣本進(jìn)行分類,隨后進(jìn)入下一次迭代[6]。
采用主動(dòng)學(xué)習(xí)算法對(duì)街區(qū)功能進(jìn)行分類,每個(gè)街區(qū)就是一個(gè)待分類樣本。每一次迭代過程中,所有街區(qū)可以分為三個(gè)類別:①已完成功能分類的街區(qū),記為TK;②未完成功能分類的街區(qū),記為TU;③被選中由專家標(biāo)記功能類別的街區(qū),記為TC。分類前TK為空集,TU為空時(shí)迭代終止,分類完成。
主動(dòng)學(xué)習(xí)算法主要包含2個(gè)關(guān)鍵部分:一是抽樣引擎,用于從TU中選擇樣本記入TC;二是分類器,用于根據(jù)現(xiàn)有訓(xùn)練樣本集TK進(jìn)行分類模型訓(xùn)練,完成TU中樣本的分類。由于不同樣本對(duì)于樣本分類的學(xué)習(xí)模型的貢獻(xiàn)度是不一樣的,如果能夠選取一部分最有價(jià)值的街區(qū)標(biāo)記其類型,有可能僅基于少量數(shù)據(jù)就能獲得同樣高效的模型。因此在抽樣引擎中設(shè)計(jì)合理的選擇策略,選擇最有價(jià)值的街區(qū),是主動(dòng)學(xué)習(xí)的關(guān)鍵任務(wù)。
本文設(shè)計(jì)一個(gè)基于密度峰值聚類的抽樣引擎,采用密度峰值聚類方法確定TU中所有街區(qū)的價(jià)值排序,依次選擇最有價(jià)值的街區(qū)記入TC,由專家標(biāo)記其類別記入TK。然后基于該聚類方法的聚類優(yōu)勢(shì)設(shè)計(jì)一個(gè)基于標(biāo)準(zhǔn)投票策略的分類器,逐步完成TU中街區(qū)的分類。以下將詳細(xì)闡述采用基于密度峰值聚類的主動(dòng)學(xué)習(xí)算法實(shí)現(xiàn)街區(qū)分類的方法。
2.2.2 關(guān)鍵參數(shù)計(jì)算
本文采用基于密度峰值聚類的主動(dòng)學(xué)習(xí)算法進(jìn)行街區(qū)分類。密度峰值聚類方法由Rodriguez和Laio于2014年提出[7],該算法的核心思想在于其對(duì)聚類中心的刻畫,作者認(rèn)為聚類中心應(yīng)用同時(shí)具有以下兩個(gè)特點(diǎn):①樣本的“局部密度”大,即它被密度均不超過它的鄰居包圍,②樣本與其它密度更大的樣本之間的“距離”相對(duì)更大。
將朝陽(yáng)區(qū)所有街區(qū)記為集合X={X1,X2, ……,Xn},根據(jù)2.1中街區(qū)功能分類的指標(biāo)體系,每個(gè)街區(qū)具有11個(gè)屬性值,街區(qū)i的屬性值可記為{Ai1,Ai2, ……,Ai11}。
本方法中包含兩個(gè)關(guān)鍵參數(shù):樣本的局部密度ρi和到高密度樣本的最短距離δi。這兩個(gè)參數(shù)的計(jì)算都基于樣本之間的距離dij,該距離采用樣本屬性的歐式距離來(lái)度量,計(jì)算公式為:
(1)
其中,dij為樣本i與樣本j之間的距離,Aik為樣本i的第k個(gè)屬性值。
局部密度表達(dá)的含義為以某一樣本為中心,在某一設(shè)定的距離范圍內(nèi)樣本的個(gè)數(shù)。樣本i的局部密度記為ρi,其計(jì)算公式如下式:
ρi=∑jf(dij-dc)
(2)
ρi表示以樣本i為中心,距離為dc的范圍內(nèi)樣本的數(shù)量;其中dc>0,是需指定的距離,稱為截?cái)嗑嚯x,其值的大小取決于所有樣本間距離的分布;f(x)為一個(gè)判別函數(shù),當(dāng)x≥0時(shí)其值為0,當(dāng)x<0時(shí),其值為1。
樣本i到高密度樣本的最短距離δi的計(jì)算公式如下:
δi=minj:ρj>ρidij
(3)
若樣本i在全部樣本中具有最高的局部密度,δi為樣本i與其最遠(yuǎn)的樣本間的距離,可用計(jì)算公式可表述為:
δi=maxjdij
(4)
對(duì)每個(gè)樣本計(jì)算上述兩個(gè)關(guān)鍵參數(shù)后,所有樣本可表示為式(5)。
(5)
在密度峰值聚類算法中還需要計(jì)算得到一個(gè)重要中間結(jié)果:master樹。其獲取過程為:計(jì)算樣本i到高密度樣本的最短距離δi時(shí),記錄距離樣本i最近的高密度樣本,稱為樣本i的master,具有最高局部密度的樣本的master為空。假定樣本i從屬于其master,然后根據(jù)這種從屬關(guān)系構(gòu)建一個(gè)樹,在這個(gè)樹中,樣本i為其master的子節(jié)點(diǎn),master為空的樣本為根節(jié)點(diǎn),如果存在多個(gè)master為空的節(jié)點(diǎn),創(chuàng)建一個(gè)空節(jié)點(diǎn)作為這些節(jié)點(diǎn)的根節(jié)點(diǎn)。
2.2.3 城市功能區(qū)分類
圖3 聚簇標(biāo)記、分離過程
對(duì)上述分離得到的兩個(gè)新的集合再次調(diào)用主動(dòng)學(xué)習(xí)算法。如圖4所示,對(duì)兩個(gè)新集合分別標(biāo)記后,以樣本6為根節(jié)點(diǎn)的集合已經(jīng)是一個(gè)“純集合”了,所以為這整個(gè)集合內(nèi)的未標(biāo)記樣本分配與樣本6、13、14一致的標(biāo)簽,如圖4(b)中右子樹。而以樣本1為根節(jié)點(diǎn)的集合,再次分配標(biāo)簽后依然是“非純集合”。如果還有標(biāo)簽可供使用,那么重復(fù)分離集合的過程,否則執(zhí)行投票策略,如圖4(b)中左子樹。這里假設(shè)已經(jīng)沒有標(biāo)簽可用了,可見樣本1、4的標(biāo)簽數(shù)量最多,故將樣本1、4的標(biāo)簽分配給該集合內(nèi)剩余未分配標(biāo)簽的樣本。
圖4 “純聚簇”與 “非純聚簇”決策過程
當(dāng)所有樣本都被標(biāo)記時(shí),分類結(jié)束。如果標(biāo)簽用盡還有未被標(biāo)記的樣本,則需要使用投票策略對(duì)其進(jìn)行分類,過程如下。統(tǒng)計(jì)未被全部分類的集合內(nèi)的各個(gè)標(biāo)簽數(shù)量,找出數(shù)量最多的那種標(biāo)簽,將這種標(biāo)簽賦予本集合內(nèi)所有未被標(biāo)記的樣本。至此,整個(gè)功能區(qū)分類過程全部結(jié)束。其算法描述如下。
主動(dòng)學(xué)習(xí)算法:
初始化:輸入全部待分類街區(qū);
計(jì)算ρ和δ,構(gòu)造一個(gè) master樹;
for(k=4; 專家標(biāo)記樣本的數(shù)量小于指定值N,且還存在未分類樣本;k++)do:
基于密度峰值聚類,聚類類別數(shù)為k,依據(jù) master 樹,找到聚類中心和每個(gè)類別中包含的樣本信息,同時(shí)根據(jù)聚類信息將 master 樹分裂為k個(gè)子master樹;
根據(jù)聚類中心和各類別信息,找出本輪循環(huán)的關(guān)鍵樣本;
對(duì)關(guān)鍵樣本的功能類型進(jìn)行標(biāo)記;
for(i=1 tok)do:
if第 i 個(gè) master 樹中的樣本的功能類型沒有完全標(biāo)識(shí) then:
如果該 master 樹中已知類型的樣本數(shù)量大于等于N,且已知類型完全一致,那么按已知樣本類型來(lái)設(shè)置該 master 樹中所有樣本的類型;
end if
end for
end for
if還有樣本未分類 then:
for(i=1;i≤k;i++)do:
如果第i個(gè) master 樹中還存在未分類樣本,則采用標(biāo)準(zhǔn)投票策略決定未分類樣本的類別;
end for
end if
采用基于POI和主動(dòng)學(xué)習(xí)的城市功能區(qū)分類方法,設(shè)置2.2.2中截?cái)嗑嚯xdc的值為3.5,設(shè)定標(biāo)注功能區(qū)個(gè)數(shù)為50(占總功能區(qū)個(gè)數(shù)的6.75%),依據(jù)圖2中的功能區(qū)類型標(biāo)記樣本,完成北京市朝陽(yáng)區(qū)所有街區(qū)分類,分類結(jié)果如圖6所示。對(duì)比圖2和圖5可見,基于本方法實(shí)現(xiàn)的城市功能區(qū)分類結(jié)果與人工識(shí)別結(jié)果較為相似。休閑娛樂區(qū)在整個(gè)朝陽(yáng)區(qū)分布較為均衡;農(nóng)地、城中村主要分布在朝陽(yáng)區(qū)的東部區(qū)域;就業(yè)、居住和就業(yè)居住混合區(qū)主要分布在西部區(qū)域,這與北京市的圈層結(jié)構(gòu)以及朝陽(yáng)區(qū)所處的地理位置密切相關(guān),朝陽(yáng)區(qū)東與通州區(qū)接壤,西則與發(fā)展更為成熟的東城、豐臺(tái)、海淀相毗鄰。
圖5 功能區(qū)識(shí)別結(jié)果
為分析采用基于POI和主動(dòng)學(xué)習(xí)的城市功能區(qū)分類方法進(jìn)行北京市朝陽(yáng)區(qū)城市功能區(qū)分類結(jié)果的準(zhǔn)確性,首先本文選擇了幾個(gè)區(qū)域,將識(shí)別結(jié)果與百度地圖和百度衛(wèi)星地圖進(jìn)行了對(duì)比分析,見圖6。區(qū)域A為國(guó)家體育館(鳥巢)附近的幾個(gè)街區(qū),結(jié)合百度地圖和百度衛(wèi)星地圖,可以看到(1)區(qū)域A左側(cè)為國(guó)家森林公園,本方法的識(shí)別結(jié)果為休閑娛樂區(qū);(2)區(qū)域A右側(cè)的街區(qū)內(nèi)均包含了居住小區(qū)、商業(yè)大廈、幼兒園、中小學(xué),居住就業(yè)功能都非常成熟,本方法的識(shí)別結(jié)果為就業(yè)居住混合區(qū)??梢?,區(qū)域A內(nèi)城市功能區(qū)識(shí)別情況與實(shí)際相符。區(qū)域B為古塔公園附近的幾個(gè)街區(qū),從該區(qū)域的百度地圖和百度衛(wèi)星地圖可以看出該區(qū)域內(nèi)功能類型復(fù)合多樣,結(jié)合地圖:(1)識(shí)別結(jié)果中被識(shí)別為休閑娛樂區(qū)的兩個(gè)街區(qū)分別是北京CBD國(guó)際高爾夫球會(huì)和古塔公園;(2)識(shí)別結(jié)果中被識(shí)別為居住區(qū)的街區(qū)是觀音惠園和北京安德魯斯莊園這兩個(gè)居住小區(qū);(3)識(shí)別結(jié)果中被識(shí)別為就業(yè)區(qū)的街區(qū)從衛(wèi)星地圖上可見為工廠廠房;(4)識(shí)別結(jié)果中被識(shí)別為城中村的街區(qū)是王四營(yíng)鄉(xiāng)和觀音堂村??梢?,區(qū)域B內(nèi)城市功能區(qū)識(shí)別情況與實(shí)際相符。
圖6 部分區(qū)域識(shí)別結(jié)果與百度地圖和百度衛(wèi)星圖的對(duì)比
區(qū)域C為富力城附近幾個(gè)街區(qū),從識(shí)別結(jié)果是可以看出該區(qū)域內(nèi)主要包含居住區(qū)和居住就業(yè)混合區(qū),從百度地圖和百度衛(wèi)星地圖上可見該區(qū)域內(nèi)主要是成熟居住區(qū)和商務(wù)區(qū),幼兒園、中小學(xué)等配套生活設(shè)施齊全,這表明該區(qū)域內(nèi)的功能區(qū)識(shí)別總體準(zhǔn)確。然而,該區(qū)域內(nèi)道路密集、街區(qū)面積較小,采用本方法的識(shí)別過程中相鄰街區(qū)的功能可能相互影響,從而造成部分功能區(qū)識(shí)別結(jié)果與人工識(shí)別結(jié)果之間存在一定偏差,如區(qū)域C的識(shí)別結(jié)果上以星號(hào)標(biāo)注的居住區(qū),其人工識(shí)別結(jié)果為就業(yè)居住混合區(qū),分析該街區(qū)的指標(biāo)計(jì)算結(jié)果發(fā)現(xiàn)其離幼兒園、中小學(xué)的距離較小,與居住區(qū)的該類指標(biāo)相近。
為了進(jìn)一步分析本方法識(shí)別結(jié)果的準(zhǔn)確性,計(jì)算了人工識(shí)別結(jié)果與基于本研究構(gòu)建方法的分類結(jié)果之間的混淆矩陣,如圖7所示。本研究中城市功能區(qū)分類對(duì)象為街區(qū),分類過程中未考慮街區(qū)的面積,在進(jìn)行識(shí)別結(jié)果的準(zhǔn)確性評(píng)價(jià)時(shí),應(yīng)以功能區(qū)的個(gè)數(shù)為依據(jù),而非以功能區(qū)的面積為依據(jù),因此混淆矩陣中的值為街區(qū)個(gè)數(shù)的比例。
圖7 識(shí)別結(jié)果混淆矩陣
從圖7的混淆矩陣可見,本方法在城市功能區(qū)分類的應(yīng)用中具有較高的精度,其中,農(nóng)地和就業(yè)居住混合區(qū)的識(shí)別精度較高,分別為0.810和0.822;休閑娛樂區(qū)的居住區(qū)的識(shí)別精度其次,分別為0.778和0.738;城中村和就業(yè)區(qū)的識(shí)別精度相對(duì)較低,分別為0.706和0.693。
混淆矩陣中未正確分類的功能區(qū),結(jié)合它們的POI分布情況及指標(biāo)體系,對(duì)分類錯(cuò)誤的原因進(jìn)行了綜合分析:
(1)圖7的混淆矩陣顯示未被正確識(shí)別的農(nóng)地主要被識(shí)別為休閑娛樂區(qū),未被正確識(shí)別的休閑娛樂區(qū)主要被識(shí)別為農(nóng)地;未被正確識(shí)別的城中村主要被識(shí)別為農(nóng)地。這主要是因?yàn)檗r(nóng)地內(nèi)包含的POI較少,而少部分休閑娛樂區(qū)和城中村內(nèi)包含的POI也較少,且農(nóng)地、休閑娛樂區(qū)和城中村都離幼兒園、中小學(xué)的距離較遠(yuǎn),從而導(dǎo)致這三類功能區(qū)之間存在分類錯(cuò)誤的情況。
(2)圖7的混淆矩陣顯示未被正確識(shí)別的就業(yè)區(qū)主要被識(shí)別為就業(yè)居住混合區(qū),未被正確識(shí)別的居住區(qū)主要被識(shí)別為就業(yè)居住混合區(qū),未被正確識(shí)別的就業(yè)居住混合區(qū)主要被識(shí)別為居住區(qū),且這三類錯(cuò)誤率相對(duì)較高。可見,這三類功能區(qū)類型相對(duì)容易混淆。分析就業(yè)區(qū)和居住區(qū)的POI分布情況發(fā)現(xiàn),并非所有的就業(yè)區(qū)內(nèi)完全不包含居住功能,也并非所有的居住區(qū)內(nèi)完全不包含就業(yè)功能。在圖6區(qū)域C中分類錯(cuò)誤原因分析中,已闡述相鄰街區(qū)的功能類型可能對(duì)當(dāng)前街區(qū)的類型產(chǎn)生一定影響。另一方面,在設(shè)計(jì)基于POI的城市功能區(qū)分類指標(biāo)體系時(shí),考慮到POI僅能代表地理實(shí)體的類型,不能代表地理實(shí)體的功能強(qiáng)弱,比如,占地面積較大的住宅小區(qū)和占地面積較小的住宅小區(qū)反映在數(shù)據(jù)上都是一個(gè)POI點(diǎn),同一個(gè)地理實(shí)體可能對(duì)應(yīng)多個(gè)POI,如一個(gè)住宅小區(qū)可能在不同的出入口都包含一個(gè)POI點(diǎn),因此,本研究中指標(biāo)A1~A6設(shè)計(jì)為是否含有住宅、商務(wù)寫字樓、產(chǎn)業(yè)園等POI,未考慮這幾類POI數(shù)量或密度對(duì)功能區(qū)分類的影響,由此也導(dǎo)致部分識(shí)別結(jié)果的不準(zhǔn)確。
采用本文的方法進(jìn)行城市功能區(qū)分類過程中,高密度樣本的選擇對(duì)分類結(jié)果至關(guān)重要,而截?cái)嗑嚯xdc是影響樣本密度的重要因素,當(dāng)dc過大時(shí)所有樣本的密度值都較大,而當(dāng)dc過小時(shí)所有樣本的密度值都較小。因此,本文以北京市朝陽(yáng)區(qū)為例,根據(jù)街區(qū)之間距離值的分布范圍設(shè)置不同的dc完成城市功能區(qū)分類,探究dc與城市功能區(qū)識(shí)別總體精度的關(guān)系,分析結(jié)果見圖8。其中,總體精度的計(jì)算以人工識(shí)別結(jié)果為標(biāo)準(zhǔn)(見圖2),統(tǒng)計(jì)本方法的識(shí)別結(jié)果中分類正確的功能區(qū)數(shù)量占功能區(qū)總數(shù)的比例。根據(jù)圖5可見,當(dāng)dc的取值小于2.5時(shí),隨著dc的增加分類精度總體上呈上升趨勢(shì);當(dāng)dc的取值在2.5到8.5之間時(shí),dc的變化對(duì)分類精度的影響較??;當(dāng)dc的取值大于8.5時(shí),隨著dc的增加分類精度呈下降趨勢(shì)。
圖8 截?cái)嗑嚯x與城市功能區(qū)分類總體精度關(guān)系圖
本研究的目的是通過標(biāo)記少量功能區(qū)的類型,獲取更高的城市功能區(qū)分類精度。本文以北京市朝陽(yáng)區(qū)為例,分析了采用本方法進(jìn)行城市功能區(qū)分類時(shí)功能區(qū)標(biāo)記個(gè)數(shù)對(duì)分類總體精度(計(jì)算方法同3.3)的影響,見圖9。從圖中可見,隨著標(biāo)記個(gè)數(shù)的增加,分類精度也在逐步提升。通常在有監(jiān)督的機(jī)器學(xué)習(xí)算法中,會(huì)首先在總樣本中至少選擇50%的樣本進(jìn)行學(xué)習(xí)訓(xùn)練,然后采用訓(xùn)練好的模型進(jìn)行分類。而采用本文所提出的方法對(duì)北京市朝陽(yáng)區(qū)進(jìn)行城市功能區(qū)分類時(shí),標(biāo)記的功能區(qū)個(gè)數(shù)達(dá)到50(占總功能區(qū)個(gè)數(shù)的6.75%),分類精度達(dá)到一個(gè)較高的值。由此可證明本方法在節(jié)約標(biāo)記成本的前提下,可取得較高的分類準(zhǔn)確性。
圖9 標(biāo)注的功能區(qū)個(gè)數(shù)與城市功能區(qū)分類總體精度關(guān)系圖
快速、準(zhǔn)確地獲取城市功能區(qū)空間結(jié)構(gòu)不僅是城市規(guī)劃管理者的需求,還可為人們?nèi)粘I?、工作和交通等提供便利。然而,城市的快速發(fā)展導(dǎo)致了城市內(nèi)部的復(fù)雜化與多樣化,給城市功能區(qū)地圖的獲取帶來(lái)了巨大挑戰(zhàn),近年來(lái),城市功能區(qū)分類逐漸成為城市地理空間結(jié)構(gòu)研究的重要問題。本文構(gòu)建了一套城市功能區(qū)分類方法。一方面,該方法以POI為數(shù)據(jù)基礎(chǔ),數(shù)據(jù)具有較強(qiáng)的可獲取性。另一方面,該方法基于主動(dòng)學(xué)習(xí)算法實(shí)現(xiàn),主動(dòng)學(xué)習(xí)是一種半監(jiān)督分類算法,可以少量標(biāo)記為代價(jià)達(dá)到優(yōu)于非監(jiān)督分類方法準(zhǔn)確性的效果。本文將該方法應(yīng)用于北京市朝陽(yáng)區(qū)的城市功能區(qū)分類,研究表明該方法具有較高的準(zhǔn)確性。
本方法的準(zhǔn)確性還可通過以下方面的改進(jìn)得到進(jìn)一步的提升:(1)指標(biāo)體系的改進(jìn),指標(biāo)體系是城市功能區(qū)分類的基礎(chǔ),根據(jù)分類結(jié)果的反饋,探究分類指標(biāo)與功能區(qū)類型的相關(guān)性,改進(jìn)與完善指標(biāo)體系可進(jìn)一步提高城市功能區(qū)分類的準(zhǔn)確性;(2)數(shù)據(jù)源的擴(kuò)充,僅使用POI數(shù)據(jù)使得本方法的數(shù)據(jù)源獲取簡(jiǎn)單容易,但數(shù)據(jù)源的單一性同時(shí)也制約了本方法的準(zhǔn)確性,如POI數(shù)據(jù)可反映地理實(shí)體的屬性類別特征,但無(wú)法反映地理實(shí)體的功能強(qiáng)弱,若增加手機(jī)基站數(shù)據(jù),以區(qū)域內(nèi)的人流量表征區(qū)域功能的強(qiáng)弱便可彌補(bǔ)POI數(shù)據(jù)的不足。在后續(xù)的研究中將從以上兩方面入手,以期進(jìn)一步提升方法的準(zhǔn)確性。