吳越
摘 要 空間聚類分析是空間分析的一種重要的方法及技術(shù),并廣泛應(yīng)用于城市規(guī)劃、生態(tài)環(huán)境、交通、商業(yè)市場(chǎng)分析、公共衛(wèi)生與社會(huì)等領(lǐng)域。因而,本文按照該五個(gè)領(lǐng)域,選取具有參考價(jià)值的代表性中外文獻(xiàn),針對(duì)空間聚類技術(shù)的相關(guān)應(yīng)用進(jìn)行綜述。分析出空間聚類技術(shù)的普遍短板與未來發(fā)展方向,為相關(guān)學(xué)者的進(jìn)一步研究提供參考。
關(guān)鍵詞 空間聚類 空間分析 文獻(xiàn)綜述
中圖分類號(hào):TP274 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.16400/j.cnki.kjdkz.2017.09.015
A Literature Review of Spatial Clustering Applications
WU Yue
(School of Resource and Environmental Sciences, Wuhan University, Wuhan, Hubei 430072)
Abstract Spatial clustering analysis is an important method and technology of spatial analysis, and is widely used in urban planning, ecological environment, transportation, commercial market analysis, public health and social fields. Therefore, according to the five fields, this paper selects representative Chinese and foreign literature with reference value, and summarizes the related applications of spatial clustering technology. The general short board and future development direction of spatial clustering technology are analyzed, which will provide reference for further research of related scholars.
Keywords spatial clustering; spatial analysis; literature review
0 引言
空間聚類分析是數(shù)據(jù)分析的一種重要方法及技術(shù)。通過對(duì)空間數(shù)據(jù)的凝聚趨勢(shì)、分布規(guī)律的研究分析,GIS人員可以發(fā)現(xiàn)其隱含的模式和規(guī)律,甚至預(yù)測(cè)對(duì)象未來發(fā)展方向,為G1S智能化分析和GIS決策提供支持。
目前,空間聚類分析已廣泛應(yīng)用于城市規(guī)劃、生態(tài)環(huán)境、交通、商業(yè)市場(chǎng)分析、公共衛(wèi)生與社會(huì)等領(lǐng)域。國內(nèi)外學(xué)者針對(duì)不同領(lǐng)域,提出多種改進(jìn)的空間聚類算法。在此背景下,本文按照該五個(gè)領(lǐng)域,選取具有參考價(jià)值的代表性中外文獻(xiàn),針對(duì)空間聚類技術(shù)的相關(guān)應(yīng)用進(jìn)行綜述。分析出空間聚類技術(shù)的普遍短板與未來發(fā)展方向,為相關(guān)學(xué)者的進(jìn)一步研究提供參考。
1 空間聚類方法的現(xiàn)狀
目前,根據(jù)數(shù)據(jù)類型、應(yīng)用目的等的不同,聚類算法可以分為:劃分法,層次法,密度法,網(wǎng)格法,模型法等五類方法。
(1)劃分法,該方法為最早出現(xiàn)的經(jīng)典算法,其典型代表為k-means聚類算法。該方法效率高且易于理解,所以應(yīng)用廣泛。該算法把n個(gè)對(duì)象分成k個(gè)簇,使簇內(nèi)具有較高的相似度,而簇間的相似度較低。(2)層次法,該方法將數(shù)據(jù)對(duì)象組成一棵聚類的樹。根據(jù)其層次分解方向的不同,可分為凝聚法或分裂法。(3)密度法,該方法按照區(qū)域密度進(jìn)行劃分,不同于傳統(tǒng)距離劃分得到的類圓形聚類區(qū)域,其可以獲得任意形狀的聚類區(qū)域。(4)網(wǎng)格法,該方法以多分辨率的網(wǎng)格數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ),計(jì)算以單個(gè)網(wǎng)格進(jìn)行開展,從而節(jié)約大量計(jì)算時(shí)間。(5)模型法,該方法以數(shù)學(xué)模型為核心,通?;跀?shù)據(jù)符合一定的數(shù)學(xué)規(guī)律進(jìn)行分布的假設(shè)進(jìn)行研究。
2 空間聚類應(yīng)用領(lǐng)域分析
2.1 城市規(guī)劃方面
城市規(guī)劃是以科學(xué)思想、客觀數(shù)據(jù)、專家決策為基礎(chǔ),對(duì)城市經(jīng)濟(jì)結(jié)構(gòu)、空間結(jié)構(gòu)、社會(huì)結(jié)構(gòu)等多方面發(fā)展進(jìn)行規(guī)劃,發(fā)揮著指導(dǎo)城市建設(shè)、確定城市發(fā)展方向的重要作用。而由于城市系統(tǒng)本身的復(fù)雜性,城市規(guī)劃是一個(gè)需要反復(fù)修訂,長(zhǎng)期調(diào)整的決策過程。
在此背景下,GIS人員可以憑借空間聚類技術(shù),通過研究不同設(shè)施的分布模式,從而合理設(shè)定、評(píng)估城市空間布局方案,為城市規(guī)劃決策提供建議,提高城市居民的生活質(zhì)量。
其中最典型的便是DBSCAN空間聚類算法的應(yīng)用。針對(duì)空間聚類過程中對(duì)非空間屬性的忽略問題,Sander(1998)在DBSCAN算法基礎(chǔ)上提出了GDBSCAN算法,可有效結(jié)合點(diǎn)目標(biāo)的空間屬性和非空間屬性。國內(nèi),李新延(2005)在城市規(guī)劃領(lǐng)域,對(duì)DBSCAN空間聚類算法進(jìn)行了實(shí)例研究。他的研究結(jié)果表明,該算法可以發(fā)現(xiàn)城市點(diǎn)狀設(shè)施(如公共設(shè)施和市政公用設(shè)施)的聚集特征和分布模式中存在的問題。從而對(duì)規(guī)劃設(shè)計(jì)中的某些規(guī)范或指標(biāo)進(jìn)行修正,為城市規(guī)劃提供科學(xué)的依據(jù)和指導(dǎo)。
用空間聚類方法進(jìn)行城市功能分區(qū)也是一種有益的嘗試,它不僅能為準(zhǔn)確地劃分功能區(qū)提供依據(jù),而且也可以減少主觀性,具有較強(qiáng)的客觀性。楊帆(2007)提出將面狀統(tǒng)計(jì)單元進(jìn)行網(wǎng)格劃分,引入基于網(wǎng)格密度聚類算法的思想,克服傳統(tǒng)面狀聚類的諸多缺點(diǎn)。但其結(jié)果受k值選取的主觀性影響。王艷(2009)分別運(yùn)用K—平均算法、神經(jīng)網(wǎng)絡(luò)模型進(jìn)行空間聚類計(jì)算,挖掘研究對(duì)象隱含的空間聚集信息。其研究結(jié)果表明,K—平均算法受分類過程的隨機(jī)性與分類人員的主觀不確定性影響較大,缺乏自學(xué)習(xí)能力。而神經(jīng)網(wǎng)絡(luò)模型由于具有較強(qiáng)的自學(xué)習(xí)和自適應(yīng)能力,其分類結(jié)果更加客觀。辜寄蓉(2011)則利用Delaunay三角剖分和格雷厄姆方法構(gòu)造了功能區(qū)自動(dòng)劃分算法。該算法可以自動(dòng)實(shí)現(xiàn)功能區(qū)劃分,同樣降低了人為主觀因素對(duì)劃分結(jié)果的影響。endprint
王海軍(2006)分析了傳統(tǒng)城鎮(zhèn)土地定級(jí)方法的不足后,提出了基于空間聚類的地價(jià)分區(qū)定級(jí)法,并以石獅市土地定級(jí)為例,驗(yàn)證了此方法。但該方法在城鎮(zhèn)土地市場(chǎng)發(fā)育不成熟、土地市場(chǎng)機(jī)制不完善、土地交易樣點(diǎn)較少的城鎮(zhèn)應(yīng)用受到限制。
在城市突發(fā)事件的應(yīng)急管理方面,空間聚類技術(shù)同樣有良好的表現(xiàn)。樊博(2008)研究提出的(COD-MEANS-CLASA)的空間聚類算法,綜合考慮了空間障礙因素和空間環(huán)境因素,探索出基于數(shù)據(jù)驅(qū)動(dòng)的城市應(yīng)急機(jī)構(gòu)選址方案。與其他空間聚類方法進(jìn)行對(duì)比,在執(zhí)行效率和解質(zhì)量?jī)煞矫婢哂懈玫谋憩F(xiàn)。
城市文化建設(shè)方面,Mommaas(2004)通過研究新西蘭在過去五到十年間的城市文化聚類現(xiàn)象,探索了文化與經(jīng)濟(jì)發(fā)展之間的聯(lián)系,為城市文化建設(shè)政策提供了指導(dǎo)意見。
2.2 商業(yè)市場(chǎng)領(lǐng)域
選址的正確與否對(duì)商業(yè)活動(dòng)的成功起著舉足輕重的作用,傳統(tǒng)的商業(yè)選址方法多以數(shù)學(xué)模型或經(jīng)驗(yàn)法則為主,而近年來隨著城鎮(zhèn)化進(jìn)程的急速發(fā)展,利用傳統(tǒng)數(shù)理方法進(jìn)行商業(yè)選址不能滿足商業(yè)選址的迫切需求??臻g分析為商業(yè)選址決策提供快速有效的可視化定量分析方法。
姜亞莉(2014)以珠海市為例,通過地域性數(shù)據(jù),如某區(qū)人口數(shù)目、某區(qū)道路數(shù)量等,加權(quán)平均得出某區(qū)域的商業(yè)發(fā)展?jié)摿?。其從宏觀層面上利用空間聚類對(duì)商業(yè)選址進(jìn)行可視化定量操作的結(jié)果較為滿意,但微觀層面(如選址因素、地點(diǎn))仍有待進(jìn)一步精確。
空間聚類應(yīng)用于具體產(chǎn)業(yè)分析,對(duì)于該產(chǎn)業(yè)的設(shè)址、銷售、服務(wù)等決策問題均發(fā)揮著指導(dǎo)作用。汽車業(yè),高濤(2017)采用車載GPS技術(shù)和改進(jìn)的DBSCAN算法將陜重汽的不同類型車輛的行駛GPS數(shù)據(jù)進(jìn)行空間聚類分析,最終得到不同車輛的活動(dòng)熱點(diǎn)地區(qū)分布數(shù)據(jù)。分析結(jié)果對(duì)今后車輛的設(shè)計(jì)、銷售及售后的相關(guān)決策問題有著重要的參考價(jià)值。餐飲業(yè)方面,Austin(2005)研究了學(xué)校周邊的快餐店集聚現(xiàn)象,為快餐店具體選址提供了依據(jù)。
2.3 交通領(lǐng)域
隨著私家車占有率的不斷提高,出行安全與道路堵塞問題始終占據(jù)著民生問題的焦點(diǎn)。出行方面,肖慎(2002)采用基于模糊劃分的模糊聚類方法,建立了公路交通事故黑點(diǎn)成因分析方法和模型。該模型可幫助交通管理人員歸納事故成因,促進(jìn)其采取相應(yīng)的道路改善和交通管理措施,有效治理和防范公共交通事故。
交通流預(yù)測(cè)同樣對(duì)于路徑誘導(dǎo)、路網(wǎng)管控有著重要的作用。許榕(2015)提出了基于空間聚類的短時(shí)交通流預(yù)測(cè)Cluster-NN模型,以遙控視頻攝像數(shù)據(jù)作為預(yù)測(cè)模型的輸入,對(duì)區(qū)域內(nèi)交通流進(jìn)行了聚類分析預(yù)測(cè)。
此外,隨著電子商務(wù)的發(fā)展,物流作為供應(yīng)鏈管理的組成部分,成為決定電子商務(wù)公司成敗與否的關(guān)鍵因素。梅新(2008)通過研究地理信息系統(tǒng)與車輛運(yùn)輸導(dǎo)航、物流配送的結(jié)合并形成空間決策的過程,提出了一種基于城市道路距離的兩次空間聚類的實(shí)現(xiàn)框架和算法思想,并以煙草企業(yè)的物流配送為例進(jìn)行了驗(yàn)證。不單單在公路運(yùn)輸方面,海運(yùn)方面,王加勝(2016)提出了基于空間聚類分析的南海主要航線提取方法。
2.4 環(huán)境生態(tài)領(lǐng)域
空間聚類可通過數(shù)字化的手段對(duì)環(huán)境問題、程度、過程進(jìn)行描述,不僅可辨別出污染問題嚴(yán)重的地區(qū),還可以研究與社會(huì)經(jīng)濟(jì)相關(guān)的不同范圍的環(huán)境問題。
水污染問題中,農(nóng)業(yè)非點(diǎn)源污染一直是主要原因之一。王少平(2000)探討了空間聚類等GIS手段在農(nóng)業(yè)非點(diǎn)源污染研究中的應(yīng)用與發(fā)展趨勢(shì)。戴曉燕(2005)結(jié)合遙感圖像信息,運(yùn)用空間分析,實(shí)現(xiàn)了在多種空間因素影響下研究區(qū)農(nóng)業(yè)非點(diǎn)源污染負(fù)荷的流域分配。且在此基礎(chǔ)上,同時(shí)運(yùn)用K—均值法對(duì)研究區(qū)內(nèi)的水系污染狀況進(jìn)行了聚類分析,得到了各支流受農(nóng)業(yè)非點(diǎn)源污染的影響程度。該結(jié)果有助于評(píng)估導(dǎo)致水環(huán)境質(zhì)量降低的影響因子,為科學(xué)化管理流域內(nèi)農(nóng)業(yè)非點(diǎn)源污染提供了參考依據(jù)。
趙玉婷(2009)對(duì)廊坊地下水的監(jiān)測(cè)點(diǎn)位及監(jiān)測(cè)指標(biāo)分別進(jìn)行了空間聚類分析,并對(duì)結(jié)果進(jìn)行了空間變異性評(píng)價(jià)。其研究表明空間聚類分析是有效合理的。它一方面可以指導(dǎo)環(huán)境監(jiān)測(cè)點(diǎn)的重新布置,提高監(jiān)測(cè)效率、監(jiān)測(cè)點(diǎn)的代表性,另一方面可為環(huán)境監(jiān)測(cè)指標(biāo)的確定與提供理論依據(jù),進(jìn)而為環(huán)境綜合管理與利用提供基礎(chǔ)依據(jù)。
大氣污染方面,白永亮(2016)通過計(jì)算全國工業(yè)二氧化硫污染的全局空間自相關(guān)、局部空間自相關(guān)、空間核密度,對(duì)未來空間集聚趨勢(shì)進(jìn)行了預(yù)測(cè)。其發(fā)現(xiàn):工業(yè)二氧化硫污染總體呈現(xiàn)多中心、條帶狀、不均衡的“兩帶六極”空間集聚特征;通過熱點(diǎn)探測(cè)模型,發(fā)現(xiàn)污染呈現(xiàn)以長(zhǎng)江為界北重南輕的空間聚類趨勢(shì)。根據(jù)以上手段得出的污染區(qū)空間格局和聚類趨勢(shì)可有效進(jìn)行協(xié)同防控的空間協(xié)作、協(xié)同機(jī)制構(gòu)建、分類分級(jí)分區(qū)管理和管理技術(shù)創(chuàng)新。
2.5 公共衛(wèi)生與社會(huì)領(lǐng)域
在疾病衛(wèi)生領(lǐng)域,空間聚類技術(shù)同樣為疾病研究提供了新思路,并越來越受重視。該技術(shù)不僅幫助醫(yī)學(xué)者了解其傳播機(jī)理,還可以幫助控制有關(guān)疾病的傳播。Kulldoref(1995)提出通過空間聚類觀察研究疾病的新方法,并通過紐約北部的白血病數(shù)據(jù)進(jìn)行了驗(yàn)證。Mammen(2008)驗(yàn)證了登革熱病毒傳播的空間相關(guān)性,并提出以學(xué)校為據(jù)點(diǎn)的檢疫點(diǎn)可有效控制該病毒的傳播。Tanser(2009)借助空間聚類手段,標(biāo)識(shí)出南非農(nóng)村HIV感染高危區(qū)域。
人口研究方面,Cuzick(1990)較早便進(jìn)行人口的空間聚類研究。Francois(2006) 在隱馬爾可夫隨機(jī)場(chǎng)(Hidden Markov Random Field,HMRF)模型基礎(chǔ)上采用新的貝葉斯聚類算法,對(duì)人口結(jié)構(gòu)進(jìn)行了研究。Combes (2006)針對(duì)勞動(dòng)人口聚類進(jìn)行了相關(guān)分析。Chen(2007)同樣在貝葉斯聚類算法上有所創(chuàng)新,推斷社會(huì)人口的空間分布結(jié)構(gòu)。
3 展望
通過以上的研究分析,空間聚類分析通常存在以下兩個(gè)普遍問題:(1)地理位置與屬性特征未有效結(jié)合;(2)受人為主觀因素影響。針對(duì)第一個(gè)問題,現(xiàn)在已有多種改進(jìn)算法,可有效結(jié)合研究對(duì)象的空間屬性與非空間屬性。至于第二個(gè)問題,相比傳統(tǒng)的劃分聚類法,神經(jīng)網(wǎng)絡(luò)模型的應(yīng)用可有效提高研究結(jié)果的客觀性。endprint
應(yīng)用方面,空間聚類分析的作用范圍廣泛,且越來越受到重視。該技術(shù)與傳統(tǒng)研究領(lǐng)域相結(jié)合,可提供嶄新的研究思路,打開研究瓶頸。將國內(nèi)外應(yīng)用領(lǐng)域進(jìn)行比較,國外在公共衛(wèi)生與疾病控制領(lǐng)域的空間聚類研究較多,而國內(nèi)在該部分的研究相對(duì)比較空缺。
至于發(fā)展方向,空間聚類分析在宏觀層面上的指導(dǎo)已相對(duì)成熟,在微觀層面的準(zhǔn)確度研究仍有待提高。未來,更加適用于微觀層面的空間聚類分析技術(shù)將會(huì)是發(fā)展前景之一。
參考文獻(xiàn)
[1] 徐芃,景海濤.基于GIS的河南省縣級(jí)城市空間聚類研究與實(shí)現(xiàn)[J].測(cè)繪與空間地理信息,2016(9):50-53.
[2] 王加勝,劉永學(xué),楊昆,李滿春,孫超.基于空間聚類分析的南海主要航線提取方法[J].交通運(yùn)輸工程學(xué)報(bào),2016(6):91-98.
[3] 高濤,王釗,雷正潮,吳曉龍,趙祥模.基于改進(jìn)DBSCAN算法的汽車行駛熱區(qū)提取方法[J].測(cè)控技術(shù),2017(3):24-27.
[4] 姜亞莉,蔡心田,丁振興.基于空間分析方法的商業(yè)選址研究——以珠海市香洲區(qū)為例[J].測(cè)繪與空間地理信息,2014(12):131-133.
[5] 許榕,繆李囡,施靜靜,陳啟美.基于空間聚類的交通流預(yù)測(cè)模型[J].南京大學(xué)學(xué)報(bào)(自然科學(xué)),2015(2):251-256.
[6] 白永亮,郭珊,孫涵.大氣污染的空間關(guān)聯(lián)與區(qū)域間防控協(xié)作——基于全國288個(gè)地市工業(yè)SO_2污染數(shù)據(jù)的空間統(tǒng)計(jì)分析[J].中國地質(zhì)大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2016(3):63-72,171.
[7] 周翠竹,朱建軍,石巖.一種基于雙重距離約束的多層次空間聚類方法[J].測(cè)繪科學(xué),2014(10):98-101.
[8] 辜寄蓉,陳先偉,楊海龍.城市功能區(qū)劃分空間聚類算法研究[J].測(cè)繪科學(xué),2011(5):65-67,64.
[9] 戴曉燕,過仲陽,石純,吳健平.空間聚類在農(nóng)業(yè)非點(diǎn)源污染研究中的應(yīng)用[J].華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2005(3):59-64.
[10] 趙玉婷,張征,呂連宏,牟向玉,李道峰.基于地下水多變量空間聚類分析的變異性評(píng)價(jià)[J].地球科學(xué)與環(huán)境學(xué)報(bào),2009(1):79-84.
[11] 曾紹琴,李光強(qiáng),廖志強(qiáng).空間聚類方法的分類[J].測(cè)繪科學(xué),2012(5):103-106.
[12] 楊帆,米紅.一種基于網(wǎng)格的空間聚類方法在區(qū)域劃分中的應(yīng)用[J].測(cè)繪科學(xué),2007(S1):66-69,5.
[13] 梅新,崔偉宏,高飛,劉俊怡.基于空間聚類的物流配送決策研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2008(4):371-374+383.
[14] 王艷,宋振柏,吳佩林.城市功能分區(qū)的空間聚類方法研究及其應(yīng)用——以濟(jì)南市為例[J].地域研究與開發(fā),2009(1):27-31.
[15] 柳盛,吉根林.空間聚類技術(shù)研究綜述[J].南京師范大學(xué)學(xué)報(bào)(工程技術(shù)版),2010(2):57-62.
[16] 樊博.基于空間聚類挖掘的城市應(yīng)急救援機(jī)構(gòu)選址研究[J].管理科學(xué)學(xué)報(bào),2008(3):16-24+26-28.
[17] 李新延,李德仁.DBSCAN空間聚類算法及其在城市規(guī)劃中的應(yīng)用[J].測(cè)繪科學(xué),2005(3):51-53,5.
[18] 肖慎,過秀成,徐建東.模糊聚類法在公路交通事故黑點(diǎn)成因分析中的應(yīng)用[J].交通運(yùn)輸系統(tǒng)工程與信息,2002(3):40-43.
[19] 王海軍,張德禮.基于空間聚類的城鎮(zhèn)土地定級(jí)方法研究[J].武漢大學(xué)學(xué)報(bào)(信息科學(xué)版),2006(7):628-631.
[20] 王少平,陳滿榮,俞立中,許世遠(yuǎn).GIS在農(nóng)業(yè)非點(diǎn)源污染研究中的應(yīng)用[J].農(nóng)業(yè)環(huán)境保護(hù),2000(5):289-292.
[21] 李新運(yùn),鄭新奇,閆弘文.坐標(biāo)與屬性一體化的空間聚類方法研究[J].地理與地理信息科學(xué),2004(2):38-40.
[22] Kulldorff M;Nagarwalla N.Spatial disease clusters: detection and inference[J].Statistics in medicine,1995,14(8).
[23] Fran?ois Olivier, Ancelet Sophie, GuillotGilles. Bayesian clustering using hidden Markov random fields in spatial population genetics.[J].Genetics(Print),2006.174(2).
[24] Chen, C; Durand, E; Forbes, F; Francois, O. Bayesian clustering algorithms ascertaining spatial population structure: a new computer program and a comparison study. [J]. MOLECULAR ECOLOGY NOTES. 2007.7(5).
[25] Sander J; Ester M; Kriegel HP; Xu XW. Density-based clustering in spatial databases: The algorithm GDBSCAN and its applications. [J]. Data Mining & Knowledge Discovery 1998.2(2).
[26] Cuzick J; Edwaeds R. Spatial clustering for inhomogeneous populations. [J]. JOURNAL OF THE ROYAL STATISTICAL SOCIETY SERIES B-METHODOLOGICAL. 1990.52(1).
[27] Mommaas, H. Cultural clusters and the post-industrial city: Towards the remapping of urban cultural policy. [J]. URBAN STUDIES. 2004.41(3).
[28] Austin, SB; Melly, SJ; Sanchez, BN; Patel, A; Buka, S; Gortmaker, SL. Clustering of fast-food restaurants around schools: A novel application of spatial statistics to the study of food environments.[J]. AMERICAN JOURNAL OF PUBLIC HEALTH.2005.95(9).
[29] Mammen, MP; Pimgate, C; Koenraadt, CJM. Spatial and Temporal Clustering of Dengue Virus Transmission in Thai Villages.[J].2008.5(11).
[30] Tanser, F; Barnighausen, T; Cooke, GS; Newell, ML. Localized spatial clustering of HIV infections in a widely disseminated rural South African epidemic.[J].2009.38(4).endprint