李 智,魏東嵐
(遼寧師范大學(xué) 地理科學(xué)學(xué)院,遼寧 大連 116029)
傳統(tǒng)的地理聚類算法[1,2],例如K-means,DBSCAN等,依據(jù)餐飲樣本點自身的位置屬性很好的分析了樣本點空間分布特征[3,5],但是忽略了樣本點非地理特征的表達(dá)。陳傳康[6,8]等對餐飲地理空間分異性進(jìn)行了研究。分類歸納餐飲店空間聚集的影響因素。餐飲樣本點與其他類別的POI存在的顯著不同就是其價位屬性,因其存在較多重復(fù)數(shù)據(jù),本文利用附帶地理加權(quán)的K-modes聚類算法,首先對餐飲人均價格數(shù)據(jù)進(jìn)行第一次聚類,分析出價格集中的眾數(shù)區(qū)間。再根據(jù)餐飲點的經(jīng)緯度屬性,按照一定的過濾算法,進(jìn)行第二次聚類,兩次聚類能夠精確的分析出消費水平在空間分布上的差異性。
根據(jù)人均消費數(shù)據(jù)中存在價位等同的餐飲商家的特點,在將數(shù)據(jù)進(jìn)行清洗和基礎(chǔ)分析以后,通過算法找出干區(qū)間段內(nèi)若干眾數(shù)為聚類中心,再根據(jù)剩余數(shù)據(jù)到這些聚心的距離進(jìn)行劃分,形成若干類別。具體步驟如下。
(1)對于樣本數(shù)據(jù)進(jìn)行描述統(tǒng)計分析,確定人均消費數(shù)據(jù)頻率分布直方圖,如圖1所示。
圖1 人均消費頻率分布直方圖和區(qū)域人均消費水平
(2)確定樣本數(shù)據(jù)及其屬性域矩陣R(Xi,A),根據(jù)樣本內(nèi)Xi頻率分布直方圖得出固定區(qū)間內(nèi)的眾數(shù)M(M1,M2,M3……)。將M確定為該區(qū)間的聚類中心。對樣本數(shù)據(jù)X(i)逐次進(jìn)行劃分聚類,X(i)到聚心M的距離d的公式為:
d=Min|X(i)-X(n)|
(1)
X(n)∈|X(n),d|
(2)
(3)通過排序算法選取最小距離d,確定當(dāng)前聚心X(n)。將當(dāng)前數(shù)據(jù)X(i)劃分進(jìn)入關(guān)于X(i)的矩陣中,最終的樣本可以用矩陣X來表示:
(3)
將第一次聚類的結(jié)果作為樣本數(shù)據(jù),附加地理權(quán)重??臻g上聚集程度的指標(biāo)可以用經(jīng)緯度來衡量,即在地理空間上距離越近的兩個點其經(jīng)緯度差異越小。對GPS經(jīng)緯度進(jìn)行第二次聚類,符合條件的數(shù)據(jù)數(shù)量應(yīng)能夠代表整體聚集水平,因此符合條件的數(shù)據(jù)量Si與總量n應(yīng)滿足:
(4)
?的取值范圍根據(jù)集群程度來定義,本研究區(qū)域中當(dāng)?=50%時,能夠明顯顯示出集群位置。研究其他地區(qū)數(shù)據(jù)時可適當(dāng)調(diào)整其取值,以達(dá)到效果最佳的集群顯示范圍。最終得到了若干個以消費眾數(shù)M為聚心,附加地理權(quán)重的a、b、c、d四個等級消費集群分布示意圖,如圖2所示。
K-Modes聚類算法完全適用于線上餐飲業(yè)的空間分析,相比于其他聚類算法,它更能夠忠實于數(shù)據(jù)本身,在經(jīng)過地理加權(quán)以后,聚類結(jié)果將同時集聚數(shù)據(jù)本身的屬性和空間位置規(guī)律于一身,能夠更精確無誤的分析數(shù)據(jù)的數(shù)學(xué)特征和地理特征。本文在研究大連市線上餐飲空間消費規(guī)律的過程中,采用K-Modes聚類算法先針對數(shù)據(jù)本身進(jìn)行聚類,保持?jǐn)?shù)據(jù)以及聚類結(jié)果的準(zhǔn)確性,再附加地理權(quán)重,尋找契合地理空間的集群數(shù)據(jù),這樣的結(jié)果相比于基于密度聚類的結(jié)果更加能夠體現(xiàn)區(qū)域整體水平,并且可任意控制集群密度,地理加權(quán)的方法不同,集群密度就不同。
圖2 市內(nèi)四區(qū)人均消費集群情況