賈 沖,馮慧芳,楊振娟
(西北師范大學數(shù)學與統(tǒng)計學院,甘肅 蘭州 730070)
商業(yè)選址對企業(yè)的重要性不言而喻,它不僅是影響企業(yè)效益的關(guān)鍵因素,而且直接關(guān)系企業(yè)的生存立足和長遠發(fā)展。故商業(yè)選址成為了制定企業(yè)經(jīng)營目標和經(jīng)營策略的重要依據(jù)之一。企業(yè)進行商業(yè)選址考慮的因素主要包括交通情況、客流規(guī)律和客流量、周邊商業(yè)環(huán)境、地形特征及城市規(guī)劃要求等。古人常說“天時地利人和”是商業(yè)選址的首要原則。
傳統(tǒng)的商業(yè)選址多依靠實地調(diào)查研究數(shù)據(jù)和經(jīng)濟統(tǒng)計分析數(shù)據(jù),這種方法無法快速準確地獲取預(yù)選位置的各類邊界信息[1]。而移動互聯(lián)網(wǎng)時代的日益深化和多源時空大數(shù)據(jù)的急速增長,為基于大數(shù)據(jù)的城市商業(yè)中心識別和商業(yè)選址提供了新的方法和思路。如今多源大數(shù)據(jù)已成為新時代的商業(yè)選址利器,不僅能夠節(jié)省調(diào)研時間,而且可以使分析結(jié)果更加全面、精確,并能為商業(yè)選址提供更為科學的決策依據(jù)。
基于多源時空數(shù)據(jù)挖掘的研究是目前國內(nèi)外城市大數(shù)據(jù)研究的熱點之一。常用的多源城市大數(shù)據(jù)主要包括地圖、興趣點(Point of Interest, POI)數(shù)據(jù)、GPS(Global Positioning System)數(shù)據(jù)、客流數(shù)據(jù)、手機數(shù)據(jù)、位置服務(wù)(Location Based Services, LBS)數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)和環(huán)境與氣象數(shù)據(jù)等[2-3]。文獻[4]基于POI數(shù)據(jù),應(yīng)用設(shè)計科學研究方法提出一種考慮用戶身體和心理因素的旅游推薦系統(tǒng)。任星怡等人[5]基于位置的社交網(wǎng)絡(luò)的用戶簽到行為,提出了一種聯(lián)合概率生成模型來模擬用戶的簽到行為,進而進行興趣點的推薦,并用真實的大規(guī)模數(shù)據(jù)集驗證了模型的效果和效率。通勤是城市生活的重要組成部分,文獻[6]利用POI來估計人們的工作地點,并利用重力模型來研究上海市中心的區(qū)域間通勤特征,主要包括出行時空特征、區(qū)域之間的連通性、通勤距離等。文獻[7]以零售業(yè)POI大數(shù)據(jù)為基礎(chǔ),應(yīng)用核密度估計方法和空間自相關(guān)理論分別研究了沈陽市零售商業(yè)中心規(guī)模分布特征和零售業(yè)熱點街區(qū)。文獻[8]運用POI數(shù)據(jù)并結(jié)合地貌特征和文本信息融合方法,對城市各個層次的功能進行挖掘,建立功能區(qū)的評價指標,識別并分析城市的功能區(qū)分布情況。
出租車已成為城市交通系統(tǒng)中的重要組成部分,其運行狀態(tài)、網(wǎng)絡(luò)結(jié)構(gòu)和活動空間分布對于揭示城市出行活動規(guī)律具有重要意義。出租車GPS數(shù)據(jù)具有分布范圍廣、精度高及實時性強等特點,被廣泛應(yīng)用于智能交通計算、城市計算、城市規(guī)劃等領(lǐng)域。文獻[9]根據(jù)出租車GPS數(shù)據(jù)建立了能夠刻畫出行需求、速度和出行線路方向等特征的城市移動模型,應(yīng)用該模型可預(yù)測城區(qū)道路交通能力。陳世莉等人[10]結(jié)合廣州市浮動車輛GPS數(shù)據(jù)提出了一種基于語義信息的城市功能區(qū)識別方法,可識別出城市不同類型的功能區(qū),從一個新的視角揭示城市功能區(qū)的形成及其機制。付鑫等人[11]通過對西安市出租車軌跡網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性與空間分異特征的研究,揭示了城市居民活動的空間特征、活動規(guī)律及其與城市功能空間布局之間的相互影響作用。也有一些研究者結(jié)合出租車GPS和POI進行數(shù)據(jù)挖掘研究,比如劉菊等人[12]基于多維數(shù)據(jù)的張量模型從時間尺度對出租車的上下車數(shù)據(jù)進行時空模式挖掘。并結(jié)合興趣點信息,識別出租車用戶出行特征。羅孝羚等人[13]從出行特征及乘客下車點所屬的POI點類型2個方面,用決策樹模型來確定乘客的出行目的。Kong等人[14]通過融合興趣點和車輛軌跡進而對充電樁選址進行建模。Meng等人[15]通過GPS軌跡數(shù)據(jù)、POIS和社交媒體的地理標簽等來對旅行目的地進行推斷。文獻[16]利用GPS、土地利用和POI數(shù)據(jù)建立了短期旅行行為的預(yù)測模型,并用真實數(shù)據(jù)驗證了預(yù)測模型的有效性。文獻[17]結(jié)合GPS和POI數(shù)據(jù),探討了城市出租車的客流特征及影響上下車點的各種因素。
目前,已經(jīng)有一些研究人員開始嘗試進行基于大數(shù)據(jù)的商業(yè)選址方面的研究。文獻[18-19]借助用戶的簽到數(shù)據(jù)和社交網(wǎng)絡(luò),根據(jù)地理位置特征和用戶移動特征建立商鋪選址模型。出租車GPS數(shù)據(jù)和城市POI數(shù)據(jù)具有空間坐標和各種屬性,且具有樣本量大、時空粒度精細等特點,是時空大數(shù)據(jù)在城市空間結(jié)構(gòu)、人類移動規(guī)律等研究中的重要數(shù)據(jù)源。本文將結(jié)合出租車GPS數(shù)據(jù)和城市POI數(shù)據(jù),通過分析城市居民移動規(guī)律和城市POI分布特征,嘗試提出一種新的城市商業(yè)選址的推薦算法,為商業(yè)選址決策提供快速有效的定量分析方法和科學指導(dǎo)
POI是指所有可用點要素來指代的研究對象,一個POI可以是一個餐廳、一個景點、一個車站等。POI一般由名稱和坐標構(gòu)成,對其進行分類后,POI信息又包含了類別(大)和分類(小)等信息。本文所用到的POI數(shù)據(jù)是在2016年11月利用爬蟲技術(shù)從電子地圖上獲取的,蘭州的POI數(shù)據(jù)共有9類,如表1所示。最終整理得到121103條記錄,各類興趣點分布如圖1所示。從圖1可知,蘭州市POI中生活購物類、餐飲類等所占的比例較大,金融類、交通站點等所占的比例較小,這與事實情況也是相符的。
表1 POI的分類
POI類別POI分類金融類銀行,ATM,保險公司,證券交易所休閑娛樂電影院,劇院,健身房,KTV,游樂場,網(wǎng)吧餐飲類中餐廳,西餐廳,快餐廳,酒吧,冷飲店,咖啡館,茶藝室生活購物類超市,雜貨店,專賣店,理發(fā)店,書店,服裝店,藥房,農(nóng)貿(mào)市場,建材家居交通站點火車站,汽車站,機場,公交車站,地鐵站單位企業(yè)市鎮(zhèn)單位,公司企業(yè),學校,醫(yī)院公共設(shè)施公園廣場,博物館,圖書館,科技館,景點,橋,寺院,教堂,地標,路口,公共設(shè)備住宿類酒店,賓館,招待所,公寓,小區(qū)生活服務(wù)類水、電、煤氣、暖氣繳費網(wǎng)點,移動、聯(lián)通、電信營業(yè)廳,醫(yī)療保險服務(wù),汽修廠
圖1 蘭州市興趣點的分類統(tǒng)計
本文采用的蘭州市出租車GPS軌跡包含車輛ID、經(jīng)度、緯度、瞬時速度、記錄時間、車輛載客信息,車輛載客信息用“0”和“1”分別表示出租車空載和重載狀態(tài)。軌跡點采樣時間間隔為10~30 s。由于終端設(shè)備故障、傳輸故障等原因,使得直接采集的GPS數(shù)據(jù)有少量軌跡是不完整和不一致的,因此,需要對GPS數(shù)據(jù)進行預(yù)處理。本文通過MNTG(Minnesota Traffic Generator)[20]獲取蘭州市城區(qū)路網(wǎng)拓撲信息,采用幾何特性的方法對出租車軌跡數(shù)據(jù)進行路網(wǎng)拓撲匹配,從而清理原始GPS數(shù)據(jù)中的離群點、缺失值、冗余值等。圖2為蘭州市區(qū)部分路網(wǎng)拓撲和一輛車部分GPS軌跡示意圖,其中線表示路網(wǎng),黑色點為出租車軌跡點。從圖2可見,出租車軌跡與路網(wǎng)的匹配度很好。
圖2 出租車軌跡數(shù)據(jù)與路網(wǎng)拓撲匹配
OD(Origin-Destination)矩陣是衡量以交通小區(qū)為單位的城市交通出行量分布特征的矩陣。OD矩陣的行坐標表示出行起始點的交通小區(qū)編號,列坐標表示出行終點的交通小區(qū)編號。記OD=(odij)N×N,其中odij表示從交通小區(qū)i上車到交通小區(qū)j下車的出行量,odji表示從交通小區(qū)j上車到交通小區(qū)i下車的出行量,故OD矩陣為非對稱矩陣,且odii=0。
設(shè)出租車軌跡中每個上和下車點位置構(gòu)成一個有序點對[(lonpick-up,latpick-up), (londrop-off,latdrop-off)],每一個點對表示出租車完成一次服務(wù)。如果上車點位置在交通小區(qū)i內(nèi),下車點位置在交通小區(qū)j內(nèi),即:
ilon-min≤lonpick-up≤ilon-max,ilat-min≤latpick-up≤ilat-max
jlon-min≤londrop-off≤jlon-max,jlat-min≤latdrop-off≤jlat-max
則交通小區(qū)i到交通小區(qū)j的出行量遞加1,遍歷所有有序?qū)Γ涂捎嬎闳我?個交通小區(qū)之間的出行量,最終得到OD矩陣。
結(jié)合出租車GPS數(shù)據(jù)和城市POI數(shù)據(jù),提出一種新的城市商業(yè)選址的推薦算法,該算法既考慮了每個交通小區(qū)中興趣點特征,又考慮了交通小區(qū)之間的客流量。算法具體步驟如下:
Step1劃分交通小區(qū),結(jié)合出租車GPS數(shù)據(jù)計算OD矩陣。
Step6令F=(E1,E2,…,EK),求矩陣F的每行的最小值,并確定最小值所在的行和列,分別記為i,k,那么i,k表示交通小區(qū)i對第k類興趣點的需求程度最大,因此,該交通小區(qū)可以規(guī)劃建設(shè)包含這類興趣點的商業(yè)活動,即推薦該交通小區(qū)為開設(shè)包含第k類興趣點的商業(yè)活動的候選地址。
本文研究對象為蘭州市城區(qū)區(qū)域,包括城關(guān)區(qū)、七里河區(qū)、安寧區(qū)和西固區(qū),如1.2節(jié)圖2所示。首先以500 m長度和寬度的空間尺度,建立蘭州市城市交通小區(qū)。由于蘭州城市結(jié)構(gòu)兩山相夾、帶狀分布、組團布局,市區(qū)東西狹長約為35 km,南北狹窄約為2~10 km,南北群山對峙,東西黃河穿城而過,城市形態(tài)屬于一種不緊湊的帶狀結(jié)構(gòu),典型的兩山夾一河的河谷型城市。由于一些POI分布面積比較大,所以劃分交通小區(qū)時長度L和寬度W的取值不應(yīng)太小,另外,為了盡可能地避免一次出行活動的起訖點發(fā)生在同一個交通小區(qū)內(nèi),L和W的取值不能太大,本文選取L=W=500 m。按照2.1節(jié)中的方法劃分交通小區(qū)后,所得到的網(wǎng)格單元總共有1769個,有許多交通小區(qū)為山區(qū),故剔除落入山區(qū)的交通小區(qū),只保留有城市路網(wǎng)覆蓋的交通小區(qū),最終得到的有效交通小區(qū)為757個。
統(tǒng)計每個交通小區(qū)的POI總數(shù)和每個交通小區(qū)不同類別的POI個數(shù)。圖3給出了蘭州市區(qū)興趣點的總體空間分布情況。從圖3可知,與其他城區(qū)相比,城關(guān)區(qū)是POI密度比較大的區(qū)域。蘭州市的核心商業(yè)區(qū)主要包括了城關(guān)區(qū)的西關(guān)商圈、南關(guān)商圈、東方紅廣場商圈、鐵路局商圈和五里鋪商圈,七里河區(qū)的西站商圈和小西湖商圈,安寧區(qū)的金牛街商圈,西固區(qū)的西固路商圈等。對每一類POI的分布密度分析可知每個城區(qū)的主要商圈內(nèi)涵蓋大量的休閑娛樂、餐飲類、生活購物類、住宿類等類型的興趣點。與其他城區(qū)的商圈相比較,位于城關(guān)區(qū)的西關(guān)商圈、南關(guān)商圈、東方紅廣場商圈也包含了大量的公司企業(yè)。
圖3 蘭州市POI的總體分布情況
如果交通小區(qū)對住宿類、生活購物類、餐飲類或休閑娛樂等某個POI的需求程度最大,意味著該小區(qū)存在該類型POI的商機,那么交通小區(qū)就可作為其商業(yè)地址候選區(qū)域。圖4給出了蘭州市商業(yè)選址推薦圖。例如,在安寧區(qū)莫高大道附近,北起劉沙公里南止建寧西路連續(xù)的4個交通小區(qū),北濱河西路西起通達街東止寶石花路長約為1.7 km的交通小區(qū),這些都對住宿類的需求最大。七里河區(qū)的南濱河路西起吳家園西路東止小西湖東街長約2.2 km,占地面積約1.75平方公里的小區(qū)對住宿類的需求最大,那么可以考慮在這里開設(shè)或經(jīng)營賓館、酒店等。城關(guān)區(qū)南環(huán)路和白銀路交叉的區(qū)域內(nèi)也推薦住宿類商業(yè)經(jīng)營。從圖4可知,生活購物類的商業(yè)選址推薦的最多,在每個城區(qū)都占最大的比例。以安寧區(qū)為例,蘭州市安寧區(qū)大中專院校集中,區(qū)內(nèi)有西北師范大學、蘭州交通大學、甘肅農(nóng)業(yè)大學等17所大中專院校,有省農(nóng)科院等2所科研機構(gòu),有長風集團公司、蘭州飛控儀器總廠等國有大中型企業(yè)21家。占地面積約80平方公里的區(qū)域內(nèi)沒有一家大型綜合購物中心,只有幾家生活超市。因此,將該區(qū)域推薦為生活購物類商業(yè)選址區(qū)域是合理的。從城關(guān)區(qū)的分布上來看,蘭州市東部市場附近區(qū)域生活購物類商場分布比較密集,包括東部綜合批發(fā)市場、蘭新市場、王府井購物中心等,故該區(qū)域不再是生活購物類商業(yè)推薦的范圍。南山路和白銀路中間的區(qū)域內(nèi)可推薦為生活購物類商業(yè)選址。
圖4 基于交通小區(qū)的商業(yè)選址推薦
雁灘位于蘭州城關(guān)區(qū)東北部,是國家級蘭州高新技術(shù)開發(fā)區(qū)核心區(qū)所在地,主要布置新材料、生物工程與新醫(yī)藥、航天科技與電子信息等高新技術(shù)產(chǎn)業(yè)的管理、研發(fā)、公共服務(wù)。雁灘板塊正在大力建設(shè)、發(fā)展中,且該區(qū)域人口密集,與其他類型的商業(yè)選址推薦相比較,該區(qū)域最適合作為餐飲類服務(wù)的商業(yè)地址推薦。另外,在七里河區(qū)馬灘和金港城附近的區(qū)域,餐飲服務(wù)比較少,該區(qū)域也是餐飲類商業(yè)選址的候選區(qū)域。從圖4可知,整個蘭州市區(qū)休閑娛樂的商業(yè)推薦小區(qū)只有10個,這說明了休閑娛樂服務(wù)基本飽和,這與實際情況相符。棋牌室、KTV、網(wǎng)吧、養(yǎng)生館等遍布了蘭州市的大街小巷。
隨著社會經(jīng)濟的發(fā)展,城市居民對城市公共服務(wù)設(shè)施的需求和要求越來越大,城市公共服務(wù)設(shè)施空間布局問題受到了廣泛的關(guān)注。本文中涉及社會公共服務(wù)的POI包括了生活服務(wù)類、交通站點、公共設(shè)施和金融類等,根據(jù)文中的推薦算法,可以為公共服務(wù)設(shè)施空間布局規(guī)劃提供一種策略。圖5為蘭州市城市公共服務(wù)類推薦地址分布圖。城關(guān)區(qū)的核心區(qū)域公共設(shè)施是相當完善的,所以在城關(guān)區(qū)的核心區(qū)域內(nèi)公共設(shè)施的推薦也是很少的。城關(guān)區(qū)的東部區(qū)域公共設(shè)施和交通站點比較少,應(yīng)該推薦在該區(qū)域內(nèi)增加這類公共服務(wù)。西固區(qū)的西部區(qū)域比較偏遠,該區(qū)域也應(yīng)該增加公共設(shè)施類的服務(wù),以方便居民生活。安寧區(qū)需要增加公共設(shè)施和交通站點的規(guī)劃設(shè)計,七里河區(qū)晏家坪、蘭州理工大學附近區(qū)域推薦增加公共設(shè)施的布局。
圖5 基于交通小區(qū)的社會公共服務(wù)選址推薦
城市出租車GPS軌跡和POI數(shù)據(jù)蘊含著大量居民出行規(guī)律、城市功能識別、城市交通運行狀態(tài)等時空語義信息,是城市計算的主要數(shù)據(jù)來源之一。本文以出租車GPS軌跡和POI數(shù)據(jù)為依托,以蘭州市城區(qū)為研究對象,將蘭州市城區(qū)區(qū)域劃分為500 m×500 m的交通小區(qū),采用歷時一周的出租車GPS軌跡構(gòu)建OD矩陣,揭示不同交通小區(qū)之間出租車用戶出行特征,結(jié)合城市POI在交通小區(qū)中分布特征和蘊含的語義信息,提出了基于交通流量特征和POI數(shù)據(jù)相結(jié)合的商業(yè)地址推薦算法,并將推薦結(jié)果在交通分析小區(qū)尺度上進行可視化呈現(xiàn)。實驗結(jié)果表明,該推薦算法不僅能夠快速有效地推薦合理的商業(yè)選址,同時能夠為城市公共服務(wù)設(shè)施空間布局規(guī)劃提供決策依據(jù),從而實現(xiàn)對蘭州市基礎(chǔ)設(shè)施的空間布局規(guī)劃。
本文實證分析了出租車GPS軌跡和POI數(shù)據(jù)的商業(yè)選址的可行性。但仍有選址因素沒有考慮,比如每個交通小區(qū)的人口、競爭性、相關(guān)性等。另外,本文提供的商業(yè)選址不太精細,下一步不僅要考慮利用選址因素的多樣性,還要借用公交車GPS數(shù)據(jù)、居民出行刷卡記錄、手機數(shù)據(jù)、基于位置服務(wù)LBS數(shù)據(jù)等城市大數(shù)據(jù),期望提出更加精準的商業(yè)選址算法與策略。