黃秋華,邱弘逸
(惠州學(xué)院 地理與旅游學(xué)院,廣東 惠州 516007)
隨著互聯(lián)網(wǎng)、手持移動(dòng)設(shè)備、定位、位置服務(wù)等技術(shù)的出現(xiàn)與高速發(fā)展,軌跡數(shù)據(jù)的獲得變得越來(lái)越容易.軌跡數(shù)據(jù)的挖掘分析已經(jīng)變得不再陌生,通過(guò)軌跡數(shù)據(jù)的挖掘可以得到很多領(lǐng)域人類(lèi)活動(dòng)的潛在的規(guī)律,用挖掘得到的信息為國(guó)家經(jīng)濟(jì)建設(shè)和社會(huì)管理領(lǐng)域等提供輔助決策[1-2].
在信息化的大背景下,各行各業(yè)都開(kāi)啟了“互聯(lián)網(wǎng)+”模式的發(fā)展,同理催生了“互聯(lián)網(wǎng)+旅游業(yè)”的出現(xiàn),進(jìn)而帶來(lái)了旅游業(yè)的新業(yè)態(tài)、新發(fā)展.旅行者可以借助專(zhuān)業(yè)的互聯(lián)網(wǎng)旅游平臺(tái)獲取信息、與網(wǎng)友互動(dòng)交流、在論壇上發(fā)表觀點(diǎn),使得大量由用戶(hù)生成的有效旅游信息得以匯集在旅游平臺(tái)上.
傳統(tǒng)的旅行者時(shí)空行為分析所需數(shù)據(jù)通常需要實(shí)地調(diào)研獲取,需要耗費(fèi)大量人力物力,且以文本為載體的記錄形式依賴(lài)于數(shù)據(jù)提供者的個(gè)人主觀想法,不能保證數(shù)據(jù)的完整性和準(zhǔn)確性.旅游信息分享平臺(tái)的出現(xiàn),讓旅行者可以使用手機(jī)的GPS功能記錄完整的路線(xiàn)[3],使用者也可自由地在平臺(tái)上獲取需要的數(shù)據(jù),使得信息的收集與獲取難度大大降低,可通過(guò)爬蟲(chóng)技術(shù)批量采集旅游軌跡分享網(wǎng)站上用戶(hù)自行上傳的軌跡數(shù)據(jù),使用Python進(jìn)行數(shù)據(jù)挖掘提取景區(qū)熱點(diǎn)區(qū)域,借助GIS實(shí)現(xiàn)數(shù)據(jù)的可視化.
從兩步路旅游軌跡分享平臺(tái)上獲取旅行者GPS軌跡[4],利用數(shù)據(jù)挖掘算法提取有效信息,再利用GIS專(zhuān)業(yè)軟件對(duì)提取到的信息做進(jìn)一步空間分析.
(1)使用兩步路平臺(tái)作為GPS軌跡數(shù)據(jù)的來(lái)源,數(shù)據(jù)包括用戶(hù)在當(dāng)前軌跡點(diǎn)的經(jīng)緯度、高程、時(shí)間、速度信息.
(2)對(duì)爬取得到的GPS軌跡數(shù)據(jù)進(jìn)行數(shù)據(jù)清理等預(yù)處理操作,將預(yù)處理后的軌跡數(shù)據(jù)進(jìn)行入庫(kù)存儲(chǔ)和管理,使用軌跡聚類(lèi)等時(shí)空數(shù)據(jù)挖掘算法[5]對(duì)入庫(kù)后的數(shù)據(jù)進(jìn)行挖掘,得到旅行者在時(shí)空上的行為特征.
(3)使用ArcGIS的核密度分析,找出旅游景區(qū)內(nèi)的熱點(diǎn)區(qū)域,并給予景區(qū)相關(guān)建議.
選取深圳市梧桐山景區(qū)作為研究區(qū)域,通過(guò)旅游軌跡平臺(tái)數(shù)據(jù)爬取獲得大量旅游者的旅游軌跡數(shù)據(jù),對(duì)爬取得到的數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)預(yù)處理后的數(shù)據(jù)入庫(kù)管理.利用數(shù)據(jù)挖掘算法對(duì)軌跡數(shù)據(jù)進(jìn)行信息挖掘,利用GIS專(zhuān)業(yè)軟件對(duì)軌跡數(shù)據(jù)進(jìn)行核密度分析,最后將結(jié)果利用軟件可視化顯示.具體實(shí)施技術(shù)路線(xiàn)如圖1所示.
梧桐山,地處廣東省深圳市東部,省級(jí)風(fēng)景名勝區(qū),山西麓有仙湖植物園和著名的佛教寺廟建筑群弘法寺.在交通方面梧桐山交通方便,旅游線(xiàn)路成熟,從東南西北四個(gè)方向均有已經(jīng)被開(kāi)發(fā)的線(xiàn)路,不同方向的登頂路線(xiàn)共有19條,比較常見(jiàn)的路線(xiàn)有:梧桐山村—盤(pán)山公路—停車(chē)場(chǎng)—好漢坡—大梧桐頂,梧桐山村—梧桐山水庫(kù)—泰山澗—葫蘆池—梧桐頂,梧桐山村—梧桐山水庫(kù)—百年古道—大梧桐頂.
豐富的登頂路線(xiàn)使得旅行者可選擇的線(xiàn)路大大增加(圖2),但景區(qū)日常需投入的人力物力等成本也會(huì)大幅增加.該研究以梧桐山為研究案例,基于GPS軌跡數(shù)據(jù)對(duì)旅行者的時(shí)空行為進(jìn)行分析研究,借助軌跡數(shù)據(jù)挖掘技術(shù),分析旅行者軌跡的相似性,找出景區(qū)內(nèi)的熱點(diǎn)區(qū)域,讓景區(qū)管理投入的人力、物力資源得到合理分配.
圖2 梧桐山景區(qū)導(dǎo)游圖與眾多登山線(xiàn)路[6]
兩步路平臺(tái)是一個(gè)專(zhuān)業(yè)的基于UGC(用戶(hù)生成內(nèi)容)模式的GPS軌跡分享平臺(tái),用戶(hù)使用“戶(hù)外助手”手機(jī)APP記錄出行軌跡.兩步路平臺(tái)上的GPS軌跡數(shù)據(jù)主要包括以下信息:軌跡點(diǎn)的經(jīng)緯度、時(shí)間、速度、海拔,以及用戶(hù)上傳的照片、文字等信息.
基于兩步路旅行軌跡分享平臺(tái)上梧桐山旅行者分享的游覽軌跡進(jìn)行收集與整理,使用Python爬取獲得旅游者的軌跡數(shù)據(jù),對(duì)軌跡數(shù)據(jù)進(jìn)行一定的預(yù)處理操作,處理后的gpx格式軌跡數(shù)據(jù)利用FME軟件進(jìn)行格式轉(zhuǎn)換,轉(zhuǎn)換成Shapefile格式,最后將其進(jìn)行入庫(kù)管理.對(duì)入庫(kù)后的數(shù)據(jù)提取出軌跡中包含的時(shí)間、軌跡長(zhǎng)度等信息,接著再使用ArcGIS軟件和Excel軟件分別從空間和時(shí)間上分析旅行者的時(shí)空行為特征.
選取旅游平臺(tái)用戶(hù)2008-2019年上傳的梧桐山景區(qū)旅行軌跡和文字標(biāo)注作為研究數(shù)據(jù),使得數(shù)據(jù)的真實(shí)性與完整性有所保障,以此來(lái)對(duì)梧桐山旅行者的時(shí)空分布情況進(jìn)行長(zhǎng)達(dá)10年以上的連續(xù)性對(duì)比分析.通過(guò)分析旅行者不同年份間在梧桐山景區(qū)的旅行軌跡變化情況來(lái)了解旅行者的景觀偏好及旅行方式的變化特征.
在兩步路平臺(tái)官網(wǎng)(https://www.2bulu.com)使用“梧桐山”作為關(guān)鍵詞,搜索所有步行、長(zhǎng)度在0~30 km以?xún)?nèi)的相關(guān)軌跡,使用Python與Scrapy爬蟲(chóng)模塊對(duì)搜索結(jié)果進(jìn)行爬取,將相同軌跡與和梧桐山?jīng)]有關(guān)系的軌跡去除,最后共得到有效軌跡720條,軌跡空間分布如圖3所示.
圖3 2008-2019年梧桐山旅行者游覽軌跡分布圖
使用FME2016,從720條軌跡數(shù)據(jù)中提取出生成軌跡的時(shí)間和軌跡長(zhǎng)度,去除無(wú)時(shí)間字段和無(wú)軌跡長(zhǎng)度的數(shù)據(jù)共29條,共獲得691條真實(shí)有效的GPS軌跡數(shù)據(jù).
使用Python與Kalman噪音濾波算法[5],對(duì)所采集得到的軌跡數(shù)據(jù)中的噪音點(diǎn)(由于設(shè)備異?;蜻M(jìn)入室內(nèi)及信號(hào)受到干擾而導(dǎo)致的坐標(biāo)點(diǎn)位與實(shí)際點(diǎn)位置不符)進(jìn)行消除或削弱[2].具體如圖4所示.
圖4 軌跡數(shù)據(jù)預(yù)處理前后對(duì)比圖
使用FME2016將圖4中經(jīng)過(guò)濾波處理后的軌跡點(diǎn)與軌跡線(xiàn)進(jìn)行格式轉(zhuǎn)換,將其格式轉(zhuǎn)換為Shapefile,并將拍照點(diǎn)文字標(biāo)注導(dǎo)出到Excel中.
旅行者的GPS軌跡中,停留即旅行者在較長(zhǎng)的時(shí)間內(nèi)移動(dòng)了較短的距離.一般將停留點(diǎn)分為兩大類(lèi):第一類(lèi)就是軌跡中的某個(gè)點(diǎn)就是一個(gè)停留點(diǎn);第二類(lèi)是連續(xù)的軌跡點(diǎn)所發(fā)生的時(shí)間長(zhǎng)度遠(yuǎn)遠(yuǎn)超過(guò)正常移動(dòng)速度時(shí)所需要的時(shí)間長(zhǎng)度,此時(shí)認(rèn)為該部分連續(xù)軌跡點(diǎn)發(fā)生了停留,即認(rèn)為其是環(huán)繞軌跡停留點(diǎn).
采用的停留點(diǎn)檢測(cè)算法(表1)的基本原理是找出個(gè)體在某段軌跡內(nèi)所花費(fèi)時(shí)間超過(guò)某個(gè)閾值,然后將這一段全部的軌跡點(diǎn)作為一組停留點(diǎn),計(jì)算出這組停留點(diǎn)的停留中心.
表1 停留點(diǎn)檢測(cè)算法
使用Python與停留點(diǎn)檢測(cè)算法,計(jì)算得到所有軌跡的停留點(diǎn)以及停留中心,將停留中心X、Y坐標(biāo)輸出到Excel表中,然后使用ArcGIS軟件將停留點(diǎn)中心坐標(biāo)進(jìn)行可視化顯示,并將其轉(zhuǎn)換為Shapefile圖層,得到結(jié)果如圖5所示.
圖5 2008-2019年梧桐山旅行者停留點(diǎn)分布圖
根據(jù)當(dāng)?shù)貧夂蛱攸c(diǎn)與深圳市氣象局?jǐn)?shù)據(jù),深圳市春夏秋冬四個(gè)季節(jié)分別為2-4月,5-10月,11-12月,1月,四個(gè)季節(jié)具有不同的持續(xù)時(shí)間.本文選擇采用平均值來(lái)表達(dá)各季節(jié)游客量.將月份按季節(jié)歸類(lèi),利用Excel表格對(duì)其進(jìn)行分類(lèi)統(tǒng)計(jì),得到結(jié)果如圖6.從圖6中觀察得到2008-2019年梧桐山春季月均游客量最多,占比高達(dá)34%;其次是秋季和冬季,占比分別為23%和24%,兩季的差距并不明顯;夏季占比最低,僅為19%;由此可見(jiàn),春季是梧桐山旅游的旺季,而夏季則是梧桐山旅游的淡季.
圖6 梧桐山各季節(jié)月均游客量的占比
梧桐山旅行者訪問(wèn)月份分布不均勻,一年內(nèi)變化出現(xiàn)了2個(gè)峰值,是多峰季節(jié)型.由圖7可以看出:春季3-4月和夏季10月梧桐山的客流量出現(xiàn)了2個(gè)高峰值,而春季2月和夏季的5-9月則出現(xiàn)了明顯的2個(gè)低谷期,秋冬季的11月至1月游客量變化不大.深圳市夏季高溫多雨的氣候特征使得梧桐山景區(qū)夏季的客流量減少,10月出現(xiàn)旅行高峰是受到了“十一”長(zhǎng)假和氣溫略微下降的影響;其余三季氣候都較為宜人,因而有著較高的客流量.
圖7 梧桐山各月游客量變化
旅行者在景區(qū)內(nèi)游覽的興趣點(diǎn)和游覽路徑偏好對(duì)于旅游景區(qū)的基礎(chǔ)設(shè)施規(guī)劃有著重要的指導(dǎo)意義.本文基于兩步路平臺(tái)上用戶(hù)分享的軌跡數(shù)據(jù),進(jìn)行整理與預(yù)處理后,使用ArcGIS軟件對(duì)停留點(diǎn)進(jìn)行空間分析,試圖分析梧桐山旅行者的空間分布特征.
3.2.1 采用數(shù)據(jù)挖掘方法及原理
本研究主要采用了核密度分析和DBSCAN聚類(lèi)算法.DBSCAN聚類(lèi)算法的主要的思想是通過(guò)假設(shè)以任意一個(gè)對(duì)象p為中心,假設(shè)1一個(gè)鄰域半徑r,假設(shè)最小對(duì)象個(gè)數(shù)Min為閾值,則在對(duì)象p的周?chē)霃絩的區(qū)域內(nèi)當(dāng)對(duì)象個(gè)數(shù)滿(mǎn)足大于Min的時(shí)候,則生成一個(gè)以p為核心的聚類(lèi).依此類(lèi)推直到完成所有對(duì)象的聚類(lèi),可以認(rèn)為DBSCAN聚類(lèi)實(shí)際上是靠任意一個(gè)對(duì)象滿(mǎn)足要求的鄰域內(nèi)的對(duì)象的個(gè)數(shù)來(lái)衡量的,達(dá)到或超過(guò)要求就完成聚類(lèi).
聚類(lèi)方法DBSCAN是通過(guò)計(jì)算一個(gè)半徑為r的區(qū)域內(nèi)的對(duì)象的數(shù)量得出聚類(lèi)結(jié)果,這樣的密度估計(jì)對(duì)半徑r的大小比較敏感,為了克服這個(gè)問(wèn)題可以使用核密度估計(jì)方法.該方法是統(tǒng)計(jì)學(xué)中的一種非參數(shù)的密度估計(jì)方法,主要用于計(jì)算要素在其周?chē)徲蛑械拿芏鹊拇笮。嗣芏裙烙?jì)方法既可以計(jì)算點(diǎn)要素的密度,也可以用來(lái)計(jì)算線(xiàn)要素的密度.
將觀察對(duì)象的位置作為一個(gè)在其周?chē)鷧^(qū)域有較高的概率密度的一個(gè)指示點(diǎn),而其他位置的點(diǎn)的概率密度的大小由該點(diǎn)到觀察位置指示點(diǎn)之間的距離決定.通常情況下,x1,x2,...,xn是一個(gè)隨機(jī)變量f中的相互獨(dú)立的分布樣本,這個(gè)概率密度函數(shù)的核密度近似值可以由下式計(jì)算得到[7]:
其中,K()是一個(gè)核,h是搜尋帶寬.一個(gè)核K()可以被認(rèn)為是一個(gè)樣本點(diǎn)對(duì)其鄰域所帶來(lái)的影響值的功能模型.從技術(shù)上來(lái)說(shuō)核K()是一個(gè)非負(fù)的實(shí)數(shù)值,并且應(yīng)滿(mǎn)足下式的2個(gè)條件:
經(jīng)常使用的核是均值為0、方差為1的標(biāo)準(zhǔn)高斯函數(shù),如下式所示:
3.2.2 興趣點(diǎn)的空間分布特征
使用Python與停留點(diǎn)檢測(cè)算法,計(jì)算所有軌跡的停留點(diǎn)中心,并輸出為gpx,然后使用FME2016將所有停留點(diǎn)中心轉(zhuǎn)換到一個(gè)Shapefile里.通過(guò)ArcGIS核密度分析功能,得到的核密度結(jié)果如圖8所示.
圖8 聚類(lèi)代表性軌跡段
通過(guò)停留點(diǎn)核密度分析得到梧桐山景區(qū)核心節(jié)點(diǎn)有2個(gè),分別為大梧桐山頂和小梧桐山頂.另外,有2個(gè)亞熱點(diǎn)區(qū)域在前往大梧桐山頂?shù)穆飞希阂粋€(gè)是好漢坡前的停車(chē)場(chǎng)以及休息區(qū),另一個(gè)是從鹽田沙頭角街道出發(fā)的“碧桐道”登山路線(xiàn)上.
3.2.3 旅行者的軌跡空間分布特征
從691條旅行者軌跡的分布可以看出,旅行者走過(guò)的路線(xiàn)已經(jīng)遍布梧桐山景區(qū)大部分步道,包含了所有的登山線(xiàn)路,而旅行者選擇登山線(xiàn)路更傾向于線(xiàn)路成熟、容易行走的路線(xiàn).
使用FME將所有軌跡融合到一個(gè)Shapefile圖層內(nèi),利用ArcGIS核密度分析功能得到軌跡的核密度分析結(jié)果,游覽密度最高的路線(xiàn)是“梧桐山村一盤(pán)山公路一停車(chē)場(chǎng)一好漢坡一大梧桐頂”,也是梧桐山開(kāi)發(fā)最成熟的一條路線(xiàn).除此以外,不少旅行者還選擇了與盤(pán)山公路線(xiàn)同起點(diǎn)的百年古道線(xiàn),以及從蓮塘出發(fā)到小梧桐再到大梧桐的路線(xiàn),也都是梧桐山開(kāi)發(fā)得比較完善的線(xiàn)路.
采用軌跡分段、壓縮以及軌跡聚類(lèi)算法(表2),對(duì)兩步路平臺(tái)上獲取的深圳市梧桐山景區(qū)旅行者軌跡進(jìn)行聚類(lèi),找出梧桐山景區(qū)的代表性路徑.使用Python與DBSCAN聚類(lèi)算法,將經(jīng)過(guò)Kalman噪聲濾波處理的軌跡文件作為聚類(lèi)輸入數(shù)據(jù)集,經(jīng)過(guò)多次聚類(lèi)實(shí)驗(yàn)確定參數(shù)后,將聚類(lèi)代表性軌跡段導(dǎo)入ArcGIS中進(jìn)行可視化.DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一個(gè)比較有代表性的基于密度的聚類(lèi)算法,它將簇定義為密度相連的點(diǎn)的最大集合,能夠把具有足夠高密度的區(qū)域劃分為簇,并可在噪聲的空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)任意形狀的聚類(lèi).將該聚類(lèi)得到的結(jié)果與核密度分析結(jié)果進(jìn)行對(duì)比,發(fā)現(xiàn)兩者具有很大的相似性,這進(jìn)一步驗(yàn)證了該研究方法的可靠性.
表2 基于軌跡段的DBSCAN聚類(lèi)算法
(續(xù)表2)
根據(jù)DBSCAN聚類(lèi)提取出的代表性路徑,可以看出代表性軌跡段基本位于核密度分析結(jié)果密度較高的部分,大部分軌跡段也都處于道路上,但有部分密度較高的區(qū)域沒(méi)有聚類(lèi)結(jié)果,同時(shí)也有密度低的區(qū)域在聚類(lèi)中呈現(xiàn)出高密度結(jié)果,因此在參數(shù)上還需做進(jìn)一步的調(diào)整.
使用兩步路旅游軌跡分享平臺(tái)上用戶(hù)自行上傳的GPS旅游軌跡數(shù)據(jù),該方法在很大程度上降低了數(shù)據(jù)獲取所需的成本.以此為基礎(chǔ),使用Python對(duì)兩步路平臺(tái)的數(shù)據(jù)進(jìn)行適當(dāng)?shù)呐廊?、整理和預(yù)處理,再使用FME軟件進(jìn)行數(shù)據(jù)格式的轉(zhuǎn)換以及屬性字段的提取,結(jié)合ArcGIS軟件對(duì)停留點(diǎn)以及軌跡線(xiàn)進(jìn)行核密度分析,主要結(jié)論如下:
(1)在時(shí)間上,梧桐山旅游有明顯的淡旺季,但客流量受季節(jié)性影響程度較低.梧桐山旅游的高峰期集中在3-4月和10月,深圳市夏季高溫多雨氣候特征導(dǎo)致梧桐山的客流量受到了一定的負(fù)面影響,春節(jié)過(guò)后的春季氣候較為溫和,也讓很多旅行者選擇此時(shí)到梧桐山進(jìn)行游覽、踏春.
(2)在空間上,梧桐山的景區(qū)熱點(diǎn)集中在大梧桐山頂和小梧桐山頂附近,符合現(xiàn)實(shí)中登山旅行者的空間行為規(guī)律,登頂后的旅行者通常在山頂進(jìn)行休息.同時(shí)大梧桐好漢坡前的停車(chē)場(chǎng)作為登頂前唯一的大型休息區(qū)域,也成為了一個(gè)亞熱點(diǎn)區(qū)域.
(3)在路線(xiàn)選擇上,旅行者更傾向于選擇已開(kāi)發(fā)成熟的路線(xiàn)作為登山路線(xiàn),而未開(kāi)發(fā)成熟的路線(xiàn)則更受到登山愛(ài)好者以及本地居民的青睞.
本研究數(shù)據(jù)來(lái)源比較單一,僅使用兩步路平臺(tái)上用戶(hù)分享的數(shù)據(jù),群體覆蓋面較小,且僅從GPS軌跡數(shù)據(jù)上無(wú)法準(zhǔn)確判斷該旅行者的性別、年齡、客源地等個(gè)人信息,無(wú)法對(duì)旅行者進(jìn)行分類(lèi)分析.