張傳才, 梁留科, 蘇小燕, 余汝藝,邊青全, 楊 康, 劉亞靜
(1.洛陽師范學(xué)院國土與旅游學(xué)院, 河南洛陽 471934; 2.河南省旅游公共服務(wù)大數(shù)據(jù)產(chǎn)業(yè)技術(shù)研究院, 河南洛陽 471934)
大數(shù)據(jù)時代為潛在游客獲取旅游信息提供了前所未有的便利, 同時為旅游管理部門提供了先進的管理方法, 為旅游研究提供了海量異構(gòu)的數(shù)據(jù)資源, 大數(shù)據(jù)技術(shù)及方法體系已經(jīng)融入到旅游行業(yè)的各個方面. 旅游行業(yè)因其行業(yè)廣、 規(guī)模大、 移動范圍廣的特點, 而更加依賴于大數(shù)據(jù). 因此旅游大數(shù)據(jù)的解決目標在于整合多種大數(shù)據(jù)信息, 為國內(nèi)旅游業(yè)提供大數(shù)據(jù)解決方案, 促進旅游業(yè)的轉(zhuǎn)型升級. 旅游網(wǎng)絡(luò)數(shù)據(jù)和客流量數(shù)據(jù)的關(guān)系問題是旅游大數(shù)分析的基本問題[1]. 旅游網(wǎng)絡(luò)關(guān)注度數(shù)據(jù)是旅游網(wǎng)絡(luò)數(shù)據(jù)的重要組成部分, 反應(yīng)了潛在游客的旅游出行意向和旅游出行沖動. 根據(jù)旅游網(wǎng)絡(luò)關(guān)注度可以了解旅游市場興趣的分布及發(fā)展趨勢等狀況, 為客流量預(yù)測、 客流預(yù)警、 旅游市場營銷提供強大的數(shù)據(jù)支撐.
已有多位學(xué)者對旅游網(wǎng)絡(luò)關(guān)注度與客流量的相關(guān)性進行了系列研究. 馬麗君等研究了九寨溝2016年的移動游客網(wǎng)絡(luò)關(guān)注度與客流量的關(guān)系, 表明二者存在雙向格蘭杰因果關(guān)系[2]. 奚萬松等以浙江金華雙龍洞景區(qū)為例研究了旅游景區(qū)網(wǎng)絡(luò)關(guān)注度與客流量關(guān)系, 研究表明因旅游出行相對旅游網(wǎng)絡(luò)關(guān)注度具有滯后性, 日百度指數(shù)和日客流量之間并無顯著的線性關(guān)系[3]. 楊錦坤等研究認為旅游網(wǎng)絡(luò)關(guān)注度的前兆效應(yīng)在弱化, 這與移動互聯(lián)網(wǎng)的發(fā)展具有一定的關(guān)系[4]. 鄭玉蓮等研究了蕪湖方特四個園區(qū)網(wǎng)絡(luò)關(guān)注度對客流量的影響強弱關(guān)系[5]. 汪秋菊等研究了客流量與旅游網(wǎng)絡(luò)關(guān)注度的耦合關(guān)系[6], 王玉霞等研究認為首都博物館的客流量與網(wǎng)絡(luò)關(guān)注度之間存在波動周期性關(guān)系, 通過自回歸模型驗證了首都博物館的網(wǎng)絡(luò)關(guān)注度對客流量的前兆效應(yīng)[7]. 此外, 還有多個學(xué)者對旅游網(wǎng)絡(luò)關(guān)注度與客流量的相關(guān)性進行了研究[8].
與已有研究不同, 本研究綜合運用大數(shù)據(jù)挖掘分析軟件Rapid Miner和ArcGIS從省內(nèi)市際和省際兩個區(qū)域尺度研究旅游網(wǎng)絡(luò)關(guān)注度的時空特征以及與客流量的相關(guān)性特征, 從一定程度上豐富了本課題的研究豐度, 進一步探索了二者在不同時空尺度上的相關(guān)性問題, 對旅游管理與市場營銷具有一定的參考價值.
洛陽, 簡稱“洛”, 或別稱洛邑、 洛京, 河南省下轄市. 洛陽北扼黃河, 南望伏牛, 東鎮(zhèn)虎牢, 西據(jù)崤函. 洛陽地處中原, 自古就有“天下之中”的稱號. 洛陽有5 000多年文明史, 是國務(wù)院首批公布的歷史文化名城之一. 洛陽作為華夏五千年文明的發(fā)祥地之一, 先后有105位帝王定鼎于九州. 截止到2015年洛陽擁有三項世界文化遺產(chǎn), 在洛河兩岸分布有夏都二里頭遺址、 偃師商城等都城遺址.
洛陽是中國重要的旅游目的地之一, 洛陽市以“千年帝都, 牡丹花城, 絲路起點, 山水洛陽”的形象舉世聞名, 洛陽有五個5A級景區(qū), 即白云山風(fēng)景區(qū)、 龍門石窟、 老君山、 龍?zhí)洞髰{谷和雞冠洞, 有4A級景區(qū)23家. 2019年洛陽市接待國內(nèi)外游客已經(jīng)超過1億人次, 其中接待入境的游客有150.1萬人次, 增長6.2%. 旅游總收入1 321.02億元, 增長15.0%; 其中創(chuàng)匯收入4.48億美元, 增長3.7%.
客源大數(shù)據(jù)是關(guān)鍵數(shù)據(jù)源, 來源于洛陽旅游大數(shù)據(jù)分析平臺. 搜索大數(shù)據(jù)的數(shù)據(jù)豐度很大, 本研究中的搜索大數(shù)據(jù)主要使用從百度大數(shù)據(jù)平臺采集的綜合搜索指數(shù). 本文中網(wǎng)絡(luò)關(guān)注度用百度指數(shù)表示. 數(shù)據(jù)豐度包括河南省內(nèi)各市來洛游客量和洛陽5A景區(qū)的百度指數(shù)數(shù)據(jù), 以及全國各省來洛客流量和對洛陽5A景區(qū)的百度搜索指數(shù), 時間尺度都為2016~2019年四個年份的年度數(shù)據(jù).
旅游大數(shù)據(jù)的加工與清洗是進行旅游大數(shù)據(jù)分析的基礎(chǔ). 數(shù)據(jù)加工的方法有很多,比如數(shù)據(jù)抽取、 數(shù)據(jù)計算、 數(shù)據(jù)分組、 數(shù)據(jù)轉(zhuǎn)換等. 為了使用大數(shù)據(jù)分析挖掘軟件Rapid Miner對洛陽旅游的網(wǎng)絡(luò)關(guān)注度與客流量的相關(guān)性進行研究, 數(shù)據(jù)經(jīng)過清洗、 整理和歸納, 對2016~2019四個年份的旅游網(wǎng)絡(luò)關(guān)注度數(shù)據(jù)和客流量數(shù)據(jù)進行結(jié)構(gòu)化制表. 為了從時空角度研究旅游網(wǎng)路關(guān)注度的特征, 創(chuàng)建ArcGIS的旅游網(wǎng)絡(luò)關(guān)注度和客流量數(shù)據(jù)庫.
基于洛陽旅游大數(shù)據(jù)分析平臺提取河南省各地市來洛的客流量數(shù)據(jù)和全國各省來洛的客流量數(shù)據(jù), 通過百度指數(shù)采集軟件抓取河南省各地市對洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度和全國各省對洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度數(shù)據(jù), 建立ArcGIS的旅游網(wǎng)絡(luò)關(guān)注度和客流量數(shù)據(jù)庫, 使用ArcGIS的分級和圖表可視化功能, 制作旅游洛陽網(wǎng)絡(luò)關(guān)注度時空特征分析圖和客流量時空特征分析圖. 另一方面, 通過在Rapid Miner中構(gòu)建5A景區(qū)旅游網(wǎng)絡(luò)關(guān)注度和客流量的關(guān)聯(lián)矩陣, 探索客流與5A景區(qū)旅游網(wǎng)絡(luò)關(guān)注度的相關(guān)性以及各個景區(qū)旅游網(wǎng)絡(luò)關(guān)注度的相關(guān)性.
基于構(gòu)建的旅游網(wǎng)絡(luò)關(guān)注度和客流量數(shù)據(jù)庫, 使用ArcGIS軟件繪制, 全國各省對洛陽旅游網(wǎng)絡(luò)關(guān)注度的專題圖(見圖1).
圖1 各省2018與2019年對洛陽旅游的網(wǎng)絡(luò)關(guān)注度
根據(jù)圖1, 全國各省對洛陽旅游的網(wǎng)絡(luò)關(guān)注度的高區(qū)主要分布在中國中東部地區(qū), 2019年的百度指數(shù)和反應(yīng)了網(wǎng)絡(luò)關(guān)注度的整體情況. 從圖1可以看出, 洛陽旅游的整體網(wǎng)絡(luò)關(guān)注度情況主要分布在河南省的周邊省份, 與距離具有正相關(guān)性. 除相鄰省份之外, 洛陽旅游網(wǎng)絡(luò)關(guān)注度高的省份還包括北京、 遼寧、 浙江和廣東等. 廣東省距離河南省距離相當遠, 但對洛陽旅游5A景區(qū)的網(wǎng)絡(luò)關(guān)注度表現(xiàn)出異常的高, 研究認為這與廣東的經(jīng)濟水平十分高具有較大的關(guān)系. 從2018年和2019年的洛陽旅游網(wǎng)絡(luò)關(guān)注度可以看出, 除廣東省外, 中東部地區(qū)旅游網(wǎng)絡(luò)關(guān)注度比較高的省份和直轄市, 基本都是龍門石窟據(jù)百度指數(shù)高位, 這與龍門石窟作為洛陽旅游的代表性景區(qū)和龍門石窟的知名度具有很大的關(guān)系. 廣東省對洛陽旅游網(wǎng)絡(luò)關(guān)注度出現(xiàn)異常情況, 廣東省對白云山的網(wǎng)絡(luò)關(guān)注度出現(xiàn)異常高的情況, 竟然明顯高于對龍門石窟的網(wǎng)絡(luò)關(guān)注度, 出現(xiàn)這種情況的原因有待深入研究.
基于構(gòu)建的旅游網(wǎng)絡(luò)關(guān)注度和客流量數(shù)據(jù)庫, 使用ArcGIS軟件繪制全國各省來洛陽旅游客流量的專題圖(見圖2).
圖2 各省2018與2019年來洛陽旅游人數(shù)
根據(jù)圖2, 來洛客流量周邊省份明顯高于其他省份和地區(qū), 因此, 可以認為距離是影響來洛客流量的主要因素. 從圖2可以看出, 從2016年至2019年, 各省來洛客流量出現(xiàn)明顯的上升趨勢, 變化速率快的省份仍然是相鄰省份, 因此相鄰省份仍然是洛陽旅游的主要貢獻者.
根據(jù)圖1和圖2, 各省對洛陽旅游的網(wǎng)絡(luò)關(guān)注度東部地區(qū)都比較大, 但是來洛客流量卻僅集中在相鄰省份, 因此, 二者在空間上仍然存在差異. 除與河南相鄰的省份之外, 中東部省份對洛陽旅游5A景區(qū)的網(wǎng)絡(luò)關(guān)注度高, 但是來洛客流量低于河南的相鄰省份. 因此, 這些省份的潛在游客量十分龐大, 目前至洛陽的公共交通十分方便, 通過加大宣傳力度等營銷手段, 促使這些省份的潛在游客盡可能多的參與實際出行, 成為真正的來洛游客. 廣東省對洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度異常的高, 從一定程度上說, 廣東省的客源市場潛力十分龐大.
根據(jù)洛陽旅游大數(shù)據(jù)分析平臺, 分別抽取2016年至2019年河南省17個地市(不包含濟源)來洛陽旅游的人數(shù). 通過百度指數(shù)爬蟲軟件提取2016年至2019年河南省17個地市(不包含濟源)對洛陽5A景區(qū)的百度搜索綜合指數(shù). 將四個年份的客流量數(shù)據(jù)和洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度數(shù)據(jù)進行結(jié)構(gòu)化處理, 運用Rapid Miner大數(shù)據(jù)分析挖掘軟件中的關(guān)聯(lián)模型中的關(guān)聯(lián)矩陣模型對結(jié)構(gòu)化的客流量數(shù)據(jù)和洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度數(shù)據(jù)進行關(guān)聯(lián)矩陣構(gòu)建, 獲取客流量與旅游網(wǎng)絡(luò)關(guān)注度6種指標兩兩間的相關(guān)系數(shù). 圖3顯示了2016年、 2018年和2019年的6種指標的關(guān)聯(lián)矩陣.
所有介于0到1之間的關(guān)聯(lián)系數(shù)都表示正關(guān)聯(lián), 而介于0到-1之間的關(guān)聯(lián)系數(shù)則表示負關(guān)聯(lián). 正關(guān)聯(lián)意味著另一個屬性的值會隨著一個屬性值的上升而上升. 正關(guān)聯(lián)還意味著當一個屬性的值下降時, 另一個屬性的值也會下降. 如果一個屬性值下降而另一個屬性值在上升, 則它們之間的相關(guān)性為負相關(guān).
根據(jù)圖3所示的河南省17個地市的客流量和5A景區(qū)網(wǎng)絡(luò)關(guān)注度建立的關(guān)聯(lián)矩陣, 可以看出2016年、 2018年和2019年河南各個地市來洛客流量與洛陽5A景區(qū)網(wǎng)絡(luò)關(guān)注度的相關(guān)性很低, 從數(shù)據(jù)顯示看, 有的相關(guān)系數(shù)低于0.4, 即不具有相關(guān)性. 因此, 研究認為河南省各地市來洛旅游更大程度上不依賴于網(wǎng)絡(luò)搜索, 而是通過媒體宣傳信息等手段獲取旅游出行相關(guān)信息.
圖3 河南省各地市來洛客流量及對洛陽5A景區(qū)的百度指數(shù)
根據(jù)洛陽旅游大數(shù)據(jù)分析平臺, 分別提取2016年至2019年四個年份的全國各省來洛陽的客流量. 通過百度指數(shù)爬蟲軟件提取2016年至2019年四個年份全國各省對洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度數(shù)據(jù). 運用Rapid Miner大數(shù)據(jù)分析挖掘軟件中的關(guān)聯(lián)模型中的關(guān)聯(lián)矩陣模型對結(jié)構(gòu)化的客流量數(shù)據(jù)和洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度數(shù)據(jù)進行關(guān)聯(lián)矩陣構(gòu)建, 獲取客流量與旅游網(wǎng)絡(luò)關(guān)注度6種指標兩兩間的相關(guān)系數(shù). 圖3顯示了2016年、 2018年和2019年各省的6種指標的關(guān)聯(lián)矩陣.
根據(jù)圖4, 各省來洛客流量與對洛陽5A級景區(qū)的網(wǎng)絡(luò)關(guān)注度創(chuàng)建的關(guān)聯(lián)矩陣, 可以看出客流量與各省對洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度, 除2019年客流量與對龍門石窟的網(wǎng)絡(luò)關(guān)注的相關(guān)系數(shù)為0.674外, 其他兩兩相關(guān)系數(shù)都是大于0.8, 即具有極大相關(guān)性. 各省對洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度間的相關(guān)系數(shù)絕大部分與是大于0.8, 具有極大的相關(guān)性.
根據(jù)圖1、 2顯示的在中國中東部各省對洛陽5A級景區(qū)的網(wǎng)絡(luò)關(guān)注度與來洛客流量關(guān)系, 以及圖4表現(xiàn)出來的強關(guān)聯(lián)性, 排除相鄰省份外的其他省份, 進行旅游營銷的必要性是十分強的.
圖4 客流量與洛陽5A景區(qū)6個指標間的兩兩關(guān)聯(lián)矩陣
基于洛陽旅游大數(shù)據(jù)分析平臺獲取2016年至2019年四個年份的客流量數(shù)據(jù), 基于百度指數(shù)爬蟲軟件采集相應(yīng)四個年份的網(wǎng)絡(luò)關(guān)注度數(shù)據(jù). 基于ArcGIS研究了洛陽旅游網(wǎng)絡(luò)關(guān)注度的時空分布特征, 基于Rapid Miner大數(shù)據(jù)分析軟件從河南省各市地層次和全國省級層次探索了2016年至2019年四個年份客流量與旅游網(wǎng)絡(luò)關(guān)注度的相關(guān)性挖掘. 研究表明: 河南省各地市來洛客流量與洛陽5A景區(qū)網(wǎng)絡(luò)關(guān)注度間基本不具有相關(guān)性; 全國各省來洛客流量與各省對洛陽5A景區(qū)的網(wǎng)絡(luò)關(guān)注度具有很強的相關(guān)性; 除河南相鄰省份外的中東部省份更具有較強的旅游市場深入開發(fā)和旅游深度營銷的潛力.
從年度尺度上對洛陽客流量與網(wǎng)絡(luò)關(guān)注度的相關(guān)性進行了分析, 時間尺度較粗, 在月尺度和周尺度以及旅游黃金周和日尺度上是否表現(xiàn)出相似的規(guī)律有待深入研究. 另外, 游客出行相對旅游網(wǎng)絡(luò)搜索具有一定的滯后性, 因此在日尺度上, 二者間的相關(guān)性規(guī)律有待深入研究.