邢丹梅
隨著旅游業(yè)與信息技術(shù)的深度融合,旅游大數(shù)據(jù)已經(jīng)作為一種資源而存在。對旅游大數(shù)據(jù)的分析與應(yīng)用推動了旅游業(yè)的智慧化發(fā)展。本文從旅游大數(shù)據(jù)的概念和產(chǎn)生背景入手,介紹了旅游大數(shù)據(jù)的類型,總結(jié)了旅游大數(shù)據(jù)的處理流程,同時將旅游大數(shù)據(jù)分析分為面向旅游行政管理部門的旅游市場大數(shù)據(jù)分析、基于供需角度的旅游運(yùn)營大數(shù)據(jù)分析(旅游供給方)和游客畫像(旅游需求方),并對這三大分析方向繼續(xù)細(xì)化,明確分析維度,同時闡述了旅游大數(shù)據(jù)的應(yīng)用。最后提出隨著旅游大數(shù)據(jù)的發(fā)展,旅游學(xué)研究方式也將發(fā)生巨大變化。
旅游大數(shù)據(jù)的產(chǎn)生
旅游業(yè)是一個信息依賴度非常高的行業(yè),互聯(lián)網(wǎng)技術(shù)的普及對人們的旅游活動產(chǎn)生了巨大的影響。從傳統(tǒng)的團(tuán)隊(duì)旅游到自助旅游,旅游信息是鏈接旅游者和目的地的關(guān)鍵環(huán)節(jié)。有研究表明旅游者在進(jìn)行消費(fèi)之前要進(jìn)行10次以上的旅游相關(guān)搜索,訪問20個左右網(wǎng)站;從傳統(tǒng)的線下支付轉(zhuǎn)為線上交易,支付方式發(fā)生的巨大轉(zhuǎn)變?yōu)橛慰拖M(fèi)偏好的研究提供了大量的數(shù)據(jù)資源;從傳統(tǒng)的傳播方式到現(xiàn)在的新媒體傳播,如朋友圈、攻略、點(diǎn)評、游記等,信息分享和傳播方式發(fā)生轉(zhuǎn)變,旅游大數(shù)據(jù)是一種伴生性數(shù)據(jù),伴隨著游客活動而產(chǎn)生。
旅游大數(shù)據(jù)的分類
學(xué)者們從不同的角度出發(fā),將旅游大數(shù)據(jù)分為不同類型,常見的數(shù)據(jù)類型有:政府部門數(shù)據(jù),包括公安、交通、氣象、國土、海關(guān)等,其中交通數(shù)據(jù)包括航空、高速公路等數(shù)據(jù);通信運(yùn)營商數(shù)據(jù),包括移動、聯(lián)通、電信;搜索引擎類數(shù)據(jù),如BAT;在線旅游平臺OTA交易數(shù)據(jù),如去哪兒、攜程、美團(tuán);文旅企業(yè)智慧旅游類系統(tǒng)或平臺的自有數(shù)據(jù),如景區(qū)閘機(jī)門票系統(tǒng);消費(fèi)數(shù)據(jù),如銀聯(lián)系統(tǒng)(如表1)。
表1 數(shù)據(jù)類型
數(shù)據(jù)類型 說明
政府部門數(shù)據(jù) 公安、交通、氣象、國土、海關(guān)等
通信運(yùn)營商數(shù)據(jù) 移動、電信、聯(lián)通
搜索引擎類數(shù)據(jù) BAT:百度、阿里巴巴、騰訊
OTA平臺交易數(shù)據(jù) 攜程、美團(tuán)、去哪兒等
文旅企業(yè)智慧旅游類系統(tǒng)或平臺自有數(shù)據(jù) 景區(qū)管理系統(tǒng)、酒店管理系統(tǒng)等
根據(jù)數(shù)據(jù)來源將旅游大數(shù)據(jù)分為用戶生成內(nèi)容(UGC)數(shù)據(jù)、設(shè)備數(shù)據(jù)、事務(wù)型數(shù)據(jù)三大類,并從研究重點(diǎn)、數(shù)據(jù)特征、分析技術(shù)及未來研究方向四個維度,對每一類數(shù)據(jù)的相關(guān)研究進(jìn)行了系統(tǒng)綜述。按產(chǎn)生數(shù)據(jù)的主體進(jìn)行劃分,將旅游大數(shù)據(jù)分為人產(chǎn)生的數(shù)據(jù)和機(jī)構(gòu)產(chǎn)生的數(shù)據(jù);按數(shù)據(jù)來源的行業(yè)劃分,將旅游大數(shù)據(jù)分為互聯(lián)網(wǎng)公司數(shù)據(jù),電信、金融、保險、電力及石化系統(tǒng)數(shù)據(jù),交通領(lǐng)域數(shù)據(jù)和氣象領(lǐng)域數(shù)據(jù);按存儲數(shù)據(jù)的形式劃分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù);依據(jù)數(shù)據(jù)所屬方將旅游數(shù)據(jù)劃分為內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)(如表2)。
表2 旅游大數(shù)據(jù)類型之內(nèi)部數(shù)據(jù)、外部數(shù)據(jù)
數(shù)據(jù)類別 說明 主要應(yīng)用
外部數(shù)據(jù) 互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù) 互聯(lián)網(wǎng)爬取(咨詢、論壇、貼吧、OTA等) 旅游情緒分析
廣播電視數(shù)據(jù) 各地廣播電視劇 旅游情緒分析
運(yùn)營商位置數(shù)據(jù) 電信運(yùn)營商數(shù)據(jù)、APP數(shù)據(jù) 游客行為分析
交通卡口數(shù)據(jù) 交通局、高速公路公司 游客行為分析
消費(fèi)數(shù)據(jù) 銀聯(lián)+網(wǎng)聯(lián)+收單機(jī)構(gòu) 游客消費(fèi)行為分析
搜索數(shù)據(jù) 百度、攜程、同程、馬蜂窩等 游客意向度分析
投訴數(shù)據(jù) 互聯(lián)網(wǎng)、12301、地方投訴熱線等 投訴應(yīng)對與處置
預(yù)定數(shù)據(jù) 攜程、同程、飛豬等 游客預(yù)定分析
資源數(shù)據(jù) 景區(qū)、酒店、餐飲、廁所、旅行社等的位置、名稱、規(guī)模等 旅游資源管理
內(nèi)部數(shù)據(jù) 游客入園數(shù)據(jù) 來源于園區(qū)門票閘機(jī)系統(tǒng) 游客入園分析
停車數(shù)據(jù) 來源于園區(qū)停車系統(tǒng) 自駕、團(tuán)隊(duì)游分析
其他MIS系統(tǒng)數(shù)據(jù) GIS系統(tǒng)、OA系統(tǒng)等 各類內(nèi)部分析
表格來源:旅游大數(shù)據(jù)應(yīng)用與分析教材
旅游大數(shù)據(jù)分析與應(yīng)用
旅游大數(shù)據(jù)處理流程。從技術(shù)層面來說大數(shù)據(jù)的采集可分為結(jié)構(gòu)化數(shù)據(jù)采集和非結(jié)構(gòu)化數(shù)據(jù)采集,購票信息和住宿信息等消費(fèi)數(shù)據(jù)屬于結(jié)構(gòu)化數(shù)據(jù),結(jié)構(gòu)化數(shù)據(jù)通常存儲于結(jié)構(gòu)化數(shù)據(jù)庫中,如MySQL、Sqlserver、Orcle、DB2等,在線數(shù)據(jù)庫可以作為結(jié)構(gòu)化數(shù)據(jù)存儲模塊,由于旅游大數(shù)據(jù)有量大且實(shí)時更新的特點(diǎn),如景區(qū)客流監(jiān)測統(tǒng)計數(shù)據(jù)等,在此應(yīng)用當(dāng)中更偏在線到離線的銜接,能夠支持高吞吐數(shù)據(jù)寫入及大規(guī)模數(shù)據(jù)存儲,可用于歷史數(shù)據(jù)歸檔。旅游評論、游記、曬圈等屬于非結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)的存儲及處理與Hadoop密切相關(guān),Hadoop是針對大數(shù)據(jù)處理研發(fā)的一個開源分布式系統(tǒng)架構(gòu),是一個有效解決分布式存儲和并行計算的平臺。目前旅游大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)通常存儲于Hadoop的HDFS當(dāng)中。在數(shù)據(jù)采集中,非結(jié)構(gòu)化數(shù)據(jù)的處理更加復(fù)雜,要求在采集過程中進(jìn)行相關(guān)操作,使采集完成的數(shù)據(jù)能夠方便快速進(jìn)行數(shù)據(jù)處理。
從數(shù)據(jù)所有者層面來說,現(xiàn)在很多經(jīng)營主體及管理部門都構(gòu)建有自己的智慧旅游系統(tǒng),如景區(qū)內(nèi)部的門票監(jiān)測系統(tǒng),由于實(shí)行實(shí)名制購票,通過票務(wù)信息可以采集到游客的基本信息,這方面的數(shù)據(jù)采集就是直接通過已建立好的平臺進(jìn)行數(shù)據(jù)獲取,將獲取到的數(shù)據(jù)再進(jìn)行后續(xù)處理。交通部門有交通管理平臺,能夠通過車輛識別、人臉識別采集到旅游者的出行信息。移動、電信及聯(lián)通運(yùn)營商,可以通過LBS定位游客出行路線及停留時長等數(shù)據(jù)。OTA平臺可以記錄旅游者出行計劃、行為特征、景點(diǎn)及消費(fèi)偏好。BAT平臺可以記錄旅游者搜索數(shù)據(jù)。除政府管理部門數(shù)據(jù)之外,BAT、OTA數(shù)據(jù)、網(wǎng)絡(luò)傳播數(shù)據(jù),包括點(diǎn)評、攻略及游記等,此類數(shù)據(jù)可通過八爪魚及Python等進(jìn)行網(wǎng)絡(luò)爬蟲獲取,也可通過數(shù)據(jù)擁有方提供的API接口獲取數(shù)據(jù)。
旅游大數(shù)據(jù)清洗和預(yù)處理。在數(shù)據(jù)采集完成后,需要對數(shù)據(jù)進(jìn)行治理,以提升數(shù)據(jù)質(zhì)量,方便分析應(yīng)用。數(shù)據(jù)清洗和預(yù)處理可以去除數(shù)據(jù)里的無用值、異常值、錯誤值、重復(fù)值。數(shù)據(jù)清洗可在數(shù)據(jù)導(dǎo)入后進(jìn)行審核、篩選和排序,數(shù)據(jù)預(yù)處理主要包括:數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)規(guī)約等。數(shù)據(jù)集成是把不同來源、格式的數(shù)據(jù)有機(jī)集中在數(shù)據(jù)庫中的過程,為用戶提供一個統(tǒng)一的視圖,要想實(shí)現(xiàn)高動態(tài)數(shù)據(jù)實(shí)時處理,數(shù)據(jù)集成技術(shù)最好能與流處理引擎或搜索引擎集成在一起。數(shù)據(jù)變換運(yùn)用平滑聚集、數(shù)據(jù)概化、規(guī)范化等方式將數(shù)據(jù)轉(zhuǎn)換成適用于數(shù)據(jù)挖掘的形式。數(shù)據(jù)歸約技術(shù)可以得到數(shù)據(jù)集的歸約表示,它相對較小,易于處理。在清洗和預(yù)處理完成后可以依據(jù)分析目的對數(shù)據(jù)進(jìn)行分類、分組和分主題,以方便后期分析。
旅游大數(shù)據(jù)分析挖掘。數(shù)據(jù)挖掘是挖掘出數(shù)據(jù)潛在信息和規(guī)律的過程,是從大量的、不完全的、模糊的和隨機(jī)的數(shù)據(jù)當(dāng)中抽取有價值的信息。數(shù)據(jù)挖掘主要通過分類、聚類、關(guān)聯(lián)分析、神經(jīng)網(wǎng)絡(luò)等進(jìn)行深度挖掘,用各類算法進(jìn)行建模,模型訓(xùn)練,它與機(jī)器學(xué)習(xí)、人工智能、數(shù)據(jù)庫等密切相關(guān),能夠自動分析大量數(shù)據(jù),做出歸納與整理。在旅游大數(shù)據(jù)分析挖掘中可以采用關(guān)聯(lián)分析對數(shù)據(jù)進(jìn)行搜索,找出出現(xiàn)頻率較高的數(shù)據(jù)信息,也可以通過聚類與分類,分析數(shù)據(jù)相似性及相似性數(shù)據(jù)中存在的共性,為旅游運(yùn)營決策提供服務(wù)。
可視化展示和分析報告撰寫。數(shù)據(jù)可視化可以直觀展示數(shù)據(jù)挖掘分析結(jié)果,往往以圖形圖像的方式展示給用戶,且用戶可以進(jìn)行操作,實(shí)現(xiàn)交互處理,可視化技術(shù)更易于發(fā)現(xiàn)數(shù)據(jù)中的非顯性信息,便于用戶理解。BI平臺往往集成了可視化功能,易于人們使用,除此之外,常用的可視化工具有Excel可視化、Python可視化等等。數(shù)據(jù)分析和可視化之后,將分析結(jié)果撰寫成文,為企業(yè)運(yùn)營決策提供數(shù)據(jù)支撐。
旅游大數(shù)據(jù)分析。旅游大數(shù)據(jù)分析可基于軟件工具、大數(shù)據(jù)技術(shù)和BI平臺等,聚類、關(guān)聯(lián)分析等算法集成在BI平臺當(dāng)中,在這里主要從旅游業(yè)出發(fā),選取合適的分析方法來對數(shù)據(jù)進(jìn)行分析,根據(jù)分析對象和分析目的不同,可以選擇不同的分析方法,如對比分析、結(jié)構(gòu)分析、杜邦分析、文本情感分析等等。將旅游大數(shù)據(jù)分析分為旅游市場大數(shù)據(jù)分析,主要針對行業(yè)管理部門;旅游運(yùn)營大數(shù)據(jù)分析,從供需角度講的旅游供給方;游客畫像分析,從供需角度講的旅游需求方。
游客畫像分析。智慧旅游下的游客畫像數(shù)據(jù),包括游客的基本屬性分析和行為偏好分析,對游客屬性進(jìn)行精準(zhǔn)定位,實(shí)現(xiàn)人與信息的高度匹配,實(shí)現(xiàn)智慧化的營銷。游客基本屬性分析主要從性別、年齡、學(xué)歷、職業(yè),婚姻與收入、消費(fèi)能力分析以及客源地這些維度進(jìn)行分析。游客行為數(shù)據(jù)分析可分為游客出行偏好分析、游客消費(fèi)偏好分析及旅游類APP使用偏好分析。游客出行偏好分析從交通及出行方式、出行時長、停留時間、游客活躍城市這些維度進(jìn)行分析。游客消費(fèi)偏好從酒店類型、價位偏好品牌偏好、餐飲類型偏好、景點(diǎn)類型偏好、價位區(qū)間偏好這些維度進(jìn)行分析。旅游類APP使用偏好可以從APP類型偏好、使用時長及頻率等維度進(jìn)行分析。
旅游市場大數(shù)據(jù)分析。旅游市場大數(shù)據(jù)分析主要是面向旅游行政管理部門,用于旅游市場宏觀趨勢及旅游經(jīng)濟(jì)宏觀分析,用于旅游監(jiān)管,人流預(yù)測及旅游應(yīng)急機(jī)制制定。傳統(tǒng)市場分析多采用SWOT分析、4P理論、PEST理論、波特五力模型、波士頓矩陣等,但這些傳統(tǒng)的分析理論和模型并不完全適用旅游市場大數(shù)據(jù)分析。目前很多學(xué)者和部門都發(fā)表了旅游大數(shù)據(jù)分析報告,但分析維度各有不同,總結(jié)共性得出MTSFP旅游市場大數(shù)據(jù)的五維分析,即M宏觀經(jīng)濟(jì)分析(macroeconomic analysis):旅游總?cè)舜渭巴仍鲩L率、旅游總消費(fèi)及同比增長率、城鎮(zhèn)居民旅游人次,農(nóng)村居民旅游人次,四季度旅游人次對比;T(tourist)游客分析:年齡、性別、客源地;S景點(diǎn)關(guān)注度,用景點(diǎn)網(wǎng)絡(luò)搜索量(Network search volume of scenic spots)來衡量,分析得出搜索量前10或20;F節(jié)假日(holidays),分析節(jié)假日旅游總?cè)舜?、總消費(fèi),同比增長情況等;P產(chǎn)品品類分析(products):包括酒店類、旅行社類、景區(qū)類、餐飲類等,從總數(shù)量及接待總?cè)舜?,平均價格等維度進(jìn)行分析,如酒店類,可以從酒店數(shù)量、營業(yè)收入、平均出租率,用同比或定比的方法和過往數(shù)據(jù)進(jìn)行對比以分析發(fā)展趨勢、旅游總?cè)舜?、旅游總消費(fèi)、總體發(fā)展態(tài)勢等。
旅游運(yùn)營大數(shù)據(jù)分析。旅游實(shí)時客流監(jiān)測與統(tǒng)計可以從實(shí)時客流監(jiān)測、客流趨勢、客流分布這三個方面進(jìn)行分析,具體分析內(nèi)容包括實(shí)時客流統(tǒng)計、實(shí)時客流分布、客流動態(tài)預(yù)警、客流對比分析、客流趨勢分析、分項(xiàng)匯總分析,最終以動態(tài)可視化呈現(xiàn),如熱力圖、詞云圖、可視化大屏等,依托于智慧旅游系統(tǒng)或相關(guān)BI平臺。
品牌影響力分析。旅游品牌維度指數(shù)是以該旅游品牌同類景區(qū)/目的地品牌五大維度指數(shù)均值作為基值,采用3期平滑的方式計算得出的數(shù)值,對于對比同類型景區(qū)/旅游目的地不同維度對于品牌的影響具有重要參考價值。品牌五大指數(shù)分別為旅游品牌知名度、旅游品牌忠誠度、旅游品牌獲得感、旅游品牌質(zhì)量、旅游品牌個性,這五大維度有具體的計算公式,需要將獲取到的數(shù)據(jù)套入公式計算,衡量旅游品牌影響力。
游客評價與滿意度分析。游客評價與滿意度分析傳統(tǒng)采用的是問卷調(diào)查法,線下數(shù)據(jù)有限,樣本量相對較小,大數(shù)據(jù)和云計算等信息技術(shù)的高速發(fā)展使批量的、實(shí)時的UGC數(shù)據(jù)采集成為可能,目前主要采集的是OTA在線旅游機(jī)構(gòu)的評論數(shù)據(jù),如美團(tuán)、攜程、去哪兒,但不局限于酒店評價、景區(qū)評價、購物評價等。目前學(xué)者們常用的分析方法是基于UGC用戶生成數(shù)據(jù),爬取攜程、去哪兒等的游客點(diǎn)評、攻略、游記,把爬取數(shù)據(jù)進(jìn)行整理清洗、編碼導(dǎo)入,用ROST CM6進(jìn)行旅游情感分析,主要包括詞頻分析、社會網(wǎng)絡(luò)分析、流量分析、情感分析等等。除此之外,一些BI平臺已可以實(shí)現(xiàn)整個UGC用戶生成數(shù)據(jù)采集到評價與滿意度分析的全自動化,如海鰻云等。用戶生成(user generated content,UGC)數(shù)據(jù)尤其是點(diǎn)評、游記、攻略等常被用于游客滿意度分析及游客感知旅游意象研究。
旅游輿情監(jiān)測與分析。當(dāng)前很多輿情監(jiān)測系統(tǒng)都可以進(jìn)行輿情預(yù)警,設(shè)置提醒條件,當(dāng)有達(dá)到提醒值的負(fù)面輿情出現(xiàn)時,會自動進(jìn)行輿情警示。旅游輿情內(nèi)容主要來源于UGC,主要關(guān)注公眾情緒。旅游輿情三要素:主題、情緒、聲量。公眾關(guān)注事件的網(wǎng)絡(luò)輿情生命周期分為四個階段:潛伏期、成長期、成熟期、衰退期。針對不同的分析目的和分析內(nèi)容可以采用不同的分析方法,如針對熱點(diǎn)挖掘,采用詞云圖及關(guān)聯(lián)規(guī)則等;針對情感分析可借助分析工具如ROSTCM6,也可采用貝葉斯及隨機(jī)森林分析;針對長文本,采用語義分析等。分析維度具體包含情感分析、熱詞分析、傳播分析、話題聚類等。
旅游大數(shù)據(jù)的應(yīng)用。旅游大數(shù)據(jù)從三個層面服務(wù)于旅游業(yè):智慧化管理,主要面向旅游行政管理部門,如旅游局;智慧化服務(wù),以游客為主體,主要對旅游運(yùn)營大數(shù)據(jù)進(jìn)行分析,以提升旅游供給方服務(wù)質(zhì)量為目的;智慧化營銷,基于旅游需求方,以繪制游客畫像為途徑,以個性化推薦、精準(zhǔn)化營銷為目的。具體作用在于有助于進(jìn)行精確的旅游市場定位、有助于精準(zhǔn)廣告營銷、有助于個性化旅游推薦服務(wù)、有助于挖掘潛在有價值的旅游信息、有助于旅游線路優(yōu)化、實(shí)現(xiàn)人與信息的高度匹配、有助于行業(yè)管理、創(chuàng)新旅游開發(fā)向C2B定制旅游模式轉(zhuǎn)變。
總而言之,我國旅游大數(shù)據(jù)正處在快速發(fā)展時期,不僅改變了人們的出游方式和消費(fèi)方式,也給旅游研究帶來了顯著變化。旅游大數(shù)據(jù)彌補(bǔ)了傳統(tǒng)問卷調(diào)查的不足,以批量的、實(shí)時的大數(shù)據(jù)作為分析樣本使分析結(jié)果更加精確,但由于旅游業(yè)本身的特殊性和跨學(xué)科性,旅游大數(shù)據(jù)分析與應(yīng)用仍存在進(jìn)一步研究的空間。本文從技術(shù)層面總結(jié)了旅游大數(shù)據(jù)處理流程,從供需角度將旅游大數(shù)據(jù)分析細(xì)化為旅游市場大數(shù)據(jù)分析、游客畫像、旅游運(yùn)營大數(shù)據(jù)分析,細(xì)化了分析維度,提出了旅游市場大數(shù)據(jù)MTSFP五維分析,根據(jù)旅游大數(shù)據(jù)分析體系構(gòu)建子類別的旅游大數(shù)據(jù)分析模型,將分析模型應(yīng)用于旅游業(yè)中,將推動旅游業(yè)實(shí)現(xiàn)智慧化管理、智慧化服務(wù)和智慧化營銷,同時隨著旅游大數(shù)據(jù)的發(fā)展,將會有更多的大數(shù)據(jù)分析技術(shù)應(yīng)用于旅游行業(yè)當(dāng)中,旅游學(xué)研究方式也將發(fā)生巨大變化。
(作者單位:鄭州旅游職業(yè)學(xué)院 信息工程學(xué)院)