衛(wèi)俊杰
旅游業(yè)與大數(shù)據(jù)有著內(nèi)在的本質(zhì)的聯(lián)系,旅游者在旅游過程中的每一個階段都與數(shù)據(jù)有關(guān)。在旅游活動開始前旅游者就開始了搜集信息,在旅游過程中旅游者又通過社交媒體不斷的分享自己的旅游經(jīng)歷,在旅游活動結(jié)束之后又面臨旅游者的各種活動的反饋。隨著互聯(lián)網(wǎng)及IT技術(shù)的飛速發(fā)展,旅游者的各種信息在保護隱私的前提下不僅可以完整的保留下來,而且可以用于旅游行業(yè)未來的預(yù)測以及服務(wù)的改進,這也是旅游業(yè)大數(shù)據(jù)研究的基礎(chǔ)。在這樣的背景下,如何快速有效的獲取數(shù)據(jù)也成為每一位從業(yè)人員和科研工作者所困擾的問題。本文從國內(nèi)外現(xiàn)有案例的基礎(chǔ)上總結(jié)出目前旅游業(yè)大數(shù)據(jù)的主要來源和獲取方式,以期促進我國旅游業(yè)大數(shù)據(jù)研究的發(fā)展。
引言
數(shù)據(jù)是科研工作的重要基礎(chǔ),大數(shù)據(jù)對與科學(xué)研究來說具有不可抗拒的魅力。國內(nèi)外一些研究者和研究機構(gòu)都給出了大數(shù)據(jù)的定義,麥肯錫在其一份商業(yè)報告中提出:“大數(shù)據(jù)指的是大小超出常規(guī)的數(shù)據(jù)庫工具獲取、存儲、管理和分析能力的數(shù)據(jù)集?!盡ayer-Schonberger&Cukier認為大數(shù)據(jù)是在因特網(wǎng)廣泛發(fā)展的基礎(chǔ)上產(chǎn)生的不能用傳統(tǒng)類型的關(guān)系數(shù)據(jù)庫處理的大量數(shù)據(jù)。ViktorMayer-Sch?nberger認為大數(shù)據(jù)指不用抽樣調(diào)查這樣的捷徑,而采用所有數(shù)據(jù)進行分析處理。經(jīng)過多個企業(yè)、機構(gòu)和數(shù)據(jù)科學(xué)家對于大數(shù)據(jù)的理解闡述,雖然描述不一,但都存在一個普遍共識,即“大數(shù)據(jù)”的關(guān)鍵是在種類繁多、數(shù)量龐大的數(shù)據(jù)中,快速獲取信息。
在旅游研究中,傳統(tǒng)意義上的定量研究主要依賴于抽樣方法建立模型,通過假設(shè)檢驗從樣本推及到總體。在一個資源有限的時代,要收集總體的全部數(shù)據(jù)需要付出很高的代價,抽樣是定量研究的常用方法,因為其方便快捷獲得了研究者的偏愛。Nuzzo(2014)對傳統(tǒng)定量研究中模型中的假設(shè)檢驗提出了質(zhì)疑,認為人們在數(shù)據(jù)量較小的情況下過高的估計了P值的作用。同時,在傳統(tǒng)的抽樣方法中,抽樣的過程往往有可能會存在研究者的偏見和對游客產(chǎn)生影響,導(dǎo)致獲取的數(shù)據(jù)不夠客觀。大數(shù)據(jù)記錄的是旅游者的平常狀態(tài),這也會將研究者對旅游者的影響盡量減小。旅游學(xué)科的定量的研究因為大數(shù)據(jù)的收集與存儲發(fā)生了變化,數(shù)據(jù)不再局限于抽樣方法獲得的小樣本,在一定意義上我們甚至可以獲得總體的全部數(shù)據(jù)。在全數(shù)據(jù)模式下“樣本=總體”,社會科學(xué)的定量研究方法也將因此產(chǎn)生較大的改變。
社會科學(xué)的研究方法不能局限于理論模型的建立,更重要的是獲取更完整的數(shù)據(jù)和處理數(shù)據(jù)的工具。目前,大部分的研究都集中于數(shù)據(jù)的存儲和分析,大數(shù)據(jù)的獲取問題仍然是一個相對被忽視的領(lǐng)域,但是我們要認識到大數(shù)據(jù)的獲取應(yīng)該與其他研究一樣重要。然而,僅有少數(shù)的公司有足夠的資源或者能力去獲得巨量的數(shù)據(jù)。因此不僅要掌握分析大數(shù)據(jù)的技能,更重要的是利用各種技術(shù)去收集數(shù)據(jù),并把這些非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)換為我們可用的信息。
鑒于此,本文從國內(nèi)外已有的案例出發(fā),對旅游業(yè)大數(shù)據(jù)的獲取途徑和方法進行梳理,在總結(jié)各類方法的主要特點、優(yōu)劣勢、使用范圍的基礎(chǔ)上,指出目前研究中存在的主要矛盾,以期拋磚引玉,促進我國旅游業(yè)大數(shù)據(jù)研究的進一步發(fā)展。
一、旅游業(yè)大數(shù)據(jù)來源分類
旅游意味著旅游者空間位置的變換,當下的旅游者在活動過程中往往會攜帶一些智能設(shè)備(比如手機),并用這些設(shè)備與旅游產(chǎn)業(yè)進行交互,在交互的過程中將會產(chǎn)生數(shù)量非常龐大的數(shù)據(jù)。根據(jù)公眾貢獻數(shù)據(jù)的主動性,可以把大數(shù)據(jù)分為主動式與被動式。其中,主動式大數(shù)據(jù)主要指旅游電商平臺購買后的評價和游記類網(wǎng)站的內(nèi)容分享,本文中的主動式數(shù)據(jù)只要指旅游者的用戶生成內(nèi)容(UGC)。被動式大數(shù)據(jù)是游客在使用智能設(shè)備時在運營商或旅游服務(wù)提供商后臺產(chǎn)生的數(shù)據(jù),如使用網(wǎng)站交易數(shù)據(jù)、搜索引擎、網(wǎng)站的瀏覽痕跡、旅行GPS軌跡數(shù)據(jù)、運營商基站數(shù)據(jù)等,本文把被動式大數(shù)據(jù)來源分成了三類:搜索引擎,網(wǎng)站分析系統(tǒng)和現(xiàn)代追蹤設(shè)備。對這些海量多類型數(shù)據(jù)的獲取與分析能夠為旅游景區(qū)發(fā)展與旅游相關(guān)領(lǐng)域的研究帶來深遠影響。
所有的這些信息都可以用來分析旅游者的喜好、動機以及旅游過程中的體驗。當我們把所有的這些信息都整合在一起的時候,就會變的更加有說服力。
(一)搜索引擎
目前關(guān)于搜索引擎的研究主要集中在計算機科學(xué)與信息科學(xué)領(lǐng)域,主要關(guān)注的焦點是搜索引擎的排序算法。但是我們要認識到,旅游者作為搜索引擎的使用者,網(wǎng)絡(luò)搜索數(shù)據(jù)記錄了用戶的搜索關(guān)注與需求,為研究旅游經(jīng)濟行為提供了必要數(shù)據(jù)基礎(chǔ)。搜索引擎已經(jīng)成為旅游者查詢和篩選信息的最重要的途徑之一,同時也成為了旅游服務(wù)提供商發(fā)現(xiàn)潛在的旅游者的最佳方式。
來自于搜索引擎的大數(shù)據(jù)主要由旅游者的原始查詢記錄、搜索引擎提供的指數(shù)和大數(shù)據(jù)API三部分組成。Pan,B.(2006)通過Excite公司提供給匹茲堡大學(xué)的1025910次查詢記錄分析了與旅游相關(guān)的關(guān)鍵詞,他發(fā)現(xiàn)旅游者在每次搜索旅游目的地信息時大概使用三個關(guān)鍵詞,每個查詢過程至少要搜索三次,在搜索結(jié)果頁面旅游者會往后翻1.7頁。方世巧,馬耀峰(2012)以百度搜索結(jié)果為數(shù)據(jù)源,對西安市A級景區(qū)信息與旅游流進行耦合分析。
Google是世界上最流行的搜索引擎,Baidu是中國市場份額最高的搜索引擎,他們都提供免費的歷史搜索數(shù)據(jù)指數(shù)查詢,分別被稱為googletrend和baiduindex。黃先開(2013)以BaiduIndex為數(shù)據(jù)源,對北京故宮的游客進行了預(yù)測研究。王煉,賈建民(2014)以BaiduIndex為數(shù)據(jù)源,對黃金周期間的旅游需求進行了預(yù)測。ProsperF.Bangwayo-Skeete(2015)通過在googletrend中搜索“酒店和航班”得到的時間序列數(shù)據(jù)對未來的游客量進行了預(yù)測。RobertoRivera(2016)以GoogleTrend為數(shù)據(jù)源對波多黎各的酒店預(yù)定進行了預(yù)測。
隨著算法的改進和存儲技術(shù)的提升,搜索引擎每天處理的數(shù)據(jù)量越來越大,百度每天要處理近100PB數(shù)據(jù),這對于大數(shù)據(jù)研究者也提出了挑戰(zhàn),因為這么大的數(shù)據(jù)量不僅需要強大的計算服務(wù)器,而且需要非常完善的算法。為了避免這些問題出現(xiàn),百度開放了專門的大數(shù)據(jù)旅游API接口。研究者可以通過程序設(shè)計與百度API對接來獲取數(shù)據(jù)。雖然API技術(shù)對于編程技術(shù)人員來說并不復(fù)雜,但是從我國的研究文獻來說,還沒有出現(xiàn)旅游業(yè)相關(guān)的研究。國外雖然有相關(guān)文獻,但是也并不多。
(二)網(wǎng)站分析系統(tǒng)
獲取網(wǎng)站流量統(tǒng)計資料通常有兩種方法:一種是采用自己開發(fā)的網(wǎng)站流量分析服務(wù);另一種是通過在自己的網(wǎng)站服務(wù)器端安裝統(tǒng)計分析軟件來進行網(wǎng)站流量監(jiān)測(如:百度統(tǒng)計,GoogleAnalytics)。這些數(shù)據(jù)大致可以分為三類,每類包含若干數(shù)量的統(tǒng)計指標。
因為這類數(shù)據(jù)的獲取需要在網(wǎng)站頁面中嵌入javascript代碼,多數(shù)的研究者并沒有實際運營網(wǎng)站或者是沒有權(quán)限嵌入代碼,所以這類工作主要由網(wǎng)站數(shù)據(jù)分析人員完成,因此國內(nèi)外文獻并不多。BeatrizPlaza通過GoogleAnalytics分析了http://www.scholars-on-bilbao.info的游客訪問數(shù)據(jù)。
因為考慮到商業(yè)數(shù)據(jù)不愿被其他機構(gòu)獲取,有些網(wǎng)站往往獨立開發(fā)自己的分析系統(tǒng)。房如華以酷訊旅游為例分析了如何獲取潛在的旅游者在網(wǎng)站的點擊行為、訪問路徑、訪問內(nèi)容等,并通過數(shù)據(jù)的清洗、分析、挖掘來提高用戶的轉(zhuǎn)化率。
(三)現(xiàn)代追蹤技術(shù)
隨著通信技術(shù)的飛速發(fā)展,旅游研究的方法、管理的工具以及市場營銷的方式也發(fā)生了改變?,F(xiàn)代追蹤技術(shù)及通信數(shù)據(jù)的積累讓研究者重新思考用一些新的概念和方法來研究旅游業(yè)。根據(jù)使用設(shè)備的不同,本文將其按照數(shù)據(jù)來源的不同分為移動電話、GPS和藍牙數(shù)據(jù)。
最早將移動電話追蹤定位技術(shù)用于旅游進行探索和概念研究的是Ahas,R.,&Mark,?.(2005)。JanikaRaun用EMT提供的在愛沙尼亞漫游的外地手機進行了研究,他的數(shù)據(jù)主要由兩部分組成,第一部分是來自于塔林和哈留的215643個電話的406590次訪問,第二部分數(shù)據(jù)來自于到訪saare的47377個電話的59401次訪問。隨后又有一些學(xué)者開發(fā)出了不同的數(shù)據(jù)源研究了旅游者更為深層次的空間行為。TelefónicaandRocaSalvatella在一份關(guān)于西班牙的旅游大數(shù)據(jù)報告中利用了電信運營商TelefónicaMóvilesEspa?a提供的到西班牙馬德里和巴薩羅那的680928個電話的漫游數(shù)據(jù)和BBVA銀行提供的168921張銀行卡跨境消費數(shù)據(jù),這些數(shù)據(jù)涉及到的旅游者來自于21個不同的國家。中國旅游研究院和中國電信聯(lián)合實驗室利用電信提供的手機定位數(shù)據(jù),形成了國內(nèi)首份大數(shù)據(jù)鄉(xiāng)村旅游發(fā)展報告。但是我們從報告中可以看出,國內(nèi)的報告無論是從形式上還是內(nèi)容的處理上都顯得非常粗糙,都停留在簡單的數(shù)據(jù)描述上,還沒有對數(shù)據(jù)進行深入挖掘。雖然研究者們對電信運營商的數(shù)據(jù)的關(guān)注與日俱增,但是我們也應(yīng)該清醒的認識到,它的使用仍然存在著諸多困難,尤其在對數(shù)據(jù)的監(jiān)測和隱私的處理方面,往往很難取得平衡。
在許多學(xué)者的研究中,GPS都是非常重要的追蹤技術(shù)。國內(nèi)也有學(xué)者利用GPS設(shè)備采集游客活動信息,但其樣本作為抽樣推斷都顯得有些單薄。作為研究旅游者行為的非常重要的數(shù)據(jù)來源,受到了許多學(xué)者的青睞。但是我們也要認識到,GPS技術(shù)本身也存在局限性。由于GPS技術(shù)的限制,精確度只能到5-8米,當旅游者進入室內(nèi)時往往就會失去聯(lián)系。同時,當旅游者知道自己在參與某項研究的時候,往往也會對自己的路線進行限定,同時大規(guī)模應(yīng)用GPS設(shè)備也會加大研究的費用。目前很多智能設(shè)備都提供了GPS功能,但是這種數(shù)據(jù)屬于游客的隱私,一般不能用于研究。
與GPS相比,藍牙設(shè)備發(fā)射的信號傳輸距離較短,因此它的定位數(shù)據(jù)在室內(nèi)的表現(xiàn)更好。YujiYoshimura利用藍牙探測器在盧浮宮博物館收集了24452個設(shè)備的位置信息,用于分析博物館內(nèi)的擁擠現(xiàn)象。Versichele,M.在根特節(jié)中利用藍牙掃描儀收集了80828個藍牙設(shè)備的152487個運動軌跡信息,分析了在事件旅游中的游客行為。
目前來源于追蹤定位技術(shù)的大數(shù)據(jù)方面的實證研究主要來自于國外的學(xué)者和研究機構(gòu),國內(nèi)的相關(guān)研究主要還集中在方法和技術(shù)的討論,并沒有落到實處。
(四)旅游者用戶生成內(nèi)容(UGC)
旅游者用戶生成內(nèi)容主要由電商平臺的旅游產(chǎn)品評價和旅游類的社交媒體網(wǎng)站內(nèi)容構(gòu)成。電商平臺提供了消費者對商品進行交流、評價的空間,這也使得消費者與零售商的距離變的更近。研究者對與產(chǎn)品的電子口碑(eWOM)的關(guān)注也越來越多,這不僅體現(xiàn)在人們對于書籍、CD、電子商品的研究中,還體現(xiàn)在對旅游消費者的在線評論的實證研究上。WenjingDuan通過第三方公司收集了華盛頓地區(qū)最受歡迎的前十家酒店網(wǎng)站上的70103評價。Wang,Park,andFesenmaier(2010)用智能手機中排行前100的旅游類的app收集游客評價,并利用爬蟲采集了37133條評論,達到了總評論數(shù)的75%。通過分析他們發(fā)現(xiàn),字數(shù)較少的評論主要都集中與情感評價,例如“喜歡”,“吸引人”,“失望”等,這些對旅游的體驗僅提供較少的信息;負面的評價大多和app的體驗有關(guān)。他們對于所有評論進行了文本分析,通過分詞系統(tǒng)分析了不同詞語出現(xiàn)的頻率。用twitter數(shù)據(jù)創(chuàng)立了美國經(jīng)濟中的三個與工作相關(guān)的指數(shù)。
社交媒體(SNS)在過去的幾年里保存了非常龐大的用戶生成內(nèi)容,對我們理解旅游者的行為和體驗,態(tài)度和偏好,旅游目的地的影像提供了非常有價值的信息。KohyaOkuyamaandKeijiYanai通過API獲取了旅游者在Flickr發(fā)布的20000張帶有位置標記的照片,并從游記圖片中分析游客的軌跡,進而提出旅游線路規(guī)劃系統(tǒng)。StepchenkovaandZhan從游客分享在Flickr的23000張照片中抽取了500張,分析了游客對秘魯?shù)挠∠?。Pan,MacLaurin用語義網(wǎng)絡(luò)的方法從旅游博客UGC分析了查南卡羅來納州的爾斯頓的旅游形象。還有更多的研究用網(wǎng)絡(luò)民族志和博客志的方法分析了游客對于旅游目的地和當?shù)鼐用竦挠∠螅℉su,Dehuang,&Woodside,2009;Woodside,Cruickshank,&Dehuang,2007)。吳靜采集了Flickr網(wǎng)站上的500位游客的1872張照片,分析了南京市游客旅游流動性空間特征。
二、在數(shù)據(jù)獲取中存在的問題
(一)隱私與數(shù)據(jù)所有權(quán)
國內(nèi)外學(xué)者在獲取大數(shù)據(jù)時面臨的最大的問題就是隱私的保護。這其中既有數(shù)據(jù)隱私權(quán)的立法保護問題,也有因保護隱私而帶來的數(shù)據(jù)處理的困難。首先,健全的隱私保護法律制度,是學(xué)者在允許的范圍內(nèi)自由取用數(shù)據(jù)基礎(chǔ),也是大數(shù)據(jù)學(xué)術(shù)研究的基礎(chǔ)。在法律的真空區(qū)做研究,每個學(xué)者都會感到壓力重重,瞻前顧后。比如基于電信運營商數(shù)據(jù)的旅游研究,國外的報告一般都有專門的章節(jié)說明隱私的保護情況,在這些章節(jié)中我發(fā)現(xiàn)國外的數(shù)據(jù)保護立法相對國內(nèi)來說好一些,但也不夠完善。其次,國外的研究往往將數(shù)據(jù)的獲取與分析過程進行分離,數(shù)據(jù)通過第三方機構(gòu)的脫敏處理才能交給研究者。因為隱私保護,第三方機構(gòu)在數(shù)據(jù)為了防止個人數(shù)據(jù)被追蹤,會將不同時間段的數(shù)據(jù)標記為不同的設(shè)備,這也造成了研究者的困擾。因為旅游者的旅游行為在這些報告中我們看到了國外的數(shù)據(jù)保護法有移動運營商在提供數(shù)據(jù)時,會將所有的個人信息隱去。這也將導(dǎo)致同一個設(shè)備,在不同的時間段內(nèi)會被標記為不同的編號,給后續(xù)的跟蹤研究造成很大的麻煩。
(二)數(shù)據(jù)記錄與存儲的口徑不一致
各種不同來源的相同類型的數(shù)據(jù)匯總在一起,是大數(shù)據(jù)形成的基礎(chǔ),但同時我們又認識到,各種不同類型的企業(yè)、平臺在之前的數(shù)據(jù)存儲的過程中并沒有考慮過整合,因此在匯總時就出現(xiàn)了因數(shù)據(jù)的口徑不一致而導(dǎo)致的整合困難。這種困難首先體現(xiàn)在存儲方式上,不同機構(gòu)的數(shù)據(jù)存儲方式可能千差萬別,比如有些機構(gòu)把數(shù)據(jù)存儲在關(guān)系型的數(shù)據(jù)庫中,有些機構(gòu)把數(shù)據(jù)存儲在非關(guān)系型的數(shù)據(jù)庫中;有些機構(gòu)把數(shù)據(jù)存儲在文本文件或者超文本文件中,還有些機構(gòu)把數(shù)據(jù)存儲在圖片或者音頻、視頻中。各種存儲的類型之間差異巨大,如果要進行數(shù)據(jù)分析首先必須保證數(shù)據(jù)記錄與存儲的口徑一致。其次還體現(xiàn)在數(shù)據(jù)的格式方面,比如不同的網(wǎng)站在存儲用戶ID時的策略有可能不同,有些網(wǎng)站的ID時郵箱,有些是字母,有些是字母和數(shù)字的組合等等,這給數(shù)據(jù)整合帶來的問題是,當一名顧客在不同的網(wǎng)站注冊不同的ID并進行活動時,如何才能把他們識別為同一個人?
在數(shù)據(jù)收集與處理的過程中,數(shù)據(jù)清洗的很重要的作用就是保證數(shù)據(jù)的口徑一致,這也耗費了數(shù)據(jù)工作者非常大的精力。盡管“臟數(shù)據(jù)”不可避免,但是在未來的數(shù)據(jù)記錄與存儲的過程中,我們也應(yīng)該提倡更加標準化的存儲方式,以減少數(shù)據(jù)清洗的壓力。
(三)行業(yè),技術(shù)壁壘高
互聯(lián)網(wǎng)時代的到來,給我們的生活帶來極大的便捷,旅游者可以不出家門便預(yù)定到合適的旅游產(chǎn)品??墒菍τ谄髽I(yè)來說,信息不對稱卻開始變得難以忍受,比如旅游產(chǎn)品的經(jīng)銷商往往要付出巨額花費才能得到自己的數(shù)據(jù)。極少數(shù)的公司利用長期運營的優(yōu)勢積累了大量的數(shù)據(jù),長期休眠在自己的硬盤中,在大數(shù)據(jù)時代到來之后,這些公司才意識到這些數(shù)據(jù)將會是一筆巨大的財富。而新進入的公司卻因為沒有業(yè)務(wù)數(shù)據(jù)積累導(dǎo)致很難追趕已經(jīng)存儲了大量數(shù)據(jù)的少數(shù)公司,這種情況可能還會隨著時間的推移繼續(xù)加劇。
如何打破這種壁壘,讓數(shù)據(jù)流動起來,并實現(xiàn)數(shù)據(jù)的整合,數(shù)據(jù)的價值才會被充分利用,或許這也是未來我們應(yīng)該努力的方向。
大數(shù)據(jù)時代的旅游研究是一個全新的起跑線,此刻我們與國外的研究機構(gòu)一同出發(fā)。在這一的研究領(lǐng)域,我們要充分利用我們互聯(lián)網(wǎng)的優(yōu)勢,在立法保護的基礎(chǔ)上,更快更好的促進旅游業(yè)大數(shù)據(jù)科學(xué)的進一步發(fā)展。
(作者單位:山西師范大學(xué)歷史與旅游文化學(xué)院)