潘冰
一、 大數(shù)據(jù)發(fā)展階段
在國內(nèi)外,整個(gè)大數(shù)據(jù)的研究到現(xiàn)在已經(jīng)過了炒作的階段。Gartner咨詢公司推出的技術(shù)發(fā)展周期報(bào)告認(rèn)為,技術(shù)發(fā)展會(huì)經(jīng)歷這幾個(gè)階段:技術(shù)的觸發(fā)階段,期望的頂點(diǎn),失望的壕溝和生產(chǎn)力的爬坡。2011年,大數(shù)據(jù)首先出現(xiàn)在這個(gè)曲線上,那時(shí)正是這個(gè)概念在媒體上大量炒作的階段,正從技術(shù)的觸發(fā)點(diǎn)急劇上升;2012年,大數(shù)據(jù)正接近期望值的頂點(diǎn),是媒體和學(xué)術(shù)界炒作最火的時(shí)候,期望值最高;2013年,已經(jīng)開始下降;2014年,大數(shù)據(jù)的期望處在急劇下降時(shí)期,一些相對具體的技術(shù),像預(yù)測分析和針對地理位置的應(yīng)用,正處在成熟的產(chǎn)生生產(chǎn)力的階段。大數(shù)據(jù)這個(gè)概念,已經(jīng)被細(xì)化的技術(shù)手段所替代了。
大數(shù)據(jù)的研究開始于搜索引擎的數(shù)據(jù)。2008年,《自然》雜志發(fā)表了谷歌科學(xué)家一篇關(guān)于利用谷歌關(guān)鍵詞搜索量預(yù)測流感的文章。美國疾病控制中心對流感的預(yù)測一般是利用醫(yī)院和醫(yī)生報(bào)告的數(shù)據(jù),但是病人通常先搜索相關(guān)的關(guān)鍵詞再去看醫(yī)生,這樣谷歌搜索的流感可以提前兩周預(yù)測出流感的爆發(fā),而且準(zhǔn)確率很高。但《科學(xué)》雜志在2014年發(fā)表了一篇文章,專門指出谷歌預(yù)測的不準(zhǔn)確性。谷歌有些預(yù)測是實(shí)際病人數(shù)量的兩倍;谷歌的流感預(yù)測總是多于實(shí)際流感的發(fā)生。谷歌的預(yù)測并不比美國疾病控制中心時(shí)間序列預(yù)測方法更準(zhǔn)確。這里首先有過度擬合的問題。谷歌有成千上萬的關(guān)鍵詞,你總會(huì)找出一些擬合度高的詞,但可能完全沒有關(guān)系。再者,谷歌在不停地改變界面和算法。比如最近,當(dāng)你鍵入搜索詞的時(shí)候,谷歌有對最熱關(guān)鍵詞的提示,這樣也導(dǎo)致了用戶行為的變化。這樣一來,歷史的數(shù)據(jù)和最新關(guān)鍵詞的數(shù)據(jù)性質(zhì)已經(jīng)有了改變,不具有可比性,那么,模型已經(jīng)不再成立。而且谷歌從來沒有說明他們自動(dòng)選取的45個(gè)關(guān)鍵詞是哪些,這些不透明的算法導(dǎo)致研究成果很難被復(fù)制。大數(shù)據(jù)的旗幟性項(xiàng)目就此壽終正寢。
二、 旅游大數(shù)據(jù)研究進(jìn)展
在旅游大數(shù)據(jù)研究中,預(yù)測是個(gè)重要的方向。大尺度的預(yù)測,比如每年或每月的預(yù)測還比較精確;小尺度比如每周每天的預(yù)測不是很可靠。我們的研究發(fā)現(xiàn),如果加入谷歌某些有關(guān)旅游的搜索關(guān)鍵詞的搜索量作為外部變量,可提高美國南卡查爾斯頓酒店周入住率預(yù)測的準(zhǔn)確性的30%;同樣的,因?yàn)楹艽笠徊糠值牟闋査诡D的游客在去旅行之前,會(huì)去旅游局的網(wǎng)站查看信息,旅游局的網(wǎng)站的流量也是游客量的一個(gè)提前表現(xiàn),那么,我們用查爾斯頓旅游局網(wǎng)站流量作為外部變量,加入時(shí)間序列模型,這樣可以提高當(dāng)?shù)鼐频曛苋胱÷暑A(yù)測的準(zhǔn)確性的10%。在國內(nèi),有研究者也發(fā)現(xiàn)百度關(guān)鍵詞的搜索量,加上時(shí)間序列預(yù)測方法,可提高海南省月游客量預(yù)測的準(zhǔn)確性;黃先開等的研究發(fā)現(xiàn)百度關(guān)鍵詞的搜索量可提高故宮月游客量預(yù)測的準(zhǔn)確性的15%。
但旅游大數(shù)據(jù)也產(chǎn)生了很多的問題。比如,我們需要對一個(gè)城市旅游者數(shù)量的調(diào)查和統(tǒng)計(jì)。對一個(gè)旅游地旅游者行為的研究方法有很多種,比如攔截調(diào)查,在一些地段訪談旅游者;比如入戶調(diào)查,在全國范圍內(nèi)隨機(jī)抽樣選取家庭入戶調(diào)查然后詢問他們出游的行為和花費(fèi);也可以用稅收數(shù)據(jù)來估算;還可以用移動(dòng)設(shè)備來研究旅游者的數(shù)量和行為。美國的一個(gè)公司AirSage,利用手機(jī)和塔臺(tái)的交流進(jìn)行定位,他們有兩大手機(jī)公司Verizon和Sprint的所有數(shù)據(jù)。Verizon有1/3的市場占有率。他們每天都在手機(jī)公司服務(wù)器下載海量的數(shù)據(jù)。但是因?yàn)閿?shù)據(jù)非常多,平均買一個(gè)月的查爾斯頓旅游者的數(shù)據(jù)就要幾千美元,所以不可能查看一個(gè)移動(dòng)設(shè)備一年之內(nèi)的移動(dòng)。所以我們在估算美國南卡查爾斯頓旅游者數(shù)量的時(shí)候,只能購買幾個(gè)代表月的數(shù)據(jù)。這個(gè)公司是這樣定義旅游者的:如果一個(gè)移動(dòng)設(shè)備在一個(gè)月之內(nèi)出現(xiàn)在查爾斯頓,但大部分晚上(>15天)出現(xiàn)在查爾斯頓以外的地區(qū),就被AirSage定義為查爾斯頓的旅游者。但我們知道旅游者的傳統(tǒng)定義,比如旅游衛(wèi)星賬戶,是一年之內(nèi),過夜游客或者是50英里之外的非工作的訪問者。
我們用各個(gè)方法對查爾斯頓的旅游者進(jìn)行估計(jì),結(jié)果得到不同的數(shù)據(jù):入戶調(diào)查說是610萬;酒店稅收數(shù)據(jù)說是600萬;問卷調(diào)查數(shù)據(jù)500萬;南卡公園休憩旅游局?jǐn)?shù)據(jù)是660萬;而移動(dòng)數(shù)據(jù)的估算是490萬。這些數(shù)據(jù)明顯不包括不用美國手機(jī)的海外游客,也不包括停留時(shí)間超過15天以上的游客。和其他數(shù)據(jù)相比,我相信移動(dòng)的數(shù)據(jù)是低估了。
旅游大數(shù)據(jù)顯示的人口統(tǒng)計(jì)學(xué)特征也有不同。移動(dòng)數(shù)據(jù)可以精確到每個(gè)鄉(xiāng),問卷只有幾百個(gè)調(diào)查數(shù)據(jù),當(dāng)然不可能精確到鄉(xiāng)和城市。移動(dòng)數(shù)據(jù)反映出來的游客更多來自周邊地區(qū)——美國的東南部;而問卷調(diào)查結(jié)果顯示游客來自較遠(yuǎn)的地方,因?yàn)槲覀冎贿x取了市中心的旅游景點(diǎn)進(jìn)行訪談,而更鄰近地區(qū)許多走親訪友的游客恐怕沒有到景點(diǎn)游玩,就較少被訪談到。但反過來講,這部分游客花費(fèi)少,對旅游業(yè)的貢獻(xiàn)也少,他們的意見對旅游業(yè)也不是很重要。類似的移動(dòng)數(shù)據(jù)顯示出來的游客收入較低,而問卷結(jié)果較高,顯示大多數(shù)游客年收入在7萬~10萬美元之間。移動(dòng)數(shù)據(jù)顯示出來的平均停留時(shí)間比問卷停留時(shí)間少一天左右,因?yàn)樗麄儗τ慰偷亩x中沒有包括停留15天以上的游客。
總體來講,數(shù)據(jù)來源方法的不同導(dǎo)致了結(jié)果的不一樣。其實(shí)細(xì)算一下,如果包括所有的花費(fèi),總共的費(fèi)用差不多。但是移動(dòng)數(shù)據(jù)抓住了將近50萬的游客,問卷只有700多個(gè);移動(dòng)數(shù)據(jù)每個(gè)游客的費(fèi)用是3美分,而問卷是19美元;移動(dòng)數(shù)據(jù)每個(gè)游客大概有9個(gè)數(shù)據(jù)點(diǎn),而問卷有124個(gè)數(shù)據(jù)點(diǎn),包括花費(fèi)、愛好、信息源、旅行計(jì)劃等;能回答的每個(gè)問題,移動(dòng)數(shù)據(jù)花費(fèi)是1667美元,而問卷是412美元;移動(dòng)數(shù)據(jù)的誤差只有1%,問卷有4%。細(xì)致比較起來,這是兩種研究方法的不同。看起來移動(dòng)數(shù)據(jù)占優(yōu)的地方更多,但問卷調(diào)查能回答移動(dòng)數(shù)據(jù)不能回答的很多問題,雖然精度較低,但每個(gè)問題的花費(fèi)其實(shí)更小。
三、 大數(shù)據(jù)的優(yōu)劣勢和展望
總結(jié)起來,大數(shù)據(jù)的優(yōu)勢有:幾乎是全部數(shù)據(jù),可以沒有抽樣誤差;數(shù)據(jù)可以細(xì)致到每個(gè)個(gè)體;多個(gè)數(shù)據(jù)源的集合會(huì)發(fā)現(xiàn)意想不到的關(guān)聯(lián)和結(jié)論;可以達(dá)到實(shí)時(shí)反饋。大數(shù)據(jù)的劣勢在于:費(fèi)用較高;我們有時(shí)候不需要那么精確的數(shù)據(jù);當(dāng)我們看到的廣告太針對我們的偏好、過于細(xì)分時(shí)會(huì)很可怕;大數(shù)據(jù)能回答的問題還很有限,移動(dòng)大數(shù)據(jù)公司可以回答旅游者去過哪里,不能回答他們的花費(fèi)情況。如果能把信用卡的數(shù)據(jù)和手機(jī)數(shù)據(jù)結(jié)合起來會(huì)十分有用,但法律和商業(yè)利益阻礙了數(shù)據(jù)的分享。很多時(shí)候研究者不知道到底是真實(shí)因果關(guān)系還是虛假相關(guān)。很多時(shí)候是變量,是虛假相關(guān),所以預(yù)測能力并不高。
對于旅游大數(shù)據(jù)的未來,我們已經(jīng)過了炒作的階段,研究者要從相關(guān)性的證明轉(zhuǎn)向精確性的計(jì)算;把旅游大數(shù)據(jù)和旅游官方統(tǒng)計(jì)數(shù)據(jù)、企業(yè)營銷數(shù)據(jù)相結(jié)合才會(huì)有生命力。對旅游的一個(gè)簡單定義就會(huì)影響研究的結(jié)果。更重要的是,需要多方數(shù)據(jù)的共享 —— 不僅是大數(shù)據(jù)革命,而且是全數(shù)據(jù)革命。把大數(shù)據(jù)和問卷數(shù)據(jù)、金融數(shù)據(jù)結(jié)合起來才更有效果。而且,我們也需要大數(shù)據(jù)產(chǎn)生算法的透明和重復(fù)性,這樣才能使研究更進(jìn)一步。
(作者系該系副教授;收稿日期:2017-06-10)endprint