劉欣 高成廣
摘 要:信息時代下,游客通過互聯(lián)網(wǎng)不僅可以獲取旅游地的相關(guān)信息,也可以將自身旅游經(jīng)歷感受以游記、評論、攻略等方式發(fā)布在網(wǎng)絡(luò)上,這些旅游數(shù)據(jù)包含了大量的時空信息,能反映游客時空行為軌跡,被稱為“旅游數(shù)字足跡”。本文選取赴日本溫泉地旅游的中國大陸游客數(shù)據(jù),使用Python在攜程、馬蜂窩等旅游網(wǎng)站進(jìn)行旅游數(shù)字足跡爬蟲,對游客赴日本溫泉地的旅游數(shù)字足跡進(jìn)行時間與空間分布分析,總結(jié)游客的時空行為規(guī)律。
關(guān)鍵詞:日本溫泉地;旅游數(shù)字足跡;游客時空行為
中圖分類號:F713.55 文獻(xiàn)標(biāo)識碼:A
Web2.0時代伴隨著數(shù)字化與信息化技術(shù)的發(fā)展,游客可以隨時隨地在互聯(lián)網(wǎng)獲取旅游信息,分享旅游體驗(yàn),智慧旅游、旅游信息多元化成為旅游產(chǎn)業(yè)發(fā)展的必然趨勢。越來越多的研究人員利用互聯(lián)網(wǎng)數(shù)據(jù)作為研究對象,通過各種途徑獲取游客的旅游數(shù)字足跡,加以提取分析,最終得出相關(guān)旅游特征,并以此指導(dǎo)旅游產(chǎn)業(yè)的發(fā)展[1-2]。
(一)溫泉地選擇
本文選取日本溫泉地為研究樣本。日本溫泉的集群效應(yīng)明顯,形成了完整的溫泉產(chǎn)業(yè)鏈,且日本溫泉文化氛圍濃厚。日本的溫泉旅游份額占日本整個旅游業(yè)的50%,其溫泉旅游發(fā)展的經(jīng)驗(yàn)值得借鑒[3]。
(二)數(shù)據(jù)獲取
筆者在對比了國內(nèi)多個旅游網(wǎng)站后,選取去哪兒、攜程、馬蜂窩、同程、途牛和新浪作為游記爬取的平臺,這六大平臺市場份額相加占總市場的70%,基本上可以覆蓋國內(nèi)游客的大部分旅游信息。攜程是國內(nèi)旅游網(wǎng)站中的佼佼者,在2019年《中國在線旅游廠商交易規(guī)模指數(shù)》中排行第一,是目前在線旅游網(wǎng)站中市場份額最大的網(wǎng)站。馬蜂窩近年來的活躍用戶也在大幅增長。除了景點(diǎn)、酒店評論,這些旅游網(wǎng)站還以游記發(fā)布的方式,分享旅游心得,記錄旅游足跡。
本文將使用Python編寫代碼分別在去哪兒、攜程、馬蜂窩、同程、途牛和新浪官方網(wǎng)站爬取游客的游記及評價數(shù)據(jù),其中爬取字段為游記標(biāo)題、游記內(nèi)容、旅游地、出游時間。進(jìn)行游記及評價數(shù)據(jù)爬取后,共獲得初始樣本1 292篇。由于初始樣本中,存在一定量的無效樣本,因此需對樣本進(jìn)行篩選。根據(jù)以下兩條標(biāo)準(zhǔn)對游記樣本進(jìn)行篩選:①樣本中必須涉及日本溫泉目的地的內(nèi)容;②游記樣本能完整展示明確的旅游目的地、出行時間、停留天數(shù)。除此之外,剔除廣告痕跡太重、多網(wǎng)站重復(fù)發(fā)表、純粹圖片組成與研究無關(guān)的樣本,最終篩選符合研究樣本標(biāo)準(zhǔn)的906篇有效樣本。
(一)游記數(shù)據(jù)預(yù)處理
為了提高研究樣本的質(zhì)量與研究的準(zhǔn)確性,需要在進(jìn)行數(shù)據(jù)分析之前,對有效樣本進(jìn)行預(yù)處理。首先,將爬取到的游記文本分別統(tǒng)一保存為Excel文件和TXT文本,把表情、圖片和多余的特殊字符等要素刪除。其次,進(jìn)行同義詞的替換,將“由布院”“由布岳”“湯布院”統(tǒng)一替換為“由布院”,“泡溫泉”與“泡湯”統(tǒng)一為“泡湯”,等等。最后,將游記中的日語翻譯成中文,將繁體漢字統(tǒng)一轉(zhuǎn)換為簡體漢字,英文單詞翻譯為中文。
對有效文本進(jìn)行內(nèi)容處理后,使用微詞云網(wǎng)站進(jìn)行詞頻分析,首先,將TXT文本復(fù)制到網(wǎng)站上,進(jìn)行文本分詞;其次,對分詞后的文本單詞進(jìn)行挑選,將缺乏具體象征意義的數(shù)詞、連詞、形容詞、副詞等詞語及標(biāo)點(diǎn)符號剔除,只留下能反應(yīng)旅游熱點(diǎn)的名詞及部分動詞,其中名詞不包括方位名詞和時間名詞;最后,將分析結(jié)果以Excel格式保存下來,得到旅游足跡數(shù)據(jù)庫。
(二)時間格局分析
1.出游時間分析
基于旅游足跡數(shù)據(jù)庫,可從中提取出旅游時間、停留時間、旅游人數(shù)及旅游軌跡等信息,從而對赴日本溫泉地游客的時間信息進(jìn)行分析[4]。將爬取的游記數(shù)據(jù)中的出游時間字段單獨(dú)分析,分別得出圖1出游季節(jié)分析和圖2出游月份分析,由此可以得出赴日游客的旅游時間變化特征。日本與我國華北地區(qū)所處緯度帶相近,使用的季節(jié)劃分方式大體一致,依據(jù)氣象劃分法,將一年12個月劃分為四季:3月至5月為春季,6月至8月為夏季,9月至11月為秋季,12月至2月為冬季。
由圖1可知,冬季赴日本溫泉地旅游的國內(nèi)游客最多,其占比高達(dá)40%,夏季出游的游客最少,占比僅為14%,選擇秋季出游的游客相對較多,占總出游樣本的27%,春季出游的游客占比為19%,旅游者出游時段呈現(xiàn)出較強(qiáng)的季節(jié)性。冬季氣候嚴(yán)寒,泡溫泉可以取暖強(qiáng)身,是最適合泡溫泉的季節(jié);春季,日本的櫻花相繼開放,是最佳的賞櫻季節(jié),秋季是日本傳統(tǒng)的賞紅楓季節(jié),均能吸引一部分游客前往目的地觀光旅游。
由圖2可知,數(shù)據(jù)在一年中出現(xiàn)5個波峰,分別為1月、2月、4月、10月和12月,占比均在10%以上,說明赴日本溫泉地旅游的游客主要集中于這5個月出行。其中10月份數(shù)據(jù)為全年最高峰值,這一時間段赴日游客占比高達(dá)15%,其主要原因是10月初為中國國慶小長假,是國內(nèi)游客出游的旅游黃金周。第二個峰值出現(xiàn)在2月份,所占比例為12%,中國傳統(tǒng)春節(jié)假期在2月份,且2月為冬季,是泡溫泉的理想時間。選擇在6月、7月和8月赴日溫泉地旅游的游客較少,在5%左右。
均差是指每個月數(shù)據(jù)值與月平均值之間的距離,借助均差可以比較清晰直觀地分析出赴日溫泉地游客的出游時間特征,筆者發(fā)現(xiàn)3月、5月、6月、7月和8月共5個月的均差為負(fù)值,1月、2月、4月及9~12月共7個月的均差為正值[5]。赴日游客恰好集中在秋冬季節(jié),呈現(xiàn)出較強(qiáng)的季節(jié)性特性。為進(jìn)一步分析赴日本溫泉地客流的時間特征,并考慮國內(nèi)假期因素的影響,引入峰值指數(shù)G分析出游集中程度。現(xiàn)有研究表明,集中指數(shù)G可以有效衡量旅游流在時間分布的整體集中程度,本文將出游時間分為6個時間段:H1“雙休日+年假”、H2小長假、H3黃金周、H4寒暑假、H5日本賞櫻賞楓季與H6其他時間,并統(tǒng)計每個時間段的游客規(guī)模。如果赴日本溫泉地游客在上述6個時間段內(nèi)完全均勻分布,則G=40.82。通過計算可得,游客赴日本溫泉地時間的集中指數(shù)G=45.86,大于40.82,說明赴日本溫泉地客流在時間上分布較為集中。
2.出游停留天數(shù)分析
筆者對國內(nèi)赴日溫泉地游客的停留時間進(jìn)行統(tǒng)計,結(jié)果如圖3所示,國內(nèi)游客在日本溫泉地停留時間從1~15天不等。停留天數(shù)少于5天的游客樣本占比為7.6%,其中,停留1天的游客占比最少,僅為0.6%,停留2天和4天的游客均占比2%。停留天數(shù)在5~10天的游客數(shù)量最多,占比達(dá)84.4%,停留5天、6天和8天的游客樣本占比均超過20%,停留超過10天的游客占比為8%。綜上所述,國內(nèi)赴日本溫泉地游客大都在日本停留5~8天,旅游者平均停留時間較長。針對次結(jié)果,可以解釋為:首先,赴日旅游為出境游,所需旅游時間比國內(nèi)游更長,且游客一般選擇在7天長假出游;其次,溫泉旅游一般以過夜的形式為主,日本溫泉地的集中分布及與其他旅游資源(如賞櫻等)相結(jié)合,使國內(nèi)游客的逗留時間更長。
(三)空間格局分析
1.到訪溫泉地偏好分析
筆者根據(jù)采集的旅游數(shù)字足跡計算樣本中日本溫泉地出現(xiàn)的頻次及其所占比率,初步反映游客對日本溫泉地的旅游偏好。旅游節(jié)點(diǎn)出現(xiàn)頻次越高,表明該溫泉地被游客提及頻率越高,越受游客歡迎[6]。對微詞云分詞后的Excel詞頻數(shù)據(jù)進(jìn)行處理,挑選出溫泉地名,并按照提及頻次進(jìn)行排序。部分游客同時前往多個溫泉地,因此溫泉地名每在樣本中被提及一次,其頻次就記為1次。
游記樣本數(shù)據(jù)統(tǒng)計到多個日本溫泉地,基于研究的篇幅和實(shí)際意義考慮,保留排名前20的溫泉目的地作為分析對象。各節(jié)點(diǎn)出現(xiàn)頻次差異較大,提及頻次超過1 000的溫泉地有2個,提及頻次大于500而小于1 000的有5個,其他溫泉地被提及頻次均小于500。排名前十的溫泉地分別為箱根、登別、由布院、別府、地獄、城崎、伊豆、熱海、草津、下呂,均為日本傳統(tǒng)的溫泉旅游目的地,其濃厚的溫泉文化氛圍,深受游客喜愛。其中,箱根被提及頻次1 595,占比16.44%,排在首位,登別和由布院分列二、三位,其提及頻次的占比僅次于箱根,分別為12.56%和9.84%。以上前三位溫泉地占比達(dá)38.84%,占排名前20的溫泉地提及頻次總和的1/3,別府、地獄、城崎和伊豆占比分別為7.52%、6.37%、6.15%和6.02%,其余溫泉地被提及比率均小于6%。
2.游客感知詞匯分析
游記樣本數(shù)據(jù)中提取的有關(guān)溫泉的高頻詞匯,代表了游客對日本溫泉地的感知印象,能夠在一定程度上反映溫泉地的總體形象[7]。將微詞云中導(dǎo)出的分詞數(shù)據(jù)表格進(jìn)行人工篩查后,剔除詞頻小于1的詞語,綜合考慮篇幅、研究可信度等問題后,本文選取頻數(shù)排在前30的高頻詞作為研究對象(表2)。由表2可知,在赴日游客的樣本數(shù)據(jù)中,日本溫泉地的總體形象按照頻次從高到低分別是“溫泉”“酒店”“泡池”“價格”“體驗(yàn)”。頻次最高的詞匯是“溫泉”本身,其中,游客主要關(guān)注“溫泉水”“溫度”“干凈”“味道”“地?zé)帷薄傲蚧恰薄隘熜А薄疤妓帷钡?。“泡池”“湯池”“浴衣”“SPA”“養(yǎng)生”“按摩”等詞匯的提及頻次也較高,表明泡池的設(shè)計及相關(guān)服務(wù)項(xiàng)目亦是游客關(guān)注的方面。其他高頻詞匯包括住宿(酒店)、花費(fèi)(價格)、購物、美食、交通、溫泉地其他景點(diǎn)(景點(diǎn)、櫻花、建筑)等方面,反映了游客對溫泉地的關(guān)注不僅限于溫泉本身,其配套服務(wù)設(shè)施同樣重要,櫻花、紅楓等日本熱門旅游項(xiàng)目可作為吸引游客的輔助手段。
本文以日本溫泉地為例,選取赴日本溫泉地旅游的中國大陸游客數(shù)據(jù)為基礎(chǔ),使用Python在攜程、馬蜂窩等旅游網(wǎng)站進(jìn)行旅游數(shù)字足跡爬蟲,對游客赴日本溫泉地的旅游數(shù)字足跡進(jìn)行詞頻分析和可視化分析,總結(jié)出游客的時空行為規(guī)律。研究結(jié)果表明:在時間格局上,40%的游客選擇在冬季赴日本溫泉地旅游,游客最多的月份是2月和10月,大部分游客在溫泉地停留時間5~10天,赴日游客出游集中秋冬季節(jié),呈現(xiàn)出非常強(qiáng)的季節(jié)性特征。由于溫泉旅游的特殊性,游客在出游時間和停留時間的選擇主要受氣溫、假期的影響。在空間格局上,游客到訪排名前10的溫泉地依次為箱根、登別、由布院、別府、地獄、城崎、伊豆、熱海、草津、下呂,游客到訪日本溫泉地總體呈現(xiàn)出“大分散,小聚集”的空間分布格局,到訪溫泉地主要位于日本南部地區(qū)。在游客感知方面,泡溫泉是游客出訪的首要目的及最關(guān)注的部分,其次是有關(guān)目的地的服務(wù)設(shè)施部分,注重游覽體驗(yàn)、溫泉地的其他活動,如賞櫻花等也對游客有一定的吸引力。
[1] 李君軼.旅游數(shù)字足跡:在線揭示游客的時空軌跡[J].思想戰(zhàn)線,2013(3):103-107.
[2] 楊敏,李君軼,楊利.基于旅游數(shù)字足跡的城市入境游客時空行為研究:以成都市為例[J].旅游科學(xué),2015(3):59-68.
[3] 葉萍,劉曉農(nóng).日本溫泉旅游產(chǎn)業(yè)發(fā)展及對我國的啟示[J].老區(qū)建設(shè),2019(18):12-18.
[4] 陳子微,姚建盛.基于旅游數(shù)字足跡的游客時空行為研究:以南京市玄武區(qū)為例[J].軟件,2020(5):179-183.
[5] 查曉莉,陸林.基于旅游數(shù)字足跡的訪滬國內(nèi)旅游者時空行為研究[J].旅游研究,2017(4):63-73.
[6] 羅秋菊,梁思賢.基于數(shù)字足跡的自駕車旅游客流時空特征研究:以云南省為例[J].旅游學(xué)刊,2016(12):41-50.
[7] 張琦,陳珂,馬發(fā)旺,等.基于數(shù)字足跡的鄉(xiāng)村旅游形象感知研究:以沈陽市周邊鄉(xiāng)村旅游點(diǎn)為例[J].農(nóng)業(yè)經(jīng)濟(jì),2018(3):33-35.