□文/馮 瀟 范樂(lè)瑤
(電子科技大學(xué)成都學(xué)院 四川·成都)
[提要] 通過(guò)爬蟲程序獲取百度指數(shù)平臺(tái)上2012~2021 年成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)月搜索指數(shù)數(shù)據(jù),分析各景區(qū)網(wǎng)絡(luò)關(guān)注度的年度和月度趨勢(shì)特征;利用Python3 對(duì)2012~2019 年月度數(shù)據(jù)構(gòu)建SARlMA 模型,并運(yùn)用網(wǎng)格搜索法對(duì)模型進(jìn)行參數(shù)尋優(yōu);利用最優(yōu)模型SARlMA(0,1,1)(0,1,1)12 對(duì)2020~2021 年月網(wǎng)絡(luò)關(guān)注度進(jìn)行預(yù)測(cè),并將預(yù)測(cè)結(jié)果與ARlMA 模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析。研究表明:(1)成渝經(jīng)濟(jì)圈各5A 級(jí)旅游景區(qū)的網(wǎng)絡(luò)關(guān)注度存在較大差異,其中成都市和樂(lè)山市的5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度較高;(2)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度時(shí)間分布具有顯著的季節(jié)性和假期性特征;(3)SARlMA 模型比ARlMA 模型預(yù)測(cè)精度更高,更能反映成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度的趨勢(shì)特征。
游客在進(jìn)行旅游活動(dòng)之前,通常會(huì)通過(guò)互聯(lián)網(wǎng)對(duì)旅游景區(qū)進(jìn)行搜索,而這種網(wǎng)絡(luò)關(guān)注情況被認(rèn)為是旅游目的地客流量的前兆。因此,研究旅游景區(qū)網(wǎng)絡(luò)關(guān)注度變化趨勢(shì),對(duì)把握游客旅游意向、分析未來(lái)潛在客流量、促進(jìn)旅游持續(xù)發(fā)展等具有重要意義。
基于百度指數(shù)的旅游景區(qū)網(wǎng)絡(luò)關(guān)注度研究主要分為以下四類:第一,探究景區(qū)網(wǎng)絡(luò)關(guān)注度的時(shí)空特征,該類研究側(cè)重于使用季節(jié)性集中指數(shù)、地理集中指數(shù)等,或通過(guò)GIS 空間分析法分析網(wǎng)絡(luò)關(guān)注度的時(shí)空特征。如,杜夢(mèng)珽等(2020)利用洪崖洞百度指數(shù)搜索數(shù)據(jù),研究洪崖洞網(wǎng)絡(luò)關(guān)注度時(shí)空分布及變化特征;朱豆豆等(2021)分析新疆8 個(gè)熱門景區(qū)網(wǎng)絡(luò)關(guān)注度的時(shí)空差異特征,并運(yùn)用回歸和相關(guān)性分析法探究其影響因素。第二,利用景區(qū)網(wǎng)絡(luò)關(guān)注度的時(shí)空特征提出相應(yīng)的營(yíng)銷策略。如,周曉麗(2019)基于五臺(tái)山日網(wǎng)絡(luò)搜索數(shù)據(jù)構(gòu)建五臺(tái)山客源市場(chǎng)的“重要性-發(fā)展?jié)摿Α本仃?,并提出相?yīng)的營(yíng)銷策略。第三,探究景區(qū)網(wǎng)絡(luò)關(guān)注度和實(shí)際客流量的相關(guān)關(guān)系。如,馬莉等(2018)研究發(fā)現(xiàn)長(zhǎng)三角地區(qū)40 個(gè)城市的每日實(shí)際游客量與網(wǎng)絡(luò)關(guān)注度之間存在因果關(guān)系,即網(wǎng)絡(luò)關(guān)注度是游客量變動(dòng)的前兆。第四,利用景區(qū)網(wǎng)絡(luò)關(guān)注度對(duì)未來(lái)游客量趨勢(shì)進(jìn)行預(yù)測(cè)。如,康俊鋒等(2020)基于上海市的百度搜索數(shù)據(jù)和旅游人數(shù)數(shù)據(jù)構(gòu)建ARIMA 旅游趨勢(shì)預(yù)測(cè)模型。
本文以成渝經(jīng)濟(jì)圈5A 旅游景區(qū)的月百度搜索指數(shù)為研究對(duì)象,分析2012 年1 月~2021 年12 月5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度的時(shí)間變化特征,建立SARIMA 模型對(duì)各景區(qū)網(wǎng)絡(luò)關(guān)注度進(jìn)行預(yù)測(cè),以把握未來(lái)旅游網(wǎng)絡(luò)關(guān)注度變化情況,為成渝經(jīng)濟(jì)圈5A 旅游景區(qū)及旅游管理相關(guān)部門提供決策依據(jù)。
(一)季節(jié)性集中指數(shù)。季節(jié)性集中指數(shù)(R)用于反映一年內(nèi)旅游網(wǎng)絡(luò)關(guān)注度的季節(jié)性變化:
其中,xi為第i 月的網(wǎng)絡(luò)關(guān)注度。R 值越大,表明年內(nèi)每月網(wǎng)絡(luò)關(guān)注度差異越大,即關(guān)注度受季節(jié)性影響較大,淡旺季較明顯;R 值越接近于0,表明年內(nèi)每月網(wǎng)絡(luò)關(guān)注度分布較均勻,即關(guān)注度受季節(jié)性影響較小,淡旺季不明顯。
(二)ARlMA 模型。ARIMA 模型,即差分自回歸滑動(dòng)平均模型,是由Box 和Jenkins(1970)提出的時(shí)間序列預(yù)測(cè)方法,該方法通過(guò)差分處理將時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列,利用其過(guò)去值預(yù)測(cè)未來(lái)值,并將誤差項(xiàng)累加以消除預(yù)測(cè)中的隨機(jī)波動(dòng)。ARIMA 模型構(gòu)建的基礎(chǔ)為ARMA(p,q)模型:
其中,p 和q 分別為自回歸階數(shù)和移動(dòng)平均階數(shù)。若原序列在d 次差分之后得到平穩(wěn)時(shí)間序列wt,并對(duì)wt建立ARMA(p,q)模型,即得到ARIMA(p,d,q)模型。
(三)SARlMA 模型。SARIMA 模型,即季節(jié)性差分自回歸滑動(dòng)平均模型,是在ARIMA 模型的基礎(chǔ)上進(jìn)行了季節(jié)性調(diào)節(jié),對(duì)具有季節(jié)性波動(dòng)的時(shí)間序列有較高的預(yù)測(cè)精度。該模型可以表示為ARIMA(p,d,q)×(P,D,Q)S,其中,(p,d,q)為模型非季節(jié)性部分,與ARIMA(p,d,q)模型參數(shù)的含義相同,(P,D,Q)S為模型季節(jié)性部分,P 為季節(jié)性自回歸階數(shù),D 為季節(jié)性差分階數(shù),Q 為季節(jié)性移動(dòng)平均階數(shù),S 為季節(jié)性周期長(zhǎng)度。
(一)數(shù)據(jù)來(lái)源。百度指數(shù)是以網(wǎng)民海量搜索數(shù)據(jù)形成的數(shù)據(jù)分享平臺(tái),提供了2011 年至今各關(guān)鍵詞的每日搜索量數(shù)據(jù)?;诎俣戎笖?shù)平臺(tái),本文將景區(qū)關(guān)鍵詞檢索到的移動(dòng)端搜索指數(shù)和PC 端搜索指數(shù)之和稱作“網(wǎng)絡(luò)關(guān)注度”,反映游客在互聯(lián)網(wǎng)上對(duì)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)的關(guān)注程度。將成渝經(jīng)濟(jì)圈中所有5A 級(jí)景區(qū)的代表性關(guān)鍵詞進(jìn)行搜索,發(fā)現(xiàn)重慶市黔江區(qū)濯水景區(qū)沒(méi)有被百度指數(shù)收錄,故本文以成渝經(jīng)濟(jì)圈的11個(gè)5A 級(jí)景區(qū)為研究對(duì)象,其中四川省7 個(gè)、重慶市4 個(gè),如表1 所示。本文通過(guò)Python 爬蟲程序搜索景區(qū)關(guān)鍵詞,獲取了2012 年1 月~2021 年12 月11 個(gè)景區(qū)每月百度移動(dòng)端和PC端搜索指數(shù)數(shù)據(jù)。(表1)
表1 成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)地域分布與搜索關(guān)鍵詞一覽表
(二)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度時(shí)間分布特征
1、景區(qū)網(wǎng)絡(luò)關(guān)注度年度分布特征。分類匯總求出11 個(gè)5A
級(jí)旅游景區(qū)的年度網(wǎng)絡(luò)關(guān)注度,并繪制圖1。從整體來(lái)看,2012~2017 年游客對(duì)成渝經(jīng)濟(jì)圈內(nèi)5A 級(jí)旅游景區(qū)的網(wǎng)絡(luò)關(guān)注度呈逐年上升趨勢(shì),而2018~2021 年的關(guān)注度均較2017 年有不同程度的下降,其中2020~2021 年受新冠肺炎疫情的影響,游客出行受到一定限制,故11 個(gè)景區(qū)整體關(guān)注度下降較明顯。從各旅游景區(qū)網(wǎng)絡(luò)關(guān)注度數(shù)量上看,11 個(gè)景區(qū)的網(wǎng)絡(luò)關(guān)注度存在明顯差異,受網(wǎng)絡(luò)關(guān)注最高的5A 級(jí)旅游景區(qū)是成都市青城山-都江堰旅游景區(qū),其次是樂(lè)山市樂(lè)山大佛景區(qū)和峨眉山景區(qū)。2012~2021 年3 個(gè)景區(qū)的網(wǎng)絡(luò)關(guān)注度遠(yuǎn)高于其他8 個(gè)景區(qū),表明3 個(gè)景區(qū)的知名度較高,游客出游意愿更強(qiáng)。而受網(wǎng)絡(luò)關(guān)注最低的兩個(gè)景區(qū)是鄧小平故里旅游區(qū)和朱德故里景區(qū)。與其他9 個(gè)景區(qū)不同,鄧小平故里旅游區(qū)和朱德故里景區(qū)屬于紅色文化型旅游景區(qū),而游客對(duì)兩個(gè)景區(qū)網(wǎng)絡(luò)關(guān)注度較低,表明這兩個(gè)景區(qū)的紅色文化影響力和知名度有待進(jìn)一步的提升。(圖1)
圖1 成渝經(jīng)濟(jì)圈5A 旅游景區(qū)網(wǎng)絡(luò)關(guān)注度年度變化圖
2、景區(qū)網(wǎng)絡(luò)關(guān)注度月度分布特征。圖2 顯示了每年成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度月度分布情況。從平均值變化趨勢(shì)上看,平均值曲線表現(xiàn)為倒“V”型,其中7~8 月是成渝經(jīng)濟(jì)圈旅游備受關(guān)注的高峰時(shí)期,說(shuō)明成渝地區(qū)能夠吸引更多的學(xué)生和家長(zhǎng),暑假期間該地區(qū)親子游、畢業(yè)游等市場(chǎng)火爆。此外,4 月和10 月也是受關(guān)注較高的時(shí)間段,說(shuō)明清明節(jié)、“五一”節(jié)和國(guó)慶節(jié)成渝地區(qū)氣候較為適宜,同樣是旅游、登山的熱點(diǎn)時(shí)段。而11 月~次年1 月成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)關(guān)注度為全年最低,說(shuō)明成渝地區(qū)冬季氣溫較寒冷,游客出游意愿不強(qiáng)。對(duì)比每年網(wǎng)絡(luò)關(guān)注度月度變化趨勢(shì),發(fā)現(xiàn)2012~2019 年的成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度月度變化趨勢(shì)近似,而受疫情因素影響,2020 年2 月和2021 年8 月的關(guān)注度走勢(shì)與其他年份差異較大。計(jì)算2012~2021 年成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)的季節(jié)性強(qiáng)度指數(shù),結(jié)果見(jiàn)表2。表2 顯示,每年的季節(jié)性集中指數(shù)均大于1,表明成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度的季節(jié)性差異顯著,存在明顯的淡季和旺季。(圖2、表2)
表2 成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度季節(jié)性強(qiáng)度指數(shù)一覽表
圖2 成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度月度變化圖
(三)實(shí)證分析。選取2012~2019 年成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)的月網(wǎng)絡(luò)關(guān)注度數(shù)據(jù)為訓(xùn)練集,基于Python3 建立SARIMA 模型,對(duì)2020~2021 年月網(wǎng)絡(luò)關(guān)注度進(jìn)行預(yù)測(cè),同時(shí)建立ARIMA 模型進(jìn)行對(duì)比分析。
1、平穩(wěn)性檢驗(yàn)。圖3 顯示,2012~2019 年成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)的網(wǎng)絡(luò)關(guān)注度變化情況與趨勢(shì),從圖中可識(shí)別出該序列為非平穩(wěn)時(shí)間序列,且具有周期性,故需要對(duì)原始序列數(shù)據(jù)進(jìn)行差分處理,使其變?yōu)槠椒€(wěn)時(shí)間序列。根據(jù)單位根(ADF)檢驗(yàn)結(jié)果,1 階差分后的檢驗(yàn)統(tǒng)計(jì)量的值為-3.0657,小于顯著性水平5%的臨界值,即1 階差分后的序列是平穩(wěn)的,無(wú)需進(jìn)行2階差分,因此確定非季節(jié)性差分階數(shù)d=1。(圖3、表3)
圖3 2012~2021 年成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度月時(shí)序圖
表3 序列差分ADF 檢驗(yàn)結(jié)果一覽表
2、SARlMA 模型與ARlMA 模型構(gòu)建。對(duì)1 階差分后的序列數(shù)據(jù)繪制自相關(guān)函數(shù)(ACF)與偏自相關(guān)函數(shù)(PACF)圖。圖4顯示ACF 和PACF 在12 階、24 階位置出現(xiàn)尖峰,表明序列有周期為12 個(gè)月的波動(dòng),故SARIMA 模型中季節(jié)性周期長(zhǎng)度S為12。為更準(zhǔn)確地確定SARIMA(p,1,q)(P,D,Q)12模型的其余參數(shù),本文通過(guò)網(wǎng)格搜索法進(jìn)行遍歷尋參,選擇貝葉斯信息準(zhǔn)則BIC 作為模型的評(píng)估指標(biāo),并繪制熱力圖5 所示。圖5 顯示,當(dāng)非季節(jié)性自回歸階數(shù)p 和移動(dòng)平均階數(shù)q 分別取0、1,且季節(jié)性自回歸階數(shù)P、差分階數(shù)D 和移動(dòng)平均階數(shù)Q 分別取0、1、1 時(shí),SARIMA 模型的BIC 有最小值485.0,此時(shí)模型最優(yōu)。(圖4、圖5)
圖4 成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度月度數(shù)據(jù)的ACF 與PACF 圖
圖5 不同參數(shù)下SARIMA 模型BIC 值熱力圖
繪制圖6,對(duì)SARIMA(0,1,1)(0,1,1)12模型的殘差序列進(jìn)行診斷,可知該模型殘差序列基本穩(wěn)定,無(wú)趨勢(shì)或季節(jié)項(xiàng),且殘差服從正態(tài)分布,不存在自相關(guān),故可判定該模型殘差序列為白噪聲序列,說(shuō)明SARIMA(0,1,1)(0,1,1)12模型提取序列信息較充分,擬合效果較好。同理,基于網(wǎng)格搜索法對(duì)ARIMA(p,1,q)模型進(jìn)行遍歷尋參,如圖7 所示,此時(shí)最優(yōu)模型為ARIMA(1,1,1)。(圖6、圖7)
圖6 SARIMA(0,1,1)(0,1,1)12 模型殘差診斷圖
3、模型預(yù)測(cè)與對(duì)比分析。運(yùn)用建立的SARIMA(0,1,1)(0,1,1)12模型和ARIMA(1,1,1)模型對(duì)2020 年1 月~2021 年12 月成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度進(jìn)行預(yù)測(cè),并采用均方根誤差(RMSE)作為模型的評(píng)估指標(biāo):
其中,y^i為預(yù)測(cè)值;yi為真實(shí)值。模型的擬合結(jié)果和預(yù)測(cè)結(jié)果如圖8 所示,可看出SARIMA(0,1,1)(0,1,1)12模型的擬合效果優(yōu)于ARIMA(1,1,1)模型,且SARIMA(0,1,1)(0,1,1)12模型更能夠預(yù)測(cè)后疫情時(shí)代游客對(duì)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度的趨勢(shì)變化。根據(jù)表4 中的RMSE 計(jì)算結(jié)果可以得知,SARIMA(0,1,1)(0,1,1)12模型在訓(xùn)練集和測(cè)試集上的誤差均小于ARIMA(1,1,1)模型,表明利用SARIMA(0,1,1)(0,1,1)12預(yù)測(cè)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度的準(zhǔn)確度更高,實(shí)用性更強(qiáng)。(圖8、表4)
表4 SARIMA 模型和ARIMA 模型預(yù)測(cè)誤差對(duì)比一覽表
?
圖8 SARIMA 模型和ARIMA 模型擬合預(yù)測(cè)對(duì)比圖
本文基于2012 年1 月~2021 年12 月百度指數(shù)平臺(tái)的月搜索數(shù)據(jù),對(duì)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度的年度、月度變化趨勢(shì)進(jìn)行統(tǒng)計(jì)分析,利用SARIMA 模型對(duì)景區(qū)網(wǎng)絡(luò)關(guān)注度月度變化趨勢(shì)進(jìn)行預(yù)測(cè),并與ARIMA 模型進(jìn)行對(duì)比分析。
總地來(lái)看:(一)受疫情因素影響,2020~2021 年游客對(duì)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)整體關(guān)注度呈下降趨勢(shì)。2012~2021年11 個(gè)5A 級(jí)旅游景區(qū)的網(wǎng)絡(luò)關(guān)注度之間存在較大差異,游客對(duì)青城山-都江堰、峨眉山和樂(lè)山大佛關(guān)注度較高,出游意愿更強(qiáng)。(二)成渝經(jīng)濟(jì)圈5A 級(jí)旅游景區(qū)網(wǎng)絡(luò)關(guān)注度的季節(jié)性差異顯著,存在旺季和淡季之分,即7~8 月暑假期間通常是成渝經(jīng)濟(jì)圈地區(qū)旅游備受關(guān)注的旺季時(shí)期,而寒冷的冬季則是旅游網(wǎng)絡(luò)關(guān)注度的淡季時(shí)期。(三)SARIMA 模型比ARIMA 模型更能夠擬合并預(yù)測(cè)成渝經(jīng)濟(jì)圈5A 旅游景區(qū)的趨勢(shì)特征,具有較好的實(shí)用性。但該模型完全依賴于數(shù)據(jù)本身,沒(méi)有考慮疫情等其他影響因素,因此研究過(guò)程具有一定的局限性,未來(lái)可引入網(wǎng)絡(luò)關(guān)注度的影響因素,并組合其他時(shí)間序列模型對(duì)網(wǎng)絡(luò)關(guān)注度進(jìn)行預(yù)測(cè)研究。