摘 要:利用網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行短期旅游客流量預(yù)測(cè),對(duì)景區(qū)優(yōu)化資源的調(diào)度、引導(dǎo)旅游地規(guī)劃開(kāi)發(fā)和指導(dǎo)游客制定出行計(jì)劃都具有重要意義。針對(duì)噪聲對(duì)預(yù)測(cè)效果的干擾,將經(jīng)驗(yàn)?zāi)B(tài)分解(EMD)去高頻噪后的網(wǎng)絡(luò)搜索數(shù)據(jù)作為解釋變量,引入收斂速度快、訓(xùn)練時(shí)間短、算力消耗較小的門控循環(huán)單元(GRU)神經(jīng)網(wǎng)絡(luò)構(gòu)建旅游客流量預(yù)測(cè)模型。以重慶黑山谷景區(qū)為例,選用2015年1月1日至2020年1月24日的網(wǎng)絡(luò)搜索數(shù)據(jù)和游客數(shù)據(jù)進(jìn)行實(shí)證分析。預(yù)測(cè)結(jié)果表明,相較于循環(huán)神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶模型,EMD-GRU模型的預(yù)測(cè)效能更高,且使用EMD去噪數(shù)據(jù)訓(xùn)練的預(yù)測(cè)模型能有效提高原始數(shù)據(jù)預(yù)測(cè)模型的精度。
關(guān)鍵詞:客流量預(yù)測(cè);網(wǎng)絡(luò)搜索;門控循環(huán)單元;經(jīng)驗(yàn)?zāi)B(tài)分解;神經(jīng)網(wǎng)絡(luò);重慶黑山谷
中圖分類號(hào):F592"" 文獻(xiàn)標(biāo)志碼:A""" 文章編號(hào):1673-5072(2023)02-0179-07
我國(guó)進(jìn)入到大眾旅游的新時(shí)代,旅游已經(jīng)成為人民幸福生活的必需品[1]。據(jù)統(tǒng)計(jì)公報(bào)顯示,2019年國(guó)內(nèi)旅游人數(shù)60.1億人次,比上年同期增長(zhǎng)8.4%;旅游收入5.73萬(wàn)億元,增長(zhǎng)11.7%[2]。旅游需求的增加對(duì)旅游景區(qū)資源調(diào)度和服務(wù)水平提出了更高要求[3]。對(duì)景區(qū)客流量的精確預(yù)測(cè)能夠進(jìn)一步提高旅游活動(dòng)監(jiān)管的及時(shí)性,幫助相關(guān)部門優(yōu)化景區(qū)管理,合理調(diào)配資源,保證服務(wù)質(zhì)量;提前準(zhǔn)備應(yīng)急分流方案,做好安全保障工作,避免游客擁堵、滯留等安全事件的發(fā)生;同時(shí)對(duì)游客的出行判斷提供重要參考,做好心理預(yù)期,合理安排出行計(jì)劃,有效提升游客的出行體驗(yàn)和旅游滿意度。
近年來(lái),互聯(lián)網(wǎng)的快速發(fā)展使游客的旅游模式和消費(fèi)習(xí)慣發(fā)生變化,游客在出行前通過(guò)互聯(lián)網(wǎng)收集住宿、交通、天氣、游玩攻略等信息已成趨勢(shì)[4]。游客在使用搜索引擎時(shí)產(chǎn)生的海量數(shù)據(jù)是游客潛在旅游需求的客觀反映[5]和其旅游意愿的表征[6],具有即時(shí)性、預(yù)示性和高可訪問(wèn)性。如今,在進(jìn)行旅游需求的預(yù)測(cè)時(shí),越來(lái)越看重互聯(lián)網(wǎng)中豐富的非結(jié)構(gòu)性、非平穩(wěn)性、碎片化旅游大數(shù)據(jù),但傳統(tǒng)線性方法無(wú)法提取海量網(wǎng)絡(luò)數(shù)據(jù)中的復(fù)雜動(dòng)態(tài)特征,于是學(xué)者們開(kāi)始嘗試使用人工神經(jīng)網(wǎng)絡(luò)[7]、BP神經(jīng)網(wǎng)絡(luò)[8]、支持向量機(jī)模型[9]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Time Memory,LSTM)[10-11]等人工智能算法對(duì)旅游客流量進(jìn)行預(yù)測(cè),并證實(shí)了引入網(wǎng)絡(luò)搜索數(shù)據(jù)作為變量因子能有效提升預(yù)測(cè)模型精度[12-15]。門控循環(huán)單元(Gated Recurrent Unit,GRU)神經(jīng)網(wǎng)絡(luò)模型作為L(zhǎng)STM的輕量級(jí)變體,在保留其擬合時(shí)間依賴性、非線性序列記憶能力的情況下,訓(xùn)練參數(shù)減少,算法的復(fù)雜程度降低,收斂速度加快,預(yù)測(cè)精度提高。本文在借鑒李曉炫等[16]、陸利君和廖小平[17]、何雪晴[18]研究成果的基礎(chǔ)上,采用經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)去高頻噪處理后的網(wǎng)絡(luò)搜索指數(shù)序列作為解釋變量,引入GRU構(gòu)建重慶市黑山谷景區(qū)旅游客流量預(yù)測(cè)模型,為旅游客流量的準(zhǔn)確預(yù)測(cè)提供一個(gè)新的視角和思路。
1 研究方法
1.1 EMD經(jīng)驗(yàn)?zāi)B(tài)分解
為了使信號(hào)中傳遞的特征更清楚,學(xué)者們提出了傅里葉變換、維格納分布和小波變換等時(shí)頻分析方法,但在處理非線性、非平穩(wěn)信號(hào)時(shí),容易產(chǎn)生虛假信號(hào)和假頻現(xiàn)象,自適應(yīng)性有限。EMD是由Huang等[19]于1998年提出的一種自適應(yīng)信號(hào)處理方法,其本質(zhì)是對(duì)信號(hào)進(jìn)行平穩(wěn)化處理,將信號(hào)中存在的不同尺度下的變化趨勢(shì)逐級(jí)分解,對(duì)產(chǎn)生的一系列具有不同特征尺度的特征模態(tài)函數(shù)(Intrinsic Mode Function,IMF)進(jìn)行Hilbert-Huang變換(Hilbert-Huang Transform,HHT),得到瞬時(shí)特征量,在時(shí)-頻平面形成為希爾伯特譜,能精確反映信號(hào)在時(shí)間和頻率上的分布規(guī)律[20]。該算法目前被廣泛運(yùn)用于非線性、非平穩(wěn)時(shí)間序列的信號(hào)分解及去噪處理,與預(yù)測(cè)模型相結(jié)合后預(yù)測(cè)風(fēng)電功率[21]、電力負(fù)荷[22]、股票走勢(shì)[23]和旅游流量[18]等領(lǐng)域,能有效提高基準(zhǔn)模型的預(yù)測(cè)精度。
根據(jù)Huang等提出的觀點(diǎn),用EMD方法對(duì)序列或信號(hào)進(jìn)行分解處理時(shí)必須基于以下三條假定:a.信號(hào)具有至少2個(gè)極值點(diǎn):1個(gè)極大值和1個(gè)極小值;b.信號(hào)的特征時(shí)間尺度定義為相鄰極值點(diǎn)的時(shí)間間隔;c.若數(shù)據(jù)無(wú)極值但存在拐點(diǎn),可先將數(shù)據(jù)微分一次或多次獲得極值點(diǎn),再通過(guò)積分來(lái)得到相應(yīng)的分量。
EMD具體就是通過(guò)“篩分”的處理過(guò)程將信號(hào)自適應(yīng)地分解成為若干個(gè)IMF分量之和,每個(gè)IMF必須具備以下2個(gè)基本條件:a.整個(gè)時(shí)間序列范圍內(nèi),過(guò)零點(diǎn)與極值點(diǎn)個(gè)數(shù)相差不超過(guò)1個(gè);b.在任何時(shí)間范圍內(nèi),其局部極大值和局部極小值構(gòu)成的上下包絡(luò)線的均值為零,即關(guān)于時(shí)間軸局部對(duì)稱。
具體的處理步驟如下:
1)對(duì)任一時(shí)間序列Y(t),確定出Y(t)上的所有極值點(diǎn),用三次樣條曲線連接所有極大值點(diǎn)形成上包絡(luò)線,同樣方式連接所有極小值點(diǎn)形成下包絡(luò)線。數(shù)據(jù)Y(t)與上下包絡(luò)線的均值M1(t)的差記為Q1(t),則
Q1(t)=Y(t)-M1(t)。(1)
2)檢驗(yàn)Q1(t)是否滿足本征模函數(shù)的條件,如果不滿足,繼續(xù)將Q1(t)作為新的Y(t),重復(fù)步驟①,直到Qi(t)滿足IMF的條件,則其成為從原始信號(hào)中篩選出的第一階IMF1,通常第一階IMF1的分量包含信號(hào)中的最高頻成分:
Qi(t)=Qi-1(t)-Mi(t),(2)
IMF1=Qi(t)。(3)
3)將IMF1從原始序列Y(t)中分離,得到一個(gè)去掉了高頻分量的差值信號(hào)的剩余序列R1(t)。
R1(t)=Y(t)-IMF1。(4)
4)將R1(t)作為新的時(shí)間序列,重復(fù)①—③的篩分步驟,逐次得到各本征模函數(shù)IMFS,直到第n階的殘余序列成為單調(diào)函數(shù),不能再篩分出IMF變量:
Rn(t)=Rn-1(t)-IMFn。(5)
5)數(shù)學(xué)上,原始序列Y(t)可以表示為n個(gè)IMF分量和一個(gè)殘余項(xiàng)的和,即:
Y(t)=∑ni=1IMFi+Rn(t),(6)
式中:Rn(t)為殘量,代表序列的平均趨勢(shì);各個(gè)IMF分量表示序列從高到低不同頻率段的成分。選擇恰當(dāng)?shù)腎MF分量進(jìn)行重構(gòu),能夠起到序列數(shù)據(jù)降噪的作用。
1.2 門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)
GRU是Cho等[24]2014年提出的LSTM的輕量級(jí)變體,都是通過(guò)門控機(jī)制來(lái)維持長(zhǎng)距離序列中的依賴關(guān)系,但GRU內(nèi)部引入了重置門,并將LSTM中的遺忘門和輸入門合并為更新門。重置門用于決定丟棄無(wú)關(guān)歷史信息的程度,能捕捉時(shí)間序列中短期的依賴關(guān)系[25];更新門能同時(shí)對(duì)節(jié)點(diǎn)信息進(jìn)行選擇性“遺忘”或選擇性“記憶”,能捕捉時(shí)間序列中長(zhǎng)期的依賴關(guān)系。經(jīng)實(shí)證研究發(fā)現(xiàn)[26-27],GRU在保留擬合時(shí)間依賴性和非線性序列的記憶能力,保證模型預(yù)測(cè)精度的同時(shí),參數(shù)變少,縮小了算法的復(fù)雜程度,加快收斂速度,訓(xùn)練時(shí)間變短,提高了效率。以一個(gè)記憶單元為例,GRU門控循環(huán)神經(jīng)網(wǎng)絡(luò)的前向傳播計(jì)算過(guò)程見(jiàn)圖1:rt控制重置門控;zt控制更新門控;ht-1是上一節(jié)點(diǎn)傳遞的隱藏狀態(tài),包含了之前節(jié)點(diǎn)的相關(guān)信息;xt表示當(dāng)前時(shí)間
節(jié)點(diǎn)的輸入;σ為sigmoid函數(shù),通過(guò)這個(gè)函數(shù)將所有數(shù)據(jù)變?yōu)椋?,1)內(nèi)的數(shù)據(jù)。因此重置門rt和更新門zt中每個(gè)元素的值域也是(0,1),從而充當(dāng)門控信號(hào),這一過(guò)程具體展開(kāi)得:
rt=σ(xtwxr+whrht-1+br),(7)
zt=σ(xtwxz+whzht-1+bz),(8)
其中wxr、wxz、whr、whz為權(quán)重參數(shù),br、bz為偏差參數(shù)。
h~t表示在時(shí)間節(jié)點(diǎn)t時(shí)的候選隱狀態(tài),記憶了當(dāng)前時(shí)刻的新信息。通過(guò)將當(dāng)前時(shí)間步重置門的輸出rt與上一時(shí)間節(jié)點(diǎn)隱藏狀態(tài)ht-1做元素乘法,將結(jié)果與當(dāng)前時(shí)間節(jié)點(diǎn)的輸入xt聯(lián)結(jié),最后通過(guò)含激活函數(shù)tanh的全連接層計(jì)算得到候選隱狀態(tài)h~t,公式如下:
h~t=tanh(W·[rt⊙ht-1,xt]),(9)
其中rt用來(lái)控制是否忽略上一個(gè)時(shí)間節(jié)點(diǎn)的隱狀態(tài)。如果重置門元素值趨于0,表示表示重置對(duì)應(yīng)的隱狀態(tài)元素為0,即忽略上一時(shí)間節(jié)點(diǎn)的信息,當(dāng)前狀態(tài)的信息會(huì)更大程度地影響隱狀態(tài)的輸出;如果重置門元素值接近1,則表示保留上一時(shí)間節(jié)點(diǎn)的隱藏狀態(tài)[24]。具體展開(kāi)得到:
h~t=tanh(xtwxh+(rt⊙ht-1)whh+bh)。(10)
最后,由當(dāng)前時(shí)間節(jié)點(diǎn)的更新門zt來(lái)對(duì)上一時(shí)間節(jié)點(diǎn)的隱狀態(tài)ht-1和當(dāng)前時(shí)間節(jié)點(diǎn)的隱狀態(tài)h~t做組合,得到時(shí)間節(jié)點(diǎn)ht的隱藏狀態(tài):
ht=(1-zt)⊙ht-1+zt⊙h~t,(11)
其中,由zt判斷需要從前一時(shí)間節(jié)點(diǎn)的隱藏層ht-1中遺忘或記憶的信息,當(dāng)更新門的元素值以較大權(quán)重激活向上的分支,意味著當(dāng)前時(shí)間節(jié)點(diǎn)的輸入xt對(duì)最終輸出的隱藏層信息h~t影響較小,長(zhǎng)時(shí)間跨度的狀態(tài)信息對(duì)模型的影響更大。
GRU中每個(gè)時(shí)間步的隱藏節(jié)點(diǎn)會(huì)學(xué)習(xí)捕捉不同時(shí)間步跨度下不同依賴信息的特征,疊加在一起后,共同根據(jù)數(shù)據(jù)流上的信息與結(jié)果的相關(guān)程度,自適應(yīng)地學(xué)習(xí)到不同時(shí)間跨度下依賴信息的取舍權(quán)重,使輸出能夠更緊湊地表達(dá)信息[28]。GRU在保證精度效果的同時(shí),模型結(jié)構(gòu)更為簡(jiǎn)潔,算力消耗更低,現(xiàn)已廣泛應(yīng)用于電力負(fù)荷量[29]、交通流量[30]和股票價(jià)格[31]等各個(gè)方面的時(shí)間序列預(yù)測(cè),具有較強(qiáng)的泛化能力。
2 實(shí)證分析
2.1 案例地概況
黑山谷景區(qū)位于重慶市萬(wàn)盛經(jīng)開(kāi)區(qū)黑山鎮(zhèn)境內(nèi),是國(guó)家AAAAA級(jí)旅游景區(qū)、國(guó)家級(jí)地質(zhì)公園、中國(guó)最美養(yǎng)生峽谷,年接待游客100萬(wàn)人次以上,旅游淡旺季日接待游客量差距顯著,呈現(xiàn)非線性的復(fù)雜波動(dòng)。
2.2 數(shù)據(jù)來(lái)源與處理
2.2.1 數(shù)據(jù)來(lái)源
黑山谷景區(qū)的旅游客流量數(shù)據(jù)由重慶黑山谷旅游投資有限公司提供,本研究搜集了黑山谷景區(qū)從2015年1月1日至2020年1月14日共1 841條日接待客流數(shù)據(jù)。網(wǎng)絡(luò)搜索數(shù)據(jù)來(lái)自百度指數(shù),百度搜索引擎的使用量達(dá)到中國(guó)搜索引擎市場(chǎng)份額的七成以上,其提供的數(shù)據(jù)具有說(shuō)服力。百度指數(shù)是百度公司提供的一個(gè)收集海量互聯(lián)網(wǎng)用戶搜索行為的數(shù)據(jù)分析工具,可以提供反映游客潛在需求的某一特定關(guān)鍵詞在某時(shí)間點(diǎn)的具體搜索量及其在某時(shí)間段的變化趨勢(shì),為預(yù)測(cè)短期客流量提供數(shù)據(jù)支撐??紤]搜索數(shù)據(jù)先行指標(biāo)的作用,數(shù)據(jù)搜集的時(shí)間范圍擴(kuò)大為2014年12月23日至2020年1月14日,共1 850組數(shù)據(jù)。
2.2.2 數(shù)據(jù)劃分
為了保證模型的穩(wěn)定性和可靠性,將總樣本劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練數(shù)據(jù)集為2015年1月1日到2019年12月4日的1 799條數(shù)據(jù),測(cè)試數(shù)據(jù)集為2019年12月5日到2020年1月14日,共41條數(shù)據(jù)。
2.3 選擇搜索關(guān)鍵詞
百度指數(shù)實(shí)驗(yàn)數(shù)據(jù)集的構(gòu)建分為以下幾個(gè)步驟:
1)確定初始搜索關(guān)鍵詞:以“黑山谷”作為初始搜索關(guān)鍵詞。
2)拓展搜索關(guān)鍵詞:通過(guò)百度指數(shù)的需求圖譜和愛(ài)站網(wǎng)(https://ci.aizhan.com/)的關(guān)鍵詞挖掘功能,經(jīng)初步篩選,將黑山谷旅游搜索關(guān)鍵詞拓展到12個(gè),包括:黑山谷、黑山谷門票、黑山谷兩日游、萬(wàn)盛黑山谷、黑山谷一日游、黑山谷旅游、重慶黑山谷、黑山谷圖片、重慶黑山谷一日游、黑山谷天氣、重慶萬(wàn)盛黑山谷、黑山谷自駕游。
3)數(shù)據(jù)獲?。和ㄟ^(guò)爬蟲程序,獲得12個(gè)黑山谷旅游搜索關(guān)鍵詞的每日搜索趨勢(shì)數(shù)據(jù)。
4)確立最終關(guān)鍵詞變量:將數(shù)據(jù)通過(guò)QQ圖驗(yàn)證,發(fā)現(xiàn)數(shù)據(jù)并不符合正態(tài)分布,于是使用Spearman相關(guān)分析法計(jì)算每個(gè)搜索關(guān)鍵詞與日旅游接待客流量0~5個(gè)提前期的相關(guān)性,選擇R值最大的提前期作為搜索關(guān)鍵詞的最佳提前期(表1),同時(shí)用相關(guān)系數(shù)R的閾值作為篩選搜索關(guān)鍵詞的標(biāo)準(zhǔn)。
當(dāng)R>0.5時(shí),變量之間的強(qiáng)度為強(qiáng)相關(guān)[32]。所以將R的閾值設(shè)定為0.5,最終搜索關(guān)鍵詞變量確定為:“黑山谷天氣”“萬(wàn)盛黑山谷”“重慶黑山谷”“黑山谷門票”“黑山谷”“黑山谷圖片”。
最終實(shí)驗(yàn)數(shù)據(jù)集確定為:{X1,X2,X3,X4,X5,X6;Y},Y表示黑山谷旅游客流量。
2.4 數(shù)據(jù)去噪
由于用戶個(gè)體行為的差異性,其搜索目的具有多樣性,從而造成在搜索指數(shù)記錄下來(lái)的網(wǎng)絡(luò)搜索量中存在干擾。高頻網(wǎng)絡(luò)搜索噪聲與客流量之間的相關(guān)性往往極低,高頻噪聲部分已經(jīng)不再具有對(duì)高頻客流量的預(yù)測(cè)能力[16],為了降低噪聲對(duì)預(yù)測(cè)精度的影響,本文通過(guò)使用EMD去除網(wǎng)絡(luò)搜索數(shù)據(jù)的噪聲。EMD依據(jù)數(shù)據(jù)自身的時(shí)間尺度來(lái)進(jìn)行信號(hào)的分解,所分解出來(lái)的各IMF分量包含了序列數(shù)據(jù)不同時(shí)間尺度的局部特征信號(hào),最終形成若干個(gè)頻率由高到低的IMF分量以及一個(gè)殘差值。經(jīng)過(guò)EMD分解后的時(shí)間序列其噪聲主要存在于高頻分量中,低頻分量與殘差值是數(shù)據(jù)的有效成分,所以本文將每個(gè)關(guān)鍵詞搜索變量中最高頻分量的數(shù)值去掉,將其余分量與殘差之和作為降噪處理后的數(shù)據(jù)用于模型的訓(xùn)練與預(yù)測(cè)。通過(guò)MATLAB實(shí)現(xiàn)對(duì)關(guān)鍵詞搜索數(shù)據(jù)的經(jīng)驗(yàn)?zāi)B(tài)分解,考慮到搜索數(shù)據(jù)為不平滑的數(shù)據(jù),指定采用三次Hermite插值法。
2.5 建立模型
本文將引入LSTM、RNN(Recurrent Neural Network)模型作為基準(zhǔn)模型,對(duì)比GRU模型的預(yù)測(cè)能力。在進(jìn)行驗(yàn)證之前,首先設(shè)置基本模型的超參數(shù)。所有模型都在訓(xùn)練集上進(jìn)行訓(xùn)練,為了降低訓(xùn)練的復(fù)雜度并提高模型的訓(xùn)練效率,使用歸一化的方法將所有數(shù)據(jù)標(biāo)準(zhǔn)化為(0,1)的數(shù)值。預(yù)測(cè)模型選用均方差(Mean Squared Error,MSE)作為損失函數(shù),建立一個(gè)雙層神經(jīng)網(wǎng)絡(luò)模型,每層網(wǎng)絡(luò)的神經(jīng)元設(shè)置為128個(gè);相比Sigmoid函數(shù)和Tanh函數(shù),選擇更容易快速收斂的Relu函數(shù)作為激活函數(shù);隱藏層均通過(guò)使用Dropout方法來(lái)避免過(guò)擬合現(xiàn)象的出現(xiàn),學(xué)習(xí)率步長(zhǎng)設(shè)置為0.001,數(shù)據(jù)批次大小設(shè)定為5,迭代300個(gè)輪次,確保訓(xùn)練迭代停止時(shí)損失函數(shù)的收斂,達(dá)到最佳預(yù)測(cè)效果。預(yù)測(cè)完成后,對(duì)歸一化后的數(shù)據(jù)進(jìn)行逆變換,獲得真實(shí)的預(yù)測(cè)值。
2.6 結(jié)果分析
2.6.1 預(yù)測(cè)模型評(píng)價(jià)指標(biāo)
由于時(shí)間序列預(yù)測(cè)的隨機(jī)性和不確定性,結(jié)果存在誤差是難以避免的。為了進(jìn)一步研究預(yù)測(cè)模型的性能,引入了均方根誤差(Root Mean Squard Error,RMSE)、平均絕對(duì)誤差(Mean Absolute Error,MAE)和平均相對(duì)誤差(Mean Relative Error,MRE)作為精度測(cè)算指標(biāo)來(lái)評(píng)定預(yù)測(cè)模型。
RMSE表示預(yù)測(cè)值和真實(shí)值之間差異的樣本標(biāo)準(zhǔn)差,說(shuō)明了樣本的離散程度,能夠衡量預(yù)測(cè)值與真實(shí)值之間的偏差;MAE表示預(yù)測(cè)值和真實(shí)值之間絕對(duì)誤差的平均值,可以更好的反映預(yù)測(cè)值誤差的實(shí)際情況;MRE值可以用來(lái)表征預(yù)測(cè)值偏離真實(shí)值的程度。3個(gè)指標(biāo)都旨在評(píng)估預(yù)測(cè)客流量與實(shí)際客流量的之間準(zhǔn)確性,值越小,代表預(yù)測(cè)值與實(shí)際值偏離越小,模型精度越高,預(yù)測(cè)效果就越好。
2.6.2 預(yù)測(cè)結(jié)果分析
測(cè)試數(shù)據(jù)集的預(yù)測(cè)評(píng)價(jià)指標(biāo)得分如表2所示,由預(yù)測(cè)評(píng)價(jià)指標(biāo)的對(duì)比分析可見(jiàn),本文采用的EMD-GRU模型在RMSE和MAE的數(shù)值都為最小,MRE的數(shù)值與原始GRU模型非常接近,代表去噪后的GRU模型能取得最好的精確度,預(yù)測(cè)性能最為出色;且將去噪后的數(shù)據(jù)作為解釋變量的預(yù)測(cè)模型數(shù)值都小于原始數(shù)據(jù)建立的預(yù)測(cè)模型,表明引入去噪數(shù)據(jù)的模型預(yù)測(cè)效果普遍好于使用原始數(shù)據(jù)構(gòu)建的深度學(xué)習(xí)預(yù)測(cè)模型,意味著在通過(guò)網(wǎng)絡(luò)搜索數(shù)據(jù)建立預(yù)測(cè)模型時(shí),對(duì)網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行去噪處理是十分有必要的。
模型擬合和預(yù)測(cè)能力越強(qiáng),模型預(yù)測(cè)的準(zhǔn)確性就越高[33]。表現(xiàn)最好的3個(gè)黑山谷客流量預(yù)測(cè)模型與最終測(cè)試數(shù)據(jù)集的擬合效
果如圖2所示,模型較好地?cái)M合了測(cè)試集中黑山谷景區(qū)2019年12月5日到2020年1月14日共41 d的日接待客流量變動(dòng)趨勢(shì),預(yù)測(cè)曲線與實(shí)際游客量曲線顯示出大致相同的波動(dòng)特征。在同樣的數(shù)據(jù)條件下,其中EMD-GRU較其他模型的預(yù)測(cè)效果更優(yōu),再次證明了去噪數(shù)據(jù)和GRU模型結(jié)合將會(huì)得到更精確的預(yù)測(cè)結(jié)果,但模型對(duì)于部分峰值日期的預(yù)測(cè)結(jié)果差距較大。
出現(xiàn)峰值數(shù)據(jù)預(yù)測(cè)效果不佳的情況,主要原因可能有以下4個(gè)方面:第一,對(duì)于引入預(yù)測(cè)模型的關(guān)鍵詞選擇,其相關(guān)系數(shù)閾值的確定對(duì)于預(yù)測(cè)結(jié)果和噪聲都有較大影響,閾值過(guò)低將會(huì)導(dǎo)致條件較為放松,降低了搜索指數(shù)與每日接待客流量之間的相關(guān)性并包含較多噪聲干擾。本文選定景區(qū)黑山谷,網(wǎng)絡(luò)關(guān)注度較低,全網(wǎng)僅有12個(gè)網(wǎng)絡(luò)搜索關(guān)鍵詞,將日接待旅游客流量與搜索關(guān)鍵詞之間的相關(guān)系數(shù)定為0.5,僅為中強(qiáng)相關(guān),去噪后的數(shù)據(jù)所受干擾仍較多,導(dǎo)致最終預(yù)測(cè)結(jié)果存在一些誤差。第二,對(duì)于深度學(xué)習(xí)預(yù)模型,訓(xùn)練集數(shù)據(jù)越多,效果越好;本文因客觀條件所獲數(shù)據(jù)有限,模型的擬合效果有待進(jìn)一步提升。第三,傳統(tǒng)EMD分解結(jié)果可能會(huì)出現(xiàn)模態(tài)混疊現(xiàn)象[34]和端點(diǎn)效應(yīng),影響模型的擬合效果。第四,預(yù)測(cè)數(shù)據(jù)選擇時(shí)段的后期可能受到新冠疫情的影響,但相關(guān)搜索指數(shù)在指定時(shí)段內(nèi)還未有記載,無(wú)法引入具體搜索關(guān)鍵詞變量,未能考慮到新冠疫情這一特殊事件可能導(dǎo)致的客流量變化。
3 結(jié) 語(yǔ)
精確的景區(qū)客流量預(yù)測(cè)不僅能夠合理調(diào)配現(xiàn)有資源,優(yōu)化調(diào)控,而且也可以作為游客的出行判斷指導(dǎo),提高了時(shí)效性,幫助游客合理安排出行計(jì)劃。
目前相關(guān)研究鮮少對(duì)網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行降噪處理,但網(wǎng)絡(luò)數(shù)據(jù)有著非線性、非平穩(wěn)性的特點(diǎn),不進(jìn)行降噪處理的網(wǎng)絡(luò)數(shù)據(jù)存在信號(hào)干擾問(wèn)題,會(huì)影響預(yù)測(cè)結(jié)果。針對(duì)旅游景區(qū)客流量難以進(jìn)行短期準(zhǔn)確預(yù)測(cè)的問(wèn)題,本文將去噪后的網(wǎng)絡(luò)搜索數(shù)據(jù)作為客流量預(yù)測(cè)模型的解釋變量,引入GRU門控循環(huán)單元神經(jīng)網(wǎng)絡(luò)構(gòu)建旅游客流量預(yù)測(cè)模型。結(jié)果表明,EDM-GRU模型具有較好的預(yù)測(cè)效能,相較RNN、LSTM等深度學(xué)習(xí)模型提升了預(yù)測(cè)的精度,能更有效地進(jìn)行短期客流量的預(yù)測(cè),豐富了旅游目的地流量預(yù)測(cè)的理論支撐,為旅游客流量或其他預(yù)測(cè)提供思路與參考。
后續(xù)研究可考慮選取網(wǎng)絡(luò)關(guān)注度更高的景區(qū),搜索數(shù)據(jù)與客流量之間相關(guān)性越高,模型擬合效果越好,預(yù)測(cè)能力就越高。挖掘更多解釋變量作為景區(qū)客流量的影響因素來(lái)構(gòu)建預(yù)測(cè)模型,如節(jié)假日、天氣情況等,并通過(guò)長(zhǎng)期的積累,獲得更多的客流量數(shù)據(jù)來(lái)豐富測(cè)試集??梢钥紤]應(yīng)用集總經(jīng)驗(yàn)?zāi)B(tài)分解算法(Extend Empirical Mode Decomposition,EEMD)[35],即引入白噪聲輔助分析方法,先對(duì)信號(hào)進(jìn)行預(yù)處理后再進(jìn)行EMD分解,抑制模態(tài)混疊現(xiàn)象,讓模型達(dá)到更佳的擬合效果。進(jìn)行數(shù)據(jù)去噪時(shí),本文僅默認(rèn)IMF1分量為噪聲序列,保留其他所有序列和殘差,未來(lái)可考慮各IMF分量與原始序列的關(guān)聯(lián)程度來(lái)判斷噪聲序列;或者對(duì)搜索數(shù)據(jù)和客流量數(shù)據(jù)分別去噪,按不同分量和殘差建立預(yù)測(cè)模型,進(jìn)一步提高模型預(yù)測(cè)的精度。
參考文獻(xiàn):
[1] 國(guó)務(wù)院新聞辦公室網(wǎng)站.文化和旅游部部長(zhǎng):旅游已經(jīng)成為人民幸福生活的必需品[EB/OL].(2019-03-08)[2021-11-13].http://www.scio.gov.cn/ztk/dtzt/39912/39913/39919/Document/1649335/1649335.htm.
[2] 國(guó)家統(tǒng)計(jì)局.中華人民共和國(guó)2019年國(guó)民經(jīng)濟(jì)和社會(huì)發(fā)展統(tǒng)計(jì)公報(bào)[EB/OL].(2020-02-28)[2021-11-25].http://www.stats.gov.cn/tjsj/zxfb/202002/t20200228_1728913.html.
[3] 陸文星,戴一茹,李楚,等.基于改進(jìn)PSO-BP神經(jīng)網(wǎng)絡(luò)的旅游客流量預(yù)測(cè)方法[J].系統(tǒng)科學(xué)與數(shù)學(xué),2020,40(8):1407-1419.
[4] PAN B,WU C G,SONG H Y.Forecasting hotel room demand using search engine data[J].Journal of Hospitality and Tourism Technology,2012,3(3):196-210.
[5] LI X,PAN B,LAW R,et al.Forecasting tourism demand with composite search index[J].Tourism Management,2017,59:57-66.
[6] PAN B,MACLAURIN T,CROTTS J C.Travel blogs and the implications for destination marketing[J].Journal of Travel Research,2007,46(1):35-45.
[7] 馬力.基于神經(jīng)網(wǎng)絡(luò)的旅游收入預(yù)測(cè)模型建立研究:以山西為例[J].科學(xué)決策,2010(9):66-72.
[8] 賈鵬,劉瑞菊,孫瑞萍,等.基于BP神經(jīng)網(wǎng)絡(luò)的郵輪旅游需求預(yù)測(cè)[J].科研管理,2013,34(6):77-83.
[9] 宋鑫,王維國(guó).中國(guó)入境旅游季節(jié)性線性與非線性預(yù)測(cè)模型評(píng)價(jià)[J].統(tǒng)計(jì)與決策,2020,36(2):5-10.
[10]ZHANG B R,PU Y L,WANG Y Y,et al.Forecasting hotel accommodation demand based on LSTM model incorporating internet search index[J].Sustainability,2019,11(17):1-14.
[11]ZHANG B R,LI N,SHI F,et al.A deep learning approach for daily tourist flow forecasting with consumer search data[J].Asia Pacific Journal of Tourism Research,2020,25(3):323-339.
[12]黃先開(kāi),張麗峰,丁于思.百度指數(shù)與旅游景區(qū)游客量的關(guān)系及預(yù)測(cè)研究:以北京故宮為例[J].旅游學(xué)刊,2013,28(11):93-100.
[13]任樂(lè),崔東佳.基于網(wǎng)絡(luò)搜索數(shù)據(jù)的國(guó)內(nèi)旅游客流量預(yù)測(cè)研究:以北京市國(guó)內(nèi)旅游客流量為例[J].經(jīng)濟(jì)問(wèn)題探索,2014(4):67-73.
[14]CLAUDE UWIMANA.使用Google趨勢(shì)預(yù)測(cè)旅游需求[D].北京:北京交通大學(xué),2019.
[15]周曉麗,唐承財(cái).基于網(wǎng)絡(luò)搜索大數(shù)據(jù)的5A級(jí)景區(qū)客流量預(yù)測(cè)分析[J].干旱區(qū)資源與環(huán)境,2020,34(3):204-208.
[16]李曉炫,呂本富,曾鵬志,等.基于網(wǎng)絡(luò)搜索和CLSI-EMD-BP的旅游客流量預(yù)測(cè)研究[J].系統(tǒng)工程理論與實(shí)踐,2017,37(1):106-118.
[17]陸利軍,廖小平.基于EMD-BP神經(jīng)網(wǎng)絡(luò)的游客量預(yù)測(cè)研究[J].統(tǒng)計(jì)與決策,2019,35(4):85-89.
[18]何雪晴.基于網(wǎng)絡(luò)搜索數(shù)據(jù)和降噪處理的旅游客流量預(yù)測(cè)研究[D].長(zhǎng)春:東北財(cái)經(jīng)大學(xué),2019.
[19]HUANG N E,SHEN Z,LONG S R,et al.The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J].Proceedings of the Royal Society.Mathematical,Physical and Engineering Sciences,1998,454(1971):903-995.
[20]楊永鋒,吳亞鋒.經(jīng)驗(yàn)?zāi)B(tài)分解在振動(dòng)分析中的應(yīng)用[M].北京:國(guó)防工業(yè)出版社,2013.
[21]葉林,劉鵬.基于經(jīng)驗(yàn)?zāi)B(tài)分解和支持向量機(jī)的短期風(fēng)電功率組合預(yù)測(cè)模型[J].中國(guó)電機(jī)工程學(xué)報(bào),2011,31(31):102-108.
[22]劉建華,李錦程,楊龍?jiān)?,?基于EMD-SLSTM的家庭短期負(fù)荷預(yù)測(cè)[J].電力系統(tǒng)保護(hù)與控制,2019,47(6):40-47.
[23]張永安,顏斌斌.一種股票市場(chǎng)的深度學(xué)習(xí)復(fù)合預(yù)測(cè)模型[J].計(jì)算機(jī)科學(xué),2020,47(11):255-267.
[24]CHO K,VAN M B,GULECHRE C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[C]//Conference on Empirical Methods in Natural Language Processing.Doha,ACL,2014:1724-1734.
[25]張·阿斯頓,李沐,LIPTON Z C,等.動(dòng)手學(xué)深度學(xué)習(xí)[M].北京:人民郵電出版社,2019.
[26]ZHOU G B,WU J X,ZHANG C L,et al.Minimal gated unit for recurrent neural networks[J].International Journal of Automation and Computing,2016,13(3):226-234.
[27]周翰遜,陳晨,馮潤(rùn)澤,等.基于值導(dǎo)數(shù)GRU的移動(dòng)惡意軟件流量檢測(cè)方法[J].通信學(xué)報(bào),2020,41(1):102-113.
[28]徐彬.實(shí)戰(zhàn)深度學(xué)習(xí)算法:零起點(diǎn)通關(guān)神經(jīng)網(wǎng)絡(luò)模型(基于Python和NumPy實(shí)現(xiàn))[M].北京:電子工業(yè)出版社,2019:172-175.
[29]黃元行,劉曉波,范津瑋,等.基于注意力機(jī)制和EMD-GRU模型的電力負(fù)荷預(yù)測(cè)[J].智能計(jì)算機(jī)與應(yīng)用,2021,11(3):33-37+43.
[30]鳳少偉,鳳超,申浩.基于K-means與GRU的短時(shí)交通流預(yù)測(cè)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2020,30(7):125-129.
[31]谷麗瓊,吳運(yùn)杰,逄金輝.基于Attention機(jī)制的GRU股票預(yù)測(cè)模型[J].系統(tǒng)工程,2020,38(5):134-140.
[32]XIAO C W,YE J Q,ESTEVES R M,et al.Using Spearman’s correlation coefficients for exploratory data analysis on big dataset[J].Concurrency and Computation:Practice and Experience,2016,28(14):3868-3878.
[33]陳榮,梁昌勇,梁焱,等.基于APSO-SVR的山岳風(fēng)景區(qū)短期客流量預(yù)測(cè)[J].旅游科學(xué),2013,27(3):50-60.
[34]薛峰,孫興偉,董祉序,等.基于EEMD的數(shù)據(jù)降噪算法研究[J].機(jī)械工程與自動(dòng)化,2021(5):9-11.
[35]WU Z H,HUANG N E.Ensemble Empirical Mode Decomposition:a noise-assisted data analysis method[J].Advances in Adaptive Data Analysis,2009,1(1):1- 41.
Prediction of Tourists Flow Based on EMD-GRU Model:
A Case Study of Black Valley Scenic Area in Chongqing
CUI Hong-rui,YANG Xiao-xia,YU Yang-li
(a.School of Geographical Sciences,b.Tourism Research Institute,Southwest University,Chongqing 400715,China)
Abstract:Predicting the short-term tourists flow by the network search data is of great significance to optimize the resource scheduling of scenic spots,guide the planning and development of tourist destinations and guide tourists to make travel plans.In view of the interference of noise on the prediction effect,the network search data taken as the explanatory variable is denoised by Empirical Mode Decomposition (EMD).Gate Recurrent Unit (GRU) with fast convergence speed,short training time and low computational power consumption is introduced to construct the tourists flow prediction model.Taking Black Valley scenic area of Chongqing as an example,the network search data and tourists data from January 1,2015 to January 24,2020 are selected for empirical analysis.The prediction results show that EMD-GRU model has higher prediction efficiency when compared with Recurrent Neural Network (RNN) and Long Short Time Memory (LSTM),and the prediction model trained with EMD denoising data performs better in effectively improving the accuracy of original data prediction model.
Keywords:tourists flow prediction;network search;Gated Recurrent Unit(GRU);Empirical Mode Decomposition(EMD);neural network;Black Valley of Chongqing
西華師范大學(xué)學(xué)報(bào)(自然科學(xué)版)2023年2期