王云龍 彭穎
(重慶師范大學數(shù)學科學學院 重慶市 401331)
旅游市場各季度波動明顯,建立旅游客流量預測模型,有利于旅游目的地省份的防控政策調(diào)整,優(yōu)化景點資源配置。傳統(tǒng)模型依賴于歷史數(shù)據(jù),數(shù)據(jù)滯后性高,可獲取性差,難以滿足預測要求。
網(wǎng)絡搜索數(shù)據(jù)對提高預測精度發(fā)揮重要作用,但網(wǎng)絡數(shù)據(jù)本身對預測結(jié)果帶來的影響,“大數(shù)據(jù)傲慢”現(xiàn)象說明了利用網(wǎng)絡搜索數(shù)據(jù)對預測結(jié)果會產(chǎn)生高估或低估問題,使網(wǎng)絡數(shù)據(jù)對預測精度提升不明顯,針對該問題,本文基于網(wǎng)絡搜索數(shù)據(jù),利用EEMD 對原始數(shù)據(jù)進行降噪處理,提升原始數(shù)據(jù)的可靠性,并使用禿鷹算法優(yōu)化極限學習機對重慶國內(nèi)旅游人數(shù)進行預測。
集合經(jīng)驗模態(tài)分解[1,2](EEMD)是在經(jīng)驗模態(tài)分解(EMD)的基礎上改進的降噪方法,該方法加入不同幅值的白噪聲改變原始信號極值點進行輔助降噪,經(jīng)平均值處理,疊加值在不同區(qū)域形成完整映射,克服EMD 存在的混疊現(xiàn)象,有效抑制分解結(jié)果中噪聲的影響,在處理原始序列信號分解上優(yōu)勢明顯。EEMD 具體分解步驟如下:
(1)在原始信號x(t)中加入正態(tài)白噪聲序列n(t),得到
式中xn(t)為加入噪聲后的序列。
根據(jù)EEMD 分解原理,任何序列信號可由本征模態(tài)函數(shù)IMF 組成,即:
式中r(t)為趨勢項,代表平均趨勢,對序列進行EMD分解得到IMF。
(2)計算xn(t)的所有極值點并擬合出上、下包絡線u(t)和l(t)。
(3)計算均值包絡、和中間函數(shù)。
(4)判斷中間函數(shù)h(t)是否滿足IMF 定義,滿足則令c(t)=h(t),并將c(t)作為第1 階IMF 輸出,若不滿足則令xm(t)=h(t),重復以上步驟,直至滿足IMF 定義。
IMF 的嚴格定義為任何時刻m(t)為零,在實際應用中無法實現(xiàn),故一般定義為滿足以下條件:
式中,N為原始序列長度,k為分解次數(shù),ε為篩選門限,通常取0.2-0.3。
(5)沒得到一階IMF,就從原始序列xm(t)除去它,直至原始序列r(t)為單調(diào)序列或常值序列。
禿鷹搜索算法[3](bald eagle search,BES)具有較強的全局搜索能力,該算法綜合粒子群算法和鯨魚算法的優(yōu)點,可有效解決各類復雜數(shù)值優(yōu)化問題。
禿鷹在捕食時選定一個搜索空間,在該空間進行飛行,當發(fā)現(xiàn)合適獵物后,禿鷹改變飛行高度,快速向下俯沖,捕獲獵物。BES 算法模擬禿鷹捕食的三個階段,選擇區(qū)域、搜索獵物、俯沖捕獵。
算法原理:
(1)初始化種群數(shù)量N,每只位置為P=(p1,p2,...,pD),該位置的優(yōu)劣由適應函數(shù)fit(x)得出。
(2)選擇階段,禿鷹會飛行至當前最優(yōu)個體附近,與只有個體的距離由全體平均位置確定。
式中,為當前個體選擇的新位置,為[1.5,2]內(nèi)的常數(shù),是滿足[0,1]均勻分布的隨機數(shù)。為當前種群的平均位置,為當前個體的位置。若新位置優(yōu)于原位置,則更新位置,否則留在原位置。
(3)搜索階段,禿鷹圍繞當前位置,以阿基米德螺旋線的方式搜索尋找最佳俯沖位置。采用極坐標方程進行位置更新,如下公式所示。
式中與為螺旋方程的極角與極徑;a 為取值[5,10]中的常數(shù),R 為取值[0.5,2]的常數(shù),rand 為服從[0,1]均勻分布的隨機數(shù)。禿鷹圍繞自身飛行,飛行距離由自身與群體中心距離和自身與下一只禿鷹的距離決定。若搜索的新位置優(yōu)于原位置,更新位置,否則留在原地。
(4)俯沖捕獵:禿鷹從搜索空間最佳位置快速飛向獵物,同時其他種群個體向最佳位置移動并飛向獵物,該階段在最優(yōu)位置以螺線方式搜索,具體公式如下:
式中C1 和C2 為禿鷹向最佳中心位置的運動強度,取值為(1,2)。
極限學習機[4](ELM)是黃廣斌提出的單層前饋神經(jīng)網(wǎng)絡,傳統(tǒng)的前饋神經(jīng)網(wǎng)絡基于梯度下降法優(yōu)化網(wǎng)絡結(jié)構(gòu),導致學習率低,易陷入局部最優(yōu)或過擬合,且在不同應用場景需手動調(diào)參。ELM 隨機選擇隱藏節(jié)點及隱層權(quán)重和誤差,通過解析計算確定輸出層權(quán)值,相較于傳統(tǒng)前饋神經(jīng)網(wǎng)絡泛化能力強,學習能力快。如圖1所示。
圖1:ELM 拓撲結(jié)構(gòu)圖
設輸入層為m,隱含層為n,輸出層節(jié)點為l,g(x)為激活函數(shù),有N個樣本極限學習機公式如下:
將N個樣本帶入公式可表達為:
式中,H表示隱含層輸出矩陣,β表示輸出層權(quán)值矩陣,Y表示樣本目標值矩陣。在ELM 模型中輸入權(quán)值和偏差隨機給定,隱含層輸出矩陣H變成確定的矩陣,根據(jù)求解最小二乘問題確定輸出層權(quán)值矩陣:
式中,H+為H的Moore-Penrose 廣義逆,在ELM 中常用正交法計算H+:
ELM 相較于BP 神經(jīng)網(wǎng)絡在預測精度上有所提升,但仍存在參數(shù)任意選取的問題,從而影響預測精度,使用BES算法對ELM 模型網(wǎng)絡參數(shù) 和 兩個參數(shù)進行全局尋優(yōu),可彌補ELM 的缺點提升預測精度,優(yōu)化預測過程。如圖2所示。
圖2:BES-ELM 模型流程圖
本文采用的重慶旅游客流量來源于wind 數(shù)據(jù)庫,數(shù)據(jù)時間范圍為2011年1月-2019年12月。網(wǎng)絡搜索數(shù)據(jù)來源于百度指數(shù)[5-9],根據(jù)旅游決策的主要影響因素,旅游目的地景區(qū)特征、目的地美食、交通、住宿基本因素確立5 個初始關鍵詞,并通過挖掘工具、對初始關鍵詞長尾詞、需求圖譜進行處理確立了個拓展關鍵詞,如表1所示。選取2011年1月1日至2019年年12月31日的日網(wǎng)絡搜索數(shù)據(jù),并分別對不同終端(電腦端:PSV,移動端:MSV)選取的關鍵詞日平均搜索量進行處理,計算關鍵詞的月平均搜索數(shù)據(jù)。
表1:百度指數(shù)搜索關鍵詞
對不同終端初始關鍵詞數(shù)據(jù)累加可知。受限于移動端網(wǎng)絡,2011年1月-2012年8月PC 端網(wǎng)絡搜索量大于移動端,隨著4G 網(wǎng)絡的普及,移動端搜索逐漸便利,成為百度搜索的主要趨勢,在2014年1月后移動端搜索量急速增長。如圖3所示。
圖3:PC 端與移動端百度指數(shù)趨勢
因此,本文以2013年12月為劃分點,分別對PC 端和移動端百度關鍵詞指數(shù)序列與重慶國內(nèi)旅游人數(shù)序列進行時差相關性分析,分別計算時間劃分點不同終端下每個關鍵詞與重慶旅游人數(shù)序列0-7 階領先相關系數(shù)。
通過時差相關性分析可知,2013年12月前4G 網(wǎng)絡未普及,作旅游決策時,人們傾向于使用PC 端進行旅游目的地信息收集,移動端因發(fā)展不成熟,在此過程中起到一定的輔助作用。2014年隨著移動網(wǎng)絡發(fā)展,PC 端百度指數(shù)數(shù)據(jù)序列與重慶國內(nèi)旅游人數(shù)序列相關性降低,失去代表游客搜索行為的能力。移動網(wǎng)絡成為游客搜索的主流。本文選取相關系數(shù)大于0.5 的關鍵詞作為輸入數(shù)據(jù)。
客流量數(shù)據(jù)和百度指數(shù)數(shù)據(jù)具有非線性的特點,且百度指數(shù)關鍵詞選取較主觀,尚未形成成熟的選取模型,考慮到客流量數(shù)據(jù)選取對模型性能的影響,本文使用EEMD 算法,對客流量數(shù)據(jù)進行EEMD 分解。經(jīng)過分解后分別可得到5條IMF 和1 條殘差。如圖4所示。
圖4:重慶國內(nèi)旅游人數(shù)EEMD 分解圖
為評價預測結(jié)果的有效性,本文選取平均絕對誤差(MAE)、平均絕對百分比誤差(MAPE)和均方根誤差(RMSE)對實驗預測結(jié)果進行評估,其誤差計算表公式如下:
對各模型進行10 次測算,得到訓練集和測試集平均評價指標如表2,通過評價指標的對比可知,BES-ELM 模型在MAE、SMAPE、RMSE 的數(shù)值均小于基準模型。
表2:訓練集和測試機平均評價指標
以2014年-2019年的數(shù)據(jù)為例對不同IMF 訓練集預測數(shù)據(jù)進行加總合成得BES-ELM 模型的擬合效果與預測效果。如圖5所示。
圖5:BES-ELM 模型訓練集與測試集效果圖
通過實證分析可知,測試集峰值數(shù)據(jù)預測效果較差。筆者分析存在以下原因,首先,在網(wǎng)絡關鍵詞選取上無科學的方法,選取較主觀,本文雖對數(shù)據(jù)進行去噪,但選取關鍵詞相關系數(shù)閾值為0.5,可能影響結(jié)果;其二,受數(shù)據(jù)限制,訓練集較少,影響效果。
本文以重慶國內(nèi)旅游客流量為基礎,分別采用BESELM 模型、BP 模型、ELM 模型進行測算。結(jié)果表明,BES-ELM 模型預測精度較高,在很大程度上可反映重慶旅游客流情況。較傳統(tǒng)的前饋神經(jīng)網(wǎng)絡BP 模型更適合用于預測客流量此類時間序列數(shù)據(jù)。
因網(wǎng)絡搜索數(shù)據(jù)本身的復雜性,深度學習模型比傳統(tǒng)模型更適用于客流預測,擬合能力更強,預測準確更高。但數(shù)據(jù)來源限制,本文僅考慮百度網(wǎng)絡搜索數(shù)據(jù),考慮的外部因素較少,若能獲取重慶酒店預訂量、至重慶的機票、動車票銷售量等因素,同時考慮爬取各旅游平臺的相關數(shù)據(jù),篩選出更多主要因素帶入模型,會提升模型預測精度,取得更好的預測效果。