張斌儒,劉樹林,張超鋒,蒲玉蓮
(1.長江師范學(xué)院 a.財(cái)經(jīng)學(xué)院,b.管理學(xué)院 重慶 408100;2.對外經(jīng)濟(jì)貿(mào)易大學(xué) 國際經(jīng)濟(jì)貿(mào)易學(xué)院,北京 100029)
酒店是旅游業(yè)的重要組成部分,在旅游發(fā)展中扮演著舉足輕重的角色,預(yù)測將來酒店需求是酒店收益管理的關(guān)鍵環(huán)節(jié),有助于相關(guān)企業(yè)和組織分配有限的旅游資源以保持市場競爭力[1-2]。然而,諸如酒店入住率等旅游需求是一個(gè)復(fù)雜的非線性系統(tǒng),受季節(jié)性、突發(fā)事件以及隨機(jī)因素等影響較大,使得傳統(tǒng)的預(yù)測技術(shù)無法對其進(jìn)行精確的擬合。本文試圖尋求更為有效的預(yù)測工具對酒店入住率進(jìn)行預(yù)測。
傳統(tǒng)的預(yù)測方法主要依賴于預(yù)測變量或被預(yù)測變量的歷史數(shù)據(jù),預(yù)測變量主要包括客源地人口數(shù)量、匯率、收入水平、目的地或競爭地門票價(jià)格以及其它定量指標(biāo)[2],這些變量常難以獲取。而被預(yù)測變量的歷史觀測往往無法充分?jǐn)M合旅游需求的非線性特征,數(shù)據(jù)的發(fā)布存在一定的滯后,且要求穩(wěn)定的經(jīng)濟(jì)環(huán)境,這在一定程度上限制了模型的應(yīng)用,影響預(yù)測的時(shí)效性。近年來,隨著信息技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及,作為旅行計(jì)劃和在線交易的工具,網(wǎng)絡(luò)的使用產(chǎn)生了一類可利用的網(wǎng)絡(luò)搜索數(shù)據(jù),這些數(shù)據(jù)具有實(shí)時(shí)性、易獲取、對消費(fèi)者行為敏感等特征,一定程度上反映了消費(fèi)者的潛在旅游需求[3]。
基于互聯(lián)網(wǎng)的消費(fèi)者搜索數(shù)據(jù)(Consumer Search Queries,CSQ)在旅游需求預(yù)測領(lǐng)域已有應(yīng)用。比如,Choi和Varian應(yīng)用谷歌趨勢數(shù)據(jù)預(yù)測來自9個(gè)不同國家的到港游客量[4];Yang等采用百度網(wǎng)絡(luò)搜索數(shù)據(jù)對中國海南省旅游景區(qū)接待的客流量進(jìn)行了預(yù)測研究,并得到了較好的預(yù)測效果[5]。王煉和賈建明以“黃金周”期間的客流量數(shù)據(jù)為研究對象,利用百度搜索指數(shù)對短期游客流量成功進(jìn)行了預(yù)測[6];李霞和曲洪建基于百度搜索數(shù)據(jù)對郵輪旅游網(wǎng)絡(luò)關(guān)注度的時(shí)空特征以及影響因素進(jìn)行了實(shí)證分析并得到了相關(guān)的結(jié)論[7],Zhang等也做了類似研究[8]。這些研究表明網(wǎng)絡(luò)搜索數(shù)據(jù)能顯著提高模型預(yù)測精度,預(yù)測具有時(shí)效性,但主要集中在游客流量預(yù)測以及旅游網(wǎng)絡(luò)關(guān)注度方面,對酒店需求預(yù)測研究甚少,在國內(nèi)還沒有相關(guān)文獻(xiàn)對酒店入住率進(jìn)行研究。本文擬擴(kuò)展該方法在酒店需求預(yù)測中的應(yīng)用。
雖然網(wǎng)絡(luò)搜索數(shù)據(jù)被成功應(yīng)用于旅游需求預(yù)測領(lǐng)域,但所使用的模型主要為經(jīng)典時(shí)間序列或經(jīng)濟(jì)計(jì)量等線性模型。由于旅游需求是一個(gè)復(fù)雜的非線性系統(tǒng),因此傳統(tǒng)的預(yù)測技術(shù)難以對其進(jìn)行充分的刻畫,需尋求更為有效的預(yù)測工具。ANN具有良好的非線性預(yù)測能力,但受限于訓(xùn)練過程復(fù)雜,容易陷入局部最優(yōu)以及對樣本容量要求較大等缺陷。作為一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)算法,支持向量回歸(Support Vector Regression,SVR)具有很強(qiáng)的非線性預(yù)測能力,并且可以解決小樣本預(yù)測問題。該模型已被成功應(yīng)用于旅游需求預(yù)測[9]。研究結(jié)果表明SVR模型的預(yù)測能力優(yōu)于傳統(tǒng)的非線性模型。但利用SVR進(jìn)行預(yù)測會(huì)遇到兩個(gè)技術(shù)障礙:首先是對模型自由參數(shù)的選擇問題,不恰當(dāng)參數(shù)設(shè)置會(huì)對預(yù)測結(jié)果產(chǎn)生重要影響[10]。針對自由參數(shù)的選擇,已有研究主要應(yīng)用粒子群優(yōu)化算法(PSO)等對SVR模型的三個(gè)自由參數(shù)進(jìn)行調(diào)整。比如,陳榮等利用PSO調(diào)整SVR的參數(shù),并構(gòu)建模型對黃山景區(qū)客流量進(jìn)行了預(yù)測[9];Gu等應(yīng)用遺傳算法(Genetic Algorithm,GA)調(diào)節(jié)SVR的參數(shù),并建立模型對房價(jià)進(jìn)行了預(yù)測[11]。然而,這些參數(shù)優(yōu)化算法在某些情況下容易存在局部最優(yōu)等風(fēng)險(xiǎn)。Yang提出蝙蝠算法(Bat Algorithm,BA),其主要思想來源于自然界的蝙蝠覓食的過程[12]。與PSO等算法的搜索機(jī)制相同,但BA擁有更強(qiáng)的隨機(jī)性,因而具備更快的收斂速度、不易陷入局部最優(yōu)以及魯棒性強(qiáng)等優(yōu)點(diǎn)。
為克服傳統(tǒng)預(yù)測技術(shù)的局限性,本文建立BA-SVR@CSQ混合模型對北京星級酒店的月度平均入住率進(jìn)行預(yù)測,其中引入的BA用于模型自由參數(shù)的優(yōu)化,利用2011年1月到2017年4月的百度網(wǎng)絡(luò)搜索數(shù)據(jù)(CSQ)作為SVR模型的輸入集,“@”旨在強(qiáng)調(diào)利用消費(fèi)者搜索數(shù)據(jù)構(gòu)造預(yù)測模型的輸入集。為驗(yàn)證該方法的有效性,將BA-SVR (僅利用酒店入住率的歷史觀測作為輸入集)、PSO-SVR@CSQ、ANN@CSQ以及BA-SVR@T作為基準(zhǔn)模型以進(jìn)行預(yù)測對比,其中,“T”用于強(qiáng)調(diào)利用鐵路客運(yùn)量數(shù)據(jù)*交通流量數(shù)據(jù)主要包括飛機(jī)、鐵路、輪船以及公路等客運(yùn)量數(shù)據(jù),但由于除鐵路客運(yùn)量以外的其它交通數(shù)據(jù)或其它交通數(shù)據(jù)的加權(quán)平均值與被預(yù)測變量之間沒有顯著的相關(guān)性,故本文僅選擇鐵路客運(yùn)量數(shù)據(jù)進(jìn)行分析。構(gòu)造模型輸入集,BA-SVR@T旨在利用交通流量以及入住率歷史觀測數(shù)據(jù)預(yù)測酒店入住率并對比不同來源數(shù)據(jù)的預(yù)測效果。
Vapnik引入支持向量機(jī)(SVM)以解決分類問題,SVM是基于統(tǒng)計(jì)學(xué)習(xí)理論的一種新穎的機(jī)器學(xué)習(xí)算法[13]988-999。隨著ε(不敏感損失函數(shù))的引入,回歸版本的SVM即SVR被用于非線性回歸預(yù)測問題[14]。SVR的本質(zhì)是求解一個(gè)帶約束的二次規(guī)劃問題并提供全局最優(yōu)解,其基本原理概括如下:
給定數(shù)據(jù)集:(xi,yi),yi∈R,xi∈Rn(i=1,2,…,N),其中xi表示輸入向量,yi為與xi相對應(yīng)的輸出值。定義非線性映射φ:Rn→F,通過該映射,數(shù)據(jù)集xi被映射到高維特征空間F,在該特征空間理論上存在一個(gè)線性函數(shù)f(SVR函數(shù)),它描繪了xi與yi之間的非線性關(guān)系:
f(x)=ωTφ(x)+b
(1)
其中,f(x)為預(yù)測值,系數(shù)ω和b通過最小化正則風(fēng)險(xiǎn)函數(shù)獲得:
(2)
滿足如下約束條件:
(3)
其中,式(2)等號(hào)右邊第一項(xiàng)表示Euclidean范數(shù),控制模型的復(fù)雜度,第二項(xiàng)表示經(jīng)驗(yàn)風(fēng)險(xiǎn),該項(xiàng)利用ε不敏感損失函數(shù)懲罰訓(xùn)練誤差,C用來折中模型的復(fù)雜度和經(jīng)驗(yàn)風(fēng)險(xiǎn)[14]。式(3)中ζ與ζ*表示正的松弛變量,用來保證解的存在,ε用來度量不敏感損失函數(shù)。
將上述問題轉(zhuǎn)化為對偶問題并求解一個(gè)二次規(guī)劃問題,則線性函數(shù)f(x)可以表示為:
(4)
其中,拉格朗日乘子β和β*由求解二次規(guī)劃問題確定,K(xi,x)表示SVR所使用的核函數(shù),任何滿足Mercer’s定理的函數(shù)均可作為SVR的核函數(shù)[14],本文采用最為常用的高斯徑向基(RBF)核。因?yàn)楹藢拵?、不敏感損失函數(shù)以及折中系數(shù)需要用戶進(jìn)行調(diào)整,因此要求求解一個(gè)三維的優(yōu)化問題,本文利用蝙蝠算法對模型的這些自由參數(shù)進(jìn)行優(yōu)化。
BA由Yang提出,該算法綜合了其它啟發(fā)式智能算法的優(yōu)點(diǎn),其思想來源于自然界的蝙蝠覓食的行為[12,15]。由于BA具有收斂速度快、易于實(shí)現(xiàn)、結(jié)構(gòu)簡單,易獲得全局最優(yōu)解以及魯棒性好等優(yōu)點(diǎn)[15],使得該算法在多個(gè)學(xué)科和工程領(lǐng)域得到了廣泛的應(yīng)用。比如,Yang應(yīng)用BA解決了一些工程優(yōu)化問題,與其它優(yōu)化技術(shù)相比,得到了令人滿意的結(jié)果[15]。下面簡要概括BA的原理,具體細(xì)節(jié)及相關(guān)假設(shè)可參考Yang。
蝙蝠采用聲吶技術(shù)搜索食物目標(biāo)并且對前方的障礙物進(jìn)行有效的躲避,同時(shí)利用回聲定位的聲學(xué)原理來調(diào)整發(fā)聲頻率以判斷所捕食物的大小,并通過回聲的變化情況以探測目標(biāo)物體的方向、距離、大小以及速度等,從而準(zhǔn)確地飛行和捕食。Yang根據(jù)蝙蝠的這種生活習(xí)性以及目標(biāo)優(yōu)化問題提出了蝙蝠算法,具體而言,在n維搜索空間,蝙蝠的速度、位置、響度和脈沖速率可以用下列方程表示:
fi=fmin+(fmax-fmin)β
(5)
υit=υit-1+(xit-x*)fi
(6)
xit=xit-1+υit
(7)
其中,向量β在[0,1]區(qū)間上服從均勻分布,x*表示當(dāng)前全局最優(yōu)解,fmin和fmax分別表示最小和最大頻率,需根據(jù)具體問題進(jìn)行設(shè)置。
局部搜索則是通過隨機(jī)游走的方式迭代進(jìn)行:
xnew=xold+εAt
(8)
其中,ε表示在[-1,1]閉區(qū)間上的一個(gè)隨機(jī)數(shù),At=〈Ait〉表示所有蝙蝠在第t次迭代時(shí)間段的平均噪聲,蝙蝠的音量Ai和脈沖發(fā)生率ri則通過式(9)進(jìn)行更新:
Ait+1=αAit,rit+1=ri0[1-exp(-θt)]
(9)
對任意的0<α<1,θ>0,簡單計(jì)算可以得到式(10):
Ait→0,rit→ri0,t→
(10)
其中,α和θ均為待定常數(shù)。當(dāng)運(yùn)用BA求解優(yōu)化問題時(shí),必須預(yù)先對BA自身的參數(shù)進(jìn)行設(shè)置,這些參數(shù)包括:蝙蝠的數(shù)量N,A0,r0,α,θ,fmin,fmax以及隨機(jī)游走步長λ。本文采用Taguchi方法對BA的參數(shù)進(jìn)行設(shè)置[16]。
基于SVR和BA算法的基本原理,本文混合模型的預(yù)測可以通過以下步驟實(shí)現(xiàn):
步驟1:BA參數(shù)的確定。在利用BA對SVR模型參數(shù)優(yōu)化前,需對BA的若干參數(shù)進(jìn)行設(shè)置,本文采用Taguchi法對其進(jìn)行設(shè)置,該方法簡化了實(shí)驗(yàn)的過程,簡單易行。
步驟2:蝙蝠種群初始化。為獲得SVR的最優(yōu)參數(shù)集,我們必須對種群進(jìn)行初始化,而種群被假定隨機(jī)分布在整個(gè)搜索空間上,故本文需優(yōu)化SVR的3個(gè)超參數(shù)。
步驟3:搜索新解。在該過程中,蝙蝠利用自身所處的具體位置和速度循環(huán)計(jì)算,從而搜索到最優(yōu)解。
步驟5:停止迭代準(zhǔn)則的判斷。搜索新解和適應(yīng)度評估兩個(gè)步驟將會(huì)持續(xù)迭代,直至進(jìn)化的代數(shù)與用戶事先規(guī)定的迭代次數(shù)相等為止,同時(shí)在迭代過程停止時(shí)適應(yīng)度曲線收斂,此時(shí)獲得模型的最優(yōu)解,然后將其帶入SVR模型,并在測試集上進(jìn)行預(yù)測實(shí)驗(yàn)。具體預(yù)測流程圖見圖1。
圖1 BA-SVR@CSQ預(yù)測流程圖
由于酒店入住率可真實(shí)反映酒店接待客流量以及客房的利用情況,為證實(shí)引入方法的有效性,本文以北京為例,對北京市星級酒店月度平均入住率進(jìn)行預(yù)測。北京是全球擁有世界遺產(chǎn)最多的城市,交通便捷,其旅游業(yè)已取得巨大的發(fā)展。據(jù)北京市統(tǒng)計(jì)局?jǐn)?shù)據(jù)顯示,2015年1-11月北京星級酒店收入合計(jì)2 358 819萬元,同比增長1.4%;接待住宿人數(shù)18 515 974萬人,同比增長3.9%.
星級酒店入住率以及鐵路客運(yùn)量數(shù)據(jù)來源于萬得(wind)資訊,數(shù)據(jù)收集的時(shí)間范圍為2011年1月至2017年4月。網(wǎng)絡(luò)搜索數(shù)據(jù)來源于百度指數(shù)(http://index.baidu.com/),它是由百度提供的一項(xiàng)關(guān)鍵詞免費(fèi)查詢服務(wù),呈現(xiàn)了2011年1月至今的日度或周度整體趨勢數(shù)據(jù)。
圖2 關(guān)鍵詞“北京酒店”與被預(yù)測變量趨勢圖
圖2直觀顯示了 “北京酒店”這一關(guān)鍵詞與被預(yù)測變量“酒店入住率”之間的趨勢,可以看出兩條曲線的波動(dòng)特征極為相似,表現(xiàn)出較強(qiáng)的聯(lián)動(dòng)性和相關(guān)性,并且該關(guān)鍵詞的波動(dòng)時(shí)間一定程度上領(lǐng)先于酒店入住率變量。酒店入住率,在每年表現(xiàn)出相似的“凸”字型波動(dòng),在每年的7—8月份達(dá)到峰值,在春節(jié)左右回落到谷值。這是由于每年的7—8月為暑假,8月末為開學(xué)時(shí)間,這段時(shí)期大量游客流向北京市區(qū),客流劇增,造成酒店入住率達(dá)到最高;而到了春節(jié)左右,大量務(wù)工人員和城市居民返鄉(xiāng),大量游客流出北京市區(qū),造成市區(qū)短時(shí)間內(nèi)客流驟減,從而酒店入住率達(dá)到最低。由于受其它季節(jié)性和隨機(jī)性等因素影響,在每個(gè)周期內(nèi)還出現(xiàn)小的峰值和谷值,但每個(gè)周期的波動(dòng)特征又不盡相同。因此,本文假定與北京旅游相關(guān)的某些信息搜索能有效預(yù)測酒店入住率,并提高模型的預(yù)測能力。
網(wǎng)絡(luò)搜索數(shù)據(jù)反映了游客潛在的旅游需求,盡管個(gè)別數(shù)據(jù)本身存在一定的缺陷,存在較大的噪聲,不妨礙利用統(tǒng)計(jì)的方法找出關(guān)鍵詞變量與被預(yù)測變量之間的相關(guān)性并證實(shí)該類數(shù)據(jù)對預(yù)測的有效性。由于與被預(yù)測變量相關(guān)的關(guān)鍵詞并不唯一,如何從中甄別出最具預(yù)測力的預(yù)測變量是需要解決的關(guān)鍵問題。本文根據(jù)如下步驟對網(wǎng)絡(luò)搜索數(shù)據(jù)進(jìn)行獲取與篩選:
1.基準(zhǔn)關(guān)鍵詞的確定。選擇與北京旅游相關(guān)的基準(zhǔn)關(guān)鍵詞14個(gè),這些基準(zhǔn)關(guān)鍵詞包括了與“吃”、“住”、“行”、“游”、“購”以及“娛”等旅游六要素相關(guān)的信息查詢。
2.為避免遺漏重要關(guān)鍵詞信息,循環(huán)查詢與基準(zhǔn)關(guān)鍵詞相關(guān)的其它關(guān)鍵詞信息,初步得到與北京旅游相關(guān)的關(guān)鍵詞46個(gè),并獲取這些關(guān)鍵詞的數(shù)據(jù)信息。由于被預(yù)測變量為月度數(shù)據(jù),簡單起見,將關(guān)鍵詞變量(周度數(shù)據(jù))按照平均加權(quán)求和的方式轉(zhuǎn)換為月度數(shù)據(jù)。
3.預(yù)測變量的獲取。以0.70為閾值,綜合使用皮爾森交叉相關(guān)分析以及逐步回歸的思想最終得到4個(gè)最具預(yù)測能力關(guān)鍵詞。其中皮爾森交叉相關(guān)分析基于一種啟發(fā)式算法,該算法能通過對時(shí)間序列進(jìn)行統(tǒng)計(jì)分析,識(shí)別與時(shí)間序列相對應(yīng)的不同滯后結(jié)構(gòu)的潛在影響變量,這種方法能確保找出最具相關(guān)性的預(yù)測變量。但預(yù)測變量并非越多越好,關(guān)鍵詞變量對模型的邊際貢獻(xiàn)是有限的,而逐步回歸方法旨在確定最佳預(yù)測變量。最終所選擇變量的相關(guān)性分析見表1。
表1 所選預(yù)測變量與被預(yù)測變量相關(guān)分析表
注:***,**,*分別表示在1%,5%與10%水平顯著,下同;所有時(shí)間區(qū)間已進(jìn)行對齊處理;被預(yù)測變量y:酒店入住率 (2012.01-2017.04)
由表1可以看出,被預(yù)測變量與其12階滯后變量之間存在顯著的相關(guān)關(guān)系,相關(guān)系數(shù)達(dá)到了0.979 8,因此入住率的12階滯后變量被選為預(yù)測變量;入住率與4個(gè)關(guān)鍵詞的最優(yōu)滯后變量之間也存在顯著的相關(guān)關(guān)系。這些變量都反映了游客到北京旅游所關(guān)心的與旅游及住宿相關(guān)的問題。比如,他們會(huì)提前1個(gè)月在網(wǎng)絡(luò)上對門票及住宿等相關(guān)問題進(jìn)行查詢,盡管消費(fèi)者也查詢了“北京酒店預(yù)訂”等其它與北京旅游相關(guān)的潛在信息,考慮到變量選擇的相關(guān)性以及預(yù)測能力,我們未能將其納入到預(yù)測變量中來;上一年的鐵路客運(yùn)量與酒店入住率之間也存在顯著的相關(guān)關(guān)系,相關(guān)系數(shù)為0.648 0。由于暑假和春節(jié)對入住率影響較大,引入季節(jié)虛擬變量dummy,當(dāng)某月包含寒假或暑假時(shí),取值為1,否則取值為0?;谝陨戏治?,將實(shí)驗(yàn)數(shù)據(jù)集表示為:{yt-12,x1,t-1,x2,t-12,x3,t-1,x4,t-1,x5,t-12,dummy;yt},其中,{yt-12,x1,t-1,x2,t-12,x3,t-1,x4,t-1,x5,t-12,dummy}表示模型的輸入集,yt為模型的輸出變量,數(shù)據(jù)樣本容量為64(滯后損失了12個(gè)數(shù)據(jù)點(diǎn))。為消除不同變量的數(shù)量級對預(yù)測結(jié)果的影響,對實(shí)驗(yàn)數(shù)據(jù)集利用式(11)進(jìn)行標(biāo)準(zhǔn)化處理以改善模型預(yù)測精度:
(11)
其中,xi為變量x的第i個(gè)數(shù)據(jù)點(diǎn),xmin和xmax分別表示對應(yīng)變量在樣本區(qū)間的最小值和最大值。
預(yù)測后需對預(yù)測值進(jìn)行標(biāo)準(zhǔn)化公式的逆變換N-1(xi)以獲得實(shí)際的預(yù)測值。考慮到實(shí)驗(yàn)數(shù)據(jù)樣本容量較小,為進(jìn)行預(yù)測實(shí)驗(yàn),將標(biāo)準(zhǔn)化后的實(shí)驗(yàn)數(shù)據(jù)分成訓(xùn)練集(前52個(gè)數(shù)據(jù)點(diǎn))和檢驗(yàn)集(最后12個(gè)數(shù)據(jù)點(diǎn))兩部分分別用于模型訓(xùn)練以及預(yù)測檢驗(yàn)。
為驗(yàn)證BA-SVR@CSQ模型的預(yù)測能力,本文采用相關(guān)系數(shù)(R)、平均絕對誤差比(MAPE)和均方根誤差(RMSE)指標(biāo)對預(yù)測誤差進(jìn)行評估,這些指標(biāo)的定義如下:
(12)
(13)
(14)
在3個(gè)性能度量指標(biāo)中,MAPE和RMSE旨在衡量擬合值與期望值之間的偏差,其值愈小意味著模型的預(yù)測精度越高;R度量預(yù)測值與實(shí)際值之間的相關(guān)程度,其值越接近1意味著相關(guān)程度越大,預(yù)測性能越高。
根據(jù)預(yù)測程序,首先需要在訓(xùn)練集上訓(xùn)練模型以獲得模型的最優(yōu)參數(shù),然后將訓(xùn)練的模型在檢驗(yàn)集上進(jìn)行預(yù)測實(shí)驗(yàn)。利用MATLAB 2015a進(jìn)行實(shí)驗(yàn),所建立BA-SVR@CSQ模型的最優(yōu)參數(shù)集為:C=28.296,ε=0.991,δ=2.370,篇幅所限,其它模型最優(yōu)參數(shù)集未能逐一列出。
將得到的最優(yōu)模型在檢驗(yàn)集上進(jìn)行預(yù)測,各個(gè)模型預(yù)測結(jié)果見表2,該表顯示在12個(gè)月的預(yù)測值中,BA-SVR@CSQ和PSO-SVR@CSQ模型的最優(yōu)預(yù)測值(標(biāo)記為黑體)均為4個(gè)月,ANN@CSQ為2個(gè)月,而BA-SVR與BA-SVR@T均1個(gè)月。預(yù)測值暗示本文構(gòu)建的預(yù)測方法具有更好的預(yù)測效果;BA-SVR由于僅使用了入住率的滯后觀測作為模型的輸入集,使得預(yù)測能力最差,這證實(shí)了引入網(wǎng)絡(luò)搜索數(shù)據(jù)能提高模型的預(yù)測能力;PSO-SVR@CSQ也具有很好的預(yù)測能力;而ANN@CSQ模型雖使用了網(wǎng)絡(luò)搜索數(shù)據(jù)作為輸入集并且具有良好的非線性預(yù)測能力,但由于ANN不適用于小樣本預(yù)測問題,所以預(yù)測性能差強(qiáng)人意;BA-SVR@T基于鐵路客運(yùn)量數(shù)據(jù)進(jìn)行預(yù)測,其預(yù)測能力與基于網(wǎng)絡(luò)搜索數(shù)據(jù)模型的預(yù)測能力有很大差距。圖3更為直觀地顯示出各個(gè)模型的預(yù)測曲線與實(shí)際曲線之間的偏差,可以看出BA-SVR@CSQ的擬合效果最好,具體預(yù)測性能是否具有差異還需從統(tǒng)計(jì)性能指標(biāo)進(jìn)行驗(yàn)證。
表2 不同模型預(yù)測結(jié)果對比表
圖3不同模型預(yù)測曲線對比圖
為進(jìn)一步對上述結(jié)論進(jìn)行驗(yàn)證,基于預(yù)測結(jié)果的3個(gè)統(tǒng)計(jì)度量指標(biāo)值見表3。從總體上看,3個(gè)度量指標(biāo)值顯示BA-SVR@CSQ模型預(yù)測性能最佳,其次是PSO-SVR@CSQ和ANN@CSQ,表現(xiàn)最差的仍然是BA-SVR模型。具體而言,平均絕對誤差百分比和均方根誤差值暗示BA-SVR@CSQ的擬合值與期望值之間具有最小偏差,從而預(yù)測精度最高,而沒有利用網(wǎng)絡(luò)搜索數(shù)據(jù)的BA-SVR模型預(yù)測偏離最大;與BA-SVR@CSQ相比,基于鐵路客運(yùn)量數(shù)據(jù)的BA-SVR@T與實(shí)際值的偏離程度更大。就相關(guān)系數(shù)R而言,BA-SVR@CSQ模型的預(yù)測結(jié)果與實(shí)際值相關(guān)程度最高,表現(xiàn)最差的仍為BA-SVR。
表3 不同預(yù)測模型的統(tǒng)計(jì)性能指標(biāo)
上述基于預(yù)測結(jié)果的分析驗(yàn)證了所構(gòu)建的BA-SVR@CSQ混合模型具有良好的預(yù)測性能,而網(wǎng)絡(luò)搜索數(shù)據(jù)的引入提高了模型的預(yù)測精度,這與已有文獻(xiàn)結(jié)論一致[6,8];同時(shí)證實(shí)了與PSO優(yōu)化算法相比,BA不易陷入局部最優(yōu)、更具魯棒性強(qiáng)等優(yōu)點(diǎn);ANN雖然有較強(qiáng)的非線性預(yù)測能力,但在處理小樣本數(shù)據(jù)預(yù)測方面表現(xiàn)較差;鐵路客運(yùn)量數(shù)據(jù)不具備網(wǎng)絡(luò)搜索數(shù)據(jù)的一些優(yōu)點(diǎn),同時(shí)由于相關(guān)性等原因未能整合其它交通流量數(shù)據(jù),導(dǎo)致BA-SVR@T模型的預(yù)測能力不如BA-SVR@CSQ。
隨著信息技術(shù)的發(fā)展和互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)搜索數(shù)據(jù)在社會(huì)經(jīng)濟(jì)行為中的預(yù)測效果明顯,它對消費(fèi)者行為敏感,克服了傳統(tǒng)預(yù)測變量存在難以獲取、數(shù)據(jù)發(fā)布滯后以及對數(shù)據(jù)結(jié)構(gòu)要求嚴(yán)格等缺陷。針對旅游需求曲線的非線性特征,本文建立BA-SVR@CSQ模型對北京星級酒店入住率進(jìn)行預(yù)測,基于預(yù)測結(jié)果的統(tǒng)計(jì)性能指標(biāo),證實(shí)了網(wǎng)絡(luò)搜索數(shù)據(jù)的引入能有效提高模型的預(yù)測精度,該模型是一種恰當(dāng)?shù)木频耆胱÷暑A(yù)測工具。
本文所建立模型具有良好的預(yù)測性能可歸功于三方面原因。首先,SVR模型超參數(shù)的選擇對預(yù)測精度有著重要的影響,而BA所具備的良好性質(zhì)保證了預(yù)測模型優(yōu)異的泛化能力,從而避免了諸如PSO和GA等算法的缺陷。因此,與基準(zhǔn)模型PSO-SVR@CSQ相比,BA-SVR@CSQ預(yù)測更為精確。其次,就數(shù)據(jù)來源而言,與BA-SVR和BA-SVR@T模型不同,本文提出的預(yù)測方法充分利用了消費(fèi)者信息搜索數(shù)據(jù)作為模型的輸入集,這類數(shù)據(jù)能提供更為綜合、實(shí)時(shí)的信息,從而有助于提高模型的預(yù)測能力。本文對預(yù)測變量的選擇方法和數(shù)據(jù)標(biāo)準(zhǔn)化處理程序在一定程度上有助于提高模型的預(yù)測精度。
就實(shí)際應(yīng)用而言,本文將網(wǎng)絡(luò)搜索數(shù)據(jù)作為BA-SVR的輸入集,結(jié)果顯示能有效提高模型的預(yù)測能力,可將所構(gòu)建預(yù)測技術(shù)推廣到其它旅游目的地或旅游需求預(yù)測,例如將網(wǎng)絡(luò)搜索數(shù)據(jù)引入到非線性預(yù)測模型,對景區(qū)旅游收入以及景區(qū)游客流量進(jìn)行預(yù)測。預(yù)測結(jié)果可為相關(guān)行業(yè)提供必要的參考,對旅游相關(guān)部門的決策與管理起到十分重要的作用。在互聯(lián)網(wǎng)環(huán)境下,相關(guān)管理部門也應(yīng)重視與旅游要素相關(guān)的關(guān)鍵詞數(shù)據(jù)的營銷策略,并應(yīng)用于旅游需求預(yù)測以提升市場競爭力。
受限于數(shù)據(jù)收集的困難,本文未能考慮其它來源的實(shí)驗(yàn)數(shù)據(jù)集。在將來的研究中,探索更具預(yù)測能力的數(shù)據(jù)來源,利用其它地區(qū)的酒店行業(yè)相關(guān)數(shù)據(jù)對本文建立的方法進(jìn)行檢驗(yàn)以及開發(fā)更具預(yù)測能力的預(yù)測工具是進(jìn)一步努力的方向。
[1] Weatherford L R,Kimes S E.A Comparisonof Forecasting Methods for Hotel Revenue Management[J].International Journal of Forecasting,2003,19(3).
[2] Song H,Li G.Tourism Demand Modelling and Forecasting:A Review of Recent Research[J].Tourism Management,2008,29 (2).
[3] Fodness D,Murray B.A Typology of Tourist Information Search Strategies[J].Journal of Travel Research,1998,37(2).
[4] Choi H,Varian H.Predicting Present with Google Trends[J].Economic Record,2012,88(1).
[5] Yang X,Pan B,James A,et al.Forecasting Chinese Tourist Volume with Search Engine Data[J].Tourism Management,2015(46).
[6] 王煉,賈建明.基于網(wǎng)絡(luò)信息搜索的旅游需求預(yù)測——來自黃金周的證據(jù)[J].系統(tǒng)管理學(xué)報(bào),2014,23(3).
[7] 李霞,曲洪建.郵輪旅游網(wǎng)絡(luò)關(guān)注度的時(shí)空特征和影響因素——基于百度指數(shù)的研究[J].統(tǒng)計(jì)與信息論壇,2016,31(4).
[8] Zhang B R,Huang X K,Li N,et al.A Novel Hybrid Model for Tourist Volume Forecasting Incorporating Search Engine Data[J].Asia Pacific Journal of Tourism Research,2017,22(3).
[9] 陳榮,梁昌勇,陸文星,等.基于季節(jié)SVR-PSO的旅游客流量預(yù)測模型研究[J].系統(tǒng)工程理論與實(shí)踐,2014,34(5).
[10] Andre J,Siarry P,Dognon T.An Improvement of the Standard Genetic Algorithm Fighting Premature Convergence in Continuous Optimization[J].Advances in Engineering Sortware,2001,32 (1).
[11] Gu J,Zhu M,Jiang L.Housing Price Forecasting Based on Genetic Algorithm and Support Vector Machine[J],Expert Syst,2011,38 (4).
[12] Yang X S.Nature Inspired Cooperative Strategies for Optimization[R].Berlin Heidelberg:Springer,2010.
[13] Vapnik V.The Nature of Statistical Learning Theory [M].New York:Springer,1995.
[14] Drucker H,Burges C J C,Kaufman L,et al.Support Vector Regression Machines[J].Advances in Neural Information Processing Systems,1996,28(7).
[15] Yang X S.Bat Algorithm:A Novel Approach for Global Engineering Optimization[J].Engineering Computations,2012(5).
[16] Ghani J,Choudhury I,Hassan H.Application of Taguchi Method in the Optimization of End Milling Parameters[J].Journal of Materials Processing Technology,2004,145(1).