張朝元,陳 麗
(1.大理學(xué)院 數(shù)學(xué)與計算機學(xué)院,大理 671003;2.大理學(xué)院 工程學(xué)院,大理671003)
隨著社會的不斷發(fā)展和旅游資源的不斷開發(fā),各地入境游客流量得到了迅速發(fā)展,這引起了各級政府和旅游事業(yè)的極大重視.為了應(yīng)對迅速發(fā)展的旅游流量和跟上國際旅游事業(yè)步伐,采用先進的方法及時準確地掌握未來游客流量就變得尤其重要.對各地游客流量的及時了解是各地旅游事業(yè)決策經(jīng)營、宏觀管理的重要基礎(chǔ)工作,具有十分重要的意義.通過對各地旅游未來時期旅游客流量的預(yù)測,可以科學(xué)地估算旅游的需求規(guī)模,便于對旅游形勢做出應(yīng)變策略和行動方案,以促進各地旅游業(yè)的發(fā)展.國內(nèi)對旅游力量的預(yù)測研究還起步比較晚,以前大多數(shù)采用的是傳統(tǒng)的統(tǒng)計學(xué)方法,但是預(yù)測精度不是很高.本文提出采用改進的最小二乘支持向量機方法來建立旅游流量的時間序列預(yù)測模型.近年來,最小二乘支持向量機器法(Least Squares Support Vector Machine,簡記為LSSVM法)被提出來并被用于分類問題[1、2]和非線性函數(shù)的估計問題[3],LS-SVM法將SVM法中的不等式約束修改為等式約束,并將誤差平方和(Sum Squared Error,簡記為SSE)損失函數(shù)作為訓(xùn)練集的經(jīng)驗損失.但是,LS-SVM法有其自身的缺點[3],文獻[3]提出了一種修正的LS-SVM法以克服其缺點.盡管LSSVM法有缺點,但用于函數(shù)估計仍然是一種十分可行的方法.
然而,用于函數(shù)估計的標準LS-SVM在求解大規(guī)模問題時存在學(xué)習(xí)速度過慢的問題.因此,如何減少計算時間和存儲空間成為用于函數(shù)估計的 LSSVM學(xué)習(xí)算法的研究熱點[4].由于O.L.Mangasari等人提出的用于模式識別的SOR(Successive Over Relaxation for Support Vector Machine)算法[5]適合迭代求解并能用于解決大規(guī)模問題.因此,本文考慮將這一方法推廣到函數(shù)估計問題中,對用于函數(shù)估計的LS-SVM算法的優(yōu)化式加以改造,得到了一種函數(shù)估計的LS-SVM的改進算法.這一新的算法具有能減少計算復(fù)雜性、提高學(xué)習(xí)速度和在一定程度上能提高回歸估計的精度性等方面的優(yōu)點.
函數(shù)估計問題最終就是求解待估計的未知函數(shù)f(x).作非線性映射:φ:Rn→H,其中 φ稱為特征映射,H為特征空間(一般,H為高維空間或無窮維空間),則被估計函數(shù) f(x)有如下形式:y=f(x)=wTφ(x)+b,其中w為空間H 中的權(quán)向量,b∈R為偏值.于是,LS-SVM法估計非線性函數(shù)為如下特征空間中的最優(yōu)問題:
一般地,由于w可能為無限維的,于是直接計算規(guī)劃(1)是非常困難的,因此將這一規(guī)劃問題轉(zhuǎn)化到其對偶空間中.定義Lagrange函數(shù)
這些條件除了αk=γek之外,與標準的SVM 最優(yōu)條件很相似.其中αk=γek使得 LS-SVM 不再具有SVM所具有的稀疏性.
利用(3)消去w與ek得規(guī)劃(1)的解的方程:
注意到(4)為一線性方程組,利用(4)可求得α與b的值,于是獲得被估計函數(shù) f(x)的表達式為:
本文將O.L.Mangasari等人提出的用于模式識別的SOR算法推廣到函數(shù)估計問題中,對目標函數(shù)(1)進行簡單的改進得到如下優(yōu)化問題:
注意到(9)為一線性方程組,利用(9)可求得α的值,于是獲得被估計函數(shù) f(x)的表達式為:
我們可以看出,改進得到的方程組(9)式明顯比改進前的方程組(4)要簡單,而且很容易求解,在某種意義上就是提高了速度、減少了復(fù)雜性.同時,得到了估計函數(shù)表達式(10)與(5)比較也可以看出,估計函數(shù)也變得簡單明了.
預(yù)測的目的就是試圖尋找一個函數(shù)以確定未來值與過去值之間的關(guān)系,也就是說預(yù)測問題與函數(shù)逼近和估計問題在本質(zhì)上是等價的[6].本文將選擇利用云南省大理州入境旅游客流量為例來進行預(yù)測.
一般而言,每年游客的流量都與前幾年的游客流量緊密聯(lián)系在一起的.因此,可以認為游客當年的流量應(yīng)是游客前一年、前兩年、…、前若干年的流量的函數(shù),故有如下預(yù)測模型.假設(shè)游客流量xt,xt-1,…,xt-m分別表示第 t年 、第 t-1年 、…、第 t-m 年的游客流量,其中參數(shù)m的確定可參考文獻[7].
表1 預(yù)測所得各項誤差指標
圖1 預(yù)測結(jié)果和真實結(jié)果的比較曲線圖
本文利用上面建立的改進的最小二乘支持向量機模型來對大理州旅游客流量進行預(yù)測和模擬.本文選擇m=2,γ=2,000和核函數(shù)取徑向基核函數(shù),以大理州1998-2006年的入境旅游客流量為基礎(chǔ)進行了預(yù)測和模擬.應(yīng)用MATLAB編程實現(xiàn),并對數(shù)據(jù)進行計算分析.預(yù)測結(jié)果和誤差指標[6]值見預(yù)測結(jié)果誤差表1和曲線圖1.表1中的誤差指標值(marerr)也顯示出了較低的平均誤差為3.47%,而且表中的誤差指標值EC達到了0.9780的高擬合度.可見,基于改進的最小二乘支持向量機方法的游客流量預(yù)測能取得較好的效果.
基于O.L.Mangasari等人提出的用于模式識別的SOR算法,本文對用于函數(shù)估計的LS-SVM算法加以改造,得到了一種新的函數(shù)估計的LSSVM算法.該算法具有能減少計算復(fù)雜性、提高學(xué)習(xí)速度且能提高函數(shù)估計的精確度等方面的優(yōu)點.本文以大理州旅游客流量為例建立了基于改進的LS-SVM的入境游客流量的預(yù)測模擬模型.仿真結(jié)果表明,該模型比較全面的反映了游客的變化特征,并對游客的未來狀態(tài)特征具有較高的預(yù)測精度,可以作為各地入境游客流量預(yù)測的有效工具.這一方法有望在旅游客流量時間序列預(yù)測模擬方面得到廣泛的推廣和應(yīng)用.
[1]Vapnik V N.The Natureof Statistical Learning Theory[M].New York:Springer,1995..
[2]Vapnik V N.Statistical Learning Theory[M].New York:Wiley,1998.
[3]J.A.K.Suykens,J.De.Brabanter,L.Lukas and J.Vandewalle.Weighed Least Squares Support Vector Machines:Robustness and Sparse Approximation[J].Neurocomputing.2002,48:85-105.
[4]杜樹心,吳鐵軍.用于回歸估計的支持向量機方法[J].系統(tǒng)仿真學(xué)報,2003,15(11):1580-1585.
[5]O L Mangasarian,David RMusicant.Lagrangian Support Vector Machine[J].Journal of Machine Learning Research,2001,(1):161-177.
[6]張朝元,胡光華.支持向量機改進的神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近[J].昆明理工大學(xué)學(xué)報(理工版),2004,29(6):148-152.
[7]張朝元,陳 麗.基于LS-SVM的大理州入境游客流量時間序列預(yù)測[J].科學(xué)技術(shù)與工程,2008,8(20):5694-5696.