林思濤,林 釗,陳家琦,吳鳳舞,張學(xué)健
(福州外語外貿(mào)學(xué)院 大數(shù)據(jù)學(xué)院,福州 350202)
隨著國內(nèi)經(jīng)濟(jì)飛快發(fā)展和人民生活水平的提高,人們對(duì)物質(zhì)文化的需求也在不斷增長(zhǎng)。愈來愈多地,人們?cè)陂e暇時(shí)間選擇外出旅游,接觸新鮮事物、提高生活品質(zhì),旅游業(yè)因此蓬勃發(fā)展。與此同時(shí),客流量的持續(xù)攀升也造成了交通堵塞、景區(qū)擁擠等問題,而傳統(tǒng)旅游管理方式已無法應(yīng)對(duì)這一現(xiàn)狀,給城市和景區(qū)的管理帶來了極大的困擾。若能夠及時(shí)預(yù)測(cè)未來一段時(shí)間內(nèi)的游客量變化,提供更準(zhǔn)確的旅游景點(diǎn)客流量預(yù)測(cè),相關(guān)部門就可以提前制定安全防范措施和客流引導(dǎo),避免擁堵事件的發(fā)生,更加合理地利用旅游資源。
傳統(tǒng)的旅游需求預(yù)測(cè)模型,主要是針對(duì)定量與定性方面的研究,其共同特點(diǎn)是先建立時(shí)序數(shù)據(jù)的主觀模型、再進(jìn)行預(yù)測(cè)。因此,傳統(tǒng)模型缺乏對(duì)數(shù)據(jù)樣本的學(xué)習(xí)過程,不具有自學(xué)習(xí)和泛化能力,對(duì)客流量的預(yù)測(cè)誤差較大。隨著人工神經(jīng)網(wǎng)絡(luò)(ANN)的快速發(fā)展,越來越多的學(xué)者開始將BP 神經(jīng)網(wǎng)絡(luò)(BPNN)及支持向量回歸(SVR)等算法應(yīng)用于旅游需求預(yù)測(cè)領(lǐng)域。
如今,大數(shù)據(jù)時(shí)代的到來,人們可以通過互聯(lián)網(wǎng)了解更多的旅游相關(guān)知識(shí),搜索引擎中對(duì)旅游業(yè)的優(yōu)化也在逐漸完善。針對(duì)網(wǎng)絡(luò)搜索數(shù)據(jù)在生活中的應(yīng)用,尤其是在經(jīng)濟(jì)、社會(huì)管理領(lǐng)域以及市場(chǎng)營銷預(yù)測(cè)中,網(wǎng)絡(luò)搜索數(shù)據(jù)的應(yīng)用越發(fā)廣泛。2013 年,H7N9禽流感的大爆發(fā),對(duì)國內(nèi)的家禽養(yǎng)殖經(jīng)濟(jì)造成了巨大的經(jīng)濟(jì)影響。譚小林等人利用網(wǎng)絡(luò)搜索指數(shù),對(duì)H7N9 爆發(fā)趨勢(shì)進(jìn)行相關(guān)性分析,利用對(duì)網(wǎng)絡(luò)搜索關(guān)鍵詞的跟蹤,可以預(yù)測(cè)H7N9 禽流感爆發(fā)的進(jìn)程。袁恒研究了利用網(wǎng)絡(luò)搜索指數(shù)對(duì)市場(chǎng)的預(yù)測(cè),探討了國內(nèi)網(wǎng)絡(luò)搜索數(shù)據(jù)的市場(chǎng)預(yù)測(cè)價(jià)值。遲依涵研究了基于網(wǎng)絡(luò)搜索數(shù)據(jù)的房地產(chǎn)價(jià)格預(yù)測(cè)。賴凱聲等人研究了網(wǎng)絡(luò)搜索數(shù)據(jù)與社會(huì)心理學(xué)相關(guān)性;馬碧云基于網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)旅游客流量進(jìn)行了非線性預(yù)測(cè)的研究。戚明遠(yuǎn)利用網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)商品住宅市場(chǎng)進(jìn)行相關(guān)性的研究。王煉等人從中國電影市場(chǎng)來研究網(wǎng)絡(luò)搜索數(shù)據(jù)對(duì)票房量的預(yù)測(cè)。白笑笑利用網(wǎng)絡(luò)搜索數(shù)據(jù),可以預(yù)測(cè)冰箱的銷量并對(duì)冰箱的需求進(jìn)行了分析。
遺傳算法(Genetic Algorithm,GA)是一種近似優(yōu)化的算法,起源于對(duì)生物體系中的天然演化,通過電子計(jì)算機(jī)的模擬展開研究。
在GA 算法中,每一種染色體組型都對(duì)應(yīng)了算法的一種解決對(duì)策。通常情形下,可以使用適應(yīng)度函數(shù)(fitness function)判斷解決對(duì)策的優(yōu)劣。因此,從每種染色體組型到求解結(jié)果的適應(yīng)度就構(gòu)成了一種映射??梢詫A 算法求解的整個(gè)過程看作在多元函數(shù)中尋求最佳解的過程。
可如此設(shè)想,在一個(gè)多維曲面中有眾多的“頂峰”,每個(gè)頂峰對(duì)應(yīng)的便是局部最優(yōu)解。而其中會(huì)有某個(gè)“頂峰”的海拔最高,則這個(gè)“頂峰”就是全局最優(yōu)解。那么,GA 算法的主要任務(wù)便是盡可能爬到最高的頂峰,而不是限制于某個(gè)小山峰。
BP(Back Propagation)神經(jīng)網(wǎng)絡(luò),是一種多層前饋型的神經(jīng)網(wǎng)絡(luò),主要包含輸入層、隱含層(中間層)和輸出層。BP 神經(jīng)網(wǎng)絡(luò)層與層之間采用全互連方式,由數(shù)量眾多的單神經(jīng)元通過可調(diào)的連接權(quán)值實(shí)現(xiàn)全連接。中間層(隱含層)可以有一層或多層,而同一層間的各神經(jīng)元卻不能相互連接。
BP 神經(jīng)網(wǎng)絡(luò)的傳播方式分為前向傳播和反向傳播,其信號(hào)分為函數(shù)信號(hào)和誤差信號(hào)。在前向傳播過程中,函數(shù)信號(hào)從輸入層經(jīng)過中間層(隱含層)流向輸出層,成為一個(gè)輸出信號(hào)。若輸出情況與期望的情況相差過大,則進(jìn)入反向傳播。此時(shí),在網(wǎng)絡(luò)的一個(gè)輸出神經(jīng)元中產(chǎn)生誤差信號(hào),一層接一層地反向傳播調(diào)整權(quán)值和閾值,直到誤差都在允許范圍為止。BP 神經(jīng)網(wǎng)絡(luò)的典型拓?fù)浣Y(jié)構(gòu)如圖1 所示。
圖1 BP 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)Fig.1 BP neural network topology
BP 神經(jīng)網(wǎng)絡(luò)可用于分類、聚類、預(yù)測(cè)等。目前,大部分的神經(jīng)網(wǎng)絡(luò)都是以BP 神經(jīng)網(wǎng)絡(luò)為基本架構(gòu),并針對(duì)現(xiàn)實(shí)應(yīng)用續(xù)以后期的優(yōu)化完善而得。因此BP 神經(jīng)網(wǎng)絡(luò)已經(jīng)成為目前使用得最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。
基于GA 算法優(yōu)化的BP 神經(jīng)網(wǎng)絡(luò)模型,是由BP 神經(jīng)網(wǎng)絡(luò)系統(tǒng)架構(gòu)的確定、GA 算法優(yōu)化以及BP 神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)三部分組成。其中,BP 神經(jīng)網(wǎng)絡(luò)系統(tǒng)架構(gòu)的確定,主要是以擬合函數(shù)中輸入、輸出的參數(shù)個(gè)數(shù)來確定其模型架構(gòu)。根據(jù)模型的參數(shù)個(gè)數(shù),可以判斷出GA 算法進(jìn)一步優(yōu)化的參數(shù)個(gè)數(shù),從而判定出GA 算法中個(gè)體的編碼長(zhǎng)度,由GA 算法優(yōu)化的參數(shù)就是BP 神經(jīng)網(wǎng)絡(luò)的初始閾值和權(quán)值。因此,如果已確定BP 神經(jīng)網(wǎng)絡(luò)模型的系統(tǒng)結(jié)構(gòu),就可知閾值和權(quán)值的個(gè)數(shù)。群體中所有個(gè)體均包括了某個(gè)網(wǎng)絡(luò)系統(tǒng)中的所有權(quán)值和閾值,通過統(tǒng)計(jì)適應(yīng)度函數(shù)確定了個(gè)體適應(yīng)度值,用GA 算法通過選擇、變異和交叉訓(xùn)練,尋找出適應(yīng)度值最高的個(gè)體。BP 神經(jīng)網(wǎng)絡(luò)模型采用GA 算法獲得的最佳個(gè)體,對(duì)網(wǎng)絡(luò)系統(tǒng)完成初始權(quán)值和閾值的賦值,網(wǎng)絡(luò)系統(tǒng)經(jīng)訓(xùn)練后將輸出預(yù)測(cè)樣本。GA 算法優(yōu)化BP 神經(jīng)網(wǎng)絡(luò)模型權(quán)值和閾值的流程如圖2 所示。
圖2 GA-BP 神經(jīng)網(wǎng)絡(luò)流程圖Fig.2 GA-BP neural network flow chart
首先,本文從“食、住、行、娛、游、購”六個(gè)方面選定關(guān)鍵詞。通過遴選,選定“廈門美食”、“廈門酒店”、“廈門交通”、“廈門景點(diǎn)”、“廈門地圖”、“廈門特產(chǎn)”等基準(zhǔn)關(guān)鍵詞。其次,在百度搜索指數(shù)官網(wǎng)對(duì)基準(zhǔn)關(guān)鍵詞進(jìn)行查詢,同時(shí)找出其它相關(guān)度較高的關(guān)鍵詞。最后,根據(jù)皮爾遜相關(guān)系數(shù)(Pearson)、斯皮爾曼相關(guān)系數(shù)(Spearman)以及顯著性檢驗(yàn)值,計(jì)算得到的關(guān)鍵詞的百度搜索指數(shù)與廈門旅游客流量的相關(guān)度強(qiáng)弱,選定了“廈門美食”、“廈門大學(xué)”、“沙坡尾”、“雙子塔”、“廈門島內(nèi)”、“演武大橋”6 個(gè)關(guān)鍵詞,見表1。
表1 百度搜索關(guān)鍵詞指數(shù)與廈門旅游流量的相關(guān)性檢驗(yàn)Tab.1 Keywords correlation test between Baidu search index and tourist traffic in Xiamen
由于文章利用的因變量與自變量均為時(shí)序變量,因此在模型建立前,為保證所有變量的平穩(wěn)性,需要對(duì)旅游客流量和各關(guān)鍵詞百度搜索指數(shù)進(jìn)行平穩(wěn)性檢驗(yàn)。通過使用ADF 檢驗(yàn)法對(duì)因變量與自變量進(jìn)行平穩(wěn)性檢驗(yàn),運(yùn)行得出各變量均是一階單整,結(jié)果詳見表2。
表2 變量平穩(wěn)性檢驗(yàn)Tab.2 Variables stationarity test
在本文構(gòu)建的模型中,遺傳算法初始種群個(gè)數(shù)為30,進(jìn)化代數(shù)為50,交叉概率為0.8,變異概率為0.2。BP 神經(jīng)網(wǎng)絡(luò)部分,由一個(gè)輸入層、一個(gè)隱蔽層以及一個(gè)輸出層構(gòu)成。其中,隱蔽層的節(jié)點(diǎn)經(jīng)過程序計(jì)算得出最佳隱含層節(jié)點(diǎn)個(gè)數(shù)為4。模型的學(xué)習(xí)率為0.01,訓(xùn)練步長(zhǎng)為25,學(xué)習(xí)目標(biāo)為0.000 1。GA-BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練狀態(tài)如圖3 所示。由圖3 可知,該模型經(jīng)過18次迭代,達(dá)到設(shè)定學(xué)習(xí)目標(biāo)。
圖3 GA-BP 神經(jīng)網(wǎng)絡(luò)訓(xùn)練狀態(tài)Fig.3 Training state of GA-BP neural network
本文從百度指數(shù)官網(wǎng)和廈門市文旅局獲取了2017 年1 月到2020 年12 月的百度搜索指數(shù)和旅游客流量數(shù)據(jù),由于2020 年新冠肺炎疫情爆發(fā),旅游客流量驟減,故不考慮2020 年的異常數(shù)據(jù)。本文模型建立的訓(xùn)練集取自2017 年1 月到2019 年6 月、共計(jì)30 個(gè)月的月度數(shù)據(jù),模型的預(yù)測(cè)目標(biāo)設(shè)置為2019 年7 月至12 月、共6 個(gè)月內(nèi)廈門市客流量。預(yù)測(cè)結(jié)果如圖4 所示,預(yù)測(cè)結(jié)果參數(shù)見表3。
表3 廈門市客流量預(yù)測(cè)結(jié)果Tab.3 Forecast results of passengers flow in Xiamen
圖4 BP 神經(jīng)網(wǎng)絡(luò)優(yōu)化效果圖Fig.4 Optimization effect of BP neural network
從上述結(jié)果總體來看,利用GA-BP 神經(jīng)網(wǎng)絡(luò)模型得到的預(yù)測(cè)結(jié)果誤差均比BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)結(jié)果誤差小。另外,本文采用平均絕對(duì)誤差、均方誤差、均方誤差根、平均絕對(duì)百分比誤差等4 種模型預(yù)測(cè)誤差的檢驗(yàn)標(biāo)準(zhǔn),分別對(duì)2 個(gè)模型進(jìn)行檢驗(yàn)對(duì)比,結(jié)果見表4。
表4 模型精度檢驗(yàn)指標(biāo)Tab.4 Model accuracy test index
通過檢驗(yàn)結(jié)果可以看出,GA-BP 神經(jīng)網(wǎng)絡(luò)模型各項(xiàng)誤差值均遠(yuǎn)小于BP 神經(jīng)網(wǎng)絡(luò)模型,說明本文建立的GA-BP 神經(jīng)網(wǎng)絡(luò)模型對(duì)客流量的預(yù)測(cè)能力遠(yuǎn)高于BP 神經(jīng)網(wǎng)絡(luò)。
文章通過爬取2016 年1 月到2019 年6 月期間,“廈門美食”、“廈門大學(xué)”、“沙坡尾”、“雙子塔”、“廈門島內(nèi)”、“演武大橋”共6 個(gè)關(guān)鍵詞的百度搜索指數(shù)及旅游客流量數(shù)據(jù),建立了BP 神經(jīng)網(wǎng)絡(luò)模型和GABP 神經(jīng)網(wǎng)絡(luò)模型,并對(duì)廈門旅游客流量進(jìn)行預(yù)測(cè)驗(yàn)證。通過模型預(yù)測(cè)結(jié)果與誤差指標(biāo)對(duì)比分析,得出遺傳算法優(yōu)化后的BP 神經(jīng)網(wǎng)絡(luò)模型的預(yù)測(cè)精度和穩(wěn)定性比標(biāo)準(zhǔn)BP 神經(jīng)網(wǎng)絡(luò)模型都要高,充分說明了遺傳算法可以避免BP 神經(jīng)網(wǎng)絡(luò)陷入局部極小值。因此,GA-BP 神經(jīng)網(wǎng)絡(luò)在這一預(yù)測(cè)方面具有更大的優(yōu)勢(shì)。該預(yù)測(cè)模型可為有關(guān)部門及商家提供更精確的旅游客流量預(yù)測(cè)參考,提高旅游地相關(guān)產(chǎn)業(yè)的資源配置效率,保證旅游景點(diǎn)各行業(yè)的平穩(wěn)運(yùn)行。