(西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055)
近年來(lái),隨著我國(guó)旅游人數(shù)的急劇增長(zhǎng),旅游景區(qū)景點(diǎn)飽和、游客擁擠等問(wèn)題也日益突顯出來(lái),進(jìn)而影響游客的出游體驗(yàn)和旅游業(yè)發(fā)展。因此,準(zhǔn)確地預(yù)測(cè)區(qū)域旅游客流量能夠?yàn)榫皡^(qū)管理者快速?zèng)Q策提供幫助,從而避免游客聚集,提高游客的安全性,進(jìn)一步推動(dòng)旅游業(yè)的持續(xù)發(fā)展。
目前,流量預(yù)測(cè)的方法較多,主要分為傳統(tǒng)方法和深度學(xué)習(xí)方法。傳統(tǒng)的流量預(yù)測(cè)方法,如線性回歸法[1-2]、灰色預(yù)測(cè)法[3-4]、ARIMA法[5]、人工神經(jīng)網(wǎng)絡(luò)[6-9]等,這些方法很難準(zhǔn)確預(yù)測(cè)波動(dòng)性強(qiáng)、復(fù)雜非線性的區(qū)域旅游客流量,并且無(wú)法學(xué)習(xí)空間相關(guān)性。
隨著深度學(xué)習(xí)的發(fā)展,研究者將其運(yùn)用在交通流量[10-12]、客流量[13-15]、燃?xì)庳?fù)荷量[16]等流量預(yù)測(cè)上。Y.F.Li等人[17]采用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(LSTM)方法對(duì)旅游流量進(jìn)行預(yù)測(cè),實(shí)驗(yàn)表明LSTM方法比自回歸集成移動(dòng)平均(ARIMA)模型和反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)有更好的預(yù)測(cè)效果,充分利用了旅游客流量數(shù)據(jù)的時(shí)間維度。但此方法沒(méi)有利用空間屬性,X.Zhan等人[18]提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的交通流預(yù)測(cè)方法,使用浮動(dòng)車(chē)的GPS軌跡數(shù)據(jù)來(lái)估算全市的交通量。X.Ma 等[19]提出了一種大規(guī)模交通網(wǎng)絡(luò)速度預(yù)測(cè)的深度卷積神經(jīng)網(wǎng)絡(luò),將時(shí)空矩陣轉(zhuǎn)換為圖像作為 CNN 的輸入??梢钥闯?,單一的神經(jīng)網(wǎng)絡(luò)無(wú)法充分利用時(shí)空數(shù)據(jù)的多屬性特征。J.Zhang等人提出了一種基于深度學(xué)習(xí)的時(shí)空殘差網(wǎng)絡(luò)模型ST-ResNet,使用殘差網(wǎng)絡(luò)來(lái)模擬人群流量在時(shí)間上的相關(guān)性,將城市劃分為均勻的網(wǎng)格并使用ST-ResNet模型預(yù)測(cè)每個(gè)地區(qū)人群流入量和流出量[20-21]。段宗濤等人也將出租車(chē)GPS數(shù)據(jù)和天氣數(shù)據(jù)等轉(zhuǎn)化為柵格數(shù)據(jù),結(jié)合卷積神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)、殘差網(wǎng)絡(luò)構(gòu)建了出租車(chē)需求預(yù)測(cè)模型[22]。
雖然以上方法考慮到了時(shí)空數(shù)據(jù)的多屬性問(wèn)題,但是,區(qū)域客流量易受季節(jié)性影響,短期相關(guān)性更強(qiáng),且波動(dòng)性強(qiáng)。針對(duì)以上問(wèn)題,本文提出用于區(qū)域客流量預(yù)測(cè)的改進(jìn)Quad-ResNet模型,利用殘差網(wǎng)絡(luò)模擬時(shí)空數(shù)據(jù)的時(shí)間與空間特征,并且利用全連接網(wǎng)絡(luò)模擬季節(jié)性影響。為了驗(yàn)證方法的可行性,在陜西省寶雞市扶風(fēng)縣法門(mén)鎮(zhèn)真實(shí)序列數(shù)據(jù)集上測(cè)試了Quad-ResNet模型與LSTM、CNN、ST-ResNet模型的性能,發(fā)現(xiàn)Quad-ResNet模型性能優(yōu)于LSTM、CNN、ST-ResNet模型。
本文的其余部分組織如下。第一節(jié)介紹基于時(shí)空殘差網(wǎng)絡(luò)的區(qū)域客流量預(yù)測(cè)方法。第二節(jié)討論了幾種選定模型的實(shí)驗(yàn)設(shè)計(jì)和性能。最后,第三部分是結(jié)論。
htm,n= |{pi∈(m,n)∧pi∈P} |
(1)
式中,P是t時(shí)刻旅游景區(qū)中行人的位置點(diǎn)集合;pi是集合P中的一個(gè)位置點(diǎn);pi∈(m,n)表示位置點(diǎn)pi在網(wǎng)格(m×n)內(nèi);|·|表示集合的基數(shù)。
1.2.1 空間影響
根據(jù)地理學(xué)第一定律可知,任何事物都是與其他事物相關(guān)的,且鄰近事物之間的相關(guān)性可能更強(qiáng),距離越近的事物關(guān)聯(lián)可能越緊密[23]。因此,旅游景區(qū)相鄰區(qū)域的客流量會(huì)因?yàn)槿巳旱囊苿?dòng)而相互影響,即存在空間鄰近性。距離較遠(yuǎn)的區(qū)域之間也可能相互影響,兩個(gè)相似區(qū)域的客流量變化情況呈現(xiàn)出一定的相關(guān)性,即為空間的相似性。
1.2.2 時(shí)間影響
旅游景區(qū)某一時(shí)刻區(qū)域客流量會(huì)受到前幾個(gè)時(shí)刻的影響,根據(jù)時(shí)間間隔的長(zhǎng)短可以具體分為鄰近性、相似性、周期性、趨勢(shì)性。
1.2.2.1 鄰近性
圖1為五分鐘間隔所有區(qū)域總流量折線圖,從中可以看到,0∶00~6∶00客流量較少且逐漸減少,6∶00~12∶00客流量不斷增加,12∶30左右出現(xiàn)當(dāng)日的一個(gè)高峰,然后不斷振蕩直到20∶00,之后客流量開(kāi)始逐步減少。對(duì)于一天各個(gè)時(shí)刻的客流量來(lái)說(shuō),每個(gè)時(shí)刻的客流量均會(huì)受到鄰近的前幾個(gè)時(shí)刻的影響,而且它也會(huì)影響之后幾個(gè)時(shí)刻的客流量,體現(xiàn)了區(qū)域客流量的鄰近性。
圖1 區(qū)域流量鄰近性
1.2.2.2 相似性
圖2將12∶00區(qū)域的客流量依次與11∶00、10∶00、9∶00區(qū)域客流量做差,差值大于10的區(qū)域用白色表示,其余區(qū)域用黑色表示。從圖2中可以看到,白色區(qū)域從整體上看屬于少數(shù),說(shuō)明大部分區(qū)域客流量相差不大,體現(xiàn)了時(shí)間上的相似性。
圖2 區(qū)域流量相似性
1.2.2.3 周期性
圖3顯示了連續(xù)五天的區(qū)域客流量,從圖3可以看到每天的客流量變化趨勢(shì)是大體相同的,每天同一時(shí)刻的客流量與1天前、2天前的客流量存在相似性,呈現(xiàn)出區(qū)域客流量的周期性。
圖3 區(qū)域流量周期性
1.2.2.4 趨勢(shì)性
圖4顯示了時(shí)長(zhǎng)為6個(gè)月,間隔為1周,每早8∶00的客流量,隨著氣溫變暖,同一時(shí)刻客流量增多,體現(xiàn)了區(qū)域客流量的趨勢(shì)性。
圖4 區(qū)域流量趨勢(shì)性
1.2.3 季節(jié)性影響
在區(qū)域客流量相關(guān)的研究中經(jīng)常會(huì)提到“季節(jié)性”這個(gè)概念,它反映了由于天氣因素、日歷效應(yīng)和時(shí)機(jī)決策的不同,客流量在時(shí)間分布上的不均勻,最終導(dǎo)致旅游市場(chǎng)具有明顯的淡旺季。具體在區(qū)域客流量的研究上,需要考慮的因素分為天氣和法定節(jié)假日等。
基于時(shí)空殘差網(wǎng)絡(luò)的區(qū)域客流量預(yù)測(cè)方法Quad-ResNet模型的整體架構(gòu)如圖5所示,模型主要分為5個(gè)部分,通過(guò)4個(gè)殘差網(wǎng)絡(luò)分別來(lái)模擬時(shí)間的鄰近性、相似性、周期性和趨勢(shì)性,一個(gè)兩層全連接網(wǎng)絡(luò)模擬季節(jié)性影響。殘差網(wǎng)絡(luò)由一個(gè)卷積層、L個(gè)殘差單元和一個(gè)卷積層組成,這種結(jié)構(gòu)可以模擬空間鄰近性和相似性。4個(gè)殘差網(wǎng)絡(luò)的輸出op[L + 2]、oq[L + 2]、or[L + 2]、os[L + 2]通過(guò)參數(shù)矩陣融合為of,of與全連接網(wǎng)絡(luò)的輸出oe進(jìn)行融合。最后,通過(guò)Tanh函數(shù)將融合后的輸出映射到[-1,1]。
圖5 Quad-ResNet模型整體架構(gòu)
4個(gè)殘差網(wǎng)絡(luò)結(jié)構(gòu)是相同的,以鄰近性部分為例。應(yīng)用BN(Batch Normalization)[24]后殘差單元的計(jì)算如式(2)、式(3)所示:
a[l+1]=w[l+1]*g(a[l])
(2)
a[l+2]=w[l+2]*g(a[l+1])+a[l]
(3)
式中,*表示卷積操作;g表示激活函數(shù)ReLU;w[l+1]、w[l+2]是可學(xué)習(xí)參數(shù)。
鄰近性部分、相似性部分、周期性部分與趨勢(shì)性部分通過(guò)參數(shù)矩陣進(jìn)行融合,融合后的輸出of如式(4)所示:
(4)
式中,*表示Hadamard積;wp、wq、wr、ws是可學(xué)習(xí)的參數(shù),分別用來(lái)調(diào)整鄰近性、相似性、周期性、趨勢(shì)性的影響程度。
(5)
模型采用MSE(Mean Square Error,均方誤差)來(lái)計(jì)算損失,損失函數(shù)L(θ)如式(6)所示:
(6)
2.1.1 實(shí)驗(yàn)數(shù)據(jù)集
原始流量數(shù)據(jù)來(lái)源騰訊位置大數(shù)據(jù)網(wǎng)站,爬取陜西省寶雞市扶風(fēng)縣法門(mén)鎮(zhèn)2018年1月1日~2018年6月30日的APP定位數(shù)據(jù),時(shí)間間隔為5分鐘,轉(zhuǎn)換為區(qū)域客流量數(shù)據(jù)后,共包含52 128個(gè)時(shí)刻。
采用扶風(fēng)縣的歷史天氣數(shù)據(jù)作為法門(mén)鎮(zhèn)旅游景區(qū)的天氣數(shù)據(jù),天氣數(shù)據(jù)包含日期、天氣狀況、氣溫、風(fēng)力風(fēng)向這四個(gè)屬性。節(jié)假日數(shù)據(jù)來(lái)源于開(kāi)放API,工作日標(biāo)識(shí)為0,周末休息日標(biāo)識(shí)為1,法定節(jié)假日標(biāo)識(shí)為2。
2.1.2 超參數(shù)設(shè)置
Quad-ResNet模型使用Adam優(yōu)化算法進(jìn)行訓(xùn)練,batch size設(shè)置為32,學(xué)習(xí)率設(shè)置為0.0001,損失函數(shù)設(shè)置為MSE。鄰近性時(shí)間間隔的單位為1個(gè)時(shí)刻,相似性時(shí)間間隔的單位為1個(gè)小時(shí),周期性時(shí)間間隔的單位為1天,趨勢(shì)性時(shí)間間隔的單位為1周。由于數(shù)據(jù)集的時(shí)間間隔是5分鐘,因此鄰近性時(shí)間間隔p=1,相似性時(shí)間間隔q=12,周期性時(shí)間間隔r=288,趨勢(shì)性時(shí)間間隔s=2016。
2.1.3 模型評(píng)估標(biāo)準(zhǔn)
采用RMSE(Root Mean Squared Error,均方根誤差)對(duì)模型進(jìn)行評(píng)價(jià),RMSE的計(jì)算如式(7)所示。RMSE越小則說(shuō)明模型的誤差越小、精度越高。
(7)
2.1.4 參數(shù)選擇實(shí)驗(yàn)
參數(shù)選擇實(shí)驗(yàn)主要是對(duì)鄰近性序列長(zhǎng)度、周期性序列長(zhǎng)度、相似性序列長(zhǎng)度、趨勢(shì)性序列長(zhǎng)度與殘差單元數(shù)量進(jìn)行選擇。
以鄰近性序列長(zhǎng)度選擇實(shí)驗(yàn)為例,實(shí)驗(yàn)結(jié)果如圖6(a)所示。從圖中可以看到,隨著lp變大,RMSE首先減小然后平穩(wěn)最后增大。lp=0時(shí),表示不使用鄰近性部分,導(dǎo)致RMSE很大,說(shuō)明鄰近性部分有助于提高模型的精度。lp=2時(shí),RMSE最小,表明此時(shí)模型的精度最高。lp=6時(shí)RMSE反而比之前更大,說(shuō)明較長(zhǎng)的鄰近性序列不但無(wú)法提升模型的精度反而可能導(dǎo)致模型的精度下降。因此,最終選取鄰近性序列長(zhǎng)度lp=2,此時(shí)模型的誤差最小,精度最高。根據(jù)圖6(b)~6(e)所示,最終選取周期性序列長(zhǎng)度lr=3,相似性序列長(zhǎng)度lq=4,趨勢(shì)性序列長(zhǎng)度ls=1,殘差單元數(shù)量為4。
圖6 參數(shù)選擇實(shí)驗(yàn)結(jié)果圖
2.2.1 實(shí)驗(yàn)設(shè)計(jì)
為了驗(yàn)證模型的有效性,本文選取了3個(gè)模型ST-ResNet,LSTM,CNN與Quad-ResNet做性能比較,其中深度學(xué)習(xí)模型ST-ResNet,LSTM,CNN設(shè)置的參數(shù)值與Quad-ResNet中的保持一致。
2.2.2 實(shí)驗(yàn)結(jié)果分析
各個(gè)模型的預(yù)測(cè)結(jié)果如表1示,從表可以看出Quad-ResNet模型的RMSE最小,說(shuō)明該模型的預(yù)測(cè)精度最高。LSTM-3、LSTM-6、LSTM-12模型的RMSE只比Quad-ResNet模型的RMSE稍大一些,說(shuō)明LSTM模型能夠有效地捕獲短期的時(shí)間相關(guān)性,并且得到較好的預(yù)測(cè)結(jié)果,但是空間相關(guān)性對(duì)于預(yù)測(cè)結(jié)果也有著重要的影響,不能只考慮時(shí)間相關(guān)性,否則無(wú)法進(jìn)一步地提升精度。
表1 實(shí)驗(yàn)結(jié)果對(duì)比表
LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型的RMSE比較接近,明顯小于LSTM-2016模型,同時(shí),隨著lookback的增加,模型的RMSE先減小后增大,說(shuō)明LSTM模型可能很難捕獲非常長(zhǎng)期的時(shí)間相關(guān)性(例如,一天、一周)。
CNN模型的RMSE明顯比Quad-ResNet、LSTM-3、LSTM-6、LSTM-12、LSTM-144、LSTM-288模型大,僅僅略小于LSTM-2016模型,說(shuō)明淺層的CNN可能很難捕獲到足夠的空間相關(guān)性,導(dǎo)致模型的預(yù)測(cè)精度不佳。
ST-ResNet模型的RMSE大于Quad-ResNet模型,這是由于ST-ResNet模型只考慮了時(shí)間的鄰近性、周期性、趨勢(shì)性,沒(méi)有考慮時(shí)間的相似性,導(dǎo)致模型的精度無(wú)法進(jìn)一步地提升,說(shuō)明短期的時(shí)間相關(guān)性對(duì)區(qū)域客流量預(yù)測(cè)精度的影響明顯大于長(zhǎng)期的時(shí)間相關(guān)性。鄰近性、相似性屬于短期的時(shí)間相關(guān)性,周期性、趨勢(shì)性屬于長(zhǎng)期的時(shí)間相關(guān)性。Quad-ResNet模型考慮了時(shí)間的相似性,因此實(shí)驗(yàn)結(jié)果好于ST-ResNet模型。
綜合以上各個(gè)結(jié)論可以得出,本文提出的針對(duì)區(qū)域客流量預(yù)測(cè)的Quad-ResNet模型的預(yù)測(cè)結(jié)果較好,該模型對(duì)時(shí)間相關(guān)性和空間相關(guān)性的考慮比較周全,具有一定的泛化能力,同時(shí)該模型在訓(xùn)練和預(yù)測(cè)上的操作明顯比LSTM模型更簡(jiǎn)單方便,證明Quad-ResNet模型是一個(gè)優(yōu)秀高效的模型,適用于區(qū)域客流量的預(yù)測(cè)。
本文提出了一種基于時(shí)空殘差網(wǎng)絡(luò)的區(qū)域客流量預(yù)測(cè)方法,即根據(jù)行人定位數(shù)據(jù)、天氣和節(jié)假日數(shù)據(jù)預(yù)測(cè)每個(gè)地區(qū)的客流量,從而找到旅游景區(qū)的客流量熱點(diǎn)區(qū)域。本文選取了3個(gè)模型與 Quad-ResNet模型做性能比較,證明Quad-ResNe模型更適合區(qū)域客流量的預(yù)測(cè)。但是還有一些方面需要完善,本文的區(qū)域流量是通過(guò)行人數(shù)據(jù)得到的,如果可以融合更多的交通流量,比如自行車(chē)軌跡數(shù)據(jù)、出租車(chē)軌跡數(shù)據(jù)等其他數(shù)據(jù),在此基礎(chǔ)上預(yù)測(cè)的結(jié)果應(yīng)該更符合真實(shí)情況。本文考慮的影響因素也并不代表所有影響,未考慮到突發(fā)事件或一些未知的原因,如果可以挖掘出其他影響因素進(jìn)行分析,從而增強(qiáng)預(yù)測(cè)模型的實(shí)際意義,進(jìn)一步提高模型的精確性。