樊云閣 呂玉輝 韓紅旗
1(河南農(nóng)業(yè)職業(yè)學(xué)院信息工程學(xué)院 河南 鄭州 451450) 2(洛陽理工學(xué)院計算機學(xué)院 河南 洛陽 471023) 3(中國科學(xué)技術(shù)信息研究所 北京 100038)
城市出租車作為一種綠色公共交通工具,為廣大乘客提供舒適、便捷的服務(wù)[1]。然而,出租汽車服務(wù)中存在的一個主要問題是搭乘服務(wù)供給與乘客需求之間的時空平衡。為了保持城市道路交通供給與乘客需求的平衡,準確預(yù)測城市出租車需求具有重要意義[2]。
出租車需求與包括道路網(wǎng)、興趣點、氣象及假日資料等數(shù)據(jù)之間的相關(guān)性已經(jīng)得到了很好的研究,但是,要做出準確的預(yù)測還存在一些挑戰(zhàn)[3]。首先,出租車需求具有高度的動態(tài)性,即隨著時間的推移變化迅速且有一定的隨機性;第二,城市不同功能區(qū)的出租車需求變化趨勢存在顯著差異;第三,出租車需求受一些外部因素的影響較大,如景點、天氣狀況和節(jié)假日等[4]。
為了預(yù)測出租車需求,學(xué)者們提出了一系列方法。例如,利用自回歸綜合移動平均(ARIMA)及其改進方法,將出租車需求預(yù)測問題建模為時間序列預(yù)測[5]。文獻[6]提出一個具有高維特征的統(tǒng)一線性回歸模型來預(yù)測各地區(qū)的出租車需求。由于缺乏非線性建模能力,這些方法通常預(yù)測精度較低。近年來,深層神經(jīng)網(wǎng)絡(luò)(DNN)被引入到出租車需求預(yù)測中,它提取了復(fù)雜的時空相關(guān)性,并利用外部因素輔助預(yù)測。例如,文獻[7]提出了一種基于長短時記憶(LSTM)網(wǎng)絡(luò)的序列學(xué)習(xí)框架,利用瞬時空間相關(guān)性,將卷積運算與LSTM相結(jié)合。文獻[8]同時提取空間相關(guān)性和時間相關(guān)性,利用外部因素進一步提高預(yù)測精度。Tang等[9]利用模型訓(xùn)練過程中學(xué)習(xí)到的固定參數(shù)矩陣,嘗試將時空相關(guān)性和外部因素結(jié)合起來。以上現(xiàn)有研究成果都局限于將不同的時空特征和外部因素結(jié)合在一起,這是因為在沒有考慮到情景信息的影響下對參數(shù)設(shè)置了固定的值,僅限于通過理想化的出租車需求多視角特征以及單純外部因素的情境感知情形下,才可以簡單地確定網(wǎng)絡(luò)中的可學(xué)習(xí)參數(shù),所以并未充分挖掘數(shù)據(jù)中蘊含的信息,并且適用范圍也有限。
為解決上述問題,本文提出一種基于改進遞歸神經(jīng)網(wǎng)絡(luò)的情境感知注意預(yù)測算法,用于預(yù)測城市出租車需求。通過紐約市的多個實際數(shù)據(jù)集實驗驗證了本文方法能夠有效提升預(yù)測精度,方法更具一般性。
定義1(道路網(wǎng)絡(luò)) 市區(qū)的路網(wǎng)由一組路段組成,每個路段都有兩個終點,即十字路口的交叉點相關(guān)聯(lián),并通過共享相同的終點與其他路段相連,所有路段均以圖形格式構(gòu)成道路網(wǎng)絡(luò)。
為了在空間和時間維度上更完善地描述細粒度的出租車需求,將時間離散化為一組等間隔的時間段,用τ={t1,t2,…,tτ,…}表示,其中tτ表示當前時間段。還根據(jù)其道路網(wǎng)絡(luò)將整個市區(qū)劃分為不相連的區(qū)域。每個區(qū)域都是被多個路段包圍的不規(guī)則多邊形。區(qū)域集由R={r1,r2,…,rN}表示,其中N代表第幾個區(qū)域。根據(jù)時間段和區(qū)域的定義,進一步提出了出租車的細粒度需求的正式定義如下。
定義2(出租車需求) 使用Xn,τ表示在時間段為tτ∈τ、區(qū)域為rn∈R的出租車乘客人數(shù)。然后,將在時間段tτ的出租車需求定義為Xτ=[X1,τ,X2,τ,…,XN,τ]。
定義3(出租車行程記錄) 用{tr}表示一組出租車歷史行程記錄。每個記錄tr包含上下車的位置和具體時間,可以用元組tr=(tr.pl,tr.pt,tr.dl,tr.dt)表示。在此元組中,用緯度和經(jīng)度表示上車地點tr.pl和下車地點tr.dl,而用年月日、小時和分鐘的形式表示具體的上車時間tr.pt和下車時間tr.dt。
為了預(yù)測未來的出租車需求,首先從定義3中的歷史出租車行程記錄中提取出歷史時間段的出租車需求。給定一個市區(qū)出租車行程記錄的數(shù)據(jù)集,可以根據(jù)某區(qū)域rn和某時間點tτ的歷史出租車需求,近似估計得到出租車的乘客數(shù)量,公式如下:
Xn,τ=|{tr|tr.pl∈rn∧tr.pt∈tτ}|
(1)
式中:tr.pl∈rn和tr.pt∈tτ分別代表記錄tr在區(qū)域rn與時間段tτ的具體乘車地點和乘車時間;函數(shù)|·|表示集合的基數(shù)。
定義4(興趣點) 興趣點(POI)即位于市區(qū)的場所,如購物中心。每個興趣點pi與一個位置pi.l和一個范疇pi.c∈C相關(guān)聯(lián),C表示類別集。
(2)
式中:pi.l∈rn表示POI的pi位于區(qū)域rn。此外,還為每個區(qū)域rn定義了一組鄰域集合rn.neig,該區(qū)域由相鄰區(qū)域組成。
本文采用了2016年調(diào)查的紐約市道路網(wǎng)絡(luò)的數(shù)據(jù)集[10],該數(shù)據(jù)集包含87 898個十字路口和91 649個路段。每個交叉點都是矢量,按其緯度和經(jīng)度定位。利用文獻[11]中提出的基于形態(tài)學(xué)的地圖分割方法,根據(jù)路網(wǎng)將紐約市的整個區(qū)域劃分為972個不相交的區(qū)域。
紐約市的出租車和轎車委員會已經(jīng)開放了紐約市出租車出行記錄的數(shù)據(jù)集[12],其中包含出租車的詳細駕駛信息,例如每輛出租車的上下車地點和具體時間。2016年1月1日至2016年6月30日(130個工作日和52個周末)的出租車行程數(shù)據(jù)記錄了87 866 988次旅行,覆蓋紐約市的972個地區(qū)。
圖1分別描繪了三月和四月各地區(qū)工作日和周末的出租車平均需求量。一個地區(qū)的顏色越深,該地區(qū)的出租車需求就越多。可以發(fā)現(xiàn),不同地區(qū)的出租車需求之間存在嚴重的不平衡。此外,工作日和周末的出租車需求有顯著差異。
(a) 工作日 (b) 周末 圖1 紐約市平均出租車需求量
圖2和圖3分別顯示了短期(一天)和長期(一周)出租車需求的周期性,其中分別繪制了格林威治村和中央公園兩個地區(qū)的出租車需求。
(a) 格林威治村
(a) 格林威治村
尤其是圖2顯示了三月中不同的四天中(包含兩個工作日和兩個周末)每小時出租車需求變化。不難發(fā)現(xiàn),周三和周四兩個地區(qū)的出租車需求具有相似的變化趨勢,而周六和周日也是如此。這表明每個地區(qū)的出租車需求在短期內(nèi)具有較強的周期性。此外,由于人們在工作日和周末的出行方式不同,各地區(qū)在工作日和周末的周期變化趨勢顯然也不一樣。
同樣,從圖3中可以看出,由于兩個地區(qū)每周三出租車需求的變化趨勢相似,因此出租車需求在長期內(nèi)具有較強的周期性。短期和長期周期性的存在可以幫助預(yù)測未來每個地區(qū)的出租車需求。
POI中包含的信息,如一個區(qū)域中不同類別的POI數(shù)量,反映了該區(qū)域的社會功能,這也與出租車需求相關(guān)。在紐約使用了一個有670 916個POI的POI數(shù)據(jù)集,分為16個不同的類別,如表1所示。
表1 興趣點的類別
圖4(a)和圖4(b)分別描繪了藝術(shù)與娛樂類POI的地理分布以及周六中午12點至下午6點的出租車需求??梢园l(fā)現(xiàn),在某些地區(qū)(虛線圓圈標出部分),某些類別的POI數(shù)量與某些時期的出租車需求有很強的相關(guān)性。
(a) POI:藝術(shù)娛樂
為了進一步探索出租車需求與POI之間的關(guān)系,以兩個標志性建筑為例:哥倫比亞大學(xué)(位于347號區(qū)域)和紐約城市大學(xué)(位于382號區(qū)域)。將POI的比例分為六個類別,即不同企業(yè)間對比、專業(yè)人員和服務(wù)、家鄉(xiāng)和家庭、食品與餐飲、教育、購物,跟蹤出租車需求在一天內(nèi)的變化如圖5所示。可以發(fā)現(xiàn)這兩個地標具有相似的POI分布和相似的出租車需求變化趨勢。通過這種觀察,可以利用POI數(shù)據(jù)來輔助預(yù)測出租車需求。
(a) POI比例
除POI之外,出租車需求還受到其他外部因素的影響,例如天氣狀況和節(jié)假日。還在工作中使用了2016年1月1日至2016年6月30日的氣象記錄數(shù)據(jù)集,其中包含每六小時記錄的天氣狀況,例如,晴天和陰雨、溫度、風(fēng)速和濕度等信息。
圖6描繪了紐約市在不同天氣下一天的總體出租車需求,這表明天氣狀況對出租車需求有很大的影響。特別地,從圖6(a)中可以發(fā)現(xiàn),暴風(fēng)雪后出租車需求顯著減少。相反,圖6(b)顯示了當早上7點到9點下雨時,更多的人會選擇乘坐出租車。
圖7提供了前文提出的深度神經(jīng)網(wǎng)絡(luò)模型的概述,該模型包含四個模塊。
圖7 深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)
(1) 實時時空模塊。該模塊由一系列局部卷積(LC)層和門控循環(huán)單元(GRU)組成,這兩個層用于在封閉時段內(nèi)提取出租車需求的時空相關(guān)性。特別地,它以o個連續(xù)時間段中的出租車需求為輸入,由Yi=[Xτ+1-0,Xτ+2-0,…,Xτ]∈R0×N表示,并預(yù)測出下一個時間段fl∈Ro×N中出租車需求。
(2) 短期周期模塊。該模塊根據(jù)短期周期的出租車需求進行預(yù)測。通過GRU來學(xué)習(xí)短期周期性,以p為周期性時段中的出租車需求序列、間隔Δs作為輸入,即Ys=[Xτ+1-pΔs,Xτ+1-(p-1)Δs,…,Xτ+1-Δs]∈Rp×N。此外,該模塊還考慮了一些外部因素,如天氣和假日對周期性的影響。將tτ中的外部因素的特征表示為向量uτ∈Rl×ω,并將其與出租車需求連接起來作為GRU的輸入。在此基礎(chǔ)上,預(yù)測出了出租車需求fs∈Rl×N。
(3) 長期周期模塊。該模塊繪制了長期(如幾周)周期性模式的出租車需求。與最后一個模塊類似,將出租車需求序列Yl=[Xτ+1-qΔl,Xτ+1-(q-1)Δl,…,Xτ+1-Δl]∈Rq×N與外部因素的特征相結(jié)合輸入GRU,并預(yù)測出時刻tτ+1處的出租車需求,用fl∈Rl×N表示。
(4) 情景感知注意模塊。利用此模塊將上述模塊的輸出合并到最終的出租車需求預(yù)測中,這是一種新的嘗試。特別地,此模塊可以根據(jù)天氣信息、時刻索引和區(qū)域功能等上下文信息,為每個區(qū)域的預(yù)測分配不同的權(quán)重。
該模塊的結(jié)構(gòu)基于局部卷積層和GRU,用于提取區(qū)域內(nèi)的潛在空間相關(guān)性和特定周期內(nèi)的時間相關(guān)性。
(3)
然后,基于rn和rm的函數(shù)向量,計算了它們之間的函數(shù)相似性。特別使用了兩個向量的加權(quán)余弦值來度量相似度,即:
(4)
式中:A(·)表示給定區(qū)域的面積。式(4)表明,在出租車需求預(yù)測中,POI密度較高的區(qū)域?qū)ζ涔δ芟嗨茀^(qū)域的影響更大。
(5)
這兩個模塊分別對出租車需求的短、長期周期性進行預(yù)測。如圖8所示,它們共享一個基于GRU的結(jié)構(gòu),以出租車需求和外部因素特征的組合作為輸入。
圖8 感知機網(wǎng)絡(luò)結(jié)構(gòu)
時間維度上的外部因素,如天氣狀況和節(jié)假日、周末,對出租車需求的周期性有很大影響。例如,通過調(diào)查發(fā)現(xiàn),周末或節(jié)假日出租車需求的每小時變化與工作日有顯著差異。此外,雨天和晴天出租車需求高峰時段也不同。為了捕捉外部因素的特征,采用了嵌入方法將這些因素在每個時刻的值轉(zhuǎn)換為外部特征向量[13],用ut表示。這種嵌入方法被廣泛用于將分類值映射到低維向量。
然后,將出租車需求序列與相應(yīng)時間內(nèi)的外部特征向量串聯(lián)起來作為GRU的輸入,并通過FC層將輸出轉(zhuǎn)化為下一時間段內(nèi)出租車需求的預(yù)測。短期周期模塊預(yù)測結(jié)果的公式定義如下:
fs=FC(GRU(Xτ+1-pΔs⊕uτ+1-pΔs,
Xτ+1-(p-1)Δs⊕uτ+1-(p-1)Δs,…,Xτ+1-Δs⊕uτ+1-Δs))
(6)
fl=FC(GRU(Xτ+1-qΔl⊕uτ+1-qΔl
Xτ+1-(q-1)Δl⊕uτ+1-(q-1)Δl,…,Xτ+1-Δl⊕uτ+1-Δl))
(7)
前面的模塊已經(jīng)預(yù)測出了三個結(jié)果,即fi、fs、fl。在本節(jié)中,利用注意力機制,通過考慮情景信息來整合這三種預(yù)測結(jié)果,這是第一次嘗試。
在時刻tτ+1處為每個區(qū)域rn構(gòu)造了情景特征向量,用gn表示。在這里,考慮了三個主要的環(huán)境因素,包括tτ+1時刻的天氣情況、tτ+1時刻的索引、rn區(qū)域的功能,這三個環(huán)境因素對出租車需求產(chǎn)生不同影響。外部因素的特征提取中專門采用了同樣的方法,將時間索引嵌入到一個低維向量中,并與天氣狀況向量和區(qū)域函數(shù)向量相連接。
(8)
注意,權(quán)重表明預(yù)測結(jié)果的程度大小。
由于出租車需求預(yù)測是一個回歸問題,采用均方誤差作為損失函數(shù),并通過將預(yù)測結(jié)果與真實情況的誤差最小化來訓(xùn)練網(wǎng)絡(luò)模型,即:
(9)
式中:Ω是網(wǎng)絡(luò)模型中所有可學(xué)習(xí)參數(shù)的集合。
將本文模型與以下方法進行比較。
(1) 歷史平均值(HA):通過同一時段的平均歷史出租車需求,預(yù)測每個地區(qū)下一個時段的出租車需求。
(2) 自回歸綜合移動平均值(ARIMA)[5]:是一種廣泛應(yīng)用于時間序列預(yù)測問題的方法,它通過結(jié)合移動平均值和自回歸分量對時間相關(guān)性進行建模。
(3) 長短期記憶(LSTM)[7]:是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體,可以從序列數(shù)據(jù)中有效地學(xué)習(xí)長期和短期的潛在相關(guān)性。
(4) 擴散卷積循環(huán)神經(jīng)網(wǎng)絡(luò)(DCRNN)[14]:將圖形卷積集成到門控循環(huán)單元中,以預(yù)測道路網(wǎng)絡(luò)上的交通流量。在該模型中,采用雙向圖隨機游走操作,提取交通流量的空間動態(tài),并用RNN捕捉時間動態(tài)。
(5) 時空圖卷積網(wǎng)絡(luò)(STGCN)[15]:由幾個時空模塊組成,這些模塊用完全卷積層構(gòu)建,用于處理車流量預(yù)測任務(wù)。具體地說,每個塊由圖像卷積和門控時間卷積組成,共同處理圖結(jié)構(gòu)的時間序列。
注意,為了通過DCRNN和STGCN預(yù)測出租車需求,為這兩種方法構(gòu)造了一個圖,其中每個節(jié)點代表一個區(qū)域,每條邊代表兩個區(qū)域中心之間的距離。
并對模型中不同模塊的性能進行分析,研究其在出租汽車需求預(yù)測中的有效性。
? 實時時空模塊(ISTM):只使用實時時空模塊,此模塊包括LC層和GRU。
? 短/長周期模塊和情境感知注意模塊(PM+CAAM):只使用兩個周期性模塊,同時考慮短周期和長周期。兩個模塊的輸出由情景感知注意模塊進行整合。
? 無LC的實時模塊、短/長周期模塊和情景感知注意模塊(IM+PM+CAAM):分別使用無LC層的實時時空模塊和周期性模塊預(yù)測出租車需求。三個模塊的輸出由情景感知注意模塊進行整合。
? 實時時空模塊和短/長周期模塊(ISTM+PM):只使用實時時空模塊和周期模塊,它們的輸出由網(wǎng)絡(luò)訓(xùn)練過程中學(xué)習(xí)的權(quán)值張量進行整合。
? 基于注意力機制的卷積循環(huán)網(wǎng)絡(luò)(ACRN):只考慮實時時空模塊中相鄰區(qū)域之間的空間相關(guān)性,忽略了功能相似區(qū)域。網(wǎng)絡(luò)的其他部分與CACRNN相同。
實驗中參數(shù)的默認值設(shè)置如下。將時間間隔設(shè)置為15分鐘,在實時時空模塊中,使用了6個連續(xù)的時間片段,即o=6。此外,將參數(shù)默認設(shè)置為k=16、M=15、L=3和K=5。在短/長期周期模塊中,分別采用4個和2個周期時間片段,時間間隔Δs=96(一天)、Δl=96×7(一周)。將天氣狀況、假期狀況和周末分別用1×3向量表示。三個模塊中GRU中的隱藏節(jié)點數(shù)均設(shè)置為512個。在情景感知注意模塊中,將時間索引用1×5向量表示。
使用紐約市2016年6月的歷史記錄作為測試數(shù)據(jù),其余記錄作為訓(xùn)練數(shù)據(jù)。此外,采用中國大型城市成都的實際數(shù)據(jù)集進行了實驗,以進一步驗證本文方法與上文提及的基準相比的性能。成都所使用的數(shù)據(jù)集如下。
道路網(wǎng)絡(luò)數(shù)據(jù)集成都市道路網(wǎng)絡(luò)由756條道路組成。在此實驗中,采用了成都市部分區(qū)域(由以下坐標包圍: [北緯30.727 818°,東經(jīng)104.043 333°],[北緯30.726 490°,東經(jīng)104.129 076°],[北緯30.655 191°,東經(jīng)104.129 591°],[北緯30.652 828°,東經(jīng)104.042 102°]),按路段劃分為623個區(qū)域。
出租車行程數(shù)據(jù)集滴滴網(wǎng)發(fā)布了成都市2016年11月1日至2016年11月30日出租車出行記錄數(shù)據(jù)集,共4 141 504次。
POI數(shù)據(jù)集使用了成都地區(qū)146 587個POI數(shù)據(jù),將其分為13個不同的類別。
氣象和節(jié)假日數(shù)據(jù)集還使用了2016年11月1日至2016年11月30日的氣象記錄數(shù)據(jù),包含22個工作日和8個周末。
通過均方根誤差(RMSE)和平均絕對誤差(MAE)評價每種方法的性能。此外,對于所有基于DNN的模型,均采用Adam優(yōu)化算法來訓(xùn)練參數(shù)。Adam的學(xué)習(xí)率設(shè)置為10-4,訓(xùn)練的批量大小為64。還將訓(xùn)練提前停止,其中回合數(shù)和訓(xùn)練次數(shù)分別設(shè)置為6和100。所有的實驗都是在NVIDIA RTX20700顯卡上進行的,實驗結(jié)果是在相同參數(shù)下使用不同的隨機種子進行5次運行計算,然后取這5次計算結(jié)果的平均值。
4.3.1各模型在基準下的比較
表2和表3分別顯示了本文模型和默認參數(shù)設(shè)置下的基準所實現(xiàn)的性能。很容易發(fā)現(xiàn),與所有基準相比,本文模型在不同的數(shù)據(jù)集下達到了最低的RMSE和MAE。具體來說,HA和ARIMA表現(xiàn)最差。結(jié)果表明,深層神經(jīng)網(wǎng)絡(luò)(如LSTM)可以有效地應(yīng)用于城市數(shù)據(jù)預(yù)測。此外,由于LSTM只對出租車需求的時間相關(guān)性進行建模,因此LSTM的性能比本文模型差。在基準中,STGCN和DCRNN都獲得了良好的性能,它們同時捕獲了空間和時間的相關(guān)性。與DCRNN相比,模型在紐約市數(shù)據(jù)集上的RMSE(MAE)降低了9.4%(13.6%),在成都市數(shù)據(jù)集上的RMSE(MAE)降低了13.0%(8.5%)。與STGCN相比,模型在紐約市數(shù)據(jù)集上的RMSE(MAE)降低了8.9%(12.9%),在成都市數(shù)據(jù)集上的RMSE(MAE)降低了14.4%(23.6%)。
表2 性能比較——紐約市
表3 性能比較——成都市
4.3.2模塊評估
評估本文模型中不同模塊的有效性,結(jié)果分別如表4和表5所示。很容易發(fā)現(xiàn),在本文模型中,每一個模塊都有更好的預(yù)測性能。特別地,通過比較ISTM和ISTM+PM的結(jié)果,確認了周期性模塊的工作有效性。由于PM+CAAC的性能比本文模型差,可以得知實時時空模塊是起到一定作用的。通過IM+PM+CAAM與本文模型的比較,驗證了LC層提取不同地區(qū)出租車需求空間相關(guān)性的有效性。很明顯,本文模型取得了比ISTM+PM更好的性能,這證實了情景感知注意模塊的有用性。此外,CACRNN考慮了功能相似區(qū)域的空間相關(guān)性,提高了ACRN的性能。
表4 模塊評估——紐約市
表5 模塊評估——成都市
4.3.3時間效率評估
分別評估了本文模型和較先進的基于DNN(即STGCN和DCRNN)所獲得的時間效率,以及訓(xùn)練和測試過程的時間消耗。如表6所示,盡管DCRNN的可訓(xùn)練參數(shù)數(shù)量最少,但其訓(xùn)練和測試所花費的時間遠遠大于STGCN和CACRNN。此外,與STGCN相比,本文提出的CACRNN在訓(xùn)練和測試過程中的時間消耗更高。這是因為CACRNN的可訓(xùn)練參數(shù)幾乎是STGCN的18倍。眾所周知,在訓(xùn)練過程中計算反向傳播過程中的參數(shù)梯度是非常耗時的。在實際應(yīng)用中,由于DNN模型可以預(yù)先訓(xùn)練,所以需要更注重測試的時間效率。幸運的是,可以觀察到CACRNN在測試過程中只比STGCN多花費17 ms,這是可以接受的。
表6 時間消耗
4.3.4參數(shù)的影響
還評估了CACRNN不同模塊中一些關(guān)鍵參數(shù)的影響,即L個LC層數(shù)、實時模塊o中的時間片段數(shù)、短周期模塊p中的時間片段數(shù)、長周期模塊q中的時間片段數(shù)。即保持其他參數(shù)不變,改變研究對象參數(shù),通過改變參數(shù)大小觀察參數(shù)對預(yù)測精度指標的影響。在圖9中,可以發(fā)現(xiàn)當L從0到3變化時,MAE和RMSE減小,從而驗證了相鄰區(qū)域之間的深層空間相關(guān)性的提取。另一方面,當L從3變?yōu)?時,RMSE和MAE略有增加,因為隨著L的增加,更多不相關(guān)的區(qū)域會進行卷積運算,并對預(yù)測結(jié)果產(chǎn)生負面影響。 如圖10-圖12所示,當o從0變?yōu)?、p設(shè)為8、q設(shè)為4時,MAE和RMSE先減小然后增大。這表明在特定的時間段(例如90分鐘)內(nèi),出租車需求之間存在時空相關(guān)性,這有助于細粒度出租車需求的預(yù)測。此外,出租車需求具有一定的日周期性和周周期性,其過去4天和兩周的出租車需求包含了最有用的信息。
圖9 LC層數(shù)的影響
圖10 o長度的影響
圖11 p長度的影響
圖12 q長度的影響
4.3.5時空相關(guān)因素的影響
進一步評估天氣、節(jié)假日、局部區(qū)域等因素對預(yù)測精度的影響,分別將考慮天氣、節(jié)假日、局部區(qū)域的數(shù)據(jù)與不考慮上述因素的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),最后通過測試數(shù)據(jù)進行預(yù)測,相應(yīng)的對比結(jié)果如表7所示。
表7 時空相關(guān)因素對預(yù)測結(jié)果的影響
可以看出,考慮了天氣、節(jié)假日與局部區(qū)域因素的預(yù)測精度明顯高于不考慮這些因素的預(yù)測精度。這進一步證明了充分考慮各個因素對預(yù)測精度的提升有較大的作用,也更符合實際情況。
針對出租車需求預(yù)測方法中由于數(shù)據(jù)挖掘深度不夠?qū)е碌念A(yù)測精度較低問題,提出一種基于情境感知注意機制的循環(huán)卷積神經(jīng)網(wǎng)絡(luò)出租車需求預(yù)測方法。通過紐約市和成都市的實際數(shù)據(jù)集綜合實驗結(jié)果可得如下結(jié)論:
(1) 情景感知注意模塊、功能相似區(qū)域、時空相關(guān)性等因素的引入,有利于出租車需求預(yù)測精度以及預(yù)測速度的提高。
(2) 引入短期/長期周期性模塊,使得方法對于長期短期出租車需求預(yù)測均具備較好的預(yù)測性能。
(3) 與現(xiàn)有的方法相比,本文方法在預(yù)測精度以及預(yù)測速度上具有較大的優(yōu)勢,進一步證明了本文算法的有效性。