關(guān)鍵詞:非負(fù)矩陣分解;圖卷積神經(jīng)網(wǎng)絡(luò);共享單車需求;可解釋性
0 引言(Introduction)
共享單車是當(dāng)前公共交通系統(tǒng)中的重要組成部分,但共享單車需求的潮汐效應(yīng)也給公共交通系統(tǒng)和共享單車系統(tǒng)運(yùn)營(yíng)方帶來了額外的壓力[1-2],因此一個(gè)高效的調(diào)度系統(tǒng)對(duì)共享單車系統(tǒng)的高效運(yùn)營(yíng)非常重要,而調(diào)度系統(tǒng)的高效運(yùn)營(yíng)依賴于精確的短期需求預(yù)測(cè)[3-4]。國(guó)內(nèi)外的學(xué)者對(duì)共享單車短期需求預(yù)測(cè)進(jìn)行了大量的研究,使用的方法大多基于機(jī)器學(xué)習(xí)[5-6]和深度學(xué)習(xí)等數(shù)據(jù)驅(qū)動(dòng)方法。例如,張建同等[7]結(jié)合隨機(jī)森林、極端梯度提升(eXtreme Gradient Boosting, XGBoost)及梯度提升決策樹(Gradient Boosting Decision Tree, GBDT)三類算法提出了組合預(yù)測(cè)模型;孫啟鵬等[8]分析了單車出行模式,并嘗試將單車出行模式與多層前饋神經(jīng)網(wǎng)絡(luò)結(jié)合預(yù)測(cè)共享單車需求;姜曉等[9]、陸凱韜等[10]、ZHANG等[11]嘗試使用長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行預(yù)測(cè)。共享單車作為一種交通系統(tǒng),具有天然的圖結(jié)構(gòu),因此圖卷積神經(jīng)網(wǎng)絡(luò)[12]在交通流預(yù)測(cè)中也被廣泛使用,CHAI等[13]基于圖卷積神經(jīng)網(wǎng)絡(luò)提出了多圖卷積神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)共享單車系統(tǒng)中的需求。但是,以上研究大多將共享單車需求視為單一系統(tǒng),忽略了其與其他交通系統(tǒng)之間的聯(lián)系。近年的部分研究主張?jiān)诠蚕韱诬囆枨箢A(yù)測(cè)任務(wù)中結(jié)合其他公共交通系統(tǒng)的信息,以提升需求預(yù)測(cè)的準(zhǔn)確度。例如,LIANG等[14]考慮了如地鐵人流量等其他交通模式的信息,有效改善了共享單車需求的預(yù)測(cè)效果。CHO等[15]比較了不同交通系統(tǒng)與單車系統(tǒng)之間的聯(lián)系。
本文提出一種基于非負(fù)矩陣分解改進(jìn)的多圖卷積網(wǎng)絡(luò)預(yù)測(cè)模型,在共享單車需求預(yù)測(cè)任務(wù)中結(jié)合其他公共交通系統(tǒng)的信息,以達(dá)到提升預(yù)測(cè)效果的目的。實(shí)驗(yàn)結(jié)果表明:與不考慮其他交通方式影響的模型相比,使用非負(fù)矩陣分解算法改進(jìn)的圖卷積神經(jīng)網(wǎng)絡(luò)的平均絕對(duì)誤差下降了10.84%,并且非負(fù)矩陣分解方法能較好地解釋輔助交通系統(tǒng)是如何提升單車需求預(yù)測(cè)效果的。
1 數(shù)據(jù)與模型(Data and model)
1.1 數(shù)據(jù)來源與預(yù)處理
本文主要使用兩個(gè)數(shù)據(jù)集:(1)紐約市自行車系統(tǒng)公開數(shù)據(jù)(NYC Citi Bike),記錄的信息類型有單車ID、出發(fā)時(shí)間、結(jié)束時(shí)間、出行持續(xù)時(shí)長(zhǎng)、出發(fā)點(diǎn)和終點(diǎn)坐標(biāo)等,包括2020年7月至9月紐約市內(nèi)1 104個(gè)區(qū)域的單車出行數(shù)據(jù),共有約690萬條的出行記錄,本文將起止點(diǎn)距離小于50 m的記錄去除,并排除每天平均用車記錄小于10條的區(qū)域,共得到848個(gè)區(qū)域2020年7月至9月每小時(shí)的用車需求。(2)紐約市出租車需求數(shù)據(jù)集,來自紐約市出租車和豪華轎車委員會(huì)(TLC),記錄了2020年7月至9月約55萬條用車記錄,包括乘客的上車時(shí)間、下車時(shí)間、上車區(qū)域ID、下車區(qū)域ID、上車地點(diǎn)、下車地點(diǎn)和出行里程等信息。兩個(gè)數(shù)據(jù)集的簡(jiǎn)介如表1所示。
本文根據(jù)數(shù)據(jù)集中上車和下車地點(diǎn)名稱,結(jié)合谷歌地圖中的數(shù)據(jù)獲取上車和下車位置的坐標(biāo)信息,同樣去除每天平均用車需求小于10條的區(qū)域和起止點(diǎn)距離小于500 m的區(qū)域。紐約市出租車出行模式作為輔助交通模式輸入,幫助改善單車需求預(yù)測(cè)效果。
1.2 使用非負(fù)矩陣分解(NMF)改進(jìn)的多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)
對(duì)共享單車需求進(jìn)行預(yù)測(cè)的大多數(shù)算法通常將共享單車需求視為封閉系統(tǒng),忽略了共享單車系統(tǒng)與其他交通系統(tǒng)之間的相互作用。但是,共享單車作為交通系統(tǒng)的一個(gè)組成部分,成為解決“最后一公里”問題的存在。因此,共享單車系統(tǒng)的需求很難不受其他交通系統(tǒng)的影響。例如,乘坐地鐵的乘客很可能在出站后選擇共享單車,出租車需求旺盛的區(qū)域或目的地區(qū)域可能代表這些區(qū)域是交通熱點(diǎn),共享單車在這些區(qū)域可能有比其他區(qū)域更高的需求。多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)(Multi-Relational Graph Neural Network)[14]是一種用于在跨交通模式中提取信息在預(yù)測(cè)節(jié)點(diǎn)中共享并提升預(yù)測(cè)效果的網(wǎng)絡(luò)結(jié)構(gòu)。但是,多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)缺乏可解釋性,也無法解釋輔助交通模式中的哪一部分信息提升了預(yù)測(cè)效果。本文基于非負(fù)矩陣分解改進(jìn)多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò),希望通過非負(fù)矩陣分解幫助模型學(xué)習(xí)更多深層次信息的同時(shí),還可以直觀地觀察輔助交通模式中的信息是如何提升模型預(yù)測(cè)效果的,使模型具有良好的可解釋性。本文選取紐約市出租車的出行數(shù)據(jù)集作為單車需求預(yù)測(cè)的輔助數(shù)據(jù)集,也可以應(yīng)用其他任意出行模式的數(shù)據(jù)作為輔助數(shù)據(jù)或是多個(gè)交通模式的數(shù)據(jù)集同時(shí)作為輔助數(shù)據(jù)進(jìn)行預(yù)測(cè)。
基于非負(fù)矩陣分解方法改進(jìn)后的多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)利用從輔助數(shù)據(jù)集和共享單車歷史需求數(shù)據(jù)中提取的時(shí)空特征預(yù)測(cè)單車需求。為了直觀地觀察輔助交通模式中的哪一部分信息改善了單車需求的預(yù)測(cè),在使用多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)提取時(shí)空特征之前,要先使用非負(fù)矩陣分解法將出行矩陣分解為k 種出行模式。非負(fù)矩陣分解法的非負(fù)約束讓分解出的矩陣非負(fù),因此分解后得到的基矩陣Wm×k=[w1,w2,…,wm ]T、系數(shù)矩陣Hk×t= h1,h2,…,ht 具有明確的物理意義。根據(jù)現(xiàn)實(shí)意義,wm 可以理解為k 種出行模式在區(qū)域m 的出行規(guī)模大小,ht 可以理解為k 種出行模式在時(shí)間點(diǎn)t 的出行強(qiáng)度,wTm和ht 均為k 維向量,則將Wm×k 和Hk×t 中對(duì)應(yīng)的第k 種出行模式的行向量和列向量相乘,得到m ×t 維矩陣V'k,其中[V'k]ij=WikHkj。矩陣V'k 為估計(jì)的第k 種出行模式的需求矩陣,將矩陣V'k 和單車出行矩陣一起作為預(yù)測(cè)模型的輸入,多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)負(fù)責(zé)捕捉各個(gè)出行模式內(nèi)部的和跨模式的出行節(jié)點(diǎn)之間的有效信息,預(yù)測(cè)層利用卷積模塊捕捉到的各個(gè)站點(diǎn)的信息表示和依賴關(guān)系完成單車需求的預(yù)測(cè)?;诜秦?fù)矩陣分解方法改進(jìn)后的多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)模型的整體結(jié)構(gòu)如圖1所示。
1.2.1 使用非負(fù)矩陣分解法的出行模式分解
非負(fù)矩陣分解法于1999年被提出,與傳統(tǒng)的奇異值分解(SVD)、獨(dú)立成分分析(ICA)、主成分分析(PCA)等方法相比,非負(fù)矩陣分解法對(duì)分解出的子矩陣有非負(fù)約束,該特性讓非負(fù)矩陣分解法分解出的子矩陣擁有良好的可解釋性。本文以非負(fù)矩陣分解法為基礎(chǔ),將龐大的出租車出行矩陣分解為子矩陣,拆解為可解釋的不同出行模式,并將其作為輔助共享單車需求預(yù)測(cè)的輔助交通模式。
非負(fù)矩陣分解法的基本思想可以概括為對(duì)于非負(fù)矩陣V,非負(fù)矩陣分解法可以找到一個(gè)非負(fù)矩陣W 和一個(gè)非負(fù)矩陣H,使V≈WH,由于分解算法很難求得完全相等的分解矩陣,因此使用約等號(hào)。非負(fù)矩陣分解法保證了分解過程的非負(fù)性,分解出的矩陣往往是具有實(shí)際物理意義的。對(duì)于出租車出行矩陣,假設(shè)有出行矩陣Vm×t,記錄了m 個(gè)空間區(qū)域內(nèi)在t 個(gè)時(shí)間點(diǎn)的出行需求,找到矩陣Wm×k =[w1,w2,…,wm ]T 和矩陣Hk×t= h1,h2,…,ht ,wTm、ht 均為k 維向量。使Vm×t ≈Wm×kHk×t,矩陣Wm×k 被稱為基矩陣,矩陣Hk×t 被稱為系數(shù)矩陣。在對(duì)有實(shí)際意義的出行矩陣Vm×t 的分解過程中,wm可以理解為k 種出行模式在區(qū)域m 的出行規(guī)模大小,ht 可以理解為k 種出行模式在時(shí)間點(diǎn)t 的出行強(qiáng)度。通過對(duì)基矩陣和系數(shù)矩陣的分析可以得出出租車出行模式在空間和時(shí)間維度的分布特征。本文僅介紹非負(fù)矩陣分解法的具體步驟而不做推導(dǎo)。
Step 5:計(jì)算損失函數(shù),判斷它是否滿足小于ε,若滿足,更新結(jié)束;若不滿足,則返回Step 4繼續(xù)更新,直到損失函數(shù)小于ε 或達(dá)到迭代上限為止。
由于非負(fù)矩陣分解需要對(duì)需求矩陣整體進(jìn)行分解,為了不影響測(cè)試集結(jié)果,所以訓(xùn)練和測(cè)試階段的分解方法略有不同,在訓(xùn)練階段使用的分解法為非負(fù)矩陣分解法的分解步驟,在Step 4中使用梯度下降法,同時(shí)更新基矩陣Wm×k 和系數(shù)矩陣Hk×t。而在測(cè)試階段,本文假定在各個(gè)出行區(qū)域中的不同出行模式的占比在一定時(shí)間內(nèi)是穩(wěn)定的,因此固定在訓(xùn)練階段生成的基矩陣Wm×k,依據(jù)現(xiàn)有的基矩陣W 生成系數(shù)矩陣H,步驟如下:固定基矩陣Wm×k 后,基于測(cè)試集數(shù)據(jù)使用梯度下降法生成新系數(shù)矩陣Hk×t。
1.2.2 多交通模式的時(shí)空?qǐng)D建模
本文將不同區(qū)域的共享單車出行和出租車出行之間的聯(lián)系建模為時(shí)空?qǐng)D。紐約市的各個(gè)出行區(qū)域?yàn)闃?gòu)造的圖的頂點(diǎn),頂點(diǎn)特征為各個(gè)區(qū)域的需求信息。由于本文需要提取不同交通模式之間的依賴關(guān)系,因此除了構(gòu)建一般的單個(gè)交通模式內(nèi)部的時(shí)空?qǐng)D,還需要構(gòu)建跨交通模式的時(shí)空?qǐng)D。對(duì)于單個(gè)交通模式內(nèi)部的時(shí)空?qǐng)D,以共享單車為例,它的內(nèi)部圖被構(gòu)建為GB =(VB ,AB ),其中VB 為需求站點(diǎn),AB 為站點(diǎn)間依賴關(guān)系的鄰接矩陣。同理,出租車出行需求也可以被構(gòu)建為GT =VT,AT ,并且出租車需求被分解后的不同需求模式共享同樣的內(nèi)部圖。對(duì)于跨交通模式的時(shí)空?qǐng)D,其作用是捕捉共享單車站點(diǎn)和出租車需求區(qū)域之間的聯(lián)系。本文將跨交通模式的時(shí)空?qǐng)D定義為GBT =(VB ,VT ,ABT ),其中VB 、VT 為共享單車需求站點(diǎn)和出租車出行區(qū)域,ABT 為VB 、VT 之間依賴關(guān)系的鄰接矩陣。
為了更有效地捕捉不同站點(diǎn)和出行區(qū)域之間的相互依賴關(guān)系,本文從不同的視角定義鄰接矩陣。紐約市的各個(gè)需求站點(diǎn)和出行區(qū)域?yàn)闃?gòu)造的圖的頂點(diǎn),頂點(diǎn)特征為各個(gè)區(qū)域的需求信息,可以從距離和歷史流量相似度視角出發(fā),構(gòu)建鄰接矩陣:
其中:距離函數(shù)Dist為兩點(diǎn)之間的曼哈頓距離,ρij 為兩個(gè)區(qū)域歷史流量的相似度,相似度函數(shù)用皮爾遜相關(guān)系數(shù)定義。因此,最終構(gòu)造有以下不同的圖結(jié)構(gòu),分別代表單車需求站點(diǎn)和出租車需求區(qū)域內(nèi)部和互相的依賴關(guān)系:
公式(3)至公式(6)代表出租車出行時(shí)空?qǐng)D和單車出行時(shí)空?qǐng)D分別根據(jù)距離和相關(guān)系數(shù)定義的圖連接結(jié)構(gòu),公式(7)和公式(8)代表共享單車需求節(jié)點(diǎn)和出租車出行區(qū)域共同構(gòu)成的時(shí)空?qǐng)D根據(jù)距離和相關(guān)系數(shù)的圖連接結(jié)構(gòu)。
1.2.3 多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)
多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)是一種用于在跨交通模式中提取信息在預(yù)測(cè)節(jié)點(diǎn)中共享,并提升預(yù)測(cè)效果的網(wǎng)絡(luò)結(jié)構(gòu)[14]。本文基于非負(fù)矩陣分解法改進(jìn)多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò),在提升模型預(yù)測(cè)效果的同時(shí),使結(jié)果具備良好的可解釋性,可以直觀地展示不同的交通模式如何改善共享單車需求預(yù)測(cè)的結(jié)果。
多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)是在圖卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上改進(jìn)的,它可以從不同交通模式的異構(gòu)圖中根據(jù)連接情況提取各頂點(diǎn)的有效信息,本文根據(jù)前文定義的距離圖和流量相似度圖提取有效信息。多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
圖卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是一種非常高效地從圖結(jié)構(gòu)數(shù)據(jù)中提取有效特征的網(wǎng)絡(luò)結(jié)構(gòu),而交通網(wǎng)絡(luò)具有天然的圖結(jié)構(gòu),因此圖卷積網(wǎng)絡(luò)被廣泛地應(yīng)用于交通流預(yù)測(cè)領(lǐng)域并取得了良好的效果。在圖卷積神經(jīng)網(wǎng)絡(luò)中,圖中來自鄰居的信息被匯總并用于逐步更新頂點(diǎn)的隱藏狀態(tài),這些信息在過渡網(wǎng)絡(luò)中傳播,最終使每個(gè)頂點(diǎn)都能捕獲大鄰域的信息。圖卷積神經(jīng)網(wǎng)絡(luò)的卷積公式如下:
其中:σ 為激活函數(shù);D 為自連接的鄰接矩陣的度矩陣;Hl 為輸入特征矩陣,代表網(wǎng)絡(luò)圖的節(jié)點(diǎn)的特征;wl 為第l 層的可訓(xùn)練參數(shù);A=A+IN ,代表有自連接網(wǎng)絡(luò)的鄰接矩陣。本文使用在圖卷積結(jié)構(gòu)的基礎(chǔ)上改進(jìn)的多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)提取跨交通模式的異構(gòu)圖中節(jié)點(diǎn)的相互信息。以共享單車和出租車兩種出行模式為例,多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)的卷積公式如下:
1.2.4 預(yù)測(cè)
本文將從各個(gè)交通模式內(nèi)部提取的時(shí)空特征輸出和從跨交通模式提取的時(shí)空特征輸出融合后作為預(yù)測(cè)層的輸入,預(yù)測(cè)層由L 個(gè)全連接層組成,模型訓(xùn)練目標(biāo)是最小化共享單車出行需求和預(yù)測(cè)需求間的誤差。損失函數(shù)如下:
2 紐約市出租車出行模式分析(Analysis oftaxi travel modes in New York city)
使用NMF分解出行矩陣后,可以得到基矩陣W 和系數(shù)矩陣H。從物理意義的角度解釋,基矩陣W 可以代表不同出行模式在空間分布上的強(qiáng)度,系數(shù)矩陣H 則代表不同出行模式在不同時(shí)間段的強(qiáng)度。本文對(duì)紐約市出租車需求數(shù)據(jù)集進(jìn)行非負(fù)矩陣分解,使用手肘法確定最優(yōu)模式數(shù)k=4。因此,最終分解出4種基本出行模式。利用系數(shù)矩陣H 分析4種出行模式的時(shí)間分布情況,截取一個(gè)自然日內(nèi)不同模式的出行強(qiáng)度并繪制折線圖,出租車出行模式時(shí)間分布如圖3所示。
通過觀察圖3可以看出,峰值出現(xiàn)在上午和晚上的出行模式為典型的通勤出行需求,分為通勤晚高峰的居民用車需求(需求高峰為16:00~18:00)和通勤早高峰的用車需求(需求高峰為7:00~9:00)。從9:00開始緩慢增加,到22:00~23:00達(dá)到高峰的出行需求推測(cè)為不需要工作的居民的娛樂出行需求;對(duì)于8:00、12:00和19:00均出現(xiàn)一個(gè)小高峰的出行需求,則推測(cè)為其他零散的出行需求。
3 共享單車需求預(yù)測(cè)結(jié)果及可解釋性分析(Prediction results and interpretability analysisof demand for shared bicycles)
3.1 模型設(shè)置及實(shí)驗(yàn)結(jié)果
將2020年7月至9月紐約市內(nèi)不同站點(diǎn)、不同區(qū)域的共享單車需求量和出租車需求量作為輸入,數(shù)據(jù)集中記錄每小時(shí)的需求數(shù)據(jù),本文將數(shù)據(jù)集中的60%作為訓(xùn)練集,20%作為驗(yàn)證集,20%作為測(cè)試集。本文設(shè)置時(shí)間步數(shù)為12,將每12 h的需求數(shù)據(jù)作為輸入,預(yù)測(cè)后12 h的需求,epoch 設(shè)置為100,學(xué)習(xí)率設(shè)定為0.001。模型訓(xùn)練完成后在測(cè)試集中的預(yù)測(cè)誤差如表2所示。
表2展示了經(jīng)非負(fù)矩陣分解法改進(jìn)的多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)與線性回歸模型(LR)、全連接神經(jīng)網(wǎng)絡(luò)(MLP)、時(shí)空?qǐng)D卷積神經(jīng)網(wǎng)絡(luò)(STGCN)的預(yù)測(cè)誤差的對(duì)比。NMF-MRGCN為基于非負(fù)矩陣分解法改進(jìn)的多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)模型,表2展示了將不同的出租車出行模式作為輔助交通模式輸入模型時(shí)的預(yù)測(cè)誤差。從表2中可以看到,同時(shí)輸入4種出行模式的預(yù)測(cè)誤差最低,平均絕對(duì)誤差僅為1.903 80,相比不考慮其他交通模式信息的STGCN,平均絕對(duì)誤差下降了10.84%,提升效果最顯著,說明模型從輔助模式中學(xué)習(xí)了有助于提升預(yù)測(cè)精度的信息。在各個(gè)輔助模式中,早高峰對(duì)預(yù)測(cè)結(jié)果的提升最明顯,平均絕對(duì)誤差為1.926 30,其他三種出行模式對(duì)預(yù)測(cè)結(jié)果的改善也有較明顯的作用,主要誤差指標(biāo)均顯著低于STGCN。GCN-Taxi為不進(jìn)行非負(fù)矩陣分解,直接將出租車的需求數(shù)據(jù)輸入模型作為輔助交通模式得到的模型預(yù)測(cè)精度,平均絕對(duì)誤差為2.181 60,甚至略低于STGCN,預(yù)測(cè)效果明顯差于基于非負(fù)矩陣分解法改進(jìn)后的模型,說明矩陣分解模塊在提升模型可解釋性的同時(shí),也較好地將出行模式的信息顯性表達(dá),讓模型能更高效地學(xué)習(xí)輔助模式的特征。
3.2 可解釋性分析
首先觀察4種出行模式同時(shí)輸入的NMF-MRGCN相對(duì)于STGCN的預(yù)測(cè)提升效果。STGCN沒有加入出租車出行數(shù)據(jù)作為輔助預(yù)測(cè)模式,將STGCN在每個(gè)單車需求點(diǎn)的測(cè)試集中的平均絕對(duì)誤差取均值,并與NMF-MRGCN在每個(gè)單車需求點(diǎn)的平均絕對(duì)誤差取均值作差,這個(gè)差值代表NMFMRGCN相對(duì)于STGCN的預(yù)測(cè)結(jié)果中平均絕對(duì)誤差的下降幅度,將單車節(jié)點(diǎn)在鄰接矩陣ABT,D 、ABT,P 中與出租車出行區(qū)域連接的權(quán)重加和,可得到單車節(jié)點(diǎn)與出租車出行節(jié)點(diǎn)的連接強(qiáng)度,NMF-MRGCN相對(duì)于STGCN的精度提升效果同單車節(jié)點(diǎn)與出租車出行節(jié)點(diǎn)連接強(qiáng)度的關(guān)系如圖4所示。
圖4中的橫軸表示單車節(jié)點(diǎn)與出租車出行節(jié)點(diǎn)的連接強(qiáng)度,連接強(qiáng)度為鄰接矩陣中與這個(gè)單車節(jié)點(diǎn)連接的出租車出行節(jié)點(diǎn)的權(quán)重之和,連接強(qiáng)度越大,說明單車節(jié)點(diǎn)與周圍區(qū)域的出租車出行節(jié)點(diǎn)連接越緊密??v軸表示加入出租車節(jié)點(diǎn)作為輔助模式后與STGCN相比減少的平均絕對(duì)誤差。從圖4可以看出,單車出行節(jié)點(diǎn)與出租車節(jié)點(diǎn)聯(lián)系越緊密,預(yù)測(cè)效果的改善程度越好,說明模型可以從單車出行點(diǎn)周圍的出租車節(jié)點(diǎn)學(xué)習(xí)有效信息進(jìn)而輔助預(yù)測(cè)。
從表2的實(shí)驗(yàn)結(jié)果中可以觀察到,與不考慮輔助交通模式的STGCN相比,將4種出行模式中的任意一種作為輔助模式輸入NMF-MRGCN中都對(duì)預(yù)測(cè)精度有所提升,其中早高峰和其他出行需求提升效果均較為明顯,提升效果最好的輔助模式為早高峰出行模式。將不同的出行模式作為輔助模式時(shí)的NMF-MRGCN模型在不同時(shí)段預(yù)測(cè)結(jié)果的均方誤差進(jìn)行對(duì)比,可以觀察到以不同的出行模式作為輸入時(shí),NMF-MRGCN模型可以在STGCN的基礎(chǔ)上提升預(yù)測(cè)性能,如圖5所示。
圖5展示了測(cè)試集上的不同輔助模式按時(shí)間段分別計(jì)算的預(yù)測(cè)均方誤差,4種輔助模式均對(duì)預(yù)測(cè)結(jié)果有較明顯的改善,并且在晚高峰時(shí)間段的改善效果最明顯。從圖5中可以看到,當(dāng)輔助模式為早高峰模式時(shí)的預(yù)測(cè)性能最接近4種輔助模式同時(shí)輸入的完整模型,說明早高峰模式提供的出行信息對(duì)提升預(yù)測(cè)效果的貢獻(xiàn)最大,其他三種出行模式作為輔助模式時(shí)整體預(yù)測(cè)結(jié)果接近,沒有明顯區(qū)別。
從地理分區(qū)的角度看,紐約的分區(qū)稅務(wù)數(shù)據(jù)庫(ZoningTax Lot Database)記錄了紐約各個(gè)分區(qū)的主要區(qū)域功能。將各個(gè)單車需求預(yù)測(cè)點(diǎn)與對(duì)應(yīng)區(qū)域進(jìn)行匹配,可以分區(qū)域觀察不同的輔助模式在不同功能區(qū)的預(yù)測(cè)中發(fā)揮的作用,分區(qū)域誤差表如表3所示。
表3記錄了不同出行模式作為輔助模式時(shí),對(duì)應(yīng)功能區(qū)的所有單車預(yù)測(cè)點(diǎn)位的均方誤差平均下降幅度。整體而言,輔助模式在商業(yè)區(qū)和居民區(qū)發(fā)揮的作用最大,在工業(yè)區(qū)的輔助預(yù)測(cè)效果不夠顯著,尤其是娛樂出行模式和其他出行模式,可以推測(cè)可能是因?yàn)樵诠I(yè)區(qū)的總體出行需求中以早、晚高峰需求為主。早、晚高峰出行模式則對(duì)表3中三種區(qū)域的共享單車出行需求預(yù)測(cè)精度均有一定的提升效果。
4 結(jié)論(Conclusion)
本文提出了一種使用非負(fù)矩陣分解算法改進(jìn)的多關(guān)系圖卷積神經(jīng)網(wǎng)絡(luò)模型,首先將輔助交通模式分解為可解釋的模式,其次將各個(gè)出行模式的需求信息作為輔助信息和共享單車歷史需求數(shù)據(jù)一起輸入圖卷積網(wǎng)絡(luò)中進(jìn)行預(yù)測(cè)。在實(shí)驗(yàn)中,本文以紐約市共享單車預(yù)測(cè)為例,將出租車需求分解為4種可解釋的出行模式作為輔助信息幫助進(jìn)行共享單車需求的預(yù)測(cè),結(jié)果表明每種可解釋的出行模式都對(duì)共享單車需求預(yù)測(cè)效果的改善有一定的幫助。與出租車出行區(qū)域聯(lián)系越緊密的單車需求節(jié)點(diǎn),對(duì)共享單車需求的預(yù)測(cè)精度提升越大,表示出租車需求數(shù)據(jù)可以向模型提供關(guān)于出行區(qū)域的額外信息,進(jìn)而幫助改善預(yù)測(cè)效果。其中,出租車的早高峰出行模式的輔助對(duì)提升模型預(yù)測(cè)精度的作用最顯著。對(duì)不同的功能區(qū)域而言,商業(yè)區(qū)和居民區(qū)的單車需求點(diǎn)位的改善效果最明顯,工業(yè)區(qū)的改善效果最不明顯。本文提出的使用非負(fù)矩陣分解法改進(jìn)的多圖卷積預(yù)測(cè)模型可以更高效地捕捉不同交通模式之間存在的潛在聯(lián)系,從而獲得比將共享單車視為單一封閉系統(tǒng)的模型更低的預(yù)測(cè)誤差。