張文娟,楊皓哲,張彬,李秀杰
(同濟大學,機械與能源工程學院,上海 201804)
近年來,智能交通系統(tǒng)已經(jīng)成為增強交通系統(tǒng)性能、提高乘客出行安全以及為乘客提供更多出行選擇的有力支撐[1]。隨著我國智能交通系統(tǒng)和大數(shù)據(jù)技術的發(fā)展,城市軌道交通AFC 系統(tǒng)積累了海量蘊藏客流變化規(guī)律的原始數(shù)據(jù),通過智能算法等方法對其進行深度挖掘,可以準確預測未來客流量,有助于車站的組織運營與應急響應,具有重要的現(xiàn)實意義和研究價值。
長期以來,數(shù)理統(tǒng)計模型廣泛應用于城市軌道交通客流預測問題,經(jīng)典的統(tǒng)計方法包括自回歸積分移動平均(Autoregressive Integrated Moving Average,ARIMA)模型、邏輯回歸模型及卡爾曼濾波器等。例如,趙鵬等[2]在分析客流變化規(guī)律的基礎上,構建季節(jié)ARIMA 模型預測出站客流。JIAO等[3]提出3種基于修正的卡爾曼濾波器的客流預測模型,并證明了3種模型預測效果的準確性與穩(wěn)定性。
隨著交通大數(shù)據(jù)的發(fā)展與應用,基于機器學習模型的城市軌道交通客流預測研究取得了豐碩成果。機器學習方法包括貝葉斯網(wǎng)絡、K最近鄰算法(K-Nearest-Neighbor, KNN)、支持向量回歸及神經(jīng)網(wǎng)絡等,例如,郇寧等[4]提出一種改進模式匹配方法的KNN算法,用于客流量滾動實時預測。LI等[5]提出一種新的動態(tài)徑向基函數(shù)神經(jīng)網(wǎng)絡用于出站客流預測,該網(wǎng)絡創(chuàng)新性地集成了進出站客流量、列車時刻表與客流控制系數(shù)。相較于傳統(tǒng)的線性模型,機器學習模型通過分析和挖掘大量歷史數(shù)據(jù),能夠較好地應對客流變化的隨機性和非線性規(guī)律,具有較為顯著的優(yōu)勢。
作為機器學習的分支,深度學習模型基于層次更深和結構更復雜的神經(jīng)網(wǎng)絡,能夠較為準確地擬合輸入與輸出數(shù)據(jù)之間的強非線性關系。近年來,得益于海量的交通數(shù)據(jù)和高性能計算技術,基于深度學習的城市軌道交通客流預測研究成果頗多。例如,LIU 等[6]提出一種基于長短期記憶(Long-Short Term Memory,LSTM)神經(jīng)網(wǎng)絡的客流預測模型,稱為DeepPF,該模型具有高度的靈活性和可擴展性。YANG等[7]提出一種將小波分析和LSTM神經(jīng)網(wǎng)絡結合的進站客流預測模型,將進站客流通過小波分析分解后輸入LSTM 神經(jīng)網(wǎng)絡。許多研究融合了兩種及以上單一深度學習模型,結合不同模型各自的優(yōu)勢,提高預測精度。例如,ZHANG 等[8]提出一種融合殘差網(wǎng)絡、圖卷積網(wǎng)絡與LSTM的混合模型,稱為ResLSTM,實現(xiàn)了城市軌道交通全網(wǎng)規(guī)模進出站客流預測。趙建立等[9]構建一種基于卷積神經(jīng)網(wǎng)絡和殘差網(wǎng)絡的混合模型,用于多站點進出站客流預測。
Transformer是一種新興的深度學習模型[10],自2017 年在自然語言處理領域提出以來獲得了廣泛關注,該模型采用完全基于注意力機制的特殊結構,解決了循環(huán)神經(jīng)網(wǎng)絡無法對信息并行計算和缺乏對序列數(shù)據(jù)周期性建模等缺陷。目前,有學者將其引入客流預測中,并取得了突出表現(xiàn)。例如,LIN等[11]構建基于Transformer 的城市軌道交通客流預測模型,并與包括回歸模型、Boosting 模型及深度學習模型等在內的10 個基線模型進行對比,結果表明,基于Transformer的模型擁有最佳的預測性能。
上述研究對城市軌道交通短時客流預測均有重要的參考價值,但也存在一定的改進空間。大部分模型沒有考慮客流變化的周期性規(guī)律,導致時間特征挖掘不夠充分,從而影響預測精度。另外,一些模型雖然能夠滿足預測的準確率要求,但是,由于模型復雜度過高,導致計算效率較低,且難以滿足較小時間粒度預測的實際需求,忽略了模型的高效性和實用性。針對上述問題,本文提出一種結合GRU 神經(jīng)網(wǎng)絡和Transformer 的混合深度學習模型,利用兩者處理序列數(shù)據(jù)的獨特優(yōu)勢,充分挖掘長時間跨度客流數(shù)據(jù)的連續(xù)依賴性和周期依賴性。此外,模型采用子模塊并聯(lián)的網(wǎng)絡結構,具有較高的計算效率,適用于城市軌道交通各類型車站,具備較好的普適性。
本文重點研究城市軌道交通單個車站的短時客流量預測問題,利用AFC 系統(tǒng)歷史刷卡數(shù)據(jù)來同時預測站點未來的進站量與出站量,即對于預測目標時間步t,將過去連續(xù)T個時間步的客流數(shù)據(jù)輸入預測模型,預測下一時間步客流量。Xt=()T∈?2為t時間步真實客流量,其中,,分別為真實進站量與出站量。Yt=()T∈?2表示t時間步預測客流量,其中,,分別為預測進站量與出站量。綜上,本文界定的城市軌道交通客流量預測問題為
式中:F(·) 為映射函數(shù);(Xt-T,…,Xt-1) ∈?2×T為歷史客流矩陣。
為了充分挖掘客流時間序列數(shù)據(jù)中隱含的連續(xù)性和周期性信息,本文對歷史客流數(shù)據(jù)的周周期依賴性、日周期依賴性以及相鄰時段依賴性這3種時間特性分別進行建模。假設將每日總時長等間隔劃分為k個時間步,對于某預測目標時間步t,以3 種時間尺度分別沿時間軸截取時間片段Pweek,Pday,Pnear,并分別用變量w、d、n表示各時間片段所包含時間步的數(shù)量大小。Xweek,Xday,Xnear為各時間片段所對應的歷史客流量矩陣,將作為模型的各個輸入分量。為更好地展示建模過程,現(xiàn)假設t代表2021年7月15日(周四)8:00-8:05,客流特征矩陣建模過程如下。
(1)周周期時間片段客流矩陣Xweek
如式(2)所示,該周期下客流量矩陣由時間步t的前w周每周同一時間步客流量組成,例如,當w=2 時,其對應時間片段Pweek在時間軸上的位置如圖1所示。
圖1 周周期時間片段Fig.1 Weekly periodic time segment
(2)日周期時間片段客流Xday
如式(3)所示,該周期下客流量矩陣由時間步t的前d天每天同一時間步客流量組成,例如,當d=2 時,其對應的時間片段Pday在時間軸上的位置如圖2所示。
圖2 日周期時間片段Fig.2 Daily periodic time segment
(3)相鄰時間片段客流Xnear
如式(4)所示,該周期下客流量矩陣由時間步t之前的連續(xù)n個時間步客流量組成,例如,當n=6時,其對應的時間片段Pnear在時間軸上的位置如圖3所示。
圖3 相鄰時間片段Fig.3 Recent time segment
綜上所述,對于預測目標時間步t,將Xweek,Xday,Xnear這3個矩陣進行合并,得到最終的模型輸入客流矩陣Xpast=(Xweek,Xday,Xnear)∈?2×(w+d+n)。用Xpast代替式(1)中的歷史客流矩陣(Xt-T,…,Xt-1) ,則式(1)轉化為
本文提出一種融合多時間尺度時序特征的混合深度學習模型,即GRU-Transformer模型,該模型主要包含兩個模塊:(1)Attention-GRU 模塊,該模塊將GRU 與Attention 機制結合;(2) Conv-Transformer模塊,該模塊由多層以一維卷積神經(jīng)網(wǎng)絡(CNN1D)改進的Transformer 編碼層組成。具體結構如圖4所示。
圖4 GRU-Transformer模型結構Fig.4 Framework of GRU-Transformer model
針對RNN 無法處理長序列依賴關系的缺陷,Hochreiter 等[12]提出了LSTM 神經(jīng)網(wǎng)絡,通過輸入門、輸出門和遺忘門對序列數(shù)據(jù)進行長期記憶,有效解決了RNN容易出現(xiàn)的梯度消失和梯度爆炸問題,然而LSTM 單元內部結構較為復雜,導致模型訓練需要花費很長時間。Cho 等[13]于2014 年提出了LSTM的變體GRU,其結構相較于LSTM更為簡單,需要訓練的參數(shù)更少且能夠保持與LSTM相近的預測效果,因此,本文使用GRU神經(jīng)網(wǎng)絡學習客流的連續(xù)性特征,其單元結構如圖5所示。
GRU 單元通過重置門rm和更新門zm對客流信息進行讀取、記憶和參數(shù)更新。如圖5 所示,xm為m時間步的輸入客流量,hm-1為m-1 時間步GRU 單元輸出的隱藏層狀態(tài)向量,即上一GRU 單元學習并傳遞下來的客流特征信息。xm和hm-1輸入當前GRU 單元后,通過計算獲取重置門rm和更新門zm兩個門控狀態(tài),rm用來控制舍棄與保留前一時間步客流狀態(tài)信息的程度;zm用來控制前一時間步客流狀態(tài)信息保存到當前狀態(tài)中的量,zm的值越大,說明當前時間步客流狀態(tài)信息保留得越多,前一時間步客流狀態(tài)信息保留得越少。GRU單元最終輸出當前隱藏層狀態(tài)向量hm,并傳遞至下一時間步。計算式歸納為
圖5 GRU單元結構Fig.5 GRU unit structure
式中:σ(·)為sigmoid 激活函數(shù),其輸出范圍為[0,1];h?m為候選隱藏狀態(tài);tanh(·)為雙曲線正切激活函數(shù);Wz,Wr,Wh,Uz,Ur,Uh為權重矩陣;bz,br,bh為偏置項。
Attention-GRU模塊中GRU網(wǎng)絡層數(shù)為L1,每一層GRU 網(wǎng)絡均由一系列結構相同的GRU 單元串聯(lián)組成。GRU 單元隱藏神經(jīng)元數(shù)量均設置為32,每一層GRU 層所包含GRU 單元個數(shù)均與Xpast列數(shù)(w+d+n)相等,因此,GRU 網(wǎng)絡的輸出為32×(w+d+n)矩陣,該矩陣表示GRU 網(wǎng)絡學習客流連續(xù)性特征的結果。
為了擬合各時間步客流量對模型預測影響程度的大小并提升預測精度,本文采用注意力機制為GRU網(wǎng)絡輸出的每一步隱藏層狀態(tài)分配注意力權重。模型首先計算每個時間步輸出隱藏層狀態(tài)的注意力權重大小,然后,進行Softmax歸一化將各注意力權重均縮放至[0,1],得到每個時間步注意力得分,注意力得分值越大表示該時間步客流量對模型預測的貢獻度越大。最后,將各注意力得分與對應的GRU 層輸出隱藏層信息進行加權求和,輸出客流連續(xù)性特征F1。由于時間步注意力層僅進行權重分配而不改變輸入矩陣尺寸大小,因此,F(xiàn)1仍為32×(w+d+n)矩陣,計算式歸納為
式中:m=1,2,…,(w+d+n);q為查詢向量;s(hm,q)為第m步客流量的注意力權重,表示hm與q的相似程度;H,W,U為訓練參數(shù);am為第m個時間步的注意力得分。
Transformer模型的核心是多頭自注意力機制,其采用位置編碼的方式獲取輸入序列的位置信息,用于捕捉輸入序列位置關系。由于客流預測中輸入數(shù)據(jù)與輸出數(shù)據(jù)在時間軸上是連續(xù)的,兩者不存在語義模型中的位置對應關系,因此原始Transformer 模型的位置編碼方法不適用于客流預測。針對此問題,本文不采用位置編碼操作,而是將前文介紹的Attention-GRU 模塊與Transformer并聯(lián),以彌補Transformer 在擬合數(shù)據(jù)連續(xù)性方面的缺陷。同時,本文采用Transformer 原始模型中編碼器部分,利用多頭自注意力機制和CNN1D 充分挖掘客流數(shù)據(jù)的周期性特征。
2.2.1 多頭自注意力機制
自注意力機制是一種縮放點積注意力(Scaled dot-product Attention),通過查詢向量(Q)與鍵向量(K)-值向量(V)對之間的交互實現(xiàn)信息的動態(tài)聚合[14]。本文中,自注意力機制通過Q、K和V計算輸入客流矩陣Xpast中每個時間步客流量與其余時間步客流量之間的相關性,即擬合客流周期性特征。具體計算步驟如下。
Step 1 輸入客流矩陣Xpast分別與尺寸大小相同的3個權重矩陣WQ、WK、WV進行矩陣相乘操作得到Q、K、V矩陣,三者均為Xpast的線性變換,因此,均可作為Xpast的代表矩陣用于計算Xpast對自身的注意力權重,其計算過程示意圖如圖6所示。
圖6 自注意力機制Fig.6 Self attention mechanism
Step 2 將Q轉置后與K進行矩陣相乘,計算Q中每一時間步與其余各時間步(即K中每一個列向量)客流向量之間的相似度。然后,將所得矩陣各值除以客流向量維度l的1/2次方進行縮放。最后,進行Softmax函數(shù)處理將權值歸一化,得到Q、K之間的相似度矩陣S∈?(w+d+n)×(w+d+n)。如圖7 所示,S中第u(u=1,2,…,(w+d+n))行表示第u個時間步客流量與其余各時間步(包括自身)客流量的關聯(lián)度大小,各權值均為正數(shù),且和為1。
圖7 相似度矩陣Fig.7 Similarity matrix
Step 3 將V與ST進行矩陣相乘,得到自注意力機制輸出Z(Xpast)∈?2×(w+d+n)。相較于Xpast,Z(Xpast)中每一時間步客流信息都通過加權和的方式融合了其余各個時間步客流信息,即擬合了各時間步之間的周期關聯(lián)性。自注意力機制計算公式歸納為
為使模型在不同的表示子空間里學習相關信息[15],從而充分挖掘客流周期性特征,本文采用多頭自注意力機制,其過程如圖8 所示。本文設置p個自注意力頭并行計算,然后,將每個自注意力頭的輸出橫向拼接,得到一個2×[(w+d+n)×p] 矩陣,將其與映射矩陣WO∈?[(w+d+n)×p]×(w+d+n)相乘得到多頭自注意力機制輸出ZM(Xpast)∈?2×(w+d+n)。WO的作用是將所有客流周期性信息進行聚合,并將輸出轉換為與輸入矩陣尺寸大小相同的2×(w+d+n)矩陣,使得ZM(Xpast)融合了所有注意力頭的輸出信息。計算式為
圖8 多頭自注意力機制Fig.8 Multi-head self-attention mechanism
式中:Concat(·) 為矩陣拼接函數(shù);Zi(Xpast)為第i個自注意力頭的輸出。
2.2.2 Conv-Transformer層
CNN1D 常用于處理文本與時間序列數(shù)據(jù),本文將原始Transformer 模型中的前饋層改進為CNN1D,加強Transformer 對時間序列信息的挖掘能力。為保證計算過程中每一個子層的輸入與輸出矩陣尺寸大小均相同,CNN1D 層輸入Xc應為2×(w+d+n)矩陣。由于Xc的行數(shù)為2,因此,將卷積核大小設為2×2,同時將卷積核滑動步長設為1。CNN1D層操作如圖9 所示,其計算步驟如下。
圖9 CNN1D處理序列數(shù)據(jù)示意圖Fig.9 Schematic diagram of CNN1D processing sequence data
Step 1 為了使CNN1D 層輸出仍為2×(w+d+n)矩陣,對Xc進行same padding操作,即程序自動使用“0”將其填充為2×(w+d+n+1) 矩陣,以避免卷積計算過程中客流矩陣邊緣信息的丟失。填充操作如圖9中虛線所示。
Step 2 使用2 個卷積核分別沿時間軸與輸入矩陣Xc進行卷積操作,得到特征映射C1∈?1×(w+d+n)、C2∈?1×(w+d+n);
Step 3 將特征映射C1、C2縱向拼接,形成特征圖C∈?2×(w+d+n),即CNN1D層輸出。
計算公式歸納為
式中:f(·)為激活函數(shù);?為卷積運算;Q1、Q2為權重矩陣;b1、b2為偏置項。
將由CNN1D 改進后的Transformer 層稱為Conv-Transformer 層,每層由多頭注意機制和CNN1D兩個子層組成,信息由每一個子層輸出后,都將該層輸出矩陣與輸入矩陣進行殘差連接,以避免模型梯度消失、梯度爆炸及網(wǎng)絡退化的問題。然后,將所生成的矩陣進行層歸一化操作進行數(shù)據(jù)縮放,進而得到Conv-Transformer層輸出。
最終,將L2個結構相同的Conv-Transformer層串聯(lián)形成Conv-Transformer 模塊,其輸出結果為客流周期性特征F2∈?2×(w+d+n)。
客流矩陣Xpast同時輸入Attention-GRU模塊和Conv-Transformer 模塊,經(jīng)兩模塊分別提取客流連續(xù) 性 特 征F1∈?32×(w+d+n)與 客 流 周 期 性 特 征F2∈?2×(w+d+n)。最后經(jīng)過特征融合層將F1、F2使用矩陣拼接函數(shù)進行縱向拼接,得到特征融合信息F∈?34×(w+d+n)。因此,F(xiàn)為模型對客流周期性、連續(xù)性特征進行深度挖掘后的結果,可表征預測環(huán)節(jié)所需全部隱藏信息。特征融合式為
將F展平后得到尺寸大小為986×1 的列向量,然后,連接兩層神經(jīng)元個數(shù)分別為10 和2 的全連接層對特征融合信息進行聚合,最終,輸出客流量預測值Yt。
本文選擇上海市地鐵2 號線虹橋T2 航站樓站和虹橋高鐵站作為實驗對象,兩站點由于接駁飛機和高鐵兩大交通主體,進出站客流量具有很強的不穩(wěn)定性和隨機性,準確預測兩站點客流量有較強的現(xiàn)實意義。向虹橋樞紐管理中心調取兩站點2021年1 月1 日~12 月31 日全年的進出站實時刷卡數(shù)據(jù),選取每天6:00-22:30 作為研究對象。短時客流預測選擇的時間粒度通常為5,10,15,30 min不等,為滿足預測的實時性需求,本文預測每5 min 進出站客流,將每天劃分為198 個時間步。此外,節(jié)假日期間客流波動劇烈,且其他交通方式排班計劃變化較大[16],會影響模型預測效果,同時,考慮到本文將研究客流周周期性對客流預測的影響,因此,將數(shù)據(jù)集中包含節(jié)假日的整周客流數(shù)據(jù)予以剔除。對原始數(shù)據(jù)進行歸一化處理,選擇min-max方法將原始數(shù)據(jù)映射到[0,1]區(qū)間上,即
本文采用平均絕對誤差(RMAE)和均方根誤差(RRMSE)兩個評價指標評價各個模型的預測性能。RMAE表示預測值與真實值之間絕對誤差的平均值,RRMSE表示預測值和真實值之間偏差的樣本標準差。計算式分別為
式中:yj和?分別為第j個測試樣本的真實值和預測值;G為測試樣本數(shù)量。
3.3.1 超參數(shù)設置
本文使用Python語言進行程序編寫,基于深度學習框架Keras 和Tensorflow 搭建客流預測模型,實驗采用的GPU型號為Tesla T4,顯存大小為16 G。為提升訓練效果,運用shuffle方法將訓練集中的數(shù)據(jù)隨機打亂并進行批處理操作。將buffer_size 設置為10000,批量大小設置為128,模型損失函數(shù)為RMAE,優(yōu)化器選擇RMSprop,學習率為0.001,激活函數(shù)均為ReLU函數(shù)。
3.3.2 參數(shù)調優(yōu)
本文使用T2 航站樓數(shù)據(jù)集開展參數(shù)調優(yōu)實驗,對各周期時間片段大小(即參數(shù)w、d、n)、GRU 層層數(shù)L1、Conv-Transformer 層層數(shù)L2以及自注意力頭數(shù)量p進行調優(yōu)。各參數(shù)的取值范圍設置如下:n=(6,8,10,12,14,16,18,20,22,24,26,28,30 );w∈[1,3] ;d∈[1,6] ;L1∈[1,3] ;L2∈[1,8];p∈[3,8]。使用評價指標RMAE和RRMSE衡量參數(shù)取值對模型性能的影響。實驗采取控制變量原則,每次只調整一個參數(shù),其他參數(shù)均保持不變,尋找到最優(yōu)值后,該參數(shù)取值將固定,并進行下一個參數(shù)的尋優(yōu)。
為更好地展示實驗過程,將實驗劃分為兩個步驟:首先,將L1、L2、p隨機固定為2、4、5,對w、d、n進行調優(yōu);然后,再調整L1、L2、p取值,直到所有參數(shù)被優(yōu)化。具體過程如下。
Step 1w、d、n調優(yōu)
將n值設置為12,d值設置為3,改變w取值,依次進行3 次實驗,選取最佳的w值并固定大小。以此類推對d和n進行調優(yōu),實驗結果如圖10 和表1所示。
表1 參數(shù)w、d、n 調優(yōu)結果Table 1 Results of parameter w、d、n tuning
圖10 參數(shù)w、d、n 調優(yōu)過程Fig.10 Process of parameter w、d、n tuning
如圖10所示,當w=3 時模型預測誤差最小,d由1 增加到6 時,預測誤差呈現(xiàn)出先下降后上升的趨勢,d=4 時達到最小,說明客流周期性特征對預測效果具有較大影響。n由6增加到30時,預測誤差整體上呈現(xiàn)先下降后上升趨勢,當n=22 時預測誤差達到最小。同時,當n取20、22、24 時誤差均維持在較低水平,說明大約2 h 內的歷史客流對后續(xù)客流影響較大。綜上,當w=3,d=4,n=22 時模型性能最好,將該參數(shù)組合用于Step 2。
Step 2L1、L2、p調優(yōu)
為確定適當?shù)哪P徒Y構,分析隱含層和自注意力頭數(shù)量對模型預測的影響,依次對參數(shù)L1、L2、p進行調優(yōu),實驗過程同Step 1。結果如圖11和表2所示。
表2 參數(shù)L1、L2、p 調優(yōu)結果Table 2 Results of parameter L1、L2、p tuning
由圖11 可知:(1)當L1=2,即GRU 層層數(shù)為2時,模型預測效果顯著提升,而由2增加至3時預測效果變差;L2由1 增加到8 時,模型預測效果存在波動,當L2取6 時,預測誤差最低,上述現(xiàn)象說明,模型隱含層層數(shù)對預測性能有較大影響,雖然隱含層增多理論上可以提升模型表達能力,但層數(shù)過多會引起模型過擬合,導致預測結果不佳。(2) 當p由4增加到6時,模型誤差有明顯下降,繼續(xù)增加至7和8時,誤差逐漸提升,說明自注意力頭數(shù)量對模型預測有一定影響,在設計模型結構時,應選取恰當?shù)臄?shù)值以避免影響預測精度。
圖11 參數(shù)L1、L2、p 調優(yōu)過程Fig.11 Process of parameter L1、L2、p tuning
綜上所述,本文通過調參實驗確定最優(yōu)參數(shù)組合:w=3,d=4,n=22,L1=2,L2=6,p=6。此時RMAE和RRMSE分別為16.855 和27.643,相較于其他參數(shù)組合RMAE和RRMSE值至多下降8.74%和7.30%。
本文使用航站樓站和高鐵站兩數(shù)據(jù)集來評估GRU-Transformer 模型的預測性能,并將結果與5種基線模型(BPNN、CNN、GRU、CNN-GRU、Transformer)進行比較。同時,為進一步探究模型各組件對預測性能的影響與改進方法的有效性,進行了模型消融實驗。各模型結構描述如表3所示,其余參數(shù)設置均與GRU-Transformer 模型保持一致。實驗結果如表3所示。
表3 模型對比結果Table 3 Model comparison results
通過分析表3 可知,GRU-Transformer 模型在兩站點進行客流預測時,RMAE和RRMSE值均低于其余基線模型,擬合效果最好。對比次優(yōu)基線模型GRU,GRU-Transformer 模型在航站樓站數(shù)據(jù)集中RMAE和RRMSE值分別下降9.81%和7.07%;在高鐵站站數(shù)據(jù)集中RMAE和RRMSE值分別下降了6.85%和9.22% 。 這說明,相較于基線模型,GRUTransformer 模型的預測結果與真實值之間的誤差更小,整體性能有較大提升。同時,GRUTransformer 模型在航站樓站與高鐵站兩個不同場景下均取得最優(yōu)的預測性能,說明該模型對不同數(shù)據(jù)集的適應能力較強,在進行客流預測時能夠保持較好的魯棒性精度,證明了其實用價值。此外,值得注意的是,將Transformer 模型單獨用于客流預測時,在兩個數(shù)據(jù)集中預測性能均遠遠低于其他基線模型,說明Transformer 由于其非循環(huán)網(wǎng)絡結構無法有效識別客流輸入順序的缺陷,導致單一的Transformer不能很好地擬合客流數(shù)據(jù)連續(xù)性特征,因此,將其用于客流預測時必須加以改進優(yōu)化。
對比消融模型,可以看到:(1)相較于注意力機制消融模型,所提出模型的RMAE和RRMSE均有所下降,說明Attention-GRU 模塊中的Attention 機制可以有效捕捉各時間步輸入序列對模型預測的影響程度,增強該模塊擬合數(shù)據(jù)連續(xù)特征的能力。(2)Conv-Transformer 模型雖然將Transformer 中的FNN層改進為CNN1D,但依然存在結構上的缺陷,導致預測誤差嚴重偏離正常范圍。觀察具有GRU與Transformer 并行結構的注意力機制消融模型、還原FNN模型以及GRU-Transformer模型,可知預測誤差均恢復正常水平,這說明將GRU 與Transformer 并行的策略能夠極大程度上消除上述結構缺陷,使得Transformer 可以更好地應用于客流預測中。(3)與Attention-GRU模型相比,所提出模型性能在兩數(shù)據(jù)集上均有提升,說明兩個模塊的特征挖掘有較強的互補性,引入Transformer 可以使模型更好地擬合數(shù)據(jù)不同維度特征。(4)與還原FNN 模型相比,所提出模型性能有小幅度提升,說明將Transformer 用于時間序列數(shù)據(jù)處理時,CNN1D層相比FNN層有一定優(yōu)勢。
為評估GRU-Transformer 模型預測計算效率,驗證其短時客流預測時效性與實用性,本文將5個基線模型與GRU-Transformer 模型分別進行連續(xù)10 次客流預測,并計算單次預測平均時間,結果如表4所示。
表4 模型計算效率Table 4 Model computational efficiency
由表4 可知,GRU-Transformer 模型由于結構復雜度提升較大,因此,預測計算時間相較于各基線模型略有增長,但是,綜合考慮該模型在預測準確度方面的較大提升,其預測效率的降低幅度總體處于可接受范圍內。同時,GRU-Transformer 模型在兩個數(shù)據(jù)集下單次預測平均計算時間均小于0.8 s,說明其能夠充分滿足短時客流量預測的時效性要求,可以實際應用于客流滾動實時預測。
為進一步展示模型預測效果,選取2021 年10月21 日(周四)和10 月23 日(周六)航站樓站真實進出站客流和預測進出站客流進行可視化,結果如圖12 所示??芍?,GRU-Transformer 模型在工作日和休息日均有良好的預測表現(xiàn),可以較為準確地擬合客流變化趨勢及峰值。同時,預測值與真實值可視化曲線之間的離散程度較小,預測偏差波動不大,直觀上體現(xiàn)出預測結果良好的穩(wěn)定性。對于工作日進出站客流,由于乘客日常通勤和出行習慣產(chǎn)生的客流“雙高峰”特點十分明顯,模型可以精確擬合客流高峰時段,并且對客流峰值的預測效果較好。觀察休息日進出站客流可以發(fā)現(xiàn),相比于工作日,客流不存在十分明顯的高峰值,起伏的范圍不大,然而由于客流波動非常頻繁且劇烈,模型對峰值的擬合效果略有欠缺,但仍可以準確擬合客流態(tài)勢,不存在嚴重的偏離現(xiàn)象。
圖12 10月21日和10月23日真實客流與預測客流對比Fig.12 Actual and predicted passenger flow on October 21 and 23
綜上所述,本文所提出的GRU-Transformer 模型能夠實現(xiàn)準確的城市軌道交通短時進出站客流預測,并且可以滿足每5 min 更新1 次客流量預測值的實際需求,具有較好的實用性。在實際應用中,通過比較客流預測結果與客流預警閾值大小產(chǎn)生相應的預警等級,可以為站點的運營組織和應急響應提供有力的決策支持。
為適應城市軌道交通客流變化具有強周期性和連續(xù)性的特點,本文提出客流多時間尺度特征建模方法,構建了一種基于GRU 神經(jīng)網(wǎng)絡與Transformer 模型的城市軌道交通短時客流預測模型。在兩個真實數(shù)據(jù)集上開展調參實驗和模型對比實驗,結果表明:
(1) 對于時間片段參數(shù)w、d、n、Attention-GRU 與Conv-Transformer 模塊隱含層層數(shù)L1、L2以及自注意力頭頭數(shù)p,實驗獲得最優(yōu)參數(shù)組合:w=3,d=4,n=22,L1=2,L2=6,p=6。該過程使得模型RMAE和RRMSE值至多下降了8.74%和7.30%,說明各周期時間步長以及隱含層層數(shù)均對模型預測有較大影響,同時,也證明了多時間尺度特征建模的有效性。
(2) 相比BPNN、CNN、GRU、CNN-GRU 和Transformer 這5 種基線模型,GRU-Transformer 模型具有最佳的預測性能,相比次優(yōu)模型GRU,RMAE值在兩數(shù)據(jù)集上分別下降9.81%和6.85%;RRMSE值在兩數(shù)據(jù)集上分別下降7.07%和9.22%。
(3)相比各消融模型,GRU-Transformer模型預測精度最高,進一步證明本模型將GRU 和Transformer 并聯(lián)的網(wǎng)絡結構具有良好的復雜函數(shù)擬合效果,不僅在很大程度上彌補了Transformer模型非循環(huán)結構的缺陷,還可以將兩模塊分別捕捉的連續(xù)性、周期性特征有效地進行互補。
(4)本文實驗算例選取了上海市地鐵2 號線虹橋T2 航站樓站和虹橋高鐵站作為研究對象,對于此類與民航、鐵路等外部交通方式接駁的城市軌道交通站點,進出港航班、到發(fā)列車的數(shù)量與不確定性等因素對客流量也具有一定影響。本文未針對此類外部因素進行特別建模,且模型對休息日客流量峰值的擬合效果仍有待提升。在后續(xù)研究中,我們將綜合考慮樞紐集散影響與更全面的交通樞紐客流預測參數(shù),以期進一步提升模型擬合能力。