孫秀芳,李建波,呂志強(qiáng),董傳浩
(青島大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院,山東青島 266071)
隨著我國(guó)經(jīng)濟(jì)的快速發(fā)展和現(xiàn)代化進(jìn)程的加快,交通需求不斷增大,交通負(fù)荷愈發(fā)嚴(yán)重,從而導(dǎo)致交通擁堵、安全事故以及交通資源分配不足等問(wèn)題不斷加劇。交通擁堵不僅造成環(huán)境污染,還增加了能源消耗,給城市的可持續(xù)發(fā)展和居民的生活帶來(lái)較大的負(fù)面影響。隨著對(duì)交通問(wèn)題研究的深入,交通對(duì)策的設(shè)計(jì)必須逐步從以設(shè)施供給為主的硬對(duì)策轉(zhuǎn)向設(shè)施供給與需求管理相結(jié)合的軟硬協(xié)同方法。為此,智能交通系統(tǒng)(Intelligent Traffic System,ITS)[1-3]應(yīng)運(yùn)而生。ITS 能通過(guò)檢測(cè)當(dāng)前交通狀況以預(yù)測(cè)未來(lái)一段時(shí)間的交通情況,從而規(guī)劃交通出行方式,為交通路徑的選擇給出參考策略,最終實(shí)現(xiàn)智能出行。ITS 能夠有效改善和緩解交通問(wèn)題,并為城市規(guī)劃建設(shè)提供參考。交通預(yù)測(cè)是交通管理和控制部門(mén)采取交通誘導(dǎo)措施的主要依據(jù),因此,交通預(yù)測(cè)模型的研究成為近年來(lái)數(shù)據(jù)挖掘領(lǐng)域的重點(diǎn)[4]。
根據(jù)預(yù)測(cè)目標(biāo)的不同,交通預(yù)測(cè)可以分為車(chē)流量預(yù)測(cè)、車(chē)輛速度預(yù)測(cè)、車(chē)道占用率預(yù)測(cè)等。由于交通數(shù)據(jù)受到天氣狀況、突發(fā)狀況等多種因素的影響,因此交通數(shù)據(jù)是高度非線性的。車(chē)道占用率和車(chē)輛交通流在一定條件下可以互相表示、互相替代。交通預(yù)測(cè)經(jīng)過(guò)長(zhǎng)時(shí)間的發(fā)展,目前已取得豐碩的研究成果,當(dāng)前主流交通預(yù)測(cè)是采用典型的統(tǒng)計(jì)學(xué)方法和深度學(xué)習(xí)方法[5]?;诮y(tǒng)計(jì)學(xué)的線性理論模型有歷史平均方法(HA)[6-7]、時(shí)間序列方法、卡爾曼濾波方法[8-9]等。自回歸移動(dòng)平均模型(ARIMA)[10-12]以及該模型的變形均基于傳統(tǒng)統(tǒng)計(jì)學(xué)方法進(jìn)行時(shí)序預(yù)測(cè),此類模型是線性模型,線性模型結(jié)構(gòu)簡(jiǎn)單,計(jì)算比較方便,但是對(duì)于具有很強(qiáng)隨機(jī)性和不確定性的非線性交通數(shù)據(jù)而言,該類模型需要時(shí)序平穩(wěn)分布,受時(shí)序波動(dòng)的影響較大,抗干擾能力低,因此,預(yù)測(cè)結(jié)果不夠精準(zhǔn)。
為了捕捉交通數(shù)據(jù)的非線性,研究人員又提出基于小波的理論模型[13]、混沌理論模型、非參數(shù)回歸模型[14]等非線性預(yù)測(cè)模型。非線性預(yù)測(cè)模型主要以非線性系統(tǒng)理論為基礎(chǔ),利用混沌理論、分型概念等方法建立預(yù)測(cè)模型,理論上而言,混沌理論對(duì)于交通這種非線性數(shù)據(jù)具有很好的適應(yīng)能力,但是,在實(shí)際中即使能充分地適應(yīng)交通數(shù)據(jù)的非線性,這類方法仍存在不足,它們具有非常龐大的滿足“臨近”匹配和“臨近”查找的復(fù)雜性。隨著深度學(xué)習(xí)的發(fā)展,越來(lái)越多的研究人員采用深度學(xué)習(xí)方法進(jìn)行交通預(yù)測(cè),如K 近鄰(KNN)[15]、支持向量機(jī)(SVM)[16]、神經(jīng)網(wǎng)絡(luò)等,它們?nèi)〉昧烁叩木_度,從而可以對(duì)更復(fù)雜的數(shù)據(jù)進(jìn)行建模。
文獻(xiàn)[17]提出基于深度信念網(wǎng)絡(luò)(DBN)的快速學(xué)習(xí)算法,該算法通過(guò)非監(jiān)督的貪婪預(yù)訓(xùn)練方法來(lái)獲取模型的權(quán)重參數(shù),通過(guò)多層的表征學(xué)習(xí)得到更能涵蓋數(shù)據(jù)特征的表征,并且逐層訓(xùn)練的方式降低了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度。但是該算法很難在全連接的方式下提取時(shí)間和空間特征,并且由于對(duì)空間屬性的嚴(yán)格限制,該算法的表示能力受限嚴(yán)重。
為表現(xiàn)交通流受空間特征影響的特性,研究人員將卷積神經(jīng)網(wǎng)絡(luò)引入到交通預(yù)測(cè)模型中,以捕獲交通流中的空間特征。一些學(xué)者使用卷積神經(jīng)網(wǎng)絡(luò)來(lái)捕獲網(wǎng)絡(luò)中的臨近信息,并且在時(shí)間軸上部署神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。文獻(xiàn)[18]提出卷積LSTM,其為帶有嵌入卷積層的全連接LSTM 的擴(kuò)展,雖然卷積LSTM 能夠提取時(shí)間和空間特征,但是其采用了常規(guī)的卷積,只能應(yīng)用于常規(guī)的網(wǎng)狀結(jié)構(gòu),而不能對(duì)有圖結(jié)構(gòu)特性的路網(wǎng)進(jìn)行處理,此外,基于循環(huán)網(wǎng)絡(luò)的模型計(jì)算量大,在計(jì)算過(guò)程中容易使得誤差增大從而難以訓(xùn)練。文獻(xiàn)[19]提出融合時(shí)間和空間特征的STGCN 模型,該模型利用圖卷積捕獲交通流的時(shí)間和空間特征,但是沒(méi)有考慮其他因素對(duì)交通流的影響。
上述研究通常側(cè)重于對(duì)流量和速度這2 個(gè)交通指標(biāo)進(jìn)行預(yù)測(cè),雖然是對(duì)車(chē)流量進(jìn)行預(yù)測(cè),但往往忽略了當(dāng)前車(chē)道占用率。不同的道路對(duì)車(chē)輛的承載數(shù)不同,即使同一時(shí)段有相同數(shù)量的車(chē)輛,但是不同的道路所出現(xiàn)的路況將不同,車(chē)道數(shù)少的道路可能會(huì)出現(xiàn)擁堵的情況,因此,對(duì)車(chē)道占用率進(jìn)行研究非常有必要。準(zhǔn)確預(yù)測(cè)車(chē)道占用率不僅能夠分析當(dāng)前道路未來(lái)一段時(shí)間是否擁堵,還能為城市道路建設(shè)提供參考。
因?yàn)檐?chē)道占用率數(shù)據(jù)獲取難度較高,所以利用車(chē)道占用率對(duì)車(chē)流量進(jìn)行預(yù)測(cè)的相關(guān)研究尚處于起步階段[20-21]。文獻(xiàn)[22]研究防撞系統(tǒng)中交通參與者的車(chē)道占用率,文獻(xiàn)[23]將膠囊網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出一種混合的車(chē)道占用率預(yù)測(cè)模型2LayersCapsNet,文獻(xiàn)[24]提出擴(kuò)散卷積遞歸神經(jīng)網(wǎng)絡(luò)(DCRNN)模型以對(duì)速度進(jìn)行預(yù)測(cè),文獻(xiàn)[25]提出圖多注意網(wǎng)絡(luò)模型(GMAN)以預(yù)測(cè)車(chē)流量。但是,以上方法僅考慮時(shí)空相關(guān)性,沒(méi)有考慮其他因素對(duì)車(chē)道占用率的影響。針對(duì)該問(wèn)題,本文提出一種多組件融合的車(chē)道占用率預(yù)測(cè)模型MCFDGCN,該模型不僅考慮時(shí)間和空間特征對(duì)車(chē)道占用率的影響,還引入車(chē)流量和車(chē)輛速度這2 個(gè)隱式因素,在融合多種特征后對(duì)車(chē)道占用率進(jìn)行預(yù)測(cè)。
車(chē)道占用率預(yù)測(cè)實(shí)質(zhì)上是融合多種影響因素的時(shí)序預(yù)測(cè)問(wèn)題,將車(chē)道占用率作為預(yù)測(cè)指標(biāo),利用歷史時(shí)間的車(chē)道占用率預(yù)測(cè)未來(lái)一段時(shí)間的車(chē)道占用率。如圖1 所示,車(chē)道占用率問(wèn)題就是用N個(gè)節(jié)點(diǎn)前h個(gè)時(shí)間段的交通信息(包括車(chē)輛數(shù)量、車(chē)輛速度、各個(gè)節(jié)點(diǎn)的時(shí)空信息、車(chē)道占用率等信息),以預(yù)測(cè)未來(lái)p+1 個(gè)時(shí)間段的車(chē)道占用率狀況。具體到特定的點(diǎn),就是使用車(chē)道占用率的時(shí)間序列Oh=[ot-h,ot-h+1,ot-h+2,…,ot-1]預(yù)測(cè)未來(lái)時(shí)間序列O′h=[ot,ot+1,ot+2,…,ot+p]。
圖1 時(shí)序預(yù)測(cè)示意圖Fig.1 Schematic diagram of time series prediction
車(chē)道占用率是指車(chē)道的使用占比,具體表現(xiàn)為某個(gè)特定區(qū)域的特定時(shí)間內(nèi),車(chē)輛真實(shí)使用的道路量與該區(qū)域中道路總量的比值。車(chē)道占用率是衡量道路資源是否被充分利用的重要衡量指標(biāo),其主要有2 種表現(xiàn)形式:空間占用率和時(shí)間占用率??臻g占用率計(jì)算是通過(guò)空間測(cè)量法而得出,即車(chē)道當(dāng)前單位面積中所有車(chē)輛所占面積總和的比重。由于車(chē)輛行駛需要有安全距離且面積計(jì)算具有復(fù)雜性,為了方便數(shù)據(jù)的采集和計(jì)算處理,通常采用某個(gè)時(shí)間段內(nèi)通過(guò)一段車(chē)道上車(chē)輛長(zhǎng)度的總和與該段車(chē)道的總長(zhǎng)度之比作為空間占用率。車(chē)輛車(chē)道空間占用率OS計(jì)算公式如下:
其中:RL是車(chē)道總長(zhǎng)度;RLi是當(dāng)前時(shí)間戳在這段車(chē)道上第i輛車(chē)的車(chē)輛長(zhǎng)度。
車(chē)輛車(chē)道時(shí)間占用率OT是通過(guò)時(shí)間測(cè)量法計(jì)算而得出,表示為車(chē)道上的監(jiān)測(cè)站在特定時(shí)間間隔內(nèi)所觀測(cè)的車(chē)輛通行占用時(shí)間的比重:
其中:TL是設(shè)定的時(shí)間段;TLi是第i輛車(chē)通過(guò)監(jiān)測(cè)站時(shí)所花費(fèi)的時(shí)間,車(chē)輛所花費(fèi)的時(shí)間總和與總時(shí)間的比例即為車(chē)道的時(shí)間占用率。
車(chē)道占用率是根據(jù)不同標(biāo)準(zhǔn)定義的,但是時(shí)間和空間2 種定義標(biāo)準(zhǔn)下的占用率都能反映當(dāng)前時(shí)間車(chē)道的占用率情況。下文所提及的車(chē)道占用率均指車(chē)道的時(shí)間占用率。
交通狀況受到時(shí)間方面的影響主要體現(xiàn)在歷史時(shí)間上,歷史時(shí)間的交通狀況會(huì)對(duì)后續(xù)時(shí)間的交通狀況產(chǎn)生重要影響。由于交通流的連貫性,交通狀況也會(huì)受到周邊情況的影響,道路的交通狀況不僅與當(dāng)前路口相關(guān),還和與之相連的道路的交通狀況密切相關(guān)。如圖2 所示,將同一時(shí)間段節(jié)點(diǎn)的交通信息表現(xiàn)在一張平面圖中,節(jié)點(diǎn)之間的線段表示其連通性,從圖中的道路擁堵情況以及變化情況可以看出,交通狀況不僅受時(shí)間還受空間因素的影響,因此,交通信息的時(shí)空相關(guān)性對(duì)交通狀況的影響是明確的。
圖2 交通時(shí)空特性示意圖Fig.2 Schematic diagram of traffic spatio-temporal characteristic
從圖3 可以看出,道路上的每個(gè)監(jiān)測(cè)站不是獨(dú)立存在的,監(jiān)測(cè)站采集到的交通數(shù)據(jù)節(jié)點(diǎn)也不是獨(dú)立的,節(jié)點(diǎn)之間兩兩相互連接構(gòu)成網(wǎng)狀結(jié)構(gòu),即路網(wǎng)。將節(jié)點(diǎn)信息以圖的形式定義在路網(wǎng)中,能方便模型利用圖卷積提取特征。節(jié)點(diǎn)的合集J可以被呈現(xiàn)在無(wú)向圖中,無(wú)向圖定義為G=(J,E,W),節(jié)點(diǎn)j1就可以定義為圖G中權(quán)重為W1i的一個(gè)信號(hào),J表示頂點(diǎn)的有限集,頂點(diǎn)的個(gè)數(shù)就是本文選取的監(jiān)測(cè)站個(gè)數(shù),E表示頂點(diǎn)之間相互連通的邊εi的集合,W表示權(quán)重的鄰接矩陣。
圖3 路網(wǎng)結(jié)構(gòu)Fig.3 Road network structure
路網(wǎng)上的節(jié)點(diǎn)相互連接,本文將路網(wǎng)上的包含交通信息的節(jié)點(diǎn)在無(wú)向圖上進(jìn)行建模,由于傳統(tǒng)網(wǎng)格上的標(biāo)準(zhǔn)卷積不能應(yīng)用于廣義圖,因此本文采用圖卷積的方法對(duì)廣義圖上的交通信息特征進(jìn)行提取。文獻(xiàn)[26]提出的圖卷積普遍應(yīng)用于計(jì)算機(jī)視覺(jué)領(lǐng)域,在對(duì)圖數(shù)據(jù)進(jìn)行處理時(shí)表現(xiàn)卓越。單個(gè)節(jié)點(diǎn)的數(shù)據(jù)不能代表該節(jié)點(diǎn)全部的交通信息,如果只考慮單個(gè)節(jié)點(diǎn)而不考慮節(jié)點(diǎn)之間的連接關(guān)系,容易造成特征偏差,因此,考慮鄰居節(jié)點(diǎn)的信息比考慮單個(gè)節(jié)點(diǎn)信息所得到的單一特征更完整,圖卷積是一個(gè)較好的解決方案。本文將節(jié)點(diǎn)定義到圖中,充分地將節(jié)點(diǎn)之間相互連接的特征保留,進(jìn)而提取鄰近節(jié)點(diǎn)的相關(guān)信息。
車(chē)道占用率與通行車(chē)輛速度、當(dāng)前道路的車(chē)流量有著密不可分的關(guān)系,三者互相影響。
車(chē)道占用率和車(chē)輛速度的關(guān)系如圖4 所示。車(chē)輛速度快可以提高道路占用率,但過(guò)高的車(chē)道占用率會(huì)使得車(chē)道接近飽和,從而影響車(chē)輛的速度,使車(chē)輛通行變慢,車(chē)速降低。由圖4 可以看出,18%的車(chē)道占用率為一個(gè)分界點(diǎn),在車(chē)道占用率小于18%時(shí),車(chē)輛的速度越高,通過(guò)規(guī)定路段的時(shí)間越短,則車(chē)道占用率越低;當(dāng)車(chē)道占用率超過(guò)18%時(shí),兩者開(kāi)始相互限制,即較高的車(chē)道占用率造成交通擁堵從而使通行的車(chē)輛速度降低,行駛過(guò)慢的車(chē)輛在車(chē)道占用時(shí)間較長(zhǎng),從而提高了車(chē)道占用率。在車(chē)輛通行時(shí),多種突發(fā)因素會(huì)干擾車(chē)流,導(dǎo)致車(chē)輛速度降低以及車(chē)道占用率發(fā)生變化。
圖4 車(chē)道占用率與車(chē)輛速度的關(guān)系Fig.4 Relationship between lane occupancy and vehicle speed
車(chē)道占用率在一定程度上可以和車(chē)流量進(jìn)行相互替代,單位時(shí)間內(nèi)通過(guò)的車(chē)輛越多,車(chē)流量越大,車(chē)道占用率就越高,然而這種變化關(guān)系并不是線性的,較高的車(chē)道占用率使道路變得擁擠,從而使得單位時(shí)間內(nèi)通行的車(chē)輛數(shù)下降。從圖5 可以看出,車(chē)道占用率與車(chē)流量的整體趨勢(shì)相同,即車(chē)流量增大,車(chē)道占用率也會(huì)隨之提高,但是一旦車(chē)道占用率超過(guò)25%,車(chē)道占用率提高車(chē)流量卻呈現(xiàn)下降趨勢(shì),說(shuō)明在車(chē)道占用率超過(guò)25%閾值時(shí),當(dāng)前道路開(kāi)始擁堵,車(chē)輛在當(dāng)前車(chē)道停留的時(shí)間較長(zhǎng),車(chē)道占用率提高,從而使得單位時(shí)間內(nèi)通過(guò)當(dāng)前車(chē)道的車(chē)輛數(shù)量降低。
圖5 車(chē)道占用率與車(chē)流量的關(guān)系Fig.5 Relationship between lane occupancy and traffic flow
如圖6 所示,本文車(chē)道占用率預(yù)測(cè)模型主要分為3 個(gè)部分,即2 個(gè)多組件融合(Multi-Component Fusion,MCF)模塊和末尾的輸出部分。MCF 模塊由時(shí)空塊、車(chē)流量、車(chē)輛速度以及記錄權(quán)重的鄰接矩陣組成,這一部分將在下文中詳細(xì)描述。在該模型中,輸入序列Oh=[ot-h,ot-h+1,ot-h+2,???,ot-1],經(jīng)過(guò)特征提取得到輸出序列O′h=[ot,ot+1,ot+2,???,ot+p],即未來(lái)t~t+p時(shí)間段內(nèi)當(dāng)前道路的車(chē)道占用率,具體計(jì)算公式如下:
圖6 車(chē)道占用率預(yù)測(cè)模型架構(gòu)Fig.6 Lane occupancy prediction model architecture
圖7 所示為MCF 模塊架構(gòu),其主要由2 個(gè)時(shí)間卷積塊(Temporal_conv)和1 個(gè)空間卷積塊(Spatial_conv)相間組合構(gòu)成。將歷史時(shí)間的車(chē)道占用率序列作為輸入,經(jīng)過(guò)時(shí)間卷積塊提取數(shù)據(jù)的底層時(shí)序特征,然后經(jīng)過(guò)提取空間特征的卷積,在該過(guò)程中加入經(jīng)過(guò)處理得到的權(quán)重鄰接矩陣,隨后加入車(chē)流量和車(chē)輛速度的影響,對(duì)以上提取到的特征進(jìn)行融合,接著再經(jīng)過(guò)提取時(shí)序特征的時(shí)間卷積塊進(jìn)行卷積,得到最終輸出。在空間卷積塊中,為將結(jié)構(gòu)化數(shù)據(jù)進(jìn)行泛化,將譜框架引入模型中,在譜域中應(yīng)用圖卷積,利用切比雪夫趨近將時(shí)間復(fù)雜度降至線性;時(shí)間卷積塊中利用空洞卷積能更廣泛地捕捉節(jié)點(diǎn)附近鄰近節(jié)點(diǎn)的特征。MCF 模塊能夠同時(shí)融合時(shí)間和空間特征,從而處理映射到路網(wǎng)圖結(jié)構(gòu)上的時(shí)間序列。
圖7 MCF 模塊結(jié)構(gòu)Fig.7 MCF module structure
MCF 模塊的求解步驟具體如下:
輸入包含歷史時(shí)間車(chē)道占用率的交通信息Oh=[ot-h,ot-h+1,ot-h+2,???,ot-1]
輸出預(yù)測(cè)的未來(lái)時(shí)間段內(nèi)車(chē)道占用率情況O′h=[ot,ot+1,ot+2,???,ot+p]
步驟1在時(shí)間卷積塊中,通過(guò)空洞卷積對(duì)輸入數(shù)據(jù)進(jìn)行時(shí)間特征提取,后面緊接門(mén)控線性單元進(jìn)行激活。
步驟2時(shí)間卷積塊主要由圖卷積構(gòu)成,計(jì)算路網(wǎng)中每一個(gè)監(jiān)測(cè)點(diǎn)之間的歐幾里得距離,得到路網(wǎng)的鄰接矩陣W,利用時(shí)間卷積塊抽取空間特征。
步驟3加入車(chē)流量和車(chē)輛速度的序列Fh=[ft-h,ft-h+1,ft-h+2,???,ft-1]和Vh=[vt-h,vt-h+1,vt-h+2,???,vt-1],對(duì)已經(jīng)提取的特征進(jìn)行初步融合。
步驟4對(duì)序列矩陣進(jìn)行第2 次卷積操作,提取時(shí)間特征,輸出。
從圖7 可以看出,在模型預(yù)測(cè)的過(guò)程中加入了車(chē)輛速 度Vh=[vt-h,vt-h+1,vt-h+2,???,vt-1]和車(chē)流 量Fh=[ft-h,ft-h+1,ft-h+2,???,ft-1]的影響。其中,車(chē)輛速度和車(chē)流量都是作為一維卷積添加進(jìn)所預(yù)測(cè)的矩陣,可表示為:
其中:T0b是時(shí)間層;Kb為譜圖卷積核;Vb是車(chē)輛速度序列;Fb是車(chē)流量序列;ReLU 為激活函數(shù)。經(jīng)過(guò)上述模塊的處理,不僅能同時(shí)融合時(shí)間和空間特征,還能將車(chē)流量和車(chē)輛速度2 個(gè)隱式因素的影響加入模型中,從而處理圖結(jié)構(gòu)上的時(shí)間序列。
在通常情況下,選擇用RNN 模型對(duì)時(shí)間序列特征進(jìn)行提取,但是RNN 用于交通預(yù)測(cè)時(shí)迭代比較耗時(shí),模型復(fù)雜度較高,對(duì)于時(shí)間序列的動(dòng)態(tài)變化捕捉較慢,從而導(dǎo)致模型時(shí)間復(fù)雜度上升。交通數(shù)據(jù)非常依賴時(shí)序變化,具有高度的非線性,因此,需要選擇能夠快速捕捉時(shí)間序列動(dòng)態(tài)變化的模型,提高特征的提取能力。本文引入空洞卷積,其比普通卷積具有更大的感受野,可以提取節(jié)點(diǎn)周?chē)喙?jié)點(diǎn)的特征,從而捕獲交通信息在時(shí)間序列上的動(dòng)態(tài)變化特征。
本文預(yù)測(cè)模型在空洞卷積之后添加門(mén)控線性單元,可以將輸入時(shí)序卷積的序列看作有Ci個(gè)通道數(shù)且長(zhǎng)度為Q的序列卷積核被映射進(jìn)S得到的輸出為其中,M和N是通道數(shù)的一半,因此,卷積操作可以定義為:
其中:?表示哈達(dá)瑪積;σ是sigmoid 門(mén),控制當(dāng)前卷積的狀態(tài)。如果時(shí)序卷積堆疊,也可以在每個(gè)節(jié)點(diǎn)上使用這樣的卷積核,進(jìn)而實(shí)現(xiàn)時(shí)序卷積的泛化。
關(guān)于交通信息空間屬性的研究,大多將空間信息劃分成塊或網(wǎng)狀結(jié)構(gòu),雖然這樣可以捕捉交通信息的空間屬性,但是過(guò)分側(cè)重交通網(wǎng)絡(luò)中的連通性,從而使得提取到的空間特征存在局限性。在空間特征提取部分,本文模型將交通信息映射到路網(wǎng)中,將交通信息轉(zhuǎn)化為圖信息,然后利用圖卷積對(duì)路網(wǎng)進(jìn)行操作,從而在輸入的空間信息中提取有意義的空間特征,用于模型融合和預(yù)測(cè)。式(4)可被拓展為:
本文實(shí)驗(yàn)數(shù)據(jù)集是加利福尼亞運(yùn)輸部公開(kāi)的PeMS(Caltrans Performance Measurement System)第7 區(qū)(下面簡(jiǎn)稱PeMS7(O))從2019 年1 月1 日—2 月19 日共50 天238 個(gè)監(jiān)測(cè)站所觀測(cè)的數(shù)據(jù),以及PeMS 中四車(chē)道道路(下面簡(jiǎn)稱PeMS7(4))從2019 年6 月1 日—7 月20 日共50 天內(nèi)監(jiān)測(cè)站觀測(cè)到的數(shù)據(jù)。每一條數(shù)據(jù)信息包括本文模型需要的時(shí)間屬性、空間信息、單位時(shí)間內(nèi)的車(chē)流量、車(chē)輛平均速度、車(chē)道占用率。監(jiān)測(cè)站采樣的時(shí)間間隔為30 s,收集的數(shù)據(jù)是5 min 內(nèi)采集的數(shù)據(jù)聚合而得的交通信息。選取40 天數(shù)據(jù)作為訓(xùn)練集,5 天數(shù)據(jù)作為評(píng)估數(shù)據(jù),5 天數(shù)據(jù)作為測(cè)試集。
在數(shù)據(jù)輸入模型之前先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。數(shù)據(jù)中時(shí)間間隔是5 min,因此,每天24 h 就會(huì)產(chǎn)生288 個(gè)數(shù)據(jù)點(diǎn)。將這些數(shù)據(jù)進(jìn)行清洗,使用線性插值法補(bǔ)全數(shù)據(jù),再通過(guò)數(shù)據(jù)中記載的信息將這些數(shù)據(jù)點(diǎn)映射到有向圖中。其中,模型中用到的記載權(quán)重的鄰接矩陣計(jì)算如下:
其中,Wab是路網(wǎng)中邊的權(quán)重;α和β是控制鄰接矩陣分布和稀疏性的值,為方便計(jì)算,將α和β這2 個(gè)值分別設(shè)置為10 和0.5。
本文在真實(shí)數(shù)據(jù)集PeMS7(O)和PeMS7(4)上進(jìn)行實(shí)驗(yàn),根據(jù)前面12 個(gè)時(shí)間段(每個(gè)時(shí)間段為5 min)的數(shù)據(jù)預(yù)測(cè)未來(lái)9 個(gè)時(shí)間段(45 min)的車(chē)道占用率情況。設(shè)置本文MCFDGCN 模型的時(shí)間卷積核和空間卷積核大小均為3,學(xué)習(xí)率為le-3,采用RMSProp 優(yōu)化器。為了顯示MCFDGCN 模型的正確性和優(yōu)越性,將其與歷史平均值(HA)模型、自回歸移動(dòng)平均(ARIMA)模型、長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)、MCF(ST)(Multi Component Fusion(ST))、擴(kuò)散卷積遞歸神經(jīng)網(wǎng)絡(luò)(DCRNN)、圖多注意網(wǎng)絡(luò)(GMAN)模型進(jìn)行對(duì)比。對(duì)比模型具體如下:
1)HA 為基于歷史交通數(shù)據(jù)和當(dāng)前時(shí)間戳數(shù)據(jù)進(jìn)行預(yù)測(cè)的模型。
2)ARIMA 將非平穩(wěn)時(shí)間序列轉(zhuǎn)化為平穩(wěn)時(shí)間序列以進(jìn)行預(yù)測(cè)。
3)LSTM 是一種解決長(zhǎng)序列訓(xùn)練過(guò)程中梯度消失和梯度爆炸問(wèn)題的特殊RNN。
4)MCF(ST)僅融合時(shí)間和空間特征,沒(méi)有加入車(chē)輛速度和車(chē)流量2 個(gè)組件的影響。
5)DCRNN 捕獲時(shí)間和空間相關(guān)性以進(jìn)行預(yù)測(cè)。
6)GMAN 利用注意力機(jī)制進(jìn)行預(yù)測(cè)。
本文采用平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Square Error,RMSE)、平均絕對(duì)百分誤差(Mean Absolute Percentage Errors,MAPE)作為評(píng)價(jià)指標(biāo)。MAE 是絕對(duì)誤差的平均值,能反映預(yù)測(cè)值誤差的實(shí)際情況;RMSE 是預(yù)測(cè)值與真實(shí)值偏差的平方和與預(yù)測(cè)次數(shù)比值的平方根,其衡量預(yù)測(cè)值與真實(shí)值之間的偏差;MAPE 以百分比的形式反映模型預(yù)測(cè)的準(zhǔn)確程度,其數(shù)值越小則預(yù)測(cè)精度越高。3 種指標(biāo)的計(jì)算公式分別如下:
其中:xi為真實(shí)值,為預(yù)測(cè)值。表1 和表2 所示分別為數(shù)據(jù)集PeMS7(O)和PeMS7(4)上7 種預(yù)測(cè)模型在15 min、30 min、45 min 時(shí)的指標(biāo)結(jié)果。從中可以得出,在這3 個(gè)時(shí)間節(jié)點(diǎn),傳統(tǒng)的線性模型HA 預(yù)測(cè)結(jié)果最差,誤差最高,LSTM 模型優(yōu)于ARIMA 模型,MCF(ST)與本文MCFDGCN 模型相對(duì)對(duì)比模型準(zhǔn)確率具有較大提升,DCRNN 和GMAN 進(jìn)一步縮小了預(yù)測(cè)誤差,本文MCFDGCN 模型誤差值最小。
表1 PeMS7(O)數(shù)據(jù)集上各模型性能對(duì)比結(jié)果Table 1 Performance comparison results of various models on PeMS7(O)dataset
表2 PeMS7(4)數(shù)據(jù)集上各模型性能對(duì)比結(jié)果Table 2 Performance comparison results of various models on PeMS7(4)dataset
圖8~圖10 所示為數(shù)據(jù)集PeMS7(O)上預(yù)測(cè)步長(zhǎng)為5 min 的模型的預(yù)測(cè)結(jié)果(彩色效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML 版,下同),該結(jié)果能夠更加直觀地反映模型預(yù)測(cè)誤差的變化規(guī)律。
從圖8~圖10 可以看出:MCFDGCN 模型誤差最低,不僅初始預(yù)測(cè)誤差最低,并且隨著時(shí)間的增加,其與傳統(tǒng)線性模型誤差的差距增大;車(chē)道占用率的預(yù)測(cè)確實(shí)受到車(chē)流量和車(chē)輛速度的影響,加入這2 個(gè)隱式影響因素,能有效減小預(yù)測(cè)誤差,提高模型的預(yù)測(cè)精度。
圖8 7 種模型的MAE 值對(duì)比結(jié)果Fig.8 Comparison results of MAE values of seven models
圖9 7 種模型的MAPE 值對(duì)比結(jié)果Fig.9 Comparison results of MAPE values of seven models
圖10 7 種模型的RMSE 值對(duì)比結(jié)果Fig.10 Comparison results of RMSE values of seven models
將本文模型對(duì)車(chē)道占用率的預(yù)測(cè)值和真實(shí)觀測(cè)數(shù)據(jù)進(jìn)行對(duì)比,結(jié)果如圖11 所示。從圖11 可以看出,本文模型預(yù)測(cè)值的變化趨勢(shì)與真實(shí)觀測(cè)值變化趨勢(shì)基本一致。由于道路上會(huì)發(fā)生各種突發(fā)狀況,車(chē)道占用率會(huì)瞬時(shí)升高,但隨著時(shí)序變化或其他因素的影響,車(chē)道占用率又會(huì)瞬時(shí)回落,因此,模型預(yù)測(cè)結(jié)果存在誤差屬于正?,F(xiàn)象。MCFDGCN 模型能在預(yù)測(cè)車(chē)道占用率變化趨勢(shì)的同時(shí)實(shí)現(xiàn)比現(xiàn)有多數(shù)方法更精準(zhǔn)的預(yù)測(cè)。
圖11 PeMS7(O)數(shù)據(jù)集上預(yù)測(cè)值與真實(shí)值對(duì)比結(jié)果Fig.11 Comparison results of predicted values and real values on PeMS7(O)dataset
本文提出基于多組件融合與空洞圖卷積的車(chē)道占用率預(yù)測(cè)模型MCFDGCN,該模型不僅考慮時(shí)空特征對(duì)車(chē)道占用率的影響,還加入車(chē)流量和車(chē)輛速度這2 個(gè)隱式因素,利用歷史時(shí)間的車(chē)道占用率對(duì)未來(lái)短時(shí)間的車(chē)道占用率進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,MCFDGCN 模型預(yù)測(cè)誤差較小,與GMAN、ARIMA 等模型相比,其誤差增長(zhǎng)速度緩慢,預(yù)測(cè)精確度明顯提升。MCFDGCN 模型也適用于其他交通道路的車(chē)道占用率預(yù)測(cè),例如將車(chē)道占用率作為隱式因素引入到車(chē)流量或車(chē)輛速度的預(yù)測(cè)模型中。下一步將融合其他卷積、組件或注意力機(jī)制來(lái)簡(jiǎn)化參數(shù),以在更長(zhǎng)時(shí)間跨度內(nèi)提高預(yù)測(cè)精度,擴(kuò)大MCFDGCN 模型的適用范圍。