王旭鵬, 王夢靈
( 華東理工大學(xué)信息科學(xué)與工程學(xué)院,上海 200237)
交通流預(yù)測在交通控制以及交通出行誘導(dǎo)等方面都起到了重要的作用。準(zhǔn)確的交通流預(yù)測模型可以輔助交通管理者制定控制和誘導(dǎo)措施[1]。短時交通流預(yù)測模型主要有ARIMA、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等?;贏RIMA模型[2-4]的建模方法結(jié)構(gòu)簡單、應(yīng)用廣泛,但對于非線性強(qiáng)度較高的場景,其應(yīng)用具有一定的局限性。針對非線性較強(qiáng)的交通流應(yīng)用場景,研究者采用支持向量回歸(SVR)[5-7]、樹模型[8]、深度神經(jīng)網(wǎng)絡(luò)[9-11]等機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)交通流預(yù)測。由于交通系統(tǒng)具有高度的復(fù)雜性、非線性,而單一預(yù)測模型各有特點(diǎn),不同的模型都存在一定的適用場景,因此采用單一模型的建模方法很難完備地表征交通流數(shù)據(jù)的所有特征。為了提升對復(fù)雜交通流的建模性能,有學(xué)者提出利用組合模型[12-14]方法進(jìn)行交通流預(yù)測,將多種預(yù)測模型組合,基于組合加權(quán)的方式提高整體的模型預(yù)測精度。組合模型的組合方式、權(quán)重參數(shù)確定及訓(xùn)練數(shù)據(jù)集的平衡問題是組合模型研究上的難點(diǎn),有學(xué)者對此進(jìn)行了探討[15-16]。但目前的組合模型僅采用對全部歷史數(shù)據(jù)集進(jìn)行訓(xùn)練的單一模型進(jìn)行加權(quán),并未很好地考慮交通流數(shù)據(jù)本身的物理特性。實(shí)際過程中交通流狀態(tài)的變化呈現(xiàn)出一定的周期性和相似性,如節(jié)假日、工作日、早晚高峰等,不同時段的交通流變化具有相似性特征。針對狀態(tài)變化的交通流數(shù)據(jù),把相似狀態(tài)的交通流聚類在一起進(jìn)行建模分析,可以放大數(shù)據(jù)的局部特征,更準(zhǔn)確地把握交通流的變化趨勢。
基于以上分析,本文提出了基于相似性聚類的交通流概率組合預(yù)測模型,對交通流的周期性和相似性特征加以利用,提升交通流預(yù)測模型的準(zhǔn)確性。首先利用自適應(yīng)k-means++聚類方法[17]對歷史交通流數(shù)據(jù)進(jìn)行聚類,將具有一定相似性的數(shù)據(jù)聚集起來。自適應(yīng)k-means++聚類方法相比k-means方法,解決了聚類簇數(shù)k以及初始聚類中心選擇的問題。經(jīng)過聚類得到多個具有相似性的數(shù)據(jù)聚類集后,分別在不同的聚類集上訓(xùn)練組合模型,組合模型可以對復(fù)雜、多變的交通流進(jìn)行更全面的建模。針對新輸入的交通流數(shù)據(jù),分析輸入數(shù)據(jù)與各聚類集的相似度計算概率權(quán)重。最后,基于概率融合計算,加權(quán)融合輸入數(shù)據(jù)對應(yīng)各組合模型預(yù)測值,得到最終的結(jié)果。
交通流預(yù)測建模的目的是為了尋找到時間序列數(shù)據(jù)間的關(guān)聯(lián)關(guān)系,利用歷史數(shù)據(jù)對未來時刻的交通狀態(tài)進(jìn)行預(yù)測[18],可以描述為
其中:Xt?1,···,Xt?n為t時刻前交通量的觀測值,即歷史數(shù)據(jù);y?t為對t時刻交通量的估計值。模型f的選擇和設(shè)計是預(yù)測建模的關(guān)鍵,決定了交通量的預(yù)測值y?t與實(shí)際觀測值yt之間的誤差大小。一般來說,組合模型在不同交通流場景都有較好的穩(wěn)定性與準(zhǔn)確性,可以有效地對具有復(fù)雜性和隨機(jī)性的交通流進(jìn)行預(yù)測。組合模型的一般表達(dá)式為
其中:g1,···,gm為根據(jù)歷史數(shù)據(jù)訓(xùn)練的多個子預(yù)測模型; α1,···,αm為各子模型的權(quán)重。
目前的組合模型中,訓(xùn)練子模型大都采用全部歷史數(shù)據(jù)集為訓(xùn)練集,并未很好地考慮交通流本身在時間維度上的特性并加以區(qū)分和處理。本文針對交通流存在的早晚高峰、平峰、工作日流、休息日流等周期性現(xiàn)象,充分挖掘交通流數(shù)據(jù)潛在的時段相似性特征,利用相似訓(xùn)練樣本集提升預(yù)測模型的性能,提出了基于相似性聚類的交通流概率組合預(yù)測模型,流程圖如圖1所示。
圖1 基于相似性聚類的交通流概率組合預(yù)測模型Fig. 1 Combination forecasting model of traffic flow probability based on similarity clustering
首先利用自適應(yīng)k-means++聚類方法對交通流數(shù)據(jù)進(jìn)行聚類,基于不同聚類集構(gòu)建多個子模型,并采用基于誤差的自適應(yīng)加權(quán)方法進(jìn)行組合,得到不同聚類集對應(yīng)的組合預(yù)測模型。在線預(yù)測時,根據(jù)輸入數(shù)據(jù)與不同聚類集之間的相似性計算概率權(quán)重,利用概率權(quán)重融合多個組合模型得到最終的預(yù)測輸出。
本文采用一種自適應(yīng)k-means++聚類方法對數(shù)據(jù)進(jìn)行聚類。k-means++聚類方法的過程:首先隨機(jī)選擇第一個初始中心,然后通過距離度量來尋找下一個聚類中心,公式如下:
式中:m為訓(xùn)練樣本數(shù);k為類別個數(shù);Bk為類別之間協(xié)方差矩陣;Wk為類別內(nèi)部數(shù)據(jù)協(xié)方差矩陣;tr 為矩陣跡。當(dāng)類別之間的協(xié)方差較大,類別內(nèi)部的協(xié)方差較小,即CHI較高時,說明分類效果較好。為防止聚類的簇數(shù)過多影響聚類效果,自適應(yīng)聚類過程中還需設(shè)置最大類別個數(shù)閾值kmax。自適應(yīng)k-means++聚類方法流程圖如圖2所示。
圖2 自適應(yīng)k-means++聚類流程Fig. 2 Adaptive k-means++ clustering process
鑒于交通系統(tǒng)的復(fù)雜性與隨機(jī)性,在對數(shù)據(jù)集進(jìn)行聚類后,利用多模型組合的方法對聚類后各類別形成的不同聚類集進(jìn)行建模。首先在聚類后形成的不同子類數(shù)據(jù)集Li上分別訓(xùn)練n個模型,然后利用基于誤差的權(quán)重調(diào)節(jié)方法計算n個模型的加權(quán)和,作為該子類組合模型的預(yù)測值。
利用聚類算法得到不同類別的數(shù)據(jù)集后,訓(xùn)練不同子類集對應(yīng)的組合模型。將交通流數(shù)據(jù)轉(zhuǎn)化為有監(jiān)督數(shù)據(jù)形式S=[Xt,Xt?1,Xt?2,···,Xt?w] ,將數(shù)據(jù)集分為離線訓(xùn)練集L=[Xt,Xt?1,Xt?2,···,Xt?w]L和在線測試集H=[Xt,Xt?1,Xt?2,···,Xt?w]H。利用自適應(yīng)k-means++將離線訓(xùn)練集聚成k類,每類的訓(xùn)練集Li=[Xt,Xt?1,Xt?2,···,Xt?w]Li,i=1,2,···,k。對于訓(xùn)練集Li,根據(jù)該訓(xùn)練集輸入向量XLi=[Xt?1,Xt?2,···,Xt?w]Li與輸出向量YLi=[Xt,]Li,訓(xùn)練n個不同子預(yù)測模型,子類Li組合模型的預(yù)測結(jié)果由n個子預(yù)測模型加權(quán)得出,如式(6)所示:
本文提出了一種基于誤差的在線自適應(yīng)權(quán)重調(diào)節(jié)方法,確定子類Li組合模型中各子模型權(quán)重,···,流程圖見圖3。獲得離線模型后,需要預(yù)測下一時刻輸出時,首先計算各子模型對t時刻的預(yù)測值,···,,然后確定子模型對t時刻的預(yù)測誤差,···,。利用當(dāng)前預(yù)測時刻具有較小誤差的預(yù)測模型的輸出作為最終輸出,利用評價函數(shù)獲得誤差評價,···,s,然后對評價值進(jìn)行Softmax歸一化,最后確定t+1 時刻類別i上的組合模型中各子模型權(quán)重,···,,具體計算公式如下:
圖3 基于在線誤差的自適應(yīng)權(quán)重調(diào)節(jié)流程圖Fig. 3 Flow chart of adaptive weight adjustment based on online error
(4) 采用Softmax函數(shù)對評價值進(jìn)行歸一化;
得到各子聚類集組合模型后,利用輸入數(shù)據(jù)與各個聚類中心的歐式距離計算輸入數(shù)據(jù)與各類之間的相似度,并利用相似度估計輸入數(shù)據(jù)屬于各類數(shù)據(jù)集的概率,將此概率值作為權(quán)重對各聚類集的組合模型進(jìn)行加權(quán)融合,最后將該結(jié)果作為預(yù)測值輸出?;诟怕实募訖?quán)和計算原理如下:
其中:P(Li|x) 為后驗概率;P(x|Li) 為條件概率;P(Li)為先驗概率。設(shè)輸入樣本與類Li中心的歐式距離為,di聚類集L上i的樣本個數(shù)為ni。利用di作為輸入樣本與x類Li相似度的判斷依據(jù),進(jìn)而可以計算屬x于類Li的概率,將此概率值作為條件概率。于是,式(11)中和P(x|Li)P(Li)計算公式為
基于相似性聚類的交通流概率組合預(yù)測模型方法的步驟如下:
輸入:離線訓(xùn)練數(shù)據(jù)集L=[Xt,Xt?1,Xt?2,···,Xt?w]L,在線測試集H=[Xt,Xt?1,Xt?2,···,Xt?w]H
輸出:交通流的預(yù)測值
(1) 利用自適應(yīng)k-means++聚類方法對離線訓(xùn)練集L進(jìn)行聚類;
(2) 在不同聚類集Li上分別訓(xùn)練相應(yīng)的,,,···,;
(3) 計算輸入樣本與各聚類中的歐式距離;
(4) 根據(jù)距離確定輸入樣本與每一類的相似度;
(5) 分別計算訓(xùn)練集Li上得到的組合模型對輸入樣本的預(yù)測值,計算后驗概率P(Li|x) ;
(6) 計算加權(quán)和P(L1|x)1,t+1+···+P(Lk|x)k,t+1;
(7) 輸出交通流預(yù)測值。
在美國加州交通性能測量系統(tǒng)(PeMS)提供的數(shù)據(jù)集上對本文模型進(jìn)行有效性評估。實(shí)驗數(shù)據(jù)為加州高速路I-405N上某個檢測點(diǎn)從2017年6月15日到2017年9月18日收集的采樣間隔為每5 min一次的車流量數(shù)據(jù)。圖4示出了該位置上檢測器采集的交通流數(shù)據(jù)。從圖中可以清晰地看到交通流存在著周期性和日相似性特征,即不同日的相同時段有著類似的變化規(guī)律,同時同一天的不同時段間的狀態(tài)有較大差異。為了獲得交通數(shù)據(jù)中時序關(guān)系的變化,采用時間步長為8,即利用前40 min的數(shù)據(jù)來預(yù)測下一時刻的流量。為了進(jìn)行模型訓(xùn)練,將原始時間數(shù)據(jù)轉(zhuǎn)化監(jiān)督形式的樣本,獲得共28 215個樣本,前65%(18 339個樣本)為離線訓(xùn)練樣本,其余為在線測試樣本。
圖4 交通流量數(shù)據(jù)圖Fig. 4 Traffic flow data graph
首先對訓(xùn)練集數(shù)據(jù)采用自適應(yīng)kmeans++聚類方法進(jìn)行聚類。由于過多簇會影響聚類效果,本文設(shè)置聚類上限為9,因此k的取值范圍為 [2,9] 。k取不同值時的CHI值如圖5所示。由圖5可見當(dāng)k=3時聚類效果最佳,因此將訓(xùn)練數(shù)據(jù)集分為3類,在各個子訓(xùn)練集上分別訓(xùn)練模型。對于組合模型的子模型選擇,從模型預(yù)測精度以及計算復(fù)雜度兩方面考慮,本文選擇了PLS(偏最小二乘)和LSTM(長短時記憶神經(jīng)網(wǎng)絡(luò))為組合模型的子模型。PLS模型結(jié)構(gòu)簡單,訓(xùn)練速度較快,而且在交通流量變化不復(fù)雜時,預(yù)測效果也較理想。圖6示出了PLS預(yù)測的效果,從圖中可以看出,對于流量變化不復(fù)雜的時段,PLS也可以較好地預(yù)測該時段的流量,即利用PLS可以對交通流數(shù)據(jù)中線性信息進(jìn)行較好的挖掘。LSTM的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,在訓(xùn)練計算上較耗時,但是對于變化復(fù)雜的交通流預(yù)測精度較高。LSTM訓(xùn)練時長與模型的訓(xùn)練代數(shù)相關(guān),因此若選擇合理的LSTM網(wǎng)絡(luò)訓(xùn)練代數(shù),可以在獲得較理想預(yù)測精度時又能保證模型訓(xùn)練的計算時長較短。組合模型子模型涵蓋了非線性模型和線性模型,可以提升組合模型對復(fù)雜交通數(shù)據(jù)的建模能力。為了更好學(xué)習(xí)到數(shù)據(jù)間的規(guī)律,所有的輸入輸出數(shù)據(jù)都事先進(jìn)行歸一化處理,采用如下歸一化公式:
圖5 不同k值的CHIFig. 5 CHI with different k values
圖6 PLS預(yù)測效果圖Fig. 6 Prediction results of PLS model
預(yù)測性能的評價指標(biāo)上,選擇均方根誤差(RMSE)和平均絕對誤差(MAE),以及平均絕對誤差百分比(MAPE):
式中:yt為交通流量的真實(shí)值;y?t為模型預(yù)測值;N為測試樣本集的個數(shù)。
本文預(yù)測模型(PLS-LSTM)在測試集上的預(yù)測值與真實(shí)值的對比結(jié)果如圖7所示。從圖7可以看出,本文預(yù)測模型的精度較高,相比未分類直接組合的模型預(yù)測結(jié)果好,且在出現(xiàn)高流量、交通狀況比較劇烈時仍具有較好的預(yù)測效果。
圖7 預(yù)測模型效果對比圖Fig. 7 Prediction comparison of model effects
為進(jìn)一步說明模型的性能,計算了PLS-LSTM預(yù)測模型在測試集上預(yù)測結(jié)果的RMSE、MAE以及MAPE,同時與未使用聚類的針對由所有訓(xùn)練集訓(xùn)練的PLS-LSTM組合模型、ARIMA-BP[13]組合模型、支持向量回歸SVR以及單個LSTM模型的結(jié)果進(jìn)行對比,結(jié)果見表1。可以看出PLS-LSTM預(yù)測模型與其他交通流預(yù)測方法相比,RMSE、MAE以及MAPE都有較明顯的改善。
表1 預(yù)測指標(biāo)對比Table 1 Evalution of prediction models
由于子數(shù)據(jù)集采用兩個子模型進(jìn)行訓(xùn)練,會增加模型訓(xùn)練復(fù)雜度。表2列出了LSTM模型取不同訓(xùn)練代數(shù)(Epoch)時,模型訓(xùn)練計算時間與精度指標(biāo)(RMSE)之間的關(guān)系。由表2可以看出,當(dāng)Epoch大于60,模型訓(xùn)練運(yùn)行時間大于50.75 s時,雖然模型精度有提升,但是提升的程度并不顯著,與訓(xùn)練復(fù)雜度及耗費(fèi)的算力資源相比得不償失。因此在衡量了計算復(fù)雜度與精度后,本文選擇LSTM的Epoch參數(shù)為60。
表2 計算時間與精度的關(guān)系Table 2 Relationship between calculation time and accuracy
針對交通系統(tǒng)的復(fù)雜性以及交通數(shù)據(jù)特有的日周期性規(guī)律,本文提出了基于相似性聚類的交通流概率組合預(yù)測模型。首先采用自適應(yīng)k-means++聚類方法對交通流數(shù)據(jù)進(jìn)行聚類,聚焦相同特征的交通流數(shù)據(jù),采用不同子類數(shù)據(jù)集訓(xùn)練相應(yīng)的組合模型。構(gòu)建多個子組合模型后,在預(yù)測過程中,根據(jù)輸入數(shù)據(jù)與各子訓(xùn)練集的相似度計算概率權(quán)重,最后基于概率權(quán)重融合各子組合模型的輸出。通過仿真實(shí)驗證明了本文模型的有效性與準(zhǔn)確性。