王碩,谷遠(yuǎn)利,李萌,陸文琦,張?jiān)?/p>
(北京交通大學(xué)城市交通復(fù)雜系統(tǒng)理論與技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,北京 100044)
隨著信息和大數(shù)據(jù)技術(shù)的發(fā)展,基于智能交通系統(tǒng)(intelligent transport system, ITS)的道路交通管理和控制被廣泛運(yùn)用于解決交通擁堵、緩解道路壓力等方面。其中,道路管控的可行性和高效性依賴于以交通流預(yù)測(cè)為基礎(chǔ)的交通狀況預(yù)測(cè),而且精準(zhǔn)的交通流預(yù)測(cè)對(duì)于實(shí)現(xiàn)主動(dòng)交通管理等先進(jìn)管控手段具有重要意義[1]。道路網(wǎng)短時(shí)交通流預(yù)測(cè)是在實(shí)測(cè)交通流數(shù)據(jù)的基礎(chǔ)上預(yù)測(cè)下一時(shí)段的交通流量,為提高短時(shí)交通流的預(yù)測(cè)效果,國內(nèi)外交通行業(yè)研究者從構(gòu)建模型的角度進(jìn)行了大量的研究。從20世紀(jì)60年代開始,多種有效的交通流預(yù)測(cè)模型和算法涌現(xiàn),比較常見的模型包括基于線性理論的模型如歷史平均模型(history average model, HAM)、卡爾曼濾波模型(Kalman filtering model, KFM)、滑動(dòng)平均模型(moving average model, MAM)等,基于非線性理論的模型如小波分析模型(wavelet model, WM)和混沌理論模型(chaos theory model, CTM)等,以及基于智能理論的模型如神經(jīng)網(wǎng)絡(luò)(neural network, NM)和支持向量機(jī)(support vector machine, SVM)等[2-5]。其中,混沌理論預(yù)測(cè)模型具有直接基于交通流時(shí)間序列數(shù)據(jù)內(nèi)在的規(guī)律性進(jìn)行分析預(yù)測(cè),不必建立主觀模型從而避免人工干預(yù)的優(yōu)點(diǎn),神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)模型則具有不用求解具體的擬合函數(shù)以及可逼近任意非線性問題等顯著的優(yōu)勢(shì)。但在進(jìn)行神經(jīng)網(wǎng)絡(luò)建模時(shí),輸入向量的選擇多由研究者主觀分析得到,所以模型預(yù)測(cè)精確度受到人為干預(yù)。由于混沌理論模型和神經(jīng)網(wǎng)絡(luò)模型各有所長,而組合預(yù)測(cè)模型能融合不同模型的優(yōu)點(diǎn),提高預(yù)測(cè)精確度[6],所以本文主要研究基于混沌理論和改進(jìn)神經(jīng)網(wǎng)絡(luò)的組合預(yù)測(cè)方法。
混沌理論最早由氣象學(xué)研究學(xué)者Lorenz提出并應(yīng)用于大氣對(duì)流模型中,隨后不斷發(fā)展并應(yīng)用于天文、醫(yī)學(xué)、能源、金融等行業(yè)的時(shí)間序列數(shù)據(jù)研究。Takens[7]提出了相空間重構(gòu)方法來研究混沌時(shí)間序列,通過重構(gòu)單一時(shí)間序列還原系統(tǒng)的混沌性,從而發(fā)現(xiàn)時(shí)間序列的隱含規(guī)律,開啟了混沌理論的定量研究。宗春光等[8]將混沌理論引入到交通流預(yù)測(cè)方法中,利用相空間重構(gòu)的分析方法處理數(shù)據(jù),并進(jìn)行了線性回歸預(yù)測(cè),證明了相空間重構(gòu)在交通流預(yù)測(cè)中的有效性,但交通流數(shù)據(jù)具有明顯的非線性,線性方法無法準(zhǔn)確描述其演變規(guī)律。
BP神經(jīng)網(wǎng)絡(luò)作為一種誤差反向傳播的神經(jīng)網(wǎng)絡(luò),具有強(qiáng)大的非線性逼近能力,并具有優(yōu)越的穩(wěn)定性和容錯(cuò)性,是目前應(yīng)用最廣泛的人工神經(jīng)網(wǎng)絡(luò)模型之一,但由于BP神經(jīng)網(wǎng)絡(luò)采用梯度下降法訓(xùn)練初始權(quán)值和閾值,具有收斂速度慢且易陷入局部最優(yōu)解的缺陷[9]。
本文創(chuàng)新性地將混沌理論和改進(jìn)BP神經(jīng)網(wǎng)絡(luò)進(jìn)行融合,構(gòu)建組合預(yù)測(cè)模型。針對(duì)BP神經(jīng)網(wǎng)絡(luò)自身的缺陷,利用思維進(jìn)化算法(mind evolution algorithm,MEA)來優(yōu)化BP神經(jīng)網(wǎng)絡(luò),MEA在傳統(tǒng)遺傳算法中“群體”和“進(jìn)化”思想的基礎(chǔ)上,引入了“趨同”和“異化”操作,具有更強(qiáng)大的全局搜索能力且克服了傳統(tǒng)遺傳算法[10-11]結(jié)果不可知、早熟收斂的缺陷,能夠提升BP神經(jīng)網(wǎng)絡(luò)的預(yù)測(cè)效果。為檢驗(yàn)提出模型的預(yù)測(cè)精度,本文利用北京市二環(huán)路兩周工作日交通流數(shù)據(jù)進(jìn)行了短時(shí)交通流預(yù)測(cè),和單一模型預(yù)測(cè)結(jié)果進(jìn)行誤差對(duì)比,證明了所提組合模型預(yù)測(cè)精度的優(yōu)越性。
城市快速路交通系統(tǒng)是一個(gè)由人、車、路、環(huán)境共同作用、交叉影響的開放系統(tǒng)。駕駛?cè)顺鲂械囊?guī)律性,使得交通流表現(xiàn)出一定規(guī)律性和穩(wěn)定性,具體表現(xiàn)為交通流的時(shí)空特性。而隨著觀測(cè)尺度的縮短,交通流變化易受到駕駛?cè)松硇睦頎顩r、路況和環(huán)境等因素的影響,體現(xiàn)出較強(qiáng)的隨機(jī)性和波動(dòng)性特征。交通流數(shù)據(jù)既具有規(guī)律性又具有隨機(jī)性,使其表現(xiàn)出混沌性的特點(diǎn)。
為了解交通流數(shù)據(jù)特性,選取北京市二環(huán)快速路上連續(xù)10個(gè)斷面交通流數(shù)據(jù)在兩周內(nèi)的持續(xù)變化進(jìn)行分析。數(shù)據(jù)由微波檢測(cè)器獲得,研究斷面位于阜成門橋北到鐘樓北橋之間。
1.1.1 相似性
隨機(jī)選取某一斷面兩周工作日數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行平滑后,得到交通流隨時(shí)間變化的曲線,如圖1所示。整體來看,各工作日之間交通流量表現(xiàn)出強(qiáng)相似性,均表現(xiàn)出穩(wěn)定階段、增長階段、早高峰階段和晚高峰階段,兩周之間也呈現(xiàn)出周相似性,故案例分析中可選擇連續(xù)兩周工作日交通流數(shù)據(jù)作為研究對(duì)象。
圖1 兩周工作日交通流量圖Fig.1 Traffic flow chart of consecutive two-week workdays
1.1.2 周期性
隨機(jī)選取某一斷面兩周工作日數(shù)據(jù),進(jìn)行快速傅里葉變換(fast Fourier transform ,FFT),得到時(shí)域圖和頻譜圖如圖2所示,其中時(shí)域圖橫軸為時(shí)間,縱軸為交通流量,頻譜圖橫軸為數(shù)據(jù)采樣頻率,縱軸為振幅。由時(shí)域圖可以看出交通流在時(shí)間上具有明顯的周期性,頻譜圖則將時(shí)域的信號(hào)轉(zhuǎn)變?yōu)轭l域的信號(hào),在頻率0.001 3到0.001 4處出現(xiàn)沖擊波,取倒數(shù)可得數(shù)列的周期P≈720,由于實(shí)驗(yàn)數(shù)據(jù)采集間隔2 min,720為一天所采集的交通流數(shù)據(jù)量,故由頻譜分析得到交通流具有周期性且其周期為1 d。
圖2 交通流量時(shí)域圖和頻譜圖Fig.2 Time domain and spectrum charts of traffic flow
1.1.3 空間相關(guān)性
研究交通流空間相關(guān)性即分析斷面交通流之間的相關(guān)關(guān)系,找出相關(guān)度較高的幾個(gè)相鄰斷面作為接下來的研究對(duì)象,一方面可以簡化模型,避免輸入向量過于龐大造成模型復(fù)雜、速度慢等問題,另一方面能防止相關(guān)性較弱的斷面相互干擾,提高預(yù)測(cè)精度。
采用多元統(tǒng)計(jì)分析中的聚類分析方法來分析各個(gè)斷面交通流之間的相關(guān)關(guān)系,本文采用層次凝聚聚類(hierarchical agglomerative clustering ,HAC)方法進(jìn)行聚類[12],該聚類算法的方法和評(píng)價(jià)標(biāo)準(zhǔn)是將每組數(shù)據(jù)作為一類,計(jì)算類別之間的歐式距離,合并兩個(gè)相似的類為一大類,重復(fù)該步驟直到所有組合并為一大類,利用HAC方法可以形成一個(gè)樹狀圖來表示聚類結(jié)果。
選取1.1.1交通流時(shí)間序列,按照層次聚類步驟進(jìn)行聚類分析,對(duì)10個(gè)斷面交通流數(shù)據(jù)進(jìn)行層次聚類得到聚類樹狀圖見圖3。
圖3 聚類樹狀圖Fig.3 Dendrogram of cluster
層次聚類方法得到的樹狀譜系圖表示相似程度,本文中交通流時(shí)間序列的相似度由歐式距離來計(jì)算,距離越小表示相似度越高。由圖3可得,在閾值25時(shí)斷面被分為6類,其中有4個(gè)編號(hào)為2052、2054、2055和2056的相鄰斷面被分為一類,可以視為該4個(gè)相鄰斷面相似度較高,既具有空間上的聯(lián)系,又具有反映該4個(gè)斷面所屬路段交通流變化特征的意義。故接下來的案例分析可選擇北京市二環(huán)路上這4個(gè)斷面交通流數(shù)據(jù)進(jìn)行結(jié)合時(shí)空特征的交通流多斷面預(yù)測(cè)工作。
本文采用Lyapunov指數(shù)法來判定交通流數(shù)據(jù)的混沌性,Lyapunov指數(shù)大于0即判定系統(tǒng)為混沌。首先對(duì)時(shí)間序列數(shù)據(jù)進(jìn)行相空間重構(gòu),延遲時(shí)間τ和嵌入維數(shù)d是進(jìn)行相空間重構(gòu)的重要參數(shù)。
1.2.1 時(shí)間延遲τ和嵌入維數(shù)d
τ表示將一維交通流數(shù)據(jù)展開到高維坐標(biāo)系后,每個(gè)坐標(biāo)軸的相位差,即重構(gòu)后每個(gè)坐標(biāo)點(diǎn)中相鄰兩維交通流數(shù)據(jù)分量之間的時(shí)間差為τ;嵌入維數(shù)d 是相空間重構(gòu)后得到的維數(shù),將時(shí)間序列數(shù)據(jù)擴(kuò)展到d維坐標(biāo)系中,即相空間重構(gòu)后每個(gè)坐標(biāo)點(diǎn)有d 維坐標(biāo)分量。
在相空間重構(gòu)中τ和d 的取值直接影響重構(gòu)效果。如果τ的取值太小,重構(gòu)后所有坐標(biāo)軸幾乎是一致的,相空間軌跡無法展開;如果τ的取值太大,則相空間軌跡容易間斷且過于復(fù)雜。如果d的取值太小,無法展現(xiàn)出相空間軌跡的規(guī)律性;如果d 的取值太大,則會(huì)增大Lyapunov指數(shù)等的計(jì)算復(fù)雜度。目前τ和d 的選擇主要由數(shù)學(xué)方法計(jì)算得出,本文采用C-C關(guān)聯(lián)積分法同時(shí)確定出τ和d。
C-C算法由Kim等[13-14]于1999年首次提出,是一種能同時(shí)估算出延遲時(shí)間τ和嵌入窗寬τm的方法。設(shè)有長度為N的交通流時(shí)間序列xi={x1,x2,…,xN},C-C關(guān)聯(lián)積分法求解延遲時(shí)間τ和嵌入窗寬τm的步驟如下:
首先定義嵌入交通流時(shí)間序列的關(guān)聯(lián)積分:
其次定義關(guān)聯(lián)維數(shù):
將交通流時(shí)間序列分成t個(gè)子序列,分別為:
{x1,x1+t,…,x1+(d-1)t},{x2,x2+t,…,x2+(d-1)t},…, {xi,xi+t,…,xi+(d-1)t},…,{xt,x2t,…,xdt}。
定義每個(gè)交通流子序列的統(tǒng)計(jì)量:
當(dāng)N有限時(shí),S(d,r,t)取零點(diǎn)值或?qū)θ咳≈挡顒e最小的值,選擇對(duì)應(yīng)值分別最大和最小的半徑r,定義差值:
ΔS(d,t)=max{S(d,rj,t,N)}-min{S(d,ri,t,N)}(i≠j)。
ΔS(d,t)為半徑r的最大偏差,t為其最小值,時(shí)間延遲τ對(duì)應(yīng)著第一個(gè)t,根據(jù)統(tǒng)計(jì)結(jié)論有以下公式:
1.2.2 小數(shù)量法判定混沌性
Lyapunov指數(shù)為定量描述混沌時(shí)間序列數(shù)據(jù)里兩個(gè)初始值相互分離速率的指標(biāo),一個(gè)混沌時(shí)間序列中存在著多個(gè)Lyapunov指數(shù),最大值為最大Lyapunvo指數(shù),是識(shí)別混沌特性的關(guān)鍵指標(biāo),只要最大Lyapunov指數(shù)大于0,系統(tǒng)就可以被判定為混沌[15]。
本文選取具有樣本需求量少、計(jì)算速度快等優(yōu)點(diǎn)的小數(shù)量法[16]計(jì)算最大Lyapunov指數(shù)來進(jìn)行混沌識(shí)別,小數(shù)量法算法首先根據(jù)延遲時(shí)間τ和嵌入維數(shù)m對(duì)時(shí)間序列進(jìn)行相空間重構(gòu),然后尋找每個(gè)相點(diǎn)的最近鄰點(diǎn),即:
通過每個(gè)點(diǎn)最近臨近點(diǎn)的平均發(fā)散率估計(jì)得最大Lyapunov指數(shù),即
當(dāng)λ<0時(shí),系統(tǒng)是穩(wěn)定的;當(dāng)λ=0時(shí),系統(tǒng)具有周期變化性;當(dāng)λ>0時(shí),系統(tǒng)具有混沌性。
BP神經(jīng)網(wǎng)絡(luò)由Rumelhart等[17]于1986年首次提出,是一種誤差逆向傳播的多層前饋神經(jīng)網(wǎng)絡(luò),作為目前應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一,BPNN具有可塑性好、操作簡單和可任意逼近非線性映射的優(yōu)點(diǎn)。其由輸入層、隱含層和輸出層組成,層與層神經(jīng)元之間通過權(quán)值和閾值相互連接,層內(nèi)神經(jīng)元相互獨(dú)立,其預(yù)測(cè)功能通過對(duì)模型進(jìn)行訓(xùn)練實(shí)現(xiàn)。
MEA由孫承意等[18]于2000年首次提出,該算法是一種模擬人類思維進(jìn)化過程的算法,其關(guān)鍵步驟在于“趨同”和“異化”,趨同即在進(jìn)化過程中不斷向優(yōu)勝者學(xué)習(xí)進(jìn)而被優(yōu)勝群體同化,異化則是優(yōu)勝群體中的個(gè)體會(huì)自我改善,進(jìn)而融入到更優(yōu)勝群體中。在反復(fù)“趨同”和“異化”過程中,最終優(yōu)勝劣汰,全局產(chǎn)生唯一優(yōu)勝群體,即得到全局最優(yōu)解。
結(jié)合BPNN可塑性好且操作簡單以及MEA全局搜索能力強(qiáng)的優(yōu)點(diǎn),本文采用MEA-BPNN算法來進(jìn)行快速路交通流量的短時(shí)預(yù)測(cè)。MEA-BPNN算法步驟如下:
Step1:建立BP神經(jīng)網(wǎng)絡(luò)模型,確定初始權(quán)值和閾值;
Step2:進(jìn)行MEA初始設(shè)置,隨機(jī)產(chǎn)生P個(gè)個(gè)體,代表不同初始權(quán)值閾值的BP神經(jīng)網(wǎng)絡(luò)模型,并將個(gè)體劃分到優(yōu)勝子群體和臨時(shí)子群體里;
Step3:執(zhí)行趨同操作,計(jì)算單個(gè)群體中的個(gè)體得分,定義最高分為優(yōu)勝者并在局部公告板和全局公告板上顯示,更新產(chǎn)生新的子群體,重復(fù)趨同操作直到優(yōu)勝者的得分不再增高,定義優(yōu)勝者的得分為該子群體得分;
Step4:執(zhí)行異化操作,子群體在全局范圍內(nèi)進(jìn)行競爭,淘汰并產(chǎn)生新的臨時(shí)子群體,重復(fù)趨同異化操作直到滿足迭代終止條件;
Step5:根據(jù)MEA編碼規(guī)則,解析出最優(yōu)個(gè)體,得到最優(yōu)權(quán)值和閾值;
Step6:將優(yōu)化得到的權(quán)值和閾值作為BPNN參數(shù),用重構(gòu)交通流時(shí)間序列數(shù)據(jù)對(duì)BPNN進(jìn)行預(yù)測(cè)。
圖4 MEA-BPNN算法流程圖Fig.4 Flow chart of MEA-BPNN algorithm
選擇在空間相關(guān)性上聚為一類的北京市二環(huán)路4個(gè)連續(xù)斷面作為研究對(duì)象,對(duì)其兩周工作日交通流數(shù)據(jù),按照C-C算法步驟進(jìn)行時(shí)間延遲τ和嵌入窗寬τm的計(jì)算,結(jié)果如圖5所示。
圖5 C-C算法結(jié)果圖Fig. 5 C-C algorithm result maps
τm=(d-1)τ。
則可用C-C方法同時(shí)確定延遲時(shí)間τ和嵌入維數(shù)d, 再根據(jù)小數(shù)量法計(jì)算最大Lyapunvo指數(shù),得到如表1所示的各斷面相空間重構(gòu)參數(shù)。
表1 重構(gòu)參數(shù)表
4個(gè)斷面的最大Lyapunvo指數(shù)均大于0,即交通流時(shí)間序列數(shù)據(jù)具有混沌特性。求得延遲時(shí)間τ和嵌入維數(shù)d后,按照Cao[19]所提出的相空間重構(gòu)方法,可以得到一個(gè)與原交通流時(shí)間序列等價(jià)的相空間,建立d維坐標(biāo)系,相空間軌跡由d維坐標(biāo)系中的點(diǎn)組成,每個(gè)點(diǎn)叫做相空間的一個(gè)相點(diǎn),設(shè)為Vn,則:
式中,m為參與重構(gòu)的時(shí)間序列維數(shù),n代表相空間中第n個(gè)相點(diǎn),τ也叫坐標(biāo)延遲,代表重構(gòu)后高維坐標(biāo)系坐標(biāo)軸之間的相位差,d為重構(gòu)后所得相空間的維數(shù)。本文里m=4,代表4組來自于不同斷面的交通流量,τ和d分別代表重構(gòu)交通流時(shí)間序列數(shù)據(jù)中兩相鄰維之間的時(shí)間步數(shù)和重構(gòu)交通流時(shí)間序列數(shù)據(jù)的維數(shù)。
本文構(gòu)建的MEA-BPNN模型具有20個(gè)輸入向量,4個(gè)輸出向量,可以實(shí)現(xiàn)4個(gè)斷面的同時(shí)預(yù)測(cè),模型參數(shù)設(shè)置見表2。
表2 MEA-BPNN初始參數(shù)設(shè)置
利用MEA算法對(duì)BP神經(jīng)網(wǎng)絡(luò)初始權(quán)值和閾值進(jìn)行優(yōu)化的過程中,對(duì)應(yīng)的初代優(yōu)勝子種群和初代臨時(shí)子種群的趨同過程如圖6所示。由圖6可知,經(jīng)過幾次趨同操作后各子種群得分不再增加,種群已經(jīng)成熟,其后進(jìn)行異化操作,增加新的個(gè)體,循環(huán)直到得到最優(yōu)個(gè)體,即得出了優(yōu)化算法最優(yōu)解,對(duì)應(yīng)BPNN最優(yōu)權(quán)值和閾值。
圖6 初始子種群趨同過程Fig. 6 Convergence process of the initial superior and temporary subpopulation
利用MEA優(yōu)化得出的權(quán)值和閾值,改進(jìn)BPNN模型后再利用前文中得出的數(shù)據(jù)訓(xùn)練集進(jìn)行訓(xùn)練,BPNN同時(shí)輸出4個(gè)斷面的一日交通量預(yù)測(cè)值,預(yù)測(cè)效果見圖7,可直觀看出預(yù)測(cè)值和實(shí)際交通量趨勢(shì)一致,預(yù)測(cè)效果較好。
為了對(duì)比分析相空間重構(gòu)和MEA-BPNN模型的有效性,本文對(duì)4個(gè)斷面的交通流量分別進(jìn)行了無重構(gòu)的MEA-BPNN模型預(yù)測(cè)以及重構(gòu)、無重構(gòu)的BPNN模型預(yù)測(cè),用均方根誤差(rootmeansquareerror,RMSE)、平均絕對(duì)誤差(meanaverageerror,MAE)和平均絕對(duì)百分誤差(meanaveragepercentageerror,MAPE)3種誤差評(píng)價(jià)指標(biāo)進(jìn)行了模型精確度的評(píng)價(jià),結(jié)果如表3所示。
表3 誤差對(duì)比
由表3可見,基于PR-BPNN模型的斷面平均誤差與基于傳統(tǒng)BPNN模型的斷面平均誤差相比,均方根誤差、平均絕對(duì)誤差和平均絕對(duì)百分誤差分別下降12.43%,6.46%和14.57%,證明了相空間重構(gòu)處理交通流數(shù)據(jù)的有效性;基于MEA-BPNN模型的斷面平均誤差與基于傳統(tǒng)BPNN模型的斷面平均誤差相比,均方根誤差、平均絕對(duì)誤差和平均絕對(duì)百分誤差分別下降12.16%,12.83%和13.73%,證明了MEA在改進(jìn)BPNN模型方面的有效性;基于PR-MEABPNN模型的斷面平均誤差與基于傳統(tǒng)BPNN模型的斷面平均誤差相比,均方根誤差、平均絕對(duì)誤差和平均絕對(duì)百分誤差分別下降31.11%,20.71%和37.28%,證明了組合預(yù)測(cè)模型同時(shí)具備相空間重構(gòu)和思維進(jìn)化算法改進(jìn)BPNN模型的優(yōu)越性,提高了交通流預(yù)測(cè)精度。
本文結(jié)合實(shí)測(cè)數(shù)據(jù)進(jìn)行了交通流的時(shí)空特征和混沌分析,證明了交通流數(shù)據(jù)時(shí)間上具有相似性與周期性,空間上具有斷面相關(guān)性,且判定了其具有混沌特性。根據(jù)交通流的時(shí)空特性選定了預(yù)測(cè)的時(shí)段和路段,并根據(jù)混沌特性進(jìn)行了相空間重構(gòu),優(yōu)化了模型輸入。提出了MEA改進(jìn)后的BPNN模型,并進(jìn)行了相空間重構(gòu)和改進(jìn)BPNN模型融合的道路網(wǎng)多斷面的短時(shí)交通流預(yù)測(cè),與未改進(jìn)模型進(jìn)行了誤差對(duì)比,證明了改進(jìn)算法具有更高的預(yù)測(cè)精度,預(yù)測(cè)結(jié)果可為出行決策和交通管控提供更準(zhǔn)確的參考。
本文在進(jìn)行預(yù)測(cè)時(shí),只考慮了交通流量時(shí)間序列本身的變化規(guī)律,進(jìn)一步的工作中可考慮交通流三要素之間的相互影響,將其他交通要素如速度和占有率加入相空間重構(gòu),用多變量相空間重構(gòu)的方法更全面地反映交通流變化規(guī)律。