詹啟亮 王 亮
(中機(jī)中聯(lián)工程有限公司,重慶 400039)
關(guān)鍵字:交通預(yù)測(cè);交通流;交通量;數(shù)學(xué)模型
近年來(lái),應(yīng)用數(shù)學(xué)算法研究不斷地創(chuàng)新發(fā)展,可解決因車(chē)輛大幅度增長(zhǎng)帶來(lái)的交通問(wèn)題,為道路的使用者和交通管理部門(mén)提供重要信息,以便更好的做出決策,還有助于改善交通網(wǎng)絡(luò)規(guī)劃[2]。
為實(shí)現(xiàn)對(duì)交叉路口交通預(yù)測(cè)的準(zhǔn)確性,必須使用多個(gè)數(shù)據(jù)源協(xié)同完成。從交通量數(shù)據(jù)源提取時(shí)間、日期、交通量、白天或黑夜、高峰與非高峰等,從交通事故數(shù)據(jù)源提取事故編碼,位置坐標(biāo)、道路編碼、時(shí)間、事故類(lèi)型、路面狀況、天氣情況等,從道路施工維護(hù)數(shù)據(jù)源提取位置坐標(biāo)、工作類(lèi)型等[4]。
列出以下主控參數(shù):
日期:交通流在不同日期表現(xiàn)不同
時(shí)間:不同時(shí)間段有不同的表征
是否工作日:周末周內(nèi)交通模式不同
是否交通峰值:決定交通流變化
晝夜:交通流量顯著變化點(diǎn)
事件距離:事件距離交叉路口的影響
包括三種算法:梯度提升回歸、隨機(jī)森林、極值梯度樹(shù)算法,以下為三種算法介紹:
F(x) 用來(lái)估計(jì)等式計(jì)算的平均誤差,對(duì)于每一個(gè)回歸樹(shù),將輸入空間劃分為M個(gè)區(qū)域m1,m2,…mm,并對(duì)每一個(gè)區(qū)域,預(yù)測(cè)一個(gè)恒定值pm。
其中I=1,如果x?mi,則I=0,pikI是區(qū)域m1,m2,…mm,的預(yù)測(cè)值,通過(guò)應(yīng)用更新數(shù)據(jù),回歸迭代每一次得到的數(shù)據(jù),以下等式描述了更新后的似然函數(shù)和回歸步長(zhǎng):
修改模型參數(shù),將mi,pik忽略,使得到的yik為每一個(gè)區(qū)域內(nèi)的最佳值:
該算法用分階段來(lái)構(gòu)建模型,在數(shù)據(jù)每次更改時(shí),通過(guò)最小化損失函數(shù)來(lái)更新模型,使用回歸手段來(lái)避免過(guò)度的擬合,使每一個(gè)模型使用0-1 的值控制結(jié)果輸出。
當(dāng)ν 值很小時(shí),獲得最佳收縮,可以減少每次迭代時(shí)的函數(shù)損失。
數(shù)學(xué)算法模型 日期 時(shí)間 是否工作日 是否峰值 是否晝夜 事件距離梯度提升回歸 0.3636 0.1340 0.1130 0.0137 0.0903 0.2854隨機(jī)森林 0.1310 0.0263 0.0412 0.0004 0.6272 0.1743極值梯度樹(shù) 0.3592 0.2078 0.1690 0.0227 0.0276 0.2137
該方法的程序?yàn)檩斎雗維向量(x),通過(guò)計(jì)算輸出n預(yù)測(cè)(y) 重新采樣以后,選擇隨機(jī)的數(shù)據(jù)點(diǎn)替換原有的數(shù)據(jù)信息,并標(biāo)記未選擇的備用,利用所選擇的數(shù)據(jù)集構(gòu)建成完全成長(zhǎng)的樹(shù)系統(tǒng)而不進(jìn)行修剪,在每一個(gè)節(jié)點(diǎn)拆分時(shí),選擇隨機(jī)特征值中的最佳特征值進(jìn)行拆分,直到不再有拆分為止。不斷進(jìn)行重復(fù),直到得到每個(gè)樹(shù)的輸出值,通過(guò)取平均值得到最終的輸出(y),
其中x是輸出樣本集,hj(x)是第j個(gè)樹(shù)的輸出值。
此算法是種可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng),算法的運(yùn)行速度比普通機(jī)器學(xué)習(xí)算法的速度快很多,可有效的并行處理數(shù)十億個(gè)數(shù)據(jù)。實(shí)際問(wèn)題中常常出現(xiàn)數(shù)據(jù)的丟失,此算法對(duì)于丟失的數(shù)據(jù),算法將默認(rèn)方向并添加到樹(shù)的每一個(gè)節(jié)點(diǎn)中,計(jì)算所處理數(shù)據(jù)集的最佳值。第二個(gè)功能是使用列快進(jìn)行并行學(xué)習(xí)計(jì)算,以稱(chēng)為塊的內(nèi)存單元進(jìn)行壓縮列格式存儲(chǔ)數(shù)據(jù)。每列都根據(jù)特征值進(jìn)行排序計(jì)算[3]。
從表中可以看出,事件距離占模型一總特征的28.54%,模型二占17.43%。模型三占21.37%,因模型二隨機(jī)性較大,所以參考價(jià)值較低。從表格中也可以發(fā)現(xiàn)模型中最不重要的特征參數(shù)是時(shí)間是否在高峰時(shí)段,模型一,模型二和模型三的結(jié)果分別為1.37%,0.004%和2.27%。與以往數(shù)據(jù)模型相比較,添加事件距離此特征參數(shù)可以提高在交叉路口附近交通量預(yù)測(cè)的準(zhǔn)確性。
本文基于交通事故和道路工程在交叉路口影響交通模式的事實(shí),提出了增加不同特征參數(shù)來(lái)預(yù)測(cè)交叉口交通量的新方法。結(jié)果表明提出增加事故發(fā)生地點(diǎn)距交叉路口的距離,能有效減少預(yù)測(cè)誤差。