林立春 洪東 劉華
文章利用可變系數加權優(yōu)化方法對交通大數據進行聚類分析,并為了適用于常發(fā)性和偶發(fā)性擁堵,采用改進的兩級加權優(yōu)化ELM對分類進行模式識別,以期提高擁堵預測的精確度。同時,引入了上下游關聯的擁堵傳導模型,進一步提高擁堵預測的關聯性。當預測到或已檢測到交通擁堵時,在擁堵誘導上采用路網局部最優(yōu)化模型為出行者規(guī)劃路線,路網全局最優(yōu)化模型則為管理部門使用并為未來規(guī)劃提供輔助決策。仿真實驗結果表明,多模型融合技術能預測較長時間后的擁堵情況并維持較高的準確率,為構建高效、經濟、安全和便捷的現代化綜合交通體系提供科技支撐。
大數據;交通擁堵;預測;多模型;擁堵傳導
U491.1+13A421515
0 引言
伴隨著我國人民生活水平的穩(wěn)步提高和社會的快速發(fā)展,機動車保有量迅速增加,居民出行總量提高,交通擁堵問題越來越嚴重,成為影響和制約城市發(fā)展以及飽受民眾詬病的熱點。在現今“互聯網+”和大數據發(fā)展的時代,利用大數據分析以及合適的技術,可以科學地預測道路的擁堵程度,為出行合理規(guī)劃路線,提高出行效率,減少安全事故隱患,降低城市排放污染,釋放城市發(fā)展?jié)撃堋1疚牡闹攸c在于擁堵的預測,創(chuàng)新貢獻點主要有:(1)可變系數加權聚類優(yōu)化模型;(2)兩級加權并自適應權重模型以全面應對常發(fā)性和偶發(fā)性擁堵;(3)將兩級加權與極限學習機(下稱ELM)結合,使其既保持快速又能適用于平衡數據集和不平衡數據集,達到快速與準確并存;(4)采用擁堵傳導模型,考慮上下游情況,進而能夠從全局角度觀察,輔助管理決策;(5)預測到擁堵后采用路網總成本最優(yōu)化模型實現交通誘導,以提高城市的整體通行能力。
1 架構的提出
交通擁堵從成因上來劃分一般可歸納為常發(fā)性交通擁堵和偶發(fā)性交通擁堵。詳見文獻[1]。常發(fā)性交通擁堵具有一定規(guī)律可循,大數據分析上具有明顯特征。而諸如交通事故、交通違法、道路施工、極端天氣、大型活動、特殊路段等動態(tài)因素影響而發(fā)生的偶發(fā)性交通擁堵隨機性大,規(guī)律不甚明顯。為此,本文提出建立含有常發(fā)性和偶發(fā)性擁堵規(guī)則庫及動態(tài)影響數據庫,當偶發(fā)性擁堵發(fā)生時,通過兩級加權優(yōu)化模型側重于偶發(fā)性擁堵規(guī)則,常發(fā)性擁堵規(guī)則只做輔助參考,并通過預測時刻到來時的實時數據的驗證對加權進行自學習(自適應),以期收斂和準確,同時豐富規(guī)則庫。當無偶發(fā)性擁堵因素時,則以常發(fā)性擁堵規(guī)則為主。
為此,提出基于大數據分析的多模型融合(Big Data Analytics with Multiple Mode Combination,BDA-MMC)交通擁堵預警平臺,其架構簡圖如圖1所示。架構的核心是融合多種模型來構建規(guī)則庫,其優(yōu)劣直接關系到預測精度。
2 關鍵技術
2.1 可變系數加權聚類優(yōu)化模型
模糊C均值聚類(FCM)不同于傳統的K均值聚類(K-means),它是一種柔性劃分方法,劃分結果是各個樣本的隸屬程度,而不是屬于某類,正符合擁堵程度的劃分需求。
但各路段本質特征又有區(qū)別,如車道數量、人行橫道數量、紅綠燈數量和占有率等,加之工作日、周末和節(jié)假日之間的數據特征也有一定差異,顯然需要對不同維度上的特征予以區(qū)分。本文在FCM基礎上提出了一種可變系數加權聚類優(yōu)化模型及權重自學習方法。
令W={W1,W2,……,Wn}為n維特征的對應權值集合,定義第i個維度特征的可變系數為:
Vi=σiμi(1)
式中:μi=1n∑nj=1χij,σi=1n∑nj=1(χij-μi)2。再為第i維特征的可變系數加權:
Wi=Vi∑nj=1Vj
(2)
通過可變系數加權值求得對象xi到聚類中心vk的距離dki:
dki=∑nj=1Wj(xij-vkj)2
(3)
對應的隸屬度計算公式為:
uij=∑Kk=1∑nhWh(xjh-vih)2∑nhWh(xjh-vkh)1m-1-1(4)
計算權重的修正量公式為:
ΔWi=-ηE(W)Wi(5)
式中:E(W)——極小評價函數;
η——學習率。
η通過下面公式計算:
EW1-ηE(W)W1,…,Wm-ηE(W)Wn=
minλ>0EW1-λE(W)W1,…,Wn-ηE(W)Wm(6)
當Wi+ΔWi>0時,更新權重Wi=Wi+ΔWi。
2.2 兩級加權優(yōu)化的ELM及自適應權重模型
通過聚類將大數據劃分為若干類之后,另一關鍵技術就是分類識別獲得與預測時段最相似的樣本集和規(guī)則。極限學習機(Extreme Learning Machine,ELM)在處理大數據問題時以快速著稱,適用于擬合、分類和模式識別等問題[5]。但缺點是當有“噪聲”——數據集里存在離群點時,性能會受到影響。為彌補這一缺點,本文對ELM進行改進,進行兩級加權優(yōu)化。因為偶發(fā)性擁堵相對于歷年的海量常發(fā)性擁堵來說占比極小,相當于噪聲,但在現實中卻無疑會引發(fā)擁堵,只是程度不同而已。故此,當偶發(fā)性擁堵發(fā)生時,不僅不應讓這些少數類被淹沒,還要加大其權重,以期ELM在快速(時效性)的基礎上又能提高預測準確度,還能使其同時適用于平衡和不平衡的大數據集合。
參考文獻[4],給定預測樣本xi,訓練好的N個學習機的預測輸出為f1(xi),…,fn(xi),…,fN(xi),其中fn(xi)=[f1n(xi),f2n(xi),…,fMn(xi)]T。首先進行一級加權優(yōu)化,方法是計算每個學習機各個節(jié)點的概率輸出,公式如下:
pmn(fmn(xi))=11+exp(-(fmn(xi))),m=1,2,…,M,n=1,2,…,N(7)
進一步對其歸一化得到:
pmn(xi)=p(fmn(xi))∑Mt=1p(ftn(xi)),m=1,2,…,M,n=1,2,…,N(8)
再確定每個學習機概率輸出的最大值:
pn=maxm=1,2,…,M{pmn(xi)}(9)
pn越大,該分類器在多模融合預測中的權值也應越大,一級加權定義為:
un=pn∑Nn=1pn(10)
最后進行二級加權wδ,計算樣本xi在預測模型中的輸出:
class(xi)=argmaxm=1,2,…,M∑Nn=1wδunpmn(xi)(11)
二級加權wδ取值范圍為[0,1],在常發(fā)性擁堵——無動態(tài)影響因素時初始化為:
wδ=10.618Num(xi)>AVG(Num(xi))Num(xi)≤AVG(Num(xi))(12)
Num(xi)是指屬于xi類的樣本數目,當其大于平均數目時,既側重于多數類,并有效抑制噪聲。在偶發(fā)性擁堵時,wδ的取值則反過來,側重于少數類。wδ以線性回歸模型為基礎,通過自學習動態(tài)在[0,1]之間改變。在t時刻預測t+1時刻擁堵程度,當到達t+1時刻,根據浮動車實時采集的數據來驗證,通過驗證的偏差來調整權重,以期準確和收斂。當該規(guī)則有效,則加入規(guī)則庫。這種自適應權重既保持ELM的快速,還在一定程度上防止過擬合,且能提高模型的自適應能力,亦能克服普通的線性回歸不能很好地反映交通的非線性變化和不確定性的缺點。
2.3 擁堵傳導模型(上下游關聯規(guī)則模型)
為了提高較長時長后的預測擁堵的準確性,還要考慮擁堵的上下游關聯傳導關系。因為交通擁堵的產生在時間上和空間上都是一個較復雜的過程。本文的擁堵傳導模型既考慮路段在路網空間拓撲上的鄰接關系,也考慮擁堵狀態(tài)的傳導在時間上的先后關系。
如圖2所示,當前RC路段箭頭所示為行駛方向(另一方向同理),如果RC發(fā)生擁堵,一般會引發(fā)上游的i1~i3在Δt時間后發(fā)生擁堵。這在大數據分析中較容易通過RC的擁堵程度和i1~i3的流量預測出Δt,這里不贅述。
反過來,當上下游路段發(fā)生不同程度的擁堵后,何時會傳導引發(fā)RC發(fā)生擁堵,這樣的因果關聯性是本文研究的重點。為降低時空復雜度,本平臺擁堵傳導模型僅計算直接擁堵傳導(臨邊),但整個路網的連通性已能反映出間接擁堵傳導(相隔路段之間傳導)。
對于RC,關聯模型主要考慮上游三個流入路段的流量Q(vehs/h),即流入RC的量;還有下游三個流出路段的平均行駛速度V(km/h),即RC的排出速度。當采用路段平均速度為交通擁堵指數時,平均速度即是擁堵程度。若再簡化模型,把上游的流量也改為擁堵程度時,雖然計算簡化,但在實際應用中的預測精度有所下降。
首先,通過道路方向與車輛行駛方向之間夾角過濾掉無關方向的浮動車,再通過檢測器得到上游三個駛入流量Qi,i=1,2,3,下游三個駛出路段的平均行駛速度為Vj,j=1,2,3。擁堵傳導預測計算公式如下:
α∑ni=1(αiQi)-β∑mj=1(βjVj)+γVRc(13)
式中:n——上游臨邊數;
m——下游臨邊數。
如果是圖2所示的十字路口,n和m都等于3,如果存在無關的單行線等限行路段方向應將其忽略。αi、βj為參數,根據擁堵程度和流量占比給出;
α,β,γ——影響因子;
VRc——RC自身當前的擁堵程度。
路段平均行駛速度定義為:
V=∑nk=1Lk∑nk=1(LkVk)(14)
Lk為該路段上第k條記錄的行駛車輛所駛過的距離;Vk為其速度。
除了考慮偶發(fā)性因素外,在常發(fā)性擁堵中,如何較準確地預測從居民區(qū)和單位等地駛出的新匯入到道路上的車輛數——流量變數,是預測中的難題之一,也是能否較準確預測擁堵的關鍵因素之一。為提高較長一段時間后(例如超過20 min之后)的擁堵預測準確度,以時間序列上眾路段擁堵傳導模型的計算值為主,以大數據挖掘出的每天上下班高峰期的流量變數為輔進行調整。因為絕大多數人的上下班時間段是固定的,乃至周末出行均有一定規(guī)律可循,從大數據分析可以得出;其他變數可以通過交通事故上報平臺、道路施工的市政平臺、極端天氣的天氣預報平臺、大型活動的社會服務平臺等采集,這樣即可實現預測較長時間后擁堵程度的高準確度。
2.4 路網總成本最優(yōu)化模型
在出行路線選擇上,出行者僅僅從自身考慮,往往選擇路線最短、耗時最短路線或者主干道路線。在發(fā)出擁堵預警后,給出的優(yōu)化路線要充分考慮城市路網整體最優(yōu)均衡,即實現了一種交通誘導,充分利用次級道路,提高城市整體通行能力。平臺在為出行者服務時,為提高時空效率采用局部最優(yōu)方法,計算起點i到終點j的預選路徑集合所覆蓋的局部路網的總成本最小[6]。記起止(OD)點間路徑集合為Pij={Pij(t):路網從點i到點j的第t條路徑};M為其流量矩陣;L(Pij(t))為路徑Pij(t)的長度;Cij(t)為Pij(t)的通行能力;Xij(t)為Pij(t)上待分配的交通量。則建立路網尋優(yōu)模型:
min∑i≠j∑tXij(t)×L(Pij(t))(15)
s.t.∑tXij(t)=Mij
0≤Xij(t)≤Cij(t)
∑XklXij(t)Xij(t)≤Ckl,
最后一條約束表示多條路徑都經過某kl路段,則流經重疊路段kl的交通量總和∑Xkl不超過kl段的通行能力。該模型同樣適用于整體路網總成本最優(yōu)(全局最優(yōu)),為相應管理部門所用或對未來交通規(guī)劃輔助決策。
3 仿真實驗
實驗在訊方大數據服務器(2個英特爾至強銀牌4110-2.1 G-8 Core處理器,2×32G DDR4內存,2塊1 200 GB SAS 12 Gb/s-10 K rpm硬盤,1塊RAID卡)、客戶端Windows 10計算機(處理器Intel Core i7-9700,內存16 G)上進行;實驗軟件使用Python 3.9;樣本數據采用廣西交通運輸云數據中心和南寧市交警支隊部分樣本數據;測試路網為南寧市中心區(qū)域多條易擁堵路線,并選取了18:00有交通事故的情況;在8:00、12:00、18:00三個早中晚上下班高峰時段進行重點預測,并以當時的真實擁堵程度值進行驗證。評價指標選取常用的平均絕對誤差(MAE)、均方根誤差(RMSE)和平均絕對百分比誤差(MAPE),將BDA-MMC與廣義回歸神經網絡(GRNN)、ELM和支持向量機(SVM)等模型的預測性能進行比較,結果如表1所示。
從表1中可以看出,本文基于大數據分析和多種模型融合(BDA-MMC)的擁堵預測結果明顯提高,且在18:00有交通事故的偶發(fā)性擁堵預測中結果穩(wěn)定。
4 結語
本文介紹了交通擁堵預警的主要方法,對歷史大數據進行可變系數加權優(yōu)化聚類分析,在分類識別上,為綜合考慮常發(fā)性和偶發(fā)性交通擁堵,提出兩級加權優(yōu)化ELM和自適應權重模型,同時引入上下游關聯的擁堵傳導模型,進一步提升預測的準確性和關聯性。在擁堵誘導上采用局部最優(yōu)模型,充分發(fā)揮各級道路的作用以提高城市的整體通行能力。通過仿真實驗證明,多模融合技術的交通擁堵預測方法不僅能夠給出短時擁堵預測,還能夠給出長時擁堵預測,并且均能維持較高的準確率。
預測交通擁堵的作用和意義重大,可以提前預防,如同治未病思想,而不是已經發(fā)生了擁堵甚至造成了事故才去彌補損失。在如今節(jié)奏越來越快的城市生活當中,時間是最寶貴的,擁堵預警從節(jié)約時間、綠色環(huán)保、高效通行和提高管理水平的角度出發(fā)是必需的,是引領智能出行的關鍵,也是建設交通強國,助力交通科學治理的技術支撐和強有力的手段。
但是,由于歷史和信息安全等因素的約束,公安交通網絡一般與互聯網等網絡是隔離的,交通實時數據對外共享較困難。建議將交通系統數據中有必要對外開放又不涉及隱私和信息安全的數據進行映射,對外共享。可采取授權訪問的方式進行管理,商業(yè)化的要合理收費。同時,應逐步推進行業(yè)間大數據接口的標準,形成如圖1中所示各部門之間有關交通大數據的相互對接和信息共享,加快信息產業(yè)的升級,使之更好地服務于社會。
[1]林立春,劉 華,洪 東.基于大數據分析的交通擁堵預測技術[J].西部交通科技,2020(9):138-141.
[2]沈 晴.面向交通擁堵預測大數據的神經網絡群組快速學習[D].北京:北京科技大學,2017.
[3]周輝宇.基于大數據規(guī)則挖掘的交通擁堵治理研究[J].統計與信息論壇,2017,32(5):96-101.
[4]鄧萬宇,鄭慶華,陳 琳,等.神經網絡極速學習方法研究[J].計算機學報,2010,33(2):279-287.
[5]Lichun Lin,Shi Tong.Automatic Spatial Annotation of Image Based on Object Recognition [J].Journal of Information and Computational Science,2013,10(18): 5 829-5 847.
[6]薛倚明.整體優(yōu)化路網交通量分配的系統思想[J].運籌與管理,2000,9(2):79-83.