李林超 曲 栩 張 健 王永崗 李漢初 冉 斌
(1東南大學(xué)交通學(xué)院, 南京 210096)(2Department of Civil and Environmental Engineering, University of Wisconsin-Madison, Wisconsin 53705, USA)(3 長(zhǎng)安大學(xué)公路學(xué)院, 西安 710064)
隨著物聯(lián)網(wǎng)技術(shù)與大數(shù)據(jù)技術(shù)在交通工程領(lǐng)域的廣泛應(yīng)用,智能交通(intelligent transportation system,ITS)技術(shù)取得了突飛猛進(jìn)的發(fā)展.高速公路交通運(yùn)營(yíng)管理部門(mén)采用多種先進(jìn)的傳感器實(shí)時(shí)獲取交通流狀態(tài)數(shù)據(jù)以完成交通狀態(tài)的實(shí)時(shí)監(jiān)測(cè),主要包括固定檢測(cè)器數(shù)據(jù)、視頻檢測(cè)數(shù)據(jù)、浮動(dòng)車(chē)數(shù)據(jù)以及智能手機(jī)切換數(shù)據(jù)等.實(shí)時(shí)交通流數(shù)據(jù)為交通預(yù)測(cè)、交通管理與控制及出行信息發(fā)布等服務(wù)提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ).然而,目前高速公路上廣泛采用的固定檢測(cè)器由于受氣候環(huán)境的影響且維護(hù)困難,會(huì)產(chǎn)生大量的缺失數(shù)據(jù),給交通流數(shù)據(jù)挖掘帶來(lái)困難,影響智能交通系統(tǒng)的部分功能.尤其對(duì)高速公路,由于其通行量大,服務(wù)水平要求較高,缺失數(shù)據(jù)會(huì)對(duì)其運(yùn)營(yíng)產(chǎn)生較大的影響.因此,研究高速公路交通流數(shù)據(jù)修正方法,保證交通流數(shù)據(jù)的完整,對(duì)整個(gè)智能交通系統(tǒng)至關(guān)重要.
由于交通流數(shù)據(jù)修正是智能交通系統(tǒng)的重要保障,目前關(guān)于該方面的研究引起了國(guó)內(nèi)外研究人員的廣泛關(guān)注.交通系統(tǒng)是一個(gè)高度不確定的復(fù)雜非線性系統(tǒng),交通流數(shù)據(jù)內(nèi)嵌連續(xù)的時(shí)空變化規(guī)律,因此需要先進(jìn)的模型理解時(shí)空數(shù)據(jù),才能挖掘隱含的時(shí)空關(guān)聯(lián)模式[1-2].通過(guò)對(duì)這些模式的分析,提取額外有價(jià)值的信息對(duì)缺失數(shù)據(jù)的求解至關(guān)重要.目前,求解缺失數(shù)據(jù)的研究方法總體可以分為基于時(shí)間特征的方法、基于空間特征的方法和基于時(shí)空特征的方法三大類(lèi).基于時(shí)間特征的方法以交通流時(shí)序序列的相關(guān)性構(gòu)建時(shí)間關(guān)聯(lián)模型,對(duì)缺失數(shù)據(jù)預(yù)測(cè)完成修正.如,Henrickson等[3]基于交通流理論提出了一種預(yù)測(cè)平均匹配的多重填充方法;Bie等[4]利用多元線性回歸,基于歷史數(shù)據(jù)擬合同一測(cè)量點(diǎn)處不同線圈之間的相關(guān)關(guān)系,并通過(guò)多元線性回歸對(duì)缺失值進(jìn)行填充;陸化普等[5]從時(shí)間相關(guān)性、空間相關(guān)性和歷史相關(guān)性3方面分析了交通流大數(shù)據(jù)的特點(diǎn),建立了基礎(chǔ)交通流時(shí)空模型,提高了交通流缺失數(shù)據(jù)填補(bǔ)的準(zhǔn)確性.基于空間特征的方法主要挖掘路網(wǎng)交通流的空間相關(guān)性,以上下游路段數(shù)據(jù)推斷缺失數(shù)據(jù).例如,Zou等[6]提出一種改進(jìn)的交通空間距離表征方法,可以提高Kriging插值模型精度;Shamo等[7]對(duì)比了常規(guī)Kriging模型、線性Kriging模型、次序Kriging模型和5種其他模型在交通流數(shù)據(jù)修正時(shí)的性能,結(jié)果表明空間插值模型能夠準(zhǔn)確地推斷缺失數(shù)據(jù).基于時(shí)空特征的方法不僅能夠挖掘時(shí)間相關(guān)性,還可以應(yīng)用空間關(guān)聯(lián)性,從而提高數(shù)據(jù)修正精度.例如,Li等[8]提出一種反復(fù)迭代的框架,能夠更加充分挖掘時(shí)空關(guān)聯(lián)性,并利用多種機(jī)器學(xué)習(xí)算法進(jìn)行了驗(yàn)證,取得了較好的結(jié)果;Li等[9]將交通流數(shù)據(jù)映射到矩陣中,提出一種概率主成分分析的方法,有效地挖掘了交通流時(shí)空特征;Ran等[10]為了充分利用交通流數(shù)據(jù)的時(shí)空信息,建立交通量數(shù)據(jù)的時(shí)空張量,充分挖掘時(shí)空關(guān)系,揭示了交通流數(shù)據(jù)的多模式低秩特征,提出基于矩陣分解的張量填充方法.2006年Hinton等[11]在《Science》上發(fā)表了深度學(xué)習(xí)文章,之后深度學(xué)習(xí)理論的發(fā)展突飛猛進(jìn),在交通領(lǐng)域也得到了廣泛的應(yīng)用.如,Lv等[12]利用深度信念網(wǎng)絡(luò)挖掘交通流的時(shí)空關(guān)系,對(duì)交通流進(jìn)行預(yù)測(cè);Ma等[13]基于遞歸神經(jīng)網(wǎng)絡(luò)中的LSTM (long-short term memory)模型構(gòu)建了車(chē)流速度預(yù)測(cè)模型,與時(shí)間序列模型相比,深度學(xué)習(xí)模型性能更好;Duan等[14]利用自編碼網(wǎng)絡(luò)對(duì)交通流數(shù)據(jù)進(jìn)行重構(gòu),實(shí)現(xiàn)缺失數(shù)據(jù)修正.
綜合以往研究發(fā)現(xiàn):一方面研究大多采用單一數(shù)據(jù)源,挖掘交通流數(shù)據(jù)的時(shí)空關(guān)聯(lián)特性,基于統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)修復(fù),但對(duì)于利用多源數(shù)據(jù)之間的互補(bǔ)特性進(jìn)行數(shù)據(jù)缺失值填補(bǔ)的研究較少;另一方面深度學(xué)習(xí)理論能夠充分挖掘交通流內(nèi)嵌的復(fù)雜、非線性變化規(guī)律,從而準(zhǔn)確表征交通流特征[15-16].因此本文針對(duì)多源數(shù)據(jù)研究的不足,利用深度學(xué)習(xí)算法構(gòu)建特征提取方法,這不僅可以挖掘交通流的時(shí)空關(guān)聯(lián)特性,同時(shí)又考慮了多源數(shù)據(jù)相關(guān)關(guān)系.并采用隨機(jī)森林算法,提出一種基于多源數(shù)據(jù)的交通流數(shù)據(jù)修正方法,提高數(shù)據(jù)修復(fù)的精度和穩(wěn)健性.
本研究中為了充分挖掘數(shù)據(jù)時(shí)空維度相關(guān)性,將交通流數(shù)據(jù)進(jìn)行重構(gòu),如圖1所示,路網(wǎng)交通流數(shù)據(jù)以矩陣表示.交通流數(shù)據(jù)缺失場(chǎng)景定義為點(diǎn)缺失、線缺失和面缺失3種情況.點(diǎn)缺失表示某時(shí)刻數(shù)據(jù)缺失,其相鄰位置數(shù)據(jù)完整;線缺失表示連續(xù)n(n≥2)個(gè)時(shí)刻數(shù)據(jù)缺失,其相鄰位置數(shù)據(jù)完整;面缺失表示連續(xù)n(n≥2)個(gè)時(shí)刻數(shù)據(jù)缺失,且其相鄰位置數(shù)據(jù)同時(shí)缺失.
圖1 交通流數(shù)據(jù)缺失類(lèi)型
交通系統(tǒng)是由人、車(chē)、路環(huán)境構(gòu)成的復(fù)雜系統(tǒng),因而交通流內(nèi)在演化規(guī)律復(fù)雜,這給交通流時(shí)空關(guān)聯(lián)關(guān)系的提取帶來(lái)挑戰(zhàn).本研究基于深度學(xué)習(xí)中自編碼網(wǎng)絡(luò),提取高維多源交通流數(shù)據(jù)的時(shí)空特征,為數(shù)據(jù)填充提供支撐.該方法采用自適應(yīng)多層編碼網(wǎng)絡(luò),通過(guò)訓(xùn)練多個(gè)具有中間層的深度神經(jīng)網(wǎng)絡(luò)將高維時(shí)空交通流數(shù)據(jù)轉(zhuǎn)換成低維時(shí)空特征.
1.2.1 模型結(jié)構(gòu)
已知x={x1,x2,…,xn}為高維交通流數(shù)據(jù)集,其中xi表示第i個(gè)j維數(shù)據(jù),h={h1,h2,…,hm}為提取的時(shí)空特征,y={y1,y2,…,yn}為重構(gòu)交通流數(shù)據(jù)集.包含一隱藏層的自編碼網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示,整個(gè)網(wǎng)絡(luò)包括編碼和解碼2部分.編碼部分可將高維交通流數(shù)據(jù)轉(zhuǎn)化為特征層低維時(shí)空特征數(shù)據(jù),解碼部分對(duì)數(shù)據(jù)進(jìn)行重構(gòu).其工作原理如下:
1)初始化網(wǎng)絡(luò)參數(shù)W1,b1,W2,b2;
2)計(jì)算輸入層原始數(shù)據(jù)與輸出層重構(gòu)數(shù)據(jù)之間的誤差;
3)采用后向傳播誤差導(dǎo)數(shù)的鏈?zhǔn)椒ㄓ?jì)算梯度值;
4)調(diào)整網(wǎng)絡(luò)參數(shù)值,使整體網(wǎng)絡(luò)最優(yōu).
圖2 自編碼網(wǎng)絡(luò)結(jié)構(gòu)
1.2.2 訓(xùn)練過(guò)程
如圖2所示,輸入數(shù)據(jù)經(jīng)編碼得到特征層,表示如下:
h=f(W1x+b1)
(1)
式中,W1為編碼權(quán)值矩陣;b1為編碼偏置向量;f為激活函數(shù),本研究中采用廣泛應(yīng)用的sigmoid函數(shù),其表達(dá)式為f(u) =1/(1+exp(-u)).
解碼后進(jìn)行特征層重構(gòu),表示如下:
y=f(W2h+b2)
(2)
式中,W2為解碼權(quán)值矩陣;b2為解碼偏置向量,本研究中采用該模型特征層提取交通流中包含的相關(guān)性,特征層經(jīng)解碼能夠?qū)崿F(xiàn)數(shù)據(jù)重構(gòu),因此網(wǎng)絡(luò)的損失函數(shù)表示為
L(x,y)=‖x-y‖2
(3)
優(yōu)化目標(biāo)即最小化損失函數(shù).設(shè)網(wǎng)絡(luò)層數(shù)為L(zhǎng),學(xué)習(xí)率為α,訓(xùn)練周期為T(mén),第i層殘差為δi,參數(shù)為Wi和bi,
訓(xùn)練過(guò)程包括如下2步:
① 預(yù)訓(xùn)練
forj=1 toT
fori=1 toL
x=yi
end for
end for
② 參數(shù)調(diào)整
forj=1 toT
δL=-(▽yL-1L(x,y))⊙f′(WLx+bL)
fori=L-1 to 1
δi=f′(x)⊙((Wi+1)T(yi-(Wix+bi)))
end for
fori=1 toL
▽W(xué)i=δi(f(x))T,▽bi=δi
Wi←Wi-α▽W(xué)i,bi←bi-α▽bi
end for
end for
本文提出的模型總體架構(gòu)如圖3所示,模型輸入變量選取主要考慮時(shí)間、空間和異質(zhì)數(shù)據(jù)相關(guān)性.為考慮時(shí)間相關(guān)性,輸入向量包含缺失數(shù)據(jù)全天數(shù)據(jù)、缺失數(shù)據(jù)時(shí)刻全周數(shù)據(jù);為考慮空間相關(guān)性,輸入向量包含路網(wǎng)其他位置獲取的數(shù)據(jù);為考慮異質(zhì)數(shù)據(jù)相關(guān)性,輸入向量包含該位置其他檢測(cè)設(shè)備獲取的數(shù)據(jù).設(shè)數(shù)據(jù)采集間隔為10 min,整條道路被劃分為21段,部分路段中還存在另外一種檢測(cè)設(shè)備,則輸入向量共包括 (143+6)×20×2=5 960個(gè)元素,可見(jiàn)輸入變量維度較高,因此,本研究中提出基于深度學(xué)習(xí)的特征提取方法.
圖3 基于特征級(jí)融合的模型架構(gòu)
完成數(shù)據(jù)特征提取后,采用隨機(jī)森林模型估計(jì)數(shù)據(jù)中的缺失值.隨機(jī)森林算法由分類(lèi)回歸改進(jìn)而成.分類(lèi)回歸樹(shù)是1984年由Breiman等[17]提出的一種二分遞歸分割算法,其通過(guò)一致性不斷對(duì)根節(jié)點(diǎn)進(jìn)行分割.對(duì)于回歸樹(shù),一致性以標(biāo)準(zhǔn)偏差減少(SDR)進(jìn)行度量,第i個(gè)特征的標(biāo)準(zhǔn)偏差減少定義為
(4)
由式(1)可知,SDR表示原始值的標(biāo)準(zhǔn)差與分割后的加權(quán)標(biāo)準(zhǔn)差的差值,通過(guò)下式選擇方差減少量最大的特征進(jìn)行分割,直至整顆回歸樹(shù)生長(zhǎng)完成:
SSplit=max(Si)
(5)
基于分類(lèi)回歸樹(shù)算法, Breiman[18]提出隨機(jī)森林(random forest)算法,在不大量增加運(yùn)算量的前提下,顯著地提高了模型的預(yù)測(cè)精度.較傳統(tǒng)的線性模型,該算法不需假設(shè)條件,并對(duì)多元共線性不敏感;相比于其他機(jī)器學(xué)習(xí)算法,該算法更加穩(wěn)健且不易過(guò)擬合.模型偽代碼如下:
輸入:數(shù)據(jù)集T=(x1,y1),…,(xn,yn),特征m,隨機(jī)森林中樹(shù)的數(shù)量n
生成過(guò)程:
function RF(T,m)
O=?
fori∈1,2,…,ndo
T(i)←T′中進(jìn)行隨機(jī)抽樣
oi←RT(T(i),m)
O←O∩{oi}
end for
returnO
end function
function RT(T′)
每個(gè)節(jié)點(diǎn)處
f←m的子集
選擇f中最優(yōu)的特征進(jìn)行分割
return the learned tree
end function
輸出:隨機(jī)森林
具體步驟如下:
① 從訓(xùn)練樣本中有放回地進(jìn)行p連續(xù)p(p≥2)次抽樣,產(chǎn)生與樣本集相同數(shù)量的p個(gè)訓(xùn)練集;
② 利用步驟①中的訓(xùn)練集,隨機(jī)抽樣q個(gè)特征,按照分類(lèi)回歸樹(shù)的步驟,生成p棵完整的回歸樹(shù);
③ 將所有樹(shù)的結(jié)果進(jìn)行平均,得到最終結(jié)果.
模型中共包含p,q兩個(gè)參數(shù)需要確定.為確定2個(gè)參數(shù)值并完成對(duì)模型的評(píng)估,將數(shù)據(jù)集分為訓(xùn)練集、選擇集和測(cè)試集3個(gè)部分.如圖4所示,其中訓(xùn)練集用于訓(xùn)練模型;選擇集用于選擇參數(shù);測(cè)試集用于評(píng)估模型.
圖4 模型參數(shù)選擇過(guò)程
常用于評(píng)價(jià)模型精度的指標(biāo)有絕對(duì)平均誤差(MAE)和均方平均誤差(MSE)[19-20].但上述2種指標(biāo)依賴(lài)于觀測(cè)值的大小和度量單位,因此本文還采用平均絕對(duì)百分誤差(MAPE),其表達(dá)式如下:
(6)
(7)
式中,MMAE表示MAE的值;MMAPE表示MAPE的值;V(k)表示第k個(gè)測(cè)量值;W(k)表示第k個(gè)模型計(jì)算值;N表示數(shù)據(jù)集中樣本的總數(shù)量.
實(shí)驗(yàn)數(shù)據(jù)采集于江蘇省寧滬高速公路,其為連通上海與南京的重要通道,全線雙向8車(chē)道,設(shè)計(jì)時(shí)速為120 km/h.部分路段(5個(gè))上布設(shè)有固定檢測(cè)器,可以獲取時(shí)間平均車(chē)速數(shù)據(jù),同時(shí)還可通過(guò)浮動(dòng)車(chē)技術(shù)獲取空間平均車(chē)速數(shù)據(jù).選取其中21個(gè)路段,獲取2016年4月21日—5月20日的速度數(shù)據(jù),時(shí)間間隔為5 min,因此每個(gè)路段可獲取樣本量為8 640.將4月21日—30日的數(shù)據(jù)作為訓(xùn)練集,5月1日—10日的數(shù)據(jù)作為選擇集,5月11日—20日的數(shù)據(jù)作為測(cè)試集.研究中以空間平均車(chē)速為研究對(duì)象,即填充空間車(chē)速數(shù)據(jù)集中的缺失值.在原始數(shù)據(jù)中包含2.9%的缺失值,為研究本文提出模型在不同缺失比例時(shí)的精度,需隨機(jī)產(chǎn)生包含不同缺失比例的數(shù)據(jù)集,后續(xù)缺失比例均不包含原始缺失數(shù)據(jù).
本文的模型基于R軟件實(shí)現(xiàn),運(yùn)行環(huán)境為Window 7,64位操作系統(tǒng),IntelI CoreI i7-2600 CPU @ 3.40 GHz和4 GB的安裝內(nèi)存.
通過(guò)隨機(jī)抽樣方法在空間平均車(chē)速數(shù)據(jù)集中產(chǎn)生10%的缺失值,為分析特征級(jí)融合數(shù)據(jù)模型的精度,研究中另外構(gòu)建4種模型,分別考慮時(shí)間相關(guān)性、空間相關(guān)性、時(shí)空相關(guān)性和異質(zhì)數(shù)據(jù)相關(guān)性.缺失比例為10%時(shí)特征提取模型參數(shù)如表1所示,隨機(jī)森林模型中參數(shù)通過(guò)圖3所述的步驟進(jìn)行選取.圖5以缺失比例為10%為例展示了本文提出模型中隨機(jī)森林在不同參數(shù)取值組合情況時(shí)MSE的變化,從圖中可以看出,當(dāng)p≥100且q≥41后,MSE基本保持平穩(wěn),因此將其設(shè)定為模型的參數(shù)值,其他模型參數(shù)值均采用此方法確定.
表1 特征提取模型參數(shù)取值
(a)參數(shù)組合三維圖
(b)參數(shù)組合平面圖
應(yīng)用上述5種修正方法,對(duì)隨機(jī)缺失比例為10%的檢測(cè)器車(chē)速缺失數(shù)據(jù)集進(jìn)行修正,最終得到的MAPE如圖6所示.由圖可知,對(duì)3種缺失類(lèi)型,
圖6 10%缺失比例情況下修正模型的精度
特征級(jí)融合數(shù)據(jù)模型均具有較高的精度.在點(diǎn)缺失、線缺失和面缺失3種情況下,MAPE的平均值分別提高了24.87%,39.87%和52.93%.
為分析模型在不同缺失比例情況下的準(zhǔn)確性,將不同的修正模型應(yīng)用于隨機(jī)缺失比例為20%,30%,40%,50%的檢測(cè)器空間平均車(chē)速缺失數(shù)據(jù)集,最終得到不同缺失比例的MAPE如圖7所示.由圖可知,對(duì)不同缺失比例的缺失數(shù)據(jù)集,基于特征級(jí)融合的數(shù)據(jù)修正模型精度高于單一數(shù)據(jù)修正模型,在點(diǎn)缺失、線缺失和面缺失3種情況下,其MAPE的方差僅為0.01,0.03和0.08,證明了其具有較高的準(zhǔn)確性.
為分析修正模型的魯棒性,圖8對(duì)比了在面缺失情況下不同的修正模型的精度隨缺失比例的變化.在3種不同缺失類(lèi)型中,單一數(shù)據(jù)源修正模型隨著數(shù)據(jù)缺失比例的提升,MAPE值增加,精度整體呈現(xiàn)下降的趨勢(shì).而基于特征級(jí)融合數(shù)據(jù)修正模型隨數(shù)據(jù)缺失比例的提升,MAPE值略有增加,精度雖略有下降但相對(duì)穩(wěn)定,證明多源數(shù)據(jù)修正模型具有較好的魯棒性.
1)以高速公路路段多源數(shù)據(jù)為基礎(chǔ),基于深度學(xué)習(xí)中自編碼網(wǎng)絡(luò)構(gòu)建特征提取模型,提取交通流數(shù)據(jù)時(shí)空關(guān)聯(lián)特征和多源數(shù)據(jù)關(guān)聯(lián)關(guān)系,采用測(cè)試集和選擇集對(duì)隨機(jī)森林算法的參數(shù)進(jìn)行優(yōu)化,進(jìn)而建立了基于特征級(jí)融合的高速公路異質(zhì)交通流
(a)20%缺失比例
(b)30%缺失比例
(c)40%缺失比例
(d)50%缺失比例
圖8 精度隨缺失比例的變化
缺失數(shù)據(jù)修正模型,并結(jié)合寧滬高速公路的時(shí)間平均車(chē)速和空間平均車(chē)速數(shù)據(jù)驗(yàn)證了模型的準(zhǔn)確性和可行性.
2)相比單一數(shù)據(jù)源的缺失數(shù)據(jù)修正模型,本文建立的基于特征級(jí)融合的修正模型能夠充分利用多種檢測(cè)方式之間的互補(bǔ)性,用于進(jìn)行數(shù)據(jù)修正具有更高的精度.另外,通過(guò)對(duì)不同缺失比例情況下模型精度進(jìn)行對(duì)比,發(fā)現(xiàn)隨著數(shù)據(jù)缺失比例的增加,多源數(shù)據(jù)修正模型誤差變化不明顯,證明其魯棒性較好.
3)本文提出的模型采用2種數(shù)據(jù)源進(jìn)行了驗(yàn)證,對(duì)于2種以上數(shù)據(jù)源,需進(jìn)一步進(jìn)行考證.