許倫輝,陳凱勛,郭雅婷
(華南理工大學(xué)土木與交通學(xué)院,廣東 廣州 510641)
浮動車數(shù)據(jù)(floating car data)是指從安裝了GPS模塊和無線通信模塊的出租車、公交車等車輛接收到的數(shù)據(jù),數(shù)據(jù)可包括時間、經(jīng)緯度、車輛編號、運營狀態(tài)、速度等信息。浮動車在20世紀(jì)90年代初開始投入使用,至今已經(jīng)被廣泛應(yīng)用于交通領(lǐng)域。浮動車具有安裝使用方便、維護成本低、覆蓋面廣、數(shù)據(jù)量大、精度高且實時性強的特點。文獻[1]以浮動車數(shù)據(jù)為單一數(shù)據(jù)來源,提出了基于廣義自適應(yīng)平滑方法(GASM)的在線交通流速度估計模型。文獻[2]引入置信點,提出了基于浮動車大數(shù)據(jù)的城市道路復(fù)雜度分析方法,并將該方法應(yīng)用于廣州市路網(wǎng)的復(fù)雜度分析。文獻[3]提出了基于浮動車數(shù)據(jù)的城市不同等級道路通行能力評估方法,以較低的成本全面掌握城市交通狀態(tài)在空間和時間上的不同特征。文獻[4]利用道路實測數(shù)據(jù)建立了面向其應(yīng)用的輕型車尾氣排放實時測算模型,反映相同平均速度下的排放變化。文獻[5]提出一種基于HMM(Hid-den Markov model)的地圖匹配模型,并有效應(yīng)用于海量浮動車數(shù)據(jù)地圖匹配。但,以上研究多基于完善的浮動車數(shù)據(jù),所提出的模型在浮動車數(shù)據(jù)缺失的情況下并不適用。近年來,各國學(xué)者也提出了一些解決浮動車數(shù)據(jù)稀疏問題的方法。文獻[6]對比了PPCA和KPPCA方法,在適當(dāng)考慮時空相關(guān)性的前提下,證明了KPPCA方法顯著減少了對缺失數(shù)據(jù)估算的誤差。文獻[7]將季節(jié)性ARIMA交通流預(yù)測模型用于計算交通流數(shù)據(jù)的缺失,改善了對稀疏數(shù)據(jù)的不適應(yīng)性。文獻[8]將數(shù)據(jù)丟失事件看作是嚴(yán)重堵塞的情況下防止浮動車進入擁堵區(qū)域的狀況,以此建立了一種基于新的交通流運行指標(biāo)的時間序列相似性測量方法,并將此方法作為定義動態(tài)交通網(wǎng)絡(luò)瓶頸的基礎(chǔ)。文獻[9]提出了一種估計和修正方法對行程時間進行估計與修正,得到了比改進的內(nèi)插值法更接近實際的估計值。文獻[10]建立了一個微仿真模型,該模型考慮了多個誤差因素,通過對已有的稀疏浮動車數(shù)據(jù)驅(qū)動進行增強來估計交叉路口的信號相位和時間。文獻[11]提出了一個三層神經(jīng)網(wǎng)絡(luò)模型,從浮動車的歷史數(shù)據(jù)中獲取各路段的時空特性,以時空特性作為輸入,建立路段間的關(guān)聯(lián)關(guān)系來估計稀疏路段的行程時間。文獻[12]提出了一個樸素貝葉斯估計模型對缺失的路網(wǎng)交通流速度數(shù)據(jù)進行估計,在一定程度上緩解了數(shù)據(jù)稀疏帶來的影響。
上述研究將偶然性和多發(fā)性的缺失統(tǒng)一為單一缺失狀態(tài)進行填充,在實際的應(yīng)用中會出現(xiàn)對特殊缺失情況的不適應(yīng),從而導(dǎo)致填補效率降低。例如:文獻[12]所提出的模型在以時間維度的參數(shù)進行估計時,會因某個時段歷史數(shù)據(jù)的大量缺失而對估計效果產(chǎn)生很大影響,導(dǎo)致模型不再適用于此類型缺失情況?;趯φ鎸崝?shù)據(jù)缺失情況的分析,本文將數(shù)據(jù)缺失類型歸納為偶然性缺失和多發(fā)性缺失,并針對兩種數(shù)據(jù)缺失類型分別提出了基于NB和基于DTW的方法對路網(wǎng)交通流速度進行估計,以增強缺失數(shù)據(jù)的填充效果以及模型在實際應(yīng)用中的適用性,降低路網(wǎng)浮動車數(shù)據(jù)缺失對實際應(yīng)用和理論研究帶來的影響。
將地圖轉(zhuǎn)化為路網(wǎng)并鏈接浮動車數(shù)據(jù),選擇適合區(qū)域進行數(shù)據(jù)提取和分析。對于實時交通系統(tǒng),5 min是常用的信息發(fā)布時間間隔,本文以5 min作為數(shù)據(jù)采集間隔,將一天分為288個時段進行采集與處理分析。以一條浮動車數(shù)據(jù)為例,其數(shù)據(jù)格式為:
由表1可知,若該路段某一時段的浮動車數(shù)據(jù)丟失,速度數(shù)據(jù)也必然隨之丟失。以缺失速度數(shù)據(jù)的路段ID代替交通流速度作為索引對數(shù)據(jù)進行實時監(jiān)測,可簡化缺失數(shù)據(jù)的查找過程且不影響數(shù)據(jù)的估計和填補工作,轉(zhuǎn)化過程可用式(1)表示。
(1)
表1 浮動車數(shù)據(jù)格式Table 1 Format of floating car data
式中,Vt為路網(wǎng)交通流速度矩陣;vrc為道路r在c時段的交通流速度數(shù)據(jù);Mt為路網(wǎng)各路段ID矩陣;mrc為道路r在c時段的路段ID,若數(shù)據(jù)缺失,則路段ID為0。
某一路段某一時刻的數(shù)據(jù)缺失具有偶然性,即歷史數(shù)據(jù)中該路段這一時段的數(shù)據(jù)較為完整或僅有少量缺失,實時查找出的缺失是偶然發(fā)生的,這樣的缺失多發(fā)生于較高等級的道路上。樸素貝葉斯分類方法簡單、快速,對于此類數(shù)據(jù)缺失有較好的填充效果。
1.2.1 樸素貝葉斯模型 本文采用樸素貝葉斯方法對缺失數(shù)據(jù)進行估計,以平衡浮動車數(shù)據(jù)在空間分布不均的問題。此方法中,速度數(shù)據(jù)從0 km/h開始每5 km/h為一組分為20個速度組,大于100 km/h的計入第20組,將速度轉(zhuǎn)化為20個離散值。用同一路段歷史交通流速度vH(同一時段數(shù)據(jù)平均值)和同一路段上一時段交通流速度vS作為樸素貝葉斯分類方法的兩個輸入?yún)?shù),估計當(dāng)前時段當(dāng)前路段的交通流速度v,公式如下:
(2)
式中,v為研究路段某時段的估計平均交通流速度;vH為同一路段歷史交通流速度;vS為同一路段上一時段交通流速度;P(v)為研究路段某時段的估計平均交通流速度為v時的概率;P(v|vH,vS)為研究路段歷史交通流速度為vH且上一時段交通流速度為vS的情況下,該路段當(dāng)前時段估計平均交通流速度為v的概率;P(vH,vS|v)為研究路段估計平均交通流速度為v的情況下同一路段歷史交通流速度為vH,且同一路段上一時段交通流速度為vS的概率。
由于兩個引入的參數(shù)相互獨立,即其上一時段交通流速度與歷史交通流速度無直接聯(lián)系,而上式中的分母∑v∈VP(vH,vS|v)P(v)對所有的v都相同,在比較后驗概率時可以省略其進行計算,僅比較分子大小即可,所以在某時段缺失路段的交通流速度估計公式如下:
(3)
式中,P(vH|v)為研究路段估計平均交通流速度為v的情況下同一路段歷史交通流速度為vH的概率;P(vS|v)為研究路段估計平均交通流速度為v的情況下同一路段上一時段交通流速度為vS的概率。各參數(shù)的計算過程如式(4)~(6)所示。
(4)
式(4)中,N為前30天內(nèi)用于研究的所有速度數(shù)據(jù)量(第一個時段無vS,此時僅使用vH作為模型參數(shù));I(vi=v)為判斷vi=v的布爾值,若vi=v則I(vi=v)=1,否則為0;I(vS,vi=v)為判斷vi=v時vS單個統(tǒng)計量的布爾值,若vi=v時存在vS則I(vS,vi=v)=1,否則為0。
(5)
式(5)中,N為一天內(nèi)用于研究的所有時段;I(vi=v)為判斷vi=v的布爾值,若vi=v則I(vi=v)=1,否則為0;I(vH,vi=v)為判斷vi=v時vH單個統(tǒng)計量的布爾值,若vi=v時存在vH則I(vH,vi=v)=1,否則為0。
(6)
式(6)中,N為前30天內(nèi)用于研究的所有速度數(shù)據(jù)量;I(vi=v)為判斷vi=v的布爾值,若vi=v則I(vi=v)=1,否則為0。將式(3)中的參數(shù)逐一計算后,代回式(3)中關(guān)聯(lián)并遍歷,可得到最終的估計結(jié)果。
1.2.2 樸素貝葉斯模型修正 假設(shè)選用參數(shù)vH、vS與速度v為正相關(guān)關(guān)系,并在模型可行性分析部分進行驗證,此正相關(guān)關(guān)系使得速度相差較大的范圍會出現(xiàn)P(vH|v)=0或P(vS|v)=0。為了避免出現(xiàn)概率值為0而影響最終估計結(jié)果的適應(yīng)性和準(zhǔn)確性,本文采用拉普拉斯修正(laplace correcting)對存在條件概率進行修正處理,如下式(7)~(9)所示。
(7)
(8)
(9)
式中,M為速度取值數(shù)量。
某一路段某一時刻的數(shù)據(jù)缺失具有多發(fā)性,即歷史數(shù)據(jù)中該路段這一時段的數(shù)據(jù)同樣存在大量的缺失,這樣的缺失多發(fā)生于低等級的道路上。這種情況下歷史數(shù)據(jù)的估計價值不高,估計結(jié)果也有較大偏差甚至無法進行估計,樸素貝葉斯分類方法不再適用于這種缺失類型。近年來,已有學(xué)者將相似性度量的方法應(yīng)用于信息補全、短時預(yù)測等研究。文獻[13]提出了一種基于時間序列相似性搜索的短時交通流量預(yù)測方法,并以高速公路交通流量數(shù)據(jù)證明該方法的預(yù)測性能優(yōu)于傳統(tǒng)方法。在相似性度量中,DTW算法已在語音識別等領(lǐng)域得到廣泛應(yīng)用,此算法支持不同長度的時間序列的相似性度量,定義了序列間的對齊匹配關(guān)系[14]。
本文提出了基于DTW的相似度算法,求解匹配時累計差值最小的兩路段所對應(yīng)的規(guī)整函數(shù),以尋找最相似路段,并對多發(fā)性的數(shù)據(jù)缺失進行填充。在尋找相似路段前,使用Daubechies(db4)小波獲取用于比對的低頻基波,4是小波的階數(shù),假設(shè)觀測數(shù)據(jù)由2部分組成:
x(t)=s(t)+n(t)
(10)
式中,x(t)為觀測值;s(t) 為真實值;n(t)為噪聲,即n(t)=N(0,δ2)。
在小波分解后的低頻信號中調(diào)取源路段,并標(biāo)記為序列Q=q1,q2,…,qi,…,qn,其中n為調(diào)取到的該路段交通流速度數(shù)據(jù)總量。依次調(diào)取研究范圍內(nèi)其他所有路段的低頻信號,記為CLINKID=c1,c2,…,cj,…,cm。其中,LINKID為當(dāng)前調(diào)取的路段ID,m為調(diào)取到的其他路段的交通流數(shù)據(jù)總量。要計算每個搜尋路段與源路段序列的累計差值,首先要對序列實時匹配差值進行計算,具體公式如下:
(11)
式中,D[i,j]為序列匹配至qi,cj時的累計差值;d(qi-cj)為兩數(shù)據(jù)點間的歐氏距離。當(dāng)計算過程執(zhí)行到序列的最后一個樣本時,可得搜尋路段與源路段序列的累計差值:
DTW(Q,C)=D[n,m]
(12)
使用27°-45°-63°的局部路徑約束,最佳的DTW路徑會跳過序列中的離群點[15],使得在計算時省掉了一些不需要計算的部分,如圖1所示。計算完成后,比較累計差值可得出源路段的相似路段,相似路段的低頻信號和隨機噪聲信號最終組成源路段的缺失時段數(shù)據(jù),并可將估計的速度轉(zhuǎn)化為對應(yīng)的分組數(shù)值,填充入數(shù)據(jù)缺失部分。
圖1 離群點示意Fig.1 Diagram of outliers
選擇深圳市南山區(qū)南海大道、濱海大道、創(chuàng)業(yè)路及后濱海路所框定的范圍作為研究區(qū)域,如圖2所示。所選區(qū)域覆蓋了各等級道路包括快速路、主干路、次干路、支路。調(diào)取的浮動車樣本數(shù)據(jù)均來自深圳市城市交通規(guī)劃設(shè)計研究中心,數(shù)據(jù)時間范圍為2018年5月1日至5月31日,樣本總量約400萬條,采樣間隔為5 min。在Matlab平臺下,對樸素貝葉斯算法的參數(shù)相關(guān)性和DTW算法的相似性進行評價,并對組合模型的效率和準(zhǔn)確性進行了驗證,并將最終的數(shù)據(jù)填充效果通過地圖匹配展示到TransCAD、GIS等軟件的路網(wǎng)分布圖中。
圖2 研究區(qū)域路網(wǎng)Fig.2 Network of study area
2.1.1 樸素貝葉斯參數(shù)評價 以選定范圍內(nèi)快速路的實時交通流速度v所處分組為橫坐標(biāo),同一路段前一時段的交通流速度vS所處分組為縱坐標(biāo)做相關(guān)性分析,結(jié)果如圖3(a)所示。圖3(a)中,兩個變量呈現(xiàn)出高度的正相關(guān)性,說明相鄰時段的速度相近甚至相等是大概率事件,用相鄰時間段的路網(wǎng)交通流速度數(shù)據(jù)作為估計缺失數(shù)據(jù)的一個條件參數(shù)是有效且可行的。
圖3 條件參數(shù)與交通流實時速度的相關(guān)性Fig.3 Relationship between vS /vH and v
以選定范圍內(nèi)快速路的實時交通流速度v所處分組為橫坐標(biāo),同一時間段的歷史速度vH所處分組為縱坐標(biāo)做相關(guān)性分析,結(jié)果如圖3(b)所示。圖3(b)中,高概率色格仍然更多集中于對角線附近,雖與圖3(a)相比更為分散,但仍能看出其正相關(guān)性。造成概率集中度不高的原因主要是歷史數(shù)據(jù)提取量有限,僅引入前30天的歷史數(shù)據(jù)進行相關(guān)條件的概率計算,對結(jié)果產(chǎn)生了輕度的干擾。擴大樣本容量進行處理分析,可得出分布更加集中,更加接近正相關(guān)的圖形。從圖3(c)可以看出:同一路段前一時段的交通流速度vS與同一時間段的歷史速度vH相互獨立,沒有相關(guān)關(guān)系。
2.1.2 DTW相似性評價 在使用DTW算法前,先調(diào)取所有路段前30天的歷史交通流速度數(shù)據(jù)并對其進行小波濾波分析[16],采用Db小波的4階函數(shù)進行小波分解,將噪聲部分表示為4組高頻信號,對主流低頻變化信號以及高頻噪聲信號進行重構(gòu),得到如圖4所示的原始序列、低頻序列、噪聲序列。
圖4 基于Db4小波函數(shù)的信號分解結(jié)果Fig.4 Signal decomposition result based on Db4 wavelet function
圖4中,原始序列是低頻序列和高頻噪聲序列疊加產(chǎn)生的信號圖形。小波分解可看作一個信號濾波的去噪過程[17],圖中的高頻信號在應(yīng)用中可視為主要噪聲源,其噪聲序列由不相關(guān)的隨機變量構(gòu)成,具有很強的隨機性。在去噪后,低頻序列仍保留了原始序列的周期、振幅、變化趨勢等特征,因此使用低頻序列進行DTW的計算可以有效降低噪聲干擾,得到更加平穩(wěn)且符合實際規(guī)律的樣本數(shù)據(jù)[18]。利用低頻基波進行相似路段的比對,最終查找到與源路段相似的路段,取源路段和相似路段一周內(nèi)速度變化進行對比分析,結(jié)果如圖5所示。
圖5 源路段與相似路段速度變化對比Fig.5 Comparison of the speed of the original and similar sections
圖5(a)中,虛線表示源路段,實線表示源路段的相似路段。截取了歷史數(shù)據(jù)中一周的數(shù)據(jù)進行對比分析,可以看出相似路段的變化趨勢、振幅、周期等特性與源路段契合,但相似路段的可靠程度需將兩路段的實時偏差、偏差的峰值、波動范圍等特性進行進一步比對才能得到驗證。圖5(b)中以兩路段對應(yīng)樣本的差值組成序列,從這個序列中可以看出兩路段的相似程度較高,對應(yīng)點位的偏差峰值不超過+8和-5,其他差值多在更小的固定范圍內(nèi)波動,得到穩(wěn)定小范圍差值的原因是在執(zhí)行DTW算法時,超出指定范圍的樣本已在路徑約束中作為離群點被剔除,因此以此方法篩選出的相似路段具有一定的可靠性。將研究范圍全部源路段與相似路段進行比對,對應(yīng)點位的偏差峰值不超過+10和-8,偏差峰值在+5和-5之間的點位占比83.67%。
2.2.1 數(shù)據(jù)缺失程度劃分 為量化偶然性缺失和多發(fā)性缺失的定義對模型的準(zhǔn)確性及數(shù)據(jù)填補率的影響,本文將偶然性缺失分別定義為數(shù)據(jù)缺失程度小于10%、20%、30%、40%、50%,不滿足偶然性缺失條件的則為多發(fā)性缺失。對定義后的缺失進行分別處理,用67.54%的低完整率源數(shù)據(jù)進行驗證,考量模型使用后估計結(jié)果的效果以確定數(shù)據(jù)缺失性質(zhì)的量化區(qū)分,具體對比如下圖6所示。
圖6 數(shù)據(jù)缺失定義對模型影響Fig.6 The impact of data loss definition on the model
圖6(a)中,經(jīng)過二次填充后路網(wǎng)交通流數(shù)據(jù)的完整程度均能達到90%以上,但第一次填充率的增大將會抑制第二次填充的效果。因為第一次填充越多,第二次填充的樣本容量將會減小,找到相似路段的幾率也會隨之減小。由圖6(b)可知,將過多數(shù)據(jù)定義為偶然缺失,使用樸素貝葉斯法或過度使用DTW法都會使模型的偏差值增大,即準(zhǔn)確度降低。這是因為:樸素貝葉斯法采用過度缺失的歷史數(shù)據(jù)作為條件參數(shù),將會影響估計精度;而,DTW算法查找相似路段的方法采用歐氏距離,對噪聲較為敏感,若對計算過程產(chǎn)生過度影響,可能會造成噪聲干擾路段與非相似路段的混淆,導(dǎo)致計算結(jié)果產(chǎn)生偏差。以同樣的方式對76.33%和85.10%完整率的源數(shù)據(jù)進行驗證,結(jié)果表明:在數(shù)據(jù)修復(fù)的完整程度上各分組均表現(xiàn)良好;但,閾值定義為30%時,偏差值可維持在2.2 km/h ~ 2.5 km/h。因此,本文選擇將數(shù)據(jù)缺失程度小于30%作為偶然性缺失的定義,在保證模型填充效率的同時提升模型估計結(jié)果的準(zhǔn)確性。
2.2.2 模型對比 對三種模型進行對比分析。模型一采用文獻[10]中的方法,僅使用樸素貝葉斯分類,以同路段的歷史交通流速度和前一時刻交通流速度作為輸入?yún)?shù)對缺失數(shù)據(jù)進行估計填充;模型二中路網(wǎng)數(shù)據(jù)缺失情況不做區(qū)分,統(tǒng)一采用DTW方法對偶然性缺失和多發(fā)性缺失同時進行填充;模型三為本文所采用的方法,先將數(shù)據(jù)缺失情況進行劃分,再配合使用樸素貝葉斯方法和DTW方法分別對偶然性缺失和多發(fā)性缺失分別進行估計填充。
以路網(wǎng)30天內(nèi)的前20天數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),后10天數(shù)據(jù)作為測試數(shù)據(jù);測試數(shù)據(jù)將分別被視作缺失樣本進行填充,并將真實數(shù)據(jù)與填充數(shù)據(jù)差值的絕對值作為本次填充的估計誤差;每個測試數(shù)據(jù)的填充及誤差計算過程相互獨立互不影響,最終所有測試樣本的平均絕對誤差(MAD)和均方誤差(MSE)的計算如式(13)~(14)所示:
(13)
(14)
式中,n為測試數(shù)據(jù)的樣本總數(shù);obs為真實數(shù)據(jù)的觀測樣本;pre為模型填充的估計樣本。最終對模型的填充效果和估計準(zhǔn)確度進行比較,結(jié)果如表2所示。
表2 三種模型效果比較Table 2 Comparison of three models
由上表可知,單獨使用DTW算法的模型二的平均絕對誤差和均方誤差均較大,平均絕對誤差超出了速度的一個組值范圍;而,模型一和模型三的平均絕對誤差均在一個組值的范圍內(nèi)。當(dāng)誤差在可接受范圍內(nèi)時,模型三的填充率比模型一的高出13.08%,填充效果有較顯著的提升。因此,本文所提方法在保證估計結(jié)果準(zhǔn)確性的同時大幅提升了缺失數(shù)據(jù)的填充率,相比于單一使用樸素貝葉斯方法或DTW方法的模型更為優(yōu)化。在運行時間方面,DTW方法尋找相似路段的過程耗時較長,但此步驟可提前離線完成,組合模型實時計算的平均時長為15.6 s。
以2017年5月31日第96時段(7∶55到8∶00)的數(shù)據(jù)進行模型的試驗。數(shù)據(jù)填充前,路網(wǎng)交通流速度的原始分布如圖7所示,虛線表示該時段路網(wǎng)處在數(shù)據(jù)缺失的狀態(tài),顏色由淺至深表示速度由低到高。對路段ID矩陣M進行統(tǒng)計分析,得到該時段路網(wǎng)的數(shù)據(jù)覆蓋率為62.68%,較高的數(shù)據(jù)缺失率和數(shù)據(jù)密度的分布不均給路網(wǎng)的交通流速度分布研究、交通流速度的預(yù)測等帶來了較大的困難。
使用樸素貝葉斯分類方法對路網(wǎng)缺失數(shù)據(jù)進行估計,結(jié)果如圖8(a)所示。處理后,路網(wǎng)的數(shù)據(jù)覆蓋率達到了73.76%,比原始數(shù)據(jù)提升了17.68%,但路網(wǎng)中仍有部分路段存在數(shù)據(jù)缺失的現(xiàn)象。這一現(xiàn)象多存在于低等級道路上,說明低等級道路上歷史數(shù)據(jù)缺失大于30%的現(xiàn)象嚴(yán)重,導(dǎo)致樸素貝葉斯方法拋棄對這些路段的估計,進而采用DTW算法查找相似路段對估計結(jié)果進行補充,結(jié)果如圖8(b)所示。經(jīng)過兩個步驟的處理之后,路網(wǎng)的數(shù)據(jù)覆蓋率達到了92.33%,比原始數(shù)據(jù)提升了47.30%。因此,將兩個方法搭配使用的填充效果顯著,很好地彌補了樸素貝葉斯方法對于多發(fā)性數(shù)據(jù)缺失估計的不足,也在一定程度上降低了使用DTW方法進行預(yù)測帶來的誤差。
圖7 路網(wǎng)交通流數(shù)據(jù)缺失現(xiàn)狀Fig.7 The current situation of data loss of traffic flow
圖8 路網(wǎng)交通流速度數(shù)據(jù)修復(fù)對比Fig.8 Comparison of repair of traffic flow velocity data
本文構(gòu)建了一個稀疏數(shù)據(jù)的填充模型,將數(shù)據(jù)缺失的類型分為偶然性和多發(fā)性缺失,并配合使用樸素貝葉斯分類方法和DTW算法對缺失數(shù)據(jù)進行填充。試驗結(jié)果表明:該模型可以使路網(wǎng)的數(shù)據(jù)覆蓋率得到顯著的提升,并且混合模型在填充效果上明顯優(yōu)于僅使用樸素貝葉斯方法進行數(shù)據(jù)填充;填充數(shù)據(jù)的準(zhǔn)確率相較于僅使用DTW算法也得到了一定程度的提升。填充后的浮動車數(shù)據(jù)具有連續(xù)性強、準(zhǔn)確度高和數(shù)據(jù)密度分布均勻的特點。后續(xù)的工作仍需考慮以下情況以提升模型效率:
(1)為減少模型的偶然性偏差,保證填充結(jié)果的準(zhǔn)確性和穩(wěn)定性,應(yīng)盡可能增加歷史數(shù)據(jù)樣本量,提升以歷史數(shù)據(jù)作為輸入?yún)?shù)之一的模型的估計準(zhǔn)確性;
(2)不同路網(wǎng)的數(shù)據(jù)缺失情況不同,應(yīng)在模型使用前重新對偶然性缺失和多發(fā)性缺失的不同劃分情況所造成的影響進行評估,確定劃分范圍,以確保模型填充效果得到保障;
(3)應(yīng)進一步考慮路網(wǎng)復(fù)雜性對模型效率和準(zhǔn)確性帶來的影響,尋找樣本量、準(zhǔn)確性和計算效率之間的平衡點。