李君羨,吳志周*,沈宙彪
(1.同濟(jì)大學(xué)道路與交通工程教育部重點(diǎn)實(shí)驗(yàn)室,上海201804;2.上海市城市建設(shè)設(shè)計(jì)研究總院(集團(tuán))有限公司,上海200125)
關(guān)鍵路段指容易發(fā)生交通擁堵或其失效后對(duì)局部路網(wǎng)通行效率造成較大影響的路段,常和路網(wǎng)脆弱性相關(guān).基于此定義,大量研究著眼于路網(wǎng)失效狀態(tài),如交通事故、道路中斷下的路網(wǎng)運(yùn)行情況變化,從而識(shí)別關(guān)鍵路段,如張建旭[1]以路段失效后交通流在局部路網(wǎng)重分配情況為基礎(chǔ),確定不同時(shí)刻的路段關(guān)鍵度;也有學(xué)者從路網(wǎng)結(jié)構(gòu)和路段位置關(guān)系入手查找拓?fù)浣Y(jié)構(gòu)中最重要路段,如蘇飛[2]等以時(shí)空相關(guān)函數(shù)表達(dá)不同延遲下路段交通狀態(tài)之間的影響,并作為路段重要性的衡量指標(biāo).
Sullivan[3]指出,在路段通行能力削弱程度不同時(shí)關(guān)鍵路段排序也不相同,在極端條件下篩選出來(lái)的關(guān)鍵路段不具代表性.且日常交通擁堵很少造成路段完全失效,發(fā)生擁堵的路段反而聚集大量通行需求;完全基于路網(wǎng)拓?fù)浣Y(jié)構(gòu)識(shí)別關(guān)鍵路段?;诩僭O(shè)或模型描述路段間的交通影響,和實(shí)際情況有一定差距.此外,現(xiàn)有研究多基于路段數(shù)少于20 條的小型路網(wǎng)結(jié)構(gòu),在大規(guī)模路網(wǎng)的實(shí)施效果難以保證.有研究利用路網(wǎng)實(shí)際數(shù)據(jù),從路段在交通活動(dòng)中實(shí)際承擔(dān)的功能出發(fā)研究路段重要性,如Othman等[4]基于事故數(shù)據(jù),研究事故高發(fā)路段的交通特性從而確定關(guān)鍵路段.這類(lèi)研究由真實(shí)數(shù)據(jù)驅(qū)動(dòng),目的在于查找一般狀態(tài)下對(duì)路網(wǎng)交通參數(shù)產(chǎn)生關(guān)鍵影響的路段,對(duì)路網(wǎng)效能管理與提升更具指導(dǎo)意義.本文沿用這一思路,利用真實(shí)大規(guī)模路網(wǎng)數(shù)據(jù),基于對(duì)路徑行程時(shí)間的影響識(shí)別關(guān)鍵路段,并以識(shí)別結(jié)果為參考,結(jié)合路段行程時(shí)間特性等建立關(guān)鍵路段判別模型,實(shí)現(xiàn)主動(dòng)查找關(guān)鍵路段.
數(shù)據(jù)覆蓋上海市外環(huán)內(nèi)地面路段共2 884條,長(zhǎng)度分布集中.由浮動(dòng)車(chē)于2008年9月17日全天持續(xù)采集.經(jīng)地圖匹配和聚合統(tǒng)計(jì),形成時(shí)間間隔為5 min 共288 個(gè)時(shí)間段的路段平均行程速度;另有數(shù)據(jù)表記錄各路段長(zhǎng)度、起終節(jié)點(diǎn)編號(hào)與坐標(biāo)位置、所在道路等級(jí).以時(shí)間間隔序號(hào)為列索引,以路段編號(hào)為行索引構(gòu)建路段平均行程速度矩陣SA,其(i,j)元sij為第i條路段在第j個(gè)時(shí)間間隔期間的平均行程速度.圖1為統(tǒng)計(jì)數(shù)據(jù)缺失情況.
午夜城市道路交通流多為自由流,如路段首、末端速度中僅有一端值缺失,則以另一端值補(bǔ)全;若兩端值同時(shí)缺失,以當(dāng)日該路段最大速度補(bǔ)全.其他缺失做線(xiàn)性插補(bǔ).
圖1 數(shù)據(jù)缺失分組頻率統(tǒng)計(jì)Fig.1 Frequency chart of different missing values for intervals and for links
記路段i長(zhǎng)度為li,構(gòu)造路段平均行程時(shí)間矩陣TA,矩陣第i行向量ti對(duì)應(yīng)第i條路段在1 d 內(nèi)各間隔的行程時(shí)間序列,其(i,j)元為第i條路段在第j個(gè)時(shí)間間隔期間的平均行程時(shí)間.對(duì)各路段做行程時(shí)間最大歸一化,得到全日路段最大歸一化行程時(shí)間矩陣,其(i,j)元
路段是構(gòu)成路網(wǎng)中所有出行路徑的基本單元,出行者確定路徑后,其行程時(shí)間等于從出發(fā)時(shí)間起計(jì),經(jīng)過(guò)路徑中所有路段的行程時(shí)間之和.路段行程時(shí)間持續(xù)波動(dòng),故同一路徑不同出發(fā)時(shí)間的行程時(shí)間不同,其計(jì)算步驟如下.
Step 1 確定出發(fā)時(shí)間,定位路徑初始路段,初始化行程時(shí)間tl=0.
Step 2 在SA中標(biāo)記各時(shí)間間隔所在路段編號(hào),如圖2所示.當(dāng)前時(shí)間間隔剩余時(shí)長(zhǎng)tC和當(dāng)前所在路段的剩余行程距離sC關(guān)系有3種情況.
圖2 路徑行程時(shí)間計(jì)算示意圖Fig.2 Schematic diagram of route travel time calculation
情況1tC期間完成sC行程后還剩余時(shí)間.將sC所用行程時(shí)間計(jì)入tl,更新tC為完成sC后剩余的時(shí)間.如后續(xù)還有其他路段,則繼續(xù)分情況計(jì)算;否則,轉(zhuǎn)至Step 3.
情況2tC期間不足以完成sC行程.將tC剩余時(shí)間計(jì)入tl,更新sC為當(dāng)前路段未完成路段距離,轉(zhuǎn)入下一個(gè)時(shí)間間隔繼續(xù)分情況計(jì)算.
情況3tC期間剛好完成sC行程.將tC時(shí)間計(jì)入tl,如后續(xù)還有其他路段,則同時(shí)更新tC和sC為下一元素;否則,轉(zhuǎn)至Step 3.
Step 3 保存tl為行程時(shí)間,結(jié)束計(jì)算.
將所有路段起、終節(jié)點(diǎn)(n=5 768 個(gè))統(tǒng)一編號(hào),構(gòu)造當(dāng)前路網(wǎng)的鄰接矩陣P=(pij)n×n,其中,pij用非0 值和0 分別表示是否存在以節(jié)點(diǎn)i為起點(diǎn)、節(jié)點(diǎn)j為終點(diǎn)的直接連通路段,該非0值為連通路段長(zhǎng)度.
構(gòu)造路徑集合Ll步驟如下.
Step 1 初始化參數(shù).需生成路徑數(shù)量Cl,路徑長(zhǎng)度最小值ll,單位為m,路徑至少包括路段數(shù)量Cs.初始化路徑實(shí)際長(zhǎng)度la=0,路徑實(shí)際包括路段數(shù)量Ca=0,初始化路段列表Ls.
Step 2 隨機(jī)選取編號(hào)為q0的節(jié)點(diǎn)為起點(diǎn).
Step 3 在P的第q0行向量中隨機(jī)選擇pij≠0 項(xiàng),獲取pij對(duì)應(yīng)的路段編號(hào),檢查其是否已在Ls中.若是,則重新選擇以避免路徑閉環(huán);否則,更新la=la+pij,Ca=Ca+1,在Ls中追加pij對(duì)應(yīng)的路段編號(hào),令q0=j.
Step 4 若la≥ll且Ca≥Cs,終止本輪計(jì)算,將Ls加入Ll;否則,返回Step 3.
Step 5 若 |Ll|=Cl,終止全部計(jì)算,返回Ll;否則,返回Step 2.
生成路徑池,以5 min為間隔計(jì)算池中各路徑在全天不同時(shí)間出發(fā)所需行程時(shí)間,構(gòu)成其行程時(shí)間序列;將該序列與經(jīng)過(guò)各組成路段行程時(shí)間構(gòu)成的序列對(duì)比,以皮爾遜系數(shù)為指標(biāo),選擇該值高于設(shè)定閾值Pth的路段加入候選重點(diǎn)路段集合;綜合所有路徑計(jì)算結(jié)果,查找與池中Nth條以上路徑行程時(shí)間高度相關(guān)的路段.
借鑒蒙特卡洛思想,將以上實(shí)驗(yàn)重復(fù)數(shù)次,綜合篩選影響路網(wǎng)行程時(shí)間的關(guān)鍵路段集合.考慮路段平均長(zhǎng)度552 m,為避免超長(zhǎng)路徑削弱短路徑影響效應(yīng)并兼顧每輪實(shí)驗(yàn)計(jì)算速度,特別控制路徑長(zhǎng)度且合理確定實(shí)驗(yàn)次數(shù),確定參數(shù)ll=1 200 m,Cs=3,Cl=5 000,Pth=0.8,Nth=5.重復(fù)20 次實(shí)驗(yàn)并觀測(cè)發(fā)現(xiàn)關(guān)鍵路段數(shù)量的變化,在第18 次實(shí)驗(yàn)后,關(guān)鍵路段數(shù)量保持533 條不再增加,如圖3所示,其中5次實(shí)驗(yàn)的主要結(jié)果如表1所示.
表1 關(guān)鍵路段查找實(shí)驗(yàn)部分結(jié)果Table 1 Part of results of critical-segment searching experiments
本方法由真實(shí)數(shù)據(jù)驅(qū)動(dòng),基于路段對(duì)行程的實(shí)際效用識(shí)別關(guān)鍵路段,無(wú)理想假設(shè)作為基礎(chǔ),識(shí)別結(jié)果可作為關(guān)鍵路段的“真值”.多次實(shí)驗(yàn)結(jié)果漸趨穩(wěn)定說(shuō)明方法可行,但其對(duì)算力有一定要求,且基于歷史數(shù)據(jù)存在滯后效應(yīng).為實(shí)現(xiàn)主動(dòng)管理,研究路段屬性與其關(guān)鍵性的相關(guān)關(guān)系.以上述識(shí)別結(jié)果為依據(jù),研究關(guān)鍵路段的主動(dòng)查找模型,抽取路段屬性作為建?;A(chǔ).
綜合構(gòu)造如下屬性:
(1)路段長(zhǎng)度屬性(m).
(2)路段位置屬性,分別標(biāo)記內(nèi)環(huán)以?xún)?nèi)(含內(nèi)環(huán))、中環(huán)與內(nèi)環(huán)之間(含中環(huán))、外環(huán)與中環(huán)之間(含外環(huán))的路段屬性為2、1、0.
(3)路段平均速度屬性(km·h-1),對(duì)SA各行求平均值得到.
(4)路段速度標(biāo)準(zhǔn)差屬性(km·h-1),對(duì)SA各行求標(biāo)準(zhǔn)差得到.
(5)路段道路等級(jí)屬性,該屬性與路段紅線(xiàn)寬度、車(chē)道數(shù)量等相關(guān),有一定代表性.分別標(biāo)記快速路、主干道、次干道、支路路段屬性為3、2、1、0.
路段行程時(shí)間序列波動(dòng)較大,但整體波動(dòng)水平和波動(dòng)聚集存在特征.由Dunn[5]提出的模糊聚類(lèi)算法(Fuzzy C-Means Clustering,F(xiàn)CM)引入隸屬度概念以描述樣本屬于各個(gè)類(lèi)別的概率,廣泛用于交通分析.
圖4 不同聚類(lèi)數(shù)時(shí)Xie-Beni 指標(biāo)值變化Fig.4 Value of Xie-Beni index corresponding to different clustering parameters
取K=3,繪制各類(lèi)路段的最大歸一化行程時(shí)間序列曲線(xiàn)及其聚類(lèi)中心曲線(xiàn)如圖5所示.不同聚類(lèi)中心的數(shù)值水平有明顯差異;全天趨勢(shì)呈現(xiàn)類(lèi)似規(guī)律,在第95和第220個(gè)時(shí)間間隔,即當(dāng)日08:00前及18:30后出現(xiàn)行程時(shí)間高峰,但峰值高度有區(qū)別.
圖5 不同聚類(lèi)結(jié)果的最大歸一化行程時(shí)間序列曲線(xiàn)及聚類(lèi)中心曲線(xiàn)Fig.5 Maximum-normalized travel time series curves and clustering center curves of different clusters
預(yù)計(jì)路段曲線(xiàn)類(lèi)型對(duì)路段是否為關(guān)鍵影響路段有指示意義,構(gòu)造路段類(lèi)型屬性,分別標(biāo)記圖5中3類(lèi)路段屬性為0、1、2.
Inclan[6]在1994年提出的ICSS(Iterative Cumulative Sums of Squares)算法被廣泛用于檢測(cè)時(shí)間序列的結(jié)構(gòu)性變點(diǎn)(簡(jiǎn)稱(chēng)變點(diǎn)),李瑋峰[7]證明其用于研究道路行程時(shí)間序列特征的可行性.
ICSS 分析要求目標(biāo)序列為平穩(wěn)序列,為此對(duì)每條路段行程時(shí)間序列進(jìn)行對(duì)數(shù)差分處理為Di[7],該序列中第j個(gè)元素dij為
任取兩條路段Di序列,如圖6所示.對(duì)全部路段進(jìn)行ADF 檢驗(yàn)顯示,其Di均為平穩(wěn)序列,故可作為ICSS算法的輸入.
圖6 兩條路段的行程時(shí)間對(duì)數(shù)差分序列Fig.6 Logarithmic difference sequences of travel time for 2 segments
ICSS 運(yùn)算結(jié)果顯示,當(dāng)日共有982 條路段存在變點(diǎn),其變點(diǎn)數(shù)量區(qū)間對(duì)應(yīng)的頻率和變點(diǎn)所在時(shí)間間隔如圖7所示,少數(shù)路段變點(diǎn)數(shù)明顯多于其他路段.從路網(wǎng)整體看,變點(diǎn)出現(xiàn)有一定聚集性.隨機(jī)選取15 條變點(diǎn)高發(fā)路段,標(biāo)記其變點(diǎn)出現(xiàn)時(shí)間間隔、位置,如圖8所示,可見(jiàn)單條路段也同樣存在變點(diǎn)時(shí)間聚集性.
圖7 變點(diǎn)數(shù)量頻率統(tǒng)計(jì)及時(shí)間分布情況Fig.7 Frequency statistics and time distribution of change points
圖8 15 條路段結(jié)構(gòu)性變點(diǎn)出現(xiàn)時(shí)間間隔Fig.8 Intervals when structural change points emerged of 15 selected links
同時(shí)間窗口內(nèi)變點(diǎn)數(shù)量越多的時(shí)間序列其方差變動(dòng)越頻繁,穩(wěn)定性越差,對(duì)行程時(shí)間將產(chǎn)生更大影響.一個(gè)路段的行程時(shí)間對(duì)數(shù)差分序列變點(diǎn)個(gè)數(shù)可能與該路段行程時(shí)間波動(dòng)特征相關(guān),構(gòu)造路段變點(diǎn)屬性,記錄對(duì)應(yīng)路段當(dāng)天的變點(diǎn)個(gè)數(shù).
綜合7個(gè)屬性,將路段類(lèi)型屬性以獨(dú)熱編碼形式分解為3 個(gè)啞變量,再補(bǔ)充一個(gè)常數(shù)變量,擴(kuò)展為10個(gè)變量.鑒于部分變量為類(lèi)別變量,以kendall系數(shù)初步考察相關(guān)性,如圖9所示.
圖9 變量相關(guān)系數(shù)熱力圖Fig.9 Heatmap of correlation coefficient of variables
變量間非強(qiáng)相關(guān),除道路等級(jí)較高路段平均行程速度快這一常見(jiàn)規(guī)律外,還有以下結(jié)論:路段速度方差與道路等級(jí)和路段位置相關(guān),等級(jí)越高、位置越靠近城市中心,則速度方差可能越大;路段變點(diǎn)數(shù)量與路段長(zhǎng)度、道路等級(jí)相關(guān).
聚類(lèi)類(lèi)型和路段屬性有關(guān)聯(lián):類(lèi)型0 路段的道路等級(jí)相對(duì)較高,類(lèi)型1 路段位置更靠近城市中心,類(lèi)型2 路段的變點(diǎn)數(shù)量、速度方差和長(zhǎng)度數(shù)值更大.可見(jiàn)聚類(lèi)結(jié)果可能包含路段特性的其他信息.
構(gòu)造路段關(guān)鍵標(biāo)記屬性作為因變量,記533條關(guān)鍵路段該屬性為1,其他路段為0.綜合上述10個(gè)自變量構(gòu)建二項(xiàng)Logit模型,稱(chēng)模型1.如表2所示,除變點(diǎn)數(shù)量和路段位置外,其余自變量均明顯影響路段關(guān)鍵性.
現(xiàn)僅保留3.1 節(jié)的基礎(chǔ)指標(biāo)構(gòu)建二項(xiàng)Logit 模型作為對(duì)比模型,稱(chēng)模型2.結(jié)果顯示,除路段位置標(biāo)記外,其余自變量均影響路段關(guān)鍵性.
將數(shù)據(jù)代入兩個(gè)模型,比較預(yù)測(cè)指標(biāo),如表3所示.
兩個(gè)模型與隨機(jī)分類(lèi)器的ROC曲線(xiàn)對(duì)比如圖10所示.可見(jiàn)其預(yù)測(cè)表現(xiàn)都高于隨機(jī)分類(lèi)器,但模型1 AUC指標(biāo)明顯優(yōu)于模型2.
表2 Logit 模型1 計(jì)算結(jié)果Table 2 Results of Logit model NO.1
表3 模型指標(biāo)對(duì)比Table 3 Comparisons of model indices
圖10 模型與隨機(jī)分類(lèi)器ROC 曲線(xiàn)對(duì)比圖Fig.10 ROC curve comparison among 2 models and random classifier
綜上,基于路段長(zhǎng)度、道路等級(jí)和行程速度統(tǒng)計(jì)參數(shù)等基礎(chǔ)屬性預(yù)測(cè)某條路段是否對(duì)路網(wǎng)行程時(shí)間有明顯影響,ACC 較高,考慮到路網(wǎng)2 884 條路段中有81.5%的路段并非關(guān)鍵路段,樣本有一定偏移,這個(gè)標(biāo)準(zhǔn)不難達(dá)到,實(shí)際上與市場(chǎng)份額模型相比,模型2的優(yōu)勢(shì)很小,其REC僅為13.5%,查找真正的關(guān)鍵路段能力很差,導(dǎo)致模型2 的F1 和AUC 指標(biāo)較低.模型1 的ACC 和PRE 兩項(xiàng)指標(biāo)與模型2相差不大,REC和F1值更理想,查找真實(shí)的關(guān)鍵路段能力更好,可見(jiàn)基于最大歸一化行程時(shí)間的聚類(lèi)在模型中有一定效用.
雖然路段變點(diǎn)在時(shí)間分布上有明顯的統(tǒng)計(jì)規(guī)律,且對(duì)不同路段有顯著差別,但對(duì)模型1 的預(yù)測(cè)沒(méi)有貢獻(xiàn),可見(jiàn)變點(diǎn)數(shù)量對(duì)行程時(shí)間波動(dòng)的常發(fā)性與波動(dòng)集中出現(xiàn)的時(shí)間有揭示作用,但不代表波動(dòng)的程度,這也體現(xiàn)在圖8中變點(diǎn)數(shù)量與標(biāo)準(zhǔn)差兩個(gè)屬性相關(guān)性不大,高頻小幅度的路段行程時(shí)間波動(dòng)可能不足以對(duì)路徑行程時(shí)間造成影響.但變點(diǎn)數(shù)提供了觀察路段行程時(shí)間穩(wěn)定性的新維度,變點(diǎn)在不同路段上及路網(wǎng)整體出現(xiàn)的聚集特性可作為行程時(shí)間穩(wěn)定性評(píng)價(jià)的參考因素之一.
基于蒙特卡洛思想隨機(jī)構(gòu)造路徑并基于行程時(shí)間序列相關(guān)性識(shí)別重點(diǎn)路段,在多輪實(shí)驗(yàn)后呈穩(wěn)定結(jié)果,證明方法可行.最大歸一化行程時(shí)間、行程時(shí)間對(duì)數(shù)差分序列的變點(diǎn)數(shù)量可作為描述路段行程時(shí)間特征的兩個(gè)新屬性,前者可提升自動(dòng)查找關(guān)鍵路段的二項(xiàng)Logit 模型性能;后者對(duì)模型沒(méi)有貢獻(xiàn),但有別于量化行程時(shí)間波動(dòng)程度的傳統(tǒng)指標(biāo),提供了行程時(shí)間波動(dòng)常發(fā)性和聚集性的新信息.