王 力,李 敏,閆佳慶,張玲玉,潘 科,李正熙
(北方工業(yè)大學(xué),城市道路交通智能控制技術(shù)北京市重點(diǎn)實驗室,北京100144)
道路交通信息的完整性是城市智能交通管控系統(tǒng)運(yùn)行的必要條件,一直以來對于路網(wǎng)缺失數(shù)據(jù)的補(bǔ)全方法研究是國內(nèi)外學(xué)者的研究熱點(diǎn)和難點(diǎn)[1].Jian-dong Zhao[2]等針對快速路交通流信息缺失和數(shù)據(jù)分布稀疏的問題,利用線性插補(bǔ)虛擬監(jiān)測點(diǎn)和時域分段方法來估計檢測點(diǎn)間的平均旅行時間,并用一種優(yōu)化的K近鄰算法來進(jìn)行旅行時間預(yù)測;La?a I.等[3]建立了狀態(tài)預(yù)測模型與數(shù)據(jù)利用策略的統(tǒng)計關(guān)系,并利用機(jī)器學(xué)習(xí)方法來進(jìn)行數(shù)據(jù)補(bǔ)全;郭敏等[4]以交叉口檢測器的交通流數(shù)據(jù)為研究對象,提出基于灰色殘差GM(1,N)模型的數(shù)據(jù)修復(fù)算法;Hua-chun Tan等[5]提出基于張量分解賦值法的交通信息補(bǔ)全方法,但上述方法對歷史數(shù)據(jù)的依賴性過強(qiáng).Dai-heng Ni等[6]提出了采用馬爾科夫鏈—蒙特卡羅模型,但數(shù)據(jù)補(bǔ)全精度與路段狀態(tài)模型的精確性呈正相關(guān)關(guān)系.Qu L.等[7]提出了綜合路網(wǎng)交通流相關(guān)性的概率主成分分析方法,該方法對于城市道路多樣性交通場景數(shù)據(jù)的補(bǔ)全效果欠佳.Li L.等[8]利用交通路網(wǎng)時空關(guān)聯(lián)特性進(jìn)行數(shù)據(jù)補(bǔ)全,但其前提為建立路網(wǎng)交通數(shù)據(jù)統(tǒng)計模型.
近年來,隨著深度學(xué)習(xí)算法的發(fā)展,基于機(jī)器學(xué)習(xí)算法的圖像數(shù)據(jù)補(bǔ)全研究有了長足進(jìn)步.Dong Chao等[9]發(fā)展了一種面向端到端的圖像補(bǔ)全方法,可對單幀低信息圖像進(jìn)行精細(xì)修復(fù).Kappleler等[10]基于運(yùn)動補(bǔ)償?shù)姆绞?,將多時刻圖像作為網(wǎng)絡(luò)擴(kuò)展輸入實現(xiàn)二維信息的精細(xì)化補(bǔ)全.2014年,生成式對抗性網(wǎng)絡(luò)(Generative Adversarial Network,GAN)的提出和應(yīng)用,為圖像化處理復(fù)雜場景的數(shù)據(jù)缺失問題提供了可能[11].
不難看出,現(xiàn)有城市道路交通數(shù)據(jù)補(bǔ)全研究主要以路段數(shù)據(jù)為對象,從統(tǒng)計方法、歷史數(shù)據(jù)和路網(wǎng)時空相關(guān)性等方面展開,但對交通路網(wǎng)和多樣性場景的信息補(bǔ)全能力不足,本文首先構(gòu)建交通路網(wǎng)二維信息圖,基于空間—時間信息關(guān)聯(lián)特性采用生成式對抗網(wǎng)絡(luò)算法對路網(wǎng)交通流量數(shù)據(jù)進(jìn)行補(bǔ)全研究,以滿足復(fù)雜路網(wǎng)和綜合交通場景下數(shù)據(jù)補(bǔ)全要求.
首先,從圖像分析的角度將城市路網(wǎng)抽象為鄰接的圖塊,即矩陣式的二維圖,以圖像化形式描述路網(wǎng)結(jié)構(gòu)特性,以濰坊部分路網(wǎng)為例,如圖1所示.
圖1 路段編號與二維信息圖對應(yīng)關(guān)系(無向網(wǎng)絡(luò))Fig.1 The corresponding relation between the link number and the two-dimensional information graph(Undirected network)
對于雙向路段,如圖2所示,按照路段的空間位置關(guān)系,轉(zhuǎn)換為如圖2的規(guī)整形式.進(jìn)一步,采用不同圖塊顏色表征路段5 min的采集流量,如圖3所示,其中,白色色塊為空間上不存在的路段,灰色色塊為數(shù)據(jù)缺失路段,圖3(a)中,“6-80”代表編號為6的路段流量為80 veh/5 min,其他同.
由于實際路網(wǎng)中存在著多樣化的異形交叉口,因此,將異形路口按照表1規(guī)則進(jìn)行處理,以轉(zhuǎn)換成標(biāo)準(zhǔn)路口.
對于任意的路網(wǎng)拓?fù)?,可以用關(guān)聯(lián)矩陣來描述其拓?fù)浣Y(jié)構(gòu)和路段間的連接關(guān)系,并綜合路網(wǎng)的流量特性、路段鄰接關(guān)系,以及路段車流轉(zhuǎn)向比例來構(gòu)建路網(wǎng)關(guān)聯(lián)矩陣.當(dāng)路段i與路段j相關(guān)聯(lián)時aij=p,p為轉(zhuǎn)向線性相關(guān)率,0<p≤1,轉(zhuǎn)向線性相關(guān)率表征某時間段車流的轉(zhuǎn)向關(guān)聯(lián)比例,由采集數(shù)據(jù)擬合得到;否則,aij=0.如圖2所示,以濰坊市東風(fēng)街—濰州路交叉口東方向5天(2018-03-12~16)的地磁流量數(shù)據(jù)為例.如圖4所示,分別表征路段流量、采樣間隔(采樣周期為5 min)與轉(zhuǎn)向比例的關(guān)系,圖中上半部分代表直行轉(zhuǎn)向比,下半部分代表左轉(zhuǎn)轉(zhuǎn)向比.
圖2 路段編號與二維圖對應(yīng)關(guān)系示意圖(有向網(wǎng)絡(luò))Fig.2 The corresponding relation between the link number and the two-dimensional information graph(Directed network)
圖3 路網(wǎng)二維信息圖像化Fig.3 Road network 2D information visualization
圖4 路段流量、采樣周期與轉(zhuǎn)向比關(guān)系分布圖Fig.4 Distribution map of traffic flow,sampling period and steering ratio
由圖4可知,第70個采樣間隔前(凌晨時段)的交通流呈現(xiàn)強(qiáng)隨機(jī)特性,因此采用第70~288個采樣間隔的交通流數(shù)據(jù)均值來擬合路網(wǎng)關(guān)聯(lián)矩陣元素.進(jìn)一步采用插值法來擬合流量、采樣間隔與轉(zhuǎn)向比的關(guān)系曲線,得到如圖5所示的曲面圖,最終得到路網(wǎng)特定時段對應(yīng)流量條件下的關(guān)聯(lián)關(guān)系矩陣,如表2所示.
表1 異型路口(路段)圖像化處理Table 1 Image processing of abnormal intersections(links)
圖5 路段關(guān)聯(lián)關(guān)系取值圖Fig.5 Correlation diagram of segments
交通信息在空間和時間上具有相關(guān)性和連續(xù)性,采用空間—時間信息補(bǔ)償?shù)姆椒▽δ骋粍澐謺r段的低可信度的交通信息進(jìn)行信息補(bǔ)償.具體方法為:
(1)以當(dāng)前時段第1時刻的交通信息圖為基準(zhǔn),利用空間—時間估計參數(shù)對下一時刻的交通信息進(jìn)行平滑補(bǔ)償.
表2 路段關(guān)聯(lián)關(guān)系矩陣Table 2 Links correlation matrix
(2)空間—時間交通信息補(bǔ)償可用機(jī)器學(xué)習(xí)的方法進(jìn)行訓(xùn)練,即對空間—時間交通信息網(wǎng)絡(luò)估計參數(shù)的最優(yōu)化訓(xùn)練,將空間—時間交通信息變換表示為
(3)空間—時間信息補(bǔ)償網(wǎng)絡(luò)的損失函數(shù)使用正則化方法表示,其最優(yōu)化的參數(shù)估計方法為
式中:θ?為空間—時間信息參數(shù)的最優(yōu)化估計;λ為正則化參數(shù);L為拉普拉斯算子.
將式(2)右邊對θ?微分,并設(shè)其為0,采用最大梯度下降法進(jìn)行迭代分析,最終可獲得最優(yōu)空間—時間信息參數(shù)θ?.
采用GAN算法作為路網(wǎng)數(shù)據(jù)補(bǔ)全的算法工具.GAN的核心思想來源于博弈論的納什均衡[11],算法的優(yōu)化過程是兩套神經(jīng)網(wǎng)絡(luò)(辨別器和生成器)的最大最小的游戲過程,即讓辨別器盡力分辨生成器偽造的樣本,生成器盡力制作一個偽造樣本使辨別器無法分辨的博弈過程,為了取得游戲勝利,這兩個游戲參與者需要不斷優(yōu)化,各自提高自己的生成能力和判別能力.GAN已被證明是一個極有效的生成模型,能夠面向多種任務(wù),如圖像生成,圖像細(xì)節(jié)再現(xiàn),三維物體生成,視頻預(yù)測等領(lǐng)域.GAN的直接應(yīng)用就是建模生成與真實數(shù)據(jù)分布一致的數(shù)據(jù)樣本,例如生成圖像、視頻等.
本文中信息缺失的交通信息序列經(jīng)過空間—時間信息補(bǔ)償之后,作為該網(wǎng)絡(luò)的輸入特征,經(jīng)生成器生成交通信息,然后由道路相關(guān)矩陣判別器對生成的交通信息進(jìn)行判別,最后輸出補(bǔ)全后的交通信息.交通信息的補(bǔ)全網(wǎng)絡(luò)主要有加權(quán)卷積層和生成式對抗網(wǎng)絡(luò)構(gòu)成,其示意圖如圖6所示.
圖6 GAN算法邏輯結(jié)構(gòu)Fig.6 Logic structure of GAN
在給定生成器G的情況下,來優(yōu)化判別器D,訓(xùn)練判別器也是最小化交叉熵的過程,其損失函數(shù)的數(shù)學(xué)表達(dá)式為
式中:Pr表示真實的數(shù)據(jù)類;Pg為生成的數(shù)據(jù)類.
將生成式對抗網(wǎng)絡(luò)應(yīng)用到交通信息補(bǔ)全問題,其表達(dá)式為
式中:IRe表示信息補(bǔ)全的圖像;IMi表示信息缺失的圖像;θG為生成器參數(shù);θD為判別器參數(shù).
重建網(wǎng)絡(luò)的損失函數(shù)由均方誤差表示,則生成器網(wǎng)絡(luò)損失函數(shù)為
其中,
基于生成式對抗網(wǎng)絡(luò)的路網(wǎng)交通流數(shù)據(jù)補(bǔ)全算法流程如下.
算法輸入:路段流量、車道轉(zhuǎn)向比.
算法輸出:路段缺失流量,補(bǔ)全流量的偏差百分比.
Step 1路網(wǎng)信息圖像化.
根據(jù)路網(wǎng)拓?fù)浜吐范瘟髁啃畔?gòu)造路網(wǎng)二維信息圖It+k和路網(wǎng)關(guān)聯(lián)矩陣P.
Step 2構(gòu)造關(guān)聯(lián)矩陣.
構(gòu)造路網(wǎng)關(guān)聯(lián)矩陣Tθ(It+k),利用1周的歷史數(shù)據(jù),基于轉(zhuǎn)向比例曲面圖計算關(guān)聯(lián)矩陣的相關(guān)系數(shù).
Step 3空間—時間信息補(bǔ)償.
經(jīng)過空間—時間變換Tθ(It+k)后的時段交通信息圖;采用空間—時間信息補(bǔ)償方法,進(jìn)行參數(shù)優(yōu)化估計,,即可獲得最優(yōu)空間—時間信息參數(shù)θ?,最終生成補(bǔ)償后的路網(wǎng)二維信息圖
Step 4構(gòu)造GAN算法結(jié)構(gòu).
Step 5數(shù)據(jù)補(bǔ)全.
以缺失信息的路網(wǎng)二維信息圖為輸入,利用Step3構(gòu)造的生成器和辨別器,更新?lián)p失函數(shù),最終求得最優(yōu)解即為信息補(bǔ)全的結(jié)果輸出.
Step 6結(jié)束.
算法終止.
本文采集濰坊市區(qū)部分路網(wǎng)的實際地磁數(shù)據(jù)作為數(shù)據(jù)源,路網(wǎng)數(shù)據(jù)采集范圍包括交叉口20個,如圖7所示,采集時間為2017年8月15日~10月15日,采樣周期為5 min,采集交通流參數(shù)為交通量,如表3所示.為了驗證本文方法,假設(shè)地磁檢測器并不能覆蓋所有的路段,即設(shè)定某幾條路段的地磁數(shù)據(jù)丟失,通過本文方法修復(fù)的數(shù)據(jù)與采集的真實數(shù)據(jù)進(jìn)行比較分析.
圖7 路網(wǎng)衛(wèi)星圖Fig.7 Road network satellite map
表3 路網(wǎng)地磁原始數(shù)據(jù)示例Table 3 The original data of geomagnetic detector
以路段為單位通過變換將路網(wǎng)切割成如圖8所示的二維圖,圖中每個方塊代表1個路段,以圖塊顏色表征路段流量.將流量數(shù)據(jù)導(dǎo)入相應(yīng)的數(shù)據(jù)網(wǎng)格中,通過Matlab生成二維信息圖,如圖8所示,將采集的歷史數(shù)據(jù)作為訓(xùn)練樣本應(yīng)用于本文的補(bǔ)全方法.
為了驗證修復(fù)方法的有效性,本文采用交通流量的偏差百分比來對修復(fù)效果進(jìn)行評價,即
式中:Vr為修復(fù)后的交通流量;Vo為交通信息未丟失之前的交通流量;N為交通信息丟失區(qū)域的交通圖像的色塊個數(shù);R即為歸一化的修復(fù)評價系數(shù).
圖8 分時段路網(wǎng)流量信息圖(訓(xùn)練樣本)Fig.8 Time-division road network flow information graph(Training sample)
本文針對單點(diǎn)交通數(shù)據(jù)缺失、小范圍數(shù)據(jù)缺失和大范圍交通數(shù)據(jù)缺失3種情況,選用基于相空間重構(gòu)的卡爾曼濾波方法作為傳統(tǒng)修復(fù)模型,與本文方法做對比.首先對歷史流量數(shù)據(jù)進(jìn)行了歸一化處理,然后采用Matlab函數(shù)調(diào)用卡爾曼濾波工具包.數(shù)據(jù)修復(fù)結(jié)果如下.
4.2.1 單點(diǎn)交通數(shù)據(jù)缺失
如圖9所示,對于單點(diǎn)交通數(shù)據(jù)的缺失,使用本文方法略差于傳統(tǒng)方法.這是由于本文方法是根據(jù)交通路網(wǎng)間的相關(guān)概率獲得的,而傳統(tǒng)方法是基于交通流量模型的歷史特性推演關(guān)聯(lián)關(guān)系,使用概率的結(jié)果會影響GAN網(wǎng)絡(luò)生成器的性能.但本文方法的修復(fù)偏差百分比為94.56%,比傳統(tǒng)模型方法略遜一籌.
4.2.2 數(shù)據(jù)缺失低于10%的補(bǔ)全效果
如圖10所示,對于小范圍交通數(shù)據(jù)的缺失(本實驗數(shù)據(jù)缺失量低于10%),兩種方法的修復(fù)偏差百分比分別為:91.67%和68.12%,使用本文方法所獲得的修復(fù)交通數(shù)據(jù)會優(yōu)于傳統(tǒng)方法.這是由于傳統(tǒng)方法需要明確的交通流量關(guān)聯(lián)關(guān)系才可獲得準(zhǔn)確的修復(fù)信息,而本文方法可以通過生成器的概率分析結(jié)合訓(xùn)練樣本,獲得滿足該路網(wǎng)交通信息的修復(fù)圖像.
圖9 單點(diǎn)數(shù)據(jù)缺失補(bǔ)全效果圖Fig.9 Single point missing data completion drawings
4.2.3 數(shù)據(jù)缺失量高于10%且低于30%的補(bǔ)全效果
如圖11所示,實驗數(shù)據(jù)丟失點(diǎn)位高于10%且低于30%,對于數(shù)據(jù)大范圍缺失的情況,傳統(tǒng)方法出現(xiàn)了明顯的錯誤數(shù)據(jù),而本文所提方法的修復(fù)偏差百分比為72.48%.結(jié)果表明,在數(shù)據(jù)缺失量低于30%的情況下,GAN算法可以在一定程度上修復(fù)大范圍缺失的交通信息,但缺失面積過大會影響算法的補(bǔ)全精度.
圖10 缺失量低于10%缺失補(bǔ)全效果圖Fig.10 Less than 10%missing data completion drawings
4.2.4 與傳統(tǒng)方法的對比
通過多次實驗擬合出不同缺失比例數(shù)據(jù)修復(fù)的對比曲線,如圖12所示,結(jié)果表明:GAN算法的修復(fù)評價系數(shù)整體要比卡爾曼濾波的性能更好;大范圍缺失的條件下,GAN算法的精度也只能保持在85%,相同條件下卡爾曼濾波方法得到明顯的錯誤修復(fù)值.綜合比較,GAN算法優(yōu)于傳統(tǒng)算法.
圖11 高于10%且低于30%數(shù)據(jù)缺失補(bǔ)全效果圖Fig.11 Above 10%and below 30%missing data completion drawings
圖12 數(shù)據(jù)修復(fù)結(jié)果對比圖Fig.12 Comparison diagram of data repair results
本文以路段實際流量數(shù)據(jù)為基礎(chǔ),首先提出交通路網(wǎng)信息二維圖理念,以具有顏色特征的色塊表征路段的交通信息,并利用顏色的變化表征數(shù)據(jù)的缺失情況;其次,計算考慮時空信息補(bǔ)償?shù)某鞘新肪W(wǎng)關(guān)聯(lián)矩陣,并以此建立路段間概率鄰接關(guān)系;再利用GAN算法對路網(wǎng)中的缺失數(shù)據(jù)進(jìn)行補(bǔ)償或重構(gòu).最后,利用濰坊市交警支隊提供的路段地磁數(shù)據(jù)對本文方法進(jìn)行了驗證并與經(jīng)典卡爾曼濾波方法進(jìn)行了對比.結(jié)果顯示,在不同數(shù)據(jù)量缺失的情況下,本文方法補(bǔ)全精度較高.本文方法為下一步利用補(bǔ)全數(shù)據(jù)進(jìn)行交叉口信號控制策略設(shè)計奠定了基礎(chǔ).