胡 雪,彭敦陸
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
近年來,汽車數(shù)量的快速增長(zhǎng)導(dǎo)致道路擁擠現(xiàn)象越來越嚴(yán)重,對(duì)交通管理的智能化迫在眉睫.行車數(shù)據(jù)是進(jìn)行智能交通網(wǎng)絡(luò)規(guī)劃、避免擁堵等應(yīng)用的基礎(chǔ),完整的數(shù)據(jù)有利于提取有價(jià)值的交通信息.然而,實(shí)際采集的真實(shí)數(shù)據(jù),由于檢測(cè)器故障、通信處理錯(cuò)誤等各種因素,往往使得來自多源感知設(shè)備的交通數(shù)據(jù)產(chǎn)生丟失的情況,甚至在一些情況下非常普遍[1].同時(shí),高速公路攝像頭(監(jiān)控視頻、圖像等)、流量檢測(cè)器等所采集的多模態(tài)交通數(shù)據(jù),其編碼方式、語義、標(biāo)識(shí)存在差異,導(dǎo)致了信息無法融合,形成一個(gè)個(gè)信息孤島.如何高效地實(shí)現(xiàn)多模態(tài)交通數(shù)據(jù)缺失值補(bǔ)全具有明顯的現(xiàn)實(shí)應(yīng)用意義.
國(guó)內(nèi)外學(xué)者提出了許多交通數(shù)據(jù)缺失的補(bǔ)全方法.研究人員最初將歷史(最近鄰)歸責(zé)方法[2]應(yīng)用到交通數(shù)據(jù)補(bǔ)全上.隨后基于主成分分析提出了大量數(shù)據(jù)補(bǔ)全方法,如貝葉斯主成分分析(BPCA)[3]和概率主成分分析法(PPCA)[4].作為一種能夠綜合表達(dá)數(shù)據(jù)的工具,近年來張量在數(shù)據(jù)處理領(lǐng)域中快速發(fā)展,尤其是在交通數(shù)據(jù)處理和挖掘領(lǐng)域應(yīng)用越來越廣.Acar[5]等人提出了用加權(quán)優(yōu)化的CP分解(CP-WOPT) 處理缺失值,通過實(shí)驗(yàn)驗(yàn)證具有很好的性能.
盡管在單一數(shù)據(jù)源時(shí)具有較好的表現(xiàn),但這些方法沒有對(duì)多模態(tài)數(shù)據(jù)集合進(jìn)行缺失數(shù)據(jù)補(bǔ)全的進(jìn)一步研究.基于此,本文針對(duì)交通監(jiān)控視頻(非結(jié)構(gòu)化數(shù)據(jù))與車流量探測(cè)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)),建立了用以描述多模態(tài)交通數(shù)據(jù)的張量模型,同時(shí)提出了基于Tucker-Crossover的多模態(tài)數(shù)據(jù)補(bǔ)全算法(Tucker-Crossover based Multimodal Data Imputation Algorithm,TCMD-IA).該方法融合了非結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù),通過張量對(duì)不同類型的數(shù)據(jù)進(jìn)行統(tǒng)一表達(dá),并改進(jìn)Tucker分解所得的因子矩陣,將其與另一階上所得的核矩陣進(jìn)行特征融合,從而進(jìn)一步提高數(shù)據(jù)補(bǔ)全的準(zhǔn)確性.結(jié)合真實(shí)的多模態(tài)交通數(shù)據(jù)集實(shí)驗(yàn),結(jié)果證明TCMD-IA對(duì)于多模態(tài)缺失數(shù)據(jù)的補(bǔ)全效果優(yōu)于其他方法,且魯棒性好.
論文其余部分的組織如下:第2部分介紹近年來交通數(shù)據(jù)缺失值估計(jì)的研究結(jié)果;第3部分給出本文所用符號(hào)的含義、張量理論基礎(chǔ)、多模態(tài)交通數(shù)據(jù)及問題定義;第4部分給出多模態(tài)交通數(shù)據(jù)的表達(dá)和本文提出的基于Tucker-Crossover的多模態(tài)數(shù)據(jù)補(bǔ)全算法(TCMD-IA);第5部分在真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),對(duì)所提算法進(jìn)行有效性驗(yàn)證;第6部分給出論文的結(jié)論.
過去幾十年中,學(xué)者們提出了各種補(bǔ)全算法已經(jīng)被應(yīng)用到缺失值補(bǔ)全中.歷史(最近鄰)歸責(zé)方法[2]通常用鄰近幾天同一時(shí)間、地點(diǎn)的已知數(shù)據(jù),通過取平均值等簡(jiǎn)單操作進(jìn)行填補(bǔ).Qu[3,4]等人提出了BPCA和PPCA,綜合考慮了交通數(shù)據(jù)的日周期性和區(qū)間變化,是解決交通流量數(shù)據(jù)估計(jì)的經(jīng)典方法,并通過實(shí)驗(yàn)證明了其有效性.Liu[6]等人首次提出了一種基于跡范數(shù)最小化的張量補(bǔ)全方法(HaLRTC).他們推廣了矩陣跡范數(shù)并定義了張量跟蹤范數(shù),從而將張量補(bǔ)全問題表示為一個(gè)凸優(yōu)化問題.Zhao[7]提出了一種基于分布式減法聚類的數(shù)據(jù)填充方法,通過利用云計(jì)算技術(shù)優(yōu)化聚類算法,根據(jù)聚類結(jié)果和加權(quán)距離進(jìn)行填充.Han[8]等人提出了一種基于不完備集的雙向聚類的算法,通過雙聚類的完美簇的特性來構(gòu)造屬性差異矩陣,保存了對(duì)象之間的最大相似屬性集,進(jìn)而以雙聚類的結(jié)果對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ).Li[9]等人使用同類簇的均值對(duì)不完備數(shù)據(jù)進(jìn)行預(yù)填充,通過形成初始完備數(shù)據(jù)集,進(jìn)一步對(duì)數(shù)據(jù)集聚類,并運(yùn)用同類簇的均值修正初始充填值.
在交通數(shù)據(jù)分析上,Tan[10]等人提出了多模式關(guān)聯(lián)張量模型,將交通數(shù)據(jù)分為鏈路、周、天、小時(shí)4個(gè)不同模式,構(gòu)建了四階張量交通數(shù)據(jù)表達(dá)模型.并提出了基于Tucker分解的流量數(shù)據(jù)注入方法(TDI),用于處理缺失數(shù)據(jù)的問題.該方法在保留矩陣模型優(yōu)點(diǎn)的基礎(chǔ)上,更好地挖掘了交通數(shù)據(jù)的潛在相關(guān)性.Asif[11]等人通過提取大型路網(wǎng)中常見的交通模式來估計(jì)缺失值,采用定點(diǎn)連續(xù)的近似奇異值分解、正則多進(jìn)分解、最小二乘和變分貝葉斯主成分分析,提出了多種基于矩陣和張量的交通數(shù)據(jù)補(bǔ)全方法.Chen[12]等人將貝葉斯概率矩陣分解模型推廣到高階張量,并將其應(yīng)用于時(shí)空交通數(shù)據(jù)的輸入任務(wù),通過大量實(shí)驗(yàn)探討了不同的數(shù)據(jù)表示方式對(duì)歸責(zé)性能的影響.Lin[13]等人提出了一種基于張量分解的張量補(bǔ)全算法,并在算法中引入了時(shí)空正則化約束,提高了算法的補(bǔ)全性能,該算法利用該代數(shù)框架對(duì)交通數(shù)據(jù)的缺失進(jìn)行處理效率更高.
目前交通數(shù)據(jù)的補(bǔ)全研究絕大多數(shù)是針對(duì)結(jié)構(gòu)化數(shù)據(jù),對(duì)于多模態(tài)交通數(shù)據(jù)的研究相對(duì)較少,而多源的異構(gòu)數(shù)據(jù)進(jìn)行融合處理對(duì)于交通數(shù)據(jù)的利用十分重要.因此,在本項(xiàng)研究中,我們提出了TCMD-IA方法,對(duì)結(jié)構(gòu)化和非結(jié)構(gòu)化兩種類型的數(shù)據(jù)缺失值進(jìn)行補(bǔ)全.該方法通過構(gòu)造合適的三階張量來表達(dá)包含時(shí)空信息的多模態(tài)交通數(shù)據(jù),結(jié)合Tucker分解,對(duì)其進(jìn)行最小二乘法分解所得的因子矩陣與核矩陣進(jìn)行交叉相乘,融合了不同階之間的潛在相關(guān)信息,從而提高對(duì)缺失數(shù)據(jù)的補(bǔ)全效果,通過實(shí)驗(yàn)證明該方法的估計(jì)效果優(yōu)于其他方法,且具有較好的魯棒性.
本節(jié)主要介紹多模態(tài)交通數(shù)據(jù),并且給出下文所需張量理論基礎(chǔ)、多模態(tài)交通數(shù)據(jù)知識(shí),同時(shí)定義了如何對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)全.3.1節(jié)給出所需張量理論基礎(chǔ).3.2節(jié)介紹了多模態(tài)交通數(shù)據(jù).3.3定義了本文所研究的問題.文章用到的符號(hào)以及其所代表的含義見表1.
表1 文章中所用符號(hào)其含義Table 1 Explanation of words used in paper
矩陣乘積:給定矩陣A∈RI×J和矩陣B∈RJ×K,我們稱C∈RI×K為A和B的乘積,用AB表示,其第(i,k)項(xiàng)如公式(1)所示.當(dāng)A的列數(shù)與B的行數(shù)相同時(shí),矩陣乘積才有意義.
(1)
n-Mode展開:對(duì)于張量X∈RI1×I2×…×Ir,從指定的第n階上進(jìn)行切割得到若干數(shù)據(jù)切片,其中1≤n≤r.將得到的切片以In為行,按順序展開合并成矩陣,我們將這一過程稱為張量的n-Mode展開.本文用Γ(X,n)表示張量在第n階的展開矩陣,如公式(2)所示:
(2)
n階模乘:給定張量X∈RI1×I2×…×Ir和矩陣M∈RIn×J,先將張量X在第n階上進(jìn)行n-Mode展開,然后將M與展開得到的矩陣相乘得到矩陣乘積,最后將得到的矩陣在第n階上重建張量,表達(dá)式如公式(3)所示:
X×nM∈RI1×In-1×J×In+1×…×Ir
(3)
圖1 Tucker分解Fig.1 Tucker decomposition
Tucker:以三階張量X∈RI1×I2×I3為例,如圖1所示,將X分解為一個(gè)核張量G∈RL1×L2×L3和3個(gè)因子矩陣U1∈RI1×L1,U2∈RI2×L2,U3∈RI3×L3,核張量G包含了不同階之間的潛在相關(guān)性,因子矩陣U1,U2,U3可以理解為張量模型在各個(gè)階的主成分,他們通常是兩兩正交的,三階張量的Tucker分解表達(dá)式如公式(4)所示:
(4)
生活中,交通數(shù)據(jù)的完整性對(duì)于進(jìn)一步數(shù)據(jù)分析、智能交通的優(yōu)化等具有十分重要的作用,如圖2所示.隨著技術(shù)的發(fā)展,我們收集交通數(shù)據(jù)的方法也越來越多,道路監(jiān)控?cái)?shù)據(jù)、流量檢測(cè)、GPS定位等設(shè)備都收集了成千上萬的數(shù)據(jù).這些數(shù)據(jù)由于來源的不同,導(dǎo)致了他們的編碼方式、語義的差異,構(gòu)成了信息孤島.但來自于不同平臺(tái)的異構(gòu)數(shù)據(jù),往往存在著相關(guān)性.例如對(duì)于同一路口的監(jiān)控錄像和車流量對(duì)于該路段的實(shí)時(shí)車況有著很高的價(jià)值,同時(shí)經(jīng)過該路段的GPS數(shù)據(jù)對(duì)于我們交通規(guī)劃也有很大的幫助.因此,將不同類型的交通數(shù)據(jù)通過特定的方法,本文采用張量進(jìn)行融合后,將原本無法交互的信息進(jìn)行統(tǒng)一映射,便于后續(xù)進(jìn)一步挖掘交通信息的相關(guān)性,提高交通數(shù)據(jù)的利用率,這一過程對(duì)于智能交通規(guī)劃、擁塞避免、智慧城市有著很大的意義.
圖2 多模態(tài)交通數(shù)據(jù)Fig.2 Multimodal traffic data
數(shù)據(jù)融合技術(shù)已在多傳感器環(huán)境中廣泛應(yīng)用,目的是通過使用多源數(shù)據(jù)來獲得較高的可靠性.但由于各種傳感器的特點(diǎn)以及數(shù)據(jù)類型的差異,以更小的代價(jià)獲取更高質(zhì)量的信息并不是一件簡(jiǎn)單的事情.在過去的十幾年中,學(xué)者們對(duì)數(shù)據(jù)融合做了較多的研究,主要包括信息融合的方法、結(jié)構(gòu)、層次以及信息的表示和轉(zhuǎn)換.但對(duì)于多模態(tài)交通數(shù)據(jù)的融合目前的研究本不是很多.本文針對(duì)非結(jié)構(gòu)化(道路監(jiān)控視頻)和結(jié)構(gòu)化(車流量)兩大類交通數(shù)據(jù),進(jìn)行張量建模,并對(duì)其所包含的缺失數(shù)據(jù)進(jìn)行補(bǔ)全.
結(jié)合上文提出的多模態(tài)交通數(shù)據(jù)張量模型,我們分別用P,W∈RI1×I2×I3表示完整數(shù)據(jù)和缺失權(quán)重張量.便于分析,我們將P分成實(shí)驗(yàn)數(shù)據(jù)和檢驗(yàn)數(shù)據(jù)兩部分.實(shí)驗(yàn)數(shù)據(jù)(即缺失數(shù)據(jù))用于驗(yàn)證缺失值估計(jì)的誤差,用Wi1,i2,i3=0表示.已知數(shù)據(jù)用用Wi1,i2,i3=1表示,所有已知數(shù)據(jù)的集合用Ω表示,如公式(5)所示:
(5)
我們可以根據(jù)P,W得到包含缺失的實(shí)驗(yàn)數(shù)據(jù)集A,表達(dá)如公式(6)所示:
Ai1,i2,i3=Pi1,i2,i3Wi1,i2,i3
(6)
多模態(tài)交通數(shù)據(jù)張量化后,估計(jì)缺失數(shù)據(jù)可以視為一個(gè)張量補(bǔ)全問題,其目標(biāo)是通過張量分解對(duì)缺失值進(jìn)行估計(jì),并且使估計(jì)值盡可能地接近真實(shí)值.用X表示填充后的數(shù)據(jù)集,那么,我們可以用公式(7)來表示目標(biāo)函數(shù):
min|P-X|,s.t.PΩ=XΩ
(7)
結(jié)合交通數(shù)據(jù),本文針對(duì)兩種不同類型的數(shù)據(jù)進(jìn)行缺失值估計(jì):1) 非結(jié)構(gòu)化數(shù)據(jù),主要包含道路監(jiān)控視頻;2) 結(jié)構(gòu)化數(shù)據(jù),主要針對(duì)車流量檢測(cè)數(shù)據(jù).交通監(jiān)控視頻主要包括視頻幀、分辨率、色彩空間等特征.其中分辨率由像素寬和高組成,色彩空間可用RGB表示.又可利用灰度值將三維RGB轉(zhuǎn)化為一維灰度值.轉(zhuǎn)化公式如公式(8)所示:
Gray=0.299Red+0.587Green+0.114Blue
(8)
因此,視頻數(shù)據(jù)可用三階張量T∈RIWI×IHI×IFR表示,其中IWI表示水平像素點(diǎn),IHI表示垂直像素點(diǎn),IFR表示視頻幀數(shù),對(duì)應(yīng)的數(shù)據(jù)為該像素點(diǎn)的灰度值.
車流量檢測(cè)數(shù)據(jù)通過道路檢測(cè)設(shè)備采集,每間隔一段時(shí)間收集通過車輛數(shù)目,可根據(jù)不同時(shí)間間隔分成不同的時(shí)間片數(shù)據(jù).根據(jù)文獻(xiàn)[14]中提出車流量信息以天和周為時(shí)間切割單位時(shí)具有一定的循環(huán)性和相關(guān)性,因此本文構(gòu)造F∈RITI×IDA×IWE來表達(dá)車流量數(shù)據(jù),其中ITI表示一天中測(cè)試車流量次數(shù),IDA表示按天為單位劃分,IWE表示按周為單位劃分,對(duì)應(yīng)的每個(gè)單元數(shù)據(jù)為車流量.
得到上述兩種不同類型的交通數(shù)據(jù)張量模型后,我們觀察可知,視頻數(shù)據(jù)的水平和垂直像素維數(shù)是固定的,幀數(shù)可隨著監(jiān)控時(shí)長(zhǎng)增加.同時(shí),車流量數(shù)據(jù)劃分之后,每天的測(cè)試次數(shù)與每周的天數(shù)是固定的,測(cè)試的周數(shù)是可增加的.即T,F第一、二階上的維度是不變的,第三階的維度會(huì)隨著時(shí)間的增加而變大.基于此,我們將上述兩種不同類型數(shù)據(jù)映射到同一張量P中,在第一階上取T,F維度之和,對(duì)其進(jìn)行疊加映射.在第二階上取T,F對(duì)應(yīng)維度的較大值,較小張量的對(duì)應(yīng)缺失數(shù)據(jù)置空.第三階的維數(shù)取決于時(shí)間長(zhǎng)短.得到融合了結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一表達(dá)張量P.
上節(jié)我們已經(jīng)將兩種不同類型的交通數(shù)據(jù)統(tǒng)一映射到張量空間中,本節(jié)我們將重點(diǎn)介紹Tucker-Crossover模型,并將其應(yīng)用到多模態(tài)張量表達(dá)下的交通數(shù)據(jù)補(bǔ)全上,并提出基于Tucker-Crossover的多模態(tài)交通數(shù)據(jù)補(bǔ)全算法(TCMD-IA).該方法利用了最小二乘法Tucker分解,計(jì)算三階張量模型的核張量和各階的因子矩陣.并提取核矩陣與另一階的因子矩陣進(jìn)行交叉相乘,將各階的潛在相關(guān)性融合到因子矩陣中,使其更具有特征性,增加了缺失數(shù)據(jù)補(bǔ)全的準(zhǔn)確性.
結(jié)合前文定義的P和W,構(gòu)造包含缺失的多模態(tài)交通數(shù)據(jù)集A∈RI1×I2×I3,通過最小二乘法的Tucker選取合適的初始核張量B∈RL1×L2×L3.將張量進(jìn)行n-Mode展開后與初始因子矩陣相乘,計(jì)算該次迭代的特征值與特征向量,排序后選取前n個(gè)特征值所對(duì)應(yīng)特征向量作為因子矩陣組成.迭代至收斂,可以得到最終的核張量B和因子矩陣Ut,即算法1中的Ft.
Ft∈RIt×Lt,wheret=1,2,3
(9)
核張量B表達(dá)了各階上數(shù)據(jù)之間的潛在相關(guān)性,因子矩陣則代表著各階的主要特征.針對(duì)不同的數(shù)據(jù),核張量不同.為了進(jìn)一步利用各階之間的潛在相關(guān)性,本文定義了核張量在第t階的特征矩陣為核矩陣Ct.
Ct∈RLt×Lt,wheret=1,2,3
(10)
為了更好地利用各階之間的潛在相關(guān)性,我們將因子矩陣Ft與下一階的核矩陣Ct進(jìn)行交叉相乘,得到特征矩陣Rt,最后結(jié)合Tucker進(jìn)行張量的重建,得到的X為補(bǔ)全缺失值后的完整數(shù)據(jù)集.該操作再次利用不同階之間的潛在相關(guān)性,將階之間的特征融合到特征矩陣中,從而提高了算法對(duì)于數(shù)據(jù)補(bǔ)全的準(zhǔn)確性.
Rt=FtCk,where k=(t+1)mod 3
(11)
X=B×1R1×2R2×3R3
(12)
TCMD-IA的偽代碼如算法1所示.算法第1行通過缺失權(quán)重張量W構(gòu)造了包含缺失的實(shí)驗(yàn)數(shù)據(jù)集A,如公式(6)所示.第2-12行為最小二乘法的Tucker分解,通過迭代將實(shí)驗(yàn)數(shù)據(jù)集分解成核張量B和因子矩陣Ft兩部分.第13-18行構(gòu)造了核矩陣Ct,將因子矩陣與下一階的核矩陣進(jìn)行信息融合,計(jì)算特征矩陣Rt.第19行重建完整張量,X可視為補(bǔ)全后的數(shù)據(jù)集.第20-22行,通過不同的評(píng)價(jià)指標(biāo)對(duì)缺失值補(bǔ)全效果進(jìn)行估計(jì).
算法1.基于Tucker-Crossover的多模態(tài)交通數(shù)據(jù)補(bǔ)全算法
輸入:包含完整數(shù)據(jù)和缺失權(quán)重張量P,W∈RI1×I2×I3和最大迭代次數(shù)maxIterate
輸出:補(bǔ)全評(píng)價(jià)指標(biāo)Δ
1. A←(P,W);
#通過最小二乘法Tucker分解構(gòu)建核張量與因子矩陣
2. InitialU;
3. For iterate i in 1:maxIterate do
4. For order n in 1:3 do
5. U=ttm(A,U,-n);
6.U{n}=nvecs(U,n);
7. End For
8. C=ttm(U,U,n);
9. End For
10. Ttensor=ttensor(C,U);
11.N=ndims(C);#計(jì)算核張量各階維數(shù)
12. B=Ttensor.C;
13. For order t in 1:3 do
14.Ft=C.Ttensor.Ut#因子矩陣
15.Ct=Ft(1:N{t},:);#核矩陣
16. k=(t+1) mod 3;
17.Rt=FtCk;#特征矩陣
18. End For
19. X=B×1R1×2R2×3R3;#重構(gòu)張量
20. For missing item in A do
21. Δ=Eval(P,X);
22. End for
實(shí)驗(yàn)道路監(jiān)控視頻與車流量數(shù)據(jù)采集于上海市楊浦區(qū)某路段.車流量數(shù)據(jù)選取的時(shí)間節(jié)點(diǎn)為2019年9月1日-2019年9月30日,每天的13點(diǎn)-21點(diǎn),以1分鐘為單位采集通過車輛數(shù),共14,400條數(shù)據(jù).道路監(jiān)控視頻像素656*656,共650幀.
(13)
(14)
錯(cuò)誤率(Error Ratio,ER)用來度量估計(jì)后張量項(xiàng)的恢復(fù)誤差,其表達(dá)式如公式(15)所示,值域?yàn)閇0,1],值越接近0表示數(shù)據(jù)補(bǔ)全的效果越接近真實(shí)值.
(15)
實(shí)驗(yàn)1.核張量大小對(duì)實(shí)驗(yàn)結(jié)果影響
實(shí)驗(yàn)通過設(shè)置核張量在各個(gè)階上維數(shù)的不同,探究了核張量大小對(duì)缺失數(shù)據(jù)估計(jì)的影響.本節(jié)根據(jù)核張量各階維數(shù)的比例,選取了[50~300,50~200,50~70]的取值范圍,通過隨機(jī)組合共設(shè)置了12組不同大小的核張量來探究核張量對(duì)缺失數(shù)據(jù)估計(jì)效果的影響,如表2所示.圖3給出不同核張量大小對(duì)缺失數(shù)據(jù)的補(bǔ)全效果RMSE折線對(duì)比圖.從圖中可以看出,C1-C4的RMSE較大,保持在112.3左右.隨著第二階維數(shù)的增加,C5-C8的RMSE下降至110附近.C9-C12四組的RMSE相對(duì)較小,且C10所包含的數(shù)據(jù)最少.因此,在后續(xù)實(shí)驗(yàn)中,我們選取C10所對(duì)應(yīng)的核張量大小,即[200,200,50].
表2 核張量表Table 2 Core tensor Table
圖3 核張量對(duì)補(bǔ)全效果影響Fig.3 Effects of core tensor on completion
實(shí)驗(yàn)2.與其他缺失值填充方法的比較
圖4 不同補(bǔ)全方法效果對(duì)比圖Fig.4 Comparison of different completion methods
實(shí)驗(yàn)設(shè)定P[:,:,90:100]為缺失數(shù)據(jù),其余數(shù)據(jù)為已知數(shù)據(jù),結(jié)果如圖4所示.RMSE子圖中,最大期望法的誤差最小,TCMD-IA僅次于最大期望法,且與前者差距較小,平均值法的誤差最大.R-square子圖中,TCMD-IA的得分最大,擬合效果最好,最大期望值得分最小.ER子圖中,TCMD-IA的錯(cuò)誤率最小,平均值法最大.綜合3種評(píng)價(jià)指標(biāo),我們可知T-CURE與TCMD-IA兩種基于張量的方法,相比于傳統(tǒng)方法對(duì)于缺失值處理的整體效果更佳,進(jìn)一步驗(yàn)證了前文給出的張量在數(shù)據(jù)處理領(lǐng)域的表現(xiàn).TCMD-IA通過Tucker分解所得的各階特征矩陣和不同階之間的相關(guān)性,更好地利用了已知數(shù)據(jù),從而提高了數(shù)據(jù)補(bǔ)全的準(zhǔn)確性,整體效果均優(yōu)于T-CURE.
實(shí)驗(yàn)3.不同缺失率下的數(shù)據(jù)補(bǔ)全效果
實(shí)驗(yàn)通過選取了不同的缺失率(Missing Ratio,MR)來進(jìn)一步衡量TCMD-IA對(duì)于多模態(tài)交通數(shù)據(jù)的補(bǔ)全效果.缺失率從10%-80%,每增加10%計(jì)算數(shù)據(jù)估計(jì)的RMSE、R-square和ER值,實(shí)驗(yàn)結(jié)果如表3所示.從表中可知,隨著缺失率不斷增加,TCMD-IA的補(bǔ)全效果在3種評(píng)價(jià)指標(biāo)下均表現(xiàn)優(yōu)秀,其RMSE穩(wěn)定在23左右,R-square維持在0.7,ER恒定在0.3,具有較高的魯棒性.這表明TCMD-IA在對(duì)數(shù)據(jù)補(bǔ)全的過程中,通過采用Tucker分解,對(duì)已知數(shù)據(jù)的比例要求并不是十分嚴(yán)格,僅需要少量已知數(shù)據(jù)即可進(jìn)行高質(zhì)量數(shù)據(jù)估計(jì),因此更適合于缺失率較大的情況.
表3 不同缺失率下的數(shù)據(jù)補(bǔ)全實(shí)驗(yàn)結(jié)果Table 3 Experimental results of data completion under different miss rates
多模態(tài)交通數(shù)據(jù)的表達(dá)有利于數(shù)據(jù)的統(tǒng)一處理,同時(shí),交通數(shù)據(jù)的補(bǔ)全可以幫助我們更好地挖掘數(shù)據(jù)的相關(guān)性和潛在價(jià)值,進(jìn)一步為智能交通網(wǎng)絡(luò)規(guī)劃、避免擁堵等應(yīng)用提供可靠數(shù)據(jù).本文所提的模型將結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)通過張量方法進(jìn)行融合表達(dá),并在此基礎(chǔ)上提出了基于Tucker-Crossover的多模態(tài)數(shù)據(jù)補(bǔ)全算法(TCMD-IA).該方法通過Tucker分解,將因子矩陣與另一階分解所得核矩陣交叉相乘,更好地融合了階與階的特征,進(jìn)一步利用了不同階的潛在相關(guān)性,從而提高算法的補(bǔ)全效果.在真實(shí)數(shù)據(jù)集上實(shí)驗(yàn)表明,文本所提算法具有更好地補(bǔ)全效果和魯棒性.下一步工作將繼續(xù)考慮更多不同類型的數(shù)據(jù)進(jìn)行融合,提高缺失數(shù)據(jù)統(tǒng)一補(bǔ)全的效果.