郭鳳香,黃金濤,陳昱光,郭延永,劉攀*
(1.昆明理工大學(xué),交通工程學(xué)院,昆明 650504;2.東南大學(xué),交通學(xué)院,南京 210096)
交通數(shù)據(jù)采集和處理是城市智能交通系統(tǒng)構(gòu)建的關(guān)鍵,而完備的道路交通信息則是把握路網(wǎng)動(dòng)態(tài)所必需的。但是,在實(shí)際環(huán)境中交通數(shù)據(jù)的采集設(shè)備常會(huì)因設(shè)備故障或傳輸故障等問(wèn)題導(dǎo)致所采集的數(shù)據(jù)是缺失的。對(duì)于缺失數(shù)據(jù)傳統(tǒng)的做法是直接刪除,但這樣做往往會(huì)嚴(yán)重影響樣本分布,導(dǎo)致下游任務(wù)無(wú)法順利展開(kāi),進(jìn)而影響最終結(jié)果。為了解決上述問(wèn)題,對(duì)這些缺失數(shù)據(jù)進(jìn)行相應(yīng)的補(bǔ)全成為研究的關(guān)鍵。近年來(lái),隨著計(jì)算能力和統(tǒng)計(jì)學(xué)方法的不斷發(fā)展,針對(duì)缺失數(shù)據(jù)的研究得到了顯著進(jìn)展。各種復(fù)雜而靈活的缺失數(shù)據(jù)處理方法應(yīng)運(yùn)而生,目前,主流的數(shù)據(jù)填補(bǔ)方法分為3種,即插值填補(bǔ)法、預(yù)測(cè)填補(bǔ)法和統(tǒng)計(jì)學(xué)習(xí)填補(bǔ)法[1]。
對(duì)于連續(xù)且具有時(shí)間特性的交通數(shù)據(jù)來(lái)說(shuō),相鄰的數(shù)據(jù)之間存在關(guān)聯(lián)性,因此使用相鄰非缺失數(shù)據(jù)的均值進(jìn)行插值填補(bǔ)十分有效。簡(jiǎn)單的插值方法如線性插值和樣條插值法,但這類(lèi)方法只考慮前后數(shù)據(jù)特征,無(wú)法處理高缺失率及高維度的缺失情況。K-最近鄰算法(KNN)對(duì)于處理時(shí)間關(guān)聯(lián)性數(shù)據(jù)具有特別優(yōu)勢(shì),因此被廣泛用于數(shù)據(jù)填補(bǔ)。Zhang 等[2]改進(jìn)KNN 模型通過(guò)計(jì)算缺失數(shù)據(jù)和所有訓(xùn)練數(shù)據(jù)之間的灰度距離,為缺失數(shù)據(jù)選擇K最近鄰為缺失數(shù)據(jù)進(jìn)行補(bǔ)全,但該方法填補(bǔ)效果依賴(lài)于參數(shù)選取,填補(bǔ)效率不高。Cheng 等[3]建立了一種自適應(yīng)時(shí)空K最近鄰模型,綜合考慮城市交通的空間異質(zhì)性,模型的泛化能力較強(qiáng),但該方法適用于短時(shí)隨機(jī)缺失,對(duì)于長(zhǎng)序列連續(xù)缺失,適用性不高。
預(yù)測(cè)填補(bǔ)法主要是解決完全缺失數(shù)據(jù)填補(bǔ)問(wèn)題,可根據(jù)歷史數(shù)據(jù)和其他相關(guān)特征屬性利用相關(guān)預(yù)測(cè)方法估計(jì)缺失值。典型的方法如自回歸綜合移動(dòng)平均(ARIMA)[4]、支持向量機(jī)(SVM)[5]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[6]等。隨著數(shù)據(jù)量的激增,機(jī)器學(xué)習(xí)和深度學(xué)習(xí)被廣泛應(yīng)用于缺失數(shù)據(jù)預(yù)測(cè)。Zhang等[7]提出一種基于圖卷積網(wǎng)絡(luò)模型的交通數(shù)據(jù)完成模型,結(jié)合時(shí)空特征推導(dǎo)缺失值,但模型僅對(duì)時(shí)空依賴(lài)關(guān)系明顯的交通參數(shù)具有良好效果,對(duì)時(shí)空關(guān)系不顯著數(shù)據(jù)的填補(bǔ)效果則差強(qiáng)人意??紤]到不同交通場(chǎng)景信息對(duì)數(shù)據(jù)填補(bǔ)的影響,Yang等[8]提出了一種時(shí)空可學(xué)的雙向注意生成對(duì)抗網(wǎng)絡(luò)來(lái)進(jìn)行數(shù)據(jù)補(bǔ)全,模型可自主學(xué)習(xí)優(yōu)化參數(shù),在低維數(shù)據(jù)補(bǔ)全任務(wù)中性能得到改善。對(duì)于高維復(fù)雜交通數(shù)據(jù),Wu等[9]設(shè)計(jì)了一個(gè)多注意張量完成網(wǎng)絡(luò)來(lái)進(jìn)行數(shù)據(jù)補(bǔ)全,增強(qiáng)了對(duì)復(fù)雜數(shù)據(jù)缺失補(bǔ)全。這種基于網(wǎng)絡(luò)模型的預(yù)測(cè)方法總體效果較好,但對(duì)于小樣本數(shù)據(jù),模型就會(huì)失效,即數(shù)據(jù)量不足,模型無(wú)法訓(xùn)練。此外,對(duì)于多變量隨機(jī)缺失,由于填補(bǔ)位置分散,缺失數(shù)據(jù)所處位置前后不一,使得填補(bǔ)工作復(fù)雜化。
統(tǒng)計(jì)學(xué)習(xí)方法通常會(huì)對(duì)數(shù)據(jù)集分布進(jìn)行先驗(yàn)假設(shè),缺失值也適應(yīng)相關(guān)的分布。例如,Lei等[10]引入時(shí)空高斯過(guò)程(GP)先驗(yàn)來(lái)模擬低秩矩陣分解框架中的潛在因素進(jìn)行數(shù)據(jù)填補(bǔ),模型改進(jìn)了GP 超參數(shù)學(xué)習(xí)方法,強(qiáng)調(diào)對(duì)交通數(shù)據(jù)的時(shí)空一致性描述。Wu等[11]利用交通數(shù)據(jù)的全局和非局部低階先驗(yàn),提出一種用于時(shí)空交通數(shù)據(jù)插補(bǔ)的張量完成模型,但該方法僅考慮了隨機(jī)缺失,相對(duì)于連續(xù)缺失,該方法并不適用。Huang等[12]提出一個(gè)基于概率一般線性模型的主成分分析來(lái)解決數(shù)據(jù)隨機(jī)丟失問(wèn)題和交通速度數(shù)據(jù)的估算問(wèn)題,該方法對(duì)城市多樣交通數(shù)據(jù)補(bǔ)全效果欠佳。
綜上,現(xiàn)有研究仍有以下幾點(diǎn)不足:(1)基于深度學(xué)習(xí)的數(shù)據(jù)填補(bǔ)方法需要一定的數(shù)據(jù)量才能完成模型訓(xùn)練,且模型的超參數(shù)較多,對(duì)超參數(shù)的優(yōu)化開(kāi)銷(xiāo)太大,因此對(duì)小樣本數(shù)據(jù)的填補(bǔ)任務(wù)適應(yīng)度不高。(2)當(dāng)數(shù)據(jù)缺失模式為隨機(jī)時(shí),缺失數(shù)據(jù)的插補(bǔ)方法多依賴(lài)于相鄰數(shù)據(jù)進(jìn)行插值處理。而由于采集設(shè)備故障或在某一時(shí)段該地?zé)o檢測(cè)設(shè)備響應(yīng)導(dǎo)致的數(shù)據(jù)連續(xù)丟失,一般的插值方法就會(huì)失效,故而針對(duì)不同的數(shù)據(jù)缺失類(lèi)型需要更換不同方法,影響填補(bǔ)效率。(3)對(duì)于數(shù)據(jù)連續(xù)缺失問(wèn)題,常使用預(yù)測(cè)填補(bǔ)法和統(tǒng)計(jì)學(xué)習(xí)方法來(lái)解決,但預(yù)測(cè)填補(bǔ)法無(wú)法使用后續(xù)數(shù)據(jù)對(duì)靠前數(shù)據(jù)進(jìn)行預(yù)測(cè)補(bǔ)全,同時(shí)在實(shí)際中交通數(shù)據(jù)分布隨機(jī)且復(fù)雜,故而僅憑統(tǒng)計(jì)學(xué)習(xí)方法假設(shè)數(shù)據(jù)滿足相同分布亦會(huì)使得插補(bǔ)誤差增大。
針對(duì)上述數(shù)據(jù)缺失場(chǎng)景各填補(bǔ)方法存在的問(wèn)題,本文提出一種多種缺失模式下交通數(shù)據(jù)組合近似填補(bǔ)方法。利用最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)進(jìn)行填補(bǔ)增強(qiáng)模型在小樣本數(shù)據(jù)的適應(yīng)性;為了提高模型效率,使用鯨魚(yú)優(yōu)化算法(Whale Optimization Algorithm,WOA)優(yōu)化LSSVM的超參數(shù),解決模型部分參數(shù)人工選取問(wèn)題。根據(jù)缺失數(shù)據(jù)自身的單變量特征以及與其相關(guān)的多變量特征,引入多重插補(bǔ)的思想,分別對(duì)缺失數(shù)據(jù)進(jìn)行單變量填補(bǔ)和多變量填補(bǔ),提取缺失數(shù)據(jù)的自身變化規(guī)律及長(zhǎng)期波動(dòng)特征,解決模型在多種缺失模式下的一法多用問(wèn)題。最后依據(jù)單變量填補(bǔ)和多變量填補(bǔ)的差異度,提出使用自適應(yīng)閾值分割法賦予不同時(shí)段的閾值,根據(jù)動(dòng)態(tài)閾值對(duì)單變量填補(bǔ)結(jié)果和多變量填補(bǔ)結(jié)果進(jìn)行加權(quán)求和后輸出,以滿足不同時(shí)段多種交通數(shù)據(jù)缺失場(chǎng)景,為研究交通數(shù)據(jù)補(bǔ)全提供新思路。
對(duì)于缺失填補(bǔ)主要有兩種思路,即單變量填補(bǔ)和多變量填補(bǔ)。單變量填補(bǔ)主要利用單變量信息,填補(bǔ)缺失數(shù)據(jù);而多變量填補(bǔ)則是利用與缺失變量相關(guān)的其他變量信息對(duì)缺失數(shù)據(jù)進(jìn)行填補(bǔ)。將兩者相結(jié)合提出基于WOA-LSSVM模型的組合近似填補(bǔ)方法,方法流程如圖1所示。首先根據(jù)單變量填補(bǔ)和多變量填補(bǔ)特征構(gòu)建訓(xùn)練數(shù)據(jù)集,對(duì)于單變量數(shù)據(jù),利用滑動(dòng)窗口分別對(duì)q個(gè)特征列H構(gòu)建單變量數(shù)據(jù)樣本;對(duì)于多變量數(shù)據(jù)則是以缺失數(shù)據(jù)所屬變量為標(biāo)簽,以該變量相關(guān)的其他變量為特征輸入構(gòu)建多變量數(shù)據(jù)樣本。再根據(jù)單變量樣本數(shù)據(jù),使用WOA-LSSVM 模型進(jìn)行單變量填補(bǔ),將填補(bǔ)結(jié)果輸入到多變量數(shù)據(jù)樣本的特征輸入中作為訓(xùn)練數(shù)據(jù)集,利用WOA-LSSVM模型來(lái)預(yù)測(cè)缺失值,同時(shí)引用鏈?zhǔn)蕉嘀靥钛a(bǔ)思想,將預(yù)測(cè)結(jié)果與原值進(jìn)行比較分析后,輸出多變量填補(bǔ)結(jié)果。最后考慮到交通的周期性特征使用自適應(yīng)閾值分割法劃分不同時(shí)段下的動(dòng)態(tài)閾值,依據(jù)閾值將單變量填補(bǔ)結(jié)果和多變量填補(bǔ)結(jié)果結(jié)合完成缺失值填補(bǔ)。
圖1 組合近似填補(bǔ)方法流程Fig.1 Combined approximate fill method flow
LSSVM 是在SVM 基礎(chǔ)上建立的一種改進(jìn)算法,LSSVM以等式約束條件代替標(biāo)準(zhǔn)SVM中的不等式約束條件,采用最小二乘線性系統(tǒng)誤差和作為損失函數(shù),降低模型復(fù)雜度,減少訓(xùn)練時(shí)間,克服數(shù)據(jù)量較少的問(wèn)題。
將采集的路網(wǎng)浮動(dòng)車(chē)實(shí)時(shí)運(yùn)行數(shù)據(jù)進(jìn)行預(yù)處理,處理后構(gòu)建訓(xùn)練集D={(xi,yi)|i=1,2,…,n},其中,xi為第i個(gè)輸入樣本,yi為第i個(gè)輸出樣本,n為樣本數(shù)。模型的優(yōu)化目標(biāo)與約束條件為
式中:J(·)為損失函數(shù);w為權(quán)重向量;b為偏差參數(shù);φ為核函數(shù);γ為懲罰因子;ei為第i個(gè)樣本的隨機(jī)誤差。
LSSVM 的核函數(shù)K(xi,xj)對(duì)模型的魯棒性及泛化能力有著較高的影響,大量研究表明,高斯徑向基(RBF)函數(shù)在預(yù)測(cè)任務(wù)中表現(xiàn)良好,因此本文選取RBF作為核函數(shù),即
式中:xj為第j個(gè)輸入樣本;σ為核函數(shù)寬度。
LSSVM的預(yù)測(cè)精度取決于核函數(shù)寬度σ及懲罰因子γ,不合理的參數(shù)設(shè)置容易使LSSVM 陷入局部最優(yōu),導(dǎo)致模型預(yù)測(cè)精度不佳。故本文引入鯨魚(yú)優(yōu)化算法(WOA),進(jìn)行全局尋優(yōu),以提高模型建模精度。其優(yōu)化流程如圖2所示,具體步驟如下。
圖2 WOA-LSSVM模型Fig.2 WOA-LSSVM model
Step 1 為統(tǒng)一量綱,減少樣本數(shù)據(jù)存在數(shù)量級(jí)的差距,將樣本數(shù)據(jù)做歸一化處理。
Step 2 WOA初始參數(shù)設(shè)置。主要設(shè)置變量數(shù)Vdim、最大迭代次數(shù)tMaxiItem,鯨魚(yú)種群規(guī)模為S,變量下限bl及變量上限bu。
Step 3生成初始位置坐標(biāo)X0(γ,σ),基于初始位置構(gòu)建LSSVM模型,并進(jìn)行模型訓(xùn)練。
Step 4 根據(jù)預(yù)測(cè)結(jié)果計(jì)算LSSVM模型的均方根誤差(RMSE)作為適應(yīng)度值,保留最小適應(yīng)度值對(duì)應(yīng)最優(yōu)鯨魚(yú)位置坐標(biāo)X*(γ,σ),作為當(dāng)前最優(yōu)個(gè)體位置。
Step 5 若迭代次數(shù)t <tMaxiItem,則根據(jù)選擇收縮包圍機(jī)制概率P和系數(shù)向量A,更新位置坐標(biāo)。
當(dāng) |A|<1且p <0.5 時(shí),更新位置為
當(dāng) |A|<1且p >0.5 時(shí),更新位置為
當(dāng) |A|≥1時(shí),更新位置為
式中:t為迭代次數(shù);X(t)為當(dāng)前鯨魚(yú)位置坐標(biāo);X*(t)為鯨魚(yú)最優(yōu)位置坐標(biāo);D為鯨魚(yú)與獵物之間的距離;C為系數(shù)常量;g為常數(shù)用于定義螺旋形狀;l為[-1,1]中的隨機(jī)數(shù);Xrand(t)為隨機(jī)坐標(biāo),即當(dāng)|A|≥1 為隨機(jī)搜尋方式,當(dāng) |A|<1 時(shí),選擇螺旋包圍方式。利用更新后的位置坐標(biāo)訓(xùn)練LSSVM模型。
Step 6 重新計(jì)算模型預(yù)測(cè)的均方根誤差,保留最小適應(yīng)度的鯨魚(yú)位置坐標(biāo),并輸出結(jié)果。
數(shù)據(jù)填補(bǔ)主要考慮兩種情況,即單變量填補(bǔ)和多變量填補(bǔ)。單變量填補(bǔ)顧名思義就是利用缺失數(shù)據(jù)自身的變量信息進(jìn)行模型訓(xùn)練,強(qiáng)調(diào)捕捉單個(gè)變量?jī)?nèi)在的變化特征,完成數(shù)據(jù)填補(bǔ)。而多變量填補(bǔ)則是利用與缺失變量相關(guān)的其他變量信息構(gòu)建模型進(jìn)行填補(bǔ),達(dá)到獲取連續(xù)缺失信息的目的。以往對(duì)于多變量填補(bǔ)多使用鏈?zhǔn)蕉嘀靥钛a(bǔ),未考慮缺失變量自身的內(nèi)在規(guī)律,因此本文提出組合近似填補(bǔ)方法(CAF),其填補(bǔ)流程如下。
Step 1 構(gòu)建數(shù)據(jù)集
標(biāo)記數(shù)據(jù)集中各屬性變量缺失值。依據(jù)單變量和多變量的特征,分別構(gòu)建訓(xùn)練數(shù)據(jù)集。對(duì)于單變量樣本,需要先剔除缺失值,將數(shù)據(jù)集中的數(shù)據(jù)分組,每組前k個(gè)值作為特征輸入,第k+1 作為標(biāo)簽,滑動(dòng)步長(zhǎng)默認(rèn)為1 構(gòu)建訓(xùn)練集,如圖3(a)所示;對(duì)于多變量填補(bǔ)是以缺失數(shù)據(jù)所屬變量為標(biāo)簽,以該變量相關(guān)的其他變量為特征輸入構(gòu)建多變量數(shù)據(jù)樣本,如圖3(b)所示。
圖3 訓(xùn)練集構(gòu)建過(guò)程Fig.3 Training set construction process
Step 2 單變量填補(bǔ)
利用單變量樣本數(shù)據(jù)集訓(xùn)練WOA-LSSVM。然后針對(duì)單個(gè)變量特征的缺失值使用訓(xùn)練后的模型進(jìn)行填補(bǔ),輸出單個(gè)變量缺失值的填補(bǔ)結(jié)果yui。
Step 3 多變量填補(bǔ)
將Step 2 中的輸出結(jié)果補(bǔ)全多變量樣本數(shù)據(jù)集中的特征輸入,完善訓(xùn)練集后進(jìn)行WOALSSVM 模型訓(xùn)練,最后使用訓(xùn)練后的模型對(duì)整個(gè)缺失數(shù)據(jù)特征列進(jìn)行預(yù)測(cè)。此時(shí)得到的數(shù)據(jù)并非數(shù)據(jù)的填補(bǔ)值,還需要將預(yù)測(cè)結(jié)果與缺失數(shù)據(jù)列進(jìn)行對(duì)比分析,依據(jù)預(yù)測(cè)結(jié)果,選取與缺失值預(yù)測(cè)結(jié)果相近的值作為參照,設(shè)置鄰近匹配數(shù)(Number of Proximity Matches,NPM)來(lái)限制匹配鄰近值的參考數(shù)量,假設(shè)NPM 為3,則計(jì)算3 個(gè)鄰近預(yù)測(cè)值均值與原數(shù)據(jù)值的比值,根據(jù)比值對(duì)缺失數(shù)據(jù)預(yù)測(cè)值等比例縮放后得到多變量填補(bǔ)結(jié)果。對(duì)所有缺失屬性均執(zhí)行上述操作,直到所有特征屬性無(wú)缺失值,得到多變量填補(bǔ)結(jié)果ymi。
Step 4 組合近似填補(bǔ)
以Step 2 和Step 3 填補(bǔ)結(jié)果為基礎(chǔ)設(shè)定閾值,當(dāng)兩者填補(bǔ)結(jié)果差異度超過(guò)閾值,選取最大結(jié)果作為參考對(duì)模型填補(bǔ)結(jié)果進(jìn)行修正;當(dāng)兩者填補(bǔ)結(jié)果差異度低于閾值,選取最小結(jié)果作為參考對(duì)模型填補(bǔ)結(jié)果進(jìn)行修正,修正后得到最終結(jié)果。計(jì)算公式為
考慮到交通數(shù)據(jù)的周期性特征,不同時(shí)段數(shù)據(jù)分布特征不同,本文引入圖像識(shí)別中的自適應(yīng)閾值分割法,其思想不是計(jì)算全局閾值,而是針對(duì)不同局部區(qū)域自適應(yīng)計(jì)算不同閾值。因此對(duì)不同時(shí)段內(nèi)的數(shù)據(jù)依據(jù)填補(bǔ)結(jié)果差異度劃分不同閾值,避免不同交通流狀態(tài)下填補(bǔ)界限模糊。該閾值設(shè)置為在時(shí)段T下所有缺失位置的差異度平均值,以實(shí)現(xiàn)不同時(shí)段閾值的自動(dòng)確定,從而對(duì)不同時(shí)段下的不同閾值進(jìn)行自適應(yīng),其計(jì)算公式為
式中:M為在t時(shí)段下缺失值數(shù)量。
利用車(chē)載診斷系統(tǒng)(On-Board Diagnostics,OBD)采集獲得云南省玉溪市實(shí)車(chē)軌跡數(shù)據(jù),數(shù)據(jù)采集頻率為6 s·次-1。數(shù)據(jù)字段包括車(chē)輛代碼、GPS時(shí)間、車(chē)輛定位信息、速度集合等信息,其中,每次上傳速度數(shù)據(jù)為6個(gè),即可認(rèn)為速度數(shù)據(jù)采集頻率為1 s·次-1。采 用2022 年2 月21 日 和22 日9:00-19:00的浮動(dòng)車(chē)軌跡數(shù)據(jù),處理后得到6291450個(gè)軌跡點(diǎn)。本文共選取8 條路段,如圖4 所示。提取各路段軌跡數(shù)據(jù),按5 min 時(shí)間間隔計(jì)算路段平均速度和路段平均行程時(shí)間,同時(shí)根據(jù)軌跡數(shù)據(jù)計(jì)算對(duì)比度(CON)和逆方差(IDM),以分別描述車(chē)輛的加減速工況和怠速工況[13]。最終得到道路完整參數(shù)數(shù)據(jù)集如表1所示。
表1 道路參數(shù)數(shù)據(jù)集Table 1 Dataset of road parameters
圖4 實(shí)驗(yàn)路段Fig.4 Experimental section
為驗(yàn)證本文填補(bǔ)方法的有效性,同時(shí)針對(duì)交通數(shù)據(jù)缺失特點(diǎn)設(shè)計(jì)兩種缺失模式:一種是由于浮動(dòng)車(chē)分布不均導(dǎo)致路段短時(shí)間內(nèi)沒(méi)有車(chē)輛經(jīng)過(guò)產(chǎn)生隨機(jī)缺失,如圖5(a)所示;另一種是由于設(shè)備問(wèn)題導(dǎo)致路段上數(shù)據(jù)的連續(xù)缺失,如圖5(b)所示。為還原數(shù)據(jù)缺失隨機(jī)性,在完整數(shù)據(jù)集中利用隨機(jī)函數(shù)還原兩種缺失模式。同時(shí),利用鏈?zhǔn)蕉嘀靥钛a(bǔ)(MICE)[14]和K-最近鄰(KNN)填補(bǔ)[15]與組合近似填補(bǔ)(CAF)方法進(jìn)行對(duì)比,以比較模型填補(bǔ)效果。閾值更新時(shí)間為2 h,其他模型的初始參數(shù)設(shè)置如表2所示。
表2 實(shí)驗(yàn)初始參數(shù)設(shè)置Table 2 Initial parameter settings for experiment
圖5 缺失模式Fig.5 Missing patterns
本文使用兩個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)價(jià)模型的補(bǔ)全效果,分別為平均絕對(duì)誤差(MAE)和均方根誤差(RMSE),其表達(dá)式為
式中:N為缺失數(shù)據(jù)個(gè)數(shù);Yi為第i個(gè)實(shí)際值;為第i個(gè)填補(bǔ)值。
為探究不同缺失模式下多變量填補(bǔ)模型和單變量填補(bǔ)模型填補(bǔ)效果的差異度,本文在上述兩種數(shù)據(jù)缺失模式下,以5%的缺失率設(shè)計(jì)對(duì)比實(shí)驗(yàn)。以平均速度為列,利用WOA 算法進(jìn)行迭代優(yōu)化模型參數(shù),迭代過(guò)程如圖6所示。利用訓(xùn)練好的模型進(jìn)行多變量和單變量填補(bǔ)其差異度結(jié)果如圖7 所示。從圖中可以看出,無(wú)論是隨機(jī)缺失(圖7(a))還是連續(xù)缺失(圖7(b)),模型差異度較大的地方多集中于真實(shí)值中的低值,當(dāng)缺失值低于10時(shí),兩種填補(bǔ)方法差距急劇擴(kuò)大,最大差異度達(dá)到80%。這是由于在低數(shù)值階段差異度的分母較小,放大了差異度,而在高數(shù)值階段分母較大縮小了差異度。從兩種缺失模式下的填補(bǔ)效果來(lái)看,隨機(jī)數(shù)據(jù)缺失的填補(bǔ)結(jié)果更加穩(wěn)定。這也表明,在不同數(shù)據(jù)量綱中簡(jiǎn)單地使用其中一種填補(bǔ)方式的填補(bǔ)結(jié)果過(guò)于片面,需要更多的數(shù)據(jù)參考,以增強(qiáng)填補(bǔ)效果。
圖6 模型迭代圖Fig.6 Model iteration diagram
圖7 多變量與單變量填補(bǔ)差異度Fig.7 Multivariate versus univariate imputation dissimilarity
為對(duì)比CAF 的填補(bǔ)效果,選取MICE 和KNN作為基線模型進(jìn)行對(duì)比,以平均行駛速度和平均路段行程時(shí)間為例,當(dāng)缺失率為5%時(shí),3 個(gè)模型的填補(bǔ)結(jié)果如圖8 所示。從圖中可以看出:3 個(gè)模型的填補(bǔ)值與真實(shí)值分散程度相近,模型在隨機(jī)缺失模式下補(bǔ)全效果最好;在連續(xù)缺失情況下由于長(zhǎng)序列缺失,使得模型填補(bǔ)誤差較大,但模型CAF的填補(bǔ)表現(xiàn)較KNN和MICE優(yōu)異。此外,對(duì)比平均行駛速度和平均路段行程時(shí)間的填補(bǔ)效果可以看出,當(dāng)缺失數(shù)據(jù)離散程度較高時(shí),模型的填補(bǔ)難度增大,相較于KNN 捕捉缺失數(shù)據(jù)的變化趨勢(shì)和MICE 提取缺失數(shù)據(jù)的波動(dòng)情況,CAF利用單變量和多變量進(jìn)行組合填補(bǔ)達(dá)到同時(shí)提取缺失數(shù)據(jù)變化趨勢(shì)和波動(dòng)情況的目的,繼而提高缺失數(shù)據(jù)補(bǔ)全準(zhǔn)確性。
圖8 模型填補(bǔ)結(jié)果Fig.8 Model filling results
為進(jìn)一步比較3種方法的填補(bǔ)效果,以路段平均速度為填補(bǔ)對(duì)象,改變?nèi)笔?,研究在兩種缺失情況下,不同缺失率模型的填補(bǔ)效果,結(jié)果如圖9所示。從圖中可以看出:隨著缺失比例的升高,模型的誤差增高;在平均速度隨機(jī)缺失的情況下模型的RMSE 和MAE 比數(shù)據(jù)連續(xù)缺失更低,當(dāng)缺失率達(dá)到30%時(shí)最為明顯;數(shù)據(jù)隨機(jī)缺失情況下,CAF模型的RMSE僅為0.37,而連續(xù)缺失情況下CAF模型的缺失值為1.81,這說(shuō)明模型對(duì)隨機(jī)缺失適用性更好。本文提出的CAF 缺失值補(bǔ)全方法在各種缺失概率下均優(yōu)于另外兩種缺失補(bǔ)全算法,尤其是在連續(xù)缺失填補(bǔ)中,CAF 的RMSE 和MAE 均遠(yuǎn)低于對(duì)比算法,當(dāng)缺失率為25%時(shí),CAF相較于KNN和MICE的平均絕對(duì)誤差(MAE)下降了70%。原因在于本文算法考慮了其他變量特征對(duì)缺失變量的影響,繼而掌握了缺失變量值的長(zhǎng)期波動(dòng),同時(shí)也考慮了自身數(shù)值的變化規(guī)律,能夠更好地捕捉缺失數(shù)據(jù)本身的浮動(dòng)規(guī)律,提高了缺失值的填補(bǔ)精度。
圖9 不同缺失率下模型填補(bǔ)結(jié)果Fig.9 Model imputation results under different missing rates
本文針對(duì)交通數(shù)據(jù)缺失問(wèn)題提出基于WAOLSSVM 的組合近似填補(bǔ)方法,根據(jù)單變量和多變量的組合填補(bǔ)結(jié)果捕捉缺失數(shù)據(jù)的短期變化趨勢(shì)和長(zhǎng)序列的波動(dòng)特征以提高缺失值補(bǔ)全精度。利用云南省玉溪市軌跡處理數(shù)據(jù)進(jìn)行實(shí)驗(yàn),根據(jù)實(shí)驗(yàn)結(jié)果可以得到以下結(jié)論。
(1)數(shù)據(jù)隨機(jī)缺失情況下的填補(bǔ)效果優(yōu)于連續(xù)缺失,數(shù)據(jù)連續(xù)缺失序列越長(zhǎng),填補(bǔ)誤差越大。通過(guò)實(shí)驗(yàn)表明,模型在缺失率較大的情況下依然保持良好的填補(bǔ)精度,證明在利用數(shù)據(jù)本身時(shí)序規(guī)律的同時(shí),提取其他相關(guān)變量間的關(guān)聯(lián)信息,對(duì)提高缺失值填補(bǔ)精度有著重要作用。
(2)數(shù)據(jù)的離散程度對(duì)數(shù)據(jù)填補(bǔ)精度有著重要影響,尤其是針對(duì)連續(xù)缺失狀態(tài)下,數(shù)據(jù)離散程度越高,填補(bǔ)效果越差。
(3)本文提出的組合近似方法可以輕松處理小樣本混合數(shù)據(jù),超參數(shù)少且可自主優(yōu)化,降低填補(bǔ)的復(fù)雜性,提高了填補(bǔ)精度。