中圖分類(lèi)號(hào):TP391.7 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.7535/hbkd.2025yx03002
Adaptive multi classifier traffic data interpolation model based on information entropy
ZHANG Yunkai12, 1,2 , 1,2, (1.Hebei University Road Traffic Perception and Intellgent Application Technology Researchand Develop Center. Shijiazhuang,Hebei O50035,China; 2.Department of Electrical and Information Engineering,Hebei Jiaotong Vocational and Technical College, Shijiazhuang,Hebei O50035,China; 3.School of Artificial Intelligence and Data Science,Hebei University of Technology, Tianjin 300131,China)
Abstract:Toaddress theisse that single traficdata misingvalue imputation modelscannotcomprehensively handle the multi-sourceheterogeneityandcomplexdata volumeof trafficdata,amulti-clasifierimputation modelbasedonadaptive weighting determined by informationentropywas proposed.First,information entropyrepresenting \"disorder degree\"was introduced toevaluate predictionqualityanddeterminemulti-clasifierweights.Second,adynamicadaptive weightingmethod was designedtoresolve theproblemof differentclassfiers being suitableforvarious samples caused bydeviceheterogeneity. Finall,validationwasconductedonbothpublicandself-collcteddatasets.Theresultsdemonstratethattheproposedmodel achieves significant improvementindetection performancecompared withotherimputation models.Italsoatains highacuracy in experiments on the public Interstate Highway Trafic Flow Dataset,with an F1 of O.778 and a 10% improvement in RMSE,exhibiting strong generalizability.By enabling weights toadaptively evolve withdata streams basedon information entropydetermination,thealgorithmachieves faster detectionspeedand higher accuracy,providing technical references for the establishment of missing value imputation models in traffic data cleaning.
Keywords: data processing;traffc data cleaning;; mising value prediction; information entropy;adaptive weight
隨著智慧高速公路的不斷發(fā)展,高速公路部署了眾多終端監(jiān)測(cè)設(shè)備來(lái)采集種類(lèi)繁多的數(shù)據(jù),如道路數(shù)據(jù)、車(chē)輛數(shù)據(jù)、氣象數(shù)據(jù)等。這些海量數(shù)據(jù)存貯在不同的信息系統(tǒng)中,數(shù)據(jù)之間關(guān)系復(fù)雜,規(guī)模巨大,數(shù)據(jù)維度高[1]。由于離散的數(shù)據(jù)采集異常以及通信時(shí)數(shù)據(jù)壓縮導(dǎo)致的缺失、設(shè)備故障等原因,造成高速公路采集的多源數(shù)據(jù)中往往會(huì)出現(xiàn)數(shù)據(jù)錯(cuò)誤[2]、數(shù)據(jù)缺失、數(shù)據(jù)冗余[3]等情況。
現(xiàn)有交通數(shù)據(jù)清洗方法可分為離線填補(bǔ)與在線處理2類(lèi)[4]。傳統(tǒng)的離線填補(bǔ)方法可進(jìn)一步劃分為基于近鄰的填補(bǔ)[5-8]和基于回歸的填補(bǔ)[9-13]?;诮彽腒NN、Hot-deck 等算法通過(guò)相似性匹配填補(bǔ)缺失值,但在稀疏數(shù)據(jù)場(chǎng)景下可能產(chǎn)生較大誤差。GBKII通過(guò)灰色關(guān)聯(lián)度查找缺失值的近鄰進(jìn)行填補(bǔ);kNNE集成多個(gè)特征的相似度來(lái)確定近鄰填補(bǔ)缺失值;ILLS 在近鄰上建立模型以估計(jì)缺失值?;诨貧w的線性模型和核函數(shù)模型[14-15]試圖挖掘全局相關(guān)性,但難以應(yīng)對(duì)數(shù)據(jù)異構(gòu)性問(wèn)題?;旌夏P腿鏛OESS[16]、ERACER[17]和IIM[10] 等通過(guò)局部回歸或多模型融合提升性能,其中IIM在多源交通數(shù)據(jù)中表現(xiàn)最佳。深度學(xué)習(xí)技術(shù)的引人拓展了數(shù)據(jù)清洗的邊界,張偉光等[18]提出的生成對(duì)抗網(wǎng)絡(luò)、陳俊揚(yáng)等[19]的圖神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)模型及李國(guó)等[20]的深度多任務(wù)學(xué)習(xí)框架在特定場(chǎng)景下取得了進(jìn)展。
然而,現(xiàn)有算法存在兩大局限:一是多數(shù)方法針對(duì)靜態(tài)數(shù)據(jù)集,難以適應(yīng)實(shí)時(shí)數(shù)據(jù)流;二是單一模型難以處理交通數(shù)據(jù)的多源異構(gòu)性和時(shí)空關(guān)聯(lián)性。為了使模型運(yùn)行速度更快,并全面考慮數(shù)據(jù)量復(fù)雜性,本文提出一種基于信息熵的自適應(yīng)交通數(shù)據(jù)插值模型。
1 系統(tǒng)建模
1.1基于信息熵的靜態(tài)權(quán)重插值模型
單一的插值法存在不能同時(shí)考慮整體數(shù)據(jù)模型的結(jié)構(gòu)關(guān)系和稀疏性的問(wèn)題,本文模型采用k近鄰填補(bǔ)法、多重插補(bǔ)法、隨機(jī)森林插值法作為學(xué)習(xí)的基本框架[15]。KNN插值分類(lèi)模型是一種簡(jiǎn)單但應(yīng)用廣泛的監(jiān)督學(xué)習(xí)模型。KNN插值分類(lèi)模型查找前k個(gè)與測(cè)試數(shù)據(jù)最相似的訓(xùn)練數(shù)據(jù),并根據(jù)其k個(gè)最近鄰數(shù)據(jù)的標(biāo)簽判斷測(cè)試數(shù)據(jù)的標(biāo)簽。但是如果其他屬性和缺失屬性無(wú)關(guān),則對(duì)其進(jìn)行的計(jì)算是沒(méi)有必要的[21]。針對(duì)這一缺點(diǎn),隨機(jī)森林插值法通過(guò)對(duì)缺失值進(jìn)行預(yù)設(shè)處理,然后根據(jù)其在隨機(jī)森林中的表現(xiàn)評(píng)估不同預(yù)設(shè)情況下與原缺失路徑的相似度,多次迭代得到穩(wěn)定的估計(jì)值[22]。隨機(jī)森林填補(bǔ)由于在構(gòu)造決策樹(shù)過(guò)程中,每個(gè)分支節(jié)點(diǎn)選用隨機(jī)的部分特征而不是全部特征,所以能很好地應(yīng)用到高維數(shù)據(jù)的填補(bǔ)。DA(data augmentation)多重插補(bǔ)法通過(guò)缺失數(shù)據(jù)的可能分布值修復(fù)缺失數(shù)據(jù),適用于連續(xù)型數(shù)據(jù)、離散型數(shù)據(jù)以及混合型數(shù)據(jù)[23]。
基于信息熵的靜態(tài)權(quán)重插值模型如圖1所示,常用符號(hào)表示如表1所示。
定義時(shí)刻 Ψt,tΨ 時(shí)刻可能采集多條交通數(shù)據(jù),定義 sit=(sit[A1],sit[A2],…,sit[Am]) 表示為 Ψt 時(shí)刻到達(dá)的第 i 條交通數(shù)據(jù),其中每條數(shù)據(jù)包含 Σm 維屬性, ] 1?j?m )表示為 sit 在第 j 維度屬性 Aj 上采集到的值。定義數(shù)據(jù)集 St={s1t,s2t,…,sit,…,snt} 為 Ψt 時(shí)刻到達(dá)的 n 條數(shù)據(jù)。數(shù)據(jù)集 S={S1,S2,…,St,…} 為所有時(shí)刻到達(dá)的數(shù)據(jù)集合。
面對(duì)復(fù)雜的交通數(shù)據(jù),對(duì)于不同分類(lèi)器插值方法的優(yōu)劣,本文改進(jìn)了基于信息熵的權(quán)重確定方法,使用信息熵來(lái)衡量“混亂程度\"24]。如果一個(gè)同屬性的向量,即在交通數(shù)據(jù)中測(cè)量的向量值相差較大,則表示其測(cè)量值越“混亂”,熵值也就越大。預(yù)測(cè)值也同理。因此希望針對(duì)3種插值方法得到使得同一屬性的預(yù)測(cè)向量的熵值越小的方法。在方法設(shè)定中,先基于訓(xùn)練集 TRN ,分別將3種插值方法的預(yù)測(cè)結(jié)果統(tǒng)
計(jì)為
forest,
intrploate,由多條交通數(shù)據(jù)的插值預(yù)測(cè)組成的訓(xùn)練集預(yù)測(cè)矩陣分別為 MKNN Mforest Minterploate 。為了兼顧每個(gè)屬性的特異性,對(duì)分類(lèi)器的權(quán)重確定不是基于整個(gè)缺失集來(lái)進(jìn)行,而是基于樣本中的每個(gè)屬性來(lái)進(jìn)行。每個(gè)屬性的數(shù)據(jù)表現(xiàn)為預(yù)測(cè)矩陣中的列,給定 M 個(gè)屬性,對(duì)于屬性 j ,本文試圖比較訓(xùn)練集原數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)的“相似性”,根據(jù)信息熵對(duì)不確定性的衡量屬性,將原始訓(xùn)練集同一屬性向量與預(yù)測(cè)向量合并為一個(gè)屬性向量 (MjN,MjKNN) ??紤]到不同屬性之間維度差異性,為了方便觀察,對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化 Nor(MjN .MjKNN )。若其不確定性enter (Nor(MjN,MjKNN) )越小,表明樣本差異越小,此時(shí)該方法預(yù)測(cè)數(shù)據(jù)與原始數(shù)據(jù)越接近,越少出現(xiàn)異常值,表示在該屬性下該方法的表現(xiàn)性能越好。對(duì)比不同屬性下的 EjKNN?Ejforest 與Ejinterploate ,使3種方法權(quán)重之和為1,熵值即不確定性越小的方法賦予最高權(quán)重,依次遞減。方法 f 的權(quán)重值為
設(shè)KNN插值法得到的預(yù)測(cè)結(jié)果為 κ ,隨機(jī)森林插值法得到的預(yù)測(cè)結(jié)果為 F ,interploate方法(即DA法)得到的預(yù)測(cè)結(jié)果為 ,使用權(quán)重綜合考慮不同方法的優(yōu)劣,則得到的對(duì)于該條交通數(shù)據(jù)填補(bǔ)的值為
YN=wKNN×K+wforest×F+winterploate×I
權(quán)重確定算法如算法1所示。
算法1靜態(tài)權(quán)重確定算法
輸人: DN TRN TEN / ? 輸人缺失集、訓(xùn)練集、測(cè)試集 ? /輸出: yt (204號(hào)
(20
(20
中 / ? 缺失集預(yù)測(cè)標(biāo)簽矩陣 ? / (n,m)=TRN ,shape
3.for j in : EjKNN=enter(Nor(MjN,MjKNN))
(20 (204Eiinterploate=enter(Nor(MjN,Miinterploate)) /*計(jì)算不同分類(lèi)器標(biāo)準(zhǔn)化標(biāo)簽矩陣的信息熵并加權(quán)*/(wiKNN,wiforest,wiinterploate)=W(EiKNN,Eifor Eiinterploate ) /*根據(jù)不同分類(lèi)器分類(lèi)效果的信息熵
“表現(xiàn)\"設(shè)置分類(lèi)器權(quán)重 ?/
4.yN=W?(K,F(xiàn),I)
以上靜態(tài)權(quán)重確定方法可以使用信息熵衡量不同分類(lèi)器在交通數(shù)據(jù)集上表現(xiàn)的優(yōu)劣,并根據(jù)表現(xiàn)設(shè)定不同權(quán)重。
1.2自適應(yīng)權(quán)重調(diào)整系統(tǒng)
靜態(tài)的分類(lèi)模型不能考慮不同數(shù)據(jù)特異性的問(wèn)題,為此本文改進(jìn)靜態(tài)權(quán)重插值模型提出基于信息熵的自適應(yīng)交通數(shù)據(jù)清洗模型,如圖2所示。本文基于KNN插值模型、隨機(jī)森林插值模型與DA多重插補(bǔ)法,通過(guò)信息熵度量規(guī)則,實(shí)現(xiàn)多分類(lèi)器的最優(yōu)分配,并實(shí)現(xiàn)自適應(yīng)動(dòng)態(tài)處理數(shù)據(jù)流。
動(dòng)態(tài)的自適應(yīng)系統(tǒng)往往更能適應(yīng)數(shù)據(jù)形式的不斷變化[20],而對(duì)于不間斷輸人的交通數(shù)據(jù),本文方法可以自適應(yīng)地根據(jù)該數(shù)據(jù)的特性進(jìn)行權(quán)重的調(diào)整預(yù)測(cè),以達(dá)到兼顧不同數(shù)據(jù)特異性的目的。本文方法主要包含2個(gè)部分。
首先,本文提出的動(dòng)態(tài)預(yù)測(cè)方法是將預(yù)測(cè)好的交通數(shù)據(jù)批次結(jié)果逐步列入訓(xùn)練樣本,并將其作為訓(xùn)練樣本去預(yù)測(cè)下一條新樣本,依此方法預(yù)測(cè)的新數(shù)據(jù)可能會(huì)導(dǎo)致2種結(jié)果:一是預(yù)測(cè)較為準(zhǔn)確,因此作為訓(xùn)練樣本去預(yù)測(cè)新樣本會(huì)使得預(yù)測(cè)越來(lái)越準(zhǔn)確;二是若預(yù)測(cè)效果一般,就會(huì)導(dǎo)致之后的預(yù)測(cè)效果越來(lái)越差。為了避免在動(dòng)態(tài)系統(tǒng)中出現(xiàn)第2種情況,本文將測(cè)試樣本“分批”加入訓(xùn)練樣本,根據(jù)樣本個(gè)數(shù)設(shè)定分批個(gè)數(shù)b_count,一般情況下設(shè)置為 10,100,1 000,… 。假設(shè)訓(xùn)練樣本個(gè)數(shù)為 1 000 ,可以設(shè)定將填補(bǔ)出的完整數(shù)據(jù)加入到訓(xùn)練樣本中,然后依次預(yù)測(cè)之后的新樣本。當(dāng)加入到1100個(gè)樣本時(shí),即 b-count=100 時(shí),停止加入,將此100個(gè)樣本清空,再重新使用這1000個(gè)訓(xùn)練樣本訓(xùn)練,依此類(lèi)推,下一個(gè)批次的新樣本也逐步加入,加到第200個(gè)再清空。
其次,在計(jì)算每個(gè)新樣本的不同維度的插值時(shí),在基于靜態(tài)的權(quán)重確定方法的基礎(chǔ)上,本文提出了動(dòng)態(tài)的權(quán)重確定方法,即自適應(yīng)地為每個(gè)樣本設(shè)定不同插值方法的權(quán)重。當(dāng)系統(tǒng)輸入一條新的樣本數(shù)據(jù) Sι ,對(duì)于它的屬性 j ,分別計(jì)算3種方法與訓(xùn)練樣本組成的向量 (SjN,MjKNN),(SjN,Mjforest),(SjN,Mjinterploate) ,進(jìn)行標(biāo)準(zhǔn)化與信息熵的計(jì)算,最后對(duì)比3種方法得到針對(duì)該樣本的權(quán)重,再通過(guò)權(quán)重對(duì)預(yù)測(cè)插值加權(quán)計(jì)算,得到最終的插值填補(bǔ)結(jié)果。
自適應(yīng)的權(quán)重確定方法可以有效解決數(shù)據(jù)的差異性問(wèn)題,具體算法見(jiàn)算法2。
算法2自適應(yīng)權(quán)重調(diào)整系統(tǒng)
輸人: Sι,TEN,M?N
輸出: y′
1.初始化 i=0
2.if i- count/*在本批數(shù)據(jù)內(nèi)先進(jìn)行預(yù)測(cè)*/
(20
(204號(hào)
(20
6 Ψ(nΨ,mΨ)=MΨN ,shape/ ? 得到缺失集預(yù)測(cè)的標(biāo)簽矩陣 ×1
7.forin1至 Ψm :
(20 8.EjKNN=enter(Nor(MjN,MjKNN)), (2
(20 9.Eiforest=enter(Nor(MjN,Miforest)) (20
1 ).Eiinterploate=enter(Nor(MjN,Minterploate)) (20號(hào)
11 (wiKNN,wiforest,winterploate)=W(EjKNN,Eiforest,Eiinterploate) (2
12.end for/ ? 得到本批次數(shù)據(jù)的分類(lèi)器權(quán)重 ?1
13. yN=W?(K,F(xiàn),I) / ? 預(yù)測(cè)本批次數(shù)據(jù)的缺失值 ? /
14. TM=TM+St / x 本批數(shù)據(jù)內(nèi)依次加人新數(shù)據(jù) ? /
15.else: TM=TM+1 /*本批次后清空,重新輸入數(shù)據(jù) ? /
2 數(shù)據(jù)集構(gòu)建及評(píng)價(jià)指標(biāo)
2.1 數(shù)據(jù)集準(zhǔn)備
本文采用的數(shù)據(jù)集來(lái)自廣東省廣州市公路局夏元交通量觀測(cè)站采集到的真實(shí)國(guó)道數(shù)據(jù),數(shù)據(jù)包含了2021年1一4月期間每天至少 10h 的路過(guò)車(chē)輛類(lèi)型與個(gè)數(shù),每條數(shù)據(jù)一共包含14列,具體表示為日期、小時(shí)序號(hào)、中小客、大客、小貨、中貨、大貨、特大貨、集裝箱、摩托車(chē)、拖拉機(jī)、預(yù)留、預(yù)留、預(yù)留。
為了驗(yàn)證模型的可擴(kuò)展性,本文還采用公開(kāi)數(shù)據(jù)集\"州際公路交通流量數(shù)據(jù)集\"[21]進(jìn)行訓(xùn)練。該數(shù)據(jù)集來(lái)自UCI機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù),包含美國(guó)94號(hào)州際公路MNDoTATR301站西行交通量的每小時(shí)測(cè)量值。數(shù)據(jù)集包括了時(shí)間戳、雨量、雪量、氣溫、云層覆蓋、天氣描述、交通量等特征。
2.2 實(shí)驗(yàn)設(shè)置與評(píng)價(jià)方法
為了區(qū)分?jǐn)?shù)據(jù)集中連續(xù)值與布爾值對(duì)模型評(píng)估的影響,本文分別采用重構(gòu)誤差(RMSEerror,簡(jiǎn)稱(chēng)RMSE)和F12種方式進(jìn)行評(píng)估。
對(duì)于連續(xù)值的填充效果本文使用的測(cè)量方法是計(jì)算填補(bǔ)數(shù)據(jù)與原始標(biāo)簽之間的重構(gòu)誤差,可用公式表示為
式中: yi 為原始輸人數(shù)據(jù)標(biāo)簽; 為預(yù)測(cè)數(shù)據(jù); m 為數(shù)據(jù)數(shù)量。
對(duì)于布爾類(lèi)型的特征值選取F1進(jìn)行評(píng)估,計(jì)算公式為
式中: P 表示預(yù)測(cè)為正的樣本中實(shí)際也為真的個(gè)數(shù); R 表示正例樣本被預(yù)測(cè)成功的數(shù)量;F1是 P 與 R 的加權(quán)調(diào)和平均值。
本文中,對(duì)夏元交通量觀測(cè)站數(shù)據(jù)集采用RMSE值進(jìn)行模型評(píng)估,“州際公路交通流量數(shù)據(jù)集”選取RMSE評(píng)估氣溫、云層覆蓋、交通量的缺失值填充效果,設(shè)置雨量、雪量、天氣描述3個(gè)特征為布爾值。具體的,設(shè)置有雨雪的天氣特征值為布爾值 1[25] ,晴天天氣為0。采用F1進(jìn)行評(píng)估。
本文對(duì)數(shù)據(jù)集按照 7:2:1 的比例隨機(jī)分為3部分,分別設(shè)置訓(xùn)練集、驗(yàn)證集與測(cè)試集,對(duì)數(shù)據(jù)集設(shè)定隨機(jī)缺失數(shù)據(jù)進(jìn)行實(shí)驗(yàn),采用十折交叉驗(yàn)證重復(fù)進(jìn)行10次,取RMSE值與F1均值作為最后結(jié)果。
3 實(shí)驗(yàn)分析
3.1 消融實(shí)驗(yàn)分析
表2、表3分別為夏元交通量觀測(cè)站數(shù)據(jù)集的消融實(shí)驗(yàn)與“州際公路交通流量數(shù)據(jù)集\"的消融實(shí)驗(yàn),其中單分類(lèi)器是由 python3.12中 sklearn 庫(kù)的數(shù)據(jù)插補(bǔ)方法計(jì)算所得。首先在單分類(lèi)器中多重插補(bǔ)法在2個(gè)數(shù)據(jù)集上都表現(xiàn)較好。多重插補(bǔ)法來(lái)源于貝葉斯估計(jì),認(rèn)為待插補(bǔ)的值是隨機(jī)的,數(shù)據(jù)集隨機(jī)缺失的設(shè)置也證明了多重插補(bǔ)法表現(xiàn)較好。并且通過(guò)多分類(lèi)器和單分類(lèi)器的對(duì)比可以看到,多重插補(bǔ)法單分類(lèi)器的F1仍然處于較高的狀態(tài)。但是從整體來(lái)看,不論是靜態(tài)的權(quán)重設(shè)定方式,還是自適應(yīng)的融合方式,在RMSE 和F1上,多分類(lèi)器的模型表現(xiàn)都優(yōu)于單分類(lèi)器的模型表現(xiàn)。
通過(guò)多分類(lèi)器的消融實(shí)驗(yàn)可以發(fā)現(xiàn),有些情況下,并不是分類(lèi)器越多模型的性能就越好。例如在夏元交通量觀測(cè)站數(shù)據(jù)集中隨機(jī)森林插值 +DA 多重插補(bǔ)分類(lèi)器的靜態(tài)權(quán)重設(shè)定方法就優(yōu)于三分類(lèi)器模型的表現(xiàn),這表明并不是添加分類(lèi)器就一定能得到更好的模型,存在某次缺失值數(shù)據(jù)較差或者較多的噪聲反而降低模型性能的情況,但大體趨勢(shì)上,分類(lèi)器越多越能準(zhǔn)確預(yù)測(cè)缺失值。本文的實(shí)驗(yàn)也表明,3個(gè)分類(lèi)器的自適應(yīng)權(quán)重缺失值預(yù)測(cè)在夏元交通量觀測(cè)站數(shù)據(jù)集上RMSE提升了 16.28%~64.45% ,在“州際公路交通流量數(shù)據(jù)集\"上RMSE提升了 4.55%~43.91% ,F(xiàn)1提升了 4%~26% ,驗(yàn)證了本文方法的有效性。
通過(guò)自適應(yīng)的權(quán)重確定方法與靜態(tài)的權(quán)重確定方法對(duì)比,發(fā)現(xiàn)一般情況下,自適應(yīng)權(quán)重設(shè)定方法能更綜合地考慮到不同分類(lèi)器的優(yōu)缺點(diǎn),用于建立更有效的模型。
3.2 對(duì)比實(shí)驗(yàn)分析
為了進(jìn)一步驗(yàn)證本文方法的有效性,在保持隨機(jī)種子不變且統(tǒng)一訓(xùn)練200輪的情況下,設(shè)計(jì)其與KNN缺失值填補(bǔ)、隨機(jī)森林缺失值填補(bǔ)、DA多重插補(bǔ)、Mean插補(bǔ)進(jìn)行對(duì)比,設(shè)定每個(gè)時(shí)刻到達(dá)數(shù)據(jù)的缺失數(shù)據(jù)概率由 5% 增加到 45% ,隨著缺失率的增大,夏元交通量觀測(cè)站數(shù)據(jù)集經(jīng)典插補(bǔ)法與本文方法的
RMSE表現(xiàn)情況對(duì)比如圖3所示,“州際公路交通流量數(shù)據(jù)集\"RMSE對(duì)比如圖4所示,F(xiàn)1對(duì)比如圖5所示。本文方法通過(guò)多分類(lèi)器的動(dòng)態(tài)權(quán)重設(shè)定考慮了不同數(shù)據(jù)樣本的異構(gòu)性,對(duì)比經(jīng)典插補(bǔ)法,在自采真實(shí)數(shù)據(jù)集上表現(xiàn)最好且穩(wěn)定,在公開(kāi)數(shù)據(jù)集上RMSE與F1都取得了最好的效果,表示本文方法具有較好的擴(kuò)展性。
與最新的包括權(quán)重設(shè)定、時(shí)間序列的數(shù)據(jù)插補(bǔ)算法IIM、RIIM、GARF、SAITS、PSW對(duì)比結(jié)果如表4所示。使用共同的交叉驗(yàn)證策略與同一隨機(jī)種子的數(shù)據(jù)可以發(fā)現(xiàn),本文方法在2個(gè)數(shù)據(jù)集上RMSE和F1的表現(xiàn)均優(yōu)于IIM和RIIM等方法,在“州際公路交通流量數(shù)據(jù)集”上的RMSE表現(xiàn)略低于GARF等方法,“州際公路交通流量數(shù)據(jù)集\"數(shù)據(jù)量較大,對(duì)抗網(wǎng)絡(luò)的算法模型更能精確訓(xùn)練,但本文模型在收斂速度上遠(yuǎn)快于GARF。綜合來(lái)看,本文方法取得了更好的效果。
4結(jié)語(yǔ)
針對(duì)交通數(shù)據(jù)流的稀疏性和異構(gòu)造成的數(shù)據(jù)清洗困難,提出了一種融合型的缺失值填補(bǔ)方法。根據(jù)數(shù)據(jù)的差異性給予不同分類(lèi)器不同的權(quán)重,能夠保持增量的自適應(yīng)更新,有效提高了插值模型的檢測(cè)精度并且
保證了算法的輕量化。本文方法RMSE和F1較傳統(tǒng)插值模型提升 5% 以上,驗(yàn)證了本文方法的有效性,可為交通數(shù)據(jù)實(shí)時(shí)處理和提升交通管理精細(xì)化水平提供參考。
本文只考慮了RMSE和F1指標(biāo)模型的表現(xiàn)情況,并且采用隨機(jī)的缺失值進(jìn)行實(shí)驗(yàn)。未來(lái)擬采用更精細(xì)化的評(píng)估方式進(jìn)行模型評(píng)估,對(duì)于非隨機(jī)缺失數(shù)據(jù)集,采用更合適的方法來(lái)預(yù)測(cè),以獲得更全面、穩(wěn)定的模型效果。
參考文獻(xiàn)/References:
[1]王龐偉,何昕澤,張龍,等.智能網(wǎng)聯(lián)環(huán)境下城市道路多源交通數(shù)據(jù)補(bǔ)全方法[J].中國(guó)公路學(xué)報(bào),2025,38(1):281-293. WANG Pangwei,HEXinze,ZHANGLong,etal.Multisourcetraficdatacompletionmethodforurbanroadsinintellgentoctedsce narios[J].China Journal ofHighwayand Transport,2025,38(1):281-293.
[2]李霞,馬茜,白梅,等.RIIM:基于獨(dú)立模型的在線缺失值填補(bǔ)[J].計(jì)算機(jī)科學(xué),2022,49(8):56-63. LI Xia,MA Qian,BAIMei,etal.RIM:Real-timeimputationbasedonindividualmodelsJ].Computer Science,202,49(8):56-63.
[3]CHENHanyangJANYang,UOengnan,etal.Diight:Aartialewardsconditionddiusionmodelfortrafcigalotrol with missing data[J].Advances in Neural Information Processing Systems,2024,37:123353-123378.
[4]ZHANGHuiruZKungtaaalysisdtellgttrafianageentfoprtasportC/Proefe4 6th International ConferenceonBig Data Engineering.New York:Association for Computing Machinery,2o24:74-80.
[5]ALTMAAntroductiontoelandearestigboroprametricegresioJ]emericanStiticia99)- 185.
[6]MYERSTA.Goodbye,listwisedeletionPresentinghotdeckimputationaaneasyandefectivetolforhandingmissingdataJCom munication Methods and Measures,2011,5(4) :297-310.
[7]COOPERL G,deLEEUWJ,SOGOMONIANAG.Animputation methodfordealing with missngdata inregression[J].Applied Sto chastic Modelsand Data Analysis,1991,7(3):213-235.
[8]DOMENCONIC,YANB.Nearest neighborensembleC]/Procedingsof the17th International ConferenceonPattrn Recogition. Cambridge(UK):IEEE,2004:228-231.
[9]LITTLERJA.Regressonwithmssng X's:AreviewJ]JouraloftheAmericanStatisticalAsociation99287237.
[10]CAIZhipeng,HEYDAIM,IGuouiMroarrmissingvalueimputationbyteratedlocalleastsquaresC]/Procedgoftt Asia-Pacific Bioinformatics Conference.Taipei:[s.n.],2oo5:159-168.
[11]WANGQa,AOJNK.EmpiriallikelobasedferencinlinearodelswithmisingdataJ].candiavianJoualoftatistics, 2002,29(3):563-576.
[12]ANUD,VIDHYAK.BreastcancerclasificationusingmachinelearnngalgoritmC]/24InternatioalCofereneonKowledge Engineering and Communication Systems (ICKECS).Chikkaballapur:IEEE,2024:1-7.
[13]王向,李月鳳,王震洲,等.一種改進(jìn)樽海鞘群算法優(yōu)化 K -Means的小麥覆蓋度提取方法[J].河北科技大學(xué)學(xué)報(bào),2023,44(4):356-367. WANG Xiang,LIYuefeng,WANG Zhenzhou,etal. Wheatcoverage extractionbasedonimproved salpswarm algorithm foroptimizing K -Means[J].Journal of Hebei University of Science and Technology,2023,44(4):356-367.
[14]RCINEJiparaetrictiatiofgessfuncswiothategcaldcisdataJoualofo rics,2004,119(1):99-130.
[15]ZHU Xiaofeng,ZHANG Sichao,JINZhi,etal.Misingvalueestimationformixed-atributedatasetsJ]IEEETransactioson Knowledge and Data Engineering,2011,23(1):110-121.
[16]CLEVELANWS,LOADERCSmothing bylocalregresson:Principlesand methods[C]//Statistical TheoryandComputational Aspects of Smoothing.Heidelberg:Physica,1996:10-49.
[17]MAYFIELDC,NEVILLEJ,PRABHAKARS.ERACER:AdatabaseapproachfostatisticalinferenceanddatacleanigC]/Prodings ofthe2010ACMSODInternationalConferenceonanagementofData.NewYork:AocationforomputingMachinery1075- 86.
[18]張偉光,龍非筱,吳玉平,等.一種基于深度學(xué)習(xí)的多普勒缺失數(shù)據(jù)填充方法:CN202310859909.1[P].2023-07-13.
[19]陳俊揚(yáng),戴志江,李雪亮,等.基于強(qiáng)化學(xué)習(xí)的多變量時(shí)序數(shù)據(jù)缺失值補(bǔ)全方法[J].中國(guó)科技論文,2023,18(11):1205-1212. CHENJunyang,DAIZjiangLIXueliang,etal.Reiforcementlearingbasedmisingvaluecompletionmethodfoultiarateie series data[J].China Sciencepaper,2023,18(11):1205-1212.
[20]李國(guó),袁聞,王懷超.融合多任務(wù)深度學(xué)習(xí)與主動(dòng)學(xué)習(xí)的民航常旅客缺失數(shù)據(jù)填補(bǔ)[J].計(jì)算機(jī)應(yīng)用與軟件,2022,39(8):21-27. LIGuo,YUANWen,WANGHuaichao.Fillngmissingdataofcivilaviationfrequentpassengersbycombiningmulti-taskdeeleaing and active learning[J].Computer Applications and Software,2o22,39(8):21-27.
[21]KUMARrdictiemodellngoftrafifoithepanehsnteatioalJoalofietifiReeacEg neering and Management,2024. DOI:10.55041/ijsrem33183.
[22]HWANG SH,KIMM,HWANG SERC-Mixup:AdataaugmentationstrategyagainstnoisydataforregresiontasksC]//Proceedings ofthe30thACMSIGKDConferenceonKnowledgeDiscoveryandDataMining.NewYorkAsociationforComputingMachinery2024: 1155-1165.
[23]孫玲莉,董世杰,楊貴軍.常用多重插補(bǔ)法的插補(bǔ)重?cái)?shù)選擇[J].統(tǒng)計(jì)與決策,2019,35(23):5-10. SUNLingli,DONGShijieANGujunSelectionofimputationmutplicityonmultipleimputationmethodsJ].tatistisandecision 2019,35(23):5-10.
[24]高金.基于模糊積分集成融合的多模態(tài)生理信號(hào)情感識(shí)別方法研究[D].蘭州:蘭州大學(xué),2021. GAO Jin.EmotionRecognitionBasedonFuzzyIntegralFusionofMulti-ModalPhysiologicalSignal[D].Lanzhou:Lanzhou University,2021.
[25]MORENOIG,YU Xiaofan,ROSING T.KalmanHD:Robuston-devicetimeseries forecasting withhyperdimensionalcomputing// 2024 29th Asia and South Pacific Design Automation Conference(ASP-DAC).Incheon:IEEE,2024:710-715.
[26]ZHANGAoqianONGSaou,SUYu,etal.Learing dividualmodelsfomputationC]/19IEE35thInternationalCoerence on Data Engineering(ICDE).Macau:IEEE,20l9:160-171.
[27]PENGJinpeng,CUIHanghaiSHEND,etal.GARF:Aself-superviseddataeaningsystem withSeqGANC/Proceedingsofth3rd ACMInternationalConferencenInformationandKnowledgeManagement.NewYork:AsociationforComputingMachinery,024: 5260-5264.
[28]DUWenjiCOEDUYanSelf-atentiobasediputatinfortisries]ExpertSstemswithAplicatios 10.1016/j.eswa.2023.119619.
[29]WANGHaoZhengnan,LHaoxuanetal.OptialtrasportfotieserisimputationC//CL5Conferene.S., 2025:1-25.