馮 路,錢 宇,白夢娜,袁 華
基于海量序列數(shù)據(jù)的公交用戶群體出行預(yù)測研究
馮 路,錢 宇*,白夢娜,袁 華
(電子科技大學(xué) 經(jīng)濟與管理學(xué)院,四川 成都 611731)
在海量序列數(shù)據(jù)中,預(yù)測群體用戶在未來一段時間中的可能行為模式是一個非常有意義且具有挑戰(zhàn)性的研究問題。本文以公交用戶群體出行為例,通過引入相空間重構(gòu)法,利用海量序列數(shù)據(jù)對大型系統(tǒng)建立模型來模擬其動態(tài)演化模式。同時,考慮到一般相空間預(yù)測方法在大數(shù)據(jù)情況下的不足,提出了相似性拐點方法進(jìn)行預(yù)測前的相似點的自動挑選工作,該方法不但降低了預(yù)測過程中的相似度計算復(fù)雜度,同時也顯著提升了預(yù)測效果。實驗證明,本文的方法對于探討利用海量(周期性)序列數(shù)據(jù)進(jìn)行系統(tǒng)建模,以及預(yù)測一段時間內(nèi)的群體行為提出了新的思路。
海量序列數(shù)據(jù);相空間重構(gòu);相似性;預(yù)測
公共交通是我國城市居民出行的重要交通方式,實現(xiàn)對公交用戶群體出行行為的準(zhǔn)確預(yù)測,對于提升公共資源使用效率[1],優(yōu)化城市公共交通的管理,促進(jìn)城市計算智慧化具有重要意義[2]。
交通流相關(guān)的預(yù)測研究經(jīng)歷了很長時間的發(fā)展。最常用的研究方法是直接探討交通流數(shù)據(jù)中的數(shù)據(jù)變量相關(guān)性,即各種參數(shù)(回歸)方法。簡單的如歷史平均法和各種(非)線性回歸模型[3]。這類方法操作簡單且計算方便,但是預(yù)測精度較低。因此,進(jìn)一步的研究中開始重視數(shù)據(jù)的時序相關(guān)性,進(jìn)而形成了目前最成熟的時序預(yù)測方法――自回歸移動平均模型(ARMA/ARIMA),它的各種模型在交通預(yù)測領(lǐng)域有著廣泛的應(yīng)用[4,5,6]。但是該類模型需要比較平穩(wěn)的序列數(shù)據(jù),抗干擾和波動性差。為了提高模型的穩(wěn)定性和預(yù)測精度,一些考慮參數(shù)的智能方法,如Kalman濾波[7]、支持向量機(SVM)[8,9]、貝葉斯網(wǎng)絡(luò)[10]、神經(jīng)網(wǎng)絡(luò)[11-13]以及它們的組合[10,14]方法等都被應(yīng)用到研究中。這類方法的預(yù)測精度雖然很高,但是通常會面臨復(fù)雜的數(shù)據(jù)及特征選擇問題[15,16]。神經(jīng)網(wǎng)絡(luò)雖然很適合模擬數(shù)據(jù)的非線性關(guān)系,但模型訓(xùn)練過程收斂速度較慢,容易陷入局部最優(yōu)。隨著研究的不斷深入,人們逐漸認(rèn)識到以往的方法多是基于對系統(tǒng)基本結(jié)構(gòu)的假設(shè)來進(jìn)行對系統(tǒng)的預(yù)測,而城市交通是一個非常復(fù)雜的巨型系統(tǒng)[17]。因此,有研究分別從多因素、非參數(shù)方法和非線性系統(tǒng)的角度來分析預(yù)測交通流。多因素的研究認(rèn)為,公交客流不僅受到用戶自身的影響,還受到諸如經(jīng)濟狀況、天氣等多因素的影響[13]。非參數(shù)(回歸)方法研究不需要任何先驗知識,在有特殊情況時預(yù)測更有效[18-20],能反映交通數(shù)據(jù)本身的非線性特征[20]。而非線性系統(tǒng)則引入非線性和系統(tǒng)動力學(xué)的方法對交通流動態(tài)及混沌特性進(jìn)行識別,進(jìn)而為短時交通流在小數(shù)據(jù)量上的預(yù)測提供基礎(chǔ)[17,21]。
前述研究的共同問題是僅僅只針對短時交通流量的預(yù)測進(jìn)行研究,而較長時間交通流的合理預(yù)測則能更好地為交通管理提供服務(wù)[22]。但是,傳統(tǒng)方法在處理長時間預(yù)測任務(wù)時,由于觀察(數(shù)據(jù))的局限,容易陷入過渡預(yù)測(Over Prediction)的情況[23]。隨著智慧交通的出現(xiàn),人們期望利用公交大數(shù)據(jù)對較長時間的用戶群體出行行為實現(xiàn)精準(zhǔn)預(yù)測。然而,傳統(tǒng)建模預(yù)測方法在大數(shù)據(jù)環(huán)境下面臨著技術(shù)挑戰(zhàn)[24]:一是系統(tǒng)復(fù)雜度高,內(nèi)部成分(如用戶)多樣,應(yīng)用場景也不盡相同,很難從中提取出具有代表性的用戶行為;二是系統(tǒng)快速演變,這使得基于樣本的模型很快就不能反映系統(tǒng)當(dāng)前的情況。此外,在大數(shù)據(jù)下對復(fù)雜系統(tǒng)建模而不考慮混沌特征可能導(dǎo)致不可預(yù)期的結(jié)果[25]。因此,我們需要一個基于海量數(shù)據(jù)驅(qū)動且更穩(wěn)定的建模方案來實現(xiàn)對公交出行系統(tǒng)的歷史狀態(tài)描述和未來狀態(tài)預(yù)測功能。
城市公交是一個復(fù)雜的非線性系統(tǒng)[17,20],積累了海量用戶出行數(shù)據(jù)。為了對其建立穩(wěn)定的數(shù)據(jù)驅(qū)動的系統(tǒng)模型并實現(xiàn)較長時間的系統(tǒng)狀態(tài)預(yù)測,本研究將首先引入相空間重構(gòu)法[26]來描述海量公交群體行為產(chǎn)生的數(shù)據(jù)序列的性質(zhì)和規(guī)律。相空間重構(gòu)是數(shù)據(jù)驅(qū)動的建模方法[27],它以Takens嵌入定理[28]為基礎(chǔ),具有很好的數(shù)學(xué)性質(zhì)。由于能夠較好地捕捉時間序列的動態(tài)等價性,它被廣泛應(yīng)用于復(fù)雜系統(tǒng)特征描述和狀態(tài)預(yù)測[17,21,29]。然后,本文提出了一種新的方法來預(yù)測目標(biāo)點的下一狀態(tài)。為此,作者先計算出目標(biāo)點在相空間中盡量多的相似點集合。接著,利用目標(biāo)點與其相似點之間的相似性變化拐點,從大量相似點里自動挑選“最相似”的點集合。最后,通過擬合這些“最相似”點與其臨近下一狀態(tài)點的關(guān)系來實現(xiàn)預(yù)測。實驗結(jié)果表明,本文提出的新方法在大數(shù)據(jù)環(huán)境下,能夠同時達(dá)到避免過渡預(yù)測和提高預(yù)測精度的目的。
混沌時間序列重構(gòu)相空間的工作始于Packard等人的研究[26],他們提出了重構(gòu)相空間的兩種方法:導(dǎo)數(shù)重構(gòu)法和延遲坐標(biāo)重構(gòu)法。鑒于數(shù)值微分的計算過程對誤差很敏感,普遍采用的是以Takens嵌入定理為基礎(chǔ)的延遲坐標(biāo)相空間重構(gòu)法。該方法利用時序系統(tǒng)某一狀態(tài)變量() 的延遲變量(+) 來構(gòu)造一個維的狀態(tài)向量,即:
這樣,從一維混沌時間序列中可以重構(gòu)一個與其原動力系統(tǒng)在拓?fù)湟饬x下等價的相空間。() 即是相空間中的點。實際應(yīng)用中,如果對延遲時間和嵌入維數(shù)作出合理選擇,那么我們能夠在重構(gòu)的相空間中將反映時間序列特征規(guī)律的軌跡恢復(fù)出來,并構(gòu)造一個反應(yīng)鄰近序列關(guān)系的映射來實現(xiàn)預(yù)測:
確定延遲時間的方法主要有互信息法[30,31]和自相關(guān)函數(shù)法[32]。互信息法是通過計算時間序列的互信息值,并尋找到互信息第一個極小值所對應(yīng)的時間延遲作為重構(gòu)相空間的延遲時間?;バ畔⒎ú⒉荒鼙WC互信息總存在極小值,即使存在,也有可能是系統(tǒng)的震蕩引起的,而且計算互信息也相對較復(fù)雜。自相關(guān)函數(shù)法,是通過計算自相關(guān)函數(shù)來確定延遲時間,自相關(guān)函數(shù)的定義為:
根據(jù)Takens嵌入定理[28],嵌入維數(shù)應(yīng)滿足≥ 22+1,這里2為吸引子的關(guān)聯(lián)維數(shù)。關(guān)聯(lián)維數(shù)是判別吸引子類型以及復(fù)雜程度的表征量,它可以描述系統(tǒng)在整個變化中穩(wěn)定性和確定性的程度。顯然,如果關(guān)聯(lián)維數(shù)2確定,則嵌入維數(shù)的范圍也隨之確定。本文采用的是由Grassberger和Procaccis提出的G-P算法[33]來估計關(guān)聯(lián)維數(shù)2。
在確定的情況下,考察維重構(gòu)相空間中的兩個不同點:
給定一個距離閾值,計算所有距離小于的“相點對”數(shù)占全部“相點對”數(shù)的比例,即
顯然,在局部預(yù)測算法中選擇一個合適的值非常重要。然而,在大數(shù)據(jù)環(huán)境下選擇也將面臨困境:如果選取的較小,則參與預(yù)測的歷史點很少,模型容易受到噪音點很大的影響或者對那些與當(dāng)前點非常相似點產(chǎn)生過擬合;反之,如果選取的較大(這也是在大數(shù)據(jù)環(huán)境下的通常做法),參與預(yù)測的歷史點很多,此時固定的個點與() 相似性變化會變得劇烈。而且,隨著預(yù)測的任務(wù)從傳統(tǒng)的預(yù)測一個點的值提升到需要預(yù)測一段時間的值,則對于每一輪(不同的)預(yù)測任務(wù)選定的個相似點中與() 真正相似的點的個數(shù)并不相同。這樣,如果預(yù)測過程中一直選取一樣的值,那么預(yù)測結(jié)果將會有很大誤差。為了獲得() 的真正相似點的集合,在值較大的情況下,我們提出一個基于相似性拐點的方法來剔出那些與() 不太相似的點。假設(shè)獲得的拐點位置為1 ≤≤,顯然只有相似性關(guān)系排在前的相似點才與() 最相似。這樣,在減少計算的過程中還可以提高預(yù)測精度。
表1 相似性拐點算法
表2 基于相空間重構(gòu)的預(yù)測算法
獲得() 的個最相似點及相似性關(guān)系的拐點位置之后,則可以獲得個相似狀態(tài)點及其各自對應(yīng)的個下一狀態(tài)點。通過考察這2個點之間的一一對應(yīng)關(guān)系就可構(gòu)建最合適的映射關(guān)系(·)。最終,可以利用(·) 來實施有效的預(yù)測。預(yù)測的計算過程見算法2(表2)。
給定訓(xùn)練集重構(gòu)的相空間,預(yù)測算法首先獲得() 的個最相似點(Line 3-5);然后調(diào)用算法1獲得相似性關(guān)系的拐點位置(Line 6-7);最后,通過擬合這個() 的相似點來獲得映射關(guān)系(·) (Line 8-12)。為了減少運算復(fù)雜度,本文采用簡單線性回歸的方法進(jìn)行局部擬合:
實驗數(shù)據(jù)為2014年8月1日至12月31日共5個月內(nèi)廣州市某公交線路的用戶全部乘車記錄。該公交線路每天運行時間為早上5:00 到晚上23:00,共18小時。以一張公交卡識別一個獨立的用戶(乘客),共有用戶近162萬人。用戶乘車時需要刷卡一次,并且在系統(tǒng)中生成一條記錄其消費行為的數(shù)據(jù),共生成4,857,644條記錄且以刷卡的順序存儲。原始數(shù)據(jù)集大小為2.12G。另外,考慮到用戶在本線路乘車(刷卡)平均刷卡3 次,且刷卡頻次呈長尾分布。且為了方便計算,剔除5個月里乘車次數(shù)不滿10 次的乘客,剩下有效用戶共78,704人,共有1,829,119 條乘車刷卡記錄,平均23.2 次。
本研究的預(yù)測目標(biāo)為:一段時間里,公交系統(tǒng)中每個工作小時的用戶群體出行情況。為此,我們以小時為單位并將同一時間區(qū)間的所有乘車數(shù)據(jù)累計匯總。然后,取2014年12月8日之前的2,340小時(每天只考慮公交線路正常工作的18小時)的用戶群體乘車情況作為訓(xùn)練集,之后的三周共378 小時作為預(yù)測的測試集。訓(xùn)練集中用戶出行情況如圖1所示。其中,橫軸為2014年8月1日開始到2014年12月8日為止的工作小時序列,縱軸為對應(yīng)的匯總乘車人次。此外,橫軸200 附近的數(shù)據(jù)為缺失值,1000 附近的數(shù)據(jù)為國慶節(jié)數(shù)據(jù)。為了檢驗抗噪音特性,實驗并未對缺失值和異常值進(jìn)行特殊處理。而且,在4.4小節(jié)我們對刷卡次數(shù)較少的用戶數(shù)據(jù)也進(jìn)行了討論。
圖1 訓(xùn)練數(shù)據(jù)集中用戶的日常公交出行分布
Figure 1 Distribution of daily bus trips for users in the training data set
在確定初始延遲時間時,通常使用實際觀測數(shù)據(jù)做出自相關(guān)函數(shù)隨延遲時間變化的函數(shù)圖像,然后觀察圖像的變化。將實驗的訓(xùn)練數(shù)據(jù)以小時為單位分割后,當(dāng)延遲時間取不同值時,自相關(guān)函數(shù)根據(jù)式(2)畫出的圖像如圖2所示。其中可以發(fā)現(xiàn)看出,自相關(guān)函數(shù)衰減到經(jīng)驗值1時,附近可選的延遲時間值有= 1 和= 2。本文的后續(xù)實驗中選取了最接近1的= 2 作為延遲時間。
圖2 自相關(guān)函數(shù)值圖像
Figure 2 Image of autocorrelation function values
圖3 關(guān)系曲線
前面的實驗得出結(jié)論:最合適的延遲時間為2,嵌入維度大于等于5。為了印證這個結(jié)果是否合理,本文針對嵌入維數(shù)和延遲時間做了拓展實驗。對于一個合理的相空間映射,在映射空間上,數(shù)據(jù)應(yīng)該表現(xiàn)出明顯的混沌吸引子,且各點取值應(yīng)該偏多樣化?;诖?,我們需要根據(jù)前面計算得到的延遲時間值和嵌入維度范圍,將公交出行數(shù)據(jù)(訓(xùn)練集)映射到高維相空間后進(jìn)行相應(yīng)的觀察。由于嵌入維度太大,本文利用主成分分析法(PCA[34])將相空間映射點降維到三維空間來可視化相圖,從而觀察實驗結(jié)果。
當(dāng)延遲時間= 2 保持不變,嵌入維數(shù)分別取5, 15, 25, 35, 45, 55 得到的相圖如圖4所示。從圖4中的變化趨勢可以看出:隨著嵌入維數(shù)的變化,系統(tǒng)相圖也在發(fā)生變化??傮w上可以看出嵌入維數(shù)范圍(= 5)則是相圖趨于穩(wěn)定的下界;隨著嵌入維數(shù)的增加,相圖逐漸趨近于平穩(wěn)。這一實驗結(jié)果說明了對相空間重構(gòu)的影響:嵌入維數(shù)越大,相圖就越趨于平穩(wěn)。
圖4 不同嵌入維數(shù)m 得到的相圖
Figure 4 Phase diagrams from different embedding dimensions m
在清楚了的影響前提下,我們可以選擇一個較大的嵌入維數(shù)值(例如= 50),利用實驗來觀察延遲時間對相空間構(gòu)建的影響。變化延遲時間從1 變到9,我們得到的相圖如圖5所示??梢詮膱D5中的趨勢看出:當(dāng)延遲時間為= 2 時,所對應(yīng)的相圖最為穩(wěn)定且吸引子狀態(tài)更多樣化;雖然= 1 所對應(yīng)的相圖也不錯,但是穩(wěn)定性和吸引子狀態(tài)多樣性都弱于= 2 的情況。這與圖2的實驗結(jié)果相吻合。然而當(dāng)延遲時間分別為3, 5, 6, 7, 8 和9 時,相圖雖然看上去很有規(guī)律,但沒有表現(xiàn)出多態(tài),只是在少數(shù)幾個狀態(tài)間跳躍變換。
圖5 不同延遲時間τ得到的相圖
Figure 5 Phase diagrams from different delay times τ
對于提出的公交出行預(yù)測目標(biāo),本文采用兩個評價指標(biāo)為:平均絕對百分誤差(MAPE)[35]和希爾不等系數(shù)(TIC)[36]。其定義分別如下:
傳統(tǒng)的預(yù)測方法認(rèn)為每一個目標(biāo)點都具有相似的近似點數(shù)量,因此取的相似點數(shù)目完全一樣,為固定值,這樣的假設(shè)顯然不合理。圖6給出了四個需要預(yù)測的目標(biāo)點與其最相似的= 20 個點的相似度變化曲線。圖中紅色的點為這20個點中與目標(biāo)點相似性排序的拐點。如果設(shè)定0= 10,對于= 5 圖中這類目標(biāo)點與其相似點的相似度變化拐點0,因而需要在排序為到的相似點集合中繼續(xù)計算相似性續(xù)拐點,直到找到的拐點排序大于0。對于= 16 類似的目標(biāo)點,它們與相似點之間的相似度變化很均勻,如果不找拐點,對其影響不大。而對于= 13 和= 11圖中的目標(biāo)點,能明顯找出一個相似度變化劇烈變化的地方。拐點之后的點雖然還在目標(biāo)點相似度排序的前20 范圍中,但是它們與目標(biāo)點的相似度差已迅速增大。如果將這些通過固定值方法找到的所有點一視同仁,(尤其是值比較大時)將會導(dǎo)致擬合效果欠佳。
圖6 部分目標(biāo)點與相空間中20個最相似點的相似度變化曲線示例
Figure 6 Examples of similarity curve between some target points and the 20 most similar points in phase space
在一個值比較大的相似點集合中,將拐點之前的點看作是目標(biāo)點的“最相似”點集,本文提出了一個實現(xiàn)更準(zhǔn)確預(yù)測的新思路:找到足夠多的,且與目標(biāo)點“最相似”的歷史狀態(tài)點,進(jìn)而通過擬合這些“最相似”點與各自下一時刻點之間的關(guān)系對系統(tǒng)下一狀態(tài)的進(jìn)行預(yù)測。為了說明這一方法的優(yōu)勢,表3為當(dāng)延遲時間為= 2,嵌入維數(shù)為41到60時,本文的方法和傳統(tǒng)固定值(= 20)方法的MAPE和TIC指標(biāo)具體變化情況對比(其中*表示用找相似性拐點的方法的預(yù)測結(jié)果)。可以看出,本文提出的找拐點的方法,不僅MAPE 值有相當(dāng)可觀的下降(約10%),而且TIC值也有很大程度的降低,且穩(wěn)定時TIC值小于0.1,這表明擬合效果很好。
進(jìn)一步,我們選擇表3中預(yù)測效果最好的實驗參數(shù)(延遲時間為2,嵌入維數(shù)為53),本文方法在測試的三周共378 小時上的預(yù)測值與真實值的匹配結(jié)果如圖7所示(其中藍(lán)線為真實值,紅線為預(yù)測值)。
為了更清晰地展現(xiàn)實驗效果,我們從圖7的全部時間中選出四個時間片段(即0-30小時,100-130小時,200-230小時,300-330小時)的實驗情況進(jìn)行放大展示,結(jié)果如圖8所示。圖中的藍(lán)線(實線)表示真實發(fā)生的刷卡數(shù)據(jù),紅線(虛線)表示本文方法的預(yù)測結(jié)果。實驗結(jié)果表明,本文方法的預(yù)測結(jié)果能夠很好地擬合公交用戶真實的刷卡行為。
表3 新方法與固定值方法(k = 20)預(yù)測結(jié)果的MAPE和TIC變化情況對比
圖7 預(yù)測值與真實值的匹配結(jié)果示意(τ = 2, m = 53)
Figure 7 The matching result between the predicted value and the real value(= 2,= 53)
本文的方法與時間序列預(yù)測研究中常用的“ARMA模型”和“對應(yīng)位置回歸”(Cor Reg)[19]兩種方法進(jìn)行了對比實驗。ARMA模型是最常用的平穩(wěn)時間序列擬合模型。對應(yīng)位置回歸方法認(rèn)為系統(tǒng)的周期中具有相關(guān)性的時間點在狀態(tài)上也應(yīng)該相關(guān)。因此需要一定先驗知識來確定周期(延遲時間),以及在一系列相關(guān)的狀態(tài)集合上,再運用回歸(如非參數(shù)K-NN)進(jìn)行相關(guān)性擬合來實現(xiàn)預(yù)測。例如,若要預(yù)測某個星期一早上8點的公交流量,則在數(shù)據(jù)集中去尋找所有星期一早上7點的數(shù)據(jù),并回歸擬合這些數(shù)據(jù)與其下一時刻(星期一早上8點)的關(guān)系。這里需要先驗地確定時間延遲為7天(一周),并找到預(yù)測目標(biāo)(星期一早上8點)的相關(guān)狀態(tài)集合(所有星期一早上7點)。
圖8 預(yù)測值與真實值在四個時間片段上的放大顯示效果
Figure 8 Enlarged display effect of predicted value and real value in four time segments
圖8(續(xù)) 預(yù)測值與真實值在四個時間片段上的放大顯示效果
Figure 8(continue) Enlarged display effect of predicted value and real value in four time segments
表4為在公交大數(shù)據(jù)集上,三種預(yù)測方法的MAPE值和TIC值。本文提出的新方法無論是MAPE值還是TIC值都優(yōu)于其他兩種方法。值得一提的是,對于Cor Reg方法,其MAPE值和TIC值雖然與本文提出的方法很接近,但是此方法基于很強的先驗知識,在實際應(yīng)用中,很可能因為數(shù)據(jù)缺失或異常值導(dǎo)致預(yù)測結(jié)果很不穩(wěn)定。
表4 對比實驗結(jié)果
在前述實驗中的數(shù)據(jù)中,我們剔除了5個月時間里乘車次數(shù)不滿10 次的乘客,用剩余部分38%的數(shù)據(jù)對乘客的公交出行行為進(jìn)行預(yù)測。但是我們進(jìn)一步發(fā)現(xiàn),乘車次數(shù)不滿10 次的這類乘客雖然人均刷卡次數(shù)較少,但是人數(shù)眾多且占到近62%的刷卡記錄。顯然,被剔除的乘客乘車次數(shù)雖少但數(shù)量巨大,也應(yīng)當(dāng)作為被預(yù)測的群體之一。
本部分的實驗工作,用于討論分析本文方法對于噪音數(shù)據(jù)的處理能力。本文將乘車“刷卡次數(shù)”作為變量進(jìn)行考慮。分別以“刷卡次數(shù)”= 1次,= 2次,…,直到= 15次分別作為不同的依據(jù)進(jìn)行數(shù)據(jù)劃分。即每次實驗中我們把“刷卡次數(shù)”大于等于次的作為一部分實驗數(shù)據(jù);同時將對應(yīng)的“刷卡次數(shù)”小于次的作為另一部分實驗數(shù)據(jù)。這樣我們可以獲得15對的數(shù)據(jù)集,可以用來檢驗在不同噪音水平下本文方法的預(yù)測效果。檢驗的指標(biāo)仍然采用MAPE值和TIC值,實驗結(jié)果見圖9。
圖9中藍(lán)色實線表示“刷卡次數(shù)”小于數(shù)據(jù)集的預(yù)測結(jié)果(圖中用標(biāo)識),紅色虛線表示“刷卡次數(shù)”大于數(shù)據(jù)集的預(yù)測結(jié)果(圖中用標(biāo)識)。首先,隨刷卡次數(shù)的增加,圖中的紅色虛線均低于藍(lán)色實線。這表明刷卡次數(shù)多的用戶比刷卡次數(shù)少的用戶表現(xiàn)出更強的出行規(guī)律性。其次,圖中的藍(lán)色實線呈逐步下降趨勢,意味著本文預(yù)測方法的準(zhǔn)確度在不斷提高。即隨著刷卡次數(shù)的增多,用戶乘坐公交車的規(guī)律性也在不斷增強。最后,圖中的紅色虛線存在緩慢上升趨勢,表明那些刷卡次數(shù)非常多的用戶,其乘車非規(guī)律性的出行行為也在隨之增加,本文預(yù)測方法的準(zhǔn)確度將會受到一定影響。
圖9 剔除不同“噪音”數(shù)據(jù)的預(yù)測結(jié)果變化實驗
Figure 9 Experiments of changing prediction results by excluding different “noise” data
公交系統(tǒng)實現(xiàn)智能化的關(guān)鍵是對公交客流的全面、準(zhǔn)確把握和預(yù)測。公交客流的刷卡行為可以生成海量序列數(shù)據(jù),因而如何利用這些海量序列數(shù)據(jù),來提高對群體用戶在未來一段時間中的可能行為的預(yù)測效率是一個非常有意義的研究問題。但是,傳統(tǒng)的建模預(yù)測思路在大數(shù)據(jù)環(huán)境下會面臨模型數(shù)據(jù)選擇的合理性和長期預(yù)測的準(zhǔn)確性挑戰(zhàn)。
本文引入相空間重構(gòu)的方法研究了海量序列數(shù)據(jù)的系統(tǒng)建模,讓更多的系統(tǒng)數(shù)據(jù)參與到模型構(gòu)建過程中來。此外,為了獲得更準(zhǔn)確的預(yù)測結(jié)果,本文通過先構(gòu)建一個較大的相似點集合,并在此基礎(chǔ)上通過尋找拐點的方法,無監(jiān)督地根據(jù)目標(biāo)點的不同進(jìn)而選擇不同的(最)近似點數(shù)量,以至于對預(yù)測模型結(jié)果進(jìn)行優(yōu)化。該方法不但降低了預(yù)測過程中的相似度計算復(fù)雜度,同時也顯著提升了預(yù)測效果。實驗證明,本文提出的方法對于利用復(fù)雜系統(tǒng)的海量(序列)觀察數(shù)據(jù)進(jìn)行系統(tǒng)建模,以及基于模型預(yù)測較長一段時間的群體行為模式提供了新的思路和方法。
[1] 楊浩雄, 李金丹, 張浩, 劉淑芹. 基于系統(tǒng)動力學(xué)的城市交通擁堵治理問題研究[J]. 系統(tǒng)工程理論實踐, 2014, 34(8): 2135-2143.
Yang H X, Li J D, Zhang H, Liu S Q. Research on the governance of urban traffic jam based on system dynamics[J].Systems Engineering-Theory & Practice, 2014, 34(8): 2135-2143.
[2] Yu Zheng, Licia Capra, Ouri Wolfson, Yang Hai. Urban Computing: Concepts, Methodologies, and Applications[J]. ACM Transaction on Intelligent Systems and Technology, 2014, 5(3), 38:1-55.
[3] Liang Dai, Wen Qin, Hongke Xu, et al. Urban traffic flow prediction: A MapReduce based parallel multivariate linear regression approach[C]. In Proceedings of the 17th International IEEE Conference on Intelligent Transportation Systems, 2014: 2823-2827.
[4] M. Gong, X. Fei, Z. H. Wang, et al. Sequential framework for short-term passenger flow prediction at bus stop[J], Journal of the Transportation Research Board, 2014, vol. 2417: 58–66.
[5] 朱廣宇, 王雨晨, 張彭等. 基于變點發(fā)掘的城市軌道交通客流預(yù)測模型[J]. 中南大學(xué)學(xué)報(自然科學(xué)版), 2016, 47(6): 2153-2159.
Zhu G Y, Wang Y C, Zhang P. A forecasting model for urban rail transit passenger flow based on change-point detection method[J]. Journal of Central South University (Science and Technology), 2016, 47(6): 2153-2159.
[6] 梁昌勇, 馬銀超, 陳榮等. 基于SVR-ARMA組合模型的日旅游需求預(yù)測[J]. 管理工程學(xué)報, 2015, (1):122-127.
Liang C Y, Ma Y C, Chen R. The Daily Forecasting Tourism Demand Based on SVR-ARMA Combination Model[J]. Journal of Industrial Engineering and Engineering Management, 2015, (1):122-127.
[7] 張春輝, 宋瑞, 孫楊. 基于卡爾曼濾波的公交站點短時客流預(yù)測[J]. 交通運輸系統(tǒng)工程與信息, 2011, 11(4): 154-159.
Zhang C H, Song R, Sun Y. Kalman Filter-Based Short-Term Passenger Flow Forecasting on Bus Stop[J]. Journal of Transportation Systems Engineering and Information Technology, 2011, 11(4): 154-159.
[8] 袁健, 李茂同, 范炳全. 短時交通流預(yù)測FSMSVR模型[J]. 系統(tǒng)工程與理論實踐, 2014, 34(6): 1607-1613.
Yuan J, Li M T, Fan B Q. A FSMSVR model of short-term traffic forecasting[J]. Systems Engineering-Theory & Practice, 2014, 34(6): 1607-1613.
[9] Yuxing Sun, Biao Leng, Wei Guan. A novel wavelet-SVM short-time passenger flow prediction in Beijing subway system[J], Neurocomputing, 2015, Volume 166: 109-121.
[10] 王建, 鄧衛(wèi), 趙金寶. 基于貝葉斯網(wǎng)絡(luò)多方法組合的短時交通流量預(yù)測[J]. 交通運輸系統(tǒng)工程與信息, 2011, 11(4): 147-153.
Wang J, Deng W, Zhao J B. Short-Term Freeway Traffic Flow Prediction Based on Multiple Methods with Bayesian Network[J]. Journal of Transportation Systems Engineering and Information Technology, 2011, 11(4): 147-153.
[11] Wei Y, Chen M C. Forecasting the short-term metro passenger flow with empirical mode decomposition and neural networks[J]. Transportation Research Part C: Emerging Technologies, 2012, 21(1): 148–162.
[12] Zhao S Z, Ni T H, Wang Y, et al. A new approach to the prediction of passenger flow in a transit system[J], Computers & Mathematics with Applications, 2011, 61(8): 1968-1974.
[13] Y. Mo, Y. Su. Neural networks based real-time transit passenger volume prediction[C]. In Proceedings of the 2nd International Conference on Power Electronics and Intelligent Transportation System (PEITS), 2009, pp. 303-306.
[14] 沈國江, 王嘯虎, 孔祥杰. 短時交通流量智能組合預(yù)測模型及應(yīng)用[J]. 系統(tǒng)工程理論實踐, 2011, 31(3): 561-568.
Shen G J, Wang X H, Kong X J. Short-term traffic volume intelligent hybrid forecasting model and its application[J]. Systems Engineering-Theory & Practice, 2011, 31(3): 561-568.
[15] Isabelle Guyon, Andr′e Elisseeff. An Introduction to variable and feature selection[J]. Journal of Machine Learning Research, 2003, 3:1157-1182.
[16] JoséA. S′aez, J. Luengo, F. Herrera. Predicting Noise Filtering Efficacy with Data Complexity Measures for Nearest Neighbor Classification[J]. Pattern Recognition, 2013, 46(1): 355-364.
[17] 董超俊, 劉智勇, 邱祖廉. 基于混沌理論的交通量實時預(yù)測[J]. 信息與控制, 2004, 33(5):518-522.
Dong C J, Liu Z Y, Qiu Z L. Prediction of Traffic Flow in Real-time Based on Chaos Theory[J].Information and Control, 2004, 33(5):518-522.
[18] 張曉利, 賀國光, 陸化普. 基于K-鄰域非參數(shù)回歸短時交通流預(yù)測方法[J]. 系統(tǒng)工程學(xué)報, 2009, 24(2):178-183.
Zhang X L, He G G, Lu H P. Short-term traffic flow forecasting based on K-nearest neighbors non-parametric regression[J]. Journal of Systems Engineering, 2009, 24(2):178-183.
[19] 張曉利, 陸化普. 非參數(shù)回歸方法在短時交通流預(yù)測中的應(yīng)用[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2009, 49(9):39-43.
Zhang X L, Lu H P. Non-parametric regression and application for short-term traffic flow forecasting[J]. Journal of Tsinghua University (Science and Technology), 2009, 49(9):39-43.
[20] 張濤, 陳先, 謝美萍等. 基于K近鄰非參數(shù)回歸的短時交通流預(yù)測方法[J]. 系統(tǒng)工程理論實踐, 2010, 30(2): 376-384.
Zhang T, Chen X, Xie M P,. K-NN based nonparametric regression method for short-term traffic flow forecasting[J]. Systems Engineering-Theory & Practice, 2010, 30(2): 376-384.
[21] 張洪賓, 孫小端, 賀玉龍. 短時交通流復(fù)雜動力學(xué)特性分析及預(yù)測[J]. 物理學(xué)報, 2014, 63(4): 55-62.
Zhang H B, Sun X D, He Y L. Analysis and prediction of complex dynamical characteristics of short-term traffic flow[J]. Acta Physica Sinica, 2014, 63(4): 55-62.
[22] 周浩, 胡堅明, 張毅等. 基于隱Markov模型的短時交通崩潰事件預(yù)測[J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2016, 56(12): 1333-1340.
Zhou H, Hu J M, Zhang Y,. Short-term traffic breakdown prediction using a hidden Markov model[J]. Journal of Tsinghua University (Science and Technology), 2016, 56(12): 1333-1340.
[23] Kenneth Button. Transport safety and traffic forecasting: An economist’s perspective[J], IATSS Research, 2014, 38(1):27-31.
[24] 孟小峰, 慈祥. 大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J]. 計算機研究與發(fā)展, 2013, 50(1): 146-169.
Meng X F, Ci X. Big Data Management: Concepts,Techniques and Challenges[J]. Journal of Computer Research and Development, 2013, 50(1): 146-169.
[25] Lei L, Shulin Z, Zhilou Y, et al. A big data inspired chaotic solution for fuzzy feedback linearization model in cyber-physical systems[J]. Ad Hoc Networks, 2015, Volume 35: 97-104.
[26] Packard N H, Crutchfield J P, Farmer J D, et al. Geometry from a time series[J]. Physical review letters, 1980, 45(9): 712.
[27] Wu, C. L., K. W. Chau, Y. S. Li. Predicting monthly streamflow using data-driven models coupled with data preprocessing techniques[J]. Water Resources Research, 2009, 45: W08432.
[28] Takens F. Detecting strange attractors in turbulence[M]. Dynamical systems and turbulence, Warwick 1980. Springer Berlin Heidelberg, 1981: 366-381.
[29] 董春嬌, 邵春福, 李娟等. 基于混沌分析的道路網(wǎng)交通流短時預(yù)測[J]. 系統(tǒng)工程學(xué)報, 2011, 26(3):340-345.
Dong C J, Shao C F, Li J,. Short-term traffic flow prediction of road network based on chaos theory[J]. Journal of Systems Engineering, 2011, 26(3):340-345.
[30] Fraser A M, Swinney H L. Independent coordinates for strange attractors from mutual information[J]. Physical review A, 1986, 33(2): 1134.
[31] Rosenstein M T, Collins J J, De Luca C J. Reconstruction expansion as a geometry-based framework for choosing proper delay times[J]. Physica D: Nonlinear Phenomena, 1994, 73(1): 82-98.
[32] Abarbanel H D I, Brown R, Sidorowich J J, et al. The analysis of observed data in physical systems[J]. Rev. Mod. Phys, 1993, 65(4): 1331-1392.
[33] Grassberger P, Procaccia I. Measuring the Strangeness of Strange Attractors[J]. Physica D: Nonlinear Phenomena. 1983, 9(1-2): 189- 208.
[34] Shukuan L, Jianzhong Q, Guoren W, et al. Phase Space Reconstruction of Nonlinear Time Series Based on Kernel Method[C]. In Proceedings of the 6th World Congress on Intelligent Control and Automation, 2006, pp. 4364-4368.
[35] Armstrong J S, Collopy F. Error measures for generalizing about forecasting methods: Empirical comparisons[J]. International journal of forecasting, 1992, 8(1): 69-80.
[36] Theil H. Economic forecasts and policy[M]. Amsterdam: North- Holland Publishing Company, 1958.
Study on prediction of public transportation user group trips based on massive sequence data
FENG Lu, QIAN Yu*, BAI Mengna, YUAN Hua
( School of Management and Economics, University of Electronic Science and Technology of China, Chengdu 611731, China)
In massive sequence data, predicting the behavioral patterns of user groups over a period of time in the future is a very meaningful research endeavor. In this field, research on the behavioral patterns of public transportation user groups is particularly representative and reflective of the main characteristics of urban residents and cities, as public transportation is the primary means by which urban residents travel. To improve the efficiency of public resource use and optimize the management of urban public transportation, it is of great significance to promote the intellectual development of urban computing.
Traffic flow-related prediction research has undergone a long period of development. Previous research considered only the prediction of short-term traffic flow, however the reasonable prediction of long-term traffic flow may provide better services for traffic management. With the emergence of intelligent transportation, people expect to use public transit big data to accurately predict the travel behavior of long-term user groups.
Taking the behavior of public transport user groups as an example, this paper introduces the phase space reconstruction method to predict the nature and regularity of mass transit group sequence behaviors, and uses massive sequence data to model the large-scale system to simulate its dynamic evolution process. However, the phase space reconstruction method faces two problems: one is the selection of number of similar points in the phase space; the other is the quality of the phase space reconstruction.
With respect to the first problem, after the general phase space reconstruction method maps the data to the phase space, the K-proximity method is normally used to find similar points within the time frame for prediction. However, this method is sensitive to the adjacent number of values K and produces a large error. Given these flaws, this paper proposes the similarity inflection point method for the automatic selection of similar points before prediction, that is, the most similar P points are automatically selected for prediction in a large K-near neighborhood. This method not only reduces the complexity of similarity calculation in the prediction process, but also significantly improves the prediction effect.
With respect to the second problem, previous studies have only evaluated the quality of phase space reconstructions through prediction effects. This paper not only measures the quality of the phase space reconstruction from the forecast result, but also compares and defines relationships between different prediction results and phase diagrams through a series of parameter experiments. The parameter experiments show that the phase diagram changes significantly under different parameters, and that there is a certain correlation between the high-quality phase diagram and high-precision prediction. This shows that the phase space reconstruction method can better describe the behavioral patterns of public transportation user groups, and shows the effectiveness of the prediction method used for the phase space reconstruction in this paper.
The final experimental results show that the method in this paper has obvious advantages over other time series prediction methods. The similarity inflection point method proposed in this paper, in particular, has significantly improved the prediction accuracy. At the same time, this paper proposes new ideas for exploring the use of massive (periodic) sequence data for system modeling and predicting group behavior over a period of time.
Massive sequence data; Phase space reconstruction; Similarity; Prediction
2017-12-28
2018-08-27
Supported by the National Natural Science Foundation of China (71572029, 71671027, 71490723, 71271044)
TP311
A
1004-6062(2020)04-0126-009
10.13587/j.cnki.jieem.2020.04.014
2017-12-28
2018-08-27
國家自然科學(xué)基金資助項目(71572029、71671027、71490723、71271044)。
錢宇(1978—),女,重慶人;電子科技大學(xué)經(jīng)濟與管理學(xué)院副教授,博士;研究方向:信息經(jīng)濟學(xué)與商務(wù)智能。
中文編輯:杜 ?。挥⑽木庉嫞築oping Yan