文/孫蘭軍
在當今社會快速發(fā)展背景下,城市的交通情況也是瞬息萬變,因此,對于交通的控制成為城市發(fā)展過程中的重點工作。傳統(tǒng)的控制方式與控制方法,已經(jīng)不適應當今城市交通的發(fā)展。所以,智慧交通應運而生。智慧交通的出現(xiàn),促使城市交通更加暢通,為城市交通管理等工作的展開打下良好基礎。在智慧交通的發(fā)展中,要將數(shù)據(jù)挖掘技術應用在其中,從而實現(xiàn)城市交通的更好發(fā)展。所以,本文將針對數(shù)據(jù)挖掘技術在智慧交通中的應用相應內(nèi)容進行闡述。
數(shù)據(jù)挖掘是一個過程,主要是對大量的、有噪聲的信息進行提取,將其中未知的、有用的信息提取出來。在社會的不斷發(fā)展中,城市的進步使得不同數(shù)據(jù)信息得到快速增長,無論是個人信息,還是企業(yè)信息、政府信息等都有著飛速進步與發(fā)展,數(shù)據(jù)爆炸式增長。大量的數(shù)據(jù)以及可用的數(shù)據(jù)信息,帶領人們進入到數(shù)據(jù)時代,在此背景下,也面臨著一定的信息匱乏問題。在海量的數(shù)據(jù)信息中,提取有效信息成為人們的信息獲取的重點,數(shù)據(jù)挖掘技術也應運而生。數(shù)據(jù)挖掘技術包含許多不同內(nèi)容,比如,關聯(lián)分析。關聯(lián)分析通常情況下主要是指,兩個對象或者多個對象之間存在的某種聯(lián)系,其中的某個對象可以通過其他對象展開相應的預測工作。主要目的就是,對數(shù)據(jù)之間從存在的隱藏相互關系進行挖掘。關聯(lián)一般情況下會被分為三部分,分別是簡單、時序與關聯(lián),由兩個關鍵指標對其相關性進行明確與度量。關聯(lián)分析也因為自身特點,被廣泛應用在銷售分析以及事務分析中[1]。再如,分類分析。分類分析主要就是將描述和區(qū)分數(shù)據(jù)類別模型找出,從而對未知的數(shù)據(jù)類別進行預測??偠灾?,數(shù)據(jù)挖掘技術對于智慧交通發(fā)展而言具有重要作用。因此,對于數(shù)據(jù)挖掘技術需要有關部門與相關工作人員能夠給予更多關注與重視,對技術進行分析,并將其應用在智慧交通相關工作中。
從目前我國城市交通系統(tǒng)發(fā)展中不難看出,在其中存在許多不同的問題。主要體現(xiàn)在以下幾點中:(1)客流信息不足問題。目前城市公交車使用的IC卡,只具備付費這一功能,但是并沒有身份識別功能與乘車記錄功能。乘車卡性能與功能并不完善,對于乘客的乘車信息以及乘車流量信息無法進行及時的采集,這對于客流量的控制工作帶來很大影響[2]。
圖1 2010—2018年全年高速公路里程(單位:萬公里,%)
在智慧交通的發(fā)展過程中,可以將其應用在交通數(shù)據(jù)預處理中。本數(shù)據(jù)的主要來源是某個城市各個路段車輛的抓拍設備中,所采取到的數(shù)據(jù)信息。數(shù)據(jù)主要集中在2月份到3月份之間。在這樣過程中,抓拍設備因為不同原因會出現(xiàn)設備故障情況,比如,惡劣天氣原因、車輛狀況原因等,會造成數(shù)據(jù)出現(xiàn)錯誤,或者數(shù)據(jù)不完整情況產(chǎn)生。這一問題的出現(xiàn),對于后續(xù)分析工作的展開會產(chǎn)生很大影響。為在最大程度上避免這一情況的產(chǎn)生,對于錯誤數(shù)據(jù)、不完整數(shù)據(jù)以及丟失數(shù)據(jù)等做好預處理工作,這樣才能為后續(xù)數(shù)據(jù)分析工作的展開打下良好基礎。為方便對數(shù)據(jù)的處理,可以將數(shù)據(jù)加載到相應的數(shù)據(jù)庫中,結(jié)合數(shù)據(jù)庫主要特點,對異常數(shù)據(jù)情況進行有效處理。在實際異常數(shù)據(jù)分析中,可以從以下幾點展開:(1)對各個字段進行分析,對數(shù)據(jù)是否滿足既定的業(yè)務含義進行明確。針對明顯的錯誤數(shù)據(jù),可以通過數(shù)字型字段通過閾值法進行明確[3]。(2)為使得隱含的異常數(shù)據(jù)能夠被去除,要遵循正態(tài)分布原則展開相應識別工作與去除工作。在完成異常數(shù)據(jù)識別后,可以使用當前時間相鄰的同期歷史均值進行有效替代。(3)為使得數(shù)據(jù)樣本的完整性與精確性得到保障,采樣數(shù)據(jù)時間間隔要保證為五分鐘,然后得出在某天中,數(shù)據(jù)采集個數(shù)是288。
本文主要選擇的是某個城市快速路段的兩個月內(nèi)抓拍的數(shù)據(jù),并按照時間順序?qū)ζ溥M行聚類分析。通過分析希望能夠發(fā)現(xiàn)其中的一些典型車流量變化趨勢與變化情況,然后,對不同類別車輛的流量模式背后時段特性進行識別,這樣可以為日后車流量預測工作的展開打下良好基礎,同時提供數(shù)據(jù)保障。在數(shù)據(jù)挖掘聚類期間,可以不需要人為對分類數(shù)進行明確。分類個數(shù)通常情況下,是通過聚類算法的方式,對其進行自動調(diào)整與明確。具體挖掘模型如下圖(見圖2)所示。
圖2 挖掘模型建立流程示意圖
要通過聚類的方式,對數(shù)據(jù)特點進行明確。在待分析數(shù)據(jù)源、視圖結(jié)構以及需要挖掘結(jié)構的構建過程中,要加強對SPSSModeler的應用。在本次的實驗中,為找到并明確數(shù)據(jù)內(nèi)部不同時間特點,可以采取聚類算法方式。希望得出數(shù)據(jù)自身能夠分為不同類型,然后對不同類別之間的關系進行風分析。結(jié)合分類后的數(shù)據(jù),對每類數(shù)據(jù)單獨統(tǒng)計車流量曲線圖,然后結(jié)合多條同類別曲線圖,轉(zhuǎn)化為流量模式曲線圖。然后將曲線圖集中在一個圖中,從而得出五條車流量模式曲線對比圖。
通過兩個月以來的數(shù)據(jù)分析得出五類車流量模式曲線對比圖,以及各類樣本分布情況,得出以下幾個結(jié)論:
(1)二月數(shù)據(jù)分布相對均勻,并且被均勻分布在不同的類別中,三月數(shù)據(jù)主要集中在前三類中。由此可以看出,兩月流量在總體上從存在一定的差異[4]。產(chǎn)生這一情況的原因是由不同因素造成的,比如,假期情況、天氣情況等。
(2)通常情況下,工作日的車流量會被分為兩種情況,結(jié)合圖一中第一類曲線與第二類曲線情況,實際總體上較為接近,但是各自有著三個或者四個高峰點。這與市民實際生活中的早、中、晚上下班小高峰情況相對應,在這一過程中要注意,還有一個小高峰是在晚上九點左右。這兩類情況在總體態(tài)勢中大致相同,但是,各自有著不同的高峰時間,在不同時間段來臨。而且的各自達到高峰的數(shù)據(jù)值存在不同,持續(xù)時間也有著一定的差異。
(3)兩個月的周末流量,主要呈現(xiàn)出兩種情況[5]。具體參考圖一中的第三類曲線,第三類曲線峰值出現(xiàn)沒有明顯變化,只有幾個小小平高峰,而且總體走勢情況相對平緩。雖然數(shù)值波動不大,但是持續(xù)時間較長。結(jié)合對市民實際出行情況的分析,因為是非工作日,市民的日常出行情況不規(guī)律,并不會出現(xiàn)工作日的上班與下班高峰點。往往是在上午或者下午,出現(xiàn)持續(xù)時間較長的平高峰。
綜上所述,數(shù)據(jù)挖掘技術對于城市智慧交通的發(fā)展而言具有重要作用。因此,對于智慧交通需要相關工作人員以及部門等能夠給予更多關注與重視,明確數(shù)據(jù)挖掘技術優(yōu)勢與特點。然后將其應用在智慧交通發(fā)展中,使得智慧交通能夠在促進城市更好的發(fā)展中將自身作用與價值充分發(fā)揮。