[摘 要] 高速公路海量的聯(lián)網(wǎng)收費(fèi)記錄匯聚了很多極具價(jià)值的交通信息,利用數(shù)據(jù)挖掘方法,實(shí)現(xiàn)收費(fèi)數(shù)據(jù)的增值利用具有重要的理論與應(yīng)用意義。交通流量是交通規(guī)劃與管理中的一項(xiàng)重要基礎(chǔ)數(shù)據(jù),以往交通流量的預(yù)測(cè)方法依賴(lài)于交通調(diào)查與檢測(cè)數(shù)據(jù),數(shù)據(jù)采集成本很高。本文以回歸樹(shù)理論建立起利用聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)預(yù)測(cè)交通流量的思路,并借助SQL2005提供的數(shù)據(jù)挖掘功能,建立起數(shù)據(jù)分析系統(tǒng),實(shí)現(xiàn)利用聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)進(jìn)行交通流量的預(yù)測(cè)。
[關(guān)鍵詞] 聯(lián)網(wǎng)收費(fèi);交通流量;數(shù)據(jù)挖掘;回歸樹(shù)分析
[中圖分類(lèi)號(hào)]F270.7;TP274[文獻(xiàn)標(biāo)識(shí)碼]A[文章編號(hào)]1673-0194(2009)02-0059-03
1 引 言
數(shù)據(jù)挖掘(Data Mining, DM)技術(shù)是指從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。作為一個(gè)重要的計(jì)算機(jī)應(yīng)用領(lǐng)域,它將極大地促進(jìn)信息對(duì)于人類(lèi)社會(huì)進(jìn)步所起的作用,產(chǎn)生巨大的經(jīng)濟(jì)和社會(huì)效益[1]。隨著我國(guó)高速公路領(lǐng)域聯(lián)網(wǎng)收費(fèi)技術(shù)的普遍推行,聯(lián)網(wǎng)收費(fèi)中心將匯集起海量的高速公路收費(fèi)系統(tǒng)數(shù)據(jù),這些信息具有及時(shí)、準(zhǔn)確的特點(diǎn)。對(duì)這些信息進(jìn)行處理分析和挖掘,實(shí)現(xiàn)信息的增值與充分利用,將具有重要的理論與現(xiàn)實(shí)意義。但如何對(duì)這些數(shù)據(jù)進(jìn)行深入挖掘,發(fā)現(xiàn)其中的潛在規(guī)律等的研究成果還很少。
在高速公路上估算收費(fèi)站的車(chē)流量對(duì)優(yōu)化管理來(lái)說(shuō)十分有益,通過(guò)對(duì)流量的預(yù)測(cè)可以及時(shí)調(diào)配人力物力資源,同時(shí)也可以為交通規(guī)劃與新道路建設(shè)提供依據(jù)。以往交通流量的預(yù)測(cè)方法對(duì)前期交通量的預(yù)測(cè)往往與實(shí)際出入太大,其預(yù)測(cè)交通量指標(biāo)已失去其指導(dǎo)意義,進(jìn)行OD的重新調(diào)查不僅費(fèi)時(shí)費(fèi)力,而且依賴(lài)于大量實(shí)地交通調(diào)查或交通檢測(cè)設(shè)備所獲得的數(shù)據(jù)資料,需要大強(qiáng)度、高投入的數(shù)據(jù)采集工作。本文以時(shí)序理論建立起利用聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)預(yù)測(cè)車(chē)流量的思路,并借助SQL 2005提供的數(shù)據(jù)挖掘功能,建立起基于數(shù)據(jù)倉(cāng)庫(kù)、聯(lián)機(jī)分析處理和數(shù)據(jù)挖掘的收費(fèi)道路數(shù)據(jù)分析系統(tǒng),實(shí)現(xiàn)利用聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)對(duì)車(chē)流量的預(yù)測(cè)。
2 聯(lián)網(wǎng)收費(fèi)系統(tǒng)原始數(shù)據(jù)記錄以及數(shù)據(jù)的預(yù)處理
聯(lián)網(wǎng)收費(fèi)中心的收費(fèi)系統(tǒng)數(shù)據(jù)以記錄的形式存在,每一條記錄都對(duì)應(yīng)了一輛車(chē)的出入口信息,并且還要附加眾多系統(tǒng)信息。因此,在進(jìn)行有一定目的的數(shù)據(jù)挖掘工作前,對(duì)原始的收費(fèi)系統(tǒng)數(shù)據(jù)進(jìn)行預(yù)處理,是建立挖掘算法的分析模型的關(guān)鍵前提,這一步驟主要包括數(shù)據(jù)信息的選擇和一些必要的數(shù)據(jù)轉(zhuǎn)換工作[2]。
2. 1聯(lián)網(wǎng)收費(fèi)系統(tǒng)原始數(shù)據(jù)記錄
依據(jù)地方標(biāo)準(zhǔn)《廣東省高速公路聯(lián)網(wǎng)收費(fèi)系統(tǒng)》(DB44/127-2002)[3],聯(lián)網(wǎng)收費(fèi)系統(tǒng)的數(shù)據(jù)記錄主要由以下數(shù)據(jù)構(gòu)成(見(jiàn)表1)。
2. 2數(shù)據(jù)的預(yù)處理
數(shù)據(jù)預(yù)處理的目的是把海量的收費(fèi)數(shù)據(jù)進(jìn)行處理,轉(zhuǎn)換為適合數(shù)據(jù)挖掘的可靠精確的數(shù)據(jù)??紤]到在數(shù)據(jù)挖掘中遇到的問(wèn)題,以及在高速公路收費(fèi)數(shù)據(jù)挖掘中的實(shí)際過(guò)程,將數(shù)據(jù)預(yù)處理過(guò)程分為以下幾個(gè)步驟:數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)抽取。
(1)數(shù)據(jù)清理:通過(guò)數(shù)據(jù)清理將收費(fèi)員發(fā)卡時(shí)誤操作或者機(jī)器故障產(chǎn)生壞卡時(shí)的產(chǎn)生記錄進(jìn)行清理;同時(shí)也將司機(jī)由于卡丟失或者進(jìn)高速公路后從入口掉頭以及司機(jī)沖卡而產(chǎn)生的異常數(shù)據(jù)進(jìn)行清理。
(2)數(shù)據(jù)集成:將表1清理后,集成到另一個(gè)表中。
(3)數(shù)據(jù)抽?。涸谶@個(gè)表中抽取以下幾列:出(入)口流水編碼、入口站名(出口站名)、出(入)口車(chē)型、出(入)口時(shí)間(精確到小時(shí))、車(chē)流量數(shù)。
3 基于收費(fèi)數(shù)據(jù)進(jìn)行車(chē)流量預(yù)測(cè)的Microsoft時(shí)間序列算法
回歸樹(shù)算法是數(shù)據(jù)挖掘中的一種分類(lèi)預(yù)測(cè)算法。它結(jié)合了回歸技術(shù)和決策樹(shù)技術(shù)。
回歸樹(shù)模型的建立通過(guò)持續(xù)的(或遞推的)分層將樣本不斷細(xì)分(亦即分枝),而分枝點(diǎn)是能夠使得兩分枝的反應(yīng)變量的變異最大的預(yù)測(cè)變量的某個(gè)值,這樣各節(jié)點(diǎn)內(nèi)樣本的同質(zhì)性不斷增強(qiáng),最終達(dá)到節(jié)點(diǎn)內(nèi)樣本同質(zhì)或由于樣本數(shù)量過(guò)少無(wú)法繼續(xù)分層,這里稱(chēng)終節(jié)點(diǎn)為葉,而分枝開(kāi)始的節(jié)點(diǎn)被稱(chēng)為根。
不失一般性,假定有p個(gè)預(yù)測(cè)變量X1,…,Xp和連續(xù)性的反應(yīng)變量Y,建立回歸樹(shù)需要以下步驟[4]:
4 交通流量預(yù)測(cè)的系統(tǒng)實(shí)現(xiàn)
4. 1系統(tǒng)結(jié)構(gòu)
系統(tǒng)總體結(jié)構(gòu)如圖1所示,其中L0層的主要任務(wù)是存儲(chǔ)所有原始記錄,為數(shù)據(jù)挖掘提供所需的收費(fèi)系統(tǒng)原始數(shù)據(jù)。L1層是對(duì)收費(fèi)數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)預(yù)處理,L1與L0間通過(guò)Database API接口實(shí)現(xiàn)數(shù)據(jù)的抽取和過(guò)濾,把原始數(shù)據(jù)中一些不規(guī)范的、異常的數(shù)據(jù)進(jìn)行過(guò)濾,對(duì)一些空數(shù)據(jù)進(jìn)行補(bǔ)充和填寫(xiě),生成數(shù)據(jù)倉(cāng)庫(kù)。L2層是對(duì)數(shù)據(jù)倉(cāng)庫(kù)里的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和多維分析。L3層是一個(gè)用戶(hù)接口層,它主要承擔(dān)對(duì)用戶(hù)請(qǐng)求的理解以及對(duì)分析挖掘結(jié)果的解釋與表達(dá)等。本文引進(jìn)SQL數(shù)據(jù)挖掘套件,主要用于構(gòu)造L2層中的數(shù)據(jù)挖掘和多維分析。
4. 2SQL的數(shù)據(jù)挖掘功能
SQL Server 2005在數(shù)據(jù)挖掘功能方面得到了顯著改進(jìn),將高級(jí)的數(shù)據(jù)挖掘功能、工具和API與流行的數(shù)據(jù)庫(kù)一起打包。其中提供的回歸樹(shù)算法以回歸算法和決策樹(shù)為基礎(chǔ),用來(lái)解決分類(lèi)和回歸問(wèn)題,用以執(zhí)行關(guān)聯(lián)分析。簡(jiǎn)單而強(qiáng)大的API技術(shù),針對(duì)數(shù)據(jù)挖掘算法,把執(zhí)行復(fù)雜的查詢(xún)簡(jiǎn)化為開(kāi)發(fā)人員所熟悉的SQL查詢(xún)中的一個(gè)連接操作,并且實(shí)現(xiàn)對(duì)原始數(shù)據(jù)的抽取和過(guò)濾。
4. 3回歸樹(shù)模型的訓(xùn)練
為使用回歸樹(shù)算法,需要通過(guò)提供預(yù)處理后的歷史數(shù)據(jù),選擇不同的參數(shù)訓(xùn)練模型。可供選擇的參數(shù)包括:最小支持度(Minimum_Support)、歷史模型數(shù)量(Historical_Model_Count)、歷史模型間隔(Historical_Model_Gap)、模型階段性(Periodicity)。模型訓(xùn)練完成后可以顯示回歸樹(shù)的訓(xùn)練結(jié)果并可查看數(shù)字規(guī)則,如圖2所示。
4. 4交通流量預(yù)測(cè)的實(shí)現(xiàn)
訓(xùn)練完模型之后,要根據(jù)車(chē)流量的回歸樹(shù)模型與數(shù)字規(guī)則,利用數(shù)據(jù),通過(guò)選擇收費(fèi)站名、時(shí)間段進(jìn)行預(yù)測(cè)。參數(shù)選擇窗口如圖3所示。例如用戶(hù)選擇黎光站和12月10日起24小時(shí)的車(chē)流量,其預(yù)測(cè)結(jié)果如圖4所示,交通流量預(yù)測(cè)結(jié)果按時(shí)間順序排列,如上午10點(diǎn)的車(chē)流為1 665。系統(tǒng)還將提供支持度、置信度等其他的一些關(guān)鍵信息。
5 結(jié) 論
通過(guò)數(shù)據(jù)挖掘技術(shù)可以實(shí)現(xiàn)對(duì)聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)的增值利用。本文提出了一個(gè)以回歸樹(shù)算法為基礎(chǔ),基于收費(fèi)數(shù)據(jù)的車(chē)流量進(jìn)行預(yù)測(cè)的思路,并且介紹了數(shù)據(jù)分析系統(tǒng)的實(shí)現(xiàn)。該系統(tǒng)在實(shí)現(xiàn)對(duì)收費(fèi)數(shù)據(jù)的車(chē)流量進(jìn)行預(yù)測(cè)的同時(shí),將分析過(guò)程與預(yù)測(cè)結(jié)果用報(bào)表或者圖表等形式展現(xiàn)。另外,按照本文的思路,運(yùn)用統(tǒng)計(jì)、數(shù)據(jù)挖掘、最優(yōu)控制理論和交通分配等理論和方法,還可以進(jìn)行聯(lián)網(wǎng)收費(fèi)數(shù)據(jù)的旅行時(shí)間挖掘預(yù)測(cè)、OD關(guān)聯(lián)挖掘等眾多有益的工作,可以從高速公路收費(fèi)系統(tǒng)數(shù)據(jù)記錄中提取大量的交通、經(jīng)濟(jì)、社會(huì)信息。
本文的創(chuàng)新點(diǎn)在于將數(shù)據(jù)挖掘理論引入高速公路收費(fèi)系統(tǒng)的營(yíng)運(yùn)中,在車(chē)流量預(yù)測(cè)中提出了基于收費(fèi)數(shù)據(jù)進(jìn)行預(yù)測(cè)和實(shí)現(xiàn)的新思路。
主要參考文獻(xiàn)
[1] Jiawei Han, Micheline Kamber. 數(shù)據(jù)挖掘概念與技術(shù)[M]. 范明,孟小峰,譯. 北京:機(jī)械工業(yè)出版社,2001.
[2] 鐘足峰,劉偉銘,葉長(zhǎng)征. 高速公路挖掘數(shù)據(jù)預(yù)處理的研究[J]. 微計(jì)算機(jī)信息,2007(9):195-196.
[3] 廣東省質(zhì)量技術(shù)監(jiān)督局. 廣東省高速公路聯(lián)網(wǎng)收費(fèi)系統(tǒng),DB44/127-2002[S]. 2002.
[4] T S Lee,C C Chinu,Y C Chou,et al. Mining the Customer Credit Using Classification and Regression Tree and Multivariate Adaptive Regression Splines[J]. Computational Statistics Data Analysis,2006,50(4):1113-1130.
“本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文”