高秀艷+耿興隆
摘 要 當今社會,隨著機動車數(shù)量暴增,城市交通擁堵、交通信息管理等問題日益嚴重。研究并設(shè)計合適的交通流量分析系統(tǒng),可以通過采集交通流量的大數(shù)據(jù),掌握實時道路情況并有效預(yù)測未來某時段的道路交通。采用hadoop分布式文件系統(tǒng)對海量交通大數(shù)據(jù)進行存儲,使用神經(jīng)網(wǎng)絡(luò)算法對數(shù)據(jù)進行建模處理,使用MapReduce作為核心算法進行運算,實驗證明,這是良好的解決方案。
關(guān)鍵詞 智能交通;大數(shù)據(jù);云計算;Hadoop
中圖分類號 TP3 文獻標識碼 A 文章編號 1674-6708(2017)188-0066-02
當今社會,隨著機動車數(shù)量暴增,城市交通擁堵、交通信息管理等問題日益嚴重。在城市飛速發(fā)展及車輛迅速增加的背景下,研究并設(shè)計合適的交通流量分析系統(tǒng),使其能適時收集交通流量數(shù)據(jù)并對數(shù)據(jù)做出合理正確的分析,從而及時掌握實時道路情況并進而有效預(yù)測未來某時段的道路交通情況已迫在眉睫。由于交通數(shù)據(jù)具有大數(shù)據(jù)的特點,因此使用分布式文件系統(tǒng)進行數(shù)據(jù)存儲,采用大數(shù)據(jù)的處理技術(shù)對收集到的海量數(shù)據(jù)建立合適的數(shù)據(jù)處理模型并進行分析處理,采用MapReduce作為核心算法進行運算,最終實現(xiàn)流量情況預(yù)測。
1 大數(shù)據(jù)主要處理技術(shù)
目前,對大數(shù)據(jù)的處理技術(shù)主要有以下
幾種[1-3]:
1)數(shù)據(jù)挖掘。數(shù)據(jù)挖掘是對數(shù)據(jù)進行篩選等有效處理的一種技術(shù),目的是從海量數(shù)據(jù)中通過去噪、轉(zhuǎn)換、凈化、挖掘提取等過程篩選出有價值的部分。在處理過程中經(jīng)常借助多處理階段模型、機器學(xué)習(xí)、支持向量機等。
2)遺傳算法。遺傳算法的概念來源于達爾文的生物進化論,即從海量的可能結(jié)果中獲取最優(yōu)的個體,在實際應(yīng)用中常用來獲得最優(yōu)解。其基本思想是從給定的候選解中,使用根據(jù)適應(yīng)條件計算出的適應(yīng)度對其進行遞歸淘汰,直至得到最優(yōu)解。遺傳算法是對大量數(shù)據(jù)進行篩選提取有用信息的重要手段。
3)神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,即ANNs)是模式識別中經(jīng)常用到的算法,它是模仿動物神經(jīng)結(jié)構(gòu)及行為特征的分布式并行信息處理的數(shù)據(jù)處理模型。常用的人工神經(jīng)網(wǎng)絡(luò)模型有BP、RBF、Hopfield等。在眾多的神經(jīng)網(wǎng)絡(luò)工具中, NeuroSolutions憑借其良好的網(wǎng)絡(luò)設(shè)計界面、優(yōu)化的遺傳算法以及先進的模型訓(xùn)練程序,能夠在快速、高效的實現(xiàn)信息獲取方面發(fā)揮重要作用。
4)馬爾可夫模型。馬爾可夫模型是一種適合于隨機過程的數(shù)據(jù)模型,其更為常用的是各種延伸的模型,如隱馬爾可夫模型、灰色馬爾可夫模型等。它在語音識別及圖像識別中應(yīng)用較為
廣泛。
每一種處理技術(shù)都有其特點,但是最關(guān)鍵的是對數(shù)據(jù)的預(yù)處理及模型的建立。在模型的建立過程中都需要用大量樣本數(shù)據(jù)對模型進行訓(xùn)練,因此樣本的合理性是模型訓(xùn)練的關(guān)鍵,而訓(xùn)練所需時間則是考慮數(shù)據(jù)處理算法性能的重要因素。
2 交通流量分析系統(tǒng)設(shè)計思想
2.1 系統(tǒng)簡介
本系統(tǒng)通過對交通流量大數(shù)據(jù)進行分析,充分利用“云計算”及相關(guān)技術(shù)在交通信息化中的應(yīng)用,基于“云計算”設(shè)計研究了智能交通管理系統(tǒng)設(shè)計和解決方案。利用Hadoop系統(tǒng)結(jié)構(gòu),對3個節(jié)點的Hadoop集群進行完全分布式部署,然后在該集群上編寫MapReduce 程序。設(shè)計了基于Hadoop的MapReduce模式的交通信息服務(wù)系統(tǒng),并通過仿真系統(tǒng)及模擬數(shù)據(jù)對該系統(tǒng)進行測試。本系統(tǒng)具有如下特點:
1)所用樣本數(shù)據(jù)來源具有實際意義。系統(tǒng)在設(shè)計及仿真時使用保定市某路口采集到的數(shù)據(jù),數(shù)據(jù)可以反應(yīng)實際交通流量情況。
2)對數(shù)據(jù)樣本進行了充分的篩選、降噪處理。
3)對于海量數(shù)據(jù)采用服務(wù)器集群的分布式處理,提高運算速度的同時保證了數(shù)據(jù)的健壯。
4)平臺搭建使用Linux操作系統(tǒng),當PC機設(shè)備或軟件不能滿足需要時,還可在虛擬機環(huán)境下進行仿真。
2.2 系統(tǒng)主要功能
本系統(tǒng)主要通過對采集到的數(shù)據(jù)進行篩選、降噪等預(yù)處理后,使用數(shù)據(jù)樣本對模型進行訓(xùn)練,得到能夠反映下一時刻交通流量信息的模型。之后根據(jù)給出的當前狀態(tài)數(shù)據(jù),預(yù)測未來時刻的交通情況,進而給出推薦路徑。
2.3 系統(tǒng)模型設(shè)計
系統(tǒng)模型如圖1所示,系統(tǒng)包括3層,分別為服務(wù)器、中間件以及底層。
2.4 系統(tǒng)技術(shù)實現(xiàn)
1)數(shù)據(jù)處理部分:使用神經(jīng)網(wǎng)絡(luò)算法對采集到的樣本進行處理從而得到模型,仿真實驗中使用在保定市某路口采集到的2 000組數(shù)據(jù)進行,其中1600組用于模型訓(xùn)練,400組用于流量預(yù)測。
2)數(shù)據(jù)存儲部分:在實驗室中使用PC機,在Linux系統(tǒng)環(huán)境下搭建hadoop集群分布式文件系統(tǒng)用于數(shù)據(jù)的存儲。
3)數(shù)據(jù)運算:使用MapReduce算法對數(shù)據(jù)進行統(tǒng)計與分析,分割采集到的交通路徑數(shù)據(jù),并輸出最短路徑集。
Map過程實現(xiàn)實現(xiàn)路徑分割的部分代碼如
下[4],其中key值用于表示起點或終點:
對應(yīng)的Reduce函數(shù)實現(xiàn)輸出最短路徑集的部分代碼為:
3 結(jié)論
在實驗室環(huán)境中利用PC機搭建了“云”平臺,將模擬的代表城市交流流量的大數(shù)據(jù)信息布到該云上并進行分析調(diào)試,仿真完成交通流量信息服務(wù)系統(tǒng)的開發(fā)和測試。結(jié)論如下:
1)Hadoop不是完美的解決方案,由于交通流量數(shù)據(jù)具有大數(shù)據(jù)的特點,而且交通情況具有實時性,在對大數(shù)據(jù)的處理中,神經(jīng)網(wǎng)絡(luò)、優(yōu)化的遺傳算法等都體現(xiàn)出了各自的優(yōu)勢。尋找更適合的處理交通流量大數(shù)據(jù)的算法并用到系統(tǒng)中,將使系統(tǒng)的分析結(jié)果更為準確。
2)樣本的采集會對模型的精確產(chǎn)生重要的影響,后續(xù)的研究中將更多的考慮其它因素對數(shù)據(jù)樣本精確性的影響,如:
偶然因素如交通事故對數(shù)據(jù)造成的不確定性;
天氣原因產(chǎn)生的數(shù)據(jù)隨機性;
時間對數(shù)據(jù)樣本的影響,如工作日與非工作日、高峰時段與非高峰時段數(shù)據(jù)的變化。
參考文獻
[1]甘曉,李國杰.大數(shù)據(jù)成為信息科技新關(guān)注點[N].中國科學(xué)報,2012-06-27.
[2]高秀艷,郝艷榮.大數(shù)據(jù)技術(shù)在高校畢業(yè)生就業(yè)質(zhì)量評價體系中的應(yīng)用研究[J].科技傳播,2017,4(7):65-66.
[3]尚光龍,張澤鋒.大數(shù)據(jù)技術(shù)在信息管理中的應(yīng)用[J].河北北方學(xué)院學(xué)報,2016,5(5):30-34.
[4]耿興隆,王麗.基于Hadoop的交通流量統(tǒng)計分析系統(tǒng)的應(yīng)用研究[J].河北軟件職業(yè)技術(shù)學(xué)院學(xué)報,2016,3(1):44-47.
基金項目:本文為保定市科技局科學(xué)技術(shù)研究與發(fā)展指導(dǎo)計劃項目(項目編號:16ZG022)。
作者簡介:高秀艷,講師,研究方向計算機軟件教學(xué)、模式識別。
耿興隆,講師,研究方向為計算機教學(xué)及嵌入式系統(tǒng)開發(fā)。