(四川大學(xué)計(jì)算機(jī)學(xué)院 四川 成都 610065)
Big Data“大數(shù)據(jù)”是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革,高速公路大數(shù)據(jù)作為重要的大數(shù)據(jù)應(yīng)用領(lǐng)域,其主要特點(diǎn)如下:
l、數(shù)據(jù)體量巨大。一般以“太字節(jié)”為單位,其中非結(jié)構(gòu)化數(shù)據(jù)往往占數(shù)據(jù)總量的90%上具有超大規(guī)模和快速增長(zhǎng)的特點(diǎn)。
2、數(shù)據(jù)類型繁多。數(shù)據(jù)存在多種不同的形式,包括文本、圖像、視頻和數(shù)據(jù)庫(kù)記錄等。在高速公路業(yè)務(wù)系統(tǒng)中,存在收費(fèi)數(shù)據(jù)、視頻數(shù)據(jù)、圖像數(shù)據(jù)、養(yǎng)護(hù)數(shù)據(jù)、管理與業(yè)務(wù)數(shù)據(jù)等多類型的數(shù)據(jù)。
3、數(shù)據(jù)價(jià)值密度低。以視頻流為例,往往一個(gè)小時(shí)的視頻中有用的數(shù)據(jù)也就若干秒。
4、數(shù)據(jù)處理速度陜。不僅對(duì)交通數(shù)據(jù)的分析結(jié)果實(shí)時(shí)性要求高,同時(shí)對(duì)歷史交通數(shù)據(jù)、行為習(xí)慣、周期性、隨機(jī)性數(shù)據(jù)、氣象數(shù)據(jù)等變化規(guī)律的分析具有較高的要求。
近年來(lái),數(shù)據(jù)的快速增長(zhǎng)成了許多行業(yè)共同面對(duì)的嚴(yán)峻挑戰(zhàn)和寶貴機(jī)遇,信息社會(huì)正在進(jìn)入大數(shù)據(jù)時(shí)代。大數(shù)據(jù)指的是涉及的資料量規(guī)模巨大到無(wú)法透過(guò)目前主流軟件工具在合理時(shí)間內(nèi)達(dá)到感知、擷取、管理、處理和服務(wù)的數(shù)據(jù)集合。為了應(yīng)對(duì)大數(shù)據(jù)的發(fā)展趨勢(shì),更好地為行業(yè)用戶和個(gè)人提供數(shù)據(jù)分析的服務(wù),亟需構(gòu)建各類不同的大數(shù)據(jù)平臺(tái),支持用戶對(duì)數(shù)據(jù)的多種需求。與傳統(tǒng)數(shù)據(jù)平臺(tái)不同的是,大數(shù)據(jù)海量的規(guī)模、多樣的類型、快速的流動(dòng)和動(dòng)態(tài)的體系以及巨大的價(jià)值是大數(shù)據(jù)平臺(tái)構(gòu)建需要重點(diǎn)考慮的幾個(gè)因素。
除此之外,未來(lái)將從道路交通大數(shù)據(jù)的可能應(yīng)用出發(fā),選擇典型應(yīng)用深入研究,并建立道路交通大數(shù)據(jù)的技術(shù)體系通過(guò)在高速公路領(lǐng)域引入以視覺(jué)分析為核心的大數(shù)據(jù)分析技術(shù),借助其虛擬眭可以鏟除傳統(tǒng)的高速公路運(yùn)營(yíng)體系中存在的信息共享壁壘。公眾出行服務(wù)手段不足、重點(diǎn)決策缺少數(shù)據(jù)支撐等核心問(wèn)題,從而實(shí)現(xiàn)高速公路由管理運(yùn)營(yíng)向服務(wù)運(yùn)營(yíng)的轉(zhuǎn)變
用戶個(gè)性化的服務(wù)需求需要公共交通大數(shù)據(jù)平臺(tái)的支持。隨著社會(huì)信息化的不斷深化,乘客已不滿足于傳統(tǒng)的公共交通服務(wù),而是個(gè)性化的智能交通出行服務(wù)信息。對(duì)于基于大數(shù)據(jù)的增值服務(wù)的需求越來(lái)越明顯,乘客希望通過(guò)各種設(shè)備方便地查詢公共交通系統(tǒng)的線路信息、調(diào)度信息和實(shí)時(shí)狀況。及時(shí)、準(zhǔn)確地獲取交通數(shù)據(jù)并構(gòu)建交通數(shù)據(jù)處理模型是建設(shè)智慧交通的前提,這一難題可通過(guò)數(shù)據(jù)挖掘技術(shù)得以解決。交通數(shù)據(jù)復(fù)雜龐大,交通信息來(lái)源廣泛,種類和形式均多種多樣,信息量巨大,利用海量的數(shù)據(jù)找到有用的信息則變成交通工作者的首要任務(wù)。根據(jù)交通數(shù)據(jù)的特點(diǎn),傳統(tǒng)的數(shù)據(jù)分析方法大多是采用統(tǒng)計(jì)和多維數(shù)據(jù)分析方法,這些方法均無(wú)法解決復(fù)雜龐大的交通數(shù)據(jù)。
然而隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,在交通數(shù)據(jù)分析中更好地結(jié)合傳統(tǒng)的分析技術(shù)和新興的數(shù)據(jù)挖掘技術(shù)對(duì)交通難題進(jìn)行分析和預(yù)測(cè)使人們看到了新的希望。在當(dāng)前大數(shù)據(jù)時(shí)代,數(shù)據(jù)充斥所帶來(lái)的影響遠(yuǎn)遠(yuǎn)超出了企業(yè)領(lǐng)域,其不僅能帶來(lái)商業(yè)價(jià)值,亦能產(chǎn)生社會(huì)價(jià)值。隨著信息通訊技術(shù)的發(fā)展,交通運(yùn)輸從數(shù)據(jù)貧乏的困境轉(zhuǎn)向數(shù)據(jù)豐富的環(huán)境,而面對(duì)眾多的交通數(shù)據(jù),如何從中根據(jù)用戶需求提取有效數(shù)據(jù)成為關(guān)鍵所在。但是,大數(shù)據(jù)技術(shù)在智能交通應(yīng)用領(lǐng)域同樣面臨著巨大挑戰(zhàn),包括隱私,數(shù)據(jù)處理硬件設(shè)施、數(shù)據(jù)不完備性、模型有效性等領(lǐng)域,我國(guó)對(duì)此方面的研究還處于起步階段,以后還有很長(zhǎng)的路要走。
高速公路在中國(guó)國(guó)內(nèi)的發(fā)展趨勢(shì)迅猛,這使得高速公路所積累下來(lái)的數(shù)據(jù)也急劇膨脹,以至于并行數(shù)據(jù)庫(kù)無(wú)法很好地對(duì)這些數(shù)據(jù)加以處理。性能擴(kuò)展的限制也成了并行數(shù)據(jù)庫(kù)難以在高速公路中繼續(xù)使用的重要原因。對(duì)并行數(shù)據(jù)庫(kù)來(lái)說(shuō),性能擴(kuò)展無(wú)非兩種方式。
第一種是縱向擴(kuò)展方式,第二種是橫向擴(kuò)展方式。所謂縱向擴(kuò)展就是指:把某個(gè)節(jié)點(diǎn)本身的性能加以提升,例如把硬盤(pán)內(nèi)存進(jìn)一步提升,但這種方式的使用也有限制的地方,那就是節(jié)點(diǎn)性能不可能無(wú)限制的提升。
所謂橫向擴(kuò)展就是中國(guó)科技飛速發(fā)展,各個(gè)領(lǐng)域的科技水平都在迅速提升。通過(guò)在高速公路管理領(lǐng)域引入以視覺(jué)分析為核心的高速公路交通大數(shù)據(jù),不僅能夠充分盤(pán)活現(xiàn)有的高速公路視覺(jué)和數(shù)據(jù)情報(bào)信息資源,而且能夠借助大數(shù)據(jù)的優(yōu)勢(shì)打破傳統(tǒng)的數(shù)據(jù)共享壁壘,
道路交通大數(shù)據(jù)具有3V 的特點(diǎn),傳統(tǒng)的數(shù)據(jù)處理技術(shù)不適合處理大數(shù)據(jù),出現(xiàn)了以 mapreduce為代表的新型計(jì)算模型.mapreduce是一個(gè)用來(lái)進(jìn)行并行 處 理 和 生 成 大 數(shù) 據(jù) 集 的 模 型.hadoop是mapreduce的開(kāi)源實(shí)現(xiàn),是企業(yè)界、學(xué)術(shù)界共同關(guān)注的大數(shù)據(jù)處理技術(shù).和 hadoop 同時(shí)受到關(guān)注,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和管理的一個(gè)技術(shù)是 nosql數(shù)據(jù)庫(kù).
(1)mapreduce 計(jì)算模型mapreduce是google提出的一個(gè)軟件架構(gòu) ,是一種處理海量數(shù)據(jù)的并行編程模式,用于大規(guī)模數(shù)據(jù)集(通常大于1TB )的并行運(yùn)算 .mapreduce程模式非常適合于非結(jié)構(gòu)化和結(jié)構(gòu)化的海量數(shù)據(jù)的搜索、挖掘、分析與機(jī)器智能學(xué)習(xí)等算法 .
(2)hadoop 平臺(tái)
hadoop 是一種對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分布式處理的技術(shù) . 特別是處理大數(shù)據(jù)時(shí)代所必需的非結(jié)構(gòu)化數(shù)據(jù)時(shí),hadoop 在性能和成本方面都具有優(yōu)勢(shì).
微電子學(xué)與計(jì)算機(jī)2015 年hadoop 由三部分組成:用于分布式存儲(chǔ)大容量文件的 hdfs分布式文件系統(tǒng)、用于對(duì)大量數(shù)據(jù)進(jìn)行高效分布式處理的 hadoopmapreduce框架,以及超大型數(shù)據(jù)表 hbase。
在當(dāng)前大數(shù)據(jù)時(shí)代,數(shù)據(jù)充斥所帶來(lái)的影響遠(yuǎn)遠(yuǎn)超出了企業(yè)領(lǐng)域,其不僅能帶來(lái)商業(yè)價(jià)值,亦能產(chǎn)生社會(huì)價(jià)值。隨著信息通訊技術(shù)的發(fā)展,交通運(yùn)輸從數(shù)據(jù)貧乏的困境轉(zhuǎn)向數(shù)據(jù)豐富的環(huán)境,而面對(duì)眾多的交通數(shù)據(jù),如何從中根據(jù)用戶需求提取有效數(shù)據(jù)成為關(guān)鍵所在。但是,大數(shù)據(jù)技術(shù)在智能交通應(yīng)用領(lǐng)域同樣面臨著巨大挑戰(zhàn),包括隱私,數(shù)據(jù)處理硬件設(shè)施、數(shù)據(jù)不完備性、模型有效性等領(lǐng)域,我國(guó)對(duì)此方面的研究還處于起步階段,以后還有很長(zhǎng)的路要走。為道路交通大數(shù)據(jù)的智能應(yīng)用研究和開(kāi)發(fā)嘗試梳理了基礎(chǔ)技術(shù)支撐,嘗試明晰了道路交通大數(shù)據(jù)的研究?jī)?nèi)容和處理方法及可能應(yīng)用.通過(guò)車與路的協(xié)同控制管理,為出行者提供安全、暢通、便捷的出行服務(wù),讓“智慧高速”全速助力國(guó)民經(jīng)濟(jì)的持續(xù)、健康發(fā)展。