楊 嵐
(泉州信息工程學(xué)院軟件學(xué)院 福建泉州 362000)
交通采集設(shè)備隨著技術(shù)的進(jìn)步更迭發(fā)展,對(duì)應(yīng)采集到的信息內(nèi)容和數(shù)量也表現(xiàn)出指數(shù)形式增長(zhǎng)的特點(diǎn)。各市現(xiàn)有的交通數(shù)據(jù)存儲(chǔ)系統(tǒng)絕大部分是基于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)架構(gòu)而成,這一類模式對(duì)于大規(guī)模數(shù)據(jù)的存儲(chǔ)有著一定的不足,因此也不能夠較好的符合社會(huì)發(fā)展需要。該模式下的存儲(chǔ)系統(tǒng)普遍出現(xiàn)了查詢效率不高、數(shù)據(jù)的分析與傳輸難、安全等級(jí)低等問(wèn)題。為了提升交通服務(wù)的水平,推動(dòng)智能化管理,降低城市交通信息存儲(chǔ)和分析的成本、提高其效率顯得極為迫切。要能夠快速、準(zhǔn)確的分析現(xiàn)代化交通狀況,首先要能夠架構(gòu)除科學(xué)高效的城市交通管理體系,同時(shí)還需要構(gòu)建數(shù)據(jù)處理模型、存儲(chǔ)交通數(shù)據(jù),另外還要能夠提升交通信息獲取的精準(zhǔn)性、時(shí)效性、效率性。大數(shù)據(jù)的運(yùn)用,為解決上述問(wèn)題提供了技術(shù)支持。城市道路中的交通數(shù)據(jù)采集主要是通過(guò)感應(yīng)線圈、卡口、浮動(dòng)車、RFID系統(tǒng)來(lái)完成,同時(shí)匯總與上傳工作仍由上述系統(tǒng)實(shí)現(xiàn),而大數(shù)據(jù)技術(shù)則能夠?qū)⑻幚淼臄?shù)據(jù)對(duì)象擴(kuò)大數(shù)倍,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的處理與儲(chǔ)存。Hadoop是基于互聯(lián)網(wǎng)應(yīng)用出現(xiàn)的一種大數(shù)據(jù)計(jì)算系統(tǒng)開(kāi)發(fā)框架,其主要對(duì)象是計(jì)算的、開(kāi)源的大數(shù)據(jù),受到了廣大用戶的認(rèn)可。Hadoop中,主要核心是HDFS與MapReduce編程模型,其大數(shù)據(jù)的計(jì)算效率尤其優(yōu)異。Hadoop為分布式體系結(jié)構(gòu),為Apache基金會(huì)研究開(kāi)發(fā)完成,用戶只需要使用常用的編程語(yǔ)言就能夠編出對(duì)應(yīng)的應(yīng)用程序,不再需要完全掌握體系底層的實(shí)現(xiàn)過(guò)程。Hadoop是通過(guò)集群的運(yùn)用實(shí)現(xiàn)運(yùn)算與儲(chǔ)存,其中一個(gè)關(guān)鍵組成是分布式文件系統(tǒng)(distributed file system),簡(jiǎn)稱為HDFS。HDFS不僅有著運(yùn)算快、存儲(chǔ)方便的特點(diǎn),具備了高容錯(cuò)性的特點(diǎn),對(duì)于硬件的性能要求不高,對(duì)應(yīng)用程序數(shù)據(jù)的高數(shù)據(jù)處理速率使得其在超大數(shù)據(jù)集中方面表現(xiàn)不俗。文章以Hadoop中HBase分布式數(shù)據(jù)庫(kù)存儲(chǔ)的不同時(shí)段的城市道路交通流量信息為對(duì)象,運(yùn)用Hadoop的MapReduce編程模型對(duì)其進(jìn)行深度分析,進(jìn)而得出城市各個(gè)路段在不同時(shí)間段的交通流量數(shù)據(jù)分布,從而為城市道路的規(guī)劃、管理、控制提供數(shù)據(jù)基礎(chǔ),為城市交通的研究、規(guī)劃設(shè)計(jì)、交管部門的決策提供輔助性的幫助,另外還能夠在一定程度上緩解城市的交通壓力。
并行、分布式、網(wǎng)絡(luò)計(jì)算等技術(shù)的誕生與完善,為Hadoop的出現(xiàn)奠定了基礎(chǔ),進(jìn)而實(shí)現(xiàn)海量數(shù)據(jù)的運(yùn)算和保存,該平臺(tái)由Apache公司研發(fā),融合運(yùn)用了上述技術(shù),實(shí)現(xiàn)數(shù)據(jù)的處理。該框架平臺(tái)對(duì)于硬件設(shè)備要求不高,一般條件下即可運(yùn)行程序,Hadoop穩(wěn)定的接口能夠滿足各類應(yīng)用程序的需求,進(jìn)而架構(gòu)出可靠、延展性的分布式系統(tǒng)。Hadoop的優(yōu)點(diǎn)明顯,其成本較低、安全可靠,且具備較高的容錯(cuò)性和擴(kuò)展性,同時(shí)高效、穩(wěn)定、可移植、免費(fèi)開(kāi)源。Hadoop為Master/Slaves結(jié)構(gòu),具體架構(gòu)模型如圖1所示。
圖1 基于Hadoop的云計(jì)算與存儲(chǔ)架構(gòu)模型
HDFS對(duì)硬件要求不高,為平臺(tái)中的底層文件存儲(chǔ)系統(tǒng),支持管理與儲(chǔ)存數(shù)據(jù),同時(shí)支持?jǐn)?shù)據(jù)的訪問(wèn)功能。與一般分布式文件系統(tǒng)相比較,HDFS既有著共性也有著一定的差異性,其存在著移動(dòng)計(jì)算方便、數(shù)據(jù)流形式訪問(wèn)、簡(jiǎn)單一致性等特點(diǎn)。HDFS的工作流程以及架構(gòu)見(jiàn)圖2。
圖2 HDFS的工作流程及架構(gòu)結(jié)構(gòu)
圖2顯示每個(gè)HDFS集群設(shè)置單個(gè)Name Node以及多個(gè)Data Node,其中,前者為中心服務(wù)器,主要功能是對(duì)文件元數(shù)據(jù)、讀寫(xiě)等管理,還對(duì)文件目錄進(jìn)行維護(hù)。此類信息通過(guò)日志文件(editlog)編輯以及空間鏡像文件(fsimage)命名的方式進(jìn)行保存。Name Node同時(shí)還能短時(shí)間內(nèi)保存各個(gè)塊(block)對(duì)應(yīng)的Data Node信息。核心功能為三個(gè)方面,分別為:元數(shù)據(jù)與文件塊的管理、元數(shù)據(jù)的更新、監(jiān)聽(tīng)與處理請(qǐng)求。Data Node一般情況下每個(gè)集群的每個(gè)節(jié)點(diǎn)存在一個(gè),功能為數(shù)據(jù)塊的儲(chǔ)存與檢索,實(shí)現(xiàn)Name Node下達(dá)的新建、復(fù)制、刪除等等指令的響應(yīng)。與此同時(shí),能夠按時(shí)發(fā)送“心跳”至Name Node,從而傳達(dá)負(fù)載和執(zhí)行各項(xiàng)命令。反之,Name Node以心跳信息判定Data Node的有效性,若未能夠在指定時(shí)間內(nèi)接收到反饋則判定為失效節(jié)點(diǎn),進(jìn)而調(diào)整。每份文件都將被細(xì)分為單個(gè)或者是多個(gè)數(shù)據(jù)塊且存于Data Node中,借助于互相復(fù)制完成數(shù)據(jù)的多個(gè)備份。
Hadoop是運(yùn)用Map/Reduce這一編程框架實(shí)現(xiàn)大量數(shù)據(jù)的云計(jì)算,Map/Reduce編程框架使用簡(jiǎn)單,程序員無(wú)需了解底層實(shí)現(xiàn)的各項(xiàng)細(xì)節(jié)便可編寫(xiě)程序用于數(shù)據(jù)的處理,該技術(shù)能夠同時(shí)在上千部服務(wù)器上滿足廣告與搜索等多項(xiàng)業(yè)務(wù)需求,與此同時(shí)還能夠更為便捷的處理TB、PB以及EB級(jí)的數(shù)據(jù)。Map/Reduce框架的構(gòu)成為單個(gè)JobTracker與多個(gè)TaskTracker,其中JobTracker 為主節(jié)點(diǎn),主要職能是分配任務(wù)與調(diào)度,同時(shí)實(shí)現(xiàn)多個(gè)TaskTracker的管理。而TaskTracker則有且僅有一個(gè)存在于每個(gè)節(jié)點(diǎn),主要用于接收J(rèn)obTracker的指令并執(zhí)行對(duì)應(yīng)的任務(wù)。Mapreduce主要是對(duì)集群中的大型數(shù)據(jù)開(kāi)展分布式的運(yùn)算,Map與Reduce函數(shù)共同構(gòu)成了這一框架,在實(shí)現(xiàn)數(shù)據(jù)處理時(shí)的順序?yàn)橄萂ap再Reduce,具體如圖3所示。首先,數(shù)據(jù)被分片,隨后由不同Map執(zhí)行不同的分片,執(zhí)行后以
圖3 Mapreduce計(jì)算過(guò)程
結(jié)合交通流量數(shù)據(jù)的特征,基于Hadoop構(gòu)建城市道路交通流量數(shù)據(jù)分布式存儲(chǔ)與挖掘分析的總體架構(gòu),具體如圖4所示。
圖4 城市道路交通流量數(shù)據(jù)分布式存儲(chǔ)與挖掘分析的總體架構(gòu)
如圖4所示,該架構(gòu)共分為四層,分別為數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層、挖掘分析層以及應(yīng)用服務(wù)層,而其中的數(shù)據(jù)存儲(chǔ)層是研究的重點(diǎn)。
數(shù)據(jù)采集層包括動(dòng)態(tài)與靜態(tài)兩種數(shù)據(jù)采集方式,動(dòng)態(tài)數(shù)據(jù)主要為線圈采集的交通流量、車型以及車速等數(shù)據(jù)信息,而卡口數(shù)據(jù)主要為車牌數(shù)據(jù)、采集時(shí)間的數(shù)據(jù)等等;靜態(tài)數(shù)據(jù)主要為路段、設(shè)備等不會(huì)受到采集時(shí)間影響或變化的數(shù)據(jù)信息。采集到的動(dòng)態(tài)數(shù)據(jù)在整合后儲(chǔ)存到分布式數(shù)據(jù)庫(kù)中,而靜態(tài)數(shù)據(jù)則結(jié)合后期的本體模型映射成RDF數(shù)據(jù)存儲(chǔ)。
數(shù)據(jù)存儲(chǔ)層的實(shí)現(xiàn)是借助于MapReduce數(shù)據(jù)并行存儲(chǔ)編程模型將數(shù)據(jù)批量寫(xiě)入HBase分布式數(shù)據(jù)庫(kù)中,此類數(shù)據(jù)主要存儲(chǔ)于Hadoop計(jì)算機(jī)集群中。計(jì)算機(jī)集群的架構(gòu)為主/從部署架構(gòu),也就是Master/Slave部署架構(gòu),Master是管理節(jié)點(diǎn)(Name Node),在集群中有且僅有一個(gè),而Slave由多個(gè)數(shù)據(jù)節(jié)點(diǎn)(Data Node)構(gòu)成且由Zoo Keeper控制保存協(xié)調(diào)。在集群中,Name Node作為核心的存在,記載了所有存儲(chǔ)文件的切割劃分情況,同時(shí)管理于維護(hù)Block存儲(chǔ)位置等信息的元數(shù)據(jù)結(jié)構(gòu)(Meta Data),數(shù)據(jù)塊(Block)實(shí)際的物理存儲(chǔ)位置是Data Node。多項(xiàng)進(jìn)程Map執(zhí)行函數(shù)能夠并行地將海量數(shù)據(jù)寫(xiě)入到分布式文件系統(tǒng)中,HBase因此能夠?qū)崿F(xiàn)大型數(shù)據(jù)的便捷、有效的保存。與此同時(shí),分布式數(shù)據(jù)庫(kù)保存的每個(gè)數(shù)據(jù)Block都是遵循多個(gè)備份存儲(chǔ)機(jī)制工作的,在實(shí)操中能夠?qū)吸c(diǎn)故障進(jìn)行有效處理,結(jié)合應(yīng)用并行高效率的MapReduce計(jì)算編程模型有助于大幅提升存儲(chǔ)的效率,進(jìn)而真正的完成大型數(shù)據(jù)的保存。
挖掘分析層中,結(jié)合總體框架中數(shù)據(jù)挖掘分析的要求構(gòu)建出四個(gè)核心模塊,分別為數(shù)據(jù)的清理、流量的計(jì)算、聚類分析、圖形渲染展現(xiàn)。交通狀況會(huì)受到車輛的速度、交通的特征、附近環(huán)境等多重因素的干擾,實(shí)際交通情況難以通過(guò)道路線圈采集到的數(shù)據(jù)進(jìn)行真實(shí)的體現(xiàn),因此要對(duì)采集到的交通流數(shù)據(jù)進(jìn)行預(yù)先處理。數(shù)據(jù)清理模塊,在模型開(kāi)展計(jì)算分析前首先對(duì)采集到的數(shù)據(jù)實(shí)現(xiàn)清洗,將不合理的或者明顯異常的數(shù)據(jù)刪除,同時(shí)將空值和重復(fù)的數(shù)據(jù)剔除出去,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的清洗。流量計(jì)算模塊能夠結(jié)合以往采集到的數(shù)據(jù),且按照流量的換算系數(shù),將一段特定時(shí)間內(nèi)需流量計(jì)算統(tǒng)計(jì)查詢的數(shù)據(jù),分析記錄的車輛進(jìn)入的時(shí)間是不是在時(shí)間段范圍中,進(jìn)而累計(jì)在時(shí)間段范圍內(nèi)經(jīng)過(guò)換算最終獲得交通流量值。隨后,按照路段的有關(guān)參數(shù)對(duì)交通的流量密度進(jìn)行核算。上述數(shù)據(jù)經(jīng)過(guò)統(tǒng)計(jì)分析后可以為交通流量的預(yù)測(cè)、交通管理與控制提供參考。在數(shù)據(jù)的挖掘分析中,聚類分析是常見(jiàn)的、高效的方法,能夠?qū)崿F(xiàn)數(shù)據(jù)的分類。該分析方法能夠結(jié)合采集的路段交通流量密度,采取一個(gè)初始值作為計(jì)算的中心,根據(jù)算法流程進(jìn)行反復(fù)迭代運(yùn)算,從而找到新的合理的中心值,進(jìn)而將道路的交通流量密度劃分成多個(gè)等級(jí),從而滿足圖形渲染展現(xiàn)模塊對(duì)于數(shù)據(jù)的需求。圖形渲染展現(xiàn)模塊是在城市的道路網(wǎng)圖或者是統(tǒng)計(jì)分析圖表中將聚類分析后的數(shù)據(jù)進(jìn)行渲染展現(xiàn),進(jìn)而得出數(shù)據(jù)的統(tǒng)計(jì)結(jié)果圖,用于支持有關(guān)部門的決策。
應(yīng)用服務(wù)層為城市交通行業(yè)中的各類用戶提供一站式的服務(wù)。結(jié)合云服務(wù)中的應(yīng)用等同于服務(wù)的理念,應(yīng)用服務(wù)層的設(shè)計(jì)目的是將所采集到的資源與功能通過(guò)服務(wù)的方式提供給用戶,從而滿足交通的預(yù)測(cè)、路網(wǎng)的規(guī)劃、交通的管理的數(shù)據(jù)分析需求,還能夠?yàn)槲覈?guó)城市交通管理與控制帶來(lái)科學(xué)的參考,另外還能夠滿足城市道路交通量統(tǒng)計(jì)數(shù)據(jù)的下載需求。云服務(wù)平臺(tái)還可以借助于城市道路交通流量的資源、數(shù)據(jù)、文檔的交換框架體系,實(shí)現(xiàn)系統(tǒng)之間的數(shù)據(jù)與服務(wù)交互操作。
3.1.1存儲(chǔ)平臺(tái) ①分布式存儲(chǔ)平臺(tái)。分布式存儲(chǔ)實(shí)驗(yàn)平臺(tái)由Hadoop集群系統(tǒng)構(gòu)成,而該系統(tǒng)則由同樣配置的9臺(tái)計(jì)算機(jī)互聯(lián)構(gòu)建而成。實(shí)驗(yàn)過(guò)程中,名為Name Node的計(jì)算機(jī)為系統(tǒng)的核心部分,另外8臺(tái)計(jì)算機(jī)的功能是存儲(chǔ)數(shù)據(jù)信息,其作為數(shù)據(jù)節(jié)點(diǎn)的形式存在。實(shí)驗(yàn)中,所有計(jì)算機(jī)均安裝Centos6.0操作系統(tǒng),成功裝上Hadoop軟件后,HDFS系統(tǒng)中shell命令能夠?qū)崿F(xiàn)數(shù)據(jù)的上傳,同時(shí)還能夠通過(guò)Java語(yǔ)言編程完成數(shù)據(jù)的挖掘算法。②傳統(tǒng)的數(shù)據(jù)庫(kù)存儲(chǔ)。實(shí)驗(yàn)中,所有計(jì)算機(jī)的配置、服務(wù)器、操作系統(tǒng)均一致,傳統(tǒng)數(shù)據(jù)庫(kù)則搭建Oracle數(shù)據(jù)平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的存儲(chǔ)。兩個(gè)平臺(tái)的硬件配置如表1所示。
表1 兩平臺(tái)所需要的硬件配置
3.1.2實(shí)驗(yàn)數(shù)據(jù) 該實(shí)驗(yàn)的數(shù)據(jù)對(duì)象為蘇州市RFID數(shù)據(jù)和出租車的GPS數(shù)據(jù),時(shí)間為1個(gè)月,其中RFID數(shù)據(jù)約為2.24億條,約67.5G。RFID數(shù)據(jù)記錄了車輛的信息,涵蓋種類具體如表2所示。蘇州市的出租車約為19000輛,對(duì)應(yīng)的GPS數(shù)據(jù)每月約為9.98億條,約128.5G,信息種類具體如表3所示。為公平地比較數(shù)據(jù)庫(kù)的情況,兩個(gè)平臺(tái)均不構(gòu)建任何表索引。
表2 蘇州市RFID數(shù)據(jù)格式
表3 蘇州市出租車GPS數(shù)據(jù)格式
3.2.1安裝系統(tǒng)和軟件 實(shí)驗(yàn)平臺(tái)的搭建中,首先要安裝系統(tǒng)和軟件。而該實(shí)驗(yàn)中,兩個(gè)平臺(tái)構(gòu)建分為系統(tǒng)安裝與軟件安裝。該實(shí)驗(yàn)中的兩個(gè)平臺(tái)中,Hadoop平臺(tái)集群共需要9臺(tái)計(jì)算機(jī),該平臺(tái)所有計(jì)算機(jī)安裝Centos6.0系統(tǒng)與桌面版Linux環(huán)境。第10號(hào)主機(jī),命名為PC,安裝Windowsserver2008操作系統(tǒng)。兩種平臺(tái)的安裝中,Hadoop平臺(tái)的安裝更為復(fù)雜,且需要對(duì)環(huán)境變量進(jìn)行調(diào)整。
3.2.2導(dǎo)入數(shù)據(jù)實(shí)驗(yàn) 蘇州市的RFID和GPS數(shù)據(jù)根據(jù)時(shí)間段特點(diǎn)進(jìn)行統(tǒng)計(jì),進(jìn)而得出該市在1小時(shí)、12小時(shí)、24小時(shí)、1周、2周、3周、1個(gè)月的RFID數(shù)據(jù)量以及GPS數(shù)據(jù)量將不同時(shí)間段內(nèi)的RFID數(shù)據(jù)和GPS數(shù)據(jù)分別傳輸?shù)紿adoop平臺(tái)以及Oracle平臺(tái)上,通過(guò)數(shù)次傳輸導(dǎo)入相對(duì)應(yīng)的數(shù)據(jù)實(shí)驗(yàn),進(jìn)而統(tǒng)計(jì)傳輸同等數(shù)據(jù)到兩個(gè)平臺(tái)所耗費(fèi)的時(shí)間,具體如圖3所示。
圖3 導(dǎo)入相同數(shù)據(jù)量?jī)煞N平臺(tái)所需要時(shí)間
對(duì)比兩個(gè)平臺(tái)結(jié)果可知,當(dāng)導(dǎo)入的數(shù)據(jù)數(shù)量相對(duì)較少時(shí),Oracle平臺(tái)的效率明顯高于Hadoop平臺(tái),而如果導(dǎo)入的蘇州市24h的數(shù)據(jù)時(shí),兩平臺(tái)所耗費(fèi)的時(shí)間沒(méi)有太大差別,效率相似。但如果導(dǎo)入的數(shù)據(jù)量較大,當(dāng)時(shí)間超過(guò)24h后,Oracle平臺(tái)的上傳效率明顯降低,而如果導(dǎo)入數(shù)據(jù)量大小超過(guò)50G時(shí),Oracle平臺(tái)的效率將顯著下降,且非常低下。但數(shù)據(jù)量的增加對(duì)于Hadoop平臺(tái)的影響不大,對(duì)于導(dǎo)入數(shù)據(jù)量的增加,Hadoop平臺(tái)的導(dǎo)入時(shí)間沒(méi)有明顯增加。由此可知,在大規(guī)模數(shù)據(jù)的傳輸導(dǎo)入中,Hadoop平臺(tái)的效率更為顯著。
3.2.3查詢數(shù)據(jù)實(shí)驗(yàn) 上述內(nèi)容證實(shí)了Hadoop平臺(tái)在導(dǎo)入大規(guī)模數(shù)據(jù)時(shí)有著明顯的優(yōu)勢(shì),且與Oracle數(shù)據(jù)庫(kù)系統(tǒng)相比較,效率更高。此外,Hadoop分布式系統(tǒng)的優(yōu)勢(shì)還體現(xiàn)在大規(guī)模數(shù)據(jù)的查詢中,該平臺(tái)的效率也非常顯著。將蘇州市1個(gè)約的RFID與GPS數(shù)據(jù)導(dǎo)入平臺(tái),開(kāi)展查詢對(duì)比實(shí)驗(yàn),具體為同時(shí)在兩平臺(tái)上查詢每周5個(gè)工作日的車輛出行分布狀況,查詢效率的對(duì)比情況具體如圖4所示。
圖4 兩平臺(tái)的查詢過(guò)程時(shí)耗對(duì)比圖
實(shí)驗(yàn)結(jié)果表明,兩平臺(tái)的對(duì)比結(jié)果非常明顯,與Oracle平臺(tái)的查詢效率相比較,實(shí)驗(yàn)中搭建的Hadoop平臺(tái)的查詢效率更高,平均約為Oracle查詢效率的5.76倍。
在完成大量交通數(shù)據(jù)導(dǎo)入和查詢實(shí)驗(yàn)后,能夠發(fā)現(xiàn),基于大規(guī)模的交通數(shù)據(jù)背景,Hadoop平臺(tái)在交通大數(shù)據(jù)的存儲(chǔ)和處理中表現(xiàn)優(yōu)異,與傳統(tǒng)Oracle數(shù)據(jù)庫(kù)平臺(tái)相比較有著明顯的優(yōu)勢(shì)。大數(shù)據(jù)的傳輸和大數(shù)據(jù)的查詢方面,Hadoop平臺(tái)與Oracle平臺(tái)相比,優(yōu)勢(shì)明顯。
大數(shù)據(jù)技術(shù)的應(yīng)用,為大規(guī)模數(shù)據(jù)的快速存儲(chǔ)與處理提供了可視化的管理界面,而傳統(tǒng)方式難以對(duì)大規(guī)模數(shù)據(jù)進(jìn)行分析與管理的問(wèn)題也得到有效的解決。隨著城市道路交通數(shù)據(jù)的迅猛增長(zhǎng),交通數(shù)據(jù)量非常龐大,結(jié)合城市交通的智能化、大數(shù)據(jù)化的發(fā)展需求,文章對(duì)Hadoop大數(shù)據(jù)平臺(tái)開(kāi)展了實(shí)驗(yàn)研究,搭建基于Hadoop平臺(tái),基于Hadoop構(gòu)建出城市交通大規(guī)模數(shù)據(jù)的存儲(chǔ)與分析框架,在此基礎(chǔ)上,文章對(duì)現(xiàn)有的交通數(shù)據(jù)存儲(chǔ)情況進(jìn)行了分析,進(jìn)而提出多類型交通數(shù)據(jù)混合存儲(chǔ)的分布式系統(tǒng),并且進(jìn)行了系統(tǒng)設(shè)計(jì)。通過(guò)Hadoop平臺(tái)與Oracle平臺(tái)的對(duì)比實(shí)驗(yàn),比較了兩個(gè)平臺(tái)在數(shù)據(jù)的導(dǎo)入和查詢方面的效率,結(jié)論顯示,對(duì)于大規(guī)模數(shù)據(jù)的存儲(chǔ)導(dǎo)入和查詢而言,Hadoop平臺(tái)有著明顯的優(yōu)勢(shì),效率明顯較高。
九江學(xué)院學(xué)報(bào)(自然科學(xué)版)2022年4期