丁軍
【摘要】? ? 地鐵軌道交通信息化水平隨著城市軌道工程的發(fā)展而持續(xù)提升,而伴隨著地鐵軌道交通的持續(xù)運行,其形成的數(shù)據(jù)量規(guī)模也逐漸龐大。在此背景下,若基于傳統(tǒng)數(shù)據(jù)處理方法展開操作,會存在成本高、管理難度大等問題,并且不利于程序的編寫。對此,本文將地鐵信息系統(tǒng)作為基本出發(fā)點,對地鐵軌道交通發(fā)展需求進行分析,基于云計算平臺創(chuàng)建出高度成熟化的軌道交通數(shù)據(jù)挖掘平臺,同時展開有關(guān)于地鐵軌道交通大數(shù)據(jù)的深度分析工作。
【關(guān)鍵詞】? ? 地鐵工程? ? 云計算? ? 大數(shù)據(jù)? ? 分析方法
當前,我國多數(shù)大中型城市都紛紛推行了地鐵工程,總體建設(shè)運營里程正在持續(xù)增加。就地鐵運營企業(yè)而言,需要做好客流分析工作,這是線網(wǎng)規(guī)劃以及運營組織的關(guān)鍵前提。在當前信息技術(shù)持續(xù)發(fā)展的大背景下,地鐵系統(tǒng)已經(jīng)累積了大量的乘客出行信息,基于對地鐵AFC刷卡數(shù)據(jù)的分析,能夠達到資源合理配置的效果,并且可以更好地滿足地鐵客流的基本需求,有效緩解了供需不平衡的問題,從根本上滿足了地鐵客流需求。而基于云計算技術(shù),能夠為此項工作提供有效指導(dǎo),所以本文重點對云計算技術(shù)展開探討。
一、云計算介紹
在當前的地鐵客流大數(shù)據(jù)分析工作中,重點圍繞政策性、前沿性兩大方面展開,由此探尋出客流的基本特征。相較于傳統(tǒng)的交通數(shù)據(jù)而言,現(xiàn)代化的交通大數(shù)據(jù)與之存在明顯的區(qū)別,在大數(shù)據(jù)特征描述時涉及到了3V、4V和5V這3方面內(nèi)容。除此之外,加之交通大數(shù)據(jù)基本特性的影響,可以進一步延展出6V特征,具體為:體量巨大、處理快速、模態(tài)多樣、真假共存、價值、可視化[1]。
二、大數(shù)據(jù)分析方法
(1)數(shù)據(jù)讀取?;贘ave展開編程操作,在此基礎(chǔ)上實現(xiàn)對原始數(shù)據(jù)集的分析,讀取其中的數(shù)據(jù)結(jié)構(gòu),主要涉及到行與列的分隔符,此時能夠確保數(shù)據(jù)集順利的上傳到云端數(shù)據(jù)庫中,諸如“2aa2a04|/N|104.063028|30.508351|雙流縣|1|104.127465|30.26802|雙流縣|1|27459.749617”,則列分隔符為“|”,行分隔符為“/n”。(2)數(shù)據(jù)存儲?;贛apReduce分布式上傳功能可以實現(xiàn)對大數(shù)據(jù)的讀取工作,以便將豐富的大數(shù)據(jù)完整的存儲于云端數(shù)據(jù)之中。(3)數(shù)據(jù)清洗?;谠破脚_展開對數(shù)據(jù)的清洗工作,例如,對String類型的值進行轉(zhuǎn)換,使其變更為Int類型,此舉能夠為后續(xù)的匹配計算提供良好的條件,如果列中存在一些不規(guī)則字符,則可以對其格式統(tǒng)一操作。將其中的無效數(shù)據(jù)篩除,以統(tǒng)計客流情況為例進行分析,則可以將員工卡進出站這一無效數(shù)據(jù)隔離出來,此后再對缺失部分做以自動填充處理。(4)數(shù)據(jù)分析。當完成對數(shù)據(jù)的清洗操作后,便可以展開SQL分析操作,對AFC數(shù)據(jù)記錄進行全面篩選,從中獲得客流情況、高峰期分布特性等多方面內(nèi)容。(5)在上述的基礎(chǔ)上,將會得到相關(guān)數(shù)據(jù)結(jié)果,對其進行存儲并基于百度地圖API作進一步的程序開發(fā),以展開可視化分析。
三、云計算技術(shù)效率測試
云計算的方式具有更強的適應(yīng)性,能夠從根本上避免資源集中消耗的現(xiàn)象,而分布式的處理機制則可以創(chuàng)造出更為優(yōu)良的數(shù)據(jù)處理效率。本次分析工作圍繞阿里云計算服務(wù)大數(shù)據(jù)平臺展開,將其與傳統(tǒng)數(shù)據(jù)庫展開對比分析,探尋二者在效率方面的差別。在阿里云大數(shù)據(jù)服務(wù)體系之中,可以有效地支持SQL等相關(guān)模型,其可以在極短的時間內(nèi)做好相關(guān)計算任務(wù)。其中Tunnel服務(wù)發(fā)揮出重要的作用,其每天都可以滿足TB/PB級的數(shù)據(jù)傳輸要求,這點對于歷史數(shù)據(jù)的導(dǎo)入導(dǎo)出尤為適用,且吞吐量高,具有優(yōu)良的可擴展水平,能夠為數(shù)據(jù)的批量處理提供良好的條件。MaxCompute SQL建立在標準SQL算法的基礎(chǔ)上,所帶來的計算框架能夠有效地服務(wù)于SQL計算模型,相較于常規(guī)的MapReduce模型而言,帶來的執(zhí)行效率得到了顯著的提升,借助于在線運維以及離線任務(wù)調(diào)度等一系列豐富功能,離線調(diào)度任務(wù)量可以達到百萬級別。若PC的內(nèi)存為4G,同時配置有AMD處理器(其主頻可以達到2.2GHz),將此作為硬件條件展開各方法對于SQL運算速度的分析工作,具體操作對象均為成都地鐵AFC刷卡數(shù)據(jù)。實際結(jié)果表明,相較于常規(guī)的SQL Server數(shù)據(jù)庫,基于MaxCompute所帶來的運算效率明顯提升,如果SQL語句復(fù)雜度較高,此時運行優(yōu)勢將會更為明顯。在實際操作中,如果基于云MaxCompute展開首次運算,此時所需要的時間將長達4s,而相比之下SQL Server僅需1s便可以完成[3]。對此現(xiàn)象進行分析可得,在阿里云計算平臺的作用下,將會對MaxCompute進行拆分處理,使其變?yōu)橐粋€分布式的任務(wù)以便后續(xù)調(diào)用,但相比之下,MapReduce在初始化過程中便會耗費大量的時間,盡管SQL較為精簡,但依然需要得到充足的時間支持。在上述基礎(chǔ)上持續(xù)進行SQL運算,發(fā)現(xiàn)SQL Server需要的運算時間表現(xiàn)出了成倍增長的特性,但無論運算次數(shù)如何發(fā)生變化,MaxCompute需要的運算時間都處于相對穩(wěn)定的狀態(tài)。由此可以得知,在數(shù)據(jù)規(guī)模持續(xù)擴大的背景下,加之SQL復(fù)雜度的提升,基于云計算平臺所需要的初始化時間明顯縮短,其在整體時間中占比較低,相比于傳統(tǒng)的數(shù)據(jù)庫技術(shù)而言,通過云計算平臺展開的分布式調(diào)用方法具有高度的可行性。
結(jié)束語:綜上所述,當前的城市居民交通出行半徑表現(xiàn)出明顯的規(guī)律性,即普遍集中在地鐵45min區(qū)域內(nèi),日常出行時間主要以15~30min居多,部分情況下將會達到30~45min。無論是工作日還是非工作日,地鐵車站的人流量都相對較大,此時運營管理部門的監(jiān)管工作至關(guān)重要,需要為之制定可行的疏導(dǎo)方案。在可視化技術(shù)的作用下,能夠推相較于傳統(tǒng)數(shù)據(jù)處理技術(shù)而言,基于云計算技術(shù)可以創(chuàng)造更高的效率,在運行過程中不會占用過多的計算機資源,在此背景下圍繞大數(shù)據(jù)的地鐵客流分析工作具有高度的現(xiàn)實意義。而大數(shù)據(jù)發(fā)展需要得到云計算的支持,換言之,在云計算的作用下能夠提供彈性可拓展設(shè)備,以便大數(shù)據(jù)分析工作的順利展開。
參? 考? 文? 獻
[1]殷瑋川,何世偉,李玉斌,等.基于云計算的地鐵大數(shù)據(jù)分析方法研究[J].鐵道科學與工程學報,2018,15(11):2995-3002.
[2]朱建生,汪健雄,張軍鋒.基于NoSQL數(shù)據(jù)庫的大數(shù)據(jù)查詢技術(shù)的研究與應(yīng)用[J].中國鐵道科學,2014(01):135-141.
[3]蔡昌俊,姚恩建,張永生,等.基于AFC數(shù)據(jù)的城軌站間客流量分布預(yù)測[J].中國鐵道科學,2015(01):126-132.