曹惠茹 成海秀 劉永鑫 陳鳳宜 詹錫隆
1(廣州工程技術(shù)職業(yè)學(xué)院信息工程學(xué)院 廣東 廣州 510075)2(華南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 廣東 廣州 510006)3(深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院 廣東 深圳 518060)4(中山大學(xué)南方學(xué)院 廣東 廣州 510970)
隨著城市規(guī)模的不斷增加,城市軌道交通成為越來(lái)越多城市居民出行的首選[1-3]。運(yùn)用云計(jì)算、大數(shù)據(jù)等信息技術(shù)對(duì)城市軌道交通客流量的數(shù)據(jù)進(jìn)行分析,研究城市軌道交通客流量變化態(tài)勢(shì)成為當(dāng)前研究的熱點(diǎn)。以此為依據(jù)對(duì)規(guī)劃城市軌道交通進(jìn)行建設(shè)與運(yùn)營(yíng),不僅會(huì)降低城市軌道交通建設(shè)與運(yùn)維成本,而且為城市居民的出行帶來(lái)更多便利[4-6]。城市軌道交通客流的數(shù)據(jù)可視化,成為上述工作的關(guān)鍵步驟之一。因此,對(duì)城市軌道交通客流進(jìn)行可視化研究是城市軌道交通數(shù)據(jù)分析的重要環(huán)節(jié),具有重要意義。
針對(duì)城市交通數(shù)據(jù)可視化問(wèn)題,國(guó)內(nèi)外從不同的層面展開(kāi)相關(guān)研究。文獻(xiàn)[7]設(shè)計(jì)了一種基于GPS的出租車(chē)軌跡數(shù)據(jù)的三維動(dòng)態(tài)可視化方法,建立了基于時(shí)空雙重控制的粒子系統(tǒng),構(gòu)建了城市大尺度三維場(chǎng)景中GPS軌跡的模擬移動(dòng)模型。文獻(xiàn)[8]為解決公共自行車(chē)數(shù)據(jù)可視化系統(tǒng)的性能問(wèn)題,整合Web服務(wù)器集群、數(shù)據(jù)庫(kù)集群、緩存框架服務(wù)器的集群架構(gòu),構(gòu)建基于該架構(gòu)的公共自行車(chē)數(shù)據(jù)可視化系統(tǒng)。文獻(xiàn)[9]先后采用數(shù)據(jù)預(yù)處理、匹配技術(shù)、聚集計(jì)算等將車(chē)輛運(yùn)行狀態(tài)轉(zhuǎn)化為道路通行信息,實(shí)現(xiàn)公路交通的數(shù)據(jù)可視化。文獻(xiàn)[10]分析了珠三角地區(qū)公交系統(tǒng)位置數(shù)據(jù)丟失的空間分布特征,然后采用數(shù)據(jù)可視化技術(shù)對(duì)目標(biāo)城市的交通數(shù)據(jù)進(jìn)行了數(shù)據(jù)可視化,證明所提方法可以有效地提高數(shù)據(jù)質(zhì)量。文獻(xiàn)[11]使用快速增量模型樹(shù)漂移檢測(cè)方法來(lái)分析和預(yù)測(cè)英國(guó)交通人流量,同時(shí)在所開(kāi)發(fā)的預(yù)測(cè)系統(tǒng)的基礎(chǔ)上,將生成的傳感器點(diǎn)內(nèi)的交通流狀態(tài)預(yù)測(cè)在真實(shí)的地圖仿真中可視化。上述文獻(xiàn)對(duì)交通層面的數(shù)據(jù)可視化進(jìn)行了研究,然而針對(duì)城市軌道交通票卡數(shù)據(jù)流可視化研究偏少。同時(shí)城市軌道交通數(shù)據(jù)存在數(shù)據(jù)量巨大、種類(lèi)繁多、數(shù)據(jù)實(shí)時(shí)性高等特點(diǎn),對(duì)數(shù)據(jù)可視化提出新的挑戰(zhàn)與要求[12-13]。
針對(duì)城市軌道交通數(shù)據(jù)的特點(diǎn)和城市軌道交通客流量新挑戰(zhàn),本文提出基于云計(jì)算的城市軌道交通客流量數(shù)據(jù)可視化解決方案。將城市軌道交通客流數(shù)據(jù)按時(shí)間段進(jìn)行分表處理、建立索引數(shù)據(jù)集合;刪除冗余、錯(cuò)誤數(shù)據(jù)實(shí)現(xiàn)對(duì)數(shù)據(jù)篩選和清洗處理;對(duì)城市軌道交通客流數(shù)據(jù)進(jìn)行了可視化設(shè)計(jì);以目標(biāo)城市為例,對(duì)可視化系統(tǒng)進(jìn)行了驗(yàn)證,并對(duì)客流規(guī)律進(jìn)行了分析。
云計(jì)算采用簡(jiǎn)化接口,將海量計(jì)算任務(wù)通過(guò)通信網(wǎng)絡(luò)分發(fā)到多個(gè)并行計(jì)算機(jī)上進(jìn)行處理,以提高數(shù)據(jù)處理的實(shí)時(shí)性[3,14-15]。用戶(hù)訪(fǎng)問(wèn)分布式服務(wù)器可以減小延時(shí),增強(qiáng)訪(fǎng)問(wèn)的實(shí)時(shí)性。為此,本文設(shè)計(jì)了如圖1所示的基于云計(jì)算與數(shù)據(jù)存儲(chǔ)的城市軌道交通客流數(shù)據(jù)系統(tǒng)框架。該框架主要包括用戶(hù)端、云服務(wù)器、管理中心三個(gè)模塊。用戶(hù)端是指訪(fǎng)問(wèn)城市軌道交通數(shù)據(jù)庫(kù)移動(dòng)端,主要以出行的客流人群為主體。云服務(wù)器用于處理、存儲(chǔ)城市軌道交通數(shù)據(jù),具體分為客戶(hù)、中心數(shù)據(jù)存儲(chǔ)和計(jì)算三種類(lèi)型的服務(wù)器。管理中心主要負(fù)責(zé)對(duì)整個(gè)系統(tǒng)的管理和運(yùn)維。首先,為降低網(wǎng)絡(luò)安全風(fēng)險(xiǎn),保護(hù)核心數(shù)據(jù),采用中心服務(wù)器和客戶(hù)服務(wù)器模式完成用戶(hù)端的數(shù)據(jù)訪(fǎng)問(wèn)。其次,以用戶(hù)提供高效的數(shù)據(jù)訪(fǎng)問(wèn)服務(wù)為目標(biāo),在城市不同位置部署客戶(hù)服務(wù)器,采用高速網(wǎng)絡(luò)與中心數(shù)據(jù)服務(wù)器建立高效連接,進(jìn)而構(gòu)建高效的分布式客戶(hù)服務(wù)器集群。
圖1 基于云計(jì)算服務(wù)器的城市軌道交通數(shù)據(jù)系統(tǒng)框架
(1)
從數(shù)據(jù)流的角度,基于云服務(wù)器城市軌道交通數(shù)據(jù)系統(tǒng)總的工作過(guò)程,可以從數(shù)據(jù)上傳和下發(fā)進(jìn)行描述。首先,城市軌道交通系統(tǒng)通過(guò)相應(yīng)的裝置,收集用戶(hù)出行信息,并通過(guò)通信網(wǎng)絡(luò)將數(shù)據(jù)上傳至本地客戶(hù)服務(wù)器。本地服務(wù)器周期性地將數(shù)據(jù)傳輸給中心數(shù)據(jù)存儲(chǔ)服務(wù)器,進(jìn)而完成數(shù)據(jù)上傳。其次,當(dāng)用戶(hù)需要訪(fǎng)問(wèn)相關(guān)交通數(shù)據(jù)時(shí),客戶(hù)服務(wù)器從中心數(shù)據(jù)服務(wù)器訪(fǎng)問(wèn)相關(guān)數(shù)據(jù),并在本地進(jìn)行數(shù)據(jù)備份存儲(chǔ),然后將用戶(hù)需要數(shù)據(jù)下發(fā)至用戶(hù)端,進(jìn)而完成數(shù)據(jù)的下發(fā)。
本系統(tǒng)主要用于對(duì)城市軌道交通客流量的可視化,方便對(duì)城市軌道交通客流量的各類(lèi)數(shù)據(jù)進(jìn)行分析,直觀地分析出數(shù)據(jù)蘊(yùn)含的規(guī)律。圖2為城市軌道交通數(shù)據(jù)可視化總體設(shè)計(jì)過(guò)程。總體上來(lái)講,該過(guò)程分為原始數(shù)據(jù)讀取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)可視化三個(gè)主要步驟。
圖2 系統(tǒng)設(shè)計(jì)過(guò)程
數(shù)據(jù)預(yù)處理與數(shù)據(jù)可視化是該系統(tǒng)重要模塊。從數(shù)據(jù)存儲(chǔ)服務(wù)器中讀取的原始數(shù)據(jù),為不同人群(ID)的刷卡時(shí)間(h)和進(jìn)出站點(diǎn)記錄(data),其數(shù)據(jù)字段包括站點(diǎn)信息、消費(fèi)人群、出入站點(diǎn)時(shí)間、乘車(chē)次數(shù)等關(guān)鍵性數(shù)據(jù)信息。在數(shù)據(jù)預(yù)處理階段要對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,并且轉(zhuǎn)換成JSON格式進(jìn)而實(shí)現(xiàn)數(shù)據(jù)的可視化。根據(jù)數(shù)據(jù)特性,從多層次、多角度分析設(shè)計(jì)最終以Web頁(yè)面形式進(jìn)行效果展示。
在數(shù)據(jù)預(yù)處理層面,針對(duì)城市交通原始數(shù)據(jù)會(huì)存在缺失值、重復(fù)值等問(wèn)題,在使用之前需要進(jìn)行數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理沒(méi)有標(biāo)準(zhǔn)的流程,通常針對(duì)任務(wù)和數(shù)據(jù)集屬性的不同而不同。數(shù)據(jù)預(yù)處理的常用流程為:去除唯一屬性,處理缺失值,屬性編碼,數(shù)據(jù)標(biāo)準(zhǔn)化正則化,特征選擇,主成分分析。如圖3所示,針對(duì)城市城軌交通數(shù)據(jù)的特點(diǎn),采用如下所述的步驟進(jìn)行數(shù)據(jù)預(yù)處理。
圖3 數(shù)據(jù)預(yù)處理過(guò)程
不失一般性,記數(shù)據(jù)集合為D={d1,d2,…,dn},數(shù)據(jù)di={ID,datai,hi}。首先刪除缺失值、重復(fù)值的數(shù)據(jù),數(shù)學(xué)描述如下:
(2)
式中:i≠j∈n。然后,按照讀取數(shù)據(jù)ID,按時(shí)間為單位對(duì)數(shù)據(jù)進(jìn)行分表處理,并建立索引。記datai={ds1,ds2,…,dsm}即數(shù)據(jù)di信息datai包含m個(gè)字段,DS為所需信息字段。將需要用到的DS包含在索引中,查詢(xún)時(shí)只返回所需的字段,將不需要字段進(jìn)行查詢(xún)并且刪除,從而實(shí)現(xiàn)對(duì)數(shù)據(jù)預(yù)處理。其數(shù)學(xué)描述如下:
datai=datai-dsjdsj∈DS,i∈m
(3)
城市軌道交通數(shù)據(jù)可視化是該系統(tǒng)的最后環(huán)節(jié),直接面對(duì)用戶(hù)端。通過(guò)對(duì)數(shù)據(jù)不同角度的分析和展示,以數(shù)據(jù)可視化形式展示了各種客流信息,進(jìn)而為用戶(hù)出行、城市軌道交通管理等提供參考依據(jù)。
圖4為城市軌道交通數(shù)據(jù)可視化過(guò)程示意圖??傮w來(lái)講,該過(guò)程可以分為數(shù)據(jù)檢索、數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)圖形內(nèi)核調(diào)用、數(shù)據(jù)展示等步驟。具體來(lái)說(shuō),其關(guān)鍵步驟描述如下:
圖4 數(shù)據(jù)可視化過(guò)程
Step1計(jì)算服務(wù)器根據(jù)可視化目標(biāo)的具體要求,從數(shù)據(jù)存儲(chǔ)服務(wù)器中讀取與該目標(biāo)相關(guān),并通過(guò)預(yù)處理后的完整數(shù)據(jù)集。
Step2以可視化目標(biāo)為出發(fā)點(diǎn),采用數(shù)據(jù)ID為關(guān)鍵字對(duì)統(tǒng)計(jì)數(shù)據(jù)關(guān)鍵信息進(jìn)行檢索。
Step3完成上述步驟,建立檢索結(jié)果表,并進(jìn)行結(jié)果存儲(chǔ)。
Step4基于數(shù)學(xué)統(tǒng)計(jì)方法,調(diào)用ECharts統(tǒng)計(jì)模塊內(nèi)核,完成對(duì)客流關(guān)鍵信息的數(shù)據(jù)統(tǒng)計(jì)。
Step5根據(jù)Step4的統(tǒng)計(jì)結(jié)果,建立統(tǒng)計(jì)客流數(shù)據(jù)與可視化圖形之間的映射關(guān)系。
Step6調(diào)用ECharts中相應(yīng)圖形的內(nèi)核模塊,按照不同統(tǒng)計(jì)結(jié)果,最終完成城市軌道交通數(shù)據(jù)可視化。
以南方某城市軌道交通數(shù)據(jù)為案例,采用第2節(jié)所述方案進(jìn)行了數(shù)據(jù)可視化實(shí)現(xiàn)。數(shù)據(jù)集為該城市2015年1月至2月的9條地鐵線(xiàn)路乘客上下站點(diǎn)共計(jì)750 000條數(shù)據(jù)。對(duì)該數(shù)據(jù)集合進(jìn)行清洗后以小時(shí)為單位對(duì)數(shù)據(jù)進(jìn)行分表處理,進(jìn)而建立客流小時(shí)統(tǒng)計(jì)表。然后對(duì)處理后的表進(jìn)行格式轉(zhuǎn)化,形成適合ECharts的JSON數(shù)據(jù)格式。最后,以客流站點(diǎn)熱力圖和統(tǒng)計(jì)客流量為目標(biāo)進(jìn)行可視化。
該案例的城市軌道交通數(shù)據(jù)可視化系統(tǒng)提供總覽、線(xiàn)路對(duì)比和單線(xiàn)統(tǒng)計(jì)三種模式??傆[模式采用地理數(shù)據(jù)可視化的熱力圖形式呈現(xiàn)所有站點(diǎn)的客流信息。首先以時(shí)間單位統(tǒng)計(jì)各個(gè)線(xiàn)路、站點(diǎn)客流量,利用不同的明亮程度表示各個(gè)站點(diǎn)不同路段擁堵程度(稀疏/正常/擁擠),如圖5所示。在多線(xiàn)路對(duì)比模式下,在單位時(shí)間內(nèi)對(duì)多條城市軌道交通線(xiàn)路的數(shù)據(jù)進(jìn)行統(tǒng)計(jì),然后采用柱狀圖的形式呈現(xiàn)不同線(xiàn)路的客流量。單線(xiàn)統(tǒng)計(jì)模式下,分別呈現(xiàn)選中線(xiàn)路各種客流量信息,其中包括該線(xiàn)路客流類(lèi)型、各換乘站點(diǎn)日客流量、早晚高峰Top5出站點(diǎn)、一周內(nèi)客流量變化等方面的信息。
圖5 城市軌道交通客流量可視化系統(tǒng)界面
圖6展示了城市軌道交通客流量在各個(gè)站點(diǎn)分布情況。用熱力圖來(lái)展示不同站點(diǎn)在一段時(shí)間內(nèi)的總體客流量,從暗到亮來(lái)表示客流量密集程度,灰色表示客流量較小,亮的區(qū)域表示客流量較大。同時(shí)可將地圖進(jìn)行放大和縮小,從整體到局部了解不同站點(diǎn)的客流量的分布情況??梢钥闯觯植荚谏虡I(yè)密集區(qū)或居民區(qū)站點(diǎn)的客流較大。
圖6 城市軌道交通客流量熱力圖
客流量高峰期的計(jì)算定義:早高峰時(shí)間為上午7點(diǎn)至9點(diǎn),晚高峰時(shí)間為下午5點(diǎn)至7點(diǎn)半。因此將客流量數(shù)據(jù)按小時(shí)進(jìn)行分類(lèi),提取各換乘站點(diǎn)與早、晚高峰熱門(mén)站點(diǎn)數(shù)據(jù)并轉(zhuǎn)換成JSON格式,進(jìn)而以圖形化形式展示出來(lái),如圖7所示。從早、晚高峰客流量餅形圖可以看出,早高峰站點(diǎn)1、3、4為前三,晚高峰時(shí)站點(diǎn)1、站點(diǎn)3客流量依然較大,而第三熱門(mén)站點(diǎn)則由站點(diǎn)5替代早高峰的站點(diǎn)4;而從換乘站點(diǎn)日客流量情況可以看出,左上方柱狀表示日客流量在60 000以下的站點(diǎn),而左下方柱狀則為日客流量60 000以上的站點(diǎn),且站點(diǎn)R和站點(diǎn)S為日流量最大的兩個(gè)站點(diǎn)。因此,根據(jù)早、晚高峰以及各換乘站點(diǎn)日客流量情況分析,可合理調(diào)配相關(guān)工作人員以應(yīng)對(duì)突發(fā)事故的處理。
圖7 城市軌道交通熱門(mén)換乘站點(diǎn)和早晚高峰熱門(mén)出站點(diǎn)
圖8為一號(hào)線(xiàn)各站點(diǎn)平時(shí)客流與高峰期客流的對(duì)比,可以看出,同一線(xiàn)路時(shí)高峰期的客流量明顯高于平時(shí)的客流量,尤其突出表現(xiàn)在站點(diǎn)9、站點(diǎn)14、站點(diǎn)15、站點(diǎn)16。通過(guò)圖中右上角下拉三角位置還可以選擇查看不同線(xiàn)路的平時(shí)客流量與高峰期客流量的對(duì)比圖。而上述站點(diǎn)均為換乘站點(diǎn),說(shuō)明換乘站點(diǎn)的客流量較大。
圖8 城市軌道交通同一線(xiàn)路不同站點(diǎn)對(duì)比圖
本文以大數(shù)據(jù)環(huán)境下的城市軌道交通票卡數(shù)據(jù)流實(shí)時(shí)客流態(tài)勢(shì)圖的可視化為研究對(duì)象,基于云計(jì)算平臺(tái)提供了一種城市軌道交通大數(shù)據(jù)可視化分析方法,搭建了實(shí)用化的應(yīng)用平臺(tái)并提供南方某城市應(yīng)用案例。首先,基于云計(jì)算構(gòu)建了城市軌道交通數(shù)據(jù)系統(tǒng)框架。其次,將城市軌道交通客流數(shù)據(jù)按時(shí)間段進(jìn)行分表處理、建立索引數(shù)據(jù)集合,刪除冗余、錯(cuò)誤數(shù)據(jù),實(shí)現(xiàn)對(duì)數(shù)據(jù)篩選和清洗處理。最后,以目標(biāo)城市為案例構(gòu)建了城市軌道交通數(shù)據(jù)可視化終端,同時(shí)分析了城市軌道交通客流規(guī)律。實(shí)驗(yàn)結(jié)果表明,該數(shù)據(jù)可視化方法的可行性高,同時(shí)表明分布在商業(yè)密集區(qū)或居民區(qū)站點(diǎn)、換乘站點(diǎn)、早晚高峰的客流較大。該研究為城市軌道交通的規(guī)劃和列車(chē)運(yùn)營(yíng)提供了可靠的依據(jù),通過(guò)交通狀態(tài)的判別, 減緩交通壓力,均衡交通量分布, 從而提高城市軌道交通路網(wǎng)的利用效率和安全性。