任亞飛 金睿 莫金亮 劉法超
摘要:本文是對來源于成都科泰科技有限責任公司的《綿陽GPS數(shù)據(jù)》的提取、分析和利用,詳細闡述了基于大數(shù)據(jù)處理的出租車GPS數(shù)據(jù)可視化分析。
關(guān)鍵詞:大數(shù)據(jù)處理;GIS地圖匹配;出租車GPS數(shù)據(jù)
中圖分類號:TP391.41 文獻標識碼:A 文章編號:1007-9416(2019)02-0219-02
出租車平臺所產(chǎn)生的數(shù)據(jù),沒有深入的挖掘有用的信息來透徹分析,會造成信息浪費。本文是對來源于成都科泰科技有限責任公司《綿陽GPS數(shù)據(jù)》的利用和應用問題,主要進行基于大數(shù)據(jù)處理的出租車GPS數(shù)據(jù)可視化分析。通過MATLAB對綿陽出租車GPS數(shù)據(jù)的算法分析,可以得出本市居民和外來游客的出行特征、興趣喜好和生活方式等,再結(jié)合GIS地圖匹配,我們能準確的向出租車上的乘客投放相應范圍的優(yōu)質(zhì)商家廣告,為乘客提供更加優(yōu)質(zhì)的服務(wù)。
1 分析方案
使用MATLAB、GIS等專業(yè)工具提取、處理并存儲租車平臺所產(chǎn)生的有效數(shù)據(jù),結(jié)合出租車接客軌跡數(shù)據(jù)進行分析計算與數(shù)據(jù)集成,得出出租車上下客的時空分布規(guī)律。
出租車GPS軌跡數(shù)據(jù)提取方案如圖1所示,關(guān)鍵技術(shù):(1)大量數(shù)據(jù)的預處理,包含數(shù)據(jù)清洗和數(shù)據(jù)提取,得到可以數(shù)據(jù)。(2)有效數(shù)據(jù)分析,包含對出租車車載系統(tǒng)數(shù)據(jù)類型的分類研究,對不同類型(如時間、經(jīng)緯度、載客情況等)進行不同的處理。(3)結(jié)果可視化圖形表示,二維形式的直觀圖形表示。
2 數(shù)據(jù)處理
2.1 異常數(shù)據(jù)處理
本文研究的數(shù)據(jù)主要使用《綿陽GPS數(shù)據(jù)》,經(jīng)查證,四川省綿陽市坐標范圍為東經(jīng)102°45′~105°43′和北緯30°42′~33°03′,市區(qū)海拔高度在429m~728m。此范圍以外的坐標數(shù)據(jù)屬于異常數(shù)據(jù),將該異常數(shù)據(jù)所在組整組剔除。
空車時VarName10的數(shù)值為0,有客時VarName10為1??罩剀嚁?shù)據(jù)為非0、1時該數(shù)據(jù)屬于異常數(shù)據(jù),將該異常數(shù)據(jù)所在組整組剔除。
此數(shù)據(jù)包含4368644組數(shù)據(jù),樣本量很大且表內(nèi)缺失值所占樣本比例<5%,可以使用列刪法直接剔除表內(nèi)缺失數(shù)據(jù)。
此數(shù)據(jù)中GPS數(shù)據(jù)采集時間間隔有15秒采集一次和60秒采集一次兩種,本次數(shù)據(jù)分析的目的是為出租車精準廣告投放系統(tǒng)提供精確的綿陽出租車上下客的時空分布規(guī)律,60秒時間間隔的數(shù)據(jù)不采用,只分析15秒時間間隔的數(shù)據(jù)。
其中,GPS相鄰兩條數(shù)據(jù)時間間隔出現(xiàn)異常主要有以下三種情況:(1)出租車GPS信號被高大建筑物遮擋或經(jīng)過隧道時;(2)出租車GPS傳輸過程中出現(xiàn)不可避免的延遲和丟包現(xiàn)象時;(3)剔除經(jīng)緯度和海拔異常數(shù)據(jù)、空重車異常數(shù)據(jù)、缺失數(shù)據(jù)所在組數(shù)據(jù)時[1]。
由于數(shù)據(jù)傳輸延遲一般在2秒以內(nèi),所以相鄰兩組數(shù)據(jù)時間間隔超過17秒的數(shù)據(jù)屬于異常數(shù)據(jù)。由于這類數(shù)據(jù)時間間隔較大,無法計算出上下客點坐標。將時間異常的數(shù)據(jù)所在組整組剔除,對時間異常數(shù)據(jù)的剔除前需要對時間進行排序,使用MATLAB的對比函數(shù)可以快速實現(xiàn),可以有效解決個別時間排序混亂問題,提高數(shù)據(jù)清洗的嚴謹性。
2.2 數(shù)據(jù)提取
本文使用的數(shù)據(jù)來源于成都科泰公司提供的綿陽市交通運輸管理處的采集數(shù)據(jù),主要使用MATLAB工具進行數(shù)據(jù)處理。每組數(shù)據(jù)包含出租車車牌號、記錄數(shù)據(jù)的時間、經(jīng)度、緯度、高度、Speed、GpsSpeed、RealGpsSpeed、RealSpeed、空重車。空重車變量是0時為空載狀態(tài),1時為載客狀態(tài)。7×24小時不間斷采集出租車GPS數(shù)據(jù),包含了綿陽1-2月共4368644組數(shù)據(jù)。
將預處理后的數(shù)據(jù)按車牌號分組提取出子矩陣,再將每個子矩陣中的數(shù)據(jù)按時間進行排序,得到相同車牌號并按時間排序的矩陣數(shù)據(jù)[2]。提取出空重車變量變化時的數(shù)據(jù),上下客事件即發(fā)生在這組數(shù)據(jù)。其中,當空重車變量發(fā)生變化,初步判斷從1變?yōu)?為出租車下客點,從0變?yōu)?即出租車上客點。
提取出上下客點,可得到某時段的出租車下客空間分布規(guī)律。對此數(shù)據(jù)的分析目的是找出綿陽市出租車乘客出行空間特征,主要是對的上下客地點分布和上下客熱點區(qū)域進行分析,得到綿陽市區(qū)出行吸引量較多的區(qū)域,進一步找到這些區(qū)域?qū)Τ鲂谐丝臀潭雀叩脑颉?/p>
3 使用Geographic Information System(以下簡稱GIS)進行GPS數(shù)據(jù)和路網(wǎng)數(shù)據(jù)匹配
3.1 下載電子地圖并載入數(shù)據(jù)
OpenStreetMap(OSM)是一款由網(wǎng)絡(luò)大眾共同打造的免費開源可編輯的地圖服務(wù)。在OpenStreetMap的官網(wǎng)上直接下載綿陽市電子地圖數(shù)據(jù)??蛇x數(shù)據(jù)格式有SHAPEFILE、GEOJSON、OSM PBF、OSM XML等。由于本次數(shù)據(jù)處理需要使用GIS來進行GPS數(shù)據(jù)和路網(wǎng)數(shù)據(jù)匹配,所以選擇SHAPEFILE格式下載,進行實驗。
將GPS軌跡數(shù)據(jù)(Excel格式)添加為點數(shù)據(jù),將OSM數(shù)據(jù)轉(zhuǎn)為線數(shù)據(jù),GPS軌跡數(shù)據(jù)坐標系和電子地圖的數(shù)據(jù)坐標系統(tǒng)都是WGS1984地理坐標,不用作坐標轉(zhuǎn)換。但需要在下面的匹配過程中,剔除電子地圖中的河流數(shù)據(jù)和人行天橋數(shù)據(jù)。
3.2 GPS數(shù)據(jù)和路網(wǎng)數(shù)據(jù)匹配
由于數(shù)據(jù)清洗時剔除了經(jīng)緯度、海拔、空重車和時間的異常數(shù)據(jù)和缺失數(shù)據(jù),以及數(shù)據(jù)提取后,400M的原始數(shù)據(jù)僅剩下8M有用數(shù)據(jù),每輛車的數(shù)據(jù)無法形成軌跡,所以暫時無法使用車輛行駛軌跡和行駛方向等額外信息來進行馬爾科夫模型的處理。本文路網(wǎng)匹配先使用幾何算法中的點到線距離對比的方法,在后續(xù)研究中,加大數(shù)據(jù)量后可實現(xiàn)對車輛行駛軌跡的處理和分析。
使用GIS投影工具、鄰近表工具、連接工具、字符計算器等聯(lián)合處理,來計算每個GPS距離最近道路的距離。在分析過程中,一部分GPS數(shù)據(jù)由于信號定位問題,如圖2所示定位到河流中(圖中金黃色的點為出租車GPS上下客的定位點),其數(shù)據(jù)可以判斷為是不可信的。另一部分的GPS數(shù)據(jù)由于離道路非常遠,如圖3所示其最近道路距離值亦非常大,但是根據(jù)現(xiàn)有的道路數(shù)據(jù),它的計算判斷為準確的。
通過獲取離GPS數(shù)據(jù)點最近的道路,計算GPS數(shù)據(jù)點離道路最近點,求得兩點間的距離。最后,得出出租車用戶上下客空間分布規(guī)律如下圖4所示。
4 GPS數(shù)據(jù)分析應用
近年來,隨著GPS智能終端的普及越來越多的人開始習慣于記錄并分享軌跡日志。基于這些日志可以分析并挖掘出用戶的一些行為特征,從而為用戶提供個性化的基于位置的智能服務(wù),有效地提升和改善用戶的應用體驗。
GPS數(shù)據(jù)的分析與挖掘可以應用到生活的方方面面,可以通過某路段的平均車速監(jiān)測堵車情況;可以為打車平臺對空車進行實時調(diào)度;可以作為城市交通規(guī)劃的重要依據(jù);可以作為出租車公司管理優(yōu)化依據(jù);可以用來分析出行高峰時間段和區(qū)域之間的具體情況;也可結(jié)合消費行業(yè)分析客戶喜好,從而可作為出行規(guī)劃和選址的依據(jù)。
本文通過MATLAB對綿陽出租車GPS數(shù)據(jù)的算法分析,得出城市出租車上下客點時空分布規(guī)律。在后續(xù)研究中,將分析出本市居民和外來游客的出行特征、興趣喜好和生活方式等,再結(jié)合GIS地圖匹配,分析得出優(yōu)秀商家、景點、醫(yī)療教育等。最后,結(jié)合特殊時段下,出租車輛所在的當前區(qū)域內(nèi),合適的優(yōu)質(zhì)商家、景點、醫(yī)療教育等各方面信息投放于出租車內(nèi)、頂部和后窗上等位置,推薦給乘客和出行大眾[3]。
(1)對于顧客方便:基于物理位置的廣告,當顧客對廣告內(nèi)容感興趣時,無需多花費考慮的時間,就可以去廣告所展現(xiàn)的地方,體驗相應的服務(wù)。時效性:用戶的行為和興趣都是有時間限制的,一般廣告很多人第一眼看到感興趣時想要前往的概率是非常大的,可前往距離太遠當時并沒有時間,想著有時間再去,但是很多時候都會忘記。
(2)由于所推薦的廣告并不是店家投放,而是由數(shù)據(jù)分析得出,避免了粗制濫造,優(yōu)化了顧客選擇體驗。
5 結(jié)語
本文利用城市出租車GPS軌跡數(shù)據(jù)的可視化分析,得到城市出行的規(guī)律和需求,并結(jié)合乘客和出行大眾的需求,提出了出租車GPS數(shù)據(jù)可視化分析對出租車精準廣告服務(wù)的基礎(chǔ)性和重要性,從而為城市出行提供更優(yōu)質(zhì)的服務(wù)和體驗。
參考文獻
[1] 何雯,李德毅,安利峰,等人.基于GPS軌跡的規(guī)律路徑挖掘算法[J].吉林大學學報(工學報).2014(06):1764-1770.
[2] 吳川.出租車車聯(lián)網(wǎng)大數(shù)據(jù)平臺及時空分布態(tài)勢研究[D].山東大學,2017(11).
[3] 江文君.試論出租車大數(shù)據(jù)在城市交通中的應用[J].中國高新區(qū),2017(12):194.
Visualization Analysis of Taxi GPS Data
REN Ya-fei, JIN Rui, MO Jin-liang, LIU Fa-chao
(Sichuan Vocational and Technical College of Communications,Chengdu Sichuan? 611130)
Abstract:This paper extracts analyses and utilizes GPS data of Mianyang taxi from the Chengdu Ketai Science and Technology limited liability company. This paper elaborates the visualization analysis of taxi GPS data based on big data processing.
Key words:Big Data Processing; GIS Map Matching; Taxi GPS Data