• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于高斯混合聚類模型的公交出行特征分析

      2019-08-23 05:34:47黃艷國韓亮張碩許倫輝
      現(xiàn)代電子技術(shù) 2019年16期
      關(guān)鍵詞:數(shù)據(jù)采集聚類分析

      黃艷國 韓亮 張碩 許倫輝

      摘? 要: 針對公交出行特征的傳統(tǒng)數(shù)據(jù)分析方法人工成本大的問題,提出一種基于高斯混合聚類模型的公交出行特征分析方法。以公交IC卡刷卡數(shù)據(jù)、公交運行GPS數(shù)據(jù)及靜態(tài)站點數(shù)據(jù)為基礎(chǔ),建立高斯混合聚類模型,對比節(jié)假日與通勤日公交出行特征差異。最后以深圳市某路公交為實例,仿真結(jié)果表明,節(jié)假日與通勤日公交出行在高峰時段分布與持續(xù)時間上具有顯著差異,驗證了高斯混合聚類模型在交通數(shù)據(jù)分析領(lǐng)域中的有效性,對公交運營與調(diào)度優(yōu)化有一定的借鑒意義。

      關(guān)鍵詞: 公交出行; 出行特征; 高斯混合聚類模型; 數(shù)據(jù)采集; 模型驗證; 聚類分析

      中圖分類號: TN919?34; U491.1+7? ? ? ? ? ? ? ? ? ?文獻標識碼: A? ? ? ? ? ? ? ? ? ?文章編號: 1004?373X(2019)16?0174?05

      0? 引? 言

      公交作為地面上主要的公共交通方式,在分擔(dān)城市交通壓力方面不可或缺。物聯(lián)網(wǎng)等技術(shù)的發(fā)展,使交通數(shù)據(jù)呈現(xiàn)4V特征,傳統(tǒng)的數(shù)據(jù)分析方法在處理這些海量數(shù)據(jù)時,往往會出現(xiàn)處理速度慢、精度低、人工成本大的問題。為應(yīng)對這種情況,專家學(xué)者開始對大數(shù)據(jù)技術(shù)進行深入的研究與探討,與它相關(guān)的各種關(guān)鍵技術(shù)也都隨著研究的深入日漸成熟。通過這些關(guān)鍵技術(shù),給公交的相關(guān)研究方向提供了便利,公交出行特征分析就是其中之一。隨著公交都市的不斷推進,對公交出行特征研究取得了不少成果。如文獻[1?2]采用問卷調(diào)查的形式采集居民出行數(shù)據(jù)并建立公交出行預(yù)測模型;文獻[3?4]利用乘客上下公交產(chǎn)生的刷卡數(shù)據(jù)分析公交出行行為;文獻[5?6]通過建立公交選擇行為模型,對比分析公共交通與非公共交通出行行為差異;隨著部分城市快速公交專用通道的建設(shè),文獻[7?8]重點對快速公交的出行特征進行分析;不少學(xué)者也將近年來比較熱門的大數(shù)據(jù)技術(shù)與公交出行特征結(jié)合分析,文獻[9?10]基于大數(shù)據(jù)與云計算平臺對海量的公交OD數(shù)據(jù)進行采集與分析,較為準確且高效地推算出公交乘客上下車站點。

      但多數(shù)研究主要集中于公交出行特征的整體性分析,對不同影響因素下,如節(jié)假日與通勤日公交出行特征的差異性分析較為缺乏。本文使用高斯混合聚類算法對節(jié)假日與通勤日的公交出行特征進行差異化分析,以求更充分地分析公交出行特征。

      1? 數(shù)據(jù)采集與預(yù)處理

      1.1? 數(shù)據(jù)采集

      本文使用的數(shù)據(jù)集包括公交IC卡數(shù)據(jù)、公交運行GPS數(shù)據(jù)和靜態(tài)站點數(shù)據(jù)。公交IC卡數(shù)據(jù)記錄的信息包括ID卡號、時間日期、車輛編號等,不過由于公交支付方式的多樣化,導(dǎo)致IC卡數(shù)據(jù)不能涵蓋所有乘客的出行信息。為避免信息的丟失與分析結(jié)果的片面性,本文加入公交GPS數(shù)據(jù)作為補充,靜態(tài)站點數(shù)據(jù)的采集則方便了GPS數(shù)據(jù)的匹配。

      1.2? 數(shù)據(jù)預(yù)處理

      因為數(shù)據(jù)源具有多樣性,以及由于干擾、冗余和一致性因素的影響的數(shù)據(jù)集具有不同的質(zhì)量,所以在大數(shù)據(jù)系統(tǒng)中需要數(shù)據(jù)預(yù)處理技術(shù)提高數(shù)據(jù)的質(zhì)量[11]。預(yù)處理步驟包括數(shù)據(jù)清洗與數(shù)據(jù)融合。數(shù)據(jù)清洗包括價值信息篩選、統(tǒng)一格式、錯誤數(shù)據(jù)清洗、缺失數(shù)據(jù)。

      1) 價值信息篩選。原始數(shù)據(jù)信息駁雜,只需將需要的字段數(shù)據(jù)篩選出來。經(jīng)篩選后,IC卡數(shù)據(jù)所保留的字段包含ID卡號、刷卡時間、車輛編號、線路編號;公交GPS數(shù)據(jù)所保留的字段包含經(jīng)緯度、車輛編號、線路編號、方向、車速、信號時間;靜態(tài)站點數(shù)據(jù)保留字段站點經(jīng)緯度、站點編號、站間距離。

      2) 統(tǒng)一格式。GPS數(shù)據(jù)的儲存一般經(jīng)過加密,需對相關(guān)字段的格式進行統(tǒng)一,最終得到結(jié)果如表1所示。

      3) 錯誤數(shù)據(jù)清洗。錯誤數(shù)據(jù)也包括重復(fù)數(shù)據(jù),錯誤數(shù)據(jù)可通過設(shè)置閾值的方式進行篩選剔除,重復(fù)數(shù)據(jù)則是由于系統(tǒng)故障導(dǎo)致數(shù)據(jù)重復(fù)傳輸,使用SQL數(shù)據(jù)庫語言對數(shù)據(jù)進行唯一性篩選。

      4) 缺失數(shù)據(jù)一般是信號被遮擋或設(shè)備故障導(dǎo)致,由于缺失的數(shù)據(jù)可能對數(shù)據(jù)的特征有著重要的描述作用,直接刪除會影響數(shù)據(jù)的分析結(jié)果。本文采用TDI算法[12](基于塔克分解的插補算法)對缺失數(shù)據(jù)進行估算還原,算法描述如下:

      輸入:[A](丟失的數(shù)據(jù)),[w](非負權(quán)重),公差[ε], 最大迭代次數(shù)[kmax];

      輸出:估計值[A′];

      初始化正交因子矩陣([X0,Y0,Z0]);

      For [k=0,1,2,…,kmax] do:

      計算[γ=B2],[B=w?A];? ? ? ? ? ? ? ? ? ? ? ? //[B]為三階張量

      計算[C=w?(S×1X×2Y×3Z)];? ? ? ? ? ? ? ? ? ? ? //[S]為核心張量

      do

      [f=0.5γ-B,C+0.5C2];

      [wk=gradF(xk)];

      If [B-Cw/Bw<ε],then break

      End for

      計算估計值[A′=Sk×1Xk×2Yk×3Zk]

      數(shù)據(jù)融合是獲取到的IC卡數(shù)據(jù)和GPS數(shù)據(jù)存在相同字段,將兩組數(shù)據(jù)按照相同的字段進行融合得到統(tǒng)一數(shù)據(jù)源。

      2? 公交出行時空特征分析

      本文以2018年3月20日—4月12日深圳113路公交上行線(長嶺東總站—蛇口總站)運行數(shù)據(jù)為例,探究公交出行特征。113路公交主要運行區(qū)域位于深圳深南大道,深南大道是深圳一條重要的主干道,為確保數(shù)據(jù)更具有代表性,選取位于深南大道的運行區(qū)間(門診部②—深大本門②)為研究范圍。主要數(shù)據(jù)集經(jīng)清洗后得到公交GPS數(shù)據(jù)63 430條、IC卡數(shù)據(jù)154 231條,其中節(jié)假日數(shù)據(jù)包括公交GPS數(shù)據(jù)7 360條、IC卡數(shù)據(jù)12 357條。

      2.1? 公交出行量時間分布

      為了研究公交出行時間域的分布情況,將時間進行離散化,即將6:00—22:00共16 h以15 min為間隔進行劃分,記為[i],[i∈{0,1,2,…,64}]。按照IC卡的刷卡時間標記所處時間段,按照日期分為節(jié)假日、通勤日、周末三種類型,記為[j],[j∈節(jié)假日,通勤日,周末]。則每種類型在一天各個時段內(nèi)的公交平均出行量表示為:

      [Kji=j=1DjMjilDj] (1)

      式中:[Mjil]為[j]類型第[l]天第[i]時段的公交出行量;[Dj]為[j]類型發(fā)生的天數(shù);[l={1,2,…,Dj}]。

      當日公交出行總量為:

      [Kj=i=064Kji] (2)

      各時段出行比例為:

      [Nji=KjiKj×100 %] (3)

      最終得到三種類型下分時段公交出行量占當天總出行量的比例,如圖1所示。

      從圖1可看出,節(jié)假日乘客公交出行行為主要集中在上午,早高峰時段為9:00—9:30,晚高峰時段集中在18:00—18:30;通勤日的公交出行行為在一天內(nèi)分布較為均勻,早高峰要比節(jié)假日的早高峰提前45 min左右,晚高峰出現(xiàn)時段與節(jié)假日基本一致,但持續(xù)時間較節(jié)假日要長30 min左右;相比于節(jié)假日,周末公交出行的差異性較小,總體趨勢較為相近,差異主要是早高峰比節(jié)假日要早1 h左右,晚高峰晚15 min左右且持續(xù)時間較短。

      2.2? 公交出行量站點分布

      公交的運行線路所經(jīng)過的各個站點,因為地理位置的不同,所具有的載客特征也不同。本文對每個站點的公交出行量進行統(tǒng)計,得到該站點出行量占全站點總出行量比例,結(jié)果如圖2所示。

      由圖2可以看出,部分站點的乘客出行量在三種類型影響下存在一定的差異性,如第4站點在通勤日的乘客出行比例最高,節(jié)假日的出行比例最低;而第17站點節(jié)假日出行比例最高,通勤日出行比例最低。

      圖2? 公交出行量比例隨站點分布

      Fig. 2? Distribution of bus travel volume

      proportion with its station location

      3? 公交出行特征聚類分析

      數(shù)據(jù)聚類分析是尋找數(shù)據(jù)之間一種內(nèi)在結(jié)構(gòu)的技術(shù),可以將全體數(shù)據(jù)按相似的屬性分為不同的簇類。本文通過對數(shù)據(jù)進行聚類分析,探究公交出行的獨特屬性。

      目前,聚類分析中常用的分析算法有Apriori算法[13]、神經(jīng)網(wǎng)絡(luò)算法、DBSCAN算法[14]、遺傳算法、K?means算法等,但在對交通數(shù)據(jù)的分析中發(fā)現(xiàn),交通數(shù)據(jù)類數(shù)據(jù)分布具有一定的高斯分布。因此本文引入高斯混合模型聚類算法[15](Gaussian Mixture Model,GMM)作為數(shù)據(jù)聚類分析算法。

      3.1? 高斯混合聚類模型

      假設(shè)一天各時段公交出行量為[xi](i=1,2,…,65),則高斯混合模型可表示為:

      [p(x)=k=1KπkN(xkμk,Σk)] (4)

      高斯混合模型中有三個參數(shù)需要估計,分別為[π],[μ]和[Σ],式(4)可化為:

      [p(xπ,μ,Σ)=k=1KπkN(xμk,Σk)] (5)

      最常用的參數(shù)估計算法是最大似然法(EM)。

      算法步驟如下:

      1) 指定[π],[μ]和[Σ]的初始值。

      2) 計算后驗概率[γ(znk)]:

      [γ(znk)=πkN(x|μk,Σk)j=1KπjN(x|μj,Σj)] (6)

      3) 求解[μk]的最大似然函數(shù):

      [μk=1Nkn=1Nγ(znk)xn] (7)

      4) 求[Σk]的最大似然值:

      [Σk=1Nkn=1Nγ(znk)(xn-μk)(xn-μk)T] (8)

      5) 求解[πk]的最大似然函數(shù)

      [πk=NkN] (9)

      6) 循環(huán)重復(fù)計算步驟2)~5),直至算法收斂。

      3.2? 分析結(jié)果

      本文通過Matlab軟件平臺,對節(jié)假日和通勤日一天各時段公交出行量進行聚類仿真實驗。仿真結(jié)果如圖3、圖4所示。

      圖3? 節(jié)假日公交出行量聚類

      Fig. 3? Clustering of bus trip volume on holidays

      圖4? 通勤日公交出行量聚類

      Fig. 4? Clustering of bus trip volume on commuting days

      通過比較AIC(赤池信息量)準則,最終將節(jié)假日數(shù)據(jù)分為三個簇類,AIC最小值為935.3,通勤日數(shù)據(jù)也分為三個簇類,AIC最小值為910.9。

      對比上述的聚類結(jié)果圖,可知節(jié)假日與通勤日一天各時段公交出行量在聚類時,都被分為三個簇類,這三類分別代表早高峰、午平峰、晚高峰。但從結(jié)果來看,節(jié)假日與通勤日的出行時段差異十分明顯,主要差異表現(xiàn)在:節(jié)假日公交出行早晚高峰出現(xiàn)較晚且持續(xù)時間較長,午平峰較短且整體趨勢處于下降趨勢;通勤日公交出行早晚高峰出現(xiàn)較早且持續(xù)時間更短,午平峰一直保持持續(xù)增長的趨勢直到晚高峰到來。

      3.3? 算法對比

      為凸顯GMM算法的有效性,現(xiàn)與K?means聚類算法結(jié)果進行比較,以通勤日數(shù)據(jù)為例,K?means的仿真結(jié)果如圖5所示。結(jié)果顯示K?means也將數(shù)據(jù)分為三個簇類,不過分類依據(jù)是根據(jù)出行量,分類的差異性較大且特征不夠明顯。由此可見,GMM算法在聚類結(jié)果的準確性以及魯棒性方面要優(yōu)于K?means算法,證明了GMM算法在本文的數(shù)據(jù)挖掘方面的有效性。

      4? 結(jié)? 論

      本文基于公交IC卡數(shù)據(jù)、公交GPS數(shù)據(jù)、靜態(tài)站點數(shù)據(jù),以深圳113路公交為例,通過高斯混合聚類模型對公交出行的時空分布特征進行了相關(guān)研究。研究結(jié)果顯示,節(jié)假日與通勤日公交出行具有鮮明的特征差異,證明高斯混合聚類模型在交通數(shù)據(jù)分析領(lǐng)域的有效性,對相關(guān)公交調(diào)度優(yōu)化研究有一定的參考價值。但因受限于數(shù)據(jù)量,本文的分析結(jié)果可能存在一定的誤差,后續(xù)增加數(shù)據(jù)量之后再進行更深入的研究。

      參考文獻

      [1] 劉嶄,高璇.基于非集計模型的公交出行選擇預(yù)測模型[J].公路,2010(5):135?139.

      LIU Zhan, GAO Xuan. Bus travel prediction model based on non?aggregate model [J]. Highway, 2010(5): 135?139.

      [2] 周雪梅,張顯尊,楊曉光.基于交通方式選擇的公交出行需求預(yù)測[J].同濟大學(xué)學(xué)報(自然科學(xué)版),2007,35(12):1627?1631.

      ZHOU Xuemei, ZHANG Xianzun, YANG Xiaoguang. Travel mode choice?based prediction of public transit demand [J]. Journal of Tongji University (Natural Science), 2007, 35(12): 1627?1631.

      [3] 龍瀛,張宇,崔承印.利用公交刷卡數(shù)據(jù)分析北京職住關(guān)系和通勤出行[J].地理學(xué)報,2012,67(10):1339?1352.

      LONG Ying, ZHANG Yu, CUI Chengyin. Identifying commuting pattern of Beijing using bus smart card data [J]. Acta geographica sinica, 2012, 67(10): 1339?1352.

      [4] ZHOU Y Y, YAO L, JIANG Y, et al. GIS?based commute analysis using smart card data: a case study of multi?mode public transport for smart city [C]// Proceedings of 3rd International Conference on Geo?Informatics in Resource Management and Sustainable Ecosystem. Wuhan: Springer, 2015: 83?94.

      [5] 殷煥煥,武平,趙紅征.城市公共交通出行方式選擇行為研究[J].武漢理工大學(xué)學(xué)報(交通科學(xué)與工程版),2013,37(2): 352?356.

      YIN Huanhuan, WU Ping, ZHAO Hongzheng. Study of public transit travel mode choice behavior [J]. Journal of Wuhan University of Technology (Transportation science & engineering), 2013, 37(2): 352?356.

      [6] 嚴海,王熙蕊,梁文博,等.基于結(jié)構(gòu)方程模型的通勤交通方式選擇[J].北京工業(yè)大學(xué)學(xué)報,2015,41(4):590?596.

      YAN Hai, WANG Xirui, LIANG Wenbo, et al. Commute traffic mode choice based on structural equation model [J]. Journal of Beijing University of Technology, 2015, 41(4): 590?596.

      [7] 蔡志理,邴其春.同線路BRT與常規(guī)公交速度特性對比分析[J].武漢理工大學(xué)學(xué)報(交通科學(xué)與工程版),2012,36(5): 916?921.

      CAI Zhili, BING Qichun. Comparative analysis on speed characteristics between BRT and normal bus transit on same line [J]. Wuhan University of Technology (Transportation science & engineering), 2012, 36(5): 916?921.

      [8] 武鈞,霍月英.快速公交乘客滿意度影響因素的定量研究[J].計算機工程與應(yīng)用,2015,51(21):219?224.

      WU Jun, HUO Yueying. Quantitative study on effect factors of passenger satisfaction for BRT [J]. Computer engineering and applications, 2015, 51(21): 219?224.

      [9] 鄔群勇,蘇克云,鄒智杰.基于MapReduce的海量公交乘客OD并行推算方法[J].地球信息科學(xué)學(xué)報2018(5):647?655.

      WU Qunyong, SU Keyun, ZOU Zhijie. A MapReduce?based method for parallel calculation of bus passenger origin and destination from massive transit data [J]. Journal of geo?information science, 2018(5): 647?655.

      [10] 孫慈嘉,李嘉偉,凌興宏.基于云計算的公交OD矩陣構(gòu)建方法[J].江蘇大學(xué)學(xué)報(自然科學(xué)版),2016,37(4):456?461.

      SUN Cijia, LI Jiawei, LING Xinghong. Estimation of bus origin?destination matrix based on cloud computing [J]. Journal of Jiangsu University (Natural science edition), 2016, 37(4): 456?461.

      [11] 李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015,45(1):1?44.

      LI Xuelong, GONG Haigang. A Survey on big data systems [J]. Scientia sinica informationis, 2015, 45(1): 1?44.

      [12] TAN H, FENG G, FENG J, et al. A tensor?based method for missing traffic data completion [J]. Transportation research, Part C: emerging technologies, 2013, 28: 15?27.

      [13] 張鑫,陳燕,李桃迎.基于 Apriori算法的經(jīng)濟指標關(guān)聯(lián)分析[J].科學(xué)技術(shù)與工程,2016,16(8):233?237.

      ZHANG Xin, CHEN Yan, LI Taoying. The associational analysis of economic indexes based on Apriori algorithm [J]. Science technology and engineering, 2016, 16(8): 233?237.

      [14] 姜洪權(quán),王崗,高建民,等.一種適用于高維非線性特征數(shù)據(jù)的聚類算法及應(yīng)用[J].西安交通大學(xué)學(xué)報,2017(12):1?8.

      JIANG Hongquan, WANG Gang, GAO Jianmin, et al. A clustering algorithm for high?dimensional nonlinear feature data with applications [J]. Journal of Xian Jiaotong University, 2017(12): 1?8.

      [15] 高菲菲.基于Gabor特征分解的高斯混合非線性濾波算法[J].科技通報,2015,31(12):88?90.

      GAO Feifei. Gauss hybrid nonlinear filter design based on Gabor feature decomposition [J]. Bulletin of science and technology, 2015, 31(12): 88?90.

      猜你喜歡
      數(shù)據(jù)采集聚類分析
      基于聚類分析研究貴州省各地區(qū)經(jīng)濟發(fā)展綜合評價
      商情(2016年39期)2016-11-21 08:45:54
      新媒體用戶行為模式分析
      農(nóng)村居民家庭人均生活消費支出分析
      CS5463在植栽用電子鎮(zhèn)流器老化監(jiān)控系統(tǒng)中的應(yīng)用
      大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
      科技視界(2016年18期)2016-11-03 22:51:40
      鐵路客流時空分布研究綜述
      基于廣播模式的數(shù)據(jù)實時采集與處理系統(tǒng)
      軟件工程(2016年8期)2016-10-25 15:54:18
      通用Web表單數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
      軟件工程(2016年8期)2016-10-25 15:52:53
      基于省會城市經(jīng)濟發(fā)展程度的實證分析
      中國市場(2016年33期)2016-10-18 12:16:58
      基于開源系統(tǒng)的綜合業(yè)務(wù)數(shù)據(jù)采集系統(tǒng)的開發(fā)研究
      南京市| 丰都县| 广平县| 特克斯县| 新平| 保德县| 肃北| 双城市| 南丹县| 镇沅| 营口市| 彭州市| 通道| 湖口县| 珠海市| 铜陵市| 新竹市| 栾城县| 新密市| 商都县| 鹤山市| 浠水县| 浦北县| 鹤壁市| 东莞市| 深水埗区| 台北县| 福贡县| 连云港市| 大田县| 库伦旗| 印江| 屏边| 札达县| 正镶白旗| 合作市| 清丰县| 瑞金市| 台中县| 长岭县| 利川市|