姚遠(yuǎn) 陳瑜 雷怡
【摘 要】本文提出了一種利用手機(jī)大數(shù)據(jù)進(jìn)行換乘客流挖掘的方法。本方法考慮了地鐵網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu),結(jié)合圖論相關(guān)原理,闡釋了地鐵出行路徑的識別算法。最后以上海曹楊路-漕河涇區(qū)段為例,通過志愿者調(diào)查系統(tǒng)進(jìn)行了換乘數(shù)據(jù)驗(yàn)證。結(jié)果證明,此方法得出的換乘量與實(shí)際換乘量偏差較小。
【關(guān)鍵字】手機(jī)大數(shù)據(jù);地鐵換乘客流
中圖分類號: U293.13 文獻(xiàn)標(biāo)識碼: A 文章編號: 2095-2457(2018)18-0001-002
DOI:10.19694/j.cnki.issn2095-2457.2018.18.001
【Abstract】Therefore,in this paper a method of mining transfer passenger flow base on big data of mobile is presented.It has taken into account topology structure of metro transit network combine with necessary knowledge of graph theory,expounding identification algorithm of trip route in metro network.At last,paper takes the sector between Caoyang Road and Caohejing as an example,verifying transfer data by volunteer investigation system.The results show that the method has a good performance in illustrating the actual transfer passenger flow.
【Key words】Big data of mobile;Metro transfer passenger flow
1 研究背景
無論地鐵人流誘導(dǎo)、應(yīng)急管理還是票務(wù)清分業(yè)務(wù),地鐵換乘客流都是一個(gè)及其重要的指標(biāo)。地鐵運(yùn)營管理公司廣泛采用自動(dòng)售票檢票(Automated Fare Collection,AFC),可以獲取出行的起訖點(diǎn)(Origin-Destination,OD),但無法直接獲取出行者在地鐵網(wǎng)的出行路徑。有學(xué)者嘗試用AFC數(shù)據(jù)進(jìn)行推算,研究思路主要有:(1)最短路徑法,即最短路徑上客流按100%分配。但實(shí)際出行者中的路徑選擇并非完全按最短路。(2)建立路徑選擇模型,如Logit模型。(3)設(shè)置路徑阻抗,如出行時(shí)間,出行費(fèi)用等等,進(jìn)而影響路選擇。(4)將乘客進(jìn)出站時(shí)間與列車到發(fā)時(shí)刻進(jìn)行關(guān)聯(lián),當(dāng)兩者在一定時(shí)間范圍內(nèi),則認(rèn)為該路徑是乘客所選路徑。然而,這些方法均是通過理論推算出來的,因模型而異都有較大的誤差。
另一方面,隨著手機(jī)使用的普及和基于個(gè)體的手機(jī)大數(shù)據(jù)客流挖掘技術(shù)的不斷完善,使用原汁原味的檢測數(shù)據(jù)直接獲取換乘客流成為了可能。本文利用移動(dòng)通信定位原理,通過分析地鐵系統(tǒng)內(nèi)部的手機(jī)大數(shù)據(jù),匹配拓?fù)渎肪W(wǎng)接口,從而挖掘出關(guān)鍵節(jié)點(diǎn)的換乘量。
2 研究方法
2.1 手機(jī)大數(shù)據(jù)與站點(diǎn)線路匹配
2.1.1 線路編碼
為便于計(jì)算機(jī)的識別和運(yùn)算,本研究對線路和站點(diǎn)進(jìn)行了編碼,以表達(dá)站點(diǎn)之間的相對位置以及線路之間的換乘關(guān)系。
(1)線路編號:線路編號沿用原軌道交通線路的編號進(jìn)行,對于非數(shù)字編號的線路以及Y型線路的一支,使用未被占用的線路數(shù)字作為線路編號。
(2)站點(diǎn)編號:按照由西北到東南的總體方向,對站點(diǎn)進(jìn)行逐一累加編號,例如1號線的第一個(gè)站點(diǎn)編號為101,逐次為102,103,……。
(3)換乘站點(diǎn)編號:給所有的換乘站點(diǎn)一個(gè)新的“線路”號碼,并逐一給予新的站點(diǎn)號碼。例如1號線的106站點(diǎn)與7號線的717站點(diǎn)為相同站點(diǎn),因此給予其新的編號1301。在以站點(diǎn)為分析對象時(shí),換乘站點(diǎn)使用統(tǒng)一的換乘站點(diǎn)編號,在以線路為研究對象時(shí),換乘站點(diǎn)使用其所在線路的編號。
2.1.2 站點(diǎn)基站信息匹配
調(diào)查方法是使用工程測試手機(jī),記錄蜂窩小區(qū)識別碼。調(diào)查的位置包括地下站點(diǎn)的站廳、站臺、通道、出入口等空間的地下位置區(qū)的蜂窩小區(qū)編號。
具體調(diào)查的方法是,對每條線路乘坐雙向的列車記錄在行車過程中經(jīng)歷的所有蜂窩小區(qū)。對每個(gè)站點(diǎn),從站臺出發(fā)步行至每個(gè)站點(diǎn)的出入口處,記錄所有經(jīng)歷的蜂窩小區(qū)。
按照位置區(qū)編碼與蜂窩小區(qū)編碼構(gòu)成的蜂窩小區(qū)識別碼對地鐵基站地理位置信息進(jìn)行匹配,匹配站點(diǎn)和線路信息。匹配方案如下:調(diào)查表中未涉及的蜂窩小區(qū)站點(diǎn)編號與線路編號為0。對調(diào)查涉及的所有蜂窩小區(qū),站點(diǎn)列匹配站點(diǎn)編號,換乘站點(diǎn)編號使用“13”開頭的換乘站點(diǎn)專用編號;線路列匹配當(dāng)前位置區(qū)所對應(yīng)的地下線路編號,出入口地面基站的線路列線路編號為0。經(jīng)過該匹配過程樣本數(shù)據(jù)包含以下有效字段:用戶MSID,信令時(shí)間,位置區(qū)編碼,小區(qū)編碼,事件原因,經(jīng)度,緯度,站點(diǎn),線路。因此完整的單條信令記錄Mi=(MSID,time,LAC,cellID,EVENTID,Lo,La,S,L)。
2.2 地鐵出行路徑識別
2.2.1 問題描述
假設(shè)地鐵某段拓?fù)鋱D為:有軌交三條線l1、l2和l3,能相互換乘,換乘點(diǎn)分別為b(l1-l2)、f(l2-l3)、d(l1-l3),a為起點(diǎn),e為終點(diǎn),a-b-c-d-e為站點(diǎn)序列,均在l1上。
手機(jī)用戶在a點(diǎn)進(jìn)站,e點(diǎn)出站。為簡化說明,設(shè)abcdef即為MAZ又為地鐵站點(diǎn)。
(1)如果在c點(diǎn)留下信令,需要判定該用戶路徑為abcde;
(2)如果在f點(diǎn)留下信令,需要判定該用戶路徑為abfde;
(3)如果該用戶沒有在ae間留下任何信令,則為程序按最短路徑判斷,過濾該條信令。
統(tǒng)計(jì)多天(1)和(2)情況下的數(shù)量,給出各路徑的分流比例。
2.2.2 算法
步驟1.在城市整個(gè)地鐵拓?fù)鋱D中查找最小環(huán),假設(shè)拓?fù)鋱D中為bcdf.
步驟2.給出環(huán)中元素(m)中取兩個(gè)元素的排列:P (m,2)
b-d:bfd
b-d:bcd
b-c:bfdc
b-c:bc
步驟3.在現(xiàn)有地鐵用戶乘坐路徑中標(biāo)記有實(shí)際信令發(fā)生的站點(diǎn)對于問題描述中的(1),(2)分別為:
(1)[a] b [c] d [e]
(2)[a] b [f] d [e]
其中[]包裹的是實(shí)際發(fā)生信令的站點(diǎn)
將該鏈表的子段與排列列表中每條記錄采用貪婪算法進(jìn)行匹配,若匹配且該記錄的中間節(jié)點(diǎn)有標(biāo)記,則計(jì)入,否則忽略。
步驟4.輸出為:O_station,D_station,[candidate path], vol
每月更新一次,candidate path 用排列中的每條記錄表示。
2.2.3 實(shí)現(xiàn)
步驟1.第一階段先手動(dòng)給出最小環(huán)上的站點(diǎn)對應(yīng)的序列,如M1,M2,…,Mi,…,Mn,錄入metro_diverter.conf,每行一條環(huán)。
步驟2.p.genRideCandidates(…)處標(biāo)記實(shí)際發(fā)生信令的MAZ。對于分流情況存入路徑/${city}/metro_diverter/yyyy/MM/dd。格式為:msid,flagged_path
步驟3.另起一個(gè)app,MetroDiverter,從站點(diǎn)基礎(chǔ)表中獲取Station_i到MAZ的關(guān)系(可能為一對多)。目前這條不需要做,metro_diverter.conf直接用MAZ序列測試算法。初始化排列匹配List,元素為RegExp。排列的參考數(shù)據(jù)結(jié)構(gòu)為:
b-d:(b1|b2),(f1|f2),(d1|d2)考慮換乘后為(b1|b2)(,(b1|b2)){0,1},(f1|f2)(,(f1|f2)){0,1},(d1|d2)(,(d1|d2)){0,1}b-d:(b1|b2),c,(d1|d2)
讀取一個(gè)月的/${city}/metro_diverter/yyyy/MM數(shù)據(jù),輸出貪婪匹配成功的記錄,路徑/${city}/metro_diverter_stats/yyyy/MM。
格式為:O_station,D_station,vol,candidate_path candidate path中的元素由MAZ換為StationID以增加可讀性。
步驟4.如果結(jié)果可用則,在metro站點(diǎn)間OD中使用各支路比例擴(kuò)樣。
3 案例情況
由上海嘉定區(qū)、普陀區(qū)前往徐匯區(qū)的漕河涇開發(fā)區(qū)站有兩條線路。
(1)一直乘坐11號線,曹楊路-隆德路-江蘇路-交通大學(xué)-徐家匯,換乘9號線,徐家匯-宜山路-桂林路-漕河涇開發(fā)區(qū)。
(2)乘坐至曹楊路,換乘3、4號線,曹楊路-金沙江路-中山公園-延安西路-虹橋路-宜山路,換乘9號線,宜山路-桂林路-漕河涇開發(fā)區(qū)。
一般來說,大部分乘客會(huì)選擇1號線路,但是1號線路客流大,乘坐舒適度差,故有部分乘客還是會(huì)選擇2號線路以替代。
4 結(jié)果比對
2017年4月10日-4月23日選取了355位由嘉定去往漕河涇開發(fā)區(qū)的志愿者,利用上海美慧軟件公司自行研發(fā)的手機(jī)大數(shù)據(jù)調(diào)查志愿者信息采集系統(tǒng),一方面接收志愿者反饋的實(shí)際地鐵出行路徑,一方面以將志愿者標(biāo)識和手機(jī)大數(shù)據(jù)的MSID進(jìn)行關(guān)聯(lián),依據(jù)上述算法進(jìn)行路徑識別。
得到結(jié)果如下(單位:人次):
由此可見,由于信號的丟失,在絕對量上的檢測誤差率較大,但在相對的路徑選擇比上,此算法具有較高的識別率。
5 展望
由于手機(jī)信令存在著“乒乓切換”現(xiàn)象,所以會(huì)出現(xiàn)基站誤檢,生成大量的噪聲數(shù)據(jù),應(yīng)采用合理的預(yù)處理手段進(jìn)行清洗。同時(shí),可以結(jié)合其他的一些換乘客流檢測手段,如智能視頻、WiFi等,進(jìn)行數(shù)據(jù)源的補(bǔ)充,取長補(bǔ)短,有機(jī)融合,提高地鐵出行換乘客流的識別準(zhǔn)確度。
【參考文獻(xiàn)】
[1]蒲一超,尹梅枝,朱瓊斯,許項(xiàng)東,顏奮帆.基于手機(jī)數(shù)據(jù)的地鐵線網(wǎng)清分模型驗(yàn)證與優(yōu)化[J].都市快軌交通,2017,30(04):102-109.