陳 歡,薛美根
(上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院,上海200040)
大數(shù)據(jù)環(huán)境下上海市綜合交通特征分析
陳 歡,薛美根
(上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院,上海200040)
20世紀(jì)80年代上海市已經(jīng)開(kāi)始建設(shè)智能交通系統(tǒng),開(kāi)展交通數(shù)據(jù)采集工作。歷經(jīng)2010年世博會(huì),上海市交通信息化快速發(fā)展,交通大數(shù)據(jù)的種類(lèi)越來(lái)越多,為基于大數(shù)據(jù)挖掘的綜合交通調(diào)查與分析提供了良好的基礎(chǔ)條件?;?014年上海市第五次綜合交通調(diào)查結(jié)果,綜述上海市交通大數(shù)據(jù)資源現(xiàn)狀和基于大數(shù)據(jù)的城市綜合交通特征挖掘分析技術(shù)方法及主要成果。提出進(jìn)一步拓展運(yùn)用大數(shù)據(jù)分析城市綜合交通特征的應(yīng)用領(lǐng)域、優(yōu)化大數(shù)據(jù)挖掘技術(shù)方法和完善大數(shù)據(jù)采集處理機(jī)制的相關(guān)建議。
綜合交通;大數(shù)據(jù);交通調(diào)查;技術(shù)方法;上海市
隨著道路感應(yīng)線(xiàn)圈、出租汽車(chē)GPS、手機(jī)信令、軌道交通自動(dòng)售檢票等道路交通自動(dòng)采集技術(shù)的逐漸成熟,利用自動(dòng)采集數(shù)據(jù)挖掘城市交通特征已成為一種趨勢(shì)。2010年世博會(huì)后,上海市交通信息化快速發(fā)展,城市交通大數(shù)據(jù)的來(lái)源更多樣、類(lèi)型更豐富、數(shù)據(jù)量更巨大,包括車(chē)牌識(shí)別數(shù)據(jù)、土地利用遙感影像數(shù)據(jù)、移動(dòng)通信數(shù)據(jù)等?;诖髷?shù)據(jù)分析城市綜合交通特征的資源條件日益成熟。2014年,上海市開(kāi)展的第五次綜合交通調(diào)查已經(jīng)廣泛應(yīng)用了新信息技術(shù)調(diào)查手段。新調(diào)查手段不僅繼承了傳統(tǒng)信息挖掘技術(shù),還著重對(duì)新增信息化資源展開(kāi)挖掘,有效彌補(bǔ)了傳統(tǒng)調(diào)查手段的不足,已在某些領(lǐng)域成為主要調(diào)查手段。
上海市交通大數(shù)據(jù)來(lái)源于道路交通、公共交通等交通領(lǐng)域和移動(dòng)通信、土地利用等相關(guān)領(lǐng)域。
1)全市用地?cái)?shù)據(jù)。主要為約23萬(wàn)個(gè)用地單元的用地遙感數(shù)據(jù)(見(jiàn)圖1)和房屋建筑量統(tǒng)計(jì)數(shù)據(jù)庫(kù)。遙感數(shù)據(jù)包括高分辨率航空遙感數(shù)據(jù)、衛(wèi)星遙感影像、全市分類(lèi)土地利用數(shù)據(jù)庫(kù)。房屋建筑量統(tǒng)計(jì)數(shù)據(jù)包括單體建筑名稱(chēng)、占地面積、層數(shù)、坐落地址、房屋類(lèi)型等建筑屬性信息。這些數(shù)據(jù)主要用來(lái)支撐城市土地利用性質(zhì)、開(kāi)發(fā)強(qiáng)度分析等多種應(yīng)用。
2)移動(dòng)通信數(shù)據(jù)。主要指上海市域調(diào)查時(shí)段內(nèi)出現(xiàn)過(guò)的移動(dòng)手機(jī)用戶(hù)(包括本地及漫游)信令數(shù)據(jù),包括短信、通話(huà)、LAC區(qū)(位置區(qū),通常包含多個(gè)基站蜂窩小區(qū))切換或每隔1~2 h定時(shí)與基站通訊的記錄。經(jīng)檢測(cè),出現(xiàn)在上海市域的日均手機(jī)用戶(hù)規(guī)模約1 800萬(wàn)個(gè),平均每個(gè)用戶(hù)一天的軌跡點(diǎn)記錄約為60~70條。這些數(shù)據(jù)主要支撐人口、職住分布、潮汐交通特征分析等多種應(yīng)用。
3)車(chē)牌識(shí)別數(shù)據(jù)。上海市車(chē)牌識(shí)別系統(tǒng)覆蓋全部44個(gè)市境出入通道和343個(gè)中心城快速路主要斷面,數(shù)據(jù)內(nèi)容包括車(chē)輛號(hào)牌編碼、牌照類(lèi)型、途經(jīng)時(shí)間、途經(jīng)車(chē)速、車(chē)輛屬地及設(shè)備斷面編號(hào)等,主要支撐出入市境、中心城快速路的車(chē)輛使用特征分析等多種應(yīng)用。
4)高速公路收費(fèi)流水?dāng)?shù)據(jù)。覆蓋上海市域全部104個(gè)主線(xiàn)收費(fèi)站和進(jìn)出匝道收費(fèi)站。數(shù)據(jù)內(nèi)容包括駛?cè)腭傠x收費(fèi)站編號(hào)、車(chē)型、時(shí)間、流量等,主要支撐高速公路車(chē)輛使用特征分析等多種應(yīng)用。
5)運(yùn)營(yíng)車(chē)輛GPS數(shù)據(jù)。包括約2.9萬(wàn)輛出租汽車(chē)、1萬(wàn)輛集裝箱卡車(chē)及普通貨車(chē)的GPS數(shù)據(jù)。數(shù)據(jù)內(nèi)容包括回報(bào)軌跡點(diǎn)位置坐標(biāo)、車(chē)速、空重車(chē)狀態(tài)(出租汽車(chē))等,主要支撐對(duì)道路運(yùn)行車(chē)速、出租汽車(chē)和貨車(chē)出行特征分析等多種應(yīng)用。
6)軌道交通自動(dòng)售檢票系統(tǒng)和交通卡自動(dòng)刷卡計(jì)費(fèi)系統(tǒng)數(shù)據(jù)。前者覆蓋軌道交通全網(wǎng)進(jìn)站、出站閘機(jī)的刷卡數(shù)據(jù),數(shù)據(jù)內(nèi)容包括進(jìn)站和出站的車(chē)站名稱(chēng)、時(shí)間、乘客數(shù)量等,支撐對(duì)軌道交通系統(tǒng)客流分析等多種應(yīng)用。后者全市日均約有400萬(wàn)張、1 000萬(wàn)次刷卡數(shù)據(jù),交通方式覆蓋軌道交通、公共汽(電)車(chē)、出租汽車(chē)及輪渡,數(shù)據(jù)內(nèi)容包括刷卡線(xiàn)路、刷卡時(shí)間、刷卡金額等,主要支撐對(duì)公共交通運(yùn)行及乘客換乘特征分析等多種應(yīng)用。
數(shù)據(jù)挖掘技術(shù)在歷次綜合交通調(diào)查中都有應(yīng)用,但第五次綜合交通調(diào)查在以往調(diào)查和日常工作經(jīng)驗(yàn)的基礎(chǔ)上,充分利用了上海市長(zhǎng)期積累的交通大數(shù)據(jù)資源,特別是更加廣泛地應(yīng)用了城市用地?cái)?shù)據(jù)、移動(dòng)通信數(shù)據(jù),并新增了基于車(chē)牌識(shí)別系統(tǒng)數(shù)據(jù)挖掘的調(diào)查。交通大數(shù)據(jù)挖掘不僅在調(diào)查內(nèi)容上與傳統(tǒng)調(diào)查銜接,也為交通模型進(jìn)行多樣數(shù)據(jù)校核提供輔助。
本次交通大數(shù)據(jù)挖掘?qū)γ宽?xiàng)數(shù)據(jù)源均進(jìn)行了原始數(shù)據(jù)質(zhì)量分析和清洗工作,以保證數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確性,同時(shí)將挖掘結(jié)果與經(jīng)其他渠道統(tǒng)計(jì)調(diào)查所獲得的數(shù)據(jù)進(jìn)行比對(duì),也為驗(yàn)證數(shù)據(jù)挖掘結(jié)果的可靠性、固化數(shù)據(jù)挖掘技術(shù)方法提供了有力支撐。例如,在車(chē)牌識(shí)別數(shù)據(jù)挖掘方面,將市境出入道路關(guān)口識(shí)別數(shù)據(jù)與收費(fèi)數(shù)據(jù)比對(duì),將長(zhǎng)期在滬使用外地號(hào)牌小汽車(chē)規(guī)模挖掘成果與居民出行家訪調(diào)查、夜間停車(chē)調(diào)查、在滬購(gòu)買(mǎi)交通強(qiáng)制險(xiǎn)記錄數(shù)據(jù)進(jìn)行比對(duì);在移動(dòng)通信數(shù)據(jù)挖掘方面,將夜間用戶(hù)分布結(jié)構(gòu)與常住人口普查數(shù)據(jù)比對(duì),將軌道交通系統(tǒng)內(nèi)部乘客換乘特征挖掘成果與軌道交通閘機(jī)及運(yùn)營(yíng)統(tǒng)計(jì)換乘量和線(xiàn)路乘距數(shù)據(jù)比對(duì)等。經(jīng)檢驗(yàn),在城市用地、長(zhǎng)期駐滬外地牌照小客車(chē)總量、軌道交通系統(tǒng)內(nèi)部客流換乘特征、道路交通運(yùn)行車(chē)速等方面,大數(shù)據(jù)挖掘可以成為調(diào)查的主要手段;在分析居民出行方式鏈特征、潮汐交通特征、職住分布特征等方面,大數(shù)據(jù)挖掘是輔助調(diào)查的重要校核手段。
圖1 2013年上海市分類(lèi)遙感用地類(lèi)型Fig.1 2013 Shanghai land use patterns based on Remote Sensing Image
圖2 2013年軌道交通沿線(xiàn)1 km范圍內(nèi)建筑容積率Fig.2 Floor area ratio within 1 km buffer area along railway lines in 2013
圖3 2013年手機(jī)用戶(hù)夜間分布Fig.3 Distribution of mobile phone night users in 2013
通過(guò)內(nèi)業(yè)解譯與外業(yè)采樣核對(duì)相結(jié)合,利用全市用地遙感影像和房屋建筑量統(tǒng)計(jì)數(shù)據(jù)庫(kù)獲得全市用地分類(lèi)和建筑量分布,是土地利用信息獲取的主要途徑。用地?cái)?shù)據(jù)是交通調(diào)查中不可或缺的基礎(chǔ)資料,通過(guò)對(duì)交通相關(guān)用地的遙感數(shù)據(jù)進(jìn)行調(diào)查挖掘,可以掌握最新城市用地布局、土地開(kāi)發(fā)強(qiáng)度及變化趨勢(shì),為評(píng)估用地總量與布局的合理性、優(yōu)化完善交通設(shè)施布局提供定量依據(jù)。利用上海市市域紅外航空遙感影像,按照規(guī)劃用地分類(lèi)標(biāo)準(zhǔn),將用地類(lèi)型解譯細(xì)分至23萬(wàn)個(gè)用地單元(見(jiàn)圖2)。2013年底全市建設(shè)用地2 913 km2,較2008年增長(zhǎng)8%。全市建筑量12億m2,中心城區(qū)建筑量5.7億m2。軌道交通對(duì)城市用地發(fā)展具有一定的引導(dǎo)作用,軌道交通車(chē)站2 km半徑范圍內(nèi)容積率高于其他地區(qū)。以軌道交通1號(hào)線(xiàn)為例,中心城區(qū)、近郊區(qū)車(chē)站2 km范圍內(nèi)平均容積率分別為1.17和0.51,其他區(qū)域平均容積率僅為0.57和0.36[1]。
通過(guò)跟蹤手機(jī)用戶(hù)的移動(dòng)通信數(shù)據(jù),分析日間、夜間手機(jī)用戶(hù)分布規(guī)律性特征,是獲得調(diào)查期實(shí)有人口分布的重要校核數(shù)據(jù)。這項(xiàng)調(diào)查技術(shù)曾嘗試用于近年一些小樣本量調(diào)查,但應(yīng)用于全市性綜合交通調(diào)查尚屬首次,是彌補(bǔ)調(diào)查期實(shí)際人口統(tǒng)計(jì)誤差和輔助校核就業(yè)崗位分布的重要手段。以一定時(shí)間窗內(nèi)上海市域移動(dòng)通信用戶(hù)手機(jī)信號(hào)出現(xiàn)天數(shù)、累計(jì)出現(xiàn)時(shí)長(zhǎng)以及通信信號(hào)出現(xiàn)和消失時(shí)間作為判斷標(biāo)準(zhǔn),研究特定區(qū)域內(nèi)手機(jī)用戶(hù)信號(hào)在不同時(shí)段出現(xiàn)的規(guī)律性特征,進(jìn)而挖掘日間、夜間手機(jī)用戶(hù)的分布情況。據(jù)分析,夜間手機(jī)用戶(hù)分布密度由內(nèi)向外逐漸降低,浦西內(nèi)環(huán)線(xiàn)北段人口最為密集(見(jiàn)圖3)。另外,中心區(qū)日間固定出現(xiàn)的手機(jī)用戶(hù)規(guī)模明顯高于夜間,兩者比值達(dá)1.2~1.4,靜安區(qū)尤為明顯,日間、夜間手機(jī)用戶(hù)比值達(dá)1.5(見(jiàn)圖4)。
在判斷移動(dòng)通信用戶(hù)日間、夜間分布規(guī)律的基礎(chǔ)上,剔除日間、夜間長(zhǎng)時(shí)間停留在同一地點(diǎn)的用戶(hù),進(jìn)而推斷居民通勤出行空間分布特征;同步考慮基站地理空間距離、實(shí)際路徑距離等多重因素,獲取職住出行距離特征指標(biāo)。據(jù)分析,上海市平均通勤出行距離約為8.5 km。郊區(qū)進(jìn)出中心城區(qū)的通勤量占全市通勤出行總量的12%,其中近80%通勤量來(lái)自近郊區(qū)與中心城區(qū)之間。工作人口居住特征以陸家嘴和徐家匯地區(qū)為例,據(jù)統(tǒng)計(jì)約90%的陸家嘴地區(qū)工作人口居住在中心城區(qū),其中居住在浦東的略高于浦西,且主要集中在軌道交通6號(hào)線(xiàn)沿線(xiàn)(見(jiàn)圖5a);約80%的徐家匯地區(qū)工作人口居住在中心城區(qū),其中近90%居住在浦西(見(jiàn)圖5b)。
利用移動(dòng)通信數(shù)據(jù)獲取用戶(hù)出行軌跡是反映人員全方式出行空間分布特征的重要數(shù)據(jù)。傳統(tǒng)調(diào)查一般從系統(tǒng)流量反映某一種方式的潮汐交通特征,如軌道交通客流、道路交通車(chē)流等,利用移動(dòng)通信數(shù)據(jù)可以反映全方式潮汐交通特征。以?xún)?nèi)環(huán)線(xiàn)為例,工作日早高峰時(shí)段進(jìn)出中心城區(qū)斷面的交通需求很不均衡,進(jìn)出比約為1.7(見(jiàn)圖6)。
利用地面和地下、不同軌道交通線(xiàn)路所在移動(dòng)通信LAC區(qū)編碼的唯一性和手機(jī)在跨越LAC區(qū)基站時(shí)必然會(huì)發(fā)生位置信令更新的特性,基于基站和地鐵車(chē)站的對(duì)應(yīng)關(guān)系,可以獲得乘客在軌道交通系統(tǒng)內(nèi)部的路徑信息。以往主要通過(guò)在軌道交通車(chē)站進(jìn)行人工問(wèn)詢(xún)的抽樣調(diào)查方法,本次調(diào)查首次采用移動(dòng)通信數(shù)據(jù)進(jìn)行信息采集,完善了軌道交通系統(tǒng)模型分配算法的重要數(shù)據(jù)資源,使得移動(dòng)通信數(shù)據(jù)作為獲得乘客真實(shí)換乘路徑的主要手段成為現(xiàn)實(shí)。基于上述數(shù)據(jù)也可獲得不同車(chē)站間乘客的路徑分布,以及換乘站分方向、分時(shí)段的客流量。經(jīng)計(jì)算,使用地下軌道交通的移動(dòng)通信用戶(hù)中,只有單一路徑的用戶(hù)和有多路徑選擇的用戶(hù)比例約為6:4(見(jiàn)圖7)。在多路徑選擇情景下,約70%的乘客還是以選擇最短路徑為主。此外,乘坐軌道交通的乘客中,約50%無(wú)須換乘,44%僅需換乘一次(見(jiàn)圖8)。
圖4 2013年手機(jī)用戶(hù)職住比分布Fig.4 Distribution of job-housing rate for mobile phone users in 2013
圖5 特定區(qū)域工作人口居住地分布Fig.5 Residential location distribution of employees at specific areas
圖6 早高峰時(shí)段內(nèi)環(huán)各斷面手機(jī)用戶(hù)進(jìn)出比值Fig.6 Enter-exit ratio of mobile phone users on the inner ring road in the morning peak period
圖7 軌道交通乘客換乘路徑Fig.7 Transfer demand paths of rail transit passengers
圖8 軌道交通乘客換乘次數(shù)Fig.8 Transfer times of rail transit passengers
長(zhǎng)期在滬外地牌照小汽車(chē)總量調(diào)查一直是歷次調(diào)查的難點(diǎn),夜間停車(chē)調(diào)查、居民出行家訪調(diào)查等傳統(tǒng)調(diào)查手段實(shí)施難度大、調(diào)查成本高。本次調(diào)查首次利用車(chē)牌識(shí)別數(shù)據(jù)獲取長(zhǎng)期在上海市使用的外地牌照小汽車(chē)總量。通過(guò)與夜間停放車(chē)調(diào)查數(shù)據(jù)、居民出行調(diào)查數(shù)據(jù)和外地車(chē)輛在滬保險(xiǎn)數(shù)據(jù)相比對(duì),驗(yàn)證了利用車(chē)牌識(shí)別數(shù)據(jù)作為外地牌照小汽車(chē)總量調(diào)查的可靠性。今后可利用牌照數(shù)據(jù)資源,捕捉有進(jìn)出市境道路關(guān)口記錄和使用過(guò)中心城區(qū)快速路的外地號(hào)牌小汽車(chē),綜合考慮累計(jì)在滬及單次在滬停留時(shí)間,判斷是否屬于長(zhǎng)期在滬使用的外地號(hào)牌小汽車(chē)。經(jīng)計(jì)算,2014年上海市實(shí)有小汽車(chē)約320萬(wàn)輛,其中外地號(hào)牌小汽車(chē)近100萬(wàn)輛。
基于牌照識(shí)別設(shè)備的位置特點(diǎn),結(jié)合高速公路收費(fèi)數(shù)據(jù),本次調(diào)查首次以車(chē)牌識(shí)別數(shù)據(jù)取代市境道路關(guān)口人工問(wèn)詢(xún),調(diào)查進(jìn)出市境車(chē)輛在上海市域內(nèi)的出行分布特征。經(jīng)計(jì)算,入境車(chē)輛進(jìn)入上海市郊區(qū)和市區(qū)的比例約為7:3,其中進(jìn)入中心城區(qū)和外圍城區(qū)的比例約為2:8。
此外,本次調(diào)查還首次利用牌照數(shù)據(jù)調(diào)查中心城快速路系統(tǒng)的車(chē)輛使用特征,獲取中心城區(qū)快速路各類(lèi)車(chē)輛的駛?cè)肓?、使用頻率、行駛距離等特征指標(biāo),不同路段車(chē)輛的牌照結(jié)構(gòu)以及車(chē)輛的流向分布(見(jiàn)圖9)。經(jīng)計(jì)算,工作日中心城區(qū)快速路(不含外環(huán)線(xiàn))全日駛?cè)胲?chē)輛中25%為外地牌照,午間平峰外地牌照車(chē)輛比例達(dá)32%;其中,中環(huán)線(xiàn)比例最高,午間平峰外地牌照車(chē)輛占駛?cè)胲?chē)輛總量的40%。
1)利用互聯(lián)網(wǎng)數(shù)據(jù)分析城市人口結(jié)構(gòu)特征。
利用移動(dòng)通信數(shù)據(jù)處理技術(shù)獲取城市人口分布特征已成為現(xiàn)實(shí)。然而若要分析交通源出行特征,還需要掌握城市人口結(jié)構(gòu)特征,該數(shù)據(jù)很難通過(guò)人口普查外的其他手段獲取。多源數(shù)據(jù)融合分析將是一種必然選擇。例如,利用線(xiàn)上購(gòu)物、網(wǎng)站訪問(wèn)、電視收視等數(shù)據(jù)綜合分析不同區(qū)域的家庭成員結(jié)構(gòu)等。
2)利用移動(dòng)通信數(shù)據(jù)分析居民出行特征。
在當(dāng)前社會(huì)經(jīng)濟(jì)條件下,傳統(tǒng)人工調(diào)查的樣本規(guī)模和實(shí)施難度均有所增加。隨著3G,4G移動(dòng)通信數(shù)據(jù)的引入,用戶(hù)的軌跡點(diǎn)信息將大幅增加,這為分析用戶(hù)出行強(qiáng)度、出行空間分布及出行路徑特征創(chuàng)造了有利條件。
3)利用車(chē)牌識(shí)別數(shù)據(jù)分析全市車(chē)輛出行分布特征。
隨著地面高清卡口車(chē)牌識(shí)別數(shù)據(jù)的引入,車(chē)牌識(shí)別數(shù)據(jù)覆蓋的空間范圍將從市境出入道路關(guān)口和中心城區(qū)快速路斷面拓展至行政區(qū)邊界的道路。通過(guò)擴(kuò)大地面車(chē)牌識(shí)別數(shù)據(jù)的采集可進(jìn)一步掌握跨越行政區(qū)車(chē)輛出行分布特征。
4)利用車(chē)載GPS和公交IC卡刷卡關(guān)聯(lián)數(shù)據(jù)分析公共汽(電)車(chē)線(xiàn)路客流OD特征。
公交IC卡刷卡數(shù)據(jù)僅能反映刷卡時(shí)間和刷卡線(xiàn)路信息,無(wú)法獲得上下客車(chē)站信息。由于大部分公共汽(電)車(chē)都已安裝了GPS系統(tǒng),可將GPS數(shù)據(jù)和公交IC卡數(shù)據(jù)關(guān)聯(lián)起來(lái),再通過(guò)公交IC卡刷卡時(shí)間與公共汽(電)車(chē)GPS軌跡點(diǎn)回報(bào)時(shí)間的對(duì)應(yīng),獲得公交IC卡刷卡的地點(diǎn)信息。最后通過(guò)GPS軌跡點(diǎn)與公共汽(電)車(chē)站的空間對(duì)應(yīng)關(guān)系,分析公共汽(電)車(chē)線(xiàn)路客流的上客特征。在此基礎(chǔ)上,通過(guò)對(duì)一段時(shí)間內(nèi)公交IC卡刷卡數(shù)據(jù)的分析,獲得乘客上客的規(guī)律性特征,利用一天內(nèi)乘客本次出行的下客車(chē)站很有可能是下次回程的上客車(chē)站的一般規(guī)律,進(jìn)一步分析公共汽(電)車(chē)線(xiàn)路客流OD分布特征。
1)優(yōu)化數(shù)據(jù)挖掘技術(shù),增強(qiáng)交通大數(shù)據(jù)關(guān)聯(lián)性分析。
優(yōu)化、改進(jìn)已有大數(shù)據(jù)挖掘技術(shù)方法,包括車(chē)輛GPS數(shù)據(jù)在高架道路、地面道路重疊區(qū)域的識(shí)別方法,移動(dòng)通信數(shù)據(jù)一次出行的判斷方法,移動(dòng)通信數(shù)據(jù)交通方式的判斷方法等。此外,交通大數(shù)據(jù)挖掘的價(jià)值不僅限于對(duì)單源數(shù)據(jù)的分析,各類(lèi)數(shù)據(jù)的關(guān)聯(lián)性分析可進(jìn)一步提升交通大數(shù)據(jù)挖掘的應(yīng)用價(jià)值,例如城市用地與移動(dòng)通信數(shù)據(jù)的關(guān)聯(lián)分析等。
2)形成一整套關(guān)于交通大數(shù)據(jù)分析與擴(kuò)樣的系統(tǒng)流程。
有些信息數(shù)據(jù)可以直接反映母體特征,例如中心城區(qū)快速路車(chē)牌識(shí)別數(shù)據(jù)。有些信息數(shù)據(jù)雖然數(shù)據(jù)量巨大,但本質(zhì)上仍然屬于抽樣調(diào)查數(shù)據(jù),例如利用移動(dòng)通信數(shù)據(jù)分析城市人口分布,如何進(jìn)行科學(xué)擴(kuò)樣是大數(shù)據(jù)挖掘需要解決的另一技術(shù)難點(diǎn)。根據(jù)本次調(diào)查經(jīng)驗(yàn),受移動(dòng)用戶(hù)市場(chǎng)占有率、手機(jī)持有率等多重因素的區(qū)域差異性影響,用同一系數(shù)對(duì)全市數(shù)據(jù)進(jìn)行統(tǒng)一擴(kuò)樣可能會(huì)產(chǎn)生較大誤差。目前移動(dòng)通信數(shù)據(jù)以反映結(jié)構(gòu)性特征指標(biāo)為主,下一步需按區(qū)域確定擴(kuò)樣系數(shù),以使移動(dòng)通信數(shù)據(jù)分析結(jié)果可以反映總量特征。
3)豐富成果展現(xiàn)形式,形成大數(shù)據(jù)可視化產(chǎn)品。
傳統(tǒng)大數(shù)據(jù)挖掘成果一般是基于信息分析技術(shù)的一整套程序包的運(yùn)算結(jié)果,通常以成果數(shù)據(jù)庫(kù)的形式體現(xiàn),再進(jìn)一步由人工轉(zhuǎn)化成可視化圖表,處理周期較長(zhǎng)。如何突破傳統(tǒng)調(diào)查成果的展示模式,基于固化的數(shù)據(jù)采集、分析處理、成果展示流程,形成界面友好、功能實(shí)用的軟件產(chǎn)品是今后交通大數(shù)據(jù)挖掘的發(fā)展趨勢(shì)。
圖9 中心城區(qū)快速路本地牌照和外地牌照車(chē)流分布Fig.9 Distribution of traffic volumes with local and non-local plates on expressways in the central district
1)完善交通大數(shù)據(jù)的采集匯總機(jī)制。
上海市交通大數(shù)據(jù)資源已基本匯集到上海市交通綜合信息平臺(tái)。隨著信息化快速發(fā)展,交通大數(shù)據(jù)資源種類(lèi)日益多樣化,仍然需要積極擴(kuò)展信息資源獲取渠道,形成數(shù)據(jù)采集匯總機(jī)制及統(tǒng)一的數(shù)據(jù)倉(cāng)庫(kù),為交通大數(shù)據(jù)的分析挖掘提供基礎(chǔ)。
2)建立交通大數(shù)據(jù)分層挖掘分析機(jī)制。
根據(jù)數(shù)據(jù)需求對(duì)交通大數(shù)據(jù)的挖掘進(jìn)行分層設(shè)計(jì),形成每日、月度、季度、年度的定期分析及結(jié)合重大節(jié)假日、重大事件及交通熱點(diǎn)問(wèn)題的不定期分析機(jī)制。例如,一些反映系統(tǒng)運(yùn)行、計(jì)算周期短的分析指標(biāo)可以進(jìn)行每日數(shù)據(jù)挖掘,以滿(mǎn)足日常運(yùn)營(yíng)管理需要;一些反映交通源出行特征、計(jì)算周期及時(shí)間長(zhǎng)且通常需要累計(jì)數(shù)據(jù)進(jìn)行計(jì)算的指標(biāo)可以進(jìn)行季度或年度數(shù)據(jù)挖掘,主要應(yīng)用于反映交通運(yùn)行規(guī)律及發(fā)展趨勢(shì)等研究。
[1]上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院.上海市第五次綜合交通調(diào)查:基于遙感技術(shù)的交通相關(guān)用地?cái)?shù)據(jù)挖掘[R].上海:上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院,2014.
[2]上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院.上海市第五次綜合交通調(diào)查:基于手機(jī)信息的出行特征調(diào)查[R].上海:上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院,2014.
[3]上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院.上海市第五次綜合交通調(diào)查總體方案[R].上海:上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院,2013.
[4]上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院.上海市第五次綜合交通調(diào)查:基于牌照識(shí)別的車(chē)輛出行特征挖掘[R].上海:上海市城鄉(xiāng)建設(shè)和交通發(fā)展研究院,2014.
[5]何承,朱揚(yáng)勇.城市交通大數(shù)據(jù)[M].上海:上??萍汲霭嫔?,2015.
Using Big Data to Explore Transportation System Characteristics in Shanghai
Chen Huan,Xue Meigen
(Shanghai Urban-Rural Construction and Transportation Development Research Institute,Shanghai 200040,China)
Since 1980s,Shanghai has begun building ITS system and collecting traffic data.Taking the 2010 World Expo as a good opportunity,Shanghai experiences a rapid traffic informatization process in which a wide variety of data resources turns to be available.This new trend provides a reliable base of using big data mining technology to conduct transportation survey and analysis.Consequently,the 5th Shanghai comprehensive transportation survey has summarized Shanghai transportation big data resource panels,in the meantime,it demonstrated big data mining-based technology to explore transportation system characteristics as well as highlighting some main findings.This study also suggests a couple of critical solutions associated with this new technology that are:1)how to extend more potential applications,2)how to optimize existing methodology,and 3)how to improve data collection mechanism.
comprehensive transportation;big data;transportation survey;technology;Shanghai
1672-5328(2016)01-0024-06
U491.1
A
10.13813/j.cn11-5141/u.2016.0104
2015-09-02
陳歡(1981—),女,上海人,碩士,高級(jí)工程師,注冊(cè)城市規(guī)劃師,注冊(cè)咨詢(xún)工程師(投資),主要研究方向:城市交通模型、城市交通規(guī)劃。E-mail:cathleen.ch@163.com