雷永琪,李 娜,陳智軍,何 渡,張雨昂
(1.湖北大學(xué) 計算機(jī)與信息工程學(xué)院,湖北 武漢 430072;2.湖北省科技信息研究院,湖北武漢 430071)
新一代智慧城市環(huán)境下,傳統(tǒng)交通系統(tǒng)逐漸轉(zhuǎn)變?yōu)槿诤狭思夹g(shù)支持、城市建設(shè)和交通變革的“智慧出行”[1]。作為城市的主要交通工具之一,出租車具有靈活和便捷等特點,可以滿足居民出行的一般搭乘需求[2]。然而,由于城市交通的動態(tài)時空變化及司乘信息不對稱等因素,出租車規(guī)模量和居民打車需求之間經(jīng)常出現(xiàn)供需不平衡現(xiàn)象,大中型城市的居民出行普遍存在出租車等待時間長、打車?yán)щy等問題,亟需合理有效的解決方法[3]。
當(dāng)前,絕大多數(shù)城市出租車都已具備GPS 定位設(shè)備,這使得出租車行車軌跡數(shù)據(jù)大量可得。海量出租車軌跡數(shù)據(jù)蘊(yùn)涵著豐富的行駛規(guī)律,常被用來研究城市居民活動規(guī)律或城市畫像。鄭宇[4]提出“城市計算”理念,開啟了GPS軌跡數(shù)據(jù)挖掘的潮流;Deng 等[5]使用聯(lián)立方程模型基于城市整體的出租車數(shù)量、計價,乘客數(shù)量、等候時間等進(jìn)行建模;基于網(wǎng)絡(luò)模型,Yang 等[6]對大面積區(qū)域之間的乘客流動進(jìn)行建模,進(jìn)而分析出租車運營的供求關(guān)系,并在供求平衡計算時對乘客的等候時間進(jìn)行了預(yù)測;齊觀德等[7-8]以概率為落腳點,重新定義了出租車乘客候車時間,根據(jù)出租車歷史軌跡對某地某時段的候車時間進(jìn)行建模,通過建立空駛出租車到達(dá)時間間隔的概率模型預(yù)測候車時長;Yuan 等[9]和Ma 等[10]基于改進(jìn)的地圖匹配低頻采樣算法ST-Matching,提出基于投票表決的地圖匹配算法IVMM 和基于非齊次泊松過程的出租車乘車推薦模型,設(shè)計實現(xiàn)了T-Finder 系統(tǒng)、T-Share 系統(tǒng),通過“拼車”解決出租車載客高峰期打車難的問題;Luis 等[11]提出一種使用增量規(guī)則的增量框架,給出一種能實時預(yù)測出租車乘客需求量的辦法;單雄宇等[12]通過分析出租車軌跡數(shù)據(jù),通過聚類算法提取出租車載客熱點和計算空車到達(dá)時間,建立了對特定時間的特定載客熱點區(qū)域的乘客候車時間預(yù)測模型;王詔遠(yuǎn)等[13]結(jié)合修復(fù)的GPS 數(shù)據(jù)和經(jīng)驗分布規(guī)律,計算出在等待特征點和時間點的打車概率,并且建立了等待時間模型;朱東杰[14]在車載自組織網(wǎng)路由協(xié)議及路徑?jīng)Q策模型研究中,將車載自組織網(wǎng)絡(luò)(VANET)和海量出租車軌跡數(shù)據(jù)結(jié)合,模型基于最大似然估計將車輛到達(dá)率近似為分段線性函數(shù),預(yù)測出租車乘客打車概率與打車等待時間;劉仰東等[15]在基于車流量的司乘推薦模型研究中,提出基于出租車軌跡的出租車流量模型,并利用綜合時間、天氣等因素優(yōu)化模型,建立車流量與打車概率、等車時間之間的函數(shù)關(guān)系,以預(yù)測用戶所在位置的打車概率和等待時間;呂明等[16]通過對比小區(qū)內(nèi)空駛出租車的總量與居民出行需求量,根據(jù)每個小區(qū)中不同的標(biāo)記狀態(tài)計算其乘客平均等待出租車的時間,該方法適用的研究區(qū)域有一定要求。
現(xiàn)有研究成果能夠為城市居民打車提供一些科學(xué)的參考依據(jù),但主要采用的是聚類和建模等傳統(tǒng)手段,尚未充分挖掘并利用出租車的行駛規(guī)律,預(yù)測的準(zhǔn)確性仍需進(jìn)一步提高。利用神經(jīng)網(wǎng)絡(luò)方法學(xué)習(xí)海量軌跡數(shù)據(jù)中隱含的時空規(guī)律知識,可提高候車時長建模的準(zhǔn)確性[17]。
基于以上分析,本文提出利用作息時空特征改進(jìn)神經(jīng)網(wǎng)絡(luò)的出租車乘客候車時長預(yù)測方法。本文以精細(xì)時空網(wǎng)格為單位,對城市興趣點、出租車軌跡數(shù)據(jù)和時間作息片段等多源數(shù)據(jù)進(jìn)行融合,并利用作息時空特征優(yōu)化神經(jīng)網(wǎng)絡(luò)對出租車運載的時空規(guī)律進(jìn)行建模,從而預(yù)測一定時空約束條件下的出租車乘客候車時長。本文方法的研究思路如圖1 所示。
Fig.1 Research thoughts圖1 研究思路
出租車GPS 數(shù)據(jù)包括數(shù)據(jù)ID、記錄時間、地理位置(經(jīng)度和緯度)、行駛速度、行駛朝向、載客情況等信息。大量精度高、覆蓋面積廣和內(nèi)容豐富的出租車軌跡數(shù)據(jù)成為研究城市居民出行規(guī)律的重要數(shù)據(jù)來源[18-19]。常見的關(guān)鍵出租車軌跡數(shù)據(jù)結(jié)構(gòu)如表1 所示。
Table 1 GPS taxi trajectory data structure表1 GPS 出租車軌跡數(shù)據(jù)結(jié)構(gòu)
表2 為常見出租車軌跡數(shù)據(jù)中的數(shù)據(jù)片段。其中,T_Status 表示出租車載客狀態(tài)標(biāo)記,T_Status 為262 144 表示出租車為載客狀態(tài),T_Status 為0 表示該時刻出租車為空駛狀態(tài)。
Table 2 Taxi trajectory data fragments表2 出租車軌跡數(shù)據(jù)片段
出租車作為城市公共交通的重要參與者,在生活、工作與出行等方面扮演越來越重要的角色,是維持城市交通正常運行的重要螺絲釘。城市居民的作息時間、城市功能區(qū)域分類都反映出租車行車規(guī)律在城市中不斷變化的靈活性、動態(tài)性[20]。
作息時空規(guī)律描述了城市居民生活、工作、學(xué)習(xí)和活動等各方面的時間空間特點,它是受城市生活習(xí)慣、人文環(huán)境、自然地理條件和社會經(jīng)濟(jì)水平等影響而形成的社會性特征。城市中的生活主體主要由國家公務(wù)員、專業(yè)技術(shù)人員、商務(wù)管理人員、個體營業(yè)者、上班族、學(xué)生、工人、退休人員和其他職業(yè)者組成[21-22]。由于居民工作日、節(jié)假日(包括周末和法定節(jié)假日)和乘車點的功能區(qū)類別是影響出租車乘客候車時長的主要因素[23-24]。因此,本文將軌跡數(shù)據(jù)記錄根據(jù)時間標(biāo)記為工作日和節(jié)假日兩類,以區(qū)分不同時間特征片段的數(shù)據(jù)差異。同時,根據(jù)出租車所在城市網(wǎng)格的功能區(qū)屬性標(biāo)識數(shù)據(jù)記錄的空間特征,以便為神經(jīng)網(wǎng)絡(luò)模型提供空間規(guī)律的學(xué)習(xí)依據(jù)。
節(jié)假日城市居民的作息時空特征與在工作日時有明顯區(qū)別。清晨05:00—08:59,城市居民大多處于休息狀態(tài),僅小部分居民有出行等活動;09:00—13:59 大部分居民陸續(xù)有外出活動,是節(jié)假日一天中的早高峰;14:00—17:59,居民一般會有就餐和逛街等活動需求;18:00—23:59 時間段是節(jié)假日一天中居民活動最頻繁的晚高峰時期,包括夜晚用餐、出行及返家等出行活動;24:00—04:59,屬于午夜時間段,居民一般處于睡眠狀態(tài)。如表3 所示,將節(jié)假日一天24 小時按照城市居民的作息時空特征劃分為5個時間片段并記上不同的標(biāo)簽。
工作日是勞動者在法定限度內(nèi)應(yīng)當(dāng)從事勞動或者工作的時間,是工作時間的基本形式。一般在工作日中,務(wù)工人員和學(xué)生的作息時空特征具有相似性和重合性。工作日中,將夜晚分為上半夜和下半夜,上半夜為23:00—03:59,此時城市居民基本都處于睡眠狀態(tài);下半夜為04:00—06:59,此時一些個體營業(yè)者如早餐店經(jīng)營者、環(huán)衛(wèi)工人等已經(jīng)開始工作。07:00—08:59 是城市居民一天中出行的第一個高峰期,稱為早高峰,在此期間,學(xué)生和上班族都需外出上學(xué)或上班。09:00—11:59 為學(xué)生在校學(xué)習(xí)時間段,也是絕大部分上班族和其他職業(yè)者的工作時間,居民的出行活動在該時間段中趨于穩(wěn)定。12:00—14:29 為午休時間段,人們有出行就餐或者短時間回家等活動,城市居民處于出行的小高峰。14:30—17:30 是下午上學(xué)和上班時間段。17:31—20:59,學(xué)生放學(xué)、上班族下班或者逛街購物等外出活動,是一天中的第二個高峰期,稱為晚高峰。21:00—22:59 時間段內(nèi),居民一般會結(jié)束晚間活動回家休息。如表4 所示,將工作日中一天24 小時按照城市居民作息時空特征劃分8 個時間片段。
Table 3 Holiday time sliced data set表3 節(jié)假日時間分片數(shù)據(jù)集
本文采用的高德城市PO(IPoint of Interest)數(shù)據(jù)包含了公司、購物、教育、商業(yè)住宅、風(fēng)景、餐飲、公共設(shè)施、交通設(shè)施、生活、體育、醫(yī)療、政府和住宿等共計14 張表格。基于該數(shù)據(jù),本文進(jìn)一步將POI 細(xì)分為餐飲服務(wù)、公共設(shè)施、購物服務(wù)、商務(wù)住宅、生活服務(wù)、體育休閑服務(wù)、風(fēng)景名勝、科教文化服務(wù)、私人診所與??漆t(yī)院、住宿服務(wù)、政府機(jī)構(gòu)及社會團(tuán)體、公司企業(yè)、ATM 與銀行、停車場、大型商圈、大型醫(yī)院、大型場館和公交車站等19 種類別。由于一些體育館、科技館、少年宮等大型場館、大型商圈、景區(qū)和綜合醫(yī)院的活動規(guī)律對節(jié)假日和工作日的依賴程度較大,將景區(qū)、大型場館、大型商圈和綜合醫(yī)院歸納為特殊功能區(qū)類。最終形成的興趣點類別如表5 所示。功能區(qū)類型數(shù)據(jù)結(jié)構(gòu)如表6 所示。
Table 4 Workday time sliced data set表4 工作日時間分片數(shù)據(jù)集
Table 5 Urban functional areas category data set表5 城市功能區(qū)類別數(shù)據(jù)
Table 6 Time slice data structure表6 功能區(qū)類型數(shù)據(jù)結(jié)構(gòu)
考慮到同一個地理網(wǎng)格可能存在多個功能區(qū)屬性,本文通過綜合經(jīng)濟(jì)引力、交通可達(dá)性和金融聯(lián)系網(wǎng)絡(luò)3 個維度,基于城市間經(jīng)濟(jì)流、人流和物流、資本(金融)流等要素相互作用的強(qiáng)度,確定每類功能區(qū)主導(dǎo)地位權(quán)重[25]。根據(jù)單位網(wǎng)格中主導(dǎo)地位權(quán)重高低,確定網(wǎng)格功能區(qū)類別為其最高級別的優(yōu)先級。
以不破壞房屋和道路結(jié)構(gòu)為前提,綜合考慮城市規(guī)劃布局、地理地形和資源配置等影響出租車乘客候車時間的因素,將完整的行政地圖按照規(guī)定大小的單位矩陣劃分為若干個矩陣,即地圖網(wǎng)格[26]。地圖網(wǎng)格細(xì)節(jié)如圖2 所示。
Fig.2 Mapping gridding圖2 地圖網(wǎng)格化
地圖網(wǎng)格數(shù)據(jù)信息包括網(wǎng)格序號和網(wǎng)格中心點坐標(biāo)(經(jīng)度和緯度)?;趩挝痪W(wǎng)格大小和網(wǎng)格中心點坐標(biāo),根據(jù)經(jīng)緯度和米的換算公式得出:
經(jīng)度(東西方向)1m 的實際度:
緯度(南北方向)1m 的實際度:
根據(jù)式(1)、式(2)可以計算得到網(wǎng)格中經(jīng)度的最小值、最大值和緯度的最小值、最大值,分別記為Longi?tude_min、Longitude_max、Latitude_min 和Latitude_max。本文地圖匹配采用點到線匹配的九宮格網(wǎng)格,這是一種基于普通網(wǎng)格算法擴(kuò)展的匹配算法。在設(shè)計網(wǎng)格大小時,主要考慮到打車點周圍環(huán)境因素對空載出租車停車的影響,即在大多數(shù)情況下,50m*50m 范圍內(nèi)的環(huán)境因素較為一致,而超過該范圍,容易出現(xiàn)不同的停車周邊環(huán)境,可能影響到空車停車的決策。如,紅綠燈附近,出租車無法???;公交車站周圍30m 內(nèi),出租車無法停車等。鑒于此,本文九宮格由9 個邊長為50m 的正方形組成。每個網(wǎng)格所在的值都已在圖中標(biāo)識出來,如圖3 所示。
Fig.3 Nine-grid geographic information圖3 九宮格網(wǎng)格地理信息
地圖網(wǎng)格信息表格式及含義如表7 所示。fishnet_id 表示網(wǎng)格id,POINT_X 表示網(wǎng)格中心的x坐標(biāo),POINT_Y 表示網(wǎng)格中心的y坐標(biāo)。
Table 7 Map grid information data表7 地圖網(wǎng)格信息數(shù)據(jù)
地圖網(wǎng)格信息表中的數(shù)據(jù)片段如表8 所示。
Table 8 Map grid information data fragment表8 地圖網(wǎng)格信息表數(shù)據(jù)片段
根據(jù)出租車軌跡數(shù)據(jù)中記錄的GPS 定位信息(經(jīng)度、緯度)與地理網(wǎng)格信息對比匹配,尋找出租車軌跡點所屬網(wǎng)格號。此外,根據(jù)軌跡數(shù)據(jù)中的時間點和日期,對照節(jié)假日和工作日不同的時間片段分類,標(biāo)記所屬時間片段。最后,通過行政地圖網(wǎng)格化的操作實現(xiàn)出租車連續(xù)軌跡離散化,將候車時間數(shù)據(jù)、POI 數(shù)據(jù)、出租車軌跡數(shù)據(jù)、作息時間數(shù)據(jù)和地理空間數(shù)據(jù),根據(jù)時間和空間數(shù)據(jù)匹配對比后映射至每個網(wǎng)格中,使得每個單位網(wǎng)格都包含融合的多源數(shù)據(jù)。多源數(shù)據(jù)融合后的軌跡數(shù)據(jù)片段如圖4 所示。
Fig.4 Data fragment of multi-source data fusion圖4 多源數(shù)據(jù)融合的數(shù)據(jù)片段
由上文可知,根據(jù)出租車軌跡數(shù)據(jù)中空駛狀態(tài)(T_Sta?tus 為0)出租車出現(xiàn)在該網(wǎng)格中的記錄時間(T_UTCTime),根據(jù)式(3),可計算出租車乘客的候車時長。
根據(jù)之前分析的作息規(guī)律,結(jié)合網(wǎng)格區(qū)域特征,歷史軌跡數(shù)據(jù)被劃分為若干個時空片段,每一個軌跡時空片段即為該時間段中該區(qū)域網(wǎng)格的軌跡數(shù)據(jù),這些時空片段作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練數(shù)據(jù)[27-28],式(3)中的候車時長表示單位網(wǎng)格中乘客的候車時間。
靳蕃[29]提出:只要有一個隱藏層的三層BP 神經(jīng)網(wǎng)絡(luò),就可以無限接近任何映射函數(shù)并完成給定的映射任務(wù)。本文比較不同隱藏層的層數(shù)分別為1、2、3、4 時,作息時空特征約束神經(jīng)網(wǎng)絡(luò)模型結(jié)果。
由表9 可知,當(dāng)隱藏層節(jié)點數(shù)為3 時,模型精度最高。因此,本文模型基于一個五層結(jié)構(gòu)的全連接網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)建立相關(guān)模型,對乘客候車時長進(jìn)行預(yù)測。模型拓?fù)浣Y(jié)構(gòu)如圖5 所示。
Table 9 Error table for different hidden level表9 隱藏節(jié)層數(shù)對應(yīng)誤差
多方位分析影響出租車上下車點變化的因素,便于從出租車軌跡數(shù)據(jù)中發(fā)現(xiàn)規(guī)律、歸納特征,從而為本文在構(gòu)建算法模型時提取實際影響乘客候車時長的元素,并為乘客推薦候車點提供科學(xué)合理的決策依據(jù)。
本文神經(jīng)網(wǎng)絡(luò)模型的特征輸入值選取了4 個主要影響該網(wǎng)格內(nèi)出租車乘客候車時長的因素,分別標(biāo)記為:X1是基于城市居民作息特征的所屬時間片段,X2是基于POI 數(shù)據(jù)劃分的城市功能區(qū)類別,X3標(biāo)記該天是否是節(jié)假日,X4是判斷該網(wǎng)格是否處于大型商圈、大型場館和綜合醫(yī)院等特殊地點。輸出層為唯一神經(jīng)元輸出Y,表示乘客在網(wǎng)格中等待第一輛空駛出租車所需要的時間。由于Relu 函數(shù)分段線性的特征,該函數(shù)的負(fù)值都為0,而正值不發(fā)生改變,即單側(cè)抑制。使得神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元也具有了稀疏激活性,更容易學(xué)習(xí)優(yōu)化。對于非線性函數(shù)而言,Relu 函數(shù)由于非負(fù)區(qū)間的梯度為常數(shù)的特性,克服了梯度消失問題(Vanishing Gradient Problem),使得模型收斂速度維持在一個穩(wěn)定狀態(tài)。Relu 函數(shù)公式如式(4)所示,Relu 函數(shù)的圖像如圖6 所示。
Fig.5 Topological structure of neural network圖5 神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)
Fig.6 Relu activation function diagram圖6 Relu 激活函數(shù)圖像
自適應(yīng)性矩估計(Adaptive Moment Estimation,Adam)的基礎(chǔ)是訓(xùn)練數(shù)據(jù)迭代更新神經(jīng)網(wǎng)絡(luò)權(quán)重的一階優(yōu)化算法,結(jié)合了自適應(yīng)梯度算法和均方根傳播算法最優(yōu)的性能,它還是能提供解決稀疏梯度和噪聲問題的優(yōu)化方法,可以替代傳統(tǒng)隨機(jī)梯度下降(Stochastic Gradient Descent,SGD)算法。其核心是初始化偏差修正項,偏差修正項可基于一階矩估計和二階矩估計推導(dǎo),更適合解決本文這類大規(guī)模數(shù)據(jù)問題。本文模型使用自適應(yīng)學(xué)習(xí)率優(yōu)化算法Ad?am 對網(wǎng)絡(luò)參數(shù)進(jìn)行更新。
本文針對為出租車乘客推薦候車點的問題,基于大量融合后時空軌跡數(shù)據(jù)的時空特性,提出一種候車點推薦算法。詳細(xì)分析居民作息時間規(guī)律特征和城市功能區(qū)的類型特征,提出影響候車時長的主要因素;通過對時間特征標(biāo)記獲取工作日或節(jié)假日等信息,通過定位數(shù)據(jù)結(jié)合POI標(biāo)記乘客所處地點的功能區(qū)類型,判斷是否處于大型場館、商圈或者綜合醫(yī)院。乘客所處的動態(tài)時空環(huán)境信息直接影響著出租車運載規(guī)律。本文模型預(yù)測流程如下:
步驟1:將網(wǎng)絡(luò)初始化,輸入特征值歸一化處理,如式(5)所示。
步驟2:神經(jīng)網(wǎng)絡(luò)正向傳播,計算預(yù)測結(jié)果。式(6)、式(7)分別為隱藏層和輸出層的輸出公式。Xi為輸入層的值,Wij和Wjk是隱藏層和輸出層對應(yīng)神經(jīng)元的權(quán)值矩陣,b為神經(jīng)元的偏置。
(fx)函數(shù)為Relu 激活函數(shù),如式(8)所示。
步驟3:利用梯度下降計算每一個神經(jīng)元的損失。權(quán)值和偏置損失如式(9)、式(10)所示。
其中,Ed為損失函數(shù),如式(11)所示,y 表示神經(jīng)網(wǎng)絡(luò)的預(yù)測值,y_表示實際值,η 為學(xué)習(xí)率。
步驟4:神經(jīng)網(wǎng)絡(luò)反向傳播誤差信息,更新每個神經(jīng)元的權(quán)值和偏置,如式(12)和式(13)所示。
基于優(yōu)化神經(jīng)網(wǎng)絡(luò)的出租車乘客候車時間預(yù)測流程如圖7 所示。
本文動態(tài)計算模型主要步驟包括:①將用戶提交的時間、空間信息,轉(zhuǎn)換為時間分片數(shù)據(jù)、節(jié)假日工作日類型數(shù)據(jù)、城市功能類型數(shù)據(jù)和是否特殊地點數(shù)據(jù);②將步驟①的4 種數(shù)據(jù)標(biāo)記為模型輸入特征值;③若用戶的時間空間信息發(fā)生變化,則需要重復(fù)步驟①、步驟②;④根據(jù)輸入特征值模型得到計算結(jié)果,即乘客的預(yù)測候車時長。
基于優(yōu)化神經(jīng)網(wǎng)絡(luò)的出租車乘客候車時間預(yù)測算法偽代碼如下:
預(yù)測模型算法
input:乘客時間信息Tu,乘客空間地理信息Su
output:乘客候車時長Lu
1.初始化定期更新時間“T”
2.for(每隔時間T)
3.while(Tuor Su發(fā)生改變)
4.計算根據(jù)Tu和Su信息,得到該網(wǎng)格中乘客時長Lu
5.end for
Fig.7 Work and rest spatio-temporal feature optimization neural network flow圖7 作息時空特征優(yōu)化神經(jīng)網(wǎng)絡(luò)流程
本文實驗的硬件環(huán)境是Inte(lR)Core(TM),i7-8550U CPU@ 1.80HZ,Windows 10,8G 內(nèi)存;軟件環(huán)境為Py?thon3.5,TensorFlow1.7.0 和Keras 框架。
實驗選取2014 年2 月13 日至2014 年2 月19 日湖北省武漢市武昌區(qū)的出租車軌跡數(shù)據(jù),經(jīng)過異常數(shù)據(jù)清洗剔除后得到出租車軌跡數(shù)據(jù)共6 705 086 條,該時間段內(nèi)涵蓋工作日、節(jié)假日和特殊節(jié)日(情人節(jié)),數(shù)據(jù)具有典型代表性且穩(wěn)定。
武昌區(qū)地理位置為東經(jīng)114°14'~114°30',北緯30°32'~30°37',按照50m*50m 單位使用ArcGIS 10.3 一共劃分了84 048 個網(wǎng)格。武昌區(qū)內(nèi)共有POI 數(shù)據(jù)34 195 條,作息特征網(wǎng)格化后軌跡數(shù)據(jù)共有6 705 086 條,選擇其中5 705 086條數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),1 000 000 條數(shù)據(jù)作為測試數(shù)據(jù)。實驗針對處在不同時間片段和功能區(qū)的出租車進(jìn)行預(yù)測,由于平均絕對誤差(Mean Absolute Error,MAE)直觀反映實驗預(yù)測結(jié)果與實際值的偏離程度,因此選用MAE 對實驗結(jié)果進(jìn)行評估,如式(14)所示。
式(14)中,N 表示實驗結(jié)果個數(shù);yi表示出租車乘客的候車時長;yi' 表示乘客等到第一輛空車的預(yù)測時間。
根據(jù)表4 將工作日中連續(xù)的24 個小時劃分為8 個時間片段;表3 將節(jié)假日中連續(xù)的24 個小時劃分為5 個時間片段。系統(tǒng)對工作日和節(jié)假日中出租車乘客等待時間進(jìn)行預(yù)測,根據(jù)實驗結(jié)果和預(yù)測結(jié)果計算不同時間片段的平均絕對值結(jié)果如圖8 所示。
Fig.8 Prediction effect of different time segments圖8 不同時間片段的預(yù)測效果
圖8 中,不同時間片段預(yù)測得出的MAE 值在一定范圍內(nèi),最差效果的MAE 值為105s,即乘客在任意時間片段等待第一輛空駛出租車的時間預(yù)測平均誤差不超過2min,誤差范圍屬于理想范圍[30]。因此,出租車乘客在不同時間片段內(nèi)都可通過本文算法模型預(yù)測出比較準(zhǔn)確的出租車乘客候車時長。
根據(jù)上文將城市功能區(qū)劃分為19 種類別。本文模型針對所處不同功能區(qū)類別的乘客等待時間進(jìn)行預(yù)測,按照分類其平均絕對誤差如圖9 所示。
Fig.9 Prediction effect of different functional areas圖9 不同功能區(qū)的預(yù)測效果
由圖9 可以看出,不同功能區(qū)的預(yù)測MAE 值在一定范圍內(nèi),最差效果的MAE 值為116s,即乘客在任意功能區(qū)等待第一輛空駛出租車的時間預(yù)測平均誤差不超過2min,說明通過本文算法模型可以計算出誤差較小的出租車乘客候車時長。
乘客在不同功能區(qū)內(nèi)等待出租車都可通過該模型預(yù)測出誤差較小的候車時長。即模型不考慮空間特征因素對預(yù)測結(jié)果的影響時,模型的預(yù)測結(jié)果與原始模型的預(yù)測結(jié)果相比,準(zhǔn)確率降低。由此可得,時間和空間因素影響出租車乘客候車時長。
原始未優(yōu)化的三層BP 神經(jīng)網(wǎng)絡(luò)算法模型屬于一種“有教師學(xué)習(xí)的”的多層前饋網(wǎng)絡(luò),采用誤差逆?zhèn)鞑ミM(jìn)行網(wǎng)絡(luò)訓(xùn)練,本質(zhì)上是在訓(xùn)練過程中尋求誤差最小化并對網(wǎng)絡(luò)連接權(quán)值進(jìn)行調(diào)整與優(yōu)化,從而對乘客候車時長進(jìn)行預(yù)測。文獻(xiàn)[13]中提出的基于經(jīng)驗分布預(yù)測等待時間的算法模型適用于經(jīng)驗分布,模型簡單、計算量少,適用于大數(shù)據(jù)處理,通過修復(fù)后的大量GPS 數(shù)據(jù)進(jìn)行基于經(jīng)驗分布模型統(tǒng)計和計算后得到乘客候車時長。上述兩種算法模型均未充分挖掘出出租車的行駛規(guī)律,候車時長的預(yù)測準(zhǔn)確性有待提高。
通過使用本文提出的算法模型、原始未優(yōu)化的三層BP神經(jīng)網(wǎng)絡(luò)算法模型和文獻(xiàn)[13]中提出的基于經(jīng)驗分布預(yù)測等待時間的算法模型,分別記為SF1、SF2 和SF3。實驗數(shù)據(jù)統(tǒng)一為6 705 086 條,為了提高實驗結(jié)果的可信度,添加準(zhǔn)確率作為評價指標(biāo)之一。
其中,wt表示真實值,wp表示模型預(yù)測值,acc表示模型預(yù)測結(jié)果準(zhǔn)確率。算法模型的MAE 值和準(zhǔn)確率如圖10 所示。
Fig.10 Experimental result graphs of different algorithm models圖10 不同算法模型實驗結(jié)果
由圖10 可知,本文提出的作息時空特征優(yōu)化神經(jīng)網(wǎng)絡(luò)算法模型即SF1,MAE 值為58.7,其準(zhǔn)確率為92.4%;原始未優(yōu)化的三層BP 神經(jīng)網(wǎng)絡(luò)算法模型即SF2,MAE 值為112.3,該模型的準(zhǔn)確率為58.3%;文獻(xiàn)[13]中模型即SF3,MAE 結(jié)果為76.6,準(zhǔn)確率為68%。
根據(jù)模型預(yù)測結(jié)果比較可知,本文提出利用作息時間特征優(yōu)化神經(jīng)網(wǎng)絡(luò)的出租車候車時長預(yù)測模型能夠提高預(yù)測出租車乘客候車時長的準(zhǔn)確率,減小誤差。
為了直觀展示本文模型的作用,基于作息時空特征優(yōu)化神經(jīng)網(wǎng)絡(luò)模型,開發(fā)了出租車打車決策原型APP。如圖11 所示,某乘客在此時所處位置選擇打車,預(yù)計需要等待4.5min 才會有第一輛空駛出租車經(jīng)過。在一定半徑范圍內(nèi),原型APP 還根據(jù)預(yù)測的候車時間長度進(jìn)行長度倒排序,優(yōu)先為用戶推薦等待時長最短的乘車點。
Fig.11 Application effect of waiting time model in mobile APP圖11 等待時間模型在手機(jī)APP 中的應(yīng)用效果
影響出租車乘客候車時間的因素有很多,比如城市交通發(fā)展戰(zhàn)略、出租車運營利潤和城市交通基礎(chǔ)設(shè)施等因素,都會對乘客候車時長產(chǎn)生影響。結(jié)合軌跡數(shù)據(jù)和城市居民的作息時空規(guī)律,通過比較分析改進(jìn)神經(jīng)網(wǎng)絡(luò)建模的預(yù)測結(jié)果與實際數(shù)據(jù),證明了本文模型的適用性、準(zhǔn)確性和有效性。本文模型有助于確??振偝鲎廛嚺c乘客之間的供需一致性,幫助乘客提前預(yù)判候車時長,極大提高了打車成功率,促進(jìn)城市居民的智慧出行。然而,本文模型僅考慮到時間和空間因素對打車的影響,后續(xù)研究將進(jìn)一步展開空氣質(zhì)量和天氣狀態(tài)等因素對出租車候車等待時長的影響。