梁 泉 翁劍成 胡娟娟▲ 韓 冰
(1.交通運輸部管理干部學(xué)院道路教研部 北京101601;2.北京工業(yè)大學(xué)城市建設(shè)學(xué)部 北京100124)
通勤出行是公共交通服務(wù)的主體,北京市每日通勤出行量約占全市公共交通出行總量的65.8%[1]。明確公交通勤乘客下次出行目的地,有助于更好地把握通勤乘客出行需求。目前,關(guān)于公交通勤乘客出行目的地需求預(yù)測,大多研究面向乘客整體均態(tài)特征開展。實際上,不同公共交通個體乘客的工作類型、出行習(xí)慣等屬性往往具有差異性[2-3],勢必對目的地預(yù)測準(zhǔn)確性產(chǎn)生一定影響。鑒于此,本研究旨在提出公共交通通勤個體乘客下次出行目的地預(yù)測方法,以期準(zhǔn)確掌握公交乘客個性化出行需求,提升公共交通精準(zhǔn)化服務(wù)水平。
Lee[4]根據(jù)交通規(guī)劃普查數(shù)據(jù),評估了工作崗位數(shù)和工人職住平衡關(guān)系對通勤量的影響,對不同工種的最低通勤需求量進行了預(yù)測。Castiglione等[5]使用調(diào)查數(shù)據(jù)建立了基于活動的模擬出行預(yù)測模型,結(jié)果表明:隨著隨機數(shù)序列變化和模型運行次數(shù)增加,預(yù)測結(jié)果逐漸收斂。鄭勁松[6]提取了城市軌道交通各站點客流比例、平均乘距、平均票價、分時斷面客流量等關(guān)鍵指標(biāo),通過聯(lián)機分析預(yù)測了不同票卡類型客流和進出站客流。靳佳[7]基于IC卡數(shù)據(jù),挖掘了公交出行起訖點及客流信息,并利用空間分析方法預(yù)測了居民公交出行時空分布特性。郭婕[8]采用聚類分析法將通勤乘客分為不同類型,通過判定通勤乘客類型與站點區(qū)段的匹配關(guān)系預(yù)測通勤乘客上車站點區(qū)段。Veldhuisen等[9]建立了基于個人活動和出行計劃的離散選擇模型體系,進而開展了居民出行行為預(yù)測,并采用出行調(diào)查數(shù)據(jù)和交通系統(tǒng)服務(wù)水平驗證了預(yù)測結(jié)果。
以往研究多采用現(xiàn)場調(diào)研和網(wǎng)上調(diào)查等手段獲得抽樣數(shù)據(jù),通過統(tǒng)計分析方法識別并預(yù)測樣本乘客整體的出行總量及時空分布特征[10-11];或基于已有乘客出行行為數(shù)據(jù),利用Logit模型、重力模型等預(yù)測模型,預(yù)測未來出行OD等特性指標(biāo),側(cè)重反映宏觀出行特征[4,12]。由于較少考慮不同類型公交乘客的出行行為差異,并且較大程度上忽略乘客的個體特性和社會經(jīng)濟屬性,公共交通通勤乘客目的地預(yù)測精度仍有較大提升空間。
在前期研究中,筆者已經(jīng)匯聚了豐富的公交乘客社會經(jīng)濟屬性數(shù)據(jù),通過關(guān)聯(lián)分析RP調(diào)查數(shù)據(jù)和公共交通多源數(shù)據(jù),匹配獲得了通勤個體出行鏈,并且面向公交通勤乘客實現(xiàn)了高、中、低穩(wěn)定性分類,識別出不同穩(wěn)定性通勤乘客目的地的關(guān)鍵影響因素[13-14],為面向個體通勤乘客開展更加精細(xì)化的出行目的地預(yù)測提供了支撐。但是,由于不同穩(wěn)定性乘客目的地影響因素存在類似變量,需要尋求更加優(yōu)秀的學(xué)習(xí)模型以規(guī)避分類出錯的問題。極限梯度提升算法(eXtreme Gradient Boosting,XGBoost)[15-17]較多關(guān)注被已有分類器錯分的數(shù)據(jù)進而獲得新分類器,有助于提高迭代成功率,為面向不同穩(wěn)定類型的乘客目的地預(yù)測提供了途徑。同時,XGBoost在代價函數(shù)中加入正則項,能夠控制模型復(fù)雜度和防止過擬合,并且對代價函數(shù)的二階泰勒展開,促使目標(biāo)數(shù)據(jù)優(yōu)化逼近實際值,相比其他淺層機器學(xué)習(xí)模型具有更高的預(yù)測精度和運算效率。另外,考慮到圖譜能夠準(zhǔn)確表征分類別的結(jié)構(gòu)化知識,作者前期研究建立的個體公交乘客出行圖譜可以提取個體乘客出行特性,并且圖譜轉(zhuǎn)移概率能體現(xiàn)目的地發(fā)生關(guān)聯(lián)性,可以進一步優(yōu)化預(yù)測結(jié)果[18]。
因此,基于前期研究提取的不同穩(wěn)定性公共交通通勤乘客出行鏈和出行目的地關(guān)鍵影響因素,本研究以出行目的地顯著影響因素和該次目的地為輸入變量,下次出行目的地為輸出變量,通過XGBoost模型參數(shù)調(diào)優(yōu),實現(xiàn)高、中、低穩(wěn)定性個體乘客下次出行目的地預(yù)測。在此基礎(chǔ)上,研究利用前期建立的個體公交乘客出行圖譜轉(zhuǎn)移概率,對預(yù)測結(jié)果進行優(yōu)化,以進一步提升預(yù)測精度。研究為提前掌握公交通勤乘客出行目的地提供方法支撐,助力精細(xì)化和定制化的公共交通出行服務(wù)。
通過RP調(diào)查數(shù)據(jù)和公共交通多源數(shù)據(jù)的采集、預(yù)處理與關(guān)聯(lián)匹配,提取反映出行過程的通勤個體乘客出行鏈,為公共交通目的地預(yù)測模型的變量選取奠定支撐。
通過開展RP調(diào)查,獲取乘客的公共交通出行行為信息。主要調(diào)查內(nèi)容為:①IC卡/億通行卡號;②乘客類別屬性(通勤者/非通勤者);③出行特征(出行天數(shù)、上下班/上下學(xué)出行次數(shù)、休閑類出行次數(shù));④社會經(jīng)濟屬性(性別、年齡、職業(yè)、受教育程度、月收入和家庭小汽車數(shù)等)。
其中,將調(diào)查獲得的卡號與刷卡數(shù)據(jù)匹配,提取乘客公共交通刷卡數(shù)據(jù)。乘客類別通過出行目的(通勤/非通勤)界定。出行特征信息主要用于驗證乘客問卷作答的一致性。
依托北京城市交通協(xié)同創(chuàng)新中心和綜合交通協(xié)同運行與超級計算應(yīng)用技術(shù)協(xié)同創(chuàng)新平臺,獲取北京市公共交通刷卡數(shù)據(jù)和線站數(shù)據(jù)[19]。其中,刷卡數(shù)據(jù)包括地面公交IC卡刷卡數(shù)據(jù)和軌道AFC系統(tǒng)數(shù)據(jù),有效字段主要包含卡號、線路號、公交上下車/軌道進出站編號及時間;線站數(shù)據(jù)包括地面公交和軌道的線站數(shù)據(jù),有效字段主要包含站點編號、名稱和經(jīng)緯度等?;谏宪嚂r間將刷卡數(shù)據(jù)與線站數(shù)據(jù)進行排序和整合,通過換乘點時空閾值判別提取個體出行鏈[20],能夠有效獲得出行鏈起訖點、出行時間與距離等信息。
研究依據(jù)調(diào)查獲得的卡號與公共交通刷卡數(shù)據(jù)進行關(guān)聯(lián)匹配,獲得563名通勤者和296名非通勤者的出行鏈數(shù)據(jù)。某通勤個體乘客出行鏈?zhǔn)疽猓姳?。前期分析中采用關(guān)聯(lián)規(guī)則方法將通勤乘客為高、中、低3類穩(wěn)定性的人群,實現(xiàn)了302名通勤乘客穩(wěn)定性辨識[13]。
表1 個體乘客出行鏈?zhǔn)疽釺ab.1 Trip-chain data of individual passengers
研究采用XGBoost算法構(gòu)建不同穩(wěn)定性通勤個體乘客下次目的地預(yù)測模型,并借助圖譜轉(zhuǎn)移概率對預(yù)測結(jié)果進行修正。
XGBoost是基于Boosting的集成學(xué)習(xí)算法。該算法通過組合決策樹和線型分類器等基學(xué)習(xí)器,學(xué)習(xí)模型預(yù)測誤差,改進目標(biāo)函數(shù),并定義樹的復(fù)雜度,盡可能提高預(yù)測準(zhǔn)確性和效率[17]。
目標(biāo)函數(shù)定義為
式中:ft(xi)為第t次迭代加入的預(yù)測函數(shù)。
定義Ω(fk)為葉節(jié)點總數(shù)與葉節(jié)點權(quán)重平方和函數(shù)。
式中:w為葉節(jié)點權(quán)重;γ和λ為調(diào)節(jié)系數(shù)。
本研究選取9個XGBoost算法的關(guān)鍵參數(shù)進行調(diào)優(yōu)[17,21-22]。
1)學(xué)習(xí)速率(learning rate),表征模型的建模速率,取值范圍為[0,0.5]。
2)最大弱學(xué)習(xí)器數(shù)(n-estimators),模型構(gòu)建所需最大弱學(xué)習(xí)器的數(shù)量,取值范圍為[10,150]。
3)每棵樹最大深度(max-depth),取值越大,學(xué)習(xí)樣本越具體,取值范圍為[3,10]。
4)最小葉子節(jié)點樣本權(quán)重和(min-child-weight),防止過擬合,取值范圍為[1,10]。
5)節(jié)點分裂所需最小損失函數(shù)下降值(gamma),表示節(jié)點分類所需最小損失函數(shù)的下降值,取值范圍為[0,0.5]。
6)樣本的采樣率(subsample),訓(xùn)練樣本占整體模型樣本的比例,取值范圍為[0.5,1]。
7)每棵樹采樣的列數(shù)占比(colsample-bytree),每棵樹隨機采樣特征的比例,取值范圍為[0.5,1]。
8)L1正則化項(alpha),權(quán)重的L1正則懲罰項系數(shù)。
9)L2正則化項(lambda),權(quán)重的L2正則懲罰項系數(shù)。
圖譜以符號的形式描述對象間的概念及相互關(guān)聯(lián),并通過關(guān)系相互聯(lián)結(jié),構(gòu)成網(wǎng)狀知識結(jié)構(gòu),能夠?qū)崿F(xiàn)特征的直觀表達(dá)[18]。研究基于北京市2017年4月公共交通出行鏈數(shù)據(jù),繪制個體出行知識圖譜,通過提取圖譜轉(zhuǎn)移概率,為目的地預(yù)測模型優(yōu)化提供支撐。步驟如下。
步驟1。出行空間位置聚類。采用系統(tǒng)聚類方法,將起訖點經(jīng)緯度歸類將為不同的簇。
步驟2。出行時間分類。在空間位置聚類的基礎(chǔ)上,將每組OD簇按照出發(fā)時間與終到時間細(xì)化出行時間。05:00—23:00以2 h為間隔進行劃分。
步驟3。出行路徑聚類。選取出行距離和出行方向表征出行方式,開展出行方式細(xì)化分析。
步驟4。個體出行知識圖譜構(gòu)建。采用多層規(guī)劃理論,將空間位置、出行時間與出行路徑分別作為第一、二、三層,構(gòu)建個體出行知識圖譜。各節(jié)點分別表示每層行為的發(fā)生頻率。
按照上述步驟,繪制乘客A知識圖譜見圖1。
圖1 乘客A個體出行行為知識圖譜Fig.1 Mapping knowledge graph of individual travel behaviors of passenger A
出行知識圖譜中,圓圈內(nèi)節(jié)點的概率表征每層行為的發(fā)生頻率,而OD簇間的弧段權(quán)重表明彼此間的轉(zhuǎn)移概率。研究表明,圖譜能夠準(zhǔn)確表征個體乘客時空出行特征和不同行為間的轉(zhuǎn)移概率[23]。圖譜轉(zhuǎn)移概率采用以下3個步驟計算得到。
步驟1。通過個體乘客出行空間位置聚類獲得出行起訖點集合。
步驟2。按照出發(fā)時間將個體乘客1個月的出行鏈進行排序。
步驟3。針對每類OD到其他OD或自身的百分比進行統(tǒng)計性分析,計算轉(zhuǎn)移概率。
例如,某乘客在1個月公共交通出行中,有11次第二類OD簇發(fā)生在第一類OD簇之后,有3次同樣出行在第一類OD簇之后,而無第三類OD出行。因此,從第一類OD至第二類OD、至自身出行和第三類OD的轉(zhuǎn)移概率分別為0.79(11/14)、0.21(3/14)和0(0/14)。
面向不同穩(wěn)定性的通勤者,以個體乘客為分析單元,分別構(gòu)建基于XGBoost算法的下次出行目的地預(yù)測模型。
模型輸入變量為目的地顯著影響因素與該次出行目的地,輸出變量為下次出行目的地?;谇捌谘芯縖19],不同穩(wěn)定性通勤個體乘客公交出行目的地影響因素存在顯著差異。選取不同穩(wěn)定性乘客目的地的差異化影響因素作為下次出行目的地預(yù)測模型的輸入變量。目的地以終到公交站點所在的交通中區(qū)編號表示。以規(guī)劃用地、街道辦事處、鄉(xiāng)鎮(zhèn)和新城建設(shè)用地等邊界為參考,北京市共劃分為389個中區(qū)[24]。匯總不同穩(wěn)定性公交通勤乘客下次目的地預(yù)測模型的輸入和輸出變量見表2。
表2 下次目的地預(yù)測模型變量選取Tab.2 Model variables for predicting next travel destination
參數(shù)調(diào)優(yōu)是XGBoost模型構(gòu)建的關(guān)鍵步驟。以預(yù)測平均準(zhǔn)確度和標(biāo)準(zhǔn)差為控制變量開展5次交叉檢驗,并逐個調(diào)整learning rate、n-estimators等9個參數(shù),選取平均預(yù)測準(zhǔn)確度高且標(biāo)準(zhǔn)差小的取值為各參數(shù)最優(yōu)值。為保證訓(xùn)練集和測試集數(shù)據(jù)比例均衡,設(shè)置訓(xùn)練集為整體數(shù)據(jù)集的80%,輸入到XGBoost模型中,并將剩余的20%作為測試集進行預(yù)測,測試集模型10次運行平均值為預(yù)測準(zhǔn)確率,作為控制變量進行模型打分。以高穩(wěn)定性乘客A為例,各參數(shù)取值的模型預(yù)測變化結(jié)果見圖2。
圖2 高穩(wěn)定性典型乘客A模型參數(shù)調(diào)優(yōu)過程Fig.2 Model-parameter adjustment for high stability passenger A
由圖2確定乘客A下次出行目的地預(yù)測模型的各參數(shù)最優(yōu)取值見表3。隨機選取該乘客整體數(shù)據(jù)的80%進行訓(xùn)練,20%的測試數(shù)據(jù)進行預(yù)測,得到模型運行10次的平均預(yù)測準(zhǔn)確率為90%。類似地,隨機選取中穩(wěn)定性、低穩(wěn)定性公共交通通勤乘客B和C,分別構(gòu)建乘客的下次目的地預(yù)測模型。選取關(guān)鍵影響因素及該次出行目的地為輸入變量,下次出行目的地為輸出變量,構(gòu)建乘客出行目的地預(yù)測模型并進行參數(shù)調(diào)優(yōu)?;赬GBoost模型,通過模型10次運行獲得乘客B測試數(shù)據(jù)的平均預(yù)測準(zhǔn)確度為66.67%,乘客C平均預(yù)測準(zhǔn)確度為50%。
表3 乘客A下次出行目的地預(yù)測模型參數(shù)優(yōu)化結(jié)果Tab.3 Parameter optimization of the destination prediction model of passenger A
為進一步提高個體乘客下次出行目的地預(yù)測精度,研究基于XGBoost算法獲得的預(yù)測值,針對準(zhǔn)確度欠佳的預(yù)測結(jié)果,結(jié)合圖譜轉(zhuǎn)移概率進行修正。
由2.2可獲得個體乘客圖譜轉(zhuǎn)移概率。研究基于100名個體乘客知識圖譜并計算轉(zhuǎn)移概率p。綜合分析可知,當(dāng)p=0.7時,目的地預(yù)測準(zhǔn)確率較高。因此,研究取p≥0.7對應(yīng)的下次目的地作為預(yù)測修正結(jié)果。
利用圖譜轉(zhuǎn)移概率修正后,乘客A下次出行目的地平均預(yù)測準(zhǔn)確率提升至91.2%,乘客B預(yù)測準(zhǔn)確率提高至83.21%,乘客C提高至69.5%。隨著乘客出行穩(wěn)定降低,圖譜轉(zhuǎn)移概率對出行目的地預(yù)測準(zhǔn)確率的修正效果越明顯。
研究基于XGBoost集成學(xué)習(xí)模型,面向不同穩(wěn)定性的公交通勤乘客,依據(jù)各乘客輸入變量和輸出變量構(gòu)建模型并進行參數(shù)調(diào)優(yōu),分別構(gòu)建了86名高穩(wěn)定乘客、102名中穩(wěn)定乘客和114名低穩(wěn)定性乘客下次出行目的地預(yù)測模型,并結(jié)合圖譜轉(zhuǎn)移概率進行修正。
3.4.1 模型性能評價
選取準(zhǔn)確率(Accuracy)、宏F1(MacroF1)、微F1(MicroF1)共同作為模型預(yù)測效果的評價指標(biāo)。指標(biāo)計算方法如下。
1)準(zhǔn)確率(Accuracy)
式中:RY為預(yù)測正確的樣本數(shù),N為測試總樣本數(shù)。
2)宏F1(MacroF1)
式中:Pi為第i個目的地預(yù)測精確率;Ri為第i個目的地預(yù)測召回率。P和R計算公式見式(6)~(7)。
1)式中:TP為真陽性,則預(yù)測為真,實際為真;FP為假陽性,則預(yù)測為真,實際為假;FN為假陰性,則預(yù)測為假,實際為真。針對測試數(shù)據(jù),每類目的地分別計算TP、FP和FN,進而計算P和R,得到MacroF1。MacroF1取值為(0,1),分?jǐn)?shù)越高,模型預(yù)測精度越高。
3)微F1(MicroF1)
式中:P*為合并精確率;R*為合并召回率。MicroF1取值介于(0,1),分?jǐn)?shù)越高,預(yù)測結(jié)果越好。
3.4.2 預(yù)測結(jié)果評價
根據(jù)以上評價指標(biāo),分析高穩(wěn)定性乘客A下次出行目的地預(yù)測準(zhǔn)確性,見表4。該乘客目的地預(yù)測精度在圖譜轉(zhuǎn)移概率修正后變化不顯著。修正前MacroF1與MicroF1分別為0.69和0.90,修正后分別提高至0.83和0.93??芍?,轉(zhuǎn)移概率修正后該乘客預(yù)測模型精度小幅提高。
表4 乘客A預(yù)測結(jié)果統(tǒng)計Tab.4 Forecasting results of passenger A
研究評價中穩(wěn)定性乘客B與低穩(wěn)定性乘客C下次出行目的地預(yù)測結(jié)果,見表7。乘客B修正后預(yù)測精度由66.67%提高至83.21%,MacroF1與MicroF1由0.52和0.67分別提高至0.81和0.83;乘客C修正后預(yù)測精度為69.5%,相比修正前提高了19.5%,MacroF1與MicroF1分別由0.45和0.50調(diào)高至0.52和0.70??芍蟹€(wěn)定性與低穩(wěn)定性乘客的預(yù)測準(zhǔn)確率與預(yù)測精度在圖譜轉(zhuǎn)移概率修正后實現(xiàn)了有效提升。
研究在典型乘客目的地預(yù)測模型構(gòu)建的基礎(chǔ)上,面向高、中、低3類穩(wěn)定性通勤乘客逐一構(gòu)建XGBoost算法與圖譜轉(zhuǎn)移概率結(jié)合的預(yù)測方法,采用Python語言開展下次出行目的地的預(yù)測,得到修正前后下次出行目的地平均預(yù)測結(jié)果見表5??芍?,高穩(wěn)定性公交通勤乘客修正前后的下次出行目的地預(yù)測準(zhǔn)確率與精度變化不明顯,修正后平均預(yù)測準(zhǔn)確率為92.12%,MacroF1和MicroF1分別為0.80和0.92。中、低穩(wěn)定性乘客預(yù)測結(jié)果提高顯著:中穩(wěn)定性乘客修正后平均預(yù)測準(zhǔn)確率提高了8.39%,達(dá)到80.92%,MacroF1和MicroF1分別為0.52和0.81;低穩(wěn)定性乘客修正后預(yù)測準(zhǔn)確率提高了14.14%,提升至67.27%,MacroF1和MicroF1分別為0.48和0.67。
表5 不同穩(wěn)定性公共交通通勤乘客下次出行目的地預(yù)測結(jié)果統(tǒng)計Tab.5 Forecasting results of next travel destinations ofpublic transport commuters with different stability
由以上分析可知,不同出行穩(wěn)定性的公交通勤乘客,其出行目的地預(yù)測結(jié)果的準(zhǔn)確性存在較大差異。高穩(wěn)定性乘客,由于其出行特征較為固定,因此僅依靠XGBoost算法便能得到較高的預(yù)測準(zhǔn)確性,且通過圖譜轉(zhuǎn)移概率修正也較少有進一步提升空間。相反,中、低出行穩(wěn)定性乘客其出行規(guī)律較難把握,因此僅借助XGBoost算法較難獲得理想的預(yù)測精度,而圖譜轉(zhuǎn)移概率的加入可以較大程度上提升預(yù)測效果,但總體仍低于高穩(wěn)定性乘客的預(yù)測準(zhǔn)確度。
研究分別面向高、中、低穩(wěn)定性共302名通勤乘客的下次出行目的地開展聚合分析。并依托北京市城市公共交通智能化應(yīng)用示范工程——城市公共交通運行監(jiān)測與綜合信息服務(wù)系統(tǒng)(以下簡稱公交都市系統(tǒng))的實時數(shù)據(jù)對聚合結(jié)果進行驗證。
截至2017年4月25日24:00,面向302名公共交通通勤者,在順次預(yù)測各乘客下次出行目的地的基礎(chǔ)上,開展下次目的地聚合的統(tǒng)計性分析。
預(yù)測各高穩(wěn)定性乘客在第二天(2017年4月26日)第一次采用公共交通出行的目的地。通過與實際刷卡數(shù)據(jù)對比,平均預(yù)測準(zhǔn)確率達(dá)92.84%。并根據(jù)預(yù)測結(jié)果,統(tǒng)計TOP10熱點目的地,對應(yīng)交通中區(qū)見表6。熱點目的地分別占高穩(wěn)定性乘客出行所有目的地比例,共計占下次出行目的地的68.75%。
表6 高穩(wěn)定性乘客下次出行熱點目的地預(yù)測Tab.6 Prediction of hot destinations for high stabilitypassengers'next trip
同樣地,預(yù)測得到中、低穩(wěn)定性乘客在2017年4月26日第一次乘坐公共交通的目的地,通過與實際出行數(shù)據(jù)對比,平均預(yù)測準(zhǔn)確率分別為80.67%和68.39%。根據(jù)預(yù)測結(jié)果統(tǒng)計TOP10熱點目的地所在的交通中區(qū),及各熱點目的地占所有中、低穩(wěn)定性乘客下次出行目的地的占比分別為53.92%和48.75%,見表7~8。
表7 中穩(wěn)定性乘客下次出行熱點目的地預(yù)測結(jié)果Tab.7 Prediction of hot destinations formoderate-stability passengers'next trip
表8 低穩(wěn)定性乘客下次出行熱點目的地預(yù)測結(jié)果Tab.8 Prediction of hot destinations for low-stability passengers'next trip
由于公交都市系統(tǒng)出行者不區(qū)分穩(wěn)定性,研究將不同穩(wěn)定性公交通勤乘客在2017年4月26日早高峰乘坐公共交通出行的預(yù)測結(jié)果進行統(tǒng)合。依據(jù)公交都市系統(tǒng)記錄的公共交通出行特征信息,提取2017年4月26日通勤出行量和各交通中區(qū)出行吸引量數(shù)據(jù),對通勤群體目的地預(yù)測結(jié)果進行對比驗證。統(tǒng)合結(jié)果與公交都市系統(tǒng)熱點交通中區(qū)的對比,見表9。
表9 通勤乘客群體熱點目的地對比Tab.9 Comparisons of hot destinations of commuterpassengers
由交通中區(qū)排序結(jié)果可得以下結(jié)論。
1)熱點目的地預(yù)測值與真實值吻合度較高,有9個預(yù)測目的地中區(qū)在真值范圍內(nèi),并具有相近的排序。
2)按照排序依次計算相鄰目的地吸引量比值,得到客流預(yù)測值變化梯度分別為1.07,1,1.17,1.09,1.22,1.125,1,1.33,1;對于熱點目的地真值,客流變化梯度分別為1.04,1.05,1.24,1.02,1.35,1.35,1.01,1.02,1.01。計算客流預(yù)測值與真值變化梯度的絕對百分誤差見表10,均小于10%。由于不同熱點目的地其高、中、低出行穩(wěn)定性乘客的占比不一樣,所以導(dǎo)致客流變化梯度的絕對百分誤差存在一定不同。絕對百分誤差低的交通中區(qū)高穩(wěn)定性乘客占比高,客流預(yù)測值準(zhǔn)確度高;相反,絕對百分誤差高的交通中區(qū)其低穩(wěn)定性乘客占比高,客流預(yù)測值準(zhǔn)確度低。
表10 客流變化梯度對比Tab.10 Comparison of variable gradients of passenger flow
1)基于XGBoost算法,以出行目的地顯著影響因素和該次目的地為輸入變量,下次出行目的地為輸出變量,并結(jié)合圖譜轉(zhuǎn)移概率修正,構(gòu)建了不同穩(wěn)定性公共交通通勤個體的下次出行目的地預(yù)測方法。
2)隨機選取個體乘客整體數(shù)據(jù)的80%作為訓(xùn)練集,另外20%數(shù)據(jù)作為測試集,獲得高、中、低穩(wěn)定性乘客的平均預(yù)測精度分別為92.12%,80.92%和67.27%,MacroF1分別為0.80,0.52和0.48,MicroF1分別為0.92,0.81和0.67。高穩(wěn)定性乘客下次出行目的地總體預(yù)測精度超過90%,隨著乘客采用公共交通出行的穩(wěn)定性減弱,預(yù)測精度相應(yīng)降低。
3)基于公交都市系統(tǒng)出行數(shù)據(jù)開展聚合結(jié)果驗證,結(jié)果表明熱點目的地客流變化梯度絕對百分誤差均小于10%。在劃分通勤乘客出行穩(wěn)定性的基礎(chǔ)上,融合XGBoost和圖譜修正的公交通勤乘客目的地預(yù)測預(yù)測方法具有較高準(zhǔn)確性。
由于低穩(wěn)定性通勤乘客出行規(guī)律性較弱,未來將面向低穩(wěn)定性乘客進一步開展出行目的地預(yù)測概率方法研究,助力分析低穩(wěn)定性乘客未來出行空間分布特征。除此,后續(xù)將拓展不同穩(wěn)定性乘客從個體到群體至區(qū)域?qū)用娴哪康牡仡A(yù)測方法,促進公交乘客目的地預(yù)測在公交走廊及區(qū)域?qū)用鎸嶋H驗證和推廣應(yīng)用,助力交通服務(wù)影響政策制定與評估。