廖采盈,張 彤,黃 練
(1.武漢大學(xué)測(cè)繪遙感信息工程國(guó)家重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430079; 2.深圳市易景空間智能科技有限公司,廣東 深圳 518052)
路徑選擇建模,是通過(guò)最大化個(gè)人在出行中遵循的效用函數(shù)來(lái)估計(jì)可能選擇的路徑。傳統(tǒng)的路徑選擇模型多采用離散選擇模型(Discrete Choice Model,DCM),模型通常從連接起點(diǎn)和目的地(Origin and Destination,OD)的路徑選擇集里選擇一條路徑,模型簡(jiǎn)單但需要提前對(duì)OD間的路徑進(jìn)行采樣形成一個(gè)有限的選擇集,這在大型的城市公共交通網(wǎng)絡(luò)中是一項(xiàng)困難的任務(wù)[1]。同時(shí)大多數(shù)DCM假設(shè)了線性參數(shù)的效用函數(shù),無(wú)法揭示復(fù)雜的路徑選擇偏好[2]。
近年來(lái),深度學(xué)習(xí)因其良好的預(yù)測(cè)性能已經(jīng)成為經(jīng)典DCM的有力替代[3]。其中,深度逆強(qiáng)化學(xué)習(xí)(Inverse Reinforcement Learning,IRL)很適合用于路徑選擇問(wèn)題,因?yàn)樗诮Y(jié)構(gòu)上與動(dòng)態(tài)DCM相似[4],可以解釋選擇行為,并且足夠靈活,可以納入深度架構(gòu)和高維特征捕捉非線性的偏好信息。IRL將路徑選擇問(wèn)題表述為順序選擇路徑段的馬爾科夫決策過(guò)程,并從觀察到的真實(shí)路徑中恢復(fù)獎(jiǎng)勵(lì)函數(shù)(類(lèi)似于效用函數(shù))。最近的幾項(xiàng)工作證明了IRL在路徑預(yù)測(cè)[5]和路徑生成[6]方面的潛力。
該文將在智能公交卡數(shù)據(jù)的驅(qū)動(dòng)下,建立用于城市公共交通乘客路徑選擇的逆強(qiáng)化學(xué)習(xí)模型,利用深度神經(jīng)網(wǎng)絡(luò)近似獎(jiǎng)勵(lì)函數(shù)來(lái)納入更多高維特征以捕捉潛在的路徑選擇偏好(成本)。最后,以深圳市公共交通網(wǎng)絡(luò)為案例,進(jìn)行分析。
該文將乘客的路徑選擇過(guò)程看作是一個(gè)馬爾可夫決策過(guò)程(Markov Decision Process,MDP),此時(shí)乘客路徑選擇的概率和出行行為的成本可以通過(guò)策略網(wǎng)絡(luò)、獎(jiǎng)勵(lì)(成本)函數(shù)得到解釋。一個(gè)MDP通常可以描述為:智能體從某一個(gè)狀態(tài)sS出發(fā),根據(jù)策略π(a|s)在aA選取動(dòng)作執(zhí)行后,環(huán)境將會(huì)以pa(s,s')的狀態(tài)轉(zhuǎn)移概率轉(zhuǎn)換到下一個(gè)狀態(tài)s',同時(shí)將給予智能體一個(gè)確定的獎(jiǎng)勵(lì)r(s,s'),該過(guò)程將不斷進(jìn)行直到終止?fàn)顟B(tài)。逆強(qiáng)化學(xué)習(xí)的目標(biāo)是要學(xué)習(xí)出一個(gè)獎(jiǎng)勵(lì)函數(shù)rθ(s,a),再使用它來(lái)學(xué)習(xí)最優(yōu)策略π*(a|s),其中θ是參數(shù)。
1.2.1 環(huán)境描述
該文基于OpenAI的Gym庫(kù)[7]構(gòu)建了城市公共交通網(wǎng)絡(luò)的模擬環(huán)境,將公交站點(diǎn)、地鐵站點(diǎn)定義為圖節(jié)點(diǎn),節(jié)點(diǎn)的連接邊定義為交通線路和步行可達(dá)邊,從而抽象表達(dá)出城市的交通網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示。
圖1 環(huán)境交互下的出行過(guò)程表達(dá)
1.2.2 狀態(tài)表達(dá)
狀態(tài)來(lái)自對(duì)智能體的描述,即對(duì)乘客的位置、行程完成度和出行意圖的特征表達(dá)。因此,該文設(shè)計(jì)了如圖2所示的狀態(tài)表達(dá)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)提取乘客的出行條件,希望具有相同行為序列的乘客被映射到相似的向量空間之中,以此區(qū)分不同出行的乘客狀態(tài)。
圖2 狀態(tài)特征表達(dá)網(wǎng)絡(luò)
1.2.3 行為設(shè)計(jì)
模型的動(dòng)作空間由公共交通網(wǎng)絡(luò)環(huán)境中的路徑組成,考慮到路徑選擇與出行行為的對(duì)應(yīng)關(guān)系,可將乘客的路徑選擇抽象為三個(gè)可解釋的出行行為:
(1)本站乘車(chē):不下車(chē),繼續(xù)乘坐本線路到下一站。
(2)本站換乘:在本站下車(chē),乘坐本站其他線路到下一站。
(3)異站換乘:在本站下車(chē),步行至其他站點(diǎn),乘坐某一線路到下一站。
1.2.4 成本估計(jì)
成本具體體現(xiàn)為乘客每一次選擇路徑后進(jìn)行狀態(tài)轉(zhuǎn)移所應(yīng)花費(fèi)的相應(yīng)成本,在求解對(duì)不同出行行為的乘客偏好時(shí),難以用一個(gè)統(tǒng)一的成本函數(shù)形式來(lái)參數(shù)化乘客對(duì)不同行為成本的衡量標(biāo)準(zhǔn),因此我們通過(guò)構(gòu)建一個(gè)對(duì)抗逆強(qiáng)化學(xué)習(xí)模型來(lái)優(yōu)化由深度神經(jīng)網(wǎng)絡(luò)近似的成本函數(shù)。
Finn[8]指出,逆強(qiáng)化學(xué)習(xí)目標(biāo)函數(shù)公式(1)與生成式對(duì)抗網(wǎng)絡(luò)的目標(biāo)函數(shù)公式(2)有著極其相似的性質(zhì),并證明了生成式對(duì)抗網(wǎng)絡(luò)優(yōu)化的正是最大熵逆強(qiáng)化學(xué)習(xí)的目標(biāo)函數(shù):
因此將生成式對(duì)抗網(wǎng)絡(luò)的思想應(yīng)用到逆強(qiáng)化學(xué)習(xí)問(wèn)題,其中,判別器的目標(biāo)函數(shù)D(s,a)由公式(3)給出,其中由狀態(tài)價(jià)值函數(shù)和狀態(tài)動(dòng)作價(jià)值函數(shù)的優(yōu)勢(shì)差由公式(4)得到。
綜上,該文提出基于生成式對(duì)抗網(wǎng)絡(luò)的逆強(qiáng)化學(xué)習(xí)模型,迭代求解最優(yōu)策略下的最優(yōu)獎(jiǎng)勵(lì)函數(shù)。模型流程如圖3所示。
圖3 模型流程圖
該文以深圳市公共交通系統(tǒng)作為實(shí)例研究,使用的數(shù)據(jù)包括城市交通網(wǎng)絡(luò)數(shù)據(jù)和公共交通乘客出行數(shù)據(jù)如下所述:
(1)城市交通網(wǎng)絡(luò)數(shù)據(jù):2017年深圳市公交站點(diǎn)、地鐵站點(diǎn)、公交線路、地鐵線路組成的交通路網(wǎng),包括816條公交線路,8條地鐵線路。
(2)公共交通出行數(shù)據(jù):基于深圳市2017年4月20日星期四的公共交通出行鏈數(shù)據(jù),數(shù)量約為372萬(wàn),進(jìn)行模型的訓(xùn)練與測(cè)試。
選取某一OD對(duì),將起始站出行路徑的真實(shí)乘客樣本的起點(diǎn)狀態(tài)輸入模型,應(yīng)用生成器進(jìn)行模擬樣本的生成,再通過(guò)判別器輸出對(duì)真實(shí)樣本和生成樣本中各出行選擇行為的預(yù)測(cè),結(jié)果如圖4所示??梢钥闯觯蓸颖静煌袨榈某杀九c真實(shí)樣本能很好地匹配,在一些成本比較小的行為上也能達(dá)到良好的預(yù)測(cè)效果。因此除了應(yīng)用判別器網(wǎng)絡(luò)來(lái)估計(jì)乘客出行行為成本外,模型還可為公共交通規(guī)劃模擬乘客出行、預(yù)測(cè)客流量提供一些決策數(shù)據(jù)支撐。
圖4 判別器對(duì)乘客樣本和生成樣本的行為成本估計(jì)
該文基于馬爾可夫決策過(guò)程,將乘客的路徑選擇表示為在環(huán)境中路網(wǎng)路徑的選擇,再基于站點(diǎn)-線路的組合抽象出出行行為;乘客的狀態(tài)集成了乘客當(dāng)前的出行情況,定義為乘客當(dāng)前位置、乘客的累積時(shí)間花費(fèi)、乘客的出行行為序列。通過(guò)基于生成式對(duì)抗網(wǎng)絡(luò)的逆強(qiáng)化學(xué)習(xí)模型訓(xùn)練出衡量乘客路徑選擇的成本函數(shù),然后基于這一成本函數(shù)可從出行成本角度對(duì)乘客不同出行行為進(jìn)行分析。該文提出的路徑選擇模型如何應(yīng)用到公共交通運(yùn)營(yíng)規(guī)劃和資源配置中將是下一步的研究重點(diǎn)。