李雪巖張漢坤李靜邱荷婷
(1.北京聯(lián)合大學 管理學院,北京 100101;2.北京工商大學 電商與物流學院,北京 100048;3.北京交通大學 經(jīng)濟管理學院,北京 100044;4.首都經(jīng)濟貿(mào)易大學 管理工程學院,北京 100070)
票價制定是實現(xiàn)城市交通系統(tǒng)客流調(diào)控、疏解擁堵的重要手段。然而,目前我國大部分城市的公共交通系統(tǒng)運營都處于整體虧損狀態(tài)。除去建設費用高昂、公益性等因素外,一個重要原因就在于網(wǎng)絡化多模式公共交通系統(tǒng)條件下,多種影響出行需求的因素耦合聯(lián)動,票價的調(diào)節(jié)機制相對滯后,難以在高額成本和群體出行需求的雙重約束下實現(xiàn)經(jīng)濟效益與社會效益的有效權衡??梢?如何設計科學合理的票價調(diào)節(jié)機制,使其有效捕捉具有復雜性、異質(zhì)性、機動性的出行需求,從而減少運營虧損、平衡運輸資源配置值得高度關注并亟待解決。
國內(nèi)外已有較多文獻從不同角度對城市公共交通票價的制定問題展開了研究,就研究此類問題的總體思路而言,城市公共交通票價制定問題可以轉化為由票價管理部門與出行者構成的、具有雙層反饋結構的決策優(yōu)化問題。上層決策目標包含利潤或社會福利最大化、線路區(qū)間價格合理性、不同運輸方式間的競爭均衡性、最優(yōu)補貼策略等;下層決策則主要通過出行者對效用的感知過程刻畫其選擇行為。票價尋優(yōu)的關鍵之一在于獲取出行需求對票價的反應函數(shù),目前的可行方法主要包括:通過變分不等式獲取出行需求對價格變動的近似導數(shù)關系[1-2]、使用出發(fā)點到終點(origendestination,OD)間潛在需求與彈性系數(shù)構造彈性出行需求[3]、基于回顧性調(diào)查建立多變量模型分析票價變動對居民效用獲得的影響[4]、試錯迭代法[5]、均衡配流分析法[6]等。然而,在大多數(shù)既有的票價優(yōu)化問題中,出行需求大多基于一般均衡理論被刻畫為具有完全理性特征[6-7],可見,此類研究雖然獲取了票價的嚴格長期均衡,但均對出行者的內(nèi)在決策過程及行為復雜性進行了不同程度的簡化,存在一定程度的反直覺悖論特征[8]。
顯然,這種對出行者群體復雜決策過程的簡化會帶來價格決策有效性的偏差。大量研究都曾表明,交通系統(tǒng)內(nèi)的決策行為不同于個人基于備選方案的單純比較,個體行為之間并非相互獨立的,在人們的出行決策過程中存在著廣泛的社會互動效應[9-10],僅將個體行為進行簡單的加總得到的宏觀現(xiàn)象勢必與現(xiàn)實情形存在差異。因此,研究者開始從社會學、行為科學角度,分析社會交互機制對交通行為的動機與特性的影響[11]。以占據(jù)公共交通系統(tǒng)客流較大比重的通勤客流為例,其內(nèi)部就存在著強烈的社會互動以及典型的異質(zhì)風險決策類型,如保守型與冒險型乘客的價格、時間敏感度差異、支付意愿差異、心理賬戶[12]等,這些因素均會促使群體決策結果發(fā)生均衡轉移,繼而使不同運輸方式的分擔率產(chǎn)生波動[13]??梢?由日常出行活動凝聚而成的出行群體形成了一個特殊的人際社會網(wǎng)絡,隨著具有異質(zhì)特征的風險態(tài)度、行為模式、選擇偏好在人際社會網(wǎng)絡中的傳播[14],傳統(tǒng)研究中出行需求與票價之間的關系已經(jīng)由簡單的線性彈性關系轉變?yōu)槎嗑S復雜的非線性反饋關系。
由上述文獻可知,除去出行需求本身的動態(tài)變化以外,與出行需求演化機理相關的內(nèi)生變量也是影響出行需求的重要因素,因此票價制定過程中需要參考的變量與因素將進一步復雜化?;谶@一問題,本文將公共交通票價的制定與調(diào)節(jié)視為一個在復雜社會經(jīng)濟系統(tǒng)中經(jīng)過不斷探索與調(diào)節(jié)而實現(xiàn)價格優(yōu)化的學習過程(符合實際生活中各種價格方案的實施過程)。深度Q 值強化學習(deep Q-learning,DQN)算法提出以來[15],以DQN 為典型代表的深度強化學習思想不斷被應用于城市交通系統(tǒng)的智能化研究并已經(jīng)在地鐵客流誘導[16]、交通能源分配[17]研究中取得了良好的效果,其基本原理是在較為復雜的決策環(huán)境里,通過對智能體的輸出動作進行評分和獎勵,逐步訓練其達到?jīng)Q策目標(圖1)。深度強化學習方法的突出優(yōu)點在于其采用了價值函數(shù)神經(jīng)網(wǎng)絡的方式感知復雜、高維的環(huán)境變化,并據(jù)此評價決策動作的輸出;這一建模思想,是對傳統(tǒng)的、基于一般均衡理論的票價優(yōu)化方法的重要補充。
圖1 深度強化學習的基本邏輯Figure 1 The basic logic procedure of deep reinforcement learning
在出行者群體決策復雜性條件下,出行需求與票價之間的關系轉變?yōu)槎嗑S復雜的非線性反饋關系,因此,本文將具有較強非線性特征表現(xiàn)能力的價值函數(shù)神經(jīng)網(wǎng)絡用于擬合出行需求(環(huán)境)對票價調(diào)整(動作)的反應函數(shù),實現(xiàn)出行需求不確定性條件下票價的動態(tài)調(diào)整,形成一套雙層反饋結構下具有復雜需求感知能力的票價優(yōu)化方法。
(1)出行方式票價決策??紤]兩站點之間的出行活動,出行方式劃分為:①目標出行方式;②其他出行方式;不同出行方式間存在競爭關系,本文將DQN 方法運用于目標出行方式i的票價優(yōu)化(1.2 節(jié)與1.3 節(jié));為了便于對比分析基于DQN 的票價調(diào)節(jié)策略與既有方法對出行需求的感知差異,其他出行方式的票價采用傳統(tǒng)雙層規(guī)劃方法進行優(yōu)化(詳見1.4 節(jié))。
(2)出行者群體決策復雜性。交通系統(tǒng)出行需求演化所產(chǎn)生的復雜性不僅是引入深度強化學習思想實現(xiàn)票價優(yōu)化的原因,也是現(xiàn)實生活中廣泛存在的實際現(xiàn)象。大量研究已表明,出行者群體決策的生成、演化過程受到有限理性與社會交互作用的共同影響,因此,本文將目前已被運用于出行行為復雜性研究的多主體建模、累積前景理論進行有機結合,刻畫具有社會交互機制的群體出行選擇決策。
出行者群體的基本假設如下:①出行者群體被劃分為風險愛好與風險厭惡兩種不同的風險態(tài)度類型,風險愛好者傾向于更少的出行費用預算,風險厭惡者傾向于更多的出行費用預算;②出行者對出行效用的判斷由票價、行程時間、出行方式的舒適度構成;③出行者的風險態(tài)度會隨時間變化并受到由人際網(wǎng)絡構成的社會環(huán)境的影響,在不同的風險態(tài)度類型之間切換;模型構建詳見第2 節(jié)。
深度強化學習算法的原理是在復雜的環(huán)境狀態(tài)下,通過對智能體輸出動作的評分和獎勵逐步訓練其達到?jīng)Q策目標,本文借鑒深度強化學習算法中智能體對復雜環(huán)境的適應過程來設計票價調(diào)節(jié)策略與復雜出行需求之間的反應函數(shù)。
將t時刻OD對w間目標出行方式i的票價調(diào)節(jié)策略設置為模型的動作變量Δpi,t,Δpi,t的動作即為提價或降價的幅度,Δpi,t的決策空間做如下設置:Δpi,t∈{在pi,t的基礎上降價Δpk%,……,在pi,t的基礎上降價Δp2%,在pi,t的基礎上降價Δp1%,票價不變,在pi,t的基礎上提價Δp1%,在pi,t的基礎上提價Δp2%,……,在pi,t的基礎上提價Δpk%}(Δp1<Δp2<…<Δpk);將票價調(diào)節(jié)后OD 間出行群體演化產(chǎn)生的不同出行方式的客流量qi,t(由出行群體交互模型得到,即出行需求)、不同出行方式的票價pi,t作為算法中的狀態(tài)變量Sw,t;將目標出行方式i的運營收入作為獎勵值R(Sw,t,Δpi,t),狀態(tài)Sw,t條件下,對于票價調(diào)節(jié)策略Δpi,t,其評分值Q(Sw,t,Δpi,t) 的一般形式可由貝爾曼方程表示為:
其中,γ表示強化學習參數(shù),在復雜的出行需求演化條件下,問題的狀態(tài)集合規(guī)模不斷增大,票價的調(diào)節(jié)往往伴隨著很大的狀態(tài)空間和連續(xù)的動作空間,此時就需要用一個準確的價值函數(shù)來表示不同票價調(diào)節(jié)策略的評分值。遵循深度強化學習中所廣泛采用的方法,本文引入具有較強非線性特征描述能力的神經(jīng)網(wǎng)絡來表征價格調(diào)節(jié)策略的價值函數(shù),并基于loss 函數(shù)訓練,其中,當票價落在合理區(qū)間內(nèi)時,獎勵值R(Sw,t,Δpi,t)由t時刻實施票價調(diào)節(jié)策略Δpi,t后出行方式i獲得的利潤構成:
其中,ζ表示獎勵系數(shù),表示單位成本,當票價落在合理區(qū)間[pi,min,pi,max] 外時會產(chǎn)生懲罰-r,相比于硬性約束,“懲罰” 機制的設計有利于票價調(diào)節(jié)動作在“錯誤” 中積累經(jīng)驗,qi,t+1由票價作用下出行者群體的出行需求演化結果得到(詳見第2 節(jié))。
本文采用DQN 的思想訓練票價調(diào)節(jié)的動作變量,DQN主要使用的技巧是經(jīng)驗回放,即將出行者群體與其他運輸方式每次對票價的反應(狀態(tài)變量)與相應的獎勵值都保存起來,用于依據(jù)(1)式進行票價調(diào)節(jié)策略(動作變量)評分值Q(Sw,t,Δpi,t) 的更新,基于更新后的Q(Sw,t,Δpi,t),通過梯度的反向傳播來更新神經(jīng)網(wǎng)絡的參數(shù)W,當W收斂后,即可得到票價調(diào)節(jié)策略價值函數(shù)的準確形式,通過票價調(diào)節(jié)策略(動作變量) 的不斷迭代,得到最終的票價優(yōu)化結果。
具體訓練步驟如下:
步驟1初始化神經(jīng)網(wǎng)絡的參數(shù),基于W初始化所有票價調(diào)節(jié)策略的評分值Q(Sw,t,Δpi,t),令票價調(diào)節(jié)經(jīng)驗回放集合為D。
步驟2構建狀態(tài)特征向量Sw,t=[pi,t,qi,t,p-i,t,q-i,t],其中,-i表示其他運輸方式,p-i,t表示其他運輸方式的票價,q-i,t表示其他運輸方式的出行需求,令Nw表示OD對w間的總體出行需求,則有qi,t +∑q-i,t=Nw。在神經(jīng)網(wǎng)絡中令Sw,t與Δpi,t作為輸入,得到每一種票價調(diào)節(jié)策略對應的評分值輸出,采用貪婪算法選擇評分高的票價調(diào)節(jié)策略(以概率εt隨機選擇票價調(diào)節(jié)策略,以概率1-εt選取評分最高的票價調(diào)節(jié)策略,εt隨時間遞減Δε)。
步驟3在狀態(tài)Sw,t執(zhí)行當前動作,則pi,t+1=pi,t +,新的票價對其他運輸方式及出行者群體決策產(chǎn)生影響后,得到新狀態(tài)Sw,t+1=[pi,t+1,qi,t+1,p-i,t+1,q-i,t+1]及其獎勵值R(Sw,t,Δpi,t),其中,其他運輸方式的票價p-i,t+1由傳統(tǒng)雙層規(guī)劃方法得到(詳見2.4 節(jié)),q-i,t+1由實施票價調(diào)節(jié)策略后客流量的演化結果得到(詳見2.2 節(jié)不同行為假設條件下的客流演化模型)。
步驟4將存入經(jīng)驗回放集合D,令Sw,t=Sw,t+1。
步驟5從經(jīng)驗回放集合D中隨機選取若干狀態(tài)樣本,依據(jù)(1)~(2) 式更新評分值Q(Sw,t,Δpi,t)。
步驟6基于均方差函數(shù),W)]2,通過梯度反向傳播更新神經(jīng)網(wǎng)絡參數(shù)W。
步驟7完成一輪迭代,轉到步驟2。
每次以狀態(tài)變量及票價調(diào)節(jié)策略作為神經(jīng)網(wǎng)絡輸入,均可得到針對每一種客流量狀態(tài)的最優(yōu)票價調(diào)節(jié)結果,因此,以任意客流量為初始狀態(tài),經(jīng)過票價調(diào)節(jié)策略的多輪迭代,即可得到最終的票價優(yōu)化結果。
對于目標出行方式以外的其他出行方式-i,其優(yōu)化問題可以表示為雙層規(guī)劃模型:
因此,對目標出行方式i引入基于DQN 的票價優(yōu)化策略后,雙層規(guī)劃問題更新為:
由規(guī)劃問題(4)可知,引入DQN 策略后,目標出行方式i票價變動的彈性通過DQN 中的價值函數(shù)神經(jīng)網(wǎng)絡獲取,其他出行方式-i的票價則沿用傳統(tǒng)優(yōu)化方法獲取。神經(jīng)網(wǎng)絡的使用,可以更加精細化地捕捉出行方式-i票價的變化及下層規(guī)劃maxV(pi,t,p-i,t) 產(chǎn)生的出行需求復雜性。
(1)出行者社會人際網(wǎng)絡
現(xiàn)實中的出行者群體人際網(wǎng)絡具有小世界特性,本文直接引入既有研究中的出行者小世界網(wǎng)絡構造方法[19]建立規(guī)模為n × n的出行者群體二維空間網(wǎng)絡結構,構建方法如下。
步驟1設置區(qū)域x∈[1,n],y∈[1,n] 為出行者群體產(chǎn)生的網(wǎng)格區(qū)域,每個網(wǎng)格節(jié)點代表一個出行者,則出行總需求為Nw=n2,每個出行者與上下左右四個出行者((x ±1,y),(x,y ±1)) 建立連接,形成規(guī)則網(wǎng)絡。
步驟2遍歷每一個出行者節(jié)點,依斷點重連概率斷開其與上下左右任意一個出行者之間的連接,然后與上下左右四個出行者以外的任意一個出行者建立連接,形成新的“鄰居”關系。
圖2 出行者社會人際網(wǎng)絡Figure 2 Traveler's social network
文獻[19]考察了上述網(wǎng)絡構建方式得到的網(wǎng)絡聚合系數(shù)與平均最短距離,研究表明,當斷點重連概率為0.5 時,人際網(wǎng)絡具有小世界特征。
(2)參照點
令Fi,t表示t時刻出行方式i的感知出行費用(負效用),服從正態(tài)分布,Fi,t~N[fi,t,(σi,t)2],其中:
其中,hi與ci分別表示出行方式i的行程時間與舒適度,考慮不同出行方式的容量與擁擠因素,設置ci正比于交通載具的定員;ξp,ξh,ξc分別為相應懲罰系數(shù),則ξc·ci表示出行費用的擁擠度懲罰項[20];φi表示出行方式i的變異系數(shù),用來描述出行方式的穩(wěn)定性。
進一步,令ρ(ρ∈(0,1)) 表示出行者群體的整體風險態(tài)度,依據(jù)既有研究中對出行者心理賬戶的刻畫方式,對于出行者群體整體而言,出行方式i的費用預算可以表示為:
其中,Φ-1(·) 為正態(tài)分布函數(shù)的反函數(shù),對于出行者的風險愛好與風險厭惡兩種態(tài)度,其參照點可以表示為:
其中,N表示出行方式總數(shù),ηx,y,t表示t時刻出行者(x,y) 的風險態(tài)度,,η1表示風險愛好,η2表示風險厭惡。
(3)累積前景效用
針對前景效用的刻畫,本文繼續(xù)沿用文獻[21][22]的方法,在置信水平98%的置信區(qū)間內(nèi)對Fi,t進行離散化,得到k個可能的費用結果及相應的概率,從而依據(jù)效用的離散分布模擬其連續(xù)分布。依據(jù)累積前景理論,t時刻出行者(x,y) 選擇出行方式i的價值函數(shù)可以表示為:
其中,α與β表示出行者的風險偏好系數(shù),λ表示損失規(guī)避程度??梢?當出行費用低于參照點時,出行者獲得收益,反之出行者遭受損失;Fi,t離散化后,如的可能費用結果有b個,的可能費用結果有b'個,則收益與損失部分的累積決策權重可分別表示為:
其中,ω表示累積前景理論研究中常用的決策權重函數(shù),則t時刻出行者(x,y) 選擇出行方式i的累積前景出行效用可以表示為:
其離散形式為:
為了便于對本文所提出票價優(yōu)化方法的效果進行多維度對比分析,在既有研究以及本文模型假設基礎上,依次設計由簡單到復雜的三種出行需求演化模型。
表1 從出行者出行方式選擇決策與群體社會交互方式兩個維度刻畫了出行需求的形成與演化機制。其中,為便于對比,模型1a 表示傳統(tǒng)的基準logit 模型,模型1b 以傳統(tǒng)logit 模型為基礎,引入累積前景效用,假設所有出行者具有相同的參照點,即同種出行方式在同一時刻對所有出行者具有相同的效用(模型1 為基準比較模型)。模型2 假設出行者具有異質(zhì)的參照點,對同種出行方式效用的感知存在差異,并且出行者之間的心理賬戶可以通過社會交互相互影響。模型3 的設計思想受到經(jīng)典Bush Mosteller 模型的啟發(fā),出行者對出行方式的選擇不僅受到當期效用的影響,還受到該出行方式票價調(diào)節(jié)過程及歷史出行效用的影響,在此基礎上,出行者之間的心理賬戶又通過社會交互相互影響??梢?從模型1b 到模型3,出行者群體的行為復雜性不斷增加,異質(zhì)、群體互動特征對群體決策的影響不斷增大。
表1 出行需求演化模型Table 1 Travel demand evolution model
進一步,圖3 給出了本文提出票價優(yōu)化模型的整體結構,相比于傳統(tǒng)票價優(yōu)化雙層規(guī)劃問題,本文一方面將上層規(guī)劃中目標出行方式i的票價優(yōu)化模型改進為深度強化學習過程,另一方面則針對深度強化學習對復雜環(huán)境的適應特點,在下層規(guī)劃中引入了出行者群體復雜決策機制。
圖3 引入DQN 的票價優(yōu)化模型結構與實現(xiàn)流程Figure 3 Structure and implementation process of fare optimization model based on DQN
地鐵與地面公交是兩種典型的城市公共交通出行方式,二者往往分屬不同的運營主體,且在線路的選擇與設計上考慮的因素又相近,因此在較多重疊的OD 區(qū)間內(nèi)二者的發(fā)展依然會伴隨著競爭關系[1,25]。在多種外部變量(票價方案、不同時段行程時間、舒適度、便捷性等)及出行者內(nèi)生變量(參照點、信息交互)影響下,其客流演化具有復雜性。因此,本文將連接北京市主城區(qū)與通州副中心的地鐵六號線東四到通州北關段作為兩站點之間出行活動的建模背景,將對應于該線路區(qū)間的票價信息、行程時間等數(shù)據(jù)帶入基于DQN的雙層規(guī)劃模型進行計算。如1.4 節(jié)所述,為了便于對比分析基于深度強化學習的票價優(yōu)化方法產(chǎn)生的優(yōu)化結果,令地鐵與公交分別單獨作為本文的目標出行方式,其票價采取基于深度強化學習的優(yōu)化方法,另一種出行方式票價采用傳統(tǒng)雙層規(guī)劃模型進行優(yōu)化,數(shù)值模擬環(huán)境為Matlab2018。如后文無特別說明,參數(shù)取值均如表2 所示。
表2 中,地鐵與公交的票價初始值與單位成本取值依據(jù)為北京市地鐵與公交常見的平均價格,價格單位為人民幣元;票價取值區(qū)間上限設置為本文算例選取行程區(qū)間(北京地鐵六號線東四到通州北關段)目前市場票價的兩倍,由于地鐵具有更高的建設運營成本,故設置更高上限;行程時間取值依據(jù)本文算例選取行程區(qū)間地鐵與公交的行程時間的真實數(shù)據(jù)得到。進一步,公交車在行程時間、舒適度等效用的穩(wěn)定性上劣于地鐵,因此設置φ1<φ2;出行者群體損失規(guī)避系數(shù),決策權重函數(shù)以及決策權重函數(shù)系數(shù)依據(jù)文獻[23-24]取值,即λ=2.25,α=β=0.88;出行者對效用的記憶長度m以連續(xù)工作日長度(5 天)為基準設置;Logit 模型效用感知系數(shù)θ依據(jù)文獻[25]中無私家車通勤者的效用系數(shù)近似得到;為保證出行費用中的各項具有相同的數(shù)量級,ξh與ξc取值0.03;依據(jù)本文出行場景,Q 值神經(jīng)網(wǎng)絡輸入層神經(jīng)元數(shù)量為5,設置兩個隱含層,依據(jù)Kolmogorov 定理,隱含層神經(jīng)元數(shù)量為11(“2*輸入層神經(jīng)元數(shù)量+1”原則)。
表2 基本參數(shù)設置Table 2 Basic parameter setting
此外,票價調(diào)節(jié)動作變量Δpi,t的決策空間做如下設置:Δpi,t∈{在pi,t的基礎上降價5%,在pi,t的基礎上降價1%,票價不變,在pi,t的基礎上提價1%,在pi,t的基礎上提價5%}。
針對出行需求演化模型1~模型3 設置相同的基本參數(shù)環(huán)境,不同的模型代表著不同復雜程度的群體出行需求,基于不同的出行需求演化機制,運行引入DQN 的票價優(yōu)化模型,得到票價與出行需求隨票價調(diào)節(jié)的演化結果(圖4,圖5,表3)。
由圖4(a)~(d)與圖5(a)~(d)可見,對于出行需求演化模型1a、1b 與模型2,票價與出行需求在大幅波動后趨于平穩(wěn),250 步訓練后票價與出行需求的演化逐步收斂于穩(wěn)定區(qū)間,體現(xiàn)了深度強化學習算法作用下不同票價調(diào)節(jié)動作在決策空間內(nèi)的探索和收斂過程。而對于出行需求演化模型3,不難發(fā)現(xiàn),相對于logit 模型,由于模型3 的出行行為演化動力為歷史出行經(jīng)驗記憶與交互機制的共同作用,具有不完全信息特點,客流演化呈現(xiàn)規(guī)律性與隨機性相互交織的劇烈震蕩,流量分配結果與logit 分流模型(模型1 與模型2)產(chǎn)生了顯著差異(圖4(c)(d)與圖5(c)(d)),該劇烈震蕩并未影響深度強化學習算法得到票價輸出的穩(wěn)定性(圖4(a)與圖5(a)),而針對出行需求演化模型3 的傳統(tǒng)雙層規(guī)劃方法得到的票價(圖4(b)與圖5(b))卻出現(xiàn)劇烈波動現(xiàn)象。在深度強化學習算法中,票價的輸出是由經(jīng)驗池中不斷變化的出行需求環(huán)境對票價調(diào)節(jié)動作的訓練得到,多次對需求環(huán)境的迭代“試錯”提高了神經(jīng)網(wǎng)絡的泛化能力,從而使神經(jīng)網(wǎng)絡的輸出趨于穩(wěn)定,而對于傳統(tǒng)雙層規(guī)劃方法,由(3)(4)式可知,票價的優(yōu)化結果會受到當期客流震蕩的影響,這說明相對于固定模型驅動下的優(yōu)化方法,訓練數(shù)據(jù)驅動下的DQN 方法在感知復雜出行需求方面具有優(yōu)勢。
圖4(e)與圖5(e)給出了票價調(diào)節(jié)訓練過程中獎勵值隨著訓練次數(shù)增加呈現(xiàn)整體上升的變化趨勢,獎勵值的上升說明票價調(diào)節(jié)動作在訓練過程中尋找到了使目標出行方式收入增加的有效路徑,體現(xiàn)了DQN 算法的智能性;圖4(f)與圖5(f)給出了群體行為具有復雜性的條件下(模型2 與模型3)群體風險態(tài)度這一重要參數(shù)與最終平均出行效用之間的變化趨勢,該變化趨勢符合累積前景理論中的參照點依賴圖像[26],說明神經(jīng)網(wǎng)絡輸出的票價調(diào)節(jié)機制并未使出行者的群體行為復雜性偏離參照點依賴,符合行為科學特征,即價值函數(shù)神經(jīng)網(wǎng)絡對于群體決策參數(shù)具有魯棒性。綜合上述結果可知,深度強化學習算法在本文提出的四種不同出行需求演化環(huán)境下均呈現(xiàn)出訓練的有效性。
圖4 基于DQN 的票價優(yōu)化及客流演化結果(地鐵作為目標出行方式)Figure 4 Ticket price optimization and passenger flow evolution based on DQN (Taking subway as the objective travel mode)
表3 給出了演化趨勢穩(wěn)定后的平均票價,由表3 可見,在傳統(tǒng)雙層規(guī)劃中,運用線性近似估計客流量使各個出行方式的目標函數(shù)在廣義Nash 均衡的作用下具有較強的相關性,而采用DQN 方法分別優(yōu)化不同的目標出行方式,相當于更換了DQN 方法的目標函數(shù),因此得到了差別較大的價格計算結果,這也說明不同運輸方式之間具有顯著差異化的利益最大化價格結構。此外,結合圖4(a)、圖5(a)可知,在深度強化學習算法的作用下,不同的出行需求演化機制對應于具有顯著差異的票價測算結果(12.37 元~14.81 元,4.90元~6.35 元);而沿用了傳統(tǒng)雙層規(guī)劃方法的票價(圖4(b)、圖5(b)及表3)在不同的出行需求演化機制作用下得到了近似的測算結果(集中于3.52~3.89 元,5.71~6.78 元)。上述結果均說明,隨著出行需求演化形式復雜程度的變化,以神經(jīng)網(wǎng)絡為出行需求感知工具的深度強化學習算法具有更加細致的票價彈性刻畫能力,在處理復雜出行需求時具有更好的效果。
圖5 基于DQN 的票價優(yōu)化及客流演化結果(公交作為目標出行方式)Figure 5 Ticket price optimization and passenger flow evolution based on DQN (Taking bus as the objective travel mode)
進一步,在相同的參數(shù)條件下,將本文目標出行方式的優(yōu)化方法更換為傳統(tǒng)雙層規(guī)劃方法(即按照優(yōu)化問題(3)式求解),針對地鐵與公交票價,比較傳統(tǒng)雙層規(guī)劃方法((3)式)與引入強化學習的優(yōu)化方法((4)式)得到的票價、客流、利潤測算結果,同見表3。
圖6 給出了不同出行需求模型條件下傳統(tǒng)雙層規(guī)劃方法得到的票價優(yōu)化結果,可見,復雜的出行者群體決策使票價序列產(chǎn)生了不同幅度的波動,從出行需求模型1 到模型3,出行者決策機制越復雜,票價波動越大。結合圖4(a)與圖5(a)可知,神經(jīng)網(wǎng)絡強大的非線性特征擬合能力(復雜環(huán)境適應性)使深度強化學習算法得到的票價具有更好的穩(wěn)定性。表3 的運算結果可知(對其中波動的票價序列取平均值):(1)與傳統(tǒng)雙層規(guī)劃模型得到的結果相比,引入DQN算法優(yōu)化票價后,兩種出行方式的最優(yōu)票價與出行需求結構產(chǎn)生了顯著差異,DQN 算法得到的目標出行方式票價全部高于雙層規(guī)劃得到的最優(yōu)票價,且對于不同的出行需求演化機制得出了差異化較大的票價(12.37 元~14.81 元,4.90 元~6.24 元);(2)在使用DQN 算法計算目標出行方式票價的條件下,未采用DQN 算法的非目標出行方式票價全部低于傳統(tǒng)雙層規(guī)劃方法得到的最優(yōu)票價,且在不同出行需求演化機制下票價相對集中(3.52 元~3.89 元,5.71 元~6.78 元);(3)在不同出行需求演化機制下,傳統(tǒng)雙層規(guī)劃方法得到的最優(yōu)票價差異最小(7.71 元~7.82 元,4.65 元~4.81 元),進一步說明深度強化學習算法具有更強的票價彈性刻畫能力;(4)引入DQN 算法優(yōu)化票價后,不同出行需求模型下目標出行方式的利潤及兩種出行方式的總體利潤均得到顯著增加,而未采用DQN 算法的非目標出行方式的利潤則大多小于傳統(tǒng)雙層規(guī)劃方法得到的利潤。上述結果可知,相比于傳統(tǒng)雙層規(guī)劃方法,DQN 算法通過對出行需求演化環(huán)境的適應性學習,實現(xiàn)了針對目標出行方式的利潤增長,體現(xiàn)了該方法的智能特點。
圖6 基于雙層規(guī)劃的票價優(yōu)化結果Figure 6 Ticket price optimization results based on bi-level programming
表3 不同優(yōu)化方法對比Table 3 Comparison of different optimization methods
通過對比表3 中不同模型產(chǎn)生的客流分配結果可知,隨著出行行為復雜性不斷增加(從模型1 過渡到模型3),兩種出行方式之間的客流量差異呈現(xiàn)遞減趨勢。這是由于,相比于logit 模型,BM 模型中的出行者更多依賴歷史經(jīng)驗而無法及時掌握完全的效用信息,從而減弱了出行者群體在不同出行方式之間的分流力度,模型的演化結果較好地反映了這一現(xiàn)象,也更加接近實際情形下地鐵與公交總體客流比例關系(北京市日均公交客運量900 萬人次、地鐵日均1000 萬人次左右)。
此外,出行需求模型1b、模型2 及模型3 選用了相同的效用評價標準(累積前景效用)且出行者群體的行為復雜性遞增,由表3 可知,從模型1b 到模型3,DQN 算法得到的利潤與雙層規(guī)劃方法得到的利潤之差呈現(xiàn)顯著遞增,并在出行需求模型3 條件下產(chǎn)生了最高總利潤2671.68 元,這一結果反映了出行者群體行為復雜性的增加會使運營管理部門獲得更高的收入[26]。
目前,本文所選取的建模背景(東四-通州北關段)在實際情形下的票價為:地鐵票價5 元,公交票價為5-8 元。對比本文的計算結果可知,目前的實際價格更加接近DQN 方法下將公交作為目標出行方式得到的票價方案,這說明目前地鐵票價存在較大程度的補貼,政府部門可依據(jù)財政補貼的預算額度提出地鐵票價的指導價格。近年來,隨著共享出行等新型客運服務模式的不斷涌現(xiàn),運營管理部門在實際的票價制定過程中,可針對不同運輸方式的目標測算針對性的票價方案,擇優(yōu)選取。
本文在既有的交通系統(tǒng)票價優(yōu)化研究基礎上,針對群體出行需求演化復雜性,將票價的調(diào)節(jié)和優(yōu)化過程視為一個在復雜社會經(jīng)濟系統(tǒng)中經(jīng)過不斷探索與嘗試而獲得最優(yōu)價格的決策過程,引入人工智能領域的深度強化學習算法,在不同復雜程度的出行需求演化場景條件下實現(xiàn)了票價測算,數(shù)值模擬結果表明本文提出的方法在票價優(yōu)化問題中具有較好的適用性。
由本文在不同出行需求演化模型下得到的強化學習訓練結果可知,現(xiàn)實情形下,當考慮出行者群體決策復雜性時,群體出行需求與票價之間會呈現(xiàn)多樣化的彈性關系。尤其是近年來,隨著多種類型的網(wǎng)約車、共享單車乃至共享汽車等新型客運服務模式的不斷涌現(xiàn),群體出行需求的演化勢必將呈現(xiàn)更加復雜的形式。顯然,采用深度強化學習算法中的價值函數(shù)神經(jīng)網(wǎng)絡來擬合出行需求(環(huán)境)對票價調(diào)節(jié)(動作)的反應函數(shù)具有一定的實際研究價值,也是對既有票價測算方法的補充。
需要指出的是,為便于與既有的價格彈性刻畫方式進行對比,本文構建的多種出行方式票價競爭場景,僅對其中目標出行方式的票價優(yōu)化過程引入了深度強化學習方法,下一步的工作中,將進一步引入深度強化學習方法中的“左右互搏”與“對弈”機制,獲取多種出行方式同時采用深度強化學習方法后產(chǎn)生的最優(yōu)價格。另一方面,本文在深度強化學習算法的使用中僅考慮了單OD 對條件下以利潤最大化為決策目標的交通場景,因此得到了較高的票價測算結果,這也說明現(xiàn)行票價體系存在較大幅度的補貼。在未來的研究中,將進一步在該方法的運用中考慮多OD 對的線網(wǎng)環(huán)境,并對多OD 對條件下的群體決策演化機理進行更為合理的設計。