李紅雨,袁韻美,胡俊豪 (南京鐵道職業(yè)技術(shù)學(xué)院,江蘇 南京 210031)
近年來,我國高速鐵路網(wǎng)建設(shè)日趨完善,高鐵快運逐步進入大眾視野,為廣大群眾提供了更為便捷、快速的快運服務(wù)[1]。目前高鐵快運業(yè)務(wù)主要以載客動車組為載體,通過高鐵確認(rèn)車、高鐵行李柜、高鐵扣票車廂等多種形式組織干線運輸,聯(lián)合EMS、順豐、京東等物流企業(yè)完成兩端集貨配送[2]。隨著高鐵快運站點布局逐步完善、貨運動車組上線以及未來日趨旺盛的“當(dāng)日達”“次晨達”等快運需求,未來我國高鐵快運業(yè)務(wù)將迎來井噴式發(fā)展。
目前,在高鐵站內(nèi)高鐵站臺與中鐵快運營業(yè)部間的貨物運輸仍以人力推車為主,存在人工調(diào)度繁瑣、勞動強度大、準(zhǔn)時性差、綜合效率低等問題,難以適應(yīng)未來高鐵快運業(yè)務(wù)量激增的情況,更難以適應(yīng)未來可能出現(xiàn)的臨時性快運需求、動態(tài)化調(diào)度調(diào)整及站內(nèi)貨物中轉(zhuǎn)等作業(yè)模式[3]。
在此背景下,本文提出了構(gòu)建高鐵快運站內(nèi)無人車輛運輸系統(tǒng)的設(shè)想,并應(yīng)用深度強化學(xué)習(xí)算法實現(xiàn)復(fù)雜動態(tài)需求下高鐵快運站無人運輸調(diào)度作業(yè)。
高鐵快運站內(nèi)的無人車輛運輸系統(tǒng)主要由運輸網(wǎng)絡(luò)、無人車輛、運輸需求、具備充電設(shè)施設(shè)備的物流基地或節(jié)點組成。
運輸網(wǎng)絡(luò):在離散時間視圖下構(gòu)建一個有向的物流網(wǎng)絡(luò)圖G(V,V),圖中的每個頂點i∈V由運輸網(wǎng)絡(luò)中的交叉口、升降電梯、貨物運輸起訖點、具備充電設(shè)施設(shè)備的物流基地或節(jié)點組成,(i,j)∈V表示以上節(jié)點間的通道,其中通道的長度表示為Dij,通道的行駛時間表示為Tij。在圖G中,將每個節(jié)點根據(jù)高鐵站內(nèi)的實際情況賦予坐標(biāo)位置并根據(jù)設(shè)置之間的通道聯(lián)通關(guān)系。
無人車輛:用V表示所有無人駕駛的運輸車輛,車輛屬性主要包括續(xù)航里程、物流需求等。在規(guī)劃過程中,運輸能力為Ck的無人車輛k∈V在節(jié)點∈V收到運輸需求Qk并開始運輸,最終停止在∈V。每輛無人配送車配備有容量為的電池,無人車輛的初始電池電量為,在通道(i,j)內(nèi)消耗電量,此外,充電設(shè)施的充電速率為Rk。
運輸需求:Q表示系統(tǒng)中沒有任何車輛接收到運輸請求。對于系統(tǒng)中的任意運輸需求q,和分別表示運輸需求的起點和終點,Tq和Cq則分別表示運輸需求的運輸時間與運輸能力。
充電基地/補電節(jié)點:系統(tǒng)中設(shè)置兩類充電設(shè)施,分別為位于物流基地的高效充電基地Vd和位于運輸過程中途經(jīng)的補電節(jié)點Vg,其中每個補電節(jié)點可為每輛無人車輛在最長t時間限制內(nèi)補充電量Ωg,t??梢?,充電基地Vd雖然充電效率高,但車輛需要多次往返,運輸效率低,而途中補電節(jié)點Vg雖然充電效率低且充電量有限,但較為方便,因此系統(tǒng)中如何兼顧運輸需求和充電策略是路徑優(yōu)化的關(guān)鍵。
基于上述分析,在高鐵快運場站運輸系統(tǒng)內(nèi)制定在線路徑規(guī)劃策略,旨在當(dāng)系統(tǒng)中運輸需求、車輛性質(zhì)、交通擁堵等因素發(fā)生實時變化時制定新的運輸路徑,以最大規(guī)模滿足運輸需求、最小化車輛行駛距離為目標(biāo)設(shè)置目標(biāo)函數(shù)如下:
其中,C為一個較大的常數(shù),,均為0-1指標(biāo),前者表示運輸需求q是否由無人車輛k完成,后者表示無人車輛是否會通過路徑(i,j)。對所有車輛作出可行的路徑規(guī)劃,必須符合系統(tǒng)約束,約束條件如下。
規(guī)劃的路線必須是連通的;交通需要得到滿足;物流任務(wù)必須在動車組列車到達前規(guī)定時間內(nèi)完成;每輛車的載重不得超過其物流能力;車輛在充電過程中不存在電量耗盡或過充的情況;需要觀察充電裝置的充電極限。
為了將目標(biāo)問題建模為有約束的閉式表達式,需要使用0-1變量和連續(xù)變量,這樣就使該問題變成了在面對規(guī)模實例時,無法用精確算法求解,僅能尋求有效近似算法的NPH問題。而NPH問題只能在給定的靜態(tài)系統(tǒng)條件下做出離線路徑規(guī)劃,無法滿足在高鐵快運站調(diào)度中產(chǎn)生的具有不確定性的臨時物流運輸調(diào)度問題。
隨著深度強化學(xué)習(xí)技術(shù)的發(fā)展,不斷有新的研究被用于解決組合優(yōu)化問題。該技術(shù)可以通過深度強化學(xué)習(xí)網(wǎng)絡(luò)參數(shù)的調(diào)整取代數(shù)學(xué)規(guī)劃中求解的龐大計算量與計算時間,以達到更快地適應(yīng)高鐵快運中場站調(diào)度系統(tǒng)動態(tài)變化的目的[4]。但應(yīng)用深度強化學(xué)習(xí)技術(shù)的求解效果非常依賴于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與模式參數(shù)的訓(xùn)練過程。因此本文采用深度強化學(xué)習(xí)嘗試設(shè)計一種適用于不確定性高鐵快運站運輸?shù)奈锪飨到y(tǒng)調(diào)度策略。
不確定的物流運輸調(diào)度問題就是在給定的運輸網(wǎng)絡(luò)G內(nèi),面對不確定性運輸需求,在約束條件下,求解車輛行程序列。本文應(yīng)用深度強化學(xué)習(xí)算法進行決策優(yōu)化,主要通過基于神經(jīng)網(wǎng)絡(luò)技術(shù)構(gòu)建的信息中心負(fù)責(zé)管理系統(tǒng)狀態(tài)和相關(guān)信息。初始狀態(tài)下,系統(tǒng)將當(dāng)前動態(tài)信息發(fā)送給各無人車輛,無人車輛根據(jù)當(dāng)前系統(tǒng)狀態(tài)繪制路徑,并將此結(jié)果傳遞至深度強化學(xué)習(xí)網(wǎng)絡(luò),以進行下一步的行程規(guī)劃。最后,信息中心收集所有無人車輛的行程信息,無人車輛根據(jù)路線圖完成物流任務(wù)。
每輛車在了解系統(tǒng)當(dāng)前運行狀態(tài)后,首先會創(chuàng)建一個漫游地圖并輸入到深度強化學(xué)習(xí)網(wǎng)絡(luò)中。當(dāng)該物流網(wǎng)絡(luò)的節(jié)點大于100時,解的質(zhì)量會有所下降,但同時車輛對下一目標(biāo)是否選擇提貨、發(fā)貨、充電的判斷將更加敏感和準(zhǔn)確。在此基礎(chǔ)上,可以基于無人車輛可能??康奈恢煤屯緩竭B接點將交通網(wǎng)絡(luò)簡化為每輛車更小的行程圖,并通過最短路徑算法計算路徑距離、能量消耗和預(yù)估旅行時長。
本文的主要目標(biāo)是將系統(tǒng)狀態(tài)和車輛行駛路徑圖作為輸入條件,規(guī)劃出最小的總行駛距離。為此,本文通過構(gòu)建嵌入式指針網(wǎng)絡(luò)模型,為系統(tǒng)中的無人車輛設(shè)計最優(yōu)的路徑規(guī)劃。
在指針網(wǎng)絡(luò)模型中編碼器網(wǎng)絡(luò)輸入系統(tǒng)信息、系統(tǒng)狀態(tài)、規(guī)劃路徑,在編碼器進行初始化嵌入后,通過公式(2)更新嵌入值;節(jié)點特征可以傳播到其他相鄰節(jié)點,公式(3)為線性傳播函數(shù);輸入數(shù)據(jù)如公式(4)所示;解碼過程如公式(5)、(6)所示;條件概率計算如公式(7)、(8)所示。
本文引入深度強化學(xué)習(xí)算法的目的是減輕在復(fù)雜多變的運輸網(wǎng)絡(luò)中龐大的計算負(fù)擔(dān)。針對NP-hard車輛路徑規(guī)劃問題,利用一個精確的求解器來進行大量的數(shù)據(jù)訓(xùn)練耗時過長,因此,本文采用無模型策略的強制學(xué)習(xí)技術(shù)來確定模型參數(shù)。
首先,為單個無人車輛設(shè)計激勵函數(shù),將路徑優(yōu)化問題的訓(xùn)練目標(biāo)作為獎勵函數(shù)的主要考慮因素,對違反約束的行為進行懲罰,整體訓(xùn)練目標(biāo)包括從分布中進行蒙特卡羅采樣,通過參數(shù)調(diào)整,使獎勵最大化,如公式(9)所示。
目標(biāo)獎勵函數(shù)和約束懲罰函數(shù)如公式(10)、(11)、(12)所示。
其中,
策略梯度通過梯度上升來更新策略函數(shù),使策略函數(shù)能夠最大化累積,梯度函數(shù)可以用蒙特卡羅抽樣方法近似表示。策略梯度通過梯度上升來更新策略函數(shù),使策略函數(shù)能夠最大化累積,梯度函數(shù)可以用蒙特卡羅抽樣方法近似表示。
通過異步訓(xùn)練更新模型參數(shù),在每次迭代過程中,首先采用新的路徑并進行規(guī)劃,然后生成獎勵值,同時進行梯度計算,最后進行小范圍調(diào)整,以更新模型參數(shù)。當(dāng)參數(shù)收斂或達到預(yù)計的最大迭代次數(shù)時,算法停止。
本文根據(jù)長三角地區(qū)某具有中鐵快運業(yè)務(wù)的高鐵站實際布局,模擬未來高鐵快運量激增情況。需求以隨機生成的方式設(shè)定;取貨、送貨地點以中鐵快運站點、高鐵站臺貨運車廂點為主,以出租車停靠點、旅客候車服務(wù)點、長途汽車??奎c等為輔進行隨機設(shè)置,取送地點為高鐵站臺貨運車廂點時提高送貨期限限制;每個需求從5~20個單位隨機值間設(shè)置;每輛車初始充電狀態(tài)在0.2~0.9之間隨機設(shè)置,充電效率在0.8~0.9之間隨機設(shè)置,每輛車的物流裝載能力在20~50單位間隨機設(shè)置。
本文對比了在車輛路徑優(yōu)化問題上的3類主要方法,如表1所示。通過精準(zhǔn)算法求出最優(yōu)解,但總體計算時間較長,不適用于隨機產(chǎn)生物流需求的運輸系統(tǒng);在1分鐘計算時長限制下,啟發(fā)式算法中遺傳學(xué)算法更適用于全局性搜索[5],而禁忌搜索算法更適合局部搜索,但計算的總行駛距離均不理想;與啟發(fā)式算法相比,本文采用的深度強化學(xué)習(xí)算法在1分鐘計算時限下求解效率明顯提升。
本文構(gòu)建了高鐵快運場站內(nèi)無人車輛運輸系統(tǒng),并應(yīng)用深度強化學(xué)習(xí)算法實現(xiàn)了復(fù)雜動態(tài)需求下高鐵快運站無人運輸調(diào)度作業(yè),以解決未來高鐵快運站內(nèi)運輸過程中大規(guī)模運量、動態(tài)化需求問題。通過模型構(gòu)建與實例驗證,能夠發(fā)現(xiàn)深度強化學(xué)習(xí)算法可高效解決封閉系統(tǒng)內(nèi)不確定物流運輸調(diào)度問題。