摘 要:針對消防設(shè)施選址問題,構(gòu)建考慮時效性、市民等待救援的焦急心理和建設(shè)成本的三目標消防設(shè)施選址模型,以實現(xiàn)更科學的消防設(shè)施布局。鑒于該問題的NP難特性,提出基于算子學習的多目標深度強化學習模型(multi-objective deep reinforcement learning,MDRL)。設(shè)計多種優(yōu)化算子作為強化學習的動作空間,訓(xùn)練策略網(wǎng)絡(luò)以選擇最佳優(yōu)化算子來改進解決方案。針對多目標問題,設(shè)計基于優(yōu)勢差異的方法(MDRL-AD)和基于支配性評估的方法(MDRL-DE)。采用四種規(guī)模的測試算例及實際案例進行數(shù)值實驗,將MDRL和改進的NSGA-Ⅱ、MOPSO、L2I算法進行比較,并利用Hypervolume指標、Spacing指標、Ω指標、IGD指標對算法性能進行評估。實驗結(jié)果表明,MDRL-AD方法更適用于求解小規(guī)模算例,MDRL-DE方法則在求解大規(guī)模和超大規(guī)模算例時相比其他算法優(yōu)勢明顯。MDRL在非劣解集的收斂性和均勻性方面明顯優(yōu)于其他對比算法,為消防設(shè)施布局規(guī)劃提供了一種有競爭力的解決方案。
關(guān)鍵詞: 深度強化學習; 算子學習; 優(yōu)化算子; 多目標優(yōu)化; 消防設(shè)施選址問題
中圖分類號: TP183 文獻標志碼: A 文章編號: 1001-3695(2025)02-021-0477-09
doi: 10.19734/j.issn.1001-3695.2024.06.0276
Multi-objective deep reinforcement learning model based on operator
learning for solving fire facility location problems
Liu Yong’, Liu Yuxuan, Ma Liang
( Business School, University of Shanghai for Science amp; Technology, Shanghai 200093, China)
Abstract:To address the fire station location problem considering timeliness, citizens’ anxiety during rescue waits, and construction costs, it developed a three-objective model to achieve a more scientific layout of firefighting facilities. Given the NP-hard nature of this problem, it introduced operator learning to expand the action space. It trained policy networks to select the optimal operators, using two methods: MDRL-AD and MDRL-DE, tailored for different objectives. Through numerical experiments on various scales and real-world cases, it compared MDRL with the improved NSGA-Ⅱ, MOPSO, and L2I algorithms. It evaluated the algorithm performance using Hypervolume, Spacing, Ω-dominance, and IGD metrics. The results demonstrate that MDRL-DE performs notably well in large and very large-scale scenarios, offering competitive solutions in the convergence and uniformity of non-dominated solution sets for fire facility layout planning.
Key words:deep reinforcement learning; operator learning; optimization operators; multi-objective optimization; fire facility siting problem
0 引言
火災(zāi)作為一種常見的突發(fā)性災(zāi)害,救援不及時可能會造成巨大的人員傷亡和財產(chǎn)損失,特別是在人口密集區(qū)域和商業(yè)中心,加強對火災(zāi)的應(yīng)急響應(yīng)能力十分重要。截至2024年上半年,全國共接報火災(zāi)45萬起、亡947人、傷989人、直接財產(chǎn)損失26.8億元。因此,城市建設(shè)中需要重點考慮消防設(shè)施的布局,確保其能夠覆蓋到可能發(fā)生火災(zāi)的各個地區(qū),并且能夠在火災(zāi)發(fā)生時迅速響應(yīng)并展開救援行動,保障城市居民的生命和財產(chǎn)安全。目前,國內(nèi)外對于消防設(shè)施選址問題進行了大量研究。許秋艷等人[1]使用陰陽平衡啟發(fā)式算法求解了考慮時效性和成本的雙目標消防救援站選址模型。賀元驊等人[2]建立了基于熵權(quán)直覺模糊拓展的機場消防站選址模型。王寧等人[3]同時考慮消防站均衡性和消防效益建立了多目標消防站選址模型。叢亦天[4]以微型消防站選址問題為研究對象,建立了需求點到微型消防站最大距離最小的選址模型。Jing等人[5]考慮了服務(wù)覆蓋率和可訪問性,以及現(xiàn)有站點的影響,提出了一種融合覆蓋率和中位數(shù)目標的雙目標優(yōu)化模型。Yang等人[6]充分考慮來自不同火災(zāi)風險類別地區(qū)的設(shè)施需求,建立了最小化建設(shè)成本和最小化火災(zāi)損失模型。Erden等人[7]結(jié)合需求匹配度模型制定了新增消防站優(yōu)化布局方案, 減少了應(yīng)急救援的響應(yīng)時間。
消防設(shè)施選址問題屬于經(jīng)典的組合優(yōu)化問題,且為NP難問題[3]。求解NP難問題的傳統(tǒng)方法主要分為精確方法和啟發(fā)式算法。隨著問題規(guī)模的增大,精確算法的計算時間復(fù)雜度急劇增加,因此更多采用啟發(fā)式算法求解大規(guī)模問題以獲得近似最優(yōu)解。然而當前的啟發(fā)式優(yōu)化算法仍存在一些局限性,例如搜索過程可能陷入局部最優(yōu)解,導(dǎo)致算法求解精度下降;在高維場景下,算法搜索空間的擴展困難,導(dǎo)致算法的收斂速度緩慢,計算時間過長。
近年出現(xiàn)了許多通過深度強化學習來對NP難問題進行求解的方法[8]。相較于傳統(tǒng)方法,深度強化學習具有快速求解、支持問題規(guī)模更大、模型的泛化能力強的優(yōu)點。在最近的研究成果中,Costa等人[9]提出了基于深度強化學習改進啟發(fā)式算法,通過Transformer網(wǎng)絡(luò)訓(xùn)練2-opt的優(yōu)化方式并應(yīng)用于求解TSP。Kool等人[10]提出了基于注意力機制以及指針網(wǎng)絡(luò)的模型,并利用帶有基準的策略梯度算法訓(xùn)練網(wǎng)絡(luò),實驗中利用該模型有效地求解了包括VRP在內(nèi)的多個組合優(yōu)化問題,該網(wǎng)絡(luò)結(jié)構(gòu)也是目前求解組合優(yōu)化較為高效的深度強化學習方法。在此基礎(chǔ)上,許多學者開始使用深度強化學習端到端的方法求解選址問題。王中等人[11]提出了基于改進圖注意力網(wǎng)絡(luò)的深度強化學習模型來求解公共設(shè)施服務(wù)選址問題。梁浩健[12]通過將貪婪方法和圖卷積網(wǎng)絡(luò)模型結(jié)合,提出了一種端到端的方法用于直接求解p-中心選址問題。Drori等人[13]利用神經(jīng)網(wǎng)絡(luò)求解多種圖組合優(yōu)化問題,并且提出的模型具有從隨機點訓(xùn)練泛化到真實城市位置中的能力。Li等人[14]利用深度強化學習的端到端方法求解了最小頂點覆蓋選址問題,該模型能直接輸出所有選擇節(jié)點的概率,取代了以往深度強化模型逐步構(gòu)造解的方式。
深度強化學習改進的局部搜索方法是近年來興起的另外一類方法,該方法利用深度強化學習算法對搜索規(guī)則進行學習,其優(yōu)化效果可以超越傳統(tǒng)的優(yōu)化算法。Lu等人[15]提出了一種learning to improve(L2I)基于算子的改進方法,該算法總體流程采用局部搜索算法,算法選擇算子對當前解改進或者擾動。盛佳浩等人[16]利用帶有禁忌搜索的深度強化學習算法,通過局部搜索的方式求解的多維背包問題,驗證了深度強化學習求解0-1問題的可行性和有效性。伍康等人[17]使用圖神經(jīng)網(wǎng)絡(luò),通過鄰域搜索的方式,有效求解了CVRP。
上述研究為消防設(shè)施選址問題提供了很多解決方案,但是在問題建模中,很少有研究考慮到市民等待救援的心理因素,求解多目標選址問題的文獻相對較少,并且缺少綜合考慮時效性、市民等待救援的焦急心理和建設(shè)成本的研究。因此,本文考慮市民心理因素, 建立綜合考慮時效性、市民等待救援的焦急心理和建設(shè)成本的多目標選址模型。對于求解算法,目前大多數(shù)研究都是使用傳統(tǒng)的啟發(fā)式算法求解消防站選址問題,而且多數(shù)研究都集中在中小規(guī)模,小規(guī)模問題并不能很好地應(yīng)用到實際問題當中。另外通過上述文獻可知,深度強化學習算法可以有效求解0-1編碼的組合優(yōu)化問題,但是目前深度強化學習求解選址問題的文獻都集中在端到端方法,基于局部搜索方法求解選址問題的研究很少,并且大多數(shù)深度強化學習研究都集中在求解單目標問題,對于求解大規(guī)模多目標問題缺少比較有效且快速的方法。針對該問題,提出一種算子自適應(yīng)選擇的多目標深度強化學習模型(MDRL),通過對不同規(guī)模的算例和實際案例進行求解,并與其他算法進行對比實驗。
1 多目標消防設(shè)施選址模型
1.1 問題描述
消防設(shè)施選址問題的首要考慮是救援的到達時間。在火災(zāi)發(fā)生的緊急情況下,每一秒都至關(guān)重要,合理的消防設(shè)施布局可以縮短救援時間,提高救援效率。其次,長時間等待救援會增加市民心理壓力,可能會引發(fā)恐慌和秩序混亂,甚至導(dǎo)致踩踏等事故發(fā)生。因此,將市民焦急心理程度作為模型目標,用sigmoid函數(shù)模擬,市民等待時間越長,焦急心理程度越高,通過優(yōu)化消防設(shè)施布局使市民焦急心理程度最小化,有助于維護秩序和社會的穩(wěn)定,增強公眾對政府和消防部門的信任度。另外,消防設(shè)施建設(shè)過多不僅會占用大量空間,而且會花費大量成本造成資源浪費,所以將消防設(shè)施建設(shè)總成本最小化作為模型的第三個目標。本文將當前已建設(shè)的消防設(shè)施加入模型進行考慮,已有消防站本身就能滿足一部分應(yīng)急需求??紤]到一些新城區(qū)基礎(chǔ)設(shè)施建設(shè)剛剛起步,消防設(shè)施不足以滿足全部需求,所以需要新增消防設(shè)施。新增消防設(shè)施分為消防站和微型消防站兩類。消防站覆蓋范圍廣響應(yīng)速度快,但是建設(shè)成本高,占地面積大;微型消防站部署更加靈活,成本低占地小,但是覆蓋范圍小,響應(yīng)速度慢。所以要根據(jù)兩種消防設(shè)施的特點選擇合適的進行建設(shè)。
根據(jù)以上問題描述,考慮已有消防設(shè)施的救援能力和兩種不同類型消防設(shè)施的特點,建立綜合時效性、心理因素、經(jīng)濟性的多目標消防設(shè)施選址模型。
1.2 模型構(gòu)建
構(gòu)建的選址模型所需的參數(shù)和決策變量及其相應(yīng)的符號解釋,如表1和2所示。
根據(jù)以上符號定義,構(gòu)建的綜合考慮時效性、市民心理和成本的三目標消防設(shè)施選址模型為
其中:目標式(1)表示最長應(yīng)急到達時間最小化;目標式(2)表示市民焦慮心理總和最小化;目標式(3)表示消防設(shè)施總建設(shè)成本最小化;式(4)表示應(yīng)急需求點需要的消防設(shè)施數(shù)量約束;式(5)表示應(yīng)急需求點能接受的最長救援時間約束;式(6)表示新增消防設(shè)施的總數(shù)量約束;式(7)表示建站后才能進行救援分配;式(8)(9)為需求點i分配的救援時間;式(10)為焦急心理函數(shù),外層為sigmoid函數(shù),通過tan函數(shù)和調(diào)節(jié)系數(shù)對變量范圍進行縮放調(diào)整;式(11)(12)為消防設(shè)施點到達需求點的時間計算公式;式(13)為救援分配變量;式(14)為決策變量;式(15)為已有消防設(shè)施的救援分配變量。針對該多目標模型NP難問題特性,本文在深度強化學習理論基礎(chǔ)上,設(shè)計基于算子學習多目標深度強化學習模型來求解該問題。
2 基于算子學習的多目標深度強化學習模型
基于算子學習是一種強化學習方法,智能體的動作空間是一組優(yōu)化算子。本文將消防站設(shè)施選址問題抽象為馬爾可夫決策過程,通過訓(xùn)練策略網(wǎng)絡(luò),讓策略網(wǎng)絡(luò)根據(jù)當前的狀態(tài)輸出選擇每個算子的概率,根據(jù)概率選擇最合適的優(yōu)化算子不斷改進問題解,以找到更優(yōu)的選址方案。決策過程由狀態(tài)、動作、策略網(wǎng)絡(luò)、獎勵、回報函數(shù)五個要素構(gòu)成。具體表示如下:
a)狀態(tài):S={sg,sl}是輸入到策略網(wǎng)絡(luò)的信息,包含當前實例的全局信息sg和局部信息sl。其中sg為靜態(tài)信息,由問題實例本身決定,不會隨著智能體做出的動作而改變。sl是動態(tài)信息,會隨著智能體做出動作后不斷發(fā)生變化。
b)策略網(wǎng)絡(luò): 深度學習的神經(jīng)網(wǎng)絡(luò)模型,通過訓(xùn)練后能夠根據(jù)當前狀態(tài)做出決策,選擇最合適的動作,本文中策略網(wǎng)絡(luò)輸出的是選擇每個算子的概率。
c)動作:A={A1,A2,A3,…,An}是強化學習中的動作空間,是智能體可選擇的所有可能行動的集合。本文中動作空間是一組優(yōu)化算子,每一種動作對應(yīng)一種優(yōu)化算子,n為優(yōu)化算子的種類個數(shù)。由策略網(wǎng)絡(luò)根據(jù)當前狀態(tài)來決策,選擇最合適的優(yōu)化算子來改進當前解。
d)獎勵:rt是環(huán)境根據(jù)策略網(wǎng)絡(luò)t時刻選擇的算子和狀態(tài)的組合而確定的反饋信號,用于評估策略網(wǎng)絡(luò)選擇優(yōu)化算子的好壞。
e)回報函數(shù):回報是獎勵累積的總和。算法的目標為最大化回報。對于多目標深度強化學習模型而言,更優(yōu)質(zhì)的非劣解將帶來更高的回報,這也意味著在制定消防站選址方案時,該選址方案的多目標綜合效益將更好。
2.1 模型框架
基于算子學習的多目標深度強化學習模型(MDRL)的框架如圖1所示。首先初始化問題實例,生成初始解,并存入舊解庫,同時初始化環(huán)境。接下來,控制器將初始解狀態(tài)信息輸入策略網(wǎng)絡(luò),輸出選擇算子的概率。根據(jù)概率隨機采樣選擇優(yōu)化算子,更新舊解生成新解。將新解和舊解輸入多目標解比較器,確定支配關(guān)系,并反饋給控制器。最后,控制器更新環(huán)境,環(huán)境反饋獎勵,策略網(wǎng)絡(luò)通過反向傳播更新參數(shù)。控制器將新的解狀態(tài)信息傳輸給策略網(wǎng)絡(luò),進行下一輪學習。
2.2 狀態(tài)
控制器輸入到策略網(wǎng)絡(luò)的狀態(tài)分為靜態(tài)狀態(tài)信息和動態(tài)狀態(tài)信息兩類。對于同一實例,靜態(tài)狀態(tài)信息是保持不變的,不會隨策略網(wǎng)絡(luò)做出動作而發(fā)生改變。而動態(tài)狀態(tài)信息會隨著動作和環(huán)境的變化發(fā)生改變。靜態(tài)狀態(tài)信息的詳細內(nèi)容如表3所示,靜態(tài)狀態(tài)信息類型分為備選點和需求點信息。對于備選點j,記錄了其位置、建站成本以及服務(wù)范圍內(nèi)的需求點數(shù)量信息。而對于需求點i,則包括了其位置、人口密度、最大救援時間約束以及最小服務(wù)數(shù)量約束。特別地,對于消防站選址模型中的已有消防站k的信息,將其與備選點信息合并輸入到策略網(wǎng)絡(luò)中。已有消防站k的信息包括位置、服務(wù)范圍內(nèi)需求點的數(shù)量。為了保持備選點j和已有消防站k嵌入信息維度的一致性,將已有消防站k的信息加入建站成本ck并將成本全部設(shè)置為0。
動態(tài)狀態(tài)信息的詳細內(nèi)容如表4所示,動態(tài)狀態(tài)信息類型包括當前解、備選點信息、歷史選擇、歷史選擇的影響、掩碼信息。當前解的編碼信息如圖2所示,由備選點編碼與已有消防站編碼拼接而成。備選點位置j的編碼solj對應(yīng)備選點j的建站方案(1為建站,0為不建站),已有消防站的解編碼設(shè)置為1。
歷史選擇與獎勵需要經(jīng)過處理變成歷史特征才能嵌入到策略網(wǎng)絡(luò)中。t時刻的歷史特征信息hist.ft的計算公式為
其中:et-h(huán)為歷史影響,會隨著時間推移淡化影響;ρ為遺忘因子,ρ∈(0,1)。假設(shè)記錄歷史步驟三次,三次選擇的算子序號分別為{2、5、1},三次歷史獎勵分別為{2、-1、1},算子個數(shù)為6個,ρ=0.9。歷史特征信息的詳細計算過程如圖3所示。
在算子產(chǎn)生新解后,掩碼機制會根據(jù)控制器傳入的新解與舊解之間的支配關(guān)系進行判斷。如果t時刻選擇的算子改變舊解后沒有產(chǎn)生非劣解,那么在t+1時刻,掩碼信息將會把上次選擇的算子給掩蓋掉,引導(dǎo)策略網(wǎng)絡(luò)在t+1時刻選擇其他算子。掩碼采用文獻[16]哈希表的設(shè)計方法。
2.3 策略網(wǎng)絡(luò)
2.3.1 策略網(wǎng)絡(luò)模型結(jié)構(gòu)
本文使用的策略網(wǎng)絡(luò)模型結(jié)構(gòu)如圖4所示,網(wǎng)絡(luò)整體結(jié)構(gòu)由編碼器和解碼器兩大部分組成。編碼器的輸入數(shù)據(jù)有當前解、備選點信息、需求點信息。當前解和備選點信息拼接后,通過嵌入層1,映射維度為64。需求點信息通過嵌入層2,映射維度同樣為64,與備選點信息拼接一同放入到編碼器中。
編碼器含有N個相同的復(fù)合結(jié)構(gòu),復(fù)合結(jié)構(gòu)內(nèi)部依次為多頭注意力層、第一個BatchNorm層、前饋神經(jīng)網(wǎng)絡(luò)、第二個BatchNorm層,并且通過兩個殘差連接結(jié)構(gòu)減輕梯度消失問題,并防止網(wǎng)絡(luò)過擬合。多頭注意力層頭數(shù)為8個,輸出的向量長度為64。前饋神經(jīng)網(wǎng)絡(luò)使用ReLU激活函數(shù),中間層的維度設(shè)置為512×4。通過N層編碼器復(fù)合結(jié)構(gòu)后,數(shù)據(jù)特征被輸入到解碼器的嵌入層3中。解碼器的輸入包括歷史特征信息和掩碼信息。編碼器的輸出通過第三個嵌入層后與歷史特征拼接,一同輸入到多層感知器(MLP)中。最后,掩碼信息覆蓋到MLP輸出的數(shù)據(jù),為解決梯度消失問題,使用按維度縮放[18]的softmax函數(shù)計算選擇算子的概率向量。
2.3.2 策略網(wǎng)絡(luò)訓(xùn)練方法
本文策略網(wǎng)絡(luò)采用帶基線的REINFORCE策略梯度算法[19]訓(xùn)練策略網(wǎng)絡(luò)。
ΔθJ(θ|S)=Eπ~pθ(.|s)[(Lπ|S-b(s))Δθlog(pθ(π|S))](18)
策略梯度算法的目標是最大化回報,t時刻回報的計算公式為
Rt=∑hγt-1+h·rt+h(19)
其中:rt+h為t+h時刻的獎勵;γ為折扣回報率,本文使用與文獻[15]相同的折扣回報率,γ=1。給定一個實例狀態(tài)S,J(θ∣s)表示在狀態(tài)S下執(zhí)行策略π的期望回報。策略網(wǎng)絡(luò)根據(jù)狀態(tài)S輸出的選擇算子概率向量為 pπθ(Ats)。At為選擇的算子,At~π(.|st)。策略網(wǎng)絡(luò)多次動作π積累的回報量為Rπ,基線Rπbl用于減小訓(xùn)練時的方差,使訓(xùn)練過程更加穩(wěn)定。θ為網(wǎng)絡(luò)參數(shù)。則帶有基線的策略梯度的計算如式(20)所示。通過訓(xùn)練網(wǎng)絡(luò),采用梯度上升的方式來更新參數(shù)θ,使策略網(wǎng)絡(luò)能在給定實例狀態(tài)S時選擇最優(yōu)的算子使回報最大化。
ΔθJ(θ|S)=Eπ~pθ(.|s)[(Rπ-Rπbl)Δθlog(pπθ(Ats))](20)
2.4 優(yōu)化算子
本文設(shè)計了兩組優(yōu)化算子,分別為問題實例導(dǎo)向的優(yōu)化算子(problem instance-oriented optimization operators,PIOO)和編碼規(guī)模導(dǎo)向的優(yōu)化算子(decoding scale-oriented optimization ope-rators, DSOO)。PIOO算子組從問題實例的背景出發(fā),與實例的動態(tài)信息結(jié)合,算子的優(yōu)化方向更加細化,與問題的多個目標關(guān)聯(lián),對具體的問題模型更具有針對性。DSOO算子組從解的編碼角度出發(fā),該算子的擾動幅度會根據(jù)編碼規(guī)模的變化來自適應(yīng)調(diào)整。DSOO具有更廣泛的適用性,可以應(yīng)用到更多0-1編碼問題當中。本文在實驗過程中將使用這兩組算子作為動作空間訓(xùn)練網(wǎng)絡(luò),并進行數(shù)據(jù)測試對比。
PIOO算子組詳細內(nèi)容如表5所示。PIOO分為交換算子、翻轉(zhuǎn)算子和破壞算子三大類。其中,交換算子有兩種,操作是將解編碼的兩個或三個隨機位置進行交換;翻轉(zhuǎn)算子需要結(jié)合實例信息進行優(yōu)化,需要根據(jù)實際建站情況選擇性地進行翻轉(zhuǎn)操作;破壞算子根據(jù)問題實例的目標函數(shù)設(shè)計,分別從最小化時間和最小化成本兩個目標維度對解進行擾動。
DSOO算子組的詳細內(nèi)容如表6所示。DSOO分為交換算子與翻轉(zhuǎn)算子兩大類。交換算子新增一種自適應(yīng)交換算子Swap(n),會根據(jù)解的編碼長度(decode_length)自主調(diào)整擾動幅度大小,n=α·decode_length。其中,α為Swap(n)的規(guī)模敏感系數(shù),α∈(0,1);DSOO的翻轉(zhuǎn)算子更加泛化,不再關(guān)聯(lián)具體的實例信息,適用于更廣泛的場景。新增的自適應(yīng)翻轉(zhuǎn)算子Flip(m)與Swap(n)類似,m=β·decode_length。其中,β為Flip(m)的規(guī)模敏感系數(shù)。
2.5 獎勵函數(shù)
針對多目標問題,本文設(shè)計了兩種獎勵函數(shù)r,分別為優(yōu)勢差異驅(qū)動的獎勵函數(shù)(advantage disparity-driven reward,ADR)、支配性評估獎勵函數(shù)(dominance-evaluation reward,DER)。本文在實驗過程中也采取上述兩種獎勵的計算方式訓(xùn)練相應(yīng)的模型進行對比測試。ADR方法將問題的每個目標視為一個子問題,通過權(quán)重系數(shù)把每個子問題的目標值進行加權(quán)得到當前解的優(yōu)勢值。在選擇算子之前,計算當前解的優(yōu)勢值并將其作為t時刻的基準baselinet。將t+1時刻新解的優(yōu)勢值與baselinet的差值作為獎勵。t+1時刻的獎勵值為r=advantage-baselinet。ADR方法獎勵的詳細計算過程如下:首先對同一批次n個數(shù)據(jù)的每個目標值進行L2范數(shù)歸一化,避免不同目標函數(shù)值尺度不一致對結(jié)果產(chǎn)生影響。再將三個目標值乘以目標對應(yīng)的權(quán)重來計算當前解的優(yōu)勢值,解的優(yōu)勢advantage如式(21)所示。其中, fi為目標i的函數(shù)值,μj為目標j的權(quán)重系數(shù),μj∈(0,1]。
advantage=∑3i=1μifif2i1+f2i2+…+f2in(21)
DER方法基于控制器傳入的支配信息來計算當前獎勵,根據(jù)支配關(guān)系調(diào)節(jié)獎勵系數(shù)。支配關(guān)系分為以下三種情況:a)如果算子產(chǎn)生的新解支配舊解,獎勵系數(shù)τ1=2;b)如果新解與舊解互為非劣解,τ2=1;c)如果新解被舊解支配或與舊解完全一樣,τ3=-1。文獻[15]通過遍歷算子作用位置的方法,計算當前算子的獎勵值,模型訓(xùn)練時間復(fù)雜度過高。本文使用蒙特卡羅方法隨機選擇算子作用位置,模擬評估使用算子后獎勵的期望,降低了模型訓(xùn)練的時間復(fù)雜度。DER方法獎勵函數(shù)計算公式為
r=δ·tanh(∑3i=1τiE(pi)σhi)(22)
σi=1
i=3
σigt;1others(23)
其中:i對應(yīng)新解和舊解三種支配關(guān)系情況;E(pi)表示情況i出現(xiàn)的概率在蒙特卡羅模擬中的期望值;σi為激勵因子;h為使用算子的次數(shù)。
隨著解不斷改進,產(chǎn)生新的非劣解的概率大幅降低,如圖5所示,可能會出現(xiàn)獎勵值一直為負的情況,無法反映算子對解作用的真實情況,影響網(wǎng)絡(luò)參數(shù)更新,導(dǎo)致訓(xùn)練效果不穩(wěn)定。因此,本文引入了激勵因子σ來改善該問題。如圖5所示,激勵因子會隨著動作次數(shù)的增加逐步提高產(chǎn)生非劣解時反饋給策略網(wǎng)絡(luò)的獎勵值,確保即使在解改進變得困難的情況下,仍能夠為網(wǎng)絡(luò)提供正向反饋。通過引入激勵因子,有效地解決了獎勵值持續(xù)為負的問題,進而改善了網(wǎng)絡(luò)訓(xùn)練效果。
激勵因子需要設(shè)置合適的值才能更好地發(fā)揮作用。如圖6所示,激勵因子值設(shè)置過大,造成獎勵值始終為正值,當策略網(wǎng)絡(luò)選擇不合適的算子時也能得到正向反饋,導(dǎo)致訓(xùn)練效果不佳;激勵因子設(shè)置值過小,改善效果不明顯;本文通過測試發(fā)現(xiàn)激勵因子設(shè)置在[1.028,1.032]內(nèi)效果較好,激勵因子值與獎勵的平均值對應(yīng)關(guān)系如圖7所示。
圖7 激勵因子值與獎勵平均值對應(yīng)關(guān)系Fig.7 Relationship between incentive factor values and average reward
另外,DER方法計算獎勵時使用雙曲正切函數(shù)tanh限制獎勵值的范圍,讓訓(xùn)練過程更穩(wěn)定。δ為獎勵尺度,將獎勵限制在(-δ,δ)內(nèi)。
3 數(shù)值實驗
3.1 實驗環(huán)境與參數(shù)設(shè)置
本文實驗基于Python 3.8的代碼實現(xiàn),利用PyTorch框架構(gòu)建模型。在GPU(A40-PCIE,顯存48 GB)上進行網(wǎng)絡(luò)模型訓(xùn)練,服務(wù)器環(huán)境為搭載Intel? Xeon? Gold 6348 CPU @ 2.6 GHz 的Windows操作系統(tǒng)。實驗過程中一些重要參數(shù)設(shè)置如表7所示。
本文采用四種規(guī)模隨機生成的問題算例作為數(shù)據(jù)集,四種規(guī)模分別對應(yīng)小、中、大、超大規(guī)模。其中,小規(guī)模算例備選點50個,需求點20個,已有消防站個數(shù)1個,建站數(shù)量約束為[1,12],速度參數(shù)設(shè)為1.2;中等規(guī)模備選點100個,需求點個數(shù)30個,建站數(shù)量約束為[1,15],已有消防站個數(shù)2個,速度參數(shù)設(shè)為1; 大規(guī)模算例備選點200個,需求點個數(shù)為50個,已有消防站個數(shù)3個,建站數(shù)量約束為[1,25],速度參數(shù)設(shè)為0.8;超大規(guī)模算例備選點個數(shù)為500個,需求點100個,建站數(shù)量約束為[1,35],速度參數(shù)設(shè)為0.7,已有消防站個數(shù)4個。需求點服務(wù)數(shù)量約束隨機生成范圍設(shè)置為[1,3],需求點時間約束隨機生成范圍設(shè)為[0,2,0.55],需求點人口密度隨機生成范圍為[0.1,0.9]。備選點建站成本隨機生成范圍為[0.1,0.8],需求點與備選點坐標隨機生成范圍為[0,1]。
本文使用小規(guī)模和中規(guī)模的數(shù)據(jù)集訓(xùn)練網(wǎng)絡(luò),訓(xùn)練集實例共28 800個,訓(xùn)練集隨機生成的種子設(shè)置為123。使用四種規(guī)模隨機生成的測試集解實例共1 000個,測試集隨機生成的種子設(shè)置為456。其中700個用于不同規(guī)模的算法對比,另外300個用于兩個算子組比較。
3.2 策略網(wǎng)絡(luò)訓(xùn)練過程
本文共訓(xùn)練了四組策略網(wǎng)絡(luò),分別為基于PIOO算子組的ADR和DER方法的策略網(wǎng)絡(luò)、基于DSOO算子組的ADR和DER方法的策略網(wǎng)絡(luò)。通過大量實驗發(fā)現(xiàn)PIOO算子和DER方法求解能力相對較好(具體在3.3.1和3.3.2節(jié)詳細說明),所以選取基于PIOO算子組的DER方法和L2I[15]算法進行對比。
訓(xùn)練過程使用相同的訓(xùn)練集和相同的初始解,由于原始的L2I算法只能解決單目標整數(shù)編碼問題,所以后續(xù)實驗中L2I算法使用文獻[16]中針對0-1問題設(shè)計的提升算子組,并且獎勵函數(shù)使用本文相同的DER方法與MDRL進行對比。L2I的策略網(wǎng)絡(luò)的嵌入層根據(jù)問題重新設(shè)計,其余網(wǎng)絡(luò)結(jié)構(gòu)保持不變。在訓(xùn)練過程中,MDRL與L2I算法的策略網(wǎng)絡(luò)得到的回報如圖8所示。為方便觀察,每10個訓(xùn)練epoch記錄一次回報值。根據(jù)訓(xùn)練結(jié)果可見,搭配PIOO算子組的MDRL模型,策略網(wǎng)絡(luò)在訓(xùn)練過程獲得的回報顯著高于L2I算法,MDRL模型的網(wǎng)絡(luò)訓(xùn)練過程更加平穩(wěn),更適合求解多目標選址問題。
初始解作為策略網(wǎng)絡(luò)訓(xùn)練時輸入數(shù)據(jù)的一部分,其質(zhì)量直接影響了算法的收斂速度和最終結(jié)果的優(yōu)劣,并且初始解的多樣性也影響策略網(wǎng)絡(luò)的訓(xùn)練效果和泛化能力。所以本文采用了三種方式來批量生成初始解,初始解生成的算法偽代碼如算法1所示。首先通過隨機生成初始解來保證多樣性,剔除不滿足約束的解后,使用貪心添加的策略從兩種途徑生成質(zhì)量較高的解,隨機將最小時間和最大化性價比的備選點添加到建站點中,在滿足解多樣性的同時保證解的質(zhì)量。
算法1 初始解的批量生成算法
輸入:兩種貪心添加的策略分配比例rate。
輸出:初始解init_s。
a)init_s ← rand_spawn_solution() //嘗試隨機生成初始解
b)if !obey_constrant:select=rand.random(),轉(zhuǎn)步驟c);else:轉(zhuǎn)步驟a) //如果隨機解不滿足約束,按比例選擇兩種貪心策略
c)if select gt; rate:轉(zhuǎn)步驟d);else:轉(zhuǎn)步驟f)
d)if obey_constrant: 轉(zhuǎn)步驟h);else:轉(zhuǎn)步驟e)
e)j ←min(tij), init_s[iter][j] ← 1,執(zhí)行后轉(zhuǎn)步驟d) /*最小時間貪心添加策略*/
f)if obey_constrant: 轉(zhuǎn)步驟h);else:轉(zhuǎn)步驟g)
g)j ← max(numj/cj), init_s[iter][j] ←1,執(zhí)行后轉(zhuǎn)步驟f) /*最大化性價比的貪心添加策略*/
h)return init_s
3.3 小規(guī)模算例驗證
為驗證選址模型的規(guī)范性和MDRL算法的有效性,使用cplex求解器對10個小規(guī)模算例進行求解。由于cplex求解器無法給出多個目標的非劣解,所以采用三個目標加權(quán)求和的方式尋找模型最優(yōu)解,求解結(jié)果如表8所示。經(jīng)驗證clpex成功求解出選址模型的最優(yōu)解,MDRL算法在求解出最優(yōu)解的同時還求解多個非劣解,在10個算例中,MDLR算法求解出的非劣解集中均包含cplex的最優(yōu)解,結(jié)果驗證了選址模型的規(guī)范性和MDRL算法的有效性。
3.4 算法測試
本文采用Hypervolume指標[20]、Spacing指標[21]、Ω支配性指標[22]、IGD指標[23]四個具有代表性的多目標評價指標對算法優(yōu)化性能進行評估。Hypervolume指標用于評估算法非劣解集收斂性,依照參考點設(shè)置,該指標值越大,說明算法非劣解集收斂性越好。Spacing指標用于評估非劣解集的多樣性與分布均勻性,該指標值越小,算法非劣解集的多樣性越好,分布更加均勻。Ω支配性指標用于評估算法獲得帕累托前沿所占比例,該指標越大,說明算法得到非劣解數(shù)量越多,算法效果也好。IGD指標同時評價算法收斂性和多樣性,該指標越小,算法性能越好。
3.4.1 不同算子組優(yōu)化效果對比
將兩組算子在小、中、大規(guī)模分別使用100個測試實例進行對比。由表9結(jié)果可見,DSOO和PIOO在小規(guī)模算例中優(yōu)化效果接近,計算結(jié)果在三個多目標評價指標中各有優(yōu)劣。小規(guī)模算例中,DSOO算子組在Hypervolume和Spacing指標上優(yōu)化效果略好于PIOO,但劣于PIOO的Ω指標。隨著算例的規(guī)模擴大,在中等規(guī)模和大規(guī)模實例中,PIOO相對于DSOO的優(yōu)勢逐漸明顯,在大規(guī)模實例中,PIOO全部指標都優(yōu)于DSOO。
本文使用算子相對提升率φ來衡量算子的優(yōu)化效率,φ值越大表示算子更容易改進當前解,產(chǎn)生非劣解的概率更高。算子相對提升率φ的計算如式(24)所示,其中ns為產(chǎn)生非劣解的個數(shù),step為算子相對優(yōu)化次數(shù)。兩種算子組合在不同規(guī)模算例的相對提升率如圖9所示。兩組算子在小規(guī)模算例優(yōu)化效果非常接近。但隨著問題規(guī)模擴大,DSOO的φ值快速下降,PIOO的φ值相對平穩(wěn),PIOO在大規(guī)模算例性能明顯優(yōu)于DSOO。
φ=nsstep×100%(24)
綜合考慮表9和圖9中四個指標的結(jié)果,PIOO算子組更加適合本文問題的求解。因此本文在后續(xù)的實驗對比過程中,均采用PIOO算子組進行對比實驗。
3.4.2 不同算法的求解性能比較
本文選取了改進的快速非支配排序遺傳算法(NSGA-Ⅱ)[24,25]、改進的多目標粒子群算法(MOPSO)[26,27]、L2I深度強化學習算法[15],與本文基于ADR方法的MDRL算法(MDRL-AD)和基于DER方法的MDRL算法(MDRL-DE)進行比較。改進的NSGA-Ⅱ使用與文獻[25]相同的交叉策略,并引入與文獻相同的鄰域搜索策略,加入insert和swap算子[25],變異和交叉概率分別設(shè)置為0.1和0.8,與文獻保持一致。改進的MOPSO使用與文獻[27]相同的變異操作,加入動態(tài)變異機制提高算法搜索能力。
實驗測試算例700個,其中小中大規(guī)模各200個算例,超大規(guī)模100個算例。不同算法均在相同算例和相同的初始解進行測試,迭代次數(shù)都設(shè)置為100次。不同算法在四種規(guī)模的測試集求解結(jié)果如表10所示。為了更直觀體現(xiàn)優(yōu)化過程,選取一個中等規(guī)模算例,不同算法隨著迭代次數(shù)的Hypervolume指標值變化如圖10所示,可見本文MDRL算法在中等算例中求解質(zhì)量和優(yōu)化速度均優(yōu)于其他算法。
由表10結(jié)果可知,總體上,本文提出的兩種算法在四種規(guī)模測試集的求解結(jié)果均好于對比的三種算法。在絕大多數(shù)算例下,MDRL算法求解結(jié)果的 Hypervolume、Spacing、Ω、IGD指標的平均值和標準差均好于其他三種算法。結(jié)果表明,MDRL算法求解質(zhì)量和穩(wěn)定性均超過其他三種算法,并且在超大規(guī)模算例中,MDRL依然有良好的泛化性和求解性能。
根據(jù)實驗結(jié)果可知,在小規(guī)模實驗中,DER三個評價指標均優(yōu)于ADR方法。中等規(guī)模算例實驗下,ADR和DER方法求解性能十分接近,DER略好于ADR。隨著算例規(guī)模變大,DER方法的優(yōu)勢更加明顯,在大規(guī)模和超大規(guī)模實驗中,DER方法的三個評價指標均優(yōu)于ADR方法。此結(jié)果可歸因于基于支配關(guān)系的DER獎勵計算方式能夠更準確地反映出在大規(guī)模多目標問題中解之間的非劣關(guān)系。相比之下,基于子問題權(quán)重合并的ADR獎勵計算方式難以捕捉到大規(guī)模多目標問題解的特征。因此ADR方法更加適合求解小規(guī)模算例,而DER方法更適合求解大規(guī)模算例。
4 案例分析
為進一步測試MDRL算法求解實際問題的性能和泛化能力,選取上海市奉賢新城部分區(qū)域作為實際案例背景進行分析求解。本文考慮實際情況,根據(jù)人流量數(shù)據(jù)估計人口密度,奉賢新城區(qū)人流量數(shù)據(jù)如圖11所示,陰影區(qū)域為人流量密集區(qū)域。基于人流量數(shù)據(jù)選取商場、居民區(qū)、學校等人口密集區(qū)域作為救援需求點,選取空地較大且交通方便的位置作為消防站備選點,選取部分建筑密集空地狹小的區(qū)域作為微型消防站備選點。其中普通消防站備選點也可當作微型消防站備選點。人口密度、救援速度、時間約束等根據(jù)實際數(shù)據(jù)情況進行設(shè)定。
目前該區(qū)域中現(xiàn)有消防站共5個,普通消防站4個,微型消防站1個。案例選取的消防設(shè)施備選點共83個,其中消防站候選點23個,微型消防站備選點60個。應(yīng)急救援需求點36個。相關(guān)設(shè)施點的實際位置如圖11所示。根據(jù)點實際位置的經(jīng)緯度使用式(25)球面距離公式計算出備選點與需求點實際的距離。
dij=re·arccossin(Lati)sin(Latj)+
cos(Lati)cos(Latj)·cos(|Loni-Lonj|)(25)
其中:re為地球半徑,取6 371 km;lat為緯度;lon為經(jīng)度。其他數(shù)據(jù)信息根據(jù)實際情況按照一定范圍進行設(shè)置,新增消防站總數(shù)量約束設(shè)置為[1,8],普通消防站建設(shè)成本為800~1 500萬,普通消防站救援速度在50~80 km/h。微型消防站建設(shè)成本為50~200萬,速度為15~20 km/h。需求點設(shè)置人口密度為0.2~8,需要的消防設(shè)施數(shù)量為1~3個。需求點的最大救援到達時間約束根據(jù)國家救援標準設(shè)置在5 min以內(nèi),根據(jù)已有的消防站設(shè)施救援能力計算,該案例中36個需求點中有8個需求點沒有達到該救援標準,有13個需求點沒有滿足模型的救援設(shè)施數(shù)量約束,所以需要新增消防設(shè)施來優(yōu)化消防布局。
算法求解實際案例的最優(yōu)建站方案和相對應(yīng)的目標值結(jié)果如表11所示,建站方案為要建站的消防設(shè)施序號。其中范圍0到22為普通消防站的選址序號、23到82為微型消防站的選址序號。每個建站方案對應(yīng)的三個目標值,其中最大救援時間的單位為秒,成本單位為106元。最優(yōu)方案共計44個,均為三個目標的非劣解,選取15個具有代表性的方案如表11所示。
由表11中數(shù)據(jù)分析可得,最大救援時間反映單個需求點的極端救援情況,焦急心理值反映區(qū)域整體的救援情況,二者沒有明顯正相關(guān)性;增加建設(shè)成本能顯著降低市民焦急心理程度,但是未必能顯著減少最大救援時間。綜合考慮上述結(jié)果,優(yōu)先以最大救援時間最短和焦急心理程度最小挑選一個非劣解作為建站方案,該方案最大響應(yīng)時間在所有方案中最短。該方案新建3個普通消防站,和4個微型消防站。建站序號為[2, 7, 19, 36, 47, 49,50],其中2、7、19為新增消防站序號,36、47、49、50為新增微型消防站序號。該方案對應(yīng)三個目標的值:最大救援響應(yīng)時間為277.2 s,市民焦急心理程度為26.2,總建設(shè)成本為3 240萬元。
不同算法對于該實際案例的求解結(jié)果如表12所示。所有算法都使用相同的初始解,種群數(shù)量都設(shè)置為100,迭代次數(shù)都設(shè)置為100次。Hypervolume參考點設(shè)置為[300,30,100],分別對應(yīng)最大救援時間、心理目標和建站成本。
結(jié)果表明,對于實際案例,MDRL算法的Hypervolume指標、Spacing指標、Ω指標、IGD指標均明顯優(yōu)于其他對比算法。為了更直觀體現(xiàn)優(yōu)化過程,不同算法隨著迭代次數(shù)的Hypervolume指標值變化如圖12所示??梢?,MDRL算法在實際案例中求解質(zhì)量和優(yōu)化速度明顯均優(yōu)于其他對比算法。并且,MDRL-DE方法的求解性能略好于MDRL-AD方法,與測試集中等規(guī)模算例結(jié)果基本一致,表明輸入數(shù)據(jù)尺度變化對策略網(wǎng)絡(luò)的影響較小,進而驗證了MDRL算法優(yōu)異的泛化能力。
圖12 不同算法在實際案例的求解性能對比Fig.12 Comparison of results of different algorithms in practical cases
不同算法計算出的非劣解集如圖13所示,由圖可見,MDRL算法非劣解數(shù)量明顯多于其他算法。將5種算法計算出的非劣解集進行合并,并對合并后的非劣解集做非支配排序,最終得到的帕累托前沿如圖14所示。帕累托前沿共44個不重復(fù)的非劣解。MDRL-DE方法計算出32個非劣解,MDRL-AD 方法為21個;L2I方法非劣解為6個;MOPSO為3個;NSGA-Ⅱ為4個。由此可見本文的MDRL算法求解實際案例的性能明顯優(yōu)于其他對比算法。
5 結(jié)束語
本文引入心理函數(shù)衡量火災(zāi)時市民焦急心理,建立了考慮市民救援時間、焦急心理、成本的三目標消防設(shè)施選址模型。針對多目標選址問題,本文提出了基于算子學習的多目標深度強化學習模型MDRL。設(shè)計了多種算子組合和獎勵函數(shù),并通過多組實驗對比得出,問題實例導(dǎo)向的優(yōu)化算子更加有效。通過四種不同規(guī)模的算例進行測試,并與改進的NSGA-Ⅱ、多目MOPSO、L2I深度強化學習算法進行對比。結(jié)果表明MDRL在四種規(guī)模算例都具有更好的優(yōu)化性能,并且在200個備選點的大規(guī)模算例和500個備選點的超大規(guī)模算例,相比其他對比算法優(yōu)勢更加明顯。通過實驗發(fā)現(xiàn),基于優(yōu)勢差異的獎勵方法MDRL-AD更加適合小規(guī)模多目標問題,基于支配性評估的獎勵方法MDRL-DE更適合求解大規(guī)模多目標問題。最后本文采用上海奉賢新城作為實際案例進行求解,在實際案例求解中MDRL依然求解性能良好,對于不同類型數(shù)據(jù)表現(xiàn)出優(yōu)異的泛化能力,最后為消防設(shè)施選址問題的實際案例給出了一個滿意的可行選址方案。在消防設(shè)施選址的基礎(chǔ)上,后續(xù)研究工作將著重探究消防車輛的動態(tài)調(diào)度問題,并設(shè)計基于深度強化學習的選址加調(diào)度問題算法。
參考文獻:
[1]許秋艷, 馬良, 劉勇. 雙目標消防救援站選址模型的元胞陰陽平衡優(yōu)化算法 [J]. 運籌與管理, 2022, 31(12): 31-37. (Xu Qiu-Yan, Ma Liang, Liu Yong. Cellular Yin-Yang pair optimization algorithm for bi-objective fire rescue facility location model [J]. Operations Research and Management Science, 2022, 31(12): 31-37.)
[2]賀元驊, 黃一覽, 熊升華. 基于熵權(quán)直覺模糊拓展MULTIMOORA的機場消防站選址評價模型 [J]. 控制與決策, 2023, 38(1): 265-273. (He Yuanhua, Huang Yilan, Xiong Shenghua. An evaluation model of airport fire stations selection based on entropy weighting informationistic fuzzy extended MULTIMOORA [J]. Control and Decision, 2023, 38(1): 265-273.)
[3]王寧, 許益, 張磊, 等. 考慮消防聯(lián)動與效益的消防站多目標選址方法 [J]. 系統(tǒng)工程理論與實踐, 2020, 40(3): 664-678. (Wang Ning, Xu Yi, Zhang Lei, et al. Consideration of fire station multi-target location method for fire stations considering fire-fighting collaboration and efficiency [J]. Systems Engineering Theory and Practice, 2020, 40(3): 664-678.)
[4]叢亦天. 基于遺傳算法的微型消防站選址模型 [D]. 哈爾濱:哈爾濱理工大學, 2023. (Cong Yitian. A micro fire station location model based on genetic algorithm [D]. Harbin: Harbin University of Science and Technology, 2023.)
[5]Jing Yao, Zhang Xiaoxiang, Murray A T. Location optimization of urban fire stations: access and service coverage [J]. Computers, Environment and Urban Systems, 2019, 73: 184-190.
[6]Yang Lili, Jones B F, Yang S H. A fuzzy multi-objective programming for optimization of fire station locations through genetic algorithms [J]. European Journal of Operational Research, 2007, 181(2): 903-915.
[7]Erden T, Cokun M Z. Multi-criteria site selection for fire services: the interaction with analytic hierarchy process and geographic information systems [EB/OL]. (2010)[2024-05-03]. https://nhess.copernicus.org/articles/10/2127/2010/.
[8]李凱文, 張濤, 王銳, 等. 基于深度強化學習的組合優(yōu)化研究進展 [J]. 自動化學報, 2021, 47(11): 2521-2537. (Li Kaiwen, Zhang Tao, Wang Rui, et al. Research reviews of combinatorial optimization methods based on deep reinforcement learning [J]. Acta Automatica Sinica, 2021, 47(11): 2521-2537.)
[9]Costa P, Rhuggenaath J, Zhang Yingqian, et al. Learning 2-optheuristics for the traveling salesman problem via deep reinforcement lear-ning [C]// Proc of the 12th Asian Conference on Machine Learning. New York: PMLR, 2020: 465-480.
[10]Kool W, Hoof H V, Welling M. Attention, learn to solve routing problems! [EB/OL]. (2019). https://arxiv.org/pdf/1803.0847.
[11]王中, 曹凱. 耦合改進圖注意力網(wǎng)絡(luò)與深度強化學習的公共服務(wù)設(shè)施智能化選址方法 [J]. 地球信息科學學報,2024,26(11):2452-2464. (Wang Zhong, Cao Kai. An intelligent site selection approach for public service facilities coupled with improved graph attention network and deep reinforcement learning [J]. Journal of Earth Information Science, 2024,26(11):2452-2464.)
[12]梁浩健. 基于深度學習的地理空間優(yōu)化問題算法研究 [D]. 長春:吉林大學, 2024. (Liang Haojian. Research on algorithms for geospatial optimization problems based on deep learning [D]. Changchun:Jilin University, 2024.)
[13]Drori I, Kharkar A, Sickinger W R, et al. Learning to solve combinatorial optimization problems on real-world graphs in linear time [C]// Proc of the 19th IEEE International Conference on Machine Learning and Applications. Piscataway,NJ:IEEE Press, 2020: 19-24.
[14]Li Zhuwen, Chen Qifeng, Koltun V. Combinatorial optimization with graph convolutional networks and guided tree search [C]// Proc of the 32nd International Conference on Neural Information Processing Systems. New York:ACM Press, 2018: 537-546.
[15]Lu Hao, Zhang Xingwen, Yang Shuang. A learning-based iterative method for solving vehicle routing problems [EB/OL]. (2020). https://arxiv. org/pdf/2006. 09100v1.
[16]盛佳浩, 馬良, 劉勇. 自記憶的深度強化學習模型求解多維背包問題 [J/OL]. 小型微型計算機系統(tǒng). [2024-06-19]. http://kns. cnki. net/kcms/detail/21. 1106. TP. 20230707. 1332. 004. html. (Sheng Jiahao, Ma Liang, Liu Yong. Based self memorized deep reinforcement learning model for solving multidimensional knapsack problem [J/OL]. Journal of Chinese Computer Systems. [2024-06-19]. http://kns. cnki. net/kcms/detail/21. 1106. TP. 20230707. 1332. 004. html.)
[17]伍康, 夏維, 王子源. 一種基于圖神經(jīng)網(wǎng)絡(luò)的改進鄰域搜索算法 [J]. 計算機應(yīng)用研究, 2024, 41(5): 1402-1408. (Wu kang, Xia Wei, Wang Ziyuan. Improved neighborhood search algorithmbased on graph neural network [J]. Application Research of Computers, 2024, 41(5): 1402-1408.)
[18]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [EB/OL]. (2017). https://arxiv.org/abs/1706. 03762.
[19]Williams R J. Simple statistical gradient-following algorithms for connectionist reinforcement learning [J]. Machine Learning, 1992, 8(3-4): 229-256.
[20]鄭金華, 鄒娟. 多目標進化優(yōu)化 [M]. 北京: 科學出版社, 2018. (Zheng Jinhua, Zou Juan. Multi-objective evolutionary optimization [M]. Beijing: Science Press, 2018.)
[21]Ngambusabongsopa R. A novel diversity guided particle swarm multi-objective optimization algorithm [D]. Changsha:Hunan University, 2011.
[22]姚遠遠, 葉春明, 楊楓. 雙目標可重入混合流水車間調(diào)度問題的離散灰狼優(yōu)化算法 [J]. 運籌與管理, 2019, 28(8): 190-199. (Yao Yuanyuan, Ye Chunming, Yang Feng. Discrete grey wolf optimization algorithm for bi-objective reentrant hybrid flow shop scheduling problem [J]. Operations Research and Management Science, 2019, 28(8): 190-199.)
[23]么雙雙, 董志明, 王顯鵬. 基于分解的多目標多因子進化算法 [J]. 控制與決策, 2021, 36(3): 637-644. (Mo Shuangshuang, Dong Zhiming, Wang Xianpeng. Decomposition-based multi-objective multi-factor evolutionary algorithm [J]. Control and Decision, 2021, 36(3): 637-644.)
[24]Reyes-Sierra M, Coello C C A. Multi-objective particle swarm optimizers: a survey of the state-of-the-art [J]. International Journal of Computational Intelligence Research, 2006, 2(3): 287-308.
[25]王付宇, 王欣蕊, 賀昕, 等. 考慮需求緊迫度和綜合滿意度的應(yīng)急物資選址-調(diào)度問題 [J]. 系統(tǒng)工程, 2024, 42(1): 37-50. (Wang Fuyu, Wang Xinrui, He Xin, et al. Emergency supplies location-scheduling problem considering urgency of demand and comprehensive satisfaction[J]. Systems Engineering, 2024, 42(1): 37-50.)
[26]Deb K, Agrawal S, Pratap A, et al. A fast and elitist multiobjective genetic algorithm: NSGA-Ⅱ [J]. IEEE Trans on Evolutionary Computation, 2002, 6(2): 182-197.
[27]趙海茹, 陳玲. 改進MOPSO在物流節(jié)點選址模型中的應(yīng)用 [J]. 計算機工程與應(yīng)用, 2016, 52(12): 239-244. (Zhao Hairu, Chen Ling. Application of improved MOPSO in logistics node location mo-del[J]. Computer Engineering and Applications, 2016, 52(12): 239-244.)