,12,3(1.,;2., ;3.大學(xué) 學(xué)生工作部, )
關(guān)鍵詞:物資分配;強化學(xué)習(xí); Q -learning算法;動態(tài)探索率;動態(tài)Boltzmann Softmax中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1671-5489(2025)04-1105-12
Emergency Resource Allocation Strategy Based on DBSDER-QL Algorithm
YANG Haol,ZHANG Chijun 1,2 ,ZHANG Xinwei3 1.SchoolofComputerScienceand Technology,Changchun UniersityofScienceand Technology,Changchun13022,China; 2. International Business School, Guangdong University of Finance Economics, Guangzhou ,China; 3. Student Affairs Office, Changchun University ,Changchun ,China)
Abstract: Aiming at the problem of emergency resource alocation for natural disasters,we proposed a Q -learning algorithm based on dynamic Boltzmann Softmax (DBS) and dynamic exploration rate (DER)(DBSDER-QL). Firstly,the DBS strategy was used to dynamically adjust the weights of action values, promoting stable convergence of the algorithm and solving the problem of excessive of the maximum operator. Secondly,the DER strategy was used to improve convergency and stability of the algorithm, solving the problem of the fixed exploration rate Q -learning algorithm not fully converging to the optimal strategy in the later stage of training. Finally,the efectiveness of the DBS and DER strategies was verified by ablation experiments. Compared with dynamic programming,the greedy algorithm,and traditional Q -learning algorithm,the experimental results show that DBSDERQL algorithm is significantly better than traditional methods in terms of total cost and computational efficiency,showing higher applicability and effectiveness.
Keywords: resource allocation; reinforcement learning; Q -learning algorithm; dynamic exploration rate;dynamic Boltzmann Softmax
在自然災(zāi)害應(yīng)急救援中,應(yīng)急物資的快速、有效且公平的分配對減輕災(zāi)害影響、保障人民生命財產(chǎn)安全至關(guān)重要[1-3].目前,應(yīng)急物資分配的研究主要采用精確算法、啟發(fā)式算法和強化學(xué)習(xí)算法解決問題. Yu 等[4]提出了一種近似動態(tài)規(guī)劃算法,解決了應(yīng)急物流中資源分配的問題,在計算復(fù)雜性可控條件下實現(xiàn)了近似最優(yōu)解.Zhang 等[5]借助Gurobi求解器,解決了公共衛(wèi)生應(yīng)急中的有限醫(yī)療儲備分配問題,為應(yīng)急資源的優(yōu)化分配提供了計算支持.Liu等[6]利用基因編程超啟發(fā)式算法,對不確定容量路徑問題進(jìn)行求解,有效優(yōu)化了應(yīng)急物資分配中的路徑失敗和補救成本.Jain等7采用粒子群優(yōu)化算法等元啟發(fā)式算法,求解災(zāi)后應(yīng)急資源分配問題.精確算法理論上可以求解全局最優(yōu)解,但在大規(guī)模物資分配問題中,由于計算復(fù)雜度過高,導(dǎo)致難以求解;啟發(fā)式算法能在短時間內(nèi)求解局部最優(yōu)解,但會導(dǎo)致資源分配不均衡或浪費的問題.
隨著應(yīng)急物資分配問題復(fù)雜度的逐漸增加,強化學(xué)習(xí)算法的應(yīng)用成為解決動態(tài)和不確定性問題的一種有效方法[8-11]. Yu 等[12]提出了一種基于強化學(xué)習(xí) Q -learning算法的應(yīng)急物資分配方法,效果較好.Liang 等[13]提出了一種基于強化學(xué)習(xí)中多臂賭博機算法的緊急物流網(wǎng)絡(luò)優(yōu)化方法,解決了在自然災(zāi)害不確定性條件下的救援物資分配和位置規(guī)劃問題.Aslan 等[14]應(yīng)用強化學(xué)習(xí)中的 Q -learning算法,解決了災(zāi)區(qū)無人機路徑規(guī)劃問題.但隨著受災(zāi)區(qū)域的擴(kuò)大和可分配物資規(guī)模的增長, Q -learning算法的局限性逐漸凸顯,將無法求解全局最優(yōu)解.
Q -learning算法在實際應(yīng)用中存在如下兩個問題:
1)固定探索率導(dǎo)致探索與利用之間的不平衡問題.探索率用于控制利用與探索之間的平衡,決定智能體在每個訓(xùn)練步驟中是選擇當(dāng)前價值最大的動作(利用)還是隨機選擇其他動作(探索).固定探索率使智能體在整個訓(xùn)練過程中始終以相同概率進(jìn)行探索,難以在訓(xùn)練后期收斂到最優(yōu)解.
2)Boltzmann最優(yōu)公式中的最大運算符導(dǎo)致過度貪婪問題.在訓(xùn)練初期,動作價值估計通常不準(zhǔn)確,最大運算符的硬選擇方式會使智能體過度依賴當(dāng)前的動作價值估計,忽略了對其他潛在有價值動作的探索,特別在隨機性或噪聲環(huán)境中,該問題會阻礙算法的穩(wěn)定收斂[15-17].
為解決上述問題,本文提出一種基于動態(tài) Boltzmann Softmax(DBS)和動態(tài)探索率(DER)的Q -learning(dynamic Boltzmann Softmax and dynamic exploration rate based- Q -learning,DBSDER-QL) 算法,主要貢獻(xiàn)如下:
1)本文在文獻(xiàn)[5]的基礎(chǔ)上,利用模擬方法研究物資短缺情形下的分配策略,將原有研究中最多5個需求點的設(shè)定拓展至8個需求點,發(fā)現(xiàn)了原 Q -learning算法的不足,并在不同物資分配量和需求點數(shù)量的情形下,考察每個分配周期分配1,2和3個單位物資的分配問題.
2)使用動態(tài)探索率策略解決固定探索率導(dǎo)致的分配不平衡問題,動態(tài)探索率e隨訓(xùn)練次數(shù)逐漸減小,在訓(xùn)練初期保持較高的探索概率,可充分探索可能的動作,隨著訓(xùn)練的深人,探索率逐步降低,更多地利用當(dāng)前已知的最優(yōu)策略,從而提高算法的收斂性和穩(wěn)定性.
3)采用動態(tài) Boltzmann Softmax 策略,替代 Boltzmann最優(yōu)公式中最大值,解決Boltzmann 最優(yōu)公式中最大值導(dǎo)致的過度貪婪問題.在 Boltzmann 最優(yōu)公式更新中,DBS 對所有可能的動作價值進(jìn)行指數(shù)加權(quán)求和,用加權(quán)和替代最大值.隨著訓(xùn)練的深人,DBS中的指數(shù)權(quán)重動態(tài)調(diào)整,使動作價值估計更精確.
4)使用DBSDER-QL算法解決自然災(zāi)害發(fā)生后關(guān)鍵 72h 內(nèi)的多周期應(yīng)急物資分配問題,并與動態(tài)規(guī)劃算法、貪心算法和 Q -learning算法進(jìn)行對比,實驗結(jié)果表明,DBSDER-QL算法在總成本和計算效率方面均明顯優(yōu)于傳統(tǒng)方法,展現(xiàn)出更高的適用性和有效性.
問題描述及數(shù)學(xué)模型
物資通常由集中分配點統(tǒng)一調(diào)配,本文研究構(gòu)建包含一個分配點和多個需求點的物資分配網(wǎng)絡(luò).
其中需求點為各地區(qū)的物資需求區(qū)域,分配點通過運輸工具將物資運輸?shù)礁餍枨簏c.由于自然災(zāi)害的不可預(yù)測性和迅速爆發(fā),導(dǎo)致物資需求激增且供應(yīng)短缺,很難一次性滿足所有地區(qū)的需求,因此需采用多周期分配方案.自然災(zāi)害發(fā)生后 72h 是救援行動的關(guān)鍵期,本文主要考慮在災(zāi)后關(guān)鍵 72h 內(nèi)的應(yīng)急物資分配問題,將這一時間段劃分為多個等長的分配周期.
1. 1 問題描述
1)有一個物資分配點;
2)有多個物資需求點;
3)在物資短缺情形下;
4)分配物資分多個周期進(jìn)行;
5)需求是將物資分配至各需求點;
6)最終實現(xiàn)最小化3個目標(biāo)總成本,包括可達(dá)性成本、剝奪成本和懲罰成本.
因此,本文設(shè)計了如圖1所示的多周期應(yīng)急物資分配框架.
圖1多周期應(yīng)急物資分配框架
Fig.1 Framework of multi-period emergency resource allocation
1. 2 模型假設(shè)
針對本文研究的問題,提出以下假設(shè):
1)在每個分配周期中,分配點可分配的物資數(shù)量相同且已知;
2)在每個分配周期中,每個需求點的物資需求量相同且已知;
3)單位物資運輸成本已知;
4)不考慮應(yīng)急物資的裝卸和配送時間.
1.3 數(shù)學(xué)模型
大規(guī)模自然災(zāi)害通常會導(dǎo)致關(guān)鍵資源嚴(yán)重短缺,因此衡量物資分配的有效性尤為重要.設(shè) N 表示所有需求點 i 的集合, i∈N ; T 表示應(yīng)急物資分配周期 ΨtΨΨ 的集合, t∈T ; C 表示分配點擁有物資的數(shù)量; a 和 b 表示剝奪成本函數(shù)的剝奪參數(shù); ξ1 表示目標(biāo)函數(shù)中可達(dá)性成本的權(quán)重; ξ2 表示目標(biāo)函數(shù)中剝奪成本的權(quán)重; ξ3 表示目標(biāo)函數(shù)中懲罰成本的權(quán)重; ci 表示從分配點到需求點 i 交付每單位物資的運輸成本; Yi,t 表示在分配周期 Ψt 對需求點 i 的物資分配量; Di,t 表示需求點 i 在分配周期 t 的物資需求量; Si,t 表示在分配周期 t 開始時需求點 i 的物資缺少量; Si,T+1 表示在分配周期 T 結(jié)束時需求點 i 的物資缺少量.
評估應(yīng)急物資分配有3個關(guān)鍵指標(biāo):快速、有效和公平[12.18].具體目標(biāo)函數(shù)如下:
Yi,t∈{0,1,2,?,C},?i=1,2,?,N,t=1,2,?,T,
Si,t+1=Si,t-Yi,t+Di,t,?i=1,2,?,N,t=1,2,?,T,
式(1)表示最小化總成本,包括三部分:可達(dá)性成本、剝奪成本和懲罰成本.根據(jù)文獻(xiàn)[19]可知, ξ1,ξ2 和 ξ3 是3個權(quán)重,用于平衡目標(biāo)函數(shù)中3種成本的影響,權(quán)重設(shè)置為 (ξ1,ξ2,ξ3)=(1/3,1/3,1/3) 式(2)表示可達(dá)性成本,作為快速指標(biāo),即應(yīng)急物資的物流運輸成本, ci 表示每單位物資的運輸成本,Yi,t 表示在分配周期 Ψt 對需求點 i 的物資分配量,運輸成本為二者相乘.式(3)表示剝奪成本,作為有效指標(biāo),剝奪成本用于衡量因物資短缺給幸存者帶來的痛苦,其中 Si,t 表示在分配周期 Ψt 開始時需求點 i 的物資缺少量, L 表示單個周期的時間長度, a 和 b 為剝奪參數(shù).式(4)表示懲罰成本,作為公平指標(biāo),懲罰成本用于確保每位幸存者獲得平等程度的援助,避免幸存者在規(guī)劃期內(nèi)出現(xiàn)嚴(yán)重不平衡.懲罰成本的計算與式(3)采用相同的函數(shù),其中 Si,T+1 表示在分配周期 T 結(jié)束時需求點 i 的物資缺少量
約束條件(5)為容量約束,在每個分配周期內(nèi),所有需求點獲得的物資總量應(yīng)小于或等于分配點的物資容量 C .約束條件(6)規(guī)定每個分配量 Yi,t 必須為整數(shù),且最大值不得超過物資容量 C ,約束條件(7)為狀態(tài)轉(zhuǎn)移約束,如果需求點 i 獲得了 Yi,t 個單位的物資,則其狀態(tài)將減少 Yi,t-Di,t ,如果該需求點未獲得物資,即 Yi,t=0 ,則其狀態(tài)將增加 Di,t .約束條件(8)為在分配周期開始時所有需求點的狀態(tài)均為0.
2算法設(shè)計
首先,定義 Q -learning算法的核心元素,包括智能體、環(huán)境、狀態(tài)、動作和獎勵.其次,分析Q -learning 算法的局限性,并引人兩個改進(jìn)策略:動態(tài) Boltzmann Softmax 和動態(tài)探索率,得到DBSDER-QL算法.最后,介紹DBSDER-QL算法的訓(xùn)練過程.
2.1 -learning算法元素定義
Q -learning算法是一種典型的強化學(xué)習(xí)方法,其通過智能體與環(huán)境的交互,學(xué)習(xí)在不同狀態(tài)下選擇最優(yōu)動作以最大化長期回報.在應(yīng)急物資分配問題中, Q -learning算法通過定義狀態(tài)、動作和獎勵函數(shù)描述智能體與環(huán)境的交互,逐步學(xué)習(xí)到最優(yōu)的物資分配策略.圖2為應(yīng)急物資分配方法的整體框架,可直觀理解這些元素及其在應(yīng)急物資分配中的作用[20-25]
Q -learning算法中的關(guān)鍵元素定義如下.
1)智能體:表示分配點,相當(dāng)于執(zhí)行算法的實體,目的是學(xué)習(xí)如何最有效地分配應(yīng)急物資.
2)環(huán)境:表示需求點,與智能體(分配點)進(jìn)行互動.
3)狀態(tài):狀態(tài) sι 表示所有需求點在分配周期 χt 的物資缺乏情況,可用狀態(tài)向量形式化表示為St=(S1,t,S2,t,?,SN,t) ,每個狀態(tài) Si,t 反映了在分配周期 t 內(nèi)需求點i的物資缺少量.
4)動作:動作 表示分配點在分配周期 t 對所有需求點的物資分配數(shù)量,動作向量可形式化表示為 Yt=(Y1,t,Y2,t,?,YN,t) ,其中每個元素 Yi,t 表示在分配周期 Ψt 內(nèi)分配給需求點 i 的物資數(shù)量.
5)獎勵函數(shù):本文的研究目標(biāo)是最小化總成本,而強化學(xué)習(xí)的目標(biāo)是最大化獎勵總和.為在強化學(xué)習(xí)框架下實現(xiàn)研究目標(biāo),將總成本的負(fù)值定義為獎勵函數(shù).同時,為更好地描述物資分配問題,將規(guī)劃周期內(nèi)的狀態(tài)劃分為初始狀態(tài)、中間狀態(tài)和最終狀態(tài)[5].
首先,物資分配周期 t=1 的狀態(tài)稱為初始狀態(tài),其獎勵函數(shù)與 t=1 與即將轉(zhuǎn)移到的 t=2 的狀態(tài)有關(guān).獎勵函數(shù)對應(yīng)可達(dá)性成本和剝奪成本為
其次,分配周期 t=2~T-1 的狀態(tài)為中間狀態(tài),獎勵函數(shù)對應(yīng)可達(dá)性成本和剝奪成本為
最后,分配周期 t=T 的狀態(tài)為最終狀態(tài),獎勵對應(yīng)可達(dá)性成本和懲罰成本為
2.2 動態(tài)探索率策略
為解決固定探索率導(dǎo)致的探索與利用不平衡問題,本文采用動態(tài)探索率策略調(diào)整探索率 ε .在強化學(xué)習(xí)中, ε 是用于平衡探索與利用的參數(shù),利用是指在已知某個動作價值最大時,優(yōu)先選擇該動作以獲取更多回報;而探索則是在當(dāng)前信息不足時嘗試其他動作,以發(fā)現(xiàn)潛在的更高價值動作.訓(xùn)練初期,e值較高,以增加探索概率,幫助智能體充分探索可能的動作;隨著訓(xùn)練的進(jìn)行, ε 逐漸減小,更多地利用當(dāng)前最優(yōu)策略.這種動態(tài)調(diào)整確保了智能體在初期廣泛探索環(huán)境,在后期專注于最優(yōu)動作,從而提高了算法的收斂性和穩(wěn)定性[26],用公式可表示為
其中 k 表示當(dāng)前訓(xùn)練的次數(shù), Ne 表示訓(xùn)練的總次數(shù).
探索率 ε 值的動態(tài)變化反映了探索與利用之間的平衡調(diào)整,如圖3所示.由圖3可見,隨著訓(xùn)練次數(shù)的增加,探索率逐漸減小,智能體在后期逐步減少探索,以增強利用現(xiàn)有知識的能力.
2.3 動態(tài)Boltzmann Softmax策略
在強化學(xué)習(xí)算法中,動作價值函數(shù)( Q 函數(shù))的更新基于Boltzmann最優(yōu)公式:
Q(s,a)Q(s,a)+α?[r+γ?maxa′Q(s′,a′)-Q(s,a)],
其中: Q(s,a) 表示當(dāng)前狀態(tài) s 下采取動作 a 的價值; α 為學(xué)習(xí)率; r 為即時獎勵;γ為折扣因子,用于衡量未來獎勵的重要性; maxa'Q(s',a') 表示在下一狀態(tài) s′ 中所有可能動作的最大價值.Boltzmann公式通過最大運算符max直接選擇當(dāng)前狀態(tài)下最優(yōu)動作的價值,從而實現(xiàn)對策略的優(yōu)化.然而,由于 Q 值的估計在訓(xùn)練初期可能存在較大的噪聲和偏差,因此直接使用最大值運算符將導(dǎo)致算法過于依賴當(dāng)前Q 值的估計,忽略其他潛在動作的探索,使算法收斂速度減慢,甚至可能無法收斂到全局最優(yōu)解.
為解決上述問題,本文提出采用動態(tài)Boltzmann Softmax策略替代Boltzmann最優(yōu)公式中的最大運算符.DBS在Boltzmann最優(yōu)公式更新中,通過對所有可能動作的價值進(jìn)行指數(shù)加權(quán)求和,使用動態(tài)溫度參數(shù) βk 調(diào)整動作價值的估計[27].在訓(xùn)練初期,由于對環(huán)境的了解不足,溫度參數(shù) βk 較小,使動作價值的估計更平滑,避免因初期估計偏差導(dǎo)致的收斂速度緩慢,甚至無法收斂.隨著訓(xùn)練的進(jìn)行, βk 逐漸增大,使對較優(yōu)動作的價值估計更突出,從而更好地利用已學(xué)得的策略.這種基于動態(tài)溫度參數(shù)的調(diào)整機制,使動作價值估計更精確,促進(jìn)了算法的有效收斂.
溫度參數(shù) βk 通常采用冪函數(shù)形式計算:
圖3動態(tài)探索率變化曲線
Fig.3Change curve of dynamic exploration rates
βk=k?,
其中: k 表示當(dāng)前的訓(xùn)練次數(shù),與式(12)中的 k 為同一個參數(shù); p 為階數(shù),通常取 p=2[27-28]
動態(tài)BoltzmannSoftmax算子的數(shù)學(xué)表達(dá)式為
其展示了溫度參數(shù) βk 在值函數(shù)更新中的應(yīng)用.將DBS策略引人Boltzmann最優(yōu)公式以進(jìn)行 Q 值更新,更新規(guī)則如下:
2.4 DBSDER-QL算法訓(xùn)練流程
整個訓(xùn)練過程從初始化步驟開始,包括初始化 Q 表、可達(dá)性成本 F1 、剝奪成本 F2 和懲罰成本F3 .訓(xùn)練過程以循環(huán)迭代方式進(jìn)行,分多個訓(xùn)練輪次.在每輪訓(xùn)練中,模型先將訓(xùn)練次數(shù) k 初始化為1,設(shè)置初始狀態(tài) s ,并將分配周期 Ψt 初始化為1.
在每個周期內(nèi),模型基于動態(tài)探索率策略選擇動作 ,并結(jié)合當(dāng)前周期的可達(dá)性成本 F1 、剝奪成本 F2 和懲罰成本 F3 計算獎勵函數(shù)值 Rt .通過所選動作和當(dāng)前狀態(tài)計算下一時刻狀態(tài) St+1 ,并基于下一狀態(tài)的值函數(shù) V(St+1) ,用Boltzmann公式更新 Q 表數(shù)值.當(dāng)分配周期 Ψt 未超過最大分配周期 T 時,循環(huán)繼續(xù),直至完成當(dāng)前次數(shù)的所有周期訓(xùn)練.在每輪訓(xùn)練結(jié)束后,模型更新訓(xùn)練次數(shù) k ,進(jìn)入下一輪訓(xùn)練,直至訓(xùn)練次數(shù)達(dá)到最大值 Ne .通過反復(fù)迭代優(yōu)化,模型逐步調(diào)整并收斂 Q 值,從而為物資分配問題提供優(yōu)化策略.圖4為DBSDER-QL算法的完整訓(xùn)練流程.
3 實驗與分析
3.1 實驗環(huán)境及數(shù)據(jù)
本文實驗中,所有程序均基于Python 3.8,并在一臺配備RTX4090顯卡和22核AMD EPYC 處理器的云服務(wù)器上運行.實驗所用數(shù)據(jù)如下[26].
1)需求點初始狀態(tài):所有需求點的初始狀態(tài)均為0,表示為 S0=(S1,0,S2,0,?,SN,0)=(0,0,?,0) :2)需求點需求量:每個需求點在每個周期的需求量為1個單位,即 Dt=(D1,t,D2,t,?,DN,t)= (1,1,?,1) ;3)可達(dá)性成本:各需求點與分配點之間的可達(dá)性成本 ci 取值于集合 C={200,250,300,350 ,400,?} ,例如,分配點到需求點2的可達(dá)性代價為 c2=250
3.2 靈敏度分析
在強化學(xué)習(xí)中,學(xué)習(xí)率 α 和折扣因子γ是關(guān)鍵參數(shù).學(xué)習(xí)率 α 調(diào)節(jié)智能體適應(yīng)新環(huán)境的速度,較高的學(xué)習(xí)率可以使智能體更快地適應(yīng)新環(huán)境,但可能導(dǎo)致結(jié)果波動較大;折扣因子γ決定智能體對未來獎勵的重視程度,較高的折扣因子鼓勵智能體進(jìn)行長遠(yuǎn)規(guī)劃,而較低的折扣因子則使其更傾向于追求即時回報.
圖5為DBSDER-QL算法在不同學(xué)習(xí)率 α 和折扣因子γ組合下的加權(quán)成本,其中顏色深淺表示加權(quán)成本的高低,顏色越深表示成本越高.實驗選取2個單位的應(yīng)急物資,對3個需求點進(jìn)行6個周期的物資分配,針對每種學(xué)習(xí)率 α 和折扣因子 γ 的組合,進(jìn)行1000次訓(xùn)練,再計算每組參數(shù)下的加權(quán)總成本,生成熱力圖,通過分析熱力圖中的淺色區(qū)域,可識別出較優(yōu)的參數(shù)組合.最終,通過該實驗選擇學(xué)習(xí)率 α=0.7 、折扣因子 γ=0.8 的組合.
1290 01277.531290.591285.141278.761266.431283.111241.841274.151265.701268.231270.42 0.1 -1 233.131223.72 1230.971232.19 1220.251227.51 1232.29 1212.33 1207.91 1205.53 1270.48 1260 0.2-1229.85 1 238.26 1 224.171 232.98 1222.571226.241217.021204.64 1202.94 1205.191201.98 0.3-1232.59 1232.301236.28 1231.49 1231.021231.491213.951205.861200.54:1200.791199.86 1230 0.4-1241.02 1231.81 1232.04 1245.411222.91 1234.381218.56 1201.23 1200.131199.85 1197.32 80.5-1-245.06 1235.41 1224.871239.05 1232.781229.161215.90:1201.251195.42 1195.04 1195.84 1200 0.6 -1235.74 1226.80 1231.861226.111241.091226.54 1216.951200.981194.65 1194.651194.65 1196 0.7-1 239.56 1229.21 1236.911234.381228.07 1223.69 1218.531203.871194.65 1194.651194.65 0.8-1238.62 1 233.12 1 239.531 228.67 1232.09 1 227.31 1213.01 1202.111195.061194.65 1194.65 1195 0.9-1235.051239.381236.161234.631227.691226.431217.021198.951194.661194.651194.65 1.0-1235.151235.251231.81 1241.231223.111217.591216.091200.771194.65 1194.651194.65 1194 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 2
3.3 消融實驗
為考察兩種增強策略對模型效果的影響,在DBSDER-QL算法的基礎(chǔ)上刪除不同的增強策略以產(chǎn)生兩種算法,如DBS-QL算法和DER-QL算法,通過比較不同算法的性能評估不同策略的作用.消融實驗中不同算法的設(shè)置列于表1,其中:“√\"表示包含該策略;‘ ?× ”表示不包含該策略.
表1消融實驗結(jié)果
設(shè)計一組實驗,采用2個單位的應(yīng)急物資,對3個需求點進(jìn)行6個周期的物資分配,共進(jìn)行1 000 次訓(xùn)練.實驗中,DBS-QL算法采用固定探索率 ε=0.1 ,并與 DER-QL 和 DBSDER-QL 算法采用式(12)動態(tài)調(diào)整探索率的情況進(jìn)行對比.圖6為不同算法在訓(xùn)練中的對比結(jié)果.由圖6可見,DER-QL和DBS-QL算法的曲線在整個訓(xùn)練過程中波動較大,未表現(xiàn)出明顯的收斂趨勢.而DBSDER-QL算法在動態(tài)探索率下表現(xiàn)最優(yōu)異,能較快收斂,效果明顯優(yōu)于前兩種算法.
3.4 算法測試
為驗證DBSDER-QL算法的泛化能力,實驗設(shè)置1個單位的應(yīng)急物資,針對 3~8 個需求點進(jìn)行6個周期的物資分配.如圖7所示,通過加權(quán)總成本評估算法性能,并對其收斂性進(jìn)行展示,不同需求點數(shù)量下的算法訓(xùn)練過程清晰地呈現(xiàn)了其表現(xiàn).圖7中的 {N,C,T} 表示實驗參數(shù),其中 N 為需求點數(shù)量, C 為物資單位數(shù)量, T 為物資分配的周期數(shù)量.由圖7可見,隨著需求點數(shù)量的增加,物資分配方案的復(fù)雜度隨之提高,導(dǎo)致算法所需的訓(xùn)練次數(shù)有所增加.DBSDER-QL算法始終能找到最低成本的分配策略,驗證了其在解決物資分配問題上的有效性.
3.5 算法對比分析
下面對DBSDER-QL算法與動態(tài)規(guī)劃算法、貪心算法和 Q -learning算法進(jìn)行對比,從加權(quán)總成本和計算時間兩方面綜合評估各算法的性能.為進(jìn)一步揭示各算法在不同情形下的適用性,研究通過設(shè)置不同數(shù)量的物資(1,2,3個單位)以及不同數(shù)量的需求點( 3~8 個)對各算法進(jìn)行全面對比分析,用{N,C,T} 表示實驗參數(shù),其中 N 為需求點數(shù)量, C 為物資單位數(shù)量, T 為物資分配的周期數(shù)量.例如, {3,1,6} 表示3個需求點、1個單位物資和6個分配周期.表2列出了各算法的成本和計算時間對比結(jié)果,表3列出了 Q -leaning算法和DBSDER-QL算法的訓(xùn)練次數(shù) Ne 對比結(jié)果.由表2和表3可見,DBSDER-QL算法在不同規(guī)模問題中均具有優(yōu)勢.
Table2Comparison results of cost and computation time for each algorithm
表3Q-learning算法和DBSDER-QL算法的訓(xùn)練次數(shù) Ne 對比結(jié)果
表2各算法的成本和計算時間對比結(jié)果
Table 3 Comparison results of training time Ne between -learning algorithm and DBSDER-QL algorithm
圖8為在不同需求點數(shù)量( (3~8 個)下,分配1個單位物資實驗中,DBSDER-QL算法與動態(tài)規(guī)劃算法、貪心算法和 Q -learning算法的求解情況.由圖8可見,DBSDER-QL算法和 Q -learning算法在加權(quán)總成本方面與動態(tài)規(guī)劃算法一致,均達(dá)到了最優(yōu)解.動態(tài)規(guī)劃算法作為精確算法,通過遍歷所有可能情況找到全局最優(yōu)解,從而保證最低的加權(quán)總成本,證明了DBSDER-QL和 Q -learning算法在該任務(wù)中的有效性.在計算時間方面,貪心算法雖然計算速度最快,但由于它在每個分配周期中僅選擇當(dāng)前周期最低成本的方案并累加,因此其加權(quán)總成本最高.而動態(tài)規(guī)劃算法通過全局搜索確保最優(yōu)解,但計算時間較長.強化學(xué)習(xí)算法通過試錯過程逐步優(yōu)化策略找到最優(yōu)解,DBSDER-QL算法比Q -learning算法能在更少的訓(xùn)練次數(shù)下更快收斂,因此計算時間較短.
Fig.8Comparisonresultsof weighted totalcost andcomputation timeforvarious algorithms with1unitofresourceallocation
3.5.22個單位物資的對比分析
圖9為在不同需求點數(shù)量( 3~8 個)下,分配2個單位物資實驗中不同算法的求解表現(xiàn).由圖9可見,在加權(quán)總成本方面,DBSDER-QL、 Q -learning、動態(tài)規(guī)劃和貪心算法的表現(xiàn)與1個單位物資分配實驗相同;在計算時間方面,隨著需求點數(shù)量的增加,DBSDER-QL算法的計算時間優(yōu)勢逐漸凸顯,略快于動態(tài)規(guī)劃算法,明顯快于 Q -learning算法.
圖92個單位物資分配時各算法的加權(quán)總成本和計算時間對比結(jié)果
Fig.9Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithms with2unitsofresource allocati
3.5.33個單位物資的對比分析
圖10為在不同需求點數(shù)量 (3~8 個)下,分配3個單位物資實驗中不同算法的求解表現(xiàn).由圖10可見,隨著物資分配數(shù)量的增加,分配方案的數(shù)量也隨之增加,算法的計算難度變大.在加權(quán)總成本方面,當(dāng)需求點較少( 3~6 個)時,DBSDER-QL算法性能優(yōu)于 Q -learning算法,成本接近于動態(tài)規(guī)劃算法.隨著需求點數(shù)量的增加, Q -learning算法在7個和8個需求點時無法求解,動態(tài)規(guī)劃算法在8個需求點時也無法求解,而DBSDER-QL算法仍能成功求解,顯示了其在不同規(guī)模問題中的魯棒性.在計算時間方面,DBSDER-QL算法隨著需求點數(shù)量的增加,明顯優(yōu)于動態(tài)規(guī)劃和Q-learning算法.
綜上所述,針對 Q -learning算法在實際應(yīng)用中存在固定探索率導(dǎo)致探索與利用不平衡的問題和Boltzmann 最優(yōu)公式中最大運算符導(dǎo)致過度貪婪的問題,本文提出了一種 DBSDER-QL算法.首先,引人動態(tài) Boltzmann Softmax 策略替代 Boltzmann 最優(yōu)公式中的最大值,有效解決了過度貪婪問題.其次,通過動態(tài)探索率策略提高了算法的收斂速度和穩(wěn)定性.在不同物資分配量和需求點數(shù)量實驗中,考察了不同情形下算法之間的性能差異,驗證了DBSDER-QL算法的有效性和適用性.實驗結(jié)果表明,在大規(guī)模場景下,DBSDER-QL算法在加權(quán)總成本和計算效率方面優(yōu)于動態(tài)規(guī)劃算法、貪心算
法和 Q -learning算法.
Fig.10Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithmswith3unitsofresourceallocation
參考文獻(xiàn)
[1]龍海波,楊家其,尹靚,等.基于魯棒優(yōu)化的不確定需求下應(yīng)急物資配送多目標(biāo)決策模型[J].吉林大學(xué)學(xué)報(工 學(xué)版),2023,53(4):1078-1084. (LONG H B,YANG JQ,YIN L,et al. Multi-objective Decision-Making on Emergency Material Distribution under Uncertain Demand Based on Robust Optimization [J]. Journal of Jilin University(Engineering and Technology Edition),2023,53(4):1078-1084.) [2]劉建輝,王瓊.基于多目標(biāo)蟻群算法的多配送中心應(yīng)急物資配送車輛調(diào)度優(yōu)化方法[J].吉林大學(xué)學(xué)報(工學(xué) 版),2025,55(2): 631-638.(LIU JH,WANG Q. Optimization Method for Emergency Material Delivery Vehicle Scheduling in Multiple Distribution Centers Based on Multi-objective Ant Colony Algorithm[J]. Journal of Jilin University (Engineering and Technology Edition),2025,55(2): 631-638.) [3]張國富,管燕妮,蘇兆品,等.多階段應(yīng)急物資多目標(biāo)連續(xù)分配問題建模與求解[J].計算機工程,2024,
50(12):329-345. (ZHANG G F,GUAN Y N,SU Z P,et al. Modeling and Solving of the Multi-objective Continuous Distribution Problem for Multi-stage Emergency Supplies [J]. Computer Enginering,2O24,50(12):
329-345.)
[4]YU L N,YANG H S,MIAO L X,et al. Rollout Algorithms for Resource Alocation in Humanitarian Logistics [J].IISE Transactions,2019,51(8):887-909.
[5]ZHANG YW,LI Z P,JIAO P B,et al. Two-Stage Stochastic Programming Approach for Limited Medical Reserves Allocation under Uncertainties [J]. Complex Intelligent Systems,2021,7(6): 3003-3013.
[6]LIU Y X,WANG S X,LI X H. A New Coperative Recourse Strategy for Emergency Material Allocation in Uncertain Environments [J]. Frontiers in Physics,2022,10: 835412-1-835412-10.
[7]JAIN S, BHARTI K K. A Combinatorial Optimization Model for Post-Disaster Emergency Resource Alocation Using Meta-Heuristics [J]. Soft Computing,2023,27(18):13595-13611.
[8]白天,呂璐瑤,李儲,等.基于深度強化學(xué)習(xí)的游戲智能引導(dǎo)算法[J].吉林大學(xué)學(xué)報(理學(xué)版),2025,63(1):
91-98.(BAI T,LU L Y,LI C,et al. Game Inteligence Guidance Algorithm Based on Deep Reinforcement Learning[J]. Journal of Jilin University(Science Edition),2025,63(1):91-98.)
[9]郝嘉寧,姚永偉,葉育鑫.本體指導(dǎo)下的安全強化學(xué)習(xí)最優(yōu)化策略[J].吉林大學(xué)學(xué)報(理學(xué)版),2025,63(1):
83-90.(HAO J N, YAO Y W,YE Y X. Optimization Strategy for Safety Reinforcement Learning Guided by Ontolog[J]. Journal of Jilin University(Science Edition),2025,63(1):83-90.)
[10]張一博,高丙朋.基于深度強化學(xué)習(xí)的AUV路徑規(guī)劃研究[J].東北師大學(xué)報(自然科學(xué)版),2025,57(1):
53-62.(ZHANG Y B,GAO B P. AUV Path Planning Research Based on Deep Reinforcement Learning [J]. Journal of Northeast Normal University (Natural Science Edition),2025,57(1) : 53-62.) [11]董小剛,韓元元,秦喜文.基于深度確定性策略梯度算法的股票投資組合策略研究[J].東北師大學(xué)報(自然科 學(xué)版),2025,57(1): 29-34. (DONG XG,HAN Y Y, QIN X W. Research on Stock Portfolio Strategy Based on Deep Deterministic Policy Gradient Algorithm [J]. Journal of Northeast Normal University(Natural Science
[12]YU L,ZHANG C R,JIANG J Y,et al. Reinforcement Learning Approach for Resource Allcation in Humanitarian Logistics [J]. Expert Systems with Applications, 2021,173:114663-1-114663-14.
[13]LIANG J, ZHANG Z J,ZHI Y P. Multi-armed Bandit Approaches for Location Planning with Dynamic Relief Supplies Allocation under Disaster Uncertainty [J]. Smart Cities,2025,8(1): 5-1-5-29.
[14]ASLAN S,DEMIRCI S. An Immune Plasma Algorithm with Q Learning Based Pandemic Management for Path Planning of Unmanned Aerial Vehicles [J]. Egyptian Informatics Journal,2024,26:100468-1-100468-19.
[15]VAN HASSELT H. Double Q-Learning [J]. Advances in Neural Information Processng Systems,2010,2: 2613-2621.
[16]VAN HASSELT H. Estimating the Maximum Expected Value: An Analysis of(Nested) Cross Validation and the Maximum Sample Average [EB/OL]. (2013-02-28)[2025-01-01]. https://arxiv.org/abs/1302.7175.
[17]FOX R,PAKMAN A, TISHBY N. Taming the Noise in Reinforcement Learning via Soft Updates [EB/OL]. (2015-12-28)[2025-01-01]. https://arxiv.org/abs/1512.08562.
[18]YU L N, ZHANG CR,YANG H S,et al. Novel Methods for Resource Allcation in Humanitarian Logistics Considering Human Suffering [J]. Computers Industrial Engineering,2018,119:1-20.
[19]HUANG K,JIANG Y P,YUAN Y F,et al. Modeling Multiple Humanitarian Objectives in Emergency Response to Large-Scale Disasters [J]. Transportation Research Part E:Logistics and Transportation Review,2015,75: 1-17.
[20]FAN JQ,WANG Z R,XIE Y C,et al. A Theoretical Analysis of Deep Q Learning [C]//Proceedings of the 2nd Conference on Learning for Dynamics and Control. [S.1.]: PMLR,202O: 486-489.
[21] JIN C,ALLEN-ZHU Z,BUBECK S, et al. Is Q -Learning Provably Eficient? [EB/OL]. (2018-07-10) [2024-12-10]. https://arxiv.org/abs/1807.03765.
[22] JANG B,KIM M,HARERIMANA G,et al. Q Learning Algorithms:A Comprehensive Classification and Applications [J]. IEEE Access,2019,7:133653-133667.
[23]CLIFTON J,LABER E. Q Learning: Theory and Applications [J]. Annual Review of Statistics and Its Application,2020,7:279-301.
[24]WATKINS C JC H, DAYAN P. Q-Learning [J]. Machine Learning,1992,8: 279-292.
[25]李石磊,葉清,袁志民,等.在線深度強化學(xué)習(xí)探索策略生成方法綜述[J].機器人,2024,46(6):753-768. (LI S L,YE Q,YUAN Z M,et al. A Survey on Online Deep Reinforcement Learning Exploration Strategy Generation Methods[J].Robot,2024,46(6):753-768.)
[26]SEMROV D,MARSETIC R, ZURA M,et al. Reinforcement Learning Approach for Train Rescheduling on a Single-Rrack Railway [J]. Transportation Research Part B: Methodological, 2O16,86: 250-267.
[27]PAN L,CAI QP,MENG Q,et al. Reinforcement Learning with Dynamic Boltzmann Softmax Updates [C]// Proceedings of the Twenty-Ninth International Joint Conference on Artificial Inteligence.New York:ACM, 2020:1992-1998.
[28]HAARNOJA T,TANG H,ABBEEL P,et al. Reinforcement Learning with Dep Energy-Based Policies [C]// International Conference on Machine Learning. [S.1.]: PMLR,2Ol7:1352-1361.
(責(zé)任編輯:韓嘯)