• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于DBSDER-QL算法的應(yīng)急物資分配策略

    2025-08-18 00:00:00楊皓張池軍張辛未
    關(guān)鍵詞:分配動作成本

    ,12,3(1.,;2., ;3.大學(xué) 學(xué)生工作部, )

    關(guān)鍵詞:物資分配;強化學(xué)習(xí); Q -learning算法;動態(tài)探索率;動態(tài)Boltzmann Softmax中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1671-5489(2025)04-1105-12

    Emergency Resource Allocation Strategy Based on DBSDER-QL Algorithm

    YANG Haol,ZHANG Chijun 1,2 ,ZHANG Xinwei3 1.SchoolofComputerScienceand Technology,Changchun UniersityofScienceand Technology,Changchun13022,China; 2. International Business School, Guangdong University of Finance Economics, Guangzhou ,China; 3. Student Affairs Office, Changchun University ,Changchun ,China)

    Abstract: Aiming at the problem of emergency resource alocation for natural disasters,we proposed a Q -learning algorithm based on dynamic Boltzmann Softmax (DBS) and dynamic exploration rate (DER)(DBSDER-QL). Firstly,the DBS strategy was used to dynamically adjust the weights of action values, promoting stable convergence of the algorithm and solving the problem of excessive of the maximum operator. Secondly,the DER strategy was used to improve convergency and stability of the algorithm, solving the problem of the fixed exploration rate Q -learning algorithm not fully converging to the optimal strategy in the later stage of training. Finally,the efectiveness of the DBS and DER strategies was verified by ablation experiments. Compared with dynamic programming,the greedy algorithm,and traditional Q -learning algorithm,the experimental results show that DBSDERQL algorithm is significantly better than traditional methods in terms of total cost and computational efficiency,showing higher applicability and effectiveness.

    Keywords: resource allocation; reinforcement learning; Q -learning algorithm; dynamic exploration rate;dynamic Boltzmann Softmax

    在自然災(zāi)害應(yīng)急救援中,應(yīng)急物資的快速、有效且公平的分配對減輕災(zāi)害影響、保障人民生命財產(chǎn)安全至關(guān)重要[1-3].目前,應(yīng)急物資分配的研究主要采用精確算法、啟發(fā)式算法和強化學(xué)習(xí)算法解決問題. Yu 等[4]提出了一種近似動態(tài)規(guī)劃算法,解決了應(yīng)急物流中資源分配的問題,在計算復(fù)雜性可控條件下實現(xiàn)了近似最優(yōu)解.Zhang 等[5]借助Gurobi求解器,解決了公共衛(wèi)生應(yīng)急中的有限醫(yī)療儲備分配問題,為應(yīng)急資源的優(yōu)化分配提供了計算支持.Liu等[6]利用基因編程超啟發(fā)式算法,對不確定容量路徑問題進(jìn)行求解,有效優(yōu)化了應(yīng)急物資分配中的路徑失敗和補救成本.Jain等7采用粒子群優(yōu)化算法等元啟發(fā)式算法,求解災(zāi)后應(yīng)急資源分配問題.精確算法理論上可以求解全局最優(yōu)解,但在大規(guī)模物資分配問題中,由于計算復(fù)雜度過高,導(dǎo)致難以求解;啟發(fā)式算法能在短時間內(nèi)求解局部最優(yōu)解,但會導(dǎo)致資源分配不均衡或浪費的問題.

    隨著應(yīng)急物資分配問題復(fù)雜度的逐漸增加,強化學(xué)習(xí)算法的應(yīng)用成為解決動態(tài)和不確定性問題的一種有效方法[8-11]. Yu 等[12]提出了一種基于強化學(xué)習(xí) Q -learning算法的應(yīng)急物資分配方法,效果較好.Liang 等[13]提出了一種基于強化學(xué)習(xí)中多臂賭博機算法的緊急物流網(wǎng)絡(luò)優(yōu)化方法,解決了在自然災(zāi)害不確定性條件下的救援物資分配和位置規(guī)劃問題.Aslan 等[14]應(yīng)用強化學(xué)習(xí)中的 Q -learning算法,解決了災(zāi)區(qū)無人機路徑規(guī)劃問題.但隨著受災(zāi)區(qū)域的擴(kuò)大和可分配物資規(guī)模的增長, Q -learning算法的局限性逐漸凸顯,將無法求解全局最優(yōu)解.

    Q -learning算法在實際應(yīng)用中存在如下兩個問題:

    1)固定探索率導(dǎo)致探索與利用之間的不平衡問題.探索率用于控制利用與探索之間的平衡,決定智能體在每個訓(xùn)練步驟中是選擇當(dāng)前價值最大的動作(利用)還是隨機選擇其他動作(探索).固定探索率使智能體在整個訓(xùn)練過程中始終以相同概率進(jìn)行探索,難以在訓(xùn)練后期收斂到最優(yōu)解.

    2)Boltzmann最優(yōu)公式中的最大運算符導(dǎo)致過度貪婪問題.在訓(xùn)練初期,動作價值估計通常不準(zhǔn)確,最大運算符的硬選擇方式會使智能體過度依賴當(dāng)前的動作價值估計,忽略了對其他潛在有價值動作的探索,特別在隨機性或噪聲環(huán)境中,該問題會阻礙算法的穩(wěn)定收斂[15-17].

    為解決上述問題,本文提出一種基于動態(tài) Boltzmann Softmax(DBS)和動態(tài)探索率(DER)的Q -learning(dynamic Boltzmann Softmax and dynamic exploration rate based- Q -learning,DBSDER-QL) 算法,主要貢獻(xiàn)如下:

    1)本文在文獻(xiàn)[5]的基礎(chǔ)上,利用模擬方法研究物資短缺情形下的分配策略,將原有研究中最多5個需求點的設(shè)定拓展至8個需求點,發(fā)現(xiàn)了原 Q -learning算法的不足,并在不同物資分配量和需求點數(shù)量的情形下,考察每個分配周期分配1,2和3個單位物資的分配問題.

    2)使用動態(tài)探索率策略解決固定探索率導(dǎo)致的分配不平衡問題,動態(tài)探索率e隨訓(xùn)練次數(shù)逐漸減小,在訓(xùn)練初期保持較高的探索概率,可充分探索可能的動作,隨著訓(xùn)練的深人,探索率逐步降低,更多地利用當(dāng)前已知的最優(yōu)策略,從而提高算法的收斂性和穩(wěn)定性.

    3)采用動態(tài) Boltzmann Softmax 策略,替代 Boltzmann最優(yōu)公式中最大值,解決Boltzmann 最優(yōu)公式中最大值導(dǎo)致的過度貪婪問題.在 Boltzmann 最優(yōu)公式更新中,DBS 對所有可能的動作價值進(jìn)行指數(shù)加權(quán)求和,用加權(quán)和替代最大值.隨著訓(xùn)練的深人,DBS中的指數(shù)權(quán)重動態(tài)調(diào)整,使動作價值估計更精確.

    4)使用DBSDER-QL算法解決自然災(zāi)害發(fā)生后關(guān)鍵 72h 內(nèi)的多周期應(yīng)急物資分配問題,并與動態(tài)規(guī)劃算法、貪心算法和 Q -learning算法進(jìn)行對比,實驗結(jié)果表明,DBSDER-QL算法在總成本和計算效率方面均明顯優(yōu)于傳統(tǒng)方法,展現(xiàn)出更高的適用性和有效性.

    問題描述及數(shù)學(xué)模型

    物資通常由集中分配點統(tǒng)一調(diào)配,本文研究構(gòu)建包含一個分配點和多個需求點的物資分配網(wǎng)絡(luò).

    其中需求點為各地區(qū)的物資需求區(qū)域,分配點通過運輸工具將物資運輸?shù)礁餍枨簏c.由于自然災(zāi)害的不可預(yù)測性和迅速爆發(fā),導(dǎo)致物資需求激增且供應(yīng)短缺,很難一次性滿足所有地區(qū)的需求,因此需采用多周期分配方案.自然災(zāi)害發(fā)生后 72h 是救援行動的關(guān)鍵期,本文主要考慮在災(zāi)后關(guān)鍵 72h 內(nèi)的應(yīng)急物資分配問題,將這一時間段劃分為多個等長的分配周期.

    1. 1 問題描述

    1)有一個物資分配點;

    2)有多個物資需求點;

    3)在物資短缺情形下;

    4)分配物資分多個周期進(jìn)行;

    5)需求是將物資分配至各需求點;

    6)最終實現(xiàn)最小化3個目標(biāo)總成本,包括可達(dá)性成本、剝奪成本和懲罰成本.

    因此,本文設(shè)計了如圖1所示的多周期應(yīng)急物資分配框架.

    圖1多周期應(yīng)急物資分配框架

    Fig.1 Framework of multi-period emergency resource allocation

    1. 2 模型假設(shè)

    針對本文研究的問題,提出以下假設(shè):

    1)在每個分配周期中,分配點可分配的物資數(shù)量相同且已知;

    2)在每個分配周期中,每個需求點的物資需求量相同且已知;

    3)單位物資運輸成本已知;

    4)不考慮應(yīng)急物資的裝卸和配送時間.

    1.3 數(shù)學(xué)模型

    大規(guī)模自然災(zāi)害通常會導(dǎo)致關(guān)鍵資源嚴(yán)重短缺,因此衡量物資分配的有效性尤為重要.設(shè) N 表示所有需求點 i 的集合, i∈N ; T 表示應(yīng)急物資分配周期 ΨtΨΨ 的集合, t∈T ; C 表示分配點擁有物資的數(shù)量; a 和 b 表示剝奪成本函數(shù)的剝奪參數(shù); ξ1 表示目標(biāo)函數(shù)中可達(dá)性成本的權(quán)重; ξ2 表示目標(biāo)函數(shù)中剝奪成本的權(quán)重; ξ3 表示目標(biāo)函數(shù)中懲罰成本的權(quán)重; ci 表示從分配點到需求點 i 交付每單位物資的運輸成本; Yi,t 表示在分配周期 Ψt 對需求點 i 的物資分配量; Di,t 表示需求點 i 在分配周期 t 的物資需求量; Si,t 表示在分配周期 t 開始時需求點 i 的物資缺少量; Si,T+1 表示在分配周期 T 結(jié)束時需求點 i 的物資缺少量.

    評估應(yīng)急物資分配有3個關(guān)鍵指標(biāo):快速、有效和公平[12.18].具體目標(biāo)函數(shù)如下:

    Yi,t∈{0,1,2,?,C},?i=1,2,?,N,t=1,2,?,T,

    Si,t+1=Si,t-Yi,t+Di,t,?i=1,2,?,N,t=1,2,?,T,

    式(1)表示最小化總成本,包括三部分:可達(dá)性成本、剝奪成本和懲罰成本.根據(jù)文獻(xiàn)[19]可知, ξ1,ξ2 和 ξ3 是3個權(quán)重,用于平衡目標(biāo)函數(shù)中3種成本的影響,權(quán)重設(shè)置為 (ξ1,ξ2,ξ3)=(1/3,1/3,1/3) 式(2)表示可達(dá)性成本,作為快速指標(biāo),即應(yīng)急物資的物流運輸成本, ci 表示每單位物資的運輸成本,Yi,t 表示在分配周期 Ψt 對需求點 i 的物資分配量,運輸成本為二者相乘.式(3)表示剝奪成本,作為有效指標(biāo),剝奪成本用于衡量因物資短缺給幸存者帶來的痛苦,其中 Si,t 表示在分配周期 Ψt 開始時需求點 i 的物資缺少量, L 表示單個周期的時間長度, a 和 b 為剝奪參數(shù).式(4)表示懲罰成本,作為公平指標(biāo),懲罰成本用于確保每位幸存者獲得平等程度的援助,避免幸存者在規(guī)劃期內(nèi)出現(xiàn)嚴(yán)重不平衡.懲罰成本的計算與式(3)采用相同的函數(shù),其中 Si,T+1 表示在分配周期 T 結(jié)束時需求點 i 的物資缺少量

    約束條件(5)為容量約束,在每個分配周期內(nèi),所有需求點獲得的物資總量應(yīng)小于或等于分配點的物資容量 C .約束條件(6)規(guī)定每個分配量 Yi,t 必須為整數(shù),且最大值不得超過物資容量 C ,約束條件(7)為狀態(tài)轉(zhuǎn)移約束,如果需求點 i 獲得了 Yi,t 個單位的物資,則其狀態(tài)將減少 Yi,t-Di,t ,如果該需求點未獲得物資,即 Yi,t=0 ,則其狀態(tài)將增加 Di,t .約束條件(8)為在分配周期開始時所有需求點的狀態(tài)均為0.

    2算法設(shè)計

    首先,定義 Q -learning算法的核心元素,包括智能體、環(huán)境、狀態(tài)、動作和獎勵.其次,分析Q -learning 算法的局限性,并引人兩個改進(jìn)策略:動態(tài) Boltzmann Softmax 和動態(tài)探索率,得到DBSDER-QL算法.最后,介紹DBSDER-QL算法的訓(xùn)練過程.

    2.1 -learning算法元素定義

    Q -learning算法是一種典型的強化學(xué)習(xí)方法,其通過智能體與環(huán)境的交互,學(xué)習(xí)在不同狀態(tài)下選擇最優(yōu)動作以最大化長期回報.在應(yīng)急物資分配問題中, Q -learning算法通過定義狀態(tài)、動作和獎勵函數(shù)描述智能體與環(huán)境的交互,逐步學(xué)習(xí)到最優(yōu)的物資分配策略.圖2為應(yīng)急物資分配方法的整體框架,可直觀理解這些元素及其在應(yīng)急物資分配中的作用[20-25]

    Q -learning算法中的關(guān)鍵元素定義如下.

    1)智能體:表示分配點,相當(dāng)于執(zhí)行算法的實體,目的是學(xué)習(xí)如何最有效地分配應(yīng)急物資.

    2)環(huán)境:表示需求點,與智能體(分配點)進(jìn)行互動.

    圖2應(yīng)急物資分配方法的整體框架Fig. 2 Overall framework of emergencyresourceallocationmethod

    3)狀態(tài):狀態(tài) sι 表示所有需求點在分配周期 χt 的物資缺乏情況,可用狀態(tài)向量形式化表示為St=(S1,t,S2,t,?,SN,t) ,每個狀態(tài) Si,t 反映了在分配周期 t 內(nèi)需求點i的物資缺少量.

    4)動作:動作 表示分配點在分配周期 t 對所有需求點的物資分配數(shù)量,動作向量可形式化表示為 Yt=(Y1,t,Y2,t,?,YN,t) ,其中每個元素 Yi,t 表示在分配周期 Ψt 內(nèi)分配給需求點 i 的物資數(shù)量.

    5)獎勵函數(shù):本文的研究目標(biāo)是最小化總成本,而強化學(xué)習(xí)的目標(biāo)是最大化獎勵總和.為在強化學(xué)習(xí)框架下實現(xiàn)研究目標(biāo),將總成本的負(fù)值定義為獎勵函數(shù).同時,為更好地描述物資分配問題,將規(guī)劃周期內(nèi)的狀態(tài)劃分為初始狀態(tài)、中間狀態(tài)和最終狀態(tài)[5].

    首先,物資分配周期 t=1 的狀態(tài)稱為初始狀態(tài),其獎勵函數(shù)與 t=1 與即將轉(zhuǎn)移到的 t=2 的狀態(tài)有關(guān).獎勵函數(shù)對應(yīng)可達(dá)性成本和剝奪成本為

    其次,分配周期 t=2~T-1 的狀態(tài)為中間狀態(tài),獎勵函數(shù)對應(yīng)可達(dá)性成本和剝奪成本為

    最后,分配周期 t=T 的狀態(tài)為最終狀態(tài),獎勵對應(yīng)可達(dá)性成本和懲罰成本為

    2.2 動態(tài)探索率策略

    為解決固定探索率導(dǎo)致的探索與利用不平衡問題,本文采用動態(tài)探索率策略調(diào)整探索率 ε .在強化學(xué)習(xí)中, ε 是用于平衡探索與利用的參數(shù),利用是指在已知某個動作價值最大時,優(yōu)先選擇該動作以獲取更多回報;而探索則是在當(dāng)前信息不足時嘗試其他動作,以發(fā)現(xiàn)潛在的更高價值動作.訓(xùn)練初期,e值較高,以增加探索概率,幫助智能體充分探索可能的動作;隨著訓(xùn)練的進(jìn)行, ε 逐漸減小,更多地利用當(dāng)前最優(yōu)策略.這種動態(tài)調(diào)整確保了智能體在初期廣泛探索環(huán)境,在后期專注于最優(yōu)動作,從而提高了算法的收斂性和穩(wěn)定性[26],用公式可表示為

    其中 k 表示當(dāng)前訓(xùn)練的次數(shù), Ne 表示訓(xùn)練的總次數(shù).

    探索率 ε 值的動態(tài)變化反映了探索與利用之間的平衡調(diào)整,如圖3所示.由圖3可見,隨著訓(xùn)練次數(shù)的增加,探索率逐漸減小,智能體在后期逐步減少探索,以增強利用現(xiàn)有知識的能力.

    2.3 動態(tài)Boltzmann Softmax策略

    在強化學(xué)習(xí)算法中,動作價值函數(shù)( Q 函數(shù))的更新基于Boltzmann最優(yōu)公式:

    Q(s,a)Q(s,a)+α?[r+γ?maxaQ(s,a)-Q(s,a)],

    其中: Q(s,a) 表示當(dāng)前狀態(tài) s 下采取動作 a 的價值; α 為學(xué)習(xí)率; r 為即時獎勵;γ為折扣因子,用于衡量未來獎勵的重要性; maxa'Q(s',a') 表示在下一狀態(tài) s 中所有可能動作的最大價值.Boltzmann公式通過最大運算符max直接選擇當(dāng)前狀態(tài)下最優(yōu)動作的價值,從而實現(xiàn)對策略的優(yōu)化.然而,由于 Q 值的估計在訓(xùn)練初期可能存在較大的噪聲和偏差,因此直接使用最大值運算符將導(dǎo)致算法過于依賴當(dāng)前Q 值的估計,忽略其他潛在動作的探索,使算法收斂速度減慢,甚至可能無法收斂到全局最優(yōu)解.

    為解決上述問題,本文提出采用動態(tài)Boltzmann Softmax策略替代Boltzmann最優(yōu)公式中的最大運算符.DBS在Boltzmann最優(yōu)公式更新中,通過對所有可能動作的價值進(jìn)行指數(shù)加權(quán)求和,使用動態(tài)溫度參數(shù) βk 調(diào)整動作價值的估計[27].在訓(xùn)練初期,由于對環(huán)境的了解不足,溫度參數(shù) βk 較小,使動作價值的估計更平滑,避免因初期估計偏差導(dǎo)致的收斂速度緩慢,甚至無法收斂.隨著訓(xùn)練的進(jìn)行, βk 逐漸增大,使對較優(yōu)動作的價值估計更突出,從而更好地利用已學(xué)得的策略.這種基于動態(tài)溫度參數(shù)的調(diào)整機制,使動作價值估計更精確,促進(jìn)了算法的有效收斂.

    溫度參數(shù) βk 通常采用冪函數(shù)形式計算:

    圖3動態(tài)探索率變化曲線

    Fig.3Change curve of dynamic exploration rates

    βk=k?

    其中: k 表示當(dāng)前的訓(xùn)練次數(shù),與式(12)中的 k 為同一個參數(shù); p 為階數(shù),通常取 p=2[27-28]

    動態(tài)BoltzmannSoftmax算子的數(shù)學(xué)表達(dá)式為

    其展示了溫度參數(shù) βk 在值函數(shù)更新中的應(yīng)用.將DBS策略引人Boltzmann最優(yōu)公式以進(jìn)行 Q 值更新,更新規(guī)則如下:

    2.4 DBSDER-QL算法訓(xùn)練流程

    整個訓(xùn)練過程從初始化步驟開始,包括初始化 Q 表、可達(dá)性成本 F1 、剝奪成本 F2 和懲罰成本F3 .訓(xùn)練過程以循環(huán)迭代方式進(jìn)行,分多個訓(xùn)練輪次.在每輪訓(xùn)練中,模型先將訓(xùn)練次數(shù) k 初始化為1,設(shè)置初始狀態(tài) s ,并將分配周期 Ψt 初始化為1.

    在每個周期內(nèi),模型基于動態(tài)探索率策略選擇動作 ,并結(jié)合當(dāng)前周期的可達(dá)性成本 F1 、剝奪成本 F2 和懲罰成本 F3 計算獎勵函數(shù)值 Rt .通過所選動作和當(dāng)前狀態(tài)計算下一時刻狀態(tài) St+1 ,并基于下一狀態(tài)的值函數(shù) V(St+1) ,用Boltzmann公式更新 Q 表數(shù)值.當(dāng)分配周期 Ψt 未超過最大分配周期 T 時,循環(huán)繼續(xù),直至完成當(dāng)前次數(shù)的所有周期訓(xùn)練.在每輪訓(xùn)練結(jié)束后,模型更新訓(xùn)練次數(shù) k ,進(jìn)入下一輪訓(xùn)練,直至訓(xùn)練次數(shù)達(dá)到最大值 Ne .通過反復(fù)迭代優(yōu)化,模型逐步調(diào)整并收斂 Q 值,從而為物資分配問題提供優(yōu)化策略.圖4為DBSDER-QL算法的完整訓(xùn)練流程.

    圖4DBSDER-QL算法流程 Fig.4FlowchartofDBSDER-QLalgorithm

    3 實驗與分析

    3.1 實驗環(huán)境及數(shù)據(jù)

    本文實驗中,所有程序均基于Python 3.8,并在一臺配備RTX4090顯卡和22核AMD EPYC 處理器的云服務(wù)器上運行.實驗所用數(shù)據(jù)如下[26].

    1)需求點初始狀態(tài):所有需求點的初始狀態(tài)均為0,表示為 S0=(S1,0,S2,0,?,SN,0)=(0,0,?,0) :2)需求點需求量:每個需求點在每個周期的需求量為1個單位,即 Dt=(D1,t,D2,t,?,DN,t)= (1,1,?,1) ;3)可達(dá)性成本:各需求點與分配點之間的可達(dá)性成本 ci 取值于集合 C={200,250,300,350 ,400,?} ,例如,分配點到需求點2的可達(dá)性代價為 c2=250

    3.2 靈敏度分析

    在強化學(xué)習(xí)中,學(xué)習(xí)率 α 和折扣因子γ是關(guān)鍵參數(shù).學(xué)習(xí)率 α 調(diào)節(jié)智能體適應(yīng)新環(huán)境的速度,較高的學(xué)習(xí)率可以使智能體更快地適應(yīng)新環(huán)境,但可能導(dǎo)致結(jié)果波動較大;折扣因子γ決定智能體對未來獎勵的重視程度,較高的折扣因子鼓勵智能體進(jìn)行長遠(yuǎn)規(guī)劃,而較低的折扣因子則使其更傾向于追求即時回報.

    圖5為DBSDER-QL算法在不同學(xué)習(xí)率 α 和折扣因子γ組合下的加權(quán)成本,其中顏色深淺表示加權(quán)成本的高低,顏色越深表示成本越高.實驗選取2個單位的應(yīng)急物資,對3個需求點進(jìn)行6個周期的物資分配,針對每種學(xué)習(xí)率 α 和折扣因子 γ 的組合,進(jìn)行1000次訓(xùn)練,再計算每組參數(shù)下的加權(quán)總成本,生成熱力圖,通過分析熱力圖中的淺色區(qū)域,可識別出較優(yōu)的參數(shù)組合.最終,通過該實驗選擇學(xué)習(xí)率 α=0.7 、折扣因子 γ=0.8 的組合.

    1290 01277.531290.591285.141278.761266.431283.111241.841274.151265.701268.231270.42 0.1 -1 233.131223.72 1230.971232.19 1220.251227.51 1232.29 1212.33 1207.91 1205.53 1270.48 1260 0.2-1229.85 1 238.26 1 224.171 232.98 1222.571226.241217.021204.64 1202.94 1205.191201.98 0.3-1232.59 1232.301236.28 1231.49 1231.021231.491213.951205.861200.54:1200.791199.86 1230 0.4-1241.02 1231.81 1232.04 1245.411222.91 1234.381218.56 1201.23 1200.131199.85 1197.32 80.5-1-245.06 1235.41 1224.871239.05 1232.781229.161215.90:1201.251195.42 1195.04 1195.84 1200 0.6 -1235.74 1226.80 1231.861226.111241.091226.54 1216.951200.981194.65 1194.651194.65 1196 0.7-1 239.56 1229.21 1236.911234.381228.07 1223.69 1218.531203.871194.65 1194.651194.65 0.8-1238.62 1 233.12 1 239.531 228.67 1232.09 1 227.31 1213.01 1202.111195.061194.65 1194.65 1195 0.9-1235.051239.381236.161234.631227.691226.431217.021198.951194.661194.651194.65 1.0-1235.151235.251231.81 1241.231223.111217.591216.091200.771194.65 1194.651194.65 1194 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 2

    3.3 消融實驗

    為考察兩種增強策略對模型效果的影響,在DBSDER-QL算法的基礎(chǔ)上刪除不同的增強策略以產(chǎn)生兩種算法,如DBS-QL算法和DER-QL算法,通過比較不同算法的性能評估不同策略的作用.消融實驗中不同算法的設(shè)置列于表1,其中:“√\"表示包含該策略;‘ ?× ”表示不包含該策略.

    表1消融實驗結(jié)果

    Table 1 Resultsofablationexperiments

    設(shè)計一組實驗,采用2個單位的應(yīng)急物資,對3個需求點進(jìn)行6個周期的物資分配,共進(jìn)行1 000 次訓(xùn)練.實驗中,DBS-QL算法采用固定探索率 ε=0.1 ,并與 DER-QL 和 DBSDER-QL 算法采用式(12)動態(tài)調(diào)整探索率的情況進(jìn)行對比.圖6為不同算法在訓(xùn)練中的對比結(jié)果.由圖6可見,DER-QL和DBS-QL算法的曲線在整個訓(xùn)練過程中波動較大,未表現(xiàn)出明顯的收斂趨勢.而DBSDER-QL算法在動態(tài)探索率下表現(xiàn)最優(yōu)異,能較快收斂,效果明顯優(yōu)于前兩種算法.

    3.4 算法測試

    圖6消融實驗各算法性能對比 Fig.6Performance comparison of various algorithmsinablationexperiments

    為驗證DBSDER-QL算法的泛化能力,實驗設(shè)置1個單位的應(yīng)急物資,針對 3~8 個需求點進(jìn)行6個周期的物資分配.如圖7所示,通過加權(quán)總成本評估算法性能,并對其收斂性進(jìn)行展示,不同需求點數(shù)量下的算法訓(xùn)練過程清晰地呈現(xiàn)了其表現(xiàn).圖7中的 {N,C,T} 表示實驗參數(shù),其中 N 為需求點數(shù)量, C 為物資單位數(shù)量, T 為物資分配的周期數(shù)量.由圖7可見,隨著需求點數(shù)量的增加,物資分配方案的復(fù)雜度隨之提高,導(dǎo)致算法所需的訓(xùn)練次數(shù)有所增加.DBSDER-QL算法始終能找到最低成本的分配策略,驗證了其在解決物資分配問題上的有效性.

    圖7DBSDER-QL算法在多需求點下的收斂性驗證 Fig.7Convergence validation of DBSDER-QL algorithm under multiple demand points

    3.5 算法對比分析

    下面對DBSDER-QL算法與動態(tài)規(guī)劃算法、貪心算法和 Q -learning算法進(jìn)行對比,從加權(quán)總成本和計算時間兩方面綜合評估各算法的性能.為進(jìn)一步揭示各算法在不同情形下的適用性,研究通過設(shè)置不同數(shù)量的物資(1,2,3個單位)以及不同數(shù)量的需求點( 3~8 個)對各算法進(jìn)行全面對比分析,用{N,C,T} 表示實驗參數(shù),其中 N 為需求點數(shù)量, C 為物資單位數(shù)量, T 為物資分配的周期數(shù)量.例如, {3,1,6} 表示3個需求點、1個單位物資和6個分配周期.表2列出了各算法的成本和計算時間對比結(jié)果,表3列出了 Q -leaning算法和DBSDER-QL算法的訓(xùn)練次數(shù) Ne 對比結(jié)果.由表2和表3可見,DBSDER-QL算法在不同規(guī)模問題中均具有優(yōu)勢.

    Table2Comparison results of cost and computation time for each algorithm

    表3Q-learning算法和DBSDER-QL算法的訓(xùn)練次數(shù) Ne 對比結(jié)果

    表2各算法的成本和計算時間對比結(jié)果

    Table 3 Comparison results of training time Ne between -learning algorithm and DBSDER-QL algorithm

    3.5.11個單位物資的對比分析

    圖8為在不同需求點數(shù)量( (3~8 個)下,分配1個單位物資實驗中,DBSDER-QL算法與動態(tài)規(guī)劃算法、貪心算法和 Q -learning算法的求解情況.由圖8可見,DBSDER-QL算法和 Q -learning算法在加權(quán)總成本方面與動態(tài)規(guī)劃算法一致,均達(dá)到了最優(yōu)解.動態(tài)規(guī)劃算法作為精確算法,通過遍歷所有可能情況找到全局最優(yōu)解,從而保證最低的加權(quán)總成本,證明了DBSDER-QL和 Q -learning算法在該任務(wù)中的有效性.在計算時間方面,貪心算法雖然計算速度最快,但由于它在每個分配周期中僅選擇當(dāng)前周期最低成本的方案并累加,因此其加權(quán)總成本最高.而動態(tài)規(guī)劃算法通過全局搜索確保最優(yōu)解,但計算時間較長.強化學(xué)習(xí)算法通過試錯過程逐步優(yōu)化策略找到最優(yōu)解,DBSDER-QL算法比Q -learning算法能在更少的訓(xùn)練次數(shù)下更快收斂,因此計算時間較短.

    圖81個單位物資分配時各算法的加權(quán)總成本和計算時間對比結(jié)果

    Fig.8Comparisonresultsof weighted totalcost andcomputation timeforvarious algorithms with1unitofresourceallocation

    3.5.22個單位物資的對比分析

    圖9為在不同需求點數(shù)量( 3~8 個)下,分配2個單位物資實驗中不同算法的求解表現(xiàn).由圖9可見,在加權(quán)總成本方面,DBSDER-QL、 Q -learning、動態(tài)規(guī)劃和貪心算法的表現(xiàn)與1個單位物資分配實驗相同;在計算時間方面,隨著需求點數(shù)量的增加,DBSDER-QL算法的計算時間優(yōu)勢逐漸凸顯,略快于動態(tài)規(guī)劃算法,明顯快于 Q -learning算法.

    圖92個單位物資分配時各算法的加權(quán)總成本和計算時間對比結(jié)果

    Fig.9Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithms with2unitsofresource allocati

    3.5.33個單位物資的對比分析

    圖10為在不同需求點數(shù)量 (3~8 個)下,分配3個單位物資實驗中不同算法的求解表現(xiàn).由圖10可見,隨著物資分配數(shù)量的增加,分配方案的數(shù)量也隨之增加,算法的計算難度變大.在加權(quán)總成本方面,當(dāng)需求點較少( 3~6 個)時,DBSDER-QL算法性能優(yōu)于 Q -learning算法,成本接近于動態(tài)規(guī)劃算法.隨著需求點數(shù)量的增加, Q -learning算法在7個和8個需求點時無法求解,動態(tài)規(guī)劃算法在8個需求點時也無法求解,而DBSDER-QL算法仍能成功求解,顯示了其在不同規(guī)模問題中的魯棒性.在計算時間方面,DBSDER-QL算法隨著需求點數(shù)量的增加,明顯優(yōu)于動態(tài)規(guī)劃和Q-learning算法.

    綜上所述,針對 Q -learning算法在實際應(yīng)用中存在固定探索率導(dǎo)致探索與利用不平衡的問題和Boltzmann 最優(yōu)公式中最大運算符導(dǎo)致過度貪婪的問題,本文提出了一種 DBSDER-QL算法.首先,引人動態(tài) Boltzmann Softmax 策略替代 Boltzmann 最優(yōu)公式中的最大值,有效解決了過度貪婪問題.其次,通過動態(tài)探索率策略提高了算法的收斂速度和穩(wěn)定性.在不同物資分配量和需求點數(shù)量實驗中,考察了不同情形下算法之間的性能差異,驗證了DBSDER-QL算法的有效性和適用性.實驗結(jié)果表明,在大規(guī)模場景下,DBSDER-QL算法在加權(quán)總成本和計算效率方面優(yōu)于動態(tài)規(guī)劃算法、貪心算

    法和 Q -learning算法.

    圖103個單位物資分配時各算法的加權(quán)總成本和計算時間對比結(jié)果

    Fig.10Comparisonresultsof weighted totalcostandcomputation timeforvarious algorithmswith3unitsofresourceallocation

    參考文獻(xiàn)

    [1]龍海波,楊家其,尹靚,等.基于魯棒優(yōu)化的不確定需求下應(yīng)急物資配送多目標(biāo)決策模型[J].吉林大學(xué)學(xué)報(工 學(xué)版),2023,53(4):1078-1084. (LONG H B,YANG JQ,YIN L,et al. Multi-objective Decision-Making on Emergency Material Distribution under Uncertain Demand Based on Robust Optimization [J]. Journal of Jilin University(Engineering and Technology Edition),2023,53(4):1078-1084.) [2]劉建輝,王瓊.基于多目標(biāo)蟻群算法的多配送中心應(yīng)急物資配送車輛調(diào)度優(yōu)化方法[J].吉林大學(xué)學(xué)報(工學(xué) 版),2025,55(2): 631-638.(LIU JH,WANG Q. Optimization Method for Emergency Material Delivery Vehicle Scheduling in Multiple Distribution Centers Based on Multi-objective Ant Colony Algorithm[J]. Journal of Jilin University (Engineering and Technology Edition),2025,55(2): 631-638.) [3]張國富,管燕妮,蘇兆品,等.多階段應(yīng)急物資多目標(biāo)連續(xù)分配問題建模與求解[J].計算機工程,2024,

    50(12):329-345. (ZHANG G F,GUAN Y N,SU Z P,et al. Modeling and Solving of the Multi-objective Continuous Distribution Problem for Multi-stage Emergency Supplies [J]. Computer Enginering,2O24,50(12):

    329-345.)

    [4]YU L N,YANG H S,MIAO L X,et al. Rollout Algorithms for Resource Alocation in Humanitarian Logistics [J].IISE Transactions,2019,51(8):887-909.

    [5]ZHANG YW,LI Z P,JIAO P B,et al. Two-Stage Stochastic Programming Approach for Limited Medical Reserves Allocation under Uncertainties [J]. Complex Intelligent Systems,2021,7(6): 3003-3013.

    [6]LIU Y X,WANG S X,LI X H. A New Coperative Recourse Strategy for Emergency Material Allocation in Uncertain Environments [J]. Frontiers in Physics,2022,10: 835412-1-835412-10.

    [7]JAIN S, BHARTI K K. A Combinatorial Optimization Model for Post-Disaster Emergency Resource Alocation Using Meta-Heuristics [J]. Soft Computing,2023,27(18):13595-13611.

    [8]白天,呂璐瑤,李儲,等.基于深度強化學(xué)習(xí)的游戲智能引導(dǎo)算法[J].吉林大學(xué)學(xué)報(理學(xué)版),2025,63(1):

    91-98.(BAI T,LU L Y,LI C,et al. Game Inteligence Guidance Algorithm Based on Deep Reinforcement Learning[J]. Journal of Jilin University(Science Edition),2025,63(1):91-98.)

    [9]郝嘉寧,姚永偉,葉育鑫.本體指導(dǎo)下的安全強化學(xué)習(xí)最優(yōu)化策略[J].吉林大學(xué)學(xué)報(理學(xué)版),2025,63(1):

    83-90.(HAO J N, YAO Y W,YE Y X. Optimization Strategy for Safety Reinforcement Learning Guided by Ontolog[J]. Journal of Jilin University(Science Edition),2025,63(1):83-90.)

    [10]張一博,高丙朋.基于深度強化學(xué)習(xí)的AUV路徑規(guī)劃研究[J].東北師大學(xué)報(自然科學(xué)版),2025,57(1):

    53-62.(ZHANG Y B,GAO B P. AUV Path Planning Research Based on Deep Reinforcement Learning [J]. Journal of Northeast Normal University (Natural Science Edition),2025,57(1) : 53-62.) [11]董小剛,韓元元,秦喜文.基于深度確定性策略梯度算法的股票投資組合策略研究[J].東北師大學(xué)報(自然科 學(xué)版),2025,57(1): 29-34. (DONG XG,HAN Y Y, QIN X W. Research on Stock Portfolio Strategy Based on Deep Deterministic Policy Gradient Algorithm [J]. Journal of Northeast Normal University(Natural Science

    [12]YU L,ZHANG C R,JIANG J Y,et al. Reinforcement Learning Approach for Resource Allcation in Humanitarian Logistics [J]. Expert Systems with Applications, 2021,173:114663-1-114663-14.

    [13]LIANG J, ZHANG Z J,ZHI Y P. Multi-armed Bandit Approaches for Location Planning with Dynamic Relief Supplies Allocation under Disaster Uncertainty [J]. Smart Cities,2025,8(1): 5-1-5-29.

    [14]ASLAN S,DEMIRCI S. An Immune Plasma Algorithm with Q Learning Based Pandemic Management for Path Planning of Unmanned Aerial Vehicles [J]. Egyptian Informatics Journal,2024,26:100468-1-100468-19.

    [15]VAN HASSELT H. Double Q-Learning [J]. Advances in Neural Information Processng Systems,2010,2: 2613-2621.

    [16]VAN HASSELT H. Estimating the Maximum Expected Value: An Analysis of(Nested) Cross Validation and the Maximum Sample Average [EB/OL]. (2013-02-28)[2025-01-01]. https://arxiv.org/abs/1302.7175.

    [17]FOX R,PAKMAN A, TISHBY N. Taming the Noise in Reinforcement Learning via Soft Updates [EB/OL]. (2015-12-28)[2025-01-01]. https://arxiv.org/abs/1512.08562.

    [18]YU L N, ZHANG CR,YANG H S,et al. Novel Methods for Resource Allcation in Humanitarian Logistics Considering Human Suffering [J]. Computers Industrial Engineering,2018,119:1-20.

    [19]HUANG K,JIANG Y P,YUAN Y F,et al. Modeling Multiple Humanitarian Objectives in Emergency Response to Large-Scale Disasters [J]. Transportation Research Part E:Logistics and Transportation Review,2015,75: 1-17.

    [20]FAN JQ,WANG Z R,XIE Y C,et al. A Theoretical Analysis of Deep Q Learning [C]//Proceedings of the 2nd Conference on Learning for Dynamics and Control. [S.1.]: PMLR,202O: 486-489.

    [21] JIN C,ALLEN-ZHU Z,BUBECK S, et al. Is Q -Learning Provably Eficient? [EB/OL]. (2018-07-10) [2024-12-10]. https://arxiv.org/abs/1807.03765.

    [22] JANG B,KIM M,HARERIMANA G,et al. Q Learning Algorithms:A Comprehensive Classification and Applications [J]. IEEE Access,2019,7:133653-133667.

    [23]CLIFTON J,LABER E. Q Learning: Theory and Applications [J]. Annual Review of Statistics and Its Application,2020,7:279-301.

    [24]WATKINS C JC H, DAYAN P. Q-Learning [J]. Machine Learning,1992,8: 279-292.

    [25]李石磊,葉清,袁志民,等.在線深度強化學(xué)習(xí)探索策略生成方法綜述[J].機器人,2024,46(6):753-768. (LI S L,YE Q,YUAN Z M,et al. A Survey on Online Deep Reinforcement Learning Exploration Strategy Generation Methods[J].Robot,2024,46(6):753-768.)

    [26]SEMROV D,MARSETIC R, ZURA M,et al. Reinforcement Learning Approach for Train Rescheduling on a Single-Rrack Railway [J]. Transportation Research Part B: Methodological, 2O16,86: 250-267.

    [27]PAN L,CAI QP,MENG Q,et al. Reinforcement Learning with Dynamic Boltzmann Softmax Updates [C]// Proceedings of the Twenty-Ninth International Joint Conference on Artificial Inteligence.New York:ACM, 2020:1992-1998.

    [28]HAARNOJA T,TANG H,ABBEEL P,et al. Reinforcement Learning with Dep Energy-Based Policies [C]// International Conference on Machine Learning. [S.1.]: PMLR,2Ol7:1352-1361.

    (責(zé)任編輯:韓嘯)

    猜你喜歡
    分配動作成本
    2021年最新酒駕成本清單
    河南電力(2021年5期)2021-05-29 02:10:00
    應(yīng)答器THR和TFFR分配及SIL等級探討
    遺產(chǎn)的分配
    一種分配十分不均的財富
    溫子仁,你還是適合拍小成本
    電影(2018年12期)2018-12-23 02:18:48
    績效考核分配的實踐與思考
    動作描寫要具體
    畫動作
    動作描寫不可少
    非同一般的吃飯動作
    成人综合一区亚洲| 国产黄片美女视频| 天堂网av新在线| 成人亚洲精品av一区二区| 好男人在线观看高清免费视频| 欧美一区二区亚洲| 搡女人真爽免费视频火全软件 | 亚洲自偷自拍三级| 少妇人妻一区二区三区视频| 999久久久精品免费观看国产| 网址你懂的国产日韩在线| 中文资源天堂在线| 亚洲中文日韩欧美视频| 久久草成人影院| 午夜精品久久久久久毛片777| 久久6这里有精品| 久久久久久久午夜电影| 日本精品一区二区三区蜜桃| 欧美日韩精品成人综合77777| 日韩欧美 国产精品| 黄色一级大片看看| 天天一区二区日本电影三级| 午夜视频国产福利| 国产精品野战在线观看| 尤物成人国产欧美一区二区三区| 精品无人区乱码1区二区| 简卡轻食公司| 欧美色视频一区免费| 日韩高清综合在线| 免费人成视频x8x8入口观看| 久久精品影院6| 久久99热这里只有精品18| 免费看a级黄色片| 12—13女人毛片做爰片一| 亚洲一区二区三区色噜噜| 日本成人三级电影网站| 亚洲欧美日韩东京热| 午夜日韩欧美国产| 国产精品野战在线观看| 成人一区二区视频在线观看| 国产成人a区在线观看| 蜜桃久久精品国产亚洲av| 亚洲欧美精品综合久久99| 国产亚洲欧美98| 人妻少妇偷人精品九色| 精品一区二区三区视频在线| 久久久国产成人免费| 亚洲四区av| 最后的刺客免费高清国语| 久久亚洲真实| 亚洲av第一区精品v没综合| 免费大片18禁| 变态另类丝袜制服| 精品久久久久久久久亚洲 | 一个人观看的视频www高清免费观看| 国产伦人伦偷精品视频| 日韩强制内射视频| 成年女人永久免费观看视频| 哪里可以看免费的av片| 久久久久久久久久黄片| 亚洲自偷自拍三级| 久久婷婷人人爽人人干人人爱| 精品国产三级普通话版| 最好的美女福利视频网| 精品人妻偷拍中文字幕| 免费av不卡在线播放| 黄色一级大片看看| 欧美日韩瑟瑟在线播放| 伦精品一区二区三区| 麻豆一二三区av精品| 观看免费一级毛片| 精品久久久久久久久久免费视频| 国产在线精品亚洲第一网站| 中文字幕免费在线视频6| 成人亚洲精品av一区二区| 女的被弄到高潮叫床怎么办 | 久久久久久久久久成人| 成年免费大片在线观看| 成年人黄色毛片网站| 男人和女人高潮做爰伦理| 别揉我奶头~嗯~啊~动态视频| 99久久精品国产国产毛片| 18禁裸乳无遮挡免费网站照片| 天天躁日日操中文字幕| 中国美女看黄片| 免费搜索国产男女视频| 在线观看午夜福利视频| 国产高清有码在线观看视频| 淫秽高清视频在线观看| 真人做人爱边吃奶动态| 久久草成人影院| 国产精品伦人一区二区| 免费看av在线观看网站| x7x7x7水蜜桃| 亚洲一区高清亚洲精品| 亚洲人成伊人成综合网2020| 免费在线观看成人毛片| 99精品久久久久人妻精品| 乱系列少妇在线播放| 国产成人aa在线观看| 在线看三级毛片| 在线看三级毛片| 啦啦啦啦在线视频资源| 少妇人妻精品综合一区二区 | 99久国产av精品| 成人鲁丝片一二三区免费| 免费看日本二区| 老司机午夜福利在线观看视频| 亚洲人成网站在线播| 中文在线观看免费www的网站| 精品一区二区三区av网在线观看| 国产大屁股一区二区在线视频| 国产色爽女视频免费观看| 国产欧美日韩精品一区二区| 色综合婷婷激情| 搡老熟女国产l中国老女人| 伦精品一区二区三区| 日本熟妇午夜| 黄色一级大片看看| 全区人妻精品视频| 免费在线观看影片大全网站| 大型黄色视频在线免费观看| 深夜a级毛片| 人人妻人人澡欧美一区二区| 一a级毛片在线观看| 国产精品国产三级国产av玫瑰| 亚洲18禁久久av| 久久久久久国产a免费观看| 免费大片18禁| 制服丝袜大香蕉在线| 丝袜美腿在线中文| 俺也久久电影网| 国产亚洲av嫩草精品影院| 熟女人妻精品中文字幕| 欧美3d第一页| 欧美高清性xxxxhd video| 日韩大尺度精品在线看网址| 精品久久久久久久人妻蜜臀av| 色5月婷婷丁香| 女同久久另类99精品国产91| 久久热精品热| 久久精品国产自在天天线| 国产91精品成人一区二区三区| 久久久久久伊人网av| 国国产精品蜜臀av免费| 噜噜噜噜噜久久久久久91| 一夜夜www| 国产亚洲av嫩草精品影院| 欧美xxxx性猛交bbbb| 亚洲精品乱码久久久v下载方式| 又黄又爽又刺激的免费视频.| 午夜视频国产福利| 婷婷亚洲欧美| 日本黄大片高清| 2021天堂中文幕一二区在线观| 国产精品久久久久久精品电影| 哪里可以看免费的av片| 制服丝袜大香蕉在线| 亚洲精品影视一区二区三区av| 亚洲av免费高清在线观看| 欧美色欧美亚洲另类二区| 久久国产精品人妻蜜桃| 亚洲午夜理论影院| .国产精品久久| 91久久精品电影网| 日韩中字成人| 国产精品一区二区三区四区久久| 乱人视频在线观看| 嫁个100分男人电影在线观看| 可以在线观看的亚洲视频| 久久草成人影院| 免费人成在线观看视频色| 欧美日韩瑟瑟在线播放| 国产极品精品免费视频能看的| 亚洲精品一区av在线观看| 丰满的人妻完整版| 97人妻精品一区二区三区麻豆| 精品久久久久久,| 日日撸夜夜添| av在线天堂中文字幕| 免费观看的影片在线观看| 夜夜夜夜夜久久久久| 天堂影院成人在线观看| 91在线观看av| 国产白丝娇喘喷水9色精品| 日本-黄色视频高清免费观看| 国产三级在线视频| 黄色女人牲交| 欧美性感艳星| 午夜精品久久久久久毛片777| 亚洲欧美精品综合久久99| 国产色爽女视频免费观看| 亚洲性久久影院| 色综合色国产| 嫩草影视91久久| 热99在线观看视频| 99在线人妻在线中文字幕| 超碰av人人做人人爽久久| 97热精品久久久久久| 99热6这里只有精品| 国产v大片淫在线免费观看| 国产色爽女视频免费观看| 国产在线男女| 又紧又爽又黄一区二区| 人人妻,人人澡人人爽秒播| 五月伊人婷婷丁香| 国产主播在线观看一区二区| 91av网一区二区| 露出奶头的视频| 观看美女的网站| 长腿黑丝高跟| 我要看日韩黄色一级片| a级毛片a级免费在线| 一夜夜www| 1024手机看黄色片| 国产精品伦人一区二区| 天堂影院成人在线观看| 欧美日韩国产亚洲二区| 亚洲成人免费电影在线观看| 国产午夜精品久久久久久一区二区三区 | 91av网一区二区| 午夜a级毛片| 色哟哟·www| 日韩欧美精品免费久久| 亚洲人成伊人成综合网2020| 九色国产91popny在线| 国产精品乱码一区二三区的特点| 夜夜看夜夜爽夜夜摸| 国产精品福利在线免费观看| 欧美黑人欧美精品刺激| 免费看美女性在线毛片视频| 天天躁日日操中文字幕| 美女 人体艺术 gogo| 亚洲av电影不卡..在线观看| 91麻豆av在线| 午夜精品久久久久久毛片777| 欧美bdsm另类| 老师上课跳d突然被开到最大视频| 精品福利观看| 日韩中字成人| 一进一出抽搐gif免费好疼| 久久人人精品亚洲av| 国产高清视频在线观看网站| 亚洲av第一区精品v没综合| 在线免费十八禁| 亚洲国产精品久久男人天堂| 日韩在线高清观看一区二区三区 | 国产乱人视频| 丰满的人妻完整版| 国内毛片毛片毛片毛片毛片| 精品欧美国产一区二区三| 直男gayav资源| 在线观看舔阴道视频| 亚洲中文字幕日韩| 精品久久久久久久久亚洲 | 别揉我奶头 嗯啊视频| 亚洲国产日韩欧美精品在线观看| 熟女电影av网| 久久这里只有精品中国| 观看美女的网站| 国产麻豆成人av免费视频| 亚洲图色成人| 不卡视频在线观看欧美| 午夜福利在线在线| 亚州av有码| 久久6这里有精品| 18禁黄网站禁片午夜丰满| 成人综合一区亚洲| 又紧又爽又黄一区二区| 欧美日韩精品成人综合77777| 欧美一区二区亚洲| bbb黄色大片| 国产激情偷乱视频一区二区| 欧美日韩综合久久久久久 | 淫秽高清视频在线观看| 国产亚洲精品久久久com| 亚洲男人的天堂狠狠| 91在线观看av| 22中文网久久字幕| 他把我摸到了高潮在线观看| 99国产精品一区二区蜜桃av| 精品无人区乱码1区二区| 成人一区二区视频在线观看| www.www免费av| 国产精品久久电影中文字幕| 欧美人与善性xxx| 国产三级中文精品| 精品久久久久久久久av| 亚洲最大成人手机在线| 欧美高清性xxxxhd video| 赤兔流量卡办理| 一进一出抽搐gif免费好疼| 国产亚洲91精品色在线| 成年人黄色毛片网站| 老师上课跳d突然被开到最大视频| 伦理电影大哥的女人| 少妇丰满av| а√天堂www在线а√下载| 成年女人毛片免费观看观看9| 欧美人与善性xxx| 国产一区二区三区av在线 | 亚洲avbb在线观看| 尤物成人国产欧美一区二区三区| 国产伦一二天堂av在线观看| 日日啪夜夜撸| 欧美日韩中文字幕国产精品一区二区三区| 亚洲va在线va天堂va国产| 久久精品国产亚洲av天美| 人妻制服诱惑在线中文字幕| 无遮挡黄片免费观看| 校园人妻丝袜中文字幕| 国产v大片淫在线免费观看| 国产探花极品一区二区| 亚洲成人精品中文字幕电影| 我要搜黄色片| 久久久久性生活片| 亚洲午夜理论影院| 国产三级中文精品| 国产一区二区亚洲精品在线观看| 欧美色视频一区免费| 啦啦啦观看免费观看视频高清| 国产一级毛片七仙女欲春2| 久久久久久久久久黄片| 久久国内精品自在自线图片| 亚洲天堂国产精品一区在线| h日本视频在线播放| 久久99热这里只有精品18| 97热精品久久久久久| 一本精品99久久精品77| 国产精品久久久久久久电影| 亚洲精品色激情综合| 久久久国产成人免费| 亚洲中文日韩欧美视频| 欧美日本亚洲视频在线播放| 亚洲av第一区精品v没综合| 国产成人av教育| 18+在线观看网站| 2021天堂中文幕一二区在线观| 免费看美女性在线毛片视频| 免费看日本二区| 欧美人与善性xxx| 欧美日韩精品成人综合77777| 精品久久久久久久末码| 国产在视频线在精品| 国产精品久久久久久久电影| 亚洲av成人av| 精品欧美国产一区二区三| 免费av观看视频| 日韩人妻高清精品专区| 久久久久久大精品| 欧美3d第一页| 欧美日韩瑟瑟在线播放| 国产主播在线观看一区二区| 一个人观看的视频www高清免费观看| 日本三级黄在线观看| 在线观看免费视频日本深夜| 久久久久久久久久黄片| 午夜精品在线福利| 精品久久久久久久人妻蜜臀av| 97人妻精品一区二区三区麻豆| 国模一区二区三区四区视频| 精品久久久噜噜| 日韩欧美国产一区二区入口| 观看美女的网站| 日本在线视频免费播放| 国产免费一级a男人的天堂| 国产一区二区三区在线臀色熟女| 老司机午夜福利在线观看视频| 又黄又爽又免费观看的视频| 久久久成人免费电影| 三级毛片av免费| 老司机深夜福利视频在线观看| 久久这里只有精品中国| 国产精品嫩草影院av在线观看 | 在线天堂最新版资源| 有码 亚洲区| 精品午夜福利视频在线观看一区| 亚洲最大成人中文| 色综合亚洲欧美另类图片| 久久九九热精品免费| 在线国产一区二区在线| 91av网一区二区| 国产亚洲精品久久久com| 韩国av一区二区三区四区| av国产免费在线观看| 日韩高清综合在线| 免费av观看视频| 色噜噜av男人的天堂激情| 亚洲欧美日韩卡通动漫| 乱码一卡2卡4卡精品| 日韩欧美国产一区二区入口| 两个人视频免费观看高清| 亚洲精品456在线播放app | 偷拍熟女少妇极品色| 欧洲精品卡2卡3卡4卡5卡区| 悠悠久久av| 亚洲狠狠婷婷综合久久图片| 国产v大片淫在线免费观看| 国产精品久久久久久久电影| 舔av片在线| 99热这里只有精品一区| 99久久久亚洲精品蜜臀av| 观看美女的网站| 亚洲人成网站高清观看| 亚洲真实伦在线观看| 午夜福利在线观看吧| 国内精品久久久久精免费| 大型黄色视频在线免费观看| 日本a在线网址| 亚洲欧美日韩高清在线视频| 村上凉子中文字幕在线| 日本欧美国产在线视频| 久久久久久久久中文| 草草在线视频免费看| 18禁黄网站禁片午夜丰满| 亚洲色图av天堂| 国产欧美日韩精品亚洲av| 中出人妻视频一区二区| 国产精品一区二区免费欧美| 最好的美女福利视频网| 在线观看午夜福利视频| 韩国av一区二区三区四区| 国产精品亚洲一级av第二区| 国产男靠女视频免费网站| 校园人妻丝袜中文字幕| 欧洲精品卡2卡3卡4卡5卡区| 国产女主播在线喷水免费视频网站 | 免费大片18禁| 内地一区二区视频在线| 欧美一区二区精品小视频在线| 女生性感内裤真人,穿戴方法视频| 精品午夜福利视频在线观看一区| 亚洲中文字幕日韩| 99九九线精品视频在线观看视频| 亚洲国产精品久久男人天堂| 两个人的视频大全免费| 欧美日韩乱码在线| 国产色婷婷99| 欧美日韩精品成人综合77777| 成人av在线播放网站| 黄色配什么色好看| 久久精品影院6| 老司机福利观看| 91久久精品电影网| 丝袜美腿在线中文| 99久久精品一区二区三区| 黄片wwwwww| 日韩 亚洲 欧美在线| av天堂中文字幕网| 久久久久久大精品| 又爽又黄a免费视频| 99国产极品粉嫩在线观看| videossex国产| 18+在线观看网站| 成人国产麻豆网| 欧美色欧美亚洲另类二区| 欧美日韩综合久久久久久 | 午夜精品久久久久久毛片777| 白带黄色成豆腐渣| 国产av不卡久久| 欧美另类亚洲清纯唯美| 网址你懂的国产日韩在线| 久久久久久国产a免费观看| 别揉我奶头 嗯啊视频| 亚洲av第一区精品v没综合| 日本 av在线| 简卡轻食公司| 99久久九九国产精品国产免费| 男女边吃奶边做爰视频| 色av中文字幕| 日韩人妻高清精品专区| videossex国产| 国产精品亚洲美女久久久| 亚洲18禁久久av| 黄色丝袜av网址大全| 村上凉子中文字幕在线| 精品一区二区三区视频在线| 国产乱人伦免费视频| 欧美一区二区亚洲| 欧美潮喷喷水| 亚洲综合色惰| 免费看日本二区| 国产精品久久久久久亚洲av鲁大| 禁无遮挡网站| 又黄又爽又免费观看的视频| 欧美性猛交黑人性爽| 精品一区二区三区av网在线观看| 午夜影院日韩av| 国产淫片久久久久久久久| 在线观看66精品国产| 18禁在线播放成人免费| 99热这里只有是精品50| avwww免费| 97超级碰碰碰精品色视频在线观看| 国产精品一区二区性色av| 丝袜美腿在线中文| 在线播放无遮挡| 精品久久久久久久久av| 国产大屁股一区二区在线视频| 美女大奶头视频| 国产淫片久久久久久久久| 波野结衣二区三区在线| 一级毛片久久久久久久久女| 欧美潮喷喷水| 色吧在线观看| 婷婷丁香在线五月| 精品人妻1区二区| 亚洲欧美日韩高清专用| 亚洲av二区三区四区| 男女之事视频高清在线观看| 麻豆一二三区av精品| 在线免费观看的www视频| 校园春色视频在线观看| 22中文网久久字幕| 久久天躁狠狠躁夜夜2o2o| 看免费成人av毛片| 免费看美女性在线毛片视频| 大又大粗又爽又黄少妇毛片口| 99久久精品热视频| 色av中文字幕| 午夜影院日韩av| 在线免费观看不下载黄p国产 | 免费搜索国产男女视频| 久久久久久久久久成人| 91久久精品国产一区二区三区| 啦啦啦观看免费观看视频高清| 男女做爰动态图高潮gif福利片| 干丝袜人妻中文字幕| 久久热精品热| 精品一区二区三区视频在线| 日本黄色视频三级网站网址| 亚洲精品影视一区二区三区av| 久久久久国产精品人妻aⅴ院| 国产黄色小视频在线观看| 国产亚洲精品综合一区在线观看| 国产男人的电影天堂91| 别揉我奶头 嗯啊视频| 久久亚洲精品不卡| 久久精品国产99精品国产亚洲性色| 成人国产一区最新在线观看| 1024手机看黄色片| 亚洲中文字幕日韩| 国产成人影院久久av| 网址你懂的国产日韩在线| 最近中文字幕高清免费大全6 | 日本黄大片高清| 性色avwww在线观看| av福利片在线观看| 最近最新免费中文字幕在线| 日韩高清综合在线| 国产免费男女视频| 我要看日韩黄色一级片| 午夜日韩欧美国产| 久久久精品欧美日韩精品| 亚洲午夜理论影院| 亚洲性夜色夜夜综合| 99精品在免费线老司机午夜| 国产高清视频在线观看网站| 天堂影院成人在线观看| 色综合亚洲欧美另类图片| 日韩欧美在线二视频| 久久亚洲精品不卡| 午夜福利成人在线免费观看| 国产一区二区三区av在线 | 国产精品福利在线免费观看| 桃色一区二区三区在线观看| 人妻夜夜爽99麻豆av| 精品人妻熟女av久视频| 在线观看av片永久免费下载| 午夜爱爱视频在线播放| 我的老师免费观看完整版| 麻豆成人午夜福利视频| 麻豆久久精品国产亚洲av| 成人av在线播放网站| 亚洲 国产 在线| 午夜激情福利司机影院| 97碰自拍视频| 国产视频内射| 国产午夜精品久久久久久一区二区三区 | 亚洲av二区三区四区| 国产精品久久视频播放| 国产精品亚洲一级av第二区| 男人的好看免费观看在线视频| 日韩中文字幕欧美一区二区| 日韩高清综合在线| 在线观看免费视频日本深夜| 最后的刺客免费高清国语| 亚洲电影在线观看av| 给我免费播放毛片高清在线观看| 日本黄大片高清| 成人性生交大片免费视频hd| 又粗又爽又猛毛片免费看| 99热6这里只有精品| 日韩欧美精品v在线| 老司机午夜福利在线观看视频| 日本色播在线视频| 中出人妻视频一区二区| 国内揄拍国产精品人妻在线| 国内久久婷婷六月综合欲色啪| 亚洲av.av天堂| 国产色爽女视频免费观看| 国产亚洲91精品色在线| 成人精品一区二区免费| 亚洲av日韩精品久久久久久密| 在线观看舔阴道视频| 69人妻影院| h日本视频在线播放| 禁无遮挡网站| 久久热精品热| 亚洲成a人片在线一区二区| 97人妻精品一区二区三区麻豆| 亚洲欧美精品综合久久99| 婷婷六月久久综合丁香| 国产在线精品亚洲第一网站| 亚洲国产欧洲综合997久久,|