• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于深度強化學(xué)習(xí)的車輛路徑問題求解方法

    2022-09-19 08:11:10琰,張錦,2,3
    關(guān)鍵詞:深度車輛動作

    黃 琰,張 錦,2,3

    (1.西南交通大學(xué),交通運輸與物流學(xué)院,成都 611756;2.綜合交通運輸智能化國家地方聯(lián)合工程實驗室,成都 611756;3.綜合交通大數(shù)據(jù)應(yīng)用技術(shù)國家工程實驗室,成都 611756)

    0 引 言

    車輛路徑問題(Vehicle Routing Problem,VRP)于1959 年由Dantzig 和Ramser[1]提出并用于解決卡車調(diào)度問題,后被Lenstra 和Kan[2]證明是一種NP-hard 問題。作為交通運輸與物流領(lǐng)域最為經(jīng)典的組合運籌優(yōu)化問題,VRP 歷經(jīng)幾十年的研究和討論而經(jīng)久不衰。

    基于現(xiàn)實情況,學(xué)者們將相關(guān)的約束條件添加到標準的VRP 中,設(shè)計了多種對應(yīng)的VRP 擴展問題。如帶時間窗的車輛路徑問題(Vehicle Routing Problems with Time Windows, VRPTW)、隨機服務(wù)的車輛路徑問題(Vehicle Routing Problem with Stochastic Travel and Service Time and Time Windows, VRPSTSTW)[3]、電動汽車車輛路徑問題[4-5](Electric Vehicle Routing Problem,EVRP)、考慮增加車場數(shù)量的多車場車輛路徑問題[6](Multidepot Vehicle Routing Problem, MDVRP)、帶時間窗和人力分配的車輛路徑問題[7](Manpower Allocation and Vehicle Routing Problem with Time Windows, MAVRPTW)、考慮一致性約束的車輛路徑問 題[8](Consistent Vehicle Routing Problem, Con-VRP)等,并被廣泛應(yīng)用于物流配送、醫(yī)療服務(wù)[7]以及消防、潛探、巡檢等特殊領(lǐng)域。較為常見的車輛路徑問題的應(yīng)用場景、特征和相關(guān)經(jīng)典文獻詳見文獻[9]。

    車輛路徑問題的常規(guī)求解方法主要有精確算法、經(jīng)典啟發(fā)式算法和元啟發(fā)式算法[9-10]。目前,車輛路徑問題的傳統(tǒng)求解方法均能不同程度地適應(yīng)各類型的車輛路徑問題,但傳統(tǒng)求解方法通常針對具體模型和部分靜態(tài)進行建模和求解,并不具備自主學(xué)習(xí)和決策的能力。

    深度強化學(xué)習(xí)是一種能夠?qū)崿F(xiàn)從原始輸入到輸出直接控制的人工智能方法[11],設(shè)計的方法無需人工設(shè)計或推理,使得其自主解決車輛路徑問題,甚至未來自主改進至優(yōu)于傳統(tǒng)方法變得可能。在現(xiàn)代物流快速發(fā)展的基礎(chǔ)上,面對復(fù)雜、數(shù)據(jù)規(guī)模較大的車輛路徑規(guī)劃情景,應(yīng)當設(shè)計可信演化能力更強、算法柔性更大的人工智能方法,以適配實際的車輛路徑問題場景,有效支撐智慧物流的發(fā)展。

    常見的深度強化學(xué)習(xí)方法包括深度Q 網(wǎng)絡(luò)方法(Deep Q-learning Networks, DQN)、演員-評論家方法(Actor-Critic,AC)、深度確定性策略梯度方法(Deep Deterministic Policy Gradient, DDPG)、近端策略梯度優(yōu)化方法(Proximal Policy Optimization,PPO)等。目前,深度強化學(xué)習(xí)在VRP 中的應(yīng)用是研究的熱點之一[10],相關(guān)研究主要集中在采用逐一插入節(jié)點的方式構(gòu)造解的“端到端”深度強化學(xué)習(xí)方法和運用深度強化學(xué)習(xí)方法設(shè)計啟發(fā)式算法兩個方向。相關(guān)文獻運用方法及主要成果整理如表1所示。

    表1 深度強化學(xué)習(xí)方法在車輛路徑問題中的應(yīng)用Tab.1 Application of deep reinforcement learning to vehicle routing problems

    一方面,相關(guān)學(xué)者通過逐一插入節(jié)點的方式設(shè)計“端到端”輸出解的車輛路徑問題的深度強化學(xué)習(xí)方法。Nazari 等[12]受到TSP 旅行商問題的深度強化學(xué)習(xí)相關(guān)研究的啟示,結(jié)合車輛路徑問題的特性,通過改進指針網(wǎng)絡(luò)PtrNet 的編碼器,設(shè)計了適用于VRP 問題的深度強化學(xué)習(xí)方法。KOOL等[13]提出了AM 方法,引入注意力機制Attention并設(shè)定探索基線Rollout Baseline 用于修正強化學(xué)習(xí)的獎勵。Vera 等[14]基于深度強化學(xué)習(xí)在多智能體協(xié)作系統(tǒng)中的應(yīng)用,提出了解決固定車隊規(guī)模的多車輛路徑問題的深度強化學(xué)習(xí)方法,相比啟發(fā)式方法得到了較優(yōu)的實驗結(jié)果。Peng 等[15]在AM方法的基礎(chǔ)上引入動態(tài)注意力機制,相比文獻[13]將算法效率提升了20~40 倍。Bdeir 等[16]針對VRP設(shè)計編碼器并與DQN思想結(jié)合設(shè)計了RP-DQN方法,并證明在客戶數(shù)量為20、50、100 的CVRP(Capacitated Vehicle Routing Problem)上優(yōu)化效果均優(yōu)于文獻[12]和文獻[13]。ORENJ 等[17]提出運用圖神經(jīng)網(wǎng)絡(luò)表示VRP 的環(huán)境狀態(tài),并設(shè)計了一種在線-離線學(xué)習(xí)相結(jié)合的方法。韓巖峰[18]提出了基于注意力機制和AC 算法框架的深度強化學(xué)習(xí)方法,并用于解決帶時間窗的無人物流車隊配送問題。

    另一個研究方向則是運用深度強化學(xué)習(xí)方法針對特定車輛路徑問題設(shè)計啟發(fā)式算法。Chen[19]等將車輛路徑問題定義為序列到序列的問題,并運用指針網(wǎng)絡(luò)結(jié)合AC 方法設(shè)計啟發(fā)式算法NeuRewriter,并在實驗結(jié)果上優(yōu)于文獻[12]和[13]。LU 等[20]通過定義改進算子和干擾算子并結(jié)合深度強化學(xué)習(xí)方法構(gòu)建了啟發(fā)式算法L2I,首次在實驗結(jié)果上超過了專業(yè)求解器LKH3[21]。之后,Wu 等[22]運用自注意力機制結(jié)合REINFORCE 構(gòu)建了啟發(fā)式算法,通過對歷史解決方案離線學(xué)習(xí)取得了較好的實驗結(jié)果。Falkner 等[23]運用深度強化學(xué)習(xí)方法改進多個并行解決方案,設(shè)計了啟發(fā)式算法JAMPR,并應(yīng)用于CVRP 問題和VRPTW 問題。馮勤炳[24]設(shè)計了基于DQN的強化學(xué)習(xí)超啟發(fā)算法,實驗證明對比傳統(tǒng)方法有效減少了總成本,提升了算法魯棒性。Zhao 等[25]通過將深度強化學(xué)習(xí)方法與局部搜索算法相結(jié)合設(shè)計了啟發(fā)式算法,實驗結(jié)果較好,并將求解效率提升了5~40 倍。Gao 等[26]在大規(guī)模領(lǐng)域搜索算法框架下結(jié)合圖注意力神經(jīng)網(wǎng)絡(luò)GAT 和PPO 構(gòu)建了啟發(fā)式算法,將問題解決規(guī)模擴大至400個客戶服務(wù)點。

    綜上,運用深度強化學(xué)習(xí)方法設(shè)計啟發(fā)式算法求解車輛路徑問題可以有效地提升求解的速度和效果,但該類模型較適用于求解固定環(huán)境和類型的車輛路徑問題。部分學(xué)者嘗試離線學(xué)習(xí)實例數(shù)據(jù)求解車輛路徑問題,該類實驗效果較好,但需要大量數(shù)據(jù)和算例作為輸入,一定程度上影響了算法的效率,降低了方法的實用性。許多學(xué)者致力于研究“端到端”的車輛路徑問題求解方法,該類方法能夠較好地針對不同約束條件的車輛路徑問題,但通常需要通過波束搜索、局部搜索等方式提升直接輸出解的質(zhì)量。Bdeir[16]等提出的RPDQN 方法,實驗結(jié)果在現(xiàn)有“端到端”方法中表現(xiàn)較優(yōu),但由于DQN 方法的動作選擇方式,尚存在值函數(shù)過估計、探索局限等問題,該問題將在后文詳細說明并改進。同時,并未有學(xué)者系統(tǒng)性地對車輛路徑問題強化學(xué)習(xí)決策過程進行詳細設(shè)計。

    本文針對CVRP 設(shè)計了“端到端”輸出解的車輛路徑問題的深度強化學(xué)習(xí)方法,其主要貢獻如下:

    (1)提出了一種基于上置信區(qū)間算法(Upper Confidence Bound Apply to Tree,UCT)改進策略選擇的DQN 方法,通過平衡智能體對策略的利用與探索,解決現(xiàn)行方法探索局限的問題,提升方法的效果。

    (2)針對CVRP,系統(tǒng)性地設(shè)計了車輛路徑問題場景下的強化學(xué)習(xí)決策過程,并設(shè)計了車輛路徑問題場景下的狀態(tài)-動作空間、獎勵函數(shù)、策略選擇方式等決策過程要素。

    1 問題與目標

    1.1 問題描述

    CVRP 即對每一個服務(wù)的車輛都有裝載能力約束的車輛路徑問題,由一組W輛具有裝載能力為cw的車輛,對一系列分布在地理上不同位置的L個顧客進行服務(wù),每個需求點只能由一輛車服務(wù)且每個車輛的路線開始于車場,完成服務(wù)后回到車場。

    1.2 優(yōu)化目標

    深度強化學(xué)習(xí)是通過環(huán)境與智能體的不斷交互,修正不同狀態(tài)下的動作選擇,最終輸出一系列較優(yōu)動作的過程。為了達到最終期望的結(jié)果,需要通過設(shè)置一個優(yōu)化目標來更好地引導(dǎo)智能體。

    參考本文研究的CVRP 傳統(tǒng)模型中的目標函數(shù)設(shè)定優(yōu)化目標:在滿足車輛裝載約束的基礎(chǔ)上,考慮車輛行駛距離總和最短,如下所示:

    2 傳統(tǒng)深度Q網(wǎng)絡(luò)方法

    深度Q 網(wǎng)絡(luò)[27-28]是在Q-learning 的基礎(chǔ)上,構(gòu)建一個參數(shù)為Φ的深度神經(jīng)網(wǎng)絡(luò)代替Q-learning的Q值表,并通過智能體與環(huán)境不斷交互更新函數(shù)參數(shù),使得函數(shù)Q?(s,a)可以逼近現(xiàn)實的狀態(tài)動作值函數(shù)Qπ(s,a),該過程為:

    式中:s′為下一個狀態(tài)s′的向量表示;a′為下一個動作a′的向量表示。

    函數(shù)Q?(s,a)與Qπ(s,a)之間的誤差,可表示為損失函數(shù):

    函數(shù)Q?(s,a)逼近Qπ(s,a)的過程就是損失函數(shù)不斷梯度下降的過程。

    2.1 值函數(shù)網(wǎng)絡(luò)設(shè)計

    本文參考Kool等[13]設(shè)計的基于Transformer框架的注意力模型以及Bdeir等[16]提出的RP-DQN方法,設(shè)計了值函數(shù)網(wǎng)絡(luò)。網(wǎng)絡(luò)結(jié)構(gòu)為基于Transformer 框架的注意力網(wǎng)絡(luò),主要組件包括輸入層、解碼器、編碼器和輸出層。

    值函數(shù)網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示,具體細節(jié)詳見文獻[13]和[16]。

    圖1 深度Q網(wǎng)絡(luò)值函數(shù)網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.1 Structure of value function network of Deep Q-learning Networks

    這些節(jié)點嵌入通過N個串聯(lián)的注意力模塊(Attention Blocks,AB)進行傳導(dǎo)和更新,每個注意力模塊由一個多頭自注意力層(Multi-Head Self-Attention Layer, MHA)和一個全連接的前饋層(Feedforward Layer, FF)組成,激活函數(shù)為ReLU函數(shù),每層MHA 與FF 之間通過殘差連接和批量歸一化處理(Batch Normalization, BN)連接而成,并允許信息傳遞時跳過連接。

    2.1.2 解碼器

    解碼器由1個MHA 和1個單頭注意力層(Single-Head Attention,SHA)組成。

    解碼器每一時刻t的輸入是當前時刻由編碼

    式中:u0為選擇訪問車場輸出的q值;ui為選擇訪問節(jié)點i輸出的q值;w?i,t為t時刻節(jié)點i的剩余需求;c?t為t時刻節(jié)點i的車輛的剩余裝載量。

    其中,式(8)表示車場不允許被連續(xù)訪問;式(9)表示需求大于車輛剩余裝載的節(jié)點和已被服務(wù)過的節(jié)點(剩余需求為0)不允許被訪問。掩碼M的規(guī)則設(shè)定能夠很好地反映VRP 問題的約束條件。本文僅針對CVRP設(shè)計了掩碼的規(guī)則,相關(guān)學(xué)者可通過增加掩碼M規(guī)則將該方法拓展至各類車輛路徑問題。

    式中:dk為維度系數(shù),用于平衡各節(jié)點之間的數(shù)量級,通常取64;W k和W q分別表示節(jié)點狀態(tài)特征和節(jié)點嵌入權(quán)重向量。

    2.2 車輛路徑問題的決策過程

    深度強化學(xué)習(xí)的決策過程為馬爾科夫決策過程(Markov Decision Process,MDP)具有馬爾科夫性,即一個隨機過程其未來狀態(tài)的條件概率分布僅依賴于當前狀態(tài),與之前任意時刻無關(guān)。在CVRP問題中,可將求解的過程視作車輛在某時刻與環(huán)境進行交互的過程,這個過程是一個離散動作空間。在僅考慮統(tǒng)一車型且不考慮時間窗的情況下,模型中w輛車可視為一輛車取貨w次的過程,雖然該過程的每一個決策之間并不存在實際的時間順序,但決策過程依舊僅依賴當前的狀態(tài),具有馬爾科夫性,故這個過程可以視為半馬爾科夫決策過程。

    在這個虛擬的過程中,存在一個智能體即車輛,車輛從起點出發(fā)選擇一個動作a1,由外部環(huán)境給予一個即時的獎勵r,同時環(huán)境根據(jù)動作更改成狀態(tài)s1,這個過程不斷交互,直到所有顧客服務(wù)完畢,此時返回所有獎勵的和。

    智能體與環(huán)境交互做出動作的最終目標是達到期望累計獎勵最大,可以表示為:

    2.2.2 獎勵函數(shù)

    獎勵函數(shù)的設(shè)定直接決定了強化學(xué)習(xí)方法的收斂性和優(yōu)化方向,結(jié)合CVRP問題的相關(guān)約束條件以及式(1)關(guān)于本文優(yōu)化目標的定義,本文定義了智能體每次做出決策,環(huán)境給予該決策對應(yīng)顧客之間距離倒數(shù)的正獎勵如下所示:

    式中:rt表示t時刻的獎勵。

    3 基于UCT改進的DQN

    3.1 傳統(tǒng)DQN的問題

    深度Q 網(wǎng)絡(luò)存在對于Q 值過估計的問題。由公式(2)可知,DQN網(wǎng)絡(luò)訓(xùn)練過程是通過近似估計一個函數(shù)逼近現(xiàn)實的狀態(tài)動作值函數(shù)的過程。由于初始狀態(tài)未知以及原始參數(shù)的設(shè)定,會導(dǎo)致這個過程的開始對于函數(shù)的估計產(chǎn)生偏差。而由于深度Q 網(wǎng)絡(luò)選擇執(zhí)行的是Q 估計值最大的動作,因此過高估計的動作被選擇的概率較大;深度Q網(wǎng)絡(luò)目標網(wǎng)絡(luò)凍結(jié)的機制,也會導(dǎo)致其不斷放大值的過大估計,導(dǎo)致最終結(jié)果出現(xiàn)偏差。

    同時,由于DQN 選擇執(zhí)行的是Q 估計值最大的動作,智能體每次進行交互的軌跡是一致的,對于未選擇動作的探索程度較小,僅是對已經(jīng)確定的策略進行利用,而非對環(huán)境進行探索,難以覆蓋所有的狀態(tài)和動作。若單純使用深度Q 網(wǎng)絡(luò)會導(dǎo)致陷入局部最優(yōu),不利于最優(yōu)策略的選取,方法的收斂性和穩(wěn)定性較差。

    3.2 方法改進

    本文通過結(jié)合UCT 算法改進DQN 中的動作選擇方式以改進DQN的過估計和探索局限問題。

    UCT 算法是蒙特卡洛樹搜索算法(MCTS)的一個拓展,MCTS 作為一種經(jīng)典啟發(fā)式搜索算法,最早由Kocsis 等[29]在2006 年提出,UCT 算法是在MCTS 的基礎(chǔ)上,將上置信區(qū)間UCB 值引入MCTS用于算法決策值的計算,被廣泛應(yīng)用于搜索空間較大的決策過程或象棋、圍棋游戲的AI 程序中,如Alpha Go等。

    強化學(xué)習(xí)的本質(zhì)是通過不斷探索環(huán)境并充分利用探索的經(jīng)驗進行控制與決策的過程[30]。傳統(tǒng)DQN方法在解決環(huán)境的探索與利用平衡問題時是通過ε-greedy策略,通過調(diào)整貪婪和隨機的概率對環(huán)境進行充分探索。

    但由于ε-greedy策略是隨機無向的探索,在小規(guī)模的簡單問題中尚能進行。但面對較為復(fù)雜的問題,特別是VRP問題,要求每個節(jié)點顧客必須得到服務(wù),因此對每個節(jié)點的特征進行探索是必要的。這種隨機無向的探索數(shù)據(jù)利用率較低,難以保證在短時間內(nèi)對所有節(jié)點特征進行探索。UCT算法則很好地解決了這個問題,UCT 算法定義了一個上置信區(qū)間值UCB為:

    具體到本文的改進,是將DQN 算法中智能體做動作選擇時選擇輸出最大q值動作的策略,改為選取k個較大q值的節(jié)點并向下遍歷計算其葉節(jié)點的qUCB值,輸出qUCB值最大的節(jié)點動作。值得一提的是q值的輸出借鑒了Hasselt[31]等設(shè)計的DQN改進方法,為Q 估計與Q 現(xiàn)實中較小的數(shù)值,以此可以減少DQN 的過估計問題。動作a的qUCB值可表示為qUCB(a),表達式如下:

    改進后的方法流程如圖2所示,細節(jié)及具體描述如下。

    圖2 基于UCT改進動作選擇的DQN方法流程圖Fig.2 Flow diagram of DQN method for improved policy decision-making based on UCT

    步驟1 初始化虛擬狀態(tài)環(huán)境。

    步驟2 初始化經(jīng)驗池、動作價值函數(shù)Q 網(wǎng)絡(luò)、對照動作價值函數(shù)Q 網(wǎng)絡(luò)、決策樹估計函數(shù);設(shè)定參數(shù):經(jīng)驗池容量N、最大訓(xùn)練迭代步數(shù)M、折扣率γ、學(xué)習(xí)率α、Adam 函數(shù)參數(shù)β1 和β2、Q 網(wǎng)絡(luò)參數(shù)Φ、對照Q 網(wǎng)絡(luò)參數(shù)Φ′、更新間隔C、貪婪概率ε、修剪參數(shù)k、狀態(tài)訪問次數(shù)ns、動作狀態(tài)訪問次數(shù)nsa。

    步驟3 有ε概率輸出隨機動作;否則,判斷是否首次訪問節(jié)點,即ns(s)=0。若是,則輸出當前q值最高動作,ai=argamax(q[a]);若不是,則輸出k個節(jié)點中qUCB值最大的動作,ai=argamax(qUCB[a])。

    步驟4 執(zhí)行步驟3中選擇的動作,環(huán)境依據(jù)動作給予式(5)和式(6)的即時獎勵ri,并更新得到新的環(huán)境狀態(tài)xi+1。

    步驟5 更新經(jīng)驗池和決策樹。當經(jīng)驗池飽和時,從經(jīng)驗池的最底端進行新的數(shù)據(jù)替換。

    步驟6 從經(jīng)驗池中隨機采樣并代入式(9)計算損失函數(shù)梯度下降訓(xùn)練Q網(wǎng)絡(luò),每隔C步更新對照Q網(wǎng)絡(luò)參數(shù)。

    步驟7 判斷是否符合訓(xùn)練終止條件,進入步驟8;否則,返回步驟3。

    步驟8 輸出結(jié)果。

    改進的DQN框架示意圖詳見圖3。

    圖3 基于UCT改進動作選擇的DQN框架示意圖Fig.3 Framework schematic diagram of DQN method for improved policy decision-making based on UCT

    4 實驗分析

    4.1 實驗參數(shù)敏感度分析和選擇

    本文選取的實驗參數(shù)敏感度測試數(shù)據(jù)集來自Augerat[32]1995 年提出的Set A 數(shù)據(jù)測試集中的An32-k5 號數(shù)據(jù)集。該數(shù)據(jù)集共有31 個需求點、載具裝載限制為100、載具數(shù)量限制為5 輛,車場坐標、服務(wù)點坐標和需求量如表2 所示,其中序號1為起終點,其余為需求點。

    表2 實驗參數(shù)敏感度測試環(huán)境信息Tab.2 Environmental information for sensitivity testing of experimental parameters

    依據(jù)上述數(shù)據(jù),本文在gym 中創(chuàng)建了一個100*100 的網(wǎng)格作為本文方法參數(shù)敏感性實驗的虛擬環(huán)境,將數(shù)據(jù)集數(shù)據(jù)映射到虛擬環(huán)境中。

    為測試本文方法在不同參數(shù)下的表現(xiàn)以便選擇較優(yōu)的參數(shù)進行最終的實例求解,本文對深度Q網(wǎng)絡(luò)中敏感度較高、能夠顯著影響訓(xùn)練效果的參數(shù)(經(jīng)驗池容量N、UCT 修剪數(shù)、對照動作價值網(wǎng)絡(luò)更新間隔C、折扣率γ和學(xué)習(xí)率α)進行敏感性分析。其中,經(jīng)驗池容量N、UCT 修剪數(shù)、對照動作價值網(wǎng)絡(luò)更新間隔C并未對算法收斂和累計獎勵結(jié)果變化造成顯著的影響,因此本文對變化較為顯著的折扣率γ和學(xué)習(xí)率α進行詳細分析。

    為更好地展示算法訓(xùn)練效果和變化情況,本文通過把每100 個訓(xùn)練匯合所得獎勵求平均的方式將10 000 次迭代等效處理為100 個趨勢點用于累計獎勵變化趨勢圖的繪制。

    4.1.1 折扣率的分析與選擇

    在其他參數(shù)不變的情況下,分別對折扣率γ取0.7、0.9 和0.99 的情況進行模擬,迭代10 000 次后累計獎勵值變化趨勢如圖4所示。

    圖4 不同折扣率下累計獎勵隨迭代次數(shù)變化情況示意圖Fig.4 Variation in rewards with number of iterations under different γ

    由圖4 可得,折扣率γ的調(diào)整顯著影響了累計獎勵的變化與收斂情況。γ取較大值0.99 時,由于對以往經(jīng)驗過于關(guān)注,導(dǎo)致最終累計獎勵值未能更好地趨近最優(yōu)值;而當γ為0.7 時,過小的折扣率導(dǎo)致未能很好地學(xué)習(xí)過去較好的動作選擇,最終未在設(shè)定迭代步數(shù)內(nèi)完成收斂。

    4.1.2 學(xué)習(xí)率的分析與選擇

    在其他參數(shù)不變的情況下,分別對學(xué)習(xí)率α取0.005、0.05 和0.001 的情況進行模擬,迭代10 000次后累計獎勵值變化趨勢如圖5所示。

    圖5 不同學(xué)習(xí)率下累計獎勵隨迭代次數(shù)變化情況示意圖Fig.5 Variation in rewards with number of iterations under different α

    由圖5 看出,學(xué)習(xí)率α的調(diào)整影響了累計獎勵的收斂速度和穩(wěn)定性。α取0.05 和0.005 時,由于學(xué)習(xí)率過大導(dǎo)致較快出現(xiàn)收斂趨勢,但未能學(xué)習(xí)到最優(yōu)策略導(dǎo)致后續(xù)逐步出現(xiàn)震蕩;當α取值為0.001時,累計獎勵平穩(wěn)上升并有較好的收斂性。

    4.2 實驗環(huán)境設(shè)置

    為了更好地與其他深度強化學(xué)習(xí)方法進行對比,本文在文獻[12]定義的車輛路徑問題環(huán)境下進行實驗,該環(huán)境自提出以來被用于測試國內(nèi)外各類深度強化學(xué)習(xí)方法[12-20,22,23,25,26]在車輛路徑問題場景下的性能。實驗假設(shè)節(jié)點位置和需求是從固定分布隨機生成的,具體來說,客戶和車場位置是從1×1的單位方格中隨機生成的,每個節(jié)點的需求在[0,10]中隨機選擇。此處為模擬真實需求,遵循了文獻[13]的設(shè)定將需求值定義為離散的正整數(shù)。針對智能體行為設(shè)置,本文假設(shè)車輛在時間0時位于車場,在每次交互過程中,車輛從客戶節(jié)點或倉庫中進行選擇,以便下一步訪問,直至所有節(jié)點訪問結(jié)束,返回車場。

    本文將分別對比20、50、100 三個問題規(guī)模下的CVRP 問題,以下分別簡稱為CVRP-20、CVRP-50 和CVRP-100,相應(yīng)規(guī)模下的額定載重分別為30、40 和50。通過在每個數(shù)據(jù)規(guī)模下隨機生成1 000個實例,并且每個實例只使用一次,通過計算平均成本對比實驗結(jié)果。

    基于上述實驗設(shè)置本文在Intel(R) Core(TM)i7-4720HQCPU@2.60 GHz、RAM 16.0 GB電腦上使用Python 語言,采用Tensorflow 框架在Jupyter Notebook中實現(xiàn)設(shè)計的基于UCT改進動作選擇的DQN 算法。在參數(shù)敏感性分析的基礎(chǔ)上,實驗參數(shù)設(shè)置如表3所示。

    表3 實驗參數(shù)設(shè)置Tab.3 Experimental parameter settings

    4.3 方法有效性分析

    為反映UCT-DQN 的學(xué)習(xí)過程和收斂情況并直觀地與RP-DQN[16]進行對比,本文將各數(shù)據(jù)規(guī)模上兩種方法的獎勵及優(yōu)化目標變化情況進行了繪制,如圖6所示。其中,優(yōu)化目標依據(jù)公式(1)為車輛行駛總距離的成本,成本越低,實驗效果越優(yōu)。同時,為加強實驗結(jié)果的可讀性,本文通過每20步取平均值的方式對獎勵和優(yōu)化目標值進行了平滑處理。

    由圖6可以看出,兩者都是標準的深度強化學(xué)習(xí)曲線。智能體獲取的獎勵值曲線波動上升,說明智能體根據(jù)學(xué)習(xí)情況,逐步調(diào)整動作選擇策略。訓(xùn)練初期由于Q值的估計準確性較低導(dǎo)致曲線波動較大,隨著訓(xùn)練次數(shù)的增加,逐步學(xué)習(xí)到了較好的策略,波動逐步趨于穩(wěn)定,說明兩種深度強化學(xué)習(xí)方法均具有較好的收斂性和準確性。

    圖6 各規(guī)模環(huán)境獎勵及優(yōu)化目標隨訓(xùn)練過程變化情況示意圖Fig.6 Variation in rewards and optimization objectives with training process in various environments

    對比兩種方法,在CVRP-20 中,由于實驗規(guī)模較小,兩種方法均較快地探索到較好的解決方案,并 很 快 收 斂;在CVRP-50 和CVRP-100 中,RPDQN 方法雖較快呈現(xiàn)出收斂趨勢,但由于探索局限和過估計問題,過分依賴已探索的動作策略,導(dǎo)致最終收斂的值尚有一定的提升空間。本文的UCT-DQN 方法,雖收斂趨勢較為緩慢,但在三個問題規(guī)模中最終都獲得了較高的獎勵和較低的成本。通過統(tǒng)計分析,本文方法在CVRP-20、CVRP-50 和CVRP-100 三個規(guī)模中的平均成本分別為6.24、10.80 和16.23,對比RP-DQN 方法分別提升了1.89%、1.10% 和2.17%,取得了較好的實驗結(jié)果。

    本文所提方法對比RP-DQN 方法雖收斂時間較長,但實際應(yīng)用環(huán)境下,依托GPU 服務(wù)器、高性能計算機或超算平臺等,本文的方法可以快速輸出較高質(zhì)量的可行解或作為優(yōu)秀的初始解用于啟發(fā)式算法、求解器等。

    將本文方法所得結(jié)果進一步與專業(yè)求解器OR Tools、Gurobi、LKH3、啟發(fā)式算法節(jié)約里程法CW、掃描算法SW 以及其他“端到端”的深度強化學(xué)習(xí)方法結(jié)果進行對比,結(jié)果整理如表4所示。其中,本文以每個數(shù)據(jù)規(guī)模下的最優(yōu)結(jié)果為基線,對比其他方法和求解器與其的成本偏差,偏差率值越小,方法所得結(jié)果越優(yōu)。

    由表4 可以看出,本文所提方法在CVRP-20中平均成本僅高于求解器Gurbi、LKH3 以及文獻[17]的SOLO 的在線學(xué)習(xí)方法,與上述三種方法相比,本方法的耗時較短,能夠一定程度上提升運算效率;在CVRP-50 問題中,實驗結(jié)果略遜于LKH3以及文獻[15]的AM-D方法;在CVRP-100問題中,實驗結(jié)果相比LKH3 求解器有3.71%的成本誤差,但優(yōu)于其他所有“端到端”的深度強化學(xué)習(xí)和啟發(fā)式算法。實驗結(jié)果顯示,在充分訓(xùn)練的基礎(chǔ)上,隨著問題規(guī)模的擴大,本文所提方法性能優(yōu)勢逐步顯示,且相比LKH3 求解器雖有較小誤差,但能較好地提升求解效率,說明該方法有較好的應(yīng)用前景。

    表4 實驗結(jié)果對比Tab.4 Comparison of experimental results

    5 結(jié)束語

    本文提出一種基于UCT算法改進動作選擇方式的DQN 方法。所提出的深度強化學(xué)習(xí)方法用于車輛路徑規(guī)劃場景,通過智能體與虛擬環(huán)境交互獲得獎勵尋求行駛距離最短的動作組合策略,“端到端”解決了考慮車輛裝載限制約束的車輛路徑問題。實驗結(jié)果表明,本方法能夠得出與專業(yè)求解器質(zhì)量相當?shù)慕?。所提算法在充分?xùn)練的基礎(chǔ)上,能切實提高車輛路徑問題的求解效率,未來在實際應(yīng)用領(lǐng)域更具可行性。下一步工作,將考慮群智感知環(huán)境下DQN 的可信演化問題,結(jié)合企業(yè)實際進一步驗證模型的場景實用性;同時,將本文方法運用在其他約束條件或更大規(guī)模的車輛路徑問題也是本文的下一步工作之一。

    猜你喜歡
    深度車輛動作
    深度理解一元一次方程
    深度觀察
    深度觀察
    深度觀察
    車輛
    小太陽畫報(2018年3期)2018-05-14 17:19:26
    動作描寫要具體
    畫動作
    動作描寫不可少
    冬天路滑 遠離車輛
    車輛出沒,請注意
    国产免费又黄又爽又色| 国产黄色视频一区二区在线观看 | 国产男人的电影天堂91| 人人妻人人澡人人爽人人夜夜 | 欧美性猛交╳xxx乱大交人| 亚洲真实伦在线观看| 国产伦在线观看视频一区| 岛国在线免费视频观看| 国产三级中文精品| 亚洲欧美日韩东京热| 直男gayav资源| 狠狠狠狠99中文字幕| 色综合亚洲欧美另类图片| 亚洲第一区二区三区不卡| 成人一区二区视频在线观看| 欧美3d第一页| 精品久久久久久久末码| eeuss影院久久| 亚洲国产高清在线一区二区三| 中文在线观看免费www的网站| 观看美女的网站| 国产 一区精品| 女人久久www免费人成看片 | 蜜臀久久99精品久久宅男| 国产精品99久久久久久久久| 中文字幕制服av| 国产精品久久视频播放| 99热网站在线观看| 欧美区成人在线视频| av在线老鸭窝| 国产精品久久久久久精品电影小说 | 亚洲乱码一区二区免费版| 免费观看精品视频网站| 简卡轻食公司| 听说在线观看完整版免费高清| 色综合亚洲欧美另类图片| 高清视频免费观看一区二区 | 国产乱来视频区| 99久国产av精品国产电影| 亚洲怡红院男人天堂| 99视频精品全部免费 在线| 久久久a久久爽久久v久久| 极品教师在线视频| 久久精品夜色国产| 一个人免费在线观看电影| 精品久久久久久电影网 | av国产久精品久网站免费入址| 久久精品影院6| 大香蕉久久网| 特大巨黑吊av在线直播| 69av精品久久久久久| a级毛片免费高清观看在线播放| 国产黄a三级三级三级人| 精品人妻偷拍中文字幕| 国产精品.久久久| 看片在线看免费视频| 一本一本综合久久| 听说在线观看完整版免费高清| 床上黄色一级片| 一级黄色大片毛片| 国产精品一区二区三区四区免费观看| 亚洲精华国产精华液的使用体验| 国产一区有黄有色的免费视频 | 日日撸夜夜添| 国内少妇人妻偷人精品xxx网站| 国产精品乱码一区二三区的特点| 一级毛片aaaaaa免费看小| 欧美一级a爱片免费观看看| 狂野欧美白嫩少妇大欣赏| 免费播放大片免费观看视频在线观看 | 精品久久久久久久久久久久久| 三级毛片av免费| or卡值多少钱| 菩萨蛮人人尽说江南好唐韦庄 | 精品午夜福利在线看| 国产乱人视频| 亚洲精华国产精华液的使用体验| 国产 一区 欧美 日韩| 一本一本综合久久| 男女国产视频网站| eeuss影院久久| 1000部很黄的大片| 成人高潮视频无遮挡免费网站| 国产精品麻豆人妻色哟哟久久 | 国产精品熟女久久久久浪| 国产精品女同一区二区软件| 色吧在线观看| 亚洲成人精品中文字幕电影| 精品国产一区二区三区久久久樱花 | 亚洲国产精品专区欧美| 亚洲精品乱码久久久久久按摩| 天天一区二区日本电影三级| 一级毛片aaaaaa免费看小| 亚洲欧美日韩高清专用| 最近中文字幕高清免费大全6| 高清av免费在线| 亚洲国产欧洲综合997久久,| 插逼视频在线观看| 国产在视频线在精品| 欧美xxxx性猛交bbbb| 亚洲欧美中文字幕日韩二区| 亚洲国产色片| 午夜福利在线观看吧| 综合色av麻豆| 嫩草影院精品99| 男女国产视频网站| 国产亚洲午夜精品一区二区久久 | 免费观看性生交大片5| 成人三级黄色视频| av播播在线观看一区| 国产爱豆传媒在线观看| 看黄色毛片网站| 亚洲国产精品国产精品| 建设人人有责人人尽责人人享有的 | 尾随美女入室| 可以在线观看毛片的网站| 中文字幕制服av| 国产精品一二三区在线看| 禁无遮挡网站| 丝袜美腿在线中文| 免费看美女性在线毛片视频| 日韩强制内射视频| 国产精品一区二区三区四区久久| .国产精品久久| 成人欧美大片| 国产成人精品一,二区| 精品久久久噜噜| 久久久久久久国产电影| 国产精华一区二区三区| 免费观看人在逋| 国产国拍精品亚洲av在线观看| 国产高清国产精品国产三级 | 国产老妇女一区| 精品国内亚洲2022精品成人| 亚洲不卡免费看| 久久久国产成人免费| 国产精品熟女久久久久浪| 日韩av在线大香蕉| 高清av免费在线| av免费在线看不卡| 男人舔女人下体高潮全视频| 波多野结衣高清无吗| 寂寞人妻少妇视频99o| 在线观看66精品国产| 日本熟妇午夜| 看黄色毛片网站| 国产一区有黄有色的免费视频 | 偷拍熟女少妇极品色| 亚洲欧洲日产国产| 国产一区亚洲一区在线观看| 99久久精品热视频| 亚洲精品成人久久久久久| 午夜福利在线在线| 1000部很黄的大片| 高清午夜精品一区二区三区| 欧美激情久久久久久爽电影| av在线亚洲专区| 国产在线男女| 国产综合懂色| 国产大屁股一区二区在线视频| 国产免费又黄又爽又色| 精品国内亚洲2022精品成人| 国产v大片淫在线免费观看| 三级毛片av免费| 国产精品嫩草影院av在线观看| 国产精华一区二区三区| 能在线免费观看的黄片| 精品无人区乱码1区二区| 99在线视频只有这里精品首页| 亚洲av熟女| 最后的刺客免费高清国语| 国产老妇伦熟女老妇高清| 午夜爱爱视频在线播放| 男人的好看免费观看在线视频| 97在线视频观看| 免费电影在线观看免费观看| 午夜a级毛片| 国产私拍福利视频在线观看| 精品久久久久久久久av| 99在线人妻在线中文字幕| 2021天堂中文幕一二区在线观| 国产午夜精品久久久久久一区二区三区| 日本五十路高清| 1000部很黄的大片| 男的添女的下面高潮视频| 中文欧美无线码| 我的女老师完整版在线观看| 国产国拍精品亚洲av在线观看| av又黄又爽大尺度在线免费看 | or卡值多少钱| 一边亲一边摸免费视频| 亚洲欧洲日产国产| 欧美性感艳星| 男女视频在线观看网站免费| 丰满少妇做爰视频| 两个人视频免费观看高清| 最近视频中文字幕2019在线8| 97在线视频观看| 观看美女的网站| 欧美变态另类bdsm刘玥| 亚洲av成人精品一区久久| 啦啦啦韩国在线观看视频| 成人一区二区视频在线观看| 波多野结衣巨乳人妻| 亚洲无线观看免费| 欧美激情久久久久久爽电影| 国语自产精品视频在线第100页| 免费看光身美女| 三级男女做爰猛烈吃奶摸视频| 国产午夜福利久久久久久| 精品酒店卫生间| 久久久久久久久久久免费av| 国产精品1区2区在线观看.| 国产精品一区二区在线观看99 | 久久精品夜色国产| 99热这里只有是精品在线观看| 久久久久性生活片| 成人二区视频| 欧美成人免费av一区二区三区| 欧美成人免费av一区二区三区| 免费黄网站久久成人精品| 欧美高清性xxxxhd video| av黄色大香蕉| 国产成人a区在线观看| 成人综合一区亚洲| 国产精品一区二区在线观看99 | 国产中年淑女户外野战色| 人妻系列 视频| 男人狂女人下面高潮的视频| 国产在线一区二区三区精 | 国产一级毛片七仙女欲春2| 又粗又爽又猛毛片免费看| 网址你懂的国产日韩在线| 精品熟女少妇av免费看| 日本黄色视频三级网站网址| 国产av在哪里看| 亚洲av.av天堂| 一级二级三级毛片免费看| 岛国在线免费视频观看| 欧美成人一区二区免费高清观看| 免费黄色在线免费观看| 99久久成人亚洲精品观看| 亚洲欧美成人精品一区二区| 国产伦在线观看视频一区| 亚洲最大成人中文| 天天一区二区日本电影三级| 欧美激情国产日韩精品一区| 插逼视频在线观看| 免费观看a级毛片全部| 亚洲国产欧洲综合997久久,| 欧美一区二区国产精品久久精品| 欧美性感艳星| 天天躁日日操中文字幕| 国产精品嫩草影院av在线观看| 女的被弄到高潮叫床怎么办| 国产又黄又爽又无遮挡在线| 中文字幕av在线有码专区| 色网站视频免费| 亚洲成人精品中文字幕电影| av又黄又爽大尺度在线免费看 | 国产高清有码在线观看视频| 最近手机中文字幕大全| 国产精品国产三级国产专区5o | 自拍偷自拍亚洲精品老妇| 我的女老师完整版在线观看| 嫩草影院新地址| 国产片特级美女逼逼视频| 欧美3d第一页| 国产一级毛片在线| 日本一本二区三区精品| 欧美高清成人免费视频www| 成人亚洲欧美一区二区av| 亚洲自拍偷在线| 97人妻精品一区二区三区麻豆| 九九久久精品国产亚洲av麻豆| 亚洲国产欧美在线一区| av在线天堂中文字幕| 成人无遮挡网站| 秋霞在线观看毛片| 中文字幕人妻熟人妻熟丝袜美| 亚洲成av人片在线播放无| 国产高清不卡午夜福利| 永久网站在线| www日本黄色视频网| 久久婷婷人人爽人人干人人爱| 免费不卡的大黄色大毛片视频在线观看 | 国产午夜精品一二区理论片| 99久久九九国产精品国产免费| 日本-黄色视频高清免费观看| 国产极品天堂在线| 成人国产麻豆网| 国产成人福利小说| 日日摸夜夜添夜夜爱| 久久久国产成人免费| 嘟嘟电影网在线观看| 99热这里只有是精品50| 久久亚洲国产成人精品v| 成人亚洲欧美一区二区av| 亚洲精品日韩在线中文字幕| 最新中文字幕久久久久| 精品久久久久久久久av| 欧美性猛交黑人性爽| 国产高清国产精品国产三级 | 亚洲国产精品成人综合色| 国内精品宾馆在线| 晚上一个人看的免费电影| 青春草视频在线免费观看| 久久久久国产网址| 国产亚洲5aaaaa淫片| 麻豆国产97在线/欧美| 18禁在线无遮挡免费观看视频| 国产单亲对白刺激| 最近最新中文字幕大全电影3| 国产精品不卡视频一区二区| 网址你懂的国产日韩在线| 自拍偷自拍亚洲精品老妇| 精品久久国产蜜桃| 日韩亚洲欧美综合| av在线老鸭窝| 亚洲国产日韩欧美精品在线观看| 精品酒店卫生间| 蜜臀久久99精品久久宅男| 久久久久久大精品| 午夜爱爱视频在线播放| 国产淫语在线视频| 人体艺术视频欧美日本| 日本午夜av视频| 亚洲自偷自拍三级| 免费大片18禁| 在线免费十八禁| 国产大屁股一区二区在线视频| 成年av动漫网址| 高清视频免费观看一区二区 | 免费av不卡在线播放| 国产精品福利在线免费观看| 国产精品一及| 少妇裸体淫交视频免费看高清| 国产麻豆成人av免费视频| 观看免费一级毛片| av天堂中文字幕网| 国产 一区精品| 少妇的逼好多水| 午夜福利视频1000在线观看| 亚洲图色成人| 亚洲国产日韩欧美精品在线观看| 日本黄色视频三级网站网址| www日本黄色视频网| 中文字幕熟女人妻在线| 久久久久九九精品影院| 韩国av在线不卡| 成人午夜精彩视频在线观看| 两个人的视频大全免费| 色噜噜av男人的天堂激情| 一级二级三级毛片免费看| 亚洲精品国产av成人精品| 亚洲av电影不卡..在线观看| 搞女人的毛片| 91av网一区二区| 深爱激情五月婷婷| 男人的好看免费观看在线视频| 如何舔出高潮| 午夜免费男女啪啪视频观看| 全区人妻精品视频| 男女下面进入的视频免费午夜| 久久综合国产亚洲精品| 秋霞在线观看毛片| 欧美变态另类bdsm刘玥| 日韩欧美 国产精品| 日韩三级伦理在线观看| 能在线免费看毛片的网站| 午夜精品国产一区二区电影 | 亚洲成色77777| 日本与韩国留学比较| 国产精品三级大全| 日本欧美国产在线视频| 欧美成人午夜免费资源| 高清视频免费观看一区二区 | 全区人妻精品视频| 午夜a级毛片| 国产精品女同一区二区软件| 国产成人aa在线观看| 亚洲在线自拍视频| 熟女电影av网| 九九久久精品国产亚洲av麻豆| 99国产精品一区二区蜜桃av| 精品久久久久久成人av| 国产伦在线观看视频一区| 2022亚洲国产成人精品| 一个人免费在线观看电影| 欧美丝袜亚洲另类| 欧美+日韩+精品| 神马国产精品三级电影在线观看| 爱豆传媒免费全集在线观看| 美女内射精品一级片tv| 亚洲美女搞黄在线观看| 国产精品一区二区在线观看99 | 成人亚洲欧美一区二区av| 3wmmmm亚洲av在线观看| 99国产精品一区二区蜜桃av| 国产精品久久电影中文字幕| 色网站视频免费| 亚洲一级一片aⅴ在线观看| 亚洲五月天丁香| 男人狂女人下面高潮的视频| 搞女人的毛片| 国产精品福利在线免费观看| 久久精品综合一区二区三区| 桃色一区二区三区在线观看| 亚洲av中文字字幕乱码综合| 国产爱豆传媒在线观看| 久久久精品欧美日韩精品| 女人被狂操c到高潮| www.av在线官网国产| 亚洲av成人精品一二三区| 91久久精品国产一区二区成人| 亚洲av不卡在线观看| 白带黄色成豆腐渣| 男女边吃奶边做爰视频| 午夜爱爱视频在线播放| av在线亚洲专区| 免费观看a级毛片全部| 亚洲五月天丁香| 日韩视频在线欧美| 中文欧美无线码| 国产精品久久视频播放| av在线老鸭窝| 纵有疾风起免费观看全集完整版 | 99视频精品全部免费 在线| 精品午夜福利在线看| 最近2019中文字幕mv第一页| 亚洲精华国产精华液的使用体验| 日本五十路高清| av在线播放精品| 99久久成人亚洲精品观看| 国产精品1区2区在线观看.| 99热网站在线观看| 少妇猛男粗大的猛烈进出视频 | 国产成人精品一,二区| 精品熟女少妇av免费看| 亚洲av免费在线观看| 亚洲va在线va天堂va国产| 久久人妻av系列| 亚洲电影在线观看av| 最近最新中文字幕免费大全7| 日本一二三区视频观看| 国产成人精品一,二区| 中文亚洲av片在线观看爽| 亚洲伊人久久精品综合 | 精品久久久久久久末码| 美女被艹到高潮喷水动态| 午夜福利在线在线| 亚洲婷婷狠狠爱综合网| av在线老鸭窝| 边亲边吃奶的免费视频| 床上黄色一级片| 99热全是精品| 国产成人freesex在线| 久久婷婷人人爽人人干人人爱| 欧美成人a在线观看| 最近最新中文字幕大全电影3| 国产精品麻豆人妻色哟哟久久 | 国产91av在线免费观看| 亚洲成人av在线免费| 床上黄色一级片| 特大巨黑吊av在线直播| 中文亚洲av片在线观看爽| 国产精品三级大全| 国产v大片淫在线免费观看| 在线天堂最新版资源| 国产成人福利小说| 国产单亲对白刺激| av天堂中文字幕网| 长腿黑丝高跟| 男人狂女人下面高潮的视频| 免费观看在线日韩| 日本免费a在线| 久久久久久久亚洲中文字幕| 亚洲乱码一区二区免费版| 亚洲欧美清纯卡通| 中国美白少妇内射xxxbb| 久久这里只有精品中国| 在线免费十八禁| 两性午夜刺激爽爽歪歪视频在线观看| 我的女老师完整版在线观看| 午夜激情福利司机影院| 亚洲成人av在线免费| 91久久精品国产一区二区三区| 嘟嘟电影网在线观看| 身体一侧抽搐| 岛国在线免费视频观看| 国产欧美日韩精品一区二区| 色噜噜av男人的天堂激情| 大香蕉97超碰在线| 91狼人影院| 99久久中文字幕三级久久日本| 秋霞在线观看毛片| 波野结衣二区三区在线| 少妇的逼好多水| 91精品国产九色| 男的添女的下面高潮视频| 一个人观看的视频www高清免费观看| 极品教师在线视频| 色网站视频免费| 国产精品爽爽va在线观看网站| 久久精品夜色国产| 国产伦一二天堂av在线观看| 我的女老师完整版在线观看| 少妇人妻精品综合一区二区| 成人午夜高清在线视频| 免费看日本二区| 国内少妇人妻偷人精品xxx网站| 亚洲国产最新在线播放| 亚洲性久久影院| 美女国产视频在线观看| 精品无人区乱码1区二区| av天堂中文字幕网| 嫩草影院精品99| 观看免费一级毛片| 深夜a级毛片| 99在线视频只有这里精品首页| 久久鲁丝午夜福利片| 亚洲内射少妇av| 一卡2卡三卡四卡精品乱码亚洲| 91久久精品电影网| 免费搜索国产男女视频| 国产激情偷乱视频一区二区| 久久久久久伊人网av| 日韩一区二区三区影片| 永久网站在线| 69人妻影院| 啦啦啦观看免费观看视频高清| 97人妻精品一区二区三区麻豆| 亚洲av免费高清在线观看| 久久精品国产亚洲av涩爱| 亚洲国产欧美在线一区| 特大巨黑吊av在线直播| 91久久精品电影网| 少妇猛男粗大的猛烈进出视频 | 久久久久精品久久久久真实原创| 人妻少妇偷人精品九色| 免费无遮挡裸体视频| 欧美性猛交黑人性爽| 久久精品国产鲁丝片午夜精品| 午夜a级毛片| 男人和女人高潮做爰伦理| 亚洲最大成人中文| 亚洲欧洲日产国产| 尤物成人国产欧美一区二区三区| 日本与韩国留学比较| 亚洲国产精品成人久久小说| 亚洲最大成人中文| 成年女人永久免费观看视频| 又爽又黄a免费视频| 97人妻精品一区二区三区麻豆| 三级毛片av免费| 亚洲av日韩在线播放| 丰满少妇做爰视频| 九草在线视频观看| 久久精品综合一区二区三区| 99久久人妻综合| 国产精品国产三级专区第一集| 国产亚洲av嫩草精品影院| 国产白丝娇喘喷水9色精品| 一级毛片久久久久久久久女| 成人午夜精彩视频在线观看| 国产成人精品婷婷| 国产免费又黄又爽又色| 最近最新中文字幕免费大全7| 内地一区二区视频在线| 人人妻人人澡欧美一区二区| 欧美色视频一区免费| 夫妻性生交免费视频一级片| 成人午夜高清在线视频| 尾随美女入室| 欧美性猛交黑人性爽| 联通29元200g的流量卡| 99久久中文字幕三级久久日本| 午夜福利成人在线免费观看| 神马国产精品三级电影在线观看| 亚洲av免费高清在线观看| 成年版毛片免费区| 激情 狠狠 欧美| 精品国内亚洲2022精品成人| 国产精品一及| av黄色大香蕉| 99久久精品热视频| 九九爱精品视频在线观看| av国产免费在线观看| 久久久国产成人精品二区| 黄片无遮挡物在线观看| 美女高潮的动态| 国产免费一级a男人的天堂| 成人无遮挡网站| av福利片在线观看| 精品免费久久久久久久清纯| 赤兔流量卡办理| 国产成人精品婷婷| 国产色爽女视频免费观看| 亚洲综合色惰| 亚洲国产精品久久男人天堂| 久久精品国产自在天天线| 国产单亲对白刺激| 亚洲精品乱码久久久久久按摩| 国产真实乱freesex| 麻豆久久精品国产亚洲av| 免费观看的影片在线观看| 精品不卡国产一区二区三区| av国产久精品久网站免费入址| 一个人看的www免费观看视频| 亚洲av熟女| 国产精品一区二区三区四区免费观看| 欧美一区二区亚洲| 亚洲精华国产精华液的使用体验| 成年女人永久免费观看视频| 一级毛片aaaaaa免费看小|