• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制①

    2022-11-06 06:06:18禹鑫燚杜丹楓歐林林
    高技術(shù)通訊 2022年8期
    關(guān)鍵詞:隊(duì)形編隊(duì)障礙物

    禹鑫燚 杜丹楓 歐林林

    (浙江工業(yè)大學(xué)信息工程學(xué)院 杭州310023)

    0 引言

    多智能體系統(tǒng)在軍事、衛(wèi)星群協(xié)同控制、無(wú)人機(jī)編隊(duì)控制等方面都有廣闊的應(yīng)用前景[1-3],因此得到了各界學(xué)者的廣泛關(guān)注[4]。其優(yōu)點(diǎn)在于利用多個(gè)智能體協(xié)作完成單個(gè)智能體無(wú)法完成的復(fù)雜任務(wù)。多智能體的編隊(duì)一直是多智能體系統(tǒng)的研究熱點(diǎn)[5-6],它要求智能體以特定的幾何形狀形成集群或者以期望的隊(duì)形完成特定的任務(wù)。如何使多智能體系統(tǒng)在避開(kāi)障礙物的同時(shí)保持隊(duì)形,是多智能體編隊(duì)控制的關(guān)鍵問(wèn)題。

    已有的編隊(duì)控制方法有領(lǐng)航跟隨法[7]、虛擬結(jié)構(gòu)法[8]、基于行為法[9]和基于圖論法[10]等。文獻(xiàn)[11]研究了一種基于視覺(jué)的領(lǐng)航跟隨跟蹤策略。文獻(xiàn)[12]設(shè)計(jì)了一種基于虛擬結(jié)構(gòu)的避障方法,為每個(gè)機(jī)器人生成基本軌跡。文獻(xiàn)[13]基于圖論提出了一種新穎的自適應(yīng)編隊(duì)控制方法,用于解決非線性多智能體系統(tǒng)的編隊(duì)控制問(wèn)題。雖然多智能體編隊(duì)控制已經(jīng)取得了一系列的研究成果,但是在面對(duì)復(fù)雜環(huán)境或者動(dòng)態(tài)環(huán)境時(shí)適應(yīng)能力不足。在不確定環(huán)境中,多智能體編隊(duì)的避障不夠靈活,智能體之間的碰撞避免以及智能體與障礙物的碰撞避免,給多智能體編隊(duì)避障控制帶來(lái)了挑戰(zhàn)。

    深度強(qiáng)化學(xué)習(xí)[14-16]可以不依賴環(huán)境模型,適用于未知環(huán)境中的決策控制問(wèn)題。同時(shí)由于深度強(qiáng)化學(xué)習(xí)擁有強(qiáng)大的感知和學(xué)習(xí)能力[17-18],在多智能體領(lǐng)域已經(jīng)取得了較為成功的應(yīng)用[19-22]?;趶?qiáng)化學(xué)習(xí)的多智能體編隊(duì)控制具有傳統(tǒng)編隊(duì)方法所不具備的優(yōu)點(diǎn),可以在不斷的試錯(cuò)中進(jìn)行學(xué)習(xí)來(lái)解決編隊(duì)避障控制問(wèn)題。目前已有諸多學(xué)者將深度強(qiáng)化學(xué)習(xí)與傳統(tǒng)編隊(duì)控制相結(jié)合,并且取得了較好的成果。針對(duì)動(dòng)力學(xué)未知的非線性多智能體編隊(duì)控制,文獻(xiàn)[23]提出了結(jié)合模糊邏輯系統(tǒng)和強(qiáng)化學(xué)習(xí)的優(yōu)化控制方案來(lái)實(shí)現(xiàn)編隊(duì)控制。文獻(xiàn)[24]提出了一種基于深度學(xué)習(xí)的無(wú)人機(jī)編隊(duì)協(xié)調(diào)控制算法,使得無(wú)人機(jī)能夠在大規(guī)模復(fù)雜環(huán)境中形成特定隊(duì)形并執(zhí)行導(dǎo)航任務(wù)??紤]到編隊(duì)過(guò)程中的碰撞避免問(wèn)題,文獻(xiàn)[25,26]使用深度強(qiáng)化學(xué)習(xí)方法優(yōu)化領(lǐng)航跟隨算法,實(shí)現(xiàn)了多智能體的編隊(duì)避障控制。文獻(xiàn)[27]將基于行為的控制方法和深度強(qiáng)化學(xué)習(xí)相結(jié)合,使編隊(duì)可以在保持隊(duì)形的同時(shí)避開(kāi)障礙物。為了進(jìn)一步提高編隊(duì)避障的成功率,文獻(xiàn)[28]和[29]利用深度強(qiáng)化學(xué)習(xí)強(qiáng)大的學(xué)習(xí)能力,訓(xùn)練了一種多智能體編隊(duì)避障策略,有效降低了智能體之間的碰撞概率。文獻(xiàn)[30]將深度學(xué)習(xí)方法與傳統(tǒng)碰撞回避算法相結(jié)合,在編隊(duì)的過(guò)程中,采用長(zhǎng)短期記憶來(lái)感知任意數(shù)量的障礙物信息,并設(shè)計(jì)了復(fù)合獎(jiǎng)勵(lì)函數(shù)來(lái)提高編隊(duì)避障的成功率。上述文獻(xiàn)基于深度強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)了多智能體的編隊(duì)避障控制,并且在不同方面做出了優(yōu)化,但是對(duì)于多個(gè)智能體的學(xué)習(xí)過(guò)程長(zhǎng)、學(xué)習(xí)速率慢的問(wèn)題,目前研究還不夠深入。

    為進(jìn)一步縮短編隊(duì)過(guò)程中智能體的學(xué)習(xí)時(shí)間,并且加快智能體學(xué)習(xí)效率,本文提出了一種不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制方法。首先,在智能體學(xué)習(xí)的初始階段,建立了價(jià)值評(píng)估網(wǎng)絡(luò),增加智能體選擇觸碰障礙物或者到達(dá)期望位置這些特殊動(dòng)作的經(jīng)驗(yàn)。其次,在智能體選擇動(dòng)作時(shí),基于貪心策略,改進(jìn)動(dòng)作選擇策略,提高了算法的學(xué)習(xí)效率。然后設(shè)計(jì)了樣本存儲(chǔ)空間,增加樣本的利用率。最終,結(jié)合多步學(xué)習(xí)算法,使價(jià)值估計(jì)更準(zhǔn)確。通過(guò)本文提出的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制方法,智能體可以在不確定環(huán)境中通過(guò)學(xué)習(xí)完成編隊(duì)避障任務(wù)。為驗(yàn)證本文方法在不確定環(huán)境下的有效性,本文設(shè)置了不同的障礙物環(huán)境進(jìn)行仿真實(shí)驗(yàn)。仿真結(jié)果表明本文所提算法能夠使多個(gè)智能體在不確定環(huán)境下較好地實(shí)現(xiàn)編隊(duì)避障任務(wù)。

    1 問(wèn)題描述

    本文所要解決的主要問(wèn)題是確定每個(gè)智能體的最優(yōu)控制策略,使得智能體到達(dá)各自的期望位置形成隊(duì)形,并且能在維持隊(duì)形不變的情況下有效避開(kāi)障礙物。假設(shè)存在N(N≥2) 個(gè)智能體隨機(jī)分布在二維空間內(nèi),每個(gè)智能體對(duì)應(yīng)著不同的期望位置。在多智能體編隊(duì)過(guò)程中,位置坐標(biāo)表示智能體i的狀態(tài),并且朝著期望位置Gi(i=1,2,…,N) 運(yùn)動(dòng),同時(shí)智能體互相之間不發(fā)生碰撞并且能有效避開(kāi)障礙物。智能體i在運(yùn)動(dòng)過(guò)程中有5 種可能的動(dòng)作可供選擇,即動(dòng)作集合Ai(s) 為{前,后,左,右,保持原地}。

    將上述多智能體編隊(duì)避障控制問(wèn)題表述為強(qiáng)化學(xué)習(xí)問(wèn)題。在不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制問(wèn)題中,對(duì)于每個(gè)智能體,st和at分別表示t時(shí)刻的狀態(tài)和動(dòng)作。智能體i的位置坐標(biāo)為pt,i=速度為,期望位置的坐標(biāo)為可觀測(cè)的智能體狀態(tài)為st,i其中g(shù)t,i表示智能體是否到達(dá)期望位置。獎(jiǎng)勵(lì)值函數(shù)的設(shè)計(jì)為R=[rO,rG,rF],其中rO表示智能體觸碰障礙物的獎(jiǎng)勵(lì)值,rG表示智能體到達(dá)目標(biāo)位置的獎(jiǎng)勵(lì)值,rF表示多個(gè)智能體保持隊(duì)形的獎(jiǎng)勵(lì)值。如果目標(biāo)編隊(duì)完成,即智能體到達(dá)相應(yīng)的目標(biāo)位置時(shí),會(huì)獲得正向的獎(jiǎng)勵(lì)值,而智能體觸碰障礙物或者智能體隊(duì)形被破壞則會(huì)得到負(fù)向的懲罰。根據(jù)上述定義,本文使用一個(gè)五元組<I,S,Ai(s),P,{ri}>來(lái)表示多智能體編隊(duì)避障控制過(guò)程,其中,I為有限個(gè)智能體的集合;S為每個(gè)智能體可觀測(cè)狀態(tài)的集合;Ai(s) 為第i個(gè)智能體在狀態(tài)s∈S下可以選擇的動(dòng)作集合;P為狀態(tài)轉(zhuǎn)移函數(shù),是指給定智能體在當(dāng)前狀態(tài)和聯(lián)合行為時(shí),下一狀態(tài)的概率分布;{ri} 表示多個(gè)智能體在采取不同動(dòng)作之后的獎(jiǎng)勵(lì)值的集合。多個(gè)智能體在s狀態(tài)下的聯(lián)合動(dòng)作可以表示為A(s)=A1(s)×A2(s)×A3(s)…×AN(s)。在學(xué)習(xí)過(guò)程中,每個(gè)智能體與環(huán)境不斷進(jìn)行交互,獲取智能體自身的狀態(tài)信息。多個(gè)智能體的狀態(tài)信息組合成聯(lián)合狀態(tài)輸入到神經(jīng)網(wǎng)絡(luò),智能體根據(jù)動(dòng)作選擇策略選取自身的動(dòng)作,獲得下一時(shí)刻的狀態(tài)和獎(jiǎng)勵(lì)值函數(shù)值。智能體與環(huán)境交互產(chǎn)生的數(shù)據(jù)元組{st,i,at,i,rt+1,i,st+1,i}被存儲(chǔ)到經(jīng)驗(yàn)池中。在每一回合,從經(jīng)驗(yàn)池中進(jìn)行采樣學(xué)習(xí),最終智能體通過(guò)學(xué)習(xí)確定最優(yōu)控制策略π,為隊(duì)形保持和碰撞避免選擇最優(yōu)動(dòng)作。當(dāng)智能體執(zhí)行策略π時(shí),可以最大化智能體的獎(jiǎng)勵(lì)總和Ri,其中γ是折扣因子,t表示時(shí)間,T是終止時(shí)間。

    2 不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制方法

    將多智能體編隊(duì)避障控制問(wèn)題抽象為強(qiáng)化學(xué)習(xí)過(guò)程,目的是通過(guò)學(xué)習(xí)得到最優(yōu)策略,使智能體在保持隊(duì)形的同時(shí)避免碰撞并到達(dá)期望位置。本文建立了價(jià)值評(píng)估網(wǎng)絡(luò),改進(jìn)了智能體動(dòng)作選擇策略,設(shè)計(jì)了樣本存儲(chǔ)空間,同時(shí)結(jié)合了多步學(xué)習(xí)算法,提出了不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制方法。

    2.1 獎(jiǎng)勵(lì)值和動(dòng)作選擇策略的設(shè)計(jì)

    獎(jiǎng)勵(lì)函數(shù)的設(shè)計(jì)對(duì)深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制任務(wù)尤為重要。在本文中,智能體互相之間發(fā)生碰撞或者觸碰障礙物以及無(wú)法保持隊(duì)形會(huì)獲得一個(gè)負(fù)的獎(jiǎng)勵(lì)值,智能體到達(dá)各自的期望位置則會(huì)獲得一個(gè)正的獎(jiǎng)勵(lì)值,其他時(shí)刻獎(jiǎng)勵(lì)值為0。

    其中rcrash是智能體之間發(fā)生碰撞或者觸碰到障礙物的獎(jiǎng)勵(lì)值;rreach是智能體到達(dá)期望位置的獎(jiǎng)勵(lì)值;rformation表示多智能體無(wú)法維持隊(duì)形時(shí)的獎(jiǎng)勵(lì)值。

    合理而有效的動(dòng)作選擇策略設(shè)計(jì)可以減少學(xué)習(xí)的時(shí)間。將貪心策略用于動(dòng)作選擇,來(lái)平衡學(xué)習(xí)過(guò)程中的探索與利用,求解出接近真實(shí)的價(jià)值模型。貪心策略定義如下:

    其中μ∈[0,1] 是每個(gè)回合產(chǎn)生的隨機(jī)值,ε是探索速率,是動(dòng)作空間A中的一個(gè)隨機(jī)動(dòng)作。貪心策略可以使每個(gè)智能體有1-ε的概率隨機(jī)選擇動(dòng)作。在訓(xùn)練前期,智能體需要多次探索,以獲取不同的動(dòng)作價(jià)值,避免陷入局部最優(yōu);而經(jīng)過(guò)一段時(shí)間訓(xùn)練之后,智能體逐漸學(xué)習(xí)到最優(yōu)策略,就可直接選擇正確的動(dòng)作,盡可能獲取更多的獎(jiǎng)勵(lì)值。ε的取值隨著迭代次數(shù)的增加而增加,最終值為1。

    當(dāng)智能體選擇動(dòng)作時(shí),在保留一定概率隨機(jī)選擇動(dòng)作的基礎(chǔ)上,對(duì)貪心策略作了改進(jìn)。為了加快智能體在前期的探索效率,本文建立了一個(gè)價(jià)值評(píng)估網(wǎng)絡(luò)使智能體更快地理解環(huán)境。智能體在選擇碰撞或者到達(dá)期望位置等特殊動(dòng)作時(shí),會(huì)產(chǎn)生特殊經(jīng)驗(yàn),價(jià)值評(píng)估網(wǎng)絡(luò)被用來(lái)評(píng)價(jià)選擇的特殊動(dòng)作的價(jià)值。該網(wǎng)絡(luò)E的損失函數(shù)定義為

    價(jià)值評(píng)估網(wǎng)絡(luò)E的訓(xùn)練需在網(wǎng)絡(luò)Q之前完成,然后幫助選擇動(dòng)作。結(jié)合貪心策略,將動(dòng)作選擇策略設(shè)計(jì)為

    式(5)中,e(st,at;) 可以增加智能體特殊經(jīng)驗(yàn)的比例,即在訓(xùn)練前期,鼓勵(lì)智能體選擇下一步的碰撞或者到達(dá)期望位置的動(dòng)作。當(dāng)Q(st,at;θt) 開(kāi)始正確識(shí)別障礙物時(shí),e(st,at;) 可以抑制碰撞,鼓勵(lì)智能體探索更多的位置。

    2.2 樣本存儲(chǔ)空間設(shè)計(jì)

    通過(guò)2.1 節(jié)中的動(dòng)作選擇策略,智能體與環(huán)境進(jìn)行交互產(chǎn)生學(xué)習(xí)樣本,存入樣本存儲(chǔ)空間中。樣本存儲(chǔ)空間具備采樣功能,通過(guò)計(jì)算每個(gè)樣本的時(shí)間差分誤差(temporal difference error,TD-Error),即樣本的估計(jì)值和實(shí)際值之間的差距,將其作為當(dāng)前樣本的采樣權(quán)重。越大的TD-Error 表示樣本的估計(jì)值和實(shí)際值之間的差距越大,樣本越有價(jià)值。智能體編隊(duì)避障控制過(guò)程中的TD-Error 的定義為

    其中,rt+1是t +1 時(shí)刻的獎(jiǎng)勵(lì)值,γ是折扣因子,s和a是智能體的狀態(tài)和動(dòng)作,θt是神經(jīng)網(wǎng)絡(luò)參數(shù)。使用隨機(jī)采樣算法,在以TD-Error 為權(quán)重的采樣和均勻采樣之間進(jìn)行插值。根據(jù)式(6),將樣本i的采樣概率P表示為

    其中pi和pk表示樣本i和k的TD-Error,α可以調(diào)整TD-Error 的權(quán)重。為了在提高樣本利用率的同時(shí)確保不會(huì)有太大的偏差,結(jié)合重要性采樣定理對(duì)原來(lái)的概率計(jì)算增加權(quán)重:

    其中N是存儲(chǔ)的樣本數(shù)量。在整個(gè)訓(xùn)練過(guò)程中,β的初始值為0,并且隨著迭代學(xué)習(xí)的進(jìn)行,線性增長(zhǎng)為1。

    樣本存儲(chǔ)空間的功能可以描述為:當(dāng)智能體通過(guò)動(dòng)作選擇策略與環(huán)境交互產(chǎn)生樣本存入樣本存儲(chǔ)空間時(shí),計(jì)算每個(gè)樣本i的采樣概率P(i);在樣本取出時(shí),以概率P(i) 進(jìn)行采樣;在更新時(shí),為每個(gè)樣本添加權(quán)重ωi,隨著訓(xùn)練的進(jìn)行,β從初始值線性增長(zhǎng)為1。

    2.3 算法設(shè)計(jì)

    本文采用如下的動(dòng)作-值函數(shù)來(lái)估計(jì)所學(xué)到的策略:

    其中E表示期望。式(9)可以遞歸計(jì)算為

    其中r(s,a) 表示在狀態(tài)s執(zhí)行動(dòng)作a的獎(jiǎng)勵(lì)值,s′和a′分別是下一時(shí)刻的狀態(tài)和動(dòng)作,γ是折扣因子,a′~π表示智能體通過(guò)動(dòng)作選擇策略π采取下一步動(dòng)作a′。深度Q 學(xué)習(xí)算法基于時(shí)序差分法的思想,通過(guò)貝爾曼方程進(jìn)行自迭代更新,更新公式為

    深度Q 學(xué)習(xí)算法大多通過(guò)下一時(shí)刻的回報(bào)和價(jià)值估計(jì)得到目標(biāo)價(jià)值,這種方法在前期具有學(xué)習(xí)速度較慢的缺點(diǎn)。為了提高學(xué)習(xí)速度,本文結(jié)合多步學(xué)習(xí)算法,以使訓(xùn)練前期目標(biāo)價(jià)值可以估計(jì)得更準(zhǔn)確,從而加速訓(xùn)練。多步學(xué)習(xí)算法的公式為

    其中,γ是折扣因子,r是獎(jiǎng)勵(lì)值,θt是神經(jīng)網(wǎng)絡(luò)的參數(shù)。結(jié)合式(11)和式(12),值函數(shù)的更新公式為

    其中α是學(xué)習(xí)速率,St是狀態(tài)空間,At是動(dòng)作空間,θt是神經(jīng)網(wǎng)絡(luò)參數(shù)。

    智能體與環(huán)境進(jìn)行交互產(chǎn)生數(shù)據(jù)(s,a,r,s′),使用經(jīng)驗(yàn)回放池來(lái)存儲(chǔ)交互產(chǎn)生的這些數(shù)據(jù),并且通過(guò)最小化損失函數(shù)來(lái)學(xué)習(xí)智能體的最優(yōu)策略。損失函數(shù)的定義為

    其中,Gt是根據(jù)多步學(xué)習(xí)算法得到的實(shí)際值,Q(St,At,θt) 為估計(jì)值,ω是由式(8)得到的權(quán)重。

    根據(jù)獎(jiǎng)勵(lì)值、動(dòng)作選擇策略和樣本存儲(chǔ)空間的設(shè)計(jì),結(jié)合多步學(xué)習(xí)算法,獲得適用于不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制的算法如下。

    (1)初始化容量為N的Replay Buffer:D;

    (2)初始化狀態(tài)行動(dòng)價(jià)值模型Q和參數(shù)θ;初始化Target Network和參數(shù)θ′,價(jià)值評(píng)估網(wǎng)絡(luò)E和參數(shù)θE;初始化t=0 ;初始化batch_size大小為m;初始化多步學(xué)習(xí)算法步數(shù)n;

    (3)初始化環(huán)境得到初始狀態(tài)s1;

    (4)智能體i隨機(jī)選擇動(dòng)作at,i,從D中采樣進(jìn)行訓(xùn)練并計(jì)算yj,i=rj,i,根據(jù)式(3)計(jì)算神經(jīng)網(wǎng)絡(luò)E的損失函數(shù),訓(xùn)練并更新E的參數(shù)

    (5)智能體i以ε的概率選擇一個(gè)動(dòng)作at,i,或者根據(jù)式(5) 選擇當(dāng)前最優(yōu)動(dòng)作at,i=arg maxa∈Aq(st,i,at,i;θt,i)e(st,i,at,i;);(6)智能體i執(zhí)行動(dòng)作at,i,得到新一輪的狀態(tài)st+1,i和獎(jiǎng)勵(lì)值rt+1,i;

    (7)將樣本數(shù)據(jù){st,i,at,i,rt+1,i,st+1,i} 存儲(chǔ)到D中;

    (8)從D中采樣一批樣本進(jìn)行訓(xùn)練,根據(jù)式(12)計(jì)算yj,i的值,當(dāng)st+1,i為最終狀態(tài)時(shí),yj,i=rj,i,否則

    (9) 根據(jù)式(14)計(jì)算損失函數(shù)L(θ)=

    (10)每隔C輪進(jìn)行參數(shù)更新θ′←θt+1;

    (11)如果完成一次迭代訓(xùn)練,返回步驟(3),否則返回步驟(4)。

    在訓(xùn)練過(guò)程中,智能體與環(huán)境不斷進(jìn)行交互,獲取智能體自身的狀態(tài)信息。多個(gè)智能體的狀態(tài)信息組合成聯(lián)合狀態(tài)輸入到神經(jīng)網(wǎng)絡(luò)中,智能體根據(jù)改進(jìn)的動(dòng)作選擇策略選取自身的動(dòng)作,得到下一時(shí)刻的狀態(tài)和獎(jiǎng)勵(lì)函數(shù)值。交互過(guò)程中產(chǎn)生的智能體狀態(tài)-動(dòng)作值被存儲(chǔ)到經(jīng)驗(yàn)池中,在每一回合,從經(jīng)驗(yàn)池中進(jìn)行采樣學(xué)習(xí)。本文提出的算法可以通過(guò)學(xué)習(xí)得到多智能體編隊(duì)避障控制的最優(yōu)策略,使多個(gè)智能體到達(dá)期望位置形成隊(duì)形,并有效進(jìn)行避障。

    3 仿真實(shí)驗(yàn)

    為了驗(yàn)證在不確定環(huán)境下本文提出算法的有效性,在智能體學(xué)習(xí)過(guò)程中添加額外的障礙物。同時(shí),本文針對(duì)2 種不同的障礙物環(huán)境,分別進(jìn)行4 個(gè)智能體和6 個(gè)智能體的編隊(duì)避障控制。智能體通過(guò)迭代學(xué)習(xí)形成期望隊(duì)形,有效避開(kāi)障礙物并到達(dá)期望位置視為一次成功,文中以訓(xùn)練過(guò)程中的成功率為指標(biāo),將本文提出的方法與Double DQN[31]和MADDPG[32]2 種算法進(jìn)行成功率對(duì)比,驗(yàn)證了本文算法的有效性。仿真實(shí)驗(yàn)共進(jìn)行2000 回合的訓(xùn)練。在正式訓(xùn)練前需要進(jìn)行預(yù)訓(xùn)練,用于收集經(jīng)驗(yàn)數(shù)據(jù)以進(jìn)行批次訓(xùn)練。訓(xùn)練過(guò)程中,ε的取值從初始值0.1增長(zhǎng)到1。仿真實(shí)驗(yàn)的參數(shù)設(shè)計(jì)詳見(jiàn)表1。

    在二維空間內(nèi),基礎(chǔ)的動(dòng)作空間只包含{前,后,左,右,保持原地}5 個(gè)動(dòng)作。為了加快學(xué)習(xí)記憶的過(guò)程,本文在水平面內(nèi)將行為空間劃分為8 個(gè)離散的動(dòng)作,使智能體有更多的動(dòng)作選擇。如圖1 所示,本文的動(dòng)作空間包含8 個(gè)方向選擇,A(s)={0°,45°,90°,135°,180°,225°,270°,315°},智能體每次動(dòng)作的步幅是0.2。獎(jiǎng)勵(lì)值的設(shè)定為智能體發(fā)生碰撞時(shí)rcrash=-1,到達(dá)期望位置時(shí)rreach=1,rformation=-1。

    圖1 動(dòng)作空間

    如圖2 所示,在二維空間內(nèi)隨機(jī)生成4 個(gè)智能體的位置,在初始階段,智能體經(jīng)過(guò)訓(xùn)練學(xué)習(xí)形成正四邊形。然后,多個(gè)智能體在保持隊(duì)形不發(fā)生變化的前提下,通過(guò)迭代學(xué)習(xí)尋找到一條最優(yōu)路徑,避開(kāi)障礙物的同時(shí)到達(dá)期望位置。圖中深色正方形區(qū)域?yàn)樵疽汛嬖诘恼系K物,淺色正方形區(qū)域則在智能體學(xué)習(xí)過(guò)程中新加入的障礙物,坐標(biāo)左下角的圓點(diǎn)為智能體,坐標(biāo)右上角的圓點(diǎn)所在位置為各個(gè)智能體的期望位置。由圖2可知,即使在智能體學(xué)習(xí)過(guò)程中增加新的障礙物,多個(gè)智能體也可以通過(guò)本文提出的方法形成期望的隊(duì)形,有效避開(kāi)障礙物并到達(dá)期望位置。

    圖2 不確定環(huán)境下的智能體編隊(duì)避障軌跡

    本文考慮了在更復(fù)雜的環(huán)境下4 個(gè)智能體的編隊(duì)控制問(wèn)題,同時(shí)將智能體編隊(duì)避障的成功率與其他2 種算法進(jìn)行對(duì)比,驗(yàn)證了本文提出算法的有效性。如圖3 所示,圖中正方形為障礙物,坐標(biāo)左下角的圓點(diǎn)為智能體,坐標(biāo)右上角的圓點(diǎn)所在位置為各個(gè)智能體的期望位置。由圖3 可知,本文提出的方法可以使多個(gè)智能體在面對(duì)不同的環(huán)境時(shí)形成期望的隊(duì)形,同時(shí)經(jīng)過(guò)迭代學(xué)習(xí)得到最優(yōu)策略,在有效避開(kāi)障礙物的同時(shí)到達(dá)期望位置。

    圖3 4 個(gè)智能體編隊(duì)避障軌跡

    圖4 表示智能體保持隊(duì)形避障過(guò)程中每個(gè)回合的Q值之和。剛開(kāi)始所有Q值為0,隨著迭代訓(xùn)練的進(jìn)行,根據(jù)獎(jiǎng)勵(lì)值進(jìn)行Q值的更新。由圖4 可知,在訓(xùn)練初期由于ε值小,智能體隨機(jī)選擇動(dòng)作概率大,大概率觸碰障礙物獲得負(fù)向獎(jiǎng)勵(lì)值;在訓(xùn)練中后期,神經(jīng)網(wǎng)絡(luò)對(duì)整個(gè)樣本空間有了相對(duì)全面的采樣,在此基礎(chǔ)上,神經(jīng)網(wǎng)絡(luò)通過(guò)訓(xùn)練不斷對(duì)Q值進(jìn)行泛化,同時(shí)ε值增長(zhǎng),智能體可以根據(jù)經(jīng)驗(yàn)選擇最優(yōu)動(dòng)作,獲得正向獎(jiǎng)勵(lì)值的概率逐漸增大。經(jīng)過(guò)不斷學(xué)習(xí),成功避開(kāi)障礙物到達(dá)期望位置的概率越來(lái)越高。圖5 表示每個(gè)回合智能體的步數(shù)。由圖5 可知,4 個(gè)智能體經(jīng)過(guò)1250 個(gè)回合的學(xué)習(xí),最終學(xué)習(xí)到最優(yōu)策略,尋找到避開(kāi)障礙物到達(dá)期望位置的最短路徑。將所提出的算法與Double DQN 算法和MADDQN算法進(jìn)行了對(duì)比,3 種算法的成功率如圖6所示。由圖6 可知,本文提出的算法最終的成功率更高。

    圖4 智能體學(xué)習(xí)曲線

    圖5 智能體每個(gè)回合的步數(shù)

    圖6 3 種算法的成功率對(duì)比

    本文同時(shí)還考慮了6 個(gè)智能體在不同環(huán)境下的編隊(duì)避障控制,如圖7 所示。圖中坐標(biāo)左下角的圓點(diǎn)為智能體,坐標(biāo)右上角的圓點(diǎn)為各個(gè)智能體的期望位置,塊狀區(qū)域?yàn)檎系K物。智能體通過(guò)迭代學(xué)習(xí)形成正六邊形,并且有效避開(kāi)障礙物到達(dá)期望位置。圖8 為智能體的學(xué)習(xí)曲線,圖9 為智能體每個(gè)回合的步數(shù)。結(jié)合圖8 和圖9 可知,智能體通過(guò)訓(xùn)練學(xué)習(xí),在1100 回合之后獲得最優(yōu)策略,在保持隊(duì)形不發(fā)生變化的前提下,有效避開(kāi)障礙物到達(dá)期望位置。圖1 0 表示6 個(gè)智能體環(huán)境下本文方法與Double DQN 和MADDPG 2 種算法的成功率對(duì)比。由圖10可知,本文方法在多智能體編隊(duì)避障控制問(wèn)題中的成功率更高。

    圖7 6 個(gè)智能體編隊(duì)避障軌跡

    圖8 智能體學(xué)習(xí)曲線

    圖9 智能體每個(gè)回合的步數(shù)

    圖10 3 種算法的成功率對(duì)比

    為了驗(yàn)證在不確定環(huán)境下本文提出算法的有效性,在智能體學(xué)習(xí)過(guò)程中添加額外的障礙物。仿真結(jié)果表明多個(gè)智能體在不確定環(huán)境下能形成特定隊(duì)形避開(kāi)障礙物到達(dá)期望位置。同時(shí),在2 種不同的環(huán)境下,針對(duì)4 個(gè)和6 個(gè)智能體進(jìn)行了仿真實(shí)驗(yàn),并且將所提的方法與Double DQN 和MADDPG 算法進(jìn)行對(duì)比。結(jié)合圖3 和圖7 可知,本文提出的方法面對(duì)不同環(huán)境都能實(shí)現(xiàn)多智能體的編隊(duì)避障控制。多個(gè)智能體通過(guò)迭代學(xué)習(xí)形成期望隊(duì)形,并且有效避開(kāi)障礙物到達(dá)期望位置。由圖6 和圖10 可知,本文提出的方法在前期能更快地獲取成功的經(jīng)驗(yàn),學(xué)習(xí)速率更快,并且最終的成功率也相對(duì)更高。這表明了本文設(shè)計(jì)的價(jià)值評(píng)估網(wǎng)絡(luò)能幫助智能體更快地取得到達(dá)期望位置的特殊經(jīng)驗(yàn)。

    4 結(jié)論

    針對(duì)復(fù)雜環(huán)境的隨機(jī)性和不確定性,本文提出了一種不確定環(huán)境下的深度強(qiáng)化學(xué)習(xí)編隊(duì)避障控制方法。在該方法中,設(shè)計(jì)了價(jià)值評(píng)估網(wǎng)絡(luò)來(lái)增加編隊(duì)過(guò)程中的智能體選擇觸碰障礙物或者到達(dá)期望位置這些特殊動(dòng)作的經(jīng)驗(yàn),使智能體更快地理解環(huán)境規(guī)則。并且將該價(jià)值評(píng)估網(wǎng)絡(luò)和貪心策略相結(jié)合,對(duì)動(dòng)作選擇策略進(jìn)行改進(jìn),提高算法的學(xué)習(xí)效率。同時(shí),設(shè)計(jì)了樣本存儲(chǔ)空間,增加樣本利用率的同時(shí)提高了模型訓(xùn)練效率。在決策階段,結(jié)合多步學(xué)習(xí)算法使價(jià)值估計(jì)更準(zhǔn)確。通過(guò)仿真實(shí)驗(yàn)驗(yàn)證了本文提出方法的有效性,能在不同的環(huán)境下較好地完成多智能體編隊(duì)任務(wù)。仿真結(jié)果表明本文提出的方法可以適用于各種不確定環(huán)境中。將本文提出的方法和Double DQN 與MADDPG 2 種算法進(jìn)行對(duì)比,結(jié)果表明本文方法收斂速度更快,智能體編隊(duì)避障的成功率更高。

    猜你喜歡
    隊(duì)形編隊(duì)障礙物
    2023年1月25日,美軍一次演習(xí)期間,空軍正在進(jìn)行編隊(duì)飛行
    軍事文摘(2023年5期)2023-03-27 08:56:26
    隊(duì)列隊(duì)形體育教案
    高低翻越
    SelTrac?CBTC系統(tǒng)中非通信障礙物的設(shè)計(jì)和處理
    詩(shī)歌的奇怪隊(duì)形(一)
    基于事件驅(qū)動(dòng)的多飛行器編隊(duì)協(xié)同控制
    無(wú)人機(jī)編隊(duì)機(jī)動(dòng)飛行時(shí)的隊(duì)形保持反饋控制
    基于預(yù)測(cè)控制的無(wú)人機(jī)編隊(duì)內(nèi)部避碰
    多彈編隊(duì)飛行控制技術(shù)研究
    土釘墻在近障礙物的地下車行通道工程中的應(yīng)用
    90打野战视频偷拍视频| 亚洲中文字幕日韩| 亚洲一码二码三码区别大吗| 国内揄拍国产精品人妻在线 | 日本成人三级电影网站| 婷婷丁香在线五月| 美女高潮到喷水免费观看| 久久精品91蜜桃| 国产在线精品亚洲第一网站| 长腿黑丝高跟| av电影中文网址| 精品熟女少妇八av免费久了| 久久精品国产亚洲av香蕉五月| 黄网站色视频无遮挡免费观看| 在线国产一区二区在线| 成人三级做爰电影| 一夜夜www| 亚洲成人精品中文字幕电影| netflix在线观看网站| 桃红色精品国产亚洲av| 久久精品夜夜夜夜夜久久蜜豆 | 夜夜爽天天搞| 欧美性猛交黑人性爽| 亚洲电影在线观看av| 国产aⅴ精品一区二区三区波| av欧美777| 久久久精品国产亚洲av高清涩受| 男女做爰动态图高潮gif福利片| 99re在线观看精品视频| 草草在线视频免费看| 精华霜和精华液先用哪个| 亚洲国产欧美日韩在线播放| 丝袜在线中文字幕| 日韩成人在线观看一区二区三区| 午夜福利一区二区在线看| 中文字幕人妻丝袜一区二区| 亚洲人成77777在线视频| 一边摸一边抽搐一进一小说| 18禁黄网站禁片午夜丰满| 99热6这里只有精品| 亚洲成国产人片在线观看| 中文字幕久久专区| 一本综合久久免费| 亚洲 欧美 日韩 在线 免费| 男人舔奶头视频| 亚洲精品中文字幕在线视频| 一级毛片高清免费大全| 91老司机精品| 精品久久久久久成人av| 亚洲精品国产一区二区精华液| 国产97色在线日韩免费| 麻豆国产av国片精品| 久久香蕉国产精品| 亚洲第一av免费看| 国产精品影院久久| 亚洲五月色婷婷综合| 伦理电影免费视频| 色精品久久人妻99蜜桃| 亚洲精品美女久久av网站| 中文字幕人成人乱码亚洲影| 久久久久久免费高清国产稀缺| 成年版毛片免费区| 国产精品乱码一区二三区的特点| 亚洲人成网站高清观看| 99久久国产精品久久久| 啪啪无遮挡十八禁网站| 淫秽高清视频在线观看| 一级a爱片免费观看的视频| 老司机在亚洲福利影院| 人人妻人人看人人澡| 国产精品 欧美亚洲| 性色av乱码一区二区三区2| 欧美av亚洲av综合av国产av| 国产成人欧美| 日韩免费av在线播放| 久久香蕉精品热| 热re99久久国产66热| 午夜福利成人在线免费观看| 午夜精品在线福利| 女生性感内裤真人,穿戴方法视频| 啦啦啦免费观看视频1| 妹子高潮喷水视频| 国语自产精品视频在线第100页| 超碰成人久久| 色播在线永久视频| 看黄色毛片网站| 麻豆国产av国片精品| 女生性感内裤真人,穿戴方法视频| 国产精品久久久人人做人人爽| 午夜两性在线视频| 我的亚洲天堂| 成人亚洲精品av一区二区| 久99久视频精品免费| 最近最新免费中文字幕在线| 日日干狠狠操夜夜爽| 国产亚洲精品久久久久5区| 老汉色av国产亚洲站长工具| 成人国产一区最新在线观看| 国产精品国产高清国产av| 精品一区二区三区av网在线观看| 中国美女看黄片| 国产精品av久久久久免费| 亚洲,欧美精品.| 精品国产一区二区三区四区第35| 国产真人三级小视频在线观看| 国产精品综合久久久久久久免费| 在线十欧美十亚洲十日本专区| 亚洲在线自拍视频| 亚洲欧美激情综合另类| 这个男人来自地球电影免费观看| 日本一本二区三区精品| 国产精品香港三级国产av潘金莲| 色尼玛亚洲综合影院| 精品无人区乱码1区二区| 精品久久久久久久人妻蜜臀av| 国产v大片淫在线免费观看| 日本在线视频免费播放| 欧美绝顶高潮抽搐喷水| 国产乱人伦免费视频| 男人舔奶头视频| 国产av一区二区精品久久| 亚洲七黄色美女视频| 欧美性猛交╳xxx乱大交人| bbb黄色大片| svipshipincom国产片| 免费在线观看视频国产中文字幕亚洲| av天堂在线播放| 丝袜人妻中文字幕| 久久午夜综合久久蜜桃| 午夜视频精品福利| 亚洲人成77777在线视频| 国产成人一区二区三区免费视频网站| 国产亚洲精品av在线| 亚洲美女黄片视频| 大型av网站在线播放| 校园春色视频在线观看| 成人国产综合亚洲| 久久狼人影院| 久久午夜亚洲精品久久| 中文资源天堂在线| 午夜福利一区二区在线看| 亚洲精品久久国产高清桃花| 免费在线观看日本一区| 亚洲美女黄片视频| 日韩大码丰满熟妇| 亚洲av片天天在线观看| 91成人精品电影| 性色av乱码一区二区三区2| 亚洲第一欧美日韩一区二区三区| 色婷婷久久久亚洲欧美| 岛国视频午夜一区免费看| 久久久国产成人免费| 成人精品一区二区免费| 亚洲欧美日韩无卡精品| 中国美女看黄片| 国产在线精品亚洲第一网站| 国产精品久久久久久亚洲av鲁大| 亚洲黑人精品在线| 黄片播放在线免费| 久久人人精品亚洲av| 黄色视频,在线免费观看| 首页视频小说图片口味搜索| 黑人巨大精品欧美一区二区mp4| 99精品欧美一区二区三区四区| 麻豆成人午夜福利视频| 欧美性长视频在线观看| 88av欧美| 首页视频小说图片口味搜索| 精品国产超薄肉色丝袜足j| 亚洲中文av在线| 国产区一区二久久| 一边摸一边做爽爽视频免费| 久久久久久大精品| 日本在线视频免费播放| 神马国产精品三级电影在线观看 | 国产单亲对白刺激| 久久精品91蜜桃| 美女高潮到喷水免费观看| av片东京热男人的天堂| 国产视频一区二区在线看| 天堂√8在线中文| 精品无人区乱码1区二区| 老司机深夜福利视频在线观看| 一区福利在线观看| 亚洲一卡2卡3卡4卡5卡精品中文| 老司机深夜福利视频在线观看| 国产免费av片在线观看野外av| 精品欧美国产一区二区三| 亚洲午夜理论影院| 精品国产美女av久久久久小说| 后天国语完整版免费观看| 亚洲中文日韩欧美视频| 国产免费av片在线观看野外av| 麻豆国产av国片精品| 久久精品国产综合久久久| 男人舔女人下体高潮全视频| 久9热在线精品视频| 99久久99久久久精品蜜桃| 亚洲电影在线观看av| 国产欧美日韩一区二区三| 久久精品91无色码中文字幕| 国产精品 欧美亚洲| 亚洲精品在线美女| 亚洲精品中文字幕一二三四区| 国产高清videossex| 亚洲成人久久性| 99国产综合亚洲精品| 欧洲精品卡2卡3卡4卡5卡区| 成人国产一区最新在线观看| 99riav亚洲国产免费| 精品久久久久久久人妻蜜臀av| 亚洲自拍偷在线| 一边摸一边抽搐一进一小说| 亚洲av成人一区二区三| 久久精品国产清高在天天线| 久久久久久亚洲精品国产蜜桃av| 亚洲一区二区三区色噜噜| 久久中文字幕人妻熟女| 最近最新中文字幕大全电影3 | 最近最新免费中文字幕在线| 精品国产国语对白av| 日韩欧美一区视频在线观看| 久久久精品国产亚洲av高清涩受| 女同久久另类99精品国产91| 欧美日韩亚洲综合一区二区三区_| 欧美国产日韩亚洲一区| 欧美日本亚洲视频在线播放| 欧美乱妇无乱码| 国产熟女xx| 国产av一区二区精品久久| 国产极品粉嫩免费观看在线| 精品不卡国产一区二区三区| 日本a在线网址| 黄片播放在线免费| 久久亚洲精品不卡| 欧美色欧美亚洲另类二区| 一二三四在线观看免费中文在| АⅤ资源中文在线天堂| 精品久久久久久久久久久久久 | 午夜福利视频1000在线观看| 天天一区二区日本电影三级| 90打野战视频偷拍视频| 欧美久久黑人一区二区| 欧美在线黄色| 热99re8久久精品国产| 天天一区二区日本电影三级| 亚洲av美国av| 法律面前人人平等表现在哪些方面| 国产高清视频在线播放一区| 中国美女看黄片| 久久精品国产综合久久久| 91麻豆精品激情在线观看国产| 女警被强在线播放| 亚洲精品一卡2卡三卡4卡5卡| 成人亚洲精品一区在线观看| 人人澡人人妻人| 波多野结衣av一区二区av| 午夜福利视频1000在线观看| 777久久人妻少妇嫩草av网站| 琪琪午夜伦伦电影理论片6080| 色尼玛亚洲综合影院| 婷婷精品国产亚洲av在线| 视频在线观看一区二区三区| 757午夜福利合集在线观看| 长腿黑丝高跟| 国产又黄又爽又无遮挡在线| 99re在线观看精品视频| 天天添夜夜摸| 禁无遮挡网站| 欧美久久黑人一区二区| 国产高清激情床上av| 三级毛片av免费| 侵犯人妻中文字幕一二三四区| 亚洲人成77777在线视频| 欧美大码av| 国产亚洲精品第一综合不卡| 日韩av在线大香蕉| 波多野结衣巨乳人妻| 在线永久观看黄色视频| 很黄的视频免费| 亚洲中文字幕日韩| 老鸭窝网址在线观看| 男男h啪啪无遮挡| 丰满的人妻完整版| 特大巨黑吊av在线直播 | 人妻久久中文字幕网| 亚洲 国产 在线| 日韩大码丰满熟妇| 婷婷精品国产亚洲av| a级毛片a级免费在线| 男女那种视频在线观看| 久久精品aⅴ一区二区三区四区| 中文字幕精品亚洲无线码一区 | av超薄肉色丝袜交足视频| 亚洲午夜理论影院| 欧美日韩中文字幕国产精品一区二区三区| 亚洲人成网站高清观看| 黄色女人牲交| 亚洲无线在线观看| 他把我摸到了高潮在线观看| 黑人巨大精品欧美一区二区mp4| www日本在线高清视频| 国产熟女xx| 国产精品1区2区在线观看.| 搞女人的毛片| 国产精品国产高清国产av| 日本五十路高清| 久久性视频一级片| 又紧又爽又黄一区二区| 一级片免费观看大全| 久久久久免费精品人妻一区二区 | 国产成人一区二区三区免费视频网站| 日韩欧美 国产精品| 高清毛片免费观看视频网站| 国产精品99久久99久久久不卡| 叶爱在线成人免费视频播放| netflix在线观看网站| 日本精品一区二区三区蜜桃| 亚洲天堂国产精品一区在线| 一区二区日韩欧美中文字幕| 99热这里只有精品一区 | 欧美绝顶高潮抽搐喷水| 俄罗斯特黄特色一大片| 国产亚洲精品av在线| 国产三级黄色录像| 99精品在免费线老司机午夜| 亚洲成av片中文字幕在线观看| www.熟女人妻精品国产| 欧美黑人精品巨大| 色av中文字幕| 国产又爽黄色视频| 欧美一级毛片孕妇| 天天躁狠狠躁夜夜躁狠狠躁| av片东京热男人的天堂| 女人高潮潮喷娇喘18禁视频| 热99re8久久精品国产| 亚洲成人久久性| 91国产中文字幕| 久热爱精品视频在线9| 18禁美女被吸乳视频| 精品卡一卡二卡四卡免费| 天堂√8在线中文| 欧美久久黑人一区二区| 欧美黑人欧美精品刺激| 九色国产91popny在线| 欧美黑人精品巨大| 色尼玛亚洲综合影院| 久久狼人影院| 国产成人啪精品午夜网站| 啦啦啦免费观看视频1| av片东京热男人的天堂| 亚洲美女黄片视频| 国产视频内射| 2021天堂中文幕一二区在线观 | 国内少妇人妻偷人精品xxx网站 | 国产成年人精品一区二区| 亚洲人成电影免费在线| 国产99白浆流出| 一区二区三区精品91| 亚洲av五月六月丁香网| 免费搜索国产男女视频| 一级a爱视频在线免费观看| 亚洲黑人精品在线| 日本成人三级电影网站| www.www免费av| 侵犯人妻中文字幕一二三四区| 久久精品91无色码中文字幕| 夜夜看夜夜爽夜夜摸| av超薄肉色丝袜交足视频| 欧美日本视频| 丰满的人妻完整版| 久久这里只有精品19| 91字幕亚洲| 美女 人体艺术 gogo| 亚洲av成人不卡在线观看播放网| 97超级碰碰碰精品色视频在线观看| 日本五十路高清| 国产区一区二久久| 日韩 欧美 亚洲 中文字幕| 老司机福利观看| 日韩精品免费视频一区二区三区| 国产亚洲欧美精品永久| 精品国产美女av久久久久小说| 久久久久精品国产欧美久久久| 香蕉av资源在线| 天堂影院成人在线观看| 99热只有精品国产| 国产99久久九九免费精品| 日韩三级视频一区二区三区| 人人妻人人看人人澡| 亚洲av电影在线进入| 国产成人精品久久二区二区免费| 少妇裸体淫交视频免费看高清 | 身体一侧抽搐| 在线观看免费午夜福利视频| 日本五十路高清| 国产精品亚洲av一区麻豆| 亚洲欧美日韩无卡精品| 午夜久久久在线观看| 久久精品国产亚洲av香蕉五月| 午夜久久久在线观看| 丰满的人妻完整版| 亚洲欧美日韩高清在线视频| 欧美性猛交黑人性爽| 色播在线永久视频| 亚洲精品中文字幕一二三四区| 日韩精品中文字幕看吧| 午夜福利在线观看吧| 日韩中文字幕欧美一区二区| av福利片在线| 女人高潮潮喷娇喘18禁视频| 一卡2卡三卡四卡精品乱码亚洲| 国产精品香港三级国产av潘金莲| 精品久久久久久久久久久久久 | 亚洲第一电影网av| 波多野结衣高清作品| 人妻丰满熟妇av一区二区三区| 19禁男女啪啪无遮挡网站| 色播在线永久视频| 狠狠狠狠99中文字幕| 婷婷精品国产亚洲av| 久久久久九九精品影院| 午夜视频精品福利| 成人国语在线视频| 国产av一区二区精品久久| 精品第一国产精品| 亚洲国产欧洲综合997久久, | 最近最新中文字幕大全免费视频| 黑人巨大精品欧美一区二区mp4| 欧美乱妇无乱码| 男人舔女人的私密视频| 成年女人毛片免费观看观看9| 日韩精品免费视频一区二区三区| 日本一本二区三区精品| 亚洲国产欧洲综合997久久, | 黄色视频不卡| 国产在线精品亚洲第一网站| 99热只有精品国产| 麻豆成人午夜福利视频| 亚洲男人的天堂狠狠| 一级片免费观看大全| 老汉色av国产亚洲站长工具| 午夜免费鲁丝| 亚洲av美国av| 在线播放国产精品三级| 男女下面进入的视频免费午夜 | 成人一区二区视频在线观看| 一区二区日韩欧美中文字幕| 在线播放国产精品三级| 欧美午夜高清在线| 国产精品 欧美亚洲| 婷婷六月久久综合丁香| 午夜福利成人在线免费观看| 久久国产精品男人的天堂亚洲| 老司机午夜福利在线观看视频| 999久久久国产精品视频| 18禁黄网站禁片午夜丰满| 日本免费一区二区三区高清不卡| 国产色视频综合| 精品少妇一区二区三区视频日本电影| 久久久久久久精品吃奶| 欧美日韩瑟瑟在线播放| 久久中文字幕人妻熟女| 亚洲中文日韩欧美视频| 哪里可以看免费的av片| 成年免费大片在线观看| 波多野结衣高清无吗| 午夜福利视频1000在线观看| 久久香蕉精品热| 日韩av在线大香蕉| 不卡av一区二区三区| 叶爱在线成人免费视频播放| 9191精品国产免费久久| 亚洲熟妇熟女久久| 国产激情久久老熟女| 亚洲国产看品久久| 亚洲成国产人片在线观看| 婷婷精品国产亚洲av在线| 免费在线观看亚洲国产| 亚洲精品一区av在线观看| av视频在线观看入口| 欧美性长视频在线观看| 国产精品av久久久久免费| 欧洲精品卡2卡3卡4卡5卡区| 午夜a级毛片| 亚洲国产中文字幕在线视频| 欧美在线黄色| 亚洲第一欧美日韩一区二区三区| 2021天堂中文幕一二区在线观 | 777久久人妻少妇嫩草av网站| 亚洲黑人精品在线| 婷婷精品国产亚洲av| a在线观看视频网站| 动漫黄色视频在线观看| 国产亚洲av嫩草精品影院| 久久婷婷成人综合色麻豆| 无人区码免费观看不卡| 亚洲一区二区三区色噜噜| 好男人在线观看高清免费视频 | 好男人在线观看高清免费视频 | 一区二区三区精品91| 999精品在线视频| tocl精华| 亚洲成人久久性| tocl精华| 少妇粗大呻吟视频| 可以在线观看的亚洲视频| 亚洲国产欧美日韩在线播放| 99riav亚洲国产免费| 午夜激情av网站| 亚洲精品久久国产高清桃花| 国产精品一区二区精品视频观看| 一个人观看的视频www高清免费观看 | 精品久久久久久久人妻蜜臀av| 女生性感内裤真人,穿戴方法视频| 成人欧美大片| 淫秽高清视频在线观看| 精品卡一卡二卡四卡免费| 成在线人永久免费视频| 国产亚洲精品一区二区www| 成在线人永久免费视频| 一本综合久久免费| 18禁美女被吸乳视频| 成人国产综合亚洲| 欧美黑人巨大hd| 精品不卡国产一区二区三区| 给我免费播放毛片高清在线观看| 激情在线观看视频在线高清| 99国产精品一区二区蜜桃av| 精品久久久久久久人妻蜜臀av| 淫秽高清视频在线观看| 美国免费a级毛片| 日本a在线网址| 999精品在线视频| 国产v大片淫在线免费观看| 亚洲久久久国产精品| 不卡av一区二区三区| 真人一进一出gif抽搐免费| 成人三级黄色视频| 怎么达到女性高潮| 日日干狠狠操夜夜爽| 国产成人欧美| 99久久综合精品五月天人人| 男女床上黄色一级片免费看| 天天一区二区日本电影三级| 男人操女人黄网站| 在线观看一区二区三区| 中文字幕av电影在线播放| 国产精品久久久久久人妻精品电影| 丝袜在线中文字幕| 亚洲欧美精品综合久久99| 波多野结衣高清作品| www日本在线高清视频| 99精品久久久久人妻精品| 丁香欧美五月| 一级毛片精品| 母亲3免费完整高清在线观看| 12—13女人毛片做爰片一| 精品欧美一区二区三区在线| 亚洲精品粉嫩美女一区| av免费在线观看网站| 欧美色欧美亚洲另类二区| 在线免费观看的www视频| 国产亚洲精品综合一区在线观看 | 中文字幕最新亚洲高清| 久久中文看片网| 人人澡人人妻人| 成在线人永久免费视频| 成年版毛片免费区| 免费观看人在逋| 精品国产乱子伦一区二区三区| 18禁国产床啪视频网站| 人妻丰满熟妇av一区二区三区| 日本黄色视频三级网站网址| 精品无人区乱码1区二区| 日本 av在线| 国产精品电影一区二区三区| 欧美性猛交╳xxx乱大交人| 亚洲午夜精品一区,二区,三区| 午夜福利在线观看吧| 黄色 视频免费看| 亚洲成a人片在线一区二区| 亚洲片人在线观看| 91大片在线观看| or卡值多少钱| 99国产精品一区二区三区| 中亚洲国语对白在线视频| 国产午夜福利久久久久久| 国产精华一区二区三区| 亚洲 欧美 日韩 在线 免费| 一级作爱视频免费观看| 久久久久久九九精品二区国产 | 欧美人与性动交α欧美精品济南到| 人人妻,人人澡人人爽秒播| 中出人妻视频一区二区| 欧美午夜高清在线| 国产激情偷乱视频一区二区| 黑丝袜美女国产一区| 老熟妇乱子伦视频在线观看| www.www免费av| 好男人电影高清在线观看| 可以免费在线观看a视频的电影网站| 久久99热这里只有精品18| 成人一区二区视频在线观看| 国产亚洲精品久久久久5区| 日本成人三级电影网站| 国产精品美女特级片免费视频播放器 | 久久久久国内视频| 黄色 视频免费看| 女人被狂操c到高潮| 亚洲激情在线av| 看片在线看免费视频| 中文字幕另类日韩欧美亚洲嫩草| 国产乱人伦免费视频| 麻豆成人午夜福利视频|