• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于優(yōu)勢(shì)后見(jiàn)經(jīng)驗(yàn)回放的強(qiáng)化學(xué)習(xí)導(dǎo)航方法

    2024-01-18 13:58:06王少桐況立群韓慧妍熊風(fēng)光薛紅新
    計(jì)算機(jī)工程 2024年1期
    關(guān)鍵詞:經(jīng)驗(yàn)智能環(huán)境

    王少桐,況立群,韓慧妍,熊風(fēng)光,薛紅新

    (中北大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,山西 太原 030051)

    0 引言

    機(jī)器人的應(yīng)用領(lǐng)域已經(jīng)涉及人們生活的方方面面,精準(zhǔn)的導(dǎo)航是移動(dòng)機(jī)器人完成任務(wù)的必要條件[1]。目前已經(jīng)有許多傳統(tǒng)算法用于移動(dòng)機(jī)器人導(dǎo)航,傳統(tǒng)導(dǎo)航算法大多是基于環(huán)境建模方式進(jìn)行規(guī)劃,適應(yīng)環(huán)境變化的能力較低,存在通用性差、功耗高等諸多問(wèn)題。近年來(lái),強(qiáng)化學(xué)習(xí)技術(shù)飛速發(fā)展,人們嘗試將機(jī)器人導(dǎo)航與強(qiáng)化學(xué)習(xí)方法相結(jié)合,改變了傳統(tǒng)路徑規(guī)劃算法先建圖后規(guī)劃的固有任務(wù)模式[2],擺脫了對(duì)模型的限制,使機(jī)器人充分利用周?chē)h(huán)境信息進(jìn)行學(xué)習(xí),自主導(dǎo)航,實(shí)現(xiàn)了端到端的決策過(guò)程[3]。

    雖然強(qiáng)化學(xué)習(xí)方法可有效應(yīng)用于移動(dòng)機(jī)器人導(dǎo)航,但依舊具有一定的局限性,需要預(yù)先進(jìn)行大規(guī)模訓(xùn)練學(xué)習(xí)。很多研究人員通過(guò)改進(jìn)神經(jīng)網(wǎng)絡(luò)來(lái)改變輸入數(shù)據(jù)的方式,以提高智能體導(dǎo)航各方面的性能,使訓(xùn)練有素的智能體更好地進(jìn)行路徑規(guī)劃[4]。文獻(xiàn)[5]使用A3C 算法結(jié)合兩個(gè)循環(huán)神經(jīng)網(wǎng)絡(luò),以輔助任務(wù)的方式讓智能體在一個(gè)迷宮環(huán)境運(yùn)動(dòng),使智能體完成自主尋路,自動(dòng)完成環(huán)境定位。文獻(xiàn)[6]介紹一種用于現(xiàn)實(shí)環(huán)境中視覺(jué)導(dǎo)航的深度強(qiáng)化學(xué)習(xí)方法。通過(guò)輸入視覺(jué)信息,采用PPAC 算法在模擬環(huán)境中進(jìn)行預(yù)訓(xùn)練,并根據(jù)真實(shí)環(huán)境中的圖像數(shù)據(jù)集進(jìn)行微調(diào)。文獻(xiàn)[7]介紹了用單目攝像頭代替2D 激光雷達(dá)作為信息輸入來(lái)源,采用DDQN 算法進(jìn)行自主移動(dòng)機(jī)器人導(dǎo)航。目前強(qiáng)化學(xué)習(xí)在導(dǎo)航方面發(fā)展迅速,但是強(qiáng)化學(xué)習(xí)一直存在樣本利用率低的問(wèn)題[8],通過(guò)提高智能體對(duì)過(guò)去樣本的利用率可以加快智能體的學(xué)習(xí)速度,使智能體更好地進(jìn)行路徑規(guī)劃。

    傳統(tǒng)的DQN 算法采用經(jīng)驗(yàn)回放機(jī)制來(lái)提高智能體對(duì)樣本的利用率,并使用均勻采樣從經(jīng)驗(yàn)池中獲取數(shù)據(jù),但是不能高效利用數(shù)據(jù)[9]。文獻(xiàn)[10]針對(duì)學(xué)習(xí)速度慢以及樣本利用率低的問(wèn)題提出了雙經(jīng)驗(yàn)池回放方法,分別設(shè)置全保留經(jīng)驗(yàn)池和先進(jìn)先出(FIFO)經(jīng)驗(yàn)池,從而加速策略學(xué)習(xí),提高樣本的使用效率。優(yōu)先經(jīng)驗(yàn)回放(PER)算法打破了均勻采樣機(jī)制,賦予學(xué)習(xí)價(jià)值高的經(jīng)驗(yàn)及更大的優(yōu)先級(jí)。根據(jù)優(yōu)先級(jí)從經(jīng)驗(yàn)池中選擇樣本,可以加快學(xué)習(xí)速度,更好地制定最終策略,使經(jīng)驗(yàn)回放更加高效[11],但是由于其時(shí)序差分誤差僅僅是通過(guò)前一步的策略計(jì)算得出,無(wú)法滿足學(xué)習(xí)的時(shí)效性。文獻(xiàn)[12]針對(duì)其缺點(diǎn),提出一種獎(jiǎng)勵(lì)優(yōu)先經(jīng)驗(yàn)回放算法,通過(guò)將獎(jiǎng)勵(lì)映射成權(quán)重,實(shí)現(xiàn)了更頻繁的重放重要經(jīng)驗(yàn),從而提高了樣本的利用效率。文獻(xiàn)[13]基于DDPG 算法提出了復(fù)合優(yōu)先經(jīng)驗(yàn)回放機(jī)制,根據(jù)復(fù)合優(yōu)先級(jí)從經(jīng)驗(yàn)回放池中進(jìn)行采樣,在Gazebo 建模環(huán)境下進(jìn)行導(dǎo)航實(shí)驗(yàn),不僅提高了樣本的利用效率,同時(shí)也克服了單一優(yōu)先級(jí)方法易受到時(shí)序誤差離群值的負(fù)面影響的問(wèn)題。

    后見(jiàn)經(jīng)驗(yàn)回放算法與優(yōu)先經(jīng)驗(yàn)回放算法不同,它通過(guò)提高對(duì)失敗樣本的利用率從而提高全體經(jīng)驗(yàn)樣本的利用率。在強(qiáng)化學(xué)習(xí)中錯(cuò)誤信息通常只是返回一個(gè)負(fù)的獎(jiǎng)勵(lì)值,而犯錯(cuò)時(shí)的其他信息卻沒(méi)有被利用。事實(shí)上,如何使用這些失敗信息是提高強(qiáng)化學(xué)習(xí)算法效率的關(guān)鍵[14]。后見(jiàn)經(jīng)驗(yàn)回放算法通過(guò)對(duì)失敗樣本中的目標(biāo)點(diǎn)進(jìn)行重新標(biāo)記,增加經(jīng)驗(yàn)池中成功樣本的比例,從而提高對(duì)樣本的利用率[15]。但是,傳統(tǒng)后見(jiàn)經(jīng)驗(yàn)回放算法的使用有太多限制條件,更加適用于解決智能體訓(xùn)練時(shí)的稀疏獎(jiǎng)勵(lì)問(wèn)題[16]?;胤潘械氖颖緦?duì)于不同的學(xué)習(xí)階段并非都是同樣有用的,文獻(xiàn)[17]提出基于課程學(xué)習(xí)的后見(jiàn)經(jīng)驗(yàn)回放算法,根據(jù)失敗樣本對(duì)不同學(xué)習(xí)階段的兼容性和有用性自適應(yīng)地選擇失敗樣本進(jìn)行重放。文獻(xiàn)[18]提出一種采樣率衰減策略,該策略隨著訓(xùn)練的進(jìn)行而減少后見(jiàn)經(jīng)驗(yàn)回放的樣本數(shù)量,實(shí)現(xiàn)了更高的訓(xùn)練性能和收斂速度。相對(duì)無(wú)模型算法來(lái)說(shuō),有模型算法對(duì)環(huán)境進(jìn)行建模,擬合環(huán)境的動(dòng)力學(xué)模型,采樣效率較高。文獻(xiàn)[19]提出基于模型的后見(jiàn)經(jīng)驗(yàn)回放算法,利用動(dòng)力學(xué)模型生成虛擬目標(biāo)點(diǎn)進(jìn)行重新標(biāo)記,結(jié)合監(jiān)督學(xué)習(xí)來(lái)提高多目標(biāo)強(qiáng)化學(xué)習(xí)的樣本效率。以上的改進(jìn)方法都是基于稀疏獎(jiǎng)勵(lì)進(jìn)行的,在復(fù)雜的真實(shí)任務(wù)中,獎(jiǎng)勵(lì)是很多復(fù)雜目標(biāo)的組合,無(wú)法直接通過(guò)某些狀態(tài)進(jìn)行回放。

    為了在復(fù)雜獎(jiǎng)勵(lì)下提高智能體導(dǎo)航中的樣本利用率,本文對(duì)傳統(tǒng)后見(jiàn)經(jīng)驗(yàn)回放算法的目標(biāo)點(diǎn)選擇進(jìn)行改進(jìn),提出優(yōu)勢(shì)后見(jiàn)經(jīng)驗(yàn)回放算法。在智能體的軌跡樣本上找出使智能體獲得最大獎(jiǎng)勵(lì)的目標(biāo)點(diǎn),根據(jù)新的目標(biāo)點(diǎn)對(duì)軌跡樣本重新標(biāo)記,同時(shí)對(duì)發(fā)生碰撞的軌跡樣本進(jìn)行負(fù)獎(jiǎng)勵(lì)標(biāo)記,使得智能體能夠更快更準(zhǔn)確地學(xué)習(xí)導(dǎo)航策略。

    1 相關(guān)工作

    1.1 D3QN 算法

    為了解決Q-learning 算法的內(nèi)存開(kāi)銷(xiāo)和時(shí)間問(wèn)題,深度Q 網(wǎng)絡(luò)(DQN)算法[20]將Q-learning 算法與神經(jīng)網(wǎng)絡(luò)相結(jié)合,Q值的估計(jì)采用了神經(jīng)網(wǎng)絡(luò)。當(dāng)采用這種方式近似Q值函數(shù)時(shí),Q值的更新呈現(xiàn)出不穩(wěn)定的學(xué)習(xí)特性,DQN 引入了雙網(wǎng)絡(luò)機(jī)制和經(jīng)驗(yàn)回放機(jī)制來(lái)解決這個(gè)問(wèn)題[21]。

    雙網(wǎng)絡(luò)機(jī)制構(gòu)造兩個(gè)結(jié)構(gòu)完全相同但參數(shù)不同的網(wǎng)絡(luò),主網(wǎng)絡(luò)作為在線網(wǎng)絡(luò),它采用最新的網(wǎng)絡(luò)參數(shù)用來(lái)預(yù)測(cè)Q值。目標(biāo)網(wǎng)絡(luò)用來(lái)預(yù)測(cè)目標(biāo)Q值,采用的是具有一定延遲的舊參數(shù),每個(gè)周期之后,在線網(wǎng)絡(luò)的參數(shù)都會(huì)被拷貝到目標(biāo)網(wǎng)絡(luò)中。引入目標(biāo)網(wǎng)絡(luò)后,在設(shè)定更新參數(shù)延遲的這段時(shí)間內(nèi)具有暫時(shí)性的Q值,可以降低Q值和目標(biāo)Q值之間的關(guān)系,從而增加算法的穩(wěn)定性。

    經(jīng)驗(yàn)回放機(jī)制[22]將智能體與環(huán)境交互中得到的樣本序列儲(chǔ)存在經(jīng)驗(yàn)池中,離線訓(xùn)練時(shí)隨機(jī)采樣Minibatch 的序列樣本更新主網(wǎng)絡(luò)的參數(shù)。在經(jīng)驗(yàn)回放機(jī)制中,為了提高樣本的利用率,重復(fù)使用一個(gè)樣本,同時(shí)在一定程度上破壞了訓(xùn)練數(shù)據(jù)之間的相關(guān)性。該方法的缺點(diǎn)是對(duì)所有樣本數(shù)據(jù)采用均勻隨機(jī)采樣,這樣會(huì)造成收斂速度減慢,而且會(huì)占用更多的計(jì)算資源和內(nèi)存。

    DQN 算法在進(jìn)行策略評(píng)價(jià)和動(dòng)作選取時(shí),都是以目標(biāo)網(wǎng)絡(luò)的參數(shù)為基礎(chǔ),如式(1)所示,這就導(dǎo)致了DQN 算法在迭代學(xué)習(xí)中經(jīng)常會(huì)存在Q值過(guò)高的問(wèn)題。2015 年12 月,Google DeepMind 提出Double DQN[23]用于求解Q值估計(jì)過(guò)高的問(wèn)題,并給出了由兩個(gè)值函數(shù)來(lái)實(shí)現(xiàn)動(dòng)作評(píng)估與選擇,如式(2)所示,通過(guò)當(dāng)前網(wǎng)絡(luò)的參數(shù)選擇最優(yōu)動(dòng)作,并利用目標(biāo)網(wǎng)絡(luò)的參數(shù)對(duì)其進(jìn)行評(píng)價(jià),從而得到更為精確的Q值,以及更為穩(wěn)定、高效的決策。

    在Dueling DQN[24]中,主要是對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行優(yōu)化。Dueling DQN 把Q 網(wǎng)絡(luò)分為2 個(gè)部分:第1 個(gè)部分是與狀態(tài)s有關(guān)、與行為a無(wú)關(guān)的價(jià)值函數(shù)V(s,θ,α),它是對(duì)當(dāng)前狀態(tài)的長(zhǎng)遠(yuǎn)判斷;第2 個(gè)部分是與狀態(tài)s和動(dòng)作a都有關(guān),稱為優(yōu)勢(shì)函數(shù)A(s,a,θ,β),用于估計(jì)當(dāng)前情況下各種行為的相對(duì)優(yōu)劣程度,如式(3)所示:

    D3QN 算法以DQN 算法為基礎(chǔ),加入了Double DQN 和Dueling DQN 的優(yōu)化思想,使智能體學(xué)習(xí)的收斂速度更快、更穩(wěn)定。

    1.2 后見(jiàn)經(jīng)驗(yàn)回放算法

    為了解決智能體訓(xùn)練時(shí)的稀疏獎(jiǎng)勵(lì)或二值獎(jiǎng)勵(lì)問(wèn)題,文獻(xiàn)[25]介紹了后見(jiàn)經(jīng)驗(yàn)回放(HER)算法。該算法可以與任意的off-policy 強(qiáng)化學(xué)習(xí)算法相結(jié)合使用,從稀疏獎(jiǎng)勵(lì)和二值獎(jiǎng)勵(lì)中高效采樣學(xué)習(xí)。

    在獎(jiǎng)勵(lì)稀疏時(shí)可能絕大多數(shù)的探索都是失敗的,HER 的思想是把這些失敗的探索經(jīng)驗(yàn)都利用起來(lái)[26]。比如,智能體的目標(biāo)是A,某一次探索失敗了沒(méi)有到達(dá)A,但是走到B 了。與其認(rèn)為這是一次失敗的探索,不如重新標(biāo)記這條軌跡的目標(biāo)是B,這樣充分地利用了探索過(guò)程中的失敗樣本。

    在off-policy 算法中,利用智能體與周?chē)幕?dòng)來(lái)獲取樣本[27]。在每一個(gè)episode 互動(dòng)過(guò)程中采集到的樣本,以transition 元組的形式存到經(jīng)驗(yàn)回放池中,此時(shí)這條軌跡中的數(shù)據(jù)是基于原始目標(biāo)的。為了充分地利用失敗的樣本,HER 對(duì)失敗的樣本重新進(jìn)行標(biāo)記,選擇新的目標(biāo)點(diǎn),對(duì)這條軌跡進(jìn)行回放。

    后見(jiàn)經(jīng)驗(yàn)回放算法的目標(biāo)選擇可分為4 種:

    1)最終模式:選擇每條軌跡的最后一個(gè)狀態(tài)作為目標(biāo);

    2)未來(lái)模式:選擇同一軌跡的某個(gè)state 之后的隨機(jī)k個(gè)state 作為目標(biāo);

    3)回合模式:在同一軌跡中隨機(jī)采樣k個(gè)state作為目標(biāo),和future 不同的是不需要從某個(gè)state 之后隨機(jī)采樣;

    4)隨機(jī)模式:在整個(gè)訓(xùn)練流程中,從多條軌跡數(shù)據(jù)中采樣k個(gè)state 作為目標(biāo)。

    但是傳統(tǒng)的后見(jiàn)經(jīng)驗(yàn)回放算法的目標(biāo)選擇方式是基于稀疏獎(jiǎng)勵(lì)設(shè)置的訓(xùn)練環(huán)境。在復(fù)雜的獎(jiǎng)勵(lì)組合中,通過(guò)這4 種方式直接選擇的目標(biāo)點(diǎn)帶有隨機(jī)性,無(wú)法判斷是否可以作為合適的目標(biāo)點(diǎn),需要一個(gè)標(biāo)準(zhǔn)來(lái)選擇其作為最終的目標(biāo)點(diǎn)。

    2 算法設(shè)計(jì)

    2.1 優(yōu)勢(shì)后見(jiàn)經(jīng)驗(yàn)回放算法

    后見(jiàn)經(jīng)驗(yàn)回放算法在future 模式下表現(xiàn)得更好,但是在復(fù)雜獎(jiǎng)勵(lì)函數(shù)的情況下,使用future 模式進(jìn)行隨機(jī)采樣來(lái)確定新的目標(biāo)點(diǎn),這條軌跡對(duì)于新的目標(biāo)點(diǎn)往往不是合適的路徑。針對(duì)這個(gè)問(wèn)題,本文提出了優(yōu)勢(shì)后見(jiàn)經(jīng)驗(yàn)回放(AHER)算法,對(duì)新目標(biāo)點(diǎn)的選擇進(jìn)行了改進(jìn)。在復(fù)雜獎(jiǎng)勵(lì)的條件中找到一個(gè)任務(wù)目標(biāo)點(diǎn),這個(gè)目標(biāo)點(diǎn)對(duì)于目前軌跡的獎(jiǎng)勵(lì)最大。本文通過(guò)計(jì)算比較優(yōu)勢(shì)函數(shù)來(lái)選擇這個(gè)目標(biāo)點(diǎn),將擁有最大優(yōu)勢(shì)函數(shù)的目標(biāo)點(diǎn)作為新的目標(biāo)點(diǎn),有效地利用失敗樣本,提高了樣本利用率。目標(biāo)點(diǎn)的優(yōu)勢(shì)函數(shù)計(jì)算方法如式(4)和式(5)所示:

    其中:A(τ,vj)代表在軌跡τ中點(diǎn)vj作為目標(biāo)點(diǎn)時(shí)軌跡的優(yōu)勢(shì)函數(shù);R(τ|vj)代表點(diǎn)vj作為目標(biāo)點(diǎn)時(shí)軌跡總的獎(jiǎng)勵(lì)值;Vπ(S0,vj)代表策略π下的初始狀態(tài)S0的價(jià)值函數(shù);R(vi|vj)代表點(diǎn)vj作為目標(biāo)點(diǎn)時(shí)點(diǎn)vi的獎(jiǎng)勵(lì)值。

    利用式(4)計(jì)算出每個(gè)可以作為新目標(biāo)點(diǎn)的vj的優(yōu)勢(shì)函數(shù),選取最大優(yōu)勢(shì)函數(shù)對(duì)應(yīng)的點(diǎn)作為新的目標(biāo)點(diǎn)。根據(jù)新的目標(biāo)點(diǎn),修改軌跡中新目標(biāo)點(diǎn)之前的每個(gè)transition 元組中的狀態(tài)、下一狀態(tài)和獎(jiǎng)勵(lì),將重新標(biāo)記過(guò)的transition 元組放入經(jīng)驗(yàn)池中。同時(shí),對(duì)發(fā)生撞擊的軌跡樣本進(jìn)行后見(jiàn)經(jīng)驗(yàn)回放,若機(jī)器人發(fā)生撞擊,則撞擊前的幾個(gè)transition 元組都重新計(jì)算獎(jiǎng)勵(lì)值。算法整體框架如圖1 所示,強(qiáng)化學(xué)習(xí)智能體通過(guò)ε-greeedy 策略選擇動(dòng)作,與周?chē)沫h(huán)境進(jìn)行互動(dòng),獲得下一狀態(tài)以及獎(jiǎng)勵(lì),形成transition元組,多個(gè)元組構(gòu)成軌跡樣本;對(duì)軌跡樣本進(jìn)行重新標(biāo)記,將新舊軌跡樣本都存入經(jīng)驗(yàn)池中。在經(jīng)驗(yàn)池中成功樣本的比例增加,智能體選擇批量的經(jīng)驗(yàn)樣本在神經(jīng)網(wǎng)絡(luò)中訓(xùn)練學(xué)習(xí),使智能體做出更好的動(dòng)作選擇。

    2.2 狀態(tài)和動(dòng)作設(shè)計(jì)

    仿真實(shí)驗(yàn)使用TurtleBot3 Burger 機(jī)器人,該機(jī)器人利用360°的激光雷達(dá)對(duì)其周?chē)h(huán)境進(jìn)行探測(cè)。設(shè)定激光雷達(dá)的采樣數(shù)為24 維,機(jī)器人在仿真環(huán)境中狀態(tài)的大小設(shè)計(jì)為28 維,由于引入后見(jiàn)經(jīng)驗(yàn)回放算法,狀態(tài)sstate如式(6)所示:

    其中:sscan_ranges是激光雷達(dá)傳感器返回與周?chē)h(huán)境距離的24 維數(shù)據(jù),表示機(jī)器人目前的周?chē)畔ⅲ籬heading表示機(jī)器人相對(duì)于目標(biāo)點(diǎn)的朝向;ccurrent_distance代表目前機(jī)器人距離目標(biāo)點(diǎn)之間的距離;ggoal指的是目標(biāo)點(diǎn)位置坐標(biāo)。

    使用的算法基于D3QN 算法,現(xiàn)將機(jī)器人的動(dòng)作空間離散為5 個(gè)動(dòng)作,分別用大幅度左轉(zhuǎn)(a0)、小幅度左轉(zhuǎn)(a1)、直行(a2)、小幅度右轉(zhuǎn)(a3)、大幅度右轉(zhuǎn)(a4)表示。線速度固定為0.15 m/s,角速度不同。算法模型輸出的5 個(gè)動(dòng)作如表1 所示。

    表1 動(dòng)作空間設(shè)計(jì)Table 1 Motion space design

    2.3 獎(jiǎng)勵(lì)函數(shù)設(shè)計(jì)

    強(qiáng)化學(xué)習(xí)需要設(shè)置合適的獎(jiǎng)勵(lì)函數(shù)來(lái)判斷當(dāng)前動(dòng)作的好壞。若只有移動(dòng)機(jī)器人到達(dá)目標(biāo)點(diǎn)才會(huì)獲得獎(jiǎng)勵(lì),則在訓(xùn)練時(shí)將面臨稀疏獎(jiǎng)勵(lì)問(wèn)題。為了解決這個(gè)問(wèn)題,設(shè)計(jì)了基于目標(biāo)趨向的獎(jiǎng)勵(lì)函數(shù),在訓(xùn)練過(guò)程中,仿真機(jī)器人的每個(gè)動(dòng)作決策都可以獲得對(duì)應(yīng)的獎(jiǎng)賞值反饋,智能體可以充分利用對(duì)目標(biāo)位置的反饋信息進(jìn)行策略學(xué)習(xí)。獎(jiǎng)勵(lì)函數(shù)設(shè)置如式(9)和(10)所示,將式(10)代入到式(9)中可以得到機(jī)器人中間狀態(tài)的獎(jiǎng)勵(lì):

    當(dāng)激光傳感器返回的最小距離小于0.2 m 時(shí),判斷機(jī)器人撞擊到障礙物,結(jié)束這一回合,獎(jiǎng)懲為-200。在導(dǎo)航過(guò)程中,根據(jù)獎(jiǎng)懲設(shè)計(jì),機(jī)器人越朝向目標(biāo),獎(jiǎng)賞越大。aangle計(jì)算在執(zhí)行動(dòng)作后機(jī)器人的hheading朝向?qū)?yīng)的角度,rreward_yaw代表該動(dòng)作對(duì)應(yīng)的獎(jiǎng)懲值。機(jī)器人位置越靠近目標(biāo),獎(jiǎng)賞越大。當(dāng)機(jī)器人與目標(biāo)點(diǎn)之間的歐氏距離小于或等于閾值0.3 m時(shí),機(jī)器人到達(dá)目標(biāo),設(shè)置獎(jiǎng)賞為200。

    3 實(shí)驗(yàn)結(jié)果與分析

    3.1 實(shí)驗(yàn)環(huán)境及參數(shù)設(shè)置

    本文采用ROS 中的Gazebo 仿真器進(jìn)行移動(dòng)機(jī)器人仿真實(shí)驗(yàn),設(shè)計(jì)了4 個(gè)不同的環(huán)境進(jìn)行訓(xùn)練和測(cè)試。環(huán)境1 用于算法訓(xùn)練,環(huán)境2、3、4 用于算法的遷移測(cè)試。環(huán)境2 在環(huán)境1 的基礎(chǔ)上增加了不同位置的靜態(tài)障礙物,環(huán)境3、4 與環(huán)境1 結(jié)構(gòu)相似。如圖2 所示,其中,(0,0)為移動(dòng)機(jī)器人的初始位置(見(jiàn)圖中心黑點(diǎn)),框線在仿真實(shí)驗(yàn)環(huán)境中定位Z軸。

    圖2 實(shí)驗(yàn)環(huán)境Fig.2 Experimental environment

    移動(dòng)機(jī)器人使用TurtleBot3 Burger 機(jī)器人,每回合最多可以移動(dòng)600 步,每個(gè)時(shí)間步執(zhí)行一次動(dòng)作,利用機(jī)器人頭部的激光雷達(dá)感應(yīng)器獲取其在周?chē)h(huán)境中的距離信息,并與周?chē)沫h(huán)境進(jìn)行交互。如圖3所示,機(jī)器人四周是可視化的激光,正方形部分為目標(biāo)點(diǎn)。實(shí)驗(yàn)中用到的超參數(shù)如表2 所示。

    表2 實(shí)驗(yàn)超參數(shù)Table 2 Experimental hyperparameters

    圖3 機(jī)器人示意圖Fig.3 Schematic drawing of robot

    3.2 結(jié)果分析

    3.2.1 算法訓(xùn)練實(shí)驗(yàn)結(jié)果分析

    為評(píng)估本文方法的有效性,選擇深度強(qiáng)化學(xué)習(xí)算法D3QN[28]、基于優(yōu)先經(jīng)驗(yàn)回放的D3QN 算法(D3QN_PER)[28]、基于后見(jiàn)經(jīng)驗(yàn)回放(future 模式)的D3QN 算法(D3QN_HER)[18]進(jìn)行實(shí)驗(yàn)對(duì)比,采用算法的公開(kāi)代碼,依據(jù)本文實(shí)驗(yàn)環(huán)境和實(shí)驗(yàn)?zāi)繕?biāo)確定適合的實(shí)驗(yàn)參數(shù)。各算法在環(huán)境1 中的訓(xùn)練學(xué)習(xí)結(jié)果如圖4 所示(彩圖效果見(jiàn)《計(jì)算機(jī)工程》官網(wǎng)HTML版),陰影是實(shí)驗(yàn)數(shù)據(jù)區(qū)間。

    圖4 訓(xùn)練學(xué)習(xí)結(jié)果Fig.4 Training learning results

    為了減小實(shí)驗(yàn)的誤差,各算法在環(huán)境1 中訓(xùn)練3 次,每次600 個(gè)回合,效果如圖4(a)、圖4(b)所示。訓(xùn)練成功率是指移動(dòng)機(jī)器人成功導(dǎo)航的回合數(shù)占當(dāng)前訓(xùn)練總回合數(shù)的百分比。訓(xùn)練碰撞率表示移動(dòng)機(jī)器人發(fā)生碰撞的回合數(shù)占總回合數(shù)的百分比。結(jié)果圖展示了采用不同方法的移動(dòng)機(jī)器人在相同環(huán)境下學(xué)習(xí)導(dǎo)航策略的情況,由于環(huán)境中的目標(biāo)點(diǎn)是隨機(jī)生成的,在訓(xùn)練的過(guò)程中難免出現(xiàn)對(duì)于目前智能體來(lái)說(shuō)難以到達(dá)的點(diǎn),會(huì)出現(xiàn)成功率不同幅度下降的情況。

    從圖4(a)可以看出,各算法在剛開(kāi)始時(shí)成功率差距不大,隨著訓(xùn)練的進(jìn)行,經(jīng)驗(yàn)池中的軌跡樣本不斷增加,在200 個(gè)回合后成功率差距拉大,后見(jiàn)經(jīng)驗(yàn)回放算法的成功率普遍高于基線算法D3QN,而增加了優(yōu)先經(jīng)驗(yàn)回放的算法卻低于基線算法。由于優(yōu)先經(jīng)驗(yàn)回放算法性能不穩(wěn)定,當(dāng)獎(jiǎng)勵(lì)稀疏時(shí),優(yōu)先經(jīng)驗(yàn)回放算法要對(duì)少量高價(jià)值transition 元組賦予更高的優(yōu)先級(jí)進(jìn)行經(jīng)驗(yàn)回放,而在復(fù)雜獎(jiǎng)勵(lì)的環(huán)境下,學(xué)習(xí)需要的高價(jià)值transition 元組增多,使優(yōu)先經(jīng)驗(yàn)回放算法的學(xué)習(xí)速度變慢,消耗的時(shí)間變長(zhǎng)。實(shí)驗(yàn)中采用future 模式下的后見(jiàn)經(jīng)驗(yàn)回放算法,通過(guò)重新標(biāo)記隨機(jī)狀態(tài)作為新的目標(biāo)點(diǎn)來(lái)增加成功到達(dá)的軌跡樣本,在一定程度上提高了成功率。

    從整體來(lái)看,本文AHER 算法的成功率高于其他3 個(gè)算法,在訓(xùn)練的過(guò)程中,選擇擁有最大優(yōu)勢(shì)函數(shù)的目標(biāo)點(diǎn)作為新的目標(biāo)點(diǎn),將失敗的軌跡樣本有效利用起來(lái),相對(duì)于future 模式下的后見(jiàn)經(jīng)驗(yàn)回放算法,使得智能體在這條軌跡上獲得更大的獎(jiǎng)勵(lì),更大程度上提高了導(dǎo)航的成功率。綜上,本文算法能有效提高導(dǎo)航樣本利用率,降低導(dǎo)航策略學(xué)習(xí)難度。

    為了進(jìn)一步展現(xiàn)本文算法的有效性,在訓(xùn)練完成后指定目標(biāo)點(diǎn)對(duì)4 個(gè)算法的導(dǎo)航效果進(jìn)行路徑分析,如圖5 所示,分別為D3QN、D3QN_PER、D3QN_HER 和D3QN_AHER 的導(dǎo)航路徑俯視圖,十字代表目標(biāo)點(diǎn),路徑另一端圓點(diǎn)代表移動(dòng)機(jī)器人起始位置。4 個(gè)算法都可以找到安全到達(dá)目標(biāo)點(diǎn)的路徑。D3QN 算法在距離障礙物近時(shí)才選擇躲避,這樣導(dǎo)致該算法的路徑曲折。D3QN_PER 算法在經(jīng)歷了幾個(gè)回合的碰撞后才成功到達(dá)目標(biāo)點(diǎn),可見(jiàn)添加了優(yōu)先經(jīng)驗(yàn)回放的導(dǎo)航能力一般,并不適合在復(fù)雜的情況下使用。D3QN_HER 算法的路徑相較平緩,說(shuō)明智能體已經(jīng)熟悉所在環(huán)境,但路徑較長(zhǎng)。D3QN_AHER 算法相對(duì)于其他3 個(gè)算法,選擇了距離兩邊障礙物相對(duì)安全的中間路線,這是由于在進(jìn)行后見(jiàn)經(jīng)驗(yàn)回放時(shí),對(duì)碰撞點(diǎn)前的部分狀態(tài)都賦予了負(fù)獎(jiǎng)勵(lì),因此選擇了更快且獎(jiǎng)勵(lì)更大的路徑。

    圖5 機(jī)器人導(dǎo)航路徑圖Fig.5 Robot navigation path diagram

    3.2.2 遷移測(cè)試實(shí)驗(yàn)結(jié)果分析

    為了驗(yàn)證本文改進(jìn)算法可以顯著提高智能體對(duì)于軌跡樣本的利用率,更快適應(yīng)導(dǎo)航環(huán)境,將環(huán)境1中訓(xùn)練好的算法模型遷移到環(huán)境2、3、4 中進(jìn)行測(cè)試。機(jī)器人導(dǎo)航起點(diǎn)固定,目標(biāo)點(diǎn)在范圍內(nèi)隨機(jī)生成,將4 種算法分別在不同的環(huán)境下進(jìn)行了300 個(gè)回合的測(cè)試,得出了不同的測(cè)量指標(biāo),并給出了相應(yīng)的實(shí)驗(yàn)結(jié)果,如表3 所示。

    表3 不同環(huán)境下導(dǎo)航測(cè)試結(jié)果Table 3 Navigation test results of different environments %

    從表3 結(jié)果可知,在不同的環(huán)境中,優(yōu)先經(jīng)驗(yàn)回放算法和后見(jiàn)經(jīng)驗(yàn)回放算法的泛化效果不穩(wěn)定,在環(huán)境2 和環(huán)境3 中的成功率都低于基線算法,在環(huán)境4 中成功率高于基線算法。環(huán)境2 相對(duì)其他幾個(gè)環(huán)境更為復(fù)雜,導(dǎo)致所有算法的各個(gè)指標(biāo)出現(xiàn)一定程度的下降。本文算法在3 種環(huán)境中的均取得了較高的導(dǎo)航成功率和較低的碰撞率,在不同的測(cè)試環(huán)境中具有較好的導(dǎo)航能力和泛化能力。但是本文算法在使用時(shí)需要計(jì)算出軌跡中所有點(diǎn)的優(yōu)勢(shì)函數(shù)并進(jìn)行比較,計(jì)算量較大;若獎(jiǎng)勵(lì)函數(shù)設(shè)置不當(dāng),智能體容易陷入貪婪狀態(tài),因此更加依賴獎(jiǎng)勵(lì)函數(shù)的設(shè)置。

    3.2.3 消融實(shí)驗(yàn)

    為了比較基于優(yōu)勢(shì)函數(shù)的目標(biāo)點(diǎn)選擇(D3QN_A)和碰撞樣本的負(fù)獎(jiǎng)勵(lì)標(biāo)記(D3QN_C)對(duì)優(yōu)勢(shì)后見(jiàn)經(jīng)驗(yàn)回放算法的影響,設(shè)計(jì)消融實(shí)驗(yàn)來(lái)進(jìn)行比較分析。在環(huán)境1 中分別訓(xùn)練600 個(gè)回合,目標(biāo)點(diǎn)為固定集合。實(shí)驗(yàn)結(jié)果如表4 所示。

    表4 消融實(shí)驗(yàn)對(duì)比結(jié)果Table 4 Comparison results of ablation experiments %

    從表4 可以看出,基于優(yōu)勢(shì)函數(shù)的目標(biāo)點(diǎn)選擇和對(duì)碰撞樣本的負(fù)獎(jiǎng)勵(lì)標(biāo)記相較于D3QN 算法都有一定的改進(jìn)效果,基于優(yōu)勢(shì)函數(shù)的目標(biāo)點(diǎn)選擇比對(duì)撞擊樣本的負(fù)獎(jiǎng)勵(lì)標(biāo)記的改進(jìn)效果更好,兩者相結(jié)合實(shí)現(xiàn)了相互改進(jìn)。

    4 結(jié)束語(yǔ)

    為了提高強(qiáng)化學(xué)習(xí)算法的樣本利用率,提高機(jī)器人在導(dǎo)航過(guò)程中的學(xué)習(xí)速率,本文提出一種改進(jìn)的后見(jiàn)經(jīng)驗(yàn)回放算法,將擁有最大優(yōu)勢(shì)函數(shù)值的目標(biāo)點(diǎn)作為新的目標(biāo)點(diǎn),對(duì)軌跡樣本進(jìn)行重新標(biāo)記,增加經(jīng)驗(yàn)池中成功樣本的比例。實(shí)驗(yàn)結(jié)果表明,改進(jìn)算法可有效解決機(jī)器人強(qiáng)化學(xué)習(xí)過(guò)程中樣本利用率不高的問(wèn)題,加快機(jī)器人的學(xué)習(xí)速率并且具有較好的泛化能力。然而本文主要考慮了基于無(wú)模型強(qiáng)化學(xué)習(xí)算法的改進(jìn),有模型強(qiáng)化學(xué)習(xí)算法比無(wú)模型強(qiáng)化學(xué)習(xí)算法具有更高的采樣效率和泛化能力。在真實(shí)環(huán)境下,有模型強(qiáng)化學(xué)習(xí)可以在模型中訓(xùn)練學(xué)習(xí),下一步將結(jié)合有模型強(qiáng)化學(xué)習(xí)算法[19]對(duì)移動(dòng)機(jī)器人導(dǎo)航進(jìn)行研究,以達(dá)到更好的導(dǎo)航學(xué)習(xí)效果。

    猜你喜歡
    經(jīng)驗(yàn)智能環(huán)境
    2021年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2021年20期)2021-11-04 09:39:46
    長(zhǎng)期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
    一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
    孕期遠(yuǎn)離容易致畸的環(huán)境
    經(jīng)驗(yàn)
    環(huán)境
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    2018年第20期“最值得推廣的經(jīng)驗(yàn)”評(píng)選
    黨課參考(2018年20期)2018-11-09 08:52:36
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    久久这里有精品视频免费| 最近最新中文字幕大全电影3| 在线观看美女被高潮喷水网站| 精品久久久久久电影网 | 日本五十路高清| 成人亚洲欧美一区二区av| 精品国内亚洲2022精品成人| 亚洲欧美精品综合久久99| 日韩一区二区三区影片| 亚洲精品国产av成人精品| 中文字幕熟女人妻在线| 亚洲av成人av| 国产精品久久久久久精品电影| 亚洲国产精品sss在线观看| 在线观看av片永久免费下载| 成人亚洲欧美一区二区av| 亚洲经典国产精华液单| 美女被艹到高潮喷水动态| 乱码一卡2卡4卡精品| 亚洲久久久久久中文字幕| 2021少妇久久久久久久久久久| 久久韩国三级中文字幕| 亚洲欧美日韩卡通动漫| 国产高清有码在线观看视频| 中文精品一卡2卡3卡4更新| 日韩欧美三级三区| 亚洲一级一片aⅴ在线观看| 成人国产麻豆网| 黄片wwwwww| 午夜福利高清视频| 精品一区二区三区人妻视频| 一个人看的www免费观看视频| 午夜久久久久精精品| 亚洲欧美清纯卡通| 夜夜看夜夜爽夜夜摸| 在线免费观看不下载黄p国产| 国产免费福利视频在线观看| 女人久久www免费人成看片 | 国产亚洲av片在线观看秒播厂 | 久久人人爽人人片av| 建设人人有责人人尽责人人享有的 | 欧美激情国产日韩精品一区| 女人久久www免费人成看片 | or卡值多少钱| 国内揄拍国产精品人妻在线| 国内精品美女久久久久久| 人妻夜夜爽99麻豆av| 小说图片视频综合网站| 国产精品电影一区二区三区| 日韩视频在线欧美| 青春草视频在线免费观看| 观看免费一级毛片| 色尼玛亚洲综合影院| 国产在视频线在精品| 亚洲天堂国产精品一区在线| 国产又黄又爽又无遮挡在线| 亚洲久久久久久中文字幕| 国产在线一区二区三区精 | 黄色一级大片看看| 久久鲁丝午夜福利片| 国产毛片a区久久久久| 91精品一卡2卡3卡4卡| 一级爰片在线观看| 国产高清三级在线| 国产日韩欧美在线精品| 国产在线男女| 国产亚洲精品av在线| 日韩在线高清观看一区二区三区| 伦精品一区二区三区| 亚洲,欧美,日韩| 国产探花极品一区二区| 少妇高潮的动态图| 日本熟妇午夜| 国产黄片美女视频| 精品国产一区二区三区久久久樱花 | 99久久无色码亚洲精品果冻| 午夜福利在线观看吧| 日韩av在线大香蕉| 亚洲欧美清纯卡通| 最近手机中文字幕大全| 好男人在线观看高清免费视频| 日韩 亚洲 欧美在线| 麻豆成人午夜福利视频| 久久久久网色| 精品欧美国产一区二区三| 成人性生交大片免费视频hd| 国产人妻一区二区三区在| 日韩 亚洲 欧美在线| 国产乱来视频区| 成人二区视频| 老司机福利观看| 亚洲久久久久久中文字幕| 又黄又爽又刺激的免费视频.| 天堂网av新在线| 久久久欧美国产精品| 人妻制服诱惑在线中文字幕| 久久久久久久久久久免费av| 在线观看66精品国产| 女人久久www免费人成看片 | 观看美女的网站| 日韩av在线大香蕉| 美女cb高潮喷水在线观看| 国产麻豆成人av免费视频| 免费黄色在线免费观看| 麻豆乱淫一区二区| 99久国产av精品| 国产色爽女视频免费观看| 看片在线看免费视频| 国产伦理片在线播放av一区| 白带黄色成豆腐渣| 插逼视频在线观看| 欧美一区二区精品小视频在线| 久久欧美精品欧美久久欧美| 深夜a级毛片| 草草在线视频免费看| 国产成人精品婷婷| 成人漫画全彩无遮挡| 少妇猛男粗大的猛烈进出视频 | 国产一级毛片七仙女欲春2| 午夜日本视频在线| 欧美又色又爽又黄视频| 91av网一区二区| 色吧在线观看| 色哟哟·www| 69av精品久久久久久| 午夜免费激情av| 久99久视频精品免费| 美女高潮的动态| 一卡2卡三卡四卡精品乱码亚洲| 国产亚洲av片在线观看秒播厂 | 女人被狂操c到高潮| 日韩欧美国产在线观看| 午夜精品一区二区三区免费看| 成人欧美大片| 亚洲,欧美,日韩| 午夜福利在线观看免费完整高清在| 蜜臀久久99精品久久宅男| 亚洲av福利一区| 亚洲aⅴ乱码一区二区在线播放| 国语对白做爰xxxⅹ性视频网站| 国产黄色视频一区二区在线观看 | 国产精品久久久久久精品电影小说 | 久久亚洲精品不卡| 国产一区亚洲一区在线观看| 日本猛色少妇xxxxx猛交久久| 美女xxoo啪啪120秒动态图| 一个人观看的视频www高清免费观看| 日韩高清综合在线| 久久精品夜色国产| 99热全是精品| 亚洲国产精品国产精品| 免费观看精品视频网站| 亚洲精华国产精华液的使用体验| 亚洲最大成人中文| 精品不卡国产一区二区三区| 黄色配什么色好看| 熟妇人妻久久中文字幕3abv| 亚洲精品久久久久久婷婷小说 | 一级毛片aaaaaa免费看小| 亚洲精品一区蜜桃| 搡老妇女老女人老熟妇| 99在线人妻在线中文字幕| 久久久久久久久大av| 亚洲精品自拍成人| 男女啪啪激烈高潮av片| av黄色大香蕉| 美女高潮的动态| АⅤ资源中文在线天堂| 日韩制服骚丝袜av| 热99在线观看视频| 免费播放大片免费观看视频在线观看 | 丰满乱子伦码专区| 五月玫瑰六月丁香| 久久这里只有精品中国| 婷婷色麻豆天堂久久 | 少妇丰满av| 亚洲精品,欧美精品| 国产午夜福利久久久久久| 国产日韩欧美在线精品| av黄色大香蕉| 日本一本二区三区精品| 久久精品国产亚洲av天美| 久久精品国产亚洲网站| 一夜夜www| 搡老妇女老女人老熟妇| 青春草亚洲视频在线观看| 狂野欧美激情性xxxx在线观看| 久久久久久久午夜电影| 美女黄网站色视频| 高清av免费在线| 亚洲欧洲日产国产| 亚洲自偷自拍三级| 观看美女的网站| 精品免费久久久久久久清纯| 一级二级三级毛片免费看| 高清av免费在线| 男女视频在线观看网站免费| 99久久无色码亚洲精品果冻| 国产精品女同一区二区软件| 亚洲av一区综合| 一边亲一边摸免费视频| 免费不卡的大黄色大毛片视频在线观看 | 国产成人freesex在线| 中文字幕人妻熟人妻熟丝袜美| kizo精华| 91精品一卡2卡3卡4卡| 天天一区二区日本电影三级| 国产免费男女视频| 三级国产精品欧美在线观看| 国产免费福利视频在线观看| 亚洲欧洲日产国产| 亚洲精品影视一区二区三区av| 在线免费十八禁| 少妇熟女欧美另类| 午夜激情福利司机影院| 51国产日韩欧美| 久久久国产成人免费| 桃色一区二区三区在线观看| 久久久久性生活片| 亚洲久久久久久中文字幕| 国产在视频线在精品| 国产麻豆成人av免费视频| 美女内射精品一级片tv| 美女黄网站色视频| 亚洲av男天堂| 婷婷六月久久综合丁香| www.色视频.com| 永久免费av网站大全| 久久久久久伊人网av| av国产免费在线观看| 国产一区二区在线观看日韩| 国产精品av视频在线免费观看| 亚洲国产欧美在线一区| 99久久精品热视频| 欧美97在线视频| 看片在线看免费视频| 中文资源天堂在线| 麻豆久久精品国产亚洲av| 午夜日本视频在线| 久久国产乱子免费精品| 国产不卡一卡二| 夫妻性生交免费视频一级片| 久久久欧美国产精品| 欧美一级a爱片免费观看看| 日韩一区二区视频免费看| 亚洲人成网站在线观看播放| 久久精品国产亚洲av涩爱| 日韩国内少妇激情av| 国产毛片a区久久久久| 又黄又爽又刺激的免费视频.| 国产精品永久免费网站| 亚洲精品456在线播放app| 精品99又大又爽又粗少妇毛片| 中文字幕免费在线视频6| 成年av动漫网址| 亚洲人成网站在线播| 免费看日本二区| 免费看日本二区| 国产亚洲一区二区精品| 久久精品国产亚洲网站| 成人二区视频| 女人被狂操c到高潮| 久久久久久久久久久丰满| 亚洲在线观看片| 99热这里只有是精品50| 国产高清三级在线| 日韩欧美国产在线观看| 国产高清三级在线| 欧美97在线视频| 欧美潮喷喷水| 99久国产av精品| 亚洲精品一区蜜桃| 亚洲三级黄色毛片| 久久久久网色| 国产黄色视频一区二区在线观看 | 亚洲av中文av极速乱| 亚洲欧美日韩无卡精品| 少妇丰满av| 亚洲欧美日韩无卡精品| 日本黄大片高清| ponron亚洲| 白带黄色成豆腐渣| 精品久久久久久久人妻蜜臀av| 赤兔流量卡办理| 在线播放无遮挡| 不卡视频在线观看欧美| 精品不卡国产一区二区三区| 亚洲在线自拍视频| av专区在线播放| 九草在线视频观看| 大话2 男鬼变身卡| 精品人妻偷拍中文字幕| 麻豆久久精品国产亚洲av| 日本黄大片高清| 日产精品乱码卡一卡2卡三| 91av网一区二区| 最新中文字幕久久久久| 国产精品国产三级国产av玫瑰| 热99在线观看视频| 国产av不卡久久| 久久久久久国产a免费观看| 国产成人a∨麻豆精品| 69av精品久久久久久| 日本五十路高清| 免费无遮挡裸体视频| 三级男女做爰猛烈吃奶摸视频| 免费一级毛片在线播放高清视频| 免费av观看视频| 黄色一级大片看看| 黄色日韩在线| 亚洲成色77777| 美女脱内裤让男人舔精品视频| 国产成人精品久久久久久| 日日啪夜夜撸| 免费av观看视频| 两性午夜刺激爽爽歪歪视频在线观看| 51国产日韩欧美| 啦啦啦啦在线视频资源| 成年av动漫网址| 波多野结衣巨乳人妻| 欧美高清性xxxxhd video| 一级爰片在线观看| 熟妇人妻久久中文字幕3abv| 女人久久www免费人成看片 | 啦啦啦观看免费观看视频高清| 成年女人看的毛片在线观看| 久久久午夜欧美精品| 日产精品乱码卡一卡2卡三| 国产真实伦视频高清在线观看| 久久久久久伊人网av| 男女国产视频网站| 一级毛片久久久久久久久女| 欧美一区二区国产精品久久精品| 九九热线精品视视频播放| 婷婷六月久久综合丁香| 高清av免费在线| 欧美性猛交╳xxx乱大交人| 精品久久久久久久末码| 美女cb高潮喷水在线观看| 乱系列少妇在线播放| 免费看av在线观看网站| 久久久久久久亚洲中文字幕| 国产午夜精品一二区理论片| 人妻制服诱惑在线中文字幕| 亚洲精品aⅴ在线观看| 2021天堂中文幕一二区在线观| www日本黄色视频网| 日韩三级伦理在线观看| 久久久精品94久久精品| 色综合站精品国产| 亚洲av一区综合| 一边摸一边抽搐一进一小说| 乱系列少妇在线播放| 最近的中文字幕免费完整| 精品99又大又爽又粗少妇毛片| 色尼玛亚洲综合影院| kizo精华| 免费无遮挡裸体视频| 女人久久www免费人成看片 | 亚洲内射少妇av| 国产视频首页在线观看| 女的被弄到高潮叫床怎么办| 天堂av国产一区二区熟女人妻| 国产午夜精品一二区理论片| 国产精品福利在线免费观看| 麻豆国产97在线/欧美| 欧美xxxx黑人xx丫x性爽| 国产黄色视频一区二区在线观看 | 久久久欧美国产精品| 最近中文字幕2019免费版| 欧美又色又爽又黄视频| 亚洲欧洲日产国产| 一区二区三区乱码不卡18| 女人被狂操c到高潮| 麻豆一二三区av精品| 白带黄色成豆腐渣| 国产精品福利在线免费观看| 国产精品国产三级国产av玫瑰| 国产高清有码在线观看视频| 99九九线精品视频在线观看视频| 亚洲美女视频黄频| 淫秽高清视频在线观看| 18禁在线无遮挡免费观看视频| 久久人人爽人人片av| 晚上一个人看的免费电影| 国产精品电影一区二区三区| 亚洲最大成人中文| 亚洲av日韩在线播放| 少妇丰满av| 婷婷六月久久综合丁香| 欧美日韩在线观看h| 成年免费大片在线观看| 国产女主播在线喷水免费视频网站 | 纵有疾风起免费观看全集完整版 | 亚洲av一区综合| 国产黄色小视频在线观看| 国产免费视频播放在线视频 | 亚洲第一区二区三区不卡| 中文天堂在线官网| 两个人视频免费观看高清| 日本一本二区三区精品| 波多野结衣高清无吗| 一区二区三区免费毛片| 久久久国产成人精品二区| 精品久久久久久久人妻蜜臀av| 99久久九九国产精品国产免费| 欧美精品一区二区大全| 纵有疾风起免费观看全集完整版 | 欧美日韩在线观看h| 国产男人的电影天堂91| 亚洲av熟女| 99热6这里只有精品| 高清毛片免费看| 国产伦一二天堂av在线观看| 身体一侧抽搐| 99热网站在线观看| 国产欧美另类精品又又久久亚洲欧美| 日日干狠狠操夜夜爽| 中文字幕精品亚洲无线码一区| 青春草视频在线免费观看| 精品不卡国产一区二区三区| 久久精品国产亚洲av涩爱| 欧美日韩一区二区视频在线观看视频在线 | 午夜福利网站1000一区二区三区| 日韩精品有码人妻一区| 99久久精品热视频| 欧美性感艳星| 亚洲一区高清亚洲精品| 欧美日韩一区二区视频在线观看视频在线 | 偷拍熟女少妇极品色| 午夜福利视频1000在线观看| 青春草国产在线视频| 青春草视频在线免费观看| 一级黄色大片毛片| 亚洲av成人精品一二三区| 六月丁香七月| 内地一区二区视频在线| 看片在线看免费视频| 国产成人精品久久久久久| 男女啪啪激烈高潮av片| 少妇的逼好多水| 国产精品久久久久久精品电影小说 | 全区人妻精品视频| 中文亚洲av片在线观看爽| 国产精品av视频在线免费观看| 综合色丁香网| 热99re8久久精品国产| 可以在线观看毛片的网站| 国产免费一级a男人的天堂| 黑人高潮一二区| 国产淫片久久久久久久久| 一级毛片aaaaaa免费看小| 三级国产精品欧美在线观看| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 少妇裸体淫交视频免费看高清| 成人特级av手机在线观看| 51国产日韩欧美| 少妇的逼水好多| 午夜福利网站1000一区二区三区| 国产精品三级大全| 免费在线观看成人毛片| 日韩视频在线欧美| 国产午夜福利久久久久久| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 亚洲精品乱码久久久v下载方式| 少妇高潮的动态图| 在线a可以看的网站| 国产精品一区二区性色av| 最近视频中文字幕2019在线8| 国产视频内射| a级一级毛片免费在线观看| 伦理电影大哥的女人| 国产精品无大码| 九九久久精品国产亚洲av麻豆| 久久久精品94久久精品| 乱系列少妇在线播放| 亚洲av成人精品一区久久| 成年版毛片免费区| www.色视频.com| 日韩高清综合在线| av黄色大香蕉| 亚洲成人av在线免费| 亚洲精品日韩在线中文字幕| or卡值多少钱| 国产精品美女特级片免费视频播放器| 九九爱精品视频在线观看| 国产精品不卡视频一区二区| 午夜福利网站1000一区二区三区| 午夜a级毛片| 岛国在线免费视频观看| 蜜桃久久精品国产亚洲av| 亚洲国产精品国产精品| 99视频精品全部免费 在线| 国产精品人妻久久久影院| 国模一区二区三区四区视频| 国产又黄又爽又无遮挡在线| .国产精品久久| 日韩制服骚丝袜av| 99久久精品国产国产毛片| 超碰97精品在线观看| 日本熟妇午夜| 国内揄拍国产精品人妻在线| 欧美高清性xxxxhd video| 插逼视频在线观看| 亚洲av熟女| 内地一区二区视频在线| 黄色一级大片看看| 久久久久久久久大av| 一级毛片我不卡| 中文字幕免费在线视频6| 人人妻人人澡人人爽人人夜夜 | 日本猛色少妇xxxxx猛交久久| 九九爱精品视频在线观看| 亚洲av中文字字幕乱码综合| 国产极品精品免费视频能看的| 久久人人爽人人爽人人片va| 亚洲国产精品久久男人天堂| www日本黄色视频网| 亚洲一区高清亚洲精品| 国产精品国产三级专区第一集| 国产精品熟女久久久久浪| 国产高清不卡午夜福利| 免费观看性生交大片5| 特级一级黄色大片| 综合色av麻豆| 久久久精品大字幕| 欧美bdsm另类| 午夜精品国产一区二区电影 | 亚洲精品色激情综合| 国产久久久一区二区三区| 五月伊人婷婷丁香| 毛片一级片免费看久久久久| 少妇人妻精品综合一区二区| 国产精品不卡视频一区二区| 欧美日本亚洲视频在线播放| 青青草视频在线视频观看| 蜜桃亚洲精品一区二区三区| 一个人看的www免费观看视频| 精品国产三级普通话版| 午夜亚洲福利在线播放| 国产精品久久电影中文字幕| 日本黄大片高清| 日本爱情动作片www.在线观看| 亚洲人与动物交配视频| 国产午夜精品论理片| 亚洲欧美日韩无卡精品| 免费在线观看成人毛片| 久久久久国产网址| 亚洲美女视频黄频| 亚洲四区av| 可以在线观看毛片的网站| 成人三级黄色视频| 午夜福利在线观看吧| 啦啦啦观看免费观看视频高清| 亚洲真实伦在线观看| 国产免费视频播放在线视频 | 长腿黑丝高跟| 在线免费十八禁| 两性午夜刺激爽爽歪歪视频在线观看| 久久久午夜欧美精品| 日本爱情动作片www.在线观看| 亚洲不卡免费看| 国产熟女欧美一区二区| 国产精品久久久久久精品电影| 久久久色成人| 可以在线观看毛片的网站| 精品熟女少妇av免费看| 偷拍熟女少妇极品色| 国产精品蜜桃在线观看| 高清午夜精品一区二区三区| 婷婷色麻豆天堂久久 | av免费在线看不卡| 非洲黑人性xxxx精品又粗又长| 日韩,欧美,国产一区二区三区 | 亚洲精品aⅴ在线观看| 一个人免费在线观看电影| 午夜久久久久精精品| 亚洲国产日韩欧美精品在线观看| 少妇被粗大猛烈的视频| 日本欧美国产在线视频| 精品久久久久久久人妻蜜臀av| 自拍偷自拍亚洲精品老妇| 亚洲国产欧洲综合997久久,| 日韩一区二区三区影片| 三级男女做爰猛烈吃奶摸视频| 男女国产视频网站| 精品99又大又爽又粗少妇毛片| 亚洲av中文字字幕乱码综合| 美女大奶头视频| 最后的刺客免费高清国语| 久久精品久久久久久久性| 亚洲av中文字字幕乱码综合| 亚洲欧美精品自产自拍| 天美传媒精品一区二区| 亚洲丝袜综合中文字幕| 国产一区二区三区av在线| 欧美成人一区二区免费高清观看| 午夜免费男女啪啪视频观看| 又粗又爽又猛毛片免费看| 亚洲精品乱久久久久久| 简卡轻食公司| 久久久久国产网址| 国产成年人精品一区二区| 成人漫画全彩无遮挡| 久久精品国产99精品国产亚洲性色| 美女脱内裤让男人舔精品视频| 黄片wwwwww| 亚洲欧美清纯卡通| 小蜜桃在线观看免费完整版高清| 国产女主播在线喷水免费视频网站 | 51国产日韩欧美| 在线a可以看的网站| 国产精品人妻久久久影院| 日韩一区二区三区影片| av福利片在线观看|