• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于內(nèi)在好奇心與自模仿學(xué)習(xí)的探索算法

    2024-09-21 00:00:00呂相霖臧兆祥李思博鄒耀斌
    現(xiàn)代電子技術(shù) 2024年16期
    關(guān)鍵詞:深度強化學(xué)習(xí)

    摘" 要: 針對深度強化學(xué)習(xí)算法在部分可觀測環(huán)境中面臨的稀疏獎勵、信息缺失等問題,提出一種結(jié)合好奇心模塊與自模仿學(xué)習(xí)的近端策略優(yōu)化算法。該算法利用隨機網(wǎng)絡(luò)來生成探索過程中的經(jīng)驗樣本數(shù)據(jù),然后利用優(yōu)先經(jīng)驗回放技術(shù)選取高質(zhì)量樣本,通過自模仿學(xué)習(xí)對優(yōu)秀的序列軌跡進行模仿,并更新一個新的策略網(wǎng)絡(luò)用于指導(dǎo)探索行為。在Minigrid環(huán)境中設(shè)置了消融與對比實驗,實驗結(jié)果表明,所提算法在收斂速度上具有明顯優(yōu)勢,并且能夠完成更為復(fù)雜的部分可觀測環(huán)境探索任務(wù)。

    關(guān)鍵詞: 好奇心模塊; 自模仿學(xué)習(xí); 深度強化學(xué)習(xí); 近端策略優(yōu)化; 隨機網(wǎng)絡(luò); 優(yōu)先經(jīng)驗回放

    中圖分類號: TN911?34; TP242.6" " " " " " " " " "文獻標識碼: A" " " " " " " " " " 文章編號: 1004?373X(2024)16?0137?08

    Exploration algorithm based on intrinsic curiosity and SIL

    Lü Xianglin1, 2, ZANG Zhaoxiang1, 2, LI Sibo1, 2, ZOU Yaobin1, 2

    (1. Hubei Key Laboratory of Intelligent Vision Monitoring for Hydropower Engineering, China Three Gorges University, Yichang 443002, China;

    2. School of Computer and Information, China Three Gorges University, Yichang 443002, China)

    Abstract: In allusion to the problems of sparse rewards and missing information faced by deep reinforcement learning algorithm in partially observable environments, a proximal policy optimization algorithm combining curiosity module and self?imitation learning (SIL) is proposed. In this algorithm, the random network is used to generate empirical sample data during the exploration process, and then the priority experience replay technology is used to select high?quality samples. The excellent sequence trajectories are imitated by means of SIL, and a new policy network is updated to guide the exploration behavior. The ablation and comparison experiments were performed in the Minigrid environment. The experimental results show that the proposed algorithm has a significant advantage in convergence speed and can complete more complex exploration tasks of partially observable environments.

    Keywords: curiosity module; self?imitation learning; deep reinforcement learning; proximal policy optimization; random network; priority experience replay

    0" 引" 言

    部分可觀測馬爾科夫過程(POMDP)是指智能體在探索過程的視野受限,僅能通過掌握局部環(huán)境的觀測信息進行問題分析與建模,并智能化地做出后續(xù)決策。近年來,深度強化學(xué)習(xí)算法已在多智能體對抗游戲[1?3]、機器人控制[4?6]、自動駕駛[7?10]和兵棋推演[11?12]等諸多非完全信息的任務(wù)中取得了巨大的成功。

    POMDP任務(wù)存在信息缺失與稀疏獎勵等問題,目前學(xué)者們主要采用回放歷史信息、循環(huán)神經(jīng)網(wǎng)絡(luò)以及好奇心探索機制等方法來解決信息缺失和稀疏獎勵問題。文獻[13]按照所收集的經(jīng)驗樣本的時序誤差不同,賦予每個樣本不同的優(yōu)先概率,有效地利用過去的探索經(jīng)驗優(yōu)化了訓(xùn)練效果。文獻[14]結(jié)合強化學(xué)習(xí)算法與優(yōu)先經(jīng)驗回放加速了POMDP任務(wù)的收斂,能夠處理更復(fù)雜的對話管理場景。基于最大熵思想,文獻[15]還提出了自模仿學(xué)習(xí)(Self?Imitation Learning, SIL)算法,通過模仿過去表現(xiàn)良好的樣本軌跡進行學(xué)習(xí),極大地提升了探索效率。文獻[16]通過將記憶引入TD3算法,提出了基于長短期記憶的雙延遲深度確定性策略梯度算法(LSTM?TD3)。文獻[17]通過將長短期記憶與深度Q網(wǎng)絡(luò)相結(jié)合,修改DQN以處理噪聲觀測特征。但是探索環(huán)境通常呈現(xiàn)動態(tài)變化性或具有基于回合(episode)產(chǎn)生變化的特征,這使得融合了循環(huán)神經(jīng)網(wǎng)絡(luò)的深度強化學(xué)習(xí)算法在解決這些環(huán)境中面臨的稀疏獎勵問題時變得困難。而基于回放歷史信息的方法依賴于過去表現(xiàn)良好的經(jīng)驗數(shù)據(jù),一旦空間狀態(tài)變得復(fù)雜,智能體就很難獲取到有價值的數(shù)據(jù)樣本。為解決上述問題,文獻[18]利用人類內(nèi)在的好奇心這一概念,提出了好奇心探索機制,依據(jù)智能體所采集的空間信息給予相應(yīng)的內(nèi)在獎勵。ICM(Intrinsic Curiosity Module)算法[19]和RND(Random Network Distillation)算法[20]主要計算不同網(wǎng)絡(luò)之間的特征差異,可用于激發(fā)智能體探索不同場景。但上述好奇心算法也存在過度探索的問題,智能體在環(huán)境中容易忽視已經(jīng)學(xué)到的有效策略,從而導(dǎo)致學(xué)習(xí)過程的低效性和不穩(wěn)定性。本文在好奇心算法基礎(chǔ)上,引入自模仿學(xué)習(xí)算法來增強對已有經(jīng)驗數(shù)據(jù)的利用,以此提出了一種融合好奇心與自模仿學(xué)習(xí)的近端策略優(yōu)化算法(Proximal Policy Optimization Algorithm with Curiosity Module and Self?Imitation Learning, PPO?CI),進而達到解決POMDP探索任務(wù)中的稀疏獎勵與信息缺失等問題的目的。

    1" 相關(guān)技術(shù)

    1.1" 優(yōu)先經(jīng)驗回放

    由文獻[21]中DeepMind提出的經(jīng)驗回放機制通過將過去的探索經(jīng)驗存儲至經(jīng)驗池,然后隨機抽取批次大小的經(jīng)驗進行訓(xùn)練,打破訓(xùn)練數(shù)據(jù)之間的相關(guān)性,從而提高算法的穩(wěn)定性與泛化能力。優(yōu)先經(jīng)驗回放機制[13]通過賦予各樣本數(shù)據(jù)不同的優(yōu)先級,改變樣本數(shù)據(jù)的被采樣概率。樣本數(shù)據(jù)優(yōu)先級[p]通過時序差分誤差[δ]來衡量,其計算公式如下:

    [δ=r+maxa′γQ(s',a')-Q(s,a)] (1)

    [p=δ] (2)

    式中:[r]表示當前所得獎勵值;[Q(s',a')]表示目標網(wǎng)絡(luò)[Q]值,由下一狀態(tài)[s']在采取動作[a']時所得;[Q(s,a)]表示當前[s]狀態(tài)采取動作[a]計算所得的[Q]值。根據(jù)所得的優(yōu)先級[p]進行概率采樣,經(jīng)驗樣本采樣的概率公式為:

    [P(i)=pαii=1npαi] (3)

    式中:[α]表示優(yōu)先級調(diào)節(jié)參數(shù);[n]表示采樣的樣本數(shù)量。

    優(yōu)先經(jīng)驗回放會將TD誤差和經(jīng)驗數(shù)據(jù)一同存進經(jīng)驗池,并為每個經(jīng)驗數(shù)據(jù)賦予一個與其TD誤差大小成正比的采樣概率[P(i)]。

    1.2" ICM算法

    好奇心機制通過給予智能體內(nèi)在獎勵激發(fā)探索的動力,其中具有代表性的為D. Pathak等人提出的內(nèi)在好奇心模塊(ICM)[19],其算法模型如圖1所示。ICM算法利用逆向動力學(xué)模型和前向動力學(xué)模型來學(xué)習(xí)一個新的特征空間,通過策略網(wǎng)絡(luò)預(yù)測的下一狀態(tài)信息與ICM動力學(xué)模型所預(yù)測的下一狀態(tài)信息差異計算出對應(yīng)的內(nèi)在獎勵值。

    圖1中,算法輸入為決策模型所得當前狀態(tài)值[st]、當前采取動作[at]和下一狀態(tài)信息[st+1]。[?(st)]為狀態(tài)[st]的特征編碼;而[?(st+1)]是[?(st+1)]的預(yù)測估計,由[?(st)]與動作[at]計算所得。[at]為由狀態(tài)映射信息[?(st)]和[?(st+1)]計算所得的動作預(yù)測值;[rit]為經(jīng)動力學(xué)模型計算所得的內(nèi)在獎勵值。而[?(st+1)]和[rit]計算公式為:

    [?(st+1)=f(?(st),at;θF)] (4)

    [rit=η2?(st+1)-?(st+1)22] (5)

    ICM算法的損失函數(shù)如下:

    [LForward(?(st+1),?(st+1))=12?(st+1)-?(st+1)22] (6)

    [at=g(?(st),?(st+1);θI)] (7)

    [LInverse(at,at)=12at-at22] (8)

    式中:[f]是前向模型的網(wǎng)絡(luò)函數(shù);[θF]為前向模型的網(wǎng)絡(luò)參數(shù);[η]是縮放因子;[LForward]為前向模型的計算損失值;[θF]為通過最小化損失函數(shù)[LForward]來優(yōu)化前向模型的網(wǎng)絡(luò)參數(shù);[g]是逆向模型的網(wǎng)絡(luò)函數(shù);[θI]為逆向模型的網(wǎng)絡(luò)參數(shù);[LInverse]為逆向模型的計算損失值,用于優(yōu)化逆向模型的網(wǎng)絡(luò)參數(shù)[θI]。

    1.3" 自模仿學(xué)習(xí)

    自模仿學(xué)習(xí)是一種無監(jiān)督學(xué)習(xí)方法,它通過自主探索和學(xué)習(xí)來生成和改進策略,以達到優(yōu)化目標的目的。首先,智能體使用當前策略網(wǎng)絡(luò)與環(huán)境互動產(chǎn)生探索經(jīng)驗與累計獎勵并存入經(jīng)驗池;然后,自模仿學(xué)習(xí)算法從經(jīng)驗池中選擇具有高獎勵或優(yōu)質(zhì)性能的軌跡片段作為模仿的目標,從選定的優(yōu)質(zhì)軌跡中提取子軌跡,并基于選定的子軌跡構(gòu)建一個新的策略網(wǎng)絡(luò),用于模仿優(yōu)質(zhì)軌跡中的行為;接著,使用選定的子軌跡訓(xùn)練智能體的策略網(wǎng)絡(luò),通過反復(fù)迭代訓(xùn)練和更新智能體的策略網(wǎng)絡(luò),使其不斷逼近或模仿新策略網(wǎng)絡(luò)中的行為選擇。SIL算法的損失函數(shù)計算公式如下:

    [LSILvalue=12(R-Vθ(s))+2] (9)

    [LSILpolicy=-logπθ(as)(R-Vθ(s))+] (10)

    [LSIL=Es,a,R∈DLSILpolicy+βSILLSILvalue] (11)

    式中:[LSILvalue]為對應(yīng)的價值損失函數(shù);[R]為累計獎勵值;[Vθ(s)]代表對應(yīng)狀態(tài)[s]的價值函數(shù);[(?)+]表示為[max(?,0)],以此鼓勵智能體模仿自己的決定,只有當這些決定所獲得的回報比預(yù)期更大時才選擇更新[LSILvalue];[LSILpolicy]為SIL算法的策略損失函數(shù);[πθ(as)]是根據(jù)參數(shù)[θ]的策略函數(shù)在狀態(tài)[s]下選取動作[a]的概率估計值;[D]代表經(jīng)驗池;[βSIL]為價值損失函數(shù)對應(yīng)的超參數(shù)。

    1.4" 近端策略優(yōu)化算法

    深度強化學(xué)習(xí)算法分為值函數(shù)算法和策略梯度算法[22]。近端策略優(yōu)化算法(Proximal Policy Optimization Algorithm, PPO)屬于策略梯度算法的一種,其原理是將策略參數(shù)化,通過參數(shù)化的線性函數(shù)或神經(jīng)網(wǎng)絡(luò)表示策略[23]。

    PPO算法的核心之一是重要性采樣,它的主要目的是評估新舊策略之間的差異程度,通過計算比值來衡量差異大小。重要性采樣公式如下:

    [r(θ)=πθ(as)πθold(as)] (12)

    式中:[θ]為策略參數(shù);[πθold(as)]表示舊策略;[πθ(as)]表示新策略。

    PPO算法的另一個核心是梯度裁剪,其策略損失函數(shù)表達式如下:

    [LCLIP(θ)=E[min(r(θ))A,CLIP(r(θ),1-ε,1+ε)A]] (13)

    [A=Q(s,a)-V(s,a)] (14)

    式中:[r(θ)]為重要性采樣比;[CLIP]為裁剪函數(shù);[ε]為超參數(shù);[A]為優(yōu)勢函數(shù);[Q(s,a)]代表在狀態(tài)[s]下采取動作[a]后產(chǎn)生的累計獎勵值;[V(s,a)]為狀態(tài)價值估計值。

    PPO算法的策略參數(shù)更新公式為:

    [θ←argmaxθ(E[LCLIP(θ)])] (15)

    2" 結(jié)合ICM與自模仿學(xué)習(xí)的近端策略優(yōu)化算法

    本文提出了一種結(jié)合好奇心與自模仿學(xué)習(xí)的近端策略優(yōu)化算法,即PPO?CI算法,以解決POMDP探索任務(wù)。首先通過ICM與PPO算法結(jié)合鼓勵智能體的探索行為,并將探索經(jīng)驗數(shù)據(jù)存入優(yōu)先經(jīng)驗池;然后通過優(yōu)先經(jīng)驗回放選取好的樣本數(shù)據(jù),SIL算法模仿好的樣本軌跡,同時更新一個新的策略網(wǎng)絡(luò),用于指導(dǎo)智能體行為選擇,最終使得智能體完成探索任務(wù)。

    本文采用強化學(xué)習(xí)與ICM算法結(jié)合的工作機制,訓(xùn)練框架如圖2所示。

    結(jié)合計算所得的內(nèi)在獎勵與環(huán)境反饋的外在獎勵指引智能體進行探索任務(wù),其總獎勵計算公式如下:

    [rt=mrit+ret] (16)

    式中:[rt]為時刻[t]獲得的總獎勵值;[m]為內(nèi)在獎勵對應(yīng)權(quán)重系數(shù);[rit]為經(jīng)過ICM動力學(xué)模型計算所得的內(nèi)在獎勵值;[ret]為與環(huán)境互動所獲得的外在獎勵值,在稀疏獎勵任務(wù)中大部分情況為0。

    PPO?CI算法分為兩個訓(xùn)練模塊,即PPO?ICM算法模塊與SIL算法模塊。其中涉及到的PPO與ICM結(jié)合算法的訓(xùn)練損失函數(shù)公式如下:

    [LCLIP+VF+St(θ)=Et[LCLIPt(θ)]-c1LVFt(θ)+c2S(st)] (17)

    [LVFt(θ)=(Vθ(st)-Vtargt)2] (18)

    [LICM=LForward(?(st+1),?(st+1))+LInverse(at,at)] (19)

    [LPPO+ICM=LCLIP+VF+St(θ)+LICM] (20)

    式中:[LCLIP+VF+St(θ)]為PPO算法的損失函數(shù);[LCLIPt(θ)]為PPO算法的策略梯度的損失;[LVFt(θ)]為PPO算法的價值函數(shù)的損失;[S(st)]為交叉熵的損失;[c1]和[c2]為其對應(yīng)系數(shù);[Vθ(st)]為基于狀態(tài)[st]的預(yù)測價值函數(shù)值;[Vtargt]為目標網(wǎng)絡(luò)的value值;[LForward(?(st+1),?(st+1))]為ICM算法的前向模型損失值;[LInverse(at,at)]為其逆向模型的損失值。

    PPO?CI算法的具體偽代碼實現(xiàn)過程如下。

    1) 初始化網(wǎng)絡(luò)參數(shù)、算法的超參數(shù)。

    2) 初始化普通經(jīng)驗池[D]與優(yōu)先經(jīng)驗池[D']。

    3) 將當前時間步的狀態(tài)信息[st]輸入到設(shè)計的基于Actor?Critic框架的網(wǎng)絡(luò)模型,獲取各項動作及其概率分布;依概率選擇動作[at],并將動作反饋給環(huán)境,獲取下一狀態(tài)信息[donet]、當前外在獎勵值[ret]與完成情況[donet]。

    4) 將步驟3)所獲取的數(shù)據(jù)[(st,at,st+1)]輸入至ICM算法模型,計算預(yù)測狀態(tài)[s't+1]與預(yù)測動作[at],通過評估[st+1]與[s't+1]的差異獲取內(nèi)在獎勵值[rit],并與環(huán)境反饋的外在獎勵[ret]結(jié)合,獲得總獎勵值[rt];同時通過評估[st+1]與[s't+1]的差異、[at]與實際動作[at]的差異計算出ICM算法的損失函數(shù)值,然后將數(shù)據(jù)[(st,at,rt,donet)]存入普通經(jīng)驗池[D]與優(yōu)先經(jīng)驗池[D']。在優(yōu)先經(jīng)驗池[D']中,根據(jù)計算出的誤差為數(shù)據(jù)賦予不同的優(yōu)先級,供后續(xù)訓(xùn)練調(diào)用。

    5) 從普通經(jīng)驗池[D]中抽取batch_size大小的數(shù)據(jù)樣本,然后將這些樣本分成多個小批量(minibatch),使用每個小批量的數(shù)據(jù)來計算PPO?ICM算法的損失函數(shù),并更新策略網(wǎng)絡(luò)的參數(shù)。

    6) 從優(yōu)先經(jīng)驗池[D']抽取batch_size大小的樣本數(shù)據(jù),使用SIL算法對高質(zhì)量的軌跡序列進行模仿,并提取出對應(yīng)的狀態(tài)動作對用于訓(xùn)練一個新的策略網(wǎng)絡(luò);同時更新樣本優(yōu)先級,采用訓(xùn)練好的新策略網(wǎng)絡(luò)來進行策略改進。

    7) 不斷重復(fù)步驟3)~步驟6)直至算法收斂。

    3" 實驗設(shè)計

    3.1" 實驗環(huán)境

    本文采用文獻[24]中由Open AI提出的Gym?Minigrid網(wǎng)格環(huán)境對所提出的PPO?CI算法表現(xiàn)進行測試與評估。Minigrid環(huán)境是基于回合(episode)產(chǎn)生變化的環(huán)境,該環(huán)境每回合開始時,智能體在某一區(qū)域初始位置與朝向,在探索時僅能獲取局部視野信息,并且無法感知墻壁后方與門另一側(cè)信息,需要根據(jù)僅掌握的部分信息完成探索任務(wù)。本文基于Minigrid已注冊的環(huán)境進行改動,設(shè)計了四種不同探索難度的地圖環(huán)境,旨在驗證PPO?CI算法面臨各類基于回合變化環(huán)境的性能與表現(xiàn)。

    圖3a)為改進的環(huán)境MultiRoom?N6S6,每一回合地圖上隨機生成6個大小隨機的房間,且各房間門的顏色隨機,智能體在最左下方位置的房間內(nèi)的隨機位置出現(xiàn),該地圖中智能體需要學(xué)會開門動作并且需要連續(xù)通過多個房間找到最右上方房間的出口。

    圖3b)為改進的環(huán)境Empty?15×15?v1,在這個環(huán)境中,智能體起始點位于最左側(cè)房間某個隨機位置,而目標出口在最右側(cè)房間內(nèi)的隨機位置。不同的挑戰(zhàn)在于:該環(huán)境擴大了房間內(nèi)的空間,并且三扇門的位置隨機,這為智能體進行探索帶來了麻煩。圖3c)為改進的環(huán)境FourRooms?v1,該環(huán)境擴大了房間的大小,且探索任務(wù)不再僅限于從左側(cè)向右側(cè)進行探索;另外,環(huán)境中設(shè)置了相同顏色的門,這會一定程度上影響智能體對于自身位置的判斷。對于該環(huán)境,智能體隨機出現(xiàn)在左上側(cè)房間的某個位置,目標點隨即出現(xiàn)在右下側(cè)房間的某個位置,智能體需要在位置判斷受影響的情況下完成任務(wù)。圖3d)為改進的環(huán)境LockedRoom?v1,該環(huán)境設(shè)置了一扇帶鎖的門,智能體需要打開另一扇未上鎖的門,去到房間內(nèi)拿到鑰匙,然后去開另一側(cè)帶鎖的門,最終找到出口。該探索任務(wù)難度在于:智能體需要學(xué)會拾取鑰匙的動作,并學(xué)會持有鑰匙在鎖住的門前學(xué)會激活門的動作。

    3.2" 獎勵設(shè)計

    獎勵是智能體與環(huán)境每回合交互所得到的回報。本文設(shè)計了一種隨步數(shù)變化而變化的獎勵函數(shù),其目的是引導(dǎo)智能體在每個episode內(nèi)盡可能地用更少的步數(shù)獲取更高的獎勵,從而避免智能體陷入局部最優(yōu)解并停止探索任務(wù)的情況。

    具體獎勵函數(shù)如下:

    [reward=1-0.9astepamaxstep," " astep≤amaxstep0," " " " " " " " " " " " " " "astepgt;amaxstep] (21)

    3.3" 模型結(jié)構(gòu)與參數(shù)

    本文為處理環(huán)境中多維復(fù)雜的特征信息,設(shè)計一種基于Actor?Critic架構(gòu)的網(wǎng)絡(luò)模型,具體結(jié)構(gòu)如圖4所示。

    由圖4可知:從環(huán)境中所獲取的狀態(tài)信息首先經(jīng)歷兩層卷積網(wǎng)絡(luò)層,將輸入的狀態(tài)數(shù)據(jù)信息抽象成更高層次的特征表示;然后將卷積層的輸出結(jié)果通過展平層,將多維特征數(shù)據(jù)展開成一維向量;接著輸入到全連接層捕捉特征之間的復(fù)雜關(guān)系,并對特征進行組合;最后將組合特征分別輸入Actor網(wǎng)絡(luò)的全連接層,獲取各項動作及其概率分布,用于指導(dǎo)智能體的行為決策,并輸入到Critic網(wǎng)絡(luò)的全連接層評估當前狀態(tài)的價值。本文實驗所采用的PPO?CI算法涉及到PPO?CLIP算法模塊、ICM算法模塊以及自模仿學(xué)習(xí)算法模塊的各項參數(shù),具體的超參數(shù)如表1所示。

    為加快模型的收斂速度,以及訓(xùn)練后期對細化參數(shù)的調(diào)整,本文采用線性退火算法來提高模型在更接近最優(yōu)解時的精度。學(xué)習(xí)率的線性退火算法公式為:

    [Learning_rate=Learning_rateinitial·1-current_steptotal_steps] (22)

    式中:[Learning_rate]表示當前的學(xué)習(xí)率;[Learning_rateinitial]表示初始設(shè)置的學(xué)習(xí)率;[current_step]表示當前與環(huán)境交互的步數(shù);[total_steps]表示訓(xùn)練的總步數(shù)。

    3.4" 實驗結(jié)果與分析

    實驗采用的操作系統(tǒng)為Ubuntu 18.04,Python版本為3.9,基于Torch 1.13搭建深度強化學(xué)習(xí)框架。實驗設(shè)備選用含有2張內(nèi)存大小為8 GB的GTX 1080顯卡的服務(wù)器。為測試與評估所提出的PPO?CI算法在POMDP任務(wù)中的性能表現(xiàn),設(shè)置了消融實驗,將提出的PPO?CI算法與PPO算法、PPO?ICM算法、PPO?SIL算法進行比較。

    各算法在MultiRoom?N6S6環(huán)境下的訓(xùn)練獎勵值變化如圖5a)所示,橫坐標的frames表示智能體與環(huán)境交互的總步數(shù),縱坐標表示智能體與各不同隨機種子環(huán)境交互產(chǎn)生的平均獎勵值信息。在該環(huán)境中,4種基于PPO算法的改進算法均能完成任務(wù)。四類完成探索任務(wù)的算法中,PPO?CI算法以最快的速度達到收斂狀態(tài),因為PPO?CI算法通過綜合利用ICM的自主探索和SIL的軌跡模仿,提高了有效樣本的利用率。通過綜合利用這些樣本,PPO?CI算法可以更好地優(yōu)化智能體的策略,提高學(xué)習(xí)效果,這一優(yōu)勢在Empty?15×15?v1環(huán)境的探索中更加突出。Empty?15×15?v1環(huán)境中設(shè)置了三面墻來阻礙智能體的探索,并且墻上門位置的變化幅度較大,使得環(huán)境具有較強的隨機性。如圖5c)所示,僅在好奇心驅(qū)使下進行探索的PPO?ICM算法與PPO?CI算法能夠完成該探索任務(wù),這說明僅憑環(huán)境反饋的獎勵信息很難進行下一步探索。在FourRooms?v1環(huán)境中,智能體受限于自身的位置判斷,且門的顏色也混淆了智能體的判斷。PPO?CI算法在該環(huán)境中仍以最快的速度達到收斂,在好奇心的推動下,通過有效利用優(yōu)先經(jīng)驗池的軌跡回放進行高效地學(xué)習(xí),準確地判斷自身位置以及各房間門的位置,并成功找到出口。如圖5d)所示,在設(shè)置了門鎖與鑰匙的LockedRoom?v1環(huán)境中,智能體首先需要找到鑰匙,然后學(xué)會開門動作,最終找到出口。

    在這種多任務(wù)環(huán)境中,PPO?CI算法仍表現(xiàn)出高效的學(xué)習(xí)能力與適應(yīng)能力。本文提出的PPO?CI算法綜合利用了ICM和SIL的優(yōu)點,既能夠?qū)χ悄荏w與環(huán)境交互產(chǎn)生的經(jīng)驗數(shù)據(jù)進行有效利用,又能夠在好奇心的驅(qū)動下進行自主探索,從而在探索能力和學(xué)習(xí)效果方面取得更好的平衡。

    在驗證了PPO?CI算法的快速收斂性后,進一步對算法收斂后的穩(wěn)定性進行分析。本文選取各算法在收斂之后的最后30個episode的訓(xùn)練情況作為參考,從具體步數(shù)來探究算法收斂后的穩(wěn)定性。各類算法在四類環(huán)境中的訓(xùn)練情況如圖6所示。

    由圖6中使用PPO?CI算法訓(xùn)練的結(jié)果顯示,其使用步數(shù)的波動幅度較小且所使用的步數(shù)也是較少的。但是由于各個環(huán)境是基于回合產(chǎn)生改變,導(dǎo)致各回合初始位置離目標點的距離不確定,故僅平均步數(shù)并不能客觀地體現(xiàn)出各算法的穩(wěn)定性,故還選取了30個episode的步數(shù)標準差作為評估對象。表2中數(shù)據(jù)前項為平均步數(shù),后項為標準差。綜合數(shù)據(jù)體現(xiàn)出PPO?CI算法在快速收斂的同時也具有很強的穩(wěn)定性,每回合都能采取更優(yōu)的探索路徑完成探索任務(wù)。

    4" 結(jié)" 論

    本文為解決POMDP探索任務(wù)中的稀疏獎勵與信息缺失等問題,提出一種融合好奇心與自模仿學(xué)習(xí)的深度強化學(xué)習(xí)算法,利用好奇心鼓勵智能體探索未知場景,并將產(chǎn)生的探索數(shù)據(jù)存入設(shè)計的優(yōu)先經(jīng)驗池,然后利用自模仿學(xué)習(xí)從優(yōu)先經(jīng)驗池中選取具有優(yōu)秀探索表現(xiàn)的歷史經(jīng)驗數(shù)據(jù)進行學(xué)習(xí)與更新策略。

    為驗證所提出的PPO?CI算法在POMDP任務(wù)的表現(xiàn),設(shè)計了四項不同難度的Minigrid環(huán)境的探索任務(wù)。經(jīng)實驗驗證,該算法平衡了探索過度與利用不足的問題,同時具有較快達到收斂效果的優(yōu)勢,較已有的ICM、SIL等算法速度更快。并且該算法具有更強的泛化性,對基于回合變化的環(huán)境仍有著很強的適應(yīng)能力,能夠有效解決多種不同難度的POMDP探索任務(wù)。

    本文為解決部分可觀測環(huán)境探索中的稀疏獎勵、信息缺失等問題提供了一種有效的方法。未來的研究將致力于進一步優(yōu)化好奇心與探索算法的融合,比如在更為復(fù)雜或具有更多動態(tài)變化因素的環(huán)境中對PPO?CI算法進行測試與改進,并且嘗試使用其他的好奇心模型或者與其他的探索算法相結(jié)合來進一步提升算法的性能。

    注:本文通訊作者為臧兆祥。

    參考文獻

    [1] JADERBERG M, CZARNECKI W M, DUNNING I, et al. Human?level performance in 3D multiplayer games with population?based reinforcement learning [J]. Science, 2019, 364: 859?865.

    [2] YE D, LIU Z, SUN M, et al. Mastering complex control in MOBA games with deep reinforcement learning [J]. Proceeding of the AAAI Conference on Artificial Intelligence, 2020, 34(4): 6672?6679.

    [3] VINYALS O, BABUSCHKIN I, CZARNECKI W M, et al. Grandmaster level in StarCraft II using multi?agent reinforcement learning [J]. Nature, 2019, 575: 350?354.

    [4] CARLUCHO I, PAULA D M, WANG S, et al. Adaptive low?level control of autonomous underwater vehicles using deep reinforcement learning [J]. Robotics and autonomous system, 2018, 107: 71?86.

    [5] CARLUCHO I, PAULA D M, ACOSTA G G. An adaptive deep reinforcement learning approach for MIMO PID control of mobile robots [J]. ISA transactions, 2020, 102: 280?294.

    [6] WANG D, DENG H. Multirobot coordination with deep reinforcement learning in complex environments [J]. Expert systems with applications, 2021, 180: 115128.

    [7] XIONG H, MA T, ZHANG L, et al. Comparison of end?to?end and hybrid deep reinforcement learning strategies for controlling cable?driven parallel robots [J]. Neurocomputing, 2020, 377: 73?84.

    [8] JIN Y, LIU Q, SHEN L, et al. Deep deterministic policy gradient algorithm based on convolutional block attention for autonomous driving [J]. Symmetry, 2021, 13: 1061.

    [9] YANG T K, LI L K, NGIAP T K, et al. Deep Q?network implementation for simulated autonomous vehicle control [J]. IET intelligent transport systems, 2021, 15: 875?885.

    [10] LI J X, YAO L, XU X, et al. Deep reinforcement learning for pedestrian collision avoidance and human?machine cooperative driving [J]. Information sciences, 2020, 532: 110?124.

    [11] 崔文華,李東,唐宇波,等.基于深度強化學(xué)習(xí)的兵棋推演決策方法框架[J].國防科技,2020,41(2):113?121.

    [12] ESPEHOLT L, SOYER H, MUNOS R, et al. IMPALA: scalable distributed deep?RL with importance weighted actor?learner architectures [C]// Proceedings of the 35th International Conference on Machine Learning. Stockholm, Sweden: PMLR, 2018: 1407?1416.

    [13] SCHAUL T, QUAN J, ANTONOGLOU I, et al. Prioritized experience replay [C]// International Conference on Learning Representations. Vancouver, Canada: IMLS, 2016: 1312?1320.

    [14] HENDERSON M, THOMSON B, YOUNG S. Word?based dialog state tracking with recurrent neural networks [C]// Proceedings of the 15th Annual Meeting of the Special Interest Group on Discourse and Dialogue (SIGDIAL). Philadelphia, PA, USA: ACL, 2014: 292?299.

    [15] OH J, GUO Y, SINGH S, et al. Self?imitation learning [C]// Proceedings of the International Conference on Machine Learning. Stockholm, Sweden: IMLS, 2018: 3878?3887.

    [16] MENG L, GORBET R, KULI? D. Memory?based deep reinforcement learning for POMDPs [C]// IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, USA: IEEE, 2021: 5619?5626.

    [17] HAUSKNECHT M, STONE P. Deep recurrent Q?learning for partially observable MDPs [C]// 2015 Association for the Advancement of Artificial Intelligence Fall Symposium Series. Palo Alto, California, USA: AAAI, 2015: 1?8.

    [18] OUDEYER P Y, KAPLAN F. How can we define intrinsic motivation [C]// Proceedings of eighth International Conference on Epigenetic Robotics: Modeling Cognitive Development in Robotic Systems. Lund: Brighton, 2008: 93?101.

    [19] PATHAK D, AGRAWAL P, EFROS A A, et al. Curiosity?driven exploration by self?supervised prediction [C]// Proceedings of the 2017 International Conference on Machine Learning. San Diego, CA: JMLR, 2017: 2778?2787.

    [20] BURDA Y, EDWARDS H,STORKEY A J, et al. Exploration by random network distillation [C]// Proceeding of the 7th International Conference on Learning Representations. New Orleans, USA: ICLR, 2019: 1?17.

    [21] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Playing Atari with deep reinforcement learning [J]. Nature, 2013, 518: 529?533.

    [22] 張峻偉,呂帥,張正昊,等.基于樣本效率優(yōu)化的深度強化學(xué)習(xí)方法綜述[J].軟件學(xué)報,2022,33(11):4217?4238.

    [23] 劉國名,李彩虹,李永迪,等.基于改進PPO算法的機器人局部路徑規(guī)劃[J].計算機工程,2023,49(2):119?126.

    [24] CHEVALIER?BOISVERT M, WILLEMS L, PAL S. widesp?read attention and research [EB/OL]. [2023?01?12]. https://github.com/maximec/gym?minigrid, 2018.

    猜你喜歡
    深度強化學(xué)習(xí)
    基于DDPG算法的路徑規(guī)劃研究
    基于深度強化學(xué)習(xí)的木材缺陷圖像重構(gòu)及質(zhì)量評價模型研究
    基于深度強化學(xué)習(xí)與圖像智能識別的輸電線路在線監(jiān)測系統(tǒng)
    基于云控制的業(yè)務(wù)服務(wù)機器人系統(tǒng)設(shè)計
    人工智能深度強化學(xué)習(xí)的原理與核心技術(shù)探究
    基于人工智能的無人機區(qū)域偵察方法研究現(xiàn)狀與發(fā)展
    基于策略梯度算法的工作量證明中挖礦困境研究
    基于深度強化學(xué)習(xí)的圖像修復(fù)算法設(shè)計
    關(guān)于人工智能阿法元綜述
    商情(2019年14期)2019-06-15 10:20:13
    深度強化學(xué)習(xí)研究進展
    日韩一区二区三区影片| 一个人看视频在线观看www免费| 少妇人妻精品综合一区二区| 国产一区有黄有色的免费视频 | a级一级毛片免费在线观看| 欧美区成人在线视频| 亚洲精品,欧美精品| 国产成人91sexporn| av在线天堂中文字幕| 国产精品久久久久久精品电影小说 | 欧美高清成人免费视频www| 在线观看66精品国产| 精华霜和精华液先用哪个| 我要看日韩黄色一级片| 韩国av在线不卡| 亚洲在线自拍视频| 在线观看66精品国产| 免费观看a级毛片全部| 激情 狠狠 欧美| 简卡轻食公司| 黄色欧美视频在线观看| 非洲黑人性xxxx精品又粗又长| 国产精品久久电影中文字幕| 免费看光身美女| 亚洲精品日韩在线中文字幕| 欧美性猛交╳xxx乱大交人| 水蜜桃什么品种好| 国产探花在线观看一区二区| 一区二区三区高清视频在线| 一级毛片电影观看 | 网址你懂的国产日韩在线| 日本与韩国留学比较| 欧美性猛交黑人性爽| 成人av在线播放网站| 夜夜爽夜夜爽视频| 午夜福利网站1000一区二区三区| 国产亚洲午夜精品一区二区久久 | 国模一区二区三区四区视频| 久久久a久久爽久久v久久| 伦理电影大哥的女人| 日本午夜av视频| 日韩成人av中文字幕在线观看| 国产精品一二三区在线看| 国产精品人妻久久久久久| 中文字幕av成人在线电影| 高清av免费在线| 亚洲最大成人手机在线| 大又大粗又爽又黄少妇毛片口| 永久网站在线| 少妇的逼好多水| 亚洲欧美日韩高清专用| 国产综合懂色| 男的添女的下面高潮视频| 又粗又硬又长又爽又黄的视频| 美女cb高潮喷水在线观看| 最近最新中文字幕大全电影3| 老司机影院毛片| 亚洲综合色惰| 国产淫片久久久久久久久| 国产免费又黄又爽又色| 国内少妇人妻偷人精品xxx网站| 国产男人的电影天堂91| 熟女人妻精品中文字幕| 中文字幕av在线有码专区| 国产精品综合久久久久久久免费| 国产精品精品国产色婷婷| 51国产日韩欧美| 日韩欧美在线乱码| 国产一区二区三区av在线| 我要搜黄色片| 蜜桃久久精品国产亚洲av| 成人高潮视频无遮挡免费网站| 成人三级黄色视频| 久久韩国三级中文字幕| 日本三级黄在线观看| 国产精品一区二区在线观看99 | 久久久久久久久久黄片| 丰满少妇做爰视频| 亚洲av成人精品一区久久| 国产老妇女一区| 最新中文字幕久久久久| 天天躁日日操中文字幕| 亚洲美女搞黄在线观看| 精品国产一区二区三区久久久樱花 | 一区二区三区四区激情视频| 内地一区二区视频在线| 日本黄色视频三级网站网址| 国产亚洲午夜精品一区二区久久 | 三级国产精品欧美在线观看| 国产免费又黄又爽又色| 国产成人a区在线观看| kizo精华| 高清午夜精品一区二区三区| 自拍偷自拍亚洲精品老妇| 我的女老师完整版在线观看| 视频中文字幕在线观看| 久久久久网色| 极品教师在线视频| 欧美潮喷喷水| 一个人看的www免费观看视频| 国产乱人视频| 男女下面进入的视频免费午夜| 国产一区二区在线av高清观看| 亚洲精品影视一区二区三区av| 久久人人爽人人片av| 国产精品99久久久久久久久| 国产精品,欧美在线| 午夜精品在线福利| 免费一级毛片在线播放高清视频| av播播在线观看一区| 久久6这里有精品| 久久精品国产鲁丝片午夜精品| 你懂的网址亚洲精品在线观看 | 97超碰精品成人国产| 亚洲国产精品sss在线观看| 亚洲av熟女| 国产精品永久免费网站| 国产女主播在线喷水免费视频网站 | 免费大片18禁| 高清在线视频一区二区三区 | 亚洲五月天丁香| 乱码一卡2卡4卡精品| 国产免费福利视频在线观看| 搡老妇女老女人老熟妇| 午夜久久久久精精品| 国产免费一级a男人的天堂| 狂野欧美激情性xxxx在线观看| 国产精品一二三区在线看| 大香蕉久久网| 国产成人福利小说| 亚洲国产精品成人久久小说| 欧美高清成人免费视频www| 精华霜和精华液先用哪个| 成人无遮挡网站| 精品久久久噜噜| 国产三级中文精品| 日日摸夜夜添夜夜爱| 乱码一卡2卡4卡精品| 精品人妻偷拍中文字幕| av视频在线观看入口| 老女人水多毛片| 久久久久久九九精品二区国产| 青春草亚洲视频在线观看| 中文字幕亚洲精品专区| 99热这里只有精品一区| 国产精品1区2区在线观看.| 亚洲18禁久久av| 在线免费观看不下载黄p国产| 国产成人freesex在线| 精品久久久久久电影网 | 只有这里有精品99| 美女内射精品一级片tv| 欧美一级a爱片免费观看看| 日韩一本色道免费dvd| 精品免费久久久久久久清纯| 级片在线观看| 国产真实伦视频高清在线观看| 天天躁日日操中文字幕| 中文字幕av在线有码专区| 少妇被粗大猛烈的视频| 国产真实乱freesex| 搞女人的毛片| 国产成人免费观看mmmm| 男人和女人高潮做爰伦理| 一级av片app| 好男人在线观看高清免费视频| 一个人观看的视频www高清免费观看| 国产乱来视频区| 欧美成人免费av一区二区三区| 看黄色毛片网站| 永久网站在线| www日本黄色视频网| 爱豆传媒免费全集在线观看| 最后的刺客免费高清国语| 国产日韩欧美在线精品| 欧美精品一区二区大全| 亚洲怡红院男人天堂| 天美传媒精品一区二区| 禁无遮挡网站| 18禁在线无遮挡免费观看视频| 亚洲最大成人手机在线| 尤物成人国产欧美一区二区三区| 久久久久国产网址| 亚洲自拍偷在线| or卡值多少钱| 51国产日韩欧美| 美女被艹到高潮喷水动态| 国产午夜福利久久久久久| 国产精品一及| 嫩草影院入口| 中文字幕亚洲精品专区| 伦精品一区二区三区| 国产成人91sexporn| 国产美女午夜福利| 国产老妇女一区| 国产精品爽爽va在线观看网站| 亚洲国产精品久久男人天堂| 久久久久久久久久久免费av| 成人特级av手机在线观看| 蜜桃久久精品国产亚洲av| 久久久久久九九精品二区国产| 亚洲av熟女| 中文字幕久久专区| 婷婷色综合大香蕉| 久久精品夜色国产| 你懂的网址亚洲精品在线观看 | 丝袜喷水一区| 少妇人妻一区二区三区视频| 亚洲婷婷狠狠爱综合网| 欧美日本视频| 久久久久久久久久黄片| 一级av片app| 大话2 男鬼变身卡| 91精品伊人久久大香线蕉| 看片在线看免费视频| 国产伦精品一区二区三区视频9| 日韩 亚洲 欧美在线| 看十八女毛片水多多多| 亚洲18禁久久av| 亚洲av熟女| 欧美zozozo另类| 搡女人真爽免费视频火全软件| 亚洲自偷自拍三级| 七月丁香在线播放| 偷拍熟女少妇极品色| 最近2019中文字幕mv第一页| 国产精品野战在线观看| 国产免费一级a男人的天堂| 免费不卡的大黄色大毛片视频在线观看 | 午夜日本视频在线| 国产视频首页在线观看| 麻豆精品久久久久久蜜桃| 尾随美女入室| 黄片无遮挡物在线观看| 青青草视频在线视频观看| 如何舔出高潮| 成人亚洲欧美一区二区av| 高清日韩中文字幕在线| 99国产精品一区二区蜜桃av| 日韩成人伦理影院| 床上黄色一级片| 色尼玛亚洲综合影院| 人人妻人人澡欧美一区二区| 亚洲成人久久爱视频| 欧美日韩综合久久久久久| 视频中文字幕在线观看| 日韩欧美在线乱码| 亚洲内射少妇av| 99热这里只有精品一区| 91av网一区二区| 麻豆成人午夜福利视频| 亚洲电影在线观看av| 久久精品久久精品一区二区三区| 久久久久免费精品人妻一区二区| 亚洲国产欧美人成| 丝袜喷水一区| 亚洲av男天堂| 九九爱精品视频在线观看| 日本五十路高清| 99久国产av精品国产电影| 伦理电影大哥的女人| 激情 狠狠 欧美| 午夜精品一区二区三区免费看| 国内揄拍国产精品人妻在线| 久久草成人影院| 日韩一本色道免费dvd| 日韩高清综合在线| 国产精品1区2区在线观看.| 偷拍熟女少妇极品色| 成人一区二区视频在线观看| 国产成年人精品一区二区| 亚洲久久久久久中文字幕| 自拍偷自拍亚洲精品老妇| 亚洲国产色片| 99视频精品全部免费 在线| 少妇裸体淫交视频免费看高清| 国产成人a区在线观看| 亚洲欧洲国产日韩| 一卡2卡三卡四卡精品乱码亚洲| 91久久精品电影网| 99在线视频只有这里精品首页| 夫妻性生交免费视频一级片| 免费搜索国产男女视频| 免费看光身美女| or卡值多少钱| 久久久欧美国产精品| 亚洲av福利一区| 国产成人91sexporn| 久久久久性生活片| 纵有疾风起免费观看全集完整版 | 日韩欧美精品免费久久| 老司机影院毛片| 日日干狠狠操夜夜爽| 午夜免费男女啪啪视频观看| 成人特级av手机在线观看| 精品久久久噜噜| 七月丁香在线播放| 中文字幕人妻熟人妻熟丝袜美| 少妇被粗大猛烈的视频| 免费看日本二区| 2022亚洲国产成人精品| 国产中年淑女户外野战色| 纵有疾风起免费观看全集完整版 | 欧美激情在线99| 日韩视频在线欧美| 亚州av有码| 亚洲av免费高清在线观看| 亚洲无线观看免费| 美女xxoo啪啪120秒动态图| 精品久久久久久久人妻蜜臀av| 国产高清视频在线观看网站| 午夜精品一区二区三区免费看| 久久久久久伊人网av| 久久久久久久国产电影| eeuss影院久久| 国产69精品久久久久777片| 男的添女的下面高潮视频| 日本欧美国产在线视频| 永久网站在线| 国产老妇伦熟女老妇高清| 国产高清不卡午夜福利| 丰满少妇做爰视频| 国产精品久久久久久久电影| 午夜老司机福利剧场| 白带黄色成豆腐渣| 免费搜索国产男女视频| 亚洲成色77777| 一二三四中文在线观看免费高清| 国产精品.久久久| 天美传媒精品一区二区| 日本熟妇午夜| 免费观看性生交大片5| 尾随美女入室| 午夜亚洲福利在线播放| 国内精品一区二区在线观看| 一二三四中文在线观看免费高清| 亚洲色图av天堂| av在线播放精品| 两性午夜刺激爽爽歪歪视频在线观看| 免费观看性生交大片5| 高清视频免费观看一区二区 | 男人狂女人下面高潮的视频| 亚洲精品成人久久久久久| 干丝袜人妻中文字幕| av在线观看视频网站免费| 少妇熟女欧美另类| av在线观看视频网站免费| 日韩 亚洲 欧美在线| 黄色日韩在线| 高清av免费在线| 男人狂女人下面高潮的视频| 熟妇人妻久久中文字幕3abv| 国产亚洲5aaaaa淫片| 久久99热这里只频精品6学生 | 国产又色又爽无遮挡免| 亚洲欧美精品专区久久| 插阴视频在线观看视频| 亚洲欧美成人精品一区二区| 搡女人真爽免费视频火全软件| 国产美女午夜福利| 国产高清不卡午夜福利| 我要看日韩黄色一级片| 老女人水多毛片| 日本与韩国留学比较| 日本一二三区视频观看| 欧美+日韩+精品| 国产男人的电影天堂91| 欧美极品一区二区三区四区| 两个人的视频大全免费| 99国产精品一区二区蜜桃av| 亚洲av中文字字幕乱码综合| 亚洲18禁久久av| 国产免费又黄又爽又色| 久久久久久久午夜电影| 日日摸夜夜添夜夜添av毛片| 91在线精品国自产拍蜜月| 国产精品乱码一区二三区的特点| 亚洲aⅴ乱码一区二区在线播放| 精品酒店卫生间| 国产免费视频播放在线视频 | 99久久精品热视频| 国产大屁股一区二区在线视频| 日韩欧美三级三区| 久久精品熟女亚洲av麻豆精品 | 99国产精品一区二区蜜桃av| 老司机影院毛片| 亚洲va在线va天堂va国产| 夜夜看夜夜爽夜夜摸| 一本久久精品| 成人毛片a级毛片在线播放| 国产精品久久久久久精品电影小说 | 男女视频在线观看网站免费| 在线观看66精品国产| 毛片一级片免费看久久久久| 99视频精品全部免费 在线| 美女cb高潮喷水在线观看| 午夜福利在线观看免费完整高清在| 亚洲最大成人手机在线| 日韩一本色道免费dvd| 少妇熟女欧美另类| 亚洲精品成人久久久久久| 中文字幕免费在线视频6| 午夜a级毛片| 国产在线一区二区三区精 | 欧美成人免费av一区二区三区| 在线观看一区二区三区| videos熟女内射| 亚洲18禁久久av| 秋霞伦理黄片| 偷拍熟女少妇极品色| 亚洲最大成人中文| 日韩欧美精品免费久久| 永久免费av网站大全| 亚洲成人久久爱视频| 日产精品乱码卡一卡2卡三| 又爽又黄无遮挡网站| 色噜噜av男人的天堂激情| 99久久人妻综合| 最近最新中文字幕免费大全7| 一级爰片在线观看| 国产精品爽爽va在线观看网站| 国产午夜精品论理片| 两个人视频免费观看高清| 国产精品1区2区在线观看.| 春色校园在线视频观看| 精品人妻偷拍中文字幕| 女人被狂操c到高潮| 色噜噜av男人的天堂激情| 精品久久久久久久久久久久久| 日韩三级伦理在线观看| 午夜免费男女啪啪视频观看| 两个人视频免费观看高清| 在线观看66精品国产| 午夜精品在线福利| 欧美区成人在线视频| 日本爱情动作片www.在线观看| 久久这里有精品视频免费| 国产精品av视频在线免费观看| 精品人妻熟女av久视频| 三级经典国产精品| 综合色av麻豆| 又黄又爽又刺激的免费视频.| 国产一区二区在线观看日韩| 国产乱来视频区| 国内少妇人妻偷人精品xxx网站| 禁无遮挡网站| 亚洲成人av在线免费| 欧美激情在线99| 国产精品99久久久久久久久| 淫秽高清视频在线观看| 免费观看精品视频网站| 日韩欧美三级三区| 级片在线观看| 国产精品av视频在线免费观看| 久热久热在线精品观看| 国产亚洲5aaaaa淫片| 狂野欧美白嫩少妇大欣赏| 国内精品美女久久久久久| 午夜免费激情av| 精品久久久久久久久亚洲| 国产精品一二三区在线看| 精华霜和精华液先用哪个| 国产精品国产三级专区第一集| 欧美成人免费av一区二区三区| 七月丁香在线播放| 少妇的逼水好多| 免费观看人在逋| 夫妻性生交免费视频一级片| 精品人妻熟女av久视频| 五月伊人婷婷丁香| 久久久久久久亚洲中文字幕| 亚洲av电影在线观看一区二区三区 | 亚洲成人久久爱视频| 久久久午夜欧美精品| 亚洲av不卡在线观看| 亚洲精品乱久久久久久| 亚洲成av人片在线播放无| 日本爱情动作片www.在线观看| 小说图片视频综合网站| 51国产日韩欧美| 欧美日韩精品成人综合77777| 国产又黄又爽又无遮挡在线| 久久久久久大精品| 久久久久久久久久久免费av| 亚洲欧美中文字幕日韩二区| 亚洲精品日韩av片在线观看| 中文字幕人妻熟人妻熟丝袜美| 亚洲欧洲日产国产| 亚洲国产精品合色在线| 精品欧美国产一区二区三| 自拍偷自拍亚洲精品老妇| 别揉我奶头 嗯啊视频| 国产亚洲91精品色在线| 18+在线观看网站| 成人午夜高清在线视频| 国产免费一级a男人的天堂| 欧美3d第一页| 亚洲精品乱久久久久久| 国产成人一区二区在线| 亚洲欧美清纯卡通| 日本五十路高清| 直男gayav资源| 色哟哟·www| 久久久久国产网址| 精品一区二区三区视频在线| 91av网一区二区| 亚洲人成网站高清观看| 超碰av人人做人人爽久久| h日本视频在线播放| 亚洲欧美中文字幕日韩二区| 看非洲黑人一级黄片| 欧美一级a爱片免费观看看| 我要搜黄色片| 永久网站在线| 久热久热在线精品观看| 国产亚洲91精品色在线| 看免费成人av毛片| 亚洲国产精品成人久久小说| 久久精品国产自在天天线| 别揉我奶头 嗯啊视频| av免费在线看不卡| 日韩视频在线欧美| 国产亚洲午夜精品一区二区久久 | 欧美性猛交黑人性爽| 美女被艹到高潮喷水动态| 亚洲精品色激情综合| 久久久久久久亚洲中文字幕| 久久99热这里只有精品18| 久久精品国产鲁丝片午夜精品| 我的女老师完整版在线观看| 欧美xxxx黑人xx丫x性爽| 波多野结衣巨乳人妻| 色综合站精品国产| 熟妇人妻久久中文字幕3abv| 一二三四中文在线观看免费高清| 中文资源天堂在线| 亚洲欧美日韩无卡精品| 中文字幕制服av| 国内揄拍国产精品人妻在线| 精品人妻一区二区三区麻豆| 亚洲精品乱久久久久久| 欧美97在线视频| 男女边吃奶边做爰视频| 亚洲无线观看免费| 女人十人毛片免费观看3o分钟| 国产精品一区二区在线观看99 | 国产成年人精品一区二区| 联通29元200g的流量卡| 久久久精品欧美日韩精品| 国产精品乱码一区二三区的特点| 天天躁日日操中文字幕| 日本黄色视频三级网站网址| 麻豆成人午夜福利视频| 国产极品天堂在线| 国产精品久久久久久久久免| 在线观看一区二区三区| 亚洲精品一区蜜桃| 亚洲av成人精品一二三区| 在线播放国产精品三级| 亚洲精品色激情综合| 国产在线男女| 免费观看人在逋| 国产精品1区2区在线观看.| 国产精品熟女久久久久浪| 男女啪啪激烈高潮av片| 嘟嘟电影网在线观看| 久久久久久伊人网av| av专区在线播放| 深爱激情五月婷婷| 九草在线视频观看| 国产在视频线精品| 国内少妇人妻偷人精品xxx网站| 日本黄色片子视频| 亚洲av成人精品一二三区| 国产成人精品一,二区| 国产一区二区在线av高清观看| 日日摸夜夜添夜夜添av毛片| 丝袜美腿在线中文| 中文亚洲av片在线观看爽| 亚洲成人久久爱视频| 久久99蜜桃精品久久| 蜜桃久久精品国产亚洲av| 久久久久久久久久黄片| kizo精华| 卡戴珊不雅视频在线播放| 国产精品.久久久| 国国产精品蜜臀av免费| 秋霞伦理黄片| 嫩草影院新地址| 日韩国内少妇激情av| av在线天堂中文字幕| 91精品一卡2卡3卡4卡| 欧美zozozo另类| 午夜福利在线观看免费完整高清在| 狂野欧美白嫩少妇大欣赏| 日本色播在线视频| 午夜久久久久精精品| 亚洲国产欧美人成| 国产精品乱码一区二三区的特点| 国产黄色小视频在线观看| www.av在线官网国产| 亚洲av免费高清在线观看| 国产极品天堂在线| 免费黄网站久久成人精品| 一本—道久久a久久精品蜜桃钙片 精品乱码久久久久久99久播 | 熟妇人妻久久中文字幕3abv| 毛片一级片免费看久久久久| 国产av码专区亚洲av| 最近2019中文字幕mv第一页| 村上凉子中文字幕在线| av线在线观看网站| 国产黄a三级三级三级人| 欧美人与善性xxx| 最近手机中文字幕大全| 日韩av不卡免费在线播放|