• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    用于連續(xù)時(shí)間中策略梯度算法的動(dòng)作穩(wěn)定更新算法

    2023-10-17 22:55:26宋江帆李金龍
    計(jì)算機(jī)應(yīng)用研究 2023年10期
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)

    宋江帆 李金龍

    摘 要:在強(qiáng)化學(xué)習(xí)中,策略梯度法經(jīng)常需要通過(guò)采樣將連續(xù)時(shí)間問(wèn)題建模為離散時(shí)間問(wèn)題。為了建模更加精確,需要提高采樣頻率,然而過(guò)高的采樣頻率可能會(huì)使動(dòng)作改變頻率過(guò)高,從而降低訓(xùn)練效率。針對(duì)這個(gè)問(wèn)題,提出了動(dòng)作穩(wěn)定更新算法。該方法使用策略函數(shù)輸出的改變量計(jì)算動(dòng)作重復(fù)的概率,并根據(jù)該概率隨機(jī)地重復(fù)或改變動(dòng)作。在理論上分析了算法性能。之后在九個(gè)不同的環(huán)境中評(píng)估算法的性能,并且將它和已有方法進(jìn)行了比較。該方法在其中六個(gè)環(huán)境下超過(guò)了現(xiàn)有方法。實(shí)驗(yàn)結(jié)果表明,動(dòng)作穩(wěn)定更新算法可以有效提高策略梯度法在連續(xù)時(shí)間問(wèn)題中的訓(xùn)練效率。

    關(guān)鍵詞:強(qiáng)化學(xué)習(xí); 連續(xù)時(shí)間; 策略梯度; 動(dòng)作重復(fù)

    中圖分類號(hào):TP389.1 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-007-2928-05

    doi:10.19734/j.issn.1001-3695.2023.02.0092

    Action stable updating algorithm for policy gradient methods in continuous time

    Song Jiangfan, Li Jinlong

    (School of Computer Science & Technology, University of Science & Technology of China, Hefei 230000, China)

    Abstract:In reinforcement learning, the policy gradient algorithm often needs to model the continuous-time process as a discrete-time process through sampling. To model the problem more accurately, it improves the sampling frequency. However, the excessive sampling frequency may reduce the training efficiency. To solve this problem, this paper proposed action stable updating algorithm. This method calculated the probability of action repetition using the change of the output of the policy function, and randomly repeated or changed the action based on this probability. This paper theoretically analyzed the perfor-mance of this method. This paper evaluated the performance of this method in nine different environments and compared it with the existing methods. This method surpassed existing methods in six of these environments. The experimental results show that this method can improve the training efficiency of the policy gradient algorithm in continuous-time problems.

    Key words:reinforcement learning; continuous time; policy gradient; action repetition

    0 引言

    強(qiáng)化學(xué)習(xí)是人工智能領(lǐng)域中的一個(gè)重要研究方向,它可以應(yīng)用于各種不同的應(yīng)用,有潛力解決很多現(xiàn)實(shí)世界的問(wèn)題,例如智能機(jī)器人、金融或自動(dòng)駕駛。經(jīng)典的強(qiáng)化學(xué)習(xí)算法將環(huán)境建模為離散時(shí)間馬爾可夫決策過(guò)程。然而在很多現(xiàn)實(shí)問(wèn)題中,時(shí)間是連續(xù)的,處理連續(xù)時(shí)間的強(qiáng)化學(xué)習(xí)算法還不夠成熟。

    在強(qiáng)化學(xué)習(xí)中,已經(jīng)提出了一些專門針對(duì)連續(xù)時(shí)間馬爾可夫決策過(guò)程的算法[1~3]。這些算法都是針對(duì)特定問(wèn)題設(shè)計(jì)的,它們?cè)黾恿烁鞣N不同的關(guān)于轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)的先驗(yàn)假設(shè)。例如在自適應(yīng)控制領(lǐng)域,提出了大量基于連續(xù)時(shí)間的算法[4~8]。自適應(yīng)控制可以看成是強(qiáng)化學(xué)習(xí)的一個(gè)特例。在自適應(yīng)控制中,經(jīng)常假設(shè)狀態(tài)關(guān)于時(shí)間是可微的,并且狀態(tài)關(guān)于時(shí)間的微分方程符合一些特定的形式,比如假設(shè)微分方程是線性的。有了這些假設(shè),模型的訓(xùn)練會(huì)簡(jiǎn)單很多。在自適應(yīng)控制中,通常從一個(gè)確定性的初始策略開始,通過(guò)迭代優(yōu)化算法來(lái)獲得最優(yōu)策略,而不需要隨機(jī)探索。

    目前,連續(xù)時(shí)間馬爾可夫決策過(guò)程的通用算法仍然大量使用的是基于離散時(shí)間的強(qiáng)化學(xué)習(xí)算法。這類算法需要以一定的時(shí)間間隔τ來(lái)對(duì)時(shí)間進(jìn)行采樣,并將問(wèn)題建模為離散時(shí)間過(guò)程。時(shí)間間隔τ決定了智能體決策的頻率,并且會(huì)影響強(qiáng)化學(xué)習(xí)的效果[9,10]。具體來(lái)說(shuō),一些實(shí)際應(yīng)用需要智能體的反映盡可能快,例如自動(dòng)駕駛,而時(shí)間間隔會(huì)影響智能體的反映時(shí)間。為了減少反映時(shí)間,時(shí)間間隔需要盡可能小。然而對(duì)于基于離散時(shí)間的算法,過(guò)小的時(shí)間間隔會(huì)導(dǎo)致新的問(wèn)題。在基于Q值的強(qiáng)化學(xué)習(xí)算法中,當(dāng)時(shí)間間隔趨于零時(shí),同一狀態(tài)的不同動(dòng)作對(duì)應(yīng)的Q(s,a)會(huì)趨向于同一個(gè)值V(s),從而導(dǎo)致算法無(wú)法正確學(xué)習(xí)策略。為了解決這個(gè)問(wèn)題,有人提出了advantage updating [11],它通過(guò)使用公式[Q(s,a)-V(s)]/τ替代Q(s,a)來(lái)解決這個(gè)問(wèn)題。之后,有人將advantage updating結(jié)合到了深度神經(jīng)網(wǎng)絡(luò)中[12]。

    對(duì)于基于策略梯度的算法,減小時(shí)間間隔τ會(huì)增加動(dòng)作改變的頻率,這會(huì)導(dǎo)致增加優(yōu)勢(shì)函數(shù)的相對(duì)誤差[12,13]和降低智能體的探索效率兩個(gè)新問(wèn)題。為了解決這兩個(gè)問(wèn)題,最樸素的方法是選擇一個(gè)合適的時(shí)間間隔[10]。除此之外,如果動(dòng)作空間連續(xù),那么可以使用自相關(guān)噪聲代替策略函數(shù)中的白噪聲控制動(dòng)作改變的幅度,來(lái)達(dá)到類似于減小動(dòng)作改變頻率的效果[14~16]。對(duì)于一般性的動(dòng)作空間,可以使用動(dòng)作重復(fù)來(lái)解決動(dòng)作改變頻率過(guò)高的問(wèn)題,也就是讓智能體自己決定動(dòng)作持續(xù)的時(shí)間或重復(fù)的次數(shù)[13,17]。其中最簡(jiǎn)單的方法是讓智能體自己輸出動(dòng)作重復(fù)的次數(shù),即FiGAR(fine grained action repetition)[17]。然而,這種方法會(huì)導(dǎo)致智能體在狀態(tài)有突發(fā)變化時(shí)無(wú)法立刻響應(yīng)[13]。為了解決這個(gè)問(wèn)題,有人提出了SAR(safe action repetition)[13]。SAR使用一個(gè)額外的策略函數(shù)π(d|s)輸出狀態(tài)改變量的一個(gè)閾值d,動(dòng)作會(huì)一直重復(fù)到狀態(tài)的變化超過(guò)d。然而在很多環(huán)境中,狀態(tài)的改變量無(wú)法定義(例如狀態(tài)是一幅圖片),使得SAR無(wú)法應(yīng)用。

    在這些動(dòng)作重復(fù)方法中,需要計(jì)算重復(fù)次數(shù)或者狀態(tài)改變量的閾值,然而,這些變量的最優(yōu)值很難計(jì)算。因?yàn)檫@些變量不僅影響訓(xùn)練效率,同時(shí)也影響?yīng)剟?lì)。如果只使用獎(jiǎng)勵(lì)來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò)去估計(jì)重復(fù)次數(shù)[17]或狀態(tài)改變量的閾值[13],那么就會(huì)忽略掉對(duì)訓(xùn)練效率的影響。神經(jīng)網(wǎng)絡(luò)可能會(huì)為了更高的獎(jiǎng)勵(lì)輸出較小的值,從而降低模型的訓(xùn)練效率。與SAR不同,本文提出了一個(gè)根據(jù)動(dòng)作分布改變量隨機(jī)決定動(dòng)作是否重復(fù)的新方法。

    為了改進(jìn)現(xiàn)有動(dòng)作重復(fù)方法的問(wèn)題,提出了動(dòng)作穩(wěn)定更新算法。對(duì)于大多數(shù)強(qiáng)化學(xué)習(xí)任務(wù),狀態(tài)空間的大小遠(yuǎn)大于動(dòng)作空間,因此在不同狀態(tài)下的最優(yōu)動(dòng)作可能是相同的。所以當(dāng)狀態(tài)發(fā)生改變時(shí)動(dòng)作不一定需要改變。與SAR不同,該算法通過(guò)使用策略函數(shù)的改變量判斷動(dòng)作是否有必要重復(fù)。由于不需要計(jì)算狀態(tài)的改變量,所以可以應(yīng)用在狀態(tài)距離無(wú)法定義的環(huán)境,從而解決了SAR的主要問(wèn)題。為了降低模型的訓(xùn)練難度,該方法不訓(xùn)練額外的神經(jīng)網(wǎng)絡(luò)來(lái)確定動(dòng)作的持續(xù)時(shí)間,而是根據(jù)策略函數(shù)輸出動(dòng)作分布的改變量決定動(dòng)作是否重復(fù)的概率,并根據(jù)該概率隨機(jī)地重復(fù)或改變動(dòng)作。策略函數(shù)的輸出變化越大,改變動(dòng)作的概率也越大。

    本文的貢獻(xiàn)包括如下方面:

    a)提出了動(dòng)作穩(wěn)定更新算法來(lái)解決基于策略梯度的強(qiáng)化學(xué)習(xí)算法在連續(xù)時(shí)間問(wèn)題中動(dòng)作變化頻率過(guò)高的問(wèn)題,該方法可以應(yīng)用于一般化的強(qiáng)化學(xué)習(xí)問(wèn)題。在動(dòng)作穩(wěn)定更新算法中,動(dòng)作重復(fù)的概率取決于策略函數(shù)在每一步輸出的動(dòng)作分布相對(duì)于上一步的改變量。

    b)在理論上證明了該方法有兩個(gè)優(yōu)良性質(zhì):(a)智能體可以立刻響應(yīng)狀態(tài)的變化;(b)在正常情況下,無(wú)論時(shí)間間隔如何變化,動(dòng)作改變的頻率都是有界的。目前為止,動(dòng)作穩(wěn)定更新算法是唯一同時(shí)滿足這兩個(gè)性質(zhì)的算法。

    將動(dòng)作穩(wěn)定更新算法應(yīng)用到了PPO2[18]和MAPPO[19],并在多種不同的環(huán)境中進(jìn)行了測(cè)試。測(cè)試環(huán)境來(lái)自于OpenAI Gym[20]、Atari[21]和StarCraft multi-agent challenge(SMAC)[22]。實(shí)驗(yàn)結(jié)果顯示,該方法可以在大多強(qiáng)化學(xué)習(xí)任務(wù)中有效提升基于策略梯度的強(qiáng)化學(xué)習(xí)算法的性能,并且在大部分環(huán)境下超過(guò)了之前的SAR和FiGAR。

    對(duì)于不使用動(dòng)作重復(fù)的策略梯度法,滿足瞬時(shí)性而不滿足穩(wěn)定性。對(duì)于FiGAR[17]或SAR[12],滿足穩(wěn)定性而不滿足瞬時(shí)性。就目前而言,動(dòng)作穩(wěn)定更新算法是唯一同時(shí)滿足這兩個(gè)性質(zhì)的算法。

    4 實(shí)驗(yàn)

    為了探究動(dòng)作穩(wěn)定更新算法是否可以更好地解決連續(xù)時(shí)間馬爾可夫決策過(guò)程,將該方法應(yīng)用到了PPO2[18]和MAPPO[19],并在如下環(huán)境中進(jìn)行了測(cè)試:OpenAI Gym[20]、Atari[21]和StarCraft multi-agent challenge(SMAC)[22]。

    4.1 實(shí)驗(yàn)環(huán)境

    在九個(gè)不同環(huán)境中評(píng)估了動(dòng)作穩(wěn)定更新算法。所有環(huán)境參數(shù)設(shè)置為默認(rèn)值。不同環(huán)境的動(dòng)作空間、狀態(tài)空間和任務(wù)各不相同,如表1所示。

    4.2 對(duì)比方法和實(shí)驗(yàn)設(shè)置

    實(shí)驗(yàn)對(duì)比了FiGAR[17]、SAR[13]和沒有動(dòng)作重復(fù)的策略梯度法。SAR的狀態(tài)距離函數(shù)和原文保持一致,即‖1-2‖1/dim(S),其中‖·‖1是L1范數(shù),是根據(jù)平均值和方差歸一化之后的狀態(tài)。自適應(yīng)隨機(jī)動(dòng)作重復(fù)的超參數(shù)ε為0.2/τ,SAR的超參數(shù)dmax為0.5,F(xiàn)iGAR的超參數(shù)dmax為10τ,其中τ為環(huán)境默認(rèn)的時(shí)間間隔。

    實(shí)驗(yàn)參數(shù)如下:實(shí)驗(yàn)中16個(gè)環(huán)境并行運(yùn)行;每更新一次每個(gè)環(huán)境執(zhí)行128步;獎(jiǎng)勵(lì)調(diào)整為原始獎(jiǎng)勵(lì)的百分之一;學(xué)習(xí)速率為0.004;每次更新迭代10次;神經(jīng)網(wǎng)絡(luò)除Breakout外使用多層全連接網(wǎng)絡(luò),深度為2,隱藏層大小為64。

    4.3 簡(jiǎn)單環(huán)境下的實(shí)驗(yàn)結(jié)果

    為了對(duì)比不同算法性能差異,在來(lái)自O(shè)penAI Gym[20]的七個(gè)簡(jiǎn)單環(huán)境下進(jìn)行了測(cè)試,如圖1~7所示。其中橫軸代表訓(xùn)練所經(jīng)過(guò)的環(huán)境步數(shù),縱軸代表總獎(jiǎng)勵(lì)的平均值,每條曲線為五次運(yùn)行取的平均值?!?our”代表動(dòng)作穩(wěn)定更新算法。

    這七個(gè)環(huán)境可以分為三類:第一類環(huán)境需要?jiǎng)幼鞲淖兊念l率較低,包括MountainCar和MountainCarContinuous;第二類環(huán)境需要?jiǎng)幼鞯母淖冾l率較高,這樣才能獲得較高的獎(jiǎng)勵(lì),包括BipedalWalker和CartPole;剩下的為第三類環(huán)境,它們對(duì)動(dòng)作頻率沒有明顯的要求,包括Acrobot、Pendulum和LunarLander。之后將分別討論不同算法在這三類環(huán)境下的表現(xiàn)。

    如圖1、2所示,對(duì)于第一類環(huán)境,動(dòng)作穩(wěn)定更新算法和FiGAR表現(xiàn)較好,這可能是因?yàn)樗鼈兡軌虮3謩?dòng)作的穩(wěn)定。相比于FiGAR,動(dòng)作穩(wěn)定更新算法的效果更好一些,這可能是因?yàn)閯?dòng)作穩(wěn)定更新算法在保持動(dòng)作穩(wěn)定的同時(shí)還保證動(dòng)作的瞬時(shí)性,即動(dòng)作可以立刻對(duì)狀態(tài)的變化作出反應(yīng)。

    具體來(lái)說(shuō),在環(huán)境MountainCarCountinous-v0中,每執(zhí)行一個(gè)動(dòng)作都會(huì)得到一個(gè)負(fù)的獎(jiǎng)勵(lì)除非什么都不做,這使得它很容易陷入局部最優(yōu),此時(shí)需要保證動(dòng)作的穩(wěn)定來(lái)增加探索效率。如圖1所示,PPO2獲得的獎(jiǎng)勵(lì)總是最低,似乎是陷入了局部最優(yōu)。而PPO2+FiGAR和PPO2+our總能得到最高的獎(jiǎng)勵(lì)。PPO2+SAR比PPO2好一些,可能是有一定概率陷入局部最優(yōu)。

    在環(huán)境MountainCar-v0中,如果動(dòng)作改變頻繁的話探索效率會(huì)很低。如圖2所示,這個(gè)問(wèn)題可以通過(guò)動(dòng)作穩(wěn)定更新算法或FiGAR解決。雖然SAR也是一個(gè)動(dòng)作重復(fù)方法,但是它無(wú)法解決這個(gè)問(wèn)題,這主要是由于狀態(tài)的距離難以定義。SAR在計(jì)算距離時(shí)使用state的方差進(jìn)行歸一化,但是在訓(xùn)練中狀態(tài)的方差是不斷變化的,這導(dǎo)致了狀態(tài)的改變量無(wú)法正確計(jì)算。

    對(duì)于第二類環(huán)境,即需要?jiǎng)幼鞯母淖冾l率較高的環(huán)境,由于不存在動(dòng)作改變頻率過(guò)高的問(wèn)題,所以直接使用原始PPO2算法即可。但是因?yàn)榭赡軣o(wú)法事先知道環(huán)境是否屬于第二類,所以依然希望各種算法在這類環(huán)境能夠表現(xiàn)良好。

    如圖3、4所示,對(duì)于第二類環(huán)境,原始PPO2的表現(xiàn)最為出色,這與理論上的分析結(jié)果一致。SAR的結(jié)果比FiGAR和動(dòng)作穩(wěn)定更新算法的結(jié)果更好,這可能是因?yàn)镕iGAR和動(dòng)作穩(wěn)定更新算法傾向于讓動(dòng)作保持穩(wěn)定,使得動(dòng)作的改變頻率過(guò)低。相比之下,SAR的動(dòng)作改變頻率更高一些,所以沒有落后原始PPO2太多。

    在第三類環(huán)境中,沒有對(duì)動(dòng)作改變頻率的特殊要求。圖5~7展示了不同算法在第三類環(huán)境中的表現(xiàn)。其中動(dòng)作穩(wěn)定更新算法略好于原始PPO2,為表現(xiàn)最好的算法。這主要是因?yàn)閯?dòng)作穩(wěn)定更新算法具有瞬時(shí)性,這使得該算法在保持動(dòng)作穩(wěn)定的同時(shí)可以立刻對(duì)狀態(tài)的變化進(jìn)行響應(yīng),所以表現(xiàn)通常不會(huì)比PPO2更差;又由于該算法保持了動(dòng)作的穩(wěn)定,所以一定程度上提高了訓(xùn)練效率。而SAR的表現(xiàn)最差,這可能是因?yàn)闋顟B(tài)間的距離難以準(zhǔn)確計(jì)算。

    4.4 復(fù)雜環(huán)境下的實(shí)驗(yàn)結(jié)果

    設(shè)計(jì)動(dòng)作穩(wěn)定更新算法的一個(gè)原因是SAR不能用在狀態(tài)距離難以定義的復(fù)雜環(huán)境中。為了探究動(dòng)作穩(wěn)定更新算法是否可以應(yīng)用于一般環(huán)境,在Breadout-v4和SMAC中的3m中評(píng)估了動(dòng)作穩(wěn)定更新算法。其中Breakout-v4的狀態(tài)是一個(gè)圖片;SMAC是一個(gè)多智能體環(huán)境,時(shí)間間隔設(shè)置為一幀。FiGAR在多智能體環(huán)境中會(huì)同時(shí)輸出多個(gè)不同的時(shí)間間隔,這使得不同智能體的同步存在一些困難,所以SMAC中沒有測(cè)試FiGAR。實(shí)驗(yàn)結(jié)果如圖8、9所示。其中橫軸代表環(huán)境步數(shù),縱軸代表總獎(jiǎng)勵(lì)的平均值,每條曲線為五次運(yùn)行取的平均值?!?our”代表動(dòng)作穩(wěn)定更新算法。

    對(duì)于Breakout-v4,圖8展示了PPO2、PPO2+our和PPO2+FiGAR的對(duì)比結(jié)果。PPO2+our的表現(xiàn)超過(guò)了PPO2+FiGAR并和PPO2類似。對(duì)于SMAC的3m,圖9展示了MAPPO和MAPPO2+our的結(jié)果,其中MAPPO為多智能體環(huán)境下的基于策略梯度的強(qiáng)化學(xué)習(xí)算法。動(dòng)作穩(wěn)定更新算法明顯提升了MAPPO的表現(xiàn),尤其是在頻率高的情況下。

    這些結(jié)果顯示動(dòng)作穩(wěn)定更新算法可以應(yīng)用于一些復(fù)雜的環(huán)境。由于該方法是根據(jù)策略函數(shù)來(lái)判斷動(dòng)作是重復(fù)還是更新,所以只要策略函數(shù)可以運(yùn)行該算法就可以使用,這使得該方法應(yīng)用范圍更廣。

    4.5 實(shí)驗(yàn)總結(jié)

    根據(jù)以上實(shí)驗(yàn),可以結(jié)合理論分析得出不同算法的優(yōu)缺點(diǎn),如表2所示。

    5 結(jié)束語(yǔ)

    為了提升基于策略梯度的強(qiáng)化學(xué)習(xí)算法解決連續(xù)時(shí)間馬爾可夫決策過(guò)程的能力,提出了動(dòng)作穩(wěn)定更新算法。該方法讓策略梯度法可以在不影響訓(xùn)練效率的前提下減小響應(yīng)時(shí)間,從而提升整體性能,并且該方法可以應(yīng)用于一般的連續(xù)時(shí)間馬爾可夫決策過(guò)程問(wèn)題,證明了該方法的瞬時(shí)性和穩(wěn)定性。在實(shí)驗(yàn)中,將動(dòng)作穩(wěn)定更新算法應(yīng)用到了來(lái)自于OpenAI Gym、Atari和SMAC的九個(gè)不同的環(huán)境中,實(shí)驗(yàn)結(jié)果顯示該方法在大部分環(huán)境下表現(xiàn)得更好。

    理論上,如果策略函數(shù)是最優(yōu)的,動(dòng)作穩(wěn)定更新算法可以選擇合適的重復(fù)次數(shù)。然而,如果策略函數(shù)沒有經(jīng)過(guò)充分的訓(xùn)練,動(dòng)作重復(fù)的次數(shù)可能過(guò)多。這可能是動(dòng)作穩(wěn)定更新算法在實(shí)驗(yàn)中的兩個(gè)環(huán)境上表現(xiàn)差的原因。在策略經(jīng)過(guò)充分訓(xùn)練之前選擇合適的重復(fù)次數(shù)仍然是一個(gè)問(wèn)題。

    參考文獻(xiàn):

    [1]Munos R. Policy gradient in continuous time[J].The Journal of Machine Learning Research,2006,7:771-791.

    [2]Wang Haoran, Zariphopoulou T, Zhou Xunyu. Reinforcement lear-ning in continuous time and space:a stochastic control approach[J].Journal of Machine Learning Research,2020,21(1):8145-8178.

    [3]唐波,李衍杰,殷保群.連續(xù)時(shí)間部分可觀Markov決策過(guò)程的策略梯度估計(jì)[J].控制理論與應(yīng)用,2009,26(7):805-808.(Tang Bo, Li Yanjie, Yin Baoqun. The policy gradient estimation for continuous-time partially observable Markovian decision processes[J].Control Theory & Applications,2009,26(7):805-808.)

    [4]Du Jianzhun, Futoma J, Doshi-Velez F. Model-based reinforcement learning for semi-Markov decision processes with neural ODEs[J].Advances in Neural Information Processing Systems,2020,33:19805-19816.

    [5]He Shuping, Fang Haiyang, Zhang Maoguang, et al. Adaptive optimal control for a class of nonlinear systems:the online policy iteration approach[J].IEEE Trans on Neural Networks and Learning Systems,2019,31(2):549-558.

    [6]Modares H, Lewis F L, Jiang Zhongping. Tracking control of completely unknown continuous-time systems via off-policy reinforcement learning[J].IEEE Trans on Neural Networks and Learning Systems,2015,26(10):2550-2562.

    [7]Vamvoudakis K G, Lewis F L. Online actor-critic algorithm to solve the continuous-time infinite horizon optimal control problem[J].Automatica,2010,46(5):878-888.

    [8]Vrabie D, Pastravanu O, Abu-Khalaf M, et al. Adaptive optimal control for continuous-time linear systems based on policy iteration[J].Automatica,2009,45(2):477-484.

    [9]Braylan A, Hollenbeck M, Meyerson E, et al. Frame skip is a power-ful parameter for learning to play Atari[C]//Proc of the 29th AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press,2015:10-11.

    [10]Zhang Zichen, Kirschner J, Zhang Junxi, et al. Managing temporal resolution in continuous value estimation:a fundamental trade-off[EB/OL].(2022-12-17).https://arxiv.org/abs/2212.08949.

    [11]Baird L C. Reinforcement learning in continuous time: advantage updating[C]//Proc of IEEE International Conference on Neural Networks.Piscataway,NJ:IEEE Press,1994:2448-2453.

    [12]Tallec C, Blier L, Ollivier Y. Making deep Q-learning methods robust to time discretization[C]//Proc of the 36th International Confe-rence on Machine Learning.[S.l.]:PMLR,2019:6096-6104.

    [13]Park S, Kim J, Kim G. Time discretization-invariant safe action repetition for policy gradient methods[J].Advances in Neural Information Processing Systems,2021,34:267-279.

    [14]Korenkevych D, Mahmood A R, Vasan G, et al. Autoregressive policies for continuous control deep reinforcement learning[EB/OL].(2019-03-27).https://arxiv.org/abs/1903.11524.

    [15]Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[EB/OL].(2019-07-05).https://arxiv.org/abs/1509.02971.

    [16]Wawrzynski P. Control policy with autocorrelated noise in reinforcement learning for robotics[J].International Journal of Machine Learning and Computing,2015,5(2):91-95.

    [17]Sharma S, Srinivas A, Ravindran B. Learning to repeat: fine grained action repetition for deep reinforcement learning[EB/OL].(2020-09-21).https://arxiv.org/abs/1702.06054.

    [18]Schulman J, Wolski F, Dhariwal P, et al. Proximal policy optimization algorithms[EB/OL].(2017-08-28).https://arxiv.org/abs/1707.06347.

    [19]Yu Chao, Velu A, Vinitsky E, et al. The surprising effectiveness of PPO in cooperative,multi-agent games[EB/OL].(2022-11-04).https://arxiv.org/abs/2103.01955.

    [20]Brockman G, Cheung V, Pettersson L, et al. OpenAI Gym[EB/OL].(2016-06-05).https://arxiv.org/abs/1606.01540.

    [21]Bellemare M G, Naddaf Y, Veness J, et al. The arcade learning environment:an evaluation platform for general agents[J].Journal of Artificial Intelligence Research,2013,47:253-279.

    [22]Samvelyan M, Rashid T, De Witt C S, et al. The StarCraft multi-agent challenge[EB/OL].(2019-12-09).https://arxiv.org/abs/1902.04043.

    收稿日期:2023-02-27;修回日期:2023-04-06

    作者簡(jiǎn)介:宋江帆(1999-),男,河南新密人,碩士研究生,主要研究方向?yàn)閺?qiáng)化學(xué)習(xí);李金龍(1975-),男(通信作者),安徽合肥人,副教授,碩導(dǎo),博士,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、大數(shù)據(jù)分析、強(qiáng)化學(xué)習(xí)(jlli@ustc.edu.cn).

    猜你喜歡
    強(qiáng)化學(xué)習(xí)
    基于強(qiáng)化學(xué)習(xí)的無(wú)線網(wǎng)絡(luò)智能接入控制技術(shù)
    機(jī)器學(xué)習(xí)發(fā)展現(xiàn)狀及應(yīng)用的研究
    未來(lái)人工智能自主學(xué)習(xí)網(wǎng)絡(luò)的構(gòu)建
    轉(zhuǎn)觀念 強(qiáng)服務(wù) 樹立用電檢查新價(jià)值
    智能車自主避障路徑規(guī)劃研究綜述
    一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
    基于強(qiáng)化學(xué)習(xí)的在線訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫”在初中英語(yǔ)寫作教學(xué)中的應(yīng)用
    智能交通車流自動(dòng)導(dǎo)引系統(tǒng)
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    久久久久精品国产欧美久久久| 老司机靠b影院| 精品久久久久久久人妻蜜臀av| 熟女少妇亚洲综合色aaa.| 国产区一区二久久| 欧美人与性动交α欧美精品济南到| 亚洲国产欧美一区二区综合| 最近最新中文字幕大全免费视频| 亚洲精品色激情综合| 免费av毛片视频| 99国产极品粉嫩在线观看| 一进一出抽搐gif免费好疼| 日韩中文字幕欧美一区二区| 黑人巨大精品欧美一区二区mp4| 亚洲av五月六月丁香网| 看片在线看免费视频| 日本一本二区三区精品| 在线播放国产精品三级| 国产亚洲欧美精品永久| 久久久国产成人精品二区| 日韩一卡2卡3卡4卡2021年| 99精品久久久久人妻精品| 日本a在线网址| 久久久久久国产a免费观看| 精品乱码久久久久久99久播| 日本 av在线| 2021天堂中文幕一二区在线观 | 91成人精品电影| 村上凉子中文字幕在线| 波多野结衣高清无吗| 午夜视频精品福利| 国产亚洲av高清不卡| 国产精品亚洲一级av第二区| 亚洲色图av天堂| 亚洲最大成人中文| 欧美国产精品va在线观看不卡| 9191精品国产免费久久| 亚洲av中文字字幕乱码综合 | 两个人免费观看高清视频| 巨乳人妻的诱惑在线观看| 国产精品综合久久久久久久免费| 777久久人妻少妇嫩草av网站| 欧美国产精品va在线观看不卡| 757午夜福利合集在线观看| 色综合婷婷激情| 久久国产亚洲av麻豆专区| 男女那种视频在线观看| www.精华液| 亚洲成国产人片在线观看| 日本撒尿小便嘘嘘汇集6| 在线看三级毛片| bbb黄色大片| 可以在线观看的亚洲视频| 桃红色精品国产亚洲av| 99riav亚洲国产免费| 欧美黑人巨大hd| 99久久无色码亚洲精品果冻| 午夜福利在线观看吧| 日本免费a在线| 国产伦人伦偷精品视频| 日韩欧美免费精品| 国产成人精品无人区| 国产亚洲精品久久久久5区| 国产精品精品国产色婷婷| 丝袜美腿诱惑在线| 午夜亚洲福利在线播放| 久久天躁狠狠躁夜夜2o2o| 国产色视频综合| 99精品久久久久人妻精品| 中文字幕人妻熟女乱码| 在线观看日韩欧美| 国产亚洲欧美98| 久久久久国产一级毛片高清牌| 国产精品久久电影中文字幕| 老司机福利观看| 久久久久久亚洲精品国产蜜桃av| tocl精华| xxxwww97欧美| 老司机福利观看| 精品久久久久久久久久久久久 | 亚洲精品av麻豆狂野| 可以在线观看毛片的网站| 精品一区二区三区av网在线观看| 啦啦啦观看免费观看视频高清| 啦啦啦韩国在线观看视频| 亚洲自偷自拍图片 自拍| 亚洲专区字幕在线| 亚洲国产精品合色在线| 夜夜看夜夜爽夜夜摸| 国产亚洲精品综合一区在线观看 | 最近最新中文字幕大全免费视频| 18禁美女被吸乳视频| 精品久久久久久久末码| 欧美成人一区二区免费高清观看 | 国产精品亚洲美女久久久| 国产激情欧美一区二区| 人人妻人人看人人澡| 免费在线观看视频国产中文字幕亚洲| 又黄又爽又免费观看的视频| 日本成人三级电影网站| 久久久久久人人人人人| 亚洲成人精品中文字幕电影| 美女午夜性视频免费| 精品乱码久久久久久99久播| 岛国视频午夜一区免费看| 日韩欧美三级三区| 长腿黑丝高跟| 久久久久久国产a免费观看| 人成视频在线观看免费观看| 大香蕉久久成人网| 中文字幕人妻熟女乱码| 日韩一卡2卡3卡4卡2021年| 在线av久久热| 婷婷丁香在线五月| 国产片内射在线| 欧美一级a爱片免费观看看 | 中文字幕av电影在线播放| 色综合婷婷激情| 手机成人av网站| 亚洲三区欧美一区| 伊人久久大香线蕉亚洲五| 国产又爽黄色视频| 国产免费av片在线观看野外av| 亚洲精品粉嫩美女一区| 少妇裸体淫交视频免费看高清 | 日韩欧美一区视频在线观看| 男女床上黄色一级片免费看| 露出奶头的视频| 亚洲五月天丁香| 香蕉国产在线看| 美女 人体艺术 gogo| 亚洲avbb在线观看| 久久热在线av| 国产亚洲精品av在线| 不卡av一区二区三区| 老司机靠b影院| 亚洲美女黄片视频| 巨乳人妻的诱惑在线观看| 欧美黑人欧美精品刺激| 亚洲人成77777在线视频| 久久亚洲真实| 中文字幕人妻熟女乱码| 国内精品久久久久久久电影| 亚洲avbb在线观看| 啦啦啦观看免费观看视频高清| 韩国av一区二区三区四区| 亚洲一区中文字幕在线| 亚洲国产高清在线一区二区三 | 99精品欧美一区二区三区四区| 国产精品自产拍在线观看55亚洲| 99国产精品一区二区蜜桃av| 制服诱惑二区| 老司机午夜福利在线观看视频| 中文字幕久久专区| 精品卡一卡二卡四卡免费| 精品国产亚洲在线| 亚洲国产精品sss在线观看| 88av欧美| 久久久久久久午夜电影| 午夜福利免费观看在线| 男女之事视频高清在线观看| 十八禁人妻一区二区| 久久香蕉激情| 中出人妻视频一区二区| 91老司机精品| 欧美日本视频| 色老头精品视频在线观看| 色播在线永久视频| 亚洲最大成人中文| 亚洲人成网站在线播放欧美日韩| 欧美亚洲日本最大视频资源| 午夜福利高清视频| 男女做爰动态图高潮gif福利片| 美女高潮到喷水免费观看| 亚洲七黄色美女视频| 亚洲色图 男人天堂 中文字幕| 在线看三级毛片| 黄片播放在线免费| 超碰成人久久| 黄色 视频免费看| 午夜福利18| 国产av不卡久久| 久久中文字幕人妻熟女| 狠狠狠狠99中文字幕| 亚洲一卡2卡3卡4卡5卡精品中文| 日韩一卡2卡3卡4卡2021年| 国产久久久一区二区三区| 一级毛片精品| 搞女人的毛片| 亚洲精品在线美女| 最好的美女福利视频网| 1024香蕉在线观看| 一a级毛片在线观看| 国产真人三级小视频在线观看| 午夜福利一区二区在线看| 国产欧美日韩一区二区三| 久久欧美精品欧美久久欧美| 香蕉丝袜av| 黄色视频不卡| 丰满的人妻完整版| 99久久99久久久精品蜜桃| 亚洲av片天天在线观看| 老司机在亚洲福利影院| 男人舔女人的私密视频| 欧美日韩瑟瑟在线播放| 国产精品99久久99久久久不卡| 国产亚洲精品一区二区www| 12—13女人毛片做爰片一| 国产精品久久久人人做人人爽| а√天堂www在线а√下载| 操出白浆在线播放| 欧美一级a爱片免费观看看 | 99精品在免费线老司机午夜| 又黄又爽又免费观看的视频| 精品电影一区二区在线| 国产av一区二区精品久久| 午夜亚洲福利在线播放| aaaaa片日本免费| 国产精品一区二区免费欧美| 777久久人妻少妇嫩草av网站| 97碰自拍视频| 国产精品香港三级国产av潘金莲| a级毛片a级免费在线| 午夜福利视频1000在线观看| 欧美成人免费av一区二区三区| 国产1区2区3区精品| 国产精品一区二区精品视频观看| 每晚都被弄得嗷嗷叫到高潮| 日本 av在线| 香蕉丝袜av| 久99久视频精品免费| 欧洲精品卡2卡3卡4卡5卡区| 韩国av一区二区三区四区| 老司机靠b影院| 亚洲第一青青草原| 色播亚洲综合网| 亚洲一卡2卡3卡4卡5卡精品中文| √禁漫天堂资源中文www| 午夜日韩欧美国产| 国产一区二区三区视频了| 亚洲精品久久成人aⅴ小说| av在线天堂中文字幕| 18禁黄网站禁片午夜丰满| 黄色丝袜av网址大全| 色老头精品视频在线观看| 国产成人系列免费观看| 露出奶头的视频| 99精品久久久久人妻精品| 久久人妻av系列| 国产亚洲av高清不卡| 少妇被粗大的猛进出69影院| 男女之事视频高清在线观看| 国产97色在线日韩免费| 国产亚洲精品综合一区在线观看 | 免费看a级黄色片| 成人免费观看视频高清| 99久久国产精品久久久| 一区二区三区国产精品乱码| 亚洲av成人不卡在线观看播放网| 久久久久久大精品| xxxwww97欧美| 热re99久久国产66热| 好男人电影高清在线观看| 欧美激情极品国产一区二区三区| 中文字幕人妻熟女乱码| 一级毛片精品| www.自偷自拍.com| 黑丝袜美女国产一区| av片东京热男人的天堂| 国产亚洲精品综合一区在线观看 | av中文乱码字幕在线| 99国产综合亚洲精品| 欧美丝袜亚洲另类 | 最好的美女福利视频网| 亚洲中文av在线| 久99久视频精品免费| 真人做人爱边吃奶动态| 亚洲专区中文字幕在线| 久久久久久国产a免费观看| 欧美日韩一级在线毛片| 一级毛片高清免费大全| 91成人精品电影| 日韩欧美免费精品| 成人国语在线视频| 天天一区二区日本电影三级| 日韩 欧美 亚洲 中文字幕| 免费观看人在逋| 成人国语在线视频| 9191精品国产免费久久| 午夜福利在线在线| 极品教师在线免费播放| 亚洲人成伊人成综合网2020| 精品卡一卡二卡四卡免费| 亚洲自拍偷在线| 亚洲av熟女| 午夜成年电影在线免费观看| 国产精品1区2区在线观看.| 一进一出好大好爽视频| 久久久久国内视频| 91大片在线观看| 国产午夜福利久久久久久| 国产成人av教育| 国产精品 欧美亚洲| 国语自产精品视频在线第100页| 亚洲成人精品中文字幕电影| 亚洲欧美一区二区三区黑人| 成年女人毛片免费观看观看9| 色婷婷久久久亚洲欧美| 久久精品国产亚洲av香蕉五月| 欧美成狂野欧美在线观看| 国产99久久九九免费精品| 久久精品91蜜桃| 88av欧美| 国产熟女午夜一区二区三区| 一卡2卡三卡四卡精品乱码亚洲| 午夜激情av网站| 一区二区日韩欧美中文字幕| 中国美女看黄片| 日本一本二区三区精品| 老司机靠b影院| 亚洲狠狠婷婷综合久久图片| 日本撒尿小便嘘嘘汇集6| 国产伦在线观看视频一区| 亚洲 欧美 日韩 在线 免费| 亚洲熟妇熟女久久| 久99久视频精品免费| 9191精品国产免费久久| 精品人妻1区二区| 成在线人永久免费视频| 久久久国产成人精品二区| 天天一区二区日本电影三级| 国产真人三级小视频在线观看| 亚洲一码二码三码区别大吗| 中出人妻视频一区二区| 又黄又爽又免费观看的视频| 久久亚洲精品不卡| 最近最新免费中文字幕在线| 久久久久精品国产欧美久久久| 色婷婷久久久亚洲欧美| 国产主播在线观看一区二区| 日本 欧美在线| 制服人妻中文乱码| 老熟妇乱子伦视频在线观看| 久久精品aⅴ一区二区三区四区| 麻豆av在线久日| 中文字幕最新亚洲高清| 亚洲一区二区三区色噜噜| 国产精品二区激情视频| 国产成人av教育| 超碰成人久久| 亚洲片人在线观看| 午夜免费激情av| 久久久久久久久免费视频了| 日韩欧美国产一区二区入口| 精品国产乱码久久久久久男人| 亚洲男人的天堂狠狠| 亚洲va日本ⅴa欧美va伊人久久| 久久亚洲精品不卡| 丝袜人妻中文字幕| 中文字幕最新亚洲高清| 在线观看www视频免费| 国产亚洲欧美在线一区二区| 99热6这里只有精品| 看片在线看免费视频| 久久人人精品亚洲av| 久久亚洲真实| 黄色a级毛片大全视频| 波多野结衣高清无吗| 国产成人精品无人区| 国产又黄又爽又无遮挡在线| 久久精品91蜜桃| 免费女性裸体啪啪无遮挡网站| 91大片在线观看| 久久欧美精品欧美久久欧美| 人成视频在线观看免费观看| 中文字幕最新亚洲高清| 国产一区二区三区视频了| 露出奶头的视频| 熟女少妇亚洲综合色aaa.| 妹子高潮喷水视频| 88av欧美| 熟妇人妻久久中文字幕3abv| av在线播放免费不卡| 黄片大片在线免费观看| 真人做人爱边吃奶动态| 亚洲国产精品sss在线观看| 亚洲精华国产精华精| 脱女人内裤的视频| 亚洲精品一区av在线观看| 国产精品 国内视频| 夜夜躁狠狠躁天天躁| 欧美日本亚洲视频在线播放| cao死你这个sao货| 国产激情欧美一区二区| 国产在线观看jvid| 制服诱惑二区| 两性午夜刺激爽爽歪歪视频在线观看 | 国产私拍福利视频在线观看| 亚洲色图 男人天堂 中文字幕| 日日摸夜夜添夜夜添小说| 精品国产一区二区三区四区第35| 国产真实乱freesex| 欧美性长视频在线观看| 黄色女人牲交| 欧美日韩一级在线毛片| 国产精品亚洲美女久久久| www.999成人在线观看| 成年女人毛片免费观看观看9| 999久久久精品免费观看国产| 黄频高清免费视频| 制服人妻中文乱码| 久久久国产欧美日韩av| 男人的好看免费观看在线视频 | av电影中文网址| 18禁国产床啪视频网站| 老司机午夜十八禁免费视频| 国产精品1区2区在线观看.| 午夜福利免费观看在线| 正在播放国产对白刺激| 精品久久久久久久末码| 久久伊人香网站| 亚洲 国产 在线| 精品久久久久久久末码| 精品卡一卡二卡四卡免费| 国产欧美日韩一区二区三| xxxwww97欧美| 麻豆久久精品国产亚洲av| cao死你这个sao货| 亚洲欧洲精品一区二区精品久久久| 人人妻,人人澡人人爽秒播| 亚洲av熟女| 一级毛片高清免费大全| 一区二区日韩欧美中文字幕| 精品一区二区三区四区五区乱码| 亚洲五月色婷婷综合| 香蕉丝袜av| 精品国产乱子伦一区二区三区| 美女免费视频网站| 国产欧美日韩一区二区精品| www日本在线高清视频| 久久香蕉国产精品| 欧美中文综合在线视频| 国产男靠女视频免费网站| 一本一本综合久久| 超碰成人久久| 哪里可以看免费的av片| 人妻久久中文字幕网| 午夜福利高清视频| 丝袜人妻中文字幕| 91在线观看av| 国产精品一区二区三区四区久久 | 色播在线永久视频| 亚洲精品美女久久久久99蜜臀| 国产成人精品久久二区二区91| 免费在线观看完整版高清| 女人被狂操c到高潮| 18禁观看日本| 亚洲五月婷婷丁香| 亚洲午夜精品一区,二区,三区| 91av网站免费观看| 国产1区2区3区精品| 欧美激情 高清一区二区三区| 人妻久久中文字幕网| 97碰自拍视频| 亚洲成av人片免费观看| 欧美激情久久久久久爽电影| 欧美激情极品国产一区二区三区| www.熟女人妻精品国产| 无遮挡黄片免费观看| 99精品久久久久人妻精品| 精品不卡国产一区二区三区| 黄色视频,在线免费观看| 久久午夜综合久久蜜桃| 精品久久久久久,| 可以在线观看的亚洲视频| 亚洲三区欧美一区| cao死你这个sao货| 女人爽到高潮嗷嗷叫在线视频| 国产精品二区激情视频| 国产精品永久免费网站| 搡老岳熟女国产| av片东京热男人的天堂| 一区二区三区高清视频在线| 又大又爽又粗| 国产精品亚洲美女久久久| 亚洲av日韩精品久久久久久密| 中文字幕最新亚洲高清| 国产又爽黄色视频| 美女 人体艺术 gogo| 国产一级毛片七仙女欲春2 | 又黄又爽又免费观看的视频| 免费高清在线观看日韩| 精品一区二区三区av网在线观看| 午夜福利一区二区在线看| 午夜激情福利司机影院| 亚洲电影在线观看av| 日韩av在线大香蕉| 久久精品国产综合久久久| 日本精品一区二区三区蜜桃| 丰满人妻熟妇乱又伦精品不卡| 97人妻精品一区二区三区麻豆 | 在线观看舔阴道视频| 男女床上黄色一级片免费看| 国产av一区在线观看免费| 国产野战对白在线观看| 99精品久久久久人妻精品| 在线观看www视频免费| 在线观看免费日韩欧美大片| 777久久人妻少妇嫩草av网站| 日本免费a在线| 女人爽到高潮嗷嗷叫在线视频| 久久久久久久午夜电影| 99精品在免费线老司机午夜| 亚洲成人国产一区在线观看| 观看免费一级毛片| 国产私拍福利视频在线观看| 精品久久久久久成人av| 精华霜和精华液先用哪个| 女人被狂操c到高潮| 久久久国产欧美日韩av| 国产视频内射| av中文乱码字幕在线| 精品无人区乱码1区二区| 天天躁夜夜躁狠狠躁躁| 精品熟女少妇八av免费久了| 午夜视频精品福利| 欧美人与性动交α欧美精品济南到| 精品国产超薄肉色丝袜足j| 久久精品成人免费网站| 日韩精品中文字幕看吧| 男女之事视频高清在线观看| 中文字幕精品免费在线观看视频| av在线天堂中文字幕| 国产成人精品久久二区二区免费| 琪琪午夜伦伦电影理论片6080| 亚洲 欧美一区二区三区| 久久中文看片网| 欧美大码av| 黄色女人牲交| 久久伊人香网站| 午夜福利一区二区在线看| 亚洲国产精品久久男人天堂| 男女下面进入的视频免费午夜 | 欧美乱色亚洲激情| 欧美激情高清一区二区三区| 免费在线观看视频国产中文字幕亚洲| 国产午夜精品久久久久久| 国产成人av激情在线播放| 亚洲av成人av| 看免费av毛片| 一二三四社区在线视频社区8| 夜夜躁狠狠躁天天躁| 亚洲久久久国产精品| 啦啦啦韩国在线观看视频| 岛国视频午夜一区免费看| 最近最新中文字幕大全电影3 | 亚洲国产欧美一区二区综合| 欧美不卡视频在线免费观看 | 亚洲aⅴ乱码一区二区在线播放 | 88av欧美| 久久人妻av系列| 国产私拍福利视频在线观看| 成人一区二区视频在线观看| 美女高潮喷水抽搐中文字幕| xxx96com| 亚洲av成人av| 久久 成人 亚洲| 欧美激情极品国产一区二区三区| 一级毛片高清免费大全| 99国产综合亚洲精品| 亚洲天堂国产精品一区在线| 欧美午夜高清在线| 91大片在线观看| 黄片小视频在线播放| 男女那种视频在线观看| 亚洲成av片中文字幕在线观看| 亚洲欧美日韩高清在线视频| 变态另类丝袜制服| 亚洲av成人一区二区三| 亚洲九九香蕉| 激情在线观看视频在线高清| 亚洲aⅴ乱码一区二区在线播放 | 欧美不卡视频在线免费观看 | www.www免费av| 一级黄色大片毛片| 日韩大码丰满熟妇| 亚洲精品中文字幕在线视频| 在线观看日韩欧美| 国产精品久久久久久亚洲av鲁大| 久久久久久亚洲精品国产蜜桃av| 国产精品久久久av美女十八| 黄色丝袜av网址大全| 亚洲av美国av| 人妻丰满熟妇av一区二区三区| 亚洲av日韩精品久久久久久密| 亚洲午夜理论影院| 性色av乱码一区二区三区2| 曰老女人黄片| 18禁裸乳无遮挡免费网站照片 | 亚洲,欧美精品.| 一级毛片精品| 亚洲九九香蕉| 亚洲一区中文字幕在线| 麻豆av在线久日| 每晚都被弄得嗷嗷叫到高潮| av福利片在线| 国产亚洲精品第一综合不卡| 99热这里只有精品一区 | 国产国语露脸激情在线看| 亚洲全国av大片| 亚洲成a人片在线一区二区| 久久国产精品男人的天堂亚洲| 特大巨黑吊av在线直播 | 久久伊人香网站| 中文字幕人妻丝袜一区二区|