基于延遲策略的最大熵優(yōu)勢演員評論家算法

2020-09-07 01:48:26祁文凱桑國明

小型微型計算機(jī)系統(tǒng) 2020年8期

祁文凱,桑國明

(大連海事大學(xué) 信息科學(xué)與技術(shù)學(xué)院，遼寧大連116026)E-mail:sangguoming@dlmu.edu.cn

1 引言

強(qiáng)化學(xué)習(xí)作為一種重要的機(jī)器學(xué)習(xí)方法，成為了繼深度學(xué)習(xí)之后，學(xué)術(shù)界和工業(yè)界追捧的熱點(diǎn)[1].從目前的形勢來看，強(qiáng)化學(xué)習(xí)發(fā)展前途一片光明，并在不同的領(lǐng)域取得了令人驚艷的成果，如視頻游戲，機(jī)器人控制，人機(jī)對話，無人駕駛等[2].強(qiáng)化學(xué)習(xí)的核心思想是解決序貫決策問題，在智能體和環(huán)境的交互過程中，需要連續(xù)不斷地做出決策[3]，并從環(huán)境中獲得累計的獎勵值，最大化該獎勵值從而使整個任務(wù)序列達(dá)到最優(yōu).

近年來，強(qiáng)化學(xué)習(xí)領(lǐng)域的研究大多數(shù)集中于深度強(qiáng)化學(xué)習(xí)方面，Xuesong Wang等人通過最小化單步Bellman殘差來減少價值函數(shù)更新的累積誤差，提出了基于近似策略的加速算法(APA)[4]，APA使用先前的值函數(shù)估計值來輔助更新當(dāng)前值函數(shù)，減小了單步誤差對算法精度的影響，提高了智能體在復(fù)雜任務(wù)中的學(xué)習(xí)效率，最終獲得更準(zhǔn)確的Q值估計，通過將APA與DQN，Double DQN和DDPG結(jié)合，形成了三種改進(jìn)的算法：APA-DQN，APA-Double DQN和APADDPG.Xuesong Wang等人通過將神經(jīng)網(wǎng)絡(luò)參數(shù)從某個單一值轉(zhuǎn)換為函數(shù)分布來增強(qiáng)智能體的探索能力，設(shè)置兩組參數(shù)來加速參數(shù)分配優(yōu)化，提出了近端參數(shù)分布優(yōu)化算法(PPDO)[5].PPDO限制了兩個連續(xù)的參數(shù)更新，避免隨機(jī)噪聲對優(yōu)化穩(wěn)定性的影響，減小了值函數(shù)逼近產(chǎn)生的方差和偏差，加快參數(shù)分布優(yōu)化的過程并提高參數(shù)分布優(yōu)化的穩(wěn)定性.

在強(qiáng)化學(xué)習(xí)發(fā)展的道路上，谷歌的人工智能團(tuán)隊Deepmind創(chuàng)造性地將深度網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)算法結(jié)合形成深度強(qiáng)化學(xué)習(xí)，成為了人工智能研究領(lǐng)域的里程碑，并由此衍生出許多強(qiáng)化學(xué)習(xí)的經(jīng)典算法.如將強(qiáng)化學(xué)習(xí)中的Q-Learning方法和卷積神經(jīng)網(wǎng)絡(luò)(CNN)[6,7]結(jié)合而形成的深度Q網(wǎng)絡(luò)學(xué)習(xí)方法(DQN)[8]；Hasselt等人將動作的選擇和動作的評估分別用不同的值函數(shù)來表示，提出了深度雙Q網(wǎng)絡(luò)(Double DQN)[9]；Narasimhan等人將長短時間記憶單元(LSTM)引入 DQN 中，提出了帶有 LSTM 單元的深度循環(huán) Q 網(wǎng)絡(luò)(DRQN)[10]；Wang等人將DQN的網(wǎng)絡(luò)結(jié)構(gòu)分解為優(yōu)勢函數(shù)和與動作無關(guān)的狀態(tài)值函數(shù)，用這兩個分解后的函數(shù)來生成狀態(tài)動作值函數(shù)，提出了深度競爭的Q網(wǎng)絡(luò)(Dueling DQN)[11].

但上述的求解最優(yōu)策略的強(qiáng)化學(xué)習(xí)算法都是基于值函數(shù)進(jìn)行求解的，即求解arg maxaQ(s,a)，當(dāng)要解決的問題動作空間很大或者動作為連續(xù)集時[12]，該式無法有效求解.因此相關(guān)領(lǐng)域的學(xué)者們研究出基于策略梯度的強(qiáng)化學(xué)習(xí)方法[13]，該算法直接計算策略可能更新的方向[14].在真實(shí)的環(huán)境交互中，由于需要控制訓(xùn)練智能體的成本，往往會造成與環(huán)境不充分的交互數(shù)據(jù)，從而導(dǎo)致智能體從環(huán)境中得到的獎勵回報產(chǎn)生較大的方差[15].為了使方差降低，學(xué)者們進(jìn)一步提出了演員評論家(actor-critic)算法[16,17]，該算法利用一個獨(dú)立的模型估計交互軌跡的長期回報，而不再使用交互軌跡的真實(shí)回報，并在多數(shù)Atari 2600游戲中取得了較高的獎勵回報分?jǐn)?shù)[18].

傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法在值函數(shù)的更新公式中都有最大化操作，這會導(dǎo)致估計的值函數(shù)比真實(shí)值函數(shù)大，從而產(chǎn)生過估計問題[19].在高維復(fù)雜的環(huán)境中，智能體與環(huán)境交互所得的樣本復(fù)雜度也會變得非常高，并且其獎勵回報值將變得難以收斂，表現(xiàn)出明顯的不穩(wěn)定性[20,21].本文提出的基于延遲策略的最大熵優(yōu)勢演員評論家(DAAC)算法，使用了兩個評論家網(wǎng)絡(luò)，分別計算狀態(tài)值函數(shù)和動作的優(yōu)勢估計值函數(shù)，使智能體可以選擇更好的策略來獲得更高的獎勵回報；使用延遲策略更新的技巧來提高策略獎勵回報的收斂性；使用最大熵框架，使策略的期望獎勵回報和期望熵都達(dá)到最大，從而使智能體在有限的環(huán)境交互中，進(jìn)行更廣泛的探索.該算法在OpenAI Gym的物理仿真模擬器MuJoCo上進(jìn)行實(shí)驗(yàn)，并與傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法作對比，DAAC算法取得了更高的環(huán)境獎勵回報值，更快速的學(xué)習(xí)到了最優(yōu)策略，并且表現(xiàn)出更好的收斂性和穩(wěn)定性.

2 相關(guān)工作

2.1 強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)的基本內(nèi)容是智能體在完成某項任務(wù)時，首先通過動作與環(huán)境進(jìn)行交互，產(chǎn)生新的狀態(tài)并會獲得環(huán)境反饋給智能體的獎勵回報值，隨著交互次數(shù)的增加，智能體利用與環(huán)境交互產(chǎn)生的數(shù)據(jù)不斷改進(jìn)動作選擇策略來獲得更高的獎勵值[22]，經(jīng)過多次迭代，智能體最終可以探索出完成相應(yīng)任務(wù)的最優(yōu)策略[23].

強(qiáng)化學(xué)習(xí)的目標(biāo)是給定一個馬爾科夫決策過程，尋找最優(yōu)策略，該決策過程由元組(S,A,P,R,γ)表示，其中S為有限的狀態(tài)集，A為有限的動作集，P為狀態(tài)轉(zhuǎn)移概率，R為環(huán)境獎勵回報值，γ為用于計算累計獎勵值的折扣系數(shù)[24].強(qiáng)化學(xué)習(xí)使用狀態(tài)動作值函數(shù)Qπ(s,a)來評估策略，該函數(shù)被定義為智能體在當(dāng)前狀態(tài)s，根據(jù)策略π，執(zhí)行動作a所獲取的獎勵值的期望：

(1)

智能體的目標(biāo)是探索出最優(yōu)的狀態(tài)動作值函數(shù)，即:

Q*(s,a)=maxQπ(s,a)

(2)

該最優(yōu)函數(shù)遵循貝爾曼最優(yōu)方程：

(3)

然后通過反復(fù)迭代該貝爾曼方程求解狀態(tài)動作值函數(shù)Q，最終該函數(shù)會收斂到最優(yōu)解[7,9]，也就得出了智能體的最優(yōu)策略π*=argmaxaQ*(s,a).但在實(shí)際的環(huán)境交互過程中，通過迭代貝爾曼方程來求解最優(yōu)策略會產(chǎn)生諸多問題.高維復(fù)雜的環(huán)境會使原有的計算量過大，并且迭代獲得的獎勵值會隨著時間的變化變得較難收斂甚至發(fā)散[15,20].在強(qiáng)化學(xué)習(xí)算法中，可以使用深度神經(jīng)網(wǎng)絡(luò)等非線性函數(shù)去近似表示值函數(shù)或策略[4]，但這種方式帶來的問題是，訓(xùn)練樣本的復(fù)雜度會隨著迭代交互的次數(shù)而增加，訓(xùn)練過程也存在著不穩(wěn)定性[13].因此可以采取直接計算策略可能更新方向的方法，即策略梯度算法.該算法能夠提高計算效率，使智能體獲得更高的環(huán)境獎勵回報值以及更好的算法穩(wěn)定性[7,16].

2.2 策略梯度強(qiáng)化學(xué)習(xí)算法

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法中，智能體通過迭代計算狀態(tài)動作值函數(shù)的貝爾曼方程[1,10]，來探索可以獲得最大獎勵回報值的策略.而在基于策略梯度的強(qiáng)化學(xué)習(xí)算法中，通過直接迭代更新策略的參數(shù)值，來獲得最大獎勵回報值的期望，這個參數(shù)值所對應(yīng)的就是最優(yōu)策略.與傳統(tǒng)算法中對值函數(shù)進(jìn)行參數(shù)化表示相比，策略梯度算法對策略π進(jìn)行參數(shù)化表示[15]，使得算法參數(shù)化更簡單且有較好的收斂性，當(dāng)智能體交互環(huán)境的動作為連續(xù)集或者動作空間域很大，策略梯度算法可以有效地進(jìn)行求解.策略梯度算法公式見式(4):

θlogπθ(ai,t|si,t)

(4)

其中J(θ)表示目標(biāo)函數(shù)，對目標(biāo)函數(shù)進(jìn)行求導(dǎo)運(yùn)算，并做積分變換，最后再使用蒙特卡洛近似方法對上式中的期望進(jìn)行替換：

(5)

但該計算策略梯度的公式中也存在一些缺陷：無論智能體在與環(huán)境的交互過程中處于什么時間段，策略的梯度總是乘以所有時刻的回報值總和，不符合實(shí)際需求，所以可以使用兩個不同的時間變量t,t′來表示t時刻之前和t時刻之后的獎勵值：

θlogπθ(ai,t|si,t)

(6)

存在某種情況，環(huán)境對智能體的獎勵值始終為正，會導(dǎo)致策略梯度求解問題存在一定的波動性，為了使智能體能夠讓最大化獎勵值策略的“權(quán)重”為正且盡可能大，讓不能最大化獎勵值策略的“權(quán)重”為負(fù)且盡可能小，這里引入一個偏移量bi,t′表示為：

(7)

策略梯度求解公式就可以表示為：

θlogπθ(ai,t|si,t)

(8)

這種方法不僅降低了算法的波動性，而且也不會影響最終智能體獲得的環(huán)境獎勵值.許多基于策略梯度的強(qiáng)化學(xué)習(xí)算法也普遍使用該方法.

3 基于延遲策略的最大熵優(yōu)勢演員評論家算法

3.1 演員評論家算法框架

在真實(shí)的智能體與環(huán)境的交互過程中，為了限制交互次數(shù)，會導(dǎo)致估計得到的獎勵值序列與真實(shí)值之間存在較大差異，導(dǎo)致獎勵回報值的方差較大，并且常規(guī)的策略梯度算法也表現(xiàn)出較慢的收斂速度，因此解決這些問題的一種方法是Actor-Critic，即演員評論家算法.

演員評論家算法包括兩個模型網(wǎng)絡(luò)，Actor 表示策略模型網(wǎng)絡(luò)，Critic表示價值模型網(wǎng)絡(luò).Actor使用策略函數(shù)πθ(ai|si)并根據(jù)當(dāng)前環(huán)境狀態(tài)來選擇下一步的動作，它將狀態(tài)的表現(xiàn)映射到動作選擇概率，并且可以在不需要對值函數(shù)進(jìn)行優(yōu)化的情況下做出決策策略.Critic負(fù)責(zé)評估Actor的決策策略，并引導(dǎo)Actor改進(jìn)策略.它通過構(gòu)造狀態(tài)動作值函數(shù)Qπ(s,a)，使用TD偏差估計由Actor計算的策略πθ所能獲得的預(yù)期獎勵值，以此來加速智能體的學(xué)習(xí)進(jìn)程并有效減小方差.狀態(tài)動作值函數(shù)由式(9)表示：

Qπ(s,a)=R(st,at)+V(st+1)-V(st)

(9)

圖1表示演員評論家算法的基本結(jié)構(gòu)，其中智能體根據(jù)Actor網(wǎng)絡(luò)的策略πθ(ai|si)來選擇下一動作，并與環(huán)境交互獲得獎勵值和智能體的下一個狀態(tài)，將這兩個變量傳入Critic網(wǎng)絡(luò)，Critic網(wǎng)絡(luò)通過狀態(tài)動作值函數(shù)Qπ(s,a)計算出TD偏差，并將TD偏差傳入Actor網(wǎng)絡(luò)，由此來評估當(dāng)前策略，便于Actor網(wǎng)絡(luò)對策略進(jìn)行改進(jìn)以獲得更高的獎勵值和更穩(wěn)定的學(xué)習(xí)過程.

圖1 演員評論家算法結(jié)構(gòu)圖

3.2 最大熵優(yōu)勢模型

Actor-Critic算法通常從策略迭代開始，迭代在策略評估和策略改進(jìn)之間交替進(jìn)行，在環(huán)境較復(fù)雜的強(qiáng)化學(xué)習(xí)問題中，將這兩個步驟運(yùn)行到收斂通常都是不現(xiàn)實(shí)的，因此本文提出了最大熵優(yōu)勢模型，將值函數(shù)和策略聯(lián)合優(yōu)化.傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法的目標(biāo)是最大化獎勵回報值的期望，即：

(10)

而在最大熵優(yōu)勢模型中，將算法的目標(biāo)設(shè)置為策略的預(yù)期熵，并最大化這個預(yù)期熵.由于在智能體探索環(huán)境的過程中，環(huán)境的條件以及下一時刻的狀態(tài)是未知的，因此智能體根據(jù)已探索過的環(huán)境得出的策略，不作任何對未知環(huán)境狀態(tài)的假設(shè)，策略把未知的狀態(tài)動作進(jìn)行等概率處理，從而使?fàn)顟B(tài)動作值函數(shù)的概率分布變得最均勻，因此熵也是最大的.基于該模型的隨機(jī)策略公式如式(11)：

(11)

其中平衡系數(shù)ω表示在策略π中，獎勵值與熵的相對重要性，通過調(diào)整ω的大小變化，可以控制策略的隨機(jī)性.在本文的實(shí)驗(yàn)中，使用該系數(shù)的倒數(shù)ω-1來表示.策略的熵用Η(π(at,st+1))表示.

在傳統(tǒng)的Actor-Critic算法中，Critic網(wǎng)絡(luò)通過使用Q-learning和單一的輸出序列來計算狀態(tài)動作值函數(shù)Qπ(s,a)，并建立環(huán)境狀態(tài)和智能體動作之間的聯(lián)系.但在高維復(fù)雜的環(huán)境中，部分狀態(tài)不單單只取決于智能體選擇的動作，二者具有一定的獨(dú)立性.因此，本文提出的算法模型中設(shè)計了兩個評論家網(wǎng)絡(luò)，分別計算狀態(tài)值函數(shù)V(st)和動作優(yōu)勢函數(shù)A(st,at).其結(jié)構(gòu)模型如圖2所示.

圖2 演員優(yōu)勢評論家算法結(jié)構(gòu)圖

動作優(yōu)勢值是一個相對值，它衡量智能體在某種狀態(tài)下可能發(fā)生的動作的相對優(yōu)劣，并且它獨(dú)立于環(huán)境狀態(tài)和環(huán)境噪聲，因此它可以提高Q函數(shù)的準(zhǔn)確性和運(yùn)算效率.演員網(wǎng)絡(luò)基于策略梯度法選擇智能體的動作，兩個評論家網(wǎng)絡(luò)共同為演員網(wǎng)絡(luò)提供Q函數(shù)，以此來調(diào)整并選擇最優(yōu)策略.該狀態(tài)動作值函數(shù)Q可形式化表示為式(12)：

Qπ(st,at)=V(st)+A(st,at)

(12)

由于狀態(tài)值函數(shù)V(st)和動作優(yōu)勢函數(shù)A(st,at)存在很多種潛在的可能組合，會增加算法的波動性，因此對動作優(yōu)勢函數(shù)A(st,at)附加一定的約束條件，讓每一個A(st,at)函數(shù)減去當(dāng)前狀態(tài)下所有A(st,at)函數(shù)的平均值，因?yàn)閮?yōu)勢值只需要以同樣的速度變化，以此來提高算法的穩(wěn)定性：

(13)

將上述算法結(jié)構(gòu)中的狀態(tài)值函數(shù)V(st)和狀態(tài)動作值函數(shù)Qπ(s,a)分別進(jìn)行參數(shù)化表示，即Vα(st)和Qβ(st,at).通過更新參數(shù)α，β來分別優(yōu)化值函數(shù)，其中狀態(tài)動作值函數(shù)Qβ(st,at)不使用經(jīng)驗(yàn)重放緩沖區(qū)中的數(shù)據(jù)，而是根據(jù)當(dāng)前Actor網(wǎng)絡(luò)的策略對可能采取的動作進(jìn)行采樣，訓(xùn)練參數(shù)β使Qβ(st,at)的平方差最小：

(14)

其中，策略π是基于最大熵的隨機(jī)策略，使用隨機(jī)梯度下降法對JQ(β)進(jìn)行更新：

(15)

其中Q′(st,at)可表示為：

(16)

該Q′(st,at)是由兩個評論家網(wǎng)絡(luò)共同計算得出的狀態(tài)動作值函數(shù)，并包括了當(dāng)前狀態(tài)的獎勵值以及累積的狀態(tài)值函數(shù)的期望.

同理訓(xùn)練參數(shù)α使Vα(st)的平方差最?。?/p>

(17)

其中D是從經(jīng)驗(yàn)重放緩沖區(qū)采集的狀態(tài)和動作的樣本，同理使用隨機(jī)梯度下降法對JV(α)進(jìn)行更新：

(18)

最大熵優(yōu)勢模型保證了智能體可以對環(huán)境進(jìn)行更廣泛的探索，在已知的狀態(tài)下，對未知的狀態(tài)和動作進(jìn)行等概率處理，有效地縮小了計算方差，采用兩個評論家網(wǎng)絡(luò)，計算動作的相對優(yōu)勢值來評估并改進(jìn)演員網(wǎng)絡(luò)的當(dāng)前策略.通過在高維復(fù)雜的環(huán)境實(shí)驗(yàn)中，證明該模型框架可以使智能體獲得更高的獎勵回報值和更穩(wěn)定的交互訓(xùn)練過程.

3.3 延遲評論家網(wǎng)絡(luò)的策略更新

在傳統(tǒng)的強(qiáng)化學(xué)習(xí)問題中，智能體通過當(dāng)前時刻的回報和下一時刻的價值估計進(jìn)行更新，由于從經(jīng)驗(yàn)回放緩沖區(qū)采樣的數(shù)據(jù)之間存在差異，導(dǎo)致更新存在較大波動性，并且會使值函數(shù)的估計迅速發(fā)散.因此為了解決波動性和發(fā)散的問題，學(xué)者們提出采用目標(biāo)網(wǎng)絡(luò)更新，這也被應(yīng)用在了大多數(shù)經(jīng)典的強(qiáng)化學(xué)習(xí)算法中.

目標(biāo)網(wǎng)絡(luò)是實(shí)現(xiàn)深度強(qiáng)化學(xué)習(xí)穩(wěn)定性的重要工具，它設(shè)置一個不會大幅更新的模型，將智能體計算的目標(biāo)值函數(shù)在一段時間內(nèi)固定，這在一定程度上可以減少波動，并降低了發(fā)散的可能性，令計算過程更穩(wěn)定.

傳統(tǒng)的演員評論家算法是一種異策略(off-policy)的強(qiáng)化學(xué)習(xí)算法，使用貪婪策略π=arg maxaQ(st,at)，并以θ為參數(shù)建立貝爾曼均方差的損失函數(shù)如式(19)：

L(θ)=Eπ(st,at)[(Q(st,at|θ)-Yt)2]

(19)

其中目標(biāo)值函數(shù)Yt表示為式(20)：

Yt=R(st+at)+γQ(st+1,at+1|θ)

(20)

由于狀態(tài)動作值函數(shù)Q(st,at|θ)和目標(biāo)值函數(shù)Yt使用相同的更新參數(shù)θ，最小化該貝爾曼均方差損失函數(shù)會變得不穩(wěn)定，函數(shù)逼近誤差會不斷積累.

本文提出延遲評論家網(wǎng)絡(luò)的策略更新，通過延緩評論家網(wǎng)絡(luò)的更新速率，設(shè)置一個固定的閾值系數(shù)τ，該系數(shù)緩慢跟蹤智能體正在學(xué)習(xí)的策略，并調(diào)節(jié)目標(biāo)網(wǎng)絡(luò)在更新中的比重，以此來更新目標(biāo)網(wǎng)絡(luò)：

θtarget=τθ+(1-τ)θtarget

(21)

該方法限制了目標(biāo)值的變化速率，降低了值函數(shù)估計與策略之間的耦合性，也降低了最小化貝爾曼均方差損失函數(shù)的不穩(wěn)定性，把函數(shù)逼近的累積誤差對策略的影響降到最低，通過實(shí)驗(yàn)證明該方法有效提高了算法的穩(wěn)定性和收斂性.

在3.2節(jié)中的最大熵演員評論家算法框架中，根據(jù)式(14)，狀態(tài)動作值函數(shù)Qβ(st,at)的訓(xùn)練參數(shù)β使用到演員網(wǎng)絡(luò)的當(dāng)前策略π，同理根據(jù)式(17)，狀態(tài)值函數(shù)Vα(st)的訓(xùn)練參數(shù)α也使用到策略π，因此使用閾值系數(shù)τ分別延遲更新基于參數(shù)α的狀態(tài)值函數(shù)Vα(st)和基于參數(shù)β的狀態(tài)動作值函數(shù)Qβ(st,at)：

αtarget=τα+(1-τ)αtarget

(22)

βtarget=τβ+(1-τ)βtarget

(23)

其中，αtarget，βtarget表示使用延遲更新之后的參數(shù).評論家網(wǎng)絡(luò)使用該參數(shù)進(jìn)行后續(xù)的隨機(jī)梯度下降更新值函數(shù)估計.

3.4 算法描述及分析

3.4.1 算法描述

本文提出的基于延遲策略的最大熵優(yōu)勢演員評論家強(qiáng)化學(xué)習(xí)算法(DAAC)的算法流程描述如算法1所示：

算法 1.基于延遲策略的最大熵優(yōu)勢演員評論家強(qiáng)化學(xué)習(xí)算法(DAAC)

1.初始化：演員網(wǎng)絡(luò)策略函數(shù)的參數(shù)θ，評論家網(wǎng)絡(luò)狀態(tài)值函數(shù)的參數(shù)α，評論家網(wǎng)絡(luò)狀態(tài)動作值函數(shù)的參數(shù)β

2.清空經(jīng)驗(yàn)重放緩沖區(qū)D

3.Repeat：(對每一個實(shí)驗(yàn)回合)：

4.根據(jù)智能體所處的當(dāng)前狀態(tài)s和演員網(wǎng)絡(luò)的策略π選擇動作a～πθ(st,at)；

5.智能體執(zhí)行動作a與環(huán)境進(jìn)行交互；

6.智能體獲得下一狀態(tài)s′，環(huán)境獎勵回報值r，并設(shè)置變量d指示智能體狀態(tài)s是否是探索環(huán)境的終止點(diǎn)；

7.將(s,a,r,s′,d)作為一次交互探索產(chǎn)生的樣本存入經(jīng)驗(yàn)重放緩沖區(qū)D中；

8.If演員網(wǎng)絡(luò)的策略需要優(yōu)化更新then：

Forj在每一個時間步驟中do：

9.隨機(jī)從經(jīng)驗(yàn)重放緩沖區(qū)中采集一個小

批量的樣本X，X=(s,a,r,s′,d)

10.在評論家1網(wǎng)絡(luò)中計算動作優(yōu)勢值函數(shù)

11.訓(xùn)練基于最大熵的隨機(jī)策略π

12.根據(jù)策略π訓(xùn)練狀態(tài)值函數(shù)的參數(shù)α

13.根據(jù)π訓(xùn)練狀態(tài)動作值函數(shù)的參數(shù)β

14.使用隨機(jī)梯度下降法更新參數(shù)α

15.使用隨機(jī)梯度下降法更新參數(shù)β

16.設(shè)置閾值變量τ延遲更新參數(shù)α

αtarget=τα+(1-τ)αtarget

17.設(shè)置閾值變量τ延遲更新參數(shù)β

βtarget=τβ+(1-τ)βtarget

18. End for

19. End if

20.Until智能體到達(dá)訓(xùn)練的終止點(diǎn)

3.4.2 算法分析

DAAC是一種基于異策略(off-policy)的演員評論家算法，并在最大熵優(yōu)勢框架中迭代，交替進(jìn)行策略評估和策略改進(jìn).為證明該算法的收斂性和穩(wěn)定性，需要構(gòu)建策略π的值函數(shù)，因此引入一個Bellman運(yùn)算符Γ，并將其擴(kuò)展到狀態(tài)值函數(shù)V(st)和狀態(tài)動作值函數(shù)Q(st,at)的估計中，當(dāng)需要精確表示狀態(tài)動作值函數(shù)Q時，該運(yùn)算符可以增大值函數(shù)估計與策略之間的不相關(guān)性.對于所有的狀態(tài)動作值函數(shù)Q(st,at)，狀態(tài)值st∈S，動作值at∈A，并設(shè)Γπ為最優(yōu)Bellman運(yùn)算符，且滿足不等式(24),式(25)：

ΓπQ(st,at)≤ΓQ(st,at)

(24)

ΓπQ(st,at)≥ΓQ(st,at)-λ[V(st)-Q(st,at)]

(25)

其中λ∈[0,1)，當(dāng)不等式(24)、式(25)同時成立，Γπ最終會產(chǎn)生最優(yōu)策略.在算法策略迭代過程中，根據(jù)式(11)中的最大熵目標(biāo)來計算策略π的值函數(shù)，并重復(fù)應(yīng)用Bellman最優(yōu)運(yùn)算符Γπ：

ΓπQ(st,at)=R(st,at)+γE(st+1)～ρ[V(st+1)]

(26)

其中ρ為狀態(tài)轉(zhuǎn)移概率，對于確定的策略π，從ρ:S×A→R開始，狀態(tài)動作值函數(shù)Q按照式(26)進(jìn)行迭代計算.

在策略改進(jìn)計算中，定義分區(qū)函數(shù)Zπold(st)對策略分布進(jìn)行歸一化，并根據(jù)Kullback-Leibler散度的定義將改進(jìn)的策略π?投影到策略集合Π中，從而計算更新后的策略如式(27):

(27)

將更新后的策略πnew作為狀態(tài)動作值函數(shù)Q的指數(shù).

定理.對于所有的智能體探索環(huán)境的狀態(tài)動作值集(st,at)，令(st,at)∈S×A，|A|<，S×A→R，不等式Qπnew(st,at)≥Qπold(st,at)成立，并且定義狀態(tài)動作值函數(shù)序列Qk，滿足Qk+1=ΓπQk，序列Qk將收斂到π.

證明:根據(jù)式(11)，定義最大熵獎勵值函數(shù)為：

Rπ(st,at)=R(st,at)+Ε(st+1)～ρ[Η(π(at+1|st+1))]

(28)

其中最大熵獎勵值函數(shù)Rπ(st,at)是有界的，將該值函數(shù)應(yīng)用于狀態(tài)動作值函數(shù)Q(st,at)的更新中：

Q(st,at)=Rπ(st,at)+γE(st+1)～ρ,(at+1)～π[Q(st+1,at+1)]

(29)

在策略集合Π中，定義πold∈Π，則根據(jù)式(27)，更新后的策略πnew重新定義為：

(30)

因?yàn)闊o論是更新之前的策略πold還是更新之后的策略πnew，它們都包含于策略集合Π，所以不等式(31)成立：

Jπold(πnew(at|st))≤Jπold(πold(at|st))

(31)

接著分別求出新策略和舊策略的期望：

Eat～πnew[logπnew(at|st)-Qπold(st,at)+logZπold(st)]

Eat～πold[logπold(at|st)-Qπold(st,at)+logZπold(st)](32)

根據(jù)式(31)、式(32)可得出：Eat～πnew≤Eat～πold，因?yàn)榉謪^(qū)函數(shù)Zπold(st)只和當(dāng)前智能體所處環(huán)境狀態(tài)相關(guān)，所以不等關(guān)系為：

Eat～πnew[Qπold(st,at)-logπnew(at|st)]≥Vπold(st)

(33)

根據(jù)式(26)和定義條件Qk+1=ΓπQk將狀態(tài)動作值函數(shù)Q寫成Bellman方程的展開形式：

Qπold(st,at)=R(st,at)+γE(st+1)～ρ[Vπold(st+1)]≤R(st,at)+γE(st+1)～ρ[E(at+1)～πnew[Qπold(st+1,at+1)-logπnew(at+1|st+1)]]≤Qπnew(st,at)

(34)

由不等式(33)、式(34)可得出更新后的狀態(tài)動作值函數(shù)滿足Qπnew(st,at)≥Qπold(st,at)成立，因此值函數(shù)可以穩(wěn)定地收斂到策略π.證畢.

綜上所述，DAAC算法具有較好的穩(wěn)定性和收斂性.

4 實(shí)驗(yàn)結(jié)果及分析

本節(jié)中，首先介紹實(shí)驗(yàn)所用的平臺模擬器以及實(shí)驗(yàn)算法的參數(shù)設(shè)置.

4.1 實(shí)驗(yàn)?zāi)M器介紹

本文實(shí)驗(yàn)所使用的是基于Linux Ubuntu 16.04操作系統(tǒng)的MuJoCo Pro 150物理模擬器.MuJoCo是一個通用的物理仿真模擬器，其主要功能有以下幾方面：分析可逆的摩擦接觸動力學(xué)、模擬仿真機(jī)器人三維幾何的關(guān)節(jié)運(yùn)動、驅(qū)動一般的物理模擬器并重新配置其計算流水線、分離模型和數(shù)據(jù)并提供交互式的模擬和用戶可視化、提供強(qiáng)大而直觀的建模語言并可自動生成復(fù)合柔性對象.

本文采用了4個經(jīng)典的基于MuJoCo的高維復(fù)雜物理模擬器環(huán)境如圖3所示，分別是Ant-v2，HalfCheetah-v2，Walker-v2，Swimmer-v2.使用的計算機(jī)為Intel i7-4712MQ，主頻為2.30GHz，內(nèi)存為8GB，和NVIDIA GTX-1080 Ti圖形處理器輔助運(yùn)算.

圖3 本文實(shí)驗(yàn)所用模擬機(jī)器人結(jié)構(gòu)圖

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文提出的基于延遲策略的最大熵優(yōu)勢演員評論家強(qiáng)化學(xué)習(xí)算法(DAAC)與深層Q-learning算法(DQN)，置信區(qū)域策略優(yōu)化算法(TRPO)，深層確定性策略梯度算法(DDPG)進(jìn)行了對比實(shí)驗(yàn).實(shí)驗(yàn)參數(shù)設(shè)置如表1所示，其中通用的超參數(shù)設(shè)置包括了每個實(shí)驗(yàn)使用了0,10,20,30,40這5個種子作為隨機(jī)數(shù)的生成器，神經(jīng)網(wǎng)絡(luò)設(shè)置2個隱藏層，當(dāng)每個隱藏層分別有64,128個節(jié)點(diǎn)時，實(shí)驗(yàn)效果較為穩(wěn)定且訓(xùn)練速度在可接受范圍內(nèi).演員評論家框架結(jié)構(gòu)采用卷積神經(jīng)網(wǎng)絡(luò)，并使用ReLU作為其激活函數(shù)，在對策略更新使用隨機(jī)梯度下降法時，該激活函數(shù)不會出現(xiàn)明顯的梯度消失，并且相較于其它激活函數(shù)有較小的計算時間代價.在最大熵框架中，如3.2節(jié)所述，平衡系數(shù)ω表示獎勵值與熵的相對重要性，在實(shí)驗(yàn)中使用其倒數(shù)ω-1來表示，不同環(huán)境的的ω-1值不相同，其中Ant-v2和Swimmer-v2的為ω-10.2，HalfCheetah-v2和Walker-v2為0.1.這是由于上述環(huán)境所模擬的三維動態(tài)機(jī)器人的坐標(biāo)控制機(jī)制和復(fù)雜度不同，所以需要調(diào)整該平衡系數(shù)以獲得更優(yōu)的結(jié)果.所有實(shí)驗(yàn)設(shè)置智能體與環(huán)境交互回合數(shù)epochs為200，每一回合的步數(shù)為5000，即實(shí)驗(yàn)總的交互時間步數(shù)Time Steps為100萬個.經(jīng)驗(yàn)重放緩沖區(qū)的容量replay_size設(shè)置為最多存儲105個交互樣本.延遲參數(shù)更新閾值τ設(shè)置為0.015，獎勵折扣系數(shù)γ設(shè)置為0.99，因?yàn)榫嚯x當(dāng)前狀態(tài)越近，其影響因素也就越大.學(xué)習(xí)率lrate設(shè)為10-3，每一次計算策略時從經(jīng)驗(yàn)重放緩沖區(qū)采集的批量大小batch_size為100個樣本進(jìn)行訓(xùn)練.

表1 參數(shù)設(shè)置實(shí)驗(yàn)數(shù)據(jù)表

4.3 實(shí)驗(yàn)結(jié)果分析

4.3.1 DAAC算法對比實(shí)驗(yàn)

本文選擇3個基線算法作對比，分別為DQN，TRPO，DDPG.其中DQN利用卷積神經(jīng)網(wǎng)絡(luò)逼近值函數(shù)，使用了經(jīng)驗(yàn)回放緩沖區(qū)訓(xùn)練強(qiáng)化學(xué)習(xí)的智能體學(xué)習(xí)過程[2,16]，并獨(dú)立設(shè)置了目標(biāo)網(wǎng)絡(luò)來單獨(dú)處理時間差分算法中的 TD 偏差.TRPO利用重要性采樣處理動作分布，并優(yōu)化目標(biāo)函數(shù)，保證了新的策略可以使環(huán)境獎勵回報值單調(diào)不減[14].DDPG利用深度神經(jīng)網(wǎng)絡(luò)逼近值函數(shù)和確定性策略，建立目標(biāo)函數(shù)使其不依賴于任何策略，采用異策略的學(xué)習(xí)方法并使用了經(jīng)典的演員評論家算法框架[12,13].在解決高維復(fù)雜的強(qiáng)化學(xué)習(xí)環(huán)境中，本文提出的DAAC算法性能優(yōu)于上述三個算法.

圖4是基于MuJoCo的Ant-v2環(huán)境，該環(huán)境模擬一個四足爬行機(jī)器人，其具有29個狀態(tài)維度和8個制動控制器.該機(jī)器人通過與環(huán)境交互，訓(xùn)練其四足上的8個控制器學(xué)習(xí)如何能夠平穩(wěn)行走，完成平穩(wěn)行走后，訓(xùn)練該機(jī)器人如何快速行走甚至奔跑，實(shí)驗(yàn)中設(shè)置機(jī)器人平穩(wěn)行走的獎勵值為1000，當(dāng)訓(xùn)練行走和奔跑的速度越快，環(huán)境給予智能體的獎勵值也就越大.從圖中可以得出，TRPO和DQN的訓(xùn)練效果很差，因?yàn)樵摍C(jī)器人智能體是多維的，與環(huán)境交互產(chǎn)生的樣本復(fù)雜度很高，這兩個算法在處理復(fù)雜的樣本和動作分布時，無法學(xué)習(xí)到優(yōu)良的策略，因此獎勵值很低.DDPG獲得了較好的訓(xùn)練過程，在大約0.2*106時間步處，獎勵值達(dá)到了1000，四足機(jī)器人學(xué)會了平穩(wěn)行走，并開始加速移動，最終得到來自環(huán)境的獎勵回報值約為3000.而在DAAC算法訓(xùn)練中，四足機(jī)器人大約在0.18*106時間步處學(xué)會了平穩(wěn)行走，與DDPG相比沒有明顯的改觀，但在之后的時間步中，DAAC訓(xùn)練的機(jī)器人擁有更快的奔跑速度，因此獲得更高的獎勵值，最高獎勵值達(dá)到了約5300，雖然在0.8*106處出現(xiàn)了下降，原因是機(jī)器人在奔跑過程中由于速度過快而出現(xiàn)不平衡現(xiàn)象.

圖4 Ant-v2環(huán)境下算法對比實(shí)驗(yàn)圖

圖5是基于MuJoCo的HalfCheetah-v2環(huán)境，該環(huán)境模擬一個雙腿爬行運(yùn)動類似獵豹的機(jī)器人，其具有27個狀態(tài)維度和7個制動控制器.實(shí)驗(yàn)設(shè)置該獵豹機(jī)器人在初始狀態(tài)就可以進(jìn)行奔跑，不需要先學(xué)習(xí)行走，但是由于該機(jī)器人的前足有2個關(guān)節(jié)控制器，而后足有3個關(guān)節(jié)控制器，因此需要保持其頭部偏移度不能過大，否則環(huán)境會減少獎勵值，當(dāng)獵豹機(jī)器人奔跑速度越快所獲得的獎勵值越高.從圖中可以得出，TRPO和DQN算法的訓(xùn)練效果依然不理想，DDPG算法獲得了最終獎勵值約為4300，在大約0.2*106時間步處，機(jī)器人獲得最高獎勵值，并在之后的很長時間的探索過程中獎勵值沒有獲得大幅度的增長，并且在0.4*106時間步處出現(xiàn)了獎勵值銳減的情況，說明機(jī)器人當(dāng)前所學(xué)習(xí)的策略還不夠穩(wěn)定.在DAAC算法訓(xùn)練曲線中，在大約0.5*105時間步處獎勵值就達(dá)到了4000，接近于DDPG的最終結(jié)果，在之后的訓(xùn)練時間中，獎勵值不斷增長達(dá)到了11000，并且訓(xùn)練過程中沒有出現(xiàn)大幅度的獎勵值銳減情況，說明智能體不僅可以快速學(xué)習(xí)到更好的策略，并且該策略可以在保證訓(xùn)練穩(wěn)定的同時不斷提升機(jī)器人獲得的獎勵回報值，這得益于最大熵優(yōu)勢框架，雖然DDPG算法同樣使用了演員評論家框架，但無法訓(xùn)練智能體進(jìn)行穩(wěn)定和更廣泛的探索，無法獲得更好的策略.

圖5 HalfCheetah-v2環(huán)境下算法對比實(shí)驗(yàn)圖

圖6是基于MuJoCo的Swimmer-v2環(huán)境，該環(huán)境模擬一個在粘性流體中的三關(guān)節(jié)游動機(jī)器人，其具有19個狀態(tài)維度和3個控制制動器.機(jī)器人的目標(biāo)是通過調(diào)節(jié)前端關(guān)節(jié)和后端關(guān)節(jié)向前游動，游動的距離越遠(yuǎn)其獎勵回報值越高.從圖中可以得出DQN的訓(xùn)練效果較差，TRPO的訓(xùn)練效果稍強(qiáng)于DQN.DDPG最終獲得了約90的獎勵回報值，但訓(xùn)練過程的波動性較大.而DAAC在大約0.4*106時間步處獎勵值就達(dá)到了100，并且由于其學(xué)習(xí)到的策略更優(yōu)，所以機(jī)器人在有限的時間步數(shù)內(nèi)可以繼續(xù)向更遠(yuǎn)的地方游動，并最終獲得了接近于140的獎勵值.該實(shí)驗(yàn)的粘性流體等價于給智能體探索環(huán)境的過程施加較大的噪聲干擾，通過實(shí)驗(yàn)結(jié)果表明了DAAC即使在有噪聲干擾的情況下，依然可以學(xué)習(xí)到有效的策略.

圖6 Swimmer-v2環(huán)境下算法對比實(shí)驗(yàn)圖

圖7是基于MuJoCo的Walker-v2環(huán)境，該環(huán)境模擬一個三關(guān)節(jié)雙足機(jī)器人，具有23個狀態(tài)維度和5個控制制動器.機(jī)器人的目標(biāo)是學(xué)會行走并跳躍跨過環(huán)境設(shè)置的障礙物，當(dāng)機(jī)器人行走速度越快，成功跨越障礙物并且沒有失去平衡，獎勵回報值越高.從圖中可以得出DQN和TRPO訓(xùn)練效果不佳，DDPG訓(xùn)練曲線在0.3*106時間步處，獎勵值開始有提高，說明機(jī)器人學(xué)會了緩慢行走，但是整個訓(xùn)練過程的起伏較大，說明該機(jī)器人學(xué)習(xí)到的策略在環(huán)境中不能很好地跨越障礙物，每當(dāng)其失去平衡時，相應(yīng)的獎勵值會減少，導(dǎo)致了實(shí)驗(yàn)結(jié)果出現(xiàn)較大的不穩(wěn)定性.為了減少不穩(wěn)定性并提高算法收斂性，DAAC采用了延遲策略更新的技巧，實(shí)驗(yàn)結(jié)果在0.18*106時間步處獎勵值開始提升，并在0.4*106時間步處訓(xùn)練趨于穩(wěn)定并表現(xiàn)出良好的收斂性最終的獎勵值達(dá)到約4300，通過對比，DAAC學(xué)習(xí)到的策略更優(yōu)，所獲得的獎勵回報值也更高.

圖7 Walker-v2環(huán)境下算法對比實(shí)驗(yàn)圖

如表2所示，具體展示了各個算法在上述4個物理模擬機(jī)器人環(huán)境中，在各個時間步數(shù)范圍內(nèi)，智能體所獲得的平均獎勵回報值.(表中取值均保留到整數(shù)位)

表2 算法在不同實(shí)驗(yàn)環(huán)境中各時間段平均獎勵回報值實(shí)驗(yàn)數(shù)據(jù)表

4.3.2 閾值系數(shù)取值對比實(shí)驗(yàn)

如圖8所示，在Ant-v2的環(huán)境下，延遲網(wǎng)絡(luò)策略更新的閾值系數(shù)τ取不同的值對實(shí)驗(yàn)性能的影響，根據(jù)式(21)得出τ可以調(diào)節(jié)目標(biāo)網(wǎng)絡(luò)在策略每次更新時所占的比重，τ的取值范圍為(0,1)，因此當(dāng)τ趨近于1時，目標(biāo)網(wǎng)絡(luò)所占比重較小，對策略更新的影響因素很小，策略更新頻率加快會導(dǎo)致智能體無法學(xué)習(xí)到獎勵回報值高的策略，容易陷入局部最優(yōu)解，最終導(dǎo)致對環(huán)境的極其有限的探索和學(xué)習(xí)到獎勵值很低的策略，圖8實(shí)驗(yàn)中所示，當(dāng)τ=0.9，智能體獲得的獎勵值為負(fù)數(shù)，始終無法學(xué)習(xí)到一個較好的策略.當(dāng)τ=0.5的時候，智能體探索環(huán)境的獎勵值維持在0左右，依然無法學(xué)習(xí)獲得一個良好的策略，當(dāng)τ分別取到0.1和0.01時，智能體探索環(huán)境獲得了較良好的策略，獎勵值最終分別達(dá)到了1780和2800，明顯優(yōu)于τ取0.9和0.5.說明當(dāng)τ趨近于0的時候目標(biāo)網(wǎng)絡(luò)所占比重較大，對策略更新的影響因素變大，也因此延遲了策略更新的速度，使智能體能夠更加充分地探索環(huán)境，學(xué)習(xí)到可以獲得更高獎勵值的最優(yōu)策略，但是當(dāng)τ=0.005時，智能體所獲得的獎勵值反而降低了，因?yàn)榭刂撇呗愿碌拈撝迪禂?shù)過小，導(dǎo)致了策略更新速度過于緩慢，在有限的時間步數(shù)范圍內(nèi)，智能體無法學(xué)習(xí)到獲得獎勵值更高的最優(yōu)策略.

圖8 Ant-v2環(huán)境下閾值系數(shù)τ取值對比實(shí)驗(yàn)圖

通過在不同的物理仿真模擬器實(shí)驗(yàn)環(huán)境下，對閾值τ進(jìn)行調(diào)整，如表3所示，對比τ取不同值時，智能體所獲得的平均獎勵回報值的大小，得出最終當(dāng)τ取0.015時，智能體所獲得的獎勵回報值較高，能夠?qū)W習(xí)到更良好的策略.(表中取值均保留到整數(shù)位)

表3 不同實(shí)驗(yàn)環(huán)境下閾值系數(shù)τ取不同值平均獎勵回報實(shí)驗(yàn)數(shù)據(jù)表

5 結(jié)束語

本文提出的DAAC基于延遲策略的最大熵優(yōu)勢演員評論家強(qiáng)化學(xué)習(xí)算法，在傳統(tǒng)的基于策略梯度的演員評論家框架上，通過使用兩個評論家網(wǎng)絡(luò)來計算策略的狀態(tài)動作值函數(shù)，并最大化策略的預(yù)期熵，同時還使用延遲更新評論家網(wǎng)絡(luò)的策略參數(shù)的技巧.在高維物理仿真模擬器環(huán)境中的實(shí)驗(yàn)結(jié)果表明，該DAAC方法在算法收斂性，穩(wěn)定性以及智能體最終獲得的獎勵回報值等方面都明顯優(yōu)于傳統(tǒng)的強(qiáng)化學(xué)習(xí)算法.但該DAAC算法也存在一定的局限性，在更復(fù)雜的環(huán)境如Humanoid中，智能體很難在有效的時間內(nèi)學(xué)習(xí)到最優(yōu)策略，說明DAAC算法在更高維的環(huán)境中還有進(jìn)一步需要改進(jìn)完善的地方.

猜你喜歡

評論家狀態(tài)動作

音樂評論家的“內(nèi)功”修煉——論八項追求

中國音樂(2022年3期)2022-06-10 06:28:36

著名詩人、評論家

鴨綠江(2021年29期)2021-02-28 05:44:26

著名詩人、評論家吳思敬

鴨綠江(2020年29期)2020-11-15 07:05:52

評論家楊占平

火花(2019年8期)2019-08-28 08:45:06

狀態(tài)聯(lián)想

小學(xué)生作文(低年級適用)(2019年5期)2019-07-26 00:45:10

動作描寫要具體

小學(xué)生作文(低年級適用)(2018年3期)2018-04-17 00:58:35

生命的另一種狀態(tài)

讀友·少年文學(xué)(清雅版)(2018年12期)2018-04-04 05:16:40

畫動作

少年博覽·小學(xué)低年級(2017年4期)2017-06-09 16:22:28

動作描寫不可少

作文評點(diǎn)報·低幼版(2017年7期)2017-03-11 20:49:41

熱圖

家庭百事通(2016年3期)2016-03-14 08:07:17

小型微型計算機(jī)系統(tǒng)2020年8期

小型微型計算機(jī)系統(tǒng)的其它文章: 《小型微型計算機(jī)系統(tǒng)》人工智能專欄征文; 征稿簡則; 本刊檢索與收錄; 《小型微型計算機(jī)系統(tǒng)》征訂啟事; 體育視頻分析中姿態(tài)估計進(jìn)展的綜述; 擬態(tài)防御系統(tǒng)的時間自動機(jī)模型和驗(yàn)證

感谢您访问我们的网站，您可能还对以下资源感兴趣：温州秤旁教育咨询有限公司

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看网站地图

亚洲中文字幕一区二区三区有码在线看 22中文网久久字幕搞女人的毛片 18禁动态无遮挡网站免费大片18禁欧美潮喷喷水亚洲色图av天堂亚洲三级黄色毛片 18禁裸乳无遮挡免费网站照片国产av不卡久久亚洲国产欧美在线一区老师上课跳d突然被开到最大视频啦啦啦啦在线视频资源国产免费福利视频在线观看午夜视频国产福利国产精品久久电影中文字幕十八禁国产超污无遮挡网站蜜桃久久精品国产亚洲av 十八禁国产超污无遮挡网站成人亚洲欧美一区二区av av国产免费在线观看乱码一卡2卡4卡精品亚洲国产欧美人成日本色播在线视频国产精品一区二区在线观看99 好男人在线观看高清免费视频男的添女的下面高潮视频噜噜噜噜噜久久久久久91 日日摸夜夜添夜夜爱黄色日韩在线色综合亚洲欧美另类图片超碰av人人做人人爽久久国产在视频线在精品淫秽高清视频在线观看尾随美女入室神马国产精品三级电影在线观看国产69精品久久久久777片综合色丁香网色视频www国产美女cb高潮喷水在线观看日韩在线高清观看一区二区三区禁无遮挡网站秋霞在线观看毛片日韩欧美精品免费久久国产又色又爽无遮挡免午夜老司机福利剧场精品国产三级普通话版国产淫语在线视频国产淫语在线视频国产一区有黄有色的免费视频 26uuu在线亚洲综合色少妇猛男粗大的猛烈进出视频 91av网一区二区大又大粗又爽又黄少妇毛片口 .国产精品久久七月丁香在线播放亚洲国产欧美人成国产极品天堂在线久久99热这里只有精品18 午夜福利成人在线免费观看久久久久久久久久久免费av 免费av毛片视频搡老妇女老女人老熟妇 97超碰精品成人国产 a级毛色黄片国产一区二区亚洲精品在线观看边亲边吃奶的免费视频亚洲不卡免费看国产又黄又爽又无遮挡在线国产精品1区2区在线观看. 婷婷六月久久综合丁香欧美变态另类bdsm刘玥国产精品福利在线免费观看国产精品精品国产色婷婷免费观看精品视频网站国产国拍精品亚洲av在线观看免费观看的影片在线观看 1000部很黄的大片简卡轻食公司亚洲人成网站在线播亚洲美女搞黄在线观看五月伊人婷婷丁香亚洲精品乱码久久久久久按摩 22中文网久久字幕 99在线视频只有这里精品首页一边摸一边抽搐一进一小说亚洲久久久久久中文字幕一级爰片在线观看 av天堂中文字幕网 91精品伊人久久大香线蕉国产av不卡久久 99在线人妻在线中文字幕成人午夜高清在线视频欧美三级亚洲精品亚洲欧美精品综合久久99 国模一区二区三区四区视频亚洲精品,欧美精品三级国产精品欧美在线观看欧美人与善性xxx 欧美3d第一页 18禁在线无遮挡免费观看视频美女cb高潮喷水在线观看身体一侧抽搐国产精品久久久久久精品电影国产黄片视频在线免费观看日韩成人伦理影院欧美zozozo另类高清午夜精品一区二区三区好男人视频免费观看在线国产伦一二天堂av在线观看男的添女的下面高潮视频女人被狂操c到高潮赤兔流量卡办理一区二区三区四区激情视频麻豆av噜噜一区二区三区国产伦在线观看视频一区国产精品福利在线免费观看午夜亚洲福利在线播放秋霞在线观看毛片国产黄a三级三级三级人在线免费观看不下载黄p国产国产成人精品一,二区天天躁日日操中文字幕边亲边吃奶的免费视频亚洲性久久影院国产在线一区二区三区精免费不卡的大黄色大毛片视频在线观看熟妇人妻久久中文字幕3abv 99久久九九国产精品国产免费直男gayav资源 91在线精品国自产拍蜜月国产视频首页在线观看成年版毛片免费区亚洲人成网站在线观看播放久久99热这里只有精品18 久久久久久久久久久丰满国产乱人偷精品视频久久久久精品久久久久真实原创 av在线蜜桃九九在线视频观看精品国产真实乱freesex 一个人观看的视频www高清免费观看国产成人精品婷婷人人妻人人澡人人爽人人夜夜干丝袜人妻中文字幕欧美成人精品欧美一级黄精品99又大又爽又粗少妇毛片欧美精品一区二区大全国产av在哪里看 99视频精品全部免费在线亚洲在线自拍视频好男人视频免费观看在线在线播放国产精品三级联通29元200g的流量卡 a级毛色黄片 kizo精华嫩草影院入口久久久色成人亚洲av成人精品一区久久 99热这里只有是精品50 99久久精品国产国产毛片欧美bdsm另类精品国产一区二区三区久久久樱花精品一区二区三区视频在线免费观看性生交大片5 亚洲国产高清在线一区二区三 18禁裸乳无遮挡免费网站照片色吧在线观看欧美zozozo另类 99久久精品一区二区三区精品一区二区三区人妻视频热99在线观看视频国产黄色小视频在线观看久久久久免费精品人妻一区二区中文在线观看免费www的网站国产精品人妻久久久久久国产精品.久久久男女国产视频网站高清毛片免费看国产成人福利小说国产乱人视频国产伦精品一区二区三区视频9 国产精品无大码特级一级黄色大片午夜激情福利司机影院淫秽高清视频在线观看精品不卡国产一区二区三区国产午夜精品一二区理论片级片在线观看亚洲久久久久久中文字幕最近中文字幕2019免费版女人十人毛片免费观看3o分钟午夜亚洲福利在线播放 av在线天堂中文字幕变态另类丝袜制服亚洲av二区三区四区日韩一区二区视频免费看免费看a级黄色片成人二区视频禁无遮挡网站麻豆成人午夜福利视频欧美激情国产日韩精品一区一级黄色大片毛片能在线免费观看的黄片久久精品国产亚洲av涩爱精品不卡国产一区二区三区午夜福利网站1000一区二区三区 videossex国产久久热精品热久久精品国产亚洲av涩爱亚洲精品乱码久久久久久按摩国产成人a区在线观看日本与韩国留学比较熟女人妻精品中文字幕免费无遮挡裸体视频一个人免费在线观看电影午夜激情欧美在线 99久久中文字幕三级久久日本又粗又爽又猛毛片免费看精品一区二区免费观看亚洲欧美一区二区三区国产亚洲高清免费不卡视频联通29元200g的流量卡国产精品久久久久久久久免国产一区欧美日韩成年版毛片免费区日韩av在线大香蕉日韩国内少妇激情av av在线天堂中文字幕桃色一区二区三区在线观看一区二区三区免费毛片 18禁动态无遮挡网站午夜福利高清视频麻豆乱淫一区二区午夜a级毛片国产精品久久久久久久电影在线天堂最新版资源欧美日韩精品成人综合77777 免费人成在线观看视频色亚洲在线自拍视频久久精品久久精品一区二区三区亚洲无线观看免费亚洲国产精品成人综合色男女视频在线观看网站免费色哟哟·www 久久鲁丝午夜福利片搡女人真爽免费视频火全软件欧美+日韩+精品精品一区二区三区视频在线午夜精品在线福利亚洲欧美精品专区久久亚洲av男天堂我的老师免费观看完整版 www.av在线官网国产久久久久久九九精品二区国产欧美变态另类bdsm刘玥最近最新中文字幕大全电影3 女人被狂操c到高潮日本免费在线观看一区欧美激情久久久久久爽电影 99热精品在线国产色噜噜av男人的天堂激情 2022亚洲国产成人精品成人亚洲精品av一区二区搡女人真爽免费视频火全软件熟女人妻精品中文字幕国产在线一区二区三区精 a级毛片免费高清观看在线播放欧美区成人在线视频噜噜噜噜噜久久久久久91 午夜视频国产福利精品酒店卫生间中文字幕免费在线视频6 18禁动态无遮挡网站人体艺术视频欧美日本欧美三级亚洲精品国产成人a∨麻豆精品午夜爱爱视频在线播放成人亚洲精品av一区二区一边摸一边抽搐一进一小说亚洲av成人av av专区在线播放噜噜噜噜噜久久久久久91 欧美一区二区精品小视频在线水蜜桃什么品种好国产伦一二天堂av在线观看女的被弄到高潮叫床怎么办国产亚洲91精品色在线 99在线人妻在线中文字幕国产精品国产三级专区第一集 99久久人妻综合少妇丰满av 女人久久www免费人成看片成人一区二区视频在线观看毛片一级片免费看久久久久菩萨蛮人人尽说江南好唐韦庄狂野欧美白嫩少妇大欣赏 ponron亚洲 av女优亚洲男人天堂狂野欧美白嫩少妇大欣赏欧美激情在线99 晚上一个人看的免费电影美女高潮的动态插逼视频在线观看热99在线观看视频精品久久国产蜜桃成人二区视频深夜a级毛片国产亚洲av片在线观看秒播厂欧美丝袜亚洲另类国产高清三级在线国产亚洲5aaaaa淫片日本免费在线观看一区久久久午夜欧美精品国产成人91sexporn 人妻夜夜爽99麻豆av 身体一侧抽搐一级av片app 黄片无遮挡物在线观看日本五十路高清 99热6这里只有精品亚洲图色成人 97超视频在线观看视频中文字幕亚洲精品专区婷婷色av中文字幕直男gayav资源成年女人看的毛片在线观看精品久久久久久成人av 国产综合懂色 av天堂中文字幕网亚洲怡红院男人天堂免费看日本二区永久免费av网站大全国产精品久久久久久精品电影国产色婷婷99 色哟哟·www 亚洲精华国产精华液的使用体验日本-黄色视频高清免费观看国产精品国产三级国产专区5o 九九热线精品视视频播放 ponron亚洲最近最新中文字幕免费大全7 极品教师在线视频亚洲精华国产精华液的使用体验久久精品久久久久久噜噜老黄看免费成人av毛片亚洲真实伦在线观看精品国产一区二区三区久久久樱花国产不卡一卡二亚洲av成人精品一二三区看黄色毛片网站在线天堂最新版资源熟妇人妻久久中文字幕3abv 日产精品乱码卡一卡2卡三 av线在线观看网站十八禁国产超污无遮挡网站午夜亚洲福利在线播放婷婷色麻豆天堂久久免费av不卡在线播放国产精品国产三级国产专区5o 欧美高清性xxxxhd video 欧美性感艳星久久久精品大字幕三级男女做爰猛烈吃奶摸视频色噜噜av男人的天堂激情成人鲁丝片一二三区免费亚洲精品自拍成人 av在线观看视频网站免费久久久a久久爽久久v久久亚洲国产欧美在线一区中文资源天堂在线亚洲经典国产精华液单亚洲av成人精品一区久久国产熟女欧美一区二区非洲黑人性xxxx精品又粗又长久久精品国产亚洲av涩爱一级二级三级毛片免费看亚洲国产高清在线一区二区三男人舔女人下体高潮全视频精品无人区乱码1区二区国国产精品蜜臀av免费色综合色国产高清日韩中文字幕在线亚洲欧美精品自产自拍午夜免费激情av 成年av动漫网址少妇熟女欧美另类日韩亚洲欧美综合久久国内精品自在自线图片亚洲三级黄色毛片免费在线观看成人毛片一级二级三级毛片免费看国产视频内射国产av码专区亚洲av 免费看美女性在线毛片视频国产精品永久免费网站成人三级黄色视频国产探花极品一区二区国产欧美另类精品又又久久亚洲欧美国产精品女同一区二区软件校园人妻丝袜中文字幕欧美不卡视频在线免费观看国产精品爽爽va在线观看网站中文字幕av成人在线电影我的女老师完整版在线观看免费看日本二区赤兔流量卡办理九九在线视频观看精品国产精品久久久久久久久免又粗又爽又猛毛片免费看免费搜索国产男女视频日韩一区二区视频免费看婷婷六月久久综合丁香 97超碰精品成人国产亚洲一区高清亚洲精品 av在线天堂中文字幕我的女老师完整版在线观看精品人妻熟女av久视频少妇丰满av 精品一区二区三区视频在线夫妻性生交免费视频一级片天美传媒精品一区二区欧美精品一区二区大全乱码一卡2卡4卡精品大香蕉97超碰在线一个人免费在线观看电影精品久久久久久成人av 欧美性猛交黑人性爽久久精品夜夜夜夜夜久久蜜豆深爱激情五月婷婷 99在线人妻在线中文字幕亚洲av电影不卡..在线观看 av专区在线播放亚洲精品日韩av片在线观看亚洲国产最新在线播放 av播播在线观看一区 18+在线观看网站欧美xxxx性猛交bbbb 亚洲国产精品国产精品亚洲av电影在线观看一区二区三区永久免费av网站大全亚洲人成网站在线播亚洲婷婷狠狠爱综合网久久亚洲精品不卡亚洲精品日韩av片在线观看 91精品伊人久久大香线蕉亚洲,欧美,日韩国产伦一二天堂av在线观看日韩精品青青久久久久久一区二区三区乱码不卡18 成人午夜精彩视频在线观看午夜福利网站1000一区二区三区免费观看精品视频网站久久久久久大精品日韩精品有码人妻一区亚洲人成网站在线播在线观看美女被高潮喷水网站高清日韩中文字幕在线老司机福利观看丰满人妻一区二区三区视频av 老师上课跳d突然被开到最大视频日韩亚洲欧美综合久久99热这里只有精品18 精品一区二区免费观看亚洲精品乱码久久久v下载方式国产亚洲精品久久久com 欧美另类亚洲清纯唯美男女啪啪激烈高潮av片 97热精品久久久久久大话2 男鬼变身卡一本一本综合久久 a级毛片免费高清观看在线播放亚洲av免费在线观看久久亚洲国产成人精品v 美女xxoo啪啪120秒动态图中文天堂在线官网色5月婷婷丁香 91精品一卡2卡3卡4卡自拍偷自拍亚洲精品老妇色吧在线观看日韩三级伦理在线观看国产黄色视频一区二区在线观看久久久久性生活片天堂√8在线中文国产成人精品久久久久久亚洲av日韩在线播放色综合站精品国产国产免费福利视频在线观看精品欧美国产一区二区三一个人免费在线观看电影 av卡一久久亚洲av熟女最近手机中文字幕大全免费av不卡在线播放免费观看的影片在线观看亚洲人成网站高清观看中文精品一卡2卡3卡4更新亚洲18禁久久av 夜夜看夜夜爽夜夜摸 18禁动态无遮挡网站亚洲最大成人av 精品一区二区免费观看国产在视频线在精品日日摸夜夜添夜夜爱婷婷色麻豆天堂久久你懂的网址亚洲精品在线观看 97在线视频观看国产精品综合久久久久久久免费国语自产精品视频在线第100页久久精品国产亚洲网站久久久久久九九精品二区国产欧美不卡视频在线免费观看纵有疾风起免费观看全集完整版国产精品爽爽va在线观看网站草草在线视频免费看真实男女啪啪啪动态图午夜a级毛片久久久亚洲精品成人影院国产精品乱码一区二三区的特点最后的刺客免费高清国语热99re8久久精品国产欧美极品一区二区三区四区高清在线视频一区二区三区成人综合一区亚洲 .国产精品久久国产精品蜜桃在线观看国产片特级美女逼逼视频成人二区视频久99久视频精品免费国产高清不卡午夜福利亚洲内射少妇av 你懂的网址亚洲精品在线观看国产亚洲5aaaaa淫片色噜噜av男人的天堂激情欧美日韩精品成人综合77777 免费av观看视频一区二区三区四区激情视频国产精品久久视频播放亚洲天堂国产精品一区在线亚洲在线观看片国产精品无大码听说在线观看完整版免费高清亚洲国产日韩欧美精品在线观看欧美成人一区二区免费高清观看 22中文网久久字幕亚洲五月天丁香 91午夜精品亚洲一区二区三区日韩大片免费观看网站 a级毛片免费高清观看在线播放 18+在线观看网站亚洲欧美中文字幕日韩二区国产色爽女视频免费观看搡女人真爽免费视频火全软件韩国高清视频一区二区三区午夜爱爱视频在线播放日日干狠狠操夜夜爽国产高清三级在线亚洲在久久综合麻豆乱淫一区二区天堂中文最新版在线下载精品人妻一区二区三区麻豆一级爰片在线观看国内揄拍国产精品人妻在线免费人成在线观看视频色精品人妻熟女av久视频欧美成人午夜免费资源乱码一卡2卡4卡精品亚洲精品乱码久久久v下载方式在线播放无遮挡少妇猛男粗大的猛烈进出视频色吧在线观看国产精品一区二区在线观看99 亚洲美女视频黄频亚洲欧美日韩高清专用中文乱码字字幕精品一区二区三区一级毛片电影观看秋霞伦理黄片国产不卡一卡二国产亚洲91精品色在线久久国产乱子免费精品麻豆久久精品国产亚洲av 亚洲av福利一区成人性生交大片免费视频hd 两个人的视频大全免费全区人妻精品视频毛片一级片免费看久久久久久久久久久久久久久免费av 国产免费一级a男人的天堂美女内射精品一级片tv 国产精品一及搡老妇女老女人老熟妇 99久久精品热视频热99re8久久精品国产国产亚洲一区二区精品国产美女午夜福利看片在线看免费视频亚洲精品aⅴ在线观看国产一区二区在线观看日韩国产精品国产高清国产av 简卡轻食公司七月丁香在线播放午夜激情福利司机影院 a级毛色黄片日本猛色少妇xxxxx猛交久久国产精华一区二区三区亚洲aⅴ乱码一区二区在线播放国产亚洲精品av在线欧美最新免费一区二区三区国产v大片淫在线免费观看 97在线视频观看国产精品蜜桃在线观看欧美zozozo另类午夜老司机福利剧场久久6这里有精品国产亚洲精品av在线中文资源天堂在线欧美bdsm另类国产精品熟女久久久久浪国产一区二区在线av高清观看高清在线视频一区二区三区国内精品宾馆在线特大巨黑吊av在线直播男女国产视频网站男插女下体视频免费在线播放啦啦啦观看免费观看视频高清少妇丰满av 国产激情偷乱视频一区二区建设人人有责人人尽责人人享有的亚洲av成人精品一区久久五月玫瑰六月丁香亚洲四区av 男人舔女人下体高潮全视频国产精品一区二区三区四区免费观看国产伦理片在线播放av一区身体一侧抽搐亚洲国产色片午夜a级毛片 videos熟女内射少妇的逼水好多成人国产麻豆网乱系列少妇在线播放男人狂女人下面高潮的视频婷婷色麻豆天堂久久美女xxoo啪啪120秒动态图 videos熟女内射久久精品熟女亚洲av麻豆精品精品久久久久久成人av 91久久精品国产一区二区成人麻豆一二三区av精品十八禁国产超污无遮挡网站少妇的逼好多水尤物成人国产欧美一区二区三区搞女人的毛片日韩av在线大香蕉舔av片在线久久精品国产亚洲av天美人人妻人人澡人人爽人人夜夜国产精品国产三级国产专区5o 国产精品久久久久久精品电影亚洲av电影在线观看一区二区三区亚洲综合色惰成年免费大片在线观看 av卡一久久亚洲国产精品合色在线国产av一区在线观看免费免费观看a级毛片全部你懂的网址亚洲精品在线观看国产精品电影一区二区三区我要看日韩黄色一级片日韩精品有码人妻一区午夜福利在线在线亚洲av成人精品一二三区成人综合一区亚洲国产精品99久久久久久久久久久精品综合一区二区三区少妇高潮的动态图看免费成人av毛片 97超碰精品成人国产午夜精品国产一区二区电影在线免费观看的www视频欧美极品一区二区三区四区九九在线视频观看精品亚洲图色成人国产美女午夜福利 97在线视频观看亚洲婷婷狠狠爱综合网亚洲自拍偷在线中国国产av一级久久久精品欧美日韩精品国产在视频线在精品国产亚洲av嫩草精品影院亚洲精品久久久久久婷婷小说欧美一区二区亚洲超碰av人人做人人爽久久日韩国内少妇激情av 欧美变态另类bdsm刘玥亚洲最大成人av 狂野欧美白嫩少妇大欣赏亚洲国产精品专区欧美免费一级毛片在线播放高清视频美女被艹到高潮喷水动态国产亚洲午夜精品一区二区久久国产精品久久久久久精品电影小说国产精品野战在线观看亚洲欧美清纯卡通最近2019中文字幕mv第一页日韩欧美国产在线观看中国国产av一级 99在线视频只有这里精品首页乱码一卡2卡4卡精品午夜激情欧美在线久久精品久久久久久久性亚洲成人中文字幕在线播放色综合站精品国产久久久久久伊人网av 国产老妇女一区中文字幕av成人在线电影插阴视频在线观看视频男人舔女人下体高潮全视频 2021少妇久久久久久久久久久 99热6这里只有精品在线免费观看的www视频国产精品国产三级专区第一集色网站视频免费爱豆传媒免费全集在线观看婷婷色av中文字幕 99热网站在线观看午夜av观看不卡成人毛片60女人毛片免费亚洲国产av影院在线观看国产精品秋霞免费鲁丝片咕卡用的链子免费看av在线观看网站欧美精品一区二区大全免费黄网站久久成人精品日韩,欧美,国产一区二区三区久久久久久久久久久免费av 熟女电影av网午夜精品国产一区二区电影久久久久久久亚洲中文字幕女性被躁到高潮视频又大又黄又爽视频免费夜夜骑夜夜射夜夜干国产精品无大码 18+在线观看网站男女边吃奶边做爰视频亚洲图色成人免费观看无遮挡的男女亚洲欧美色中文字幕在线 97在线人人人人妻亚洲av电影在线观看一区二区三区亚洲人成网站在线观看播放考比视频在线观看亚洲五月色婷婷综合制服诱惑二区亚洲精品美女久久av网站中国美白少妇内射xxxbb 亚洲av综合色区一区少妇人妻久久综合中文我要看黄色一级片免费的日本vs欧美在线观看视频亚洲精品日韩在线中文字幕久久精品国产a三级三级三级 tube8黄色片一级黄片播放器 av女优亚洲男人天堂伦理电影大哥的女人热99国产精品久久久久久7 男男h啪啪无遮挡国国产精品蜜臀av免费性色avwww在线观看国产乱人偷精品视频亚洲av.av天堂看十八女毛片水多多多免费大片18禁亚洲天堂av无毛 av黄色大香蕉亚洲精品国产av蜜桃国产极品天堂在线亚洲精品久久成人aⅴ小说国产色爽女视频免费观看 99re6热这里在线精品视频又黄又爽又刺激的免费视频. 在线观看人妻少妇 videossex国产免费在线观看完整版高清中文字幕人妻丝袜制服在线观看一区二区三区激情亚洲精品第二区麻豆精品久久久久久蜜桃大话2 男鬼变身卡午夜免费观看性视频中文乱码字字幕精品一区二区三区亚洲精品av麻豆狂野国产乱人偷精品视频男女下面插进去视频免费观看精品国产一区二区三区四区第35 最新的欧美精品一区二区亚洲精品视频女赤兔流量卡办理侵犯人妻中文字幕一二三四区国产成人精品婷婷久久久久久久大尺度免费视频两个人看的免费小视频男女高潮啪啪啪动态图秋霞伦理黄片亚洲欧洲国产日韩 90打野战视频偷拍视频久久这里有精品视频免费国产免费视频播放在线视频亚洲精品色激情综合 a 毛片基地两个人看的免费小视频国产成人av激情在线播放蜜臀久久99精品久久宅男老女人水多毛片亚洲精品av麻豆狂野 97在线人人人人妻 91午夜精品亚洲一区二区三区 97人妻天天添夜夜摸自线自在国产av 国产成人免费无遮挡视频黄色一级大片看看午夜久久久在线观看欧美国产精品va在线观看不卡国产国语露脸激情在线看国产精品不卡视频一区二区久久精品国产自在天天线免费大片黄手机在线观看婷婷色av中文字幕一二三四在线观看免费中文在日本91视频免费播放国产黄色视频一区二区在线观看国产精品麻豆人妻色哟哟久久 1024视频免费在线观看色婷婷久久久亚洲欧美婷婷色综合www 成人亚洲欧美一区二区av 另类亚洲欧美激情 av福利片在线 90打野战视频偷拍视频伦精品一区二区三区 99热国产这里只有精品6 黑丝袜美女国产一区国产男人的电影天堂91 精品久久久久久电影网多毛熟女@视频在线观看国产h片丝袜喷水一区国产亚洲精品久久久com 国产精品欧美亚洲77777 免费看光身美女亚洲欧美中文字幕日韩二区国产成人91sexporn 久久亚洲国产成人精品v 欧美激情国产日韩精品一区成人二区视频有码亚洲区边亲边吃奶的免费视频午夜日本视频在线高清不卡的av网站国产高清三级在线 18在线观看网站 av女优亚洲男人天堂国内精品宾馆在线美女视频免费永久观看网站亚洲精品乱久久久久久日韩av免费高清视频精品少妇内射三级免费黄网站久久成人精品热99国产精品久久久久久7 免费人妻精品一区二区三区视频男女国产视频网站国产日韩欧美视频二区中文乱码字字幕精品一区二区三区日日摸夜夜添夜夜爱精品卡一卡二卡四卡免费日韩伦理黄色片国产精品熟女久久久久浪亚洲综合精品二区男人添女人高潮全过程视频 9191精品国产免费久久国产男人的电影天堂91 国产永久视频网站国产成人91sexporn 日韩,欧美,国产一区二区三区中文字幕另类日韩欧美亚洲嫩草国产精品久久久久久av不卡欧美日本中文国产一区发布国产无遮挡羞羞视频在线观看两个人免费观看高清视频在线观看www视频免费大香蕉97超碰在线 99热这里只有是精品在线观看日韩人妻精品一区2区三区欧美人与性动交α欧美软件成人毛片a级毛片在线播放久久韩国三级中文字幕色网站视频免费少妇被粗大猛烈的视频精品少妇黑人巨大在线播放桃花免费在线播放亚洲av男天堂久热这里只有精品99 在线 av 中文字幕国产免费福利视频在线观看中文字幕人妻熟女乱码国产伦理片在线播放av一区久久国产精品大桥未久av 国产男女超爽视频在线观看 √禁漫天堂资源中文www 熟女人妻精品中文字幕看非洲黑人一级黄片久久久精品94久久精品男的添女的下面高潮视频色吧在线观看日韩欧美精品免费久久制服诱惑二区国精品久久久久久国模美亚洲精华国产精华液的使用体验满18在线观看网站婷婷色av中文字幕欧美亚洲国产日韩一国产av精品麻豆在线观看免费视频网站a站日韩av不卡免费在线播放女性被躁到高潮视频一区二区三区精品91 丝袜人妻中文字幕国产男人的电影天堂91 最新中文字幕久久久久亚洲色图男人天堂中文字幕久久青草综合色国产欧美日韩一区二区三区在线 26uuu在线亚洲综合色国产精品一区www在线观看美女大奶头黄色视频天堂中文最新版在线下载国产一区亚洲一区在线观看男女午夜视频在线观看国产精品免费大片亚洲,一卡二卡三卡免费黄色在线免费观看亚洲国产日韩一区二区久久久精品区二区三区 av在线app专区 99热全是精品在线免费观看不下载黄p国产少妇被粗大的猛进出69影院 9色porny在线观看 kizo精华成人亚洲欧美一区二区av 一区在线观看完整版精品一品国产午夜福利视频亚洲精品乱久久久久久波多野结衣一区麻豆国产精品偷伦视频观看了一本一本久久a久久精品综合妖精国产伦在线观看视频一区亚洲av日韩在线播放 a级片在线免费高清观看视频色婷婷av一区二区三区视频精品99又大又爽又粗少妇毛片波多野结衣一区麻豆熟女av电影日本免费在线观看一区成人影院久久国产精品蜜桃在线观看中文字幕精品免费在线观看视频久久这里只有精品19 av播播在线观看一区久久99一区二区三区性高湖久久久久久久久免费观看 2018国产大陆天天弄谢成人午夜精彩视频在线观看搡老乐熟女国产国产老妇伦熟女老妇高清亚洲精品日韩在线中文字幕水蜜桃什么品种好亚洲国产欧美日韩在线播放日韩制服骚丝袜av 久久免费观看电影 1024视频免费在线观看久久久a久久爽久久v久久日韩一区二区三区影片晚上一个人看的免费电影欧美精品人与动牲交sv欧美 18禁在线无遮挡免费观看视频男女无遮挡免费网站观看啦啦啦中文免费视频观看日本免费看av在线观看网站少妇人妻视频 av在线app专区免费日韩欧美在线观看性高湖久久久久久久久免费观看搡女人真爽免费视频火全软件少妇猛男粗大的猛烈进出视频久久av网站午夜日本视频在线人人妻人人爽人人添夜夜欢视频男女下面插进去视频免费观看日本免费在线观看一区国产亚洲精品第一综合不卡日本91视频免费播放欧美3d第一页国产精品国产av在线观看自拍欧美九色日韩亚洲蝌蚪91 久久久精品94久久精品久久99热6这里只有精品日本黄色日本黄色录像最近的中文字幕免费完整午夜影院在线不卡国产免费一区二区三区四区乱码免费黄网站久久成人精品日韩一本色道免费dvd 国产精品99久久99久久久不卡丝袜在线中文字幕久久av网站精品一区二区三卡丝袜脚勾引网站精品卡一卡二卡四卡免费 99久久人妻综合国产日韩欧美视频二区亚洲精品成人av观看孕妇视频在线观看一区二区三区亚洲精品久久午夜乱码狠狠精品人妻久久久久久综合国产精品99久久99久久久不卡一级a做视频免费观看欧美激情极品国产一区二区三区晚上一个人看的免费电影国产成人91sexporn 亚洲精品456在线播放app 午夜影院在线不卡 av.在线天堂国产又色又爽无遮挡免国产精品国产三级国产av玫瑰宅男免费午夜亚洲av福利一区国产精品偷伦视频观看了国产av一区二区精品久久 18禁观看日本亚洲丝袜综合中文字幕 91久久精品国产一区二区三区丰满饥渴人妻一区二区三 999精品在线视频免费观看性生交大片5 av黄色大香蕉少妇精品久久久久久久国产免费视频播放在线视频欧美精品亚洲一区二区久久这里只有精品19 国产一区二区激情短视频黑人欧美特级aaaaaa片久久久久久久大尺度免费视频国产在线免费精品飞空精品影院首页国产精品1 老女人水多毛片亚洲精品久久久久久婷婷小说在线观看免费日韩欧美大片最近的中文字幕免费完整日韩视频在线欧美美女内射精品一级片tv 制服丝袜香蕉在线免费大片黄手机在线观看免费不卡的大黄色大毛片视频在线观看久久女婷五月综合色啪小说精品人妻熟女毛片av久久网站天天操日日干夜夜撸欧美精品av麻豆av 18禁国产床啪视频网站夫妻性生交免费视频一级片妹子高潮喷水视频成人国产麻豆网 av播播在线观看一区在线观看人妻少妇免费大片18禁狠狠婷婷综合久久久久久88av 91精品三级在线观看亚洲欧美中文字幕日韩二区亚洲丝袜综合中文字幕亚洲四区av 人妻人人澡人人爽人人亚洲一码二码三码区别大吗国产av国产精品国产五月开心婷婷网午夜福利,免费看成人二区视频 av一本久久久久啦啦啦在线观看免费高清www 日日爽夜夜爽网站激情视频va一区二区三区美女内射精品一级片tv 五月开心婷婷网在线亚洲精品国产二区图片欧美欧美xxⅹ黑人日本猛色少妇xxxxx猛交久久 91精品伊人久久大香线蕉大香蕉97超碰在线免费高清在线观看日韩欧美国产精品一级二级三级丝袜脚勾引网站 www日本在线高清视频伦精品一区二区三区国产精品久久久久成人av 午夜影院在线不卡精品卡一卡二卡四卡免费国产日韩欧美在线精品亚洲国产精品专区欧美国产午夜精品一二区理论片肉色欧美久久久久久久蜜桃美女主播在线视频 av在线老鸭窝女人被躁到高潮嗷嗷叫费观黑丝袜美女国产一区超碰97精品在线观看国产男女内射视频欧美日本中文国产一区发布亚洲性久久影院欧美成人午夜免费资源大码成人一级视频国产精品人妻久久久影院国产成人午夜福利电影在线观看日韩亚洲欧美在线看免费成人av毛片色网站视频免费九九爱精品视频在线观看 99国产综合亚洲精品黄色怎么调成土黄色亚洲欧美成人精品一区二区五月开心婷婷网五月伊人婷婷丁香大香蕉久久网国产白丝娇喘喷水9色精品人妻少妇偷人精品九色国产免费视频播放在线视频啦啦啦视频在线资源免费观看桃花免费在线播放亚洲第一区二区三区不卡九色成人免费人妻av 国产精品一区www在线观看国产淫语在线视频人妻一区二区av 国产欧美日韩一区二区三区在线免费看光身美女精品一区二区三区视频在线国产成人精品在线电影欧美人与性动交α欧美软件日韩在线高清观看一区二区三区国产成人精品在线电影我要看黄色一级片免费的国产69精品久久久久777片在线亚洲精品国产二区图片欧美亚洲欧美一区二区三区国产亚洲精华国产精华液的使用体验久久精品国产鲁丝片午夜精品一级片'在线观看视频欧美激情高清一区二区三区 91精品国产国语对白视频久久久久久久久久久久大奶天堂中文最新版在线下载日韩成人av中文字幕在线观看 av免费在线看不卡 freevideosex欧美久久狼人影院国产一区亚洲一区在线观看在线观看免费日韩欧美大片亚洲av福利一区久热这里只有精品99 一级片'在线观看视频女的被弄到高潮叫床怎么办久久亚洲国产成人精品v 欧美bdsm另类宅男免费午夜国产一区亚洲一区在线观看 a级毛色黄片欧美日韩视频精品一区男女下面插进去视频免费观看国产精品女同一区二区软件午夜激情av网站国产极品天堂在线久久精品国产a三级三级三级一本一本久久a久久精品综合妖精国产伦在线观看视频一区高清视频免费观看一区二区国产片内射在线十分钟在线观看高清视频www 国产精品国产三级专区第一集日韩,欧美,国产一区二区三区欧美激情国产日韩精品一区母亲3免费完整高清在线观看男女啪啪激烈高潮av片 av天堂久久9 91国产中文字幕 80岁老熟妇乱子伦牲交日本av手机在线免费观看 90打野战视频偷拍视频国产深夜福利视频在线观看亚洲欧美色中文字幕在线一本一本久久a久久精品综合妖精国产伦在线观看视频一区性色av一级视频中文字幕在线观看超色免费av 宅男免费午夜女人被躁到高潮嗷嗷叫费观国产免费又黄又爽又色国产一区精品欧美国产精品va在线观看不卡亚洲在久久综合亚洲第一av免费看女人精品久久久久毛片一区二区三区四区激情视频一边亲一边摸免费视频午夜激情av网站久久99蜜桃精品久久日韩成人av中文字幕在线观看一区二区三区四区激情视频国产成人a∨麻豆精品国产亚洲一区二区精品国产日韩欧美在线精品 97超碰精品成人国产建设人人有责人人尽责人人享有的秋霞在线观看毛片国产精品一国产av 国产片特级美女逼逼视频国产精品久久久久久精品古装美女国产高潮福利片在线看 99热这里只有是精品在线观看国产精品久久久久久精品电影小说国产有黄有色有爽视频亚洲精品第二区日韩在线高清观看一区二区三区国产精品蜜桃在线观看乱码一卡2卡4卡精品亚洲精品自拍成人成年人午夜在线观看视频亚洲精品第二区欧美人与性动交α欧美精品济南到免费久久久久久久精品成人欧美视频亚洲精品第二区日日爽夜夜爽网站欧美少妇被猛烈插入视频丰满乱子伦码专区男女午夜视频在线观看 97人妻天天添夜夜摸成人无遮挡网站一边摸一边做爽爽视频免费 91国产中文字幕亚洲色图综合在线观看满18在线观看网站国产欧美另类精品又又久久亚洲欧美久久久精品区二区三区久久久久精品久久久久真实原创久久人人爽av亚洲精品天堂国产免费福利视频在线观看嫩草影院入口国产在线一区二区三区精男女边摸边吃奶国产亚洲精品第一综合不卡少妇在线观看黄色视频在线播放观看不卡大片电影免费在线观看免费你懂的网址亚洲精品在线观看一级爰片在线观看国产成人精品无人区高清视频免费观看一区二区 av黄色大香蕉国产精品人妻久久久影院亚洲精品一二三男女下面插进去视频免费观看天天影视国产精品久久精品久久久久久噜噜老黄插逼视频在线观看精品午夜福利在线看成年人免费黄色播放视频 videosex国产 av线在线观看网站成人亚洲欧美一区二区av 久久婷婷青草少妇的逼好多水 18禁动态无遮挡网站日韩不卡一区二区三区视频在线两个人看的免费小视频热99久久久久精品小说推荐精品国产国语对白av 女人被躁到高潮嗷嗷叫费观少妇人妻久久综合中文 av电影中文网址国产一区二区在线观看av 51国产日韩欧美亚洲精品一区蜜桃国产淫语在线视频亚洲经典国产精华液单亚洲欧洲国产日韩国产成人a∨麻豆精品欧美日韩av久久黄色一级大片看看午夜av观看不卡国内精品宾馆在线夫妻性生交免费视频一级片乱人伦中国视频亚洲,一卡二卡三卡日本wwww免费看又黄又粗又硬又大视频另类精品久久黑人高潮一二区久久精品国产亚洲av天美老司机亚洲免费影院亚洲色图综合在线观看欧美日韩视频精品一区久热这里只有精品99 国精品久久久久久国模美亚洲欧美精品自产自拍热re99久久国产66热成人亚洲精品一区在线观看熟妇人妻不卡中文字幕亚洲三级黄色毛片视频在线观看一区二区三区国产不卡av网站在线观看狠狠精品人妻久久久久久综合丰满饥渴人妻一区二区三亚洲精品久久久久久婷婷小说在线观看一区二区三区激情久久久久久人人人人人亚洲国产成人一精品久久久亚洲精品第二区 av.在线天堂久久青草综合色男女无遮挡免费网站观看 99国产综合亚洲精品 av在线老鸭窝亚洲精品456在线播放app 美女大奶头黄色视频亚洲av欧美aⅴ国产亚洲精品美女久久av网站久久久国产欧美日韩av 亚洲色图综合在线观看 999精品在线视频最近最新中文字幕大全免费视频欧美日韩精品国产亚洲国产欧美在线一区欧美精品人与动牲交sv欧美一二三四在线观看免费中文在亚洲精品国产av成人精品午夜av观看不卡国产成人午夜福利电影在线观看亚洲精品国产av成人精品亚洲四区av 久久婷婷青草 18在线观看网站免费久久久久久久精品成人欧美视频日韩一区二区视频免费看国产激情久久老熟女免费观看a级毛片全部哪个播放器可以免费观看大片性色av一级 videosex国产亚洲av中文av极速乱色网站视频免费国产国语露脸激情在线看亚洲三级黄色毛片 h视频一区二区三区欧美日韩亚洲高清精品亚洲国产色片日韩精品有码人妻一区咕卡用的链子久久人人爽av亚洲精品天堂 9色porny在线观看巨乳人妻的诱惑在线观看 99热全是精品不卡视频在线观看欧美国产欧美日韩一区二区三区在线国产麻豆69 免费看av在线观看网站久久狼人影院视频在线观看一区二区三区国产一区二区在线观看av 制服诱惑二区极品人妻少妇av视频国产伦理片在线播放av一区亚洲欧美成人综合另类久久久欧美国产精品一级二级三级青春草亚洲视频在线观看一区二区三区四区激情视频 18禁在线无遮挡免费观看视频日韩中文字幕视频在线看片蜜桃在线观看.. 日韩精品免费视频一区二区三区精品一区在线观看国产久久久久国产网址大香蕉久久成人网国产精品国产三级专区第一集人人妻人人澡人人看久久久久精品久久久久真实原创欧美精品一区二区免费开放午夜激情久久久久久久精品少妇黑人巨大在线播放中文字幕精品免费在线观看视频一区二区三区四区激情视频亚洲成人av在线免费 99re6热这里在线精品视频国产成人91sexporn 91成人精品电影午夜影院在线不卡建设人人有责人人尽责人人享有的亚洲第一av免费看亚洲,欧美,日韩日韩中字成人亚洲av免费高清在线观看国产精品人妻久久久久久大码成人一级视频伦理电影免费视频久久久精品区二区三区看免费av毛片日本免费在线观看一区在线精品无人区一区二区三亚洲综合色网址婷婷成人精品国产国产又色又爽无遮挡免最近最新中文字幕大全免费视频中文乱码字字幕精品一区二区三区天美传媒精品一区二区大陆偷拍与自拍午夜福利视频在线观看免费亚洲精华国产精华液的使用体验少妇人妻视频韩国高清视频一区二区三区久久久久精品性色欧美精品一区二区大全国产1区2区3区精品亚洲av免费高清在线观看亚洲av免费高清在线观看日日爽夜夜爽网站亚洲人成网站在线观看播放 av国产精品久久久久影院 2021少妇久久久久久久久久久 av网站免费在线观看视频日本黄大片高清人妻系列视频国产免费又黄又爽又色丰满少妇做爰视频久久99热6这里只有精品国产欧美另类精品又又久久亚洲欧美人人澡人人妻人久久久久精品性色免费黄网站久久成人精品一级,二级,三级黄色视频国产乱人偷精品视频国产精品女同一区二区软件男人添女人高潮全过程视频午夜激情久久久久久久一区二区三区精品91 涩涩av久久男人的天堂午夜老司机福利剧场国产激情久久老熟女狂野欧美激情性xxxx在线观看国产69精品久久久久777片男女高潮啪啪啪动态图国产精品秋霞免费鲁丝片美女国产视频在线观看 91成人精品电影欧美亚洲日本最大视频资源中文天堂在线官网男女国产视频网站亚洲中文av在线午夜视频国产福利狠狠婷婷综合久久久久久88av 国产精品一国产av 国产精品一二三区在线看中文字幕精品免费在线观看视频一区二区三区四区激情视频 51国产日韩欧美日本欧美国产在线视频 av在线播放精品 av不卡在线播放亚洲av在线观看美女高潮在现免费观看毛片有码亚洲区日韩一区二区三区影片国产亚洲一区二区精品人妻少妇偷人精品九色成人手机av 亚洲第一区二区三区不卡夫妻午夜视频 www.熟女人妻精品国产国产成人91sexporn 成人毛片a级毛片在线播放亚洲av福利一区亚洲国产精品一区二区三区在线自拍欧美九色日韩亚洲蝌蚪91 欧美丝袜亚洲另类久久久久久人人人人人麻豆乱淫一区二区亚洲精品美女久久久久99蜜臀婷婷色综合www 91aial.com中文字幕在线观看男女下面插进去视频免费观看久久免费观看电影欧美精品一区二区免费开放亚洲av在线观看美女高潮日本猛色少妇xxxxx猛交久久少妇人妻久久综合中文少妇精品久久久久久久国产爽快片一区二区三区中文字幕人妻熟女乱码精品一品国产午夜福利视频极品少妇高潮喷水抽搐涩涩av久久男人的天堂欧美日韩视频精品一区中文字幕人妻丝袜制服国产精品久久久av美女十八一级a做视频免费观看亚洲综合色惰 97人妻天天添夜夜摸久久精品aⅴ一区二区三区四区亚洲,欧美精品. 国产一区二区三区综合在线观看免费人成在线观看视频色多毛熟女@视频久久久久人妻精品一区果冻亚洲欧美成人精品一区二区国产一区二区在线观看av 国产一区精品亚洲欧美清纯卡通 97精品久久久久久久久久精品国产精品国内视频免费观看在线日韩午夜福利在线观看免费完整高清在天美传媒精品一区二区久久久久网色 www.av在线官网国产我的女老师完整版在线观看成年人午夜在线观看视频婷婷色麻豆天堂久久欧美日韩精品国产性色avwww在线观看免费黄网站久久成人精品日韩精品免费视频一区二区三区成年美女黄网站色视频大全免费久久精品久久久久久噜噜老黄男男h啪啪无遮挡日韩欧美精品免费久久亚洲久久久国产精品日日摸夜夜添夜夜爱亚洲综合色网址 18禁观看日本午夜福利影视在线免费观看一区二区三区四区激情视频成人漫画全彩无遮挡欧美精品一区二区大全久久韩国三级中文字幕亚洲国产毛片av蜜桃av 日韩在线高清观看一区二区三区久热这里只有精品99 日日爽夜夜爽网站中文字幕最新亚洲高清亚洲精品美女久久久久99蜜臀久久人人爽人人爽人人片va 精品人妻偷拍中文字幕中文字幕免费在线视频6 色94色欧美一区二区亚洲四区av 丝袜脚勾引网站国精品久久久久久国模美久久久精品免费免费高清 freevideosex欧美少妇被粗大猛烈的视频国产成人午夜福利电影在线观看十八禁高潮呻吟视频国产一区亚洲一区在线观看久久久国产一区二区久久久久久久久久久久大奶国产午夜精品一二区理论片一本色道久久久久久精品综合超色免费av 男人添女人高潮全过程视频成年动漫av网址中文字幕人妻熟女乱码在现免费观看毛片婷婷色av中文字幕精品熟女少妇av免费看另类精品久久伊人久久国产一区二区免费久久久久久久精品成人欧美视频国产片内射在线精品久久国产蜜桃久久久精品94久久精品天堂中文最新版在线下载韩国av在线不卡 99热这里只有是精品在线观看日本黄色日本黄色录像 9热在线视频观看99 啦啦啦在线观看免费高清www 欧美成人午夜精品在线亚洲精品国产二区图片欧美日本黄色日本黄色录像 80岁老熟妇乱子伦牲交色婷婷av一区二区三区视频日本av手机在线免费观看成人影院久久国产综合精华液一本久久精品欧美日韩av久久麻豆精品久久久久久蜜桃久久久久久伊人网av 免费高清在线观看视频在线观看亚洲高清免费不卡视频 18禁裸乳无遮挡动漫免费视频热99国产精品久久久久久7 一级毛片黄色毛片免费观看视频搡老乐熟女国产亚洲欧美日韩卡通动漫高清av免费在线又粗又硬又长又爽又黄的视频激情视频va一区二区三区欧美日韩视频高清一区二区三区二久久青草综合色久久久久国产精品人妻一区二区女性生殖器流出的白浆国产精品女同一区二区软件亚洲第一区二区三区不卡国产精品国产三级国产av玫瑰欧美人与性动交α欧美软件久久热在线av 美女xxoo啪啪120秒动态图熟女av电影精品久久久久久电影网大码成人一级视频人人妻人人添人人爽欧美一区卜 av.在线天堂日本wwww免费看 av有码第一页日本黄大片高清日韩一本色道免费dvd 少妇精品久久久久久久最后的刺客免费高清国语午夜福利视频在线观看免费 av网站免费在线观看视频免费av不卡在线播放热re99久久精品国产66热6 久久久a久久爽久久v久久性色av一级国产淫语在线视频国产精品久久久久成人av 欧美日韩一区二区视频在线观看视频在线日韩视频在线欧美内地一区二区视频在线 99久久综合免费亚洲人与动物交配视频亚洲av.av天堂国产精品一国产av 国产极品天堂在线欧美最新免费一区二区三区中文精品一卡2卡3卡4更新韩国av在线不卡超碰97精品在线观看日日爽夜夜爽网站亚洲av电影在线观看一区二区三区亚洲av男天堂校园人妻丝袜中文字幕国产一区二区在线观看日韩久久99热6这里只有精品日本午夜av视频亚洲欧美日韩另类电影网站亚洲国产av新网站亚洲成av片中文字幕在线观看亚洲少妇的诱惑av 色哟哟·www 自拍欧美九色日韩亚洲蝌蚪91 欧美国产精品一级二级三级国产在线一区二区三区精欧美亚洲国产日韩一男男h啪啪无遮挡亚洲av男天堂午夜老司机福利剧场少妇高潮的动态图曰老女人黄片午夜福利网站1000一区二区三区亚洲经典国产精华液单最近中文字幕高清免费大全6 久久精品国产鲁丝片午夜精品国产女主播在线喷水免费视频网站美女脱内裤让男人舔精品视频两个人免费观看高清视频亚洲熟女精品中文字幕久久精品国产亚洲av天美国产极品天堂在线 97超碰精品成人国产国语对白做爰xxxⅹ性视频网站男人爽女人下面视频在线观看曰老女人黄片香蕉丝袜av 免费黄网站久久成人精品青春草视频在线免费观看亚洲第一区二区三区不卡综合色丁香网交换朋友夫妻互换小说国产精品熟女久久久久浪午夜免费观看性视频久久久久精品久久久久真实原创欧美变态另类bdsm刘玥亚洲精品乱码久久久久久按摩国产熟女欧美一区二区男女啪啪激烈高潮av片曰老女人黄片 51国产日韩欧美高清欧美精品videossex 热re99久久精品国产66热6 亚洲精品美女久久av网站九色成人免费人妻av 男人添女人高潮全过程视频精品酒店卫生间久久久久国产网址久久精品aⅴ一区二区三区四区国产高清三级在线国产av国产精品国产女人久久www免费人成看片国产成人精品婷婷亚洲精品色激情综合人妻亚洲视频十八禁高潮呻吟视频欧美精品国产亚洲国产黄色免费在线视频 99热6这里只有精品午夜精品国产一区二区电影毛片一级片免费看久久久久 a级毛色黄片午夜激情av网站国产精品一区二区在线不卡亚洲美女搞黄在线观看日本猛色少妇xxxxx猛交久久 av天堂久久9 xxxhd国产人妻xxx 色网站视频免费人妻一区二区av 国产高清三级在线黄网站色视频无遮挡免费观看久久精品aⅴ一区二区三区四区国产色婷婷99 女的被弄到高潮叫床怎么办一级毛片黄色毛片免费观看视频欧美xxⅹ黑人精品熟女少妇av免费看 av电影中文网址 9191精品国产免费久久 18+在线观看网站黄色视频在线播放观看不卡十八禁网站网址无遮挡欧美激情高清一区二区三区大片免费播放器马上看亚洲第一av免费看久久国产亚洲av麻豆专区 av电影中文网址亚洲欧洲国产日韩中文字幕另类日韩欧美亚洲嫩草日韩欧美一区视频在线观看日韩一本色道免费dvd 伊人亚洲综合成人网 69精品国产乱码久久久精品人妻一区二区三区麻豆 2018国产大陆天天弄谢国产在线一区二区三区精十分钟在线观看高清视频www 国产乱人偷精品视频国产极品天堂在线亚洲国产最新在线播放天美传媒精品一区二区免费看光身美女国产精品99久久99久久久不卡日本爱情动作片www.在线观看亚洲图色成人精品久久久久久电影网亚洲人成77777在线视频男女下面插进去视频免费观看宅男免费午夜 99热这里只有是精品在线观看精品99又大又爽又粗少妇毛片最近最新中文字幕免费大全7 久久热在线av 午夜福利网站1000一区二区三区国产成人午夜福利电影在线观看人人妻人人澡人人爽人人夜夜两个人免费观看高清视频亚洲欧洲国产日韩国产精品一区二区在线不卡狂野欧美激情性xxxx在线观看成人手机av 欧美精品人与动牲交sv欧美九色成人免费人妻av 久久精品aⅴ一区二区三区四区国产精品嫩草影院av在线观看色视频在线一区二区三区 2022亚洲国产成人精品日日撸夜夜添街头女战士在线观看网站九色亚洲精品在线播放一级黄片播放器成人漫画全彩无遮挡国产成人午夜福利电影在线观看欧美日韩亚洲高清精品你懂的网址亚洲精品在线观看日韩av在线免费看完整版不卡欧美亚洲丝袜人妻在线精品国产乱码久久久久久小说男女下面插进去视频免费观看国产精品熟女久久久久浪男女午夜视频在线观看性色avwww在线观看 av线在线观看网站最黄视频免费看国产精品1 最近手机中文字幕大全国产色婷婷99 久久久久精品性色 √禁漫天堂资源中文www 国产免费视频播放在线视频国产日韩欧美在线精品少妇高潮的动态图国产精品久久久久成人av 好男人视频免费观看在线日韩制服丝袜自拍偷拍免费女性裸体啪啪无遮挡网站精品国产露脸久久av麻豆 freevideosex欧美 av片东京热男人的天堂天堂8中文在线网国产白丝娇喘喷水9色精品 av在线观看视频网站免费 99久久中文字幕三级久久日本日本黄色日本黄色录像丝袜美足系列男人操女人黄网站亚洲av在线观看美女高潮伦精品一区二区三区 97在线视频观看一级毛片电影观看一级,二级,三级黄色视频国产综合精华液日本欧美国产在线视频久久久久国产网址国产爽快片一区二区三区久久久欧美国产精品久久99热这里只频精品6学生久久久久久久久久久免费av 精品一区二区三区四区五区乱码亚洲精品美女久久av网站国产一区亚洲一区在线观看中文字幕精品免费在线观看视频成年动漫av网址欧美老熟妇乱子伦牲交国产乱人偷精品视频久久精品国产综合久久久日韩亚洲欧美在线久久99热6这里只有精品成人亚洲精品一区在线观看国产成人免费无遮挡视频草草在线视频免费看欧美bdsm另类 97在线人人人人妻欧美激情国产日韩精品一区如日韩欧美国产精品一区二区三区亚洲图色成人国产精品女同一区二区软件国语对白做爰xxxⅹ性视频网站免费观看无遮挡的男女亚洲国产毛片av蜜桃av 女人精品久久久久毛片大香蕉久久网久久精品久久精品一区二区三区 99久国产av精品国产电影日韩在线高清观看一区二区三区中文精品一卡2卡3卡4更新 26uuu在线亚洲综合色人体艺术视频欧美日本高清av免费在线 91精品伊人久久大香线蕉午夜视频国产福利国产成人欧美久久精品国产鲁丝片午夜精品亚洲国产欧美日韩在线播放久久99热这里只频精品6学生咕卡用的链子成人午夜精彩视频在线观看久久久精品免费免费高清黄网站色视频无遮挡免费观看最近中文字幕2019免费版国产无遮挡羞羞视频在线观看少妇人妻久久综合中文亚洲精品美女久久av网站精品第一国产精品国产免费一区二区三区四区乱码飞空精品影院首页中文字幕av电影在线播放国产亚洲精品第一综合不卡一级爰片在线观看午夜影院在线不卡亚洲精品久久久久久婷婷小说日韩,欧美,国产一区二区三区乱码一卡2卡4卡精品亚洲人成网站在线观看播放国产一区精品亚洲av日韩在线播放天天影视国产精品人人妻人人澡人人爽人人夜夜女人被躁到高潮嗷嗷叫费观国产精品久久久久久av不卡综合色丁香网香蕉精品网在线国产精品久久久久成人av 久久精品人人爽人人爽视色亚洲熟女精品中文字幕亚洲欧美日韩卡通动漫 av在线老鸭窝欧美性感艳星国产男女超爽视频在线观看日韩成人伦理影院狂野欧美激情性xxxx在线观看少妇被粗大猛烈的视频 av在线app专区男女边摸边吃奶国产免费福利视频在线观看色吧在线观看亚洲精品乱久久久久久国产精品国产三级国产av玫瑰久久这里只有精品19 色婷婷久久久亚洲欧美欧美精品人与动牲交sv欧美免费女性裸体啪啪无遮挡网站久久99精品国语久久久国产欧美日韩综合在线一区二区欧美精品人与动牲交sv欧美中文字幕人妻熟女乱码久久久a久久爽久久v久久亚洲内射少妇av 如何舔出高潮亚洲婷婷狠狠爱综合网日本黄色日本黄色录像天天影视国产精品人人妻人人澡人人看看非洲黑人一级黄片青青草视频在线视频观看 2022亚洲国产成人精品纯流量卡能插随身wifi吗美女主播在线视频日日爽夜夜爽网站精品99又大又爽又粗少妇毛片色哟哟·www 久久久久久人人人人人欧美3d第一页国产极品粉嫩免费观看在线午夜福利乱码中文字幕内地一区二区视频在线国产精品.久久久久久精品久久久久久久性伦理电影免费视频一本—道久久a久久精品蜜桃钙片 91精品国产国语对白视频国产片特级美女逼逼视频免费观看性生交大片5 日本wwww免费看日本欧美国产在线视频国产免费视频播放在线视频只有这里有精品99 菩萨蛮人人尽说江南好唐韦庄人妻一区二区av 欧美日韩综合久久久久久亚洲国产毛片av蜜桃av 最近2019中文字幕mv第一页岛国毛片在线播放色网站视频免费亚洲综合色惰国产亚洲一区二区精品国产亚洲精品久久久com 久久久久精品久久久久真实原创国产精品人妻久久久久久在线亚洲精品国产二区图片欧美一级片'在线观看视频伦理电影大哥的女人欧美xxⅹ黑人日韩成人av中文字幕在线观看国产在线免费精品久久99精品国语久久久在线观看免费日韩欧美大片久久久久久人妻不卡视频在线观看欧美日韩亚洲欧美在线中文字幕精品免费在线观看视频亚洲色图综合在线观看日韩一本色道免费dvd 国产在线视频一区二区国产午夜精品一二区理论片国产在视频线精品免费黄色在线免费观看精品久久久精品久久久国产成人a∨麻豆精品校园人妻丝袜中文字幕 xxx大片免费视频免费观看无遮挡的男女人人妻人人添人人爽欧美一区卜人妻亚洲视频岛国毛片在线播放

一个人看片免费亚洲精品乱码爱久久久久免费观看亚洲一区二区

基于延遲策略的最大熵優(yōu)勢演員評論家算法

1 引 言

2 相關(guān)工作

2.1 強(qiáng)化學(xué)習(xí)

2.2 策略梯度強(qiáng)化學(xué)習(xí)算法

3 基于延遲策略的最大熵優(yōu)勢演員評論家算法

3.1 演員評論家算法框架

3.2 最大熵優(yōu)勢模型

3.3 延遲評論家網(wǎng)絡(luò)的策略更新

3.4 算法描述及分析

4 實(shí)驗(yàn)結(jié)果及分析

4.1 實(shí)驗(yàn)?zāi)M器介紹

4.2 實(shí)驗(yàn)參數(shù)設(shè)置

4.3 實(shí)驗(yàn)結(jié)果分析

5 結(jié)束語

1 引言