• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    強(qiáng)化學(xué)習(xí)方法的對(duì)比分析

    2015-04-29 02:46:05欒詠紅章鵬
    計(jì)算機(jī)時(shí)代 2015年12期
    關(guān)鍵詞:強(qiáng)化學(xué)習(xí)動(dòng)態(tài)規(guī)劃

    欒詠紅 章鵬

    摘 要: 強(qiáng)化學(xué)習(xí)是指從環(huán)境狀態(tài)到行為映射的學(xué)習(xí),使智能體從環(huán)境交互中獲得的累積獎(jiǎng)賞最大化。文章在介紹強(qiáng)化學(xué)習(xí)原理和方法的基礎(chǔ)上,對(duì)動(dòng)態(tài)規(guī)劃、蒙特卡羅算法和時(shí)間差分算法進(jìn)行了分析,并以柵格問(wèn)題為仿真實(shí)驗(yàn)平臺(tái)進(jìn)行算法驗(yàn)證,分析比較了蒙特卡羅算法與時(shí)間差分算法學(xué)習(xí)速率的收斂性,以及學(xué)習(xí)率對(duì)時(shí)間差分算法的影響。實(shí)驗(yàn)結(jié)果表明,時(shí)間差分算法收斂速度比蒙特卡羅算法快一些;學(xué)習(xí)率選取較大時(shí),時(shí)間差分算法收斂速度會(huì)快一些。

    關(guān)鍵詞: 強(qiáng)化學(xué)習(xí); 動(dòng)態(tài)規(guī)劃; 蒙特卡羅方法; 時(shí)間差分方法; 值函數(shù)

    中圖分類(lèi)號(hào):TP18 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2015)12-93-05

    Comparative analysis of reinforcement learning method

    Luan Yonghong1,2, Zhang Peng2

    (1. Suzhou Institute of Industrial Technology, Suzhou, Jiangsu 215104, China; 2. Institute of Computer Science and Technology, Soochow University)

    Abstract: Reinforcement learning is the learning from environment state mapping to action, to maximize the accumulated reward from the interaction with the environment. On the basis of the introduction of principles and methods of reinforcement learning, the dynamic programming, Monte Carlo algorithm and temporal-difference algorithm are analyzed, and the gridworld problem is used as the experiment platform to verify these algorithms. The convergence comparison between Monte Carlo algorithm and temporal-difference algorithm and the effect of the learning rate on the temporal-difference algorithm is analyzed. The analysis of the experiment result shows that temporal-difference algorithm is found to converge faster than Monte Carlo algorithm. The increase of learning rate improves the convergence rate of temporal-difference algorithm.

    Key words: reinforcement learning; dynamic programming; Monte Carlo methods; temporal-difference method; value function

    0 引言

    強(qiáng)化學(xué)習(xí)(reinforcement learning:RL)又稱(chēng)為增強(qiáng)學(xué)習(xí)或再勵(lì)學(xué)習(xí),是一種從環(huán)境空間狀態(tài)到動(dòng)作空間映射的學(xué)習(xí),通過(guò)試錯(cuò)法不斷與環(huán)境交互,期望動(dòng)作從中獲得的累積獎(jiǎng)賞值最大[1,7,8],它是以環(huán)境反饋?zhàn)鳛檩斎氲臋C(jī)器學(xué)習(xí)方法,也是近年來(lái)自動(dòng)控制和人工智能領(lǐng)域的研究熱點(diǎn)之一。

    1 強(qiáng)化學(xué)習(xí)理論

    1.1 強(qiáng)化學(xué)習(xí)基本原理

    強(qiáng)化學(xué)習(xí)是基于動(dòng)物學(xué)習(xí)心理學(xué)的“試錯(cuò)法”原理,智能體在與環(huán)境交互的過(guò)程中根據(jù)評(píng)價(jià)性反饋信號(hào)實(shí)現(xiàn)從環(huán)境狀態(tài)到動(dòng)作狀態(tài)的學(xué)習(xí),使得行為策略能夠從環(huán)境中得到最大的累積獎(jiǎng)賞值,最終收斂到最優(yōu)策略,實(shí)現(xiàn)馬爾科夫決策過(guò)程的優(yōu)化,解決了優(yōu)化控制問(wèn)題[2,6,7,8]。

    在強(qiáng)化學(xué)習(xí)過(guò)程中,智能體的任務(wù)就是學(xué)習(xí)獲得一個(gè)最優(yōu)控制策略π*:S→A(其中S狀態(tài)集,A為動(dòng)作集)。也就是找到一個(gè)從狀態(tài)到動(dòng)作的映射,以得到最大化期望獎(jiǎng)賞值的總和。強(qiáng)化學(xué)習(xí)框架模型如圖1所示。

    在策略π*:S→A指導(dǎo)下,智能體與外界環(huán)境不斷進(jìn)行試探交互,根據(jù)策略智能體選擇動(dòng)作a作用于環(huán)境,該環(huán)境接受動(dòng)作后產(chǎn)生一個(gè)強(qiáng)化信號(hào)r反饋給智能體,然后智能體再根據(jù)強(qiáng)化信號(hào)正負(fù)和當(dāng)前狀態(tài)的策略選擇下一個(gè)動(dòng)作。如果智能體與外界環(huán)境交互接受的強(qiáng)化信號(hào)為正,則為獎(jiǎng)賞信號(hào)。這個(gè)獎(jiǎng)賞信號(hào)通常是一個(gè)標(biāo)量,它反映了某一時(shí)刻動(dòng)作所作出的即時(shí)評(píng)價(jià),也就是立即獎(jiǎng)賞。由于選擇的動(dòng)作不僅影響立即獎(jiǎng)賞值,而且還影響智能體遷移到的下一狀態(tài)以及最終獎(jiǎng)賞回報(bào)。因此,智能體選取動(dòng)作時(shí),其原則是要能夠獲得環(huán)境最大的獎(jiǎng)賞。

    [Agent][環(huán)境] [獎(jiǎng)賞r][狀態(tài)s] [動(dòng)作a]

    圖1 強(qiáng)化學(xué)習(xí)模型

    定義1 在t時(shí)刻,從任意初始狀態(tài)st起按照任一策略π選擇動(dòng)作,從環(huán)境中獲得的累積值稱(chēng)為累積回報(bào),用Vπ(st)表示。則狀態(tài)值函數(shù)Vπ(st)定義形式[7]如式⑴。

    式⑴為無(wú)限水平折扣模型,智能體僅僅考慮未來(lái)獲得的期望回報(bào),并以某種形式的折扣累積在值函數(shù)中,其中rt是智能體從st到st+1所獲得的立即回報(bào),γ稱(chēng)為折扣因子,是用來(lái)確定長(zhǎng)期回報(bào)和立即回報(bào)的相對(duì)比例,反映了學(xué)習(xí)系統(tǒng)對(duì)未來(lái)回報(bào)的重視度。γ取值越小,表示越重視短期回報(bào),當(dāng)γ取值為0時(shí),表示只看重下一時(shí)刻的回報(bào);當(dāng)γ取值越大,表示重視長(zhǎng)期回報(bào),當(dāng)γ取值為1時(shí),表示對(duì)未來(lái)的所有回報(bào)是同等對(duì)待的。

    策略的優(yōu)劣是通過(guò)狀態(tài)值函數(shù)進(jìn)行判斷的,故最優(yōu)狀態(tài)值函數(shù)對(duì)應(yīng)的就是最優(yōu)策略。由方程最優(yōu)性原理知最優(yōu)狀態(tài)值函數(shù)為

    所求得的最優(yōu)策略可以表示為

    1.2 馬爾科夫決策過(guò)程

    通常假定環(huán)境是馬爾科夫型的,將滿(mǎn)足馬爾可夫性質(zhì)的強(qiáng)化學(xué)習(xí)任務(wù)稱(chēng)為馬爾可夫決策過(guò)程[1,3,4,7](Markov Decision Process,MDP)。強(qiáng)化學(xué)習(xí)的研究主要集中于馬爾科夫問(wèn)題的處理。

    定義2 (馬爾可夫決策過(guò)程MDP)設(shè)存在一個(gè)四元組,其中S表示離散狀態(tài)集,A表示動(dòng)作集,狀態(tài)轉(zhuǎn)移函數(shù)T:S×A→Pr(s),獎(jiǎng)賞函數(shù)R:S×A→R。記R(s,a,s')為智能體在狀態(tài)s采用a動(dòng)作使環(huán)境狀態(tài)轉(zhuǎn)移到s'獲得的立即獎(jiǎng)賞值;記T(s,a,s')為智能體在狀態(tài)s采用a動(dòng)作使環(huán)境狀態(tài)轉(zhuǎn)移到s'的概率。

    MDP本質(zhì)[1,5,7,8]是:當(dāng)前狀態(tài)向下一狀態(tài)遷移的概率和所獲得的獎(jiǎng)賞值僅僅取決于當(dāng)前狀態(tài)和選擇的動(dòng)作,而與歷史狀態(tài)和歷史動(dòng)作無(wú)關(guān)。因此在已知狀態(tài)轉(zhuǎn)移概率函數(shù)T和獎(jiǎng)賞函數(shù)R的環(huán)境模型下,一般采用動(dòng)態(tài)規(guī)劃技術(shù)求解最優(yōu)策略。而強(qiáng)化學(xué)習(xí)著重研究在T函數(shù)和R函數(shù)未知的情況下,智能體如何獲得最優(yōu)動(dòng)作策略。這就需要智能體通過(guò)試探,從環(huán)境中獲得立即回報(bào)從而學(xué)習(xí)狀態(tài)值函數(shù)。在試探過(guò)程中,智能體為了獲得環(huán)境的立即回報(bào),必須采取一定的動(dòng)作來(lái)改變當(dāng)前的環(huán)境狀態(tài)。

    強(qiáng)化學(xué)習(xí)系統(tǒng)中常用動(dòng)作選擇機(jī)制有ε-greedy貪婪機(jī)制和Boltzmann分布機(jī)制。ε-greedy動(dòng)作選擇機(jī)制是優(yōu)先按概率1-ε(0?ε<1)選擇使動(dòng)作值最大的動(dòng)作,當(dāng)該動(dòng)作未被選中時(shí),則以概率ε選擇動(dòng)作集A中其他動(dòng)作執(zhí)行。Boltzmann分布動(dòng)作選擇機(jī)制,是按照每個(gè)動(dòng)作值的大小來(lái)給該動(dòng)作賦予一個(gè)選擇概率。

    2 強(qiáng)化學(xué)習(xí)的基本方法

    解決強(qiáng)化學(xué)習(xí)問(wèn)題的基本方法有動(dòng)態(tài)規(guī)劃方法、蒙特卡羅方法和時(shí)間差分學(xué)習(xí)方法。這些方法都能很好的解決強(qiáng)化學(xué)習(xí)中存在的一系列問(wèn)題。但是近年來(lái)對(duì)強(qiáng)化學(xué)習(xí)算法的研究已由算法本身逐漸轉(zhuǎn)向研究經(jīng)典算法在各種復(fù)雜環(huán)境中的應(yīng)用,如Q學(xué)習(xí)算法,Sarsa算法,Dyan算法等。

    2.1 動(dòng)態(tài)規(guī)劃

    動(dòng)態(tài)規(guī)劃(Dynamic Programming,DP)是由Bellman于1957年提出,并證明了動(dòng)態(tài)規(guī)劃方法可以用來(lái)解決很廣泛的問(wèn)題。動(dòng)態(tài)規(guī)劃其主要思想是利用狀態(tài)值函數(shù)搜索好的策略,在文獻(xiàn)[1]中都證明了動(dòng)態(tài)規(guī)劃方法就是利用值函數(shù)來(lái)搜索好的策略。

    動(dòng)態(tài)規(guī)劃方法是由Bellman方程轉(zhuǎn)化而來(lái),通過(guò)修正Bellman方程的規(guī)則,提高所期望值函數(shù)的近似值。常用算法有兩種:值迭代(Value Iteration)和策略迭代(Policy Iteration)。

    假設(shè)環(huán)境是一個(gè)有限馬爾可夫集,對(duì)任意策略π,如果環(huán)境的動(dòng)態(tài)信息已知,即策略π、T函數(shù)和R函數(shù)已知,可以用值迭代法來(lái)近似求解。則狀態(tài)值函數(shù)更新規(guī)則如式⑷。

    在任意策略π下的任意狀態(tài)值函數(shù)V滿(mǎn)足Bellman方程的式⑴與式⑷兩種形式。值迭代算法就是將Bellman方程轉(zhuǎn)換成更新規(guī)則,利用Bellman方程求解MDP中所有狀態(tài)值函數(shù)。則狀態(tài)值函數(shù)V'(s)滿(mǎn)足Bellman最優(yōu)方程,表示為:

    由于值迭代算法直接用可能轉(zhuǎn)到的下一步s'的V(s')來(lái)更新當(dāng)前的V(s),所以算法不需要存儲(chǔ)策略π。值迭代是在保證算法收斂的情況下,縮短策略估計(jì)的過(guò)程,每次迭代只掃描(sweep)了每個(gè)狀態(tài)一次。而策略迭代算法包含了一個(gè)策略估計(jì)的過(guò)程,而策略估計(jì)則需要掃描(sweep)所有的狀態(tài)若干次,其中巨大的計(jì)算量直接影響了策略迭代算法的效率。所以說(shuō),不管采用動(dòng)態(tài)規(guī)劃中的哪種算法方法都要用到兩個(gè)步驟:策略估計(jì)和策略改進(jìn)。

    動(dòng)態(tài)規(guī)劃方法通過(guò)反復(fù)掃描整個(gè)狀態(tài)空間,對(duì)每個(gè)狀態(tài)產(chǎn)生可能遷移的分布,然后利用每個(gè)狀態(tài)的遷移分布,計(jì)算出更新值,并更新該狀態(tài)的估計(jì)值,所以計(jì)算量需求會(huì)隨狀態(tài)變量數(shù)目增加而呈指數(shù)級(jí)增長(zhǎng),從而造成“維數(shù)災(zāi)”問(wèn)題[4,7.8]。

    2.2 蒙特卡羅方法

    蒙特卡羅方法(Monte Carlo methods:MC)是一種模型無(wú)關(guān)(model free)的,解決基于平均樣本回報(bào)的強(qiáng)化學(xué)習(xí)問(wèn)題的學(xué)習(xí)方法[7-8]。它用于情節(jié)式任務(wù)(episode task),不需要知道環(huán)境狀態(tài)轉(zhuǎn)移概率函數(shù)T和獎(jiǎng)賞函數(shù)R,只需要智能體與環(huán)境從模擬交互過(guò)程中獲得的狀態(tài)、動(dòng)作、獎(jiǎng)賞的樣本數(shù)據(jù)序列,由此找出最優(yōu)策略。MC方法具有一個(gè)很重要的優(yōu)點(diǎn)就是該方法對(duì)環(huán)境是否符合馬爾可夫?qū)傩砸蟛桓摺?/p>

    假定存在終止?fàn)顟B(tài),任何策略都以概率1到達(dá)終止?fàn)顟B(tài),而且是在有限時(shí)間步內(nèi)到達(dá)目標(biāo)。MC方法通過(guò)與環(huán)境交互過(guò)程中來(lái)評(píng)估值函數(shù)的,從而發(fā)現(xiàn)最優(yōu)(較優(yōu))策略的。MC方法總是通過(guò)平均化采樣回報(bào)來(lái)解決強(qiáng)化學(xué)習(xí)問(wèn)題。正是由于MC方法的這個(gè)特點(diǎn),要求要解決的問(wèn)題必須是可以分解成情節(jié)(episode)。而MC算法的狀態(tài)值函數(shù)更新規(guī)則為:

    其中Rt為t時(shí)刻的獎(jiǎng)賞值,α為步長(zhǎng)參數(shù)(0<α<1)。MC算法只有在每個(gè)學(xué)習(xí)情節(jié)到達(dá)終止?fàn)顟B(tài)并獲得回報(bào)值時(shí)才能更新當(dāng)前狀態(tài)的值函數(shù)。所以相對(duì)那些學(xué)習(xí)情節(jié)中包含較多步數(shù)的任務(wù),對(duì)比TD算法,MC算法的學(xué)習(xí)速度就非常慢。這也是MC算法的一個(gè)主要缺點(diǎn)。

    2.3 時(shí)間差分學(xué)習(xí)方法

    時(shí)間差分(Temporal-Difference,TD)學(xué)習(xí)方法是一種模型無(wú)關(guān)的算法,它是蒙特卡羅思想和動(dòng)態(tài)規(guī)劃思想的結(jié)合,一方面可以直接從智能體的經(jīng)驗(yàn)中學(xué)習(xí),建立環(huán)境的動(dòng)態(tài)信息模型,不必等到最終輸出結(jié)果產(chǎn)生之后,再修改歷史經(jīng)驗(yàn),而是在學(xué)習(xí)過(guò)程中不斷逐步修改。正因?yàn)檫@個(gè)特點(diǎn)使得TD方法處理離散序列有很大的優(yōu)勢(shì)[1,4,6,7]。另一方面TD方法和動(dòng)態(tài)規(guī)劃一樣,可以用估計(jì)的值函數(shù)進(jìn)行迭代。

    最簡(jiǎn)單的TD方法為T(mén)D(0)算法,這是一種自適應(yīng)的策略迭代算法。文獻(xiàn)[1]指出TD(0)算法是由Sutton在1988年提出的,并且證明了當(dāng)系統(tǒng)滿(mǎn)足馬爾科夫?qū)傩?,α絕對(duì)遞減條件下,TD算法必然收斂。TD(0)算法是指智能體獲得立即回報(bào)值僅向后退一步,也就是說(shuō)迭代僅僅修改了相鄰狀態(tài)的估計(jì)值,則TD(0)算法的值函數(shù)更新規(guī)則為:

    其中α稱(chēng)為學(xué)習(xí)因子或?qū)W習(xí)率(也稱(chēng)為步長(zhǎng)參數(shù),0<α<1),γ稱(chēng)為折扣因子(0?γ?1)。由于TD(0)算法利用智能體獲得即時(shí)回報(bào)值,修改相鄰狀態(tài)值函數(shù)估計(jì)值,因此會(huì)出現(xiàn)收斂速度慢的情況。Singh等人對(duì)TD(0)算法進(jìn)行改進(jìn),將智能體獲得的立即獎(jiǎng)賞值由僅回退一步擴(kuò)展到可以回退任意步,形成了TD(λ)算法。

    TD(λ)算法比TD(0)算法具有更好的泛化性能,0?λ?1是資格跡的衰減系數(shù)。TD(λ)算法是一個(gè)經(jīng)典的函數(shù)估計(jì)方法,每一個(gè)時(shí)間步的計(jì)算復(fù)雜度為Q(n),其中n為狀態(tài)特征的個(gè)數(shù)。當(dāng)學(xué)習(xí)因子α或者資格跟蹤參數(shù)λ選得不合適時(shí),TD(λ)甚至?xí)l(fā)散的。

    3 基于柵格問(wèn)題仿真實(shí)驗(yàn)

    3.1 柵格模型

    柵格問(wèn)題是一類(lèi)經(jīng)典的人工智能問(wèn)題,常被用來(lái)驗(yàn)證強(qiáng)化學(xué)習(xí)算法的有效性。一般用二維網(wǎng)格世界來(lái)描述,每個(gè)網(wǎng)格代表智能體的一種狀態(tài)。S表示開(kāi)始狀態(tài),G表示終止?fàn)顟B(tài)。智能體的任務(wù)是從起始點(diǎn)出發(fā),尋找一條最優(yōu)的路徑,到達(dá)終點(diǎn)處。智能體在任意狀態(tài)下能執(zhí)行的動(dòng)作有向上、向下,向左和向右。如果移動(dòng)后的狀態(tài)是邊界,智能體狀態(tài)保持不變,否則執(zhí)行動(dòng)作后智能體將遷移到相應(yīng)的鄰近狀態(tài)。智能體到達(dá)目標(biāo)狀態(tài)前的每一步狀態(tài)遷移的立即獎(jiǎng)賞均為r=0,遷移到目標(biāo)狀態(tài)G的立即獎(jiǎng)賞r=1。

    實(shí)驗(yàn)主要關(guān)注狀態(tài)空間維度分別為5×5和20×20兩種情況,含三個(gè)方面的內(nèi)容:①智能體通過(guò)學(xué)習(xí)獲得的最短路徑軌跡;②在相同的學(xué)習(xí)因子,智能體在MC算法與TD算法下學(xué)習(xí)過(guò)程的收斂情況;③若學(xué)習(xí)率α的取值不同,TD算法值函數(shù)估計(jì)誤差的比較以及算法的收斂情況。

    本文實(shí)驗(yàn)選用ε-greedy貪婪機(jī)制選取動(dòng)作,設(shè)置ε=0.1,選取動(dòng)作時(shí)選擇最大動(dòng)作值對(duì)應(yīng)的動(dòng)作概率為1-ε=0.9,選擇其他動(dòng)作概率為ε=0.1。折扣因子γ(0?γ?1)反映了學(xué)習(xí)系統(tǒng)對(duì)未來(lái)回報(bào)的重視度。實(shí)驗(yàn)中學(xué)習(xí)算法的參數(shù)設(shè)置為:探索因子ε=0.1,折扣因子γ=0.9,學(xué)習(xí)率α=0.1。

    [\&\&\&\&\&\&\&\&G\&\&\&\&\&\&\&\&\&\&\&\&S\&\&\&\&\&]

    圖2 柵格問(wèn)題示意圖

    3.2 實(shí)驗(yàn)結(jié)果與算法收斂分析

    在MDP環(huán)境模型已知的情況下,使用動(dòng)態(tài)規(guī)劃的值迭代算法更新求解最優(yōu)策略。根據(jù)已知模型先驗(yàn)知識(shí)進(jìn)行初始化,實(shí)驗(yàn)時(shí)采用貪心策略的狀態(tài)值函數(shù)估計(jì),根據(jù)式⑺動(dòng)態(tài)規(guī)劃值迭代更新規(guī)則計(jì)算值函數(shù),每一次迭代過(guò)程中更新所有狀態(tài)的值,在值迭代過(guò)程中不斷逼近最優(yōu)值,當(dāng)所有狀態(tài)的值函數(shù)的更新誤差Δ小于設(shè)定的閾值ε=0.005時(shí),值迭代算法收斂。

    在MDP環(huán)境模型不確定的情況下,智能體成功地從起點(diǎn)尋找到終點(diǎn)的過(guò)程,稱(chēng)之為一個(gè)情節(jié)(episode),當(dāng)智能體到達(dá)終點(diǎn)后,重新回到起始點(diǎn)進(jìn)行下一個(gè)情節(jié)的學(xué)習(xí)。圖3與圖4分別表示了MC算法與TD算法在不同狀態(tài)空間維度的上迷宮的實(shí)驗(yàn)結(jié)果比較。橫坐標(biāo)表示情節(jié)數(shù),縱坐標(biāo)為每個(gè)情節(jié)對(duì)應(yīng)的步數(shù)。

    圖3與圖4分別給出了MC算法與TD算法應(yīng)用于不同狀態(tài)空間維度的柵格上取得的實(shí)驗(yàn)數(shù)據(jù)。實(shí)驗(yàn)結(jié)果顯示,TD學(xué)習(xí)算法得到最終策略結(jié)果比MC學(xué)習(xí)算法要好。

    如圖3所示,設(shè)狀態(tài)空間維度為5×5的模型,從實(shí)驗(yàn)結(jié)果可以看出MC算法大約在學(xué)習(xí)完40個(gè)情節(jié)后,時(shí)間步數(shù)基本趨于穩(wěn)定,逐漸收斂至次優(yōu)解。而TD算法在10個(gè)情節(jié)內(nèi)學(xué)習(xí)曲線(xiàn)是逐漸平滑遞減,當(dāng)學(xué)習(xí)完10個(gè)情節(jié)后就收斂至最優(yōu)解。MC算法中一些狀態(tài)集的值函數(shù)的計(jì)算不依賴(lài)于其他狀態(tài)集的值函數(shù),只需要將那些能夠精確描述環(huán)境信息的狀態(tài)子集中計(jì)算所獲得的平均回報(bào)獎(jiǎng)賞值,作為將這個(gè)回報(bào)值作為V(st)的目標(biāo)。而TD算法只迭代修改相鄰狀態(tài)的估計(jì)值,將觀察得到的獎(jiǎng)賞rt+1和估計(jì)值V(st+1)為逼近目標(biāo)進(jìn)行迭代,在當(dāng)前固定策略下給出策略的最優(yōu)狀態(tài)值估計(jì)。

    在狀態(tài)空間維度較小的情況下,MC算法相對(duì)于TD算法的學(xué)習(xí)速度與學(xué)習(xí)結(jié)果較差些,收斂速度較慢些。但是,隨著離散空間維度的增大(即狀態(tài)空間維度設(shè)為20×20),從算法學(xué)習(xí)過(guò)程的收斂情況可以看出,TD算法大約在學(xué)習(xí)完90個(gè)情節(jié)后收斂至最優(yōu)解,如圖4所示。但是MC算法學(xué)習(xí)完500個(gè)情節(jié),性能逐漸減退,且始終存在著劇烈的震蕩,最終結(jié)果也無(wú)法收斂到較好的值。這是因?yàn)镸C算法是基于平均化取樣回報(bào)來(lái)更新當(dāng)前狀態(tài)的值函數(shù),只有在每個(gè)學(xué)習(xí)情節(jié)到達(dá)終止?fàn)顟B(tài)并獲得返回值時(shí),才能更新當(dāng)前狀態(tài)的值函數(shù)。在大空間狀態(tài)下批量更新,MC算法由于采樣一次學(xué)習(xí)所獲得的立即獎(jiǎng)賞值,然后多次學(xué)習(xí)逼近真實(shí)的狀態(tài)值函數(shù),而每次學(xué)習(xí)必須要等到當(dāng)前情節(jié)(episode)終止時(shí)才能夠進(jìn)行。MC算法得到的是訓(xùn)練樣本集上具有最小均方差的估計(jì)值。而TD算法不必等到最終輸出結(jié)果產(chǎn)生之后再修改以往學(xué)到的經(jīng)驗(yàn),而是在學(xué)習(xí)過(guò)程中逐步修改。TD算法得到的估計(jì)值是馬爾科夫過(guò)程最大似然模型得到的精確值。因此,TD算法比MC算法收斂更快。

    Sutton在1988年提出并證明了TD(0)算法的收斂性,即TD(0)算法在最小化均方差(Mean Square Error:MSE)意義下的收斂性。雖然存在收斂速度慢的問(wèn)題。但是當(dāng)系統(tǒng)滿(mǎn)足馬爾科夫?qū)傩裕瑢W(xué)習(xí)因子α絕對(duì)遞減條件下,TD(0)算法必然收斂。圖5和圖6分別給出了學(xué)習(xí)因子α取值不同時(shí),TD學(xué)習(xí)速度收斂的情況。實(shí)驗(yàn)中TD算法根據(jù)ε-greedy貪心策略確定動(dòng)作,探索因子ε=0.1, 折扣因子γ=0.9,學(xué)習(xí)因子分別設(shè)為α=0.1,α=0.2,α=0.5。在狀態(tài)空間維度20×20的迷宮模型驗(yàn)證。從實(shí)驗(yàn)結(jié)果可以看出,選取較大的α值時(shí),TD算法能夠較快收斂,但是不夠平穩(wěn),需要較長(zhǎng)時(shí)間才能平穩(wěn);選取較小的α值時(shí),TD算法收斂速度較慢,但是在情節(jié)數(shù)多的情況比較平穩(wěn)。

    4 結(jié)束語(yǔ)

    基于查詢(xún)值表(Lookup-table)的TD方法是強(qiáng)化學(xué)習(xí)中一個(gè)經(jīng)典的值函數(shù)預(yù)測(cè)方法,即只評(píng)估某個(gè)穩(wěn)定策略下的值函數(shù),解決了強(qiáng)化學(xué)習(xí)中根據(jù)時(shí)間序列進(jìn)行預(yù)測(cè)的問(wèn)題。

    離散的馬爾可夫決策過(guò)程是強(qiáng)化學(xué)習(xí)研究的重要理論基礎(chǔ),已知狀態(tài)轉(zhuǎn)移概率T和獎(jiǎng)賞函數(shù)R的前提下,可以采用動(dòng)態(tài)規(guī)劃的值迭代過(guò)程得到最優(yōu)策略。

    動(dòng)態(tài)規(guī)劃中的值迭代算法是通過(guò)在各種策略下計(jì)算狀態(tài)值函數(shù),找出最優(yōu)狀態(tài)值對(duì)應(yīng)的最優(yōu)策略。但是,這種方法每次迭代計(jì)算相對(duì)簡(jiǎn)單、計(jì)算量小,但是所需的迭代次數(shù)可能較大。

    MC方法是從樣本情節(jié)形式的經(jīng)驗(yàn)中學(xué)習(xí)值函數(shù)和逼近最優(yōu)策略,解決基于平均樣本回報(bào)的強(qiáng)化學(xué)習(xí)問(wèn)題的方法。

    本文主要是針對(duì)小規(guī)模的、離散狀態(tài)空間問(wèn)題,分析比較了MC算法與TD算法的收斂性。近年來(lái),基于值函數(shù)逼近的強(qiáng)化學(xué)習(xí)方法越來(lái)越多地被用于模式識(shí)別、工業(yè)制造等領(lǐng)域,具有大規(guī)模連續(xù)動(dòng)作空間的強(qiáng)化學(xué)習(xí)問(wèn)題成為研究的熱點(diǎn)。這也是下一階段學(xué)習(xí)和研究的任務(wù)。

    參考文獻(xiàn)(References):

    [1] Sutton R S, Barto A G. Reinforcement learning: An

    introduction[M]. Cambridge: MIT Press,1998.

    [2] Busoniu L, Babuska R, De Schutter B, et al. Reinforcement

    learning and dynamic programming using function approximators[M]. USA: CRC Press,2010.

    [3] 高陽(yáng),陳世福,陸鑫.強(qiáng)化學(xué)習(xí)研究綜述[J].自動(dòng)化學(xué)報(bào),

    2004.33(1):86-99

    [4] Kaelbing L p, Littman M l, Moore A W. Reinforcement

    learning: a survery[J]. Journal of Artificial Intelligence Rearch,1996.4:237-285

    [5] Ratitch B. On characteristics of Markov decision processes

    and reinforcement learning in large domains[D]. PhD thesis, The School of Computer Science McGill University,Montreal,2005.

    [6] Konidaris G. A framework for transfer in reinforcement

    learning[C]. In:ICML-2006 Workshop on Structural Knowledge Transfer for Machine Learning,2006.

    [7] Wiering M, Van Otterlo M. Reinforcement Learning:

    state-of-the-Art[M].Heidelberg Berlin: Springer,2012.

    [8] 陳學(xué)松,楊宜民.強(qiáng)化學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,

    2010.27(8):2834-2838

    猜你喜歡
    強(qiáng)化學(xué)習(xí)動(dòng)態(tài)規(guī)劃
    智能車(chē)自主避障路徑規(guī)劃研究綜述
    一種記憶可修剪型仿生機(jī)器人的速度跟蹤算法研究
    基于強(qiáng)化學(xué)習(xí)的在線(xiàn)訂單配送時(shí)隙運(yùn)能分配
    論“以讀促寫(xiě)”在初中英語(yǔ)寫(xiě)作教學(xué)中的應(yīng)用
    智能交通車(chē)流自動(dòng)導(dǎo)引系統(tǒng)
    分布式系統(tǒng)中基于非合作博弈的調(diào)度算法
    ACM—ICPC競(jìng)賽趣味學(xué)習(xí)系統(tǒng)設(shè)計(jì)
    大學(xué)生經(jīng)濟(jì)旅游優(yōu)化設(shè)計(jì)模型研究
    動(dòng)態(tài)規(guī)劃最優(yōu)控制在非線(xiàn)性系統(tǒng)中的應(yīng)用
    動(dòng)態(tài)規(guī)劃案例教學(xué)設(shè)計(jì)
    久久99精品国语久久久| 久久国产亚洲av麻豆专区| 亚洲av免费高清在线观看| 欧美成人精品欧美一级黄| h视频一区二区三区| 亚洲第一区二区三区不卡| 国产极品粉嫩免费观看在线 | 国产一区二区在线观看日韩| 青春草亚洲视频在线观看| 免费观看的影片在线观看| 久久精品国产鲁丝片午夜精品| a级片在线免费高清观看视频| av网站免费在线观看视频| 97超视频在线观看视频| 女性被躁到高潮视频| 99久久人妻综合| 国产成人freesex在线| 国产精品国产三级专区第一集| 精品久久久久久久久av| a 毛片基地| 少妇精品久久久久久久| 最近中文字幕2019免费版| 国产一区二区在线观看日韩| 久久午夜福利片| 亚洲国产成人一精品久久久| 三级经典国产精品| 日韩不卡一区二区三区视频在线| 午夜老司机福利剧场| 成年av动漫网址| 欧美97在线视频| 久久久国产精品麻豆| 免费高清在线观看视频在线观看| 久久久久久久久大av| 成人18禁高潮啪啪吃奶动态图 | 能在线免费看毛片的网站| 免费黄网站久久成人精品| 人妻制服诱惑在线中文字幕| 亚洲欧美成人综合另类久久久| 国产高清有码在线观看视频| av线在线观看网站| 久久久久久久久久人人人人人人| 亚洲伊人久久精品综合| 亚洲欧美清纯卡通| 在线观看一区二区三区激情| 亚洲av欧美aⅴ国产| 亚洲国产欧美在线一区| 少妇人妻精品综合一区二区| 国产av一区二区精品久久| 日韩欧美 国产精品| 国产男人的电影天堂91| 性色avwww在线观看| 又爽又黄a免费视频| 波野结衣二区三区在线| 日韩三级伦理在线观看| 亚洲精品日本国产第一区| 成人美女网站在线观看视频| 久久人妻熟女aⅴ| 国产精品国产三级国产av玫瑰| 91精品伊人久久大香线蕉| 国产精品99久久99久久久不卡 | 亚洲情色 制服丝袜| 成年人午夜在线观看视频| 三上悠亚av全集在线观看 | 国产永久视频网站| 黄片无遮挡物在线观看| 国内揄拍国产精品人妻在线| 亚洲精品乱久久久久久| 成人漫画全彩无遮挡| 亚洲欧美清纯卡通| 国产精品蜜桃在线观看| 男人添女人高潮全过程视频| 亚洲精品久久久久久婷婷小说| 午夜福利在线观看免费完整高清在| 如日韩欧美国产精品一区二区三区 | 黄色一级大片看看| 熟女电影av网| 一级,二级,三级黄色视频| 亚洲av成人精品一二三区| 亚洲欧洲日产国产| 日本欧美国产在线视频| 亚洲精品456在线播放app| 国产伦精品一区二区三区四那| 黄色日韩在线| 亚洲熟女精品中文字幕| 伦理电影免费视频| 99九九在线精品视频 | 亚洲精品乱码久久久久久按摩| 精品国产乱码久久久久久小说| 哪个播放器可以免费观看大片| 亚洲精品日韩av片在线观看| 国产成人91sexporn| 有码 亚洲区| 亚洲欧美成人综合另类久久久| 久久99精品国语久久久| 插逼视频在线观看| 中文字幕人妻丝袜制服| 国产欧美亚洲国产| 欧美三级亚洲精品| 国产午夜精品久久久久久一区二区三区| 亚洲国产av新网站| 亚洲欧洲日产国产| 国产高清有码在线观看视频| 国产精品99久久99久久久不卡 | 毛片一级片免费看久久久久| 久久久久精品性色| 夜夜爽夜夜爽视频| 亚洲成人av在线免费| av网站免费在线观看视频| 一级,二级,三级黄色视频| 亚洲天堂av无毛| xxx大片免费视频| 久久午夜福利片| 国产精品熟女久久久久浪| 少妇 在线观看| 嘟嘟电影网在线观看| 国产爽快片一区二区三区| 在线观看人妻少妇| h视频一区二区三区| 综合色丁香网| 国产成人a∨麻豆精品| 老司机亚洲免费影院| 亚洲va在线va天堂va国产| 婷婷色av中文字幕| 精品视频人人做人人爽| 乱码一卡2卡4卡精品| 久久久a久久爽久久v久久| 亚洲性久久影院| 成人毛片a级毛片在线播放| 成人国产麻豆网| 9色porny在线观看| 国产精品久久久久久精品电影小说| 丝袜在线中文字幕| 中文在线观看免费www的网站| 欧美高清成人免费视频www| 波野结衣二区三区在线| 亚洲真实伦在线观看| 桃花免费在线播放| 丰满迷人的少妇在线观看| 免费观看无遮挡的男女| 国产美女午夜福利| 亚洲国产成人一精品久久久| 国产欧美日韩精品一区二区| 亚洲经典国产精华液单| 日本与韩国留学比较| 国产亚洲午夜精品一区二区久久| 最近手机中文字幕大全| 人妻一区二区av| 少妇丰满av| 午夜福利影视在线免费观看| 97超碰精品成人国产| 少妇被粗大猛烈的视频| 欧美 亚洲 国产 日韩一| 人妻 亚洲 视频| 街头女战士在线观看网站| 精品少妇内射三级| 国产av一区二区精品久久| 亚洲熟女精品中文字幕| 亚洲国产色片| 性高湖久久久久久久久免费观看| av又黄又爽大尺度在线免费看| 王馨瑶露胸无遮挡在线观看| 精品亚洲成国产av| 免费观看在线日韩| 七月丁香在线播放| 国产成人a∨麻豆精品| 成人二区视频| 在线精品无人区一区二区三| 一区二区三区精品91| 亚洲精品国产成人久久av| 中文字幕制服av| 制服丝袜香蕉在线| 国产欧美另类精品又又久久亚洲欧美| 青青草视频在线视频观看| 国产免费视频播放在线视频| 亚洲国产最新在线播放| 欧美丝袜亚洲另类| 欧美 日韩 精品 国产| 亚洲久久久国产精品| 亚洲av男天堂| 国产无遮挡羞羞视频在线观看| 99视频精品全部免费 在线| 有码 亚洲区| 嘟嘟电影网在线观看| av.在线天堂| 久久国产精品大桥未久av | 亚洲精品中文字幕在线视频 | 黄色怎么调成土黄色| 乱码一卡2卡4卡精品| 午夜日本视频在线| 夜夜骑夜夜射夜夜干| 精品一品国产午夜福利视频| 少妇人妻一区二区三区视频| 卡戴珊不雅视频在线播放| 丝袜在线中文字幕| 国产毛片在线视频| 高清黄色对白视频在线免费看 | av在线app专区| 永久网站在线| 男女边吃奶边做爰视频| 免费黄色在线免费观看| 赤兔流量卡办理| av播播在线观看一区| 多毛熟女@视频| 性色av一级| 欧美日本中文国产一区发布| 亚洲av男天堂| 在线 av 中文字幕| 中文字幕久久专区| 欧美xxⅹ黑人| 我要看日韩黄色一级片| 亚洲国产精品成人久久小说| 久久狼人影院| 国产亚洲5aaaaa淫片| 亚洲欧美精品专区久久| 精品久久久久久电影网| 日日爽夜夜爽网站| 亚洲精品国产av蜜桃| 久久久国产精品麻豆| 国产一区二区在线观看av| 日韩成人av中文字幕在线观看| 我要看黄色一级片免费的| 又爽又黄a免费视频| 成人亚洲精品一区在线观看| 久久久久久伊人网av| 日韩欧美精品免费久久| 国产色婷婷99| 欧美日韩视频精品一区| videossex国产| h视频一区二区三区| 69精品国产乱码久久久| 我要看黄色一级片免费的| 赤兔流量卡办理| 午夜av观看不卡| 少妇猛男粗大的猛烈进出视频| 久久精品国产亚洲av天美| 99精国产麻豆久久婷婷| av又黄又爽大尺度在线免费看| 麻豆成人午夜福利视频| 男女无遮挡免费网站观看| 亚洲成人av在线免费| 草草在线视频免费看| 一区二区三区四区激情视频| 国产乱来视频区| 国产又色又爽无遮挡免| a级毛片在线看网站| 国产亚洲午夜精品一区二区久久| 久久久久网色| h视频一区二区三区| 国产女主播在线喷水免费视频网站| 97超视频在线观看视频| 曰老女人黄片| 人人妻人人看人人澡| 久久免费观看电影| √禁漫天堂资源中文www| 国产精品99久久99久久久不卡 | 成人综合一区亚洲| 亚洲怡红院男人天堂| 秋霞在线观看毛片| 久久热精品热| 男人和女人高潮做爰伦理| 亚洲在久久综合| 一区二区av电影网| 最近手机中文字幕大全| 午夜免费男女啪啪视频观看| 国产永久视频网站| 多毛熟女@视频| 亚洲精品第二区| 人妻一区二区av| 日本色播在线视频| 天美传媒精品一区二区| 晚上一个人看的免费电影| 国产精品一区二区三区四区免费观看| 国产熟女午夜一区二区三区 | 国产av国产精品国产| 丝袜在线中文字幕| 精品酒店卫生间| 国产成人免费观看mmmm| 在线 av 中文字幕| 欧美+日韩+精品| 亚洲欧美成人综合另类久久久| 男人和女人高潮做爰伦理| 亚洲av在线观看美女高潮| 国模一区二区三区四区视频| 久久精品国产亚洲av天美| 国产精品久久久久久久电影| 精品久久久久久久久av| 国产日韩欧美视频二区| 中国美白少妇内射xxxbb| 国产精品成人在线| 王馨瑶露胸无遮挡在线观看| 午夜影院在线不卡| 亚洲精品日韩在线中文字幕| 精品少妇久久久久久888优播| 老熟女久久久| 我的老师免费观看完整版| 一区二区三区免费毛片| 亚洲成色77777| 免费观看性生交大片5| 国产成人午夜福利电影在线观看| 一级a做视频免费观看| 久久久国产欧美日韩av| 七月丁香在线播放| 乱码一卡2卡4卡精品| 视频区图区小说| 亚洲精品中文字幕在线视频 | 天堂8中文在线网| 久久久欧美国产精品| 五月玫瑰六月丁香| 国产色爽女视频免费观看| 精品久久久久久电影网| 高清在线视频一区二区三区| 少妇人妻久久综合中文| 久久精品国产亚洲av天美| 五月伊人婷婷丁香| 纯流量卡能插随身wifi吗| 欧美日韩在线观看h| 韩国av在线不卡| 老熟女久久久| 日本午夜av视频| 国产视频内射| 亚洲欧美精品专区久久| 另类精品久久| 亚洲天堂av无毛| 色视频www国产| 男人舔奶头视频| 乱系列少妇在线播放| 人妻夜夜爽99麻豆av| 一本大道久久a久久精品| 久久女婷五月综合色啪小说| 18禁在线无遮挡免费观看视频| 免费大片黄手机在线观看| 综合色丁香网| 人妻制服诱惑在线中文字幕| 久久久久人妻精品一区果冻| 熟女av电影| 黑人猛操日本美女一级片| 久久精品熟女亚洲av麻豆精品| 日韩三级伦理在线观看| 欧美97在线视频| 亚洲国产欧美在线一区| 少妇精品久久久久久久| 亚洲国产精品专区欧美| 日本91视频免费播放| 国产伦精品一区二区三区视频9| 久热久热在线精品观看| 精品国产乱码久久久久久小说| 久热久热在线精品观看| 久久久久精品久久久久真实原创| 久久精品国产亚洲av天美| 视频区图区小说| 国产91av在线免费观看| 精品一区二区免费观看| 免费黄频网站在线观看国产| 亚州av有码| 久久久久久久亚洲中文字幕| 国产欧美另类精品又又久久亚洲欧美| 精品久久久噜噜| 亚洲自偷自拍三级| h视频一区二区三区| 有码 亚洲区| 国产欧美日韩精品一区二区| 国产视频首页在线观看| 色5月婷婷丁香| 亚洲av电影在线观看一区二区三区| 蜜桃在线观看..| 久久久久人妻精品一区果冻| 在线精品无人区一区二区三| 黄色毛片三级朝国网站 | 国产亚洲精品久久久com| 夜夜看夜夜爽夜夜摸| 亚洲综合精品二区| 大话2 男鬼变身卡| 乱系列少妇在线播放| 久久热精品热| 99热这里只有是精品在线观看| 自拍偷自拍亚洲精品老妇| 日本黄色片子视频| 最黄视频免费看| 如何舔出高潮| 草草在线视频免费看| 亚洲国产精品国产精品| 免费不卡的大黄色大毛片视频在线观看| 一个人免费看片子| 精品久久久久久久久av| 在线播放无遮挡| 亚洲国产精品一区三区| 国产一区二区三区综合在线观看 | 欧美另类一区| 色5月婷婷丁香| 天美传媒精品一区二区| 性高湖久久久久久久久免费观看| 插阴视频在线观看视频| 亚洲精品aⅴ在线观看| 国产美女午夜福利| 街头女战士在线观看网站| 国产精品伦人一区二区| 成人国产麻豆网| 亚洲国产精品国产精品| 国产男人的电影天堂91| 国产又色又爽无遮挡免| 嫩草影院新地址| 国产精品.久久久| av国产久精品久网站免费入址| 大陆偷拍与自拍| 国产亚洲精品久久久com| 两个人的视频大全免费| 99热全是精品| 最黄视频免费看| 久久精品国产a三级三级三级| 一级毛片 在线播放| 在线观看一区二区三区激情| 丰满乱子伦码专区| 国产精品99久久久久久久久| 少妇猛男粗大的猛烈进出视频| av天堂中文字幕网| 在现免费观看毛片| 久久久亚洲精品成人影院| 青春草国产在线视频| 一区在线观看完整版| 九九爱精品视频在线观看| 亚洲综合色惰| 精品一品国产午夜福利视频| 美女xxoo啪啪120秒动态图| 亚洲国产日韩一区二区| 一区二区三区乱码不卡18| 国产精品一区二区性色av| 最近2019中文字幕mv第一页| 亚洲熟女精品中文字幕| 日日啪夜夜爽| 又粗又硬又长又爽又黄的视频| 精品一品国产午夜福利视频| 免费大片18禁| 国产精品.久久久| 一本久久精品| av网站免费在线观看视频| 青春草国产在线视频| 美女主播在线视频| 丝袜喷水一区| 国产视频首页在线观看| 岛国毛片在线播放| 久久国内精品自在自线图片| 亚洲精品日韩在线中文字幕| 亚洲av不卡在线观看| 亚洲美女视频黄频| 欧美97在线视频| 搡老乐熟女国产| 日本黄色日本黄色录像| 午夜福利影视在线免费观看| 亚洲激情五月婷婷啪啪| 亚洲国产成人一精品久久久| 一本色道久久久久久精品综合| 免费人成在线观看视频色| 青春草亚洲视频在线观看| 黄色一级大片看看| 亚洲av免费高清在线观看| 伊人亚洲综合成人网| 黄色视频在线播放观看不卡| 三级国产精品欧美在线观看| 丰满少妇做爰视频| 国产成人精品福利久久| av免费观看日本| 最近2019中文字幕mv第一页| 五月伊人婷婷丁香| 少妇精品久久久久久久| 久久久久人妻精品一区果冻| 三级经典国产精品| av女优亚洲男人天堂| av播播在线观看一区| 蜜桃久久精品国产亚洲av| av又黄又爽大尺度在线免费看| 国产成人午夜福利电影在线观看| 日日摸夜夜添夜夜爱| 国产精品久久久久久久电影| 秋霞在线观看毛片| 一区二区av电影网| 在线观看免费视频网站a站| 少妇裸体淫交视频免费看高清| 夫妻性生交免费视频一级片| 丝袜脚勾引网站| 深夜a级毛片| 精品人妻一区二区三区麻豆| 一级毛片电影观看| 国产精品.久久久| 国产精品国产av在线观看| 狂野欧美激情性xxxx在线观看| 国产欧美亚洲国产| 老司机亚洲免费影院| 亚洲真实伦在线观看| 黑人巨大精品欧美一区二区蜜桃 | 成人黄色视频免费在线看| 乱人伦中国视频| 99久久中文字幕三级久久日本| 80岁老熟妇乱子伦牲交| 国产免费视频播放在线视频| 日韩欧美 国产精品| 性色av一级| 99热网站在线观看| 国产成人午夜福利电影在线观看| av卡一久久| 国产精品一区二区性色av| 久久精品久久久久久久性| 久久久久久伊人网av| 少妇的逼水好多| 在线观看免费高清a一片| 国产在线免费精品| 热99国产精品久久久久久7| 国产黄频视频在线观看| 丁香六月天网| 在线观看国产h片| 成人免费观看视频高清| 欧美日韩av久久| 日韩中字成人| 日本欧美视频一区| 亚洲精品久久午夜乱码| 黑丝袜美女国产一区| 亚洲人与动物交配视频| 一区二区av电影网| 少妇的逼水好多| 精品少妇内射三级| 日韩av在线免费看完整版不卡| 午夜精品国产一区二区电影| 日本猛色少妇xxxxx猛交久久| 内射极品少妇av片p| 中文字幕精品免费在线观看视频 | 黑丝袜美女国产一区| 狂野欧美白嫩少妇大欣赏| 国产欧美日韩综合在线一区二区 | 少妇人妻久久综合中文| 欧美高清成人免费视频www| 一区二区三区免费毛片| 2022亚洲国产成人精品| 新久久久久国产一级毛片| 搡老乐熟女国产| 国产av精品麻豆| 免费黄色在线免费观看| 亚洲综合色惰| 国产毛片在线视频| av不卡在线播放| 国产 一区精品| 少妇精品久久久久久久| 久久久久久久精品精品| 成人毛片60女人毛片免费| 晚上一个人看的免费电影| 又粗又硬又长又爽又黄的视频| 精品人妻熟女毛片av久久网站| 一本一本综合久久| 久久国产乱子免费精品| 免费少妇av软件| 亚洲色图综合在线观看| 制服丝袜香蕉在线| 亚洲av不卡在线观看| 一级a做视频免费观看| 国产白丝娇喘喷水9色精品| 精品人妻熟女av久视频| 日韩制服骚丝袜av| 国产精品不卡视频一区二区| 美女cb高潮喷水在线观看| 黄片无遮挡物在线观看| 久久国产精品男人的天堂亚洲 | 国产亚洲最大av| 精品国产一区二区三区久久久樱花| a级毛色黄片| 久久久久久伊人网av| 人人妻人人爽人人添夜夜欢视频 | 三级经典国产精品| 秋霞在线观看毛片| 一本色道久久久久久精品综合| 99国产精品免费福利视频| 中文乱码字字幕精品一区二区三区| 精品国产乱码久久久久久小说| 久热这里只有精品99| 91精品伊人久久大香线蕉| 这个男人来自地球电影免费观看 | 精品熟女少妇av免费看| 特大巨黑吊av在线直播| 日韩大片免费观看网站| 日韩欧美一区视频在线观看 | 少妇熟女欧美另类| 波野结衣二区三区在线| av不卡在线播放| 国产永久视频网站| 国产黄色视频一区二区在线观看| 黄片无遮挡物在线观看| 久久久久久久久久久丰满| 日韩av免费高清视频| 伦精品一区二区三区| 人人妻人人添人人爽欧美一区卜| 国产成人午夜福利电影在线观看| 国产综合精华液| 国产黄片美女视频| 久久国内精品自在自线图片| 插逼视频在线观看| 夜夜骑夜夜射夜夜干| 久久99一区二区三区| 亚洲欧美中文字幕日韩二区| 久久99精品国语久久久| 亚洲美女搞黄在线观看| 一本—道久久a久久精品蜜桃钙片| 精品一区二区三卡| 狂野欧美激情性xxxx在线观看| 免费大片黄手机在线观看| 能在线免费看毛片的网站| 欧美精品人与动牲交sv欧美| 国产视频内射| 日韩制服骚丝袜av| 日韩电影二区| 久久人人爽av亚洲精品天堂| 伦理电影大哥的女人| 麻豆成人午夜福利视频| 国产真实伦视频高清在线观看| 91成人精品电影| 狂野欧美激情性xxxx在线观看| 岛国毛片在线播放| 老司机影院成人| 久久99蜜桃精品久久|