• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    解決深度探索問題的貝葉斯深度強化學習算法

    2020-02-20 03:42:22珉,汪
    計算機與生活 2020年2期
    關鍵詞:格子貝葉斯深度

    楊 珉,汪 潔

    中南大學 信息科學與工程學院,長沙 410083

    1 引言

    強化學習領域最主要的三大問題[1]分別是:(1)泛化;(2)如何平衡探索與利用之間的關系;(3)信用分配問題(credit assignment problem)。近幾年的研究熱點主要集中在大規(guī)模狀態(tài)空間下的泛化問題,并有了一個新的研究領域,名為深度強化學習[2](deep reinforcement learning)。該領域的興起是從DeepMind團隊提出DQN(deep Q-network)算法[3]后開始的,DQN算法最主要的貢獻就是將深度學習[4]和強化學習[5]結(jié)合起來,并通過經(jīng)驗回放(experience replay)和目標網(wǎng)絡機制來解決有關泛化的一些問題[6]。此后,也有很多關于DQN算法的改進版本被提出來[7-8],這些算法主要關注的還是泛化問題,而本文要探討的主要問題是如何平衡探索與利用之間的關系。

    機器學習領域中最熱門的監(jiān)督學習算法只能從人類收集到的數(shù)據(jù)中學習相關的模式,然而需要收集什么樣的數(shù)據(jù),或者說哪些數(shù)據(jù)是重要的還是需要人類來決定。強化學習可以通過選擇不同的動作得到不同的觀察序列,然后根據(jù)得到的觀察序列學習相關的模式,也就是說,在強化學習的范疇內(nèi),需要算法來決定是選擇當前最優(yōu)的動作(利用)還是選擇有可能帶來長期利益的動作(探索)。然而DQN等算法使用的是簡單的啟發(fā)式探索策略ε-貪婪,該策略只以ε(0 ≤ε≤1)的概率隨機選擇一個動作,以此來達到探索的效果,然而這樣的探索策略是極其低效的。雖然DQN算法能在街機學習環(huán)境[9](arcade learning environment)中達到甚至超過人類水平,但是在面對深度探索問題(參見第4章)時,算法的時間復雜度為O(2N)。好的探索策略必須要考慮所選擇的動作所帶來的信息增益,而信息主要是通過估計值的不確定程度來衡量的,那么只需引入概率思維就可以得到一個好的探索策略。其實早在1998年,Dearden等學者就提出了貝葉斯Q學習[10]來平衡探索與利用之間的關系。此后,也有其他研究人員提出了貝葉斯框架下的強化學習算法[11-12],然而這些算法的計算過程比較復雜,而且無法和深度學習技術結(jié)合起來。貝葉斯強化學習和深度學習結(jié)合最主要的問題是:在高維狀態(tài)空間下,得到神經(jīng)網(wǎng)絡參數(shù)的后驗分布是棘手的(intractable)。本文的貢獻就在于提出了一種新的計算方法,該計算方法可以產(chǎn)生參數(shù)后驗分布的樣本(參見第5章),將使用了該計算方法的深度強化學習算法統(tǒng)稱為貝葉斯深度強化學習算法。目前而言,該計算方法只適用于基于值的深度強化學習算法,同基于策略的深度強化學習算法的結(jié)合需要進一步的研究。將Bootstrapped DQN[13]和該計算方法結(jié)合,得到新的算法BBDQN(Bayesian Bootstrapped DQN),并通過兩個環(huán)境下的實驗來驗證算法的探索效率,其中一個實驗環(huán)境是具有深度探索結(jié)構(gòu)的格子世界;另一個實驗環(huán)境是經(jīng)典控制問題Mountain Car,該問題本身不具備深度探索結(jié)構(gòu),對其獎勵函數(shù)稍作修改使其具備深度探索結(jié)構(gòu),然后在修改后的Mountain Car上進行實驗。實驗結(jié)果顯示BBDQN可以解決深度探索問題,并且其探索效率要優(yōu)于使用隨機探索策略(即ε-貪婪)的DQN算法以及Bootstrapped DQN算法。

    2 相關工作

    強化學習算法的探索效率直接影響到算法的樣本效率,提高探索效率可以降低訓練智能體所需的時間步數(shù)。貝葉斯最優(yōu)策略(Bayes-optimal policy)是衡量強化學習算法的探索效率的一個標準,然而計算貝葉斯最優(yōu)策略是棘手的,因為計算時間隨問題空間(狀態(tài)和動作)呈指數(shù)級增長[14]??紤]探索效率方面的研究非常多,而最早提出的是Kearns和Singh[15],他們的工作確認了多項式時間的強化學習算法必須用到多周期探索(multi-period exploration)?;谒麄兊墓ぷ?,一系列表格(tabular)強化學習算法被提出來[16-22],這些論文中提到的探索方法都要比ε-貪婪和玻爾茲曼探索要高效,但是這些方法都無法處理維數(shù)災難(curse of dimensionality)。近幾年提出的處理大規(guī)模狀態(tài)空間的深度強化學習算法[3,23-24]偏向于使用ε-貪婪探索,這些算法在Atari街機游戲以及圍棋上能得到很好的結(jié)果,然而卻沒有任何實際方面的應用,低效的探索效率使得這些算法只能在模擬環(huán)境中訓練。

    針對大規(guī)模狀態(tài)空間下的探索,有研究人員提出了模型學習算法[25],該方法的問題在于只能解決簡單的模型類問題,對于復雜的模型,該方法的計算也是棘手的。有研究人員提出了策略學習算法[26],該類算法主要解決的是連續(xù)動作空間問題,如機器人控制,但是當策略空間的大小是指數(shù)級的時候,該方法就無法保證探索的效率了。還有一類方法是根據(jù)偽計數(shù)(pseudocount)[27]或密度模型[28]給不常訪問的狀態(tài)分配獎勵,以此來達到鼓勵探索的目的。

    如何保證算法的探索效率和泛化一直是強化學習的一個難題,也有研究人員想到了使用貝葉斯思想處理這一問題,比如貝葉斯Q學習算法[10],然而該算法只能處理狀態(tài)數(shù)量有限的問題;還有Osband等人[29]提出的RLSVI(randomized least-square value iteration)算法,該算法只適用于線性函數(shù)逼近器,無法和神經(jīng)網(wǎng)絡這一非線性函數(shù)逼近器相結(jié)合;而Azizzadenesheli等人[30]提出的算法將神經(jīng)網(wǎng)絡作為特征提取器,將網(wǎng)絡的最后一層的輸入作為特征,然后使用貝葉斯線性回歸計算Q值。貝葉斯神經(jīng)網(wǎng)絡方面的研究一直未成為主流[31-32],然而最近有復蘇的跡象,有許多關于量化數(shù)據(jù)集的不確定性的方法[33-35]被提出來,本文作者受到這些方法的啟發(fā),提出了一種可以有效計算貝葉斯后驗的深度強化學習算法。

    3 背景知識

    強化學習問題通常建模為馬爾可夫決策過程,本文使用的馬爾可夫決策過程可以表示為(S,A,T,R,γ),其中S為狀態(tài)空間;A為動作空間且A(s),s∈S為狀態(tài)s下可用的動作集;T為狀態(tài)轉(zhuǎn)移概率,T(st+1|st,at)表示在狀態(tài)st下采取動作at后轉(zhuǎn)移到狀態(tài)st+1的概率;R為獎勵函數(shù),用Rs,a表示在狀態(tài)s下采取動作a后得到的獎勵分布的均值,用r表示狀態(tài)s下采取動作a后得到的立即獎勵(也可以理解為從獎勵分布中得到的樣本),則有Rs,a=Ε[r|st=s,at=a];γ∈[0,1)是折扣參數(shù),用來控制未來獎勵所占的權重。

    強化學習的目標是學習一個策略使得智能體所獲得的折扣累積獎勵最大化。用π來表示策略,且π(a|s)表示在狀態(tài)s下采取動作a的概率。然后引入動作值函數(shù)(Q函數(shù))的概念,動作值函數(shù)Qπ(s,a)表示在策略π下,智能體在狀態(tài)s下采取了動作a后所能獲得的期望折扣累積獎勵,即:

    該方程也可以通過遞歸的形式表示出來:

    用π*表示最優(yōu)策略,用Q*表示最優(yōu)動作值函數(shù)。由于最優(yōu)策略就是能獲得最大折扣累積獎勵的策略,因此可以將Q*函數(shù)寫為:

    式(1)也稱作貝爾曼最優(yōu)方程(Bellman optimality equation),對于每一對s,a,都有一個方程,將所有這些方程聯(lián)合起來就得到了一個方程組,通過線性規(guī)劃方法可以求解這個方程組得到所有s,a對應的最優(yōu)動作值函數(shù)Q*(s,a)。也可以通過策略迭代(policy iteration)或者值迭代(value iteration)等動態(tài)規(guī)劃方法求解最優(yōu)動作值函數(shù)。最優(yōu)策略可以通過最優(yōu)動作值函數(shù)表達出來,即對于所有狀態(tài)s,選擇該狀態(tài)下使得最優(yōu)動作值函數(shù)最大的動作,如果有多個動作滿足這一條件,可以從這些動作中隨機選擇一個。從式(1)中可以看到,這種方法需要已知環(huán)境模型——狀態(tài)轉(zhuǎn)移概率T和獎勵函數(shù)R——才能計算出來,在不知道環(huán)境模型的情況下就需要通過其他方法來求最優(yōu)策略,比如Q學習算法。Q學習是通過迭代方式來計算最優(yōu)動作值函數(shù)的,更新規(guī)則為:

    其中,α為學習率,獎勵r和下一狀態(tài)s'都是環(huán)境反饋給智能體的,在狀態(tài)空間和動作空間有限的情況下,只要學習率序列滿足隨機近似條件且所有狀態(tài)-動作對都能得到持續(xù)更新的情況下,該算法以概率1收斂到最優(yōu)值函數(shù)Q*[5]。

    在大規(guī)模狀態(tài)空間下,傳統(tǒng)的強化學習算法Q學習不再適用,但是可以通過結(jié)合函數(shù)逼近技術來解決這一問題。神經(jīng)網(wǎng)絡和強化學習的結(jié)合是近幾年研究的熱點,而DQN算法就是這方面的典范。當使用神經(jīng)網(wǎng)絡時,動作值函數(shù)可以表示為Qθ(s,a),其中θ是神經(jīng)網(wǎng)絡的參數(shù)。通過與環(huán)境交互得到的反饋信息來計算目標值:

    有了目標值和預測值就可以通過隨機梯度下降算法更新神經(jīng)網(wǎng)絡的參數(shù)θ,更新規(guī)則為:

    如果直接這樣做的話,效果并不是很好,因為神經(jīng)網(wǎng)絡是監(jiān)督學習方法,要求各個訓練樣本之間是相互獨立的,強化學習收集的樣本之間是相互關聯(lián)的,而且每次更新參數(shù)會影響到目標值,導致目標值不穩(wěn)定。正如DQN算法中所提到的,只需要兩個機制就可以緩解這一問題:經(jīng)驗回放和目標網(wǎng)絡。經(jīng)驗回放機制就是每次智能體與環(huán)境交互時,將該次交互的信息(s,a,r,s′)存入記憶池(replay buffer)中,每次更新時智能體從記憶池中隨機抽取一定數(shù)量的樣本,并用這些樣本來更新參數(shù)。目標網(wǎng)絡機制就是智能體維護兩個Q網(wǎng)絡,一個網(wǎng)絡是用來選擇動作并實時更新的,另一個網(wǎng)絡(目標網(wǎng)絡)用來計算目標值并且不會實時更新,每次更新時使用的目標值可以表示為:

    其中,Qtarget表示目標網(wǎng)絡,只有過了指定的時間步后,才將兩個網(wǎng)絡的參數(shù)同步一次。

    4 深度探索問題

    文獻[10]中提到的鏈問題就是一類深度探索問題,本章將用該問題來分析ε-貪婪策略和玻爾茲曼探索的探索效率。為了計算簡便,對文獻[10]中的鏈問題做出了一定的修改。

    ε-貪婪探索就是有ε的概率從所有可用的動作中隨機選擇一個,有1-ε的概率選擇就當前而言最優(yōu)的動作。玻爾茲曼探索選擇每個動作的概率和動作值函數(shù)的估計成正比,計算公式為:

    Fig.1 Chain problem圖1 鏈問題

    使用一個鏈問題來分析ε-貪婪探索和玻爾茲曼探索的探索效率,該問題的狀態(tài)轉(zhuǎn)換圖如圖1所示,圖中每一條箭頭都對應一個動作以及獎勵,該問題的起始狀態(tài)為1,終止狀態(tài)為N。假設每個周期(episode)的長度H=N-1,并且無論在哪個狀態(tài)下,選擇動作a會有0.2的概率失?。ㄊ∫馕吨x擇的動作和實際動作不一致),而動作b是確定性的。這個問題的最優(yōu)策略就是一直選擇動作a,最優(yōu)策略每個周期所能得到的平均獎勵就是該策略成功到達N的概率(1-0.2)N-1。無論是ε-貪婪探索還是玻爾茲曼探索,由于到達目標狀態(tài)N之前沒有獎勵(即獎勵為0),因此所有狀態(tài)下動作a和動作b的估計值都是相等的,動作選擇完全是隨機的,這種情況下通過探索到達狀態(tài)N的概率為(1-0.2)N-1×2-(N-1),只需取該概率的倒數(shù)就能得到通過探索到達狀態(tài)N平均所需的周期數(shù)量,用l代表所需的周期數(shù)量,則有如下關系成立:

    根據(jù)該不等式,可以確定使用ε-貪婪策略或玻爾茲曼探索的強化學習算法在面對鏈問題之類的深度探索問題時,其時間復雜度為O(2N),其中N代表問題的規(guī)模。

    5 貝葉斯深度強化學習

    探索的好處可以用信息的價值估計,所謂信息的價值即指探索所獲得的信息導致未來決策質(zhì)量提升的程度,而如何量化探索所獲得的信息是關鍵。根據(jù)信息論,可以用探索所選擇的動作的估值的不確定程度來計算該次探索所帶來的信息量。在文獻[10]中,就提出采用貝葉斯方法來維持這一信息,然而在該篇論文中,所討論的問題的狀態(tài)動作對的數(shù)量有限,可以通過記錄每一個狀態(tài)動作對獲得的所有的回報,然后計算方差,再計算信息量。當狀態(tài)動作對數(shù)量過大時,強化學習會考慮結(jié)合泛化技術來解決這一問題,如果使用的是線性函數(shù)逼近器,可以根據(jù)文獻[36]中提到的貝葉斯線性回歸來得到估值的方差。但是近幾年和深度學習相關的研究表明,神經(jīng)網(wǎng)絡強大的泛化能力遠強于線性函數(shù)逼近器的泛化能力,因此結(jié)合深度學習和強化學習技術成了一大趨勢,并產(chǎn)生了一個新的研究領域被稱作深度強化學習。由于神經(jīng)網(wǎng)絡結(jié)構(gòu)復雜,且參數(shù)數(shù)量十分龐大,無法通過文獻[36]中提到的計算方法來計算估值的方差,因此本文提出了一種新的計算方法。該方法在每一個時間步通過計算得到神經(jīng)網(wǎng)絡參數(shù)的后驗分布的一個樣本,由于不同動作的估值方差不同,方差高的動作其信息量越大,同時其采樣值也可能更大,因此被選擇的概率也越高。舉個例子,有兩個動作,其Q值服從高斯分布,由于動作1被選擇的次數(shù)更多,因此其方差要小于動作2,假設動作1的方差為1,動作2的方差為10,此外動作1的歷史回報均值為3,動作2的歷史回報均值為1,因此動作1服從均值為3方差為1的高斯分布,而動作2服從均值為1方差為10的高斯分布,結(jié)果就是動作2由于方差大,其采樣值大于動作1的采樣值的概率也更大。接下來詳細介紹如何在深度強化學習算法中應用貝葉斯方法。

    神經(jīng)網(wǎng)絡的輸入既可以是一維數(shù)組,也可以是二維矩陣,甚至可以是三維圖像。為了表示清晰,用x∈?d表示狀態(tài)特征,也就是神經(jīng)網(wǎng)絡的輸入值,加上目標值y組成訓練集,表示為。首先計算線性回歸模型參數(shù)的后驗分布,稍后再將其擴展到神經(jīng)網(wǎng)絡的情形下。模型參數(shù)表示為θ∈?d,且假設參數(shù)θ的先驗分布為,觀察到的目標值有一定噪聲,即yi=θTxi+wi,其中wi∝N(0,σ2)為噪聲,各個樣本的噪聲是相互獨立的。根據(jù)貝葉斯定理參數(shù)θ的后驗分布可以表示為:

    在貝葉斯理論中,p(D|θ)被稱為似然,p(θ)被稱為先驗,p(D)被稱為證據(jù)。根據(jù)文獻[36]的推導,參數(shù)θ的后驗分布服從均值為式(2)、協(xié)方差為式(3)的多元高斯分布:

    其中,X∈?n×d為n個樣本輸入xi拼接后得到的矩陣,y∈?n為n個目標值yi拼接后得到的向量。可以通過馬爾可夫鏈蒙特卡羅等方法推斷出該后驗分布,但為了擴展到非線性模型人工神經(jīng)網(wǎng)絡,將后驗分布用另一種形式表示出來:

    其中,δ∈?n是一個隨機向量,其每個分量δi都來自高斯分布N(0,σ2),且各分量的采樣是相互獨立的,來自參數(shù)先驗分布??梢宰C明,和θ是等價的,因為:

    將貝葉斯方法和Bootstrapped DQN結(jié)合起來的方法稱作BBDQN算法,該算法的整體描述見算法1。

    算法1BBDQN算法

    輸入:折扣參數(shù)γ,批量大小n,學習器數(shù)量K,參數(shù)先驗均值,參數(shù)先驗方差λ,采樣間隔Tsample,目標網(wǎng)絡更新間隔Ttarget。

    6 實驗分析

    6.1 格子世界

    首先在如圖2所示的格子世界中測試BBDQN算法的探索效率,白色部分的格子代表網(wǎng)格世界的規(guī)模,灰色格子為終止狀態(tài),由于空間限制,圖2中的格子世界的規(guī)模僅為4×4,而在實驗中使用的格子世界的規(guī)模為20×20,但這并不妨礙使用圖2的小規(guī)模格子世界來描述其動態(tài)模型。圖2中狀態(tài)S為起始狀態(tài),且智能體一直保持一個向右行進的速度+1,在每個狀態(tài)中可供選擇的動作是up和down,即向上和向下,如果選擇向上,則下一步會到達當前狀態(tài)的右上狀態(tài),如果選擇向下,則下一步會到達當前狀態(tài)的右下狀態(tài)。如果智能體處于格子世界的底部,則向下動作可以理解為貼墻行進,此時下一狀態(tài)將處于當前狀態(tài)的右方,如果在白色格子的右上角選擇動作up就能到達灰色格子的頂部,并獲得+1的獎勵,其他狀態(tài)都沒有獎勵,因此要想獲得獎勵必須一直選擇動作up,然而動作up是有代價的,該代價是和格子世界的規(guī)模相關的。假設格子世界的規(guī)模為N×N,則每一次選擇動作up會帶來-0.01/N的獎勵,而選擇動作down沒有代價,獎勵為0。其實該問題就是第4章提到的鏈問題的二維擴展版本,可以將輸入表示為一個one-hot矩陣xi∈{0,1}N×N,矩陣中智能體所在的位置為1,其他位置全為0。在該實驗中,將同使用ε-貪婪策略的DQN以及Bootstrapped DQN進行比較,BBDQN算法用到的超參數(shù)顯示在表1中,其中0 ∈?d代表分量全為0的一個向量。

    Fig.2 Gridworld with deep exploration structure圖2 具有深度探索結(jié)構(gòu)的格子世界

    Table 1 Hyperparameters表1 超參數(shù)

    實驗結(jié)果顯示在圖3中,圖中是用遺憾(regret)來衡量算法性能的。遺憾是指最大累積獎勵與實際累積獎勵之間的差值,該指標越小算法性能越好。因為DQN一直沒有發(fā)現(xiàn)格子世界中存在獎勵的區(qū)域,因此其累積獎勵小于0,其遺憾在不斷地增長。從圖3中可以看到,BBDQN只需不到2 000個周期就可以學習到最優(yōu)策略,而DQN在10 000個周期后都沒有學習到一個好的策略。事實上,進行了100萬個周期的實驗,DQN依然沒有收斂。

    Fig.3 Comparison of algorithm performance in Gridworld圖3 格子世界上算法性能比較

    正如第4章所分析的那樣,使用ε-貪婪策略的DQN算法在面對深度探索問題時,算法的時間復雜度為O(2N)。本文還測試了Bootstrapped DQN算法的性能,該算法的動作選擇不是通過ε-貪婪實現(xiàn)的,而且該算法是通過在DQN的基礎上加入集成技術來提高其探索效率的[13],但也無法在短期內(nèi)解決該深度探索問題。Bootstrapped DQN和DQN在10 000個周期內(nèi)的遺憾只有微小的差異,該差異在圖3中看不出來,必須放大才能看出區(qū)別,具體地講,DQN在10 000個周期中累積的遺憾為9 922.02,Bootstrapped DQN為9 914.60。

    圖3是當格子世界的規(guī)模為20×20時,算法的性能曲線??梢约僭O格子世界的規(guī)模為N×N,并分析算法探索效率和N之間的關系。和第4章一樣,用算法第一次發(fā)現(xiàn)獎勵所需的周期數(shù)作為探索效率的衡量指標,通過實驗得到了6個數(shù)據(jù)樣本,顯示在表2中,其中l(wèi)表示算法第一次發(fā)現(xiàn)獎勵所需的周期數(shù)量。為了表示出兩者之間的關系,用多項式回歸來擬合這6個點,表示如下:

    其中,w1,w2,…,wm為m次多項式的參數(shù),可以通過最小二乘法求出。測試了多個m值,發(fā)現(xiàn)當m為3時,均方誤差最小,即兩者之間的關系可以通過3次多項式來近似,如下:

    Table 2 The number of episodes required to find rewards表2 發(fā)現(xiàn)獎勵所需的周期數(shù)

    其中,參數(shù)保留小數(shù)點后兩位。因此,BBDQN算法在面對深度探索問題時,算法的時間復雜度是多項式級別的,具體為O(N3),優(yōu)于隨機探索策略ε-貪婪的時間復雜度O(2N)。

    6.2 有關格子世界的進一步分析

    在圖3中DQN算法和Bootstrapped DQN算法比較起來沒有明顯的差別,但這并不代表兩個算法的探索效率是一樣的。事實上,Bootstrapped DQN算法的探索效率要比DQN更高。為了證明這一結(jié)論,進行了一系列實驗。

    在上一節(jié)提到了格子世界的規(guī)模表示為N×N,學習器的個數(shù)用K表示,比較了當K固定為10,N為{10,20,30}時各算法的性能。此外,又比較了當N固定為20時,K為{10,20,30}時各算法的性能。當格子世界的規(guī)模變小時,Bootstrapped DQN相較于DQN的優(yōu)越性就體現(xiàn)出來了。如圖4所示,當K為10且N為10時,DQN算法的遺憾一直增長,而Bootstrapped DQN和BBDQN在1 000個周期內(nèi)就找到了最優(yōu)策略。此外,當學習器的數(shù)量增大時,Bootstrapped DQN相較于DQN的優(yōu)越性同樣能體現(xiàn)出來。如圖5所示,當K為30且N為20時,Bootstrapped DQN算法在2 000個周期左右的時間點找到最優(yōu)策略。

    Fig.4 Comparison of algorithm performance in Gridworld(N=10,K=10)圖4 格子世界(N=10,K=10)上算法性能比較

    Fig.5 Comparison of algorithm performance in Gridworld(N=20,K=30)圖5 格子世界(N=20,K=30)上算法性能比較

    所有實驗的結(jié)果顯示在表3中,由于空間限制,Bootstrapped DQN在表中表示為BDQN。此外,6.1節(jié)的實驗結(jié)果即表中K=10,N=20所示的結(jié)果。在表3中,能在10 000個周期內(nèi)學習到最優(yōu)策略的算法的遺憾用加粗字體顯示,可以看到DQN在所有的實驗設置中都沒能在10 000個周期內(nèi)找到最優(yōu)策略,而Bootstrapped DQN只有當K=10、N=10(格子世界的規(guī)模減小)或K=30、N=20(學習器的數(shù)量增加)時,才能在10 000個周期內(nèi)學習到最優(yōu)策略,而BBDQN在所有設置下都能在10 000個周期內(nèi)學習到最優(yōu)策略。從表3中還可以看出,當格子世界的規(guī)模較小時(N=10),BBDQN算法和Bootstrapped DQN算法的性能相差不大,而且由于BBDQN加入了隨機初始化的先驗網(wǎng)絡,BBDQN的性能甚至略低于Bootstrapped DQN,但是當格子世界的規(guī)模增加時,本文提出的BBDQN算法的優(yōu)越性就愈發(fā)明顯,這也是BBDQN更適合解決深度探索問題的體現(xiàn);此外,BBDQN算法的性能并不會隨著學習器的數(shù)量增加而增加,這就意味著BBDQN的空間需求低于Bootstrapped DQN,因為學習器的數(shù)量越多,就需要越多的空間來存儲每個學習的參數(shù),且這些算法都是使用神經(jīng)網(wǎng)絡作為函數(shù)逼近器,每個網(wǎng)絡的參數(shù)都是百萬級的,而BBDQN并不像Bootstrapped DQN一樣要通過增加學習器的數(shù)量來提高算法性能(如表3所示),因此BBDQN的空間需求低于Bootstrapped DQN。

    Table 3 Cumulative regret of each algorithm in 10 000 episodes表3 各算法在10 000個周期內(nèi)累積的遺憾

    6.3 Mountain Car的變體

    Mountain Car問題如圖6所示,在該問題中,小車的初始位置處于山底地區(qū),目標是到達右邊山頂,智能體接收到的狀態(tài)信號是目前所處的位置以及小車的速度,智能體有3個可供選擇的動作,分別是左加速、不加速以及右加速,小車的動態(tài)模型如下:

    其中,x代表小車所處位置且有-1.2 ≤x≤0.6;v代表小車的速度且有-0.07 ≤v≤0.07;a代表智能體選擇的動作,3個動作[左加速,不加速,右加速]對應的a值為[ 1,0,1]。當小車到達左端位置即x=-1.2時速度將重置為0,如果小車位置大于0.5(即到達目標區(qū)域)則該周期結(jié)束,進入下一周期,如果小車在200個時間步內(nèi)還沒有到達右邊山頂,則強制結(jié)束該周期并進入下一周期。該問題的主要難點在于小車的動力無法抵消重力,因此無法直接通過右加速到達右邊山頂,必須借助慣性才行。在原問題中,小車每一個時間步都獲得-1的獎勵,直到周期結(jié)束為止。

    Fig.6 Mountain Car problem圖6 Mountain Car問題

    對原問題的獎勵信號做出修改,使其與深度探索問題的結(jié)構(gòu)相吻合。每當小車進行加速,無論是左加速還是右加速,都需要一定的代價,即接收到一個負的獎勵信號,和格子世界一樣,將其設置為-0.01/N,只不過這里的N是最優(yōu)策略到達右邊山頂所需的平均步數(shù);如果不加速,則無需付出代價,即獎勵為0;而一旦小車到達右邊山頂將接受到+1的獎勵。實驗結(jié)果如圖7所示,使用ε-貪婪探索的DQN算法其累積獎勵一直小于0,代表該算法沒有找到包含獎勵的區(qū)域,而Bootstrapped DQN和BBDQN算法在200個周期內(nèi)就發(fā)現(xiàn)了獎勵區(qū)域。雖然Bootstrapped DQN一開始的累積獎勵高于BBDQN,但在500個周期左右的時候BBDQN就超出Bootstrapped DQN了,而且增長的速度(曲線斜率)也明顯快于Bootstrapped DQN。由于本文使用的BBDQN方法使用的先驗網(wǎng)絡的參數(shù)是隨機初始化的,因此訓練開始的時候BBDQN的累積獎勵低只能說明隨機初始化的先驗網(wǎng)絡的參數(shù)和正確的值網(wǎng)絡的參數(shù)相差較遠。

    Fig.7 Comparison of algorithm performance on variant of Mountain Car圖7 Mountain Car的變體上的算法性能比較

    7 結(jié)束語

    結(jié)合近幾年興起的深度學習技術可以提高傳統(tǒng)強化學習算法的性能,然而這方面的進展僅對強化學習中的泛化有幫助。強化學習和監(jiān)督學習最主要的區(qū)別就在于強化學習除了泛化外還存在兩個問題:(1)平衡探索與利用之間的關系;(2)信用分配問題。本文主要解決的探索利用困境這一問題。結(jié)合貝葉斯方法可以提高強化學習算法的探索效率,幾十年前就有人做過這方面的研究,然而之前的方法無法適用于神經(jīng)網(wǎng)絡這類非線性模型,本文的貢獻就在于提出了一種能夠通過數(shù)值計算得到神經(jīng)網(wǎng)絡參數(shù)后驗分布的樣本的方法,并將該計算方法和Bootstrapped DQN結(jié)合得到BBDQN算法。通過兩個環(huán)境下的實驗證明了BBDQN算法的探索效率優(yōu)于使用ε-貪婪策略的DQN算法以及Bootstrapped DQN算法。

    進一步研究的方向是:本文計算Q函數(shù)參數(shù)后驗分布的樣本的方法用于計算策略梯度(policy gradient)方法中策略函數(shù)πθ參數(shù)的后驗分布的樣本時,能否有效提高策略梯度方法面對深度探索問題時的探索效率。

    猜你喜歡
    格子貝葉斯深度
    深度理解一元一次方程
    深度觀察
    深度觀察
    深度觀察
    數(shù)格子
    填出格子里的數(shù)
    格子間
    女友(2017年6期)2017-07-13 11:17:10
    貝葉斯公式及其應用
    格子龍
    基于貝葉斯估計的軌道占用識別方法
    av国产久精品久网站免费入址| 国精品久久久久久国模美| 熟女少妇亚洲综合色aaa.| 国产成人免费观看mmmm| 亚洲一区二区三区欧美精品| 永久免费av网站大全| 国产成人精品在线电影| 18+在线观看网站| 久久久久久久国产电影| 国产精品久久久久久精品电影小说| 一级毛片 在线播放| 午夜日本视频在线| 一级毛片我不卡| 在线 av 中文字幕| 免费观看无遮挡的男女| 国产免费视频播放在线视频| 久久99一区二区三区| 纵有疾风起免费观看全集完整版| 中文字幕人妻熟女乱码| 波多野结衣一区麻豆| 欧美另类亚洲清纯唯美| 国产精品野战在线观看 | 美女 人体艺术 gogo| 国产蜜桃级精品一区二区三区| 动漫黄色视频在线观看| 亚洲精品成人av观看孕妇| 波多野结衣高清无吗| 一级a爱片免费观看的视频| 日韩成人在线观看一区二区三区| 免费日韩欧美在线观看| 亚洲色图 男人天堂 中文字幕| 19禁男女啪啪无遮挡网站| 亚洲aⅴ乱码一区二区在线播放 | cao死你这个sao货| 国产精品自产拍在线观看55亚洲| 久久中文看片网| av欧美777| 十八禁网站免费在线| 俄罗斯特黄特色一大片| 青草久久国产| 免费女性裸体啪啪无遮挡网站| 亚洲性夜色夜夜综合| 五月开心婷婷网| av网站免费在线观看视频| 一夜夜www| 欧美人与性动交α欧美软件| 亚洲色图综合在线观看| 在线国产一区二区在线| 在线十欧美十亚洲十日本专区| 夫妻午夜视频| 国产片内射在线| 如日韩欧美国产精品一区二区三区| 女人精品久久久久毛片| 激情视频va一区二区三区| 亚洲 欧美 日韩 在线 免费| 每晚都被弄得嗷嗷叫到高潮| 亚洲精品国产区一区二| 亚洲av片天天在线观看| 午夜激情av网站| 欧美一区二区精品小视频在线| 丝袜在线中文字幕| 亚洲精品av麻豆狂野| 一个人观看的视频www高清免费观看 | 欧美黄色片欧美黄色片| 国内久久婷婷六月综合欲色啪| 久久久久久久久免费视频了| www日本在线高清视频| 亚洲欧美激情在线| 国产高清激情床上av| 91成年电影在线观看| 亚洲精品中文字幕一二三四区| 日韩有码中文字幕| 色精品久久人妻99蜜桃| 日韩视频一区二区在线观看| 亚洲av熟女| 视频区图区小说| 黄色a级毛片大全视频| 手机成人av网站| 亚洲色图av天堂| 在线观看免费视频日本深夜| 亚洲美女黄片视频| 午夜精品国产一区二区电影| 国产乱人伦免费视频| 国产免费男女视频| 欧美成人性av电影在线观看| 好男人电影高清在线观看| 国产精品一区二区精品视频观看| 日本三级黄在线观看| 中文字幕高清在线视频| 咕卡用的链子| 国产免费男女视频| 久久婷婷成人综合色麻豆| 12—13女人毛片做爰片一| 老汉色av国产亚洲站长工具| 色婷婷av一区二区三区视频| 国产乱人伦免费视频| 男女下面进入的视频免费午夜 | 欧美激情久久久久久爽电影 | 亚洲黑人精品在线| 国产精品一区二区免费欧美| 久久香蕉精品热| 欧美av亚洲av综合av国产av| 国产在线观看jvid| 男女高潮啪啪啪动态图| 18禁黄网站禁片午夜丰满| e午夜精品久久久久久久| 日本vs欧美在线观看视频| 久久草成人影院| 最新在线观看一区二区三区| 亚洲欧美精品综合久久99| 国产精品久久久久久人妻精品电影| 自拍欧美九色日韩亚洲蝌蚪91| 亚洲,欧美精品.| 一二三四社区在线视频社区8| 欧美日本中文国产一区发布| 亚洲,欧美精品.| 午夜亚洲福利在线播放| 成人手机av| 大码成人一级视频| 韩国精品一区二区三区| 两个人免费观看高清视频| 美女高潮到喷水免费观看| av在线天堂中文字幕 | 国产成人啪精品午夜网站| 亚洲精品国产精品久久久不卡| 午夜免费鲁丝| 这个男人来自地球电影免费观看| 色综合站精品国产| 久久香蕉国产精品| 五月开心婷婷网| 亚洲av成人av| 男女做爰动态图高潮gif福利片 | 亚洲国产毛片av蜜桃av| 国产在线观看jvid| 丁香欧美五月| 久久久久久人人人人人| 国产精品免费视频内射| 欧美激情久久久久久爽电影 | 一区二区三区国产精品乱码| 亚洲国产欧美日韩在线播放| 在线观看一区二区三区| 日本a在线网址| 18美女黄网站色大片免费观看| 99精品久久久久人妻精品| 很黄的视频免费| 97超级碰碰碰精品色视频在线观看| 亚洲狠狠婷婷综合久久图片| 亚洲黑人精品在线| 老司机午夜十八禁免费视频| 婷婷丁香在线五月| 日韩欧美在线二视频| 91精品国产国语对白视频| 一二三四在线观看免费中文在| 久久婷婷成人综合色麻豆| 亚洲精品美女久久av网站| 国产成人精品在线电影| 国产精品 国内视频| bbb黄色大片| 老鸭窝网址在线观看| av天堂久久9| 成人黄色视频免费在线看| 久久久精品国产亚洲av高清涩受| 黄色片一级片一级黄色片| 亚洲av熟女| 欧美激情极品国产一区二区三区| 伊人久久大香线蕉亚洲五| 日韩三级视频一区二区三区| 国产伦人伦偷精品视频| 一a级毛片在线观看| 长腿黑丝高跟| 黄片大片在线免费观看| 国产精品秋霞免费鲁丝片| 叶爱在线成人免费视频播放| 涩涩av久久男人的天堂| 久久精品亚洲熟妇少妇任你| 无遮挡黄片免费观看| 日韩视频一区二区在线观看| 三级毛片av免费| 亚洲精品美女久久av网站| 国产三级在线视频| 曰老女人黄片| 不卡一级毛片| 乱人伦中国视频| 国产精品日韩av在线免费观看 | 在线国产一区二区在线| 50天的宝宝边吃奶边哭怎么回事| 亚洲一区中文字幕在线| 日本五十路高清| 一二三四社区在线视频社区8| 免费av毛片视频| 成年人免费黄色播放视频| 一区在线观看完整版| 日本五十路高清| 一二三四在线观看免费中文在| av电影中文网址| 激情在线观看视频在线高清| 欧美日韩乱码在线| 免费日韩欧美在线观看| 国产精品香港三级国产av潘金莲| 亚洲黑人精品在线| 黑人猛操日本美女一级片| 久久精品亚洲精品国产色婷小说| 一区二区三区激情视频| www.自偷自拍.com| 黄色视频不卡| 久久中文字幕人妻熟女| 精品国产一区二区久久| 可以在线观看毛片的网站| 曰老女人黄片| 啦啦啦免费观看视频1| 亚洲av成人av| 亚洲色图 男人天堂 中文字幕| 亚洲情色 制服丝袜| 黑人巨大精品欧美一区二区蜜桃| 欧美日韩福利视频一区二区| 欧美日韩av久久| 欧美日韩国产mv在线观看视频| 伊人久久大香线蕉亚洲五| 中文字幕人妻丝袜一区二区| 亚洲精品一卡2卡三卡4卡5卡| 久久人妻av系列| 午夜两性在线视频| 在线免费观看的www视频| 久久人妻福利社区极品人妻图片| 欧美丝袜亚洲另类 | xxx96com| 亚洲 欧美 日韩 在线 免费| 亚洲av电影在线进入| x7x7x7水蜜桃| 在线十欧美十亚洲十日本专区| 日韩精品免费视频一区二区三区| 少妇裸体淫交视频免费看高清 | 午夜亚洲福利在线播放| 精品久久久久久成人av| 亚洲国产精品合色在线| 亚洲自拍偷在线| 欧美日韩乱码在线| aaaaa片日本免费| 99国产精品一区二区蜜桃av| 一区福利在线观看| 免费人成视频x8x8入口观看| 黄色片一级片一级黄色片| 搡老熟女国产l中国老女人| 婷婷精品国产亚洲av在线| 精品国产美女av久久久久小说| 国产成人精品无人区| 国内久久婷婷六月综合欲色啪| 日韩精品中文字幕看吧| 午夜成年电影在线免费观看| 亚洲avbb在线观看| 中文亚洲av片在线观看爽| 日本五十路高清| 亚洲av日韩精品久久久久久密| 美女 人体艺术 gogo| 日日夜夜操网爽| 国产男靠女视频免费网站| 亚洲成av片中文字幕在线观看| 日韩人妻精品一区2区三区| 黑人猛操日本美女一级片| 成人特级黄色片久久久久久久| 18禁国产床啪视频网站| 久久精品亚洲av国产电影网| 两性午夜刺激爽爽歪歪视频在线观看 | 成年人黄色毛片网站| 美女扒开内裤让男人捅视频| 丝袜在线中文字幕| 精品国产乱码久久久久久男人| 亚洲精品国产一区二区精华液| 在线观看www视频免费| 一个人免费在线观看的高清视频| 丝袜人妻中文字幕| 欧美大码av| 男人舔女人的私密视频| 色精品久久人妻99蜜桃| 国产精品电影一区二区三区| 两性午夜刺激爽爽歪歪视频在线观看 | 搡老岳熟女国产| 国产精品九九99| 成人黄色视频免费在线看| xxxhd国产人妻xxx| 国产深夜福利视频在线观看| 男女下面进入的视频免费午夜 | 国产精品免费视频内射| 老汉色av国产亚洲站长工具| 欧美色视频一区免费| 亚洲成a人片在线一区二区| 亚洲自偷自拍图片 自拍| 久久国产精品男人的天堂亚洲| 中文字幕另类日韩欧美亚洲嫩草| 成人影院久久| 男女午夜视频在线观看| 18美女黄网站色大片免费观看| 亚洲精品国产一区二区精华液| 日本黄色视频三级网站网址| av在线天堂中文字幕 | 在线十欧美十亚洲十日本专区| 涩涩av久久男人的天堂| 免费看十八禁软件| 亚洲中文日韩欧美视频| 日本欧美视频一区| 欧美乱妇无乱码| 一本大道久久a久久精品| 两个人免费观看高清视频| 久久人妻福利社区极品人妻图片| 美女扒开内裤让男人捅视频| 亚洲精品成人av观看孕妇| 一进一出好大好爽视频| 久久久久久久久久久久大奶| 国产成人欧美在线观看| 好看av亚洲va欧美ⅴa在| 国产xxxxx性猛交| 亚洲精品国产精品久久久不卡| 国产国语露脸激情在线看| 丰满迷人的少妇在线观看| 精品少妇一区二区三区视频日本电影| 午夜两性在线视频| 亚洲国产毛片av蜜桃av| 18美女黄网站色大片免费观看| 亚洲国产中文字幕在线视频| 久久 成人 亚洲| av欧美777| 一边摸一边抽搐一进一小说| 亚洲免费av在线视频| 高清在线国产一区| 天堂影院成人在线观看| 99久久久亚洲精品蜜臀av| 一区二区日韩欧美中文字幕| 天天添夜夜摸| 波多野结衣一区麻豆| 中文字幕人妻熟女乱码| 亚洲欧美精品综合久久99| 午夜激情av网站| 亚洲精品久久成人aⅴ小说| 久久午夜亚洲精品久久| 可以在线观看毛片的网站| 999精品在线视频| 免费女性裸体啪啪无遮挡网站| xxxhd国产人妻xxx| 久久欧美精品欧美久久欧美| 日本a在线网址| 免费在线观看日本一区| 波多野结衣av一区二区av| 中文欧美无线码| 一区二区三区国产精品乱码| 亚洲欧美激情在线| 高清欧美精品videossex| 巨乳人妻的诱惑在线观看| 久久精品人人爽人人爽视色| 国产精品偷伦视频观看了| 免费在线观看亚洲国产| 高清欧美精品videossex| 一级a爱片免费观看的视频| 69av精品久久久久久| 99久久精品国产亚洲精品| 一本综合久久免费| 成人三级黄色视频| 亚洲欧美一区二区三区黑人| 成人三级做爰电影| 国产高清视频在线播放一区| 99re在线观看精品视频| 日韩大码丰满熟妇| 国产成人免费无遮挡视频| 99久久久亚洲精品蜜臀av| 满18在线观看网站| 色播在线永久视频| 91精品三级在线观看| 中出人妻视频一区二区| 好看av亚洲va欧美ⅴa在| 精品久久久精品久久久| 精品国产一区二区三区四区第35| 麻豆国产av国片精品| 变态另类成人亚洲欧美熟女 | av在线播放免费不卡| 中文字幕人妻丝袜一区二区| 最近最新免费中文字幕在线| 国产熟女xx| 在线永久观看黄色视频| 极品人妻少妇av视频| 亚洲欧美一区二区三区久久| 中文字幕人妻丝袜一区二区| 国产成人av教育| 国产99白浆流出| 一个人免费在线观看的高清视频| 老司机福利观看| av中文乱码字幕在线| 免费观看人在逋| 精品第一国产精品| ponron亚洲| 亚洲第一青青草原| 午夜精品国产一区二区电影| 亚洲五月婷婷丁香| 中文字幕另类日韩欧美亚洲嫩草| 老汉色∧v一级毛片| 亚洲性夜色夜夜综合| 热99re8久久精品国产| 国产日韩一区二区三区精品不卡| 999精品在线视频| 欧美黑人欧美精品刺激| 日本vs欧美在线观看视频| 可以在线观看毛片的网站| 日韩精品免费视频一区二区三区| 两性夫妻黄色片| 岛国在线观看网站| 久久久精品欧美日韩精品| 人人澡人人妻人| 啦啦啦免费观看视频1| 亚洲人成电影免费在线| 国产乱人伦免费视频| 国产一区二区三区综合在线观看| 欧洲精品卡2卡3卡4卡5卡区| 国产99白浆流出| 国产精品久久久久久人妻精品电影| 91精品国产国语对白视频| 天天影视国产精品| 无人区码免费观看不卡| 久久精品91蜜桃| 久久精品人人爽人人爽视色| 精品人妻1区二区| 午夜福利,免费看| 久久草成人影院| 一级a爱片免费观看的视频| 精品无人区乱码1区二区| 亚洲全国av大片| 国产色视频综合| 亚洲人成网站在线播放欧美日韩| 亚洲熟妇中文字幕五十中出 | 欧美中文综合在线视频| 身体一侧抽搐| 最近最新免费中文字幕在线| 国产精品国产高清国产av| 久久久久久久精品吃奶| 麻豆一二三区av精品| 久久久国产精品麻豆| 看片在线看免费视频| 女性生殖器流出的白浆| 国产97色在线日韩免费| 精品一区二区三卡| 99精品久久久久人妻精品| 欧美成人午夜精品| 天堂√8在线中文| 欧美中文综合在线视频| 亚洲伊人色综图| 一边摸一边抽搐一进一小说| 亚洲欧美一区二区三区久久| 琪琪午夜伦伦电影理论片6080| 国产精品久久电影中文字幕| 国产亚洲精品久久久久久毛片| 在线看a的网站| 热re99久久国产66热| 亚洲成av片中文字幕在线观看| 久久伊人香网站| 国产一区在线观看成人免费| 操美女的视频在线观看| 午夜视频精品福利| 欧美成狂野欧美在线观看| 亚洲三区欧美一区| 99riav亚洲国产免费| 日韩精品中文字幕看吧| 久久精品91无色码中文字幕| 身体一侧抽搐| 夜夜夜夜夜久久久久| 精品一品国产午夜福利视频| 怎么达到女性高潮| 亚洲av日韩精品久久久久久密| 国产精品久久久久成人av| 人成视频在线观看免费观看| 欧美日韩精品网址| 久久香蕉激情| 在线观看一区二区三区激情| 亚洲国产中文字幕在线视频| 一二三四社区在线视频社区8| netflix在线观看网站| 69av精品久久久久久| 一边摸一边做爽爽视频免费| 午夜老司机福利片| 午夜免费成人在线视频| 日韩欧美在线二视频| 欧美激情 高清一区二区三区| 久久国产精品人妻蜜桃| 亚洲av电影在线进入| 国产亚洲精品一区二区www| 精品福利永久在线观看| 悠悠久久av| 亚洲成国产人片在线观看| 日韩 欧美 亚洲 中文字幕| 9色porny在线观看| 99精品欧美一区二区三区四区| 免费一级毛片在线播放高清视频 | 亚洲精品中文字幕一二三四区| 欧美日韩国产mv在线观看视频| 啪啪无遮挡十八禁网站| 黄色 视频免费看| 老司机午夜十八禁免费视频| 国产av一区二区精品久久| 制服人妻中文乱码| 久久中文看片网| 精品久久久久久久久久免费视频 | 亚洲狠狠婷婷综合久久图片| 亚洲欧美日韩高清在线视频| 久久精品国产清高在天天线| 亚洲成国产人片在线观看| 91成人精品电影| 国产在线观看jvid| 亚洲欧美激情综合另类| 亚洲精品中文字幕在线视频| 久久亚洲真实| 一本大道久久a久久精品| а√天堂www在线а√下载| 国产精品乱码一区二三区的特点 | 成人亚洲精品一区在线观看| 99久久99久久久精品蜜桃| 中文字幕人妻丝袜制服| 欧美激情久久久久久爽电影 | 女人精品久久久久毛片| 在线观看一区二区三区| 久久久国产一区二区| 久久天堂一区二区三区四区| 精品久久久久久久久久免费视频 | 老司机午夜福利在线观看视频| 一a级毛片在线观看| 正在播放国产对白刺激| 91精品三级在线观看| 精品高清国产在线一区| 亚洲七黄色美女视频| 在线观看舔阴道视频| 免费人成视频x8x8入口观看| 一区二区三区激情视频| 麻豆av在线久日| 亚洲情色 制服丝袜| 欧美黄色片欧美黄色片| 欧美精品一区二区免费开放| 9热在线视频观看99| 1024视频免费在线观看| 久久精品国产综合久久久| 亚洲男人天堂网一区| 国产aⅴ精品一区二区三区波| 伊人久久大香线蕉亚洲五| 99香蕉大伊视频| 久久久久久免费高清国产稀缺| 中文字幕人妻熟女乱码| 久久国产乱子伦精品免费另类| 女警被强在线播放| 在线视频色国产色| 桃色一区二区三区在线观看| 男人舔女人下体高潮全视频| 久久影院123| 成人亚洲精品一区在线观看| 老司机亚洲免费影院| 久久精品91无色码中文字幕| 亚洲欧美日韩高清在线视频| 国产一区二区三区在线臀色熟女 | 亚洲黑人精品在线| 不卡av一区二区三区| 亚洲国产精品一区二区三区在线| 夜夜看夜夜爽夜夜摸 | 又黄又爽又免费观看的视频| 91国产中文字幕| 久久人人97超碰香蕉20202| 99久久精品国产亚洲精品| 久久精品aⅴ一区二区三区四区| 日韩大尺度精品在线看网址 | 亚洲色图 男人天堂 中文字幕| 精品电影一区二区在线| 中出人妻视频一区二区| 亚洲,欧美精品.| 日日摸夜夜添夜夜添小说| 亚洲av第一区精品v没综合| 九色亚洲精品在线播放| 亚洲色图 男人天堂 中文字幕| 亚洲av成人不卡在线观看播放网| x7x7x7水蜜桃| 久久狼人影院| 免费久久久久久久精品成人欧美视频| 午夜福利,免费看| 99久久99久久久精品蜜桃| 久久久久久久精品吃奶| 精品一区二区三区视频在线观看免费 | 一边摸一边抽搐一进一小说| 成人av一区二区三区在线看| 日本wwww免费看| 一区二区日韩欧美中文字幕| 精品日产1卡2卡| 99精品欧美一区二区三区四区| 国产熟女xx| 国产精品久久视频播放| 亚洲全国av大片| 欧美日韩亚洲国产一区二区在线观看| 国产91精品成人一区二区三区| 亚洲欧美日韩高清在线视频| 久久人妻福利社区极品人妻图片| 国产成+人综合+亚洲专区| 1024视频免费在线观看| 欧美成人午夜精品| 很黄的视频免费| 久热这里只有精品99| xxxhd国产人妻xxx| 性色av乱码一区二区三区2| 日韩免费高清中文字幕av| 欧美激情高清一区二区三区| 两性午夜刺激爽爽歪歪视频在线观看 | 亚洲人成77777在线视频| 丝袜美足系列| 一个人观看的视频www高清免费观看 | 国产精品免费一区二区三区在线| 成人18禁高潮啪啪吃奶动态图| 日本精品一区二区三区蜜桃| 免费av中文字幕在线| 免费av毛片视频| 中文字幕最新亚洲高清| 久热这里只有精品99| 午夜成年电影在线免费观看| 99精品欧美一区二区三区四区| 精品高清国产在线一区| 叶爱在线成人免费视频播放| 一级a爱视频在线免费观看|