• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法

    2022-02-16 11:02:40李艷斌陳蘇逸杜宇峰
    計(jì)算機(jī)測量與控制 2022年1期
    關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)維度

    暢 鑫,李艷斌,田 淼,陳蘇逸,杜宇峰,趙 研

    (1.中國電子科技集團(tuán)公司 第五十四研究所,石家莊 050081;2.河北省電磁頻譜認(rèn)知與管控重點(diǎn)實(shí)驗(yàn)室,石家莊 050081;3.電子科技大學(xué) 信息與通信工程學(xué)院,成都 611731)

    0 引言

    用數(shù)學(xué)方法尋找最優(yōu)策略的研究既古老又新穎,最早可以追溯到20世紀(jì)50年代初,美國數(shù)學(xué)家貝爾曼(R.Bellman)等人在研究多階段決策過程的優(yōu)化問題時,提出了著名的最優(yōu)化原理,從而創(chuàng)立了動態(tài)規(guī)劃。然后隨著時代發(fā)展,這個領(lǐng)域逐漸出現(xiàn)了蒙特卡羅法、時序差分法等優(yōu)秀的算法,解決了許多動態(tài)規(guī)劃所不能解決的問題。在傳統(tǒng)強(qiáng)化學(xué)習(xí)時代,最為杰出和經(jīng)典的就是Q學(xué)習(xí)(Q-learning)算法。Q-learning采用表格記錄狀態(tài)-動作對價值,即Q值的方法探索最優(yōu)策略,這也成為了后續(xù)深度強(qiáng)化學(xué)習(xí)算法中基于價值(value-based)分支的基石[1]。然而,在現(xiàn)實(shí)中的許多情況下,問題所包含的狀態(tài)空間和動作空間都非常大,比如將一些連續(xù)狀態(tài)離散化后形成的狀態(tài)空間,這就使得借助表格存儲Q值的方法難以為繼。

    幸運(yùn)的是,隨著計(jì)算機(jī)算力的飛速發(fā)展,在強(qiáng)化學(xué)習(xí)中引入深度學(xué)習(xí)來解決連續(xù)狀態(tài)空間問題成為了可能。但人們很快就發(fā)現(xiàn),使用神經(jīng)網(wǎng)絡(luò)這樣的非線性函數(shù)逼近動作價值函數(shù)的強(qiáng)化學(xué)習(xí)算法都是不穩(wěn)定甚至不收斂的。這就是所謂的“離線學(xué)習(xí)-函數(shù)逼近-自舉檢驗(yàn)”不可能三角(deadly triad issue),意思是強(qiáng)化學(xué)習(xí)無法同時使用這3種數(shù)學(xué)方法,否則將導(dǎo)致算法的不穩(wěn)定甚至不收斂。造成這種情況的原因主要有3點(diǎn):1)連續(xù)的狀態(tài)之間的相關(guān)性;2)動作價值函數(shù)的微小變化可能導(dǎo)致策略的突變并顯著地改變數(shù)據(jù)分布;3)動作價值函數(shù)與收斂目標(biāo)之間的相關(guān)性。

    2015年,Mnih及其同事提出的DQN通過采用經(jīng)驗(yàn)回放(experience replay)和目標(biāo)網(wǎng)絡(luò)(target networks)技術(shù)解決了不穩(wěn)定的問題,在2 600多個雅達(dá)利游戲上達(dá)到了人類玩家的水平,帶來了深度強(qiáng)化學(xué)習(xí)的浪潮[2]。此后,對DQN的各種改進(jìn)技術(shù)不斷涌現(xiàn)。文獻(xiàn)[3]提出了優(yōu)先經(jīng)驗(yàn)回放(prioritized experience replay),能讓重要的經(jīng)驗(yàn)被更頻繁地利用,從而提升強(qiáng)化學(xué)習(xí)的效率。文獻(xiàn)[4]于2016年提出的深度雙Q網(wǎng)絡(luò)(DDQN,double deep Q network),解決了過度估計(jì)的問題。同年,文獻(xiàn)[5]向DQN加入了競爭結(jié)構(gòu)(dueling architecture),提升了DQN的學(xué)習(xí)效率。這種帶有競爭結(jié)構(gòu)的DQN叫做競爭深度Q網(wǎng)絡(luò)(Dueling DQN,dueling deep Q network)。除了上述提到的基于DQN的改進(jìn),深度強(qiáng)化學(xué)習(xí)領(lǐng)域還產(chǎn)生了更多的不同的技術(shù)路徑[6-15]。

    DQN及其衍生的強(qiáng)化學(xué)習(xí)算法已經(jīng)能算得上是非常強(qiáng)大的算法了,在許多領(lǐng)域,如簡單的2D游戲的表現(xiàn)都超出常人。然而,這種優(yōu)秀表現(xiàn)往往只停留在人為指定規(guī)則的環(huán)境中,如大多數(shù)棋牌和游戲等領(lǐng)域。DQN在現(xiàn)實(shí)問題中仍然有著難以落地的問題。這是因?yàn)樵谶^去的強(qiáng)化學(xué)習(xí)算法研究中,我們通常默認(rèn)環(huán)境的狀態(tài)我們是可以完全獲取的。但是在現(xiàn)實(shí)世界中,我們顯然沒有棋牌和游戲中那樣的上帝視角,我們對環(huán)境的狀態(tài)的獲取是通過觀測(observation)得來的。而觀測,或者說測量,必然會有信息誤差甚至損失,從而使得無法通過觀測獲得完全的狀態(tài)。這時,以馬爾可夫決策過程為基本假設(shè)的DQN的性能自然就會受到較大的影響。

    為了解決上述問題,文獻(xiàn)[16]提出了DRQN,在DQN的基礎(chǔ)上將其第一個全連接層改為了相同大小的LSTM層,解決了現(xiàn)實(shí)環(huán)境部分觀測的問題。為了解決強(qiáng)化學(xué)習(xí)與反饋神經(jīng)網(wǎng)絡(luò)參數(shù)更新之間的矛盾,Matthew Hausknecht和Peter Stone又提出了序列自舉更新和隨機(jī)自舉更新2種與之配套的參數(shù)更新方式。在部分觀測的馬爾科夫環(huán)境,DRQN相比DQN有著明顯的提升。

    然而,深度強(qiáng)化學(xué)習(xí)在狀態(tài)空間維度大的環(huán)境中仍然面臨著難以收斂的問題。考慮到大多數(shù)環(huán)境中的狀態(tài)在時間上都具有一定的相關(guān)性,若能讓神經(jīng)網(wǎng)絡(luò)學(xué)會提取時間維度上的特征,則有可能改善強(qiáng)化學(xué)習(xí)在時間相關(guān)場景的學(xué)習(xí)效率。區(qū)別于以上研究,本文在DRQN的基礎(chǔ)上展開研究,探究在時間維度上引入一維卷積對強(qiáng)化學(xué)習(xí)性能的影響,并設(shè)計(jì)了仿真實(shí)驗(yàn)與DQN的性能進(jìn)行對比。

    1 基于一維卷積循環(huán)網(wǎng)絡(luò)的深度強(qiáng)化學(xué)習(xí)算法

    1.1 深度強(qiáng)化學(xué)習(xí)基礎(chǔ)

    現(xiàn)實(shí)中許多決策問題都可以通過建模成由5個參數(shù)(S,A,P,R,γ)描述的馬爾可夫決策過程(MDP,markov decision process)來進(jìn)行研究[1,17]。這5個參數(shù)分別為狀態(tài)空間S、動作空間A、狀態(tài)轉(zhuǎn)移概率函數(shù)P、獎賞函數(shù)R和衰減因子γ,在馬爾可夫決策過程中的每一個時刻t,智能體都會觀察一個狀態(tài)st∈S然后選擇一個動作at∈A,這個過程將決定下一個時刻的狀態(tài)st~P(st,at)并收到一個獎賞rt~R。

    1992年由Watkins和Dayan提出的Q-learning通過在給定狀態(tài)s下對動作a的長期回報(bào)進(jìn)行預(yù)測來解決馬爾可夫決策問題[1]。這樣的長期動作回報(bào)叫做Q值。某個動作a的Q值越高,意味著在當(dāng)前狀態(tài)下選擇該動作所獲得的長期收益的期望越大。在Q-learning中,Q值通過下式迭代更新:

    (1)

    Q-learning偽代碼。

    輸出:動作價值函數(shù)Q

    對所有狀態(tài)s∈S,a∈A(s),隨機(jī)初始化Q,其中終止?fàn)顟B(tài)的動作價值為0

    對每個回合:

    初始化狀態(tài)s

    對回合中的每個時間步長:

    使用基于Q的策略,如ε-貪心算法,選擇狀態(tài)s對應(yīng)的動作a

    執(zhí)行動作a,觀察到r,s

    s←s′

    直到狀態(tài)s是終止?fàn)顟B(tài)

    直到所有回合結(jié)束

    許多現(xiàn)實(shí)問題的狀態(tài)空間顯然都是連續(xù)的,為了讓強(qiáng)化學(xué)習(xí)在這些問題上得以運(yùn)用,需要借助一種強(qiáng)大的函數(shù)擬合器代替Q-learning中的表格。而神經(jīng)網(wǎng)絡(luò)顯然就是這樣的強(qiáng)大函數(shù)擬合器。

    (2)

    輸出:關(guān)于動作價值函數(shù)Q的神經(jīng)網(wǎng)絡(luò)初始化經(jīng)驗(yàn)池D

    初始化在線動作價值網(wǎng)絡(luò)Q的參數(shù)θ為隨機(jī)數(shù)

    對每個回合:

    初始化狀態(tài)s1

    對回合中的每個時間步長t:

    根據(jù)ε-貪心算法選擇動作

    執(zhí)行動作at,觀測獎賞rt和下一個狀態(tài)st+1

    將經(jīng)驗(yàn)(st,at,rt,st+1)存入經(jīng)驗(yàn)池D

    //經(jīng)驗(yàn)回放

    D隨機(jī)采樣一批次的經(jīng)驗(yàn)(sj,aj,rj,sj+1)

    反向傳播[yj-Q(sj,aj;θ)]2,并用梯度下降法更新θ

    //周期性更新目標(biāo)網(wǎng)絡(luò)

    直到狀態(tài)st是終止?fàn)顟B(tài)

    直到所有回合結(jié)束

    在現(xiàn)實(shí)的環(huán)境中,智能體往往很難獲得完整的狀態(tài)。換句話說,現(xiàn)實(shí)世界的環(huán)境通常不嚴(yán)格符合馬爾可夫性[16]。部分可觀測馬爾可夫決策過程(POMDP,partially observable markov decision process)對觀測與真實(shí)狀態(tài)之間的聯(lián)系進(jìn)行了數(shù)學(xué)建模,因而能更好地描述現(xiàn)實(shí)環(huán)境的動態(tài)性[18]。POMDP在MDP的基礎(chǔ)上引入了觀測空間Ω與條件觀測概率函數(shù)O,并將智能體對環(huán)境的一次感知定義為觀測o∈Ω。觀測與真實(shí)狀態(tài)之間有著某種聯(lián)系,這種聯(lián)系通過概率描述,即o~O(s)。如此,POMDP就可以被6個參數(shù)(S,A,P,R,Ω,O)描述,分別表示狀態(tài)空間、動作空間、狀態(tài)轉(zhuǎn)移概率函數(shù)、獎賞函數(shù),以及相對于MDP新增加的觀測空間Ω與條件觀測概率函數(shù)O。顯然,當(dāng)觀測o與狀態(tài)s一一對應(yīng)時,POMDP就變?yōu)榱薓DP。2017年Matthew Hausknecht和Peter Stone提出的DRQN對DQN的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了修改,將其第一個全連接層改為了相同大小的LSTM層。

    因?yàn)橐肓擞洃浤芰?,使得神?jīng)網(wǎng)絡(luò)能更好地對抗由于觀測帶來的信息不完整。DRQN的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

    圖1 DRQN結(jié)構(gòu)示意圖[16]

    1.2 算法結(jié)構(gòu)

    本文在DQN的基礎(chǔ)上構(gòu)建了一個深度強(qiáng)化學(xué)習(xí)系統(tǒng),如圖2所示。

    圖2 深度強(qiáng)化學(xué)習(xí)系統(tǒng)示意圖

    與大多數(shù)強(qiáng)化學(xué)習(xí)系統(tǒng)一樣,從宏觀層面上看,本文所構(gòu)建的系統(tǒng)同樣為環(huán)境與智能體進(jìn)行交互的閉環(huán)系統(tǒng)。在每個步長里,智能體需要從環(huán)境獲取當(dāng)前步長的狀態(tài)和獎賞,并選擇一個動作反作用到環(huán)境中。

    具體到內(nèi)部結(jié)構(gòu),智能體主要由4個部分組成,分別為經(jīng)驗(yàn)池、在線動作價值網(wǎng)絡(luò)、目標(biāo)動作價值網(wǎng)絡(luò)和神經(jīng)網(wǎng)絡(luò)優(yōu)化器。在每個步長里,經(jīng)驗(yàn)池會將這一步長的狀態(tài)、動作、獎賞以及下一步長的狀態(tài)組合成一條經(jīng)驗(yàn)儲存起來,并隨機(jī)選擇一個批次的經(jīng)驗(yàn)供神經(jīng)網(wǎng)絡(luò)訓(xùn)練使用;在線動作價值網(wǎng)絡(luò)會根據(jù)當(dāng)前步長的狀態(tài)選擇一個動作;神經(jīng)網(wǎng)絡(luò)優(yōu)化器會計(jì)算代價函數(shù),并將其計(jì)算結(jié)果反向傳播給在線動作價值網(wǎng)絡(luò),優(yōu)化神經(jīng)網(wǎng)絡(luò)的參數(shù)。在設(shè)定好的參數(shù)復(fù)制周期到來之時,目標(biāo)動作價值網(wǎng)絡(luò)會復(fù)制在線動作價值網(wǎng)絡(luò)的參數(shù)并更新自身的參數(shù)。

    1.3 偽代碼

    一維卷積循環(huán)網(wǎng)絡(luò)的偽代碼與DQN的偽代碼形式基本一致,但因?yàn)榘薒STM層,需要對經(jīng)驗(yàn)回放部分進(jìn)行修改,使其變?yōu)殡S機(jī)自舉更新(bootstrapped random updates)[16]。下面為一維卷積循環(huán)網(wǎng)絡(luò)的偽代碼。

    一維卷積循環(huán)網(wǎng)絡(luò)偽代碼。

    輸出:關(guān)于動作價值函數(shù)Q的神經(jīng)網(wǎng)絡(luò)初始化經(jīng)驗(yàn)池D

    初始化在線動作價值網(wǎng)絡(luò)Q的參數(shù)θ為隨機(jī)數(shù)

    對每個回合:

    初始化狀態(tài)s1

    對回合中的每個時間步長t:

    根據(jù)ε-貪心算法選擇動作

    執(zhí)行動作at,觀測獎賞rt和下一狀態(tài)st+1

    將經(jīng)驗(yàn)(st,at,rt,st+1)存入經(jīng)驗(yàn)池D中本回合的位置

    //經(jīng)驗(yàn)回放

    隨機(jī)選取一個序列長度seq_len

    從經(jīng)驗(yàn)池D隨機(jī)選取若干個回合的數(shù)據(jù)

    從選取的回合數(shù)據(jù)中隨機(jī)選取若干個時間點(diǎn),并取出長度為seq_len的經(jīng)驗(yàn)序列

    反向傳播[yj-Q(sj,aj;θ)]2,并用梯度下降法更新θ

    //周期性更新目標(biāo)網(wǎng)絡(luò)

    直到狀態(tài)st是終止?fàn)顟B(tài)

    直到所有回合結(jié)束

    2 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)

    為了在圖像作為輸入的Atari游戲環(huán)境上進(jìn)行測試,DQN與DRQN的神經(jīng)網(wǎng)絡(luò)都包含了二維卷積層。通常情況下,如果輸入不為圖像,而僅僅是特征向量,DQN與DRQN所使用的神經(jīng)網(wǎng)絡(luò)將不會包含卷積層。然而,卷積層的特征提取能力不僅可以應(yīng)用于提取圖像特征,也可以應(yīng)用于提取時間維度上的特征[19]。因此,本文探究了將卷積層的時間維度特征提取能力應(yīng)用于深度強(qiáng)化學(xué)習(xí)的可能性。

    圖2系統(tǒng)中的在線動作價值網(wǎng)絡(luò)與目標(biāo)動作價值網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,在DRQN所用神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了一維卷積層,稱為一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)。一維卷積層將在時間維度上對輸入的數(shù)據(jù)進(jìn)行卷積,并提取其在時間維度上的特征。實(shí)驗(yàn)表明這樣做能提高神經(jīng)網(wǎng)絡(luò)的特征提取能力和擬合能力,從而提高智能體的決策水平,使得智能體在與時序相關(guān)的環(huán)境中有更好的表現(xiàn)。

    圖3 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖

    2.1 一維卷積層

    為了解決深度強(qiáng)化學(xué)習(xí)在狀態(tài)空間維度大的環(huán)境中的快速收斂問題,本文用到了一維卷積層來提取狀態(tài)在時間維度上的特征。設(shè)輸入為X∈RN×Cin×Lin,輸出為Y∈RN×Cout×Lout,則一維卷積層的數(shù)學(xué)表達(dá)式為:

    (3)

    式(3)中,符號★為互相關(guān)運(yùn)算,N為一個批次訓(xùn)練數(shù)據(jù)的大小,Cin和Cout分別為輸入和輸出數(shù)據(jù)的通道數(shù),Lin和Lout分別為輸入和輸出數(shù)據(jù)的長度,kernel_size表示一維卷積核大小。α∈RCout×Cin×kernel_size為該層的一維卷積核,β∈RCout為該層的偏置項(xiàng)。

    2.2 LSTM層

    LSTM層是一種循環(huán)神經(jīng)網(wǎng)絡(luò),能給神經(jīng)網(wǎng)絡(luò)帶來記憶能力。一般地,LSTM層的輸入為某一特征向量的時間序列x∈RN×Lin×Hin。為簡單起見,假設(shè)一個批次只包含1條數(shù)據(jù)且該特征向量只包含1個特征,即x∈RLin。由此可知x=[x1,x2,…,xt,…,xLin]T,則對于x中的任意一個時刻的元素xt,LSTM層的數(shù)學(xué)表達(dá)式為:

    (4)

    式(4)中,符號⊙表示哈達(dá)瑪積,N為一個批次訓(xùn)練數(shù)據(jù)的大小,Lin為時間序列在時間維度上的長度,Hin為時間數(shù)列包含的特征數(shù)。it、ft、gt和ot分別被稱為t時刻的輸入門(input gates)、遺忘門(forget gates)、元胞門(cell gates)和輸出門(output gates)。ct和ht分別被稱為t時刻的元胞狀態(tài)(cell states)和隱藏狀態(tài)(hidden states)。

    2.3 全連接層

    全連接層是神經(jīng)網(wǎng)絡(luò)最經(jīng)典的組成部件。按照經(jīng)典的形式,設(shè)全連接層的輸入為特征向量X∈RN×Hin,輸出為Y∈RN×Hout,則全連接層的數(shù)學(xué)表達(dá)式為:

    Y[i,:]=σ(X[i,:]A+b)

    (5)

    其中:σ為某一非線性激活函數(shù),常用的有sigmoid函數(shù)和ReLU函數(shù)等。N為一個批次訓(xùn)練數(shù)據(jù)的大小,Hin和Hout分別為輸入和輸出數(shù)據(jù)的特征數(shù)。A∈RHin×Hout為該層的權(quán)重,b∈R1×Hout為該層的偏置項(xiàng)。

    2.4 神經(jīng)網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)

    具體地,以在MountainCar-v0環(huán)境中時為例。在訓(xùn)練階段,深度強(qiáng)化學(xué)習(xí)訓(xùn)練器會在每個訓(xùn)練步長從經(jīng)驗(yàn)池提取一個批次的經(jīng)驗(yàn)用于訓(xùn)練神經(jīng)網(wǎng)絡(luò),一個批次包含512條訓(xùn)練數(shù)據(jù);每條訓(xùn)練數(shù)據(jù)皆為時間序列,序列長度在每個訓(xùn)練步長開始前隨機(jī)選擇;序列中每個時刻都包含小車當(dāng)時的位置和速度信息。訓(xùn)練數(shù)據(jù)首先會被視為通道數(shù)為2的一維向量輸入進(jìn)一維卷積層,用于提取時間維度上的特征;然后被視為特征數(shù)為2的時間序列輸入進(jìn)LSTM層,增強(qiáng)對數(shù)據(jù)時間相關(guān)性的利用;最后將訓(xùn)練數(shù)據(jù)展開為一維向量輸入到全連接層得到最終對每個動作價值的估計(jì)。為了加快收斂速度,在每一層后還加入了批歸一化處理(batch normalization)。神經(jīng)網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)如圖4所示。

    圖4 神經(jīng)網(wǎng)絡(luò)詳細(xì)結(jié)構(gòu)

    在測試階段,神經(jīng)網(wǎng)絡(luò)的輸入為由當(dāng)前時刻小車的位置和速度組成的狀態(tài)信息,為特征數(shù)為2的一維向量,輸出每個動作價值的估計(jì)。

    3 實(shí)驗(yàn)驗(yàn)證與分析

    為了驗(yàn)證本文所提出的在時間維度上引入一維卷積層的有效性,設(shè)計(jì)仿真實(shí)驗(yàn)在Open AI Gym提供的MountainCar-v0環(huán)境下測試其性能,并在使用相同超參數(shù)的情況下與DQN的性能進(jìn)行對比。

    在MountainCar-v0環(huán)境中,一輛小車處于兩個山峰之間的一條一維軌道上,如圖5所示。小車的目標(biāo)是到達(dá)右邊的山峰上,可是由于馬力不足,小車必須學(xué)會積攢能量才能完成這一目標(biāo)。

    圖5 MountainCar-v0環(huán)境示意圖[20]

    具體地,在MountainCar-v0環(huán)境中,神經(jīng)網(wǎng)絡(luò)輸入的狀態(tài)信息為小車的位置和速度,組成特征數(shù)為2的一維向量,輸出的動作為小車的前進(jìn)方向,共有向左、向右和空擋3種選擇。

    在測試中,學(xué)習(xí)率為0.01,衰減因子為0.9,探索度為0.1;目標(biāo)網(wǎng)絡(luò)更新周期為100,經(jīng)驗(yàn)池大小為4 096,一個批次包含512條訓(xùn)練數(shù)據(jù),即batch size=512,訓(xùn)練數(shù)據(jù)序列長度在1~32中隨機(jī)選擇。深度強(qiáng)化學(xué)習(xí)超參數(shù)總結(jié)如表1所示。

    表1 深度強(qiáng)化學(xué)習(xí)超參數(shù)表

    下面首先給出一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)獲取的總獎賞隨訓(xùn)練輪次的變化曲線。在MountainCar-v0環(huán)境中,獎賞設(shè)定為當(dāng)前時刻小車所具有的能量,即小車動能與勢能之和。在具體代碼實(shí)現(xiàn)中,設(shè)pt和vt為當(dāng)前時刻小車的位置和速度,則獎賞rt的定義如下:

    rt=abs(pt+0.6)+10×abs(vt)

    (6)

    DQN與一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在MountainCar-v0環(huán)境中獲取總獎賞的表現(xiàn)如圖6與圖7所示。

    圖6 DQN的總獎賞隨訓(xùn)練輪次的變化

    圖7 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的總獎賞隨訓(xùn)練輪次的變化

    圖6與圖7分別為DQN和一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的總獎賞變化曲線。其中淺色部分表示原始數(shù)據(jù),深色部分是平滑濾波后的結(jié)果。對比兩者的總獎賞變化曲線,可以看出一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著明顯的提升。首先,在收斂過程中,一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的總獎賞曲線斜率更大,上升速度更快,這說明一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著更高的收斂效率;其次,更為突出的是,從最終達(dá)到的總獎賞來看,一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的策略所獲取的總獎賞比DQN明顯高出一部分,大約為10分。

    圖8與圖9分別為DQN和一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)所作出動作選擇的平均動作價值的變化曲線。其中淺色部分表示原始數(shù)據(jù),深色部分是平滑濾波后的結(jié)果。

    圖9 一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的平均動作價值隨著訓(xùn)練輪次的變化

    圖8 DQN的平均動作價值隨著訓(xùn)練輪次的變化

    可以看出在平均動作價值收斂的穩(wěn)定性上,一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著明顯的提升。通過觀察圖8和圖9中淺色部分的原始數(shù)據(jù)可以發(fā)現(xiàn),DQN的平均動作價值曲線波動較大,說明收斂過程不穩(wěn)定;一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的平均動作價值曲線波動較小,說明收斂過程相對穩(wěn)定。

    結(jié)合DQN和一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練歷史進(jìn)行對比分析,不難發(fā)現(xiàn)一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在最終結(jié)果還是收斂速度上都要優(yōu)于DQN。這是因?yàn)長STM層賦予了一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)記憶性,使其可以利用更多的歷史信息來輔助決策,并削弱POMDP的影響,從而讓一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在時間相關(guān)的環(huán)境中最終獲得的總獎賞超過DQN。同時,LSTM層之前的一維卷積層在訓(xùn)練的過程中在時間維度上進(jìn)行特征提取,使得整個一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)相比DQN有著更快的收斂速度以及穩(wěn)定性。故相比于DQN簡單的全連接結(jié)構(gòu),一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)在狀態(tài)空間維度大且狀態(tài)之間在時間上相關(guān)的環(huán)境中有著更好的表現(xiàn)。

    4 結(jié)束語

    在使用深度強(qiáng)化學(xué)習(xí)解決現(xiàn)實(shí)問題時,許多問題所構(gòu)造的環(huán)境都存在著狀態(tài)空間維度大且狀態(tài)之間在時間上相關(guān)的特征。如果能夠利用好狀態(tài)在時間上的相關(guān)性就可以有效提升神經(jīng)網(wǎng)絡(luò)在大維度狀態(tài)空間中的收斂效率。就本文所提出的一維卷積循環(huán)神經(jīng)網(wǎng)絡(luò)來說,LSTM層的引入使得其擁有了一定的記憶能力,而一維卷積層的加入則讓其在具備記憶能力的基礎(chǔ)上有了更強(qiáng)的特征提取能力,進(jìn)而可以更高效地處理時間維度上的信息。這使得改進(jìn)后的算法能在MountainCar-v0這樣與時序相關(guān)的環(huán)境中能夠得到得到更高的總回報(bào)。同時,一維卷積層還增加了神經(jīng)網(wǎng)絡(luò)的擬合能力以及穩(wěn)定性,使得深度強(qiáng)化學(xué)習(xí)的訓(xùn)練過程更加平穩(wěn)。

    猜你喜歡
    卷積神經(jīng)網(wǎng)絡(luò)維度
    基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
    淺論詩中“史”識的四個維度
    中華詩詞(2019年7期)2019-11-25 01:43:00
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    從濾波器理解卷積
    電子制作(2019年11期)2019-07-04 00:34:38
    基于傅里葉域卷積表示的目標(biāo)跟蹤算法
    光的維度
    燈與照明(2016年4期)2016-06-05 09:01:45
    “五個維度”解有機(jī)化學(xué)推斷題
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    基于支持向量機(jī)回歸和RBF神經(jīng)網(wǎng)絡(luò)的PID整定
    国产xxxxx性猛交| 久久人妻熟女aⅴ| 久久久久久久久久成人| videosex国产| 亚洲伊人色综图| 一级黄片播放器| 黄色怎么调成土黄色| 国产欧美日韩综合在线一区二区| 18禁国产床啪视频网站| 韩国高清视频一区二区三区| 成人漫画全彩无遮挡| 国产有黄有色有爽视频| 国产亚洲精品久久久com| 欧美丝袜亚洲另类| 国产成人一区二区在线| 2018国产大陆天天弄谢| 亚洲国产av影院在线观看| 一区二区三区精品91| 欧美人与性动交α欧美精品济南到 | 午夜福利,免费看| 一级爰片在线观看| 中文字幕制服av| 久久精品夜色国产| 国语对白做爰xxxⅹ性视频网站| 日日摸夜夜添夜夜爱| 久久人人爽av亚洲精品天堂| 国国产精品蜜臀av免费| 日本av免费视频播放| freevideosex欧美| 亚洲经典国产精华液单| 考比视频在线观看| 成年动漫av网址| 国产在线一区二区三区精| 国产精品一二三区在线看| 亚洲国产精品成人久久小说| 美女国产高潮福利片在线看| 久久影院123| 成人国语在线视频| 91aial.com中文字幕在线观看| 久久精品国产自在天天线| 我的女老师完整版在线观看| 搡女人真爽免费视频火全软件| 在线 av 中文字幕| 免费黄色在线免费观看| 啦啦啦在线观看免费高清www| 久久99一区二区三区| 国产成人精品久久久久久| www.av在线官网国产| 久久精品国产亚洲av天美| 最近的中文字幕免费完整| 亚洲人与动物交配视频| 最近的中文字幕免费完整| 一级毛片我不卡| 亚洲av免费高清在线观看| 99热6这里只有精品| 精品国产国语对白av| 日韩欧美精品免费久久| 啦啦啦中文免费视频观看日本| 大片电影免费在线观看免费| 少妇的逼好多水| 久久人人爽人人爽人人片va| av在线老鸭窝| 纵有疾风起免费观看全集完整版| 岛国毛片在线播放| 久久久久国产网址| 亚洲精品久久成人aⅴ小说| 人妻少妇偷人精品九色| 国产成人免费无遮挡视频| 一边亲一边摸免费视频| 桃花免费在线播放| 国产免费现黄频在线看| 亚洲国产毛片av蜜桃av| 久久久欧美国产精品| 国产av一区二区精品久久| 黄网站色视频无遮挡免费观看| 蜜桃国产av成人99| 三级国产精品片| 亚洲国产色片| 有码 亚洲区| 男女国产视频网站| 精品少妇内射三级| 精品国产国语对白av| 99久久精品国产国产毛片| 水蜜桃什么品种好| 人妻人人澡人人爽人人| 男女国产视频网站| 国产欧美另类精品又又久久亚洲欧美| 国产精品免费大片| 国产片内射在线| 亚洲国产精品专区欧美| av网站免费在线观看视频| 日本黄色日本黄色录像| 人人妻人人澡人人爽人人夜夜| 天堂中文最新版在线下载| 亚洲在久久综合| 青春草视频在线免费观看| 久久久国产一区二区| 成人黄色视频免费在线看| 免费女性裸体啪啪无遮挡网站| 久久久久久久久久人人人人人人| 天堂中文最新版在线下载| 成人毛片a级毛片在线播放| 日本av免费视频播放| 欧美日韩视频精品一区| 最后的刺客免费高清国语| 国产精品麻豆人妻色哟哟久久| 男女下面插进去视频免费观看 | 午夜福利视频在线观看免费| 天天躁夜夜躁狠狠久久av| 中国国产av一级| 999精品在线视频| 岛国毛片在线播放| 国产欧美另类精品又又久久亚洲欧美| 青春草国产在线视频| 深夜精品福利| 日本vs欧美在线观看视频| 一级毛片我不卡| 亚洲国产看品久久| 亚洲天堂av无毛| 卡戴珊不雅视频在线播放| 国产在线一区二区三区精| 免费观看av网站的网址| 一级片'在线观看视频| 国产黄色视频一区二区在线观看| 十八禁网站网址无遮挡| 亚洲精品色激情综合| 国产 精品1| 午夜福利,免费看| 免费播放大片免费观看视频在线观看| 老司机亚洲免费影院| 秋霞伦理黄片| 国产国语露脸激情在线看| 好男人视频免费观看在线| 亚洲国产毛片av蜜桃av| 亚洲精品视频女| 在线观看美女被高潮喷水网站| 亚洲美女搞黄在线观看| 成人毛片a级毛片在线播放| 青春草亚洲视频在线观看| 18禁动态无遮挡网站| 精品国产一区二区三区久久久樱花| 各种免费的搞黄视频| 欧美日韩av久久| 久久亚洲国产成人精品v| 波多野结衣一区麻豆| 9191精品国产免费久久| 亚洲三级黄色毛片| 99国产综合亚洲精品| 国产免费又黄又爽又色| 男女边摸边吃奶| 中文欧美无线码| 大片电影免费在线观看免费| 亚洲色图综合在线观看| 熟女人妻精品中文字幕| 亚洲少妇的诱惑av| 亚洲久久久国产精品| 高清黄色对白视频在线免费看| 欧美bdsm另类| 9色porny在线观看| 亚洲图色成人| 边亲边吃奶的免费视频| 亚洲欧美日韩卡通动漫| 亚洲精品国产av蜜桃| 精品国产露脸久久av麻豆| 欧美国产精品一级二级三级| 亚洲少妇的诱惑av| 日本av免费视频播放| 最后的刺客免费高清国语| 另类亚洲欧美激情| 欧美bdsm另类| 亚洲精品成人av观看孕妇| 亚洲精品美女久久av网站| 亚洲国产精品专区欧美| 妹子高潮喷水视频| 黄色一级大片看看| 九草在线视频观看| 午夜福利乱码中文字幕| av黄色大香蕉| 亚洲精品美女久久久久99蜜臀 | 亚洲经典国产精华液单| 午夜激情久久久久久久| 久久人人爽人人片av| 九草在线视频观看| 欧美精品av麻豆av| 99久久人妻综合| 男女免费视频国产| 久久99热这里只频精品6学生| 久久久国产欧美日韩av| 少妇被粗大猛烈的视频| 亚洲人与动物交配视频| 日本免费在线观看一区| 自拍欧美九色日韩亚洲蝌蚪91| www.熟女人妻精品国产 | 精品人妻偷拍中文字幕| 国产精品无大码| 少妇人妻 视频| 丝袜美足系列| 最后的刺客免费高清国语| 在现免费观看毛片| 三上悠亚av全集在线观看| 国产精品嫩草影院av在线观看| 久久久久久久亚洲中文字幕| 51国产日韩欧美| 国产爽快片一区二区三区| www日本在线高清视频| 精品99又大又爽又粗少妇毛片| 久久久a久久爽久久v久久| 色94色欧美一区二区| 亚洲精品自拍成人| 最近手机中文字幕大全| 美女中出高潮动态图| 美女脱内裤让男人舔精品视频| 有码 亚洲区| 五月天丁香电影| 18+在线观看网站| 搡女人真爽免费视频火全软件| 国产黄色视频一区二区在线观看| 性高湖久久久久久久久免费观看| 国产高清国产精品国产三级| 久久精品国产亚洲av天美| 亚洲精品自拍成人| 国产老妇伦熟女老妇高清| 亚洲精品美女久久久久99蜜臀 | 高清毛片免费看| 亚洲精品乱码久久久久久按摩| 亚洲成人手机| 亚洲久久久国产精品| 国产男人的电影天堂91| av在线app专区| 欧美亚洲 丝袜 人妻 在线| 日韩欧美精品免费久久| 国产精品.久久久| 多毛熟女@视频| 成年av动漫网址| 亚洲精品自拍成人| av女优亚洲男人天堂| 国产欧美亚洲国产| 亚洲av电影在线观看一区二区三区| 国产亚洲av片在线观看秒播厂| 国产黄频视频在线观看| 丝袜脚勾引网站| videosex国产| 91在线精品国自产拍蜜月| 国产淫语在线视频| 亚洲av男天堂| 久久久久久久国产电影| 日本与韩国留学比较| 国产在视频线精品| 捣出白浆h1v1| 免费大片18禁| 国产精品不卡视频一区二区| 国产精品国产三级国产av玫瑰| 蜜桃国产av成人99| 一区二区三区精品91| 免费日韩欧美在线观看| 免费高清在线观看日韩| 卡戴珊不雅视频在线播放| 亚洲精品一二三| 色吧在线观看| 欧美成人午夜免费资源| 99香蕉大伊视频| 亚洲精品第二区| 永久网站在线| 中国国产av一级| 男人添女人高潮全过程视频| 日韩大片免费观看网站| 日日啪夜夜爽| 亚洲国产av影院在线观看| 丰满饥渴人妻一区二区三| 99精国产麻豆久久婷婷| 精品卡一卡二卡四卡免费| 欧美人与善性xxx| 精品一区二区免费观看| 女的被弄到高潮叫床怎么办| 亚洲一区二区三区欧美精品| 美女国产高潮福利片在线看| 大话2 男鬼变身卡| 性色avwww在线观看| 久久久久精品人妻al黑| 综合色丁香网| 午夜免费观看性视频| 亚洲美女视频黄频| 亚洲国产欧美日韩在线播放| 欧美日韩成人在线一区二区| 少妇熟女欧美另类| 美女大奶头黄色视频| 99九九在线精品视频| 男男h啪啪无遮挡| 亚洲精品一二三| 九色成人免费人妻av| 涩涩av久久男人的天堂| 久久精品久久久久久噜噜老黄| 韩国av在线不卡| 亚洲av日韩在线播放| 毛片一级片免费看久久久久| 伦精品一区二区三区| √禁漫天堂资源中文www| 国产日韩欧美亚洲二区| 国产成人91sexporn| 在线亚洲精品国产二区图片欧美| 国产精品偷伦视频观看了| 五月天丁香电影| 国产av码专区亚洲av| 国产av国产精品国产| 久久av网站| 啦啦啦在线观看免费高清www| 新久久久久国产一级毛片| 日韩中字成人| 婷婷成人精品国产| av播播在线观看一区| 亚洲人与动物交配视频| 91午夜精品亚洲一区二区三区| 欧美人与性动交α欧美软件 | 亚洲av免费高清在线观看| 国产男女超爽视频在线观看| 午夜91福利影院| 久久鲁丝午夜福利片| 成人漫画全彩无遮挡| 午夜视频国产福利| 女人精品久久久久毛片| 一二三四中文在线观看免费高清| 免费观看在线日韩| 99香蕉大伊视频| 热99国产精品久久久久久7| 国产av精品麻豆| 日日摸夜夜添夜夜爱| 久久久久精品人妻al黑| 狂野欧美激情性xxxx在线观看| 成年女人在线观看亚洲视频| 久久人人爽人人爽人人片va| 国产又爽黄色视频| 国产国拍精品亚洲av在线观看| 国产亚洲精品第一综合不卡 | 亚洲成人一二三区av| 免费高清在线观看视频在线观看| 麻豆精品久久久久久蜜桃| 国产永久视频网站| 97精品久久久久久久久久精品| 欧美精品一区二区大全| 51国产日韩欧美| 母亲3免费完整高清在线观看 | 99热6这里只有精品| 国产精品 国内视频| av女优亚洲男人天堂| 亚洲av日韩在线播放| 日本欧美国产在线视频| 交换朋友夫妻互换小说| 午夜激情av网站| 欧美精品一区二区大全| 少妇人妻精品综合一区二区| 视频在线观看一区二区三区| 侵犯人妻中文字幕一二三四区| av网站免费在线观看视频| 曰老女人黄片| 母亲3免费完整高清在线观看 | 18禁动态无遮挡网站| 日本色播在线视频| 欧美日韩亚洲高清精品| 日韩精品有码人妻一区| 97在线人人人人妻| 日韩精品有码人妻一区| 五月天丁香电影| 久久久精品区二区三区| 我要看黄色一级片免费的| 亚洲图色成人| 97超碰精品成人国产| 十分钟在线观看高清视频www| 婷婷成人精品国产| 欧美激情极品国产一区二区三区 | a 毛片基地| 久久久久久久久久成人| 国产av国产精品国产| 亚洲在久久综合| 精品少妇久久久久久888优播| 高清视频免费观看一区二区| 午夜激情久久久久久久| 乱人伦中国视频| 久久精品久久久久久噜噜老黄| 性色av一级| 日本黄大片高清| 国产精品久久久久久av不卡| 黑丝袜美女国产一区| 国语对白做爰xxxⅹ性视频网站| 熟女电影av网| a级毛片黄视频| 母亲3免费完整高清在线观看 | 王馨瑶露胸无遮挡在线观看| 老司机影院毛片| 国产成人精品久久久久久| 精品久久国产蜜桃| 自线自在国产av| 日韩av不卡免费在线播放| 一二三四中文在线观看免费高清| 人人妻人人澡人人爽人人夜夜| 欧美日韩国产mv在线观看视频| 久久精品人人爽人人爽视色| 亚洲综合精品二区| 大话2 男鬼变身卡| 99热6这里只有精品| 超色免费av| 另类精品久久| 少妇人妻 视频| 男女午夜视频在线观看 | 女人被躁到高潮嗷嗷叫费观| 午夜日本视频在线| 亚洲综合色惰| 日韩av免费高清视频| 丰满饥渴人妻一区二区三| 免费高清在线观看日韩| 最近最新中文字幕免费大全7| 亚洲av免费高清在线观看| 尾随美女入室| 在线亚洲精品国产二区图片欧美| 在线观看一区二区三区激情| 日产精品乱码卡一卡2卡三| 最近手机中文字幕大全| 国产高清不卡午夜福利| 国产成人精品婷婷| 美女视频免费永久观看网站| 99视频精品全部免费 在线| 国产片内射在线| 18禁观看日本| 国产永久视频网站| 国产综合精华液| 国产乱人偷精品视频| 日日撸夜夜添| 久久这里有精品视频免费| 在线观看国产h片| 在线精品无人区一区二区三| 日日爽夜夜爽网站| 中文字幕人妻丝袜制服| 丝袜脚勾引网站| av在线观看视频网站免费| 如何舔出高潮| 精品一区二区免费观看| 成年女人在线观看亚洲视频| 在线观看三级黄色| 乱人伦中国视频| 日本vs欧美在线观看视频| 丝瓜视频免费看黄片| 黄色一级大片看看| 成人黄色视频免费在线看| 色婷婷久久久亚洲欧美| 性高湖久久久久久久久免费观看| 久久人人爽av亚洲精品天堂| 国产成人精品一,二区| 国产 精品1| 国产av一区二区精品久久| 日韩中文字幕视频在线看片| 男女午夜视频在线观看 | a级毛片黄视频| 色网站视频免费| 亚洲精品av麻豆狂野| 精品一品国产午夜福利视频| 国产麻豆69| 女的被弄到高潮叫床怎么办| 欧美精品人与动牲交sv欧美| 最后的刺客免费高清国语| 波野结衣二区三区在线| 精品第一国产精品| 80岁老熟妇乱子伦牲交| 亚洲av.av天堂| 成人二区视频| 国产精品一国产av| 久久久久久久国产电影| 老司机影院毛片| 日日爽夜夜爽网站| 国产淫语在线视频| 国产成人免费观看mmmm| 少妇熟女欧美另类| 欧美日韩视频精品一区| 国产乱来视频区| 母亲3免费完整高清在线观看 | 亚洲情色 制服丝袜| 80岁老熟妇乱子伦牲交| 亚洲av福利一区| 极品少妇高潮喷水抽搐| 亚洲国产精品一区二区三区在线| 在线天堂中文资源库| 在线观看国产h片| 两个人免费观看高清视频| 自拍欧美九色日韩亚洲蝌蚪91| 巨乳人妻的诱惑在线观看| 久久99蜜桃精品久久| 丰满饥渴人妻一区二区三| 免费人妻精品一区二区三区视频| 美女国产高潮福利片在线看| 男女免费视频国产| 免费日韩欧美在线观看| 最近中文字幕2019免费版| 18禁在线无遮挡免费观看视频| 久久国产精品大桥未久av| av国产精品久久久久影院| 99re6热这里在线精品视频| 国产精品女同一区二区软件| 欧美变态另类bdsm刘玥| 黑人猛操日本美女一级片| 亚洲性久久影院| 国国产精品蜜臀av免费| 日韩电影二区| 18禁裸乳无遮挡动漫免费视频| 久久精品国产鲁丝片午夜精品| 日韩大片免费观看网站| 国产色婷婷99| 国产成人精品婷婷| 美女中出高潮动态图| 大码成人一级视频| 高清在线视频一区二区三区| 亚洲av.av天堂| 男女午夜视频在线观看 | 久久人人97超碰香蕉20202| 国产精品国产三级专区第一集| 麻豆精品久久久久久蜜桃| 波多野结衣一区麻豆| 晚上一个人看的免费电影| 搡女人真爽免费视频火全软件| 内地一区二区视频在线| 七月丁香在线播放| 亚洲少妇的诱惑av| 亚洲av男天堂| h视频一区二区三区| 日韩大片免费观看网站| 久久久a久久爽久久v久久| 免费不卡的大黄色大毛片视频在线观看| 91成人精品电影| 国产精品人妻久久久影院| 中文字幕制服av| 菩萨蛮人人尽说江南好唐韦庄| 亚洲精品国产av蜜桃| 日本vs欧美在线观看视频| 久久精品国产a三级三级三级| 精品久久久久久电影网| 免费黄网站久久成人精品| 国产成人免费观看mmmm| 涩涩av久久男人的天堂| 日韩大片免费观看网站| av在线老鸭窝| 中国三级夫妇交换| 午夜福利视频在线观看免费| 一本—道久久a久久精品蜜桃钙片| 亚洲国产精品国产精品| 亚洲综合色惰| 亚洲少妇的诱惑av| 日韩大片免费观看网站| 亚洲第一av免费看| 国产亚洲欧美精品永久| 美女中出高潮动态图| 国产精品三级大全| 久久毛片免费看一区二区三区| 久久午夜综合久久蜜桃| 捣出白浆h1v1| www日本在线高清视频| 欧美日韩精品成人综合77777| 国产淫语在线视频| 男男h啪啪无遮挡| 午夜日本视频在线| 国产亚洲av片在线观看秒播厂| 人人澡人人妻人| 中文字幕另类日韩欧美亚洲嫩草| 成人二区视频| 日韩av免费高清视频| 日韩熟女老妇一区二区性免费视频| 狂野欧美激情性bbbbbb| 欧美日韩精品成人综合77777| 成年动漫av网址| 国产精品久久久久久av不卡| 最新的欧美精品一区二区| 丁香六月天网| 看免费av毛片| 久久久久久久久久久久大奶| 精品亚洲乱码少妇综合久久| 丰满迷人的少妇在线观看| 国产精品久久久久久久电影| 美女视频免费永久观看网站| 精品久久国产蜜桃| 大陆偷拍与自拍| 在线观看www视频免费| 国产男人的电影天堂91| 日韩熟女老妇一区二区性免费视频| 亚洲精品第二区| 亚洲成国产人片在线观看| 不卡视频在线观看欧美| 午夜激情av网站| 亚洲综合色惰| 精品少妇黑人巨大在线播放| 国产精品久久久久久精品电影小说| 日本wwww免费看| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 咕卡用的链子| 国产精品无大码| 日韩一区二区视频免费看| 美女福利国产在线| 亚洲av中文av极速乱| 国产精品久久久av美女十八| 久久 成人 亚洲| 欧美亚洲 丝袜 人妻 在线| 天天影视国产精品| 久久97久久精品| 视频在线观看一区二区三区| 国产精品麻豆人妻色哟哟久久| 日日爽夜夜爽网站| 汤姆久久久久久久影院中文字幕| 国产成人精品一,二区| 久久韩国三级中文字幕| 大香蕉久久成人网| 在线观看一区二区三区激情| 伦理电影免费视频| 十八禁网站网址无遮挡| 国产一区二区三区av在线| 亚洲av免费高清在线观看| 日产精品乱码卡一卡2卡三| 黑人巨大精品欧美一区二区蜜桃 | 久久久久久人妻| 亚洲精品色激情综合| 欧美+日韩+精品|