• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)研究綜述

    2022-11-25 02:56:00林澤陽陳希亮
    關(guān)鍵詞:深度智能方法

    林澤陽,賴 俊,陳希亮

    (陸軍工程大學(xué) 指揮控制工程學(xué)院,江蘇 南京 210007)

    0 引 言

    強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)作為機(jī)器學(xué)習(xí)分支之一,在人工智能領(lǐng)域具有重要地位[1]:智能體在環(huán)境中通過“交互-試錯”獲取正/負(fù)獎勵值,調(diào)整自身的動作策略,從而生成總獎勵值最大的動作策略模型[2]。

    傳統(tǒng)強(qiáng)化學(xué)習(xí)方法在有限狀態(tài)空間和動作空間的任務(wù)中能夠取得較好的收斂效果[3],但復(fù)雜空間狀態(tài)任務(wù)往往具有很大的狀態(tài)空間和連續(xù)的動作空間,尤其當(dāng)輸入數(shù)據(jù)為圖像和聲音時,傳統(tǒng)強(qiáng)化學(xué)習(xí)很難處理,會出現(xiàn)維度爆炸問題[4-5]。解決上述問題的一個方法,就是將強(qiáng)化學(xué)習(xí)和深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)結(jié)合,用多層神經(jīng)網(wǎng)絡(luò)來顯式表示強(qiáng)化學(xué)習(xí)中的值函數(shù)和策略函數(shù)[6]。

    深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)將深度學(xué)習(xí)的感知能力和強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合[7],近年來在人工智能領(lǐng)域迅猛發(fā)展,例如Atari游戲[8-9]、復(fù)雜機(jī)器人動作控制[10-11],以及圍棋AlphaGo智能的應(yīng)用[12]等,2015年機(jī)器學(xué)習(xí)領(lǐng)域著名專家Hinton、Bengio、Lecun在《Nature》上發(fā)表的深度學(xué)習(xí)綜述一文將深度強(qiáng)化學(xué)習(xí)作為深度學(xué)習(xí)的重要發(fā)展方向[13]。

    盡管在過去三十年間取得很大進(jìn)步,但由于標(biāo)準(zhǔn)強(qiáng)化學(xué)習(xí)智能體的初始設(shè)定都是隨機(jī)策略,在簡單環(huán)境中通過隨機(jī)探索和試錯,能夠達(dá)成較好的訓(xùn)練效果[14]。但在復(fù)雜環(huán)境中由于狀態(tài)空間的復(fù)雜性、獎勵信號的稀疏性,強(qiáng)化學(xué)習(xí)從環(huán)境中獲取樣本的成本不斷提高,學(xué)習(xí)時間過長,從而影響了智能體的有效探索[15]。

    解決上述問題的一個有效途徑,就是將課程學(xué)習(xí)(Curriculum Learning,CL)和深度強(qiáng)化學(xué)習(xí)相結(jié)合[16]。2009年,以機(jī)器學(xué)習(xí)領(lǐng)軍人物Bengio為首的科研團(tuán)隊(duì)在國際頂級機(jī)器學(xué)習(xí)會議ICML上首次提出課程學(xué)習(xí)的概念[17],引起機(jī)器學(xué)習(xí)領(lǐng)域的巨大轟動。課程學(xué)習(xí)借鑒人類從簡單到復(fù)雜的學(xué)習(xí)思想,首先在任務(wù)集中篩選出部分簡單任務(wù)進(jìn)行學(xué)習(xí)以產(chǎn)生訓(xùn)練課程,而后在剩余的復(fù)雜任務(wù)中利用訓(xùn)練課程進(jìn)行學(xué)習(xí),最后在整個訓(xùn)練集中進(jìn)行訓(xùn)練。將課程學(xué)習(xí)和深度強(qiáng)化學(xué)習(xí)相結(jié)合,可以有以下兩個方面的作用[18]:(1)可以加快訓(xùn)練模型的收斂速度,避免訓(xùn)練初期對于復(fù)雜任務(wù)投入過多訓(xùn)練時間;(2)提高模型的泛化能力,增強(qiáng)對復(fù)雜任務(wù)的學(xué)習(xí)能力。

    該文首先對課程學(xué)習(xí)進(jìn)行簡要描述,從四個角度對深度強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類整理,之后對近三年的基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)新算法進(jìn)行了總結(jié)分析,最后討論了基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的發(fā)展前景和挑戰(zhàn)。

    1 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)

    課程學(xué)習(xí)的目標(biāo)是自動設(shè)計(jì)和選擇完整序列的任務(wù)(即課程)M1,M2,…,Mt對智能體進(jìn)行訓(xùn)練,從而提高對目標(biāo)任務(wù)的學(xué)習(xí)速度或性能[19],課程學(xué)習(xí)流程如圖1所示。

    課程馬爾可夫決策過程(Curriculum Markov Decision Process,CMDP)[20]是一個6元組(S,A,p,r,Δs0,Sf),其中S是狀態(tài)空間集,A是動作空間集,p(s'|s,a)代表智能體在狀態(tài)s時采取動作a后轉(zhuǎn)移到狀態(tài)s'的概率,r(s,a,s')代表在狀態(tài)s采取動作a到達(dá)狀態(tài)s'所獲得的即時獎勵,Δs0代表初始狀態(tài)分布,Sf代表最終狀態(tài)集。

    常見的課程創(chuàng)建方法有以下兩種[21]:(1)在線創(chuàng)建課程,根據(jù)智能體對給定頂點(diǎn)樣本的學(xué)習(xí)進(jìn)度動態(tài)添加邊;(2)離線創(chuàng)建課程,在訓(xùn)練前生成圖,并根據(jù)與不同頂點(diǎn)相關(guān)聯(lián)的樣本的屬性選擇邊。課程設(shè)計(jì)流程如圖2所示。

    課程學(xué)習(xí)方法可認(rèn)為包括三部分[22]:任務(wù)生成、排序和遷移學(xué)習(xí)。任務(wù)生成是創(chuàng)建一組好的中間任務(wù)的過程,從中獲取經(jīng)驗(yàn)樣本。排序研究了如何在一組經(jīng)驗(yàn)樣本上創(chuàng)建部分排序D,也就是說,如何生成課程圖的邊。遷移學(xué)習(xí)主要研究如何將知識從一個或多個源任務(wù)直接轉(zhuǎn)移到目標(biāo)任務(wù)。為了評價源任務(wù)遷移到目標(biāo)任務(wù)的性能優(yōu)劣[23-24],有以下指標(biāo)可以量化。(1)學(xué)習(xí)速度提升。即智能體在遷移知識的前提下能夠以多快的速度學(xué)習(xí)到最優(yōu)策略,從而在目標(biāo)任務(wù)上實(shí)現(xiàn)預(yù)期的性能值GO≥δ,其中δ是總?cè)蝿?wù)期望的性能閾值。(2)初始性能提升。通過從源任務(wù)進(jìn)行遷移,觀察智能體在學(xué)習(xí)過程中對目標(biāo)任務(wù)的初始性能提升來衡量遷移效果。(3)漸近性能提升。通過比較智能體在使用遷移與不使用遷移時目標(biāo)任務(wù)收斂后的最終性能來衡量遷移效果。

    2 深度強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)研究進(jìn)展

    對于強(qiáng)化學(xué)習(xí)智能體來說,自主學(xué)習(xí)一項(xiàng)復(fù)雜任務(wù)需要很長的時間。在深度強(qiáng)化學(xué)習(xí)中應(yīng)用課程學(xué)習(xí),可以通過利用一個或多個源任務(wù)的知識來加速或改善復(fù)雜目標(biāo)任務(wù)的學(xué)習(xí)[25]。

    Felipe等人提出了新方法[26]:(1)將目標(biāo)任務(wù)劃分為簡單任務(wù);(2)在盡量小的專家經(jīng)驗(yàn)支持下,根據(jù)面向?qū)ο蟮娜蝿?wù)描述自動生成課程;(3)使用生成的課程來跨任務(wù)重用知識。實(shí)驗(yàn)表明在人工指定和生成子任務(wù)方面都取得了更好的性能。

    為了提高多智能體的學(xué)習(xí)性能,Jayesh等人應(yīng)用前饋神經(jīng)網(wǎng)絡(luò)(Feedforward Neural Network,F(xiàn)NN)完成協(xié)同控制任務(wù)[27],包括離散和連續(xù)動作任務(wù),Daphna等人提出了推斷課程(Inference Curriculum,IC)的方法[28],從另一個網(wǎng)絡(luò)遷移學(xué)習(xí)的方式,接受不同任務(wù)的訓(xùn)練。為了解決從稀疏和延遲獎勵中學(xué)習(xí)的局限性問題,Atsushi提出了一種基于漸進(jìn)式神經(jīng)網(wǎng)絡(luò)(Progressive Neural Network,PNN)的課程學(xué)習(xí)方法[29],帶參數(shù)的模塊被附加上預(yù)先確定的參數(shù),該策略比單組參數(shù)的效果更好。

    2.1 基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)

    傳統(tǒng)課程學(xué)習(xí)對于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯,但在大規(guī)模多智能體環(huán)境中,由于環(huán)境和智能體之間的復(fù)雜動態(tài)以及狀態(tài)-動作空間的維度爆炸,這仍然具有挑戰(zhàn)性,所以如何更好地學(xué)習(xí)和產(chǎn)生更有效的任務(wù)課程是課程學(xué)習(xí)的研究重點(diǎn)。

    王維塤等人設(shè)計(jì)了一種新的動態(tài)多智能體課程學(xué)習(xí)(Dynamic Multi-agent Curriculum Learning,DyMA-CL)來解決大規(guī)模智能體學(xué)習(xí)的問題[30],從一個小規(guī)模的多智能體場景開始學(xué)習(xí),逐步增加智能體的數(shù)量。網(wǎng)絡(luò)設(shè)計(jì)里有三種遷移機(jī)制:緩存復(fù)用(Buffer Reuse,BR)、基于KL散度的課程蒸餾(Curriculum Distillation,CD)和模型重載(Model Reload,MR)。

    DyAN的網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示,由于不同課程間智能體數(shù)量以及觀測維度變化,緩存復(fù)用和基于KL散度的課程蒸餾機(jī)制不能直接用于DyMA-CL框架中,王維塤等人提供了一個語義映射函數(shù)φ(·),將語義信息從每個智能體的觀察值中抽取出來,從而找出不同狀態(tài)空間之間的映射關(guān)系。

    傳統(tǒng)的課程學(xué)習(xí)主要是針對單一類型智能體和固定的動作空間進(jìn)行設(shè)計(jì),Wu等人引入主從智能體的概念[31],采用異步策略共享感知網(wǎng)絡(luò),在不同的動作空間內(nèi)同時訓(xùn)練多個智能體。

    主從智能體以異步方式同時學(xué)習(xí)相應(yīng)的控制策略,以不同的頻率運(yùn)行,其中主智能體占用一半的線程,從智能體共享其余的一半線程。

    2.2 基于多智能體合作的課程學(xué)習(xí)

    不同的多智能體合作控制問題需要智能體在實(shí)現(xiàn)各自目標(biāo)的同時為全局目標(biāo)的成功做出貢獻(xiàn)。這種多目標(biāo)多智能體的設(shè)置給目前針對單一的全局獎勵設(shè)置的算法帶來兩個問題[32]:(1)需要高效的學(xué)習(xí)探索,既要實(shí)現(xiàn)智能體的個體目標(biāo),又要為其他智能體的成功而進(jìn)行合作;(2)不同智能體的行動和目標(biāo)之間相互作用的信度分配。

    為解決這兩個問題,Yang等人推導(dǎo)出一種基于多目標(biāo)多智能體的梯度策略算法[33],并采用信度分配函數(shù)進(jìn)行局部信度分配,使用一個增強(qiáng)函數(shù)來連接價值函數(shù)和策略函數(shù)。多目標(biāo)多智能體的梯度策略如圖4所示。

    階段1:作者在N=1和隨機(jī)目標(biāo)采樣的誘導(dǎo)式MDP中訓(xùn)練了一個演員π1(a|o,g)和一個評論家Q1(s1,a,g),與完整的多智能體環(huán)境相比,這種方法使用的樣本數(shù)量要少得多。

    L(θQC)=

    (1)

    ?θJ(π)=

    在多智能體游戲中,隨著智能體數(shù)量的增加,環(huán)境的復(fù)雜性會呈指數(shù)級增長,所以在大規(guī)模智能體的前提下學(xué)習(xí)好的策略尤其具有挑戰(zhàn)性。為解決這一挑戰(zhàn),Long等人引入了進(jìn)化種群課程(Evolutionary Population Curriculum,EPC)[34],使用種群進(jìn)化的方法來解決整個課程中的一個客觀錯位問題[35]:早期訓(xùn)練的規(guī)模較小智能體模型,未必是應(yīng)用到后期大規(guī)模智能體訓(xùn)練的最佳模型。Long等人在訓(xùn)練的各個階段維護(hù)多個智能體集,對各個智能體集進(jìn)行混合匹配和微調(diào),篩選出最佳適應(yīng)性的智能體集進(jìn)入下個階段。種群不變Q函數(shù)如圖5所示。

    如圖5所示,左半部分中,作者利用注意力機(jī)制組合來自不同觀察動作編碼器fi的嵌入,右半部分是fi的詳細(xì)說明,作者還利用注意力模塊將M個不同的實(shí)體組合到一個觀察值中。

    在強(qiáng)化學(xué)習(xí)中,以往的任務(wù)排序方法都以減少模型訓(xùn)練時間并達(dá)到給定性能水平為目標(biāo)進(jìn)行探索。Francesco等人定義了一個通用的任務(wù)排序優(yōu)化框架[36],并評估了常用的元啟發(fā)式搜索方法在多個任務(wù)上的性能。

    給定一個評估指標(biāo)P:C≤L×M→,它為一個特定的最終任務(wù)評估課程,考慮找到一個最優(yōu)課程C的問題,如下:

    P(c*,mf)≥P(c,mf)?c∈C≤L

    (3)

    2.3 基于能力評估的課程學(xué)習(xí)

    與其他自監(jiān)督的強(qiáng)化學(xué)習(xí)方法(如內(nèi)在驅(qū)動方法)相比,多智能體的競爭可能會隨著環(huán)境復(fù)雜性的提高而更加激烈,并導(dǎo)致智能體產(chǎn)生類似于人類技能的行為[37]。Bowen等人提出一種以遷移和微調(diào)作為定量評估目標(biāo)能力的方法[38],并且在一組特定領(lǐng)域的智力測驗(yàn)中將捉迷藏智能體和內(nèi)在驅(qū)動與隨機(jī)初始化基準(zhǔn)值進(jìn)行了比較。

    在復(fù)雜的任務(wù)中,比如那些組合行動空間大的任務(wù),隨機(jī)探索的效率太低,當(dāng)前的學(xué)習(xí)進(jìn)展比較緩慢。Gregory等人使用一個漸進(jìn)增長的動作空間的課程來加速學(xué)習(xí)[39],智能體可以通過最初限制其動作空間來設(shè)置內(nèi)部課程。Gregory的方法使用非策略強(qiáng)化學(xué)習(xí)來同時估計(jì)多個動作空間的最優(yōu)值函數(shù),并有效地將數(shù)據(jù)、值函數(shù)估計(jì)和狀態(tài)表示從受限的動作空間遷移到完整的任務(wù)。

    (4)

    因?yàn)槊總€動作空間都是較大動作空間的嚴(yán)格子集,因此在最壞的情況下,智能體總是可以退回到使用更受限制的動作空間的策略。

    課程學(xué)習(xí)方法通常依靠啟發(fā)式方法來估計(jì)訓(xùn)練實(shí)例的難度和模型的學(xué)習(xí)能力[40]。John P等人提出了基于能力評估的課程學(xué)習(xí)動態(tài)數(shù)據(jù)選擇(Dynamic Data Selection for Curriculum Learning via Ability Estimation,DDaCLAE)策略[41],該策略在每個訓(xùn)練階段根據(jù)模型在該階段的能力評估動態(tài)選擇最佳訓(xùn)練實(shí)例。

    算法 1:DDaCLAE

    輸入:數(shù)據(jù)(X,Y),模型φ,難度D,num_epochs

    輸出:訓(xùn)練好的模型φ

    1: forein num_epochs do

    5: train(φ,Xe,Ye)

    6: end for

    11:end procedure

    DDaCLAE的訓(xùn)練過程見算法1,John P等人使用評分函數(shù)估計(jì)模型能力,使用完整的訓(xùn)練集而不是更新模型參數(shù)來獲取響應(yīng)數(shù)據(jù)。John P等人發(fā)現(xiàn),在GLUE分類任務(wù)上,使用學(xué)習(xí)困難參數(shù)的模型優(yōu)于基于啟發(fā)式的課程學(xué)習(xí)模型。

    2.4 基于功能函數(shù)的課程學(xué)習(xí)

    通過課程來訓(xùn)練智能體以提高智能體的性能和學(xué)習(xí)速度,Andrea等人提出了一種基于任務(wù)復(fù)雜度的自動課程生成方法[42],引入了不同的進(jìn)程函數(shù),包括基于智能體性能的自主在線任務(wù)進(jìn)程。與其他基于任務(wù)的課程學(xué)習(xí)方法不同,這種方法的進(jìn)階函數(shù)決定了智能體在每個中間任務(wù)上應(yīng)該訓(xùn)練多長時間。通過在網(wǎng)格世界[43]和復(fù)雜模擬導(dǎo)航領(lǐng)域[44]中與兩種最先進(jìn)的課程學(xué)習(xí)算法的性能進(jìn)行對比分析,證明了自動課程生成方法的優(yōu)點(diǎn)和廣泛的適用性。

    傳統(tǒng)課程學(xué)習(xí)的數(shù)值方法只提供了最初的啟發(fā)式解決方案,幾乎不能保證它們的質(zhì)量。Francesco等人定義了一個新的灰盒函數(shù)[45],該函數(shù)包含一個合適的調(diào)度問題,可以有效地用來重構(gòu)課程學(xué)習(xí)問題。

    通過引入灰盒函數(shù)ψ:n×n→R,可以用參數(shù)(u,p)來計(jì)算課程c,并返回遺憾值Pr(c)。利用灰盒函數(shù)ψ,問題可以重新表示為:

    (5)

    (7)

    (8)

    3 算法分析與總結(jié)

    強(qiáng)化學(xué)習(xí)是處理序列決策任務(wù)的流行范式[46],盡管在過去的三十年中取得了許多進(jìn)步,但在許多領(lǐng)域的學(xué)習(xí)仍然需要與環(huán)境進(jìn)行大量的交互,導(dǎo)致模型的訓(xùn)練時間過長,收斂速度過慢。為了解決這個問題,課程學(xué)習(xí)被用于強(qiáng)化學(xué)習(xí),這樣在一個任務(wù)中獲得的經(jīng)驗(yàn)可以在開始學(xué)習(xí)下一個更難的任務(wù)時加以利用。然而,盡管課程學(xué)習(xí)理論、算法和應(yīng)用研究在國內(nèi)外已普遍開展,并且也已經(jīng)取得了較多的研究成果[47-48],但仍然有許多問題還亟待解決。

    3.1 強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)算法理論分析與對比

    在算法和理論方面,傳統(tǒng)課程學(xué)習(xí)對于小規(guī)模的多智能體強(qiáng)化學(xué)習(xí)性能提升明顯,但在大規(guī)模多智能體環(huán)境中,由于環(huán)境和智能體之間的復(fù)雜動態(tài)以及狀態(tài)-行動空間的爆炸,因此在實(shí)際問題的解決上進(jìn)展不大[49]。得益于深度神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)處理能力,使用深度神經(jīng)網(wǎng)絡(luò)表示回報函數(shù),避免了特征提取工作,當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法在實(shí)驗(yàn)場景中應(yīng)用于StarCraft[50]、grid-world[51]、hide-and-seek[52]、Sokoban[53]等經(jīng)典強(qiáng)化學(xué)習(xí)問題的解決。隨著課程學(xué)習(xí)技術(shù)的發(fā)展,算法在智能決策[54]、困難編隊(duì)下的合作導(dǎo)航[55]、在SUMO交通模擬器中協(xié)商多車輛變道[56]以及在Checkers環(huán)境下的戰(zhàn)略合作[57]等領(lǐng)域也取得了一定的成功。

    該綜述分四個角度對目前強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)方法進(jìn)行分類并介紹,希望能夠?yàn)橄嚓P(guān)研究人員提供一點(diǎn)幫助。為方便了解和對比,該文分析、對比了這幾類方法的優(yōu)缺點(diǎn),并歸納在表1中。

    表1 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)算法匯總

    (1)基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)。解決大規(guī)模問題的方法是從小型多智能體場景開始學(xué)習(xí),逐步增加智能體的數(shù)量,最終學(xué)習(xí)目標(biāo)任務(wù)。使用多種傳輸機(jī)制以加速課程學(xué)習(xí)過程,課程設(shè)計(jì)是影響課程遷移成績的關(guān)鍵因素。如何選擇合適的課程(包括如何決定每個任務(wù)的訓(xùn)練步長,如何選擇合適的學(xué)習(xí)模型重新加載等)是至關(guān)重要的。如何自動生成多智能體課程可能是目前尚存在的主要局限性,這將在今后的工作中進(jìn)一步研究[58]。

    (2)基于多智能體合作的課程學(xué)習(xí)。是根據(jù)全局目標(biāo)和個體目標(biāo)之間的關(guān)系進(jìn)行學(xué)習(xí)探索,使用信度分配[33]、種群進(jìn)化課程[34]、任務(wù)排序框架[36],通過函數(shù)增強(qiáng)方案來連接價值和策略函數(shù)的階段,在具有高維狀態(tài)空間的多目標(biāo)多智能體環(huán)境中執(zhí)行高挑戰(zhàn)性任務(wù)性能較好,缺點(diǎn)是沖突較為頻繁、更高的方差和無法維持合作解決方案[59],目前難以推廣到非齊次系統(tǒng)或沒有已知目標(biāo)分配的設(shè)置的工作。

    (3)基于能力評估的課程學(xué)習(xí)。通過限制其最初行動空間來設(shè)置內(nèi)部課程,使用非策略強(qiáng)化學(xué)習(xí)同時估計(jì)多個行動空間的最優(yōu)值函數(shù),建立技能、表述和有意義的經(jīng)驗(yàn)數(shù)據(jù)集,從而避免從頭開始學(xué)習(xí),加快學(xué)習(xí)效率。缺點(diǎn)是集群對每個狀態(tài)都會改變[60],這可能會干擾泛化,因?yàn)闆]有一致的語義。

    (4)基于功能函數(shù)的課程學(xué)習(xí)。通過設(shè)定級數(shù)函數(shù)和映射函數(shù)來為智能體量身定制在線課程,通過高斯過程定義智能體函數(shù),學(xué)習(xí)策略在單位之間共享,以鼓勵合作行為。使用神經(jīng)網(wǎng)絡(luò)作為函數(shù)逼近器來估計(jì)動作-價值函數(shù),并提出一個獎勵函數(shù)來幫助單位平衡它們的移動和攻擊。缺點(diǎn)是只提供最初的啟發(fā)式解決方案[61],而且質(zhì)量不能得到保證。

    3.2 基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)研究方向

    通過對最新課程學(xué)習(xí)算法理論的研究分析,本節(jié)對當(dāng)前基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)存在的開放性問題和可能的研究方向進(jìn)行討論。

    (1)自動創(chuàng)建任務(wù)課程。

    任務(wù)創(chuàng)建是課程學(xué)習(xí)方法的重要組成部分,任務(wù)質(zhì)量會影響課程的生成質(zhì)量,任務(wù)數(shù)量會影響課程排序算法的搜索空間和效率?,F(xiàn)有課程學(xué)習(xí)中的任務(wù)大多由人工創(chuàng)建,減少任務(wù)創(chuàng)建過程中的人工輸入量是未來工作的重要發(fā)展方向[62]。

    (2)遷移不同類型知識。

    課程任務(wù)之間,知識必須從一個任務(wù)遷移到另一個任務(wù)。目前大部分研究中,知識遷移的類型是固定的。例如,Narvekar等人在任務(wù)之間遷移價值函數(shù)[63],而Svetlik等人遷移成型獎勵[64]。這種知識遷移類型的局限性在于,不同的任務(wù)對于知識類型的需求可能是不同的,因此可以從不同任務(wù)中分別提取知識進(jìn)行組合。例如,從一個任務(wù)中提取一個選項(xiàng),從另一個任務(wù)中提取模型,從而達(dá)成更好的學(xué)習(xí)效果。

    (3)課程重用的成本分?jǐn)偂?/p>

    當(dāng)前課程學(xué)習(xí)方法的另一個局限性是,生成課程的時間可能比直接學(xué)習(xí)目標(biāo)任務(wù)的時間更長。原因在于,課程通常是為每個智能體和目標(biāo)任務(wù)獨(dú)立學(xué)習(xí)的。因此,分?jǐn)偝杀镜囊环N方法是學(xué)習(xí)一門課程來訓(xùn)練多個不同的智能體[65],或解決多個不同的目標(biāo)任務(wù)。

    4 結(jié)束語

    該文對基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)進(jìn)行了回顧,由淺入深地對課程學(xué)習(xí)進(jìn)行了分析,介紹了課程學(xué)習(xí)的概念理論、經(jīng)典算法、研究進(jìn)展和發(fā)展展望等,從基于網(wǎng)絡(luò)優(yōu)化的課程學(xué)習(xí)、基于多智能體合作的課程學(xué)習(xí)、基于能力評估的課程學(xué)習(xí)、基于功能函數(shù)的課程學(xué)習(xí)四個角度對強(qiáng)化學(xué)習(xí)中的課程學(xué)習(xí)進(jìn)行了分類梳理、對比分析,最后對基于課程學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)的未來展望進(jìn)行簡要分析。

    根據(jù)當(dāng)前深度強(qiáng)化學(xué)習(xí)中存在的狀態(tài)空間復(fù)雜、維數(shù)災(zāi)難、學(xué)習(xí)時間長等問題,課程學(xué)習(xí)會是未來的一個發(fā)展方向。課程學(xué)習(xí)算法可以將目標(biāo)任務(wù)分解成多個子任務(wù),結(jié)合大多數(shù)的強(qiáng)化學(xué)習(xí)算法,使用多種傳輸機(jī)制以加速強(qiáng)化學(xué)習(xí)進(jìn)程,大大提高了學(xué)習(xí)探索效率和通用性。最后,目前課程算法在大規(guī)模多智能體場景的研究進(jìn)展緩慢,其主要原因在于多智能體場景的復(fù)雜性。然而大規(guī)模多智能體場景更加貼近現(xiàn)實(shí),優(yōu)質(zhì)的課程學(xué)習(xí)算法能夠在很大程度上提高學(xué)習(xí)探索的效率。因此,相信課程學(xué)習(xí)算法會成為深度強(qiáng)化學(xué)習(xí)的熱門方向,加快深度強(qiáng)化學(xué)習(xí)的發(fā)展速度。

    猜你喜歡
    深度智能方法
    深度理解一元一次方程
    深度觀察
    深度觀察
    智能前沿
    文苑(2018年23期)2018-12-14 01:06:06
    智能前沿
    文苑(2018年19期)2018-11-09 01:30:14
    智能前沿
    文苑(2018年17期)2018-11-09 01:29:26
    智能前沿
    文苑(2018年21期)2018-11-09 01:22:32
    深度觀察
    可能是方法不對
    用對方法才能瘦
    Coco薇(2016年2期)2016-03-22 02:42:52
    交换朋友夫妻互换小说| 一边亲一边摸免费视频| 中文字幕av电影在线播放| 精品人妻熟女av久视频| 国产欧美日韩精品一区二区| 你懂的网址亚洲精品在线观看| 国产一区二区三区av在线| 国产男人的电影天堂91| 男人爽女人下面视频在线观看| 成年av动漫网址| 午夜福利,免费看| 人妻夜夜爽99麻豆av| 搡女人真爽免费视频火全软件| 亚洲av电影在线观看一区二区三区| 亚洲精品日本国产第一区| 精品亚洲成国产av| 欧美三级亚洲精品| 亚洲av.av天堂| 91精品伊人久久大香线蕉| 性色av一级| 另类亚洲欧美激情| 2022亚洲国产成人精品| 一级毛片久久久久久久久女| 久久99热6这里只有精品| 人妻 亚洲 视频| 制服丝袜香蕉在线| 一边亲一边摸免费视频| 亚洲四区av| 伊人久久国产一区二区| 大陆偷拍与自拍| 成人国产麻豆网| 免费观看无遮挡的男女| 99久久人妻综合| 亚洲人成网站在线观看播放| 汤姆久久久久久久影院中文字幕| 久久久久人妻精品一区果冻| 麻豆精品久久久久久蜜桃| 国产av一区二区精品久久| 边亲边吃奶的免费视频| 亚洲精品国产成人久久av| 乱系列少妇在线播放| 久久狼人影院| 亚洲一区二区三区欧美精品| 天堂8中文在线网| 三级国产精品片| 亚洲人成网站在线观看播放| 国产一区二区三区av在线| 久久人人爽av亚洲精品天堂| 欧美 日韩 精品 国产| 国产精品99久久久久久久久| 久久久久精品久久久久真实原创| 嫩草影院入口| 国产高清三级在线| 两个人的视频大全免费| 国产日韩一区二区三区精品不卡 | 男人爽女人下面视频在线观看| 国产日韩欧美在线精品| 一级,二级,三级黄色视频| 多毛熟女@视频| 久久久久网色| 国产伦精品一区二区三区四那| 精品熟女少妇av免费看| 精品久久久久久久久av| 下体分泌物呈黄色| 国产成人一区二区在线| 日韩不卡一区二区三区视频在线| 午夜福利影视在线免费观看| 一级爰片在线观看| 亚洲精品视频女| 日韩av免费高清视频| 久久久久网色| 中文资源天堂在线| av免费观看日本| 久久97久久精品| 狠狠精品人妻久久久久久综合| 十八禁网站网址无遮挡 | 欧美成人午夜免费资源| 肉色欧美久久久久久久蜜桃| 97在线视频观看| 少妇 在线观看| 中国美白少妇内射xxxbb| 国产黄频视频在线观看| 校园人妻丝袜中文字幕| 亚洲av免费高清在线观看| 免费看日本二区| 久久久久久人妻| 欧美3d第一页| 麻豆精品久久久久久蜜桃| 久久国产乱子免费精品| 搡女人真爽免费视频火全软件| 亚洲美女视频黄频| 极品人妻少妇av视频| 国产一区亚洲一区在线观看| 国产亚洲欧美精品永久| 日本av手机在线免费观看| 国产精品熟女久久久久浪| 亚洲成人一二三区av| 又黄又爽又刺激的免费视频.| 免费黄频网站在线观看国产| 蜜桃在线观看..| 国产黄片美女视频| 午夜日本视频在线| 成人国产麻豆网| 亚洲精品国产色婷婷电影| 99视频精品全部免费 在线| 日本-黄色视频高清免费观看| 亚洲国产精品专区欧美| 麻豆成人午夜福利视频| 十八禁网站网址无遮挡 | 色视频www国产| 日本黄色日本黄色录像| 国产欧美另类精品又又久久亚洲欧美| 熟女人妻精品中文字幕| a级片在线免费高清观看视频| 亚洲欧美精品专区久久| 久久 成人 亚洲| 亚洲av在线观看美女高潮| 国产精品久久久久久久电影| 黑人猛操日本美女一级片| 色视频www国产| 日韩,欧美,国产一区二区三区| 久久国产乱子免费精品| 中文字幕精品免费在线观看视频 | 在线亚洲精品国产二区图片欧美 | 国内揄拍国产精品人妻在线| 热re99久久国产66热| 日本91视频免费播放| 久久99一区二区三区| 男女国产视频网站| 久久精品国产亚洲av天美| 中文字幕人妻丝袜制服| 99九九线精品视频在线观看视频| 久久久久久久国产电影| 最近中文字幕2019免费版| 自拍欧美九色日韩亚洲蝌蚪91 | 少妇人妻一区二区三区视频| 国产在视频线精品| 尾随美女入室| 日韩中字成人| 亚洲国产色片| 国产成人一区二区在线| 爱豆传媒免费全集在线观看| 最近的中文字幕免费完整| 99国产精品免费福利视频| 精品国产一区二区久久| 亚洲欧美一区二区三区国产| 国产伦在线观看视频一区| 亚洲欧美成人综合另类久久久| 一区二区三区乱码不卡18| 久久精品熟女亚洲av麻豆精品| 婷婷色麻豆天堂久久| 亚洲欧美日韩卡通动漫| 亚洲丝袜综合中文字幕| 亚洲av成人精品一二三区| 国内精品宾馆在线| 一个人看视频在线观看www免费| 国产一区二区在线观看日韩| 亚洲精品国产av成人精品| a级一级毛片免费在线观看| 欧美精品一区二区免费开放| 女性被躁到高潮视频| 日韩成人伦理影院| 爱豆传媒免费全集在线观看| 香蕉精品网在线| 人体艺术视频欧美日本| 免费大片18禁| 国产淫语在线视频| 免费播放大片免费观看视频在线观看| 简卡轻食公司| 人人妻人人澡人人爽人人夜夜| 精品午夜福利在线看| 99热全是精品| 制服丝袜香蕉在线| 久久 成人 亚洲| 夜夜爽夜夜爽视频| 成人国产麻豆网| 麻豆成人午夜福利视频| 免费av不卡在线播放| 2018国产大陆天天弄谢| av线在线观看网站| 国产精品偷伦视频观看了| 99九九在线精品视频 | 久久人人爽av亚洲精品天堂| 日韩视频在线欧美| 日韩制服骚丝袜av| 欧美丝袜亚洲另类| 欧美精品一区二区大全| 卡戴珊不雅视频在线播放| 日本欧美视频一区| av福利片在线| 97精品久久久久久久久久精品| 精品人妻熟女毛片av久久网站| 国产一区二区在线观看av| 曰老女人黄片| 色网站视频免费| 夫妻午夜视频| 久久久久久人妻| 亚洲国产精品一区二区三区在线| 亚洲欧美日韩卡通动漫| 欧美高清成人免费视频www| 草草在线视频免费看| 曰老女人黄片| 黄色一级大片看看| 欧美国产精品一级二级三级 | 七月丁香在线播放| 亚洲精品456在线播放app| 国产熟女欧美一区二区| 亚洲精品久久午夜乱码| 99久久精品一区二区三区| 久久精品国产自在天天线| 国产亚洲精品久久久com| 亚洲久久久国产精品| 亚洲精品乱久久久久久| 亚洲人成网站在线播| 高清黄色对白视频在线免费看 | 伊人久久精品亚洲午夜| 亚洲精品国产色婷婷电影| 亚洲美女搞黄在线观看| 婷婷色麻豆天堂久久| 一级毛片电影观看| 久久久久精品性色| 熟妇人妻不卡中文字幕| h视频一区二区三区| 国产伦在线观看视频一区| 日产精品乱码卡一卡2卡三| 国产精品女同一区二区软件| 老司机亚洲免费影院| 亚洲美女搞黄在线观看| 免费看光身美女| 国产精品无大码| 久久午夜综合久久蜜桃| 久久精品国产亚洲网站| 久久久欧美国产精品| 亚洲精品自拍成人| 国产精品欧美亚洲77777| a 毛片基地| a级一级毛片免费在线观看| 肉色欧美久久久久久久蜜桃| 亚洲美女视频黄频| 久久国产亚洲av麻豆专区| 免费黄网站久久成人精品| 久久久国产精品麻豆| 精品国产一区二区久久| 秋霞在线观看毛片| 交换朋友夫妻互换小说| 久久国内精品自在自线图片| 大香蕉久久网| 在线精品无人区一区二区三| 国产国拍精品亚洲av在线观看| 成年人午夜在线观看视频| 国产精品一区二区三区四区免费观看| 久久ye,这里只有精品| videos熟女内射| 中文欧美无线码| 在现免费观看毛片| 高清午夜精品一区二区三区| 美女内射精品一级片tv| 久久鲁丝午夜福利片| 免费久久久久久久精品成人欧美视频 | 国产亚洲一区二区精品| www.av在线官网国产| 夫妻午夜视频| 大又大粗又爽又黄少妇毛片口| 3wmmmm亚洲av在线观看| 韩国av在线不卡| av.在线天堂| 中文字幕av电影在线播放| 亚洲丝袜综合中文字幕| 欧美精品国产亚洲| 十八禁高潮呻吟视频 | 十八禁高潮呻吟视频 | 91成人精品电影| 国产一区二区三区av在线| 简卡轻食公司| 纵有疾风起免费观看全集完整版| 亚洲va在线va天堂va国产| 久久鲁丝午夜福利片| 噜噜噜噜噜久久久久久91| 国产色爽女视频免费观看| 精华霜和精华液先用哪个| 国产中年淑女户外野战色| 制服丝袜香蕉在线| 中文字幕精品免费在线观看视频 | 国产精品不卡视频一区二区| a级毛片免费高清观看在线播放| 精品亚洲成a人片在线观看| 一区在线观看完整版| 午夜激情福利司机影院| 日韩一本色道免费dvd| 美女cb高潮喷水在线观看| 五月开心婷婷网| 免费大片黄手机在线观看| 日韩大片免费观看网站| 久久久久久久久久久丰满| 国产真实伦视频高清在线观看| 乱系列少妇在线播放| 成年美女黄网站色视频大全免费 | 国产一级毛片在线| 国产一区二区三区av在线| 久久久久国产精品人妻一区二区| 久久99一区二区三区| 一级毛片我不卡| 欧美激情极品国产一区二区三区 | 大片电影免费在线观看免费| 成人美女网站在线观看视频| 日韩中文字幕视频在线看片| 一个人免费看片子| 成人国产av品久久久| kizo精华| 亚洲精品国产色婷婷电影| 中文字幕久久专区| 爱豆传媒免费全集在线观看| 中文字幕人妻熟人妻熟丝袜美| 成人黄色视频免费在线看| 国产片特级美女逼逼视频| 国产有黄有色有爽视频| 日韩免费高清中文字幕av| 国产精品.久久久| 精品少妇久久久久久888优播| 午夜免费男女啪啪视频观看| 亚洲欧洲精品一区二区精品久久久 | 成年人午夜在线观看视频| 九九在线视频观看精品| 一区二区三区免费毛片| av天堂中文字幕网| 久久午夜福利片| 日韩熟女老妇一区二区性免费视频| 欧美日韩视频高清一区二区三区二| 两个人免费观看高清视频 | kizo精华| 成人影院久久| a级片在线免费高清观看视频| 国产精品三级大全| 两个人免费观看高清视频 | 伦精品一区二区三区| av天堂久久9| 另类亚洲欧美激情| av一本久久久久| h视频一区二区三区| 国产成人精品婷婷| av专区在线播放| av免费在线看不卡| 国产色爽女视频免费观看| 久久久久久伊人网av| 黑人巨大精品欧美一区二区蜜桃 | 午夜日本视频在线| 麻豆精品久久久久久蜜桃| 亚洲精品视频女| 亚洲欧美一区二区三区国产| 亚洲av国产av综合av卡| 免费在线观看成人毛片| 中文欧美无线码| 天堂俺去俺来也www色官网| 日韩av在线免费看完整版不卡| 欧美日韩av久久| 国产免费一级a男人的天堂| 99久国产av精品国产电影| 精品熟女少妇av免费看| 亚洲国产色片| a级毛片在线看网站| 熟女人妻精品中文字幕| freevideosex欧美| 丰满饥渴人妻一区二区三| 蜜臀久久99精品久久宅男| 女性被躁到高潮视频| 亚洲av日韩在线播放| 亚洲av免费高清在线观看| 免费观看av网站的网址| 一本大道久久a久久精品| 熟女电影av网| 欧美区成人在线视频| 狠狠精品人妻久久久久久综合| 人妻一区二区av| 国产精品国产三级国产av玫瑰| 午夜激情福利司机影院| 黄色日韩在线| 成人影院久久| 国产色爽女视频免费观看| 亚洲熟女精品中文字幕| 在现免费观看毛片| www.av在线官网国产| 黑人猛操日本美女一级片| av在线app专区| 91aial.com中文字幕在线观看| 大香蕉97超碰在线| 国产成人freesex在线| 大片电影免费在线观看免费| 又爽又黄a免费视频| 99热网站在线观看| 国产成人精品一,二区| 777米奇影视久久| 日韩电影二区| 日韩强制内射视频| 久久久久久久久久成人| 黄色毛片三级朝国网站 | 午夜免费鲁丝| 日本av免费视频播放| 欧美3d第一页| 亚洲欧洲国产日韩| 久久久国产欧美日韩av| 午夜激情久久久久久久| 另类亚洲欧美激情| 黄色怎么调成土黄色| 岛国毛片在线播放| 能在线免费看毛片的网站| 肉色欧美久久久久久久蜜桃| 精品人妻熟女av久视频| 国产精品成人在线| 国产爽快片一区二区三区| 99久久精品热视频| 日韩视频在线欧美| 国产高清国产精品国产三级| 十八禁网站网址无遮挡 | 寂寞人妻少妇视频99o| 中文乱码字字幕精品一区二区三区| 91久久精品电影网| 久久精品久久久久久久性| 美女主播在线视频| 91成人精品电影| 中文精品一卡2卡3卡4更新| 久久婷婷青草| 99九九线精品视频在线观看视频| 免费大片黄手机在线观看| 18禁在线无遮挡免费观看视频| 精品国产一区二区三区久久久樱花| 久久国内精品自在自线图片| 亚洲一区二区三区欧美精品| 极品教师在线视频| 国产精品秋霞免费鲁丝片| av在线app专区| 中文精品一卡2卡3卡4更新| 欧美变态另类bdsm刘玥| 国产综合精华液| 欧美激情极品国产一区二区三区 | 人人澡人人妻人| 亚洲国产日韩一区二区| 一区二区三区乱码不卡18| 人妻夜夜爽99麻豆av| 免费黄色在线免费观看| 亚洲精品日韩av片在线观看| 十八禁高潮呻吟视频 | 国产伦在线观看视频一区| 国产av国产精品国产| 欧美日韩综合久久久久久| 国产黄片美女视频| av国产久精品久网站免费入址| 在线天堂最新版资源| 亚洲欧美中文字幕日韩二区| 欧美日韩在线观看h| 亚洲美女搞黄在线观看| 国产成人精品婷婷| 国产成人一区二区在线| 久久午夜福利片| 高清黄色对白视频在线免费看 | 视频区图区小说| 中文在线观看免费www的网站| av又黄又爽大尺度在线免费看| 在线观看免费视频网站a站| 国产精品女同一区二区软件| av福利片在线观看| 国产 精品1| 男女边摸边吃奶| 美女视频免费永久观看网站| 我的女老师完整版在线观看| 亚洲人成网站在线观看播放| 啦啦啦中文免费视频观看日本| 亚洲成人av在线免费| 日韩亚洲欧美综合| 国产亚洲5aaaaa淫片| 三上悠亚av全集在线观看 | 赤兔流量卡办理| 精品少妇久久久久久888优播| 免费av不卡在线播放| 中文乱码字字幕精品一区二区三区| 2022亚洲国产成人精品| 九九爱精品视频在线观看| 大码成人一级视频| 中文资源天堂在线| av国产久精品久网站免费入址| 国产女主播在线喷水免费视频网站| 国产视频内射| 亚洲综合色惰| 久久毛片免费看一区二区三区| av国产精品久久久久影院| 高清午夜精品一区二区三区| 少妇熟女欧美另类| 99久久精品热视频| 午夜视频国产福利| 久久韩国三级中文字幕| 亚洲av欧美aⅴ国产| 亚洲精品中文字幕在线视频 | 一级av片app| 美女国产视频在线观看| av视频免费观看在线观看| 久久6这里有精品| 制服丝袜香蕉在线| 国产无遮挡羞羞视频在线观看| 亚洲伊人久久精品综合| 久热这里只有精品99| 一区二区三区四区激情视频| 永久网站在线| 国产无遮挡羞羞视频在线观看| 99热网站在线观看| 国产精品人妻久久久久久| 精品少妇内射三级| a级毛片在线看网站| 中文字幕制服av| 啦啦啦在线观看免费高清www| 在线播放无遮挡| 18禁在线无遮挡免费观看视频| 91久久精品电影网| 久久久久久久国产电影| 免费久久久久久久精品成人欧美视频 | 一级a做视频免费观看| 在线精品无人区一区二区三| 欧美 亚洲 国产 日韩一| 亚洲欧美精品专区久久| 国产色爽女视频免费观看| 狂野欧美激情性xxxx在线观看| 性高湖久久久久久久久免费观看| 麻豆成人午夜福利视频| 国产一区二区在线观看日韩| 成年女人在线观看亚洲视频| 一二三四中文在线观看免费高清| 高清黄色对白视频在线免费看 | 桃花免费在线播放| 中文资源天堂在线| 婷婷色综合www| 自拍偷自拍亚洲精品老妇| 乱码一卡2卡4卡精品| 我要看日韩黄色一级片| 一级毛片黄色毛片免费观看视频| 国产精品国产三级国产专区5o| 九九久久精品国产亚洲av麻豆| 日韩一区二区视频免费看| 国精品久久久久久国模美| 纵有疾风起免费观看全集完整版| 18禁动态无遮挡网站| 一边亲一边摸免费视频| 性高湖久久久久久久久免费观看| 欧美精品亚洲一区二区| 搡女人真爽免费视频火全软件| 在线观看免费视频网站a站| 少妇猛男粗大的猛烈进出视频| 日韩欧美 国产精品| 晚上一个人看的免费电影| 又粗又硬又长又爽又黄的视频| 国产一区二区三区综合在线观看 | 亚洲成人手机| a级毛片在线看网站| 老熟女久久久| 中国国产av一级| 欧美日韩综合久久久久久| 国产精品嫩草影院av在线观看| 亚洲第一区二区三区不卡| 久久久久精品性色| 久久热精品热| 午夜福利影视在线免费观看| 欧美日韩综合久久久久久| 国产在视频线精品| 国产女主播在线喷水免费视频网站| 国产片特级美女逼逼视频| 美女大奶头黄色视频| 亚洲精品第二区| 午夜av观看不卡| 亚洲精品乱码久久久v下载方式| 日本vs欧美在线观看视频 | 七月丁香在线播放| 中文字幕久久专区| 狂野欧美激情性xxxx在线观看| 人妻一区二区av| 国产成人免费无遮挡视频| 一级毛片黄色毛片免费观看视频| 麻豆成人午夜福利视频| 亚洲真实伦在线观看| 亚洲国产成人一精品久久久| 亚洲综合色惰| 国产淫语在线视频| 丰满迷人的少妇在线观看| 少妇高潮的动态图| 18禁在线无遮挡免费观看视频| 欧美三级亚洲精品| 狂野欧美白嫩少妇大欣赏| 国产一区二区三区av在线| 国产深夜福利视频在线观看| xxx大片免费视频| 久久亚洲国产成人精品v| 91精品伊人久久大香线蕉| 亚洲欧美一区二区三区黑人 | 少妇人妻 视频| 国产又色又爽无遮挡免| 99久久精品国产国产毛片| 五月伊人婷婷丁香| 国产av一区二区精品久久| 午夜福利影视在线免费观看| 69精品国产乱码久久久| 国产日韩欧美视频二区| 各种免费的搞黄视频| 国产欧美亚洲国产| 秋霞在线观看毛片| 大码成人一级视频| 亚洲av二区三区四区| 国产精品一二三区在线看| 大片电影免费在线观看免费| 老司机影院毛片| 美女视频免费永久观看网站| 免费av中文字幕在线| 亚洲电影在线观看av| 热re99久久精品国产66热6| 亚洲内射少妇av| 欧美区成人在线视频| 女的被弄到高潮叫床怎么办| 成人影院久久| 三级国产精品欧美在线观看| 精品亚洲乱码少妇综合久久|