• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于經(jīng)驗(yàn)指導(dǎo)的深度確定性多行動(dòng)者-評(píng)論家算法

    2019-07-30 11:26:54陳紅名姜玉斌張琳琳
    關(guān)鍵詞:評(píng)論家行動(dòng)者梯度

    陳紅名 劉 全,2,3,4 閆 巖 何 斌 姜玉斌 張琳琳

    1(蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 江蘇蘇州 215006)2(江蘇省計(jì)算機(jī)信息處理技術(shù)重點(diǎn)實(shí)驗(yàn)室(蘇州大學(xué)) 江蘇蘇州 215006)3(符號(hào)計(jì)算與知識(shí)工程教育部重點(diǎn)實(shí)驗(yàn)室(吉林大學(xué)) 長(zhǎng)春 130012)4(軟件新技術(shù)與產(chǎn)業(yè)化協(xié)同創(chuàng)新中心 南京 210000)

    目前,強(qiáng)化學(xué)習(xí)已經(jīng)廣泛應(yīng)用于仿真模擬、工業(yè)控制和博弈游戲等領(lǐng)域[1-5].強(qiáng)化學(xué)習(xí)(reinforcement learning)的目標(biāo)是學(xué)習(xí)一個(gè)最優(yōu)策略使得智能體(agent)能夠獲得最大的累積獎(jiǎng)賞[6].強(qiáng)化學(xué)習(xí)方法大體上可以分為3類:基于值函數(shù)的方法、策略搜索方法(或策略梯度方法)和行動(dòng)者-評(píng)論家方法.

    基于值函數(shù)的方法通過學(xué)習(xí)一個(gè)值函數(shù)獲得一個(gè)最優(yōu)策略,這種方法適用于離散動(dòng)作空間的任務(wù),對(duì)于連續(xù)動(dòng)作空間來說是并不適用的.例如Rummery和Niranjan[7]提出的Sarsa算法、Watkins等人[8]提出的Q-Learning算法.對(duì)比基于值函數(shù)的方法,策略搜索方法并沒有學(xué)習(xí)值函數(shù)而是直接學(xué)習(xí)一個(gè)策略,使得累積獎(jiǎng)賞最大化.例如Williams提出的基于蒙特卡洛方法[9](Monte Carlo methods, MC)的強(qiáng)化(reinforce)算法和使用基線的強(qiáng)化(reinforce with baseline)算法[10],后者是前者的泛化.行動(dòng)者-評(píng)論家算法結(jié)合了基于值的方法和策略搜索方法,其中參數(shù)化的策略稱為行動(dòng)者,學(xué)習(xí)到的值函數(shù)稱為評(píng)論家.例如Barto和Sutton等人[11]提出的行動(dòng)者-評(píng)論家算法(actor-critic, AC),Peters和Schaal提出的自然行動(dòng)者-評(píng)論家方法[12](natural actor-critic, NAC).

    傳統(tǒng)強(qiáng)化學(xué)習(xí)面臨的問題是對(duì)于高維狀態(tài)動(dòng)作空間感知能力不足.最近幾年隨著深度學(xué)習(xí)(deep learning, DL)的流行,由于其對(duì)高維狀態(tài)動(dòng)作空間有很好的表示能力,因此深度學(xué)習(xí)與傳統(tǒng)強(qiáng)化學(xué)習(xí)的結(jié)合產(chǎn)生了深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning, DRL)這一研究熱點(diǎn).這一類方法在一些游戲和機(jī)器人控制任務(wù)上取得了不錯(cuò)的成果.比如基于Q-Learning的深度Q網(wǎng)絡(luò)(deep Q-network, DQN)[13]算法在49個(gè)Atari 2600游戲中的實(shí)驗(yàn)結(jié)果超過以往所有算法,并且可以媲美職業(yè)人類玩家的水平.在DQN之上有很多改進(jìn)的算法版本,例如在此基礎(chǔ)上提出的競(jìng)爭(zhēng)網(wǎng)絡(luò)結(jié)構(gòu)[14](dueling network architecture, DNA)和可用于連續(xù)動(dòng)作空間的歸一化優(yōu)勢(shì)函數(shù)連續(xù)Q學(xué)習(xí)[15](continuous Q-Learning with normalized advantage functions, NAF)等,還有基于行動(dòng)者-評(píng)論家方法的深度確定性策略梯度[16](deep deterministic policy gradient, DDPG)方法,以及異步優(yōu)勢(shì)行動(dòng)者-評(píng)論家[17](asynchronous advantage actor-critic, A3C)方法等.此外深度強(qiáng)化學(xué)習(xí)在其他研究方向比如圖像處理、自然語言處理等都有一些重要應(yīng)用[18-20].

    基于值函數(shù)的方法像深度Q網(wǎng)絡(luò)等,大多是根據(jù)值函數(shù)通過ε-greedy策略來選擇動(dòng)作,即以ε的概率隨機(jī)選擇動(dòng)作,以1-ε的概率選擇具有最大值的動(dòng)作.這類方法在離散動(dòng)作空間任務(wù)中具有很好的效果,而對(duì)于連續(xù)控制任務(wù)卻不是很適用[21],這是因?yàn)檫B續(xù)動(dòng)作空間中具有最大值的動(dòng)作不易確定.基于策略梯度的方法可以分為隨機(jī)策略梯度[22](stochastic policy gradients, SPG)和確定性策略梯度[23](deterministic policy gradients, DPG).隨機(jī)策略梯度在選擇動(dòng)作時(shí)輸出是每個(gè)可能的動(dòng)作的概率,這類方法也不太適用于連續(xù)動(dòng)作空間任務(wù).而確定性策略梯度方法在選擇行動(dòng)時(shí),策略的輸出是一個(gè)確定的動(dòng)作,因此可以很好地應(yīng)用于連續(xù)控制任務(wù).確定性策略梯度與AC方法的結(jié)合形成了確定性AC方法[23](deterministic actor-critic, DAC),比如DDPG.這類方法雖然可以很好地適用于連續(xù)動(dòng)作空間,但是其性能很大程度上取決于探索方法的好壞.它們一般通過在動(dòng)作中加入外部噪聲實(shí)現(xiàn)探索或者使用高斯策略實(shí)現(xiàn)探索,但這些探索方式實(shí)際上是盲目的,因此在一些連續(xù)控制任務(wù)表現(xiàn)不是很好.

    為了提高確定性AC方法在連續(xù)控制問題上的性能,本文提出了基于經(jīng)驗(yàn)指導(dǎo)的深度確定性多行動(dòng)者-評(píng)論家算法(experience-guided deep deter-ministic actor-critic with multi-actor,EGDDAC-MA). EGDDAC-MA并不需要外部探索噪聲源,而是從自身優(yōu)秀經(jīng)驗(yàn)中學(xué)習(xí)一個(gè)指導(dǎo)網(wǎng)絡(luò),對(duì)行動(dòng)的選擇和評(píng)論家網(wǎng)絡(luò)的更新進(jìn)行指導(dǎo).此外為了緩解單個(gè)網(wǎng)絡(luò)的學(xué)習(xí)壓力,EGDDAC-MA使用了多個(gè)行動(dòng)者網(wǎng)絡(luò),各個(gè)行動(dòng)者網(wǎng)絡(luò)之間互不干擾,執(zhí)行情節(jié)的不同階段.

    實(shí)驗(yàn)上,本文首先對(duì)比基于經(jīng)驗(yàn)的指導(dǎo)相比于外部探索噪聲的優(yōu)勢(shì),證明了多行動(dòng)者機(jī)制可以有效緩解網(wǎng)絡(luò)學(xué)習(xí)波動(dòng),然后比較了深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)、置信區(qū)域策略優(yōu)化算法[24](trust region policy optimization, TRPO)、對(duì)TRPO進(jìn)行改進(jìn)的近端策略優(yōu)化算法(proximal policy optimization Algorithms, PPO)和EGDDAC-MA在多個(gè)連續(xù)任務(wù)上的性能.本文還使用了專家經(jīng)驗(yàn)來取代自身優(yōu)秀經(jīng)驗(yàn)進(jìn)行實(shí)驗(yàn),發(fā)現(xiàn)在提供專家經(jīng)驗(yàn)條件下,EGDDAC-MA可以快速學(xué)到一個(gè)不錯(cuò)的策略.

    1 背景知識(shí)

    1.1 強(qiáng)化學(xué)習(xí)和隨機(jī)行動(dòng)者-評(píng)論家算法

    強(qiáng)化學(xué)習(xí)問題通常使用Markov決策過程(Markov decision process, MDP)進(jìn)行建模.一個(gè)MDP問題可以用一個(gè)四元組(S,A,R,P)表示,其中S為狀態(tài)集合,A為動(dòng)作集合,R為獎(jiǎng)賞函數(shù),P為狀態(tài)轉(zhuǎn)移函數(shù).在與環(huán)境E交互過程中,每個(gè)時(shí)間步agent在狀態(tài)st執(zhí)行動(dòng)作at,獲得獎(jiǎng)賞rt+1并到達(dá)下一個(gè)狀態(tài)st+1,這里st∈S,at∈A,rt=R(st,at),S?Rns,A?Rna.Agent的目標(biāo)是最大化累積獎(jiǎng)賞:

    (1)

    作為強(qiáng)化學(xué)習(xí)中的一種重要方法,隨機(jī)行動(dòng)者-評(píng)論家算法(stochastic actor-critic)使用隨機(jī)策略梯度來更新策略,其中行動(dòng)者(actor)和評(píng)論家(critic)進(jìn)行了參數(shù)化處理,這里用π(a|s,θπ):S→P(A)和Q(s,a|θq)分別表示行動(dòng)者(策略)和評(píng)論家(動(dòng)作值函數(shù)),其中,θπ和θq是參數(shù),P(A)表示動(dòng)作空間概率分布.策略和動(dòng)作值函數(shù)可以是線性的,也可以使用神經(jīng)網(wǎng)絡(luò)表示.行動(dòng)者-評(píng)論家算法的目標(biāo)是尋找一個(gè)最優(yōu)策略使得累積獎(jiǎng)賞最大化.

    在強(qiáng)化學(xué)習(xí)中,無論是狀態(tài)值函數(shù)還是動(dòng)作值函數(shù)都滿足貝爾曼方程:

    Qπ(st,at)=Est~E,at~π,rt+1=R(st,at)[rt+1+
    γEat+1~π[Qπ(st+1,at+1)]].

    (2)

    式(2)中,由于期望回報(bào)是不可知的,所以值函數(shù)在隨機(jī)行動(dòng)者-評(píng)論家算法中是用來做評(píng)估的,用于計(jì)算TD 誤差(TD error):

    δ=rt+1+γQ(st+1,at+1|θq)-Q(st,at|θq),

    (3)

    其中,γ是折扣因子,根據(jù)隨機(jī)策略梯度理論[6](stochastic policy gradient theorem),策略π(a|s,θπ)參數(shù)更新所使用的梯度可以表示為

    (4)

    (5)

    (6)

    其中,αθq,αθπ是梯度更新的步長(zhǎng)參數(shù).

    行動(dòng)者-評(píng)論家算法的模型如圖1所示:

    Fig. 1 The diagram of Actor-Critic framework圖1 行動(dòng)者-評(píng)論家算法

    根據(jù)圖1,算法首先初始化策略和值函數(shù),進(jìn)入循環(huán),在每個(gè)時(shí)間步t,策略在狀態(tài)st選擇動(dòng)作at并執(zhí)行,環(huán)境給出下一個(gè)狀態(tài)st+1和獎(jiǎng)賞rt+1作為反饋,然后使用式(3)計(jì)算出TD誤差,最后使用式(5)和(6)來更新策略和值函數(shù)參數(shù),重復(fù)執(zhí)行以上步驟直至收斂.

    1.2 深度確定性策略梯度算法

    強(qiáng)化學(xué)習(xí)使用深度神經(jīng)網(wǎng)絡(luò)來逼近值函數(shù)時(shí),會(huì)表現(xiàn)得不穩(wěn)定甚至?xí)l(fā)散.因此同DQN中一樣,深度確定性策略梯度算法(deep deterministic policy gradient, DDPG)使用了目標(biāo)網(wǎng)絡(luò)和經(jīng)驗(yàn)重放2個(gè)機(jī)制.

    深度確定性策略梯度算法是確定性策略梯度算法與行動(dòng)者-評(píng)論家算法的結(jié)合.與隨機(jī)策略梯度中定義的策略形式不同.在確定性行動(dòng)者-評(píng)論家方法中用π(s|θπ):S→A表示行動(dòng)者網(wǎng)絡(luò),注意S指向的是動(dòng)作空間而不是動(dòng)作空間的概率分布,用Q(s,a|θq)來表示評(píng)論家網(wǎng)絡(luò),這里θπ和θq表示網(wǎng)絡(luò)參數(shù).同時(shí)使用π(s|θπ′)和Q(s,a|θq′)表示目標(biāo)行動(dòng)者網(wǎng)絡(luò)和目標(biāo)評(píng)論家網(wǎng)絡(luò).

    根據(jù)確定性策略梯度理論[23](deterministic policy gradient theorem),確定性策略的策略梯度可以表示為

    (7)

    DDPG評(píng)論家的優(yōu)化目標(biāo)是最小化損失函數(shù):

    L(θq)=Est~E,at=π(st|θπ),rt+1=R(st,at)
    [(Q(st,at|θq)-yt)2],

    (8)

    其中:

    yt=rt+1+γQ(st+1,π(st+1|θπ′)|θq′),

    (9)

    注意在yt中,動(dòng)作是由目標(biāo)行動(dòng)者網(wǎng)絡(luò)選擇的,狀態(tài)-動(dòng)作對(duì)的值是由目標(biāo)評(píng)論家網(wǎng)絡(luò)評(píng)估的.

    為解決探索問題,DDPG中使用的噪聲是通過奧恩斯坦-烏倫貝克(Ornstein-Uhlenbeck, OU)過程[25]生成的時(shí)間相關(guān)噪聲.這里使用參數(shù)φ和σ表示為

    nt←-nt-1φ+N(0,σI).

    (10)

    最終動(dòng)作為

    at=π(st|θπ)+nt.

    (11)

    目標(biāo)網(wǎng)絡(luò)使用了“soft”的更新方式

    θ′←τθ+(1-τ)θ′.

    (12)

    DDPG中使用的經(jīng)驗(yàn)重放機(jī)制要求算法在每個(gè)時(shí)間步將得到的經(jīng)驗(yàn)放入經(jīng)驗(yàn)池.在訓(xùn)練時(shí),算法從經(jīng)驗(yàn)池中隨機(jī)抽取批量經(jīng)驗(yàn)用于訓(xùn)練.

    2 算 法

    Fig. 2 An overview of EGDDAC-MA圖2 EGDDAC-MA結(jié)構(gòu)示意圖

    2.1 多行動(dòng)者-評(píng)論家模型

    一般來說AC方法中只會(huì)在同一個(gè)情節(jié)中使用一個(gè)行動(dòng)者網(wǎng)絡(luò)比如DDPG,或者是多個(gè)行動(dòng)者網(wǎng)絡(luò)分別并行執(zhí)行不同的情節(jié)比如像A3C,又或者像MAAC[26](multi-agent actor-critic)一樣通過多個(gè)agent之間合作學(xué)習(xí).而EGDDAC-MA中定義的多個(gè)行動(dòng)者網(wǎng)絡(luò),在情節(jié)之中不是并行的,也沒有交流與合作,而是在同一個(gè)情節(jié)中針對(duì)不同階段使用不同的行動(dòng)者網(wǎng)絡(luò).對(duì)于學(xué)習(xí)任務(wù),EGDDAC-MA將任務(wù)情節(jié)進(jìn)行階段劃分,每個(gè)階段配置單獨(dú)的行動(dòng)者網(wǎng)絡(luò)和經(jīng)驗(yàn)池.

    某些任務(wù)在情節(jié)的不同階段可能由于狀態(tài)空間和動(dòng)作空間之間的映射變化造成學(xué)習(xí)波動(dòng),對(duì)于單個(gè)行動(dòng)者網(wǎng)絡(luò)來說就會(huì)很難學(xué)習(xí)(3.4節(jié)部分進(jìn)行實(shí)驗(yàn)說明).而多個(gè)行動(dòng)者網(wǎng)絡(luò),它們?cè)诟髯运刂频碾A段學(xué)習(xí),互不干擾,在一定程度上緩解了學(xué)習(xí)的波動(dòng).此外,單個(gè)行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)率是固定,但是對(duì)于多個(gè)行動(dòng)者網(wǎng)絡(luò)來說,其每個(gè)階段的學(xué)習(xí)率是可以不同的.這樣實(shí)際上對(duì)于每一個(gè)情節(jié),EGDDAC-MA使用了多個(gè)策略進(jìn)行控制.

    模型中還有一個(gè)編碼過程,這個(gè)過程是嵌入到行動(dòng)者網(wǎng)絡(luò)中的.其輸入的是狀態(tài)st,輸出狀態(tài)信號(hào)sst,對(duì)于具有較高維度的狀態(tài)空間,sst的維度要比st的維度要低,sst會(huì)作為行動(dòng)者網(wǎng)絡(luò)和指導(dǎo)網(wǎng)絡(luò)的輸入.實(shí)際上在狀態(tài)空間中,有許多狀態(tài)是相似的,那么在進(jìn)行動(dòng)作選擇時(shí),它們的最優(yōu)動(dòng)作很可能是相同的.通過編碼過程的降維,將狀態(tài)空間映射到低維空間中,這樣就可以使得相似的狀態(tài)在一定程度上重合,減小了狀態(tài)空間的大小.并且優(yōu)秀的經(jīng)驗(yàn)會(huì)以元組(sst,at)的形式放入經(jīng)驗(yàn)池B′用于訓(xùn)練指導(dǎo)網(wǎng)絡(luò),從而加速G(ss|θg)的學(xué)習(xí).

    要注意的是,EGDDAC-MA中并沒有把狀態(tài)信號(hào)sst用于評(píng)論家網(wǎng)絡(luò),這是因?yàn)榫幋a層的參數(shù)在不斷更新,因此同一個(gè)狀態(tài)在編碼層中得到的狀態(tài)信號(hào)會(huì)不斷變化,這樣就不利于評(píng)論家網(wǎng)絡(luò)進(jìn)行評(píng)估.此外,評(píng)論家網(wǎng)絡(luò)也沒有創(chuàng)建多個(gè),因?yàn)樵u(píng)論家網(wǎng)絡(luò)在進(jìn)行網(wǎng)絡(luò)參數(shù)更新時(shí),使用了當(dāng)前狀態(tài)-動(dòng)作對(duì)的值函數(shù)Q(st,at|θq)作為預(yù)測(cè)值,使用后繼狀態(tài)來計(jì)算目標(biāo)值,然后通過反向傳播進(jìn)行參數(shù)更新.在預(yù)測(cè)值和目標(biāo)值的計(jì)算之中不僅使用了前一個(gè)狀態(tài),還使用了后一個(gè)狀態(tài),而樣本是從經(jīng)驗(yàn)池中隨機(jī)抽樣的,無法判斷樣本中后繼狀態(tài)是否屬于下一個(gè)階段,這樣在階段連接處的狀態(tài),用其來進(jìn)行訓(xùn)練時(shí)就不好計(jì)算評(píng)論家訓(xùn)練所需的目標(biāo)值,因此模型中就沒有使用多個(gè)評(píng)論家的結(jié)構(gòu).

    EGDDAC-MA在學(xué)習(xí)過程中,每個(gè)時(shí)間步,首先判斷該時(shí)間步屬于的階段,使用對(duì)應(yīng)階段的行動(dòng)者網(wǎng)絡(luò)來生成原始動(dòng)作.更新網(wǎng)絡(luò)參數(shù)時(shí),只有對(duì)應(yīng)的那一個(gè)行動(dòng)者網(wǎng)絡(luò)會(huì)被更新,并通過確定性策略梯度理論計(jì)算梯度:

    (13)

    EGDDAC-MA的目標(biāo)行動(dòng)者網(wǎng)絡(luò)的更新也是使用“soft”更新方式.其評(píng)論家網(wǎng)絡(luò)的更新由于受到指導(dǎo)網(wǎng)絡(luò)的影響,將在2.2節(jié)詳細(xì)介紹.

    2.2 基于經(jīng)驗(yàn)的指導(dǎo)

    連續(xù)動(dòng)作空間的一個(gè)挑戰(zhàn)是探索問題的解決.一般來說,離散動(dòng)作空間問題的探索是通過改變動(dòng)作的選擇概率來實(shí)現(xiàn)的.而連續(xù)動(dòng)作空間中由于動(dòng)作的連續(xù)性不方便為每個(gè)動(dòng)作分配相應(yīng)的概率,因此通過改變選擇概率來實(shí)現(xiàn)探索就不適用于連續(xù)動(dòng)作空間.由于動(dòng)作是連續(xù)變化的,因此可以通過直接改變動(dòng)作來實(shí)現(xiàn)探索,通常是直接在動(dòng)作空間中加上外部探索噪聲,比如DDPG中使用的OU噪聲.但是這種探索是盲目的,并不能有效地學(xué)習(xí)到優(yōu)秀經(jīng)驗(yàn).與DDPG使用外部噪聲不同,本文提出的EGDDAC-MA并不需要額外的噪聲源,而是通過自身優(yōu)秀經(jīng)驗(yàn)指導(dǎo)學(xué)習(xí).

    在DDPG算法的學(xué)習(xí)過程中,agent會(huì)遇到一些具有高回報(bào)的軌跡,這些軌跡中包含有許多有用的信息,但是這些信息并沒有被有效利用.因此,為了利用這些經(jīng)驗(yàn),EGDDAC-MA中定義了一個(gè)存儲(chǔ)優(yōu)秀經(jīng)驗(yàn)的經(jīng)驗(yàn)池B′.B′的大小是一定的,不同于普通經(jīng)驗(yàn)池的是,其存放經(jīng)驗(yàn)的過程是其本身的進(jìn)化過程.此外基于這個(gè)經(jīng)驗(yàn)池,定義了一個(gè)指導(dǎo)網(wǎng)絡(luò)G(ss|θg).

    對(duì)于普通的經(jīng)驗(yàn)池,在每個(gè)時(shí)間步,根據(jù)該時(shí)間步所屬的階段,經(jīng)驗(yàn)會(huì)以五元組(st,at,rt+1,st+1,sst+1)的形式放入相應(yīng)的經(jīng)驗(yàn)池中,這里的sst+1在式(19)中用于指導(dǎo)評(píng)論家更新.對(duì)于經(jīng)驗(yàn)池B′,并不是在每個(gè)時(shí)間步放入經(jīng)驗(yàn),而是在每個(gè)情節(jié)結(jié)束時(shí),先判斷該情節(jié)是否是優(yōu)秀的情節(jié),若是,則放入B′中,否則舍去.注意放入經(jīng)驗(yàn)時(shí),是以情節(jié)經(jīng)驗(yàn)[(ss0,a0),(ss1,a1),…,T]的形式放入的,T是情節(jié)結(jié)束標(biāo)志.每個(gè)情節(jié)是否優(yōu)秀是相對(duì)的,會(huì)隨著學(xué)習(xí)進(jìn)程而變化.其判斷標(biāo)準(zhǔn)如下:

    (14)

    其中:

    (15)

    表示已經(jīng)放入經(jīng)驗(yàn)池B′中的最近k個(gè)優(yōu)秀情節(jié)的回報(bào)均值,m表示第m個(gè)情節(jié),Gm表示其回報(bào).

    指導(dǎo)網(wǎng)絡(luò)G(ss|θg)是在B′上通過監(jiān)督學(xué)習(xí)而來的,其訓(xùn)練所用的損失函數(shù)為

    L(θg)=E[(G(sst|θg)-at)2].

    (16)

    指導(dǎo)網(wǎng)絡(luò)G(ss|θg)在進(jìn)化的經(jīng)驗(yàn)池B′上通過監(jiān)督學(xué)習(xí)學(xué)習(xí),這樣G(ss|θg)學(xué)習(xí)到的經(jīng)驗(yàn)也是不斷進(jìn)化的.并且經(jīng)驗(yàn)池B′中的經(jīng)驗(yàn)是比普通經(jīng)驗(yàn)池中的經(jīng)驗(yàn)更好的,而經(jīng)驗(yàn)網(wǎng)和行動(dòng)網(wǎng)事實(shí)上都是狀態(tài)到動(dòng)作的映射,因此在進(jìn)行動(dòng)作選擇時(shí),可以使用經(jīng)驗(yàn)網(wǎng)為動(dòng)作加上一個(gè)指導(dǎo)項(xiàng)

    (17)

    其中,ξ是干擾系數(shù),0<ξ?1.通過式(17),指導(dǎo)網(wǎng)絡(luò)會(huì)引導(dǎo)行動(dòng)者網(wǎng)絡(luò)向具有高回報(bào)的動(dòng)作方向進(jìn)行選擇.

    由梯度式(13)可知評(píng)論家網(wǎng)絡(luò)也影響著行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí).根據(jù)式(11),DDPG只在動(dòng)作空間中加入探索噪聲,而EGDDAC-MA中的指導(dǎo)網(wǎng)絡(luò)G(ss|θg)不僅指導(dǎo)動(dòng)作的選擇而且還對(duì)評(píng)論家網(wǎng)絡(luò)的更新進(jìn)行指導(dǎo).評(píng)論家網(wǎng)絡(luò)更新所使用的標(biāo)簽值式(9)的改寫為

    (18)

    qt+1=qt+1+ξ(Q(st+1,
    G(sst+1|θg)|θq′)-qt+1),

    (19)

    yt=rt+1+γqt+1φ,

    (20)

    其中,φ是情節(jié)是否結(jié)束的標(biāo)志,若情節(jié)結(jié)束則其值為0,否則為1.最終評(píng)論家網(wǎng)絡(luò)更新所使用的損失函數(shù)表示為

    (21)

    每次在進(jìn)行動(dòng)作選擇時(shí),指導(dǎo)網(wǎng)絡(luò)G(ss|θg)通過式(17)指導(dǎo)動(dòng)作的選擇,并且通過式(19)指導(dǎo)評(píng)論家網(wǎng)絡(luò)的學(xué)習(xí).由于經(jīng)驗(yàn)池B′中的經(jīng)驗(yàn)集合是普通經(jīng)驗(yàn)池中經(jīng)驗(yàn)集合的子集,所以當(dāng)行動(dòng)者網(wǎng)絡(luò)收斂時(shí),指導(dǎo)網(wǎng)絡(luò)也就自然收斂了.此時(shí),式(17)和式(19)中的指導(dǎo)也就不存在了.可以看出EGDDAC-MA與DDPG一樣都屬于異策略(off-policy)學(xué)習(xí),即學(xué)習(xí)的策略和執(zhí)行的策略是不一樣的.整個(gè)算法的過程如算法1所示.

    算法1.EGDDAC-MA.

    ② FOREPISODE=1,2,…,M

    ③ 情節(jié)回報(bào)G=0,空的情節(jié)軌跡Trace,獲取初始狀態(tài)s1;

    ④ FORt=1,2,…,T

    ⑤ 判斷情節(jié)所屬階段n;

    ⑦ 加入指導(dǎo):at=at+ξ(G(sst|θg)-at);

    ⑧ 執(zhí)行動(dòng)作at并獲取獎(jiǎng)賞rt+1和后繼狀態(tài)st+1;

    ⑨ 累積回報(bào):G=G+rt+1;

    ⑩ 通過行動(dòng)者網(wǎng)絡(luò)中的編碼層對(duì)st+1進(jìn)行處理,得到sst+1;

    更新評(píng)論家網(wǎng)絡(luò)參數(shù);

    3 實(shí) 驗(yàn)

    3.1 實(shí)驗(yàn)平臺(tái)及實(shí)驗(yàn)介紹

    本文采用了OpenAI GYM平臺(tái)[27]上Mujoco物理模擬器[28]中的6個(gè)連續(xù)性控制任務(wù)作為實(shí)驗(yàn)環(huán)境.GYM是開發(fā)和對(duì)比強(qiáng)化學(xué)習(xí)的一個(gè)開源工具包,其提供了各種連續(xù)控制性任務(wù)的環(huán)境接口,旨在促進(jìn)機(jī)器人、生物力學(xué)、圖形和動(dòng)畫以及其他需要快速精確仿真的領(lǐng)域的研究和開發(fā),為人工智能研究者提供了豐富的模擬實(shí)驗(yàn)環(huán)境.此外,為了進(jìn)一步說明算法的適用性,本文還額外增加了2個(gè)PyBullet連續(xù)任務(wù).PyBullet強(qiáng)化學(xué)習(xí)環(huán)境也是基于GYM平臺(tái)的,使用的是Bullet物理模擬器.整體來說PyBullet強(qiáng)化學(xué)習(xí)環(huán)境要比Mujoco環(huán)境更難.

    本文使用的6個(gè)Mujoco連續(xù)任務(wù)包括:

    1) Ant.使3D四足螞蟻形態(tài)機(jī)器人學(xué)會(huì)快速向前行走,如圖3所示;

    2) HumanoidStandup.使3D人形態(tài)機(jī)器人學(xué)會(huì)快速站立;

    3) Humanoid.使3D人形態(tài)機(jī)器人學(xué)會(huì)行走;

    4) HalfCheetah.使2D-獵豹形態(tài)機(jī)器人學(xué)會(huì)快速奔跑;

    5) InvertedDoublePendulum.平衡具有2個(gè)關(guān)節(jié)的平衡桿;

    6) Reacher.使2D手臂形態(tài)機(jī)器人伸向指定位置.

    Fig. 3 Ant圖3 四足螞蟻形態(tài)機(jī)器人

    使用的2個(gè)PyBullet連續(xù)任務(wù)包括:

    1) AntBullet.是類似于Mujoco中Ant的連續(xù)任務(wù),只是加重了Ant的重量,來鼓勵(lì)其行走過程中以更多條腿接觸地面;

    2) Walker2DBullet.任務(wù)是使雙足機(jī)器人學(xué)會(huì)行走,產(chǎn)生更加逼真的慢節(jié)奏動(dòng)作,如圖4所示:

    Fig. 4 Walker2DBullet圖4 Bullet中的2D行走任務(wù)

    本文首先說明優(yōu)秀經(jīng)驗(yàn)篩選方法的效果,以及基于經(jīng)驗(yàn)的指導(dǎo)機(jī)制和多行動(dòng)者機(jī)制的效果,然后對(duì)比了EGDDAC-MA,DDPG,TRPO和PPO這4種算法的性能,最后研究使用專家經(jīng)驗(yàn)取代自身優(yōu)秀經(jīng)驗(yàn)對(duì)EGDDAC-MA的影響.本文實(shí)驗(yàn)使用Intel?Xeon?CPU E5-2680處理器,使用NVIDIA Tesla P40圖形處理器對(duì)深度學(xué)習(xí)運(yùn)算進(jìn)行輔助加速計(jì)算.

    3.2 參數(shù)設(shè)置

    本文實(shí)驗(yàn)中所使用的DDPG算法其網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置與參考文獻(xiàn)中設(shè)置一樣,TRPO和PPO算法來自是OpenAI baselines[29]的深度強(qiáng)化學(xué)習(xí)算法集.在EGDDAC-MA中,其使用的評(píng)論家網(wǎng)絡(luò)與DDPG算法中的評(píng)論家網(wǎng)絡(luò)設(shè)置一樣.EGDDAC-MA的每一個(gè)編碼層包含2層,第1層有300個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),第2層有100個(gè)網(wǎng)絡(luò)節(jié)點(diǎn).每個(gè)行動(dòng)者網(wǎng)絡(luò)包含2層,第1層有200個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),第2層有100個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn).EGDDAC-MA的指導(dǎo)網(wǎng)絡(luò)也包含2層,第1層200個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn),第2層有100個(gè)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn).EGDDAC-MA的每一個(gè)普通經(jīng)驗(yàn)池容量是300 000,而經(jīng)驗(yàn)池B′的容量是100 000,是普通經(jīng)驗(yàn)池1/3.干擾系數(shù)ξ=1×10-5,mini-bach的大小是64,τ=0.001,學(xué)習(xí)率γ=0.99,k=50.評(píng)論家網(wǎng)絡(luò)的學(xué)習(xí)率是1×10-3,指導(dǎo)網(wǎng)絡(luò)的學(xué)習(xí)率是0.000 2,行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí)率是1×10-5.每個(gè)Mujoco環(huán)境下每個(gè)算法訓(xùn)練的總時(shí)間步數(shù)是250萬步,除了Reacher中是100萬步,這是因?yàn)镽eacher在100萬步內(nèi)可以學(xué)習(xí)到一個(gè)穩(wěn)定的策略.此外,2個(gè)PyBullet環(huán)境下每個(gè)算法訓(xùn)練的總時(shí)間步數(shù)是400萬步.由于實(shí)驗(yàn)中使用了多個(gè)不同環(huán)境,為了統(tǒng)一參數(shù),EGDDAC-MA都是以60個(gè)時(shí)間步作為一個(gè)階段來設(shè)置的.每個(gè)情節(jié)的最長(zhǎng)時(shí)間步設(shè)置為1 000.

    3.3 優(yōu)秀經(jīng)驗(yàn)篩選方法的效果

    為了說明通過式(14)和式(15)的篩選,經(jīng)驗(yàn)池B′中的經(jīng)驗(yàn)在變好,這里通過均值μ=1,方差σ2分別為0.1,1,5,10,20的正態(tài)分布來做一個(gè)模擬實(shí)驗(yàn).實(shí)驗(yàn)中會(huì)定義一個(gè)經(jīng)驗(yàn)池B′,每個(gè)情節(jié)只是正態(tài)分布生成的一個(gè)隨機(jī)變量,然后使用這個(gè)隨機(jī)變量作為該情節(jié)的回報(bào),同時(shí)情節(jié)經(jīng)驗(yàn)也用這個(gè)隨機(jī)變量表示,在B′存放經(jīng)驗(yàn)時(shí),就使用式(14)和式(15)來判斷情節(jié)是否優(yōu)秀,若優(yōu)秀則將該情節(jié)經(jīng)驗(yàn)也就是對(duì)應(yīng)的隨機(jī)變量(也表示情節(jié)回報(bào))放入B′.模擬中k取的10,經(jīng)驗(yàn)池容量為100,情節(jié)總數(shù)為100 000,模擬結(jié)果如圖5所示.第1幅圖顯示的是放入經(jīng)驗(yàn)池中的最近k個(gè)情節(jié)的平均回報(bào)隨時(shí)間步數(shù)的變化.第2幅圖顯示的是放入經(jīng)驗(yàn)池中的所有情節(jié)的平均回報(bào)隨時(shí)間步數(shù)的變化.從圖5可以看出,雖然均值是1,但是通過使用式(14)和式(15)對(duì)優(yōu)秀經(jīng)驗(yàn)進(jìn)行判定,無論方差多大,最近k個(gè)情節(jié)的均值,和整個(gè)經(jīng)驗(yàn)池的均值都是向著大于1的方向進(jìn)化的,這說明經(jīng)驗(yàn)池中的經(jīng)驗(yàn)整體上在變得越來越好.

    Fig. 5 The results of normal distribution simulating episodic return 圖5 正態(tài)分布模擬情節(jié)回報(bào)值的結(jié)果

    3.4 基于經(jīng)驗(yàn)的指導(dǎo)和多行動(dòng)者機(jī)制的優(yōu)勢(shì)

    為了說明基于經(jīng)驗(yàn)的指導(dǎo)和多行動(dòng)者機(jī)制的優(yōu)勢(shì),本文在InvertedDoublePendulum任務(wù)上對(duì)比了EGDDAC-MA,EGDDAC-One actor和DDPG的性能.首先為了說明基于經(jīng)驗(yàn)指導(dǎo)的方法優(yōu)于外部噪聲探索,這里對(duì)比只使用一個(gè)行動(dòng)者網(wǎng)絡(luò)的EGDDAC-One actor和使用外部OU噪聲探索的DDPG.對(duì)比結(jié)果如圖6所示,圖6中橫坐標(biāo)為訓(xùn)練時(shí)間步,縱坐標(biāo)為平均回報(bào).

    Fig. 6 The average return in InvertedDoublePendulum圖6 在Inverte-dDoublePendulum中的平均回報(bào)對(duì)比

    可以看見DDPG在整個(gè)訓(xùn)練過程中,平均回報(bào)處于較低值,而且沒有上升趨勢(shì),這說明基于外部OU噪聲的探索,并沒有探索到好的經(jīng)驗(yàn)供agent學(xué)習(xí).但EGDDAC-One actor可以獲得更高的平均回報(bào),即使整個(gè)訓(xùn)練過程中波動(dòng)很大.這是因?yàn)榛诮?jīng)驗(yàn)的指導(dǎo)機(jī)制可以引導(dǎo)agent傾向選擇具有高回報(bào)軌跡,而外部的OU噪聲探索是沒有方向性的盲目探索.

    為了緩解圖6中出現(xiàn)的波動(dòng),我們?cè)诨诮?jīng)驗(yàn)的指導(dǎo)的基礎(chǔ)上加上多行動(dòng)者機(jī)制,如圖6所示.這里對(duì)比EGDDAC-MA和EGDDAC-One actor 在InvertedDoublePendulum中的學(xué)習(xí)表現(xiàn).可以看出EGDDAC-MA沒有出現(xiàn)像EGDDAC-One actor中的劇烈波動(dòng),而是在一定程度波動(dòng)內(nèi)穩(wěn)步上升.這說明多行動(dòng)者機(jī)制可以緩解單個(gè)網(wǎng)絡(luò)學(xué)習(xí)壓力.而且可以看到經(jīng)過200萬步后網(wǎng)絡(luò)學(xué)習(xí)的波動(dòng)被控制在一定范圍之內(nèi).

    3.5 對(duì)比不同算法的性能

    本文在Mujoco的6個(gè)連續(xù)任務(wù)和PyBullet 的2個(gè)連續(xù)任務(wù)中對(duì)比了EGDDAC-MA,DDPG,TRPO和PPO這4種算法的性能.其中TRPO和PPO也都是基于AC方法的改進(jìn),與DDPG和EGDDAC-MA不同的是,TRPO和PPO兩者都使用高斯策略實(shí)現(xiàn)探索,并且沒有使用經(jīng)驗(yàn)回放,而是在線進(jìn)行更新.實(shí)驗(yàn)結(jié)果如圖7所示.

    在Ant環(huán)境中,DDPG整體上呈現(xiàn)先上升后下降的學(xué)習(xí)趨勢(shì).TRPO和PPO的平均回報(bào)雖然隨著學(xué)習(xí)的進(jìn)行會(huì)有增長(zhǎng)趨勢(shì),但是兩者最終的平均回報(bào)值都維持在一個(gè)較低值.而EGDDAC-MA 的表現(xiàn)比其他3種算法都好,最終平均回報(bào)值維持在4 000左右.此外在HalfCheetah,HumanoidStandup和Reacher中,EGDDAC-MA也是明顯優(yōu)于其他方法.這是因?yàn)镈DPG以及TRPO和PPO算法的探索是盲目的,而基于優(yōu)秀經(jīng)驗(yàn)的指導(dǎo)機(jī)制,會(huì)引導(dǎo)agent去選擇具有高回報(bào)的軌跡,因此EGDDAC-MA會(huì)表現(xiàn)的更好.在Humanoid中,EGDDAC-MA前期表現(xiàn)不如TRPO和PPO,可能是因?yàn)門RPO和PPO這類方法直接是在線學(xué)習(xí)的不需要經(jīng)驗(yàn)累積,而EGDDAC-MA的經(jīng)驗(yàn)池B′中的優(yōu)秀經(jīng)驗(yàn)需要經(jīng)歷一定的時(shí)間步去收集,這個(gè)問題在Inverted-DoublePendulum中也可以看到.但是EGDDAC-MA最終在Humanoid和 InvertedDoubleP-endulum兩個(gè)環(huán)境中都超過TRPO和PPO.

    從圖7的實(shí)驗(yàn)結(jié)果可以看出:EGDDAC-MA的性能很大程度上取決于經(jīng)驗(yàn)池B′中經(jīng)驗(yàn)的優(yōu)秀程度,因此下一個(gè)實(shí)驗(yàn)我們將展現(xiàn)使用專家經(jīng)驗(yàn)取代自身優(yōu)秀經(jīng)驗(yàn)后,EGDDAC-MA的學(xué)習(xí)效果.

    Fig. 7 The average returns of four approaches in eight continues control tasks圖7 4種方法在8個(gè)不同連續(xù)任務(wù)中的平均回報(bào)

    3.6 使用專家經(jīng)驗(yàn)的EGDDAC-MA

    相比基于自身優(yōu)秀經(jīng)驗(yàn)的EGDDAC-MA,基于專家經(jīng)驗(yàn)的EGDDAC-MA其指導(dǎo)網(wǎng)絡(luò)的輸入不再是狀態(tài)信號(hào)而是狀態(tài),而且B′中直接裝入的是預(yù)先訓(xùn)練得到的專家經(jīng)驗(yàn).

    整個(gè)實(shí)驗(yàn)是在InvertedDoublePendulum環(huán)境中進(jìn)行的,探索了不同干擾因子下,基于專家經(jīng)驗(yàn)的EGDDAC-MA的學(xué)習(xí)效果.實(shí)驗(yàn)結(jié)果如圖8所示,圖8中的前5幅圖片,分別是在ξ=0.9,0.7,0.5,0.3,0.1下,基于專家經(jīng)驗(yàn)的EGDDAC-MA的行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí)表現(xiàn).要注意的是,為了體現(xiàn)行動(dòng)者網(wǎng)絡(luò)的學(xué)習(xí)效果,圖8中的每一個(gè)綠點(diǎn)都表示沒有指導(dǎo)網(wǎng)絡(luò)的指導(dǎo)時(shí),只使用行動(dòng)者網(wǎng)絡(luò)來生成的情節(jié)回報(bào).也就是在1 000 000時(shí)間步的訓(xùn)練過程中,每隔500時(shí)間步就會(huì)單獨(dú)使用行動(dòng)者網(wǎng)絡(luò)來生成一個(gè)情節(jié),因此每一個(gè)ξ下,都有2 000個(gè)綠點(diǎn).圖8中紅線表示專家水平.圖8中最后一幅圖片對(duì)比訓(xùn)練過程中不同ξ下的只使用行動(dòng)者網(wǎng)絡(luò)生成的平均情節(jié)回報(bào)隨時(shí)間步數(shù)的變化.

    從圖8可以看出,在ξ=0.9時(shí),行動(dòng)者網(wǎng)絡(luò)的情節(jié)回報(bào)雖然有向上趨勢(shì),但是最終基本上維持在一個(gè)較低值.在ξ=0.7時(shí),情節(jié)回報(bào)的向上趨勢(shì)更加明顯,但大部分回報(bào)值都很低.在ξ=0.5時(shí),可以看見200 000時(shí)間步后,行動(dòng)者網(wǎng)絡(luò)很快學(xué)到一個(gè)不錯(cuò)策略,情節(jié)回報(bào)值基本上達(dá)到專家水平,只有少數(shù)情節(jié)回報(bào)值較低.在ξ為0.1和0.3時(shí),隨著ξ值的降低,情節(jié)回報(bào)值上升趨勢(shì)會(huì)下降,而且大多數(shù)情節(jié)回報(bào)值在專家水平之下.

    Fig. 8 The effect of using expert experiences圖8 使用專家經(jīng)驗(yàn)的效果

    整體上來看,在ξ=0.5時(shí),在基于專家經(jīng)驗(yàn)的指導(dǎo)下,行動(dòng)者網(wǎng)絡(luò)可以快速學(xué)習(xí)到一個(gè)不錯(cuò)的策略,而在ξ高于0.5或低于0.5時(shí),行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的并不好.出現(xiàn)這種現(xiàn)象的原因是,若ξ值過高,高于0.5,此時(shí)行動(dòng)的選擇,主要取決于指導(dǎo)網(wǎng)絡(luò),而行動(dòng)者網(wǎng)絡(luò)對(duì)行動(dòng)決策貢獻(xiàn)較小,這樣得到的經(jīng)驗(yàn)是不利于行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的.若ξ值過低,低于0.5,此時(shí)行動(dòng)的選擇,主要取決于行動(dòng)者網(wǎng)絡(luò)自身,指導(dǎo)網(wǎng)絡(luò)對(duì)行動(dòng)決策貢獻(xiàn)較小,而行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的方向并不一定是專家策略的方向,這樣行動(dòng)者網(wǎng)絡(luò)的決策與指導(dǎo)網(wǎng)絡(luò)的決策就可能出現(xiàn)沖突,而且指導(dǎo)網(wǎng)絡(luò)同樣會(huì)影響評(píng)論家網(wǎng)絡(luò)的學(xué)習(xí),因此也不利于行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí).只有ξ=0.5時(shí),行動(dòng)的決策受行動(dòng)者網(wǎng)絡(luò)和指導(dǎo)網(wǎng)絡(luò)均等程度上的控制,評(píng)論家的學(xué)習(xí)也是這樣,從而行動(dòng)者網(wǎng)絡(luò)可以快速的學(xué)習(xí)一個(gè)不錯(cuò)的策略.與基于專家經(jīng)驗(yàn)的EGDDAC-MA在ξ=0.5時(shí)表現(xiàn)最好不同,基于自身優(yōu)秀經(jīng)驗(yàn)的EGDDAC-MA的ξ一定要是一個(gè)較小的值.這是因?yàn)橹笇?dǎo)網(wǎng)絡(luò)所使用的經(jīng)驗(yàn)是自身優(yōu)秀經(jīng)驗(yàn),是行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)所使用的自身經(jīng)驗(yàn)的子集,從而指導(dǎo)網(wǎng)絡(luò)和行動(dòng)者網(wǎng)絡(luò)學(xué)習(xí)的策略的方向是一致的.因此,在選擇動(dòng)作和更新評(píng)論家網(wǎng)絡(luò)時(shí),指導(dǎo)網(wǎng)絡(luò)只需要做一個(gè)微弱的指導(dǎo)就可以.

    4 結(jié)束語

    連續(xù)控制問題一直是強(qiáng)化學(xué)習(xí)研究的一個(gè)重要方向.確定性策略梯度方法和深度學(xué)習(xí)結(jié)合可以在一定程度上解決這類問題.但是這類方法在一些連續(xù)任務(wù)中的表現(xiàn)并不是很好,這很大程度上是由于探索不當(dāng)造成的.本文提出了一種不需要外部探索噪聲的基于經(jīng)驗(yàn)指導(dǎo)的深度確定性多行動(dòng)者-評(píng)論家算法(EGDDAC-MA).

    EGDDAC-MA中通過定義多個(gè)行動(dòng)者網(wǎng)絡(luò)來應(yīng)對(duì)情節(jié)的不同階段,這樣可以緩解情節(jié)內(nèi)部波動(dòng)對(duì)單個(gè)網(wǎng)絡(luò)學(xué)習(xí)造成的壓力,并通過在自身優(yōu)秀經(jīng)驗(yàn)上學(xué)習(xí)得來的指導(dǎo)網(wǎng)絡(luò)為動(dòng)作執(zhí)行以及評(píng)論家網(wǎng)絡(luò)更新提供指導(dǎo).此外本文不僅使用自身優(yōu)秀經(jīng)驗(yàn)來訓(xùn)練指導(dǎo)網(wǎng)絡(luò),也嘗試了使用專家經(jīng)驗(yàn)來訓(xùn)練,并且發(fā)現(xiàn)使用專家經(jīng)驗(yàn),在ξ=0.5時(shí)EGDDAC-MA可以更快的學(xué)到一個(gè)不錯(cuò)的策略.最終,Mujoco上的模擬實(shí)驗(yàn)結(jié)果顯示:相比于DDPG,TRPO和PPO,EGDDAC-MA在大多數(shù)連續(xù)控制任務(wù)上均取得更好的效果.

    實(shí)際上,本文采用的是簡(jiǎn)單的階段劃分方法,也取得了不錯(cuò)的效果,未來的一些工作可以使用無監(jiān)督方法來對(duì)情節(jié)進(jìn)行自適應(yīng)的階段劃分來提高階段劃分的有效性.

    猜你喜歡
    評(píng)論家行動(dòng)者梯度
    與異質(zhì)性行動(dòng)者共生演進(jìn):基于行動(dòng)者網(wǎng)絡(luò)理論的政策執(zhí)行研究新路徑
    音樂評(píng)論家的“內(nèi)功”修煉——論八項(xiàng)追求
    一個(gè)改進(jìn)的WYL型三項(xiàng)共軛梯度法
    著名詩人、評(píng)論家
    鴨綠江(2021年29期)2021-02-28 05:44:26
    著名詩人、評(píng)論家 吳思敬
    鴨綠江(2020年29期)2020-11-15 07:05:52
    一種自適應(yīng)Dai-Liao共軛梯度法
    評(píng)論家楊占平
    火花(2019年8期)2019-08-28 08:45:06
    一類扭積形式的梯度近Ricci孤立子
    敬仰中國(guó)大地上的綠色行動(dòng)者
    網(wǎng)絡(luò)行動(dòng)者的新媒體使用特征、影響及媒介民主化
    新聞傳播(2015年3期)2015-07-12 12:22:28
    中文字幕免费在线视频6| av天堂在线播放| 国产探花极品一区二区| 精品久久久久久久久久免费视频| 一级av片app| 国产日本99.免费观看| 国产淫片久久久久久久久 | 一进一出抽搐动态| 午夜免费激情av| 制服丝袜大香蕉在线| 麻豆国产97在线/欧美| 国产欧美日韩一区二区三| 美女免费视频网站| 日本五十路高清| 国产高潮美女av| 国产一级毛片七仙女欲春2| 搡老熟女国产l中国老女人| 亚洲av中文字字幕乱码综合| 九色国产91popny在线| 在线看三级毛片| 午夜精品久久久久久毛片777| 亚洲五月天丁香| 最近中文字幕高清免费大全6 | 欧美日韩黄片免| 久久精品91蜜桃| 国产亚洲精品久久久久久毛片| 国产探花极品一区二区| 亚洲,欧美,日韩| 人人妻人人看人人澡| 日日夜夜操网爽| 亚洲不卡免费看| 亚洲成av人片免费观看| 国产av不卡久久| 午夜福利欧美成人| 18禁黄网站禁片免费观看直播| 日韩欧美精品v在线| 亚洲真实伦在线观看| 国产精品一区二区性色av| 午夜福利在线在线| 每晚都被弄得嗷嗷叫到高潮| 国产视频一区二区在线看| 欧美最新免费一区二区三区 | 日韩欧美国产一区二区入口| 亚洲人成网站在线播放欧美日韩| 国产亚洲精品av在线| 亚洲无线观看免费| 成人永久免费在线观看视频| 熟妇人妻久久中文字幕3abv| 日韩欧美在线乱码| 在线播放无遮挡| 国产熟女xx| 亚洲午夜理论影院| 中文字幕高清在线视频| 免费一级毛片在线播放高清视频| 精品久久久久久久久久免费视频| 观看免费一级毛片| 国产大屁股一区二区在线视频| 精品久久久久久成人av| 色尼玛亚洲综合影院| 日韩欧美在线二视频| 蜜桃久久精品国产亚洲av| 日本三级黄在线观看| 丰满人妻熟妇乱又伦精品不卡| 国产精品永久免费网站| 国产久久久一区二区三区| www.熟女人妻精品国产| 国产aⅴ精品一区二区三区波| 色尼玛亚洲综合影院| 国产高清三级在线| 最近最新中文字幕大全电影3| 国内久久婷婷六月综合欲色啪| 高清在线国产一区| 中文字幕人妻熟人妻熟丝袜美| 直男gayav资源| 精品久久久久久久久久久久久| 精品久久久久久久久久久久久| 十八禁国产超污无遮挡网站| 中文在线观看免费www的网站| 天堂影院成人在线观看| 可以在线观看的亚洲视频| 桃红色精品国产亚洲av| 久久九九热精品免费| 最近在线观看免费完整版| 欧美黄色淫秽网站| 精品日产1卡2卡| 欧洲精品卡2卡3卡4卡5卡区| 亚洲天堂国产精品一区在线| 高潮久久久久久久久久久不卡| 国产欧美日韩精品一区二区| 91九色精品人成在线观看| 熟妇人妻久久中文字幕3abv| h日本视频在线播放| 久久国产精品影院| 亚洲中文字幕日韩| 不卡一级毛片| 亚洲专区中文字幕在线| 国产午夜精品久久久久久一区二区三区 | 高潮久久久久久久久久久不卡| 真实男女啪啪啪动态图| 午夜精品一区二区三区免费看| 人妻丰满熟妇av一区二区三区| a级一级毛片免费在线观看| 国产亚洲精品综合一区在线观看| 91在线观看av| 国产精品99久久久久久久久| 欧美日韩瑟瑟在线播放| .国产精品久久| 欧美三级亚洲精品| 神马国产精品三级电影在线观看| 国产真实伦视频高清在线观看 | 国产精品久久久久久亚洲av鲁大| 亚洲乱码一区二区免费版| 国产不卡一卡二| 免费电影在线观看免费观看| 有码 亚洲区| 日本免费a在线| 久久久久久久精品吃奶| 99riav亚洲国产免费| 国产美女午夜福利| 成人鲁丝片一二三区免费| 日韩欧美在线二视频| 免费黄网站久久成人精品 | 亚洲精品日韩av片在线观看| 婷婷六月久久综合丁香| 久久久久久久久久黄片| 噜噜噜噜噜久久久久久91| 久久久久久国产a免费观看| 亚洲狠狠婷婷综合久久图片| 狠狠狠狠99中文字幕| 高清毛片免费观看视频网站| 一进一出抽搐动态| 老司机福利观看| 久久精品国产亚洲av天美| 成人美女网站在线观看视频| 99热精品在线国产| 天天一区二区日本电影三级| 免费av不卡在线播放| 亚洲一区二区三区色噜噜| av中文乱码字幕在线| 国内揄拍国产精品人妻在线| 婷婷六月久久综合丁香| 天堂√8在线中文| 国产精品自产拍在线观看55亚洲| av视频在线观看入口| 男人和女人高潮做爰伦理| 桃色一区二区三区在线观看| 国产久久久一区二区三区| 欧美一级a爱片免费观看看| 免费av观看视频| 在线观看免费视频日本深夜| 女同久久另类99精品国产91| 变态另类成人亚洲欧美熟女| 麻豆久久精品国产亚洲av| 在线观看av片永久免费下载| 91av网一区二区| 精品乱码久久久久久99久播| 国产精品自产拍在线观看55亚洲| 国产精品久久久久久人妻精品电影| 18禁裸乳无遮挡免费网站照片| 在线免费观看不下载黄p国产 | 老司机福利观看| 国产精品永久免费网站| 国产精品电影一区二区三区| 国产精品1区2区在线观看.| 91久久精品电影网| 亚洲国产精品999在线| 在线免费观看的www视频| 舔av片在线| 中国美女看黄片| 精品熟女少妇八av免费久了| 91麻豆av在线| 亚洲在线自拍视频| 91在线观看av| av天堂中文字幕网| 免费在线观看影片大全网站| 亚洲美女黄片视频| www.色视频.com| 十八禁网站免费在线| 一个人免费在线观看电影| 成年人黄色毛片网站| 美女高潮的动态| 国产精品一区二区免费欧美| 丁香六月欧美| 淫妇啪啪啪对白视频| netflix在线观看网站| 久久精品91蜜桃| 最新中文字幕久久久久| 色哟哟·www| 免费搜索国产男女视频| 亚洲国产色片| 免费黄网站久久成人精品 | 国产成年人精品一区二区| 免费大片18禁| 亚洲欧美清纯卡通| 如何舔出高潮| 免费在线观看日本一区| 白带黄色成豆腐渣| 亚洲精品亚洲一区二区| 黄色女人牲交| 偷拍熟女少妇极品色| 俺也久久电影网| 欧美中文日本在线观看视频| 久久久精品大字幕| 激情在线观看视频在线高清| 亚洲 欧美 日韩 在线 免费| 国产野战对白在线观看| 婷婷六月久久综合丁香| av在线天堂中文字幕| 欧美色视频一区免费| 国产久久久一区二区三区| 国产午夜精品论理片| 日韩欧美 国产精品| 最新中文字幕久久久久| 俄罗斯特黄特色一大片| 最近在线观看免费完整版| 亚洲国产精品久久男人天堂| 久久久久久久久久成人| 欧美一区二区精品小视频在线| 久久亚洲精品不卡| 亚洲av日韩精品久久久久久密| 久久久久国内视频| 色av中文字幕| 中文资源天堂在线| 亚洲成人久久性| 色吧在线观看| 51午夜福利影视在线观看| 亚洲人与动物交配视频| 国产av一区在线观看免费| 欧美激情国产日韩精品一区| 免费在线观看影片大全网站| 在线观看一区二区三区| 国产一区二区三区在线臀色熟女| 亚洲最大成人手机在线| 欧美极品一区二区三区四区| 小蜜桃在线观看免费完整版高清| h日本视频在线播放| 久久国产乱子伦精品免费另类| 国产黄a三级三级三级人| 国产精品久久视频播放| 男人狂女人下面高潮的视频| 亚洲在线自拍视频| 久久香蕉精品热| 五月伊人婷婷丁香| 美女xxoo啪啪120秒动态图 | 欧美日韩综合久久久久久 | 波多野结衣巨乳人妻| 色哟哟哟哟哟哟| 久久久成人免费电影| 亚洲最大成人av| 精品熟女少妇八av免费久了| 国产在线精品亚洲第一网站| 波野结衣二区三区在线| 亚洲美女黄片视频| 色哟哟·www| 日本一二三区视频观看| www.熟女人妻精品国产| 国产毛片a区久久久久| 村上凉子中文字幕在线| 精品久久国产蜜桃| 亚洲成av人片免费观看| www.熟女人妻精品国产| 亚洲国产精品合色在线| 亚洲国产精品999在线| 超碰av人人做人人爽久久| 午夜激情福利司机影院| 欧美最黄视频在线播放免费| 日韩中文字幕欧美一区二区| 亚洲片人在线观看| 18禁在线播放成人免费| 精品人妻熟女av久视频| 亚洲av成人精品一区久久| 亚洲中文字幕日韩| 国产精品av视频在线免费观看| 制服丝袜大香蕉在线| 日本撒尿小便嘘嘘汇集6| 免费观看精品视频网站| 亚洲中文字幕一区二区三区有码在线看| 日韩欧美一区二区三区在线观看| а√天堂www在线а√下载| 国产成人欧美在线观看| 国产亚洲精品综合一区在线观看| 成人av一区二区三区在线看| 精品久久久久久久久av| 免费观看的影片在线观看| 亚洲不卡免费看| 黄色日韩在线| 婷婷六月久久综合丁香| 啪啪无遮挡十八禁网站| 一卡2卡三卡四卡精品乱码亚洲| 亚洲va日本ⅴa欧美va伊人久久| 国产午夜精品久久久久久一区二区三区 | 波多野结衣高清作品| 午夜精品在线福利| 国产色爽女视频免费观看| 夜夜看夜夜爽夜夜摸| 日韩欧美三级三区| 亚洲欧美清纯卡通| 久久久精品大字幕| 老熟妇仑乱视频hdxx| 亚洲18禁久久av| 亚洲人成网站在线播放欧美日韩| 午夜福利在线在线| 少妇的逼好多水| 国产亚洲精品久久久com| 级片在线观看| 久久国产精品影院| 黄色女人牲交| 中亚洲国语对白在线视频| 欧美高清性xxxxhd video| 少妇高潮的动态图| 男女下面进入的视频免费午夜| 男女之事视频高清在线观看| 国产精品久久久久久久久免 | 日韩欧美 国产精品| 国产三级黄色录像| 在线看三级毛片| 亚洲午夜理论影院| 2021天堂中文幕一二区在线观| 黄色视频,在线免费观看| 两人在一起打扑克的视频| 一本综合久久免费| 精品人妻视频免费看| 国内毛片毛片毛片毛片毛片| 国产成人av教育| 韩国av一区二区三区四区| 日本与韩国留学比较| 男女之事视频高清在线观看| 中出人妻视频一区二区| 亚洲av五月六月丁香网| 久久精品久久久久久噜噜老黄 | 黄色日韩在线| 精品乱码久久久久久99久播| 日韩高清综合在线| 99热这里只有是精品50| av在线蜜桃| 亚洲av日韩精品久久久久久密| 很黄的视频免费| 91在线观看av| 日韩成人在线观看一区二区三区| 亚洲七黄色美女视频| 校园春色视频在线观看| 一级黄色大片毛片| 亚洲精品色激情综合| 久99久视频精品免费| 国产精品不卡视频一区二区 | 最近在线观看免费完整版| 国产伦精品一区二区三区四那| 亚洲 国产 在线| 天美传媒精品一区二区| 欧美高清性xxxxhd video| 久久香蕉精品热| 一二三四社区在线视频社区8| 成人性生交大片免费视频hd| 中文字幕高清在线视频| 精品人妻偷拍中文字幕| 成年女人永久免费观看视频| 美女高潮的动态| 伦理电影大哥的女人| 亚洲av美国av| 国产成人aa在线观看| 欧美日本视频| 国内揄拍国产精品人妻在线| 嫁个100分男人电影在线观看| 国产精品野战在线观看| 亚洲真实伦在线观看| 一个人免费在线观看电影| 国产精品久久电影中文字幕| 国产精品98久久久久久宅男小说| 亚洲,欧美精品.| 别揉我奶头~嗯~啊~动态视频| 搡老熟女国产l中国老女人| 久久精品国产自在天天线| 嫁个100分男人电影在线观看| a级一级毛片免费在线观看| 欧美日本亚洲视频在线播放| 久久久久久久精品吃奶| 国产又黄又爽又无遮挡在线| 精品一区二区三区视频在线观看免费| 国产国拍精品亚洲av在线观看| 可以在线观看的亚洲视频| 特级一级黄色大片| 九九久久精品国产亚洲av麻豆| 高清毛片免费观看视频网站| 免费观看精品视频网站| 日韩欧美国产一区二区入口| av在线天堂中文字幕| 一卡2卡三卡四卡精品乱码亚洲| 在线观看免费视频日本深夜| 亚洲精品粉嫩美女一区| 国产中年淑女户外野战色| 国产熟女xx| 久久这里只有精品中国| 亚洲av免费高清在线观看| 丁香六月欧美| 亚洲成人中文字幕在线播放| 老鸭窝网址在线观看| 成人一区二区视频在线观看| 色在线成人网| 嫩草影院入口| 免费人成在线观看视频色| 精品久久久久久,| 中国美女看黄片| 窝窝影院91人妻| 久久人人精品亚洲av| 日本 欧美在线| 麻豆一二三区av精品| 午夜福利18| 亚洲黑人精品在线| 淫妇啪啪啪对白视频| 日本五十路高清| www.www免费av| 午夜免费男女啪啪视频观看 | 亚洲第一欧美日韩一区二区三区| 变态另类成人亚洲欧美熟女| 哪里可以看免费的av片| 欧美中文日本在线观看视频| 久久香蕉精品热| 露出奶头的视频| 欧美极品一区二区三区四区| 亚洲电影在线观看av| av在线天堂中文字幕| 国产又黄又爽又无遮挡在线| 国产三级中文精品| 99国产精品一区二区蜜桃av| 窝窝影院91人妻| 亚洲成人中文字幕在线播放| 亚洲欧美清纯卡通| 欧美日本视频| 亚洲美女视频黄频| 国产欧美日韩一区二区精品| 国产探花极品一区二区| 欧美黑人欧美精品刺激| 亚洲一区高清亚洲精品| 中文亚洲av片在线观看爽| 国产精品精品国产色婷婷| 国产色爽女视频免费观看| 国产野战对白在线观看| 一本久久中文字幕| 麻豆久久精品国产亚洲av| 欧美成人性av电影在线观看| 人妻丰满熟妇av一区二区三区| 无遮挡黄片免费观看| 午夜精品在线福利| 国产探花极品一区二区| 欧美黑人欧美精品刺激| 如何舔出高潮| 国产一级毛片七仙女欲春2| 男女之事视频高清在线观看| 亚洲三级黄色毛片| 精品人妻视频免费看| 在现免费观看毛片| 久久久久久久久久成人| 欧美黑人欧美精品刺激| 久久99热6这里只有精品| 久久精品91蜜桃| 99国产精品一区二区蜜桃av| 成人欧美大片| 男女做爰动态图高潮gif福利片| 少妇人妻精品综合一区二区 | 国产久久久一区二区三区| 99国产极品粉嫩在线观看| 中国美女看黄片| 欧美乱色亚洲激情| 亚洲精品色激情综合| 色综合欧美亚洲国产小说| 日韩欧美 国产精品| 欧美xxxx黑人xx丫x性爽| 欧美日韩国产亚洲二区| 亚洲熟妇中文字幕五十中出| 欧洲精品卡2卡3卡4卡5卡区| 国产三级中文精品| 禁无遮挡网站| 婷婷亚洲欧美| 最近视频中文字幕2019在线8| 国产 一区 欧美 日韩| www日本黄色视频网| 亚洲人成电影免费在线| 欧美最新免费一区二区三区 | 可以在线观看的亚洲视频| 变态另类成人亚洲欧美熟女| 欧美性感艳星| 高潮久久久久久久久久久不卡| 久久精品夜夜夜夜夜久久蜜豆| 国产中年淑女户外野战色| 999久久久精品免费观看国产| 亚洲av第一区精品v没综合| 日日摸夜夜添夜夜添小说| 亚洲激情在线av| 如何舔出高潮| 午夜免费成人在线视频| 好男人在线观看高清免费视频| 网址你懂的国产日韩在线| 国产精品精品国产色婷婷| 人妻丰满熟妇av一区二区三区| 搡女人真爽免费视频火全软件 | 免费av观看视频| 十八禁网站免费在线| 亚洲精品乱码久久久v下载方式| 亚洲乱码一区二区免费版| 麻豆成人午夜福利视频| 小说图片视频综合网站| 在线观看美女被高潮喷水网站 | 亚洲成人免费电影在线观看| 欧美成人性av电影在线观看| 亚洲中文日韩欧美视频| 深夜精品福利| 直男gayav资源| 亚洲国产精品sss在线观看| 老司机午夜十八禁免费视频| 亚洲一区二区三区色噜噜| 亚洲五月天丁香| 亚洲最大成人中文| 嫩草影院精品99| 国产欧美日韩精品一区二区| 99热只有精品国产| 日韩欧美在线二视频| 中文字幕人成人乱码亚洲影| 国产视频内射| 又粗又爽又猛毛片免费看| 欧美乱妇无乱码| 免费av不卡在线播放| 一区二区三区四区激情视频 | 欧美激情国产日韩精品一区| a级毛片免费高清观看在线播放| 久久人妻av系列| 男女做爰动态图高潮gif福利片| 欧美3d第一页| 日韩精品青青久久久久久| 久99久视频精品免费| 国产一区二区三区视频了| www.www免费av| 成年版毛片免费区| 两个人视频免费观看高清| 搞女人的毛片| 欧美性猛交黑人性爽| 亚洲在线观看片| 欧美黄色片欧美黄色片| 久久久久精品国产欧美久久久| 亚洲成人中文字幕在线播放| 首页视频小说图片口味搜索| 久久欧美精品欧美久久欧美| 国产精品嫩草影院av在线观看 | 亚洲avbb在线观看| 亚洲精品日韩av片在线观看| 亚洲欧美激情综合另类| 波多野结衣高清无吗| 国产精品美女特级片免费视频播放器| 亚洲一区二区三区色噜噜| 午夜老司机福利剧场| .国产精品久久| 一个人观看的视频www高清免费观看| 熟妇人妻久久中文字幕3abv| 乱人视频在线观看| 在线国产一区二区在线| a级毛片免费高清观看在线播放| 国产色婷婷99| 亚洲av成人av| 怎么达到女性高潮| 一二三四社区在线视频社区8| 亚洲欧美日韩高清在线视频| 波多野结衣高清作品| 人妻丰满熟妇av一区二区三区| 亚洲18禁久久av| 淫妇啪啪啪对白视频| 深夜精品福利| 国产成人a区在线观看| 在线免费观看的www视频| 黄色丝袜av网址大全| 久久99热这里只有精品18| 日本在线视频免费播放| 九九久久精品国产亚洲av麻豆| 直男gayav资源| 男女做爰动态图高潮gif福利片| 内地一区二区视频在线| 五月伊人婷婷丁香| 欧美极品一区二区三区四区| 少妇丰满av| 国产精品久久电影中文字幕| 一a级毛片在线观看| 成人亚洲精品av一区二区| av国产免费在线观看| 欧美日韩亚洲国产一区二区在线观看| 男人舔女人下体高潮全视频| 国产精品久久电影中文字幕| 久久99热这里只有精品18| 中文字幕人妻熟人妻熟丝袜美| 久久中文看片网| 精品久久久久久久久久免费视频| www.999成人在线观看| 国产精品人妻久久久久久| 丰满乱子伦码专区| 亚洲中文日韩欧美视频| 露出奶头的视频| 18+在线观看网站| 乱人视频在线观看| 欧美日韩国产亚洲二区| 制服丝袜大香蕉在线| 757午夜福利合集在线观看| 免费人成视频x8x8入口观看| 亚洲av二区三区四区| 日韩欧美精品免费久久 | 51午夜福利影视在线观看| 成人国产综合亚洲| 亚洲国产精品成人综合色| 亚洲va日本ⅴa欧美va伊人久久| 久久6这里有精品| .国产精品久久| 男人的好看免费观看在线视频| 亚洲电影在线观看av| 午夜精品久久久久久毛片777| 国内少妇人妻偷人精品xxx网站| 欧美色欧美亚洲另类二区| 亚洲精品日韩av片在线观看| 亚洲久久久久久中文字幕| 久久精品国产清高在天天线|