• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    一種基于核的在線策略梯度算法?

    2018-05-15 00:04:16唐麗麗朱海軍朱斐
    關(guān)鍵詞:行動(dòng)者差分小車

    唐麗麗,朱海軍,朱斐

    (1.蘇州農(nóng)業(yè)職業(yè)技術(shù)學(xué)院,江蘇蘇州215008;2.蘇州大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇蘇州215006)

    0 引言

    在傳統(tǒng)的監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí)方法中,往往需要訓(xùn)練集:預(yù)先給定樣本,給出其標(biāo)簽,然后通過(guò)對(duì)樣本的特征選取、降維、擬合等操作,建立模型,進(jìn)而進(jìn)行測(cè)試評(píng)估.然而,在很多序列決策問(wèn)題和控制問(wèn)題中,很難預(yù)先獲得上述的樣本,例如,在機(jī)器人控制問(wèn)題中,由于無(wú)法預(yù)先了解機(jī)器的環(huán)境,所以在機(jī)器人的移動(dòng)過(guò)程中,也很難預(yù)知機(jī)器人的移動(dòng)方向,而是需要根據(jù)實(shí)際環(huán)境,自動(dòng)找到向哪個(gè)方向前進(jìn);在人機(jī)圍棋對(duì)弈中,如果把每走一步看成是一個(gè)決策的過(guò)程,那么如果機(jī)器能根據(jù)當(dāng)前的盤面情況,向后多考慮幾步,則會(huì)得到更好的決策.而在這些應(yīng)用中,都有一個(gè)特點(diǎn):決策智能體根據(jù)實(shí)際環(huán)境和狀態(tài)決定最優(yōu)決策.

    強(qiáng)化學(xué)習(xí)[1]通過(guò)不斷與未知環(huán)境進(jìn)行交互,采取動(dòng)作,改變所處狀態(tài),尋求能得到最大長(zhǎng)期獎(jiǎng)賞的策略.由于強(qiáng)化學(xué)習(xí)具有能夠在無(wú)標(biāo)簽數(shù)據(jù)上實(shí)現(xiàn)自主在線學(xué)習(xí)、獲得最優(yōu)決策的優(yōu)點(diǎn),近年來(lái),強(qiáng)化學(xué)習(xí)方法受到大量的關(guān)注,并在很多領(lǐng)域,如自動(dòng)控制、機(jī)器人控制、網(wǎng)絡(luò)路由、市場(chǎng)決策、網(wǎng)頁(yè)索引等,獲得了成功的應(yīng)用.然而,傳統(tǒng)的強(qiáng)化學(xué)習(xí)在解決大規(guī)??臻g問(wèn)題時(shí),受到“維數(shù)災(zāi)難”的限制,影響效果,甚至算法有時(shí)會(huì)失效[2].包括核方法在內(nèi)的很多函數(shù)逼近方法能有效地解決“維數(shù)災(zāi)難”問(wèn)題[3?5].由于核方法無(wú)需事先確定逼近器參數(shù),有更大的自由度,因此在實(shí)時(shí)控制問(wèn)題中具有很好的非線性逼近效果.然而隨著強(qiáng)化學(xué)習(xí)方法學(xué)習(xí)過(guò)程中數(shù)據(jù)樣本的不斷增大,函數(shù)逼近器的維度也隨之增長(zhǎng),需要大量計(jì)算時(shí)間.稀疏化方法是解決這一問(wèn)題的常見方法,它根據(jù)一定規(guī)則從數(shù)據(jù)樣本集挑選合適的樣本,進(jìn)而在計(jì)算時(shí)間與計(jì)算精度之間取得平衡.常見的稀疏化方法包括:近似線性依賴[6](approximately linear dependence,ALD)、核主成份分析[7](kernel principal component analysis,KPCA)和新穎規(guī)則[8](the novelty criterion,NC).

    根據(jù)策略的表示方法不同,強(qiáng)化學(xué)習(xí)可以分為值函數(shù)方法與策略梯度方法.值函數(shù)方法通過(guò)函數(shù)近似評(píng)估狀態(tài)的值函數(shù),然后通過(guò)學(xué)到的值函數(shù)去間接表示策略.常用的值函數(shù)方法包括蒙特卡羅方法(Monte Carlo method)與時(shí)間差分方法(time diあerence,TD)等.其中,Sijen等人提出了現(xiàn)代強(qiáng)化學(xué)習(xí)方法的核心算法——真在線時(shí)間差分[9](true online time diあerence,TOTD(λ)),效果要好于原先的TD(λ)算法.值函數(shù)方法通常傾向于尋找確定性策略,很難處理連續(xù)動(dòng)作空間問(wèn)題.值函數(shù)方法通過(guò)離散化動(dòng)作來(lái)處理連續(xù)動(dòng)作空間問(wèn)題,如連續(xù)動(dòng)作Q學(xué)習(xí)算法[10](continuous action Q-learning,CAQ),其效果不如策略梯度方法.策略梯度方法通過(guò)一組與值函數(shù)無(wú)關(guān)的策略參數(shù)直接表示策略,其參數(shù)沿著獎(jiǎng)賞函數(shù)最大化的梯度方向更新[11].章鵬等人對(duì)動(dòng)作的上下界進(jìn)行加權(quán)求最優(yōu),使用線性函數(shù)逼近器近似求解動(dòng)作,加快算法的求解速度和穩(wěn)定性[12];一些強(qiáng)化學(xué)習(xí)的概念和技術(shù),如增量式方法、資格跡等,均被應(yīng)用于策略梯度方法;同時(shí),還有不少研究者從優(yōu)化梯度求解的角度出發(fā),進(jìn)一步改進(jìn)算法,如將更為有效的自然梯度方法和最小二乘法結(jié)合[13,14],提出了自然梯度行動(dòng)者-評(píng)論家算法(Natural actor-critic,NAC)[15],也有不少應(yīng)用,如季策等人使用自然梯度解決非平穩(wěn)環(huán)境中的瞬時(shí)盲源分離等[16].

    本文針對(duì)連續(xù)狀態(tài)動(dòng)作空間問(wèn)題,在真在線時(shí)間差分算法的向前觀點(diǎn)與新型資格跡的基礎(chǔ)上,改進(jìn)了帶資格跡的增量式行動(dòng)者-評(píng)論家算法,提出了基于核的在線策略梯度算法(True Online Kernel-based Policy Gradient Algorithm,TOKAC).TOKAC算法在評(píng)論家部分采用真在線時(shí)間差分算法來(lái)對(duì)值函數(shù)實(shí)現(xiàn)評(píng)估,在行動(dòng)者部分根據(jù)改進(jìn)的方法完成更新.

    1 相關(guān)理論

    1.1 馬爾科夫決策過(guò)程

    在強(qiáng)化學(xué)習(xí)算法的框架中,序列決策問(wèn)題通常采用馬爾科夫決策過(guò)程進(jìn)行建模.馬爾科夫決策過(guò)程模型可以描述為四元組<X,U,P,R>,其中X表示狀態(tài)空間,U表示動(dòng)作空間,P表示狀態(tài)遷移模型,R表示獎(jiǎng)賞模型.在t時(shí)刻,智能體根據(jù)當(dāng)前狀態(tài)xt以及策略h(·|xt)選擇并執(zhí)行動(dòng)作u;環(huán)境根據(jù)遷移模型P以及獎(jiǎng)賞模型R反饋給出下一個(gè)狀態(tài)xt+1和立即獎(jiǎng)賞rt+1;智能體根據(jù)狀態(tài)xt+1以及策略h(·|xt+1)確定下一步交互動(dòng)作;不斷地重復(fù)直到情節(jié)結(jié)束.

    強(qiáng)化學(xué)習(xí)算法的最終目標(biāo)是學(xué)習(xí)最優(yōu)策略h?,算法學(xué)習(xí)的過(guò)程中通過(guò)累計(jì)獎(jiǎng)賞Rh來(lái)比較策略h的優(yōu)劣

    其中,Eh表示關(guān)于策略h的累計(jì)獎(jiǎng)賞期望,折扣因子0<γ≤1,T表示情節(jié)的最大步數(shù).

    強(qiáng)化學(xué)習(xí)方法使用狀態(tài)值函數(shù)對(duì)狀態(tài)進(jìn)行評(píng)估,使用狀態(tài)動(dòng)作對(duì)值函數(shù)對(duì)策略進(jìn)行評(píng)估.在求解狀態(tài)x的最優(yōu)動(dòng)作的過(guò)程中,需要計(jì)算狀態(tài)值函數(shù)Vh(x)以及狀態(tài)動(dòng)作對(duì)值函數(shù)Qh(x,u)

    1.2 強(qiáng)化學(xué)習(xí)與核方法

    在使用強(qiáng)化學(xué)習(xí)算法解決大規(guī)模問(wèn)題時(shí),性能會(huì)有較大下降.基于核方法的強(qiáng)化學(xué)習(xí)算法是解決這類問(wèn)題的一種有效方法.核方法利用核函數(shù)通過(guò)非線性映射實(shí)現(xiàn)函數(shù)逼近.核函數(shù)k(xi,xj)表示非線性映射間的內(nèi)積〈?(xi),?(xj)〉.確定了核函數(shù)k(·,·)就可以處理非線性函數(shù)逼近.

    隨著數(shù)據(jù)樣本的不斷擴(kuò)大,需要對(duì)數(shù)據(jù)進(jìn)行篩選,然而由于隨機(jī)篩選可能會(huì)導(dǎo)致函數(shù)逼近的精度下降,因此需要對(duì)數(shù)據(jù)進(jìn)行稀疏化處理.對(duì)于某樣本數(shù)據(jù)集合{x1,x2,...,xn},在t時(shí)刻,近似線性依賴方法構(gòu)建數(shù)據(jù)字典Dt={d1,d2,···,dmt};在處理樣本st+1時(shí),需要計(jì)算ζt+1

    運(yùn)用k(xi,xj)=〈?(xi),?(xj)〉計(jì)算ζt+1,如下

    其中,矩陣Kt=[k(di,dj)](1≤i,j≤mt),核向量kt(xt+1)=[k(d1,xt+1),k(d1,xt+1),···,k(d1,xt+1)]?,參數(shù)向量c=[c1,c2,···,cmt]?.如果ζt+1大于閾值μ,則將樣本xt+1加入數(shù)據(jù)字典.

    相應(yīng)的,狀態(tài)值函數(shù)Vh(x)的近似表示為

    1.3 策略梯度

    策略梯度方法通過(guò)策略參數(shù)θ直接表示策略,并沿著獎(jiǎng)賞函數(shù)Jh最大化的方向更新策略參數(shù).策略參數(shù)的更新公式如下

    式(1)可以表示為

    累計(jì)獎(jiǎng)賞Rh關(guān)于策略參數(shù)θ的梯度如下

    對(duì)于任意關(guān)于狀態(tài)x的函數(shù)b(x)都滿足公式(10)

    所以,累計(jì)獎(jiǎng)賞函數(shù)R對(duì)策略參數(shù)θ的導(dǎo)數(shù)即公式(9)可以改寫為

    其中,

    從公式(7)與(11)可以看出,對(duì)策略參數(shù)的更新最重要的是Q(x,u)?b(x)值的計(jì)算.采用w?Ψs,a逼近Q(x,u)?b(x)的值,其均方誤差如下

    對(duì)于任意狀態(tài)x∈X,誤差εh,x為

    求解均方誤差εh,x對(duì)函數(shù)b(x)的導(dǎo)數(shù),并令其等于0.

    可得

    因此,對(duì)于任意策略h,當(dāng)函數(shù)b(x)=Vh(x)的時(shí)候,均方誤差εh最?。纱丝芍?,采用函數(shù)逼近近似求解優(yōu)勢(shì)函數(shù)Ah(x,u)=Qh(x,u)?Vh(x)更具現(xiàn)實(shí)意義,所以公式(9)表示的梯度可以重寫為

    2 λ-累計(jì)獎(jiǎng)賞

    時(shí)間差分方法結(jié)合了蒙特卡羅方法與動(dòng)態(tài)規(guī)劃方法的優(yōu)點(diǎn),可以在環(huán)境未知的情況下任意時(shí)間步更新值函數(shù).為了進(jìn)一步提高時(shí)間差分方法的學(xué)習(xí)速率,研究人員提出了n步-累計(jì)獎(jiǎng)賞

    由于n步-累計(jì)獎(jiǎng)賞考慮了更多的真實(shí)獎(jiǎng)賞,所以比1步-累計(jì)獎(jiǎng)賞更準(zhǔn)確.由于n存在多種可能,故而將其加權(quán)求和,提出λ-累計(jì)獎(jiǎng)賞

    上述的λ-累計(jì)獎(jiǎng)賞更新值函數(shù)是傳統(tǒng)的向前觀點(diǎn).根據(jù)式(19)可以看出,利用該向前觀點(diǎn)更新值函數(shù)必須等到情節(jié)結(jié)束才能更新,而且需要保存該情節(jié)中所有遇到的狀態(tài).向后觀點(diǎn)是利用當(dāng)前時(shí)間差分誤差對(duì)之前遇到的所有狀態(tài)的值函數(shù)進(jìn)行更新,通過(guò)引入資格跡[1]來(lái)描述歷史狀態(tài)對(duì)當(dāng)前時(shí)間差分誤差的影響.TOTD(λ)結(jié)合二者,提出了λ-累計(jì)獎(jiǎng)賞

    3 在線策略梯度算法

    策略梯度方法通過(guò)與值函數(shù)獨(dú)立的策略參數(shù)求解最優(yōu)策略.而行動(dòng)者-評(píng)論家方法計(jì)算了值函數(shù)參數(shù)和策略參數(shù)這兩套參數(shù).本文提出了一種基于核的在線策略梯度算法,在評(píng)論家部分采用TOTD(λ)求解值函數(shù)參數(shù),在行動(dòng)者部分借鑒TOTD(λ)的向前觀點(diǎn)與向后觀點(diǎn)改進(jìn)策略參數(shù)的更新方式.算法包括評(píng)論家部分和行動(dòng)者部分.在評(píng)論家部分,使用TOTD(λ)方法評(píng)估策略,加快策略提高速度.TOTD(λ)算法利用λ-累計(jì)獎(jiǎng)賞對(duì)值函數(shù)參數(shù)v進(jìn)行更新,更新公式如下

    其中,0<k≤t,vt,0為參數(shù)v的初始值.參數(shù)vi,j(i?j)為臨時(shí)中間參數(shù).從公式(21)可以看出,需要t次計(jì)算才能計(jì)算出參數(shù)vt=vt,t,并且需要保存所有觀察樣本.為了能夠在線計(jì)算,通常采用向后觀點(diǎn)對(duì)值函數(shù)進(jìn)行更新,即將當(dāng)前值函數(shù)的時(shí)間差分誤差對(duì)之前遇到的狀態(tài)值函數(shù)進(jìn)行更新.將向前觀點(diǎn)與向后觀點(diǎn)統(tǒng)一,得到TOTD(λ)算法.其更新規(guī)則如下

    其中,δ表示時(shí)間差分誤差,ev表示資格跡,其反映了當(dāng)前狀態(tài)之前所遇到的所有狀態(tài)對(duì)當(dāng)前差分值的“貢獻(xiàn)度”.

    真在線策略梯度的行動(dòng)者部分采用參數(shù)θ表示策略h分布,并沿著目標(biāo)函數(shù)的梯度方向更新策略參數(shù).當(dāng)?shù)竭_(dá)局部最優(yōu)解時(shí),梯度?Rh/?θ=0,所以算法的核心問(wèn)題是梯度?Rh/?θ=0的求解.

    為了加快行動(dòng)者部分的學(xué)習(xí),采用向前觀點(diǎn)更新策略參數(shù)θ,其更新公式如下

    其中,βk?1是策略參數(shù)的學(xué)習(xí)步長(zhǎng),更新公式采用經(jīng)驗(yàn)梯度替代了原來(lái)的期望梯度?Jπ/?θ.

    從公式(25)可以看出,求解θt需要進(jìn)行t次計(jì)算,而且需要保留已觀察的樣本.為了簡(jiǎn)化計(jì)算過(guò)程,借助資格跡對(duì)策略參數(shù)進(jìn)行更新.資格跡的更新公式如下

    策略參數(shù)更新公式如下

    λ?累計(jì)獎(jiǎng)賞與時(shí)間差分誤差相關(guān),而且該時(shí)間差分誤差使用時(shí)間步t-1的值函數(shù)參數(shù)vt?1估計(jì)狀態(tài)st的值函數(shù),與評(píng)論家部分的時(shí)間差分誤差相關(guān),關(guān)系如下

    由于對(duì)于間步t,策略參數(shù)更新為

    運(yùn)用λ-累計(jì)獎(jiǎng)賞更新策略參數(shù)θt,t是等同于利用資格跡對(duì)策略參數(shù)θt的更新.

    根據(jù)上述算法描述,基于核的在線策略梯度算法如下.

    基于核的在線策略梯度算法(True Online Kernel-based Policy Gradient Algorithm,TOKAC)

    輸入:核函數(shù)k,閾值threshold,步長(zhǎng)參數(shù)α、β,折扣因子γ,參數(shù)λ,樣本集{x},策略h

    輸出:策略參數(shù)θ

    4 實(shí)驗(yàn)及結(jié)果分析

    本節(jié)通過(guò)兩個(gè)具有代表性的連續(xù)狀態(tài)、連續(xù)動(dòng)作問(wèn)題平衡桿實(shí)驗(yàn)、爬山小車(Mountain Car)實(shí)驗(yàn)來(lái)驗(yàn)證TOKAC算法的可行性.兩個(gè)實(shí)驗(yàn)中算法均采用高斯核函數(shù).

    其中,di是近似線性依賴方法構(gòu)建的數(shù)據(jù)字典D中的數(shù)據(jù),σ是高斯核的寬度.

    4.1 平衡桿

    平衡桿問(wèn)題是一個(gè)經(jīng)典的強(qiáng)化學(xué)習(xí)問(wèn)題.如圖1所示,桿子矗立在小車上,并且可以隨意轉(zhuǎn)動(dòng).需要對(duì)小車施加水平方向的力,保證木桿平衡.借助馬爾科夫決策過(guò)程對(duì)平衡問(wèn)題進(jìn)行建模.狀態(tài)為其中,θ是桿子與垂直線的角度,是角度θ的角速度.對(duì)小車施加左右的力a∈[?50,50],狀態(tài)會(huì)發(fā)生轉(zhuǎn)移.動(dòng)態(tài)性模型如下

    圖1 平衡桿問(wèn)題

    其中,表示角加速度.時(shí)間步t,智能體采取動(dòng)作at,如果角度?π/2<θt+1<π/2,則獎(jiǎng)賞r=0,否則,r=?1.當(dāng)木桿在3 000個(gè)時(shí)間步內(nèi)倒下,則認(rèn)為操作失敗情節(jié)結(jié)束.如果木桿一直沒(méi)有倒下,并保持3 000個(gè)時(shí)間步,則認(rèn)為操作成功情節(jié)結(jié)束.

    在平衡桿實(shí)驗(yàn)中,將本文提出的TOKAC算法與各類能夠解決連續(xù)問(wèn)題的算法進(jìn)行對(duì)比,包括CACLA、IAC、NAC.其中,CACLA是一個(gè)求解確定性策略的行動(dòng)者-評(píng)論家算法;IAC是一個(gè)增量式策略梯度方法.算法都采用核方法以及近似線性依賴稀疏化方法進(jìn)行函數(shù)逼近,其參數(shù)設(shè)置為σ=0.35、μ=0.001;IAC以及TOKAC算法的參數(shù)設(shè)置均為σ=5.0、λ=0.3、γ=0.9、α0=0.7、β0=0.5、αc=9 000、βc=9 000;其中NAC算法采用LSTD算法評(píng)估策略,其遺忘因子為0.3,學(xué)習(xí)步長(zhǎng)為0.8.比較結(jié)果如圖2所示.

    通過(guò)比較情節(jié)的最大步數(shù)來(lái)比較算法學(xué)習(xí)到的策略的好壞.本文算法TOKAC的收斂速度最快,并且收斂后的結(jié)果較為穩(wěn)定.通過(guò)比較可發(fā)現(xiàn)IAC算法收斂較快,但是收斂效果不如NAC算法.這主要是因?yàn)樽匀惶荻饶軌蛴行Ь徑馓荻裙烙?jì)過(guò)程中方差較大的問(wèn)題.本文方法在樣本量比較少的情況下學(xué)習(xí)速度更快.這主要是因?yàn)門OKAC采用的TOTD學(xué)習(xí)比IAC采用的時(shí)間差分學(xué)習(xí)以及NAC采用的LSTD學(xué)習(xí)速度更快.此外,策略梯度算法表現(xiàn)要好于CACLA算法,這主要是因?yàn)椴呗蕴荻人惴ǔ浞掷脮r(shí)間差分誤差進(jìn)行學(xué)習(xí),而CACLA僅僅利用時(shí)間差分誤差判斷是否更新策略參數(shù).

    圖2 各類算法處理平衡桿問(wèn)題的效果圖

    4.2 爬山小車

    爬山小車是一個(gè)經(jīng)典的情節(jié)式的連續(xù)空間強(qiáng)化學(xué)習(xí)問(wèn)題,小車需要在最短的時(shí)間內(nèi)從坡底到達(dá)坡頂.由于動(dòng)力不足,小車只能來(lái)回加速多次到達(dá)靠近坡頂?shù)奈恢茫缓笤偌铀?,如圖3所示.通過(guò)馬爾科夫決策過(guò)程對(duì)問(wèn)題進(jìn)行建模,狀態(tài)是[x,v]?,其中小車的位置x∈[?1.2,0.5],小車的速度v∈[?0.07,0.07].對(duì)小車施加水平方向的力a∈[?1,1],狀態(tài)發(fā)生遷移,遷移模型如下

    其中,重力相關(guān)系數(shù)g=0.25×10?2.當(dāng)小車水平位置x<0.5時(shí),獎(jiǎng)賞r=-1,否則,小車到達(dá)終點(diǎn),獎(jiǎng)賞r=0.

    圖3 爬山小車環(huán)境示意圖

    圖4 不同算法處理爬山小車問(wèn)題的效果

    在本實(shí)驗(yàn)中,本文算法與兩種增量式的策略梯度算法IAC以及IAC-E進(jìn)行比較.IAC算法采用TD(0)算法評(píng)估策略;IAC-E算法采用TD(λ)評(píng)估策略,而且策略更新過(guò)程也用了資格跡.三種算法的參數(shù)設(shè)置幾乎都一樣,核方法相關(guān)參數(shù)σ=[0.3,0.02]?、μ=0.001;學(xué)習(xí)步長(zhǎng)相關(guān)參數(shù)α0=0.7、β0=0.3、αc=500、βc=500;折扣因子γ=0.9.帶資格跡的算法λ=0.3.圖4中曲線代表每個(gè)算法學(xué)習(xí)500個(gè)樣本后的策略表現(xiàn).可以發(fā)現(xiàn)本文算法比IAC-E算法收斂速度快.這主要是因?yàn)楸疚乃惴ú捎玫男滦唾Y格跡效果要好于IAC-E采用的累加資格跡.眾所周知,資格跡能夠有效解決時(shí)間信度分配問(wèn)題,進(jìn)而提高算法學(xué)習(xí)速度.本文算法的評(píng)論家部分與行動(dòng)者部分均采用新型資格跡,故而學(xué)習(xí)速度要快于IAC-E算法.此外,兩個(gè)帶資格跡的算法學(xué)習(xí)速度也要高于不帶資格跡的算法IAC.

    5 結(jié)論

    本文以IAC-E算法工作為基礎(chǔ),提出了一種基于核的在線策略梯度算法,在算法的評(píng)論家部分,利用TOTD(λ)算法進(jìn)行策略評(píng)估;在算法的行動(dòng)者部分,借助真在線思想改進(jìn)策略參數(shù)的更新.并通過(guò)平衡桿與爬山小車實(shí)驗(yàn)分析本文算法與其他各類算法的優(yōu)劣,可以看出本文所提出的算法在收斂速度以及收斂后的穩(wěn)定性方面,具有較優(yōu)表現(xiàn)好.

    同時(shí),本文工作也有進(jìn)一步展開的空間.例如,通過(guò)平衡桿實(shí)驗(yàn)發(fā)現(xiàn)TOKAC算法的學(xué)習(xí)速度不如NAC算法,這主要是自然梯度效果要好于常規(guī)梯度.后續(xù)工作希望結(jié)合自然梯度提高算法學(xué)習(xí)速度.

    參考文獻(xiàn):

    [1]Wiering M,Van Otterlo M.Reinforcement Learning:State-of-the-Art[M].Springer Publishing Company,2012.

    [2]朱斐,劉全,傅啟明,等.一種用于連續(xù)動(dòng)作空間的最小二乘行動(dòng)者-評(píng)論家方法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(3):548-558.

    [3]傅啟明,劉全,王輝,等.一種基于線性函數(shù)逼近的離策略Q(λ)算法[J].計(jì)算機(jī)學(xué)報(bào),2014,37(3):677-686.

    [4]焦李成,楊淑媛,劉芳,等.神經(jīng)網(wǎng)絡(luò)七十年:回顧與展望[J].計(jì)算機(jī)學(xué)報(bào),2016,39(8):1697-1716.

    [5]陳興國(guó),高陽(yáng),范順國(guó),等.基于核方法的連續(xù)動(dòng)作Actor-Critic學(xué)習(xí)[J].模式識(shí)別與人工智能,2014,27(2):103-110.

    [6]Engel Y,Mannor S,Meir R.Bayes meets Bellman:The Gaussian process approach to temporal diあerence learning[C]//ICML.2003,20(1):154.

    [7]殷俊,周靜波,金忠.基于余弦角距離的主成分分析與核主成分分析[J].計(jì)算機(jī)工程與應(yīng)用,2011,47(3):9-12.

    [8]Ozeki K.Kernel Aきne Projection Algorithm[M]//Theory of Aきne Projection Algorithms for Adaptive Filtering.Springer Japan,2016.

    [9]Seijen H,Sutton R.True online TD(λ)[C]//International Conference on Machine Learning,2014:692-700.

    [10]Mill′an JDR,Posenato D,Dedieu E.Continuous-action Q-learning[J].Machine Learning,2002,49(2-3):247-265.

    [11]王學(xué)寧,徐昕,吳濤,等.策略梯度強(qiáng)化學(xué)習(xí)中的最優(yōu)回報(bào)基線[J].計(jì)算機(jī)學(xué)報(bào),2005,28(6):1021-1026.

    [12]章鵬,劉全,鐘珊,等.增量式雙自然策略梯度的行動(dòng)者評(píng)論家算法[J].通信學(xué)報(bào),2017,38(4):166-177.

    [13]Xu X,Hu D,Lu X.Kernel-Based Least Squares Policy Iteration for Reinforcement Learning[J].IEEE Transactions on Neural Networks,2007,18(4):973-992.

    [14]Grondman I,Busoniu L,Lopes G A D,et al.A survey of actor-critic reinforcement learning:Standard and natural policy gradients[J].IEEE Transactions on Systems,Man,and Cybernetics,Part C(Applications and Reviews),2012,42(6):1291-1307.

    [15]Bhatnagar S,Sutton R,Ghavamzadeh M,et al.Natural actor-critic algorithms[J].Automatica,2009,45(11):2471-2482.

    [16]季策,楊坤,陶奕名,等.一種非平穩(wěn)環(huán)境下的自適應(yīng)變步長(zhǎng)盲源分離算法[J].控制與決策,2016,31(4):735-739.

    猜你喜歡
    行動(dòng)者差分小車
    與異質(zhì)性行動(dòng)者共生演進(jìn):基于行動(dòng)者網(wǎng)絡(luò)理論的政策執(zhí)行研究新路徑
    數(shù)列與差分
    快樂(lè)語(yǔ)文(2020年36期)2021-01-14 01:10:32
    自制小車來(lái)比賽
    劉老師想開小車
    文苑(2018年22期)2018-11-19 02:54:18
    兩輪自平衡小車的設(shè)計(jì)與實(shí)現(xiàn)
    電子制作(2018年8期)2018-06-26 06:43:02
    敬仰中國(guó)大地上的綠色行動(dòng)者
    網(wǎng)絡(luò)行動(dòng)者的新媒體使用特征、影響及媒介民主化
    新聞傳播(2015年3期)2015-07-12 12:22:28
    做“互聯(lián)網(wǎng)+”的積極行動(dòng)者
    基于差分隱私的大數(shù)據(jù)隱私保護(hù)
    97碰自拍视频| 欧美成人性av电影在线观看| 国产中年淑女户外野战色| 欧洲精品卡2卡3卡4卡5卡区| 熟妇人妻久久中文字幕3abv| 女人高潮潮喷娇喘18禁视频| 九九热线精品视视频播放| 男人和女人高潮做爰伦理| 丁香六月欧美| 久久精品人妻少妇| 成人特级av手机在线观看| 99riav亚洲国产免费| 熟女人妻精品中文字幕| 亚洲av电影不卡..在线观看| 国产精品电影一区二区三区| 欧美不卡视频在线免费观看| 亚洲精品亚洲一区二区| 久久精品国产自在天天线| 亚洲精品粉嫩美女一区| 极品教师在线免费播放| 男人和女人高潮做爰伦理| 国产久久久一区二区三区| 香蕉久久夜色| 精品一区二区三区视频在线观看免费| av在线蜜桃| 中文字幕人成人乱码亚洲影| 88av欧美| 久久久国产精品麻豆| 嫩草影院精品99| 51午夜福利影视在线观看| 久久天躁狠狠躁夜夜2o2o| 麻豆国产av国片精品| x7x7x7水蜜桃| 亚洲avbb在线观看| 亚洲人成网站高清观看| 在线国产一区二区在线| 欧美精品啪啪一区二区三区| 日本黄色视频三级网站网址| 日韩精品青青久久久久久| 一a级毛片在线观看| 亚洲av成人av| 亚洲性夜色夜夜综合| 丝袜美腿在线中文| 51国产日韩欧美| 级片在线观看| 好看av亚洲va欧美ⅴa在| 女同久久另类99精品国产91| 国产成人系列免费观看| 一a级毛片在线观看| 一本久久中文字幕| 亚洲av成人不卡在线观看播放网| 在线天堂最新版资源| 国产精品自产拍在线观看55亚洲| 麻豆久久精品国产亚洲av| 国产综合懂色| 美女cb高潮喷水在线观看| 精华霜和精华液先用哪个| 搡老熟女国产l中国老女人| 在线观看日韩欧美| 日本精品一区二区三区蜜桃| 欧美一区二区精品小视频在线| 日韩大尺度精品在线看网址| 久99久视频精品免费| 黄色视频,在线免费观看| 91av网一区二区| 国产精品98久久久久久宅男小说| 成人18禁在线播放| 99精品久久久久人妻精品| 国产亚洲欧美在线一区二区| 欧美av亚洲av综合av国产av| www日本在线高清视频| 亚洲第一欧美日韩一区二区三区| a在线观看视频网站| 精品国产美女av久久久久小说| 欧美日韩黄片免| 国产欧美日韩精品一区二区| 欧美3d第一页| 18美女黄网站色大片免费观看| 欧美性猛交黑人性爽| 欧美bdsm另类| 久久久久久九九精品二区国产| 欧美激情久久久久久爽电影| 国产熟女xx| av黄色大香蕉| 最近在线观看免费完整版| 国产成人影院久久av| 69av精品久久久久久| 国产精品精品国产色婷婷| 久久久久久国产a免费观看| 色吧在线观看| 一a级毛片在线观看| 每晚都被弄得嗷嗷叫到高潮| 亚洲av五月六月丁香网| 日韩欧美在线乱码| 日韩大尺度精品在线看网址| 国产成人啪精品午夜网站| 国产精品美女特级片免费视频播放器| 99久久无色码亚洲精品果冻| 国产精品日韩av在线免费观看| 国内揄拍国产精品人妻在线| 大型黄色视频在线免费观看| 变态另类成人亚洲欧美熟女| 亚洲av二区三区四区| 欧美绝顶高潮抽搐喷水| netflix在线观看网站| 韩国av一区二区三区四区| 一区二区三区国产精品乱码| 一级毛片女人18水好多| 亚洲欧美日韩高清在线视频| 天堂网av新在线| 高清在线国产一区| 中文字幕人妻熟人妻熟丝袜美 | 波野结衣二区三区在线 | 欧美日本亚洲视频在线播放| 亚洲国产精品sss在线观看| 亚洲精品亚洲一区二区| 无遮挡黄片免费观看| 少妇人妻一区二区三区视频| 日韩精品青青久久久久久| 国产av在哪里看| 女人高潮潮喷娇喘18禁视频| 欧美乱色亚洲激情| 9191精品国产免费久久| 国产伦在线观看视频一区| 色综合婷婷激情| 老司机深夜福利视频在线观看| 国产伦在线观看视频一区| 伊人久久精品亚洲午夜| 国产乱人伦免费视频| 网址你懂的国产日韩在线| 老司机在亚洲福利影院| 亚洲人成网站在线播放欧美日韩| 国产老妇女一区| 精品一区二区三区视频在线观看免费| 国产高清视频在线播放一区| 此物有八面人人有两片| 97人妻精品一区二区三区麻豆| 午夜福利欧美成人| 午夜福利欧美成人| 欧美黑人欧美精品刺激| 噜噜噜噜噜久久久久久91| 国产精品精品国产色婷婷| 天美传媒精品一区二区| 久久精品91无色码中文字幕| 精品欧美国产一区二区三| 久久性视频一级片| 日韩亚洲欧美综合| x7x7x7水蜜桃| 精品99又大又爽又粗少妇毛片 | 午夜福利高清视频| 国产三级中文精品| 2021天堂中文幕一二区在线观| av天堂在线播放| 国产高清激情床上av| 国产精品av视频在线免费观看| 88av欧美| 国产三级黄色录像| 香蕉丝袜av| 日本 欧美在线| 午夜老司机福利剧场| 一级作爱视频免费观看| 国产亚洲欧美98| 日本在线视频免费播放| 九色国产91popny在线| 免费在线观看日本一区| 人人妻人人看人人澡| 日韩精品中文字幕看吧| 小说图片视频综合网站| 精品一区二区三区人妻视频| 嫩草影视91久久| 一区福利在线观看| 亚洲av成人av| 国产精品女同一区二区软件 | 国内精品一区二区在线观看| 国产精品久久久久久久电影 | 亚洲精品久久国产高清桃花| 老司机午夜十八禁免费视频| 亚洲第一电影网av| 日韩大尺度精品在线看网址| www日本在线高清视频| 两个人的视频大全免费| 午夜影院日韩av| 男女做爰动态图高潮gif福利片| 天堂√8在线中文| 欧美成人性av电影在线观看| 给我免费播放毛片高清在线观看| 一进一出抽搐动态| 国产精品亚洲av一区麻豆| 亚洲天堂国产精品一区在线| 18+在线观看网站| 国内精品一区二区在线观看| 国产一区二区三区视频了| 日韩人妻高清精品专区| eeuss影院久久| 少妇的逼好多水| 免费搜索国产男女视频| 成人性生交大片免费视频hd| 午夜激情福利司机影院| 中文字幕人妻熟人妻熟丝袜美 | 91麻豆精品激情在线观看国产| 极品教师在线免费播放| 一边摸一边抽搐一进一小说| 51国产日韩欧美| 日韩欧美国产在线观看| 看黄色毛片网站| 国产视频一区二区在线看| 免费看a级黄色片| 少妇丰满av| 亚洲国产欧美人成| 精品免费久久久久久久清纯| 国产精华一区二区三区| 女人被狂操c到高潮| 国产又黄又爽又无遮挡在线| 99久久99久久久精品蜜桃| 色综合亚洲欧美另类图片| 欧美日韩中文字幕国产精品一区二区三区| 免费搜索国产男女视频| 精品无人区乱码1区二区| 日本一本二区三区精品| 两性午夜刺激爽爽歪歪视频在线观看| 午夜福利在线观看免费完整高清在 | 国产高清三级在线| 一本精品99久久精品77| 亚洲一区二区三区不卡视频| 九九在线视频观看精品| 午夜福利在线在线| 免费电影在线观看免费观看| 极品教师在线免费播放| 美女cb高潮喷水在线观看| 国产v大片淫在线免费观看| 99热精品在线国产| 国产精品一区二区三区四区免费观看 | 首页视频小说图片口味搜索| 最新美女视频免费是黄的| 中文字幕av在线有码专区| av福利片在线观看| 村上凉子中文字幕在线| 免费高清视频大片| 制服丝袜大香蕉在线| 黄片大片在线免费观看| 桃色一区二区三区在线观看| 观看免费一级毛片| 亚洲av五月六月丁香网| 国产av在哪里看| 日本精品一区二区三区蜜桃| 最近最新中文字幕大全免费视频| 午夜精品久久久久久毛片777| 国产成人啪精品午夜网站| 9191精品国产免费久久| 人妻夜夜爽99麻豆av| 日本 av在线| 叶爱在线成人免费视频播放| 国产精品嫩草影院av在线观看 | 小说图片视频综合网站| 久久精品夜夜夜夜夜久久蜜豆| 国产一区二区在线av高清观看| 色精品久久人妻99蜜桃| 国产97色在线日韩免费| 国产精品99久久久久久久久| 色在线成人网| 一个人免费在线观看电影| 色av中文字幕| 欧美乱码精品一区二区三区| 亚洲一区二区三区色噜噜| 他把我摸到了高潮在线观看| 99国产精品一区二区蜜桃av| 欧美成人免费av一区二区三区| 91在线观看av| 人人妻,人人澡人人爽秒播| 88av欧美| 精品熟女少妇八av免费久了| 看免费av毛片| 不卡一级毛片| 男女床上黄色一级片免费看| 国产亚洲av嫩草精品影院| 日韩欧美国产在线观看| 欧美日韩综合久久久久久 | a在线观看视频网站| 两个人看的免费小视频| 久久香蕉精品热| 黄片小视频在线播放| 中国美女看黄片| 国产在视频线在精品| av福利片在线观看| 丰满的人妻完整版| 久久久久国内视频| 国产aⅴ精品一区二区三区波| 免费无遮挡裸体视频| 久久亚洲精品不卡| 国产高清有码在线观看视频| www国产在线视频色| 国产伦一二天堂av在线观看| 国产野战对白在线观看| 舔av片在线| 桃色一区二区三区在线观看| 搞女人的毛片| 国产真人三级小视频在线观看| 啪啪无遮挡十八禁网站| 尤物成人国产欧美一区二区三区| 亚洲国产精品合色在线| 在线视频色国产色| 性色av乱码一区二区三区2| 精品日产1卡2卡| 岛国在线观看网站| 搡女人真爽免费视频火全软件 | 久久久久久国产a免费观看| bbb黄色大片| 欧美绝顶高潮抽搐喷水| 热99在线观看视频| 最后的刺客免费高清国语| 亚洲在线观看片| 免费av不卡在线播放| 黄色女人牲交| 久久性视频一级片| 亚洲在线观看片| 精品人妻偷拍中文字幕| 国产精品自产拍在线观看55亚洲| 色av中文字幕| 精品不卡国产一区二区三区| 国产精品一区二区三区四区久久| 精品无人区乱码1区二区| 久久精品国产综合久久久| 免费看a级黄色片| 欧美xxxx黑人xx丫x性爽| 日日摸夜夜添夜夜添小说| 男女午夜视频在线观看| 欧美激情在线99| 国产在线精品亚洲第一网站| 精品一区二区三区人妻视频| 琪琪午夜伦伦电影理论片6080| xxxwww97欧美| 久久精品亚洲精品国产色婷小说| 国产不卡一卡二| 久久久久九九精品影院| 亚洲在线观看片| 国内少妇人妻偷人精品xxx网站| 久久久久久大精品| 国产精品亚洲av一区麻豆| 一级黄色大片毛片| 99在线人妻在线中文字幕| 免费在线观看亚洲国产| 国产精品久久久久久久久免 | 91麻豆av在线| 国产视频一区二区在线看| 国产成人福利小说| 亚洲人成伊人成综合网2020| 老司机深夜福利视频在线观看| 3wmmmm亚洲av在线观看| 亚洲国产精品成人综合色| av黄色大香蕉| 国产爱豆传媒在线观看| av视频在线观看入口| 国产精品一区二区免费欧美| 18禁黄网站禁片免费观看直播| 国产成人影院久久av| 中文字幕高清在线视频| 国产精品久久久人人做人人爽| 很黄的视频免费| 久久香蕉精品热| 51午夜福利影视在线观看| av黄色大香蕉| 亚洲一区二区三区色噜噜| 久久久精品欧美日韩精品| 99久久成人亚洲精品观看| 两个人的视频大全免费| 免费看美女性在线毛片视频| 成熟少妇高潮喷水视频| 成年女人看的毛片在线观看| 成人特级av手机在线观看| 老司机福利观看| 欧美区成人在线视频| 露出奶头的视频| www.熟女人妻精品国产| 国产高清视频在线播放一区| 亚洲aⅴ乱码一区二区在线播放| 脱女人内裤的视频| 欧美av亚洲av综合av国产av| 亚洲精品久久国产高清桃花| 成人欧美大片| 3wmmmm亚洲av在线观看| 好男人在线观看高清免费视频| 午夜日韩欧美国产| 一区福利在线观看| 久99久视频精品免费| 亚洲最大成人中文| 天堂动漫精品| 首页视频小说图片口味搜索| 精品国产超薄肉色丝袜足j| 成人特级av手机在线观看| 国产精品 欧美亚洲| 国产精品综合久久久久久久免费| 观看美女的网站| 高潮久久久久久久久久久不卡| 女人高潮潮喷娇喘18禁视频| 中国美女看黄片| 18+在线观看网站| 久久婷婷人人爽人人干人人爱| 久99久视频精品免费| 欧美日韩精品网址| 哪里可以看免费的av片| 欧美中文日本在线观看视频| 久久国产精品影院| 亚洲av电影在线进入| 精品久久久久久久久久久久久| 国产爱豆传媒在线观看| 久久精品国产99精品国产亚洲性色| 黄色成人免费大全| 欧美性猛交╳xxx乱大交人| 黄色丝袜av网址大全| 国内精品美女久久久久久| 色播亚洲综合网| 精品国内亚洲2022精品成人| avwww免费| 一进一出抽搐动态| 国语自产精品视频在线第100页| 淫秽高清视频在线观看| 日本在线视频免费播放| 精品一区二区三区视频在线观看免费| 他把我摸到了高潮在线观看| 欧美日韩乱码在线| 十八禁人妻一区二区| 国产精品美女特级片免费视频播放器| 99久久精品国产亚洲精品| 国产97色在线日韩免费| 91麻豆av在线| 在线观看免费午夜福利视频| 欧美绝顶高潮抽搐喷水| 久久这里只有精品中国| 女警被强在线播放| 国语自产精品视频在线第100页| 亚洲狠狠婷婷综合久久图片| 99久久成人亚洲精品观看| 亚洲精品一区av在线观看| 亚洲最大成人手机在线| 搡女人真爽免费视频火全软件 | 亚洲专区中文字幕在线| 性色av乱码一区二区三区2| 99热精品在线国产| 亚洲片人在线观看| 熟女人妻精品中文字幕| 国产熟女xx| 国产亚洲欧美在线一区二区| 国内久久婷婷六月综合欲色啪| 国产极品精品免费视频能看的| 男女之事视频高清在线观看| 一级毛片高清免费大全| 97超视频在线观看视频| 国产精品久久久久久久久免 | 国产欧美日韩精品一区二区| 国产免费av片在线观看野外av| 中文字幕精品亚洲无线码一区| 日韩精品中文字幕看吧| 国产亚洲欧美在线一区二区| 亚洲久久久久久中文字幕| 国产野战对白在线观看| 在线观看日韩欧美| 亚洲国产高清在线一区二区三| 日韩av在线大香蕉| av专区在线播放| 欧美午夜高清在线| 精品日产1卡2卡| 亚洲美女黄片视频| 国产精品美女特级片免费视频播放器| 999久久久精品免费观看国产| 午夜免费激情av| 男女午夜视频在线观看| 午夜免费激情av| 婷婷精品国产亚洲av| 免费大片18禁| 18+在线观看网站| 天堂√8在线中文| 精品人妻一区二区三区麻豆 | 97碰自拍视频| 日韩有码中文字幕| 波野结衣二区三区在线 | 美女高潮的动态| 免费在线观看影片大全网站| 成人无遮挡网站| 手机成人av网站| 日本a在线网址| 亚洲最大成人中文| 国产一区二区三区在线臀色熟女| 99热这里只有是精品50| 黄色女人牲交| 亚洲人成网站在线播| 在线视频色国产色| e午夜精品久久久久久久| 国产高潮美女av| 午夜精品在线福利| 在线天堂最新版资源| 亚洲av熟女| 国产精品99久久久久久久久| 国产亚洲欧美在线一区二区| 日韩大尺度精品在线看网址| 亚洲,欧美精品.| 丰满人妻熟妇乱又伦精品不卡| 国产不卡一卡二| 国产亚洲欧美98| 婷婷精品国产亚洲av在线| 亚洲五月天丁香| 成年版毛片免费区| 黄色视频,在线免费观看| 成人一区二区视频在线观看| 国产精品,欧美在线| 高清在线国产一区| eeuss影院久久| 国产69精品久久久久777片| 日本五十路高清| 51国产日韩欧美| 日本免费一区二区三区高清不卡| 1024手机看黄色片| 免费在线观看影片大全网站| 成年人黄色毛片网站| 亚洲 欧美 日韩 在线 免费| 国产精华一区二区三区| 亚洲成人免费电影在线观看| 日本一二三区视频观看| 欧美区成人在线视频| 日本一二三区视频观看| 日韩中文字幕欧美一区二区| 精品久久久久久久末码| 三级男女做爰猛烈吃奶摸视频| 久久精品91无色码中文字幕| 波野结衣二区三区在线 | 成年免费大片在线观看| 91字幕亚洲| 国产精品美女特级片免费视频播放器| 1000部很黄的大片| 欧美色视频一区免费| 欧美日韩黄片免| 久久九九热精品免费| 午夜福利在线观看免费完整高清在 | 亚洲国产欧美网| 久久香蕉国产精品| 美女被艹到高潮喷水动态| 国产一区二区激情短视频| av专区在线播放| 色综合站精品国产| 国产伦精品一区二区三区四那| 有码 亚洲区| 99精品在免费线老司机午夜| 亚洲内射少妇av| 国产欧美日韩精品一区二区| 一二三四社区在线视频社区8| 免费在线观看日本一区| 有码 亚洲区| 少妇的逼水好多| 90打野战视频偷拍视频| 成人欧美大片| 久久久国产精品麻豆| 香蕉久久夜色| 日本a在线网址| 亚洲色图av天堂| 免费搜索国产男女视频| h日本视频在线播放| 欧美成人一区二区免费高清观看| 久久香蕉精品热| 午夜精品在线福利| 91久久精品电影网| 少妇人妻精品综合一区二区 | 国产真实乱freesex| 国产乱人视频| 精品无人区乱码1区二区| 日韩成人在线观看一区二区三区| 亚洲第一欧美日韩一区二区三区| 国产精品av视频在线免费观看| 日韩欧美国产在线观看| 亚洲精品色激情综合| 可以在线观看毛片的网站| 午夜福利免费观看在线| 好看av亚洲va欧美ⅴa在| 中文字幕熟女人妻在线| 久久精品国产亚洲av涩爱 | 久久精品国产自在天天线| 色av中文字幕| 国产免费av片在线观看野外av| 九色国产91popny在线| 波多野结衣高清作品| 国产在线精品亚洲第一网站| 99在线人妻在线中文字幕| 在线国产一区二区在线| 午夜亚洲福利在线播放| 手机成人av网站| 午夜福利视频1000在线观看| 每晚都被弄得嗷嗷叫到高潮| 热99re8久久精品国产| 国产午夜精品久久久久久一区二区三区 | 久久香蕉国产精品| 在线观看舔阴道视频| 性色av乱码一区二区三区2| 黄色日韩在线| 1024手机看黄色片| 午夜免费成人在线视频| 成年女人毛片免费观看观看9| 精品国产三级普通话版| 两个人看的免费小视频| 国产精品三级大全| 欧美丝袜亚洲另类 | 操出白浆在线播放| 久久人人精品亚洲av| 法律面前人人平等表现在哪些方面| 国产男靠女视频免费网站| 欧美日韩亚洲国产一区二区在线观看| 欧美午夜高清在线| 国产精品野战在线观看| 乱人视频在线观看| 免费无遮挡裸体视频| 久久九九热精品免费| 国产精品影院久久| 欧美极品一区二区三区四区| 国产精品一及| 麻豆一二三区av精品| 18禁美女被吸乳视频| av天堂中文字幕网| 最近在线观看免费完整版|