• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    強(qiáng)化學(xué)習(xí)中的策略重用:研究進(jìn)展

    2022-03-11 01:50:48唐文泉
    關(guān)鍵詞:狀態(tài)文獻(xiàn)函數(shù)

    何 立, 沈 亮, 李 輝,2,*, 王 壯, 唐文泉

    (1. 四川大學(xué)計(jì)算機(jī)(軟件)學(xué)院, 四川 成都 610065; 2. 四川大學(xué)視覺(jué)合成圖形圖像技術(shù)國(guó)家級(jí)重點(diǎn)實(shí)驗(yàn)室, 四川 成都 610065; 3. 江西洪都航空工業(yè)集團(tuán)有限責(zé)任公司, 江西 南昌 330024)

    0 引 言

    深度學(xué)習(xí)(deep learning, DL)被認(rèn)為是解決連續(xù)決策任務(wù)的一個(gè)有原則和有效的方法,在這個(gè)方法中,學(xué)習(xí)智能體通過(guò)與環(huán)境進(jìn)行交互,不斷試錯(cuò)來(lái)提高其性能。近年來(lái),隨著強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)的快速發(fā)展,將RL算法嵌入DL框架組合而成的新結(jié)構(gòu)深度RL(deep RL, DRL)進(jìn)一步推動(dòng)了RL的發(fā)展。

    無(wú)論是在學(xué)術(shù)界還是在工業(yè)界,DRL都被廣泛應(yīng)用以解決之前難以解決的任務(wù),比如,其在控制、游戲中的人機(jī)對(duì)抗等領(lǐng)域都取得了不錯(cuò)的成績(jī)。尤其是當(dāng)AlphaStar和AlphaGo在與頂級(jí)人類玩家的對(duì)弈中取得勝利,這些足以說(shuō)明DRL取得的巨大成功。

    雖然RL在不斷發(fā)展和進(jìn)步,但在將其應(yīng)用到諸多場(chǎng)景中的時(shí)候,依然面臨著困難和挑戰(zhàn),例如高采樣復(fù)雜度和脆弱的收斂性等。除此之外,RL問(wèn)題中的環(huán)境模型一般來(lái)說(shuō)是未知的,智能體只有在保證與環(huán)境充分交互的前提下,才能利用與環(huán)境交互得到的知識(shí)來(lái)提升自身的性能。由于環(huán)境反饋的信息存在部分可觀測(cè)性、獎(jiǎng)勵(lì)稀疏性、延遲性以及高維度的觀測(cè)值和動(dòng)作空間等問(wèn)題,智能體在不借助任何先驗(yàn)知識(shí)的情況下收斂到最優(yōu)策略是非常困難和耗時(shí)的。遷移學(xué)習(xí)(transfer learning, TL)是一種用相關(guān)的、類似的數(shù)據(jù)來(lái)訓(xùn)練相似問(wèn)題的方法,能夠?qū)W(xué)習(xí)到的知識(shí)從一個(gè)場(chǎng)景遷移到另一個(gè)場(chǎng)景。這種利用外部專業(yè)知識(shí)來(lái)加速智能體的學(xué)習(xí)過(guò)程的思想,在很大程度上能夠彌補(bǔ)RL缺乏先驗(yàn)知識(shí)的問(wèn)題。將TL應(yīng)用在RL中的一個(gè)顯著效果是保證了RL訓(xùn)練結(jié)果的復(fù)用性和時(shí)效性。主要原因是TL能夠復(fù)用現(xiàn)有的知識(shí),不會(huì)丟棄已有的大量工作和成果,而這一點(diǎn)是RL無(wú)法做到的。此外,對(duì)于新問(wèn)題,TL能夠快速遷移和應(yīng)用已有的成果,體現(xiàn)時(shí)效性的優(yōu)勢(shì)。

    策略重用(policy reuse, PR)作為一種TL方法,通過(guò)將源任務(wù)中的最優(yōu)策略遷移到目標(biāo)任務(wù)中來(lái)解決上述RL中的問(wèn)題,也因而成為RL領(lǐng)域的一個(gè)熱門研究課題。

    本綜述所作的貢獻(xiàn):從策略結(jié)構(gòu)的角度出發(fā),對(duì)現(xiàn)有的RL中的PR方法進(jìn)行了總結(jié)、分析和對(duì)比,并擴(kuò)展到了DRL和多智能體領(lǐng)域,為研究者提供了新的研究思路和未來(lái)研究方向的建議。

    1 基本概念

    本節(jié)簡(jiǎn)述了RL、DRL和PR的基本概念,并且說(shuō)明了這篇綜述中所需要使用到的一些關(guān)鍵術(shù)語(yǔ)。

    1.1 RL

    典型的RL問(wèn)題是訓(xùn)練一個(gè)RL智能體與一個(gè)滿足馬爾可夫決策過(guò)程(Markov decision process,MDP)標(biāo)準(zhǔn)的環(huán)境交互。在每次與環(huán)境的交互中,智能體從初始狀態(tài)開始,識(shí)別自身所處的狀態(tài),并遵循某種策略執(zhí)行相應(yīng)的動(dòng)作,環(huán)境則會(huì)產(chǎn)生該“狀態(tài)-動(dòng)作”對(duì)的獎(jiǎng)勵(lì)。執(zhí)行完動(dòng)作后,MDP將會(huì)依據(jù)轉(zhuǎn)移函數(shù)過(guò)渡到下一個(gè)狀態(tài)。智能體在與環(huán)境的交互過(guò)程中累積折扣獎(jiǎng)勵(lì),這一系列的相互作用稱為一個(gè)episode。RL問(wèn)題就是重復(fù)訓(xùn)練大量的episode直至智能體學(xué)習(xí)到最優(yōu)策略。圖1表示RL的基本框架。

    圖1 RL基本框架Fig.1 Basic framework of RL

    在目前的RL問(wèn)題中,都是采用MDP來(lái)描述RL任務(wù)。MDP表示為一個(gè)五元組=〈,,,,〉,其中:是狀態(tài)空間;是動(dòng)作空間;:××→[0,1]是智能體在狀態(tài)∈下采取動(dòng)作∈轉(zhuǎn)移到下一個(gè)狀態(tài)′∈的概率分布;:×→是智能體在狀態(tài)下采取動(dòng)作轉(zhuǎn)移到下一個(gè)狀態(tài)′所得到的環(huán)境反饋的即時(shí)獎(jiǎng)勵(lì);是折扣因子,∈(0,1],用于平衡瞬時(shí)獎(jiǎng)勵(lì)和長(zhǎng)期獎(jiǎng)勵(lì)對(duì)總獎(jiǎng)勵(lì)的影響。

    (1)

    (2)

    與狀態(tài)值函數(shù)類似,每個(gè)策略還關(guān)聯(lián)一個(gè)在狀態(tài)和動(dòng)作上定義的函數(shù),用于評(píng)估“狀態(tài)-動(dòng)作”對(duì)的表現(xiàn),表示為

    (3)

    (4)

    上述兩種方法都是基于值函數(shù)(value based,VB)的RL方法,其中的經(jīng)典算法有Q-learning、Sarsa等。與上述方法不同,基于策略梯度(policy pradient,PG)的方法用參數(shù)化后的策略來(lái)替代函數(shù),再用梯度下降方法來(lái)近似求解最優(yōu)策略。這類RL方法中的經(jīng)典算法有PG、確定性PG(deterministic PG, DPG)。

    1.2 DRL

    傳統(tǒng)RL方法常會(huì)遭遇“維度災(zāi)難”,即狀態(tài)和動(dòng)作空間有時(shí)候會(huì)非常復(fù)雜,×的維度過(guò)于龐大。比如Q-learning,通過(guò)將“狀態(tài)-動(dòng)作”對(duì)的值存入表格,讀取表格數(shù)據(jù)來(lái)進(jìn)行學(xué)習(xí)。一旦×的維度過(guò)大,表格的規(guī)模也會(huì)相應(yīng)增大,算法迭代收斂的時(shí)間就會(huì)非常長(zhǎng),甚至無(wú)法收斂。除此之外,還有學(xué)習(xí)速度慢、獎(jiǎng)勵(lì)稀疏和泛化性差等問(wèn)題。

    DRL通過(guò)利用深度神經(jīng)網(wǎng)絡(luò)近似值函數(shù)和策略,以解決高維度狀態(tài)和動(dòng)作空間的問(wèn)題。深度Q網(wǎng)絡(luò)(deep Q-network,DQN)是一種經(jīng)典的基于值函數(shù)的DRL方法,用神經(jīng)網(wǎng)絡(luò)近似值函數(shù),而且不再用表格去存儲(chǔ)值,取而代之的是用經(jīng)驗(yàn)回放池(experience replay buffer,ERB)存儲(chǔ)智能體與環(huán)境交互后的經(jīng)驗(yàn)單元〈,,,′〉,以便智能體通過(guò)從ERB中采樣的方式訓(xùn)練和更新神經(jīng)網(wǎng)絡(luò)參數(shù)。

    VB方法的缺點(diǎn)在于難以解決連續(xù)動(dòng)作空間的問(wèn)題,PG方法則沒(méi)有這方面的困擾。具有代表性的方法如深度DPG (deep DPG, DDPG)。其基于行動(dòng)者-評(píng)論者(actor-critic,AC)框架,包含4個(gè)神經(jīng)網(wǎng)絡(luò):Actor當(dāng)前網(wǎng)絡(luò)負(fù)責(zé)策略網(wǎng)絡(luò)參數(shù)的迭代更行,根據(jù)當(dāng)前狀態(tài)選擇動(dòng)作,與環(huán)境交互生成下一個(gè)狀態(tài)′和獎(jiǎng)勵(lì);Actor目標(biāo)網(wǎng)絡(luò)定期復(fù)制網(wǎng)絡(luò)參數(shù),根據(jù)從經(jīng)驗(yàn)池采樣的下一狀態(tài)′來(lái)選擇下一動(dòng)作′;Critic當(dāng)前網(wǎng)絡(luò)負(fù)責(zé)價(jià)值網(wǎng)絡(luò)參數(shù)的更新,用于計(jì)算當(dāng)前的值;Critic目標(biāo)網(wǎng)絡(luò)定期復(fù)制網(wǎng)絡(luò)參數(shù),計(jì)算目標(biāo)值。除了DDPG,還有異步優(yōu)勢(shì)行動(dòng)者-評(píng)論者(asynchronous advantage actor-critic,A3C)算法和近端策略優(yōu)化(proximal policy optimization,PPO)等算法。

    1.3 PR

    DRL雖然在一定程度上解決了高維度狀態(tài)和動(dòng)作空間的問(wèn)題,但是其在解決兩個(gè)相似問(wèn)題的時(shí)候,依然需要從零訓(xùn)練,學(xué)習(xí)速度慢、資源消耗大和難以復(fù)用的問(wèn)題仍然存在。比如現(xiàn)有兩個(gè)RL問(wèn)題,表示為=〈,,,,〉和=〈,,,,〉,這兩個(gè)問(wèn)題之間的差異僅僅在于獎(jiǎng)勵(lì)函數(shù)。然而狀態(tài)值函數(shù)()和函數(shù)(,)高度依賴MDP,這意味著,無(wú)論是基于值的方法還是基于策略的方法,只要問(wèn)題稍稍改變,()和(,)等過(guò)去的知識(shí)都不再適用,之前的學(xué)習(xí)結(jié)果就會(huì)失效,而重新訓(xùn)練的代價(jià)卻是巨大的。對(duì)于此類RL問(wèn)題,高昂的訓(xùn)練代價(jià)和事倍功半的效率的缺陷日益突出,這加速了將TL方法應(yīng)用在RL中的進(jìn)程。

    PR作為一種可以遷移RL訓(xùn)練結(jié)果的TL方法,通過(guò)重用過(guò)去的經(jīng)驗(yàn)知識(shí)來(lái)加速新任務(wù)的學(xué)習(xí),很大程度上解決了上述RL面臨的問(wèn)題。

    為了便于說(shuō)明和理解,將MDP等同于領(lǐng)域、任務(wù)或環(huán)境等概念。

    PR的雛形源于文獻(xiàn)[17],其所提出的方法基于行為遷移(behavior transfer,BT),通過(guò)將學(xué)習(xí)到的值函數(shù)從一個(gè)任務(wù)轉(zhuǎn)移到另一個(gè)相似的任務(wù)來(lái)加速學(xué)習(xí)。將給定的任務(wù)1的初始策略定義為

    (,,,,,)?

    (5)

    此策略從開始。則使用作為與任務(wù)1相似的任務(wù)2的初始策略,來(lái)學(xué)習(xí)任務(wù)2的最優(yōu)策略:

    (,,,,,π)?

    (6)

    這種方法需要對(duì)值函數(shù)進(jìn)行轉(zhuǎn)換,存在一定的局限性,但是對(duì)后續(xù)PR方法的發(fā)展起到很大的啟發(fā)作用。

    (7)

    式中:,分別表示最大episode數(shù)、每個(gè)episode中的最大步數(shù);,表示第個(gè)episode中第步智能體接收的瞬時(shí)獎(jiǎng)勵(lì)。

    PR過(guò)程中,智能體與環(huán)境的交互過(guò)程如圖2所示,其中紅色虛線圓圈中的MDP元素可能會(huì)在源和目標(biāo)任務(wù)之間發(fā)生變化。

    圖2 智能體與環(huán)境交互過(guò)程Fig.2 Process of interaction between agent and environment

    2 任務(wù)間映射的方法

    在介紹PR的方法之前,首先需要明確:PR效果的好壞很大程度上決定于源任務(wù)和目標(biāo)任務(wù)之間的相似性。然而擁有完全相同的狀態(tài)空間和動(dòng)作空間的任務(wù)過(guò)于理想化,因而研究如何準(zhǔn)確地進(jìn)行源任務(wù)和目標(biāo)任務(wù)之間的映射也是PR中的熱門方向。

    早期工作中,文獻(xiàn)[19]假設(shè)目標(biāo)任務(wù)中的動(dòng)作和狀態(tài)在源任務(wù)種存在唯一對(duì)應(yīng)的關(guān)系,如圖3所示。其中,分別是狀態(tài)和動(dòng)作上的映射函數(shù),是源任務(wù)向目標(biāo)任務(wù)映射值的函數(shù)。在此基礎(chǔ)上,文獻(xiàn)[20]將手動(dòng)設(shè)置的專家建議作為一種離線知識(shí)在源任務(wù)和目標(biāo)任務(wù)之間傳遞,這個(gè)專家建議依據(jù)值的大小給動(dòng)作進(jìn)行排名,以便智能體在目標(biāo)任務(wù)中選擇更好的動(dòng)作。然而以上兩種映射方法最大的問(wèn)題在于默認(rèn)了目標(biāo)任務(wù)中的狀態(tài)和動(dòng)作的映射在源任務(wù)中是唯一的,這顯然是不切實(shí)際的。同時(shí),這種映射需要人工去完成,不具有通用性。因此,文獻(xiàn)[21-23]的工作是研究如何讓智能體自動(dòng)學(xué)習(xí)映射函數(shù),將狀態(tài)表示分為特定于智能體和特定于任務(wù),文獻(xiàn)[21]和文獻(xiàn)[22]在上學(xué)習(xí)映射函數(shù)并用該映射來(lái)設(shè)計(jì)即時(shí)獎(jiǎng)勵(lì)。該方法的好處是從上映射的狀態(tài)空間可以同時(shí)用于具有不同動(dòng)作空間但共享相似的狀態(tài)空間的智能體上。

    圖3 源和目標(biāo)任務(wù)間的映射Fig.3 Mapping between source and target tasks

    總而言之,當(dāng)前任務(wù)間映射的工作都基于源和目標(biāo)任務(wù)之間存在一對(duì)一的映射這種假設(shè)。所映射的內(nèi)容包括狀態(tài)、函數(shù)或轉(zhuǎn)移函數(shù)。這些映射的知識(shí)除了能夠直接應(yīng)用在目標(biāo)任務(wù)上,還能夠作為額外獎(jiǎng)勵(lì)或最小化的損失函數(shù),以這種形式來(lái)引導(dǎo)智能體在目標(biāo)任務(wù)中的學(xué)習(xí)。表1總結(jié)了主要的任務(wù)間映射方法。

    表1 任務(wù)間映射方法總結(jié)

    3 PR的分類

    本文從是否基于策略結(jié)構(gòu)的角度將目前存在的PR方法分為策略重構(gòu)、獎(jiǎng)勵(lì)設(shè)計(jì)、問(wèn)題轉(zhuǎn)換和相似性度量等方面。但是在部分RL問(wèn)題中,解決方案往往結(jié)合了多種PR方法,以取得更好的效果。下面將分別從這幾個(gè)方面系統(tǒng)地介紹和分析PR方法。

    3.1 策略重構(gòu)類

    在改變策略結(jié)構(gòu)的前提下,根據(jù)改變策略結(jié)構(gòu)方法的不同,PR方法又可分為外部協(xié)助、概率探索和策略蒸餾/整合等方面。

    3.1.1 外部協(xié)助

    在完成重用過(guò)去的策略這項(xiàng)工作時(shí),只要在可接受的范圍內(nèi),外部協(xié)助往往能夠在促進(jìn)學(xué)習(xí)目標(biāo)任務(wù)方面表現(xiàn)出不錯(cuò)的效果。該外部協(xié)助可能來(lái)自不同的源頭,具有不同的質(zhì)量,可能來(lái)自人類專家、專家演示以及近似最優(yōu)或次優(yōu)的專家策略等。總的來(lái)說(shuō),這些外部協(xié)助都是依靠人類來(lái)完成的。大部分這種結(jié)合外部協(xié)助的PR方法都是針對(duì)特定的目標(biāo)域而言,即源任務(wù)和目標(biāo)任務(wù)是相同的。當(dāng)然也有針對(duì)不同目標(biāo)域的工作,如文獻(xiàn)[31]在針對(duì)轉(zhuǎn)移函數(shù)不同的任務(wù)時(shí),通過(guò)偏差修正的方法來(lái)使智能體盡量不偏離專家策略,以此來(lái)保證重用的有效性。

    文獻(xiàn)[32]提出了一種利用人力為每個(gè)狀態(tài)都綁定一個(gè)策略來(lái)構(gòu)成一個(gè)稱為“提示”的二元組〈π,〉的空間提示PR方法。這相當(dāng)于為每個(gè)狀態(tài)都打上標(biāo)簽,當(dāng)智能體處于某個(gè)狀態(tài)時(shí),就使用對(duì)應(yīng)的策略,這樣能夠保證每個(gè)提示可以解決一個(gè)任務(wù)。顯然,當(dāng)狀態(tài)空間過(guò)大時(shí),為每個(gè)狀態(tài)都指定一個(gè)策略是不現(xiàn)實(shí)的。作者考慮到這點(diǎn),將綁定了策略的狀態(tài)作為參考狀態(tài)(reference state,RS),用一個(gè)變量reach來(lái)估計(jì)策略在其參考狀態(tài)周圍的表現(xiàn)。將reach與每個(gè)提示聯(lián)系起來(lái),綜合考慮當(dāng)前狀態(tài)(current state,CS)與參考狀態(tài)之間的距離和策略的表現(xiàn)來(lái)相應(yīng)地增加reach的值,再依據(jù)reach的大小來(lái)選擇提示,該文中用曼哈頓距離作為度量reach的標(biāo)準(zhǔn):

    (8)

    在狀態(tài)空間定義的其他度量均可。

    專家演示是一種通過(guò)利用提供的演示進(jìn)行有效的探索來(lái)幫助智能體學(xué)習(xí)的方法。就目前來(lái)說(shuō),專家演示在利用外部協(xié)助的PR方法上應(yīng)用得最為廣泛,發(fā)展得也最為迅速。其主要原因是這種方式直接簡(jiǎn)便、效果顯著。根據(jù)何時(shí)將演示用于知識(shí)遷移,該類方法可以分為離線方法、在線方法和在線離線相結(jié)合。離線方法是在應(yīng)用專家演示之前對(duì)RL中的元素進(jìn)行預(yù)訓(xùn)練,如值函數(shù)()和策略。Kurenkov 等人提出了在智能體學(xué)習(xí)的過(guò)程中重用專家演示這種離線知識(shí),使其快速實(shí)現(xiàn)高性能的方法。文獻(xiàn)[36]使用預(yù)訓(xùn)練后的值函數(shù)加速了DDPG算法的學(xué)習(xí)過(guò)程,并在理論上論證了他們方法的可行性。Silver等人在著名的AlphaGo項(xiàng)目中用預(yù)先訓(xùn)練的策略選擇動(dòng)作,來(lái)幫助其擊敗人類頂級(jí)圍棋選手。不同于文獻(xiàn)[36],文獻(xiàn)[37]用演示來(lái)初始化值函數(shù)或策略,Schaal等人[38]的工作則用演示來(lái)初始化任務(wù)的動(dòng)態(tài)模型。這些方法雖然在一定程度上加快了收斂,但是這一切都是建立在人類能夠提供準(zhǔn)確的經(jīng)驗(yàn)的基礎(chǔ)上,也就是說(shuō)這些專家演示本身未必最優(yōu),并且預(yù)訓(xùn)練的過(guò)程可能漫長(zhǎng)和繁雜,從總的學(xué)習(xí)過(guò)程來(lái)看,該方法并沒(méi)有在學(xué)習(xí)時(shí)間上有較大的縮減。對(duì)于在線學(xué)習(xí)方法,則是拋棄了預(yù)訓(xùn)練的過(guò)程,將專家演示直接用于RL階段,使智能體的行為偏向于有利的探索。然而當(dāng)不能保證演示的質(zhì)量的時(shí)候,學(xué)習(xí)的效果可能不盡如人意。文獻(xiàn)[40]利用RL提供的理論保證,通過(guò)專家演示和獎(jiǎng)勵(lì)設(shè)計(jì)的過(guò)程來(lái)加速學(xué)習(xí)。這種方法的優(yōu)勢(shì)在于利用人類的輸入的同時(shí)不會(huì)對(duì)演示的最優(yōu)性做出錯(cuò)誤的假設(shè)。除此之外,該方法需要的演示更少,對(duì)演示的次優(yōu)具有更強(qiáng)的魯棒性。除此之外,現(xiàn)在的很多研究都是將離線預(yù)培訓(xùn)和在線學(xué)習(xí)的方法結(jié)合起來(lái),如Nair等人的工作建立在DDPG框架和事后經(jīng)驗(yàn)回放(hindsight experience buffer,HEB)上,用DDPG框架來(lái)從演示中學(xué)習(xí)。該方法還通過(guò)利用行為克隆損失(behavior cloning loss,BCL)解決了演示次優(yōu)的問(wèn)題,對(duì)具有較高值的演示動(dòng)作進(jìn)行損失懲罰:

    (9)

    式中:Ⅱ[·]表示值損失的懲罰值;||是專家演示的模。

    利用專家演示來(lái)加速學(xué)習(xí)面臨著一些挑戰(zhàn),第一個(gè)是不完美的演示。這雖然是意料之中的情況,但是這種對(duì)環(huán)境有偏差的演示會(huì)對(duì)最終的學(xué)習(xí)效果造成一定的影響。目前針對(duì)不完美演示的解決方法包括改變目標(biāo)函數(shù)。例如,文獻(xiàn)[42]所提出的hinge-loss函數(shù),允許少數(shù)違反(,())-max()(,)≥1性質(zhì)的情況的發(fā)生。第二個(gè)挑戰(zhàn)是過(guò)擬合。這個(gè)問(wèn)題是由人類能夠提供的專家演示總是有限的而導(dǎo)致的。因?yàn)樵谶@些有限數(shù)量的演示當(dāng)中,可能沒(méi)有包含對(duì)目標(biāo)域中出現(xiàn)的所有狀態(tài)的指導(dǎo)。目前解決這種問(wèn)題的方案包括使用熵正則化目標(biāo)來(lái)鼓勵(lì)智能體的探索。一般來(lái)說(shuō),專家演示可以通過(guò)離線預(yù)訓(xùn)練和在線學(xué)習(xí)來(lái)更好地初始化目標(biāo)任務(wù)的學(xué)習(xí)以及實(shí)現(xiàn)有效的探索。但是如何使用次優(yōu)、有限的專家演示加速學(xué)習(xí),會(huì)是PR方法中的一個(gè)重要研究方向。

    312 概率探索

    鑒于以上兩個(gè)缺陷,Fernández 等人提出了一種在重用策略庫(kù)的過(guò)程中同時(shí)增加探索的動(dòng)作選擇策略π-reuse,該策略庫(kù)包含過(guò)去任務(wù)的策略。他們?cè)趯W(xué)習(xí)的過(guò)程中逐漸降低重用過(guò)去策略的概率,相應(yīng)的在增大的那部分概率中使用-greedy探索策略去探索目標(biāo)任務(wù),公式化表達(dá)如下:

    (10)

    式中:,分別表示過(guò)去的策略和正在學(xué)的新策略。這種方法能保證智能體在學(xué)習(xí)最優(yōu)目標(biāo)策略的時(shí)候能夠充分探索,避免收斂到次優(yōu)策略。同時(shí)還使用一個(gè)參數(shù)封裝探索策略的所有參數(shù),然后用該值來(lái)衡量所重用策略的有用性,再依此判斷是否要將該策略放入策略庫(kù)中。作者定義了最有用的重用策略。

    =argmax(),=1,2,…,

    (11)

    這種方法為PR中的概率探索方法的后續(xù)相關(guān)研究提供了思路。但這種方法有一個(gè)限制,就是要經(jīng)常性地評(píng)估,即每個(gè)專家策略對(duì)目標(biāo)任務(wù)的期望回報(bào)。改進(jìn)前的算法時(shí)間復(fù)雜度為(log),改進(jìn)后為(),這無(wú)疑增加了算法的復(fù)雜度。另外,雖然允許單個(gè)目標(biāo)狀態(tài)在任務(wù)之間是不同的,但是要求,和都不變,這種限制過(guò)于苛刻。文獻(xiàn)[46]克服了這種嚴(yán)格的限制,通過(guò)狀態(tài)映射和動(dòng)作映射::→和:→,將轉(zhuǎn)換為可以在目標(biāo)任務(wù)中執(zhí)行的新策略:

    (12)

    但是這種任務(wù)映射一方面需要人工定義,當(dāng)狀態(tài)空間和動(dòng)作空間過(guò)大時(shí),人工的耗費(fèi)難以接受;另一方面,這種任務(wù)映射不具有通用性。比如說(shuō),對(duì)于3個(gè)任務(wù)=〈,,,,〉,=〈,,,,〉和=〈,,,,〉,,是任務(wù)1,2之間的映射組,則其只適用于任務(wù)1,2之間,將其用于任務(wù)1,3或者任務(wù)2,3就行不通。

    李學(xué)俊等人將上述提到的概率探索方法應(yīng)用到RoboCup 2D Keepaway的高層搶球動(dòng)作決策中,通過(guò)將4v3任務(wù)的策略遷移到5v4任務(wù)的學(xué)習(xí)中,縮短了訓(xùn)練的時(shí)間,并且相較于普通的RL方法能夠更快地收斂到令人滿意的策略。

    文獻(xiàn)[48]提出了一種建立隨機(jī)抽象策略來(lái)概括過(guò)去知識(shí)的方法。這種方法將源任務(wù)之前所有的解決方案歸納為單個(gè)抽象策略,該策略以抽象后的狀態(tài)和動(dòng)作的關(guān)系∑=∪表示,然后在新任務(wù)的學(xué)習(xí)過(guò)程中使用,以便讓智能體在學(xué)習(xí)的早期就能表現(xiàn)出較好的效果。除此之外,文獻(xiàn)[48]還提出了一種基于PR的Q學(xué)習(xí)(PR Q-learning,PRQL)算法的通用框架,允許學(xué)習(xí)者通過(guò)協(xié)調(diào)利用過(guò)去的經(jīng)驗(yàn)、隨機(jī)探索和利用在新任務(wù)學(xué)習(xí)過(guò)程中獲得的新知識(shí)來(lái)表現(xiàn)出更適當(dāng)?shù)谋憩F(xiàn)。

    Narayan等人提出了一種通過(guò)使用類似-greedy的方法有概率地構(gòu)建任務(wù)子空間并探索子空間生成子策略的方法。這種方法在一定程度上既保證了最后學(xué)出來(lái)的目標(biāo)策略的最優(yōu)性,又加速了學(xué)習(xí)的過(guò)程。當(dāng)然,這種方法中不僅僅包括概率探索,還包括策略整合,這些將在后文中進(jìn)行說(shuō)明。

    上述的探索策略都屬于非定向探索,這種探索方法的特點(diǎn)是局部的,隨機(jī)選擇動(dòng)作,比如說(shuō)ε-greedy。相比之下,定向探索使用了全局信息來(lái)系統(tǒng)地確定要嘗試的動(dòng)作。文獻(xiàn)[50]通過(guò)任務(wù)間映射結(jié)合可證明有效的延遲Q學(xué)習(xí)(delayed Q-learning,DQL)算法分析動(dòng)作值的遷移,表達(dá)式如下:

    (13)

    式中:是任務(wù)間映射函數(shù);是領(lǐng)域。該算法使用定向探索策略“不確定行為優(yōu)先探索(optimism in the face of uncertainty,OFU)”在目標(biāo)任務(wù)中學(xué)習(xí)更快,同時(shí)可以避免最優(yōu)性的損失,即“正遷移”。但該方法有一個(gè)缺陷是:如果不解決兩個(gè)任務(wù),就沒(méi)有通用的方法來(lái)獲得任務(wù)之間適合的任務(wù)間映射。OFU定向探索策略的工作示意圖如圖4所示。

    圖4 OFU定向策略工作示意圖Fig.4 Work diagram of OFU directional policy

    3.1.3 策略蒸餾/整合

    對(duì)于重用策略,研究人員首先想到的就是直接重用源策略(值),但是這種方法的弊端在前文中已經(jīng)說(shuō)明了:容易導(dǎo)致負(fù)遷移。為了剔除源策略中不適用于目標(biāo)任務(wù)的部分,文獻(xiàn)[43]只使用在相似問(wèn)題中學(xué)到的策略的一部分,并在學(xué)習(xí)中保持策略的這部分不變。這種方法雖然提高了學(xué)習(xí)的速度,但是犧牲了策略的最優(yōu)性。

    假設(shè)有一系列狀態(tài)空間和動(dòng)作空間相同,轉(zhuǎn)移函數(shù)和獎(jiǎng)勵(lì)函數(shù)不同的任務(wù)。這類任務(wù)的特點(diǎn)是變化的范圍是未知和無(wú)窮的,可以利用學(xué)習(xí)策略中的共同結(jié)構(gòu)來(lái)加速目標(biāo)策略的學(xué)習(xí)。文獻(xiàn)[54]提出了一種利用神經(jīng)網(wǎng)絡(luò)擬合一個(gè)概率模型的采樣軌跡去學(xué)習(xí)策略空間結(jié)構(gòu)的增量學(xué)習(xí)框架(incremental learning of policy space structure, ILPSS)。該軌跡用成功(“+”)或失敗(“-”) 來(lái)標(biāo)記是否到達(dá)目標(biāo)狀態(tài),在后續(xù)的學(xué)習(xí)中只重用成功的軌跡。并將學(xué)習(xí)到的策略片段分配給概率模型當(dāng)作一個(gè)“選項(xiàng)”,在之后的任務(wù)中用來(lái)生成更多的采樣軌跡,具體流程如圖5所示。

    圖5 ILPSS工作流程圖Fig.5 Work flow chart of ILPSS

    Rusu等人提出了一種根據(jù)專家網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)值的誤差來(lái)確定值的回歸目標(biāo)函數(shù),來(lái)使學(xué)生網(wǎng)絡(luò)逼近專家網(wǎng)絡(luò)的多任務(wù)PR方法,如圖6所示,可以將多個(gè)任務(wù)最優(yōu)策略整合到單個(gè)策略中,通過(guò)重用整合后的單個(gè)策略來(lái)達(dá)到加速學(xué)習(xí)的目的。但是當(dāng)任務(wù)的參數(shù)規(guī)模和狀態(tài)空間龐大的時(shí)候,需要消耗大量的計(jì)算去訓(xùn)練多任務(wù)策略網(wǎng)絡(luò)。Yin等人提出了一種使用特定任務(wù)的高層次卷積特征作為多任務(wù)策略網(wǎng)絡(luò)輸入的策略蒸餾框架,并利用一個(gè)稱作“分層優(yōu)先經(jīng)驗(yàn)重放”的采樣框架有選擇性地從每個(gè)任務(wù)的經(jīng)驗(yàn)回放池選擇經(jīng)驗(yàn)放到神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)。文獻(xiàn)[57]提出了一種在一組相關(guān)源任務(wù)上訓(xùn)練單個(gè)策略網(wǎng)絡(luò)并將其重用在新任務(wù)中的“Actor-Mimic”方法。這種方法雖然能夠加速新任務(wù)的學(xué)習(xí),但是必須要在源任務(wù)和新任務(wù)之間具有一定相似性的情況下才能實(shí)現(xiàn),因?yàn)槿蝿?wù)間的相似性度量方法直接影響著PR的效果。另外,上面所提到的幾種策略蒸餾方法都有一個(gè)共同的問(wèn)題:同時(shí)訓(xùn)練多項(xiàng)任務(wù)會(huì)對(duì)單個(gè)任務(wù)的表現(xiàn)產(chǎn)生負(fù)面影響。這種負(fù)面影響可能來(lái)自其他任務(wù)的梯度,在極端情況下,一個(gè)任務(wù)甚至可能支配其他的任務(wù)。為了抵消這種負(fù)面的影響,Teh等人讓每個(gè)源任務(wù)單獨(dú)訓(xùn)練并將單個(gè)任務(wù)中獲得的知識(shí)蒸餾到共享策略中,然后再由共享策略提取出共同的結(jié)構(gòu)重用到其他的任務(wù)中,如圖7所示。學(xué)習(xí)過(guò)程就是最大化一個(gè)聯(lián)合目標(biāo)函數(shù)的過(guò)程,其中聯(lián)合目標(biāo)函數(shù)為

    (14)

    式中:是共享策略,是單個(gè)源策略;和是熵正則化因子。這種方法雖然消除了多任務(wù)訓(xùn)練對(duì)單任務(wù)訓(xùn)練所產(chǎn)生的影響,但是其在將單個(gè)任務(wù)中的知識(shí)蒸餾到共享策略中以及將共享策略中提取出的共同結(jié)構(gòu)重用到其他任務(wù)的過(guò)程中增加了計(jì)算量。

    圖6 多任務(wù)策略蒸餾Fig.6 Multi-task policy distillation

    圖7 共享策略工作過(guò)程Fig.7 Working process of shared policy

    國(guó)內(nèi)學(xué)者在這方面也有類似的研究。常田等人提出了隨機(jī)集成策略遷移(stochastic ensemble policy transfer, SEPT)方法。該方法取消了在源策略庫(kù)中每次選擇一個(gè)策略的方式,取而代之的是利用終止概率計(jì)算出源策略的概率權(quán)重,再依據(jù)概率權(quán)重從策略庫(kù)中集成出專家策略。最后通過(guò)策略蒸餾的方式將專家策略遷移到目標(biāo)任務(wù)上去。這種方法避免了估計(jì)源策略在目標(biāo)任務(wù)上的性能的不可靠性和度量目標(biāo)任務(wù)間的相似性時(shí)所帶來(lái)的誤差。

    文獻(xiàn)[48]則換了一種思路,使用貝葉斯變更點(diǎn)檢測(cè)算法尋找環(huán)境發(fā)生變化的位置,以此變更點(diǎn)為起點(diǎn)向后擴(kuò)展步構(gòu)造一個(gè)子空間并將其視為子任務(wù)。然后將在子任務(wù)探索得到的子策略與源策略整合為一個(gè)完整策略去解決目標(biāo)任務(wù)。為了解決只在子任務(wù)中探索而造成的次優(yōu)問(wèn)題,使用了類似-greedy的方法,即在目標(biāo)任務(wù)中探索的時(shí)候以一定的概率強(qiáng)制建立子空間(不管此處是否為變更點(diǎn)),這樣目標(biāo)任務(wù)中的其他狀態(tài)也能夠被探索到,因而最后學(xué)出來(lái)的策略是最優(yōu)的。無(wú)論是重用完整的源策略還是部分源策略,抑或是將多個(gè)源策略蒸餾、整合為一個(gè)最優(yōu)的源策略,這些從策略結(jié)構(gòu)出發(fā)的方法都面臨著一個(gè)共同的問(wèn)題:源任務(wù)和目標(biāo)任務(wù)之間需要具有極高的相似性。即使通過(guò)借助外部的幫助,或者增加概率去探索目標(biāo)任務(wù)的未知領(lǐng)域來(lái)減緩收斂到次優(yōu)策略的情況,但這些方法自身也存在著協(xié)助有限、次優(yōu)或者增加探索而導(dǎo)致的學(xué)習(xí)時(shí)間過(guò)長(zhǎng)等問(wèn)題。如何使策略重構(gòu)得更加契合目標(biāo)任務(wù)是此類PR方法的核心問(wèn)題。表2總結(jié)分析了具有代表性的策略重構(gòu)類的PR方法。

    表2 策略重構(gòu)類方法總結(jié)

    3.2 獎(jiǎng)勵(lì)設(shè)計(jì)類

    獎(jiǎng)勵(lì)設(shè)計(jì)是另一種通過(guò)定義策略之間的相似性或從源策略去定義目標(biāo)任務(wù)策略的方式去加速RL速度的方法。智能體除了學(xué)習(xí)環(huán)境反饋中的獎(jiǎng)勵(lì)外,還額外學(xué)習(xí)一個(gè)包含了先驗(yàn)知識(shí)的獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù):××→來(lái)生成輔助獎(jiǎng)勵(lì),給予智能體在有益狀態(tài)時(shí)以更高的獎(jiǎng)勵(lì)來(lái)加速收斂。獎(jiǎng)勵(lì)函數(shù)的改變將導(dǎo)致任務(wù)的改變:

    =(,,,,)→=(,,,,)

    (15)

    式中:=+。智能體將在新的MDP中學(xué)習(xí)目標(biāo)策略。

    文獻(xiàn)[61]提出了用定義在狀態(tài)空間上的勢(shì)函數(shù)的差值作為獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)的方法基于勢(shì)函數(shù)的獎(jiǎng)勵(lì)設(shè)計(jì)(potential based reward shaping,PBRS):

    (,,′)=(′)-()

    (16)

    在此基礎(chǔ)上,文獻(xiàn)[62]提出了將其擴(kuò)展到基于勢(shì)函數(shù)的狀態(tài)-動(dòng)作對(duì)建議(potential based state-action advice,PBA)的方法:

    (,,′,′)=(′,′)-(,)

    (17)

    這個(gè)方法的一個(gè)限制是需要遵循策略來(lái)學(xué)習(xí),如式(17)所示,′是通過(guò)遵循策略轉(zhuǎn)換到下一個(gè)狀態(tài)′時(shí)要執(zhí)行的動(dòng)作。上述的方法都是基于靜態(tài)的勢(shì)函數(shù),文獻(xiàn)[63]提出了一種將狀態(tài)和時(shí)間結(jié)合起來(lái)的基于動(dòng)態(tài)勢(shì)函數(shù)(dynamic potential based,DPB)的方法:

    (,,′,′)=(′,′)-(,)

    (18)

    證明了這種動(dòng)態(tài)方法依然保證了策略的不變性:

    (19)

    式中:是當(dāng)前時(shí)間。在此基礎(chǔ)上,Harutyunyan等人又提出了一種能將任何先驗(yàn)知識(shí)作為額外獎(jiǎng)勵(lì)加入基于動(dòng)態(tài)勢(shì)函數(shù)的建議(dynamic potential based advice,DPBA)的方法。基本原理是:給定來(lái)自先驗(yàn)知識(shí)的任意額外獎(jiǎng)勵(lì)函數(shù),其必須滿足以下條件才可作為額外獎(jiǎng)勵(lì)添加到原始即時(shí)函數(shù)上:

    (′,′)-(,)=(,)=(,)

    (20)

    如果是動(dòng)態(tài)的,則其貝爾曼方程是:

    (,)=(,)+(′,′)

    (21)

    由此可知獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)(,)是(,)的否定:

    (,)=(′,′)-(,)=-(,)

    (22)

    故可以將的否定作為獎(jiǎng)勵(lì)函數(shù)來(lái)訓(xùn)練額外的狀態(tài)-動(dòng)作值函數(shù)和策略,的更新方式如下:

    (,)←(,)+()

    (23)

    因此,動(dòng)態(tài)獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)為

    (,)=+1(′,′)-(,)

    (24)

    DPBA方法最大的優(yōu)點(diǎn)在于提供了一個(gè)能將任意先驗(yàn)知識(shí)作為額外獎(jiǎng)勵(lì)的框架,這大大提高了獎(jiǎng)勵(lì)設(shè)計(jì)類方法在PR上的通用性。

    文獻(xiàn)[65]提出了一種使用獎(jiǎng)勵(lì)設(shè)計(jì)遷移策略(policy transfer using reward shaping,PTS):在使用映射函數(shù),完成了源任務(wù)和目標(biāo)任務(wù)之間狀態(tài)和動(dòng)作映射工作的基礎(chǔ)上,利用獎(jiǎng)勵(lì)設(shè)計(jì)將專家策略從源任務(wù)重用在目標(biāo)任務(wù)上,那么額外的獎(jiǎng)勵(lì)正好是被映射的狀態(tài)和動(dòng)作被源任務(wù)的專家策略采取的概率(((),()))。另一項(xiàng)工作則利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練鑒別器去區(qū)分樣本是來(lái)自專家策略還是目標(biāo)策略,而鑒別器的損失被用來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)以鼓勵(lì)智能體去模仿專家策略。這種方法涉及到PR方法的兩個(gè)方面:獎(jiǎng)勵(lì)設(shè)計(jì)和外部協(xié)助。文獻(xiàn)[67]所做的工作中的其中一項(xiàng)是通過(guò)定義一個(gè)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)強(qiáng)度的參數(shù)來(lái)針對(duì)不同的目標(biāo)任務(wù)調(diào)整獎(jiǎng)勵(lì)函數(shù)的大小。Zheng等人提出用外在獎(jiǎng)勵(lì)優(yōu)化內(nèi)在獎(jiǎng)勵(lì)并使用內(nèi)外獎(jiǎng)勵(lì)的和去更新策略的方法:學(xué)習(xí)策略梯度的內(nèi)在獎(jiǎng)勵(lì)(learning intrinsic rewards for policy gradient,LIRPG),基于該算法的智能體學(xué)習(xí)過(guò)程的抽象表示如圖8所示。此方法的優(yōu)點(diǎn)在于該算法適用于大部分的RL算法。

    圖8 LIRPG智能體學(xué)習(xí)過(guò)程的抽象表示Fig.8 Abstract representation of learning process of LIRPG agent

    以上所述的工作都屬于利用外在的知識(shí)來(lái)設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),Marom等人轉(zhuǎn)換了思路,考慮了額外的獎(jiǎng)勵(lì)源于自身的情況,提出了信念獎(jiǎng)勵(lì)設(shè)計(jì)(belief reward shaping,BRS)的概念,利用貝葉斯獎(jiǎng)勵(lì)設(shè)計(jì)框架來(lái)產(chǎn)生隨著經(jīng)驗(yàn)衰減的來(lái)自Critic網(wǎng)絡(luò)自身的勢(shì)值。

    總的說(shuō)來(lái),獎(jiǎng)勵(lì)設(shè)計(jì)方法從基于狀態(tài)和狀態(tài)-動(dòng)作值的靜態(tài)勢(shì)函數(shù),到加入時(shí)間變化過(guò)程的動(dòng)態(tài)勢(shì)函數(shù),再到能將任意先驗(yàn)知識(shí)作為輔助獎(jiǎng)勵(lì)添加到原始獎(jiǎng)勵(lì)函數(shù)的框架,獎(jiǎng)勵(lì)設(shè)計(jì)方法已被應(yīng)用到實(shí)際上生活中的諸多場(chǎng)景,如訓(xùn)練機(jī)器人、口語(yǔ)對(duì)話系統(tǒng)等。如今,將獎(jiǎng)勵(lì)設(shè)計(jì)應(yīng)用在PR的方法還不是很成熟,主要的問(wèn)題在于構(gòu)造的獎(jiǎng)勵(lì)函數(shù)并不能夠完美契合目標(biāo)任務(wù),從而導(dǎo)致智能體在學(xué)習(xí)目標(biāo)策略的過(guò)程中采取一些投機(jī)取巧方式的情況發(fā)生,或者收斂到次優(yōu)策略。表3對(duì)比分析了獎(jiǎng)勵(lì)設(shè)計(jì)類的PR方法。

    表3 獎(jiǎng)勵(lì)設(shè)計(jì)類方法總結(jié)

    3.3 問(wèn)題轉(zhuǎn)換類

    PR的核心問(wèn)題是源策略的選擇問(wèn)題,智能體能否以最快的速度尋找到目標(biāo)任務(wù)的最優(yōu)策略一定程度上取決于所選擇的源策略契合目標(biāo)任務(wù)的程度。因此,關(guān)于PR的有些工作聚焦于將源策略的選擇問(wèn)題轉(zhuǎn)化為其他較易解決的問(wèn)題。

    (25)

    (26)

    由于該方法只學(xué)習(xí)了源策略的選項(xiàng)間策略,容易導(dǎo)致次優(yōu)問(wèn)題,為了避免這個(gè)問(wèn)題,用原始策略來(lái)擴(kuò)展源策略庫(kù),然而這種方法需要手動(dòng)添加原始策略,在很大程度上限制了其通用性,不能用于解決連續(xù)動(dòng)作空間問(wèn)題。為了解決文獻(xiàn)[73]中存在的問(wèn)題,文獻(xiàn)[74]提出了一種由Agent模塊和Option模塊兩個(gè)主要模塊組成的策略遷移框架(policy transfer framework,PTF),如圖9所示。其中,Agent模塊用于在Option模塊的指導(dǎo)下學(xué)習(xí)目標(biāo)策略,Option模塊用于學(xué)習(xí)選擇對(duì)Agent有用的源策略。同時(shí)利用一個(gè)加權(quán)因子(,)控制從源策略中重用策略的程度,其中(,)定義為

    (,)=()(1-(,|))

    (27)

    圖9 PTFFig.9 PTF

    這個(gè)框架能夠與大多數(shù)RL算法結(jié)合,在離散和連續(xù)動(dòng)作空間中都能應(yīng)用。然而,相較之前的方法,這種方法新增了兩個(gè)網(wǎng)絡(luò)用于控制Agent何時(shí)選擇源策略以及重用程度,這必然會(huì)增加算法的復(fù)雜度和計(jì)算量。

    Yang等人提出了一種基于多智能體選項(xiàng)的策略遷移框架(multiagent option-based policy transfer, MAOPT)來(lái)提高多智能體選項(xiàng)的效率。該框架通過(guò)將多智能體策略遷移建模為選項(xiàng)學(xué)習(xí)問(wèn)題來(lái)學(xué)習(xí)為每個(gè)智能體提供建議以及何時(shí)終止建議。該方法在離散和連續(xù)狀態(tài)空間問(wèn)題上都表現(xiàn)良好。

    問(wèn)題轉(zhuǎn)化類的方法旨在將難以解決的源策略選擇問(wèn)題轉(zhuǎn)化為其他易解決或相對(duì)熟悉的領(lǐng)域問(wèn)題。但這種問(wèn)題轉(zhuǎn)換的前提是存在適合的轉(zhuǎn)換模型,不準(zhǔn)確的轉(zhuǎn)換反而會(huì)導(dǎo)致次優(yōu)問(wèn)題的出現(xiàn)。

    3.4 相似性度量類

    目前已經(jīng)有很多關(guān)于PR的工作,但是大多數(shù)方法都依賴于源任務(wù)和目標(biāo)任務(wù)極度相似的假設(shè)。然而這種假設(shè)在實(shí)踐過(guò)程中并不一定能夠滿足。如果源任務(wù)和目標(biāo)任務(wù)無(wú)關(guān),PR將會(huì)導(dǎo)致學(xué)習(xí)速度變慢,乃至在目標(biāo)任務(wù)中的表現(xiàn)很差。因此,定義源任務(wù)和目標(biāo)任務(wù)之間的相似性來(lái)選擇最優(yōu)的源策略是必要的?,F(xiàn)有的工作中,度量源和目標(biāo)任務(wù)的MDP之間相似性的方法居多,也有度量策略之間相似性的方法。

    Fernández等人利用距離度量?jī)蓚€(gè)源任務(wù)最優(yōu)策略的相似性來(lái)選擇重用最有用的源策略,定義和證明了此種度量方法。

    (28)

    因而用距離度量來(lái)定義策略在策略中的作用為

    (29)

    由于該方法需要比較應(yīng)用兩個(gè)策略后的結(jié)果來(lái)判斷哪個(gè)策略更適合用來(lái)重用,計(jì)算量較大,不適用于大規(guī)模的PR場(chǎng)景。

    相較于度量策略相似性的工作,更多的工作集中在度量任務(wù)MDP之間的相似性。在早期的工作中,文獻(xiàn)[76-78]使用了一種交互模擬形式的度量方法,該方法將MDP之間的差異進(jìn)行了量化。然而這個(gè)工作需要手動(dòng)定義任務(wù)之間的度量,并且只適用于離散狀態(tài)空間以及需要巨大的計(jì)算量。文獻(xiàn)[19]提出的方法是半自動(dòng)的,要求人類用戶為算法定義相關(guān)的源任務(wù)和目標(biāo)任務(wù)之間的關(guān)系,再用算法來(lái)比較源和目標(biāo)任務(wù)之間的相似性。顯然,為了實(shí)現(xiàn)完全自主的PR方法,智能體必須能夠選擇與目標(biāo)任務(wù)相關(guān)的源任務(wù)以及學(xué)習(xí)源和目標(biāo)任務(wù)之間的關(guān)系,如任務(wù)間映射。Taylor和Ammar等人將工作聚焦于如何使智能體選擇與目標(biāo)任務(wù)相關(guān)的源任務(wù)。而這正是重用先驗(yàn)知識(shí)成功與否的關(guān)鍵。

    朱斐等人針對(duì)不穩(wěn)定環(huán)境下的RL問(wèn)題,提出了一種基于公式集的策略搜索算法。該方法用MDP分布表示不穩(wěn)定的環(huán)境,利用自模擬度量構(gòu)造的MDP分布之間的距離度量公式作為標(biāo)準(zhǔn),并結(jié)合小公式集的構(gòu)造方法,將求解的策略在不同的MDP分布之間進(jìn)行遷移。從理論上證明了遷移之后的策略的最優(yōu)性邊界。這種方法為在不穩(wěn)定環(huán)境下的RL問(wèn)題中進(jìn)行PR提供了思路,但是該算法中MDP分布之間的距離計(jì)算公式并不適用于龐大的狀態(tài)空間和連續(xù)狀態(tài)空間的問(wèn)題。

    文獻(xiàn)[81]提出了一種從通過(guò)智能體與環(huán)境交互收集的樣本中估計(jì)源和目標(biāo)任務(wù)之間相似性的度量方法,該方法能夠捕獲和聚類具有多重差異的多維數(shù)據(jù)集之間的動(dòng)態(tài)相似性,包括不同的獎(jiǎng)勵(lì)函數(shù)和轉(zhuǎn)移函數(shù)。此方法的基本原理是:首先使用受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)模型對(duì)源任務(wù)中收集的數(shù)據(jù)進(jìn)行建模,產(chǎn)生一組能夠描述源MDP的相關(guān)的和信息性的特征。然后在目標(biāo)任務(wù)上測(cè)試這些特征,以此評(píng)估MDP的相似性。這種方法實(shí)現(xiàn)了智能體自主學(xué)習(xí)度量源和目標(biāo)任務(wù)之間相似性并依此選擇合適的源策略進(jìn)行PR的工作。但是這種方法一個(gè)最主要的缺陷是可能會(huì)導(dǎo)致經(jīng)驗(yàn)過(guò)擬合的問(wèn)題,即在給定特定MDP參數(shù)的情況下效果良好,而在使用其他參數(shù)或在不同的MDP上時(shí)效果難以達(dá)到預(yù)期。

    Wang等人將工作的重點(diǎn)放在了多任務(wù)遷移上,提出了一種稱為“啟發(fā)式自適應(yīng)PR”的框架。這種框架通過(guò)快速選擇最合適的策略及其有用的部分,來(lái)促進(jìn)存儲(chǔ)在策略庫(kù)中的源策略的有效重用。同時(shí),通過(guò)使用KL散度衡量策略之間的差異來(lái)篩選策略,保證了策略的質(zhì)量,并完成策略庫(kù)的重建。該方法有效避免了重用源策略中不相關(guān)的部分而導(dǎo)致的負(fù)遷移,并在每個(gè)回合中將策略庫(kù)中的“不良策略”移除以保證策略庫(kù)的健壯性和有效性。美中不足的是,該方法并不適用于連續(xù)動(dòng)作空間問(wèn)題。

    Song等人的工作主要是提出了兩個(gè)度量有限個(gè)MDP之間距離的方法。第一個(gè)方法是Hausdorff度量方法,用于利用Hausdorff矩陣度量不同任務(wù)狀態(tài)集之間的距離。具體定義如下。

    給定兩個(gè)MDP:=〈,,,,〉和=〈,,,,〉,其Hausdorff距離為

    (30)

    式中:′為兩個(gè)狀態(tài)之間的距離。這種方法存在錯(cuò)誤度量的問(wèn)題:如果相似的多維數(shù)據(jù)集中至少存在一個(gè)異常值,可能會(huì)被錯(cuò)誤地視為不相似的數(shù)據(jù)集。因此又提出了第二個(gè)方法:Kantorovich度量方法,該方法利用Kantorovich矩陣度量概率分布之間的距離。具體定義如下。

    給定兩個(gè)MDP:=〈,,,,〉和=〈,,,,〉,其Kantorovich距離為

    (31)

    使用這種方法時(shí),即使存在異常值,對(duì)總數(shù)據(jù)集的影響也不大。與此工作類似,文獻(xiàn)[48]同樣是計(jì)算概率分布之間的距離,它基于Jensen-Shannon距離(Jensen-Shannon distance,JSD)定義了一個(gè)輕量級(jí)的度量來(lái)計(jì)算共享相同狀態(tài)-動(dòng)作的問(wèn)題中的任務(wù)相似性。JSD定義為Jensen-Shannon散度的平方根:

    (32)

    式中:是KL散度;和是源任務(wù)和目標(biāo)任務(wù)中相應(yīng)狀態(tài)-動(dòng)作對(duì)的分布;=(+)2。

    相似性度量類方法的目標(biāo)只有一個(gè):為目標(biāo)任務(wù)選擇最好的源策略進(jìn)行重用?,F(xiàn)有的方法五花八門,沒(méi)有統(tǒng)一的度量標(biāo)準(zhǔn),該方向未來(lái)的工作可能會(huì)著力于尋找一個(gè)統(tǒng)一的度量標(biāo)準(zhǔn)。表4總結(jié)了目前的相似性度量類方法。

    表4 相似性度量類方法總結(jié)

    以上分析的幾類方法,有效地加速了RL算法的收斂,但在一定程度上也提升了算法的復(fù)雜度和計(jì)算量。為方便了解和對(duì)比,分析、對(duì)比了這幾類方法的優(yōu)缺點(diǎn),如表5所示。

    表5 PR方法對(duì)比

    4 DRL中的PR

    近些年隨著DL的飛速發(fā)展,DL和RL相結(jié)合的方法DRL在一定程度上解決了以前傳統(tǒng)RL方法難以解決的問(wèn)題。適用于傳統(tǒng)RL算法的PR方法,在更換了RL框架的情況下,依然適用。在上面介紹的各類PR方法中,某些方法不僅適用于傳統(tǒng)RL框架,同樣適用于DRL框架。

    文獻(xiàn)[39]將專家演示這類依靠外部協(xié)助的PR方法應(yīng)用在最經(jīng)典的DRL算法DQN上,稱為學(xué)習(xí)演示的深度Q學(xué)習(xí)。另一項(xiàng)基于DQN算法的工作是文獻(xiàn)[65],其工作與獎(jiǎng)勵(lì)設(shè)計(jì)技術(shù)關(guān)系密切,基于一組專家演示來(lái)構(gòu)建勢(shì)函數(shù),并且狀態(tài)-動(dòng)作對(duì)的勢(shì)值由給定狀態(tài)-動(dòng)作對(duì)和專家經(jīng)驗(yàn)之間的最高相似性來(lái)度量,這種額外獎(jiǎng)勵(lì)鼓勵(lì)智能體做出類似專家的動(dòng)作。文獻(xiàn)[55-56]提出的策略蒸餾方法同樣是基于DQN算法框架的。其中文獻(xiàn)[55]的工作是利用專家網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)值的誤差來(lái)使得學(xué)生網(wǎng)絡(luò)逼近專家網(wǎng)絡(luò)從而進(jìn)行多任務(wù)PR。而文獻(xiàn)[56]的工作則是將特定任務(wù)的高層次卷積特征作為多任務(wù)策略網(wǎng)絡(luò)的輸入,再有選擇地采樣每個(gè)任務(wù)的經(jīng)驗(yàn)放到神經(jīng)網(wǎng)絡(luò)上學(xué)習(xí)。

    PR方法不僅僅應(yīng)用到基于值函數(shù)框架的DRL中,也適用于基于策略梯度框架的DRL。文獻(xiàn)[89]基于信任域策略優(yōu)化(trust region policy optimization,TRPO)算法框架,提出了一種結(jié)合生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks,GAN)和獎(jiǎng)勵(lì)設(shè)計(jì)函數(shù)-log(1-(,))的算法生成對(duì)抗模仿學(xué)習(xí)(generative adversarial imitation learning,GAIL)。該算法可以利用GAN的對(duì)抗訓(xùn)練直接顯示地得到策略,更加高效。Kang等人提出的學(xué)習(xí)演示的策略優(yōu)化(policy optimization from demonstration,POfD)算法擴(kuò)展了GAIL,該算法基于TRPO和PPO,將GAN中的鑒別器獎(jiǎng)勵(lì)與環(huán)境獎(jiǎng)勵(lì)結(jié)合,訓(xùn)練智能體去獲得最大化累積的環(huán)境獎(jiǎng)勵(lì):

    (33)

    式中:分別是當(dāng)前策略和專家策略的占用度量,是由策略導(dǎo)出的狀態(tài)-動(dòng)作分布。

    以上算法,無(wú)論是GAIL還是POfD,都屬于on-policy的RL框架。文獻(xiàn)[68]提出的學(xué)習(xí)演示的DDPG(DDPG from demonstrations,DDPGfD)算法則是off-policy的RL框架,該算法基于DDPG,指導(dǎo)智能體從專家演示中學(xué)習(xí)策略。另一項(xiàng)基于DDPG框架的工作是文獻(xiàn)[40],與DDPGfD的不同在于智能體的功能通過(guò)行為克隆損失得到加強(qiáng),鼓勵(lì)其模仿所提供的演示行為。文獻(xiàn)[58]提出的方法基于A3C框架,同時(shí)利用策略蒸餾提取多個(gè)教師策略網(wǎng)絡(luò)中的經(jīng)驗(yàn)并轉(zhuǎn)移到學(xué)習(xí)策略網(wǎng)絡(luò)以實(shí)現(xiàn)多任務(wù)PR。Schmitt等人做的工作與文獻(xiàn)[58]類似,使用教師和學(xué)生策略網(wǎng)絡(luò)之間的交叉熵來(lái)設(shè)計(jì)獎(jiǎng)勵(lì),并設(shè)計(jì)了一個(gè)動(dòng)態(tài)衰減系數(shù)來(lái)減輕獎(jiǎng)勵(lì)增加所帶來(lái)的負(fù)面影響,從而使學(xué)生策略在迭代優(yōu)化一定次數(shù)后能夠獨(dú)立于教師策略。

    飛速發(fā)展的DRL算法已經(jīng)能夠面對(duì)高維的狀態(tài)或動(dòng)作空間的問(wèn)題,但是面對(duì)相似問(wèn)題需要從頭學(xué)習(xí)的問(wèn)題依然需要依靠PR方法來(lái)解決。表6總結(jié)了主流的應(yīng)用了PR方法的DRL框架。

    表6 PR方法中的DRL框架總結(jié)

    5 多智能體場(chǎng)景

    相對(duì)于單智能體而言,多智能體環(huán)境是非穩(wěn)態(tài)的,多智能體RL(multi-agent RL,MARL)遵循隨機(jī)博弈(stochastic game,SG)過(guò)程。對(duì)于MDP而言,其轉(zhuǎn)移函數(shù)不僅與當(dāng)前狀態(tài)、當(dāng)前動(dòng)作以及下一個(gè)狀態(tài)′有關(guān),還與時(shí)間有關(guān),因此更加復(fù)雜,更具有挑戰(zhàn)性。

    在多智能體環(huán)境中,傳統(tǒng)的RL算法或多智能體算法沒(méi)有過(guò)多關(guān)注對(duì)方的策略,僅僅只是聚焦于對(duì)手的行為,這類方法的弊端在于容易被對(duì)手的行為所誤導(dǎo),但是根據(jù)對(duì)手的策略來(lái)行動(dòng)能夠避免此問(wèn)題。然而在多智能體環(huán)境中,對(duì)手的策略多且雜,如何快速地根據(jù)對(duì)手策略制定自己的策略正是MARL-PR算法所要解決的問(wèn)題。文獻(xiàn)[95]提出的貝葉斯PR(Bayesian PR,BPR),可以根據(jù)對(duì)手的策略來(lái)指定自己的策略,提出了一個(gè)當(dāng)智能體面對(duì)未知任務(wù)時(shí)使用策略蒸餾來(lái)選擇最優(yōu)策略的框架。該框架使用了一個(gè)信念模型(),以獎(jiǎng)勵(lì)為標(biāo)準(zhǔn)來(lái)衡量當(dāng)前的任務(wù)和過(guò)去已經(jīng)解決的任務(wù)之間的相似程度,最優(yōu)策略就是信念模型下期望獎(jiǎng)勵(lì)最大的策略。然而該信念模型存在光靠獎(jiǎng)勵(lì)難以準(zhǔn)確區(qū)分對(duì)手的問(wèn)題,文獻(xiàn)[96]提出了一種方法深度BPR:用參數(shù)為的神經(jīng)網(wǎng)絡(luò)去近似對(duì)手的策略的修正信念模型,配合引入的對(duì)手模型同時(shí)去檢測(cè)對(duì)手以達(dá)到精確檢測(cè)的目的。如果檢測(cè)發(fā)現(xiàn)對(duì)手用的是之前未用過(guò)的策略,則開始學(xué)習(xí)新策略并在學(xué)習(xí)完成后放入策略庫(kù)。文獻(xiàn)[97]提出的算法Bayes-Pepper結(jié)合了兩個(gè)框架Pepper和BPR,該算法先從多智能體算法中獲得隨機(jī)的動(dòng)作策略,然后計(jì)算可能的對(duì)手的信念,并隨著交互的進(jìn)行而更新,從而使智能體可以針對(duì)對(duì)手快速選擇適當(dāng)?shù)牟呗?。文獻(xiàn)[99]將BPR擴(kuò)展到對(duì)抗性設(shè)置,特別是擴(kuò)展到從一種固定策略轉(zhuǎn)換為另一種靜態(tài)策略的對(duì)手。當(dāng)Agent檢測(cè)當(dāng)前策略不是最優(yōu)時(shí),該擴(kuò)展功能可以在線學(xué)習(xí)新模型。

    然而以上方法都假定對(duì)手在一組平穩(wěn)策略中隨機(jī)改變其策略,在實(shí)踐中,對(duì)手可以通過(guò)采用更高級(jí)的推理策略來(lái)表現(xiàn)出更復(fù)雜的行為,此時(shí)這些方法就難以打敗這些復(fù)雜的對(duì)手。文獻(xiàn)[100]提出一種貝葉斯心理策略理論(Bayesian theory of mind on policy, Bayes-ToMoP)方法,不僅能快速準(zhǔn)確地檢測(cè)到非平穩(wěn)對(duì)手,而且還能檢測(cè)到更復(fù)雜的對(duì)手,并據(jù)此計(jì)算出最佳對(duì)策。

    相較于單智能體DRL算法,多智能體算法更加切合現(xiàn)實(shí)環(huán)境和需求。面對(duì)不穩(wěn)定的環(huán)境,單智能體算法難以收斂,也不能通過(guò)改變智能體本身的策略去適應(yīng)不穩(wěn)定的動(dòng)態(tài)環(huán)境。多智能體算法的提出在一定程度上緩解了這些問(wèn)題。然而,隨著智能體數(shù)量的增加,多智能體算法的聯(lián)結(jié)動(dòng)作空間大小爆炸性增長(zhǎng),而這帶來(lái)的是龐大的計(jì)算量。除此之外,多智能體系統(tǒng)中各個(gè)智能體的任務(wù)存在差異,但彼此之間又存在耦合,相互影響,獎(jiǎng)勵(lì)設(shè)計(jì)比較困難,而這直接影響了學(xué)習(xí)到的策略的好壞。而且探索問(wèn)題也是多智能體算法急需解決的問(wèn)題之一。多智能體環(huán)境中,各智能體需要同時(shí)考慮自己對(duì)環(huán)境的探索和應(yīng)對(duì)同伴策略變化進(jìn)行的探索,而且各智能體的探索都可能影響同伴的策略,這使得學(xué)習(xí)的過(guò)程復(fù)雜且緩慢。PR方法的加入部分緩解了這些問(wèn)題,但是現(xiàn)有的方法還不夠成熟。接下來(lái)可以研究更加通用的PR方法,通過(guò)重用相似環(huán)境的源策略來(lái)更快地發(fā)現(xiàn)對(duì)手策略,加速探索過(guò)程和降低計(jì)算損耗。

    6 應(yīng)用

    機(jī)器人學(xué)習(xí)領(lǐng)域一直是RL的重要研究方向,但一直存在實(shí)驗(yàn)代價(jià)過(guò)大的問(wèn)題,比如機(jī)器人學(xué)習(xí)在復(fù)雜的山路進(jìn)行作業(yè)的時(shí)候,經(jīng)常存在損壞的風(fēng)險(xiǎn)。而在相似的地況進(jìn)行作業(yè)時(shí),從頭學(xué)習(xí)不僅效率低,而且損耗大。文獻(xiàn)[101]提出讓不同機(jī)器人之間共享學(xué)習(xí)到的策略來(lái)進(jìn)行協(xié)同訓(xùn)練的PR方法很大程度上緩解了這個(gè)問(wèn)題。其方法是在DQN框架下實(shí)現(xiàn)多個(gè)機(jī)器人智能體之間的策略遷移,通過(guò)在一個(gè)經(jīng)驗(yàn)池中共享演示和異步執(zhí)行策略的更新。文獻(xiàn)[102]則把注意力集中在機(jī)器人面臨未知任務(wù)時(shí)的學(xué)習(xí)方法上,通過(guò)在所選的多個(gè)源任務(wù)上訓(xùn)練一個(gè)通用策略結(jié)合專家策略來(lái)讓機(jī)器人更快地適應(yīng)目標(biāo)任務(wù)。

    除了機(jī)器人領(lǐng)域,游戲也是PR廣泛應(yīng)用的領(lǐng)域。最典型的游戲應(yīng)用就是AlphaGo。這是一款圍棋游戲,先利用專家演示離線訓(xùn)練智能體,再通過(guò)學(xué)習(xí)用蒙特卡羅樹搜索法來(lái)選擇最優(yōu)策略。在星際爭(zhēng)霸這款實(shí)時(shí)戰(zhàn)略游戲中也使用了PR。除此之外,OpenAI訓(xùn)練了一個(gè)擊敗了人類職業(yè)玩家的Dota2游戲智能體,其中也用到了PR的方法。文獻(xiàn)[31]將PR應(yīng)用在Minecraft上,文獻(xiàn)[51-52]則在Atari上應(yīng)用了PR方法。另外,在導(dǎo)航游戲和山地車游戲上也有應(yīng)用。在這些通用平臺(tái)上的應(yīng)用且有不錯(cuò)的效果,足以說(shuō)明PR的有效性。表7總結(jié)了常見的PR方法的應(yīng)用場(chǎng)景。

    表7 PR方法應(yīng)用總結(jié)

    7 總結(jié)及展望

    本綜述從是否基于策略重構(gòu)的角度將目前RL中存在的PR方法進(jìn)行分類并介紹。除此之外,還總結(jié)了在結(jié)構(gòu)不同的任務(wù)之間的映射方法以及應(yīng)用了PR的領(lǐng)域。本文提供了一個(gè)關(guān)于RL中PR方法的新的分類思路,希望能夠?yàn)樽龃朔矫嫜芯康娜颂峁┮稽c(diǎn)幫助。

    依據(jù)現(xiàn)在RL中的PR研究進(jìn)程,基于模型的PR方法會(huì)是未來(lái)的一個(gè)發(fā)展趨勢(shì)。基于模型的方法能夠結(jié)合大多數(shù)的RL算法,實(shí)現(xiàn)策略重構(gòu)、獎(jiǎng)勵(lì)設(shè)計(jì)等方法的自動(dòng)化,大大提高PR的效率和通用性。除此之外,任務(wù)的相似性度量方法現(xiàn)階段良莠不齊,設(shè)計(jì)和制定一套通用高效的度量標(biāo)準(zhǔn)對(duì)于PR的發(fā)展也起到了至關(guān)重要的作用。另外,雖然PR能夠較好地解決RL收斂速度慢、資源消耗大以及復(fù)用性的問(wèn)題,但也提升了算法的復(fù)雜度和計(jì)算,如何在解決傳統(tǒng)RL問(wèn)題的基礎(chǔ)上避免算法復(fù)雜度和計(jì)算的提高也是PR方法迫切需要解決的問(wèn)題。最后,目前PR在多智能體內(nèi)的研究進(jìn)展緩慢,其主要原因在于多智能體場(chǎng)景的復(fù)雜性。然而多智能體場(chǎng)景更加貼近現(xiàn)實(shí),優(yōu)質(zhì)的多智能體PR方法能夠在很大程度上提高工業(yè)制造的效率。鑒于這個(gè)原因,相信多智能體PR會(huì)是未來(lái)的一大研究熱點(diǎn)。

    猜你喜歡
    狀態(tài)文獻(xiàn)函數(shù)
    二次函數(shù)
    Hostile takeovers in China and Japan
    速讀·下旬(2021年11期)2021-10-12 01:10:43
    第3講 “函數(shù)”復(fù)習(xí)精講
    二次函數(shù)
    函數(shù)備考精講
    Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
    大東方(2019年12期)2019-10-20 13:12:49
    狀態(tài)聯(lián)想
    生命的另一種狀態(tài)
    The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
    The Role and Significant of Professional Ethics in Accounting and Auditing
    商情(2017年1期)2017-03-22 16:56:36
    国产精品香港三级国产av潘金莲| 国产亚洲欧美在线一区二区| 日韩欧美一区二区三区在线观看 | 天天躁狠狠躁夜夜躁狠狠躁| 亚洲全国av大片| 欧美 日韩 精品 国产| 一级a爱视频在线免费观看| 99九九在线精品视频| 日日爽夜夜爽网站| 青春草亚洲视频在线观看| 国产一区二区三区av在线| 麻豆av在线久日| 天堂中文最新版在线下载| 久久国产精品大桥未久av| 老司机影院毛片| 国产三级黄色录像| 亚洲人成77777在线视频| 老司机影院毛片| 国产精品自产拍在线观看55亚洲 | 亚洲 欧美一区二区三区| 啦啦啦在线免费观看视频4| 国产av国产精品国产| 国产99久久九九免费精品| 50天的宝宝边吃奶边哭怎么回事| 91老司机精品| 一级毛片女人18水好多| 国产成人免费无遮挡视频| 亚洲精品av麻豆狂野| 真人做人爱边吃奶动态| 美女福利国产在线| 午夜91福利影院| 一本大道久久a久久精品| 欧美 亚洲 国产 日韩一| 亚洲自偷自拍图片 自拍| 国产精品久久久久成人av| 不卡av一区二区三区| 在线 av 中文字幕| 老熟妇乱子伦视频在线观看 | 日韩 欧美 亚洲 中文字幕| avwww免费| 久久精品熟女亚洲av麻豆精品| 久久精品国产亚洲av香蕉五月 | 久久热在线av| 啦啦啦中文免费视频观看日本| 美女福利国产在线| 美国免费a级毛片| 欧美国产精品va在线观看不卡| 成年人午夜在线观看视频| 欧美激情久久久久久爽电影 | 欧美日本中文国产一区发布| 女人被躁到高潮嗷嗷叫费观| 在线观看免费高清a一片| 久久久久久亚洲精品国产蜜桃av| 国产成人精品久久二区二区91| 国产免费av片在线观看野外av| 精品少妇一区二区三区视频日本电影| 狂野欧美激情性xxxx| 日本a在线网址| 久久精品aⅴ一区二区三区四区| 亚洲精品一卡2卡三卡4卡5卡 | svipshipincom国产片| 亚洲国产欧美一区二区综合| 亚洲精品久久成人aⅴ小说| 在线观看www视频免费| 少妇猛男粗大的猛烈进出视频| 亚洲伊人久久精品综合| 日本a在线网址| 亚洲av美国av| 19禁男女啪啪无遮挡网站| 人人妻人人澡人人爽人人夜夜| 精品国产一区二区三区久久久樱花| 国产亚洲精品久久久久5区| 51午夜福利影视在线观看| 男女免费视频国产| 日韩人妻精品一区2区三区| 中国美女看黄片| 亚洲美女黄色视频免费看| 国产极品粉嫩免费观看在线| 少妇人妻久久综合中文| 精品欧美一区二区三区在线| 国产精品欧美亚洲77777| 成人18禁高潮啪啪吃奶动态图| 精品少妇久久久久久888优播| 亚洲精品av麻豆狂野| 9191精品国产免费久久| 我要看黄色一级片免费的| 丝袜脚勾引网站| 亚洲熟女毛片儿| 狠狠精品人妻久久久久久综合| 亚洲全国av大片| 日本欧美视频一区| av欧美777| 亚洲国产精品999| 在线天堂中文资源库| 黑丝袜美女国产一区| 精品免费久久久久久久清纯 | 一级黄色大片毛片| 成人av一区二区三区在线看 | 别揉我奶头~嗯~啊~动态视频 | 亚洲av成人不卡在线观看播放网 | 香蕉国产在线看| 最黄视频免费看| 国产一区二区在线观看av| 777米奇影视久久| 国产精品一区二区免费欧美 | 久久亚洲精品不卡| 国产成人系列免费观看| a 毛片基地| 婷婷色av中文字幕| 精品人妻1区二区| 日本91视频免费播放| 1024香蕉在线观看| 久久女婷五月综合色啪小说| 精品国产乱码久久久久久男人| 电影成人av| 一区在线观看完整版| 三级毛片av免费| 日本猛色少妇xxxxx猛交久久| 50天的宝宝边吃奶边哭怎么回事| 咕卡用的链子| 老司机在亚洲福利影院| 婷婷成人精品国产| videos熟女内射| 在线观看免费视频网站a站| 美女高潮喷水抽搐中文字幕| 国内毛片毛片毛片毛片毛片| 免费看十八禁软件| 精品国产一区二区久久| 午夜久久久在线观看| 久久国产精品人妻蜜桃| 午夜日韩欧美国产| 欧美日韩av久久| 飞空精品影院首页| 一个人免费看片子| 免费在线观看完整版高清| videosex国产| 伊人亚洲综合成人网| 免费观看a级毛片全部| 99热网站在线观看| 伦理电影免费视频| 美女福利国产在线| 欧美日韩精品网址| 中文字幕制服av| 美女中出高潮动态图| 成人三级做爰电影| 亚洲精品国产区一区二| 午夜视频精品福利| 美女午夜性视频免费| 亚洲,欧美精品.| 日韩欧美国产一区二区入口| 一级黄色大片毛片| 99国产精品一区二区三区| 在线十欧美十亚洲十日本专区| 黑人欧美特级aaaaaa片| 2018国产大陆天天弄谢| 精品国产乱码久久久久久小说| 1024视频免费在线观看| 久久人妻熟女aⅴ| 亚洲成人国产一区在线观看| 亚洲欧美色中文字幕在线| 国产欧美日韩一区二区三区在线| 久久久久国产精品人妻一区二区| 午夜福利影视在线免费观看| av在线播放精品| 黄色a级毛片大全视频| 欧美中文综合在线视频| 国产成人免费观看mmmm| 自拍欧美九色日韩亚洲蝌蚪91| 少妇猛男粗大的猛烈进出视频| 狂野欧美激情性bbbbbb| 国产野战对白在线观看| 亚洲成av片中文字幕在线观看| 狠狠狠狠99中文字幕| 日本一区二区免费在线视频| 精品一区在线观看国产| 美国免费a级毛片| 婷婷色av中文字幕| 国产精品香港三级国产av潘金莲| 成人免费观看视频高清| 亚洲精品日韩在线中文字幕| 欧美黄色淫秽网站| 窝窝影院91人妻| av免费在线观看网站| 男女午夜视频在线观看| 99国产精品免费福利视频| 亚洲av日韩在线播放| 国产国语露脸激情在线看| 伦理电影免费视频| 热99国产精品久久久久久7| 亚洲专区中文字幕在线| 亚洲视频免费观看视频| 亚洲七黄色美女视频| 午夜老司机福利片| 精品一区二区三区av网在线观看 | 国产欧美日韩一区二区精品| 国产成人啪精品午夜网站| 午夜日韩欧美国产| 999久久久精品免费观看国产| 成年动漫av网址| 美女脱内裤让男人舔精品视频| 最黄视频免费看| 欧美大码av| 欧美日韩av久久| tube8黄色片| 国产免费现黄频在线看| 超色免费av| 亚洲精品国产一区二区精华液| 黑人操中国人逼视频| 国产成人欧美| 亚洲国产精品999| av网站免费在线观看视频| 最新在线观看一区二区三区| 色视频在线一区二区三区| 亚洲专区国产一区二区| 侵犯人妻中文字幕一二三四区| 一级毛片女人18水好多| 亚洲第一欧美日韩一区二区三区 | 久久人人97超碰香蕉20202| 午夜两性在线视频| 亚洲成人免费电影在线观看| 秋霞在线观看毛片| 一边摸一边做爽爽视频免费| 亚洲精品成人av观看孕妇| 一二三四在线观看免费中文在| 欧美精品啪啪一区二区三区 | 丝袜脚勾引网站| 国产精品99久久99久久久不卡| 欧美日韩av久久| 久久久久网色| 欧美激情久久久久久爽电影 | 满18在线观看网站| 日本wwww免费看| 制服人妻中文乱码| 欧美精品亚洲一区二区| 亚洲国产毛片av蜜桃av| 国产精品一区二区在线观看99| 男人操女人黄网站| 久久ye,这里只有精品| 国产精品久久久久久精品电影小说| 精品亚洲成a人片在线观看| 在线天堂中文资源库| 日本av免费视频播放| 久久久久精品国产欧美久久久 | 国产在线观看jvid| 一个人免费在线观看的高清视频 | 天堂8中文在线网| 成年人午夜在线观看视频| 欧美av亚洲av综合av国产av| 午夜福利在线免费观看网站| 麻豆国产av国片精品| 9色porny在线观看| 秋霞在线观看毛片| h视频一区二区三区| 最近最新中文字幕大全免费视频| 各种免费的搞黄视频| 日日爽夜夜爽网站| 欧美日韩亚洲高清精品| 欧美老熟妇乱子伦牲交| 久久天躁狠狠躁夜夜2o2o| 可以免费在线观看a视频的电影网站| 中文字幕精品免费在线观看视频| 亚洲专区中文字幕在线| 十八禁网站免费在线| 十八禁人妻一区二区| 欧美国产精品一级二级三级| 老熟妇乱子伦视频在线观看 | 精品国产一区二区三区久久久樱花| 99热国产这里只有精品6| 看免费av毛片| 国产成人欧美| 亚洲精品美女久久久久99蜜臀| 视频在线观看一区二区三区| 国产男人的电影天堂91| 亚洲精品国产av成人精品| 老汉色∧v一级毛片| 国产欧美日韩一区二区三 | 日韩人妻精品一区2区三区| 日本猛色少妇xxxxx猛交久久| 夜夜骑夜夜射夜夜干| 亚洲精品国产av蜜桃| 国产精品二区激情视频| 人成视频在线观看免费观看| 亚洲九九香蕉| 69精品国产乱码久久久| 中文字幕最新亚洲高清| 手机成人av网站| 国产精品麻豆人妻色哟哟久久| 欧美激情极品国产一区二区三区| 久久精品亚洲av国产电影网| 免费av中文字幕在线| 午夜福利影视在线免费观看| 自线自在国产av| 18禁国产床啪视频网站| 色精品久久人妻99蜜桃| 老司机福利观看| 国产成人精品久久二区二区免费| 精品少妇内射三级| 精品国产国语对白av| 中文字幕精品免费在线观看视频| 不卡av一区二区三区| 亚洲自偷自拍图片 自拍| 国产亚洲精品一区二区www | 制服人妻中文乱码| 黑人欧美特级aaaaaa片| 中文字幕av电影在线播放| 久久 成人 亚洲| 色播在线永久视频| www日本在线高清视频| 国产精品99久久99久久久不卡| 亚洲熟女毛片儿| 国产欧美日韩一区二区三区在线| 91精品三级在线观看| 国产国语露脸激情在线看| 亚洲av成人一区二区三| 日本五十路高清| 日本a在线网址| 飞空精品影院首页| 成人免费观看视频高清| 极品人妻少妇av视频| 亚洲欧美清纯卡通| 欧美97在线视频| 一级,二级,三级黄色视频| 精品第一国产精品| 国产高清视频在线播放一区 | 男女床上黄色一级片免费看| 日韩人妻精品一区2区三区| 成人18禁高潮啪啪吃奶动态图| 另类精品久久| 国产一区二区激情短视频 | 亚洲精品国产av蜜桃| 90打野战视频偷拍视频| 亚洲成国产人片在线观看| 美女国产高潮福利片在线看| 1024香蕉在线观看| av福利片在线| 99国产精品一区二区三区| 人妻 亚洲 视频| 桃红色精品国产亚洲av| xxxhd国产人妻xxx| 99久久人妻综合| 永久免费av网站大全| 国产片内射在线| 亚洲精品国产区一区二| 国产精品九九99| 日韩一卡2卡3卡4卡2021年| av不卡在线播放| 日韩欧美一区视频在线观看| 国产成人影院久久av| 久久99热这里只频精品6学生| 欧美+亚洲+日韩+国产| 国产有黄有色有爽视频| 欧美日韩亚洲国产一区二区在线观看 | 欧美少妇被猛烈插入视频| 激情视频va一区二区三区| 国产一区二区激情短视频 | 涩涩av久久男人的天堂| 母亲3免费完整高清在线观看| 精品第一国产精品| 97在线人人人人妻| cao死你这个sao货| 亚洲av电影在线观看一区二区三区| 每晚都被弄得嗷嗷叫到高潮| 一个人免费在线观看的高清视频 | 一本大道久久a久久精品| 日韩欧美一区二区三区在线观看 | 一本综合久久免费| 国产免费av片在线观看野外av| 后天国语完整版免费观看| 亚洲国产欧美网| 天天影视国产精品| 中国美女看黄片| 亚洲成人手机| 国产xxxxx性猛交| tocl精华| 欧美 亚洲 国产 日韩一| h视频一区二区三区| 免费高清在线观看视频在线观看| 一区二区三区四区激情视频| 无遮挡黄片免费观看| 日韩大码丰满熟妇| 午夜福利视频精品| 久久精品熟女亚洲av麻豆精品| 久久性视频一级片| 无限看片的www在线观看| 欧美黑人精品巨大| 视频区图区小说| 欧美精品亚洲一区二区| 大香蕉久久网| 亚洲成国产人片在线观看| 一区二区三区激情视频| 一个人免费在线观看的高清视频 | 日韩 亚洲 欧美在线| 精品人妻熟女毛片av久久网站| 国产成人免费观看mmmm| 精品少妇一区二区三区视频日本电影| 大香蕉久久网| 国产精品免费大片| 悠悠久久av| 免费女性裸体啪啪无遮挡网站| 青春草亚洲视频在线观看| 国产精品影院久久| 亚洲精华国产精华精| 精品少妇内射三级| 考比视频在线观看| 日本wwww免费看| 亚洲欧美精品综合一区二区三区| 岛国毛片在线播放| 欧美日韩亚洲国产一区二区在线观看 | 精品国产超薄肉色丝袜足j| 午夜福利免费观看在线| 男女高潮啪啪啪动态图| 丝瓜视频免费看黄片| 国产精品 国内视频| 久久 成人 亚洲| 国产淫语在线视频| 视频区图区小说| 一级黄色大片毛片| 美女脱内裤让男人舔精品视频| 法律面前人人平等表现在哪些方面 | 巨乳人妻的诱惑在线观看| 免费观看a级毛片全部| 国产精品久久久久成人av| 高清视频免费观看一区二区| 女人精品久久久久毛片| 黄网站色视频无遮挡免费观看| 国产男女超爽视频在线观看| 成人影院久久| 久久精品国产a三级三级三级| 中国美女看黄片| 国产免费一区二区三区四区乱码| 国产不卡av网站在线观看| 男女边摸边吃奶| 一区二区三区乱码不卡18| 91麻豆精品激情在线观看国产 | 国产国语露脸激情在线看| 日韩 亚洲 欧美在线| 91成年电影在线观看| av天堂久久9| 日本欧美视频一区| 99久久国产精品久久久| 国产日韩欧美视频二区| 国产有黄有色有爽视频| 精品少妇久久久久久888优播| 精品视频人人做人人爽| 国产麻豆69| 丰满饥渴人妻一区二区三| 中文字幕人妻丝袜制服| 午夜免费鲁丝| 中文字幕精品免费在线观看视频| 啦啦啦 在线观看视频| 一级毛片电影观看| 日本黄色日本黄色录像| 各种免费的搞黄视频| 久久久久久久国产电影| 日韩大码丰满熟妇| 国产老妇伦熟女老妇高清| 久久久国产精品麻豆| 久久热在线av| 男女无遮挡免费网站观看| 一区二区av电影网| 国产亚洲一区二区精品| 久久99一区二区三区| 在线观看免费高清a一片| 国产91精品成人一区二区三区 | 亚洲成国产人片在线观看| 国产成人欧美| 超色免费av| 老熟妇乱子伦视频在线观看 | 国产精品秋霞免费鲁丝片| 一区二区三区激情视频| 男女下面插进去视频免费观看| 热re99久久国产66热| 人妻一区二区av| 亚洲国产中文字幕在线视频| 精品亚洲乱码少妇综合久久| 两性夫妻黄色片| 午夜激情av网站| 成年美女黄网站色视频大全免费| 免费一级毛片在线播放高清视频 | 又黄又粗又硬又大视频| 19禁男女啪啪无遮挡网站| 久久午夜综合久久蜜桃| 一区福利在线观看| 首页视频小说图片口味搜索| 天天躁夜夜躁狠狠躁躁| 69精品国产乱码久久久| 欧美成人午夜精品| 啪啪无遮挡十八禁网站| 免费在线观看视频国产中文字幕亚洲 | 欧美精品一区二区免费开放| 亚洲国产精品成人久久小说| 99国产综合亚洲精品| 99国产精品99久久久久| 国产精品二区激情视频| 亚洲精品国产色婷婷电影| 日韩 欧美 亚洲 中文字幕| 国产区一区二久久| 成人国产一区最新在线观看| 后天国语完整版免费观看| 侵犯人妻中文字幕一二三四区| 亚洲七黄色美女视频| 女人爽到高潮嗷嗷叫在线视频| 欧美日韩中文字幕国产精品一区二区三区 | 成年人午夜在线观看视频| 中文字幕另类日韩欧美亚洲嫩草| 91精品伊人久久大香线蕉| 成年人免费黄色播放视频| 亚洲精品国产色婷婷电影| 男女无遮挡免费网站观看| 一本色道久久久久久精品综合| 天天躁夜夜躁狠狠躁躁| 麻豆国产av国片精品| 国产日韩欧美视频二区| 麻豆av在线久日| 老熟妇乱子伦视频在线观看 | 久久久久视频综合| 丁香六月天网| 老司机午夜十八禁免费视频| 亚洲国产欧美日韩在线播放| 香蕉国产在线看| 午夜两性在线视频| 视频在线观看一区二区三区| 九色亚洲精品在线播放| 欧美在线一区亚洲| 老司机影院成人| 天堂中文最新版在线下载| 又黄又粗又硬又大视频| 99精国产麻豆久久婷婷| netflix在线观看网站| 老司机影院毛片| 午夜日韩欧美国产| 精品久久久久久久毛片微露脸 | 亚洲全国av大片| 精品国产乱码久久久久久小说| 黄色 视频免费看| 波多野结衣一区麻豆| 国产精品久久久久久精品古装| 国产精品偷伦视频观看了| 一边摸一边做爽爽视频免费| 这个男人来自地球电影免费观看| 侵犯人妻中文字幕一二三四区| 日韩人妻精品一区2区三区| av免费在线观看网站| 麻豆av在线久日| 久热爱精品视频在线9| 国产黄色免费在线视频| 侵犯人妻中文字幕一二三四区| 视频在线观看一区二区三区| 欧美成人午夜精品| 亚洲av国产av综合av卡| 日韩一区二区三区影片| 国产黄频视频在线观看| 婷婷色av中文字幕| 国产一区二区三区av在线| 悠悠久久av| 久久精品久久久久久噜噜老黄| 天天躁夜夜躁狠狠躁躁| 久久这里只有精品19| 亚洲精品一区蜜桃| 十分钟在线观看高清视频www| 97在线人人人人妻| 一本色道久久久久久精品综合| 国产野战对白在线观看| 成年女人毛片免费观看观看9 | 一级,二级,三级黄色视频| 久久久久国产精品人妻一区二区| 十八禁人妻一区二区| 婷婷色av中文字幕| 日本wwww免费看| 搡老岳熟女国产| 正在播放国产对白刺激| www.999成人在线观看| 99久久综合免费| 成年美女黄网站色视频大全免费| 丝袜脚勾引网站| 嫁个100分男人电影在线观看| 天堂俺去俺来也www色官网| 制服诱惑二区| 男人舔女人的私密视频| 久久这里只有精品19| 亚洲少妇的诱惑av| 最新在线观看一区二区三区| 波多野结衣av一区二区av| 国产男人的电影天堂91| 国产主播在线观看一区二区| 一级毛片电影观看| 国产伦理片在线播放av一区| 久久人人爽av亚洲精品天堂| 久久久水蜜桃国产精品网| 亚洲成人手机| 黄频高清免费视频| 亚洲午夜精品一区,二区,三区| 美女大奶头黄色视频| 午夜两性在线视频| 69精品国产乱码久久久| 日韩制服丝袜自拍偷拍| 在线av久久热| 日韩视频在线欧美| 欧美少妇被猛烈插入视频| 亚洲av美国av| 91精品国产国语对白视频| 黄色视频,在线免费观看| 两性午夜刺激爽爽歪歪视频在线观看 | 国产亚洲欧美精品永久| 久热这里只有精品99| 久久人人爽av亚洲精品天堂| 岛国毛片在线播放| 天天躁日日躁夜夜躁夜夜| 在线看a的网站| 又紧又爽又黄一区二区| 成人黄色视频免费在线看| 18禁观看日本| 一本色道久久久久久精品综合| 一区福利在线观看| 两个人看的免费小视频|