• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于元強(qiáng)化學(xué)習(xí)的無人機(jī)自主避障與目標(biāo)追蹤

    2022-06-28 11:55:48江未來吳俊王耀南
    關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)深度動作

    江未來,吳俊?,王耀南

    (1.湖南大學(xué)電氣與信息工程學(xué)院,湖南長沙 410082;2.湖南大學(xué)機(jī)器人視覺感知與控制技術(shù)國家工程研究中心,湖南長沙 410082)

    隨著衛(wèi)星導(dǎo)航、信號傳輸、電氣儲能等相關(guān)技術(shù)的進(jìn)步,無人機(jī)的應(yīng)用領(lǐng)域在不斷擴(kuò)大,如森林防火、電力巡檢、物流運(yùn)輸?shù)?這些任務(wù)的基本前提均為無人機(jī)目標(biāo)追蹤,只有追上目標(biāo)或到達(dá)指定地點(diǎn)才可以繼續(xù)執(zhí)行任務(wù).無人機(jī)執(zhí)行目標(biāo)追蹤任務(wù)時不可避免地會遇到障礙物,例如房屋、樹木、電線等.如何讓無人機(jī)安全自主地避開障礙物并實(shí)現(xiàn)目標(biāo)追蹤是無人機(jī)領(lǐng)域一大研究熱點(diǎn).

    傳統(tǒng)避障算法有蟻群算法[1]、最短路徑制導(dǎo)向量場[2]和貝葉斯推理等.這些算法都是將避障問題轉(zhuǎn)換為優(yōu)化問題,通過求解優(yōu)化模型而得到最終的無人機(jī)飛行軌跡.但是這些方法由于存在迭代時間長、泛化能力弱、智能化水平低等缺點(diǎn),無法適用于環(huán)境多變或環(huán)境未知下的避障問題.隨著人工智能技術(shù)發(fā)展,深度強(qiáng)化學(xué)習(xí)逐漸被運(yùn)用于求解無人機(jī)自主避障與目標(biāo)追蹤問題.文獻(xiàn)[3-5]基于深度Q網(wǎng)絡(luò)(Deep Q Net,DQN)[6]算法完成無人機(jī)離散動作空間下路徑規(guī)劃.文獻(xiàn)[7-8]采用深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)[9]算法實(shí)現(xiàn)無人機(jī)連續(xù)動作空間下目標(biāo)追蹤的自主決策.

    雖然上述算法均取得了一定的成果,但是傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法訓(xùn)練速度慢,且只能應(yīng)對單一環(huán)境下的任務(wù),而當(dāng)障礙物環(huán)境或目標(biāo)運(yùn)動軌跡改變時,智能體往往需要重新進(jìn)行大量探索和訓(xùn)練.因此如何提升深度強(qiáng)化學(xué)習(xí)算法面對復(fù)雜動態(tài)任務(wù)時的收斂速度和適應(yīng)性成為強(qiáng)化學(xué)習(xí)領(lǐng)域的一大熱點(diǎn)和難點(diǎn).

    近年來,有學(xué)者將元學(xué)習(xí)與深度強(qiáng)化學(xué)習(xí)相結(jié)合,提出了元強(qiáng)化學(xué)習(xí)概念.元學(xué)習(xí)主張讓機(jī)器學(xué)習(xí)如何學(xué)習(xí),人類之所以比機(jī)器更智能是因?yàn)楫?dāng)遇到一個新任務(wù)時,人類知道怎么在短時間內(nèi)得出執(zhí)行任務(wù)的要領(lǐng).Finn 等[10]提出與模型無關(guān)的元學(xué)習(xí)(Model-Agnostic Meta-Learning,MAML),可適用于任何采用梯度下降更新方法的機(jī)器學(xué)習(xí)算法.Wang等[11]首次將長短期記憶網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合,使得神經(jīng)網(wǎng)絡(luò)具有能夠獨(dú)立訓(xùn)練任務(wù)的能力.Xu 等[12]提出在深度強(qiáng)化學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中添加嵌入層對上下文潛在變量進(jìn)行元訓(xùn)練以提高分布式數(shù)據(jù)挖掘的效率.然而,發(fā)揮元強(qiáng)化學(xué)習(xí)可根據(jù)新任務(wù)自主適應(yīng)的優(yōu)勢,用以解決復(fù)雜動態(tài)環(huán)境下的無人機(jī)自主避障與目標(biāo)追蹤問題鮮有報道.

    綜上,為解決傳統(tǒng)深度強(qiáng)化學(xué)習(xí)在求解無人機(jī)自主避障與目標(biāo)追蹤任務(wù)時收斂特性差、環(huán)境適應(yīng)性弱的問題,本文提出了一種元深度確定性策略梯度(Meta-Deep Deterministic Policy Gradient,Meta-DDPG)算法.將元學(xué)習(xí)算法MAML 與深度強(qiáng)化學(xué)習(xí)算法DDPG 相結(jié)合,在預(yù)訓(xùn)練過程中設(shè)計(jì)內(nèi)外部元參數(shù)更新規(guī)則,獲取可以適應(yīng)多種任務(wù)的元初始參數(shù).此外,構(gòu)造基本元任務(wù)集運(yùn)用于Meta-DDPG 算法預(yù)訓(xùn)練階段.最后仿真結(jié)果表明,采用基本元任務(wù)集使得工程應(yīng)用更加高效,Meta-DDPG 算法與DDPG算法相比具有更優(yōu)的收斂特性與環(huán)境適應(yīng)性,并且元學(xué)習(xí)方法和基本元任務(wù)集對確定性策略強(qiáng)化學(xué)習(xí)算法具有較高的通用性.

    1 問題描述

    1.1 無人機(jī)運(yùn)動模型

    本文重點(diǎn)討論無人機(jī)在執(zhí)行自主避障與目標(biāo)追蹤任務(wù)時的決策問題,故將無人機(jī)視為二維空間下的運(yùn)動模型,使用水平與垂直方向的加速度來控制無人機(jī)的運(yùn)動,如圖1所示[13].圖中,(xt,yt)為無人機(jī)t時刻的位置坐標(biāo)為無人機(jī)通過GPS 等設(shè)備獲取目標(biāo)t時刻的位置坐標(biāo)為無人機(jī)利用避障傳感器感知環(huán)境的最大歐氏距離;vt為無人機(jī)t時刻的飛行速度為目標(biāo)t時刻的運(yùn)動速度;dt為無人機(jī)t時刻與目標(biāo)之間的歐氏距離為無人機(jī)t時刻與障礙物之間的直線距離;vx|t、vy|t分別表示t時刻無人機(jī)水平與垂直方向上的飛行速度.

    圖1 無人機(jī)的運(yùn)動學(xué)模型Fig.1 Kinematic model of UAV

    考慮到實(shí)際情況中無人機(jī)速度不能瞬間變化,故無人機(jī)運(yùn)動方程可表示為

    式中:nt為無人機(jī)t時刻的加速度大?。沪翞榧铀俣确较蚺c水平線的夾角.

    1.2 無人機(jī)自主避障與目標(biāo)追蹤任務(wù)建模

    為了更好地描述無人機(jī)自主避障與目標(biāo)追蹤任務(wù),將其定義為馬爾可夫決策過程(Markov decision process,MDP).MDP由狀態(tài)空間S、動作空間A、狀態(tài)轉(zhuǎn)移概率P、獎勵函數(shù)R和折扣因子γ組成,并以元組表示為(S,A,P,R,γ).在該任務(wù)中狀態(tài)空間S為無人機(jī)的本體狀態(tài)與傳感器采集的環(huán)境信息;動作空間A為無人機(jī)采取的追蹤動作;狀態(tài)轉(zhuǎn)移概率P[st+1|st,at]為狀態(tài)st下執(zhí)行動作at轉(zhuǎn)移到st+1的概率;獎勵函數(shù)R為在狀態(tài)st下采取動作at,無人機(jī)可以獲得的即時獎勵,即R(st,at);折扣因子γ為未來獎勵對當(dāng)前狀態(tài)的影響因素.在此定義動作值函數(shù)的貝爾曼方程為

    式中:π表示智能體所采取的動作序列,稱為策略;

    Qπ(s,a)表示在狀態(tài)s處,采取動作a后,所得到的折扣累計(jì)獎勵的期望.根據(jù)Qπ(s,a)值大小可評估策略π的優(yōu)劣.

    1.2.1 狀態(tài)空間S

    狀態(tài)空間S為智能體自身狀態(tài)和環(huán)境信息的集合.在該任務(wù)中設(shè)狀態(tài)空間S由無人機(jī)所在位置坐標(biāo)(xt,yt)、目標(biāo)所在位置坐標(biāo)無人機(jī)與目標(biāo)之間的歐氏距離dt、傳感器范圍內(nèi)無人機(jī)與障礙物的歐氏距離和無人機(jī)的速度vt共7個數(shù)據(jù)組成,并對數(shù)據(jù)進(jìn)行歸一化.

    最終狀態(tài)空間S記作

    1.2.2 動作空間A

    動作空間A為智能體可執(zhí)行的動作.由于無人機(jī)速度不能瞬間變化,所以動作空間由加速度大小n和加速度方向與水平線的夾角α組成,同樣進(jìn)行歸一化為

    式中,nmax為無人機(jī)最大加速度.

    所以動作空間A記作

    深度強(qiáng)化學(xué)習(xí)算法最終目標(biāo)是獲得最優(yōu)策略π,即在任意狀態(tài)s下所執(zhí)行的動作a.

    1.2.3 獎勵函數(shù)R

    獎勵函數(shù)的設(shè)定對深度強(qiáng)化學(xué)習(xí)的訓(xùn)練結(jié)果至關(guān)重要,不同的獎勵函數(shù)對模型收斂特性影響都不同.此任務(wù)中,若采用稀疏獎勵,也即只在無人機(jī)追蹤成功或失敗后才反饋獎勵,會造成收斂速度緩慢的問題.因此本文設(shè)置連續(xù)獎勵函數(shù)為

    式中:r1為追蹤獎勵;r2為避障獎勵;r3為距離獎勵;r為總獎勵;d為無人機(jī)感知范圍內(nèi)障礙物的歐氏距離;d為無人機(jī)與目標(biāo)之間的歐氏距離.

    2 DDPG算法

    DDPG 是一種處理連續(xù)狀態(tài)空間和動作空間問題的確定性策略強(qiáng)化學(xué)習(xí)算法.傳統(tǒng)演員-評論家(Actor-Critic,AC)算法中演員網(wǎng)絡(luò)與評論家網(wǎng)絡(luò)在訓(xùn)練時往往不穩(wěn)定.DDPG 算法針對此問題,分別構(gòu)建了一對結(jié)構(gòu)完全相同的評估(Eval)神經(jīng)網(wǎng)絡(luò)和目標(biāo)(Target)神經(jīng)網(wǎng)絡(luò).其中Eval神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練更新網(wǎng)絡(luò)參數(shù),Target神經(jīng)網(wǎng)絡(luò)采用軟更新的方式來跟隨Eval神經(jīng)網(wǎng)絡(luò)參數(shù),保證訓(xùn)練過程的穩(wěn)定性.

    對于演員Eval 網(wǎng)絡(luò),可訓(xùn)練參數(shù)為θ,輸入為狀態(tài)s,輸出為動作a.演員Eval神經(jīng)網(wǎng)絡(luò)損失函數(shù)為

    式中:Qπθ(s,a)為在狀態(tài)s處根據(jù)策略πθ得到的動作值函數(shù).采用梯度下降法,使盡可能最大化.

    對于評論家Eval 網(wǎng)絡(luò),可訓(xùn)練的參數(shù)為w,輸入為狀態(tài)s和動作a,輸出為動作值利用時間差分誤差(TD-error)對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,評論家Eval神經(jīng)網(wǎng)絡(luò)損失函數(shù)為

    式中:r(s,a)為在狀態(tài)s處采取動作a可獲得的即時獎勵;為評論家Target 神經(jīng)網(wǎng)絡(luò)給出的下一個時刻的行為值;w′為評論家Target神經(jīng)網(wǎng)絡(luò)參數(shù);θ′為演員Target神經(jīng)網(wǎng)絡(luò)參數(shù);s′為下一時刻的狀態(tài);πθ′(s′)為演員Target 神經(jīng)網(wǎng)絡(luò)輸出的動作;Q(s,πθ(s);w)為評論家Eval 神經(jīng)網(wǎng)絡(luò)給出的當(dāng)前時刻行為值;w為評論家Eval 神經(jīng)網(wǎng)絡(luò)參數(shù);s和πθ(s) 為當(dāng)前時刻狀態(tài)與動作;γ為折扣因子;為TD-error.

    Target 神經(jīng)網(wǎng)絡(luò)采用式(14)周期性地進(jìn)行軟更新,其中τ是常數(shù).

    3 MAML

    元學(xué)習(xí)使智能體具有學(xué)會學(xué)習(xí)的能力[14].元學(xué)習(xí)的重點(diǎn)在于如何在模型中引入先驗(yàn)知識,并在訓(xùn)練過程中優(yōu)化外部記憶,從而在訓(xùn)練新任務(wù)時更快更準(zhǔn)確地學(xué)習(xí).MAML 與其他深度學(xué)習(xí)算法不同之處在于其不是尋找完成某個任務(wù)的最優(yōu)參數(shù),而是通過訓(xùn)練一系列與任務(wù)相關(guān)的元任務(wù)來尋找使模型在面對新任務(wù)時快速達(dá)到最優(yōu)的初始參數(shù)η.η具有對新任務(wù)學(xué)習(xí)域分布的敏感特性,在面臨新任務(wù)時可使訓(xùn)練模型內(nèi)部的某些特征更容易地在多種任務(wù)之間相互轉(zhuǎn)換,經(jīng)過幾步更新后即可獲得最優(yōu)的模型網(wǎng)絡(luò)參數(shù).MAML 梯度下降過程如圖2 所示.圖中,η表示經(jīng)過MAML 預(yù)訓(xùn)練后得到的初始化參數(shù);L1,L2,L3分別表示新任務(wù)的損失函數(shù);?表示梯度算子表示在新任務(wù)下的最優(yōu)更新方向.

    圖2 MAML梯度下降過程Fig.2 MAML gradient descent process

    4 元強(qiáng)化學(xué)習(xí)

    在深度強(qiáng)化學(xué)習(xí)的訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)的不確定性往往會導(dǎo)致算法收斂特性較差,且訓(xùn)練的結(jié)果是一個僅適應(yīng)當(dāng)前任務(wù)和環(huán)境的策略.針對深度強(qiáng)化學(xué)習(xí)實(shí)施過程中存在的上述問題,本文在DDPG算法中引入MAML,提出一種元強(qiáng)化學(xué)習(xí)算法——Meta-DDPG 算法.其基本思想是設(shè)計(jì)一種內(nèi)外部元參數(shù)更新規(guī)則以獲得一組元初始參數(shù),提高模型面對不同任務(wù)的收斂速度和環(huán)境適應(yīng)性.

    4.1 基本元任務(wù)集

    環(huán)境適應(yīng)性是指模型面對一個新任務(wù)環(huán)境時經(jīng)過少量訓(xùn)練便可獲取正確策略的能力.元強(qiáng)化學(xué)習(xí)需要利用元任務(wù)集獲得先驗(yàn)知識而提升模型的環(huán)境適應(yīng)性,大部分元強(qiáng)化學(xué)習(xí)中的元任務(wù)集與實(shí)際任務(wù)場景相似[15-16].若把多種不同的復(fù)雜測試環(huán)境作為求解無人機(jī)自主避障與目標(biāo)追蹤問題的元任務(wù)集,使用Meta-DDPG 算法進(jìn)行預(yù)訓(xùn)練將花費(fèi)大量時間,降低工程效率.為此,根據(jù)MAML 中元任務(wù)的定義,將一個復(fù)雜多變的整體任務(wù)分解為多個只完成單一子任務(wù)目標(biāo)的基本元任務(wù),并將它們構(gòu)成基本元任務(wù)集T={T1,T2,…,Tj},其中Tj為第j個基本元任務(wù),同時為T中的每個基本元任務(wù)創(chuàng)建經(jīng)驗(yàn)回放池Meta-DDPG 算法預(yù)訓(xùn)練過程中,智能體依次對T內(nèi)每個基本元任務(wù)進(jìn)行訓(xùn)練得到能夠適應(yīng)每個子任務(wù)的策略,最終獲得學(xué)習(xí)整體任務(wù)的元初始參數(shù).

    在無人機(jī)自主避障與目標(biāo)追蹤任務(wù)中,基本元任務(wù)集中包含無人機(jī)追蹤與無人機(jī)避障兩個基本元任務(wù),如圖3 所示.在Meta-DDPG 算法預(yù)訓(xùn)練中,首先學(xué)習(xí)無人機(jī)在無障礙物環(huán)境下靜態(tài)目標(biāo)追蹤策略,然后學(xué)習(xí)無人機(jī)在簡單障礙物環(huán)境下的自主避障策略,最終獲得一個可以適應(yīng)自主避障和目標(biāo)追蹤新任務(wù)的元初始參數(shù).由于基本元任務(wù)都較為簡單,只需要較少幕數(shù)便可獲取其中的先驗(yàn)知識,提高了預(yù)訓(xùn)練的效率.

    圖3 基本元任務(wù)集構(gòu)造Fig.3 The construction of the basic meta-task sets

    4.2 Meta-DDPG算法

    Meta-DDPG 算法分為預(yù)訓(xùn)練和整體任務(wù)訓(xùn)練兩部分.在預(yù)訓(xùn)練中,設(shè)計(jì)一種內(nèi)外部元參數(shù)更新規(guī)則,內(nèi)部網(wǎng)絡(luò)訓(xùn)練和外部元參數(shù)更新以一定的頻率交替進(jìn)行.內(nèi)部網(wǎng)絡(luò)依次學(xué)習(xí)各個基本元任務(wù)獲得不同的內(nèi)部參數(shù),外部元參數(shù)更新通過優(yōu)化不同的參數(shù)獲得一個環(huán)境適應(yīng)性較強(qiáng)的元初始參數(shù).在整體任務(wù)訓(xùn)練中,對于不同測試環(huán)境下無人機(jī)自主避障與目標(biāo)追蹤,Meta-DDPG 算法僅通過少量訓(xùn)練幕數(shù)就能快速收斂,獲取正確動作策略.

    Meta-DDPG 預(yù)訓(xùn)練中內(nèi)部參數(shù)更新可描述為依次對每個基本元任務(wù)的訓(xùn)練過程,利用Meta-DDPG中Eval 神經(jīng)網(wǎng)絡(luò)與Target 神經(jīng)網(wǎng)絡(luò)配合不斷更新獲得適用于基本元任務(wù)的神經(jīng)網(wǎng)絡(luò)內(nèi)部參數(shù).對于外部元參數(shù)更新,可描述為對基本元任務(wù)集的神經(jīng)網(wǎng)絡(luò)參數(shù)二次梯度優(yōu)化過程.外部周期性地對元參數(shù)進(jìn)行更新,更新規(guī)則為

    式中:θmeta為演員Target神經(jīng)網(wǎng)絡(luò)的外部元參數(shù);wmeta為評論家Target 神經(jīng)網(wǎng)絡(luò)的外部元參數(shù);n為完成訓(xùn)練的基本元任務(wù)數(shù)量;τ為常數(shù),控制元參數(shù)更新的速度為元任務(wù)Tj訓(xùn)練過程中的演員Target 神經(jīng)網(wǎng)絡(luò)參數(shù)為元任務(wù)Tj訓(xùn)練過程中的評論家Tar?get神經(jīng)網(wǎng)絡(luò)參數(shù).預(yù)訓(xùn)練結(jié)束后,θmeta和wmeta即為元初始參數(shù).Meta-DDPG網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示.

    圖4 Meta-DDPG算法結(jié)構(gòu)圖Fig.4 Meta-DDPG algorithm structure diagram

    以基本元任務(wù)Tj為例,當(dāng)Meta-DDPG 網(wǎng)絡(luò)內(nèi)部更新一定步數(shù)后外部元參數(shù)也進(jìn)行更新.在每個基本元任務(wù)交替過程中,將外部元參數(shù)賦值給內(nèi)部參數(shù)作為下一個基本元任務(wù)Tj+1的初始參數(shù),直至遍歷完基本元任務(wù)集后獲得整體任務(wù)的元初始參數(shù).預(yù)訓(xùn)練流程如算法1所示.

    算法1 Meta-DDPG中預(yù)訓(xùn)練算法Algorithm.1 Pre-training algorithm of META-DDPG

    通過以上算法可獲得無人機(jī)自主避障與目標(biāo)追蹤任務(wù)的元初始參數(shù)θmcta、wmcta.訓(xùn)練整體任務(wù)時利用此參數(shù)初始化,模型可充分利用先驗(yàn)知識,僅需少量迭代便可收斂并獲得完成任務(wù)的策略.后續(xù)對整體任務(wù)的訓(xùn)練過程與DDPG 算法相同,在此不再贅述.另需指出的是,本文所提出的Meta-DDPG 算法面對新任務(wù)時不必重復(fù)預(yù)訓(xùn)練,只需使用元初始參數(shù)進(jìn)行網(wǎng)絡(luò)初始化.

    5 仿真結(jié)果與分析

    使用Meta-DDPG 算法求解無人機(jī)自主避障與目標(biāo)追蹤任務(wù).設(shè)定追蹤場景為600 m×600 m 的二維正方形領(lǐng)域,場景中存在多個障礙物,并且當(dāng)目標(biāo)感知無人機(jī)靠近時會產(chǎn)生逃逸動作.無人機(jī)可利用GPS 等設(shè)備獲取目標(biāo)位置且通過傳感器獲取與障礙物的距離.當(dāng)無人機(jī)自主避開障礙物并追蹤到目標(biāo)視為任務(wù)成功;當(dāng)無人機(jī)撞上障礙物、無人機(jī)或目標(biāo)離開正方形領(lǐng)域兩種情況視為任務(wù)失敗.

    5.1 實(shí)驗(yàn)參數(shù)

    設(shè)無人機(jī)與障礙物之間最大直線距離dmax=850m;無人機(jī)加速度大小n∈[-3 m/s2,3 m/s2];無人機(jī)最大飛行速度vmax=20 m/s,最小飛行速度vmin=5 m/s;無人機(jī)避障傳感器最大測量范圍dmax=50 m;預(yù)訓(xùn)練網(wǎng)絡(luò)超參數(shù)τ=0.1,折扣因子γ=0.9;各元任務(wù)預(yù)訓(xùn)練幕數(shù)episode_meta=100;整體任務(wù)訓(xùn)練幕數(shù)episode=500;經(jīng)驗(yàn)回放池容量為1 000;探索步數(shù)為1 000 步;演員深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率lractor=0.000 1;評論家深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)率lrcritic=0.000 5;外部元參數(shù)更新頻率meta_update_freq=10;采樣經(jīng)驗(yàn)數(shù)量N=32.

    5.2 深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

    根據(jù)式(5)知狀態(tài)空間S包含7 個參數(shù),故演員深度神經(jīng)網(wǎng)絡(luò)為7維輸入;由式(7)動作空間A包含2個參數(shù),故為2 維輸出.評論家深度神經(jīng)網(wǎng)絡(luò)輸入為當(dāng)前狀態(tài)與演員深度神經(jīng)網(wǎng)絡(luò)輸出的動作,故為9維輸入;輸出為行為值Q(s,a),故為1 維輸出.由上可設(shè)演員和評論家深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)分別為7×256×256×256×2和9×256×256×256×1.

    演員深度神經(jīng)網(wǎng)絡(luò)中,輸出動作均歸一化至[-1,1],輸出層使用Tanh 激活函數(shù),其余層均使用Relu激活函數(shù).評論家深度神經(jīng)網(wǎng)絡(luò)中,輸出層為線性激活函數(shù)以確保行為值Q(s,a)正常輸出,其余層也均使用Relu激活函數(shù).

    5.3 實(shí)驗(yàn)結(jié)果

    5.3.1 基本元任務(wù)集預(yù)訓(xùn)練效果驗(yàn)證

    構(gòu)造基本元任務(wù)集,將無人機(jī)自主避障與目標(biāo)追蹤任務(wù)分解為無人機(jī)追蹤與無人機(jī)避障兩個基本元任務(wù)并分別構(gòu)建經(jīng)驗(yàn)回放池,如圖3 所示.作為對比,將圖5 中兩個復(fù)雜測試環(huán)境下動態(tài)目標(biāo)追蹤任務(wù)作為復(fù)雜元任務(wù)集.使用Meta-DDPG 算法,對兩種元任務(wù)集各進(jìn)行共200 幕預(yù)訓(xùn)練.整體任務(wù)為圖6(a)中測試環(huán)境(1)下的無人機(jī)自主避障與目標(biāo)追蹤.

    圖5 復(fù)雜元任務(wù)集Fig.5 The complex meta-task sets

    利用平均獎勵值的收斂特性來衡量網(wǎng)絡(luò)的預(yù)訓(xùn)練效果.如圖6(b)所示,可知在每個元任務(wù)訓(xùn)練100幕的情況下,當(dāng)采用基本元任務(wù)集時可以更充分地利用先驗(yàn)知識獲得適應(yīng)整體任務(wù)的元初始參數(shù).平均獎勵值的上升速度與收斂特性都優(yōu)于復(fù)雜元任務(wù)集.Meta-DDPG 算法整體任務(wù)測試結(jié)果如圖6(a)所示.

    圖6 Meta-DDPG在測試環(huán)境(1)中實(shí)驗(yàn)結(jié)果Fig.6 Experimental results of Meta-DDPG in the testing environment(1)

    5.3.2 Meta-DDPG收斂特性驗(yàn)證

    使用5.3.1 節(jié)中預(yù)訓(xùn)練獲得的元初始參數(shù),在圖7(a)測試環(huán)境(2)中進(jìn)行500 幕訓(xùn)練后測試.為了更好地體現(xiàn)Meta-DDPG 在收斂速度上的優(yōu)勢,使用不經(jīng)預(yù)訓(xùn)練的DDPG 算法與之比較.利用平均獎勵值的收斂特性和Tensorboard 中演員Eval 神經(jīng)網(wǎng)絡(luò)的Loss值來衡量算法的性能,仿真曲線分別如圖7(b)、圖7(c)所示.

    由圖7(b)可知,使用Meta-DDPG 算法時,平均獎勵值在訓(xùn)練伊始就迅速上升,且經(jīng)過150 幕訓(xùn)練后逐漸達(dá)到收斂.由圖7(c)知元初始參數(shù)可使演員Eval網(wǎng)絡(luò)Loss值迅速下降,并在訓(xùn)練120幕后在一個較低的范圍內(nèi)波動.使用Meta-DDPG 訓(xùn)練500 幕所得模型進(jìn)行測試,測試結(jié)果如圖7(a)所示,由圖知無人機(jī)可自主繞過障礙物并準(zhǔn)確地追上逃逸的目標(biāo).而DDPG 算法由于先驗(yàn)知識缺失、探索效率低、經(jīng)驗(yàn)樣本質(zhì)量差等原因,在較短的訓(xùn)練幕數(shù)與較少的經(jīng)驗(yàn)池容量下陷入錯誤的局部最優(yōu),無法得到完成此任務(wù)的策略.圖7(b)可知平均獎勵曲線無法正確地收斂,平均獎勵始終小于0.圖7(c)可知DDPG 無法通過訓(xùn)練使演員Eval網(wǎng)絡(luò)Loss函數(shù)梯度下降,loss值始終大于0.

    圖7 Meta-DDPG在測試環(huán)境(2)中實(shí)驗(yàn)結(jié)果Fig.7 Experimental results of Meta-DDPG in the testing environment(2)

    5.3.3 Meta-DDPG環(huán)境適應(yīng)性驗(yàn)證

    為了突出Meta-DDPG 算法的環(huán)境適應(yīng)性,在如圖8(a)所示障礙物大小不同、目標(biāo)運(yùn)動軌跡不同的測試環(huán)境(3)中,使用與5.3.2 節(jié)相同的元初始參數(shù)進(jìn)行訓(xùn)練與測試.作為對比,使用能夠在測試環(huán)境(1)中完成任務(wù)的DDPG 算法模型進(jìn)行訓(xùn)練.由圖8(b)可知,Meta-DDPG 算法的平均獎勵在訓(xùn)練伊始就快速上升,150 幕后相對穩(wěn)定,環(huán)境適應(yīng)性較強(qiáng).而DDPG 算法的平均獎勵值在350 幕才開始上升,且在500 幕內(nèi)尚未收斂.Meta-DDPG 算法整體任務(wù)測試結(jié)果如圖8(a)所示.

    圖8 Meta-DDPG在測試環(huán)境(3)中實(shí)驗(yàn)結(jié)果Fig.8 Experimental results of Meta-DDPG in the testing environment(3)

    5.3.4 元學(xué)習(xí)方法與基本元任務(wù)集通用性驗(yàn)證

    為了體現(xiàn)元學(xué)習(xí)方法和基本元任務(wù)集對確定性策略強(qiáng)化學(xué)習(xí)算法的通用性,將其運(yùn)用于與DDPG算法同為確定性策略的雙延遲深度確定性策略梯度(Twin Delayed Deep Deterministic Policy Gradient,TD3)[17]算法,構(gòu)造Meta-TD3 算法.使用圖3 的基本元任務(wù)集預(yù)訓(xùn)練,并在測試環(huán)境(2)-(3)中對其收斂特性和環(huán)境適應(yīng)性進(jìn)行仿真驗(yàn)證,仿真結(jié)果見圖9.

    圖9 元學(xué)習(xí)方法與基本元任務(wù)集通用性實(shí)驗(yàn)結(jié)果Fig.9 Experimental results of generality of the meta learning and the basic meta-task sets

    由圖9(a)可知,Meta-TD3算法與Meta-DDPG算法結(jié)果類似,均可在較短訓(xùn)練幕數(shù)與較小經(jīng)驗(yàn)池容量下充分利用元初始參數(shù)內(nèi)的先驗(yàn)知識,平均獎勵曲線在250 幕后逐漸收斂.而TD3 算法在此情況下同樣陷入錯誤的局部最優(yōu),無法正確收斂且平均獎勵始終小于0.由圖9(b)可知Meta-TD3 算法面對新測試環(huán)境時可在300 幕后逐漸達(dá)到收斂,具有較高的環(huán)境適應(yīng)性.以上表明元學(xué)習(xí)方法和基本元任務(wù)集對確定性策略強(qiáng)化學(xué)習(xí)算法具有較好的通用性,且元強(qiáng)化學(xué)習(xí)方法能夠有效地解決傳統(tǒng)深度強(qiáng)化學(xué)習(xí)算法中存在的收斂特性差、面對新任務(wù)泛化能力弱的問題.

    6 結(jié)論

    本文對無人機(jī)自主避障與目標(biāo)追蹤任務(wù)進(jìn)行建模,將深度強(qiáng)化學(xué)習(xí)算法DDPG與元學(xué)習(xí)算法MAML結(jié)合,并設(shè)計(jì)一種內(nèi)外部元參數(shù)更新規(guī)則,提出元強(qiáng)化學(xué)習(xí)算法Meta-DDPG.該算法能夠有效地解決傳統(tǒng)深度強(qiáng)化學(xué)習(xí)存在的收斂特性差、面對新任務(wù)泛化能力弱的問題.此外,構(gòu)建基本元任務(wù)集以提升工程應(yīng)用時預(yù)訓(xùn)練的效率.仿真結(jié)果表明,在求解無人機(jī)自主避障與目標(biāo)追蹤任務(wù)時,不論是對于該無人機(jī)任務(wù)訓(xùn)練的收斂特性,還是面對不同任務(wù)的環(huán)境適應(yīng)性,Meta-DDPG 算法與DDPG 算法對比都有著顯著的提高.同時,使用基本元任務(wù)集進(jìn)行預(yù)訓(xùn)練時,比傳統(tǒng)元任務(wù)集更為高效.且元學(xué)習(xí)方法和基本元任務(wù)集對于確定性策略強(qiáng)化學(xué)習(xí)算法具有較好的通用性.

    猜你喜歡
    神經(jīng)網(wǎng)絡(luò)深度動作
    深度理解一元一次方程
    神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
    電子制作(2019年19期)2019-11-23 08:42:00
    深度觀察
    深度觀察
    深度觀察
    動作描寫要具體
    畫動作
    動作描寫不可少
    基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
    復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
    一边摸一边抽搐一进一出视频| 一区二区三区国产精品乱码| 超色免费av| tube8黄色片| 岛国在线观看网站| 黄色怎么调成土黄色| 成人18禁在线播放| 69精品国产乱码久久久| 免费看十八禁软件| 在线天堂中文资源库| 精品视频人人做人人爽| 丁香欧美五月| 国产精品久久久久久精品古装| 午夜福利影视在线免费观看| 香蕉久久夜色| 丰满人妻熟妇乱又伦精品不卡| 亚洲成国产人片在线观看| 久9热在线精品视频| 国产成人精品久久二区二区91| 天堂动漫精品| 久久精品aⅴ一区二区三区四区| 成人国产一区最新在线观看| 精品国产超薄肉色丝袜足j| 老汉色∧v一级毛片| 色综合婷婷激情| 在线av久久热| 精品国产乱码久久久久久小说| 亚洲av欧美aⅴ国产| 肉色欧美久久久久久久蜜桃| 亚洲av日韩精品久久久久久密| 亚洲精品国产精品久久久不卡| a级片在线免费高清观看视频| 亚洲少妇的诱惑av| 午夜视频精品福利| 岛国在线观看网站| av电影中文网址| 丁香六月欧美| 国产在线精品亚洲第一网站| 久久久久精品国产欧美久久久| 首页视频小说图片口味搜索| 午夜精品久久久久久毛片777| 亚洲精品一二三| 精品国产一区二区三区四区第35| 99国产极品粉嫩在线观看| 天堂俺去俺来也www色官网| 激情在线观看视频在线高清 | 精品人妻在线不人妻| 亚洲精品在线观看二区| 日韩免费av在线播放| 亚洲熟女毛片儿| 女性被躁到高潮视频| 成人精品一区二区免费| 免费在线观看日本一区| 国产aⅴ精品一区二区三区波| 亚洲成人免费av在线播放| 在线观看66精品国产| 五月天丁香电影| 黑人操中国人逼视频| 最近最新中文字幕大全电影3 | 一级片'在线观看视频| 成人国语在线视频| 99久久精品国产亚洲精品| 国产精品秋霞免费鲁丝片| 波多野结衣一区麻豆| 视频在线观看一区二区三区| 久久久久久久久久久久大奶| 久久精品国产亚洲av高清一级| 亚洲男人天堂网一区| 另类亚洲欧美激情| a级片在线免费高清观看视频| 两个人免费观看高清视频| 精品熟女少妇八av免费久了| 黄色毛片三级朝国网站| 国产在线精品亚洲第一网站| 91大片在线观看| 中文字幕高清在线视频| 在线十欧美十亚洲十日本专区| 久久久久网色| 国产老妇伦熟女老妇高清| 不卡av一区二区三区| 麻豆乱淫一区二区| 丰满饥渴人妻一区二区三| 欧美亚洲日本最大视频资源| 日韩制服丝袜自拍偷拍| 巨乳人妻的诱惑在线观看| 国产午夜精品久久久久久| 人成视频在线观看免费观看| 欧美另类亚洲清纯唯美| 久久国产精品人妻蜜桃| av不卡在线播放| 老熟女久久久| 国产精品国产av在线观看| 人人妻人人澡人人爽人人夜夜| 亚洲一区二区三区欧美精品| 国产成人欧美在线观看 | 中文字幕人妻丝袜制服| 制服诱惑二区| 久久久久国产一级毛片高清牌| 一区二区三区国产精品乱码| 日韩中文字幕欧美一区二区| 又紧又爽又黄一区二区| 欧美精品高潮呻吟av久久| 纯流量卡能插随身wifi吗| 亚洲全国av大片| 日韩成人在线观看一区二区三区| 99久久人妻综合| 啦啦啦免费观看视频1| 中文字幕另类日韩欧美亚洲嫩草| 在线观看免费日韩欧美大片| 欧美一级毛片孕妇| 国产精品久久电影中文字幕 | 国产精品国产av在线观看| 国产91精品成人一区二区三区 | 精品少妇久久久久久888优播| 麻豆国产av国片精品| 丝袜人妻中文字幕| 国产麻豆69| 狂野欧美激情性xxxx| 2018国产大陆天天弄谢| 欧美黄色淫秽网站| 99热网站在线观看| 午夜激情久久久久久久| 在线av久久热| 50天的宝宝边吃奶边哭怎么回事| 色婷婷久久久亚洲欧美| 黄色 视频免费看| 免费在线观看影片大全网站| 十八禁高潮呻吟视频| 欧美黑人精品巨大| 国产成人精品在线电影| 十八禁人妻一区二区| 天堂8中文在线网| 自线自在国产av| 国产亚洲精品久久久久5区| 午夜久久久在线观看| 在线观看免费视频日本深夜| 90打野战视频偷拍视频| √禁漫天堂资源中文www| 亚洲欧美激情在线| 久久中文字幕人妻熟女| 91大片在线观看| 久久久久久人人人人人| 狠狠婷婷综合久久久久久88av| 大片电影免费在线观看免费| 老司机靠b影院| 午夜福利在线免费观看网站| svipshipincom国产片| 建设人人有责人人尽责人人享有的| 在线天堂中文资源库| 两人在一起打扑克的视频| 不卡av一区二区三区| 另类亚洲欧美激情| 亚洲五月婷婷丁香| 精品一区二区三区av网在线观看 | 国产亚洲av高清不卡| 精品人妻熟女毛片av久久网站| 亚洲人成伊人成综合网2020| 一边摸一边抽搐一进一出视频| 亚洲成人国产一区在线观看| 桃花免费在线播放| 亚洲三区欧美一区| 久久国产精品大桥未久av| 久久精品国产99精品国产亚洲性色 | 国产极品粉嫩免费观看在线| 欧美日韩精品网址| 亚洲av电影在线进入| 精品午夜福利视频在线观看一区 | 精品免费久久久久久久清纯 | 日韩中文字幕欧美一区二区| 俄罗斯特黄特色一大片| 青青草视频在线视频观看| 伊人久久大香线蕉亚洲五| 俄罗斯特黄特色一大片| 精品一区二区三区av网在线观看 | 麻豆国产av国片精品| 女人爽到高潮嗷嗷叫在线视频| 男女无遮挡免费网站观看| 久久九九热精品免费| 中文字幕高清在线视频| 欧美午夜高清在线| 桃花免费在线播放| 丝袜在线中文字幕| 国产成人精品在线电影| 国产精品久久电影中文字幕 | 91成人精品电影| 啪啪无遮挡十八禁网站| 精品少妇内射三级| 亚洲男人天堂网一区| 菩萨蛮人人尽说江南好唐韦庄| 激情在线观看视频在线高清 | 欧美日韩一级在线毛片| 免费一级毛片在线播放高清视频 | 变态另类成人亚洲欧美熟女 | 91成年电影在线观看| 国产精品偷伦视频观看了| 99久久精品国产亚洲精品| 一级毛片电影观看| 国产成人免费无遮挡视频| 国产精品熟女久久久久浪| 建设人人有责人人尽责人人享有的| 老熟妇仑乱视频hdxx| h视频一区二区三区| 国产在线视频一区二区| 欧美日韩成人在线一区二区| 91国产中文字幕| 91麻豆av在线| 亚洲 欧美一区二区三区| 国产精品久久久久久精品电影小说| 亚洲熟女毛片儿| 午夜福利乱码中文字幕| 99久久国产精品久久久| 午夜激情av网站| 国产在线免费精品| 男女高潮啪啪啪动态图| 日韩成人在线观看一区二区三区| 欧美日韩福利视频一区二区| 岛国在线观看网站| 亚洲av电影在线进入| 丰满人妻熟妇乱又伦精品不卡| 成人国产一区最新在线观看| 男女边摸边吃奶| 中文字幕高清在线视频| 亚洲第一青青草原| 首页视频小说图片口味搜索| 午夜视频精品福利| 中国美女看黄片| 黑人操中国人逼视频| 久久久欧美国产精品| 亚洲国产av影院在线观看| 亚洲精品一卡2卡三卡4卡5卡| 女人久久www免费人成看片| 一级片'在线观看视频| 999精品在线视频| 亚洲av日韩在线播放| 日本av手机在线免费观看| 99国产极品粉嫩在线观看| 丝袜人妻中文字幕| 激情在线观看视频在线高清 | 国产精品美女特级片免费视频播放器 | 99国产精品免费福利视频| 日韩大片免费观看网站| 狠狠精品人妻久久久久久综合| 69av精品久久久久久 | 一夜夜www| 我的亚洲天堂| 精品一品国产午夜福利视频| 最新在线观看一区二区三区| 蜜桃国产av成人99| 国产成人精品无人区| 国精品久久久久久国模美| 国产主播在线观看一区二区| 日本vs欧美在线观看视频| 国产精品亚洲一级av第二区| 大型av网站在线播放| 日日摸夜夜添夜夜添小说| 国产免费av片在线观看野外av| 亚洲伊人久久精品综合| 亚洲国产成人一精品久久久| 十八禁人妻一区二区| 99国产精品一区二区三区| 人妻 亚洲 视频| a在线观看视频网站| 精品国产国语对白av| 亚洲国产成人一精品久久久| 亚洲七黄色美女视频| 91麻豆av在线| 久久午夜综合久久蜜桃| 欧美日韩国产mv在线观看视频| 国产欧美日韩一区二区三区在线| 巨乳人妻的诱惑在线观看| 成人免费观看视频高清| 交换朋友夫妻互换小说| 国产精品美女特级片免费视频播放器 | 久久99一区二区三区| 怎么达到女性高潮| 蜜桃在线观看..| av又黄又爽大尺度在线免费看| 18禁观看日本| 如日韩欧美国产精品一区二区三区| 老司机亚洲免费影院| 大香蕉久久网| 国产99久久九九免费精品| 两个人免费观看高清视频| 亚洲免费av在线视频| 蜜桃国产av成人99| 久久性视频一级片| 成年版毛片免费区| 日韩欧美免费精品| 亚洲欧美一区二区三区久久| 90打野战视频偷拍视频| 91精品国产国语对白视频| 久久中文看片网| 国产男女内射视频| 久久狼人影院| 色综合欧美亚洲国产小说| 成人国产一区最新在线观看| 两性夫妻黄色片| 九色亚洲精品在线播放| 91av网站免费观看| 一本综合久久免费| 黄色视频,在线免费观看| 看免费av毛片| 人妻一区二区av| 亚洲欧洲日产国产| 国产真人三级小视频在线观看| 午夜老司机福利片| 亚洲国产欧美日韩在线播放| 国产精品偷伦视频观看了| 777久久人妻少妇嫩草av网站| 国内毛片毛片毛片毛片毛片| 欧美乱码精品一区二区三区| 色94色欧美一区二区| 淫妇啪啪啪对白视频| av欧美777| 老司机午夜十八禁免费视频| 久久人人97超碰香蕉20202| 亚洲五月婷婷丁香| 天堂俺去俺来也www色官网| 母亲3免费完整高清在线观看| 国产亚洲精品一区二区www | 成人国产av品久久久| 国产黄频视频在线观看| 亚洲精品成人av观看孕妇| 大型av网站在线播放| 国产在视频线精品| 亚洲九九香蕉| 中文字幕精品免费在线观看视频| 少妇裸体淫交视频免费看高清 | 黄色成人免费大全| 天天躁狠狠躁夜夜躁狠狠躁| 极品教师在线免费播放| 久久午夜亚洲精品久久| 一级片'在线观看视频| 久久精品亚洲熟妇少妇任你| 色在线成人网| 日韩三级视频一区二区三区| 女人精品久久久久毛片| 国产免费视频播放在线视频| 中文字幕制服av| 久久中文字幕一级| 久久久精品国产亚洲av高清涩受| 美女福利国产在线| 久热爱精品视频在线9| 中文字幕人妻丝袜一区二区| 国产精品 国内视频| 亚洲 欧美一区二区三区| 黄片小视频在线播放| 国产片内射在线| 一区福利在线观看| 色综合欧美亚洲国产小说| 日韩成人在线观看一区二区三区| 十分钟在线观看高清视频www| 老熟女久久久| 桃花免费在线播放| 欧美精品高潮呻吟av久久| 成人国产av品久久久| 亚洲人成伊人成综合网2020| 久久久久久久国产电影| 国产极品粉嫩免费观看在线| 国产深夜福利视频在线观看| 日韩一卡2卡3卡4卡2021年| 999久久久国产精品视频| 中文字幕人妻熟女乱码| 午夜视频精品福利| 精品熟女少妇八av免费久了| www.自偷自拍.com| 99热网站在线观看| 亚洲欧美色中文字幕在线| 18禁裸乳无遮挡动漫免费视频| 新久久久久国产一级毛片| 色婷婷av一区二区三区视频| 亚洲国产毛片av蜜桃av| 亚洲国产欧美在线一区| 国产又色又爽无遮挡免费看| 法律面前人人平等表现在哪些方面| 免费少妇av软件| 成人国产av品久久久| 成人国语在线视频| 搡老岳熟女国产| 精品午夜福利视频在线观看一区 | 精品久久久久久电影网| 欧美+亚洲+日韩+国产| 欧美日韩一级在线毛片| 亚洲色图 男人天堂 中文字幕| 欧美成人午夜精品| 国产色视频综合| 建设人人有责人人尽责人人享有的| 国产成人影院久久av| 精品少妇一区二区三区视频日本电影| 久久性视频一级片| 中文字幕制服av| 国产精品美女特级片免费视频播放器 | 夜夜爽天天搞| 欧美日韩精品网址| 十八禁人妻一区二区| 日本黄色视频三级网站网址 | 精品国产乱子伦一区二区三区| 中文字幕人妻丝袜一区二区| 国产1区2区3区精品| 国产一区二区激情短视频| 国产免费视频播放在线视频| 99国产综合亚洲精品| 亚洲专区字幕在线| 肉色欧美久久久久久久蜜桃| 欧美日韩av久久| 日韩人妻精品一区2区三区| 在线观看66精品国产| 18在线观看网站| 天堂俺去俺来也www色官网| 久久午夜亚洲精品久久| 成人国产一区最新在线观看| 亚洲人成伊人成综合网2020| 在线观看一区二区三区激情| 成人18禁在线播放| 日韩欧美三级三区| 99精品在免费线老司机午夜| 亚洲性夜色夜夜综合| 国产成+人综合+亚洲专区| 少妇裸体淫交视频免费看高清 | 欧美另类亚洲清纯唯美| 日韩欧美一区视频在线观看| 国产aⅴ精品一区二区三区波| 欧美老熟妇乱子伦牲交| 国精品久久久久久国模美| 成人亚洲精品一区在线观看| 一本大道久久a久久精品| 精品免费久久久久久久清纯 | 久久精品aⅴ一区二区三区四区| 国产高清videossex| 美女高潮喷水抽搐中文字幕| 午夜福利视频精品| 少妇裸体淫交视频免费看高清 | 美女扒开内裤让男人捅视频| a级片在线免费高清观看视频| 黄色怎么调成土黄色| 亚洲欧洲日产国产| 另类亚洲欧美激情| 淫妇啪啪啪对白视频| av有码第一页| 国产精品久久久久成人av| 亚洲av日韩在线播放| 久热爱精品视频在线9| 久久九九热精品免费| 国产成人欧美| 美女主播在线视频| 免费黄频网站在线观看国产| 免费不卡黄色视频| 好男人电影高清在线观看| 黄片大片在线免费观看| 三上悠亚av全集在线观看| 两人在一起打扑克的视频| 国产又色又爽无遮挡免费看| 成人18禁高潮啪啪吃奶动态图| 亚洲精品美女久久av网站| 黑人操中国人逼视频| 满18在线观看网站| 动漫黄色视频在线观看| 极品人妻少妇av视频| 在线观看一区二区三区激情| 制服人妻中文乱码| 国产精品九九99| 又黄又粗又硬又大视频| 这个男人来自地球电影免费观看| 黄网站色视频无遮挡免费观看| 免费在线观看黄色视频的| 午夜福利视频在线观看免费| www.熟女人妻精品国产| 亚洲熟妇熟女久久| 欧美 亚洲 国产 日韩一| 久久精品成人免费网站| 欧美 日韩 精品 国产| 老司机午夜十八禁免费视频| h视频一区二区三区| 黄色a级毛片大全视频| 日韩视频一区二区在线观看| 曰老女人黄片| 国产熟女午夜一区二区三区| 亚洲国产毛片av蜜桃av| 国产日韩一区二区三区精品不卡| 国产精品一区二区在线观看99| 国产精品熟女久久久久浪| 国产成人影院久久av| 日韩免费av在线播放| 亚洲第一欧美日韩一区二区三区 | bbb黄色大片| 999久久久国产精品视频| 别揉我奶头~嗯~啊~动态视频| 国产亚洲av高清不卡| 大型av网站在线播放| 无限看片的www在线观看| 老司机影院毛片| 国产av国产精品国产| 99精品欧美一区二区三区四区| 丰满人妻熟妇乱又伦精品不卡| 国产不卡一卡二| 精品久久蜜臀av无| 午夜福利视频在线观看免费| 极品人妻少妇av视频| 成人国产一区最新在线观看| av福利片在线| 丝袜在线中文字幕| 久久精品亚洲av国产电影网| 亚洲成人免费电影在线观看| 这个男人来自地球电影免费观看| 亚洲专区国产一区二区| 亚洲一码二码三码区别大吗| 亚洲va日本ⅴa欧美va伊人久久| 国产精品av久久久久免费| 国产成人精品久久二区二区免费| 国产在线免费精品| 一级毛片女人18水好多| 岛国毛片在线播放| 国产99久久九九免费精品| 黄色视频不卡| 色综合婷婷激情| 老鸭窝网址在线观看| 在线亚洲精品国产二区图片欧美| 一级片'在线观看视频| 久久久久精品人妻al黑| 老司机亚洲免费影院| 如日韩欧美国产精品一区二区三区| 亚洲美女黄片视频| 久久热在线av| 日韩欧美免费精品| 妹子高潮喷水视频| 18禁裸乳无遮挡动漫免费视频| 日韩欧美三级三区| 又黄又粗又硬又大视频| 国产精品成人在线| 国产一区有黄有色的免费视频| 9色porny在线观看| 欧美激情高清一区二区三区| 热re99久久精品国产66热6| 在线av久久热| 中文字幕人妻丝袜一区二区| 欧美性长视频在线观看| 男人操女人黄网站| 亚洲国产看品久久| 亚洲色图综合在线观看| 成人亚洲精品一区在线观看| 久久精品亚洲精品国产色婷小说| 最近最新中文字幕大全免费视频| 国产精品99久久99久久久不卡| 最新的欧美精品一区二区| 亚洲精品在线美女| 女警被强在线播放| 新久久久久国产一级毛片| 精品欧美一区二区三区在线| 两个人免费观看高清视频| 久久国产精品人妻蜜桃| 国产欧美亚洲国产| 午夜91福利影院| 男女免费视频国产| 国产精品免费视频内射| 制服诱惑二区| 久久精品国产a三级三级三级| 亚洲免费av在线视频| av在线播放免费不卡| 中文字幕最新亚洲高清| 亚洲熟妇熟女久久| 天天躁日日躁夜夜躁夜夜| 满18在线观看网站| 免费少妇av软件| 老司机午夜十八禁免费视频| 精品亚洲成国产av| 一本色道久久久久久精品综合| 国产又色又爽无遮挡免费看| 国产高清国产精品国产三级| 国产精品二区激情视频| 热re99久久国产66热| 免费女性裸体啪啪无遮挡网站| 色老头精品视频在线观看| 久久精品成人免费网站| 悠悠久久av| 午夜老司机福利片| 国产日韩欧美在线精品| 国产成人啪精品午夜网站| 亚洲av美国av| 亚洲中文日韩欧美视频| 亚洲七黄色美女视频| 狠狠精品人妻久久久久久综合| 丰满人妻熟妇乱又伦精品不卡| 成在线人永久免费视频| 黄网站色视频无遮挡免费观看| 少妇的丰满在线观看| 19禁男女啪啪无遮挡网站| 国产精品免费视频内射| 女人精品久久久久毛片| 一二三四社区在线视频社区8| 色婷婷久久久亚洲欧美| 日本一区二区免费在线视频| 久久天堂一区二区三区四区| 国产在视频线精品| 别揉我奶头~嗯~啊~动态视频| 两个人免费观看高清视频| 女人爽到高潮嗷嗷叫在线视频| 中文欧美无线码| 国产淫语在线视频| xxxhd国产人妻xxx| 亚洲黑人精品在线| 亚洲av成人不卡在线观看播放网| 久久影院123| 丝袜美腿诱惑在线| 国产精品久久久久久精品古装| 熟女少妇亚洲综合色aaa.| 视频区欧美日本亚洲| 建设人人有责人人尽责人人享有的| 大码成人一级视频| 色94色欧美一区二区| 精品国产亚洲在线| 大片电影免费在线观看免费| 国产成人精品在线电影| 久久久久久免费高清国产稀缺| 国产精品久久电影中文字幕 | 夜夜爽天天搞|