• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    基于模型的強(qiáng)化學(xué)習(xí)在無人機(jī)路徑規(guī)劃中的應(yīng)用

    2022-12-13 13:52:58楊思明單征曹江郭佳郁高原郭洋王平王景王曉楠
    計(jì)算機(jī)工程 2022年12期
    關(guān)鍵詞:升空規(guī)劃函數(shù)

    楊思明,單征,曹江,郭佳郁,高原,郭洋,王平,王景,王曉楠

    (1.數(shù)學(xué)工程與先進(jìn)計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,鄭州 450001;2.軍事科學(xué)院,北京 100091)

    0 概述

    隨著當(dāng)前城市內(nèi)移動通信終端數(shù)量的快速增長以及物聯(lián)網(wǎng)、云計(jì)算、高清視頻等新應(yīng)用新技術(shù)的迅速發(fā)展,大型城市中數(shù)據(jù)月均流量消耗增長迅猛[1]。無人機(jī)升空平臺作為輔助地面基站,可為城市提供無線覆蓋保障。當(dāng)前無人機(jī)升空平臺多采用低空無人機(jī),如何根據(jù)環(huán)境信息和用戶位置信息實(shí)時(shí)規(guī)劃路徑,以規(guī)避建筑物對于信號的遮擋以及調(diào)整合適的飛行方向、速度以避免發(fā)生多普勒頻移造成的快衰落,是當(dāng)前無人機(jī)升空平臺在提供無線通信保障任務(wù)中亟待解決的問題。

    解決上述問題的傳統(tǒng)方法是通過對目標(biāo)區(qū)域進(jìn)行建模,然后使用最優(yōu)控制算法進(jìn)行路徑規(guī)劃。ROMERO等[2]利用地面用戶和無人機(jī)基站之間發(fā)送的控制信息,提出一種基于隨機(jī)梯度下降法的分布式自適應(yīng)無人機(jī)軌跡優(yōu)化算法。ZENG等[3]研究在已知地面用戶位置的情況下使用無人機(jī)升空平臺為地面用戶提供數(shù)據(jù)傳輸服務(wù)的內(nèi)容,進(jìn)行圓形飛行軌跡設(shè)計(jì),以在固定時(shí)間內(nèi)最大化地面用戶的上行速率。LYU等[4]提出一種高效的螺旋式無人機(jī)布局算法,意在使用最少的無人機(jī)升空平臺,保證每一個(gè)地面用戶都能被有效覆蓋,但是該算法需要無人機(jī)平臺在固定高度懸停。ALZENAD等[5]設(shè)計(jì)一個(gè)無人機(jī)升空平臺在三維空間中的評估模型,以利用最小的發(fā)射功率實(shí)現(xiàn)對于目標(biāo)區(qū)域的覆蓋。KALANTARI等[6]提出一種粒子群優(yōu)化框架,使得可以利用最少數(shù)量的無人機(jī)完成對目標(biāo)區(qū)域的無線覆蓋。AL-HOURANI等[7]根據(jù)地面靜態(tài)用戶的位置信息,將無人機(jī)升空平臺的部署問題表示為一個(gè)二次約束混合整數(shù)非線性問題,用以得到最優(yōu)的三維部署方案,最大化地面靜態(tài)用戶的下行速率。但上述算法主要存在以下問題:一是需要對環(huán)境進(jìn)行復(fù)雜且精確的建模,而精確建模需要耗費(fèi)大量時(shí)間以及計(jì)算資源,并且當(dāng)前很多實(shí)際應(yīng)用問題并不能準(zhǔn)確地建模;二是當(dāng)前算法更多考慮的是為地面靜態(tài)用戶提供通信覆蓋的場景。目前對于地面多移動用戶的無人機(jī)升空平臺實(shí)時(shí)路徑規(guī)劃方法的研究還處于初期階段。

    基于深度強(qiáng)化學(xué)習(xí)(Deep Reinforcement Learning,DRL)的方法通過將路徑規(guī)劃任務(wù)建模為時(shí)序決策優(yōu)化問題,利用神經(jīng)網(wǎng)絡(luò)的泛化性能以及強(qiáng)化學(xué)習(xí)的優(yōu)化思想最大化累積收益,使智能體學(xué)習(xí)到最優(yōu)策略。文獻(xiàn)[8-9]使用DQN 算法[10]對無人機(jī)升空平臺進(jìn)行路徑規(guī)劃,以最大化數(shù)據(jù)傳輸速率。但該算法只能應(yīng)用于離散動作空間任務(wù),并且存在價(jià)值函數(shù)估值過高的問題,對智能體學(xué)習(xí)路徑規(guī)劃策略造成了偏差。對此,WANG等[11]使用Double DQN 算法[12]優(yōu)化無人機(jī)平臺飛行軌跡,用以在對地面所有用戶進(jìn)行覆蓋的前提下最大化下行速率。Double DQN 算法彌補(bǔ)了DQN 價(jià)值函數(shù)估值過高的問題,但仍然不能應(yīng)用在連續(xù)動作空間任務(wù)中。同時(shí),由于智能體探索能力隨著策略更新次數(shù)的增加而下降,智能體會出現(xiàn)收斂到局部最優(yōu)策略的情況。文獻(xiàn)[13-14]使用DDPG 算法[15]成功地將深度強(qiáng)化學(xué)習(xí)應(yīng)用在連續(xù)動作空間的路徑規(guī)劃任務(wù)中,但是該算法超參數(shù)過多,在復(fù)雜問題中訓(xùn)練速度慢且不穩(wěn)定。可見,當(dāng)前DRL 算法在處理路徑規(guī)劃這一類高維狀態(tài)動作空間任務(wù)時(shí),存在探索性能差、訓(xùn)練過程不穩(wěn)定、樣本效率低等問題。針對上述問題,文獻(xiàn)[16]提出了基于內(nèi)在獎勵的強(qiáng)化學(xué)習(xí)算法,使得智能體可以高效地對環(huán)境進(jìn)行探索,并且單調(diào)提升策略性能。

    目前提升樣本效率的方法主要有off-policy 類算法[15,17]以及基于模型的算法。前者由于行動策略與目標(biāo)策略不同,需要設(shè)計(jì)合理的重要性采樣方法,并對超參數(shù)進(jìn)行反復(fù)調(diào)整,否則會使學(xué)習(xí)過程出現(xiàn)較大偏差,導(dǎo)致智能體學(xué)習(xí)不穩(wěn)定,收斂到局部最優(yōu)策略;后者通過使智能體學(xué)習(xí)環(huán)境的動態(tài)模型,從而提升樣本效率,但當(dāng)前仍存在探索能力低下[18-19]、數(shù)據(jù)收集效率較低[20-21]、價(jià)值函數(shù)預(yù)測偏差較大[22-23]的問題。本文研究利用基于模型的方法結(jié)合內(nèi)在獎勵強(qiáng)化學(xué)習(xí)算法,提出基于模型的強(qiáng)化學(xué)習(xí)算法在無人機(jī)升空平臺路徑規(guī)劃中的應(yīng)用,在保證最終性能的前提下提升樣本效率,以使用較少數(shù)據(jù)完成對于智能體的訓(xùn)練。

    1 模擬環(huán)境構(gòu)建

    本節(jié)主要闡述無人機(jī)升空平臺通信保障任務(wù)的模擬環(huán)境構(gòu)建工作,該模擬環(huán)境不僅為智能體提供用于訓(xùn)練的經(jīng)驗(yàn)數(shù)據(jù),同時(shí)可以作為一個(gè)算法驗(yàn)證平臺,用于比較各類算法在任務(wù)中的性能。為了使得模擬環(huán)境貼近實(shí)際環(huán)境,首先建立城市環(huán)境中的空對地信道模型,用于估算不同情況下的路徑損耗值。在此基礎(chǔ)上,將任務(wù)歸納為一個(gè)時(shí)序決策問題,并使用OpenAI-GYM 架構(gòu)搭建環(huán)境。

    1.1 空對地信道建模

    本文基于城市環(huán)境建立一個(gè)空對地信道路徑損耗模型,主要考慮城市建筑物對信號遮擋造成的路徑損耗。國際電信聯(lián)盟(ITU)在其官方標(biāo)準(zhǔn)文件中提出一種基于建筑物遮擋對無線電信號傳輸造成損耗的通用模型[24]。該模型可適用于多種城市環(huán)境,將發(fā)射機(jī)和接收機(jī)之間的視距通信及非視距通信傳輸概率定義為仰角和環(huán)境參數(shù)的函數(shù),并且通過數(shù)學(xué)推導(dǎo),可以得到通過Sigmod 漸進(jìn)化簡后的公式:

    其中:a、b為S-curve 參數(shù)。

    無人機(jī)升空平臺與用戶之間發(fā)生非視距傳輸?shù)母怕蕿椋?/p>

    因此,傳播模型的路徑損耗為:

    其中:FFSPL為自由空間損耗,是針對理想全向天線傳輸計(jì)算得到的損耗公式;ηξ是由環(huán)境決定的過度路徑損耗,ξ代表傳播組。本文將傳播模型分為視距通信和非視距通信模型,即ξ∈{LLoS,NNLoS}。

    總的路徑損耗模型可以寫為:

    其中:PPL是信道模型的總路徑損耗,可以計(jì)算無人機(jī)升空平臺與每個(gè)地面移動用戶之間信號的路徑損耗。

    1.2 任務(wù)優(yōu)化方程

    無人機(jī)升空平臺通信保障任務(wù)的目標(biāo)是使無人機(jī)升空平臺在應(yīng)急通信保障任務(wù)期間最大化所有用戶的下行速率之和,同時(shí)需要保證任何用戶的下行速率高于預(yù)設(shè)的門限速率,并保證每個(gè)用戶不會出現(xiàn)由多普勒頻移造成的快衰落。

    無人機(jī)升空平臺與一個(gè)地面移動用戶的三維關(guān)系如圖1 所示。在圖1 中,參數(shù)h和L分別表示無人機(jī)升空平臺的飛行高度以及與用戶之間的水平面距離,參數(shù)Vf和Vm為無人機(jī)升空平臺及用戶的速度向量,d是三維坐標(biāo)系中無人機(jī)平臺位置指向用戶位置的向量。

    圖1 無人機(jī)升空平臺與用戶的關(guān)系Fig.1 Relationship between UAV aerial platform and user

    此外,定義光速為c,信號頻率為f,基站發(fā)射功率為Ps,帶寬為W,高斯白噪聲的功率為N。由此,根據(jù)多普勒頻移定理,可以得到用戶m在時(shí)隙t收到的信號頻率為:

    通過式(5)可以計(jì)算得到路徑損耗PPL(單位為dB)。所以,用戶m在時(shí)隙t收到的信號功率為:

    通過香農(nóng)公式可以得到理論上用戶的最大下行速率:

    其中:Cmt是用戶m在時(shí)隙t的下行速率。

    定義模擬環(huán)境在時(shí)隙t的獎勵值為:

    其中:M和Cth分別為用戶的數(shù)量和任務(wù)預(yù)設(shè)的用戶最小門限下行速率。為了防止用戶接收信號發(fā)生快衰落,需要確保符號時(shí)間大于相關(guān)時(shí)間,即Cmt>fmt。同時(shí),要保證每個(gè)用戶的下行速率高于設(shè)定的門限速度,所以要設(shè)置Cmt≥Cth,如果這兩個(gè)條件都滿足,則時(shí)隙t的獎勵值是所有用戶下行速率之和,否則為0。設(shè)任務(wù)總的收益為:

    即設(shè)置總的收益為所有時(shí)隙獎勵值的和,但如果某個(gè)時(shí)隙的獎勵值為0,即觸發(fā)了約束條件,則任務(wù)直接結(jié)束?;谏鲜龇治觯瑢o人機(jī)升空平臺的應(yīng)急通信保障問題概括為一個(gè)馬爾科夫時(shí)序決策問題,可以采用強(qiáng)化學(xué)習(xí)的手段進(jìn)行求解,目標(biāo)就是最大化累積收益Gt。

    在得到時(shí)序決策優(yōu)化方程后,使用OpenAI-Gym架構(gòu)[25]進(jìn)行環(huán)境構(gòu)建。任務(wù)設(shè)置如下:在尺寸為50 km×50 km×5 km 的城區(qū)范圍內(nèi),隨機(jī)分布著一些高度在50~150 m 的建筑物。無人機(jī)升空平臺為地面隨機(jī)分布的10 個(gè)移動目標(biāo)提供通信保障,無人機(jī)升空平臺可以在0°~360°范圍內(nèi)調(diào)整飛行方向,在0°~180°方位內(nèi)調(diào)整飛行仰角,在每小時(shí)180~300 km范圍內(nèi)調(diào)整飛行速度。無人機(jī)升空平臺需要保證每個(gè)用戶的下行速率大于門限速率,同時(shí)防止由于多普勒頻移造成的快衰落。在此前提下,任務(wù)的目標(biāo)是最大化用戶的總下行速率。任務(wù)中如果出現(xiàn)飛機(jī)碰撞到建筑物,則判定實(shí)驗(yàn)結(jié)束,并返回-100 的獎勵值,如果出現(xiàn)任何一個(gè)用戶的下行速率低于閾值速率或由于多普勒頻移出現(xiàn)了快衰落現(xiàn)象,則判定實(shí)驗(yàn)結(jié)束,并返回-50 的獎勵值;如果在通信保障任務(wù)期間未發(fā)生上述問題,則返回獎勵值100。

    2 算法設(shè)計(jì)

    在利用無模型算法進(jìn)行學(xué)習(xí)時(shí),為了準(zhǔn)確估計(jì)價(jià)值函數(shù),根據(jù)任務(wù)的復(fù)雜性不同,需要采樣上萬幕的數(shù)據(jù)才能得到較為準(zhǔn)確的價(jià)值估計(jì)網(wǎng)絡(luò)。因此,本文借鑒MVE 算法[23]的思想,采用基于模型的算法對動態(tài)模型進(jìn)行學(xué)習(xí),其中包含3 個(gè)重要的待學(xué)習(xí)函數(shù):狀態(tài)轉(zhuǎn)移函數(shù)Tξ(s,a)用來預(yù)測后繼狀態(tài);狀態(tài)終止預(yù)測函數(shù)dξ(s)用來預(yù)測狀態(tài)s為終止?fàn)顟B(tài)的概率;獎勵預(yù)測函數(shù)rφ(s,a,s')用來預(yù)測返回的獎勵值。狀態(tài)價(jià)值函數(shù)被設(shè)定為結(jié)合了短期和長期價(jià)值函數(shù)的形式,短期價(jià)值函數(shù)是通過學(xué)習(xí)到的環(huán)境動態(tài)模型經(jīng)過數(shù)步規(guī)劃得到的獎勵值之和,而長期價(jià)值函數(shù)則是通過神經(jīng)網(wǎng)絡(luò)直接預(yù)測得到的價(jià)值函數(shù),形式如下:

    但是MVE 算法只有在當(dāng)模型復(fù)雜度不高,并且在所有學(xué)習(xí)到的動作價(jià)值函數(shù)具有相似的誤差時(shí)具有較好性能。當(dāng)模型較為復(fù)雜時(shí),MVE 算法難以調(diào)整固定的超參數(shù)H,而模型誤差的累積會導(dǎo)致價(jià)值函數(shù)評估出現(xiàn)嚴(yán)重偏差。為了解決上述問題,需要綜合考量H+1 個(gè)不同預(yù)測步長的MVE 形式的狀態(tài)價(jià)值來計(jì)算得到一個(gè)合適的價(jià)值函數(shù)。候選的TD目標(biāo)為,即考量從0 步規(guī)劃到H步的H+1 種不同狀態(tài)價(jià)值。傳統(tǒng)的方法是使用對于候選目標(biāo)的平均或者以指數(shù)衰減的方法對候選目標(biāo)值進(jìn)行加權(quán)的方法,本文選擇通過平衡Q函數(shù)學(xué)習(xí)中的誤差以及規(guī)劃模型的誤差,得到對于候選目標(biāo)更好的加權(quán)方式。針對每個(gè)候選,其在規(guī)劃中有3 個(gè)重要參數(shù),分別為Q函數(shù)預(yù)測參數(shù)θ、獎勵函數(shù)預(yù)測參數(shù)φ、狀態(tài)轉(zhuǎn)換函數(shù)預(yù)測參數(shù)ξ,如式(10)所示,它們共同作用組成一個(gè)H=i步的TD 目標(biāo)。為了增強(qiáng)算法的魯棒性,設(shè)置一個(gè)候選的TD 目標(biāo)中有L個(gè)預(yù)測參數(shù)θ={θ1,θ2,…,θL},N個(gè)獎勵函數(shù)預(yù)測參數(shù)φ={φ1,φ2,…,φN},M個(gè)狀態(tài)轉(zhuǎn)移預(yù)測參數(shù)ζ={ζ1,ζ2,…,ζM}。

    算法的概述圖如圖2 所示。圖2 展示了M=N=L=2 情況下(s0,a0)的TD 目標(biāo)值的估計(jì)值,可以通過這些數(shù)據(jù)求得的均值和方差。為了找到合適的權(quán)值w,使得加權(quán)后的TD 目標(biāo)值之和與真實(shí)的動作價(jià)值的均方誤差最小,將兩者的泛化誤差進(jìn)行分解得到:

    圖2 基于模型算法的概述圖Fig.2 Overview figure of model-based algorithm

    為使得均方誤差最小,使用經(jīng)驗(yàn)數(shù)據(jù)中估計(jì)得到的方差來估計(jì)方差項(xiàng),并最小化方差項(xiàng)。采用逆方差權(quán)重法,將wi設(shè)置為Var()的倒數(shù),并對最終結(jié)果進(jìn)行規(guī)范化,最終得到加權(quán)后的狀態(tài)價(jià)值函數(shù)為:

    將算法與內(nèi)在獎勵RL 算法以及impala 并行架構(gòu)結(jié)合,最終得到基于模型的內(nèi)在獎勵強(qiáng)化學(xué)習(xí)算法,算法流程架構(gòu)如圖3 所示。可以看到,算法采用并行架構(gòu)完全解耦了數(shù)據(jù)采集和策略更新過程。Worker 獨(dú)立地進(jìn)行經(jīng)驗(yàn)數(shù)據(jù)收集,在結(jié)束一幕數(shù)據(jù)交互后,同步Learner 最新的策略,并將收集到的數(shù)據(jù)存入Buffer。Learner 周期地從Buffer 中提取數(shù)據(jù)進(jìn)行更新,通過V-trace 方法對行動策略采集到的數(shù)據(jù)進(jìn)行重要性采樣,得到適合目標(biāo)策略學(xué)習(xí)的價(jià)值函數(shù)預(yù)測值,分內(nèi)部、外部獎勵兩個(gè)部分使用上述基于模型的方法對價(jià)值函數(shù)進(jìn)行評估,最終合并內(nèi)部獎勵和外部獎勵預(yù)測得到的價(jià)值函數(shù),并利用PPO 的方法對策略進(jìn)行更新。實(shí)驗(yàn)結(jié)果表明,該方法在智能體取得相同性能的情況下提高了樣本效率。

    圖3 基于模型的內(nèi)在獎勵算法結(jié)構(gòu)Fig.3 Structure of model-based intrinsic reward algorithm

    3 實(shí)驗(yàn)結(jié)果與分析

    本文程序使用python3.8 編寫,運(yùn)行環(huán)境為Win 10 操作系統(tǒng),裝有2 塊NVIDIA 3090 顯卡以及64 GB 內(nèi)存。實(shí)驗(yàn)中神經(jīng)網(wǎng)絡(luò)均由全連接網(wǎng)絡(luò)和ReLu 網(wǎng)絡(luò)組成,使用32 個(gè)并行的實(shí)驗(yàn)環(huán)境進(jìn)行數(shù)據(jù)采集。本文提出的基于模型的內(nèi)在獎勵算法與基于Impala 架構(gòu)的無模型內(nèi)在獎勵算法的性能對比如圖4 所示。

    圖4 不同算法的性能對比Fig.4 Performance comparison of different algorithms

    從圖4 可以看出,本文算法相較于擁有相同架構(gòu)但不使用對環(huán)境動態(tài)模型進(jìn)行學(xué)習(xí)的算法具有更好的性能,可以利用很少的經(jīng)驗(yàn)數(shù)據(jù)快速完成對于策略的學(xué)習(xí),并且學(xué)習(xí)過程更加穩(wěn)定。為了比較本文算法與非強(qiáng)化學(xué)習(xí)啟發(fā)式算法的性能,基于文獻(xiàn)[3-5]的思想,構(gòu)建一套簡化的啟發(fā)式算法。該算法將當(dāng)前分布在地面的多個(gè)用戶包含在一個(gè)最小的圓內(nèi),要求無人機(jī)始終保持在圓心位置,速度方向則為所有用戶當(dāng)前速度向量之和的方向??梢钥吹?,啟發(fā)式算法在環(huán)境中可以達(dá)到近6 000 分的水平,微小的波動是由于地面用戶在遇到障礙物時(shí)進(jìn)行隨機(jī)避障,速度方向并不保持一致,從而導(dǎo)致無人機(jī)飛行方向發(fā)生偏移,進(jìn)而影響最終得分情況。相較于啟發(fā)式算法,本文算法在前期學(xué)習(xí)過程得分較差,但當(dāng)智能體能夠?qū)顟B(tài)價(jià)值函數(shù)進(jìn)行準(zhǔn)確評估后,最終算法的得分遠(yuǎn)高于啟發(fā)式算法。

    此外為了說明的本文算法相較于其他基于模型算法的優(yōu)勢,在模擬環(huán)境中采用了多種算法進(jìn)行測試比較,結(jié)果如圖5 所示。

    圖5 本文算法與不同視界MVE 算法的性能對比Fig.5 Performance comparison between the proposed algorithm and MVE algorithm in different horizons

    從圖5 可以看出,相比于MVE 采用固定規(guī)劃值(H)的情況,基于組合規(guī)劃值的方法訓(xùn)練速度和效果更好,同時(shí)訓(xùn)練過程更為平穩(wěn),并且對于MVE類規(guī)劃值固定的算法,如何調(diào)節(jié)超參數(shù)H也是一個(gè)難題,從圖5 可以看出,當(dāng)H從1提高到5 的過程中,規(guī)劃值的增大減小了價(jià)值函數(shù)預(yù)測的方差,而準(zhǔn)確的價(jià)值函數(shù)提高了算法的學(xué)習(xí)速率,也決定了最終收斂到的策略性能。而當(dāng)H取10 時(shí),智能體在整個(gè)訓(xùn)練過程中波動很大,并且最終無法學(xué)習(xí)到一個(gè)較好的策略。原因在于:在訓(xùn)練初期,當(dāng)預(yù)測模型沒有得到準(zhǔn)確學(xué)習(xí)時(shí),過長的規(guī)劃值會導(dǎo)致價(jià)值函數(shù)方差、偏差都較大,在這種情況下由于方差、偏差的累積,智能體始終無法學(xué)到準(zhǔn)確的預(yù)測模型參數(shù)以及價(jià)值函數(shù),這就使得智能體在訓(xùn)練過程中全程無法進(jìn)行有效的策略迭代。所以,對于固定規(guī)劃值類的算法,超參數(shù)的調(diào)整是一個(gè)難題。而使用均勻加權(quán)訓(xùn)練算法與本文算法有著相同的架構(gòu),但在組合規(guī)劃值時(shí),權(quán)值使用的是均勻加權(quán)算法??梢钥闯觯撍惴ǖ乃俣群妥罱K性能都與本文算法有差距。

    實(shí)驗(yàn)中還針對算法對于不同超參數(shù)集的魯棒性進(jìn)行了研究,利用20 組有較大差異的超參數(shù)集對算法進(jìn)行了測試,并且對最終得分求均值,結(jié)果如圖6所示。

    圖6 不同算法的魯棒性對比Fig.6 Robustness comparison of different algorithms

    圖6 比較了基于模型的權(quán)值組合規(guī)劃值擴(kuò)展算法與基于Impala 框架的內(nèi)在獎勵算法在20 組不同超參數(shù)集下作用于模擬環(huán)境中的平均得分。從圖6可以看出,基于Impala 框架的內(nèi)在獎勵算法在使用接近20 組超參數(shù)集時(shí),其得分均值已低于2 000 分,而基于模型的權(quán)值組合規(guī)劃值擴(kuò)展算法穩(wěn)定在6 000 分左右。實(shí)驗(yàn)結(jié)果表明,基于模型的算法針對不同超參數(shù)具有更強(qiáng)的魯棒性。原因在于:基于模型的權(quán)值組合規(guī)劃值擴(kuò)展算法在訓(xùn)練過程中對于環(huán)境動態(tài)模型的學(xué)習(xí),在一定程度上彌補(bǔ)了超參數(shù)設(shè)置帶來的價(jià)值函數(shù)預(yù)測偏差。

    4 結(jié)束語

    本文針對強(qiáng)化學(xué)習(xí)算法在無人機(jī)升空平臺路徑規(guī)劃任務(wù)中存在的樣本效率低的問題,提出基于模型的內(nèi)在獎勵強(qiáng)化學(xué)習(xí)算法。通過將任務(wù)概述為一個(gè)時(shí)序決策優(yōu)化問題,基于OpenAI-GYM 構(gòu)建模擬環(huán)境,并結(jié)合規(guī)劃與預(yù)測的方法提高價(jià)值函數(shù)的評估準(zhǔn)確性。實(shí)驗(yàn)結(jié)果表明,該算法在保證智能體性能的前提下,在樣本效率、學(xué)習(xí)速度、算法魯棒性上都有較大提升。下一步將研究提升算法的遷移能力,并結(jié)合遷移學(xué)習(xí)和元學(xué)習(xí)的思想對算法進(jìn)行改進(jìn),以將訓(xùn)練完畢的智能體投入到相似的場景中執(zhí)行任務(wù)。

    猜你喜歡
    升空規(guī)劃函數(shù)
    二次函數(shù)
    第3講 “函數(shù)”復(fù)習(xí)精講
    二次函數(shù)
    無人機(jī)升空播種 智能機(jī)施肥澆水
    函數(shù)備考精講
    準(zhǔn)備升空
    國防(2019年7期)2019-08-21 01:39:38
    規(guī)劃引領(lǐng)把握未來
    快遞業(yè)十三五規(guī)劃發(fā)布
    商周刊(2017年5期)2017-08-22 03:35:26
    多管齊下落實(shí)規(guī)劃
    新型聯(lián)盟號飛船升空
    太空探索(2016年8期)2016-07-10 09:21:58
    啦啦啦在线观看免费高清www| 各种免费的搞黄视频| 日本wwww免费看| 大码成人一级视频| 97在线视频观看| 欧美日韩视频高清一区二区三区二| 国产av国产精品国产| 99九九在线精品视频| 欧美国产精品va在线观看不卡| 曰老女人黄片| 婷婷色av中文字幕| 亚洲图色成人| h视频一区二区三区| 国产探花极品一区二区| 大香蕉久久网| 久久99一区二区三区| 如日韩欧美国产精品一区二区三区| 26uuu在线亚洲综合色| 日韩中文字幕视频在线看片| av天堂久久9| 99久久综合免费| a级毛片黄视频| 成人二区视频| 在线观看人妻少妇| 国产午夜精品一二区理论片| 黄色配什么色好看| 大话2 男鬼变身卡| 国产一区二区三区av在线| 亚洲欧美成人综合另类久久久| av又黄又爽大尺度在线免费看| 青春草亚洲视频在线观看| 在线观看美女被高潮喷水网站| 欧美 亚洲 国产 日韩一| 亚洲欧美中文字幕日韩二区| 啦啦啦啦在线视频资源| 高清在线视频一区二区三区| 秋霞伦理黄片| 亚洲在久久综合| 捣出白浆h1v1| 久久久久久久久久久免费av| 满18在线观看网站| 国产精品 国内视频| 在线观看免费日韩欧美大片| 成人手机av| 午夜av观看不卡| 99久久中文字幕三级久久日本| 一级毛片 在线播放| 亚洲内射少妇av| 激情五月婷婷亚洲| 日本av手机在线免费观看| 啦啦啦视频在线资源免费观看| 亚洲精品美女久久久久99蜜臀 | 校园人妻丝袜中文字幕| 中文字幕亚洲精品专区| 亚洲成人av在线免费| 精品国产一区二区久久| 午夜福利影视在线免费观看| 日本91视频免费播放| 中文字幕另类日韩欧美亚洲嫩草| 五月玫瑰六月丁香| 下体分泌物呈黄色| 中国美白少妇内射xxxbb| 日产精品乱码卡一卡2卡三| 成人影院久久| 99热全是精品| 欧美人与善性xxx| freevideosex欧美| 免费不卡的大黄色大毛片视频在线观看| 国产精品国产三级国产av玫瑰| av片东京热男人的天堂| 亚洲精品色激情综合| 久久午夜综合久久蜜桃| 熟女人妻精品中文字幕| a 毛片基地| 18禁动态无遮挡网站| 欧美老熟妇乱子伦牲交| 男人操女人黄网站| 99久久综合免费| 高清在线视频一区二区三区| 在线看a的网站| 2018国产大陆天天弄谢| 亚洲精品第二区| 国产精品不卡视频一区二区| 日本色播在线视频| 国产成人a∨麻豆精品| 久久精品国产a三级三级三级| 亚洲成人av在线免费| 中国三级夫妇交换| 51国产日韩欧美| 日韩制服丝袜自拍偷拍| 国产成人精品在线电影| 精品午夜福利在线看| 国产片特级美女逼逼视频| 男女无遮挡免费网站观看| 夫妻性生交免费视频一级片| 久久99精品国语久久久| 国产欧美亚洲国产| 99re6热这里在线精品视频| 亚洲欧美精品自产自拍| 女人精品久久久久毛片| 黄色毛片三级朝国网站| 99热6这里只有精品| 精品99又大又爽又粗少妇毛片| 人妻一区二区av| 日韩av不卡免费在线播放| 最近最新中文字幕免费大全7| 久久人人爽av亚洲精品天堂| 国产精品久久久久成人av| 免费黄色在线免费观看| 久久精品国产鲁丝片午夜精品| 久久亚洲国产成人精品v| 制服丝袜香蕉在线| 69精品国产乱码久久久| 一边亲一边摸免费视频| 亚洲,一卡二卡三卡| 亚洲欧美一区二区三区国产| 97在线人人人人妻| 欧美人与善性xxx| 中文天堂在线官网| www.色视频.com| 国产免费视频播放在线视频| 国产成人aa在线观看| 十八禁高潮呻吟视频| 亚洲第一区二区三区不卡| 日韩av免费高清视频| 在线免费观看不下载黄p国产| 欧美激情 高清一区二区三区| 蜜臀久久99精品久久宅男| 久久久久久久精品精品| 涩涩av久久男人的天堂| 2022亚洲国产成人精品| 在线观看免费高清a一片| 丁香六月天网| 91午夜精品亚洲一区二区三区| 亚洲av电影在线观看一区二区三区| 亚洲精品中文字幕在线视频| 午夜福利在线观看免费完整高清在| 多毛熟女@视频| 性色av一级| 国产精品.久久久| 久久久久视频综合| 久久人人爽人人片av| 久久久久国产网址| 午夜久久久在线观看| 日韩一区二区三区影片| 黑丝袜美女国产一区| 五月玫瑰六月丁香| 少妇熟女欧美另类| 精品一区二区三卡| 80岁老熟妇乱子伦牲交| 91在线精品国自产拍蜜月| 91久久精品国产一区二区三区| 一二三四中文在线观看免费高清| 国产精品一区www在线观看| 熟妇人妻不卡中文字幕| 色5月婷婷丁香| 精品人妻偷拍中文字幕| 成人国产av品久久久| 永久网站在线| 精品第一国产精品| 少妇精品久久久久久久| 蜜臀久久99精品久久宅男| 毛片一级片免费看久久久久| 日本欧美视频一区| 哪个播放器可以免费观看大片| 好男人视频免费观看在线| 免费人成在线观看视频色| 黄片无遮挡物在线观看| 在线 av 中文字幕| 国产在线视频一区二区| 国产激情久久老熟女| 国产精品久久久久久精品古装| 插逼视频在线观看| 久久99热这里只频精品6学生| 涩涩av久久男人的天堂| 日产精品乱码卡一卡2卡三| 热re99久久国产66热| 夜夜爽夜夜爽视频| 国产国语露脸激情在线看| 在现免费观看毛片| 黄色一级大片看看| 丰满乱子伦码专区| 丝袜喷水一区| 久久99蜜桃精品久久| 久久精品国产综合久久久 | 久久久久久久精品精品| 精品酒店卫生间| 我的女老师完整版在线观看| 日韩一区二区三区影片| 日本黄大片高清| 综合色丁香网| 欧美97在线视频| 制服诱惑二区| www日本在线高清视频| 尾随美女入室| 欧美精品国产亚洲| 欧美亚洲日本最大视频资源| 欧美日韩一区二区视频在线观看视频在线| 国产综合精华液| 国产精品麻豆人妻色哟哟久久| 这个男人来自地球电影免费观看 | 欧美日韩视频高清一区二区三区二| 国产日韩欧美亚洲二区| 美女主播在线视频| 一二三四在线观看免费中文在 | 观看美女的网站| 国产精品久久久av美女十八| 26uuu在线亚洲综合色| 下体分泌物呈黄色| 人体艺术视频欧美日本| 成人18禁高潮啪啪吃奶动态图| 亚洲少妇的诱惑av| 69精品国产乱码久久久| 韩国av在线不卡| 久久久久久久久久人人人人人人| 欧美日韩视频高清一区二区三区二| 欧美精品高潮呻吟av久久| 中文欧美无线码| 午夜福利影视在线免费观看| 国产精品.久久久| 黑人猛操日本美女一级片| 内地一区二区视频在线| 亚洲精品久久久久久婷婷小说| 咕卡用的链子| 高清视频免费观看一区二区| 亚洲欧洲日产国产| 久久久a久久爽久久v久久| 中文欧美无线码| 老司机亚洲免费影院| 黄色配什么色好看| 免费大片18禁| av视频免费观看在线观看| 亚洲国产av新网站| 欧美xxxx性猛交bbbb| 午夜免费观看性视频| 少妇被粗大猛烈的视频| 在现免费观看毛片| 亚洲精品一二三| 极品人妻少妇av视频| 侵犯人妻中文字幕一二三四区| 最近中文字幕2019免费版| 久久影院123| 久久久久久久亚洲中文字幕| 少妇人妻久久综合中文| 中文字幕免费在线视频6| 视频在线观看一区二区三区| 曰老女人黄片| 人体艺术视频欧美日本| 精品少妇内射三级| 亚洲精品美女久久久久99蜜臀 | 国产在线免费精品| 久久久久人妻精品一区果冻| 成年动漫av网址| 精品一区二区免费观看| 欧美 日韩 精品 国产| 边亲边吃奶的免费视频| 国产精品熟女久久久久浪| 女人久久www免费人成看片| 欧美精品av麻豆av| 成年女人在线观看亚洲视频| 亚洲伊人久久精品综合| 香蕉精品网在线| 寂寞人妻少妇视频99o| 美女福利国产在线| 日本黄色日本黄色录像| 狂野欧美激情性xxxx在线观看| 老女人水多毛片| 少妇被粗大猛烈的视频| 黄色 视频免费看| 22中文网久久字幕| 夜夜骑夜夜射夜夜干| 国产成人精品福利久久| 欧美日韩视频高清一区二区三区二| 久久婷婷青草| 午夜激情久久久久久久| 国产一区有黄有色的免费视频| 久久久久精品久久久久真实原创| 婷婷成人精品国产| 久久99蜜桃精品久久| 精品一区二区三区视频在线| 亚洲欧美精品自产自拍| 欧美人与性动交α欧美软件 | 国产精品嫩草影院av在线观看| 大香蕉久久网| 国产成人av激情在线播放| 男女无遮挡免费网站观看| 亚洲伊人久久精品综合| 久久精品国产a三级三级三级| 国产 一区精品| 侵犯人妻中文字幕一二三四区| 制服丝袜香蕉在线| 国产亚洲精品久久久com| 国产白丝娇喘喷水9色精品| 久久热在线av| 熟女av电影| 国产激情久久老熟女| 免费黄频网站在线观看国产| av片东京热男人的天堂| 极品少妇高潮喷水抽搐| 国产精品国产三级专区第一集| 中文字幕av电影在线播放| 99久久人妻综合| 久久鲁丝午夜福利片| 两性夫妻黄色片 | 亚洲五月色婷婷综合| 午夜福利,免费看| 亚洲欧美成人综合另类久久久| 国内精品宾馆在线| h视频一区二区三区| 黄片无遮挡物在线观看| 毛片一级片免费看久久久久| 亚洲国产毛片av蜜桃av| 中文天堂在线官网| 在线观看美女被高潮喷水网站| 高清在线视频一区二区三区| 午夜福利网站1000一区二区三区| 中国国产av一级| 欧美 日韩 精品 国产| 免费女性裸体啪啪无遮挡网站| 在线观看国产h片| 欧美日韩亚洲高清精品| 大话2 男鬼变身卡| 91在线精品国自产拍蜜月| 男人添女人高潮全过程视频| 秋霞在线观看毛片| 亚洲精品乱码久久久久久按摩| 国产精品熟女久久久久浪| 人体艺术视频欧美日本| 日韩免费高清中文字幕av| videosex国产| xxxhd国产人妻xxx| 国产一区二区三区综合在线观看 | 99re6热这里在线精品视频| 搡老乐熟女国产| 一区二区日韩欧美中文字幕 | 欧美成人午夜免费资源| 亚洲国产av新网站| av在线app专区| 精品一区二区三区四区五区乱码 | 香蕉国产在线看| 久久人人爽人人片av| 22中文网久久字幕| 久久精品夜色国产| 丝袜人妻中文字幕| 国产亚洲一区二区精品| 男人操女人黄网站| 亚洲精品国产av蜜桃| 婷婷色综合大香蕉| 狠狠精品人妻久久久久久综合| 69精品国产乱码久久久| 精品99又大又爽又粗少妇毛片| 五月伊人婷婷丁香| 18禁观看日本| 亚洲伊人久久精品综合| 日本91视频免费播放| 日本vs欧美在线观看视频| 久久久久久人妻| 少妇被粗大猛烈的视频| 高清毛片免费看| 免费在线观看黄色视频的| 国产精品蜜桃在线观看| 99香蕉大伊视频| 如何舔出高潮| 亚洲美女视频黄频| 国产亚洲精品第一综合不卡 | 热99久久久久精品小说推荐| 搡老乐熟女国产| kizo精华| 天堂8中文在线网| 精品人妻在线不人妻| 午夜激情久久久久久久| 亚洲精品久久成人aⅴ小说| 免费久久久久久久精品成人欧美视频 | 少妇高潮的动态图| 99久久综合免费| 老司机影院毛片| 欧美日韩国产mv在线观看视频| 久久国产精品大桥未久av| 久久精品国产综合久久久 | 在线免费观看不下载黄p国产| 亚洲一区二区三区欧美精品| 妹子高潮喷水视频| 国产一区二区在线观看日韩| 丝瓜视频免费看黄片| 久久这里只有精品19| 伊人久久国产一区二区| 精品久久蜜臀av无| 国产一区有黄有色的免费视频| 五月玫瑰六月丁香| 久久精品aⅴ一区二区三区四区 | av国产久精品久网站免费入址| 亚洲成人av在线免费| 午夜福利影视在线免费观看| 午夜福利网站1000一区二区三区| 亚洲欧美日韩另类电影网站| 亚洲色图 男人天堂 中文字幕 | av在线观看视频网站免费| 国产亚洲一区二区精品| 精品国产乱码久久久久久小说| 女人被躁到高潮嗷嗷叫费观| 视频区图区小说| 18禁观看日本| 一本色道久久久久久精品综合| 天天影视国产精品| 国产片内射在线| 免费在线观看完整版高清| 色视频在线一区二区三区| 国产一区二区三区综合在线观看 | 免费av不卡在线播放| 国产免费视频播放在线视频| 国产免费现黄频在线看| 亚洲成人手机| 国产男女超爽视频在线观看| 亚洲成人手机| 九九在线视频观看精品| 我要看黄色一级片免费的| 99精国产麻豆久久婷婷| 日本欧美国产在线视频| 交换朋友夫妻互换小说| 久久精品夜色国产| 久久99精品国语久久久| 亚洲av综合色区一区| 只有这里有精品99| 婷婷成人精品国产| av福利片在线| 久久精品国产a三级三级三级| 久久久久久伊人网av| 十八禁高潮呻吟视频| 亚洲av男天堂| 日本91视频免费播放| 免费不卡的大黄色大毛片视频在线观看| 免费黄频网站在线观看国产| 欧美精品国产亚洲| 午夜视频国产福利| 国产日韩一区二区三区精品不卡| 久久久久久久久久成人| av在线播放精品| 女人久久www免费人成看片| 国产免费视频播放在线视频| 亚洲成人av在线免费| 国产精品久久久久成人av| 亚洲欧美一区二区三区黑人 | 亚洲综合精品二区| 午夜福利,免费看| 国产成人精品婷婷| 亚洲国产欧美日韩在线播放| 欧美xxⅹ黑人| 人人妻人人添人人爽欧美一区卜| 欧美97在线视频| 草草在线视频免费看| 97精品久久久久久久久久精品| 女性生殖器流出的白浆| 精品久久国产蜜桃| 久久精品久久久久久久性| 欧美xxⅹ黑人| 日本爱情动作片www.在线观看| 国产高清三级在线| 国产精品一国产av| 国产精品嫩草影院av在线观看| www.av在线官网国产| 一级片'在线观看视频| 久久久久久久国产电影| 最新的欧美精品一区二区| 王馨瑶露胸无遮挡在线观看| 深夜精品福利| 免费久久久久久久精品成人欧美视频 | 不卡视频在线观看欧美| 日本爱情动作片www.在线观看| 看免费成人av毛片| 久久午夜福利片| 美女脱内裤让男人舔精品视频| 亚洲四区av| 伊人亚洲综合成人网| 亚洲精品成人av观看孕妇| 波多野结衣一区麻豆| 内地一区二区视频在线| 18禁裸乳无遮挡动漫免费视频| 精品国产一区二区三区四区第35| 精品第一国产精品| av有码第一页| 色婷婷久久久亚洲欧美| 男女边摸边吃奶| 热re99久久精品国产66热6| 最黄视频免费看| 精品亚洲乱码少妇综合久久| 五月玫瑰六月丁香| 欧美激情 高清一区二区三区| 日本爱情动作片www.在线观看| 成人亚洲精品一区在线观看| 又黄又粗又硬又大视频| 2018国产大陆天天弄谢| 蜜桃在线观看..| 观看美女的网站| 十八禁网站网址无遮挡| 国语对白做爰xxxⅹ性视频网站| 免费观看在线日韩| 亚洲欧美日韩另类电影网站| 婷婷色综合大香蕉| 国产亚洲精品第一综合不卡 | 考比视频在线观看| 黄色怎么调成土黄色| 女性生殖器流出的白浆| 2021少妇久久久久久久久久久| 男女啪啪激烈高潮av片| 晚上一个人看的免费电影| 日本欧美视频一区| 国产综合精华液| 精品国产露脸久久av麻豆| 欧美国产精品va在线观看不卡| 久久99蜜桃精品久久| 国产日韩欧美亚洲二区| 青春草亚洲视频在线观看| 亚洲人成77777在线视频| 最近2019中文字幕mv第一页| 又大又黄又爽视频免费| 久久精品aⅴ一区二区三区四区 | 下体分泌物呈黄色| 欧美bdsm另类| 午夜福利乱码中文字幕| 一二三四中文在线观看免费高清| 午夜福利网站1000一区二区三区| 女的被弄到高潮叫床怎么办| 色吧在线观看| 尾随美女入室| 高清欧美精品videossex| av播播在线观看一区| 午夜福利视频在线观看免费| 精品第一国产精品| 香蕉丝袜av| 99热这里只有是精品在线观看| 亚洲av.av天堂| 欧美老熟妇乱子伦牲交| 婷婷色综合www| 中文欧美无线码| 国产精品麻豆人妻色哟哟久久| 9色porny在线观看| 久久人妻熟女aⅴ| 蜜桃国产av成人99| 自拍欧美九色日韩亚洲蝌蚪91| 精品少妇黑人巨大在线播放| 在线 av 中文字幕| 99香蕉大伊视频| 日韩电影二区| 毛片一级片免费看久久久久| 亚洲精品日韩在线中文字幕| 精品亚洲成a人片在线观看| 久久ye,这里只有精品| 大陆偷拍与自拍| 99热这里只有是精品在线观看| 成人国语在线视频| 亚洲精品美女久久久久99蜜臀 | 日本色播在线视频| 男女无遮挡免费网站观看| 亚洲精品av麻豆狂野| 伊人亚洲综合成人网| 黑人巨大精品欧美一区二区蜜桃 | 色94色欧美一区二区| 在线免费观看不下载黄p国产| 美女国产视频在线观看| 国产伦理片在线播放av一区| 午夜老司机福利剧场| av播播在线观看一区| 国产又爽黄色视频| 啦啦啦视频在线资源免费观看| 日韩av不卡免费在线播放| 国产乱人偷精品视频| 成人漫画全彩无遮挡| 亚洲第一区二区三区不卡| 香蕉精品网在线| 国产精品三级大全| 久久国产精品大桥未久av| 天堂俺去俺来也www色官网| 日韩大片免费观看网站| 日本黄色日本黄色录像| 九色亚洲精品在线播放| 日本vs欧美在线观看视频| 一本一本久久a久久精品综合妖精 国产伦在线观看视频一区 | 下体分泌物呈黄色| 国产精品秋霞免费鲁丝片| 中国美白少妇内射xxxbb| 99久国产av精品国产电影| av福利片在线| 国产成人午夜福利电影在线观看| av电影中文网址| av免费观看日本| 久久久精品免费免费高清| 精品久久久精品久久久| 成人黄色视频免费在线看| 成年动漫av网址| 午夜91福利影院| 欧美精品一区二区免费开放| 成年女人在线观看亚洲视频| av国产久精品久网站免费入址| 欧美精品一区二区免费开放| 日韩精品免费视频一区二区三区 | 捣出白浆h1v1| 国产黄色视频一区二区在线观看| 亚洲综合色惰| 精品少妇黑人巨大在线播放| 黄色视频在线播放观看不卡| 七月丁香在线播放| 精品少妇黑人巨大在线播放| 最近2019中文字幕mv第一页| 中国三级夫妇交换| 国产在线免费精品| 国产精品国产三级国产专区5o| 欧美精品国产亚洲| 夫妻性生交免费视频一级片| 蜜桃国产av成人99| 男女高潮啪啪啪动态图| 久久人妻熟女aⅴ| 九九爱精品视频在线观看| 久久人人爽av亚洲精品天堂| 久久久久久久久久久久大奶| 日日啪夜夜爽|