• <tr id="yyy80"></tr>
  • <sup id="yyy80"></sup>
  • <tfoot id="yyy80"><noscript id="yyy80"></noscript></tfoot>
  • 99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

    深度強(qiáng)化學(xué)習(xí)在變體飛行器自主外形優(yōu)化中的應(yīng)用

    2017-12-01 12:44:18劉正華祝令譜
    宇航學(xué)報(bào) 2017年11期
    關(guān)鍵詞:深度優(yōu)化策略

    溫 暖,劉正華,祝令譜,孫 揚(yáng)

    (北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191)

    深度強(qiáng)化學(xué)習(xí)在變體飛行器自主外形優(yōu)化中的應(yīng)用

    溫 暖,劉正華,祝令譜,孫 揚(yáng)

    (北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191)

    基于深度強(qiáng)化學(xué)習(xí)策略,研究了一類變體飛行器外形自主優(yōu)化問題。以一種抽象化的變體飛行器為對(duì)象,給出其外形變化公式與最優(yōu)外形函數(shù)等。結(jié)合深度學(xué)習(xí)與確定性策略梯度強(qiáng)化學(xué)習(xí),設(shè)計(jì)深度確定性策略梯度(DDPG)學(xué)習(xí)步驟,使飛行器經(jīng)過訓(xùn)練學(xué)習(xí)后具有較高的自主性和環(huán)境適應(yīng)性,提高其在戰(zhàn)場上的生存、應(yīng)變和攻擊能力。仿真結(jié)果表明,訓(xùn)練過程收斂較快,訓(xùn)練好的深度網(wǎng)絡(luò)參數(shù)可以使飛行器在整個(gè)飛行任務(wù)過程中達(dá)到最優(yōu)氣動(dòng)外形。

    變體飛行器;深度強(qiáng)化學(xué)習(xí);氣動(dòng)外形優(yōu)化

    0 引 言

    基于配備的智能驅(qū)動(dòng)機(jī)構(gòu),變體飛行器可以大尺度的改變自身構(gòu)型。此種性能使其可以替代多種不同型號(hào)的飛行器,在多任務(wù)飛行中實(shí)現(xiàn)全局大包線最優(yōu)氣動(dòng)外形。正是由于變體飛行器在上述性能上所擁有的巨大發(fā)展?jié)摿?,使其成為新一代智能飛行器的有效解決方案,這使得變體飛行器的研究達(dá)到了一個(gè)全新的戰(zhàn)略高度,得到了國內(nèi)外相關(guān)機(jī)構(gòu)的廣泛重視[1-2]。目前,針對(duì)變體飛行器的研究主要集中于結(jié)構(gòu)蒙皮設(shè)計(jì)[3]與姿態(tài)控制[4]等方面。對(duì)于如何讓飛行器根據(jù)任務(wù)與環(huán)境智能決策變體這方面內(nèi)容,研究相對(duì)較少。

    在變體飛行器設(shè)計(jì)過程中,自然界中的鳥類給予了人類很多啟示。如圖1(a)所示,鷹在穿越風(fēng)場時(shí)會(huì)收縮翅膀,并使其前掠來提高速度。在圖1(b)中,鷹又在翱翔時(shí)盡量展開翅膀,以達(dá)到自身消耗最小的飛翔外形。未來變體飛行器的發(fā)展趨勢就是智能化與仿生化相結(jié)合,飛行器采用智能材料來實(shí)現(xiàn)機(jī)械柔性結(jié)構(gòu),從而根據(jù)飛行條件、任務(wù)與環(huán)境的變化,像鳥一樣智能改變自身構(gòu)型以獲得最優(yōu)的飛行性能,如圖1(c)和(d)所示。

    如何使飛行器在沒有人的干預(yù)下具有自主決策能力一直是一個(gè)難題。對(duì)于變體飛行器來說,即使在已經(jīng)獲得當(dāng)前最優(yōu)氣動(dòng)外形的情況下,如何根據(jù)自身經(jīng)驗(yàn)和知識(shí)來操縱驅(qū)動(dòng)裝置使氣動(dòng)外形達(dá)到最優(yōu)仍然是非常困難的。強(qiáng)化學(xué)習(xí)策略能夠有效適應(yīng)環(huán)境的啟發(fā),以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,通過使累積獎(jiǎng)賞最大化的方式來學(xué)習(xí)到最優(yōu)策略[5]。因此,強(qiáng)化學(xué)習(xí)是一種使變體飛行器具有自主決策能力的有效手段。

    對(duì)于強(qiáng)化學(xué)習(xí)的研究,學(xué)術(shù)界一直沒有中斷過,目前常用的強(qiáng)化學(xué)習(xí)方法包括蒙特卡羅法、Q學(xué)習(xí)、SARSA學(xué)習(xí)、TD學(xué)習(xí)、策略梯度和自適應(yīng)動(dòng)態(tài)規(guī)劃等。強(qiáng)化學(xué)習(xí)在策略選擇的理論和算法方面已經(jīng)取得了很大的進(jìn)步,但其中大部分成功的強(qiáng)化學(xué)習(xí)應(yīng)用方案均非常依賴于人工特征的選取,且學(xué)習(xí)結(jié)果的好壞更是嚴(yán)重地取決于特征選取的質(zhì)量[6]。近期深度學(xué)習(xí)的發(fā)展使得對(duì)高度結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行特征提取成為可能?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)具有較強(qiáng)的感知能力,對(duì)于圖像分類和語音識(shí)別應(yīng)用效果較好,但是面對(duì)實(shí)際中的決策判斷問題卻無能為力;而強(qiáng)化學(xué)習(xí)具有決策選擇能力,但對(duì)感知問題束手無策。因此,可將兩者有機(jī)結(jié)合起來搭建深度強(qiáng)化學(xué)習(xí)框架,從而實(shí)現(xiàn)優(yōu)勢互補(bǔ),為復(fù)雜系統(tǒng)的感知決策問題提供新的解決思路。最近,DeepMind團(tuán)隊(duì)在Nature上的兩篇文獻(xiàn),即深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-network, DQN)在Atari游戲中的應(yīng)用[7]和AlphaGo在圍棋中的對(duì)弈[8],標(biāo)志著“深度強(qiáng)化學(xué)習(xí)”作為一種全新的機(jī)器學(xué)習(xí)算法,已經(jīng)能夠使人工智能在視頻游戲及棋類博弈中與人類專家相抗衡。但是上述的深度強(qiáng)化學(xué)習(xí)算法主要還是局限于傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架下,對(duì)于離散狀態(tài)與離散動(dòng)作具有較好的通用性,卻無法處理實(shí)際環(huán)境中的連續(xù)狀態(tài)與連續(xù)動(dòng)作。文獻(xiàn)[9]結(jié)合確定性策略方法與DQN,提出了針對(duì)于連續(xù)控制問題的DDPG方法。近來,最新的算法A3C(Asynchronous advantage actor critic)和UNREAL(Unsupervised reinforcement and auxiliary learning)更是展現(xiàn)了深度強(qiáng)化學(xué)習(xí)更廣泛的前景。

    本文以一類外形簡化的變體飛行器為研究對(duì)象,將原先只應(yīng)用于簡單控制問題的DDPG學(xué)習(xí)方法應(yīng)用到變體飛行器的外形優(yōu)化問題中。首先給出一種簡化的變體飛行器外形模型,定義飛行器外形的動(dòng)態(tài)方程、最優(yōu)氣動(dòng)外形和代價(jià)函數(shù)。在此基礎(chǔ)上,針對(duì)此連續(xù)狀態(tài)的控制問題闡述了DDPG算法的基本構(gòu)成框架和設(shè)計(jì)流程。在Python+TensorFlow平臺(tái)下,搭建深度學(xué)習(xí)訓(xùn)練框架結(jié)構(gòu),最終利用訓(xùn)練好的深度網(wǎng)絡(luò)參數(shù)驗(yàn)證飛行過程中的實(shí)際學(xué)習(xí)效果。

    1 變體飛行器外形模型

    本文以一種簡化的橢球形變體飛行器為研究對(duì)象[10-11],其由先進(jìn)的形狀記憶合金(Shape memory alloy,SMA)構(gòu)成,如圖2所示。此飛行器通過給定電壓調(diào)節(jié)SMA的形態(tài)從而控制自身外形沿橢球軸線方向發(fā)生變化。飛行器外形優(yōu)化的過程就是根據(jù)外部的飛行環(huán)境和任務(wù)來調(diào)整其在y軸和z軸方向上的軸長。同時(shí),為了保證整機(jī)體積不變,x軸方向上的軸長也會(huì)同時(shí)發(fā)生變化。

    y軸和z軸方向上的形變動(dòng)態(tài)與給定電壓之間的關(guān)系可由非線性差分方程(1)給出

    (1)

    式中:y和z分別表示橢球形變體飛行器在y軸和z軸方向上的橢球軸長。Vy和Vz分別表示調(diào)節(jié)SMA在y軸和z軸方向上形變的驅(qū)動(dòng)電壓。式(1)中系數(shù)的選取參考了文獻(xiàn)[10]。且y,z,Vy和Vz取值范圍設(shè)定為:y,z∈[2,4],Vy,Vz∈[0,5]。

    對(duì)應(yīng)于飛行狀態(tài)F,y軸和z軸方向上的最優(yōu)氣動(dòng)外形由式(2)給出

    (2)

    式中:Sy與Sz表示飛行器具有最優(yōu)升阻比的氣動(dòng)外形。F從離散狀態(tài){0,1,2,3,4,5}中選取,具體取值由當(dāng)前所處飛行軌跡上的高度與速度所決定。

    結(jié)合式(1)與式(2),代價(jià)函數(shù)C可以表示為

    (3)

    2 基于深度確定性策略梯度的變體飛行器外形優(yōu)化學(xué)習(xí)

    考慮到上述動(dòng)作空間的連續(xù)性問題,本文采用的是強(qiáng)化學(xué)習(xí)中的確定性策略梯度算法以實(shí)現(xiàn)連續(xù)控制問題。針對(duì)單純的確定性策略無法探索環(huán)境這個(gè)缺陷,可以利用Actor-Critic(AC)學(xué)習(xí)框架實(shí)現(xiàn)異策略學(xué)習(xí)方式,即行動(dòng)策略與評(píng)估策略不是同一個(gè)策略方法。行動(dòng)策略為隨機(jī)策略,以保證充足的探索。而評(píng)估策略為確定性策略,其可以通過梯度計(jì)算來實(shí)現(xiàn)累計(jì)獎(jiǎng)賞J的最大化。在AC算法中,可以把策略函數(shù)μ(s|θμ)和行為值函數(shù)Qπ(s,a|θQ)分別用單獨(dú)的函數(shù)來近似。策略函數(shù)μ(s|θμ)作為Actor來進(jìn)行動(dòng)作選擇,而行為值函數(shù)Qπ(s,a|θQ)作為Critic來對(duì)策略函數(shù)進(jìn)行評(píng)估。而二者均可根據(jù)Critic的輸出來進(jìn)行更新。

    確定性策略的動(dòng)作公式為

    a=μ(s|θμ)

    (4)

    與隨機(jī)策略不同,當(dāng)式(4)中的θμ(策略函數(shù)中的權(quán)重因子)確定下來后,在狀態(tài)為s時(shí),動(dòng)作是唯一確定的。另外,在行為值函數(shù)Qπ(s,a|θQ)評(píng)估過程中用的是經(jīng)典的Q-learning的方法,其中θQ為行為值函數(shù)中待逼近的權(quán)值參數(shù)。AC算法將對(duì)動(dòng)作的Q值估計(jì)和策略估計(jì)分離,使其能夠在探索更多環(huán)境狀態(tài)的同時(shí)保持某個(gè)確定性策略的學(xué)習(xí),從而令整個(gè)網(wǎng)絡(luò)學(xué)習(xí)變得更容易收斂。

    在確定性策略中,作為目標(biāo)函數(shù)的累計(jì)獎(jiǎng)賞J相對(duì)于策略參數(shù)θμ的梯度為[9]

    (5)

    式中:E代表期望值。策略梯度的思想就是沿著使目標(biāo)函數(shù)J變大的方向調(diào)整策略參數(shù)θμ。

    在式(5)基礎(chǔ)上,可以得到確定性策略AC算法的更新過程

    (6)

    (7)

    式(6)是利用Q學(xué)習(xí)值函數(shù)逼近的方法更新行為值函數(shù)的參數(shù)θQ,式(7)是利用確定性策略梯度的方法更新策略的參數(shù)θμ。

    上面所述的方法為確定性策略梯度(Deterministic policy gradient, DPG)。在DPG基礎(chǔ)上可以利用深度神經(jīng)網(wǎng)絡(luò)逼近行為值函數(shù)Qπ(s,a|θQ)和確定性策略μ(s|θμ),就成為深度確定性策略梯度(Deep deterministic policy gradient,DDPG)學(xué)習(xí)算法。

    注1. 當(dāng)利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)逼近的時(shí)候,強(qiáng)化學(xué)習(xí)算法常常不穩(wěn)定。這是因?yàn)?,?duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)往往假設(shè)輸入的數(shù)據(jù)是獨(dú)立同分布的[7],但強(qiáng)化學(xué)習(xí)的數(shù)據(jù)是順序采集的,數(shù)據(jù)之間存在馬爾科夫依賴性,并非獨(dú)立同分布。為了打破數(shù)據(jù)之間的關(guān)聯(lián)性,可以采用“經(jīng)驗(yàn)回放”方法,將每次進(jìn)行動(dòng)作以后得到的“狀態(tài)-動(dòng)作-反饋-新狀態(tài)”保存到緩存中去,訓(xùn)練采用的樣本則從這個(gè)緩存中隨機(jī)抽取。利用此種訓(xùn)練技巧,理論上可以打破學(xué)習(xí)過程中的數(shù)據(jù)依賴性的。

    在訓(xùn)練過程中,由于環(huán)境是相對(duì)混沌的,用于更新網(wǎng)絡(luò)的反饋具有很大的噪聲,直接訓(xùn)練深度網(wǎng)絡(luò)會(huì)非常容易發(fā)散。因此,在DDPG訓(xùn)練學(xué)習(xí)過程中,本文采用目標(biāo)網(wǎng)絡(luò)方法,創(chuàng)建Actor和Critic網(wǎng)絡(luò)的副本μ-(s|θμ-),Q-(s,a|θQ-)來計(jì)算目標(biāo)值,然后以τ的比例緩慢跟隨原網(wǎng)絡(luò)更新。如此所得的目標(biāo)值就會(huì)變得相對(duì)穩(wěn)定,非常有利于學(xué)習(xí)的效果。故更新過程可以變?yōu)?/p>

    (8)

    (9)

    (10)

    綜上,DDPG的算法步驟如下:

    1)隨機(jī)初始化Critic深度神經(jīng)網(wǎng)絡(luò)Q(s,a|θQ)的權(quán)重θQ和Actor的深度神經(jīng)網(wǎng)絡(luò)μ(s|θμ)的權(quán)重θμ。

    2)初始目標(biāo)網(wǎng)絡(luò)Q-與μ-的權(quán)重θQ-與θμ-。

    3)初始化經(jīng)驗(yàn)回放的緩存區(qū)R。

    4)重復(fù)每一幕。

    5)初始化隨機(jī)過程N(yùn)以用于行動(dòng)策略的探索。

    6)初始觀測得到狀態(tài)s1。

    7)重復(fù)步驟8)~16)。

    8)根據(jù)當(dāng)前的策略和隨機(jī)探索選擇動(dòng)作:

    at=μ(st|θμ)+Nt

    9)執(zhí)行動(dòng)作at從而得到獎(jiǎng)勵(lì)rt和新的狀態(tài)st+1。

    10)將(st,at,rt,st+1)存儲(chǔ)在緩存區(qū)R中。

    11)在R中隨機(jī)選取一組數(shù)量為M的(si,ai,ri,si+1)。

    12)設(shè)定

    yi=ri+γQ-(si+1,μθ-(si+1|θμ-)|θQ-)

    14)利用所選取樣本的策略梯度更新Actor的網(wǎng)絡(luò)參數(shù)

    15)更新目標(biāo)網(wǎng)絡(luò)

    16)直到最大步數(shù)和最大幕數(shù)。

    3 仿真校驗(yàn)

    為了驗(yàn)證深度強(qiáng)化學(xué)習(xí)在變體飛行器外形優(yōu)化過程中的有效性,本節(jié)將上文所提到的DDPG學(xué)習(xí)算法編程實(shí)現(xiàn),并應(yīng)用于變體模型(1)、(2)與(3)的飛行器外形優(yōu)化策略中?;贏C強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的DDPG算法的架構(gòu)如圖3所示,Critic深度神經(jīng)網(wǎng)絡(luò)Q(s,a|θQ)和Actor的深度神經(jīng)網(wǎng)絡(luò)μ(s|θμ)均有兩個(gè)隱藏層,每個(gè)隱藏層里有400個(gè)神經(jīng)元,Critic網(wǎng)絡(luò)采用Relu激活函數(shù),Actor網(wǎng)絡(luò)則采用tanh激活函數(shù)。在Critic網(wǎng)絡(luò)中,本文將動(dòng)作Action輸入到隱藏層-2中。

    訓(xùn)練過程設(shè)計(jì)如下,對(duì)于獨(dú)立的y軸和z軸分別進(jìn)行學(xué)習(xí)優(yōu)化,步驟1)中的最大幕數(shù)設(shè)置為200,前100個(gè)幕中加入隨機(jī)動(dòng)作以進(jìn)行探索,在后100個(gè)幕中將探索去掉,從而進(jìn)行在線策略利用。每個(gè)幕中的最大步數(shù)Step設(shè)置為500。軟件開發(fā)平臺(tái)為:Python2.7+TensorFlow1.0+Cuda8.1+Cudnn5.1,硬件平臺(tái)采用型號(hào)為Nvidia-GTX960的GPU。

    每個(gè)幕的累積獎(jiǎng)賞如圖4所示??梢钥闯?在整個(gè)訓(xùn)練學(xué)習(xí)過程中,學(xué)習(xí)效果收斂較快,且不加探索的后100個(gè)幕的累積獎(jiǎng)賞波動(dòng)不大,表明整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)較為穩(wěn)定。

    訓(xùn)練完成后的優(yōu)化策略驗(yàn)證過程設(shè)計(jì)如下:變體飛行器的飛行狀態(tài)F由飛行軌跡決定,其關(guān)系如圖5所示,將訓(xùn)練后的Actor網(wǎng)絡(luò)保存下來,并在如圖5所示的飛行路徑中進(jìn)行試驗(yàn)??傻玫斤w行過程中的變體飛行器外形y與z的優(yōu)化狀態(tài),并將本文的DDPG算法與文獻(xiàn)[12]中的Multi-Q學(xué)習(xí)方法進(jìn)行對(duì)比。由圖6~7可以看出,DDPG算法的優(yōu)化效果明顯好于Multi-Q學(xué)習(xí)。這主要是因?yàn)閭鹘y(tǒng)的Q學(xué)習(xí)依賴于離散的狀態(tài)空間和離散的動(dòng)作空間,對(duì)于此變體飛行器外形優(yōu)化這種連續(xù)過程只能采用離散化手段,這會(huì)導(dǎo)致最終學(xué)習(xí)完成后的輸出動(dòng)作為離散值,造成優(yōu)化精度不高。而DDPG算法采用深度神經(jīng)網(wǎng)絡(luò)逼近狀態(tài)-動(dòng)作策略,可以計(jì)算出連續(xù)動(dòng)作值,使得學(xué)習(xí)效果較好。

    4 結(jié) 論

    本文針對(duì)變體飛行器的外形優(yōu)化問題,應(yīng)用近幾年較為熱門的深度強(qiáng)化學(xué)習(xí)算法使飛行器通過訓(xùn)練學(xué)習(xí)具有了自主優(yōu)化外形的能力,將人工智能方法拓展到飛行器策略優(yōu)化領(lǐng)域。為了解決傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架不適用于連續(xù)控制這個(gè)問題,結(jié)合確定性策略梯度算法與Actor-Critic框架進(jìn)行強(qiáng)化學(xué)習(xí)過程,并將深度神經(jīng)網(wǎng)絡(luò)替代原來傳統(tǒng)的Actor函數(shù)與Critic函數(shù)結(jié)構(gòu),以實(shí)現(xiàn)更好的學(xué)習(xí)效果。仿真結(jié)果表明,整個(gè)學(xué)習(xí)過程收斂較快,并且利用訓(xùn)練好的深度網(wǎng)絡(luò)參數(shù),可以使后期飛行過程中的外形優(yōu)化效果大幅度提高。

    [1] 何墉,章衛(wèi)國,王敏文,等. 基于多目標(biāo)控制的變體飛行器切換線性變參數(shù)控制器[J]. 控制理論與應(yīng)用. 2015, 32(11): 1518-1525. [He Yong, Zhang Wei-guo, Wang Min-wen, et al. Switching linear-parameter-varying controller for morphing aircraft based on multi-objective[J]. Control Theory amp; Applications. 2015, 32(11): 1518-1525.]

    [2] 江未來, 董朝陽, 王通,等. 變體飛行器平滑切換LPV魯棒控制[J]. 控制與決策, 2016, 31(1):66-72. [Jiang Wei-lai, Dong Chao-yang, Wang Tong, et al. Smooth switching LPV robust control for morphing aircraft[J]. Control and Decision, 2016, 31(1):66-72.]

    [3] 杜善義,張博明. 飛行器結(jié)構(gòu)智能化研究及其發(fā)展趨勢[J]. 宇航學(xué)報(bào), 2007, 28(4): 773-778. [Du Shan-yi, Zhang Bo-ming. Status and developments of intelligentized aircraft structures[J]. Journal of Astronautics, 2007, 28(4): 773-778.]

    [4] 董朝陽,江未來,王青. 變翼展飛行器平滑切換LPV魯棒H∞控制[J]. 宇航學(xué)報(bào). 2015(11): 1270-1278. [Dong Chao-yang, Jiang Wei-lai, Wang Qing. Smooth switching LPV robust H-infinity control for variable-span vehicle[J]. Journal of Astronautics, 2015(11): 1270-1278.]

    [5] Sutton R S,Precup D, Singh S. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1-2): 181-211.

    [6] 趙冬斌, 邵坤, 朱圓恒, 等. 深度強(qiáng)化學(xué)習(xí)綜述:兼論計(jì)算機(jī)圍棋的發(fā)展[J]. 控制理論與應(yīng)用, 2016, 33(6):701-717. [Zhao Dong-bin, Shao Kun, Zhu Yuan-heng, et al. Review of deep reinforcement learning and discussions on the development of computer go[J]. Control Theory and Applications, 2016, 33(6):701-717.]

    [7] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.

    [8] Silver D, Huang A, Maddison C J, et al. Mastering the game ofgo with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484.

    [9] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. Computer Science, 2015, 8(6): 187-200.

    [10] Valasek J, Tandale M D, Rong J. A reinforcement learning-adaptive control architecture for morphing[J]. Journal of Aerospace Computing Information amp; Communication, 2005, 2(4): 174-195.

    [11] Valasek J, Doebbler J, Tandale M D, et al. Improved adaptive-reinforcement learning control for morphing unmanned air vehicles[J]. IEEE Transactions on Systems Man amp; Cybernetics Part B, 2013, 38(4): 1014-1020.

    [12] Duryea E, Ganger M, Hu W. Exploringdeep reinforcement learning with multi-Q-learning[J]. Intelligent Control and Automation, 2016, 7(4): 129-144.

    DeepReinforcementLearningandItsApplicationonAutonomousShapeOptimizationforMorphingAircrafts

    WEN Nuan, LIU Zheng-hua, ZHU Ling-pu, SUN Yang

    (School of Automation Science and Electrical Engineering, Beihang University, Beijing 100191, China)

    This paper considers a class of simplified morphing aircraft and autonomous shape optimization for aircraft based on deep reinforcement learning is researched. Firstly, based on the model of an abstract morphing aircraft, the dynamic equation of shape and the optimal shape functions are derived. Then, by combining deep learning and reinforcement learning of deterministic policy gradient, we give the learning procedure of deep deterministic policy gradient(DDPG).After learning and training for the deep network, the aircraft is equipped with higher autonomy and environmental adaptability, which will improve its adaptability, aggressivity and survivability in the battlefield. Simulation results demonstrate that the convergence speed of learning is relatively fast, and the optimized aerodynamic shape can be obtained autonomously during the whole flight by using the trained deep network parameters.

    Morphing aircrafts;Deep reinforcement learning;Aerodynamic shape optimization

    V249.1

    A

    1000-1328(2017)11- 1153- 07

    10.3873/j.issn.1000- 1328.2017.11.003

    2017- 06- 20;

    2017- 09- 13

    國家自然科學(xué)基金(61305132,61563041);航空科學(xué)基金(20135751040)

    溫暖(1988-),男,博士生,主要從事智能變體飛行器的控制研究。

    通信地址:北京航空航天大學(xué)新主樓(100083)

    電話:(010)82338658

    E-mail: max_buaa3@163.com

    劉正華(1974-),男,博士,副教授,主要從事飛行器控制,系統(tǒng)仿真,高精度運(yùn)動(dòng)控制等方向的研究。本文通信作者。

    通信地址:北京航空航天大學(xué)新主樓(100083)

    電話:(010)82338658

    E-mail: lzh@buaa.edu.cn

    猜你喜歡
    深度優(yōu)化策略
    超限高層建筑結(jié)構(gòu)設(shè)計(jì)與優(yōu)化思考
    民用建筑防煙排煙設(shè)計(jì)優(yōu)化探討
    關(guān)于優(yōu)化消防安全告知承諾的一些思考
    一道優(yōu)化題的幾何解法
    深度理解一元一次方程
    例談未知角三角函數(shù)值的求解策略
    我說你做講策略
    深度觀察
    深度觀察
    深度觀察
    国产精品不卡视频一区二区 | aaaaa片日本免费| 少妇的逼好多水| 亚洲精品一区av在线观看| 国产精品99久久久久久久久| 99久久成人亚洲精品观看| 麻豆国产av国片精品| 在线免费观看的www视频| 男人舔奶头视频| 亚洲av二区三区四区| 9191精品国产免费久久| 成人亚洲精品av一区二区| 午夜福利在线观看吧| 国产亚洲欧美在线一区二区| 黄色女人牲交| 两个人的视频大全免费| 成人一区二区视频在线观看| 精品久久久久久成人av| 美女 人体艺术 gogo| 少妇的逼好多水| 十八禁网站免费在线| 久久亚洲精品不卡| 国产乱人视频| 亚洲精品一卡2卡三卡4卡5卡| 国产精品一区二区免费欧美| 极品教师在线视频| 三级毛片av免费| 51午夜福利影视在线观看| 欧美在线黄色| 身体一侧抽搐| 少妇熟女aⅴ在线视频| 国产伦精品一区二区三区四那| 亚洲精品乱码久久久v下载方式| 午夜激情欧美在线| 亚洲欧美日韩卡通动漫| 久久久久久国产a免费观看| 欧美bdsm另类| 国内少妇人妻偷人精品xxx网站| 网址你懂的国产日韩在线| 国产 一区 欧美 日韩| 日本黄色片子视频| 亚洲欧美日韩高清专用| 一级毛片久久久久久久久女| 亚洲内射少妇av| 九九久久精品国产亚洲av麻豆| 国产精品影院久久| 亚洲一区二区三区色噜噜| 国产免费男女视频| 午夜日韩欧美国产| 免费观看精品视频网站| 99久久成人亚洲精品观看| 日本撒尿小便嘘嘘汇集6| 日韩有码中文字幕| 午夜免费激情av| 丝袜美腿在线中文| 制服丝袜大香蕉在线| 宅男免费午夜| 国产高清激情床上av| 热99在线观看视频| 最好的美女福利视频网| 国产成人欧美在线观看| av女优亚洲男人天堂| 亚洲国产精品成人综合色| 51午夜福利影视在线观看| 黄色视频,在线免费观看| 97超视频在线观看视频| 精品国产三级普通话版| 精品久久久久久久久亚洲 | 国产黄片美女视频| 日韩精品中文字幕看吧| 国产探花极品一区二区| 赤兔流量卡办理| 中文字幕av在线有码专区| 国产高清三级在线| 天堂影院成人在线观看| 亚洲不卡免费看| 高清在线国产一区| 色尼玛亚洲综合影院| 国产v大片淫在线免费观看| 亚洲avbb在线观看| 99久国产av精品| 国产精品久久久久久久久免 | 国产精品野战在线观看| a级一级毛片免费在线观看| 精品一区二区三区av网在线观看| 亚洲av成人精品一区久久| 日日夜夜操网爽| 欧美最黄视频在线播放免费| 脱女人内裤的视频| 国产又黄又爽又无遮挡在线| 成人亚洲精品av一区二区| 国产单亲对白刺激| 色av中文字幕| 国产成人欧美在线观看| 欧美3d第一页| 非洲黑人性xxxx精品又粗又长| 麻豆国产av国片精品| 午夜精品久久久久久毛片777| 国产亚洲av嫩草精品影院| 男插女下体视频免费在线播放| 最后的刺客免费高清国语| 久久久国产成人免费| 日韩有码中文字幕| 国产成人av教育| 国内精品久久久久久久电影| 国产成人aa在线观看| 禁无遮挡网站| 久久亚洲真实| 搡老妇女老女人老熟妇| 一个人免费在线观看电影| 欧美激情在线99| 午夜福利在线观看吧| 一夜夜www| 69av精品久久久久久| 国产高清有码在线观看视频| 日本a在线网址| 日本免费a在线| 一夜夜www| 69av精品久久久久久| 一个人观看的视频www高清免费观看| 一夜夜www| 亚洲av一区综合| 免费大片18禁| 久久6这里有精品| 欧美激情在线99| 久久天躁狠狠躁夜夜2o2o| 午夜老司机福利剧场| 亚洲国产色片| 久久久国产成人免费| 亚洲成人久久爱视频| 99热6这里只有精品| 99热6这里只有精品| 最新在线观看一区二区三区| 免费看日本二区| 亚洲第一欧美日韩一区二区三区| 成年女人毛片免费观看观看9| 极品教师在线视频| 日韩欧美国产在线观看| 高潮久久久久久久久久久不卡| 美女被艹到高潮喷水动态| 亚洲无线观看免费| 搡老熟女国产l中国老女人| 成人国产综合亚洲| 久久国产精品影院| 一区二区三区激情视频| 久久精品91蜜桃| 午夜福利在线观看免费完整高清在 | 色哟哟·www| 国产三级黄色录像| 国产一区二区三区在线臀色熟女| 日本a在线网址| 日韩高清综合在线| 精品熟女少妇八av免费久了| 国产成人av教育| 非洲黑人性xxxx精品又粗又长| 欧美日韩综合久久久久久 | 国产精品久久久久久久久免 | 成人国产综合亚洲| 午夜两性在线视频| 两个人的视频大全免费| 国产乱人视频| 精品人妻偷拍中文字幕| 国产一区二区在线观看日韩| 黄色女人牲交| 精品久久久久久久久av| 超碰av人人做人人爽久久| 性色avwww在线观看| 1024手机看黄色片| aaaaa片日本免费| 日本三级黄在线观看| 夜夜躁狠狠躁天天躁| 看黄色毛片网站| 少妇熟女aⅴ在线视频| 亚洲色图av天堂| 国产爱豆传媒在线观看| 精品久久久久久,| 久久久成人免费电影| 波多野结衣高清作品| 国产一区二区激情短视频| 在线观看美女被高潮喷水网站 | 亚洲男人的天堂狠狠| 亚洲不卡免费看| 国产成人a区在线观看| 天堂av国产一区二区熟女人妻| 免费av观看视频| 日韩国内少妇激情av| 婷婷亚洲欧美| 成人特级黄色片久久久久久久| 国产高清视频在线播放一区| 午夜免费成人在线视频| 婷婷色综合大香蕉| 日本精品一区二区三区蜜桃| 成人特级av手机在线观看| 97热精品久久久久久| 一级作爱视频免费观看| 亚洲人成伊人成综合网2020| 日韩欧美在线二视频| 免费人成在线观看视频色| 激情在线观看视频在线高清| 国产精品久久久久久久电影| 精品人妻1区二区| 午夜a级毛片| 欧美性猛交黑人性爽| 免费搜索国产男女视频| 久99久视频精品免费| 国产69精品久久久久777片| 色尼玛亚洲综合影院| 国产欧美日韩精品一区二区| 国产精品乱码一区二三区的特点| 动漫黄色视频在线观看| 美女免费视频网站| 嫩草影院精品99| 99热6这里只有精品| 国产精品亚洲av一区麻豆| 国产精品永久免费网站| 少妇的逼水好多| 国语自产精品视频在线第100页| 国产乱人视频| www.色视频.com| 免费大片18禁| 好男人在线观看高清免费视频| 亚洲美女搞黄在线观看 | 久久精品国产亚洲av涩爱 | 亚洲欧美日韩东京热| av天堂中文字幕网| 国产野战对白在线观看| 一二三四社区在线视频社区8| 欧美性猛交╳xxx乱大交人| 国产精品嫩草影院av在线观看 | 国产私拍福利视频在线观看| 最近视频中文字幕2019在线8| 女人十人毛片免费观看3o分钟| 精品一区二区三区视频在线| 蜜桃亚洲精品一区二区三区| 日韩大尺度精品在线看网址| 国产视频一区二区在线看| 好男人电影高清在线观看| www.色视频.com| 欧美一区二区国产精品久久精品| 国产真实乱freesex| 久久久久久久亚洲中文字幕 | 欧美性猛交╳xxx乱大交人| 亚洲av免费高清在线观看| 久久草成人影院| 天堂av国产一区二区熟女人妻| 国产亚洲精品久久久久久毛片| www日本黄色视频网| 偷拍熟女少妇极品色| 精品一区二区三区视频在线| 极品教师在线视频| 亚洲av中文字字幕乱码综合| 少妇高潮的动态图| 2021天堂中文幕一二区在线观| 亚洲熟妇中文字幕五十中出| 日韩高清综合在线| 国产三级中文精品| 亚洲成人精品中文字幕电影| 亚洲自偷自拍三级| av视频在线观看入口| 久久久久性生活片| 99久久成人亚洲精品观看| 久久精品国产亚洲av涩爱 | 99视频精品全部免费 在线| 国产真实伦视频高清在线观看 | 亚州av有码| 国产精品久久视频播放| 又爽又黄无遮挡网站| 国产在线男女| 精品一区二区三区视频在线观看免费| 亚洲国产精品sss在线观看| 国产亚洲欧美在线一区二区| 给我免费播放毛片高清在线观看| 久久伊人香网站| 亚洲欧美日韩东京热| 神马国产精品三级电影在线观看| 男女床上黄色一级片免费看| 亚洲精品久久国产高清桃花| 女人被狂操c到高潮| 中文字幕av在线有码专区| 久久精品91蜜桃| 男女下面进入的视频免费午夜| 午夜亚洲福利在线播放| 一级黄片播放器| 日日夜夜操网爽| 老熟妇仑乱视频hdxx| 午夜免费成人在线视频| 成人高潮视频无遮挡免费网站| 日本免费一区二区三区高清不卡| 欧美性猛交黑人性爽| 日本在线视频免费播放| 国产精品精品国产色婷婷| 毛片一级片免费看久久久久 | 90打野战视频偷拍视频| 禁无遮挡网站| 尤物成人国产欧美一区二区三区| 久久久久免费精品人妻一区二区| 亚洲精品在线观看二区| 国产精品日韩av在线免费观看| 真人一进一出gif抽搐免费| 日韩欧美在线二视频| 国内精品一区二区在线观看| 日本免费一区二区三区高清不卡| 国产精品一及| 一边摸一边抽搐一进一小说| 色尼玛亚洲综合影院| 波野结衣二区三区在线| 男女下面进入的视频免费午夜| 国产精品爽爽va在线观看网站| 熟女人妻精品中文字幕| 亚洲在线自拍视频| 99久久九九国产精品国产免费| 中文字幕人成人乱码亚洲影| 天美传媒精品一区二区| 欧美色视频一区免费| 亚洲美女搞黄在线观看 | 长腿黑丝高跟| 午夜福利视频1000在线观看| 欧美国产日韩亚洲一区| 99国产精品一区二区三区| 午夜福利18| 舔av片在线| bbb黄色大片| 可以在线观看毛片的网站| 日本黄色视频三级网站网址| 亚洲,欧美精品.| 啪啪无遮挡十八禁网站| 内地一区二区视频在线| 又黄又爽又免费观看的视频| 久久精品久久久久久噜噜老黄 | 一本综合久久免费| 嫩草影视91久久| 久久久久久大精品| 精品一区二区三区视频在线| 国内精品久久久久精免费| 亚洲中文字幕日韩| 高清日韩中文字幕在线| 欧美xxxx黑人xx丫x性爽| 国产aⅴ精品一区二区三区波| 在线天堂最新版资源| 日韩欧美三级三区| 午夜免费激情av| 中文在线观看免费www的网站| 成年女人看的毛片在线观看| 亚州av有码| 国产真实乱freesex| 日日夜夜操网爽| 大型黄色视频在线免费观看| 中文字幕熟女人妻在线| 国内精品久久久久久久电影| 欧美日韩国产亚洲二区| 亚洲自拍偷在线| 性色av乱码一区二区三区2| 成熟少妇高潮喷水视频| 亚洲av二区三区四区| 日韩欧美三级三区| 国产精品嫩草影院av在线观看 | 久久午夜福利片| 国内久久婷婷六月综合欲色啪| 网址你懂的国产日韩在线| 丰满的人妻完整版| 国产精华一区二区三区| 国产探花在线观看一区二区| 久久久久亚洲av毛片大全| 天堂√8在线中文| 亚洲最大成人手机在线| 国产激情偷乱视频一区二区| 好男人电影高清在线观看| 亚洲av日韩精品久久久久久密| 在线免费观看不下载黄p国产 | 脱女人内裤的视频| 成人毛片a级毛片在线播放| or卡值多少钱| 亚洲精品乱码久久久v下载方式| 国产精品1区2区在线观看.| 久久亚洲精品不卡| 久久天躁狠狠躁夜夜2o2o| 亚洲天堂国产精品一区在线| 国产精品久久久久久久电影| 亚洲自偷自拍三级| 国产欧美日韩一区二区精品| 脱女人内裤的视频| 人人妻,人人澡人人爽秒播| 搡老妇女老女人老熟妇| 内地一区二区视频在线| 国产视频一区二区在线看| 他把我摸到了高潮在线观看| 久久午夜亚洲精品久久| 国产av麻豆久久久久久久| 日韩精品青青久久久久久| 亚洲av第一区精品v没综合| 欧美另类亚洲清纯唯美| 欧美日韩综合久久久久久 | 亚洲av二区三区四区| 美女黄网站色视频| 别揉我奶头~嗯~啊~动态视频| 99久久精品一区二区三区| 久久久久久九九精品二区国产| 亚洲av免费在线观看| 亚洲成人久久爱视频| 亚洲国产日韩欧美精品在线观看| 自拍偷自拍亚洲精品老妇| а√天堂www在线а√下载| 老师上课跳d突然被开到最大视频 久久午夜综合久久蜜桃 | 永久网站在线| 综合色av麻豆| 一级av片app| 首页视频小说图片口味搜索| 亚洲午夜理论影院| 午夜福利欧美成人| 日韩欧美精品免费久久 | 麻豆一二三区av精品| 每晚都被弄得嗷嗷叫到高潮| 俄罗斯特黄特色一大片| 成人亚洲精品av一区二区| 国产一区二区三区视频了| 亚洲狠狠婷婷综合久久图片| 级片在线观看| 欧美一区二区精品小视频在线| 国产黄色小视频在线观看| 高清在线国产一区| 久久精品人妻少妇| 免费人成视频x8x8入口观看| 又黄又爽又刺激的免费视频.| 午夜福利高清视频| 亚洲欧美日韩卡通动漫| 国产在线精品亚洲第一网站| 国内少妇人妻偷人精品xxx网站| 亚洲欧美日韩卡通动漫| 99精品在免费线老司机午夜| 亚洲成人精品中文字幕电影| 国产亚洲av嫩草精品影院| 日日夜夜操网爽| 亚洲国产精品999在线| 99久久无色码亚洲精品果冻| 精品一区二区三区av网在线观看| 最好的美女福利视频网| 亚洲五月天丁香| av专区在线播放| 日本 av在线| 国产欧美日韩一区二区精品| 亚洲va日本ⅴa欧美va伊人久久| 男女床上黄色一级片免费看| 极品教师在线视频| 成年女人看的毛片在线观看| 国产精品精品国产色婷婷| av黄色大香蕉| 神马国产精品三级电影在线观看| 久久亚洲真实| 99精品在免费线老司机午夜| 一个人观看的视频www高清免费观看| 18美女黄网站色大片免费观看| 小蜜桃在线观看免费完整版高清| 久久精品久久久久久噜噜老黄 | 欧美日韩黄片免| 亚洲av电影在线进入| 国产高清三级在线| 亚洲乱码一区二区免费版| 亚洲最大成人手机在线| 又黄又爽又免费观看的视频| 亚洲熟妇熟女久久| 亚洲国产精品久久男人天堂| 永久网站在线| 国产黄色小视频在线观看| 国产色婷婷99| 18禁黄网站禁片免费观看直播| 1024手机看黄色片| 黄色一级大片看看| 国产精品精品国产色婷婷| 亚洲人成网站高清观看| 最新中文字幕久久久久| 精品无人区乱码1区二区| 国产视频一区二区在线看| 亚洲性夜色夜夜综合| 国产色爽女视频免费观看| 亚洲欧美日韩无卡精品| 好男人在线观看高清免费视频| 日本熟妇午夜| 久久久久久大精品| 国产精品一区二区免费欧美| 国内揄拍国产精品人妻在线| aaaaa片日本免费| 国产成人av教育| 欧美精品啪啪一区二区三区| 久久人人爽人人爽人人片va | 欧美精品啪啪一区二区三区| 丰满乱子伦码专区| 久久精品国产亚洲av天美| 免费看a级黄色片| 国产真实乱freesex| 伦理电影大哥的女人| 露出奶头的视频| 男女那种视频在线观看| 男人舔女人下体高潮全视频| 亚洲国产色片| .国产精品久久| 国产黄色小视频在线观看| 99久久99久久久精品蜜桃| 久久久久久久久久黄片| 人妻久久中文字幕网| 国产爱豆传媒在线观看| 国模一区二区三区四区视频| 欧美乱色亚洲激情| 亚洲国产欧美人成| 最近最新中文字幕大全电影3| 男女做爰动态图高潮gif福利片| 亚洲av第一区精品v没综合| av专区在线播放| 美女高潮喷水抽搐中文字幕| 中出人妻视频一区二区| 99国产极品粉嫩在线观看| 一本久久中文字幕| 麻豆成人av在线观看| 免费搜索国产男女视频| 欧美日韩国产亚洲二区| 床上黄色一级片| 又爽又黄a免费视频| 精品久久久久久久久亚洲 | 亚洲精华国产精华精| 国内精品一区二区在线观看| 欧美性猛交╳xxx乱大交人| 看免费av毛片| 欧美黑人欧美精品刺激| 精品日产1卡2卡| 深夜a级毛片| 51国产日韩欧美| 一区二区三区高清视频在线| 亚洲成av人片免费观看| 全区人妻精品视频| 日韩欧美精品免费久久 | 国产精品爽爽va在线观看网站| 亚洲三级黄色毛片| 日本精品一区二区三区蜜桃| 国产色爽女视频免费观看| 日本 av在线| 色av中文字幕| 色噜噜av男人的天堂激情| 国产中年淑女户外野战色| 麻豆久久精品国产亚洲av| 免费观看的影片在线观看| 国产视频一区二区在线看| 天天躁日日操中文字幕| 国产伦在线观看视频一区| 久久久久久久午夜电影| 99精品在免费线老司机午夜| 十八禁网站免费在线| 九色国产91popny在线| 色吧在线观看| 国产 一区 欧美 日韩| 亚洲av.av天堂| 国产精品永久免费网站| www日本黄色视频网| 女人被狂操c到高潮| 最好的美女福利视频网| 老司机午夜十八禁免费视频| 亚洲专区中文字幕在线| 欧美xxxx性猛交bbbb| 久久热精品热| 三级毛片av免费| 免费在线观看影片大全网站| 青草久久国产| 99视频精品全部免费 在线| 18美女黄网站色大片免费观看| 欧美精品啪啪一区二区三区| 亚洲aⅴ乱码一区二区在线播放| 日韩国内少妇激情av| 夜夜爽天天搞| 欧美日本视频| 国产一区二区激情短视频| 亚洲三级黄色毛片| 国产高清视频在线观看网站| 日韩大尺度精品在线看网址| 久久精品影院6| av专区在线播放| 国产一区二区亚洲精品在线观看| 国产欧美日韩精品一区二区| 床上黄色一级片| 真人做人爱边吃奶动态| 九九热线精品视视频播放| 天堂网av新在线| 国产国拍精品亚洲av在线观看| 免费观看精品视频网站| 长腿黑丝高跟| 午夜视频国产福利| 乱人视频在线观看| 一本综合久久免费| 亚洲欧美日韩卡通动漫| 欧美最新免费一区二区三区 | 免费黄网站久久成人精品 | 精品日产1卡2卡| 亚洲美女视频黄频| av黄色大香蕉| 天堂√8在线中文| 午夜视频国产福利| 国内毛片毛片毛片毛片毛片| 国产精品乱码一区二三区的特点| 搡老妇女老女人老熟妇| 日韩国内少妇激情av| 51午夜福利影视在线观看| 国产毛片a区久久久久| 亚洲五月天丁香| 国产一级毛片七仙女欲春2| 欧美色视频一区免费| 日韩免费av在线播放| 亚洲欧美激情综合另类| 成人三级黄色视频| 精品久久久久久成人av| 91麻豆精品激情在线观看国产| 国产 一区 欧美 日韩| 欧美精品国产亚洲| 欧美高清成人免费视频www| 琪琪午夜伦伦电影理论片6080| 18+在线观看网站| 免费大片18禁| 看十八女毛片水多多多| 在线观看午夜福利视频|