溫 暖,劉正華,祝令譜,孫 揚(yáng)
(北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191)
深度強(qiáng)化學(xué)習(xí)在變體飛行器自主外形優(yōu)化中的應(yīng)用
溫 暖,劉正華,祝令譜,孫 揚(yáng)
(北京航空航天大學(xué)自動(dòng)化科學(xué)與電氣工程學(xué)院,北京 100191)
基于深度強(qiáng)化學(xué)習(xí)策略,研究了一類變體飛行器外形自主優(yōu)化問題。以一種抽象化的變體飛行器為對(duì)象,給出其外形變化公式與最優(yōu)外形函數(shù)等。結(jié)合深度學(xué)習(xí)與確定性策略梯度強(qiáng)化學(xué)習(xí),設(shè)計(jì)深度確定性策略梯度(DDPG)學(xué)習(xí)步驟,使飛行器經(jīng)過訓(xùn)練學(xué)習(xí)后具有較高的自主性和環(huán)境適應(yīng)性,提高其在戰(zhàn)場上的生存、應(yīng)變和攻擊能力。仿真結(jié)果表明,訓(xùn)練過程收斂較快,訓(xùn)練好的深度網(wǎng)絡(luò)參數(shù)可以使飛行器在整個(gè)飛行任務(wù)過程中達(dá)到最優(yōu)氣動(dòng)外形。
變體飛行器;深度強(qiáng)化學(xué)習(xí);氣動(dòng)外形優(yōu)化
基于配備的智能驅(qū)動(dòng)機(jī)構(gòu),變體飛行器可以大尺度的改變自身構(gòu)型。此種性能使其可以替代多種不同型號(hào)的飛行器,在多任務(wù)飛行中實(shí)現(xiàn)全局大包線最優(yōu)氣動(dòng)外形。正是由于變體飛行器在上述性能上所擁有的巨大發(fā)展?jié)摿?,使其成為新一代智能飛行器的有效解決方案,這使得變體飛行器的研究達(dá)到了一個(gè)全新的戰(zhàn)略高度,得到了國內(nèi)外相關(guān)機(jī)構(gòu)的廣泛重視[1-2]。目前,針對(duì)變體飛行器的研究主要集中于結(jié)構(gòu)蒙皮設(shè)計(jì)[3]與姿態(tài)控制[4]等方面。對(duì)于如何讓飛行器根據(jù)任務(wù)與環(huán)境智能決策變體這方面內(nèi)容,研究相對(duì)較少。
在變體飛行器設(shè)計(jì)過程中,自然界中的鳥類給予了人類很多啟示。如圖1(a)所示,鷹在穿越風(fēng)場時(shí)會(huì)收縮翅膀,并使其前掠來提高速度。在圖1(b)中,鷹又在翱翔時(shí)盡量展開翅膀,以達(dá)到自身消耗最小的飛翔外形。未來變體飛行器的發(fā)展趨勢就是智能化與仿生化相結(jié)合,飛行器采用智能材料來實(shí)現(xiàn)機(jī)械柔性結(jié)構(gòu),從而根據(jù)飛行條件、任務(wù)與環(huán)境的變化,像鳥一樣智能改變自身構(gòu)型以獲得最優(yōu)的飛行性能,如圖1(c)和(d)所示。
如何使飛行器在沒有人的干預(yù)下具有自主決策能力一直是一個(gè)難題。對(duì)于變體飛行器來說,即使在已經(jīng)獲得當(dāng)前最優(yōu)氣動(dòng)外形的情況下,如何根據(jù)自身經(jīng)驗(yàn)和知識(shí)來操縱驅(qū)動(dòng)裝置使氣動(dòng)外形達(dá)到最優(yōu)仍然是非常困難的。強(qiáng)化學(xué)習(xí)策略能夠有效適應(yīng)環(huán)境的啟發(fā),以試錯(cuò)的機(jī)制與環(huán)境進(jìn)行交互,通過使累積獎(jiǎng)賞最大化的方式來學(xué)習(xí)到最優(yōu)策略[5]。因此,強(qiáng)化學(xué)習(xí)是一種使變體飛行器具有自主決策能力的有效手段。
對(duì)于強(qiáng)化學(xué)習(xí)的研究,學(xué)術(shù)界一直沒有中斷過,目前常用的強(qiáng)化學(xué)習(xí)方法包括蒙特卡羅法、Q學(xué)習(xí)、SARSA學(xué)習(xí)、TD學(xué)習(xí)、策略梯度和自適應(yīng)動(dòng)態(tài)規(guī)劃等。強(qiáng)化學(xué)習(xí)在策略選擇的理論和算法方面已經(jīng)取得了很大的進(jìn)步,但其中大部分成功的強(qiáng)化學(xué)習(xí)應(yīng)用方案均非常依賴于人工特征的選取,且學(xué)習(xí)結(jié)果的好壞更是嚴(yán)重地取決于特征選取的質(zhì)量[6]。近期深度學(xué)習(xí)的發(fā)展使得對(duì)高度結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行特征提取成為可能?;谏窠?jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)具有較強(qiáng)的感知能力,對(duì)于圖像分類和語音識(shí)別應(yīng)用效果較好,但是面對(duì)實(shí)際中的決策判斷問題卻無能為力;而強(qiáng)化學(xué)習(xí)具有決策選擇能力,但對(duì)感知問題束手無策。因此,可將兩者有機(jī)結(jié)合起來搭建深度強(qiáng)化學(xué)習(xí)框架,從而實(shí)現(xiàn)優(yōu)勢互補(bǔ),為復(fù)雜系統(tǒng)的感知決策問題提供新的解決思路。最近,DeepMind團(tuán)隊(duì)在Nature上的兩篇文獻(xiàn),即深度Q學(xué)習(xí)網(wǎng)絡(luò)(Deep Q-network, DQN)在Atari游戲中的應(yīng)用[7]和AlphaGo在圍棋中的對(duì)弈[8],標(biāo)志著“深度強(qiáng)化學(xué)習(xí)”作為一種全新的機(jī)器學(xué)習(xí)算法,已經(jīng)能夠使人工智能在視頻游戲及棋類博弈中與人類專家相抗衡。但是上述的深度強(qiáng)化學(xué)習(xí)算法主要還是局限于傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架下,對(duì)于離散狀態(tài)與離散動(dòng)作具有較好的通用性,卻無法處理實(shí)際環(huán)境中的連續(xù)狀態(tài)與連續(xù)動(dòng)作。文獻(xiàn)[9]結(jié)合確定性策略方法與DQN,提出了針對(duì)于連續(xù)控制問題的DDPG方法。近來,最新的算法A3C(Asynchronous advantage actor critic)和UNREAL(Unsupervised reinforcement and auxiliary learning)更是展現(xiàn)了深度強(qiáng)化學(xué)習(xí)更廣泛的前景。
本文以一類外形簡化的變體飛行器為研究對(duì)象,將原先只應(yīng)用于簡單控制問題的DDPG學(xué)習(xí)方法應(yīng)用到變體飛行器的外形優(yōu)化問題中。首先給出一種簡化的變體飛行器外形模型,定義飛行器外形的動(dòng)態(tài)方程、最優(yōu)氣動(dòng)外形和代價(jià)函數(shù)。在此基礎(chǔ)上,針對(duì)此連續(xù)狀態(tài)的控制問題闡述了DDPG算法的基本構(gòu)成框架和設(shè)計(jì)流程。在Python+TensorFlow平臺(tái)下,搭建深度學(xué)習(xí)訓(xùn)練框架結(jié)構(gòu),最終利用訓(xùn)練好的深度網(wǎng)絡(luò)參數(shù)驗(yàn)證飛行過程中的實(shí)際學(xué)習(xí)效果。
本文以一種簡化的橢球形變體飛行器為研究對(duì)象[10-11],其由先進(jìn)的形狀記憶合金(Shape memory alloy,SMA)構(gòu)成,如圖2所示。此飛行器通過給定電壓調(diào)節(jié)SMA的形態(tài)從而控制自身外形沿橢球軸線方向發(fā)生變化。飛行器外形優(yōu)化的過程就是根據(jù)外部的飛行環(huán)境和任務(wù)來調(diào)整其在y軸和z軸方向上的軸長。同時(shí),為了保證整機(jī)體積不變,x軸方向上的軸長也會(huì)同時(shí)發(fā)生變化。
y軸和z軸方向上的形變動(dòng)態(tài)與給定電壓之間的關(guān)系可由非線性差分方程(1)給出
(1)
式中:y和z分別表示橢球形變體飛行器在y軸和z軸方向上的橢球軸長。Vy和Vz分別表示調(diào)節(jié)SMA在y軸和z軸方向上形變的驅(qū)動(dòng)電壓。式(1)中系數(shù)的選取參考了文獻(xiàn)[10]。且y,z,Vy和Vz取值范圍設(shè)定為:y,z∈[2,4],Vy,Vz∈[0,5]。
對(duì)應(yīng)于飛行狀態(tài)F,y軸和z軸方向上的最優(yōu)氣動(dòng)外形由式(2)給出
(2)
式中:Sy與Sz表示飛行器具有最優(yōu)升阻比的氣動(dòng)外形。F從離散狀態(tài){0,1,2,3,4,5}中選取,具體取值由當(dāng)前所處飛行軌跡上的高度與速度所決定。
結(jié)合式(1)與式(2),代價(jià)函數(shù)C可以表示為
(3)
考慮到上述動(dòng)作空間的連續(xù)性問題,本文采用的是強(qiáng)化學(xué)習(xí)中的確定性策略梯度算法以實(shí)現(xiàn)連續(xù)控制問題。針對(duì)單純的確定性策略無法探索環(huán)境這個(gè)缺陷,可以利用Actor-Critic(AC)學(xué)習(xí)框架實(shí)現(xiàn)異策略學(xué)習(xí)方式,即行動(dòng)策略與評(píng)估策略不是同一個(gè)策略方法。行動(dòng)策略為隨機(jī)策略,以保證充足的探索。而評(píng)估策略為確定性策略,其可以通過梯度計(jì)算來實(shí)現(xiàn)累計(jì)獎(jiǎng)賞J的最大化。在AC算法中,可以把策略函數(shù)μ(s|θμ)和行為值函數(shù)Qπ(s,a|θQ)分別用單獨(dú)的函數(shù)來近似。策略函數(shù)μ(s|θμ)作為Actor來進(jìn)行動(dòng)作選擇,而行為值函數(shù)Qπ(s,a|θQ)作為Critic來對(duì)策略函數(shù)進(jìn)行評(píng)估。而二者均可根據(jù)Critic的輸出來進(jìn)行更新。
確定性策略的動(dòng)作公式為
a=μ(s|θμ)
(4)
與隨機(jī)策略不同,當(dāng)式(4)中的θμ(策略函數(shù)中的權(quán)重因子)確定下來后,在狀態(tài)為s時(shí),動(dòng)作是唯一確定的。另外,在行為值函數(shù)Qπ(s,a|θQ)評(píng)估過程中用的是經(jīng)典的Q-learning的方法,其中θQ為行為值函數(shù)中待逼近的權(quán)值參數(shù)。AC算法將對(duì)動(dòng)作的Q值估計(jì)和策略估計(jì)分離,使其能夠在探索更多環(huán)境狀態(tài)的同時(shí)保持某個(gè)確定性策略的學(xué)習(xí),從而令整個(gè)網(wǎng)絡(luò)學(xué)習(xí)變得更容易收斂。
在確定性策略中,作為目標(biāo)函數(shù)的累計(jì)獎(jiǎng)賞J相對(duì)于策略參數(shù)θμ的梯度為[9]
(5)
式中:E代表期望值。策略梯度的思想就是沿著使目標(biāo)函數(shù)J變大的方向調(diào)整策略參數(shù)θμ。
在式(5)基礎(chǔ)上,可以得到確定性策略AC算法的更新過程
(6)
(7)
式(6)是利用Q學(xué)習(xí)值函數(shù)逼近的方法更新行為值函數(shù)的參數(shù)θQ,式(7)是利用確定性策略梯度的方法更新策略的參數(shù)θμ。
上面所述的方法為確定性策略梯度(Deterministic policy gradient, DPG)。在DPG基礎(chǔ)上可以利用深度神經(jīng)網(wǎng)絡(luò)逼近行為值函數(shù)Qπ(s,a|θQ)和確定性策略μ(s|θμ),就成為深度確定性策略梯度(Deep deterministic policy gradient,DDPG)學(xué)習(xí)算法。
注1. 當(dāng)利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行函數(shù)逼近的時(shí)候,強(qiáng)化學(xué)習(xí)算法常常不穩(wěn)定。這是因?yàn)?,?duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時(shí)往往假設(shè)輸入的數(shù)據(jù)是獨(dú)立同分布的[7],但強(qiáng)化學(xué)習(xí)的數(shù)據(jù)是順序采集的,數(shù)據(jù)之間存在馬爾科夫依賴性,并非獨(dú)立同分布。為了打破數(shù)據(jù)之間的關(guān)聯(lián)性,可以采用“經(jīng)驗(yàn)回放”方法,將每次進(jìn)行動(dòng)作以后得到的“狀態(tài)-動(dòng)作-反饋-新狀態(tài)”保存到緩存中去,訓(xùn)練采用的樣本則從這個(gè)緩存中隨機(jī)抽取。利用此種訓(xùn)練技巧,理論上可以打破學(xué)習(xí)過程中的數(shù)據(jù)依賴性的。
在訓(xùn)練過程中,由于環(huán)境是相對(duì)混沌的,用于更新網(wǎng)絡(luò)的反饋具有很大的噪聲,直接訓(xùn)練深度網(wǎng)絡(luò)會(huì)非常容易發(fā)散。因此,在DDPG訓(xùn)練學(xué)習(xí)過程中,本文采用目標(biāo)網(wǎng)絡(luò)方法,創(chuàng)建Actor和Critic網(wǎng)絡(luò)的副本μ-(s|θμ-),Q-(s,a|θQ-)來計(jì)算目標(biāo)值,然后以τ的比例緩慢跟隨原網(wǎng)絡(luò)更新。如此所得的目標(biāo)值就會(huì)變得相對(duì)穩(wěn)定,非常有利于學(xué)習(xí)的效果。故更新過程可以變?yōu)?/p>
(8)
(9)
(10)
綜上,DDPG的算法步驟如下:
1)隨機(jī)初始化Critic深度神經(jīng)網(wǎng)絡(luò)Q(s,a|θQ)的權(quán)重θQ和Actor的深度神經(jīng)網(wǎng)絡(luò)μ(s|θμ)的權(quán)重θμ。
2)初始目標(biāo)網(wǎng)絡(luò)Q-與μ-的權(quán)重θQ-與θμ-。
3)初始化經(jīng)驗(yàn)回放的緩存區(qū)R。
4)重復(fù)每一幕。
5)初始化隨機(jī)過程N(yùn)以用于行動(dòng)策略的探索。
6)初始觀測得到狀態(tài)s1。
7)重復(fù)步驟8)~16)。
8)根據(jù)當(dāng)前的策略和隨機(jī)探索選擇動(dòng)作:
at=μ(st|θμ)+Nt
9)執(zhí)行動(dòng)作at從而得到獎(jiǎng)勵(lì)rt和新的狀態(tài)st+1。
10)將(st,at,rt,st+1)存儲(chǔ)在緩存區(qū)R中。
11)在R中隨機(jī)選取一組數(shù)量為M的(si,ai,ri,si+1)。
12)設(shè)定
yi=ri+γQ-(si+1,μθ-(si+1|θμ-)|θQ-)
14)利用所選取樣本的策略梯度更新Actor的網(wǎng)絡(luò)參數(shù)
15)更新目標(biāo)網(wǎng)絡(luò)
16)直到最大步數(shù)和最大幕數(shù)。
為了驗(yàn)證深度強(qiáng)化學(xué)習(xí)在變體飛行器外形優(yōu)化過程中的有效性,本節(jié)將上文所提到的DDPG學(xué)習(xí)算法編程實(shí)現(xiàn),并應(yīng)用于變體模型(1)、(2)與(3)的飛行器外形優(yōu)化策略中?;贏C強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)的DDPG算法的架構(gòu)如圖3所示,Critic深度神經(jīng)網(wǎng)絡(luò)Q(s,a|θQ)和Actor的深度神經(jīng)網(wǎng)絡(luò)μ(s|θμ)均有兩個(gè)隱藏層,每個(gè)隱藏層里有400個(gè)神經(jīng)元,Critic網(wǎng)絡(luò)采用Relu激活函數(shù),Actor網(wǎng)絡(luò)則采用tanh激活函數(shù)。在Critic網(wǎng)絡(luò)中,本文將動(dòng)作Action輸入到隱藏層-2中。
訓(xùn)練過程設(shè)計(jì)如下,對(duì)于獨(dú)立的y軸和z軸分別進(jìn)行學(xué)習(xí)優(yōu)化,步驟1)中的最大幕數(shù)設(shè)置為200,前100個(gè)幕中加入隨機(jī)動(dòng)作以進(jìn)行探索,在后100個(gè)幕中將探索去掉,從而進(jìn)行在線策略利用。每個(gè)幕中的最大步數(shù)Step設(shè)置為500。軟件開發(fā)平臺(tái)為:Python2.7+TensorFlow1.0+Cuda8.1+Cudnn5.1,硬件平臺(tái)采用型號(hào)為Nvidia-GTX960的GPU。
每個(gè)幕的累積獎(jiǎng)賞如圖4所示??梢钥闯?在整個(gè)訓(xùn)練學(xué)習(xí)過程中,學(xué)習(xí)效果收斂較快,且不加探索的后100個(gè)幕的累積獎(jiǎng)賞波動(dòng)不大,表明整個(gè)深度學(xué)習(xí)網(wǎng)絡(luò)較為穩(wěn)定。
訓(xùn)練完成后的優(yōu)化策略驗(yàn)證過程設(shè)計(jì)如下:變體飛行器的飛行狀態(tài)F由飛行軌跡決定,其關(guān)系如圖5所示,將訓(xùn)練后的Actor網(wǎng)絡(luò)保存下來,并在如圖5所示的飛行路徑中進(jìn)行試驗(yàn)??傻玫斤w行過程中的變體飛行器外形y與z的優(yōu)化狀態(tài),并將本文的DDPG算法與文獻(xiàn)[12]中的Multi-Q學(xué)習(xí)方法進(jìn)行對(duì)比。由圖6~7可以看出,DDPG算法的優(yōu)化效果明顯好于Multi-Q學(xué)習(xí)。這主要是因?yàn)閭鹘y(tǒng)的Q學(xué)習(xí)依賴于離散的狀態(tài)空間和離散的動(dòng)作空間,對(duì)于此變體飛行器外形優(yōu)化這種連續(xù)過程只能采用離散化手段,這會(huì)導(dǎo)致最終學(xué)習(xí)完成后的輸出動(dòng)作為離散值,造成優(yōu)化精度不高。而DDPG算法采用深度神經(jīng)網(wǎng)絡(luò)逼近狀態(tài)-動(dòng)作策略,可以計(jì)算出連續(xù)動(dòng)作值,使得學(xué)習(xí)效果較好。
本文針對(duì)變體飛行器的外形優(yōu)化問題,應(yīng)用近幾年較為熱門的深度強(qiáng)化學(xué)習(xí)算法使飛行器通過訓(xùn)練學(xué)習(xí)具有了自主優(yōu)化外形的能力,將人工智能方法拓展到飛行器策略優(yōu)化領(lǐng)域。為了解決傳統(tǒng)的強(qiáng)化學(xué)習(xí)框架不適用于連續(xù)控制這個(gè)問題,結(jié)合確定性策略梯度算法與Actor-Critic框架進(jìn)行強(qiáng)化學(xué)習(xí)過程,并將深度神經(jīng)網(wǎng)絡(luò)替代原來傳統(tǒng)的Actor函數(shù)與Critic函數(shù)結(jié)構(gòu),以實(shí)現(xiàn)更好的學(xué)習(xí)效果。仿真結(jié)果表明,整個(gè)學(xué)習(xí)過程收斂較快,并且利用訓(xùn)練好的深度網(wǎng)絡(luò)參數(shù),可以使后期飛行過程中的外形優(yōu)化效果大幅度提高。
[1] 何墉,章衛(wèi)國,王敏文,等. 基于多目標(biāo)控制的變體飛行器切換線性變參數(shù)控制器[J]. 控制理論與應(yīng)用. 2015, 32(11): 1518-1525. [He Yong, Zhang Wei-guo, Wang Min-wen, et al. Switching linear-parameter-varying controller for morphing aircraft based on multi-objective[J]. Control Theory amp; Applications. 2015, 32(11): 1518-1525.]
[2] 江未來, 董朝陽, 王通,等. 變體飛行器平滑切換LPV魯棒控制[J]. 控制與決策, 2016, 31(1):66-72. [Jiang Wei-lai, Dong Chao-yang, Wang Tong, et al. Smooth switching LPV robust control for morphing aircraft[J]. Control and Decision, 2016, 31(1):66-72.]
[3] 杜善義,張博明. 飛行器結(jié)構(gòu)智能化研究及其發(fā)展趨勢[J]. 宇航學(xué)報(bào), 2007, 28(4): 773-778. [Du Shan-yi, Zhang Bo-ming. Status and developments of intelligentized aircraft structures[J]. Journal of Astronautics, 2007, 28(4): 773-778.]
[4] 董朝陽,江未來,王青. 變翼展飛行器平滑切換LPV魯棒H∞控制[J]. 宇航學(xué)報(bào). 2015(11): 1270-1278. [Dong Chao-yang, Jiang Wei-lai, Wang Qing. Smooth switching LPV robust H-infinity control for variable-span vehicle[J]. Journal of Astronautics, 2015(11): 1270-1278.]
[5] Sutton R S,Precup D, Singh S. Between MDPs and semi-MDPs: a framework for temporal abstraction in reinforcement learning[J]. Artificial Intelligence, 1999, 112(1-2): 181-211.
[6] 趙冬斌, 邵坤, 朱圓恒, 等. 深度強(qiáng)化學(xué)習(xí)綜述:兼論計(jì)算機(jī)圍棋的發(fā)展[J]. 控制理論與應(yīng)用, 2016, 33(6):701-717. [Zhao Dong-bin, Shao Kun, Zhu Yuan-heng, et al. Review of deep reinforcement learning and discussions on the development of computer go[J]. Control Theory and Applications, 2016, 33(6):701-717.]
[7] Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540):529.
[8] Silver D, Huang A, Maddison C J, et al. Mastering the game ofgo with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484.
[9] Lillicrap T P, Hunt J J, Pritzel A, et al. Continuous control with deep reinforcement learning[J]. Computer Science, 2015, 8(6): 187-200.
[10] Valasek J, Tandale M D, Rong J. A reinforcement learning-adaptive control architecture for morphing[J]. Journal of Aerospace Computing Information amp; Communication, 2005, 2(4): 174-195.
[11] Valasek J, Doebbler J, Tandale M D, et al. Improved adaptive-reinforcement learning control for morphing unmanned air vehicles[J]. IEEE Transactions on Systems Man amp; Cybernetics Part B, 2013, 38(4): 1014-1020.
[12] Duryea E, Ganger M, Hu W. Exploringdeep reinforcement learning with multi-Q-learning[J]. Intelligent Control and Automation, 2016, 7(4): 129-144.
DeepReinforcementLearningandItsApplicationonAutonomousShapeOptimizationforMorphingAircrafts
WEN Nuan, LIU Zheng-hua, ZHU Ling-pu, SUN Yang
(School of Automation Science and Electrical Engineering, Beihang University, Beijing 100191, China)
This paper considers a class of simplified morphing aircraft and autonomous shape optimization for aircraft based on deep reinforcement learning is researched. Firstly, based on the model of an abstract morphing aircraft, the dynamic equation of shape and the optimal shape functions are derived. Then, by combining deep learning and reinforcement learning of deterministic policy gradient, we give the learning procedure of deep deterministic policy gradient(DDPG).After learning and training for the deep network, the aircraft is equipped with higher autonomy and environmental adaptability, which will improve its adaptability, aggressivity and survivability in the battlefield. Simulation results demonstrate that the convergence speed of learning is relatively fast, and the optimized aerodynamic shape can be obtained autonomously during the whole flight by using the trained deep network parameters.
Morphing aircrafts;Deep reinforcement learning;Aerodynamic shape optimization
V249.1
A
1000-1328(2017)11- 1153- 07
10.3873/j.issn.1000- 1328.2017.11.003
2017- 06- 20;
2017- 09- 13
國家自然科學(xué)基金(61305132,61563041);航空科學(xué)基金(20135751040)
溫暖(1988-),男,博士生,主要從事智能變體飛行器的控制研究。
通信地址:北京航空航天大學(xué)新主樓(100083)
電話:(010)82338658
E-mail: max_buaa3@163.com
劉正華(1974-),男,博士,副教授,主要從事飛行器控制,系統(tǒng)仿真,高精度運(yùn)動(dòng)控制等方向的研究。本文通信作者。
通信地址:北京航空航天大學(xué)新主樓(100083)
電話:(010)82338658
E-mail: lzh@buaa.edu.cn