齊義文,張 弛,陳禹西
(沈陽航空航天大學(xué) 自動化學(xué)院,沈陽 110136)
變循環(huán)航空發(fā)動機與渦輪或渦扇發(fā)動機相比,增加了眾多可變幾何部件,可改變發(fā)動機的循環(huán)參數(shù)[1],以滿足亞音速、跨音速、超音速等不同條件下的飛行要求,顯著提高發(fā)動機推進(jìn)系統(tǒng)的整體性能。但可控部件的增多、各部件之間存在的耦合等因素卻給控制系統(tǒng)設(shè)計增加了負(fù)擔(dān),而PID控制、自抗擾控制、模糊控制等傳統(tǒng)控制方法又存在響應(yīng)速度較慢、魯棒性較弱等局限,對于變循環(huán)航空發(fā)動機這一類多變量、多模態(tài)、強耦合系統(tǒng),難以在全包線和變工況下達(dá)到理想的控制效能[2]。因此,探索其他性能更優(yōu)異、設(shè)計更簡便、響應(yīng)速度更快的控制方法十分必要。而強化學(xué)習(xí)方法作為人工智能技術(shù)重要的前沿方法之一,具有不依賴模型、自學(xué)習(xí)、自更新等優(yōu)點[3],可通過“試錯”方式不斷形成經(jīng)驗完善的控制策略,是解決復(fù)雜系統(tǒng)控制設(shè)計難題的一種有效手段。
有關(guān)強化學(xué)習(xí)方法在其他領(lǐng)域的應(yīng)用,國內(nèi)外已有頗多成果。Xie等[4]提出了一種基于強化學(xué)習(xí)的模糊自適應(yīng)滑??刂破?,改善了三剛體連桿機械手的抖振效果,并保持了魯棒性。Samadi等[5]提出了一種基于多智能體的分布式微電網(wǎng)能量管理方法,采用強化學(xué)習(xí)優(yōu)化了運行成本。You等[6]提出了一種基于深度確定性策略梯度的無人機連續(xù)戰(zhàn)略機動規(guī)劃方法,改善了三維動態(tài)高空環(huán)境下目標(biāo)跟蹤的魯棒性。Zhao[7]利用一種新的強化學(xué)習(xí)方法,研究了多參與者連續(xù)時間非線性系統(tǒng)非零和博弈的最優(yōu)跟蹤控制問題。Lan等[8]應(yīng)用強化學(xué)習(xí)理論實現(xiàn)了集群系統(tǒng)在未知動態(tài)環(huán)境下的協(xié)同學(xué)習(xí)與作業(yè)。Huang等[9]利用深度強化學(xué)習(xí)的高維特征提取和非線性泛化能力,開發(fā)了電力系統(tǒng)新型自適應(yīng)應(yīng)急控制方案。Chu等[10]提出了兩種方法用于穩(wěn)定強化學(xué)習(xí)的學(xué)習(xí)過程,利用大型合成交通網(wǎng)格模擬摩納哥市的大型交通網(wǎng)絡(luò)動態(tài),試驗證明所提出算法具有最優(yōu)性和魯棒性。相曉嘉等[11]以固定翼無人機為對象,考慮復(fù)雜動態(tài)環(huán)境的隨機性和不確定性,提出了基于無模型深度強化學(xué)習(xí)的無人機編隊協(xié)調(diào)控制方法。張耀中等[12]針對無人機集群協(xié)同執(zhí)行對敵方來襲目標(biāo)的追擊任務(wù),設(shè)計了一種引導(dǎo)型回報函數(shù),有效解決了深度強化學(xué)習(xí)在長周期任務(wù)下的稀疏回報問題。
在變循環(huán)航空發(fā)動機控制方面,何鳳林等[13]針對XTE76變循環(huán)航空發(fā)動機的控制結(jié)構(gòu)問題,研究了對二分塊之間進(jìn)行解耦的控制方法。肖紅亮等[14]針對變循環(huán)航空發(fā)動機存在的不確定性及外部干擾下多變量輸出跟蹤控制問題,給出了一種基于線性二次型調(diào)節(jié)器(Linear Quadratic Regulator,LQR)方法的增廣模型參考自適應(yīng)滑模控制方法。Chen等[15]提出了一種基于紅外預(yù)測模型的變循環(huán)航空發(fā)動機最小紅外特性性能尋求控制方法,并對雙旁路可變循環(huán)航空發(fā)動機分別進(jìn)行了最大推力、最小耗油率和最小紅外特性優(yōu)化控制仿真。陳玉春等[16]針對變循環(huán)航空發(fā)動機多變量穩(wěn)態(tài)控制規(guī)律優(yōu)化設(shè)計,提出了一種新方法—逆算法。
盡管變循環(huán)航空發(fā)動機控制取得了一些進(jìn)展,但強化學(xué)習(xí)方法在本領(lǐng)域的應(yīng)用尚不多見,仍多采用依賴于專家經(jīng)驗的PID變參控制方法。而強化學(xué)習(xí)方法具有不依賴模型的優(yōu)點,用于變循環(huán)航空發(fā)動機這一類強非線性復(fù)雜系統(tǒng)的控制,可有效降低控制設(shè)計難度,其自學(xué)習(xí)性、自更新性可實現(xiàn)變循環(huán)航空發(fā)動機多變工況下的高性能控制。據(jù)此,本文針對變循環(huán)航空發(fā)動機,給出兩種基于強化學(xué)習(xí)方法的變循環(huán)航空發(fā)動機推力控制設(shè)計方法,并通過仿真驗證了方法的快速性、準(zhǔn)確性、穩(wěn)定性與魯棒性。
本文采用的是姜渭宇等[17]在“變循環(huán)渦扇發(fā)動機智能控制仿真平臺研究”一文中建立的雙外涵變循環(huán)航空發(fā)動機模型,其結(jié)構(gòu)如圖1所示。
圖1 變循環(huán)航空發(fā)動機結(jié)構(gòu)圖
與傳統(tǒng)發(fā)動機相比,該發(fā)動機增加了多個可調(diào)部件,其可控參數(shù)包括:主燃油流量、高壓壓氣機導(dǎo)流葉片角度、加力燃油流量、風(fēng)扇導(dǎo)流葉片角度、噴口臨界面積、噴口膨脹面積、核心機風(fēng)扇導(dǎo)流葉片角度、低壓渦輪導(dǎo)向器控制角度、核心機風(fēng)扇的混合器面積、第一外涵面積。此外,模型輸入還包括來流氣體參數(shù),即進(jìn)氣靜壓、進(jìn)氣靜溫、進(jìn)氣總壓與進(jìn)氣總溫等。
變循環(huán)航空發(fā)動機傳感器測點參數(shù)包括:風(fēng)扇物理轉(zhuǎn)速、高壓物理轉(zhuǎn)速、進(jìn)氣靜壓、進(jìn)氣靜溫、進(jìn)氣總溫、進(jìn)氣總壓、風(fēng)扇后內(nèi)涵溫度、風(fēng)扇后內(nèi)涵壓力、核心機風(fēng)扇后內(nèi)涵溫度、核心機風(fēng)扇后內(nèi)涵壓力、高壓壓氣機后溫度、高壓壓氣機后壓力、渦輪后溫度、渦輪后壓力等。此外,根據(jù)模型輸入?yún)?shù)及傳感器參數(shù)可間接計算推力、壓比、流量、涵道比等不可測的變循環(huán)航空發(fā)動機性能參數(shù)。出于安全保護(hù),變循環(huán)航空發(fā)動機在運行期間還需考慮高低壓轉(zhuǎn)速與渦輪前溫度等限制。
強化學(xué)習(xí)用于描述和解決智能體在與環(huán)境交互過程中通過學(xué)習(xí)策略以達(dá)成回報最大化或?qū)崿F(xiàn)特定目標(biāo)的問題[18],其簡潔原理如圖2所示。
圖2 強化學(xué)習(xí)示意圖
智能體不斷接收環(huán)境狀態(tài)信息,并基于狀態(tài)信息反饋相應(yīng)動作于環(huán)境,更新環(huán)境狀態(tài)。同時,智能體在做出動作后會獲得對應(yīng)獎勵,通過與環(huán)境的往復(fù)交互,利用獎勵不斷更新策略,達(dá)到既定學(xué)習(xí)目標(biāo)。與傳統(tǒng)控制方法相比,強化學(xué)習(xí)方法支持多維度輸入輸出,可不依賴控制模型,并對非線性復(fù)雜系統(tǒng)有著出色的逼近能力,且對對象運行特性的未知變化和不確定性有良好的預(yù)測、自學(xué)習(xí)能力和魯棒性。
深度Q網(wǎng)絡(luò)(Deep Q Network,DQN)是一種基于值的強化學(xué)習(xí)算法[19],算法流程如圖3所示。通過交互,不斷更新Q網(wǎng)絡(luò)參數(shù)來擬合動作價值函數(shù),該函數(shù)進(jìn)一步指導(dǎo)動作輸出。同時,引入經(jīng)驗集合,緩存交互參數(shù),并隨機采樣緩存經(jīng)驗實現(xiàn)網(wǎng)絡(luò)參數(shù)的批量更新,既節(jié)約了計算資源,也有效減弱了時間序列對網(wǎng)絡(luò)更新的影響。
基于DQN算法的變循環(huán)航空發(fā)動機推力控制設(shè)計主要分為如下4步。
(1)狀態(tài)與動作參數(shù)選取
為降低Q網(wǎng)絡(luò)對動作價值函數(shù)的擬合難度,狀態(tài)參數(shù)需直觀反映變循環(huán)航空發(fā)動機工作狀態(tài)。此外,動作參數(shù)與狀態(tài)參數(shù)之間需具有明確對應(yīng)關(guān)系,否則會增加網(wǎng)絡(luò)訓(xùn)練難度,甚至無法收斂。本設(shè)計將表征發(fā)動機運行情況的變循環(huán)航空發(fā)動機高低壓轉(zhuǎn)子轉(zhuǎn)速作為狀態(tài)參數(shù)。在設(shè)計初期,選取目標(biāo)推力、推力誤差、高低壓轉(zhuǎn)子轉(zhuǎn)速3項作為控制器輸入狀態(tài)參數(shù);選取主燃油流量作為控制器輸出參數(shù),其余執(zhí)行機構(gòu)輸出由相關(guān)控制規(guī)律給定。在網(wǎng)絡(luò)訓(xùn)練中,通過給定不同目標(biāo)推力指令來實現(xiàn)可變推力控制要求。然而在實際訓(xùn)練中,由于控制精度要求,需對主燃油流量動作進(jìn)行更精細(xì)的劃分,并且不同目標(biāo)推力給定的訓(xùn)練十分耗時。在這樣的背景下,初期設(shè)計的網(wǎng)絡(luò)對于訓(xùn)練之外的目標(biāo)推力難以實現(xiàn)較好的預(yù)測效果。
圖3 DQN算法原理圖
進(jìn)一步對狀態(tài)和動作參數(shù)再設(shè)計,將控制器輸入狀態(tài)參數(shù)調(diào)整為推力誤差、高低壓轉(zhuǎn)子轉(zhuǎn)速和上一時刻主燃油流量;將控制器輸出參數(shù)調(diào)整為主燃油流量的增量,并加以限制,使變循環(huán)航空發(fā)動機運行在安全范圍內(nèi)。這樣,新設(shè)計方法既減小了動作集合A的大小,提高了訓(xùn)練速度,又能對變指令操作起到良好的控制效果。在上述設(shè)計基礎(chǔ)上進(jìn)一步擴展,考慮變循環(huán)航空發(fā)動機變工作點運行。在訓(xùn)練時,考慮不同工作點的來流參數(shù)。同時,引入推力階躍訓(xùn)練指令,使控制器在變推力指令時仍具備高精度控制性能。最終,本文選用改進(jìn)后的狀態(tài)、動作參數(shù)作為控制器的輸入輸出。
(2)獎勵函數(shù)設(shè)計
獎勵函數(shù)的設(shè)計是否合理直接影響到網(wǎng)絡(luò)能否收斂、收斂效果及控制精度。獎勵條件與控制目標(biāo)還需具有確切關(guān)系,以起到對網(wǎng)絡(luò)訓(xùn)練的有效指導(dǎo)作用。此處設(shè)計的獎勵函數(shù)由推力誤差決定,推力誤差絕對值越小,對應(yīng)獎勵值越大。設(shè)計初期采用的獎勵函數(shù)為
(1)
式(1)中:Fn_e為推力誤差絕對值;r為獎勵值。但基于該獎勵條件與上述選取的狀態(tài)、動作參數(shù)設(shè)計的推力控制器穩(wěn)態(tài)誤差較大,無法滿足控制要求。因此,對推力誤差絕對值與獎勵條件做了進(jìn)一步劃分,以達(dá)到高性能的控制目標(biāo),改進(jìn)后的獎勵函數(shù)為
(2)
最終,采用式(2)的獎勵函數(shù),有效減小了穩(wěn)態(tài)誤差,提高了控制精度。
(3)控制策略設(shè)計
由于網(wǎng)絡(luò)層數(shù)較多,為便于理解,本文均以3層網(wǎng)絡(luò)為例加以說明。Q網(wǎng)絡(luò)接收變循環(huán)航空發(fā)動機狀態(tài)參數(shù)s,輸出當(dāng)前狀態(tài)下全部主燃油流量增量動作對應(yīng)的Q值,即Q(s,A)。
(3)
式(3)中:ωQ1∈R(n+p)×m與ωQ2∈Rm×p均為權(quán)重矩陣;bQ∈Rm為偏置列向量;σ(·)為Relu激活函數(shù),s∈Rn為變循環(huán)航空發(fā)動機狀態(tài)列向量,A∈Rp為主燃油增量動作列向量,也稱動作集合。通過ε-greedy策略從動作集合A中選擇主燃油增量作為輸出動作,變循環(huán)航空發(fā)動機狀態(tài)參數(shù)更新為s′并得到獎勵值r。ε-greedy策略為
(4)
式(4)中:a∈R為A中包含的主燃油增量動作之一;maxQ(s,A)為從式(3)選取最大的Q(si,ai),i=1,2,…,p對應(yīng)的主燃油增量動作a;randmona為從A中隨機選取主燃油增量動作;rand為0~1的隨機數(shù);ε為0~1的隨機因子,通過改變ε的大小可調(diào)節(jié)Q網(wǎng)絡(luò)訓(xùn)練期間的隨機探索性。訓(xùn)練初期ε取0.3,使網(wǎng)絡(luò)具有較大探索能力。隨著訓(xùn)練時間的增加,ε逐漸減小。完成訓(xùn)練后,將ε置為0,使其完全按照已具備大量經(jīng)驗的Q網(wǎng)絡(luò)輸出主燃油增量動作。
(4)更新Q網(wǎng)絡(luò)
鑒于變循環(huán)航空發(fā)動機仿真模型每次運行都包括約150s的起動段,之后強化學(xué)習(xí)控制器才介入,而起動段的交互信息對強化學(xué)習(xí)控制器訓(xùn)練是無效的,因此設(shè)定經(jīng)驗集合在強化學(xué)習(xí)控制器介入后才開始緩存交互經(jīng)驗。從經(jīng)驗集合中隨機采樣訓(xùn)練樣本,每次采樣的經(jīng)驗格式為[s,a,s′,r,is_done],其中is_done判斷s′是否為終止?fàn)顟B(tài),具體包括判斷高低壓轉(zhuǎn)子轉(zhuǎn)速、推力誤差、渦輪溫度、喘振等變循環(huán)航空發(fā)動機重要指標(biāo)是否超限,若任一指標(biāo)超限,則s′為終止?fàn)顟B(tài),is_done為1,結(jié)束本輪仿真;否則is_done為0,繼續(xù)執(zhí)行仿真訓(xùn)練。s′輸入至Q網(wǎng)絡(luò),Q網(wǎng)絡(luò)輸出s′狀態(tài)下對應(yīng)全部主燃油增量動作的Q值Q(s′,A),將最大Q值記為Q(s′,a′),據(jù)此,計算目標(biāo)Q值即Q′
(5)
基于此,可計算Q網(wǎng)絡(luò)反向傳播誤差JQ為
(6)
式(6)中:q為采樣個數(shù)。Q網(wǎng)絡(luò)通過梯度下降法更新權(quán)重與偏置參數(shù)
(7)
(8)
式(7)~(8)中:αQ∈R為Q網(wǎng)絡(luò)更新步長。鑒于每輪仿真DQN控制器與變循環(huán)航空發(fā)動機模型的交互次數(shù)是可獲取的,而每次交互獲得的獎勵值也是可記錄的,當(dāng)網(wǎng)絡(luò)收斂至最優(yōu)動作價值函數(shù)時,控制器每次交互均可得到最大的獎勵值?;诖?,將網(wǎng)絡(luò)更新收斂條件設(shè)為單輪仿真累計獎勵值最大,即控制器每次交互獲得的獎勵值最大。
深度確定性策略梯度(Deep Deterministic Policy Gradient,DDPG)是一種融合了基于值與策略的強化學(xué)習(xí)算法[20],算法流程如圖4所示。與DQN算法相同的是采用經(jīng)驗集合緩存交互參數(shù)。與DQN不同在于,DDPG使用4個神經(jīng)網(wǎng)絡(luò),并行兩隊快速更新和緩慢更新的神經(jīng)網(wǎng)絡(luò),提高了網(wǎng)絡(luò)穩(wěn)定性。4個網(wǎng)絡(luò)作用分別為:Actor估計網(wǎng)絡(luò)與環(huán)境交互;和Critic估計網(wǎng)絡(luò)通過交互信息更新自身參數(shù)并指導(dǎo)Actor估計網(wǎng)絡(luò)更新;Actor目標(biāo)網(wǎng)絡(luò)與Critic目標(biāo)網(wǎng)絡(luò)預(yù)測下一時刻動作與動作價值函數(shù)。
圖4 DDPG算法原理圖
基于DDPG算法的變循環(huán)航空發(fā)動機推力控制狀態(tài)參數(shù)選取、獎勵函數(shù)設(shè)置、訓(xùn)練指令設(shè)計、網(wǎng)絡(luò)收斂條件設(shè)定、經(jīng)驗集合緩存機制與DQN算法一致,不同在于DDPG算法無需構(gòu)建離散的主燃油增量動作集合A,而是通過Actor估計網(wǎng)絡(luò)自學(xué)習(xí)、自更新以輸出主燃油增量動作。此外,還需對主燃油流量加以限制,實現(xiàn)對變循環(huán)航空發(fā)動機的安全保護(hù)。
基于DDPG算法的變循環(huán)航空發(fā)動機推力控制設(shè)計主要分為4步。
(1)Actor估計網(wǎng)絡(luò)設(shè)計
以變循環(huán)航空發(fā)動機狀態(tài)參數(shù)s作為Actor估計網(wǎng)絡(luò)輸入,輸出對應(yīng)主燃油增量aWf,更新變循環(huán)航空發(fā)動機狀態(tài)s′并得到獎勵r,動作aWf與狀態(tài)s的關(guān)系為
aWf=ωea2Tσ(ωea1Ts-bea)+N
(9)
式(9)中:aWf′∈R為主燃油增量;ωea1∈Rn×m與ωea2∈Rm×l均為權(quán)重矩陣;bea∈Rm為偏置列向量,N∈R為添加的高斯噪聲,且隨著網(wǎng)絡(luò)迭代增加,噪聲強度逐漸減弱,以此來解決訓(xùn)練過程前、后期不同的探索與收斂需求。
(2)Critic估計網(wǎng)絡(luò)設(shè)計
Critic估計網(wǎng)絡(luò)評價Actor估計網(wǎng)絡(luò)在當(dāng)前變循環(huán)航空發(fā)動機狀態(tài)s下輸出主燃油增量動作aWf的優(yōu)劣,以s和aWf作為Critic估計網(wǎng)絡(luò)輸入,輸出評價函數(shù)Qc(s,aWf)。
(10)
式(10)中:ωec1∈R(n+l)×m為權(quán)重矩陣;ωec2∈Rm為權(quán)重列向量;bec∈Rm為偏置列向量。
(3)Actor與Critic目標(biāo)網(wǎng)絡(luò)設(shè)計
Actor目標(biāo)網(wǎng)絡(luò)、Critic目標(biāo)網(wǎng)絡(luò)分別與Actor估計網(wǎng)絡(luò)、Critic估計網(wǎng)絡(luò)初始參數(shù)及網(wǎng)絡(luò)結(jié)構(gòu)完全一致。Actor目標(biāo)網(wǎng)絡(luò)以Actor估計網(wǎng)絡(luò)作用后的變循環(huán)航空發(fā)動機狀態(tài)s′作為輸入,輸出新的主燃油增量動作aWf′,Critic目標(biāo)網(wǎng)絡(luò)以s′和aWf′作為輸入,輸出評價函數(shù)Qc(s′,aWf′)。
(4)網(wǎng)絡(luò)更新
Critic估計網(wǎng)絡(luò)的反向傳播誤差為
(11)
式(11)中:q為采樣個數(shù);yi為目標(biāo)評價函數(shù)值。
(12)
式(12)中:ri為獎勵;γ為折扣因子;取值范圍為0~1?;诖?,可得出Critic估計網(wǎng)絡(luò)權(quán)重與偏置更新公式
(13)
(14)
式(13)~(14)中:αec為Critic估計網(wǎng)絡(luò)更新步長。為減小Critic估計網(wǎng)絡(luò)的反向傳播誤差Jec,Actor估計網(wǎng)絡(luò)需輸出使評價函數(shù)Qc(s,aWf)值更大的主燃油增量動作aWf,Actor估計網(wǎng)絡(luò)的反向傳播誤差為
(15)
基于此,可得出Actor估計網(wǎng)絡(luò)權(quán)重與偏置更新公式
(16)
(17)
需要注意的是,目標(biāo)網(wǎng)絡(luò)與估計網(wǎng)絡(luò)具有不同的更新頻率,以減弱網(wǎng)絡(luò)間的耦合性,目標(biāo)網(wǎng)絡(luò)以軟更新的方式更新權(quán)重與偏置,即每次只以較小幅度更新網(wǎng)絡(luò)參數(shù),Critic目標(biāo)網(wǎng)絡(luò)更新公式為
ωtci=τωeci+(1-τ)ωtci,i=1,2
(18)
btc=τbec+(1-τ)btc
(19)
Actor目標(biāo)網(wǎng)絡(luò)更新公式為
ωtai=τωeai+(1-τ)ωtai,i=1,2
(20)
bta=τbea+(1-τ)bta
(21)
式(18)~(21)中,τ為0.1以下的更新系數(shù)。
分別在高度H=13 km、馬赫數(shù)Ma=0.8和高度H=10 km、馬赫數(shù)Ma=1.5兩種飛行狀態(tài)下,進(jìn)行變循環(huán)航空發(fā)動機強化學(xué)習(xí)推力控制方法的仿真驗證??刂破魍ㄟ^輸入設(shè)定的變循環(huán)航空發(fā)動機狀態(tài)參數(shù),輸出主燃油增量指令,其余控制變量由與反饋推力相關(guān)的控制規(guī)律給定,模型輸出變循環(huán)航空發(fā)動機各性能參數(shù)。給出不同推力指令下實際反饋推力與主燃油流量的變化,并將基于DQN算法、DDPG算法設(shè)計的兩種控制器進(jìn)行對比分析。
圖5~圖6給出了在高度H=13 km、馬赫數(shù)Ma=0.8飛行條件下,基于DQN和DDPG算法的變循環(huán)航空發(fā)動機控制器150s階躍指令下的推力響應(yīng)和主燃油流量變化。DQN控制器達(dá)到了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時間1.25 s和超調(diào)量0.53%的控制指標(biāo),DDPG控制器則實現(xiàn)了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時間1.2 s和超調(diào)量0.27%的較高精度控制。兩種設(shè)計均獲得良好的跟蹤控制品質(zhì),驗證了控制設(shè)計的正確性和有效性。
圖5 高度13km、Ma=0.8階躍指令DQN控制器仿真結(jié)果
圖6 高度13 km、Ma=0.8階躍指令DDPG控制器仿真結(jié)果
圖7~圖8給出了在高度H=10 km、馬赫數(shù)Ma=1.5飛行條件下,基于DQN和DDPG算法的變循環(huán)航空發(fā)動機控制器150 s階躍指令下的推力響應(yīng)和主燃油流量變化??芍?,DQN控制器達(dá)到了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時間1.31 s和超調(diào)量1%的控制指標(biāo),DDPG控制器實現(xiàn)了穩(wěn)態(tài)誤差0.067%、調(diào)節(jié)時間1.5 s和超調(diào)量0.27%的控制指標(biāo)。
圖7 高度10 km、Ma=1.5階躍指令DQN控制器仿真結(jié)果
圖8 高度10 km、Ma=1.5階躍指令DDPG控制器仿真結(jié)果
在變循環(huán)航空發(fā)動機推力控制仿真驗證中,DDPG控制器與DQN控制器達(dá)到了相同的高控制精度,二者調(diào)節(jié)時間差別不大,而DDPG控制作用下的超調(diào)量顯著小于DQN控制器。需要注意的是,雖然DQN算法下的推力控制設(shè)計實現(xiàn)了較高的控制性能,但算法本身僅支持離散的燃油增量動作輸出,其推力響應(yīng)與主燃油流量輸入經(jīng)多次動作設(shè)計后仍存在較小幅度的振蕩。DDPG算法支持連續(xù)的燃油增量動作輸出,無需構(gòu)建動作集合即可實現(xiàn)變循環(huán)航空發(fā)動機推力及主燃油流量的無振蕩調(diào)節(jié)。由此,基于DDPG算法的變循環(huán)航空發(fā)動機推力控制器通過自學(xué)習(xí)、自更新,有效地實現(xiàn)了推力的穩(wěn)定、快速、準(zhǔn)確控制,進(jìn)一步驗證了基于強化學(xué)習(xí)方法的變循環(huán)航空發(fā)動機控制器輸入輸出參數(shù)及獎勵函數(shù)設(shè)計的合理性。
由表1可見,基于DQN與DDPG兩種強化學(xué)習(xí)方法的變循環(huán)航空發(fā)動機推力控制設(shè)計均實現(xiàn)了變循環(huán)航空發(fā)動機高精度可變推力控制。由于DQN算法僅支持離散動作輸出,在推力控制設(shè)計中,需對其主燃油流量增量動作集合不斷完善,設(shè)計不當(dāng)會導(dǎo)致主燃油流量與輸出推力發(fā)生大幅振蕩。
表1 主要控制性能指標(biāo)
綜上,在不同飛行狀態(tài)下,基于DQN和DDPG算法的變循環(huán)航空發(fā)動機推力控制設(shè)計在階躍指令下均實現(xiàn)了高性能、高精度控制。
本文對兩種變循環(huán)航空發(fā)動機強化學(xué)習(xí)推力控制方法進(jìn)行了研究,可得出以下結(jié)論:
(1)強化學(xué)習(xí)算法對于變循環(huán)航空發(fā)動機這一類具有強非線性、強耦合的復(fù)雜系統(tǒng),可實現(xiàn)較好的控制效果,且具有穩(wěn)定、快速、準(zhǔn)確的優(yōu)點。其不依賴模型的特點在一定程度上可簡化控制設(shè)計,降低設(shè)計難度。
(2)控制增量設(shè)計可有效避免DQN一類基于值的強化學(xué)習(xí)算法輸出存在振蕩的問題,彌補算法本身只支持離散動作輸出的不足,既提高了訓(xùn)練速度,也改善了控制精度。但動作設(shè)計的合理性需通過實驗進(jìn)一步確定。
(3)在網(wǎng)絡(luò)訓(xùn)練過程中加入隨機噪聲可提高網(wǎng)絡(luò)的探索性,引入變指令訓(xùn)練可提高網(wǎng)絡(luò)對不同控制指令的控制及預(yù)測能力。從經(jīng)驗集合中隨機采樣訓(xùn)練樣本,可有效減弱時間序列對網(wǎng)絡(luò)訓(xùn)練帶來的不利影響。
然而,在變循環(huán)航空發(fā)動機強化學(xué)習(xí)控制設(shè)計過程中,仍存在一些問題有待研究:
(1)如何利用已有的設(shè)計方案實現(xiàn)變循環(huán)航空發(fā)動機全包線、多工況、多變量、多目標(biāo)的尋優(yōu)設(shè)計,進(jìn)一步提高控制品質(zhì)。
(2)由于發(fā)動機的歷史運行數(shù)據(jù)是可獲取的,如何利用已有數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)參數(shù)的初始化來減少網(wǎng)絡(luò)運行成本,還需進(jìn)一步考量。
(3)發(fā)動機性能衰退是發(fā)動機服役過程中不可避免的問題,而強化學(xué)習(xí)算法又具備自學(xué)習(xí)、自更新能力,如何使發(fā)動機在特性衰退時仍保持一定的性能水平,仍需研究。