段海濱 仝秉達 劉冀川
(1. 北京航空航天大學(xué) 自動化科學(xué)與電氣工程學(xué)院, 北京 100083;2. 中國電子科技集團公司第五十四研究所, 石家莊 050081; 3. 西安電子科技大學(xué) 電子工程學(xué)院, 西安 710071)
無人機(unmanned aerial vehicle,UAV)自主控制技術(shù)及低成本傳感器技術(shù)的快速發(fā)展,使得無人機系統(tǒng)越來越廣泛地應(yīng)用于民用和軍事領(lǐng)域[1-2]。 由于任務(wù)環(huán)境復(fù)雜而多變,單架無人機往往不能有效完成任務(wù),而使用多架無人機協(xié)作能夠有效提高成功率[3],順利完成各種定位、搜索、攻擊、安全、監(jiān)視、評估等復(fù)雜任務(wù)[4]。 本文主要針對與安全和防御應(yīng)用相關(guān)場景的無人機協(xié)同目標(biāo)防御問題進行了探索研究,在目標(biāo)防御問題中,入侵無人機在收集到防御無人機的狀態(tài)信息后,試圖抵達目標(biāo)區(qū)域而不被防御無人機攔截,而防御方若干架無人機的任務(wù)是盡快攔截入侵無人機,防止對方抵達目標(biāo)區(qū)域。
von Moll 等[5]將多無人機協(xié)同目標(biāo)防御場景描述為一個微分博弈問題。 場景中的無人機具有簡單的運動學(xué)方程,防御無人機扮演微分博弈中的追捕者角色,入侵無人機扮演逃跑者角色。Garcia 等[6]研究了多參與者的邊界防御問題,并給出了團隊合作最優(yōu)解,場景中的智能體能夠利用對手的非最優(yōu)策略使得己方的收益最大化。 然而,上述研究只考慮了當(dāng)防御者與入侵者的位置重合時,入侵者才視為被捕獲這種情況,且防御無人機要保護的目標(biāo)邊界是無限大的。 事實上,無人機可以在一定距離時使用自身攜帶的武器,干擾或者摧毀對方,且目標(biāo)區(qū)域可能有界。 Shishika和Kumar[7]研究了一類具有任意凸形狀的邊界防御問題,入侵者團隊試圖突破防御者團隊對目標(biāo)區(qū)域的保護,而防御者團隊試圖通過攔截入侵者智能體。 Sinha 等[8]研究了3 個智能體之間的追逃場景,并分別為入侵者和防御者設(shè)計了控制策略。 Wang 等[9]考慮了具有通信約束的追逃問題,并分別求解了追逃雙方應(yīng)當(dāng)使用的策略。 然而,上述研究只考慮了防御者被限制在二維目標(biāo)區(qū)域的邊界中運動情況。 實際上,入侵無人機或防御無人機均可以在三維空間中自由運動。
基于上述研究,考慮一個復(fù)雜環(huán)境下面向多無人機協(xié)同目標(biāo)區(qū)域防御問題。 其中,防御無人機的數(shù)量M>1,入侵無人機的數(shù)量為1。 防御無人機的速度可能各不相同,但均大于入侵無人機。防御團隊要保護的目標(biāo)區(qū)域為一個有限大的三維空間,且防御無人機在與入侵無人機一定距離時即可攔截。 基于上述假設(shè),本文將無人機目標(biāo)區(qū)域防御問題建模為約束最優(yōu)化問題,解決問題的關(guān)鍵是求解出雙方無人機的最優(yōu)攔截(目標(biāo))點。因此,本文設(shè)計了一種新型的改進鴿群優(yōu)化算法解決此類問題。
本文設(shè)計了一種無人機協(xié)同目標(biāo)防御系統(tǒng)策略,系統(tǒng)中的防御無人機根據(jù)系統(tǒng)實時狀態(tài)進行合作,對進入捕獲半徑的入侵無人機進行攔截。另外,針對無人機協(xié)同目標(biāo)防御問題需要求解的約束最優(yōu)化問題定義了多級非穩(wěn)態(tài)罰函數(shù),便于優(yōu)化算法找出可行的最優(yōu)解。 對基本鴿群優(yōu)化(pigeon-inspired optimization,PIO)算法進行了改進,有效解決了原始算法在收斂性和準(zhǔn)確性方面的不足,并將改進后的PIO 算法應(yīng)用于解決多無人機協(xié)同目標(biāo)防御問題。
考慮一個由M架防御無人機P1,P2,…,PM和1 架入侵無人機E構(gòu)成的無人機協(xié)同目標(biāo)防御系統(tǒng),系統(tǒng)中所有無人機均在歐氏三維空間中運動。 受文獻[5]的啟發(fā),系統(tǒng)中的各無人機具有如下運動學(xué)方程:
式中:βi>1 為防御無人機Pi與入侵無人機E的速度比;θE∈[ - π,π)和ψE∈[0,2π)分別為入侵無人機的俯仰角和航向角;θPi∈[ - π,π)和ψPi∈[0,2π)(i=1,2,…,M)分別為防御無人機的俯仰角和航向角。 雙方無人機的控制量分別為
防御無人機要防御的目標(biāo)區(qū)域為球體,球心為xT= (xT,yT,zT),半徑為rT。 防御無人機的目標(biāo)是攔截入侵無人機,使入侵無人機與所要防御目標(biāo)區(qū)域距離最遠,其捕獲半徑為rc。 入侵無人機的目標(biāo)為在終端時刻tf時盡量縮短自身與目標(biāo)區(qū)域之間的距離。 假設(shè)入侵無人機不可能到達目標(biāo)平面,即考慮防御無人機能夠攔截成功的定量博弈問題。 因此博弈對抗的終止條件為
防御無人機與入侵無人機均以恒定的速度運動,故雙方無人機的最優(yōu)路徑均為直線,雙方的支配區(qū)域由以下等式確定的曲面分隔:
式中:x=(x,y,z)∈R3。 式(8)給出了入侵無人機的可行解區(qū)域。 當(dāng)式(8)中等號成立時,入侵無人機E可以在中途不被防御無人機Pi攔截的情況下到達點曲面上的任意一點。 另外設(shè)入侵無人機E的最優(yōu)目標(biāo)點為xI= (xI,yI,zI), 除了應(yīng)當(dāng)滿足式(8)之外,還應(yīng)當(dāng)有如下等式成立:
由第1 節(jié)的系統(tǒng)建??芍?確定防御無人機和入侵無人機的最優(yōu)目標(biāo)點實際是求解一個由式(1)確定的約束最優(yōu)化問題:
解決約束最優(yōu)化問題的常用方法是使用罰函數(shù)法構(gòu)建目標(biāo)函數(shù)F(x),轉(zhuǎn)化為無約束最優(yōu)化問題然后使用優(yōu)化算法求解。 約束最優(yōu)化問題由可行解和不可行解組成,其中可行解滿足所有約束條件,而不可行解至少違反其中一個約束條件。目前為止,除了試錯法(trial-and-error)之外,還沒有其他方式定義罰函數(shù)的方法。 然而,罰函數(shù)的定義仍具有挑戰(zhàn)性,如果懲罰值過高,最優(yōu)化算法通常會陷入局部最優(yōu)解;如果懲罰值過低,優(yōu)化算法可能很難得到可行的最優(yōu)解。
罰函數(shù)通常分為穩(wěn)態(tài)罰函數(shù)和非穩(wěn)態(tài)罰函數(shù)兩類。 穩(wěn)態(tài)罰函數(shù)在整個最優(yōu)化的過程中使用固定的懲罰值;非穩(wěn)態(tài)罰函數(shù)中,懲罰值是動態(tài)變化的。 參考文獻[10-11]中的結(jié)果顯示,使用非穩(wěn)態(tài)罰函數(shù)得到的結(jié)果幾乎總是優(yōu)于通過穩(wěn)態(tài)罰函數(shù)的結(jié)果。
本文采用的罰函數(shù)可定義如下:
式中:f(x)為式(11)中約束最優(yōu)化問題的原始目標(biāo)函數(shù);h(k)為一個動態(tài)調(diào)整的懲罰值;k為優(yōu)化算法當(dāng)前迭代次數(shù);H(x)為懲罰因子,定義為
式中:σ(·)為一個多級函數(shù);γ(·)為罰函數(shù)的指數(shù)函數(shù);gi(x)為式(12)中的約束項。
本文所要解決的約束最優(yōu)化問題可采用確定性或者隨機性方法求解。 確定性方法,如可行方向法或者廣義梯度下降法,對目標(biāo)函數(shù)f(x)的連續(xù)性和可微性具有一定要求。 因此,使用隨機性方法解決約束最優(yōu)化問題是近年來的熱門發(fā)展方向。 雖然進化算法(evolutionary algorithms,EA)主要是解決無約束最優(yōu)化問題而發(fā)展起來的,但其也是解決約束最優(yōu)化問題的一種可行的替代方法。 典型的進化算法有遺傳算法(genetic algorithm,GA)[12]和粒子群優(yōu)化(particle swarm optimization,PSO)算法[13],均已經(jīng)被用于解決約束最優(yōu)化問題中。
針對無人機航路規(guī)劃問題,Duan 和Qiao[14]提出了一種新的生物啟發(fā)式群體優(yōu)化算法——鴿群優(yōu)化算法。 該算法基于鴿子的歸巢行為,設(shè)計了地圖和指南針?biāo)阕印⒌貥?biāo)算子,以求解最優(yōu)化問題。 假設(shè)搜索空間的維度為D,鴿群中的第i只鴿子由D維向量Xi=(xi1,xi2…,xiD)表示,鴿群中取得全局最優(yōu)值的鴿子用向量Xg= (xg1,xg2,…,xgD)表示。 第i只鴿子的速度由向量Vi= (vi1,vi2,…,viD)表示。
在地圖和指南針?biāo)阕又?鴿群中的鴿子位置根據(jù)式(18)和式(19)進行更新:
式中:i=1,2,…,N為鴿群中的鴿子序號;R為地圖和指南針因子;r為在[0,1]范圍內(nèi)均勻分布的隨機數(shù)。 式(18)用于確定鴿群中第i只鴿子第k+1 次迭代的速度,式(19)用于確定鴿群中第i只鴿子第k+1 迭代的位置,即將第k次迭代的位置與第k+1 次迭代的速度相加。
在地標(biāo)算子中,每次迭代之后鴿子的數(shù)量會減少一半,目標(biāo)函數(shù)值較低的一半鴿子將被舍棄,即
盡管基本鴿群優(yōu)化算法能夠求解許多函數(shù)最優(yōu)化問題,但仍然存在收斂性和準(zhǔn)確性不足、效率不高等問題。 基于此,本文提出了一種新的改進鴿群優(yōu)化算法-指數(shù)平均動量鴿群優(yōu)化(exponentially averaged momentum PIO,EM-PIO)算法,以解決多無人機協(xié)同目標(biāo)防御問題。
在機器學(xué)習(xí)中,反向傳播(back propagation,BP)算法是用于訓(xùn)練多層前饋神經(jīng)網(wǎng)絡(luò)的最常用算法之一。 BP 算法使用梯度下降法來最小化實際輸出和期望輸出之間的誤差,但這種算法常常取得局部最優(yōu)或者在附近振蕩,無法收斂到全局最優(yōu)值。 因此可以引入一個動量項來解決此問題,該動量項可作為一個低通濾波器來平滑輸出[15]。 受此啟發(fā),本文在基本鴿群優(yōu)化算法中的地圖和指南針?biāo)阕铀俣雀路匠?式(18))中,對方程中的探索部分賦予更多的權(quán)重。 新的地圖和指南針?biāo)阕又兴俣群臀恢酶路匠瘫硎救缦?
式中:N為算法總迭代次數(shù);α為式(23)中的動量因子;V為式(24)中鴿群中某只鴿子的速度。 由于動量因子α<1,動量的分布方式更多地在當(dāng)前速度上。 隨著迭代次數(shù)的增加,舊速度的系數(shù)與動量因子α共同累積,舊的速度值對動量M的貢獻將降低,這會有效增強鴿群優(yōu)化算法的搜索能力,同時防止鴿子被其歷史速度加權(quán)相加而陷入局部最優(yōu)值。 另外,由于速度值V是迭代累積求和得到的,不需要額外的空間來存儲速度的歷史值。
本文提出的EM-PIO 算法解決多無人機協(xié)同目標(biāo)防御問題的具體實現(xiàn)流程如圖1 所示。
圖1 EM-PIO 算法解決多無人機協(xié)同防御問題實現(xiàn)流程Fig.1 Procedure of coordinated target defense with multi-UAVs cooperative using EM-PIO algorithm
本文設(shè)防御無人機的數(shù)量M=2。 入侵無人機和防御無人機的初始位置分別為xE0= (6,6,3),xP10=(5,4,2)和xP20=(3,5,3),防御無人機與入侵無人機之間的速度比β1=1.1 和β2=1.2。防御無人機要防御的目標(biāo)區(qū)域為球體,球心坐標(biāo)xT=(3,3,2),半徑rc=1 m。 雙方無人機位置、目標(biāo)區(qū)域和約束曲面g1(x) =0 和g2(x) =0 的圖像如圖2 所示。 可以看出,g1(x) =0 與g2(x) =0 相交形成一條曲線,雙方無人機的最優(yōu)目標(biāo)點一定在曲線上。
圖2 約束曲面示意圖Fig.2 Schematic of constraint surface
同時,本節(jié)設(shè)計了仿真實驗對比EM-PIO 算法與PSO、GA 算法。 3 種算法的參數(shù)值如表1所示。
表1 EM-PIO、PSO 和GA 算法參數(shù)Table 1 Parameters of EM-PIO, PSO and GA algorithms
3 種算法的進化曲線如圖3 所示。 由圖3 進化曲線可見,本文提出的EM-PIO 算法具有更好的全局優(yōu)化性能和收斂速度,可有效解決復(fù)雜態(tài)勢下的多無人機約束最優(yōu)化問題。
圖3 EM-PIO、PSO 和GA 算法進化曲線對比Fig.3 Comparison of evolution curves of EM-PIO,PSO and GA algorithms
1) 本文構(gòu)造的多級非穩(wěn)態(tài)罰函數(shù)可以通過逐漸增加懲罰值有效地控制遺傳算法收斂速度,確保獲得可行解。
2) 提出的EM-PIO 算法通過在地圖和指南針?biāo)阕犹幰雱恿恳蜃?增強了鴿群優(yōu)化算法的搜索能力,同時防止被歷史速度加權(quán)相加而陷入局部最優(yōu)值。
3) 提出的EM-PIO 算法具有較為優(yōu)異的搜索性能,在仿真實驗中相比于PSO 和GA 算法具有較快的收斂速度且具有更好的全局優(yōu)化性能。
本文在分析無人機協(xié)同目標(biāo)防御問題時,只考慮了入侵無人機數(shù)量為1 架時的情況,后續(xù)將進一步研究入侵無人機數(shù)量大于1 的情況。