袁 利
(1. 北京控制工程研究所,北京 100094; 2. 空間智能控制技術(shù)重點實驗室,北京 100094)
當前,隨著空間探索愈加活躍,航天器所需執(zhí)行的空間任務也日趨復雜:日本隼鳥2號[1-3]和美國OSIRIS-Rex探測器[4-6]分別于2018年和2019年對先驗知識較少的小行星實施了探測任務;用于深入研究火星內(nèi)部的“洞察號”于2018年成功著陸于火星表面[7-8];2020年“毅力號”探測器開始了其搜尋火星遠古生命跡象、研究隕坑地質(zhì)結(jié)構(gòu)、采集并保存火星樣本的火星之旅[9-11];“鳳凰計劃”(Phoenix Project)[12]和“任務延壽飛行器”(MEV)[13]分別采用空間操控和自主交會對接的方式對即將退役的航天器實施在軌服務。
航天器在應對上述空間任務中的不確定性因素時,通常采用“地面測定軌+遙測下傳→情況判定→決策規(guī)劃→上注指令→在軌執(zhí)行”的方式。這種“星地大回路”的控制方式存在窗口和弧段時空約束多、星地回路時間鏈條長、運維指控人為因素多等問題,無法針對不確定性進行實時決策,致使一些任務的執(zhí)行過程并非一帆風順:OSIRIS-Rex探測器在對小行星“貝努”著陸探測的過程中發(fā)現(xiàn)其地表情況復雜,并持續(xù)向外噴射高速顆粒羽流,導致OSIRIS-Rex無法按照預定計劃實施著陸,研究人員不得不花費一年之久根據(jù)遙測信息重新規(guī)劃著陸;“洞察號”利用熱探測器執(zhí)行自主鉆地任務時,由于對火星地質(zhì)實時信息感知和理解不足,造成鉆頭在距離地表30 cm處卡住,無法完成預定的探測任務。
另外,軌道空間日益擁擠、碰撞風險激增,太空競爭加劇、襲擾增多,給航天器任務執(zhí)行帶來了更多不確定性因素。例如,2021年3月美國氣象衛(wèi)星NOAA-17爆炸,當前已追蹤16塊空間碎片;2014年以來,GSSAP衛(wèi)星進行了數(shù)百次機動,以抵近偵察的方式對我國多顆商業(yè)衛(wèi)星實施襲擾??梢?,若無法對空間威脅進行有效處置,將嚴重影響航天器在軌運行的安全性和業(yè)務的連續(xù)性。同時,為了避免“星地大回路”造成的時延,就必須增強航天器自主及時處置空間威脅等不確定性的能力。
本文首先對航天器智能自主控制技術(shù)所涉及的感知、決策和控制執(zhí)行技術(shù)的發(fā)展現(xiàn)狀進行了分析,總結(jié)了目前存在的不足。針對現(xiàn)有問題,結(jié)合航天器未來的發(fā)展需求,提出了一種新型“感知(Observation)-演化(Evolution)-決策(Decision)-執(zhí)行(Action)”星上閉環(huán)控制框架,以提升航天器任務場景高層次理解、角色演化和自主決策等能力。針對該新型控制框架,探討了其功能和所涉及的理論與方法,并就其實際應用和進一步發(fā)展給出了需要解決的關鍵科學問題。
考慮到智能自主控制技術(shù)針對復雜且不確定環(huán)境具有較強的應對能力[14],楊嘉墀先生早在1995年就指出大力發(fā)展空間智能自主控制技術(shù)的必要性[15],經(jīng)過多年發(fā)展,已提出基于特征模型的智能自適應控制[16]、模塊級進化容錯控制[17]和自抗擾控制[18]等先進的理論方法,使無人系統(tǒng)在一定程度上實現(xiàn)了針對不確定性的魯棒自主控制[19]。近年來,人工智能技術(shù)的快速發(fā)展,為智能自主控制技術(shù)注入了新的活力[20-21]。智能自主控制所涉及的關鍵技術(shù)主要包括自主感知、自主決策和控制執(zhí)行三個方面[22],本章將分別對其研究現(xiàn)狀進行介紹。
自主感知技術(shù)主要包括目標形態(tài)特征提取、行為特征提取和態(tài)勢評估三個方面。
在形態(tài)特征提取方面,考慮到航天器通常安裝有太陽帆板、發(fā)動機噴嘴、交會對接環(huán)和帆板支架等幾何形狀規(guī)則的部件,上述部件可作為空間目標的典型形態(tài)特征,常采用Hough變換[23-24]和Canny邊緣檢測[25]等圖像處理方法對矩形、橢圓形或三角形等規(guī)則特征進行提取。對于不規(guī)則幾何特征的情況,角點等局部特征通常被應用于空間特征提取中。角點檢測算法主要包括基于圖像邊緣和基于圖像灰度兩類方法,其中后者運行速度快、精度高,為主流算法,經(jīng)典算法主要包括Fast[26]、Harris[27]和Shi-Tomasi[28]等,許多學者對上述工作進行了適應性改進,以提高魯棒性、快速性等性能[29-31]。由于受目標劇烈運動以及光照條件的影響,目標的形態(tài)特征存在尺度變化較大的問題,單純依靠角點易造成誤匹配,因此通常需要進一步對關鍵點附近區(qū)域進行描述,獲得具有光照、旋轉(zhuǎn)和尺度不變性的特征描述符。常用的二維特征描述符包括SIFT和SURF等。文獻[32]利用粒子濾波方法減小了SIFT特征點的匹配誤差;文獻[33]將SURF特征描述與Fast角點檢測法相結(jié)合,實現(xiàn)了較低采樣頻率下的特征點提取。近年來,F(xiàn)COS網(wǎng)絡[34]、VoxelNet網(wǎng)絡[35]和全卷積網(wǎng)絡[36]等人工智能方法也被應用于目標形態(tài)特征的提取中。然而,由于特征描述法和人工智能法所需計算量較大,其空間的實施應用受航天器有限計算資源的制約[37]。
在軌道目標行為特征提取方面,當相對距離較遠時,被測航天器在敏感器視野中僅為點目標,此時只能獲得目標的視線信息。當能夠通過多個航天器合作獲取同一非合作目標的多條視線信息時,可通過卡爾曼濾波及其改進方法估計出目標的運動狀態(tài)[38]。然而,當只有單視線測量信息時,由于對目標的僅測角無源定位跟蹤存在觀測量幾何約束弱、系統(tǒng)可觀度低的問題,往往需要我方航天器通過一定的軌道機動在多個位置均給出視線測量量,才能對非合作目標的運動狀態(tài)進行有效估計[39-40]。航天器與目標相對距離較近時,可獲得目標的深度點云及圖像信息,此時則可利用基于卷積神經(jīng)網(wǎng)絡的聯(lián)合濾波器[41]或基于自監(jiān)督模型的自適應融合機制[42]等方法將點云與圖像信息進行融合,估計目標的運動狀態(tài)。然而,由于軌道空間受平行光影響,易出現(xiàn)目標局部過亮或過暗的情況,可能造成無法連續(xù)提取目標的形態(tài)或行為特征的情況。
空間態(tài)勢評估是引導航天器進行空間活動的基礎,是自主完成空間任務的關鍵,因此研究態(tài)勢評估方法顯得尤為重要。傳統(tǒng)的態(tài)勢評估算法主要基于專家系統(tǒng)[43]、模板技術(shù)[44]和貝葉斯網(wǎng)絡推理[45]等方法進行設計,大多對人的先驗知識具有較強的依賴性,可能受設計者的主觀因素影響較大。為避免該問題,該領域的學者提出了多種基于大量樣本數(shù)據(jù)進行學習訓練的推理網(wǎng)絡參數(shù)確定方法[46],但當樣本數(shù)量有限時則無法保證訓練效果。通過引入先驗知識可減小推理網(wǎng)絡參數(shù)的搜索空間,從而降低對樣本數(shù)量的依賴;文獻[47]將推理網(wǎng)絡參數(shù)的單調(diào)性約束作為先驗知識,提出了一種基于估計算法的參數(shù)學習方法,該方法具有較高的準確性和穩(wěn)定性;文獻[48]則將推理網(wǎng)絡參數(shù)的取值范圍和部分參數(shù)的大小關系作為先驗知識,給出了一種進化學習算法,保證了小樣本條件下網(wǎng)絡參數(shù)的全局收斂性。
自主決策技術(shù)最早源于機器人和無人駕駛領域[49-50],隨著航天任務需求的提升和交叉學科的發(fā)展,多種決策技術(shù)在航天領域得到廣泛應用。目前航天器自主決策規(guī)劃研究主要包括航天器軌道運動規(guī)劃和姿態(tài)運動規(guī)劃。
針對航天器軌道運動規(guī)劃問題,文獻[51]提出了一種分布式集群航天器的自適應種群變異鴿群算法,實現(xiàn)了航天器集群在復雜約束條件下的軌道自主規(guī)劃,避免了傳統(tǒng)鴿群算法中演化停滯以及易陷入局部最優(yōu)解的問題。文獻[52]考慮空間交會中目標航天器周圍有小衛(wèi)星環(huán)繞的情況,提出了一種混合遺傳算法,將遺傳算法全局搜索能力和模擬退火算法的局部搜索能力進行整合,并以航天器軌道路徑安全、任務時間、燃料消耗等為約束條件,實現(xiàn)了軌道機動的最優(yōu)路徑規(guī)劃;文獻[53]建立了一種航天器與非合作目標的追逃博弈模型,采用基于分支深度的強化學習方法進行求解,給出航天器空間交會策略。文獻[54]針對載人航天器交會對接飛行任務的規(guī)劃問題,以測控、光照等因素為約束條件,以飛行事件為狀態(tài),利用有限狀態(tài)機建立飛行過程的圖形化任務規(guī)劃模型,并通過求解該模型得到了最優(yōu)規(guī)劃策略。文獻[55]研究了航天器與非合作目標潛在交會威脅下的最優(yōu)規(guī)避機動策略問題,通過建立非合作目標的多脈沖最優(yōu)交會模型,給出潛在威脅區(qū)的計算方法,并以其弧長為優(yōu)化目標,建立航天器的最優(yōu)規(guī)避模型,采用遺傳算法進行優(yōu)化,從而得到有效威脅規(guī)避策略。文獻[56]考慮機動目標空間交會過程中的軌跡規(guī)劃問題,基于微分對策理論建立了無需目標航天器機動測量的追逃雙方微分對策模型,并提出了利用非線性規(guī)劃求解微分對策問題的方法實現(xiàn)了最優(yōu)控制與對策論相結(jié)合。針對近地軌道附近時間固定的兩航天器追逃問題,文獻[57]為獲得追逃雙方在對策條件下的最優(yōu)策略,運用微分博弈對航天器的整個追逃過程進行了數(shù)學描述,并提出了基于半直接配點法的追逃雙方最優(yōu)控制策略數(shù)值求解方法,避免了求解非線性兩點邊值問題。
針對航天器姿態(tài)運動規(guī)劃問題,文獻[58]采用直接打靶法分析大角度姿態(tài)機動過程,從而得到帶參數(shù)約束的非線性方程組,并通過序列二次規(guī)劃優(yōu)化算法進行求解,得到最優(yōu)姿態(tài)規(guī)劃結(jié)果。文獻[59]針對有限時域的最優(yōu)姿態(tài)控制,將端值約束以及控制變量的二次型積分引入到性能函數(shù)中,利用罰函數(shù)法設計了系統(tǒng)姿態(tài)規(guī)劃的最優(yōu)解。文獻[60]采用偽譜法規(guī)劃了考慮姿態(tài)機動時間、控制力矩陀螺峰值角動量以及機動能量等參數(shù)的單目標和多目標最優(yōu)姿態(tài)機動路徑。文獻[61]提出了一種粒子群算法用以規(guī)劃航天器姿態(tài)運動,解決了姿態(tài)規(guī)劃過程中的欠驅(qū)動問題。文獻[62]通過偽譜法把帶有非完整約束的欠驅(qū)動航天器姿態(tài)控制問題轉(zhuǎn)化為離散點的非線性規(guī)劃,并利用優(yōu)化算法尋找最優(yōu)姿態(tài)規(guī)劃結(jié)果。
目前,PID、模型參數(shù)化和自適應等經(jīng)典控制方法在航天器控制領域已形成了一套比較成熟的理論體系[63-65],但隨著空間任務復雜性的增強,航天器的模型非線性和不確定性也愈加顯著,經(jīng)典方法缺少泛化學習能力,在應對不確定性時能力有限??紤]到人工智能方法可有效逼近不確定性和模型非線性[66-67],很多學者提出了多種智能控制方法,用于解決較強不確定下的控制問題。
對于存在外部干擾、模型參數(shù)不確定和執(zhí)行機構(gòu)故障情況下的航天器姿態(tài)控制問題,文獻[68]和[69]利用神經(jīng)網(wǎng)絡的泛化擬合和學習能力,構(gòu)建了自適應神經(jīng)網(wǎng)絡姿態(tài)控制器,實現(xiàn)了多種不確定因素下的姿態(tài)跟蹤控制。在實際工程任務中,航天器控制系統(tǒng)中的測量和執(zhí)行機構(gòu)使用頻率較高,易發(fā)生故障,而大部分故障無法提前預知,并且維修成本較高,可能在短時間內(nèi)造成航天器姿態(tài)測量值或真實值發(fā)散,進而導致任務失敗[70-71]。為此,文獻[72]提出了一種模糊自適應觀測器用于姿態(tài)和角速度的高精度估計,并通過設計模糊自適應容錯控制器,實現(xiàn)了在系統(tǒng)具有不確定性和執(zhí)行機構(gòu)故障情況下的姿態(tài)穩(wěn)定控制。
在軌道控制方面,遠距離的軌道機動一般先通過智能優(yōu)化算法進行軌跡規(guī)劃,然后設計相應的脈沖控制律,涉及的智能控制執(zhí)行方法較少。在近距離交會時,為了提高控制精度,需要考慮姿態(tài)與軌道控制通道之間的耦合影響,設計姿軌聯(lián)合控制律。文獻[73]針對空間非合作目標交會對接問題,考慮姿態(tài)與軌道控制通道交叉耦合、目標未知控制加速度和追蹤器控制力矩不確定性等影響,利用小增益定理和反步設計法給出了可保證姿態(tài)和軌道控制通道整體上具有穩(wěn)定性的姿軌聯(lián)合控制方法,有效提高了控制效率和控制精度。文獻[74]采用T-S模糊方法獲得非線性系統(tǒng)的參考模型,并基于該模型設計模糊自適應位置和姿態(tài)跟蹤控制器,通過保障系統(tǒng)的H∞性能獲得了較強的魯棒性。文獻[75]考慮在存在外部干擾和模型參數(shù)不確定性時,利用模糊方法對不確定性進行擬合,通過在線學習自適應調(diào)整參數(shù),并結(jié)合滑模控制方法,設計了模糊自適應姿軌聯(lián)合控制器,實現(xiàn)了姿態(tài)和軌道的高精度控制。文獻[76]考慮存在外部干擾和執(zhí)行機構(gòu)故障等多種不確定性的情況,構(gòu)建了深度強化學習神經(jīng)網(wǎng)絡,通過在線學習調(diào)整參數(shù),設計了對不確定性具有強魯棒性的自適應智能控制器,解決了航天器非合作目標跟蹤姿軌聯(lián)合控制問題。
在空間在軌維護任務中,利用空間機器人對目標進行操控是目前主要的實施手段,其操控精度是需要重點考慮的問題[77]。作為典型的空間多體系統(tǒng),空間機器人自由度多、動力學復雜,機械臂在動作時將對基座產(chǎn)生干擾力矩,因此在控制器設計時必須給予考慮[78-79]。文獻[80]研究了空間機械臂的跟蹤控制問題,分析了機械臂與基座之間的耦合特性和碰撞約束,考慮了外部干擾不確定、模型不確定和執(zhí)行機構(gòu)飽和等情況,利用徑向基神經(jīng)網(wǎng)絡對操作過程中的不確定性進行估計,在此基礎上設計了自適應終端滑模控制器,實現(xiàn)了機械臂和載荷的一體化控制。文獻[81]為了改善基于傳統(tǒng)神經(jīng)網(wǎng)絡的自適應控制方法在空間操控應用中的性能,提出了一種基于量子干擾原理的新型人工神經(jīng)網(wǎng)絡,并建立了新的激活函數(shù),通過在線學習規(guī)則獲得更快速的學習效率和更好的擬合性能,據(jù)此設計了空間操控自適應控制器,實現(xiàn)了干擾的估計補償,從而有效提升了空間操控的精度。文獻[82]考慮高度耦合動力學特性和未知空間環(huán)境干擾的情況,研究了一類自由飛行的空間操作機器人的操控問題,為了避免傳統(tǒng)滑??刂频母哳l抖動特性對執(zhí)行機構(gòu)指向精度和使用壽命造成的不良影響,提出了一種基于強化學習的模糊自適應滑??刂破鳎趯崿F(xiàn)高精度跟蹤控制的同時減少了控制器的抖動。
可以看出,經(jīng)過多年研究,智能自主控制技術(shù)已取得了較大進展,并已應用在無人駕駛汽車[83-84]和無人機[85-87]等無人系統(tǒng)中。然而,由于航天器需要考慮抗輻照和可靠性等因素,所配備的計算機、存儲等資源嚴重受限,而目前大多數(shù)先進的智能自主控制技術(shù)均需要較強的算力作為支持,這導致其在航天器中應用受限。目前大多數(shù)在軌航天器的控制系統(tǒng)主要依據(jù)“測量-控制-執(zhí)行”的傳統(tǒng)思想進行設計,僅能較好應對既定任務,所涉及的不確定因素僅包含內(nèi)部模型不確定性以及外部擾動,當任務類型、目標以及環(huán)境發(fā)生變化或具有較強不確定性時則需重新設計控制系統(tǒng),泛化能力有限。少數(shù)用于執(zhí)行地外天體探測、對地觀測等任務的航天器將部分智能算法引入控制回路中,以增強其自主性,提升業(yè)務能力,但現(xiàn)階段其控制系統(tǒng)僅在單一環(huán)節(jié)上實現(xiàn)了“點”的突破,尚未形成控制框架層面上的整體改進。
未來航天器所需自主完成的非合作目標在軌服務、地外天體著陸及探測等復雜空間任務具有先驗信息少、探測手段欠缺、通信條件惡劣、星上資源受限等特點,這些因素均給航天器的控制系統(tǒng)提出了更高的要求,即需要航天器在難以與地面進行及時通訊的前提下,利用有限的先驗信息和實時感知信息自主實現(xiàn)對任務場景的高層次抽象理解,并據(jù)此快速給出任務決策及動作規(guī)劃結(jié)果。同時,由于航天器屬于高價值空間資產(chǎn),發(fā)射成本高,若單一航天器具備應對多種任務場景的能力,則可有效提高航天器的效費比。綜上,未來航天器應具備類人的自主感知與認知、角色演化及自主決策能力,而目前的控制系統(tǒng)無法滿足上述要求,需從控制系統(tǒng)整體上實現(xiàn)突破和升級,形成新的控制框架。
本文通過引入演化機制,提出一種“感知(Obse-rvation)-演化(Evolution)-決策(Decision)-執(zhí)行(Action)”星上閉環(huán)控制框架,使航天器具備深層次理解任務場景的感知能力、根據(jù)不同任務改變自身角色的演化能力和自主應對空間不確定性的決策能力,從而提升航天器的智能自主水平。
OEDA控制框架的示意圖如圖1所示,包括三個回路:“OA”對應傳統(tǒng)的航天器控制回路,以姿軌測量信息為反饋量,進行姿態(tài)機動或變軌等動作;“ODA”回路通過引入決策環(huán)節(jié),以目標特征和意圖等高層次信息作為反饋量,實現(xiàn)航天器在空間任務具有較大不確定時的自主調(diào)整;“OEDA”回路則在此基礎上引入演化環(huán)節(jié),基于場景理解結(jié)果使航天器通過角色定義、自組織軟硬件資源應對不同目標和多種任務場景,解決未知場景下的連續(xù)、適度、可控的任務遂行。
圖1 航天器“感知-演化-決策-執(zhí)行”星上閉環(huán)控制框架
新的OEDA控制框架以感知、演化、決策和執(zhí)行為功能模塊,由傳統(tǒng)“測量-控制-執(zhí)行”的單層串行機制升級為“感知-演化-決策-執(zhí)行”的多層并行機制,可使航天器在執(zhí)行任務過程中應對不確定性的能力得以有效提升。其特點和功能提升主要體現(xiàn)在:
1)在感知層面,OEDA控制框架中被控對象由航天器升級為廣義被控對象,包括航天器、空間環(huán)境、任務目標等,對應的測量過程也由傳統(tǒng)的姿軌測量升級為廣義感知。在姿態(tài)軌道測量的基礎上,利用多源信息融合手段,對任務目標和空間環(huán)境進行多層次的特征提取和融合,完成空間威脅預警、空間目標識別、自主定位與跟蹤,根據(jù)任務特征通過推理認知實現(xiàn)對當前任務場景的高層次理解。
2)OEDA控制框架引入了演化機制,可使航天器根據(jù)感知結(jié)果在自身能力約束下對任務的態(tài)勢發(fā)展進行推演,確定航天器當前所需角色及對應的能力范圍,并據(jù)此通過自組織軟硬件資源,動態(tài)、連續(xù)地調(diào)整自身狀態(tài),適度地利用星上資源,有效應對不同目標和任務,提升航天器執(zhí)行任務的泛化能力。
3)OEDA控制框架中的決策直接面向任務和環(huán)境,針對頂層任務需求,對感知和演化結(jié)果進行綜合分析,通過知識推理和迭代優(yōu)化,形成序列化的最優(yōu)決策和動作規(guī)劃,使航天器能夠根據(jù)具體任務、運行環(huán)境和自身狀態(tài),自主完成任務調(diào)整、分解、規(guī)劃與編排。
4)OEDA控制框架中的執(zhí)行環(huán)節(jié)是根據(jù)決策結(jié)果,精確解算執(zhí)行機構(gòu)指令實施變軌方案、姿態(tài)指向、載荷開關機、載荷指向等動作,以保證任務完成。
總體來講,所提出的OEDA控制框架以人工智能為關鍵使能技術(shù),實現(xiàn)了從測量到感知理解、從模式切換到角色演化、從程序化驅(qū)動到?jīng)Q策規(guī)劃的星上自主運行,賦予了航天器類人行為屬性的自主控制能力,降低了對地面的依賴,從而提高了能力和效益。
OEDA控制框架通過引入演化環(huán)節(jié)使得架構(gòu)層次更為豐富,易通過分層遞階的方式提升智能水平,有效增強航天器面對多變?nèi)蝿諘r的泛化能力。然而,若依然采用傳統(tǒng)的串聯(lián)式架構(gòu)實現(xiàn)OEDA星上閉環(huán),外部信息需通過逐級傳遞形式完成決策及演化交互,當航天器面向?qū)崟r性要求較高的復雜不確定任務場景時,此種架構(gòu)形式難以支撐任務高效遂行[88]。為此,本文提出的OEDA控制框架采用多層并聯(lián)的混合式架構(gòu),提高控制框架智能水平的同時,在串聯(lián)架構(gòu)中融入并聯(lián)思想,通過感知環(huán)節(jié)將框架各層高效聯(lián)通,使得OEDA框架中演化、決策、執(zhí)行環(huán)節(jié)能夠快速獲取任務及環(huán)境信息,有效提升系統(tǒng)實時性。本文所提OEDA控制框架中所涉及的相關理論與方法具體體現(xiàn)在信息獲取、角色演化、任務遂行三個方面,三者與控制執(zhí)行環(huán)節(jié)的內(nèi)在聯(lián)系如圖2所示。
圖2 OEDA控制框架各環(huán)節(jié)中的理論與方法
信息獲取主要涉及目標形態(tài)特征提取、行為特征提取、意圖判斷與場景理解。首先采用圖像、點云等信息進行互補,克服任務目標可見性隨時空、光照、輻射特性變化差異性大的不利條件,完成目標及特征部件的快速分割和準確識別,得出任務目標的形態(tài)特征及其表達;同時,將目標姿軌運動檢測、估計與行為信息進行關聯(lián),實現(xiàn)多時空非完備信息下任務目標的行為特征提取與表達;最后,在知識引導下基于有限樣本學習方法實現(xiàn)推理模型的構(gòu)建與優(yōu)化,并結(jié)合具體任務環(huán)境及歷史信息,利用所提取的任務目標形態(tài)特征和行為特征進行融合推理,從而實現(xiàn)對目標特征的提取、意圖的判斷以及任務場景的理解。
角色演化主要涉及能力模型構(gòu)建、模型優(yōu)化求解以及任務場景推演三個方面。首先通過給出航天器軟硬件資源到角色能力的映射關系,得到復雜系統(tǒng)綜合能力的高度抽象化歸納,實現(xiàn)系統(tǒng)能力與內(nèi)在指標的精準關聯(lián),為角色演化提供依據(jù);在此基礎上,根據(jù)具體任務場景,以能力模型為約束、能力要素為優(yōu)化變量、能力指標為優(yōu)化目標,通過求解多目標優(yōu)化問題,得出當前時刻下最優(yōu)或次優(yōu)的若干能力要素;最后,根據(jù)所得不同能力要素解以及感知環(huán)節(jié)給出的當前任務場景理解結(jié)果,對任務場景發(fā)展進行多分支推演,得到當前時刻應選擇的能力要素和最優(yōu)能力邊界,據(jù)此通過自組織軟硬件資源驅(qū)動航天器完成角色轉(zhuǎn)變。
任務遂行主要涉及決策反饋機制構(gòu)建、自主快速決策。首先應考慮感知、決策、執(zhí)行的耦合特性,刻畫任務預判結(jié)果、既定任務、能力約束等與目標應對策略間的內(nèi)在關聯(lián)關系,形成決策反饋機制;進而,根據(jù)感知所得的目標特征及意圖,實時對策略子空間進行降維,并在線簡化決策參數(shù)辨識過程,實現(xiàn)在機動能力、計算能力等多種復雜約束條件下復雜任務的自主快速決策。
可以看出,上述理論方法的使用,可使航天器具備類人的目標意圖判斷及任務場景高層次理解能力、根據(jù)不同任務實現(xiàn)角色定義的自身調(diào)節(jié)能力、根據(jù)目標特征及意圖對不確定性的動態(tài)策略實時調(diào)整能力。
將OEDA控制框架實際應用于空間任務時,面臨系統(tǒng)建模及分析、智能訓練與評價、集群化拓展等多方面難點。為此,需解決多個關鍵科學問題,具體為:
1)廣義系統(tǒng)的模型表達及分析
OEDA控制框架下的廣義系統(tǒng)模型是閉環(huán)控制系統(tǒng)設計和性能分析的基礎,包含航天器對象動力學特性、空間環(huán)境特征和控制任務目標及性能等,其作用是實現(xiàn)對感知、演化、決策和執(zhí)行等行為的綜合表征。由于廣義系統(tǒng)模型中既存在邏輯變量,又存在狀態(tài)變量,既存在連續(xù)變量,又存在離散變量,既存在確定性參數(shù)變量,又存在隨機性參數(shù)變量等,因此需探索使用何種數(shù)學工具有效、合理的刻畫廣義系統(tǒng)內(nèi)部狀態(tài)之間相互依賴、競爭、關聯(lián)等復雜作用關系,建立其特征表達模型。在此基礎上,研究OEDA閉環(huán)控制框架下的系統(tǒng)可控性和可觀性分析方法,解決OEDA閉環(huán)設計問題。此外,針對所建立的廣義系統(tǒng)特征表達模型,還需探究采用何種手段對模型的正確性和可信性進行驗證,并研究模型校正方法,使得所建立的表達模型更符合實際情況,解決OEDA控制框架的可靠性和安全性設計問題。
2)智能學習訓練及可評價性問題
智能學習訓練和可評價性研究是基于OEDA控制框架的智能系統(tǒng)實現(xiàn)從設計到應用的核心。對于智能學習訓練,一方面是構(gòu)建在物理模型、環(huán)境模型及行為特征等方面接近真實的平行訓練場景,從而生成高精度和高可信的訓練數(shù)據(jù),解決訓練樣本生成問題;另一方面是考慮任務之間相互關聯(lián),網(wǎng)絡結(jié)構(gòu)離散參數(shù)維度高且相互依賴等特點,研究多任務多目標復雜深度神經(jīng)網(wǎng)絡的高可靠精簡方法,突破其所涉及的獎勵設計、約束設計、動作空間設計等關鍵技術(shù),解決以深度神經(jīng)網(wǎng)絡為代表的學習算法在資源受限航天器系統(tǒng)中的應用部裝問題。對于智能系統(tǒng)評價,首先應構(gòu)建功能完善、性能優(yōu)良的集成仿真驗證系統(tǒng),解決智能系統(tǒng)高保真模擬運行問題;其次還需要研究如何構(gòu)建合理的系統(tǒng)狀態(tài)特征,用于關聯(lián)航天器在軌完成任務能力,建立智能水平驗證體系及具體量化評級指標,保證航天器在應對不確定任務場景過程中感知、演化、決策和執(zhí)行能力是可量化和可評價的,解決OEDA控制框架由理論方法研究轉(zhuǎn)入實際工程應用中面臨的可行性、可靠性和安全性問題。
3)OEDA的集群化問題
在感知層面,對于復雜多樣的空間任務環(huán)境,僅通過單個航天器可能難以獲取充足和準確的環(huán)境及目標信息,可應用多航天器的信息共享與互補,提高對外部環(huán)境的感知與認知能力[88],此時則需研究多層次敏感器、多平臺及多源數(shù)據(jù)的采集、分析、融合處理問題,實現(xiàn)多航天器協(xié)同感知與認知,為其角色演化、任務決策與動作規(guī)劃提供充分依據(jù);在角色演化層面,對于諸如小行星帶探測[89-90]、月背探測[91-92]等空間任務,需要多航天器以不同角色協(xié)同配合完成,此時應研究根據(jù)每個航天器的能力模型、任務類型以及空間部署等因素的航天器角色協(xié)同演化方法,以實現(xiàn)航天器集群最優(yōu)能力部署;當多航天器協(xié)同完成復雜空間任務時,各航天器任務區(qū)域可能存在時空交疊,導致碰撞風險激增、任務沖突加劇,因此,在自主決策層面,需要研究高效協(xié)同決策與動作規(guī)劃方法,實現(xiàn)多航天器的沖突消解、群智涌現(xiàn)。
此外,隨著腦科學、量子科學等前沿科學的發(fā)展,未來有望實現(xiàn)上述技術(shù)與人工智能的有機融合[93-95], 進一步提升OEDA控制框架的智能自主水平和體系適應能力,促進航天器更智能地融入陸、海、空、天一體化體系架構(gòu)中,實現(xiàn)全域異構(gòu)多方位、多視角協(xié)同類人應對不確定任務場景。
目前,航天器的控制系統(tǒng)無法實現(xiàn)對場景的透徹理解、不能根據(jù)多變的任務進行角色演化、難以在不確定任務場景中進行自主決策,造成其泛化能力有限,制約了未來空間任務的有效實施。為解決上述問題,本文提出了一種新型“感知(Observation)-演化(Evolution)-決策(Decision)-執(zhí)行(Action)”星上閉環(huán)控制框架,討論了其特點、功能以及所涉及的理論和方法。同時,針對這種新型星上閉環(huán)的工程應用,給出了需要研究的關鍵科學問題。本文所提出的OEDA控制框架,可賦予航天器類人行為屬性的自主應對不確定性能力,為未來航天器的發(fā)展提供重要技術(shù)儲備。