康旭輝 連劍 趙雪綱
(山東航天電子技術(shù)研究所,山東煙臺 264670)
隨著遙感、雷達(dá)等衛(wèi)星載荷技術(shù)的迅速發(fā)展,星上載荷數(shù)據(jù)的容量和速率快速提高。星上數(shù)據(jù)傳輸技術(shù)和存儲技術(shù)在不斷進(jìn)步,僅靠把原始數(shù)據(jù)下傳不能滿足載荷數(shù)據(jù)的增長需求,嚴(yán)重制約載荷使用效率。同時(shí),衛(wèi)星載荷數(shù)據(jù)實(shí)時(shí)應(yīng)用需求越來越強(qiáng),在現(xiàn)有體系下,用戶不能直接從衛(wèi)星獲得感興趣的業(yè)務(wù)數(shù)據(jù),難以滿足偵查、監(jiān)測等應(yīng)用的時(shí)效性需求。因此對星載高性能實(shí)時(shí)處理平臺的需求越來越強(qiáng)烈。
目前,國內(nèi)高速載荷數(shù)據(jù)處理工作主要由地面系統(tǒng)完成,星上高速實(shí)時(shí)處理技術(shù)還處于初級研究階段,已有的低速星載數(shù)據(jù)處理設(shè)備缺少統(tǒng)一規(guī)劃和標(biāo)準(zhǔn),每個(gè)衛(wèi)星都根據(jù)各自需要和接口進(jìn)行獨(dú)立設(shè)計(jì),還沒有功能完善、標(biāo)準(zhǔn)化、通用化的高速星上實(shí)時(shí)處理系統(tǒng)。國外近幾年的光學(xué)、合成孔徑雷達(dá)(SAR)等遙感衛(wèi)星逐步展開衛(wèi)星在軌通用化、可擴(kuò)展架構(gòu)的在軌處理技術(shù)應(yīng)用[1-3],在軌數(shù)據(jù)處理設(shè)備主要采用CPCI/VME總線架構(gòu),衛(wèi)星基本都具備了遙感圖像數(shù)據(jù)在軌實(shí)時(shí)/近實(shí)時(shí)處理能力,實(shí)現(xiàn)了在軌自動數(shù)據(jù)分析、多傳感器信息融合等技術(shù)。隨著載荷數(shù)據(jù)處理技術(shù)的迅猛發(fā)展,國外相關(guān)機(jī)構(gòu)開展了新一代高速處理系統(tǒng)架構(gòu)研究,相繼推出VPX總線架構(gòu)[4]、OpenVPX標(biāo)準(zhǔn)[5-6]、SpaceVPX標(biāo)準(zhǔn)等,并已經(jīng)逐步開始在軌應(yīng)用。
本文針對高速載荷在軌處理和快速應(yīng)用的需求,采用基于SpaceVPX標(biāo)準(zhǔn)的星上載荷數(shù)據(jù)高速數(shù)據(jù)處理設(shè)計(jì)方案,重點(diǎn)設(shè)計(jì)了“雙星”拓?fù)?、多種功能映射、故障監(jiān)控系統(tǒng)和故障恢復(fù)方式等可靠性提升措施,使系統(tǒng)具備自主監(jiān)控、故障隔離、功能重構(gòu)等能力,減少系統(tǒng)冗余規(guī)模、使系統(tǒng)具備更強(qiáng)的空間適應(yīng)性。
根據(jù)星上原始數(shù)據(jù)特點(diǎn)、目標(biāo)數(shù)據(jù)特點(diǎn)、處理時(shí)間要求等具體需求,基于SpaceVPX標(biāo)準(zhǔn)、Rapid IO協(xié)議等技術(shù),本文設(shè)計(jì)了星載實(shí)時(shí)數(shù)據(jù)處理平臺,以解決面向快速數(shù)據(jù)處理的高速載荷數(shù)據(jù)接入、多路并行運(yùn)算處理、海量數(shù)據(jù)存儲等技術(shù)問題。此外,針對空間應(yīng)用系統(tǒng)故障監(jiān)測困難、故障不可更換維修等特點(diǎn),處理平臺在SpaceVPX標(biāo)準(zhǔn)基礎(chǔ)上設(shè)計(jì)“雙星”控制和交換核心,保證不因控制模塊或交換模塊單模塊的故障而導(dǎo)致整機(jī)失效;處理模塊進(jìn)行適當(dāng)模塊備份,在處理模塊故障后,進(jìn)行模塊替換和功能重構(gòu)。同時(shí),在設(shè)備內(nèi)設(shè)計(jì)智能平臺管理(IPMC)監(jiān)控系統(tǒng),控制各模塊加斷電和工作模式,實(shí)時(shí)監(jiān)控系統(tǒng)工作狀態(tài)。針對高速載荷處理系統(tǒng)擴(kuò)展性要求高、任務(wù)可在軌重構(gòu)等特點(diǎn),設(shè)計(jì)軟件上注通道、功能重構(gòu)流程,保障功能的可擴(kuò)展性。
本文設(shè)計(jì)的星載實(shí)時(shí)數(shù)據(jù)處理平臺由基礎(chǔ)功能部件和功能負(fù)載部件組成?;A(chǔ)功能部件包括公共管理模塊、交換控制模塊和電源模塊,功能負(fù)載部件可擴(kuò)展各種功能單元,如高速數(shù)據(jù)接口模塊、數(shù)據(jù)處理模塊、高速存儲模塊等。為提高系統(tǒng)可靠性,基礎(chǔ)功能部件采用備份設(shè)計(jì),保障系統(tǒng)穩(wěn)定可靠。數(shù)據(jù)處理平臺內(nèi)部基礎(chǔ)功能部件采用雙機(jī)冷備份,功能負(fù)載部件根據(jù)數(shù)據(jù)接口和處理需要進(jìn)行靈活配備,雙機(jī)交叉連接。高速數(shù)據(jù)處理平臺硬件組成如圖1所示。
圖1 數(shù)據(jù)處理平臺硬件組成圖Fig.1 Data processing platform hardware composition diagram
高速數(shù)據(jù)處理平臺各模塊內(nèi)部接口標(biāo)準(zhǔn)化、通用化,方便模塊擴(kuò)展和功能擴(kuò)展,采用嵌入式處理器、數(shù)字信號處理器(DSP)和大規(guī)?,F(xiàn)場可編程門陣列(FPGA)構(gòu)建通用的管理模塊、計(jì)算模塊、高速接口模塊、數(shù)據(jù)交換模塊等,以適應(yīng)各種載荷數(shù)據(jù)接口及數(shù)據(jù)處理算法的需求。數(shù)據(jù)處理平臺以數(shù)據(jù)交換為核心,可以通過多模塊并行處理提高數(shù)據(jù)處理能力;通過狀態(tài)監(jiān)控、冗余容錯(cuò)等技術(shù),提高系統(tǒng)的可管理性、任務(wù)可靠性;通過標(biāo)準(zhǔn)化高速數(shù)據(jù)互連技術(shù),完成高速信號傳輸和數(shù)據(jù)處理;通過網(wǎng)絡(luò)拓?fù)鋵?shí)現(xiàn)良好的擴(kuò)展性,支持設(shè)備規(guī)模的變化及數(shù)據(jù)處理復(fù)雜性的增加。
針對高速數(shù)據(jù)處理平臺對通用化、組合化、高性能,支持容錯(cuò)、重構(gòu)和互連擴(kuò)展能力,及支持通用的高性能商用貨架產(chǎn)品模塊的需求,處理平臺依據(jù)SpaceVPX總線標(biāo)準(zhǔn)設(shè)計(jì)。在SpaceVPX數(shù)據(jù)雙星交換拓?fù)涞幕A(chǔ)上,增加控制雙星拓?fù)浣Y(jié)構(gòu),設(shè)置控制交換,提升系統(tǒng)可靠性。系統(tǒng)控制和數(shù)據(jù)交換兩個(gè)核心都采用雙冗余交換開關(guān)式互連體系架構(gòu)設(shè)計(jì)。設(shè)備拓?fù)浣Y(jié)構(gòu)如圖2所示,拓?fù)浣Y(jié)構(gòu)中的主要節(jié)點(diǎn)或所有節(jié)點(diǎn)采取冗余備份措施,各節(jié)點(diǎn)模塊之間采用點(diǎn)對點(diǎn)數(shù)據(jù)路徑,而不是總線路徑,以提高數(shù)據(jù)處理系統(tǒng)容錯(cuò)能力,并避免單模塊失效影響整個(gè)系統(tǒng)。
圖2 “雙星”高速拓?fù)鋱DFig.2 Dual-satellites high-speed topology
數(shù)據(jù)處理平臺有兩種類型的槽位接口定義:基礎(chǔ)功能槽及功能負(fù)載槽。其中基礎(chǔ)功能槽的位置是固定的,除此之外,其它所有的槽位都?xì)w結(jié)為功能負(fù)載槽,即數(shù)據(jù)接口模塊、數(shù)據(jù)處理模塊、高速儲存模塊等都采用統(tǒng)一的負(fù)載槽接口定義,各負(fù)載模塊對所插的槽位不做限制,可隨意插換。這種架構(gòu)設(shè)計(jì)不僅增強(qiáng)了系統(tǒng)可操作性和通用性,而且兼顧高性能的同時(shí)降低了系統(tǒng)研發(fā)成本。
處理平臺由多個(gè)數(shù)據(jù)處理模塊組成分布式多處理機(jī)系統(tǒng),交換控制模塊作為分布式網(wǎng)絡(luò)系統(tǒng)綜合管理角色,以處理模塊為粒度進(jìn)行管理,通過對數(shù)據(jù)流的控制實(shí)現(xiàn)任務(wù)分配、調(diào)度和處理流程控制。當(dāng)某一模塊出現(xiàn)故障時(shí),實(shí)現(xiàn)系統(tǒng)資源的重分配和處理任務(wù)的動態(tài)遷移。在單個(gè)處理模塊內(nèi)部采用相似的架構(gòu),以處理芯片為粒度進(jìn)行管理,實(shí)現(xiàn)對模塊級處理任務(wù)更細(xì)致的調(diào)配和管理。
在高速數(shù)據(jù)處理平臺的體系結(jié)構(gòu)中,可將系統(tǒng)分成兩部分:一部分為用于任務(wù)調(diào)度和管理的控制管理單元;另一部分為通過數(shù)據(jù)鏈路互聯(lián)的分布式嵌入式集群。所有數(shù)據(jù)的交換和流轉(zhuǎn),都以交換管理模塊為核心,在交換模塊內(nèi)完成數(shù)據(jù)路徑和處理流程的規(guī)劃。各信息處理層之間通過串行高速輸入輸出接口(SRIO)標(biāo)準(zhǔn)建立數(shù)據(jù)流,某個(gè)信息處理層如果采用多個(gè)處理模塊,模塊間的處理流程可以并行化處理,也可以串行流水處理,每層的數(shù)據(jù)處理流程設(shè)置由每層配置管理單元來完成。根據(jù)不同任務(wù)的復(fù)雜程度、任務(wù)對計(jì)算資源的需求等,對每一級處理流程配備相關(guān)的平臺資源,典型數(shù)據(jù)處理過程如圖3所示。
注:Mx表示x號處理模塊。
圖3 典型數(shù)據(jù)處理過程圖
Fig.3 Typical data processing flow
為提高系統(tǒng)可靠性,結(jié)合本文設(shè)計(jì)的雙控制核心的特點(diǎn),系統(tǒng)內(nèi)部通過智能平臺管理接口(IPMI)實(shí)現(xiàn)各功能模塊的故障監(jiān)測和狀態(tài)管理[7]。IPMI是一種開放標(biāo)準(zhǔn)的硬件管理接口規(guī)格,定義了嵌入式管理子系統(tǒng)進(jìn)行通信的特定方法,用以檢測數(shù)據(jù)處理平臺的物理健康特征[8]。系統(tǒng)內(nèi)IPMI組成如圖4所示。
圖4 系統(tǒng)內(nèi)IPMI組成圖Fig.4 IPMI composition in system
IPMI系統(tǒng)主要由位于公共管理模塊的機(jī)架管理控制器(ShMC),位于各功能模塊的智能平臺管理器(IPMC)以及內(nèi)部冗余的智能平臺管理總線(IPMB)組成。IPMB選擇I2C總線實(shí)現(xiàn)。其中ShMC負(fù)責(zé)整個(gè)數(shù)據(jù)處理平臺的監(jiān)測和狀態(tài)管理,IPMC負(fù)責(zé)對各功能模塊的監(jiān)測、狀態(tài)管理、現(xiàn)場記錄和加斷電控制,監(jiān)測狀態(tài)包括功能模塊處理器運(yùn)行狀態(tài)、工作溫度、工作電壓等。IPMC通過冗余雙總線IPMB_A和IPMB_B與ShMC通信,將各功能模塊狀態(tài)信息匯總至ShMC,同時(shí)接收并執(zhí)行ShMC轉(zhuǎn)發(fā)的指令。ShMC除具備IPMC所有功能外,還具備故障判斷、定位和隔離能力。ShMC判斷出某一模塊出現(xiàn)故障時(shí),可以根據(jù)故障情況控制問題模塊斷電,實(shí)現(xiàn)故障隔離。同時(shí)ShMC將所有的平臺監(jiān)測信息匯總,發(fā)送給上一級管理設(shè)備和平臺的公共管理模塊,為實(shí)現(xiàn)系統(tǒng)容錯(cuò)重構(gòu)提供決策依據(jù)。
光學(xué)載荷在軌圖像處理系統(tǒng)是高速實(shí)時(shí)處理平臺的典型應(yīng)用。相機(jī)獲得數(shù)據(jù)后,在通過識別算法提取某一關(guān)注目標(biāo)時(shí),需要生成0~3級信息數(shù)據(jù)(其中0級信息代表接收的原始數(shù)據(jù)及簡單預(yù)處理,3級信息對應(yīng)于關(guān)注目標(biāo)的核心數(shù)據(jù)及目標(biāo)切片圖像),而1級和2級信息生成過程需要進(jìn)行復(fù)雜的圖像識別和比對算法,算法復(fù)雜度高、運(yùn)算量大,需要分別配置多個(gè)數(shù)據(jù)處理模塊。
以典型圖像處理系統(tǒng)設(shè)計(jì)高速數(shù)據(jù)處理平臺,平臺配置1個(gè)接口模塊、5個(gè)處理模塊、1個(gè)存儲模塊、1個(gè)公共管理模塊(含主備)、2個(gè)交換模塊。接口模塊完成載荷的高速數(shù)據(jù)流接收;通過多個(gè)數(shù)據(jù)處理模塊構(gòu)成并行計(jì)算環(huán)境,完成載荷數(shù)據(jù)的實(shí)時(shí)處理;存儲模塊用于存儲目標(biāo)數(shù)據(jù),實(shí)現(xiàn)目標(biāo)特征數(shù)據(jù)庫,支持重點(diǎn)目標(biāo)分析判別;交換控制模塊為模塊間互聯(lián)提供數(shù)據(jù)傳輸通路,各處理節(jié)點(diǎn)通過交換模塊形成靈活的星型拓?fù)浣Y(jié)構(gòu);公共管理模塊負(fù)責(zé)平臺系統(tǒng)管理,實(shí)現(xiàn)故障容錯(cuò)、資源管理和任務(wù)調(diào)度,完成數(shù)據(jù)處理模塊算法的動態(tài)變更。數(shù)據(jù)處理平臺內(nèi)部采用I2C控制總線和4×SRIO數(shù)據(jù)總線連接,所有模塊接口形式統(tǒng)一。數(shù)據(jù)處理平臺單模塊數(shù)據(jù)帶寬為40 Gbit/s,預(yù)留24路交換端口,最多可外設(shè)12個(gè)高速模塊,設(shè)備內(nèi)部總帶寬可達(dá)240 Gbit/s,可以滿足常規(guī)高速數(shù)據(jù)處理的需求。
處理平臺的架構(gòu)具有支持串并行混合處理、支持多級應(yīng)用層信息同時(shí)獲取、支持故障容錯(cuò)重構(gòu)及支持任務(wù)動態(tài)重構(gòu)等特點(diǎn)。按照在軌數(shù)據(jù)變化檢測、目標(biāo)判別和跟蹤等信息處理需求,處理平臺內(nèi)配置多個(gè)信息處理層,信息處理層之間采用流水線處理過程,大大提高系統(tǒng)的處理能力。處理模塊可自由組合,并配置5套被選處理軟件,滿足不同衛(wèi)星的需求,也可根據(jù)處理任務(wù)的要求,對每個(gè)處理模塊進(jìn)行軟件重配、重新編組劃分,實(shí)現(xiàn)硬件和軟件系統(tǒng)在軌重配置和在軌重構(gòu)。
在系統(tǒng)設(shè)備配置滿足在軌目標(biāo)提取與信息生成等數(shù)據(jù)處理能力的情況下,系統(tǒng)需要具備在軌任務(wù)更新的要求。系統(tǒng)內(nèi)需對信息處理層進(jìn)行重新組合和任務(wù)分配,可由地面注入配置信息,也可以交換控制模塊自主進(jìn)行。地面通過總線注入應(yīng)用軟件的配置信息或重新注入處理算法,由交換控制模塊向特定的信息處理層加載處理。
當(dāng)?shù)孛嫘枰R別提取其他關(guān)注目標(biāo)時(shí),對原有處理流程進(jìn)行重新規(guī)劃。根據(jù)新任務(wù)的處理需求,假設(shè)只有2級信息生成過程需要進(jìn)行更高的處理能力,需要配置3個(gè)數(shù)據(jù)處理模塊。控制模塊控制各處理模塊重新加載處理軟件,交換模塊根據(jù)配置需求更改數(shù)據(jù)流路徑,完成整機(jī)功能重新配置。經(jīng)過實(shí)測,任務(wù)重配置時(shí)間約為2.7 s。根據(jù)任務(wù)動態(tài)重構(gòu)的過程如圖5所示。
圖5 任務(wù)動態(tài)重構(gòu)過程示意Fig.5 Dynamic reconfiguration process diagram
數(shù)據(jù)處理平臺通過IPMI監(jiān)測和管理臺各功能模塊的工作狀態(tài),平臺的5個(gè)處理模塊硬件電路完全相同。當(dāng)系統(tǒng)設(shè)備啟動后,由交換控制模塊根據(jù)任務(wù)特性,對各信息處理層的數(shù)據(jù)處理模塊進(jìn)行配置和軟件加載,其中備份模塊5處于斷電備份狀態(tài)。
當(dāng)某個(gè)處理模塊出現(xiàn)故障時(shí),控制模塊起用備份模塊,立即加載相應(yīng)的處理軟件,交換控制模塊重新分配數(shù)據(jù)流,由備份模塊接替故障模塊工作。數(shù)據(jù)處理平臺在單模塊故障情況下,硬件功能遷移過程如圖6所示。
經(jīng)過實(shí)測,故障檢測到任務(wù)自動重構(gòu)的時(shí)間約為2.5 s。由于數(shù)據(jù)處理模塊間的交互是通過高速網(wǎng)絡(luò)交叉開關(guān)進(jìn)行的,在平臺進(jìn)行功能遷移時(shí),非故障模塊的軟件不用更改,只需由交換控制模塊通過交換網(wǎng)絡(luò)加載故障層的軟件給備份模塊即可,從而確保數(shù)據(jù)處理和信息生成流程的順利執(zhí)行。
圖6 故障狀態(tài)下任務(wù)遷移流程圖Fig.6 Tasks migration flow under the fault state
SpaceVPX標(biāo)準(zhǔn)應(yīng)用于星載數(shù)據(jù)實(shí)時(shí)處理,可有效提升性能和處理能力,針對宇航應(yīng)用的系統(tǒng)可靠性提高、功能重構(gòu)、故障隔離、功能恢復(fù)等問題,文章從系統(tǒng)整體出發(fā),設(shè)計(jì)了“雙星”拓?fù)洹⒍喾N功能映射、故障監(jiān)控系統(tǒng)和故障恢復(fù)方式等可靠性提升措施,實(shí)現(xiàn)了星上數(shù)據(jù)處理平臺在設(shè)備級、功能模塊級、重要元器件級故障實(shí)時(shí)檢測,故障及時(shí)準(zhǔn)確識別定位,按照故障預(yù)案對故障進(jìn)行隔離和功能恢復(fù)處理,保證在出現(xiàn)故障時(shí),系統(tǒng)仍能處于安全狀態(tài)。
基于SpaceVPX標(biāo)準(zhǔn)的高速數(shù)據(jù)處理平臺的設(shè)計(jì)方法,以數(shù)據(jù)系統(tǒng)為核心,各處理模塊之間數(shù)據(jù)交換帶寬高,拓?fù)渎窂秸{(diào)整靈活,監(jiān)控體系完善,有效解決了設(shè)備速率提高、功能重構(gòu)、故障隔離、功能恢復(fù)問題,減少設(shè)備內(nèi)備份數(shù)量,為星上高速率載荷數(shù)據(jù)實(shí)時(shí)處理、數(shù)據(jù)快速應(yīng)用提供了一種新的高效途徑。