劉鋒 任光杰 李敬博 王崇羽
(航天東方紅衛(wèi)星有限公司,北京 100094)
航天器電氣地面支持設(shè)備(EGSE)是航天器研制過程中的一個重要支持設(shè)備系統(tǒng),由總控設(shè)備(OCOE)與專用設(shè)備(SCOE)組成。其中,OCOE負(fù)責(zé)完成測試數(shù)據(jù)庫準(zhǔn)備、測試過程管理、數(shù)據(jù)處理與驗證、實時測試控制等[1]。隨著OCOE硬件和軟件的不斷發(fā)展,它的構(gòu)成也越來越復(fù)雜。作為EGSE的控制核心,OCOE穩(wěn)定可靠運行是確保航天器研制任務(wù)順利進(jìn)行的關(guān)鍵,如何提升OCOE的可靠性,是EGSE發(fā)展的一個重要研究方向。國內(nèi)近年對OCOE的研究主要關(guān)注其自動化功能與多星支持功能[2-3],缺乏能夠提高系統(tǒng)可靠性的OCOE方案的相關(guān)研究。
本文通過對OCOE的可靠性進(jìn)行研究,分析影響可靠性的因素,提出了一種應(yīng)用Xen虛擬機技術(shù)的OCOE方案,可實現(xiàn)設(shè)備故障的系統(tǒng)自動容錯與處理,解決傳統(tǒng)系統(tǒng)中故障處理必須由崗位人員現(xiàn)場迅速實施的不足。
典型的OCOE由主測試處理器(MTP)、測試操作臺、遙測/遙控(TM/TC)前端機、數(shù)據(jù)圖形顯示器組成[1]。隨著計算機存儲技術(shù)的發(fā)展,數(shù)據(jù)庫系統(tǒng)開始應(yīng)用于航天器測試系統(tǒng),同時測試自動化程度也不斷加深,小衛(wèi)星OCOE在原有的基礎(chǔ)上增加了基礎(chǔ)數(shù)據(jù)庫、實時數(shù)據(jù)庫及文件調(diào)度服務(wù)器,MTP增加了自動化判讀的功能,如圖1所示。OCOE由多臺計算機及不同功能的軟件組成,基礎(chǔ)數(shù)據(jù)庫存儲衛(wèi)星遙控指令碼字?jǐn)?shù)據(jù)、遙測參數(shù)的解析方法等配置信息,實時數(shù)據(jù)庫存儲衛(wèi)星測試過程中產(chǎn)生的全部工程數(shù)據(jù),文件及調(diào)度服務(wù)器存儲衛(wèi)星測試用文檔及軟件數(shù)據(jù)。
圖1 OCOE組成
影響OCOE可靠性的因素如表1所示。其中:計算機硬件故障及計算機病毒對OCOE的影響較大,發(fā)生時無法在短時間內(nèi)恢復(fù)正常狀態(tài)。計算機操作系統(tǒng)故障與網(wǎng)絡(luò)通信設(shè)備故障發(fā)生時會造成相應(yīng)設(shè)備短暫失能,重啟或更換設(shè)備后可恢復(fù)正常狀態(tài);隨著計算機技術(shù)和網(wǎng)絡(luò)通信設(shè)備生產(chǎn)技術(shù)的發(fā)展,其出現(xiàn)的概率大大降低。應(yīng)用軟件的健壯性和容錯性,除了可以在軟件的總體設(shè)計及錯誤處理機制設(shè)計時進(jìn)行針對性的增強,也可以在使用過程中通過不斷改進(jìn)和完善來持續(xù)提升。
表1 可靠性影響因素
在傳統(tǒng)的OCOE突發(fā)故障預(yù)案中,對于硬件,一般采用冗余備份的方式,當(dāng)主份硬件故障時,及時更換備份設(shè)備。對于軟件,采用拷貝備份方式,確保發(fā)生故障時,能夠通過軟件拷貝快速重建工作狀態(tài)。對于數(shù)據(jù)庫,一般采用主備數(shù)據(jù)庫同時存儲數(shù)據(jù)的方式,保證數(shù)據(jù)安全。從這些風(fēng)險控制措施可以看出,當(dāng)故障發(fā)生時,設(shè)備負(fù)責(zé)人員必須能夠在現(xiàn)場及時、迅速處置,這就對人力配置和專業(yè)能力提出了較高的要求。隨著衛(wèi)星的種類和數(shù)量不斷提升,批產(chǎn)化程度越來越高,人員配置方式已經(jīng)無法滿足現(xiàn)場實時進(jìn)行故障處置的需求,因此必須探索通過技術(shù)手段來實現(xiàn)故障的自動處理。
虛擬機技術(shù)是指通過軟件模擬具有完整硬件功能的計算機系統(tǒng)的技術(shù),可以像使用實體計算機一樣對虛擬機進(jìn)行操作。Xen虛擬機技術(shù)是思杰(Citrix)公司推出的一種企業(yè)級的虛擬機技術(shù),通過XenServer服務(wù)器建立一種全面而易于管理的服務(wù)器虛擬化平臺,能夠高效地管理Windows和Linux虛擬服務(wù)器,實現(xiàn)經(jīng)濟(jì)高效的服務(wù)器整合[4-6]。其具有部署快速、可靠性高的特點,具體如下。
(1)每臺XenServer服務(wù)器上可以運行多臺相互獨立的虛擬機,每臺虛擬機都有自己的硬盤、內(nèi)存、網(wǎng)卡等虛擬硬件且可以靈活配置,虛擬機數(shù)量僅受限于服務(wù)器的CPU和內(nèi)存大小[7-8]。用戶可以通過網(wǎng)絡(luò)遠(yuǎn)程桌面訪問每臺虛擬機[9]。
(2)多臺XenServer服務(wù)器可以組成1個服務(wù)器池,由內(nèi)部控制軟件統(tǒng)一調(diào)度,池內(nèi)任意一臺服務(wù)器出現(xiàn)硬件故障導(dǎo)致無法正常工作時,其上運行的虛擬機就會立即遷移到池內(nèi)其他服務(wù)器上,遷移過程中虛擬機正常工作[10]。
(3)服務(wù)器可以通過網(wǎng)卡綁定操作,將2個物理網(wǎng)卡接口在操作系統(tǒng)驅(qū)動層合并成一個綁定網(wǎng)卡,即使有1個物理網(wǎng)卡接口發(fā)生故障,綁定后的網(wǎng)卡仍然可以正常工作。
(4)虛擬機快照功能可以保存虛擬機當(dāng)前狀態(tài),并可以在任意時間迅速恢復(fù)到這個狀態(tài)。
(5)通過桌面推送功能,能夠?qū)⑹孪榷x好的桌面系統(tǒng)推送到多個計算機終端[11]。
(6)可以使用由磁盤陣列設(shè)備及控制服務(wù)器組成的外部大容量存儲設(shè)備,多個磁盤故障不影響數(shù)據(jù)安全[12]。
應(yīng)用Xen虛擬機技術(shù)構(gòu)建的Xen虛擬系統(tǒng)如圖2所示。其中,硬件層3臺XenServer服務(wù)器組成服務(wù)器池,使用外部大容量存儲設(shè)備存儲所有虛擬機的信息和數(shù)據(jù)。虛擬層運行所有的虛擬機,桌面推送服務(wù)也通過虛擬機來實現(xiàn)。Xen虛擬系統(tǒng)的高可靠性主要體現(xiàn)在系統(tǒng)能夠通過容錯與故障自動處理機制來應(yīng)對突發(fā)的故障,如表2所示。
圖2 Xen虛擬系統(tǒng)構(gòu)成
表2 故障自動處理機制
應(yīng)用Xen虛擬機技術(shù)構(gòu)建的OCOE架構(gòu),如圖3所示。OCOE中所有服務(wù)類型的計算機都以虛擬機的形式運行在Xen虛擬系統(tǒng)中,包括基礎(chǔ)數(shù)據(jù)庫、實時數(shù)據(jù)庫、MTP及判讀服務(wù)器、文件及調(diào)度服務(wù)器、TM/TC前端機。交互類型的計算機如測試操作臺、數(shù)據(jù)顯示終端等都部署在Xen虛擬系統(tǒng)外部。
圖3 應(yīng)用Xen虛擬機技術(shù)構(gòu)建的OCOE
基于Xen虛擬機技術(shù)構(gòu)建的總控系統(tǒng)具有高可靠特點,主要表現(xiàn)如下。
(1)通過虛擬化技術(shù)將原有的服務(wù)類型的實體計算機轉(zhuǎn)為虛擬機形式,避免了實體計算機硬盤、內(nèi)存、網(wǎng)卡故障導(dǎo)致的失能。
(2)虛擬系統(tǒng)通過容錯與故障自動處理機制,能夠自動處理硬盤故障、網(wǎng)卡故障、內(nèi)存故障、服務(wù)器重啟、計算機病毒五大類常見的故障,提高了系統(tǒng)故障處理的自動化水平,避免了故障處理依賴于崗位人員迅速實施的不足。
應(yīng)用Xen虛擬機技術(shù)的OCOE方案已在航天東方紅衛(wèi)星有限公司全面實施,分為固定場地模式與外場模式2種方式。
固定場地模式面向航天東方紅衛(wèi)星有限公司內(nèi)部的固定衛(wèi)星研制工位,為在固定工位內(nèi)研制的衛(wèi)星提供OCOE支持,在這種模式下虛擬系統(tǒng)選用高性能硬件,全部硬件部署在網(wǎng)絡(luò)機房,部署情況如圖4所示。在實際應(yīng)用中,由6臺XenServer服務(wù)器構(gòu)成的Xen虛擬系統(tǒng),能夠提供近200臺虛擬機7×24 h運行,以及300臺數(shù)據(jù)顯示終端的桌面推送服務(wù),可以同時為30多顆衛(wèi)星提供測試服務(wù)。
圖4 固定場地模式下的OCOE部署
外場模式面向在航天東方紅衛(wèi)星有限公司之外的場所進(jìn)行測試、試驗的衛(wèi)星,以及去發(fā)射場執(zhí)行發(fā)射任務(wù)的衛(wèi)星,此時需要單獨構(gòu)建OCOE。這種模式下,虛擬系統(tǒng)采用精簡模式,由2臺服務(wù)器提供虛擬服務(wù),部署情況如圖5所示。在實際應(yīng)用中,硬件選用普通性能服務(wù)器就可以滿足衛(wèi)星測試的需求,能夠提供10臺虛擬機7×24 h運行,以及30臺數(shù)據(jù)顯示終端的桌面推送服務(wù)。
圖5 外場模式下的OCOE部署
應(yīng)用Xen虛擬機技術(shù)的OCOE方案與傳統(tǒng)方案相比,在出現(xiàn)同樣的故障時,會產(chǎn)生不同的影響結(jié)果,如表3所示。通過比較可以看出,應(yīng)用Xen虛擬機技術(shù)的OCOE在可靠性方面獲得極大的提升。
表3 與傳統(tǒng)方案的可靠性比較
應(yīng)用Xen虛擬機技術(shù)的小衛(wèi)星OCOE方案,已經(jīng)成功應(yīng)用于多顆小衛(wèi)星測試,解決了原有方案的可靠性控制措施必須由人來迅速實施的不足,具備了自動處置五大類常見故障的容錯能力,極大地提高了OCOE的可靠性。該方案在實現(xiàn)高可靠的同時,通過采用成熟技術(shù)產(chǎn)品、構(gòu)建通用化系統(tǒng),降低了OCOE設(shè)備研發(fā)成本,通過將實體計算機虛擬化,節(jié)省了大量計算機設(shè)備的購置費用及場地占用成本,具有很好的推廣應(yīng)用價值。小衛(wèi)星外場試驗時,部署Xen虛擬系統(tǒng)步驟較繁瑣,后續(xù)將研究外場模式部署過程的優(yōu)化,如衛(wèi)星測試數(shù)據(jù)庫的快速遷移方法和虛擬桌面推送的簡化實現(xiàn)方法。