李瑞雪,張澤旭
(哈爾濱工業(yè)大學(xué)深空探測基礎(chǔ)研究中心, 哈爾濱150001)
航天器健康狀態(tài)監(jiān)測/異常檢測軟件的目標(biāo)是通過對遙測數(shù)據(jù)的判讀,及時發(fā)現(xiàn)航天器可能存在的異常。 提升異常的識別率對保障航天器在軌正常運(yùn)行具有重要意義。
隨著航天器功能復(fù)雜化以及類型多樣化,需監(jiān)測的遙測數(shù)據(jù)維度呈膨脹式增長。 中國工程上一直采用傳統(tǒng)的人工數(shù)據(jù)判讀、閾值自動判讀以及專家經(jīng)驗的手段進(jìn)行遙測數(shù)據(jù)異常檢測。這些方法簡單且容易實(shí)施,可有效地檢測部分預(yù)設(shè)異常,但也存在技術(shù)問題:①存在大量異常,其癥狀并不能通過簡單的監(jiān)測數(shù)據(jù)上下限來進(jìn)行檢測,換言之,很多類型的異常發(fā)生時并不會引起變量超過閾值;②預(yù)設(shè)大量變量的閾值,人力成本高,并且考慮不同的工作狀態(tài)來調(diào)整閾值是非常費(fèi)時費(fèi)力的;③一旦閾值設(shè)置不合理,不僅不能有效檢測異常,還會引起大量虛假警報,導(dǎo)致工作人員忽視真正的異常事件;④閾值設(shè)定的可擴(kuò)展性差,監(jiān)測不同航天器,閾值就需要重新人工設(shè)定,不具備普遍適應(yīng)性。 傳統(tǒng)的航天器異常檢測方式已經(jīng)不能滿足當(dāng)前航天技術(shù)發(fā)展需求。
隨著天宮二號實(shí)驗室于2019 年7 月19 日受控離軌,中國空間站工程全面展開,正式邁進(jìn)空間站時代。 空間站結(jié)構(gòu)復(fù)雜,狀態(tài)特征參數(shù)類型多,在軌運(yùn)行時間長。 中國空間站未來一個艙段就有3 萬多個參數(shù),整體參數(shù)可達(dá)10 萬個,設(shè)計壽命10 年,這對數(shù)據(jù)驅(qū)動的航天器狀態(tài)監(jiān)測提出了更迫切的需求。
進(jìn)入21 世紀(jì)后,以傳感器監(jiān)測數(shù)據(jù)為基礎(chǔ),數(shù)據(jù)驅(qū)動的自動異常檢測技術(shù)成為國內(nèi)外研究的熱點(diǎn)所在,各國積極開發(fā)了數(shù)據(jù)驅(qū)動的異常檢測工具,并在航天領(lǐng)域進(jìn)行了一定的應(yīng)用。 因此,本文對數(shù)據(jù)驅(qū)動的航天器異常檢測工具進(jìn)行綜述,以獲得對未來中國空間站管理的啟示。
數(shù)據(jù)驅(qū)動的異常檢測首先將機(jī)器學(xué)習(xí)算法應(yīng)用于待監(jiān)測系統(tǒng)以往的操作數(shù)據(jù),學(xué)習(xí)系統(tǒng)的經(jīng)驗?zāi)P停缓笫褂盟鶎W(xué)習(xí)的模型評估最近的操作數(shù)據(jù),檢查系統(tǒng)是否正常。 其受關(guān)注的主要原因包括:①自學(xué)習(xí),數(shù)據(jù)驅(qū)動方法無需提前獲知專家經(jīng)驗,能夠通過分析正常數(shù)據(jù)來檢測未知的以及處于閾值內(nèi)的異常模式;②擴(kuò)展性強(qiáng),可同時用于多種類型的遙測參數(shù)以及不同類型航天器的異常發(fā)現(xiàn);③自動檢測方式,在提升效率的同時可顯著降低系統(tǒng)工作負(fù)擔(dān);④多維判讀,對描述系統(tǒng)或單機(jī)狀態(tài)的多個參數(shù)進(jìn)行組合處理,全面反映系統(tǒng)的某一分系統(tǒng)或單機(jī)設(shè)備的狀態(tài)。 數(shù)據(jù)驅(qū)動的航天器遙測數(shù)據(jù)自動異常檢測技術(shù)已經(jīng)成為具有現(xiàn)實(shí)工程價值的研究主題。
進(jìn)入21 世紀(jì)后數(shù)據(jù)驅(qū)動的異常檢測工具在航天領(lǐng)域進(jìn)行了一定的應(yīng)用,其中影響最大、應(yīng)用最廣的是NASA 的Inductive Monitoring System(IMS)工具。
2.1.1 基本思想
IMS 是一個通用的異常檢測工具,已成功應(yīng)用于多個航空航天項目,可以在實(shí)時數(shù)據(jù)流上執(zhí)行。
IMS 采用基于距離的聚類算法,其基本思想如下:①假設(shè)某系統(tǒng)健康狀態(tài)由一系列特征參數(shù)的值來表述,這些參數(shù)值映射為多維空間中的一個向量(點(diǎn)),不同時刻向量(點(diǎn))間距離大小可以表示狀態(tài)差異的程度。 ②IMS 使用系統(tǒng)正常狀態(tài)的運(yùn)行數(shù)據(jù)作為訓(xùn)練庫,經(jīng)聚類后獲得簇集的信息,簇集的信息構(gòu)成系統(tǒng)健康狀態(tài)模型。 ③在進(jìn)行健康狀態(tài)監(jiān)測時,待評估狀態(tài)與系統(tǒng)健康狀態(tài)模型進(jìn)行對比,如果待評估數(shù)據(jù)向量位于健康區(qū)域之內(nèi),則系統(tǒng)處于健康狀態(tài);如果待評估數(shù)據(jù)向量到健康區(qū)域的距離為一個較小的非0 值,則發(fā)送一個低等級的警報信息,表示當(dāng)前狀態(tài)暫時偏離正常工作狀態(tài),但仍處于健康狀態(tài);如果數(shù)據(jù)向量連續(xù)處于健康區(qū)域之外,且到健康區(qū)域的距離較大,則認(rèn)為系統(tǒng)此時處于異常狀態(tài),根據(jù)距離值的大小發(fā)送中等級或高等級的警報。
2.1.2 應(yīng)用和改進(jìn)
最初,IMS 采用的聚類算法是K-均值和基于密度的聚類。 2007 年,NASA 開始采用IMS 工具實(shí)時監(jiān)測國際空間站(International Space Station, ISS)控制力矩陀螺系統(tǒng)。 IMS 廣泛應(yīng)用于混合燃燒設(shè)施、航天飛機(jī)、 UH-60 黑鷹直升機(jī)等多個航空航天項目。 除直接應(yīng)用外,IMS 還是ACAWS 系統(tǒng)、AMO 軟件系統(tǒng)中的重要組件。
2010 年IMS 用于NASA 開發(fā)的下一代載人航天器故障管理系統(tǒng)-高級提醒和警告系統(tǒng)(Advanced Caution and Warning System,ACAWS),IMS 是其主要組件之一。 ACAWS在2011-2012 年間進(jìn)行了3 次測試,該系統(tǒng)將異常檢測、自動故障診斷、分析故障對系統(tǒng)和任務(wù)影響評估等結(jié)合起來以幫助航天器操作人員(包括飛行控制員和機(jī)組人員)更有效地理解和應(yīng)對異常情,構(gòu)架如圖1。 該系統(tǒng)的4 個主要組成部分是:①異常檢測;②故障檢測和診斷;③系統(tǒng)影響分析;④圖形用戶界面。 這些模塊通過面向中間對象的Internet 通信引擎(Internet Communications Engine,ICE)相互通信并與待監(jiān)測系統(tǒng)-DSH 模塊通信。
圖1 ACAWS 的系統(tǒng)構(gòu)架[7]Fig.1 The ACAWS architecture[7]
2012 年用于ISS 的IMS 進(jìn)行了升級,稱為異常監(jiān)測感應(yīng)軟件系統(tǒng)( Anomaly Monitoring Inductive Software System,AMISS),采用了一種改進(jìn)的監(jiān)測算法:基于估計聚類的異常點(diǎn)檢測( Outlier Detection Via Estimating Clusters,ODVEC)算法。 ODVEC 使用并擴(kuò)充來自IMS監(jiān)控模塊的代碼,可以使用IMS 學(xué)習(xí)聚類算法構(gòu)建的聚類,也可以使用其他聚類算法的輸入。ODVEC 通過將系統(tǒng)數(shù)據(jù)向量與模型中的多個數(shù)據(jù)樣本進(jìn)行比較,而不僅僅是單一的最佳匹配數(shù)據(jù)點(diǎn),顯著增強(qiáng)了IMS 監(jiān)視器的性能。 除了ODVEC,AMISS 還采用了新技術(shù)來計算當(dāng)前系統(tǒng)行為與以前一系列類似標(biāo)稱操作的偏差程度,并開發(fā)了參數(shù)選擇和加權(quán)工具以及圖形用戶界面,在約翰遜航天中心任務(wù)控制中心(JSCMCC)的一臺專用服務(wù)器上安裝并認(rèn)證了的AMISS 圖形開發(fā)環(huán)境。 這種開發(fā)環(huán)境允許用戶構(gòu)建和更新運(yùn)行在飛行控制控制臺上的實(shí)時健康監(jiān)測應(yīng)用程序所使用的系統(tǒng)模型。 AMISS 初始安裝支持ISS 熱、動力、生命支持、姿態(tài)控制以及姿態(tài)確定和控制等系統(tǒng)。
在 2014 年獵戶座探索飛行試驗 1(Exploration Flight Test-1,EFT-1)任務(wù)中,NASA利用實(shí)時遙測數(shù)據(jù)源,提出了一種構(gòu)建和更新IMS 知識庫的方案。 利用獵戶座仿真和測試數(shù)據(jù)構(gòu)建了初始電池系統(tǒng)知識庫。 該知識庫用于監(jiān)測獵戶座EFT-1 飛行數(shù)據(jù)的前15 min,并自動過濾結(jié)果,以僅基于遙測數(shù)據(jù)(忽略先前的模擬和測試數(shù)據(jù))生成基線知識庫,在整個任務(wù)過程中,用最近創(chuàng)建的知識庫對隨后15 min 的時間段進(jìn)行監(jiān)控,并將過濾結(jié)果合并到一起,生成下一個知識庫。 作為實(shí)現(xiàn)IMS 模型自動更新或在線學(xué)習(xí)的一步,開發(fā)了數(shù)據(jù)過濾功能,以根據(jù)ODVEC結(jié)果檢測和移除可疑的非標(biāo)稱系統(tǒng)數(shù)據(jù)樣本。 這些過濾功能可應(yīng)用于實(shí)時數(shù)據(jù),以清除數(shù)據(jù)流,以便隨后并入該系統(tǒng)的IMS 知識庫。 在EFT-1 任務(wù)中,利用實(shí)時遙測數(shù)據(jù)源,采用濾波方案構(gòu)造和更新Orion 電池子系統(tǒng)知識庫。 初步評估顯示,過濾和更新程序是有效的,在整個任務(wù)期間,監(jiān)測偏差分?jǐn)?shù)普遍下降,表明模型改進(jìn)成功,但ODVEC 結(jié)果中仍清楚地反映出微小的數(shù)據(jù)變化,表明自動更新的模型保持了敏感性。
2015 年IMS 工具用于NASA 自主任務(wù)操作(Autonomous Mission Operations,AMO)項目的演示實(shí)驗。 AMO 項目展示了通過先進(jìn)的軟件幫助宇航員在較少的地球援助下操作航天器。在航天員自主管理ISS 有機(jī)碳分析儀的演示實(shí)驗AMO TOCA-SSC 中,AMO 軟件包括任務(wù)規(guī)劃、異常檢測、故障診斷等模塊,這些模塊處理完數(shù)據(jù)后會調(diào)用JSON 編寫器將處理結(jié)果生成大量的動態(tài)內(nèi)容,最后在用戶界面顯示。 AMO 服務(wù)器框架如圖2。
圖2 AMO 服務(wù)器構(gòu)架[16]Fig.2 The AMO Server Architecture[16]
Novelty Detection是歐空局開發(fā)的系統(tǒng)新行為,檢測工具,它的主要目標(biāo)是自動檢測新行為,并將其報告給工程師進(jìn)行進(jìn)一步調(diào)查,把一種新的行為歸類為正?;虍惓5臎Q定權(quán)留給飛行控制工程師;離線數(shù)據(jù)分析可用于挖掘相關(guān)數(shù)據(jù)的關(guān)系以及模式。 Novelty Detection 已用于金星快車、XMM 和Cryosat2 等任務(wù), 作為監(jiān)控任務(wù)的一部分,飛控工程師每天都要檢查Novelty Detection檢測結(jié)果。
2.2.1 基本思想
Novelty Detection 工具計算4 個(均值、標(biāo)準(zhǔn)差、最大值、最小值)定長周期的統(tǒng)計特征來重新表示遙測數(shù)據(jù),利用離群點(diǎn)檢測技術(shù)來發(fā)現(xiàn)哪些周期具有異常行為。 一般的假設(shè)是異常行為與已知的名義行為之間的距離要比已知的名義行為之間的距離大。 定義離群點(diǎn)距離問題的方法是使用局部密度離群點(diǎn)檢測技術(shù),采用的是局部離群因子(Local Qutlier Factor,LOF)和局部異常概率(local Outlier Probability,LoOp)。 通過使用LoOp,可以根據(jù)新穎性概率對行為進(jìn)行排序,首先顯示更有可能是新行為的行為。 這種方法目前用于ESOC 的許多無人駕駛ESA 任務(wù)。
2.2.2 在Sibyl 項目中的應(yīng)用和改進(jìn)
Sibyl 項目是Novelty Detection 技術(shù)在國際空間站哥倫布軌道試驗室遙測數(shù)據(jù)庫中的應(yīng)用,初衷是在異常檢測之前,基于新穎性檢測算法對學(xué)習(xí)數(shù)據(jù)集進(jìn)行初步的自動清理。 鑒于哥倫布軌道試驗室有大量可用數(shù)據(jù),開發(fā)了一個自動預(yù)處理器,以建立一個提供給新穎性檢測器的標(biāo)稱數(shù)據(jù)集。 大多數(shù)遙測項目以1 Hz 的頻率接收,導(dǎo)致在一年內(nèi)一個遙測項目分析超過2500 萬個樣本。 有數(shù)百個模擬遙測項目可以使用新穎性檢測進(jìn)行分析。 這些數(shù)據(jù)很明顯從一開始就不可能手動選擇,要呈現(xiàn)給Novelty Detection 算法的標(biāo)稱集。 在Sibyl 項目中Novelty Detection 技術(shù)在哥倫布遙測數(shù)據(jù)庫中應(yīng)用,該數(shù)據(jù)庫包含了8 年多的運(yùn)行數(shù)據(jù),哥倫布軌道試驗室控制中心的遙測處理和儲存環(huán)境如圖3 所示。 數(shù)據(jù)由美國宇航局和歐空局的網(wǎng)絡(luò)以CCSDS 數(shù)據(jù)包和處理數(shù)據(jù)的形式傳輸?shù)礁鐐惒伎刂浦行?Columbus Control Center,Col-CC),通過Col-CC 地面網(wǎng)絡(luò),數(shù)據(jù)流到達(dá)STRATOS 控制臺。 在此,數(shù)據(jù)被提取,閾值由監(jiān)控系統(tǒng)(Monitoring and Control System,MCS)設(shè)置和檢查。 通過MCS,STRATOS 控制臺可以監(jiān)視和控制模塊,了解子系統(tǒng)的瞬時狀態(tài)。 MCS 控制臺上的網(wǎng)關(guān)將數(shù)據(jù)流傳送到Satmon 服務(wù)器,OPS環(huán)境中的Satmon 服務(wù)器在有限的時間內(nèi)托管數(shù)據(jù)。 MCS 提供遙測的實(shí)時狀態(tài),Satmon 控制臺提供長期遙測的概述。 離線環(huán)境提供非關(guān)鍵業(yè)務(wù),主要是非實(shí)時業(yè)務(wù)。 由于出于安全原因,OPS 和離線網(wǎng)絡(luò)是分開的,數(shù)據(jù)每天OPS 傳輸?shù)诫x線Satmon 服務(wù)器,該服務(wù)器包含自2008 年2 月哥倫布軌道試驗室激活以來接收到的所有遙測數(shù)據(jù),Sibyl 項目就是使用了該數(shù)據(jù)庫。
圖3 哥倫布控制中心的遙測處理和儲存環(huán)境[18]Fig.3 Telemetry processing and storage environment of Columbus Control Center[18]
Sibyl 預(yù)處理器使用具有噪聲的基于密度的聚類方法(Density-Based Spatial Clustering of Applications with Noise,DBSCAN)創(chuàng)建,自動預(yù)處理與以往數(shù)據(jù)的固定時間間隔的四維特征向量。 預(yù)處理器已經(jīng)開發(fā)成可以在不同窗口大小和重疊的情況下運(yùn)行。 窗口大小和重疊部分被選為國際空間站最小自然周期的倍數(shù):一個環(huán)繞地球的軌道(大約90 min)。 預(yù)處理器集成在包含數(shù)據(jù)庫、預(yù)處理器和新行為探測器的軟件系統(tǒng)中,如圖4所示。 Sibyl 項目選擇Cassandra 數(shù)據(jù)庫作為項目的主數(shù)據(jù)庫。 Cassandra 數(shù)據(jù)庫是創(chuàng)建分布式數(shù)據(jù)庫來管理大量數(shù)據(jù),它比傳統(tǒng)的關(guān)系數(shù)據(jù)庫更適合更有效率存儲大量數(shù)據(jù),此外不需要安裝,可以作為獨(dú)立的數(shù)據(jù)庫系統(tǒng)運(yùn)行。
圖4 Sibyl 軟件系統(tǒng)[18]Fig.4 The Sibyl software system[18]
2.2.3 在ARES 平臺中的應(yīng)用
2013 年以Novelty Detection 為2 個主要組件之一的ARES(Analysis and Reporting System)平臺首次投入使用。 除了Novelty Detection,Dr-MUST是ARES 另一個主要組件。 DrMUST組件是一個數(shù)據(jù)挖掘的客戶端,原來是歐洲空間控制中心(European Space Operations Centre,ESOC)開發(fā)的,主要實(shí)現(xiàn)給定參數(shù)的模式匹配以及所有參數(shù)的相關(guān)分析。 其中模式匹配部分可用于統(tǒng)計特定行為模式的發(fā)生情況(例如了解某個異常在過去何時發(fā)生,何時未被注意到)。 模式匹配功能,也可用來查找最相似的模式。 為了夠識別相似的模式,即存在小的偏差(無論是在振幅還是在時間上)的模式,研究人員選擇了動態(tài)時間規(guī)整(Dynamic Time Wrapping,DTW)技術(shù)。DTW 常用于語音識別領(lǐng)域,用于識別不同語速的語音。 問題是DTW 的計算成本很高,下界技術(shù)(Lower Bounds Techniques)使得有效的近鄰搜索成為可能。 相關(guān)分析可以找出某個感興趣事件(如異常)中涉及的參數(shù),這是DrMUST 組件的另一功能。 它可以系統(tǒng)地掃描每一個遙測參數(shù),并檢查它是否與正在研究的異常有關(guān)(例如因果關(guān)系)。 它有2 個基本假設(shè):①如果某個參數(shù)與異常相關(guān)聯(lián),則在所有相同的異常期內(nèi),該參數(shù)將以類似的方式運(yùn)行;②如果某個參數(shù)與異常有關(guān),則在正常和異常期間,其行為將有所不同。 為了描述行為,相關(guān)器使用了幾個統(tǒng)計特征(如平均值、范圍、標(biāo)準(zhǔn)差等)。 DrMUST 通過模式匹配和相關(guān)分析實(shí)現(xiàn)了一定的故障診斷功能。
常見的ARES 的組件部署如圖5。 其中ARES 通過EGOS 數(shù)據(jù)發(fā)布系統(tǒng)(EGOS Data Dissemination System,EDDS)客戶機(jī)來獲取來自任務(wù)控制系統(tǒng)(Mission Control System,MCS)的數(shù)據(jù),這些數(shù)據(jù)將被注入ARES 數(shù)據(jù)存儲,可用于所有數(shù)據(jù)處理和顯示功能。 此外,ARES 系統(tǒng)從傳統(tǒng)的關(guān)系數(shù)據(jù)庫向基于Hadoop 和HBase 的大數(shù)據(jù)分布式數(shù)據(jù)存儲的方向演進(jìn)。 因為隨著長期離線數(shù)據(jù)存儲的需求量顯著增加,傳統(tǒng)的關(guān)系數(shù)據(jù)庫已經(jīng)到了其能力的極限。 為了克服這些限制,ARES 數(shù)據(jù)存儲組件(圖5 中綠色和藍(lán)色的組件)已經(jīng)遷移到Hadoop 生態(tài)系統(tǒng)中。 ARES 系統(tǒng)采用這種大數(shù)據(jù)分布式數(shù)據(jù)存儲避免了由于技術(shù)限制而造成的操作限制,可實(shí)現(xiàn)許多自發(fā)的用戶驅(qū)動活動同時運(yùn)行并永久可用。
圖5 ARES 組件概述[19]Fig.5 ARES component overview[19]
ADAMS(Anomaly Detection and Monitoring System)平臺是由日本東京大學(xué)開發(fā)的數(shù)據(jù)驅(qū)動的人造衛(wèi)星異常檢測框架,2013 年開始在日本宇宙航空研究開發(fā)機(jī)構(gòu)(Japan Aerospace Exploration Agency,JAXA) 的衛(wèi)星SDS-4 上進(jìn)行驗證。
研究人員利用多種機(jī)器學(xué)習(xí)技術(shù)開發(fā)了幾種異常檢測方法, 例如核主成分分析(Kernel Principal Component Analysis,KPCA)、序列蒙特卡洛算法(Sequential Monte Carlo,SMC)、混合概率主成分分析(Mixture Probabilistic Principal Component Analysis,MPPCA)并將其應(yīng)用于以往人造衛(wèi)星的遙測數(shù)據(jù)。 基于這些結(jié)果,研究人員開發(fā)了ADAMS 健康監(jiān)測框架,在這個框架中,機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘算法被應(yīng)用于以往遙測數(shù)據(jù)并獲取正常的行為模型。 一旦建立被監(jiān)測系統(tǒng)正常的行為模型,就會使用它們檢查后續(xù)的數(shù)據(jù),并判斷數(shù)據(jù)中是否包含異常模式。
SDS-4 衛(wèi)星操作員對ADAMS 評價良好,ADAMS 對訓(xùn)練數(shù)據(jù)的選擇、遙測變量的設(shè)置、變量的標(biāo)準(zhǔn)化等仍然比較敏感,導(dǎo)致一些誤報。 目前研究人員在對其進(jìn)行進(jìn)一步的改進(jìn)。
綜合來看,雖然IMS 工具、Novelty Detection工具、ADAMS 平臺采用的是不同的算法,但是均由數(shù)據(jù)驅(qū)動,主要采用無監(jiān)督機(jī)器學(xué)習(xí)算法,適用性比較強(qiáng),在使用過程中不斷進(jìn)行改進(jìn)和完善。在改進(jìn)算法或者采納多種算法提高異常檢測能力的同時,同其他提供數(shù)據(jù)挖掘、故障診斷、數(shù)據(jù)庫、任務(wù)規(guī)劃的組件相結(jié)合提供更加綜合的服務(wù)。
中國對數(shù)據(jù)驅(qū)動的異常檢測技術(shù)的研究起步較晚,目前工程上以自動閾值判讀和專家經(jīng)驗為主,數(shù)據(jù)驅(qū)動的異常檢測工具還在研究、開發(fā)、測試中。 例如,基于IMS 成功應(yīng)用經(jīng)驗,中國研究人員借鑒IMS 系統(tǒng)的基本原理,開發(fā)了狀態(tài)監(jiān)測工具:北京空間飛行器總體設(shè)計部開發(fā)測試了基于推演式聚類學(xué)習(xí)算法的衛(wèi)星健康狀態(tài)監(jiān)視系統(tǒng);北京控制與電子技術(shù)研究所等研究了基于改進(jìn)歸納式監(jiān)控算法的液體火箭發(fā)動機(jī)實(shí)時故障檢測。
綜合在航天工程中應(yīng)用的IMS 工具、Novelty Detection 工具、ADAMS 平臺對未來中國空間站運(yùn)行的啟示如下:
1)通過訓(xùn)練正常運(yùn)行數(shù)據(jù)建立系統(tǒng)的健康模型來進(jìn)行異常檢測比較適合航天工程。 以IMS和Novelty Detection 為例,它們都是通用的異常檢測工具,通過訓(xùn)練系統(tǒng)正常運(yùn)行時的數(shù)據(jù),建立系統(tǒng)健康狀態(tài)模型,然后將模型和待監(jiān)測數(shù)據(jù)對比,可以應(yīng)用于幾乎任何具有數(shù)據(jù)收集能力的系統(tǒng)的健康監(jiān)測。 它們的監(jiān)測性能和通用性在多個航空航天項目的成功應(yīng)用中得到了證明,其開發(fā)和優(yōu)化過程以及用到的技術(shù)對中國數(shù)據(jù)驅(qū)動的航天器異常檢測技術(shù)的發(fā)展具有極大的借鑒意義。
2)除了異常檢測之外還需要開發(fā)一些輔助工具。 AMISS(升級的IMS)系統(tǒng)除考慮到集群存儲、索引和檢索方案外還開發(fā)了參數(shù)選擇和加權(quán)工具以及圖形用戶界面;Sibyl 開發(fā)了數(shù)據(jù)預(yù)處理器,避免了需要手動選擇要進(jìn)行訓(xùn)練的標(biāo)稱數(shù)據(jù)集;獵戶座探索飛行試驗和AMISS 工具過濾實(shí)時數(shù)據(jù)流,以便隨后并入待監(jiān)測系統(tǒng)的知識庫;ADAMS 考慮到了隨著數(shù)據(jù)維數(shù)的增加,由于數(shù)據(jù)是以稀疏的方式分布的,許多最常見的離群點(diǎn)檢測方法都不能像在低維空間中那樣有效,因此采用了降維的方法。
3)對異常數(shù)據(jù)的分析和挖掘越來越重要。遙測數(shù)據(jù)中的異常數(shù)據(jù)不同于正常遙測數(shù)據(jù)的變化規(guī)律或不符合航天器工作模式設(shè)定,可以反映采集設(shè)備失效、對應(yīng)設(shè)備的性能退化、質(zhì)量缺陷、機(jī)械及電子故障等問題。 以ARES 中的DrMUST組件為例,金星快車Y 軸的姿態(tài)誤差比預(yù)期的要高,經(jīng)DrMUST 分析后發(fā)現(xiàn),是因為Aspera 掃描儀的激活引入了一個未被考慮的扭矩,而工程師在此之前并沒有考慮到其中的關(guān)聯(lián)性。
4)功能集成很有必要。 開發(fā)一個允許多個產(chǎn)品集成的平臺,并使用它們實(shí)時協(xié)作,同時提高態(tài)勢感知,減少解決故障所需的時間,使操作員能夠?qū)W⒂谕瓿扇蝿?wù)而不是花費(fèi)很多時間管理多個軟件工具,將航天器異常檢測、故障診斷等信息集成到相關(guān)的信息顯示界面中使操作員能夠快速、有效地處理和理解信息。 NASA 的高級提醒和警告系統(tǒng)(Advanced Caution & Warning System,ACAWS)、ARES 平臺都是將不同功能的組件進(jìn)行了集成。
5)在軌數(shù)據(jù)管理應(yīng)向基于大數(shù)據(jù)方向發(fā)展。如何管理在軌數(shù)據(jù),實(shí)現(xiàn)高效分發(fā)、離線儲存、分析、挖掘、顯示和搜索,直接決定了在軌數(shù)據(jù)異常檢測及后續(xù)數(shù)據(jù)應(yīng)用的水平。 目前國內(nèi)航天工程實(shí)踐中,航天器在軌綜合數(shù)據(jù)的存儲管理一般都是各自分開單一管理,存在不利于擴(kuò)展、數(shù)據(jù)關(guān)聯(lián)分析困難等問題。 數(shù)據(jù)的離線存儲、分析和顯示等要求以及航天任務(wù)產(chǎn)生的數(shù)據(jù)量不斷增加這一事實(shí),會導(dǎo)致長期離線數(shù)據(jù)存儲的需求量顯著增加。 為解決該問題,歐空局和歐洲空間控制中心開發(fā)的ARES 向基于Hadoop 和HBase 的大數(shù)據(jù)分布式集群方法的數(shù)據(jù)存儲的計劃演進(jìn),Sibyl項目選擇Cassandra 數(shù)據(jù)庫作為項目的主數(shù)據(jù)庫。 隨著中國空間站建設(shè)的展開,在軌數(shù)據(jù)管理系統(tǒng)向基于大數(shù)據(jù)方向演進(jìn)迫切而必要。
6)需要統(tǒng)籌規(guī)劃、有序推進(jìn)。 從傳統(tǒng)的閾值自動判讀到數(shù)據(jù)驅(qū)動的狀態(tài)監(jiān)測是必然的趨勢同時也是一個龐大的工程。 AMISS(IMS)工具的主要開發(fā)者之一Lverson 在IMS 工具在采訪中提到“除了將IMS 應(yīng)用于各種監(jiān)視應(yīng)用程序之外,未來的工作還將涉及參數(shù)選擇、效率、系統(tǒng)健康度量以及與其他航天器健康組件的集成。 將測試各種分析技術(shù),包括統(tǒng)計、方差分析和主成分分析,看它們是否有能力洞察信息參數(shù),以便納入監(jiān)測系統(tǒng)。 將對聚類搜索算法進(jìn)行修改,以提高訓(xùn)練和監(jiān)控過程的速度。 將探索通過組合相似的聚類來減小聚類知識庫規(guī)模的技術(shù)。 除了當(dāng)前的距離測量外,我們還將調(diào)查其他系統(tǒng)健康指標(biāo)最后,我們計劃探索IMS 的診斷應(yīng)用,包括從IMS 集群匹配例程中提取診斷信息,以及將IMS 與診斷推理系統(tǒng)集成”。 更新?lián)Q代不可能一蹴而就,需要進(jìn)行頂層的、全面的工作策劃,形成系統(tǒng)化、體系化的研究方法和工程可實(shí)施架構(gòu)。
當(dāng)然,國外成功的經(jīng)驗是值得借鑒的,可以幫助中國避免一些彎路,但也不必完全照搬。 當(dāng)前中國異常檢測的理論研究水平要遠(yuǎn)高于IMS、ARES 等工具初建立時的水平,利用新的技術(shù)、理論可以更好地幫助中國縮小差距,實(shí)現(xiàn)趕超。
開發(fā)利用數(shù)據(jù)驅(qū)動的異常檢測工具是中國空間站工程亟待解決的問題,需要合理規(guī)劃,有序進(jìn)行。 筆者認(rèn)為目前第一步最先要實(shí)現(xiàn)的是精度高、通用性強(qiáng)、數(shù)據(jù)驅(qū)動的異常檢測軟件的開發(fā)、測試和整個系統(tǒng)設(shè)計。 在系統(tǒng)設(shè)計時就需要考慮到處理和儲存海量數(shù)據(jù)、后續(xù)數(shù)據(jù)挖掘以及同其他功能集成等問題。 從數(shù)據(jù)預(yù)處理到異常檢測到后續(xù)故障診斷、結(jié)果輸出等流程和接口設(shè)計,數(shù)據(jù)庫選擇,是否需要并行計算等問題都需要提前規(guī)劃和解決。 第二步,需要進(jìn)行異常檢測算法中數(shù)據(jù)的降維、參數(shù)的自動選擇和調(diào)整等優(yōu)化,與此同時,注重對數(shù)據(jù)的挖掘。 通過對數(shù)據(jù)的變化趨勢分析、模式匹配等方法實(shí)現(xiàn)故障診斷、性能變化趨勢分析等功能。 第三步,進(jìn)行數(shù)據(jù)預(yù)處理、異常檢測、故障診斷、結(jié)果可視化等功能的集成,在測試和應(yīng)用的過程中建立知識庫,通過模式匹配等查找某個行為過往的出現(xiàn)情況或相似情況,通過知識庫查看相應(yīng)的處理方法,為操作員提供異常處理建議,輔助操作員決策,為操作員提供綜合服務(wù)。