房紅征,年夫強(qiáng),羅 凱,王曉棟,李 蕊
(1.北京航天測控技術(shù)有限公司,北京 100041;2.北京市高速交通工具智能診斷與健康管理重點(diǎn)實(shí)驗(yàn)室,北京 100041;3.中國航發(fā)沈陽發(fā)動機(jī)研究所,沈陽 110015)
故障預(yù)測與健康管理技術(shù)(PHM)是一項(xiàng)復(fù)雜的系統(tǒng)工程,能夠顯著降低維修、使用和保障費(fèi)用,提高戰(zhàn)備完好率和任務(wù)成功率,提高裝備安全性和可用性。而PHM平臺架構(gòu)作為PHM技術(shù)的頂層規(guī)劃與設(shè)計(jì),對于PHM技術(shù)的成功應(yīng)用發(fā)揮著至關(guān)重要的作用。目前研究主要從基于PHM應(yīng)用需求的物理框架與基于PHM功能需求的軟件框架結(jié)構(gòu)出發(fā)對PHM平臺架構(gòu)進(jìn)行研究,形成了相應(yīng)的PHM架構(gòu)體系,開發(fā)出具有實(shí)時(shí)監(jiān)測與診斷功能的機(jī)載系統(tǒng)與地面支持系統(tǒng),并在實(shí)際中取得了成功應(yīng)用。
在飛行器健康管理系統(tǒng)架構(gòu)方面,美國F-35戰(zhàn)機(jī)采用的是分布式的PHM體系架構(gòu),主要從軟硬件監(jiān)控層、分系統(tǒng)管理層、平臺管理層三層結(jié)構(gòu)來進(jìn)行規(guī)劃與設(shè)計(jì),其中地面PHM系統(tǒng)完成如狀態(tài)趨勢分析、剩余壽命預(yù)測、維修計(jì)劃優(yōu)化、維修工作范圍制定、維修成本管理等需要復(fù)雜模型計(jì)算與決策工作[1-4]。飛行器綜合健康管理IVHM框架是由美國NASA和波音等多家單位共同提出的,其地面支持系統(tǒng)負(fù)責(zé)收集更為廣泛的信息和資源,完成對航空器的故障診斷、預(yù)測和維護(hù)等,并將其發(fā)送給后勤保障系統(tǒng)與地面維護(hù)系統(tǒng);地面維護(hù)系統(tǒng)根據(jù)傳輸?shù)男畔⒋_定需要進(jìn)行的維護(hù)工作,優(yōu)化組織人員,維護(hù)資源配置,記錄維護(hù)數(shù)據(jù),測試和驗(yàn)證維修結(jié)果[5-8]。此外,國內(nèi)在分析總結(jié)典型PHM系統(tǒng)架構(gòu)的基礎(chǔ)上,提出了一種基于SOA架構(gòu),雙總線技術(shù)的民用客機(jī)PHM地面支持系統(tǒng)架構(gòu)設(shè)計(jì)方法,有效地實(shí)現(xiàn)了信息資源的共享,保障了系統(tǒng)的運(yùn)營服務(wù)質(zhì)量[9]。
大多數(shù)航天器系統(tǒng)具有長期實(shí)時(shí)運(yùn)行、無人值守等特點(diǎn)。即使是載人空間站,其運(yùn)行和維護(hù)也受到嚴(yán)格的成本、周期、重量等條件的限制。因此,對航天器進(jìn)行準(zhǔn)確及時(shí)的狀態(tài)監(jiān)測、故障診斷和合理的壽命預(yù)測,對于航天器的高可靠性和長壽命使用具有重要價(jià)值和意義??臻g環(huán)境、復(fù)雜工況、老化失效等綜合因素,使得航天器故障檢測、診斷、預(yù)測異常困難。傳統(tǒng)專家知識系統(tǒng)在航天器系統(tǒng)級故障處理方面能力有限,依然需要設(shè)計(jì)師、領(lǐng)域?qū)<一ㄙM(fèi)大量時(shí)間進(jìn)行機(jī)理分析、公式推導(dǎo)、試驗(yàn)驗(yàn)證。這種人工分析為主的工作模式顯然無法滿足航天器數(shù)量增長與高可靠運(yùn)行等發(fā)展需求。
近年來,微軟的Azure、谷歌的Cloud Machine Learning、阿里巴巴的PAI等機(jī)器學(xué)習(xí)平臺,憑借其友好的流程化分析框架、豐富的即插即用機(jī)器學(xué)習(xí)工具、分布式的服務(wù)等諸多優(yōu)點(diǎn),為航天器等PHM領(lǐng)域復(fù)雜問題分析處理和平臺構(gòu)建提出了新思路[10-11]。
本文在對機(jī)器學(xué)習(xí)技術(shù)在航天器PHM領(lǐng)域的應(yīng)用分析基礎(chǔ)上,提出了基于機(jī)器學(xué)習(xí)建模的航天器健康管理平臺的設(shè)計(jì)思路,初步建成了相應(yīng)平臺,并進(jìn)行了驗(yàn)證案例分析,為促進(jìn)航天器PHM系統(tǒng)工程化水平提升進(jìn)行了有益的探索。
常見的航天器故障預(yù)測與健康管理方法包括數(shù)據(jù)驅(qū)動、基于模型等方法,其中神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)方法是數(shù)據(jù)驅(qū)動的PHM方法的重要組成部分。按照 OSA-CBM+要求,PHM 的主要技術(shù)流程包括“數(shù)據(jù)獲取”、“數(shù)據(jù)處理”、“狀態(tài)檢測”、“健康評估”、“預(yù)測評估”和“建議生成”等。根據(jù)機(jī)器學(xué)習(xí)技術(shù)應(yīng)用領(lǐng)域定義中提到的分類、回歸、聚類、密度估計(jì)等能力,PHM的數(shù)據(jù)預(yù)處理、狀態(tài)檢測、健康評估和預(yù)測評估這4個(gè)部分會用到相關(guān)的機(jī)器學(xué)習(xí)技術(shù),包括:數(shù)據(jù)處理:包括預(yù)處理、特征提取、降維相關(guān)和密度估計(jì)等;狀態(tài)檢測:包括閾值檢測、模糊邏輯、聚類相關(guān)性和密度估計(jì)等;健康評估:包括分類、聚類、相關(guān)性分析等用于診斷和推理;預(yù)測:利用回歸、相關(guān)性分析等用于故障預(yù)測和壽命預(yù)測。
對于衛(wèi)星、空間站等航天器,由于受復(fù)雜的空間環(huán)境中外部影響的不確定性以及光照和陰影、開關(guān)機(jī)、姿態(tài)調(diào)整、變軌等運(yùn)行條件因素影響,存在著設(shè)備潛在故障難以識別的問題。在航天器健康管理過程匯總應(yīng)用機(jī)器學(xué)習(xí)技術(shù)主要存在以下幾個(gè)方面的挑戰(zhàn):航天器產(chǎn)品數(shù)量少,故障樣本少,診斷預(yù)測等較為依賴自學(xué)習(xí)能力;航天器產(chǎn)品可測試性水平有待提高,較為依賴基于故障特征的數(shù)據(jù)挖掘;空間和地面環(huán)境的差異導(dǎo)致知識不準(zhǔn)確并且需要動態(tài)優(yōu)化;緊急任務(wù)和需求條件下的維護(hù)和預(yù)測困難。
近年來,隨著人工智能科學(xué)的發(fā)展,一方面,機(jī)器學(xué)習(xí)算法不斷豐富,學(xué)習(xí)深度不斷加深,性能不斷提高,基于深度學(xué)習(xí)的機(jī)器學(xué)習(xí)方法得到廣泛應(yīng)用,在圖像、視覺和智能對弈等領(lǐng)域取得了空前的成功,深度學(xué)習(xí)可通過學(xué)習(xí)一種深層非線性網(wǎng)絡(luò)結(jié)構(gòu),實(shí)現(xiàn)復(fù)雜函數(shù)逼近,表征輸入數(shù)據(jù)分布式表示,展現(xiàn)了強(qiáng)大的從少數(shù)樣本集中學(xué)習(xí)數(shù)據(jù)集本質(zhì)特征的能力,因此也在包括航天器在內(nèi)的復(fù)雜裝備中得到越來越多的研究應(yīng)用[12-13]。使用深度神經(jīng)網(wǎng)絡(luò)等機(jī)器深度學(xué)習(xí)方法,能更有效的深入分析衛(wèi)星電源等分系統(tǒng)試驗(yàn)運(yùn)行數(shù)據(jù),不僅有助于改進(jìn)試驗(yàn)方案本身,而且可以很好的校驗(yàn)設(shè)計(jì)模型,發(fā)現(xiàn)重點(diǎn)薄弱環(huán)節(jié),最終提高衛(wèi)星等航天器設(shè)計(jì)能力。深度學(xué)習(xí)通過貪婪逐層訓(xùn)練算法解決了深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練問題,使得網(wǎng)絡(luò)在特征提取與健康狀況識別方面都有極大提高[14]。另一方面,如前所述,許多國際知名的制造或IT企業(yè)都專注于設(shè)備的智能在線監(jiān)控和PHM應(yīng)用,推出了多個(gè)機(jī)器學(xué)習(xí)云服務(wù)平臺產(chǎn)品,如微軟的Azure、谷歌的Cloud Machine Learning、阿里巴巴的PAI等機(jī)器學(xué)習(xí)平臺,利用商業(yè)智能數(shù)據(jù)分析服務(wù),實(shí)現(xiàn)了狀態(tài)監(jiān)測、可預(yù)防維護(hù)等健康管理應(yīng)用,提升了企業(yè)產(chǎn)品的服務(wù)質(zhì)量和智能服務(wù)水平。
例如,羅羅公司與微軟公司合作,通過微軟的Azure云平臺技術(shù)對地理位置分散的不同數(shù)據(jù)源進(jìn)行收集與匯總,提供的基于大數(shù)據(jù)分析的性能衰退與剩余壽命預(yù)測服務(wù)能夠幫助航空公司合理規(guī)劃維修工作,避免計(jì)劃外停運(yùn),在1年中幫助航空公司避免了近70%的潛在發(fā)動機(jī)維修工作,從而為航空公司節(jié)省了可觀的維修費(fèi)用[15]。谷歌、阿里巴巴的機(jī)器學(xué)習(xí)平臺產(chǎn)品也形成了較多PHM案例[16-18]。
結(jié)合很多案例可以發(fā)現(xiàn),機(jī)器學(xué)習(xí)云平臺在PHM的應(yīng)用中相對于傳統(tǒng)的軟件系統(tǒng)具有一定的優(yōu)勢,例如分布式云服務(wù)架構(gòu)讓更多用戶能夠構(gòu)建PHM并與之交互、機(jī)器學(xué)習(xí)工具降低了對人員技術(shù)水平的要求、遠(yuǎn)程主機(jī)平臺降低了應(yīng)用單位的維護(hù)壓力、為第三方用戶提供更高效的服務(wù)等等,從而為基于機(jī)器學(xué)習(xí)建模的航天器PHM平臺設(shè)計(jì)實(shí)現(xiàn)提供了技術(shù)基礎(chǔ)。
根據(jù)航天器系統(tǒng)的特點(diǎn)及其PHM建模要求,借鑒了主流的機(jī)器學(xué)習(xí)平臺產(chǎn)品理念,在以往航天器PHM平臺技術(shù)研究基礎(chǔ)上[19-21],設(shè)計(jì)了基于機(jī)器學(xué)習(xí)的航天器PHM平臺的架構(gòu),如圖1所示,具體包括:
圖1 基于機(jī)器學(xué)習(xí)建模的航天器PHM平臺架構(gòu)示意圖
1)PHM服務(wù)接口。使用Eureka服務(wù)客戶端查看平臺提供的服務(wù)接口,使用http協(xié)議,調(diào)用診斷、預(yù)測、評估等健康管理微服務(wù)計(jì)算,最后返回計(jì)算結(jié)果。
2)PHM微服務(wù)。使用TensorFlow、Python、C++等不同類型語言編寫的計(jì)算模型,通過Spring Cloud發(fā)布服務(wù)。
3)消息中間件。使用Kafka分布式消息系統(tǒng)解決TB級數(shù)據(jù)處理,可以保持長期穩(wěn)定。
4)基礎(chǔ)算法庫。借助Spring Cloud支持的計(jì)算服務(wù)引擎,可以集成自己開發(fā)的算法或第三方算法包,如TensorFlow、Pandas等,并通過接口封裝。
5)集成開發(fā)平臺。使用圖形化建模工具,可以在平臺上拖拽構(gòu)建算法模型流程。進(jìn)程發(fā)布為微服務(wù),支持外部Http調(diào)用。
6)專用模型。在之前工作的基礎(chǔ)上,建立屬于航天器領(lǐng)域的專用PHM算法模型,如控制系統(tǒng)的陀螺動力學(xué)方程和供配電系統(tǒng)的電池壽命預(yù)測模型,這些都是在長期研發(fā)過程中逐步積累的。
7)典型入口。平臺提供運(yùn)行控制、測試分析、安全調(diào)度、知識工程、設(shè)計(jì)改進(jìn)等入口。
TensorFlow、Pandas等算法包不僅有傳統(tǒng)的統(tǒng)計(jì)分析、時(shí)頻域計(jì)算、神經(jīng)網(wǎng)絡(luò)等算法,還提供深度機(jī)器學(xué)習(xí)支持,包括CNN神經(jīng)網(wǎng)絡(luò)、GAN神經(jīng)網(wǎng)絡(luò)等(如圖4所示)。這些深度學(xué)習(xí)算法有效地提高了圖像、聲音等的模式識別精度,并且可以將其應(yīng)用于健康管理領(lǐng)域。
針對航天器健康管理的具體要求,在參考阿里云PAI和微軟Azure等機(jī)器學(xué)習(xí)平臺的基礎(chǔ)上,設(shè)計(jì)開發(fā)了航天器健康管理模型集成開發(fā)工具,如圖2所示。
圖2 通用算法庫界面示意圖
需要配置模型的輸入輸出接口和中間參數(shù)。算法模型的接口是否完整和正確直接影響到后續(xù)算法模型的使用。 在設(shè)計(jì)這部分時(shí),可以參考開發(fā)文檔,也可以參考官方的圖形界面如TensorBoard,如圖3所示。
圖3 PHM圖形模型集成開發(fā)工具示意圖
為了支持機(jī)器學(xué)習(xí)應(yīng)用,需要設(shè)計(jì)一套機(jī)器學(xué)習(xí)的訓(xùn)練和數(shù)據(jù)計(jì)算服務(wù)。外部用戶可以通過http接口調(diào)用服務(wù)。響應(yīng)微服務(wù)請求后,平臺中的Spring Cloud通過調(diào)用輸入的訓(xùn)練數(shù)據(jù)和計(jì)算數(shù)據(jù)完成模型的訓(xùn)練和計(jì)算,并輸出計(jì)算結(jié)果。 具體流程如圖4所示。
如圖4所示,具體流程包括:
課程設(shè)計(jì)改革 高年級學(xué)生開始具有機(jī)械設(shè)計(jì)課程設(shè)計(jì)、機(jī)械制造裝備課程設(shè)計(jì)等,傳統(tǒng)的執(zhí)行方式是學(xué)生在電腦上完成設(shè)計(jì)結(jié)構(gòu)的三維模型和繪制相應(yīng)的裝配圖、零件圖。不少高校出于課時(shí)、安全、成本等各種因素考慮,學(xué)生真正利用傳統(tǒng)的加工機(jī)床完成實(shí)物制作的少之又少,進(jìn)而無法驗(yàn)證設(shè)計(jì)結(jié)構(gòu)的合理性,也未能得到直觀的認(rèn)識。3D打印技術(shù)具有快速實(shí)現(xiàn)、安全等優(yōu)勢,因此考慮用3D打印技術(shù)來進(jìn)行課程設(shè)計(jì)的實(shí)物制作,提升學(xué)生對設(shè)計(jì)結(jié)構(gòu)的認(rèn)識,是可行且十分需要的。通過課程設(shè)計(jì)的實(shí)物3D打印,學(xué)生一方面能夠認(rèn)識設(shè)計(jì)結(jié)構(gòu),另外一方面能夠更深層次理解3D打印技術(shù)。
圖4 航天器機(jī)器學(xué)習(xí)平臺工作流程示意圖
1)數(shù)據(jù)輸入,計(jì)算請求的任務(wù)信息(任務(wù)id、計(jì)算周期、請求地址等),模型參數(shù)(如預(yù)處理方法、神經(jīng)網(wǎng)絡(luò)層數(shù)、輸入層定義、隱藏層神經(jīng)元個(gè)數(shù)等)、訓(xùn)練數(shù)據(jù)和計(jì)算數(shù)據(jù)等。
2)任務(wù)請求,平臺收到任務(wù)請求后,解析服務(wù)數(shù)據(jù),并將數(shù)據(jù)發(fā)送給服務(wù)器主控制器(Master)。Master根據(jù)Mesos、TensorFlow等并行計(jì)算資源設(shè)置條件將計(jì)算出的數(shù)據(jù)發(fā)送到多個(gè)服務(wù)容器。
3)循環(huán)計(jì)算,計(jì)算服務(wù)器資源采用并行方式,根據(jù)CPU和內(nèi)存資源的分配情況讀取特定數(shù)據(jù),訓(xùn)練神經(jīng)網(wǎng)絡(luò),通過多次迭代完成模型訓(xùn)練。
4)模型文件保存,文件經(jīng)過訓(xùn)練后由服務(wù)器保存,保存在服務(wù)器硬盤中。
5)數(shù)據(jù)返回,計(jì)算后PHM微服務(wù)通過http協(xié)議將計(jì)算結(jié)果返回給用戶系統(tǒng),用戶系統(tǒng)加載并顯示計(jì)算結(jié)果。
6)模型優(yōu)化,平臺通過設(shè)置模型訓(xùn)練周期,利用用戶輸入的數(shù)據(jù),計(jì)算并修正模型文件的誤差,實(shí)現(xiàn)自學(xué)習(xí)能力。
健康管理算法模型是PHM平臺的核心技術(shù),這些模型主要用來實(shí)現(xiàn)對航天器不同分系統(tǒng)、部件的異常檢測、故障診斷、故障預(yù)測、維修決策等綜合性需求,當(dāng)針對衛(wèi)星等進(jìn)行健康管理平臺開發(fā)時(shí),由于其結(jié)構(gòu)的復(fù)雜性,一般開發(fā)團(tuán)隊(duì)由于其技術(shù)領(lǐng)域限制,已無法實(shí)現(xiàn)裝備級的PHM系統(tǒng)開發(fā),需要來自不同領(lǐng)域、不同專業(yè)的團(tuán)隊(duì)合作,開發(fā)滿足不同需求的算法模型,進(jìn)而實(shí)現(xiàn)部件級、分系統(tǒng)級的健康管理。但這種合作帶來的問題在于不同的團(tuán)隊(duì)使用的技術(shù)尤其是語言有比較大的差異,比如開發(fā)人員普遍采用面向?qū)ο蟮膉ava語言進(jìn)行web開發(fā),而算法工程師更偏向于采用python和matlab語言進(jìn)行算法模型的開發(fā)。在實(shí)際工程應(yīng)用中,如何解決這種多語言融合的問題一直是PHM平臺開發(fā)的熱點(diǎn)研究方向。當(dāng)前針對這種多語言融合的問題暫時(shí)沒有比較高效的方法,主要采用算法設(shè)計(jì)和算法實(shí)現(xiàn)分離的形式,避免算法開發(fā)出現(xiàn)多語言的問題。主要是算法工程師提供算法設(shè)計(jì)的總體思路,以偽代碼或者解決方案的形式提供給開發(fā)人員,開發(fā)人員采用C或者java語言,根據(jù)算法的原理來實(shí)現(xiàn)相應(yīng)的功能,并集成到對應(yīng)的業(yè)務(wù)系統(tǒng)中。這種方法在一定程度上是可行的,但是會明顯地降低開發(fā)效率。
隨著機(jī)器深度學(xué)習(xí)技術(shù)、大數(shù)據(jù)技術(shù)的興起,PHM的核心故障診斷、預(yù)測、評估算法模型趨向于海量數(shù)據(jù)建模、神經(jīng)網(wǎng)絡(luò)運(yùn)算,而且有別于業(yè)務(wù)邏輯系統(tǒng)的開發(fā),PHM算法得實(shí)現(xiàn)核心依賴于海量數(shù)據(jù),基于矩陣的GPU運(yùn)算具備更高的優(yōu)勢,針對復(fù)雜的GPU并行計(jì)算,也依賴于當(dāng)前專業(yè)的機(jī)器學(xué)習(xí)框架如Tensorflow、Keras、Matlab等。合理使用相應(yīng)的技術(shù)架構(gòu)、開發(fā)語言能夠快速的作為PHM系統(tǒng)的開發(fā),而這種技術(shù)架構(gòu)、開發(fā)語言的融合由于缺乏成功的工程經(jīng)驗(yàn),也導(dǎo)致了各種現(xiàn)有的技術(shù)無法有機(jī)融合,無法實(shí)現(xiàn)更先進(jìn)的PHM系統(tǒng)。
使用Docker容器技術(shù)和微服務(wù)是解決上述問題的關(guān)鍵技術(shù)。Docker容器是一種先進(jìn)的虛擬化技術(shù),它能夠輕量級的搭建一個(gè)具有核心功能的Linux系統(tǒng),基于此系統(tǒng)能夠安裝所需的任何運(yùn)行環(huán)境,并且能夠?qū)⒏鞣N運(yùn)行環(huán)境隔離開來,以接口的形式實(shí)現(xiàn)各種運(yùn)行環(huán)境的交互,能夠?qū)崿F(xiàn)技術(shù)架構(gòu)層次的統(tǒng)一。而微服務(wù)技術(shù)能夠?qū)⒉煌膽?yīng)用發(fā)布成獨(dú)立的微服務(wù),而忽略實(shí)現(xiàn)相應(yīng)應(yīng)用的過程,包括開發(fā)語言和技術(shù)架構(gòu)。采用Docker+微服務(wù)的技術(shù)結(jié)合形式,是實(shí)現(xiàn)多語言融合的算法模型構(gòu)建有效的方法,如圖5所示。
圖5 多語言推理引擎技術(shù)框架
圖6 分布式健康管理服務(wù)引擎技術(shù)框架
通過采用的分布式服務(wù)架構(gòu),可實(shí)現(xiàn)以下服務(wù)流程:應(yīng)用服務(wù)器經(jīng)數(shù)據(jù)中間件服務(wù)器,將計(jì)算任務(wù)請求發(fā)送至計(jì)算服務(wù)器,支持的任務(wù)類型為Python等引擎,“Scheduler”部分根據(jù)任務(wù)請求創(chuàng)建出多個(gè)Job,每個(gè)Job代表了一個(gè)獨(dú)立應(yīng)用的計(jì)算分析任務(wù),例如某航天器XX功率預(yù)測等;具體流程包括如下內(nèi)容:
1)發(fā)送資源請求及任務(wù)信息:由應(yīng)用服務(wù)器,根據(jù)TensorFlow計(jì)算架構(gòu),將Job轉(zhuǎn)換為TensorFlow Job,該Job將根據(jù)計(jì)算任務(wù)預(yù)先配置的資源需求(例如PS:1個(gè),需求1 CPU、1 GB內(nèi)存;Workers:3個(gè),每個(gè)Worker 1 CPU、2 GB內(nèi)存??傆?jì):4 CPU、7 GB);
2)反饋資源:Mesos Master(獨(dú)立的物理主機(jī))實(shí)時(shí)接收下設(shè)多臺Mesos Slave計(jì)算服務(wù)器,反饋的各自物理空閑資源。例如:Mesos Slave-1剩余3 CPU、4 GB,Mesos Slave-2剩余1 CPU、2 GB,Mesos Slave-3剩余2 CPU、4 GB…;
3)分配任務(wù)資源:Mesos Master服務(wù)器的Moduler將根據(jù)下設(shè)各Slave資源,采用最優(yōu)化的方案,對Job資源進(jìn)行分配,例如將PS1及Worker(1~3)分別分配在Mesos Slave1~3中;
4)識別身份:Mesos Slave通過與Master通信,識別自身在Job中的身份,例如Task1、Task2等;
5)建立TF結(jié)構(gòu):在Slave識別自身在Job的身份,按照身份開辟多個(gè)Task線程,組成PS、Works結(jié)構(gòu);
6)計(jì)算執(zhí)行:由Slave根據(jù)TensorFlow結(jié)構(gòu)進(jìn)行計(jì)算;
7)向Master反饋執(zhí)行結(jié)果:由Slave向Master反饋計(jì)算結(jié)果;
8)向Web-Server反饋執(zhí)行結(jié)果:由Master向應(yīng)用服務(wù)反饋計(jì)算結(jié)果。
利用通用故障預(yù)測與健康管理開發(fā)工業(yè)軟件實(shí)現(xiàn)了基于機(jī)器學(xué)習(xí)建模的航天器健康管理平臺,以衛(wèi)星電源分系統(tǒng)關(guān)鍵部件預(yù)測為例進(jìn)行驗(yàn)證。衛(wèi)星電源分系統(tǒng)的太陽電池陣具有額定功率,在長期的軌道運(yùn)行過程中,整個(gè)太陽能電池陣的輸出功率會因?yàn)榱W幼矒艉筒牧侠匣仍虬l(fā)生下降并逐漸減少,從而導(dǎo)致壽命退化。
航天器太陽電池陣輸出功率預(yù)測主要基于光電轉(zhuǎn)換的經(jīng)驗(yàn)?zāi)P?,利用地面試?yàn)數(shù)據(jù)估算模型參數(shù)。 具體的模型方法如圖7所示。結(jié)合以往的經(jīng)驗(yàn),實(shí)際工程中的這種預(yù)測模型需要獲取大量的測試數(shù)據(jù),而實(shí)際工程中往往會進(jìn)行等效的簡化模型構(gòu)建與應(yīng)用。
圖7 基于經(jīng)驗(yàn)?zāi)P偷奶栮囕敵龉β暑A(yù)測原理及電壓電流關(guān)系
如圖7所示,對電源分系統(tǒng)的關(guān)鍵部件太陽電池陣,分析其工作機(jī)理,建立基于等效電路的太陽電池陣輸出功率衰減模型。根據(jù)太陽電池陣的工作原理,考慮太陽光強(qiáng)、入射角、衰減因子等空間環(huán)境的影響,建立基于等效電路的太陽陣輸出功率預(yù)測模型,并用遙測數(shù)據(jù)對已建立的模型進(jìn)行修正,可以對輸出功率的短期異常進(jìn)行檢測和判斷,并對長期工作中出現(xiàn)的性能衰退趨勢進(jìn)行預(yù)測。
利用PHM機(jī)器學(xué)習(xí)平臺中的深度學(xué)習(xí)模型,建立了太陽電池陣列功率預(yù)測的數(shù)學(xué)模型。通過讀取衛(wèi)星電源分系統(tǒng)關(guān)鍵部件的遙測數(shù)據(jù),包括母線電壓、充電電流、放電電流、分流電流等,計(jì)算出太陽電池陣的輸出功率,利用長短期記憶網(wǎng)絡(luò)(LSTM,long short-term memory)實(shí)現(xiàn)功率預(yù)測。與傳統(tǒng)模型方法相比,LSTM具有建模方法簡單、無需獲取過多參數(shù)、預(yù)測精度好等優(yōu)點(diǎn),主要步驟包括:
1)圖形化建模。使用平臺提供的圖形化工具進(jìn)行建模,整個(gè)過程包括數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、LSTM神經(jīng)網(wǎng)絡(luò)訓(xùn)練模塊、LSTM神經(jīng)網(wǎng)絡(luò)預(yù)測模塊、預(yù)測值精度測試模塊等,如圖8所示。具體包括:
圖8 航天器機(jī)器學(xué)習(xí)平臺下太陽電池陣LSTM 預(yù)測建模過程
(1)數(shù)據(jù)庫模塊:通過提供數(shù)據(jù)庫接口訪問航天器遙測數(shù)據(jù)。
(2)預(yù)處理模塊:根據(jù)電流和電壓計(jì)算功率,進(jìn)行平滑降噪等處理。
(3)歸一化模塊:對計(jì)算出來的數(shù)據(jù)進(jìn)行歸一化處理,避免不同維度數(shù)據(jù)的影響。
(4)LSTM訓(xùn)練模塊:配置LSTM網(wǎng)絡(luò)訓(xùn)練模塊,用輸入的部分?jǐn)?shù)據(jù)訓(xùn)練LSTM網(wǎng)絡(luò)預(yù)測模型。
(5)LSTM計(jì)算模塊,計(jì)算并輸出預(yù)測結(jié)果。
(6)評估模塊:將原始數(shù)據(jù)與結(jié)果和輸出預(yù)測精度進(jìn)行比較評價(jià)。
2)LSTM訓(xùn)練。使用平臺提供的模型訓(xùn)練工具完成模型初始化訓(xùn)練。 由于深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的復(fù)雜結(jié)構(gòu),海量數(shù)據(jù)訓(xùn)練是計(jì)算密集型和長期的。建議使用高性能機(jī)器學(xué)習(xí) GPU 服務(wù)器進(jìn)行訓(xùn)練。
3)微服務(wù)發(fā)布。訓(xùn)練好的太陽能電池陣列功率預(yù)測模型發(fā)布后,可以通過Eureka等服務(wù)客戶端查看服務(wù)微服務(wù),客戶端WEB頁面還提供具體微服務(wù)的詳細(xì)信息供外部用戶查看參考,如圖9所示。
圖9 微服務(wù)發(fā)布和狀態(tài)監(jiān)控界面示意圖
4)使用經(jīng)過訓(xùn)練的 LSTM 網(wǎng)絡(luò),通過輸入一段歷史數(shù)據(jù)進(jìn)行數(shù)值預(yù)測。無需復(fù)雜的網(wǎng)絡(luò)設(shè)置和調(diào)整,LSTM 就可以實(shí)現(xiàn)更好的數(shù)據(jù)預(yù)測,并預(yù)測特定時(shí)間內(nèi)太陽能電池陣列功率變化的趨勢,如圖10所示。
圖10 基于LSTM的太陽陣輸出功率預(yù)測結(jié)果示意圖
通過添加更多遙測數(shù)據(jù)并提取最大功率極值特征,預(yù)測太陽能電池陣列功率,如圖11所示。
圖11 太陽陣輸出功率不同方法預(yù)測結(jié)果對比示意圖
機(jī)器學(xué)習(xí)平臺可以通過微服務(wù)、機(jī)器學(xué)習(xí)和消息中間件系統(tǒng)為 PHM 應(yīng)用程序提供先進(jìn)和高效的支持。本文提出了面向機(jī)器學(xué)習(xí)建模的航天器健康管理平臺設(shè)計(jì)方案與方法,但PHM應(yīng)用效果更依賴于核心算法模型,相關(guān)研究和項(xiàng)目體系建設(shè)還存在諸多技術(shù)難點(diǎn)。后續(xù)將繼續(xù)在該領(lǐng)域進(jìn)行研發(fā),以加快航天器健康管理的發(fā)展,提高系統(tǒng)技術(shù)的成熟度。