李 燦
(昆明長水國際機(jī)場動(dòng)力能源部 昆明 650211)
復(fù)雜電子信息系統(tǒng)故障智能診斷研究?
李 燦
(昆明長水國際機(jī)場動(dòng)力能源部 昆明 650211)
隨著系統(tǒng)可用性和安全性要求日益嚴(yán)格,復(fù)雜電子信息系統(tǒng)的維護(hù)任務(wù)也越來越復(fù)雜,系統(tǒng)的輸入輸出信息海量增長、軟硬件故障并發(fā)度越來越高。為了解決這個(gè)問題,論文主要針對(duì)復(fù)雜電子信息系統(tǒng),采用以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)挖掘和基于深度學(xué)習(xí)的故障智能分析等技術(shù),提出了一種軟硬件故障診斷預(yù)測模型,為復(fù)雜電子信息系統(tǒng)軟硬件故障診斷和處置提供了新的手段。
復(fù)雜電子信息系統(tǒng);失效模式;故障診斷
隨著計(jì)算機(jī)系統(tǒng)的廣泛使用,電子信息系統(tǒng)的功能與結(jié)構(gòu)變得日益復(fù)雜和龐大,其中有大量軟件程序的嵌入,而現(xiàn)有的開發(fā)手段和測試技術(shù)不能保證軟件不發(fā)生錯(cuò)誤,軟件錯(cuò)誤可以通過和硬件的交互作用傳遞給硬件,并最終導(dǎo)致系統(tǒng)失效;同時(shí),由于軟件設(shè)計(jì)的不完善,硬件故障也能引起軟件的失效,這些新的軟硬件相關(guān)的故障模式給復(fù)雜電子信息系統(tǒng)的故障診斷和維修保障帶來了困難[1]。目前運(yùn)用大數(shù)據(jù)技術(shù)可以全面獲取、篩選和處理總量巨大且種類繁多的裝備故障信息,并且模式智能識(shí)別和故障檢測等技術(shù)迅速發(fā)展為智能故障診斷預(yù)測技術(shù)研究提供了新的技術(shù)支撐,因此研究復(fù)雜電子信息系統(tǒng)故障診斷方法具有重要的意義。
2.1 軟硬件混合失效模式研究
復(fù)雜電子信息系統(tǒng)中由于有軟件程序的嵌入,并和硬件系統(tǒng)起著同樣重要的作用。因此其故障模式不僅包括軟件、硬件自身的故障模式,而且還包括軟硬件結(jié)合所帶來的新的問題,這些新的故障模式即軟硬件相關(guān)故障模式:它既有軟件故障的特點(diǎn)又有硬件故障的特點(diǎn),但并不是軟件故障和硬件故障的簡單組合,而是在軟件和硬件相結(jié)合的情況下產(chǎn)生的故障,既影響系統(tǒng)軟件又作用于系統(tǒng)硬件。一般有如下三種類型[2]:1)軟件程序發(fā)生錯(cuò)誤,這些錯(cuò)誤通過軟件和硬件的相互作用傳遞給硬件并引起硬件的失效;2)硬件發(fā)生損壞或故障,并對(duì)與之相關(guān)的軟件產(chǎn)生影響,導(dǎo)致軟件發(fā)生錯(cuò)誤;3)軟件和硬件都不存在獨(dú)立的錯(cuò)誤或故障,但當(dāng)它們發(fā)生聯(lián)系時(shí),發(fā)生系統(tǒng)失效,或者不能完成預(yù)定功能。
復(fù)雜電子信息系統(tǒng)軟硬件相關(guān)故障的特性如下:1)相關(guān)性:即當(dāng)一個(gè)元素或聯(lián)系發(fā)生故障后,可能導(dǎo)致同它相關(guān)的元素或聯(lián)系的狀態(tài)發(fā)生變化,進(jìn)而引起相關(guān)元素或聯(lián)系也發(fā)生故障。某一故障可能對(duì)應(yīng)若于征兆,而某一征兆可能對(duì)應(yīng)若干故障。它們之間存在著錯(cuò)綜復(fù)雜的關(guān)系,造成故障診斷困難。故障的相關(guān)性使得許多的故障現(xiàn)象可以歸根于同—個(gè)故障,從而可以從不同的角度對(duì)同—個(gè)故障進(jìn)行診斷;2)時(shí)序性:即一個(gè)故障只有在其故障因素按照一定時(shí)序關(guān)系發(fā)生時(shí),這個(gè)故障才會(huì)產(chǎn)生。這主要是因?yàn)樵趶?fù)雜電子信息系統(tǒng)中,許多功能是通過軟件和硬件的相互作用完成的,控制流和數(shù)據(jù)流通過軟件傳遞給硬件,只有按照特定的順序傳送特定的數(shù)據(jù),系統(tǒng)才能完成其正確的功能,當(dāng)時(shí)序發(fā)生改變時(shí),系統(tǒng)就會(huì)產(chǎn)生故障。
2.2 故障診斷信息分析與收集
復(fù)雜電子信息系統(tǒng)在運(yùn)行使用中會(huì)產(chǎn)生大量數(shù)據(jù)——技術(shù)數(shù)據(jù)、保障數(shù)據(jù)和使用數(shù)據(jù)等。然而保障數(shù)據(jù)源間封閉、孤立,缺乏規(guī)范和標(biāo)準(zhǔn),很難對(duì)數(shù)據(jù)的多備份、動(dòng)態(tài)鏡像、實(shí)時(shí)控制等實(shí)施有效管理[3]。因此,客觀上必須依賴大數(shù)據(jù)分析挖掘技術(shù)進(jìn)行業(yè)務(wù)處理,建立復(fù)雜電子信息系統(tǒng)數(shù)據(jù)檔案庫,包括:產(chǎn)品的型號(hào)、性能、數(shù)量/質(zhì)量情況、使用情況、保障情況等,保障人員可以從數(shù)據(jù)庫中采集、查閱需要的數(shù)據(jù),用于提升保障的準(zhǔn)確性[4]。
1)復(fù)雜電子信息系統(tǒng)狀態(tài)監(jiān)測與故障診斷信息源分析
分析復(fù)雜電子信息系統(tǒng)的狀態(tài)監(jiān)測與故障診斷信息源故障信源,包括自檢設(shè)備、在線監(jiān)測設(shè)備、在線測試設(shè)備、視頻監(jiān)視設(shè)備等,分析信源特征,明確主要軟硬件故障:安裝故障、配置故障、用戶誤操作、用戶未按規(guī)定流程操作、軟硬件平臺(tái)自身異常、數(shù)據(jù)不完整、病毒影響、軟件本身的Bug等,以及信源和信息關(guān)聯(lián)關(guān)系等。
2)復(fù)雜電子信息系統(tǒng)狀態(tài)監(jiān)測與故障診斷信息收集
收集軟件故障模式、硬件故障模式和軟硬件綜合故障模式,根據(jù)各類故障信息,挖掘其運(yùn)行狀態(tài)的多源故障特征信息,研究故障模式,關(guān)聯(lián)可能的故障種類和正確的故障原因。
2.3 故障診斷信息知識(shí)庫
通過大數(shù)據(jù)分析平臺(tái)收集故障信息,分析和挖掘故障模式,建立故障知識(shí)庫,研究建立故障模式形式化描述、故障信息的統(tǒng)一表示方式,形成復(fù)雜電子信息系統(tǒng)狀態(tài)監(jiān)測分類數(shù)據(jù)集。
圖1 故障知識(shí)庫系統(tǒng)組成
在故障知識(shí)庫系統(tǒng)組成中,故障基本信息包括:故障名稱、類型、時(shí)間、部位、現(xiàn)象、故障模式、嚴(yán)重級(jí)別、故障原因、文字描述、圖示、維修策略等信息;解決方法則詳細(xì)記錄了針對(duì)某個(gè)故障具體的處理方法、原理知識(shí)、演示抓圖甚至操作視頻等;故障分解針對(duì)復(fù)雜故障進(jìn)行分解,以降低故障處理難度;故障統(tǒng)計(jì)主要對(duì)故障情況進(jìn)行時(shí)間或頻率等各方面的統(tǒng)計(jì),便于用戶快速找到最近發(fā)生或最頻繁發(fā)生的故障。
日常維護(hù)模塊主要對(duì)軟件安裝部署知識(shí)、系統(tǒng)備份和恢復(fù)知識(shí)、系統(tǒng)優(yōu)化方法進(jìn)行管理;另外,針對(duì)在使用過程中發(fā)現(xiàn)的改進(jìn)意見和建議進(jìn)行收集整理,從而進(jìn)行反饋對(duì)軟件進(jìn)行升級(jí)完善。
基礎(chǔ)原理模塊主要管理軟件運(yùn)行的底層平臺(tái)知識(shí)、軟件信息以及系統(tǒng)原理等背景知識(shí),這些知識(shí)是軟件保障人員進(jìn)行故障處理和日常維護(hù)的基礎(chǔ)。
字典庫模塊主要對(duì)系統(tǒng)中各模塊公用的信息進(jìn)行統(tǒng)一管理。用戶界面模塊主要針對(duì)系統(tǒng)不同的用戶,如專業(yè)技術(shù)人員、廠家技術(shù)人員或者實(shí)際操作人員,提供不同的權(quán)限和操作界面。
保障知識(shí)庫需要對(duì)軟件的維護(hù)性知識(shí)和原理性知識(shí)進(jìn)行存儲(chǔ),這些背景知識(shí)主要表現(xiàn)為較完整的文檔或文字描述,如用戶手冊、程序員手冊、軟件幫助以及保障人員收集的其他技術(shù)文檔等。對(duì)此類知識(shí)的存儲(chǔ)可以利用數(shù)據(jù)表進(jìn)行保存和管理,相關(guān)的數(shù)據(jù)如圖2所示。
針對(duì)復(fù)雜電子信息系統(tǒng)日常運(yùn)行產(chǎn)生的大量測試數(shù)據(jù)及其數(shù)據(jù)特征,研究采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)的學(xué)習(xí)框架[5~6],深度挖掘異常數(shù)據(jù)與軟硬件故障關(guān)聯(lián)關(guān)系,構(gòu)建基于大數(shù)據(jù)關(guān)聯(lián)分析的故障分類模型,提高復(fù)雜電子信息系統(tǒng)的故障診斷效率和隔離率?;谏疃壬窠?jīng)網(wǎng)絡(luò)DNN的故障診斷流程如圖3所示。
圖3 基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的故障診斷流程
步驟總結(jié)如下:
1)獲取復(fù)雜電子信息系統(tǒng)狀態(tài)的數(shù)據(jù)信號(hào),并將這些數(shù)據(jù)作為訓(xùn)練樣本;
2)確定DNN的隱層數(shù)N,以無監(jiān)督的方式逐層訓(xùn)練N個(gè)DAE,即將每個(gè)DAE的隱層輸出作為下一層DAE的輸入,直到完成N個(gè)DAE的訓(xùn)練;
3)添加輸出層,根據(jù)樣本的故障狀態(tài)類型,微調(diào)DNN參數(shù),完成DNN的訓(xùn)練;
4)利用DNN進(jìn)行復(fù)雜電子信息系統(tǒng)健康狀態(tài)的監(jiān)測診斷[7~8]。
結(jié)合基于深度神經(jīng)網(wǎng)絡(luò)的故障診斷流程,建立基于深度學(xué)習(xí)的故障信息分類模型結(jié)構(gòu),如圖4所示。
圖4 基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的裝備故障類型分類結(jié)構(gòu)
根據(jù)基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的任務(wù)系統(tǒng)分類結(jié)構(gòu),復(fù)雜電子信息系統(tǒng)運(yùn)行大數(shù)據(jù)作為深度神經(jīng)網(wǎng)絡(luò)模型的輸入,經(jīng)過網(wǎng)絡(luò)多個(gè)隱含層的深層挖掘提取故障特征,將看似不相關(guān)的多量數(shù)據(jù)按隱含關(guān)系分為多種故障類型,實(shí)現(xiàn)復(fù)雜電子信息系統(tǒng)的故障分類和診斷。
面向故障診斷任務(wù)的大數(shù)據(jù)主要分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)和圖數(shù)據(jù)等多種數(shù)據(jù)類型,見圖5。針對(duì)不同的數(shù)據(jù)特點(diǎn),采用不同的底層架構(gòu)對(duì)其進(jìn)行存儲(chǔ)與管理。
圖5 數(shù)據(jù)類型
1)分解故障診斷任務(wù)
為便于運(yùn)用知識(shí)單元關(guān)聯(lián)專家經(jīng)驗(yàn)知識(shí),預(yù)先將故障診斷任務(wù)分解為各個(gè)子任務(wù),通過向?qū)<易稍冏尤蝿?wù)所對(duì)應(yīng)的問題,明確與故障相關(guān)的知識(shí)及其之間的關(guān)系。
圖6 故障診斷任務(wù)分解
2)搭建結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)處理平臺(tái)
針對(duì)子任務(wù)對(duì)應(yīng)的海量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),擬采用Hbase來進(jìn)行存儲(chǔ)[9]。該平臺(tái)分為數(shù)據(jù)抽取模塊、數(shù)據(jù)智能分析模塊和離線分析及結(jié)果展示模塊三個(gè)主要模塊。研究分析各個(gè)模塊的數(shù)據(jù)抽取方法,數(shù)據(jù)處理方法和結(jié)果的分類統(tǒng)計(jì)等,旨在為實(shí)現(xiàn)實(shí)時(shí)在線交互式檢索提供數(shù)據(jù)支撐。該數(shù)據(jù)處理平臺(tái)實(shí)時(shí)分析結(jié)果將直接寫入Hbase和分布式緩存。對(duì)于分布式緩存中的分析結(jié)果,采用主動(dòng)消息推送方式實(shí)時(shí)發(fā)送到調(diào)用者。離線分析方式形成各種統(tǒng)計(jì)報(bào)表和分析報(bào)告,可實(shí)現(xiàn)在線交互式檢索功能[10~11]。
3)基于模糊推理機(jī)制和深度學(xué)習(xí)的故障診斷預(yù)測框架
復(fù)雜電子信息系統(tǒng)故障數(shù)據(jù)豐富,能夠?yàn)樯疃葘W(xué)習(xí)網(wǎng)絡(luò)提供大數(shù)據(jù)基礎(chǔ)[12~13]。復(fù)雜電子信息系統(tǒng)結(jié)構(gòu)日趨復(fù)雜,但仍具有明顯的層次性特點(diǎn),即可按整機(jī)系統(tǒng)、分系統(tǒng)、各分系統(tǒng)功能單元、電路板、元器件的順序逐層向下擴(kuò)展。系統(tǒng)結(jié)構(gòu)的層次性勢必使故障也具有層次性的特點(diǎn)。通過對(duì)復(fù)雜電子信息系統(tǒng)結(jié)構(gòu)、故障特征及各類智能診斷技術(shù)的特點(diǎn)分析,以傳統(tǒng)的專家系統(tǒng)為主體,采用基于模糊理論的專家系統(tǒng)推理機(jī)制和深度學(xué)習(xí)技術(shù),構(gòu)建一種基于模糊推理機(jī)制和深度學(xué)習(xí)的故障診斷預(yù)測框架,具體框架結(jié)構(gòu)如圖7所示。
圖7 模糊推理機(jī)制的故障診斷預(yù)測框架
故障診斷預(yù)測框架的知識(shí)庫分為靜態(tài)和動(dòng)態(tài)兩部分,靜態(tài)知識(shí)由知識(shí)工程師把領(lǐng)域?qū)<业脑\斷知識(shí)以產(chǎn)生式規(guī)則輸入,包括網(wǎng)絡(luò)結(jié)構(gòu)、樣本集知識(shí)和專家診斷知識(shí)。動(dòng)態(tài)知識(shí)則在系統(tǒng)內(nèi)部通過樣本學(xué)習(xí)實(shí)現(xiàn)內(nèi)部知識(shí)獲取,在完成一個(gè)診斷實(shí)例后,可以記憶診斷的過程和結(jié)果,從而歸納出新的診斷規(guī)則,不斷擴(kuò)充知識(shí)庫的內(nèi)容[14]。故障診斷依據(jù)知識(shí)庫(實(shí)時(shí)數(shù)據(jù)和模糊專家數(shù)據(jù)庫),進(jìn)行模糊規(guī)則推理[15~16],從而向領(lǐng)域?qū)<液途S修人員給出相應(yīng)的故障處置策略。模糊通過對(duì)裝備信息的輸入進(jìn)行理解,獲得證據(jù)關(guān)鍵詞及相應(yīng)的模糊屬性和模糊詞,在模糊專家數(shù)據(jù)庫中查找模糊詞對(duì)應(yīng)的模糊度,從數(shù)據(jù)庫中取出一條規(guī)則,并將該規(guī)則的前提條件與證據(jù)關(guān)鍵詞進(jìn)行模糊匹配。如果匹配成功,利用模糊推理計(jì)算結(jié)論,并將該結(jié)論加入到證據(jù)庫中;如果匹配失敗,則取下一條規(guī)則繼續(xù)進(jìn)行模糊匹配;如果所有的規(guī)則都已經(jīng)匹配完畢,則結(jié)束模糊推理。在證據(jù)庫中尋找最終結(jié)論,并輸出故障及其隸屬度?;谏疃葘W(xué)習(xí)神經(jīng)網(wǎng)絡(luò)針對(duì)積累的大數(shù)據(jù)進(jìn)行訓(xùn)練,并將訓(xùn)練結(jié)果對(duì)推理證據(jù)進(jìn)行循環(huán)修改,有效提高復(fù)雜電子信息系統(tǒng)的故障診斷能力。
綜上所述,本文運(yùn)用復(fù)雜電子信息系統(tǒng)的故障模式分析技術(shù),研究建立故障模式形式化描述、故障信息的統(tǒng)一表示方式。針對(duì)復(fù)雜電子信息系統(tǒng)不同監(jiān)測手段獲得的不同側(cè)面信息,進(jìn)行數(shù)據(jù)特征提取形成狀態(tài)監(jiān)測分類數(shù)據(jù)集。針對(duì)復(fù)雜電子信息系統(tǒng)日常運(yùn)行產(chǎn)生的大量測試數(shù)據(jù)及其數(shù)據(jù)特征,研究采用深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Network,DNN)挖掘異常數(shù)據(jù)與裝備故障之間的關(guān)聯(lián)關(guān)系,構(gòu)建基于深度學(xué)習(xí)的大數(shù)據(jù)關(guān)聯(lián)分析的故障分類模型,利用故障特征信息等大數(shù)據(jù)對(duì)深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,運(yùn)用實(shí)時(shí)處理系統(tǒng)平臺(tái),建立故障診斷知識(shí)庫和預(yù)測模型,實(shí)現(xiàn)復(fù)雜電子信息系統(tǒng)高效智能運(yùn)行狀態(tài)評(píng)估和異常預(yù)測。
[1]XIAO N C,HUANG H Z,LI Y F,et al.Multiple failure mode analysis and weighted risk priority number evaluation in FMEA[J].Engineering Failure Analysis,2011,18(4):1162-1170.
[2]Jack LB,Nnadi A K.Fault detection using support vector machines and artificial neural networks,augmented by genetic algorithms[J].Mechanical Systems and Signal Proeessing,2002,13(2-3):373-390.
[3]R J Fenton,C J Lopez-Toribio,L P Maguire.Fault Diagnosis of electronic systems using intelligent Techniques:a review[C]//IEEE Trans on systems,Man and Cybernetics-Part C Applications and Reviews,2001,31(3):269-281.
[4]耿冠宏,孫偉,羅培.神經(jīng)網(wǎng)絡(luò)模式識(shí)別[J].軟件導(dǎo)刊,2008,7(10):81-83.DI Guanhong,SUN Wei,LUO Pei.Neural network pattern recognition[J].Software Guide,2008,7(10):81-83.
[5] LeCun,Yann,Yoshua Bengio,Geoffrey Hinton.Deep learning[J].Nature,2015,521(7553):436-444.
[6]L.Deng,D.Yu.Deep Learning:Methods and Applications[J].Foundations and Trends in Signal Processing,2013,7(3):198-199.
[7]Ripley.Pattern Recognition and Neural Network[M].Beijing:The Ptople's Posts and Telecommunications Press,2009.
[8]張培先,董澤.智能故障診斷技術(shù)的發(fā)展及應(yīng)用[J].山西電力,2001(3):57-59.ZHANG Peixian,DONG Yi.Development and application of Intelligent Fault Diagnosis Technology[J].Shanxi Electric Power,2001(3):57-59.
[9]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013,25(S):142-146.TAO Xuejiao,HU Xiaofeng,LIU Yang.Overview of Big Data Research[J].Journal of System Simulation,2013,25(S):142-146.
[10]薛青,羅佳,鄭長偉,等.面向作戰(zhàn)仿真的數(shù)據(jù)挖掘[J].四川兵工學(xué)報(bào),2013,34(8):93-95.XUE Qing,LUO Jia,ZHENG Changwei,et al.Study on Data Mining for Combat Simulation[J].Jounal of Sichuan Ordnance,2013,34(8):93-95.
[11]張敏.云計(jì)算環(huán)境下的并行數(shù)據(jù)挖掘策略研究[D].南京:南京郵電大學(xué),2011:2-24.ZHANG Min.Research on the Parallel Data Mining Strategy under the Cloud Computing Environment[D].Nanjing:Nanjing University of Posts and Telecommunications,2011:2-24.
[12]Xu D S.Research on Electronic Equipment Fault Diagnosis Based on Improved BP Algorithm[C]//2010 Second International Conference on Machine Learning and Computing,2010:130-134.
[13]朱大奇,于盛林.基于知識(shí)的故障診斷方法綜述[J].安徽工業(yè)大學(xué)學(xué)報(bào),2002,19(3):197-203.ZHU Daqi,YU Shenglin.Survey of knowledge-based fault diagnosis methods[J].Journal of Anhui university of technology,2002,19(3):197-203.
[14]陳建勤,席裕庚,張仲俊.模糊規(guī)則的學(xué)習(xí)及其在非線性系統(tǒng)建模中的應(yīng)用[J].自動(dòng)化學(xué)報(bào),1997,23(4):533-537.CHEN Jianqqin,XI Yugen,ZHANG Zhongjun.Fuzzy rule learning and its application to nonlinear system modeling[J].ACTA AUTOMATICA SINICA,1997,23(4):533-537.
[15]王東,劉懷亮,徐國華.案例推理在故障診斷系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003,29(12):10-12.WANG Dong,LIU Huailiang,XU Guohua.Application of Case-based Reasoning in Faulty Diagnoses System[J].Computer Engineering,2003,29(12):10-12.
[16]譚勇,王偉.智能故障診斷技術(shù)及發(fā)展[J].飛航導(dǎo)彈,2009,42(7):35-38.TAN Yong,WANG Wei.Intelligent fault diagnosis technology and its development[J].Winged Missiles Journal,2009,42(7):35-38.
Research on Intelligent Fault Diagnosis of Complex Electronic Information System
LI Can
(Power and Energy Department of Kunming Changshui International Airport,Kunming 650211)
With the requirement of system availability and security becoming stricter,the maintenance task of complex electronic information system is becoming more and more complex,and the input and the output information of the system increases greatly,and the concurrent fault degree of hardware and software is higher and higher.In order to solve this problem,this article mainly aims at the complex electronic information system,using data mining based on the big data and deep learning intelligent fault analysis technology,proposes a hardware and software fault diagnosis and prediction model,which provides a new method for hardware and software fault diagnosis and disposal of complex electronic information system.
complex electronic information system,failure modes,fault diagnosis
TN710
10.3969/j.issn.1672-9722.2017.10.016
Class Number TN710
2017年5月7日,
2017年6月20日
李燦,男,碩士研究生,研究方向:機(jī)場相關(guān)動(dòng)力能源,節(jié)能減排,弱電及信息系統(tǒng)管理開發(fā)。