■ 葉含瑞 張玲玲 季續(xù)國
1.中國科學院大學經(jīng)濟與管理學院 北京100190
2.中國科學院大學數(shù)字經(jīng)濟監(jiān)測預測預警與政策仿真教育部哲學社會科學實驗室(培育) 北京100190
3.中國科學院大數(shù)據(jù)挖掘與知識管理重點實驗室 北京100190
4.中科知程科技有限公司 北京100081
對于復雜設備來說,可靠性和操作安全性對于系統(tǒng)的工作性能有直接影響,同時對于工業(yè)、國防等領域的關鍵設備,更是關乎社會財產(chǎn)和人民生命安全,因此對于關鍵設備的維護一直以來都是各方關注的重點。設備故障診斷是一個傳統(tǒng)且較為成熟的話題,近年來隨著專家系統(tǒng)、機器學習、深度學習等技術的發(fā)展,更是不斷取得了新的成果[1]。然而過去許多研究大多集中于對結構化數(shù)據(jù)的建模和探索,對故障模式識別算法的提升和優(yōu)化,而忽視了在設備故障診斷中占較大比例的文本數(shù)據(jù)和專家經(jīng)驗知識,同時,針對完整的設備故障診斷方法論的探討仍然較少。
智能工業(yè)設備的健康運行是一個涉及設備、人、機、料、管理和環(huán)境等的系統(tǒng)工程,在發(fā)生故障時,常常牽涉到多方面的因素,快速精確的診斷往往高度依賴于專業(yè)知識、過往經(jīng)驗以及對多源信息的綜合考量。隨著傳感器、數(shù)據(jù)庫軟件和并行計算等技術的發(fā)展,通過機器獲取、處理和分析諸如振動信號、聲發(fā)射信號和油粒計數(shù)等結構化數(shù)據(jù)的狀態(tài)監(jiān)測和故障診斷技術取得了良好的實踐效果[2],但在設備故障診斷的實際操作中,過多地依賴于對該類結構化數(shù)據(jù)的應用,涉及經(jīng)驗知識等方面,自動化程度低,且多是分階段采用人工或機器方法的簡單組合[3]。缺少綜合多源信息、多種方法解決故障診斷問題的方法論,由此帶來諸如設備健康管理低效、設備知識挖掘和管理水平不足等問題,進而造成大量人財物的浪費,同時不可避免地帶來診斷結果可解釋性差、可靠性不足等情況。
因此考慮該領域豐富數(shù)據(jù)中所蘊藏的知識的重要性,以及對設備健康管理、故障診斷的方法論的迫切需要,課題組申請了《基于知識圖譜和鏈路預測的推薦系統(tǒng)及其在設備健康管理中的應用》的國家自然科學基金項目,關注設備健康管理領域知識管理及非結構化數(shù)據(jù)的挖掘應用,探索指導故障健康管理和故障診斷方法及應用的方法論,本文是該項目的部分成果,在該項目中起到了基礎性的作用,將綜合集成方法應用于設備故障診斷,提出了總體研究框架,其中知識圖譜、文本分類技術及貝葉斯網(wǎng)絡的應用,也為后續(xù)的研究提供了重要工具。
本文在探索綜合集成方法在設備故障診斷領域的應用時,重點關注基于知識的設備故障診斷方法,,該方法將各種人工智能技術應用于工業(yè)過程的歷史數(shù)據(jù)和專業(yè)知識,這些知識隱式地表示了系統(tǒng)變量之間的依賴性,然后檢查所觀察到的操作系統(tǒng)行為與知識庫之間的一致性,并借助分類器做出故障診斷決策[4],該方法具體又可以分為定性和定量兩種類型。定性的故障診斷方法以專家系統(tǒng)[5]和定性趨勢分析技術(Qualitative Trend Analysis, QTA)[6]為代表基于專家系統(tǒng)和定性趨勢分析技術的研究是本研究的重要基礎,這類相對成熟的定性診斷方法為從故障維修等文本中進行知識抽取及故障診斷框架構建提供了重要思路。而基于知識的定量診斷方法本質(zhì)上是將診斷問題的解決公式化為模式識別問題[7][8],在設備故障診斷中的應用,常常以異常點識別、分類、預測等任務體現(xiàn)。隨著神經(jīng)網(wǎng)絡和深度學習技術的應用,基于結構化數(shù)據(jù)的故障診斷方法取得了先進成果[9],但是基于神經(jīng)網(wǎng)絡的診斷面臨最大的問題是缺乏嚴格的理論支持,黑盒式的模型使得研究者很難了解這些模型如何從監(jiān)測數(shù)據(jù)中學習診斷知識,進而也導致診斷結果的解釋性差。相對于此而言,統(tǒng)計學習理論(例如支撐向量機[10][11]、隨機森林[12][13]和貝葉斯網(wǎng)絡[14][15][16]等)具有嚴格的理論基礎,可促進構建具有易于理解的模型參數(shù)、特征和診斷結果的診斷模型,計算復雜度相對較低,模型參數(shù)的設定可以結合專家知識經(jīng)驗等信息。因此,智能故障診斷中統(tǒng)計學習方法的應用仍然值得研究[17]。
相比于以往研究,本文主要存在如下的改進和創(chuàng)新:首先,將綜合集成方法應用于設備故障診斷,構建了一個融合知識圖譜、文本挖掘技術、貝葉斯網(wǎng)絡等方法的故障診斷框架;其次,結合傳統(tǒng)的故障失效分析(Failure Mode and Effects Analysis, FMEA)、故障樹分析(Fault Tree Analysis,FTA)方法,構建了故障診斷知識模型,為知識圖譜在故障診斷領域的應用提供了參考;最后,以實際的鐵路綜合無線通信(Cab Integrated Radio Communication,CIR)設備為例,結合相關單位真實的故障相關數(shù)據(jù)進行了應用探索,取得了較好的實踐結果。
20世紀70年代以來,在一些復雜系統(tǒng)中構建處理復雜問題的模型的困難性日益突出,促使人們將解決問題的方式從簡單的數(shù)學建模轉(zhuǎn)變?yōu)閷碗s問題的考慮。20世紀80年代,復雜性科學(Complexity Sciences)的誕生,標志著一種理解自然與社會的新理念的形成。然而,“復雜性”所包含的語義同樣復雜,復雜性科學又涉及廣闊的學科范圍,各個領域的學者在研究中也有不同的體會,難以對其進行統(tǒng)一明確的定義[18]。作為復雜性科學的專門機構——美國圣菲研究所將復雜性科學的對象確定為復雜系統(tǒng),復雜系統(tǒng)具有非線性和動態(tài)性、非均衡、非周期性和開放性等一系列特征[19]。復雜性科學研究的先驅(qū)者——霍蘭(John Holland)從生物的遺傳、變異現(xiàn)象中得到啟發(fā),創(chuàng)立了著名的遺傳算法,并于1994 在其著作《隱秩序》中,用隱喻的方法從適應性(adaptation)視角進行了系統(tǒng)深入的研究和探討,構建復雜性理論模型,提供了一種分析復雜系統(tǒng)的科學方法。然而要研究復雜系統(tǒng),隱喻或基于計算機的仿真模擬都顯出不足[20],需要綜合各種方法的優(yōu)勢,尤其需要關注那些被定量建模忽略的因素,從不同的角度研究關注的問題[21],形成新的研究方法。
在國內(nèi),最早明確提出探索和應用復雜性科學的是錢學森先生,通過對系統(tǒng)科學的深入探究,錢學森根據(jù)系統(tǒng)的復雜程度和開放性對系統(tǒng)進行了分類,開創(chuàng)性地提出了最復雜的系統(tǒng),即開放復雜巨系統(tǒng)(Open Complex Giant System, OCGS),開放性是指與外界進行能量、信息或物質(zhì)交換,該系統(tǒng)內(nèi)存在大量具有層次結構和復雜相互關系的子系統(tǒng),并指出社會系統(tǒng)、人類大腦和身體以及地理系統(tǒng)是典型的開發(fā)復雜巨系統(tǒng)。在錢學森、于景元、戴汝為、顧基發(fā)等國內(nèi)學者的努力下,系統(tǒng)觀念逐漸在社會實踐和工程中被認識和應用,其中我國航天事業(yè)的發(fā)展就是系統(tǒng)工程技術的典型成功應用案例[22]。但傳統(tǒng)的還原論方法在處理開放復雜巨系統(tǒng)時適用性較差,尤其是缺乏對子系統(tǒng)間相關作用的考慮,在20世紀80年代末至90年代初,以錢老為代表的中國學者提出將還原論和整體論方法結合起來形成系統(tǒng)論方法,并從社會系統(tǒng)、人體系統(tǒng)、地理系統(tǒng)3 個復雜巨系統(tǒng)研究實踐中發(fā)現(xiàn),以科學理論、經(jīng)驗知識和專家判斷力等定性認識為支撐和基礎,結合經(jīng)驗及對系統(tǒng)的實際理解進行建模計算,并反復對比,可以得到我們在現(xiàn)階段認識客觀事物所能達到的最佳結論。經(jīng)過反復研究討論,錢老等提煉、概括和抽象出來了綜合集成方法(Meta Synthesis Approach)[23]。綜合集成方法的實質(zhì)就是把專家體系、數(shù)據(jù)與信息體系、計算機體系有機結合,構成一個高度智能化的人、機結合系統(tǒng)[23][24]。王丹力[25]等總結了綜合集成法在過去30多年的研究和發(fā)展歷程,介紹了該方法在應用信息技術、智能技術和社會科學的大量成果。隨著思維認知科學、系統(tǒng)科學、信息技術的巨大進步,尤其是大數(shù)據(jù)、云計算、人工智能的飛速發(fā)展,越來越多的復雜巨系統(tǒng)出現(xiàn)了,復雜系統(tǒng)的管理將成為當下的越來越重要的一類新的管理思維、實踐與研究范式[26]綜合集成方法在為解決該類問題提供指導的同時,也與當前的智能科學技術結合日趨緊密,融合發(fā)展。
具體而言,當下認識綜合集成法需注意如下關鍵點:(1)把定性研究和定量研究有機結合起來,從多方面的定性認識,上升到定量認識;(2)把科學理論性經(jīng)驗知識結合起來共同解決問題;(3)根據(jù)系統(tǒng)思想,結合多學科理論方法來進行綜合研究;(4)根據(jù)復雜巨系統(tǒng)的層次結構,統(tǒng)一宏觀研究和微觀研究;(5)借助大型計算機系統(tǒng)的支持,人機結合,人網(wǎng)結合,但以人為主綜合集成信息、知識和智慧[23][25][27]。本文嘗試結合復雜系統(tǒng)觀念,以綜合集成方法為指導,探索出對復雜設備進行智能故障診斷的框架。
1.2.1 智能機械設備的特點
隨著現(xiàn)代工業(yè)和技術的飛速發(fā)展,機械設備正朝著自動化、復雜化和體系化的方向發(fā)展。一方面,設備本身可能涉及到多個系統(tǒng),如車、機、工、電、輛等各專業(yè)系統(tǒng)模塊,不同設備之間的關聯(lián)性逐漸提高,同一設備的不同部分也緊密耦合;另一方面,智能機械設備的運行環(huán)境中常常有多種因素影響設備正常工作,且這些因素與設備故障之間有著復雜的關聯(lián)關系,且設備自身的正常運行,也不可避免伴隨著自然折損。通過內(nèi)外兩方面因素分析可知,設備故障的影響和傳導機制具有明顯的非線性和隨機性等復雜特性。
2.2.2 設備相關數(shù)據(jù)特點
智能設備在運行及維護過程中所產(chǎn)生的數(shù)據(jù)體量龐大且類型復雜,但數(shù)據(jù)價值需要進一步整理挖掘。數(shù)據(jù)來源多樣具體體現(xiàn)在,設備操作手冊和檢修指導手冊、技術參數(shù)、設備運行和維護臺賬、人工檢查記錄、訪談研討記錄、故障分析案例等文本類數(shù)據(jù),視頻監(jiān)控錄像、圖像、音頻等數(shù)據(jù)均與設備故障有一定關聯(lián)。雖然數(shù)據(jù)規(guī)??陀^,但也存在結構復雜、專業(yè)性強、數(shù)據(jù)質(zhì)量參差不齊、可靠性及有效性存疑等問題,在實際應用中,不可完全依賴于可觀察到的各類數(shù)據(jù),仍然需要領域?qū)<?、設備維護人員等協(xié)助決策。
2.2.3 設備故障診斷問題特點
智能故障診斷是一個以相關數(shù)據(jù)的采集、清洗、整理、存儲為基礎,以所提取的專業(yè)知識和專家經(jīng)驗為驅(qū)動,以維修人員、管理專家和計算機系統(tǒng)為支撐,綜合知識管理、信息技術、數(shù)據(jù)挖掘、可靠性工程等學科知識,涉及知識建模、知識表示、狀態(tài)監(jiān)測、診斷推理和輔助決策等多項技術支持的復雜動態(tài)過程,可以看作一個系統(tǒng)工程進行分析研究。
從整體來看,故障的診斷是一個跨領域、跨學科、多部門協(xié)同的過程,需要系統(tǒng)性的思維來指導實踐。首先,需要一線人員做好數(shù)據(jù)記錄、采集,搭建數(shù)據(jù)管理系統(tǒng)平臺;隨后,結合實際問題,結合知識管理、故障診斷、可靠性理論等專業(yè)知識及經(jīng)驗,設計知識模型整理數(shù)據(jù),提取重要知識;最后,在實際故障診斷中,由維護人員結合現(xiàn)場情況,依據(jù)數(shù)據(jù)和過往經(jīng)驗,必要時輔以專家支持。
從人員和技術支持上而言,需要我們將設備運維人員、領域?qū)<遗c計算機技術結合起來,共同用于故障診斷問題。借助計算機技術來采集、處理相關數(shù)據(jù),從中尋找用于故障診斷的經(jīng)驗、模式等等,所提取出來的知識對應于知識管理中的“顯性知識”;對于未能在數(shù)據(jù)中體現(xiàn)或難以通過現(xiàn)有數(shù)據(jù)所抽取到的經(jīng)驗知識,也即知識管理術語所定義的“隱性知識”,則需要借助專家支持,通過綜合評估判斷得到可靠的結果。
從數(shù)據(jù)處理和應用上,需要定性定量方法結合。一方面,設備的故障涉及到多種來源及類型的數(shù)據(jù)信息,這些數(shù)據(jù)中所包含的設備故障影響因素也與故障的發(fā)生有著復雜的時間空間聯(lián)系,針對不同類型的數(shù)據(jù),需要綜合采用定性定量的方法來合理處理;另一方面,對于最終的設備故障診斷結果,需要在應用各類方法分析的基礎上,對感性經(jīng)驗和理性知識進行融合,通過定性的分析認識,逐步上升到定量方法和推理,更好地指導實踐。
對于復雜設備的故障診斷,需要綜合宏觀理論和微觀實踐多層次分析建模。包括從系統(tǒng)到組件的結構功能梳理,從檢測、定位到識別的流程分析,以及在每個環(huán)節(jié)采取有效的算法和人員支持。
結合前文對設備、故障、相關數(shù)據(jù)、診斷問題的分析,本文以綜合集成方法為指導方法論,融合知識圖譜、文本挖掘技術、貝葉斯網(wǎng)絡等多種方法,構建一個定性定量結合的設備故障診斷框架,整體研究架構如圖1所示。
圖1 綜合集成的故障診斷框架
文章以鐵路CIR 設備為例,首先,通過分析設備的組成結構及故障特點,結合現(xiàn)有研究中針對設備故障診斷相關的知識圖譜構建過程,進行知識建模,采用自上而下的方法,提出了針對鐵路CIR 設備的知識圖譜構建模型,實現(xiàn)了該領域的知識圖譜可視化。充分利用知識圖譜復雜關系的表現(xiàn)能力,將設備相關的故障診斷流程、故障原因、故障部件間復雜的關系展現(xiàn)出來。
然后,提出一個針對不同類型維修人員的故障定位方法。通過分析設備故障診斷的臺賬記錄,借助文本挖掘方法,協(xié)助經(jīng)驗水平較低的維修人員進行設備故障的初步分類,定位到故障所屬的一級模塊,并依據(jù)過往經(jīng)驗給出可能發(fā)生故障的下一級模塊排序;對于經(jīng)驗水平較高的維修人員,可直接通過特定故障關鍵詞在知識圖譜中查詢定位,得到潛在故障的相關信息網(wǎng)絡子圖。
最后,在已經(jīng)構建出的知識圖譜中,通過故障關鍵詞檢索隔離故障,輔以文本挖掘方法的初步定位,可以得到故障、部件原因與現(xiàn)象之間的網(wǎng)絡圖,為利用貝葉斯網(wǎng)絡進行設備故障診斷提供了網(wǎng)絡基礎,基于此知識子圖的網(wǎng)絡結構,構建貝葉斯網(wǎng)絡的節(jié)點和關系結構,并結合可靠性理論、維修數(shù)據(jù)統(tǒng)計分析、專家訪談等方法,共同確定貝葉斯網(wǎng)絡參數(shù)。再借助已構建好的貝葉斯網(wǎng)絡進行定量推理得到設備故障發(fā)生的概率值,協(xié)助管理和維修操作人員進行決策。
(1)結合系統(tǒng)思想解決問題。通過對設備、設備故障、數(shù)據(jù)及故障診斷問題進行綜合分析,明確故障診斷是一個跨學科多領域的研究問題,需要綜合知識管理、數(shù)據(jù)挖掘、可靠性工程、信息技術等多領域知識來共同解決問題,其中以系統(tǒng)思想為指導,將故障診斷問題看作系統(tǒng)工程來分析處理。
(2)把科學理論和經(jīng)驗知識結合起來。選擇人機結合、人機交互、定性定量結合的方式,將專家群體和維修人員、統(tǒng)計數(shù)據(jù)和信息資料、自動化技術結合起來;借助FMEA 和FTA 進行故障分析,綜合知識圖譜、文本分類算法和貝葉斯網(wǎng)絡等科學方法,共同梳理、挖掘和應用文本數(shù)據(jù)中所蘊含的經(jīng)驗知識,進行設備故障診斷。
(3)定性研究和定量研究有機結合起來。方法上借助知識圖譜和文本分類算法處理定性的經(jīng)驗知識,利用貝葉斯網(wǎng)絡來實現(xiàn)定量的非確定性信息推理。從定性的數(shù)據(jù)和知識出發(fā),落腳于定量的研究和應用,實現(xiàn)從感性到理性,從定性到定量的轉(zhuǎn)變提升。
(4)分層次體系化地分析研究設備故障診斷問題。從設備本身來看,針對設備功能結構等進行分析,可以得到不同的子系統(tǒng)和模塊,更好地理解系統(tǒng)工作原理并做出可靠的故障診斷結果;從問題來看,設備的診斷又分為故障檢測、故障定位和故障識別,對每一個環(huán)節(jié)針對性地進行分析建模,環(huán)環(huán)相扣,緊密銜接,如對于多源異構的故障相關知識和數(shù)據(jù),采用知識圖譜進行整理和存儲;通過文本分類技術進行故障初步定位,再結合知識圖譜確定性推理進一步確定故障相關網(wǎng)絡圖;根據(jù)故障定位所得的網(wǎng)絡圖構建貝葉斯網(wǎng)絡,進行定量的診斷推理,逐步確定故障根本原因。
接下來則是在該綜合集成的故障診斷框架指導下進行的具體探索。
在邏輯架構上,我們通常將知識圖譜劃分為數(shù)據(jù)層和模式層兩個層次,技術架構上,知識圖譜的構建主要有自頂向下和自底向上兩種方法因為設備故障診斷的數(shù)據(jù)常常存在非結構化程度較高,數(shù)據(jù)規(guī)模相對較小,異質(zhì)性較高,記錄相對不完整等問題。但其知識內(nèi)容比較明確,關系比較清晰,而設備故障診斷對于模型準確度要求較高,故而采用了自頂向下的知識圖譜構建方法。而知識圖譜中所涉及故障診斷的關鍵實體,即故障原因、故障現(xiàn)象、故障檢測方法、故障模塊、故障維護方案等,都是故障診斷的重要知識要素,需要在構建圖譜前進行有效的定義和梳理。因此,我們結合傳統(tǒng)的故障模式與影響分析(FMEA/FMECA)、故障樹分析法(FTA)進行故障分析并構建故障知識模型,在此基礎上構建用于設備故障診斷的知識圖譜。
2.1.1 故障分析
在為復雜設備設計維護方案并整理經(jīng)驗知識時,首先要準確理解其故障行為,故障模式與影響分析(FMEA)(也稱失效分析)和故障樹分析(FTA)是目前常用的兩種故障分析方法[28]。
本文以這兩種方法為指導,首先,通過分析設備的功能層次關系,得到如圖2 所示的鐵路CIR 設備的功能層次與結構層次劃分的對應關系,同時確定了故障模塊主要有:主機、A子架、B子架、MMI、數(shù)據(jù)采集編碼器、連接組件、饋線系統(tǒng)等。隨后定義故障判據(jù)并確定故障模式及最小分析粒度。
圖2 鐵路CIR設備的功能層次與結構層次劃分的對應關系圖
根據(jù)故障分析,主要確定了故障排查鏈路、故障原因、故障部件、部件所屬模塊這幾個核心實體,得到故障診斷知識核心如圖3所示。
圖3 故障診斷知識核心結構圖
2.1.2 知識圖譜構建
基于故障分析所得的故障知識核心,構建了故障診斷知識圖譜的模式層,及故障診斷知識模型(圖4),其中節(jié)點包含了故障判斷路徑(troubleshooting path)、故障原因(causes)、故障模塊(modules by units)、維修方案(solutions)、員工(crew)、部件(units);屬性主要是各個節(jié)點的名稱(name)和編號(id)等;關系包含了原因、故障判斷路徑的父步驟(fatherOf)、故障部件(troubleUnits)、檢修人員(maintainer)等。
圖4 設備故障診斷知識圖譜模式層構建示意圖
在已經(jīng)搭建好的知識圖譜框架下,結合鐵路CIR 設備操作說明及維護手冊、故障分析流程圖、廠家故障分析案例、故障維護臺賬、CIR 設備故障知識庫、專家及維修人員訪談等數(shù)據(jù),提取相應的實體及關系,并先在Excel中以關系表形式整理存儲。具體而言,數(shù)據(jù)層的構建需要經(jīng)過知識抽取、知識融合、知識加工及知識更新等一系列的基本步驟[29]。其中,知識抽取是在模式層知識組織架構的指導下,通過一系列知識抽取方法從非(半)結構化數(shù)據(jù)中獲取實體、實體間關系以及屬性等結構化知識;知識融合是對知識抽取所得到的實體進行實體消歧和共指消解處理;知識加工是指對知識進行本體構建、編碼和知識連接,構成了在知識圖譜中的基本構成元素“節(jié)點”與“邊”;知識更新則是在知識圖譜應用的過程中,對其中知識的質(zhì)量與時效性進行評估,并結合知識的發(fā)展進行更新和修正[30]。知識圖譜的基本構成元素已經(jīng)準備完畢,并以圖數(shù)據(jù)庫的形式存儲。本文采用當前知識圖譜構建的主流數(shù)據(jù)庫Neo4j數(shù)據(jù)庫進行知識圖譜的構建和可視化的實現(xiàn),實體關系及屬性數(shù)量統(tǒng)計見表1。
表1 鐵路CIR設備故障診斷知識圖譜的實體關系及屬性數(shù)量
為了便捷操作,本文使用基于neo4j 的python 開發(fā)包py2neo 導入實體關系數(shù)據(jù),初步建立CIR 維修知識圖譜如圖5所示。
圖5 基于neo4j的知識圖譜可視化示意(部分)
考慮到維修人員的經(jīng)驗知識水平差異,本文通過知識圖譜及文本挖掘技術,提出了面向不同類型的故障維修人員的設備故障定位方法。
2.2.1 基于文本分類的故障初步定位
在進行設備故障診斷時,經(jīng)驗相對較少的維修人員往往難以直接通過故障現(xiàn)象判斷到具體下一步該如何操作,即對應于知識圖譜的故障判斷路徑,對于故障部件及原因判斷更為模糊。因此加入一個從故障現(xiàn)象到故障部件之間的分類器,可起到重要作用。一般而言,對同一數(shù)據(jù)集的分類標簽越多,分類準確率必然越低,為保證較為有效的分類準確率,需選擇合適的類別數(shù)量。結合前文故障分析所得的故障模塊,即對應的故障部件所屬的大類,可以構建一個輸入為故障現(xiàn)象,輸出為故障類別的文本分類器。故障維修臺賬等文本分類的一般流程如圖6所示。
圖6 文本分類流程
首先進行數(shù)據(jù)的清洗,包含錯別字替換、同義詞替換、專業(yè)名稱統(tǒng)一等問題處理;在分類算法的核心環(huán)節(jié),選擇Bert 模型進行文本表示[31],加入Softmax 層來做分類;最后通過召回率、準確率、F1 值等指標對算法進行測評。
結合實際中的故障記錄情況,在選擇類別時,為保證較好的分類效果,常常面臨存在同一模塊下涉及到的故障原因及部件數(shù)量過多問題,在設計相應的設備故障定位系統(tǒng)時,需要考慮用戶使用的便捷性及效率問題。因此,我們考慮引入故障模式、影響和危害性分析(Failure Mode,Effects and Criticality Analysis,F(xiàn)MECA)中的風險優(yōu)先數(shù)(Risk Priority Number,RPN),作為故障的相關特性。FMECA 是FMEA 的拓展,即在FMEA 的基礎上加入了危害性分析(Criticality Analysis),賦予純定性的FMEA 方法以定量分析的能力。在FMECA 中,每種故障模式的嚴重程度由風險優(yōu)先數(shù)(Risk Priority Number,RPN)量化,該指標將故障嚴重度、發(fā)生概率等級、被檢測難度等級均考慮在內(nèi),RPN 分數(shù)越高,表示該項失效模式的風險越大[32]。通過為每個故障定義風險優(yōu)先數(shù),并在通過文本分類算法得到模塊時,輸出該模塊內(nèi)RPN 評分最高的前n 個故障,可在保障系統(tǒng)安全性的同時,提高故障定位的效率。
2.2.2 基于故障診斷知識圖譜的定位
一些較為熟練的維修工人,可以根據(jù)所觀察到的故障現(xiàn)象判斷該采取何種故障排查措施,根據(jù)此關鍵詞對應到故障知識圖譜中對“故障排查路徑”(troubleshooting path),根據(jù)如下Cypher 查詢語句,考慮輸出包含“故障原因”(cause)、“故障部件”(troubleUnits)、“故障排查路徑”(troubleshooting path)3 類關鍵實體節(jié)點的故障網(wǎng)絡圖,其中“故障排查路徑”信息可為維修人員提供有效的故障排查引導,如圖7所示。
圖7 基于neo4j輸出的涉及“電源故障”的3層網(wǎng)絡關系圖及詳細信息圖示
“MATCH (cause0:causes)-[r1:`cause`]->(symptom1:`troubleshooting path`)<-[r2*]-(symptom2:`troubleshooting path`)
WHERE (symptom1.name CONTAINS '電臺故障'OR symptom2.name CONTAINS'電臺故障')
WITH cause0,r1,symptom1,symptom2,r2 MATCH(unit)<-[r3:`troubleUnits`]-(cause0:causes)
RETURN r1,symptom1,r2,symptom2,cause0,r3,unit”
基于文本分類方法的故障初步定位,最終也落腳于故障知識圖譜中的3 層網(wǎng)絡結果,即包含原因、部件、現(xiàn)象信息的網(wǎng)絡圖,為后續(xù)貝葉斯網(wǎng)絡的構建提供基礎。
貝葉斯網(wǎng)絡可以通過融合多源信息,迭代更新后驗概率,從而做出可靠且可解釋的判斷結果。考慮到貝葉斯網(wǎng)絡完善的理論基礎,及其在推理機制和處理不確定性信息方面的強大能力,基于前文的故障知識整理所得的知識圖譜、故障診斷模型,構建了一個用于設備故障診斷推理的貝葉斯網(wǎng)絡。
貝葉斯網(wǎng)絡(Bayesian Network,BN)由結構和參數(shù)兩部分構成[33]。圖的結構表示變量之間的條件獨立性,以及不同層級間的依賴性;節(jié)點間的條件概率參數(shù)則定量地描述了層級間的依賴關系。
2.3.1 故障診斷貝葉斯網(wǎng)絡構建
結合前文的設備故障定位結果,得到故障診斷的知識圖譜子圖作為貝葉斯網(wǎng)絡的結構基礎,構建一個包含了故障原因、故障部件、故障判斷路徑的網(wǎng)絡關系圖。并以故障原因為核心,由故障部件正向推導出故障原因,故障判斷路徑在某種意義上相當于故障原因發(fā)生后,進行判斷時才可以觀察到的現(xiàn)象。根據(jù)故障原因、故障現(xiàn)象、故障部件之間的關聯(lián)結構,搭建貝葉斯網(wǎng)絡結構。
故障診斷并結合臺賬記錄中所給出的部件維修信息,統(tǒng)計維修頻次,同時咨詢專家,賦予貝葉斯網(wǎng)絡相應的概率參數(shù)值:具體包括故障部件發(fā)生故障的概率、故障原因出現(xiàn)的先驗概率以及3類節(jié)點間的條件概率。
(1)針對故障部件發(fā)生故障的概率(該節(jié)點的先驗概率)可考慮借鑒可靠性理論,假設部件的壽命服從指數(shù)分布,部件分正常(normal)和失效(fail)兩個狀態(tài)。記ti為部件i的使用壽命,假設ti服從指數(shù)分布,即ti~E(λi)。 則在t時刻發(fā)生故障的概率f(ti)=再根據(jù)故障記錄臺賬等數(shù)據(jù)進行統(tǒng)計分析,得到相應的參數(shù)值。(2)故障原因出現(xiàn)的先驗概率,也即需要先確定正常情況下,該故障發(fā)生的概率,可通過對過往數(shù)據(jù)的分析取得,亦可參照Cai 等[34]的研究中的設置,假定所有故障節(jié)點的先驗概率都相同,以便通過新的觀察結果來強調(diào)后驗概率,在沒有新的故障現(xiàn)象被觀察到的時候,故障(原因)不出現(xiàn)的概率為98%,而有2%的可能性會發(fā)生。節(jié)點間的條件概率,結合過往統(tǒng)計數(shù)據(jù)及專家訪談給出。(3)節(jié)點間的條件概率則常常需要依賴專家協(xié)助確定。
2.3.2 應用貝葉斯網(wǎng)絡進行故障推理
構建完成用于設備故障診斷的貝葉斯網(wǎng)絡之后,也可以根據(jù)實際可獲得數(shù)據(jù)情況,將操作員經(jīng)驗數(shù)據(jù)、傳感器實時數(shù)據(jù)、環(huán)境數(shù)據(jù)等分別作為附加信息編碼到貝葉斯網(wǎng)絡中進行故障診斷。
基于貝葉斯網(wǎng)絡的定量分析沿著兩個方向進行,即正向分析(預測)和逆向分析(診斷)。在正向分析中,根據(jù)根節(jié)點的先驗概率和每個節(jié)點的條件概率計算任意節(jié)點的出現(xiàn)概率。如:已知有某故障發(fā)生時,可能會出現(xiàn)的故障現(xiàn)象的概率;當已知某部件使用時間時,其對應的故障原因發(fā)生的概率。在逆向分析(診斷推理)中,當某子節(jié)點的概率發(fā)生更新后,可以根據(jù)貝葉斯公式更新父節(jié)點的后驗概率,也即是故障診斷的實際推理過程,具體如圖8所示。
通常,故障的先驗概率與后驗概率之差越大,相應的故障發(fā)生的可能性就越高[34]。故障診斷方法可以提供發(fā)生故障的可能性,但不能得出明確的診斷結果。因此根據(jù)工程經(jīng)驗,一般需要設定故障發(fā)生概率的閾值來輔助判斷,Cai 等[35]定義了如圖8 所示的兩條判斷規(guī)則,來輸出是“警告”、“故障”還是“正?!?。
圖8 基于貝葉斯網(wǎng)絡的設備故障推理
本文從綜合集成的角度出發(fā),綜合了知識管理、機器學習方法、文本挖掘技術、可靠性理論等多個領域的思想及技術方法,著重考慮設備故障診斷中專家經(jīng)驗和維修人員等要素,構建了一個以知識圖譜、文本分類技術、貝葉斯網(wǎng)絡為主的定性定量結合的設備故障診斷框架,為后續(xù)的設備故障診斷方法研究提供了基礎,為實際中的設備故障診斷知識的管理和應用提供了參考。研究亦表明,綜合集成方法論可以有效指導復雜設備的故障知識管理及診斷實踐,進而對于提升設備故障診斷的可解釋性和可靠性具有重要基礎性作用。綜合集成方法對設備故障診斷等提供了較好的方法論指導,然而為進一步保障、落實設備的正常運行,快速準確地診斷設備故障,仍有較多工作需進一步研究探索。
(1)故障診斷知識圖譜構建研究。知識圖譜對設備故障知識的整理、存儲、共享和復用提供了重要支持,然而當前該領域的圖譜構建自動化程度低,主要是該領域的數(shù)據(jù)存在存儲分散、樣本嚴重不平衡、記錄不完整、專業(yè)性強且規(guī)模一般較小等原因,通用領域的實體識別、關系抽取、知識融合等知識圖譜構建技術難以直接發(fā)揮作用,需要針對相應問題探索自動化的解決方案。
(2)故障診斷知識的挖掘研究。設備健康管理和故障診斷領域蘊含了豐富的專業(yè)知識和專家經(jīng)驗,對于該類知識的挖掘,不僅僅需要探索用于處理結構化和非結構化數(shù)據(jù)的算法,更需要研究體系化、結構化的業(yè)務人員和專家知識管理方法,為后續(xù)的設備健康管理和故障診斷任務提供決策支持。
(3)基于貝葉斯網(wǎng)絡的故障診斷研究。貝葉斯網(wǎng)絡在設備故障診斷領域已經(jīng)有了十分成熟的應用,但是未來仍需關注將貝葉斯網(wǎng)絡與上下游任務的緊密聯(lián)系,如故障定位、確定故障診斷結果并推薦維修方案等,推動綜合集成方法的實踐和應用。
(4)設備故障診斷方法論研究。設備故障診斷作為一個包含了數(shù)據(jù)采集處理、知識抽取、專家經(jīng)驗應用等方面工作的復雜動態(tài)過程,亟需有較好的方法論指導故障診斷的整體工作,本文從綜合集成角度出發(fā)進行了探索,未來仍需要結合工作實踐和技術、理論發(fā)展,來驗證、完善、創(chuàng)新、提升。
(鳴謝:本研究受到“中國科學院大學數(shù)字經(jīng)濟監(jiān)測預測預警與政策仿真教育部哲學社會科學實驗室(培育)基金”資助)