李松峰,宋震,侯玨,肇北,王江濤,劉書浩,宋曉敏
(1.交通運輸部科學研究院,北京 100029;2.城市軌道交通運營安全管理技術及裝備交通運輸行業(yè)研發(fā)中心,北京 100029;3.京東數(shù)智工業(yè)科技有限公司,北京 100176;4.北京京港地鐵有限公司,北京 100068)
隨著各地地鐵運營里程持續(xù)快速增長,因系統(tǒng)設備故障影響路網(wǎng)運行秩序、服務質量甚至運營安全的事件時有發(fā)生[1]。目前,設備故障診斷高度依賴檢修人員經(jīng)驗,無法適應地鐵智能化、智慧化的發(fā)展需求[2]。同時,當前地鐵設備呈現(xiàn)出復雜化和多樣化特征,不同設備的故障診斷方法不同,僅依靠檢修人員經(jīng)驗已無法有效應對。因此,行業(yè)迫切需要智能化的故障分析診斷手段,有效進行故障和系統(tǒng)可靠性分析,提升地鐵運營安全保障能力。
既有的國內外研究大多是對可能造成故障的因素進行分析,然后通過測算其相關概率來進行故障排查,如趙奕等[3]基于故障樹原理,對故障影響因素進行了定性和定量分析。故障樹分析法是地鐵故障常用的分析方法,但其僅適用于故障分類較簡單且依賴關系較明確情況下的故障分析,同時不能進行逆向故障診斷。為了讓故障分析更貼近實際,一般在因素之間增加概率描述。王宇等[4]引入主元分析法對檢修數(shù)據(jù)進行預處理,在此基礎上建立概率神經(jīng)網(wǎng)絡模型,將主元分析與概率神經(jīng)網(wǎng)絡相結合進行故障診斷。但該方法在進行數(shù)據(jù)預處理時,可能會失去原來有效的數(shù)據(jù)信息,影響模型精度。針對故障間邏輯關系相對明確或故障分類相對清晰的情況,可采用故障樹轉貝葉斯網(wǎng)絡的方法來識別系統(tǒng)中的薄弱環(huán)節(jié),進而診斷故障,這種方法在眾多領域得到了應用。Zhang等[5]采用貝葉斯網(wǎng)絡評估了核電廠的運營狀態(tài),對多個影響操作者狀態(tài)的因素進行綜合分析,擴展了貝葉斯網(wǎng)絡的應用維度。周巧蓮等[6]基于地鐵車門系統(tǒng)的故障樹,利用貝葉斯網(wǎng)絡進行了可靠性分析并獲得了系統(tǒng)的關鍵環(huán)節(jié),該方法可為維修策略提供技術支持,但可靠性分析指標較單一,未能全面反映系統(tǒng)的可靠性。崔袁丁等[7]通過貝葉斯網(wǎng)絡特有的概率計算方法,對鐵路旅客服務質量評價體系進行逐級計算,使得評價過程更具條理。Zhang等[8]將模糊理論引入貝葉斯網(wǎng)絡模型,以地鐵隧道滲漏事故為例,驗證了該方法可有效克服現(xiàn)有概率估計方法的局限。李興運等[9]將模糊貝葉斯網(wǎng)絡結合證據(jù)理論分析法,對多態(tài)受電弓系統(tǒng)進行可靠性分析,增強了貝葉斯網(wǎng)絡處理不確定認知的能力。Zarei等[10]用故障模式影響分析法分析了城市天然氣管道運輸風險,用貝葉斯網(wǎng)絡進行建模并評估,成功解析出故障主要影響因素,使風險分析更全面。
以上研究均基于貝葉斯網(wǎng)絡模型,從概率角度解決了故障分析無法高效定位故障原因的難點問題,對故障關鍵因素進行了有效辨識和逆向診斷,但對貝葉斯網(wǎng)絡的應用局限于基于故障概率的診斷過程,忽視了故障診斷需要的時間成本,也缺少在實際場景下對比人工分析和貝葉斯網(wǎng)絡分析效率的研究。鑒于此,本文基于故障發(fā)生概率和排查時間提出“預期時間”測度指標,并以地鐵客室門設備故障診斷為例,對比基于貝葉斯網(wǎng)絡的機器算法與人工故障排查的效率差異,以期為提高地鐵設備故障維修效率提供理論支撐。
地鐵系統(tǒng)發(fā)生故障將直接影響系統(tǒng)可用性,而地鐵的可用性通常與系統(tǒng)條件、運行條件和維修條件密切相關[11]。故障分析的價值在于支撐設備發(fā)生故障時的快速診斷和處置,以恢復設備的可用性。
故障樹分析的基本思想是:將系統(tǒng)最不期望的故障現(xiàn)象作為頂事件,利用演繹推理的方式逐級向下分解,直至所有輸入原因事件無法分解為止。但是,該方法無法對系統(tǒng)發(fā)生多個相互關聯(lián)或數(shù)量不確定的故障進行快速有效排查。
貝葉斯網(wǎng)絡(Bayesian Networks,BN)是基于概率推理的圖形化分析方法,一般用于決策分析。貝葉斯網(wǎng)絡由貝葉斯網(wǎng)絡結構和條件概率兩部分組成[12-13]。設一個貝葉斯網(wǎng)絡由節(jié)點{X1,X2,…,Xn}構成,其中Xn為第n個節(jié)點。該貝葉斯網(wǎng)絡可表示為BN=<G,P>。G表示貝葉斯網(wǎng)絡的網(wǎng)絡結構圖,它是一個有向無環(huán)圖,圖中包含兩個要素:節(jié)點和有向弧。節(jié)點表示系統(tǒng)的隨機變量或事件;有向弧是具有映射方向的弧線,它連接節(jié)點,從原因事件指向結果事件,表示隨機變量或事件間的依賴性或因果關系。P是貝葉斯網(wǎng)絡的二維條件概率表(Conditional Probability Table,CPT),它定義節(jié)點之間的概率關系,表征不同節(jié)點之間的連接關系,根節(jié)點(沒有任何父節(jié)點的節(jié)點)概率為其先驗概率[14]。
圖1 是一個簡單的貝葉斯網(wǎng)絡示意圖,圖形中每個節(jié)點代表的是相應問題的一個隨機變量,節(jié)點變量可以是任何變量的抽象。貝葉斯網(wǎng)絡能提供更為豐富的關系類型,讓決策分析更完善和準確。
本文所指的故障是無法由監(jiān)測設備提供的信息直接得出的源頭故障,而現(xiàn)象是指可直觀得到或由監(jiān)測設備提供的現(xiàn)象。
故障樹模型通過邏輯門連接各事件,而貝葉斯網(wǎng)絡通過有向邊與對應的條件概率分布實現(xiàn)建模,鑒于這種相似性,可將故障樹模型轉化為貝葉斯網(wǎng)絡模型,實現(xiàn)貝葉斯網(wǎng)絡建模。轉化算法如下[15-16]:
(1)將故障樹的每個底事件對應到貝葉斯網(wǎng)絡的根節(jié)點;
(2)將故障樹中各基本事件的先驗概率值作為貝葉斯網(wǎng)絡中對應根節(jié)點的先驗概率進行賦值;
(3)將故障樹的中間事件和邏輯門分別對應表達為貝葉斯網(wǎng)絡中的節(jié)點和聯(lián)系強度,依照故障樹模型中各事件間的邏輯關系連接貝葉斯網(wǎng)絡的各節(jié)點,對相應的節(jié)點附加等價的條件概率分布表。
圖2 所示為故障樹模型中基本邏輯門——“或”門和“與”門——對應貝葉斯網(wǎng)絡模型的表達形式。右側每行的條件概率對應CPT 表格中間的一行。
1.3.1 設備故障概率分析
基于貝葉斯網(wǎng)絡可以由故障的先驗概率和條件概率進行預測推理,最終確定設備故障發(fā)生的原因及相應的概率。因故障樹中各底事件相互獨立且均為“與”“或”的關系,故也可以確定條件概率[17]。在確定各概率后,基于獨立性假設定義,如果事件A1,A2,…,An互不相容,P(B) >0時的貝葉斯公式為[18]:
式(1)中:P(Aj)為第j個事件A的先驗概率;P(Aj|B)為第j個事件A的后驗概率;P(B|Aj)為條件概率。
由貝葉斯公式進行故障診斷,可得出各子節(jié)點造成系統(tǒng)故障的概率,然后按照概率大小順序依次排查不同故障發(fā)生的原因,最大限度減少故障導致的損失。貝葉斯網(wǎng)絡模型可根據(jù)最新的先驗概率(如P(A),P(B))和條件概率(如P(A|B))進行迭代,不斷改進診斷效果。
1.3.2 基于預期時間的故障診斷分析
基于貝葉斯網(wǎng)絡的故障診斷通常用于研究系統(tǒng)或設備的可靠性,但一般不對故障排查成本進行分析。而在實際應用中,應優(yōu)先對故障概率高且排查時間短的故障進行排查,提高故障診斷和解除效能。因此,本文引入預期時間Te。預期時間指排查故障所用時間的數(shù)學期望,計算公式如下:
式(2)中:Pf為故障發(fā)生的概率,經(jīng)由貝葉斯網(wǎng)絡計算所得;T為故障平均排查時間,由設備特性及維修經(jīng)驗得到。
當故障排查時間相同時,應優(yōu)先考慮故障概率。當故障概率相同時,應優(yōu)先考慮排查時間短的故障。本文基于預期時間指標Te,利用Python及PyAgrum框架實現(xiàn)貝葉斯故障排查功能。
在地鐵車輛系統(tǒng)中,客室門設備是機械與電氣相結合的復合型裝置,是保障行車安全的關鍵設備。因此,本文以地鐵車輛客室門設備為研究對象,對國內17 家地鐵運營企業(yè)共計190 條車輛客室門設備故障數(shù)據(jù)進行分析,驗證前述模型的有效性。
將客室門設備故障作為頂事件,結合各故障現(xiàn)象及對正線運營場景的影響情況建立故障樹模型,根據(jù)開門控制邏輯,利用故障樹模型對各故障模式進行分析,其各層事件描述和標號見表1,故障樹模型圖如圖3所示。
表1 故障樹各層事件的描述和標號
根據(jù)1.2 節(jié)提出的轉化原則,可將客室門設備故障的故障樹模型轉化為貝葉斯網(wǎng)絡模型,如圖4所示。
同時,根據(jù)全國17家地鐵公司故障調研數(shù)據(jù)得到客室門設備各故障模式的先驗概率如表2 所示。假設根節(jié)點相互獨立,由圖3 可知各中間事件的條件概率分布只有1(發(fā)生故障)和0(無故障)兩種。表中排查時間為歷史數(shù)據(jù)的均值。需注意的是,“先驗概率”和“排查時間”在現(xiàn)有的維護手冊里找不到,但對工人的維修效率有重要影響。
表2 客室門設備各故障模式先驗概率表
表2 (續(xù))
基于表2 數(shù)據(jù),利用式(1),通過貝葉斯網(wǎng)絡模型可對客室門設備故障概率進行分析。根據(jù)式(2)可以得到各故障此時排查的預期時間Te。因此計算得到客室門設備故障時各根節(jié)點故障概率及所需要的排查預期時間如表3所示。
表3 客室門設備故障時各根節(jié)點故障概率
從表3 中可看出,當客室門故障時,對比X13“門全關閉指示燈不亮”和X14“客室門無法集控打開或關閉”,X14發(fā)生概率更大,不考慮其他因素時,應優(yōu)先排查X14。但根據(jù)式(2),易得Te13<Te14,在診斷時間最優(yōu)原則下,此時應先排查X13。因此,當概率和時間都不相同時,預期時間對故障排查的順序更有指導意義。
采用基于3D數(shù)字孿生的蒙特卡洛仿真系統(tǒng)進行效果驗證,先在14個故障點中隨機生成一個故障點,假設人工故障診斷時沒有任何參考信息,診斷過程完全隨機進行,用戶點擊任意點代表對該故障進行檢查,如果點擊到有故障的點,則代表故障排除。在基于預期時間的貝葉斯網(wǎng)絡故障診斷模式下,用戶每次選擇算法推薦的第1個故障點,即預期時間指標最小的那個故障,以此類推直到選擇到真正的故障點。
表4為人工隨機排查故障和應用本文算法(以下稱為“機器算法”)進行故障診斷的過程對比。測試中,人工排查共歷經(jīng)10 步發(fā)現(xiàn)了故障點X13,耗時188min;而基于預期時間的貝葉斯網(wǎng)絡故障診斷算法僅歷經(jīng)2 步,僅耗時19min 就發(fā)現(xiàn)了故障點X13,較人工排查節(jié)省了169min。圖5所示為兩種方法診斷用時結果對比。
在上例中,利用機器算法進行故障診斷所用的時間只是人工隨機排查的1/10,連續(xù)利用算法進行1 000次蒙特卡洛仿真計算,其結果如圖6所示。從直方圖圖6(c)和圖6(d)可以看出,隨機排查的用時在250min以上的占比最多,其余比較平均分布在0~250min,而在基于預期時間的貝葉斯網(wǎng)絡算法模式下,診斷的時間大多小于150min,大于200min的只占很少一部分。
在實際生產場景中,維修工人一般能憑借經(jīng)驗根據(jù)故障現(xiàn)象進行故障原因的初步判斷。因此,人工故障診斷的過程并不是完全隨機的,而是通過制定策略進行有序的排查,這里涉及兩種不同的排查策略:第一種是嚴格按照排查時間長短順序進行排查,由排查時間最短的故障開始直至找到故障,本文稱之為時間排序策略排查;第二種是按照故障樹自上而下,對造成頂事件的各中間事件依排查時間順序進行排除,對每個中間事件中的底事件也依時間順序進行排查,一個中間事件的底事件全部排查完再進行下一個中間事件的排查,本文稱之為綜合排序策略排查。對兩種人工排查策略下的故障診斷分別進行1 000 次迭代仿真,輸出結果的對比如圖7和圖8所示。
從圖7、圖8 可以看出,兩種策略排查方法的用時都分布在0~250min,時間排序手動排查用時集中在150min左右,而綜合排序手動排查用時較多分布在250min左右。
綜上,3 種人工排查方法與本文所提算法的故障診斷結果對比如表5 所示,機器算法診斷的平均用時分別是3 種人工排查方法平均用時的48.49%,46.48%和43.72%。雖然機器算法的用時不總是小于人工排查的用時,但是機器算法用時的平均值、中位值及標準差都遠小于人工隨機排查。在仿真中模仿有經(jīng)驗的維修工人,綜合考慮概率和平均排查用時進行故障排查(即有策略的人工排查),相較于此,利用本算法可節(jié)省15%~30%的時間。在日常故障維修工作中,設備故障的修復時長在故障處置總時長中占比較小,而故障診斷耗時較長,應用基于貝葉斯網(wǎng)絡模型機器算法能快速分析出系統(tǒng)中的薄弱環(huán)節(jié),提高地鐵設備系統(tǒng)的維修效率。
本文將故障樹轉化為貝葉斯網(wǎng)絡模型應用到地鐵設備故障分析中,通過引入預期時間指標,基于貝葉斯網(wǎng)絡構建了一種新的設備故障診斷算法,并以地鐵車輛客室門設備故障為例,通過仿真測試對比人工隨機故障排查和基于本文算法的故障診斷用時。根據(jù)模型輸出結果,基于本文算法進行故障診斷所消耗的時間是人工隨機排查時間的43%~48%,相比于有策略的人工排查,機器算法估算可節(jié)約15%~30%的時間。由于本文中用于對比的3 種人工故障排查方法均設定了一定的原則,導致故障排查過程存在一定程度的機械性,也沒有考慮不同經(jīng)驗、知識背景的維修人員在診斷故障邏輯方面存在的差異,后續(xù)研究中可予以加強,以更真實地還原實際生產場景。