楊 斌
隨著電力通信網(wǎng)絡(luò)及業(yè)務(wù)的快速發(fā)展,電力通信技術(shù)已經(jīng)成為電力生產(chǎn)的一個(gè)重要環(huán)節(jié),隨著電力通信軟交換向IMS演進(jìn)[1~2],IMS在電力通信專網(wǎng)中的逐步推廣應(yīng)用,IMS業(yè)務(wù)系統(tǒng)可靠性成為影響著電力生產(chǎn)安全的重要組成部分。因?yàn)椋琁MS業(yè)務(wù)運(yùn)維人員如能第一時(shí)間對(duì)業(yè)務(wù)系統(tǒng)故障和隱患準(zhǔn)確判斷并及時(shí)處理,可以大大減少故障處理時(shí)間,迅速恢復(fù)業(yè)務(wù)系統(tǒng)的正常使用,保證電力生產(chǎn)安全有序的進(jìn)行。IMS業(yè)務(wù)系統(tǒng)的正常運(yùn)行以及故障處理過(guò)程是一個(gè)非常復(fù)雜的動(dòng)態(tài)、多元、非線性、數(shù)據(jù)量龐大的事件,難以找到合適的數(shù)據(jù)模型全面表達(dá)。同時(shí),當(dāng)發(fā)生故障時(shí),對(duì)有些故障恢復(fù)的操作是分秒必爭(zhēng)的,如電力生產(chǎn)電話、調(diào)度電話等。因?yàn)榫S護(hù)人員的精神壓力非常大,尤其當(dāng)發(fā)生復(fù)雜、復(fù)合、規(guī)模故障時(shí),僅僅依靠人工經(jīng)驗(yàn)是不可能達(dá)到快速恢復(fù)的要求,而且存在出錯(cuò)、誤操作導(dǎo)致故障擴(kuò)大或延誤的風(fēng)險(xiǎn)[3]。本文旨在嘗試使用故障樹(shù)和知識(shí)庫(kù)分析法分析業(yè)務(wù)系統(tǒng)故障,并據(jù)此得出故障處理流程,設(shè)計(jì)出基于故障樹(shù)和知識(shí)庫(kù)的IMS業(yè)務(wù)故障診斷系統(tǒng),以協(xié)助運(yùn)維人員進(jìn)行故障處理。
近年國(guó)內(nèi)外學(xué)者對(duì)故障診斷做了大量的研究,文獻(xiàn)[5]系統(tǒng)地闡述了動(dòng)態(tài)故障樹(shù)的理論和方法,文獻(xiàn)[6]結(jié)合故障樹(shù)分析相關(guān)理論從定性、定量?jī)蓚€(gè)角度展開(kāi)探討,并給出了智能變電站故障診斷的多個(gè)實(shí)例,文獻(xiàn)[7]從系統(tǒng)故障的角度出發(fā),提出了一種基于故障判明時(shí)效比的故障樹(shù)診斷方法,文獻(xiàn)[8]給出了故障樹(shù)分析法在電力變壓器可靠性跟蹤方面的研究,文獻(xiàn)[9]研究了基于組合規(guī)則的電力通信網(wǎng)故障分析方法,文獻(xiàn)[10]系統(tǒng)地介紹了故障診斷相關(guān)的模型及算法,文獻(xiàn)[11]給出了電力通信故障防御軟件的研究及實(shí)際應(yīng)用案例。
故障樹(shù)分析法(Fault Tree Analysis,F(xiàn)TA),是一種圖形演繹的故障分析方法[4],其將系統(tǒng)故障形成的原因由總體至部分按樹(shù)枝狀逐級(jí)細(xì)化進(jìn)行分析,從而判明系統(tǒng)故障的原因,確定故障發(fā)生的概率。通過(guò)對(duì)可能造成系統(tǒng)故障的各種因素進(jìn)行分析,按樹(shù)狀結(jié)構(gòu),逐層細(xì)化,找出并畫(huà)出故障發(fā)生原因的所有可能組合方式。這種方法既能分析軟、硬件本身的故障影響,又能分析人為、環(huán)境等的影響,不僅能對(duì)故障產(chǎn)生的原因進(jìn)行定性分析,找出導(dǎo)致系統(tǒng)故障的原因和原因組合,確定最小割集,識(shí)別出系統(tǒng)的薄弱環(huán)節(jié)及所有可能的故障模式,還能進(jìn)行定量計(jì)算,根據(jù)各已知最小單元的故障分布及發(fā)生概率,求得最小割集重要度,明確診斷流程及優(yōu)先級(jí)。
故障樹(shù)分析法的一般流程,首先以人們所關(guān)心的系統(tǒng)故障為分析目標(biāo),梳理系統(tǒng)的組成、結(jié)構(gòu)及功能關(guān)系,梳理所有可能的最小故障單元;其次按照故障樹(shù)規(guī)則由上而下,逐層分解導(dǎo)致該系統(tǒng)故障發(fā)生的所有直接原因,并用與、或、非等邏輯門的形式將這些故障和相應(yīng)的原因事件連接起來(lái),建立分析系統(tǒng)的故障樹(shù)模型,從而直觀表達(dá)出系統(tǒng)各底事件單元故障和系統(tǒng)故障之間的內(nèi)在邏輯關(guān)系;然后采用下行法計(jì)算最小割集,計(jì)算頂事件發(fā)生概率、最小割集發(fā)生概率及重要度;據(jù)此確定故障診斷程序,并按照優(yōu)先順序自動(dòng)解決或安排人員進(jìn)行現(xiàn)場(chǎng)維修,基于故障樹(shù)的故障診斷的一般流程如圖1所示。
圖1 基于故障樹(shù)的故障診斷流程
當(dāng)系統(tǒng)發(fā)生故障時(shí),運(yùn)維人員總是希望能夠快速的定位故障原因,迅速解決故障以恢復(fù)生產(chǎn)。在實(shí)際操作中,為了達(dá)到這個(gè)目標(biāo),一方面結(jié)合日常運(yùn)維經(jīng)驗(yàn)設(shè)計(jì)系統(tǒng)監(jiān)控模塊,對(duì)系統(tǒng)各關(guān)鍵設(shè)備、模塊的狀態(tài)進(jìn)行定時(shí)監(jiān)控和采集,針對(duì)高風(fēng)險(xiǎn)模塊則進(jìn)行高頻率的主動(dòng)實(shí)時(shí)的監(jiān)控。當(dāng)采集到的信息超出了規(guī)定的閾值時(shí),則判定為系統(tǒng)故障;另一方面則以此作為頂事件,按照故障樹(shù)的建樹(shù)規(guī)則,形成相應(yīng)的分析模型。
考慮到IMS系統(tǒng)及業(yè)務(wù)特點(diǎn),故障樹(shù)模型主要采用與、非門構(gòu)成;頂事件代表某項(xiàng)IMS業(yè)務(wù)故障,比如無(wú)法通話等,用T表示;底事件代表IMS某最小單元故障,比如主CSCF故障、呼叫限制、接入側(cè)交換機(jī)故障、賬號(hào)密碼錯(cuò)誤等,用X1、X2等來(lái)表示;中間事件指未充分拆解的故障原因,比如核心網(wǎng)側(cè)故障、接入側(cè)故障、核心網(wǎng)信息配置錯(cuò)誤等,用M1、M2等來(lái)表示,IMS業(yè)務(wù)故障樹(shù)模型示例如圖2所示。
圖2 IMS業(yè)務(wù)故障樹(shù)模型示例
最小割集(minimal cut set)是可靠性統(tǒng)計(jì)的基本概念之一,最小割集中的部件都失效,即會(huì)使系統(tǒng)失效。從故障角度看,由于此時(shí)各底事件為系統(tǒng)可測(cè)可控的最低分析單元,也是造成系統(tǒng)故障的基本原因,因而,最小割集就是這些能夠?qū)е孪到y(tǒng)故障發(fā)生的基本原因的最小組合。
最小割集囊括了分析系統(tǒng)的全部故障原因,描述了系統(tǒng)最薄弱的環(huán)節(jié),是故障診斷需要把握的重點(diǎn)和關(guān)鍵。而頂事件的發(fā)生概率則定量刻畫(huà)了系統(tǒng)發(fā)生故障的可能性。
為了快速確定系統(tǒng)故障原因,需要計(jì)算出分析模型中頂事件及最小割集的發(fā)生概率,采用下行法求解最小割集,并由底事件發(fā)生的概率求得故障樹(shù)的所有最小割集和頂事件的發(fā)生概率。
針對(duì)圖2的故障樹(shù)模型,采用下行法求解最小割集,從頂事件開(kāi)始,逐層拆解,遇到或門就拆解為并列寫(xiě)出,遇到與門就串行寫(xiě)出,最后需要進(jìn)行約減,可得到表1。
表1 下行法求解最小割集
設(shè)某最小割集K{X1,X2,…,Xn}中包含n個(gè)底事件,且各底事件之間是相互獨(dú)立且不相容的,因此最小割集的概率PK可由各底事件發(fā)生概率的積來(lái)計(jì)算,定義如下:
對(duì)于故障樹(shù)頂事件發(fā)生的概率按照故障樹(shù)的邏輯結(jié)構(gòu),應(yīng)用式(1)從下往上逐步計(jì)算。任何故障都可由頂事件和最小割集組成的或門來(lái)表示,因此頂事件的發(fā)生概率可應(yīng)用最小割集來(lái)計(jì)算,設(shè)已知故障樹(shù)m個(gè)相互獨(dú)立最小割集Mi,計(jì)算公式為
為直觀地描述最小割集對(duì)頂事件發(fā)生所作的貢獻(xiàn),定義最小割集重要度PMT為
此處最小割集重要度僅考慮了最小割集故障發(fā)生概率的因素,后續(xù)研究將考慮加入故障檢測(cè)時(shí)間因素,使得最小割集重要度更加合理。
確定最小割集及其重要度之后,即可以明確診斷流程及診斷順序。
本文提出的基于故障樹(shù)和知識(shí)庫(kù)的診斷流程,增加了知識(shí)庫(kù)功能,使得故障樹(shù)規(guī)則可以自我更新完善,也可以給出具體的故障處理建議。
結(jié)合知識(shí)庫(kù)的故障診斷流程包含兩個(gè)主要步驟,步驟一完成故障樹(shù)規(guī)則庫(kù)的構(gòu)建及初始知識(shí)庫(kù)的構(gòu)建;步驟二基于故障樹(shù)和知識(shí)庫(kù)對(duì)當(dāng)前告警進(jìn)行診斷,輸出診斷報(bào)告;步驟三基于診斷報(bào)告產(chǎn)生案例到故障處理知識(shí)庫(kù),并根據(jù)知識(shí)庫(kù)更新完善故障規(guī)則庫(kù)。
步驟一包括:
1)搜集數(shù)據(jù),并依據(jù)業(yè)務(wù)專家、經(jīng)驗(yàn)積累及實(shí)際要求,建立故障樹(shù)規(guī)則庫(kù);
2)確定故障樹(shù)底事件概率;
3)建立初始的故障處理知識(shí)庫(kù)。
步驟二包括:
1)基于故障樹(shù)和知識(shí)庫(kù)對(duì)當(dāng)前告警進(jìn)行診斷;
2)輸出診斷報(bào)告:包括故障診斷順序及故障處理建議。
步驟三包括:
1)產(chǎn)生案例到故障處理知識(shí)庫(kù);
2)通過(guò)案例庫(kù)自動(dòng)更新完善故障樹(shù)規(guī)則庫(kù)。
基于故障樹(shù)和知識(shí)庫(kù)的診斷流程如圖3所示。
圖3 基于故障樹(shù)和知識(shí)庫(kù)的故障診斷
結(jié)合某省公司的IMS業(yè)務(wù)故障及檢修情況,對(duì)基于故障樹(shù)和規(guī)則庫(kù)的IMS業(yè)務(wù)故障診斷方法進(jìn)行算法驗(yàn)證。
基于IMS系統(tǒng)功能結(jié)構(gòu)及業(yè)務(wù)故障情況,針對(duì)“無(wú)法通話”故障構(gòu)建初始的故障樹(shù),得到IMS業(yè)務(wù)故障診斷模型如圖4所示,該故障樹(shù)包括1個(gè)頂事件,20個(gè)底事件,底事件的故障發(fā)生概率已知。
圖4 某省IMS業(yè)務(wù)無(wú)法通話故障的故障樹(shù)模型
針對(duì)圖4的故障樹(shù),采用下行法求解最小割集,得到最小割集23個(gè),分別為:{K1:主SBC故障,備SBC故障},{K2:主SBC故障,備CSCF故障},{K3:主SBC故障,備HSS故障},{K4:主CSCF故障,備SBC故障},{K5:主CSCF故障,備CSCF故障},{K6:主CSCF故障,備HSS故障},{K7:主HSS故障,備SBC故障},{K8:主HSS故障,備CSCF故障},{K9:主HSS故障,備HSS故障},{K10:無(wú)配置},{K11:呼叫限制},{K12:黑名單},{K13:呼轉(zhuǎn)信息錯(cuò)誤},{K14:核心網(wǎng)交換機(jī)故障},{K15:核心網(wǎng)線路故障},{K16:IAD故障},{K17:話機(jī)故障},{K18:接入側(cè)交換機(jī)故障},{K19:接入側(cè)線路故障},{K20:IAD配置錯(cuò)誤},{K21:賬號(hào)密碼錯(cuò)誤},{K22:呼叫格式錯(cuò)誤},{K23:多終端登錄}。
最小割集及重要度分析的求解步驟為
1)根據(jù)上述方法得到全部最小割集;
2)根據(jù)底事件概率計(jì)算得到最小割集概率;
3)根據(jù)式(3)計(jì)算得到最小割集的重要度;
4)對(duì)最小割集重要度進(jìn)行排序。
從而得到完整結(jié)果,如表2所示。
從表2中可以看到,割集排序重要性由高到低為:K21>K17>K23>K11>K10>K12>K20>K13>K15>K22>K19>K1>K18>K2>K4>K14>K3>K7>K16>K6>K8>K5>K9;據(jù)此可得到診斷優(yōu)先順序。
表2 下行法求解最小割集
基于本文給出的方法,設(shè)計(jì)實(shí)現(xiàn)了IMS業(yè)務(wù)故障診斷系統(tǒng)。借助初始知識(shí)庫(kù)及其自我完善功能,針對(duì)上述最小割集描述的故障均給出了處理建議,對(duì)于部分參數(shù)配置類的錯(cuò)誤可由系統(tǒng)自動(dòng)檢測(cè)和修復(fù),對(duì)于硬件故障等也給出了維修建議,極大提高了故障的發(fā)現(xiàn)及處理效率。借助知識(shí)庫(kù),也可對(duì)故障樹(shù)規(guī)則庫(kù)進(jìn)行更新完善,使得故障樹(shù)規(guī)則更完整準(zhǔn)確,底事件先驗(yàn)概率也可進(jìn)行自動(dòng)更新。
該省電力公司業(yè)務(wù)故障診斷系統(tǒng)試運(yùn)行一年以來(lái),運(yùn)維故障記錄統(tǒng)計(jì)分析顯示,IMS業(yè)務(wù)故障的處理效率提高了50%以上,顯著提高了電力業(yè)務(wù)運(yùn)行的安全性及穩(wěn)定性。
基于故障樹(shù)和知識(shí)庫(kù)的IMS業(yè)務(wù)故障診斷技術(shù),結(jié)合IMS業(yè)務(wù)故障特點(diǎn),構(gòu)建了故障樹(shù)模型及故障診斷流程,并結(jié)合故障處理知識(shí)庫(kù),實(shí)現(xiàn)了自我學(xué)習(xí)和完善,使故障診斷得越來(lái)越準(zhǔn)確和高效。
仿真結(jié)果和實(shí)際應(yīng)用效果均表明,相較于傳統(tǒng)的單一側(cè)故障診斷和人工診斷方法,基于故障樹(shù)和知識(shí)庫(kù)的IMS業(yè)務(wù)故障診斷方法能夠準(zhǔn)確、有效地定位故障,使運(yùn)維人員能及時(shí)發(fā)現(xiàn)故障并快速解決,提高了電力通信網(wǎng)可靠性及通信運(yùn)維管理水平,對(duì)電力業(yè)務(wù)運(yùn)行的安全性和穩(wěn)定性具有重大意義。
[1]賀琛,楊鴻珍,盧曉帆.電力通信軟交換向IMS的演進(jìn)方案[J].電力信息與通信技術(shù),2015,13(11):1-6.
HE Chen,YANG Hongzhen,LU Xiaofan.Evolution Scheme from Soft Switch to IMSin Electric Power Communication[J].Electric Power Information and Communication Technology,2015,13(11):1-6.
[2]王曉東,任瑩.IMS在電力系統(tǒng)中的應(yīng)用[J].吉林電力,2016,44(2):39-42.
WANG Xiaodong,REN Ying.Application of IP Multimedia Subsystem in Electric Power System[J].Jilin Electric Power,2016,44(2):39-42.
[3]曾瑛.電力通信網(wǎng)可靠性分析評(píng)估方法研究[J].電力系統(tǒng)通信,2011,32(8):13-16.
ZENG Ying.Power Communication Network Reliability Analysis and Evaluation Methods[J].Telecommunications for Electric Power System,2011,32(8):13-16.
[4]張景林,崔國(guó)章,等.安全系統(tǒng)工程[M].北京:煤炭工業(yè)出版社,2009:32-76.
ZHANGJinglin,CUIGuozhang,et al.Social System Engineering[M].Beijing:Coal Industry Publisher,2009:32-76.
[5]劉東,張紅林,王波,等.動(dòng)態(tài)故障樹(shù)分析方法[M].北京:國(guó)防工業(yè)出版社,2013.
LIU Dong,ZHANG Honglin,WANG Bo,et al.Dynamic fault tree analysis[M].Beijing:National Defense Industry Press,2013.
[6]汪祥,胡志堅(jiān),徐騰飛,等.基于溯因故障樹(shù)模型的智能化變電站故障診斷分析[J].電測(cè)與儀表,2011,35(10):209-213.
WANGXiang,HUZhijian,XUTengfei,et al.The diagnostic analysis of intelligent substation failure based on fault tree model of abductive diagnosis[J].Electrical Measuerment&Instrumentation,2011,35(10):209-213.
[7]倪紹徐,張?jiān)7?,易宏,?基于故障樹(shù)的智能故障診斷方法[J].上海交通大學(xué)學(xué)報(bào),2008,42(8):1372-1375.
NI Shaoxu,ZHANG Yufang,YI Hong,et al.Intelligent Fault Diagosis Method Based On Fault Tree[J].Journal of Shanghai Jiaotong University,2008,42(8):1372-1375.
[8]周寧,馬建偉,胡博,等.基于故障樹(shù)分析的電力變壓器可靠性跟蹤方法[J].電力系統(tǒng)保護(hù)與控制,2012(19):72-77.
ZHOU Ning,MA Jianwei,HU Bo,et al.Reliability tracing technique for power transformers using the fault tree analysis method[J].Power System Protection and Control,2012(19):72-77.
[9]閆生超,張?zhí)毂?,張春?基于組合規(guī)則的電力通信網(wǎng)故障分析方法[J].電力系統(tǒng)通信,2011,32(3):34-38.
YAN Shengchao,ZHANG Tianbing,ZHANG Chunping.Analysis on The Fault of Power Communication Network Based on Combined Rules[J].Telecommunications for Electric Power System,2011,32(3):34-38.
[10]DunhamMH.數(shù)據(jù)挖掘教程[M].郭崇慧,田鳳占,靳曉明譯.北京:清華大學(xué)出版社,2005:79-88.
DunhamM H.Data Mining Tutorial[M].GUOChonghui,TAN Zhanfeng,JIN Xiaoming translation.Beijing:Tsinghua University Press,2005:79-88.
[11]唐云善,張剛.電力通信故障防御軟件的研究與應(yīng)用[J].電力系統(tǒng)通信,2010,31(4):32-39.
TANG Yunshan,ZHANG Gang.Study and application of fault defence software for power communication[J].Telecommunications for Electric Power System,2010,31(4):34-38.