徐雪源
摘 要:傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維管理系統(tǒng)更關(guān)注網(wǎng)絡(luò)中各網(wǎng)元的當(dāng)前運(yùn)行狀態(tài),網(wǎng)元狀態(tài)評(píng)價(jià)主要依據(jù)是否已發(fā)生故障等信息,系統(tǒng)缺乏進(jìn)行故障預(yù)測(cè)和健康管理(PHM)的能力。PHM技術(shù)可使傳統(tǒng)的“事后維修”和“計(jì)劃維修”轉(zhuǎn)變?yōu)椤耙暻榫S修”。最后,基于健康管理的故障檢測(cè)技術(shù)應(yīng)用,文章分析了其對(duì)網(wǎng)絡(luò)管理系統(tǒng)運(yùn)維效能的影響。
關(guān)鍵詞:網(wǎng)絡(luò)管理;故障預(yù)測(cè);健康管理
1? ? 短波通信應(yīng)用背景
短波通信以其通信距離遠(yuǎn)、難以徹底摧毀等特點(diǎn),在世界各國(guó)軍事通信領(lǐng)域得到了廣泛應(yīng)用。以短波通信為主的通信網(wǎng)絡(luò)是為提升通信保障能力而建的通信網(wǎng)絡(luò),為保障通信效果,其系統(tǒng)的穩(wěn)定性和可靠性要求較高。同時(shí),位于中央處理中心的中心管理和各節(jié)點(diǎn)處理中心的節(jié)點(diǎn)管理之間,地域分布較廣 ,管理的網(wǎng)元設(shè)備和服務(wù)種類雜數(shù)量多,給系統(tǒng)的運(yùn)維帶來(lái)很大的工作量。此外,短波通信技術(shù)的迭代發(fā)展及新通信技術(shù)的推廣應(yīng)用,使得以短波通信為主的通信網(wǎng)絡(luò)規(guī)模增大,系統(tǒng)的復(fù)雜性和不確定性更加突出,因此,系統(tǒng)的故障事件處理和系統(tǒng)巡檢、巡修等方面面臨更多的問(wèn)題和挑戰(zhàn)。
以短波通信為主的通信網(wǎng)絡(luò)作為傳統(tǒng)管理網(wǎng)絡(luò)的一種,更關(guān)注的是網(wǎng)絡(luò)中各網(wǎng)元的當(dāng)前運(yùn)行狀態(tài),網(wǎng)元狀態(tài)評(píng)價(jià)主要依據(jù)是否已發(fā)生故障等信息,缺乏對(duì)網(wǎng)元的故障預(yù)測(cè)和健康管理的能力。在管理和維護(hù)方面,主要采取的是“事后維修”和“計(jì)劃維修”策略?!笆潞缶S修”即系統(tǒng)出現(xiàn)故障后才進(jìn)行維修,此時(shí)問(wèn)題往往已暴露,系統(tǒng)的服務(wù)能力已受到影響;“計(jì)劃維修”即按計(jì)劃執(zhí)行維護(hù),直接受計(jì)劃影響,計(jì)劃過(guò)密容易維護(hù)過(guò)剩造成維修成本浪費(fèi),而計(jì)劃過(guò)梳極易產(chǎn)生維護(hù)不及時(shí),影響到系統(tǒng)服務(wù)能力。因此,就如何“事先”“恰當(dāng)”“合理”“準(zhǔn)確”地維護(hù),將“事后維修”和“計(jì)劃維修”演變成為“保障和維護(hù)性維護(hù)”,產(chǎn)生了故障預(yù)測(cè)和健康管理(Prognostic and Health Management,PHM)的概念。
2? ? PHM技術(shù)
PHM包含故障預(yù)測(cè)(Prognostics)和健康管理(Health Management)兩層含義,“故障預(yù)測(cè)”是預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)當(dāng)前系統(tǒng)的運(yùn)行狀況,即預(yù)測(cè)未來(lái)一段時(shí)間內(nèi)當(dāng)前系統(tǒng)的運(yùn)行狀況;“健康管理”是基于故障預(yù)測(cè)對(duì)系統(tǒng)準(zhǔn)備開(kāi)展的維修活動(dòng)做出適當(dāng)決策的能力。此外,PHM是通信網(wǎng)絡(luò)故障的一種檢測(cè)預(yù)測(cè)方法和維修維護(hù)策略,同時(shí),也能帶動(dòng)傳統(tǒng)網(wǎng)絡(luò)運(yùn)維管理思路的變化,能夠?qū)鹘y(tǒng)的故障管理向基于智能分析的故障預(yù)測(cè)管理轉(zhuǎn)變,從而使得“事后維修”或“定期維修”的方式被“視情維修”取代。
PHM系統(tǒng)主要包括故障的檢測(cè)、隔離、診斷、預(yù)測(cè)、健康管理和壽命追蹤等功能,對(duì)復(fù)雜系統(tǒng)能夠?qū)崿F(xiàn)不同級(jí)別、不同層次、不同區(qū)域、綜合的預(yù)測(cè)和健康管理,能夠預(yù)測(cè)和管理通信系統(tǒng)運(yùn)行狀態(tài),實(shí)時(shí)對(duì)通信系統(tǒng)的健康狀況進(jìn)行預(yù)測(cè)評(píng)估,能夠盡早、有效地預(yù)測(cè)系統(tǒng)可能發(fā)生的故障,同時(shí)為系統(tǒng)的視情維修提供決策。
3? ? 故障預(yù)測(cè)方法
PHM技術(shù)實(shí)施的核心是故障的預(yù)測(cè)評(píng)估。目前,業(yè)界主流的故障預(yù)測(cè)方法主要包括基于模型、基于數(shù)據(jù)驅(qū)動(dòng)和基于統(tǒng)計(jì)可靠性的故障預(yù)測(cè)技術(shù)3種。
3.1? 基于模型的故障預(yù)測(cè)技術(shù)
一種采用動(dòng)態(tài)模型進(jìn)行預(yù)測(cè)的方法,主要包括物理模型方法、卡爾曼/擴(kuò)展卡爾曼濾波/粒子濾波以及基于專家經(jīng)驗(yàn)的方法等,前提是要求通信系統(tǒng)的數(shù)學(xué)模型清晰且已知。通過(guò)建模方式,對(duì)通信系統(tǒng)的運(yùn)行狀況進(jìn)行評(píng)估,以此預(yù)測(cè)系統(tǒng)的未來(lái)故障。其優(yōu)點(diǎn)是能夠深入通信系統(tǒng)本質(zhì),實(shí)現(xiàn)實(shí)時(shí)故障預(yù)測(cè);缺點(diǎn)是對(duì)于故障模式和失效機(jī)理相對(duì)復(fù)雜的系統(tǒng),構(gòu)建相應(yīng)的具備失效機(jī)理能力的數(shù)學(xué)模型較為困難。因此,其在實(shí)際應(yīng)用中受到了很大制約,不適用于復(fù)雜系統(tǒng)或大型通信網(wǎng)絡(luò)。
3.2? 基于數(shù)據(jù)驅(qū)動(dòng)的故障預(yù)測(cè)技術(shù)
一種基于狀態(tài)檢測(cè)數(shù)據(jù)進(jìn)行故障預(yù)測(cè)的方法,能夠通過(guò)狀態(tài)檢測(cè)數(shù)據(jù)對(duì)通信系統(tǒng)進(jìn)行認(rèn)識(shí)和學(xué)習(xí),在無(wú)精準(zhǔn)系統(tǒng)數(shù)學(xué)模型情況下,對(duì)通信系統(tǒng)進(jìn)行預(yù)測(cè)評(píng)估,典型的預(yù)測(cè)評(píng)估方法包括人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,ANN)、模糊系統(tǒng)(Fuzzy Systems,F(xiàn)Z)等。其中,神經(jīng)網(wǎng)絡(luò)是目前業(yè)界在故障預(yù)測(cè)方法和應(yīng)用研究中最多、最熱門的一種,有大量機(jī)器學(xué)習(xí)算法應(yīng)用實(shí)施,常用的包括支持向量機(jī)(Support Vector Machines,SVM)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、決策樹(shù)(Decision Tree,DT)和隱馬爾可夫模型(Hidden Markov Model,HMM)等。該技術(shù)的特點(diǎn)是不需要具備通信系統(tǒng)數(shù)據(jù)模型,通過(guò)對(duì)采集數(shù)據(jù)的分析處理,挖掘其中的隱含信息,進(jìn)行預(yù)測(cè)評(píng)估,從而避免了基于模型的故障預(yù)測(cè)技術(shù)的缺點(diǎn),目前,已成為業(yè)界一種較為實(shí)用的故障預(yù)測(cè)方法。
3.3? 基于統(tǒng)計(jì)可靠性的故障預(yù)測(cè)技術(shù)
一種基于故障歷史數(shù)據(jù)進(jìn)行故障預(yù)測(cè)的方法,從故障歷史數(shù)據(jù)統(tǒng)計(jì)特性角度進(jìn)行故障預(yù)測(cè),預(yù)測(cè)所需要的信息均包含在故障歷史數(shù)據(jù)所蘊(yùn)含的一系列概率密度函數(shù)中。常用的方法包括貝葉斯方法(Bayesian Analysis,BA)、D-S證據(jù)理論(Dempster-Shafer Evidence Theory,DSET)、模糊邏輯(Fuzzy Logic,F(xiàn)L)等。最典型的應(yīng)用分析便是著名的“浴盆曲線”,即通信系統(tǒng)在運(yùn)行之初的故障率較高,運(yùn)行一段時(shí)間后故障率可以保持在相對(duì)比較低的水準(zhǔn),再運(yùn)行一段時(shí)間后故障率又開(kāi)始上升,最后直到通信系統(tǒng)發(fā)生故障或失效。
4? ? 典型案例應(yīng)用
以中央處理中心(中心管理)和節(jié)點(diǎn)處理中心(節(jié)點(diǎn)管理)兩級(jí)架構(gòu)組成的典型大型通信網(wǎng)絡(luò)管理系統(tǒng)為例,系統(tǒng)管理的網(wǎng)元設(shè)備分布地域廣、類型復(fù)雜、數(shù)量眾多,系統(tǒng)的穩(wěn)定性和可靠性要求較高,給網(wǎng)絡(luò)運(yùn)維帶來(lái)較大工作量和成本,同時(shí),通信網(wǎng)絡(luò)本身是以通信保障為主的新建通信網(wǎng)絡(luò),在實(shí)際網(wǎng)絡(luò)運(yùn)行環(huán)境下,其系統(tǒng)(含網(wǎng)元設(shè)備或服務(wù))的故障模式、故障的解除方式、系統(tǒng)的可靠性等方面都面臨無(wú)歷史經(jīng)驗(yàn)可借鑒、無(wú)歷史數(shù)據(jù)可共享的局面。基于以上綜合因素,結(jié)合通信網(wǎng)絡(luò)本身的應(yīng)用特點(diǎn),系統(tǒng)可采用基于數(shù)據(jù)驅(qū)動(dòng)和基于統(tǒng)計(jì)可靠性兩種故障預(yù)測(cè)相結(jié)合的方式綜合實(shí)現(xiàn)系統(tǒng)的故障預(yù)測(cè)和健康管理??筛鶕?jù)系統(tǒng)的應(yīng)用層級(jí)適當(dāng)選用不同的預(yù)測(cè)方法,同時(shí),不同層級(jí)上可采用不同的預(yù)測(cè)方法等方式進(jìn)行,其優(yōu)勢(shì)是可提高通信系統(tǒng)故障預(yù)測(cè)準(zhǔn)確度的同時(shí),實(shí)現(xiàn)健康管理,精減網(wǎng)絡(luò)運(yùn)維工作量。PHM技術(shù)實(shí)現(xiàn)框架可分為7個(gè)層次,如圖1所示。
4.1? 數(shù)據(jù)采集層
通信網(wǎng)絡(luò)中各節(jié)點(diǎn)處理中心的被管網(wǎng)元設(shè)備或服務(wù)對(duì)其自身運(yùn)行狀態(tài)進(jìn)行數(shù)據(jù)采集(包括設(shè)備自檢數(shù)據(jù)、運(yùn)行過(guò)程中的狀態(tài)變更數(shù)據(jù)、人工輸入的故障數(shù)據(jù)等),并依次上報(bào)本地節(jié)點(diǎn)處理中心的節(jié)點(diǎn)管理和中央處理中心的中心管理。
4.2? 數(shù)據(jù)處理層
中心管理匯集全網(wǎng)各節(jié)點(diǎn)處理中心采集的數(shù)據(jù),按照預(yù)設(shè)的數(shù)據(jù)處理規(guī)則進(jìn)行數(shù)據(jù)預(yù)處理,并參照專家知識(shí)庫(kù)的信息進(jìn)行數(shù)據(jù)融合,對(duì)其進(jìn)行特征提取和記錄。節(jié)點(diǎn)管理要接收中心管理處理完畢的數(shù)據(jù),作為本地的資源數(shù)據(jù)進(jìn)行管理。
4.3? 狀態(tài)監(jiān)測(cè)層
節(jié)點(diǎn)管理對(duì)網(wǎng)元采集的數(shù)據(jù)指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)測(cè),并將其與預(yù)設(shè)的閾值進(jìn)行比對(duì),判別各網(wǎng)元的工作狀態(tài)。
4.4? 故障診斷層
節(jié)點(diǎn)管理對(duì)網(wǎng)元進(jìn)行故障診斷,若發(fā)現(xiàn)網(wǎng)元故障,則觸發(fā)故障管理功能,記錄故障發(fā)生的網(wǎng)元、時(shí)間、故障位置、故障類型;若未發(fā)現(xiàn)網(wǎng)元故障,則繼續(xù)進(jìn)行實(shí)時(shí)故障監(jiān)測(cè),同時(shí),節(jié)點(diǎn)管理將生成的當(dāng)前故障及故障歷史信息等上報(bào)中心管理。
4.5? 故障預(yù)測(cè)層
中心管理對(duì)網(wǎng)元采集的數(shù)據(jù)以及故障歷史記錄進(jìn)行綜合分析,采用人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)以及決策樹(shù)等機(jī)器學(xué)習(xí)算法進(jìn)行數(shù)據(jù)挖掘,預(yù)測(cè)未來(lái)有可能發(fā)生的故障。
4.6? 健康決策層
中心管理從故障預(yù)測(cè)層接收到信息后,根據(jù)當(dāng)前網(wǎng)元的運(yùn)行環(huán)境和健康管理策略,在專家知識(shí)庫(kù)中搜索與之匹配的解決建議,并給出運(yùn)維計(jì)劃建議,如開(kāi)展預(yù)防性維護(hù)、技術(shù)狀態(tài)檢驗(yàn)等。中心管理將健康決策的數(shù)據(jù)發(fā)送給節(jié)點(diǎn)管理,由節(jié)點(diǎn)管理根據(jù)實(shí)情進(jìn)行系統(tǒng)的健康維護(hù)。
4.7? 人機(jī)交互層
中心管理和節(jié)點(diǎn)管理的人機(jī)交互層的主要功能是實(shí)現(xiàn)交互頁(yè)面的可視化設(shè)計(jì),向網(wǎng)管人員提供直觀、簡(jiǎn)潔、美觀的數(shù)據(jù)呈現(xiàn)視圖,包括數(shù)據(jù)表、分析圖、運(yùn)維建議說(shuō)明等。
5? ? 結(jié)語(yǔ)
PHM技術(shù)可使傳統(tǒng)的“事后維修”和“計(jì)劃維修”轉(zhuǎn)變?yōu)椤耙暻榫S修”,能有效縮短維修周期、減少維修成本并提升系統(tǒng)可用性,該技術(shù)已成為以美軍為代表的外軍系統(tǒng)裝備高效系統(tǒng)級(jí)維護(hù)、降低生命周期成本的關(guān)鍵推動(dòng)因素之一。
采用基于PHM的網(wǎng)絡(luò)運(yùn)維管理技術(shù)后,網(wǎng)絡(luò)管理系統(tǒng)能增加對(duì)系統(tǒng)和網(wǎng)元未來(lái)可靠性的預(yù)測(cè)能力,使網(wǎng)絡(luò)管理能力由狀態(tài)監(jiān)控向健康管理轉(zhuǎn)變。故障預(yù)測(cè)與健康管理能力的引入能有效提升系統(tǒng)完好性與可用性、提升維護(hù)保障效率并降低使用與保障費(fèi)用。