朱元星
(中鐵十二局集團電氣化工程有限公司,天津 300308)
鐵路信號通信系統(tǒng)由多種設(shè)備和系統(tǒng)組成,這些設(shè)備系統(tǒng)分布在鐵路線路、車站、車輛及指揮中心等不同位置,形成龐大復(fù)雜的網(wǎng)絡(luò)。鐵路信號通信系統(tǒng)的故障處理涉及多個部門、人員,需進行故障發(fā)現(xiàn)、故障上報、故障定位、故障排除以及故障恢復(fù)等多個環(huán)節(jié),涉及大量數(shù)據(jù)和信息的交換、協(xié)調(diào)。目前,鐵路信號通信系統(tǒng)的故障處理主要存在以下幾個問題。
(1)故障發(fā)現(xiàn)不及時。鐵路信號通信系統(tǒng)龐大復(fù)雜,人工巡檢、監(jiān)測覆蓋率有限,很難做到對所有設(shè)備系統(tǒng)的全面實時監(jiān)測,導(dǎo)致一些故障不能及時發(fā)現(xiàn)或漏報。
(2)故障診斷不準確。由于鐵路信號通信系統(tǒng)的多樣性和動態(tài)性,人工診斷需要依賴專業(yè)知識和經(jīng)驗,很難做到對所有故障類型的精確識別和定位[1,2]。
(3)故障處理不高效。由于鐵路信號通信系統(tǒng)的分散性,人工處理需要依賴于多方的溝通和協(xié)作,很難做到對所有故障情況的快速響應(yīng)和解決。
該系統(tǒng)總體架構(gòu)分為數(shù)據(jù)采集層、數(shù)據(jù)處理層、數(shù)據(jù)挖掘?qū)右约皵?shù)據(jù)應(yīng)用層,能夠?qū)崿F(xiàn)對鐵路信號通信系統(tǒng)的實時監(jiān)測、故障預(yù)警、故障診斷以及故障工單管理等。
數(shù)據(jù)采集層是通信故障預(yù)警的基礎(chǔ),負責(zé)從鐵路信號通信系統(tǒng)中采集各種類型、格式的數(shù)據(jù),反映鐵路信號系統(tǒng)的運行狀態(tài)、故障情況。
數(shù)據(jù)處理層是鐵路信號通信故障監(jiān)測系統(tǒng)的核心,負責(zé)對數(shù)據(jù)采集層采集的原始數(shù)據(jù)進行清洗、轉(zhuǎn)換、整合及存儲等操作,確保數(shù)據(jù)符合分析應(yīng)用要求。數(shù)據(jù)處理層采用多種技術(shù)處理數(shù)據(jù),包括數(shù)據(jù)質(zhì)量檢驗、數(shù)據(jù)格式轉(zhuǎn)換、數(shù)據(jù)融合、數(shù)據(jù)壓縮以及數(shù)據(jù)加密等,實現(xiàn)鐵路信號通信系統(tǒng)的高效管理。
數(shù)據(jù)挖掘?qū)迂撠?zé)對數(shù)據(jù)處理層處理后的數(shù)據(jù)進行分析,挖掘出有價值的信息,為故障預(yù)警、診斷提供支持。數(shù)據(jù)挖掘?qū)硬捎枚喾N方法進行數(shù)據(jù)挖掘,包括統(tǒng)計分析、關(guān)聯(lián)分析、聚類分析、分類分析以及回歸分析等,實現(xiàn)對鐵路信號通信系統(tǒng)相關(guān)數(shù)據(jù)的深入挖掘。
數(shù)據(jù)應(yīng)用層是鐵路信號通信故障監(jiān)測系統(tǒng)的核心,負責(zé)將數(shù)據(jù)挖掘?qū)油诰虺龅男畔?yīng)用到實際業(yè)務(wù)場景,為故障處理提供幫助,主要包括以下幾個功能模塊。
(1)通信故障預(yù)警模塊。利用數(shù)據(jù)挖掘?qū)犹峁┑男畔ⅲA(yù)測和預(yù)警鐵路信號通信系統(tǒng)中可能發(fā)生的故障,提前通知相關(guān)人員和部門,減少故障的影響與損失[3]。
(2)通信故障診斷模塊。根據(jù)數(shù)據(jù)挖掘?qū)犹峁┑臄?shù)據(jù),識別和定位鐵路信號通信系統(tǒng)中已經(jīng)發(fā)生的故障,并給出故障的原因和解決方案,提高故障的處理效率和準確率。
(3)故障工單管理模塊?;跀?shù)據(jù)挖掘?qū)犹峁┑男畔?,記錄和跟蹤鐵路信號通信系統(tǒng)中的故障,生成和分配故障工單,協(xié)調(diào)和監(jiān)督故障的處理過程,提升故障的處理質(zhì)量和水平。
故障診斷通過篩選和分析通信專業(yè)子系統(tǒng)的預(yù)警數(shù)據(jù),找出故障的原因和影響,實現(xiàn)業(yè)務(wù)預(yù)警監(jiān)控分析、輔助故障診斷和故障處理。故障診斷流程如圖1 所示。
圖1 故障診斷流程
3.2.1 數(shù)據(jù)采集
數(shù)據(jù)采集涉及傳輸網(wǎng)、接入網(wǎng)、長期演進(Long Term Evolution,LTE)、動環(huán)以及調(diào)度等環(huán)節(jié)。傳輸網(wǎng)為負責(zé)傳輸各種信息的網(wǎng)絡(luò),如光纖、微波、衛(wèi)星等,能夠捕獲信息交互,生成運行參數(shù)數(shù)據(jù);數(shù)據(jù)網(wǎng)為負責(zé)處理和存儲各種信息的網(wǎng)絡(luò),如交換機、路由器、服務(wù)器等,能夠存儲故障報警數(shù)據(jù)和維修記錄數(shù)據(jù);接入網(wǎng)為負責(zé)連接人員和設(shè)備的網(wǎng)絡(luò),如電話、廣播、視頻等,能夠獲取信息交互,生成設(shè)備狀態(tài)數(shù)據(jù)、運行參數(shù)數(shù)據(jù)、故障報警數(shù)據(jù)等[4];LTE 為負責(zé)提供無線通信服務(wù)的網(wǎng)絡(luò),如基站、核心網(wǎng)、終端等,能夠監(jiān)測無線信息交互,生成設(shè)備狀態(tài)數(shù)據(jù)、運行參數(shù)數(shù)據(jù)、故障報警數(shù)據(jù)等;動環(huán)為負責(zé)提供動力和環(huán)境保障的設(shè)備,如電源、空調(diào)、防雷等,能夠監(jiān)測設(shè)備的溫度、電壓、電流及振動等參數(shù),生成設(shè)備狀態(tài)數(shù)據(jù);調(diào)度為負責(zé)指揮和控制列車運行的部門,如調(diào)度員、調(diào)度臺、調(diào)度軟件等,能夠獲取列車運行控制信息,生成運行參數(shù)數(shù)據(jù)。
3.2.2 數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理的目的是提高數(shù)據(jù)的質(zhì)量和可用性,消除數(shù)據(jù)中的噪聲、錯誤和不一致性,過程如下。
(1)數(shù)據(jù)清洗。對初步的預(yù)警數(shù)據(jù)進行修正,消除其中的異常值、缺失值、重復(fù)值和不一致值等。
(2)數(shù)據(jù)集成。將來自不同來源或格式的預(yù)警數(shù)據(jù)進行合并與統(tǒng)一,以形成一個完整和一致的預(yù)警數(shù)據(jù)集。
(3)數(shù)據(jù)降維。對預(yù)警數(shù)據(jù)進行壓縮或簡化,以減少其維度或規(guī)模,提高其效率和可解釋性。
(4)數(shù)據(jù)變換。對預(yù)警數(shù)據(jù)進行轉(zhuǎn)換或規(guī)范化[5]。
3.2.3 數(shù)據(jù)收斂
結(jié)合數(shù)據(jù)過濾規(guī)則、工程預(yù)警標記的方法對預(yù)處理后的標準化的大量預(yù)警數(shù)據(jù)進行收斂。具體來說包括以下幾個步驟。
第一步,根據(jù)預(yù)警過濾規(guī)則將不需要參與分析的預(yù)警數(shù)據(jù)直接過濾到歷史預(yù)警庫。預(yù)警過濾規(guī)則根據(jù)專業(yè)、網(wǎng)管、區(qū)域、設(shè)備類型、設(shè)備型號、預(yù)警名稱、預(yù)警等級、預(yù)警類型、預(yù)警對象以及預(yù)警發(fā)生的起始時間和結(jié)束時間等條件進行制定,還可以根據(jù)用戶的需求靈活配置。例如,過濾掉所有非通信故障類型的告警,只保留通信故障類型的告警。
第二步,通過重復(fù)預(yù)警數(shù)據(jù)收斂將限定時間內(nèi)重復(fù)發(fā)送的同一預(yù)警濾除,只保留最初一條預(yù)警,記錄重復(fù)上報的次數(shù)、時間,以減少預(yù)警數(shù)據(jù)冗余。
第三步,通過標記故障預(yù)警數(shù)據(jù),減少無效預(yù)警的干擾,提高維護人員的處理效率。主要考慮的2種故障預(yù)警標記場景為實時標記和事后標記。實時標記指提前在鐵路信號系統(tǒng)運行過程中實時標記故障預(yù)警;事后標記指事后錄入故障預(yù)警信息,點擊按鈕即可實現(xiàn)預(yù)警標記。
通過以上3 步實現(xiàn)故障預(yù)警數(shù)據(jù)收斂,計算不同故障情況下的預(yù)警數(shù)據(jù)收斂率。使用該收斂方法計算密集波分復(fù)用(Dense Wavelength Division Multiplexing,DWDM)光纜中斷故障和同步數(shù)字體系(Synchronous Digital Hierarchy,SDH)線路中斷故障情況下的預(yù)警數(shù)據(jù)收斂率,結(jié)果如表1 所示。從表1可以看出,該收斂方法能夠有效實現(xiàn)故障預(yù)警數(shù)據(jù)收斂,提高數(shù)據(jù)分析的應(yīng)用效率。
表1 故障預(yù)警數(shù)據(jù)收斂率
3.2.4 數(shù)據(jù)相關(guān)性分析
數(shù)據(jù)相關(guān)性分析指對預(yù)警數(shù)據(jù)收斂層產(chǎn)生的中間數(shù)據(jù)進行分析和挖掘,提取出有價值的信息和知識,為故障預(yù)警提供依據(jù)。數(shù)據(jù)相關(guān)性分析的目的是探索預(yù)警數(shù)據(jù)之間的關(guān)系。
首先,制定相關(guān)性分析規(guī)則。相關(guān)性分析規(guī)則是根據(jù)專家處理故障經(jīng)驗以及預(yù)警處理經(jīng)驗故障案例庫制定的一系列規(guī)則。系統(tǒng)采用的4 種相關(guān)性分析規(guī)則為業(yè)務(wù)相關(guān)性、時間相關(guān)性、資源相關(guān)性以及事件相關(guān)性。
其次,應(yīng)用相關(guān)性分析規(guī)則關(guān)聯(lián)分類預(yù)警收斂后的數(shù)據(jù),自動識別出相關(guān)性預(yù)警組和不具有相關(guān)性的獨立預(yù)警。具體內(nèi)容如下:一是業(yè)務(wù)相關(guān)性,根據(jù)業(yè)務(wù)承載鏈路經(jīng)過的設(shè)備、端口、時隙信息,對同一個電路所涉及的時隙/端口的活躍預(yù)警進行歸組;二是時間相關(guān)性,根據(jù)預(yù)警發(fā)生的時間信息,對多個網(wǎng)元同時或者5 s 內(nèi)發(fā)生的活躍預(yù)警進行歸組;三是資源相關(guān)性,根據(jù)預(yù)警對象存在的資源關(guān)系,如相同資源、上下級資源、資源承載以及復(fù)用段端口關(guān)系等,對當(dāng)前活躍的預(yù)警進行歸組;四是事件相關(guān)性,根據(jù)預(yù)警名稱存在的相關(guān)性,如復(fù)用段遠端接收的失效指示MS_RDI 預(yù)警和對端站線路板發(fā)生的R_LOS、R_LOF、MS_AIS 預(yù)警等,并歸組當(dāng)前活躍的預(yù)警。
最后,輸出相關(guān)性分析結(jié)果。根據(jù)應(yīng)用的相關(guān)性分析規(guī)則,輸出關(guān)聯(lián)分類后的預(yù)警數(shù)據(jù),包括相關(guān)性預(yù)警組和不具有相關(guān)性的獨立預(yù)警,同時輸出的結(jié)果可以為故障預(yù)警提供依據(jù)。
在通信故障預(yù)警數(shù)據(jù)采集、預(yù)處理過程中,通過數(shù)據(jù)相關(guān)性分析等方法獲取有價值的預(yù)警數(shù)據(jù)。之后,進行通信故障診斷,其目的是確定故障的類型、大小和位置以及故障檢測的時間。假設(shè)某一段鐵路發(fā)生軌道電路短路故障,導(dǎo)致軌道電路無法監(jiān)測列車占用情況,影響綜合自動閉塞和自動列車控制子系統(tǒng),該故障診斷過程如下。
(1)生成殘差信號?;谲壍离娐凡杉瘮?shù)據(jù),通過模型或信號處理方法,得到反映各子系統(tǒng)偏離正常狀態(tài)的殘差信號。
(2)檢測故障。根據(jù)殘差信號,通過閾值判斷各子系統(tǒng)是否發(fā)生故障。例如,殘差信號超過閾值,則認為發(fā)生故障。
(3)識別故障。結(jié)合殘差信號或其他信息確定各子系統(tǒng)的故障類型。例如,使用決策樹、支持向量機等機器學(xué)習(xí)方法分類故障。
(4)定位故障。根據(jù)殘差信號或其他信息,通過關(guān)聯(lián)或圖挖掘方法,確定各子系統(tǒng)的故障位置和影響范圍。例如,可使用關(guān)聯(lián)規(guī)則挖掘、子圖匹配等圖挖掘方法分析軌道電路、綜合自動閉塞和自動列車控制子系統(tǒng)之間的拓撲結(jié)構(gòu)及屬性變化,確定軌道電路短路故障是根源故障,而綜合自動閉塞和自動列車控制子系統(tǒng)的故障是衍生故障。
鐵路信號通信故障監(jiān)測系統(tǒng)通過采集和分析信號通信故障預(yù)警數(shù)據(jù),提前發(fā)現(xiàn)可能發(fā)生的故障,從而采取措施及時處理,保障信號通信系統(tǒng)的正常運行。通信故障監(jiān)測的過程包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、相關(guān)性分析、故障診斷以及故障工單管理等。鐵路信號通信故障監(jiān)測系統(tǒng)能夠提高鐵路信號通信的可靠性、穩(wěn)定性,降低故障對業(yè)務(wù)的影響,提升運維效率。