白廣爭(zhēng) ,馮浩楠 ,滕 達(dá) ,崔亦博 ,李 亮 ,郜洪民
(1.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 通信信號(hào)研究所,北京 100081;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 國(guó)家鐵路智能運(yùn)輸系統(tǒng)工程技術(shù)研究中心,北京 100081)
隨著我國(guó)城市軌道交通基于通信的列車控制系 統(tǒng)(Communication Based Train Control System,CBTC)不斷應(yīng)用,該系統(tǒng)的國(guó)產(chǎn)化技術(shù)方案越來(lái)越成熟。CBTC系統(tǒng)由聯(lián)鎖子系統(tǒng)(CI)、列車調(diào)度監(jiān)督子系統(tǒng)(ATS)、車載控制子系統(tǒng)(VOBC)、區(qū)域控制子系統(tǒng)(ZC)和數(shù)據(jù)通信子系統(tǒng)(DCS)等構(gòu)成[1-2]。各子系統(tǒng)之間實(shí)時(shí)進(jìn)行多種控制信息與采集信息的交互,子系統(tǒng)內(nèi)部完成自身邏輯功能運(yùn)算。而在CBTC系統(tǒng)實(shí)際現(xiàn)場(chǎng)應(yīng)用前,需要進(jìn)行全面的功能、數(shù)據(jù)、接口的測(cè)試驗(yàn)證,包括系統(tǒng)是否滿足需求,是否存在安全隱患等。若在同一時(shí)期內(nèi)存在多條軌道交通線路面臨開(kāi)通需求時(shí),則項(xiàng)目中測(cè)試工作繁重,壓力巨大。為了提高測(cè)試效率,加快投產(chǎn),同時(shí)保證測(cè)試質(zhì)量,研發(fā)一套能夠?qū)y(cè)試過(guò)程中的問(wèn)題進(jìn)行快速智能故障分析定位的系統(tǒng)具有十分重要的意義。
陳靜梅[3]根據(jù)日志的時(shí)間特征、種類特征、嚴(yán)重等級(jí)、時(shí)空特征等方面分析了在城市軌道交通現(xiàn)場(chǎng)運(yùn)營(yíng)情況下,對(duì)信號(hào)設(shè)備進(jìn)行智能診斷的可行性,并系統(tǒng)地構(gòu)建了信號(hào)智能化維護(hù)模型。崔亦博等[4]設(shè)計(jì)了城市軌道交通 CBTC 系統(tǒng)仿真實(shí)驗(yàn)室的建設(shè)方案,為CBTC系統(tǒng)的室內(nèi)測(cè)試環(huán)境奠定了基礎(chǔ)。張娟娟等[5]在分析CBTC車載子系統(tǒng)在線故障診斷系統(tǒng)功能需求的基礎(chǔ)上,設(shè)計(jì)了系統(tǒng)架構(gòu),從而實(shí)現(xiàn)對(duì)車載日志的快速獲取及智能分析。孫曉光等[6]研發(fā)的CBTC系統(tǒng)測(cè)試環(huán)境對(duì)各接口之間維護(hù)數(shù)據(jù)進(jìn)行監(jiān)測(cè),通過(guò)數(shù)據(jù)監(jiān)測(cè),為測(cè)試提供了除實(shí)物設(shè)備動(dòng)作以外的觀測(cè)點(diǎn),然而該系統(tǒng)在故障的診斷處理方面功能偏弱。李葉等[7]設(shè)計(jì)的地鐵信號(hào)系統(tǒng)室內(nèi)集成仿真測(cè)試平臺(tái)(FIVP),引入了點(diǎn)對(duì)點(diǎn)的自動(dòng)化測(cè)試功能,實(shí)現(xiàn)ZC-CI,VOBC-CI等接口測(cè)試在室內(nèi)測(cè)試平臺(tái)上自動(dòng)化執(zhí)行,大大節(jié)省了測(cè)試時(shí)間,同樣該系統(tǒng)在故障分析診斷方面并未做深入的研究。
綜上分析,對(duì)于城市軌道交通CBTC系統(tǒng)室內(nèi)測(cè)試階段的故障定位自動(dòng)分析水平還有待深入研究。城市軌道交通CBTC系統(tǒng)的各子系統(tǒng)均具有數(shù)據(jù)記錄功能,用于故障后的分析和定位,然而這些信息主要是基于本子系統(tǒng)的接口及邏輯處理給出,具有片面性,對(duì)于尋找故障的根源往往僅起到導(dǎo)向作用,仍需要人工參與才能完成系統(tǒng)故障的定位。若將各個(gè)子系統(tǒng)所維護(hù)的通信數(shù)據(jù)信息進(jìn)行整合,模擬人的故障判斷追蹤過(guò)程,并固化為邏輯判斷模塊,實(shí)現(xiàn)故障的自動(dòng)追蹤定位,這對(duì)于提高故障檢測(cè)的自動(dòng)化和智能化水平大有裨益。
在不影響城市軌道交通CBTC系統(tǒng)通信網(wǎng)絡(luò)的情況下,城市軌道交通CBTC智能故障分析系統(tǒng)(以下簡(jiǎn)稱“智能故障分析系統(tǒng)”)完成數(shù)據(jù)的采集與分析。在架構(gòu)設(shè)計(jì)方面,利用交換機(jī)級(jí)聯(lián)狀態(tài)下的端口鏡像技術(shù),實(shí)現(xiàn)對(duì)CBTC系統(tǒng)接口數(shù)據(jù)的獲取。利用VLAN劃分技術(shù)實(shí)現(xiàn)不同內(nèi)網(wǎng)數(shù)據(jù)的隔離。智能故障分析系統(tǒng)硬件框架圖如圖1所示。根據(jù)圖1,智能故障分析系統(tǒng)利用抓包交換機(jī)對(duì)骨干網(wǎng)交換機(jī)和子系統(tǒng)內(nèi)網(wǎng)交換機(jī)內(nèi)的數(shù)據(jù)進(jìn)行鏡像獲取,不僅能夠?qū)崿F(xiàn)對(duì)CBTC系統(tǒng)骨干網(wǎng)數(shù)據(jù)監(jiān)測(cè),同時(shí)也能夠?qū)Ω髯酉到y(tǒng)的內(nèi)網(wǎng)數(shù)據(jù)進(jìn)行監(jiān)測(cè),從而獲得較全面的數(shù)據(jù),為故障分析與識(shí)別奠定基礎(chǔ)。
圖1 智能故障分析系統(tǒng)硬件框架圖Fig.1 Hardware framework of intelligent fault analysis system
集群環(huán)境下智能故障分析系統(tǒng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖如圖2所示,其中,swi表示第i個(gè)交換機(jī)。集群環(huán)境下CBTC系統(tǒng)的搭建原理如下。①CBTC各子系統(tǒng),包括列車調(diào)度監(jiān)督子系統(tǒng)(ATS)、聯(lián)鎖子系統(tǒng)(CI)、區(qū)域控制子系統(tǒng)(ZC)、車載VOBC和DCS分布在多臺(tái)集群式管理服務(wù)器上,服務(wù)器之間數(shù)據(jù)通信采用3層交換機(jī)統(tǒng)一管理,如圖2中sw1和sw2所示,2臺(tái)交換機(jī)分別負(fù)責(zé)CBTC系統(tǒng)的a網(wǎng)和b網(wǎng)數(shù)據(jù)交互。②在集群服務(wù)器內(nèi)部,通過(guò)創(chuàng)建虛擬交換機(jī)及虛擬服務(wù)器,搭建CBTC系統(tǒng),并對(duì)虛擬交換機(jī)劃分VLAN,實(shí)現(xiàn)不同子網(wǎng)的有效隔離;外部交換機(jī)與服務(wù)器,如sw1,sw2,sw3,sw4與服務(wù)器之間通過(guò)Trunk方式配置連接,從而實(shí)現(xiàn)不同VLAN之間數(shù)據(jù)利用同一鏈路進(jìn)行跨交換機(jī)交互。③集群服務(wù)器與磁盤陣列之間通過(guò)光纖交換機(jī)實(shí)現(xiàn)數(shù)據(jù)交互,如圖2中光纖交換機(jī)FC-sw7所示。sw3,sw4主要負(fù)責(zé)外部接口,與外部實(shí)物設(shè)備進(jìn)行連接,并分別通過(guò)sw1,sw2交換機(jī)與集群服務(wù)器內(nèi)虛擬系統(tǒng)進(jìn)行數(shù)據(jù)交互。
在以上搭建的CBTC系統(tǒng)基礎(chǔ)上,利用sw5,sw6作為數(shù)據(jù)監(jiān)測(cè)交換機(jī),分別負(fù)責(zé)監(jiān)測(cè)網(wǎng)A和監(jiān)測(cè)網(wǎng)B的數(shù)據(jù):一方面通過(guò)鏡像sw1和sw2內(nèi)傳輸?shù)臄?shù)據(jù),可獲得CBTC系統(tǒng)a網(wǎng)和b網(wǎng)服務(wù)器之間的交互信息以及外部設(shè)備與集群服務(wù)器之間的交互信息;另一方面,利用虛擬交換機(jī)鏈路鏡像技術(shù)將同一臺(tái)服務(wù)器內(nèi)部各系統(tǒng)之間的交互數(shù)據(jù)上傳至實(shí)體交換機(jī)sw5,sw6,從而實(shí)現(xiàn)服務(wù)器內(nèi)部數(shù)據(jù)的獲取。圖2中G0/0/1,G0/0/24分別表示交換機(jī)的1號(hào)和24號(hào)端口,作為交換機(jī)級(jí)聯(lián)狀態(tài)下端口鏡像的源端口和目的端口。例如,sw1的G0/0/24口即為sw1進(jìn)行端口鏡像的目的端口,同時(shí)該口級(jí)聯(lián)sw5的G0/0/24口,作為sw5中G0/0/1口的源端口,sw5的G0/0/1口為目的端口,具體端口選擇可根據(jù)項(xiàng)目實(shí)際情況確定。
圖2 集群環(huán)境下智能故障分析系統(tǒng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)圖Fig.2 Network topology of intelligent fault analysis system in cluster environment
智能故障分析系統(tǒng)軟件主要完成對(duì)CBTC系統(tǒng)中通信數(shù)據(jù)的監(jiān)測(cè)獲取、數(shù)據(jù)解析與存儲(chǔ)、故障的智能分析、界面顯示及報(bào)警提示等功能。根據(jù)功能,軟件結(jié)構(gòu)設(shè)計(jì)如圖3所示。
圖3 軟件結(jié)構(gòu)設(shè)計(jì)圖Fig.3 Software structure design
根據(jù)圖3,智能故障分析系統(tǒng)的工作流程如下。①利用交換機(jī)的端口鏡像技術(shù)獲取CBTC系統(tǒng)網(wǎng)絡(luò)中的通信數(shù)據(jù),這些數(shù)據(jù)分為骨干網(wǎng)數(shù)據(jù)和子系統(tǒng)內(nèi)網(wǎng)數(shù)據(jù)2類。其中骨干網(wǎng)數(shù)據(jù)主要包括VOBC與ZC,ZC與CBI,VOBC與CBI,以及VOBC與ATS之間的通信數(shù)據(jù),這些數(shù)據(jù)囊括了CBTC系統(tǒng)大部分的接口測(cè)試對(duì)象;子系統(tǒng)內(nèi)網(wǎng)數(shù)據(jù)主要指各子系統(tǒng)內(nèi)部邏輯分析單元(LP)與維護(hù)終端(MT)之間交互的報(bào)警信息。②對(duì)這2類數(shù)據(jù)分別進(jìn)行處理。對(duì)于骨干網(wǎng)數(shù)據(jù),通過(guò)將通信協(xié)議轉(zhuǎn)換為xml配置文件的方式,編制程序,進(jìn)行數(shù)據(jù)包的自動(dòng)解包,并根據(jù)需要將相關(guān)信息進(jìn)行界面顯示,以便于人對(duì)系統(tǒng)的當(dāng)前運(yùn)行狀態(tài)進(jìn)行更直觀的了解[8],另外,根據(jù)獲得的實(shí)時(shí)骨干網(wǎng)數(shù)據(jù),可用于判斷CBTC各子系統(tǒng)之間的實(shí)時(shí)通斷狀態(tài),給出圖形化的報(bào)警顯示;對(duì)于子系統(tǒng)內(nèi)網(wǎng)數(shù)據(jù),利用報(bào)警信息,結(jié)合對(duì)應(yīng)子系統(tǒng)定義的報(bào)警碼,以及當(dāng)前骨干網(wǎng)內(nèi)的信息,進(jìn)行故障的智能分析。
故障識(shí)別可分為查詢式故障報(bào)警和主動(dòng)式故障報(bào)警2種方式處理。
(1)查詢式故障報(bào)警是指測(cè)試員通過(guò)對(duì)現(xiàn)在的運(yùn)行狀態(tài)進(jìn)行提問(wèn),從而查找出潛在的故障并給出報(bào)警的方式。查詢式故障報(bào)警的總體分析思路為:針對(duì)所提問(wèn)題,首先考慮最直接的影響因素,并采用二分法的思想,逐層排除推進(jìn),縮小問(wèn)題范圍,最終定位至某個(gè)模塊或者某條報(bào)文。報(bào)警的精確程度根據(jù)不同的故障類型,可以分為報(bào)文級(jí)故障或者字段級(jí)故障等。例如,非CTC列車在線路中運(yùn)行時(shí),不能升級(jí)為CTC等級(jí),則測(cè)試員通過(guò)向系統(tǒng)提問(wèn),由分析系統(tǒng)自動(dòng)查找列車不能升級(jí)的原因并給出相應(yīng)的提示,從而定位潛在的故障。
以列車不升級(jí)CTC等級(jí)為例,描述查詢式故障報(bào)警的設(shè)計(jì)原理。通過(guò)檢查當(dāng)前時(shí)刻所有與列車升級(jí)相關(guān)的數(shù)據(jù)包字段,設(shè)計(jì)邏輯分析模塊,得出存在的故障根源。列車不升級(jí)CTC等級(jí)故障檢查項(xiàng)如表1所示,列車不升級(jí)CTC等級(jí)的報(bào)警分析示意圖如圖4所示。
圖4 列車不升級(jí)CTC等級(jí)的報(bào)警分析示意圖Fig.4 Alarm analysis for the train not upgrading CTC level
表1 列車不升級(jí)CTC等級(jí)故障檢查項(xiàng)Tab.1 Failure check items for the train not upgrading CTC level
(2)主動(dòng)式故障報(bào)警是指系統(tǒng)在正常運(yùn)行過(guò)程中,出現(xiàn)了非預(yù)期的現(xiàn)象,而主動(dòng)給出提示的故障報(bào)警方式。例如,CTC列車在正常運(yùn)行過(guò)程中故障降級(jí),智能故障分析系統(tǒng)能夠主動(dòng)查找導(dǎo)致降級(jí)的根源并給出報(bào)警,從而提高測(cè)試效率。主動(dòng)式故障報(bào)警是通過(guò)網(wǎng)絡(luò)抓包,并根據(jù)通信協(xié)議解析,獲得各子系統(tǒng)邏輯部所產(chǎn)生的故障碼信息,將這些故障碼匯總后,結(jié)合骨干網(wǎng)內(nèi)獲得的部分信息作為輔助條件,通過(guò)設(shè)計(jì)故障模式匹配算法,查找預(yù)先定義的故障標(biāo)簽庫(kù)來(lái)完成故障定位,并給出報(bào)警或提示信息。其中,故障標(biāo)簽由經(jīng)驗(yàn)豐富的測(cè)試工程師或?qū)<腋鶕?jù)系統(tǒng)需求定義,提取共性,并制定統(tǒng)一的規(guī)則來(lái)完成。
2.2.1 故障標(biāo)簽與子系統(tǒng)報(bào)警碼定義
故障標(biāo)簽是指根據(jù)測(cè)試經(jīng)驗(yàn),結(jié)合各子系統(tǒng)的報(bào)警碼,對(duì)一些常見(jiàn)的故障,分析故障的標(biāo)志屬性,從而形成的一條用于判斷該故障原因的規(guī)則。故障標(biāo)簽定義示意圖如圖5所示,故障標(biāo)簽由平臺(tái)故障碼和針對(duì)各子系統(tǒng)定義的報(bào)警碼共同構(gòu)成。在制定標(biāo)簽的過(guò)程中,模擬人對(duì)故障的分析判斷過(guò)程,提取針對(duì)確定故障的標(biāo)志性因素。將多個(gè)故障分別定義故障標(biāo)簽,并將這些標(biāo)簽匯總,最終形成故障標(biāo)簽庫(kù)。
圖5 故障標(biāo)簽定義示意圖Fig.5 Fault tag definition
在進(jìn)行實(shí)時(shí)數(shù)據(jù)分析時(shí),若被分析的數(shù)據(jù)滿足故障標(biāo)簽庫(kù)中某個(gè)故障標(biāo)簽所定義的屬性,即可判定發(fā)生了該故障。故障標(biāo)簽是對(duì)人的判斷意識(shí)進(jìn)行固化模擬,故障標(biāo)簽庫(kù)的構(gòu)建也是一個(gè)需要不斷完善深入的過(guò)程。
各子系統(tǒng)的報(bào)警碼定義格式根據(jù)子系統(tǒng)的具體情況確定。例如,ZC子系統(tǒng)報(bào)警碼由系統(tǒng)自定義的模塊號(hào)和報(bào)警號(hào)共同組成;車載子系統(tǒng)報(bào)警碼則根據(jù)具體的故障原因,選擇所需檢查的字段定義組成;聯(lián)鎖子系統(tǒng)報(bào)警碼也根據(jù)具體的報(bào)警類型,選擇相關(guān)字段來(lái)定義報(bào)警號(hào)。
2.2.2 故障標(biāo)簽庫(kù)的構(gòu)建
在構(gòu)建故障標(biāo)簽庫(kù)時(shí),按照城市軌道交通CBTC系統(tǒng)各子系統(tǒng)構(gòu)成,ZC,VOBC,CI,ATS均存在多個(gè)故障碼。若對(duì)這些故障碼進(jìn)行任意組合,則可能出現(xiàn)組合爆炸的現(xiàn)象,但實(shí)際上針對(duì)某一特定的故障,其故障報(bào)警碼組合是確定的,即并非任意的故障碼組合均具有測(cè)試分析意義。為此,針對(duì)各子系統(tǒng)的故障碼進(jìn)行分析分類,這些故障碼可分為:子系統(tǒng)自身產(chǎn)生的應(yīng)用邏輯故障碼、程序執(zhí)行過(guò)程錯(cuò)誤故障碼、提示信息類故障碼。其中,程序執(zhí)行過(guò)程錯(cuò)誤故障碼、提示信息類故障碼對(duì)于集成測(cè)試均不具有分析意義。進(jìn)行系統(tǒng)級(jí)的故障定位分析應(yīng)主要針對(duì)應(yīng)用邏輯故障碼展開(kāi)。根據(jù)這一思想,故障標(biāo)簽庫(kù)構(gòu)建示意如表2所示。
如表2中,對(duì)于000002故障,僅根據(jù)各子系統(tǒng)的故障碼無(wú)法精確定位問(wèn)題的根源,還需要額外檢查一些輔助信息,以實(shí)現(xiàn)故障的更精確定位。由此,智能故障分析系統(tǒng)不僅完成將各子系統(tǒng)的報(bào)警碼進(jìn)行匯總分析的功能,而且在這些信息不足以定位故障的情況下,還能進(jìn)一步收集其他相關(guān)接口信息進(jìn)行更準(zhǔn)確的故障定位,這些接口信息主要指骨干網(wǎng)內(nèi)獲取的相關(guān)數(shù)據(jù)。
表2 故障標(biāo)簽庫(kù)構(gòu)建示意Tab.2 Construction of fault tag library
對(duì)于輔助收集的接口故障信息,可分為針對(duì)單條通信數(shù)據(jù)的故障檢測(cè)和多條通信數(shù)據(jù)的聯(lián)合故障檢測(cè)。單條通信數(shù)據(jù)監(jiān)測(cè)是指對(duì)體現(xiàn)某些故障信息的關(guān)鍵字段進(jìn)行實(shí)時(shí)檢查,判斷故障原因,再結(jié)合各子系統(tǒng)的故障碼,最終給出精確的故障定位。多條數(shù)據(jù)的聯(lián)合故障檢測(cè)主要針對(duì)一些具有時(shí)序的通信數(shù)據(jù)包的故障分析。例如,RSSP-II安全協(xié)議的AU1,AU2和AU3通信序列故障檢查;應(yīng)用層時(shí)間戳的故障檢查;VOBC與ZC的通信建立過(guò)程合法性檢查;自動(dòng)駕駛模式列車超速緊急制動(dòng)檢查;故障降級(jí)檢查等。
通過(guò)對(duì)各子系統(tǒng)數(shù)據(jù)流分析和故障標(biāo)簽的定義,為故障智能識(shí)別奠定了基礎(chǔ),進(jìn)一步設(shè)計(jì)故障識(shí)別邏輯判斷程序。主動(dòng)式故障識(shí)別處理流程如圖6所示。①利用抓包模塊獲得原始數(shù)據(jù),結(jié)合通信協(xié)議文件,解析得到各子系統(tǒng)的報(bào)警信息;②讀取各子系統(tǒng)對(duì)應(yīng)定義的報(bào)警碼庫(kù),通過(guò)調(diào)用報(bào)警碼判斷模塊及存儲(chǔ)模塊,完成數(shù)據(jù)的初步加工處理;③加載預(yù)先建立的故障標(biāo)簽庫(kù),結(jié)合報(bào)警碼判斷模塊的處理結(jié)果,由故障碼邏輯判斷模塊最終確定當(dāng)前系統(tǒng)的故障碼,得出系統(tǒng)故障原因;④利用存儲(chǔ)模塊將故障碼存入數(shù)據(jù)庫(kù),以備歷史信息的查詢和統(tǒng)計(jì),同時(shí)將該故障碼對(duì)應(yīng)的故障報(bào)警文本提示進(jìn)行界面顯示。
圖6 主動(dòng)式故障識(shí)別處理流程Fig.6 Active fault identification and processing
故障碼邏輯判斷模塊是主動(dòng)式故障識(shí)別處理的核心,該模塊通過(guò)設(shè)計(jì)實(shí)時(shí)故障模式匹配算法完成。在算法設(shè)計(jì)過(guò)程中,需要考慮不同子系統(tǒng)之間通信接口數(shù)據(jù)的同步性、系統(tǒng)之間通信周期設(shè)置,以及系統(tǒng)對(duì)不同故障的響應(yīng)時(shí)間等因素,制定模式匹配規(guī)則,從而既要保證故障定位識(shí)別的實(shí)時(shí)性,又要保證故障識(shí)別的準(zhǔn)確性,避免誤報(bào)漏報(bào)問(wèn)題。
智能故障分析系統(tǒng)的研發(fā),能夠使測(cè)試人員更加直觀地了解CBTC系統(tǒng)的運(yùn)行狀態(tài),更快地發(fā)現(xiàn)CBTC系統(tǒng)中存在的缺陷,提高系統(tǒng)的故障定位能力,避免通過(guò)人工逐幀報(bào)文比對(duì)來(lái)定位故障,減少分析時(shí)間,降低測(cè)試人員的勞動(dòng)強(qiáng)度。同時(shí)由于邏輯判斷功能和故障標(biāo)簽庫(kù)的建立過(guò)程中均融合了具有豐富經(jīng)驗(yàn)的測(cè)試人員以及行業(yè)專家的智慧,能夠適當(dāng)降低對(duì)測(cè)試人員的自身素質(zhì)要求。在后續(xù)的研究中,將重點(diǎn)針對(duì)故障標(biāo)簽庫(kù)的擴(kuò)充以及故障診斷智能算法的優(yōu)化設(shè)計(jì)方面進(jìn)行展開(kāi),從而進(jìn)一步提升故障分析系統(tǒng)的智能化水平。