葛學(xué)仁 桑 宇 李亞菲
路由器是一種網(wǎng)絡(luò)互聯(lián)設(shè)備,具備判斷網(wǎng)絡(luò)地址和選擇路徑的功能,工作于OSI 七層協(xié)議中的第三層,其主要任務(wù)是接收來自網(wǎng)絡(luò)接口的數(shù)據(jù)包,根據(jù)其中所包含的目的地址,實現(xiàn)數(shù)據(jù)轉(zhuǎn)發(fā)。
核心路由器是TDCS/CTC 系統(tǒng)連通中心和車站進行信息交互的關(guān)鍵基礎(chǔ)設(shè)備。太原局普速TDCS/CTC 系統(tǒng)中心核心路由器型號為Cisco 7609,2G 內(nèi)存,雙套冗余,2012 年5 月上道使用,24 h 不停機運行,設(shè)備上道以來運行一直穩(wěn)定。2019 年四季度巡檢發(fā)現(xiàn),核心路由器A 內(nèi)存占用率已高達89.11%,網(wǎng)絡(luò)服務(wù)出現(xiàn)質(zhì)量變差、數(shù)據(jù)丟包率明顯增加等現(xiàn)象,造成TDCS/CTC 整體系統(tǒng)運行不穩(wěn)定。2020 年開始,電務(wù)部組織對該隱患產(chǎn)生的原因進行逐項分析、排查和測試,采取了一系列緊急措施,降低了核心路由器的內(nèi)存占用率,消除了安全隱患。
內(nèi)存占用率是指系統(tǒng)進程所開銷的內(nèi)存數(shù)占設(shè)備總體內(nèi)存的比例。核心路由器的內(nèi)存占用率是判斷該設(shè)備是否穩(wěn)定工作的重要參數(shù),占用率越高,設(shè)備的穩(wěn)定性越差。通過數(shù)據(jù)分析發(fā)現(xiàn),核心路由器A 機內(nèi)存占用率呈逐級遞增趨勢,由2017 年1 月份的31.03% 逐漸升高至2019 年12 月份的89.11%(見表1),漲幅58.08%,其中2017 年二季度幅值最大,為17.51%,持續(xù)升高的內(nèi)存占用率給TDCS/CTC 系統(tǒng)穩(wěn)定運行增加了隱患。
2020 年2 月,電務(wù)部組織召開專題分析會議,重點對設(shè)備硬件運用、網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整及軟件功能拓展等造成核心路由器工作異常的原因進行深入剖析,總結(jié)如下。
1)設(shè)備存在老化現(xiàn)象,長時間運行未進行重啟操作。《鐵路列車調(diào)度指揮系統(tǒng)(TDCS)和調(diào)度集中系統(tǒng)(CTC) 維護管理辦法》(鐵總運〔2014〕 330 號) 文件規(guī)定:“TDCS/CTC 系統(tǒng)中心網(wǎng)絡(luò)設(shè)備使用年限為5 年”。該設(shè)備已超期使用且該型號也已被淘汰,按照產(chǎn)品使用壽命推測,隨著設(shè)備運行時間的增加,元器件老化程度會迅速加劇,設(shè)備性能劣化指數(shù)也會呈幾何倍數(shù)增長;此外,核心路由器自上道使用后由于受“天窗”時間和作業(yè)影響范圍過大等多種因素限制,已不停機運行超67 680 h,期間未進行過任何重啟操作,偶發(fā)的錯誤信息一直滯留在內(nèi)存中得不到釋放,導(dǎo)致內(nèi)存占用率持續(xù)非正常增長。
表1 內(nèi)存占用率數(shù)值變化
2)部分車站的特殊顯示需求多,跨網(wǎng)交互信息量大。一是由于在建設(shè)初期TDCS/CTC 系統(tǒng)整體網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計缺乏前瞻性,部分相鄰車站所處的網(wǎng)絡(luò)位置不在同一個環(huán)網(wǎng)內(nèi),鄰站透明信息數(shù)據(jù)需經(jīng)核心路由器進行二次轉(zhuǎn)發(fā),才能從一個子網(wǎng)傳輸?shù)搅硪粋€子網(wǎng),增大了核心路由器的計算負荷;二是因運輸組織的特殊需要,本站需掌握相鄰多個車站的列車運行情況,TDCS/CTC 數(shù)據(jù)交換需跨越3~4 個不同環(huán)網(wǎng),此現(xiàn)象在樞紐地區(qū)車站尤其明顯;三是專用線車站一般采用單網(wǎng)設(shè)計,路由器只單獨從A 網(wǎng)接入,也增大了核心路由器A 機的工作負載。
3)雙路傳輸方式實施不當,交換數(shù)據(jù)大幅增加。TDCS/CTC 系統(tǒng)原有的雙網(wǎng)信息傳輸機制為A/B 網(wǎng)隨機傳送,即信息數(shù)據(jù)流只會從A 網(wǎng)或B 網(wǎng)其中1 條通道傳遞回中心和相鄰車站,通道存在誤碼時不進行切換。這種傳輸機制在由于通道誤碼造成信息數(shù)據(jù)幀丟失時,會產(chǎn)生TDCS/CTC 系統(tǒng)信息遲滯、中斷、車次號不正常跟蹤等問題,進而產(chǎn)生占用丟失、誤報警現(xiàn)象,影響正常的運輸組織秩序。為規(guī)避此風(fēng)險,2017 年6 月起組織在韓原線、太中線CTC 系統(tǒng)實施雙路傳輸改造,即通過優(yōu)化路由器、自律機配置,阻斷路由器A—交換機A/B—路由器B 的路由鄰居關(guān)系,使數(shù)據(jù)流的傳輸方式由原來的單網(wǎng)傳輸變?yōu)锳、B 網(wǎng)同時傳輸。實現(xiàn)雙路傳輸功能后,對TDCS/CTC 系統(tǒng)的穩(wěn)定性起到了極大的提升作用,偶發(fā)的通道質(zhì)量變差、誤差丟包現(xiàn)象不再干擾系統(tǒng)的正常運行。但經(jīng)數(shù)據(jù)比對發(fā)現(xiàn),此項技術(shù)改造也增大了車站與車站間、車站與中心間的數(shù)據(jù)交互量,核心路由器內(nèi)存占用增長率由每季2%增長至5%。
4)新建車站的不斷接入,中心負載逐步增大。一方面,隨著運輸組織結(jié)構(gòu)的調(diào)整、新建車站的不斷接入、既有車站TDCS3.0/CTC3.0 升級改造,TDCS/CTC 系統(tǒng)中心設(shè)備的運算負荷越來越重;另一方面,相關(guān)站段查詢終端直接接入生產(chǎn)系統(tǒng),也增加了與中心交互的數(shù)據(jù)量,進而增加了核心路由器的計算負荷。據(jù)估算,每新建一個車站,核心路由器進路表至少增加8 條,內(nèi)存使用量約增加2M,只進行車站設(shè)備改造而中心設(shè)備不進行配套升級,也是造成核心路由器計算負荷明顯加重的重要原因。
1)更換引擎板卡,提升設(shè)備性能。設(shè)備長時間運行導(dǎo)致老化程度嚴重,核心路由器的問題主要體現(xiàn)在設(shè)備引擎板卡方面。由于受多方面因素限制,在已明確解決措施的前提下,為降低施工風(fēng)險,減小施工影響,結(jié)合實際制定了仿真測試項目,為整改方案的順利實施打下良好的基礎(chǔ)。
Cisco7609 路由器引擎板卡最高支持內(nèi)存為4G,由于無法使用既有設(shè)備做試驗,只能在實驗室采用同類產(chǎn)品搭建模擬環(huán)境,使負載盡量貼近實際。經(jīng)試驗驗證,模擬環(huán)境中4G 引擎板卡工作正常、運行參數(shù)穩(wěn)定,路由器整體也未發(fā)生宕機現(xiàn)象,主備引擎板卡支持熱插拔且切換時間小于1 s,對既有業(yè)務(wù)的正常執(zhí)行不造成影響,具備了現(xiàn)場更換板卡的條件。2020 年3 月26 日,路局組織對核心路由器A 機做了升級引擎板卡的處理,內(nèi)存卡更換為4G。更換完成后,核心路由器計算性能得到大幅提升,數(shù)據(jù)丟包率明顯降低,內(nèi)存占用率降為54.87%。為規(guī)避核心路由器引擎內(nèi)存量不一致的風(fēng)險,后期又對路由器B 的引擎板卡也做了同樣升級處理,提升了硬件整體性能。
2)廣域網(wǎng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化。針對全局部分車站的網(wǎng)絡(luò)結(jié)構(gòu)存在不利于數(shù)據(jù)交互的情況,對TDCS/CTC 網(wǎng)絡(luò)結(jié)構(gòu)進行了適當調(diào)整,優(yōu)化了路由算法,原則上嚴格按照技術(shù)條件規(guī)定的車站數(shù)量組網(wǎng),盡量避免采用將鄰站透明顯示需求通過核心路由器計算并傳遞的方式。經(jīng)合理組織實施,網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整共18 處,減少靜態(tài)路由表40 條,很大程度上降低了核心路由器的計算負荷。網(wǎng)絡(luò)結(jié)構(gòu)調(diào)整完畢后,核心路由器的內(nèi)存占用率降至49.67%。
3)雙路傳輸硬件連接方式優(yōu)化。TDCS/CTC系統(tǒng)數(shù)據(jù)雙路傳輸方式,是解決傳輸通道誤碼故障的有效手段。針對實施雙路傳輸后傳輸數(shù)據(jù)量變大,進而引起核心路由器負載變大的問題進行了討論,并完成了技術(shù)整改。一是對車站網(wǎng)絡(luò)設(shè)備硬件連接方式進行了調(diào)整,即:將車站A、B 路由器與A、B 交換機之間交叉連接的2 根線拆除(見圖1),實現(xiàn)A、B 網(wǎng)絡(luò)完全隔離,同時對軟件數(shù)據(jù)流傳輸機制進行優(yōu)化,A、B 自律機計算出的數(shù)據(jù)只通過各自的網(wǎng)絡(luò)向中心服務(wù)器傳送,避免了數(shù)據(jù)交叉?zhèn)鬟f帶來的網(wǎng)絡(luò)影響,實現(xiàn)了真正意義的雙路傳輸;二是對中心通信前置機軟件進行優(yōu)化,采用車站數(shù)據(jù)先到先用、雙重比較的方式,確保獲取數(shù)據(jù)的有效性、完整性和準確性。
圖1 硬件連接方式變化圖
通過以上優(yōu)化方式,核心路由器的內(nèi)存占用率季增長率重新降低為2%,消除了內(nèi)存占用率漲幅過大的風(fēng)險。
4)減少查詢終端在生產(chǎn)網(wǎng)內(nèi)的接入數(shù)量。由于前期未建設(shè)查詢子系統(tǒng),站段層級的查詢終端全部接入既有系統(tǒng),終端設(shè)備陳舊、數(shù)量繁多,給系統(tǒng)運行造成了嚴重的負擔。為有效解決此類問題,一是將具備移設(shè)條件的站段查詢終端移到TDCS/CTC 查詢子系統(tǒng),根據(jù)相關(guān)技術(shù)條件規(guī)定的查詢終端接入范圍和接入流程,共調(diào)整完成11 處38 臺終端移設(shè)工作;二是督促不具備移設(shè)條件的相關(guān)站段,做好設(shè)備硬件養(yǎng)護工作,定期對設(shè)備進行重啟、殺毒等工作,確保將系統(tǒng)運行影響降到最低。項目實施完成后,核心路由器內(nèi)存占用率降至47.32%。
上述改造工程實施完成后,太原局TDCS/CTC系統(tǒng)核心路由器A 內(nèi)存占用率大幅下降,現(xiàn)階段設(shè)備運行穩(wěn)定,內(nèi)存占用率基本保持在48%左右,隱患得到有效消除。TDCS/CTC 系統(tǒng)的穩(wěn)定運行為優(yōu)質(zhì)高效的運輸指揮提供了良好的支撐。