■ 西安 康劍 盧榮平
編者按:當(dāng)前,鐵路行業(yè)局域網(wǎng)規(guī)模越來(lái)越大,由網(wǎng)絡(luò)環(huán)路引起的網(wǎng)絡(luò)故障通常隱蔽性高、不易查找,對(duì)鐵路網(wǎng)絡(luò)影響重大。本文通過(guò)典型案列分享,對(duì)網(wǎng)絡(luò)環(huán)路產(chǎn)生的原因和現(xiàn)象進(jìn)行分析,并提出優(yōu)化建議。
隨著信息化在鐵路行業(yè)的不斷發(fā)展和深入應(yīng)用,網(wǎng)絡(luò)規(guī)模不斷擴(kuò)大,用戶(hù)不斷增加,如何構(gòu)建一個(gè)安全、穩(wěn)定、便于管理的網(wǎng)絡(luò),成為網(wǎng)絡(luò)管理人員的首要任務(wù)。
以筆者單位為例,單位網(wǎng)絡(luò)現(xiàn)已覆蓋50 余個(gè)站段,終端設(shè)備已經(jīng)超過(guò)3 萬(wàn)臺(tái)。在大型的網(wǎng)絡(luò)管理過(guò)程中,網(wǎng)絡(luò)環(huán)路問(wèn)題不可避免且成為影響網(wǎng)絡(luò)穩(wěn)定的最主要因素,一旦發(fā)生將大面積網(wǎng)絡(luò)故障,影響后果嚴(yán)重。
在局域網(wǎng)中,網(wǎng)絡(luò)環(huán)路一般分為二層環(huán)路和三層環(huán)路。三層環(huán)路通常表述為路由環(huán)路,多發(fā)生于路由協(xié)議配置不當(dāng)。
圖1 施工規(guī)劃示意圖
圖2 施工實(shí)際接線(xiàn)示意圖
在日常維護(hù)中,我們面對(duì)的網(wǎng)絡(luò)環(huán)路故障多為交換機(jī)的二層環(huán)路。二層環(huán)路主要是由于冗余鏈路造成的,交換機(jī)具有MAC 地址學(xué)習(xí)功能,內(nèi)部建立并自動(dòng)更新MAC 地址表。在冗余鏈路的網(wǎng)絡(luò)環(huán)路故障中,因?yàn)閺V播風(fēng)暴和MAC 地址表失效,使得局域網(wǎng)阻塞并中斷。在大規(guī)模的局域網(wǎng)環(huán)境中,如不及時(shí)處理,將影響到核心層交換機(jī),造成網(wǎng)絡(luò)癱瘓。
1.華為桌面云施工造成網(wǎng)絡(luò)環(huán)路案例
故障現(xiàn)象:筆者單位華為桌面云施工過(guò)程中,誤將兩臺(tái)以太網(wǎng)交換機(jī)形成的一個(gè)環(huán)路接入網(wǎng)絡(luò),引發(fā)廣播風(fēng)暴,造成大面積網(wǎng)絡(luò)癱瘓。
本次施工接入部分網(wǎng)絡(luò)設(shè)備,規(guī)劃中劃分了VLAN,所以接入網(wǎng)絡(luò)不會(huì)產(chǎn)生環(huán)網(wǎng)。如圖1 所示。
在施工過(guò)程中,技術(shù)人員未做任何配置,就將網(wǎng)絡(luò)設(shè)備接入網(wǎng)絡(luò),導(dǎo)致網(wǎng)絡(luò)環(huán)路。如圖2 所示。
2.因誤插網(wǎng)線(xiàn)造成網(wǎng)絡(luò)環(huán)路影響核心網(wǎng)絡(luò)案例
故障現(xiàn)象:筆者單位管轄的多個(gè)單位反映,訪(fǎng)問(wèn)集團(tuán)公司網(wǎng)絡(luò)出現(xiàn)不定時(shí)中斷現(xiàn)象,并逐步擴(kuò)散,造成網(wǎng)絡(luò)大面積中斷。間隔一定周期后網(wǎng)絡(luò)逐步恢復(fù),網(wǎng)絡(luò)故障反復(fù)發(fā)生。
本次故障因核心網(wǎng)下聯(lián)單位中存在兩個(gè)環(huán)路,造成網(wǎng)絡(luò)風(fēng)暴,影響到核心交換機(jī),造成核心網(wǎng)絡(luò)中斷。如圖3 所示。
1.未正確配置VLAN,造成設(shè)備環(huán)路
在對(duì)華為桌面云施工過(guò)程中,按規(guī)劃網(wǎng)絡(luò)應(yīng)為兩個(gè)VLAN,但施工過(guò)程中未配置數(shù)據(jù)就將交換機(jī)接入網(wǎng)絡(luò)。華為刀箱內(nèi)置的交換網(wǎng)卡實(shí)際為一臺(tái)交換機(jī),連接后形成環(huán)路。交換機(jī)未做配置時(shí),所有端口默認(rèn)為VLAN1,本次故障的網(wǎng)絡(luò)環(huán)路導(dǎo)致廣播風(fēng)暴,會(huì)在包含VLAN1 的Trunk鏈路上進(jìn)行傳播,而不會(huì)在其他VLAN 的鏈路上進(jìn)行傳播。最終造成包含VLAN1 的Trunk 鏈路的上聯(lián)交換機(jī)資源耗盡,大面積網(wǎng)絡(luò)癱瘓。
2.網(wǎng)絡(luò)環(huán)路生成大量TCN報(bào)文,影響核心網(wǎng)絡(luò)
因誤插網(wǎng)線(xiàn)造成網(wǎng)絡(luò)環(huán)路影響核心網(wǎng)絡(luò)案例的原因分析如下。
圖3 公司及下聯(lián)單位網(wǎng)絡(luò)拓?fù)涫疽鈭D
(1)檢查核心交換機(jī)。出現(xiàn)網(wǎng)絡(luò)故障時(shí),檢查核心交換機(jī)N7K,使用“show ip arp”命令顯示MAC 地址incomplete 狀態(tài),這種現(xiàn)象說(shuō)明N7K 的MAC 地址被清空,N7K 處于重新ARP 學(xué)習(xí)的過(guò)程,因此造成網(wǎng)絡(luò)臨時(shí)丟包。
(2)MAC 地址表刷新原因。因外部網(wǎng)絡(luò)拓?fù)浒l(fā)生變化,N7K 收到TCN(Topology Change)的信號(hào)所造成。進(jìn)一步檢查發(fā)現(xiàn),核心交換機(jī)N7K 的25 口,TCN 變化量較大。日志如下:
(3)檢查下聯(lián)交換機(jī)。核心交換機(jī)的25 口下聯(lián)設(shè)備為一臺(tái)思科交換機(jī),為集團(tuán)周邊單位提供綜合信息網(wǎng)接入服務(wù)。查看此設(shè)備日志發(fā)現(xiàn),一臺(tái)終端的MAC 地址可以從41 和42 端口同時(shí)學(xué)習(xí)到,存在環(huán)路。日志如下:
(4)斷開(kāi)下聯(lián)交換機(jī)41端口環(huán)路網(wǎng)線(xiàn)后,網(wǎng)絡(luò)恢復(fù)。
本次故障原因?yàn)橄侣?lián)單位網(wǎng)絡(luò)環(huán)路后,產(chǎn)生并發(fā)送大量TCN 報(bào)文至核心交換機(jī),此報(bào)文大量累積會(huì)導(dǎo)致核心交換機(jī)MAC 地址表異常刷新,而影響核心網(wǎng)絡(luò)正常工作。
1.增加接入網(wǎng)絡(luò)的門(mén)檻。對(duì)核心接入設(shè)備上未劃分VLAN 的端口,進(jìn)行shut down 操作,避免有人員誤插接口帶入有風(fēng)險(xiǎn)的網(wǎng)絡(luò),降低環(huán)路接入網(wǎng)絡(luò)的幾率。
2.優(yōu)化網(wǎng)絡(luò)配置。梳理網(wǎng)絡(luò)結(jié)構(gòu),只允許需要通過(guò)的VLAN 進(jìn)入Trunk 鏈路,禁止其他VLAN 通過(guò),降低網(wǎng)絡(luò)風(fēng)暴的影響范圍和影響強(qiáng)度。
3.解決二層網(wǎng)絡(luò)規(guī)模太大問(wèn)題。對(duì)二層網(wǎng)絡(luò)通過(guò)多劃分VLAN 的形式,將一個(gè)大的廣播域劃分成若干小的廣播域,防止因網(wǎng)絡(luò)環(huán)路故障造成網(wǎng)絡(luò)大面積癱瘓。
4.優(yōu)化既有網(wǎng)絡(luò)結(jié)構(gòu)。構(gòu)建數(shù)據(jù)中心網(wǎng)絡(luò)+辦公網(wǎng)絡(luò)的結(jié)構(gòu),分別以三層交換設(shè)備作為數(shù)據(jù)中心和辦公網(wǎng)絡(luò)的核心。整個(gè)數(shù)據(jù)中心網(wǎng)絡(luò)利用IRF 的堆疊技術(shù)+鏈路聚合技術(shù)進(jìn)行組網(wǎng),構(gòu)建出天然沒(méi)有環(huán)路的全萬(wàn)兆高速二層網(wǎng)絡(luò)。數(shù)據(jù)中心與辦公網(wǎng)絡(luò)之間采用三層路由互聯(lián)的方式進(jìn)行打通,可以有效杜絕二層的廣播風(fēng)暴、網(wǎng)絡(luò)環(huán)路以及STP 抖動(dòng)等對(duì)數(shù)據(jù)中心的影響。