編者按: 告警信息是IT 運(yùn)維工作中所依賴的重要法寶,但在運(yùn)維工作中也不要忘記故障之間的關(guān)聯(lián)性。筆者單位近期出現(xiàn)斷網(wǎng),初期經(jīng)分析告警信息發(fā)現(xiàn)存在MAC 地址漂移,但并未解決問(wèn)題,之后才確定是環(huán)路問(wèn)題所致。
筆者單位的辦公網(wǎng)最近出現(xiàn)了一次大范圍的故障,在解決故障的過(guò)程中,由于筆者水平有限,中間走了一些彎路。其中一些經(jīng)驗(yàn)和教訓(xùn),希望能給大家一點(diǎn)借鑒。
辦公網(wǎng)的拓?fù)浔容^簡(jiǎn)單,主要是上互聯(lián)網(wǎng)和使用辦公軟件,上網(wǎng)方式是撥號(hào)上網(wǎng),如圖1 所示。
故障第一天,有個(gè)別辦公室反映撥號(hào)自動(dòng)掉線,重新?lián)芴?hào)后恢復(fù)正常,判斷為個(gè)別現(xiàn)象,并未引起重視。第二天一早便有多人反映需要反復(fù)撥號(hào)或者直接撥號(hào)失敗,無(wú)法上網(wǎng),出現(xiàn)了大范圍的問(wèn)題。筆者隨即按照如下順序進(jìn)行了故障排查。
1.之前出現(xiàn)過(guò)因個(gè)別無(wú)線路由器接反導(dǎo)致的網(wǎng)絡(luò)丟包,首先在現(xiàn)場(chǎng)電腦上查看arp-a,未發(fā)現(xiàn)異常IP 和MAC 地址。
圖1 單位網(wǎng)絡(luò)拓?fù)鋱D
2.詢問(wèn)運(yùn)營(yíng)商撥號(hào)系統(tǒng)是否正常。運(yùn)營(yíng)商答復(fù)系統(tǒng)正常,未發(fā)現(xiàn)明顯異常。
3.終端機(jī)器Ping 豎 井交換機(jī)和網(wǎng)關(guān)丟包均在5%左右。
4.登錄豎井交換機(jī)的Web 管理界面查看交換機(jī)CPU 占用率和內(nèi)存占用率,未發(fā)現(xiàn)明顯異常。
5.查看交換機(jī)告警。由于平時(shí)告警界面經(jīng)常有一些“提示”類的告警信息,對(duì)網(wǎng)絡(luò)運(yùn)行沒(méi)有什么影響。鑒于情況比較緊急,筆者直接將告警級(jí)別進(jìn)行了排序,查看是否有重要告警。結(jié)果列出了許多“重要”級(jí)別告警,顯示出現(xiàn)了MAC地址漂移,如圖2 所示。
6.由于單位沒(méi)有處理這種故障的經(jīng)驗(yàn),接下來(lái)筆者先查看了所有豎井接入交換機(jī),均出現(xiàn)了MAC地址漂移的告警信息,并且每個(gè)交換機(jī)都出現(xiàn)了多個(gè)發(fā)生漂移的MAC 地址。筆者隨即對(duì)相應(yīng)的MAC 地址終端進(jìn)行了現(xiàn)場(chǎng)查看和比較,沒(méi)有發(fā)現(xiàn)存在相同MAC地址的終端或其他異常。筆者又將多個(gè)發(fā)生MAC 地址漂移的終端對(duì)應(yīng)的交換機(jī)端口進(jìn)行了shutdown 處理,問(wèn)題仍未得到解決。
7.至此,故障處理陷入僵局。筆者經(jīng)過(guò)思考后,重新在Web 界面查看交換機(jī)告警,按照時(shí)間順序進(jìn)行排序。這時(shí)才發(fā)現(xiàn),在“提示”級(jí)別的告警中,存在環(huán)路告警:
圖2 告警信息中出現(xiàn)MAC 地址漂移
#Apr 27 2020 14:39:22+08:00 2F-SW LBDT/4/PORTTRAP:OID 1.3.6.1.4.1.2011.5.25.174.3.3 Loop back exists on interface(53)GigabitEthernet0/0/49(none),loopback detec tion status:4,auto loop detection for trap only on VLAN 26.
8.查看所有豎井交換機(jī),均出現(xiàn)環(huán)路告警。按照各個(gè)交換機(jī)的告警信息,除了豎井交換機(jī)C,其他均提示為上聯(lián)口存在Loopback。而交換機(jī)C 則指向自己下聯(lián)的擴(kuò)展交換機(jī)C1,在C1 上Loopback 指向了房間R的端口。筆者立即shutdown 房間R 對(duì)應(yīng)的端口,丟包隨即停止了,各撥號(hào)上網(wǎng)用戶恢復(fù)了正常,MAC 地址漂移告警也停止了。后經(jīng)查看,房間R 因網(wǎng)線較多,自行接線時(shí)誤將上網(wǎng)的交換機(jī)接成了環(huán)路。
故障雖然消除了,但是通過(guò)這次經(jīng)歷,筆者總結(jié)下來(lái)一些經(jīng)驗(yàn)和教訓(xùn):
查看交換機(jī)告警不能只關(guān)注“重要”或“緊急”的告警,同樣要關(guān)注“次要”或“提示”類的告警。
交換機(jī)告警是有關(guān)聯(lián)的,嚴(yán)重程度高的告警能夠表明相應(yīng)的故障對(duì)業(yè)務(wù)的影響程度高,但是故障的解決卻依賴于對(duì)告警根源的追溯。這次MAC 地址漂移的告警之所以重要,是因?yàn)镸AC 地址一旦發(fā)生頻繁漂移,勢(shì)必導(dǎo)致二層網(wǎng)絡(luò)的通信紊亂,但MAC地址漂移本身是“次生災(zāi)害”,是另外一個(gè)故障導(dǎo)致的結(jié)果了。而另外一個(gè)故障已經(jīng)反映在“提示”告警中了。
除了網(wǎng)管人員加強(qiáng)網(wǎng)絡(luò)知識(shí)的學(xué)習(xí)以外,為網(wǎng)絡(luò)增加監(jiān)測(cè)和自動(dòng)報(bào)警的功能也是一個(gè)較好的切入點(diǎn)。
下一步單位準(zhǔn)備部署能夠?qū)崟r(shí)監(jiān)控網(wǎng)絡(luò)設(shè)備,并能自動(dòng)報(bào)警的服務(wù)器,力爭(zhēng)做到提前發(fā)現(xiàn),及時(shí)處理告警信息。