中國衛(wèi)星海上測控部 焦重波 靳建彬
網(wǎng)絡(luò)風(fēng)暴故障排查解決的一般方法研究
中國衛(wèi)星海上測控部焦重波靳建彬
網(wǎng)絡(luò)中一旦出現(xiàn)網(wǎng)絡(luò)風(fēng)暴,波及面廣,影響大,故障定位難度高,想要短時間內(nèi)排除故障,首先要了解網(wǎng)絡(luò)的拓撲結(jié)構(gòu),其次要有清晰的排查思路,正確的排查方法。本文通過一個具體的網(wǎng)絡(luò)風(fēng)暴故障案例,研究排查解決網(wǎng)絡(luò)風(fēng)暴故障的一般方法。
網(wǎng)絡(luò)風(fēng)暴;故障排查;方法
一個數(shù)據(jù)幀或包被傳輸?shù)奖镜鼐W(wǎng)段 (由廣播域定義)上的每個節(jié)點就是廣播;由于網(wǎng)絡(luò)拓撲的設(shè)計和連接問題,或其他原因?qū)е聫V播在網(wǎng)段內(nèi)大量復(fù)制,傳播數(shù)據(jù)幀,導(dǎo)致網(wǎng)絡(luò)性能下降,甚至網(wǎng)絡(luò)癱瘓,這就是廣播風(fēng)暴。本文通過一個具體的網(wǎng)絡(luò)風(fēng)暴故障案例,從故障現(xiàn)象、排查思路、具體操作三個方面,研究了排查解決網(wǎng)絡(luò)風(fēng)暴故障的一般方法。
某船局域網(wǎng)突然出現(xiàn)偶爾斷網(wǎng)現(xiàn)象,每次斷網(wǎng)時間持續(xù)一分鐘左右。利用“圖形化PING程序”軟件,通過局域網(wǎng)核心交換機對網(wǎng)內(nèi)的所有節(jié)點交換機進行ping測試,發(fā)現(xiàn)每隔二十分鐘到三十分鐘出現(xiàn)一次部分交換機ping連通性異常現(xiàn)象,并且每次出現(xiàn)的異常交換機都不相同,無規(guī)律可循,如圖1所示。在核心交換機上進行抓包檢查,未發(fā)現(xiàn)明顯異常流量。此次故障出現(xiàn)頻率快,覆蓋面廣,短時間內(nèi)無法定位。
某船局域網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu)為典型的樹形網(wǎng)絡(luò)結(jié)構(gòu),五個大節(jié)點交換機通過光纖收發(fā)器進行連接,節(jié)點內(nèi)其余交換機通過網(wǎng)線連接至節(jié)點交換機,如圖2所示。五個節(jié)點交換機連接的順序是A→B→C→D→E,辦公網(wǎng)服務(wù)器區(qū)通過核心交換機接入C節(jié)點。根據(jù)之前的故障現(xiàn)象,經(jīng)專業(yè)組討論,擬定的排查思路:根據(jù)故障現(xiàn)象及抓包結(jié)果分析,該故障極有可能是網(wǎng)絡(luò)中產(chǎn)生了短暫的網(wǎng)絡(luò)風(fēng)暴導(dǎo)致。首先進行交換機、服務(wù)器的重啟,確定是否為辦公網(wǎng)本身設(shè)備問題;若故障復(fù)現(xiàn),則再繼續(xù)確認是否為辦公網(wǎng)的某個用戶導(dǎo)致。通過跨接方式將五個大節(jié)點交換機的局域網(wǎng)單個隔離,并進行ping測試,縮小故障范圍。確定故障范圍后,再通過拔插該局域網(wǎng)中的用戶線纜,最終找出故障用戶。
圖2 網(wǎng)拓撲圖
(1)對辦公網(wǎng)交換機進行重啟,重啟約1個小時后,故障復(fù)現(xiàn);
(2)對辦公網(wǎng)服務(wù)器進行重啟、并對一些不重要的服務(wù)器進行斷網(wǎng),故障仍然存在;
(3)由于C節(jié)點為辦公網(wǎng)的中心節(jié)點,因此首先使用跨接的方法將C節(jié)點局域網(wǎng)進行隔離,如圖3所示。通過運行“圖形化PING程序”軟件對這兩個局域網(wǎng)的交換機進行ping測試,軟件分別部署在核心交換機和C交換機。測試結(jié)果為:核心交換機節(jié)點局域網(wǎng)(剝離C節(jié)點后)ping測試正常,沒有出現(xiàn)之前的故障現(xiàn)象;C節(jié)點局域網(wǎng)的交換機每隔5~10分鐘出現(xiàn)部分交換機ping異常,持續(xù)時間1分鐘。這樣,故障范圍縮小至C節(jié)點局域網(wǎng)。
圖3 將C節(jié)點局域網(wǎng)進行單獨跨接隔離
(4)對C節(jié)點局域網(wǎng)進行單獨測試。采用同樣的方法,對該局域網(wǎng)的其他五個交換機進行分別剝離測試,故障依舊。至此,可以判斷故障應(yīng)該在C交換機上。對C交換機上面的用戶網(wǎng)線進行逐個拔插,同時配合ping測試,發(fā)現(xiàn)當將第18口網(wǎng)線拔掉時,故障消失,插上時,故障復(fù)現(xiàn)?;謴?fù)辦公網(wǎng)絡(luò),在全網(wǎng)環(huán)境下進行測試,結(jié)果一致,最終故障定位為C交換機第18口用戶。
一般情況下,產(chǎn)生網(wǎng)絡(luò)廣播風(fēng)暴的原因,主要有以下幾種:
(1)網(wǎng)絡(luò)設(shè)備原因:我們經(jīng)常會有這樣一個誤區(qū),交換機是點對點轉(zhuǎn)發(fā),不會產(chǎn)生廣播風(fēng)暴。但是如果交換機本身發(fā)生故障,也可能會產(chǎn)生廣播風(fēng)暴。
(2)網(wǎng)卡損壞:如果網(wǎng)絡(luò)機器的網(wǎng)卡損壞,也同樣會產(chǎn)生廣播風(fēng)暴。損壞的網(wǎng)卡,不停向交換機發(fā)送大量的數(shù)據(jù)包,產(chǎn)生了大量無用的數(shù)據(jù)包,產(chǎn)生了廣播風(fēng)暴。由于網(wǎng)卡物理損壞引起的廣播風(fēng)暴,故障比較難排除,損壞的網(wǎng)卡一般還能上網(wǎng),我們可以借用Sniffer等局域網(wǎng)管理軟件,查看網(wǎng)絡(luò)數(shù)據(jù)流量,來判斷故障點的位置。
(3)網(wǎng)絡(luò)環(huán)路:網(wǎng)絡(luò)環(huán)路的產(chǎn)生,一般是由于一條物理網(wǎng)絡(luò)線路的兩端,同時接在了一臺網(wǎng)絡(luò)設(shè)備中。曾經(jīng)在一次的網(wǎng)絡(luò)故障排除中,發(fā)現(xiàn)一條雙絞線兩端插在同一個交換機的不同端口上,導(dǎo)致了網(wǎng)絡(luò)性能驟下降,打開網(wǎng)頁都非常困難。這種故障,就是典型的網(wǎng)絡(luò)環(huán)路?,F(xiàn)在的交換機(不是HUB)一般都帶有環(huán)路檢測功能。
(4)網(wǎng)絡(luò)病毒:目前一些比較流行的網(wǎng)絡(luò)病毒,F(xiàn)unlove、震蕩波、RPC等,一旦有機器中毒后,會立即通過網(wǎng)絡(luò)進行傳播。網(wǎng)絡(luò)病毒的傳播,就會損耗大量的網(wǎng)絡(luò)帶寬,引起網(wǎng)絡(luò)堵塞,引起廣播風(fēng)暴。
網(wǎng)絡(luò)風(fēng)暴破壞力大,故障定位難度高。本文結(jié)合一個具體的網(wǎng)絡(luò)風(fēng)暴故障案例,從故障現(xiàn)象、排查思路、具體操作三個方面進行分析,總結(jié)出來網(wǎng)絡(luò)風(fēng)暴產(chǎn)生的常見原因,研究了解決網(wǎng)絡(luò)風(fēng)暴故障的一般方法。