某個(gè)工作日下午,筆者所在單位Internet網(wǎng)絡(luò)突然中斷,由于Internet網(wǎng)關(guān)處部署了很多設(shè)備,除了防火墻是路由模式部署之外,其他設(shè)備均為透明模式部署,所以筆者利用traceroute命令排查故障點(diǎn),發(fā)現(xiàn)測試數(shù)據(jù)包僅僅只能到達(dá)核心交換機(jī),下一跳就超時(shí)。而且通過管理口登錄防火墻,發(fā)現(xiàn)防火墻狀態(tài)都正常,與運(yùn)營商局端通信也都正常,這就排除了防火墻故障的可能性,而且證明故障并不是發(fā)生在運(yùn)營商局端,而是在單位內(nèi)部這些透明模式部署的設(shè)備中。
筆者通過管理口逐個(gè)登錄設(shè)備檢查,發(fā)現(xiàn)各個(gè)設(shè)備均運(yùn)行正常,但是從上網(wǎng)行為管理設(shè)備的系統(tǒng)報(bào)警日志中發(fā)現(xiàn)了“檢測互聯(lián)網(wǎng)錯(cuò)誤,無法正確連接互聯(lián)網(wǎng)”的提示。為了使Internet網(wǎng)絡(luò)快速恢復(fù),筆者嘗試重啟了上網(wǎng)行為管理設(shè)備,重啟完成后,Internet訪問恢復(fù)了正常,各設(shè)備也沒有再出現(xiàn)各類異常報(bào)警日志。
從上述故障現(xiàn)象分析,很容易將故障源頭定位在上網(wǎng)行為管理設(shè)備上,但是仔細(xì)檢查設(shè)備自身的狀態(tài),并無任何異常,唯一可以追溯的依據(jù)就是系統(tǒng)報(bào)警日志,這條日志說明上網(wǎng)行為管理設(shè)備與其上下行設(shè)備的網(wǎng)絡(luò)連接出現(xiàn)了問題,進(jìn)而影響到Internet訪問,原因可能有三個(gè)方面:
1.上網(wǎng)行為管理設(shè)備自身故障。出現(xiàn)故障時(shí)已經(jīng)登錄設(shè)備查看運(yùn)行狀態(tài),并無任何問題,而且重啟后能夠恢復(fù)正常,所以能夠排除設(shè)備自身問題。
2.上網(wǎng)行為管理設(shè)備上下行設(shè)備故障。出現(xiàn)故障時(shí)同樣也查看了上下行的設(shè)備狀態(tài),一切正常,而且只重啟了上網(wǎng)行為管理設(shè)備,并未對上下行設(shè)備做任何處理,Internet網(wǎng)絡(luò)就恢復(fù)了正常,所以能夠排除上下行設(shè)備的問題。
3.上網(wǎng)行為管理設(shè)備上下行線路故障。上網(wǎng)行為管理設(shè)備網(wǎng)口和上下行設(shè)備的網(wǎng)口都是10/100/1000Mbps電口,而且都配置為自動(dòng)協(xié)商模式,正常情況下網(wǎng)口應(yīng)該均協(xié)商為千兆全雙工狀態(tài)。但是,如果網(wǎng)口之間的鏈路出現(xiàn)問題,那么有可能造成協(xié)商不成功,進(jìn)而出現(xiàn)網(wǎng)絡(luò)中斷的故障。
筆者仔細(xì)檢查上下行線路,發(fā)現(xiàn)上行線路使用的是成品六類網(wǎng)線,而下行線路使用的是自己制作的網(wǎng)線。會(huì)不會(huì)是網(wǎng)線的問題呢?如果是網(wǎng)線的問題,那么是上行線路還是下行線路呢?
筆者重新登錄上網(wǎng)行為管理設(shè)備,觀察上下行網(wǎng)口的狀態(tài),上行網(wǎng)口狀態(tài)正常,為千兆全雙工,但是下行接口速率已經(jīng)變?yōu)榘僬兹p工了,檢查其下行設(shè)備對應(yīng)的網(wǎng)口,接口速率也變?yōu)榘僬兹p工了,這說明兩個(gè)網(wǎng)絡(luò)接口重新進(jìn)行了速率協(xié)商,由原來正常的千兆全雙工協(xié)商為百兆全雙工,雖然現(xiàn)在Internet網(wǎng)絡(luò)已經(jīng)暢通,但是傳輸速率只有100Mbps,顯然是存在問題的,如果不徹底解決,一方面?zhèn)鬏斔俾薀o法達(dá)到千兆要求,另一方面還可能出現(xiàn)網(wǎng)絡(luò)中斷或不穩(wěn)定的問題。
下班后,筆者用一條6類成品網(wǎng)線替代了原來的手工網(wǎng)線,下行接口速率很快自動(dòng)協(xié)商為千兆全雙工,Internet網(wǎng)絡(luò)也恢復(fù)正常。
為了確定這條手工網(wǎng)線是否真的存在問題,筆者利用測線儀進(jìn)行了測試,發(fā)現(xiàn)第5根線不通,這就證實(shí)了前面的分析:由于上網(wǎng)行為管理設(shè)備和下行設(shè)備對應(yīng)的網(wǎng)口都是自動(dòng)協(xié)商模式,之前這根網(wǎng)線沒有問題時(shí),肯定是自動(dòng)協(xié)商為千兆全雙工;后來,由于線路老化,導(dǎo)致協(xié)商失敗,所以出現(xiàn)了斷網(wǎng)的故障,重啟上網(wǎng)行為管理設(shè)備后,線路重新進(jìn)行協(xié)商,由于百兆傳輸僅用到了1、2、3和 6這四根線,第 5根線故障并不影響百兆傳輸,所以會(huì)自動(dòng)協(xié)商為百兆全雙工,數(shù)據(jù)仍然能夠正常傳輸,但是傳輸速率就大大下降了。
由于網(wǎng)線、光纖等鏈路介質(zhì)傳輸數(shù)據(jù)穩(wěn)定,日常排除網(wǎng)絡(luò)故障時(shí)很容易將其忽略,加上網(wǎng)絡(luò)接口一般使用自動(dòng)協(xié)商的機(jī)制,更加掩蓋了傳輸介質(zhì)的問題。在千兆網(wǎng)絡(luò)已經(jīng)普及的情況下,建議使用網(wǎng)線時(shí),一定要提前進(jìn)行連通性測試,確保8根線路均暢通,網(wǎng)絡(luò)線路工作在最優(yōu)狀態(tài)。同時(shí),重要的骨干線路一定要使用六類成品網(wǎng)線,不可使用手工網(wǎng)線,并定期進(jìn)行更換,最大程度避免因傳輸介質(zhì)導(dǎo)致的網(wǎng)絡(luò)故障。