■ 湖南工業(yè)大學(xué)現(xiàn)代教育技術(shù)中心 郭兆宏 李強
編者按:筆者在對一些用戶進行更換匯聚交換機時,遇到了部分網(wǎng)絡(luò)連接不通的問題,最后查明是因交換機兩邊端口聚合配置的原因而引發(fā)的。
筆者單位1臺匯聚交換機8606鏈接7棟樓網(wǎng)絡(luò),且已經(jīng)在線運行12年了,近期需要進行更換。單位計劃使用1臺半新8605E進行替換,原8606與核心交換機只有1條千兆線路,更換后準(zhǔn)備增加到2~4條萬兆線路。
在更換之前準(zhǔn)備好新增加的光路、舊設(shè)備的配置備份、新設(shè)備配置修改、線路標(biāo)記等工作,可在替換時筆者卻遇到了部分樓棟用戶網(wǎng)絡(luò)不通的故障,最后查明是因交換機兩邊端口聚合配置的原因而引發(fā)的。
在準(zhǔn)備更換這臺匯聚交換機前,單位規(guī)劃與核心交換機之間使用2~4條線路,已經(jīng)在線的1條,計劃再增加2條。由于這臺匯聚交換機8606與核心交換機在相距200 m左右的兩棟樓內(nèi),這兩棟樓沒有直達光纜,需要通過中間室外的一個光交箱進行中轉(zhuǎn)。因為以前筆者通過打紅光方式跳接光路遇到過無法使光模塊亮起來的情況,因此這次就在核心交換機拿出4個連續(xù)萬兆光口,因使用的都是雙蕊光模塊,在每個發(fā)光蕊測試光功率正常后,將4個發(fā)光蕊接到4根光跳線上,另一頭在測光功率都正常后再接到配線架上。
筆者到室外光交箱中檢測發(fā)現(xiàn),一蕊光衰過大,在換過一蕊后再把4路光接到8606所在樓。但因在8606所在機房測得光衰太大,換過多次蕊才把4路光打通。因其間光路質(zhì)量不好,兩端標(biāo)號不一致且開始筆者只帶了一臺光功率計,需要2頭往返測試,最后2個人花了一天時間才打通這2棟樓的新增4蕊光路(在跳接光路時最好兩端同時用光功率計測試,接通時先用紅光測試通過后再測光功率)。
將8606交換機的配置備份,各端口線路打好標(biāo)記,替換的8605E清空配置并導(dǎo)入8606配置,修改接口為聚合端口,在核心交換機上也做好2個光口聚合。
因8606所在機房是十年前舊機房,有很多不用的光跳線和網(wǎng)線跳線,筆者和同事兩個人又花了一天時間清理掉了不用的光跳線和網(wǎng)線,清出4蕊以前備用這兩棟樓的互聯(lián)線路,做好標(biāo)記。
更換過程是先將8605E的兩個聚合端口用新接的4蕊光先接到核心交換機上,接口地址先用一個臨時地址測試,馬上發(fā)現(xiàn)一個光模塊不亮,在8605E上換光模塊或端口都無效,測試發(fā)光正常但收光很弱。筆者再到核心交換機上換光模塊,在核心交換機上發(fā)現(xiàn)光模型號有兩種,把一對蕊兩端換成同型號后,并換掉光跳線再次測試還是光太弱,也換過新端口都無法使這一路光模塊亮起。
筆者在核心機房正好看到以前2蕊備用蕊是在清理8606所在機房時清理出來并標(biāo)記的,通過紅光測試后發(fā)現(xiàn)是通的,就臨時在地板上接光跳線到核心交換機上,在8605E上對應(yīng)的這條備用線路所接的端口上光模塊燈亮了,在核心交換機上可以Ping通8605E。
因機柜空間充足,筆者把8605E放在8606上面,開始換線路,將原來的接口地址換到聚合端口上,8605E與核心交換機設(shè)備間Ping通了,Ping出口設(shè)備也是通的。但當(dāng)用筆記本接到8605E上一個電口卻網(wǎng)絡(luò)不通,檢查配置是正確的,而檢查8605E發(fā)現(xiàn)最早接通的上聯(lián)端口是shutdown的,原因未知。
筆者馬上將其打開,再測試筆記本電腦的網(wǎng)絡(luò)通了,可通過筆記本電腦連接遠程服務(wù)器打開非常慢,基本不可能在遠程服務(wù)器上面操作。通過檢查8605E的配置是正常的,各接口地址都正常,接線也都按標(biāo)記接好且各端口都是UP的,到7棟樓的交換機都能ping通。到故障用戶所在的交換機上查看都正常,8605E的上聯(lián)聚合口是通的,2個物理口都是UP的,聚合口接口數(shù)據(jù)也有,再檢查發(fā)現(xiàn)8605E上面顯示有“aggregateport load-balance src-dst-ipl4port”,馬上將其刪除,再次連接遠程服務(wù)器,非??焖俅蜷_了。
但還是有用戶顯示有故障問題,主要集中在A樓的用戶無法認證,或認證后網(wǎng)絡(luò)不通。筆者登錄A樓的交換機檢查發(fā)現(xiàn)都正常,但發(fā)現(xiàn)A樓交換機上Ping核心交換機不通。因此筆者準(zhǔn)備回核心機房查找原因,同時把原來接8606的上聯(lián)線也接到8605E上。
筆者到核心機房查看發(fā)現(xiàn)故障較多的A樓交換機全不在線,而在8605E所在機房時卻可以遠程登錄A樓的交換機。于是筆者將核心交換機和8605E交換機遠程重啟,之后發(fā)現(xiàn)A棟樓的交換機在線,而B、C、D棟樓的交換機不在線,故障范圍擴大了。
通過查看路由發(fā)現(xiàn),策略路由到B、C、D棟不通。由于以前發(fā)生過配置接口地址時子網(wǎng)掩碼兩端并不一樣造成OSPF路由無法啟用的故障,于是筆者檢查8605E,與A棟對比,并與以前A、B、C、D棟交換機配置備份對比,都是正常的,配置正常,下面的交換機是正常的,8605E配置正常,故障應(yīng)在核心交換機上。
再檢查核心交換機,筆者發(fā)現(xiàn)后來接的備用線路的端口沒有配置聚合組號,可能是前面為測試光路轉(zhuǎn)換光模塊光跳線時也換過新端口,且接線時使用了新端口。筆者馬上將這個Up接以前備用線的端口改成聚合端口,再檢查OSPF路由B、C、D棟樓IP在線,檢查B、C、D棟樓的交換機都是通的且可以遠程登錄了。再次認證服務(wù)器上7棟樓的用戶IP都存在,在出口上可以看到7棟樓的IP流量,至此故障全部解決。最后在核心交換機上將原來接8606的線路也換到萬兆光口,并把端口做聚合,這樣8605E有三條萬兆線路與核心交換機相連。
此次更換用戶的匯聚交換機,遇到部分用戶斷網(wǎng)現(xiàn)象,實際是因端口聚合引發(fā)的。首先是核心交換機因為光路質(zhì)量的原因換過端口,而以前備用線路接的端口并不在聚合組內(nèi),從而造成從8605E傳輸來的部分數(shù)據(jù)進入核心交換機后無法進入聚合組內(nèi)。其次是新?lián)Q上的8605E不明原因使聚合組內(nèi)一個物理端口關(guān)閉,在經(jīng)發(fā)現(xiàn)后立即打開。再次是因為新?lián)Q上的8605E上面的aggregateport loadbalance src-dst-ip-l4port負載勻衡問題,核心交換機實際只有一個端口能傳輸數(shù)據(jù),另一端口因不在聚合組內(nèi)而無法傳輸,在取消這個負載勻衡后網(wǎng)絡(luò)通了一部分。最后是檢查路由不通,就花時間檢查路由相關(guān)配置,沒有注意到聚合組內(nèi)每個端口的配置。因此以后一定要注意聚合端口組每個物理端口配置要保持一致,同時要注意每個物理端口的狀態(tài)。另外在跳接光路時最好在兩端同時用光功率計測試,接通時先用紅光通過后再測光功率,兩端的光模塊盡量一致。