賴彩明 鐘興國 王榮
中國聯(lián)通江西省分公司云網(wǎng)運(yùn)營中心 南昌市 330029
隨著計算機(jī)網(wǎng)絡(luò)的高速發(fā)展,互聯(lián)網(wǎng)的應(yīng)用變得越來越廣泛。用戶對網(wǎng)絡(luò)故障恢復(fù)時限的要求也越來越高,因此運(yùn)營商的網(wǎng)絡(luò)可靠性顯得尤為重要。寬帶遠(yuǎn)程接入服務(wù)器(BRAS)將用戶管理和業(yè)務(wù)控制等功能結(jié)合在一起,實(shí)現(xiàn)了對各種業(yè)務(wù)的認(rèn)證授權(quán)、訪問控制和安全保障。因此,在城域網(wǎng)中,BRAS設(shè)備的安全可靠至關(guān)重要。為了消除單點(diǎn)故障,運(yùn)營商通常對BRAS采用雙機(jī)熱備方式,以提高網(wǎng)絡(luò)可靠性和安全性。
本文是通過將一個典型故障的處理過程記錄下來,并對此故障進(jìn)行分析總結(jié),以達(dá)到提升網(wǎng)絡(luò)維護(hù)水平的目的。
2022年某天,云網(wǎng)中心接到贛州云網(wǎng)的投訴,某家寬用戶無法在AAA WMAS平臺進(jìn)行復(fù)位。工程師收到故障申告后,Ping測試BRAS無異常,BRAS到DNS/AAA正常,因此排查重點(diǎn)轉(zhuǎn)移至WMAS。
經(jīng)WMAS對問題進(jìn)行復(fù)現(xiàn)發(fā)現(xiàn)對賬號進(jìn)行復(fù)位時出現(xiàn)“對不起,該會話不能被復(fù)位?!钡母婢瘓箦e。
對于復(fù)位用戶失敗的問題,一般是通過收集MML的oplog以及AAA和BRAS之間的抓包信息來定位故障點(diǎn)。登錄ismpmml網(wǎng)元輸入oplog進(jìn)到日志目錄,發(fā)現(xiàn)oplog的每次測試的結(jié)果都是如下的日志:
Excuting command failed[]20[]RESET C280 ACCOUNT[]RETN=1004
從《AAA V200R002C11LG0XXX MML接口開發(fā)指南37(寬帶AAA).pdf》可以查到返回碼1004的意思是“強(qiáng)制用戶下線失敗?!?/p>
從抓包中,可以看出:
第一行:AAA向BRAS發(fā)送的復(fù)位DM消息;
第二行:BRAS向AAA請求的計費(fèi)結(jié)束消息(stop),如圖1所示(并未響應(yīng)AAA下發(fā)的復(fù)位DM消息);
圖1 用戶復(fù)位抓包分析圖
第三行:AAA向BRAS重發(fā)的DM復(fù)位消息(BRAS第一行DM消息未響應(yīng),AAA3秒后重發(fā)的);
第四行:BRAS復(fù)位找不到會話(因第二行計費(fèi)結(jié)束了)AAA提示報無法復(fù)位該用戶(如圖2所示503)。
圖2 無法復(fù)位根因圖
通過分析以上數(shù)據(jù),定位故障原因如下:
第一行AAA給BRAS發(fā)DM消息的時候,發(fā)的目標(biāo)IP是:58.17.116.1。
但是第二行BRAS給AAA響應(yīng)的時候,源IP是58.17.116.3。經(jīng)過BRAS測抓包發(fā)現(xiàn)在第一行之后BRAS有回一個復(fù)位成功DM消息給AAA,然后在發(fā)的計費(fèi)結(jié)束消息(即第三行)。因BRAS響應(yīng)AAA的DM消息的IP為58.17.116.3與第一行目標(biāo)IP不一致,兩次的IP不一致,AAA認(rèn)為BRAS回復(fù)的消息不合法,丟棄了。
那為什么AAA發(fā)送DM消息會發(fā)送到58.17.116.1這個IP呢而不是58.17.116.3?
AAA版本發(fā)送DM消息的邏輯如下:
對于本地用戶,如果計費(fèi)消息中上報的NASIPAddress是個正常的IP,那么AAA的DM消息會下發(fā)到NASIPAddress這個IP。否則的話,會發(fā)送給計費(fèi)消息的源IP。由此可知道BRAS上報的NASIPAddress是58.17.116.1,故AAA會向此IP發(fā)送DM消息。
原因清楚之后,有兩個解決方法:
1)讓BRAS將計費(fèi)消息中上報的NASIPAddress的值改成和源IP一樣,如圖3所示。
圖3 解決方案圖
2)讓BRAS響應(yīng)DM消息的時候,從NASIPAddress這個IP發(fā)來DM響應(yīng)消息。
現(xiàn)網(wǎng)最終采用了方法1,即BRAS將計費(fèi)消息中上報的NASIPAddress的值改成和源IP一樣。修改之后WMAS界面可以正常復(fù)位用戶。
AAA側(cè)會將DM消息發(fā)往計費(fèi)消息中的NASIPAddress屬性中的IP,并且要求BRAS用這個IP回復(fù)DM響應(yīng)消息,如果兩次IP不一致會被認(rèn)為非法消息而被丟棄。
如果發(fā)現(xiàn)對同一場景下,有的區(qū)域正常,有的區(qū)域不正常,則應(yīng)該首先比對不同的區(qū)域配置,快速找出并修改錯誤的配置。
如果該故障涉及多個層面或者需要多個平臺的配合,那么抓包分析是最好的解決辦法,根據(jù)業(yè)務(wù)流程逐級排查,以確定故障點(diǎn)。