隨著移動通信網(wǎng)絡(luò)的高速發(fā)展,各運(yùn)營商建設(shè)了LTE(Long Term Evolution,長期演進(jìn))網(wǎng)絡(luò)來滿足人們快速增長的無線數(shù)據(jù)業(yè)務(wù)需求。語音是電信網(wǎng)絡(luò)的一個基本功能,因此,需要考慮為用戶提供LTE 數(shù)據(jù)業(yè)務(wù)的同時繼續(xù)為用戶提供高質(zhì)量的語音服務(wù)。在部署移動IMS 網(wǎng)絡(luò)之前,CSFB 成為最優(yōu)的語音過渡方案。CSFB 即CS(Circuit Switch)FallBack 業(yè)務(wù),上網(wǎng)在LTE 網(wǎng)絡(luò)、語音業(yè)務(wù)需回落至2/3G 網(wǎng)絡(luò)完成。隨著CSFB 用戶的增加,尤其是移動核心網(wǎng)CS 域MSC(Mobile Switch Center)組POOL 后,CSFB 用戶容易雙活的屬性便日益凸顯。本文從雙活產(chǎn)生的場景、形成的原因及應(yīng)急恢復(fù)措施等方面著手,逐一進(jìn)行分析。
當(dāng)CSFB 用戶A 在MSC-A 和MSC-B 設(shè)備局下均存在簽約數(shù)據(jù),歸屬HSS記錄用戶A在MSC-B上注冊,但用戶A 實際在MSC-A 下進(jìn)行注冊活動,我們稱用戶A 便是一個“雙活”用戶。
發(fā)生“雙活”故障后,當(dāng)用戶A 做被叫時,HSS(Home Subscriber Server 歸屬簽約用戶服務(wù)器)根據(jù)自己保存的A 用戶登陸MSC-B GT(Globe title,全球碼)通過provide roaming number 響應(yīng)消息回給GMSC,導(dǎo)致用戶A 被叫異常;而主叫用戶短信中心根據(jù)尋址到的被叫MSC-B GT 進(jìn)行下發(fā)短信時也會導(dǎo)致A 用戶無法接收短信。由于HSS 側(cè)記錄的MSC GT 與用戶活動的MSC 不一致,同樣也會導(dǎo)致BOSS 側(cè)訂閱類消息無法下發(fā)至活動MSC-A,從而無法對用戶進(jìn)行欠費(fèi)停機(jī)等操作。
移動網(wǎng)用戶“雙活”通常有HSS 側(cè)、傳輸層或MSC 側(cè)超負(fù)荷三大方面原因,并引發(fā)鏈路負(fù)荷過載、流控啟動等一系列高警,從而引發(fā)cancel location 消息丟棄導(dǎo)致,上述問題一般出現(xiàn)在下面幾個重要環(huán)節(jié):
1)核心側(cè):HSS 網(wǎng)元割接,需進(jìn)行上百萬用戶數(shù)據(jù)遷移;交換端局存儲用戶數(shù)據(jù)的單板重啟,需在操作前將該局下用戶全部遷出,重啟單板后,將用戶重新遷回。用戶數(shù)據(jù)遷移過程中,瞬間上報的大批量位置更新消息,易造成C/D 口鏈路負(fù)荷過載等告警。
2)傳輸IPRAN(IP Radio Access Network,無線接入網(wǎng)IP 化)操作:根據(jù)網(wǎng)絡(luò)規(guī)劃,現(xiàn)網(wǎng)enodeB 基站通過IPRAN 接入4G 網(wǎng)絡(luò),若IPRAN 雙平面異?;驘o法進(jìn)行倒換,則4G 基站瞬斷后,導(dǎo)致短時間內(nèi)大量用戶在2/3G 網(wǎng)絡(luò)下重新發(fā)起位置更新,引發(fā)網(wǎng)絡(luò)沖擊;恢復(fù)之后大量用戶又重新回到4G 進(jìn)行注冊,再次引發(fā)沖擊。
3)IP 承載網(wǎng)故障,導(dǎo)致端局與HSS 中斷。當(dāng)業(yè)務(wù)恢復(fù)后,短時間內(nèi)大批量用戶重新發(fā)起位置更新,造成網(wǎng)絡(luò)沖擊。
4)BSC/RNC(基站控制器/無線網(wǎng)絡(luò)控制器)進(jìn)行批量操作,引發(fā)批量2/3G 基站掉站。業(yè)務(wù)恢復(fù)后,同樣短時間內(nèi)大批量用戶發(fā)起位置更新,造成網(wǎng)絡(luò)沖擊。
5)HSS 與注冊端局MSC 之間傳輸中斷、某段鏈路中斷或其他原因引發(fā)消息包丟失。嚴(yán)重情況下,上述告警出現(xiàn)的同時引發(fā)HSS 側(cè)啟動“流控”。
“雙活”用戶投訴被叫業(yè)務(wù)異?;驘o法接收短信。HLR 查詢用戶登陸MSC GT 顯示為MSC-B;MSC/VLR 上查詢用戶狀態(tài):MSC-A 和MSC-B 局都存在用戶數(shù)據(jù),但用戶最新活動時間MSC-A 的記錄要晚于MSC-B 的記錄,這表明該用戶當(dāng)前實際在MSC-A 下。同時,用戶在MSC-A 登陸狀態(tài)為附著,而在MSC-B上登陸狀態(tài)為分離。
當(dāng)IPRAN 故障導(dǎo)致eNodeB 與MME 斷連,eNB在傳輸中斷的情況下,會進(jìn)行去激活操作,導(dǎo)致所有CSFB 用戶瞬間回落。首先手機(jī)會使用TMSI 在CSFB 局點進(jìn)行位置更新(MME 上進(jìn)行相應(yīng)數(shù)據(jù)配置及IMSI 的Hash 算法,用戶CSFB 后會找到固定對應(yīng)的MSC-A 局點),瞬時大量位置更新請求超過MSC-A的處理能力,甚至觸發(fā)MSC-A 的流控,造成手機(jī)位置更新失敗。按照3GPP 24008 協(xié)議規(guī)定,當(dāng)手機(jī)位置更新請求失敗4 次之后,手機(jī)會清除存儲的前TMSI 和前位置區(qū),在MSC POOL 內(nèi),NNSF 節(jié)點按照網(wǎng)絡(luò)負(fù)荷均衡的原則重新選擇一個MSC。一旦新選擇的MSC 與CSFB 局點不一致時,如用戶在MSC-B局以IMSI 從3G 網(wǎng)絡(luò)重新發(fā)起位置更新,按照3GPP 23012 協(xié)議規(guī)定,位置更新攜帶前位置區(qū)為空(或者非本局位置區(qū))的情況下,MSC 判斷此次位置更新為局間位置更新,會將VLR 中HLR 證實標(biāo)志置為未證實,發(fā)起到HLR 的位置更新。
用戶在MSC-B 下發(fā)起位置更新請求,HSS 上登陸MSC/VLR GT 更新為MSC/VLR-B GT,且HSS 向MSC-B 下插數(shù)據(jù)成功,MSC-B 下存在該用戶數(shù)據(jù);在HSS 向MSC-B 插入用戶數(shù)據(jù)的同時,HSS 會向MSC-A 發(fā)送Cancel Location 消息。但由于HLR 和MSC-A 之間的鏈路出現(xiàn)異常(擁塞、中斷或者閃斷)、HSS 啟動流控或者M(jìn)SC 業(yè)務(wù)過載,導(dǎo)致MSC-A 沒有收到Cancel Location 消息,MSC-A 上用戶數(shù)據(jù)被保留。位置更新信令流程如圖1:
圖1
EnodeB 基站斷連恢復(fù)后,用戶返回eNB,MME按照Hash 算法將用戶重新分發(fā)到MSC-A 上(CSFB局點),用戶再次從MSC-B 返回MSC-A,由于在MSC-A上面已經(jīng)存在該用戶數(shù)據(jù),因此MSC-A 不會再向HLR 發(fā)送Update Location 請求消息,這樣HLR 上仍然記錄用戶登陸GT 為MSC/VLR-B。
用戶在MSC-B 下無活動更新直至超過隱式分離時間,用戶被置為分離(關(guān)機(jī))態(tài)。由于用戶被叫時,HSS 根據(jù)登記的MSC-B GT 向B 局取漫游號碼,因此呼叫被路由到MSC/VLR-B,從而聽到關(guān)機(jī)提示音或暫時無法接通。同時,用戶在MSC-A 下更新活動正常,因此用戶主叫正常、發(fā)送短信正常。
網(wǎng)絡(luò)產(chǎn)生“雙活”故障后,為避免大量用戶投訴,通常應(yīng)急恢復(fù)方法如下:
1)在MSC 上把所有的4G 用戶置為位置未證實,觸發(fā)到HSS 位置更新。此種方式將MSC 下所有的CSFB 用戶置為未證實,短時間內(nèi)會造成C/D 口的流量突增,因此現(xiàn)網(wǎng)并不建議使用。2)HSS 發(fā)送reset 指令,觸發(fā)用戶發(fā)起到HSS 的位置更新。若發(fā)現(xiàn)網(wǎng)絡(luò)擁塞造成流控并導(dǎo)致消息丟失,可在話務(wù)閑時(一般凌晨操作),從HSS 上向所有端局VLR、SGSN、MME 發(fā)送reset 指令。發(fā)送reset 指令會影響C/D 口負(fù)荷,因此HSS 發(fā)送reset 應(yīng)有時間間隔。3)采用HSS 發(fā)送reset 方式進(jìn)行應(yīng)急恢復(fù)雖然恢復(fù)徹底,但只能等到話務(wù)閑時(一般凌晨)操作。緊急情況下,我們可提取各MSC 注冊的全部用戶信息,將各MSC 的用戶信息比對,如果一個用戶在兩個MSC 上有注冊信息,則判斷為雙活用戶,再結(jié)合HLR 上的MSC/VLR GT 數(shù)據(jù)和兩個MSC 下用戶的登陸狀態(tài),分情況處理:(1)若HSS 上登陸MSC GT 與用戶最新活動時間所在的MSC 一致,且狀態(tài)為附著,則刪除分離狀態(tài)所在的MSC 上的用戶數(shù)據(jù);個別用戶存在雙附著情況,是由于其中不活動的MSC 用戶未達(dá)到隱式分離時間導(dǎo)致,此時保留最新活動時間所在MSC 的數(shù)據(jù),刪除另一個MSC 用戶數(shù)據(jù)。如此該用戶主被叫均不會受影響。(2)若HSS 上顯示的登陸MSC GT 與用戶最新活動時間所在的MSC 不一致,則說明用戶此時只能主叫,無法被叫和接收短信;在兩個MSC 上刪除用戶數(shù)據(jù),同時在HSS 上發(fā)送SND CANCELC 指令,清除用戶位置信息。如此用戶發(fā)起主叫業(yè)務(wù)或位置更新時,業(yè)務(wù)即可恢復(fù)正常。
移動用戶對運(yùn)營商通信網(wǎng)絡(luò)的感知性非常高,網(wǎng)絡(luò)異常易引發(fā)大量的投訴。尤其是對于無法接收短信的故障,極易引發(fā)用戶的追責(zé)。以上通過對雙活產(chǎn)生的場景、原因的分析及可行性應(yīng)急措施的列舉,可幫助相關(guān)維護(hù)工程師及早規(guī)避問題,并能針對用戶反映的問題及時進(jìn)行故障定位,在一定程度上降低移動網(wǎng)絡(luò)用戶“雙活”故障的概率,縮短故障處理時間,從而提升用戶對網(wǎng)絡(luò)的感知度。