尹永鑫,關威,張欣,賀曉博(.中國聯合網絡通信集團有限公司,北京 00033;.中訊郵電咨詢設計院有限公司鄭州分公司,河南鄭州 450007)
近2 年境外運營商發(fā)生了多例大規(guī)模網絡故障,故障期間出現的網元過載擁塞和信令風暴導致故障影響范圍大、持續(xù)時間長,對用戶的個人權益和運營商的品牌形象產生了較大的負面影響。2022 年7 月,某境外運營商移動網核心路由器割接失敗后回退,大量終端集中發(fā)起注冊導致PCRF/HSS 過載,進而引發(fā)信令風暴,經核心網和無線網的手動流控后仍無法壓制信令風暴,故障持續(xù)時間超過60 h。
多起故障案例表明,網絡故障發(fā)生時的DC 容災倒換和故障恢復后的用戶集中注冊是引發(fā)信令風暴的2 類主要原因。經實驗室模擬,極端故障場景下注冊浪涌對移動核心網的沖擊達到常規(guī)注冊模型的100倍,大量用戶集中發(fā)起注冊可能引發(fā)網元擁塞和業(yè)務劣化,用戶業(yè)務失敗后的反復重試引發(fā)設備過載,進一步導致正常用戶業(yè)務受影響引發(fā)沖擊蔓延,最終發(fā)生信令風暴。
網元部署自保流控是防護信令風暴的重要手段,但隨著運營商5G用戶的迅速增長,產生信令風暴的風險呈顯著增長態(tài)勢。5G 網絡中終端機制與核心網業(yè)務流程強耦合,5GC 或IMS 其一不可用將導致終端重新注冊,而1 次注冊貫穿核心網10 余個網元、近百次信令交互,其中任一消息被流控均將導致注冊失敗。因此,原有的各自為陣的設備過載自保機制已無法應對5G時代下的網絡安全挑戰(zhàn),需制定端到端流控方案以有效應對注冊信令浪涌對網絡的沖擊。
大量終端同時登網產生的注冊信令沖擊是核心網信令風暴產生的首要原因,注冊信令沖擊主要存在以下幾類特征。
特征1:用戶注冊請求在網元內部呈現百倍的信令流量放大效應。以5G SA 用戶注冊為例,5G 終端需要成功完成1 次5GC 注冊、1 次數據PDU 會話建立、1次語音PDU 會話建立、1 次IMS 挑戰(zhàn)鑒權、2 次第三方注冊才能正常使用數據、語音和短信業(yè)務,用戶1次注冊請求轉化為核心網網元間的近百次信令處理資源消耗。
特征2:用戶注冊各類信令流程均在后端網元HSS/UDM 收斂。終端注冊和鑒權流程需通過HSS/UDM 下載簽約數據、鑒權向量并更新用戶狀態(tài),因此用戶在EPC/5GC/IMS 域各類信令流程均會共同占用后端網元HSS/UDM的信令處理能力。
特征3:用戶注冊失敗,終端將多次重試,消耗網絡資源。當大量用戶終端同時向核心網發(fā)起注冊請求時,因EPC/5GC/IMS 網絡對信令流量的放大效應,注冊請求將對核心網各網元產生巨大的信令沖擊。信令流量如超過網元處理能力,將導致HSS/UDM 等網絡中的短板網元首先出現過載擁塞,引發(fā)用戶業(yè)務失敗。此時注冊失敗的終端頻繁重試將極大地消耗網絡資源,導致惡性循環(huán)。前后端信令流量放大效應如圖1所示。
為避免信令流量放大效應引發(fā)后端網元過載進而出現雪崩效應,已針對信令風暴產生的原因、特征和危害制定了核心網端到端流控方案,如圖2 所示。其原則如下。
圖2 端到端流控方案示意
a)在EPC/5GC/IMS 前端網元部署精準流控消減信令浪涌首沖擊。
b)在端到端網元部署分級流控保障信令沖擊發(fā)生時正常用戶不掉線。
c)在端網間部署終端重試引導和管控策略保障過載擁塞不擴散。
d)在無線和核心網間部署協同流控,保障極端場景下信令風暴可收斂。
當注冊信令沖擊發(fā)生時,為保障后端網元不過載,應根據HSS/DUM 處理能力,在入口網元MME/AMF/SBC 上部署前端精準流控策略,攔截核心網各域內已無法處理的增量業(yè)務請求,使經入口網元放通的注冊請求均能有效處理,百分百利用后端網絡資源,有序消化信令沖擊。運營商現網網絡架構復雜,為在前端網元部署精準流控,需制定以下4個流控模型:前后端信令放大效應模型、后端網元能力分攤模型、前端網元精準流控模型和DRA精準流控模型。
運營商各本地網需根據EPC/5GC/IMS 網絡信令流程和網絡功能開啟情況制定適用于本地網的前后端信令放大效應模型和后端網元能力分攤模型;進而根據本地網業(yè)務量、組網架構、網元處理能力、放大效應模型和后端網元能力分攤模型推導出前端網元精準流控模型。
針對不同的流控場景,可將前端網元精準流控模型細分為常規(guī)部署模型和應急處置模型,其中常規(guī)部署模型兼顧常規(guī)故障場景下的流控能力和用戶上線能力;應急處置模型適用于在無法有效平抑信令沖擊時應急開啟。同時,為避免常規(guī)部署模型在極端場景下引發(fā)HSS/UDM 過載,另部署DRA 精準流控模型為HSS/UDM 提供入向流控保護。前端精準流控模型示意如圖3所示。
圖3 前端精準流控模型示意
4G 附著、5G 注冊、IMS 初始注冊因運營商各本地網絡的個性化部署策略,對后端HSS/UDM 網元的消息放大效應呈現顯著差異,如VoLTE AS 或HSS 未開啟集合下載時,HSS 的diameter 消息放大效應翻倍。因此,需充分評估本地網絡各類典型策略部署情況,制定前后端信令放大效應模型,模型樣例如表1所示。
表1 前后端信令放大效應模型
因4G 附著、5G 注冊、IMS 初始注冊對后端消息的放大效應不同,3 類場景對HSS/UDM 的資源消耗存在較大差異。另外,云化UDM 存在2 種組網架構:UDM的EPC 和IMS 信令處理單元共用虛機,5GC 信令處理單元占用獨立虛機;UDM的EPC信令、IMS信令和5GC信令處理單元共用虛機。綜合3類業(yè)務場景的信令放大模型及HSS、UDM 的組網架構,制定后端網元能力分攤模型如表2所示。
表2 后端網元能力分攤模型
網元容災倒換、網絡故障恢復等場景導致大量4G、5G 用戶同時向核心網發(fā)起初始注冊形成注冊浪涌,注冊浪涌對不同網元的沖擊規(guī)模與故障場景、4G和5G 用戶的規(guī)模和比例密切相關。運營商現網中常見的承載網故障后恢復、資源池故障后恢復、單DC 故障容災倒換等容易引發(fā)信令沖擊場景,發(fā)起注冊的用戶通常分布在省內多臺UDM、HSS 設備上,為保障此場景下后端網元不發(fā)生過載且保障掉線用戶可以迅速登網恢復業(yè)務,制定了常規(guī)部署的前端網元精準流控模型。常規(guī)部署的精準流程模型要點如下:
a)根據HSS、UDM 網元的活動用戶占比情況,推導出大量終端同時登網場景下,后端網元的上線能力最短板。
b)根據前后端消息放大效應模型,分別推導出前端網元MME、AMF、SBC的總上線能力。
c)以VoLTE 滲透率較高時,4G 和5G 附著成功后均發(fā)起IMS 初始注冊為原則(EPC 上線能力+5GC 上線能力≤IMS 上線能力,否則將導致IMS 注冊失?。?,根據SBC 的上線能力與4G/5G 用戶的比例,進一步校準EPC、5GC的總流控閾值。
根據以上原則,定義相關參數并制定常規(guī)部署的前端網元精準流控模型如表3、表4所示。
表3 定義模型相關參數
表4 前端網元精準流控模型——常規(guī)部署
極端故障場景下,常規(guī)部署的綜合考慮削減信令沖擊和用戶上線速率的精準流控方案已無法有效平抑信令沖擊并保護后端網元,需針對不同的故障場景制定應急部署的精準流程模型,在網元出現擁塞時及時手動開啟。應急部署的精準流程模型要點如下:
a)提前評估各類故障場景對應的后端網元處理能力最短板,以及相應場景下前端網元的臺套數。
b)根據前后端消息放大效應模型,推導出各類應急場景下,前端網元MME、AMF、SBC 的流控閾值。在故障發(fā)生時結合故障場景和流控效果應急開啟。
根據以上原則,制定應急部署的前端網元精準流控模型樣例如表5 所示,現網部署時需結合故障場景提前制定多套應急部署流控模型。
表5 前端網元精準流控模型——應急部署
因常規(guī)部署的精準流控模型在特殊故障場景下仍存在引發(fā)后端HSS/UDM 過載的風險,因此需在DRA上針對本地網內所有HSS、UDM 本局處理能力分局向部署流控策略。每個局向分接口的流控參數根據后端網元能力分攤模型推導確定,即:S6a 口流控閾值=A(N)×X1,Cx/Sh口流控閾值=A(N)×X2。
DRA 精準流控可保障在極端故障場景下,超過HSS、UDM 處理能力的信令沖擊提前在DRA 側攔截,避免在應急處置精準流控參數配置前即發(fā)生HSS、UDM網元過載。
前端精準流控的部署保障了大量終端同時發(fā)起EPC/5GC/IMS 初始注冊時,后端網元可全量有效處理經前端網元放通的用戶請求。當故障發(fā)生時,除因容災等原因發(fā)起初始注冊的用戶外,仍存在大量未掉線用戶發(fā)起正常的重注冊、短消息、語音和數據業(yè)務。一旦未掉線用戶發(fā)起的業(yè)務請求因網元的流控機制被拒絕或丟棄,終端將根據自身失敗重試機制發(fā)起初始注冊用戶重新登網業(yè)務請求,進一步加大注冊信令沖擊。
為避免在線用戶業(yè)務失敗惡性循環(huán)引發(fā)網絡雪崩,需要在核心網各域網元中部署分級流控策略,對業(yè)務類型和信令消息類型區(qū)分優(yōu)先級隊列進行調度。分級流控模型如表6所示。配置模型原則為:
表6 分級流控模型
a)前端流控已放通的會話的后續(xù)中間消息高優(yōu)先級執(zhí)行,保障網絡資源不浪費。
b)網元間的心跳檢查消息最高優(yōu)先級放通,保障網元通信不中斷。
c)區(qū)分業(yè)務場景分級調度,放通重注冊/注冊更新保障老用戶不掉線;流控初始注冊,控制新用戶接入。
為驗證核心網前端精準流控和分級流控的效果,在實驗室搭建5GC 和IMS 網絡模擬環(huán)境,模擬20 萬5G SA 注冊用戶因網絡故障下線,在故障恢復后大量終端同時登網沖擊5GC、IMS、UDM 網元的場景。觀測在故障恢復后的1h內,UDM 收到的信令沖擊量變化情況(根據放大系數折算為caps)。
場景1:僅部署自保流控。在核心網未部署前端精準流控和分級流控,僅開啟設備自保流控的情況下,隨著大量下線終端登網,UDM 受到的信令沖擊量持續(xù)增加,直至觸發(fā)設備自保流控并丟棄無法處理的信令。因單用戶的5GC 注冊和IMS 注冊會放大為25對與UDM 交互的信令,部分中間消息被丟棄導致用戶注冊失敗重試。UDM 的自保流控無法有效消化注冊浪涌沖擊,導致網元持續(xù)過載,故障恢復1h后用戶仍無法登網注冊。
場景2:部署前端精準流控。在核心網AMF/SBC根據前端精準流控模型部署流控策略情況下,故障恢復后,大量終端同時發(fā)起注冊請求,當注冊請求達到AMF/SBC 網元配置的精準流控門限值后,AMF/SBC 對超過閾值的注冊請求直接回復失敗響應,不再占用后端UDM 網元的處理資源,UDM 可有效處理被AMF/SBC 放通的用戶注冊信令,用戶在15min內完成登網注冊,未發(fā)生網元過載問題。在12min后,少部分被AMF/SBC 流控的終端根據重試定時器再次發(fā)起注冊并成功登網,全量用戶業(yè)務恢復。
場景3:同時部署前端精準流控和分級流控。當核心網網元部署前端精準流控但未部署分級流控情況下,AMF/SBC 放通了注冊的首消息,但后續(xù)鑒權、響應等消息同樣存在被流控的風險,導致已被放通注冊首消息的用戶登網失敗。在部署分級流控場景下,可保障被放通注冊首消息的用戶的后續(xù)請求和響應均能被有效處理;同時放通刷新注冊、呼叫等高優(yōu)先級業(yè)務,保障在線用戶不因網元流控而掉線。根據實驗室模擬分析,部署分級流控可更有效提升用戶的上線速率,用戶在5~10min內即基本完成登網注冊,因流控而延時重試的終端數量明顯減少,保障故障發(fā)生后全部用戶業(yè)務迅速恢復。
網元通過部署前端精準流控和分級流控完成對超出網絡處理能力的終端接入請求限流,因限流導致業(yè)務請求失敗的終端頻繁登網重試將加劇對網絡資源的消耗。核心網需根據終端在過載流控場景的業(yè)務特點和行為部署針對性的解決方案,解決方案包括對于被流控終端重試機制的引導和對于不遵守網絡側引導機制的終端的異常行為管控。
a)EPC/5GC 終端重試引導方案:3GPP TS 24.301、3GPP TS 24.501 分別定義了MME 和AMF 針對終端注冊場景,網絡側通過回復拒絕消息(原因值#22 Congestion)并攜帶Backoff Timer信元實現EPC/5GC流控的功能。該信元指示請求消息重復嘗試的延遲時長,使終端延遲并離散接入,減輕終端頻繁注冊對網絡側的資源消耗。
b)IMS 終端重試引導方案:3GPP TS 24.229 定義了IMS 可通過回復500/503 等失敗響應碼并攜帶Retry-After 頭域拒絕終端的注冊請求,入口網元通過攔截響應通知終端根據網絡側指示在離散時間重試,消減注冊失敗用戶頻繁重試對網元的信令沖擊。
現網中部分終端收到網絡側下發(fā)的重試引導響應時,存在不遵循Backoff Timer 和Retry-After 時長要求并反復嘗試登網情況,終端的無序注冊行為使得終端重試機制引導方案難以取得預期效果。需針對不規(guī)范終端行為部署異常終端管控方案,以作為重試引導方案的有效補充。
a)EPC/5GC 異常終端行為管控方案:MME/AMF部署信令控制功能,MME/AMF 基于短時間內用戶附著/注冊、PDN 連接/PDU 會話建立、業(yè)務請求等消息的頻次實施統(tǒng)計測量,當終端業(yè)務請求頻次超出閾值即被判定為異常用戶,在短時間內限制該終端登網。
b)IMS 異常終端行為管控方案:SBC 部署黑名單管控功能,SBC將頻繁注冊用戶、異常高頻呼叫用戶臨時加入黑名單,丟棄該用戶發(fā)送的所有報文,削減高頻業(yè)務請求對網絡的信令沖擊。
當極端故障場景下,核心網流控手段已無法在短時間內平抑終端大量業(yè)務請求引發(fā)的信令沖擊。此時,核心網網元需要通知基站側實施自動限流,減少發(fā)往核心網的信令消息量。
需在AMF/MME 網元部署過載通知基站限流功能,功能開啟后,MME/AMF 網元出現過載時,向4G 和5G 基站發(fā)送Overload Start 消息,通知基站按比例拒絕終端新建連接,使得終端注冊請求終結在無線側,不再額外消耗核心網資源。當MME/AMF 網元狀態(tài)恢復正常后,向基站發(fā)送Overload Stop 消息,通知基站允許終端重新接入網絡。
網絡演進帶來的組網架構和業(yè)務模型的頻繁調整為流控策略的部署帶來了挑戰(zhàn)。核心網端到端流控方案有助于指導運營商建立完整的核心網信令風暴防護體系,即應用前端精準流控模型隨網絡演進更新流控參數,確保流控配置的及時性和準確性;應用分級流控、終端重試引導以及協同基站的終端管控方案,從多維度平抑注冊浪涌引發(fā)的信令沖擊,有效提升網絡信令風暴防護能力。