石 波,藺 偉,李春鐸,胥 昊
(中國鐵道科學研究院集團有限公司,北京 100081)
我國鐵路5G專網(wǎng)(5G-R)基于3GPP(第三代合作伙伴計劃)標準架構(gòu),按照將用戶層面的需求映射到裝備層面,通過增加鐵路特定功能相關設備,形成5G-R系統(tǒng)架構(gòu)[1]。5G-R系統(tǒng)包括核心網(wǎng)、無線接入網(wǎng)、用戶設備、應用接入管理設備和運營與支撐系統(tǒng)[2],承載行車指揮及控制、運營維護類業(yè)務;旅客服務、工程建造等業(yè)務采用公網(wǎng)5G進行承載[3]。
5G-R核心網(wǎng)的特點:(1)采用5GC(公網(wǎng)5G核心網(wǎng))通用架構(gòu),增加5G-IN(智能網(wǎng))、MC(寬帶集群通信)等專用設備以及DNS(域名服務器)、RADIUS(遠程驗證撥入用戶服務),通過應用接入管理設備與應用業(yè)務系統(tǒng)互聯(lián);(2)承載鐵路調(diào)度通信和列控、行車指揮、列車和鐵路沿線基礎設施監(jiān)測檢測等信息傳送業(yè)務,對實時性、可靠性、安全性要求高;(3)網(wǎng)絡架構(gòu)適應生產(chǎn)組織和維護管理體系,滿足列車高速運行條件下,跨局、跨線、跨區(qū)段正常通信功能,保持業(yè)務連續(xù)性;(4)采用NFV(網(wǎng)絡功能虛擬化)/SDN(軟件定義網(wǎng)絡)技術(shù),基于服務化架構(gòu)[4],網(wǎng)元和接口多,交互方式與傳統(tǒng)設備不同;(5)GSM-R與5G-R并存演進,需考慮系統(tǒng)之間互聯(lián)互通、業(yè)務無縫遷移、系統(tǒng)平滑過渡等。以上增加了5G-R系統(tǒng)核心網(wǎng)組網(wǎng)的特殊性、復雜性。
鐵路5G-R與公網(wǎng)5G在系統(tǒng)組成、業(yè)務功能、冗余組網(wǎng)、系統(tǒng)互操作性等方面存在差異。國際鐵路聯(lián)盟(UIC)目前初步確定將5G作為鐵路未來移動通信主體制式,計劃2023—2024年開展相關試驗[5],與其他國家相比,我國路網(wǎng)規(guī)模大,5G-R承載業(yè)務多、應用和組網(wǎng)相對復雜。因此,我國鐵路需結(jié)合實際開展相關研究,為標準制定、設備研發(fā)、業(yè)務應用、規(guī)劃建設提供支撐和參考。
5G-R系統(tǒng)構(gòu)成如圖1所示[6],核心網(wǎng)包括全路共用設備(5G-EIR、5G-IN、SMSC、一級DNS、一級NRF)和局核心網(wǎng)設備(5GC、MC設備、RADIUS、二級DNS、二級NRF)。
圖1 5G-R系統(tǒng)構(gòu)成示意
核心網(wǎng)具有注冊管理、移動管理、會話管理、業(yè)務控制與處理、用戶面管理、安全、邊緣計算、網(wǎng)絡切片、服務質(zhì)量(QoS)管理等功能。
5G-R核心網(wǎng)組網(wǎng)需求分析如下。
(1)建設需求:適應運輸生產(chǎn)組織架構(gòu)和維護管理需要,路局之間維護責任界面清晰,應急處置高效。減少設備影響范圍,維修影響其他局行車。此外,核心網(wǎng)組網(wǎng)應避免后建核心網(wǎng)節(jié)點接入既有網(wǎng)絡時,引起其他局核心網(wǎng)數(shù)據(jù)頻繁調(diào)整。
(2)業(yè)務需求:設備采用本地冗余部署、異地容災備份方式。當核心網(wǎng)任一網(wǎng)元/設備或任一DC(數(shù)據(jù)中心)或任一節(jié)點不可用時(如發(fā)生自然災害、停電等情況),系統(tǒng)能自動倒換,保證業(yè)務的安全性、可靠性、可用性和可維護性。
(3)運維需求:高鐵、普鐵線路維護方式和時間不同,高鐵維護天窗點在凌晨,普鐵根據(jù)情況要點實施維修。因此,核心網(wǎng)設備應冗余設置,當由于設備升級、擴容、處理故障時,高鐵、普鐵互不影響。此外,按照維規(guī)相關規(guī)定,核心網(wǎng)網(wǎng)元需按期進行主備單元倒換(如5 min/年)或軟件升級(參照以往平均2年1次),在此期間,為不影響業(yè)務,需要冗余部署核心網(wǎng)網(wǎng)元。
核心網(wǎng)規(guī)劃部署方案如圖2所示。
圖2 核心網(wǎng)規(guī)劃部署方案示意
根據(jù)需求,5G-R核心網(wǎng)按鐵路局為單位進行集中部署,部分設備按需全路集中部署。核心網(wǎng)共用設備采用本地冗余、異地容災備份的組網(wǎng)方式[7],鐵路局核心網(wǎng)設備采用冗余部署、同城異址災備份組網(wǎng)方式。根據(jù)需要,特殊情況下部分控制面(AMF、SMF)、用戶面網(wǎng)元(UPF)可適當下沉部署。在靠近業(yè)務側(cè)宜設置邊緣計算節(jié)點設備[8]。
故障檢測是容災備份進行自動倒換的判斷依據(jù)之一,可采用以下4種方式。
(1)方式1:訪問端配置主、備用對端設備IP地址。當訪問端發(fā)送業(yè)務處理請求,未收到對端的響應消息,通過多次重發(fā)請求消息,在設定的時間內(nèi)發(fā)送失敗或一直未收到響應消息,訪問端判斷對端故障,自動改為訪問備用的對端設備。
AMF訪問5G-EIR、GRIS訪問DNS、SMF訪問RADIUS[9]、MC訪問5G-IN均采用這種方式,訪問端重發(fā)次數(shù)和時間間隔,可根據(jù)需要配置。
(2)方式2:服務化NF(網(wǎng)絡功能)與NRF周期性交互心跳信息,NRF維護NF狀態(tài),并向相關NF發(fā)送該NF狀態(tài)通知。AMF、SMF、PCF(策略控制功能)、UDM(統(tǒng)一數(shù)據(jù)管理)/AUSF(認證服務器功能)、NSSF(網(wǎng)絡切片選擇功能)、SMSF(短消息服務功能)采用此方式[10]。NF上線后,自動向NRF注冊,NRF在注冊成功響應消息中,向NF發(fā)送檢測時長。此后,NF周期性向NRF發(fā)送心跳信息,NRF收到后,回復心跳響應消息[11]。
若在檢測時長內(nèi),NRF一直未收到某一NF心跳消息,則NRF判斷此NF故障,標識其狀態(tài)為“不可用”,下次不再選擇,并將此NF狀態(tài)消息發(fā)送給訂閱此NF狀態(tài)事件的其他NF。
當NF故障恢復后,NRF再將其設為“可用”,再向訂閱事件的相關NF發(fā)送狀態(tài)變更消息,下次業(yè)務有請求時,可繼續(xù)選擇該NF提供服務。
NF支持使用緩存選擇目的NF。源NF通過NRF選擇目的NF,并緩存NRF查詢信息。緩存有效期內(nèi),源NF可使用本地緩存信息選擇目的NF。當NRF故障,且NF本地緩存均失效時,源NF可使用本地配置選擇目的NF[12]。
(3)方式3:訪問端和對端之間發(fā)送點對點心跳消息,當在檢測時長內(nèi)未收到心跳消息,則判斷對端設備故障,轉(zhuǎn)為訪問備用對端設備。
對于服務化接口,采用方式2、方式3(通過緩存方式選擇目的NF情況下)。對于非服務化接口,如SMF和UPF之間的N4接口,按照3GPP規(guī)范,可通過NRF發(fā)現(xiàn)和選擇UPF,但目前各廠家暫不支持,現(xiàn)階段可采用方式3進行故障檢測[13]。
方式2和方式3檢測方式如表1所示[14]。
表1 基于周期性心跳的故障檢測方式
方式1、2、3的消息重發(fā)間隔、次數(shù)以及心跳周期、檢測時長和緩存時間可根據(jù)需要配置,具體應結(jié)合列控等應用業(yè)務需求,綜合考慮減少不必要的系統(tǒng)開銷等因素進行確定。
(4)方式4:通過信令網(wǎng)實現(xiàn)到主、備用對端設備的路由自動選擇。
例如,短消息MO(終端發(fā)起)業(yè)務路由UE→AMF→SMSF→SMSC。MT(終端結(jié)束)業(yè)務路由SMSC→SMSF→AMF→UE,SMSF與SMSC通過信令轉(zhuǎn)接設備(STP)連接,當主用SMSC故障,STP自動將短消息轉(zhuǎn)發(fā)給備用SMSC。再如,3GPP在R16中引入了SCP,當NF交互采用模式D時,SCP感知目的NF故障,自動將信令路由到備用目的NF。
網(wǎng)元容災備份方式比選如表2所示。
通過比選可見,AMF、SMF、UPF不存儲用戶數(shù)據(jù)(只存用戶會話上下文),可采用池組負荷分擔方式;冗余網(wǎng)元之間若需實時雙向數(shù)據(jù)同步(如UDM/AUSF),可采用1+1主備方式;其他網(wǎng)元(如NRF等),可采用1+1負荷分擔方式。
網(wǎng)元之間的故障檢測參數(shù)包括心跳周期、最大重傳次數(shù),根據(jù)需要可以配置。
以AMF和gNB(基站)之間N2口為例,該接口采用SCTP(流控制傳輸協(xié)議),故障檢測通過對SCTP偶聯(lián)狀態(tài)進行檢測,SCTP協(xié)議通過HEART BEAT和HEART BEAT ACK消息機制檢測對端狀態(tài)及維護SCTP偶聯(lián)狀態(tài)。當以配置間隔(心跳周期)發(fā)送HEART BEAT消息而未收到ACK的次數(shù)達到最大配置次數(shù)后,則判定故障。
AMF心跳間隔可配置,當在1個心跳間隔內(nèi),接口上無業(yè)務數(shù)據(jù)傳輸時,SCTP偶聯(lián)向?qū)Χ薎P地址發(fā)送心跳消息,以檢查遠端IP地址是否激活。
SCTP最大重傳次數(shù)可配置,當某個SCTP偶聯(lián)上連續(xù)重傳報文次數(shù)超過SCTP最大重傳次數(shù)時,將認為對端SCTP端點不可達。此時,本端將自動關閉該SCTP偶聯(lián),通知SCTP用戶層(如M3UA等)該SCTP偶聯(lián)不可用,并上報斷鏈告警。
綜上,當SCTP鏈路上有數(shù)據(jù)發(fā)送時,故障檢測最大時間為RTO(恢復時間目標)*SCTP最大重傳次數(shù),當無數(shù)據(jù)發(fā)送時,故障檢測最大時間為心跳間隔*SCTP最大重傳次數(shù)。
實際應用中,應結(jié)合5G-R承載的業(yè)務需要,例如,C3列控系統(tǒng)車地數(shù)據(jù)傳輸中斷20s[15]采取降級或降速措施,則故障檢測最大時間建議小于20s,網(wǎng)元相關參數(shù)值設置建議見表3。
5G-EIR、5G-IN、DNS、RADIUS、MC設備等采用本方案。以5G-IN為例,全路部署兩套5G-IN,采用本地冗余、異地容災備份組網(wǎng)方式,如圖3所示。5G-IN與局核心網(wǎng)MC設備通過承載網(wǎng)互聯(lián),數(shù)據(jù)鏈路冗余配置并由不同物理路由通道提供。
圖3 基于消息重發(fā)的1+1主備容災備份組網(wǎng)方案
異地5G-IN之間通過數(shù)據(jù)專線互連,傳送同步數(shù)據(jù),通道冗余設置,按需配置帶寬。異地5G-IN采用主備工作方式,MC設備配置主用5G-IN為首選,備用5G-IN為次選,主備選擇由MC設備實現(xiàn)。
正常情況下,MC向主用5G-IN發(fā)送功能尋址業(yè)務請求消息,由主用5G-IN向全網(wǎng)MC設備提供功能號碼翻譯服務,備用5G-IN熱備、不處理業(yè)務。
當主用5G-IN發(fā)生故障時,MC連續(xù)多次(如設為3次)訪問主用5G-IN無應答,超時后,MC自動訪問備用5G-IN,由備用5G-IN提供服務。
原主用5G-IN故障恢復后,通過人工方式恢復工作狀態(tài)。
AMF、SMF、UPF宜采用本方案組網(wǎng)。以SMF組網(wǎng)為例,組網(wǎng)如圖4所示。
圖4 基于心跳檢測的池組負荷分擔容災備份組網(wǎng)方案
SMF按鐵路局集團公司集中部署,采用同城異址容災備份組網(wǎng)方式,即在鐵路局集團公司同城異址設置雙DC,雙DC內(nèi)分別部署SMF,SMF與本局AMF、PCF、UDM等控制面NF和UPF、RADIUS等通過DC內(nèi)部和DC間承載網(wǎng)互聯(lián),與其他鐵路局SMF、UDM通過承載網(wǎng)互聯(lián)。
雙DC內(nèi)的SMF采用池組負荷分擔工作方式。所有業(yè)務由池組內(nèi)的SMF共同承擔,發(fā)起會話管理相關業(yè)務請求時,AMF宜優(yōu)選本址DC內(nèi)SMF提供服務,也可根據(jù)需要,按照負荷分擔的原則,選擇池組內(nèi)的一個SMF提供服務;SMF與NRF周期性交互心跳消息,心跳周期、次數(shù)、探測時長等根據(jù)需求分別設置。
當池組內(nèi)某個SMF發(fā)生故障時,NRF在檢測時長內(nèi)未收到SMF發(fā)送的心跳,則判斷SMF故障,NRF向訂閱SMF狀態(tài)變更的NF(NF服務交互為模式C)或SCP(NF服務交互為模式D)[12]發(fā)送SMF故障通知,對端NF或SCP收到消息后更新所存儲的SMF狀態(tài)信息[16];正在進行的業(yè)務,由AMF通知UE重新注冊,恢復業(yè)務;新發(fā)起的業(yè)務,由AMF或SCP自動選擇SMF池組內(nèi)其他可用的SMF提供服務。
SMF故障恢復后,避免自動倒回導致業(yè)務受損,采用有計劃的人工方式恢復工作狀態(tài)[17]。
需要說明的是:(1)SMF故障時,AMF通過NRF感知故障,通知UE去注冊,并在原因值中指示UE重新注冊[18];(2)UPF故障時,SMF感知后,釋放當前PDU會話[19],通知網(wǎng)絡相關實體(PCF、RADIUS、基站)釋放PDU會話資源,包括N3/N9、無線接入以及IP地址/前綴,并在原因值中指示UE重新建立PDU會話,恢復業(yè)務[20]?;就ㄟ^與UPF之間點對點心跳檢測機制感知UPF故障,超時后釋放資源,避免進程異常。
UDM/AUSF、PCF、NSSF、SMSF等網(wǎng)元采用本方案,以UDM/AUSF為例,UDM/AUSF按鐵路局部署,采用同城異地容災備份組網(wǎng)方式。在各鐵路局同城異設置雙DC,在雙DC內(nèi)分別部署UDM/AUSF,各DC內(nèi)的UDM/AUSF冗余配置,UDM/AUSF與本局AMF、SMF、SMSF、位置服務設備,其他局AMF、SMF互聯(lián),組網(wǎng)如圖5所示,雙DC內(nèi)的UDM/AUSF采用主備工作方式。
圖5 基于心跳檢測的1+1主備容災備份組網(wǎng)方案
異地冗余UDM/AUSF之間通過數(shù)據(jù)專線互聯(lián),通道冗余設置,用于靜態(tài)、動態(tài)數(shù)據(jù)(包括當前服務AMF、SMF等信息)同步以及心跳等數(shù)據(jù)傳送。數(shù)據(jù)通道的帶寬按需配置。
正常情況下,訪問端(如AMF、SMF)發(fā)送的請求由主用UDM/AUSF處理,備用UDM/AUSF熱備、不處理業(yè)務。
當主用UDM/AUSF發(fā)生故障時,NRF在檢測時長內(nèi)未收到UDM/AUSF發(fā)送的心跳信息,則判斷UDM/AUSF故障,檢測時長、心跳周期和次數(shù)根據(jù)需要設置。
NRF判斷UDM/AUSF故障后,向訂閱UDM/AUSF狀態(tài)變更的NF(NF服務交互為模式C)或SCP(NF服務交互為模式D)發(fā)送UDM/AUSF故障通知,對端NF或SCP收到消息后更新所存儲的UDM/AUSF狀態(tài)信息,由對端NF或SCP 自動選擇備用UDM/AUSF提供服務。
UDM/AUSF故障恢復后,避免自動倒回導致業(yè)務受損,采用有計劃的人工方式恢復工作狀態(tài)。
SMSF與SMSC之間信令交互采用此方案。SMSF與SMSC組網(wǎng)方式如圖6所示。
圖6 基于信令路由選擇1+1主備容災備份組網(wǎng)方案
正常情況下,SMSF之間信令消息由7號信令網(wǎng)IP STP負責轉(zhuǎn)發(fā),IP STP對GT碼進行翻譯,將消息轉(zhuǎn)發(fā)給主用SMSF或SMSC。
若主用SMSF或SMSC故障,7號信令網(wǎng)STP通過MTP3層檢測到主用SMSF不可達,自動將信令消息路由到備用SMSF或SMSC。AMF通過NRF檢測到SMSF故障,將業(yè)務自動選擇到備用SMSF。
根據(jù)研究編制的測試案例,對網(wǎng)元故障和網(wǎng)絡可靠性測試驗證,與預期方案一致。當網(wǎng)元故障時,系統(tǒng)能夠進行自動倒換,當前進行的業(yè)務可通過重建會話恢復業(yè)務,后續(xù)新發(fā)起業(yè)務不受影響。
網(wǎng)元故障倒換期間,故障網(wǎng)元無法提供服務。故障倒換時長與設置的網(wǎng)元故障檢測時長相關,故障倒換時長包括故障檢測、判斷時長和執(zhí)行倒換時長,其中故障檢測、判斷時間相對較長,執(zhí)行倒換的時間較短。網(wǎng)元的功能、作用、故障影響范圍不同,心跳周期、次數(shù)和檢測時長設置應有所不同,進而網(wǎng)元故障的倒換時間也不相同。
需要說明的是,各廠家核心網(wǎng)網(wǎng)元包括不同的功能模塊/單元,承載同一功能單元的虛擬機應冗余配置,且采用反親和部署方式,配置在不同的物理主機上,確保產(chǎn)品的可靠性。此外,目前國際標準未對網(wǎng)元容災備份方案及實現(xiàn)流程做具體規(guī)定[21],后續(xù)還需按照國鐵科技攻關計劃,進行環(huán)形道動態(tài)試驗、高速鐵路充分試驗驗證后,持續(xù)進行優(yōu)化完善。
5G-R是鐵路新一代移動通信系統(tǒng),基于虛擬化架構(gòu),采用IP技術(shù),網(wǎng)元軟件化、模塊化、微服務化,交互方式與傳統(tǒng)通信系統(tǒng)差異大。核心網(wǎng)是關鍵設備,服務范圍廣,承載列控、行車調(diào)度指揮等關鍵業(yè)務。統(tǒng)籌考慮上述各類業(yè)務需求,調(diào)研分析鐵路實際情況和5G-R技術(shù)特點,在此基礎上提出了5G-R核心網(wǎng)目標網(wǎng)的規(guī)劃方案。同時,基于鐵路業(yè)務高可靠性的需求,重點研究了設備之間故障檢測技術(shù),結(jié)合網(wǎng)元功能、作用和接口,提出并比選了3種容災備份方式及適用性。結(jié)合5G-R網(wǎng)絡規(guī)劃部署方案,研究提出了4種網(wǎng)元容災備份組網(wǎng)方案,通過研究試驗,驗證了故障場景下網(wǎng)元處理機制、倒換時間和對業(yè)務的影響,對設備關鍵參數(shù)的設置提出了建議值。
綜上所述,5G-R核心網(wǎng)容災備份組網(wǎng)方案的研究為設備研發(fā)、標準制定、規(guī)劃建設提供參考和技術(shù)支撐,隨著5G-R發(fā)展和應用,將來可進一步優(yōu)化組網(wǎng)和參數(shù)設置,從網(wǎng)元級、DC(數(shù)據(jù)中心)級、網(wǎng)絡級等各方面保證業(yè)務的安全性、可靠性、可用性、可維護性。