劉利鋒
(中興通訊南京研發(fā)中心,江蘇 南京 210012)
近年來,移動核心網(wǎng)發(fā)生了巨大變化。構(gòu)建開放、靈活、高效和低成本的云網(wǎng)絡(luò),以應(yīng)對未來爆炸性的移動數(shù)據(jù)流量增長、海量的終端連接和不斷涌現(xiàn)出來的各種新業(yè)務(wù)應(yīng)用,已經(jīng)成為電信運(yùn)營商的基本訴求。自2015年以來,已經(jīng)有越來越多的電信運(yùn)營商選擇基于NFV部署云化核心網(wǎng)。
網(wǎng)絡(luò)功能虛擬化[1](Network Function Virtualization,NFV)的概念是由ETSI提出的,目的是通過IT虛擬化技術(shù),利用標(biāo)準(zhǔn)化的通用IT設(shè)備實(shí)現(xiàn)各種網(wǎng)絡(luò)設(shè)備的功能,以打破傳統(tǒng)電信設(shè)備的豎井式體系。ETSI給出的NFV架構(gòu)[2]如圖1所示。
NFV架構(gòu)可以分為3個主要部分。
(1)NFV基礎(chǔ)設(shè)施
NFV基礎(chǔ)設(shè)施(Network Function Virtualization Infrastructure,NFVI)包括物理資源、虛擬化層及其上的虛擬資源,其中物理資源又包含計(jì)算、存儲和網(wǎng)絡(luò)3部分硬件資源,是承擔(dān)計(jì)算、存儲和內(nèi)外部互連互通任務(wù)的設(shè)備。
圖1 NFV網(wǎng)絡(luò)架構(gòu)
(2)虛擬網(wǎng)元
虛擬網(wǎng)元(Virtualized Network Function,VNF)是傳統(tǒng)網(wǎng)絡(luò)功能的虛擬化實(shí)現(xiàn),主要負(fù)責(zé)提供真實(shí)的網(wǎng)絡(luò)環(huán)境,如IMS、EPC、UDC等。
(3)MANO
MANO負(fù)責(zé)管理整體系統(tǒng),由NFVO(NFV Orchestrator)、VNFM(VNF manager)與VIM組成(Virtual Infrastructure Manager)。其中,NFVO負(fù)責(zé)網(wǎng)絡(luò)服務(wù)生命周期管理;VNFM負(fù)責(zé)VNF的資源及生命周期管理,如網(wǎng)元的實(shí)例化、擴(kuò)容與縮容等功能;VIM負(fù)責(zé)整個基礎(chǔ)設(shè)施層資源(包括硬件資源和虛擬資源)的管理和監(jiān)控。
NFV對傳統(tǒng)網(wǎng)元的軟硬件進(jìn)行了解耦,將不同類型、不同廠家的網(wǎng)元軟件運(yùn)行在統(tǒng)一的虛擬化集成設(shè)施上,弱化了軟硬件之間的耦合關(guān)系。但是,由于NFV采用軟硬件解耦、自上而下、分層管理的架構(gòu),勢必會引入新的故障模式。因此,如何提高系統(tǒng)的可靠性,為電信行業(yè)提供99.999%的電信服務(wù),將是NFV面臨的挑戰(zhàn)。本文將重點(diǎn)關(guān)注移動核心網(wǎng)引入NFV后如何構(gòu)建高可靠性網(wǎng)絡(luò),提供“5個9”的業(yè)務(wù)可靠性。
虛擬化是業(yè)界公認(rèn)的比較先進(jìn)的技術(shù),目前已經(jīng)廣泛應(yīng)用于IT領(lǐng)域。然而,在電信領(lǐng)域,NFV還沒有廣泛部署,主要原因是電信領(lǐng)域所需要的業(yè)務(wù)連續(xù)性要求相比于IT領(lǐng)域更高。IT領(lǐng)域持續(xù)數(shù)秒的業(yè)務(wù)故障通常是可以忍受的,用戶可以通過重試方式重新獲得服務(wù)。而電信領(lǐng)域?qū)I(yè)務(wù)連續(xù)性故障的容忍度通常是毫秒級的,不被終端用戶所感知??梢?,電信領(lǐng)域?qū)ο到y(tǒng)可靠性要求更高。
可靠性[3]是系統(tǒng)在一定時間內(nèi)無故障執(zhí)行指定功能的能力,定義為:
t為觀測的時間間隔,MTBF(Mean Time Between Failure)為平均故障間隔時間。
系統(tǒng)可用性[4]是指系統(tǒng)不中斷運(yùn)行時間占實(shí)際運(yùn)行時間的比例,即:
其中MTTR(Mean Time to Restoration)為平均故障恢復(fù)時間。由此可見,系統(tǒng)可靠性僅與MTBF有關(guān),系統(tǒng)可用性則與MTBF和MTTR有關(guān)。電信級設(shè)備要求“5個9”的服務(wù)能力,意味著一年的業(yè)務(wù)中斷時間不超過315 s,落實(shí)到系統(tǒng)上即可用性。
引入NFV以后,VNF的可靠性由單一的軟硬件系統(tǒng)變?yōu)榛谕ㄓ糜布?、分層解耦、多個網(wǎng)元共享的硬件平臺。虛擬化后,系統(tǒng)由硬件層、虛擬層和應(yīng)用層等組成,每一層都可能帶來新的故障點(diǎn)。虛擬化系統(tǒng)的可靠性是物理資源層、虛擬化層和網(wǎng)元功能層串聯(lián)組合后的結(jié)果[5],如圖2所示。
圖2 NFV可用性模型架構(gòu)
因此,基于NFV的系統(tǒng),其可用性為:
可見,要提高系統(tǒng)的可用性,關(guān)鍵是提高M(jìn)TBF,同時縮短MTTR,包括縮短故障檢測時間和修復(fù)時間等。
基于分析可以得出,提高電信網(wǎng)絡(luò)可用性的方法主要有:(1)提高M(jìn)TBF,提高系統(tǒng)的容錯能力,保障系統(tǒng)長時間穩(wěn)定運(yùn)行;(2)降低MTRR,快速發(fā)現(xiàn)故障和秒級故障恢復(fù)能力;(3)采用冗余配置,提高系統(tǒng)可用性,形成高可用性系統(tǒng)。
因此,構(gòu)建高可靠的虛擬化核心網(wǎng)絡(luò),可以從以下4個方面考慮:(1)提高NFVI的可靠性;(2)快速的故障檢測;(3)快速故障恢復(fù)能力;(4)完善的容災(zāi)備份機(jī)制。
引入NFV后,穩(wěn)定可靠的NFVI是構(gòu)建高可靠核心網(wǎng)的基礎(chǔ)。在硬件資源層面,利用冗余資源構(gòu)建高可靠的物理資源池,以達(dá)到高可靠性目標(biāo)。同時,在傳統(tǒng)網(wǎng)絡(luò)中使用的可靠性機(jī)制同樣適用于NFV架構(gòu),如服務(wù)器雙網(wǎng)卡、存儲多路徑等方式,以防止單點(diǎn)故障。在數(shù)據(jù)冗余方面,可以考慮RAID技術(shù),實(shí)現(xiàn)數(shù)據(jù)的冗余可靠,或者采用分布數(shù)存儲ceph,提供數(shù)據(jù)的1+N多副本。
在Hypervisor層,基于NFV特性,采用互斥部署方案。同類型的VM按照反親和互斥原則,部署在不同一個物理機(jī)上,以防單臺物理機(jī)故障觸發(fā)的單點(diǎn)故障。
在虛擬化場景中,硬件可用性不是NFVI的最關(guān)鍵部分,硬件通常被視為資源池。如果其中一些組件不可用,VNF會從資源池中重新選擇不同的硬件資源。因此,采用冗余架構(gòu),構(gòu)建高可靠性的資源池,是提升系統(tǒng)可靠性的主要手段。
快速的確定故障根源,是有效降低MTRR的重要環(huán)節(jié)。虛擬化的軟硬件解耦,無法如傳統(tǒng)設(shè)備快速定位某個節(jié)點(diǎn)故障。因此,需要從分層的故障檢測和跨層故障聯(lián)動兩個方面進(jìn)行考慮。
2.2.1 硬件層檢測
NFV場景下,硬件故障可能會導(dǎo)致業(yè)務(wù)和虛擬基礎(chǔ)設(shè)施故障,因此需要硬件資源的N+M冗余架構(gòu)。硬件層設(shè)備通過IPMI、SNMP等方式上報(bào)KPI、告警等給VIM,以監(jiān)控本機(jī)狀態(tài)。根據(jù)ETSI給出的故障檢測要求,硬件關(guān)鍵故障需要在1 s內(nèi)完成上報(bào)。
2.2.2 虛擬化層檢測
虛擬層為虛機(jī)提供看門狗(WatchDog)功能。當(dāng)創(chuàng)建虛機(jī)時,系統(tǒng)自動為該虛機(jī)模擬一個看門狗PCI設(shè)備。當(dāng)虛機(jī)啟動后,開門狗也將啟動,虛機(jī)定期喂狗。當(dāng)物理機(jī)檢測到虛機(jī)沒有定期喂狗時,物理機(jī)重啟虛機(jī),使虛機(jī)恢復(fù)正常。
2.2.3 應(yīng)用層檢測
VNFC是部署在VM上的應(yīng)用軟件組件,可以看做是應(yīng)用軟件的最小單元,由VNFM進(jìn)行生命周期管理。對應(yīng)用層VNFC,一般采用VNFM檢測、心跳檢測、負(fù)載均衡組件(LB)檢測和VNFM等方式檢測VNFC的狀態(tài)。
2.2.4 跨層故障關(guān)聯(lián)聯(lián)動
虛擬化采用分層管理的架構(gòu),一個故障點(diǎn)可能會觸發(fā)多層的故障告警,如服務(wù)器上的硬盤壞,會同時引起VIM層的告警和操作系統(tǒng)層面的告警,也會引起業(yè)務(wù)層的告警。因此,單靠一層很難進(jìn)行故障定位。此外,這些告警由不同層面采集和監(jiān)控,如VNF-EMS、VNFM或者NFVO等,因此需要對告警信息進(jìn)行關(guān)聯(lián)分析,以迅速定位故障根源[6]。
NFV故障管理中采用“逐層關(guān)聯(lián)、分類管理”的原則。MANO(包括VIM、VNFM、NFVO)主要負(fù)責(zé)資源域的告警監(jiān)控與處理,VNF-EMS-OSS主要負(fù)責(zé)業(yè)務(wù)域的告警采集與處理。當(dāng)業(yè)務(wù)域告警和資源域告警需要關(guān)聯(lián)時,可以考慮采用NFVO負(fù)責(zé)業(yè)務(wù)和資源故障關(guān)聯(lián)的方式,如圖3所示。通過擴(kuò)展NFVO功能,統(tǒng)一進(jìn)行NFV網(wǎng)絡(luò)編排、資源調(diào)度及運(yùn)維,以提高NFV網(wǎng)絡(luò)告警處理效率,同時基于MANO進(jìn)行統(tǒng)一的網(wǎng)絡(luò)運(yùn)維。
圖3 NFVO關(guān)聯(lián)業(yè)務(wù)和資源故障方案
保障業(yè)務(wù)連續(xù)性,實(shí)現(xiàn)業(yè)務(wù)“0”重點(diǎn),是故障恢復(fù)的首要目標(biāo),因此快速故障恢復(fù)尤為重要。傳統(tǒng)核心網(wǎng)網(wǎng)元如MME、SGSN等,業(yè)務(wù)處理邏輯和上下文數(shù)據(jù)是緊耦合的。網(wǎng)元業(yè)務(wù)VNFC需各自存儲和管理會話上下文、狀態(tài)等數(shù)據(jù),所以網(wǎng)元業(yè)務(wù)VNFC組件是有狀態(tài)的。為了在主節(jié)點(diǎn)故障時快速接管業(yè)務(wù),一般采用1+1主備的冗余方式,如圖4所示。但在這種架構(gòu)下,如果虛機(jī)所在刀片出現(xiàn)故障而需要在其他刀片上重生時,由于業(yè)務(wù)和數(shù)據(jù)耦合,因此業(yè)務(wù)VM需要同步進(jìn)行上下文數(shù)據(jù)的遷移。這個過程依賴于主備同步的效率數(shù)據(jù)量大小,備用節(jié)點(diǎn)恢復(fù)時間周期長,一般可能要幾分鐘,因此這個過程中的組件面臨無備份節(jié)點(diǎn)的風(fēng)險(xiǎn)。另外,如業(yè)務(wù)負(fù)荷增大,需要彈出新的業(yè)務(wù)VM處理業(yè)務(wù)時,業(yè)務(wù)彈縮需遷移數(shù)據(jù),彈縮周期長且難以實(shí)現(xiàn)無損體驗(yàn)。
圖4 1+1主備架構(gòu)
可行的替代方案是將業(yè)務(wù)處理邏輯單元和業(yè)務(wù)數(shù)據(jù)分開,以實(shí)現(xiàn)業(yè)務(wù)處理邏輯的無狀態(tài)。同時,引入統(tǒng)一數(shù)據(jù)庫層,存儲業(yè)務(wù)上下文數(shù)據(jù),如圖5所示。業(yè)務(wù)處理邏輯單元采用N+M負(fù)荷分擔(dān)的方式,此時可用性更高。單個VM/VNFC故障,其他VNFC可以平滑接管業(yè)務(wù)。另外,由于業(yè)務(wù)邏輯和業(yè)務(wù)數(shù)據(jù)分離,業(yè)務(wù)邏輯無狀態(tài),因此可以更快速地實(shí)現(xiàn)彈性伸縮、自愈和遷移等操作??s短故障自愈時間,提高系統(tǒng)可靠性。
圖5 N+M負(fù)荷分擔(dān)架構(gòu)
當(dāng)電信系統(tǒng)在遭受如火災(zāi)、水災(zāi)、地震等不可抗拒的自然災(zāi)難時,容災(zāi)系統(tǒng)將保證用戶數(shù)據(jù)的安全性,提供不間斷的電信業(yè)務(wù)。因此,跨數(shù)據(jù)中心的地理容災(zāi),也是提高電信網(wǎng)絡(luò)可靠性的必要手段。基于NFV的容災(zāi)備份,主要有Pool組網(wǎng)和跨DC部署兩個方案。
2.4.1 Pool容災(zāi)方案
傳統(tǒng)網(wǎng)絡(luò)的Pool容災(zāi)方案成熟度較高,在傳統(tǒng)設(shè)備中應(yīng)用廣泛。演進(jìn)到NFV后,VNF可以靈活配置在不同位置并組成VNF池用于異地容災(zāi)。VNF池采用N+M負(fù)荷均衡模式。如果某個VNF失效,該VNF上的負(fù)荷會重新分配到池中的其他VNF。NFV Pool容災(zāi)方案如圖6所示。
圖6 POOL容災(zāi)方案
2.4.2 VNF跨DC方案
除了傳統(tǒng)的Pool組網(wǎng)方案,VNF還可以采用跨DC部署的容災(zāi)方案,如VNF的多個VNFC分配到每個DC,如圖7所示。
圖7 VNF跨DC方案
這種組網(wǎng)方式,用戶會話上下文通過CDB(統(tǒng)一數(shù)據(jù)庫)組件在數(shù)據(jù)中心之間同步。如果某個數(shù)據(jù)中心故障,其他數(shù)據(jù)中心中的VNFC立刻接管故障數(shù)據(jù)中心上的業(yè)務(wù)。在故障數(shù)據(jù)中心到健康數(shù)據(jù)中心的切換過程中,保證業(yè)務(wù)的連續(xù)性。
為了保持VNFC之間的通信和跨數(shù)據(jù)中心的數(shù)據(jù)同步備份,需提供高網(wǎng)絡(luò)QoS和高可靠性。
NFV作為下一代網(wǎng)絡(luò)構(gòu)建的解決方案,其標(biāo)準(zhǔn)化已經(jīng)逐步成熟,目前多個運(yùn)營商已經(jīng)選擇NFV作為核心網(wǎng)部署。隨著5G的來臨,NFV將會加快部署的步伐。提高NFV網(wǎng)絡(luò)的可靠性,為電信業(yè)提供99.999%的服務(wù)保障,也是虛擬化廣泛部署的關(guān)鍵。本文結(jié)合NFV架構(gòu)的特性,從NFV的故障預(yù)防、故障檢測、故障迅速恢復(fù)和業(yè)務(wù)容災(zāi)等多個方面,基于NFV的電信網(wǎng)絡(luò)可靠性進(jìn)行探討,以期為運(yùn)營商部署安全可靠的NFV提供參考。