周 晶,王德政,洪 科(中興通訊股份有限公司,江蘇南京 210012)
2020年3月工信部發(fā)布《關(guān)于推動(dòng)5G加快發(fā)展的通知》,國家確定了加快建設(shè)5G網(wǎng)絡(luò)、發(fā)展5G 用戶和5G 業(yè)務(wù)的方針。5G 網(wǎng)絡(luò)的建設(shè)也是新基建重要組成部分。AI 人工智能技術(shù)這幾年得到大力發(fā)展,算法、應(yīng)用、芯片等技術(shù)水平不斷提高,投資出現(xiàn)快速增長。
5G+AI已經(jīng)成為數(shù)字化技術(shù)的關(guān)鍵環(huán)節(jié)。對(duì)于在5G 網(wǎng)絡(luò)中如何采用AI 人工智能技術(shù),運(yùn)營商和很多企業(yè)都在進(jìn)行嘗試和探索,特別是在網(wǎng)絡(luò)智能化運(yùn)維、效率提升、資源優(yōu)化、自動(dòng)化排障、性能預(yù)測等方面,以實(shí)現(xiàn)高效運(yùn)營管理。
a)網(wǎng)絡(luò)要求高:5G網(wǎng)絡(luò)在流量密度、連接數(shù)密度、時(shí)延等方面的要求均發(fā)生質(zhì)的變化,需滿足更寬的帶寬、更多的用戶容量、更快的上網(wǎng)速率、更高的頻譜效率等,未來通信網(wǎng)絡(luò)流量勢必爆炸式增長。5G 主要KPI提升要求如表1所示。
表1 5G主要KPI提升要求
b)業(yè)務(wù)多元化:5G 主要業(yè)務(wù)包括增強(qiáng)移動(dòng)寬帶(eMBB)、海量機(jī)器類通信(mMTC)、超高可靠低時(shí)延通信(uRLLC)、車載通信技術(shù)(C-V2X)等,這些新業(yè)務(wù)使視頻、AR、VR、直播、萬物互聯(lián)、車聯(lián)網(wǎng)等業(yè)務(wù)需求日益增長。
c)業(yè)務(wù)類型更加多樣化、網(wǎng)絡(luò)要求及組成越發(fā)復(fù)雜,同時(shí)網(wǎng)絡(luò)基于開放架構(gòu)、網(wǎng)絡(luò)功能虛擬化(NFV)、彈性、云化技術(shù),軟件硬件解耦,系統(tǒng)要求更加靈活,網(wǎng)絡(luò)運(yùn)維也變得更加困難。
5G 網(wǎng)絡(luò)業(yè)務(wù)類型的多樣化、網(wǎng)絡(luò)復(fù)雜性、NFV 的需求、云化的要求等等,會(huì)使運(yùn)營成本不斷攀升。
邊緣云移動(dòng)邊緣計(jì)算(MEC)和網(wǎng)絡(luò)切片的引入,使網(wǎng)絡(luò)也更加復(fù)雜,既有中心,也有邊緣;業(yè)務(wù)多樣化,用戶和業(yè)務(wù)還需要切片管理,使系統(tǒng)管理變得更加復(fù)雜。
5G 網(wǎng)絡(luò)時(shí)代,面對(duì)網(wǎng)絡(luò)的高質(zhì)量要求、業(yè)務(wù)多樣化要求以及既有中心又有邊緣的復(fù)雜網(wǎng)絡(luò),如何保障用戶服務(wù)等級(jí)協(xié)議(SLA)質(zhì)量,如何使網(wǎng)絡(luò)資源分配更加合理、運(yùn)維及定位問題更加高效,這些都是運(yùn)營商面臨的全新挑戰(zhàn)。
而3G、4G 傳統(tǒng)的運(yùn)維方式是以人工運(yùn)維管理方式為主,存在對(duì)運(yùn)維團(tuán)隊(duì)的人員需求量大和專業(yè)要求高,故障問題定位困難,數(shù)據(jù)收集零散、核心網(wǎng)、承載及無線運(yùn)維中心不統(tǒng)一等問題,缺乏端到端定位問題的手段。面對(duì)5G如此復(fù)雜的網(wǎng)絡(luò)和業(yè)務(wù),如何能節(jié)約運(yùn)維成本,如何使故障分析更加智能和快速、資源分配更加合理,這些都對(duì)運(yùn)營商提出了更多的挑戰(zhàn)。
采用5G+AI 可以逐漸實(shí)現(xiàn)網(wǎng)絡(luò)智能化運(yùn)維,幫助運(yùn)營商實(shí)現(xiàn)高效運(yùn)營管理。
AI 智能平臺(tái)可以提供網(wǎng)絡(luò)智能化應(yīng)用。AI 智能平臺(tái)架構(gòu)如圖1所示。
圖1 AI智能平臺(tái)架構(gòu)
AI 智能平臺(tái)分為3 層:數(shù)據(jù)采集層、AI 算法框架層、應(yīng)用層。
a)數(shù)據(jù)采集層:采用ETL(Extract-Transform-Load)、Loader、接口采集等采集各種數(shù)據(jù),例如數(shù)據(jù)庫、文本、日志數(shù)據(jù)等,可以包含結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)。
b)AI 算法框架層:支持多種主流算法框架,例如深度學(xué)習(xí)框架Tensorflow、Caffe,機(jī)器學(xué)習(xí)框架如Sklearn、Spark MLlib,提供模型設(shè)計(jì)、可視化、AI 在線訓(xùn)練、AI 離線訓(xùn)練、輕量化推理、模型市場、模型管理等功能模塊,同時(shí),可以將AI模型作為服務(wù)開放。
c)應(yīng)用層:系統(tǒng)具有豐富的預(yù)測模型,可以為無線、有線、核心網(wǎng)等提供AI 服務(wù),適用多種5G 網(wǎng)絡(luò)運(yùn)維的場景,例如容量預(yù)測、指紋定位、流量預(yù)測、告警根因分析、視頻分析、KPI 預(yù)警、意圖網(wǎng)絡(luò)、切片智能等。
AI 智能平臺(tái),實(shí)際是一個(gè)以大數(shù)據(jù)為中心的平臺(tái),支持跨云邊端多形態(tài)部署、云邊端協(xié)同機(jī)制,采集網(wǎng)絡(luò)運(yùn)行的各類數(shù)據(jù),融合、匯聚、分析、預(yù)測,為5G網(wǎng)絡(luò)提供人工智能的服務(wù)。
3.2.1 AI智能平臺(tái)包含以下主要功能模塊
a)分析挖掘:該模塊采用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)和強(qiáng)化學(xué)習(xí)技術(shù),用戶通過可視化建模界面,實(shí)現(xiàn)包含數(shù)據(jù)采集、模型設(shè)計(jì)、模型訓(xùn)練、模型管理、模型部署的功能。該模塊支持豐富的算法庫,例如Spark MLlib、Tensorflow、Sklearn或者自研算法。同時(shí),在邊緣端資源受限的情況下,可以支持輕量化推理引擎。
b)數(shù)據(jù)管理:該模塊為系統(tǒng)提供整體的管理能力,包含大規(guī)模多集群管理、配置、安裝部署、升級(jí)、多版本控制、智能巡檢、智能排障、系統(tǒng)資源監(jiān)控、日志管理等功能。同時(shí)系統(tǒng)支持從中心到邊緣的管理和部署。
c)計(jì)算存儲(chǔ):系統(tǒng)支持分布式計(jì)算存儲(chǔ),包含分布式存儲(chǔ)技術(shù)HDFS、HBase、Hive,支持分布式計(jì)算MR、Spark,實(shí)時(shí)流處理Storm、Flink、SparkStreaming,支持Solr、ES(Elasticsearch)搜索,以及交互式SQLSparkSQL。
d)安全管理:該模塊具有完整的安全管理框架,支持用戶權(quán)限管理,支持?jǐn)?shù)據(jù)加密保護(hù)、數(shù)據(jù)隱私保護(hù)、支持靜態(tài)脫敏和動(dòng)態(tài)脫敏,并且同時(shí)支持交互式、實(shí)時(shí)、離線數(shù)據(jù)的脫敏。系統(tǒng)具有完善的數(shù)據(jù)訪問安全能力,遵從通用數(shù)據(jù)保護(hù)條例(General Data Protection Regulation,GDPR)隱私數(shù)據(jù)的保護(hù)。
3.2.2 預(yù)測分析過程
5G 的運(yùn)維中心支持云化,大數(shù)據(jù)中心成為云中心,收集網(wǎng)絡(luò)運(yùn)維以及運(yùn)營的各類數(shù)據(jù),利用大數(shù)據(jù)進(jìn)行AI預(yù)測分析,為網(wǎng)絡(luò)運(yùn)行提供完善的服務(wù)。大數(shù)據(jù)中心支持海量數(shù)據(jù)的采集、海量數(shù)據(jù)的分布式存儲(chǔ)、異構(gòu)數(shù)據(jù)的融合管理、超大規(guī)模的集群管理能力、跨云邊端多形態(tài)部署的能力。利用大數(shù)據(jù)AI 預(yù)測分析如圖2所示。
圖2 利用大數(shù)據(jù)AI預(yù)測分析
3.3.1 超大集群管理技術(shù)
智能平臺(tái)采用AI及大數(shù)據(jù)技術(shù),支持超大規(guī)模集群能力和管理能力,支持6 000+超大規(guī)模集群管理的能力,系統(tǒng)支持分布式、彈性部署,支持云化K8S(Kubernetes)或物理機(jī)部署,部署靈活、方便。系統(tǒng)提供高性能、高可靠的大數(shù)據(jù)集群,支持高IO、高負(fù)荷、大數(shù)據(jù)量的大型集群,并支持集群快速部署/刪除/伸縮等特性。智能平臺(tái)支持云邊協(xié)同部署能力,支持邊緣節(jié)點(diǎn)的輕量化部署。系統(tǒng)支持資源配置、監(jiān)控、管理,可以監(jiān)控任務(wù)和租戶的資源使用,提供完善的日志管理以及大數(shù)據(jù)智能巡檢、智能排障等能力。
3.3.2 云邊協(xié)同技術(shù)
如圖3所示,智能平臺(tái)支持云邊協(xié)同技術(shù),將中心云到邊緣云協(xié)同運(yùn)作,中心云支持AI 算法中心、模型市場,邊緣云支持邊緣推理輕量化、服務(wù)開放等模塊,在中心云、大數(shù)據(jù)中心進(jìn)行訓(xùn)練,形成模型,發(fā)布到模型市場,邊緣端可以到中心云獲取輕量化模型引擎,為業(yè)務(wù)實(shí)現(xiàn)服務(wù),完成從中心云到邊緣云的云邊協(xié)同。
圖3 云邊協(xié)同架構(gòu)中應(yīng)用AI
3.3.3 硬件加速技術(shù)
系統(tǒng)采用高性能硬件,支持GPU 硬件加速技術(shù),采用較高的運(yùn)算能力提升AI 訓(xùn)練性能。平臺(tái)支持分布式多GPU 環(huán)境來并行執(zhí)行任務(wù),從而快速完成模型訓(xùn)練、評(píng)估和優(yōu)化等工作。系統(tǒng)具有資源自動(dòng)優(yōu)化方案,可以以數(shù)據(jù)并行、模型并行、混合并行等不同方式自動(dòng)執(zhí)行。
3.3.4 輕量化推理技術(shù)
智能平臺(tái)為支持網(wǎng)元的智能化,例如邊緣計(jì)算、基站、核心網(wǎng)網(wǎng)元等,提供了輕量化推理技術(shù),設(shè)計(jì)了輕量化智能引擎(Lite Smart Engine,LSE),旨在為網(wǎng)絡(luò)設(shè)備提供輕量級(jí)智能引擎。LSE 采用微服務(wù)方式,包含計(jì)算推理模塊、共享存儲(chǔ)模塊和服務(wù)接口模塊,其中計(jì)算推理模塊為系統(tǒng)提供算法推理能力,共享存儲(chǔ)模塊用于存儲(chǔ)輕量化推理算法,服務(wù)接口模塊為業(yè)務(wù)層提供統(tǒng)一的接口服務(wù)。LSE 通過這3 個(gè)模塊的配合提供在線推理能力。LSE模塊如圖4所示。
圖4 LSE模塊
3.3.5 租戶及數(shù)據(jù)安全技術(shù)
系統(tǒng)支持租戶管理及數(shù)據(jù)安全保障技術(shù),完善的用戶管理及數(shù)據(jù)訪問安全控制,保障用戶使用系統(tǒng)及數(shù)據(jù)的安全;同時(shí)系統(tǒng)支持大數(shù)據(jù)脫敏框架,采用分布式框架,遵從GDPR 隱私數(shù)據(jù)及數(shù)據(jù)脫敏標(biāo)準(zhǔn),具有較低的性能開銷;系統(tǒng)提供數(shù)據(jù)開放服務(wù)能力。
在5G 網(wǎng)絡(luò)的設(shè)計(jì)研發(fā)及實(shí)驗(yàn)中,應(yīng)用AI 技術(shù)提升5G 智能運(yùn)維的能力,例如在全域故障定位、資源智能調(diào)度、邊緣智能等方面均做了一些嘗試。下面分別就這些場景進(jìn)行描述。
a)全域故障定位將系統(tǒng)中多種類型的數(shù)據(jù)進(jìn)行采集,例如收集配置、告警、日志、性能KPI、系統(tǒng)資源、用戶感知異常、投訴、歷史運(yùn)行等各類信息。
b)統(tǒng)一的全域故障定位系統(tǒng)同時(shí)兼具預(yù)測模塊、智能分析模塊以及智能巡檢模塊:其中預(yù)測模塊提供系統(tǒng)容量超限、資源不足、節(jié)假日峰值等的預(yù)測,系統(tǒng)提供豐富的預(yù)測模型;智能分析模塊可以對(duì)網(wǎng)絡(luò)故障進(jìn)行分析,例如告警溯源分析、網(wǎng)絡(luò)故障根因分析、關(guān)聯(lián)分析;智能巡檢模塊支持一鍵式巡檢方式,系統(tǒng)可以通過運(yùn)維人員運(yùn)行一鍵收集功能,獲取系統(tǒng)設(shè)備實(shí)時(shí)運(yùn)行狀態(tài),提升運(yùn)維效率。
c)基于AI進(jìn)行智能故障診斷:系統(tǒng)通過采集數(shù)據(jù)并進(jìn)行大數(shù)據(jù)分析和AI分析完成故障診斷和定位,實(shí)現(xiàn)運(yùn)維智能化。
d)全域故障定位可以融合無線、承載、核心網(wǎng)通信系統(tǒng)中的多種數(shù)據(jù),采用分域及全域協(xié)同能力,進(jìn)行告警壓減、根因分析,并支持需要全域協(xié)同定位的情況,根據(jù)系統(tǒng)的告警、日志、資源等的協(xié)同分析,來精準(zhǔn)定位故障的原因,實(shí)現(xiàn)網(wǎng)絡(luò)智能化。
AI在全域故障定位中的應(yīng)用如圖5所示。
圖5 AI在全域故障定位中的應(yīng)用
5G 的網(wǎng)絡(luò)中基站更加密集,同時(shí)在網(wǎng)絡(luò)邊緣也會(huì)設(shè)置較多的邊緣節(jié)點(diǎn)MEC。無線資源以及MEC 之間存在資源共享調(diào)度的需求,這些情況下,可以考慮資源的智能調(diào)度。將資源的規(guī)劃、調(diào)度和流量監(jiān)測以及實(shí)際業(yè)務(wù)歷史的模型相互配合,實(shí)現(xiàn)動(dòng)態(tài)調(diào)整資源、合理共享資源、管理策略優(yōu)化。AI 在資源智能調(diào)度中的應(yīng)用如圖6所示。
圖6 資源智能調(diào)度中應(yīng)用AI
在邊緣側(cè)引入人工智能,實(shí)現(xiàn)MEC 的智能應(yīng)用。智能MEC 邊緣云不需要到中心云去處理,而是在邊緣云近用戶端/基站的位置,進(jìn)行業(yè)務(wù)處理,這樣可以更有效地減少業(yè)務(wù)時(shí)延、提升實(shí)時(shí)性響應(yīng),特別是在近用戶端進(jìn)行人工智能的賦能,例如邊緣側(cè)的視頻分析、人臉識(shí)別、安防、智慧調(diào)度等業(yè)務(wù),還有工業(yè)流水線產(chǎn)品的質(zhì)量檢測、遠(yuǎn)程醫(yī)療中的增強(qiáng)現(xiàn)實(shí)(Augmented Reality,AR)、虛擬現(xiàn)實(shí)技術(shù)(Virtual Reality,VR)、車聯(lián)網(wǎng)等智能化應(yīng)用,勢必會(huì)推進(jìn)5G 行業(yè)的應(yīng)用。
MEC 邊緣端支持輕量化AI 引擎,以適應(yīng)MEC 邊緣端資源受限的環(huán)境。輕量化AI 引擎也是輕量化推理引擎,為業(yè)務(wù)提供基于微服務(wù)的推理能力。
a)網(wǎng)絡(luò)數(shù)據(jù)分析功能(Network Data Analytics Function,NWDAF)融合AI 技術(shù)。NWDAF 是5G 核心網(wǎng)智能架構(gòu)新增加的功能,采集網(wǎng)絡(luò)功能、OAM 和應(yīng)用層的數(shù)據(jù),利用人工智能技術(shù)進(jìn)行分析。例如從接入和AMF(移動(dòng)管理功能)、SMF(會(huì)話管理功能)等采集運(yùn)行數(shù)據(jù)、性能數(shù)據(jù)、負(fù)載數(shù)據(jù)等,利用AI+大數(shù)據(jù)進(jìn)行分析預(yù)測,再將算法模型應(yīng)用到5G網(wǎng)絡(luò)中。
b)切片智能。在5G網(wǎng)絡(luò)切片系統(tǒng)中引入AI分析系統(tǒng),該系統(tǒng)以租戶需求數(shù)據(jù)、網(wǎng)絡(luò)切片運(yùn)行數(shù)據(jù)等為數(shù)據(jù)源,通過智能分析算法計(jì)算得出能夠匹配租戶業(yè)務(wù)需求的網(wǎng)絡(luò)能力,進(jìn)而動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)切片的服務(wù)能力。在切片智能系統(tǒng)中,通過NWDAF 和AI,獲取網(wǎng)絡(luò)切片的體驗(yàn)評(píng)估,進(jìn)行AI 分析之后,再進(jìn)行網(wǎng)絡(luò)切片的資源配置優(yōu)化等能力。
NWDAF、切片智能相關(guān)的標(biāo)準(zhǔn)仍在討論之中,也會(huì)隨著5G網(wǎng)絡(luò)的建設(shè)得以實(shí)踐、完善和應(yīng)用。
隨著5G 網(wǎng)絡(luò)的發(fā)展,在網(wǎng)絡(luò)智能運(yùn)維中應(yīng)用AI和大數(shù)據(jù)技術(shù)越來越成為可能。AI 智能平臺(tái)以大數(shù)據(jù)云中心為基礎(chǔ),采集海量數(shù)據(jù),并且具有超大規(guī)模的集群管理能力以及跨云邊端多形態(tài)部署、云邊協(xié)同技術(shù)、硬件加速技術(shù)、輕量化智能引擎、租戶及數(shù)據(jù)安全技術(shù)的能力,在5G網(wǎng)絡(luò)建設(shè)中為多種場景提供支撐服務(wù),例如全域故障定位、資源智能調(diào)度、邊緣智能、NWDAF、切片智能等多種場景。所以,在5G 時(shí)代,AI智能平臺(tái)勢必為5G的建設(shè)提供智能運(yùn)維的支撐,幫助運(yùn)營商和用戶實(shí)現(xiàn)更大的價(jià)值。