王 宏,王承松,酈蘇丹
(國防科技大學(xué)計算機(jī)學(xué)院,湖南 長沙 410073)
計算機(jī)網(wǎng)絡(luò)管理是計算機(jī)網(wǎng)絡(luò)3大經(jīng)典問題之一(路由、流量控制和網(wǎng)絡(luò)管理),近年來隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展[1],特別是數(shù)據(jù)中心、無線網(wǎng)絡(luò)和5G核心網(wǎng)增值服務(wù)需求,對網(wǎng)絡(luò)業(yè)務(wù)快速部署能力和網(wǎng)絡(luò)運(yùn)維能力提出了新的要求[2];運(yùn)營商垂直行業(yè)2B(Business to Business)關(guān)鍵業(yè)務(wù)對于網(wǎng)絡(luò)質(zhì)量保障、故障定位效率和網(wǎng)絡(luò)恢復(fù)時間要求更高,需要通過結(jié)合人工智能AI(Artificial Intelligence)技術(shù)的自動化運(yùn)維能力,提升故障定位效率,實現(xiàn)網(wǎng)絡(luò)自愈,滿足垂直行業(yè)的網(wǎng)絡(luò)質(zhì)量需求[3]。
網(wǎng)絡(luò)管理是從一個或幾個控制點對整個網(wǎng)絡(luò)和網(wǎng)絡(luò)活動進(jìn)行訪問和控制的過程,其目的是管理和維護(hù)網(wǎng)絡(luò)的良好運(yùn)行。國際標(biāo)準(zhǔn)化組織ISO(International Standardization Organization)定義了網(wǎng)絡(luò)管理的5個功能域:(1)故障管理:對網(wǎng)絡(luò)狀態(tài)的檢測與監(jiān)控,控制和阻止網(wǎng)絡(luò)異常行為;(2)配置管理:對網(wǎng)絡(luò)配置過程的集中管控;(3)安全管理:防止網(wǎng)絡(luò)設(shè)備、網(wǎng)絡(luò)協(xié)議軟件和網(wǎng)絡(luò)應(yīng)用軟件被非法使用;(4)性能管理:分析和優(yōu)化網(wǎng)絡(luò)性能;(5)計費管理:收集、分析與處理網(wǎng)絡(luò)用戶使用網(wǎng)絡(luò)資源的信息。
網(wǎng)絡(luò)管理一般采用管理者-代理模型,包括管理者、代理、管理信息庫和管理協(xié)議4個要素,網(wǎng)絡(luò)管理者向代理發(fā)送請求命令,也接收代理主動發(fā)來的信息;代理是被管理資源的代表,接收來自管理者的請求命令,并將執(zhí)行結(jié)果發(fā)回管理者,代理也將自身發(fā)生的事件主動報告給管理者。MIB(Management Information Base)由一個國際組織定義,MIB的結(jié)構(gòu)是一種從根開始的樹形結(jié)構(gòu),根據(jù)信息的分類構(gòu)造樹的分支,被管理信息處于分支的葉節(jié)點上。管理協(xié)議是管理者與代理之間交換信息的協(xié)議,不同的管理框架使用不同的管理協(xié)議。
本文首先分析了當(dāng)前網(wǎng)絡(luò)管理的新需求和面臨的新挑戰(zhàn),同時結(jié)合作者多年從事網(wǎng)絡(luò)管理技術(shù)研究和系統(tǒng)研制經(jīng)驗,對網(wǎng)絡(luò)管理系統(tǒng)所面臨的困境進(jìn)行了如實剖析,并針對這些困境提出了解決方案和對策,最后對網(wǎng)絡(luò)管理發(fā)展方向進(jìn)行了展望。
著名的網(wǎng)絡(luò)管理框架包括開放式系統(tǒng)互連OSI(Open System Interconnection) 網(wǎng)絡(luò)管理框架、IEEE網(wǎng)絡(luò)管理框架、TCP/IP網(wǎng)絡(luò)管理框架和國際電信聯(lián)盟電信標(biāo)準(zhǔn)分局ITU-T(International Telecommunication Union Telecommunication standardization sector)電信網(wǎng)管理框架。ISO/IEC7498-4定義了OSI網(wǎng)絡(luò)管理框架,ISO/IEC9596-1或CCITT X.711定義了通用管理信息協(xié)議CMIP(Common Management Information Protocol);IEEE 802.1b定義了局域網(wǎng)/城域網(wǎng)管理標(biāo)準(zhǔn);IETF的RFC1155/1212/1157定義了簡單網(wǎng)絡(luò)管理協(xié)議SNMP(Simple Network Management Protocol)v1,RFC1902~1907定義了SNMPv2,RFC2271~2275定義了SNMPv3;ITU-T的M.30/G.771/Q.513/E.415共同定義了電信管理網(wǎng)TMN(Telecommunications Management Network)框架。
近年來有許多學(xué)者針對互聯(lián)網(wǎng)體系結(jié)構(gòu)和網(wǎng)絡(luò)管理技術(shù)進(jìn)行了深入研究,Blumentthal等[4]提出了重新設(shè)計互聯(lián)網(wǎng)的思想。Fettweis[5]詳細(xì)分析了互聯(lián)網(wǎng)面臨的困境并提出了解決方案。McCauley等[6]分析了目前網(wǎng)絡(luò)結(jié)構(gòu)存在的缺陷,設(shè)計了一個全新的網(wǎng)絡(luò)體系結(jié)構(gòu)并進(jìn)行了綜合實驗,實驗表明新結(jié)構(gòu)更易于部署網(wǎng)絡(luò)功能虛擬化NFV(Network Function Virtualization)[7]和邊緣計算,其安全性和可擴(kuò)展性更好。Jain[8]針對Internet 3.0的體系結(jié)構(gòu),提出了控制平面與數(shù)據(jù)平面分離的思想。龔正虎等[9]分析了互聯(lián)網(wǎng)管理存在的問題。還有許多學(xué)者針對網(wǎng)絡(luò)擁塞控制[10]、網(wǎng)絡(luò)流量管理[11]和網(wǎng)絡(luò)態(tài)勢感知等技術(shù)展開了深入研究[12]。
目前常用網(wǎng)絡(luò)管理協(xié)議有SNMP協(xié)議、網(wǎng)絡(luò)配置協(xié)議NETCONF(NETwork CONFiguration protocol)和OpenFlow協(xié)議等。SNMP主要用于監(jiān)測網(wǎng)絡(luò)設(shè)備狀態(tài)和統(tǒng)計信息,信息描述模型使用SMI(Structure of Management Information),管理信息庫由MIB定義。NETCONF協(xié)議主要用于解決網(wǎng)絡(luò)配置問題,采用可擴(kuò)展標(biāo)記語言XML(eXtensive Markup Language)編碼方式,提供基于角色的訪問控制機(jī)制,限制操作者的權(quán)限。OpenFlow控制器通過指令消息來配置交換機(jī)參數(shù),并通過流表項設(shè)置來控制交換機(jī)上的數(shù)據(jù)轉(zhuǎn)發(fā)。
黨政部門信息系統(tǒng)、金融業(yè)務(wù)系統(tǒng)和企業(yè)商務(wù)系統(tǒng)要求網(wǎng)絡(luò)系統(tǒng)是高性能和安全可靠的,網(wǎng)絡(luò)管理是實現(xiàn)網(wǎng)絡(luò)高性能和安全可靠的有效手段。在技術(shù)飛速發(fā)展的今天,網(wǎng)絡(luò)管理又有了不同的需求,具體如下:
(1)業(yè)務(wù)快速部署能力的需求。
2018年以來,5G網(wǎng)絡(luò)建設(shè)進(jìn)入快車道,2019年6月,工業(yè)與信息化部正式發(fā)放5G商用牌照,標(biāo)志著我國正式進(jìn)入5G商用時代。截至2019年12月,我國已建成5G基站超過13萬個,已開展高清直播、遠(yuǎn)程手術(shù)和交通管理等領(lǐng)域的實踐[1]。
5G網(wǎng)絡(luò)具有高帶寬、低延遲等特點,核心網(wǎng)承擔(dān)全局資源的調(diào)度和管理,通過動態(tài)智能網(wǎng)絡(luò)切片讓每個行業(yè)的用戶都能在網(wǎng)上享有自己的專有通道,盡可能滿足用戶業(yè)務(wù)低時延需求,保證數(shù)據(jù)安全、網(wǎng)絡(luò)安全以及網(wǎng)絡(luò)的服務(wù)質(zhì)量。在5G時代,垂直行業(yè)2B業(yè)務(wù)變成了運(yùn)營商重點競爭的市場,對于工業(yè)互聯(lián)網(wǎng)、車聯(lián)網(wǎng)和智慧醫(yī)療等多樣化需求,運(yùn)營商通過切片技術(shù)提供虛擬網(wǎng)絡(luò),實現(xiàn)網(wǎng)絡(luò)質(zhì)量保障。新業(yè)務(wù)的快速部署能力將幫助運(yùn)營商在競爭中搶占先機(jī)[2]。
網(wǎng)絡(luò)功能虛擬化NFV提升了網(wǎng)絡(luò)業(yè)務(wù)快速部署能力[13],同時對現(xiàn)有的設(shè)備運(yùn)行、管理、維護(hù)和配置等提出了新的要求[14,15]。
(2)實現(xiàn)網(wǎng)絡(luò)服務(wù)質(zhì)量保證,提升網(wǎng)絡(luò)運(yùn)維能力的需求。
關(guān)鍵業(yè)務(wù)如港口、廠礦、自動駕駛汽車、遠(yuǎn)程醫(yī)療、工業(yè)自動化和多媒體等應(yīng)用,對于網(wǎng)絡(luò)質(zhì)量保障、故障定位效率和網(wǎng)絡(luò)恢復(fù)時間的要求更高。以工業(yè)自動化為例,控制報文延遲必須非常精確[16],否則可能帶來不可預(yù)測的后果。運(yùn)營商需要通過結(jié)合AI技術(shù)的自動化運(yùn)維能力,提升故障定位效率,實現(xiàn)網(wǎng)絡(luò)自愈,滿足垂直行業(yè)的網(wǎng)絡(luò)質(zhì)量需求。
當(dāng)前網(wǎng)絡(luò)采用“盡力而為”方式,出現(xiàn)網(wǎng)絡(luò)擁塞時,無論報文是否重要,無論是管理報文還是數(shù)據(jù)報文,無論是控制、語音、視頻或文本都有可能被丟棄,出現(xiàn)較大延遲,不能滿足服務(wù)質(zhì)量的要求。網(wǎng)絡(luò)配置復(fù)雜,管理效率低,許多配置需要依靠手動進(jìn)行,容易出現(xiàn)問題。許多配置策略相互矛盾,網(wǎng)絡(luò)態(tài)勢感知能力弱、時效差,難以及時有效地收集網(wǎng)絡(luò)狀態(tài),難以有效地發(fā)現(xiàn)和定位網(wǎng)絡(luò)異常,從而難以做出快速反應(yīng)。網(wǎng)絡(luò)設(shè)備功能升級和功能擴(kuò)展困難。網(wǎng)絡(luò)管理中迫切需要引入實體屬性和服務(wù)質(zhì)量保障機(jī)制,才能有效提高網(wǎng)絡(luò)對不同用戶不同應(yīng)用的分級分類服務(wù)質(zhì)量保障能力,有效提升網(wǎng)絡(luò)關(guān)鍵業(yè)務(wù)的支撐能力[4]。
(3)網(wǎng)絡(luò)安全管理的需求。
隨著Internet的應(yīng)用領(lǐng)域和應(yīng)用規(guī)模的快速增長,通過網(wǎng)絡(luò)傳播的計算機(jī)病毒種類越來越多,傳播速度更快,感染面積更廣,全球的信息安全受到了普遍且嚴(yán)重的威脅。安全問題己經(jīng)成為嚴(yán)重制約網(wǎng)絡(luò)發(fā)展特別是商業(yè)應(yīng)用的主要問題,并直接威脅著國家和社會的安全。防范大規(guī)模網(wǎng)絡(luò)攻擊,同時為信息攻擊對抗提供必要的網(wǎng)絡(luò)流量分析。在大范圍內(nèi)進(jìn)行網(wǎng)絡(luò)行為監(jiān)控,有可能發(fā)現(xiàn)網(wǎng)絡(luò)異常,為防范大規(guī)模網(wǎng)絡(luò)攻擊提供預(yù)警手段。
據(jù)中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計報告[1],中國網(wǎng)民規(guī)模大約9.04億,互聯(lián)網(wǎng)普及率達(dá)64.5%。網(wǎng)絡(luò)購物用戶規(guī)模大約7.10億,網(wǎng)上零售額達(dá)10.63萬億元。任何的網(wǎng)絡(luò)故障都可能導(dǎo)致巨大的經(jīng)濟(jì)損失,一項關(guān)鍵應(yīng)用即使只在短時間內(nèi)不可用或者運(yùn)行不正確,造成的損失也可能達(dá)到成百上千萬元。過去骨干網(wǎng)上的網(wǎng)絡(luò)故障可能只影響少部分人的工作生活,現(xiàn)在卻可能會影響成千上萬的企業(yè)以及數(shù)以億計的網(wǎng)絡(luò)用戶,造成巨大的經(jīng)濟(jì)損失。
網(wǎng)絡(luò)管理面臨的挑戰(zhàn)主要表現(xiàn)在:
(1)“邊緣論”“盡力服務(wù)(Best Effort)”與網(wǎng)絡(luò)運(yùn)維管理現(xiàn)狀帶來的挑戰(zhàn)。
互聯(lián)網(wǎng)遵循“邊緣”設(shè)計原則,其特征是網(wǎng)絡(luò)傳輸采用無連接分組交換,高層功能放置在網(wǎng)絡(luò)邊緣,按盡力服務(wù)原則向用戶提供服務(wù)。隨著互聯(lián)網(wǎng)網(wǎng)絡(luò)規(guī)模的飛速增長,用戶端接入帶寬越來越大,網(wǎng)絡(luò)擁塞經(jīng)常發(fā)生,服務(wù)提供商難以完成向用戶承諾的各項QoS(Quality of Service)保證。“盡力而為”的服務(wù)顯然不能滿足用戶對網(wǎng)絡(luò)有效帶寬、延遲和延遲抖動等QoS指標(biāo)的要求。
(2)網(wǎng)絡(luò)的高度復(fù)雜性給網(wǎng)絡(luò)管理帶來的挑戰(zhàn)。
隨著互聯(lián)網(wǎng)規(guī)模的指數(shù)級增長,其體系結(jié)構(gòu)演化成由各互聯(lián)網(wǎng)服務(wù)提供商分別運(yùn)營管理的分散的基于自治系統(tǒng)AS(Autonomous System)模式,互聯(lián)網(wǎng)成為一個高度異構(gòu)、開放的復(fù)雜巨系統(tǒng)。這就給網(wǎng)絡(luò)管理帶來了一系列的困難,對網(wǎng)絡(luò)行為的理解與建模分析明顯滯后于網(wǎng)絡(luò)基礎(chǔ)設(shè)施的建設(shè)與網(wǎng)絡(luò)應(yīng)用的發(fā)展。
(3)網(wǎng)絡(luò)功能虛擬化帶來的挑戰(zhàn)。
網(wǎng)絡(luò)功能虛擬化技術(shù)使得在同一物理網(wǎng)絡(luò)可創(chuàng)建不同的虛擬網(wǎng)絡(luò),不同的虛擬網(wǎng)絡(luò)可采用不同的網(wǎng)絡(luò)體系,網(wǎng)絡(luò)管理者可根據(jù)需要部署、運(yùn)行獨立的路由、傳輸控制等協(xié)議,提高網(wǎng)絡(luò)的可控性、安全性和服務(wù)質(zhì)量。這一技術(shù)在給網(wǎng)絡(luò)使用者帶來很大便利的同時也給網(wǎng)絡(luò)管理帶來了很大挑戰(zhàn),即如何實現(xiàn)虛擬網(wǎng)絡(luò)資源的統(tǒng)一管理和調(diào)度。在虛擬網(wǎng)絡(luò)中,物理網(wǎng)絡(luò)的帶寬和路由節(jié)點被多個虛擬網(wǎng)絡(luò)共享,為了保障各個虛擬網(wǎng)絡(luò)的服務(wù)質(zhì)量,物理網(wǎng)絡(luò)中的資源應(yīng)當(dāng)按照各個虛擬網(wǎng)絡(luò)的不同需求和物理網(wǎng)絡(luò)的實際工作狀態(tài)分配給各個虛擬網(wǎng)絡(luò)。因此,如何對虛擬網(wǎng)絡(luò)資源進(jìn)行有效的管理和調(diào)度,實時掌握各個虛擬網(wǎng)絡(luò)的運(yùn)行狀態(tài)和物理網(wǎng)絡(luò)中網(wǎng)絡(luò)資源的使用情況,確保虛擬網(wǎng)絡(luò)資源合理、高效地分配給各個虛擬網(wǎng)絡(luò),保證各個虛擬網(wǎng)絡(luò)能夠滿足應(yīng)用需求,同時盡可能減少對物理網(wǎng)絡(luò)資源的浪費。
網(wǎng)絡(luò)管理的終極目標(biāo)是優(yōu)化網(wǎng)絡(luò)資源配置,減少網(wǎng)絡(luò)故障時間,提高網(wǎng)絡(luò)資源使用效率。由于計算機(jī)網(wǎng)絡(luò)管理與數(shù)據(jù)處在同一平面,沒有獨立的管理平面,網(wǎng)絡(luò)設(shè)計又遵循“邊緣原則(End-to-End Argument)”,難以保證網(wǎng)絡(luò)QoS[4],由此帶來一系列管理困境[5]。
網(wǎng)絡(luò)組網(wǎng)需求快速變化,高層的網(wǎng)絡(luò)策略意圖無法快速部署。NFV、切片和微服務(wù)等技術(shù)的引入,使得網(wǎng)絡(luò)管理愈加復(fù)雜,管理對象增多,變更操作更加頻繁。運(yùn)營商每年平均有數(shù)百次~數(shù)千次變更操作,而70%網(wǎng)絡(luò)事故都是變更過程中人為操作失誤引入的,給運(yùn)營商帶來沉重的負(fù)擔(dān)。
網(wǎng)絡(luò)設(shè)備多,無法統(tǒng)一配置;傳統(tǒng)網(wǎng)絡(luò)部署方法網(wǎng)絡(luò)配置復(fù)雜,管理效率低,許多配置需要依靠手動進(jìn)行,配置容易出現(xiàn)問題,網(wǎng)絡(luò)管理人員需要多年網(wǎng)絡(luò)從業(yè)經(jīng)驗,培訓(xùn)半年以上。
只見樹木,不見森林。有海量的監(jiān)測數(shù)據(jù),卻難以獲得有效結(jié)果。網(wǎng)絡(luò)態(tài)勢感知能力弱、時效差,難以及時有效地收集網(wǎng)絡(luò)狀態(tài),難以有效地發(fā)現(xiàn)和定位網(wǎng)絡(luò)異常,從而難以做出快速反應(yīng)。網(wǎng)絡(luò)設(shè)備功能升級和功能擴(kuò)展困難。
面向用戶還是面向管理人員?傳統(tǒng)網(wǎng)絡(luò)管理是面向管理人員,網(wǎng)絡(luò)用戶無法知道網(wǎng)絡(luò)的運(yùn)行狀態(tài),用戶在使用網(wǎng)絡(luò)過程中感知到網(wǎng)絡(luò)速度慢,但他并不知道速度慢的具體原因到底是網(wǎng)絡(luò)鏈路出現(xiàn)了擁塞還是網(wǎng)絡(luò)應(yīng)用軟件耗時太多。
網(wǎng)絡(luò)狀態(tài)良好時網(wǎng)絡(luò)管理系統(tǒng)可用可看;網(wǎng)絡(luò)故障時網(wǎng)絡(luò)管理系統(tǒng)不能發(fā)揮作用,原因是網(wǎng)絡(luò)故障發(fā)生時,故障網(wǎng)絡(luò)通常已不可達(dá),而網(wǎng)絡(luò)不可達(dá)就無法獲得管理信息,所以網(wǎng)絡(luò)狀態(tài)不可知,而且也無法對網(wǎng)絡(luò)進(jìn)行必要的配置使網(wǎng)絡(luò)恢復(fù)正常,通常還需要網(wǎng)絡(luò)運(yùn)維人員到網(wǎng)絡(luò)故障現(xiàn)場進(jìn)行故障排除,才能使網(wǎng)絡(luò)恢復(fù)正常。當(dāng)網(wǎng)絡(luò)系統(tǒng)由于網(wǎng)絡(luò)資源競爭而“網(wǎng)速慢”時,大量的網(wǎng)絡(luò)管理報文將導(dǎo)致網(wǎng)絡(luò)“雪上加霜”。
從網(wǎng)絡(luò)管理系統(tǒng)上只能看到接口和鏈路的統(tǒng)計信息,看不到網(wǎng)絡(luò)流的信息,因而不能根據(jù)用戶和管理人員需求,分析網(wǎng)絡(luò)瓶頸、網(wǎng)絡(luò)流經(jīng)過路徑和點到點的延遲等信息。
近年來,大量新型異構(gòu)無線網(wǎng)絡(luò)(如移動自組網(wǎng)絡(luò)、無線傳感器網(wǎng)絡(luò)等)和豐富的接入手段(如Wi-Fi、無線局域網(wǎng)等)的出現(xiàn),給網(wǎng)絡(luò)管理帶來了新的挑戰(zhàn)。在網(wǎng)絡(luò)設(shè)計之初,并未考慮節(jié)點移動性的情況,使用與拓?fù)湮恢妹芮邢嚓P(guān)的 IP 地址同時作為節(jié)點的標(biāo)識和地址信息。當(dāng)節(jié)點移動時,IP 地址發(fā)生改變,導(dǎo)致節(jié)點標(biāo)識信息也隨之改變。正是由于節(jié)點缺少與拓?fù)湮恢脽o關(guān)的固定標(biāo)識,現(xiàn)有的網(wǎng)絡(luò)管理對無線網(wǎng)絡(luò)顯現(xiàn)出先天不足。
上述困境產(chǎn)生的原因有如下3個方面:
(1)沒有獨立的管理平面。
管理和數(shù)據(jù)在同一平面競爭資源,當(dāng)數(shù)據(jù)平面發(fā)生網(wǎng)絡(luò)故障時,管理報文同樣不可達(dá)。同時,由于互聯(lián)網(wǎng)設(shè)計之初遵循的“邊緣論”“盡力服務(wù)”原則,服務(wù)提供商難以完成向用戶承諾的有效帶寬、延遲和延遲抖動等QoS指標(biāo)要求。
(2)網(wǎng)絡(luò)運(yùn)維“依賴人”。
網(wǎng)絡(luò)管理系統(tǒng)試圖獲取各種原始數(shù)據(jù),而后由管理人員或?qū)<襾砼袛嗑W(wǎng)絡(luò)故障的具體原因。而事實上,海量原始數(shù)據(jù)讓管理人員無所適從,管理人員看到網(wǎng)絡(luò)設(shè)備的各種接口統(tǒng)計信息、轉(zhuǎn)發(fā)表和路由表,從中分析出網(wǎng)絡(luò)連接關(guān)系,而要分析出網(wǎng)絡(luò)故障和產(chǎn)生的原因,不但需要管理人員有足夠豐富的網(wǎng)絡(luò)運(yùn)維經(jīng)驗,還要有足夠多的時間,而這時網(wǎng)絡(luò)故障已經(jīng)給網(wǎng)絡(luò)運(yùn)行帶來了巨大損失。
(3)IP地址語義過載。
無線網(wǎng)絡(luò)管理的問題,主要由于節(jié)點的IP地址既是節(jié)點的標(biāo)識,同時又代表了節(jié)點的位置,當(dāng)節(jié)點移動時,由于改變了位置,所以IP地址隨之改變,而由于沒有其它的信息代表節(jié)點的標(biāo)識,導(dǎo)致網(wǎng)絡(luò)管理鞭長莫及。
為解決上述困境,唯有從設(shè)計理念上對網(wǎng)絡(luò)管理進(jìn)行革新,對于產(chǎn)生困境的原因(1),想從根本上修改互聯(lián)網(wǎng)的設(shè)計理念比較困難,而且代價巨大,唯有針對困境原因(2)進(jìn)行深入分析,擺脫網(wǎng)絡(luò)運(yùn)維“依賴人”的囧境,讓網(wǎng)管系統(tǒng)足夠“智能”,使網(wǎng)絡(luò)運(yùn)維實現(xiàn)“自主管理”,才是解決網(wǎng)絡(luò)管理困境的有效方法。對無線網(wǎng)絡(luò)管理的問題,需要解決IP地址語義過載的問題,這需要引入節(jié)點標(biāo)識和標(biāo)識通信問題,由于過于復(fù)雜,不在本文中討論。
要實現(xiàn)網(wǎng)絡(luò)自主管理,需要從網(wǎng)絡(luò)端用戶和網(wǎng)絡(luò)設(shè)備入手,再擴(kuò)展到全網(wǎng),最終實現(xiàn)全網(wǎng)絡(luò)的智能運(yùn)維。智能運(yùn)維的目標(biāo)是:針對任務(wù)需求,自動完成資源配置,智能完成網(wǎng)絡(luò)故障檢測與排除,提高網(wǎng)絡(luò)資源使用效率。
網(wǎng)絡(luò)自主管理依賴的主要手段是數(shù)據(jù)內(nèi)生和人工智能。數(shù)據(jù)內(nèi)生是指從系統(tǒng)本身產(chǎn)生的數(shù)據(jù),經(jīng)分析和歸納獲得的階段結(jié)果。數(shù)據(jù)內(nèi)生感知、匯聚全網(wǎng)的網(wǎng)絡(luò)狀態(tài)、業(yè)務(wù)流程和用戶行為,形成統(tǒng)一的網(wǎng)絡(luò)數(shù)據(jù)資產(chǎn),人工智能以內(nèi)生數(shù)據(jù)為基礎(chǔ),在現(xiàn)有網(wǎng)絡(luò)之外構(gòu)建獨立訓(xùn)練平臺,進(jìn)行自我訓(xùn)練和完善,輸出人工智能模型。同時,在核心網(wǎng)和邊緣網(wǎng)都建立獨立的人工智能引擎,針對本地內(nèi)生數(shù)據(jù)對模型進(jìn)行重訓(xùn)練、優(yōu)化和策略更新,實現(xiàn)網(wǎng)絡(luò)級閉環(huán)控制。
圖1 給出了網(wǎng)絡(luò)自主管理研究框架,主要包含網(wǎng)絡(luò)管理模型訓(xùn)練和智能分析方法研究,這其中又包含網(wǎng)元自主管理和網(wǎng)絡(luò)自主管理2類方法研究。網(wǎng)元自主管理包含網(wǎng)元數(shù)據(jù)內(nèi)生、網(wǎng)元自愈、網(wǎng)元自優(yōu)和高實時性確定性問題研究;網(wǎng)絡(luò)自主管理包含網(wǎng)絡(luò)數(shù)據(jù)內(nèi)生、網(wǎng)絡(luò)自愈、網(wǎng)絡(luò)自優(yōu)、全局資源優(yōu)化和低實時性非確定性問題。
Figure 1 Research framework of network self management圖1 網(wǎng)絡(luò)自主管理研究框架
網(wǎng)元和網(wǎng)絡(luò)數(shù)據(jù)內(nèi)生是實現(xiàn)網(wǎng)絡(luò)自主管理的基礎(chǔ),網(wǎng)元數(shù)據(jù)內(nèi)生要求感知、獲取網(wǎng)元和設(shè)備狀態(tài),為網(wǎng)元自愈和自優(yōu)提供數(shù)據(jù)支撐;網(wǎng)絡(luò)數(shù)據(jù)內(nèi)生要求感知、獲取、統(tǒng)一、匯聚和關(guān)聯(lián)網(wǎng)絡(luò)狀態(tài)、業(yè)務(wù)流程和用戶行為,形成共享、統(tǒng)一的網(wǎng)絡(luò)數(shù)據(jù)資產(chǎn),支撐AI模型訓(xùn)練和策略觸發(fā)。網(wǎng)元自愈和網(wǎng)元自優(yōu)以網(wǎng)元數(shù)據(jù)內(nèi)生為基礎(chǔ),實現(xiàn)網(wǎng)元設(shè)備故障自我恢復(fù)和性能調(diào)優(yōu)。對于高實時性確定性問題力爭在網(wǎng)元層解決。網(wǎng)絡(luò)自愈和網(wǎng)絡(luò)自優(yōu)以網(wǎng)絡(luò)數(shù)據(jù)內(nèi)生為基礎(chǔ),實現(xiàn)網(wǎng)絡(luò)故障自我恢復(fù)和性能調(diào)優(yōu)。網(wǎng)絡(luò)自主管理還需實現(xiàn)全局資源優(yōu)化和解決低實時性非確定性問題,提供基于意圖的引擎,為實現(xiàn)網(wǎng)絡(luò)智能部署提供支撐。訓(xùn)練模型以現(xiàn)有人工智能技術(shù)為核心,在現(xiàn)有網(wǎng)絡(luò)之外構(gòu)建獨立的人工智能訓(xùn)練平臺,輸出AI模型。智能分析基于訓(xùn)練模型結(jié)果,根據(jù)內(nèi)生數(shù)據(jù)和網(wǎng)絡(luò)行為進(jìn)行智能分析,實現(xiàn)網(wǎng)元和網(wǎng)絡(luò)級智能管理。
基于人工智能技術(shù),構(gòu)建網(wǎng)絡(luò)管理的若干核心模型,例如故障自診斷模型、自恢復(fù)和故障預(yù)測模型等。充分利用網(wǎng)絡(luò)前期運(yùn)行的歷史數(shù)據(jù)信息,提取有效的網(wǎng)絡(luò)行為和狀態(tài)特征,離線訓(xùn)練、求解網(wǎng)絡(luò)智能管理模型。智能分析針對當(dāng)前網(wǎng)絡(luò)狀態(tài),根據(jù)求解的AI模型自動判斷當(dāng)前網(wǎng)絡(luò)是否存在故障,以及是否有發(fā)生故障的趨勢。如果出現(xiàn)故障或者有出現(xiàn)故障的趨勢,自動運(yùn)行網(wǎng)絡(luò)故障自恢復(fù)模型,修復(fù)網(wǎng)絡(luò)故障,及時避免網(wǎng)絡(luò)癱瘓,提高整個網(wǎng)絡(luò)系統(tǒng)的穩(wěn)定性和可用性。
網(wǎng)絡(luò)自主管理研究框架為解決網(wǎng)絡(luò)管理困境提供了研究方向和解決方案,其目標(biāo)是減少網(wǎng)絡(luò)故障時間,優(yōu)化網(wǎng)絡(luò)資源配置,實現(xiàn)網(wǎng)絡(luò)自主管理。
(1)提高網(wǎng)絡(luò)自動部署能力,緩解部署困境和人員困境。
基于意圖的引擎為實現(xiàn)網(wǎng)絡(luò)自動部署提供手段,解決網(wǎng)絡(luò)部署困境問題。意圖引擎彌合業(yè)務(wù)部門與網(wǎng)絡(luò)管理人員之間的差異鴻溝,意圖引擎首先要將以某種模型描述方式描述的業(yè)務(wù)意圖轉(zhuǎn)換為針對網(wǎng)絡(luò)設(shè)備的一系列操作,同時激活和協(xié)調(diào)相關(guān)網(wǎng)絡(luò)功能,為意圖實現(xiàn)提供支撐。規(guī)范化的意圖引擎減少了網(wǎng)絡(luò)錯誤配置引起的事故,降低了網(wǎng)絡(luò)運(yùn)維成本,提高了工作效率。
(2)數(shù)據(jù)內(nèi)生,緩解數(shù)據(jù)困境。
數(shù)據(jù)內(nèi)生是指根據(jù)原始數(shù)據(jù),結(jié)合人工智能技術(shù),分析出階段性和結(jié)論性的結(jié)果,而不是僅僅報告原始數(shù)據(jù)。數(shù)據(jù)內(nèi)生的好處是過濾掉海量原始數(shù)據(jù),網(wǎng)絡(luò)管理人員不用陷入數(shù)據(jù)海洋中而是直接獲得分析結(jié)果。
(3)基于人工智能技術(shù),緩解屬性困境和可用性困境。
人工智能技術(shù)的引入,為網(wǎng)絡(luò)自主管理打開了廣闊的前景。在現(xiàn)有網(wǎng)絡(luò)之外構(gòu)建獨立的人工智能訓(xùn)練平臺,進(jìn)行模型訓(xùn)練。特別在網(wǎng)絡(luò)自愈和網(wǎng)絡(luò)自優(yōu)方面,可以針對海量歷史數(shù)據(jù)進(jìn)行持續(xù)模型訓(xùn)練和智能分析,實現(xiàn)參數(shù)和閾值調(diào)優(yōu),降低人力成本,提升檢測準(zhǔn)確率,在網(wǎng)絡(luò)亞健康狀態(tài)即可發(fā)現(xiàn)網(wǎng)絡(luò)異常,先于故障出現(xiàn)調(diào)整網(wǎng)絡(luò)參數(shù),避免網(wǎng)絡(luò)故障出現(xiàn);同時,根據(jù)時間和空間相關(guān)性,對網(wǎng)絡(luò)事件進(jìn)行關(guān)聯(lián)分析,實現(xiàn)快速故障定位并采取相應(yīng)措施,實現(xiàn)網(wǎng)絡(luò)自愈和網(wǎng)絡(luò)自優(yōu)。由于人工智能的介入,網(wǎng)絡(luò)用戶也可確切地知道“網(wǎng)絡(luò)慢”的原因是什么,用戶也可以參與到網(wǎng)絡(luò)管理任務(wù)中,反饋網(wǎng)絡(luò)運(yùn)行狀況。而由于采用網(wǎng)絡(luò)自主管理機(jī)制,網(wǎng)絡(luò)的可用性得到很大提高。
網(wǎng)絡(luò)自主管理的研究愿景是:
(1)網(wǎng)絡(luò)設(shè)備配置、測試全程自動完成,設(shè)備即插即用,網(wǎng)元高度自治;
(2)支持層次化網(wǎng)絡(luò)管理,支持全局監(jiān)控,支持網(wǎng)絡(luò)遠(yuǎn)程升級和策略下發(fā);
(3)支持網(wǎng)絡(luò)業(yè)務(wù)自動部署,基于意圖自動完成網(wǎng)絡(luò)設(shè)備配置,支持網(wǎng)元和網(wǎng)絡(luò)級網(wǎng)絡(luò)故障自愈和自優(yōu),實現(xiàn)網(wǎng)絡(luò)自主管理。
(1)網(wǎng)絡(luò)數(shù)據(jù)智能采集與數(shù)據(jù)挖掘技術(shù);
(2)基于大數(shù)據(jù)和人工智能的網(wǎng)絡(luò)故障診斷技術(shù);
(3)網(wǎng)絡(luò)故障自愈和網(wǎng)絡(luò)自優(yōu)技術(shù);
(4)面向意圖的網(wǎng)絡(luò)自動部署技術(shù);
(5)網(wǎng)絡(luò)配置沖突智能消解技術(shù)。
華為率先在業(yè)界提出自動駕駛網(wǎng)絡(luò)(Autonomous Driving Network)的理念及分級標(biāo)準(zhǔn)[2],從客戶體驗、解放人力的程度和網(wǎng)絡(luò)環(huán)境復(fù)雜性等方面,定義了通信網(wǎng)絡(luò)的自動駕駛分級標(biāo)準(zhǔn):L0手工運(yùn)維、L1輔助運(yùn)維、L2部分自治網(wǎng)絡(luò)、L3有條件自治網(wǎng)絡(luò)、L4高度自治網(wǎng)絡(luò)和 L5完全自治網(wǎng)絡(luò)。L5是網(wǎng)絡(luò)管理的終極目標(biāo),系統(tǒng)具備跨多業(yè)務(wù)、跨領(lǐng)域的全生命周期的閉環(huán)自動化能力,真正實現(xiàn)無人駕駛。華為自動駕駛網(wǎng)絡(luò)分級體系,為網(wǎng)絡(luò)管理向自動駕駛方向演進(jìn)提供了一條可衡量、可實踐的指導(dǎo)性路徑。華為還發(fā)布了自動駕駛網(wǎng)絡(luò)智能運(yùn)維產(chǎn)品與方案,將AI、大數(shù)據(jù)和自動化等技術(shù)與通信領(lǐng)域進(jìn)行深度結(jié)合,實現(xiàn)數(shù)據(jù)資產(chǎn)的可視、可管和可溯源。
思科公司也提出了基于意圖網(wǎng)絡(luò)概念[3],基于意圖的網(wǎng)絡(luò)IBN(Intent Based Networking) 在如何規(guī)劃、設(shè)計和操作網(wǎng)絡(luò)方面提供了一個重要的范式轉(zhuǎn)變。網(wǎng)絡(luò)設(shè)計師或操作員使用策略配置控制器來表達(dá)抽象意圖?;谝鈭D網(wǎng)絡(luò)包含轉(zhuǎn)換、激活和保障3部分。轉(zhuǎn)換的功能是:捕獲業(yè)務(wù)意圖,轉(zhuǎn)換為策略,檢查完整性;激活的功能是:協(xié)調(diào)策略,配置系統(tǒng);保障的功能是連續(xù)驗證,提供洞察和可視手段及糾正措施?;谝鈭D網(wǎng)絡(luò)提高了網(wǎng)絡(luò)的靈活性和可用性。
隨著機(jī)器學(xué)習(xí)在圖像、模式識別領(lǐng)域的成功應(yīng)用,將人工智能技術(shù)引入網(wǎng)絡(luò)也成為了當(dāng)前的研究熱點[17]。網(wǎng)絡(luò)系統(tǒng)在運(yùn)行過程中產(chǎn)生的歷史數(shù)據(jù)就是機(jī)器學(xué)習(xí)理想的訓(xùn)練樣本,以此訓(xùn)練和求解出的優(yōu)化模型,可以幫助運(yùn)營商實現(xiàn)網(wǎng)絡(luò)智能運(yùn)維[18]。但是,目前人工智能技術(shù)在計算機(jī)網(wǎng)絡(luò)領(lǐng)域的運(yùn)用還處于初級階段,從龐大的網(wǎng)絡(luò)運(yùn)行數(shù)據(jù)中提取出有效的特征還很困難[19]。此外,構(gòu)建精確的網(wǎng)絡(luò)運(yùn)維模型也沒有取得突破性進(jìn)展。已有的研究成果都只是在網(wǎng)絡(luò)管理的某個方面有一定的輔助作用。
以上情況表明,雖然許多關(guān)鍵技術(shù)還有待突破,但是網(wǎng)絡(luò)管理朝著智能化和自主管理方向發(fā)展的趨勢是不變的,可以預(yù)測:智能化的網(wǎng)絡(luò)管理將帶來更高的靈活性,減少網(wǎng)絡(luò)故障,提高網(wǎng)絡(luò)運(yùn)維效率。