王瑞雪 袁劉 顧戎 程宇
(1.中國移動(dòng)通信研究院網(wǎng)絡(luò)技術(shù)研究所,北京 100053;2.中移(蘇州)軟件技術(shù)有限公司,蘇州 215000;3.中移動(dòng)信息技術(shù)有限公司,北京 100037)
數(shù)據(jù)中心作為科技創(chuàng)新和技術(shù)應(yīng)用的實(shí)體,已成為信息化發(fā)展的關(guān)鍵基礎(chǔ)設(shè)施,為數(shù)字經(jīng)濟(jì)發(fā)展提供了有力支撐。區(qū)別于傳統(tǒng)數(shù)據(jù)中心,基于云計(jì)算架構(gòu)搭建的新型數(shù)據(jù)中心可實(shí)現(xiàn)資源池化、業(yè)務(wù)服務(wù)化和管理自動(dòng)化[1]。網(wǎng)絡(luò)作為云計(jì)算數(shù)據(jù)中心重要的基礎(chǔ)設(shè)施資源,經(jīng)歷了虛擬化和軟件定義的架構(gòu)轉(zhuǎn)型,可實(shí)現(xiàn)網(wǎng)絡(luò)資源的集中調(diào)度和網(wǎng)絡(luò)配置自動(dòng)化。
隨著新型數(shù)據(jù)中心規(guī)模不斷攀升,業(yè)務(wù)批量上云,網(wǎng)絡(luò)作為云數(shù)據(jù)中心基礎(chǔ)設(shè)施資源的重要性與日俱增,云數(shù)據(jù)中心網(wǎng)絡(luò)的復(fù)雜度和規(guī)模性對網(wǎng)絡(luò)的運(yùn)維提出了挑戰(zhàn)。一方面,由于虛擬化技術(shù)的引入,網(wǎng)絡(luò)對象不局限于硬件物理設(shè)備,還包括基于物理設(shè)備實(shí)現(xiàn)的虛擬網(wǎng)元和軟件態(tài)網(wǎng)絡(luò)設(shè)備,網(wǎng)絡(luò)對象呈現(xiàn)多樣化;另一方面,云化數(shù)據(jù)中心具備網(wǎng)絡(luò)部署動(dòng)態(tài)化和實(shí)時(shí)性的特征,傳統(tǒng)靜態(tài)網(wǎng)絡(luò)資源收集機(jī)制存在盲區(qū),無法保證網(wǎng)絡(luò)信息的精確性。此外,數(shù)據(jù)中心規(guī)模增大后,網(wǎng)絡(luò)故障必然是一個(gè)大概率事件,如何降低網(wǎng)絡(luò)故障率或提前干預(yù)以最大程度降低網(wǎng)絡(luò)故障影響也必然成為云數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維的重點(diǎn)。經(jīng)過實(shí)踐發(fā)現(xiàn),傳統(tǒng)的網(wǎng)絡(luò)運(yùn)維技術(shù)和工具運(yùn)維對象孤立單一、數(shù)據(jù)采集效率低、運(yùn)維場景有限,因此亟需研究新型云數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)維相關(guān)技術(shù)和工具,以實(shí)現(xiàn)網(wǎng)絡(luò)管理的高效率。
網(wǎng)絡(luò)健康評估系統(tǒng)是結(jié)合云數(shù)據(jù)中心網(wǎng)絡(luò)特征進(jìn)行網(wǎng)絡(luò)建模,運(yùn)用動(dòng)態(tài)信息采集技術(shù),基于數(shù)據(jù)分析手段,對云數(shù)據(jù)中心網(wǎng)絡(luò)運(yùn)行情況進(jìn)行分析評估的網(wǎng)絡(luò)管理系統(tǒng),目的在于實(shí)現(xiàn)故障的快速發(fā)現(xiàn)、定位和閉環(huán)處理,提升網(wǎng)絡(luò)管理效率,保障網(wǎng)絡(luò)穩(wěn)定運(yùn)行[2-3]。網(wǎng)絡(luò)健康評估系統(tǒng)通過提煉關(guān)鍵網(wǎng)絡(luò)對象和對象關(guān)聯(lián)關(guān)系,實(shí)時(shí)獲取精確的網(wǎng)絡(luò)原始數(shù)據(jù),通過多維度分析網(wǎng)絡(luò)運(yùn)行狀態(tài)和關(guān)鍵事件,對網(wǎng)絡(luò)行為進(jìn)行預(yù)測和判斷,進(jìn)而形成對網(wǎng)絡(luò)系統(tǒng)健康狀況的綜合評判。
云數(shù)據(jù)中心網(wǎng)絡(luò)包含網(wǎng)絡(luò)基礎(chǔ)設(shè)施和借助于虛擬化技術(shù)構(gòu)建的云網(wǎng)絡(luò)(見圖1)。網(wǎng)絡(luò)基礎(chǔ)設(shè)施包含物理交換設(shè)備、物理網(wǎng)絡(luò)增值服務(wù)設(shè)備以及設(shè)備之間的物理連接,目前數(shù)據(jù)中心組網(wǎng)一般按照葉脊型(Spine-Leaf)網(wǎng)絡(luò)架構(gòu),脊交換機(jī)與葉交換機(jī)全互聯(lián),實(shí)現(xiàn)數(shù)據(jù)中心東西向流量高效轉(zhuǎn)發(fā)。云網(wǎng)絡(luò)是利用虛擬化技術(shù)在網(wǎng)絡(luò)基礎(chǔ)設(shè)施之上疊加的邏輯網(wǎng)絡(luò)服務(wù),由一系列虛擬節(jié)點(diǎn)和虛擬鏈路構(gòu)成,實(shí)現(xiàn)物理網(wǎng)絡(luò)資源共享、邏輯網(wǎng)絡(luò)資源隔離,符合云的特征。為實(shí)現(xiàn)云網(wǎng)絡(luò)集中管理和自動(dòng)配置,云網(wǎng)絡(luò)會搭配管理控制層,實(shí)現(xiàn)業(yè)務(wù)網(wǎng)絡(luò)的編排、配置生成、配置下發(fā)和管理功能[4]。
圖1 云數(shù)據(jù)中心網(wǎng)絡(luò)示意圖
傳統(tǒng)網(wǎng)絡(luò)維護(hù)管理重點(diǎn)在基礎(chǔ)設(shè)施層面,能夠監(jiān)控物理設(shè)備和物理鏈路,監(jiān)控粒度一般為分鐘級且監(jiān)控對象較為離散,但虛擬云網(wǎng)絡(luò)當(dāng)前屬于監(jiān)控盲區(qū),尚未覆蓋。面向新型數(shù)據(jù)中心的網(wǎng)絡(luò)健康評估范圍應(yīng)能夠同時(shí)涵蓋云網(wǎng)絡(luò)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,并通過二者的映射關(guān)系實(shí)現(xiàn)監(jiān)控?cái)?shù)據(jù)的相互關(guān)聯(lián),全面真實(shí)有效地反映數(shù)據(jù)中心網(wǎng)絡(luò)情況。
區(qū)別于傳統(tǒng)網(wǎng)絡(luò)運(yùn)營維護(hù)工具,面向新型數(shù)據(jù)中心的網(wǎng)絡(luò)健康評估系統(tǒng)能夠可視化網(wǎng)絡(luò)運(yùn)行狀態(tài),進(jìn)行網(wǎng)絡(luò)健康分析。為保證評估結(jié)果的真實(shí)性和全面性,網(wǎng)絡(luò)健康評估系統(tǒng)在網(wǎng)絡(luò)模型方面對網(wǎng)絡(luò)對象進(jìn)行擴(kuò)展和延伸,并通過提取對象間的關(guān)聯(lián)關(guān)系,形成網(wǎng)絡(luò)的數(shù)字世界。在數(shù)據(jù)采集階段,網(wǎng)絡(luò)健康評估系統(tǒng)通過引入新的采集機(jī)制優(yōu)化采集方法,提高采集精度,結(jié)合網(wǎng)絡(luò)模型定義采集內(nèi)容、完善采集數(shù)據(jù),充分反映設(shè)備運(yùn)行狀況和網(wǎng)絡(luò)環(huán)境變化;在數(shù)據(jù)分析階段,網(wǎng)絡(luò)健康評估系統(tǒng)結(jié)合典型網(wǎng)絡(luò)行為選擇異常檢測算法實(shí)現(xiàn)異常情況的動(dòng)態(tài)檢測;最后,網(wǎng)絡(luò)健康評估系統(tǒng)根據(jù)評估標(biāo)準(zhǔn)對數(shù)據(jù)中心網(wǎng)絡(luò)健康狀態(tài)進(jìn)行綜合評估。
如圖2所示,網(wǎng)絡(luò)健康評估系統(tǒng)自下而上包含數(shù)據(jù)采集、網(wǎng)絡(luò)建模、數(shù)據(jù)分析和網(wǎng)絡(luò)評估四大模塊。數(shù)據(jù)采集模塊是網(wǎng)絡(luò)健康評估系統(tǒng)的前沿陣地,利用高精度的采集方式面向云數(shù)據(jù)中心網(wǎng)絡(luò)設(shè)備收集網(wǎng)絡(luò)數(shù)據(jù);數(shù)據(jù)采集技術(shù)應(yīng)充分考慮數(shù)據(jù)實(shí)時(shí)性、采集精度和設(shè)備壓力。網(wǎng)絡(luò)建模模塊是網(wǎng)絡(luò)健康評估系統(tǒng)的核心模塊,網(wǎng)絡(luò)模型的準(zhǔn)確度和全面性直接影響網(wǎng)絡(luò)健康評估結(jié)果的準(zhǔn)確度和全面性;網(wǎng)絡(luò)模型應(yīng)覆蓋所有網(wǎng)絡(luò)對象,真實(shí)展現(xiàn)網(wǎng)絡(luò)對象的關(guān)聯(lián)關(guān)系。數(shù)據(jù)分析模塊是網(wǎng)絡(luò)健康評估系統(tǒng)的中樞神經(jīng),利用數(shù)據(jù)分析技術(shù)識別網(wǎng)絡(luò)對象指標(biāo)在不同業(yè)務(wù)場景下的數(shù)據(jù)行為,同時(shí)篩選異常行為;數(shù)據(jù)分析模塊應(yīng)采用高效準(zhǔn)確的分析算法。網(wǎng)絡(luò)評估模塊是網(wǎng)絡(luò)健康評估系統(tǒng)的智能引擎,能夠綜合數(shù)據(jù)采集、分析結(jié)果和網(wǎng)絡(luò)建模,通過推理和演練,找尋網(wǎng)絡(luò)事件根因,并從全局性視角對網(wǎng)絡(luò)運(yùn)行狀態(tài)進(jìn)行分析評估,給出行為變化的風(fēng)險(xiǎn)預(yù)警。
圖2 網(wǎng)絡(luò)健康評估系統(tǒng)示意圖
2.2.1 數(shù)據(jù)采集
云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)健康狀況評估需要依賴于網(wǎng)絡(luò)事件和網(wǎng)絡(luò)對象的實(shí)時(shí)數(shù)據(jù)分析,而數(shù)據(jù)獲取依賴于網(wǎng)絡(luò)健康評估系統(tǒng)的數(shù)據(jù)采集模塊,高精度高效率的數(shù)據(jù)采集方式有利于提高網(wǎng)絡(luò)評估的實(shí)時(shí)性和準(zhǔn)確性?;诤唵尉W(wǎng)絡(luò)管理協(xié)議(Simple Network Management Protocol,SNMP)的數(shù)據(jù)采集技術(shù)采集周期長、采集范圍單一,數(shù)據(jù)廣度和精度無法滿足系統(tǒng)需要,而基于遙測(Telemetry)的數(shù)據(jù)采集機(jī)制,采集數(shù)據(jù)精度高、覆蓋網(wǎng)絡(luò)對象全面,能夠滿足新型數(shù)據(jù)中心網(wǎng)絡(luò)健康評估系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)收集的需求。遙測面向物理設(shè)備或虛擬設(shè)備提供實(shí)時(shí)高速的數(shù)據(jù)采集功能,引入訂閱機(jī)制代替查詢,訂閱后設(shè)備可持續(xù)上報(bào)數(shù)據(jù),減輕設(shè)備處理查詢請求的壓力。根據(jù)數(shù)據(jù)類型,網(wǎng)絡(luò)健康評估系統(tǒng)采用的數(shù)據(jù)采集訂閱機(jī)制包含周期上報(bào)、變更上報(bào)和增量上報(bào)3類,分別對應(yīng)周期性評估的數(shù)據(jù)、設(shè)備行為變化強(qiáng)相關(guān)的數(shù)據(jù)和存量基數(shù)較大的數(shù)據(jù)。
(1)周期上報(bào)的訂閱機(jī)制用于采集需要周期性評估分析的數(shù)據(jù),訂閱方式為周期性數(shù)據(jù)訂閱上報(bào),通過訂閱采集周期實(shí)現(xiàn)數(shù)據(jù)的周期性采集。例如針對硬件設(shè)備CPU、內(nèi)存等資源利用率數(shù)據(jù)、端口的收發(fā)包數(shù)等網(wǎng)絡(luò)對象指標(biāo)數(shù)據(jù)采用周期上報(bào)的訂閱機(jī)制,采集周期一般設(shè)置為秒級別,對于部分實(shí)時(shí)性指標(biāo)采集周期可以調(diào)整至毫秒級別。
(2)變更上報(bào)的訂閱機(jī)制用于采集設(shè)備行為變化強(qiáng)相關(guān)的數(shù)據(jù),當(dāng)設(shè)備行為變化達(dá)到一定條件時(shí)觸發(fā)上報(bào)機(jī)制,一般用于上報(bào)網(wǎng)絡(luò)事件發(fā)生,例如硬件設(shè)備交換芯片隊(duì)列出現(xiàn)擁塞造成報(bào)文丟棄,可通過變更上報(bào)發(fā)現(xiàn)隊(duì)列擁塞的網(wǎng)絡(luò)事件。
(3)增量上報(bào)的訂閱機(jī)制用于數(shù)據(jù)存量基數(shù)較大的數(shù)據(jù)指標(biāo),首次上報(bào)全量數(shù)據(jù)后,后續(xù)變化的數(shù)據(jù)通過增量上報(bào)的方式實(shí)現(xiàn)數(shù)據(jù)采集。增量上報(bào)一般用于表項(xiàng)數(shù)據(jù)的采集,例如轉(zhuǎn)發(fā)面表項(xiàng)、路由表、ARP表等,采集周期一般為秒級。
2.2.2 網(wǎng)絡(luò)建模
網(wǎng)絡(luò)建模將網(wǎng)絡(luò)進(jìn)行抽象,通過抽取和提煉將網(wǎng)絡(luò)量化,實(shí)現(xiàn)網(wǎng)絡(luò)數(shù)字化。新型數(shù)據(jù)中心網(wǎng)絡(luò)既包含物理網(wǎng)絡(luò)又包含云網(wǎng)絡(luò),其中物理網(wǎng)絡(luò)包含物理設(shè)備、物理鏈路和網(wǎng)絡(luò)協(xié)議,云網(wǎng)絡(luò)包含虛擬節(jié)點(diǎn)、虛擬鏈路和網(wǎng)絡(luò)協(xié)議。因此,面向新型數(shù)據(jù)中心網(wǎng)絡(luò)模型應(yīng)通過對物理網(wǎng)絡(luò)和云網(wǎng)絡(luò)的逐層梳理,形成細(xì)粒度的網(wǎng)絡(luò)對象;通過分析網(wǎng)絡(luò)對象之間的關(guān)聯(lián)關(guān)系,歸納提取對象關(guān)系,;通過對象關(guān)聯(lián)關(guān)系的特征分析和整合形成新型數(shù)據(jù)中心網(wǎng)絡(luò)的數(shù)字模型表達(dá)。
(1)網(wǎng)絡(luò)對象包含物理網(wǎng)絡(luò)對象和云網(wǎng)絡(luò)對象兩類,其中每一類又包含設(shè)備(點(diǎn))、鏈路(線)和協(xié)議(面)3個(gè)層級(見圖3)。物理網(wǎng)絡(luò)由物理設(shè)備、物理鏈路和協(xié)議構(gòu)成:物理設(shè)備指構(gòu)成數(shù)據(jù)中心網(wǎng)絡(luò)的基礎(chǔ)物理硬件資源,包括交換機(jī)、路由器、防火墻、負(fù)載均衡器等網(wǎng)絡(luò)設(shè)備,物理硬件設(shè)備根據(jù)構(gòu)成細(xì)分為單板(主控板、接口板、交換網(wǎng)板等)、電源、風(fēng)扇等網(wǎng)絡(luò)對象;物理鏈路指物理設(shè)備間互聯(lián)鏈路的物理資源,實(shí)現(xiàn)物理節(jié)點(diǎn)的連通,網(wǎng)絡(luò)對象包含端口、光模塊等;協(xié)議指用于指導(dǎo)多個(gè)物理節(jié)點(diǎn)之間數(shù)據(jù)包轉(zhuǎn)發(fā)的路由協(xié)議以及單節(jié)點(diǎn)、多節(jié)點(diǎn)之間的保護(hù)協(xié)議,共同構(gòu)成網(wǎng)絡(luò)的轉(zhuǎn)發(fā)平面和保護(hù)平面。云網(wǎng)絡(luò)設(shè)備由虛擬網(wǎng)絡(luò)節(jié)點(diǎn)、虛擬鏈路和協(xié)議構(gòu)成:云網(wǎng)絡(luò)一般采用隧道技術(shù)構(gòu)建,虛擬節(jié)點(diǎn)包含隧道接入點(diǎn),虛擬鏈路包含邏輯隧道,協(xié)議包含云網(wǎng)絡(luò)控制面和轉(zhuǎn)發(fā)面協(xié)議。
圖3 網(wǎng)絡(luò)對象分類示意圖
(2)網(wǎng)絡(luò)對象關(guān)系表征網(wǎng)絡(luò)對象之間的關(guān)聯(lián)關(guān)系,結(jié)合網(wǎng)絡(luò)架構(gòu)和對象屬性,其可以表征為從屬關(guān)系、關(guān)聯(lián)關(guān)系和連接關(guān)系3類:從屬關(guān)系指對象A在物理屬性或業(yè)務(wù)屬性上屬于B,關(guān)聯(lián)關(guān)系指對象A和對象B存在相同屬性,連接關(guān)系指對象A和對象B形成某種連接。如圖4所示,從屬關(guān)系一般表現(xiàn)在節(jié)點(diǎn)和協(xié)議內(nèi)的部分關(guān)系提取中,例如基于單節(jié)點(diǎn)的物理器件包含單板、單板又包含端口等,數(shù)據(jù)中心域內(nèi)協(xié)議和協(xié)議參數(shù)的包含關(guān)系;關(guān)聯(lián)關(guān)系一般表現(xiàn)在不同類型的對象之間存在同一個(gè)屬性,例如域內(nèi)協(xié)議鄰居和接口存在接口IP地址相同的屬性;連接關(guān)系一般表現(xiàn)在物理和邏輯鏈路上,例如兩臺設(shè)備的物理端口之間存在物理鏈路,兩臺虛擬節(jié)點(diǎn)之間存在邏輯鏈路。
圖4 網(wǎng)絡(luò)對象關(guān)聯(lián)關(guān)系示意圖
(3)如圖5所示,通過對網(wǎng)絡(luò)對象和對象關(guān)系的整合,建立網(wǎng)絡(luò)模型,可以數(shù)字模型的方式呈現(xiàn)新型數(shù)據(jù)中心網(wǎng)絡(luò)。
圖5 交換機(jī)A-B啟用BGP協(xié)議網(wǎng)絡(luò)模型示意圖
2.2.3 數(shù)據(jù)分析
網(wǎng)絡(luò)健康評估系統(tǒng)數(shù)據(jù)分析模塊是通過構(gòu)建網(wǎng)絡(luò)對象特征值的異常檢測,便于及時(shí)發(fā)現(xiàn)運(yùn)行狀態(tài)、性能負(fù)荷和容量規(guī)格相關(guān)的網(wǎng)絡(luò)事件并做出響應(yīng)。數(shù)據(jù)分析技術(shù)包含網(wǎng)絡(luò)特征識別、選擇曲線擬合算法、構(gòu)建動(dòng)態(tài)基線和異常檢測4部分。
(1)數(shù)據(jù)分析首先需要分析數(shù)據(jù)特征,網(wǎng)絡(luò)數(shù)據(jù)具備特殊性,例如同一個(gè)網(wǎng)絡(luò)對象指標(biāo)在不同的業(yè)務(wù)場景下存在不同的數(shù)據(jù)行為。因此,需要結(jié)合對象特征和行為特征進(jìn)行特征識別對網(wǎng)絡(luò)對象進(jìn)行分類。不同類別的網(wǎng)絡(luò)對象選擇不同的曲線擬合算法。
(2)時(shí)間序列分解算法和高斯回歸算法是曲線擬合的經(jīng)典算法。時(shí)間序列分解算法是對按時(shí)間維度統(tǒng)計(jì)的數(shù)據(jù)指標(biāo)序列進(jìn)行分析,尋找序列中的周期性和趨勢性,進(jìn)而進(jìn)行時(shí)序預(yù)測和異常檢測;高斯回歸算法是使用高斯函數(shù)系對數(shù)據(jù)點(diǎn)集進(jìn)行函數(shù)逼近的擬合。通常數(shù)據(jù)特征包含周期型和離散型兩類,針對周期穩(wěn)定的網(wǎng)絡(luò)對象指標(biāo)一般采用時(shí)間序列分解算法,而針對取值穩(wěn)定的網(wǎng)絡(luò)對象指標(biāo),一般采用高斯回歸算法。
(3)考慮云數(shù)據(jù)中心網(wǎng)絡(luò)對象具有實(shí)時(shí)變化的特征,基線應(yīng)動(dòng)態(tài)構(gòu)建。在真實(shí)網(wǎng)絡(luò)環(huán)境下,因網(wǎng)絡(luò)抖動(dòng)存在的偶發(fā)性異常行為不可避免,異常檢測算法需具備噪聲抑制能力,能夠通過調(diào)整基線敏感度例如增加變化量因子來降低干擾因素、提高對偶發(fā)性行為異常的容忍度。
(4)異常檢測是通過比對真實(shí)數(shù)據(jù)和基線值,判斷網(wǎng)絡(luò)是否異常,對于異常數(shù)據(jù)給出風(fēng)險(xiǎn)提示。為容忍偶發(fā)性行為異常,異常檢測需要同步制定異常規(guī)則,例如連續(xù)多個(gè)周期越界才標(biāo)記為基線異常,此時(shí)將原始數(shù)據(jù)和擬合的數(shù)據(jù)基線逐點(diǎn)進(jìn)行比較,統(tǒng)計(jì)越界數(shù)據(jù)的連續(xù)周期數(shù),若滿足規(guī)則則進(jìn)行異常事件告警。
2.2.4 網(wǎng)絡(luò)評估網(wǎng)絡(luò)健康評估系統(tǒng)的最終目的是通過網(wǎng)絡(luò)量化和數(shù)字化對網(wǎng)絡(luò)整體情況進(jìn)行全面、準(zhǔn)確和實(shí)時(shí)評估。網(wǎng)絡(luò)評估是通過網(wǎng)絡(luò)事件感知,從全局性視角進(jìn)行多設(shè)備、關(guān)聯(lián)性網(wǎng)絡(luò)運(yùn)行狀態(tài)分析,得出新型數(shù)據(jù)中心的網(wǎng)絡(luò)健康狀況,評估結(jié)果可用于網(wǎng)絡(luò)故障預(yù)警、定位、根因分析和網(wǎng)絡(luò)的優(yōu)化設(shè)計(jì)。
按照事件特征,網(wǎng)絡(luò)事件分為運(yùn)行狀態(tài)、性能負(fù)荷和容量規(guī)格3類。運(yùn)行狀態(tài)類事件可以反映網(wǎng)絡(luò)對象是否正常運(yùn)行,例如物理部件運(yùn)行狀態(tài)和協(xié)議對象運(yùn)行狀態(tài);性能負(fù)荷類事件可以反映網(wǎng)絡(luò)對象性能類度量指標(biāo)是否超過閾值,運(yùn)行負(fù)荷是否存在風(fēng)險(xiǎn);容量規(guī)格事件用于反映網(wǎng)絡(luò)對象容量類度量指標(biāo)是否超過閾值并存在風(fēng)險(xiǎn)。網(wǎng)絡(luò)事件不是孤立的,同一時(shí)間范圍內(nèi)觸發(fā)的網(wǎng)絡(luò)事件相互聯(lián)系,例如空間相關(guān)性聯(lián)系和因果相關(guān)性聯(lián)系,為更準(zhǔn)確地進(jìn)行網(wǎng)絡(luò)評估,需要結(jié)合網(wǎng)絡(luò)依賴關(guān)系并通過推理和演練,從眾多網(wǎng)絡(luò)事件中找尋根因事件。在空間上存在關(guān)聯(lián)關(guān)系的網(wǎng)絡(luò)對象之間會產(chǎn)生相互影響,例如對象A異常時(shí),會關(guān)聯(lián)導(dǎo)致其他某個(gè)或多個(gè)對象同時(shí)出現(xiàn)異常,此時(shí)需進(jìn)行聚合分析,從眾多網(wǎng)絡(luò)對象事件中推導(dǎo)挖掘出根因事件對象A異常。對于存在因果依賴關(guān)系的網(wǎng)絡(luò)對象事件,通過分析其因果關(guān)系,能進(jìn)行網(wǎng)絡(luò)可能根因事件的推理?;诟蚴录陀筛蚴录l(fā)的網(wǎng)絡(luò)事件,可以對云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)健康狀況進(jìn)行綜合評估。
當(dāng)前云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)健康評估系統(tǒng)從可靠性、網(wǎng)絡(luò)容量兩個(gè)維度對網(wǎng)絡(luò)進(jìn)行評估。可靠性包含整體網(wǎng)絡(luò)級別、設(shè)備級別、鏈路級別、協(xié)議級別,通過對網(wǎng)絡(luò)事件的分析,判斷事件是否對網(wǎng)絡(luò)可靠性產(chǎn)生影響,若產(chǎn)生影響則通過對象和對象關(guān)聯(lián)關(guān)系分析給出影響范圍,并進(jìn)行行為變化的風(fēng)險(xiǎn)預(yù)警。網(wǎng)絡(luò)容量也包含網(wǎng)絡(luò)級別、設(shè)備級別、鏈路級別和協(xié)議級別,通過對網(wǎng)絡(luò)事件的評估,判斷事件是否對網(wǎng)絡(luò)容量產(chǎn)生影響,若產(chǎn)生影響則給出容量影響程度,針對未來趨勢給出風(fēng)險(xiǎn)提示和擴(kuò)容提醒。
某運(yùn)營商私有云數(shù)據(jù)中心物理網(wǎng)絡(luò)按照標(biāo)準(zhǔn)組網(wǎng)模式葉脊型(Spine-Leaf)網(wǎng)絡(luò)架構(gòu)進(jìn)行建設(shè),目前其功能網(wǎng)元例如防火墻和負(fù)載均衡器為硬件形態(tài),業(yè)務(wù)接入交換機(jī)和出口交換機(jī)合并設(shè)置。云網(wǎng)絡(luò)借助于網(wǎng)絡(luò)虛擬化技術(shù)實(shí)現(xiàn),對于虛擬交換機(jī)的云網(wǎng)絡(luò)接入點(diǎn)為虛擬交換機(jī),對于裸金屬服務(wù)器的云網(wǎng)絡(luò)接入點(diǎn)為葉交換機(jī)。本文按照該拓?fù)浣Y(jié)構(gòu)搭建系統(tǒng)試驗(yàn)環(huán)境,具體參見圖6。
圖6 某運(yùn)營商私有云組網(wǎng)架構(gòu)示意圖
本文將網(wǎng)絡(luò)健康評估系統(tǒng)部署于上述試驗(yàn)環(huán)境內(nèi),前端面向脊交換機(jī)、葉交換機(jī)和業(yè)務(wù)接入交換機(jī)進(jìn)行數(shù)據(jù)采集,后端進(jìn)行數(shù)據(jù)分析和網(wǎng)絡(luò)評估。目前,已經(jīng)納入采集的信息包含交換機(jī)的配置信息、表項(xiàng)信息、日志信息和常規(guī)交換機(jī)維護(hù)指標(biāo)信息,其中常規(guī)交換機(jī)維護(hù)指標(biāo)信息進(jìn)行周期性采集(采集周期為10 s)。表項(xiàng)信息為本試驗(yàn)新增采集數(shù)據(jù),因表項(xiàng)數(shù)據(jù)存量基數(shù)較大,故采用增量方式進(jìn)行表項(xiàng)信息的訂閱。
本試驗(yàn)采用故障觸發(fā)方式驗(yàn)證網(wǎng)絡(luò)健康評估系統(tǒng)的準(zhǔn)確度和完備性,因表項(xiàng)信息為本次新增采集數(shù)據(jù),故選用表項(xiàng)異常故障場景,通過模擬業(yè)務(wù)上線持續(xù)注入路由表項(xiàng),觀察系統(tǒng)運(yùn)行反應(yīng)。通過系統(tǒng)數(shù)據(jù)采集和數(shù)據(jù)分析,發(fā)現(xiàn)兩臺葉交換機(jī)內(nèi)存指標(biāo)出現(xiàn)異常,監(jiān)測指標(biāo)呈增長趨勢并持續(xù)超過基線預(yù)警值(70%)(見圖7),但全網(wǎng)交換機(jī)平均內(nèi)存利用率不高。與此同時(shí),兩臺葉交換機(jī)和業(yè)務(wù)接入交換機(jī)/出口交換機(jī)的轉(zhuǎn)發(fā)表(Forwarding Info Base, FIB)表項(xiàng)利用率出現(xiàn)快速增長的現(xiàn)象。
圖7 網(wǎng)絡(luò)指標(biāo)異常檢測圖示
筆者依據(jù)2.2.2節(jié)中所述網(wǎng)絡(luò)模型,分析葉交換機(jī)內(nèi)存指標(biāo)和路由條目異常的關(guān)聯(lián)關(guān)系以及葉交換機(jī)和業(yè)務(wù)接入交換機(jī)的關(guān)聯(lián)關(guān)系發(fā)現(xiàn):兩臺葉交換機(jī)內(nèi)存增長在空間相關(guān)性上與其路由條目的異常增長存在關(guān)聯(lián)關(guān)系;兩臺葉交換機(jī)路由條目在時(shí)間相關(guān)性以及業(yè)務(wù)因果關(guān)系上與出口交換機(jī)的路由條目異常增長存在關(guān)聯(lián)關(guān)系。
鑒于此,筆者推導(dǎo)出根因業(yè)務(wù)接入交換機(jī)路由條目異常增長,后續(xù)又結(jié)合業(yè)務(wù)接入交換機(jī)的路由配置信息分析,發(fā)現(xiàn)該路由增長均集中于同一個(gè)租戶虛擬網(wǎng)絡(luò)內(nèi)部,且外部路由引入條目過多,大多為子網(wǎng)下的主機(jī)路由(見圖8)。因此,筆者給出將外部網(wǎng)絡(luò)的路由進(jìn)行聚合,將主機(jī)路由聚合為網(wǎng)段路由的優(yōu)化建議。上述場景為某運(yùn)營商私有云資源池真實(shí)場景,伴隨著云資源池規(guī)模增加業(yè)務(wù)批量上線,且盒式葉交換機(jī)路由表項(xiàng)規(guī)格有限,主機(jī)路由的過量注入會直接造成設(shè)備表項(xiàng)不足,造成現(xiàn)網(wǎng)隱患。依托于網(wǎng)絡(luò)健康評估系統(tǒng)的采集精度、廣度和效率,能夠及時(shí)發(fā)現(xiàn)交換機(jī)內(nèi)存利用率和路由表項(xiàng)數(shù)據(jù)的增長,為后續(xù)的判斷和分析爭取時(shí)間。網(wǎng)絡(luò)模型和關(guān)聯(lián)分析推理能力是提升系統(tǒng)整體效率的關(guān)鍵,單個(gè)故障會導(dǎo)致多個(gè)異常事件發(fā)生,系統(tǒng)在檢測出事件或異常后,需要快速關(guān)聯(lián)線索,給出根因判斷。需要說明的是,由于云計(jì)算數(shù)據(jù)中心網(wǎng)絡(luò)復(fù)雜、故障場景眾多,網(wǎng)絡(luò)健康評估系統(tǒng)目前尚未實(shí)現(xiàn)完全的自動(dòng)化,部分信息整合方式仍然采用半自動(dòng)化方式進(jìn)行,這有待后續(xù)進(jìn)一步完善。
圖8 根因推導(dǎo)過程示意圖
數(shù)據(jù)分析技術(shù)可以大幅提升網(wǎng)絡(luò)健康評估的效率和準(zhǔn)確度,進(jìn)而提升網(wǎng)絡(luò)運(yùn)維效率,提高網(wǎng)絡(luò)運(yùn)營質(zhì)量。網(wǎng)絡(luò)健康評估系統(tǒng)通過網(wǎng)絡(luò)建模、數(shù)據(jù)采集和綜合評估分析等技術(shù)實(shí)現(xiàn)網(wǎng)絡(luò)運(yùn)行狀態(tài)量化和可視化,便于網(wǎng)絡(luò)整體質(zhì)量動(dòng)態(tài)掌握和故障快速處理,目標(biāo)實(shí)現(xiàn)網(wǎng)絡(luò)故障事后發(fā)現(xiàn)向事前預(yù)測的轉(zhuǎn)變。目前,該系統(tǒng)對于傳統(tǒng)物理網(wǎng)絡(luò)的網(wǎng)絡(luò)模型具備通用性和普適性;而云網(wǎng)絡(luò)由于強(qiáng)依賴于實(shí)現(xiàn)機(jī)制,具備個(gè)性化和定制化的特征,該系統(tǒng)對云網(wǎng)絡(luò)網(wǎng)絡(luò)模型的覆蓋程度和全備性還需要做進(jìn)一步擴(kuò)展和提升。網(wǎng)絡(luò)承載質(zhì)量分析離不開業(yè)務(wù)流量分析,后續(xù)網(wǎng)絡(luò)健康評估系統(tǒng)將從業(yè)務(wù)維度對流量進(jìn)行精確統(tǒng)計(jì)、網(wǎng)絡(luò)時(shí)延抖動(dòng)精準(zhǔn)測量,通過繪制流量拓?fù)浜蜆I(yè)務(wù)畫像等,實(shí)現(xiàn)業(yè)務(wù)和網(wǎng)絡(luò)聯(lián)動(dòng),基于業(yè)務(wù)進(jìn)行網(wǎng)絡(luò)保障,同時(shí)也為后續(xù)網(wǎng)絡(luò)能力開放提供無限可能。