楊帥
近年來,隨著企業(yè)信息化建設(shè)水平的不斷提高,各業(yè)務(wù)條線對(duì)于網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)的依賴越來越高,網(wǎng)絡(luò)運(yùn)維難點(diǎn)凸顯。網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)的安全穩(wěn)定運(yùn)行已經(jīng)成為其對(duì)外提供服務(wù)的關(guān)鍵環(huán)節(jié),建設(shè)一個(gè)統(tǒng)一的平臺(tái),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)高層次協(xié)議性能進(jìn)行監(jiān)控、報(bào)警、分析、預(yù)測(cè)、以及展示,達(dá)到數(shù)據(jù)包級(jí)的顆粒度分析,將有效解決目前網(wǎng)絡(luò)管理上的一些突出問題。本文通過分析企業(yè)網(wǎng)絡(luò)運(yùn)維所面臨的難點(diǎn)及需求,提出網(wǎng)絡(luò)態(tài)勢(shì)感知平臺(tái)的建設(shè)思路及案例分析。
一、網(wǎng)絡(luò)運(yùn)維難點(diǎn)
(一)網(wǎng)絡(luò)和業(yè)務(wù)架構(gòu)復(fù)雜化。以某金融服務(wù)機(jī)構(gòu)為例,共有77個(gè)業(yè)務(wù)系統(tǒng)和200余家接入單位,業(yè)務(wù)和網(wǎng)絡(luò)應(yīng)用組件的愈發(fā)復(fù)雜化,極大的提高了網(wǎng)絡(luò)運(yùn)維管理復(fù)雜度,也使得評(píng)估性能、診斷故障、安全問題定位以及回溯分析歷史成為網(wǎng)絡(luò)和運(yùn)維部門的日常重要工作,給科技部門造成了人力和時(shí)間資源的極大壓力。
(二)故障排查時(shí)間較長(zhǎng)。業(yè)界原有的網(wǎng)絡(luò)故障排查的技術(shù)手段是通過基于SNMP網(wǎng)管軟件手段結(jié)合人工分析的網(wǎng)絡(luò)故障診斷方式。由網(wǎng)絡(luò)管理員通過手工抓包并結(jié)合網(wǎng)絡(luò)設(shè)備日志進(jìn)行故障定位分析,無法做到快速取證故障數(shù)據(jù)和第一時(shí)間對(duì)故障做出精確分析判斷,更無法做到提前預(yù)警。故障排查效率不高也給業(yè)務(wù)連續(xù)性帶來了安全隱患。
(三)網(wǎng)絡(luò)和業(yè)務(wù)運(yùn)維相對(duì)割裂。傳統(tǒng)的運(yùn)維平臺(tái)主要分為網(wǎng)絡(luò)運(yùn)維管理平臺(tái)和業(yè)務(wù)運(yùn)維管理平臺(tái)兩類。由網(wǎng)絡(luò)運(yùn)維管理平臺(tái)對(duì)網(wǎng)絡(luò)設(shè)備和線路進(jìn)行監(jiān)控,業(yè)務(wù)運(yùn)維管理平臺(tái)對(duì)業(yè)務(wù)應(yīng)用進(jìn)行監(jiān)控,它們均無法做到對(duì)整個(gè)業(yè)務(wù)應(yīng)用和網(wǎng)絡(luò)運(yùn)行狀態(tài)進(jìn)行梳理整合分析,不能對(duì)業(yè)務(wù)系統(tǒng)網(wǎng)絡(luò)數(shù)據(jù)流精確監(jiān)控,也無法監(jiān)控各個(gè)業(yè)務(wù)應(yīng)用網(wǎng)絡(luò)服務(wù)連接質(zhì)量。
二、網(wǎng)絡(luò)運(yùn)維需求分析
(一)業(yè)務(wù)和應(yīng)用狀態(tài)實(shí)時(shí)監(jiān)控能力。應(yīng)從業(yè)務(wù)的角度來做運(yùn)維保障,實(shí)現(xiàn)對(duì)不同業(yè)務(wù)及業(yè)務(wù)所關(guān)聯(lián)的各種應(yīng)用狀態(tài)的全局態(tài)勢(shì)感知,并將業(yè)務(wù)保障優(yōu)先級(jí)機(jī)制和監(jiān)控系統(tǒng)進(jìn)行耦合,進(jìn)一步加強(qiáng)業(yè)務(wù)保障的流程能力。
(二)線路監(jiān)控和異常告警能力。專線管理應(yīng)實(shí)現(xiàn)可視化、狀態(tài)化監(jiān)控,通過異常行為告警,實(shí)現(xiàn)對(duì)企業(yè)到所有分支機(jī)構(gòu)專線情況的全局態(tài)勢(shì)感知能力,及時(shí)發(fā)現(xiàn)異常。
(三)快速的定位故障原因能力。通過對(duì)網(wǎng)絡(luò)數(shù)據(jù)流進(jìn)行追蹤回溯,結(jié)合網(wǎng)絡(luò)拓?fù)渲卸帱c(diǎn)參數(shù)進(jìn)行對(duì)比分析,自動(dòng)判斷問題發(fā)生在哪個(gè)設(shè)備,哪個(gè)環(huán)節(jié)。
(四)全面優(yōu)化的網(wǎng)絡(luò)性能評(píng)估能力。通過對(duì)網(wǎng)絡(luò)通訊數(shù)據(jù)的監(jiān)控,在網(wǎng)絡(luò)流量、網(wǎng)絡(luò)帶寬、網(wǎng)絡(luò)連接、應(yīng)用程序性能、網(wǎng)絡(luò)升級(jí)前后的性能對(duì)比等方面進(jìn)行的全面評(píng)估,為運(yùn)維人員在網(wǎng)絡(luò)改造、網(wǎng)絡(luò)新業(yè)務(wù)實(shí)施及網(wǎng)絡(luò)容量規(guī)劃等多方面提供可靠的數(shù)據(jù)依據(jù)。
三、 網(wǎng)絡(luò)態(tài)勢(shì)感知平臺(tái)建設(shè)思路
傳統(tǒng)的網(wǎng)絡(luò)、安全檢測(cè)體系基于特征庫匹配,存在盲點(diǎn)。一是難以感知未知的威脅;二是告警太多,運(yùn)維人員千頭萬緒,最終導(dǎo)致無法分析;三是由于只有日志信息的存儲(chǔ),安全問題難以追朔。所以,基于全流量的回朔分析,才能使安全監(jiān)測(cè)無死角,是企業(yè)網(wǎng)絡(luò)安全態(tài)勢(shì)感知發(fā)展的趨勢(shì)。該模式的特點(diǎn)就是通過底層數(shù)據(jù)包級(jí)的全流量海量存儲(chǔ),結(jié)合大數(shù)據(jù)分析技術(shù),達(dá)到態(tài)勢(shì)感知及回朔取證的功能需求。平臺(tái)架構(gòu)如圖1所示。
平臺(tái)通過依托真實(shí)的網(wǎng)絡(luò)流量,來構(gòu)建網(wǎng)絡(luò)的全貌視圖,充分利用網(wǎng)絡(luò)數(shù)據(jù)包,快速發(fā)現(xiàn)、定義應(yīng)用,梳理網(wǎng)絡(luò)路徑,建立覆蓋重要鏈路、關(guān)鍵設(shè)備、核心業(yè)務(wù)的全面監(jiān)控視圖,運(yùn)用數(shù)據(jù)統(tǒng)計(jì)分析技術(shù),發(fā)現(xiàn)、告警、回溯和數(shù)據(jù)包分析等功能。
數(shù)據(jù)采集層:通過硬件抓包探針實(shí)現(xiàn)網(wǎng)絡(luò)拓?fù)渲嘘P(guān)鍵網(wǎng)絡(luò)設(shè)備的原始數(shù)據(jù)實(shí)時(shí)采集及存儲(chǔ),初步完成數(shù)據(jù)統(tǒng)計(jì)及分類,上傳集中管理平臺(tái)。
數(shù)據(jù)分析層:接收來自數(shù)據(jù)采集層的各種數(shù)據(jù),通過將分布式采集的企業(yè)重要業(yè)務(wù)及業(yè)務(wù)所調(diào)用的各個(gè)應(yīng)用的各項(xiàng)指標(biāo)數(shù)據(jù)進(jìn)行智能關(guān)聯(lián)分析,完成KPI指標(biāo)評(píng)估,業(yè)務(wù)多段智能分析,故障定位和實(shí)時(shí)預(yù)警。
集中展示層:將企業(yè)及其分支機(jī)構(gòu)業(yè)務(wù)視圖、網(wǎng)絡(luò)視圖和全局安全視圖進(jìn)行直觀展現(xiàn)。
四、 案例分析
(一) 平臺(tái)原理及結(jié)構(gòu)
某省級(jí)金融服務(wù)機(jī)構(gòu)通過對(duì)當(dāng)前網(wǎng)絡(luò)運(yùn)維難點(diǎn)進(jìn)行梳理,充分對(duì)日常網(wǎng)絡(luò)運(yùn)維需求進(jìn)行分析,采用在數(shù)據(jù)中心和同城轉(zhuǎn)接中心分布式部署方式建設(shè)網(wǎng)絡(luò)態(tài)勢(shì)感知平臺(tái)。平臺(tái)在核心路由器、核心交換機(jī)、工作區(qū)匯聚交換機(jī)、生產(chǎn)區(qū)匯聚交換機(jī)、dmz區(qū)交換機(jī)、外聯(lián)路由器和外聯(lián)交換機(jī)等位置設(shè)置鏡像采集點(diǎn),鏡像全網(wǎng)數(shù)據(jù),構(gòu)建數(shù)據(jù)中心、同城轉(zhuǎn)接中心網(wǎng)絡(luò)的全貌視圖,利用網(wǎng)絡(luò)數(shù)據(jù)包,快速發(fā)現(xiàn)、定義應(yīng)用,梳理網(wǎng)絡(luò)路徑,建立覆蓋重要鏈路、關(guān)鍵設(shè)備、核心業(yè)務(wù)的全面監(jiān)控視圖,運(yùn)用領(lǐng)先的數(shù)據(jù)統(tǒng)計(jì)分析技術(shù),發(fā)現(xiàn)、告警、回溯和數(shù)據(jù)包分析等功能,極大簡(jiǎn)化了過去繁冗復(fù)雜的操作過程,精細(xì)掌握網(wǎng)絡(luò)運(yùn)行狀態(tài)、更快更精準(zhǔn)的定位業(yè)務(wù)故障根源、故障發(fā)生后進(jìn)行數(shù)據(jù)還原回溯、詳細(xì)的流量數(shù)量,并提供數(shù)據(jù)的正確性、變更驗(yàn)證的能力。部署結(jié)構(gòu)如圖2所示。
(二) 平臺(tái)功能
1.廣域網(wǎng)線路監(jiān)控
平臺(tái)對(duì)廣域網(wǎng)線路進(jìn)行整理分類,通過直觀實(shí)時(shí)的網(wǎng)絡(luò)狀態(tài)(如丟包、重傳以及利用率過高)監(jiān)控告警展示,能精確監(jiān)控問題發(fā)生的位置。后期只需要在一張視圖上(如圖3所示)就能清晰的了解分支機(jī)構(gòu)所有專線網(wǎng)絡(luò)態(tài)勢(shì),有效提高企業(yè)對(duì)專線管理和保障的能力。
2.局域網(wǎng)網(wǎng)絡(luò)全局態(tài)勢(shì)監(jiān)控
網(wǎng)絡(luò)是承載業(yè)務(wù)的基礎(chǔ)通道,平臺(tái)通過網(wǎng)絡(luò)的視角將業(yè)務(wù)相關(guān)的狀態(tài)指標(biāo)疊加到局域網(wǎng)拓?fù)湟晥D上進(jìn)行監(jiān)控(如圖4所示),并且將多個(gè)節(jié)點(diǎn)的參數(shù)進(jìn)行疊加對(duì)比,實(shí)現(xiàn)從網(wǎng)絡(luò)的視角全局感知業(yè)務(wù)的狀態(tài)。
3.業(yè)務(wù)和應(yīng)用全局監(jiān)控
平臺(tái)對(duì)網(wǎng)絡(luò)數(shù)據(jù)流的智能分析將該機(jī)構(gòu)網(wǎng)絡(luò)分布情況、業(yè)務(wù)和應(yīng)用情況清晰地梳理出來,并直觀地展示整個(gè)網(wǎng)絡(luò)中存在的應(yīng)用和應(yīng)用之間的訪問關(guān)系(如圖5所示),同時(shí)將網(wǎng)絡(luò)、主機(jī)、應(yīng)用的性能參數(shù)疊加到每個(gè)業(yè)務(wù)的邏輯視圖上面。通過對(duì)各個(gè)重點(diǎn)關(guān)注的指標(biāo)進(jìn)行自定義監(jiān)控,實(shí)現(xiàn)各個(gè)應(yīng)用對(duì)網(wǎng)絡(luò)資源的占用態(tài)勢(shì)可視化,實(shí)時(shí)監(jiān)控各個(gè)網(wǎng)絡(luò)區(qū)域應(yīng)用的變化和對(duì)業(yè)務(wù)的實(shí)時(shí)狀態(tài)監(jiān)控評(píng)估,已經(jīng)能夠?qū)崿F(xiàn)對(duì)全部重要業(yè)務(wù)系統(tǒng)和應(yīng)用的態(tài)勢(shì)精細(xì)化感知的能力,實(shí)現(xiàn)以業(yè)務(wù)的視角來開展運(yùn)維工作,提升了對(duì)業(yè)務(wù)的保障能力。
4.業(yè)務(wù)優(yōu)先級(jí)保障
利用平臺(tái)業(yè)務(wù)優(yōu)先級(jí)保障功能對(duì)業(yè)務(wù)按照重要性和具備功能共性的業(yè)務(wù)進(jìn)行分組,對(duì)不同優(yōu)先級(jí)業(yè)務(wù)執(zhí)行不同的監(jiān)控和響應(yīng)標(biāo)準(zhǔn),實(shí)現(xiàn)對(duì)重點(diǎn)業(yè)務(wù)重點(diǎn)保障。
5.異常行為態(tài)勢(shì)感知
平臺(tái)對(duì)行為模型進(jìn)行定義,形成了完善的特征庫。通過對(duì)企業(yè)網(wǎng)絡(luò)情況的梳理,并結(jié)合行為模型特征匹配,實(shí)現(xiàn)對(duì)全網(wǎng)進(jìn)行異常行為的全局態(tài)勢(shì)感知、展示。圖6展示了一個(gè)平臺(tái)感知攻擊的實(shí)例,圖中中心紅色節(jié)點(diǎn)對(duì)多個(gè)目標(biāo)地址發(fā)起了攻擊。通過平臺(tái)及時(shí)通告并提交給相關(guān)負(fù)責(zé)人進(jìn)行處理,消除相關(guān)隱患。通過將問題處理在萌芽期,保障企業(yè)網(wǎng)絡(luò)健康穩(wěn)定運(yùn)行。
6.故障快速定位及回朔
通過將網(wǎng)絡(luò)重要節(jié)點(diǎn)的流量都引入分析平臺(tái),當(dāng)故障發(fā)生時(shí),通過該平臺(tái)將多點(diǎn)的參數(shù)(例如網(wǎng)絡(luò)延遲)進(jìn)行對(duì)比分析,判斷問題發(fā)生在哪個(gè)設(shè)備,哪個(gè)環(huán)節(jié)。然后再通過網(wǎng)絡(luò)、主機(jī)、應(yīng)用性能指標(biāo)的分析,快速判斷問題發(fā)生的層面及原因,從而實(shí)現(xiàn)對(duì)故障的快速定位。同時(shí),依托全流量的海量數(shù)據(jù)存儲(chǔ),可在事后在數(shù)據(jù)包層面,通過回朔分析驗(yàn)證故障。
五、結(jié)束語
本文分析了當(dāng)今企業(yè)網(wǎng)絡(luò)運(yùn)維的難點(diǎn)與需求,引出網(wǎng)絡(luò)態(tài)勢(shì)感知平臺(tái)的建設(shè)思路及架構(gòu)、原理,并通過大型金融服務(wù)機(jī)構(gòu)的建設(shè)實(shí)例,展示了平臺(tái)的建設(shè)成效,為各行業(yè)建設(shè)網(wǎng)絡(luò)態(tài)勢(shì)感知平臺(tái)提供了參考。