龐小龍
中通服咨詢設計研究院有限公司
現(xiàn)代園區(qū)網(wǎng)絡面臨著業(yè)務種類眾多、業(yè)務需求量巨大等諸多問題,相應的網(wǎng)絡管理也變得復雜和被動。如何提高園區(qū)網(wǎng)絡管理的及時性和準確性,降低監(jiān)控過程對網(wǎng)絡設備本身的功能及性能的影響,成了園區(qū)網(wǎng)絡智能化運維亟需解決的問題。
傳統(tǒng)的網(wǎng)絡運維采用“問答”的方式來獲取相關設備的監(jiān)控數(shù)據(jù),不能監(jiān)控過多的網(wǎng)絡節(jié)點且管理效率低。以SNMP技術為例,網(wǎng)管系統(tǒng)通過定期發(fā)送SNMP查詢消息獲得所需設備信息,這種查詢是非連續(xù)的(有時間間隔,一般為分鐘級,達不到秒級或亞秒級的顆粒度),這種非連續(xù)的查詢,往往會導致運維系統(tǒng)無法察覺到對網(wǎng)絡運行情況的突發(fā)變化。
如圖1所示,該曲線為某節(jié)點設備端口實時帶寬,通過SNMP對該接口帶寬進行監(jiān)測。在一個時間間隔區(qū)間,分別進行了第一次查詢和第二次查詢,恰巧兩次查詢結果相同,則從SNMP的角度來看,在這個時間區(qū)間內(nèi),該端口帶寬未發(fā)生變化,然而實際上接口流量卻是發(fā)生了大幅度的升降。為了提高監(jiān)控數(shù)據(jù)的精度,只能增加查詢的頻次,但是這樣的操作本身又會對被監(jiān)控階段設備產(chǎn)生影響,導致設備的CPU占用率過高而影響設備的正常功能。
圖1 SNMP網(wǎng)絡狀態(tài)信息采集示意圖
上面的例子雖然稍顯極端,但是卻直觀反映出了“問答式”傳統(tǒng)網(wǎng)絡監(jiān)控技術(如SNMP、CLI等)的諸多不足之處,而且即使是SNMP Trap和Syslog這種支持推送模式的技術,也僅僅是在設備發(fā)生告警事件后進行數(shù)據(jù)推送,并不支持數(shù)據(jù)流量類監(jiān)控數(shù)據(jù)的采集。
為了滿足大規(guī)模、高性能網(wǎng)絡的監(jiān)控需求,Telemetry技術應運而生,實現(xiàn)把傳統(tǒng)的從監(jiān)控系統(tǒng)到網(wǎng)絡設備“拉”數(shù)據(jù)的方法,變?yōu)榫W(wǎng)絡設備主動向監(jiān)控系統(tǒng)“推”數(shù)據(jù)的方法。
相對于傳統(tǒng)的網(wǎng)絡監(jiān)控技術,Telemetry具有諸多優(yōu)勢:
(1)設備主動注冊
傳統(tǒng)網(wǎng)絡監(jiān)控系統(tǒng)通過定期掃描地址段來發(fā)現(xiàn)新的設備,地址段的大小和掃描間隔對掃描速度有著直接影響。而在Telemetry中,網(wǎng)絡設備啟動后馬上上報注冊,讓監(jiān)控系統(tǒng)即刻發(fā)現(xiàn)自己,保證了監(jiān)控系統(tǒng)的即時性和不間斷性。
(2)資源利用率高
傳統(tǒng)的網(wǎng)絡監(jiān)控系統(tǒng)由于采用“一問一答”式的交互模式,每一次查詢時都要解析查詢請求報文,這就導致連續(xù)的同類型查詢需要進行重復的查詢報文解析,大量消耗設備的CPU資源,從而導致設備需要頻繁中斷其他任務來處理查詢命令。而在Telemetry中,可以一次進行多次報文的訂閱,后續(xù)采樣時,網(wǎng)絡設備持續(xù)主動的上報訂閱的數(shù)據(jù),不需要持續(xù)維持會話關系,節(jié)省了網(wǎng)絡設備的CPU資源,從而提高了網(wǎng)絡監(jiān)控的效率。
(3)運維復雜度低
傳統(tǒng)的網(wǎng)絡監(jiān)控系統(tǒng)需要配置大量的設備列表、接入設備的密碼、需收集數(shù)據(jù)的類型等信息,同時防火墻需要開啟雙向通信。而在Telemetry中,僅需要簡單配置網(wǎng)絡設備即可實現(xiàn)主動上報數(shù)據(jù)的功能,相關的防火墻開啟策略運行網(wǎng)絡設備傳輸數(shù)據(jù)到監(jiān)控系統(tǒng)。
(4)時間精度高
在Telemetry中,進行一次交互可以上報多個采樣數(shù)據(jù),同時對采樣數(shù)據(jù)進行壓縮處理,降低帶寬占用。這種高效的數(shù)據(jù)采集方式可以使采樣精度達到亞秒級甚至毫秒級。
(5)采樣數(shù)據(jù)準確性高
傳統(tǒng)網(wǎng)絡監(jiān)控系統(tǒng),由于采樣的數(shù)據(jù)沒有時間戳信息,當網(wǎng)絡有較大延遲時,采樣數(shù)據(jù)的準確性會受到較大影響。而在Telemetry中,由于采樣數(shù)據(jù)帶有時間戳信息,因此可以準確掌握采樣數(shù)據(jù)的發(fā)生時間,從而極大地提高了采樣數(shù)據(jù)的準確性。
智能化運維系統(tǒng)通過Telemetry技術完成實時高效的數(shù)據(jù)信息采集,同時結合AI算法對采集到的各類數(shù)據(jù)進行分析及呈現(xiàn)。此外,通過場景化的持續(xù)學習和專家經(jīng)驗,構建業(yè)務流、轉(zhuǎn)發(fā)路徑、網(wǎng)絡服務的多層次關聯(lián)分析能力,將運維人員從傳統(tǒng)低效的運維系統(tǒng)中解放出來,結構化地為用戶顯示應用行為及網(wǎng)絡質(zhì)量,實現(xiàn)網(wǎng)絡運維的智能化。智能網(wǎng)絡運維邏輯架構如圖2所示。
圖2 智能化運維系統(tǒng)邏輯架構圖
處于管理層的SDN控制器通過南向接口與網(wǎng)絡設備對接,完成對設備的管理。這些接口協(xié)議包括Telemetry的GRPC協(xié)議、SNMP協(xié)議、Syslog協(xié)議等。
大數(shù)據(jù)分析平臺具備滿足高速數(shù)據(jù)采集的大數(shù)據(jù)分析能力,同時結合分布式數(shù)據(jù)庫系統(tǒng)可以對各類注冊設備上報的海量實時數(shù)據(jù)進行分布式計算、匯聚、存儲,實現(xiàn)多維度的檢索及統(tǒng)計查詢能力。
數(shù)據(jù)分析模塊的智能分析系統(tǒng)根據(jù)園區(qū)網(wǎng)絡的運維場景,可向上層提供各類數(shù)據(jù)應用分析服務,例如連接類、空口性能類的智能識別及問題分析,漫游類、設備類的智能識別等。
基于Telemetry技術的智能化運維可以有效進行有線網(wǎng)絡及無線網(wǎng)絡的故障識別和原因分析。通過Telemetry從園區(qū)網(wǎng)絡中各類無線設備、有線設備獲得相關KPI數(shù)據(jù)并上報給網(wǎng)絡的SDN控制器,SDN控制器將上報數(shù)據(jù)進行分類并利用AI算法進行全網(wǎng)質(zhì)量的分析呈現(xiàn)和問題識別。
無線側(cè)的網(wǎng)絡數(shù)據(jù)主要從AP、射頻、用戶3個維度進行網(wǎng)絡質(zhì)量的評價,同時結合AI算法以及相關性分析、異常模式等功能主動識別高干擾、高信道利用率、信號弱覆蓋等與空口性能及接入相關的問題。如表1所示。
表1 采用Telemetry采集無線網(wǎng)絡狀態(tài)數(shù)據(jù)
有線側(cè)的網(wǎng)絡數(shù)據(jù)主要從設備、接口、鏈路三個維度進行網(wǎng)絡質(zhì)量評價,同時結合CPU占用率和內(nèi)存利用率等進行基線預測。通過對實時數(shù)據(jù)與預測基線的對比,可以對網(wǎng)絡指標的優(yōu)劣進行及時預判,從而實現(xiàn)主動網(wǎng)絡監(jiān)控、預測網(wǎng)絡異常,在故障發(fā)生前提前預警,讓運維人員可以提前做出相關處置,避免網(wǎng)絡性能的進一步劣化。如表2所示。
表2 采用Telemetry采集有線網(wǎng)絡狀態(tài)數(shù)據(jù)
監(jiān)測對象 主要監(jiān)測指標 設備類型接口 收/發(fā)包數(shù)、廣播包數(shù)、組播包數(shù)、丟包數(shù)、錯包數(shù)等交換機、WAC鏈路 光功率、電壓、電流、溫度等 交換機
對于以上各類網(wǎng)絡指標,SDN控制器通過訂閱、采集、緩存/分發(fā)、分析/運算、存儲/顯示5個環(huán)節(jié)的數(shù)據(jù)處理流程,實現(xiàn)網(wǎng)絡監(jiān)測運維從數(shù)據(jù)上報到頁面呈現(xiàn)全過程的管理。
訂閱階段,SDN控制器根據(jù)運維人員的實際運維需求,對不同的設備、不同的運維邏輯通過多種組合方式獲得所需的網(wǎng)絡狀態(tài)數(shù)據(jù),比如基于Syslog的用戶數(shù)據(jù)、基于Telemetry的設備/用戶性能數(shù)據(jù)、基于SNMP的設備管理數(shù)據(jù)等。SDN控制器訂閱完成后,由采集器對訂閱數(shù)據(jù)進行采集,基于SNMP的數(shù)據(jù)采集可以達到分鐘級,而基于Telemetry技術可以實現(xiàn)秒級采集,真正做到“實時”采集。采集數(shù)據(jù)上傳至SDN控制器后,經(jīng)過分布式系統(tǒng)緩存分發(fā)至對應的分析和運算模塊,基于機器學習和AI算法等多種手段進行智能化運維研判。最終,將處理后的數(shù)據(jù)存儲并集中展示,為運維人員提供智能化的支撐與服務。
通過以上模式,在時效、數(shù)據(jù)滿足度上建立最優(yōu)的大數(shù)據(jù)運維支撐體系,直觀地呈現(xiàn)全網(wǎng)整體質(zhì)量,幫助運維人員提升運維效率和用戶體驗。同時,基于實時或周期性地自動生成網(wǎng)絡質(zhì)量評估報告,提供可以量化的網(wǎng)絡服務,從而實現(xiàn)智能化的網(wǎng)絡運維。
基于Telemetry技術的數(shù)據(jù)采集為智簡園區(qū)網(wǎng)絡的SDN控制器提供了實時、精準、豐富的網(wǎng)絡指標數(shù)據(jù)。同時,基于可視化的技術方式,對整個園區(qū)網(wǎng)絡的有線、無線設備可以實時、有效、前瞻的進行數(shù)據(jù)采集和呈現(xiàn),從而實現(xiàn)真正意義上的網(wǎng)絡運維系統(tǒng)的智能化和自動化。