• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)初步研究

      2022-06-30 07:46:34何欣玲黃思煒
      關(guān)鍵詞:數(shù)據(jù)中心運(yùn)維鐵路

      趙 天,劉 宇,何欣玲,黃思煒

      (中國(guó)鐵路信息科技集團(tuán)有限公司,北京 100844)

      隨著鐵路信息化的不斷發(fā)展,鐵路數(shù)據(jù)中心運(yùn)維工作日趨復(fù)雜。當(dāng)前,云計(jì)算已逐漸成為鐵路信息系統(tǒng)的主流技術(shù)架構(gòu),鐵路數(shù)據(jù)中心云化進(jìn)程不斷加快,其運(yùn)行與維護(hù)(簡(jiǎn)稱(chēng):運(yùn)維)環(huán)境的復(fù)雜化和異構(gòu)特征越發(fā)突出,面對(duì)著更加多樣化的業(yè)務(wù)需求,鐵路數(shù)據(jù)中心的日常運(yùn)維工作不得不投入更多的人力和時(shí)間,成本越來(lái)越高。

      中國(guó)鐵路信息科技集團(tuán)有限公司發(fā)布的《十四五戰(zhàn)略發(fā)展規(guī)劃》中指出,鐵路數(shù)據(jù)中心將形成兩地三中心架構(gòu),構(gòu)建統(tǒng)一運(yùn)維管理,形成彈性分配資源的技術(shù)與服務(wù)管理體系[1]。兩地三中心即同城雙活中心、主數(shù)據(jù)中心和異地?cái)?shù)據(jù)中心,且遠(yuǎn)期鐵路數(shù)據(jù)中心將朝著多地多中心方向發(fā)展。

      為應(yīng)對(duì)目前鐵路數(shù)據(jù)中心運(yùn)維工作面對(duì)的壓力和挑戰(zhàn),適應(yīng)鐵路信息化未來(lái)發(fā)展要求,鐵路數(shù)據(jù)中心需要采用更為高效的運(yùn)維模式,實(shí)現(xiàn)異地多中心的統(tǒng)一運(yùn)維管理,能夠及時(shí)、準(zhǔn)確地掌控各鐵路數(shù)據(jù)中心資源及業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行情況,實(shí)現(xiàn)鐵路數(shù)據(jù)中心運(yùn)維人力資源的統(tǒng)一調(diào)配,保障鐵路信息系統(tǒng)安全、穩(wěn)定地持續(xù)運(yùn)行。

      近年來(lái),智能運(yùn)維在信息技術(shù)領(lǐng)域受到廣泛關(guān)注,隨著大數(shù)據(jù)分析、云應(yīng)用性能管理(APM,Application Performance Management)、智能異常檢測(cè)、機(jī)器學(xué)習(xí)等技術(shù)的興起和逐漸成熟,數(shù)據(jù)中心運(yùn)維逐漸轉(zhuǎn)向數(shù)字化和智能化[2],由傳統(tǒng)模式向智能運(yùn)維管理(AIOps,Artificial Intelligence for IT Operations)演進(jìn)。

      本文結(jié)合鐵路數(shù)據(jù)中心云化趨勢(shì)和多地多中心發(fā)展要求,為實(shí)現(xiàn)全路鐵路數(shù)據(jù)中心的集中運(yùn)維管理,提出鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)方案,重點(diǎn)對(duì)運(yùn)維數(shù)據(jù)采集、運(yùn)維監(jiān)控指標(biāo)體系及運(yùn)維數(shù)據(jù)存儲(chǔ)展開(kāi)研究。

      1 鐵路數(shù)據(jù)中心智能運(yùn)維目標(biāo)

      (1)實(shí)現(xiàn)全路鐵路數(shù)據(jù)中心集中運(yùn)維管理:建立鐵路運(yùn)維管理中心,可采集和匯總異地多鐵路數(shù)據(jù)中心的運(yùn)維數(shù)據(jù)(日志、監(jiān)控信息、應(yīng)用信息等),通過(guò)大數(shù)據(jù)處理和智能分析,全面掌控各鐵路數(shù)據(jù)中心整體運(yùn)行狀況,包括網(wǎng)絡(luò)設(shè)備、物理服務(wù)器、存儲(chǔ)設(shè)備、虛擬服務(wù)器、操作系統(tǒng)、數(shù)據(jù)庫(kù)、應(yīng)用系統(tǒng)等運(yùn)行狀況。

      (2)統(tǒng)一鐵路數(shù)據(jù)中心運(yùn)維管理服務(wù)水平:規(guī)范各類(lèi)監(jiān)控對(duì)象的監(jiān)控?cái)?shù)據(jù)采集,建立標(biāo)準(zhǔn)的運(yùn)維管理指標(biāo)體系,以統(tǒng)一各鐵路數(shù)據(jù)中心運(yùn)維管理服務(wù)水平。

      (3)提高鐵路數(shù)據(jù)中心運(yùn)維效率:通過(guò)海量運(yùn)維數(shù)據(jù)有效采集、存儲(chǔ)、自動(dòng)處理和智能分析,提供異常檢測(cè)、故障分析、運(yùn)維輔助決策等運(yùn)維應(yīng)用,支持階梯式運(yùn)維團(tuán)隊(duì)協(xié)同工作,確保鐵路數(shù)據(jù)中心安全穩(wěn)定運(yùn)行和資源配置持續(xù)優(yōu)化。

      2 鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)方案

      2.1 總體架構(gòu)

      構(gòu)建鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng),實(shí)現(xiàn)對(duì)多個(gè)異地鐵路數(shù)據(jù)中心的統(tǒng)一運(yùn)維管理,兼容跨區(qū)域復(fù)雜網(wǎng)絡(luò),從各鐵路數(shù)據(jù)中心采集各類(lèi)監(jiān)控對(duì)象的運(yùn)維數(shù)據(jù),并匯集到運(yùn)維管理中心。

      鐵路數(shù)據(jù)中心運(yùn)維管理系統(tǒng)包括數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層和業(yè)務(wù)服務(wù)層,總體架構(gòu)如圖1 所示。

      圖1 鐵路數(shù)據(jù)中心運(yùn)維管理系統(tǒng)總體架構(gòu)示意

      (1)監(jiān)控對(duì)象層:涉及各鐵路數(shù)據(jù)中心的各類(lèi)監(jiān)控對(duì)象實(shí)體,包括供電、空調(diào)、溫濕度傳感器、UPS 等基礎(chǔ)環(huán)境設(shè)施,PC 服務(wù)器、存儲(chǔ)、以及路由器、交換機(jī)等IT 硬件設(shè)備,云平臺(tái)服務(wù)、虛擬機(jī)、操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件等系統(tǒng)軟件,以及各業(yè)務(wù)應(yīng)用系統(tǒng)等。

      (2)數(shù)據(jù)采集層:包括代理和采集控制平臺(tái);代理從鐵路數(shù)據(jù)中心收集各類(lèi)監(jiān)控對(duì)象的運(yùn)行狀態(tài)數(shù)據(jù)(即原始的運(yùn)維監(jiān)控?cái)?shù)據(jù)),按照統(tǒng)一口徑進(jìn)行統(tǒng)計(jì)分析,生成運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù),與原始的運(yùn)維監(jiān)控?cái)?shù)據(jù)一起上傳給采集控制平臺(tái);采集控制平臺(tái)負(fù)責(zé)接收代理上傳的數(shù)據(jù),同時(shí)對(duì)代理進(jìn)行調(diào)度管理。

      (3)數(shù)據(jù)存儲(chǔ)層:存儲(chǔ)從監(jiān)控對(duì)象采集得到的原始運(yùn)維數(shù)據(jù),以及經(jīng)分析處理后的運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù)。

      (4)業(yè)務(wù)服務(wù)層:完成運(yùn)維指標(biāo)數(shù)據(jù)的關(guān)聯(lián)分析和智能分析,為運(yùn)維管理中心階梯式運(yùn)維團(tuán)隊(duì)(包括運(yùn)維管理人員及一線、二線、三線的運(yùn)維人員)提供運(yùn)維數(shù)據(jù)可視化展示、統(tǒng)計(jì)報(bào)表、自動(dòng)告警通知,為異常檢測(cè)、故障分析、運(yùn)維輔助決策等運(yùn)維業(yè)務(wù)提供強(qiáng)有力支持,建立起7x24 h 的應(yīng)急響應(yīng)機(jī)制。

      2.2 數(shù)據(jù)采集層

      數(shù)據(jù)采集層主要由部署在鐵路數(shù)據(jù)中心一側(cè)的代理和運(yùn)維管理中心一側(cè)的采集控制平臺(tái)構(gòu)成。

      (1)代理是部署在各個(gè)鐵路數(shù)據(jù)中心不同網(wǎng)絡(luò)區(qū)域內(nèi)的各類(lèi)專(zhuān)用程序,可采用拉和推2 種的工作模式,收集各類(lèi)監(jiān)控對(duì)象的運(yùn)維數(shù)據(jù)。代理程序還會(huì)對(duì)運(yùn)維數(shù)據(jù)進(jìn)行預(yù)處理[3],剔除重復(fù)數(shù)據(jù)、空值數(shù)據(jù)和異常數(shù)據(jù)等,然后按照統(tǒng)一口徑進(jìn)行統(tǒng)計(jì)分析,生成運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù),將原始的運(yùn)維數(shù)據(jù)與監(jiān)控指標(biāo)數(shù)據(jù)一起上傳至采集控制平臺(tái)。

      (2)采集控制平臺(tái)是鐵路數(shù)據(jù)中心運(yùn)維管理系統(tǒng)的核心,負(fù)責(zé)接收代理上傳的數(shù)據(jù),并對(duì)代理進(jìn)行調(diào)度管理,控制代理采集和上報(bào)數(shù)據(jù)的周期;設(shè)置有插件庫(kù),可按需向代理下發(fā)插件,完成代理程序的升級(jí)更新。采集控制平臺(tái)主要由數(shù)據(jù)服務(wù)網(wǎng)關(guān)、數(shù)據(jù)緩存隊(duì)列和大數(shù)據(jù)處理組件3 個(gè)組件來(lái)完成。

      數(shù)據(jù)服務(wù)網(wǎng)關(guān)由LVS+Keepalive+Nginx 組成;其中,LVS 負(fù)責(zé)接入代理數(shù)據(jù)流,可提供4 層高效負(fù)載均衡;Keepalive 保障LVS 具有高可用性,避免LVS 出現(xiàn)單點(diǎn)故障;Nginx 負(fù)責(zé)將數(shù)據(jù)均衡傳輸至數(shù)據(jù)緩存隊(duì)列,可支持7 層應(yīng)用數(shù)據(jù)傳輸負(fù)載均衡。

      數(shù)據(jù)緩存隊(duì)列采用Kafka 實(shí)現(xiàn),將接收的運(yùn)維監(jiān)控?cái)?shù)據(jù)緩存起來(lái),并通知采集控制平臺(tái)盡快將其存入數(shù)據(jù)庫(kù)。Kafka 是一個(gè)分布式、多分區(qū)、多訂閱者模式的日志和消息系統(tǒng),支持冗余備份,具有處理速度快、高吞吐、支持分布式部署等特點(diǎn)。

      大數(shù)據(jù)處理組件Spark 用于海量運(yùn)維監(jiān)控?cái)?shù)據(jù)的大數(shù)據(jù)處理。通過(guò)流式計(jì)算,采用ETL 技術(shù)對(duì)運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù)進(jìn)行清理、過(guò)濾、轉(zhuǎn)換定義,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化、規(guī)范化。Spark 可以采用圖形化和表格的形式進(jìn)行快捷配置,對(duì)運(yùn)維監(jiān)控指標(biāo)數(shù)據(jù)進(jìn)行解析、提取、清洗、替換、分類(lèi)、加注標(biāo)簽、添加信息項(xiàng)、歸并等處理,并將海量運(yùn)維數(shù)據(jù)快速存入數(shù)據(jù)庫(kù)中。

      2.3 數(shù)據(jù)存儲(chǔ)層

      在云計(jì)算環(huán)境下,鐵路數(shù)據(jù)中心每年會(huì)產(chǎn)生高達(dá)數(shù)以百TB 的運(yùn)維數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)難以滿足其存儲(chǔ)要求。運(yùn)維監(jiān)控?cái)?shù)據(jù)存儲(chǔ)需要考慮海量數(shù)據(jù)的寫(xiě)入性能[4]、查詢效率、按時(shí)聚合等數(shù)據(jù)處理要求[5];此外,鑒于不同類(lèi)型監(jiān)控對(duì)象間關(guān)聯(lián)關(guān)系是數(shù)據(jù)分析的關(guān)鍵[6],數(shù)據(jù)存儲(chǔ)還應(yīng)為關(guān)聯(lián)分析提供高效的數(shù)據(jù)訪問(wèn)支持。

      數(shù)據(jù)存儲(chǔ)層使用ElasticSearch、 MongoDB、MySQL、Redis 等多種類(lèi)型的數(shù)據(jù)庫(kù),滿足異構(gòu)的海量原始運(yùn)維數(shù)據(jù)的不同存儲(chǔ)要求;采用集群部署方式,滿足數(shù)據(jù)量快速增加時(shí)橫向擴(kuò)容的需求。

      2.4 業(yè)務(wù)服務(wù)層

      提供統(tǒng)一運(yùn)維門(mén)戶,采用微服務(wù)技術(shù)架構(gòu),實(shí)現(xiàn)數(shù)據(jù)分析、報(bào)表和可視化功能模塊的組件化和服務(wù)化,每個(gè)服務(wù)可獨(dú)立開(kāi)發(fā)、部署和發(fā)布,具有較好的可擴(kuò)展性,便于系統(tǒng)維護(hù)與升級(jí)。

      3 運(yùn)維數(shù)據(jù)采集需求及運(yùn)維管理指標(biāo)體系

      3.1 鐵路數(shù)據(jù)中心運(yùn)維數(shù)據(jù)采集需求

      在云計(jì)算架構(gòu)下,鐵路數(shù)據(jù)中心的資源種類(lèi)更多,運(yùn)維監(jiān)控對(duì)象構(gòu)成更為復(fù)雜。鐵路數(shù)據(jù)中心運(yùn)維監(jiān)控對(duì)象可劃分為基礎(chǔ)環(huán)境設(shè)施、IT 硬件設(shè)備、系統(tǒng)軟件、業(yè)務(wù)應(yīng)用系統(tǒng)4 大類(lèi)?;A(chǔ)環(huán)境設(shè)施包括供電、空調(diào)、UPS 等;IT 硬件設(shè)備包括PC 服務(wù)器、存儲(chǔ)、以及路由器、交換機(jī)、防火墻等;系統(tǒng)軟件包括云平臺(tái)服務(wù)、操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、虛擬服務(wù)器等;業(yè)務(wù)應(yīng)用系統(tǒng)是部署在鐵路數(shù)據(jù)中心的各類(lèi)鐵路信息系統(tǒng)。

      為此,需要采集的鐵路數(shù)據(jù)中心運(yùn)維數(shù)據(jù)主要包括以下4 類(lèi):

      (1)基礎(chǔ)環(huán)境設(shè)施數(shù)據(jù):包括機(jī)房溫度、濕度、供電、紅外等機(jī)房動(dòng)環(huán)數(shù)據(jù)。

      (2)IT 硬件設(shè)備數(shù)據(jù):支撐整個(gè)業(yè)務(wù)、應(yīng)用系統(tǒng)的基礎(chǔ)設(shè)施運(yùn)行環(huán)境產(chǎn)生的數(shù)據(jù),包含對(duì)服務(wù)器、網(wǎng)絡(luò)設(shè)備、存儲(chǔ)設(shè)備的運(yùn)行日志數(shù)據(jù),指示燈報(bào)警數(shù)據(jù)等。

      (3)系統(tǒng)軟件數(shù)據(jù):包括操作系統(tǒng)、中間件、數(shù)據(jù)庫(kù)、大數(shù)據(jù)組件的運(yùn)行狀態(tài)數(shù)據(jù),系統(tǒng)軟件日志數(shù)據(jù)。

      (4)業(yè)務(wù)應(yīng)用系統(tǒng)數(shù)據(jù):包括應(yīng)用系統(tǒng)的整體性能指標(biāo),系統(tǒng)運(yùn)行狀態(tài)、響應(yīng)時(shí)間、系統(tǒng)運(yùn)行日志等;還包括應(yīng)用系統(tǒng)中各個(gè)具體業(yè)務(wù)應(yīng)用的性能指標(biāo),如當(dāng)前請(qǐng)求的響應(yīng)時(shí)間、請(qǐng)求量、運(yùn)行狀態(tài)等。

      這些數(shù)據(jù)能夠表征鐵路數(shù)據(jù)中心的整體運(yùn)行狀況,運(yùn)維人員可利用這些數(shù)據(jù),了解系統(tǒng)運(yùn)行健康狀態(tài)和資源占用情況,分析和判斷業(yè)務(wù)應(yīng)用系統(tǒng)是否需要擴(kuò)容或縮容。

      3.2 運(yùn)維數(shù)據(jù)分類(lèi)

      數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)應(yīng)能對(duì)每一種監(jiān)控對(duì)象采集動(dòng)作抽象,實(shí)現(xiàn)基礎(chǔ)環(huán)境設(shè)施、IT 硬件設(shè)備、系統(tǒng)軟件、業(yè)務(wù)應(yīng)用系統(tǒng)的統(tǒng)一管理。運(yùn)維指標(biāo)數(shù)據(jù)可分為4 類(lèi):配置數(shù)據(jù)、監(jiān)測(cè)數(shù)據(jù)、日志數(shù)據(jù)和事件數(shù)據(jù)。

      (1)配置數(shù)據(jù):描述資源對(duì)象的配置屬性,包含資源對(duì)象本身的屬性,以及資源對(duì)象間關(guān)聯(lián)關(guān)系,這類(lèi)數(shù)據(jù)僅在資源對(duì)象的屬性或資源對(duì)象間關(guān)聯(lián)關(guān)系發(fā)生變更時(shí)才有變化。

      (2)監(jiān)控?cái)?shù)據(jù):主要是各類(lèi)資源對(duì)象運(yùn)行過(guò)程中產(chǎn)生時(shí)序指標(biāo)數(shù)據(jù),隨著時(shí)間積累很快,例如:CPU、內(nèi)存、磁盤(pán)、網(wǎng)絡(luò)狀態(tài)、流量、響應(yīng)時(shí)間等,主要用于反映業(yè)務(wù)和系統(tǒng)的運(yùn)行情況及狀態(tài);這類(lèi)指標(biāo)數(shù)據(jù)必須采用相同的統(tǒng)計(jì)口徑,具有可比性。

      (3)日志數(shù)據(jù):日志數(shù)據(jù)一般是文本類(lèi)型數(shù)據(jù),主要包括資源對(duì)象的運(yùn)行日志和業(yè)務(wù)應(yīng)用的運(yùn)行日志;可通過(guò)關(guān)鍵字或正則匹配,在日志數(shù)據(jù)中發(fā)現(xiàn)關(guān)鍵信息。

      (4)事件數(shù)據(jù):是運(yùn)維過(guò)程中,由監(jiān)控?cái)?shù)據(jù)或日志數(shù)據(jù)產(chǎn)生的一類(lèi)特殊數(shù)據(jù),用來(lái)記錄發(fā)生的特定事件的相關(guān)信息,例如報(bào)警、異常、上線變更、任務(wù)調(diào)度等事件;事件分為一般事件和告警事件。

      其中,監(jiān)控?cái)?shù)據(jù)量最大,主要記錄每時(shí)每刻主機(jī)、業(yè)務(wù)服務(wù)請(qǐng)求的性能指標(biāo),這類(lèi)指標(biāo)的樣本抽樣數(shù)據(jù)的采集需要做到秒級(jí)。日志數(shù)據(jù)占用的存儲(chǔ)空間最多。事件數(shù)據(jù)主要是各類(lèi)業(yè)務(wù)應(yīng)用系統(tǒng)推送給監(jiān)控系統(tǒng)的郵件,數(shù)據(jù)中心基礎(chǔ)設(shè)施管理(DCIM,Data Center Infrastructure Management)系統(tǒng)監(jiān)測(cè)的溫濕度、報(bào)警指示燈等消息事件等,這類(lèi)數(shù)據(jù)需要由監(jiān)控系統(tǒng)進(jìn)行分析,并生成標(biāo)準(zhǔn)事件格式;告警是一種特殊的事件,告警數(shù)據(jù)包括監(jiān)控系統(tǒng)生成的告警信息,以及來(lái)自于業(yè)務(wù)應(yīng)用系統(tǒng)的告警信息。

      3.3 鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系

      基于上述運(yùn)維數(shù)據(jù),構(gòu)建鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系,如表1 所示。

      表1 鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系

      各指標(biāo)數(shù)據(jù)項(xiàng)由指標(biāo)元數(shù)據(jù)定義,如表2 所示。

      表2 鐵路數(shù)據(jù)中心運(yùn)維指標(biāo)元數(shù)據(jù)定義

      鐵路數(shù)據(jù)中心資源種類(lèi)繁多,需要根據(jù)不同種類(lèi)資源定義其配置數(shù)據(jù)的數(shù)據(jù)模型,且配置數(shù)據(jù)的數(shù)據(jù)模型還會(huì)因資源屬性變更而發(fā)生變化。而監(jiān)控?cái)?shù)據(jù)、日志數(shù)據(jù)、事件數(shù)據(jù)這3 類(lèi)運(yùn)維指標(biāo)數(shù)據(jù),則可以定義相對(duì)固定的數(shù)據(jù)模型。表3 描述5 種數(shù)據(jù)模型:配置模型、指標(biāo)模型、日志模型、事件模型、告警模型。

      表3 運(yùn)維指標(biāo)數(shù)據(jù)的數(shù)據(jù)模型(數(shù)據(jù)定義)

      4 運(yùn)維監(jiān)控?cái)?shù)據(jù)采集與存儲(chǔ)

      4.1 運(yùn)維監(jiān)控?cái)?shù)據(jù)采集

      在云計(jì)算和異地多數(shù)據(jù)中心的架構(gòu)下,運(yùn)維監(jiān)控對(duì)象種類(lèi)及數(shù)量急劇增加,涉及硬件層、云平臺(tái)服務(wù)層及應(yīng)用系統(tǒng)層,運(yùn)維數(shù)據(jù)采集方式存在諸多不同。針對(duì)不同類(lèi)別監(jiān)控對(duì)象,可靈活采用多種數(shù)據(jù)采集方式。

      (1)基礎(chǔ)環(huán)境設(shè)施:對(duì)于機(jī)房空調(diào)、供水、供電、防火設(shè)備等設(shè)備設(shè)施,通過(guò)巡檢機(jī)器人[7]獲得動(dòng)環(huán)報(bào)警器、設(shè)備指示燈的聲光電告警事件信息,通過(guò)嵌入式傳感器(如溫濕度傳感器)等獲取環(huán)境信息。

      (2)IT 硬件設(shè)備:對(duì)于云平臺(tái)的主控節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)、網(wǎng)絡(luò)節(jié)點(diǎn)等物理服務(wù)器和存儲(chǔ)設(shè)備,一般通過(guò)IPMI 協(xié)議獲取機(jī)柜、機(jī)箱或服務(wù)器的報(bào)警事件數(shù)據(jù),通過(guò)巡檢機(jī)器人檢查硬件報(bào)警指示燈信息,通過(guò)SNMP 協(xié)議主動(dòng)獲得網(wǎng)絡(luò)設(shè)備性能指標(biāo)數(shù)據(jù);對(duì)于支持RESTful 協(xié)議的IT 硬件設(shè)備,可通過(guò)RESTful 主動(dòng)采集其CPU、內(nèi)存等性能數(shù)據(jù)。

      (3)系統(tǒng)軟件:對(duì)于操作系統(tǒng)以及在其上運(yùn)行的KVM、Libvirt、QEMU 等基礎(chǔ)系統(tǒng)軟件,通常通過(guò)遠(yuǎn)程連接(RPC)獲取性能指標(biāo)和運(yùn)行日志;對(duì)于Keystone、Nova、Glance 等云服務(wù),通過(guò)RESTful的方式獲得其監(jiān)控?cái)?shù)據(jù);對(duì)于虛擬機(jī),可通過(guò)內(nèi)部虛擬機(jī)守護(hù)代理(QGA,QEMU Guest Agent)程序獲得其性能指標(biāo)和日志數(shù)據(jù)。

      (4)業(yè)務(wù)應(yīng)用系統(tǒng):可通過(guò)Syslog 獲得業(yè)務(wù)應(yīng)用系統(tǒng)的運(yùn)行日志,通過(guò)HTTP/HTTPS 協(xié)議獲得其服務(wù)響應(yīng)狀態(tài)和響應(yīng)時(shí)間等性能指標(biāo)。

      代理程序通過(guò)本機(jī)或遠(yuǎn)程等方式執(zhí)行運(yùn)維數(shù)據(jù)采集任務(wù),并可采用分布式級(jí)聯(lián)的形式,對(duì)數(shù)據(jù)逐級(jí)匯聚后傳輸至采集控制平臺(tái)。針對(duì)不同的監(jiān)控對(duì)象,代理程序定制了不同的采控插件,擁有面向監(jiān)控對(duì)象的采控能力服務(wù)化封裝,以腳本或插件方式按需擴(kuò)展,實(shí)現(xiàn)大規(guī)模節(jié)點(diǎn)數(shù)據(jù)采集任務(wù)秒級(jí)調(diào)度,以及跨數(shù)據(jù)中心、多網(wǎng)絡(luò)環(huán)境下運(yùn)維數(shù)據(jù)采集的統(tǒng)一控制。

      4.2 運(yùn)維監(jiān)控?cái)?shù)據(jù)存儲(chǔ)

      所采集的運(yùn)維監(jiān)控?cái)?shù)據(jù)經(jīng)過(guò)預(yù)處理后,先寫(xiě)入消息隊(duì)列中,采集控制平臺(tái)調(diào)度流式任務(wù),從消息隊(duì)列件里讀取數(shù)據(jù),根據(jù)數(shù)據(jù)的用途和訪問(wèn)頻次進(jìn)行分類(lèi)存儲(chǔ)[8]。根據(jù)重要程度/時(shí)間等要素,對(duì)運(yùn)維監(jiān)控?cái)?shù)據(jù)進(jìn)行分類(lèi),不同類(lèi)別數(shù)據(jù)采用不同的數(shù)據(jù)生命周期管理策略,實(shí)現(xiàn)數(shù)據(jù)的快速查詢匯聚,滿足多種數(shù)據(jù)使用需求。

      4.2.1 即時(shí)訪問(wèn)的熱數(shù)據(jù)

      對(duì)于時(shí)序指標(biāo)數(shù)據(jù)、告警數(shù)據(jù)等查詢類(lèi)數(shù)據(jù),可采用 ElasticSearch 進(jìn)行存儲(chǔ);ElasticSearch 具有列數(shù)據(jù)庫(kù)的水平擴(kuò)展能力,支持吞吐量線性擴(kuò)展,特別適用于保存與時(shí)間有關(guān)的指標(biāo)數(shù)據(jù)。

      另外,在指標(biāo)閾值分析和儀表盤(pán)操作時(shí),均需要高頻訪問(wèn)最近24 h 的熱數(shù)據(jù)。使用Redis 內(nèi)存數(shù)據(jù)庫(kù),將這類(lèi)熱數(shù)據(jù)存儲(chǔ)在內(nèi)存,在出現(xiàn)高并發(fā)請(qǐng)求時(shí),能大幅度減少磁盤(pán)IO,提高數(shù)據(jù)處理響應(yīng)速度,保證高效的數(shù)據(jù)查詢檢索和分析處理。

      4.2.2 無(wú)需即時(shí)訪問(wèn)的溫?cái)?shù)據(jù)

      資源配置數(shù)據(jù)和資源對(duì)象間關(guān)聯(lián)關(guān)系數(shù)據(jù)一般不需要即時(shí)訪問(wèn),但也會(huì)經(jīng)常被使用到,對(duì)于這類(lèi)溫?cái)?shù)據(jù)可以使用關(guān)系型數(shù)據(jù)庫(kù)進(jìn)行存儲(chǔ)。

      關(guān)系型數(shù)據(jù)庫(kù)能夠保證數(shù)據(jù)強(qiáng)一致性,適用于存儲(chǔ)系統(tǒng)配置信息、功能策略、管理參數(shù)、管理任務(wù)等數(shù)據(jù)量不大的關(guān)鍵數(shù)據(jù),并且還可采用反范式設(shè)計(jì)來(lái)平衡數(shù)據(jù)庫(kù)存取效率和事務(wù)完整性。

      資源對(duì)象間關(guān)聯(lián)關(guān)系數(shù)據(jù)涉及到的大量資源實(shí)體之間錯(cuò)綜復(fù)雜的關(guān)系,可采用關(guān)系型數(shù)據(jù)庫(kù)MySQL 進(jìn)行存儲(chǔ)。MySQL 提供圖形數(shù)據(jù)存儲(chǔ)模式,能非常自然地映射資源間關(guān)系,可支持圖形數(shù)據(jù)高效檢索和拓?fù)潢P(guān)系分析。此外,MySQL 也具備事務(wù)一致性和一定水平擴(kuò)展能力,也適于應(yīng)用在資源配置數(shù)據(jù)分析方面。

      4.2.3 長(zhǎng)期存檔的冷數(shù)據(jù)

      對(duì)于配置管理信息、運(yùn)維日志等使用頻次較低,但又需要長(zhǎng)期存儲(chǔ)的冷數(shù)據(jù),采用文檔型數(shù)據(jù)庫(kù)MongoDB[9]進(jìn)行存儲(chǔ)。

      MongoDB 在海量數(shù)據(jù)存儲(chǔ)方面具備明顯優(yōu)勢(shì)[10],存儲(chǔ)模式靈活自由,檢索能力強(qiáng),讀寫(xiě)性能均衡,可支持主備、分片式集群,在性能和擴(kuò)展能力也超過(guò)關(guān)系型SQL 數(shù)據(jù)庫(kù)。

      5 典型應(yīng)用場(chǎng)景

      目前,主要面向異常檢測(cè)、故障分析、運(yùn)維輔助決策3 類(lèi)運(yùn)維業(yè)務(wù),進(jìn)行了初步應(yīng)用開(kāi)發(fā)。

      5.1 異常檢測(cè)

      為實(shí)現(xiàn)精準(zhǔn)的監(jiān)控指標(biāo)異常檢測(cè),除了常規(guī)的靜態(tài)閾值檢測(cè)外,還使用動(dòng)態(tài)閾值、周期性分析等技術(shù)。相比傳統(tǒng)的靜態(tài)閾值檢測(cè),動(dòng)態(tài)閾值考慮了監(jiān)控?cái)?shù)據(jù)的周期性變化、歷史趨勢(shì)變化以及波動(dòng)幅度變化規(guī)律,通過(guò)對(duì)此對(duì)象的監(jiān)控?cái)?shù)據(jù)走勢(shì)進(jìn)行數(shù)字建模,可計(jì)算得到監(jiān)控值在將來(lái)一段時(shí)間里的合理范圍。

      動(dòng)態(tài)閾值技術(shù)主要有線性回歸、時(shí)間序列分解、長(zhǎng)短期記憶網(wǎng)絡(luò)網(wǎng)絡(luò)(LSTM,Long Short-Term Memory)。時(shí)間序列分解的計(jì)算速度最快,LSTM具有理論上最優(yōu)分析精度,線性回歸處于中間水平??紤]到數(shù)據(jù)中心監(jiān)控指標(biāo)異常檢測(cè)計(jì)算量極大,采用時(shí)間序列分解進(jìn)行動(dòng)態(tài)閾值預(yù)測(cè),效果如圖2 所示。

      圖2 基于動(dòng)態(tài)閾值的異常檢測(cè)效果圖示例

      5.2 故障分析

      當(dāng)鐵路數(shù)據(jù)中心出現(xiàn)故障時(shí),若故障排查完全由運(yùn)維人員的分析判斷,運(yùn)維人員需要登錄多臺(tái)設(shè)備,逐一檢查監(jiān)控對(duì)象的各項(xiàng)指標(biāo),依據(jù)經(jīng)驗(yàn)判斷故障,故障排查過(guò)程耗時(shí)費(fèi)力。

      為此,匯總歷史異常數(shù)據(jù),挖掘和分析與各類(lèi)問(wèn)題現(xiàn)象相關(guān)的運(yùn)維監(jiān)控?cái)?shù)據(jù)項(xiàng),確定相關(guān)性較高的數(shù)據(jù)項(xiàng)范圍,以此確定故障排查頁(yè)面所需要展示的數(shù)據(jù)項(xiàng)。通過(guò)對(duì)大量運(yùn)維監(jiān)控?cái)?shù)據(jù)的關(guān)聯(lián)分析,故障分析功能可為運(yùn)維人員提供與故障診斷相關(guān)的重點(diǎn)關(guān)注數(shù)據(jù),并可自動(dòng)分析可能的故障原因[11],便于運(yùn)維人員確定問(wèn)題類(lèi)型,快速定位問(wèn)題,幫助其提高工作效率。圖3 為單機(jī)故障排查頁(yè)面,集中顯示CPU、內(nèi)存、磁盤(pán)等資源的消耗變化情況、設(shè)備近期工作強(qiáng)度變化情況、以及對(duì)應(yīng)集群和存儲(chǔ)等硬件環(huán)境的工作狀況。依據(jù)該頁(yè)面提供的綜合信息,運(yùn)維人員可快速判斷故障產(chǎn)生的位置和時(shí)間范圍,無(wú)需逐一查看各項(xiàng)指標(biāo)。

      圖3 單機(jī)故障排查頁(yè)面

      5.3 運(yùn)維輔助決策

      通過(guò)統(tǒng)計(jì)和預(yù)測(cè)各個(gè)鐵路數(shù)據(jù)中心資源的使用情況,為運(yùn)維人員提供資源負(fù)載清單,并對(duì)資源消耗情況進(jìn)行預(yù)測(cè),便于運(yùn)維人員全面掌握每個(gè)鐵路數(shù)據(jù)中心各類(lèi)資源的使用狀況(閑置、高負(fù)荷、使用率等)和趨勢(shì),及時(shí)制定性能調(diào)優(yōu)方案,進(jìn)行合理調(diào)度管理;并根據(jù)各類(lèi)資源的預(yù)計(jì)耗盡時(shí)間,提前進(jìn)行資源擴(kuò)容準(zhǔn)備,避免因資源耗盡而宕機(jī)的風(fēng)險(xiǎn)。對(duì)于鐵路數(shù)據(jù)中心資源消耗預(yù)測(cè),也可使用時(shí)間序列預(yù)測(cè)方法,對(duì)未來(lái)資源耗盡的時(shí)間進(jìn)行預(yù)測(cè),如圖4 所示。

      圖4 運(yùn)維輔助決策支持應(yīng)用示例

      6 結(jié)束語(yǔ)

      結(jié)合鐵路數(shù)據(jù)中心云化趨勢(shì)和多地多中心發(fā)展要求,本文提出鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)方案。鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)劃分為監(jiān)控對(duì)象層、數(shù)據(jù)采集層、數(shù)據(jù)存儲(chǔ)層和業(yè)務(wù)服務(wù)層,兼容跨區(qū)域復(fù)雜網(wǎng)絡(luò)環(huán)境,從各個(gè)鐵路數(shù)據(jù)中心采集運(yùn)維數(shù)據(jù),匯集到運(yùn)維管理中心,實(shí)現(xiàn)對(duì)異地多數(shù)據(jù)中心的統(tǒng)一運(yùn)維管理。在全面分析鐵路數(shù)據(jù)中心運(yùn)維數(shù)據(jù)采集需求的基礎(chǔ)上,建立鐵路數(shù)據(jù)中心運(yùn)維管理指標(biāo)體系,深入探討運(yùn)維監(jiān)控?cái)?shù)據(jù)采集與存儲(chǔ)技術(shù),為鐵路數(shù)據(jù)中心智能運(yùn)維管理系統(tǒng)的開(kāi)發(fā)奠定了基礎(chǔ);此外,還初步開(kāi)發(fā)了異常檢測(cè)、故障分析、運(yùn)維輔助決策典型運(yùn)維業(yè)務(wù)應(yīng)用。

      在實(shí)現(xiàn)鐵路數(shù)據(jù)中心運(yùn)維監(jiān)控?cái)?shù)據(jù)采集與存儲(chǔ)的基礎(chǔ)上,下一步將聚焦于智能分析算法模型的研究,并基于此推進(jìn)運(yùn)維業(yè)務(wù)應(yīng)用的迭代開(kāi)發(fā),提升鐵路數(shù)據(jù)中心運(yùn)維業(yè)務(wù)的自動(dòng)化、智能化水平,促進(jìn)鐵路數(shù)據(jù)中心運(yùn)維業(yè)務(wù)模式創(chuàng)新,為形成彈性分配資源的技術(shù)與服務(wù)管理體系提供強(qiáng)有力支持。

      猜你喜歡
      數(shù)據(jù)中心運(yùn)維鐵路
      酒泉云計(jì)算大數(shù)據(jù)中心
      沿著中老鐵路一路向南
      運(yùn)維技術(shù)研發(fā)決策中ITSS運(yùn)維成熟度模型應(yīng)用初探
      風(fēng)電運(yùn)維困局
      能源(2018年8期)2018-09-21 07:57:24
      鐵路通信線路維護(hù)體制改革探索與實(shí)踐
      民航綠色云數(shù)據(jù)中心PUE控制
      雜亂無(wú)章的光伏運(yùn)維 百億市場(chǎng)如何成長(zhǎng)
      能源(2017年11期)2017-12-13 08:12:25
      基于ITIL的運(yùn)維管理創(chuàng)新實(shí)踐淺析
      無(wú)人機(jī)在鐵路工程建設(shè)中的應(yīng)用與思考
      GSM-R在鐵路通信中的應(yīng)用
      醴陵市| 永泰县| 保山市| 汽车| 隆德县| 喀喇| 鹿泉市| 英吉沙县| 鄂尔多斯市| 德格县| 枣强县| 揭东县| 和顺县| 姜堰市| 溧阳市| 天台县| 宁都县| 福安市| 凤台县| 龙岩市| 竹溪县| 台江县| 六枝特区| 太白县| 灵山县| 湄潭县| 瑞安市| 沙洋县| 右玉县| 青铜峡市| 大关县| 眉山市| 泸州市| 黄梅县| 醴陵市| 都匀市| 繁昌县| 墨江| 临邑县| 顺昌县| 宁化县|