李柳音
【摘要】在當前這個信息化社會中,社會生產環(huán)節(jié)中的信息系統(tǒng)發(fā)揮著越來越大的作用,并在相關技術不斷發(fā)展的影響之下,信息系統(tǒng)的整體架構逐步向著云化及分布式的方向不斷發(fā)展,在這一情形下,運維系統(tǒng)怎樣通過服務的主動化在提升運維效率的基礎上提升客戶感知能力就成為了一個急需解決的問題。本文圍繞著大數(shù)據技術下的智能運維系統(tǒng)設計及應用展開了相應的研究。
【關鍵詞】大數(shù)據;智能運維系統(tǒng);設計
中圖分類號:TN923 ? ? ? ? ? ? ? ?文獻標識碼:A ? ? ? ? ? ? ? 文章編號:1673-0348(2020)010-050-03
[Abstract] In the current information society, the information system in the social production sector plays an increasingly important role, and under the influence of the continuous development of related technology, the overall architecture of the information system is gradually developing in the direction of cloudand and distributed, in this case, how to improve customer perception ability through the initiative of service on the basis of improving operational efficiency has become an urgent problem to be solved. This paper focuses on the design and application of intelligent operation and maintenance system under big data technology.?
[Keywords] Big Data; Intelligent Operations and Maintenance Systems; Design
以大數(shù)據和云計算技術作為基礎的智能化運維系統(tǒng),可以很好的解決傳統(tǒng)性質下的基于及人等待暴露問題的IT運維服務的方式,全新的大數(shù)據智能運維系統(tǒng)可以通過全面實時的網絡監(jiān)控及大數(shù)據分析能力,確保在最快發(fā)現(xiàn)問題的同時發(fā)出系統(tǒng)警報并做出合理化的調整,做到及時有效規(guī)避各類風險。
1. 大數(shù)據智能運維系統(tǒng)的技術原理分析
較之傳統(tǒng)的運維系統(tǒng),大數(shù)據智能運維系統(tǒng)在數(shù)據的搜集量、處理速度、業(yè)務覆蓋范圍等方面取得了重大發(fā)展進步,大數(shù)據運維系統(tǒng)的出現(xiàn),推動了運維系統(tǒng)從之前的自動化發(fā)展到智能化,應用的根本目標就是在降低運維成本的同時為客戶提供更高水平的服務質量及服務體驗。就目前的情況看來,云計算平臺的實際成本投入主要包括網絡寬帶、服務器以及維護工作人力等方面。在全面分析運維大數(shù)據的基礎上,實現(xiàn)自動化預測及管理硬件故障問題,使得在其管理工作方面的投入趨近于零。通過其中智能混部技術的有效應用,可以做到針對不同類別的任務實施動態(tài)化感知、合理計算分配內存以及全局調度等工作,也就是通過資源利用程度的最大化,最小化預算的具體開銷。
大數(shù)據運維系統(tǒng)以大數(shù)據技術作為其技術基礎,在全面定義好各項運維工作指標的基礎上,做到以較高的工作頻率來密切監(jiān)視系統(tǒng)每部每一臺服務器的運行數(shù)據,并在運行日志統(tǒng)一化收集之后,借助各種類型非關系數(shù)據庫保存其中多多樣化的各項數(shù)據。在此之后,將收集存儲的各項數(shù)據集體寫入到Hadoop數(shù)據集群中,借助大數(shù)據技術針對這些收集來的數(shù)據做出多維度的數(shù)據離線分析,并生成與之相對應的曲線圖,并與之前設定好的指標數(shù)據做出對比,通過關聯(lián)監(jiān)控報警系統(tǒng),實現(xiàn)實時監(jiān)測數(shù)據中心性能和可用性的目標,并做出發(fā)展趨勢分析。借助以歷史數(shù)據和算法作為基礎的預測模型應用,合理的預測出服務器的未來運行狀況及問題,以此為運維人員做出系統(tǒng)的提前遷移及硬件資源的調整提供數(shù)據信息支持。
2. 當前信息系統(tǒng)運維面對的挑戰(zhàn)分析
當前的信息運維主要面臨著來自云計算技術發(fā)展帶來的挑戰(zhàn),云計算技術發(fā)展中出現(xiàn)的能力分散、管理集中的方式使得信息系統(tǒng)的整體架構及運營模式出現(xiàn)了革命性轉變。而作為核心的虛擬技術對于傳統(tǒng)運維系統(tǒng)運行帶來了極大的挑戰(zhàn),主要是各類基礎設施及通用性質的軟硬件平臺的增添,致使傳統(tǒng)的監(jiān)控及數(shù)據分析方式無法滿足運維系統(tǒng)正常運轉的要求。具體來說,主要存在著如下兩方面的問題:
第一,監(jiān)控防護的被動化。傳統(tǒng)意義上的監(jiān)控流程可以總結為問題的發(fā)生—問題位置發(fā)現(xiàn)—告知運維人員—運維人員解決問題的這樣一個流程。換言之,只要出現(xiàn)了警報,就說明了問題已經發(fā)生,需要開展事后控制及管理工作。在這種監(jiān)控方式下,對于運維人員專業(yè)素質的要求相對較高。主要是因為在問題已經發(fā)生的情況下,如果無法做到及時止損,將會帶來十分嚴重的后果。
第二,傳統(tǒng)運維手段和大數(shù)據環(huán)境之間的沖突。大數(shù)據環(huán)境下的數(shù)據特征之一就是指數(shù)式增長,繼續(xù)使用傳統(tǒng)性質的運維手段在海量的數(shù)據面前很容易出現(xiàn)工作死角,導致無法保障運維工作的最終效果。與此同時,傳統(tǒng)的運維手段缺失面向管理人員及業(yè)務人員的多維度分析運維系統(tǒng)工作數(shù)據的工具,導致運維人員無法有效針對的大量運維數(shù)據有效開展運維工作。
3. 大數(shù)據智能運維系統(tǒng)功能設計分析
3.1 智能警告
大數(shù)據智能運維系統(tǒng)中的智能警告功能,就是以被監(jiān)控對象的歷史數(shù)據及其走勢作為基礎,在應用統(tǒng)計學原理的基礎上,借助大數(shù)據技術的分析功能,最終判斷出被監(jiān)控對象性能數(shù)據的平穩(wěn)與否,并且還可以做到判斷被監(jiān)控對象業(yè)務形態(tài)差異以及不同時間范圍的具體表現(xiàn),最終生成一個跟隨業(yè)務以及時間點變化的動態(tài)化閾值,借助這一動態(tài)閾值的幫助,建立一個較為健壯性能檢測機制,使得警告檢測得以從之前的固定值形式轉為一個隨著時間及業(yè)務變化做出自適應反應的動態(tài)數(shù)值,如此一來。出現(xiàn)無效警告問題的概率就大幅度降低,進而幫助用戶精準化的感知系統(tǒng)中的性能異常情況。
3.2 分析預測智能化
分析預測的智能化功能,以服務器內部的SMATR信息、syslog信息等各種類型的信息作為基礎,同時使用監(jiān)督及多示例實習等方式,并借助LR或者是GBDT模型將場景特征引入其中,以此來實現(xiàn)針對服務器內部使用頻率較高的部件發(fā)生故障的概率及故障出現(xiàn)的時間點做出合理的預測,通過實現(xiàn)感知故障的發(fā)生概率以及故障出現(xiàn)的時間點,并采取相應的措施達到防患于未然的目標,極大的提升了整體IT架構的可用性。其中智能化容量預測從產品標準及定制開發(fā)的方式出發(fā),提供了一種基于動態(tài)化基線及閾值下的趨勢分析及瓶頸點預測的功能,主要就是針對IT系統(tǒng)的容量預測這一功能。除此之外,其中的智能化流量預測通過使用定制開發(fā)的方法,提供了一種針對多數(shù)據中心及多冗余鏈路的網絡流量預測技術,得出的預測數(shù)據可以為流量數(shù)據的調度決策提供相應的依據。
3.3 根因定位智能化
這一功能從其本質上來看,就是一個系統(tǒng)故障根源的定位功能,以專家知識庫作為功能基礎,用于定位復雜IT場景下的故障根源。同時,還可以提供以故障根源作為基礎的計算故障影響范圍及自動化處理故障等功能。
3.4 能耗智能化管理
在能耗的智能化管理功能中,在全面采集服務器運行能耗數(shù)據的基礎上,從集群及業(yè)務兩大角度出發(fā),在對比分析服務器功耗歷史數(shù)據及實時采集數(shù)據的同時結合上云平臺的業(yè)務調度機制,使用power capping或者是power saving等技術,達成優(yōu)化整體業(yè)務系統(tǒng)功耗的目標,從而在保障系統(tǒng)穩(wěn)定運行的基礎上,最小化其功耗。
4. 大數(shù)據智能運維系統(tǒng)的技術架構分析
4.1 采集器模塊
從整體層面上來看,大數(shù)據智能運維系統(tǒng)主要包括了采集器、數(shù)據的存儲、大數(shù)據技術的分析及數(shù)據展示這四大邏輯性不同的主要模塊,這四個模塊代表了數(shù)據的從采集到最終展示的不同階段。其中的采集器模塊十分有效的達成了分布式采集的目標,全面實現(xiàn)了數(shù)據動態(tài)化分布采集的相關任務,保障了基礎數(shù)據資源采集工作高效率,諸如主機、虛擬機、存儲以及網絡等部分的數(shù)據都可以做到的技術獲取。采集器模塊內部的全部節(jié)點都是處于同一地位上的,只是執(zhí)行的采集任務有所差異,一旦其中的某一個采集節(jié)點停止正常運行,控制中心就會在第一時間做出監(jiān)測及確認,隨后將本模塊負責的數(shù)據采集業(yè)務分配給其他采集器節(jié)點,借此來保障數(shù)據采集的連續(xù)及完整性。
4.2 數(shù)據存儲模塊
在數(shù)據存儲模塊中,具體包括了如下兩大數(shù)據庫板塊:結構化的MySQL數(shù)據庫以及非結構化的MongoDB數(shù)據庫。其中結構化的MySQL數(shù)據庫主要是用于儲存系統(tǒng)內部的配置信息和與數(shù)據中心基礎設施有關的基本信息。此類信息的共同特點就是數(shù)據總量并不龐大,并且數(shù)據結構具備較強的穩(wěn)定性,即便是出現(xiàn)變動,范圍及幅度相對較小。非結構化的MongoDB數(shù)據庫主要是用于存儲全部基礎設施運行過程中產生的所有運行數(shù)據及日志信息。這一類數(shù)據信息具備著較強的實時性及較高的更新頻率,并且數(shù)據結構缺乏。通過在數(shù)據存儲模塊中同時使用結構化及非結構化的數(shù)據庫,實現(xiàn)儲存系統(tǒng)內全部類型數(shù)據的目標。
4.3 數(shù)據分析模塊
數(shù)據分析是整個大數(shù)據智能運維系統(tǒng)中的核心模塊部分,主要的功能就是實時分析收集來的全部數(shù)據類型,該模塊是以Hadoop+Spark結構作為基礎,Hadoop提供了數(shù)據分析所需的調度相關任務及存儲分布式文件的功能,Spark則是將數(shù)據在置于內存的前提下實現(xiàn)Mapreduce的計算。Hadoop+Spark結構的使用可以大幅度的提升相關數(shù)據的處理效率,真正意義上滿足了實時分析系統(tǒng)日志的有關需求,并且產生的各類數(shù)據也都可以以最快的速度儲存到數(shù)據庫內部,可以極大的降低重復計算問題的發(fā)生概率。
4.4 展示模塊
展示模塊就是在使用圖表工具的基礎上,針對收集而來的系統(tǒng)監(jiān)控、大數(shù)據及其他渠道的信息做出圖形化的處理,從而將這些原本不可見的抽象運維數(shù)據轉變?yōu)橐粋€直觀的數(shù)據圖表形式,并且可以從不同的基礎資源出發(fā),借助圖表展示其運行狀況和對應結果,將之直接呈現(xiàn)給操作及技術人員,同時也可以為其工作的有效落實提供相應的基礎。
5. 總結
在當前這個人工智能、大數(shù)據、云計算技術快速發(fā)展的時代大背景下,智能運維系統(tǒng)的建立已經成為一種無法阻擋的發(fā)展潮流,這些高新技術的應用為各類業(yè)務的運行提供了極大的便利,同時也為智能運維系統(tǒng)的建立、應用及發(fā)展提供了深厚的技術基礎,同時也為解決傳統(tǒng)運維中存在的監(jiān)控防護的被動化以及技術手段滯后等問題提供了全新的思路。通過其中采集器、數(shù)據存儲、分析數(shù)據以及的展示模塊的良好建設,就可以實現(xiàn)運維系統(tǒng)中的智能警告、分析預測智能化、根因定位智能化、能耗智能化管理等功能,借此保障運維系統(tǒng)的智能化發(fā)展及其作用發(fā)揮。
參考文獻:
[1]曹建軍.基于大數(shù)據的云計算中心智能運維系統(tǒng)的研究[J].計算機產品與流通,2019(07):150.
[2]林剛.基于大數(shù)據云計算的鐵路智能運維系統(tǒng)技術研究[J].鐵道通信信號,2019,55(05):37-41.
[3]譚敏,譚家興.基于大數(shù)據日志的智能運維系統(tǒng)設計[J].長江工程職業(yè)技術學院學報,2019,36(01):10-12.
[4]張飛.基于大數(shù)據的配電自動化終端智能運維管理系統(tǒng)[J].現(xiàn)代工業(yè)經濟和信息化,2018,8(15):72-73.
[5]李剛. 基于大數(shù)據及云計算的電務綜合運維技術研究[D].中國鐵道科學研究院,2018.
[6]羅硯.基于大數(shù)據的信息系統(tǒng)運維智能化研究[J].郵電設計技術,2018(03):79-82.