本文先簡要分析了網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的運維特點,然后詳細介紹了網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備人工智能化運維中所用的三種常見技術(shù)與算法,并對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備人工智能化運維在異常數(shù)據(jù)剔除、故障預(yù)測與預(yù)警、自動化巡檢以及資源優(yōu)化配置方面的應(yīng)用做出深度研究,旨在提升網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的運維效率與可靠性。
隨著現(xiàn)代化信息技術(shù)的迅猛發(fā)展,網(wǎng)絡(luò)數(shù)據(jù)中心的重要性逐漸凸顯。作為其核心組成部分,IT設(shè)備的穩(wěn)定運行對各類業(yè)務(wù)的順利開展具有重要意義和現(xiàn)實價值。
(一)IT設(shè)備的復(fù)雜性和多樣性
網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的種類較為多樣,包括服務(wù)器、路由器、存儲設(shè)備、網(wǎng)絡(luò)設(shè)備等,不同類型的IT設(shè)備在技術(shù)規(guī)格、性能特點和運維需求上各不相同,比如不同網(wǎng)絡(luò)設(shè)備所選用的連接方式和協(xié)議存在明顯區(qū)別。這種復(fù)雜性和多樣性就在一定程度上增加了運維難度,需要先進技術(shù)手段的應(yīng)用。
(二)高可靠性與運維壓力
通常情況下,網(wǎng)絡(luò)數(shù)據(jù)中心承擔(dān)著各種關(guān)鍵業(yè)務(wù)的運行與數(shù)據(jù)信息傳輸,對所用IT設(shè)備的可靠性有著極高的要求,因此任何關(guān)聯(lián)設(shè)備在此過程中出現(xiàn)故障或異常問題都有可能導(dǎo)致關(guān)鍵業(yè)務(wù)中斷,并造成一定影響和損失。因此需要及時發(fā)現(xiàn)并采取相應(yīng)手段對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備進行定期運維,此種高可靠性要求給運維人員和技術(shù)人員帶來了一定壓力,需要人工智能技術(shù)的作用支撐與保障。
(一)機器學(xué)習(xí)算法
機器學(xué)習(xí)算法是一門涉及概率論、復(fù)雜算法理論等多領(lǐng)域的交叉學(xué)科,通過計算機模擬方法模仿人類學(xué)習(xí)行為不斷獲取新知識與技能,不僅能夠按照網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的性能標(biāo)準規(guī)范采用分布式和并行計算方法,還能有效規(guī)避噪聲數(shù)據(jù)和冗余對最后學(xué)習(xí)結(jié)果的不利影響。
(二)深度學(xué)習(xí)技術(shù)
深度學(xué)習(xí)模型可以對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備運行數(shù)控特征進行自動提取,并利用圖像識別技術(shù)對IT設(shè)備外觀進行圖像記錄與分析,檢測IT設(shè)備的物理損壞情況;還能夠利用自然語言處理技術(shù)對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備運行日志進行分析并提取其中所存在的各類關(guān)鍵信息,幫助運維人員和技術(shù)人員快速定位故障原因。
(三)數(shù)據(jù)采集與處理技術(shù)
數(shù)據(jù)采集與處理技術(shù)是網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備實現(xiàn)人工智能化運維的基礎(chǔ)。通過傳感器、監(jiān)測設(shè)備等手段,可以實時采集網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的運行網(wǎng)絡(luò)流量、電壓電流數(shù)據(jù)等,并綜合利用數(shù)據(jù)清洗與整合技術(shù)對采集到的數(shù)據(jù)信息進行處理,去除噪聲和異常值,提高數(shù)據(jù)的質(zhì)量和可用性。
(一)異常數(shù)據(jù)剔除
針對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備異常數(shù)據(jù)的剔除,可以采用分層剪枝策略進行。首先需要使用數(shù)據(jù)挖掘算法對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備中的現(xiàn)有數(shù)據(jù)元素和中心層數(shù)進行匯總計算,由此得出該網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備在網(wǎng)絡(luò)中心元素的高潛在層總量;其次需要對網(wǎng)絡(luò)中心元素高潛在層內(nèi)所包含的數(shù)據(jù)元素進行分析判斷,若數(shù)據(jù)元素分數(shù)較高則可將該元素作為此次數(shù)據(jù)分析中的根本原因元素,并由此找出不存在于網(wǎng)絡(luò)中心數(shù)據(jù)集中的中心層數(shù);最后要使用分層剪枝策略對其他數(shù)據(jù)集進行修剪,進一步縮小搜索與分析空間,并由此開展對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備數(shù)據(jù)集中各種異常數(shù)據(jù)的定位、篩選和剔除。
其中,異常數(shù)據(jù)定位是此過程中最關(guān)鍵的步驟之一,定位精確程度將直接影響異常數(shù)據(jù)剔除程度,主要工作流程為:首先要對網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備在長時間運行中的各項平均指標(biāo)數(shù)據(jù)進行多維度監(jiān)測,在完成損失函數(shù)最小化處理與計算后構(gòu)建基于該網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的訓(xùn)練模型;其次,利用訓(xùn)練模型預(yù)估并計算出該網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的重建概率;最后,將所得到的重建概率結(jié)果與預(yù)期設(shè)定閾值進行大小比較,若重建概率小于預(yù)期設(shè)定閾值,則說明此次計算所用的平均指標(biāo)數(shù)據(jù)為異常數(shù)據(jù),需要對其進行原因分析后再完全剔除;若重建概率大于預(yù)期設(shè)定閾值,則說明此次計算所用的平均指標(biāo)數(shù)據(jù)為正常數(shù)據(jù),不需做其他處理。
(二)故障預(yù)測與預(yù)警
基于機器學(xué)習(xí)算法的回歸分析,可對IT設(shè)備在運行中的各類關(guān)鍵指標(biāo)和性能,如運行實時電壓、數(shù)據(jù)流量大小、硬盤讀取速度、設(shè)備運行溫度等進行建模,并實時檢測這些關(guān)鍵數(shù)據(jù)指標(biāo)和性能的穩(wěn)定性與變動趨勢,預(yù)測該IT設(shè)備在未來某一時刻可能會出現(xiàn)故障的概率以及類型。若預(yù)測結(jié)果顯示故障出現(xiàn)概率較高且風(fēng)險較大,則系統(tǒng)會向運維人員發(fā)出預(yù)警,提醒運維人員提前做好準備。
與此同時,基于深度學(xué)習(xí)算法與技術(shù)的長短期記憶網(wǎng)絡(luò)能夠?qū)T設(shè)備在運行過程中所產(chǎn)生的時間序列數(shù)據(jù)進行處理,捕捉具有周期性變化特點的IT設(shè)備運行數(shù)據(jù)中的變化規(guī)律,同時結(jié)合人工智能技術(shù)與大數(shù)據(jù)分析技術(shù),對其他同類IT設(shè)備的歷史故障和過往運維數(shù)據(jù)進行深入挖掘,由此得出該類IT設(shè)備所發(fā)生故障的潛在模式和關(guān)聯(lián)因素。其中,長短期記憶網(wǎng)絡(luò)中的遺忘門能夠?qū)Ω黝惾哂鄶?shù)據(jù)信息進行篩選和消除,輸入門能夠?qū)T設(shè)備在運行過程中的實時數(shù)據(jù)進行引入并更新,輸出門則對這些現(xiàn)有數(shù)據(jù)信息進行輸出與傳遞控制,再加上自然語言處理與選擇性記憶和遺忘功能,能夠在確保信息流動準確性和長期保證的同時為IT設(shè)備的故障預(yù)測提供更全面的數(shù)據(jù)依據(jù)。
(三)自動化巡檢的實現(xiàn)方式
人工智能化運維對IT設(shè)備進行自動化巡檢的具體實現(xiàn)方式為:通過在IT設(shè)備內(nèi)部安裝各類傳感器系統(tǒng),如溫度傳感器、振動傳感器等,對基于網(wǎng)絡(luò)數(shù)據(jù)中心的IT設(shè)備所處當(dāng)前運行環(huán)境和物理狀態(tài)數(shù)據(jù)進行采集。在這些數(shù)據(jù)經(jīng)過預(yù)處理并傳輸?shù)竭\維管理系統(tǒng)后,系統(tǒng)平臺會利用內(nèi)置算法,如聚類算法等對其進行自動分析并進行組別劃分,由此確定故障問題。
基于聚類算法的劃分故障分析方法在網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備故障檢測與運行維護中的應(yīng)用流程為:分裂法會根據(jù)系統(tǒng)所提供的多個元組或數(shù)據(jù)集進行分組構(gòu)造,元組數(shù)量和構(gòu)造分組數(shù)量分別用N和K來表示,每個分組都代表一個不同聚類且K (四)資源優(yōu)化配置 基于先進算法以及人工智能技術(shù)的智能化運維可以根據(jù)網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的實際業(yè)務(wù)需求和運行負載情況,對數(shù)據(jù)資源進行動態(tài)優(yōu)化配置,并利用強化學(xué)習(xí)手段不斷引進和調(diào)整資源分配策略,以達到最優(yōu)的資源利用效果。 當(dāng)業(yè)務(wù)量增加時,系統(tǒng)平臺會自動監(jiān)測到網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備負載變動與上升幅度,同時及時分配更多計算資源和存儲資源給相應(yīng)的IT設(shè)備,保證當(dāng)前業(yè)務(wù)的順利進行和完成。另外還能夠?qū)W(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備的性能數(shù)據(jù)進行分析,識別出性能瓶頸以及矛盾問題,并進行更具針對性的資源優(yōu)化。比如,若發(fā)現(xiàn)某平臺網(wǎng)絡(luò)寬帶利用率數(shù)值不正常,則系統(tǒng)平臺會自動調(diào)整當(dāng)前網(wǎng)絡(luò)運輸流量的分配,或是采取適當(dāng)增加網(wǎng)絡(luò)資源的方式提高整體系統(tǒng)的性能。另外還可以結(jié)合不同業(yè)務(wù)的優(yōu)先級和時效性進行資源的合理分配。對于關(guān)鍵業(yè)務(wù)和高優(yōu)先級業(yè)務(wù),需要對其運行中的資源需求采取優(yōu)先保證措施,以確保業(yè)務(wù)的穩(wěn)定性和可靠性;對于一般業(yè)務(wù)和低優(yōu)先級業(yè)務(wù),則可以在資源緊張時首先對其進行適當(dāng)?shù)馁Y源分配調(diào)整,以保證整體系統(tǒng)的平衡運行。 綜上所述,人工智能技術(shù)與算法在網(wǎng)絡(luò)數(shù)據(jù)中心IT設(shè)備運維中的應(yīng)用能夠進一步提升設(shè)備運行穩(wěn)定性和運維可靠性。因此相關(guān)技術(shù)人員應(yīng)盡快在實際工作中根據(jù)IT設(shè)備性能與關(guān)鍵業(yè)務(wù)需求積極引入和完善智能運維系統(tǒng)平臺,為網(wǎng)絡(luò)數(shù)據(jù)中心的穩(wěn)定運行提供有力保障。 作者單位:對外經(jīng)濟貿(mào)易大學(xué) 國際商學(xué)院五、結(jié)束語