中圖分類號(hào):TP393;TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2025)12-0101-09
Research and Application of Hardware Device Operation and Maintenance Based on Data Reconstruction and AlOps
WANG Yao, CHENWanyi,XU Junyuan,NIE Kaixun (ZhejiangEnergyDigital TechnologyCo.,Ltd.,Hangzhou31oo12,China)
Abstract: Asa technology integrating Machine Learninganddataanalysis,AIOps (Inteligent Operationsand Maintenance) demonstrates greatpotentialinimprovingIoperationandmaintenanceefciencyanddcision-makingquality.However,thecunt industrypaysrelativelylowatentionto theoperationand maintenanceofIhardwaredevices,withmostpracticesonlystayingat te basic monitoringlevel,whichleadstosignificantroomforimprovementintheapplicationofOpsinthefieldofhardwaredevice operationand maintenanceAimingat teinsuiciencyin theoperationand maintenanceofIThardwaredevices,this paperproposes schem toenhance thequalityandquantityofhardwaredevicedata,soastosupporttheeffectiveimplementationofAOpsandensure thestableoperationofbusesssystems.Byconstructingteoperationandmaitenancedatastructureofhardwaredevicsedata structuresandautomatedprocesesaredesignedtoachieveautomaticdiscoveryofhardwaredevicesanddatacollectionMeanwhile weakclassifervotersareapliedforaomalydetection,andpredictivemodelsaresedtoimprovetheaccuracyofdataforeasting. InthepracticeoftheZhenengGoupdatacenter,thisaproachsignificantlyimprovesthequalityofhardwaredevice-relateddataand operationandmaintenanceefiencyterebyehancingthestabilityofbusinesssystemsandtheoperationalsustainabilityoftedata centerTheresults providenewideas and solutions forthefurtherdevelopmentofAOpsinhardware device operationand maintenance.
Keywords:AIOps;asst data reconstructionanomalydetection;time seriesdata forecasting;datacolection;utomatic device discovery
0 引言
智能運(yùn)維(AIOps)是一種將機(jī)器學(xué)習(xí)和數(shù)據(jù)分析技術(shù)應(yīng)用于IT運(yùn)維領(lǐng)域的創(chuàng)新實(shí)踐,旨在顯著提升運(yùn)維效率和決策質(zhì)量。相較于傳統(tǒng)運(yùn)維工作往往依賴于人力密集型的操作流程導(dǎo)致的存在成本高昂、故障響應(yīng)時(shí)間長及人為錯(cuò)誤率高等缺點(diǎn)[1-2],AIOps能夠在成本控制、系統(tǒng)穩(wěn)定性和運(yùn)維效率之間實(shí)現(xiàn)更好的平衡,推動(dòng)運(yùn)維模式向智能化和自動(dòng)化轉(zhuǎn)型,從2016年由Gartner公司提出開始到現(xiàn)在,AIOps已經(jīng)成為IT運(yùn)維中不可或缺的一部分。
AIOps的流程通常包括幾個(gè)階段:數(shù)據(jù)的采集與整合、數(shù)據(jù)的存儲(chǔ)與管理、數(shù)據(jù)分析、異常檢測、原因分析、自動(dòng)化響應(yīng)與執(zhí)行、預(yù)測性分析與異常預(yù)測、持續(xù)學(xué)習(xí)與優(yōu)化等。其中在數(shù)據(jù)分析、異常檢測和原因分析這幾個(gè)階段因?yàn)槠渑cAI具有較強(qiáng)的關(guān)聯(lián)性,因此在學(xué)界和業(yè)界受到了很大的關(guān)注和研究。
目前國內(nèi)多家大型企業(yè)已涉足AIOps領(lǐng)域。例如,國網(wǎng)上海公司采用基于深度神經(jīng)網(wǎng)絡(luò)來對監(jiān)控采集的指標(biāo)數(shù)據(jù)和業(yè)務(wù)相關(guān)的指標(biāo)數(shù)據(jù)進(jìn)行趨勢預(yù)測以及異常檢測[3]。交通銀行通過Hadoop/Spark來架構(gòu)運(yùn)維大數(shù)據(jù)處理平臺(tái),實(shí)現(xiàn)各種運(yùn)維數(shù)據(jù)的集中存儲(chǔ)和標(biāo)簽化處理[4]。工商銀行則是通過AIOps對運(yùn)維數(shù)據(jù)進(jìn)行歸集,檢測交易指標(biāo)波動(dòng)以及實(shí)時(shí)故障診斷等[5]。中國聯(lián)通也針對旗下的聯(lián)通號(hào)卡系統(tǒng)等設(shè)立了相應(yīng)的智能運(yùn)維平臺(tái),并采用了孤立森林等算法進(jìn)行異常點(diǎn)檢測[。阿里巴巴針對其超大規(guī)模云計(jì)算平臺(tái),運(yùn)用AIOps來預(yù)測近未來可能發(fā)生的節(jié)點(diǎn)故障以最大限度地減少其帶來的影響[7]。當(dāng)前國內(nèi)企業(yè)在AIOps 的實(shí)踐的重點(diǎn)更多是在于如何利用機(jī)器學(xué)習(xí)和人工智能來提高AIOps的性能,或者如何將AIOps應(yīng)用在某一具體業(yè)務(wù)場景上面[3-4,6-7],對于保障這些業(yè)務(wù)系統(tǒng)運(yùn)行的各種IT硬件設(shè)備和其背后的數(shù)據(jù)中心的基礎(chǔ)運(yùn)維方面的關(guān)注程度較少。在文獻(xiàn)[5]中,雖然作者介紹了其AIOps的系統(tǒng)架構(gòu)和其系統(tǒng)在基礎(chǔ)運(yùn)維中的一些應(yīng)用場景,但是都只是簡單的一筆帶過而沒有對其中的一些細(xì)節(jié)進(jìn)行細(xì)致的介紹和討論。
通過對IT硬件設(shè)備等基礎(chǔ)設(shè)施的運(yùn)維可以有效地發(fā)現(xiàn)業(yè)務(wù)系統(tǒng)在運(yùn)行時(shí)的潛在問題,避免系統(tǒng)故障,還可以更好地理解資源使用情況,優(yōu)化資源配置,從而提高成本效益。但是目前業(yè)界對于數(shù)據(jù)中心中的IT硬件設(shè)備等基礎(chǔ)設(shè)施的運(yùn)維關(guān)注度和研究卻少之又少,或者說只是做到最基礎(chǔ)的運(yùn)維監(jiān)控而已,對于智能運(yùn)維在基礎(chǔ)設(shè)施的運(yùn)維上,無論是表現(xiàn)性能還是在業(yè)務(wù)方面的挖掘和探索,遠(yuǎn)沒有其對業(yè)務(wù)系統(tǒng)的智能運(yùn)維的關(guān)注度高。
針對數(shù)據(jù)中心基礎(chǔ)設(shè)施的全面監(jiān)控和數(shù)據(jù)中心運(yùn)維AIOps應(yīng)用匱乏的現(xiàn)狀,本文將重點(diǎn)研究“如何提升數(shù)據(jù)中心中硬件設(shè)備的數(shù)據(jù)質(zhì)量和數(shù)量,以支持AIOps的有效實(shí)施和業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行”這一問題,本文基于浙江能源集團(tuán)已用的AIOps系統(tǒng)IT集中監(jiān)控系統(tǒng),從IT資硬件設(shè)備的各類運(yùn)維相關(guān)信息結(jié)構(gòu)入手,對其進(jìn)行重構(gòu)來提升所收集的硬件設(shè)備數(shù)據(jù)等基礎(chǔ)設(shè)施的質(zhì)量和數(shù)量,并通過添加自動(dòng)化技術(shù)和異常數(shù)據(jù)的實(shí)時(shí)監(jiān)測流程來提升IT集中監(jiān)控系統(tǒng)的易用程度和異常檢測結(jié)果的有效性。
1 相關(guān)工作
1.1IT集中監(jiān)控系統(tǒng)
IT集中監(jiān)控系統(tǒng)(ITCM)是浙江省能源集團(tuán)針對其兩個(gè)數(shù)據(jù)中心所開發(fā)的AIOps運(yùn)維系統(tǒng),目前數(shù)據(jù)中心中共有491臺(tái)硬件服務(wù)器,近2000臺(tái)操作系統(tǒng)和200多套涵蓋集團(tuán)各個(gè)方面業(yè)務(wù)的系統(tǒng)運(yùn)行在這些硬件服務(wù)器上。ITCM的系統(tǒng)架構(gòu)如圖1所示。
在ITCM架構(gòu)中,主要包含前端服務(wù)、后端BFF服務(wù)、告警集成管理服務(wù)、PostgreSQL業(yè)務(wù)數(shù)據(jù)庫、Kafka,以及數(shù)據(jù)處理引擎。告警集成管理服務(wù)由管理模塊和數(shù)據(jù)處理引擎模塊組成,其中管理模塊負(fù)責(zé)系統(tǒng)應(yīng)用層的業(yè)務(wù)邏輯,而數(shù)據(jù)處理引擎則承擔(dān)數(shù)據(jù)集成、數(shù)據(jù)豐富、事件處理和告警通知等核心功能。
在ITCM的告警流程中,覆蓋了對基礎(chǔ)設(shè)施、容器、網(wǎng)絡(luò)設(shè)備、私有云和應(yīng)用的監(jiān)控和告警。本文重點(diǎn)聚焦于基礎(chǔ)設(shè)施和網(wǎng)絡(luò)設(shè)備的監(jiān)控。新的監(jiān)控指標(biāo)通過資源數(shù)據(jù)集成生成,并存儲(chǔ)在PostgreSQL數(shù)據(jù)庫中,以支持后續(xù)的高效查詢與重復(fù)使用。
基于已生成的監(jiān)控指標(biāo),數(shù)據(jù)集成引擎會(huì)配置相應(yīng)的告警策略并下發(fā)監(jiān)控任務(wù),以實(shí)現(xiàn)數(shù)據(jù)采集。指標(biāo)采集器根據(jù)監(jiān)控任務(wù)從指定的數(shù)據(jù)源提取相關(guān)數(shù)據(jù),隨后經(jīng)過數(shù)據(jù)豐富引擎和事件處理引擎的處理,生成告警事件。最終,通知集成引擎生成告警通知,并通過推送機(jī)制將告警事件及相關(guān)信息傳遞至相關(guān)人員。
1.2 監(jiān)控指標(biāo)
在AIOps的告警流程中,影響告警性能的關(guān)鍵影響因素不僅包括通過全面收集數(shù)據(jù)來提升數(shù)據(jù)數(shù)量,還在于通過監(jiān)控指標(biāo)準(zhǔn)確定義實(shí)現(xiàn)對數(shù)據(jù)質(zhì)量的優(yōu)化。準(zhǔn)確定義的監(jiān)控指標(biāo)能夠精準(zhǔn)捕捉關(guān)鍵事件,從而顯著提高告警的準(zhǔn)確性和相關(guān)性,同時(shí)有效減少誤報(bào)與漏報(bào),進(jìn)一步增強(qiáng)告警系統(tǒng)的可信度。
需要強(qiáng)調(diào)的是,監(jiān)控指標(biāo)的定義并非孤立或隨意的過程,而是基于對系統(tǒng)或資產(chǎn)的全局視角和深入分析。只有全面掌握資產(chǎn)的整體運(yùn)行特性、潛在問題及關(guān)鍵風(fēng)險(xiǎn)點(diǎn),才能設(shè)計(jì)出能夠準(zhǔn)確反映系統(tǒng)健康狀態(tài)與性能的重要監(jiān)控指標(biāo)。這些指標(biāo)不僅需要覆蓋關(guān)鍵風(fēng)險(xiǎn)點(diǎn),還應(yīng)避免引入多余噪聲或過度監(jiān)控,以確保系統(tǒng)在高效運(yùn)行的同時(shí)維持監(jiān)控的有效性和精確性。
通常情況下,資產(chǎn)的全局信息存儲(chǔ)于配置管理數(shù)據(jù)庫(CMDB)中,這為監(jiān)控指標(biāo)的合理定義提供了基礎(chǔ)支持。然而,隨著AIOps的興起,對IT資產(chǎn)管理提出了更高的要求,而傳統(tǒng)CMDB的某些方法已顯現(xiàn)出局限性。盡管如此,其中仍有部分方法具有借鑒價(jià)值。例如,文獻(xiàn)[8]提出的數(shù)據(jù)結(jié)構(gòu)重構(gòu)方法為組織提供了一種更高效的途徑,用以跟蹤和管理包括硬件、軟件及網(wǎng)絡(luò)組件在內(nèi)的IT資產(chǎn)。這種方法能夠有效提升與IT硬件相關(guān)的運(yùn)維數(shù)據(jù)的質(zhì)量和數(shù)量,為AIOps的實(shí)施提供更加全面的數(shù)據(jù)支持,從而進(jìn)一步增強(qiáng)AIOps的性能表現(xiàn)。
浙能集團(tuán)目前ITCM的CMDB由于其建立的時(shí)間較早,一些現(xiàn)在看來必不可少的數(shù)據(jù)項(xiàng)在CMDB中卻未被包含,同時(shí)數(shù)據(jù)項(xiàng)大多也都是偏于靜態(tài)的,導(dǎo)致靈活性方面有所欠缺。
1.3 自動(dòng)化流程
在AIOps流程中,自動(dòng)化流程是不可或缺的關(guān)鍵環(huán)節(jié)。在現(xiàn)代業(yè)務(wù)系統(tǒng)中,組件的功能及其與其他組件的關(guān)聯(lián)關(guān)系會(huì)隨著時(shí)間動(dòng)態(tài)變化。因此,自動(dòng)發(fā)現(xiàn)作為自動(dòng)化流程中的重要組成部分,其核心目標(biāo)是通過自動(dòng)識(shí)別和收集網(wǎng)絡(luò)環(huán)境中IT資產(chǎn)的元數(shù)據(jù),顯著節(jié)省時(shí)間和成本,并確保數(shù)據(jù)的準(zhǔn)確性。自動(dòng)發(fā)現(xiàn)主要由兩方面組成,一是針對新注冊的IT實(shí)體資產(chǎn),自動(dòng)采集其靜態(tài)信息,確保數(shù)據(jù)的完整性和準(zhǔn)確性;二是識(shí)別網(wǎng)絡(luò)中的新設(shè)備以及運(yùn)行在這些設(shè)備上的各類軟件和服務(wù),進(jìn)而構(gòu)建實(shí)時(shí)網(wǎng)絡(luò)拓?fù)鋱D。通過這一機(jī)制,IT部門可以實(shí)現(xiàn)對IT資產(chǎn)的自動(dòng)發(fā)現(xiàn)、持續(xù)跟蹤和高效管理,從而獲得對業(yè)務(wù)系統(tǒng)的實(shí)時(shí)全景式洞察。這不僅顯著提升運(yùn)維效率,還增強(qiáng)了對IT環(huán)境的控制力和管理能力,為AIOps的實(shí)施提供了堅(jiān)實(shí)基礎(chǔ)。
在自動(dòng)發(fā)現(xiàn)這一領(lǐng)域,目前已經(jīng)有一些有效的解決方案,例如,高宇通過鏈路生成協(xié)議 (LLDP)識(shí)別網(wǎng)絡(luò)設(shè)備之間的連接關(guān)系;使用Weave Scope及基于TCP流量的方法發(fā)現(xiàn)云端微服務(wù)及其調(diào)用關(guān)系,并通過可視化技術(shù)呈現(xiàn)這些信息[9。因此,結(jié)合LLDP協(xié)議進(jìn)行IT資產(chǎn)發(fā)現(xiàn),能夠?yàn)锳IOps提供準(zhǔn)確的網(wǎng)絡(luò)拓?fù)湟晥D,幫助系統(tǒng)理解設(shè)備間的關(guān)系,從而在故障時(shí)快速定位問題。通過后續(xù)的資產(chǎn)數(shù)據(jù)采集,可以為AIOps提供豐富的數(shù)據(jù)和上下文支持,從而提升智能分析和決策能力。
目前ITCM中采用TrueSight軟件進(jìn)行數(shù)據(jù)采集和自動(dòng)發(fā)現(xiàn),但該軟件受限于功能,無法采集和監(jiān)控硬件服務(wù)器等底層IT資產(chǎn),因此亟須一種新的數(shù)據(jù)采集和自動(dòng)發(fā)現(xiàn)的方法來滿足實(shí)際需求。
1.4異常檢測
AIOps的核心功能之一是異常檢測,這是一種識(shí)別數(shù)據(jù)出不符合正常模式或預(yù)期行為的數(shù)據(jù)點(diǎn)的能力。IT硬件設(shè)備在運(yùn)行過程中的異常檢測對于預(yù)防系統(tǒng)故障、減少服務(wù)中斷和提高整體服務(wù)質(zhì)量至關(guān)重要。目前在ITCM中,告警主要依靠閾值基準(zhǔn)法來進(jìn)行異常點(diǎn)檢測,然而該方法的局限性在于其依賴運(yùn)維人員的專業(yè)知識(shí),以準(zhǔn)確設(shè)定閾值和相應(yīng)的觸發(fā)機(jī)制,這可能導(dǎo)致維護(hù)上的挑戰(zhàn)和不一致性。
目前基于機(jī)器學(xué)習(xí)與深度學(xué)習(xí)的異常檢測方法受到了相當(dāng)程度的關(guān)注和研究。例如Valli等人[1通過卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)對AIOps中的產(chǎn)生的數(shù)據(jù)進(jìn)行異常點(diǎn)檢測。黃偉[]對單條時(shí)序KPI(KeyPerformanceIndicator)進(jìn)行處理,轉(zhuǎn)換成擁有足夠多個(gè)維度特征屬性的KPI特征數(shù)據(jù),并通過不同的采樣方式,提升了基于機(jī)器學(xué)習(xí)模型的異常檢測準(zhǔn)確率。
曹偉[12]則是采用了XGBoost模型對多維提取的特征數(shù)據(jù)進(jìn)行異常點(diǎn)檢測。Hansheng[13]則是通過將CNN模型和光譜殘差相結(jié)合的方法來進(jìn)行異常點(diǎn)檢測。Mehra等人[4采用自動(dòng)編碼器來實(shí)現(xiàn)對多維的異常點(diǎn)檢測。而Roukerd等人[15]則是對將自動(dòng)編碼器中的線性前饋層變成長短期記憶網(wǎng)絡(luò)來對地下水的數(shù)據(jù)進(jìn)行異常檢測。異常點(diǎn)檢測本質(zhì)上是一個(gè)分類問題,因此可以將其分類成監(jiān)督學(xué)習(xí)[1]和非監(jiān)督學(xué)習(xí)[14-15],其中由于在實(shí)際使用中,數(shù)據(jù)的異常點(diǎn)是一種較為稀缺的現(xiàn)象,因此普遍采用非監(jiān)督學(xué)習(xí)的方法。上述的方法更多的是通過對單一的深度學(xué)習(xí)模型進(jìn)行訓(xùn)練來達(dá)到異常點(diǎn)檢測的功能,雖然該模型的檢測準(zhǔn)確度很高且能捕捉到復(fù)雜的模式和非線性關(guān)系,但是這種方法對數(shù)據(jù)的質(zhì)量和數(shù)量有較大的要求,在數(shù)據(jù)不足的情況下可能會(huì)導(dǎo)致模型過擬合的現(xiàn)象發(fā)生。
除了使用深度學(xué)習(xí)模型來完成異常檢測外,通過多個(gè)表現(xiàn)一般的異常檢測模型,采用投票器的方法來進(jìn)行異常點(diǎn)檢測也能獲得較好的效果。弱分類投票器具有較強(qiáng)的魯棒性,即使數(shù)據(jù)量較小或特征較少的情況下,弱分類器也能擁有不俗的良好,相較于深度學(xué)習(xí)模型,弱分類器更加的輕量化對計(jì)算資源的需求也較少,因此弱分類器能滿足AIOps中對異常檢測的快速部署的需求。
2 主要內(nèi)容
本部分內(nèi)容分為三個(gè)部分展開:首先,介紹ITCM系統(tǒng)中通過重構(gòu)CMDB中硬件設(shè)備資產(chǎn)數(shù)據(jù)結(jié)構(gòu)以提升AIOps數(shù)據(jù)質(zhì)量的實(shí)踐方法。其次,詳細(xì)闡述利用鏈路層發(fā)現(xiàn)協(xié)議(LLDP)和簡單網(wǎng)絡(luò)管理協(xié)議(SNMP)實(shí)現(xiàn)對IT硬件設(shè)備的自動(dòng)發(fā)現(xiàn),并通過SNMP、SNMPTRAP以及代理機(jī)制完成數(shù)據(jù)采集自動(dòng)化的具體流程。最后,描述基于弱分類投票器對采集數(shù)據(jù)進(jìn)行異常檢測與預(yù)測分析的實(shí)現(xiàn)過程。
2.1 數(shù)據(jù)結(jié)構(gòu)重構(gòu)
在AIOps中,數(shù)據(jù)的質(zhì)量和數(shù)量對于運(yùn)維的最終效果起到了決定性的作用,因此,為了實(shí)現(xiàn)對采集到的資產(chǎn)信息數(shù)據(jù)的有效整合與高效檢索,本文基于浙能集團(tuán)數(shù)據(jù)中心中硬件設(shè)備的現(xiàn)狀對其數(shù)據(jù)信息結(jié)構(gòu)進(jìn)行了重新設(shè)計(jì)。
新設(shè)計(jì)的硬件設(shè)備的數(shù)據(jù)結(jié)構(gòu)囊括了執(zhí)行IT資產(chǎn)管理和運(yùn)營分析所必需的核心字段,對設(shè)備的生命全周期都進(jìn)行了相關(guān)的數(shù)據(jù)采集,并在此之上新增了設(shè)備在安全方面的相關(guān)數(shù)據(jù)項(xiàng),確保了數(shù)據(jù)的實(shí)用性和完整性。每個(gè)資產(chǎn)被視為一個(gè)配置項(xiàng),而配置項(xiàng)則由四大核心領(lǐng)域構(gòu)成,用于全面描述該配置項(xiàng)的特性。在資產(chǎn)數(shù)據(jù)信息結(jié)構(gòu)中,這四大領(lǐng)域分別為:基本域、運(yùn)行域、態(tài)勢域以及管理域:
1)基本域。作為資產(chǎn)數(shù)據(jù)信息結(jié)構(gòu)的核心,它記錄了資產(chǎn)在物理層面的基礎(chǔ)屬性,包括產(chǎn)品型號(hào)、購置日期、投入使用的時(shí)間點(diǎn)等。這些基本信息構(gòu)成了理解資產(chǎn)身份的基石,對于資產(chǎn)管理的全周期跟蹤至關(guān)重要。它不僅幫助識(shí)別資產(chǎn),還為資產(chǎn)的維護(hù)和更新提供了關(guān)鍵的歷史參考。
2)運(yùn)行域。資產(chǎn)在投入使用和運(yùn)行時(shí)的詳細(xì)狀態(tài)和參數(shù)配置,涵蓋了諸如內(nèi)部網(wǎng)絡(luò)定位(網(wǎng)絡(luò)地址)、處理器規(guī)格及系統(tǒng)運(yùn)行狀況等關(guān)鍵要素。此域的數(shù)據(jù)對于即時(shí)監(jiān)測資產(chǎn)健康、識(shí)別潛在故障點(diǎn)以及優(yōu)化資源分配具有不可替代的價(jià)值。通過實(shí)時(shí)監(jiān)控,可以快速響應(yīng)性能下降或故障,確保資產(chǎn)的高效運(yùn)行。
3)態(tài)勢域。資產(chǎn)在運(yùn)行維護(hù)過程中涉及信息安全的屬性要素,如資產(chǎn)的互聯(lián)網(wǎng)訪問權(quán)限、操作系統(tǒng)安全漏洞狀態(tài)以及是否存在可用的安全補(bǔ)丁更新等。通過精細(xì)化管理網(wǎng)絡(luò)安全屬性,可有效預(yù)防和減輕網(wǎng)絡(luò)威脅,保障關(guān)鍵基礎(chǔ)設(shè)施的安全運(yùn)行。這一領(lǐng)域?qū)τ诰S護(hù)企業(yè)網(wǎng)絡(luò)安全至關(guān)重要,有助于及時(shí)發(fā)現(xiàn)和應(yīng)對潛在的安全風(fēng)險(xiǎn)。
4)管理域。資產(chǎn)在采購,財(cái)務(wù),維保等運(yùn)營管理方面需要記錄和跟蹤的相關(guān)屬性,記錄了資產(chǎn)的折舊周期、保修期限等經(jīng)濟(jì)與管理信息。這些數(shù)據(jù)對于規(guī)劃資產(chǎn)生命周期管理、預(yù)算編制及合規(guī)性檢查具有重要意義,有助于企業(yè)合理安排資產(chǎn)更新與維護(hù)計(jì)劃,確保資產(chǎn)價(jià)值最大化。通過有效的資產(chǎn)管理,企業(yè)可以優(yōu)化資源分配,提高資產(chǎn)使用效率。
以服務(wù)器為例,如表1所示,展示了基于新的配置域所包含各種具體屬性。
表1服務(wù)器的配置域
(續(xù)表)
在服務(wù)器配置域中,基本域和管理域的信息通常為靜態(tài)數(shù)據(jù),即隨時(shí)間推移不會(huì)輕易發(fā)生變化的內(nèi)容。這類數(shù)據(jù)構(gòu)成了此前浙能集團(tuán)CMDB中記錄絕大部分全部信息,剩余的信息則來自運(yùn)行域中的靜態(tài)數(shù)據(jù)例如CPU個(gè)數(shù),CPU總核數(shù)等。運(yùn)行域中包含了許多動(dòng)態(tài)數(shù)據(jù),例如CPU使用率、內(nèi)存占用情況、I/O使用等。這些動(dòng)態(tài)數(shù)據(jù)是生成監(jiān)控指標(biāo)的關(guān)鍵來源,直接反映了系統(tǒng)的實(shí)時(shí)運(yùn)行狀態(tài)和變化趨勢?;居颉⒐芾碛蚝团渲糜蛉吖餐瑸榉?wù)器提供了全面的視角來描述其狀態(tài),態(tài)勢域在另一方面,更多反映了服務(wù)器在安全方面的狀況,態(tài)勢域生成的監(jiān)控指標(biāo)能更好地反映服務(wù)器在運(yùn)行過程中在網(wǎng)絡(luò)安全方面的狀況。
新提出的數(shù)據(jù)結(jié)構(gòu),在靜態(tài)數(shù)據(jù)的基礎(chǔ)上,引入了動(dòng)態(tài)數(shù)據(jù)和與上述提出的資產(chǎn)數(shù)據(jù)信息結(jié)構(gòu)旨在提供一個(gè)全面、細(xì)致的視角。不僅服務(wù)于日常運(yùn)維操作,也支撐著戰(zhàn)略決策過程,從而實(shí)現(xiàn)更加高效、安全和動(dòng)態(tài)的資產(chǎn)管理。通過這種結(jié)構(gòu),AIOps系統(tǒng)能夠更好地理解資產(chǎn)的全生命周期,提升運(yùn)維效率和決策質(zhì)量。AIOps系統(tǒng)通過自動(dòng)化發(fā)現(xiàn)實(shí)時(shí)識(shí)別并自動(dòng)監(jiān)測新增資產(chǎn),通過對資產(chǎn)數(shù)據(jù)進(jìn)行深入分析,從而動(dòng)態(tài)地調(diào)整應(yīng)用系統(tǒng)及其后續(xù)監(jiān)控的策略布局,確保系統(tǒng)的靈活度與適應(yīng)性得以保持,從而在不斷變化的環(huán)境中維持高效運(yùn)作與風(fēng)險(xiǎn)管理。
2.2 自動(dòng)化流程
由2.1中提出的資產(chǎn)數(shù)據(jù)信息結(jié)構(gòu),通過自動(dòng)化流程來實(shí)現(xiàn)新硬件設(shè)備資產(chǎn)的登記、識(shí)別以及后續(xù)的數(shù)據(jù)采集,可以顯著節(jié)省時(shí)間和成本并且保證數(shù)據(jù)的準(zhǔn)確性。
在ITCM系統(tǒng)中,需要首先在設(shè)備上啟用鏈路層發(fā)現(xiàn)協(xié)議(LLDP)功能。LLDP基于數(shù)據(jù)鏈路層工作,用于收集和廣播設(shè)備的本地信息(如設(shè)備名稱、端口描述、設(shè)備功能等),并接收鄰居設(shè)備發(fā)送的LLDP報(bào)文。這些信息被存儲(chǔ)在設(shè)備的本地LLDP管理信息庫(MIB)中,其中本地設(shè)備的信息存儲(chǔ)在IldpLocTable表中,鄰居設(shè)備的信息存儲(chǔ)在lldpRemTable表中。
通過LLDP,設(shè)備會(huì)周期性地廣播自身的配置信息,同時(shí)接收相鄰設(shè)備的配置信息。由于這些信息是動(dòng)態(tài)更新的,LLDP能夠反映設(shè)備間實(shí)時(shí)的物理連接狀態(tài)。此外,作為一種開放標(biāo)準(zhǔn)協(xié)議,LLDP兼容大多數(shù)廠商的設(shè)備,具有較強(qiáng)的通用性和廣泛的適用性。通過查詢MIB中的端口對接信息,可以直觀地展示設(shè)備間的直接連接關(guān)系。
然而,LLDP的局限性在于其僅能提供直接相鄰設(shè)備的信息,對于二級或更遠(yuǎn)距離的間接連接設(shè)備,其信息無法存儲(chǔ)在LLDPMIB中。此外,LLDP僅負(fù)責(zé)信息的采集,缺乏高效的數(shù)據(jù)查詢機(jī)制。由于LLDP僅作用于數(shù)據(jù)鏈路層,其功能無法擴(kuò)展到網(wǎng)絡(luò)層,從而無法獲取運(yùn)行在設(shè)備上的中間件之間的邏輯互聯(lián)關(guān)系。這一限制導(dǎo)致LLDP在繪制細(xì)粒度應(yīng)用拓?fù)鋱D時(shí)顯得不足,特別是在需要中間件互聯(lián)信息的場景中。
為解決這一問題,本文引入了簡單網(wǎng)絡(luò)管理協(xié)議(SNMP),以實(shí)現(xiàn)對LLDPMIB中數(shù)據(jù)的查詢與獲取,并收集設(shè)備上運(yùn)行的中間件及其互聯(lián)關(guān)系。SNMP主要用于設(shè)備的管理和監(jiān)控,但通過SNMP的GET請求,能夠進(jìn)一步支持中間件的發(fā)現(xiàn)和管理以及MIB信息的獲取。在本文中,自動(dòng)發(fā)現(xiàn)代理(agent)會(huì)被提供一個(gè)IP地址范圍或子網(wǎng)?;谶@些信息,代理通過SNMP的GET請求逐一向每個(gè)IP地址發(fā)送查詢,確定存在的設(shè)備并檢索其MIB和LLDPMIB的內(nèi)容。
在MIB庫中,通常包括設(shè)備上運(yùn)行的中間件實(shí)例信息,例如中間件類型、監(jiān)聽端口等。通過SNMP查詢tcpConnTable,可以獲取設(shè)備上開放的端口信息,從而建立不同中間件之間的互聯(lián)關(guān)系,構(gòu)建更細(xì)致的應(yīng)用拓?fù)鋱D。此外,SNMP還能采集設(shè)備本身的信息,例如設(shè)備類型、邏輯名稱、廠商、型號(hào)、接口信息等。這些信息經(jīng)過解析后,將分別存儲(chǔ)在2.1中提出的配置域相關(guān)數(shù)據(jù)項(xiàng)中,并保存至PostgreSQL數(shù)據(jù)庫,以支持后續(xù)的數(shù)據(jù)處理和分析。
對于LLDPMIB中的數(shù)據(jù),通過遍歷每個(gè)設(shè)備lldpRemTable的相關(guān)條目,SNMP能夠獲取相鄰設(shè)備的信息,進(jìn)而構(gòu)建應(yīng)用拓?fù)涞拇篌w框架。結(jié)合LLDP和SNMP的能力,ITCM可以實(shí)現(xiàn)更全面的設(shè)備與中間件互聯(lián)關(guān)系的發(fā)現(xiàn),并生成應(yīng)用拓?fù)鋱D。如圖2所示,為基于LLDP與SNMP結(jié)合繪制的應(yīng)用拓?fù)涫纠?/p>
圖2應(yīng)用系統(tǒng)拓?fù)涓庞[圖
圖2展示的是ITCM系統(tǒng)中某業(yè)務(wù)系統(tǒng)的概覽性應(yīng)用拓?fù)鋱D,其主要目的是為對應(yīng)的業(yè)務(wù)系統(tǒng)提供一個(gè)宏觀的系統(tǒng)拓?fù)浣Y(jié)構(gòu)視圖。用戶可以通過點(diǎn)擊圖中的組件,深入查看詳細(xì)的應(yīng)用系統(tǒng)拓?fù)?,包括組件背后設(shè)備與其他設(shè)備之間的關(guān)聯(lián)關(guān)系。
為適應(yīng)業(yè)務(wù)系統(tǒng)內(nèi)部邏輯的動(dòng)態(tài)調(diào)整,定期利用LLDP和SNMP協(xié)議自動(dòng)識(shí)別各個(gè)組件及其連接狀態(tài),確保應(yīng)用拓?fù)鋱D能夠?qū)崿F(xiàn)持續(xù)更新。這種拓?fù)鋱D不僅直觀地展示了網(wǎng)絡(luò)中數(shù)據(jù)的流向,還構(gòu)建了一個(gè)實(shí)時(shí)更新且詳細(xì)的系統(tǒng)視圖,為業(yè)務(wù)系統(tǒng)提供了全面的資源概覽和管理支持。
SNMP不僅適用于中間件的識(shí)別和發(fā)現(xiàn),還廣泛應(yīng)用于網(wǎng)絡(luò)設(shè)備和安全設(shè)備的數(shù)據(jù)采集。SNMP能夠精確地收集設(shè)備的具體信息。然而,對于需要快速響應(yīng)且不需實(shí)時(shí)更新數(shù)據(jù)的物理設(shè)備,如存儲(chǔ)設(shè)備和硬件服務(wù)器,SNMP的定期數(shù)據(jù)驅(qū)動(dòng)機(jī)制可能無法滿足其實(shí)時(shí)性需求。
針對上述問題,SNMPTRAP機(jī)制提供了一種基于事件驅(qū)動(dòng)的高效解決方案。當(dāng)設(shè)備發(fā)生特定事件時(shí),SNMPTRAP能夠主動(dòng)發(fā)送通知,從而為存儲(chǔ)設(shè)備、硬件服務(wù)器等物理設(shè)備提供更及時(shí)的數(shù)據(jù)采集方式。操作系統(tǒng)通常包含大量對AIOps至關(guān)重要的指標(biāo)數(shù)據(jù),通過代理模式進(jìn)行數(shù)據(jù)采集,可以有效保證數(shù)據(jù)的實(shí)時(shí)性與準(zhǔn)確性。
在ITCM系統(tǒng)中,通過在設(shè)備上部署基于GOLANG開發(fā)的代理腳本,可以實(shí)現(xiàn)運(yùn)行域和態(tài)勢域中動(dòng)態(tài)信息的自動(dòng)采集。此過程為后續(xù)的網(wǎng)絡(luò)和應(yīng)用拓?fù)錁?gòu)建提供了基礎(chǔ)支持。對于服務(wù)器而言,該代理腳本不僅能夠完成動(dòng)態(tài)信息的自動(dòng)采集,還可以利用TRAP機(jī)制主動(dòng)推送采集到的相關(guān)數(shù)據(jù),從而為ITCM系統(tǒng)的數(shù)據(jù)分析提供實(shí)時(shí)支持。值得一提的是,該代理的安裝過程可以通過Anisble等自動(dòng)化工具實(shí)現(xiàn)“一鍵部署”,顯著減少了人工操作步驟,提升了效率。
在實(shí)際應(yīng)用中,自動(dòng)化流程基于2.1節(jié)中提出的資產(chǎn)數(shù)據(jù)信息結(jié)構(gòu),能夠快速完成IT資產(chǎn)的登記注冊,并將其納入相應(yīng)的應(yīng)用系統(tǒng)拓?fù)浣Y(jié)構(gòu)中。這一過程不僅實(shí)現(xiàn)了對資產(chǎn)的快速發(fā)現(xiàn),還確保了所有資產(chǎn)均被有效納入管理。此外,自動(dòng)化流程可以根據(jù)資產(chǎn)類型自動(dòng)配置相應(yīng)的數(shù)據(jù)采集方案,保證數(shù)據(jù)采集的全面性和有效性,從而為后續(xù)AIOps系統(tǒng)的數(shù)據(jù)分析與異常檢測提供有力支持。通過這種方式,ITCM系統(tǒng)實(shí)現(xiàn)了對資產(chǎn)的持續(xù)跟蹤與管理,為AIOps的高效運(yùn)行提供了堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。
2.3 數(shù)據(jù)分析
對采集數(shù)據(jù)的消費(fèi)與分析是AIOps與傳統(tǒng)運(yùn)維之間的關(guān)鍵差異之一。在面向業(yè)務(wù)系統(tǒng)的AIOps應(yīng)用中,常見任務(wù)包括對監(jiān)控指標(biāo)的異常點(diǎn)檢測和未來趨勢預(yù)測。異常點(diǎn)檢測通過對資產(chǎn)相關(guān)指標(biāo)的持續(xù)監(jiān)控,確保系統(tǒng)性能的穩(wěn)定與可靠;未來數(shù)據(jù)預(yù)測則通過分析歷史趨勢,對資產(chǎn)關(guān)鍵指標(biāo)進(jìn)行預(yù)測,為系統(tǒng)性能優(yōu)化和決策提供前瞻性的支持。
在數(shù)據(jù)中心基礎(chǔ)設(shè)施的異常檢測和數(shù)據(jù)預(yù)測中,通常關(guān)注的監(jiān)控指標(biāo)涵蓋一系列關(guān)鍵參數(shù),例如CPU利用率、內(nèi)存使用率、硬件服務(wù)器的溫度和電壓等。這些指標(biāo)對于評估基礎(chǔ)設(shè)施的健康狀況和業(yè)務(wù)系統(tǒng)的運(yùn)行效率至關(guān)重要。異常檢測通常需要實(shí)時(shí)的監(jiān)測能力,并要求模型具有足夠的魯棒性,尤其是在數(shù)據(jù)樣本較少的情況下依然能夠有效檢測異常。因此,與深度學(xué)習(xí)模型相比,基于非監(jiān)督學(xué)習(xí)的弱分類投票器模型在這一場景中更具適用性和優(yōu)勢。
針對浙能集團(tuán)數(shù)據(jù)中心當(dāng)前數(shù)據(jù)質(zhì)量與數(shù)量的現(xiàn)狀,本文設(shè)計(jì)了一種基于弱分類投票器的異常檢測流程。該流程旨在充分利用現(xiàn)有數(shù)據(jù)資源,提高異常檢測的可靠性與效率,具體流程如圖3所示。
圖3異常檢測流程圖
自動(dòng)化流程所采集到的數(shù)據(jù)統(tǒng)一保存在時(shí)序數(shù)據(jù)數(shù)據(jù)庫VictoriaMetric中,當(dāng)需要進(jìn)行異常檢測的時(shí)候,會(huì)從數(shù)據(jù)庫提取對應(yīng)的指標(biāo)數(shù)據(jù)進(jìn)行檢測。
數(shù)據(jù)預(yù)處理主要包括對數(shù)據(jù)進(jìn)行歸一化處理和降維處理。其中歸一化處理采用了標(biāo)準(zhǔn)化歸一處理,因?yàn)樵诜潜O(jiān)督的異常檢測場景下,不能保證數(shù)據(jù)中不存在異常點(diǎn)或離群值,因此采用標(biāo)準(zhǔn)化歸一化處理能保證歸一化后的數(shù)據(jù)的魯棒性。降維處理則是將高維的時(shí)間序列數(shù)據(jù)轉(zhuǎn)換為低維表示,這種方法能降低數(shù)據(jù)中的噪音同時(shí)加快模型的計(jì)算數(shù)據(jù)以便于分析和處理。
數(shù)據(jù)窗口化通過創(chuàng)建重疊或不重疊數(shù)據(jù)段的方法來生成時(shí)序數(shù)據(jù)的子集,每個(gè)段或“窗口”由固定數(shù)量的連續(xù)時(shí)間步驟組成。采用數(shù)據(jù)窗口化能捕獲數(shù)據(jù)的時(shí)間結(jié)構(gòu),允許模型從序列而不是獨(dú)立觀察中學(xué)習(xí),從而更容易檢測出異常點(diǎn)。
在弱分類投票器重,主要采用了如下的非監(jiān)督的異常檢測模型:
1)COPOD[依賴于對多變量數(shù)據(jù)分布的深入建模,通過估計(jì)協(xié)方差矩陣來識(shí)別離群點(diǎn)。2)ECOD[算法通過計(jì)算每個(gè)維度上的經(jīng)驗(yàn)累積分布函數(shù)(ECDF),以非參數(shù)化的方式推斷數(shù)據(jù)集的基本分布,從而檢測異常。3)KNN算法則基于數(shù)據(jù)點(diǎn)間的距離與鄰近性,通過計(jì)算點(diǎn)與周圍鄰居的距離,判斷其是否偏離正常群體。4)IsolationForest[18]算法利用樹結(jié)構(gòu),通過遞歸分割屬性空間,快速定位數(shù)據(jù)集中那些易于被孤立的異常點(diǎn)。5)LocalFactor算法通過計(jì)算給定數(shù)據(jù)點(diǎn)與鄰近數(shù)據(jù)的局部密度偏差來識(shí)別異常點(diǎn)。
弱分類投票器中的每一個(gè)非監(jiān)督異常檢測模型都會(huì)對窗口化后的數(shù)據(jù)進(jìn)行異常檢測,對數(shù)據(jù)中的每一個(gè)點(diǎn)生成異常檢測結(jié)果,例如若該點(diǎn)不是異常點(diǎn)模型返回False,若該點(diǎn)是異常點(diǎn),則返回True,投票器根據(jù)每個(gè)分類器的分類結(jié)果進(jìn)行投票,依據(jù)投票策略生成投票結(jié)果即為異常檢測的最終檢測結(jié)果。
投票策略主要由硬投票和軟投票組成。在硬投票機(jī)制中,最終的決策結(jié)果基于多數(shù)票原則來確定。具體來說,如果多個(gè)模型返回的檢測結(jié)果中,F(xiàn)alse的數(shù)量超過了True的數(shù)量,那么最終的投票結(jié)果將被判定為False。
相比之下,軟投票則更加精細(xì)。每個(gè)弱分類器不僅要提供其檢測結(jié)果,還需要提供對每個(gè)類別的概率或置信度估計(jì)。通過對這些概率或置信度進(jìn)行加權(quán)求和,投票器將選擇總和最高的類別作為最終的投票結(jié)果。這種方法允許投票器考慮每個(gè)分類器的置信度,從而可能提供更為準(zhǔn)確和可靠的決策。
另一方面,對指標(biāo)數(shù)據(jù)的未來趨勢預(yù)測,類似弱分類投票器的原理,本文采用了Facebook開發(fā)的Prophet和Holter-Winters[19]提出季節(jié)性分解方法模型用于指標(biāo)數(shù)據(jù)的預(yù)測,預(yù)測流程如圖4所示。
圖4預(yù)測流程圖
Prophet模型在設(shè)計(jì)時(shí)充分考慮了不確定性因素,通過模擬預(yù)測分布來計(jì)算預(yù)測值的置信區(qū)間,這使得Prophet不僅能給出預(yù)測值,還能提供預(yù)測結(jié)果的可信度范圍。Holter-Winters模型則基于指數(shù)平滑法,通過對歷史數(shù)據(jù)進(jìn)行加權(quán)平均來預(yù)測未來的值。
預(yù)測流程與異常檢測流程在數(shù)據(jù)的提取、數(shù)據(jù)的預(yù)處理和數(shù)據(jù)的窗口化的操作是一致的,在預(yù)測模型的輸出結(jié)果上,模型輸出的結(jié)果基于指標(biāo)數(shù)據(jù)未來的數(shù)據(jù)的數(shù)值形式的預(yù)測。不同于異常檢測流程中的投票器對最終結(jié)果進(jìn)行匯總輸出,在預(yù)測流程中,最終生成的預(yù)測結(jié)果由兩個(gè)預(yù)測模型進(jìn)行加權(quán)求和得出。加權(quán)求和的權(quán)重由二者模型在訓(xùn)練時(shí)的損失值所決定,若訓(xùn)練時(shí)模型的預(yù)測損失越大,則其權(quán)重越低,反之若預(yù)測損失越小,則其權(quán)重越高。通過這種方式可以有效地保證預(yù)測的魯棒性并提供相對準(zhǔn)確的預(yù)測結(jié)果。
異常檢測與數(shù)據(jù)預(yù)測是AIOps中兩種最常見且核心的應(yīng)用場景,用于對運(yùn)維數(shù)據(jù)進(jìn)行消費(fèi)與分析。異常檢測的主要目標(biāo)是實(shí)時(shí)識(shí)別系統(tǒng)運(yùn)行中的異常狀況,從而確保系統(tǒng)性能的穩(wěn)定性與可靠性;而數(shù)據(jù)預(yù)測則側(cè)重于基于歷史數(shù)據(jù)和當(dāng)前趨勢對未來可能的運(yùn)行狀態(tài)進(jìn)行推斷,為運(yùn)維決策提供前瞻性支持和依據(jù)。這種結(jié)合方式在現(xiàn)代AIOps驅(qū)動(dòng)的運(yùn)維實(shí)踐中展現(xiàn)出巨大的潛力,不僅實(shí)現(xiàn)了對運(yùn)維事件的快速響應(yīng)和主動(dòng)干預(yù),還為系統(tǒng)運(yùn)行的全生命周期管理提供了智能化支持,為企業(yè)的IT基礎(chǔ)設(shè)施運(yùn)營創(chuàng)造了更高的價(jià)值。
3 應(yīng)用成效
2.1節(jié)中提出的資產(chǎn)數(shù)據(jù)信息結(jié)構(gòu)旨在提供全面的視角,以提升AIOps中數(shù)據(jù)的質(zhì)量。通過自動(dòng)化流程,實(shí)現(xiàn)了硬件設(shè)備資產(chǎn)的自動(dòng)發(fā)現(xiàn)、硬件設(shè)備間精細(xì)化互聯(lián)關(guān)系的構(gòu)建以及靜態(tài)和動(dòng)態(tài)數(shù)據(jù)的高效采集。同時(shí),結(jié)合數(shù)據(jù)分析中的異常檢測和趨勢預(yù)測,從多維度確保了數(shù)據(jù)中心IT硬件設(shè)備的穩(wěn)定運(yùn)行。這一體系有效支持了基礎(chǔ)設(shè)施的高效運(yùn)作,提升了業(yè)務(wù)系統(tǒng)的可靠性,并顯著增強(qiáng)了風(fēng)險(xiǎn)管理能力。
目前,基于上述資產(chǎn)數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)、自動(dòng)化流程以及數(shù)據(jù)分析功能的AIOps改造方案,已成功在浙江能源集團(tuán)AIOps系統(tǒng),IT集中監(jiān)控系統(tǒng)上面運(yùn)行,并在集團(tuán)的兩個(gè)數(shù)據(jù)中心全面部署。這兩個(gè)數(shù)據(jù)中心共計(jì)管理491臺(tái)物理服務(wù)器,近2000個(gè)操作系統(tǒng)實(shí)例,以及200余套覆蓋集團(tuán)各業(yè)務(wù)領(lǐng)域的應(yīng)用系統(tǒng),全部運(yùn)行于這些服務(wù)器之上。
在浙江能源集團(tuán)的實(shí)踐中,相較于傳統(tǒng)CMDB中僅包含基礎(chǔ)設(shè)施相關(guān)的靜態(tài)數(shù)據(jù),新設(shè)計(jì)的資產(chǎn)數(shù)據(jù)結(jié)構(gòu)引入了更多與資產(chǎn)網(wǎng)絡(luò)安全和運(yùn)行狀態(tài)相關(guān)的動(dòng)態(tài)數(shù)據(jù)。這些動(dòng)態(tài)數(shù)據(jù)能夠?qū)崟r(shí)反映基礎(chǔ)設(shè)施的運(yùn)行狀況和安全態(tài)勢,而不再局限于描述資產(chǎn)的默認(rèn)屬性。相比靜態(tài)數(shù)據(jù),這些動(dòng)態(tài)信息顯著提升了基礎(chǔ)設(shè)施監(jiān)控的時(shí)效性與全面性。此外,管理域中的數(shù)據(jù)還包括基礎(chǔ)設(shè)施維護(hù)和保養(yǎng)的詳細(xì)信息,為實(shí)現(xiàn)從資產(chǎn)注冊上架到報(bào)廢下架的全生命周期監(jiān)控與管理提供了有力支持。這一改進(jìn)提升了運(yùn)維管理的精細(xì)化程度與效率。
運(yùn)行域中還包含基礎(chǔ)監(jiān)控指標(biāo),例如電壓、功率、接口狀態(tài)、讀取速度等。通過將態(tài)勢域、管理域和基本域中的配置項(xiàng)與運(yùn)行域的監(jiān)控指標(biāo)結(jié)合,可以生成更精細(xì)的復(fù)合型指標(biāo),用于全面監(jiān)測數(shù)據(jù)中心的IT資產(chǎn)。這些復(fù)合型數(shù)據(jù)雖然無法直接提升單一IT資產(chǎn)的監(jiān)控?cái)?shù)據(jù)質(zhì)量,但能顯著提高整體業(yè)務(wù)系統(tǒng)的數(shù)據(jù)質(zhì)量和數(shù)據(jù)量,為AIOps的數(shù)據(jù)分析和消費(fèi)提供有力支持。
在采用新的資產(chǎn)結(jié)構(gòu)后,盡管每套業(yè)務(wù)系統(tǒng)采集的單一相關(guān)指標(biāo)數(shù)量并未顯著增長,但評估業(yè)務(wù)系統(tǒng)的復(fù)合型指標(biāo)(KPI指標(biāo))的數(shù)量較之前增加了約47% 。這些新增的KPI數(shù)據(jù)經(jīng)過AIOps模塊(如異常檢測和數(shù)據(jù)預(yù)測)的處理后,提供了更多維度的運(yùn)維視角,有效提高了運(yùn)維效率和決策能力。
在自動(dòng)化流程方面,浙能集團(tuán)此前使用TrueSight軟件進(jìn)行數(shù)據(jù)采集和自動(dòng)發(fā)現(xiàn),但該軟件受限于功能,無法采集和監(jiān)控硬件服務(wù)器等底層IT資產(chǎn)。通過新的自動(dòng)化流程,SNMPTRAP實(shí)現(xiàn)了對底層IT資產(chǎn)的高效數(shù)據(jù)采集和監(jiān)控,同時(shí)結(jié)合SNMP和代理方式采集數(shù)據(jù)中心基礎(chǔ)設(shè)施的運(yùn)行指標(biāo),保證了數(shù)據(jù)的有效性和完整性。采集設(shè)備的覆蓋率從 53% 提升至98% ,主要得益于硬件服務(wù)器等底層IT資產(chǎn)的納入管理。對于自動(dòng)發(fā)現(xiàn)流程,IT資產(chǎn)從上架注冊到接入應(yīng)用系統(tǒng)的平均時(shí)間由2天縮短至4小時(shí),效率提升主要源于自動(dòng)化構(gòu)建新設(shè)備與系統(tǒng)中已有設(shè)備的關(guān)聯(lián),并快速更新和繪制應(yīng)用拓?fù)浣Y(jié)構(gòu)。
在數(shù)據(jù)分析方面,弱分類器投票器的平均檢測延遲為2.43秒,而數(shù)據(jù)預(yù)測的平均延遲為26.72秒,其中大部分時(shí)間消耗在Prophet模型的在線訓(xùn)練過程中,用于計(jì)算預(yù)測損失值并生成相應(yīng)權(quán)重。弱分類器投票器的平均檢測準(zhǔn)確率為 87% ,平均召回率為 96% 。盡管檢測準(zhǔn)確率并非最佳,但在異常檢測場景中,召回率相較準(zhǔn)確率更為重要。該投票器在實(shí)際應(yīng)用中能夠有效檢測自動(dòng)化流程采集的監(jiān)控指標(biāo)及基于不同配置域生成的KPI指標(biāo),從而提高異常檢測的效率和可靠性。
4結(jié)論
為了解決如何提升數(shù)據(jù)中心中硬件設(shè)備的數(shù)據(jù)質(zhì)量和數(shù)量,以支持AIOps的有效實(shí)施和業(yè)務(wù)系統(tǒng)的穩(wěn)定運(yùn)行的問題,本研究設(shè)計(jì)了一套全新的數(shù)據(jù)結(jié)構(gòu)。該結(jié)構(gòu)從四個(gè)不同的角度出發(fā),設(shè)計(jì)了多種配置項(xiàng),在針對浙能集團(tuán)數(shù)據(jù)中心硬件設(shè)備的實(shí)踐中,顯著提高了其AIOps中硬件設(shè)備的數(shù)據(jù)質(zhì)量。
在數(shù)據(jù)采集方面,本文采用了SNMP、SNMPTRAP以及代理的方式,確保了數(shù)據(jù)采集的完整性和有效性。在自動(dòng)化流程方面,本文構(gòu)建了自動(dòng)發(fā)現(xiàn)流程來構(gòu)建業(yè)務(wù)系統(tǒng)的拓?fù)浣Y(jié)構(gòu),減少了運(yùn)維團(tuán)隊(duì)在資產(chǎn)上架過程中所需的操作和時(shí)間。在數(shù)據(jù)分析方面,本文對KPI數(shù)據(jù)進(jìn)行了異常檢測和未來趨勢預(yù)測,能夠及時(shí)發(fā)現(xiàn)數(shù)據(jù)中的異常問題并進(jìn)行告警,同時(shí)識(shí)別數(shù)據(jù)的模式和趨勢,提取有價(jià)值的信息。
在浙能集團(tuán)的應(yīng)用實(shí)踐中,本文提出的數(shù)據(jù)結(jié)構(gòu)顯著提升了用于AIOps的數(shù)據(jù)質(zhì)量和數(shù)量,提高了運(yùn)維效率,有效保障了運(yùn)行在浙能集團(tuán)數(shù)據(jù)中心上的業(yè)務(wù)系統(tǒng)的穩(wěn)定性和數(shù)據(jù)中心的運(yùn)營可持續(xù)性。此外,這種數(shù)據(jù)結(jié)構(gòu)具有很好的可移植性,能夠根據(jù)其他數(shù)據(jù)中心或IT資產(chǎn)中硬件設(shè)備的實(shí)際情況進(jìn)行相應(yīng)的調(diào)整和優(yōu)化。
通過不斷的改進(jìn)與創(chuàng)新,本文期待進(jìn)一步提高對IT資產(chǎn)中硬件設(shè)備的運(yùn)維質(zhì)量和效果,推動(dòng)AIOps技術(shù)的發(fā)展,為企業(yè)和社會(huì)帶來更加安全、高效、智能的AIOps解決方案。
參考文獻(xiàn):
[1]韓曉光,王若松,唐進(jìn)才.新時(shí)代下IT運(yùn)維管理體系研究與實(shí)踐[J].中國傳媒科技,2024(6):150-155.[2]李樂成,胡雅菲.信息系統(tǒng)運(yùn)維管理體系的探討[J]信息通信,2019(8):104-106.[3]盧士達(dá),康愷,劉帥華,等.基于深度神經(jīng)網(wǎng)絡(luò)的異常檢測算法在國網(wǎng)上海公司AIOps中的應(yīng)用[J].微型電腦應(yīng)用,2024,40(5):231-233.[4]鄭仕輝.交通銀行的智能運(yùn)維(AIOps)實(shí)踐[J].金融電子化,2019(1):46.[5]程鵬.AIOps智能運(yùn)維在中國工商銀行的探索與實(shí)踐[J].中國金融電腦,2021(5):68-71.
[6]王新東,王一大,龐國際,等.智能運(yùn)維(AIOps)
在中國聯(lián)通分布式架構(gòu)下的研究與應(yīng)用[J].電信工程技術(shù)與標(biāo)
準(zhǔn)化,2021,34(1):48-54.[7] LIY,JIANG ZMJ ,LI H,et al.Predicting
Node Failures in an Ultra-Large-Scale Cloud Computing
Platform [J].ACM Transactions on Software Engineering and
Methodology(TOSEM).New York: Association for Computing
Machinery,2020:1-24.[8]BRENNERM,GILLMEISTERM.DesigningCMDB
DataModelswithGoodUtilityandLimitedComplexity[C]//
IEEENetwork Operations and Management Symposium(NOMS).
Krakow:IEEE,2014:1-15.[9]高宇.基于云原生的拓?fù)浞?wù)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].
四川:西南交通大學(xué),2019.[10]VALLILN,SUJATHAE,RATHINAMJ.A Study
onDeep LearningFrameworks to Understand the Real Time Fault
Detectionand Diagnosisin IT OperationswithAiops[C]//2023
International Conference on EvolutionaryAlgorithms and Soft
Computing Techniques(EASCT).Bengaluru:IEEE,2023:1-6.[11]黃偉.基于機(jī)器學(xué)習(xí)的AIOps技術(shù)研究[D].北京:
北京交通大學(xué),2019.[12]曹偉.基于多維特征提取和XGBoost的KPI異常檢
測[D].遼寧:大連海事大學(xué),2020.[13]RENH,XUB,WANGY,etal.Time-Series
Anomaly Detection ServiceatMicrosoft[C]//Proceedings of the
25th ACM SIGKDD International Conference on Knowledge
Discoveryamp;DataMining.NewYork:ACM,2019:3009-3017.[14]MEHRAP,AHUJAMS,AERI M.TimeSeries
Anomaly Detection System with LinearNeuralNetworkand
Autoencoder[C]//2023 International Conference on Device
Intelligence,Computingand Communication Technologies
(DICCT).Dehradun:IEEE,2023:659-662.
[15]ROUKERDFR,RAJABIMM.AnomalyDetection in
GroundwaterMonitoringDataUsingLSTM-AutoencoderNeural
Networks[J/OL].EnvironmentalMonitoringand Sssessment,
2024,196 (8):692[2025-06-04].https://link.springer.com/
article/10.1007/s10661-024-12848-z.
[16]LI Z,ZHAO Y,BOTTA N,et al.COPOD:
Copula-BasedOutlierDetection[C]//2020 IEEEInternational
Conference on Data Mining (ICDM).Sorrento:IEEE,2021:
1118-1123.
[17]LI Z,ZHAOY,HUX,etal.Ecod:Unsupervised
OutlierDetection UsingEmpirical Cumulative Distribution
Functions[J].IEEE Transactions onAutomatic Control,2023,35(12):12181-12193.
[18]LIUFT,TINGKM,ZHOUZH.Isolation-Based
AnomalyDetection[J].ACMTransactions onKnowledge
DiscoveryfromData,2012,6(1):1-39.
[19]WINTERSPR.Forecasting Salesby Exponentially
Weighted Moving Averages[J].Management Ence,1976,6(3):
324-342.
作者簡介:王(1997一),女,漢族,山東青島人,運(yùn)維開發(fā)工程師,碩士,研究方向:機(jī)器學(xué)習(xí)、智能運(yùn)維;陳萬億(1998一),男,漢族,浙江溫州人,運(yùn)維開發(fā)工程師,碩士,研究方向:智能運(yùn)維、人工智能;許俊淵(1987一),男,漢族,浙江杭州人,副高級工程師,本科,研究方向:云平臺(tái)及網(wǎng)絡(luò)安全;聶開勛(1989一),男,彝族,貴州貴陽人,運(yùn)營監(jiān)控團(tuán)隊(duì)負(fù)責(zé)人,學(xué)士學(xué)位,研究方向:AIOPS、智能運(yùn)維。