韓 維,李子乾,張 月
(國(guó)家電網(wǎng)有限公司客戶服務(wù)中心,天津)
隨著信息技術(shù)的快速發(fā)展,國(guó)家電網(wǎng)服務(wù)中心面臨著日益復(fù)雜的業(yè)務(wù)要求和運(yùn)維挑戰(zhàn)。云計(jì)算和虛擬化等技術(shù)的大規(guī)模應(yīng)用,為電網(wǎng)系統(tǒng)提供了更高效靈活的解決方案。然而,隨之而來(lái)的是資源配置的復(fù)雜性和挑戰(zhàn)性。為了提高運(yùn)維管理的效率和靈活性,數(shù)字化運(yùn)維管理成為中國(guó)國(guó)家電網(wǎng)發(fā)展的關(guān)鍵方向之一。
近年來(lái),云計(jì)算技術(shù)[1]在為信息系統(tǒng)提供易于擴(kuò)展的計(jì)算資源方面正快速興起。云的關(guān)鍵優(yōu)勢(shì)在于可伸縮性和彈性,能快速動(dòng)態(tài)地滿足用戶和系統(tǒng)需求。然而,云用戶需要面對(duì)復(fù)雜的資源配置問(wèn)題,過(guò)度供應(yīng)和供應(yīng)不足都可能導(dǎo)致成本和性能問(wèn)題。此外,定制解決方案優(yōu)化應(yīng)用程序性能十分困難,因?yàn)樯婕岸鄠€(gè)需求。數(shù)據(jù)爆炸使得處理數(shù)據(jù)也變得復(fù)雜,NoSQL等技術(shù)應(yīng)運(yùn)而生,但云系統(tǒng)的健壯性和可靠性仍然是一個(gè)重要問(wèn)題,需要有效的異常檢測(cè)方法來(lái)確保系統(tǒng)穩(wěn)定性。
針對(duì)上述問(wèn)題,本研究基于云計(jì)算環(huán)境下的系統(tǒng)運(yùn)行狀態(tài),提出了一種可靠的性能感知云彈性框架(PACE)進(jìn)行自適應(yīng)資源配置。該框架圍繞三個(gè)主要服務(wù)進(jìn)行組織:
(1) 基于LSTM的狀態(tài)檢測(cè)服務(wù),以實(shí)現(xiàn)可靠的決策制定。
(2) 基于K-means 的自適應(yīng)資源配置服務(wù),以實(shí)現(xiàn)有效和高效的工作負(fù)載執(zhí)行。
(3) 基于神經(jīng)遺傳算法的系統(tǒng)優(yōu)化服務(wù),以識(shí)別基于用戶需求最大化應(yīng)用程序性能的最佳配置。
本研究將為國(guó)家電網(wǎng)運(yùn)維管理的數(shù)字化轉(zhuǎn)型提供重要的理論指導(dǎo)和實(shí)踐參考,為國(guó)家電網(wǎng)建設(shè)智能運(yùn)維體系,提升業(yè)務(wù)響應(yīng)能力,實(shí)現(xiàn)電網(wǎng)的高效、安全運(yùn)行奠定基礎(chǔ)。
本節(jié)介紹PACE 框架的運(yùn)行框架,并分別闡述了PACE 的三項(xiàng)主要服務(wù),包括狀態(tài)檢測(cè)、資源配置和系統(tǒng)優(yōu)化。
PACE 框架支持自適應(yīng)技術(shù)[2],用于在云環(huán)境中提供可靠的資源。本研究主要關(guān)注部署在云中的數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)執(zhí)行最先進(jìn)的工作負(fù)載以模擬不同的實(shí)際應(yīng)用程序場(chǎng)景。圖1 展示了PACE 框架支持的環(huán)境及框架內(nèi)部數(shù)據(jù)流。云環(huán)境的關(guān)鍵實(shí)體包括用戶、云應(yīng)用程序、PACE 框架以及底層基礎(chǔ)設(shè)施(數(shù)據(jù)中心和主機(jī))。其中,數(shù)據(jù)中心是云系統(tǒng)的核心,多個(gè)服務(wù)器和通信設(shè)備位于其中。主機(jī)代表數(shù)據(jù)中心的物理機(jī)器及其可用于虛擬化的計(jì)算單元,包括CPU、存儲(chǔ)和帶寬等。
圖1 PACE 框架支持的環(huán)境及框架內(nèi)部數(shù)據(jù)流
PACE 框架由以下三個(gè)主要服務(wù)組成:
(1) 狀態(tài)檢測(cè)服務(wù)根據(jù)實(shí)時(shí)資源使用情況和應(yīng)用指標(biāo)監(jiān)控,自動(dòng)檢測(cè)系統(tǒng)狀態(tài)。
(2) 資源配置服務(wù)根據(jù)監(jiān)控的指標(biāo)自動(dòng)提供系統(tǒng)資源。
(3) 系統(tǒng)優(yōu)化服務(wù)可以根據(jù)用戶需求對(duì)受限資源進(jìn)行優(yōu)化。
PACE 事件流過(guò)程:①PACE 監(jiān)視目標(biāo)應(yīng)用程序以提取各種指標(biāo),包括CPU 資源、內(nèi)存和磁盤使用情況等。②狀態(tài)檢測(cè)服務(wù)確保PACE 收集在正常應(yīng)用程序行為下提取的數(shù)據(jù)。③PACE 管理器提取所需的數(shù)據(jù)集,以支持?jǐn)M議的資源配置和系統(tǒng)優(yōu)化服務(wù)的數(shù)據(jù)驅(qū)動(dòng)技術(shù)。④管理員將數(shù)據(jù)集和配置設(shè)置注入到資源配置服務(wù)中,開啟資源發(fā)放的自動(dòng)伸縮機(jī)制。⑤管理員將數(shù)據(jù)集和配置設(shè)置注入到系統(tǒng)優(yōu)化服務(wù)中,該服務(wù)可以根據(jù)用戶需求進(jìn)行受限的系統(tǒng)優(yōu)化。
自編碼器[3]是一種無(wú)監(jiān)督學(xué)習(xí)的范例,它能夠以盡可能少的失真重構(gòu)輸入特征。LSTM自動(dòng)編碼器[4]結(jié)合了自編碼器提取最具代表性信息的能力和LSTM處理具有遠(yuǎn)程依賴關(guān)系的順序數(shù)據(jù)的優(yōu)勢(shì)。該模塊利用正常數(shù)據(jù)訓(xùn)練LSTM自編碼器,學(xué)習(xí)重構(gòu)正常單變量時(shí)間序列數(shù)據(jù),而對(duì)異常時(shí)間序列產(chǎn)生較高的重構(gòu)誤差。因此,重建誤差分?jǐn)?shù)來(lái)判斷未來(lái)的數(shù)據(jù)點(diǎn)是正常或異常。圖2 顯示了LSTM自動(dòng)編碼器的體系結(jié)構(gòu)。
圖2 LSTM 自動(dòng)編碼器的體系結(jié)構(gòu)
狀態(tài)檢測(cè)服務(wù)分別使用LSTM層作為編碼器和解碼器。編碼器采用
式中:xi和x^i分別為實(shí)際觀測(cè)值和重建觀測(cè)值。用重建誤差分?jǐn)?shù)來(lái)檢測(cè)未來(lái)的異常值。如果重建誤差低于用戶閾值,則將新的觀測(cè)值分類為狀態(tài)正常,如果低于用戶閾值,則將其分類為狀態(tài)異常。
資源配置服務(wù)是一個(gè)混合自動(dòng)擴(kuò)展器,它使用基于閾值的規(guī)則來(lái)支持響應(yīng)式自動(dòng)擴(kuò)展,同時(shí)它還引入了基于機(jī)器學(xué)習(xí)的主動(dòng)方法來(lái)根據(jù)未來(lái)的工作負(fù)載需求調(diào)整系統(tǒng)資源[5]?;陂撝档囊?guī)則已用于根據(jù)內(nèi)存使用百分比指標(biāo)自動(dòng)擴(kuò)展容器化應(yīng)用程序,如果內(nèi)存使用率超過(guò)預(yù)定上限閾值(稱為UT),則會(huì)根據(jù)稱為Sv 的縮放參數(shù)向容器分配額外的內(nèi)存。如果內(nèi)存使用率低于預(yù)定下限閾值(稱為L(zhǎng)T),則該服務(wù)將根據(jù)Sv 參數(shù)減少分配的內(nèi)存量。
盡管通過(guò)簡(jiǎn)化的基于閾值的規(guī)則可以處理各種資源使用度量,但還需要額外的技術(shù)來(lái)確保虛擬資源的可用性。本研究提出了一種基于未來(lái)工作負(fù)載需求的混合機(jī)器學(xué)習(xí)方法來(lái)提供云資源。更詳細(xì)地說(shuō),歷史數(shù)據(jù)用于訓(xùn)練K-means 聚類算法,根據(jù)CPU 利用率將時(shí)間序列劃分為高、中、低需求狀態(tài)集群。然后,測(cè)量每個(gè)集群的平均序列,并分別作為高、中、低需求組的代表序列。
因此,將部署和監(jiān)視目標(biāo)應(yīng)用程序,以收集資源使用指標(biāo)?;跁r(shí)間窗長(zhǎng)度參數(shù)Wl 將預(yù)測(cè)序列分割成更小的序列,然后計(jì)算每個(gè)片段與每個(gè)聚類的三個(gè)代表性序列之間的距離。因此,每個(gè)片段從最接近的代表性序列繼承標(biāo)簽。最后,資源配置模塊根據(jù)每個(gè)段的標(biāo)簽和預(yù)算限制參數(shù)Bl 創(chuàng)建縮放計(jì)劃,自動(dòng)調(diào)整分配的資源。
系統(tǒng)優(yōu)化服務(wù)支持基于云的系統(tǒng)的受限性能優(yōu)化。該服務(wù)使用描述跨不同工作負(fù)載任務(wù)的應(yīng)用程序行為的數(shù)據(jù)記錄[6]。這些記錄以數(shù)據(jù)集的形式被組織起來(lái),其中包含描述資源配置、配置類型、應(yīng)用程序配置等。在虛擬化環(huán)境中運(yùn)行所有可能的組合時(shí),由于時(shí)間和成本的限制,每次優(yōu)化方法都需要評(píng)估推薦的配置。因此,系統(tǒng)優(yōu)化模塊使用遺傳算法來(lái)確定產(chǎn)生最高應(yīng)用程序性能的配置,并利用人工神經(jīng)網(wǎng)絡(luò)模型對(duì)優(yōu)化過(guò)程中每個(gè)個(gè)體的適應(yīng)度進(jìn)行評(píng)估。
系統(tǒng)優(yōu)化模塊引入了一個(gè)容器化的環(huán)境,由一個(gè)源系統(tǒng)和一個(gè)克隆系統(tǒng)組成,允許快速部署應(yīng)用程序??寺∠到y(tǒng)被部署為源系統(tǒng)的副本,以避免系統(tǒng)開銷。圖3 展示了系統(tǒng)優(yōu)化操作的事件流。
圖3 系統(tǒng)優(yōu)化操作事件流
系統(tǒng)優(yōu)化操作事件流中:
①源系統(tǒng)為源管理器提供各種配置。
②源管理器將配置文件注入到協(xié)調(diào)器中,以便用于約束優(yōu)化過(guò)程。
③協(xié)調(diào)器訪問(wèn)記錄以插入、更新和收集數(shù)據(jù),用于建模和優(yōu)化任務(wù)。
④協(xié)調(diào)器對(duì)記錄應(yīng)用預(yù)處理和特征選擇技術(shù)來(lái)創(chuàng)建輸入數(shù)據(jù)集。
⑤協(xié)調(diào)器啟動(dòng)基于混合神經(jīng)遺傳方法的約束優(yōu)化過(guò)程。
⑥協(xié)調(diào)器將推薦的配置注入到克隆系統(tǒng)中。
⑦克隆系統(tǒng)返回實(shí)驗(yàn)記錄,協(xié)調(diào)器相應(yīng)地更新記錄。
⑧協(xié)調(diào)器根據(jù)決策制定過(guò)程將推薦的配置注入源管理器。
⑨源管理器將推薦的配置傳遞給PACE 管理器,后者決定相應(yīng)地?cái)U(kuò)展和調(diào)優(yōu)源系統(tǒng)。
本應(yīng)用重點(diǎn)聚焦國(guó)家電網(wǎng)運(yùn)維管理中資源配置問(wèn)題,為數(shù)字化運(yùn)維體系的構(gòu)建提供了理論及應(yīng)用支撐。面對(duì)多樣化的業(yè)務(wù)場(chǎng)景(如APP 登錄、交電費(fèi)等),當(dāng)用戶訪問(wèn)量較大時(shí),這對(duì)系統(tǒng)的負(fù)載均衡和資源配置提出了較高的要求。面對(duì)新的場(chǎng)景需求,給定業(yè)務(wù)場(chǎng)景需求見表1。
表1 給定業(yè)務(wù)場(chǎng)景需求
由業(yè)務(wù)部門(省公司和網(wǎng)上國(guó)網(wǎng)運(yùn)營(yíng)中心)從業(yè)務(wù)視角提出業(yè)務(wù)活動(dòng)場(chǎng)景需求,發(fā)給信息運(yùn)維中心。信息運(yùn)維中心人員依據(jù)運(yùn)維經(jīng)驗(yàn),分別對(duì)微服務(wù)和云平臺(tái)資源設(shè)定初步的系統(tǒng)運(yùn)行需求,基于這些需求設(shè)置系統(tǒng)負(fù)載狀態(tài)下各參數(shù)的基本閾值,見表2。
表2 系統(tǒng)負(fù)載狀態(tài)下各參數(shù)的基本閾值
將國(guó)家電網(wǎng)運(yùn)維系統(tǒng)與本研究提出的自適應(yīng)資源配置框架相結(jié)合,面對(duì)多種形式的負(fù)載參數(shù),系統(tǒng)可以做到實(shí)時(shí)的檢測(cè)系統(tǒng)運(yùn)行狀態(tài),并不斷的收集系統(tǒng)的運(yùn)行數(shù)據(jù)。根據(jù)收集到的運(yùn)行數(shù)據(jù),利用機(jī)器學(xué)習(xí)算法實(shí)現(xiàn)運(yùn)行狀態(tài)的聚類,并實(shí)現(xiàn)了資源的自動(dòng)調(diào)整分配。最后通過(guò)遺傳算法的特征空間不斷地優(yōu)化系統(tǒng)資源分配。以云平臺(tái)資源分配為例,Oracle 數(shù)據(jù)庫(kù)各參數(shù)配置指標(biāo)不斷地優(yōu)化迭代,優(yōu)化后的參數(shù)指標(biāo),見表3。
表3 優(yōu)化后的參數(shù)指標(biāo)
通過(guò)應(yīng)用算例得出結(jié)論,結(jié)合本研究提出的自適應(yīng)資源配置框架可以有效地實(shí)現(xiàn)由系統(tǒng)資源到運(yùn)行狀態(tài)資源的映射,通過(guò)動(dòng)態(tài)的資源分配和多種優(yōu)化策略,可以實(shí)現(xiàn)資源的最大化分配,系統(tǒng)性能得到穩(wěn)固提升。
為了應(yīng)對(duì)云環(huán)境下資源分配的成本高、可靠性和性能低的挑戰(zhàn),本研究基于云計(jì)算環(huán)境下的系統(tǒng)運(yùn)行狀態(tài),提出了一種可靠的自適應(yīng)資源配置框架(PACE)。該框架圍繞狀態(tài)檢測(cè)、資源配置和系統(tǒng)優(yōu)化三項(xiàng)關(guān)鍵服務(wù),可以有效的針對(duì)云環(huán)境下復(fù)雜的系統(tǒng)狀態(tài)進(jìn)行分析,并基于工作負(fù)載需求進(jìn)行動(dòng)態(tài)資源分配。最后,通過(guò)識(shí)別系統(tǒng)和應(yīng)用的程序配置,利用多種優(yōu)化策略使得系統(tǒng)負(fù)載性能最大化。
本研究為國(guó)家電網(wǎng)運(yùn)維管理提供了具有實(shí)際應(yīng)用價(jià)值的理論支持,有助于構(gòu)建適應(yīng)業(yè)務(wù)要求的數(shù)字化運(yùn)維體系,推進(jìn)國(guó)網(wǎng)跨單位運(yùn)維協(xié)作的高效性,提升國(guó)家電網(wǎng)系統(tǒng)的整體運(yùn)維能力。