文/付林
電力企業(yè)業(yè)務(wù)應(yīng)用逐年增多,業(yè)務(wù)應(yīng)用運(yùn)維等級(jí)也不斷提高。為了提高IT運(yùn)維能力,電力企業(yè)已在各網(wǎng)省建立數(shù)據(jù)中心,將各業(yè)務(wù)應(yīng)用和設(shè)備的運(yùn)維工作集中到數(shù)據(jù)中心。隨著數(shù)據(jù)中心的建立,運(yùn)維工作都由專業(yè)的運(yùn)維人員承擔(dān)。數(shù)據(jù)中心運(yùn)維對(duì)象的數(shù)量級(jí)大大提高,傳統(tǒng)的運(yùn)維手段,在面對(duì)數(shù)據(jù)中心級(jí)的運(yùn)維對(duì)象時(shí)顯得力不從心。電力企業(yè)IT運(yùn)維每年新增的統(tǒng)推應(yīng)用和自建應(yīng)用也不斷增加新的運(yùn)維工作量,這給電力企業(yè)在國(guó)內(nèi)外業(yè)務(wù)的快速發(fā)展帶來(lái)了新機(jī)遇,也給其IT運(yùn)維帶來(lái)了極大挑戰(zhàn)。
基礎(chǔ)設(shè)施硬件設(shè)備跨平臺(tái)、跨廠商,許多大型數(shù)據(jù)中心設(shè)備數(shù)量級(jí)高,各種品牌兼有,兼容性差。設(shè)備新舊程度各不相同,維保級(jí)別不同,跨網(wǎng)段,跨機(jī)房,防火墻策略繁雜交錯(cuò),數(shù)據(jù)中心的基礎(chǔ)設(shè)施硬件設(shè)備運(yùn)維難度復(fù)雜度遠(yuǎn)遠(yuǎn)大于傳統(tǒng)中小數(shù)量級(jí)的設(shè)備運(yùn)維。各種品牌的定期巡檢和維護(hù)如果單靠人工,即便是通過(guò)腳本來(lái)進(jìn)行運(yùn)維,也會(huì)因設(shè)備廠商不同品牌不同,跨平臺(tái),甚至設(shè)備自身缺陷,導(dǎo)致各種各樣的報(bào)錯(cuò),需要大量人力介入。遇到補(bǔ)丁升級(jí),版本升級(jí)時(shí),因?yàn)樾杞鉀Q跨平臺(tái)問(wèn)題,運(yùn)維人員往往需要預(yù)先定制好多種腳本,并需要搭建各種對(duì)應(yīng)的測(cè)試環(huán)境,進(jìn)行可用性測(cè)試后,再對(duì)各種平臺(tái)設(shè)備進(jìn)行升級(jí),這增加了運(yùn)維人員的工作負(fù)擔(dān)。電力企業(yè)系統(tǒng)可用性要求為7*24小時(shí),長(zhǎng)時(shí)間繁瑣的工作不僅會(huì)增加運(yùn)維出錯(cuò)的幾率,也會(huì)給系統(tǒng)可用性造成影響。
電力企業(yè)業(yè)務(wù)應(yīng)用眾多,由不同的廠商開(kāi)發(fā)實(shí)施,在開(kāi)發(fā)時(shí)采用的基礎(chǔ)軟件版本并不統(tǒng)一。從穩(wěn)定運(yùn)行角度考慮,部分業(yè)務(wù)應(yīng)用開(kāi)發(fā)時(shí)會(huì)采用穩(wěn)定版本開(kāi)發(fā)設(shè)計(jì);而從新技術(shù)應(yīng)用角度出發(fā),又有很多業(yè)務(wù)應(yīng)用會(huì)采用小眾基礎(chǔ)軟件版本來(lái)開(kāi)發(fā)實(shí)施。建設(shè)轉(zhuǎn)運(yùn)行后,會(huì)導(dǎo)致運(yùn)維工作面臨各種不同的基礎(chǔ)軟件版本。這不僅增加了運(yùn)維的工作復(fù)雜度,也提高了運(yùn)維的難度,對(duì)運(yùn)維人員的技術(shù)要求更高,提高了運(yùn)維壓力和運(yùn)維成本。電力企業(yè)業(yè)務(wù)應(yīng)用安全性要求高,社會(huì)影響范圍廣,對(duì)基礎(chǔ)軟件版本的漏洞治理工作也是運(yùn)維的重要工作之一。種類繁雜的基礎(chǔ)軟件版本不僅增加了運(yùn)維工作量,也增加了基礎(chǔ)軟件可能存在的安全風(fēng)險(xiǎn)。
運(yùn)維工作涉及很多流程管理,各業(yè)務(wù)應(yīng)用自有其業(yè)務(wù)流程,基礎(chǔ)運(yùn)維也存在各種流程。因此,電力企業(yè)IT運(yùn)維需要一套完善高效的運(yùn)維體系。
通過(guò)運(yùn)維自動(dòng)化可以降低人工介入并且提高運(yùn)維效率。電力企業(yè)IT運(yùn)維向自動(dòng)化運(yùn)維方向發(fā)展是解決電力企業(yè)IT運(yùn)維所面臨問(wèn)題的必由之路。電力企業(yè)IT運(yùn)維從標(biāo)準(zhǔn)化開(kāi)始,然后進(jìn)行統(tǒng)一化管理,走向運(yùn)維自動(dòng)化之路。
標(biāo)準(zhǔn)化包括了基礎(chǔ)設(shè)施硬件設(shè)備標(biāo)準(zhǔn)化和基礎(chǔ)軟件版本標(biāo)準(zhǔn)化。標(biāo)準(zhǔn)化是實(shí)現(xiàn)運(yùn)維自動(dòng)化的基礎(chǔ)。只有改善底層設(shè)備及基礎(chǔ)平臺(tái)軟件的復(fù)雜多樣性,才能為實(shí)現(xiàn)自動(dòng)化運(yùn)維鋪平道路。X86PC性能提升及虛擬化技術(shù)的推進(jìn)為基礎(chǔ)設(shè)施硬件設(shè)備的標(biāo)準(zhǔn)化創(chuàng)造了極佳的條件?;A(chǔ)軟件版本則需要進(jìn)行版本升級(jí)及標(biāo)準(zhǔn)化工藝流程管理改造來(lái)實(shí)現(xiàn)標(biāo)準(zhǔn)化。流程標(biāo)準(zhǔn)化需對(duì)各業(yè)務(wù)流程和運(yùn)維流程進(jìn)行梳理,然后通過(guò)統(tǒng)一的對(duì)外接口提供服務(wù)。運(yùn)維流程通過(guò)統(tǒng)一平臺(tái)進(jìn)行管理,對(duì)外提供統(tǒng)一的接口,以菜單的形式提供流程服務(wù)。標(biāo)準(zhǔn)化統(tǒng)一化實(shí)施后,即可以應(yīng)用自動(dòng)化工具,開(kāi)展運(yùn)維的自動(dòng)化操作及管理。逐步實(shí)現(xiàn)自動(dòng)監(jiān)控、巡檢、部署、分析、操作等運(yùn)維工作。
在IT運(yùn)維管理工作中,設(shè)備臺(tái)賬的管理是最重要也是最根本的運(yùn)維工作。信息運(yùn)維離不開(kāi)設(shè)備臺(tái)賬的支撐,設(shè)備臺(tái)賬的準(zhǔn)確和及時(shí)更新對(duì)IT運(yùn)維至關(guān)重要,直接決定自動(dòng)化運(yùn)維能否實(shí)現(xiàn)。有了精準(zhǔn)的臺(tái)賬,才能支撐數(shù)據(jù)信息的監(jiān)控與采集。因此電力企業(yè)IT運(yùn)維自動(dòng)化的基礎(chǔ)是實(shí)現(xiàn)設(shè)備配置管理的配置管理庫(kù)CMDB。CMDB管理的對(duì)象是具體的設(shè)備,其信息內(nèi)容應(yīng)包括設(shè)備臺(tái)賬、設(shè)備履歷、設(shè)備關(guān)聯(lián)視圖、網(wǎng)絡(luò)及安全策略配置、賬號(hào)權(quán)限等一系列的內(nèi)容。CMDB還需能夠記錄和監(jiān)聽(tīng)配置的變更,對(duì)配置信息進(jìn)行自動(dòng)采集和提示。
運(yùn)維監(jiān)控管理分為硬件設(shè)備監(jiān)控管理和軟件應(yīng)用監(jiān)控管理,監(jiān)控級(jí)別為7*24小時(shí)。
硬件設(shè)備監(jiān)控管理是先生成設(shè)備正常運(yùn)行態(tài)的數(shù)據(jù)模型,制定各狀態(tài)閾值,然后通過(guò)對(duì)比模型,實(shí)現(xiàn)監(jiān)控管理。監(jiān)控對(duì)比數(shù)據(jù)模型,如果發(fā)現(xiàn)某參數(shù)出現(xiàn)異常,即根據(jù)決策模型選擇一套決策方案,并給出警報(bào)提示。監(jiān)控管理的目標(biāo)為設(shè)備運(yùn)行的狀態(tài),避免設(shè)備因?yàn)槌霈F(xiàn)異常狀態(tài),導(dǎo)致整個(gè)設(shè)備系統(tǒng)無(wú)法正常運(yùn)作的情況,影響業(yè)務(wù)應(yīng)用運(yùn)行。監(jiān)控管理的成果可通過(guò)數(shù)據(jù)報(bào)表、風(fēng)險(xiǎn)評(píng)估、設(shè)備運(yùn)行狀態(tài)展示的方式呈現(xiàn),應(yīng)用直觀的方法,多元化的描述設(shè)備運(yùn)行的情況。
軟件應(yīng)用監(jiān)控主要監(jiān)控和管理的對(duì)象是基礎(chǔ)平臺(tái)軟件和業(yè)務(wù)應(yīng)用,它包括操作系統(tǒng)、數(shù)據(jù)庫(kù)、中間件、業(yè)務(wù)應(yīng)用等運(yùn)行情況。監(jiān)控的方法為監(jiān)控軟件應(yīng)用層面的數(shù)據(jù)參數(shù)變化、流量及訪問(wèn)數(shù)據(jù)。監(jiān)控與業(yè)務(wù)有關(guān)的應(yīng)用層面數(shù)據(jù),數(shù)據(jù)參數(shù)變化,諸如數(shù)據(jù)庫(kù)、中間件等特殊參數(shù)的變化,能直觀的呈現(xiàn)數(shù)據(jù)并給出預(yù)警,為人工干預(yù)提供依據(jù)。流量分析提供IO流量監(jiān)控、IP地址監(jiān)控、帶寬監(jiān)控等多種監(jiān)控功能,如發(fā)現(xiàn)流量異常,則立即給予響應(yīng)并給出警報(bào)。訪問(wèn)控制,它監(jiān)控訪問(wèn)來(lái)源,如果發(fā)現(xiàn)訪問(wèn)的來(lái)源不屬于安全范圍,即給予響應(yīng),發(fā)出警報(bào)。業(yè)務(wù)監(jiān)控子系統(tǒng)的監(jiān)控參數(shù)及監(jiān)控的功能可以拓展,強(qiáng)化業(yè)務(wù)監(jiān)控的能力。
運(yùn)維操作支撐系統(tǒng)包括運(yùn)維流程管理、脆弱性自動(dòng)偵測(cè)、自動(dòng)應(yīng)急響應(yīng)、自動(dòng)部署工具、自動(dòng)運(yùn)維操作工具等。運(yùn)維流程管理根據(jù)標(biāo)準(zhǔn)化的流程設(shè)置,通過(guò)統(tǒng)一的接口,對(duì)外提供服務(wù),以服務(wù)菜單的形式對(duì)用戶提供資源申請(qǐng)等基礎(chǔ)運(yùn)維工作,減少了找尋歸口部門的繁瑣步驟。各資源審批者也能通過(guò)統(tǒng)一的運(yùn)維流程管理組件來(lái)處理各自相應(yīng)的資源審批。脆弱性自動(dòng)偵測(cè),它依據(jù)系統(tǒng)設(shè)置的指標(biāo),比如新增的系統(tǒng)漏洞信息等等,自動(dòng)巡檢資源,給出系統(tǒng)脆弱的位置。如漏洞過(guò)多、程序和腳本出現(xiàn)問(wèn)題,該系統(tǒng)會(huì)統(tǒng)計(jì)出系統(tǒng)相應(yīng)脆弱點(diǎn)報(bào)表并提供處理方案,直觀呈現(xiàn)出來(lái)。自動(dòng)應(yīng)急響應(yīng),這是指當(dāng)異常情況出現(xiàn)以后,它能根據(jù)已定義決策模型給出保障業(yè)務(wù)應(yīng)用可用性的應(yīng)急響應(yīng)方式,保護(hù)整個(gè)系統(tǒng)可用穩(wěn)定。例如負(fù)載的突然變化,或者遭遇異常流量,可以以應(yīng)急響應(yīng)的方式,啟動(dòng)新增節(jié)點(diǎn),分?jǐn)傌?fù)載,降低壓力。通過(guò)自動(dòng)應(yīng)急響應(yīng),管理人員可以獲得對(duì)突發(fā)異常事件的分析處理時(shí)間,正確修復(fù)讓系統(tǒng)恢復(fù)正常運(yùn)作。自動(dòng)部署工具,可以根據(jù)運(yùn)維管理員設(shè)置,自動(dòng)完成系統(tǒng)裝機(jī),版本升級(jí),應(yīng)用遷移等工作,根據(jù)標(biāo)準(zhǔn)化的安裝部署工藝流程,完成大批量的自動(dòng)化部署操作,并能夠記錄部署過(guò)程及反饋異常。自動(dòng)運(yùn)維操作工具,可以將日常性的運(yùn)維工作定制為腳本,在固定的時(shí)間節(jié)點(diǎn),自動(dòng)化批量執(zhí)行腳本,并產(chǎn)生操作記錄,反饋運(yùn)維人員結(jié)果。
電力企業(yè)的IT運(yùn)維已走上IT運(yùn)維自動(dòng)化之路。自動(dòng)化運(yùn)維不僅是IT運(yùn)維工具的應(yīng)用更是運(yùn)維管理的優(yōu)化提升。通過(guò)實(shí)現(xiàn)標(biāo)準(zhǔn)化,統(tǒng)一化,優(yōu)化流程管理,借助自動(dòng)化運(yùn)維工具可更高效的完成電力企業(yè)的IT運(yùn)維工作,保障電力企業(yè)業(yè)務(wù)應(yīng)用的可靠、可用。
參考文獻(xiàn)
[1]陳正華.國(guó)網(wǎng)信息系統(tǒng)運(yùn)維自動(dòng)化平臺(tái)的設(shè)計(jì)[J].工業(yè)儀表與自動(dòng)化裝置,2017(02).
[2]戚偉強(qiáng),蔣鴻城,裴旭斌,沈志豪,夏威.基于云平臺(tái)的電力數(shù)據(jù)中心自動(dòng)運(yùn)維體系研究[J].電力信息與通信技術(shù),2016(07).
[3]文星.電力系統(tǒng)中IT運(yùn)維自動(dòng)化的應(yīng)用[J].信息通信,2015(12).