郭威 陳秀千
摘要
在當(dāng)今科學(xué)和信息技術(shù)飛速發(fā)展的情況下,作為信息的交換傳輸與統(tǒng)計分析以及存儲備份的中心數(shù)據(jù)中心,其是相關(guān)企業(yè)的信息系統(tǒng)平臺實現(xiàn)集中化處理的必要基礎(chǔ),其在企業(yè)的信息化建設(shè)中發(fā)揮著重要的作用??萍夹畔⒌牟粩噙M步促使了企業(yè)數(shù)據(jù)中心相關(guān)設(shè)備的應(yīng)用數(shù)量逐漸遞增,不斷強化對數(shù)據(jù)中心的管理并逐步實現(xiàn)數(shù)據(jù)中心運維管理的自動化,從而達到節(jié)省人力、節(jié)約成本的目的。基于此,本文首先闡述了自動化運維的相關(guān)理論知識,并進一步分析研究了自動化運維平臺的建設(shè)方法。
【關(guān)鍵詞】數(shù)據(jù)中心 運維管理 自動化
運維自動化其實就是將傳統(tǒng)的計算機運維工作實現(xiàn)自動化,從而改變了以往傳統(tǒng)的手動模式,減少了運維工作人員的數(shù)量,全面的提升了計算機運維的工作效率。由于傳統(tǒng)的單靠人工計算機運維已經(jīng)不能滿足當(dāng)前企業(yè)服務(wù)器及數(shù)據(jù)量的各項要求,這就要求相關(guān)技術(shù)人員通過不斷學(xué)習(xí)來應(yīng)對目前高速發(fā)展的信息化時代。同時,對于企業(yè)的自動化運維管理系統(tǒng)在設(shè)計時要遵循自動化程度高、綜合性強、易擴展的原則,從而在實際的工作時實現(xiàn)數(shù)據(jù)中心的自動化管理。
1 運維自動化的內(nèi)容和工具
1.1 運維自動化的內(nèi)容
計算機運維經(jīng)歷了漫長的發(fā)展歷程,目前它已由原來的幾臺服務(wù)器發(fā)展到現(xiàn)在一個海量的數(shù)據(jù)中心,并逐步實現(xiàn)了運維自動化的一個全新狀態(tài),而在當(dāng)下復(fù)雜的大數(shù)據(jù)背景下實現(xiàn)計算機運維自動化管理成為運維人員亟待解決的問題。對于每天的常規(guī)檢查、配置變更以及軟件安裝這些平時運維工作中需要重復(fù)進行的工作,實現(xiàn)自動化管理代替?zhèn)鹘y(tǒng)的人工操作即為運維自動化管理。通過運維自動化可以使運維工作中的延遲現(xiàn)象得以減少甚至消除,從而達到計算機運維的“零延遲”目標。另外,運維自動化系統(tǒng)可以幫助運維人員避免日常簡單重復(fù)的工作,節(jié)省時間的同時使工作效率也得以提高。此外,自動化運維可以對故障進行提前預(yù)測并報警,從而幫助運維工作人員在事
故未發(fā)生時就能提前預(yù)防并消除隱患,大大降低企業(yè)在生產(chǎn)過程中不必要的消耗。圖1所示為運維自動化程度與運維復(fù)雜度模型分析,根據(jù)這個模型得出,當(dāng)機器的數(shù)量增加時運維的復(fù)雜度也會相應(yīng)增加,如果采用自動化運維則會減少大量人工操作,節(jié)省成本。
1.2 自動化運維管理工具
企業(yè)運營過程中,自動化T具的應(yīng)用可以徹底實現(xiàn)運維自動化,主要有運維監(jiān)控和診斷優(yōu)化工具、運維流程自動化工具。
1.2.1 白動監(jiān)控
目前多數(shù)企業(yè)的運維系統(tǒng)已經(jīng)逐步完善,但是運維人員及被管理對象的數(shù)量比例嚴重失調(diào),因此不能及時發(fā)現(xiàn)運行過程中發(fā)生的風(fēng)險及故障。而監(jiān)控自動化對工作中重要的計算機組件(路由器、交換機、防火墻等)、業(yè)務(wù)的運行情況以及處理效率等實時狀態(tài)進行主動式監(jiān)控,從而達到及時并準確的發(fā)現(xiàn)運行中發(fā)生的各種故障,然后將故障通知相關(guān)用戶,達到提前預(yù)警防患于未然的效果。
1.2.2 自動檢測配置變更
由于運維對象多,變更量大且頻率高,運維工作者的工作量很大,從而導(dǎo)致有些流程和制度執(zhí)行不到位的情況。而一旦計算機設(shè)備的配置參數(shù)發(fā)生改變時,就會觸發(fā)到變更流程同時將信息傳遞給運維人員進行確認,通過自動化測試幫助運維人員對配置進行查找和維護。配置變更檢測自動化如圖2所示。
1.2.3 自動提示待維護事件
傳統(tǒng)的計算機運維工作時,運維對象產(chǎn)生大量的事件,由于事件的分級不合理使得工作人員不能及時發(fā)現(xiàn)并處理一些緊急事項。運維人員要想做到維護事件提醒自動化則可以通過適時監(jiān)控相關(guān)的系統(tǒng)服務(wù)管理平臺,提高管理的可控性和透明度,一旦出現(xiàn)突發(fā)的事故時,系統(tǒng)可以第一時間發(fā)現(xiàn)并啟動報警,然后將有效的信息傳遞給運維技術(shù)人員進行解決。
1.2.4 自動生成維護記錄
相關(guān)技術(shù)人員要對計算機設(shè)備的運維系統(tǒng)以及一些硬件配置進行定期自動的檢查與維護,還要對計算機系統(tǒng)的運行狀況定期自動的做好日志的記錄、收集與分析,通過對系統(tǒng)階段性的監(jiān)管與研究歸總,以此為依據(jù)定時的提供計算機運維系統(tǒng)相關(guān)的應(yīng)用狀況以及分析報告。
2 數(shù)據(jù)中心自動化運維平臺的建設(shè)方法
2.1 構(gòu)建自動化運維
2.1.1 構(gòu)建運維自動化管理平臺
通過運維自動化管理系統(tǒng)的建立可以實現(xiàn)計算機運維的自動化管理,通過自動化運維管理系統(tǒng)來實現(xiàn)對系統(tǒng)運行過程中出現(xiàn)的故障以及問題集中管理和處理的能力。運維管理平臺可以實時的對計算機設(shè)備進行管理與監(jiān)控,例如:服務(wù)端、數(shù)據(jù)庫、存檔、網(wǎng)路、安全、計算機房、相關(guān)應(yīng)用與服務(wù)端等相關(guān)項目的管控,通過對海量的網(wǎng)絡(luò)和服務(wù)器等節(jié)點的實時監(jiān)控實現(xiàn)故障的準確預(yù)警、報警以及準確定位。
2.1.2 構(gòu)建系統(tǒng)故障的自動觸發(fā)流程
運維自動化平臺在工作過程中一旦遇到問題和設(shè)備故障都會自動報警,在對故障進行匯報時,不論是系統(tǒng)報警還是人工匯報,都要嚴格切記利用紅色標識展示在運維系統(tǒng)的屏幕上。收到故障信息后,運維人員根據(jù)相關(guān)知識庫的數(shù)據(jù),然后依據(jù)相關(guān)流程按步驟操作即可。因此,企業(yè)必須要事先建立流程化的故障和事件處理機制,一旦有異常情況或設(shè)備出現(xiàn)故障時就會立即觸發(fā)相關(guān)事件,然后將相關(guān)工作流程處理程序觸發(fā)并傳遞給操作運維人員,以此確保運維人員按規(guī)定及時完成流程規(guī)定的工作,這樣可以大大提高工作以及運維處理故障事件的效率。
2.1.3 建立規(guī)范的事件跟蹤流程
要想實現(xiàn)計算機運維的自動化管理,首要工作就是建立流程化的事故處理與時間處理機制,利用表格工具對出現(xiàn)的異常情況和故障處理情況進行相應(yīng)的運維日志的記錄,并且要定期的對記錄的信息進行總結(jié),通過分析總結(jié)尋找發(fā)生故障的線索和根源。多年工作實踐發(fā)現(xiàn),通過建立事件的流程化故障和事件處理機制,可以有效降低運維人員的不規(guī)范操作,減少操作的隨意性,加大計算機操作和運維工作的執(zhí)行力度,盡力將系統(tǒng)發(fā)生故障和問題的幾率降到最低。
2.1.4 建立運維的關(guān)鍵流程
信息技術(shù)運維的管理人員為運維部門定制合理的工作流程以及職責(zé),同時其不僅要明確指出工作流程的含義,還要說明每個關(guān)鍵流程對企業(yè)的必要性,并建立事件處理機制,引入優(yōu)先處理的原則。此外,在對運維關(guān)鍵流程的自動化進行設(shè)置時,首要條件是要保證緊急事件的優(yōu)先處理原則,普通事件按常規(guī)處理,對于特別的事件運維工作人員一定要按照優(yōu)先級次序,提高事件的處理效率和質(zhì)量。
2.2 數(shù)據(jù)中心自動化運維平臺的建設(shè)方法
在進行運維管理系統(tǒng)平臺的建設(shè)時要結(jié)合業(yè)務(wù)工作的實際要求,充分將服務(wù)與安全兩個方面的因素考慮在內(nèi),以服務(wù)為視角、安全為依托,整合現(xiàn)有不合理的管理模式并采用模塊化和分層次的架構(gòu),開發(fā)出一套全新的檢測、監(jiān)控和管理軟件。
2.2.1 設(shè)計目標
運維自動化即是運用最少的運維人員,結(jié)合運用腳本(日常運維中較為常見的有shell腳本、CMD腳本、SQL腳本等)以及第三方程序,確保運維系統(tǒng)在一周的時間里每天24小時,高效率平穩(wěn)地運行。由于企業(yè)運維部門設(shè)備多、運維技術(shù)性強以及人工運維易遺漏等特點,自動化運維平臺設(shè)計的目標可概括為以下3個方面:
(1)指導(dǎo)性:對目前的存在風(fēng)險與漏洞的信息基礎(chǔ)設(shè)施的工作性能進行優(yōu)化與完善;提高運維系統(tǒng)的安全性能,以降低企業(yè)的安全風(fēng)險;對信息基礎(chǔ)設(shè)施的需求做出合理的規(guī)劃與詳細的計劃;考核技術(shù)水準提高服務(wù)質(zhì)量。
(2)實時數(shù)據(jù):隨時對基礎(chǔ)設(shè)施和運維系統(tǒng)的工作情況;對設(shè)備的故障和異常及時掌握并第一時間找出問題的原因;對運行狀況進行分析并進行完善以提高運維效率
(3)數(shù)據(jù)可靠:流程管理的變更可以確保系統(tǒng)設(shè)備生命周期管理的數(shù)據(jù)可靠;對日常
的巡檢單進行管理可以確保企業(yè)數(shù)據(jù)中心相關(guān)監(jiān)控設(shè)備的準確;通過提取實時數(shù)據(jù)以及校驗底層監(jiān)控對象以實現(xiàn)監(jiān)控事件相關(guān)數(shù)據(jù)的準確程度。
2.2.2 系統(tǒng)平臺的設(shè)計
(1)頂層架構(gòu)設(shè)計。分析企業(yè)目前信息運維系統(tǒng)的使用狀況,技術(shù)人員要保證新架設(shè)的自動化運維綜合管理系統(tǒng)不影響企業(yè)目前的架構(gòu)體系,自動化平臺要以清楚明了的圖形化界面為依托,靈活高效的實現(xiàn)對企業(yè)核心業(yè)務(wù)系統(tǒng)以及平常信息運維的管理,架構(gòu)設(shè)計如圖30
(2)底層數(shù)據(jù)抓取設(shè)計。作為監(jiān)控模塊重要組成部分的系統(tǒng)基礎(chǔ)信息采集模塊,其不僅有助于運維技術(shù)人員對當(dāng)前系統(tǒng)的健康狀況有一個詳細的了解,還可以作為衡量一個企業(yè)服務(wù)質(zhì)量的標準。例如,在系統(tǒng)資源吃緊時會出現(xiàn)系統(tǒng)卡頓等現(xiàn)象,造成客戶的體驗效果變差從而影響了服務(wù)質(zhì)量。另外,通過提取相關(guān)設(shè)備流量的使用情況,可以為運維技術(shù)人員評估帶寬的性能以及設(shè)備指標數(shù)據(jù)提供依據(jù),其中包括Linux系統(tǒng)信息、系統(tǒng)的數(shù)據(jù)信息、塊設(shè)備和網(wǎng)絡(luò)地址庫等信息。技術(shù)人員獲得這些信息之后,就可以對系統(tǒng)服務(wù)的狀態(tài)進行全方位的解讀,然后利用報警機制的快速響應(yīng)特性,使其在第一時間響應(yīng)并對故障進行處理。
現(xiàn)在多數(shù)的企業(yè)計算機機房服務(wù)器系統(tǒng)主要是以LinuxX86和Unix小型機為主,在進行運維平臺設(shè)計時,利用UnixShell&Python;實現(xiàn)對小型機Unix和Linux系統(tǒng)的健康狀況和服務(wù)進程狀態(tài)的抓取。最后將采集的原始數(shù)據(jù)經(jīng)過上層子系統(tǒng)的分析處理,對整個系統(tǒng)進行全面深度的檢測管理。
(3)自動化運維功能設(shè)計。自動化運維管理平臺設(shè)計時要根據(jù)企業(yè)日常運維的特點,結(jié)合業(yè)務(wù)工作的實際要求,充分考慮服務(wù)與安全兩方而的內(nèi)容,實現(xiàn)企業(yè)數(shù)據(jù)的統(tǒng)一監(jiān)管和管理,并且做到對數(shù)據(jù)準確的獲取與響應(yīng)。在對運維資源進行功能化、系統(tǒng)化區(qū)分后,根據(jù)平臺建設(shè)目標,站在信息運維人員的角度,具
體劃分為如下:
1.日常檢查與管理。企業(yè)數(shù)據(jù)中心的所有值班人員和運維人員對設(shè)備系統(tǒng)健康狀況的檢查工作,通過應(yīng)用工作表單的方法進行記錄,在遇到故障的情況時,通過登錄相關(guān)的事件管理系統(tǒng)完成后續(xù)工作。
2.運維監(jiān)控管理。對企業(yè)運維服務(wù)時所生成的一系列關(guān)鍵指標進行分析,來衡量企業(yè)運維系統(tǒng)的現(xiàn)狀。一目了然的圖形化方式實現(xiàn)對企業(yè)核心業(yè)務(wù)系統(tǒng)及數(shù)據(jù)庫的實時監(jiān)控;以簡單的專業(yè)化命令行代碼實現(xiàn)異地/本地災(zāi)備環(huán)境的數(shù)據(jù)庫同步,方便非本專業(yè)的值班人員了解并發(fā)現(xiàn)出現(xiàn)的問題。
3.設(shè)備信息管理。通過集中化的平臺和標準化的變更流程,對所有硬件的相關(guān)設(shè)備信息進行細化并歸檔,以方便運維管理層準確快速的進行信息的查找。
4.知識庫文檔管理。對于一切涉及運維的技術(shù)類文檔統(tǒng)一的進行管理和歸檔,以方便以后的參考與查閱。
5.接入第三方平臺。結(jié)合企業(yè)目前的信息技術(shù)運維管理工具,為其配備簡單的賬戶信息,以實現(xiàn)從運維平臺單點接人到第三方系統(tǒng)。
6.系統(tǒng)安全管理。通過對安全事件的監(jiān)控以及系統(tǒng)漏洞與病毒感染種類進行統(tǒng)計,以此來了解運維系統(tǒng)的安全與否。
2.3 自動化運維平臺功能的實現(xiàn)
2.3.1 本地數(shù)據(jù)庫與異地數(shù)據(jù)庫同時監(jiān)控
在企業(yè)的運維管理中,本地數(shù)據(jù)庫OracleDataguard及異地數(shù)據(jù)庫Sliareplex的監(jiān)控工作是非常值得重視的,其能否及時與精準的將相應(yīng)數(shù)據(jù)進行復(fù)制對于企業(yè)系統(tǒng)數(shù)據(jù)的安全與否具有不可替代的作用。如果不應(yīng)用自動化運維平臺,這樣便只能由企業(yè)內(nèi)部具有專業(yè)知識的數(shù)據(jù)庫管理員去進行源端與目標端系統(tǒng)服務(wù)和數(shù)據(jù)庫服務(wù)進行狀態(tài)、數(shù)據(jù)積壓與延遲量的檢查,這就大大增加了相關(guān)技術(shù)人員的工作量。而運維技術(shù)人員手工編寫一些Shell腳本在服務(wù)器上進行運維,利用shell腳本達到對本地數(shù)據(jù)的獲取,并利用信息傳輸機制把相應(yīng)數(shù)據(jù)精準地傳送到運維平臺的相應(yīng)數(shù)據(jù)庫中,且在平臺上展示給工作人員,達到及時報警并準確定位故障發(fā)生點。
2.3.2 應(yīng)用服務(wù)與數(shù)據(jù)庫服務(wù)可用性監(jiān)控
應(yīng)用服務(wù)狀態(tài)與數(shù)據(jù)庫服務(wù)狀態(tài)不僅僅是運維部門工作的評估項目,其更關(guān)系著企業(yè)的正常運作。若未構(gòu)建自動化運維平臺,很多時候都是在用戶或研發(fā)團隊出現(xiàn)問題時才通知運維部門,致使企業(yè)運維技術(shù)人員無法及時發(fā)現(xiàn)并處理異常情況,大大降低了企業(yè)運維部門的工作效率。而通過構(gòu)建自動化運維管理平臺可以及時監(jiān)管應(yīng)用服務(wù)與數(shù)據(jù)庫服務(wù)狀態(tài),且能把相應(yīng)數(shù)據(jù)信息大批傳送至平臺前端,由數(shù)據(jù)中心相應(yīng)從業(yè)者及當(dāng)值者實行監(jiān)管,一旦出現(xiàn)故障或異常情況,系統(tǒng)就會自動報警從而彌補了人工監(jiān)控的不足之處。
2.3.3 備用存檔檢驗自動化
相關(guān)數(shù)據(jù)與文件等的備用存檔可靠與否,直接影響與決定著企業(yè)數(shù)據(jù)是否存在威脅與在
出現(xiàn)問題需要回檔時可回到的時間點,因此,備用存檔的可靠性檢驗至關(guān)重要。大多時候備用存檔均是由運維部門的相關(guān)從業(yè)者建立并檢驗、核對的,但以往的人工檢驗難免因特殊原因致使出現(xiàn)差錯,導(dǎo)致誤漏情況或操作出錯的情況出現(xiàn),因此造成部分數(shù)據(jù)丟失給企業(yè)帶來不可估量的損失。而建立自動化運維平臺后,眾多各類備用存檔數(shù)據(jù)文件均能夠利用Shell腳本完成檢驗的自動化與檢驗結(jié)果直觀顯示,從而使得系統(tǒng)數(shù)據(jù)文件的備用存檔得以高質(zhì)保證。
3 結(jié)束語
伴隨著眾多科研、從業(yè)人員夜以繼日的深入研究,多項相關(guān)難題得到解決,“云計算”與“虛擬化”兩項新興科技逐漸得到了極大發(fā)展。為信息化構(gòu)建帶來了極大的便利,但也為數(shù)據(jù)中心的運維提出了全新的挑戰(zhàn)。為此,提升數(shù)據(jù)中心運維技術(shù),逐步實現(xiàn)數(shù)據(jù)中心運維管理的自動化,讓相關(guān)運維技術(shù)人員有更多精力投入到對系統(tǒng)和技術(shù)的優(yōu)化工作中,從而降低人工操作的失誤率,節(jié)省人力物力的同時也給企業(yè)減少了眾多的資金開支,使企業(yè)得以更加高效、便捷、低風(fēng)險的穩(wěn)固運行。
參考文獻
[1]李威,顧海林.面向業(yè)務(wù)的自動化運維管理探究[J].中國科技縱橫,2015(01).
[2]朱玉立,任義廷,高曱子等.淺談大數(shù)據(jù)時代下的數(shù)據(jù)中心運維管理[J].信息系統(tǒng)工程,2015(11).