向陽奎 雷金紅 孟波 劉田間 丁闖
摘? 要:借鑒“互聯(lián)網+”先進理念,綜合運用云計算、大數(shù)據(jù)、物聯(lián)網、人工智能等技術,構建了“云-網-端”架構的某大數(shù)據(jù)中心平臺,打造了“物理分布、邏輯一體、架構一致”的裝備運用體系;基于大平臺+微服務架構,實現(xiàn)了數(shù)據(jù)同源、服務解耦,形成一個面向各級單位裝備運用的開放共享的環(huán)境,研究大數(shù)據(jù)中心運維管理工作的標準化、規(guī)范化、流程化,為備戰(zhàn)打仗的綜合信息服務提質增效。
關鍵詞:大數(shù)據(jù)中心;運維管理;管理體系
中圖分類號: TP308? ? ? ? ? 文獻標志碼:A
1 運維管理指導理念
該大數(shù)據(jù)中心運維管理是以ITIL和ITSS理念為指導,參照地方政務云數(shù)據(jù)中心,結合實際,開展運行維護體系建設,ITIL是IT服務管理的國際標準,ITSS是借鑒吸收質量管理原理和過程改進方法后形成的符合我國國情的國家標準[1]。
以服務臺、事件管理、問題管理、配置管理、變更管理和發(fā)布管理等基本流程為依據(jù),構建本大數(shù)據(jù)中心運維流程管理[3]。運維管理應該覆蓋運維制度和流程、運維組織和隊伍、、運維工作流程、運維技術服務平臺等全要素內容。
2 運維管理體系
在大數(shù)據(jù)中心運維管理的總體規(guī)劃下,通過標準的制度管理、人員管理、流程管理以及高效的技術管理體系建設,構建標準化、規(guī)范化、流程化、高效率的運維管理體系,實現(xiàn)對機房運行環(huán)境、服務器集群、網絡設備、安全防護設備、云平臺等整個運行系統(tǒng)的統(tǒng)一監(jiān)控、維護與管理,打造一體化的規(guī)范高效運維管理體系,從根本上提高運維效率與維護質量[5]。該大數(shù)據(jù)中心的運行維護體系建設主要涉及制度、人、技術和對象等4類因素。
3 運維技術體系架構
大數(shù)據(jù)中心正常運轉是以完善的運維體系為基礎,通過運維體系持續(xù)運作實現(xiàn)大數(shù)據(jù)中心安全、穩(wěn)定、高效、低成本運行的運維保障目標。
運維體系包括運維技術、運維流程、運維團隊、運維工作、運維績效、標準規(guī)范和規(guī)章制度等7個部分。運維體系以運維技術為支撐、構建標準化運維管理流程,通過專業(yè)化的運維團隊完成大數(shù)據(jù)中心的運行維護保障工作;運維標準規(guī)范和運維規(guī)章制度在運維過程中持續(xù)完善和持續(xù)改進,并為運維工作提供工作指導和約束,運維績效對運維工作進行全方位的考核評估,涉及制度、人和技術等各個方面,促進運維管理工作持續(xù)優(yōu)化改善,達到最優(yōu)效果[4]。
4 運維管理體系架構
運維管理體系架構包括3個方面:監(jiān)控體系、控制體系、流程體系。其中監(jiān)控體系是提供快速業(yè)務故障響應與支持的自動化平臺,并對IT環(huán)境實現(xiàn)全面監(jiān)控,控制體系的目標是實現(xiàn)對運維效果與效率的管控并滿足法規(guī)遵從的要求,流程體系的目標是確保為業(yè)務提供高質量的運維服務并降低運行風險。從監(jiān)控體系的技術架構上看,分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)呈現(xiàn)3個層次。
4.1 運維管理控制體系
這里主要是從IT治理的角度實現(xiàn)運維治理,主要是從運維的控制(包括運維治理的模式、績效考核制度、管理制度和成本控制體系等),運維的管理信息透明(包括運維的報告機制和手段等)以及運維的責任和職責(包括崗責體系等)3個方面進行管控。
4.2 運維管理流程體系
運維管理的流程體系是參照業(yè)界最佳實踐ITIL (信息技術基礎架構庫)并符合ISO20000 國際標準管理框架要求,其中運維管理的最佳實踐符合運維管理服務生命周期管理的發(fā)展要求,流程體系包括服務戰(zhàn)略、服務設計、服務轉型、服務運維和服務改5個部分。
4.3 運維管理監(jiān)控體系
運維管理的監(jiān)控體系是通過IT流程管理平臺,IT服務管理平臺和IT操作管理平臺3個部分的自動化實現(xiàn)和有效集成實現(xiàn)基于最佳實踐的組織人員結構,運維管理流程,數(shù)據(jù)信息流轉和技術高效支撐的融合體現(xiàn)[2]。從監(jiān)控體系的技術架構上看,則分為數(shù)據(jù)采集、數(shù)據(jù)處理和數(shù)據(jù)呈現(xiàn)3個層次。
5 運維組織架構及職責
運維團隊要擁有專業(yè)的技術人才、涵蓋平臺各個部分,面向保障大數(shù)據(jù)中心高可用性與安全性的運維目標,以規(guī)范、嚴密的流程以及配套的運行保障平臺來支撐和維護整套運行保障服務體系。
基于大數(shù)據(jù)中心的網絡信息體系的正常運行涉及多種復雜技術的組合,包括基礎設施、APP應用和安全運維等,需要根據(jù)運維工作劃分,精心設計運維工作崗位,并組織運行維護隊伍。大數(shù)據(jù)中心運維團隊架構如圖2所示。
主要職責是完成大數(shù)據(jù)中心的軟硬件基礎設施運行維護、各類資源規(guī)劃及管理、數(shù)據(jù)中心各類應用軟件的集成和管理、緊急事件的應急響應、重大活動保障、數(shù)據(jù)中心現(xiàn)場管理、運維制度建設、安全保障、文件資料管理、對外協(xié)調、運維工作持續(xù)改進以及上級領導安排的其它各項運維工作,具體完成11項工作。1)負責軟硬件基礎設施運行維護,包括基礎設施、網絡、基礎云平臺和基礎系統(tǒng)等。2)負責各類資源規(guī)劃及管理,包括云平臺軟件資源、數(shù)據(jù)產品資源、服務器硬件資源等。3)負責數(shù)據(jù)中心各類應用軟件的集成和管理,包括應用軟件配置管理、第三方應用集成入云、后端服務的調用和升級、應用運行狀態(tài)和數(shù)據(jù)監(jiān)控、軟件版本和補丁發(fā)布的配置管理等。4)負責緊急事件的應急響應,包括IT設備故障應急、基礎設施應急處理、網絡故障應急處理、病毒攻擊應急處理等。5)負責重大活動保障支撐,包括參觀接待、演訓活動、演示匯報支撐等。6)負責運維制度建設、包括數(shù)據(jù)采報制度、安全保密制度、應急響應制度、入網審批制度等。7)負責安全保障建設,包括網絡安全維護、入侵檢測系統(tǒng)維護、防火墻維護、防病毒系統(tǒng)維護等。8)負責文件資料管理,包括文件資料登記造冊、日常文件使用登記、借閱登記手續(xù)辦理等。9)負責對外協(xié)調,包括供應商協(xié)調、第三方技術支持服務協(xié)調等。10)負責運維工作持續(xù)改進,包括知識庫的建立和維護等。11)負責上級領導交辦的其它工作任務的解決完成、記錄和反饋。
參考文獻
[1]李勁.云計算數(shù)據(jù)中心規(guī)劃與設計[M].北京:人民郵電出版社,2018.
[2]林子雨.大數(shù)據(jù)技術原理與應用[M].北京:人民郵電出版社,2017.
[3]李鵬.IT運維之道[M].北京:人民郵電出版社,2019.
[4]姜才康.大數(shù)據(jù)系統(tǒng)運維[M].北京:清華大學出版社,2018.
[5]鐘景華.中國數(shù)據(jù)中心運維管理指針[M].北京:機械工業(yè)出版社,2017.