馬文珍,張文飛,王忠花,王 婷
(國網(wǎng)青海省電力公司信息通信公司,西寧 810008)
國家電網(wǎng)信息化“十三五”規(guī)劃期間,國網(wǎng)公司發(fā)布信息通信工作要點,要求各單位運維自動化工具推廣覆蓋率達100%。2018 年5 月,為推進信息系統(tǒng)運維自動化,落實國網(wǎng)公司186 發(fā)展戰(zhàn)略和公司“十三五”信息化規(guī)劃,有關部門提出關于加快推進信息系統(tǒng)運維自動化工作等有關要求。為了能夠跟上時代發(fā)展的步伐,滿足各項通知標準,需要進一步改進互聯(lián)網(wǎng)技術運維(Internet Technology Operation,IT),通過結構化和非結構化數(shù)據(jù)、數(shù)據(jù)集成,基于數(shù)據(jù)關聯(lián)和機器學習,實現(xiàn)信息化管理目標。
目前,很多電力公司信息通信系統(tǒng)設施種類繁多、組成結構復雜,在網(wǎng)絡層面、存儲層面、主機層面、數(shù)據(jù)庫層面、中間件層面缺乏統(tǒng)一性,依然停留在半自動化、半人工管理上,自動化管理手段不完善。企業(yè)的專業(yè)運維人員對運維對象管控度不足,在日常巡檢、故障分析、故障處理中,運維效率和處理問題效率非常低。分析企業(yè)實際運維現(xiàn)狀,全面建設統(tǒng)一的自動化/智能化運維管理平臺,有助于提升自動化運維水平。
結合電力公司信息通信體系現(xiàn)狀,其主要的發(fā)展困境如下:①運維技術復雜、孤立;②缺乏快速響應并解決問題的方案;③超過 80% 的時間用于維護,而非創(chuàng)新。
為了實現(xiàn)自動化運維目的,本次自動化運維平臺建設的目標設定為:①做好預測和預防,提前預測系統(tǒng)服務運行狀況,防止發(fā)生中斷;②使用事件群集降低用戶系統(tǒng)的平均修復時間;③IT 和業(yè)務可視性檢查,以便更輕松地協(xié)作,實時洞察用戶系統(tǒng)IT、業(yè)務運行狀況。
建設統(tǒng)一自動化/智能運維管理平臺必須要打破傳統(tǒng)運維體系的束縛,突破傳統(tǒng)技術的枷鎖。主要建設內容包括:①將結構化數(shù)據(jù)轉變?yōu)榻Y構化和非結構化數(shù)據(jù);②將各種工具“精巧脆弱”的集成轉變?yōu)榻褦?shù)據(jù)集成;③針對難以擺脫Faults和Traps 的情況,通過大數(shù)據(jù)獲取實時價值;④將關注各個組件轉變?yōu)殛P注整個業(yè)務/服務;⑤將基于搜索的分析轉變?yōu)榛跀?shù)據(jù)關聯(lián)和機器學習的分析。
要建立機器大數(shù)據(jù)平臺,應用程序中的多行日志,實現(xiàn)平臺自動化運行。
平臺通過分析大數(shù)據(jù)信息內容,對數(shù)據(jù)庫工具編程開展設計,有效提高通信數(shù)據(jù)解析速率,將復雜信息簡單化。同時,在數(shù)據(jù)庫平臺上融入系統(tǒng)維護技術,定期維護,優(yōu)化數(shù)據(jù)倉庫工具,建立數(shù)據(jù)存儲框架,采集系統(tǒng)傳輸數(shù)據(jù)支持實時更新、修改。當系統(tǒng)發(fā)出數(shù)據(jù)采集、讀取指令后,可通過預置接口獲取數(shù)據(jù)信息。平臺存儲結構空間大,可實時更新數(shù)據(jù),保證數(shù)據(jù)獲取的精準性。
大運維體系建設要以機器大數(shù)據(jù)平臺為基礎,以數(shù)據(jù)管理為中心,采取相應控制、調度措施,將各項資源整合,從而保證整個大運維體系運行安全、穩(wěn)定。主要建設體系內容如下。
3.2.1 物理資源層
作為整個運維體系的基礎硬件,本設計提出的ORCAITOA 總體架構支持各種類型的機器,如服務器、網(wǎng)絡設備、存儲設備、安全設備等,可對各類設備硬件進行運維管理。
3.2.2 邏輯資源層
電力公司可以借助大數(shù)據(jù)平臺,先建設物理資源、虛擬資源映射模型,這一環(huán)節(jié)可以將物理資源轉變?yōu)樘摂M資源,虛擬資源,包括存儲資源、計算資源、網(wǎng)絡資源。接著將這些資源整合,構建大運維資源體系,劃分到大數(shù)據(jù)平臺的數(shù)據(jù)庫當中,可以提高IT 業(yè)務系統(tǒng)拓展性、調度性、分配性。
邏輯資源層建設需要注意兩個方面:一是建設映射模型,切實反映各類信息資源的類型和特性,精準映射出物理資源、虛擬資源性能數(shù)據(jù)與拓撲指標的關系;二是實現(xiàn)接口標準化管理,統(tǒng)一規(guī)范、統(tǒng)一管理,這樣即可在異構資源下實現(xiàn)信息的管理和分析。
3.2.3 虛擬化管理層
虛擬化管理層是大運維體系自動化管理系統(tǒng)的核心,融合了各項智能化技術,決定管理平臺性能。首先,通信接口可以轉發(fā)、接收數(shù)據(jù),自動化機器具有學習功能,發(fā)現(xiàn)異?;顒颖銜詣影l(fā)出警報,此時相應模塊及時調整異常、解決故障,避免服務降級。如果在檢測過程中發(fā)生重大事件,就會對事件進行再分級,全方位預測停電與異?;顒?,根據(jù)預測內容采取相應措施,保證用戶服務質量。其次,借助資源管理模塊,整合分析各類異常數(shù)據(jù),自動完成資源分配、管理、監(jiān)視,實現(xiàn)統(tǒng)一配置。最后,系統(tǒng)平臺管理模塊帶動虛擬機運行,使其自動完成啟動/停止、備份/恢復等操作。
虛擬化管理層可以針對不同的數(shù)據(jù)情況、設備映射信息、智能優(yōu)化管理流程,創(chuàng)建管理模式,從而實現(xiàn)統(tǒng)一的管理體系,減少人為因素的影響。再者,采用標準、通用的通信協(xié)議,統(tǒng)一通信接口、整合系統(tǒng)資源,可以讓資源服務管理和內部資源、外部資源、系統(tǒng)程序交互。
3.2.4 服務管理層
用戶是大運維體系信息化管理平臺建設的重要對象,必須要注重服務。應通過完善制度、整合流程,讓整個IT 業(yè)務運營更加標準化、效率化。服務管理層模板主要作用是采集信息資源,合理分配、科學調度所采集的數(shù)據(jù)信息,保證資源配置和業(yè)務需求間的協(xié)調性;結合用戶信息采集和使用情況,統(tǒng)計業(yè)務需求量,再由系統(tǒng)自動判斷服務狀態(tài),完成大數(shù)據(jù)平臺資源的合理規(guī)劃。
自動化系統(tǒng)根據(jù)數(shù)據(jù)信息情況,自動完成數(shù)據(jù)收集、統(tǒng)計、分析、分類存儲,并生成報表,實時判斷分析應用程序關鍵性能指標、趨勢,減少了人工預判的限制,以真實數(shù)據(jù)作為判定標準更加準確。系統(tǒng)通過統(tǒng)計分析IT 環(huán)境數(shù)據(jù),實時發(fā)出警報并解決問題,縮短平均故障間隔時間,快速恢復原有功能。
大運維系統(tǒng)可統(tǒng)計、分析網(wǎng)站或應用程序等IT 環(huán)境中的數(shù)據(jù),了解用戶使用模式和地理分布趨勢,并確定最具分量的用戶。通過用戶的劃分,掌握有效用戶實際需求,針對性優(yōu)化業(yè)務流程,為用戶提供更加優(yōu)質的服務。
大運維系統(tǒng)基于服務器和網(wǎng)絡基礎設施監(jiān)控,提供針對端對端的網(wǎng)絡運維分析,對錯誤事件、容量配置、服務器和網(wǎng)絡元件安全性進行深入考察,監(jiān)測操作系統(tǒng),保證異構環(huán)境完整運營可視度,主動預防、管理Windows 和Linux 操作系統(tǒng)中的性能問題、意外事件、變更和安全風險,綜合了解業(yè)務應用狀態(tài)、資源消耗情況、處理能力等。
隨著科學技術不斷發(fā)展,自動化、智能化技術也更加成熟。為了推動電力產(chǎn)業(yè)發(fā)展、提高用戶服務質量,全面構建信息通信大運維體系有著重要意義。完善資源管理制度、加強資源監(jiān)控與業(yè)務協(xié)調性,可以進一步發(fā)揮大運維體系的作用。