張彥萍
(國(guó)能神東煤炭集團(tuán)有限責(zé)任公司信息管理中心,陜西 神木 719315)
集中運(yùn)維指揮平臺(tái)實(shí)現(xiàn)對(duì)各方面IT基礎(chǔ)資源數(shù)據(jù)采集、性能狀態(tài)監(jiān)控、拓?fù)湔宫F(xiàn)及配置項(xiàng)管理等功能,是建立在搜集到詳細(xì)的項(xiàng)目基本信息的基礎(chǔ)上,包括信息詳細(xì)、完備的基礎(chǔ)資源調(diào)研表、設(shè)備檔案卡、相關(guān)接口文檔和其他項(xiàng)目材料等,同時(shí)被監(jiān)控的設(shè)備及資源需要支持SNMP、IPMI等相關(guān)協(xié)議。通過集中運(yùn)維指揮平臺(tái)可以建立集中的 IT服務(wù)綜合管理系統(tǒng),實(shí)現(xiàn)其IT資源系統(tǒng)性能的集中展示,實(shí)現(xiàn)主動(dòng)監(jiān)控、自動(dòng)更新、自動(dòng)流程管理,以降低運(yùn)維成本,提高運(yùn)維效率。
神東公司的生產(chǎn)經(jīng)營(yíng)活動(dòng)越來越多的依賴于IT技術(shù)管理,IT技術(shù)的管理運(yùn)維對(duì)集團(tuán)的生產(chǎn)和各項(xiàng)業(yè)務(wù)的開展起著至關(guān)重要的作用。而一旦一些關(guān)鍵的應(yīng)用系統(tǒng)、網(wǎng)絡(luò)設(shè)備出現(xiàn)硬件或軟件故障,企業(yè)的生產(chǎn)經(jīng)營(yíng)將產(chǎn)生無法預(yù)估的損失,勢(shì)必給公司生產(chǎn)作業(yè)帶來重大影響。因此,合理的規(guī)劃和建設(shè)神東煤炭集中運(yùn)維指揮平臺(tái),已成為公司發(fā)展的重要任務(wù)。集中運(yùn)維指揮平臺(tái)已是IT基礎(chǔ)資源資產(chǎn)監(jiān)控與運(yùn)維等業(yè)務(wù)的有機(jī)組成部分,加強(qiáng)對(duì)IT資產(chǎn)的管控能力,提高運(yùn)維工程師整體服務(wù)水平,優(yōu)化傳統(tǒng)的運(yùn)維管理方式,從而保障神東生產(chǎn)業(yè)務(wù)的連續(xù)性和高效性。
本項(xiàng)目結(jié)合國(guó)內(nèi)外先進(jìn)技術(shù),定制化開發(fā)公司集中運(yùn)維指揮平臺(tái)。其主要是為了實(shí)現(xiàn)對(duì)神東公司信息管理中心的IT基礎(chǔ)資源資產(chǎn)的監(jiān)控與運(yùn)維等業(yè)務(wù)功能,集中運(yùn)維指揮平臺(tái)實(shí)現(xiàn)目標(biāo)主要體現(xiàn)在以下3個(gè)方面。
實(shí)時(shí)掌控:能夠?qū)崟r(shí)掌控IT可管理資產(chǎn)的可用性與容量是否處于穩(wěn)定、合規(guī)的狀態(tài),結(jié)合本單位實(shí)際情況,將IT運(yùn)維最佳實(shí)踐-ITIL逐步落地,提升整體管理水平。
合規(guī)性目標(biāo):對(duì)IT資產(chǎn)進(jìn)行全生命周期管理,了解IT資產(chǎn)的使用狀況與相互作用關(guān)系,為IT部門提供整體管理視圖,實(shí)現(xiàn)合規(guī)性管理目標(biāo)。
快速響應(yīng):實(shí)現(xiàn)事故處理標(biāo)準(zhǔn)規(guī)范化,提高對(duì)故障處理的響應(yīng)能力,改善故障處理響應(yīng)的資源配置,實(shí)現(xiàn)高效快速響應(yīng)。
集中運(yùn)維指揮平臺(tái)基于B/S架構(gòu),是一套容易部署、便于操作、其靈活開放的設(shè)計(jì)能夠適用于各種數(shù)據(jù)監(jiān)測(cè)需求的系統(tǒng),并內(nèi)置了多種運(yùn)維管理輔助模塊,將復(fù)雜的事情簡(jiǎn)單化,手動(dòng)的工作自動(dòng)化,無序的工作規(guī)范化,提供良好的可視化效果,包括交互界面、拓?fù)湫Ч凸收喜东@效果。支持對(duì)網(wǎng)絡(luò)設(shè)備、無線設(shè)備、主機(jī)、數(shù)據(jù)庫、中間件、應(yīng)用、虛擬化、存儲(chǔ)、機(jī)房等統(tǒng)一的監(jiān)控、告警以及報(bào)表管理,并實(shí)現(xiàn)各 IT資源的相互影響分析管理及聯(lián)動(dòng)。所有資源、拓?fù)鋱D都需支持自動(dòng)巡檢,并生成巡檢報(bào)告,實(shí)時(shí)接收系統(tǒng)告警信息、查詢各監(jiān)控對(duì)象運(yùn)行狀況。
集中運(yùn)維指揮平臺(tái)以數(shù)據(jù)基礎(chǔ)信息維護(hù)為根本,采集監(jiān)測(cè)資產(chǎn)的狀態(tài)、信息,將設(shè)備與組織人員縱向關(guān)聯(lián),統(tǒng)計(jì)分析后,以可視化的圖形、圖標(biāo)展示給運(yùn)維人員,幫助其快速處理故障。進(jìn)而提高運(yùn)維的質(zhì)量和效率,提高企業(yè)的IT服務(wù)水平和服務(wù)質(zhì)量,是IT運(yùn)維人員對(duì)運(yùn)維產(chǎn)品的最佳選擇。
單點(diǎn)登錄平臺(tái)對(duì)接:?jiǎn)吸c(diǎn)登錄通過URL攜帶用戶憑證信息,自動(dòng)認(rèn)證后進(jìn)入目標(biāo)系統(tǒng),要實(shí)現(xiàn)單點(diǎn)登錄,須確保目標(biāo)系統(tǒng)與門戶系統(tǒng)用戶信息的一致性。對(duì)已建系統(tǒng),要求維護(hù)門戶用戶與目標(biāo)系統(tǒng)用戶對(duì)照表,對(duì)于新建系統(tǒng),要求使用門戶用戶中心提供的用戶、組織信息構(gòu)建本地用戶模塊,并確保用戶信息與門戶用戶中心保持一致。
動(dòng)力環(huán)境系統(tǒng)對(duì)接:中心機(jī)房是整個(gè)信息系統(tǒng)的核心部分,為保證計(jì)算機(jī)系統(tǒng)和通信網(wǎng)絡(luò)的安全正常運(yùn)行,與之配套機(jī)房的動(dòng)力、環(huán)境、消防以及保安系統(tǒng)必須時(shí)刻處于正常受控狀態(tài)。對(duì)機(jī)房進(jìn)行實(shí)時(shí)集中監(jiān)控,及時(shí)發(fā)現(xiàn)存在的隱患,做到少人直至無人值守極其必要。
動(dòng)力環(huán)境系統(tǒng)的對(duì)接需要廠家提供完整的接口對(duì)接協(xié)議,通過運(yùn)維平臺(tái)對(duì)動(dòng)力環(huán)境監(jiān)控平臺(tái)的數(shù)據(jù)再次處理,集中展示。
告警推送對(duì)接:系統(tǒng)告警信息支持郵件、短信、企業(yè)微信推送的方式。①郵件告警——需要對(duì)接企業(yè)郵件服務(wù)器,配置發(fā)件箱信息,收件箱列表,將告警信息通過郵箱發(fā)送至各個(gè)管理員郵箱中;②短信告警——需要對(duì)接短信平臺(tái),通過告警平臺(tái),配置發(fā)件人信息,收件人手機(jī)號(hào)碼,通過短信平臺(tái)發(fā)送至管理員手機(jī);③企業(yè)微信推送——對(duì)接企業(yè)微信接口,發(fā)送給企業(yè)內(nèi)部用戶(需企業(yè)微信提供相關(guān)接口文檔及足夠的權(quán)限)。
在本系統(tǒng)中,因平臺(tái)部署在神東公司網(wǎng)絡(luò)范圍內(nèi),其中物理安全、網(wǎng)絡(luò)安全、主機(jī)安全由神東局域網(wǎng)安全機(jī)制來保障,平臺(tái)負(fù)責(zé)應(yīng)用安全。
本平臺(tái)在設(shè)計(jì)及開發(fā)方面的相應(yīng)控制點(diǎn)上做了相關(guān)控制機(jī)制,具體如下。
身份鑒別:應(yīng)用系統(tǒng)通過神東單點(diǎn)登錄平臺(tái)對(duì)登錄的用戶進(jìn)行身份鑒別,系統(tǒng)內(nèi)用戶會(huì)被管理員賦予相應(yīng)的權(quán)限,以確??傻卿浵到y(tǒng)的合法用戶在規(guī)定的權(quán)限內(nèi)進(jìn)行操作。
訪問控制:在應(yīng)用系統(tǒng)中實(shí)施訪問控制是為了保證應(yīng)用系統(tǒng)受控合法的使用。用戶只能根據(jù)自己的權(quán)限大小來訪問應(yīng)用系統(tǒng),不會(huì)越權(quán)訪問。
數(shù)據(jù)安全:平臺(tái)通過神東煤炭集團(tuán)公司現(xiàn)有備份系統(tǒng)進(jìn)行數(shù)據(jù)備份,通過設(shè)定備份策略,保障數(shù)據(jù)的完整性和安全。
公司集中運(yùn)維指揮平臺(tái)主要有18個(gè)功能管理模塊組成主要包括業(yè)務(wù)管理、無線設(shè)備管理、網(wǎng)絡(luò)設(shè)備管理、資源管理、告警管理、門戶管理、日志管理、IP地址管理、虛擬化管理、存儲(chǔ)管理、自動(dòng)巡檢、端到端故障排除、機(jī)房管理、機(jī)房對(duì)接、配線管理、網(wǎng)絡(luò)配置管理等模塊貫穿于整個(gè)設(shè)計(jì)之中,加上定制化的主頁設(shè)計(jì),整個(gè)系統(tǒng)架構(gòu)設(shè)計(jì)以簡(jiǎn)化IT信息化運(yùn)維,提升運(yùn)維管理能力為目標(biāo),實(shí)時(shí)監(jiān)控告警,運(yùn)維處理,保證公司生產(chǎn)經(jīng)營(yíng)穩(wěn)定、高效運(yùn)行。
業(yè)務(wù)管理:提供業(yè)務(wù)分析與健康度評(píng)價(jià)。實(shí)現(xiàn)以健康曲線、雷達(dá)掃描等方式呈現(xiàn)整體信息系統(tǒng)運(yùn)行水平;提供圖形化端到端業(yè)務(wù)拓?fù)?;提供基于業(yè)務(wù)系統(tǒng)的容量分析報(bào)告;提供業(yè)務(wù)系統(tǒng)總?cè)萘啃剩徽故綜PU、內(nèi)存、磁盤總?cè)萘亢蛯?shí)際利用比例;統(tǒng)計(jì)平均利用率、利用率峰值、利用率波動(dòng)等。
無線設(shè)備管理:提供無線設(shè)備監(jiān)測(cè)管理;提供統(tǒng)一監(jiān)測(cè)列表;提供圖形化方式展示;支持無線設(shè)備的可用性監(jiān)測(cè)和容量監(jiān)測(cè)。
網(wǎng)絡(luò)設(shè)備管理:使用SNMP監(jiān)測(cè)交換機(jī)設(shè)備;支持網(wǎng)絡(luò)設(shè)備的可用性及容量的監(jiān)測(cè);支持網(wǎng)絡(luò)設(shè)備的告警管理,設(shè)定重要監(jiān)測(cè)指標(biāo)的告警閾值大小,顯示設(shè)備告警狀態(tài);支持網(wǎng)絡(luò)設(shè)備的拓?fù)涔芾聿⒄故鞠嚓P(guān)設(shè)備狀態(tài)。
資源管理:可支持對(duì)網(wǎng)絡(luò)設(shè)備、無線設(shè)備、主機(jī)、操作系統(tǒng)、數(shù)據(jù)庫、中間件、應(yīng)用、存儲(chǔ)、虛擬網(wǎng)絡(luò)、虛擬化、機(jī)房的一體化管理,收集狀態(tài)、性能、配置、信息4類指標(biāo)。當(dāng)系統(tǒng)出現(xiàn)性能問題時(shí),系統(tǒng)可對(duì)部分資源進(jìn)行重點(diǎn)關(guān)注和性能調(diào)優(yōu),以30 s、60 s為頻率進(jìn)行實(shí)時(shí)數(shù)據(jù)監(jiān)控分析,并且以動(dòng)態(tài)心跳圖的方式呈現(xiàn)。
告警管理:系統(tǒng)具備統(tǒng)一的告警管理平臺(tái),運(yùn)維人員可通過客戶端、郵件、短信、微信、企業(yè)微信等方式了解告警,可針對(duì)資源、閾值、業(yè)務(wù)等內(nèi)容進(jìn)行告警,并提供故障分析。支持靈活業(yè)務(wù)定制告警級(jí)別,支持持續(xù)出現(xiàn)、重復(fù)發(fā)生以及超過規(guī)定處理時(shí)間仍未解決的告警,自動(dòng)升級(jí)該告警的告警級(jí)別,支持重復(fù)告警過濾。
門戶管理:系統(tǒng)首頁主要展示系統(tǒng)設(shè)備整體的運(yùn)行狀態(tài)、流程處理情況等統(tǒng)計(jì)信息。根據(jù)登錄用戶的不同,可展示與各自相關(guān)的內(nèi)容。用戶可在系統(tǒng)內(nèi)定制個(gè)人首頁顯示內(nèi)容。
日志管理:提供Windows日志和基于Syslog協(xié)議的設(shè)備日志管理,可實(shí)時(shí)展現(xiàn)按事件級(jí)別、按時(shí)間、按日志主機(jī)等維度的日志的統(tǒng)計(jì)和告警信息。支持日志檢索,可通過關(guān)鍵字在海量日志信息中高亮顯示搜索結(jié)果。
IP地址管理:支持設(shè)定基準(zhǔn)表,可按照IP地址范圍、子網(wǎng)掩碼設(shè)定網(wǎng)段信息。IP地址可設(shè)置為分配、未分配狀態(tài)。且分配IP時(shí),可綁定IP地址的狀態(tài)、使用人、地點(diǎn)以及部門等信息,并統(tǒng)計(jì)網(wǎng)段的分配率。
虛擬化管理:實(shí)現(xiàn)對(duì)虛擬化設(shè)備的監(jiān)控和管理。結(jié)合虛擬化資源的分配、部署、應(yīng)用情況進(jìn)行采集分析;提供虛擬化資源拓?fù)鋱D,能夠?qū)θ萘窟M(jìn)行管理,從存儲(chǔ)、CPU、內(nèi)存等維度進(jìn)行容量預(yù)測(cè),提示進(jìn)行虛擬化資源的擴(kuò)容。
存儲(chǔ)管理:實(shí)現(xiàn)存儲(chǔ)管理功能;實(shí)現(xiàn)存儲(chǔ)故障告警和統(tǒng)計(jì)分析。
自動(dòng)巡檢:提供智能自動(dòng)巡檢功能,自定義巡視路線和巡視規(guī)則。可巡檢網(wǎng)絡(luò)設(shè)備、主機(jī)、應(yīng)用、基礎(chǔ)服務(wù)、無線資源、虛擬化資源、存儲(chǔ)資源、機(jī)房動(dòng)力環(huán)境等;可基于單臺(tái)設(shè)備可有多維度的設(shè)備運(yùn)行狀態(tài)評(píng)測(cè)機(jī)制。
端到端故障排除:提供端到端故障排查功能,可通過設(shè)定和用戶端和訪問業(yè)務(wù)端訪問路徑,自動(dòng)生成從用戶端到業(yè)務(wù)端的數(shù)據(jù)流視圖;系統(tǒng)支持鏈路監(jiān)控實(shí)現(xiàn)網(wǎng)絡(luò)質(zhì)量檢測(cè),能夠測(cè)量UDP響應(yīng)時(shí)間、單向延時(shí)、丟包率、設(shè)備連通性等多項(xiàng)質(zhì)量指標(biāo)。支持對(duì)設(shè)備接口的流量信息統(tǒng)計(jì),且流量分析統(tǒng)計(jì)支持流入、流出、平均、最大、最小等的分析維度。
機(jī)房管理:提供3D仿真機(jī)房可視化管理視圖,實(shí)現(xiàn)多機(jī)房管理。可對(duì)機(jī)房元素、機(jī)柜容量、能耗統(tǒng)計(jì)、溫度洋流圖、動(dòng)環(huán)設(shè)備的管理及展示;可實(shí)現(xiàn)機(jī)房設(shè)計(jì)圖直接導(dǎo)入3D仿真機(jī)房,快速完成對(duì)墻、門、柱、窗、家具、文字、機(jī)柜等3D模型的編輯;支持導(dǎo)入動(dòng)力、環(huán)境、安防3D模型可關(guān)聯(lián)機(jī)房動(dòng)環(huán)數(shù)據(jù)指標(biāo),并在3D機(jī)房中呈現(xiàn)告警和數(shù)據(jù)指標(biāo)值。
機(jī)房對(duì)接:實(shí)現(xiàn)和機(jī)房動(dòng)力環(huán)境監(jiān)控系統(tǒng)無縫對(duì)接,實(shí)現(xiàn)動(dòng)力環(huán)境指標(biāo)統(tǒng)一監(jiān)控和告警。包括對(duì)溫濕度、煙感、水浸、空調(diào)、風(fēng)機(jī)、照明、粉塵、電流、UPS等機(jī)房環(huán)境信息的監(jiān)控管理,獲取實(shí)時(shí)數(shù)據(jù)并對(duì)異常數(shù)據(jù)自動(dòng)告警。
配線管理:實(shí)現(xiàn)以視圖方式展現(xiàn)綜合布線的設(shè)備接口、信息面板、設(shè)備位置、管道、線路、配線柜、配線架、配線接口等關(guān)聯(lián)信息;支持線路信息導(dǎo)入,實(shí)現(xiàn)快速梳理樓宇、房間、機(jī)柜、名稱、類型信息的配線管理;實(shí)現(xiàn)基于端口的物理線路(光纖、雙絞線)狀態(tài)監(jiān)測(cè)。
網(wǎng)絡(luò)配置管理:具備對(duì)思科、銳捷、華為、H3C等主流廠家全系網(wǎng)絡(luò)設(shè)備的配置備份管理功能。實(shí)現(xiàn)自動(dòng)獲取可管理設(shè)備的配置信息,同時(shí)進(jìn)行備份操作。在設(shè)備發(fā)生配置變更時(shí)進(jìn)行告警,執(zhí)行配置恢復(fù)操作。支持設(shè)備配置集中管理以及設(shè)備軟件智能升級(jí)。
集中運(yùn)維指揮平臺(tái)功能以設(shè)備監(jiān)測(cè)管理為基礎(chǔ),配合其他運(yùn)維服務(wù)相關(guān)功能。監(jiān)測(cè)管理功能包含:網(wǎng)絡(luò)設(shè)備管理、服務(wù)器管理、虛擬化管理、無線設(shè)備管理、數(shù)據(jù)庫管理、業(yè)務(wù)管理、存儲(chǔ)設(shè)備管理、中間件管理。另外還包括多種方式的資產(chǎn)管理、告警管理、報(bào)表管理、日志管理等。如圖1所示。
圖1 功能結(jié)構(gòu)Fig.1 Function and structure
集中運(yùn)維指揮平臺(tái)技術(shù)架構(gòu)主要包含數(shù)據(jù)層、功能層、展示層。技術(shù)架構(gòu)圖如圖2所示。
圖2 技術(shù)架構(gòu)Fig.2 Technical framework
數(shù)據(jù)層:主要包含數(shù)據(jù)的采集和處理,實(shí)現(xiàn)對(duì)IT組件及其配置的識(shí)別,并形成具有邏輯關(guān)系視圖的配置管理數(shù)據(jù)庫(CMDB)和配置基線。
功能層:對(duì)數(shù)據(jù)層的原始數(shù)據(jù)進(jìn)行處理加工,監(jiān)測(cè)服務(wù)器、網(wǎng)絡(luò)設(shè)備、業(yè)務(wù)、存儲(chǔ)等資產(chǎn)的運(yùn)行狀態(tài)、性能,形成對(duì)企業(yè)、用戶有用的信息,根據(jù)與閾值的比較,及時(shí)產(chǎn)生異常告警,較少企業(yè)損失。
展示層:把有價(jià)值的信息經(jīng)過圖形化的處理,統(tǒng)計(jì)分析,以更友好的方式展現(xiàn)給用戶。
定制化開發(fā)公司集中運(yùn)維指揮平臺(tái),將重要的IT資源實(shí)現(xiàn)集中管控功能,實(shí)現(xiàn)業(yè)務(wù)連續(xù)性訪問、應(yīng)用高可用和同步工作,定制化監(jiān)控IT資源的軟、硬件環(huán)境以及動(dòng)態(tài)掌握信息變化情況,對(duì)系統(tǒng)、服務(wù)器和網(wǎng)絡(luò)設(shè)備實(shí)現(xiàn)統(tǒng)一管理,建設(shè)公司集中運(yùn)維指揮平臺(tái)項(xiàng)目可改變傳統(tǒng)的運(yùn)維管理方式,形成新運(yùn)維管理體系,使運(yùn)維更加科學(xué)合理。通過該平臺(tái)可建立集中的IT服務(wù)綜合管理系統(tǒng),實(shí)現(xiàn)其IT資源系統(tǒng)性能的集中展示。實(shí)現(xiàn)主動(dòng)監(jiān)控、自動(dòng)更新、自動(dòng)流程管理,以降低運(yùn)維成本,提高運(yùn)維效率。集中反映網(wǎng)絡(luò)、系統(tǒng)、數(shù)據(jù)庫和應(yīng)用的實(shí)時(shí)狀態(tài),通過多種方式進(jìn)行告警。建立集中告警分析處理機(jī)制和故障預(yù)警機(jī)制,當(dāng)故障產(chǎn)生時(shí),可進(jìn)行故障快速定位,從而縮短故障解決時(shí)間,減少維護(hù)成本。對(duì)機(jī)房環(huán)境、動(dòng)力等設(shè)備實(shí)現(xiàn)全方位的統(tǒng)一集中監(jiān)控管理,提供可視化的監(jiān)控畫面,發(fā)現(xiàn)異常即可通過多種方式實(shí)現(xiàn)自動(dòng)遠(yuǎn)程報(bào)警,確保系統(tǒng)的可靠運(yùn)行,實(shí)現(xiàn)機(jī)房的科學(xué)管理。建立統(tǒng)一CMDB配置管理庫,定期掌握配置項(xiàng)信息的變化情況,提高IT服務(wù)質(zhì)量及人員運(yùn)維效率,降低IT管理成本,提高客戶滿意度。進(jìn)而推動(dòng)運(yùn)維管理體系、管理制度的建設(shè)和貫徹,逐步提升神東煤炭運(yùn)維服務(wù)的管理水平。
經(jīng)過對(duì)項(xiàng)目全過程的周密計(jì)劃,將業(yè)務(wù)管理、無線設(shè)備管理、網(wǎng)絡(luò)設(shè)備管理、資源管理、告警管理、門戶管理、日志管理、IP地址管理、虛擬化管理、存儲(chǔ)管理、自動(dòng)巡檢、端到端故障排除、機(jī)房管理、機(jī)房對(duì)接、配線管理、網(wǎng)絡(luò)配置管理、自動(dòng)化管理等模塊貫穿于整個(gè)設(shè)計(jì)之中,實(shí)現(xiàn)了公司集中運(yùn)維指揮平臺(tái)的實(shí)時(shí)監(jiān)控告警、運(yùn)維處理、IT資源集中管控功能的落地,達(dá)到了項(xiàng)目預(yù)期目標(biāo),提升運(yùn)維管理能力,保證公司生產(chǎn)經(jīng)營(yíng)穩(wěn)定、高效運(yùn)行。