劉平均 鄧陽(yáng)名 朱文柳
【摘 要】隨著網(wǎng)絡(luò)應(yīng)用技術(shù)不斷發(fā)展,IT系統(tǒng)越來越復(fù)雜,業(yè)務(wù)對(duì)IT系統(tǒng)的依賴程度也越來越高。本文從項(xiàng)目背景、需求目標(biāo)、功能設(shè)計(jì)、效果分析幾方面探討集中監(jiān)控系統(tǒng)的建立。
【關(guān)鍵詞】IT運(yùn)維管理; 監(jiān)控系統(tǒng) ;數(shù)據(jù)采集
【中圖分類號(hào)】C93【文獻(xiàn)標(biāo)識(shí)碼】A【文章編號(hào)】1672-5158(2013)07-0070-01
前言
隨著企業(yè)信息系統(tǒng)項(xiàng)目的不斷建設(shè)和應(yīng)用領(lǐng)域的不斷拓展,企業(yè)管理運(yùn)營(yíng)對(duì)信息系統(tǒng)的依賴性越來越大,對(duì)IT基礎(chǔ)平臺(tái)的運(yùn)行可靠性要求也越來越高,企業(yè)的信息化工作逐步從項(xiàng)目建設(shè)階段轉(zhuǎn)向以深入應(yīng)用、提升應(yīng)用水平的運(yùn)行維護(hù)階段。提高運(yùn)維管理水平已成為現(xiàn)階段企業(yè)信息化系統(tǒng)應(yīng)用的重要保證手段。
一、背景
信息管理部是信息化專業(yè)主管部門,負(fù)責(zé)網(wǎng)絡(luò)、主機(jī)等IT基礎(chǔ)設(shè)施和應(yīng)用系統(tǒng)的建設(shè)、維護(hù),致力于提供安全、高效、快捷的IT服務(wù)。近年來,隨著信息化建設(shè)的深入,企業(yè)應(yīng)用不斷增多,主機(jī)服務(wù)器、網(wǎng)絡(luò)實(shí)施、操作系統(tǒng)、數(shù)據(jù)庫(kù)、應(yīng)用服務(wù)器等軟硬件平臺(tái)日益復(fù)雜,服務(wù)用戶的面不斷擴(kuò)大,如何維護(hù)好日益增多的主機(jī)網(wǎng)絡(luò)設(shè)備,保證各個(gè)應(yīng)用系統(tǒng)安全順暢運(yùn)行,為用戶提供良好的服務(wù)并及時(shí)解決各類問題和故障,是IT運(yùn)維管理的關(guān)鍵所在。目前IT運(yùn)維管理還處于初級(jí)階段,還沒有構(gòu)建一個(gè)綜合的IT運(yùn)維管理體系。對(duì)網(wǎng)絡(luò)、主機(jī)、系統(tǒng)等的管理和服務(wù)是分散的、不關(guān)聯(lián)的,沒有實(shí)現(xiàn)數(shù)據(jù)、信息和知識(shí)庫(kù)的共享,沒有實(shí)現(xiàn)規(guī)范化和流程化。因此需要建立一套融合組織、制度、流程、技術(shù)的IT運(yùn)維管理體系,從粗放、分散、低效的管理逐步過渡到科學(xué)、規(guī)范的管理,實(shí)現(xiàn)從手工運(yùn)維到自動(dòng)化運(yùn)維。按照IT運(yùn)維管理理論、方法和標(biāo)準(zhǔn),結(jié)合實(shí)際和建設(shè)需要,遵循立足需求、統(tǒng)一規(guī)劃、分步實(shí)施原則。根據(jù)實(shí)際人員和管理情況,當(dāng)務(wù)之急是需要建立集中監(jiān)控系統(tǒng),實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)及信息系統(tǒng)的綜合管理監(jiān)控和日常技術(shù)支持,快速響應(yīng)和及時(shí)解決信息系統(tǒng)運(yùn)行過程中出現(xiàn)的各種問題和故障,確保網(wǎng)絡(luò)及信息系統(tǒng)正常、穩(wěn)定、高效運(yùn)行。
二、系統(tǒng)架構(gòu)
2.1 系統(tǒng)架構(gòu)圖
集中監(jiān)控系統(tǒng)實(shí)現(xiàn)對(duì)不同服務(wù)對(duì)象和IT資源的實(shí)時(shí)監(jiān)控,包括主機(jī)、數(shù)據(jù)庫(kù)、中間件、存儲(chǔ)備份、網(wǎng)絡(luò)、安全、機(jī)房、業(yè)務(wù)應(yīng)用和客戶端等,并通過集中監(jiān)控管理平臺(tái)對(duì)不同被管對(duì)象進(jìn)行綜合處理和集中管理,其系統(tǒng)架構(gòu)如圖1所示。
2.2 數(shù)據(jù)采集層
數(shù)據(jù)采集層負(fù)責(zé)基礎(chǔ)監(jiān)控?cái)?shù)據(jù)的采集、歸并、篩選、過濾、關(guān)聯(lián)等處理,同時(shí)對(duì)數(shù)據(jù)進(jìn)行本地存儲(chǔ)。數(shù)據(jù)采集的方式根據(jù)被監(jiān)控對(duì)象的不同可分為:
(1)路由交換機(jī)及網(wǎng)絡(luò)安全設(shè)備的數(shù)據(jù)采集方式采用SNMP協(xié)議輪詢,接收SNMPTRAP以及Sys-log,采集相關(guān)的狀態(tài)、事件信息。
(2)主機(jī)服務(wù)器針對(duì)不同的操作系統(tǒng)類型和監(jiān)控的要求,采用SNMP協(xié)議、WMI、TELNET的方式輪詢。對(duì)于特殊應(yīng)用需求,可以采用AGENT的方式采集數(shù)據(jù),滿足個(gè)性化的需求。
2.3 數(shù)據(jù)分析處理層
數(shù)據(jù)分析處理層根據(jù)系統(tǒng)設(shè)定的各項(xiàng)功能模塊的具體要求,對(duì)數(shù)據(jù)采集層提供的數(shù)據(jù)進(jìn)行進(jìn)一步組織、分析和存儲(chǔ),并將結(jié)果提供給上層的數(shù)據(jù)呈現(xiàn)層2.4 數(shù)據(jù)呈現(xiàn)層數(shù)據(jù)呈現(xiàn)層根據(jù)數(shù)據(jù)分析處理層提供的數(shù)據(jù),通過Web界面以視圖、報(bào)表等方式向用戶展現(xiàn)。
三、系統(tǒng)主要功能
3.1 數(shù)據(jù)采集
數(shù)據(jù)采集是整個(gè)集中監(jiān)控系統(tǒng)的基礎(chǔ)功能。采用SNMP、WMI、TELNET等協(xié)議輪詢、接收SNMPTrap、Syslog,或者通過安裝在主機(jī)/服務(wù)器上的A-gent上報(bào)信息,來獲取被監(jiān)控對(duì)象的狀態(tài)信息、日志信息和告警信息,并作相應(yīng)處理。
3.2 故障判斷集中報(bào)警
故障判斷根據(jù)采集的基礎(chǔ)數(shù)據(jù)和設(shè)定的判斷基準(zhǔn),對(duì)事件進(jìn)行判定,確定故障是否存在,并生成故障級(jí)別信息。集中報(bào)警功能根據(jù)故障判斷提供的故障級(jí)別信息,采取不同的報(bào)警策略自動(dòng)觸發(fā),驅(qū)動(dòng)不同的報(bào)警程序,比如郵件、短信、聲光等。
3.3 性能管理
性能管理對(duì)設(shè)備性能進(jìn)行實(shí)時(shí)監(jiān)控,比如:網(wǎng)絡(luò)設(shè)備的CPU、內(nèi)存、端口流量,主機(jī)系統(tǒng)的CPU、內(nèi)存、磁盤讀寫、交換文件等。監(jiān)控參數(shù)管理可以定義監(jiān)控周期和性能閾值,當(dāng)性能超過閾值時(shí),系統(tǒng)發(fā)出報(bào)警信息。
3.4 網(wǎng)絡(luò)拓?fù)涔芾?/p>
網(wǎng)絡(luò)拓?fù)涔芾砝弥庇^的圖形展示,幫助管理員更好地了解網(wǎng)絡(luò)系統(tǒng)的聯(lián)接情況,在網(wǎng)絡(luò)中出現(xiàn)故障時(shí)能夠快速定位故障發(fā)生的位置,從而更快速恢復(fù)故障。網(wǎng)絡(luò)拓?fù)涔芾砀鶕?jù)網(wǎng)絡(luò)連接情況,自動(dòng)生成和實(shí)際情況相符的網(wǎng)絡(luò)拓?fù)鋱D,為管理員提供真正的網(wǎng)絡(luò)視圖。通過網(wǎng)絡(luò)拓?fù)鋱D管理員可以方便地掌握設(shè)備分布情況和每個(gè)設(shè)備的運(yùn)行狀態(tài)。
3.5 報(bào)表管理
報(bào)表管理用戶可以訂制資源使用報(bào)表、故障統(tǒng)計(jì)報(bào)表、資源趨勢(shì)報(bào)表、TOPN統(tǒng)計(jì)報(bào)表、可用性統(tǒng)計(jì)報(bào)表、綜合報(bào)告等不同類別的報(bào)表,并生成柱狀圖、曲線圖、餅圖等直觀圖表,實(shí)現(xiàn)各種信息的統(tǒng)計(jì)和分析,全面、宏觀地展示網(wǎng)絡(luò)的運(yùn)行情況,有助于更細(xì)致地分析網(wǎng)絡(luò)數(shù)據(jù),察看網(wǎng)絡(luò)、系統(tǒng)中可能存在的熱點(diǎn)故障、故障多發(fā)設(shè)備、故障多發(fā)時(shí)間,性能變化趨勢(shì)等,從中發(fā)現(xiàn)規(guī)律和趨勢(shì),為決策者和管理人員提供詳細(xì)的統(tǒng)計(jì)分析報(bào)表。
3.6 配置管理
配置管理主要反應(yīng)網(wǎng)絡(luò)系統(tǒng)中被監(jiān)控系統(tǒng)配置更新的情況。
3.7 系統(tǒng)管理
系統(tǒng)管理主要包括系統(tǒng)配置、用戶管理、監(jiān)控行狀況等的管理。用戶管理是實(shí)現(xiàn)系統(tǒng)用戶的基本信息維護(hù)和權(quán)限管理。監(jiān)控策略管理是根據(jù)不同的監(jiān)控對(duì)象和應(yīng)用環(huán)境,設(shè)置不同的監(jiān)控策略,比如數(shù)據(jù)采集周期、報(bào)警方式。
四、結(jié)束語
通過實(shí)施集中監(jiān)控系統(tǒng),可以獲得以下效果:各個(gè)分布在不同物理區(qū)域的系統(tǒng)都納入到集中監(jiān)控系統(tǒng),管理員可方便查看各個(gè)系統(tǒng)的運(yùn)行情況,提高工作效率,節(jié)約人力成本。實(shí)現(xiàn)自動(dòng)監(jiān)控,在無需人員查看的情況下及時(shí)發(fā)現(xiàn)系統(tǒng)隱患和故障,提高發(fā)現(xiàn)系統(tǒng)錯(cuò)誤的及時(shí)性、準(zhǔn)確性,提高工作質(zhì)量。按區(qū)域,設(shè)備,時(shí)間對(duì)監(jiān)控項(xiàng)目的結(jié)果進(jìn)行統(tǒng)計(jì),并提供周報(bào),月報(bào),年報(bào)。使管理層能更方便有效地了解網(wǎng)絡(luò)、系統(tǒng)的運(yùn)行情況,進(jìn)行運(yùn)行趨勢(shì)分析以及統(tǒng)籌規(guī)劃。