王 寧 劉伯宇
(國(guó)網(wǎng)河南省電力公司信息通訊公司 河南 450000)
“關(guān)鍵復(fù)雜應(yīng)用不具備高性能和高可用性將直接給業(yè)務(wù)生產(chǎn)力,業(yè)務(wù)收入和IT效率造成負(fù)面影響?!薄狥orrester 咨詢(xún)機(jī)構(gòu)時(shí)至今日,各個(gè)企業(yè) IT建設(shè)的規(guī)模與復(fù)雜度與日俱增,IT應(yīng)用模式日新月異,基礎(chǔ)架構(gòu)及應(yīng)用模式的革命性變化給IT管理帶來(lái)了巨大的挑戰(zhàn),IT運(yùn)維管理不僅要對(duì)傳統(tǒng)基礎(chǔ)資源的運(yùn)行狀況負(fù)責(zé),更要對(duì)承載于其上的應(yīng)用、業(yè)務(wù)運(yùn)行的性能與質(zhì)量負(fù)責(zé)。應(yīng)用性能管理(APM),已經(jīng)逐漸成為各個(gè)企業(yè) IT運(yùn)維管理的重要研究課題。
隨著信息化程度的不斷深化,河南省電力公司的網(wǎng)絡(luò)設(shè)備、服務(wù)器、軟件應(yīng)用系統(tǒng)越來(lái)越多。而且由于信息系統(tǒng)越來(lái)越復(fù)雜,軟件、硬件、網(wǎng)絡(luò)彼此之間的關(guān)聯(lián)關(guān)系日益變得錯(cuò)綜復(fù)雜,這讓運(yùn)維管理面臨前所未有的挑戰(zhàn)。而在現(xiàn)有的技術(shù)條件下,針對(duì)終端用戶(hù)反映的網(wǎng)絡(luò)中斷、系統(tǒng)響應(yīng)緩慢、系統(tǒng)宕機(jī)等問(wèn)題很多時(shí)候無(wú)從定位問(wèn)題根源。出現(xiàn)這類(lèi)現(xiàn)象的原因很多:
(1)應(yīng)用系統(tǒng)變得越來(lái)越復(fù)雜。往往一個(gè)應(yīng)用系統(tǒng)會(huì)涉及網(wǎng)絡(luò)設(shè)備、安全設(shè)備、負(fù)載均衡、WEB中間件、應(yīng)用中間件、數(shù)據(jù)庫(kù)等許多設(shè)備,任何一點(diǎn)出現(xiàn)異常均會(huì)影響到應(yīng)用服務(wù)。
(2)性能問(wèn)題往往不會(huì)產(chǎn)生應(yīng)用和系統(tǒng)報(bào)錯(cuò),使得運(yùn)維人員無(wú)從查起;
(3)性能問(wèn)題發(fā)生具有不規(guī)律性,可能問(wèn)題出現(xiàn)一段時(shí)間后自動(dòng)消失,當(dāng)管理員開(kāi)始問(wèn)題分析時(shí),故障現(xiàn)象已不存在,這樣就提高了問(wèn)題分析難度。
針對(duì)這些情況,傳統(tǒng)的網(wǎng)元分析技術(shù)只針對(duì)某單一網(wǎng)絡(luò)元素進(jìn)行分析,已經(jīng)無(wú)法處理這類(lèi)具有復(fù)雜關(guān)聯(lián)性的問(wèn)題,因?yàn)檎紫到y(tǒng)或整個(gè)系統(tǒng)群的性能問(wèn)題和故障不是某單一網(wǎng)元造成的。為了解決這類(lèi)問(wèn)題,只有通過(guò)關(guān)聯(lián)分析,將影響用戶(hù)訪(fǎng)問(wèn)體驗(yàn)的各個(gè)元素的當(dāng)前狀態(tài)告知運(yùn)維管理人員,才能直接定位應(yīng)用訪(fǎng)問(wèn)性能低下的問(wèn)題根源,實(shí)現(xiàn)復(fù)雜問(wèn)題分簡(jiǎn)單化。
本課題的研究實(shí)踐過(guò)程采用了需求調(diào)研、專(zhuān)家訪(fǎng)談、理論分析和測(cè)試驗(yàn)證、歸納總結(jié)等研究方法。
(1)需求調(diào)研:結(jié)合現(xiàn)有網(wǎng)絡(luò)運(yùn)維和變更經(jīng)驗(yàn),制定相應(yīng)的業(yè)務(wù)系統(tǒng)需求調(diào)研模板,與應(yīng)用部門(mén)進(jìn)行溝通,形成需求調(diào)研報(bào)告,并整理出業(yè)務(wù)系統(tǒng)資源,編制業(yè)務(wù)流手冊(cè);
(2)專(zhuān)家訪(fǎng)談:對(duì)于業(yè)務(wù)性能告警與新網(wǎng)管平臺(tái)的整合與集成,需要同網(wǎng)管平臺(tái)專(zhuān)家進(jìn)行充分溝通,并討論行之有效的規(guī)則文件和告警映射關(guān)系;
(3)理論分析:對(duì)現(xiàn)有TCP/IP協(xié)議、HTTP協(xié)議原理和機(jī)制進(jìn)行研究,對(duì)流量監(jiān)控工具統(tǒng)計(jì)的各項(xiàng)性能指標(biāo)進(jìn)行研究與分析,綜合相關(guān)研究結(jié)果明確監(jiān)控指標(biāo)和接口消息;
(4)測(cè)試驗(yàn)證:根據(jù)需求、訪(fǎng)談結(jié)果、理論分析結(jié)果,在監(jiān)控平臺(tái)上進(jìn)行相應(yīng)的業(yè)務(wù)監(jiān)控定義和業(yè)務(wù)視圖的定制,對(duì)于實(shí)際監(jiān)控結(jié)果,通過(guò)抓包分析驗(yàn)證需求和理論的準(zhǔn)確性和全面性。
(5)歸納總結(jié):對(duì)全行業(yè)務(wù)系統(tǒng)進(jìn)行分析,采用歸納總結(jié)的方法,對(duì)業(yè)務(wù)和業(yè)務(wù)系統(tǒng)按照其訪(fǎng)問(wèn)特性進(jìn)行分類(lèi),定制相應(yīng)的監(jiān)控模型。
2.2.1 系統(tǒng)設(shè)計(jì)原則
應(yīng)用性能管理系統(tǒng)總體設(shè)計(jì)原則需要滿(mǎn)足未來(lái)的發(fā)展需要,既要安全可靠,不影響現(xiàn)有的網(wǎng)絡(luò)和業(yè)務(wù),又要具有一定的先進(jìn)性---選取在設(shè)計(jì)理念和技術(shù)實(shí)現(xiàn)上具有長(zhǎng)期延續(xù)性,代表行業(yè)趨勢(shì)的產(chǎn)品,在技術(shù)上既能覆蓋面向應(yīng)用的網(wǎng)絡(luò)運(yùn)維需求,又能在運(yùn)維流程中各個(gè)層面提供有效支持和呈現(xiàn),并且隨著網(wǎng)絡(luò)運(yùn)維管理水平的提升和深入,具備一定的模塊擴(kuò)展能力,滿(mǎn)足未來(lái)網(wǎng)絡(luò)運(yùn)維發(fā)展需要。
2.2.2 功能結(jié)構(gòu)設(shè)計(jì)
根據(jù)河南電力網(wǎng)絡(luò)及應(yīng)用性能可視化的需求,結(jié)合河南電力現(xiàn)有網(wǎng)管系統(tǒng),以網(wǎng)絡(luò)和應(yīng)用性能監(jiān)控分析平臺(tái)為核心,利用網(wǎng)絡(luò)鏡像數(shù)據(jù)包對(duì)網(wǎng)絡(luò)和關(guān)鍵業(yè)務(wù)的性能進(jìn)行實(shí)時(shí)監(jiān)控與分析。通過(guò)先進(jìn)的智能告警技術(shù),將告警信息發(fā)送給網(wǎng)管平臺(tái)進(jìn)行統(tǒng)一的管理和展現(xiàn)。網(wǎng)絡(luò)運(yùn)維人員,利用監(jiān)控與分析平臺(tái)對(duì)出現(xiàn)的故障進(jìn)行快速的分析和定位。
圖1 功能結(jié)構(gòu)圖
本次網(wǎng)絡(luò)及應(yīng)用性能系統(tǒng)主要部署系統(tǒng)響應(yīng)分析組件、事務(wù)分析組件、應(yīng)用拓?fù)渥詣?dòng)分析組件以及系統(tǒng)展示平臺(tái),實(shí)施環(huán)境如表1所示:
表1 APM系統(tǒng)環(huán)境
經(jīng)過(guò)7個(gè)多月的實(shí)踐研究、反復(fù)摸索、不斷分析驗(yàn)證,在河南省電力公司初步搭建了一個(gè)完整的、統(tǒng)一的、系統(tǒng)的、靈活的網(wǎng)絡(luò)及應(yīng)用性能可視化監(jiān)控平臺(tái),建立了一套完整、便捷的業(yè)務(wù)可視化監(jiān)控流程和規(guī)范,并建立了快速故障處理流程,提高了業(yè)務(wù)故障處理速度,減少了故障影響的時(shí)間和范圍。
(1)搭建了統(tǒng)一的可視化監(jiān)控平臺(tái)
通過(guò)在基礎(chǔ)網(wǎng)絡(luò)環(huán)境中進(jìn)行流量鏡像設(shè)備和網(wǎng)絡(luò)流量監(jiān)控探針的全面部署、關(guān)鍵業(yè)務(wù)系統(tǒng)的準(zhǔn)確定義、可視化視圖的精細(xì)化定制以及告警的定制與集成,在河南全省范圍內(nèi)搭建了一套全面、統(tǒng)一、靈活、可擴(kuò)展的網(wǎng)絡(luò)及應(yīng)用性能可視化監(jiān)控平臺(tái)。
圖2 可視化流量平臺(tái)
(2)實(shí)現(xiàn)了對(duì)全行網(wǎng)絡(luò)流量的全面精細(xì)化監(jiān)控
網(wǎng)絡(luò)及應(yīng)用性能可視化平臺(tái)從4個(gè)層面(業(yè)務(wù)組、應(yīng)用、IP地址、Netflow接口)對(duì)網(wǎng)絡(luò)流量進(jìn)行監(jiān)控,使得河南電力對(duì)網(wǎng)絡(luò)流量的監(jiān)控與統(tǒng)計(jì)更加全面、精細(xì)和清晰,為未來(lái)的容量規(guī)劃、帶寬擴(kuò)容提供了真實(shí)、可靠的統(tǒng)計(jì)數(shù)據(jù)。
(3)實(shí)現(xiàn)了基于業(yè)務(wù)性能的多維度可視化監(jiān)控
通過(guò)在監(jiān)控分析平臺(tái)上,對(duì)關(guān)鍵業(yè)務(wù)、主要的業(yè)務(wù)組(IP地址集合,可以將某個(gè)區(qū)域、某個(gè)分行、某個(gè)部門(mén)或者某些應(yīng)用服務(wù)器APP組的IP地址段定義為一個(gè)業(yè)務(wù)組,用來(lái)綜合考察業(yè)務(wù)組間的業(yè)務(wù)訪(fǎng)問(wèn)關(guān)系)進(jìn)行定義以及關(guān)鍵業(yè)務(wù)監(jiān)控視圖的定制,實(shí)現(xiàn)了基于業(yè)務(wù)系統(tǒng)的多維度(網(wǎng)絡(luò)流量、網(wǎng)絡(luò)性能、應(yīng)用性能)可視化實(shí)時(shí)監(jiān)控。
圖3 多維度性能可視化監(jiān)控
(4)實(shí)現(xiàn)了基于最終用戶(hù)體驗(yàn)的服務(wù)水平監(jiān)控
網(wǎng)絡(luò)及應(yīng)用性能可視化監(jiān)控平臺(tái),從最終用戶(hù)體驗(yàn)出發(fā),建立了基于區(qū)域、分支機(jī)構(gòu)等訪(fǎng)問(wèn)行內(nèi)關(guān)鍵業(yè)務(wù)的服務(wù)等級(jí)水平SLA監(jiān)控。實(shí)時(shí)查看關(guān)鍵業(yè)務(wù)在一天、一周內(nèi)服務(wù)水平滿(mǎn)足情況。當(dāng)業(yè)務(wù)的服務(wù)水平違規(guī)(服務(wù)質(zhì)量下降到95%)時(shí),還可以進(jìn)行深入的問(wèn)題根源分析。
圖4 SLA視圖監(jiān)控
(5)實(shí)現(xiàn)了關(guān)鍵業(yè)務(wù)系統(tǒng)的實(shí)時(shí)預(yù)警與告警
系統(tǒng)提供7x24小時(shí)不間斷性能檢測(cè),應(yīng)用響應(yīng)閥值等實(shí)現(xiàn)郵件和短信自動(dòng)告警,能夠協(xié)助故障定位,減少故障恢復(fù)時(shí)間。
在實(shí)施過(guò)程中,我們深刻認(rèn)識(shí)到目前河南電力的網(wǎng)絡(luò)和應(yīng)用性能監(jiān)控管理可視化水平仍處于初步階段,距離成熟的網(wǎng)絡(luò)及應(yīng)用性管理體系還尚有相當(dāng)大的差距,優(yōu)化現(xiàn)有流程,引進(jìn)先進(jìn)行自動(dòng)化工具,加強(qiáng)人員的培養(yǎng),提升運(yùn)維能力和自動(dòng)化水平,充分利用現(xiàn)有流量分析平臺(tái)和數(shù)據(jù),有效整合現(xiàn)有可視化分析平臺(tái)與其它監(jiān)控平臺(tái),深入挖掘平臺(tái)功能將是河南電力提升運(yùn)維能力的下一步重點(diǎn)目標(biāo)。
[1]《TCP/IP Illustarated Volume1:The Protocols》.(美)W.Richard Stevens.機(jī)械工業(yè)出版社.
[2]《HTTP:The Definitive Guard》.(美)David Gourley,Brian Totty.人民郵電出版社.
[3]A.Das,D.Nguyen,J.Zambreno An FPGA-Based Network Intrusion Detection Architecture,Information Forensics and Security,IEEE Transactions on,vol.3,pp.118-132,2008.