洪蕾
如何有效掌控數(shù)據(jù)中心運行狀況與資源使用效率,是考驗現(xiàn)代企業(yè)IT運維能力的關(guān)鍵,也是國內(nèi)各大商業(yè)銀行面臨的首要問題。
在中信銀行總行數(shù)據(jù)中心內(nèi),既有的一套監(jiān)測系統(tǒng)可用來監(jiān)測服務器、操作系統(tǒng)、數(shù)據(jù)庫等IT組件運行狀況。而2015年5月中信銀行上線新一代核心系統(tǒng)后,又部署了一套新的監(jiān)測系統(tǒng)——EZSonar。對中信銀行總行而言,這套新的系統(tǒng)與原有監(jiān)測系統(tǒng)又有何不同?
據(jù)了解,EZSonar并非用來監(jiān)測IT組件的,而是用來實時監(jiān)測中信銀行業(yè)務系統(tǒng),具體而言就是監(jiān)測銀行每筆交易成功與否、效率高低。舉例來說,銀行一筆業(yè)務在正常情況下30毫秒~50毫秒就應完成,如果在業(yè)務系統(tǒng)中監(jiān)測到幾百毫秒還未處理完且類似狀況頻繁出現(xiàn),就意味著銀行業(yè)務系統(tǒng)出現(xiàn)故障。在過去,多數(shù)企業(yè)都缺乏有效的應對方法,因為傳統(tǒng)運維工具和業(yè)務系統(tǒng)的關(guān)注點相對微觀,而缺少一個能夠從宏觀層面,且從業(yè)務和交易角度去看系統(tǒng)運營狀況的監(jiān)測工具。
EZSonar的出現(xiàn),恰恰彌補了這一短板。它能指出業(yè)務系統(tǒng)中存在的問題,便于運維部門盡快將問題反饋至研發(fā)部門,后者可根據(jù)這一反饋進行系統(tǒng)優(yōu)化,從而提高業(yè)務系統(tǒng)性能。而中信銀行選擇與新一代核心系統(tǒng)同步上線EZSonar,即出于保障新一代核心系統(tǒng)平穩(wěn)、高效運行的考慮。
EZSonar登場 高效運維
按照中信銀行信息部的考慮,在計劃上線新一代核心系統(tǒng)時,也將同步上線EZSonar——這是一套基于大數(shù)據(jù)技術(shù)的應用性能管理軟件,用以監(jiān)測和分析業(yè)務系統(tǒng)部署和運營情況,以便及時發(fā)現(xiàn)和解決問題。
隨著2015年5月11日新核心系統(tǒng)正式上線,EZSonar也同步開始監(jiān)測新核心系統(tǒng)的運行情況,其第一期工作就是監(jiān)測包括新核心系統(tǒng)在內(nèi)的11個業(yè)務系統(tǒng)。據(jù)了解,除此之外,EZSonar在2015年全年陸續(xù)監(jiān)測40個業(yè)務系統(tǒng)。據(jù)中信銀行相關(guān)項目負責人介紹,這40個業(yè)務系統(tǒng)均為中信銀行核心業(yè)務系統(tǒng),主要對外提供服務,如柜臺業(yè)務、卡業(yè)務、網(wǎng)上銀行、手機銀行等關(guān)鍵業(yè)務。
據(jù)了解,作為應用性能管理軟件,EZSonar在中信銀行發(fā)揮了三大作用:一是系統(tǒng)監(jiān)測;二是輔助分析;三是出具報表。而利用EZSonar的監(jiān)測功能,中信銀行技術(shù)人員能快速地監(jiān)測到系統(tǒng)哪里出了問題、哪里響應速度慢。
三大功能 改善業(yè)務運營
據(jù)中信銀行EZSonar項目負責人介紹,在部署之前,銀行業(yè)務系統(tǒng)維護人員通常是手動巡檢,費事費力。而新部署的EZSonar能夠協(xié)助運維人員關(guān)注業(yè)務系統(tǒng)運行的幾個重要指標:交易成功率、交易響應率和交易響應時間。管理員針對這三項指標設置域值。當系統(tǒng)實際交易過程中相關(guān)值超過該域值時,EZSonar會形成告警事件將其推到事件管理平臺中,隨后在平臺中會開出工單具體處理。
據(jù)了解,除系統(tǒng)監(jiān)測外,通過EZSonar中信銀行技術(shù)人員還可實現(xiàn)業(yè)務應用分析。如網(wǎng)銀系統(tǒng)中各類業(yè)務,哪種跑得快,哪種跑得慢?慢的原因是什么?如運營管理平臺上,哪類交易訪問錯誤較多,造成的原因等。
EZSonar的第三大重要功能是報表統(tǒng)計功能,可以直觀地統(tǒng)計各類IT部門內(nèi)部的數(shù)據(jù)報表。在2015年“雙十一”時,中信銀行技術(shù)部基于EZSonar直觀地了解到在某個時點第三方支付合作伙伴共有多少筆交易、多少交易額。如支付寶多少筆交易、多少交易額;阿里微信多少筆交易、多少交易額;以及京東、蘇寧等電商的相關(guān)信息。而要獲取這些數(shù)據(jù),傳統(tǒng)的方式是從數(shù)據(jù)庫中查詢,費時費力,現(xiàn)在通過EZSonar,可以隨時查看。
為什么要上EZSonar
其實在上EZSonar前,中信銀行已有如下考慮:雖然已經(jīng)有一個監(jiān)控系統(tǒng),但當時的系統(tǒng)只能實現(xiàn)對IT資源,或者是IT組件的監(jiān)測,無法監(jiān)測到業(yè)務系統(tǒng)運轉(zhuǎn)得是否正常。每筆交易是否成功、快慢與否,都看不到。在過去,要想看業(yè)務系統(tǒng)運行得好不好,通常有兩種途徑:日用程序開發(fā)時輸出很多日志,那樣做的話,會損耗應用性能,占用系統(tǒng)資源。如果想了解應用的情況,需要到數(shù)據(jù)庫里查。而白天是銀行營業(yè)期間,系統(tǒng)始終高速運行,再運轉(zhuǎn)這個任務,會導致系統(tǒng)性能進一步下降。晚上查的話,就需要人員加班,并且還需要了解業(yè)務的同事留下來,牽扯到的人員、精力太多。能否以一種方式,既可以關(guān)注和了解業(yè)務的運行情況,同時對生產(chǎn)系統(tǒng)也不造成任何影響?EZSonar就能充分滿足上述需求。
系統(tǒng)監(jiān)測是持久戰(zhàn)
經(jīng)過半年試運行,EZSonar運行整體平穩(wěn),可實時監(jiān)控業(yè)務狀況,并及時發(fā)現(xiàn)業(yè)務系統(tǒng)故障點。對此,該項目負責人表示,目前,中信銀行有360多個應用系統(tǒng),現(xiàn)在已有40多個系統(tǒng)通過EZSonar監(jiān)控。后續(xù),中信銀行其他重要的偏交易類系統(tǒng)也會考慮上EZSonar監(jiān)測軟件。
據(jù)了解,EZSonar是基于先進的協(xié)議解析技術(shù),通過對系統(tǒng)網(wǎng)絡流量數(shù)據(jù)的分析實現(xiàn)對業(yè)務過程的端到端監(jiān)控,幫助運維團隊建設性能監(jiān)控平臺。通過交易成功率、響應時間等核心指標,結(jié)合靈活的多維分析指標,對業(yè)務過程進行全面的監(jiān)控,實現(xiàn)故障的迅速定位,有效降低故障恢復時間,從而協(xié)助中信銀行保證核心系統(tǒng)等重要交易系統(tǒng)平穩(wěn)、高效運行。
因為中信銀行不斷有新的業(yè)務系統(tǒng)投產(chǎn),所以EZSonar的應用是一項長期的工程。
相關(guān)鏈接
提升運維效率的關(guān)鍵,就是要“人”和“事”隨著系統(tǒng)的運維特點而變化,并利用先進的運維工具,從各方面提升運維效率。
差別化運維管理方式
差別化運維管理就是在保障系統(tǒng)運行目標的前提下,根據(jù)系統(tǒng)特性合理安排運維工作流程。這項工作需要多方面協(xié)作,如在系統(tǒng)報警設置上根據(jù)應用特點和影響性設置報警閾值;改變統(tǒng)一的考核方式,以運行目標為驅(qū)動,各系統(tǒng)運維不再拘泥于具體形式,用最合理的人力配置滿足運維需要。
應急流程的優(yōu)化
應急是運維中最重要的工作之一,應急效率的高低直接影響運維質(zhì)量??梢酝ㄟ^完善應急流程中的工作職責,建立統(tǒng)一的指揮機制,對應急中可能涉及的部門,如系統(tǒng)部、網(wǎng)絡部、運行部、項目組統(tǒng)一調(diào)度,明確指揮權(quán)。
運維制度的改變
要清理、簡化現(xiàn)有IT運維制度,從制度的適用性、可行性、效力的合法性、執(zhí)行的有效性等方面進行審核,對不符合實際工作的管理制度進行修訂和完善,形成“以制度帶人,以制度帶動工作”的模式。
優(yōu)化運維工具平臺
要改變各運維工具平臺關(guān)聯(lián)度不高的問題,打造集系統(tǒng)監(jiān)控、知識查詢、日常操作、配置管理于一體的運維平臺,讓運維的各個環(huán)節(jié)有機結(jié)合。運維人員可以通過統(tǒng)一入口登錄平臺(包括現(xiàn)場和遠程),完成日常監(jiān)控和巡檢。