倪浩杰 邢張亮
摘 要:傳統(tǒng)運維方式對運維人員需求大,存在監(jiān)控不實時、異常發(fā)現(xiàn)滯后、故障定位困難、故障恢復(fù)時間長和數(shù)據(jù)共享流轉(zhuǎn)困難等問題。為了解決上述弊端,本文提出了智能運維機器人的設(shè)計思路和實現(xiàn)方法。通過數(shù)據(jù)共享和流轉(zhuǎn),將運維任務(wù)配置、數(shù)據(jù)采集、實時監(jiān)控展現(xiàn)和運維派單系統(tǒng)聯(lián)接起來,較為簡單的實現(xiàn)了智能運維機器人的設(shè)計,提高了公司運維效率,提升了數(shù)據(jù)中心的整體服務(wù)效能。投入試運行,總體效果良好。
關(guān)鍵詞:運維機器人;自動化巡檢;運維監(jiān)控;Zabbix;Grafana
中圖分類號:TP242 文獻標識碼:A 文章編號:1671-2064(2019)18-0029-02
0 引言
近年來,江蘇省國際信托有限責任公司(以下簡稱“公司”)管理的信托資產(chǎn)規(guī)模迅猛增長。公司數(shù)據(jù)中心基礎(chǔ)設(shè)施和設(shè)備,承載著公司TCMP、TA和OA等數(shù)十套計算機系統(tǒng),存儲著大量用戶信息和業(yè)務(wù)數(shù)據(jù)。數(shù)據(jù)中心安全、穩(wěn)定的運行,關(guān)乎公司業(yè)務(wù)發(fā)展,是公司運行的中樞和生命線。
1 運維工作現(xiàn)狀及需求分析
1.1 運維工作現(xiàn)狀
與銀行相比,信托公司業(yè)務(wù)靈活、人員精簡。隨著公司業(yè)務(wù)日益擴大,對運維的要求也越來越高。傳統(tǒng)的運維方式,不僅需要大量的運維人員,而且還存在數(shù)據(jù)中心監(jiān)控不實時、異常狀態(tài)發(fā)現(xiàn)滯后、故障定位困難、故障恢復(fù)時間長和數(shù)據(jù)共享流轉(zhuǎn)困難等問題。
1.2 智能運維機器人需求分析
在現(xiàn)代運維技術(shù)的基礎(chǔ)上,結(jié)合智能化和自動化的發(fā)展成果,筆者設(shè)計了智能運維機器人,較好的解決傳統(tǒng)運維難題。智能運維機器人的設(shè)計目標有:(1)實時采集數(shù)據(jù),監(jiān)控數(shù)據(jù)中心整體和指定模塊的狀態(tài);(2)配置監(jiān)控項和閾值、定義事件、觸發(fā)規(guī)則等;(3)判讀系統(tǒng)異常,觸發(fā)事件,以短信、郵件或微信等方式通知相關(guān)人員;(4)自定義配置多種運維任務(wù),實現(xiàn)多種運維功能。
2 智能運維機器人設(shè)計原則和整體框架
2.1 設(shè)計原則
(1)開放式設(shè)計。智能運維機器人采用開放標準,開放結(jié)構(gòu),開放API接口,具備優(yōu)秀的擴展能力,能夠利用現(xiàn)有系統(tǒng)和資源,兼顧未來。(2)一體化設(shè)計。智能運維機器人的設(shè)計整合了運維任務(wù)配置模塊、監(jiān)控平臺、運維監(jiān)控展現(xiàn)模塊、告警消息通信模塊和運維派單系統(tǒng)模塊,能夠完成數(shù)據(jù)采集、實時監(jiān)控、告警通知、運維派單等一整套運維工作流程。
2.2 智能運維機器人系統(tǒng)架構(gòu)
根據(jù)智能運維機器人的設(shè)計原則,按照功能點將其抽象成若干模塊,模塊與模塊之間松耦合連接,便于后期系統(tǒng)開發(fā)和擴展,系統(tǒng)組成見圖1所示[1]。
3 智能運維機器人主要模塊及實現(xiàn)
3.1 運維任務(wù)配置模塊
運維任務(wù)配置模塊是智能運維機器人的控制中心,可配置多種運維任務(wù),實現(xiàn)多種功能。該機器人試運行階段,配置兩項任務(wù)。(1)自動巡檢。智能運維機器人采集數(shù)據(jù)中心和各模塊的狀態(tài)數(shù)據(jù),觸發(fā)運維派單系統(tǒng)模塊生成巡檢工單,派發(fā)并記錄存儲。(2)運維智能派單。智能運維機器人實時監(jiān)控數(shù)據(jù)中心狀態(tài),一旦發(fā)現(xiàn)異常,觸發(fā)生成異常事件,觸發(fā)運維派單系統(tǒng)模塊生成運維工單,派單流轉(zhuǎn)至相關(guān)人員處理[2]。自動巡檢工單圖2所示。
3.2 監(jiān)控平臺
監(jiān)控平臺是智能運維機器人的核心,分為監(jiān)控配置、數(shù)據(jù)采集和異常發(fā)現(xiàn)三個子模塊。(1)監(jiān)控平臺實時采集數(shù)據(jù),將數(shù)據(jù)傳輸給展現(xiàn)模塊。(2)監(jiān)控平臺判讀系統(tǒng)狀態(tài),一旦發(fā)現(xiàn)異常,調(diào)用告警消息通信模塊,通知相關(guān)人員。(3)監(jiān)控平臺根據(jù)配置的運維任務(wù),觸發(fā)運維派單系統(tǒng)模塊派單。該設(shè)計采用Zabbix實現(xiàn)。
3.3 運維展現(xiàn)模塊
運維展現(xiàn)模塊負責將監(jiān)控平臺采集的數(shù)據(jù)以圖表等方式進行展現(xiàn),是人機交互接口。該設(shè)計采用Grafana實現(xiàn),見圖3所示。
3.4 告警消息通信模塊
告警消息通信模塊將監(jiān)控平臺事件和消息,以短信、郵件等方式通知相關(guān)人。該設(shè)計利用了公司已有的通信系統(tǒng)。
3.5 運維派單系統(tǒng)模塊
(1)負責將監(jiān)控平臺輸入的異常事件,觸發(fā)生成運維工單,并派單給相關(guān)責任人處理。(2)負責對監(jiān)控平臺采集的監(jiān)控項數(shù)據(jù)進行整型,轉(zhuǎn)換成易于閱讀、記錄的格式,存儲于系統(tǒng)中,便于后期查閱和分析。該設(shè)計自主開發(fā),通過API接口,實現(xiàn)運維派單系統(tǒng)模塊和監(jiān)控平臺之間數(shù)據(jù)交互[3]。
部分代碼示例:
4 結(jié)語
智能運維機器人實現(xiàn)數(shù)據(jù)中心運維的自動化和智能化,較好的解決了傳統(tǒng)運維存在的問題,將運維人員從重復(fù)簡單的運維事務(wù)中解放出來,使其能夠從事創(chuàng)造性的工作。智能運維機器人將傳統(tǒng)的運維工作轉(zhuǎn)向一體化、集中化、自動化的新運維工作模式,提高了數(shù)據(jù)中心的運維效率和服務(wù)效能。
參考文獻
[1] 周萌,林國策,楊厚云.CentOS下ZABBIX的配置與使用[J].北京信息科技大學學報(自然科學版),2015(1):90-94.
[2] 楊磊.基于Zabbix的云監(jiān)控系統(tǒng)的設(shè)計與實現(xiàn)[D].電子科技大學,2017.
[3] 吳文豪.自動化運維軟件設(shè)計實戰(zhàn)[M].電子工業(yè)出版社,2015.