李靜
摘要:實(shí)際生產(chǎn)環(huán)境中,有大量的服務(wù)器,交換機(jī),防火墻需要及時(shí)關(guān)注其日志的信息,便于運(yùn)維人員及時(shí)根據(jù)日志查找故障原因。本文以ELK為實(shí)現(xiàn)平臺(tái)搭建了一套日志分布式監(jiān)控系統(tǒng)。本系統(tǒng)對(duì)公司的網(wǎng)絡(luò)設(shè)備進(jìn)行日志實(shí)時(shí)監(jiān)控,使管理員能夠隨時(shí)掌握系統(tǒng)日志信息,能及時(shí)收集網(wǎng)絡(luò)硬件及應(yīng)用軟件的日志信息,展示分析,'并告警。
【關(guān)鍵詞】ELK 日志分析系統(tǒng) 網(wǎng)絡(luò)
1 背景介紹
河鋼集團(tuán)承綱公司的局域網(wǎng)到目前為止包括四級(jí)網(wǎng)絡(luò)辦公系統(tǒng),三級(jí)計(jì)量系統(tǒng),生產(chǎn)信息采集網(wǎng)絡(luò),能源網(wǎng)絡(luò),視頻及門禁網(wǎng)絡(luò),整個(gè)網(wǎng)絡(luò)擁有交換機(jī),路由器,防火墻等網(wǎng)絡(luò)設(shè)備300多臺(tái),小型機(jī)及服務(wù)器50多臺(tái),主機(jī)及終端設(shè)備2000多臺(tái)。隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)及主機(jī),數(shù)據(jù)庫(kù)的故障也時(shí)有發(fā)生。
在遇到設(shè)備故障時(shí),如何有效的利用設(shè)備的日志信息快速查找故障原因,成為網(wǎng)絡(luò)運(yùn)維人員急需解決的問(wèn)題,日志監(jiān)控和分析在保障業(yè)務(wù)穩(wěn)定運(yùn)行時(shí),起到了很重要的作用,不過(guò)一般情況下日志都分散在各個(gè)生產(chǎn)服務(wù)器,且維護(hù)或開(kāi)發(fā)人員無(wú)法登陸生產(chǎn)服務(wù)器,這時(shí)候就需要一個(gè)集中式的日志收集裝置,對(duì)日志中的關(guān)鍵字進(jìn)行監(jiān)控,觸發(fā)異常時(shí)進(jìn)行報(bào)警,方便維護(hù)或開(kāi)發(fā)人員查看相關(guān)日志進(jìn)行故障排查。ELK正好能夠滿足這種需求。
2 ELK系統(tǒng)架構(gòu)及主要功能
ELK由三部分組成elasticsearch、logstash、kibana,Elasticsearch:是一個(gè)近似實(shí)時(shí)的搜索平臺(tái),它可以以很快的速度處理大數(shù)據(jù)。它是日志分布式存儲(chǔ)/搜索工具,原生支持集群功能,可以將指定時(shí)問(wèn)的日志生成一個(gè)索引,加快日志查詢和訪問(wèn)。
Logstash:日志收集工具,可以從本地磁盤,網(wǎng)絡(luò)服務(wù)(自己監(jiān)聽(tīng)端口,接受用戶日志),消息隊(duì)列中收集各種各樣的日志,然后進(jìn)行過(guò)濾分析,并將日志輸出到Elasticsearch中。
Kibana:可視化日志W(wǎng)eb展示工具,對(duì)Elasticsearch中存儲(chǔ)的日志進(jìn)行展示,還可以生成炫麗的儀表盤。
流程簡(jiǎn)圖如圖1。
簡(jiǎn)單的講,就是通過(guò)Logstash收集各種各樣的日志,將其輸出到Elasticsearch中,這里可以把Elasticsearch理解為一個(gè)非關(guān)系型數(shù)據(jù)庫(kù),最后利用Kibana對(duì)存儲(chǔ)在Elasticsearch中的日志進(jìn)行幾乎實(shí)時(shí)的展示。
3 在承鋼局域網(wǎng)生產(chǎn)環(huán)境中的應(yīng)用
3.1 目前實(shí)現(xiàn)了Elasticsearch集群狀態(tài)下對(duì)網(wǎng)絡(luò)硬件設(shè)備方面的日志采集分析監(jiān)控
主要包括:通過(guò)udp協(xié)議和syslog插件集中采集四級(jí)網(wǎng)絡(luò)設(shè)備思科和華為交換機(jī)日志信息采集、展示、分析和告警;利用nxlog對(duì)門崗wmdows主機(jī)和咋zabbix服務(wù)器Linux主機(jī)日志的展示、分析:深信服防火墻和思科防火墻日志采集、展示、分析。以及惠普打印機(jī)日志采集,展示。圖2是日志分析的圖形化展示級(jí)分析,以交換機(jī)日志為例。
圖2是采集到的CISCO交換機(jī)日志的信息,可以看到每個(gè)時(shí)段日志的數(shù)量柱狀圖,以及日志的詳細(xì)信息,通過(guò)過(guò)濾相關(guān)的字段查找需要查看的日志,綜合分析判斷日志中存在的各種問(wèn)題,便于快速定位故障原因。
3.2 實(shí)現(xiàn)了各種應(yīng)用軟件程序日志的實(shí)時(shí)監(jiān)控
主要包括:集中采集設(shè)備管理平臺(tái)應(yīng)用程序http,11S,tomcat日志的信息分析、展示、分析;集中采集三級(jí)oracle服務(wù)器數(shù)據(jù)庫(kù)相關(guān)日志信息,分析并利用kibana圖形化展示、分析。
3.3 ELK日志系統(tǒng)的管理和優(yōu)化
使用DSL對(duì)日志進(jìn)行數(shù)據(jù)的基本查詢,filter查詢,組合查詢,利用正則表達(dá)式對(duì)日志各個(gè)字段進(jìn)行篩選。各種插件如Filebeat工具、Packetbeat工具、Topbeat工具、Logstash-filter-csv插件的使用。ELK系統(tǒng)的優(yōu)化。通過(guò)調(diào)整ELK的各項(xiàng)配置參數(shù),保證系統(tǒng)在大數(shù)據(jù)量的日志吞吐下穩(wěn)定可靠運(yùn)行。包括ES集群的備份與恢復(fù);ELK內(nèi)存分配優(yōu)化:ELK數(shù)據(jù)索引定期清理:ELK配置參數(shù)優(yōu)化。
4 結(jié)束語(yǔ)
ELK日志監(jiān)控系統(tǒng)在公司內(nèi)網(wǎng)中的成功應(yīng)用,為網(wǎng)絡(luò)運(yùn)維人員判斷故障提供了很好到幫助,提高的故障分析能力和響應(yīng)速度,接下來(lái)還需要對(duì)ELK日志分析系統(tǒng)進(jìn)一步深入的研究,使其更好的為生產(chǎn)服務(wù)。
參考文獻(xiàn)
[1]饒琛琳.ELK Stack權(quán)威指南[M].北京:機(jī)械工業(yè)出版社,2015.
[2]褚瓦金(Anton A,Chuvakin).日志管理與分析權(quán)威指南[M].北京:電子工業(yè)出版社.2014.endprint