徐育彪
摘要:大數(shù)據(jù)分析平臺(tái)集成的功能較多,保存的數(shù)據(jù)規(guī)模也非常大,訪問次數(shù)也非常頻繁,因此大數(shù)據(jù)分析平臺(tái)運(yùn)行過程中需要加強(qiáng)狀態(tài)監(jiān)控,以便能夠?qū)崟r(shí)的分析平臺(tái)的負(fù)載能力,提高平臺(tái)的資源利用率。本文詳細(xì)地分析大數(shù)據(jù)集群服務(wù)運(yùn)行狀態(tài)監(jiān)控和預(yù)警模式,從操作日志、運(yùn)行狀態(tài)等多個(gè)方面分析平臺(tái)狀況,以便能夠及時(shí)的處理突發(fā)事件,保證大數(shù)據(jù)平臺(tái)安全穩(wěn)定運(yùn)行。
關(guān)鍵詞:大數(shù)據(jù);運(yùn)行監(jiān)控;預(yù)警;數(shù)據(jù)挖掘
中圖分類號(hào):TP277 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2019)12-0181-01
0 引言
目前,電信運(yùn)營(yíng)商和移動(dòng)互聯(lián)網(wǎng)等企業(yè)為了吸引用戶,為用戶提供了更多的信息服務(wù),不僅包括傳統(tǒng)的數(shù)據(jù)語(yǔ)音通信服務(wù),還包括高清視頻、文本圖像等內(nèi)容服務(wù)。為了提高用戶服務(wù)質(zhì)量,搶占更多的市場(chǎng)份額,已經(jīng)構(gòu)建了較多的大數(shù)據(jù)平臺(tái),這些平臺(tái)承載著數(shù)以億計(jì)的用戶和海量數(shù)據(jù)資源,監(jiān)控這些平臺(tái)的運(yùn)行狀態(tài)就顯的非常重要[1]。因此,本文基于筆者多年研究,以突破基于移動(dòng)互聯(lián)網(wǎng)的大數(shù)據(jù)分析技術(shù),形成“基于移動(dòng)互聯(lián)網(wǎng)的業(yè)務(wù)支撐大數(shù)據(jù)管理平臺(tái)”為宗旨,設(shè)計(jì)一個(gè)新型的大數(shù)據(jù)平臺(tái)預(yù)警和監(jiān)控模式,實(shí)時(shí)監(jiān)控大數(shù)據(jù)平臺(tái)運(yùn)行情況。
1 大數(shù)據(jù)集群服務(wù)運(yùn)行狀態(tài)監(jiān)控及預(yù)警研究
大數(shù)據(jù)平臺(tái)包括的功能非常多,分別是采集層、存儲(chǔ)層、計(jì)算層、模型層、服務(wù)層、應(yīng)用層、運(yùn)營(yíng)管理及安全備份。因此,大數(shù)據(jù)集群服務(wù)運(yùn)行狀態(tài)監(jiān)控及預(yù)警就顯的非常重要,也是大數(shù)據(jù)平臺(tái)的一個(gè)重要子功能[2]。系統(tǒng)監(jiān)控的指標(biāo)主要包括三個(gè)方面,一是物理硬件運(yùn)行狀態(tài),比如CPU、存儲(chǔ)器等,二是監(jiān)控接入的應(yīng)用軟件數(shù)量和訪問用戶數(shù)量,三是監(jiān)控系統(tǒng)的運(yùn)行負(fù)載能力、運(yùn)行可靠性等,其中最為關(guān)鍵的就是物理硬件的監(jiān)控,因?yàn)檫@些設(shè)備涉及到數(shù)據(jù)信息的加工和保存,一旦發(fā)生錯(cuò)誤就會(huì)產(chǎn)生不可估量的損失。監(jiān)控預(yù)警可以使用狀態(tài)數(shù)據(jù)挖掘和分析模塊輸出。
大數(shù)據(jù)集群服務(wù)運(yùn)行狀態(tài)監(jiān)控和預(yù)警功能可以歸納為以下五個(gè)方面,分別是選擇數(shù)據(jù)采集及管理系統(tǒng)、構(gòu)建Hadoop集群監(jiān)控平臺(tái)、數(shù)據(jù)整合和預(yù)處理、數(shù)據(jù)信息存儲(chǔ)、狀態(tài)數(shù)據(jù)挖掘和分析[3]。如圖1所示。
(1)數(shù)據(jù)采集及管理系統(tǒng)。大數(shù)據(jù)平臺(tái)運(yùn)行中,其面臨的數(shù)據(jù)資源非常多,為了提高這些數(shù)據(jù)資源的組織管理效率,需要使用與之匹配的操作系統(tǒng),盡可能的提高大數(shù)據(jù)的優(yōu)先級(jí)訪問、熱點(diǎn)數(shù)據(jù)存儲(chǔ),管理大數(shù)據(jù)的物理存儲(chǔ)空間,實(shí)現(xiàn)資源的調(diào)度和分配。本文結(jié)合監(jiān)控平臺(tái)的實(shí)際情況,選擇RedHat操作系統(tǒng),其可以作為底層工具,實(shí)現(xiàn)數(shù)據(jù)采集和處理,保證系統(tǒng)的可擴(kuò)展性。(2)構(gòu)建Hadoop集群監(jiān)控平臺(tái)。Hadoop是一個(gè)軟件平臺(tái),其可以運(yùn)行大數(shù)據(jù)處理軟件,最核心的技術(shù)為MapReduce,能夠?qū)⒋罅康挠?jì)算機(jī)組成一個(gè)集群,實(shí)現(xiàn)海量數(shù)據(jù)分布式計(jì)算,實(shí)施監(jiān)控平臺(tái)的運(yùn)行。(3)數(shù)據(jù)整合和預(yù)處理。大數(shù)據(jù)集成的資源非常多,比如文件日志、關(guān)系數(shù)據(jù)、對(duì)象數(shù)據(jù)等,這些有結(jié)構(gòu)性數(shù)據(jù)也有非結(jié)構(gòu)性數(shù)據(jù),因此在把數(shù)據(jù)整合在一起時(shí)需要進(jìn)行預(yù)處理,以便能夠利用企業(yè)服務(wù)總線進(jìn)行通信傳輸,提高數(shù)據(jù)的一致性和可靠性。數(shù)據(jù)預(yù)處理可以利用HiveSQL工具,能夠?qū)崿F(xiàn)信息加工。(4)數(shù)據(jù)存儲(chǔ)。大數(shù)據(jù)平臺(tái)最重要的功能就是存儲(chǔ)。數(shù)據(jù)存儲(chǔ)可利用HBase和Kudu等存儲(chǔ)管理工具,本文選擇使用HBase軟件,建立一個(gè)生態(tài)存儲(chǔ)圈,不斷地提高大數(shù)據(jù)平臺(tái)的存儲(chǔ)和管理水平,還可以降低訪問延遲,提高數(shù)據(jù)分析能力。(5)狀態(tài)數(shù)據(jù)挖掘和分析。該平臺(tái)可以針對(duì)系統(tǒng)平時(shí)運(yùn)行的日志數(shù)據(jù)進(jìn)行挖掘和分析,從而可以發(fā)現(xiàn)其中產(chǎn)生的錯(cuò)誤,然后追蹤和分析錯(cuò)誤產(chǎn)生的原因,并且查看關(guān)聯(lián)的軟硬件資源,從而及時(shí)的發(fā)現(xiàn)存在問題,迅速采取措施解決問題。
2 Hadoop云平臺(tái)在大數(shù)據(jù)集群服務(wù)運(yùn)行狀態(tài)監(jiān)控及預(yù)警中的應(yīng)用與設(shè)計(jì)
大數(shù)據(jù)集群服務(wù)運(yùn)行狀態(tài)監(jiān)控及預(yù)警平臺(tái)構(gòu)建完畢之后,其最為關(guān)鍵的就是Hadoop云平臺(tái)的應(yīng)用和設(shè)計(jì)。Hadoop云平臺(tái)目前已經(jīng)吸引了很多的商業(yè)公司進(jìn)行研發(fā)和設(shè)計(jì),構(gòu)建了各種開源組件,包括Sqoop、Hbase和Spark等。Hadoop包括很多的組成元素,最底層的組成元素就是Hadoop Distributed File System(HDFS),其可以保持Hadoop集群平臺(tái)中的所有存儲(chǔ)節(jié)點(diǎn)文件,HDFS的上一層就是一個(gè)MapReduce引擎,這個(gè)引擎包括兩個(gè)組成部分,分別是JobTrackers和TaskTrackers,利用Hadoop可以實(shí)現(xiàn)數(shù)據(jù)處理和操作,進(jìn)一步滿足分布式數(shù)據(jù)操作。
Hadoop云平臺(tái)是一個(gè)為大數(shù)據(jù)平臺(tái)提供并行處理的計(jì)算模型,更適用于集群平臺(tái)高性能計(jì)算,允許數(shù)以億計(jì)的節(jié)點(diǎn)進(jìn)行分布式集群,可以實(shí)現(xiàn)分布式操作服務(wù)。Hadoop云平臺(tái)提供一個(gè)龐大的、設(shè)計(jì)精良的并行計(jì)算軟件,自動(dòng)化地完成計(jì)算任務(wù),分配大數(shù)據(jù)存儲(chǔ)空間資源,實(shí)現(xiàn)數(shù)據(jù)分布存儲(chǔ)、通信和容錯(cuò)處理。Hadoop云平臺(tái)能夠處理海量的半結(jié)構(gòu)化數(shù)據(jù),利用并行的結(jié)構(gòu)解決特定的、復(fù)雜的數(shù)據(jù)處理問題,比如在一個(gè)關(guān)系數(shù)據(jù)庫(kù)中,其可以使用SQL語(yǔ)言執(zhí)行數(shù)據(jù)插入、查詢、修改和刪除操作,還可以使用傳統(tǒng)的C++語(yǔ)言、Java語(yǔ)言等解決這個(gè)問題,實(shí)現(xiàn)數(shù)據(jù)庫(kù)操作語(yǔ)言與傳統(tǒng)程序語(yǔ)言的有效結(jié)合,實(shí)現(xiàn)一個(gè)功能更加強(qiáng)的數(shù)據(jù)處理功能。
3 結(jié)語(yǔ)
大數(shù)據(jù)平臺(tái)的正常運(yùn)行影響運(yùn)營(yíng)商和內(nèi)容服務(wù)商的用戶體驗(yàn),因此加強(qiáng)大數(shù)據(jù)平臺(tái)的運(yùn)行監(jiān)控和預(yù)警,及時(shí)的優(yōu)化存儲(chǔ)空間和占用資源,就可以提高平臺(tái)的可用性、可靠性和完整性,也可以提高平臺(tái)的服務(wù)水平和質(zhì)量。
參考文獻(xiàn)
[1] 宋亞奇,周國(guó)亮,朱永利,等.云平臺(tái)下輸變電設(shè)備狀態(tài)監(jiān)測(cè)大數(shù)據(jù)存儲(chǔ)優(yōu)化與并行處理[J].中國(guó)電機(jī)工程學(xué)報(bào),2015,35(02):255-267.
[2] 張帥,賈如春.基于Hadoop的大數(shù)據(jù)信息安全監(jiān)控云平臺(tái)設(shè)計(jì)與研究[J].計(jì)算機(jī)測(cè)量與控制,2017,25(09):72-74+78.
[3] 劉殊.基于Hadoop的分布式云監(jiān)控平臺(tái)系統(tǒng)的研究與設(shè)計(jì)[J].電子設(shè)計(jì)工程,2016,24(15):9-12.
Research on Monitoring and Early Warning of? Big Data Cluster Service Operation Status Based on Hadoop Cloud Platform
XU Yu-biao
(TechViewInfo Co.,Ltd.,Guangzhou? Guangdong? 510305)
Abstract:The big data analysis platform integrates more functions, the scale of the stored data is very large, and the number of visits is very frequent. Therefore, the status monitoring of the big data analysis platform needs to be strengthened in order to analyze the load capacity of the platform in real time and improve The resource utilization of the platform. This article analyzes the operation status monitoring and early warning mode of the big data cluster service in detail, and analyzes the platform status from various aspects such as operation logs and operation status, so as to be able to deal with emergencies in time and ensure the safe and stable operation of the big data platform.
Key words:big data; operational monitoring; early warning; data mining