劉紅敏
摘 要本文著重研究了基于Hadoop平臺(tái)大數(shù)據(jù)的分析技術(shù)的發(fā)展和功能模塊的應(yīng)用,對(duì)關(guān)鍵技術(shù)進(jìn)行比較分析,將整體結(jié)構(gòu)框架進(jìn)行改良,使數(shù)據(jù)分析平臺(tái)在不受場景限制的前提下進(jìn)行使用。
【關(guān)鍵詞】大數(shù)據(jù)分析技術(shù) 計(jì)算結(jié)構(gòu)框架 并行分析算法 Hadoop
1 大數(shù)據(jù)分析平臺(tái)的模型結(jié)構(gòu)
雖然在Hadoop中各分析平臺(tái)的接口和應(yīng)用功能單一不同,但它們有著統(tǒng)一的結(jié)構(gòu)框架,如圖1所示。
(1)數(shù)據(jù)采集不明思意就是采集數(shù)據(jù),將數(shù)據(jù)進(jìn)行采集整理,進(jìn)而保存到數(shù)據(jù)庫里面。數(shù)據(jù)采集屬于系統(tǒng)外的一部分,但它發(fā)揮著不可替代的作用,連接了業(yè)務(wù)系統(tǒng)和分析系統(tǒng),使得系統(tǒng)間能夠緊密聯(lián)系。
(2)分布式儲(chǔ)存是大數(shù)據(jù)分析平臺(tái)儲(chǔ)存數(shù)據(jù)的前提,在Hadoop平臺(tái)中將HDFS作為儲(chǔ)存的子系統(tǒng),但并不只局限于這一種,可以作為云儲(chǔ)存系統(tǒng)的有多種。
(3)并行計(jì)算框架的利用在很大程度上提高了系統(tǒng)的運(yùn)算效率,實(shí)現(xiàn)了多臺(tái)服務(wù)器同時(shí)進(jìn)行數(shù)據(jù)運(yùn)算,大大的提高了系統(tǒng)分析的效率。
(4)并行分析算法,傳統(tǒng)的分析算法是單一的,要想實(shí)現(xiàn)并行計(jì)算需要結(jié)合基于Hadoop的并行計(jì)算方法。經(jīng)過分析研究,與Hadoop相匹配的算法有多種,其中作用明顯的有Mahout和R語言等算法。
(5)分析結(jié)果的工作是將系統(tǒng)的數(shù)據(jù)分析結(jié)果傳送給系統(tǒng),一般分為統(tǒng)計(jì)結(jié)果和數(shù)據(jù)分析結(jié)果兩大類。
2 大數(shù)據(jù)分析Hadoop關(guān)鍵技術(shù)的比較和標(biāo)準(zhǔn)化
在大數(shù)據(jù)分析平臺(tái)的基礎(chǔ)上,下文對(duì)Hadoop中數(shù)據(jù)采集、并行計(jì)算框架、并行算法以及數(shù)據(jù)可視化的關(guān)鍵技術(shù)進(jìn)行比較分析,并給出標(biāo)準(zhǔn)化的相關(guān)建議。
2.1 數(shù)據(jù)采集
2.1.1 比較分析
在本文中經(jīng)過統(tǒng)計(jì)研究,選出了與系統(tǒng)相匹配的工具,主要有Flume和 Scribe,其中Flume已經(jīng)被深度研究。兩者有很多相同之處:
(1)都是采用了PUSH的結(jié)構(gòu)框架,通過業(yè)務(wù)系統(tǒng)節(jié)點(diǎn)來收集數(shù)據(jù),并傳送到儲(chǔ)存系統(tǒng);
(2)結(jié)構(gòu)框架中都含有agent、collector、storage三個(gè)重要部分;
(3)都由相同的Thrift數(shù)據(jù)結(jié)構(gòu)連接;
(4)有相同的數(shù)據(jù)收集系統(tǒng)采集數(shù)據(jù)。
不同點(diǎn)有:
(1)Flume支持多master格式,不會(huì)出現(xiàn)單點(diǎn)故障等問題;
(2)Scribe需要系統(tǒng)的支持才能供Thrift接口
(3)Flume提供的agent具有多樣性,并可以直接使用。
(4)Flume可以提供多樣性的數(shù)據(jù)源功能。
2.1.2 標(biāo)準(zhǔn)化建議
要保證海量數(shù)據(jù)達(dá)到標(biāo)準(zhǔn)化的程度,主要可以從系統(tǒng)框架和相關(guān)接口兩個(gè)方面來考慮,系統(tǒng)框架就是通過相關(guān)工具軟件進(jìn)行輔助,將系統(tǒng)框架進(jìn)行結(jié)構(gòu)完善。接口則需要進(jìn)行大量的挑選和實(shí)驗(yàn),保證可以和系統(tǒng)高密度的契合,通過接口將系統(tǒng)進(jìn)行結(jié)構(gòu)優(yōu)化。
2.2 并行計(jì)算框架
2.2.1 比較分析
以Hadoop平臺(tái)為基礎(chǔ)的并行計(jì)算結(jié)構(gòu)框架有MAPREDUCE和YARN。并行計(jì)算框架的功能有著不可替代和單一的特點(diǎn),是API的接口編程過程中非常重要的一部分,業(yè)務(wù)系統(tǒng)通過API來進(jìn)一步完成任務(wù)。從計(jì)算機(jī)的接口方面衡量MAPREDUCE和YARN,它們的接口相似度非常高,也可以看出系統(tǒng)將的各個(gè)接口相似度都非常高,這也降低了接口的自身要求。
2.2.2 標(biāo)準(zhǔn)化建議
計(jì)算結(jié)構(gòu)框架可以說是數(shù)據(jù)分析過程的基礎(chǔ),是進(jìn)行數(shù)據(jù)計(jì)算的重要前提,由上文的分析中可以知道并行計(jì)算的結(jié)構(gòu)框架都相同的,因此并行計(jì)算結(jié)構(gòu)框架的標(biāo)準(zhǔn)化是否可行十分重要。
2.3 并行算法
2.3.1 比較分析
由于并行計(jì)算結(jié)構(gòu)框架的出現(xiàn)使得數(shù)據(jù)分析計(jì)算可以同時(shí)進(jìn)行,并行算法的不斷發(fā)展,已經(jīng)應(yīng)用到了聚類、分類、貝葉斯等數(shù)據(jù)復(fù)雜的領(lǐng)域。在Hadoop中比較實(shí)用的并行算法主要是Mahout和R。
Mahout作為一個(gè)收集和貯藏?cái)?shù)據(jù)的數(shù)據(jù)庫,R作為一個(gè)編程工具和軟件,它們?cè)谄鸪蹙鸵呀?jīng)被很多人承包,但不妨礙開發(fā)者繼續(xù)在此基礎(chǔ)上進(jìn)行分析算法開發(fā)。
2.3.2 標(biāo)準(zhǔn)化建議
要實(shí)現(xiàn)并行算法標(biāo)準(zhǔn)化的難度非常大,如果不從全局的角度考慮,很難找到突破口,可以像電信行業(yè)實(shí)現(xiàn)并行計(jì)算標(biāo)準(zhǔn)化那樣從特殊行業(yè)方面進(jìn)行深一步研究。
2.4 數(shù)據(jù)可視化
2.4.1 比較分析
基于Hadoop分析平臺(tái)的大數(shù)據(jù)分析結(jié)果包括統(tǒng)計(jì)結(jié)果和收集結(jié)果。數(shù)據(jù)可視化以圖表的方式讓人們進(jìn)行結(jié)果了解。Hadoop平臺(tái)中的計(jì)算結(jié)構(gòu)框架統(tǒng)一相同,但是分析結(jié)果卻有兩種形式,一種是將HDFS、Key-Value、HBASE直接進(jìn)行儲(chǔ)存;另一種是將數(shù)據(jù)分析結(jié)果直接放在數(shù)據(jù)庫里面。這種分析結(jié)果可以由各個(gè)廠商進(jìn)行數(shù)據(jù)分析展示。
2.4.2 標(biāo)準(zhǔn)化建議
不同的用戶有著不同的數(shù)據(jù)要求標(biāo)準(zhǔn),這也使廠商的數(shù)據(jù)結(jié)果實(shí)現(xiàn)標(biāo)準(zhǔn)各有差異,因此對(duì)這部分規(guī)定不使用統(tǒng)一的標(biāo)準(zhǔn)。
3 結(jié)語
隨著以大數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)業(yè)務(wù)逐漸增多,Hadoop平臺(tái)也受到了越來越多人的關(guān)注,正逐漸變?yōu)榇髷?shù)據(jù)挖掘的重要部分,隨著人們對(duì)于Hadoop平臺(tái)的技術(shù)不斷升級(jí)和改良,促進(jìn)基于Hadoop平臺(tái)的大數(shù)據(jù)分析關(guān)鍵技術(shù)標(biāo)準(zhǔn)化工作需要更快地實(shí)現(xiàn),以保證人們對(duì)分析技術(shù)的應(yīng)用。經(jīng)研究發(fā)現(xiàn),Hadoop大數(shù)據(jù)分析平臺(tái)采取分布式文件系統(tǒng)HDFS實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和兼容以及MapReduce并行計(jì)算,適合中小企業(yè)或?qū)<议_展云計(jì)算的研發(fā)需求。
參考文獻(xiàn)
[1]黃斌,許舒人,蒲衛(wèi).基于MapReduce的數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(02).
[2]郭建偉,李瑛,杜麗萍,趙桂芬,蔣繼婭.基于hadoop平臺(tái)的分布式數(shù)據(jù)挖掘系統(tǒng)研究[J].中國科技信息,2013(13).
作者單位
廣州大學(xué)松田學(xué)院 廣東省廣州市 511370