摘要:隨著通信技術(shù)的發(fā)展,移動終端的隨時接入,大數(shù)據(jù)如排山倒海之勢充斥著我們的生活,如何處理大數(shù)據(jù)以及對大數(shù)據(jù)的利用是我們未來所面臨的主要問題。文章對大數(shù)據(jù)的概念及特點進行了簡要分析與介紹,主要針對目前大數(shù)據(jù)分析與處理的常用六大工具進行深入剖析與比較,旨在為大數(shù)據(jù)方向的科研工作者提供一些理論依據(jù)。
關(guān)鍵詞:大數(shù)據(jù);Hadoop;HPCC;Storm;Apache Drill;RapidMiner;Pentaho BI
1大數(shù)據(jù)的概念
繼蒸汽時代、電氣時代、信息時代三大工業(yè)革命漸漸退出歷史舞臺之時,以物聯(lián)網(wǎng)(IoT)與智能制造為主導的第四代工業(yè)革命悄然而至。云計算技術(shù)的興起,數(shù)據(jù)量出現(xiàn)了井噴現(xiàn)象,標志著大數(shù)據(jù)(MegaData,BigData)時代的到來。與傳統(tǒng)的數(shù)據(jù)、海量數(shù)據(jù)(SeaData)所不同的是:大數(shù)據(jù)從數(shù)量上、類型上以及價值等方面都極具特色。
目前,對大數(shù)據(jù)的定義還沒有一個統(tǒng)一的標準和認可,眾家各持己見。其中全球知名的咨詢公司麥肯錫提出了大數(shù)據(jù)的概念:大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行采集、存儲、管理和分析的數(shù)據(jù)集合。而研究機構(gòu)Gartner對大數(shù)據(jù)提出的概念是:大數(shù)據(jù)是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)Ⅲ。在維基百科中大數(shù)據(jù)的概念定義為:大數(shù)據(jù)指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)達到擷取、管理、處理并整理成為幫助企業(yè)經(jīng)營決策目的的資訊。
2大數(shù)據(jù)的特點
在實際應用中,也把大數(shù)據(jù)稱為巨量資料(Huge Data),從技術(shù)角度來看,大數(shù)據(jù)技術(shù)實際上是指從種類繁多的“數(shù)據(jù)”中,剔除數(shù)據(jù)噪音,迅速獲取有用信息的能力。云計算技術(shù)的出現(xiàn)為大數(shù)據(jù)的產(chǎn)生提供了“肥沃的土壤”,二者之間是密不可分的,也可以簡單的說:云計算技術(shù)促進了大數(shù)據(jù)的發(fā)展,二者之間的關(guān)系就如同手心與手背的關(guān)系。
目前對大數(shù)據(jù)的特點可概括為4V:
*Volume(數(shù)量),數(shù)據(jù)量從過去的TB級別躍升至PB級別,甚至是EB級別。
*Variety(類型),過去我們所處理的數(shù)據(jù)大部分都是結(jié)構(gòu)化數(shù)據(jù),少部分非結(jié)構(gòu)化數(shù)據(jù);如今,移動終端的實時接入、互聯(lián)網(wǎng)的快速發(fā)展,所產(chǎn)生的網(wǎng)絡(luò)日志、影視、圖片、動畫以及聲音等更多的是非結(jié)構(gòu)化數(shù)據(jù)或者是半結(jié)構(gòu)化數(shù)據(jù),其中個性化數(shù)據(jù)占近乎總數(shù)據(jù)量的三分之二。
*Value(價值),數(shù)據(jù)量雖然很大,但是在這些數(shù)據(jù)中所包含的價值密度卻很低,以我們?nèi)粘I钪械挠跋褓Y料為例,一般時長為六十分鐘的視頻,對某類用戶來說有價值的數(shù)據(jù)可能只有那么一兩秒鐘,其余的都是數(shù)據(jù)噪音。
*Velocity(速度),大數(shù)據(jù)要求其處理速度很快,也就是我們常說的1秒定律,它主要是從數(shù)據(jù)有效的實時性角度來考慮的。
伴隨日益普及的網(wǎng)絡(luò)而產(chǎn)生的大數(shù)據(jù),給企業(yè)、事業(yè)、政府等部門帶來“困惑”的同時也帶來了潛在的“價值”。因為,在大數(shù)據(jù)中蘊含著數(shù)據(jù)生產(chǎn)者的真實意圖與喜好。比如阿里巴巴、天貓等通過訪問量與訪問內(nèi)容就可以提取出客戶的喜好與需求,更好的為電子商務的擴展業(yè)務提供數(shù)據(jù)支持。但是,從海量數(shù)據(jù)中去除噪音,提純信息使其更具價值,這對網(wǎng)絡(luò)的架構(gòu)來說是一項艱巨的任務,對提高數(shù)據(jù)處理能力來說是一個難攻克的課題。因此,針對不同領(lǐng)域的大數(shù)據(jù)分析、大數(shù)據(jù)處理將是大數(shù)據(jù)產(chǎn)業(yè)健康、持續(xù)發(fā)展的關(guān)鍵。
3大數(shù)據(jù)處理分析的六大常用工具
1)Hadoop
2006年,Apache Lucene的創(chuàng)始人Doung Cutting創(chuàng)建了Hadoop,Hadoop是Apache的Lucene項目的一個子項目。與此同時,Doung加入yahoo,yahoo將Hadoop發(fā)展成一個能夠處理Web數(shù)據(jù)的系統(tǒng)。Hadoop作為對大量數(shù)據(jù)進行分布式處理的軟件框架具有高可靠性、高容錯性、高效性以及可伸縮性等優(yōu)點,以至于在2008年短短幾年期間,它就基本成了大數(shù)據(jù)的代名詞。
2)HPCC
HPCC(High Performance Computing and Communications)是LexisNexis公司發(fā)布的一款開源的數(shù)據(jù)處理工具。1993年,由美國科學、工程、技術(shù)聯(lián)邦協(xié)調(diào)理事會向國會提交的一份關(guān)于HPCC的報告,其主要目標是提高網(wǎng)絡(luò)的傳輸性能、擴展網(wǎng)絡(luò)連接能力等。
3)Storm
Storm由Twitter開源而來,通常被比作“實時的Hadoop”,與Hadoop相比較為簡單,它是一個實時的、分布式以及具備高容錯的計算系統(tǒng)。
4)ApacheDrill
Apache Drill是Apache參考Googlel的Dremel所創(chuàng)建的開源項目,是一個能夠?qū)Υ髷?shù)據(jù)進行交互分析、開源的分布式系統(tǒng),它能夠運行在上千個節(jié)點的服務器集群上,且能在幾秒內(nèi)處理PB級或者萬億條的數(shù)據(jù)記錄。
5)RapidMiner
RapidMiner是目前世界上較為領(lǐng)先的開源數(shù)據(jù)挖掘軟件,它提供了一些有用的、可擴展的數(shù)據(jù)分析挖掘算法,可以用來搭建推薦系統(tǒng)和評論挖掘系統(tǒng),最終幫助用戶方便、快捷地創(chuàng)建智能應用程序。
6)Pentaho BI
Pentaho BI平臺與傳統(tǒng)的BI產(chǎn)品有所不同,它是一個以流程為中心的,工作流驅(qū)動的,可擴展平臺的,用于解決商業(yè)智能問題的框架,側(cè)重于大中型企業(yè)應用。Pentaho BI平臺是在MozillaPublic License(MPL)下基于Java的開放源碼。
4結(jié)論
大數(shù)據(jù)的分析工具是更好地利用大數(shù)據(jù)的必不可少的手段,這些工具都有或多或少的弊端,需要我們后續(xù)的科研工作者在前人的基礎(chǔ)上,進行深入研究,為大數(shù)據(jù)更好地服務于企業(yè)、事業(yè)單位以及政府而不斷努力。
作者簡介
袁琴(1983-),女,江西吉安,講師,研究方向:計算機科學與技術(shù)。
(作者單位:江西工程學院)