周健
[摘 要]未來將是大數(shù)據(jù)的時(shí)代。大數(shù)據(jù)產(chǎn)業(yè)主要涉及數(shù)據(jù)生成、存儲(chǔ)、處理分析、應(yīng)用四個(gè)環(huán)節(jié),具體來看,包含硬件設(shè)備、處理分析環(huán)節(jié)、綜合處理、語(yǔ)音識(shí)別、視頻識(shí)別、商業(yè)智能軟件、數(shù)據(jù)中心建設(shè)與維護(hù)、IT咨詢、方案實(shí)施、信息安全等領(lǐng)域。
[關(guān)鍵詞]大數(shù)據(jù);數(shù)據(jù)采集;數(shù)據(jù)管理
[DOI]10.13939/j.cnki.zgsc.2015.45.105
隨著計(jì)算機(jī)和信息技術(shù)的迅猛發(fā)展和普及應(yīng)用,行業(yè)應(yīng)用系統(tǒng)的規(guī)模迅速擴(kuò)大,行業(yè)應(yīng)用所產(chǎn)生的數(shù)據(jù)呈爆炸性增長(zhǎng)。動(dòng)輒達(dá)到數(shù)百TB甚至數(shù)十至數(shù)百PB規(guī)模的行業(yè)、企業(yè)大數(shù)據(jù)已遠(yuǎn)遠(yuǎn)超出了現(xiàn)有傳統(tǒng)的計(jì)算技術(shù)和信息系統(tǒng)的處理能力。因此,尋求有效的大數(shù)據(jù)處理技術(shù)、方法和手段已經(jīng)成為現(xiàn)實(shí)世界的迫切需求。世界權(quán)威IT信息咨詢分析公司IDC研究報(bào)告預(yù)測(cè):全世界數(shù)據(jù)量未來10年將從2009年的0.8ZB增長(zhǎng)到2020年的35ZB(1ZB=1000EB=1000000PB),10年將增長(zhǎng)44倍,年均增長(zhǎng) 40%。而且,大量新數(shù)據(jù)源的出現(xiàn)導(dǎo)致數(shù)據(jù)結(jié)構(gòu)的多樣變化,非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)呈爆發(fā)式增長(zhǎng)。這些信息背后產(chǎn)生的大量數(shù)據(jù)遠(yuǎn)遠(yuǎn)超越了目前人力所能處理的范疇,大數(shù)據(jù)時(shí)代正在來臨。
1 大數(shù)據(jù)的特征
大數(shù)據(jù)(Big Data)是指“無法用現(xiàn)有的軟件工具提取、存儲(chǔ)、搜索、共享、分析和處理的海量的、復(fù)雜的數(shù)據(jù)集合?!睒I(yè)界通常用4個(gè)V(即Volume、Variety、Value、Velocity)來概括大數(shù)據(jù)的特征。
1.1 數(shù)據(jù)體量巨大(Volume)
截至目前,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB(1PB=210TB),而歷史上全人類說過的所有的話的數(shù)據(jù)量大約是5EB(1EB=210PB)。當(dāng)前,典型個(gè)人計(jì)算機(jī)硬盤的容量為TB量級(jí),而一些大企業(yè)的數(shù)據(jù)量已經(jīng)接近EB量級(jí)。
1.2 數(shù)據(jù)類型繁多(Variety)這種類型的多樣性也將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于以往便于存儲(chǔ)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),非結(jié)構(gòu)化數(shù)據(jù)越來越多,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等,這些多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高要求。
1.3 價(jià)值密度低(Value)價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部1小時(shí)的視頻,在連續(xù)不間斷的監(jiān)控中,有用數(shù)據(jù)可能僅有一兩秒。如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
1.4 處理速度快(Velocity)這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是企業(yè)的生命。
一個(gè)基本的大數(shù)據(jù)處理流程,可以概括為四步,分別是采集、導(dǎo)入和預(yù)處理、統(tǒng)計(jì)和分析,以及挖掘。
2 大數(shù)據(jù)的采集方法
2.1 系統(tǒng)日志采集方法
對(duì)于系統(tǒng)日志采集,很多互聯(lián)網(wǎng)企業(yè)都有自己的海量數(shù)據(jù)采集工具,如Hadoop的Chukwa,Cloudera的Flume,F(xiàn)acebook的Scribe等,它們均采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志數(shù)據(jù)采集和傳輸需求。
2.2 網(wǎng)絡(luò)數(shù)據(jù)采集方法:對(duì)非結(jié)構(gòu)化數(shù)據(jù)的采集
網(wǎng)絡(luò)數(shù)據(jù)采集可以將非結(jié)構(gòu)化數(shù)據(jù)從網(wǎng)頁(yè)中抽取出來,將其存儲(chǔ)為統(tǒng)一的本地?cái)?shù)據(jù)文件,并以結(jié)構(gòu)化的方式存儲(chǔ)。可以通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式從網(wǎng)站上獲取數(shù)據(jù)信息。它支持圖片、音頻、視頻等文件或附件的采集,附件與正文可以自動(dòng)關(guān)聯(lián)。對(duì)于網(wǎng)絡(luò)流量的采集可以使用DPI或DFI等帶寬管理技術(shù)進(jìn)行處理。
2.3 其他數(shù)據(jù)采集方法
對(duì)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)或?qū)W科研究數(shù)據(jù)等保密性要求較高的數(shù)據(jù),可以通過與企業(yè)或研究機(jī)構(gòu)合作,使用特定系統(tǒng)接口等相關(guān)方式采集數(shù)據(jù)。
3 大數(shù)據(jù)存儲(chǔ)(導(dǎo)入)和管理
3.1 并行數(shù)據(jù)庫(kù)
并行數(shù)據(jù)庫(kù)系統(tǒng)大部分采用了關(guān)系數(shù)據(jù)模型并且支持SQL語(yǔ)句查詢,在無共享的體系結(jié)構(gòu)中進(jìn)行數(shù)據(jù)操作的數(shù)據(jù)庫(kù)系統(tǒng)。
3.2 NoSQL數(shù)據(jù)管理系統(tǒng)
NoSQL指的是“Not Only SQL”,即對(duì)關(guān)系型SQL數(shù)據(jù)系統(tǒng)的補(bǔ)充。NoSQL最普遍的解釋是“非關(guān)系型的”,強(qiáng)調(diào)鍵值存儲(chǔ)和文檔數(shù)據(jù)庫(kù)的優(yōu)點(diǎn),而不是單純地反對(duì)關(guān)系型數(shù)據(jù)庫(kù)。它采用簡(jiǎn)單數(shù)據(jù)模型、元數(shù)據(jù)和應(yīng)用數(shù)據(jù)的分離、弱一致性技術(shù),使NoSQL能夠很好地應(yīng)對(duì)海量數(shù)據(jù)的挑戰(zhàn)。
3.3 云存儲(chǔ)與云計(jì)算
在云計(jì)算概念上延伸和發(fā)展出來的云存儲(chǔ),是一種新興的網(wǎng)絡(luò)存儲(chǔ)技術(shù),將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過應(yīng)用軟件集合起來協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問功能的一個(gè)系統(tǒng)。云存儲(chǔ)是一個(gè)以數(shù)據(jù)存儲(chǔ)和管理為核心的云計(jì)算系統(tǒng)。
3.4 實(shí)時(shí)流處理
所謂實(shí)時(shí)系統(tǒng),是指能在嚴(yán)格的時(shí)間限制內(nèi)響應(yīng)請(qǐng)求的系統(tǒng)。流式處理就是指源源不斷的數(shù)據(jù)流過系統(tǒng)時(shí),系統(tǒng)能夠不停地連續(xù)計(jì)算。所以,流式處理沒有嚴(yán)格的時(shí)間限制,數(shù)據(jù)從進(jìn)入系統(tǒng)到出來結(jié)果可能是需要一段時(shí)間。然而,流式處理唯一的限制是系統(tǒng)長(zhǎng)期來看的輸出速率應(yīng)當(dāng)快于或至少等于輸入速率。否則,數(shù)據(jù)會(huì)在系統(tǒng)中越積越多。
4 大數(shù)據(jù)的分析
數(shù)據(jù)分析主要利用分布式數(shù)據(jù)庫(kù),或者分布式計(jì)算集群來對(duì)存儲(chǔ)于其內(nèi)的海量數(shù)據(jù)進(jìn)行普通的分析和分類匯總等,以滿足大多數(shù)常見的分析需求。統(tǒng)計(jì)與分析這部分的主要特點(diǎn)和挑戰(zhàn)是分析涉及的數(shù)據(jù)量大,其對(duì)系統(tǒng)資源,特別是I/O會(huì)有極大的占用。如果是一些實(shí)時(shí)性需求會(huì)用到EMC的GreenPlum、Oracle的Exadata,以及基MySQL的列式存儲(chǔ)Infobright等,而一些批處理,或者基于半結(jié)構(gòu)化數(shù)據(jù)的需求可以使用Hadoop。
5 大數(shù)據(jù)的挖掘與展示
大數(shù)據(jù)技術(shù)不在于掌握龐大的數(shù)據(jù)信息,而是將這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,將海量的信息數(shù)據(jù)在經(jīng)過分布式數(shù)據(jù)挖掘處理后將結(jié)果可視化。數(shù)據(jù)可視化主要是借助于圖形化手段,清晰有效地傳達(dá)與溝通信息。依據(jù)數(shù)據(jù)及其內(nèi)在模式和關(guān)系,利用計(jì)算機(jī)生成的圖像來獲得深入認(rèn)識(shí)和知識(shí)。這樣就對(duì)數(shù)據(jù)可視化軟件提出了更高的要求。數(shù)據(jù)可視化應(yīng)用軟件的開發(fā)迫在眉睫,數(shù)據(jù)可視化軟件的開發(fā)既要保證實(shí)現(xiàn)其功能用途,同時(shí)又要兼顧美學(xué)形式。例如,標(biāo)簽云、聚類圖、空間信息流、熱圖等。
大數(shù)據(jù)成為推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)力。以數(shù)據(jù)流引領(lǐng)技術(shù)流、物質(zhì)流、資金流、人才流,將深刻影響社會(huì)分工協(xié)作的組織模式,促進(jìn)生產(chǎn)組織方式的集約和創(chuàng)新。大數(shù)據(jù)成為重塑國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的新機(jī)遇。在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)已成為國(guó)家重要的基礎(chǔ)性戰(zhàn)略資源,正引領(lǐng)新一輪科技創(chuàng)新。大數(shù)據(jù)還成為提升政府治理能力的新途徑。大數(shù)據(jù)應(yīng)用能夠揭示傳統(tǒng)技術(shù)方式難以展現(xiàn)的關(guān)聯(lián)關(guān)系,推動(dòng)政府?dāng)?shù)據(jù)開放共享,促進(jìn)社會(huì)事業(yè)數(shù)據(jù)融合和資源整合,將極大提升政府整體數(shù)據(jù)分析能力,為有效處理復(fù)雜社會(huì)問題提供新的手段。
參考文獻(xiàn):
孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].算機(jī)研究與發(fā)展,2014(1).