耿曉斐
摘要:隨著以AI、大數(shù)據(jù)、云計算技術(shù)的深度融合,以深度學(xué)習(xí)為代表的研究為數(shù)據(jù)更好的利用提供技術(shù)支持。為深入理解大數(shù)據(jù)技術(shù)的內(nèi)涵,從大數(shù)據(jù)的定義、4V特征、體系架構(gòu)等方面進(jìn)行闡述。介紹了大數(shù)據(jù)的基本概念、特征,總結(jié)了云計算、系統(tǒng)層、算法層、應(yīng)用層的核心技術(shù)及關(guān)鍵策略。
關(guān)鍵詞:大數(shù)據(jù);4V定義;體系結(jié)構(gòu);
一、大數(shù)據(jù)定義
大數(shù)據(jù)這一概念目前沒有統(tǒng)一的定義?,F(xiàn)在業(yè)界一般認(rèn)可國際數(shù)據(jù)公司(IDC)用四個維度的特征來定義大數(shù)據(jù),即數(shù)據(jù)集的規(guī)模(Volume)、數(shù)據(jù)流動的速度(Velocity)、數(shù)據(jù)類型的多少(Variety)和數(shù)據(jù)價值的大?。╒alue)。具體來說,大數(shù)據(jù)具有以下4個基本特征:
一是數(shù)據(jù)體量巨大,從 TB 級別,躍升到 PB 級別。
二是數(shù)據(jù)類型多樣?,F(xiàn)在的數(shù)據(jù)類型不僅是結(jié)構(gòu)化數(shù)據(jù),還有以半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)為主體的,如是圖片、視頻、音頻等多類型的數(shù)據(jù),個性化數(shù)據(jù)占絕對多數(shù)。據(jù)統(tǒng)計,2012 年互聯(lián)網(wǎng)中非結(jié)構(gòu)化數(shù)據(jù)量已達(dá)到75%以上。
三是價值密度低。以視頻為例,一小時的視頻,在不間斷的監(jiān)控過程中,可能有用的數(shù)據(jù)僅僅只有一兩秒。
四是處理速度快。數(shù)據(jù)處理遵循“1秒定律”,可從各種類型的數(shù)據(jù)中快速獲得高價值的信息。這一點(diǎn)也是和傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)有著本質(zhì)的不同。業(yè)界將這其歸納為 “4V”——Volume,Variety,Value,Velocity。
二、大數(shù)據(jù)平臺體系結(jié)構(gòu)
從信息化角度來看,大數(shù)據(jù)系統(tǒng)一般由構(gòu)架層、系統(tǒng)層、算法層、應(yīng)用層四塊組成。
1.構(gòu)架層
大數(shù)據(jù)與云計算融合是技術(shù)發(fā)展的趨勢,云計算解決大型數(shù)據(jù)中心的資源利用率提升和自動化運(yùn)維管理,它管理的對象中顯然包括需要使用大量計算資源的“大數(shù)據(jù)”系統(tǒng)。因此從層次上講,云計算技術(shù)為大數(shù)據(jù)技術(shù)提供基礎(chǔ)資源,云計算是基礎(chǔ)設(shè)施能力(IaaS),大數(shù)據(jù)是云計算的一種服務(wù)能力(PaaS)。大數(shù)據(jù)集群是由多種角色組成的龐大的應(yīng)用部署群,一般會分為部署節(jié)點(diǎn)、管理節(jié)點(diǎn)、計算節(jié)點(diǎn)、流計算節(jié)點(diǎn)、數(shù)據(jù)復(fù)制節(jié)點(diǎn)等,這些節(jié)點(diǎn)中只有計算節(jié)點(diǎn)因?yàn)槌休d了HDFS的海量數(shù)據(jù)持久化建議物理機(jī)部署外,其它節(jié)點(diǎn)都可以進(jìn)行虛擬化部署,從而使大數(shù)據(jù)集群可以部署在云數(shù)據(jù)中心中統(tǒng)一管理,最終實(shí)現(xiàn)大數(shù)據(jù)服務(wù)的資源共享、統(tǒng)一管理、按需分配、動態(tài)調(diào)度。因此實(shí)際部署時,針對節(jié)點(diǎn)規(guī)模大的集群,可采用半虛半實(shí)的方式部署。大數(shù)據(jù)集群節(jié)點(diǎn)中的管理節(jié)點(diǎn)、流計算節(jié)點(diǎn)對IO的需求量不大,可以使用虛擬機(jī)方式進(jìn)行部署,而計算節(jié)點(diǎn)對IO需求大,保留物理部署模式。同時在虛擬機(jī)中部署臨時的大數(shù)據(jù)集群,在大數(shù)據(jù)業(yè)務(wù)波峰時,通過臨時集群來彈性增加處理能力,分擔(dān)共享大數(shù)據(jù)集群的數(shù)據(jù)處理壓力。
2.系統(tǒng)層
Alluxio一個開源的基于內(nèi)存的分布式存儲系統(tǒng),現(xiàn)在成為開源社區(qū)中成長最快的大數(shù)據(jù)開源項(xiàng)目之一,已成為一個大數(shù)據(jù)存儲和共享平臺工業(yè)標(biāo)準(zhǔn),并成為全球發(fā)展最快的大數(shù)據(jù)開源軟件系統(tǒng)。Alluxio的目的就是想要讓計算層和存儲層可以再次輕裝上陣,讓它們獨(dú)立的優(yōu)化和發(fā)展自己,而不用擔(dān)心破壞兩者之間的依賴。具體說來,Alluxio提供一層文件系統(tǒng)的抽象給計算層。這層抽象之上的計算只需要和Alluxio交互來訪問數(shù)據(jù);而這層抽象之下可以同時對接多個不同的持久化存儲(比如一個S3加上一個HDFS部署),而這層抽象本身又是由部署在靠近計算的內(nèi)存級Alluxio存儲系統(tǒng)來實(shí)現(xiàn)。
它適用以下場景:
1.計算層需要反復(fù)訪問遠(yuǎn)程(比如在云端,或跨機(jī)房)的數(shù)據(jù);
2.計算層需要同時訪問多個獨(dú)立的持久化數(shù)據(jù)源(比如同時訪問S3和HDFS中的數(shù)據(jù));
3.多個獨(dú)立的大數(shù)據(jù)應(yīng)用(比如不同的Spark Job)需要高速有效的共享數(shù)據(jù);
4.當(dāng)計算層有著較為嚴(yán)重的內(nèi)存資源、以及JVM GC壓力,或者較高的任務(wù)失敗率時,Alluxio作為輸入輸出數(shù)據(jù)的Off heap存儲可以極大緩解這一壓力,并使計算消耗的時間和資源更可控可預(yù)測。
3.算法層
數(shù)據(jù)挖掘是從海量數(shù)據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的計算過程。數(shù)據(jù)挖掘中用到了大量的機(jī)器學(xué)習(xí)界提供的數(shù)據(jù)分析技術(shù)和數(shù)據(jù)庫界提供的數(shù)據(jù)管理技術(shù)。機(jī)器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具,然而機(jī)器學(xué)習(xí)的門檻較高,數(shù)據(jù)分析人員不僅需要了解各個算法的優(yōu)缺點(diǎn),而且需要了解每個算法的超參數(shù)調(diào)優(yōu)技巧,一個數(shù)據(jù)分析流程一般包括數(shù)據(jù)清洗、特征提取、算法選擇以及模型評估等,所以被戲稱機(jī)器學(xué)習(xí)為“煉丹術(shù)”。使用某種學(xué)習(xí)機(jī)制,通過AI的方式自己來調(diào)整超參數(shù),找出最優(yōu)解的思想自然產(chǎn)生,AutoML、AutoKeras都是此類方法的代表,使用此類方法能讓用戶輕松地訓(xùn)練高性能的深度網(wǎng)絡(luò),而用戶無需具備任何機(jī)器學(xué)習(xí)或AI的知識就可以得到想要的數(shù)據(jù)。這種方式是今后的發(fā)展的方向,值的去進(jìn)一步研究。
4.應(yīng)用層
企業(yè)大數(shù)據(jù)應(yīng)用體系其實(shí)就是在生產(chǎn)業(yè)務(wù)系統(tǒng)之外構(gòu)建統(tǒng)一的企業(yè)級數(shù)據(jù)庫。企業(yè)級數(shù)據(jù)庫的建設(shè),從技術(shù)架構(gòu)上經(jīng)歷了從數(shù)據(jù)倉儲體系到MPP數(shù)據(jù)庫體系,再到現(xiàn)在應(yīng)用較廣的Hadoop架構(gòu)體系。除了技術(shù)體系架構(gòu)外,企業(yè)級數(shù)據(jù)庫的建設(shè)還包含數(shù)據(jù)模型的建立、數(shù)據(jù)管理體系建設(shè)、數(shù)據(jù)應(yīng)用體系建設(shè),而企業(yè)級數(shù)據(jù)庫的實(shí)際應(yīng)用效果更多的則是依賴于企業(yè)自身數(shù)據(jù)專家?guī)斓慕⒁约皩I(yè)機(jī)構(gòu)的推動。
三、小結(jié)
本文結(jié)合大數(shù)據(jù)的產(chǎn)生背景、需求和系統(tǒng)結(jié)構(gòu),梳理了大數(shù)據(jù)的基本概念及4V特征,總結(jié)歸納了大數(shù)據(jù)技術(shù)的架構(gòu)體系,分析了每層的核心技術(shù)。目前大數(shù)據(jù)技術(shù)的研究還有許多深層次的問題亟待解決,如大數(shù)據(jù)4V特征中起關(guān)鍵作用的是什么,如何對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)時同步,如何對數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理等等,需要我們用更加敏銳的洞察力來分析和研究。
參考文獻(xiàn):
[1]中國信息通信研究院 大數(shù)據(jù)白皮書 2018.4
[2]《深入理解大數(shù)據(jù)》 黃宜華、苗凱翔 機(jī)械工業(yè)出版社
[3]The Google File System Sanjay Ghemawat,Howard Gobioff,and Shun-Tak Leung
[4]BARWICK H.The "four Vs" of big data.Implementing Information Infrastructure Symposium[EB/OL].[2012-10-02].
[5]Hadoop [EB/OL].[2012-10-02].
(作者單位:河南省開封市煙草公司信息中心)