楊彬
摘要:信息技術(shù)的進(jìn)步及其在商業(yè)、工程、醫(yī)學(xué)和科學(xué)研究等領(lǐng)域的廣泛發(fā)展,導(dǎo)致了信息/數(shù)據(jù)爆炸,大數(shù)據(jù)的組織和處理需要巨大的存儲(chǔ)和計(jì)算能力。文章研究了大數(shù)據(jù)云,大數(shù)據(jù)和云計(jì)算的集成技術(shù),以及大數(shù)據(jù)計(jì)算作為云計(jì)算的服務(wù)。
關(guān)鍵詞:大數(shù)據(jù);云計(jì)算;大數(shù)據(jù)云;數(shù)據(jù)分析
信息技術(shù)的進(jìn)步及其在商業(yè)、工程、醫(yī)學(xué)和科學(xué)研究領(lǐng)域的廣泛發(fā)展,導(dǎo)致信息/數(shù)據(jù)爆炸。在數(shù)據(jù)組織和處理方面,知識(shí)的發(fā)現(xiàn)和決策是一項(xiàng)具有挑戰(zhàn)性的任務(wù),這是一種被稱為“大數(shù)據(jù)計(jì)算”的新興趨勢(shì),它是一種將大規(guī)模計(jì)算、新的數(shù)據(jù)密集型技術(shù)和數(shù)學(xué)模型結(jié)合起來(lái)的新模式,用于構(gòu)建數(shù)據(jù)分析。
一、大數(shù)據(jù)云的特點(diǎn)及分類
來(lái)自社會(huì)媒體、網(wǎng)絡(luò)日志、科學(xué)研究、傳感器網(wǎng)絡(luò)、商業(yè)交易等多種來(lái)源的數(shù)據(jù)正在迅速增長(zhǎng)。從如此大的數(shù)據(jù)中獲得有用的決策信息,將來(lái)自多個(gè)來(lái)源的信息融合起來(lái)將是一項(xiàng)具有挑戰(zhàn)性的任務(wù)。
大數(shù)據(jù)云計(jì)算也稱為“大數(shù)據(jù)云”,它是大規(guī)模、分布式計(jì)算和存儲(chǔ)基礎(chǔ)設(shè)施的數(shù)據(jù)密集型分析平臺(tái)。大數(shù)據(jù)云的特點(diǎn)如下:1.大規(guī)模分布式計(jì)算和數(shù)據(jù)存儲(chǔ):廣泛的計(jì)算設(shè)施,無(wú)縫地訪問(wèn)可伸縮的存儲(chǔ)庫(kù)和數(shù)據(jù)服務(wù);2.信息定義數(shù)據(jù)存儲(chǔ):基于元數(shù)據(jù)的數(shù)據(jù)訪問(wèn)而不是路徑和文件名;3.分布式虛擬文件系統(tǒng):文件系統(tǒng)可以動(dòng)態(tài)創(chuàng)建和映射到計(jì)算集群;4.計(jì)算和數(shù)據(jù)的無(wú)縫訪問(wèn):透明訪問(wèn)大規(guī)模數(shù)據(jù)和計(jì)算資源;5.數(shù)據(jù)容器和計(jì)算資源的動(dòng)態(tài)選擇:能夠處理虛擬機(jī)的動(dòng)態(tài)創(chuàng)建,并能夠訪問(wèn)增加數(shù)據(jù)位置鄰近度的大規(guī)模分布式數(shù)據(jù)源;6.高性能數(shù)據(jù)和計(jì)算:計(jì)算和數(shù)據(jù)應(yīng)是高性能驅(qū)動(dòng)的;7.多維數(shù)據(jù)處理:支持多種形式的數(shù)據(jù),并使用必要的工具進(jìn)行處理;8.分析平臺(tái)服務(wù):能夠在環(huán)境中開(kāi)發(fā)、部署和使用分析;9.計(jì)算和數(shù)據(jù)的高可用性:計(jì)算和數(shù)據(jù)的復(fù)制機(jī)制;10.數(shù)據(jù)密集型計(jì)算平臺(tái):支持傳統(tǒng)和新興的數(shù)據(jù)密集型計(jì)算模型以及應(yīng)用程序的可擴(kuò)展部署和執(zhí)行。
大數(shù)據(jù)云是新一代數(shù)據(jù)密集型平臺(tái),用于快速構(gòu)建分析并通過(guò)可彈性擴(kuò)展的基礎(chǔ)架構(gòu)進(jìn)行部署。根據(jù)向最終用戶提供的服務(wù),這些服務(wù)大致分為四種類型。
公共大數(shù)據(jù)云:基于彈性可伸縮云基礎(chǔ)設(shè)施的大規(guī)模數(shù)據(jù)組織和處理。資源通過(guò)互聯(lián)網(wǎng)作為付費(fèi)計(jì)算模式提供服務(wù)。例子包括Amazon云中的大數(shù)據(jù)計(jì)算,大數(shù)據(jù)計(jì)算的Windows Azure HDInsight,RackSpace Cloudera Hadoop和Google云平臺(tái)。
私有大數(shù)據(jù)云:通過(guò)虛擬化基礎(chǔ)架構(gòu)在企業(yè)內(nèi)部署大數(shù)據(jù)平臺(tái),對(duì)單個(gè)組織擁有更大的控制權(quán)和隱私權(quán)。
混合大數(shù)據(jù)云:公共和私有大數(shù)據(jù)云的聯(lián)合,提高了系統(tǒng)的可擴(kuò)展性,災(zāi)難恢復(fù)和高可用性。在此部署中,私有任務(wù)可以在峰值工作負(fù)載期間遷移到公共基礎(chǔ)設(shè)施上。
大數(shù)據(jù)訪問(wèn)網(wǎng)絡(luò)和計(jì)算平臺(tái):由多個(gè)不同提供商作為服務(wù)提供的數(shù)據(jù)、計(jì)算和分析的集成平臺(tái)。
二、大數(shù)據(jù)云元素
大數(shù)據(jù)和傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)機(jī)制在很多方面都存在差異,比如大規(guī)模數(shù)據(jù)組織,以及對(duì)數(shù)據(jù)科學(xué)家進(jìn)行分析開(kāi)發(fā)的平臺(tái)和工具。
1. 大數(shù)據(jù)基礎(chǔ)設(shè)施服務(wù):該層提供核心服務(wù),如大數(shù)據(jù)的計(jì)算、存儲(chǔ)和數(shù)據(jù)服務(wù)。
計(jì)算云:按需提供計(jì)算資源,可以根據(jù)分析需求進(jìn)行擴(kuò)展或縮減。
存儲(chǔ)云:通過(guò)網(wǎng)絡(luò)提供的大量存儲(chǔ)空間。提供的存儲(chǔ)包括文件系統(tǒng),塊存儲(chǔ)和基于對(duì)象的存儲(chǔ)。存儲(chǔ)云提供可選擇的文件系統(tǒng),并且還可彈性擴(kuò)展。存儲(chǔ)云通?;跀?shù)據(jù)量和事務(wù)/數(shù)據(jù)傳輸?shù)亩▋r(jià)模型進(jìn)行訪問(wèn)。存儲(chǔ)云提供的幾種服務(wù)是原始的、塊的和基于對(duì)象的存儲(chǔ)。
數(shù)據(jù)云:數(shù)據(jù)云類似于存儲(chǔ)云;然而,與存儲(chǔ)空間交付不同,它們提供數(shù)據(jù)作為服務(wù)。數(shù)據(jù)云提供了發(fā)布數(shù)據(jù)、標(biāo)記數(shù)據(jù)、發(fā)現(xiàn)數(shù)據(jù)和處理感興趣數(shù)據(jù)的工具和技術(shù)。基于數(shù)據(jù)采集、分析、分析報(bào)告和長(zhǎng)期保存數(shù)據(jù)的“標(biāo)準(zhǔn)科學(xué)模型”四個(gè)步驟,數(shù)據(jù)云運(yùn)行在利用存儲(chǔ)云的領(lǐng)域特定數(shù)據(jù)上,以服務(wù)數(shù)據(jù)。
2. 大數(shù)據(jù)平臺(tái)服務(wù):此層提供調(diào)度器,數(shù)據(jù)檢索查詢機(jī)制和數(shù)據(jù)密集型編程模型,以解決多個(gè)大數(shù)據(jù)分析問(wèn)題。
3. 大數(shù)據(jù)分析服務(wù):將大數(shù)據(jù)分析作為大型數(shù)據(jù)云基礎(chǔ)設(shè)施的服務(wù)。服務(wù)將根據(jù)服務(wù)級(jí)別協(xié)議(SLA)提供給企業(yè),滿足QoS參數(shù)。
三、大數(shù)據(jù)云分層體系結(jié)構(gòu)
大數(shù)據(jù)云計(jì)算的體系結(jié)構(gòu)被表示為四層模型。云基礎(chǔ)設(shè)施層處理彈性的可伸縮計(jì)算、存儲(chǔ)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施。大數(shù)據(jù)結(jié)構(gòu)層解決了用于數(shù)據(jù)管理、訪問(wèn)和聚合的幾種工具。第三層是平臺(tái)層,它處理用于數(shù)據(jù)訪問(wèn)和處理的工具和技術(shù),用于設(shè)計(jì)用于執(zhí)行的分析和調(diào)度模型的編程環(huán)境,等等;頂層是大數(shù)據(jù)分析,專注于分析使用,以及發(fā)布標(biāo)準(zhǔn),將其作為服務(wù)。
1. 云基礎(chǔ)設(shè)施層:大規(guī)模地管理動(dòng)態(tài)和彈性可伸縮的大型基礎(chǔ)設(shè)施,計(jì)算和存儲(chǔ)資源作為服務(wù)。虛擬化技術(shù)用于根據(jù)SLA和QoS參數(shù)對(duì)資源進(jìn)行按需配置。該層提供的服務(wù)如下:1.大型彈性基礎(chǔ)設(shè)施,按需建立大型數(shù)據(jù)平臺(tái);2.動(dòng)態(tài)創(chuàng)建虛擬機(jī);3.按需對(duì)文件/塊/基于對(duì)象的存儲(chǔ)進(jìn)行大規(guī)模的數(shù)據(jù)管理;4.在存儲(chǔ)庫(kù)中無(wú)縫移動(dòng)數(shù)據(jù)的能力;5.能夠創(chuàng)建虛擬機(jī),并使用計(jì)算節(jié)點(diǎn)自動(dòng)安裝文件系統(tǒng)。
2. 大數(shù)據(jù)結(jié)構(gòu):該層解決可以訪問(wèn)存儲(chǔ),計(jì)算和應(yīng)用程序服務(wù)的工具和API。 該層提供可互操作的協(xié)議API來(lái)連接指定的多個(gè)云基礎(chǔ)設(shè)施標(biāo)準(zhǔn)。
3. 大數(shù)據(jù)平臺(tái)作為服務(wù):核心層提供多種平臺(tái)服務(wù),用于存儲(chǔ)/數(shù)據(jù)以及基于SLA和QoS的計(jì)算服務(wù)。該層由中間件管理工具(如調(diào)度程序),數(shù)據(jù)管理工具(如NoSQL工具)和數(shù)據(jù)密集型數(shù)據(jù)處理程序組成。這一層將主要關(guān)注工具和軟件開(kāi)發(fā)工具包(SDK)的開(kāi)發(fā),這些工具是分析設(shè)計(jì)的關(guān)鍵。
4. 大數(shù)據(jù)分析:作為服務(wù)提供的大數(shù)據(jù)分析,用戶可以快速地進(jìn)行分析工作,而無(wú)需投資于基礎(chǔ)設(shè)施,只為所消耗的資源支付費(fèi)用。該層組織軟件設(shè)備存儲(chǔ)庫(kù),并在基礎(chǔ)設(shè)施上快速部署,并將最終結(jié)果交付給用戶;定價(jià)將根據(jù)使用情況、QoS提供的方法計(jì)算。
四、分層的組件
(一)基礎(chǔ)設(shè)施層
該層提供有效管理和交付計(jì)算元素、存儲(chǔ)、數(shù)據(jù)和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的服務(wù)。該層又分為資源層和接口層兩個(gè)子層。資源層在物理或虛擬環(huán)境中方便計(jì)算、存儲(chǔ)和數(shù)據(jù)服務(wù)。物理環(huán)境類似于沒(méi)有虛擬化的數(shù)據(jù)中心,類似于本地網(wǎng)絡(luò)中的集群設(shè)置。在虛擬環(huán)境中,它可能是一個(gè)私有/公共/混合云提供商,提供基于消費(fèi)的服務(wù)。物理和虛擬環(huán)境下資源層的功能相似;然而,虛擬環(huán)境提供的資源利用率高;然而,隨需應(yīng)變的資源配置和高度可伸縮的特性,由于強(qiáng)制的虛擬化技術(shù)而導(dǎo)致性能下降。
1.資源層:資源層包括物理資源和云資源。通過(guò)本地?cái)?shù)據(jù)中心或內(nèi)部提供的非虛擬計(jì)算和存儲(chǔ)資源??梢酝ㄟ^(guò)標(biāo)準(zhǔn)協(xié)議、網(wǎng)絡(luò)接口訪問(wèn)物理資源。虛擬化/云資源由幾個(gè)云計(jì)算提供商(如計(jì)算,存儲(chǔ)和應(yīng)用程序云)提供。計(jì)算云可根據(jù)需要提供多種可擴(kuò)展的機(jī)器實(shí)例; 存儲(chǔ)/數(shù)據(jù)云在線提供存儲(chǔ)庫(kù)或數(shù)據(jù),有時(shí)兩者都提供。云基礎(chǔ)架構(gòu)可能是私有的,公共的或兩者兼而有之。但是,訪問(wèn)機(jī)制和安全實(shí)現(xiàn)將根據(jù)所選擇的云的類型不同而有所不同。
2.接口層:接口層支持基于Web和可互操作服務(wù)的開(kāi)放標(biāo)準(zhǔn)協(xié)議。主要挑戰(zhàn)包括異構(gòu)硬件和存儲(chǔ)基礎(chǔ)設(shè)施之間的互操作性,以及不同云提供商之間的遷移/訪問(wèn)。接口層提供了訪問(wèn)計(jì)算資源、存儲(chǔ)資源和應(yīng)用程序服務(wù)的標(biāo)準(zhǔn)接口。這一層根據(jù)提供給基礎(chǔ)層的服務(wù)劃分為四個(gè)組件,例如網(wǎng)絡(luò)接口協(xié)議、云計(jì)算管理接口(CCMI)、云存儲(chǔ)/數(shù)據(jù)管理接口(CS/DMI)和云應(yīng)用服務(wù)接口(CASI)。
(二)大數(shù)據(jù)平臺(tái)層
這是一個(gè)中間件層,根據(jù)功能進(jìn)一步劃分為四個(gè)子層;它們是基礎(chǔ)層、運(yùn)行時(shí)間層、編程建模層和SDK層。基礎(chǔ)層提供了資源管理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、安全性和虛擬設(shè)備的機(jī)制。運(yùn)行時(shí)間層解決了幾個(gè)調(diào)度機(jī)制和作業(yè)管理機(jī)制。編程建模層采用了幾個(gè)編程標(biāo)準(zhǔn);SDK層提供用于多種語(yǔ)言編程的API。
(三)用戶
系統(tǒng)的若干利益相關(guān)者如:1.開(kāi)發(fā)人員:大數(shù)據(jù)通用應(yīng)用設(shè)計(jì)師;2.數(shù)據(jù)科學(xué)家:設(shè)計(jì)分析應(yīng)用程序的數(shù)據(jù)分析師。這可能是業(yè)務(wù)分析,科學(xué)探索等;3.終端用戶:系統(tǒng)的分析用戶。
大數(shù)據(jù)云允許企業(yè)在其產(chǎn)品,資源或客戶上收集實(shí)時(shí)數(shù)據(jù)點(diǎn),然后重新打包,以優(yōu)化客戶體驗(yàn)或資源利用率;大數(shù)據(jù)云提供服務(wù)和付費(fèi)的消費(fèi)模式,有效降低應(yīng)用程序開(kāi)發(fā)的成本;大數(shù)據(jù)云能提高組織內(nèi)數(shù)據(jù)共享的數(shù)量和更新的速度,使企業(yè)和其他組織能夠更快、更準(zhǔn)確地響應(yīng)客戶需求;大數(shù)據(jù)云使企業(yè)能夠通過(guò)快速建立大數(shù)據(jù)數(shù)據(jù)庫(kù)和編寫分析來(lái)挖掘信息,從而節(jié)省資金,增加收入,并在垂直方面實(shí)現(xiàn)許多其他業(yè)務(wù)目標(biāo)。
*2019年度遼寧省經(jīng)濟(jì)社會(huì)發(fā)展研究課題:“互聯(lián)網(wǎng)+”視域下農(nóng)業(yè)農(nóng)村民生檔案服務(wù)及保護(hù)研究(2019lsktwzz-20);遼寧行政學(xué)院科研咨詢創(chuàng)新團(tuán)隊(duì)項(xiàng)目:關(guān)于深化制造業(yè)與互聯(lián)網(wǎng)融合發(fā)展的研究(2017kzcxtd01C)。
(作者單位:遼寧行政學(xué)院)