田密
(延安職業(yè)技術(shù)學(xué)院 網(wǎng)絡(luò)信息中心,陜西 延安 716000)
近幾年來,在互聯(lián)網(wǎng)技術(shù)發(fā)展背景下,人們每天需要獲取大量的信息和數(shù)據(jù),這是在過去30年無法想象的事情,面對(duì)著爆炸式的“大數(shù)據(jù)”信息,需要有專業(yè)的技術(shù)人員進(jìn)行數(shù)據(jù)信息整合,云計(jì)算背景下的大數(shù)據(jù)處理技術(shù)因運(yùn)而生,轉(zhuǎn)變著計(jì)算機(jī)系統(tǒng)的數(shù)據(jù)運(yùn)算方式,改變著人們的生活。
要想更好地了解云計(jì)算發(fā)展背景,首先需要對(duì)云計(jì)算的概念進(jìn)行了解,從定義上來看,云計(jì)算是一種利用互聯(lián)網(wǎng)而開展的動(dòng)態(tài)化虛擬信息服務(wù)系統(tǒng)。“云”相當(dāng)于是互聯(lián)網(wǎng)絡(luò)的意思,充分利用互聯(lián)網(wǎng)絡(luò)上的虛擬信息資源,可以大幅度地提升計(jì)算能力,能夠達(dá)到每秒鐘10萬億次的運(yùn)算速度,人們可以利用互聯(lián)網(wǎng)時(shí)代下云計(jì)算的方式來模擬出自然界的各種變化狀況,對(duì)天氣的變化狀況進(jìn)行實(shí)時(shí)性監(jiān)控和預(yù)測(cè),探索更多的未知領(lǐng)域和風(fēng)險(xiǎn)。從狹義上來講,云計(jì)算可以存儲(chǔ)大量的數(shù)據(jù)和信息資源,并且通過互聯(lián)網(wǎng)絡(luò)的技術(shù)手段,將收集到的信息進(jìn)行收集和整理,方便人們統(tǒng)一對(duì)數(shù)據(jù)實(shí)施管理,在“云”上面,人們可以快速地獲取自己想要的信息,與此同時(shí),“云”還具有十分強(qiáng)大的存儲(chǔ)功能,相當(dāng)于互聯(lián)網(wǎng)上的“移動(dòng)硬盤”,因而云計(jì)算的本質(zhì)就是將信息進(jìn)行數(shù)據(jù)化的計(jì)算和存儲(chǔ),對(duì)海量的信息數(shù)據(jù)進(jìn)行整理[1]。而“大數(shù)據(jù)”則是2008年提出的一種互聯(lián)網(wǎng)行業(yè)語言,所謂大數(shù)據(jù),主要指的是海量數(shù)據(jù)的集合體,通過普通的計(jì)算機(jī)處理技術(shù)是無法對(duì)所有數(shù)據(jù)進(jìn)行動(dòng)態(tài)化計(jì)算和處理的,必須要有更為強(qiáng)大的信息處理技術(shù)才能夠?qū)Α按髷?shù)據(jù)”類型的信息資產(chǎn)進(jìn)行處理。據(jù)有關(guān)IT專家估計(jì),三年以后也就是2020年,全球數(shù)據(jù)總量將呈現(xiàn)出爆炸式、發(fā)散式以及離散式的發(fā)展特點(diǎn),而云計(jì)算技術(shù)的出現(xiàn),正好為大數(shù)據(jù)的處理提供了支持與幫助,在大數(shù)據(jù)時(shí)代的發(fā)展背景下,云計(jì)算技術(shù)也有了更為廣闊的發(fā)展空間[2]。
在全球云計(jì)算發(fā)展背景下,主要有三點(diǎn)關(guān)鍵的大數(shù)據(jù)處理技術(shù),其一是數(shù)據(jù)的存儲(chǔ)技術(shù),數(shù)據(jù)的存儲(chǔ)技術(shù)也是整個(gè)云計(jì)算功能實(shí)施的基礎(chǔ),所謂存儲(chǔ)技術(shù),顧名思義就是要提高計(jì)算機(jī)數(shù)據(jù)存儲(chǔ)過程中的安全性,阻止外來者的非法訪問以及黑客的攻擊,避免用戶的信息數(shù)據(jù)遭到破壞和銷毀,同時(shí)還要具有快速的可讀寫能力,意思是說用戶可以快速找到自己所需要的信息文件,并且可以對(duì)文件的內(nèi)容進(jìn)行填寫,通過分布式的計(jì)算機(jī)存儲(chǔ)技術(shù),將所有信息數(shù)據(jù)存儲(chǔ)在互聯(lián)網(wǎng)絡(luò)“云”服務(wù)器當(dāng)中,進(jìn)行集中化的統(tǒng)一管理,還可以將比較重要的數(shù)據(jù)信息進(jìn)行多次云備份處理,提高冗余存儲(chǔ)技術(shù)的可靠性,實(shí)施數(shù)據(jù)加密技術(shù),對(duì)客戶的重要文件進(jìn)行密碼保護(hù),目前Google集團(tuán)設(shè)計(jì)并開發(fā)的GFS開源技術(shù),是全球云計(jì)算體系中應(yīng)用的最為廣泛的數(shù)據(jù)存儲(chǔ)技術(shù)[3]。
而云計(jì)算背景下的數(shù)據(jù)管理技術(shù)主要指的是對(duì)相應(yīng)數(shù)據(jù)信息進(jìn)行整理、編碼以及組織、檢索與維護(hù)等技術(shù)工作,目前已經(jīng)進(jìn)入到了數(shù)據(jù)庫管理的運(yùn)算處理階段,使得用戶在進(jìn)行信息操作的時(shí)候更加快捷,將數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,提高數(shù)據(jù)信息存儲(chǔ)的獨(dú)立性,在進(jìn)行數(shù)據(jù)信息的統(tǒng)計(jì)和描述的時(shí)候,應(yīng)當(dāng)重點(diǎn)把握好不同數(shù)據(jù)之間的關(guān)系,在提高信息數(shù)據(jù)共享度的同時(shí)還可以進(jìn)一步對(duì)數(shù)據(jù)的內(nèi)容進(jìn)行擴(kuò)充,最后數(shù)據(jù)將統(tǒng)一由DBMS數(shù)據(jù)庫管理系統(tǒng)進(jìn)行處理,數(shù)據(jù)庫的中心管理控制系統(tǒng)可以讓不同的操作用戶對(duì)數(shù)據(jù)進(jìn)行使用,方便用戶的隨存隨取,提高數(shù)據(jù)資源的共享性,所以說數(shù)據(jù)管理技術(shù)需要具有非常強(qiáng)大的大數(shù)據(jù)操控管理能力,現(xiàn)在互聯(lián)網(wǎng)市場(chǎng)主要是以BigTable分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)為主的HBase開源處理技術(shù)作為大數(shù)據(jù)的數(shù)據(jù)管理技術(shù)[4]。
在云計(jì)算背景下,虛擬化技術(shù)一般指的是數(shù)據(jù)資源的管理技術(shù),把一些人們能夠看見的計(jì)算機(jī)處理資源進(jìn)行虛擬化的整合,例如對(duì)計(jì)算機(jī)的服務(wù)器處理系統(tǒng)以及硬盤的存儲(chǔ)功能進(jìn)行抽象虛擬化的整理,讓那些在實(shí)際空間結(jié)構(gòu)上無法進(jìn)行連接的數(shù)據(jù)處理裝置可以在虛擬的空間中占據(jù)一定地位,像是內(nèi)存資源以及服務(wù)器資源的虛擬占有部分不再受到傳統(tǒng)空間結(jié)構(gòu)框架的物理束縛,在日常的虛擬化技術(shù)應(yīng)用中,人們常常會(huì)將虛擬化技術(shù)應(yīng)用到企業(yè)生產(chǎn)的零部件操作施工當(dāng)中,提高資源的可利用性,而通常情況下,虛擬化技術(shù)的應(yīng)用主要是為了能夠提高云計(jì)算系統(tǒng)的運(yùn)算能力以及對(duì)資源的存儲(chǔ)能力,在不同的操作層級(jí)下建立起一個(gè)虛擬層,進(jìn)而解除不同層級(jí)之間的耦合性關(guān)系,從而達(dá)到分離信息資源的目的[5]。
基于云計(jì)算發(fā)展背景下的大數(shù)據(jù)處理技術(shù)的應(yīng)用主要分為五點(diǎn),其一是大數(shù)據(jù)的采集,一般將大數(shù)據(jù)的采集形式分成兩種,分別是分布式的數(shù)據(jù)采集方式以及集中式的數(shù)據(jù)采集方式,這兩種數(shù)據(jù)采集方式有它們各自不同的特點(diǎn),分布式的數(shù)據(jù)采集方式相對(duì)來說要靈活一些,但是集中式的數(shù)據(jù)采集方式的全局性會(huì)好一些,而在真正的大數(shù)據(jù)采集過程中,需要根據(jù)不同數(shù)據(jù)的特點(diǎn)來選擇合適的數(shù)據(jù)采集方式,如果大數(shù)據(jù)呈現(xiàn)出了結(jié)構(gòu)式、半結(jié)構(gòu)的特點(diǎn),可以使用云計(jì)算技術(shù)對(duì)數(shù)據(jù)實(shí)施分布式的采集,使得池內(nèi)的數(shù)據(jù)可以同構(gòu)化,為用戶做好數(shù)據(jù)分類。如果數(shù)據(jù)存在于不同組織對(duì)象之間,而且組織間又是相關(guān)獨(dú)立的,那么也可以采用集中式、分布式相混合的數(shù)據(jù)處理方式[6]。
在面對(duì)云計(jì)算時(shí)代背景下需要處理的龐大數(shù)據(jù)時(shí),過去老舊的計(jì)算方式已經(jīng)不能滿足大數(shù)據(jù)時(shí)代的計(jì)算存儲(chǔ)要求,而在云技術(shù)的基礎(chǔ)上,可以及時(shí)區(qū)分?jǐn)?shù)據(jù)的屬性,對(duì)于不同類型,不同資源屬性的數(shù)據(jù)都可以單獨(dú)地進(jìn)行存放。因而云計(jì)算技術(shù)的數(shù)據(jù)存儲(chǔ)優(yōu)點(diǎn)就是能夠查詢數(shù)據(jù)的屬性,然后根據(jù)數(shù)據(jù)的屬性列即可完成對(duì)不同屬性數(shù)列的存儲(chǔ),進(jìn)而大幅度地提升云計(jì)算系統(tǒng)的數(shù)據(jù)處理工程量以及數(shù)據(jù)處理的速度和效率,將采集到的數(shù)據(jù)信息按照相關(guān)的數(shù)據(jù)屬性展開列式的數(shù)據(jù)存儲(chǔ),保證數(shù)據(jù)庫中處理系統(tǒng)當(dāng)中相鄰數(shù)據(jù)間的同質(zhì)性程度更好,進(jìn)而提升對(duì)數(shù)據(jù)信息的壓縮效率,降低不必要的存儲(chǔ)空間,獲得更多的數(shù)據(jù)儲(chǔ)備量。
在云計(jì)算背景下,大數(shù)據(jù)的聯(lián)機(jī)分析主要指的是對(duì)數(shù)據(jù)進(jìn)行的多維整合處理,這和大數(shù)據(jù)庫的組織形式是相同的,也就是通過互聯(lián)網(wǎng)聯(lián)機(jī)的方式,將云計(jì)算系統(tǒng)數(shù)據(jù)庫同大數(shù)據(jù)的數(shù)據(jù)處理及整合技術(shù)連接起來,進(jìn)而解決并完善了計(jì)算機(jī)處理系統(tǒng)的運(yùn)算功能,在對(duì)大數(shù)據(jù)進(jìn)行分類和處理的過程中,就可以完成對(duì)數(shù)據(jù)的實(shí)時(shí)運(yùn)算,提高數(shù)據(jù)庫整理系統(tǒng)的運(yùn)算速度,在大數(shù)據(jù)聯(lián)機(jī)分析的過程中,更加注重對(duì)數(shù)據(jù)信息的決策分析,同時(shí)為客戶提供更為形象化的數(shù)據(jù)處理結(jié)果,采用分布式并行的計(jì)算方式,對(duì)大數(shù)據(jù)當(dāng)中的綜合性數(shù)據(jù)進(jìn)行處理,進(jìn)而構(gòu)建一種多維化的分析模型,應(yīng)用多維立體化的分析方式,使得數(shù)據(jù)處理的最終結(jié)果更加立體[7]。
在云計(jì)算技術(shù)的發(fā)展背景下,又創(chuàng)新提出了大數(shù)據(jù)挖掘技術(shù),這種數(shù)據(jù)挖掘技術(shù)可以說是對(duì)聯(lián)機(jī)分析技術(shù)的一種拓展和延伸,進(jìn)而獲得更為內(nèi)在的數(shù)據(jù)信息,找到用戶的信息偏好,讓客戶可以找到自己內(nèi)心所希望了解的信息,提高信息挖掘的廣度和深度,并將客戶想找到的數(shù)據(jù)信息通過某種符號(hào)或是概念表達(dá)出來,一般在云計(jì)算技術(shù)的處理背景下,大多采用的是分布式的并行挖掘方式,將大數(shù)據(jù)進(jìn)行并行排列處理,同時(shí)對(duì)并行排列的數(shù)據(jù)進(jìn)行拆分整理,對(duì)于不同屬性的數(shù)據(jù)由專門的計(jì)算處理系統(tǒng)負(fù)責(zé),在同一時(shí)間內(nèi)完成對(duì)大數(shù)據(jù)信息的規(guī)?;?jì)算和分析,設(shè)計(jì)并建立MapReduce云計(jì)算系統(tǒng)數(shù)據(jù)挖掘機(jī)器,在Map中進(jìn)行分模塊的數(shù)據(jù)處理,在Reduce中展開數(shù)據(jù)結(jié)果的規(guī)約[8]。
在基于云計(jì)算的大數(shù)據(jù)處理環(huán)境下,數(shù)據(jù)挖掘技術(shù)引起了許多人的關(guān)注,與此同時(shí),大數(shù)據(jù)可視化技術(shù)的出現(xiàn)對(duì)于數(shù)據(jù)挖掘技術(shù)的開發(fā)和創(chuàng)新可以說是錦上添花,所謂數(shù)據(jù)的可視化技術(shù),顧名思義,指的就是人們能夠通過圖形或者圖像的方式,將數(shù)據(jù)展現(xiàn)在人們面前,對(duì)數(shù)據(jù)進(jìn)行可視化的信息處理,更重要的是用戶可以非常形象地觀察到數(shù)據(jù)與數(shù)據(jù)之間的作用關(guān)系,通過圖像展示的方式,讓人們能夠加深對(duì)數(shù)據(jù)信息的理解,使大數(shù)據(jù)挖掘技術(shù)更加具體化,使人們可以更加方便地獲得想要的信息,提高對(duì)信息數(shù)據(jù)的檢索速度,獲得數(shù)據(jù)更加直觀,更為內(nèi)在的信息,這樣可以方便用戶建立立體化的多維模型,使得大數(shù)據(jù)挖掘處理技術(shù)可以在云計(jì)算的處理背景下發(fā)揮出更大的作用[9]。
綜上所述,大數(shù)據(jù)時(shí)代的發(fā)展,需要計(jì)算機(jī)系統(tǒng)的運(yùn)算能力、存儲(chǔ)能力得到更好地提升,云計(jì)算技術(shù)發(fā)展背景為大數(shù)據(jù)的發(fā)展帶來了機(jī)遇和挑戰(zhàn),伴隨著大數(shù)據(jù)處理技術(shù)的日益成熟,使得數(shù)據(jù)的采集和存儲(chǔ)更加方便和快捷,同時(shí)還可以聯(lián)機(jī)操作分析,挖掘更深層次的信息,為用戶提供可視化的數(shù)據(jù)結(jié)果[10]。
參考文獻(xiàn):
[1]??兹?對(duì)基于云計(jì)算背景下的數(shù)據(jù)存儲(chǔ)技術(shù)的幾點(diǎn)探討[J].科技展望,2017,(05):16.
[2]龔旭.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)探討[J].電子技術(shù)與軟件工程,2015,(10):198.
[3]張焰,李楊.用大數(shù)據(jù)武裝“云”:基于云計(jì)算的大數(shù)據(jù)處理技術(shù)[J].中國(guó)新通信,2015,(04):87-88.
[4]孫海軍.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)[J].信息安全與技術(shù),2014,(11):61-63.
[5]任梁.試論云計(jì)算技術(shù)下的大數(shù)據(jù)處理系統(tǒng)[J].電子技術(shù)與軟件工程,2014,(16):27.
[6]張蕾.基于云計(jì)算的大數(shù)據(jù)處理技術(shù)[J].信息系統(tǒng)工程,2014,(04):121.
[7]李曉飛.基于云計(jì)算技術(shù)的大數(shù)據(jù)處理系統(tǒng)的研究[J].長(zhǎng)春工程學(xué)院學(xué)報(bào)(自然科學(xué)版),2014,(01):116-118+125.
[8]吳華芹.基于云計(jì)算背景下的數(shù)據(jù)存儲(chǔ)技術(shù)[J].計(jì)算機(jī)光盤軟件與應(yīng)用,2013,(07):28-29.
[9]云計(jì)算市場(chǎng)四雄爭(zhēng)霸 亞馬遜招兵買馬建新軍[J]. 軟件,2017,38(08):12+42.
[10]陳曉燕,姜蕊,劉俊,張?chǎng)H. 云計(jì)算在數(shù)值天氣預(yù)報(bào)中的應(yīng)用[J]. 新型工業(yè)化,2016,6(10):66-69.