摘 要:如今的信息化社會當中,每十八個人之間形成的數(shù)據(jù)量就能夠等同于歷史幾千年所形成的數(shù)據(jù)量總和,而且這種數(shù)據(jù)量還呈現(xiàn)出了非常明顯的增加的趨勢。那么,面對如此巨大的數(shù)據(jù)量,它在給人們帶來非常廣闊的信息內(nèi)容以及信息結構的基礎上也帶來了很多挑戰(zhàn),本文將嘗試對云計算平臺當中的海量數(shù)據(jù)挖掘功能進行了闡述,總結其中的一些不足,嘗試提出解決策略。
關鍵詞:云計算;海量數(shù)據(jù)挖掘;探究
DOI:10.16640/j.cnki.37-1222/t.2016.08.127
云計算的效率較高、可用價值也比較大,而且其消耗成本也相對較低,將其引入到挖掘數(shù)據(jù)的工作當中是比較可靠的,本文將就此展開探究分析。
1 在云計算環(huán)境當中并行計算模型概述
谷歌實驗室曾經(jīng)提出了一個計算模型或者框架,能夠很好地應用在大范圍數(shù)據(jù)處理的工作當中,即Map Reduce,一個正常的Map Reduce作業(yè)是由很多的Map以及很多Reduce來組成的,它可以很好的將大規(guī)模處理數(shù)據(jù)的作業(yè)轉(zhuǎn)移成若干個Map任務,隨后分配到各個機器當中執(zhí)行,最后生成中間文件,Reduce負責合并中間文件并獲得輸出文件。
這種技術能夠?qū)⒒ヂ?lián)網(wǎng)當中大量的數(shù)據(jù)進行適當?shù)姆纸?,使之成為大小完全相同的小?shù)據(jù)塊,同時令其均勻地分布在云計算的網(wǎng)絡當中的各服務器當中,最后使用Map Reduce并行計算模型。
2 在云計算基礎上進行的大量數(shù)據(jù)挖掘
2.1 挖掘數(shù)據(jù)
所謂數(shù)據(jù)挖掘,換言之就是在數(shù)據(jù)庫當中發(fā)現(xiàn)知識的過程,也就是從海量的數(shù)據(jù)當中尋找到新穎且有效、潛在性較強、可以被理解的模式這樣的過程。在云計算基礎之上進行挖掘的方式是比較合理的,數(shù)據(jù)中心能夠存儲大量的數(shù)據(jù),同時還可以結合挖掘數(shù)據(jù)的需求來進行資源的動態(tài)分配,使用恰當?shù)娜蒎e機制進行數(shù)據(jù)挖掘的可靠性的保障。
2.2 在云計算基礎上進行數(shù)據(jù)挖掘的優(yōu)勢
第一,能夠很好地展開分布式的并行數(shù)據(jù)挖掘工作,以此來實現(xiàn)高效且實時的挖掘工作,還可以與不同規(guī)模的組織相互適配,為中型以及小型企業(yè)帶來各種新型成本的計算大環(huán)境,在這樣的平臺當中針對一些特殊的數(shù)據(jù)進行計算,能夠降低高性能、大型機的依賴性。
第二,開發(fā)方便,對用戶而言,不需要考慮劃分數(shù)據(jù)以及分配數(shù)據(jù)。
第三,并行化條件背景下,使用原有設備,在一定程度上提升對數(shù)據(jù)進行大規(guī)模處理的能力,同時還提升了容錯性以及自由地增加節(jié)點等性能。
第四,在云計算基礎之上進行數(shù)據(jù)挖掘能夠很好地保證挖掘方式的共享性,大大降低了進行數(shù)據(jù)挖掘的應用門檻,令海量數(shù)據(jù)的挖掘需求獲得了極大滿足。
2.3 云計算基礎上挖掘海量數(shù)據(jù)的模型
在云計算基礎上進行海量數(shù)據(jù)的挖掘服務,其挖掘模型基本上可以分成三層,從下到上依次是:云計算服務層、數(shù)據(jù)挖掘處理層(其中包括預處理以及算法并行化)、用戶層,如下圖(圖1)所示。
第一,云計算服務層:提供比較良好的并行數(shù)據(jù)處理功能以及對海量數(shù)據(jù)進行存儲的功能,不但能夠保證所存儲的數(shù)據(jù)的可用性,同時還可以保證數(shù)據(jù)的安全性,比較常見的是非開源GFS以及開源HDFS。
第二,數(shù)據(jù)挖掘處理層:對數(shù)據(jù)進行適當?shù)念A處理,預處理后數(shù)據(jù)可以顯著地提升挖掘結果的實際質(zhì)量,令挖掘更有效且更加方便。
第三 ,用戶層:接受用戶方的需求,同時將這種需求傳遞給服務層以及處理層,挖掘信息后將結果反饋給用戶。在這一過程當中,用戶可以借助可視化管理來監(jiān)督任務執(zhí)行,同時還可以在短時間內(nèi)很方便地進行任務結果的查看。
3 在云計算基礎上進行數(shù)據(jù)挖掘的模型尚且存在的不足之處
3.1 需求上的問題
在云計算基礎之上進行數(shù)據(jù)挖掘,隨著時代的發(fā)展和進步終究會成為一種非常普遍的服務方式,自然要面對呈現(xiàn)出更加多樣性以及個性的需求。就現(xiàn)階段來說尚且不能滿足這種趨勢。
3.2 數(shù)據(jù)量的問題
就數(shù)據(jù)的數(shù)量而言,服務器需要處理的信息數(shù)量可能要達到TB甚至超越它到達PB級,而這將會給數(shù)據(jù)處理帶來更大的挑戰(zhàn)。
3.3 選擇算法的問題
是否能夠選擇最合適的計算方式以及相對的策略來完成任務在云計算運轉(zhuǎn)的過程中是非常關鍵的,另外,設計算法以及調(diào)節(jié)參數(shù),都可能會對最終結果產(chǎn)生非常顯著的影響。
3.4 不確定性的問題
在進行數(shù)據(jù)挖掘的過程當中很可能會出現(xiàn)很多的不確定性,而數(shù)據(jù)挖掘的最終目的就是把不確定性可能會造成的影響降到最低。通常來說這些不確定性主要有挖掘數(shù)據(jù)任務過程中描述的不確定性、采集數(shù)據(jù)并預處理的時候出現(xiàn)的不確定性、挖掘方式的選擇以及最終結果存在的不確定性等等。
4 如何開展后續(xù)工作
構建平臺:充分地結合多樣化以及個性化的需求,同時適當結合各個領域、行業(yè)之間的特征,打造出專屬的挖掘數(shù)據(jù)的云平臺;加大研發(fā):虛擬化技術帶來了非常理想的技術支持,因此,在開發(fā)云平臺的過程當中,需要適當?shù)靥嵘槍μ摂M化技術進行的研發(fā),同時促進其成果更加廣泛地使用,以便能夠?qū)崿F(xiàn)更高效的自主分配資源;結合實際:進行云服務的相關產(chǎn)品研發(fā)過程當中,需要適當?shù)亟Y合社會需求,同時引導群眾參與到其中來,能夠更好地促進數(shù)據(jù)個性化發(fā)展;算法通用:在可信性上,算法最好選擇有通用性的算法,同時保證隨時檢查以及調(diào)整;信息安全:對于數(shù)據(jù)信息安全的問題,絕對不能像普通的信息安全一樣進行簡單的直接加密,需要結合客戶的實際需求,令其可以在自身的平臺終端當中借助適當?shù)募用芊绞絹磉M行數(shù)據(jù)保護工作。
5 結語
云存儲平臺當中數(shù)據(jù)量不斷增加,傳統(tǒng)數(shù)據(jù)挖掘方式漸漸地已經(jīng)無法與時代相適應,也無法挖掘數(shù)據(jù)當中所包含的內(nèi)在信息了,因此,對于挖掘數(shù)據(jù)庫的工作也提出了更加全面的要求,進行云計算以及處理的系統(tǒng)擁有對海量的信息進行存儲以及變化的能力,可以成功發(fā)掘內(nèi)在資源,其將會成為處理大量數(shù)據(jù)信息的最好的挖掘模式。
參考文獻:
[1]李凱,常征.基于云計算的并行數(shù)據(jù)挖掘系統(tǒng)設計與實現(xiàn)[J].微計算機信息,2011(06).
[2]賀瑤,王文慶,薛飛.基于云計算的海量數(shù)據(jù)挖掘研究[J].計算機技術與發(fā)展,2013(02).
[3]嚴駿.基于云計算的海量數(shù)據(jù)挖掘研究[J].信息與電腦:理論版,2013(04).
[4]丁巖,楊慶平,錢煜明.基于云計算的數(shù)據(jù)挖掘平臺架構及其關鍵技術研究[J].中興通訊技術,2013(01).
[5]王鵬,王健安,郭暢等.基于云計算及數(shù)據(jù)挖掘技術的海量數(shù)據(jù)處理研究[J].長春理工大學學報:自然科學版,2013(06).
作者簡介:王治學(1981-),男,寧夏固原人,碩士,講師,研究方向:計算機網(wǎng)絡及軟件工程。