摘要:在網(wǎng)絡(luò)信息時代,數(shù)據(jù)信息量越來越豐富,深入挖掘大數(shù)據(jù)內(nèi)在價值,充分彰顯數(shù)據(jù)優(yōu)勢有利于促進我國社會發(fā)展,同時,有利于提升科學(xué)技術(shù)水平。本文首先對大數(shù)據(jù)挖掘做了基本介紹,然后分析了云計算基礎(chǔ)下的體系結(jié)構(gòu),最后探究了分布式文件系統(tǒng)的大數(shù)據(jù)挖掘平臺的優(yōu)劣勢和解決方案,希望能夠為相關(guān)用戶提供指導(dǎo)。
關(guān)鍵詞:云計算;大數(shù)據(jù)挖掘;體系架構(gòu)
現(xiàn)如今,數(shù)據(jù)信息借助網(wǎng)絡(luò)平臺大量出現(xiàn),并且增長速度明顯提升,大數(shù)據(jù)發(fā)展過程中面臨機遇與挑戰(zhàn)并存的狀態(tài),要想提取迎合用戶需要的價值信息,應(yīng)首先了解大數(shù)據(jù)挖掘內(nèi)涵,在分析問題、解決問題的基礎(chǔ)上提高大數(shù)據(jù)應(yīng)用價值。由此可見,本文針對這一內(nèi)容展開分析,具有一定的現(xiàn)實意義。
1 大數(shù)據(jù)挖掘基本介紹
(1)背景介紹。
隨著科學(xué)技術(shù)的不斷發(fā)展,所產(chǎn)生的數(shù)據(jù)信息以及被用戶需要的價值數(shù)據(jù)量均有所增加,數(shù)據(jù)挖掘受時代影響顯著,傳統(tǒng)挖掘存在方式單一、層次尚淺等不足,相對來說,大數(shù)據(jù)挖掘更應(yīng)迎合時代發(fā)展需要,大數(shù)據(jù)挖掘在先進信息技術(shù)、互聯(lián)網(wǎng)的影響下應(yīng)運而生?,F(xiàn)如今,大數(shù)據(jù)挖掘仍需借助先進技術(shù)、云計算持續(xù)發(fā)展。
(2)處理對象。
大數(shù)據(jù)挖掘處理對象不同于傳統(tǒng)數(shù)據(jù)挖掘,其中,前者要管理多種信息系統(tǒng)的數(shù)據(jù)信息,后者僅需管理特定范圍以及特定信息系統(tǒng)內(nèi)的數(shù)據(jù)。前者具有信息豐富、數(shù)據(jù)來源廣、信息類型多樣等特點,但對數(shù)據(jù)準(zhǔn)確度要求較低,后者不同于前者,即數(shù)據(jù)源少、采集方式較被動、采集范圍較局限、數(shù)據(jù)準(zhǔn)確度較高。
(3)挖掘程度。
大數(shù)據(jù)挖掘主要借助網(wǎng)絡(luò)優(yōu)勢完成數(shù)據(jù)處理和分析,挖掘范圍較廣泛、分析較深入,相對來說,傳統(tǒng)數(shù)據(jù)挖掘僅對限定范圍內(nèi)的數(shù)據(jù)信息予以分析,因此,數(shù)據(jù)類型較單一、數(shù)據(jù)范圍較局限。此外,后者處理、分析數(shù)據(jù)信息的過程中易受功能限制。從中能夠看出,大數(shù)據(jù)挖掘在云計算等先進信息技術(shù)的輔助下,更能明確分析目標(biāo),同時,還會優(yōu)化數(shù)據(jù)分析效果。
2 體系結(jié)構(gòu)分析
(1)云計算。
在云計算時代背景中,傳統(tǒng)數(shù)據(jù)挖掘受系統(tǒng)結(jié)構(gòu)、處理方式影響,存在數(shù)據(jù)分析長時、高成本以及復(fù)雜空間度等問題,此外,還存在系統(tǒng)拓展不足、挖掘效果低質(zhì)、用戶體驗效果差等問題,這與當(dāng)今用戶要求的智能化、及時性、快捷性不符。大數(shù)據(jù)挖掘在這一時代背景中能夠借助分布式文件系統(tǒng)優(yōu)勢實現(xiàn)數(shù)據(jù)的高效、簡單和快捷化處理。部分企業(yè)以云計算為基礎(chǔ),制定了大數(shù)據(jù)挖掘有效處理方案,例如,雅虎在分布式文件系統(tǒng)基礎(chǔ)上開發(fā)了Pig;微軟整合分布式文件系統(tǒng)與Windows Azure,同時,優(yōu)化集成商務(wù)軟件BI,以此豐富服務(wù)種類,豐富挖掘功能;谷歌創(chuàng)造搜索引擎平臺,以此實現(xiàn)大數(shù)據(jù)的有效性分析、妥善存儲多數(shù)量小文件。雖然大數(shù)據(jù)挖掘處理問題差異性不是十分顯著,但解決方案還需進一步深化,提高解決方案適用性[1]。
(2)大數(shù)據(jù)挖掘架構(gòu)。
該架構(gòu)主要組成部分為三層,第一層(內(nèi)層)為支撐平臺層,第二層(中間層)為功能層,第三層(最外層)為服務(wù)層。其中,內(nèi)層主要為大數(shù)據(jù)挖掘提供有力支持,并且能夠營造云環(huán)境、向外界供應(yīng)豐富的數(shù)據(jù)資源、有效實施預(yù)處理。中間層即針對用戶需求進行自動化分析,再次過程中,能夠?qū)崿F(xiàn)數(shù)據(jù)妥善存儲。最外層能夠向用戶展示大數(shù)據(jù)挖掘結(jié)果,可視化特征顯著。這三種架構(gòu)模式互相影響,挖掘云即在三者共同作用下有效形成。
3 基于分布式文件系統(tǒng)的大數(shù)據(jù)挖掘平臺
(1)數(shù)據(jù)預(yù)處理。
大數(shù)據(jù)挖掘模式在后,數(shù)據(jù)在前,并且確定性模型能夠在數(shù)據(jù)影響下不斷變化,其中,預(yù)處理主要以綜合技術(shù)為基礎(chǔ),具體包括數(shù)據(jù)流處理技術(shù)、遠(yuǎn)程采集技術(shù)、傳統(tǒng)預(yù)處理技術(shù)、多模態(tài)實體識別技術(shù)等,在綜合技術(shù)作用下,預(yù)處理綜合功能能夠有效實現(xiàn)。數(shù)據(jù)預(yù)處理過程中存在輕因果關(guān)系、重數(shù)據(jù)現(xiàn)象,存在輕數(shù)據(jù)完整性,重實時性現(xiàn)象,這也是大數(shù)據(jù)挖掘結(jié)果失準(zhǔn)的主要原因。
(2)數(shù)據(jù)存儲。傳統(tǒng)數(shù)據(jù)挖掘存儲數(shù)據(jù)時,所涉及的系統(tǒng)主要有文件系統(tǒng)、數(shù)據(jù)倉庫以及操作系統(tǒng)等,數(shù)據(jù)存儲較被動,存儲模式較單一。大數(shù)據(jù)挖掘存儲在傳統(tǒng)儲存系統(tǒng)的基礎(chǔ)上,增加了分布式存儲功能,所存儲的數(shù)據(jù)類型主要有三種,第一種即非結(jié)構(gòu)數(shù)據(jù),第二種為存儲結(jié)構(gòu)數(shù)據(jù),第三種為半結(jié)構(gòu)數(shù)據(jù)。存儲方式主要有兩種,第一種即混合存儲,第二種為列存儲。針對不確定數(shù)據(jù)有效存儲時,能夠充分發(fā)揮不確定數(shù)據(jù)管理技術(shù)、管理系統(tǒng)的作用,以此完成不確定數(shù)據(jù)存儲活動。
(3)數(shù)據(jù)分析。傳統(tǒng)數(shù)據(jù)挖掘僅在少維數(shù)據(jù)分析中具備處理靈活性和分析準(zhǔn)確性,對于多維數(shù)據(jù)的分析僅停留在淺層面。大數(shù)據(jù)挖掘針對數(shù)據(jù)計算、分析時,主要借助融合計算模式對其進行處理,對于大量維度、動態(tài)數(shù)據(jù)信息分析時,大數(shù)據(jù)挖掘能夠在融合傳統(tǒng)數(shù)據(jù)挖掘不足的基礎(chǔ)上,針對性提升原有分析能力,同時,將分布式文件系統(tǒng)與傳統(tǒng)挖掘算法有效結(jié)合、有效改進,以此優(yōu)化數(shù)據(jù)分析質(zhì)量。此外,還可以應(yīng)用交互式分析方式對其進行內(nèi)容分析,并提高挖掘語言利用率,充分彰顯拓展性[2]。
(4)數(shù)據(jù)顯示。大數(shù)據(jù)挖掘在數(shù)據(jù)顯示方面明顯優(yōu)越于傳統(tǒng)數(shù)據(jù)挖掘,挖掘結(jié)果的呈現(xiàn)方式主要為圖像式和動畫式,用戶觀看的同時,還能對數(shù)據(jù)有效性分析。傳統(tǒng)數(shù)據(jù)挖掘針對動態(tài)數(shù)據(jù)、多維數(shù)據(jù)顯示時,可視化效果較差,并且因果關(guān)系不能直觀呈現(xiàn)。因此,要想提升可視化分析效果,還應(yīng)對交互挖掘、內(nèi)存原位、系統(tǒng)可視化等技術(shù)深入研究,確保節(jié)點通信、可視化技術(shù)時效等問題被有效解決。
4 結(jié)論
綜上所述,對比分析大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘,后者在云計算時代中的應(yīng)用率較低,并不能充分滿足用戶需要,反之,大數(shù)據(jù)挖掘能夠有效彌補傳統(tǒng)數(shù)據(jù)挖掘的不足,更能適應(yīng)云計算時代需要,及時迎合用戶及時、快捷、高效的信息需要。此外,本論文大數(shù)據(jù)挖掘還應(yīng)進一步分析,制定合理的、高效的問題解決方案。
參考文獻:
[1]王超鵬,梁正科,李強.基于云計算的分布式數(shù)據(jù)挖掘算法研究[J].硅谷,2012,04:104+92.
[2]楊斐,艾曉燕,張峰.大數(shù)據(jù)精準(zhǔn)挖據(jù)處理架構(gòu)及預(yù)測模型研究[J].電子設(shè)計工程,2016,12:2932.
作者簡介:劉鎮(zhèn)(1996),男,安徽淮南人,本科在讀,研究方向:數(shù)據(jù)挖掘。