金鑫
摘? ?要:隨著計算機的迅猛發(fā)展,基于云計算的數(shù)據(jù)挖掘技術應運而生,使得以往數(shù)據(jù)挖掘方式不能夠解決海量數(shù)據(jù)等問題得到了充分且有效的解決。文章主要圍繞基于云計算的數(shù)據(jù)挖掘技術展開了研究,首先闡述了相關概念和基于云計算的數(shù)據(jù)挖掘技術具有的優(yōu)勢,接著提出了基于云計算的數(shù)據(jù)挖掘技術的具體應用,最后介紹了基于云計算的數(shù)據(jù)挖掘技術面臨的問題與挑戰(zhàn)。
關鍵詞:云計算;數(shù)據(jù)挖掘;互聯(lián)網(wǎng)
伴隨著互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的迅猛發(fā)展,社會已步入大數(shù)據(jù)時代。然而,數(shù)據(jù)呈海量態(tài)勢增加,給數(shù)據(jù)挖掘工作帶來了較大的難度與挑戰(zhàn)。云計算的出現(xiàn)是解決上述問題的有效措施,它不僅可以將分散在不同計算機的數(shù)據(jù)整合在統(tǒng)一云端中,而且也為數(shù)據(jù)獲取與挖掘提供了巨大的便利。此外,云計算具有的彈性計算能力和海量存儲能力,也是解決海量數(shù)據(jù)挖掘困難等問題的重要途徑。
1? ? 相關內涵概述
數(shù)據(jù)挖掘技術從本質來講就是圍繞數(shù)據(jù)進行的有效整理,是服務于數(shù)據(jù)應用、共享等的一種技術形式,可以將看似毫無關聯(lián)的數(shù)據(jù)進行深入剖析并對其進行合理化分類,之后將分類好的數(shù)據(jù)予以深入分析,以此形成特定的結論。數(shù)據(jù)挖掘技術概念具有一定的系統(tǒng)性特征,囊括了多個子系統(tǒng)和關聯(lián)技術,其功能主要通過以下幾個方面得以體現(xiàn):首先,具有分類聚類功能。在圍繞相同的交易數(shù)據(jù)庫予以管理時,可以針對項目間關系予以剖析,并依托專業(yè)化軟件和分類聚類技術實現(xiàn)對數(shù)據(jù)的合理化分組,從而為后續(xù)數(shù)據(jù)查詢與應用提供便利。其次,具有分析預測功能。數(shù)據(jù)挖掘技術可以對數(shù)據(jù)間存在的規(guī)律進行總結,同時,數(shù)據(jù)間潛在的自變量或因變量等關系的挖掘也可以借助數(shù)據(jù)挖掘技術來實現(xiàn),是后續(xù)決策制定時的主要參考依據(jù)。最后,數(shù)據(jù)挖掘技術可以實現(xiàn)虛列模式編輯功能,在基于時間順序背景下實現(xiàn)對數(shù)據(jù)間內在聯(lián)系的深入分析,并按照等級不同實現(xiàn)層次的劃分,便于后續(xù)更好地應用與開發(fā)。
云計算是以互聯(lián)網(wǎng)為基礎形成的一種服務模式,資源虛擬化是其最為突出的特點。在使用數(shù)據(jù)的用戶中,其對于數(shù)據(jù)存儲地并不知曉,同時數(shù)據(jù)存儲方式也主要以分布存儲為主[1]。云計算對服務器規(guī)模和服務的安全性和可靠性都有著較高的要求,同時其服務模式也是海量數(shù)據(jù)得以正常使用和存儲的基本保障。
基于云計算的數(shù)據(jù)挖掘系統(tǒng)有著一般數(shù)據(jù)挖掘系統(tǒng)不可比擬的優(yōu)勢,主要原因有以下兩種:(1)數(shù)據(jù)挖掘技術本質而言就是以海量數(shù)據(jù)為面向進行的處理活動,數(shù)據(jù)量與復雜程度成正比,所以,依托云計算可以實現(xiàn)與數(shù)據(jù)挖掘技術的充分融合,從而使數(shù)據(jù)挖掘和數(shù)據(jù)處理的能力都能得到顯著的提升。(2)以云計算技術為支撐的分布式存儲技術的運用,可以改變原本數(shù)據(jù)挖掘對服務器性能要求高等要求。由此可見,基于云計算環(huán)境下的數(shù)據(jù)挖掘技術不僅擁有了更豐富的數(shù)據(jù)源,而且數(shù)據(jù)挖掘分布式處理方式也更加便利,提升了數(shù)據(jù)挖掘技術基于同等條件下處理多種數(shù)據(jù)的便利性。
2? ? 基于云計算的數(shù)據(jù)挖掘技術的優(yōu)勢
基于云計算的數(shù)據(jù)挖掘技術共具有以下幾點優(yōu)點:第一,可以對底層予以隱蔽處理,后續(xù)數(shù)據(jù)開發(fā)工作便利性能夠大大提升。在這一背景下,計算分配或計算調度任務等問題均不納入用戶考慮內容當中,不僅能夠促進工作效率的提高,而且操作起來也更加便利;第二,無論是大規(guī)模數(shù)據(jù)處理能力,還是處理速度都有了顯著的提升;第三,由于對機器性能要求有所降低,相應的數(shù)據(jù)處理成本較之前相比也會低,能夠獲得更多的收益;第四,可以根據(jù)自身需求從海量數(shù)據(jù)信息中快速找出所需信息,既實現(xiàn)了開發(fā)環(huán)境和應用環(huán)境的創(chuàng)造,又簡化了挖掘任務。
3? ? 基于云計算的數(shù)據(jù)挖掘技術的具體應用
3.1? 算法
云計算環(huán)境下,數(shù)據(jù)具有類型豐富和形式多樣等特點,數(shù)據(jù)規(guī)模也呈現(xiàn)了逐漸擴大的趨勢。想要對這些數(shù)據(jù)予以整理和分析,并挖掘其中潛在的關聯(lián),將其整合供用戶使用,算法不僅是至關重要的技術,而且也是關鍵工具。一般來講,處于云計算環(huán)境下的數(shù)據(jù)量大小并不能精準估計,僅依靠小規(guī)模分布式計算機集群完成對大批量數(shù)據(jù)的處理是不現(xiàn)實的,同時在這一過程中,存在的運算部署難度大和成本投放大等客觀現(xiàn)實問題也不容忽視?;诖?,可以將云計算基數(shù)和數(shù)據(jù)挖掘整合起來,能夠起到重要作用。具體來講,可以建構以Hadoop為基礎的開源并行數(shù)據(jù)挖掘平臺,在Map Reduce框架的支撐下完成數(shù)據(jù)處理工作。
基于云計算的數(shù)據(jù)挖掘算法通常還會與其他領域算法進行結合,例如人工神經(jīng)網(wǎng)絡系統(tǒng)與基于云計算的數(shù)據(jù)挖掘技術的整合,可以使多數(shù)數(shù)據(jù)的處理與分析同時進行。深度學習算法是以大批量數(shù)據(jù)為對象予以的處理工作,同時,在樣本集的訓練依托下可以實現(xiàn)算法的自動數(shù)據(jù)處理與挖掘。遺傳算法也是數(shù)據(jù)挖掘技術中應用相對廣泛的一種算法,主要是以可視化技術為手段,在動畫和影像技術的支撐下促進內容形象化、可視化展現(xiàn),從而給用戶帶來更好的體驗,不僅使信息技術展示模式逐漸豐富起來,而且對其推廣與應用也具有積極意義。
3.2? 用戶數(shù)據(jù)處理
就需要處理的數(shù)據(jù)源來講,用戶要立足于自身實際需求對數(shù)據(jù)來源進行合理化安排。部分還需要購買新的需求數(shù)據(jù),在用戶獲取到所需數(shù)據(jù)后,就可以以云計算DaaS服務模式為輔助和手段開展對數(shù)據(jù)的管理。用戶在數(shù)據(jù)挖掘系統(tǒng)應用背景下,可以保證自身所需數(shù)據(jù)能夠快速且準確地被找出,為后續(xù)的數(shù)據(jù)處理奠定了良好的基礎。同時,用戶也可以將個人數(shù)據(jù)置身于系統(tǒng)中予以共享,從而為其他用戶的處理提供便利。在這一過程中不同用戶數(shù)據(jù)處理結果也是相互獨立的。此外,也可以借助數(shù)據(jù)挖掘系統(tǒng)中分類聚類功能,針對用戶數(shù)據(jù)予以科學化劃分,也是用戶數(shù)據(jù)實現(xiàn)動態(tài)管理的重要前提。在針對數(shù)據(jù)予以處理的過程中要堅持以下原則:只在算法的支撐下進行數(shù)據(jù)處理,確保原數(shù)據(jù)相關屬性的固定不變。因此,數(shù)據(jù)是可以多次利用的。
3.3? Map? Reduce模型
Map Reduce是基于云計算的數(shù)據(jù)挖掘過程中最常應用的并行計算模型,是大數(shù)據(jù)處理非常流行的并行模型,常常被應用到商業(yè)與科學領域,如生物信息學、索引、網(wǎng)絡等等。Map Reduce程序用來計算大規(guī)模海量數(shù)據(jù),簡單來講就是以大數(shù)據(jù)為基礎,處于Hadoop下的并行核算框架[2]。此框架一方面其容錯特性較強,另一方面也是確保數(shù)據(jù)順利傳遞的重要保障,推動了大批量數(shù)據(jù)高效運算的實現(xiàn)。Map Reduce執(zhí)行有3個階段,分別是輸入階段、Map階段和 Reduce階段,輸入階段是進行錄入及拷貝的過程,是執(zhí)行的最初階段;Map階段是分配Map任務及解析key/value對的過程;Reduce是最后一個階段,合并key/value對,輸出R文件。通常來說,Map Reduce并行計算可以細分為Map和Reduce兩種任務,這些任務由Map器和Reduce器來執(zhí)行。無論是上述兩種任務哪個執(zhí)行過程中,數(shù)據(jù)挖掘系統(tǒng)都會將現(xiàn)有數(shù)據(jù)進行自主劃分,使其以多個獨立小模塊的形式存在。之后,被劃分的小模塊會在Datanode各個節(jié)點中予以分布,從而保證了后續(xù)統(tǒng)一核算處理的順利進行。上述方式可以以數(shù)據(jù)為面向完成分布式核算處理,既能夠有效提升數(shù)據(jù)處理速度,又可以使服務器集中處理數(shù)據(jù)負載得到顯著地降低,其效率也得到了相應的提升。在圍繞海量數(shù)據(jù)予以處理的過程中,可以在Map Reduce任務分配功能框架支撐下完成Datanode各節(jié)點的設定工作,并將處理階段和核算節(jié)點予以統(tǒng)一化的分布式管理,這也是Hadoop數(shù)據(jù)處理過程中遇到的各種問題得到有效解決與處理的重要前提。
4? ? 基于云計算的數(shù)據(jù)挖掘技術面臨的問題與挑戰(zhàn)
據(jù)了解,目前云計算依然處于初級階段,各方面還有待完善與發(fā)展,在這一過程中也必然會面臨著一些問題與挑戰(zhàn),主要囊括在以下幾個方面:第一,無論是軟件還是服務,其可信度都有待提升。云計算要將隱私安全問題給予高度重視,從而使其隱私安全保護能力得到充分的提升,確保用戶使用過程中的安全。第二,不確定性因素較多。例如數(shù)據(jù)挖掘方法和結果、挖掘結果評價和數(shù)據(jù)挖掘任務等都是構成不確定因素中的重要內容。第三,算法的選擇問題。遇到不同問題,就要選擇與之相應且合理的算法和策略,以此完成數(shù)據(jù)處理工作,這也是基于云計算的數(shù)據(jù)挖掘技術需要強化的地方。
數(shù)據(jù)挖掘技術應用過程中,還存在驗證技術局限性強等問題。通常來講,技術應用過程中需要借助特定分析方法和邏輯形式以此發(fā)現(xiàn)知識[3]。如果對已經(jīng)發(fā)現(xiàn)的知識系統(tǒng)不具備相應的能力來對其予以交互證實,會導致已經(jīng)發(fā)現(xiàn)的知識實用性不強。對于部分有待挖掘的數(shù)據(jù)來講,其本身就存在不正確的可能?;诖耍瑪?shù)據(jù)挖掘有效性也會受到?jīng)_擊。想要使數(shù)據(jù)挖掘結構價值得到充分保障,就需要基于用戶對自身數(shù)據(jù)有清晰了解的基礎上來進行,這樣可以推動數(shù)據(jù)挖掘輸出結果質量的提升,而且也能使挖掘到的數(shù)據(jù)具有的價值得到充分發(fā)揮,更好地提供服務。
5? ? 結語
綜上所述,數(shù)據(jù)挖掘技術是處理海量數(shù)據(jù)過程中的一種常用且有效的方式。近年來,數(shù)據(jù)挖掘技術的應用范圍也有了顯著拓寬。云計算在數(shù)據(jù)挖掘過程中有著較為突出的優(yōu)勢,無論是分布式存儲,還是基于云計算的Map Reduce計算模型等,都給數(shù)據(jù)挖掘過程提供了重要的輔助,既有效提升了數(shù)據(jù)挖掘效率,又保障了數(shù)據(jù)處理的質量。
[參考文獻]
[1]李慶年.基于云計算的數(shù)據(jù)挖掘技術應用與發(fā)展[J].無線互聯(lián)科技,2019(10):134-135.
[2]楊繼武.云計算視域下數(shù)據(jù)挖掘技術[J].電子技術與軟件工程,2019(5):151.
[3]商挺.淺談基于云計算的大數(shù)據(jù)挖掘及解決方案[J].中國新通信,2018(23):68.