摘 要:云計(jì)算的快速發(fā)展帶來了基于海量數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展,基于云計(jì)算的數(shù)據(jù)挖掘是采用MapReduce模型對(duì)數(shù)據(jù)實(shí)現(xiàn)并行處理,比傳統(tǒng)數(shù)據(jù)挖掘更高效、準(zhǔn)確和可行,是對(duì)云計(jì)算時(shí)代海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的必然趨勢(shì)。
關(guān)鍵詞:云計(jì)算;海量數(shù)據(jù);數(shù)據(jù)挖掘
隨著云計(jì)算、物聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,海量形式多樣復(fù)雜的數(shù)據(jù)爆炸式的迅速增長(zhǎng),對(duì)這些海量數(shù)據(jù)進(jìn)行挖掘,分析出其潛在隱藏的巨大價(jià)值對(duì)經(jīng)濟(jì)社會(huì)的發(fā)展具有重要的指導(dǎo)作用。云計(jì)算具有的海量數(shù)據(jù)存儲(chǔ)能力和彈性的計(jì)算能力為海量數(shù)據(jù)挖掘提供了一種有效的方式。文章首先介紹數(shù)據(jù)挖掘的定義、起源和方法,然后論述了數(shù)據(jù)挖掘的優(yōu)勢(shì)和存在問題,最后分析了數(shù)據(jù)挖掘?qū)崿F(xiàn)的步驟、功能和關(guān)鍵技術(shù)。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘是數(shù)據(jù)庫(kù)中知識(shí)發(fā)現(xiàn)的過程,是指從數(shù)據(jù)庫(kù)中包含的海量數(shù)據(jù)中提取出隱含的、未知的、有潛在利用價(jià)值的信息的過程,這個(gè)過程主要由數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和結(jié)果表達(dá)與解釋這三個(gè)階段構(gòu)成[1]。數(shù)據(jù)挖掘具有決策支持功能,能夠高效自動(dòng)地對(duì)企事業(yè)的海量數(shù)據(jù)進(jìn)行分析,挖掘出潛在的有利用價(jià)值的信息,從而幫助決策者做出正確合理的決策。
數(shù)據(jù)挖掘因其可對(duì)海量數(shù)據(jù)進(jìn)行挖掘提取出有潛在價(jià)值的信息而被廣泛關(guān)注,其主要經(jīng)歷了電子郵件、信息發(fā)布、電子商務(wù)和全程電子商務(wù)這四個(gè)階段,軟件即服務(wù)模式的出現(xiàn)形成了如今全程電子商務(wù)模式[1]。
對(duì)數(shù)據(jù)進(jìn)行挖掘所采用的方法論主要有5種,分別是數(shù)據(jù)取樣,數(shù)據(jù)特征探索分析和預(yù)處理,問題明確化、數(shù)據(jù)調(diào)整和技術(shù)選擇,模型的研發(fā)和知識(shí)的發(fā)現(xiàn),模型和知識(shí)的綜合解釋與評(píng)價(jià)。只要采用合理有效的數(shù)據(jù)挖掘方法才能高效的實(shí)現(xiàn)數(shù)據(jù)挖掘任務(wù),提取出有價(jià)值的信息。數(shù)據(jù)挖掘可以從不同角度進(jìn)行,具體來說,數(shù)據(jù)挖掘方法有分類、回歸分析、聚類分析、關(guān)聯(lián)規(guī)則、特征分析、變化和偏差分析、Web頁(yè)挖掘等[1,2]。但是,并沒有一種方法可以適用于所有數(shù)據(jù)類型的挖掘,實(shí)際應(yīng)用中需要依據(jù)所挖掘數(shù)據(jù)的類型找到合適的方法對(duì)數(shù)據(jù)進(jìn)行挖掘。數(shù)據(jù)挖掘具有較高的商業(yè)價(jià)值,在通信、醫(yī)療、制造和財(cái)務(wù)金融等行業(yè)應(yīng)用較多。
2 基于云計(jì)算的數(shù)據(jù)挖掘優(yōu)勢(shì)和存在問題
采用基于云計(jì)算方式的海量數(shù)據(jù)挖掘具有其獨(dú)特的優(yōu)勢(shì),主要表現(xiàn)在以下幾方面:云計(jì)算有較好的開發(fā)環(huán)境和應(yīng)用環(huán)境來處理海量數(shù)據(jù),從中挖掘出有價(jià)值的信息;云計(jì)算模式可進(jìn)行分布式的并行數(shù)據(jù)挖掘,實(shí)現(xiàn)實(shí)時(shí)、高效的數(shù)據(jù)挖掘;基于云計(jì)算的數(shù)據(jù)挖掘開發(fā)更方便,利用現(xiàn)有設(shè)備對(duì)海量數(shù)據(jù)的處理能力和速度得到提高,可自由增加結(jié)點(diǎn),容錯(cuò)性也有提高;基于云計(jì)算的數(shù)據(jù)挖掘?qū)?shù)據(jù)挖掘的門檻較低,滿足了海量數(shù)據(jù)挖掘需求,同時(shí)確保了數(shù)據(jù)挖掘的共享性[3,4]。
云計(jì)算技術(shù)的應(yīng)用雖然已經(jīng)很廣泛了,但其技術(shù)并不是很成熟,因此,基于云計(jì)算的數(shù)據(jù)挖掘也存在如下一些問題:數(shù)據(jù)挖掘任務(wù)、采集以及預(yù)處理具有不確定性;采用合適的算法和并行策略來處理目前海量的數(shù)據(jù)挖掘,以提高數(shù)據(jù)挖掘的并行效率;數(shù)據(jù)挖掘的方法與結(jié)果具有不確定性;對(duì)數(shù)據(jù)挖掘的結(jié)果所做出的評(píng)價(jià)具有不確定性;要確保軟件和服務(wù)的正確性、安全性和高質(zhì)量[3]。對(duì)于上述存在的這些問題,已經(jīng)有一些策略可以去解決。
3 數(shù)據(jù)挖掘的步驟、功能和技術(shù)
3.1 數(shù)據(jù)挖掘?qū)崿F(xiàn)的步驟
不同應(yīng)用領(lǐng)域的數(shù)據(jù)挖掘有著不同的步驟,且任何一種數(shù)據(jù)挖掘技術(shù)都有自己特有的特性和步驟,數(shù)據(jù)挖掘的過程也會(huì)因問題和需求的不同而不同。但是數(shù)據(jù)挖掘?qū)崿F(xiàn)的步驟大致可分以下幾步:對(duì)數(shù)據(jù)的來源和數(shù)據(jù)深入理解,獲取相關(guān)的知識(shí)和技術(shù),對(duì)數(shù)據(jù)進(jìn)行整合和檢查,將錯(cuò)誤和不一致的數(shù)據(jù)踢出去,對(duì)模型和假設(shè)進(jìn)行建立,數(shù)據(jù)挖掘工作的實(shí)施,對(duì)數(shù)據(jù)挖掘結(jié)果進(jìn)行測(cè)試和驗(yàn)證,對(duì)獲取的信息進(jìn)行解釋和應(yīng)用[1]。從這個(gè)處理過程可以看出,大部分工作是數(shù)據(jù)的預(yù)處理,只有完成了預(yù)處理階段的工作才能更有效地對(duì)數(shù)據(jù)進(jìn)行挖掘和分析。
3.2 數(shù)據(jù)挖掘功能
數(shù)據(jù)挖掘通過對(duì)獲取的潛在的有價(jià)值信息進(jìn)行分析來預(yù)測(cè)未來的發(fā)展趨勢(shì),幫助決策者做出合理正確的決策。數(shù)據(jù)挖掘的功能可以概括為以下五個(gè)方面[1]:對(duì)未來的發(fā)展趨勢(shì)和行為做出自動(dòng)預(yù)測(cè),通過對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)關(guān)聯(lián)進(jìn)行分析生成的規(guī)則有較高的可性度,通過聚類增強(qiáng)對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí)和有利于描述概念與分析偏差,數(shù)據(jù)挖掘有利于對(duì)對(duì)象的內(nèi)涵和相關(guān)特征進(jìn)行描述,從數(shù)據(jù)庫(kù)中對(duì)存在偏差的數(shù)據(jù)進(jìn)行檢測(cè)。
3.3 數(shù)據(jù)挖掘關(guān)鍵技術(shù)
數(shù)據(jù)挖掘的關(guān)鍵技術(shù)主要有人工神經(jīng)網(wǎng)絡(luò)、決策樹、遺傳算法、K近鄰算法和關(guān)聯(lián)式規(guī)則[1]。人工神經(jīng)網(wǎng)絡(luò)是通過采用類似于大腦神經(jīng)突觸連接結(jié)構(gòu)對(duì)信息進(jìn)行處理的一種數(shù)學(xué)模型,具有自學(xué)習(xí)、聯(lián)想存儲(chǔ)和高速尋找最優(yōu)解的功能。決策樹是預(yù)測(cè)模型,通過決策圖和可能的結(jié)果來對(duì)目標(biāo)進(jìn)行規(guī)劃,是特殊的樹結(jié)構(gòu),包含決策節(jié)點(diǎn)、機(jī)會(huì)節(jié)點(diǎn)和終節(jié)點(diǎn)三種節(jié)點(diǎn),一個(gè)決策樹的產(chǎn)生有分類樹、回歸樹和CART三種方法,決策樹容易理解和實(shí)現(xiàn)、前期準(zhǔn)備工作量小、能同時(shí)處理不同的數(shù)據(jù)類型、是一個(gè)白盒模型、能通過靜態(tài)測(cè)試做出預(yù)測(cè)、得到可行高效的結(jié)果[1]。遺傳算法通過類似于生物進(jìn)化過程的隨機(jī)化搜索方法來尋求最優(yōu)解,需要經(jīng)歷初始化、選擇、交叉、變異、全局最優(yōu)收斂這幾個(gè)過程,具有隨機(jī)性、并行性、容錯(cuò)能力強(qiáng)等優(yōu)點(diǎn)。K近鄰算法一種機(jī)器學(xué)習(xí)算法,只能計(jì)算最近的樣本、且計(jì)算量很大。關(guān)聯(lián)式規(guī)則是從海量的數(shù)據(jù)中挖掘出有利用價(jià)值的數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)性,可以根據(jù)關(guān)聯(lián)規(guī)則處理的數(shù)據(jù)類型、涉及的數(shù)據(jù)的維數(shù)和抽象層次分為不同類型,采用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘的一些相關(guān)算法主要有Apriori算法、基于劃分的算法和FP-樹頻集算法。數(shù)據(jù)挖掘還需要用到哈希函數(shù)、二維存儲(chǔ)器和冪定律等一些相關(guān)知識(shí)。
4 結(jié)束語(yǔ)
文章研究了基于云計(jì)算的數(shù)據(jù)挖掘技術(shù),相比于傳統(tǒng)數(shù)據(jù)挖掘,基于云計(jì)算模式的數(shù)據(jù)挖掘在成本、計(jì)算速度、容錯(cuò)性、和程序的開發(fā)等方面都表現(xiàn)出明顯的優(yōu)勢(shì)。隨著云計(jì)算技術(shù)的發(fā)展,數(shù)據(jù)挖掘研究將會(huì)有新的突破和更有利的技術(shù)支撐,能夠更高效地從海量的數(shù)據(jù)中挖掘出隱藏的具有潛在利用價(jià)值的信息來服務(wù)于各行各業(yè)的決策者,幫助其更快速合理地做出正確的決策。
參考文獻(xiàn)
[1]周品.云時(shí)代的大數(shù)據(jù)[M].北京:電子工業(yè)出版社,2013,10.
[2]李曉輝.基于云計(jì)算的數(shù)據(jù)挖掘應(yīng)用探析[J].長(zhǎng)春大學(xué)學(xué)報(bào),
2012,22(12):1472-1475.
[3]周晏,桑書娟.淺談基于云計(jì)算的數(shù)據(jù)挖掘技術(shù)[J].電腦知識(shí)與技術(shù),2010,6(34):9681-9683.
[4]賀瑤,王文慶,薛飛.基于云計(jì)算的海量數(shù)據(jù)挖掘研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2013,23(2):69-72.
作者簡(jiǎn)介:何婧媛(1987-),女,陜西省延安市人,助教,碩士,研究方向:云計(jì)算、大數(shù)據(jù)。