(泉州市科學(xué)技術(shù)信息研究所,福建 泉州 362000)
摘 要:隨著物聯(lián)網(wǎng)、移動(dòng)通信、數(shù)據(jù)自動(dòng)采集技術(shù)的快速發(fā)展,人類(lèi)社會(huì)所擁有的數(shù)據(jù)開(kāi)始呈出現(xiàn)爆炸式增長(zhǎng)。數(shù)據(jù)挖掘是獲取信息的重要技術(shù),現(xiàn)已成為業(yè)內(nèi)的一大研究熱點(diǎn)。由于需要挖掘的信息源中的數(shù)據(jù)是以指數(shù)級(jí)增長(zhǎng)的,傳統(tǒng)的集中式串行數(shù)據(jù)挖掘方法已不適用,因此如何提高數(shù)據(jù)挖掘算法處理大數(shù)據(jù)的能力,提高數(shù)據(jù)處理的速度與執(zhí)行效率是擺在人們面前的重要課題。文章提出一種基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái),首先對(duì)相關(guān)概念進(jìn)行闡釋?zhuān)治鰯?shù)據(jù)挖掘云平臺(tái)的關(guān)鍵技術(shù),最后提出基于云計(jì)算環(huán)境的大數(shù)據(jù)挖掘平臺(tái)的構(gòu)建模型。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù);數(shù)據(jù)挖掘
現(xiàn)階段數(shù)據(jù)挖掘主要面臨兩個(gè)問(wèn)題,即異構(gòu)數(shù)據(jù)源的處理與海量數(shù)據(jù)的處理。計(jì)算機(jī)行業(yè)的井噴式發(fā)展使各關(guān)系數(shù)據(jù)庫(kù)以外的其它數(shù)據(jù)形式紛紛出現(xiàn),如何有效的處理不同數(shù)型的數(shù)據(jù)源是數(shù)據(jù)挖掘技術(shù)需要考慮的重要問(wèn)題,且隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)的發(fā)展與普及,數(shù)據(jù)量呈指數(shù)級(jí)增長(zhǎng)進(jìn)入一個(gè)大數(shù)據(jù)時(shí)代,需要進(jìn)一步提高數(shù)據(jù)挖掘算法的效率與性能。而在大數(shù)據(jù)挖掘中融入云計(jì)算技術(shù)可大大提高數(shù)據(jù)挖掘的效率問(wèn)題。
1 相關(guān)概念闡釋
云計(jì)算是一種以互聯(lián)網(wǎng)為基礎(chǔ)的計(jì)算模式,其采用動(dòng)態(tài)的、可擴(kuò)展的、經(jīng)過(guò)虛擬化的方式處理資源及進(jìn)行計(jì)算,其強(qiáng)大的存儲(chǔ)及交互能力大大提高了用戶(hù)的便捷性。從某程度上講,云計(jì)算是并行計(jì)算、分布式計(jì)算技術(shù)的發(fā)展。數(shù)據(jù)挖掘是指從大量靈敏據(jù)中獲取有效的、新穎的、潛在有用的、最終可理解的模式的過(guò)程,通過(guò)數(shù)據(jù)挖掘發(fā)現(xiàn)大數(shù)據(jù)中所隱含的知識(shí),并為用戶(hù)決策提供指導(dǎo)作用,目前數(shù)據(jù)挖掘技術(shù)已被廣泛應(yīng)用于多個(gè)領(lǐng)域的決策分析。數(shù)據(jù)挖掘的任務(wù)通常包括預(yù)測(cè)任務(wù)與描述任務(wù)兩種,其中預(yù)測(cè)任務(wù)是根據(jù)一個(gè)屬性值對(duì)目標(biāo)屬性值做出預(yù)測(cè);描述任務(wù)則是將總結(jié)數(shù)據(jù)間隱藏的聯(lián)系模式描述出來(lái)。大數(shù)據(jù)則是指一種巨量數(shù)據(jù),其主要用于描述、定義信息爆炸時(shí)代所產(chǎn)生的海量數(shù)據(jù),以提高從高頻率、大容易、不同結(jié)構(gòu)及類(lèi)型的數(shù)據(jù)中獲取更有價(jià)值的信息的經(jīng)濟(jì)性與有效性,可以說(shuō)大數(shù)據(jù)是移動(dòng)互聯(lián)網(wǎng)發(fā)展到一定程度的產(chǎn)物。如果針對(duì)大數(shù)所進(jìn)行挖掘無(wú)疑可以獲取更大的價(jià)值,創(chuàng)造更大的效益。大數(shù)據(jù)體現(xiàn)出數(shù)量巨大、種類(lèi)繁多、價(jià)值高、處理速度快的特點(diǎn),從某種程度上講,云計(jì)算與大數(shù)據(jù)是相輔相成的關(guān)系,云計(jì)算是大數(shù)據(jù)的基礎(chǔ),大數(shù)據(jù)是云計(jì)算的重要應(yīng)用。
2 基于云平臺(tái)的大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)
具體而言,云計(jì)算環(huán)境中大數(shù)據(jù)挖掘的關(guān)鍵技術(shù)包括分布式并行技術(shù)與數(shù)據(jù)挖掘算法兩種。
2.1 分布式并行技術(shù)
云計(jì)算的核心是提供分布式文件存儲(chǔ)及并行計(jì)算,其中分布式文件存儲(chǔ)的主要作用是提高數(shù)據(jù)的處理速度,滿(mǎn)足并行計(jì)算的相關(guān)要求。最早的分布式文件系統(tǒng)是谷歌公司開(kāi)發(fā)的GFS系統(tǒng),后續(xù)的HDFS、KFS均是以GFS系統(tǒng)為理論基礎(chǔ)發(fā)展而來(lái),現(xiàn)階段這些系統(tǒng)在商業(yè)領(lǐng)域、學(xué)術(shù)領(lǐng)域的應(yīng)用已經(jīng)十分廣泛。并行計(jì)算方面,目前以谷歌的MapReduce編程模式的應(yīng)用最為廣泛,其對(duì)數(shù)據(jù)分布、任務(wù)執(zhí)行、數(shù)據(jù)容錯(cuò)、帶寬延時(shí)等問(wèn)題進(jìn)行編碼處理后封裝起來(lái),用戶(hù)僅需調(diào)用執(zhí)行即可使用。不過(guò)針對(duì)計(jì)算互相關(guān)系的數(shù)據(jù)方面,這種方法較為不適用,且未形成完善的開(kāi)發(fā)工具體系,故需要進(jìn)一步探索其未來(lái)的發(fā)展。
2.2 數(shù)據(jù)挖掘算法
數(shù)據(jù)挖掘算法集中了統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、建模等多個(gè)學(xué)科領(lǐng)域,是整個(gè)大數(shù)據(jù)挖掘平臺(tái)的核心技術(shù),常用的方法包括統(tǒng)計(jì)分析、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等。其中統(tǒng)計(jì)分析是最為簡(jiǎn)便的方法,其通過(guò)數(shù)據(jù)的最值、均值、方差、相關(guān)等方法對(duì)數(shù)據(jù)的統(tǒng)計(jì)規(guī)律進(jìn)行分析;決策樹(shù)則是對(duì)數(shù)據(jù)行分類(lèi)后,快速、簡(jiǎn)單的描述出來(lái);神經(jīng)網(wǎng)絡(luò)則具有較強(qiáng)的自學(xué)習(xí)、自組織、自適應(yīng)能力,可以對(duì)數(shù)據(jù)進(jìn)行聯(lián)想分類(lèi)及預(yù)測(cè)等等。不同的算法自有優(yōu)勢(shì),適用于不同的領(lǐng)域,需要根據(jù)用戶(hù)的實(shí)際需求進(jìn)行調(diào)用、組合。
3 基于云計(jì)算的大數(shù)據(jù)挖掘模型建設(shè)
基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái)就是利用云計(jì)算本身的存儲(chǔ)能力及分布式并行處理能力的優(yōu)勢(shì),通?;谠朴?jì)算的大數(shù)據(jù)挖掘模型包括三層結(jié)構(gòu)五大模塊,即頂層、中間層及數(shù)據(jù)中心層,其中頂層包括工作流子系統(tǒng)、用戶(hù)接口子系統(tǒng)兩個(gè)模塊,中間層則包括并行數(shù)據(jù)子系統(tǒng)與數(shù)據(jù)預(yù)處理子系統(tǒng)兩個(gè)模塊,此外還包括云計(jì)算數(shù)據(jù)中心。
3.1 頂層
頂層括工作流子系統(tǒng)與用戶(hù)接口子系統(tǒng),主要是面向用戶(hù)。其中工作流子系統(tǒng)的的主要作用是幫助用戶(hù)建立數(shù)據(jù)挖掘的相關(guān)任務(wù),而用戶(hù)接口子系統(tǒng)的主要作用是實(shí)現(xiàn)用戶(hù)交互功能,用戶(hù)可以在輸入模塊設(shè)置參數(shù),選擇適用的數(shù)據(jù)挖掘算法,并通過(guò)MapReduce平臺(tái)進(jìn)行數(shù)據(jù)挖掘,最后再以可視化的理解方式將展示結(jié)果向用戶(hù)呈現(xiàn)出來(lái)。
3.2 中間層
中間層是整個(gè)數(shù)據(jù)挖掘系統(tǒng)的核心問(wèn)分,其包括數(shù)據(jù)預(yù)處理子系統(tǒng)及并行數(shù)據(jù)挖掘子系統(tǒng)兩個(gè)模塊,由于在云環(huán)境中,MapReduce計(jì)算模型主要適用于同類(lèi)型、結(jié)構(gòu)一致的數(shù)據(jù),因此需要數(shù)據(jù)預(yù)處理子系統(tǒng)對(duì)不規(guī)則的大數(shù)據(jù)進(jìn)行預(yù)先處理,其處理結(jié)果即為數(shù)據(jù)挖掘算法的輸入。常用的數(shù)據(jù)預(yù)處理方法包括并行數(shù)據(jù)的清洗、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)抽取、集成與加載等等。數(shù)據(jù)經(jīng)過(guò)預(yù)處理后,臟數(shù)據(jù)、噪聲數(shù)據(jù)、無(wú)用數(shù)據(jù)的比例大幅減少,大大提高了數(shù)據(jù)挖掘的效率。并行數(shù)據(jù)挖掘子系統(tǒng)是整個(gè)數(shù)據(jù)挖掘平臺(tái)的核心模塊,現(xiàn)階段很多經(jīng)典的數(shù)據(jù)挖掘算法不斷出現(xiàn)。不過(guò)由于MapReduce是云計(jì)算的算法模型,故云計(jì)算平臺(tái)上無(wú)法直接運(yùn)用上述算法,必須對(duì)現(xiàn)有算法、并行化策略進(jìn)行整合、改造,才能實(shí)現(xiàn)云計(jì)算平臺(tái)的最優(yōu)化。
3.3 數(shù)據(jù)中心層
數(shù)據(jù)中心層位于整個(gè)系統(tǒng)的最底層,其主要作用是存儲(chǔ)大數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行分布式并行處理。數(shù)據(jù)中心層需要保留多份副本,以保證數(shù)據(jù)的安全性與高可用性。由于云計(jì)算采用的是并行的工作模式,即使在大量用戶(hù)提出請(qǐng)求的時(shí)候也可迅速回應(yīng)。
總之,在云計(jì)算技術(shù)環(huán)境下對(duì)大數(shù)據(jù)進(jìn)行挖掘,大大提高了系統(tǒng)處理數(shù)據(jù)的效率,但是MapReduce平臺(tái)在處理大數(shù)據(jù)時(shí)會(huì)頻繁掃描數(shù)據(jù)庫(kù),顯然會(huì)影響其應(yīng)用效果。因此,未來(lái)的研究方向?qū)⑾蛑绾瓮ㄟ^(guò)減少數(shù)據(jù)庫(kù)掃描次數(shù)提高數(shù)據(jù)挖掘的效率,如何在云計(jì)算平臺(tái)上進(jìn)行優(yōu)化。
參考文獻(xiàn):
[1]王鵬等.云計(jì)算與大數(shù)據(jù)技術(shù)[M].人民郵電出版社,2014.
[2][美]Mehmed Kantardzic著,王曉海,吳志剛譯.數(shù)據(jù)挖掘:概念、模型、方法和算法(第2版)[M].清華大學(xué)出版社,2013.