摘 要:伴隨著互聯(lián)網(wǎng),物聯(lián)網(wǎng),云計(jì)算的不斷發(fā)展,還有智能終端的普及,海量多樣的數(shù)據(jù)呈現(xiàn)爆發(fā)性增長(zhǎng),促使大數(shù)據(jù)時(shí)代的到來(lái)。基于傳統(tǒng)數(shù)據(jù)挖掘與大數(shù)據(jù)挖掘的對(duì)比,論述了大數(shù)據(jù)挖掘的內(nèi)涵,提出了一個(gè)集云計(jì)算與挖掘服務(wù)于一體的數(shù)據(jù)挖掘體系結(jié)構(gòu),分析了大數(shù)據(jù)挖掘的內(nèi)部工作流程,并分析了其優(yōu)勢(shì)和挑戰(zhàn),從而為用戶對(duì)大數(shù)據(jù)挖掘的認(rèn)知和應(yīng)用需求提供參考。
關(guān)鍵詞:云計(jì)算;大數(shù)據(jù);分析
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1004-7344(2018)18-0269-02
1 引 言
作為重要的生產(chǎn)要素,大數(shù)據(jù)已經(jīng)成為蘊(yùn)含巨大潛在價(jià)值的戰(zhàn)略資產(chǎn),促進(jìn)行業(yè)升級(jí)和改造,影響科學(xué)思維和研究方法的改革。然而,大數(shù)據(jù)依托豐富的資源儲(chǔ)備和強(qiáng)大的計(jì)算技術(shù)優(yōu)勢(shì),也同時(shí)迎來(lái)了挑戰(zhàn)。本文通過(guò)比較傳統(tǒng)的數(shù)據(jù)挖掘方法對(duì)大數(shù)據(jù)挖掘進(jìn)行了討論,提出了基于云計(jì)算的大數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu),構(gòu)建了特定的大數(shù)據(jù)挖掘系統(tǒng),并且基于工作流程客觀評(píng)價(jià)了大數(shù)據(jù)挖掘的優(yōu)缺點(diǎn)。這將為推進(jìn)大數(shù)據(jù)的應(yīng)用和開發(fā)提供參考方法。
2 大數(shù)據(jù)挖掘概述
大數(shù)據(jù)挖掘是指從大量,多種類,快速動(dòng)態(tài)循環(huán),低價(jià)值密度的大數(shù)據(jù)中挖掘巨大的潛在信息和知識(shí),并以服務(wù)的形式提供給用戶。與傳統(tǒng)的數(shù)據(jù)挖掘相比,它還旨在挖掘有價(jià)值的信息和知識(shí)。然而,在技術(shù)發(fā)展背景下,大數(shù)據(jù)挖掘所面臨的數(shù)據(jù)環(huán)境以及挖掘的廣度和深度方面存在差異。
2.1 發(fā)展背景
由于技術(shù)的進(jìn)步,數(shù)據(jù)的大量生產(chǎn)以及對(duì)寶貴數(shù)據(jù)的需求,兩者都有所發(fā)展。但是,就技術(shù)進(jìn)步,數(shù)據(jù)量,復(fù)雜性和處理而言,傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)時(shí)代并沒(méi)有實(shí)質(zhì)性的環(huán)境和技術(shù)條件,而是處于數(shù)據(jù)庫(kù)和互聯(lián)網(wǎng)發(fā)展的背景下,實(shí)現(xiàn)了獨(dú)立的,水平向垂直數(shù)據(jù)挖掘的發(fā)展。在大數(shù)據(jù)背景下,大數(shù)據(jù)挖掘受益于云計(jì)算,物聯(lián)網(wǎng)和移動(dòng)智能終端等技術(shù)的出現(xiàn)和發(fā)展。它基于大數(shù)據(jù)的特點(diǎn),規(guī)避現(xiàn)有信息系統(tǒng)面臨的問(wèn)題,采用先進(jìn)技術(shù)進(jìn)行系統(tǒng)集成和改進(jìn)。與傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)相比,已經(jīng)有相當(dāng)成熟的應(yīng)用,算法研究和系統(tǒng)工具開發(fā),其技術(shù)研究和應(yīng)用還處于不斷的發(fā)展中,對(duì)于海量數(shù)據(jù)的挖掘主要是基于云計(jì)算來(lái)實(shí)現(xiàn)相關(guān)技術(shù)的整合。
2.2 處理對(duì)象
由于大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘所面臨的數(shù)據(jù)環(huán)境不同,兩種處理對(duì)象的特點(diǎn)也存在差異。傳統(tǒng)數(shù)據(jù)挖掘的數(shù)據(jù)源主要基于在特定范圍管理信息系統(tǒng)中生成的被動(dòng)數(shù)據(jù),以及Web信息系統(tǒng)中的一些用戶生成的活動(dòng)數(shù)據(jù)。數(shù)據(jù)類型主要是結(jié)構(gòu)化數(shù)據(jù),外加少量半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。除了管理信息系統(tǒng)和Web信息系統(tǒng)之外,用于大數(shù)據(jù)挖掘的數(shù)據(jù)源還包括由感測(cè)信息系統(tǒng)等感測(cè)設(shè)備自動(dòng)生成的模擬數(shù)據(jù)。與傳統(tǒng)數(shù)據(jù)挖掘相比,大數(shù)據(jù)挖掘具有更廣泛的數(shù)據(jù)源,龐大的數(shù)據(jù)量和更復(fù)雜的類型。相應(yīng)地,采集方法不再局限于被動(dòng),而是更全面的采集范圍,高吞吐量以及實(shí)時(shí)和快速的處理。但是,由于數(shù)據(jù)的準(zhǔn)確性較低,數(shù)據(jù)冗余和不確定性很高。
2.3 挖掘程度
大數(shù)據(jù)挖掘和傳統(tǒng)數(shù)據(jù)挖掘之間的數(shù)據(jù)分析的廣度和深度也存在差異。當(dāng)復(fù)雜類型,結(jié)構(gòu)和模式的數(shù)據(jù)交織合并時(shí),大數(shù)據(jù)挖掘可以利用云平臺(tái)將多種計(jì)算模型和挖掘算法進(jìn)行整合,對(duì)復(fù)雜數(shù)據(jù)進(jìn)行實(shí)時(shí)處理和多維分析。處理數(shù)據(jù)的范圍更廣,挖掘分析更加先進(jìn)、全面。然而,傳統(tǒng)的數(shù)據(jù)挖掘主要是利用相應(yīng)的挖掘工具來(lái)分析特定領(lǐng)域中尺寸較小的結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)處理的范圍相對(duì)有限,數(shù)據(jù)類型相對(duì)簡(jiǎn)單。另外,傳統(tǒng)的數(shù)據(jù)挖掘平臺(tái)集成本身并不系統(tǒng),計(jì)算和挖掘算法的可擴(kuò)展性不強(qiáng),導(dǎo)致其對(duì)多源異構(gòu)數(shù)據(jù)采集,實(shí)時(shí)處理和挖掘分析的訪問(wèn)受限。
一般來(lái)說(shuō),大數(shù)據(jù)挖掘是基于大數(shù)據(jù)作為數(shù)據(jù)來(lái)源,依靠云計(jì)算和大數(shù)據(jù)相關(guān)技術(shù)的支持,使用挖掘工具發(fā)現(xiàn)潛在的有價(jià)值的信息和知識(shí)以及云服務(wù)的結(jié)果。與傳統(tǒng)的數(shù)據(jù)挖掘相比,它旨在改變分析對(duì)象?;谠破脚_(tái),進(jìn)一步擴(kuò)展傳統(tǒng)數(shù)據(jù)挖掘,并進(jìn)一步與其他相關(guān)技術(shù)相結(jié)合,實(shí)現(xiàn)大數(shù)據(jù)挖掘的同時(shí)時(shí),大規(guī)模,快速處理和交互式分析信息。
3 基于云計(jì)算的大數(shù)據(jù)挖掘體系結(jié)構(gòu)
傳統(tǒng)的數(shù)據(jù)挖掘系統(tǒng)通常運(yùn)行在獨(dú)立的機(jī)器上或客戶機(jī)/服務(wù)器上。該體系結(jié)構(gòu)通常是客戶機(jī)/服務(wù)器的兩層結(jié)構(gòu)或Web瀏覽器/服務(wù)器的三層結(jié)構(gòu)。其系統(tǒng)結(jié)構(gòu)大致分為數(shù)據(jù)源,數(shù)據(jù)存儲(chǔ),挖掘分析,前端顯示四層,處理流程主要用于將數(shù)據(jù)移動(dòng)到計(jì)算機(jī)中,將預(yù)處理后的數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)集中存儲(chǔ)和遷移分析服務(wù)器上的挖掘并最終以交互方式向用戶展示結(jié)果。但是,在處理大規(guī)模分布和動(dòng)態(tài)異構(gòu)數(shù)據(jù)時(shí),這種存儲(chǔ)和后處理的集中批處理模式無(wú)疑增加了時(shí)間,空間復(fù)雜度和傳輸成本。此外,還存在以下問(wèn)題:①傳統(tǒng)信息系統(tǒng)的擴(kuò)展存在障礙。在異構(gòu)環(huán)境中,群集的計(jì)算能力很差,存儲(chǔ)受限于數(shù)據(jù)的大小和類型,而且縱向擴(kuò)展的成本非常高。②數(shù)據(jù)挖掘效果不能滿足預(yù)期的要求。傳統(tǒng)分析工具和挖掘算法對(duì)于多維和復(fù)雜的大數(shù)據(jù)沒(méi)有可移植性和可伸縮性。由于分析不夠深入,導(dǎo)致低質(zhì)量和低效率的分析結(jié)果。例如,傳統(tǒng)的聚類算法以犧牲原始數(shù)據(jù),低質(zhì)量聚類結(jié)果和高時(shí)間復(fù)雜度為代價(jià)來(lái)處理高維數(shù)據(jù)。③用戶交互體驗(yàn)效果不佳。預(yù)處理階段耗時(shí)繁瑣的手工排序以及用戶需求的被動(dòng)和非智能認(rèn)知過(guò)程與用戶所需的簡(jiǎn)單,快速,智能和實(shí)時(shí)的標(biāo)準(zhǔn)不一致。
3.1 云計(jì)算
面對(duì)大數(shù)據(jù)時(shí)代傳統(tǒng)數(shù)據(jù)挖掘的不足,云計(jì)算作為高度可擴(kuò)展,高度靈活和虛擬化的計(jì)算模型,為大數(shù)據(jù)挖掘的存儲(chǔ)容量和處理速度提供動(dòng)態(tài)支持。核心技術(shù)的云計(jì)算包括分散式存儲(chǔ)和分布式并行計(jì)算。其中,分布式存儲(chǔ)主要是分布式文件存儲(chǔ)和分布式數(shù)據(jù)庫(kù)存儲(chǔ)。由GFS代表的分布式文件系統(tǒng)具有高可擴(kuò)展性,高容錯(cuò)性和高吞吐量。它們大多適用于大規(guī)模,分布式,海量數(shù)據(jù)并發(fā)訪問(wèn)。它并不適合存儲(chǔ)大量的小數(shù)據(jù)文件,但是一些系統(tǒng)可以存儲(chǔ)大量小文件,如Colossus,Haystack和TFS(TaoFileSystem)。分布式數(shù)據(jù)庫(kù)包括事務(wù)數(shù)據(jù)庫(kù)和分析數(shù)據(jù)庫(kù),請(qǐng)參見(jiàn)表2,部分結(jié)合了并行數(shù)據(jù)庫(kù)的高性能和MapReduce的高可伸縮性,以存儲(chǔ)結(jié)構(gòu)化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)來(lái)解決傳統(tǒng)數(shù)據(jù)分析面臨的存儲(chǔ)問(wèn)題。與此同時(shí),以MapReduce為代表的分布式并行計(jì)算具有簡(jiǎn)單易用,擴(kuò)展性好的特點(diǎn)。它適用于批量處理的大規(guī)模的數(shù)據(jù),能夠有效減少計(jì)算復(fù)雜度和提高計(jì)算效率。目前,一些知名企業(yè)正在為自己的業(yè)務(wù)領(lǐng)域推出基于云計(jì)算的相應(yīng)大數(shù)據(jù)挖掘解決方案。例如,Google構(gòu)建的新一代搜索引擎平臺(tái)可以實(shí)現(xiàn)大數(shù)據(jù)的大規(guī)模小文件存儲(chǔ)和實(shí)時(shí)交互分析;微軟將使用Windows、Azure與Hadoop集成,并與應(yīng)用軟件(如商業(yè)智能BI)集成,以提供多平臺(tái)兼容的多功能高性能分析挖掘服務(wù);IBM基于Hadoop和流計(jì)算,智能分析和其他系統(tǒng)進(jìn)行實(shí)時(shí)數(shù)據(jù)管理和智能分析;其他公司正在改進(jìn)開源Hadoop平臺(tái)上的功能,比如Yahoo在Hadoop平臺(tái)上開發(fā)的Pig,F(xiàn)acebook開發(fā)的Hive等。雖然上述大數(shù)據(jù)挖掘體系結(jié)構(gòu)不盡相同,但其云構(gòu)建平臺(tái)和挖掘功能的構(gòu)建策略并無(wú)顯著差異。然而,面對(duì)諸如數(shù)據(jù)共享和跨多個(gè)領(lǐng)域的采礦平臺(tái)的適用性等問(wèn)題,各自的解決方案需要相互學(xué)習(xí)并進(jìn)一步相互整合。
3.2 大數(shù)據(jù)挖掘架構(gòu)
基于上述研究,筆者提出了一種集成多種計(jì)算和存儲(chǔ)模式的大數(shù)據(jù)挖掘體系結(jié)構(gòu),具有強(qiáng)大的分析挖掘功能。該框架從內(nèi)到外分為支撐平臺(tái)層,功能層和服務(wù)層,如圖1所示。
(1)支持平臺(tái)層。作為大數(shù)據(jù)挖掘的資源和動(dòng)力支撐,該平臺(tái)通過(guò)將混合大數(shù)據(jù)與基于云計(jì)算的多種支持處理技術(shù)相結(jié)合,創(chuàng)建了一個(gè)擁有強(qiáng)大而豐富資源的云環(huán)境。這種云環(huán)境不僅可以向外界提供數(shù)據(jù),硬件和軟件等資源,而且可以計(jì)算出向數(shù)據(jù)轉(zhuǎn)移的方式,為多處理器的預(yù)處理,分析和挖掘過(guò)程注入強(qiáng)大的動(dòng)力,處理源復(fù)雜數(shù)據(jù)。
(2)功能層。該層可以根據(jù)用戶需求和偏好自動(dòng)執(zhí)行智能分析和挖掘。其中,分析,挖掘和其他工具依賴于云平臺(tái)高效的存儲(chǔ)和計(jì)算能力以及高擴(kuò)展性。
(3)服務(wù)層。大數(shù)據(jù)挖掘會(huì)自動(dòng)通過(guò)客戶端與服務(wù)提供商和用戶進(jìn)行交互。其挖掘結(jié)果通過(guò)諸如可視化和數(shù)據(jù)源等技術(shù)以服務(wù)的形式呈現(xiàn)給用戶。
總體而言,大數(shù)據(jù)挖掘提供了云服務(wù)模型。也就是說(shuō),功能層,服務(wù)層和平臺(tái)層是相互整合和相互依賴的。三者形成了以強(qiáng)大的計(jì)算和存儲(chǔ)能力為核心的各種分析,挖掘和顯示。通過(guò)功能整合,實(shí)時(shí)分析和挖掘云計(jì)算系統(tǒng)中的大數(shù)據(jù),從而產(chǎn)生三種形式的基礎(chǔ)架構(gòu)即服務(wù)(IaaS),平臺(tái)即服務(wù)(PaaS)和軟件作為服務(wù)(SaaS)可供用戶使用。
4 結(jié) 語(yǔ)
大數(shù)據(jù)的出現(xiàn)帶來(lái)了豐富而多樣的潛在寶貴資源,以及傳統(tǒng)數(shù)據(jù)管理和科學(xué)思維的變化。面對(duì)龐大,復(fù)雜和不確定的動(dòng)態(tài)數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理方法,無(wú)論是計(jì)算還是存儲(chǔ),都面臨著嚴(yán)峻的挑戰(zhàn)。它們的可擴(kuò)展性和靈活性不能滿足大數(shù)據(jù)實(shí)時(shí)處理的要求。云計(jì)算為大數(shù)據(jù)處理提供了強(qiáng)大的計(jì)算和存儲(chǔ)能力,同時(shí),大數(shù)據(jù)挖掘?yàn)榇髷?shù)據(jù)和云計(jì)算的深度整合提供了機(jī)會(huì)。
參考文獻(xiàn)
[1]郭思亮,宋廷山,刁艷華.基于云計(jì)算的大數(shù)據(jù)分析相關(guān)問(wèn)題探討[J].齊魯師范學(xué)院學(xué)報(bào),2015(1):134~139.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2015,38(7):103~108.
收稿日期:2018-5-21