石 杰(1.山東青年政治學(xué)院 實(shí)驗(yàn)設(shè)備管理處,山東 濟(jì)南 250103;2.山東省高校信息安全與智能控制重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250103)
云計(jì)算環(huán)境下的數(shù)據(jù)挖掘應(yīng)用*
石杰1,2
(1.山東青年政治學(xué)院實(shí)驗(yàn)設(shè)備管理處,山東 濟(jì)南 250103;2.山東省高校信息安全與智能控制重點(diǎn)實(shí)驗(yàn)室,山東濟(jì)南 250103)
云計(jì)算是一個(gè)新的商業(yè)模型,它可以提供無限的廉價(jià)存儲(chǔ)和計(jì)算能力。而數(shù)據(jù)挖掘中面臨的主要問題是項(xiàng)目集合的空間需求問題,并且其操作非常巨大。將數(shù)據(jù)挖掘技術(shù)應(yīng)用到云計(jì)算環(huán)境中,可以按需從云服務(wù)運(yùn)營商那里獲取項(xiàng)目集合所需空間,從而解決了數(shù)據(jù)挖掘需要巨大空間的問題。文章論述和分析了將數(shù)據(jù)挖掘應(yīng)用到云計(jì)算環(huán)境的有效性。
數(shù)據(jù)挖掘;云計(jì)算;頻繁模式;云存儲(chǔ)
“云計(jì)算”被描述為是一個(gè)平臺(tái)系統(tǒng)或軟件應(yīng)用程序。首先,平臺(tái)系統(tǒng)意味著云計(jì)算系統(tǒng)可以實(shí)時(shí)地動(dòng)態(tài)部署、配置、再部署、再配置。在云計(jì)算平臺(tái)下,服務(wù)器是一個(gè)物理服務(wù)器或一個(gè)虛擬服務(wù)器。云計(jì)算通常包括很多計(jì)算資源。
云計(jì)算是一個(gè)新的商業(yè)模型[1-2]。它描述了計(jì)算任務(wù)到資源池的過程。資源池由大量計(jì)算機(jī)組成,從而保證各種應(yīng)用可以按需獲得計(jì)算能力、存儲(chǔ)空間和各種軟件服務(wù)。云計(jì)算的新穎性在于它可以提供無限的廉價(jià)存儲(chǔ)和計(jì)算能力,這可以使其存儲(chǔ)和挖掘大量的數(shù)據(jù)。
處理高維度和大規(guī)模數(shù)據(jù)有很多方法,但請求處理通常是瓶頸。認(rèn)識(shí)發(fā)現(xiàn)任務(wù)算法通常被應(yīng)用到多維未來空間廣泛搜索或最近鄰居搜索[3]。商業(yè)智能和數(shù)據(jù)倉庫可以存放T字節(jié)級以上的數(shù)據(jù)。云計(jì)算作為數(shù)據(jù)挖掘的需求正被廣泛使用。Map Reduce是一個(gè)程序框架,并且被用于處理大的數(shù)據(jù)集合。分割、調(diào)度和失敗處理以及通信等細(xì)節(jié)被Map Reduce隱藏[4]。
云計(jì)算是一種計(jì)算服務(wù)而不單單是一個(gè)產(chǎn)品,它由計(jì)算資源、軟件和各種信息組成。通過網(wǎng)絡(luò)在任何地點(diǎn),可以使用計(jì)算機(jī)或其他設(shè)備等終端訪問。云是一個(gè)并行和分布式系統(tǒng),由相互連接的虛擬計(jì)算機(jī)構(gòu)成,可以被動(dòng)態(tài)部署,并作為一個(gè)或多個(gè)統(tǒng)一的計(jì)算資源呈現(xiàn)出來。云計(jì)算基于服務(wù)運(yùn)營商和用戶簽訂的服務(wù)等級協(xié)議提供服務(wù)。
數(shù)據(jù)連接緊密度的增長和數(shù)據(jù)量增長導(dǎo)致許多運(yùn)營商和部分?jǐn)?shù)據(jù)中心使用大的、可以動(dòng)態(tài)均衡負(fù)載的基礎(chǔ)設(shè)施作為云計(jì)算平臺(tái)。通過按需地在服務(wù)器上分布和復(fù)制數(shù)據(jù),資源利用率顯著提高。
“云”是一個(gè)彈性的資源執(zhí)行環(huán)境,涉及到多個(gè)利益方,并能提供可以計(jì)量的服務(wù)。這些服務(wù)可以分為多個(gè)粒度級別。換言之,本文中所講的云是基礎(chǔ)平臺(tái),可以在多種資源上面以各種形式執(zhí)行。從而提供資源和服務(wù)的管理性、彈性和系統(tǒng)平臺(tái)獨(dú)立性等能力。
目前有幾種主要的數(shù)據(jù)挖掘技術(shù)已經(jīng)開發(fā)并應(yīng)用到數(shù)據(jù)挖掘項(xiàng)目中。包括關(guān)聯(lián)規(guī)則、分類、聚類、預(yù)測和序列模式。下面將簡要地介紹這些數(shù)據(jù)挖掘技術(shù)的例子。
(1)關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是一種最好的已知的數(shù)據(jù)挖掘技術(shù)。對關(guān)聯(lián)規(guī)則挖掘的研究可分為兩種類型,一種是Apriori算法研究,一種是頻繁模式增長算法研究[5](FP-growth增長等)。在關(guān)聯(lián)規(guī)則中,一種模式的發(fā)現(xiàn)是基于在同一個(gè)交易數(shù)據(jù)庫中特定項(xiàng)目與其他項(xiàng)目的關(guān)系。例如,該技術(shù)用于市場購物籃分析中確定什么樣的產(chǎn)品客戶經(jīng)常一起購買?;谠摂?shù)據(jù)業(yè)務(wù)會(huì)有相應(yīng)的營銷活動(dòng),從而銷售更多的產(chǎn)品,創(chuàng)造更大的利潤。
(2)分類
分類是一種基于機(jī)器學(xué)習(xí)的經(jīng)典的數(shù)據(jù)挖掘技術(shù)。分類方法是利用數(shù)學(xué)方法實(shí)現(xiàn),如決策樹,線性規(guī)劃,神經(jīng)網(wǎng)絡(luò)和統(tǒng)計(jì)。在分類過程中,軟件可以學(xué)習(xí)如何將數(shù)據(jù)項(xiàng)分到不同的組中。例如,可以應(yīng)用于“給那些離開公司的員工過去的記錄應(yīng)用分類,預(yù)測當(dāng)前的雇員很可能在將來離開”,在這種情況下,把員工的記錄分為兩組,“離開”、“留下”,然后,可以利用數(shù)據(jù)挖掘軟件將雇員劃分到每個(gè)組。
(3)聚類
聚類分析是數(shù)據(jù)挖掘技術(shù)中很有意義或有用的一種自動(dòng)聚類技術(shù)。不同于分類技術(shù),聚類技術(shù)也定義了類和類中的對象,而在分類中,對象被分配到預(yù)定義的類中。以圖書館為例,在圖書館里圖書的種類有很多,如何使讀者能夠在如此廣泛的主題中找到相關(guān)主題的書目是一個(gè)很麻煩的問題。利用聚類技術(shù),使相似類型的圖書歸在一起或放在同一個(gè)書架上,通過標(biāo)簽標(biāo)識(shí)有意義的名稱。這樣讀者想獲取書中的主題時(shí),只需去那個(gè)書架就可找到,而不必在整個(gè)圖書館中查找。
(4)預(yù)測
正如它的名字暗示的,預(yù)測是一種數(shù)據(jù)挖掘技術(shù),用于發(fā)現(xiàn)自變量之間及自變量和因變量之間的關(guān)系。例如,預(yù)測分析技術(shù),如果考慮銷售額是一個(gè)自變量,利潤可能是一個(gè)因變量,那就可以預(yù)測將來的銷售利潤,根據(jù)歷史銷售數(shù)據(jù)和利潤數(shù)據(jù),就可以得出一個(gè)用于預(yù)測盈利的回歸擬合曲線。
(5)序列模式
序列模式分析是一種發(fā)現(xiàn)事件間在順序上的相關(guān)性的數(shù)據(jù)挖掘技術(shù)。發(fā)現(xiàn)的模式是用于識(shí)別數(shù)據(jù)之間關(guān)系的進(jìn)一步分析。
2010年,Kawuu W.Lin等人[6]提出了一套多任務(wù)的頻繁模式挖掘的策略。通過各種模擬條件下的實(shí)驗(yàn),算法在執(zhí)行時(shí)間上表現(xiàn)出較好的性能。
2011年,李玲娟等人[7]提出了一種在云計(jì)算環(huán)境中的關(guān)聯(lián)規(guī)則挖掘算法。該算法利用 Hadoop框架平臺(tái)及MapReduce編程模型,以實(shí)現(xiàn)云計(jì)算環(huán)境下的并行挖掘?yàn)槟繕?biāo),給出了改進(jìn) Apriori算法在 Hadoop框架平臺(tái)中MapReduce編程模型上的執(zhí)行過程。算法在頻繁項(xiàng)集挖掘中表現(xiàn)出較好的性能和實(shí)用性。
2011年,T.R.Gopalakrishnan Nair等人[8]提出了 k-均值算法,算法通過迭代過程把數(shù)據(jù)集分為不同類別,使評價(jià)聚類性能的準(zhǔn)則函數(shù)達(dá)到最優(yōu),且每個(gè)聚類內(nèi)緊湊,類間獨(dú)立。
云計(jì)算作為大幅降低成本技術(shù),在受到追捧的同時(shí)也面臨著諸多挑戰(zhàn)性問題。
(1)安全
在使用云計(jì)算服務(wù)時(shí),用戶往往不清楚自己數(shù)據(jù)存放的位置,這樣就會(huì)導(dǎo)致用戶對數(shù)據(jù)安全的擔(dān)心,云計(jì)算架構(gòu)于互聯(lián)網(wǎng)之上,傳統(tǒng)安全問題依然存在,如病毒、木馬的入侵、隱私信息的泄露等,新的安全問題也將浮出水面。另外,身份認(rèn)證、授權(quán)與訪問控制、責(zé)任認(rèn)定、安全與隱私等技術(shù)問題也都還處于探索階段。
(2)Ad-hoc網(wǎng)絡(luò)模式
Ad-hoc網(wǎng)絡(luò)是一個(gè)沒有有線基礎(chǔ)設(shè)施支持的移動(dòng)網(wǎng)絡(luò),是一種無線多跳網(wǎng)絡(luò)。在Ad-Hoc網(wǎng)絡(luò)中,所有的節(jié)點(diǎn)都是由移動(dòng)主機(jī)構(gòu)成的。與傳統(tǒng)的無線網(wǎng)絡(luò)相比,它不依賴于任何固定的基礎(chǔ)設(shè)施和管理中心,而是由一組自主的移動(dòng)節(jié)點(diǎn)臨時(shí)組成,通過移動(dòng)節(jié)點(diǎn)間的相互協(xié)作和自我組織,保持網(wǎng)絡(luò)連接,實(shí)現(xiàn)數(shù)據(jù)的傳遞。其特點(diǎn)是:動(dòng)態(tài)變化的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),多條通信,較低的安全性。
(3)管理性
易管理性在云計(jì)算中非常重要,與傳統(tǒng)的系統(tǒng)相比,受有限的人工干涉、工作負(fù)載變化幅度大和多種多樣的共享設(shè)備這三個(gè)因素的影響,云計(jì)算中管理更加復(fù)雜。大多數(shù)情況下,沒有協(xié)助基于云的應(yīng)用開發(fā)的數(shù)據(jù)庫管理員和系統(tǒng)管理員。甚至是單一用戶的負(fù)載隨時(shí)間都會(huì)發(fā)生大幅度的變化。
(4)龐大的規(guī)模
現(xiàn)有的SQL數(shù)據(jù)庫不能簡單地處理放置在云中的海量數(shù)據(jù)。在存儲(chǔ)方面,是用不同的事務(wù)實(shí)現(xiàn)技術(shù),還是用不同的存儲(chǔ)技術(shù),或者二者都用來解決一些限制性問題還不確定。在這個(gè)問題上,目前在數(shù)據(jù)庫領(lǐng)域內(nèi)有很多提議?,F(xiàn)有的云計(jì)算已經(jīng)開始探索一些簡單的實(shí)用性方法,但是還需要做更多的工作來融合現(xiàn)有的云計(jì)算機(jī)制中的好思想。
(5)新的應(yīng)用場景
預(yù)測一些需要預(yù)載大量數(shù)據(jù)集(像股票價(jià)格、天氣歷史數(shù)據(jù)以及網(wǎng)上檢索等)的服務(wù)。從私有和公共環(huán)境中獲取有用信息引起人們越來越多的注意。這就需要從結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)的異構(gòu)數(shù)據(jù)中提取出有用信息。
(6)延遲
延遲通常是因特網(wǎng)上的常見問題。云計(jì)算中產(chǎn)生的延遲并不是致命的,可以通過智能化設(shè)計(jì)的高性能基礎(chǔ)設(shè)施以及靈巧的應(yīng)用程序來補(bǔ)救。就像桌面計(jì)算機(jī)最大的瓶頸就是需要更大的硬盤和內(nèi)存,云計(jì)算中延遲的真正原因必須確定和解決。云計(jì)算既需要較高性能的集群服務(wù)器,也需要高性能的通信設(shè)備來支持。
數(shù)據(jù)挖掘技術(shù)的主要問題是項(xiàng)目集合需要空間,并且項(xiàng)目級操作是巨大的。如果將數(shù)據(jù)挖掘應(yīng)用于云計(jì)算環(huán)境,將會(huì)從云運(yùn)營商那里按需租賃空間。這種方法解決了需要大量空間的問題。并且用戶不再需要考慮空間大小,可直接使用數(shù)據(jù)挖掘技術(shù)。
[1]WEISS A.Computing in clouds[J].ACM Networker,2007,11(4):18-25.
[2]BUYYA R,VENUGOPAL S.Market-oriented cloud computing:vision,hype,and reality for delivering IT services as computing utilities[C].Proceedings of the 2008 10th IEEE International Conference on High Performance Computing and Communications,2008:5-13.
[3]BOHM C,BERCHTOLD S,MICHEL U.Multidimensional index structures in relational databases[C].in 1stInternationalConferenceonDataWarehousingandKnowledge Discovery,1999:51-70.
[4]DEAN J,GHEMAWAT S,USENIX.Map Reduce:simplified data processing on large clusters[C].6th Symposium on Operating Systems Design and Implementation,2004:137-149.
[5]Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[C].Proc.of ACM Int.Conf.on Management of data(SIGMOD),2000:1-12.
[6]KAWUU W LIN,LUO Y C.Efficient strategies for manytask frequent pattern mining in cloud computing environments[C].Systems Man and Cybernetics(SMC),IEEE International Conference,2010(10):620-623.
[7]李玲娟,張敏.云計(jì)算環(huán)境下關(guān)聯(lián)規(guī)則挖掘算法研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011(2):43-46.
[8]NAIR T R G,MADHURI K L.Data mining using hierarchical virtual k-means approach integrating data fragments in cloud computing environment[C].Cloud Computing and Intelligence Systems(CCIS),IEEE International Conference,2011(1):230-234.
Application of data mining in cloud computing environment
Shi Jie1,2
(1.Laboratory And Equipment Management Office,Shandong Youth University of Political Science,Ji′nan 250103,China;2.Key Laboratory of Information Security and Intelligent Control in Universities of Shandong Youth,Ji′nan 250103,China)
Cloud computing is a new business model.It can provides unlimited cheap storage and computing power.The main issue with data mining techniques is that the space required for the item set and there operations are very huge.Combine data mining techniques with cloud computing environment,then we can rent the space from the cloud providers on demand.This solution can solve the problem of huge space.This paper discusses and analyzes the effectiveness of the application of data mining to the cloud computing environment.
data mining;cloud computing;frequent pattern;cloud storage
TP311
A
1674-7720(2015)05-0013-03
山東省自然科學(xué)基金資助項(xiàng)目(ZR2013FM010)
(2014-11-11)
石杰(1980-),通信作者,男,碩士研究生,講師,主要研究方向:人工智能、數(shù)據(jù)挖掘等。E-mail:mineingjie@sohu. com。