□閆巧梅,袁 峰
(1.山西經(jīng)貿(mào)職業(yè)學(xué)院信息工程系,山西 太原 030024;2.晉城市公安局網(wǎng)絡(luò)警察支隊(duì),山西 晉城 048000)
流數(shù)據(jù)聚類技術(shù),作為一種重要的挖掘手段,已被廣泛應(yīng)用于流數(shù)據(jù)挖掘環(huán)境下的各領(lǐng)域中。而流式數(shù)據(jù)的聚類研究也伴隨著各種問題及需求而不斷發(fā)展。而如何解決傳統(tǒng)聚類算法對(duì)內(nèi)在單元、處理效率這一對(duì)相互矛盾的問題是現(xiàn)今研究的重點(diǎn)內(nèi)容之一。
云計(jì)算是一種基于互聯(lián)網(wǎng)的、大眾參與的計(jì)算模式,其計(jì)算資源(包括計(jì)算能力、存儲(chǔ)能力、交互能力等)是實(shí)時(shí)動(dòng)態(tài)的、可伸縮的而且被虛擬化的,并以服務(wù)的方式提供。因此,云計(jì)算為海量、復(fù)雜的流式數(shù)據(jù)挖掘提供了技術(shù)支持,并為網(wǎng)絡(luò)環(huán)境下面向大眾的數(shù)據(jù)挖掘服務(wù)帶來了機(jī)遇,同時(shí)也為數(shù)據(jù)挖掘研究提出了新的挑戰(zhàn)性課題。
本文基于原有的流式數(shù)據(jù)聚類算法模型之上,將云計(jì)算技術(shù)原理應(yīng)用于其聚類過程,通過模型高效實(shí)時(shí)地分析流數(shù)據(jù)的聚類過程,從而降低了海量流式數(shù)據(jù)處理過程中對(duì)內(nèi)存的占用量,增加了數(shù)據(jù)的處理維度,提高了數(shù)據(jù)分析及算法的可移植能力,拓寬了流數(shù)據(jù)聚類技術(shù)的應(yīng)用領(lǐng)域。
作為信息產(chǎn)業(yè)下一代領(lǐng)軍技術(shù),云計(jì)算是一種大規(guī)模資源整合的思想,它的出現(xiàn)給處于信息大爆炸時(shí)代的高效率流數(shù)據(jù)處理及資源的整合提出了新的課題。
云計(jì)算是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計(jì)算(Grid Computing)的發(fā)展,或者說是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。通過使計(jì)算分布在大量的分布式計(jì)算機(jī)上,而非本地計(jì)算機(jī)或遠(yuǎn)程服務(wù)器中,將大量用網(wǎng)絡(luò)連接的計(jì)算資源統(tǒng)一分配調(diào)度,將數(shù)據(jù)中心的資源構(gòu)成一個(gè)計(jì)算資源池向用戶提供按需服務(wù)。
云計(jì)算集成了各類計(jì)算資源,以服務(wù)的形式提供資源的使用和繁衍。同時(shí)也是物聯(lián)網(wǎng)、“感知中國(guó)”和“智慧地球”等前沿理念的技術(shù)支撐,代表了信息技術(shù)及其基礎(chǔ)架構(gòu)的發(fā)展方向,因此受到了社會(huì)各界的高度重視。
在云計(jì)算中將云計(jì)算中心提供的服務(wù)分為三個(gè)層次。當(dāng)用戶加入云計(jì)算不需要安裝服務(wù)器或任何客戶端軟件,可在任何時(shí)間、任何地點(diǎn)、任何設(shè)備(前提是接入互聯(lián)網(wǎng))上通過瀏覽器隨時(shí)隨意訪問,云計(jì)算的典型服務(wù)模式有三類:“軟件即服務(wù)(Software as a Service,SaaS)”,“平臺(tái)即服務(wù)(Platform asa Service,PaaS)”和“基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as aService,IaaS)”。
基于云技術(shù)的優(yōu)點(diǎn),將其引入流數(shù)據(jù)挖掘算法模型中,不僅可通過資源的共享及虛擬應(yīng)用節(jié)約內(nèi)存,而且可通過其所提供的服務(wù)方式針對(duì)流式數(shù)據(jù)處理特點(diǎn)及過程提高流數(shù)據(jù)挖掘的實(shí)時(shí)及快速處理數(shù)據(jù)的能力,在此過程中,資源的調(diào)度及分配對(duì)挖掘?qū)<沂峭该鞯模瑥亩?jié)約內(nèi)存資源,提高挖掘質(zhì)量及其效率。
基于滑動(dòng)窗口的進(jìn)化數(shù)據(jù)流聚類算法CluWin(見圖1),依據(jù)實(shí)際應(yīng)用需求,對(duì)一個(gè)滑動(dòng)窗口內(nèi)的數(shù)據(jù)流進(jìn)行聚類分析采用納偽或拒真兩種聚類特征指數(shù)直方圖作為流式數(shù)據(jù)的概要數(shù)據(jù)結(jié)構(gòu)。而它所設(shè)計(jì)的在線消除舊記錄機(jī)制,用于保存數(shù)據(jù)流當(dāng)前時(shí)間線內(nèi)所分布數(shù)據(jù)的數(shù)據(jù)特征,包括分布狀況,用戶據(jù)此可分析出較高質(zhì)量的聚類結(jié)果。
圖1 滑動(dòng)窗口模型下的流數(shù)據(jù)處理
因特網(wǎng)是一個(gè)巨大的、分布廣泛的信息服務(wù)中心,其產(chǎn)生的海量數(shù)據(jù)通常是地理上分布、異構(gòu)、動(dòng)態(tài)的,復(fù)雜性也越來越高,用已有的集中式數(shù)據(jù)挖掘方法已不能滿足應(yīng)用的要求。為了解決這些問題,提出了一種基于云計(jì)算的流數(shù)據(jù)挖掘方法。
在流數(shù)據(jù)挖掘算法中,內(nèi)存單元的大小是有限的,而數(shù)據(jù)的存在是有時(shí)效性的,這就要求在設(shè)計(jì)挖掘算法過程中既要考慮內(nèi)存空間的使用,同時(shí)需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。
通過對(duì)云技術(shù)的分析,可借助于其所提供的云端服務(wù)技術(shù),將一部分固定的處理過程分布于云端,不僅可減輕數(shù)據(jù)流處理負(fù)荷,同時(shí)可節(jié)約內(nèi)存資源的占用。
針對(duì)當(dāng)前流數(shù)據(jù)聚類技術(shù)的發(fā)展及云技術(shù)的不斷成熟及其廣泛應(yīng)用,本文通過在流數(shù)據(jù)處理模型中引入新型的云計(jì)算平臺(tái),使用其提供的各項(xiàng)服務(wù)模式,從而在滑動(dòng)窗口技術(shù)下設(shè)計(jì)出一種基于云技術(shù)的流式數(shù)據(jù)聚類模型,如圖2 所示。
圖2 數(shù)據(jù)處理模型
該模型分四個(gè)模塊:數(shù)據(jù)流預(yù)處理模塊,流數(shù)據(jù)管理平臺(tái),云技術(shù)服務(wù)模塊及查詢模塊。通過使用云技術(shù),可以將數(shù)據(jù)流數(shù)據(jù)模塊DSMS“瘦身”,即將其一部分?jǐn)?shù)據(jù)的查詢及驗(yàn)證通過云計(jì)算平臺(tái)分布于其他模塊,從而提高DSMS 在處理海量實(shí)時(shí)數(shù)據(jù)時(shí)的高效性,同時(shí)也為數(shù)據(jù)流處理模塊節(jié)約了內(nèi)存資源。
2.4.1 L1 中間資源池模塊
在有限的內(nèi)存空間上,當(dāng)數(shù)據(jù)中心的海量流式數(shù)據(jù)流過滑動(dòng)窗口進(jìn)行預(yù)處理時(shí),可以借助于中間資源池將操作相似簡(jiǎn)單的過程交付中間資源池,從而將數(shù)據(jù)處理預(yù)處理過程并行處理。
2.4.2 L2 軟件即服務(wù)模塊
使用互聯(lián)網(wǎng)向數(shù)據(jù)挖掘?qū)<姨峁┏S密浖哪J剑琇2 為云端模式可提高運(yùn)算速度及服務(wù)模式。在使用過程中,用戶可根據(jù)實(shí)際需求向云端申請(qǐng)注冊(cè),申請(qǐng)成功后即可通過向云計(jì)算中心支付相應(yīng)費(fèi)用,獲取軟件的使用服務(wù)。
2.4.3 L1/L2 平臺(tái)即服務(wù)模塊
平臺(tái)層為用戶提供服務(wù)平臺(tái)、中間件平臺(tái)和硬件平臺(tái),用戶通過這些平臺(tái)上進(jìn)行應(yīng)用程序并為其提供服務(wù)。通過該平臺(tái)可以將固有的操作過程分布于云端,挖掘?qū)<铱赏ㄟ^因特網(wǎng)申請(qǐng)并使用該平臺(tái)提供的服務(wù)。
2.4.4 L2 基礎(chǔ)設(shè)施即服務(wù)模塊
基于該層,可將挖掘過程中所需要的基本資源如內(nèi)存等設(shè)備,集成為一個(gè)資源池,為用戶提供高效、節(jié)約能源的過程,從而避免了因內(nèi)存資源有限而導(dǎo)致對(duì)數(shù)據(jù)處理能力的影響,提高了數(shù)據(jù)處理效率。
圖3 流數(shù)據(jù)處理過程
在該模型下,可采用實(shí)際應(yīng)用需求,根據(jù)數(shù)據(jù)運(yùn)營(yíng)中心對(duì)網(wǎng)絡(luò)資源的需求及其分析,將一些處理簡(jiǎn)單、使用頻度較高、資源占用空間較小以及容易在局域網(wǎng)內(nèi)實(shí)現(xiàn)的中間件部分從云端分布于局域網(wǎng)內(nèi),而將使用頻度一般,但還經(jīng)常使用的軟件資源、硬件資源以及占用空間較大、技術(shù)較復(fù)雜的模塊借助于云技術(shù)實(shí)現(xiàn),從而對(duì)流式數(shù)據(jù)進(jìn)行分布式的實(shí)時(shí)處理,節(jié)省內(nèi)存,提高處理效率。
在某個(gè)時(shí)間段內(nèi),基于云技術(shù)的流數(shù)據(jù)處理過程,如圖3 所示。
通過理論分析及驗(yàn)證可知,將云計(jì)算技術(shù)應(yīng)用于進(jìn)化數(shù)據(jù)流挖掘雙層聚類算法,從而可達(dá)到對(duì)數(shù)據(jù)中心海量流式數(shù)據(jù)的實(shí)時(shí)處理,節(jié)約內(nèi)存資源,依據(jù)聚類算法所設(shè)定的規(guī)則,預(yù)估用戶拐點(diǎn)數(shù)據(jù)及其可能行為,提高算法的預(yù)處理能力及其數(shù)據(jù)信息分析的準(zhǔn)確性。
[1]常建龍,曹 鋒,周傲英.基于滑動(dòng)窗口的進(jìn)化數(shù)據(jù)流聚類[J].軟件學(xué)報(bào),2007,18(4).
[2]Hey Trefethen A E Cyberinfrastructure for e- Science[J].Science,2005,308(5723).
[3]金澈清,錢衛(wèi)寧,周傲英.流數(shù)據(jù)分析與管理綜述[J].軟件學(xué)報(bào),2004,15(8).
[4]俞華鋒.基于云計(jì)算的三維虛擬學(xué)習(xí)環(huán)境的設(shè)計(jì)與應(yīng)用[J].計(jì)算機(jī)仿真,2010,27(9).
[5]王 鵬,董靜宜.一種云計(jì)算架構(gòu)的實(shí)現(xiàn)方法研究[J].計(jì)算機(jī)工程與科學(xué),2009,31(A01).
[6]陳 康,鄭緯民.云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5).