• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      云計(jì)算在流數(shù)據(jù)挖掘技術(shù)中的應(yīng)用設(shè)計(jì)

      2013-08-07 01:18:24閆巧梅
      關(guān)鍵詞:流式數(shù)據(jù)流數(shù)據(jù)處理

      □閆巧梅,袁 峰

      (1.山西經(jīng)貿(mào)職業(yè)學(xué)院信息工程系,山西 太原 030024;2.晉城市公安局網(wǎng)絡(luò)警察支隊(duì),山西 晉城 048000)

      流數(shù)據(jù)聚類技術(shù),作為一種重要的挖掘手段,已被廣泛應(yīng)用于流數(shù)據(jù)挖掘環(huán)境下的各領(lǐng)域中。而流式數(shù)據(jù)的聚類研究也伴隨著各種問題及需求而不斷發(fā)展。而如何解決傳統(tǒng)聚類算法對(duì)內(nèi)在單元、處理效率這一對(duì)相互矛盾的問題是現(xiàn)今研究的重點(diǎn)內(nèi)容之一。

      云計(jì)算是一種基于互聯(lián)網(wǎng)的、大眾參與的計(jì)算模式,其計(jì)算資源(包括計(jì)算能力、存儲(chǔ)能力、交互能力等)是實(shí)時(shí)動(dòng)態(tài)的、可伸縮的而且被虛擬化的,并以服務(wù)的方式提供。因此,云計(jì)算為海量、復(fù)雜的流式數(shù)據(jù)挖掘提供了技術(shù)支持,并為網(wǎng)絡(luò)環(huán)境下面向大眾的數(shù)據(jù)挖掘服務(wù)帶來了機(jī)遇,同時(shí)也為數(shù)據(jù)挖掘研究提出了新的挑戰(zhàn)性課題。

      本文基于原有的流式數(shù)據(jù)聚類算法模型之上,將云計(jì)算技術(shù)原理應(yīng)用于其聚類過程,通過模型高效實(shí)時(shí)地分析流數(shù)據(jù)的聚類過程,從而降低了海量流式數(shù)據(jù)處理過程中對(duì)內(nèi)存的占用量,增加了數(shù)據(jù)的處理維度,提高了數(shù)據(jù)分析及算法的可移植能力,拓寬了流數(shù)據(jù)聚類技術(shù)的應(yīng)用領(lǐng)域。

      1 云計(jì)算

      作為信息產(chǎn)業(yè)下一代領(lǐng)軍技術(shù),云計(jì)算是一種大規(guī)模資源整合的思想,它的出現(xiàn)給處于信息大爆炸時(shí)代的高效率流數(shù)據(jù)處理及資源的整合提出了新的課題。

      1.1 云計(jì)算(Cloud Computing)

      云計(jì)算是分布式處理(Distributed Computing)、并行處理(Parallel Computing)和網(wǎng)格計(jì)算(Grid Computing)的發(fā)展,或者說是這些計(jì)算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。通過使計(jì)算分布在大量的分布式計(jì)算機(jī)上,而非本地計(jì)算機(jī)或遠(yuǎn)程服務(wù)器中,將大量用網(wǎng)絡(luò)連接的計(jì)算資源統(tǒng)一分配調(diào)度,將數(shù)據(jù)中心的資源構(gòu)成一個(gè)計(jì)算資源池向用戶提供按需服務(wù)。

      云計(jì)算集成了各類計(jì)算資源,以服務(wù)的形式提供資源的使用和繁衍。同時(shí)也是物聯(lián)網(wǎng)、“感知中國(guó)”和“智慧地球”等前沿理念的技術(shù)支撐,代表了信息技術(shù)及其基礎(chǔ)架構(gòu)的發(fā)展方向,因此受到了社會(huì)各界的高度重視。

      1.2 云技術(shù)提供的服務(wù)

      在云計(jì)算中將云計(jì)算中心提供的服務(wù)分為三個(gè)層次。當(dāng)用戶加入云計(jì)算不需要安裝服務(wù)器或任何客戶端軟件,可在任何時(shí)間、任何地點(diǎn)、任何設(shè)備(前提是接入互聯(lián)網(wǎng))上通過瀏覽器隨時(shí)隨意訪問,云計(jì)算的典型服務(wù)模式有三類:“軟件即服務(wù)(Software as a Service,SaaS)”,“平臺(tái)即服務(wù)(Platform asa Service,PaaS)”和“基礎(chǔ)設(shè)施即服務(wù)(Infrastructure as aService,IaaS)”。

      基于云技術(shù)的優(yōu)點(diǎn),將其引入流數(shù)據(jù)挖掘算法模型中,不僅可通過資源的共享及虛擬應(yīng)用節(jié)約內(nèi)存,而且可通過其所提供的服務(wù)方式針對(duì)流式數(shù)據(jù)處理特點(diǎn)及過程提高流數(shù)據(jù)挖掘的實(shí)時(shí)及快速處理數(shù)據(jù)的能力,在此過程中,資源的調(diào)度及分配對(duì)挖掘?qū)<沂峭该鞯模瑥亩?jié)約內(nèi)存資源,提高挖掘質(zhì)量及其效率。

      2 流數(shù)據(jù)挖掘現(xiàn)狀

      2.1 流數(shù)據(jù)挖掘現(xiàn)狀

      基于滑動(dòng)窗口的進(jìn)化數(shù)據(jù)流聚類算法CluWin(見圖1),依據(jù)實(shí)際應(yīng)用需求,對(duì)一個(gè)滑動(dòng)窗口內(nèi)的數(shù)據(jù)流進(jìn)行聚類分析采用納偽或拒真兩種聚類特征指數(shù)直方圖作為流式數(shù)據(jù)的概要數(shù)據(jù)結(jié)構(gòu)。而它所設(shè)計(jì)的在線消除舊記錄機(jī)制,用于保存數(shù)據(jù)流當(dāng)前時(shí)間線內(nèi)所分布數(shù)據(jù)的數(shù)據(jù)特征,包括分布狀況,用戶據(jù)此可分析出較高質(zhì)量的聚類結(jié)果。

      圖1 滑動(dòng)窗口模型下的流數(shù)據(jù)處理

      2.2 存在問題

      因特網(wǎng)是一個(gè)巨大的、分布廣泛的信息服務(wù)中心,其產(chǎn)生的海量數(shù)據(jù)通常是地理上分布、異構(gòu)、動(dòng)態(tài)的,復(fù)雜性也越來越高,用已有的集中式數(shù)據(jù)挖掘方法已不能滿足應(yīng)用的要求。為了解決這些問題,提出了一種基于云計(jì)算的流數(shù)據(jù)挖掘方法。

      2.3 計(jì)算與存儲(chǔ)整合

      在流數(shù)據(jù)挖掘算法中,內(nèi)存單元的大小是有限的,而數(shù)據(jù)的存在是有時(shí)效性的,這就要求在設(shè)計(jì)挖掘算法過程中既要考慮內(nèi)存空間的使用,同時(shí)需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)處理。

      通過對(duì)云技術(shù)的分析,可借助于其所提供的云端服務(wù)技術(shù),將一部分固定的處理過程分布于云端,不僅可減輕數(shù)據(jù)流處理負(fù)荷,同時(shí)可節(jié)約內(nèi)存資源的占用。

      2.4 基于云技術(shù)的流數(shù)據(jù)挖掘架構(gòu)

      針對(duì)當(dāng)前流數(shù)據(jù)聚類技術(shù)的發(fā)展及云技術(shù)的不斷成熟及其廣泛應(yīng)用,本文通過在流數(shù)據(jù)處理模型中引入新型的云計(jì)算平臺(tái),使用其提供的各項(xiàng)服務(wù)模式,從而在滑動(dòng)窗口技術(shù)下設(shè)計(jì)出一種基于云技術(shù)的流式數(shù)據(jù)聚類模型,如圖2 所示。

      圖2 數(shù)據(jù)處理模型

      該模型分四個(gè)模塊:數(shù)據(jù)流預(yù)處理模塊,流數(shù)據(jù)管理平臺(tái),云技術(shù)服務(wù)模塊及查詢模塊。通過使用云技術(shù),可以將數(shù)據(jù)流數(shù)據(jù)模塊DSMS“瘦身”,即將其一部分?jǐn)?shù)據(jù)的查詢及驗(yàn)證通過云計(jì)算平臺(tái)分布于其他模塊,從而提高DSMS 在處理海量實(shí)時(shí)數(shù)據(jù)時(shí)的高效性,同時(shí)也為數(shù)據(jù)流處理模塊節(jié)約了內(nèi)存資源。

      2.4.1 L1 中間資源池模塊

      在有限的內(nèi)存空間上,當(dāng)數(shù)據(jù)中心的海量流式數(shù)據(jù)流過滑動(dòng)窗口進(jìn)行預(yù)處理時(shí),可以借助于中間資源池將操作相似簡(jiǎn)單的過程交付中間資源池,從而將數(shù)據(jù)處理預(yù)處理過程并行處理。

      2.4.2 L2 軟件即服務(wù)模塊

      使用互聯(lián)網(wǎng)向數(shù)據(jù)挖掘?qū)<姨峁┏S密浖哪J剑琇2 為云端模式可提高運(yùn)算速度及服務(wù)模式。在使用過程中,用戶可根據(jù)實(shí)際需求向云端申請(qǐng)注冊(cè),申請(qǐng)成功后即可通過向云計(jì)算中心支付相應(yīng)費(fèi)用,獲取軟件的使用服務(wù)。

      2.4.3 L1/L2 平臺(tái)即服務(wù)模塊

      平臺(tái)層為用戶提供服務(wù)平臺(tái)、中間件平臺(tái)和硬件平臺(tái),用戶通過這些平臺(tái)上進(jìn)行應(yīng)用程序并為其提供服務(wù)。通過該平臺(tái)可以將固有的操作過程分布于云端,挖掘?qū)<铱赏ㄟ^因特網(wǎng)申請(qǐng)并使用該平臺(tái)提供的服務(wù)。

      2.4.4 L2 基礎(chǔ)設(shè)施即服務(wù)模塊

      基于該層,可將挖掘過程中所需要的基本資源如內(nèi)存等設(shè)備,集成為一個(gè)資源池,為用戶提供高效、節(jié)約能源的過程,從而避免了因內(nèi)存資源有限而導(dǎo)致對(duì)數(shù)據(jù)處理能力的影響,提高了數(shù)據(jù)處理效率。

      3 流數(shù)據(jù)挖掘?qū)嵤┻^程

      圖3 流數(shù)據(jù)處理過程

      在該模型下,可采用實(shí)際應(yīng)用需求,根據(jù)數(shù)據(jù)運(yùn)營(yíng)中心對(duì)網(wǎng)絡(luò)資源的需求及其分析,將一些處理簡(jiǎn)單、使用頻度較高、資源占用空間較小以及容易在局域網(wǎng)內(nèi)實(shí)現(xiàn)的中間件部分從云端分布于局域網(wǎng)內(nèi),而將使用頻度一般,但還經(jīng)常使用的軟件資源、硬件資源以及占用空間較大、技術(shù)較復(fù)雜的模塊借助于云技術(shù)實(shí)現(xiàn),從而對(duì)流式數(shù)據(jù)進(jìn)行分布式的實(shí)時(shí)處理,節(jié)省內(nèi)存,提高處理效率。

      在某個(gè)時(shí)間段內(nèi),基于云技術(shù)的流數(shù)據(jù)處理過程,如圖3 所示。

      4 結(jié)束語

      通過理論分析及驗(yàn)證可知,將云計(jì)算技術(shù)應(yīng)用于進(jìn)化數(shù)據(jù)流挖掘雙層聚類算法,從而可達(dá)到對(duì)數(shù)據(jù)中心海量流式數(shù)據(jù)的實(shí)時(shí)處理,節(jié)約內(nèi)存資源,依據(jù)聚類算法所設(shè)定的規(guī)則,預(yù)估用戶拐點(diǎn)數(shù)據(jù)及其可能行為,提高算法的預(yù)處理能力及其數(shù)據(jù)信息分析的準(zhǔn)確性。

      [1]常建龍,曹 鋒,周傲英.基于滑動(dòng)窗口的進(jìn)化數(shù)據(jù)流聚類[J].軟件學(xué)報(bào),2007,18(4).

      [2]Hey Trefethen A E Cyberinfrastructure for e- Science[J].Science,2005,308(5723).

      [3]金澈清,錢衛(wèi)寧,周傲英.流數(shù)據(jù)分析與管理綜述[J].軟件學(xué)報(bào),2004,15(8).

      [4]俞華鋒.基于云計(jì)算的三維虛擬學(xué)習(xí)環(huán)境的設(shè)計(jì)與應(yīng)用[J].計(jì)算機(jī)仿真,2010,27(9).

      [5]王 鵬,董靜宜.一種云計(jì)算架構(gòu)的實(shí)現(xiàn)方法研究[J].計(jì)算機(jī)工程與科學(xué),2009,31(A01).

      [6]陳 康,鄭緯民.云計(jì)算:系統(tǒng)實(shí)例與研究現(xiàn)狀[J].軟件學(xué)報(bào),2009,20(5).

      猜你喜歡
      流式數(shù)據(jù)流數(shù)據(jù)處理
      認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
      ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
      汽車維修數(shù)據(jù)流基礎(chǔ)(下)
      輻流式二沉池的結(jié)構(gòu)優(yōu)化研究
      一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機(jī)制
      微球測(cè)速聚類分析的流式液路穩(wěn)定性評(píng)估
      基于希爾伯特- 黃變換的去噪法在外測(cè)數(shù)據(jù)處理中的應(yīng)用
      基于數(shù)據(jù)流聚類的多目標(biāo)跟蹤算法
      自調(diào)流式噴管型ICD的設(shè)計(jì)與數(shù)值驗(yàn)證
      流式在線直播視頻的采集
      河南科技(2015年8期)2015-03-11 16:23:41
      鹤庆县| 孟津县| 类乌齐县| 拉孜县| 滕州市| 长沙市| 景东| 峨边| 兴城市| 浦县| 巩留县| 兴城市| 襄汾县| 金溪县| 益阳市| 雅江县| 红原县| 连州市| 墨脱县| 随州市| 高密市| 郓城县| 余姚市| 大同市| 安康市| 西平县| 孙吴县| 湖州市| 宜兴市| 金秀| 荆州市| 碌曲县| 上饶市| 宽城| 封开县| 吐鲁番市| 遵化市| 张掖市| 晋城| 石城县| 滨州市|