• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于云計(jì)算技術(shù)的數(shù)據(jù)挖掘平臺建設(shè)策略

      2020-12-07 17:37:48張智駒
      魅力中國 2020年42期
      關(guān)鍵詞:計(jì)算技術(shù)決策樹內(nèi)存

      張智駒

      (重慶航天職業(yè)技術(shù)學(xué)院,重慶 400021)

      引言

      伴隨著數(shù)據(jù)挖掘平臺的容量不斷增加,很多數(shù)據(jù)分析和數(shù)據(jù)計(jì)算都要站在更高的層面上探究。云計(jì)算技術(shù)的運(yùn)用能夠?qū)?shù)據(jù)挖掘平臺提供更多的服務(wù),在一系列的問題解決和調(diào)整層面上,告別了傳統(tǒng)技術(shù)的不足。但是,二者共同融合、共同服務(wù)的時(shí)候,必須加強(qiáng)制度的優(yōu)化和平臺管理的創(chuàng)新,保持?jǐn)?shù)據(jù)挖掘平臺的穩(wěn)定運(yùn)行。

      一、云計(jì)算技術(shù)和大數(shù)據(jù)挖掘介紹

      云計(jì)算技術(shù)是一種以互聯(lián)網(wǎng)為基礎(chǔ)的計(jì)算模式,通過虛擬化的方式處理信息資源,并進(jìn)行計(jì)算云計(jì)算技術(shù)具有強(qiáng)大的儲存功能,能夠有效提高用戶使用的便捷性,云計(jì)算是并行計(jì)算和分布式計(jì)算的發(fā)展結(jié)果。數(shù)據(jù)挖掘是指從大量數(shù)據(jù)中挖掘具有價(jià)值數(shù)據(jù)的過程,通過數(shù)據(jù)挖掘能夠發(fā)現(xiàn)大數(shù)據(jù)中所隱藏的價(jià)值和知識,并對用戶進(jìn)行指導(dǎo)作用,目前數(shù)據(jù)挖掘技術(shù)并用到了多個(gè)領(lǐng)域的決策指導(dǎo)中。數(shù)據(jù)挖掘主要包括預(yù)測任務(wù)和描述任務(wù)兩種預(yù)測任務(wù)是指根據(jù)屬性對目標(biāo)屬性做出預(yù)測描述,任務(wù)則是將數(shù)據(jù)間隱藏的聯(lián)系所描述出來。在大數(shù)據(jù)中應(yīng)用數(shù)據(jù)挖掘能夠獲取更大價(jià)值的信息數(shù)據(jù),從而為各行各業(yè)創(chuàng)造出更大的效益。

      二、基于云計(jì)算的大數(shù)據(jù)挖掘分析

      (一)大數(shù)據(jù)挖掘

      在數(shù)量龐大的數(shù)據(jù)中隱藏著具有很高價(jià)值的數(shù)據(jù)信息,同時(shí)數(shù)據(jù)類型也存在多樣化的特點(diǎn),比如說文本形式,數(shù)據(jù)信息,圖片,視頻形式的數(shù)據(jù)信息。大數(shù)據(jù)挖掘就是指從這些海量的數(shù)據(jù)中挖掘出具有價(jià)值的數(shù)據(jù)信息,然后為用戶提供所需的數(shù)據(jù)由于大數(shù)據(jù)數(shù)量龐大,價(jià)值密度低,導(dǎo)致傳統(tǒng)的數(shù)據(jù)挖掘,無法快速高效率的挖掘數(shù)據(jù)。因此全新的大數(shù)據(jù)挖掘技術(shù)就此出現(xiàn)并發(fā)揮出了積極的作用,大數(shù)據(jù)挖掘具有廣泛性,主動(dòng)性和復(fù)雜性的特點(diǎn),廣泛性是指大數(shù)據(jù)挖掘過程中,挖掘的數(shù)據(jù)源十分廣泛,主動(dòng)性是指大數(shù)據(jù)挖掘使用收集數(shù)據(jù)的方式,主動(dòng)進(jìn)行數(shù)據(jù)收集,復(fù)雜性則是指大數(shù)據(jù)挖掘過程中挖掘的數(shù)據(jù)類型十分復(fù)雜。

      (二)基于云計(jì)算的大數(shù)據(jù)挖掘

      近年來我國互聯(lián)網(wǎng)技術(shù)在不斷的發(fā)展,數(shù)據(jù)傳輸?shù)乃俣茸兊脴O快,因此產(chǎn)生的數(shù)據(jù)量也越來越多,對于用戶來說信息需求較大,這種時(shí)候大數(shù)據(jù)技術(shù)和云計(jì)算技術(shù)得到了快速的發(fā)展,以此來滿足用戶的需求。在大數(shù)據(jù)時(shí)代傳統(tǒng)的數(shù)據(jù)挖掘已經(jīng)無法滿足用戶需求,需要通過基于云計(jì)算的大數(shù)據(jù)挖掘來解決數(shù)據(jù)挖掘存在的問題,不僅能夠彌補(bǔ)傳統(tǒng)數(shù)據(jù)挖掘中的漏洞,還能夠有效地提高數(shù)據(jù)處理的速度和效率,實(shí)現(xiàn)大數(shù)據(jù)挖掘?;谠朴?jì)算的大數(shù)據(jù)挖掘具有眾多的優(yōu)勢,能夠在海量數(shù)據(jù)中挖掘出有價(jià)值的信息,并將數(shù)據(jù)信息高度應(yīng)用,這是傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的創(chuàng)新發(fā)展,能夠?qū)崿F(xiàn)大數(shù)據(jù)時(shí)代的快速傳遞和處理。

      三、于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng)

      (一)系統(tǒng)框架

      本文提出基于云計(jì)算的數(shù)據(jù)挖掘系統(tǒng),以應(yīng)對日益暴增的數(shù)據(jù)。該系統(tǒng)由云計(jì)算平臺和數(shù)據(jù)挖掘算法兩個(gè)部分組成。云計(jì)算平臺采用SPARK 框架,之所以不選擇HADOOP,主要是因?yàn)镾PARK 相比HADOOP 具有更高的效率,適合迭代運(yùn)算,并且用戶只需要定義好算法邏輯,即可,其余的如大數(shù)據(jù)處理的底層交互、節(jié)點(diǎn)通信、數(shù)據(jù)運(yùn)算等都可以由SPARK 框架自由實(shí)現(xiàn)。數(shù)據(jù)挖掘算法方面則有很多種實(shí)現(xiàn)方法,比如分類決策樹算法,該算法的核心是ID3 算法,屬于機(jī)器學(xué)習(xí)算法中的一類,分類決策樹發(fā)揚(yáng)了ID3 算法的長處,實(shí)現(xiàn)了用信息增益率來選擇屬性,可在決策樹構(gòu)造中進(jìn)行剪枝,可以對連續(xù)屬性進(jìn)行離散化處理,可以對不完整數(shù)據(jù)進(jìn)行處理。該算法實(shí)際上并不高效,因?yàn)槠湓跇?gòu)造決策樹的過程中需要對數(shù)據(jù)集進(jìn)行多次順序掃描以及排序,而且僅適合可以駐留在內(nèi)存中的數(shù)據(jù)集,如果數(shù)據(jù)集大,會(huì)導(dǎo)致宕機(jī)。猶如K-means 算法,該算法在1967 年便已經(jīng)出現(xiàn),后續(xù)經(jīng)過版本更替,其算法描寫可以敘述為輸入簇的數(shù)目K,包含N 個(gè)對象的數(shù)據(jù)集D,輸出K 個(gè)簇的集合。

      (二)云計(jì)算平臺

      云計(jì)算平臺通過SPARK 框架來進(jìn)行架構(gòu),在SPARK 框架下,主要是講數(shù)據(jù)以分區(qū)方式存儲,即RDD,在數(shù)據(jù)處理中,SPARK 需要先對待處理數(shù)據(jù)創(chuàng)建一個(gè)RDD,然后對RDD 施加轉(zhuǎn)換和行動(dòng)操作。轉(zhuǎn)換的主要目的是促使RDD 迭代,即利用某些函數(shù)來促使舊的RDD 迭代為新的RDD,然后行動(dòng)操作利用具體的算法來將RDD 中的數(shù)據(jù)進(jìn)行計(jì)算,進(jìn)而返回計(jì)算結(jié)果。RDD 默認(rèn)情況下是存儲在內(nèi)存當(dāng)中,對內(nèi)存的要求非常高,當(dāng)然實(shí)際上可以通過調(diào)整設(shè)置,將RDD 存儲在存儲器當(dāng)中,但運(yùn)算速度會(huì)比較慢,一些經(jīng)常使用的RDD 若存儲在存儲器當(dāng)中,在運(yùn)算時(shí)需要將其調(diào)用至內(nèi)存中,多了一個(gè)過程,導(dǎo)致變慢,所以可以將一些常用的RDD 保存在內(nèi)存中。基于SPARK 的云計(jì)算平臺架構(gòu),用戶采取自定義程序的方式,先定義好應(yīng)用程序,然后提交至SPARK 集群,主節(jié)點(diǎn)上啟動(dòng)進(jìn)程MASTER,子節(jié)點(diǎn)上則啟動(dòng)進(jìn)程WORKER,主節(jié)點(diǎn)進(jìn)程MASTER 會(huì)在子節(jié)點(diǎn)的WORKER 上啟動(dòng)一個(gè)任務(wù)管理程序DRIVER。在DRIVER 中,任務(wù)的復(fù)雜程度由SPARKCONTEXT 進(jìn)行判別并向主節(jié)點(diǎn)申請?zhí)幚砥骱蛢?nèi)存的資源。

      結(jié)語

      隨著科技的發(fā)展和時(shí)代的進(jìn)步,云計(jì)算與數(shù)據(jù)挖掘平臺結(jié)合以后,實(shí)現(xiàn)了平臺的全面創(chuàng)新,整體上的工作安排比較符合預(yù)期目標(biāo),在技術(shù)的創(chuàng)新效果上非常顯著。但是,云計(jì)算的運(yùn)用也是不斷革新,在二者的功能融合和技術(shù)聯(lián)動(dòng)過程中,需要對數(shù)據(jù)挖掘平臺的風(fēng)險(xiǎn)、云計(jì)算的風(fēng)險(xiǎn)開展深度的評估,站在不同的層面上進(jìn)行探究,提高數(shù)據(jù)挖掘平臺的可靠性。

      猜你喜歡
      計(jì)算技術(shù)決策樹內(nèi)存
      《計(jì)算技術(shù)與自動(dòng)化》2022年總目次索引
      基于云計(jì)算技術(shù)的FLAC3D軟件計(jì)算平臺的研發(fā)
      一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
      “春夏秋冬”的內(nèi)存
      決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
      電子制作(2018年16期)2018-09-26 03:27:06
      《物探化探計(jì)算技術(shù)》2016年1~6期總要目
      基于決策樹的出租車乘客出行目的識別
      基于云計(jì)算技術(shù)的虛擬實(shí)訓(xùn)室設(shè)計(jì)與實(shí)現(xiàn)
      基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
      基于內(nèi)存的地理信息訪問技術(shù)
      晋中市| 富宁县| 洪泽县| 驻马店市| 深圳市| 高雄县| 黄冈市| 沙河市| 高淳县| 宜章县| 拉萨市| 彰化市| 顺义区| 泽州县| 响水县| 固阳县| 巴林右旗| 鄂托克前旗| 颍上县| 盘山县| 紫云| 谢通门县| 年辖:市辖区| 临夏县| 康定县| 冕宁县| 衡南县| 汉寿县| 乌鲁木齐县| 彭水| 达拉特旗| 彝良县| 郸城县| 顺平县| 博白县| 桐城市| 昆明市| 邳州市| 和田县| 吉林市| 龙川县|