• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于云計(jì)算的WEB數(shù)據(jù)挖掘關(guān)鍵技術(shù)的研究

      2016-07-22 18:57:59劉紅霞
      電腦知識(shí)與技術(shù) 2016年16期
      關(guān)鍵詞:云計(jì)算數(shù)據(jù)挖掘互聯(lián)網(wǎng)

      劉紅霞

      摘要:Web數(shù)據(jù)挖掘技術(shù)也伴隨著計(jì)算機(jī)技術(shù)的成熟和發(fā)展而在不斷的進(jìn)步和完善,它的運(yùn)用范圍也涉及各個(gè)領(lǐng)域,并起著重要的作用。云計(jì)算是數(shù)據(jù)存儲(chǔ)的革命性突破,使得存儲(chǔ)的能力和存儲(chǔ)的安全性都得到很大的提高。從云計(jì)算著手分析Web的數(shù)據(jù)挖掘技術(shù)以及它所帶來的影響,對(duì)計(jì)算機(jī)和互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展都有重要的意義。該文分析云計(jì)算的特點(diǎn)結(jié)合Web技術(shù),將云計(jì)算和Web數(shù)據(jù)挖掘放在同一緯度上進(jìn)行深度的探究。

      關(guān)鍵詞:云計(jì)算;Web;數(shù)據(jù)挖掘;互聯(lián)網(wǎng)

      中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2016)16-0015-03

      互聯(lián)網(wǎng)是一個(gè)革命性的產(chǎn)業(yè),它打破了人們的生活習(xí)慣和格局,同時(shí)隨著互聯(lián)網(wǎng)用戶的不斷增長(zhǎng),它的數(shù)據(jù)網(wǎng)絡(luò)和數(shù)據(jù)信息也越來越詳細(xì)和豐富。就如何在這樣大數(shù)據(jù)之中提取出來有用的數(shù)據(jù)信息就是Web要做的工作,在大量數(shù)據(jù)挖掘出來后數(shù)據(jù)本身之間的關(guān)聯(lián)性以及如何將這些挖掘的數(shù)據(jù)再次的運(yùn)用到實(shí)際生活中這都是Web數(shù)據(jù)挖掘技術(shù)要突破和解決的問題。當(dāng)前,大規(guī)模的數(shù)據(jù)在一個(gè)計(jì)算機(jī)上幾乎無法操作了,科技發(fā)展和社會(huì)需求下的產(chǎn)物云計(jì)算應(yīng)運(yùn)而生,它處理和存儲(chǔ)數(shù)據(jù)的能力非常強(qiáng)大,并具備對(duì)所存儲(chǔ)的數(shù)據(jù)進(jìn)行分析處理以及計(jì)算的超強(qiáng)能力。

      1 云計(jì)算的應(yīng)用及技術(shù)特征

      1.1 云計(jì)算的應(yīng)用現(xiàn)狀

      Web也是經(jīng)歷了一個(gè)漫長(zhǎng)的成長(zhǎng)和發(fā)展的過程。它在互聯(lián)網(wǎng)技術(shù)和電子商務(wù)高速興起的基礎(chǔ)上,基于人們對(duì)網(wǎng)絡(luò)的應(yīng)用更加廣泛和頻繁,帶動(dòng)了Web2.0的一場(chǎng)興起浪潮。數(shù)據(jù)的需求對(duì)互聯(lián)網(wǎng)企業(yè)來說成為了競(jìng)爭(zhēng)的核心內(nèi)容,尤其是一些需要根據(jù)客戶目的性需求而開設(shè)的網(wǎng)站,例如看網(wǎng)絡(luò)視頻的網(wǎng)站就更加的需要數(shù)據(jù)化來分析和開發(fā)有客戶需求的產(chǎn)品。云計(jì)算的誕生解決了很多技術(shù)上的難題。我國(guó)的互聯(lián)網(wǎng)用戶非常龐大,且還處于增長(zhǎng)的趨勢(shì),這就使得很多的大型企業(yè)和公司都在使用云計(jì)算來進(jìn)行數(shù)據(jù)的分析和研究。

      1.2 云計(jì)算技術(shù)分析

      云計(jì)算主要就是對(duì)數(shù)據(jù)進(jìn)行管理,它所處理的核心也就是數(shù)據(jù),因此它和其他的計(jì)算機(jī)技術(shù)存在差異,具體如下:

      一是,具有廣泛性,云計(jì)算技術(shù)它最重要的就是存儲(chǔ)技術(shù),采取了大量分布存儲(chǔ)的模式可以大大地提高存儲(chǔ)的速度和存儲(chǔ)的能力,同時(shí)也具備較高的性價(jià)比。它能夠很精準(zhǔn)的進(jìn)行存儲(chǔ),非常實(shí)用。

      二是,對(duì)數(shù)據(jù)的管理能力強(qiáng),對(duì)大數(shù)據(jù)的跟蹤監(jiān)控具有時(shí)效性,并能夠隨時(shí)的處理數(shù)據(jù)分析數(shù)據(jù),效率極高,也可以對(duì)數(shù)據(jù)庫的信息和數(shù)據(jù)進(jìn)行有針對(duì)性的篩選和查找,管理技術(shù)非常先進(jìn)。

      三是,應(yīng)用到先進(jìn)的編程技術(shù),技術(shù)因素是云計(jì)算能不能達(dá)到良好用戶體驗(yàn)的重要因素,它是支撐整個(gè)云計(jì)算系統(tǒng)良性高速運(yùn)行的核心,這就需要整個(gè)的編程技術(shù)能夠滿足用戶的需求和良好體驗(yàn)。目前Map-Reduce編程模式用得較多,它開始是以一個(gè)樹枝的結(jié)構(gòu)呈現(xiàn)出來的,分支后還將使用其他的編程模式來執(zhí)行。

      四是,虛擬化技術(shù)的靈活運(yùn)用。云計(jì)算技術(shù)對(duì)虛擬化技術(shù)運(yùn)用很廣泛,虛擬化技術(shù)能夠?qū)⒂?jì)算資源進(jìn)行合理的分配,它可以獨(dú)立各個(gè)不同級(jí)別的系統(tǒng),將各個(gè)系統(tǒng)進(jìn)行獨(dú)立化也將數(shù)據(jù)分成若干獨(dú)立的部分,形成了一個(gè)動(dòng)態(tài)的獨(dú)立的分工體系。它使得整個(gè)的系統(tǒng)具有很大的彈性,能夠很靈活的進(jìn)行動(dòng)態(tài)虛擬資源的使用,節(jié)約成本,由于他的結(jié)構(gòu)的彈性和靈活性使得它能夠降低管理的風(fēng)險(xiǎn)。

      2 Web數(shù)據(jù)挖掘的發(fā)展現(xiàn)狀

      2.1 Web數(shù)據(jù)挖掘的概念

      所謂的Web數(shù)據(jù)挖掘,即是Web、數(shù)據(jù)挖掘、計(jì)算機(jī)語言與信息學(xué)等技術(shù)與方法的融合,數(shù)據(jù)挖掘與Web得到融合之后,便能夠體現(xiàn)出較好的綜合性。對(duì)挖掘?qū)ο笳归_較為全面的分析之后,Web數(shù)據(jù)挖掘還可以被分為結(jié)構(gòu)、內(nèi)容與使用等多方面內(nèi)容。其中,對(duì)于內(nèi)容來說,其是指通過人工化模式組建,在Web環(huán)境下,從對(duì)應(yīng)的文件夾當(dāng)中,完成應(yīng)用者信息的提?。粚?duì)其結(jié)構(gòu)來說,其是指通過人工化模式組建,對(duì)各種類型的結(jié)構(gòu)實(shí)施挖掘,繼而利用不同方式完成信息的提?。粚?duì)于使用挖掘來講,其是把被挖掘的對(duì)象集中在日志文件當(dāng)中,然后以此為突破口,將站點(diǎn)用戶量等數(shù)據(jù)展開挖掘。由此可見,數(shù)據(jù)挖掘也就是利用技術(shù)的手段來對(duì)Web文檔中的數(shù)據(jù)進(jìn)行提取,也就是根據(jù)現(xiàn)有的信息資源來進(jìn)行分析和預(yù)測(cè)它的發(fā)展前景。Web數(shù)據(jù)挖掘技術(shù)并不是單一的某項(xiàng)技術(shù)而是多個(gè)技術(shù)的共同作用。

      2.2 Web數(shù)據(jù)挖掘的分類

      Web數(shù)據(jù)挖掘的分類方式有很多種,從它的興趣類別來分可以分為下面三個(gè)部分,也就是Web數(shù)據(jù)挖掘的內(nèi)容、結(jié)構(gòu)和用法。從內(nèi)容上說,就是Web數(shù)據(jù)挖掘的對(duì)象,也就是我們數(shù)據(jù)信息的載體,包括我們所獲取的一些視頻圖片,音頻文字等等的一些實(shí)質(zhì)性的信息。內(nèi)容的挖掘也可以細(xì)分的,主要就是分為純文本的挖掘和多媒體的挖掘,這樣細(xì)分能夠更好的區(qū)別挖掘的對(duì)象。從Web數(shù)據(jù)挖掘的結(jié)構(gòu)來說,就是獲取這些內(nèi)容的所挖掘的結(jié)構(gòu)對(duì)象,主要就是區(qū)分挖掘內(nèi)容是屬于頁面結(jié)構(gòu)還是組織結(jié)構(gòu),同時(shí)還要對(duì)數(shù)據(jù)所形成的數(shù)據(jù)鏈也進(jìn)行分類,并對(duì)這個(gè)的數(shù)據(jù)挖掘工作的效率和準(zhǔn)確率進(jìn)行提高。從挖掘用法上,也即是對(duì)Web的文檔和網(wǎng)頁中的內(nèi)容和資料,進(jìn)行分析和研究,來通過原始的數(shù)據(jù)對(duì)信息資源的挖掘區(qū)別用戶的類型,將用戶的類別進(jìn)行分類,發(fā)現(xiàn)更多的潛在的客戶。

      2.3 Web數(shù)據(jù)挖掘的流程

      Web挖掘流程會(huì)受到很多因素影響,它因?yàn)楸旧淼耐诰蚍绞脚c對(duì)象和傳統(tǒng)的挖掘模式差別較大,因此流程也存在很大的差異,Web數(shù)據(jù)挖掘的流程有多個(gè)方面:將數(shù)據(jù)挖掘技術(shù)和Web網(wǎng)頁兩者進(jìn)行融合還是很困難的,因?yàn)閃eb數(shù)據(jù)挖掘技術(shù)并不是幾個(gè)技術(shù)的簡(jiǎn)單疊加,它是一個(gè)整體,包含可以對(duì)信息進(jìn)行檢索、選擇需要的信息并對(duì)信息初步的處理、找到模式并進(jìn)行分析這一系列的過程。對(duì)信息的檢索也就是查找就是通過對(duì)文檔中的信息和各種網(wǎng)站的一些新聞、日志等等數(shù)據(jù)信息進(jìn)行分析。第二階段就是對(duì)第一階段所獲取的信息進(jìn)行甄別和篩選,剔除一些沒有價(jià)值的信息和數(shù)據(jù),并將有用的數(shù)據(jù)信息進(jìn)行簡(jiǎn)單的處理。最后一階段就是對(duì)所預(yù)處理的數(shù)據(jù)和信息進(jìn)行進(jìn)一步的篩選和驗(yàn)證,提取出有價(jià)值的信息。這個(gè)過程既需要機(jī)器的自動(dòng)化來完成也需要通過人工的甄別來實(shí)現(xiàn)。

      3 基于云計(jì)算的Web數(shù)據(jù)挖掘

      3.1 基于云計(jì)算的Web數(shù)據(jù)挖掘體系架構(gòu)

      Web數(shù)據(jù)的挖掘它是分為幾個(gè)點(diǎn)的,數(shù)據(jù)的挖掘體系也就是這幾個(gè)節(jié)點(diǎn)之間存在的一系統(tǒng)框架結(jié)構(gòu)的相關(guān)聯(lián),云計(jì)算使得Web數(shù)據(jù)挖掘的構(gòu)架的節(jié)點(diǎn)相互作用,相互影響,形成了一個(gè)較為成熟的架構(gòu)體系。結(jié)構(gòu)圖如下。第一個(gè)節(jié)點(diǎn)是主控節(jié)點(diǎn),它主要是連接了客戶端到各個(gè)節(jié)點(diǎn)的紐帶也是一個(gè)中樞紐帶。第二個(gè)節(jié)點(diǎn)是算法節(jié)點(diǎn),它的任務(wù)是保證在數(shù)據(jù)運(yùn)行中有對(duì)應(yīng)的算法支持,相當(dāng)于一個(gè)算法的倉庫。第三個(gè)節(jié)點(diǎn)是數(shù)據(jù)節(jié)點(diǎn),是一個(gè)龐大數(shù)據(jù)庫來存儲(chǔ)數(shù)據(jù)信息。第四個(gè)節(jié)點(diǎn)是服務(wù)節(jié)點(diǎn),它主要的作用就是執(zhí)行主控的任務(wù)和反饋計(jì)算后的結(jié)果。

      分析圖1我們可以發(fā)現(xiàn),根據(jù)對(duì)Web數(shù)據(jù)挖掘體系的功能進(jìn)行分析研究可以將該架構(gòu)分為若干個(gè)層面。

      一是,服務(wù)層。服務(wù)層是一個(gè)將用戶的結(jié)果通過Web數(shù)據(jù)挖掘體系構(gòu)架實(shí)現(xiàn)數(shù)據(jù)的挖掘,并將結(jié)果呈現(xiàn)給用戶的一個(gè)過程。

      二是,控制層??刂茖邮怯芍骺毓?jié)點(diǎn)來實(shí)施的通過對(duì)用戶所反饋的結(jié)果的分析,找出并提供最合適的算法,做到數(shù)據(jù)和算法的契合性。

      三是,算法和數(shù)據(jù)存儲(chǔ)層。這個(gè)層面的主要作用是對(duì)提供的數(shù)據(jù)和反饋數(shù)據(jù)及所運(yùn)用的算法進(jìn)行存儲(chǔ)。它不僅就所提供的原始數(shù)據(jù)進(jìn)行存儲(chǔ)對(duì)挖掘結(jié)果也會(huì)進(jìn)行存儲(chǔ)。算法和數(shù)據(jù)存儲(chǔ)區(qū)還加大了數(shù)據(jù)和算法丟失的概率,即便系統(tǒng)有問題也可以輕易地從存儲(chǔ)區(qū)里找到要的數(shù)據(jù)信息而恢復(fù)原本的數(shù)據(jù)。

      四是,業(yè)務(wù)處理層。它是主控的數(shù)據(jù)在算法計(jì)算下的結(jié)果,將存儲(chǔ)層的數(shù)據(jù)進(jìn)行挖掘通過主控點(diǎn)來重新分配數(shù)據(jù),結(jié)果再由服務(wù)節(jié)點(diǎn)返回到主控節(jié)點(diǎn)的一個(gè)過程。

      3.2 基于云計(jì)算的Web數(shù)據(jù)挖掘算法

      基于云計(jì)算的Web數(shù)據(jù)挖掘算法步驟如下:

      第一步,根據(jù)數(shù)據(jù)挖掘服務(wù)請(qǐng)求來對(duì)置信度闕值進(jìn)行確定,一般這種服務(wù)請(qǐng)求由Web瀏覽器提出的。

      第二步,客戶端向主控節(jié)點(diǎn)發(fā)出的任務(wù),數(shù)據(jù)存儲(chǔ)的節(jié)點(diǎn)就會(huì)向主控節(jié)點(diǎn)申請(qǐng)數(shù)據(jù)并返回有服務(wù)節(jié)點(diǎn)處理過后的數(shù)據(jù)。

      第三步,主控節(jié)點(diǎn)的數(shù)據(jù)將發(fā)給算法的存儲(chǔ)節(jié)點(diǎn),算法節(jié)點(diǎn)會(huì)根據(jù)所存儲(chǔ)的大量算法,篩選出最佳的挖掘算法,并將這些算法應(yīng)用到每個(gè)服務(wù)節(jié)點(diǎn)。

      第四步,每個(gè)服務(wù)節(jié)點(diǎn)都會(huì)有針對(duì)性地對(duì)各個(gè)數(shù)據(jù)進(jìn)行篩選,從而將數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行系統(tǒng)的分類和規(guī)整,用Apriori算法,得出不同數(shù)據(jù)庫的一部分頻集。

      第五步,將服務(wù)節(jié)點(diǎn)處理的這些結(jié)果反饋主控節(jié)點(diǎn)上,得出整個(gè)數(shù)據(jù)庫全局的頻集。在將這些發(fā)送到每個(gè)服務(wù)節(jié)點(diǎn)之上就可以得到更加準(zhǔn)確的局部頻集。以此類推,再將服務(wù)節(jié)點(diǎn)處理的結(jié)果反饋到主控節(jié)點(diǎn)上,得到更加精準(zhǔn)的全局的頻集。

      第六步,把第五步的過程重復(fù)操作,直到生成符合用戶定義的頻集,再根據(jù)置信度閾值生成關(guān)聯(lián)規(guī)則,而將關(guān)聯(lián)規(guī)則也發(fā)送給主控節(jié)點(diǎn)。

      第七步,主控節(jié)點(diǎn)將得到的關(guān)聯(lián)規(guī)則返回給用戶。

      3.3算法結(jié)果分析

      算法的結(jié)果需要實(shí)驗(yàn)數(shù)據(jù)的支撐,根據(jù)分析可以看到算法的效率和數(shù)據(jù)量之間的一個(gè)正相關(guān)關(guān)系。傳輸過程中的時(shí)間也存在差異,一般傳輸算法的時(shí)間要遠(yuǎn)短于傳輸數(shù)據(jù)的時(shí)間。Web數(shù)據(jù)挖掘算法和其他的算法有明顯的不同,但是它也可以通過對(duì)其他的算法的改進(jìn)來得到自己的全新的算法。Web數(shù)據(jù)挖掘算法是一個(gè)系統(tǒng)的算法,每個(gè)節(jié)點(diǎn)之間都有相關(guān)聯(lián)性,不會(huì)出現(xiàn)對(duì)有效關(guān)聯(lián)規(guī)則的遺漏現(xiàn)象。

      4 總結(jié)

      Web數(shù)據(jù)挖掘就是對(duì)我們的在Web文檔和互聯(lián)網(wǎng)其他途徑所獲取的大量的信息進(jìn)行篩選分析并加以利用。它可以根據(jù)人們的習(xí)慣、興趣、來了解人們的需求?,F(xiàn)在在網(wǎng)絡(luò)上的信息量還在快速的增長(zhǎng),對(duì)計(jì)算的能力和存儲(chǔ)的能力都是考驗(yàn),如何很好的挖掘出有用的信息數(shù)據(jù),打破技術(shù)的局限性和瓶頸。就是要將云計(jì)算的存儲(chǔ)能力結(jié)合網(wǎng)絡(luò)平臺(tái)進(jìn)行快速推廣和運(yùn)用。云計(jì)算下的Web數(shù)據(jù)挖掘可以通過網(wǎng)絡(luò)的優(yōu)勢(shì)方便統(tǒng)一的管理和調(diào)度,可以充分的利用云計(jì)算的存儲(chǔ)能力和空間,將多資源結(jié)合Web數(shù)據(jù)挖掘網(wǎng)絡(luò)體系進(jìn)行全面的開展。提高了對(duì)網(wǎng)絡(luò)資源和信息數(shù)據(jù)的利用率也提高了挖掘數(shù)據(jù)的效率和能力。

      參考文獻(xiàn):

      [1] 許艷丹,張前進(jìn),王志宏. 數(shù)據(jù)挖掘在物聯(lián)網(wǎng)中的應(yīng)用研究[J]. 周口師范學(xué)院學(xué)報(bào),2016(2).

      [2] 朱興榮. 數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)空間課堂教學(xué)評(píng)價(jià)中應(yīng)用[J]. 電子商務(wù),2016(4).

      [3] 洪麗平. 基于數(shù)據(jù)挖掘技術(shù)的圖書館服務(wù)研究[J]. 福建電腦,2016(3).

      [4] 任爭(zhēng),董莉麗,史澤,等. 數(shù)據(jù)挖掘技術(shù)及其在過程監(jiān)控中的應(yīng)用[J]. 黑龍江科技信息,2016(9).

      猜你喜歡
      云計(jì)算數(shù)據(jù)挖掘互聯(lián)網(wǎng)
      探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
      基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
      電力與能源(2017年6期)2017-05-14 06:19:37
      基于云計(jì)算的移動(dòng)學(xué)習(xí)平臺(tái)的設(shè)計(jì)
      從“數(shù)據(jù)新聞”看當(dāng)前互聯(lián)網(wǎng)新聞信息傳播生態(tài)
      今傳媒(2016年9期)2016-10-15 22:06:04
      互聯(lián)網(wǎng)背景下大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練項(xiàng)目的實(shí)施
      考試周刊(2016年79期)2016-10-13 23:23:28
      實(shí)驗(yàn)云:理論教學(xué)與實(shí)驗(yàn)教學(xué)深度融合的助推器
      云計(jì)算中的存儲(chǔ)虛擬化技術(shù)應(yīng)用
      科技視界(2016年20期)2016-09-29 13:34:06
      以高品質(zhì)對(duì)農(nóng)節(jié)目助力打贏脫貧攻堅(jiān)戰(zhàn)
      一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
      基于GPGPU的離散數(shù)據(jù)挖掘研究
      宁安市| 韶山市| 尼玛县| 承德县| 永定县| 巴中市| 得荣县| 旬阳县| 奈曼旗| 图们市| 尤溪县| 庐江县| 洪湖市| 大荔县| 瑞丽市| 凯里市| 乐业县| 昌都县| 涡阳县| 集贤县| 马尔康县| 大方县| 崇阳县| 花垣县| 雷山县| 九江县| 云林县| 沂南县| 漳州市| 邢台县| 安龙县| 隆尧县| 吉安市| 景宁| 黄冈市| 湖北省| 东明县| 正镶白旗| 韩城市| 丹阳市| 大悟县|