黃青蓉
摘? ?要:在當(dāng)前的科學(xué)技術(shù)發(fā)展背景下,人們對(duì)數(shù)據(jù)傳輸?shù)囊笠呀?jīng)無(wú)法得到滿(mǎn)足,在云計(jì)算具有的流通性、延展性、穩(wěn)當(dāng)性、低廉的成本、數(shù)據(jù)存儲(chǔ)的大容量和處理能力的優(yōu)勢(shì)下,云計(jì)算能為使用者帶來(lái)優(yōu)質(zhì)的服務(wù),在云數(shù)據(jù)的基礎(chǔ)上縮減在企業(yè)數(shù)據(jù)挖掘的資金投入,這樣就能獲得更大的利益。文章對(duì)云計(jì)算的數(shù)據(jù)挖掘應(yīng)用進(jìn)行了具體闡述。
關(guān)鍵詞:云計(jì)算;數(shù)據(jù)挖掘方式;關(guān)鍵技術(shù)
在當(dāng)代的社會(huì)發(fā)展背景下,我國(guó)的科技和經(jīng)濟(jì)發(fā)展取得了巨大的成就,人們手里拿著手機(jī)、平板電腦和計(jì)算機(jī)等電子產(chǎn)品的景象隨處可見(jiàn)。由此可見(jiàn),互聯(lián)網(wǎng)已經(jīng)很好地融入了人們的生活,與人們的生活密切相關(guān),并且人們對(duì)其產(chǎn)生的依賴(lài)性也是不可估量的。隨著互聯(lián)網(wǎng)大數(shù)據(jù)信息的飛快增長(zhǎng),人們想在海量的信息中提取自己所需要的信息逐漸變得非常困難。如何在眾多的數(shù)據(jù)中精準(zhǔn)地找到有效的信息成為當(dāng)前人們最需要探究的問(wèn)題。所以,云計(jì)算系統(tǒng)應(yīng)運(yùn)而生。在傳統(tǒng)的數(shù)據(jù)處理模式下,云計(jì)算系統(tǒng)基于云數(shù)據(jù)另辟蹊徑,云計(jì)算只需提供一個(gè)平臺(tái),使用者就可以隨時(shí)隨地地提取自己想要的信息,但在這樣大的一個(gè)數(shù)據(jù)模式下,挖掘信息本身就存在一定的難度。
1? ? 云計(jì)算概念及特點(diǎn)介紹
云計(jì)算自誕生之日起,至今也沒(méi)有一個(gè)準(zhǔn)確的概念。但是根據(jù)大多數(shù)人對(duì)云計(jì)算的理解,現(xiàn)在總結(jié)出了以下兩點(diǎn):(1)簡(jiǎn)單來(lái)講,云計(jì)算就是一個(gè)大的儲(chǔ)存器,里邊有著成千上萬(wàn)的資源,每種類(lèi)型的資源都有著不同的作用。云計(jì)算的優(yōu)勢(shì)表現(xiàn)為能將這些不同類(lèi)型的資源進(jìn)行整合分配。(2)對(duì)于使用者來(lái)說(shuō),云計(jì)算的使用簡(jiǎn)單便捷、全程對(duì)外開(kāi)放、沒(méi)有隱蔽性。使用者想利用云計(jì)算獲取想要的、有價(jià)值的信息,不會(huì)在意云計(jì)算的運(yùn)行原理以及是誰(shuí)在背后使其運(yùn)轉(zhuǎn)的,人們只想要獲取信息。但云計(jì)算本身是存在安全隱患的,如果一直承載著巨大信息量的數(shù)據(jù)庫(kù),在此基礎(chǔ)上加上計(jì)算機(jī)的數(shù)量,會(huì)一直存在安全隱患。最后的結(jié)果可能會(huì)使整個(gè)云計(jì)算系統(tǒng)瓦解。僅憑借擴(kuò)展硬件設(shè)施是不可行的,需要充分地發(fā)揮軟件管理的作用。這就需要將系統(tǒng)分散成一個(gè)個(gè)板塊,在其中應(yīng)用冗余和分布式儲(chǔ)存的方法。云計(jì)算系統(tǒng)的另一個(gè)優(yōu)勢(shì)是具有自我檢測(cè)的功能,它能在不影響正常工作的環(huán)境下進(jìn)行檢測(cè),如果檢測(cè)出來(lái)沒(méi)有效果的節(jié)點(diǎn),它就會(huì)自動(dòng)刪除。簡(jiǎn)而言之,云計(jì)算系統(tǒng)的數(shù)據(jù)非常多,存儲(chǔ)能力也非常強(qiáng),計(jì)算能力較強(qiáng),結(jié)合諸多優(yōu)點(diǎn),必定能給用戶(hù)帶來(lái)舒心、便利、優(yōu)質(zhì)的服務(wù)。
通過(guò)對(duì)云計(jì)算的研究,發(fā)現(xiàn)它一共有5個(gè)方面的特點(diǎn),分別是虛擬化、共用性、規(guī)模大且延伸性強(qiáng)、可依賴(lài)性高和經(jīng)濟(jì)適用。云計(jì)算雖然不是實(shí)物,但它擁有著數(shù)以千萬(wàn)計(jì)的數(shù)據(jù),能讓用戶(hù)在世界上的任何一個(gè)角落通過(guò)終端獲取自己所需的信息和服務(wù)。它沒(méi)有限制性,可以利用云計(jì)算開(kāi)發(fā)出不同的應(yīng)用,這些應(yīng)用在不影響用戶(hù)的正常使用下可同時(shí)運(yùn)轉(zhuǎn)。云計(jì)算是可以延伸的,且是動(dòng)態(tài)延伸。在現(xiàn)在的技術(shù)支持下,最多能延伸至幾十萬(wàn)臺(tái)電腦,并且整個(gè)過(guò)程使用者是可見(jiàn)的,是透明的。為了使用戶(hù)用得貼心,讓用戶(hù)感受到高效的服務(wù),產(chǎn)生信任感,需要發(fā)揮云計(jì)算固有的優(yōu)勢(shì),使用自動(dòng)化管理機(jī)制,降低企業(yè)將承擔(dān)的巨額成本。對(duì)于傳統(tǒng)的系統(tǒng)來(lái)說(shuō),云計(jì)算系統(tǒng)的成本更低[1]。
2? ? 數(shù)據(jù)挖掘的方式
數(shù)據(jù)挖掘是單調(diào)的,是一個(gè)需要不斷地重復(fù)測(cè)試、調(diào)整和修理的過(guò)程,這個(gè)過(guò)程漫長(zhǎng)而復(fù)雜,因此,這項(xiàng)工作是比較艱辛的。整個(gè)數(shù)據(jù)挖掘要先進(jìn)行數(shù)據(jù)預(yù)處理,然后再進(jìn)行數(shù)據(jù)挖掘,最后才是評(píng)估和表示。數(shù)據(jù)挖掘有很多種方法。(1)基于歷史的主引導(dǎo)記錄(Master Boot Record,MBR)分析,基于歷史的MBR分析方法最主要的概念是用已知的案例來(lái)預(yù)測(cè)未來(lái)案例的一些屬性,它一般就是找雷同的案例來(lái)作分析和比較。在記憶基礎(chǔ)推理法中有兩個(gè)重要的因素,分別為距離函數(shù)與結(jié)合函數(shù)。距離函數(shù)用于找出雷同的案例,用函數(shù)把雷同的案例串聯(lián)起來(lái),等到測(cè)試的時(shí)候用。記憶基礎(chǔ)推理法的好處是它能容納所有不一樣的數(shù)據(jù),這些數(shù)據(jù)不用建立在假設(shè)的基礎(chǔ)上,另一個(gè)優(yōu)點(diǎn)是其具備學(xué)習(xí)能力,能從舊案例的學(xué)習(xí)中來(lái)獲取關(guān)于新案例的知識(shí)。記憶基礎(chǔ)推理法的缺點(diǎn)首先是需要非常多的歷史數(shù)據(jù),因?yàn)橛谐渥愕臄?shù)據(jù)作對(duì)比才好預(yù)判。其次,在處理數(shù)據(jù)上比較浪費(fèi)時(shí)間,它不能很好地看出距離函數(shù)和結(jié)合函數(shù)的區(qū)別。(2)購(gòu)物籃分析,也稱(chēng)“市場(chǎng)籃分析”,它用于在大數(shù)據(jù)下分析客戶(hù)的購(gòu)買(mǎi)行為,商家可以利用這些信息向其他客戶(hù)推薦自家產(chǎn)品,還可以將這些產(chǎn)品進(jìn)行線上促銷(xiāo)。(3)決策樹(shù),在分析解決對(duì)策和預(yù)判方面有強(qiáng)大的能力,用運(yùn)算的方式表達(dá),可有效解決問(wèn)題。(4)遺傳算法,是學(xué)習(xí)細(xì)胞演練的過(guò)程,細(xì)胞間可經(jīng)由不斷的選擇、復(fù)制、交配、突變而產(chǎn)生新細(xì)胞?;蛩惴ǖ倪\(yùn)作方式相同,首先,一定要提前建立好一個(gè)模式;其次,再利用產(chǎn)生的新細(xì)胞使其運(yùn)作;再次,用適合的函數(shù)進(jìn)行檢測(cè),看是否可以和這個(gè)新建立的模式相匹配,直到最后,僅剩的那一個(gè)細(xì)胞才有機(jī)會(huì)存活。(5)聚類(lèi)分析,這項(xiàng)技術(shù)涉及的范圍非常廣,基因算法、類(lèi)神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)學(xué)中的群集分析都有這個(gè)功能。它的目的是找出在數(shù)據(jù)中隱藏的、之前沒(méi)有被發(fā)現(xiàn)的群體。在非常多的案例分析中都會(huì)用到這種技術(shù)來(lái)進(jìn)行初始研究[2]。(6)連接分析,是把數(shù)學(xué)中的圖形理念當(dāng)作基礎(chǔ),從記錄其關(guān)系到發(fā)展成為一個(gè)新的模式,比如電信行業(yè),可通過(guò)分析顧客使用電話(huà)時(shí)間的長(zhǎng)短和次數(shù),來(lái)得出顧客的號(hào)碼是什么,從而做出一個(gè)有利于公司發(fā)展的計(jì)劃書(shū)。除了電信行業(yè)以外,現(xiàn)在越來(lái)越多的行業(yè)分析人員都會(huì)用連接分析法來(lái)為自己所在的公司做更有利于企業(yè)發(fā)展的研究。(7)聯(lián)機(jī)分析處理(Online Analytical Processing,OLAP),嚴(yán)格說(shuō)起來(lái),OLAP分析并不算是一個(gè)特別的數(shù)據(jù)挖掘技術(shù),但是通過(guò)分析數(shù)據(jù)的工具能讓使用者更加清晰地知道數(shù)據(jù)更深層面的意思和涵義,就像視覺(jué)處理技術(shù)一樣,通過(guò)圖表或圖形將數(shù)據(jù)以簡(jiǎn)單、明了的方式呈現(xiàn),對(duì)一般人來(lái)說(shuō),效果會(huì)更直觀。這樣就能實(shí)現(xiàn)將數(shù)據(jù)變成信息的目標(biāo)。(8)神經(jīng)網(wǎng)絡(luò)法,是不斷地學(xué)習(xí)之前的知識(shí),將知識(shí)進(jìn)行溫習(xí)和鞏固,把例子和學(xué)習(xí)結(jié)合起來(lái)使其變成一種新的結(jié)果,這種方法屬于機(jī)械化的學(xué)習(xí),學(xué)習(xí)效率非常高。(9)判別分析法,是當(dāng)所設(shè)想的問(wèn)題變成現(xiàn)實(shí)時(shí),它一般用于解決分類(lèi)問(wèn)題。(10)羅吉斯回歸分析,當(dāng)分析的群體不符合一般的假設(shè)時(shí),羅吉斯回歸分析是很好的第二解決方案。這個(gè)方法不是用于預(yù)測(cè)事物是否會(huì)發(fā)生,而是用于預(yù)測(cè)這件事情發(fā)生的概率有多大,以便在很大程度上減少失誤。
3? ? 數(shù)據(jù)挖掘在云平臺(tái)上的應(yīng)用
伴隨著“互聯(lián)網(wǎng)+城市”的崛起,人工智能、大數(shù)據(jù)分析、數(shù)據(jù)挖掘以及物聯(lián)網(wǎng)等信息化技術(shù)已經(jīng)融入城市生活的方方面面。共享單車(chē)這種新興的項(xiàng)目得以迅猛發(fā)展,是因?yàn)槌浞謶?yīng)用到數(shù)據(jù)挖掘技術(shù)。(1)應(yīng)用關(guān)聯(lián)規(guī)則算法分析單車(chē)的投放地點(diǎn)與投放數(shù)量,確保一天的投放量能滿(mǎn)足該地段的用戶(hù)需求,同時(shí),采取相應(yīng)的措施對(duì)該地段進(jìn)行監(jiān)管。(2)跟蹤每輛單車(chē),以獲得有缺陷車(chē)輛的信息,對(duì)長(zhǎng)期未使用的單車(chē)進(jìn)行維護(hù),從而有助于后期更好地使用。(3)合理應(yīng)用聚類(lèi)分析中的K均值算法,用于分析和計(jì)算4個(gè)季節(jié)的單車(chē)循環(huán)率,以有效地控制每個(gè)季節(jié)單車(chē)的投放與回收數(shù)量,提升單車(chē)的利用率。(4)考慮氣候因素,聚類(lèi)分析中的K均值算法可用于統(tǒng)計(jì)分析晴天、陰天、雨和雪天等氣候條件下的單車(chē)?yán)寐?,有效地?yōu)化單車(chē)的運(yùn)營(yíng)方案。
4? ? 云計(jì)算關(guān)鍵技術(shù)
云計(jì)算的技術(shù)有很多,但是如果沒(méi)有最核心的技術(shù),云計(jì)算終有一天也會(huì)走向失敗。云計(jì)算在虛擬化、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、編程模式等方面都有自己獨(dú)特的技術(shù)。但在現(xiàn)在的社會(huì)發(fā)展背景下,最直接、有效的方法是分布式計(jì)算法,這個(gè)方法包含了兩個(gè)部分,一部分是關(guān)于數(shù)據(jù)存儲(chǔ)的;另一部分是關(guān)于數(shù)據(jù)計(jì)算的[3]。這兩部分在現(xiàn)在的云計(jì)算平臺(tái)上是必須包含的,它是支持整個(gè)數(shù)據(jù)挖掘的核心,現(xiàn)在GFS,KFS,HDFS等3種分布式文件的系統(tǒng)中是最受歡迎的,谷歌公司的分布式系統(tǒng)就是這部分理論的結(jié)合,KFS,HDFS這兩種算法已經(jīng)被運(yùn)用于商業(yè)和學(xué)術(shù)的領(lǐng)域,由此可見(jiàn),它的地位并不一般。
5? ? 結(jié)語(yǔ)
本文探究了云計(jì)算的概念、數(shù)據(jù)挖掘的方式還有云計(jì)算的關(guān)鍵技術(shù),由于現(xiàn)在互聯(lián)網(wǎng)的普及,數(shù)以千萬(wàn)計(jì)的冗余數(shù)據(jù)正在困擾著各行各業(yè)的人。和傳統(tǒng)的數(shù)據(jù)系統(tǒng)相比較而言,云計(jì)算的優(yōu)勢(shì)要大于傳統(tǒng)的數(shù)據(jù)系統(tǒng)。為了讓用戶(hù)用得舒心,讓他們感受到高效的服務(wù)還有對(duì)云計(jì)算的依賴(lài)性,云計(jì)算充分發(fā)揮了自身的優(yōu)勢(shì),使用自動(dòng)化的管理機(jī)制,減少人們將承擔(dān)的成本。對(duì)于傳統(tǒng)的系統(tǒng)來(lái)說(shuō),云計(jì)算系統(tǒng)的成本更低。云計(jì)算系統(tǒng)的數(shù)據(jù)非常多,存儲(chǔ)能力也非常強(qiáng),計(jì)算能力也不在話(huà)下,這么多的優(yōu)點(diǎn)結(jié)合,必定能給用戶(hù)帶來(lái)舒心的、便利的、優(yōu)質(zhì)的服務(wù)。隨著科技的高速發(fā)展,筆者相信云計(jì)算技術(shù)也會(huì)發(fā)展得越來(lái)越好,日后云計(jì)算將會(huì)給數(shù)據(jù)挖掘帶來(lái)新的進(jìn)展,帶領(lǐng)人們更好地走向未來(lái)。
[參考文獻(xiàn)]
[1]孫亮.數(shù)據(jù)挖掘服務(wù)模式應(yīng)用云計(jì)算的優(yōu)化策略探究[J].黑河學(xué)院學(xué)報(bào),2018(1):23-25.
[2]王勃,徐靜.基于云計(jì)算的Web數(shù)據(jù)挖掘Hadoop仿真平臺(tái)研究[J].電子設(shè)計(jì)工程,2018(1):43-44.
[3]包科,蔡明.高速接入網(wǎng)云計(jì)算平臺(tái)的大數(shù)據(jù)挖掘算法探究[J].機(jī)床與液壓,2017(12):143-144.