摘 要:近年來,隨著網(wǎng)絡的發(fā)展和新興技術的出現(xiàn),尤其是物聯(lián)網(wǎng)技術的推廣,大數(shù)據(jù)成為眼下最流行的技術,這必然會給目前的數(shù)據(jù)庫和信息處理技術帶來新的挑戰(zhàn),舊的數(shù)據(jù)處理、數(shù)據(jù)挖掘技術已經(jīng)很難滿足要求,必然要求數(shù)據(jù)處理技術進行新的革命性的變革。近年來,云計算技術也在不斷的發(fā)展,二者的結合會給信息處理帶來很多新的挑戰(zhàn)和機遇。
關鍵詞:云計算;大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)處理;存儲
中圖分類號:TP308
1 大數(shù)據(jù)概述
什么是大數(shù)據(jù)?“大數(shù)據(jù)”是一個數(shù)據(jù)量特別大、類別特別多的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無法用傳統(tǒng)數(shù)據(jù)庫工具對其內容進行加工處理。“大數(shù)據(jù)”首先是指數(shù)據(jù)量非常龐大,指代大型數(shù)據(jù)集,一般在10TB規(guī)模左右,在日常的應用中,多數(shù)的單位都是把多個來源于不同系統(tǒng)的數(shù)據(jù)集統(tǒng)一的放在一起,形成了更為龐大的數(shù)據(jù)量;其次是指數(shù)據(jù)類型特別多,現(xiàn)在興起的云計算技術,使得現(xiàn)在創(chuàng)造數(shù)據(jù)的主體由企業(yè)逐步的轉向個體,而我們個體創(chuàng)造的數(shù)據(jù)大多是文檔、圖片、音頻、視頻等,這些數(shù)據(jù)都是非結構化的,還有大多數(shù)的企業(yè)的辦公自動化通過網(wǎng)絡得以實現(xiàn),由此產生的數(shù)據(jù)也大多是非結構化的。也就是說我們要處理的數(shù)據(jù)來源于不同的系統(tǒng)和數(shù)據(jù)源,數(shù)據(jù)類型和數(shù)據(jù)格式更為復雜,已不在局限于結構化的數(shù)據(jù)結構,而是半結構化和非結構化數(shù)據(jù)的一個混合體。第三是要求要有非常高的相應處理速度,盡管要處理的數(shù)據(jù)量異常龐大,也必須對如此龐大的數(shù)據(jù)量做到實時處理。最后一個特點是指數(shù)據(jù)真實性高,隨著社交數(shù)據(jù)、企業(yè)交易和應用數(shù)據(jù)等新數(shù)據(jù)源的崛起,傳統(tǒng)數(shù)據(jù)源的局限被打破,企業(yè)越來越需要高效的信息處理,以確保數(shù)據(jù)的真實性、準確性及安全性。
另外,結構組成更為復雜的新數(shù)據(jù)開始出現(xiàn),而且生成的速度提高到了一個前所未有的程度。例如:社交網(wǎng)絡數(shù)據(jù)、備份數(shù)據(jù)和物聯(lián)網(wǎng)應用下的傳感器數(shù)據(jù)都屬于人們在分析中關注的新數(shù)據(jù)源,企業(yè)需要對這些數(shù)據(jù)類型進行快速、準確、可靠的分析,以便充實其已知的信息數(shù)據(jù)量。
在企業(yè)內部,隨著客戶以在線渠道作為開展商業(yè)交易及與企業(yè)互動的主要手段和網(wǎng)絡日志的不斷增加,為監(jiān)測和優(yōu)化業(yè)務運營而部署的傳感器網(wǎng)絡和機器數(shù)量也越來越多。結果就生成了大量新數(shù)據(jù)源、快速增加的數(shù)據(jù)量和迅速增加的新數(shù)據(jù)流,需要分析所有這些新數(shù)據(jù)?!按髷?shù)據(jù)”在互聯(lián)網(wǎng)與傳統(tǒng)企業(yè)之間建立了緊密的聯(lián)系,推動了互聯(lián)網(wǎng)企業(yè)與傳統(tǒng)的企業(yè)的融合,逐步掀起了一場消費模式、生產模式、管理模式的革命。
2 云計算概述
2.1 云計算的概念
“云計算”將計算機從客戶端集中到“云端”,作為功能應用通過互聯(lián)網(wǎng)絡提供給客戶端,它將用戶提交的各種需求動態(tài)、合理的分配給分布在各處的計算機系統(tǒng),從而提出需求的各種應用系統(tǒng)能夠獲取相應的計算服務、存儲空間。用戶關心的是需求提出的功能,而不需要去關心應用功能是怎么實現(xiàn)的,所有的應用功能都是由服務提供商來完成的。它是一種商業(yè)計算模型,而不是一種平臺或者架構。
實現(xiàn)云計算所需要的基礎設施有多種技術結合來完成。尤其是需要一套系統(tǒng)的軟件對分布在各處的硬件進行虛擬化調度和管理,即把分布于各處的計算機軟、硬件資源集中起來進行綜合處理。
2.2 云計算特點
(1)資源使用的可擴展性。云計算可以根據(jù)用戶的需求動態(tài)的分配和回收分散在不同地理位置的不同的軟、硬件資源。當用戶提出一個新的計算需求時,云計算系統(tǒng)動態(tài)的分配給該請求一個可利用的資源,當用戶的需求已經(jīng)滿足或結束時,系統(tǒng)合理、及時的回收該用戶所占用的資源,以分配給下一時間段其他的用戶所提出的需求,從而實現(xiàn)了整個網(wǎng)絡資源的利用的擴展性,大大提高了資源使用的效率。
(2)云計算的普遍性與自動性。云計算的處理單元和各種資源是由互聯(lián)網(wǎng)連接在一起的,用戶通過網(wǎng)絡向與計算提出請求,云計算同樣通過網(wǎng)絡將處理的結果送回給用戶。而且互聯(lián)網(wǎng)的范圍是覆蓋全球的,所以互聯(lián)網(wǎng)使得云計算所能提供給用戶的服務無處不在,使得云計算具有了最大范圍的普遍性。而且這種服務是由云系統(tǒng)自動完成的,不需要用戶與服務提供者進行任何的交互,所以使用起來尤其的方便快捷。
(3)云計算系統(tǒng)的透明性。對于云系統(tǒng)而言,它將各種分散在各地的資源進行統(tǒng)一的調度與管理,然后將計算結果提供給用戶;反過來對于用戶而言,用戶只知道自己需要什么樣的服務,只要將請求提交給云系統(tǒng),結果就會快速的返回,它的處理能力是無限大的,用戶并不去關心請求的計算到底是怎樣完成的,也就是服務的完成對于用戶來說是完全透明的。
3 云計算和大數(shù)據(jù)的關系
本質上講,云計算強調的是計算能力;而大數(shù)據(jù)強調的是處理、計算的對象。然而二者并不是孤立存在的,而是相互關聯(lián)的。大數(shù)據(jù)所提供給用戶的服務還是需要對數(shù)據(jù)的處理,然后得到處理后的結果,主要還是落腳在對數(shù)據(jù)的加工上;云計算中的重要組成部分基礎設施,即基礎設施主要還是存儲設備,所以兩者密不可分。
云計算能力以及它的分布式結構為大數(shù)據(jù)的商業(yè)模式提供了實現(xiàn)的可能?!按髷?shù)據(jù)”要求能夠處理幾乎所有類型的海量數(shù)據(jù),例如文檔、圖片、視頻、音頻、微博、電子郵件等,而且要求處理的速度非常高,幾乎是實時的。而且這種大量數(shù)據(jù)的計算要求必須是面向最普通的用戶的,所以必須是廉價的。它所應用的基礎的硬件設施都是最低成本的。而云計算正是利用了這些價格低廉的基礎設施,使得用戶能夠按照提出的需求獲得相應的服務,云計算機的這種分配機制完全的滿足了上面說到的大數(shù)據(jù)系統(tǒng)中海量的、多種數(shù)據(jù)類型的數(shù)據(jù)的處理和存儲要求。云計算技術使得大數(shù)據(jù)的實現(xiàn)成為可能。
現(xiàn)如今,大多數(shù)的大型業(yè)務系統(tǒng)例如:銀行系統(tǒng)、電子商務系統(tǒng)等,使用的數(shù)據(jù)庫系統(tǒng)仍然是傳統(tǒng)的關系型數(shù)據(jù)庫系統(tǒng),例如:SQLSERVER、ORACLE系統(tǒng)等。云計算模式進入這些大型業(yè)務系統(tǒng)的數(shù)據(jù)管理以后,這些大型系統(tǒng)的數(shù)據(jù)庫結構必然發(fā)生了質的變化,所以容易得出的結論就是,那些以前基于傳統(tǒng)的關系型數(shù)據(jù)庫的大型系統(tǒng)所提供的服務,必將被一種全新模式的云計算數(shù)據(jù)庫所替代,當然云計算數(shù)據(jù)庫是在傳統(tǒng)的關系型數(shù)據(jù)庫基礎之上發(fā)展而來的。云計算數(shù)據(jù)庫提供了強大的海量數(shù)據(jù)的存儲與處理功能,同時還必須具有在線分析處理和在線事物處理的能力。
4 大數(shù)據(jù)與云計算的未來
在信息高速發(fā)展的這個時代,人們的信息的要求已經(jīng)提出了更高的要求。而大數(shù)據(jù)概念的提出正迎合、并能滿足了這一更高的要求。人們對信息數(shù)據(jù)的要求是對數(shù)據(jù)量異常龐大的、數(shù)據(jù)類型紛繁復雜的、很難制定統(tǒng)一標準的數(shù)據(jù)進行快速的處理。大數(shù)據(jù)會進入到人們生活的方方面面,如同我們生活環(huán)境周圍的各種細小的基礎設施一樣。大數(shù)據(jù)的發(fā)展必將催生眾多產業(yè)的興起于發(fā)展,需要大量的數(shù)據(jù)分析、處理方面的工程人才,從而造就出眾多的就業(yè)崗位。大數(shù)據(jù)必將成為下一輪經(jīng)濟增長的源動力,成為既互聯(lián)網(wǎng)產業(yè)之后的新的IT業(yè)的龍頭產業(yè),為全球走出經(jīng)濟危機起到?jīng)Q定性的帶動作用。
5 結束語
本文中探討了什么是大數(shù)據(jù)和云計算,并分析了大數(shù)據(jù)和云計算之間的關系,分析了在云計算時代的背景下,二者的未來走向是什么,通過分析可以清楚的知道,云計算為大數(shù)據(jù)提供了更好的發(fā)展機遇。
參考文獻:
[1]郭曉科.大數(shù)據(jù)[M].北京:清華大學出版社,2013.
[2]陸嘉恒.大數(shù)據(jù)挑戰(zhàn)與NoSQL數(shù)據(jù)庫技術[M].北京:電子工業(yè)出版社,2013.
作者簡介:徐書海(1979-),男,山東濟南人,助教,研究方向:計算機軟件開發(fā)。
作者單位:濟南職業(yè)學院,濟南 250001