摘 要:隨著移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、物聯(lián)網(wǎng)以及社交媒體的快速發(fā)展,大數(shù)據(jù)時(shí)代已經(jīng)來臨,本文從大數(shù)據(jù)的基本概念出發(fā),嘗試探討大數(shù)據(jù)的概念、特點(diǎn)和主要應(yīng)用。
關(guān)鍵詞:大數(shù)據(jù) 數(shù)據(jù)分析
中圖分類號(hào):TP3 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2013)07(b)-0029-01
在計(jì)算機(jī)系統(tǒng)中,各種字母、數(shù)字符號(hào)的組合、語音、圖形、圖像等統(tǒng)稱為數(shù)據(jù),數(shù)據(jù)是信息的載體。以博客、微博、社會(huì)化網(wǎng)絡(luò)為代表的新型互聯(lián)網(wǎng)的應(yīng)用,使得用戶成為數(shù)據(jù)產(chǎn)生的重要來源,數(shù)據(jù)的規(guī)模以前所未有的速度在不斷的積累和增長。谷歌公司每天要處理超過24PB(1PB=250字節(jié))的數(shù)據(jù)。Facebook公司每天更新的照片數(shù)量超過1000萬張。Twitter上的信息量幾乎每年都要翻一番,每天都會(huì)發(fā)布超過4億條微博。IBM的研究稱,整個(gè)人類文明所獲得的全部數(shù)據(jù)中,有90%是過去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。毫無疑問,大數(shù)據(jù)時(shí)代已經(jīng)到來。
1 何為大數(shù)據(jù)
大數(shù)據(jù)(Big Data)并非新生事物,2008年9月4日《自然》推出了名為“大數(shù)據(jù)”的???,其實(shí)它在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)、自動(dòng)控制等科學(xué)領(lǐng)域,以及軍事、通訊、金融等行業(yè)已存在多年。近年來,隨著互聯(lián)網(wǎng)行業(yè)的蓬勃發(fā)展越來越得到人們的關(guān)注,開始煥發(fā)出勃然生機(jī)。
一般認(rèn)為,大數(shù)據(jù)又稱巨量資料,是由數(shù)量巨大、結(jié)構(gòu)復(fù)雜、類型眾多數(shù)據(jù)構(gòu)成的數(shù)據(jù)集合,是基于云計(jì)算的數(shù)據(jù)處理與應(yīng)用模式,通過數(shù)據(jù)的整合共享、交叉復(fù)用形成的智力資源和知識(shí)服務(wù)能力。2012年初,《紐約時(shí)報(bào)》撰文,宣告“大數(shù)據(jù)時(shí)代”已然降臨。大數(shù)據(jù)正在對各個(gè)領(lǐng)域都造成影響。在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,越來越多的決策行為將日益依賴于對數(shù)據(jù)的收集和分析而做出,在公共衛(wèi)生、經(jīng)濟(jì)發(fā)展和預(yù)測等領(lǐng)域中,大數(shù)據(jù)的預(yù)見能力也已經(jīng)嶄露頭角。
2 大數(shù)據(jù)的特點(diǎn)
大數(shù)據(jù)并不是一個(gè)確切的概念,甚至人們對它的理解也存在認(rèn)識(shí)上的混淆。
“大”并不能準(zhǔn)確的描述大數(shù)據(jù)的全部特征。大數(shù)據(jù)具備四個(gè)特點(diǎn),第一,數(shù)據(jù)體量巨大:從TB級(jí)別,躍升到PB級(jí)別,甚至EB級(jí)別;大數(shù)據(jù)”龐大很龐大,以至于不能用G或T來衡量,大數(shù)據(jù)的起始計(jì)量單位至少是P(1000個(gè)T)、E(100萬個(gè)T)或Z(10億個(gè)T)。第二,數(shù)據(jù)類型繁多:數(shù)據(jù)多樣,包括網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等,多類型的數(shù)據(jù)對數(shù)據(jù)的處理能力提出了更高的要求。第三,價(jià)值密度低,不相關(guān)信息數(shù)量龐大,需要深度挖掘分析。如隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價(jià)值密度較低,如何通過強(qiáng)大的機(jī)器算法更迅速地完成數(shù)據(jù)的價(jià)值“提純”,是大數(shù)據(jù)時(shí)代亟待解決的難題。第四,處理速度快。時(shí)效性要求高。這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘最顯著的特征。
3 大數(shù)據(jù)的應(yīng)用
2012年,奧巴馬政府宣布投資2億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家意志。奧巴馬政府將數(shù)據(jù)定義為“未來的新石油”,并表示一個(gè)國家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國力的重要組成部分,未來,對數(shù)據(jù)的占有和控制甚至將成為陸權(quán)、海權(quán)、空權(quán)之外的另一種國家核心資產(chǎn)。而這些事情在小規(guī)模數(shù)據(jù)的基礎(chǔ)是無法實(shí)現(xiàn)的。大數(shù)據(jù)對于國家來說是一個(gè)歷史性的機(jī)遇,人們?nèi)缃窨梢允褂脴O為豐富的數(shù)據(jù)資源,來對社會(huì)經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時(shí)分析,幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)運(yùn)行。對于企業(yè)來說,海量數(shù)據(jù)的運(yùn)用將成為未來競爭和增長的基礎(chǔ),通過對海量數(shù)據(jù)進(jìn)行分析獲得有巨大的價(jià)值的產(chǎn)品和服務(wù),數(shù)據(jù)將成為一切行業(yè)當(dāng)中決定勝負(fù)的根本因素,最終數(shù)據(jù)將成為人類至關(guān)重要的自然資源。
目前,對于大數(shù)據(jù)的應(yīng)用研究處在起步階段,隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)即資產(chǎn),這一觀點(diǎn)在業(yè)界已經(jīng)達(dá)成共識(shí)。越來越多的政府、企業(yè)等機(jī)構(gòu)開始意識(shí)到數(shù)據(jù)正在成為組織最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為組織的核心競爭力。對數(shù)據(jù)的分析,獲得有價(jià)值的信息,大數(shù)據(jù)是為了大智慧。隨著商業(yè)環(huán)境的變化發(fā)展,營銷方式也發(fā)生了巨大的變化,例如營銷數(shù)據(jù)的獲取,過去傳統(tǒng)的市場調(diào)研通常采用問卷、用戶走訪的形式,在每個(gè)網(wǎng)站、每個(gè)頁面以及每個(gè)廣告都記錄下每一次用戶訪問的信息,用戶來自哪里,是單次訪問還是重復(fù)訪問,每次來駐留的時(shí)間有多長,是直接訪問還是通過搜索引擎,看了什么內(nèi)容、最關(guān)注哪些內(nèi)容等等都一一存在。而這一切的獲取和分析都離不開大數(shù)據(jù),對數(shù)據(jù)分析,要實(shí)現(xiàn)較高的精準(zhǔn)、細(xì)分的數(shù)據(jù),必須建立在大數(shù)據(jù)的基礎(chǔ)上,進(jìn)行全數(shù)據(jù)的分析。搜索記錄、Facebook的留言和微博消息使得人們的行為和情緒的細(xì)節(jié)測量成為可能。挖掘用戶的行為習(xí)慣和喜好,在凌亂紛繁的數(shù)據(jù)背后找到更符合用戶興趣和習(xí)慣的產(chǎn)品和服務(wù),并針對產(chǎn)品和服務(wù)進(jìn)行針對性的調(diào)整和優(yōu)化,這就是大數(shù)據(jù)的價(jià)值所在。
4 大數(shù)據(jù)產(chǎn)業(yè)鏈分析
IDC的數(shù)據(jù)顯示,2015年整個(gè)大數(shù)據(jù)市場將超過170億美元。大數(shù)據(jù)的商業(yè)機(jī)會(huì)主要在以下幾個(gè)方面。第一,數(shù)據(jù)中心的規(guī)劃、建設(shè)、運(yùn)營及優(yōu)化,三分技術(shù),七分?jǐn)?shù)據(jù),得數(shù)據(jù)者得天下。隨著未來數(shù)據(jù)的規(guī)模劇增,數(shù)據(jù)中心的建設(shè)與維護(hù)是必不可少的。大數(shù)據(jù)需要在服務(wù)器和存儲(chǔ)設(shè)施中進(jìn)行收集,并且大多數(shù)的企業(yè)信息管理體系結(jié)構(gòu)將會(huì)發(fā)生重要大變化,需要擴(kuò)大他們的系統(tǒng),以解決數(shù)據(jù)的不斷擴(kuò)大。第二,數(shù)據(jù)分析和挖掘,據(jù)“棱鏡”計(jì)劃顯示,美國政府多年前就開始基于海量數(shù)據(jù)的大數(shù)據(jù)技術(shù)應(yīng)用,利用谷歌、雅虎、Facebook等網(wǎng)絡(luò)服務(wù)公司提供的電郵、即時(shí)消息、聊天記錄、社交網(wǎng)絡(luò)資料、以及登錄時(shí)間等海量數(shù)據(jù)中挖掘情報(bào)信息。第三,在大數(shù)據(jù)時(shí)代,商業(yè)智能有望得到迅速發(fā)展。商業(yè)智能是數(shù)據(jù)庫技術(shù)、人工智能技術(shù)、統(tǒng)計(jì)技術(shù)和軟件技術(shù)等的有機(jī)結(jié)合,根據(jù)功能不同,可細(xì)分為工具平臺(tái)軟件和應(yīng)用軟件兩大部分。從全球范圍來看,商業(yè)智能已經(jīng)成為軟件市場當(dāng)前最具發(fā)展?jié)摿Φ念I(lǐng)域之一。第四,信息安全,如何處理海量數(shù)據(jù),成為未來IT發(fā)展的關(guān)鍵,而在人們充分享受大數(shù)據(jù)所帶來的便利的同時(shí),其背后所潛藏著的數(shù)據(jù)丟失風(fēng)險(xiǎn)不容忽視。故此,數(shù)據(jù)保護(hù)和安全的產(chǎn)業(yè)前景也同樣有巨大的機(jī)會(huì)。
參考文獻(xiàn)
[1]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)、挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1).
[2]張錚.解析大數(shù)據(jù)[J].電腦開發(fā)與應(yīng)用,2013,2.
[3]袁婕.大數(shù)據(jù)時(shí)代的商機(jī)[J].現(xiàn)代商業(yè), 2012,30.