王 勇,靳瑞濤,蘇煜釗,陳禮春(.國家新聞出版廣電總局二九一臺,甘肅 蘭州 73005;.國家新聞出版廣電總局二九三臺,河南 鄭州 456)
網(wǎng)絡(luò)大數(shù)據(jù)時代的發(fā)展現(xiàn)狀與挑戰(zhàn)
王勇1,靳瑞濤2,蘇煜釗1,陳禮春1
(1.國家新聞出版廣電總局二九一臺,甘肅蘭州730105;2.國家新聞出版廣電總局二九三臺,河南鄭州451162)
隨著網(wǎng)絡(luò)大數(shù)據(jù)(Big Data)時代的到來,“數(shù)據(jù)即服務(wù)”這一觀念思想也不斷植入,“網(wǎng)絡(luò)大數(shù)據(jù)”關(guān)鍵詞在全球迅速升溫。本文在對網(wǎng)絡(luò)大數(shù)據(jù)的內(nèi)涵及其“5V”特征進行了一定深度闡述的基礎(chǔ)上,著重總結(jié)分析了網(wǎng)絡(luò)大數(shù)據(jù)時代的發(fā)展現(xiàn)狀、應(yīng)用及其發(fā)展與挑戰(zhàn);以促進網(wǎng)絡(luò)大數(shù)據(jù)規(guī)模的進一步擴大發(fā)展,給人們生活帶來更大的便利。
網(wǎng)絡(luò)大數(shù)據(jù);服務(wù);“5V”;
近年來,隨著互聯(lián)網(wǎng)技術(shù)迅猛發(fā)展和智能終端的大量普及,博客、社交網(wǎng)絡(luò)、基于位置的服務(wù)LBS為代表的新型信息發(fā)布方式的不斷涌現(xiàn),以及云計算、物聯(lián)網(wǎng)等技術(shù)的興起,數(shù)據(jù)呈現(xiàn)爆發(fā)式增長,給許多行業(yè)帶來了嚴峻挑戰(zhàn)和巨大機遇,整個信息社會已經(jīng)進入了網(wǎng)絡(luò)大數(shù)據(jù)時代[1]。
網(wǎng)絡(luò)大數(shù)據(jù)蘊含著豐富的社會信息,可以看作是對真實社會的網(wǎng)絡(luò)映射。分析網(wǎng)絡(luò)大數(shù)據(jù)并發(fā)現(xiàn)其中所暗含的線索與規(guī)律,可以幫助人們更好地感知現(xiàn)在、預(yù)測未來[2]。由此可見,網(wǎng)絡(luò)大數(shù)據(jù)是現(xiàn)代信息技術(shù)的重要發(fā)展方向之一,實現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)的共享與分析將帶來不可估量的經(jīng)濟價值,同時也對社會產(chǎn)生巨大的推動作用。
(一)網(wǎng)絡(luò)大數(shù)據(jù)內(nèi)涵
大數(shù)據(jù)(BigData)一詞最早出現(xiàn)在Apache org的開源項目NUTCH中,當時科學(xué)家用大數(shù)據(jù)這個術(shù)語來描述在更新網(wǎng)絡(luò)搜索索引的同時進行批量處理或分析的大量數(shù)據(jù)集。
1970年,當代著名思想家阿爾文·托夫勒將大數(shù)據(jù)時代稱為“未來的沖擊”,并首次提出數(shù)據(jù)組織中的“信息過載”問題。在1980年,他在其《第三次浪潮》中將大數(shù)據(jù)描繪為信息社會的重要篇章,還將其稱為“第三次浪潮的華彩樂章[3]”。
什么是網(wǎng)絡(luò)大數(shù)據(jù)?目前業(yè)內(nèi)并沒有公認的說法。2010 年Apache Hadoop組織將大數(shù)據(jù)定義為,“普通的計算機軟件無法在可接受的時間范圍內(nèi)捕捉、管理、處理的規(guī)模龐大的數(shù)據(jù)集”。美國麥肯錫全球研究院2011年6月對大數(shù)據(jù)做出一份報告,即《大數(shù)據(jù):下一個創(chuàng)新、競爭和生產(chǎn)力的前沿》,指出數(shù)據(jù)是新時期的基礎(chǔ)生活資料與市場要素,重要程度不亞于物質(zhì)資產(chǎn)和人力資本,大數(shù)據(jù)將成為企業(yè)提高生產(chǎn)力和競爭力的主要方式與關(guān)鍵要素。數(shù)據(jù)成為資產(chǎn)、產(chǎn)業(yè)垂直整合、泛互聯(lián)網(wǎng)化是大數(shù)據(jù)時代的三大發(fā)展趨勢[4]。Gartner公司的MervAdrian(2011)認為,大數(shù)據(jù)超出了常用硬件環(huán)境和軟件工具在可接受的時間內(nèi)為其用戶收集、管理和處理數(shù)據(jù)的能力。Dumbill(2012)[5]采用IBM公司的觀點,認為大數(shù)據(jù)具有“3V”特點,即規(guī)模性(Volume)、多樣性(Variety)、實時性(Velocity)。大數(shù)據(jù)及其研究領(lǐng)域極具影響力的領(lǐng)導(dǎo)者的國際數(shù)據(jù)公司(IDC)就是其中之一;2011年,在該公司發(fā)布的報告中(由EMC主辦)[6],大數(shù)據(jù)被定義為:“大數(shù)據(jù)技術(shù)描述了新一代的技術(shù)和架構(gòu)體系,通過高速采集、發(fā)現(xiàn)或分析,提取各種各樣的大量數(shù)據(jù)的經(jīng)濟價值?!睆倪@一定義來看,大數(shù)據(jù)的特點可以總結(jié)為4個V,即volume、variety、velocity和value。種定義指出大數(shù)據(jù)最為核心的問題,就是如何從規(guī)模巨大、種類繁多、生成快速的數(shù)據(jù)集中挖掘價值。筆者認為這種4V定義似乎更加符合網(wǎng)絡(luò)大數(shù)據(jù)的研究價值和意義。
同時劉經(jīng)南院士[7]將網(wǎng)絡(luò)大數(shù)據(jù)歸納總結(jié)為以下幾點內(nèi)涵:
一是數(shù)據(jù)不僅規(guī)模大(>TB),且類型及結(jié)構(gòu)復(fù)雜。所謂網(wǎng)絡(luò)大數(shù)據(jù)簡單來講就是一種海量的數(shù)據(jù),往往存儲著相對較大的信息量,其信息逐漸趨向于多元化的主體,有著相對較快的更新速度和相對較低的價值密度,而這種海量大數(shù)據(jù)有著非結(jié)構(gòu)化的主要特點[8]。不是當前的數(shù)據(jù)管理、存儲、處理軟件和硬件體系在可接受時間內(nèi)能解決的;顯然,大數(shù)據(jù)只會是計算機網(wǎng)絡(luò)與互聯(lián)網(wǎng)上產(chǎn)生和運轉(zhuǎn)的數(shù)據(jù)。
二是大數(shù)據(jù)是高容量、高速率、高度多樣的信息資產(chǎn),需要新的處理方式來強化決策支持,觀點發(fā)現(xiàn)和過程優(yōu)化。
三是相關(guān)關(guān)系超過因果關(guān)系。海量數(shù)據(jù)隱含著更準確的事實,研究發(fā)現(xiàn),大數(shù)據(jù)量可顯著提高機器學(xué)習(xí)算法的準確性;大數(shù)據(jù)集的簡單算法能比小數(shù)據(jù)集上的復(fù)雜算法生成更好的結(jié)果。
四是大樣本數(shù)據(jù)≈全體數(shù)據(jù)。不再依賴隨機采樣,數(shù)據(jù)直接表達問題本身,甚至可以從中挖掘新的問題。
五是“數(shù)據(jù)即服務(wù)”正在被廣泛接受:對數(shù)據(jù)在其生命周期中的價值加以利用,通過對高價值數(shù)據(jù)的實時發(fā)掘、處理和聚合,還能創(chuàng)造新的價值,有時一條微博就具有顛覆性的價值。
(二)網(wǎng)絡(luò)大數(shù)據(jù)的數(shù)據(jù)源
那么網(wǎng)絡(luò)大數(shù)據(jù)主要來源于哪里呢?從數(shù)據(jù)來源性質(zhì)方面來看,主要歸納為兩方面:一是來自物理世界的數(shù)據(jù);二是來自人類社會數(shù)據(jù)。這兩類數(shù)據(jù)包含的數(shù)據(jù)種類繁多,數(shù)據(jù)類型多元化。物理世界的數(shù)據(jù)是指通過傳感器、科學(xué)觀測獲得的,如地理時空數(shù)據(jù)、氣象環(huán)境數(shù)據(jù)、生物特征數(shù)據(jù)、衛(wèi)星遙感數(shù)據(jù)、天文觀測數(shù)據(jù)等。人類社會數(shù)據(jù)是指來自人類社會活動產(chǎn)生的數(shù)據(jù),如社交網(wǎng)絡(luò)數(shù)據(jù)、金融貿(mào)易活動數(shù)據(jù)、經(jīng)濟產(chǎn)業(yè)網(wǎng)數(shù)據(jù)、軍事安全數(shù)據(jù)、車輛交通數(shù)據(jù)、通訊信息數(shù)據(jù)、視頻監(jiān)控數(shù)據(jù)等。
從社會宏觀角度來看,可以根據(jù)其使用主體分為三類,即政府大數(shù)據(jù)、企業(yè)大數(shù)據(jù)、個人大數(shù)據(jù)。政府大數(shù)據(jù):各級政府各個機構(gòu)擁有海量的原始數(shù)據(jù),構(gòu)成社會發(fā)展與運行的基礎(chǔ),包括形形色色的環(huán)保、氣象、電力等生活數(shù)據(jù),道路交通、自來水、住房等公共數(shù)據(jù),安全、海關(guān)、旅游等管理數(shù)據(jù),教育、醫(yī)療、信用及金融等服務(wù)數(shù)據(jù)。企業(yè)大數(shù)據(jù):隨著信息技術(shù)的發(fā)展,數(shù)據(jù)成為企業(yè)的核心資產(chǎn)和基本要素,數(shù)據(jù)變成產(chǎn)業(yè)進而成長為供應(yīng)鏈模式,慢慢連接為貫通的數(shù)據(jù)供應(yīng)鏈?;ヂ?lián)網(wǎng)時代,互相自由連通的外部數(shù)據(jù)的重要性逐漸超過單一的內(nèi)部數(shù)據(jù),企業(yè)個體的內(nèi)部數(shù)據(jù)更是難以和整個互聯(lián)網(wǎng)數(shù)據(jù)相提并論。綜合提供數(shù)據(jù),推動數(shù)據(jù)應(yīng)用、整合數(shù)據(jù)加工的新型公司明顯具有競爭優(yōu)勢。個人大數(shù)據(jù):每人都能通過互聯(lián)網(wǎng)建立屬于自己的信息中心,積累、記錄、采集、儲存?zhèn)€人的一切大數(shù)據(jù)信息[9]。
這些大數(shù)據(jù)通過互聯(lián)網(wǎng)的傳播與共享,根據(jù)國際數(shù)據(jù)公司(IDC)的研究報告稱,全球90%的數(shù)據(jù)為近兩年產(chǎn)生,截止2012年全球數(shù)據(jù)量約為2.8ZB(1ZB=103EB=109TB),全球每天生產(chǎn)約7.8EB的數(shù)據(jù),未來十年將以40%的速度增長,并預(yù)測全球數(shù)據(jù)量到2020年將達到40ZB。
中國互聯(lián)網(wǎng)行業(yè)持有數(shù)據(jù)總量達到1.9EB;2011年,全球被創(chuàng)建和復(fù)制數(shù)據(jù)量為1.8ZB;2013年,我們生成這樣規(guī)模的信息量只需10分鐘。”這是互聯(lián)網(wǎng)數(shù)據(jù)中心(DCCI)在2012 年7月26日的“Adworld2012互動營銷世界”給出的一組數(shù)據(jù)。由這些數(shù)據(jù)可以看出,數(shù)據(jù)是互聯(lián)網(wǎng)時代人、機、物三者交互的語言媒介,人通過數(shù)據(jù)對連入網(wǎng)絡(luò)的計算機和產(chǎn)品進行控制,同時它們也通過數(shù)據(jù)流向人反饋所得出的結(jié)果或是收集到的所得。隨著互聯(lián)網(wǎng)的全民化普及,和物聯(lián)網(wǎng)的大大發(fā)展,數(shù)據(jù)量呈現(xiàn)了爆炸式的增長,完全超過了摩爾定律的18個月翻一番[10]。
圖1 .IDC全球數(shù)據(jù)量預(yù)測
(三)網(wǎng)絡(luò)大數(shù)據(jù)的“5V”特點
根據(jù)國際數(shù)據(jù)公司(IDC)給出的網(wǎng)絡(luò)大數(shù)據(jù)的“4V”特點外,劉念真則認為網(wǎng)絡(luò)大數(shù)據(jù)還應(yīng)具有不定性(Veracity)特點,即“5V”特點:
Volume,數(shù)據(jù)量巨大。大數(shù)據(jù)通常指10TB規(guī)模以上的數(shù)據(jù)量。由于互聯(lián)網(wǎng)的快捷方便,許多終端產(chǎn)品都接入互聯(lián)網(wǎng),如此多的聯(lián)網(wǎng)的終端產(chǎn)品每天都會產(chǎn)生巨大的數(shù)據(jù)量。例如,手機、平板電腦、PC終端的通話、瀏覽網(wǎng)頁等都會產(chǎn)生數(shù)據(jù)并被一些部門或者公司加以利用、分析或儲存。2015年約有150億設(shè)備聯(lián)網(wǎng);未來每18個月產(chǎn)生的數(shù)據(jù)量等于有史以來的數(shù)據(jù)量之和。
Variety,數(shù)據(jù)種類繁多。不同形式(音頻,文本,圖像和視頻等);異構(gòu)以及非結(jié)構(gòu)化。隨著傳感器種類的增多以及智能設(shè)備、社交網(wǎng)絡(luò)等的流行,數(shù)據(jù)類型也變得更加多種多樣化,不僅包括傳統(tǒng)的關(guān)系數(shù)據(jù)類型,還有我們?yōu)g覽的網(wǎng)頁,上傳的音頻和視頻,以及我們發(fā)送和接收的E-mail等形式存在的未加工的、半結(jié)構(gòu)化的和非結(jié)構(gòu)化的數(shù)據(jù)。例如:Facebook每天都有數(shù)以億計的狀態(tài)更新,2012年1月,Youtube網(wǎng)站的視頻日上傳量就達到了40億,每分鐘上傳視頻長度約60個小時。
Velocity,流動速度快。我們之前的數(shù)據(jù)處理大多是在自己的電腦上,或者機構(gòu)的大型計算機上進行,受限制于互聯(lián)網(wǎng)發(fā)展的不夠發(fā)達,傳輸速度的不夠迅速,數(shù)據(jù)流通量很小,速度慢。如今我們的網(wǎng)絡(luò)已經(jīng)足夠發(fā)達,傳輸速度有了很大的提升,但是數(shù)據(jù)量也開始急劇增加,現(xiàn)在我們強調(diào)的是數(shù)據(jù)的快速動態(tài)變化,形成流式數(shù)據(jù)是大數(shù)據(jù)的一個重要特征。每分鐘Google有200萬次查詢;流數(shù)據(jù),實時響應(yīng)(毫秒級)
Value,價值密度低。大量的不相關(guān)信息;高價值總量,低價值密度;深度復(fù)雜分析(機器學(xué)習(xí)和人工智能)在大數(shù)據(jù)時代來臨的今天,數(shù)據(jù)量呈指數(shù)增長,隱藏在數(shù)據(jù)中的有用信息的比例卻沒有增長,這無疑給我們在巨量的數(shù)據(jù)中獲取有用信息增加了巨大難度。例如:每天數(shù)十億條的搜索申請中,只有對少數(shù)固定詞條的搜索量對某些分析有用處;每天24小時的監(jiān)控錄像中,只有那么1、2秒的畫面是有用處的等等。
Veracity,不定性。不連貫的語法或語義;即由數(shù)據(jù)不一致和不完整引發(fā)的不確定性;真?zhèn)坞y辨。
圖2 .網(wǎng)絡(luò)大數(shù)據(jù)的“5V”特征
(一)網(wǎng)絡(luò)大數(shù)據(jù)發(fā)展現(xiàn)狀
1.全球網(wǎng)絡(luò)信息化邁入大數(shù)據(jù)時代?!熬W(wǎng)絡(luò)大數(shù)據(jù)”關(guān)鍵詞全球迅速升溫,網(wǎng)絡(luò)大數(shù)據(jù)的研究層面和內(nèi)容涉及方方面面。黃宣華在其《大數(shù)據(jù)的技術(shù)層面和主要內(nèi)容》中,將網(wǎng)絡(luò)大數(shù)據(jù)主要分為四個研究層次,分別為:應(yīng)用層、算法層、系統(tǒng)層以及平臺層。例如應(yīng)用層主要指電信、公安、金融、遙感遙測、生物制藥以及行業(yè)應(yīng)用系統(tǒng)開發(fā)等;算法層包括應(yīng)用算法層(如社會網(wǎng)絡(luò)、商業(yè)智能、三維建模與可視化計算等)和基礎(chǔ)算法層(并行化機器學(xué)習(xí)與數(shù)據(jù)挖掘算法等)。
2.網(wǎng)絡(luò)大數(shù)據(jù)成為各國關(guān)注的戰(zhàn)略資源。奧巴馬政府更是將大數(shù)據(jù)戰(zhàn)略提升為國家戰(zhàn)略。奧巴馬政府為了進一步推動大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,在2012年宣布投資2億美元,將大數(shù)據(jù)看作未來的新資源,像石油一樣重要,一個國家擁有的數(shù)據(jù)規(guī)模及運用的能力將成為綜合國力的重要組成部分,對數(shù)據(jù)的占有權(quán)和控制權(quán)將成為陸權(quán)、海權(quán)、空權(quán)之外的國家核心權(quán)力。數(shù)據(jù)成為和土地、資本、人力同樣重要的關(guān)鍵生產(chǎn)要素。從我國整體投資規(guī)模來看,到2012年底全國開建智慧城市的城市數(shù)超過180個,通信網(wǎng)絡(luò)和數(shù)據(jù)平臺等基礎(chǔ)設(shè)施建設(shè)投資規(guī)模接近5000億元,“十二五”期間智慧城市建設(shè)將成為大規(guī)模投資的重點,僅僅設(shè)備等基礎(chǔ)投資將達1萬億元人民幣。建設(shè)智慧城市各方面各層級的決策都離不開大數(shù)據(jù)支持[10]。
(二)網(wǎng)絡(luò)大數(shù)據(jù)時代下的機遇與挑戰(zhàn)
網(wǎng)絡(luò)大數(shù)據(jù)研究正處在期望膨脹期,距離成熟期還需要5~10年時間[11]。在此初期階段,仍需要進行更多的研究工作。2012年7月10日,聯(lián)合國發(fā)布《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)和機遇》,這就意味著網(wǎng)絡(luò)大數(shù)據(jù)將面臨著許多的機遇和挑戰(zhàn)。
1.網(wǎng)絡(luò)大數(shù)據(jù)時代下將呈現(xiàn)出諸多的機遇。一是網(wǎng)絡(luò)大數(shù)據(jù)可以為智能交通、資源管理、健康監(jiān)測、公共安全、政務(wù)管理、商業(yè)模型等智慧城市各領(lǐng)域提供全方面的支撐;二是網(wǎng)絡(luò)大數(shù)據(jù)可以很好地滿足精密農(nóng)業(yè)對定位精度的要求;三是網(wǎng)絡(luò)大數(shù)據(jù)還可以為應(yīng)急管理、天氣預(yù)報等提供有力的支持等。
2.同時網(wǎng)絡(luò)大數(shù)據(jù)時代下也將面臨著許多的挑戰(zhàn)。一是網(wǎng)絡(luò)大數(shù)據(jù)面臨著許多科學(xué)問題,例如數(shù)據(jù)復(fù)雜度理論、數(shù)據(jù)的復(fù)雜計算理論、數(shù)據(jù)全生命周期的系統(tǒng)架構(gòu)與效能模型以及數(shù)據(jù)科學(xué)的分類譜系等;二是同時網(wǎng)絡(luò)大數(shù)據(jù)還面臨著許多技術(shù)問題,例如數(shù)據(jù)的感知、融合與表達,數(shù)據(jù)存儲管理,數(shù)據(jù)挖掘,計算推斷和數(shù)據(jù)可視化等問題;三是同時網(wǎng)絡(luò)大數(shù)據(jù)還面臨著許多應(yīng)用問題,例如數(shù)據(jù)的資源化與共享、領(lǐng)域應(yīng)用需求和計算模型、安全與隱私問題、產(chǎn)業(yè)鏈及產(chǎn)業(yè)生態(tài)等問題。
大數(shù)據(jù)正在引發(fā)一場思維革命,大數(shù)據(jù)正在改變?nèi)藗兛疾焓澜绲姆绞椒椒?,以前所未有的速度引起社會、?jīng)濟、學(xué)術(shù)、科研、國防、軍事等領(lǐng)域的深刻變革。大數(shù)據(jù)除了將更好的解決商業(yè)問題,科技問題,還有各種社會問題,形成以人為本的大數(shù)據(jù)戰(zhàn)略[9]。
[1]王仿坤.網(wǎng)絡(luò)大數(shù)據(jù)技術(shù)與應(yīng)用[J].電信技術(shù),2015,(06):10-13.
[2]程學(xué)旗,王元卓,靳小龍.網(wǎng)絡(luò)大數(shù)據(jù)計算技術(shù)與應(yīng)用綜述[J].科研信息化技術(shù)與應(yīng)用,2013,(06):3-14.
[3]阿爾文·托夫勒.第三次浪潮[M].朱志焱譯.北京:新華出版社,1996.
[4]http://www.teradatamagazine.com/v11n01/Features/Big-Data/:MervAdrian.BigData[N/OL].Teradata Magazine.
[5]Edd Dumbill.WhatIsBigData[EB/oL].http://strata.oreilly.com/2012/01/what-is-big-data.html,2013.1.24.
[6]GantzJ,ReinselD.Extractingvalue fromchaos.IDC iView,2011:1-12.
[7]劉經(jīng)南,方媛,郭遲,高柯夫.位置大數(shù)據(jù)的分析處理研究進展[J].武漢大學(xué)學(xué)報(信息科學(xué)版),2014,04:379-385.
[8]袁永波,胡元蓉.探析大數(shù)據(jù)時代下的網(wǎng)絡(luò)安全問題[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2015,02:165-168.
[9]張?zhí)m廷.大數(shù)據(jù)的社會價值與戰(zhàn)略選擇[D].北京:中共中央黨校,2014.
[10]王浩.大數(shù)據(jù)時代下的思維方式變革[D].上海:東華大學(xué),2015.
[11]張引,陳敏,廖小飛.大數(shù)據(jù)應(yīng)用的現(xiàn)狀與展望[J].計算機研究與發(fā)展,2013,(02):216-233.
(編輯:張瓊瓊)
TP311
A
1673-9019(2016)04-0021-04
2016-01-15
王勇(1984-),男,寧夏固原人,助理工程師,主要從事大數(shù)據(jù)在廣播電視節(jié)目內(nèi)容監(jiān)管中應(yīng)用的研究。