朱揚(yáng)勇,熊 赟
1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203;2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室(復(fù)旦大學(xué)) 上海 201203
大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用
朱揚(yáng)勇1,2,熊 赟1,2
1. 復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203;2. 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室(復(fù)旦大學(xué)) 上海 201203
通常認(rèn)為大數(shù)據(jù)是一個(gè)現(xiàn)有技術(shù)難以處理的復(fù)雜而龐大的數(shù)據(jù)集,這將導(dǎo)致一個(gè)謬誤的出現(xiàn):大數(shù)據(jù)都不能被處理,能處理的都不是大數(shù)據(jù)。顯然,如何定義大數(shù)據(jù)是一個(gè)問題。分析了已有的大數(shù)據(jù)定義和現(xiàn)象,發(fā)現(xiàn)數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的三要素,定義大數(shù)據(jù)是為決策提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。其中,大數(shù)據(jù)集是指一個(gè)決策問題所用到的所有可能的數(shù)據(jù),而不是一個(gè)領(lǐng)域的所有數(shù)據(jù)。還給出了大數(shù)據(jù)應(yīng)用遇到的問題及技術(shù)挑戰(zhàn),并指出大數(shù)據(jù)未來的研究方向。
大數(shù)據(jù);數(shù)據(jù)科學(xué);數(shù)據(jù)界
1997年NASA研究員Michael Cox和David Ellsworth在IEEE第8屆國際可視化學(xué)術(shù)會議中首先提出了“大數(shù)據(jù)”術(shù)語[1],但并沒有引起太多重視;2008年9月《Nature》學(xué)術(shù)雜志出版了一期大數(shù)據(jù)??痆2],使得大數(shù)據(jù)在科學(xué)研究領(lǐng)域得到了高度重視;2012年3月美國政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》[2],大數(shù)據(jù)引起了主要國家和全社會的重視。一場大數(shù)據(jù)引發(fā)的變革滲透到各個(gè)角落。
一個(gè)概念讓政治界、商業(yè)界、學(xué)術(shù)界的各個(gè)領(lǐng)域都為之興奮不已,超過了當(dāng)年計(jì)算機(jī)的誕生,也超過了互聯(lián)網(wǎng)的誕生。大數(shù)據(jù)引起政治界重視,世界強(qiáng)國推出大數(shù)據(jù)戰(zhàn)略,說明大數(shù)據(jù)關(guān)系到國家競爭力、關(guān)系到國家發(fā)展、關(guān)系到國民大眾;大數(shù)據(jù)引起商業(yè)界重視,跨國公司率先運(yùn)用大數(shù)據(jù),說明大數(shù)據(jù)已經(jīng)實(shí)用,商業(yè)價(jià)值重大,是企業(yè)競爭的利器;大數(shù)據(jù)引起學(xué)術(shù)界重視,說明大數(shù)據(jù)科學(xué)問題眾多,需要科技攻關(guān)。
然而,關(guān)于什么是大數(shù)據(jù)卻眾說紛紜,以至于出現(xiàn)一些相互矛盾的現(xiàn)象,最典型的矛盾現(xiàn)象是:技術(shù)領(lǐng)域說大數(shù)據(jù)是當(dāng)前技術(shù)所不能解決的,而應(yīng)用領(lǐng)域卻給出了大量關(guān)于大數(shù)據(jù)成功應(yīng)用的案例?!按髷?shù)據(jù)都不能被處理,能夠處理的都不是大數(shù)據(jù)”或者“大數(shù)據(jù)都不能用,能用的都不是大數(shù)據(jù)”這是一個(gè)謬誤。事實(shí)上,到目前為止,大數(shù)據(jù)還沒有一致的定義,政治界、商業(yè)界、學(xué)術(shù)界按照各自的理解推進(jìn)大數(shù)據(jù)。甚至在信息技術(shù)領(lǐng)域,大數(shù)據(jù)概念也是爭論不休的,各研究方向也都帶上了大數(shù)據(jù)的帽子,似乎大數(shù)據(jù)技術(shù)將取代信息技術(shù),這顯然是有問題的。
本文探尋大數(shù)據(jù)概念的內(nèi)涵、大數(shù)據(jù)問題和技術(shù)挑戰(zhàn),給出了一個(gè)大數(shù)據(jù)的定義,指出了大數(shù)據(jù)應(yīng)用面臨的6個(gè)問題(以下簡稱“6用問題”),分析了信息化和大數(shù)據(jù)的差異,提出了“6用問題”帶來的技術(shù)挑戰(zhàn),并進(jìn)行了展望。
嚴(yán)格地說,到目前為止,還沒有一個(gè)明確的大數(shù)據(jù)定義,各領(lǐng)域按照自己的理解來研究和發(fā)展大數(shù)據(jù)。最直接的問題是大數(shù)據(jù)是數(shù)據(jù)還是技術(shù)?顯然,這個(gè)問題并不容易回答。
2.1 現(xiàn)有定義的問題
目前,大數(shù)據(jù)有如下幾個(gè)定義。
Michael Cox和David Ellsworth在提出“大數(shù)據(jù)”術(shù)語時(shí)指出:數(shù)據(jù)大到內(nèi)存、本地磁盤甚至遠(yuǎn)程磁盤都不能處理,這類數(shù)據(jù)可視化的問題稱為大數(shù)據(jù)[1]。
維基百科的定義[3]:大數(shù)據(jù)是一個(gè)復(fù)雜而龐大的數(shù)據(jù)集,以至于很難用現(xiàn)有的數(shù)據(jù)庫管理系統(tǒng)和其他數(shù)據(jù)處理技術(shù)來采集、存儲、查找、共享、傳送、分析和可視化。
4V定義[4,5]:大數(shù)據(jù)為具有4V特征的數(shù)據(jù)集。4V特征是指:價(jià)值(value),數(shù)據(jù)價(jià)值巨大但價(jià)值密度低;時(shí)效(velocity),數(shù)據(jù)處理分析要在希望的時(shí)間內(nèi)完成;多樣(variety),數(shù)據(jù)來源和形式都是多樣的;大量(volume),就目前技術(shù)而言,數(shù)據(jù)量要達(dá)到PB級別以上。
香山科學(xué)會議定義[6]:2013年5月召開的第462次香山科學(xué)會議給出了技術(shù)型和非技術(shù)型兩個(gè)定義。
● 技術(shù)型定義:大數(shù)據(jù)是來源多樣、類型多樣、大而復(fù)雜、具有潛在價(jià)值,但難以在期望時(shí)間內(nèi)處理和分析的數(shù)據(jù)集。
● 非技術(shù)型定義:大數(shù)據(jù)是數(shù)字化生存時(shí)代的新型戰(zhàn)略資源,是驅(qū)動(dòng)創(chuàng)新的重要因素,正在改變?nèi)祟惖纳a(chǎn)和生活方式。
這些定義總體來講是從技術(shù)領(lǐng)域看問題的??梢钥闯?,大數(shù)據(jù)是難以處理的數(shù)據(jù)集,即大數(shù)據(jù)是一個(gè)數(shù)據(jù)集。但是,如果大數(shù)據(jù)只是一個(gè)數(shù)據(jù)集,那么處理大數(shù)據(jù)的技術(shù)叫大數(shù)據(jù)技術(shù)嗎?與之前的信息技術(shù)是否有區(qū)別?在應(yīng)用方面更難說清楚。例如,是否可以說“用大數(shù)據(jù)解決問題”?顯然,一個(gè)數(shù)據(jù)集是不能解決任何問題的。所以,大數(shù)據(jù)不僅僅是數(shù)據(jù)集,但也不僅僅是技術(shù),還有大數(shù)據(jù)應(yīng)用。
上述定義最大的問題是,均認(rèn)為大數(shù)據(jù)是指當(dāng)前技術(shù)難以(所不能)處理的數(shù)據(jù)集。但當(dāng)技術(shù)改進(jìn)了,能夠處理了,還是不是大數(shù)據(jù)?于是,一個(gè)典型的矛盾現(xiàn)象出現(xiàn):技術(shù)領(lǐng)域說大數(shù)據(jù)是當(dāng)前技術(shù)所不能解決的數(shù)據(jù)集,而應(yīng)用領(lǐng)域卻給出了大量關(guān)于大數(shù)據(jù)成功應(yīng)用的案例。這是對大數(shù)據(jù)的謬誤:大數(shù)據(jù)是當(dāng)前技術(shù)難以(所不能)處理的數(shù)據(jù)集,那么,所有能夠被處理的數(shù)據(jù)集都不是大數(shù)據(jù),所以沒有大數(shù)據(jù)的成功應(yīng)用,即“大數(shù)據(jù)都不能被處理,能夠處理的都不是大數(shù)據(jù)”或者“大數(shù)據(jù)都不能用,能用的都不是大數(shù)據(jù)”。
另外一個(gè)現(xiàn)象是大數(shù)據(jù)之爭,即常常有各種領(lǐng)域的人在一起爭論什么是大數(shù)據(jù)。由于技術(shù)領(lǐng)域和非技術(shù)領(lǐng)域?qū)Υ髷?shù)據(jù)的理解不同,這兩個(gè)領(lǐng)域談?wù)摰膶ο笃鋵?shí)是不同的,技術(shù)領(lǐng)域說的大數(shù)據(jù)是指大數(shù)據(jù)技術(shù),而應(yīng)用領(lǐng)域說的大數(shù)據(jù)是指大數(shù)據(jù)應(yīng)用。事實(shí)上,經(jīng)過長期信息化建設(shè),幾乎所有的行業(yè)和單位都積累了龐大的數(shù)據(jù)資源,所以,數(shù)據(jù)和基于數(shù)據(jù)的應(yīng)用涉及幾乎所有的人??梢詫⒋髷?shù)據(jù)人群分成3類:有大數(shù)據(jù)的人群、做大數(shù)據(jù)的人群和用大數(shù)據(jù)的人群,很多時(shí)候大家在談?wù)摯髷?shù)據(jù)的時(shí)候,實(shí)際上是在談?wù)摬煌臇|西,即有大數(shù)據(jù)的人談?wù)摂?shù)據(jù)資源及其規(guī)模、做大數(shù)據(jù)的人談?wù)摯髷?shù)據(jù)帶來的技術(shù)挑戰(zhàn)、用大數(shù)據(jù)的人則談?wù)摯髷?shù)據(jù)帶來的決策變革,即3類人群談?wù)摰氖遣煌拇髷?shù)據(jù)概念。
出現(xiàn)大數(shù)據(jù)謬誤和大數(shù)據(jù)之爭的現(xiàn)象源于大數(shù)據(jù)概念不清晰,需要一個(gè)清晰的定義來避免這些現(xiàn)象的發(fā)生。
2.2 數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的3要素
大數(shù)據(jù)到底是數(shù)據(jù)、技術(shù),還是應(yīng)用?
大數(shù)據(jù)首先是一個(gè)技術(shù)術(shù)語,來自技術(shù)領(lǐng)域,或者更準(zhǔn)確一點(diǎn)是來自IT(information technology)領(lǐng)域。自Michael Cox和David Ellsworth[1]于1997年首次提出“大數(shù)據(jù)”以來,在術(shù)語發(fā)展過程中,始終提及的大數(shù)據(jù)問題是指“現(xiàn)有技術(shù)所不能處理的數(shù)據(jù)集”,即大數(shù)據(jù)是一個(gè)技術(shù)挑戰(zhàn)。直到2012年3月美國政府發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》[2],大數(shù)據(jù)一詞開始在非技術(shù)領(lǐng)域使用。大數(shù)據(jù)在非技術(shù)領(lǐng)域的主要表述為:大數(shù)據(jù)是決策方式的重大變革,決策依靠數(shù)據(jù)分析而不是直覺經(jīng)驗(yàn),主要的內(nèi)涵是“大數(shù)據(jù)改變了人類生產(chǎn)和生活方式,是一次大變革”[6,7]。
大數(shù)據(jù)的4V定義涵蓋了所有技術(shù)型定義,也是影響最廣泛的,但在具體理解和具體問題面前,還是引起了很多爭論。例如,常常會爭論一個(gè)數(shù)據(jù)集是不是大數(shù)據(jù),即夠不夠大,是否達(dá)到了PB級別。顯然,這只是問題的表面。問題的核心是:一個(gè)數(shù)據(jù)集是否有價(jià)值、是否值得去開發(fā)、能否挖掘出價(jià)值;能否在希望的時(shí)間內(nèi)挖掘出價(jià)值。因此,價(jià)值和時(shí)效是大數(shù)據(jù)的核心內(nèi)涵,是必須的。
(1)關(guān)于價(jià)值:如果一個(gè)數(shù)據(jù)集沒有價(jià)值,就不需要關(guān)注;如果一個(gè)數(shù)據(jù)集的價(jià)值密度高,即大部分?jǐn)?shù)據(jù)都是有價(jià)值的,直接讀取數(shù)據(jù)集就能獲得價(jià)值,可以成功應(yīng)用,沒有技術(shù)難度。然而,通常情況是價(jià)值巨大但價(jià)值密度低,像大海撈針,因此大數(shù)據(jù)是一個(gè)很難的技術(shù)挑戰(zhàn)。
(2)關(guān)于時(shí)效:所有的大數(shù)據(jù)處理和分析都應(yīng)該在希望的時(shí)間內(nèi)做完,如果過了希望的時(shí)間就沒有意義了,這也是一個(gè)技術(shù)挑戰(zhàn)。
從上述定義中可以看出:首先,所有的定義都談到了數(shù)據(jù),一個(gè)龐大的數(shù)據(jù)集;其次,技術(shù)方面強(qiáng)調(diào)了大數(shù)據(jù)是當(dāng)前技術(shù)所不能的,這里的“不能”是指“不能在希望的時(shí)間內(nèi)”做到,是技術(shù)問題;第三,大數(shù)據(jù)是用來解決決策應(yīng)用問題的,是一個(gè)基于數(shù)據(jù)集和數(shù)據(jù)技術(shù)的決策應(yīng)用,改變著生產(chǎn)和生活中的決策方式。因此,數(shù)據(jù)、技術(shù)和應(yīng)用是大數(shù)據(jù)的3個(gè)要素,數(shù)據(jù)隱含價(jià)值、技術(shù)發(fā)現(xiàn)價(jià)值、應(yīng)用實(shí)現(xiàn)價(jià)值。
2.3 定義大數(shù)據(jù)
應(yīng)該如何定義大數(shù)據(jù)呢?首先,不能把一個(gè)技術(shù)挑戰(zhàn)定義為大數(shù)據(jù),否則,一旦技術(shù)挑戰(zhàn)解決了,就不是大數(shù)據(jù)了,而且挑戰(zhàn)本身不是一個(gè)事物,不能命名;其次,也不能把一個(gè)數(shù)據(jù)集定義為大數(shù)據(jù),數(shù)據(jù)集本身只是隱含價(jià)值,不能直接發(fā)揮作用;最后,更不能將一個(gè)數(shù)據(jù)應(yīng)用定義為大數(shù)據(jù),那樣會導(dǎo)致所有基于數(shù)據(jù)的系統(tǒng)都是大數(shù)據(jù)??梢圆捎萌缦旅枋龆x大數(shù)據(jù)。
大數(shù)據(jù)是指為決策問題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。其中,大數(shù)據(jù)集是指一個(gè)決策問題所用到的所有可能的數(shù)據(jù),通常數(shù)據(jù)量巨大、來源多樣、類型多樣;大數(shù)據(jù)技術(shù)是指大數(shù)據(jù)資源獲取、存儲管理、挖掘分析、可視展現(xiàn)等技術(shù);大數(shù)據(jù)應(yīng)用是指用大數(shù)據(jù)集和大數(shù)據(jù)技術(shù)來支持決策活動(dòng),是新的決策方法。
大數(shù)據(jù)能否為一個(gè)決策問題提供服務(wù)的關(guān)鍵是:是否能在決策希望的時(shí)間內(nèi)有效完成所有的任務(wù)。由于數(shù)據(jù)增長的速度遠(yuǎn)快于技術(shù)進(jìn)步的速度,因此就出現(xiàn)大數(shù)據(jù)問題。
大數(shù)據(jù)問題是指不能用當(dāng)前技術(shù)在決策希望的時(shí)間內(nèi)處理分析的數(shù)據(jù)資源開發(fā)利用問題。大數(shù)據(jù)問題的關(guān)鍵技術(shù)挑戰(zhàn)在于:找到隱含在低價(jià)值密度數(shù)據(jù)資源中的價(jià)值;在希望的時(shí)間內(nèi)完成所有的任務(wù)。
根據(jù)這個(gè)定義,大數(shù)據(jù)謬誤和大數(shù)據(jù)之爭就可以避免。
首先,給定一個(gè)大數(shù)據(jù)集,當(dāng)沒有大數(shù)據(jù)技術(shù)能夠在希望的時(shí)間內(nèi)開發(fā)其價(jià)值,那么該大數(shù)據(jù)是一個(gè)技術(shù)挑戰(zhàn),否則就是一個(gè)大數(shù)據(jù)應(yīng)用。需要注意的是,一個(gè)大數(shù)據(jù)應(yīng)用可能會轉(zhuǎn)化成大數(shù)據(jù)的技術(shù)挑戰(zhàn)。例如,無人駕駛汽車在道路上行駛時(shí),需要綜合分析汽車自身的工作數(shù)據(jù)(行駛速度、油量、引擎工作狀態(tài)等)、地圖及實(shí)時(shí)路況數(shù)據(jù)、道路管理數(shù)據(jù)(紅綠燈、限速等)等,快速做出駕駛決策。假設(shè)汽車10 km剎車距離為45 m,那么當(dāng)汽車時(shí)速小于60 km/h時(shí),發(fā)現(xiàn)50 m外車道上有行人后,經(jīng)過2 s的數(shù)據(jù)分析得出需要?jiǎng)x車的結(jié)論是可以接受的,因此是一個(gè)成功的大數(shù)據(jù)應(yīng)用;但當(dāng)車速提高到100 km/h時(shí),數(shù)據(jù)分析的時(shí)間就得小于0.18 s,這就變成了技術(shù)挑戰(zhàn)。反之,一個(gè)大數(shù)據(jù)挑戰(zhàn)也同樣可以變成一個(gè)大數(shù)據(jù)應(yīng)用。上述例中,在高速公路上數(shù)據(jù)分析的時(shí)間小于0.18 s,這是一個(gè)大數(shù)據(jù)技術(shù)挑戰(zhàn),但是,如果市內(nèi)汽車限速為小于50 km/h,那么2 s的數(shù)據(jù)分析技術(shù)就可以使用,就會有成功的大數(shù)據(jù)應(yīng)用。
其次,有數(shù)據(jù)的、做數(shù)據(jù)的、用數(shù)據(jù)的人群談?wù)摰拇髷?shù)據(jù)分別是大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用,所以不同人群談?wù)摰拇髷?shù)據(jù)只是大數(shù)據(jù)的不同側(cè)面,分析清楚后就可以避免無謂的爭論。
2.4 信息化與大數(shù)據(jù)
信息化的本質(zhì)是生產(chǎn)數(shù)據(jù)的過程,數(shù)據(jù)被大量生產(chǎn)而形成了數(shù)據(jù)資源。數(shù)據(jù)資源的開發(fā)利用逐漸成為人類的新需求,從早期的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)的提出,到?jīng)Q策支持系統(tǒng)和商業(yè)智能的應(yīng)用,都是在進(jìn)行數(shù)據(jù)資源的開發(fā)利用工作。直到大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)資源的開發(fā)利用工作從量變發(fā)展到了質(zhì)變:數(shù)據(jù)開發(fā)發(fā)展成為一個(gè)新的領(lǐng)域或行業(yè),信息技術(shù)發(fā)展出新的技術(shù)分支——大數(shù)據(jù)技術(shù),并迅速壯大,對數(shù)據(jù)界的探索發(fā)展成為一個(gè)新的科學(xué)——數(shù)據(jù)科學(xué)[8~11]。圖1展示了信息化和大數(shù)據(jù)的差異。
圖1 信息化與大數(shù)據(jù)
大數(shù)據(jù)應(yīng)用是決策應(yīng)用,即給定一個(gè)決策需求,然后獲取數(shù)據(jù),分析數(shù)據(jù),形成決策依據(jù)。很早期的關(guān)于沃爾瑪公司的“尿布和啤酒”的故事,決策需求是“哪些商品最容易被同時(shí)購買”。其他如Google預(yù)測流感[12]、亞馬遜推薦圖書[13]、科學(xué)家發(fā)現(xiàn)“上帝粒子”[14]等,都是解決決策應(yīng)用的。
2008年《Nature》大數(shù)據(jù)??f明:科學(xué)研究領(lǐng)域率先遇到大數(shù)據(jù)決策問題[2]。決策可以發(fā)生在任何場合,大到國家宏觀決策、科學(xué)研究,小到選擇一家合適餐館、確定一條行車路線。由于決策的復(fù)雜性、困難性,大數(shù)據(jù)集通常是數(shù)據(jù)量巨大、來源多樣和類型多樣的數(shù)據(jù)集,這樣大數(shù)據(jù)應(yīng)用通常具有跨界數(shù)據(jù)、跨界應(yīng)用的特點(diǎn),打破原有行業(yè)領(lǐng)域界限,是決策方式的質(zhì)變。
3.1 決策依靠數(shù)據(jù)
從古到今,無論在戰(zhàn)場戰(zhàn)爭、商業(yè)競爭、科學(xué)研究、日常生活中,取勝的重要因素是比別人知道更多、比別人更快地做出正確的決策。計(jì)算機(jī)出現(xiàn)之前的決策是采用人工方式:依靠手工收集和分析信息、依靠決策者的經(jīng)驗(yàn)和直覺做出決策。后來有了計(jì)算機(jī)決策支持系統(tǒng)(decision support system,DSS),再后來有商業(yè)智能(business intelligence,BI),這個(gè)時(shí)候就可以利用自身信息化積累的數(shù)據(jù)來開展決策[15]。然而,自身的數(shù)據(jù)積累是一個(gè)漫長、費(fèi)錢和困難的工作,只有大型企業(yè)和政府有能力這樣做。
隨著技術(shù)進(jìn)步和互聯(lián)網(wǎng)的普及應(yīng)用,不論是政府、組織、企業(yè)還是個(gè)人都越來越有能力獲得決策需要的各種數(shù)據(jù),這些數(shù)據(jù)來源多樣、類型多樣,甚至超過早期大型企業(yè)自身的積累,并且數(shù)據(jù)分析技術(shù)也取得了長足進(jìn)步,人們可以通過分析這些數(shù)據(jù)得到?jīng)Q策依據(jù)。這樣,一種新型的決策方式產(chǎn)生了,這就是大數(shù)據(jù)決策。由于這是一個(gè)從量變到質(zhì)變的過程,不能簡單地說之前的BI不是大數(shù)據(jù),也不能簡單地說BI是大數(shù)據(jù)。
大數(shù)據(jù)形成決策依據(jù)的3種重要方式是:從精確分析到近似分析、從樣本分析到總體分析、從因果分析到關(guān)聯(lián)分析[16]。大數(shù)據(jù)決策主要體現(xiàn)在“通過分析不同來源的各種可能的數(shù)據(jù)來支持決策活動(dòng)”。由于大數(shù)據(jù)過于龐大和復(fù)雜,難以弄清數(shù)據(jù)之間的因果,所以大數(shù)據(jù)決策常常表現(xiàn)出“知其然就可以做出決策,而可以不知其所以然”[15]。
那么如何來實(shí)施大數(shù)據(jù)決策呢?首先,需要獲取數(shù)據(jù),并進(jìn)行數(shù)據(jù)清潔和整合,形成大數(shù)據(jù)集;然后,使用大數(shù)據(jù)技術(shù)分析大數(shù)據(jù)集;最后,解釋和展示大數(shù)據(jù)開發(fā)的結(jié)果,實(shí)現(xiàn)大數(shù)據(jù)決策。
3.2 6用問題
給定一個(gè)大數(shù)據(jù)應(yīng)用需求,通常會遇到以下6個(gè)方面的問題,即“6用問題”。
(1)數(shù)據(jù)不夠用
獲取盡可能多的數(shù)據(jù)(決策素材)是一種直覺上的追求,即數(shù)據(jù)越多對決策越有利,或者至少比別人知道的更多,雖然實(shí)際情況可能不是數(shù)據(jù)越多越好,但這很難判斷。所以,大數(shù)據(jù)應(yīng)用的第一個(gè)問題是“數(shù)據(jù)不夠用”。
(2)數(shù)據(jù)不可用
在數(shù)據(jù)夠用的情況下,還會遇到數(shù)據(jù)不可用問題。數(shù)據(jù)不可用是指擁有數(shù)據(jù),但訪問不到數(shù)據(jù)。例如,某個(gè)公共決策需要用到民政局、公安局、人力資源和社會保障局、稅務(wù)局的數(shù)據(jù),這些數(shù)據(jù)在各部門都有,但是數(shù)據(jù)不在一個(gè)系統(tǒng)里,是數(shù)據(jù)孤島,并不能用來做大數(shù)據(jù)決策;又如,一些交易系統(tǒng)只保留活躍用戶數(shù)據(jù),不活躍用戶的數(shù)據(jù)被備份到了備份系統(tǒng)中,訪問備份系統(tǒng)數(shù)據(jù)是一件費(fèi)時(shí)、費(fèi)力的工作,甚至是不可能的工作。
(3)數(shù)據(jù)不好用
面對足夠可用的數(shù)據(jù)資源,下一個(gè)問題是數(shù)據(jù)不好用問題,即數(shù)據(jù)質(zhì)量有問題。例如,信用判定應(yīng)用中,發(fā)現(xiàn)一些持卡人的登記信息缺失(如沒有職業(yè)數(shù)據(jù))或不正確(如收入數(shù)據(jù)不對),這些問題直接影響了決策依據(jù)的獲得;又如,在戰(zhàn)場環(huán)境中,由于敵方的有意偽裝和干擾,獲得的數(shù)據(jù)質(zhì)量更差。
(4)數(shù)據(jù)不會用
數(shù)據(jù)不會用問題是指不懂大數(shù)據(jù)分析技術(shù)、不會將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)分析問題,而這正是大數(shù)據(jù)決策的核心。由于數(shù)據(jù)分析技術(shù)門檻很高,能夠使用大數(shù)據(jù)分析技術(shù)的人很少,而將業(yè)務(wù)問題轉(zhuǎn)化為數(shù)據(jù)分析問題,更需要數(shù)據(jù)科學(xué)家創(chuàng)造性的勞動(dòng)。例如,在網(wǎng)站上做精準(zhǔn)廣告是一個(gè)業(yè)務(wù)問題,在理解業(yè)務(wù)問題的基礎(chǔ)上,用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)對用戶的購買喜好和需求進(jìn)行聚類分析,將廣告和用戶簇進(jìn)行對照,好的精準(zhǔn)廣告可以針對每個(gè)用戶來做。數(shù)據(jù)科學(xué)家極其短缺,使得數(shù)據(jù)不會用的問題在實(shí)際中表現(xiàn)非常嚴(yán)重。
(5)數(shù)據(jù)不敢用
數(shù)據(jù)不敢用是指因?yàn)榕聯(lián)?zé)任而將本該用起來的數(shù)據(jù)束之高閣。很多政府?dāng)?shù)據(jù)資源之所以沒有很好地開發(fā)利用,其中一個(gè)主要原因是數(shù)據(jù)擁有部門不愿意將數(shù)據(jù)用于非本部門業(yè)務(wù),怕喪失數(shù)據(jù)安全(如所有權(quán)和數(shù)據(jù)秘密)。
(6)數(shù)據(jù)不能用
數(shù)據(jù)不能用有兩個(gè)方面,一個(gè)是數(shù)據(jù)權(quán)屬問題,即數(shù)據(jù)不屬于使用者;另一個(gè)是社會問題,即隱私、倫理等問題。首先,沒有使用權(quán)的數(shù)據(jù)不能用;其次,涉及隱私的數(shù)據(jù)需要脫敏處理,或者只做總體分析,不做個(gè)體分析,例如人口統(tǒng)計(jì)數(shù)據(jù)就只能做總體分析,不能做個(gè)體分析;第三,涉及倫理等社會問題的數(shù)據(jù)也不能用,例如信用評分中的種族、民族、性別等數(shù)據(jù)就不能用。
根據(jù)本文的定義,大數(shù)據(jù)集是指解決一個(gè)決策應(yīng)用問題所用到的所有數(shù)據(jù),但不是全球的數(shù)據(jù)總和,也不是一個(gè)行業(yè)的數(shù)據(jù)總和,也不是一個(gè)組織的數(shù)據(jù)總和。但由于決策問題的復(fù)雜性,一般來講,大數(shù)據(jù)集的數(shù)據(jù)量巨大、來源多樣、類型多樣。一個(gè)決策問題用到的數(shù)據(jù)由具體的決策問題決定,有些可能數(shù)據(jù)量大但不復(fù)雜,有些可能復(fù)雜但數(shù)據(jù)量不大。
4.1 從數(shù)據(jù)界獲取大數(shù)據(jù)集
數(shù)據(jù)作為一種資源已經(jīng)獲得廣泛認(rèn)識。早在2008年,筆者提出:數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,其重要程度將越來越顯現(xiàn),在本世紀(jì)有可能超過石油、煤炭、礦產(chǎn),成為最重要的人類資源;2012年,Amazon前首席科學(xué)家Andreas Weigend表示:數(shù)據(jù)是原油,但石油需要加以提煉后才能使用,從事海量數(shù)據(jù)處理的公司就是煉油廠;2012年瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是討論的主題之一。這個(gè)論壇上發(fā)布的一份題為《大數(shù)據(jù),大影響》(big data, big impact)的報(bào)告[7]宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。
大數(shù)據(jù)是數(shù)據(jù)資源開發(fā)利用的一種當(dāng)前表現(xiàn)形式,即數(shù)據(jù)資源已經(jīng)存在于網(wǎng)絡(luò)空間,大數(shù)據(jù)是對網(wǎng)絡(luò)空間數(shù)據(jù)資源的開發(fā)利用。網(wǎng)絡(luò)空間的所有數(shù)據(jù)構(gòu)成數(shù)據(jù)界[8,9],因此,大數(shù)據(jù)可以看成用數(shù)據(jù)界的數(shù)據(jù)來解決決策問題,大數(shù)據(jù)集應(yīng)該是從數(shù)據(jù)界獲取,而不是從自然界獲取,從自然界獲取數(shù)據(jù)是信息化。
各種大數(shù)據(jù)的定義都在說大數(shù)據(jù)是數(shù)據(jù)集、資源、資產(chǎn),說明數(shù)據(jù)已經(jīng)存在于網(wǎng)絡(luò)空間。前面提到“隨著技術(shù)進(jìn)步和互聯(lián)網(wǎng)的普及應(yīng)用,不論政府、組織、企業(yè)還是個(gè)人都越來越有能力獲得決策需要的各種數(shù)據(jù),這些數(shù)據(jù)來源多樣、類型多樣,甚至超過早期大型企業(yè)自身的積累”,也說明數(shù)據(jù)來自數(shù)據(jù)界。
4.2 大數(shù)據(jù)集的要求
大數(shù)據(jù)使決策者從看到局部數(shù)據(jù)轉(zhuǎn)變?yōu)榭吹饺謹(jǐn)?shù)據(jù)、從樣本分析轉(zhuǎn)變?yōu)榭傮w分析。從局部數(shù)據(jù)到全局?jǐn)?shù)據(jù)要求數(shù)據(jù)集盡量全面,從各種來源獲取所需要的數(shù)據(jù);從樣本分析到總體分析要求數(shù)據(jù)集足夠大。因此,大數(shù)據(jù)集的要求應(yīng)該是數(shù)據(jù)量大或者復(fù)雜。
(1)大數(shù)據(jù)集應(yīng)該有來源多樣、類型多樣的數(shù)據(jù)
由于決策的復(fù)雜性、困難性,為滿足決策需求,大數(shù)據(jù)集通常由來源多樣和類型多樣的數(shù)據(jù)構(gòu)成,使用跨界數(shù)據(jù),開展跨界應(yīng)用。數(shù)據(jù)來源多樣的一個(gè)要點(diǎn)是來源于決策者/決策機(jī)構(gòu)自身積累之外,這會給數(shù)據(jù)獲取、數(shù)據(jù)分析技術(shù)帶來挑戰(zhàn),來源多樣通常也意味著類型多樣。例如,環(huán)境生態(tài)研究是進(jìn)化論、基因組學(xué)、地理學(xué)、海洋學(xué)、氣候?qū)W、流行病學(xué)和經(jīng)濟(jì)學(xué)的綜合研究,其研究工作需要有來源多樣的數(shù)據(jù)[17]。2010年位于墨西哥灣的“深水地平線(deepwater horizon oil)”鉆井平臺爆炸溢油長達(dá)80 mile(約128 km)。對溢油帶來的生態(tài)影響(如對海岸、海平面、海底的影響,對魚、蝦、昆蟲、植物、鳥類、鯨魚、海龜?shù)挠绊懙龋┑难芯渴且粋€(gè)重要課題,需要深海浮游生物(planktonic)和遠(yuǎn)洋生物(pelagic organisms)、化學(xué)(油和分散劑)、毒理學(xué)(toxicology)、海洋學(xué)(oceanography)和天文學(xué)等多源數(shù)據(jù)支持。災(zāi)難發(fā)生后,美國國家海洋和大氣管理局派出科學(xué)考察船,對污染海域進(jìn)行取樣;美國宇航局利用衛(wèi)星上的中解析度成像光譜儀對海上石油污染進(jìn)行監(jiān)測;科學(xué)家們還在陸上收集相關(guān)數(shù)據(jù);英國石油公司也展開了對該地區(qū)空氣、水質(zhì)等方面的測試。
(2)大數(shù)據(jù)集應(yīng)該有PB級別的數(shù)據(jù)規(guī)模
就目前技術(shù)水平而言,引發(fā)技術(shù)挑戰(zhàn)的大數(shù)據(jù)集的規(guī)模應(yīng)該有PB級別。PB級別的數(shù)據(jù)規(guī)模是傳統(tǒng)數(shù)據(jù)庫管理系統(tǒng)(DBMS)軟件所不能有效存放的,因此,PB級別數(shù)據(jù)規(guī)模需要新型的數(shù)據(jù)管理技術(shù),于是出現(xiàn)分布式文件系統(tǒng)(HDFS)。這只是初步解決了數(shù)據(jù)存儲問題,數(shù)據(jù)計(jì)算、數(shù)據(jù)分析、數(shù)據(jù)展現(xiàn)等方面還有很多技術(shù)問題。
2008年《Nature》大數(shù)據(jù)??姆饷嬷?,除了醒目的“big data”外,還有一句話“science in the Petabyte era(科學(xué)處在PB時(shí)代)”,這個(gè)封面有兩層意思:第一層意思是科學(xué)研究已經(jīng)到了大數(shù)據(jù)時(shí)代;第二層意思是PB級數(shù)據(jù)是大數(shù)據(jù)規(guī)模的一個(gè)基本標(biāo)志,數(shù)據(jù)量足夠大,使用時(shí)有技術(shù)難度。
在實(shí)際中,很多成功的大數(shù)據(jù)應(yīng)用的數(shù)據(jù)集規(guī)模都沒有超過PB級別,但是,由于決策者所處的計(jì)算環(huán)境、資金支持所限,很多小于PB級別的數(shù)據(jù)集已經(jīng)構(gòu)成了技術(shù)挑戰(zhàn)?!禨cience》雜志于2011年對許多數(shù)據(jù)相關(guān)研究人員(他們都是國際、交叉領(lǐng)域的科學(xué)研究團(tuán)隊(duì)的負(fù)責(zé)人)進(jìn)行了調(diào)查,收到了1 700份回應(yīng),其中,20%的人回應(yīng)一般使用和分析的數(shù)據(jù)集超過了100 GB,7%的科學(xué)家使用和分析1 TB以上的數(shù)據(jù)。一半的科學(xué)家認(rèn)為他們一般僅使用存儲于自己實(shí)驗(yàn)室的數(shù)據(jù),但這不是一個(gè)理想的解決方案。國際千人基因組計(jì)劃(1 000 genomes project)自2008年啟動(dòng)以來,短短4年間已獲得1 092人的基因組數(shù)據(jù)[18],產(chǎn)生的數(shù)據(jù)量已達(dá)到50 TB。
但在可以預(yù)見的未來,PB級別的數(shù)據(jù)量是科學(xué)研究領(lǐng)域進(jìn)行一項(xiàng)科學(xué)研究的常態(tài),也是很多領(lǐng)域的決策應(yīng)用的常態(tài)。例如,2013年3月14日,通過對大約200 PB的數(shù)據(jù)用150個(gè)計(jì)算中心進(jìn)行長達(dá)3年的計(jì)算分析,歐洲核子研究組織宣布確認(rèn)希格斯玻色子[14]。又如,美國斯坦福線性加速器中心(SLAC)國家加速器實(shí)驗(yàn)室(National Accelerator Laboratory)計(jì)劃建造的大型綜合巡天望遠(yuǎn)鏡(large synoptic survey telescope,LSST)將每晚獲取數(shù)據(jù)5~10 TB(而目前的SDSS僅有每晚200 GB),計(jì)劃獲取60 PB影像數(shù)據(jù)[19]。
面對“6用問題”,大數(shù)據(jù)技術(shù)面臨很多挑戰(zhàn)。
針對數(shù)據(jù)不夠用問題,需要研究、使用數(shù)據(jù)獲取技術(shù):如何獲取足夠的數(shù)據(jù),是大數(shù)據(jù)的第一個(gè)技術(shù)挑戰(zhàn)。大數(shù)據(jù)需要從數(shù)據(jù)界獲取跨領(lǐng)域行業(yè)、多類型的數(shù)據(jù),而不是從自然界獲取數(shù)據(jù),因此網(wǎng)絡(luò)空間的哪些地方有所需的數(shù)據(jù)、如何拿到數(shù)據(jù)等是主要的技術(shù)挑戰(zhàn),搜索、爬取、下載等是常見的數(shù)據(jù)獲取技術(shù)。
針對數(shù)據(jù)不可用問題,需要研究、使用數(shù)據(jù)儲備和管理技術(shù):數(shù)據(jù)不可用問題對技術(shù)的挑戰(zhàn)是巨量數(shù)據(jù)存儲與管理、跨地域數(shù)據(jù)訪問與計(jì)算。分布式文件系統(tǒng)、Hadoop是當(dāng)前被較多采用的技術(shù)。
針對數(shù)據(jù)不好用問題,需要研究、使用數(shù)據(jù)質(zhì)量技術(shù):數(shù)據(jù)不好用問題對技術(shù)的挑戰(zhàn)是數(shù)據(jù)質(zhì)量判定、數(shù)據(jù)質(zhì)量提升、數(shù)據(jù)質(zhì)量修復(fù)。數(shù)據(jù)清潔是當(dāng)前采用的數(shù)據(jù)質(zhì)量技術(shù),但效果有限。
針對數(shù)據(jù)不會用問題,需要研究、使用數(shù)據(jù)分析技術(shù):數(shù)據(jù)不會用問題需要既能理解業(yè)務(wù)需求又懂?dāng)?shù)據(jù)分析技術(shù)的數(shù)據(jù)科學(xué)家,其技術(shù)挑戰(zhàn)是數(shù)據(jù)挖掘算法的設(shè)計(jì)和實(shí)現(xiàn)、在可接受的時(shí)間完成計(jì)算。面對PB以上級別的復(fù)雜數(shù)據(jù),還缺少有效的數(shù)據(jù)挖掘算法和軟件工具。
針對數(shù)據(jù)不敢用問題,需要研究、使用數(shù)據(jù)開放共享技術(shù):如果技術(shù)做得好,這個(gè)問題是有希望解決的。例如,在傳統(tǒng)數(shù)據(jù)管理系統(tǒng)軟件中,數(shù)據(jù)管理員管理整個(gè)數(shù)據(jù)庫,但是他并不具備訪問具體數(shù)據(jù)的權(quán)限,因此他并不能知曉數(shù)據(jù)秘密。之前,大部分?jǐn)?shù)據(jù)都不開放,所以相應(yīng)的技術(shù)研究有很多空白。數(shù)據(jù)不敢用的技術(shù)挑戰(zhàn)是在保護(hù)數(shù)據(jù)安全(所有權(quán)和數(shù)據(jù)秘密)的前提下實(shí)現(xiàn)數(shù)據(jù)開放共享。
針對數(shù)據(jù)不能用問題,需要研究使用數(shù)據(jù)權(quán)屬及保護(hù)技術(shù):之前,大部分?jǐn)?shù)據(jù)都是自己生產(chǎn),自己保管,問題不嚴(yán)重,所以相應(yīng)的技術(shù)研究有很多空白。數(shù)據(jù)不能用的范圍廣泛,主要的技術(shù)挑戰(zhàn)包括數(shù)據(jù)權(quán)屬的認(rèn)證和判別技術(shù)、隱私保護(hù)技術(shù)等。
長期以來,信息技術(shù)主要是用于信息化的,即生產(chǎn)數(shù)據(jù),而大數(shù)據(jù)是用于開發(fā)數(shù)據(jù)的,如圖1所示。面對大數(shù)據(jù)決策的“6用問題”,之前的技術(shù)在數(shù)據(jù)獲取、數(shù)據(jù)存儲與管理、數(shù)據(jù)質(zhì)量保障、數(shù)據(jù)安全與隱私保護(hù)等方面遇到了一系列新的技術(shù)挑戰(zhàn),需要開發(fā)大數(shù)據(jù)技術(shù)來應(yīng)對這些挑戰(zhàn),而以數(shù)據(jù)分析技術(shù)為核心的數(shù)據(jù)開發(fā)技術(shù)正逐步形成獨(dú)立的技術(shù)分支。表1展示了生產(chǎn)數(shù)據(jù)和開發(fā)數(shù)據(jù)的技術(shù)差異。
表1 生產(chǎn)數(shù)據(jù)與開發(fā)數(shù)據(jù)的技術(shù)差異
長期的信息化實(shí)踐,從數(shù)據(jù)生產(chǎn)、數(shù)據(jù)積累、數(shù)據(jù)資源形成到數(shù)據(jù)開發(fā),從量變到質(zhì)變,數(shù)據(jù)開發(fā)發(fā)展成為一個(gè)新的領(lǐng)域或行業(yè),信息領(lǐng)域發(fā)展出新的分支——大數(shù)據(jù)。大數(shù)據(jù)是指為決策問題提供服務(wù)的大數(shù)據(jù)集、大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應(yīng)用的總稱。大數(shù)據(jù)問題是指不能用當(dāng)前技術(shù)在決策希望的時(shí)間內(nèi)處理分析的數(shù)據(jù)資源開發(fā)利用問題。大數(shù)據(jù)引發(fā)了決策方式的質(zhì)變,對政治界、商業(yè)界、學(xué)術(shù)界都產(chǎn)生重大影響。
數(shù)據(jù)的增長給技術(shù)帶來了挑戰(zhàn),所謂“當(dāng)前技術(shù)所不能”;隨著技術(shù)的進(jìn)步,成功的大數(shù)據(jù)應(yīng)用不斷出現(xiàn),大數(shù)據(jù)正是在“數(shù)據(jù)增長”和“技術(shù)進(jìn)步”之間交替前行,成就了當(dāng)今的大數(shù)據(jù)熱潮。從理論上講,大數(shù)據(jù)的技術(shù)挑戰(zhàn)在摩爾定律的作用下可以自行解決,但數(shù)據(jù)增長的速度遠(yuǎn)快于技術(shù)進(jìn)步的數(shù)據(jù),所以今天出現(xiàn)了大數(shù)據(jù)問題。除非出現(xiàn)革命性技術(shù),否則大數(shù)據(jù)問題不可能被解決。這就需要關(guān)注數(shù)據(jù)本身的變化發(fā)展規(guī)律,發(fā)展數(shù)據(jù)科學(xué)。
對大數(shù)據(jù)和數(shù)據(jù)科學(xué)的發(fā)展展望如下。
(1)大數(shù)據(jù)儲備技術(shù)需求迫切
數(shù)據(jù)作為資源,建立數(shù)據(jù)儲備將是重大需求,因此,數(shù)據(jù)獲取、數(shù)據(jù)儲備設(shè)計(jì)、數(shù)據(jù)儲備管理、數(shù)據(jù)搬運(yùn)、異地?cái)?shù)據(jù)計(jì)算、數(shù)據(jù)主權(quán)保護(hù)等數(shù)據(jù)儲備技術(shù)有望快速發(fā)展。
(2)大數(shù)據(jù)開發(fā)技術(shù)快速發(fā)展
數(shù)據(jù)生產(chǎn)技術(shù)相對成熟,并形成穩(wěn)步發(fā)展。數(shù)據(jù)開發(fā)技術(shù)即將進(jìn)入快速發(fā)展期,包括數(shù)據(jù)分析技術(shù)、大數(shù)據(jù)軟件工程、決策應(yīng)用技術(shù)等。
(3)數(shù)據(jù)科學(xué)穩(wěn)步前行
從科學(xué)研究、學(xué)科發(fā)展和人才培養(yǎng)角度來看,數(shù)據(jù)科學(xué)將會快速發(fā)展。近3年,在美國有包括哥倫比亞大學(xué)、紐約大學(xué)、加州大學(xué)、卡耐基梅隆大學(xué)等許多高校建立數(shù)據(jù)科學(xué)研究機(jī)構(gòu)或開設(shè)數(shù)據(jù)科學(xué)專業(yè)研究生培養(yǎng)項(xiàng)目。
[1] Cox M, Ellsworth D. Applicationcontrolled demand paging for out-ofcore visualizetion. Proceedings of the 8th Conference on Visualization, Phoenix, AZ, USA, 1997: 235~244
[2] U. S. Government. Big data research and development initiative. http://www. whitehouse.gov/ sites/default/files/ microsites/ostp/big_data_press_release_ final_2.pdf, 2012
[3] Wikipedia. Big data. http://en.wikipedia. org/wiki/Big_data, 2015
[4] Mark B. Gartner says solving ‘big data’ challenge involves more than just managing volumes of data. http://www. gartner.com/newsroom/id/1731916, 2011
[5] Villanova University. What is big data. http://www.villanovau.com/resources/bi/ what-is-big-data/, 2015
[6] 數(shù)據(jù)科學(xué)與大數(shù)據(jù)的科學(xué)原理及發(fā)展前景.第462次香山科學(xué)會議, 北京, 中國, 2013 The scientific principle and prospect of data science and big data. Proceedings of the 462nd Xiangshan Science Conference, Beijing, China, 2013
[7] World Economic Forum. Big data, big impact: new possibilities for international development.http://www3.weforum.org/ docs/WEF_TC_MFS_BigDataBigImpact_ Briefing_ 2012.pdf, 2012
[8] Zhu Y Y, Zhong N, Xiong Y. Data explosion, data nature and dataology. Proceedings of International Conference on Brain Informatics, Beijing, China, 2009: 147~158
[9] 朱揚(yáng)勇, 熊赟. 數(shù)據(jù)學(xué). 上海:復(fù)旦大學(xué)出版社, 2009 Zhu Y Y, Xiong Y. Dataology and Data Science. Shanghai: Fudan University Press, 2009
[10] CODATA中國全國委員會. 大數(shù)據(jù)時(shí)代的科學(xué)活動(dòng). 北京: 科學(xué)出版社, 2014 CODATA China National Committee. Scientific Discovery in Big Data Era. Beijing: Science Press, 2014
[11] Zhu Y Y, Xiong Y. Defining data science. http://arxiv.org/ftp/arxiv/papers/1501/ 1501.05039.pdf, 2015
[12] Google. Google flu trends. http://www. google.org/flutrends, 2008
[13] Greg L, Brent S, Jeremy Y. Amazon. com recommendations: item-to-item collaborative filtering. IEEE Internet Computing, 2003, 7(1): 76~80
[14] Adrian C. Higgs boson positivelyidentified. http://news.sciencemag.org/ sciencenow/ 2013/03/higgs-bosonpositively-identifie.html?ref=hp, 2013
[15] 吳俊偉, 朱揚(yáng)勇. 匯計(jì)劃在行動(dòng). 上海:上??茖W(xué)技術(shù)出版社, 2015 Wu J W, Zhu Y Y. Shanghai Big Data in Action. Shanghai: Shanghai Scientific and Technical Publishers, 2015
[16] Schonberger V M, Cukier K. Big Data: A Revolution That Will Transform How We Live Work and Think. London: Hodder Export, 2013
[17] Reichman O J, Jones M B, Schildhauer M P. Challenges and opportunities of open data in ecology. Science, 2011, 331(6018): 703~705
[18] McVean G A, Abecasis D M. An integrated map of genetic variation from 1092 human genomes. Nature, 2012, 491(7422): 56~65
[19] Feigelson E D, Babu G J. Big data in astronomy. http://astrostatistics.psu.edu/ 2012Significance.pdf, 2012
朱揚(yáng)勇,男,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授、學(xué)術(shù)委員會主任,上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室主任。1989年起從事數(shù)據(jù)領(lǐng)域研究,2008年提出數(shù)據(jù)資源保護(hù)和利用,2009年發(fā)表了數(shù)據(jù)科學(xué)論文“Data explosion, data nature and dataology”,并出版專著《數(shù)據(jù)學(xué)》,對數(shù)據(jù)科學(xué)進(jìn)行了系統(tǒng)探討和描述。2010年創(chuàng)辦了“International Workshop on Dataology and Data Science”,2014年和石勇、張成奇共同創(chuàng)辦了“International Conference on Data Science”。第462次香山科學(xué)會議“數(shù)據(jù)科學(xué)與大數(shù)據(jù)的理論問題探索”的執(zhí)行主席,《大數(shù)據(jù)技術(shù)與應(yīng)用叢書》主編。目前研究興趣為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。
熊赟,女,博士,復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院副教授。2004年起從事數(shù)據(jù)領(lǐng)域方面的研究工作,作為項(xiàng)目負(fù)責(zé)人主持國家自然科學(xué)基金、上海市科委發(fā)展基金以及企業(yè)合作項(xiàng)目。相關(guān)研究成果在本領(lǐng)域國際權(quán)威期刊或會議發(fā)表論文30余篇,出版專著2本。目前研究興趣為數(shù)據(jù)科學(xué)、大數(shù)據(jù)。
Zhu Y Y, Xiong Y. Defining big data. Big Data Research, 2015007
Defining Big Data
Zhu Yangyong1,2, Xiong Yun1,2
1. School of Computer Science, Fudan University, Shanghai 201203, China; 2. Shanghai Key Laboratory of Data Science, Fudan University, Shanghai 201203, China
Generally, big data is regarded as a term about data sets so large or complex that conventional data technologies cannot handle. This statement of big data leads to confusion: none of big data has been handled by existing data technologies; or none of current successful data applications can be called as big data. Therefore, what is the best way to define big data becomes a problem. Data, technology, and application were regarded as three associated key factors of big data by analyzing the state-of-the-art of big data. A comprehensive definition on big data was defined as the umbrella of big data set, big data technology, and big data application. Here, big data set means all data that can be acquired and were related to one decision-making application instead of all data in an area or an enterprise. In addition, the issues in big data applications and the main challenges in big data technologies were discussed. Finally, the future directions of big data research were presented including data science and the technologies of big data reservation and development.
big data, data science, data nature
2015-04-21;
2015-05-05
國家自然科學(xué)基金資助項(xiàng)目(No.61170096,No.71331005),上海市科技發(fā)展基金資助項(xiàng)目(No.13dz2260200,No.13511504300,No.14511107302)
Foundation Items:The National Natural Science Foundation of China (No.61170096, No.71331005), Shanghai Science and Technology Development Fund (No.13dz2260200,No.13511504300,No.14511107302)
朱揚(yáng)勇,熊赟. 大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用. 大數(shù)據(jù), 2015007