記者:在數(shù)字信息如此普及的今天,大數(shù)據(jù)正方方面面影響和改變著我們的生活。請問,什么是大數(shù)據(jù)?
王艷云:到底什么是大數(shù)據(jù)(Big Data)?維基百科(Wikipedia)中提到:大數(shù)據(jù)就是這樣一種數(shù)據(jù)集,它特指用現(xiàn)有通用軟件在可容忍的時間內(nèi)無法加工、處理和分析的數(shù)據(jù)。今天度量數(shù)據(jù)存儲的大小已經(jīng)到了Tb級和Pb級,甚至到了Eib級(2的60次方)。但數(shù)據(jù)量的巨大并不是大數(shù)據(jù)的唯一特征,在一定條件下,對個人而言是大數(shù)據(jù),對企業(yè)級應(yīng)用就是中數(shù)據(jù),對移動和淘寶可能就是小數(shù)據(jù),對谷歌和百度可能就不算數(shù)據(jù)了。所以有一種說法:大數(shù)據(jù)就是越來越大的數(shù)據(jù)。
現(xiàn)在比較流行的一種大數(shù)據(jù)說法叫4V理論,強調(diào)大數(shù)據(jù)的數(shù)量(Volume)、類型(Variety)、速度(Velocity)、可用性(Veracity)或價值(Value)。當(dāng)然,大數(shù)據(jù)的定義,甚至概念界定至今并沒有得到學(xué)界或業(yè)界的統(tǒng)一,不同專業(yè)領(lǐng)域,不同學(xué)科背景,不同應(yīng)用場景都有著不同側(cè)重點的闡釋。其實大數(shù)據(jù)這個概念沒有流行前,我們就面臨著海量數(shù)據(jù)的處理問題,所以在一定程度上大數(shù)據(jù)概念落地就是早年的數(shù)據(jù)挖掘(data mining),是指從海量數(shù)據(jù)中發(fā)現(xiàn)知識的過程,也稱為KDD(Knowledge Discover in Database)。
我比較認可麥肯錫全球研究所的定義——大數(shù)據(jù)是一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價值密度低四大特征。由于大數(shù)據(jù)的這些特征,就要求在大數(shù)據(jù)處理的存儲、讀取、清洗、解析、聚合、建模等多個環(huán)節(jié)都需要采用新的技術(shù)或模式。