大數(shù)據(jù)是一個(gè)熱門(mén)話題,然而當(dāng)下關(guān)注的焦點(diǎn)正在發(fā)生轉(zhuǎn)變,從數(shù)據(jù)分析邁向數(shù)據(jù)集成。
到底要用多少個(gè)“V”來(lái)描述大數(shù)據(jù)呢?2001年的一份研究報(bào)告顯示,大數(shù)據(jù)有三維屬性:容量(volume)、速度(volocity)以及類(lèi)型(variety)。在此之后,人們又添加了新的屬性,即精確性(veracity),缺乏精確性的數(shù)據(jù)毫無(wú)意義與價(jià)值性。然而,盡管供應(yīng)商們嘗試各種手段在這熱門(mén)潮流中撈金,關(guān)于大數(shù)據(jù)的定義卻仍然模糊。所以,我們不妨再給它一條“V”描述,也就是“Vague”。
盡管有關(guān)大數(shù)據(jù)的炒作不斷,其真實(shí)性卻是不可置疑的。像開(kāi)源軟件Apache Hadoop分布式文件系統(tǒng)越來(lái)越為人們接受。據(jù)Hadoop數(shù)據(jù)分析公司Karmasphere的調(diào)查,26%的機(jī)構(gòu)已經(jīng)開(kāi)始使用它,還有45%的機(jī)構(gòu)正在認(rèn)真考慮。另一項(xiàng)由Tachaisle在市場(chǎng)中端企業(yè)間進(jìn)行的調(diào)查發(fā)現(xiàn),18%的機(jī)構(gòu)正投資大數(shù)據(jù),還有25%的機(jī)構(gòu)正計(jì)劃投資。預(yù)計(jì)對(duì)于大數(shù)據(jù)的年投入將于2016年超過(guò)36億美元,這僅僅是來(lái)自中端企業(yè)的數(shù)據(jù)。
業(yè)內(nèi)人士指出,從分析師的角度看世界,你發(fā)現(xiàn)世界很復(fù)雜?,F(xiàn)在我們有6種分析方法從傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)中獲取數(shù)據(jù);或從專(zhuān)用分析數(shù)據(jù)庫(kù)獲取數(shù)據(jù),如MC Pivotal,Greenplum;或從內(nèi)存數(shù)據(jù)庫(kù),如SAP HANA獲取數(shù)據(jù);或從Hadoop獲取數(shù)據(jù),這是目前最熱門(mén)的數(shù)據(jù)技術(shù)。此外,還可以從云網(wǎng)得到服務(wù)。
需要明確的是,數(shù)據(jù)分析僅僅是大數(shù)據(jù)項(xiàng)目中的一部分。忽視了這一關(guān)鍵點(diǎn),對(duì)于任何企業(yè)而言都是極不明智的。未來(lái),人們希望集成來(lái)自多渠道的數(shù)據(jù),并希望在不同的系統(tǒng)中對(duì)這些數(shù)據(jù)進(jìn)行分析。過(guò)去,我們稱這種做法為ETL——即抽取、轉(zhuǎn)換與加載。預(yù)計(jì)在不久的將來(lái),大數(shù)據(jù)集成將成為大數(shù)據(jù)領(lǐng)域中的新興熱點(diǎn)。
(摘編自中國(guó)科技網(wǎng))