存儲大量數(shù)據(jù)對企業(yè)來說一直是個(gè)挑戰(zhàn),相比之下,如何以易于訪問和有效的方式管理數(shù)據(jù)更是嚴(yán)峻的挑戰(zhàn),“數(shù)據(jù)湖”就是一個(gè)有效的解決方案。
數(shù)據(jù)湖和大數(shù)據(jù)技術(shù),如Hadoop、HDFS、Hive和HBase,這些在當(dāng)下是非常流行的解決方案,特別是對于那些需要用更好的方式來存儲和處理大量數(shù)據(jù)和分析的組織來說。由于它們能夠以各種形式從各種應(yīng)用程序提供原始數(shù)據(jù),所以通常比企業(yè)數(shù)據(jù)倉庫的成本更低。采用這些技術(shù)的目的是,組織可以輕松地搜索他們需要的信息,無論來源或格式,幫助他們在日常的業(yè)務(wù)運(yùn)作中更有效地分析利用。
除了以上優(yōu)勢,數(shù)據(jù)湖還為企業(yè)提供了一個(gè)能力——將數(shù)據(jù)貨幣化。由于太多企業(yè)在沒有考慮長期目標(biāo)的情況下構(gòu)建數(shù)據(jù)湖,使得他們?nèi)鄙賹?shù)據(jù)湖轉(zhuǎn)化為可擴(kuò)展的、彈性的數(shù)據(jù)貨幣化平臺的能力,導(dǎo)致他們在數(shù)據(jù)湖中錯(cuò)失了機(jī)遇。
因此,下面有五個(gè)常見的企業(yè)實(shí)施錯(cuò)誤,可以幫助企業(yè)更好地部署數(shù)據(jù)湖。
太多Hadoop。當(dāng)Hadoop發(fā)行版或群集在企業(yè)中大量應(yīng)用時(shí),這時(shí)存儲的也許只是大量重復(fù)數(shù)據(jù)。許多企業(yè)一點(diǎn)一點(diǎn)地按部門部署Hadoop,造成數(shù)據(jù)孤島,阻礙大數(shù)據(jù)分析,使得員工無法利用所有數(shù)據(jù)進(jìn)行全面分析。這實(shí)質(zhì)上只是重復(fù)了數(shù)據(jù)倉庫、集市的問題。
太多的管理。一些組織對于數(shù)據(jù)湖的管理設(shè)定了太多限制,例如數(shù)據(jù)湖的查看、訪問和處理權(quán)限,沒有權(quán)限的人不能夠訪問數(shù)據(jù)庫,導(dǎo)致數(shù)據(jù)無用。
缺乏有效的管理。太多的管理會適得其反,但缺乏有效的管理也不行。如果數(shù)據(jù)湖沒有被有效管理起來,那么數(shù)據(jù)湖會迅速被大量低質(zhì)量的數(shù)據(jù)所淹沒,導(dǎo)致數(shù)據(jù)被“污染”或“篡改”,最終使得業(yè)務(wù)不再信任這些數(shù)據(jù),使整個(gè)數(shù)據(jù)湖再次變得無用。
非彈性架構(gòu)。組織錯(cuò)誤最常見的是用非彈性架構(gòu)來構(gòu)建他們的數(shù)據(jù)湖。由于數(shù)據(jù)存儲成本很高,組織往往一次一個(gè)服務(wù)器緩慢而有機(jī)地?cái)U(kuò)展其大數(shù)據(jù)環(huán)境,通常從基礎(chǔ)服務(wù)器開始,最終添加高性能服務(wù)器以跟上業(yè)務(wù)需求。隨著時(shí)間的推移,數(shù)據(jù)存儲的增長超出了計(jì)算需求的增長,維持如此龐大的物理環(huán)境不僅繁瑣,成本也是問題。
“寵物計(jì)劃”。IT團(tuán)隊(duì)經(jīng)常把數(shù)據(jù)湖的實(shí)施視為“寵物計(jì)劃”,認(rèn)為如果建立數(shù)據(jù)湖,就會推動業(yè)務(wù)團(tuán)隊(duì)去使用它。 IT團(tuán)隊(duì)希望構(gòu)建數(shù)據(jù)湖,并對IT數(shù)據(jù)執(zhí)行分析,以證明他們可以代表業(yè)務(wù)執(zhí)行分析。但是從業(yè)務(wù)的角度看,IT使用案例是一個(gè)出乎意料的低價(jià)值工作,沒有為業(yè)務(wù)利益相關(guān)者建立可信度。
創(chuàng)建協(xié)同價(jià)值創(chuàng)造平臺
利用數(shù)據(jù)湖進(jìn)行數(shù)據(jù)貨幣化的障礙遠(yuǎn)大于實(shí)施數(shù)據(jù)湖的挑戰(zhàn)。但企業(yè)如果不了解各種機(jī)遇,企業(yè)就很難看到更大的局面,并為其數(shù)據(jù)湖投入足夠的資源。
對于抓住機(jī)遇,成功克服這些障礙的組織,“數(shù)據(jù)湖未來”即將到來。 這個(gè)未來是專為那些完全接受數(shù)據(jù)和分析的特性的人所保留的,并且理解數(shù)字資產(chǎn)的力量是永不枯竭的,并且可以以接近于零的邊際成本在無數(shù)用例上使用。 他們將數(shù)據(jù)湖看作是“協(xié)同價(jià)值創(chuàng)造平臺”,不僅將推動新的效率水平,而且將推動新的數(shù)據(jù)貨幣化機(jī)會。
與任何新興技術(shù)一樣,完全進(jìn)入數(shù)據(jù)湖還需要時(shí)間。endprint