人類已經(jīng)進(jìn)入以數(shù)據(jù)為中心的時(shí)代,也即:“大數(shù)據(jù)”時(shí)代。在這個(gè)時(shí)代里,數(shù)以億計(jì)的計(jì)算機(jī)和移動(dòng)設(shè)備正在持續(xù)地創(chuàng)造著越來越多的數(shù)據(jù)。爆炸式增長(zhǎng)的、結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)創(chuàng)造著巨大的機(jī)遇,如何從如此龐大而復(fù)雜的數(shù)據(jù)中挖掘出企業(yè)需要的商業(yè)價(jià)值成為所有企業(yè)面臨的挑戰(zhàn)。
大數(shù)據(jù)意味著包括交易和交互數(shù)據(jù)集在內(nèi)的所有數(shù)據(jù)集,其規(guī)模或復(fù)雜程度超出了常用技術(shù)按照合理的成本和時(shí)限捕捉、管理及處理這些數(shù)據(jù)集的能力。不管是大交互數(shù)據(jù),還是大交易數(shù)據(jù),處理分析非結(jié)構(gòu)化數(shù)據(jù)一直以來都是數(shù)據(jù)處理的難點(diǎn)。數(shù)據(jù)集成作為挖掘數(shù)據(jù)價(jià)值的重要一步在整個(gè)數(shù)據(jù)分析中具有重要的作用。
對(duì)于絕大多數(shù)企業(yè)而言,信息系統(tǒng)建設(shè)通常具有階段性和分布性的特點(diǎn),該特點(diǎn)不可避免的導(dǎo)致了“信息孤島”現(xiàn)象的存在?!靶畔⒐聧u”就是指不同軟件間,尤其是不同部門間的數(shù)據(jù)信息不能共享,造成系統(tǒng)中存在大量冗余數(shù)據(jù)、垃圾數(shù)據(jù),無法保證數(shù)據(jù)的一致性,嚴(yán)重地阻礙了企業(yè)信息化建設(shè)的整體進(jìn)程。為解決這一問題,人們開始關(guān)注數(shù)據(jù)集成研究。
數(shù)據(jù)集成就是將若干個(gè)分散數(shù)據(jù)源中的數(shù)據(jù),邏輯地或者物理地集成到一個(gè)統(tǒng)一的數(shù)據(jù)集合中。其核心任務(wù)是將相互關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)源集成到一起,讓用戶以透明的方式訪問這些數(shù)據(jù)源,以便消除信息孤島現(xiàn)象。
數(shù)據(jù)集成市場(chǎng)正處于黃金時(shí)代
著名信息技術(shù)研究咨詢公司Gartner在其發(fā)布的“2013年數(shù)據(jù)集成工具魔力象限報(bào)告”中表示,對(duì)集成選項(xiàng)功能完整性的需求在快速上漲。隨著數(shù)據(jù)碎片化程度的不斷加劇,企業(yè)希望能夠有一款靈活的產(chǎn)品,能夠快速融入到現(xiàn)有的數(shù)據(jù)管理投資中,并提供更多的功能。
數(shù)據(jù)集成可以滿足人們不斷增長(zhǎng)的信息需求,使更多的人更充分地使用已有數(shù)據(jù)資源,減少資料收集、數(shù)據(jù)采集等重復(fù)勞動(dòng)和相應(yīng)費(fèi)用,實(shí)現(xiàn)數(shù)據(jù)源的凝聚放大效應(yīng),形成以業(yè)務(wù)為驅(qū)動(dòng)的動(dòng)態(tài)數(shù)據(jù)價(jià)值鏈。
大數(shù)據(jù)技術(shù)的發(fā)展為數(shù)據(jù)管理開辟了一條新的道路,這也為數(shù)據(jù)集成創(chuàng)造了新的機(jī)會(huì)。在這種情況下,數(shù)據(jù)集成就從傳統(tǒng)的數(shù)據(jù)提取、轉(zhuǎn)換和加載過程(ETL)變成了更加靈活的數(shù)據(jù)提取、加載和轉(zhuǎn)換的方法(ELT)。在過去,ETL形式中的數(shù)據(jù)集成通常是“一個(gè)自包含過程”,它只是簡(jiǎn)單的專注于將干凈、合并的數(shù)據(jù)從源系統(tǒng)遷移至目標(biāo)數(shù)據(jù)倉(cāng)庫(kù)。但是,現(xiàn)在情況變得不同了,現(xiàn)在數(shù)據(jù)可以存在于任何地方,如果用戶需要在另一個(gè)系統(tǒng)上使用,只要在需要的時(shí)候調(diào)用就可以了。
Gartner認(rèn)為,市場(chǎng)上對(duì)集數(shù)據(jù)集成、數(shù)據(jù)質(zhì)量以及主數(shù)據(jù)管理于一體的工具需求在不斷的增長(zhǎng)。高質(zhì)量的數(shù)據(jù)對(duì)于數(shù)據(jù)集成項(xiàng)目的成功具有關(guān)鍵的作用,而不關(guān)心數(shù)據(jù)質(zhì)量的數(shù)據(jù)集成注定將會(huì)失敗。除了與數(shù)據(jù)質(zhì)量和主數(shù)據(jù)管理更好的集成以外,用戶還希望工具能夠支持更加廣泛的數(shù)據(jù)集成風(fēng)格與功能。
包括Hadoop等大數(shù)據(jù)技術(shù),以及NoSQL數(shù)據(jù)庫(kù)技術(shù)在內(nèi)的技術(shù)對(duì)數(shù)據(jù)集成工具的開發(fā)都產(chǎn)生了重大影響。未來數(shù)據(jù)集成工具發(fā)展的重要方向就是支持分布式架構(gòu)的集成。包括低成本,基于訂閱模式的收費(fèi)方法以及基于云在內(nèi)的交付模式,也是未來數(shù)據(jù)集成市場(chǎng)的一個(gè)發(fā)展方向。
多方挑戰(zhàn)考驗(yàn)數(shù)據(jù)集成
單純地看,數(shù)據(jù)集成在現(xiàn)實(shí)應(yīng)用中是一個(gè)非常簡(jiǎn)單的問題,也就是對(duì)多源數(shù)據(jù)進(jìn)行清理和轉(zhuǎn)換,然后將數(shù)據(jù)加載到適當(dāng)?shù)臄?shù)據(jù)存儲(chǔ)區(qū)中以便進(jìn)行下一步的分析和處理。但是,事實(shí)卻不是這么簡(jiǎn)單。數(shù)據(jù)集成面臨著多方挑戰(zhàn)。
首先是技術(shù)方面的挑戰(zhàn)。最具針對(duì)性的挑戰(zhàn)包括:多種源和多種不同的格式;結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);在不同時(shí)間從源系統(tǒng)獲得的數(shù)據(jù)信息;龐大的數(shù)據(jù)量。即使在理想的情況下,也必須以某種方式在一個(gè)位置獲得所需的所有數(shù)據(jù)。同時(shí),對(duì)實(shí)時(shí)性的要求增加了數(shù)據(jù)集成的困難。
其次來自組織的挑戰(zhàn)。在大型組織中進(jìn)行數(shù)據(jù)集成還會(huì)存在來自權(quán)力的壓力。數(shù)據(jù)是信息,代表著一種權(quán)力,但是讓人們相信數(shù)據(jù)是企業(yè)有價(jià)值的資產(chǎn)是一件頗具挑戰(zhàn)的事情。要實(shí)現(xiàn)企業(yè)數(shù)據(jù)集成的成功,就需要所有數(shù)據(jù)源的使用者能夠了解項(xiàng)目的用途和方向。這需要所有的組織成員能夠通力合作。
最后就是經(jīng)濟(jì)壓力。數(shù)據(jù)集成成本的增加主要是因?yàn)閿?shù)據(jù)集成的過程可能會(huì)因?yàn)闄?quán)力而變得緩慢而曲折,清理數(shù)據(jù)以及從多種源數(shù)據(jù)映射也會(huì)變得更加困難。當(dāng)需要解決這些問題的時(shí)候,數(shù)據(jù)集成引起的額外費(fèi)用都將會(huì)被記入整個(gè)數(shù)據(jù)集成體系結(jié)構(gòu)。另外,隨著組織發(fā)展過程中對(duì)數(shù)據(jù)入庫(kù)和商業(yè)智能需求的增加,有缺陷的數(shù)據(jù)集成體系結(jié)構(gòu)將變得越來越難以維護(hù),這樣總體擁有成本會(huì)增加。
虛擬化提高數(shù)據(jù)集成效率
虛擬化意味著可以不受物理?xiàng)l件的限制,能夠迅速構(gòu)建物理環(huán)境,以便支持用戶在特定時(shí)刻對(duì)特定業(yè)務(wù)的需求。現(xiàn)在已經(jīng)可以實(shí)現(xiàn)對(duì)服務(wù)器、存儲(chǔ)以及網(wǎng)絡(luò)實(shí)現(xiàn)虛擬化。
面對(duì)海量數(shù)據(jù)的處理需求,我們需要擺脫結(jié)構(gòu)化的數(shù)據(jù)倉(cāng)庫(kù)。低成本的存儲(chǔ)在業(yè)務(wù)數(shù)據(jù)存儲(chǔ)方面可以節(jié)省成本。高昂的存儲(chǔ)成本限制了系統(tǒng)處理數(shù)據(jù)的質(zhì)量。對(duì)于海量數(shù)據(jù)的處理需要做到彈性存儲(chǔ),彈性存儲(chǔ)意味著企業(yè)不會(huì)在期望操作的數(shù)據(jù)規(guī)模或類型上受到限制,從而可以降低使用數(shù)據(jù)倉(cāng)庫(kù)無法獲得最佳結(jié)果的風(fēng)險(xiǎn)。
數(shù)據(jù)虛擬化可以將不同的數(shù)據(jù)連接起來,讓業(yè)務(wù)運(yùn)營(yíng)與數(shù)據(jù)集成流程變得更加靈敏。大多數(shù)情況下,企業(yè)主要運(yùn)用傳統(tǒng)數(shù)據(jù)集成技術(shù),從交易系統(tǒng)中獲取數(shù)據(jù),將其移植到數(shù)據(jù)倉(cāng)庫(kù)中以作商務(wù)智能和數(shù)據(jù)分析等用途。然后,對(duì)于需要實(shí)時(shí)決策的應(yīng)用程序,這種方式就會(huì)面臨挑戰(zhàn)。
數(shù)據(jù)虛擬化擁有一個(gè)可置于企業(yè)應(yīng)用程序、數(shù)據(jù)倉(cāng)庫(kù)、交易數(shù)據(jù)庫(kù)、門戶網(wǎng)站及其他數(shù)據(jù)源之上的提取層,能使企業(yè)在無需創(chuàng)建存儲(chǔ)信息備份的環(huán)境下,對(duì)來自不同系統(tǒng)中的數(shù)據(jù)進(jìn)行整合。這樣一來就省去了從源系統(tǒng)中復(fù)制數(shù)據(jù)或移除數(shù)據(jù)的麻煩,減少了IT人員的工作量,也降低了數(shù)據(jù)出錯(cuò)的幾率。
數(shù)據(jù)虛擬化還支持在源系統(tǒng)中交易數(shù)據(jù)更新的寫入,這也是擁護(hù)者們看中這項(xiàng)技術(shù)的優(yōu)勢(shì)之一。正因?yàn)槿绱耍瑪?shù)據(jù)虛擬化才會(huì)從數(shù)據(jù)聯(lián)合與企業(yè)信息集成(EII)技術(shù)中脫穎而出。后兩項(xiàng)為更早推出的類似技術(shù),同樣為了簡(jiǎn)化不同源陣列的數(shù)據(jù)分析流程。盡管三種技術(shù)在性能方面都有相似之處,甚至有“換湯不換藥”之嫌,但是EII技術(shù)提供的是一種數(shù)據(jù)陣列與報(bào)表的只讀處理方法。
其實(shí),早在十年前就有數(shù)據(jù)聯(lián)合了,其產(chǎn)生的用意本在于取代ETL工具和數(shù)據(jù)暫存區(qū),不用再建立新的數(shù)據(jù)市場(chǎng)??上гu(píng)論家認(rèn)為數(shù)據(jù)聯(lián)合從一開始就帶有重大缺陷,它只能與巨型數(shù)據(jù)套件匹配,且其運(yùn)行環(huán)境需要極為復(fù)雜的數(shù)據(jù)轉(zhuǎn)換。更有甚者,很多人都認(rèn)為數(shù)據(jù)聯(lián)合與面向服務(wù)架構(gòu)(SOA)的粘附性很強(qiáng)。
但是隨著企業(yè)不再將大數(shù)據(jù)分析作為一項(xiàng)孤立的應(yīng)用來看待,并注意使用分析結(jié)果來驅(qū)動(dòng)他們的主流業(yè)務(wù)流程,數(shù)據(jù)質(zhì)量和無縫上游整合就變得更為重要。并且大數(shù)據(jù)架構(gòu)靈活性的提升也帶來了更高級(jí)別的發(fā)展和管理復(fù)雜性,這可能需要新的流程和技巧,甚至是在IT部門中的一場(chǎng)文化變革。