如果要總結2013年的IT熱詞,大數(shù)據(jù)、云計算、移動互聯(lián)網(wǎng)肯定會榜上有名。雖然都是上榜熱詞,但是用戶對這三大領域依然具有自己不同的認識,相比云計算和移動互聯(lián)網(wǎng),用戶對大數(shù)據(jù)的接受程度依然不夠成熟。而且,縱覽IT業(yè)界,不管是新興行業(yè),還是傳統(tǒng)行業(yè)都在考慮大數(shù)據(jù)對于自己所在行業(yè)到底意味著什么。其實,大數(shù)據(jù)對于各個行業(yè)都有不同的意義,而且它完全超越了數(shù)據(jù)本身的含義。
談到大數(shù)據(jù),首先想到的是數(shù)據(jù)管理,在數(shù)據(jù)管理方面,人們想到的是Hadoop和MapReduce等新興技術,但是這些新興技術并不能解決所有的數(shù)據(jù)管理問題。數(shù)據(jù)倉庫作為一種傳統(tǒng)的數(shù)據(jù)技術在大數(shù)據(jù)時代依然煥發(fā)著自己的活力。
數(shù)據(jù)倉庫:從技術角度看問題
說到數(shù)據(jù)倉庫,就要從數(shù)據(jù)倉庫的概念提出說起。數(shù)據(jù)倉庫概念最早誕生于1983年,然后就出現(xiàn)了商務智能,直到20世紀90年代開始成熟,并出現(xiàn)了提取、轉換和加載(ETL),ETL的出現(xiàn)大大促進了商務智能(BI)的發(fā)展。以后,數(shù)據(jù)倉庫出現(xiàn)了各種擴展,出現(xiàn)了多維的聯(lián)機分析處理(OLAP)、數(shù)據(jù)集市、探查型數(shù)據(jù)倉庫和ODS。
有了ODS即便更新和業(yè)務處理遇到集成數(shù)據(jù)問題,系統(tǒng)還是能夠進行處理。其后,星型模型和事實表等都有了容身之地。有了探索型數(shù)據(jù)倉庫,統(tǒng)計學家有了一個數(shù)據(jù)基礎,可以支撐從數(shù)據(jù)管理員到統(tǒng)計分析員等不同角色的數(shù)據(jù)挖掘分析需求。一直到后來,數(shù)據(jù)倉庫變成了企業(yè)的信息工廠,進而數(shù)據(jù)倉庫也被稱為企業(yè)數(shù)據(jù)倉庫(EDW)。
隨著EDW環(huán)境復雜性的增加,企業(yè)越來越認為需要一種監(jiān)控機制來管理數(shù)據(jù)倉庫,而這種監(jiān)控機制與事務處理的監(jiān)控機制本質(zhì)上存在著各種差異。與此同時,商務智能的發(fā)展也隨著數(shù)據(jù)倉庫技術的發(fā)展而不斷演進,商務智能的發(fā)展要求其不僅僅為決策層提供支持,同時,也要給普通的業(yè)務人員提供支持。不僅要能從整個戰(zhàn)略層面進行綜合分析,還能夠在具體的戰(zhàn)術層面進行詳細指導,這些是商務智能未來的發(fā)展趨勢。隨著信息量的快速增長,產(chǎn)生了如網(wǎng)頁文本等信息數(shù)據(jù)分析的需求。進而衍生了對大數(shù)據(jù)的分析技術。
事實上,大數(shù)據(jù)和數(shù)據(jù)倉庫是同一個問題的兩個方面,大數(shù)據(jù)是業(yè)務視角,需要匯聚各類數(shù)據(jù),建立客戶全景視圖,實現(xiàn)客戶深度洞察,而數(shù)據(jù)倉庫是技術視角,需要匯聚各類數(shù)據(jù),全景實現(xiàn)數(shù)據(jù)全生命周期管理、元數(shù)據(jù)管理和數(shù)據(jù)監(jiān)視管理。
數(shù)據(jù)倉庫和大數(shù)據(jù)的結合就是通過技術手段來解決業(yè)務問題。隨著大數(shù)據(jù)時代的發(fā)展,數(shù)據(jù)倉庫對于企業(yè)決策的支持作用將會越來越大。由此,數(shù)據(jù)倉庫也成為了各大數(shù)據(jù)解決方案廠商著力開展的業(yè)務領域。IBM、甲骨文,惠普、Teradata等廠商紛紛部署了自己的數(shù)據(jù)倉庫技術和產(chǎn)品。絕大多數(shù)的數(shù)據(jù)倉庫廠商能夠利用網(wǎng)格或者云架構將他們的產(chǎn)品擴展到PB級別,而且他們能夠完成數(shù)據(jù)庫內(nèi)分析,即在大規(guī)模并行數(shù)據(jù)倉庫網(wǎng)格或者云環(huán)境中實現(xiàn)。他們還可以在企業(yè)數(shù)據(jù)倉庫之內(nèi)來支持數(shù)據(jù)轉化和數(shù)據(jù)清洗功能。
數(shù)據(jù)倉庫發(fā)展迎挑戰(zhàn)
目前,大量的數(shù)據(jù)運行的企業(yè)中,新興的數(shù)據(jù)類型層出不窮,數(shù)據(jù)量增加的速度越來越快,越來越多的業(yè)務提出實時的需求,所有這些都讓數(shù)據(jù)倉庫在企業(yè)運營和領導決策支持中顯現(xiàn)出“疲態(tài)”。
數(shù)據(jù)倉庫遇到的第一個挑戰(zhàn)是對大量數(shù)據(jù)的存儲和管理。現(xiàn)在的數(shù)據(jù)量已經(jīng)大大超越了傳統(tǒng)事物處理的數(shù)據(jù)量,而且隨著時間的推移,數(shù)據(jù)量還將不斷增加,數(shù)據(jù)類型還將更加多元化。
第二是數(shù)據(jù)倉庫要解決并行處理的問題。在傳統(tǒng)聯(lián)機事務處理應用中,用戶訪問系統(tǒng)的特點是短小而密集。對于一個多處理機系統(tǒng)來說,能夠?qū)⒂脩舻恼埱筮M行均衡分擔進行并行操作是非常關鍵的。在數(shù)據(jù)倉庫系統(tǒng)中,用戶訪問的特點是龐大而稀疏,每一個查詢和統(tǒng)計都很復雜,但是訪問頻率很低。
最后,對于企業(yè)級數(shù)據(jù)倉庫而言,數(shù)據(jù)源的 ETL操作是另一個挑戰(zhàn),特別是實時的ETL操作。傳統(tǒng)的數(shù)據(jù)工具不能解決高容量和低延遲的需求,而能夠滿足這些需求的技術正是企業(yè)需要的。要解決這項需求所面臨的主要挑戰(zhàn)是,是否可以在給定的時間內(nèi)移動必要的數(shù)據(jù)量。傳統(tǒng)的批量處理過程需要幾個小時甚至幾天的時間才能夠完成這樣的操作,這就不能滿足業(yè)務實時決策的要求。其他相關的挑戰(zhàn)在加載到數(shù)據(jù)倉庫時要減少操作系統(tǒng)上的影響,因為在數(shù)據(jù)倉庫中運行大的查詢會降低操作系統(tǒng)對使用者和客戶的服務。
另外,從各種各樣用戶設備上訪問數(shù)據(jù)倉庫中的業(yè)務信息,也影響到了數(shù)據(jù)倉庫的工作量以及它所支持的信息。從工作量的角度來看,用戶設備需要大量的小查詢,就需要在很低的延遲下跨越地域進行回答。從信息的角度來看,用戶使用移動設備希望實現(xiàn)隨時隨地的即時訪問,用戶需要的是最新的信息。而且需要很快地加載信息,以便用戶可以和歷史內(nèi)容一起訪問數(shù)據(jù)。
三把利劍破解數(shù)據(jù)難題
Forrester高級數(shù)據(jù)管理分析師James Kobielus曾表示,數(shù)據(jù)倉庫可以通過三種方式幫助企業(yè)處理好數(shù)據(jù)問題:第一,在企業(yè)數(shù)據(jù)倉庫中,給不同的數(shù)據(jù)一個比較穩(wěn)定的主題劃分,按照主題來組織企業(yè)數(shù)據(jù),比如,數(shù)據(jù)倉庫架構中的OLAP cube,客戶數(shù)據(jù)是一個分區(qū),財務數(shù)據(jù)是一個分區(qū),人力資源數(shù)據(jù)是一個分區(qū)。不管是物理上的實現(xiàn)還是邏輯上劃分,這些數(shù)據(jù)主題都會比較穩(wěn)定。這樣有利于根據(jù)數(shù)據(jù)的關聯(lián)性來匹配下游的應用和用戶。這是數(shù)據(jù)倉庫管理的核心所在,也是通過數(shù)據(jù)倉庫處理大數(shù)據(jù)的重要方式。
第二種方式是通過數(shù)據(jù)庫內(nèi)分析,也就是在數(shù)據(jù)倉庫內(nèi)部執(zhí)行數(shù)據(jù)挖掘。利用數(shù)據(jù)倉庫執(zhí)行數(shù)據(jù)清洗、數(shù)據(jù)挖掘和回歸分析。因為使用數(shù)據(jù)挖掘或者回歸分析可以從根本上了解數(shù)據(jù)建模式,所以這種方式可以很好地處理數(shù)據(jù)。然后使用數(shù)據(jù)庫內(nèi)挖掘來填充下游的分析數(shù)據(jù)集市,數(shù)據(jù)挖掘和統(tǒng)計模型專業(yè)人士可以利用它將復雜的模式實現(xiàn)可視化。
第三種方式就是將數(shù)據(jù)倉庫作為數(shù)據(jù)治理的核心,可以合理地在數(shù)據(jù)倉庫中維護主數(shù)據(jù)。當數(shù)據(jù)倉庫作為數(shù)據(jù)治理與數(shù)據(jù)清洗的核心時,它將有助于搞清楚所有的信息。在整個企業(yè)架構中,數(shù)據(jù)就像是洪水一般涌入數(shù)據(jù)倉庫,數(shù)據(jù)倉庫作為數(shù)據(jù)的樞紐,可以確保大數(shù)據(jù)在下游的應用。
有了這三種方式,然后結合Hadoop、MapReduce等大數(shù)據(jù)新興技術,企業(yè)就可以處理好大數(shù)據(jù)難題。
總之,數(shù)據(jù)倉庫是一項基于數(shù)據(jù)管理的綜合性技術和解決方案,數(shù)據(jù)倉庫是企業(yè)不可或缺的關鍵性組成部分,它將成為數(shù)據(jù)庫市場的新一輪增長點。作為下一代應用系統(tǒng)的重要組成部分,數(shù)據(jù)倉庫可以把企業(yè)方方面面產(chǎn)生的數(shù)據(jù)匯集起來,然后分門別類,并最終對這些繁復復雜的信息進行分析處理,讓其成為了解企業(yè)運營、進行企業(yè)決策的寶貴資料。