劉強(qiáng)
摘要:各種網(wǎng)絡(luò)媒體的發(fā)展,使得網(wǎng)絡(luò)中存在海量的數(shù)據(jù),如何有效地對(duì)這些非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用,成為人們解決的重點(diǎn)問(wèn)題,針對(duì)企業(yè)面臨的非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用問(wèn)題,探討了數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)融合過(guò)程中面臨的主要問(wèn)題及解決思路,根據(jù)數(shù)據(jù)倉(cāng)庫(kù)建設(shè)的理論與技術(shù),充分的利用Hadoop技術(shù)對(duì)非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行存儲(chǔ)、處理、加工與分析,與傳統(tǒng)的數(shù)據(jù)庫(kù)與BI結(jié)合在一起,提出了解決企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)融合的系統(tǒng)架構(gòu),以推送大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目的實(shí)施與發(fā)展。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù);融合
中圖分類(lèi)號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)10-0007-03
數(shù)據(jù)庫(kù)技術(shù)的發(fā)展,已經(jīng)在各行各業(yè)都得到了廣泛的應(yīng)用,并形成了相應(yīng)的理論基礎(chǔ)、實(shí)踐與各種類(lèi)型的數(shù)據(jù)庫(kù)產(chǎn)品,在各種業(yè)務(wù)管理系統(tǒng)中,數(shù)據(jù)庫(kù)成為其重要的組成部分,可以將系統(tǒng)中復(fù)雜的數(shù)據(jù)按照信息處理的規(guī)律進(jìn)行保存、使用與管理,而隨著數(shù)據(jù)庫(kù)系統(tǒng)的廣泛應(yīng)用,如何使用與分析數(shù)據(jù)庫(kù)又成了人們?cè)跀?shù)據(jù)處理中面臨的新問(wèn)題,在這種環(huán)境下,數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用逐漸成為人們管理數(shù)據(jù)庫(kù)的重要工具。
1數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)的內(nèi)涵概述
一般情況下,有的人認(rèn)為數(shù)據(jù)倉(cāng)庫(kù)就是多種數(shù)據(jù)庫(kù)的集合,或者是更大規(guī)模的數(shù)據(jù)庫(kù),這種理解是片面的,數(shù)據(jù)倉(cāng)庫(kù)是利用一定的數(shù)據(jù)處理技術(shù)對(duì)已有的數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行很抽取、清洗、加工、處理和使用,最終形成有利于企業(yè)管理的決策與依據(jù),而不是簡(jiǎn)單的數(shù)據(jù)復(fù)制或者疊加。在數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)處理過(guò)程中,往往會(huì)應(yīng)用到大數(shù)據(jù)技術(shù),通過(guò)采用大數(shù)據(jù)技術(shù)對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行分析,提取具有同類(lèi)特征的數(shù)據(jù),從而達(dá)到對(duì)有用數(shù)據(jù)進(jìn)行利用的目標(biāo),提高數(shù)據(jù)倉(cāng)庫(kù)中數(shù)據(jù)的利用效率。數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)技術(shù)是息息相關(guān)的,是以數(shù)據(jù)庫(kù)技術(shù)為核心,在數(shù)據(jù)處理時(shí),涉及元數(shù)據(jù)、數(shù)據(jù)挖掘、AI技術(shù)等多種數(shù)據(jù)領(lǐng)域的綜合運(yùn)用。
大數(shù)據(jù)是以減少數(shù)據(jù)冗余、消除數(shù)據(jù)壁壘的有效技術(shù)之一,通過(guò)運(yùn)用數(shù)據(jù)挖掘與分析、智能處理技術(shù)對(duì)具有相似性的數(shù)據(jù)進(jìn)行融合,使得不同應(yīng)用系統(tǒng)之間能夠以極小的存儲(chǔ)方式,對(duì)相關(guān)的數(shù)據(jù)進(jìn)行采集、挖掘與分析,實(shí)現(xiàn)跨部門(mén)之間的數(shù)據(jù)對(duì)比分析,從而獲得有價(jià)值的數(shù)據(jù)信息。大數(shù)據(jù)對(duì)數(shù)據(jù)的處理主要集中體現(xiàn)在數(shù)據(jù)分析上,即對(duì)大規(guī)模的、結(jié)構(gòu)復(fù)雜的數(shù)據(jù)進(jìn)行處理,實(shí)現(xiàn)預(yù)測(cè)與決策目的。從數(shù)據(jù)管理的角度出發(fā),數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)具有一定的關(guān)聯(lián)性,但大數(shù)據(jù)對(duì)數(shù)據(jù)的處理、數(shù)據(jù)類(lèi)型、處理速度、準(zhǔn)確性、數(shù)據(jù)量上等都明顯的優(yōu)越于數(shù)據(jù)倉(cāng)庫(kù)。因此,在數(shù)據(jù)處理未來(lái)的發(fā)展過(guò)程中,大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)的融合成為人們研究的重點(diǎn)問(wèn)題之一。
2大數(shù)據(jù)技術(shù)架構(gòu)及應(yīng)用困局
大數(shù)據(jù)在各個(gè)數(shù)據(jù)管理系統(tǒng)的應(yīng)用,提高了人們對(duì)數(shù)據(jù)利用的效率,其根本原因是移動(dòng)應(yīng)用以及互聯(lián)網(wǎng)技術(shù)的發(fā)展,二者在應(yīng)用的過(guò)程中,會(huì)產(chǎn)生大量的數(shù)據(jù),包括社交網(wǎng)絡(luò)、移動(dòng)設(shè)備、智能設(shè)備和傳感器等新渠道以及新技術(shù)使用而產(chǎn)生的海量數(shù)據(jù),如何有效的挖掘這些海量數(shù)據(jù)背后的價(jià)值,采用傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)很明顯不能解決這個(gè)問(wèn)題,以Hadoop為代表的大數(shù)據(jù)技術(shù)能夠快速地對(duì)海量的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,從而能夠提高數(shù)據(jù)的利用效率。
2.1大數(shù)據(jù)系統(tǒng)架構(gòu)
大數(shù)據(jù)技術(shù)需要結(jié)合一定的數(shù)據(jù)分析與處理,它的系統(tǒng)架構(gòu)主要包括存儲(chǔ)、處理、應(yīng)用、展示以及整合5個(gè)部分,在對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理時(shí),它可以視數(shù)據(jù)的復(fù)雜程度進(jìn)行選擇與組合,不用的組成部分含有一定的技術(shù)要求,它可以依據(jù)數(shù)據(jù)結(jié)構(gòu)化的程度進(jìn)行組合,形成具有特定功能的處理聚合體,它的結(jié)構(gòu)如圖1所示。該架構(gòu)主要包括數(shù)據(jù)的行業(yè)應(yīng)用、決策支持、智能抓取、預(yù)測(cè)建模、并行和分布式處理與存儲(chǔ)、流程優(yōu)化、情感分析、報(bào)告及可視化以及分析服務(wù)等功能,由于大數(shù)據(jù)環(huán)境下的數(shù)據(jù)安全也十分重要,在系統(tǒng)架構(gòu)中還需要具有數(shù)據(jù)安全與隱私管理的功能。
在數(shù)據(jù)展示層,主要包括行業(yè)應(yīng)用、決策支持與數(shù)據(jù)可視化服務(wù),主要功能是將各種數(shù)據(jù)整合在一起,為企業(yè)的管理者提供決策支持服務(wù)。應(yīng)用層主要是通過(guò)對(duì)數(shù)據(jù)進(jìn)行預(yù)測(cè)與建模功能,實(shí)現(xiàn)數(shù)據(jù)的流程優(yōu)化,進(jìn)而能夠?yàn)閿?shù)據(jù)的整合提供多種數(shù)據(jù)服務(wù)。在數(shù)據(jù)的處理層,主要是通過(guò)網(wǎng)絡(luò)自動(dòng)抓取數(shù)據(jù),采用分布式并行處理技術(shù)調(diào)去數(shù)據(jù)庫(kù)中的數(shù)據(jù),包括ETL或者LTE中的數(shù)據(jù)。為數(shù)據(jù)應(yīng)用層提供基本的數(shù)據(jù)支持服務(wù)。存儲(chǔ)主要是將結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行存儲(chǔ),在不同的類(lèi)型的數(shù)據(jù)庫(kù)耦合在一起,為數(shù)據(jù)處理提供海量數(shù)據(jù)。
2.2大數(shù)據(jù)應(yīng)用面臨的困境
大數(shù)據(jù)系統(tǒng)架構(gòu)的復(fù)雜性,說(shuō)明大數(shù)據(jù)不同一個(gè)單獨(dú)的產(chǎn)品或者技術(shù),而是傳統(tǒng)的DBMS數(shù)據(jù)庫(kù)與非結(jié)構(gòu)化數(shù)據(jù)庫(kù)、BI和數(shù)據(jù)科學(xué)等新技術(shù)的集合,在具體的使用過(guò)程中,大數(shù)據(jù)的應(yīng)用還面臨著如下的問(wèn)題。
(1)大數(shù)據(jù)的應(yīng)用還在技術(shù)層面的研究中。目前大數(shù)據(jù)的研究還集中在技術(shù)層面的研究中,在工程與企業(yè)應(yīng)用中的具體方法還沒(méi)有完善的解決方案,具體的如何將大數(shù)據(jù)應(yīng)用到企業(yè)層面或者工程學(xué)層面還需要進(jìn)一步的研究。對(duì)于大數(shù)據(jù)的具體應(yīng)用還沒(méi)有完整的體系化的模型,雖然開(kāi)源的Hadoop是免費(fèi)的,但是在具體的應(yīng)用與維護(hù)中還存在一定的困難。
(2)大數(shù)據(jù)技術(shù)的優(yōu)點(diǎn)可能會(huì)成為缺點(diǎn)。在大數(shù)據(jù)的具體應(yīng)用中,主要以Hadoop框架為基礎(chǔ),雖然該軟件比較優(yōu)秀,但是在處理一些比較“少”的非結(jié)構(gòu)化數(shù)據(jù),還不如數(shù)據(jù)庫(kù)處理簡(jiǎn)單,在一些基礎(chǔ)數(shù)據(jù)并不大的企業(yè),運(yùn)用大數(shù)據(jù)技術(shù),就會(huì)顯得不適宜。
(3)大數(shù)據(jù)的安全性還需要進(jìn)一步提高。隨著大數(shù)據(jù)技術(shù)的不斷應(yīng)用,面臨的數(shù)據(jù)安全問(wèn)題也成為人們需要重視的問(wèn)題之一,而Hadoop、MPP數(shù)據(jù)庫(kù)、MySQL、流處理以及相應(yīng)基礎(chǔ)設(shè)施等,還不能相互作用,特別是如果數(shù)據(jù)庫(kù)系統(tǒng)不夠完善,就會(huì)影響著Hadoop這種開(kāi)源框架的安全性。因此,提高大數(shù)據(jù)的安全問(wèn)題成為未來(lái)發(fā)展需要重點(diǎn)解決的問(wèn)題。
(4)市場(chǎng)對(duì)大數(shù)據(jù)的應(yīng)用與認(rèn)識(shí)還需進(jìn)一步提升。大數(shù)據(jù)的應(yīng)用就與“云”計(jì)算一樣,一些云技術(shù)開(kāi)發(fā)者認(rèn)為“云”解決了企業(yè)的基礎(chǔ)數(shù)據(jù)建設(shè)困難、維護(hù)困難、資源浪費(fèi)等情況,認(rèn)為云技術(shù)必將很快被企業(yè)接受,但是通過(guò)市場(chǎng)的反應(yīng)來(lái)看,云技術(shù)并不像人們想象的那樣。同樣,大數(shù)據(jù)技術(shù)還沒(méi)有形成便捷、智能化、多元化的系統(tǒng)框架,在未來(lái)的應(yīng)用中,還需要進(jìn)一步研究與提升。
(5)大數(shù)據(jù)對(duì)決策的影響還需進(jìn)一步探究。大數(shù)據(jù)主要是對(duì)網(wǎng)絡(luò)中海量的進(jìn)行挖掘,發(fā)現(xiàn)數(shù)據(jù)中隱含的價(jià)值,在獲取數(shù)據(jù)時(shí),都需要對(duì)每一個(gè)數(shù)據(jù)進(jìn)行處理、加工與分析,但這就產(chǎn)生一個(gè)疑問(wèn),是否每一個(gè)數(shù)據(jù)都需要進(jìn)行挖掘分析,獲取數(shù)據(jù)的準(zhǔn)確性怎么驗(yàn)證等一系列的問(wèn)題,這些問(wèn)題如何驗(yàn)證,是否能夠解決實(shí)際問(wèn)題,數(shù)據(jù)的分析與預(yù)測(cè)只是一種技術(shù)手段,在實(shí)際的管理中,也不一定會(huì)影響決策。另外,大數(shù)據(jù)的目的是對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)與分析,其本身又會(huì)產(chǎn)生很大的數(shù)據(jù),對(duì)這些數(shù)據(jù)的存儲(chǔ)也會(huì)產(chǎn)生很高的成本,在具體的投入與應(yīng)用中需要考慮大數(shù)據(jù)應(yīng)用的成本。因此,大數(shù)據(jù)應(yīng)用在技術(shù)層面上能夠提高人們的認(rèn)識(shí),在具體的應(yīng)用中還需進(jìn)一步驗(yàn)證。
3數(shù)據(jù)倉(cāng)庫(kù)發(fā)展與大數(shù)據(jù)技術(shù)的融合
3.1新一代數(shù)據(jù)倉(cāng)庫(kù)的體系架構(gòu)
數(shù)據(jù)倉(cāng)庫(kù)在具體的應(yīng)用中得到了不斷的完善,在商業(yè)化的發(fā)展也有比較成熟的產(chǎn)品,也有了完整數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)理論,例如Ralph Kimball提出的數(shù)據(jù)倉(cāng)庫(kù)項(xiàng)目生命周期理論等,在大量的企業(yè)與行業(yè)中都有成功的應(yīng)用案例。在大數(shù)據(jù)技術(shù)、理論、框架體系還沒(méi)有形成時(shí),DBMS數(shù)據(jù)庫(kù)處理技術(shù)在原有的數(shù)據(jù)倉(cāng)庫(kù)產(chǎn)品的功能上,采用大數(shù)級(jí)技術(shù)需求分析與Hadoop技術(shù)進(jìn)一步融合,加強(qiáng)對(duì)列式數(shù)據(jù)庫(kù)內(nèi)數(shù)據(jù)獲取與分析、數(shù)據(jù)庫(kù)內(nèi)分析與控制技術(shù)、in-memory、數(shù)據(jù)壓縮等技術(shù)的應(yīng)用于研究,以滿(mǎn)足大規(guī)模的實(shí)時(shí)數(shù)據(jù)處理與分析,提高數(shù)據(jù)的應(yīng)用效率,結(jié)合數(shù)據(jù)倉(cāng)庫(kù)的未來(lái)發(fā)展與應(yīng)用,為解決海量數(shù)據(jù)挖掘的問(wèn)題,人們提出了新的數(shù)據(jù)倉(cāng)庫(kù)建構(gòu),如圖2所示。在下一代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)中,不僅將傳統(tǒng)的業(yè)務(wù)數(shù)據(jù)源結(jié)合在一起,還將自媒體數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、傳感器、GIS系統(tǒng)數(shù)據(jù)等一些非關(guān)系型的數(shù)據(jù)融合在一起,然后利用Hadoop進(jìn)行處理,是實(shí)現(xiàn)數(shù)據(jù)庫(kù)中大量數(shù)據(jù)的處理。
結(jié)合企業(yè)提供的云平臺(tái)服務(wù)與企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)平臺(tái),利用Hadoop系統(tǒng)可以將不同結(jié)構(gòu)的數(shù)據(jù)進(jìn)行處理,同時(shí)采用實(shí)時(shí)集成技術(shù)、數(shù)據(jù)壓縮技術(shù)可以有效地對(duì)更大的數(shù)據(jù)進(jìn)行管理,同時(shí)也能夠?qū)?shù)據(jù)提供接近真實(shí)的實(shí)時(shí)性分析預(yù)測(cè),并利用in-memory數(shù)據(jù)庫(kù)內(nèi)分析技術(shù)對(duì)大量的、復(fù)雜的數(shù)據(jù)進(jìn)行處理與應(yīng)用,也能對(duì)不同的事務(wù)進(jìn)行處理與分析,用戶(hù)可以根據(jù)自己的需求進(jìn)行自動(dòng)配置,從而能夠提高數(shù)據(jù)處理的效率。它是將傳統(tǒng)數(shù)據(jù)、新數(shù)據(jù)源作為數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ),然后利用DBMS、實(shí)時(shí)分布式in-memory技術(shù)等對(duì)數(shù)據(jù)庫(kù)系統(tǒng)的中海量數(shù)據(jù)進(jìn)行處理分析,生成可視化、結(jié)構(gòu)化的數(shù)據(jù)報(bào)告,為用戶(hù)提供多元化的支持服務(wù)。該數(shù)據(jù)倉(cāng)庫(kù)的架構(gòu)不是單純的軟件架構(gòu),而是將未來(lái)企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)結(jié)合在一起,形成了軟件、硬件相結(jié)合的數(shù)據(jù)繼承能力,從而能夠?yàn)槠髽I(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用提供解決方案與支持服務(wù)。
3.2數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)融合的途徑
大數(shù)據(jù)需求的產(chǎn)生背景是在海量數(shù)據(jù)如何挖掘其隱含、潛在的價(jià)值而產(chǎn)生的,與數(shù)據(jù)倉(cāng)庫(kù)的功能類(lèi)似,如何采用的技術(shù)來(lái)處理海量數(shù)據(jù),提取數(shù)據(jù)中的游泳價(jià)值,從需求的角度分析,大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)的結(jié)合,主要是用來(lái)處理不同的數(shù)據(jù)需求,處理不同級(jí)別數(shù)據(jù)量的技術(shù),以獲得數(shù)據(jù)的更大價(jià)值。因此,數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)之間的融合,是數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)之間相互促進(jìn)、相互補(bǔ)充、相互協(xié)作的結(jié)果。從大數(shù)據(jù)的應(yīng)用技術(shù)與數(shù)據(jù)倉(cāng)庫(kù)建設(shè)結(jié)合在一起,對(duì)一些非結(jié)構(gòu)化數(shù)據(jù)的采集、存儲(chǔ)、傳遞、處理與分析十分有效,也能幫助人們發(fā)現(xiàn)這些非結(jié)構(gòu)數(shù)據(jù)背后的潛在價(jià)值。例如,將Hadoop技術(shù)與數(shù)據(jù)倉(cāng)庫(kù)結(jié)合在一起,應(yīng)用于對(duì)數(shù)據(jù)的采集,ETL、存儲(chǔ)、處理,提取有用的數(shù)據(jù)信息,并開(kāi)發(fā)提供給傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)BI工具,達(dá)到對(duì)海量數(shù)據(jù)進(jìn)行處理的功能,其架構(gòu)如圖3所示。
該系統(tǒng)架構(gòu)是在數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)處理的基礎(chǔ)上,將Hadoop數(shù)據(jù)平臺(tái)融合在一起,采用的是并行與分布式采集數(shù)據(jù)平臺(tái),將結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行收集,運(yùn)用ETL技術(shù)對(duì)其進(jìn)行處理,在BI層對(duì)數(shù)據(jù)進(jìn)行挖掘處理、可視化分析,從而能夠挖掘數(shù)據(jù)內(nèi)在的價(jià)值。在這個(gè)架構(gòu)中,主要包括源數(shù)據(jù)層、數(shù)據(jù)管理層與BI層,在源數(shù)據(jù)層主要收集數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化的數(shù)據(jù),數(shù)據(jù)處理層主要對(duì)這些數(shù)據(jù)進(jìn)行處理,采用了并行式處理技術(shù),主要改變了傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)單節(jié)點(diǎn)、順序數(shù)據(jù)處理和存儲(chǔ)的方式,采用ETL技術(shù)處理數(shù)據(jù),利用了Ha-doop強(qiáng)大的數(shù)據(jù)處理能力,對(duì)各種結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行處理,并向上提供給BI層工具對(duì)其進(jìn)行分析與處理,得到數(shù)據(jù)處理的可視化結(jié)果,便于用戶(hù)使用,在這個(gè)基礎(chǔ)架構(gòu)之上,充分的利用Hadoop數(shù)據(jù)平臺(tái)快速處理數(shù)據(jù)的功能,可以根據(jù)數(shù)據(jù)處理速度及分析響應(yīng)能力,對(duì)不同的數(shù)據(jù)進(jìn)行抽取、清洗、分析、挖掘、加工與處理,逐層進(jìn)行細(xì)化及分解數(shù)據(jù),優(yōu)化組合MPP數(shù)據(jù)庫(kù)、內(nèi)存數(shù)據(jù)庫(kù)等,同時(shí)充分的運(yùn)用各類(lèi)技術(shù),達(dá)到對(duì)不同數(shù)據(jù)進(jìn)行分析與處理的功能,生成相應(yīng)的數(shù)據(jù)報(bào)告,從而滿(mǎn)足BI層分析展示的需要。
另外,還可以在數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)管理層利用傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)技術(shù)和Hadoop結(jié)合在一起,優(yōu)化數(shù)據(jù)處理的方式,二者分工進(jìn)行處理數(shù)據(jù),由傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)工具對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,由Hadoop對(duì)更大規(guī)模的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行預(yù)處理,然后將處理后的結(jié)構(gòu)化數(shù)據(jù)傳遞給傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行分析,然后將二者處理后的數(shù)據(jù)存儲(chǔ)在結(jié)構(gòu)化的數(shù)據(jù)庫(kù)中,以便于BI層對(duì)這些結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行分析和展示,這不僅提高了數(shù)據(jù)處理的效率,還提高數(shù)據(jù)分析的精確度。
在技術(shù)層面上,數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)的融合具有非常大的可行性,在具體的數(shù)據(jù)理論應(yīng)用中,非常重要的一點(diǎn)是傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)在具體應(yīng)用理論、方法和實(shí)施上的成功經(jīng)驗(yàn),在一些企業(yè)中具有非常成熟的案例,如基于數(shù)據(jù)驅(qū)動(dòng)的螺旋式開(kāi)發(fā)方法、調(diào)研及需求設(shè)計(jì)、ETL、數(shù)據(jù)建模、元數(shù)據(jù)管理等技術(shù)應(yīng)用方面,重點(diǎn)的突出了數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)的融合,為后續(xù)的研究提出了理論研究的基礎(chǔ)。對(duì)大多數(shù)數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)應(yīng)用的企業(yè)來(lái)說(shuō),數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)的融合需要與傳統(tǒng)的數(shù)據(jù)庫(kù)廠商合作,共同開(kāi)發(fā)基于二者相融合的平臺(tái),才是具有可行性的策略,而開(kāi)發(fā)具有高利用價(jià)值的數(shù)據(jù)管理系統(tǒng),也是企業(yè)較為可行性的選擇,不僅能降低技術(shù)處理的難度,還能降低企業(yè)的成本。
4結(jié)束語(yǔ)
大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)的融合不僅是為了滿(mǎn)足市場(chǎng)的需求,還是對(duì)人們對(duì)新技術(shù)追求的需要,目前,不僅一些高科技企業(yè)采用大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)融合的方式來(lái)處理數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫(kù)廠商也開(kāi)始與一些技術(shù)企業(yè)合作,共同開(kāi)發(fā)大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)融合的平臺(tái),以解決企業(yè)面臨的海量數(shù)據(jù)問(wèn)題。通過(guò)的對(duì)當(dāng)前大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)融合中面臨的問(wèn)題進(jìn)行分析,提出可行性的解決方式,也是人們首先解決的重點(diǎn)問(wèn)題,將數(shù)據(jù)倉(cāng)庫(kù)與Hadoop技術(shù)融合的平臺(tái)架構(gòu),運(yùn)用技術(shù),形成新的解決方案,對(duì)提高大數(shù)據(jù)與數(shù)據(jù)倉(cāng)庫(kù)之間的融合具有十分重要的作用。