郭光福
(中國人民大學(xué)信息學(xué)院,北京 100872)
隨著數(shù)據(jù)庫技術(shù)的多元化發(fā)展,其在各行業(yè)、各領(lǐng)域都有廣泛的應(yīng)用,所以在業(yè)務(wù)管理系統(tǒng)中,針對(duì)數(shù)據(jù)倉庫與大數(shù)據(jù)之間的數(shù)據(jù)融合進(jìn)行分析,對(duì)進(jìn)一步提高數(shù)據(jù)倉庫的實(shí)際應(yīng)用效果有積極作用。在數(shù)據(jù)庫技術(shù)實(shí)現(xiàn)多樣化發(fā)展中,數(shù)據(jù)倉庫是通過現(xiàn)有的數(shù)據(jù)庫,對(duì)數(shù)據(jù)信息進(jìn)行抽取、加工以及使用,并為管理工作的開展提供管理決策。在這一視角下,數(shù)據(jù)倉庫建設(shè)與發(fā)展應(yīng)用數(shù)據(jù)庫技術(shù),對(duì)現(xiàn)有數(shù)據(jù)信息進(jìn)行管理,滿足業(yè)務(wù)管理與控制的綜合發(fā)展需求。在利用數(shù)據(jù)庫技術(shù)的基礎(chǔ)上,可通過數(shù)據(jù)挖掘與信息處理的方式,實(shí)現(xiàn)數(shù)據(jù)管理與業(yè)務(wù)管理水平的綜合提升。
數(shù)據(jù)倉庫并不是單純的多數(shù)據(jù)庫集合,而是通過數(shù)據(jù)處理技術(shù)針對(duì)現(xiàn)有的數(shù)據(jù)庫,對(duì)數(shù)據(jù)信息進(jìn)行提取、清洗、加工、處理以及使用,并為業(yè)務(wù)管理以及管理決策等提供依據(jù)。在實(shí)現(xiàn)數(shù)據(jù)信息處理的過程中,則需要通過大數(shù)據(jù)技術(shù),對(duì)數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行分析與處理,按照數(shù)據(jù)特征進(jìn)行分類與處理,從而提高數(shù)據(jù)信息的有效利用率。數(shù)據(jù)倉庫與數(shù)據(jù)技術(shù)具有聯(lián)系性,利用數(shù)據(jù)庫技術(shù)對(duì)數(shù)據(jù)信息進(jìn)行處理,其中包含云數(shù)據(jù)處理、數(shù)據(jù)挖掘、AI 技術(shù)應(yīng)用等,在數(shù)據(jù)信息處理與調(diào)整的基礎(chǔ)上,可實(shí)現(xiàn)數(shù)據(jù)處理水平提升[1]。大數(shù)據(jù)在實(shí)際應(yīng)用中,可以減少數(shù)據(jù)冗余,并消除數(shù)據(jù)壁壘,在數(shù)據(jù)挖掘以及智能處理技術(shù)的應(yīng)用下,對(duì)數(shù)據(jù)信息進(jìn)行融合與處理,從而實(shí)現(xiàn)數(shù)據(jù)采集與挖掘。大數(shù)據(jù)在對(duì)數(shù)據(jù)處理與分析時(shí),可以對(duì)大規(guī)模的、結(jié)構(gòu)復(fù)雜的數(shù)據(jù)信息進(jìn)行處理,從而實(shí)現(xiàn)預(yù)測(cè)與決策分析水平的提升。從數(shù)據(jù)管理的角度進(jìn)行分析,數(shù)據(jù)倉庫與大數(shù)據(jù)之間具有一定的關(guān)聯(lián)性,但是大數(shù)據(jù)對(duì)數(shù)據(jù)類型、數(shù)據(jù)處理等有積極作用,在數(shù)據(jù)處理與信息控制的基礎(chǔ)上,可實(shí)現(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)信息融合與控制。
對(duì)大數(shù)據(jù)的需求進(jìn)行分析時(shí),則是在數(shù)據(jù)分析與數(shù)據(jù)管理的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)預(yù)測(cè)與決策水平提升。從大數(shù)據(jù)與數(shù)據(jù)倉庫融合的角度進(jìn)行分析,大數(shù)據(jù)與數(shù)據(jù)倉庫之間比較相似,但是數(shù)據(jù)量、數(shù)據(jù)類型、處理速度、數(shù)據(jù)結(jié)構(gòu)準(zhǔn)確性等方面存在一定的差異性,所以在利用數(shù)據(jù)倉庫技術(shù)的過程中,則是在預(yù)測(cè)大數(shù)據(jù)的基礎(chǔ)上,對(duì)數(shù)據(jù)倉庫的數(shù)據(jù)處理過程進(jìn)行完善,從而滿足數(shù)據(jù)統(tǒng)計(jì)與數(shù)據(jù)分析的綜合需求[2]。
在對(duì)大數(shù)據(jù)技術(shù)的實(shí)際應(yīng)用進(jìn)行分析中,則是在非結(jié)構(gòu)化數(shù)據(jù)庫以及數(shù)據(jù)信息處理過程等方面進(jìn)行分析,在數(shù)據(jù)集合與數(shù)據(jù)挖掘處理的基礎(chǔ)上,可實(shí)現(xiàn)數(shù)據(jù)信息的綜合處理效果提升。但是,數(shù)據(jù)信息處理技術(shù)在實(shí)際應(yīng)用中,則需要對(duì)數(shù)據(jù)處理過程、數(shù)據(jù)處理參數(shù)等方面進(jìn)行優(yōu)化,在實(shí)現(xiàn)數(shù)據(jù)集中處理與分析處理的基礎(chǔ)上,可滿足數(shù)據(jù)倉庫的數(shù)據(jù)處理與控制需求。但是,大數(shù)據(jù)技術(shù)在實(shí)際應(yīng)用中,仍然存在以下幾個(gè)難點(diǎn)。
1.從技術(shù)層面進(jìn)行分析,大數(shù)據(jù)的研究與應(yīng)用仍然處在初級(jí)階段,缺少完善、有效的數(shù)據(jù)解決方案,對(duì)大數(shù)據(jù)信息處理以及數(shù)據(jù)挖掘處理等會(huì)產(chǎn)生直接的影響。在對(duì)大數(shù)據(jù)的實(shí)際應(yīng)用進(jìn)行分析中,缺少體系化的模型,雖然開源的Hadoop 可以實(shí)際應(yīng)用,但是在數(shù)據(jù)信息處理的過程中,數(shù)據(jù)處理技術(shù)的應(yīng)用水平不足,對(duì)數(shù)據(jù)應(yīng)用以及數(shù)據(jù)倉庫的數(shù)據(jù)挖掘等會(huì)產(chǎn)生直接的影響。在大數(shù)據(jù)信息處理與控制的過程中,則可以通過數(shù)據(jù)挖掘與信息處理的方式,實(shí)現(xiàn)數(shù)據(jù)挖掘與數(shù)據(jù)信息處理效果的綜合提升[3]。在建立完整化數(shù)據(jù)信息處理模型的基礎(chǔ)上,可通過數(shù)據(jù)處理以及信息評(píng)估的方式,實(shí)現(xiàn)大數(shù)據(jù)處理效果提升。
2.從大數(shù)據(jù)處理過程的角度進(jìn)行分析,在大數(shù)據(jù)技術(shù)的實(shí)踐應(yīng)用中,大多是以Hadoop 為框架,但是在實(shí)際應(yīng)用時(shí),其仍然存在非結(jié)構(gòu)化數(shù)據(jù),在數(shù)據(jù)處理與數(shù)據(jù)分析中,對(duì)數(shù)據(jù)倉庫的數(shù)據(jù)挖掘與信息挖掘會(huì)產(chǎn)生直接的影響。通過數(shù)據(jù)倉庫的應(yīng)用,在實(shí)現(xiàn)數(shù)據(jù)信息處理與控制的過程中,數(shù)據(jù)倉庫的處理過程仍然存在問題,對(duì)數(shù)據(jù)信息處理以及數(shù)據(jù)管理等會(huì)產(chǎn)生直接的影響,也會(huì)影響數(shù)據(jù)倉庫與大數(shù)據(jù)技術(shù)融合的實(shí)際應(yīng)用水平。而且,在對(duì)結(jié)構(gòu)數(shù)據(jù)進(jìn)行優(yōu)化的過程中,仍然存在數(shù)據(jù)信息處理不到位的情況,影響大數(shù)據(jù)技術(shù)的實(shí)際應(yīng)用效果與應(yīng)用價(jià)值。
3.數(shù)據(jù)安全問題。在大數(shù)據(jù)技術(shù)多樣化應(yīng)用的過程中,面對(duì)數(shù)據(jù)安全問題,對(duì)數(shù)據(jù)信息處理過程以及數(shù)據(jù)冗余等會(huì)產(chǎn)生直接影響。在Hadoop、MPP 數(shù)據(jù)庫、MySQL 數(shù)據(jù)流處理中,仍然存在數(shù)據(jù)庫系統(tǒng)不完善的情況,對(duì)數(shù)據(jù)結(jié)構(gòu)的安全性以及數(shù)據(jù)處理過程等會(huì)產(chǎn)生直接的影響。因此,在數(shù)據(jù)信息處理與數(shù)據(jù)開元處理的基礎(chǔ)上,仍然需要對(duì)數(shù)據(jù)安全問題進(jìn)行調(diào)整,從而實(shí)現(xiàn)大數(shù)據(jù)的數(shù)據(jù)安全控制水平提升[4]。
4.大數(shù)據(jù)應(yīng)用與開發(fā)不足。大數(shù)據(jù)的實(shí)際應(yīng)用與云計(jì)算過程相似,在對(duì)基礎(chǔ)數(shù)據(jù)建設(shè)體系進(jìn)行完善與優(yōu)化的基礎(chǔ)上,仍然需要從數(shù)據(jù)處理、數(shù)據(jù)維護(hù)以及數(shù)據(jù)分析等方面進(jìn)行優(yōu)化,在對(duì)數(shù)據(jù)處理過程進(jìn)行優(yōu)化的基礎(chǔ)上,可通過數(shù)據(jù)倉庫的信息處理與數(shù)據(jù)控制,解決大數(shù)據(jù)的操作與數(shù)據(jù)處理的綜合問題。但是,在大數(shù)據(jù)處理的過程中,智能化、多元化的系統(tǒng)框架搭建,仍然存在數(shù)據(jù)倉庫的開發(fā)問題,而且基礎(chǔ)數(shù)據(jù)建設(shè)比較困難,后期的數(shù)據(jù)處理與資源維護(hù)等不足,對(duì)大數(shù)據(jù)技術(shù)的操作與控制等會(huì)產(chǎn)生直接的影響。
5.大數(shù)據(jù)對(duì)業(yè)務(wù)管理決策的影響仍需進(jìn)一步研究。大數(shù)據(jù)技術(shù)在實(shí)際應(yīng)用中,對(duì)網(wǎng)絡(luò)中的海量數(shù)據(jù)進(jìn)行挖掘,可以發(fā)現(xiàn)數(shù)據(jù)中隱含的價(jià)值,但是在獲取數(shù)據(jù)的過程中,仍然需要對(duì)每一個(gè)數(shù)據(jù)進(jìn)行處理、加工以及分析,要對(duì)數(shù)據(jù)處理過程、數(shù)據(jù)分析準(zhǔn)確性等方面進(jìn)行探究,在數(shù)據(jù)分析與預(yù)測(cè)等方面仍有不足,對(duì)數(shù)據(jù)處理過程會(huì)產(chǎn)生直接的影響。在大數(shù)據(jù)信息處理與控制的過程中,數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)提取等不足,會(huì)影響數(shù)據(jù)挖掘與信息處理綜合水平。大數(shù)據(jù)技術(shù)可以對(duì)數(shù)據(jù)倉庫中的數(shù)據(jù)信息進(jìn)行統(tǒng)計(jì)與分析,但是在數(shù)據(jù)信息處理與數(shù)據(jù)應(yīng)用控制中,仍然存在數(shù)據(jù)挖掘與預(yù)測(cè)準(zhǔn)確性不足等問題,對(duì)大數(shù)據(jù)應(yīng)用會(huì)產(chǎn)生直接的影響。
為實(shí)現(xiàn)數(shù)據(jù)倉庫的架構(gòu)應(yīng)用水平提升,在業(yè)務(wù)數(shù)據(jù)處理與管理的過程中,需要在數(shù)據(jù)倉庫處理的基礎(chǔ)上,對(duì)數(shù)據(jù)信息處理過程、數(shù)據(jù)分析等方面進(jìn)行優(yōu)化,可實(shí)現(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)處理水平提升[5]。在大數(shù)據(jù)技術(shù)需求分析的視角下,可通過數(shù)據(jù)管理與信息處理的方式,對(duì)數(shù)據(jù)倉庫的不同特征數(shù)據(jù)進(jìn)行提取與處理,從而實(shí)現(xiàn)數(shù)據(jù)應(yīng)用效率的進(jìn)一步提升。在加強(qiáng)對(duì)列式數(shù)據(jù)庫內(nèi)數(shù)據(jù)獲取與分析的過程中,則需要對(duì)數(shù)據(jù)處理以及數(shù)據(jù)挖掘等方面進(jìn)行優(yōu)化,從而達(dá)到提高數(shù)據(jù)應(yīng)用效率的目的。在對(duì)數(shù)據(jù)應(yīng)用以及信息處理過程等方面進(jìn)行分析時(shí),則需要從業(yè)務(wù)數(shù)據(jù)源處理以及數(shù)據(jù)非關(guān)系型結(jié)構(gòu)等方面進(jìn)行處理,在實(shí)現(xiàn)數(shù)據(jù)融合的基礎(chǔ)上,利用Hadoop 對(duì)數(shù)據(jù)信息進(jìn)行處理,從而實(shí)現(xiàn)數(shù)據(jù)倉庫的數(shù)據(jù)分析處理效果提升。
從行業(yè)應(yīng)用的角度進(jìn)行分析,根據(jù)結(jié)構(gòu)化程度共同作用進(jìn)行分析,則是在行業(yè)應(yīng)用、決策分析的視角下,對(duì)分布式處理以及數(shù)據(jù)安全等方面進(jìn)行處理,在數(shù)據(jù)分布與信息整合的基礎(chǔ)上,可滿足數(shù)據(jù)分析與技術(shù)處理的綜合需求。大數(shù)據(jù)的架構(gòu)在應(yīng)用中,需要通過技術(shù)要素對(duì)行業(yè)數(shù)據(jù)、決策支持、分布式處理等方面進(jìn)行優(yōu)化,通過數(shù)據(jù)信息處理與業(yè)務(wù)整合,可滿足數(shù)據(jù)倉庫的數(shù)據(jù)挖掘處理需求。大數(shù)據(jù)架構(gòu)在實(shí)際應(yīng)用中,則可以對(duì)不同特征的數(shù)據(jù)信息處理過程、數(shù)據(jù)倉庫的數(shù)據(jù)存儲(chǔ)等方面進(jìn)行完善,在數(shù)據(jù)結(jié)構(gòu)化程度檢驗(yàn)與分析的視角下,可滿足數(shù)據(jù)分析與開發(fā)的綜合需求。展示層是針對(duì)數(shù)據(jù)關(guān)系、請(qǐng)求響應(yīng)、數(shù)據(jù)處理等方面進(jìn)行優(yōu)化,數(shù)據(jù)應(yīng)用中,則是通過預(yù)測(cè)性建模與模擬,對(duì)數(shù)據(jù)源進(jìn)行分析與處理,滿足大數(shù)據(jù)挖掘與信息處理的綜合需求。在對(duì)數(shù)據(jù)流進(jìn)行處理的過程中,則是在建立分布式處理關(guān)系的基礎(chǔ)上,對(duì)網(wǎng)絡(luò)自動(dòng)抓取的業(yè)務(wù)數(shù)據(jù)處理,并實(shí)現(xiàn)數(shù)據(jù)挖掘與信息處理的綜合分析。
從大數(shù)據(jù)需求分析的角度進(jìn)行分析,在實(shí)現(xiàn)數(shù)據(jù)融合與信息處理的過程中,則需要在數(shù)據(jù)倉庫的視角下,對(duì)業(yè)務(wù)數(shù)據(jù)關(guān)系以及數(shù)據(jù)處理過程等方面進(jìn)行優(yōu)化,在建立數(shù)據(jù)倉庫的視角下,對(duì)數(shù)據(jù)提取過程、數(shù)據(jù)處理方式等方面進(jìn)行優(yōu)化,滿足數(shù)據(jù)分析與處理的綜合需求。因此,數(shù)據(jù)倉庫與大數(shù)據(jù)在實(shí)現(xiàn)融合中,可實(shí)現(xiàn)數(shù)據(jù)的相互促進(jìn)、補(bǔ)充與協(xié)作,將大數(shù)據(jù)技術(shù)下的數(shù)據(jù)倉庫處理過程結(jié)合在一起,并對(duì)非結(jié)構(gòu)化數(shù)據(jù)的采集、存儲(chǔ)與傳輸?shù)确矫孢M(jìn)行優(yōu)化,從而實(shí)現(xiàn)數(shù)據(jù)信息的綜合處理效果提升。非結(jié)構(gòu)化數(shù)據(jù)信息的處理與控制,則是在數(shù)據(jù)倉庫分析與信息處理的視角下,對(duì)Hadoop 技術(shù)與數(shù)據(jù)倉庫結(jié)合過程進(jìn)行優(yōu)化,并對(duì)數(shù)據(jù)采集、ETL、存儲(chǔ)、處理、提取等方面進(jìn)行綜合分析,在數(shù)據(jù)信息處理與優(yōu)化的基礎(chǔ)上,將數(shù)據(jù)信息傳輸?shù)綌?shù)據(jù)倉庫,從而實(shí)現(xiàn)數(shù)據(jù)處理與分析的目的。在建立數(shù)據(jù)倉庫的基礎(chǔ)上,可以在數(shù)據(jù)管理層通過數(shù)據(jù)倉庫與Hadoop的結(jié)合,對(duì)數(shù)據(jù)處理方式進(jìn)行優(yōu)化,并通過數(shù)據(jù)分工來滿足數(shù)據(jù)處理與數(shù)據(jù)分析的綜合需求。利用數(shù)據(jù)倉庫對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行處理,并對(duì)數(shù)據(jù)處理過程以及數(shù)據(jù)參數(shù)等方面進(jìn)行調(diào)整,提高數(shù)據(jù)管理與信息處理的綜合水平[6]。
在創(chuàng)建BI 層的基礎(chǔ)上,可對(duì)數(shù)據(jù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)庫進(jìn)行調(diào)整與優(yōu)化,在實(shí)現(xiàn)數(shù)據(jù)信息處理與數(shù)據(jù)分解后,對(duì)不同數(shù)據(jù)進(jìn)行分析與處理,對(duì)實(shí)現(xiàn)數(shù)據(jù)信息處理與數(shù)據(jù)分析水平提升等有積極作用。從技術(shù)層面進(jìn)行分析,數(shù)據(jù)倉庫與大數(shù)據(jù)技術(shù)在融合的視角下,其實(shí)際應(yīng)用中,則可以通過數(shù)據(jù)處理與數(shù)據(jù)分析等方式,對(duì)數(shù)據(jù)驅(qū)動(dòng)過程以及數(shù)據(jù)信息處理方式等進(jìn)行優(yōu)化,在實(shí)現(xiàn)數(shù)據(jù)調(diào)研與分析中,可從數(shù)據(jù)需求設(shè)計(jì)、ETL、數(shù)據(jù)建模、元數(shù)據(jù)管理等方面進(jìn)行優(yōu)化,在突破數(shù)據(jù)倉庫與大數(shù)據(jù)融合的視角下,可為后續(xù)的數(shù)據(jù)應(yīng)用于數(shù)據(jù)分析處理等提供參考依據(jù)。數(shù)據(jù)倉庫與大數(shù)據(jù)的融合是在系統(tǒng)平臺(tái)優(yōu)化的基礎(chǔ)上,對(duì)數(shù)據(jù)管理過程、數(shù)據(jù)處理過程等方面進(jìn)行優(yōu)化,從而提高數(shù)據(jù)分析與業(yè)務(wù)處理的綜合水平。
在創(chuàng)建BI 層、數(shù)據(jù)管理以及源數(shù)據(jù)層的基礎(chǔ)上,對(duì)不同數(shù)據(jù)關(guān)系進(jìn)行整合與處理,可實(shí)現(xiàn)數(shù)據(jù)倉庫技術(shù)的實(shí)際應(yīng)用效果提升。在實(shí)際應(yīng)用與處理的過程中,則需要在數(shù)據(jù)分析與業(yè)務(wù)處理的基礎(chǔ)上,對(duì)數(shù)據(jù)關(guān)系進(jìn)行分析,在數(shù)據(jù)建模與處理的前提下,利用數(shù)據(jù)倉庫技術(shù),對(duì)數(shù)據(jù)關(guān)系以及數(shù)據(jù)整合等方面進(jìn)行調(diào)整,從而滿足數(shù)據(jù)倉庫建設(shè)與應(yīng)用的綜合發(fā)展需求。在數(shù)據(jù)倉庫的搭建與分析中,可利用數(shù)據(jù)傳輸機(jī)制,對(duì)數(shù)據(jù)關(guān)系、信息處理過程等方式,落實(shí)數(shù)據(jù)訪問服務(wù)。結(jié)構(gòu)化、半結(jié)構(gòu)以及非結(jié)構(gòu)化數(shù)據(jù)的處理分析,則可以在ETL 處理以及Hadoop 平臺(tái),對(duì)不同數(shù)據(jù)關(guān)系進(jìn)行調(diào)整與處理,在BI 層實(shí)現(xiàn)數(shù)據(jù)分析與數(shù)據(jù)優(yōu)化。在數(shù)據(jù)信息處理與分析的過程中,則需要利用數(shù)據(jù)挖掘的方式,對(duì)數(shù)據(jù)關(guān)系進(jìn)行處理,從而提高數(shù)據(jù)分析水平。
數(shù)據(jù)倉庫與大數(shù)據(jù)的融合,則是在數(shù)據(jù)信息處理的基礎(chǔ)上,對(duì)數(shù)據(jù)庫技術(shù)的實(shí)際應(yīng)用進(jìn)行分析,在優(yōu)化數(shù)據(jù)管理機(jī)制的前提下,可實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)管理水平的進(jìn)一步提升。數(shù)據(jù)倉庫與大數(shù)據(jù)技術(shù)的融合,則是在數(shù)據(jù)挖掘與信息處理的基礎(chǔ)上,對(duì)數(shù)據(jù)管理過程、業(yè)務(wù)處理方式等方面進(jìn)行優(yōu)化,從而實(shí)現(xiàn)數(shù)據(jù)管理與數(shù)據(jù)信息處理效果提升。在大數(shù)據(jù)技術(shù)分析與業(yè)務(wù)處理的基礎(chǔ)上,可通過技術(shù)融合的方式,對(duì)技術(shù)方案以及數(shù)據(jù)倉庫等方面進(jìn)行優(yōu)化,通過數(shù)據(jù)分析處理與數(shù)據(jù)信息處理,建立數(shù)據(jù)架構(gòu),并建立數(shù)據(jù)倉庫與大數(shù)據(jù)技術(shù)融合方案,從而實(shí)現(xiàn)大數(shù)據(jù)業(yè)務(wù)數(shù)據(jù)處理效果提升。