[摘要] 目前商業(yè)領(lǐng)域中交易電子化是發(fā)展趨勢。為了解客戶購物行為特征并進(jìn)行有效決策,本文提出一種基于數(shù)據(jù)倉庫和OLAP技術(shù)的解決方案,通過建立商品銷售數(shù)據(jù)倉庫,利用聯(lián)機(jī)分析的快速數(shù)據(jù)統(tǒng)計為商業(yè)企業(yè)提供決策支持。
[關(guān)鍵詞] 數(shù)據(jù)倉庫 OLAP 商業(yè)
一、引言
在當(dāng)今日益激烈的競爭環(huán)境下,企業(yè)要生存、發(fā)展,就必須具有能對不斷變化的商業(yè)環(huán)境進(jìn)行分析、預(yù)測并做出快速反應(yīng)的能力。要做到這一點,企業(yè)的決策分析人員能否及時地從大量的原始數(shù)據(jù)中提取更多、更準(zhǔn)確、更有效的信息是關(guān)鍵。企業(yè)傳統(tǒng)的OLTP(聯(lián)機(jī)事務(wù)處理)系統(tǒng)不能滿足人們對數(shù)據(jù)做深層次分析的要求。因此,數(shù)據(jù)倉庫和OLAP(聯(lián)機(jī)分析處理)技術(shù)便應(yīng)運(yùn)而生了。
二、數(shù)據(jù)倉庫技術(shù)
數(shù)據(jù)倉庫是在關(guān)系數(shù)據(jù)庫、并行處理和分布式技術(shù)的飛速發(fā)展基礎(chǔ)上提出的,是解決信息技術(shù)在發(fā)展中存在的擁有大量數(shù)據(jù)卻有用信息貧乏這一問題的綜合解決方案。各家學(xué)說對于什么是數(shù)據(jù)倉庫都有自己的定義,但內(nèi)容是見仁見智。經(jīng)典的數(shù)據(jù)倉庫概念是由美國著名信息工程學(xué)家 W.H.Inmon 在他的 《Building the Data Warehouse》一書給出的:“數(shù)據(jù)倉庫(Data Warehouse,DW)是面向主題的、集成的、時變的、非易失性的數(shù)據(jù)集合,用于支持管理層的決策過程。”
三、聯(lián)機(jī)分析處理技術(shù)
聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫之父E.F.Codd于1993年提出的。當(dāng)時,Codd認(rèn)為聯(lián)機(jī)事務(wù)處理(OLTP)已不能滿足終端用戶對數(shù)據(jù)庫查詢分析的要求,SQL對大數(shù)據(jù)庫的簡單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對關(guān)系數(shù)據(jù)庫進(jìn)行大量計算才能得到結(jié)果,而查詢結(jié)果并不能滿足決策者提出的需求。因此,Codd提出了多維數(shù)據(jù)庫和多維分析的概念,即OLAP。
OLAP是一種決策分析工具,它可以根據(jù)決策分析者的需要將數(shù)據(jù)進(jìn)行分類和運(yùn)算,對大量數(shù)據(jù)進(jìn)行復(fù)雜的查詢處理,并以直觀的、易理解的形式將查詢結(jié)果提供給決策分析者,以便他們準(zhǔn)確掌握企業(yè)(公司)的經(jīng)營狀況,了解市場需求,制定正確營銷方案,增加效益。
四、商業(yè)銷售數(shù)據(jù)倉庫的總體設(shè)計
1.數(shù)據(jù)倉庫系統(tǒng)結(jié)構(gòu)
本文背景是某大型電器賣場,通過綜合考慮原系統(tǒng)的數(shù)據(jù)環(huán)境和賣場管理決策者的需求,設(shè)計商業(yè)銷售數(shù)據(jù)倉庫系統(tǒng)。系統(tǒng)結(jié)構(gòu)如圖1所示。開發(fā)該系統(tǒng)大致分為三個階段:數(shù)據(jù)抽取、轉(zhuǎn)換和加載階段、多維數(shù)據(jù)結(jié)構(gòu)的創(chuàng)建管理階段和 OLAP 應(yīng)用系統(tǒng)開發(fā)階段。
商業(yè)銷售數(shù)據(jù)倉庫系統(tǒng)的數(shù)據(jù)處理流程為:數(shù)據(jù)采集系統(tǒng)根據(jù)已確定的主題域,采集原有OLTP數(shù)據(jù)庫中的相關(guān)業(yè)務(wù)數(shù)據(jù),重整后歸類存放到數(shù)據(jù)倉庫,然后通過OLAP工具將數(shù)據(jù)倉庫的數(shù)據(jù)多層次分類匯總,從而建立多維數(shù)據(jù)模型,并存儲在OLAP服務(wù)器中,最后結(jié)合報表軟件開發(fā)OLAP應(yīng)用系統(tǒng)將數(shù)據(jù)靈活地呈現(xiàn)給用戶。
本系統(tǒng)采用Microsoft 的數(shù)據(jù)倉庫解決方案,Microsoft 的數(shù)據(jù)倉庫解決方案為創(chuàng)建數(shù)據(jù)倉庫系統(tǒng)的每個部分都提供了所需的工具,使快速開發(fā)數(shù)據(jù)倉庫系統(tǒng)成為可能。
2.數(shù)據(jù)抽取、轉(zhuǎn)換和加載(ETL)
數(shù)據(jù)倉庫中的數(shù)據(jù)是面向主題組織的,首先根據(jù)商業(yè)銷售的特點和賣場決策人員的需求,可以確定主題域為商品銷售。根據(jù)確定的主題域和信息分析需求,從原有OLTP數(shù)據(jù)庫中抽取相關(guān)數(shù)據(jù),進(jìn)行凈化、轉(zhuǎn)換和聚合,最后存放于商業(yè)銷售數(shù)據(jù)倉庫中。由于數(shù)據(jù)倉庫
的設(shè)計直接影響到能否方便地設(shè)計和構(gòu)造多維數(shù)據(jù)結(jié)構(gòu)來滿足用戶多層次,多角度的決策分析,因此在抽取、轉(zhuǎn)換和加載過程中還要根據(jù)將要建立的多維結(jié)構(gòu)特性對部分?jǐn)?shù)據(jù)進(jìn)行調(diào)整。本系統(tǒng)采用Microsoft SQL Server 2005 提供的Integration Services工具來實現(xiàn)數(shù)據(jù)轉(zhuǎn)換。
3.多維數(shù)據(jù)結(jié)構(gòu)創(chuàng)建和管理
在多維數(shù)據(jù)結(jié)構(gòu)創(chuàng)建和管理階段,根據(jù)賣場中高層管理人員分析的自然方式建立數(shù)據(jù)模型,將數(shù)據(jù)倉庫中的數(shù)據(jù)按照一定的層次進(jìn)行聚合、匯總,構(gòu)成信息分析的多維視圖,最后選擇一定的存儲模式,將這些多維視圖存儲在OLAP服務(wù)器中。
(1)數(shù)據(jù)倉庫的存儲和多維數(shù)據(jù)模型的建立
基于關(guān)系表的存儲方式有兩種模型:星型模型和雪花模型。商業(yè)銷售數(shù)據(jù)倉庫采用星型模型。圖2為商品銷售的星型模型。該模型的商品銷售事實表連接了4個維度表:時間維度表,產(chǎn)品維度表,員工維度表,供貨商維度表。通過這4個維度表的主鍵將事實表和維表連接一起,形成了星型模型。所以只要掃描事實表就可以查詢,而無需把多個龐大的表連結(jié)起來。同時維度表一般比較小,與事實表連接時其速度較快,這樣就大大加快了查詢速度。
(2)OLAP分析實現(xiàn)
本系統(tǒng)采用Microsoft SQL Server 2005 提供的Analysis Services工具管理多維數(shù)據(jù)集。
利用Analysis Services,根據(jù)數(shù)據(jù)倉庫中的事實表和維度表,建立了“商品銷售”多維數(shù)據(jù)集后,就可以利用其中的工具,對多維數(shù)據(jù)集的不同維度、不同層次進(jìn)行鉆取、旋轉(zhuǎn)、切片等操作,從而可以方便地查看數(shù)據(jù)倉庫的內(nèi)容。
①向上鉆取。通過一個維的歸約,在多維數(shù)據(jù)立方體上進(jìn)行聚集。如在時間維度上,可由“日”層向“月”層向“年”層聚集數(shù)據(jù)。
②向下鉆取。向下鉆取是向上鉆取的逆操作,是由不太詳細(xì)的數(shù)據(jù)到詳細(xì)的數(shù)據(jù)。
③切片與切塊。切片在多維數(shù)據(jù)立方體的一個維上進(jìn)行選擇。如年=“2007”。切塊操作在數(shù)據(jù)立方體的兩個或兩個以上的維上進(jìn)行選擇,如產(chǎn)品名稱=“三星VP-DC171WI/CHN”and 年=“2007”。
五、結(jié)束語
本文在商業(yè)企業(yè)已有系統(tǒng)的基礎(chǔ)上,將數(shù)據(jù)倉庫和OLAP技術(shù)引入,建立商業(yè)銷售數(shù)據(jù)倉庫和OLAP多維數(shù)據(jù)模型,并在此基礎(chǔ)上進(jìn)行OLAP分析,從而快捷有效地得出有價值地決策信息,幫助商業(yè)企業(yè)在市場競爭中取得優(yōu)勢。
參考文獻(xiàn):
[1]王珊:數(shù)據(jù)倉庫技術(shù)與聯(lián)機(jī)分析處理[M].科學(xué)出版社,1998
[2]沈兆陽:SQL SERVER 2000 OLAP解決方案——數(shù)據(jù)倉庫Analysis Services[M].清華大學(xué)出版社,2001