官維
摘? 要:為了輔助某汽車銷售公司在管理上的科學(xué)決策,本文通過需求分析、源數(shù)據(jù)準(zhǔn)備、建模、抽取等步驟構(gòu)建了一個(gè)數(shù)據(jù)倉庫,并開展了多維分析、報(bào)表可視化等應(yīng)用。結(jié)果表明,該數(shù)據(jù)倉庫能有效支持該公司的銷售分析與決策,也為其他企業(yè)同類項(xiàng)目的實(shí)施提供了一定的經(jīng)驗(yàn)參考。
關(guān)鍵詞:數(shù)據(jù)倉庫構(gòu)建;數(shù)據(jù)抽取;多維分析;報(bào)表可視化
中圖分類號:TP311.13? ? ?文獻(xiàn)標(biāo)識碼:A
Research on Construction and Application of Data Warehouse
Project in an Auto Sales Company
GUAN Wei
(Experimental Center,Dalian Neusoft University of Information,Dalian 116023,China)
Abstract:In order to assist the scientific decision on the management of a certain automobiles sales company,a data warehouse is constructed in this paper after a series of steps,such as requirement analysis,source data preparations,modeling and extraction.And the applications of multidimensional analysis and report visualization are performed as well.The result shows that the data warehouse can support this company's sales analysis and decision-making effectively,and the experience can also be referred for the implementation of similar projects by other companies.
Keywords:construction of data warehouse;data extraction;multidimensional analysis;report visualization
1? ?引言(Introduction)
某汽車銷售公司是一家以整車銷售為主營業(yè)務(wù)的貿(mào)易公司,在國內(nèi)外都占有重要的市場份額。隨著公司規(guī)模的不斷擴(kuò)大,公司的業(yè)務(wù)量也逐漸增長,并積累了大量的歷史銷售數(shù)據(jù),如何從這些數(shù)據(jù)中挖掘有價(jià)值的規(guī)律以更好地輔助企業(yè)高層的科學(xué)決策已經(jīng)成為該公司戰(zhàn)略規(guī)劃中的一個(gè)重要內(nèi)容。
商務(wù)智能可以使分散在各業(yè)務(wù)系統(tǒng)中的信息進(jìn)行有機(jī)集成[1],為企業(yè)的未來發(fā)展和市場競爭提供參考。而數(shù)據(jù)倉庫作為商務(wù)智能的核心技術(shù)是一種為企業(yè)管理服務(wù)的重要手段[2]。目前,數(shù)據(jù)倉庫技術(shù)已廣泛地應(yīng)用于各個(gè)行業(yè),包括:姜兆龍等研究了數(shù)據(jù)倉庫的測試特征并之應(yīng)用于建設(shè)銀行的實(shí)踐[3];馮強(qiáng)等探索了商務(wù)智能技術(shù)在物流企業(yè)的數(shù)據(jù)倉庫構(gòu)建中的具體應(yīng)用[4];余媛等立足于交通領(lǐng)域,研究了數(shù)據(jù)倉庫在公交運(yùn)營信息管理中的構(gòu)建步驟及實(shí)現(xiàn)細(xì)節(jié)[5]、樊持杰等將數(shù)據(jù)倉庫技術(shù)應(yīng)用在高校突發(fā)公共衛(wèi)生事件的預(yù)警和控制中,取得了良好的效果[6]。數(shù)據(jù)倉庫能夠?qū)ζ髽I(yè)的業(yè)務(wù)數(shù)據(jù)開展深層次的挖掘與分析,以快速獲取其中有用的決策信息,進(jìn)而提升企業(yè)的效益和競爭力。
因此,本文將從某汽車銷售公司的實(shí)際業(yè)務(wù)需求和管理目標(biāo)出發(fā),借助微軟公司的SQL Server商務(wù)智能工具構(gòu)建一個(gè)汽車銷售的數(shù)據(jù)倉庫,在此基礎(chǔ)上開展多維分析和報(bào)表可視化等應(yīng)用,以滿足該公司規(guī)?;l(fā)展中的管理與決策需要,同時(shí),也為其他同類企業(yè)甚至其他領(lǐng)域提供可借鑒的經(jīng)驗(yàn)。
2? 需求分析與源數(shù)據(jù)準(zhǔn)備(Requirement analysis and source data? preparations)
該汽車銷售公司的管理人員需要將企業(yè)銷售部門近些年來的業(yè)務(wù)數(shù)據(jù)轉(zhuǎn)換為統(tǒng)計(jì)數(shù)據(jù),并以直觀的可視化報(bào)表加以展示,以幫助高層做出正確的管理決策。因此,在項(xiàng)目開始前,要通過與客戶的反復(fù)溝通明確用戶的需求,詳細(xì)了解銷售部門的業(yè)務(wù)運(yùn)行流程;按照業(yè)務(wù)主線,抽取關(guān)鍵的業(yè)務(wù)概念,將其抽象化并分組;理清分組內(nèi)每個(gè)步驟的具體實(shí)現(xiàn)細(xì)節(jié)并進(jìn)一步細(xì)化與抽象,同時(shí)理清分組間的關(guān)聯(lián)關(guān)系,進(jìn)而形成完整的數(shù)據(jù)模型[7]。
通過分析,該公司需要的是與銷售相關(guān)的統(tǒng)計(jì)型報(bào)表,支持可視化分析與瀏覽。因此,本步驟首先要確定和建立源數(shù)據(jù)。源數(shù)據(jù)是數(shù)據(jù)倉庫構(gòu)建的關(guān)鍵步驟和來源基礎(chǔ),確定源數(shù)據(jù)就是根據(jù)相關(guān)的數(shù)據(jù)源主題構(gòu)建源數(shù)據(jù)表,并從企業(yè)的業(yè)務(wù)系統(tǒng)(如ERP)中抽取所需數(shù)據(jù)至源數(shù)據(jù)表的過程。
根據(jù)本項(xiàng)目的實(shí)施目標(biāo),確定七個(gè)源數(shù)據(jù)主題,包括:下訂單方式、銷售人員、發(fā)貨方式、訂單日期、客戶、訂單狀態(tài)、訂單價(jià)值?;谏鲜鲈礃I(yè)務(wù)主題,通過調(diào)用SQL語句建立相應(yīng)的數(shù)據(jù)庫表,包括:下訂單方式表、銷售人員表、發(fā)貨方式表、訂單日期表、客戶表、訂單狀態(tài)表、訂單價(jià)值段表、訂單分析表。其中,前七個(gè)表作為后續(xù)數(shù)據(jù)倉庫中的維度表,訂單分析表作為事實(shí)表。上述源數(shù)據(jù)表的創(chuàng)建結(jié)果見圖1。
圖1 源數(shù)據(jù)表
Fig.1 Tables of source data
3? 數(shù)據(jù)倉庫建模與數(shù)據(jù)抽?。―ata warehouse modeling and extraction)
3.1? ?數(shù)據(jù)倉庫建模
常見數(shù)據(jù)倉庫的模型包括兩種:星型模型和雪花型模型。兩種模型各具特色,在許多的應(yīng)用場景中往往都是配合使用,以發(fā)揮各自的優(yōu)勢[8]。其中:星型模型是由事實(shí)表和維度表組成,事實(shí)表處于整個(gè)模型的核心位置,其他的維度表以事實(shí)表為中心呈星型排列。維度表只與事實(shí)表相關(guān)聯(lián),維度表之間沒有任何關(guān)系。每個(gè)維度表中的主鍵都是單列的,且該主鍵同時(shí)被放置在事實(shí)表中,作為連接事實(shí)表與維度表的外鍵;雪花模型是對星型模型的擴(kuò)展。通過對某些維度進(jìn)行“層次化”操作,使原有的維度表被擴(kuò)展為更小的事實(shí)表,進(jìn)而形成局部的層次關(guān)系,即某個(gè)維度表不是與事實(shí)表直接相聯(lián),而是依附于另一個(gè)層級較高的維度表,維度表與其他的維度表也是靠主外鍵關(guān)聯(lián)的。通過維表層次關(guān)系的下鉆操作可以進(jìn)一步查看更細(xì)粒度的數(shù)據(jù)。星型模型與雪花模型的對比見表1。
表1 雪花模型與星型模型對比
Tab.1 Star model vs.snowflake model
比較標(biāo)準(zhǔn) 星型模型 雪花模型
數(shù)據(jù)優(yōu)化 使用反規(guī)范化數(shù)據(jù),維度表直接與事實(shí)表相關(guān),冗余大 使用規(guī)范化設(shè)計(jì),數(shù)據(jù)組織合理,冗余少,數(shù)據(jù)量小
業(yè)務(wù)模型 所有必要的維度表在事實(shí)表中都只擁有外鍵 由一個(gè)不同維度表主鍵-外鍵的關(guān)系來表示
查詢性能 維度表與事實(shí)表間的連接較少,性能較高 維度表與事實(shí)表間的連接很多,性能較低
ETL操作 加載維度表,不需要額外的附屬模型,操作簡單,可并行 加載數(shù)據(jù)集市,受附屬模型限制,操作復(fù)雜,不能并行化
通過對本公司汽車銷售業(yè)務(wù)的分析,本文采用星型模型,并使用SQL SERVER工具完成數(shù)據(jù)倉庫的構(gòu)建。具體過程如下:
第一,建立數(shù)據(jù)源。數(shù)據(jù)源是特定數(shù)據(jù)的集合,是為了訪問數(shù)據(jù)所需要的額外信息。在創(chuàng)建數(shù)據(jù)源時(shí),選擇綁定了名稱為“H”數(shù)據(jù)庫的本地連接,下一步后的模擬信息選擇“默認(rèn)值”,之后點(diǎn)擊“完成”按鈕。
第二,建立數(shù)據(jù)源視圖。數(shù)據(jù)源視圖由數(shù)據(jù)源生成,它可以直接展示數(shù)據(jù)源中表與表間的聯(lián)系及層次結(jié)構(gòu)。通過數(shù)據(jù)源視圖提供的可視化平臺,能夠方便地添加、刪除多維數(shù)據(jù)集的表并建立、維護(hù)表與表間的關(guān)系。在此處,將所有數(shù)據(jù)源中的表都選中至數(shù)據(jù)源視圖中,作為數(shù)據(jù)源視圖包含的對象。
第三,建立維度。所有維度都是基于數(shù)據(jù)源視圖中的表列或視圖列的屬性組。獨(dú)立于多維數(shù)據(jù)集存在的維度稱為數(shù)據(jù)庫維度,多維數(shù)據(jù)集中的數(shù)據(jù)庫維度實(shí)例稱為多維數(shù)據(jù)集維度。此處選擇主表并創(chuàng)建所需維度,同時(shí)指定每個(gè)維度的屬性。
第四,創(chuàng)建多維數(shù)據(jù)集。多維數(shù)據(jù)集是一個(gè)數(shù)據(jù)集合,也稱為多維立方體。多維數(shù)據(jù)集由一個(gè)事實(shí)表和多個(gè)維度表構(gòu)成,事實(shí)表是核心,由維度外鍵和度量值組成;維度表是包圍事實(shí)表的立體表面,對立方體的切面操作實(shí)際是從不同的角度看事實(shí)。通過向?qū)нx擇事實(shí)表和所需的維度表,完成多維數(shù)據(jù)集的創(chuàng)建。
本文數(shù)據(jù)倉庫的建模結(jié)果見圖2。
圖2 數(shù)據(jù)倉庫模型
Fig.2 Model of data warehouse
3.2? ?數(shù)據(jù)抽取
數(shù)據(jù)抽?。ㄒ卜Q為ETL)是數(shù)據(jù)倉庫構(gòu)建的核心環(huán)節(jié)之一,就是將原始數(shù)據(jù)從業(yè)務(wù)系統(tǒng)中抽取出來,經(jīng)過轉(zhuǎn)換、清洗和裝載的過程,形成新的數(shù)據(jù)倉庫。本項(xiàng)目的數(shù)據(jù)抽取包括對維度的抽取和對多維數(shù)據(jù)集的抽取。
以對“訂單價(jià)值段”維度的數(shù)據(jù)抽取為例,說明抽取過程。選中相應(yīng)的維度,點(diǎn)擊“處理”按鈕,進(jìn)入處理維度界面,再點(diǎn)擊“運(yùn)行”按鈕執(zhí)行處理過程?!疤幚怼本褪菍⑾鄳?yīng)的維度激活,只有在處理后數(shù)據(jù)才會顯示,即實(shí)現(xiàn)了數(shù)據(jù)抽取過程。需要注意的是,在查看維度中的數(shù)據(jù)或維度發(fā)生改變時(shí),都需要對維度進(jìn)行處理,否則維度信息會不準(zhǔn)確。完成處理之后,為該維度添加層次結(jié)構(gòu),以保證其值是按從小到大排序,點(diǎn)擊“瀏覽器”,可以顯示當(dāng)前的維度值,見圖3。
圖3 抽取的維度值
Fig.3 Dimension value after extraction
4? ?應(yīng)用實(shí)例(Examples of application)
4.1? ?多維分析
多維數(shù)據(jù)分析可以對以多維形式堆積起來的數(shù)據(jù)進(jìn)行切片、切塊、鉆取、旋轉(zhuǎn)等各種分析操作,方便解析數(shù)據(jù),使分析者、決策者能從多個(gè)角度、多個(gè)方面觀察系統(tǒng)中的數(shù)據(jù),從而更加深入了解隱含在數(shù)據(jù)中的重要信息。具體過程如下:
(1)切片
切片是在給定的數(shù)據(jù)立方體的一個(gè)維度上進(jìn)行選擇操作,其結(jié)果是一個(gè)二維的平面數(shù)據(jù)。此處執(zhí)行“訂單價(jià)值—訂單數(shù)量”的切片操作。其執(zhí)行結(jié)果見圖4。
圖4 切片操作結(jié)果
Fig.4 Result of slice operation
圖4中,通過切片操作,可看到在0—100價(jià)值段的銷售數(shù)量最多,達(dá)到1萬筆以上,2000—5000價(jià)值段的銷售數(shù)量排名第二,也接近1萬筆,而100—500價(jià)值段的銷售量最少,僅1409筆。因此,應(yīng)繼續(xù)保持0—100和2000—5000兩個(gè)價(jià)值段的銷售優(yōu)勢,同時(shí)應(yīng)加強(qiáng)100—500價(jià)值段的宣傳,擴(kuò)大其影響進(jìn)而提升其銷售量。
(2)切塊
切塊是在給定的數(shù)據(jù)立方體兩個(gè)或多個(gè)維度進(jìn)行選擇操作,其結(jié)果是子立體。此處執(zhí)行“訂單價(jià)值—訂單數(shù)量—客戶受教育程度”的切塊操作。其執(zhí)行結(jié)果見圖5。
圖5 切塊操作結(jié)果
Fig.5 Result of dice operation
圖5中,通過切塊操作,可看到在0—100價(jià)值段且面向受教育程度為Partial College的銷售數(shù)量最多,為3041筆,而100—500價(jià)值段且面向受教育程度為Partial High School的銷售數(shù)量最少。因此,應(yīng)深入分析受教育程度為Partial College人群的消費(fèi)習(xí)慣和特點(diǎn),總結(jié)其規(guī)律,并將之應(yīng)用于覆蓋不同價(jià)值段的消費(fèi)群體,從總體上提升該公司的銷售總量,以獲取更多的利潤和價(jià)值。
(3)旋轉(zhuǎn)
旋轉(zhuǎn)是改變維度的方向。此處執(zhí)行“訂單價(jià)值—訂單數(shù)量—客戶受教育程度”向“客戶受教育程度—訂單數(shù)量—訂單價(jià)值”的旋轉(zhuǎn)操作。其執(zhí)行結(jié)果見圖6。
圖6 旋轉(zhuǎn)操作結(jié)果
Fig.6 Result of rotate operation
圖6中,通過旋轉(zhuǎn)操作,通過橫向維度,可觀察到針對不同類別受教育程度的消費(fèi)者在不同價(jià)值段的銷售量分布情況;通過縱向維度,可觀察到某個(gè)價(jià)值對應(yīng)不同受教育程度的消費(fèi)者的銷售分布情況??梢?,旋轉(zhuǎn)可以通過一個(gè)全新的視角觀察到同一數(shù)據(jù)立方體的不同顯示效果,進(jìn)而獲得新的發(fā)現(xiàn)與結(jié)論,以更好地輔助企業(yè)的科學(xué)決策。
(4)鉆取
鉆取是在維度級別的基礎(chǔ)上繼續(xù)深入的了解觀察數(shù)據(jù)。此處針對訂單數(shù)量執(zhí)行“客戶所在地區(qū):國家”向“省”再向“市”的鉆取操作,其執(zhí)行結(jié)果見圖7。
圖7 鉆取操作結(jié)果
Fig.7 Result of drill down operation
圖7中,加拿大(Canada)的不列顛哥倫比亞?。˙ritish Columbia)的銷售數(shù)量最多(3359),通過進(jìn)一步的下鉆,可以查看該省下屬不同城市的銷售數(shù)量。可見,鉆取操作可在不同層次的行政區(qū)域間快速切換,即時(shí)瀏覽任一粒度層的銷售數(shù)量,從而為面向不同區(qū)域的銷售情況分析提供了全面而靈活的數(shù)據(jù)支持。
4.2? ?報(bào)表可視化
報(bào)表能夠以客制化的樣式直觀展示數(shù)據(jù)分析的結(jié)果,是數(shù)據(jù)倉庫最典型的應(yīng)用形式之一,本節(jié)基于SQL Server的報(bào)表設(shè)計(jì)器實(shí)現(xiàn)數(shù)據(jù)的可視化分析。具體過程如下:
第一,依據(jù)報(bào)表服務(wù)向?qū)?chuàng)建報(bào)表實(shí)例。
第二,針對此報(bào)表實(shí)例,建立共享數(shù)據(jù)源,用于連接到目標(biāo)數(shù)據(jù)庫。
第三,定制報(bào)表結(jié)構(gòu),并選擇報(bào)表類型為“表格格式”。
第四,形成并瀏覽報(bào)表結(jié)果。
基于上述步驟,創(chuàng)建的各類報(bào)告結(jié)果如下:
(1)各個(gè)地區(qū)的銷售統(tǒng)計(jì)報(bào)表
該報(bào)表展示各個(gè)地區(qū)的銷售統(tǒng)計(jì)結(jié)果,見圖8。
圖8 各個(gè)地區(qū)的銷售統(tǒng)計(jì)報(bào)表
Fig.8 Sales statistics report for each region
由圖8可見,在澳大利亞新南威爾士州的科夫斯港訂單價(jià)值在100萬以內(nèi)的銷售記錄有77條、100—500萬的銷售記錄有6條、500—1000萬的銷售記錄有24條、1000—2000萬的銷售記錄有22條。
(2)訂單價(jià)值及數(shù)量報(bào)表
報(bào)表展示的是訂單價(jià)值及數(shù)量,見圖9。
圖9 訂單價(jià)值及數(shù)量統(tǒng)計(jì)報(bào)表
Fig.9 Statistics report of order value and quantity
由圖9可見,訂單價(jià)值在100萬以內(nèi)的銷售記錄統(tǒng)計(jì)11471條。
(3)訂單價(jià)值與數(shù)量及受教育程度報(bào)表
報(bào)表展示的是訂單價(jià)值、數(shù)量及受教育程度間的關(guān)系,見圖10。
圖10 訂單價(jià)值、數(shù)量及受教育程度統(tǒng)計(jì)報(bào)表
Fig.10 Statistics report of sales value,quantity and?education level
由圖10可見,訂單價(jià)值在100萬以內(nèi),顧客受教育程度是高中,訂單統(tǒng)計(jì)為1162條。
(4)受教育程度與訂單數(shù)量及價(jià)值報(bào)表
此報(bào)表展示的是受教育程度、訂單數(shù)量及價(jià)值之間的關(guān)系,結(jié)果見圖11。
圖11 受教育程度、訂單數(shù)量及價(jià)值統(tǒng)計(jì)報(bào)表
Fig.11 Statistics report of education level,order quantity?and value
由11圖可見,從總體上看,在0—100萬元價(jià)值的訂單數(shù)量是最多的,100—500萬價(jià)值的訂單數(shù)量是最少的。受教育程度為Bachelors和Partial College兩類人群的訂單數(shù)量在所有價(jià)值區(qū)間中都比較靠前,其中,受教育程度為Partial的人群在0—100萬價(jià)值的訂單數(shù)量最多,超了3000筆。
5? ?結(jié)論(Conclusion)
本文闡述了某汽車銷售公司數(shù)據(jù)倉庫項(xiàng)目的構(gòu)建過程,包括源數(shù)據(jù)準(zhǔn)備、建模、抽取等步驟,并從多維分析及可視化報(bào)表兩個(gè)角度展示了該數(shù)據(jù)倉庫能為該公司在管理決策上提供的支持。研究結(jié)果表明:數(shù)據(jù)倉庫項(xiàng)目的實(shí)施可以有效解決該公司數(shù)據(jù)海量增長背景下快速提高管理決策水平的需求,為“數(shù)據(jù)驅(qū)動決策”提供了強(qiáng)大、科學(xué)的數(shù)據(jù)支撐??梢灶A(yù)見,數(shù)據(jù)倉庫技術(shù)在該公司的發(fā)展前景巨大,能給企業(yè)帶來不可估量的價(jià)值與優(yōu)勢,提升企業(yè)在市場環(huán)境下的綜合競爭實(shí)力。本文的后續(xù)工作將根據(jù)企業(yè)的需求進(jìn)一步完善數(shù)據(jù)倉庫的高級技術(shù)應(yīng)用,并在此基礎(chǔ)上,探索數(shù)據(jù)挖掘相關(guān)技術(shù)在該項(xiàng)目上的運(yùn)用。
參考文獻(xiàn)(References)
[1] 李娜.基于數(shù)據(jù)倉庫的商務(wù)智能經(jīng)營系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代電子技術(shù),2016,39(15):140-144.
[2] 李曉琳.互聯(lián)網(wǎng)+信息技術(shù)應(yīng)用淺談[J].農(nóng)村經(jīng)濟(jì)與科技,2016(24):297.
[3] 姜兆龍,金妍,李冬曉.數(shù)據(jù)倉庫測試特性及中國建設(shè)銀行測試實(shí)踐[J].中國金融電腦,2018(4):55-62.
[4] 馮強(qiáng),鄭垂勇.商業(yè)智能技術(shù)在物流企業(yè)數(shù)據(jù)倉庫設(shè)計(jì)中的應(yīng)用[J].物流技術(shù),2015,34(14):192-194.
[5] 余媛.公交公司運(yùn)營信息數(shù)據(jù)倉庫的構(gòu)建[J].漢江師范學(xué)院學(xué)報(bào),2017,37(6):111-113.
[6] 樊持杰,司巧梅,劉文,等.數(shù)據(jù)倉庫技術(shù)在高校突發(fā)公共衛(wèi)生事件預(yù)警和控制中的應(yīng)用[J].信息技術(shù)與信息化,2018,218(05):98-100.
[7] 胡馗.基于數(shù)據(jù)倉庫技術(shù)的企業(yè)信息化管理[J].科技與企業(yè),2016(5):15.
[8] 雷啟明.超市數(shù)據(jù)倉庫雪花模型的設(shè)計(jì)與應(yīng)用[J].商場現(xiàn)代化,2008(25):40-41.
作者簡介:
官? ?維(1976-),男,本科,講師.研究領(lǐng)域:計(jì)算機(jī)網(wǎng)絡(luò).