摘要:決策支持系統(tǒng)面向的是政府、金融、工業(yè)、制造等等幾乎所有行業(yè)的高層管理者,用來(lái)為其提供經(jīng)營(yíng)決策所需要的信息參考。而在得到這些可以被參考的信息之前,所要面對(duì)的是海量的、異構(gòu)的、復(fù)雜的、甚至不可以完全信任的信息,而信息又可以是定量的或定性的、文字的或數(shù)字的。怎樣才能有一個(gè)原則性的手段來(lái)對(duì)如此復(fù)雜的系統(tǒng)進(jìn)行有效的歸集和整理,從而使得分析設(shè)計(jì)有一個(gè)從容的方向呢?運(yùn)用信息系統(tǒng)的三大能力,即存儲(chǔ)、處理和通信能力,從這三個(gè)方面來(lái)看系統(tǒng)或者已經(jīng)變得不再那么難以把握。
關(guān)鍵詞:決策支持;數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)集市;數(shù)據(jù)抽取;數(shù)據(jù)清洗;OLAP;數(shù)據(jù)挖掘
中圖分類(lèi)號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)36-10508-02
一家集團(tuán)型的工程安裝企業(yè)需要進(jìn)行分析的數(shù)據(jù)跨越多個(gè)業(yè)務(wù)序列,例如財(cái)務(wù)、經(jīng)營(yíng)、施工、人力資源、行政等;又包容眾多分子公司,十二家有法人資格的分公司和六個(gè)集團(tuán)直屬并且財(cái)務(wù)進(jìn)行獨(dú)立核算的項(xiàng)目部。
其中,施工業(yè)務(wù)序列在集團(tuán)層面推廣了項(xiàng)目管理系統(tǒng),財(cái)務(wù)和人力資源系統(tǒng)正在實(shí)施過(guò)程中,而行政和經(jīng)營(yíng)系統(tǒng)的信息基本上呈手工處理狀態(tài),或者在辦公自動(dòng)化系統(tǒng)中有零星的信息記錄,并不形成體系。
決策支持系統(tǒng)需要在所有的這些信息系統(tǒng)的基礎(chǔ)上搭建用來(lái)涵蓋所有系統(tǒng)信息的數(shù)據(jù)倉(cāng)庫(kù),并將數(shù)據(jù)按照不同的業(yè)務(wù)序列組織為不同的數(shù)據(jù)集市,在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)建模時(shí),需要從集團(tuán)層面綜合考慮現(xiàn)有系統(tǒng)的信息方案,然后結(jié)合企業(yè)高層對(duì)分析模型的傾向,在更高層面歸納出分析數(shù)據(jù)的維度和應(yīng)有的數(shù)據(jù)度量。數(shù)據(jù)倉(cāng)庫(kù)中將在此后存儲(chǔ)各個(gè)業(yè)務(wù)系統(tǒng)被提煉后的所有數(shù)據(jù)。
而業(yè)務(wù)系統(tǒng)中的信息怎樣才能正確的、安全的、有條理的進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)中呢?也就是在數(shù)據(jù)處理上需要哪些工作呢?這就牽扯到了從各個(gè)數(shù)據(jù)源進(jìn)行數(shù)據(jù)抽取的任務(wù),而這些數(shù)據(jù)在進(jìn)行抽取之后又必須要經(jīng)過(guò)數(shù)據(jù)清洗過(guò)濾掉不合理的、不可信的、冗余的數(shù)據(jù)之后方能真正的進(jìn)入到數(shù)據(jù)倉(cāng)庫(kù)中。
數(shù)據(jù)倉(cāng)庫(kù)中有了支持分析的數(shù)據(jù),用什么樣的方式展現(xiàn)給用戶,用戶怎樣從這些抽象的數(shù)字中間得到直觀的并且有用的信息呢?也就是說(shuō),信息怎么樣才能和用戶之間進(jìn)行有效的通信、交流、互動(dòng)呢?對(duì)于定量的數(shù)字信息,可以借助OLAP(聯(lián)機(jī)分析處理)技術(shù)來(lái)對(duì)其進(jìn)行展示,對(duì)抽象的數(shù)字圖形化,更為直觀的呈現(xiàn)給用戶,而OLAP為技術(shù)上提供的支持更能夠讓用戶對(duì)數(shù)據(jù)進(jìn)行旋轉(zhuǎn)、切片和鉆取等高級(jí)處理;而對(duì)于定性的文字描述則需要從文字中運(yùn)用傳統(tǒng)的數(shù)據(jù)挖掘方法和獨(dú)有的數(shù)據(jù)挖掘算法對(duì)其進(jìn)行知識(shí)的提煉,最后以結(jié)果方式呈現(xiàn)給用戶。本文結(jié)合信息系統(tǒng)的三大能力框架,對(duì)企業(yè)數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)挖掘管理系統(tǒng)中的進(jìn)行了重新分析設(shè)計(jì),實(shí)現(xiàn)業(yè)務(wù)經(jīng)營(yíng)管理基本實(shí)現(xiàn)信息化管理,極大提高工作效率和管理力度、進(jìn)一步降底運(yùn)營(yíng)成本,提升企業(yè)競(jìng)爭(zhēng)能力。
1 信息存儲(chǔ)能力
1.1 數(shù)據(jù)倉(cāng)庫(kù)
由于企業(yè)已經(jīng)購(gòu)買(mǎi)了ORACLE數(shù)據(jù)產(chǎn)品,因此數(shù)據(jù)倉(cāng)庫(kù)在其已有產(chǎn)品上進(jìn)行二次構(gòu)建,物理上單獨(dú)為其劃分存儲(chǔ)空間,并保留足夠的空間可擴(kuò)展性。具體技術(shù)參數(shù)如下:
數(shù)據(jù)庫(kù)系統(tǒng)數(shù)據(jù)庫(kù)實(shí)例名XXX,在此實(shí)例下建立兩個(gè)用戶BI_DATA、BI_REP。BI_DATA用戶用來(lái)存放此系統(tǒng)業(yè)務(wù)數(shù)據(jù)。 BI_REP用戶用來(lái)存放分析系統(tǒng)的資料庫(kù)數(shù)據(jù)。
創(chuàng)建了八個(gè)表空間,BI_DATA1、BI_DATA2、BI_DATA3、BI_DATA4、BI_INDEX1、BI_INDEX2、BI_INDEX3、BI_INDEX4,每個(gè)表空間分別對(duì)應(yīng)一個(gè)或多個(gè)數(shù)據(jù)文件;BI_DATA表空間用來(lái)存放數(shù)據(jù)倉(cāng)庫(kù)中的業(yè)務(wù)數(shù)據(jù),BI_INDEX存放索引信息;BI_DATA每個(gè)數(shù)據(jù)文件的初始大小為1000M,自動(dòng)增長(zhǎng),每次擴(kuò)充100M空間;BI_INDEX每個(gè)數(shù)據(jù)文件的初始大小為500M,自動(dòng)增長(zhǎng),每次擴(kuò)充100M空間。
1.2 數(shù)據(jù)集市
根據(jù)實(shí)際情況,將業(yè)務(wù)系統(tǒng)的數(shù)據(jù)劃分為四個(gè)數(shù)據(jù)集市,分別為基本檔案集市、財(cái)務(wù)數(shù)據(jù)集市、工程數(shù)據(jù)集市、其它數(shù)據(jù)集市。
四個(gè)集市的數(shù)據(jù)分別對(duì)應(yīng)各自的數(shù)據(jù)表空間和索引表空間。
如此構(gòu)建的原因主要是考慮到四個(gè)數(shù)據(jù)集的數(shù)據(jù)均衡存儲(chǔ)問(wèn)題,而且,在后期的分析中,將集市以這樣的方式存儲(chǔ)可以有效地解決綜合分析時(shí),超大數(shù)據(jù)查詢(xún)時(shí)產(chǎn)生的IO瓶頸。如圖1所示。
2 信息處理能力
2.1 數(shù)據(jù)抽取
綜合集團(tuán)信息化情況來(lái)看,各個(gè)業(yè)務(wù)系統(tǒng)之間,無(wú)論從開(kāi)發(fā)手段,存儲(chǔ)手段,甚至網(wǎng)絡(luò)格局上都是異構(gòu)的,要從這些異構(gòu)系統(tǒng)中抽取數(shù)據(jù)是一項(xiàng)非常繁瑣的工作。
首先,需要了解各個(gè)業(yè)務(wù)系統(tǒng)的數(shù)據(jù)邏輯,以保證得到的數(shù)據(jù)已經(jīng)具有一定的可信性;
其次,數(shù)據(jù)庫(kù)異構(gòu)的時(shí)候,為了保證各個(gè)數(shù)據(jù)庫(kù)之間數(shù)據(jù)對(duì)象的可比性,必須要封裝一套針對(duì)于各個(gè)數(shù)據(jù)庫(kù)都適用的數(shù)據(jù)對(duì)象;
再次,封裝對(duì)象之后,需要利用跨數(shù)據(jù)庫(kù)的中間件技術(shù)來(lái)同時(shí)操作業(yè)務(wù)數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù);也可以利用WebService技術(shù),讓業(yè)務(wù)系統(tǒng)提供數(shù)據(jù)抽取服務(wù);
最后,解決網(wǎng)絡(luò)異構(gòu)的問(wèn)題需要利用VPN技術(shù),保證數(shù)據(jù)庫(kù)之間有專(zhuān)門(mén)的信息通路,最大程度保證通訊的順暢。
2.2 數(shù)據(jù)清洗
從各個(gè)業(yè)務(wù)系統(tǒng)得到第一手?jǐn)?shù)據(jù)之后,并不代表著這些數(shù)據(jù)就是符合邏輯并且可用的,還需要對(duì)這些數(shù)據(jù)進(jìn)行清洗。
數(shù)據(jù)清洗大概分為以下幾步過(guò)程:
第一步,數(shù)據(jù)對(duì)象重新定義;
第二步,數(shù)據(jù)維度重新歸集;
第三步,數(shù)據(jù)合理性判斷;
第四部,和已有數(shù)據(jù)比對(duì),判斷其連續(xù)性和可信性;
第五步,進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)。
數(shù)據(jù)清洗的每一步都需要對(duì)應(yīng)的算法來(lái)進(jìn)行實(shí)現(xiàn),但同時(shí)也可以借助一些時(shí)下已有的技術(shù)來(lái)屏蔽一些問(wèn)題,例如,利用XML技術(shù)就可以避免數(shù)據(jù)對(duì)象不一致的問(wèn)題。如圖2所示。
3 信息通信能力
3.1 OLAP
OLAP是使分析人員、管理人員或執(zhí)行人員能夠從多角度對(duì)信息進(jìn)行快速、一致、交互地存取,從而獲得對(duì)數(shù)據(jù)的更深入了解的一類(lèi)軟件技術(shù)。OLAP的目標(biāo)是滿足決策支持或者滿足在多維環(huán)境下特定的查詢(xún)和報(bào)表需求,它的技術(shù)核心是\"維\"這個(gè)概念
“維”是人們觀察客觀世界的角度,是一種高層次的類(lèi)型劃分?!熬S”一般包含著層次關(guān)系,這種層次關(guān)系有時(shí)會(huì)相當(dāng)復(fù)雜。通過(guò)把一個(gè)實(shí)體的多項(xiàng)重要的屬性定義為多個(gè)維(dimension),使用戶能對(duì)不同維上的數(shù)據(jù)進(jìn)行比較。因此OLAP也可以說(shuō)是多維數(shù)據(jù)分析工具的集合
OLAP的基本多維分析操作有鉆取、切片以及旋轉(zhuǎn)等。
鉆取是改變維的層次,變換分析的粒度。它包括向上鉆取(roll up)和向下鉆取(drill down)。roll up是在某一維上將低層次的細(xì)節(jié)數(shù)據(jù)概括到高層次的匯總數(shù)據(jù),或者減少維數(shù);而drill down則相反,它從匯總數(shù)據(jù)深入到細(xì)節(jié)數(shù)據(jù)進(jìn)行觀察或增加新維。
切片是在一部分維上選定值后,關(guān)心度量數(shù)據(jù)在剩余維上的分布。
旋轉(zhuǎn)是變換維的方向,即在表格中重新安排維的放置(例如行列互換)。
3.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中,抽取出潛在的、有價(jià)值的知識(shí)(模型或規(guī)則)的過(guò)程。
原則上講,目前成熟的數(shù)據(jù)挖掘技術(shù)可以對(duì)數(shù)據(jù)進(jìn)行分類(lèi)、估值、預(yù)言、相關(guān)性分組或關(guān)聯(lián)規(guī)則、聚集、描述和可視化等功能,但在此項(xiàng)目中主要運(yùn)用估值、預(yù)言和聚集三種挖掘模型。
估值,是在數(shù)據(jù)中選出已經(jīng)分好類(lèi)的訓(xùn)練集,在該訓(xùn)練集上運(yùn)用數(shù)據(jù)挖掘的算法得到未知的連續(xù)變量的值。主要應(yīng)用于對(duì)客戶投入的估計(jì),在同類(lèi)行業(yè)的基礎(chǔ)上對(duì)新的客戶投入進(jìn)行引導(dǎo)和合理估計(jì),保證商務(wù)產(chǎn)出比例。
預(yù)言,是在連續(xù)數(shù)據(jù)的基礎(chǔ)上通過(guò)預(yù)測(cè)算法,對(duì)未知變量進(jìn)行預(yù)言。主要應(yīng)用于行業(yè)競(jìng)爭(zhēng)時(shí)價(jià)格策略,集團(tuán)現(xiàn)金流預(yù)測(cè)等等。
聚集是對(duì)記錄分組,把相似的記錄在一個(gè)聚集里,然后對(duì)其進(jìn)行某些共有行為上的分析。主要應(yīng)用于行業(yè)投標(biāo)管理過(guò)程中的行為分析,或者行業(yè)消費(fèi)理念,用此類(lèi)分析來(lái)指導(dǎo)商務(wù)方向。
4 結(jié)束語(yǔ)
原本來(lái)講,在一開(kāi)始的時(shí)候,分析大型信息系統(tǒng)本身是一件極為繁瑣和毫無(wú)頭緒的工作。但從更高的層面上講,如果把所有信息系統(tǒng)都?xì)w納為三大能力的組合,然后從這三大能力入手來(lái)對(duì)復(fù)雜的系統(tǒng)進(jìn)行相對(duì)獨(dú)立的刨析,那么原本混沌的分析工作就被合理的分為了信息存儲(chǔ)、信息處理、信息通訊三方面帶解決的問(wèn)題。
然后運(yùn)用所有的技術(shù),分別獨(dú)立的對(duì)這三方面涉及到的問(wèn)題進(jìn)行一一的排程和處理,那么最后呈現(xiàn)在分析者面前的將是一套清晰的、可控的方案。
總的來(lái)講,如果復(fù)雜的信息系統(tǒng)在最初被分析時(shí),猛然之間為分析者帶來(lái)了旁大的困惑。先不要緊張,道法自然,一切復(fù)雜的事物都會(huì)有其潛在的不變的規(guī)律,而信息系統(tǒng)的三大能力就是分析的燈塔。
參考文獻(xiàn):
[1](美)斯坦巴赫.數(shù)據(jù)挖掘?qū)д揫M].北京:人民郵電出版社,2006
[2](美)Berry,M.J.A. 數(shù)據(jù)挖掘技術(shù):市場(chǎng)營(yíng)銷(xiāo)、銷(xiāo)售與客戶關(guān)系管理領(lǐng)域應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2006.