黃 兵,曹建國
(安徽工貿(mào)職業(yè)技術(shù)學(xué)院a.基礎(chǔ)部;b.教務(wù)處,安徽淮南 232007)
隨著我國經(jīng)濟(jì)體制轉(zhuǎn)軌的逐步完成和全球化的迫切需求,政府的決策內(nèi)容、決策范圍和決策方式已經(jīng)發(fā)生了很大的變化。因此,通過整合政府內(nèi)外各方面的技術(shù)力量和信息資源,建立合適的決策咨詢支持系統(tǒng),是當(dāng)前政府決策制定的前提條件和必要基礎(chǔ)。隨著數(shù)據(jù)倉庫技術(shù)、OLAP技術(shù)及數(shù)據(jù)挖掘技術(shù)的逐步成熟和完善,為其決策咨詢支持系統(tǒng)的實(shí)現(xiàn)提供了一條新的途徑。基于目前傳統(tǒng)事務(wù)數(shù)據(jù)庫決策支持系統(tǒng)數(shù)據(jù)分析能力的有限性,尤其是非結(jié)構(gòu)化的查詢操作要涉及到上千萬行數(shù)據(jù),復(fù)雜的表鏈接嚴(yán)重影響了系統(tǒng)的快速性能,而以多維數(shù)據(jù)為核心的數(shù)據(jù)分析為信息決策提供了很好的技術(shù)手段。同時(shí),數(shù)據(jù)倉庫的多維特征滿足了系統(tǒng)從多種角度對(duì)數(shù)據(jù)進(jìn)行快速、交互、動(dòng)態(tài)和一致性的分析,克服了傳統(tǒng)決策支持系統(tǒng)交互性能差、速度慢的弊端,使決策者能夠?qū)?shù)據(jù)進(jìn)行深入細(xì)致地分析和梳理。當(dāng)前較好的解決方案是以數(shù)據(jù)倉庫(data warehouse)技術(shù)為支撐,借助于聯(lián)機(jī)分析處理(OLAP)和數(shù)據(jù)挖掘(data mining)工具,設(shè)計(jì)并開發(fā)政府決策系統(tǒng)。
依托中心數(shù)據(jù)倉庫的決策支持系統(tǒng)是決策咨詢基本信息管理系統(tǒng)與中心數(shù)據(jù)倉庫的中心樞紐,其關(guān)鍵是數(shù)據(jù)挖掘和OLAP聯(lián)機(jī)分析與設(shè)計(jì),這兩項(xiàng)工作的完成是成功實(shí)現(xiàn)決策支持系統(tǒng)的重要條件。
原有數(shù)據(jù)庫系統(tǒng)記錄的是相關(guān)每一項(xiàng)業(yè)務(wù)處理的具體的細(xì)節(jié)性數(shù)據(jù),因此中心數(shù)據(jù)倉庫中的綜合數(shù)據(jù)是不能從原有數(shù)據(jù)庫系統(tǒng)中直接得到的。這些數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前必須經(jīng)過提煉和整理,剔除無用的數(shù)據(jù)項(xiàng),引進(jìn)一些相關(guān)聯(lián)的外部數(shù)據(jù),從而形成各行業(yè)類型的數(shù)據(jù)集市。本文中心數(shù)據(jù)倉庫根據(jù)行業(yè)類別將信息劃分為12個(gè)數(shù)據(jù)集市,其主要集市有產(chǎn)業(yè)經(jīng)濟(jì)結(jié)構(gòu)數(shù)據(jù)集市、政策法規(guī)數(shù)據(jù)集市、物價(jià)指數(shù)數(shù)據(jù)集市、財(cái)政金融數(shù)據(jù)集市、人口就業(yè)數(shù)據(jù)集市、突發(fā)應(yīng)急事件數(shù)據(jù)集市等。本文中的中心數(shù)據(jù)倉庫設(shè)計(jì)分為4大步驟。
(1)確定分析主題。結(jié)合用戶的需求和所要實(shí)現(xiàn)的目標(biāo),在熟悉業(yè)務(wù)分析需求和報(bào)表需求的基礎(chǔ)上,總結(jié)并且制定數(shù)據(jù)分析的各個(gè)主題。例如:分析者希望分析某年某月某地區(qū)的生產(chǎn)總值情況,那么這就是一個(gè)主題。主題需要體現(xiàn)出決策所要分析問題的各個(gè)分析角度以及統(tǒng)計(jì)數(shù)值型數(shù)據(jù)(度量)之間的關(guān)系。
(2)確定度量。在確定了主題后,就需要考慮要分析的技術(shù)指標(biāo),諸如財(cái)政收入、財(cái)政支出等。一般都為數(shù)值型數(shù)據(jù),對(duì)于度量還需要考慮一些其他的計(jì)算問題,如度量是由底層數(shù)據(jù)進(jìn)行匯總而得,還是由數(shù)據(jù)的最大值、最小值,或者是多個(gè)度量之間的關(guān)系這種聚集方式。
(3)確定事實(shí)數(shù)據(jù)的粒度。設(shè)計(jì)和實(shí)現(xiàn)其他問題的解決,必須在數(shù)據(jù)倉庫的粒度合理確定以后。如果沒有合理地確定粒度,勢(shì)必會(huì)影響其他方面的確定。例如:假設(shè)目前某系統(tǒng)的數(shù)據(jù)最小記錄單位為s,如果分析需求的時(shí)間需要精確到d,那么在ETL的實(shí)際處理過程中,數(shù)據(jù)倉庫度量的粒度就是d,可以按數(shù)據(jù)流量的d數(shù)來匯總數(shù)據(jù)。粒度級(jí)別的合適選擇是體系結(jié)構(gòu)設(shè)計(jì)環(huán)境成功的關(guān)鍵因素。其一般方法是利用日常理論和知識(shí),首先建立數(shù)據(jù)倉庫的一小部分,然后適時(shí)讓用戶去訪問這些數(shù)據(jù),并提煉出自己所需要的最終數(shù)據(jù)。
(4)分析所需維度。確定主題過程舉的例子中,時(shí)間、地區(qū)等就是這個(gè)分析主題的維度。在設(shè)計(jì)維度的時(shí)候需要考慮維度的層次結(jié)構(gòu)和級(jí)別,層次結(jié)構(gòu)是用來定義數(shù)據(jù)聚集的,它是對(duì)維度中成員的集合以及成員之間的相對(duì)位置的描述,是組織數(shù)據(jù)的邏輯結(jié)構(gòu)的體現(xiàn)。維成員的劃分和設(shè)計(jì)必須遵循從頂部到底部逐步細(xì)化的原則,底層的數(shù)據(jù)值聚集和匯總到上層。例如用年、季度和月定義的時(shí)間維度中,年處于層次結(jié)構(gòu)的頂層,季度處于中層,月處于底層。國民經(jīng)濟(jì)數(shù)據(jù)維分析星型圖如圖1所示。
通過以上4個(gè)步驟,數(shù)據(jù)倉庫中主題的模型設(shè)計(jì)已經(jīng)完成,但僅僅完成模型設(shè)計(jì)才只完成了整個(gè)數(shù)據(jù)倉庫設(shè)計(jì)的30%,還需要從各種復(fù)雜的業(yè)務(wù)系統(tǒng)中抽取數(shù)據(jù),加載到事實(shí)表中。數(shù)據(jù)倉庫的ETL過程是數(shù)據(jù)倉庫成功實(shí)施的關(guān)鍵,具體來說,數(shù)據(jù)倉庫的ETL過程是指從實(shí)際的業(yè)務(wù)需求出發(fā),結(jié)合已經(jīng)設(shè)計(jì)好的數(shù)據(jù)倉庫模型進(jìn)行具體實(shí)施的過程。整個(gè)數(shù)據(jù)倉庫的ETL過程需要有業(yè)務(wù)人員適時(shí)地參與進(jìn)來,幫助開發(fā)人員梳理業(yè)務(wù)數(shù)據(jù)的邏輯結(jié)構(gòu)和數(shù)據(jù)校對(duì)的準(zhǔn)確性等工作。ETL過程是一個(gè)復(fù)雜的過程,占用了整個(gè)數(shù)據(jù)倉庫開發(fā)周期60%~70%的時(shí)間。一般來說,ETL過程包括3個(gè)功能。
(1)獲取數(shù)據(jù)。從系統(tǒng)數(shù)據(jù)源中提煉數(shù)據(jù)倉庫所需要的數(shù)據(jù)[1]。
(2)轉(zhuǎn)換數(shù)據(jù)。首先對(duì)數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行適當(dāng)?shù)那逑?,接著轉(zhuǎn)換成數(shù)據(jù)倉庫所需的格式,最后再對(duì)這些數(shù)據(jù)進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換。
(3)加載數(shù)據(jù)。將上述轉(zhuǎn)換后的數(shù)據(jù)及時(shí)進(jìn)行加載并安全地裝入數(shù)據(jù)倉庫[2-3]。
數(shù)據(jù)挖掘設(shè)計(jì)是指從不完全的、大量的、不準(zhǔn)確的、有噪聲的和模糊隨機(jī)的各行業(yè)類型的數(shù)據(jù)信息中甄別有價(jià)值的、新穎的、潛在的信息和知識(shí)的過程。從主要的6大類任務(wù)(數(shù)據(jù)總結(jié)、概念描述、分類、聚類、關(guān)聯(lián)分析、偏差分析)出發(fā)制定現(xiàn)實(shí)可行的工作過程。數(shù)據(jù)挖掘設(shè)計(jì)歸根結(jié)底也就是算法的設(shè)計(jì),本文采用傳統(tǒng)的決策樹算法。
決策樹算法是采用自頂向下遞歸的各個(gè)擊破方式構(gòu)造決策樹的經(jīng)典的分類算法。在樹的每一個(gè)結(jié)點(diǎn)上使用信息增益度量來選擇測(cè)試的屬性。決策樹中的每個(gè)內(nèi)部節(jié)點(diǎn)表示對(duì)某個(gè)屬性的一次測(cè)試,每條邊表示一個(gè)測(cè)試結(jié)果,葉子表示某個(gè)類的分布,頂部的節(jié)點(diǎn)代表根結(jié)點(diǎn)。圖2決策樹是一個(gè)固定資產(chǎn)投資使用的例子,通過對(duì)此圖的分析,用戶可以預(yù)測(cè)是否對(duì)某固定資產(chǎn)進(jìn)行意向投資,數(shù)據(jù)挖掘流程圖如圖2所示。
圖1 國民經(jīng)濟(jì)數(shù)據(jù)維分析星型圖Fig.1 Digital analysis of national economic data
圖2 數(shù)據(jù)挖掘流程圖Fig.2 Process of data mining
(1)分析目標(biāo)和維度的確定。對(duì)實(shí)際業(yè)務(wù)進(jìn)行OLAP分析時(shí),應(yīng)該首先制定分析的目標(biāo),只有在分析目標(biāo)確定之后,才能根據(jù)已確定的分析目標(biāo)確定分析的維度和指標(biāo)。當(dāng)然,分析的維度和指標(biāo)也不能一概而論,一定要結(jié)合實(shí)際的需求進(jìn)行細(xì)化。只有這樣,分析維度和指標(biāo)的確定才具有實(shí)際的意義和較強(qiáng)的針對(duì)性。
(2)分析模型的構(gòu)造。分析模型的構(gòu)造是OLAP分析設(shè)計(jì)的關(guān)鍵環(huán)節(jié),模型一般包括邏輯模型和物理模型。邏輯模型采用的星型結(jié)構(gòu)主要由事實(shí)表和維表構(gòu)成。細(xì)節(jié)數(shù)據(jù)存放在事實(shí)表中,各分析維度的屬性存放在維表中。物理模型是OLAP分析設(shè)計(jì)的物理存儲(chǔ)結(jié)構(gòu),實(shí)際存儲(chǔ)中多以關(guān)系型數(shù)據(jù)庫架構(gòu)或多維立方體形式的構(gòu)建存放邏輯模型所采用的星型結(jié)構(gòu)。
(3)前端分析與展現(xiàn)。在完成分析模型的構(gòu)造之后可以配置前端展現(xiàn)工具,由于訪問方式的不同,其相應(yīng)的配置也不盡相同。例如:如果采用Web訪問方式,則根據(jù)需要將有關(guān)內(nèi)容加載到OLAP服務(wù)器中的同時(shí),對(duì)Web服務(wù)器作相應(yīng)的配置。如果采用傳統(tǒng)的客戶端訪問方式,則需要對(duì)客戶端軟件作相應(yīng)的配置。配置工作完成以后,用戶就可以針對(duì)相應(yīng)的主題進(jìn)行各種分析操作[4]。以多種圖形或表格的形式提供的界面其優(yōu)點(diǎn)是直觀、簡單和快捷。
本系統(tǒng)是基金項(xiàng)目中的一個(gè)子任務(wù)。本文針對(duì)數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在政府決策中的設(shè)計(jì)與應(yīng)用,采用了當(dāng)今主流的VS2010開發(fā)工具,使用在VS2010開發(fā)平臺(tái),快速高效地搭建系統(tǒng)軟件的用戶界面和編寫相關(guān)的底層源代碼。
本文中采用B/S模式與C/S模式相結(jié)合的開發(fā)方式,既可以提供Web界面又可以提供Windows界面,這樣結(jié)合了兩種模式的優(yōu)點(diǎn)使本文的開發(fā)更加科學(xué)高效,同時(shí)利于今后的系統(tǒng)維護(hù)工作。另外,本文結(jié)合兩種模式,服務(wù)端提供了成熟的Web接口服務(wù),Web接口服務(wù)既可以在本文所設(shè)計(jì)的系統(tǒng)中使用,也可以提供給第3方。
[1] 靳守軍.移動(dòng)通信網(wǎng)管信息經(jīng)營分析與實(shí)踐[D].上海:復(fù)旦大學(xué),2008.
[2] 張美圖.數(shù)據(jù)倉庫和數(shù)據(jù)挖掘在電信領(lǐng)域經(jīng)營分析中的應(yīng)用研究[D].長春:吉林大學(xué),2005.
[3] 李杰.甘肅移動(dòng)經(jīng)營分析系統(tǒng)的研究與設(shè)計(jì)[D].北京:北京郵電大學(xué),2008.
[4] 李永祥.基于OLAP的電力客戶能效評(píng)估方法及應(yīng)用[D].蘭州:蘭州理工大學(xué),2012.
[5] 丁知斌,袁方.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)在高校學(xué)生成績分析中的應(yīng)用[J].河北大學(xué)成人教育學(xué)院學(xué)報(bào),2004,6(4):19-21.
[6] 崔志明,王鑫印.基于虛擬數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)研究[J].微電子學(xué)與計(jì)算機(jī),2003(12):76-78,81.
[7] 楊越.數(shù)據(jù)挖掘在政府部門決策管理系統(tǒng)中的數(shù)據(jù)與應(yīng)用[D].鄭州:解放軍信息工程大學(xué),2013.
[8] 李耿.基于數(shù)據(jù)倉庫技術(shù)的政府經(jīng)濟(jì)決策支持系統(tǒng)[D].上海:華東師范大學(xué),2007.
[9] 朱姝.基于SQL數(shù)據(jù)挖掘在書目推薦中的應(yīng)用[J].淮海工學(xué)院學(xué)報(bào):自然科學(xué)版,2013,22(2):35-38.
[10] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[M].北京:機(jī)械工業(yè)出版社,2004.
[11] 高洪深.決策支持系統(tǒng)(DSS):理論與方法[M].4版.北京:清華大學(xué)出版社,2009.
[12] 鄭阿奇,劉啟芬,顧韻華.SQL Server數(shù)據(jù)庫教程[M].北京:人民郵電出版社,2008.