洪明鏡+++李民堯++王首鈞
摘 要:學生成績數(shù)據(jù)倉庫的概念模型的主要任務就是需求分析,界定系統(tǒng)邊界、確定主題域及內容是其所要完成的主要工作。運用數(shù)據(jù)倉庫的理論與方法對學生成績管理中各種相互聯(lián)系的數(shù)據(jù)進行提取、綜合,以成績分析作為主題建立學生數(shù)據(jù)倉庫可以幫助教師找到決策所需信息,以達到優(yōu)化教學的目的。本文主要是按照邏輯模型技術對學生成績數(shù)據(jù)庫進行設計。
關鍵詞:學生成績 數(shù)據(jù)倉庫 模型設計
一、學生成績數(shù)據(jù)倉庫模型設計
按照邏輯模型技術可以把數(shù)據(jù)建模分為兩類,一類是維度建模,其又可分為星型結構以及雪花型結構,維度建模是數(shù)據(jù)倉庫中典型的邏輯結構,是針對相對獨立的業(yè)務創(chuàng)建針對性的模型。另一類是實體關系建模,此類模型的建立可以通過概念結構設計中的E-R圖來完成。下面我們來看一下這幾類模型的設計分析。
1、星型結構
星型結構是由一個事實表和一組維表組成的,是一種多維的數(shù)據(jù)關系。每個維表都有一個維作為主鍵,事實表主鍵的每個元素都是維表的外鍵,也可以說事實表的組件就是由這些維組成的。事實表包含聯(lián)系事實與維度表的數(shù)字度量值和鍵,它是數(shù)據(jù)倉庫架構中的中央表。維表是數(shù)據(jù)倉庫中的表,包含創(chuàng)建維度所基于的數(shù)據(jù),主要是描述實時數(shù)據(jù)表中的數(shù)據(jù)。
本系統(tǒng)中的分析主題就是學生成績分析,在此我們主要是研究數(shù)據(jù)倉庫系統(tǒng)的學生成績分析。依據(jù)學生成績分析數(shù)據(jù)庫中的數(shù)據(jù),其維度劃分可以歸結為下表:
2、關于學生成績數(shù)據(jù)倉庫設計的雪花型結構
雪花型結構是由多個表定義一個多個維度,可以說是星型結構的一個擴展,其結構域星型結構本質是相同的。該結構中事實數(shù)據(jù)表與主維度表連接,同時其他的維度表也連接到主維度表。雪花型結構也是由事實表和維表構成的,它與星型結構最大的區(qū)別在于該結構將維表進行了規(guī)范化。所以雪花型結構在維度較多的情況下也可以使復雜維度的層次結構清晰,可以節(jié)省存儲空間。但是也應該看到在查詢的時候,雪花型結構設計的連接操作更多。雪花型結構的示意圖如圖1。
在進行數(shù)據(jù)倉庫建模中,星型結構和雪花型結構的優(yōu)點是比較明顯的,這兩種結構比傳統(tǒng)的方法更加簡單,而且用戶也很容易就能理解模型;這兩種結構使數(shù)據(jù)庫的設計面向用戶的查詢。
二、數(shù)據(jù)庫中數(shù)據(jù)的抽取、轉換和加載
數(shù)據(jù)倉庫中的數(shù)據(jù)是統(tǒng)一、完整的數(shù)據(jù)集合,倉庫中數(shù)據(jù)的獲取要經過數(shù)據(jù)的清洗和轉換,而不是簡單地從數(shù)據(jù)源中直接轉移過來。如果只是對原始數(shù)據(jù)進行簡單的堆砌,而不加以清洗和轉換,就會導致不必要的大量數(shù)據(jù)的存在,也會產生數(shù)據(jù)間不完整、不一致的情況。由此可以看出來在數(shù)據(jù)倉庫構建與運行中,數(shù)據(jù)的抽取、轉換和加載是非常主要的環(huán)節(jié),該項工作做的好壞直接關系著數(shù)據(jù)和分析的正確性。
1、關于數(shù)據(jù)抽取
數(shù)據(jù)倉庫中的數(shù)據(jù)量非常大,所以在數(shù)據(jù)抽取中應該采取按需抽取的原則,而不能夠從數(shù)據(jù)庫中抽取所有的數(shù)據(jù)。數(shù)據(jù)抽取的主要依據(jù)可以歸為兩點,首先是按照用戶所使用的數(shù)據(jù)進行抽取,抽取的數(shù)據(jù)應該根據(jù)用戶所關心的內容進行抽取,如果是管理部門可能比較關心學生的基本信息情況,而教務部門可能更加關注的是抽取學生的成績信息。其次是可以依據(jù)某個主題來進行學生相關數(shù)據(jù)的抽取工作,可以采用手動、自動和半自動的方式進行,也可以根據(jù)需要多種方式結合。
2、關于數(shù)據(jù)倉庫建立過程中數(shù)據(jù)的轉化
將數(shù)據(jù)庫中不同類型的數(shù)據(jù)進行轉化,實現(xiàn)數(shù)據(jù)的統(tǒng)一規(guī)范,可以避免由于數(shù)據(jù)類型不同而產生的不一致性。數(shù)據(jù)倉庫中數(shù)據(jù)轉化的關鍵就是“對數(shù)據(jù)進行統(tǒng)一。數(shù)據(jù)轉化就是應該將不同格式的數(shù)據(jù)類型轉化成統(tǒng)一的數(shù)據(jù)格式,數(shù)據(jù)轉化的目的就是為了改善數(shù)據(jù)倉庫中數(shù)據(jù)質量,所以應該完成數(shù)據(jù)的清理和轉化之后再進行數(shù)據(jù)倉庫中數(shù)據(jù)的裝載工作,”以消除數(shù)據(jù)錯誤和不一致問題,填充數(shù)據(jù)空缺值,消除數(shù)據(jù)噪聲影響,糾正數(shù)據(jù)集中的不一致數(shù)據(jù),識別數(shù)據(jù)集中的孤立點等。在學生成績數(shù)據(jù)庫中的相關數(shù)據(jù)都是非常重要的,一般不會存在錯誤現(xiàn)象,因為這些數(shù)據(jù)都是經過多次復查而得到的。
3、關于數(shù)據(jù)的加載
首先對轉化后得到的相關數(shù)據(jù)進行清理,然后將這些數(shù)據(jù)裝入數(shù)據(jù)倉庫中,通常會涉及到將大量數(shù)據(jù)從源數(shù)據(jù)庫系統(tǒng)傳送到目標數(shù)據(jù)倉庫??梢酝ㄟ^設置代理等方式進行數(shù)據(jù)加載,一定要保證數(shù)據(jù)的完整性。對學生成績數(shù)據(jù)信息進行定期的轉換和加載,其目的就是為了保持學生數(shù)據(jù)倉庫和學生成績數(shù)據(jù)庫的一致性。一般采用設置代理的方法,對學生成績數(shù)據(jù)庫中的信息進行定期的轉換和加載,時間一般是設置在每年的2月、8月和11月的第一天,這樣就可以把新生的基本信息以及每學期的學生成績及時地轉換加載到數(shù)據(jù)倉庫中,這樣的方法可以使數(shù)據(jù)倉庫數(shù)據(jù)和學生成績數(shù)據(jù)庫數(shù)據(jù)一致起來。
參考文獻:
[1] 郭桂蓉等編著.模糊模式識別[M]. 國防科技大學出版社, 1992
[2] 王國胤編著.Rough集理論與知識獲取[M]. 西安交通大學出版社, 2001
[3] 曾黃麟編著.粗集理論及其應用[M]. 重慶大學出版社, 1998
[4] 毛國君等編著.數(shù)據(jù)挖掘原理與算法[M]. 清華大學出版社, 2005