摘要:高等學(xué)校教學(xué)質(zhì)量管理需要數(shù)據(jù)挖掘系統(tǒng)來(lái)支持。介紹了數(shù)據(jù)挖掘技術(shù)以及常用的數(shù)據(jù)挖掘方法,對(duì)如何設(shè)計(jì)基于SQL Server的高校教學(xué)質(zhì)量數(shù)據(jù)挖掘系統(tǒng)進(jìn)行了探討。以決策樹(shù)方法為基礎(chǔ)、SQL Server為挖掘平臺(tái),設(shè)計(jì)了教學(xué)質(zhì)量數(shù)據(jù)挖掘模塊,實(shí)現(xiàn)了教學(xué)質(zhì)量數(shù)據(jù)挖掘系統(tǒng)。
關(guān)鍵詞:SQL Server;教學(xué)質(zhì)量;數(shù)據(jù)挖掘
中圖分類號(hào):TP181文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2009)35-9907-02
SQL Server-based Data Mining University's Teaching Quality
WANG Zhen-xi
(Department of Information Engineering, Hunan Urban Construction College, XiangTan 411100, China)
Abstract: Teaching Quality management needs to support data mining system. Introduced the data mining technology and commonly used data mining methods, how to design a SQL Server-based data mining system, the quality of college teaching were discussed. With decision tree method is based, SQL Server as a mining platform designed for the quality of teaching data mining module to achieve the quality of teaching data mining system.
Key words: SQL Server; teaching quality; data mining
隨著教育事業(yè)的飛速發(fā)展,特別是高等教育的快速發(fā)展,教育管理信息化、現(xiàn)代化水平有了長(zhǎng)足的進(jìn)步。信息系統(tǒng)的成功實(shí)施為各高校的日常管理工作帶來(lái)了很大的便利,提高了管理效率和水平,在日常的工作中也積累了越來(lái)越多的數(shù)據(jù)。隨著網(wǎng)上評(píng)教、學(xué)生成績(jī)管理、教學(xué)過(guò)程管理等系統(tǒng)的實(shí)施,教學(xué)過(guò)程中的數(shù)據(jù)不斷增加,為進(jìn)行高校教學(xué)質(zhì)量信息的數(shù)據(jù)挖掘提供了基礎(chǔ)信息。
數(shù)據(jù)挖掘研究如何從大量的數(shù)據(jù)中智能地、自動(dòng)地提取出有價(jià)值的知識(shí)和信息,是當(dāng)前相當(dāng)活躍的研究領(lǐng)域。近年來(lái),隨著我國(guó)高等教育事業(yè)的飛速發(fā)展及教育信息化建設(shè)的快速發(fā)展,知識(shí)的自動(dòng)獲取己經(jīng)成為制約高校進(jìn)一步發(fā)展的“瓶頸”。因此,研究應(yīng)用數(shù)據(jù)挖掘技術(shù),開(kāi)發(fā)高校管理教學(xué)質(zhì)量數(shù)據(jù)挖掘系統(tǒng),對(duì)提高教學(xué)管理水平和教學(xué)質(zhì)量具有理論意義和重要的實(shí)用價(jià)值。
介紹了數(shù)據(jù)挖掘的相關(guān)概念,探討了數(shù)據(jù)挖掘技術(shù)及其在SQL Server中的實(shí)現(xiàn),研究了決策樹(shù)方法在教學(xué)質(zhì)量數(shù)據(jù)挖掘中的應(yīng)用。探討了教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)方法,將原始數(shù)據(jù)經(jīng)過(guò)清理后導(dǎo)入SQL Server 2000,構(gòu)建相應(yīng)的數(shù)據(jù)倉(cāng)庫(kù),然后調(diào)用SQL Server分析服務(wù)模塊所提供的數(shù)據(jù)挖掘算法來(lái)構(gòu)建數(shù)據(jù)挖掘模型。給出了教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘系統(tǒng)的軟件框架,并使用相關(guān)數(shù)據(jù)進(jìn)行了關(guān)聯(lián)規(guī)則算法的實(shí)驗(yàn),對(duì)結(jié)果進(jìn)行了初步分析。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘最早于1989出現(xiàn),由于是一門(mén)新興的來(lái)自各種不同領(lǐng)域的交叉性學(xué)科,數(shù)據(jù)挖掘(Data Mining, DM) 數(shù)據(jù)挖掘,就是從大型數(shù)據(jù)庫(kù)的數(shù)據(jù)中提取人們感興趣的知識(shí)。[1]這些知識(shí)是隱含的、事先未知的潛在有用信息,提取的知識(shí)表示為概念(Concepts)、規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。數(shù)據(jù)挖掘確切地講是一種決策支持過(guò)程,它主要基于人工智能、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)學(xué)等技術(shù),高度自動(dòng)化地分析企業(yè)原有的數(shù)據(jù),作出歸納性的推理,從中挖掘出潛在的模式,預(yù)測(cè)客戶的行為,幫助企業(yè)的決策者調(diào)整市場(chǎng)策略,減少風(fēng)險(xiǎn),作出正確的決策。[2]
1.1 數(shù)據(jù)挖掘過(guò)程
數(shù)據(jù)挖掘過(guò)程一般由三個(gè)主要的階段組成:數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋,如圖1所示。
整個(gè)挖掘過(guò)程是一個(gè)不斷反復(fù)的過(guò)程。比如,用戶在挖掘途中發(fā)現(xiàn)選擇的數(shù)據(jù)不太好,或使用的挖掘技術(shù)產(chǎn)生不了期望的結(jié)果。這時(shí),用戶需要重復(fù)先前的過(guò)程,甚至從頭重新開(kāi)始。
1.2 常用的數(shù)據(jù)挖掘方法
在選定了數(shù)據(jù)挖掘過(guò)程模型后,另一個(gè)需要著重考慮的是挖掘算法的選擇。數(shù)據(jù)挖掘是從人工智能領(lǐng)域的一個(gè)分支一機(jī)器學(xué)習(xí)發(fā)展而來(lái)的,因此機(jī)器學(xué)習(xí)、模式識(shí)別、人工智能領(lǐng)域的常規(guī)技術(shù),如聚類(Clustering)、決策樹(shù)(Decision Tree)、統(tǒng)計(jì)等方法經(jīng)過(guò)改進(jìn),大都可以應(yīng)用于數(shù)據(jù)挖掘。人工神經(jīng)網(wǎng)絡(luò)方法、粗糙集理論方法、關(guān)聯(lián)規(guī)則方法、遺傳算法方法、決策樹(shù)方法及統(tǒng)計(jì)分析方法是數(shù)據(jù)挖掘的常用方法。[3]
1.3 SQL Server中的數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘是SQL Server的一整套數(shù)據(jù)管理工具中的新增品種。數(shù)據(jù)挖掘和OLAP都是微軟分析服務(wù)的組成部分,都是決策支持工具,但他們是為不同的用處而設(shè)計(jì)的。在數(shù)據(jù)挖掘模型上微軟采用了特殊數(shù)據(jù)結(jié)構(gòu)來(lái)存儲(chǔ)數(shù)據(jù)挖掘模型,要瀏覽它需要使用微軟Analysis Manager、采用OLE DB for Data Mining Servises的應(yīng)用程序,或者諸如決策支持對(duì)象(DSO)的COM接口。所有這些工具允許創(chuàng)建、復(fù)制、改變和刪除新的數(shù)據(jù)模型。通過(guò)OLE DB可以與各種數(shù)據(jù)源建立直接的數(shù)據(jù)連接。[4]
服務(wù)器端的Analysis Services體系結(jié)構(gòu)提供可以建立和操縱OLAP立方體、數(shù)據(jù)挖掘模型的核心程序。除了本地安全訪問(wèn)外,服務(wù)器還要管理對(duì)原始數(shù)據(jù)源地連接。處理立方體和模型時(shí),服務(wù)器要管理數(shù)據(jù)存儲(chǔ)的機(jī)制。他要維護(hù)微軟SQL Server 2000 Meta Data Services存儲(chǔ)和使用的元數(shù)據(jù)存儲(chǔ)區(qū)。Analysis Manager中提供的用戶界面包含了Data TransformationServices(DTS),這是SQL server 2000的一項(xiàng)服務(wù),它在數(shù)據(jù)源之間傳輸和清理數(shù)據(jù)。Analysis Manager是Analysis Services的主要接口,它還有其他的一些編程接口允許用戶前端應(yīng)用程序與控制服務(wù)器借口的 COM對(duì)象模型相互作用。
2 決策樹(shù)方法在教學(xué)質(zhì)量數(shù)據(jù)挖掘中的應(yīng)用
決策樹(shù)一是一個(gè)類似于流程圖的樹(shù)結(jié)構(gòu),其中每個(gè)節(jié)點(diǎn)表示在一個(gè)屬性上的測(cè)試,每個(gè)分枝代表一個(gè)測(cè)試輸出,每個(gè)樹(shù)葉節(jié)點(diǎn)代表類或類分布。建立決策樹(shù)的目標(biāo)是通過(guò)訓(xùn)練樣本建立目標(biāo)類變量關(guān)于各輸入變量的分類預(yù)測(cè)模型,全面實(shí)現(xiàn)輸入變量和目標(biāo)變量在不同取值下的數(shù)據(jù)分組,進(jìn)而用于新數(shù)據(jù)對(duì)象的分類和預(yù)測(cè)。
建立決策樹(shù)的經(jīng)典算法是ID3算法,它可以被描述成一個(gè)遞歸的過(guò)程:首先,選擇訓(xùn)練樣本的一個(gè)屬性作為節(jié)點(diǎn),對(duì)該屬性的每種可能的取值創(chuàng)建一個(gè)分枝,并據(jù)此將訓(xùn)練樣本劃分為凡個(gè)子集。然后,對(duì)每個(gè)分枝采取相同的方法,訓(xùn)練樣木是其父節(jié)點(diǎn)劃分的若干子集中的對(duì)應(yīng)于該分枝取值的那個(gè)樣本子集。
3 數(shù)據(jù)挖掘在教學(xué)質(zhì)量評(píng)估中的應(yīng)用
3.1 基于純SQL Server的數(shù)據(jù)挖掘系統(tǒng)實(shí)現(xiàn)方法
隨著OLE DB For DM規(guī)范的發(fā)布,使得數(shù)據(jù)挖掘和關(guān)系數(shù)據(jù)庫(kù)以及數(shù)據(jù)倉(cāng)庫(kù)的集成成為可能,因此微軟公司在其數(shù)據(jù)庫(kù)產(chǎn)品SQL Server中包含了數(shù)據(jù)挖掘特性,由SQL Server的分析服務(wù)(Analysis Services)模塊提供數(shù)據(jù)挖掘服務(wù)。分析服務(wù)是一整套的決策支持引擎和工具,分析服務(wù)的訪問(wèn)是通過(guò)圖形用戶界面土具,并且通過(guò)微軟管理控制臺(tái)接口運(yùn)行。它可以訪問(wèn)兩種形式的決策支持機(jī)制:數(shù)據(jù)挖掘和聯(lián)機(jī)分析處理。在對(duì)教學(xué)質(zhì)量評(píng)估數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘時(shí)一,可以直接使用分析服務(wù)提供的數(shù)據(jù)挖掘功能。[5]
首先,將教學(xué)質(zhì)量評(píng)估中的數(shù)據(jù)導(dǎo)入SQL Server,對(duì)數(shù)據(jù)進(jìn)行相關(guān)處理,創(chuàng)建星型結(jié)構(gòu)的數(shù)據(jù)倉(cāng)庫(kù),為數(shù)據(jù)挖掘模型準(zhǔn)備好數(shù)據(jù)源。然后,啟動(dòng)Microsoft SQL Server 2000 Analysis Services,利用系統(tǒng)提供的“挖掘模型向?qū)А?,?gòu)建數(shù)據(jù)挖掘模型,直接選擇其中的數(shù)據(jù)挖掘算法(如微軟決策樹(shù)方法Microsoft Decision Tree)對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)挖掘。
3.2 SQL Server與外部模塊結(jié)合的數(shù)據(jù)挖掘系統(tǒng)實(shí)現(xiàn)方法
雖然基于SQL Server分析服務(wù)本身的數(shù)據(jù)挖掘算法可以構(gòu)造數(shù)據(jù)挖掘解決方案,但是SQL Server分析服務(wù)提供的算法有限。將數(shù)據(jù)挖掘模塊外掛于SQL Server進(jìn)行數(shù)據(jù)挖掘,在算法的選擇上具有足夠的靈活性,同時(shí)該算法也可以與SQL Server分析服務(wù)結(jié)合使用。這種方式下SQL Server不僅可以提供完善的數(shù)據(jù)管理服務(wù),同時(shí)通過(guò)使用SQLServer提供的DTS等工具對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù),將整個(gè)數(shù)據(jù)挖掘解決方案構(gòu)建在數(shù)據(jù)倉(cāng)庫(kù)之上,這在一定程度上提高了數(shù)據(jù)挖掘的質(zhì)量和效率。[6]
在基于SQL Server構(gòu)建數(shù)據(jù)挖掘模塊時(shí),整個(gè)系統(tǒng)采用C/S結(jié)構(gòu),將數(shù)據(jù)挖掘數(shù)據(jù)源組織存儲(chǔ)在服務(wù)器端數(shù)據(jù)庫(kù),而數(shù)據(jù)挖掘模塊運(yùn)行在客戶端應(yīng)用程序。實(shí)現(xiàn)數(shù)據(jù)挖掘算法外掛于SQL Server來(lái)構(gòu)建數(shù)據(jù)挖掘解決方案的關(guān)鍵,是解決數(shù)據(jù)挖掘算法與數(shù)據(jù)庫(kù)的數(shù)據(jù)交互問(wèn)題。
首先,將源數(shù)據(jù)(學(xué)生評(píng)教數(shù)據(jù)、教師相關(guān)數(shù)據(jù))經(jīng)過(guò)抽取、轉(zhuǎn)換加載存儲(chǔ)到服務(wù)器端SQL Server數(shù)據(jù)庫(kù),SQL Server的DTS工具可以完成大部分?jǐn)?shù)據(jù)的轉(zhuǎn)換和清理工作,這樣不同源數(shù)據(jù)就可以統(tǒng)一有序的存儲(chǔ)在服務(wù)器端的SQL Server數(shù)據(jù)庫(kù)中,為數(shù)據(jù)挖掘做好數(shù)據(jù)準(zhǔn)備。其次,利用某種高級(jí)語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)挖掘算法,編制相應(yīng)的外掛數(shù)據(jù)挖掘模塊。最后,與服務(wù)器上的數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)交互。在這種利用外掛模塊實(shí)現(xiàn)數(shù)據(jù)挖掘的方案中,不同的數(shù)據(jù)庫(kù)的訪問(wèn)技術(shù)有所不同,微軟公司的主要的數(shù)據(jù)訪問(wèn)方法是ADO,它是一個(gè)簡(jiǎn)單的對(duì)象模型,在應(yīng)用程序中使用該模型可以方便的與SQL Server數(shù)據(jù)庫(kù)進(jìn)行數(shù)據(jù)交互。
3.3 數(shù)據(jù)挖掘模塊的實(shí)現(xiàn)過(guò)程
教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘模塊包括數(shù)據(jù)清洗、生成事務(wù)庫(kù)、生成頻繁項(xiàng)集、生成關(guān)聯(lián)規(guī)則庫(kù)共四個(gè)子模塊。它們的主要功能分別為:對(duì)學(xué)生評(píng)教數(shù)據(jù)進(jìn)行清冼并從教師檔案庫(kù)以及清洗后的學(xué)生評(píng)教數(shù)據(jù)庫(kù)中提取數(shù)據(jù)挖掘?qū)ο?、?duì)數(shù)據(jù)挖掘?qū)ο筮M(jìn)行編碼并將關(guān)系表轉(zhuǎn)換為事務(wù)庫(kù)、根據(jù)給定的最小支持度在事務(wù)庫(kù)的基礎(chǔ)上生成頻繁項(xiàng)集、根據(jù)給定的最小置信度由頻繁項(xiàng)集生成關(guān)聯(lián)規(guī)則并顯示。數(shù)據(jù)挖掘模塊的實(shí)現(xiàn)過(guò)程如圖2所示。
4 總結(jié)
本文介紹了數(shù)據(jù)挖掘的基本概念,探討了常用的數(shù)據(jù)挖掘技術(shù)及其挖掘算法,結(jié)合實(shí)例研究分析了決策樹(shù)方法中ID3算法的實(shí)現(xiàn)過(guò)程。本文探討了教學(xué)質(zhì)量評(píng)估數(shù)據(jù)挖掘系統(tǒng)的實(shí)現(xiàn)方法,給出了基于SQL Server的兩種數(shù)據(jù)挖掘的解決方案。當(dāng)前,對(duì)數(shù)據(jù)挖掘技術(shù)的研究與應(yīng)用正方興未艾,隨著技術(shù)的不斷成熟,未來(lái)的應(yīng)用領(lǐng)域會(huì)更加廣泛,在教育領(lǐng)域內(nèi)的應(yīng)用也會(huì)更加深入。
參考文獻(xiàn):
[1] 黃解軍,潘和平,萬(wàn)幼川.數(shù)據(jù)挖掘技術(shù)的應(yīng)用研究[J].計(jì)算機(jī)工程與應(yīng)用,2003,(2):45-47.
[2] Seidm C.SQL Server 2000數(shù)據(jù)挖掘技術(shù)指南[M].北京:機(jī)械工業(yè)出版社,2001.
[3] 黃容,黨齊民,歐建雄.基于連鎖超市的數(shù)據(jù)倉(cāng)庫(kù)開(kāi)發(fā)模型[J].計(jì)算機(jī)與現(xiàn)代化,2003,90(2):21-24.
[4] 彭木根,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002.
[5] 丁元明.基于數(shù)據(jù)挖掘技術(shù)的高校輔助決策支持系統(tǒng)研究[D].上海:華東師范大學(xué),2005.
[6] 陳善柳.數(shù)據(jù)挖掘技術(shù)在高校教學(xué)質(zhì)量評(píng)估中的應(yīng)用研究[D].長(zhǎng)沙:中南大學(xué),2004.