宋雅婷 孟莉秋 孫道層 宮霞英
摘 要 概述數(shù)據(jù)挖掘的概念、實現(xiàn)方法及過程,分析數(shù)據(jù)挖掘在教學應用中的研究方向及用于數(shù)據(jù)挖掘的數(shù)據(jù)來源和數(shù)據(jù)特點,列舉應用于教學領域的一些成功案例,并提出展望。
關鍵詞 數(shù)據(jù)挖掘;教學應用;教學信息化
中圖分類號:TP181 文獻標識碼:B 文章編號:1671-489X(2013)03-0055-03
Data Mining Technology in Instructional Application//Song Yating, Meng Liqiu, Sun Daoceng, Gong Xiaying
Abstract This paper summarizes the concept、method and process of data mining, and analyses research direction of the application of data mining in the teaching, the data sources used for data mining and data features, and enumerates some successful cases in teaching, and puts forward the prospect.
Key words data mining; instructional application; teaching information
1 引言
近年來,人們利用信息技術生產和搜集數(shù)據(jù)的能力大幅度提高,無數(shù)個數(shù)據(jù)庫被用于商業(yè)管理、政府辦公、科學研究和工程開發(fā)等。這樣的形勢在不斷延伸,于是新的挑戰(zhàn)擺在了世人面前:信息爆炸、信息安全等。如何才能從海量的信息中獲得自己所需的信息呢?面對“人們被數(shù)據(jù)淹沒,人們卻饑餓于知識”的挑戰(zhàn),數(shù)據(jù)挖掘技術應運而生,并得以蓬勃發(fā)展。
數(shù)據(jù)挖掘(Data Mining)起源于20世紀90年代中期,是一個新的研究領域,是多門學科和多門技術相結合的產物,它有著廣泛的應用價值。數(shù)據(jù)挖掘技術在商業(yè)、保險、醫(yī)療、制造業(yè)和電信等各個行業(yè)中都取得了滿意的成果,但在教育層面上的應用還只能算是新生事物,處于發(fā)展的初級階段。
隨著教育事業(yè)的飛速發(fā)展,特別是高等教育的快速發(fā)展,教育管理信息化、現(xiàn)代化水平有了不小的進步,各高校在管理信息系統(tǒng)方面已取得了可喜的成績,如大部分高校都在使用學生成績管理系統(tǒng)、教學管理系統(tǒng)、教學評價系統(tǒng)、選課系統(tǒng)等。這些系統(tǒng)的成功實施為各高校的日常管理工作帶來了很大的便利,提高了管理效率和水平,在日常的工作中也積累了越來越多的數(shù)據(jù)。那么如何才能知道這些數(shù)據(jù)背后的一些信息呢?這就是數(shù)據(jù)挖掘的功能所在。目前,許多學者把數(shù)據(jù)挖掘應用在教學領域中,從而提高教學質量和學校管理決策水平。
2 數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘定義
數(shù)據(jù)挖掘是一門交叉學科,其中數(shù)理統(tǒng)計、人工智能和數(shù)據(jù)庫是其三大支柱。它是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程[1]。簡而言之,數(shù)據(jù)挖掘要解決的問題就是在龐大的數(shù)據(jù)中尋找有價值的隱藏信息,加以分析,并將這些有意義的信息歸納成關系或模式結構,提供給有關部門在進行決策時參考。
2.2 數(shù)據(jù)挖掘方法[2]24-25
數(shù)據(jù)挖掘的研究融合了多個不同學科領域的技術與成果,使得目前的數(shù)據(jù)挖掘方法表現(xiàn)出多種多樣的形式。
1)傳統(tǒng)統(tǒng)計分析方法。這類技術包括判別分析、回歸分析、聚類分析、探索性分析、支持向量機等。一般先由用戶提供假設,再由系統(tǒng)利用數(shù)據(jù)進行驗證。缺點是需經培訓后才能使用,同時在數(shù)據(jù)探索過程中,用戶需要重復進行一系列操作。其中支撐矢量機(SVM)是根據(jù)統(tǒng)計學習理論提出的一種新的學習方法,建立在計算學習理論的結構風險最小化的原則之上,可以提高學習機的泛化能力。
2)智能數(shù)據(jù)挖掘方法。這類技術包括人工神經網絡、粗糙集及模糊數(shù)學、遺傳算法(GA)、蟻群算法、人工免疫系統(tǒng)等。
人工神經網絡具有非線性映射特性、信息分布存儲、并行處理、容錯性及高度的自學習、自組織和自適應能力種種優(yōu)點,以BP網和自組織特征映射網(SOM)為代表,在分類和聚類中得到廣泛的應用。
粗糙集方法能在缺少關于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎,解決模糊或不確定數(shù)據(jù)的分析和處理問題,主要應用在數(shù)據(jù)降維、特征提取及和模糊數(shù)學等方法結合用于分類。
遺傳算法和蟻群算法都是一種基于種群的模擬進化算法,具有隨機性、啟發(fā)式、并行性、全局性的優(yōu)化特點,在求解復雜優(yōu)化問題方面具有很大的優(yōu)勢。在數(shù)據(jù)挖掘中主要用于聚類和分類以及和其他數(shù)據(jù)挖掘算法結合實現(xiàn)全局最優(yōu)。
人工免疫系統(tǒng)是通過學習外界物質的自然防御機理的學習技術,提供噪聲忍耐、無教師學習、自組織、記憶等進化學習機理,結合了分類器、神經網絡和機器推理等系統(tǒng)的一些優(yōu)點,在具體應用上還不太廣泛,處于探索階段。
3)機器學習方法。這類方法主要有歸納學習法、基于范例的推理CBR、貝葉斯網絡等?;诜独评硎侵苯邮褂眠^去的經驗或方法來求解給定的問題。目前將范例推理同格子機(Lattice Machine)和最近鄰原理(Nearest Neighbor)相結合是研究的一個方向。另外,基于多關聯(lián)規(guī)則的分類算法(CMRA)是一種新的高效、適應性強的機器學習算法。
4)數(shù)據(jù)庫方法。這類方法主要有基于可視化的多維數(shù)據(jù)分析方法或OLAP方法、面向屬性的歸納方法等。
2.3 數(shù)據(jù)挖掘過程
識別和利用隱藏在數(shù)據(jù)中信息的目標有三個要求:捕獲的數(shù)據(jù)必須集成到教學范圍的視圖,而不是特定的視圖;必須提取包含在集成的數(shù)據(jù)中的信息;必須以有利于制定決策的方式組織得到的信息[2]22。數(shù)據(jù)挖掘,首先選擇數(shù)據(jù),然后把收集到的數(shù)據(jù)轉換為特定的格式存儲起來,并對轉換后的數(shù)據(jù)進行挖掘得到一些結果,最后對該結果加以分析和解釋。
3 數(shù)據(jù)挖掘在教學中的應用
教學中豐富的數(shù)據(jù)資源為數(shù)據(jù)挖掘的應用提供了廣闊的空間,具體應用可以概括為以下幾方面。
3.1 合理的教學模型[3]
對教學模型進行分析是提高教學質量的重要手段,通過采用數(shù)據(jù)挖掘技術對教學模型進行多層次、多角度的分析與挖掘,利用挖掘結果輔助教學決策,從而保證教學質量,提高學生素質。
在國外的高校教學管理中,數(shù)據(jù)挖掘也已成為提高教學管理質量與水平的一種有力工具。如美國學校能夠以85%的精確度去預測學生的升學率,把注意力集中到輟學風險比較大的學生身上[4]。國內數(shù)據(jù)挖掘在教育層面上的應用已經開始,但并不廣泛,而且只是使用單一的數(shù)據(jù)挖掘方法對相關信息進行挖掘,不夠全面。例如:浙江大學的教師使用關聯(lián)規(guī)則發(fā)現(xiàn)技術[5]對高校的人事信息庫進行挖掘,試圖找到影響學科發(fā)展的因素,發(fā)現(xiàn)如何評價一個學科,以及影響學科發(fā)展的各個要素之間的關系;華北電力大學的教師使用Apriori算法對教學信息庫進行數(shù)據(jù)挖掘,尋找高校教學體制中各因素間的關聯(lián)關系等。所以,數(shù)據(jù)挖掘技術在高校教學模型中的應用有待于人們更深入地研究。
3.2 教學管理及信息化[6]
教學管理及信息化工作是學校重要的教學工作之一。為了提高教學管理及信息化工作的高效性、科學性和管理人員的素質,采用數(shù)據(jù)挖掘等技術應用于教學中,如:1)對數(shù)據(jù)進行多角度的統(tǒng)計分析;2)系統(tǒng)自動對數(shù)據(jù)進行管理和分析,進而提出科學的決策。
3.3 Web的個性化學習系統(tǒng)[7]
現(xiàn)代遠程教育最重要的特點之一就是能夠為學生提供個性化的教育。個性化的現(xiàn)代遠程教育將整個教學活動作為一個有機的整體,各教學環(huán)節(jié)之間有密切的聯(lián)系。通過使用數(shù)據(jù)挖掘技術發(fā)現(xiàn)每個學生的個性偏好、學習行為、學習反饋信息和教師感興趣的有關教學的信息,及時調整教學策略,制定適合學生個性的教學內容和教學活動,還可以為學生提供個性化的學習資源,充分發(fā)揮學生的個性潛能。基于Web的個性化學習系統(tǒng)提供的可以反應學生學習效果的數(shù)據(jù)有日志、輔導答疑數(shù)據(jù)、作業(yè)數(shù)據(jù)、在線測試結果數(shù)據(jù)、考試數(shù)據(jù)、學生個人信息。
3.4 教學決策支持系統(tǒng)[8]
教學決策支持系統(tǒng),是以“數(shù)字化校園”建設為背景,目的是研究如何將數(shù)據(jù)挖掘技術與現(xiàn)有的、已經投入使用的EDC數(shù)據(jù)庫系統(tǒng)相結合,從具有海量特征的數(shù)據(jù)中提取出隱藏在數(shù)據(jù)之中的有用信息,為系統(tǒng)管理者和決策者提供綜合分析、輔助決策和決策支持服務的數(shù)據(jù)挖掘工具。
現(xiàn)在已經開發(fā)出基于決策樹算法的學生評估工具模塊和基于關聯(lián)規(guī)則的學生各相關數(shù)據(jù)分析工具模塊。前者以改進的決策樹ID3算法為基礎,根據(jù)學生成績庫中的信息以及其他庫中的有關學生評價的信息,建立一個決策樹成績評估模型,對學生進行相應的綜合分析評估。后者以改進Apriori算法為基礎,從學生成績、個人基本信息、評價信息數(shù)據(jù)中進行數(shù)據(jù)挖掘,發(fā)現(xiàn)各個因素之間的關聯(lián)關系,找到隱藏的規(guī)律,為教學決策提供支持。
3.5 高效選課系統(tǒng)[9]
現(xiàn)在可以將數(shù)據(jù)分析環(huán)境引入到選課系統(tǒng)中,采用個性化關鍵技術對海量的選課數(shù)據(jù)進行分析,最后獲得支持教學組織者運行教學決策的高質量信息,最終給學生提供個性化的選課,并對選課的知識體系形成評價,從而更好地安排學習者的學習需求和完善學科科目設置方案,優(yōu)化教學質量。
3.6 教學評價系統(tǒng)[10]
通過數(shù)據(jù)挖掘技術分析學生成績數(shù)據(jù)庫,得到課程相關性信息,給教務管理人員和學生提供一個有指導意義的參考,為決策提供重要依據(jù),適應學分制改革的需要。在數(shù)據(jù)挖掘過程中采用聚類方法和NP算法,采用SPSS軟件技術對一些專業(yè)的相關數(shù)據(jù)進行統(tǒng)計分析,挖掘數(shù)據(jù)背后隱藏的信息與知識,揭示若干教育現(xiàn)象。
4 教學領域數(shù)據(jù)挖掘應用的發(fā)展趨勢
教學領域對數(shù)據(jù)挖掘的應用需求日益明顯,但無論是理論方面還是應用方面,都還處于發(fā)展階段。比如:如何改進算法,實現(xiàn)對于多個信息庫的兼容;如何實現(xiàn)需求各要素之間的完全正交化的關聯(lián)分析;時間連續(xù)變化和高維數(shù)據(jù)的高效挖掘算法的研究;教學領域數(shù)據(jù)挖掘和知識發(fā)現(xiàn)結構模型的研究。具體的一些小目標,諸如選課系統(tǒng)不僅體現(xiàn)在專業(yè)上,還應實現(xiàn)對學生的情感、身體、精神、文化和社交全面發(fā)展進行;如何確定科學的評價標準,研制開發(fā)一套科學的挖掘系統(tǒng),建立完善教學評價、教師評價等體系,提高教務工作決策的有益及合理,也是下一步要做的工作。
參考文獻
[1]章兢,張小剛.數(shù)據(jù)挖掘算法及其工程應用[M].北京:機械工業(yè)出版社,2006:35-45.
[2]Soman K P,等.數(shù)據(jù)挖掘基礎教程[M].范明,牛常勇,譯.北京:機械工業(yè)出版社,2009.
[3]李娟.數(shù)據(jù)挖掘技術在高校教學模型中的應用研究[D].南京:南京理工大學,2009.
[4]李靜,王建軍.數(shù)據(jù)挖掘在高校教學信息化管理中的應用探討[J].科技信息,2006(8):300-301.
[5]韋偉,王永寬,石冰.基于粗集理論的教學評估體系優(yōu)化方法[J].安慶師范學院學報,2006,12(3):95-96.
[6]錢程東,潘曉輝,汪審權,等.高校教學管理及信息化工作的有關思考[D].長沙:國防科技大學,2006.
[7]李華,何茜,吳中福.基于Web的個性化學習系統(tǒng)研究[D].重慶:重慶大學,2002.
[8]陳治國.數(shù)據(jù)挖掘技術在教學決策支持中的應用研究[D].長沙:國防科學技術大學,2006.
[9]萬曉鳴.數(shù)據(jù)挖掘算法在高校教務選課系統(tǒng)中的應用研究[D].揚州:揚州大學計算機技術,2009.
[10]王長娥.數(shù)據(jù)挖掘在教學評價中的應用研究[D].濟南:山東師范大學,2007.