摘要:現(xiàn)行高等院校教務管理系統(tǒng)中收集了大量的教學信息,但大多數(shù)管理信息系統(tǒng)對這些教學數(shù)據(jù)中所隱含的有價值的數(shù)據(jù)并沒有進行充分的提取或深層次的分析。因此如何能將這些數(shù)據(jù)更高效的應用于教學管理當中已經(jīng)成為人們廣泛關注的焦點。特別是獨立學院,對于教務管理系統(tǒng)中收集的教學信息有必要進行進一步的分析,并結合獨立學院自身和學生的特點來培養(yǎng)學生,給學生以正確的定位。通過介紹數(shù)據(jù)挖掘的基本概念和基本功能,以及分析高校管理信息系統(tǒng)的現(xiàn)狀和不足,提出了數(shù)據(jù)挖掘技術在獨立學院教務管理信息系統(tǒng)中的應用方向。
關鍵詞:數(shù)據(jù)挖掘;獨立學院;教務管理;關聯(lián)分析;決策
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2009)36-10493-03
The Application of Data Mining to the Teaching Management of Independent Colleges
YU Ling-ling
(Urban Construction College, Jilin Architectural and Civil Engineering Institute, Changchun 130111, China)
Abstract: Teaching management system in higher educational institutions collect a large number of teaching information, yet most of the college teaching management information system do not make an adequate and deep analysis of the potential valuable data. Therefore, how to apply the data to the teaching management effectively becomes the focus of attention. It is especially necessary for independent colleges to make further analysis of the teaching information collected in teaching management system in order to cultivate students and give them correct horizon combined with the features of independent colleges and students respectively. By introducing the concept and functions of data mining, and analyzing the current background and shortcomings of the college teaching management information system, the thesis puts forward the application of data mining to teaching management system of independent colleges.
Key words: data mining; independent colleges; teaching management; relevance analysis; strategies
隨著高校招生規(guī)模逐年擴大以及教育方式更加靈活多樣,幾乎每所高校都面臨著學生人數(shù)的急劇增加與教學資源日趨緊張的矛盾,同時高校的一些機構也在不斷地改革變化,這些都給高校的管理帶來了前所未有的發(fā)展和挑戰(zhàn)。在這樣的形勢下,高校應如何以最小的代價獲得最大的發(fā)展成為一個急待解決的新課題。具體來說,現(xiàn)在要求高校領導層從整體的、宏觀的角度認清形勢,解決問題,優(yōu)化教育資源配置,提高教育資源利用率。為此,將數(shù)據(jù)挖掘技術應用于現(xiàn)在的教務管理系統(tǒng)則顯得十分必要。該系統(tǒng)的各項功能除了滿足日常簡單的查詢、統(tǒng)計和維護、全局統(tǒng)籌規(guī)劃管理高校各種信息、協(xié)調各部門工作順利開展,還能夠為高校決策者提供有關教育形勢的瞬時變化、發(fā)展趨勢以及通過高科技手段來開發(fā)歷史數(shù)據(jù),提取隱含在其中的事先未知的、潛在的、深層次的、有價值的信息,以利于管理和決策的開展和進行。
1 數(shù)據(jù)挖掘技術及其應用
1.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘(Data Mining),也叫數(shù)據(jù)開采、數(shù)據(jù)采掘。就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它是一種決策支持過程,挖掘所得出的知識可以被用于信息管理、查詢優(yōu)化、決策支持、過程控制等,還可以用于數(shù)據(jù)自身的維護。數(shù)據(jù)挖掘是從大量的數(shù)據(jù)中提取或“挖掘”知識。數(shù)據(jù)挖掘應該更正確地命名為“從數(shù)據(jù)中挖掘知識”。也可以說,數(shù)據(jù)挖掘是一類深層次的數(shù)據(jù)分析。
數(shù)據(jù)挖掘是一門廣義的交叉學科,它匯聚了不同領域的研究者,尤其是數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等方面的學者和工程技術人員的研究成果。
1.2 數(shù)據(jù)挖掘的功能
數(shù)據(jù)挖掘不僅能對過去的數(shù)據(jù)進行查詢,并且能夠對將來的趨勢和行為進行預測,并自動探測以前未發(fā)現(xiàn)的模式。概括起來,數(shù)據(jù)挖掘主要有五大功能,即自動預測趨勢和行為、關聯(lián)分析、聚類、概念描述和偏差檢測。
1)自動預測趨勢和行為
數(shù)據(jù)挖掘自動在大型數(shù)據(jù)庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據(jù)本身得出結論。一個典型的例子是市場預測問題,數(shù)據(jù)挖掘使用過去有關促銷的數(shù)據(jù)來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產(chǎn)以及認定對指定事件最可能作出反應的群體。
2)關聯(lián)分析
數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據(jù)庫中隱藏的關聯(lián)網(wǎng)。有時并不知道數(shù)據(jù)庫中數(shù)據(jù)的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。
3)聚類
數(shù)據(jù)庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。80年代初,Mchalski提出了概念聚類技術牞其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統(tǒng)技術的某些片面性。
4)概念描述
概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5)偏差檢測
數(shù)據(jù)庫中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
1.3 數(shù)據(jù)挖掘的任務
數(shù)據(jù)挖掘的任務主要有關聯(lián)分析、聚類分析、分類、預測、時序模式、偏差分析等。
1) 關聯(lián)分析(Association Analysis)
兩個或兩個以上數(shù)據(jù)項的取值之間存在某種規(guī)律性,就稱為關聯(lián),可建立起這些數(shù)據(jù)項的關聯(lián)規(guī)則。數(shù)據(jù)關聯(lián)是數(shù)據(jù)庫中存在的一類重要可被發(fā)現(xiàn)的知識,它反映一個事件和其他事件之間依賴或關聯(lián)。如果或多項屬性之間存在關聯(lián),那么其中一項的屬性值就可以依據(jù)其他屬進行預測。
2) 聚類分析(Clustering)
聚類是把數(shù)據(jù)按照它們的相似性歸納成若干類別,同一類別中的數(shù)據(jù)距離較小、彼此相似,不同類別中的數(shù)據(jù)距離偏大、彼此相異。聚類分析建立宏觀的概念,發(fā)現(xiàn)數(shù)據(jù)的分布模式,以及可能的數(shù)據(jù)屬性之間的關系。
3) 分類(Classification)
分類是數(shù)據(jù)挖掘中應用得最多的任務。分類就是找出一個類別的概念,并用這種描述來構造模型(一般用規(guī)則或決策樹模式表示)。類別概念描述代表著這類數(shù)據(jù)的整體信息,也就是該類的內涵描述。
分類的內涵描述分為:特征描述和辨別性描述。特征描述是對類中對象同特征的描述。辨別性描述是對兩個或多個類之間的區(qū)別的描述。
分類的過程是:分析輸入數(shù)據(jù),通過在訓練集中的數(shù)據(jù)所表現(xiàn)出來的,經(jīng)過有關算法,為每一個類找到一種準確的描述或者模型,并使用分類的描述對未來的測試數(shù)據(jù)進行分類。
4) 預測(Predication)
預測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對未來數(shù)種類及特征進行預測。典型的預測方法是回歸分析,即利用大量的歷史數(shù)據(jù),以時間為變量線性或非線性回歸方程。預測時,只要輸入任意的時間值,通過回歸就可求出該時間的狀態(tài)。
5) 時序模式(Time-Series Pattern)
時序模式是指通過時間序列搜索出的重復發(fā)生概率較高的模式。與回歸一樣,它也是用己知的數(shù)據(jù)預測未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時間的不同。在時序模式中,需要找出在某個最小時間內出現(xiàn)比率一直高于某一最小百分比(最小支持度閾值)的規(guī)則。這些規(guī)則會隨著形勢的變化作適當?shù)恼{整。
6) 偏差分析(Deviation)
數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫中數(shù)據(jù)存在的異常情況是非常重要的。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
1.4 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘的過程一般包括:確定挖掘對象、準備數(shù)據(jù)、建立模型、數(shù)據(jù)挖掘和結果分析與知識應用這幾個階段。如圖1所示。
1.5 數(shù)據(jù)挖掘技術在獨立學院教務管理中的應用
1)分析與學習成績有關的因素
通過管理信息系統(tǒng)找到相關數(shù)據(jù):包括學生家庭出身情況、學生的晚自習出勤情況,學生平均每月平均借閱情況、學生平均每月在宿舍住宿天數(shù)、學生每月平均消費、學生每月參加實踐活動的平均次數(shù)、學生的平均成績。學生家庭出身情況可以從檔案管理系統(tǒng)中得到;學生平均每月借閱情況可以從圖書館管理系統(tǒng)中得到;學生平均每月在宿舍住宿天數(shù)、學生每月平均消費可以從校園卡管理系統(tǒng)中得到;學生晚自習出勤情況和每月參加實踐活動的次數(shù)可以從校園辦公自動化系統(tǒng)中的電子文件中得到;學生的平均成績可以從教務管理系統(tǒng)中得到。通過關聯(lián)分析算法對每一個學生的這些數(shù)據(jù)進行分析,可以得出哪些是影響學生成績的重要因素,哪些是次要因素,哪些是無關因素。
2)指導計算機教學工作
全國計算機等級考試是由國家教育部考試中心主辦的全國性計算機認證考試,用于測試計算機應用知識的掌握程度和上機實際操作能力。近幾年來,等級考試的規(guī)模逐年擴大,但通過率有逐年下降趨勢。為了科學、客觀地分析等級考試通過率和預測通過人數(shù),更好地指導考試工作,近年來新興的數(shù)據(jù)挖掘技術,采用分類分析中的決策樹方法,對考點的等級考試成績數(shù)據(jù)實施了數(shù)據(jù)挖掘,從中發(fā)現(xiàn)了潛在的模式,總結知識并結合考點的實際,為考試工作提出了建設性意見,進一步明確了計算機教學方向。
3)優(yōu)化課程設置
學生的課程學習應該是循序漸進的,課程之間也存在一定的關聯(lián)與依承關系。哪些課程應該在前,哪些應該在后,哪些適宜同時進行,其中原因的揭示,就可以通過數(shù)據(jù)挖掘技術來實現(xiàn)。對教學系統(tǒng)數(shù)據(jù)庫存放的歷屆學生各門課程的考試成績數(shù)據(jù),通過數(shù)據(jù)挖掘的關聯(lián)分析與時間序列分析,便可以歸納出影響學生成績的普遍性原因,進而得出此課程與彼課程之間的關聯(lián)關系與依承程度。再將這些信息用于指導課程設置和課程教學安排,必然有助于提高教與學的效率,并不斷使得學生的知識結構更加合理。
4)指導高校就業(yè)工作
畢業(yè)生的就業(yè)相關數(shù)據(jù)和數(shù)據(jù)庫的規(guī)模急劇增長,傳統(tǒng)的數(shù)據(jù)庫管理系統(tǒng)的查詢檢索機制和統(tǒng)計分析方法已不能滿足現(xiàn)實的需要,迫切要求能夠自動地、智能地和快速地從數(shù)據(jù)庫中挖掘出有用的信息和知識。因此,可運用數(shù)據(jù)挖掘理論中的決策樹方法,對高校就業(yè)管理系統(tǒng)中的數(shù)據(jù)進行分析,運用決策樹算法構造決策樹,提取規(guī)則知識,發(fā)現(xiàn)決策屬性對就業(yè)類別的影響,從而為學校領導提供決策支持:提高就業(yè)率、提高就業(yè)層次、改進現(xiàn)行培養(yǎng)機制。
2 結束語
本文通過介紹數(shù)據(jù)挖掘的基本概念、基本功能、主要任務和數(shù)據(jù)挖掘的一般過程,結合現(xiàn)有獨立學院教務管理中的相關信息,對數(shù)據(jù)挖掘技術在教務管理系統(tǒng)中的應用進行討論。包括利用數(shù)據(jù)挖掘中的關聯(lián)分析技術分析與學習成績有關的因素;采用分類分析中的決策樹方法,對考點的等級考試成績數(shù)據(jù)實施了數(shù)據(jù)挖掘,明確了計算機教學方向;根據(jù)歷屆學生各門課程的考試成績數(shù)據(jù)進行關聯(lián)分析,用于指導課程設置和課程教學安排;運用分類分析中的決策樹方法,對高校管理系統(tǒng)中的就業(yè)數(shù)據(jù)進行分析,發(fā)現(xiàn)決策屬性對就業(yè)類別的影響。以上討論數(shù)據(jù)挖掘在獨立學院教務管理中應用的幾個方面,而其在教學的其它方面也有其應用的意義。數(shù)據(jù)挖掘技術在獨立學院教務管理中的應用前景必然會非常廣闊。
參考文獻:
[1] 賈志強,李濤.高校管理中數(shù)據(jù)挖掘技術的應用[J].福建電腦,2008(1):170-171.
[2] 嚴忠貞.高校教學質量評價信息系統(tǒng)中數(shù)據(jù)挖掘技術的研究與應用[J].科教論叢,241.
[3] 潘鋒.淺談數(shù)據(jù)挖掘技術在高校教學管理中的應用[J].重慶科技學院學報,2008(4):100-101.
[4] 何文秀.數(shù)據(jù)挖掘技術在高校就業(yè)工作中的應用研究[J].現(xiàn)代計算機,2008(279):90-92.
[5] 牛慧卿.數(shù)據(jù)挖掘在高校管理信息系統(tǒng)中的應用研究[J].機械管理開發(fā),2007,23(1):131-133.
[6] 張震,胡學鋼,張亞萍.數(shù)據(jù)挖掘在高校課堂教學質量評價體系中的應用[J].電腦開發(fā)與應用,2007,20(2):41-42.
[7] 劉艷霞.數(shù)據(jù)挖掘中聚類分析技術的研究與應用[J].科技情報開發(fā)與經(jīng)濟,2008,18(6):156-157.
[8] 邱月.數(shù)據(jù)挖掘方法在學生成績評價中的應用科技信息[J],2008(9):76-77.