王麗娜
(河南司法警官職業(yè)學(xué)院信息技術(shù)系,河南 鄭州 450011)
數(shù)據(jù)挖掘在教務(wù)管理中的應(yīng)用研究
王麗娜
(河南司法警官職業(yè)學(xué)院信息技術(shù)系,河南 鄭州 450011)
為了全面了解學(xué)生在校的學(xué)習情況,更客觀地了解學(xué)校教學(xué)對學(xué)生學(xué)習狀況的影響,本文對學(xué)生的成績進行分析,采用了關(guān)聯(lián)規(guī)則的Apriori算法挖掘出了學(xué)生的前期課程和后續(xù)課程之間的關(guān)系、理論課程和實驗課程的關(guān)系、教師對學(xué)生學(xué)習情況的影響以及高中知識學(xué)習情況對大學(xué)學(xué)習情況的影響。
數(shù)據(jù)挖掘;關(guān)聯(lián)規(guī)則;Apriori
近年來隨著教育信息化建設(shè)的不斷推進和招生規(guī)模的擴大,作為高校信息化建設(shè)的一部分,教學(xué)管理系統(tǒng)的數(shù)據(jù)不斷膨脹,存儲了大量的成績數(shù)據(jù),積累了海量的數(shù)據(jù)。但是目前大部分高校的教學(xué)管理系統(tǒng)的功能比較簡單,只能夠進行簡單的數(shù)據(jù)增加、刪除、修改以及一些簡單的評價功能,如學(xué)生成績的分布等。我們面對大量的數(shù)據(jù)卻無法獲得最想要的信息,雖然也有不少的研究者將數(shù)據(jù)挖掘的算法應(yīng)用到教學(xué)管理系統(tǒng)中,但是研究涉及的問題具有片面性、單一性。如何從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律,找出隱含的信息和模式,從而提高高校教學(xué)管理水平,是目前高校迫切需要解決的熱點問題。
我們將數(shù)據(jù)挖掘技術(shù)應(yīng)用于教學(xué)管理系統(tǒng),重點挖掘和分析了學(xué)生培養(yǎng)計劃中的前期課程和后續(xù)課程之間的關(guān)系、理論課程與實驗課程之間的關(guān)系以及教學(xué)活動的兩個主要的參與者——教師教學(xué)情況對學(xué)生學(xué)習的影響。
數(shù)據(jù)挖掘技術(shù)[1一3]是從數(shù)據(jù)庫中大量的存儲數(shù)據(jù)中提取一些隱含的有用信息,它可以充分利用現(xiàn)有的數(shù)據(jù),揭示這些數(shù)據(jù)隱藏的關(guān)系,為用戶提供科學(xué)、客觀的分析結(jié)果,并能夠?qū)ξ磥戆l(fā)展趨勢的預(yù)測提供一定的參考。
數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則算法是為了揭示兩個或者多個變量值之間存在的規(guī)律關(guān)系。在關(guān)聯(lián)規(guī)則的算法中,選取了Apriori[4]算法對數(shù)據(jù)進行挖掘分析。這個算法是影響力廣泛的挖掘數(shù)據(jù)之間布爾關(guān)聯(lián)規(guī)則的頻繁項集的算法。
這個算法使用了頻繁項集的先驗知識,并進行逐層的搜索迭代,找出下一層的頻繁項集。首先從已經(jīng)進行過預(yù)處理的數(shù)據(jù)中,選取所有的項集作為最初的頻繁項集,這為第一層的頻繁項集,記為L1;然后利用L1項集尋找第二層的頻繁項集,記為L2;然后再利用L2,尋找L3;一直到找不出任何的頻繁項集,找出關(guān)聯(lián)規(guī)則,而且這些規(guī)則是滿足最小的置信度和支持度的。其中支持度是確定規(guī)則可以用于給定數(shù)據(jù)集的頻繁程度,而置信度是一個項在另一個項中出現(xiàn)的頻繁程度。
數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則是挖掘兩個或者多個條件之間的關(guān)系。而對于教學(xué)管理系統(tǒng)中,可以挖掘的條件比較多,例如學(xué)生的學(xué)習成績、理論課程成績、實驗課程成績、教師的信息等。
學(xué)校在安排學(xué)生學(xué)習專業(yè)課時,一般都會事先安排一些基礎(chǔ)課程,為專業(yè)課的學(xué)習打下基礎(chǔ)。而這些基礎(chǔ)課就是前期課程,而專業(yè)課成為后續(xù)課程。即使同為專業(yè)課程,學(xué)習的順序不同,對學(xué)生的學(xué)習狀況產(chǎn)生不同的結(jié)果,這也是挖掘的重點內(nèi)容。而且目前針對教學(xué)管理系統(tǒng)的大部分研究,都忽略了一個非常重要的前期課程——高中課程。因此,在挖掘前期課程和后續(xù)課程之間的關(guān)系時,將高考的成績作為一個原始的項集加入到最初的頻繁項集中,從而挖掘高中的學(xué)習情況對于進入大學(xué)后學(xué)習情況的影響。
學(xué)生在進入大學(xué)之后,進行的是一個系統(tǒng)化的學(xué)習,不僅包括理論課也包括動手能力的訓(xùn)練即實驗課程的學(xué)習,例如計算機等工科專業(yè)。計算機專業(yè)是一個很典型的應(yīng)用訓(xùn)練和理論學(xué)習并重的專業(yè)。而對于理論課程的學(xué)習是否和實驗課程的學(xué)習相關(guān)也是我們研究的內(nèi)容。
本文研究的另一個關(guān)鍵點,是教學(xué)活動的兩個重要參與者——教師和學(xué)生中教師對學(xué)生的影響。教師作為教學(xué)活動的重要參與者,對于學(xué)生學(xué)習情況的影響是比較重要的。每個學(xué)期學(xué)生都要對本學(xué)期所學(xué)課程的教師教學(xué)質(zhì)量進行評價。從學(xué)生所學(xué)課程的成績以及這名學(xué)生對于相對應(yīng)的教師的評價來挖掘教師對于學(xué)生學(xué)習的影響。所以將教師的基本信息、學(xué)生的學(xué)習成績以及學(xué)生對該教師的評分作為Apriori算法中最初的項集,挖掘出關(guān)聯(lián)規(guī)則。
研究使用的是我院2010級至2012級計算機應(yīng)用技術(shù)專業(yè)的學(xué)生成績,采用c#語言和ORACLE數(shù)據(jù)庫系統(tǒng)進行數(shù)據(jù)管理和數(shù)據(jù)挖掘分析。首先進行預(yù)處理,將學(xué)生的成績分為優(yōu)、良、中、及格這四個等級。學(xué)生成績在數(shù)據(jù)庫中的形式如表1所示。其中,如果學(xué)生所學(xué)的課程分為理論和實驗課則用“課程名1”表示為理論課程,“課程名2”為相應(yīng)的實驗課,如“Java1”為Java的理論課程成績,Java2為實驗課成績。
在挖掘?qū)W生的前期課程和后續(xù)課程的關(guān)聯(lián)規(guī)則時,設(shè)最小支持度為0.3,最小置信度為0.5,得出如下一些強規(guī)則:如:(Flash,網(wǎng)頁設(shè)計)=>(網(wǎng)站建設(shè)與規(guī)劃)支持度為90%,置信度為73%;(ACCESS)=>(SQLServer數(shù)據(jù)庫管理技術(shù))支持度為80%,置信度為81%;(C#語言程序設(shè)計)=>(JAVA)支持度為80%,置信度為70%等。發(fā)現(xiàn)Flash,網(wǎng)頁設(shè)計對網(wǎng)站建設(shè)與規(guī)劃、ACCESS對SQLServer數(shù)據(jù)庫管理技術(shù)、C#對Java課程學(xué)習的好壞影響較大。從這些結(jié)果可以了解到前期課程的學(xué)習對于后續(xù)課程的學(xué)習有很大的影響。教師在教授前期課程時一定要引導(dǎo)學(xué)生重視該課程的學(xué)習,強調(diào)該前期課程對后續(xù)課程的影響。
表1 學(xué)生學(xué)習成績表
在評價學(xué)生高中成績對于大學(xué)成績的影響時,還使用了高考總成績和大學(xué)里面學(xué)生的平均成績作為項集進行挖掘,其中高考的總成績按照學(xué)生的入學(xué)成績進行排名分為優(yōu),良,中三個區(qū)段,所占比例分別為20%,30%, 50%,學(xué)生的在校平均成績按照分數(shù)分為優(yōu),良,中,及格四個等級。同樣的設(shè)置最小的支持度為0.3,最小的置信度為0.5,得出如下的規(guī)則:(高考成績=‘良’)=>(在校平均成績=‘良’)的支持度為90%,置信度為50%;(高考成績=‘中’)=>(在校平均成績=‘優(yōu)’)的支持度為80%,置信度為30%。從結(jié)果看出,學(xué)生高中階段的學(xué)習情況對于大學(xué)的學(xué)習情況是有一定影響的,但是并不是非常重要。原因是學(xué)生在高中的學(xué)習是被動的學(xué)習,教師教什么學(xué)生學(xué)習什么,而大學(xué)學(xué)習是一個主動學(xué)習的過程,學(xué)習方式的轉(zhuǎn)變,導(dǎo)致了學(xué)生高中學(xué)習的成績對于大學(xué)學(xué)習成績的影響不是很大。
在挖掘理論課程和實驗課程之間的關(guān)系時,設(shè)置最小的支持度為0.3,最小的置信度為0.5,得到一些強規(guī)則,如:((ACCESS1)=‘良’)=>(學(xué)(ACCESS2)=‘良’)支持度為85%,置信度為80%;((ACCESS2)=‘良’)=>((ACCESS1)=‘良’)支持度為83%,置信度為75%。發(fā)現(xiàn)實驗課程的學(xué)習和理論課程的學(xué)習是相互促進的。
表2 教師基本信息表
圖1 學(xué)生對教師的評價表
在教學(xué)管理系統(tǒng)中,有一個教師的基本信息(如表2所示),從這個表格中可以知道某門課程的授課教師的基本情況。同時從一個選課表中,可以知道這個教師教授的課程。
圖1所示的為學(xué)生對教師的評價根據(jù)。不同的條件具有不同的權(quán)重,然后可以對教師評出一個總分。而且學(xué)校也會對教師有一個評價,評價標準也是圖1所示。并且學(xué)校和學(xué)生對教師的評價設(shè)置不同的比重值,這才得出最終的教師的評價總分。然后將這個總分化為5分制即優(yōu)秀、良好、中等、及格和不及格。然后針對于這個評價總分,再結(jié)合教師所教授班級的平均分,進行數(shù)據(jù)整理,形成了教師評價表,如表3所示。
表3 教師評價表
針對于表3,進行數(shù)據(jù)挖掘,設(shè)最小支持度為0.3,最小置信度為0.5,得出如下一些強規(guī)則:例如(教師評價等級(ACCESS)=‘良’)=>(學(xué)生成績(ACCESS)=‘良’)支持度為80%,置信度為70%。從得出的強規(guī)則可以了解到教師對于學(xué)生的學(xué)習是有較大影響的。
我們將關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法用于教務(wù)管理數(shù)據(jù),分析得出對于大學(xué)的課程而言,前期課程對于后期課程、高中學(xué)習情況對于大學(xué)的課程學(xué)習、實驗課程的學(xué)習對于理論課程的學(xué)習、教師對于學(xué)生的學(xué)習都是有一定影響的。這些發(fā)現(xiàn)的規(guī)律和模式,可以使教務(wù)管理者做決策時更加有的放矢,提高教學(xué)管理水平。
[1]JiaweiHan,MichelineKamber.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2007.
[2]邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2003.
[3]蔡偉杰,張曉輝,朱建秋,等.關(guān)聯(lián)規(guī)則挖掘綜述[J].計算機工程,2001(5):8一9.
[4]周翠紅.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則的研究及在高校教學(xué)質(zhì)量評估中的應(yīng)用[P].長沙:中南大學(xué),2007.
Study on the APPlication of Data Mining in Educational Administration
Wang Lina
(Department of Information Technology Henan Judicial Police Vocational College,Zhengzhou Henan 450011)
In order to understand the students’s learning at school comprehensively,more objectively understand the influence of teaching on studentsˊlearning,this article analyzed the studentˊs learning results,used Apriori algorithmof association rulesto evacuatethe relationship between studentsˊpre一course and subsequent course,relationship between studentˊs theoretical courses and experimental courses,teachers’influences onstudents’study,and influences on learning situation of high school knowledge on learning in university.
Data mining;Association rules;Apriori
TP311
A
1003一5168(2015)07一0004一3
2015一6一25
王麗娜(1973一),女,碩士,副教授,研究方向:數(shù)據(jù)挖掘。