樊敏
摘 要: 目前的成績分析僅限于簡單的統(tǒng)計,只對成績的優(yōu)劣評價,而沒有深入分析并給出具體的針對性的建議。為此提出利用考試系統(tǒng)中原始成績數(shù)據(jù),將這些數(shù)據(jù)進行了重組、轉(zhuǎn)換等一系列的預(yù)處理,構(gòu)建了符合算法要求的數(shù)據(jù)模型,并采用決策樹算法對考試成績進行數(shù)據(jù)挖掘。通過對成績的分析,構(gòu)造了成績等級的決策樹,利用提取的決策樹規(guī)則來指導(dǎo)教學(xué)改革和改善教學(xué)環(huán)節(jié),以促進學(xué)生成績優(yōu)秀率的提高,進而提高教學(xué)質(zhì)量。
關(guān)鍵詞: 成績分析; 決策樹算法; 優(yōu)秀率; 考試系統(tǒng)
中圖分類號:TP301 文獻標(biāo)志碼:A 文章編號:1006-8228(2015)12-70-03
Analysis and research on the excellent rate of score based on decision tree algorithm
Fan Min
(Shanxi Medical University Fenyang College information department, Fenyang, Shanxi 032200, China)
Abstract: At present, the score analysis is limited to simple statistics, only for the evaluation of the pros and cons of the results, but no in-depth analysis and specific targeted recommendations. In this paper, the original score data from the exam system is pre-processed, such as reorganization and transformation. Then a data model is constructed to meet the requirements of the algorithm, and the decision tree algorithm is used to carry out data mining on the exam results. Through the analysis of the results, the grade decision tree is constructed and used to guide the teaching reform and improve the teaching process, so as to improve the students' excellent rate of score, and improve the teaching quality.
Key words: score analysis; decision tree algorithm; excellent rate; exam system
0 引言
考試成績是學(xué)生在校期間表現(xiàn)優(yōu)劣評價的重要指標(biāo)之一,同時也是教學(xué)質(zhì)量高低的體現(xiàn)。對高校學(xué)生成績調(diào)查發(fā)現(xiàn),平均及格率為90.5%,而平均優(yōu)秀率(85分以上為優(yōu)秀)不足10%。為了提高學(xué)生成績優(yōu)秀率,需要對學(xué)生成績數(shù)據(jù)進行分析,從數(shù)據(jù)中發(fā)現(xiàn)有價值的信息,用以指導(dǎo)教學(xué)實踐及教學(xué)管理,從而促進教學(xué)質(zhì)量更快更好的提高。
1 現(xiàn)狀分析
目前學(xué)校對學(xué)生成績的管理只是對成績數(shù)據(jù)進行存儲、排序,以及計算及格率、統(tǒng)計平均分等,沒有對學(xué)生成績優(yōu)秀或不及格成績數(shù)據(jù)進行深入挖掘和分析,所以,考試系統(tǒng)對教學(xué)的指導(dǎo)意義不明顯[1]。本文探討通過數(shù)據(jù)挖掘技術(shù)對這些數(shù)據(jù)進行分析,從更深層次挖掘出隱藏在數(shù)據(jù)背后未知的有用信息[2],對這些信息進行有效地利用,以期能有針對性地為教學(xué)提供幫助,對教師教學(xué)水平的提高起到積極作用。
2 數(shù)據(jù)準備
考試系統(tǒng)中生成的成績明細清單有每個考生每道考題的得分情況,且題目具有章節(jié)屬性,這間接反映了學(xué)生對各章知識的掌握情況。挖據(jù)這部分數(shù)據(jù)可以得到各章節(jié)得分情況及其對總分的影響。如果能夠明確學(xué)生對各章節(jié)掌握情況及其對總成績的影響,教師就能夠?qū)ο嚓P(guān)章節(jié)的內(nèi)容進行針對性地教學(xué)和練習(xí)。
本文選取了考試系統(tǒng)中某門課程的成績數(shù)據(jù)進行數(shù)據(jù)挖掘。該課程共6章內(nèi)容,試卷滿分為100分。在考試系統(tǒng)的題庫中試題具有“所屬章”屬性,考試系統(tǒng)自動評卷后會生成成績明細表和成績表,分別保存學(xué)生每道題目的得分和總分,表結(jié)構(gòu)分別為成績明細表(考號,題號,……,所屬章,分值,得分)、成績表(考號,……,總分)。
對于缺考或休學(xué)的學(xué)生,得分都為0,沒有參考價值,屬于噪聲,所以應(yīng)刪除這些信息??荚囅到y(tǒng)中的數(shù)據(jù)不能直接用于數(shù)據(jù)挖掘,需要建立適合決策樹算法的模型,將原有的數(shù)據(jù)進行轉(zhuǎn)換。利用SQL語句得到章得分率表:
SELECT 學(xué)號,所屬章,章得分/章分值 AS 得分率FROM (SELECT學(xué)號,Sum(分值) AS 章分值, Sum(得分) AS 章得分FROM 成績明細表 GROUP BY學(xué)號,所屬章) INTO DBF 得分率。
利用章得分率和成績表創(chuàng)建交叉表查詢得到的考生得分率表如表1,由109條記錄組成。將表1中的得分率轉(zhuǎn)換為0或1,得分率>=0.85用1表示,否則用0表示??偡?=85用“優(yōu)”表示,總分<85用“否”來表示。離散化后的數(shù)據(jù)如表2。
3 數(shù)據(jù)挖掘
3.1 信息熵計算
⑴
其中|S|表示數(shù)據(jù)集S的總數(shù),|Ui|表示類別Ui的例子數(shù)[3]。
在數(shù)據(jù)處理后的訓(xùn)練集109條記錄中,總分取值為“優(yōu)”的有39個,取值為“否”的有70個,根據(jù)熵的計算公式得到:
從分析結(jié)果得出:該課程中第三、四、五章是重點,其中第三章是關(guān)鍵的章節(jié),結(jié)合該課程,第三章的內(nèi)容是第四、五章的基礎(chǔ),所以第三章的教學(xué)最關(guān)鍵。在教學(xué)中應(yīng)分別給予這三個章節(jié)合理的學(xué)時。
4 結(jié)束語
本文以某門課程的成績分析為例說明了在考試系統(tǒng)中進行成績分析的步驟和算法,使得成績分析不局限于簡單的統(tǒng)計分析。通過數(shù)據(jù)挖掘手段,分析出潛在的、影響成績的因素。利用分析結(jié)果有針對性地進行教學(xué)改革,調(diào)整教學(xué)環(huán)節(jié),使教學(xué)效果得到明顯提高。利用本文算法可以分析成績的各個分數(shù)段的影響因素,這種方法有較強的適用性和實用性。
參考文獻(References):
[1] 劉愛民.基于關(guān)聯(lián)規(guī)則的學(xué)生成績分析系統(tǒng)的設(shè)計與實現(xiàn)[D].
吉林大學(xué)碩士學(xué)位論文,2014.
[2] 田偉.基于數(shù)據(jù)挖掘的高校學(xué)生分析與管理[J].牡丹江教育
學(xué)院學(xué)報,2015.3:99-113
[3] 安淑芝等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘[M].清華大學(xué)出版社,2005.
[4] 博則恒.數(shù)據(jù)挖掘決策樹技術(shù)在學(xué)生成績分析中的應(yīng)用研
究[J].廣東技術(shù)師范學(xué)院學(xué)報,2015.2:113-117
[5] 李嵐.基于數(shù)據(jù)倉庫的學(xué)生成績分析與研究[D]. 北京交通大
學(xué)碩士學(xué)位論文,2014.